JP2023541527A - テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 - Google Patents
テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 Download PDFInfo
- Publication number
- JP2023541527A JP2023541527A JP2023508611A JP2023508611A JP2023541527A JP 2023541527 A JP2023541527 A JP 2023541527A JP 2023508611 A JP2023508611 A JP 2023508611A JP 2023508611 A JP2023508611 A JP 2023508611A JP 2023541527 A JP2023541527 A JP 2023541527A
- Authority
- JP
- Japan
- Prior art keywords
- network
- sample data
- prediction
- deep learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 138
- 238000012549 training Methods 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 136
- 238000000605 extraction Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000012015 optical character recognition Methods 0.000 abstract 2
- 230000008569 process Effects 0.000 description 14
- 238000013434 data augmentation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
Description
本発明は、2021年8月13日に中国国家知的財産権局に提出した、出願番号が202110932789.4.Xであり、発明名称が「テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法」である中国特許出願に基づき優先権を主張する。ここで、その全ての内容は、援用により本発明に組み込まれる。
プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することを含む。
現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも1つを実行することに用いられる。
Claims (20)
- テキスト検出に用いる深層学習モデルトレーニング方法であって、
トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含むことと、
第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択することと、
現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含むことと、
現在選択されている第1類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得することと、を含む、方法。 - 前記深層学習モデルは、符号器ネットワークと、第1復号器ネットワークと、第2復号器ネットワークとをさらに含み、
前記現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得することは、
前記符号器ネットワークにより現在選択されている第1類サンプルデータに対して特徴抽出を行い、大域特徴を取得することと、
前記第1復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第1高次特徴を取得することと、
前記第2復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第2高次特徴を取得することと、
前記単一文字分割サブネットワークにより前記第1高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第1文字数予測サブネットワークにより前記第1高次特徴に対して処理を行い、第1文字数予測値を取得することと、
前記テキスト行分割サブネットワークにより前記第2高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第2文字数予測サブネットワークにより前記第2高次特徴に対して処理を行い、第2文字数予測値を取得することと、を含む、請求項1に記載の方法。 - 前記第1類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含み、
前記現在選択されている第1類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整するステップは、
現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも1つを含む、請求項2に記載の方法。 - 前記方法は、さらに、
複数の第1類サンプルデータの第1文字数予測値及び第2文字数予測値に基づいて、第1文字数予測値と第2文字数予測値との相対エントロピーを確定し、第1相対エントロピーを取得することと、
前記第1相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整することと、を含む、請求項1~3のいずれかに記載の方法。 - 前記トレーニングされた深層学習モデルを取得することは、
プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することを含む、請求項1に記載の方法。 - 前記第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行うことは、
複数の第2類サンプルデータを取得することと、
各前記第2類サンプルデータに対してデータ拡張を行い、各前記第2類サンプルデータに対応する第3類サンプルデータを取得することと、
各前記第2類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第1文字数予測サブネットワークが出力した各前記第2類サンプルデータの第3文字数予測値を取得することと、
各前記第3類サンプルデータをトレーニングされた深層学習モデル入力し、前記第2文字数予測サブネットワークが出力した各前記第3類サンプルデータの第4文字数予測値を取得することと、
各前記第2類サンプルデータの第3文字数予測値及び各前記第3類サンプルデータの第4文字数予測値に基づいて、第3文字数予測値と第4文字数予測値との相対エントロピーを確定し、第2相対エントロピーを取得することと、
前記第2相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整することと、を含む、請求項5に記載の方法。 - 検出しようとするデータを取得することと、
前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、請求項1~6のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法に基づいてトレーニングされたものであることと、
前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することと、を含む、テキスト検出方法。 - 前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することは、
前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第1二値画像を取得することと、
前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第2二値画像を取得することと、
前記第1二値画像における第1数値の領域と前記第2二値画像における第1数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得することと、を含む、請求項7に記載の方法。 - 前記深層学習モデルは、第1文字数予測サブネットワークと第2文字数予測サブネットワークとを除去した深層学習モデルである、請求項7に記載の方法。
- テキスト検出に用いる深層学習モデルトレーニング装置であって、
トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含む、深層学習モデル取得モジュールと、
第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択する、第1類サンプルデータ選択モジュールと、
現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含む、予測結果確定モジュールと、
現在選択されている第1類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュールと、を含む、装置。 - 前記深層学習モデルは、符号器ネットワークと、第1復号器ネットワークと、第2復号器ネットワークとをさらに含み、
前記予測結果確定モジュールは、
前記符号器ネットワークにより現在選択されている第1類サンプルデータに対して特徴抽出を行い、大域特徴を取得する、大域特徴抽出サブモジュールと、
前記第1復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第1高次特徴を取得する、第1高次特徴抽出サブモジュールと、
前記第2復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第2高次特徴を取得する、第2高次特徴抽出サブモジュールと、
前記単一文字分割サブネットワークにより前記第1高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第1文字数予測サブネットワークにより前記第1高次特徴に対して処理を行い、第1文字数予測値を取得する、第1予測サブモジュールと、
前記テキスト行分割サブネットワークにより前記第2高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第2文字数予測サブネットワークにより前記第2高次特徴に対して処理を行い、第2文字数予測値を取得する、第2予測サブモジュールと、を含む、請求項10に記載の装置。 - 前記第1類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含み、
前記トレーニングパラメータ調整モジュールは、
現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも1つを実行することに用いられる、請求項11に記載の装置。 - 複数の第1類サンプルデータの第1文字数予測値及び第2文字数予測値に基づいて、第1文字数予測値と第2文字数予測値との相対エントロピーを確定し、第1相対エントロピーを取得し、前記第1相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する、相互学習モジュールをさらに含む、請求項10~12のいずれかに記載の装置。
- 前記深層学習モデルトレーニングモジュールは、プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することに用いられる、請求項10に記載の装置。
- 前記深層学習モデルトレーニングモジュールは、複数の第2類サンプルデータを取得し、各前記第2類サンプルデータに対してデータ拡張を行い、各前記第2類サンプルデータに対応する第3類サンプルデータを取得し、各前記第2類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第1文字数予測サブネットワークが出力した各前記第2類サンプルデータの第3文字数予測値を取得し、各前記第3類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第2文字数予測サブネットワークが出力した各前記第3類サンプルデータの第4文字数予測値を取得し、各前記第2類サンプルデータの第3文字数予測値及び各前記第3類サンプルデータの第4文字数予測値に基づいて、第3文字数予測値と第4文字数予測値との相対エントロピーを確定し、第2相対エントロピーを取得し、前記第2相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する、ことに用いられる、請求項14に記載の装置。
- 検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、
前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、請求項10~15のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、
前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む、テキスト検出装置。 - 前記テキスト領域確定モジュールは、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第1二値画像を取得し、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第2二値画像を取得し、前記第1二値画像における第1数値の領域と前記第2二値画像における第1数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する、ことに用いられる、請求項16に記載の装置。
- 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを含む、電子デバイスであって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行され、前記少なくとも1つのプロセッサを請求項1~9のいずれかに記載の方法を実行可能にする、電子デバイス。 - 前記コンピュータに請求項1~9のいずれかに記載の方法を実行させる、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体。
- プロセッサによって実行されると請求項1~9のいずれかに記載の方法を実現する、コンピュータプログラムを含む、コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110932789.4A CN113642583B (zh) | 2021-08-13 | 2021-08-13 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
CN202110932789.4 | 2021-08-13 | ||
PCT/CN2022/088280 WO2023015939A1 (zh) | 2021-08-13 | 2022-04-21 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023541527A true JP2023541527A (ja) | 2023-10-03 |
Family
ID=78421795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023508611A Pending JP2023541527A (ja) | 2021-08-13 | 2022-04-21 | テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2023541527A (ja) |
CN (1) | CN113642583B (ja) |
WO (1) | WO2023015939A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642583B (zh) * | 2021-08-13 | 2022-06-28 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
CN114187593B (zh) * | 2021-12-14 | 2024-01-30 | 北京有竹居网络技术有限公司 | 一种图像处理方法及装置 |
CN115376137B (zh) * | 2022-08-02 | 2023-09-26 | 北京百度网讯科技有限公司 | 一种光学字符识别处理、文本识别模型训练方法及装置 |
CN117423116B (zh) * | 2023-12-18 | 2024-03-22 | 杭州恒生聚源信息技术有限公司 | 一种文本检测模型的训练方法、文本检测方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
RU2691214C1 (ru) * | 2017-12-13 | 2019-06-11 | Общество с ограниченной ответственностью "Аби Продакшн" | Распознавание текста с использованием искусственного интеллекта |
CN109002463A (zh) * | 2018-06-05 | 2018-12-14 | 国网辽宁省电力有限公司信息通信分公司 | 一种基于深度度量模型的文本检测方法 |
CN109697232B (zh) * | 2018-12-28 | 2020-12-11 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN110766002B (zh) * | 2019-10-08 | 2022-03-22 | 浙江大学 | 一种基于深度学习的船名字符区域检测方法 |
CN111008633B (zh) * | 2019-10-17 | 2023-03-10 | 安徽清新互联信息科技有限公司 | 一种基于注意力机制的车牌字符分割方法 |
CN111639646B (zh) * | 2020-05-18 | 2021-04-13 | 山东大学 | 一种基于深度学习的试卷手写英文字符识别方法及系统 |
CN113642583B (zh) * | 2021-08-13 | 2022-06-28 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
-
2021
- 2021-08-13 CN CN202110932789.4A patent/CN113642583B/zh active Active
-
2022
- 2022-04-21 JP JP2023508611A patent/JP2023541527A/ja active Pending
- 2022-04-21 WO PCT/CN2022/088280 patent/WO2023015939A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN113642583A (zh) | 2021-11-12 |
CN113642583B (zh) | 2022-06-28 |
WO2023015939A1 (zh) | 2023-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966522B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
JP2023541527A (ja) | テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 | |
CN116051668B (zh) | 文生图扩散模型的训练方法和基于文本的图像生成方法 | |
CN113204615B (zh) | 实体抽取方法、装置、设备和存储介质 | |
JP2022006174A (ja) | モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品 | |
US11893708B2 (en) | Image processing method and apparatus, device, and storage medium | |
US20230162477A1 (en) | Method for training model based on knowledge distillation, and electronic device | |
US20220374678A1 (en) | Method for determining pre-training model, electronic device and storage medium | |
JP2023541742A (ja) | ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム | |
WO2024098623A1 (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
US20230114673A1 (en) | Method for recognizing token, electronic device and storage medium | |
JP2023025126A (ja) | 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
EP3920074A2 (en) | Method for industry text increment, related apparatus, and computer program product | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN115880506B (zh) | 图像生成方法、模型的训练方法、装置及电子设备 | |
US20220414474A1 (en) | Search method, electronic device and storage medium based on neural network model | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
US20220247626A1 (en) | Method For Generating Backbone Network, Apparatus For Generating Backbone Network, Device, And Storage Medium | |
CN115984309B (zh) | 用于训练图像分割模型和图像分割的方法、装置 | |
JP2022166126A (ja) | 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム | |
CN114358198A (zh) | 实例分割方法、装置及电子设备 | |
CN114078274A (zh) | 人脸图像检测方法、装置、电子设备以及存储介质 | |
CN114490969A (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN113408632A (zh) | 提高图像分类准确性的方法、装置、电子设备及存储介质 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231226 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240227 |