JP6961802B2 - 文字画像処理方法、装置、機器及び記憶媒体 - Google Patents
文字画像処理方法、装置、機器及び記憶媒体 Download PDFInfo
- Publication number
- JP6961802B2 JP6961802B2 JP2020511273A JP2020511273A JP6961802B2 JP 6961802 B2 JP6961802 B2 JP 6961802B2 JP 2020511273 A JP2020511273 A JP 2020511273A JP 2020511273 A JP2020511273 A JP 2020511273A JP 6961802 B2 JP6961802 B2 JP 6961802B2
- Authority
- JP
- Japan
- Prior art keywords
- image block
- image
- character
- information
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
Description
本願は、出願番号が201711407535.0で、出願日が2017年12月22日である中国特許出願に基づいて出願され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
文字画像処理方法であって、
被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程と、
ニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得する工程と、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程と、
形態変換後の被処理文字画像に対して文字認識を行う工程と、
を含む文字画像処理方法。
(項目2)
前記画像ブロックは、所定の大きさを有する正方形の画像ブロックである項目1に記載の文字画像処理方法。
(項目3)
前記被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程は、
前記被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程、又は、
前記被処理文字画像に対して補填処理を行って、被処理文字画像全体を含む少なくとも1つの画像ブロックを取得する工程を含む項目1又は2に記載の文字画像処理方法。
(項目4)
前記被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程は、
前記被処理文字画像の中心位置を中心とし、前記被処理文字画像の短辺を辺長として、前記被処理文字画像から1つの画像ブロックを切断する工程を含む項目3に記載の文字画像処理方法。
(項目5)
前記画像ブロック形態変換情報は、
画像ブロックの透視変換情報と、
90度の整数倍を表す画像ブロック回転情報と、
の少なくとも1つを含む項目1〜4の何れか1項に記載の文字画像処理方法。
(項目6)
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程は、
前記90度の整数倍を表す画像ブロック回転情報に基づいて前記被処理文字画像に対して90度の整数倍の回転処理を行う工程と、
前記画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって前記回転処理後の被処理文字画像に対して透視変換を行う工程と、
を含む項目5に記載の文字画像処理方法。
(項目7)
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、前記90度の整数倍を表す画像ブロック回転情報に基づいて前記被処理文字画像に対して90度の整数倍の回転処理を行う工程は、
前記複数の画像ブロックにおける画像ブロックの各々の90度の整数倍を表す画像ブロック回転情報の確率値を取得する工程と、
前記複数の画像ブロックの90度の整数倍を表す画像ブロック回転情報から前記確率値が最大となる90度の整数倍を表す画像ブロック回転情報を選用する工程と、
選用された前記確率値が最大となる90度の整数倍を表す画像ブロック回転情報に基づいて、前記複数の画像ブロックに対して90度の整数倍の回転処理を行う工程と、
を含む項目6に記載の文字画像処理方法。
(項目8)
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、前記画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行う工程は、
前記複数の画像ブロックにおける画像ブロックの各々の透視変換情報に基づいて、前記画像ブロックの各々の透視変換行列を確定する工程と、
前記複数の画像ブロックにおける画像ブロックの各々の透視変換行列に基づいて、透視変換平均行列を確定する工程と、
前記透視変換平均行列によって、前記回転処理後の前記複数の画像ブロックに対して透視変換を行う工程と、
を含む項目6又は7に記載の文字画像処理方法。
(項目9)
前記文字画像処理方法は、文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程を更に含み、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程は、
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を含む項目1〜8の何れか1項に記載の文字画像処理方法。
(項目10)
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を実行しない項目9に記載の文字画像処理方法。
(項目11)
前記文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程は、
ニューラルネットワークに基づいて文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程を含む項目9に記載の文字画像処理方法。
(項目12)
前記文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程は、
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、画像ブロックの各々における文字の前記画像ブロックに占める面積が所定の要求を満たしているかを確定する工程と、
前記少なくとも複数の画像ブロックに文字の占める面積が所定の要求を満たしている画像ブロックの比率を確定する工程と、
前記比率が所定の比率よりも大きい場合、文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報を生成する工程と、
を含む項目10に記載の文字画像処理方法。
(項目13)
前記文字画像処理方法は、
前記比率が前記所定の比率以下である場合、文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する指示情報を生成する工程を更に含む項目12に記載の文字画像処理方法。
(項目14)
前記ニューラルネットワークは、画像特徴を提出するための共有ニューラルネットワーク、画像ブロックの透視変換情報を出力するための第1ブランチ及び90度の整数倍を表す画像ブロック回転情報を出力するための第2ブランチを含み、前記共有ニューラルネットワークの出力端がそれぞれ前記第1ブランチ及び前記第2ブランチの入力端に接続される項目1〜13の何れか1項に記載の文字画像処理方法。
(項目15)
前記ニューラルネットワークの訓練過程は、
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する工程と、
被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する工程と、
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程と、
を含む項目14に記載の文字画像処理方法。
(項目16)
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程は、
前記第1ブランチの出力した画像ブロックサンプルの透視変換情報と前記画像ブロックサンプルの透視変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報における透視変換ラベリング情報をガイド情報として、前記ニューラルネットワークにおける画像特徴を提出するための共有ニューラルネットワーク及び画像ブロックサンプルの透視変換情報を出力するための第1ブランチに対して教師あり学習を行う工程と、
前記第2ブランチの出力した90度の整数倍を表す画像ブロックサンプル回転情報と前記90度の整数倍を表す画像ブロックサンプル回転ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワーク及び前記第1ブランチの訓練が終了した後で、前記共有ニューラルネットワーク及び前記第1ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における90度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、前記ニューラルネットワークにおける90度の整数倍を表す画像ブロックサンプル回転情報を出力するための第2ブランチに対して教師あり学習を行う工程と、
を含む項目15に記載の文字画像処理方法。
(項目17)
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程は、
前記第3ブランチの出力した指示情報と画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワーク及び前記第1ブランチの訓練が終了した後で、前記共有ニューラルネットワーク及び前記第1ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを表すラベリング情報をガイド情報として、前記ニューラルネットワークにおける画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を出力するための第3ブランチに対して教師あり学習を行う工程を更に含む項目16に記載の文字画像処理方法。
(項目18)
形態変換ラベリング情報を有する画像ブロックサンプルを取得することは、
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定する工程を含む項目14〜17の何れか1項に記載の文字画像処理方法。
(項目19)
前記文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定する工程は、
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して透視変換処理を行って、透視変換処理後の領域から文字の占める面積が所定の要求を満たしている画像サンプルブロックを切り出し、前記画像サンプルブロックに対してランダムな90度の整数倍の回転を行う工程と、
前記透視変換処理に用いられる透視変換行列に基づいて前記画像サンプルブロックの透視変換ラベリング情報を確定して、前記ランダムな90度の整数倍の回転に基づいて90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を確定する工程と、
を含む項目18に記載の文字画像処理方法。
(項目20)
文字画像処理装置であって、
被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得するように構成される画像ブロック取得モジュールと、
ニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得するように構成される変換情報取得モジュールと、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される変換処理モジュールと、
形態変換後の被処理文字画像に対して文字認識を行うように構成される文字認識モジュールと、
を含む文字画像処理装置。
(項目21)
ニューラルネットワークに基づいて、文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得するように構成される占有情報取得モジュールと、
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される前記変換処理モジュールと、
を更に含む項目20に記載の文字画像処理装置。
(項目22)
前記変換処理モジュールは、前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を実行しないように構成される項目21に記載の文字画像処理装置。
(項目23)
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成されるサンプル取得モジュールと、
被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得するように構成されるサンプル変換情報取得モジュールと、
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行うように構成される教師あり学習モジュールと、
を更に含む項目20〜22の何れか1項に記載の文字画像処理装置。
(項目24)
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定するように構成されるラベリングモジュールを更に含む項目20〜23の何れか1項に記載の文字画像処理装置。
(項目25)
電子機器であって、
コンピュータプログラムを記憶するように構成される記憶器と、
前記記憶器に記憶されるコンピュータプログラムを実行するように配置され、且つ前記コンピュータプログラムが実行される場合、上記項目1〜19の何れか1項に記載の文字画像処理方法における工程を実現するプロセッサと、
を含む電子機器。
(項目26)
コンピュータプログラムが記憶されるコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される場合、上記項目1〜19の何れか1項に記載の文字画像処理方法における工程を実現するコンピュータ読取可能記憶媒体。
(項目27)
コンピュータ命令を含むコンピュータプログラム製品であって、前記コンピュータ命令が機器のプロセッサにおいて運行される場合、上記項目1〜19の何れか1項に記載の文字画像処理方法における工程を実現するコンピュータプログラム製品。
例えば、中国語の文字、英文の単語、ラテン文字等の様々なタイプのキャラクター又は数字や、
例えば、コンマ、省略記号、括弧、プラス記号等の様々なタイプのセパレータ、句読符号又は数学演算子の中の少なくとも1つを含むが、それらに限定されない。
Claims (22)
- 文字画像処理方法であって、
処理対象の文字画像における文字を含む少なくとも1つの画像ブロックを取得することと、
ニューラルネットワークに基づいて、前記少なくとも1つの画像ブロックの各々の画像ブロック形態変換情報を取得することであって、前記画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定の方向に転換させるために用いられ、前記ニューラルネットワークは、画像特徴を抽出するように構成されている共有ニューラルネットワークと、前記画像ブロックの透視変換情報を出力するように構成されている第1のブランチと、90度の整数倍を表す画像ブロック回転情報を出力するように構成されている第2のブランチとを含み、前記共有ニューラルネットワークの出力端は、前記第1のブランチの入力端および前記第2のブランチの入力端にそれぞれ接続されている、ことと、
前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うことと、
前記形態変換が行われた処理対象の前記文字画像に対して文字認識を行うことと
を含む文字画像処理方法。 - 前記画像ブロックは、所定の大きさを有する正方形の画像ブロックである、請求項1に記載の文字画像処理方法。
- 処理対象の文字画像における文字を含む少なくとも1つの画像ブロックを取得することは、
処理対象の前記文字画像に対して切断処理を行うことにより、処理対象の前記文字画像における前記文字を含む前記少なくとも1つの画像ブロックを取得すること、または、
処理対象の前記文字画像に対して補填処理を行うことにより、処理対象の前記文字画像の全体を含む前記少なくとも1つの画像ブロックを取得すること
を含む、請求項1または請求項2に記載の文字画像処理方法。 - 処理対象の前記文字画像に対して切断処理を行うことにより、処理対象の前記文字画像における前記文字を含む前記少なくとも1つの画像ブロックを取得することは、
処理対象の前記文字画像の中心位置を中心とし、処理対象の前記文字画像の短辺を辺長として、処理対象の前記文字画像から1つの画像ブロックを切断することを含む、請求項3に記載の文字画像処理方法。 - 前記画像ブロック形態変換情報は、
前記画像ブロックの透視変換情報、
90度の整数倍を表す画像ブロック回転情報、
のうちの少なくとも1つを含む、請求項1〜4の何れか1項に記載の文字画像処理方法。 - 前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことは、
前記画像ブロック回転情報に従って、処理対象の前記文字画像に対して90度の整数倍の回転処理を行うことと、
前記透視変換情報に従って、透視変換行列を決定することと、
前記透視変換行列を用いることによって、回転された文字画像に対して透視変換を行うことと
を含む、請求項5に記載の文字画像処理方法。 - 前記少なくとも1つの画像ブロックが複数の画像ブロックである場合において、
前記画像ブロック回転情報に従って、処理対象の前記文字画像に対して90度の整数倍の回転処理を行うことは、
前記複数の画像ブロックにおける各画像ブロックの前記画像ブロック回転情報の確率値を取得することと、
前記複数の画像ブロックの複数の画像ブロック回転情報の中から、最大の確率値を有する画像ブロック回転情報を選択することと、
前記選択された画像ブロック回転情報に従って、前記複数の画像ブロックに対して90度の整数倍の回転処理を行うことと
を含む、請求項6に記載の文字画像処理方法。 - 前記少なくとも1つの画像ブロックが複数の画像ブロックである場合において、
前記透視変換情報に従って、透視変換行列を決定すること、および、前記透視変換行列を用いることによって、処理対象の回転された文字画像に対して透視変換を行うことは、
前記複数の画像ブロックにおける各画像ブロックの前記透視変換情報に従って、各画像ブロックの透視変換行列を決定することと、
各画像ブロックの前記透視変換行列に従って、透視変換平均行列を決定することと、
前記透視変換平均行列を用いることによって、前記複数の回転された画像ブロックに対して透視変換を行うことと
を含む、請求項6または請求項7に記載の文字画像処理方法。 - 前記文字画像処理方法は、前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することを更に含み、
前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うことは、
前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていることを前記指示情報が示す場合において、前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことを含む、請求項1〜8の何れか1項に記載の文字画像処理方法。 - 前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていないことを前記指示情報が示す場合において、前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことが実行されない、請求項9に記載の文字画像処理方法。
- 前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することは、
前記ニューラルネットワークに基づいて、前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することを含む、請求項9に記載の文字画像処理方法。 - 前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することは、
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合において、前記複数の画像ブロックの各々における前記文字によって占められる面積が所定の要求を満たしているかを決定することと、
前記複数の画像ブロックにおいて前記文字によって占められる面積が前記所定の要求を満たしている画像ブロックの比率を決定することと、
前記比率が所定の比率よりも大きい場合、前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていることを示す指示情報を生成することと
を含む、請求項10に記載の文字画像処理方法。 - 前記文字画像処理方法は、
前記比率が前記所定の比率以下である場合、前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていないことを示す指示情報を生成することを更に含む、請求項12に記載の文字画像処理方法。 - ニューラルネットワーク訓練過程は、
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得することと、
訓練対象のニューラルネットワークに基づいて、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得することであって、前記画像ブロックサンプル形態変換情報は、前記画像ブロックサンプルにおける文字方向を所定の方向に転換させるために用いられる、ことと、
訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことと
を含む、請求項1に記載の文字画像処理方法。 - 訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことは、
前記第1のブランチによって出力された前記画像ブロックサンプルの透視変換情報と前記画像ブロックサンプルの透視変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報における透視変換ラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける画像特徴を抽出するように構成されている前記共有ニューラルネットワークおよび前記画像ブロックサンプルの透視変換情報を出力するように構成されている前記第1のブランチに対して教師あり学習を行うことと、
前記第2のブランチによって出力された90度の整数倍を表す前記画像ブロックサンプル回転情報と90度の整数倍を表す前記画像ブロックサンプル回転ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワークの訓練および前記第1のブランチの訓練が終了した後で、前記共有ニューラルネットワークのネットワークパラメータおよび前記第1のブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における90度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける90度の整数倍を表す画像ブロックサンプル回転情報を出力するように構成されている前記第2のブランチに対して教師あり学習を行うことと
を含む、請求項14に記載の文字画像処理方法。 - 訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことは、
第3のブランチによって出力された前記指示情報と前記画像ブロックサンプルにおける前記文字によって占められる面積が前記所定の要求を満たしているかを示す前記ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワークの訓練および前記第1のブランチの訓練が終了した後で、前記共有ニューラルネットワークのネットワークパラメータおよび前記第1のブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における前記画像ブロックサンプルにおける前記文字によって占められる面積が前記所定の要求を満たしているかを表すラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしているかを示す指示情報を出力するように構成されている前記第3のブランチに対して教師あり学習を行うことを更に含む、請求項15に記載の文字画像処理方法。 - 形態変換ラベリング情報を有する画像ブロックサンプルを取得することは、
文字方向が所定の方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行うことと、
前記形態変換処理に従って、前記形態変換ラベリング情報を決定することと
を含む、請求項1〜16の何れか1項に記載の文字画像処理方法。 - 前記文字方向が所定の方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行うこと、および、前記形態変換処理に従って、前記形態変換ラベリング情報を決定することは、
前記文字方向が前記所定の方向である前記文字画像サンプルにおける前記少なくとも一部の領域に対して透視変換処理を行うことと、
透視変換処理が行われた前記領域から、前記文字によって占められる面積が所定の要求を満たしている画像サンプルブロックを捕捉することと、
90度のランダムな整数倍だけ前記画像サンプルブロックを回転させることと、
前記透視変換処理に用いられる透視変換行列に従って、前記画像サンプルブロックの透視変換ラベリング情報を決定することと、
90度の前記ランダムな整数倍の回転に従って、90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を決定することと
を含む、請求項17に記載の文字画像処理方法。 - 文字画像処理装置であって、
処理対象の文字画像における文字を含む少なくとも1つの画像ブロックを取得するように構成されている画像ブロック取得モジュールと、
ニューラルネットワークに基づいて、前記少なくとも1つの画像ブロックの各々の画像ブロック形態変換情報を取得するように構成されている変換情報取得モジュールであって、前記画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定の方向に転換させるために用いられ、前記ニューラルネットワークは、画像特徴を抽出するように構成されている共有ニューラルネットワークと、前記画像ブロックの透視変換情報を出力するように構成されている第1のブランチと、90度の整数倍を表す画像ブロック回転情報を出力するように構成されている第2のブランチとを含み、前記共有ニューラルネットワークの出力端は、前記第1のブランチの入力端および前記第2のブランチの入力端にそれぞれ接続されている、変換情報取得モジュールと、
前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うように構成されている変換処理モジュールと、
前記形態変換が行われた処理対象の前記文字画像に対して文字認識を行うように構成されている文字認識モジュールと
を含む文字画像処理装置。 - 電子機器であって、
コンピュータプログラムを記憶するように構成されている記憶器と、
前記記憶器に記憶されている前記コンピュータプログラムを実行するように構成されているプロセッサであって、前記コンピュータプログラムが実行されると、請求項1〜18の何れか1項に記載の文字画像処理方法における処理が実現される、プロセッサと
を含む電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1〜18の何れか1項に記載の文字画像処理方法における処理が実現される、コンピュータ読み取り可能な記憶媒体。
- コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令が機器のプロセッサにおいて実行されると、請求項1〜18の何れか1項に記載の文字画像処理方法における処理が実現される、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711407535.0 | 2017-12-22 | ||
CN201711407535.0A CN108229470B (zh) | 2017-12-22 | 2017-12-22 | 文字图像处理方法、装置、设备及存储介质 |
PCT/CN2018/112093 WO2019119966A1 (zh) | 2017-12-22 | 2018-10-26 | 文字图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020532001A JP2020532001A (ja) | 2020-11-05 |
JP6961802B2 true JP6961802B2 (ja) | 2021-11-05 |
Family
ID=62648429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020511273A Active JP6961802B2 (ja) | 2017-12-22 | 2018-10-26 | 文字画像処理方法、装置、機器及び記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11275961B2 (ja) |
JP (1) | JP6961802B2 (ja) |
CN (1) | CN108229470B (ja) |
WO (1) | WO2019119966A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198626B2 (en) * | 2016-10-19 | 2019-02-05 | Snap Inc. | Neural networks for facial modeling |
CN108229470B (zh) | 2017-12-22 | 2022-04-01 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
CN109325972B (zh) * | 2018-07-25 | 2020-10-27 | 深圳市商汤科技有限公司 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
CN109447911B (zh) * | 2018-10-18 | 2020-06-09 | 百度在线网络技术(北京)有限公司 | 图像复原的方法、装置、存储介质和终端设备 |
CN111523349A (zh) * | 2019-02-01 | 2020-08-11 | 珠海金山办公软件有限公司 | 一种纠偏处理的方法、装置、计算机存储介质及终端 |
CN110136828A (zh) * | 2019-05-16 | 2019-08-16 | 杭州健培科技有限公司 | 一种基于深度学习实现医学影像多任务辅助诊断的方法 |
CN110516665A (zh) * | 2019-08-23 | 2019-11-29 | 上海眼控科技股份有限公司 | 识别图像叠加文字区域的神经网络模型构建方法与系统 |
DE102019214402A1 (de) * | 2019-09-20 | 2021-03-25 | Robert Bosch Gmbh | Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks |
CN111223065B (zh) * | 2020-01-13 | 2023-08-01 | 中国科学院重庆绿色智能技术研究院 | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 |
CN111353494B (zh) * | 2020-04-09 | 2023-06-23 | 成都睿琪科技有限责任公司 | 钢材编码识别系统及方法 |
CN111583099A (zh) * | 2020-04-14 | 2020-08-25 | 上海联影智能医疗科技有限公司 | 图像摆正方法、计算机设备和存储介质 |
CN111610901B (zh) * | 2020-05-11 | 2021-10-12 | 上海翎腾智能科技有限公司 | 一种基于ai视觉下的英语课文辅助教学方法及系统 |
TWI790471B (zh) * | 2020-08-26 | 2023-01-21 | 財團法人工業技術研究院 | 基於深度學習的影像校正方法及系統 |
CN112836076A (zh) * | 2021-01-27 | 2021-05-25 | 京东方科技集团股份有限公司 | 一种图像标签生成方法、装置及设备 |
CN113326724B (zh) * | 2021-02-07 | 2024-02-02 | 海南长光卫星信息技术有限公司 | 一种遥感影像变化检测方法、装置、设备及可读存储介质 |
US20220408098A1 (en) * | 2021-06-18 | 2022-12-22 | Tencent America LLC | Block-wise entropy coding method in neural image compression |
CN113313117B (zh) * | 2021-06-25 | 2023-07-25 | 北京奇艺世纪科技有限公司 | 一种识别文本内容的方法及装置 |
US20230290165A1 (en) * | 2022-03-11 | 2023-09-14 | Tata Consultancy Services Limited | Method and system to detect a text from multimedia content captured at a scene |
CN116758559B (zh) * | 2023-08-15 | 2023-11-07 | 山东唐和智能科技有限公司 | 一种图文文字转换识别系统及方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3520041B2 (ja) | 2000-10-30 | 2004-04-19 | 三洋電機株式会社 | 画像のあおり補正方法、画像のあおり補正装置およびあおり補正用プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3965983B2 (ja) | 2001-11-30 | 2007-08-29 | 松下電工株式会社 | 画像処理方法およびその装置 |
JP4607633B2 (ja) * | 2005-03-17 | 2011-01-05 | 株式会社リコー | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
US8749839B2 (en) | 2005-03-24 | 2014-06-10 | Kofax, Inc. | Systems and methods of processing scanned data |
CN104899571B (zh) * | 2015-06-12 | 2018-12-04 | 成都数联铭品科技有限公司 | 一种用于复杂文字识别的随机样本产生方法 |
CN104966097B (zh) * | 2015-06-12 | 2019-01-18 | 成都数联铭品科技有限公司 | 一种基于深度学习的复杂文字识别方法 |
CN105809164B (zh) * | 2016-03-11 | 2019-05-14 | 北京旷视科技有限公司 | 文字识别方法和装置 |
CN106127204B (zh) * | 2016-06-30 | 2019-08-09 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106203418A (zh) * | 2016-07-14 | 2016-12-07 | 北京精英智通科技股份有限公司 | 一种车牌检测的方法及装置 |
CN106295629B (zh) | 2016-07-15 | 2018-06-15 | 北京市商汤科技开发有限公司 | 结构化文本检测方法和系统 |
CN106408038A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 一种基于卷积神经网络模型的旋转汉字识别方法 |
US10121250B2 (en) * | 2016-12-01 | 2018-11-06 | International Business Machines Corporation | Image orientation detection |
CN106778659B (zh) * | 2016-12-28 | 2020-10-27 | 深圳市捷顺科技实业股份有限公司 | 一种车牌识别方法及装置 |
CN108229470B (zh) * | 2017-12-22 | 2022-04-01 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
-
2017
- 2017-12-22 CN CN201711407535.0A patent/CN108229470B/zh active Active
-
2018
- 2018-10-26 WO PCT/CN2018/112093 patent/WO2019119966A1/zh active Application Filing
- 2018-10-26 JP JP2020511273A patent/JP6961802B2/ja active Active
-
2019
- 2019-11-25 US US16/693,616 patent/US11275961B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020532001A (ja) | 2020-11-05 |
US20200089985A1 (en) | 2020-03-19 |
CN108229470A (zh) | 2018-06-29 |
WO2019119966A1 (zh) | 2019-06-27 |
US11275961B2 (en) | 2022-03-15 |
CN108229470B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6961802B2 (ja) | 文字画像処理方法、装置、機器及び記憶媒体 | |
US10984295B2 (en) | Font recognition using text localization | |
US10699166B2 (en) | Font attributes for font recognition and similarity | |
US9697423B1 (en) | Identifying the lines of a table | |
US9824304B2 (en) | Determination of font similarity | |
US7460710B2 (en) | Converting digital images containing text to token-based files for rendering | |
CN105765624B (zh) | 内容感知图像旋转 | |
CN113343958B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN111291753A (zh) | 基于图像的文本识别方法、装置及存储介质 | |
US10552535B1 (en) | System for detecting and correcting broken words | |
US10403040B2 (en) | Vector graphics rendering techniques | |
US20190095762A1 (en) | Communications Between Internet of Things Devices Using A Two-dimensional Symbol Containing Multiple Ideograms | |
US9384562B2 (en) | Methods for visual content processing, and systems and computer program codes thereto | |
CN112232315B (zh) | 文本框检测方法、装置、电子设备和计算机存储介质 | |
CN108230332B (zh) | 文字图像的处理方法和装置、电子设备、计算机存储介质 | |
US10452952B2 (en) | Typesetness score for a table | |
US20220005151A1 (en) | Method of processing picture, computing device, and computer-program product | |
US20190005038A1 (en) | Method and apparatus for grouping documents based on high-level features clustering | |
CN114022340A (zh) | 对图像添加水印及检测方法和装置、电子设备和存储介质 | |
US10268920B2 (en) | Detection of near rectangular cells | |
US20220398398A1 (en) | Line removal from an image | |
CN110991270B (zh) | 文本识别的方法、装置、电子设备和存储介质 | |
CN117437640A (zh) | 对图片进行文字提取的方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6961802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |