JP6961802B2 - 文字画像処理方法、装置、機器及び記憶媒体 - Google Patents

文字画像処理方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP6961802B2
JP6961802B2 JP2020511273A JP2020511273A JP6961802B2 JP 6961802 B2 JP6961802 B2 JP 6961802B2 JP 2020511273 A JP2020511273 A JP 2020511273A JP 2020511273 A JP2020511273 A JP 2020511273A JP 6961802 B2 JP6961802 B2 JP 6961802B2
Authority
JP
Japan
Prior art keywords
image block
image
character
information
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020511273A
Other languages
English (en)
Other versions
JP2020532001A (ja
Inventor
王▲權▼
梁鼎
▲錢▼晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2020532001A publication Critical patent/JP2020532001A/ja
Application granted granted Critical
Publication of JP6961802B2 publication Critical patent/JP6961802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

(関連出願の相互参照)
本願は、出願番号が201711407535.0で、出願日が2017年12月22日である中国特許出願に基づいて出願され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願は、コンピュータビジョン技術に関し、特に、文字画像処理方法、ニューラルネットワークの訓練方法、文字画像処理装置、ニューラルネットワークの訓練装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラムに関する。
文字画像は、文字(例えば、漢字又は英文又は他の語種のキャラクターや数字等)を含む画像である。場合によっては、画像における文字認識率が所望の正確率を達成できないことがある。如何に文字認識の正確率を向上させるかは、注目される技術問題である。
本願の実施形態は、文字画像処理の技術案を提供する。
本願の実施形態の一態様によれば、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程と、形態変換ラベリング情報を有する画像ブロックサンプルによって訓練して得られたニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得する工程と、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程と、形態変換後の被処理文字画像に対して文字認識を行う工程と、を含む文字画像処理方法を提供する。
本願の実施形態の別の態様によれば、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する工程と、被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する工程と、前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程と、を含むニューラルネットワークの訓練方法を提供する。
本願の実施形態のもう一つの態様によれば、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得するように構成される画像ブロック取得モジュールと、形態変換ラベリング情報を有する画像ブロックサンプルによって訓練して得られたニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得するように構成される変換情報取得モジュールと、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される変換処理モジュールと、形態変換後の被処理文字画像に対して文字認識を行うように構成される文字認識モジュールと、を含む文字画像処理装置を提供する。
本願の実施形態のもう一つの態様によれば、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成されるサンプル取得モジュールと、被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得するように構成されるサンプル変換情報取得モジュールと、前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行うように構成される教師あり学習モジュールと、を含むニューラルネットワークの訓練装置を提供する。
本願の実施形態のもう一つの態様によれば、コンピュータプログラムを記憶するための記憶器と、前記記憶器に記憶されるコンピュータプログラムを実行することに用いられ、且つ前記コンピュータプログラムが実行される場合、本願の何れの文字画像処理方法の実施形態における工程を実現し、又は本願の何れのニューラルネットワークの訓練方法の実施形態における工程を実現するプロセッサと、を含む電子機器を提供する。
本願の実施形態のまた1つの態様によれば、コンピュータプログラムが記憶されるコンピュータ読取可能記憶媒体において、前記コンピュータプログラムがプロセッサにより実行される場合、本願の何れの文字画像処理方法の実施形態における工程を実現し、又は、本願の何れのニューラルネットワークの訓練方法の実施形態における工程を実現するコンピュータ読取可能記憶媒体を提供する。
本願の実施形態のまた1つの態様によれば、コンピュータ命令を含むコンピュータプログラムにおいて、前記コンピュータ命令が機器のプロセッサにおいて運行される場合、本願の何れの文字画像処理方法の実施形態における工程を実現し、又は、本願の何れのニューラルネットワークの訓練方法の実施形態における工程を実現するコンピュータプログラムを提供する。
本願の提供する文字画像処理方法、文字画像処理装置、機器、記憶媒体及びコンピュータプログラムに基づいて、本願は、ニューラルネットワークによって画像ブロックにおける文字方向を所定方向に転換するための画像ブロック形態変換情報を取得することで、ニューラルネットワークの出力した画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を便利で快速に行って、形態変換処理後の被処理文字画像における文字方向を所定方向(例えば、水平方向)にすることができ、これにより、本願によれば、文字方向が傾斜することで文字画像の文字認識の正確率に影響を与える現象を効果的に避けることができることが判明され、最終的に、本願の提供する文字画像処理の技術案は、文字認識の正確率の向上に有利である。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
文字画像処理方法であって、
被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程と、
ニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得する工程と、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程と、
形態変換後の被処理文字画像に対して文字認識を行う工程と、
を含む文字画像処理方法。
(項目2)
前記画像ブロックは、所定の大きさを有する正方形の画像ブロックである項目1に記載の文字画像処理方法。
(項目3)
前記被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程は、
前記被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程、又は、
前記被処理文字画像に対して補填処理を行って、被処理文字画像全体を含む少なくとも1つの画像ブロックを取得する工程を含む項目1又は2に記載の文字画像処理方法。
(項目4)
前記被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する工程は、
前記被処理文字画像の中心位置を中心とし、前記被処理文字画像の短辺を辺長として、前記被処理文字画像から1つの画像ブロックを切断する工程を含む項目3に記載の文字画像処理方法。
(項目5)
前記画像ブロック形態変換情報は、
画像ブロックの透視変換情報と、
90度の整数倍を表す画像ブロック回転情報と、
の少なくとも1つを含む項目1〜4の何れか1項に記載の文字画像処理方法。
(項目6)
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程は、
前記90度の整数倍を表す画像ブロック回転情報に基づいて前記被処理文字画像に対して90度の整数倍の回転処理を行う工程と、
前記画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって前記回転処理後の被処理文字画像に対して透視変換を行う工程と、
を含む項目5に記載の文字画像処理方法。
(項目7)
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、前記90度の整数倍を表す画像ブロック回転情報に基づいて前記被処理文字画像に対して90度の整数倍の回転処理を行う工程は、
前記複数の画像ブロックにおける画像ブロックの各々の90度の整数倍を表す画像ブロック回転情報の確率値を取得する工程と、
前記複数の画像ブロックの90度の整数倍を表す画像ブロック回転情報から前記確率値が最大となる90度の整数倍を表す画像ブロック回転情報を選用する工程と、
選用された前記確率値が最大となる90度の整数倍を表す画像ブロック回転情報に基づいて、前記複数の画像ブロックに対して90度の整数倍の回転処理を行う工程と、
を含む項目6に記載の文字画像処理方法。
(項目8)
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、前記画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行う工程は、
前記複数の画像ブロックにおける画像ブロックの各々の透視変換情報に基づいて、前記画像ブロックの各々の透視変換行列を確定する工程と、
前記複数の画像ブロックにおける画像ブロックの各々の透視変換行列に基づいて、透視変換平均行列を確定する工程と、
前記透視変換平均行列によって、前記回転処理後の前記複数の画像ブロックに対して透視変換を行う工程と、
を含む項目6又は7に記載の文字画像処理方法。
(項目9)
前記文字画像処理方法は、文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程を更に含み、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程は、
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を含む項目1〜8の何れか1項に記載の文字画像処理方法。
(項目10)
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を実行しない項目9に記載の文字画像処理方法。
(項目11)
前記文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程は、
ニューラルネットワークに基づいて文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程を含む項目9に記載の文字画像処理方法。
(項目12)
前記文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程は、
前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、画像ブロックの各々における文字の前記画像ブロックに占める面積が所定の要求を満たしているかを確定する工程と、
前記少なくとも複数の画像ブロックに文字の占める面積が所定の要求を満たしている画像ブロックの比率を確定する工程と、
前記比率が所定の比率よりも大きい場合、文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報を生成する工程と、
を含む項目10に記載の文字画像処理方法。
(項目13)
前記文字画像処理方法は、
前記比率が前記所定の比率以下である場合、文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する指示情報を生成する工程を更に含む項目12に記載の文字画像処理方法。
(項目14)
前記ニューラルネットワークは、画像特徴を提出するための共有ニューラルネットワーク、画像ブロックの透視変換情報を出力するための第1ブランチ及び90度の整数倍を表す画像ブロック回転情報を出力するための第2ブランチを含み、前記共有ニューラルネットワークの出力端がそれぞれ前記第1ブランチ及び前記第2ブランチの入力端に接続される項目1〜13の何れか1項に記載の文字画像処理方法。
(項目15)
前記ニューラルネットワークの訓練過程は、
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する工程と、
被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する工程と、
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程と、
を含む項目14に記載の文字画像処理方法。
(項目16)
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程は、
前記第1ブランチの出力した画像ブロックサンプルの透視変換情報と前記画像ブロックサンプルの透視変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報における透視変換ラベリング情報をガイド情報として、前記ニューラルネットワークにおける画像特徴を提出するための共有ニューラルネットワーク及び画像ブロックサンプルの透視変換情報を出力するための第1ブランチに対して教師あり学習を行う工程と、
前記第2ブランチの出力した90度の整数倍を表す画像ブロックサンプル回転情報と前記90度の整数倍を表す画像ブロックサンプル回転ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワーク及び前記第1ブランチの訓練が終了した後で、前記共有ニューラルネットワーク及び前記第1ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における90度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、前記ニューラルネットワークにおける90度の整数倍を表す画像ブロックサンプル回転情報を出力するための第2ブランチに対して教師あり学習を行う工程と、
を含む項目15に記載の文字画像処理方法。
(項目17)
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程は、
前記第3ブランチの出力した指示情報と画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワーク及び前記第1ブランチの訓練が終了した後で、前記共有ニューラルネットワーク及び前記第1ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを表すラベリング情報をガイド情報として、前記ニューラルネットワークにおける画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を出力するための第3ブランチに対して教師あり学習を行う工程を更に含む項目16に記載の文字画像処理方法。
(項目18)
形態変換ラベリング情報を有する画像ブロックサンプルを取得することは、
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定する工程を含む項目14〜17の何れか1項に記載の文字画像処理方法。
(項目19)
前記文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定する工程は、
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して透視変換処理を行って、透視変換処理後の領域から文字の占める面積が所定の要求を満たしている画像サンプルブロックを切り出し、前記画像サンプルブロックに対してランダムな90度の整数倍の回転を行う工程と、
前記透視変換処理に用いられる透視変換行列に基づいて前記画像サンプルブロックの透視変換ラベリング情報を確定して、前記ランダムな90度の整数倍の回転に基づいて90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を確定する工程と、
を含む項目18に記載の文字画像処理方法。
(項目20)
文字画像処理装置であって、
被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得するように構成される画像ブロック取得モジュールと、
ニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得するように構成される変換情報取得モジュールと、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される変換処理モジュールと、
形態変換後の被処理文字画像に対して文字認識を行うように構成される文字認識モジュールと、
を含む文字画像処理装置。
(項目21)
ニューラルネットワークに基づいて、文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得するように構成される占有情報取得モジュールと、
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される前記変換処理モジュールと、
を更に含む項目20に記載の文字画像処理装置。
(項目22)
前記変換処理モジュールは、前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を実行しないように構成される項目21に記載の文字画像処理装置。
(項目23)
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成されるサンプル取得モジュールと、
被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得するように構成されるサンプル変換情報取得モジュールと、
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行うように構成される教師あり学習モジュールと、
を更に含む項目20〜22の何れか1項に記載の文字画像処理装置。
(項目24)
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定するように構成されるラベリングモジュールを更に含む項目20〜23の何れか1項に記載の文字画像処理装置。
(項目25)
電子機器であって、
コンピュータプログラムを記憶するように構成される記憶器と、
前記記憶器に記憶されるコンピュータプログラムを実行するように配置され、且つ前記コンピュータプログラムが実行される場合、上記項目1〜19の何れか1項に記載の文字画像処理方法における工程を実現するプロセッサと、
を含む電子機器。
(項目26)
コンピュータプログラムが記憶されるコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される場合、上記項目1〜19の何れか1項に記載の文字画像処理方法における工程を実現するコンピュータ読取可能記憶媒体。
(項目27)
コンピュータ命令を含むコンピュータプログラム製品であって、前記コンピュータ命令が機器のプロセッサにおいて運行される場合、上記項目1〜19の何れか1項に記載の文字画像処理方法における工程を実現するコンピュータプログラム製品。
明細書の一部を構成する図面は、本願の実施形態を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
本願の実施例で提供される文字画像処理方法のフローチャートである。 本願の実施例で提供されるニューラルネットワークのいくつかの実施形態の模式図である。 本願の実施例で提供されるニューラルネットワークの幾つかの別の実施形態の模式図である。 本願の実施例で提供されるニューラルネットワークの訓練方法のフローチャートである。 本願の実施例で提供される訓練データの形成のフローチャートである。 本願の実施例で提供される文字画像処理装置の構造模式図である。 本願の実施例で提供されるニューラルネットワークの訓練装置の構造模式図である。 本願を実現する例示的な機器のブロック図である。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施形態で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例は端末装置、コンピュータシステム及びサーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末装置、コンピュータシステム及びサーバなどの電子機器との併用に適する公知の端末装置、計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末装置、コンピュータシステム及びサーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック及びデータ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
図1は、本願の実施例で提供される文字画像処理方法の模式的なフローチャートである。図1に示すように、前記文字画像処理方法は、工程S100において、工程S110、工程S120及び工程S130を含む。以下、図1における各工程を詳しく説明する。
S100において、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得する。
いくつかの実現形態において、本願における被処理文字画像は、RGB(赤、緑、青)に基づいた画像又はYUV(輝度、色度、濃度)に基づいた画像であってよい。本願における被処理文字画像は、静的状態であるピクチャ又は写真等の画像であってもよいし、動的状態であるビデオにおけるビデオフレーム等であってもよい。前記被処理文字画像は、複数の文字により形成される1つ又は複数の文字の段落を含んでもよいし、例えば、表の形態で現れる文字等のような、段落ではない形態で現れる文字を含んでもよい。本願における文字は、特定の意味を表現するためのキャラクター(例えば、漢字又は英文又は他の語種のキャラクター)や数字等を含んでよい。本願は、被処理文字画像における文字の具体的な表現形態を制限しない。
いくつかの実現形態において、前記被処理文字画像における文字は、
例えば、中国語の文字、英文の単語、ラテン文字等の様々なタイプのキャラクター又は数字や、
例えば、コンマ、省略記号、括弧、プラス記号等の様々なタイプのセパレータ、句読符号又は数学演算子の中の少なくとも1つを含むが、それらに限定されない。
S100において、文字を含む長方形又は正方形又は他の形状である少なくとも1つの画像ブロックを取得し、また、前記少なくとも1つの画像ブロックが複数の画像ブロックである場合、複数の画像ブロックにおける異なる画像ブロックの大きさは同じ又は異なり、例えば、全ての画像ブロックが同じ大きさを有し、前記大きさは所定のサイズであり、又は被処理文字画像の少なくとも一部のサイズに依存してよい。別の例として、複数の画像ブロックにおいて、縁部に位置する画像ブロックのサイズが中間の画像ブロック(つまり縁部に位置しない画像ブロック)と異なること等がある。いくつかの実施形態において、画像ブロックは、所定の大きさを有する正方形の画像ブロックであり、その形状や大きさがニューラルネットワークの画像ブロックに対する要求に関わっている。本願は、画像ブロックの形状や大きさ等を制限しない。
選択的に、画像ブロックは、被処理文字画像全体又は被処理文字画像における一部の画像を含む。いくつかの実現形態において、被処理文字画像に対して文字検出を行って、被処理文字画像における文字領域を得て、被処理文字画像における文字領域を少なくとも1つの画像ブロックに分け、例えば、被処理文字画像を文字検出ニューラルネットワークに入力して処理して、被処理文字画像における文字領域の情報を得るように、様々な形態によって被処理文字画像における文字領域を確定することができるが、それに限定されない。この場合、文字領域を分けて得られた少なくとも1つの画像ブロックを、文字を含む少なくとも1つの画像ブロックと称する。
別のいくつかの実現形態において、被処理文字画像を複数の画像ブロックに分けて、複数の画像ブロックにおける画像ブロックの各々に対して文字検出処理を行って、文字を含む少なくとも1つの画像ブロックを得るが、本開示の実施例はこれを限定しない。
別のいくつかの実施形態において、被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む画像ブロックを取得する。前記切断処理の取得する少なくとも1つの画像ブロックの数は1つ又は複数であり、また切断処理の規則としては、例えば、最大面積又は最小アスペクト比又は最大長辺又は短辺等によるように、予め設定されてよいが、本開示の実施例はこれを限定しない。
一例において、少なくとも1つの画像ブロックは、1つの画像ブロックである。このような場合、選択的に、被処理文字画像の中心位置を中心とし、被処理文字画像の短辺を辺長として、被処理文字画像から正方形の画像ブロックを切断し、前記正方形の画像ブロックは被処理文字画像から切断可能な最大面積の画像ブロックである。
選択的に、上記切断過程において、被処理文字画像の中心位置を中心とし、被処理文字画像の短辺より小さい長さを辺長として、被処理文字画像から正方形の画像ブロックを切断し、又は、被処理文字画像の短辺と長辺との長さの間の長さを長辺とし、被処理文字画像の短辺を短辺として、被処理文字画像から1つの長方形画像ブロックを切断してもよい。
別の例において、少なくとも1つの画像ブロックは、2つの画像ブロックである。このような場合、選択的に、被処理文字画像の2つの短辺をそれぞれ正方形の辺長として、被処理文字画像から2つの正方形の画像ブロックを切断し、この2つの正方形の画像ブロックの何れも被処理文字画像から切断可能な最大面積の画像ブロックである。
上記は単に例として説明されることが理解されるべきであるが、本願は、被処理文字画像から切断される画像ブロックの数や切断位置等の具体的な切断形態を制限しない。
いくつかの実現形態において、本願における画像ブロッは、被処理文字画像全体を含む。画像ブロックは、被処理文字画像自体或いは被処理文字画像に対して1つ又は複数の処理を行ったものであってよい。例えば、被処理文字画像に対して補填処理を行って、被処理文字画像全体を含む少なくとも1つの正方形の画像ブロックを取得する。
一例において、被処理文字画像の形状が長方形である場合、前記被処理文字画像の短辺方向において、ブランクコンテンツを補填して、被処理文字画像の長辺を正方形の辺長とする画像ブロックを形成してよい。又は、上記補填処理過程において、前記被処理文字画像の短辺方向及び長辺方向においてそれぞれブランクコンテンツを補填して、形成される正方形の画像ブロックの辺長が被処理文字画像の長辺より若干長くしてもよい。
S110において、ニューラルネットワークに基づいて、画像ブロックの画像ブロック形態変換情報を取得する。
いくつかの実現形態において、画像ブロックを直接例えば形態変換ニューラルネットワークのようなニューラルネットワークに提供して、前記ニューラルネットワークの入力された画像ブロックに対して出力した情報に基づいて、画像ブロック形態変換情報を取得する。
別のいくつかの実現形態において、画像ブロックに対して、1つ又は複数の処理をした後でニューラルネットワークに提供する。例えば、上記工程S100において、被処理文字画像に基づいて発生した画像ブロックの大きさや形状等がニューラルネットワークの入力される画像ブロックに対する要求に合致しなければ、本工程S110において、まず前記画像ブロックの大きさや形状等を調整して、調整された画像ブロックがニューラルネットワークの入力される画像ブロックに対する要求に合致するようにし、その後、また調整された画像ブロックをニューラルネットワークに提供する。
画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定方向に転換することに用いられる。いくつかの実現形態において、ニューラルネットワークの入力される画像ブロックに対して出力した画像ブロック形態変換情報は、画像ブロックの透視変換情報及び90度の整数倍を表す画像ブロック回転情報の少なくとも1つを含む。画像ブロックの透視変換情報は、画像ブロックが透視変換に基づいて回転するようにすることに用いられ、選択的に、透視変換に基づいた前記回転の角度が90度より小さい。画像ブロックの透視変換情報は、例えば画像ブロックの4つの頂点の座標透視変換情報のような、画像ブロックの頂点の透視座標変換情報を含むが、それらに限定されない。90度の整数倍を表す画像ブロック回転情報は、画像ブロックに対して90度の整数倍の回転処理を行うことに用いられ、90度の整数倍の回転処理を行うための回転角度を指示するための指示情報を含むが、それらに限定されなく、例えば、0、1、2又は3等を含み、0は回転しないことを、1は時計回り/反時計回りに90度回転することを、2は時計回り/反時計回りに180度回転することを、3は時計回り/反時計回りに270度回転すること表し、等々となるが、本開示の実施例はこれを限定しない。
いくつかの適用状況において、画像の撮影角度等の問題により、そもそも標準サイズのテキストに一端が大きく一端が小さい現象が生じ、このような現象により認識率が低いという問題がある。本開示の実施例において、画像ブロックに対して透視座標変化を行い、撮影角度による文字画像における文字の一端が大きく一端が小さいという問題を矯正して、文字画像の認識正確率を向上させる。
他のいくつかの場合、文字の向きが変わり、例えば被処理文字画像又は画像ブロックがニューラルネットワークに入力される前に回転処理されたことがあり、本開示の実施例において、画像ブロックに対して回転処理又は逆回転処理を行うことで、文字を所定方向に向かせ、例えば文字の行方向を水平方向に回転させる。例えば、回転角度は、上記90度の整数倍以外、60度、30度又は任意の角度であってもよい。
いくつかの実現形態において、ニューラルネットワークの画像ブロックに対して出力した画像ブロック形態変換情報が画像ブロックの透視変換情報及び90度の整数倍を表す画像ブロック回転情報を含む場合、選択的に、ニューラルネットワークは、画像ブロックの画像特徴を提出するための共有ニューラルネットワーク、画像ブロックの透視変換情報を出力するための第1ブランチ及び90度の整数倍を表す画像ブロック回転情報を出力するための第2ブランチを含み、その中の共有ニューラルネットワークの画像ブロックから提出する画像特徴がそれぞれ第1ブランチ及び第2ブランチに提供される。
いくつかの実現形態において、画像ブロック形態変換情報は、更に、被処理文字画像又は少なくとも1つの画像ブロックに対して形態変換処理を行うかを確定することに用いられる。いくつかの例において、画像ブロック形態変換情報は、被処理文字画像に対して形態変換処理を行うかを確定するための指示情報を更に含み、選択的に、前記指示情報は、画像ブロックにおける文字数が所定の要求を満たしているかを指示し、又は画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示し、等々となる。選択的に、前記所定の要求は、画像ブロックにおける文字の面積又は数又は面積の占める比率が既定の比率を達成することを含み、前記既定の比率は0.3左右又は他の数値であってよく、その具体的な数値が実際の適用状況に依存するが、本開示の実施例はこれを限定しない。例えば、ニューラルネットワークは、入力される画像ブロックに対して、更に、画像ブロックにおける文字の数又は文字の占める面積が所定の要求を満たしているかを指示する指示情報を出力する。例えば、ニューラルネットワークは、画像ブロックの文字の画像ブロックに占める面積比率又は文字数が所定の要求を満たしているかを指示する指示子を出力し、指示子は例えば、0及び1を含むが、それらに限定されなく、0が所定の要求を満たしていないことを指示し、1が所定の要求を満たしていることを指示し、等々となる。別の例として、ニューラルネットワークは、入力される画像ブロックに対して、画像ブロックにおける文字の占める面積又は数を出力し、又は画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率を出力する。別の例として、ニューラルネットワークは、入力される画像ブロックに対して、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達する確率値を出力し、それに応じて、確率値が既定の確率値よりも低い場合、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達していないと考えられるが、確率値が既定の確率値を下回っていない場合、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達すると考えられる。又は、指示情報は、他の形態で実現されてもよいが、本開示の実施例はこれを限定しない。
いくつかの実現形態において、文字を含む少なくとも1つの画像ブロックが複数の画像ブロックである場合、画像ブロックの各々における文字の前記画像ブロックに占める面積が所定の要求を満たしているかを確定し、更に複数の画像ブロックにおいて、文字の画像ブロックに占める面積が所定の要求を満たしている画像ブロックの比率を確定する。前記比率が所定の比率よりも大きい場合、文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報を生成して、複数の画像ブロックに対して回転処理を行う。別のいくつかの実施形態において、前記比率が前記所定の比率以下である場合、文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する指示情報を生成する。
異なるタイプのテキストの占める面積が異なり、例えば、句読符号の占める面積が一般的にキャラクターの占める面積よりも小さいので、単一の画像ブロックにおける文字の占める面積が所定の要求を満たしているかのみに基づくと、正確な判断を行えないことがあり、被処理文字画像の対応する全ての画像ブロックにおいて文字の対応する画像ブロックに占める面積が所定の要求を満たしている状況を統計して、画像ブロックに対して形態変換処理を行うかを確定することで、正確率を更に向上させることができる。
別のいくつかの実現形態において、文字の対応する画像ブロックに占める面積が所定の要求を満たしているかは、文字の対応する画像ブロックに占める面積が所定の面積閾値を満たしていること等を含むが、本開示の実施例はその具体的な実現を限定しない。
いくつかの実現形態において、ニューラルネットワークが入力される画像ブロックに対して画像ブロックの透視変換情報、90度の整数倍を表す画像ブロック回転情報及び画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達するかを指示する指示情報を出力する場合、ニューラルネットワークの一例として図2に示すように、図2におけるニューラルネットワークは、入力される画像ブロックの画像特徴を提出するように構成される共有ニューラルネットワーク200と、画像ブロックの透視変換情報を出力するための第1ブランチ210と、90度の整数倍を表す画像ブロック回転情報を出力するように構成される第2ブランチ220と、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達するかを指示する指示情報を出力するための第3ブランチ230と、を含み、その中の共有ニューラルネットワーク200が画像ブロックから提出した画像特徴は、それぞれ第1ブランチ210、第2ブランチ220及び第3ブランチ230に提供される。
本開示の実施例におけるニューラルネットワークは、様々な形態で実現されてよい。いくつかの実現形態において、上記ニューラルネットワークは、畳み込みニューラルネットワークであってよいが、本願では前記畳み込みニューラルネットワークの具体的なネットワーク構造が制限されない。例えば、前記畳み込みニューラルネットワークは、畳み込み層、非線形Relu層、プーリング層及び全結合層等を含むが、それらに限定されなく、それに含まれる層数が多いほど、ネットワークが深い。別の例として、前記畳み込みニューラルネットワークのネットワーク構造は、ALexNet、デプスレジデュアルネットワーク(Deep Residual Network、ResNet)又はVGGnet(Visual Geometry Group Network、視覚幾何学グループネットワーク)等のニューラルネットワークに用いられるネットワーク構造を採用してよいが、それらに限定されない。
畳み込みニューラルネットワークの一例として図3に示すように、図3におけるニューラルネットワークは、共有ニューラルネットワークに属する第1畳み込み層(即ち図3におけるconv1)、第1畳み込み層のRelu層(即ち図3におけるrelu1)、第1プーリング層(即ち図3におけるpool1)、第2畳み込み層(即ち図3におけるconv2)、第2畳み込み層のRelu層(即ち図3におけるrelu2)、第2プーリング層(即ち図3におけるpool2)、第3畳み込み層(即ち図3におけるconv3)、第3畳み込み層のRelu層(即ち図3におけるrelu3)、第4畳み込み層(即ち図3におけるconv4)及び第4畳み込み層のRelu層(即ち図3におけるrelu4)と、第1ブランチに属する第5畳み込み層(即ち図3におけるconv5)、第5畳み込み層のRelu層(即ち図3におけるrelu5)、第6全結合層(即ち図3におけるfc6)、第6全結合層のRelu層(即ち図3におけるrelu6)、第7全結合層(即ち図3におけるfc7)及び第7全結合層のRelu層(即ち図3におけるrelu7)と、第2ブランチに属する第5畳み込み層(即ち図3におけるconv5_rot)、第5畳み込み層のRelu層(即ち図3におけるrelu_conv5_rot)、第6全結合層(即ち図3におけるfc6_rot)、第6全結合層のRelu層(即ち図3におけるrelu_fc6_rot)、第7全結合層(即ち図3におけるfc7_rot)及び第7全結合層のRelu層(即ち図3におけるrelu_fc7_rot)と、第3ブランチに属する第5畳み込み層(即ち図3におけるconv5_cls)、第5畳み込み層のRelu層(即ち図3におけるrelu_conv5_cls)、第6全結合層(即ち図3におけるfc6_cls)、第6全結合層のRelu層(即ち図3におけるrelu_fc6_cls)、第7全結合層(即ち図3におけるfc7_cls)及び第7全結合層のRelu層(即ち図3におけるrelu_fc7_cls)を含む。
本願の実施例におけるニューラルネットワークは、複数の訓練データを含む訓練データセットによって首尾よく訓練されたニューラルネットワークである。訓練データセットにおける訓練データは、画像ブロックサンプル及び画像ブロックサンプルの形態変換ラベリング情報を含み、いくつかの実現形態において、画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報を更に含む。例えば、訓練データは、画像ブロックサンプルの透視変換ラベリング情報、90度の整数倍を表す画像ブロックサンプル回転ラベリング情報及び画像ブロックサンプルにおける文字の占める面積と前記画像ブロックサンプルの面積との比率が既定の比率に達するかを指示するラベリング情報を含む。訓練データセットによってニューラルネットワークを訓練する過程については、下記図4についての記述を参照されたい。ここで、詳しく説明しない。
S120において、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う。
いくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報及び90度の整数倍を表す画像ブロック回転情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも1つの画像ブロックが1つの画像ブロックである場合、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う1つの実現形態は、下記のことを含む。
まず、90度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して90度の整数倍の回転処理(例えば、逆回転処理)を行って、回転処理後の被処理文字画像を得る。
その後、画像ブロックの透視変換情報に基づいて透視変換行列を確定する。例示的に、画像ブロックの透視変換情報は頂点座標の変位量を含んでよく、透視変換行列は前記変位量に基づいて得られるものであり、画像における各点の位置を変化させることができる。
最後、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行い、形態変換処理後の文字画像を得る。例えば、透視変換のされた文字画像は、被処理文字画像の対応する形態変換処理後の文字画像である。
別のいくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報及び90度の整数倍を表す画像ブロック回転情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも1つの画像ブロックが複数の画像ブロックである場合、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う1つの実現形態は、下記のことを含む。
まず、画像ブロック形態変換情報は複数の画像ブロックにおける一部を含み又は画像ブロックの各々の対応する90度の整数倍を表す画像ブロック回転情報は確率値を含み、前記確率値がニューラルネットワークにより出力され、或いは他の形態で得られたものであるが、本開示の実施例はこれを限定しない。選択的に、前記確率値は、画像ブロックが対応角度の回転処理のされた確率、又は画像ブロックが対応角度の回転処理のされた信頼性等を表す。複数の画像ブロックの画像ブロック回転情報から確率値が最大となる90度の整数倍を表す画像ブロック回転情報を確定し、例えば、1番目の画像ブロックの時計回り/反時計回りに180度回転することを表す確率値が0.6であり、2番目の画像ブロックの時計回り/反時計回りに90度回転することを表す確率値が0.65である場合、2番目の画像ブロックの90度の整数倍を表す画像ブロック回転情報を選用する。
その後、上記確定された確率値が最大となる90度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して90度の整数倍の回転処理を行う(例えば、対応角度の正向又は逆回転処理を行う)。
次に、画像ブロック形態変換情報は、更に、複数の画像ブロックにおける一部を含み又は画像ブロックの各々の対応する画像ブロックの透視変換情報を含む。画像ブロックの各々の透視変換情報に対してそれぞれ透視変換行列を計算して、複数の画像ブロックの対応する透視変換行列に基づいて透視変換平均行列を計算し、前記透視変換平均行列は、画像ブロックが透視変換に基づいて回転するようにすることに用いられ、且つ透視変換に基づいた前記回転の角度が一般的に90度よりも小さい。
最後、計算された透視変換平均行列によって上記回転処理後の被処理文字画像に対して透視変換を行い、被処理文字画像の対応する形態変換処理後の文字画像を得る。
別のいくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報、90度の整数倍を表す画像ブロック回転情報及び画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも1つの画像ブロックが1つの画像ブロックである場合、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う1つの実現形態は、下記のことを含む。
まず、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報に基づいて、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを確定し、いくつかの実現形態において、前記指示情報がニューラルネットワークにより出力され又は他の形態で得られたものであるが、本開示の実施例はこれに限定されない。例えば、指示情報が画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達するかを指示すると仮定し、指示情報が画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率を超えることを指示するかを判断し、画像ブロックにおける文字の占める面積が所定の要求を満たしているという判断結果となる場合、90度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して90度の整数倍の回転処理を行い、その後、画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行う。選択的に、画像ブロックにおける文字の占める面積が所定の要求を満たしていない判断結果となる場合、画像ブロックの透視変換情報及び90度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して形態変換処理を行う工程を実行しない。
別のいくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報、90度の整数倍を表す画像ブロック回転情報及び画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも1つの画像ブロックが複数の画像ブロックである場合、画像ブロック形態変換情報は、複数の画像ブロックにおける画像ブロックの全て又は一部の対応する指示情報を含む。画像ブロック形態変換情報が複数の画像ブロックにおける画像ブロックの各々の対応する指示情報を含むと仮定し、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う1つの実現形態は、下記のことを含む。
まず、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する全ての指示情報において、つまり複数の画像ブロックの対応する指示情報において、画像ブロックにおける文字の占める面積が所定の要求を満たしていることを指示する指示情報が存在するか、つまり対応する画像ブロックにおける文字が前記対応する画像ブロックに占める面積が所定の要求を満たしていることを指示する第1指示情報が存在するかを判断し、例えば、指示情報が画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が0.3に等しい既定の比率に達するかを指示する場合、ニューラルネットワークの出力した全ての指示情報において、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が0.3を超えることを指示する指示情報が存在するかを判断する。
選択的に、画像ブロックにおける文字の前記画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報(つまり第1指示情報)が存在する判断結果となる場合、ニューラルネットワークの画像ブロックの各々に対して出力した90度の整数倍を表す画像ブロック回転情報の対応する確率値から、確率値が最大となる90度の整数倍を表す画像ブロック回転情報を確定する。例えば、1番目の画像ブロックの時計回り/反時計回りに180度回転することを表す確率値が0.6であり、2番目の画像ブロックの時計回り/反時計回りに90度回転することを表す確率値が0.65である場合、2番目の画像ブロックの90度の整数倍を表す画像ブロック回転情報の確率値が最大であると確定する。また、ニューラルネットワークの画像ブロックの各々に対して出力した画像ブロックの透視変換情報に基づいて透視変換行列を計算して、全ての透視変換行列に基づいて透視変換平均行列を計算する。確率値が最大となる90度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して90度の整数倍の回転処理を行い、選択的に、確率値が対応角度の回転処理のされたことを表す場合、被処理文字画像に対して対応角度の逆回転処理を行うことができるが、本開示の実施例はこれに限定されなく、また計算された透視変換平均行列によって上記回転処理後の被処理文字画像に対して透視変換を行い、被処理文字画像の対応する形態変換処理後の文字画像を得る。
選択的に、画像ブロックにおける文字の前記画像ブロックに占める面積が所定の要求を満たしていることを指示する第1指示情報が存在しない判断結果となる場合、画像ブロックの透視変換情報及び90度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して形態変換処理を行う工程を実行しない。
S130において、形態変換後の被処理文字画像に対して文字認識を行う。
いくつかの実現形態において、OCR(Optical Character Recognition、光学的キャラクター認識)技術等によって、上記形態変換後の被処理文字画像に対して文字認識処理を行ってよいが、本願の実施例は文字認識の具体的な実現形態を制限しない。
選択的に、S130における文字認識は、被処理文字画像における文字内容を確定すること、又は被処理文字画像に対してテキスト検出を行ってテキスト検出結果に基づいて被処理文字画像における文字内容を確定することを含んでよいが、本開示の実施例はこれを限定しない。
本開示の実施例において、画像ブロックの文字方向の所定方向への調整によって、転倒又は傾斜した文字を正すことができる。ファクシミリ、手持型機器で撮影した画像又は写真の画像における文字に対しては、傾斜又は転倒する現象が現れる可能性がある。傾斜又は転倒した文字を直接認識すれば、誤り率が低いという問題につながる。本開示の実施例において、画像ブロックにおける文字の方向を矯正して、テキストを規定される所定の方向に向かせることで、文字の向きの問題による低認識率の問題を低減し、画像における文字の認識率を向上する。
本願は、ニューラルネットワークによって画像ブロックにおける文字方向を所定方向に転換するための画像ブロック形態変換情報を取得することで、ニューラルネットワークの出力した画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を便利で快速に行って、形態変換処理後の被処理文字画像における文字方向を所定方向(例えば、水平方向)にすることができ、これにより、文字方向が傾斜することで文字画像の文字認識の正確率に影響を与える現象を効果的に避けることができる。
本願の文字画像処理の技術案は、文字認識の正確率の向上に有利である。待処理画像から認識された文字は、情報検索、画像分類及び読取り支援等の適用に用いられることができ、本願は具体的な適用状況を制限しない。
図4は、本願の実施例におけるニューラルネットワークに対する訓練方法のフローチャートである。図4に示すように、前記文字画像処理方法は、工程S400、工程S410及び工程S420を含む。以下、図4における各工程を詳しく説明する。
S400において、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する。
いくつかの実現形態において、訓練データセットには、ニューラルネットワークを訓練するための複数の訓練データを含み、選択的に、訓練データが画像ブロックサンプル及び画像ブロックサンプルの形態変換ラベリング情報等を含む。本願の実施例において、ランダムに読み取るように、又は訓練データの配列順序によって順次に読み取るように、毎回ごとに訓練データセットから1つ又は複数の訓練データを読み取る。訓練データセットにおける訓練データの生成形態としては、図5についての下記記述通りであってよいが、それに限定されなく、ここで、詳しく説明しない。
いくつかの実現形態において、訓練データにおける画像ブロックサンプルの形態変化ラベリング情報は、画像ブロックサンプルの透視変換ラベリング情報及び/又は90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を含み、例えば、画像ブロックサンプルの少なくとも1つの頂点(例えば、4つの頂点)の透視座標変換ラベリング情報及び90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を含む。
S410において、被訓練のニューラルネットワークに基づいて、画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する。
いくつかの実現形態において、上記取得した画像ブロックサンプルをニューラルネットワークに提供して、ニューラルネットワークの出力した情報に基づいて、画像ブロックサンプル形態変換情報を取得する。前記画像ブロックサンプル形態変換情報は、画像ブロックサンプルにおける文字方向を所定方向(例えば、水平方向等)に転換させることに用いられる。選択的に、ニューラルネットワークは、共有ニューラルネットワーク、第1ブランチ及び第2ブランチを含み、又は、共有ニューラルネットワーク、第1ブランチ、第2ブランチ及び第3ブランチを含む。又は、前記ニューラルネットワークは、共有ニューラルネットワーク及び第1ブランチを含み、又は、共有ニューラルネットワーク及び第2ブランチを含む。
S420において、被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と形態変換ラベリング情報との間の誤差を小さくするように、画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、被訓練のニューラルネットワークに対して教師あり学習を行う。
いくつかの実現形態において、訓練データにおける画像ブロックサンプルの形態変化ラベリング情報が画像ブロックサンプルの透視変換ラベリング情報及び90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を含む(つまりニューラルネットワークが少なくとも共有ニューラルネットワーク、第1ブランチ及び第2ブランチを含む)場合、選択的に、まず、画像ブロックサンプルの透視変換ラベリング情報をガイド情報として、ニューラルネットワークの共有ニューラルネットワーク及び第1ブランチに対して教師あり学習を行い、第1ブランチの訓練が終了した後で、共有ニューラルネットワーク及び第1ブランチのネットワークパラメータ(例えば、加重値等)を固定して、90度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、ニューラルネットワークの第2ブランチに対して教師あり学習を行い、第2ブランチの訓練が終了した後で、前記被訓練のニューラルネットワークの訓練は終了する。訓練が終了したニューラルネットワークは、上記被処理文字画像の形態変換処理を行う適用に用いられることができる。
別のいくつかの実現形態において、訓練データにおける画像ブロックサンプルの形態変化ラベリング情報が画像ブロックサンプルの透視変換ラベリング情報、90度の整数倍を表す画像ブロックサンプル回転ラベリング情報及び画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報を含む(つまりニューラルネットワークが共有ニューラルネットワーク、第1ブランチ、第2ブランチ及び第3ブランチを含む)場合、選択的に、まず、画像ブロックサンプルの透視変換ラベリング情報をガイド情報として、ニューラルネットワークの共有ニューラルネットワーク及び第1ブランチに対して教師あり学習を行い、第1ブランチの訓練が終了した後で、共有ニューラルネットワーク及び第1ブランチのネットワークパラメータ(例えば、加重値等)を固定して、90度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、ニューラルネットワークの第2ブランチに対して教師あり学習を行い、第2ブランチの訓練が終了した後で、画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報をガイド情報として、ニューラルネットワークの第3ブランチに対して教師あり学習を行い、第3ブランチの訓練が終了した後で、前記ニューラルネットワークの訓練は終了する。訓練して得られたニューラルネットワークは、上記被処理文字画像に対して形態変換処理を行う適用に用いられることができる。
特に説明すべきなのは、上記選択可能な一例において、第2ブランチ及び第3ブランチの訓練過程の前後順次については、特に限定されなく、つまり第1ブランチの訓練が終了した後で、第2ブランチを訓練してから第3ブランチを訓練してもよいし、第3ブランチを訓練してから第2ブランチを訓練してもよいことである。また、本願の実施例は、第1ブランチ及び第2ブランチに対して訓練を行う場合、用いられる訓練データにおける画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報は第1ラベリング情報であり、第1ラベリング情報は画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしていることを指示するが、第3ブランチに対して訓練を行う場合、画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしていることを指示するラベリング情報を含む訓練データ、及び画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしていないことを指示するラベリング情報を含む訓練データを採用する。
選択的に、本願の実施例におけるニューラルネットワークの共有ニューラルネットワーク、第1ブランチ及び第2ブランチに対して訓練を行うための訓練データの取得は、文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、形態変換処理によって形態変換ラベリング情報を確定して、形態変換ラベリング情報によって訓練データを形成して、訓練データセットに添加することを含む。図5は、本願の実施例における訓練データセットにおける訓練データを形成するフローチャートである。図5に示すように、前記文字画像処理方法は、工程S500、工程S510及び工程S520を備える。以下、図5における各工程を詳しく説明する。
S500において、文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して透視変換処理を行う。
いくつかの実現形態において、文字画像サンプルにおける文字方向は水平方向であり、例えば、文字画像サンプルは基本的に水平方向である複数の文字段落を含む。本願の実施例において、選択的に、ランダムに発生した透視変換行列に基づいて、文字画像サンプル全体に対して透視変換処理を行ってもよいし、文字画像サンプルの一部の領域に対して透視変換処理を行ってもよく、例えば、透視変換処理を行う領域の辺長が文字画像サンプルの長辺の5分の1を超えない。これにより、前記領域に対して透視変換処理を行うことで、透視変換処理後の領域における文字を水平方向との夾角が既定度数(例えば、30度等)より小さい非水平方向にする。
S510において、透視変換処理後の領域から文字の占める面積が所定の要求を満たしている画像サンプルブロック(例えば正方形の画像ブロックサンプル)を切り出して、画像サンプルブロックに対してランダムな90度の整数倍の回転を行う。
いくつかの実現形態において、透視変換処理後の領域から切り出された画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率は既定の比率に達するべきであり、例えば、比率は0.3を超えるべきである。一例において、透視変換処理後の領域の中心を画像サンプルブロックの中心として、辺長が前記領域の辺長よりも小さい正方形の画像サンプルブロックを切り出す。本開示の実施例において、一定の回転方向に従って画像サンプルブロックに対してランダムな90度の整数倍の回転を行い、例えば、時計回り/反時計回りの回転方向に従って画像サンプルブロックに対してランダムな90度の整数倍の回転を行う。また、選択的に、文字画像サンプルの二値行列によって、切り出された画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達するかを確定することができ、既定の比率に達していない場合、切り出された画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達するようにするために、切り出し位置を調整してよい。上記二値行列は、文字画像サンプルにおける文字領域及び非文字領域を区別することに用いられる。
S520において、透視変換処理に用いられる透視変換行列に基づいて画像サンプルブロックの頂点の透視座標変換ラベリング情報を確定して、ランダムな90度の整数倍の回転に基づいて90度の整数倍を表す画像ブロック回転ラベリング情報を確定する。
いくつかの実現形態において、透視変換処理に用いられる透視変換行列に基づいて画像サンプルブロックの4つの頂点の透視座標変換ラベリング情報を確定し、選択的に、画像サンプルブロック、画像サンプルブロックの4つの頂点の透視座標変換ラベリング情報及び90度の整数倍を表す画像ブロック回転ラベリング情報を1つの訓練データとして訓練データセットに添加してよい。又は、画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率を訓練データの一部としてもよい。
いくつかの実現形態において、第3ブランチに対して訓練を行う過程において、用いられる全て訓練データには、画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達する訓練データも含まれるし、画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達していない訓練データも含まれる。
選択的に、上記訓練方法で訓練して得られたニューラルネットワークは、文字画像処理方法における画像ブロックに対して処理を行って、画像ブロックの画像ブロック形態変換情報を得ることに用いられる。
図6は、本願の実施例で提供される文字画像処理装置の構造模式図である。図6に示すように、前記文字画像処理装置は、画像ブロック取得モジュール600、変換情報取得モジュール610、変換処理モジュール620及び文字認識モジュール630を含む。いくつかの実現形態において、前記文字画像処理装置は、占有情報取得モジュール640、サンプル取得モジュール650、サンプル変換情報取得モジュール660、教師あり学習モジュール670及びラベリングモジュール680を更に含む。
画像ブロック取得モジュール600は、被処理文字画像における文字を含む少なくとも1つの画像ブロックを取得するように構成される。画像ブロック取得モジュール600の実行する具体的な操作については、S100についての上記記述を参照してよいので、ここで繰り返して説明しない。
変換情報取得モジュール610は、ニューラルネットワークに基づいて、画像ブロックの画像ブロック形態変換情報を取得するように構成される。画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定方向(例えば、水平方向)に転換することに用いられ、且つ本願におけるニューラルネットワークは、下記ニューラルネットワークの訓練装置が形態変換ラベリング情報を有する画像ブロックサンプルによって訓練して得られたものである。変換情報取得モジュール610の実行する具体的な操作については、S110についての上記記述を参照してよいので、ここで繰り返して説明しない。
変換処理モジュール620は、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行うように構成される。いくつかの実現形態において、本願の装置が占有情報取得モジュール640を含む場合、前記変換処理モジュール620は、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報が文字の対応する画像ブロックに占める面積が所定の要求を満たしている状況で、画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うが、そうでなければ、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う工程を実行しないように構成される。変換処理モジュール620の実行する具体的な操作については、上記S120における関連記述を参照してよいので、ここで繰り返して説明しない。
文字認識モジュール630は、形態変換後の被処理文字画像に対して文字認識を行うように構成される。文字認識モジュール630は、OCR技術等によって、上記形態変換後の被処理文字画像に対して文字認識処理を行うことができる。
占有情報取得モジュール640は、ニューラルネットワークに基づいて、文字の対応する画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得するように構成される。占有情報取得モジュール640の実行する具体的な操作については、上記S120における関連記述を参照してよいので、ここで繰り返して説明しない。
サンプル取得モジュール650は、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成される。サンプル取得モジュール650の実行する具体的な操作については、上記S400における関連記述を参照してよいので、ここで繰り返して説明しない。
サンプル変換情報取得モジュール660は、被訓練のニューラルネットワークに基づいて、画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得することに用いられ、その中の画像ブロックサンプル形態変換情報は、画像ブロックサンプルにおける文字方向を所定方向(例えば、水平方向)に転換させることに用いられる。サンプル変換情報取得モジュール660の実行する具体的な操作については、上記S410における関連記述を参照してよいので、ここで繰り返して説明しない。
教師あり学習モジュール670は、主に、被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と形態変換ラベリング情報との間の誤差を小さくするように、画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、被訓練のニューラルネットワークに対して教師あり学習を行うことに用いられる。教師あり学習モジュール670の実行する具体的な操作については、上記S420における関連記述を参照してよいので、ここで繰り返して説明しない。
ラベリングモジュール680は、文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、形態変換処理に基づいて形態変換ラベリング情報を確定することに用いられる。ラベリングモジュール680の実行する具体的な操作については、上記図5についての記述を参照してよいので、ここで繰り返して説明しない。
図7は、本願の実施例で提供されるニューラルネットワークの訓練装置の構造模式図である。図7に示すように、前記文字画像処理装置は、主に、サンプル取得モジュール650と、サンプル変換情報取得モジュール660と、教師あり学習モジュール670と、を含み、いくつかの実現形態において、ラベリングモジュール680を更に含む。前記装置における各モジュールの実行する操作については、上記文字画像処理装置及び方法の実施形態における記述を参照してよいので、ここで繰り返して説明しない。
図8は本願の技術的手段を実現するのに適する例示的装置800を示し、装置800は自動車に配置されるコントロールシステム/電子システム、携帯端末(例えば、スマートフォン等)、パーソナルコンピュータ(PC;例えば、デスクトップコンピュータ又はノートパソコン等)、タブレット型コンピュータ及びサーバ等であってよい。図8において装置800は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)801、及び/又は1つ又は複数の画像プロセッサ(GPU)813などであり、プロセッサは、読み取り専用メモリ(ROM)802に記憶された実行可能コマンド又は記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部812はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。プロセッサは読み取り専用メモリ802及び/又はランダムアクセスメモリ803と通信して実行可能コマンドを実行し、通信バス804を介して通信部812に接続され、通信部812を介して他のターゲットデバイスと通信してよく、それにより本願の方法の実施形態における対応のステップを完成する。
また、RAM803には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU801、ROM802及びRAM803は、通信バス804を介して相互に接続される。RAM803を有する場合に、ROM802は選択可能なモジュールである。RAM803は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM802に書き込み、実行可能コマンドによって中央処理ユニット801に上記物体分割方法に含まれるステップを実行させる。入力/出力(I/O)インタフェース805も通信バス804に接続される。通信部812は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、それぞれバスに接続されるように設置されてもよい。
キーボード、マウスなどを含む入力部806と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部807と、ハードディスクなどを含む記憶部808と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部809とがI/Oインタフェース805に接続されている。通信部809は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ810も必要に応じてI/Oインタフェース805に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体811は、必要に応じてドライブ810上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部808にインストールする。
なお、図8に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図8の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてよく、通信部は分離設置するか、またはCPUやGPUに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施形態によれば、以下フローチャートを参照しながら記載するプロセスはコンピュータソフトウェアプログラムとして実現でき、例えば、本願の実施形態はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示すステップを実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願により提供されるステップを対応して実行する対応のコマンドを含んでよい。
このような実施形態では、該コンピュータプログラムは通信部809によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体811からインストールされ得る。中央処理ユニット(CPU)801によって該コンピュータプログラムを実行する時に、本願に記載された上記コマンドを実行する。
本願の方法及び装置、電子機器並びにコンピュータ読取可能記憶媒体は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置、電子機器並びにコンピュータ読取可能記憶媒体を実現することができる。方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施形態では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施形態は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施形態を設計可能にするように選択され説明されたものである。

Claims (22)

  1. 文字画像処理方法であって、
    処理対象の文字画像における文字を含む少なくとも1つの画像ブロックを取得することと、
    ニューラルネットワークに基づいて前記少なくとも1つの画像ブロックの各々の画像ブロック形態変換情報を取得することであって、前記画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定の方向に転換させるために用いられ、前記ニューラルネットワークは、画像特徴を抽出するように構成されている共有ニューラルネットワークと、前記画像ブロックの透視変換情報を出力するように構成されている第1のブランチと、90度の整数倍を表す画像ブロック回転情報を出力するように構成されている第2のブランチとを含み、前記共有ニューラルネットワークの出力端は、前記第1のブランチの入力端および前記第2のブランチの入力端にそれぞれ接続されている、ことと、
    前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うことと、
    前記形態変換が行われた処理対象の前記文字画像に対して文字認識を行うことと
    を含む文字画像処理方法。
  2. 前記画像ブロックは、所定の大きさを有する正方形の画像ブロックである請求項1に記載の文字画像処理方法。
  3. 処理対象の文字画像における文字を含む少なくとも1つの画像ブロックを取得することは、
    処理対象の前記文字画像に対して切断処理を行うことにより、処理対象の前記文字画像における前記文字を含む前記少なくとも1つの画像ブロックを取得することまたは、
    処理対象の前記文字画像に対して補填処理を行うことにより、処理対象の前記文字画像全体を含む前記少なくとも1つの画像ブロックを取得すること
    を含む請求項1または請求項2に記載の文字画像処理方法。
  4. 処理対象の前記文字画像に対して切断処理を行うことにより、処理対象の前記文字画像における前記文字を含む前記少なくとも1つの画像ブロックを取得することは、
    処理対象の前記文字画像の中心位置を中心とし、処理対象の前記文字画像の短辺を辺長として、処理対象の前記文字画像から1つの画像ブロックを切断することを含む請求項3に記載の文字画像処理方法。
  5. 前記画像ブロック形態変換情報は、
    前記画像ブロックの透視変換情報
    90度の整数倍を表す画像ブロック回転情報
    うちの少なくとも1つを含む請求項1〜4の何れか1項に記載の文字画像処理方法。
  6. 前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことは、
    前記画像ブロック回転情報に従って、処理対象の前記文字画像に対して90度の整数倍の回転処理を行うことと、
    前記透視変換情報に従って、透視変換行列を決定することと、
    記透視変換行列を用いることによって、回転された文字画像に対して透視変換を行うことと
    を含む請求項5に記載の文字画像処理方法。
  7. 前記少なくとも1つの画像ブロックが複数の画像ブロックである場合において、
    前記画像ブロック回転情報に従って、処理対象の前記文字画像に対して90度の整数倍の回転処理を行うことは、
    前記複数の画像ブロックにおける画像ブロックの前記画像ブロック回転情報の確率値を取得することと、
    前記複数の画像ブロックの複数の画像ブロック回転情報の中から、最大の確率値を有する画像ブロック回転情報を選択することと、
    前記選択された画像ブロック回転情報に従って、前記複数の画像ブロックに対して90度の整数倍の回転処理を行うことと
    を含む請求項6に記載の文字画像処理方法。
  8. 前記少なくとも1つの画像ブロックが複数の画像ブロックである場合において、
    前記透視変換情報に従って、透視変換行列を決定すること、および、前記透視変換行列を用いることによって、処理対象の回転された文字画像に対して透視変換を行うことは、
    前記複数の画像ブロックにおける画像ブロックの前記透視変換情報に従って、各画像ブロック透視変換行列を決定することと、
    画像ブロックの前記透視変換行列に従って、透視変換平均行列を決定することと、
    前記透視変換平均行列を用いることによって、前記複数の回転された画像ブロックに対して透視変換を行うことと
    を含む請求項6または請求項7に記載の文字画像処理方法。
  9. 前記文字画像処理方法は、前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することを更に含み、
    前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うことは、
    前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていることを前記指示情報が示す場合において、前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことを含む請求項1〜8の何れか1項に記載の文字画像処理方法。
  10. 前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていないことを前記指示情報が示す場合において、前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことが実行されない、請求項9に記載の文字画像処理方法。
  11. 前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することは、
    前記ニューラルネットワークに基づいて、前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することを含む請求項9に記載の文字画像処理方法。
  12. 前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することは、
    前記少なくとも1つの画像ブロックが複数の画像ブロックである場合において、前記複数の画像ブロックの各々における前記文字によって占められる面積が所定の要求を満たしているかを決定することと、
    前記複数の画像ブロックにおいて前記文字によって占められる面積が前記所定の要求を満たしている画像ブロックの比率を決定することと、
    前記比率が所定の比率よりも大きい場合、前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていることを示す指示情報を生成することと
    を含む請求項10に記載の文字画像処理方法。
  13. 前記文字画像処理方法は、
    前記比率が前記所定の比率以下である場合、前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていないことを示す指示情報を生成することを更に含む請求項12に記載の文字画像処理方法。
  14. ニューラルネットワーク訓練過程は、
    訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得することと、
    訓練対象のニューラルネットワークに基づいて前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得することであって、前記画像ブロックサンプル形態変換情報は、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるために用いられる、ことと、
    訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことと
    を含む請求項に記載の文字画像処理方法。
  15. 訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことは、
    前記第1ブランチによって出力された前記画像ブロックサンプルの透視変換情報と前記画像ブロックサンプルの透視変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報における透視変換ラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける画像特徴を抽出するように構成されている前記共有ニューラルネットワークおよび前記画像ブロックサンプルの透視変換情報を出力するように構成されている前記第1ブランチに対して教師あり学習を行うことと、
    前記第2ブランチによって出力された90度の整数倍を表す前記画像ブロックサンプル回転情報90度の整数倍を表す前記画像ブロックサンプル回転ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワークの訓練および前記第1ブランチの訓練が終了した後で、前記共有ニューラルネットワークのネットワークパラメータおよび前記第1ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における90度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける90度の整数倍を表す画像ブロックサンプル回転情報を出力するように構成されている前記第2ブランチに対して教師あり学習を行うことと
    を含む請求項14に記載の文字画像処理方法。
  16. 訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことは、
    ブランチによって出力された前記指示情報と前記画像ブロックサンプルにおける前記文字によって占められる面積が前記所定の要求を満たしているかを示す前記ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワークの訓練および前記第1ブランチの訓練が終了した後で、前記共有ニューラルネットワークのネットワークパラメータおよび前記第1ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における前記画像ブロックサンプルにおける前記文字によって占められる面積が前記所定の要求を満たしているかを表すラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしているかを示す指示情報を出力するように構成されている前記第3ブランチに対して教師あり学習を行うことを更に含む請求項15に記載の文字画像処理方法。
  17. 形態変換ラベリング情報を有する画像ブロックサンプルを取得することは、
    文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行うことと、
    前記形態変換処理に従って、前記形態変換ラベリング情報を決定することと
    を含む請求項16の何れか1項に記載の文字画像処理方法。
  18. 前記文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行うこと、および、前記形態変換処理に従って、前記形態変換ラベリング情報を決定することは、
    前記文字方向が前記所定方向である前記文字画像サンプルにおける前記少なくとも一部の領域に対して透視変換処理を行うことと、
    透視変換処理が行われた前記領域から、前記文字によって占められる面積が所定の要求を満たしている画像サンプルブロックを捕捉することと、
    90度のランダムな整数倍だけ前記画像サンプルブロックを回転させることと、
    前記透視変換処理に用いられる透視変換行列に従って、前記画像サンプルブロックの透視変換ラベリング情報を決定することと、
    90度の前記ランダムな整数倍の回転に従って、90度の整数倍を表す画像ブロックサンプル回転ラベリング情報を決定することと
    を含む請求項17に記載の文字画像処理方法。
  19. 文字画像処理装置であって、
    処理対象の文字画像における文字を含む少なくとも1つの画像ブロックを取得するように構成されている画像ブロック取得モジュールと、
    ニューラルネットワークに基づいて前記少なくとも1つの画像ブロックの各々の画像ブロック形態変換情報を取得するように構成されている変換情報取得モジュールであって、前記画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定の方向に転換させるために用いられ、前記ニューラルネットワークは、画像特徴を抽出するように構成されている共有ニューラルネットワークと、前記画像ブロックの透視変換情報を出力するように構成されている第1のブランチと、90度の整数倍を表す画像ブロック回転情報を出力するように構成されている第2のブランチとを含み、前記共有ニューラルネットワークの出力端は、前記第1のブランチの入力端および前記第2のブランチの入力端にそれぞれ接続されている、変換情報取得モジュールと、
    前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うように構成されている変換処理モジュールと、
    前記形態変換が行われた処理対象の前記文字画像に対して文字認識を行うように構成されている文字認識モジュール
    を含む文字画像処理装置。
  20. 電子機器であって、
    コンピュータプログラムを記憶するように構成されている記憶器と、
    前記記憶器に記憶されている前記コンピュータプログラムを実行するように構成されているプロセッサであって、前記コンピュータプログラムが実行されると、請求項1〜18の何れか1項に記載の文字画像処理方法における処理が実現される、プロセッサ
    を含む電子機器。
  21. コンピュータプログラムが記憶されているコンピュータ読可能記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1〜18の何れか1項に記載の文字画像処理方法における処理が実現される、コンピュータ読可能記憶媒体。
  22. コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令が機器のプロセッサにおいて実行されると、請求項1〜18の何れか1項に記載の文字画像処理方法における処理が実現される、コンピュータプログラム。
JP2020511273A 2017-12-22 2018-10-26 文字画像処理方法、装置、機器及び記憶媒体 Active JP6961802B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711407535.0 2017-12-22
CN201711407535.0A CN108229470B (zh) 2017-12-22 2017-12-22 文字图像处理方法、装置、设备及存储介质
PCT/CN2018/112093 WO2019119966A1 (zh) 2017-12-22 2018-10-26 文字图像处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2020532001A JP2020532001A (ja) 2020-11-05
JP6961802B2 true JP6961802B2 (ja) 2021-11-05

Family

ID=62648429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020511273A Active JP6961802B2 (ja) 2017-12-22 2018-10-26 文字画像処理方法、装置、機器及び記憶媒体

Country Status (4)

Country Link
US (1) US11275961B2 (ja)
JP (1) JP6961802B2 (ja)
CN (1) CN108229470B (ja)
WO (1) WO2019119966A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
CN108229470B (zh) 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
CN109325972B (zh) * 2018-07-25 2020-10-27 深圳市商汤科技有限公司 激光雷达稀疏深度图的处理方法、装置、设备及介质
CN109447911B (zh) * 2018-10-18 2020-06-09 百度在线网络技术(北京)有限公司 图像复原的方法、装置、存储介质和终端设备
CN111523349A (zh) * 2019-02-01 2020-08-11 珠海金山办公软件有限公司 一种纠偏处理的方法、装置、计算机存储介质及终端
CN110136828A (zh) * 2019-05-16 2019-08-16 杭州健培科技有限公司 一种基于深度学习实现医学影像多任务辅助诊断的方法
CN110516665A (zh) * 2019-08-23 2019-11-29 上海眼控科技股份有限公司 识别图像叠加文字区域的神经网络模型构建方法与系统
DE102019214402A1 (de) * 2019-09-20 2021-03-25 Robert Bosch Gmbh Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks
CN111223065B (zh) * 2020-01-13 2023-08-01 中国科学院重庆绿色智能技术研究院 图像矫正方法、不规则文本识别方法、装置、存储介质和设备
CN111353494B (zh) * 2020-04-09 2023-06-23 成都睿琪科技有限责任公司 钢材编码识别系统及方法
CN111583099A (zh) * 2020-04-14 2020-08-25 上海联影智能医疗科技有限公司 图像摆正方法、计算机设备和存储介质
CN111610901B (zh) * 2020-05-11 2021-10-12 上海翎腾智能科技有限公司 一种基于ai视觉下的英语课文辅助教学方法及系统
TWI790471B (zh) * 2020-08-26 2023-01-21 財團法人工業技術研究院 基於深度學習的影像校正方法及系統
CN112836076A (zh) * 2021-01-27 2021-05-25 京东方科技集团股份有限公司 一种图像标签生成方法、装置及设备
CN113326724B (zh) * 2021-02-07 2024-02-02 海南长光卫星信息技术有限公司 一种遥感影像变化检测方法、装置、设备及可读存储介质
US20220408098A1 (en) * 2021-06-18 2022-12-22 Tencent America LLC Block-wise entropy coding method in neural image compression
CN113313117B (zh) * 2021-06-25 2023-07-25 北京奇艺世纪科技有限公司 一种识别文本内容的方法及装置
US20230290165A1 (en) * 2022-03-11 2023-09-14 Tata Consultancy Services Limited Method and system to detect a text from multimedia content captured at a scene
CN116758559B (zh) * 2023-08-15 2023-11-07 山东唐和智能科技有限公司 一种图文文字转换识别系统及方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520041B2 (ja) 2000-10-30 2004-04-19 三洋電機株式会社 画像のあおり補正方法、画像のあおり補正装置およびあおり補正用プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3965983B2 (ja) 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US8749839B2 (en) 2005-03-24 2014-06-10 Kofax, Inc. Systems and methods of processing scanned data
CN104899571B (zh) * 2015-06-12 2018-12-04 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN104966097B (zh) * 2015-06-12 2019-01-18 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN106127204B (zh) * 2016-06-30 2019-08-09 华南理工大学 一种全卷积神经网络的多方向水表读数区域检测算法
CN106203418A (zh) * 2016-07-14 2016-12-07 北京精英智通科技股份有限公司 一种车牌检测的方法及装置
CN106295629B (zh) 2016-07-15 2018-06-15 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106408038A (zh) * 2016-09-09 2017-02-15 华南理工大学 一种基于卷积神经网络模型的旋转汉字识别方法
US10121250B2 (en) * 2016-12-01 2018-11-06 International Business Machines Corporation Image orientation detection
CN106778659B (zh) * 2016-12-28 2020-10-27 深圳市捷顺科技实业股份有限公司 一种车牌识别方法及装置
CN108229470B (zh) * 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2020532001A (ja) 2020-11-05
US20200089985A1 (en) 2020-03-19
CN108229470A (zh) 2018-06-29
WO2019119966A1 (zh) 2019-06-27
US11275961B2 (en) 2022-03-15
CN108229470B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
JP6961802B2 (ja) 文字画像処理方法、装置、機器及び記憶媒体
US10984295B2 (en) Font recognition using text localization
US10699166B2 (en) Font attributes for font recognition and similarity
US9697423B1 (en) Identifying the lines of a table
US9824304B2 (en) Determination of font similarity
US7460710B2 (en) Converting digital images containing text to token-based files for rendering
CN105765624B (zh) 内容感知图像旋转
CN113343958B (zh) 一种文本识别方法、装置、设备及介质
CN111291753A (zh) 基于图像的文本识别方法、装置及存储介质
US10552535B1 (en) System for detecting and correcting broken words
US10403040B2 (en) Vector graphics rendering techniques
US20190095762A1 (en) Communications Between Internet of Things Devices Using A Two-dimensional Symbol Containing Multiple Ideograms
US9384562B2 (en) Methods for visual content processing, and systems and computer program codes thereto
CN112232315B (zh) 文本框检测方法、装置、电子设备和计算机存储介质
CN108230332B (zh) 文字图像的处理方法和装置、电子设备、计算机存储介质
US10452952B2 (en) Typesetness score for a table
US20220005151A1 (en) Method of processing picture, computing device, and computer-program product
US20190005038A1 (en) Method and apparatus for grouping documents based on high-level features clustering
CN114022340A (zh) 对图像添加水印及检测方法和装置、电子设备和存储介质
US10268920B2 (en) Detection of near rectangular cells
US20220398398A1 (en) Line removal from an image
CN110991270B (zh) 文本识别的方法、装置、电子设备和存储介质
CN117437640A (zh) 对图片进行文字提取的方法及装置、存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211013

R150 Certificate of patent or registration of utility model

Ref document number: 6961802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250