JP7142121B2 - 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム - Google Patents

文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7142121B2
JP7142121B2 JP2021051576A JP2021051576A JP7142121B2 JP 7142121 B2 JP7142121 B2 JP 7142121B2 JP 2021051576 A JP2021051576 A JP 2021051576A JP 2021051576 A JP2021051576 A JP 2021051576A JP 7142121 B2 JP7142121 B2 JP 7142121B2
Authority
JP
Japan
Prior art keywords
character
information
single character
image
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021051576A
Other languages
English (en)
Other versions
JP2021103573A (ja
Inventor
チャン,シャオチャン
チャン,チェンクァン
リウ,シャンシャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021103573A publication Critical patent/JP2021103573A/ja
Application granted granted Critical
Publication of JP7142121B2 publication Critical patent/JP7142121B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18162Extraction of features or characteristics of the image related to a structural representation of the pattern
    • G06V30/18181Graphical representation, e.g. directed attributed graph
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06V30/1988Graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明はコンピュータ技術分野に関し、特に人工知能、ディープラーニング、コンピュータビジョン分野に関する。
自然なシーンにおけるエンドツーエンドの文字測定認識技術は、例えば、教育、医療、金融などの社会の各業界に広く応用することができる。文字測定認識技術から派生したよく見られるカード手形の認識、文書の自動入力、写真による問題文検索などの技術は、伝統的な業界のスマート化程度と生産効率を大幅に高め、人々の日常学習と生活を便利にした。自然なシーンにおけるエンドツーエンドの文字測定認識技術は迅速に発展をしているが、画像における文字を正確に認識できず、文字認識間違いまたは未認識が現れるなどの問題が依然として存在している。
本発明は、文字認識の方法、装置、電子設備およびコンピュータ可読記憶媒体を提供する。
本発明の1つの態様は、文字認識の方法を提供し、当該方法は、
画像より認識された各単文字の語義情報と第1位置情報とを決定することと、
各単文字の語義情報と第1位置情報により、グラフネットワークを構築することと、
グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定することと、を含む。
本発明の他の態様は、文字認識の装置を提供し、当該装置は、
画像より認識された各単文字の語義情報と第1位置情報とを決定するための第1決定モジュールと、
各単文字の語義情報と第1位置情報により、グラフネットワークを構築するための構築モジュールと、
グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定するための第2決定モジュール、を備える。
本発明の他の態様は、電子設備をさらに提供し、当該電子設備は、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも1つのプロセッサにより実行される場合、本発明の実施形態における任意の文字認識の方法を実行させることを特徴とする。
1つの可能な設計において、電子設備の構造において上記文字認識の方法を実行するための電子設備をサポートするプログラムを記憶するプロセッサおよびメモリを含み、プロセッサは、メモリに記憶されたプログラムを実行するように構成される。電子設備は、他のデバイスまたは通信ネットワークと通信するための通信インターフェースをさらに含むことができる。
本発明の他の態様は、コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体は、
本発明の実施形態の任意の文字認識の方法をコンピュータに実行させる。
本発明の実施形態は、以下のメリットまたは有益な効果を有する。
本発明の実施形態によるグラフネットワークは、各単文字の語義情報と第1位置情報に対して復号計算を行うため、2つの次元の情報を通して画像における文字をより正確に認識することができる。画像における文字認識の不正確さを解決し、画像における文字認識の精度を向上する。
ここに記載された内容は、本発明の実施形態のキーポイントまたは重要な特徴を標識することを意図せず、また、本発明の範囲を制限することにも用いられないことを理解すべきである。本発明の他の特徴については、下記の明細書を通して説明を促す。
添付図面は、本方案をより良く理解するためのものであり、本発明を限定するものではない。
本発明の実施形態による文字認識の方法の模式図である。 本発明の実施形態による他の文字認識の方法の模式図である。 本発明の実施形態による他の文字認識の方法の模式図である。 本発明の実施形態による他の文字認識の方法の模式図である。 本発明の実施形態による他の文字認識の方法の模式図である。 本発明の実施形態による他の文字認識の方法の模式図である。 本発明の実施形態による文字認識の装置の模式図である。 本発明の実施形態による他の文字認識の装置の模式図である。 本発明の実施形態による他の文字認識の装置の模式図である。 本発明の実施形態による他の文字認識の装置の模式図である。 本発明の実施形態による他の文字認識の装置の模式図である。 本発明の実施形態による文字認識の方法を実現するための電子設備のブロック図である。
以下のおいて、本発明の例示的な実施形態を、理解を容易にするために本発明の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本発明の範囲および精神を逸脱することなく、本発明に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能および構成については、明確化および簡明化のために説明を省略する。
本発明の実施形態によれば、図1に示すように、本発明は、文字認識の方法を提供し、下記ステップを含む。
S10:画像より認識された各単文字の語義情報と第1位置情報とを決定する。
画像は、ビデオにおけるフレーム画像、撮影された写真、描画された画像、スキャンされた画像などを含むことができる。画像には、1つまたは複数の単文字を含むことができる。単文字には、様々な言語の文字、キャラクター、数字および符号などを含むことができる。例えば、1つの漢字は1つの単文字であってもよく、1つのアルファベットは1つの単文字であってもよく、1つの数字は1つの単文字であってもよく、1つのカンマも1つの単文字であってもよい。画像より認識された各単文字は、画像において実際に表示される単文字であってもよく、画像において実際に表示される単文字でなくともよい。即ち、認識された単文字は正確な認識結果である可能性もあり、間違った認識結果である可能性もある。
語義情報は、認識された単文字の意味に関する任意の情報を含むことができる。例えば、該単文字が具体的にどの字の関連特徴情報であるかを表すことができる。各単文字の語義情報は、該単文字が画像において対応する各画素点の語義情報を含んでもよく、該単文字が対応する各特徴点の語義情報を含んでもよく、さらに、該単文字の周囲一定の画像領域内に含まれる特徴点または画素点の語義情報を含んでもよい。取得する必要がある各単文字の語義情報に具体的に含まれる情報は、必要に応じて選択または調整することができ、具体的に限定はしない。
第1位置情報は、認識された単文字の画像における位置とに関する任意の情報を含むことができる。例えば、該単文字と隣接単文字間の距離、画像境界までの距離、画像中心までの距離の関連特徴情報を表すことができる。各単文字の第1位置情報は、該単文字の画像における対応する各画素点の第1位置情報を含んでもよく、該単文字の対応する各特徴点の第1位置情報を含んでもよく、さらに、該単文字の周囲一定の画像領域内に含まれる特徴点または画素点の第1位置情報を含んでもよい。取得する必要のある各単文字の第1位置情報に具体的に含まれる情報は、必要に応じて選択または調整することができ、具体的には限定しない。
なお、本発明において言及されている特徴点と画素点との間には変換関係があり、相互変換を行うことができる。即ち、本発明において言及されている特徴点の語義情報および/または第1位置情報により、対応する画素点の語義情報および/または第1位置情報を取得することができる。本発明において言及されている画素点の語義情報及び/または第1位置情報により、対応する特徴点の語義情報及び/または第1位置情報を取得することもできる。
例えば、認識された単文字は「一」である場合、「一」は原画像において10個の画素点に対応する。原画像をニューラルネットワークモデルに入力して処理した後、原画像は特徴画像となり、特徴画像における各点は特徴点となる。特徴点は、原画像における画素点が演算を経て得られるものであるため、特徴点と画素点との間には変換関係があり、必要に応じて相応の変換を行うことができる。
S20:認識された各単文字、および各単文字の語義情報と第1位置情報とにより、グラフネットワークを構築する。
グラフネットワークのネットワーク構造は、従来技術における任意のグラフネットワークの構造を用いることができる。具体的なネットワーク構造は、必要に応じて選択および調整を行うことができる。グラフネットワークは、グラフニューラルネットワークまたはグラフ畳み込みニューラルネットワークなどを含むことができる。
認識された各単文字、および各単文字の語義情報と第1位置情報とにより、グラフネットワークを構築することは、具体的に以下を含む。各単文字をグラフネットワークのノードとし、かつ、各単文字の語義情報および/または位置情報を用いて、グラフネットワークにおける各ノード間のエッジ関係を決定し、エッジ関係は、任意の2つのノードが関連関係を有するか否か、即ち、接続を行う必要があるか否かをに用いられる。即ち、グラフネットワークには、各単文字の語義情報に基づき構築されたグラフネットワークと、各単文字の位置情報に基づき構築されたグラフネットワークとを含んでもよい。
例えば、単文字はa、b、cを含むと認識する。a、b、cをそれぞれ語義グラフネットワークの3つのノードとし、a、b、cのそれぞれの語義情報を通して、a、b、c間のエッジ関係を決定する。即ち、a、b、cという3つのノード間が如何に接続されるかを決定する。aとbにエッジ関係を有する場合、aとbを接続する。bとc間にエッジ関係があるかどうか決定できない場合、bとcを破線で接続する。aとc間にエッジ関係がないと決定した場合、aとcを接続しない。
グラフネットワークは、各単文字の語義情報および/または第1位置情報を復号するために用いることで、各ノード(各単文字)の特徴を計算し、計算した特徴は、ノードの対応する単文字の関連内容を表すために用いられ、各ノードの特徴は、該ノードと関連するいくつかの特徴を含むことができる。グラフネットワークにおける各ノードの特徴および/またはノード間のエッジ関係は、計算時に時間ステップ(time-step)により更新される。更新方法は、同期と非同期の2つを含むことができ、同期更新である場合、1つの時間ステップにおけるすべてのノードの特徴が更新される。非同期更新である場合、1つの時間ステップにおいて一部のノードの特徴のみが更新される。グラフネットワークの計算プロセスにおいてどのような更新方法を用いたとしても、最終的にグラフネットワークにおける各ノードの特徴およびエッジ関係はすべて更新される。
S30:グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定する。
画像の文字認識結果は、画像における単文字レベルの認識結果、単語レベルの認識結果、または文書行レベルの認識結果を含むことができる。単文字レベルの認識結果は、最終的に画像にどのような文字が含まれているかを認識したと理解することができ、文字には、漢字、アラビア数字、アルファベットまたは句読点などを含んでもよい。単語レベルの認識結果は、最終的に画像にどのような単語が含まれているかを認識したと理解することができ、単語には、中国語のフレーズ、英単語などを含んでもよい。文書行レベルの認識結果は、行に含まれる単語、フレーズを含むことができる。または、行における一言である。
本実施形態のグラフネットワークは、各単文字の語義情報と第1位置情報とに対して復号計算を行うため、2つの次元の情報を通して画像における文字をより正確に認識することができる。
1つの実施形態において、図2に示すように、文字認識の方法は、上記実施形態におけるステップS10~S30を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。ここで、ステップS20は、認識された各単文字、および各単文字の語義情報と第1位置情報とにより、グラフネットワークを構築することは、さらに以下を含む。
S21:各単文字の第1位置情報により、各単文字からなる各第1ノード間のエッジ関係を決定する。
各第1ノード間のエッジ関係は、各単文字の第1位置情報を用いて距離計算を行うことで得ることができる。具体的に、各単文字の第1位置情報に含まれる特徴ベクトルにより計算することができる。
S22:各第1ノード間のエッジ関係により、ビジョングラフネットワークを構築する。
なお、該ステップにおいて決定される各第1ノード間のエッジ関係は、初期エッジ関係であることができる。即ち、各第1ノード間のエッジ関係は、正確な場合もあれば、間違いの場合もある。ビジュアルネットワークが初期構築された後、ビジュアルネットワークが各単文字の第1位置情報を用いて計算を行う際に、さらに各第1ノード間のエッジ関係に対して最適化調整を行う。同時に、ビジュアルネットワークの計算プロセスにおいて、さらに各第1ノードの対応する単文字の特徴ベクトルに対して調整を行う。各第1ノードの特徴ベクトルは、対応する単文字の位置関連の情報を表すことに用いられる。
S23:各単文字の語義情報により、各単文字からなる各第2ノード間のエッジ関係を決定する。
各第2ノード間のエッジ関係は、各単文字の語義情報を用いて距離計算を行うことにより得ることができる。具体的に、各単文字の第1位置情報に含まれる特徴ベクトルにより計算することができる。
S24:各第2ノード間のエッジ関係により、語義グラフネットワークを構築する。
なお、該ステップにおいて決定される各第2ノード間のエッジ関係は、初期エッジ関係であることができる。即ち、各第2ノード間のエッジ関係は、正確な場合もあれば、間違いの場合もある。語義ネットワークが初期構築された後、語義ネットワークが各単文字の語義情報を用いて計算を行う際に、さらに各第2ノード間のエッジ関係に対して最適化調整を行う。同時に、語義グラフネットワークの計算プロセスにおいて、さらに各第2ノードの対応する単文字の特徴ベクトルに対して調整を行う。各第2ノードの特徴ベクトルは、対応する単文字の語義関連の情報を表すことに用いられる。
また、ステップS30において、グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定することは、さらに以下を含む。
S31:各単文字の第1位置情報および語義グラフネットワークにおける任意の1層の出力結果により、ビジョングラフネットワークを通して各単文字の第1特徴を計算する。
ビジュアルネットワークが各単文字の第1特徴を計算する際に、語義グラフネットワークにおける任意の1層の出力結果を、ビジュアルネットワークにおける任意の1層の入力とすることができ、これにより、ビジュアルネットワークが計算を行う際に、各単文字のより正確な第1特徴を得ることができる。
S32:各単文字の語義情報およびビジョングラフネットワークにおける任意の1層の出力結果により、語義グラフネットワークを通して各単文字の第2特徴を計算する。
語義ネットワークが各単文字の第2特徴を計算する際に、ビジョングラフネットワークにおける任意の1層の出力結果を、語義ネットワークにおける任意の1層の入力とすることができ、これにより、語義ネットワークが計算を行う際に、各単文字のより正確な第2特徴を得ることができる。
S33:各単文字の第1特徴と第2特徴により、画像の文字認識結果を決定する。
各単文字の第1特徴と第2特徴とを組み合わせることにより、各単文字の画像における異なる次元の特徴を得ることができる。これにより、各単文字の第1特徴と第2特徴とを用いることにより、画像からより正確な文字認識結果を得ることができる。
説明が必要なのは、本実施形態におけるステップS21とテップS22は、実行順序の前後を有しておらず、ステップ番号は、ステップの実行ロジック順序に対して限定するものではないことを理解すべきである。即ち、本実施形態において、ステップS21を先に実行し、ステップS22を次に実行してもよい。ステップS22を先に実行し、ステップS21を次に実行してもよく、ステップS21とステップS22とを同時に実行してもよい。
本実施形態において、構造化されたデータを効率的に処理し、構造化された特徴を抽出するグラフネットワーク技術を用いるため、構築されたビジュアルグラフネットワークと語義グラフネットワークは、単文字からなるノードの特徴とノード間のエッジ関係とに対して効率的に正確に予測を行うことことができる。
1つの実施形態において、図3に示すように、文字認識の方法は、上記実施形態におけるステップS10~S30を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。ここで、ステップS10において、画像より認識された各単文字の語義情報と第1位置情報とを決定することは、さらに以下を含む。
S11:画像の畳み込み特徴と各単文字の文字カテゴリ情報により、各単文字の語義情報を決定する。
各単文字の語義情報には、少なくとも各単文字の文字カテゴリ情報、および認識された各単文字の周囲一定の画像領域内の畳み込み特徴が含まれることができる。単文字の周囲一定の画像領域内の畳み込み特徴は、領域特徴抽出技術を用いて取得することができる。
S12:画像の畳み込み特徴と各単文字の第2位置情報により、各単文字の第1位置情報を決定する。
各単文字の第1位置情報には、少なくとも各単文字の第2位置情報、および認識された各単文字の周囲一定の画像領域内の畳み込み特徴が含まれることができる。単文字の周囲一定の画像領域内の畳み込み特徴は、領域特徴抽出技術を用いて取得することができる。第2位置情報は、各単文字の対応する画素点または特徴点の座標情報(x、y、w、h)と角度情報(θ)とを含むことができる。
説明が必要なのは、本実施形態におけるステップS11とテップS12は、実行順序の前後を有しておらず、ステップ番号は、ステップの実行ロジック順序に対して限定するものではないことを理解すべきである。即ち、本実施形態において、ステップS11を先に実行し、ステップS12を次に実行してもよい。ステップS12を先に実行し、ステップS11を次に実行してもよく、ステップS11とステップS12とを同時に実行してもよい。
本実施形態において、画像の畳み込み特徴と各単文字の文字カテゴリ情報を用いることで、多次元の特徴ベクトルを通して各単文字のより正確で関連度のより高い語義情報を取得することができる。画像の畳み込み特徴と各単文字の第2位置情報を用いることで、多次元の特徴ベクトルを通して各単文字のより正確で関連度のより高い第1位置情報を取得することができる。
1つの実施形態において、図4に示すように、文字認識の方法は、上記実施形態におけるステップS11、S12、S20およびS30を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。これを基に、ステップS11において、画像の畳み込み特徴と各単文字の文字カテゴリ情報により、各単文字の語義情報を決定する前に、さらに以下のステップを含む。
S40:第1プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の文字カテゴリ情報を決定する。
ここで、文字カテゴリ情報は、各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む。
文字カテゴリ情報は、各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含むことは、該特徴点が漢字である確率が90%、アルファベットである確率が5%、句読点である確率が5%と捉えることができる。さらに例えば、該特徴点がアルファベットaである確率は95%、アルファベットoである確率は5%である。
画像の畳み込み特徴は、畳み込みニューラルネットワークを通して画像に対して計算を行うことにより得られる特徴を含むことができる。具体的に用いられる畳み込みニューラルネットワークは、必要に応じて選択および調整することができる。例えば、AlexNet、GoogleNet、ResNetなどを用いることができる。画像の畳み込み特徴は、色、テクスチャ、形状、空間関係などを表す特徴ベクトルを含んでもよく、色、模様、形状、空間関係などを表す特徴ベクトルに基づき畳み込みを行った後に得られるより高次の特徴ベクトルを含んでもよい。
第1プリセットニューラルネットワークは、複数の畳み込み層からなるニューラルネットワークを含むことができる。第1プリセットニューラルネットワークの入力は、画像の畳み込み特徴を含むことができる。第1プリセットニューラルネットワークは、画像の畳み込み特徴に対して計算を行うことを通して、画像の特徴マップを出力する。特徴マップにおける各特徴点は、少なくともそれがあるカテゴリの文字である確率情報を含む。
本実施形態において、第1プリセットニューラルネットワークを通して画像の畳み込み特徴に対して計算を行うことで、各単文字の関連する文字カテゴリ情報を効率的に取得することができる。
1つの例において、出力される特性マップには、少なくとも文字カテゴリ数を表すチャネルと、画像背景クラスを表すチャネルとが含まれる。
1つの例において、画像の畳み込み特徴を抽出するネットワークと、第1プリセットニューラルネットワークとを、1つの完全畳み込みニューラルネットワークに含めることができる。即ち、ターゲット特徴画像の畳み込み特徴を抽出するネットワークと、第1プリセットニューラルネットワークとは、完全畳み込みニューラルネットワークにおける2つの層構造である。
1つの実施形態において、図5に示すように、文字認識の方法は、上記実施形態におけるステップS11、S12、S20およびS30を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。これを基に、ステップS12において、画像の畳み込み特徴と各単文字の第2位置情報により、単文字の第1位置情報を決定する前に、さらに以下のステップを含む。
S50:第2プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の第2位置情報を決定する。
ここで、第2位置情報は、各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む。
画像の畳み込み特徴は、畳み込みニューラルネットワークを通して画像に対して計算を行うことにより得られる特徴を含むことができる。具体的に用いられる畳み込みニューラルネットワークは、必要に応じて選択および調整することができる。例えば、AlexNet、GoogleNet、ResNetなどの畳み込みニューラルネットワークを用いることができる。画像の畳み込み特徴は、色、模様、形状、空間関係などを表す特徴ベクトルを含んでもよく、色、模様、形状、空間関係などを表す特徴ベクトルに基づき畳み込みを行った後に得られるより高次の特徴ベクトルを含んでもよい。
第2プリセットニューラルネットワークは、複数の畳み込み層からなるニューラルネットワークを含むことができる。第2プリセットニューラルネットワークの入力は、画像の畳み込み特徴を含むことができる。第2プリセットニューラルネットワークは、画像の畳み込み特徴に対して計算を行うことで、各単文字の画像における大体の位置領域を決定し、かつ、決定した大体の位置領域に基づき、大体の位置領域における各単文字の対応する各特徴点の座標情報と角度情報とを決定する。
本実施形態において、第2プリセットニューラルネットワークを通して画像の畳み込み特徴に対して計算を行うことにより、各単文字と関連する第2位置情報を効率的に取得することができる。
1つの例において、第2プリセットニューラルネットワークは、入力された画像の畳み込み特徴に基づき、2つの計算結果を出力する。1つの計算結果は、画像の前景と背景(前景は1であり、背景は0である)の分割を表すために用いられる単一チャンネルの0/1分割マップである。もう1つの計算結果は、単文字の対応する特徴点または画素点の座標情報(x、y、w、h)と角度情報(θ)を含む。2つの計算結果を、1つの融合した特徴マップにおいて表すことができる。
1つの例において、第1プリセットニューラルネットワーク、第2プリセットニューラルネットワーク、および画像の畳み込み特徴を抽出するニューラルネットワークは、1つの完全畳み込みニューラルネットワークを構成することができ、即ち、3者は1つの完全畳み込みニューラルネットワークを構成してもよく、即ち、3者がそれぞれ完全畳み込みニューラルネットワークである3つの層の構造である。
1つの例において、上述ステップS40およびS50は、単文字測定認識モジュールを通して実行することができる。該モジュールは、文字の単文字の位置測定と認識を行う。単文字測定認識モジュールをの入力は画像である。まず、1つのアンダーレイネットワーク(例えば、Resnet50)を通して画像の畳み込み特徴を抽出する。次に、並列した測定と認識を通して、単文字の位置とカテゴリ結果とを分岐して出力する。単文字検出認識モジュールは、単文字レベルの位置とカテゴリアノテーションを必要とし、実際の訓練において、単文字の位置アノテーションを含む大量の合成データを通して事前訓練を行い、少量のリアルデータを通して改善を行うことによって実現することができる。
ここで、測定分岐は単文字の第2位置情報の出力をする。検出分岐は、いくつかの畳み込み層により構成される。検出分岐の入力は、アンダーレイネットワークの出力した畳み込み特徴であり、出力は2つの部分を含み、1つの部分は前景と背景(前景は1、背景は0)の分割を表すための単一チャネルの0/1分割マップであり、検出分岐のネットワークモデルはdice損失関数を通して教師あり学習する。もう1つの部分は単文字の位置の幾何情報であり、座標情報(x、y、w、h)と角度情報(θ)の計5つのチャネルを含む。smoothl1損失関数を通して教師あり学習する。
認識分岐は、単文字のカテゴリをし、いくつかの畳み込み層により構成される。認識分岐の入力は、アンダーレイネットワークの出力した畳み込み特徴であり、出力はカテゴリ数+1個のチャネルの分割マップを含み、カテゴリ数は認識されるべき文字カテゴリの数であり、1は背景クラスであり、これらの特徴マップは、該画素点がある文字カテゴリに属する確率を表す。交差エントロピー損失関数により教師あり学習する。
1つの例において、上記ステップS10~S30は、単文字レベル文字測定認識モジュールにより実行されてもよい。単文字測定認識モジュールの出力結果は、文字それぞれの特徴情報のみを考慮するため、位置とカテゴリ結果に不正確さまたは間違いが生じる可能性があり、単語レベル文字測定認識モジュールの目的は、単文字情報を入力とし、文字のビジョンと語義情報を総合的に考慮し、グラフネットワークを用いて並行して文字の位置と認識結果を復号し、前のモジュールにて生じた間違いに対して修正を行い、より良いエンドツーエンド認識効果を達することである。
ここで、単語レベル文字測定認識モジュールは、第1位置情報と語義情報の抽出を行う必要がある。各単文字からすると、対応する畳み込み特徴は領域特徴抽出操作を通して取得することができ、座標情報(x、y、w、h)と角度情報(θ)とを規定外の幾何情報と畳み込み特徴として、単文字の第1位置情報として合成する。語義情報は、領域特徴抽出操作を通して単文字測定認識モジュールにおける認識分岐出力層の特徴を抽出し、語義として符号化する。
単語レベル文字測定認識モジュールは、グラフネットワークの第1位置情報と語義情報とに基づいて復号を行い、単文字の融合特徴を得る必要がある。具体的に、該モジュールは単文字をノードとして、ビジョングラフネットワークと語義グラフネットワークとをそれぞれ構築し、グラフのエッジの初期化接続関係は単文字の第1位置情報と語義情報との距離により決定される。多層のグラフネットワーク構造を構築することを通して、特徴の学習を強化する。また、接続関係を共有することにより、第1位置情報と語義情報とが相互に流通し、相互に促進することを保証する。最後に、第1位置情報と語義情報とを融合し、測定と認識の2つの出力分岐を並列接続し、測定分岐はノードカテゴリ(文字であるか否か)と予測エッジの接続関係を通して単語レベルの実例を得、交差エントロピー損失関数を用いて教師あり学習を行う。認識分岐は単語レベルの認識結果を予測し、訓練段階ではアノテーションを用いて実例を決定し、予測段階では測定分岐の予測結果を用いて、CTC(Connectionist Temporal Classification)損失関数を用いて教師あり学習を行う。
1つの例において、図6に示すように、文字認識方法は、単文字測定認識プロセスと単語レベル測定認識プロセスとを含む。
単文字測定認識プロセスは、以下を含む。
画像を完全畳み込みニューラルネットワークに入力し、完全畳み込みニューラルネットワークは、まず、アンダーレイネットワーク100を通して画像の畳み込み特徴を取得する。次に、完全畳み込みニューラルネットワークの第1プリセットニューラルネットワーク200は、入力された画像の畳み込み特徴を通して、各単文字の文字カテゴリ情報を決定する。完全畳み込みニューラルネットワークの第2プリセットニューラルネットワーク300は、入力された画像の畳み込み特徴を通して、各単文字の第2位置情報を決定する。各単文字の文字カテゴリ情報と各単文字の第2位置情報とに基づいて、画像に含まれる単文字が「B」、「I」、「K」、「F」、「S」、「D」、「I」、「B」、「E」、「C」、「T」であると決定する。
単語レベル測定認識プロセスは、以下を含む。
各単文字の文字カテゴリ情報と第2位置情報とに基づき、各単文字の第1位置情報と語義情報とを決定する。各単文字をビジョングラフネットワークの第1ノードとし、各単文字の第1位置情報に基づき、各第1ノード間のエッジ関係を決定することで、ビジョングラフネットワーク400の構築をする。各単文字を語義グラフネットワークの第2ノードとし、各単文字の語義情報に基づき、各第2ノード間のエッジ関係を決定することで、語義グラフネットワーク500の構築をする。ビジョングラフネットワークの任意の1層と語義グラフネットワークの任意の1層とを接続することで、ビジョングラフネットワークのある層の出力結果が語義グラフネットワークのある層の入力となるように、語義グラフネットワークのある層の出力結果がビジョングラフネットワークのある層の入力となるようにする。共有接続後のビジョングラフネットワークと語義グラフネットワークとに基づき、ビジョングラフネットワークは、各第1ノードのエッジ関係を更新し、各第1ノードの第1特徴を計算し、語義グラフネットワークは、各第2ノードのエッジ関係を更新し、各第2ノードの第2特徴ベクトルを計算する。各ノードの第1特徴と第2特徴とを融合し、画像における認識結果が単語「BIKES」と「DIRECT」を含むものと計算する。
本実施例によれば、グラフネットワーク計算を用いることで、単文字測定認識プロセスにおける間違った認識結果に対して有効的に修正を行い、単文字レベルの認識結果を直接出力する。
本発明の実施形態によれば、図7に示されるように、以下を備える文字認識の装置100を提供する。
画像より認識された各単文字の語義情報と第1位置情報とを決定するための第1決定モジュール10。
各単文字の語義情報と第1位置情報により、グラフネットワークを構築するための構築モジュール20。
グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定するための第2決定モジュール30。
1つの実施形態において、図8に示されるように、文字認識の装置100は、上記実施形態の第1決定モジュール10と、構築モジュール20と、第2決定モジュール30とを備え、ここで構築モジュール20は、さらに以下を備える。
各単文字の第1位置情報により、各単文字からなる各第1ノード間のエッジ関係を決定するための第1決定サブモジュール21。
各第1ノード間のエッジ関係により、ビジョングラフネットワークを構築するための第1構築サブモジュール22。
各単文字の語義情報により、各単文字からなる各第2ノード間のエッジ関係を決定するための第2決定サブモジュール23。
各第2ノード間のエッジ関係により、語義グラフネットワークを構築するための第2構築サブモジュール24。
さらに、第2決定モジュール30は、さらに以下を備える。
各単文字の第1位置情報および語義グラフネットワークにおける任意の1層の出力結果により、ビジョングラフネットワークを通して各単文字の第1特徴を計算するための第1計算サブモジュール31。
各単文字の語義情報およびビジョングラフネットワークにおける任意の1層の出力結果により、語義グラフネットワークを通して各単文字の第2特徴を計算するための第2計算サブモジュール32。
各単文字の第1特徴と第2特徴により、画像の文字認識結果を決定するための第3決定サブモジュール33。
1つの実施形態において、図9に示すように、文字認識の装置100は、上記実施形態の第1決定モジュール10と、構築モジュール20と、第2決定モジュール30とを備え、ここで第1決定モジュール10は、さらに以下を備える。
画像の畳み込み特徴と各単文字の文字カテゴリ情報により、各単文字の語義情報を決定するための語義決定サブモジュール11。
画像の畳み込み特徴と各単文字の第2位置情報により、各単文字の第1位置情報を決定するための位置決定サブモジュール12。
1つの実施形態において、図10に示すように、文字認識の装置100は、上記実施形態の第1決定モジュール10と、構築モジュール20と、第2決定モジュール30とを備える。文字認識の装置100は、さらに以下を備える。
第1プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の文字カテゴリ情報を決定するための第3決定モジュール40。
ここで、文字カテゴリ情報は、各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む。
1つの実施形態において、図11に示すように、文字認識の装置100は、上記実施形態の第1決定モジュール10と、構築モジュール20と、第2決定モジュール30とを備える。文字認識の装置100は、さらに以下を備える。
第2プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の第2位置情報を決定するための第4決定モジュール50。
ここで、第2位置情報は、各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む。
本発明の実施形態によれば、本発明は、電子設備および可読記憶媒体をさらに提供する。
図12に示すよう、本発明の実施形態による文字認識の方法を実現する電子設備のブロック図である。電子設備は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子設備は携帯情報端末、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本発明で説明されたものおよび/または要求される本発明の実施を制限することは意図されない。
図12に示すよう、当該電子設備は、1つまたは複数のプロセッサ1201と、メモリ1202と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子設備内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphical User Interface、GUI)を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態において、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子設備を接続してもよく、各デバイスは、部分的に必要な動作、例えば、サーバアレイ、ブレードサーバの集合、またはマルチプロセッサシステムとして、提供する。図12においてプロセッサ1201を例とする。
メモリ1202は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される文字認識の方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された文字認識の方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ1202は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラムおよびモジュールを記憶するために使用されてもよく、本発明の実施形態における文字認識の方法に対応するプログラム命令/モジュール、(例えば、図7に示される、第1決定モジュール10、構築モジュール20、第2決定モジュール30)である。プロセッサ1201は、メモリ1202に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、即ち上述した方法に関する実施形態に係る文字認識の方法を実行する。
メモリ1202は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、文字認識の方法に係る電子設備の使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ1202は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態において、メモリ1202はオプションとして、プロセッサ1201に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して文字認識の方法に係る電子設備に接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。
本発明の実施形態の文字認識の方法に対応する電子設備は、入力装置1203と出力装置1204とをさらに含むことができる。プロセッサ1201、メモリ1202、入力装置1203、および出力装置1204は、バスまたは他の方法で接続されてもよく、図12ではバスを介して接続されている。
入力装置1203は、入力された数字または文字を受信し、文字認識の方法に係る電子設備のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置1204は、表示装置、補助照明装置(例えばLED)、および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本発明におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実装されてもよく、この1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および/または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置より、データと命令を受信し、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に、データと命令を送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサのマシン命令を含み、過程指向および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス(programmable logic device、PLD)を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本発明で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、または中間部構成要素を含む計算システム(例えば、アプリケーションサーバ)、または、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本発明で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ)に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク(Local Area Network、LAN)、広域ネットワーク(Wide Area Network、WAN)およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
本発明の実施形態による技術方案は、少なくとも以下の技術的効果を有する。
1.第1位置情報に基づいて構築されたビジョングラフネットワークと、語義情報に基づいて構築された語義グラフネットワークとに接続関係を構築するため、異なる次元の情報間の相補性を十分に発揮することができ、ビジョングラフネットワーク計算において、語義グラフネットワークの中間データを用いて補助計算を行うことができ、語義グラフネットワーク計算においてビジョングラフネットワークの中間データを用いて補助計算を行うことができる。これにより、語義グラフネットワークとビジョングラフネットワークによる単文字の特徴マイニング効果を向上し、最終的に計算された単文字の特徴がより正確となる。
2.単文字の第1位置情報と語義情報とを用いて計算を行うため、より多くのシーンの文字認識に適応できるようになる。本方法により、文字認識の応用により良い拡張性を有し、カード手形の認識、文書の自動入力、写真による問題文検索、さらには文書の構造化解析の任務に応用することができる。
3.ビジョン情報(位置情報)と語義情報を組み合わせることにより、エンドツーエンドの測定認識問題をより良く解决することができる。多くのOCR(Optical Character Recognition、光学文字認識)タスクにおいて、より迅速かつ正確に文字の位置を特定し、文字の内容を認識することができる。OCR技術を革新し、高次タスクの拡張を容易にし、クラウドおよび移動端末のOCR応用においてより多くのトラフィックを増やし、ユーザー体験を向上することができる。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨および原則内における変更、均等な置換および改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims (13)

  1. 画像より認識された各単文字の語義情報と第1位置情報とを決定することと、
    前記各単文字の語義情報と第1位置情報により、グラフネットワークを構築することと、
    前記グラフネットワークの計算した前記各単文字の特徴により、前記画像の文字認識結果を決定することと、を含み、
    前記語義情報には、少なくとも文字カテゴリ情報および前記画像の畳み込み特徴が含まれる
    ことを特徴とする文字認識の方法。
  2. 前記各単文字の語義情報と第1位置情報により、グラフネットワークを構築することは、
    前記各単文字の第1位置情報により、前記各単文字からなる各第1ノード間のエッジ関係を決定することと、
    前記各第1ノード間のエッジ関係により、ビジョングラフネットワークを構築することと、
    前記各単文字の語義情報により、前記各単文字からなる各第2ノード間のエッジ関係を決定することと、
    前記各第2ノード間のエッジ関係により、語義グラフネットワークを構築することと、を含み、
    前記グラフネットワークの計算した前記各単文字の特徴により、前記画像の文字認識結果を決定することは、
    前記各単文字の第1位置情報および前記語義グラフネットワークにおける任意の1層の出力結果により、前記ビジョングラフネットワークを通して前記各単文字の第1特徴を計算することと、
    前記各単文字の語義情報および前記ビジョングラフネットワークにおける任意の1層の出力結果により、前記語義グラフネットワークを通して前記各単文字の第2特徴を計算することと、
    前記各単文字の第1特徴と第2特徴により、前記画像の文字認識結果を決定することと、を含む
    ことを特徴とする請求項1に記載の文字認識の方法。
  3. 前記画像より認識された各単文字の語義情報と第1位置情報とを決定することは、
    前記画像の畳み込み特徴と前記各単文字の文字カテゴリ情報により、前記各単文字の語義情報を決定することと、
    前記画像の畳み込み特徴と前記各単文字の第2位置情報により、前記各単文字の第1位置情報を決定することと、を含む
    ことを特徴とする請求項1に記載の文字認識の方法。
  4. 前記画像の畳み込み特徴と前記各単文字の文字カテゴリ情報により、前記各単文字の語義情報を決定する前に、
    第1プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の文字カテゴリ情報を決定すること、をさらに含み、
    前記文字カテゴリ情報は、前記各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む
    ことを特徴とする請求項3に記載の文字認識の方法。
  5. 前記画像の畳み込み特徴と前記各単文字の第2位置情報により、前記各単文字の第1位置情報を決定する前に、
    第2プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の第2位置情報を決定すること、をさらに含み、
    前記第2位置情報は、前記各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む
    ことを特徴とする請求項3に記載の文字認識の方法。
  6. 画像より認識された各単文字の語義情報と第1位置情報とを決定する第1決定モジュールと、
    前記各単文字の語義情報と第1位置情報により、グラフネットワークを構築する構築モジュールと、
    前記グラフネットワークの計算した前記各単文字の特徴により、前記画像の文字認識結果を決定する第2決定モジュールと、を備え
    前記語義情報には、少なくとも文字カテゴリ情報および前記画像の畳み込み特徴が含まれる
    ことを特徴とする文字認識の装置。
  7. 前記構築モジュールは、
    前記各単文字の第1位置情報により、前記各単文字からなる各第1ノード間のエッジ関係を決定する第1決定サブモジュールと、
    前記各第1ノード間のエッジ関係により、ビジョングラフネットワークを構築する第1構築サブモジュールと、
    前記各単文字の語義情報により、前記各単文字からなる各第2ノード間のエッジ関係を決定する第2決定サブモジュールと、
    前記各第2ノード間のエッジ関係により、語義グラフネットワークを構築する第2構築サブモジュールと、を備え、
    前記第2決定モジュールは、
    前記各単文字の第1位置情報および語義グラフネットワークにおける任意の1層の出力結果により、ビジョングラフネットワークを通して前記各単文字の第1特徴を計算する第1計算サブモジュールと、
    前記各単文字の語義情報および前記ビジョングラフネットワークにおける任意の1層の出力結果により、前記語義グラフネットワークを通して前記各単文字の第2特徴を計算する第2計算サブモジュールと、
    前記各単文字の第1特徴と第2特徴により、前記画像の文字認識結果を決定する第3決定サブモジュールと、を備える
    ことを特徴とする請求項6に記載の文字認識の装置。
  8. 前記第1決定モジュールは、
    前記画像の畳み込み特徴と前記各単文字の文字カテゴリ情報により、前記各単文字の語義情報を決定する語義決定サブモジュールと、
    前記画像の畳み込み特徴と前記各単文字の第2位置情報により、前記各単文字の第1位置情報を決定する位置決定サブモジュールと、を備える
    ことを特徴とする請求項6に記載の文字認識の装置。
  9. 第1プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の文字カテゴリ情報を決定する第3決定モジュールをさらに備え、
    前記文字カテゴリ情報は、前記各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む
    ことを特徴とする請求項8に記載の文字認識の装置。
  10. 第2プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の第2位置情報を決定する第4決定モジュールをさらに備え、
    前記第2位置情報は、前記各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む
    ことを特徴とする請求項8に記載の文字認識の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
    前記命令は、前記少なくとも1つのプロセッサにより実行される場合、請求項1~5のいずれか一項に記載の文字認識の方法を実行させることを特徴とする電子設備。
  12. 請求項1~5のいずれか一項に記載の文字認識の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体。
  13. コンピュータにおいて、プロセッサにより実行される場合、請求項1~5いずれか一項に記載の文字認識の方法を実現することを特徴とするプログラム。
JP2021051576A 2020-06-30 2021-03-25 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム Active JP7142121B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010616043.8A CN111783760B (zh) 2020-06-30 2020-06-30 文字识别的方法、装置、电子设备及计算机可读存储介质
CN202010616043.8 2020-06-30

Publications (2)

Publication Number Publication Date
JP2021103573A JP2021103573A (ja) 2021-07-15
JP7142121B2 true JP7142121B2 (ja) 2022-09-26

Family

ID=72760896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051576A Active JP7142121B2 (ja) 2020-06-30 2021-03-25 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US11775845B2 (ja)
EP (1) EP3816858A3 (ja)
JP (1) JP7142121B2 (ja)
KR (1) KR20210040306A (ja)
CN (1) CN111783760B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11935797B2 (en) * 2021-03-29 2024-03-19 Changxin Memory Technologies, Inc. Test method, adjustment method, test system, and storage medium for alignment error
US20230004741A1 (en) * 2021-06-30 2023-01-05 Konica Minolta Business Solutions U.S.A., Inc. Handwriting recognition method and apparatus employing content aware and style aware data augmentation
KR20230062946A (ko) 2021-11-01 2023-05-09 (주)웨어비즈 인공지능 기반 문자 판독 장치
CN114419651A (zh) * 2022-03-03 2022-04-29 深圳依时货拉拉科技有限公司 智能票据识别方法、计算机可读存储介质及计算机设备
CN114842474B (zh) * 2022-05-09 2023-08-08 北京百度网讯科技有限公司 文字识别方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132639A (ja) 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 文字抽出認識方法及び装置及びこの方法を記録した記録媒体
US6128606A (en) 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
JP2013246473A (ja) 2012-05-23 2013-12-09 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
US20180025256A1 (en) 2015-10-20 2018-01-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for recognizing character string in image
JP2019160285A (ja) 2018-10-30 2019-09-19 株式会社三井E&Sマシナリー 読取システム及び読取方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943B (zh) * 2017-09-08 2020-07-28 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108647591A (zh) * 2018-04-25 2018-10-12 长沙学院 一种基于视觉-语义特征的视频中行为识别方法和系统
US10540579B2 (en) * 2018-05-18 2020-01-21 Sap Se Two-dimensional document processing
US10878269B2 (en) * 2018-06-19 2020-12-29 Sap Se Data extraction using neural networks
CN109615006B (zh) * 2018-12-10 2021-08-17 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN110569846A (zh) 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
US11710302B2 (en) * 2019-11-08 2023-07-25 Tricentis Gmbh Method and system for single pass optical character recognition
CN111062389A (zh) * 2019-12-10 2020-04-24 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机可读介质及电子设备
CN111046671A (zh) 2019-12-12 2020-04-21 中国科学院自动化研究所 基于图网络融入词典的中文命名实体识别方法
CN111178363B (zh) * 2019-12-18 2024-02-20 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
US11651604B2 (en) * 2020-03-31 2023-05-16 Boe Technology Group Co., Ltd. Word recognition method, apparatus and storage medium
CN114037985A (zh) * 2021-11-04 2022-02-11 北京有竹居网络技术有限公司 信息提取方法、装置、设备、介质及产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128606A (en) 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
JP2000132639A (ja) 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 文字抽出認識方法及び装置及びこの方法を記録した記録媒体
JP2013246473A (ja) 2012-05-23 2013-12-09 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
US20180025256A1 (en) 2015-10-20 2018-01-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for recognizing character string in image
JP2019160285A (ja) 2018-10-30 2019-09-19 株式会社三井E&Sマシナリー 読取システム及び読取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C.J.C. Burges, 外7名,"Shortest path segmentation: a method for training a neural network to recognize character strings",[Proceedings 1992] IJCNN International Joint Conference on Neural Networks,IEEE,1992年,p.(III-165)-(III-172)
田中瑛一,"最短経路の収束を利用した文字切り出し方式の提案",画像の認識・理解シンポジウム(MIRU2011)論文集,日本,情報処理学会,2011年07月20日,第2011巻,p.331-336

Also Published As

Publication number Publication date
KR20210040306A (ko) 2021-04-13
EP3816858A3 (en) 2021-11-03
EP3816858A2 (en) 2021-05-05
US11775845B2 (en) 2023-10-03
JP2021103573A (ja) 2021-07-15
CN111783760A (zh) 2020-10-16
US20210209401A1 (en) 2021-07-08
CN111783760B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
JP7142121B2 (ja) 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム
KR102610518B1 (ko) 문자 구조화 추출 방법, 장치, 기기 및 저장 매체
US11854246B2 (en) Method, apparatus, device and storage medium for recognizing bill image
US11681875B2 (en) Method for image text recognition, apparatus, device and storage medium
CN111695553B (zh) 表格识别方法、装置、设备和介质
CN113657390B (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
US20210201198A1 (en) Method, electronic device, and storage medium for generating node representations in heterogeneous graph
CN111767379A (zh) 图像问答方法、装置、设备以及存储介质
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN112001169B (zh) 文本纠错的方法、装置、电子设备和可读存储介质
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
CN112149741B (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN112287924B (zh) 文本区域检测方法、装置、电子设备和计算机存储介质
US20220180093A1 (en) Form information extracting method, apparatus, electronic device and storage medium
US11321370B2 (en) Method for generating question answering robot and computer device
EP3920076A1 (en) Method, apparatus, and storage medium for obtaining document layout
CN113627439A (zh) 文本结构化处理方法、处理装置、电子设备以及存储介质
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN114511743A (zh) 检测模型训练、目标检测方法、装置、设备、介质及产品
CN111950272B (zh) 文本相似度的生成方法、装置及电子设备
CN111507265B (zh) 表格关键点检测模型训练方法、装置、设备以及存储介质
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach
CN112256168A (zh) 一种手写内容电子化的方法、装置、电子设备及存储介质
CN111784799A (zh) 图像填充方法、装置、设备及存储介质
CN112926419B (zh) 字符判定结果处理方法、装置、电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R150 Certificate of patent or registration of utility model

Ref document number: 7142121

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150