JP7230081B2 - 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7230081B2
JP7230081B2 JP2021032799A JP2021032799A JP7230081B2 JP 7230081 B2 JP7230081 B2 JP 7230081B2 JP 2021032799 A JP2021032799 A JP 2021032799A JP 2021032799 A JP2021032799 A JP 2021032799A JP 7230081 B2 JP7230081 B2 JP 7230081B2
Authority
JP
Japan
Prior art keywords
text box
text
type
relationship
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021032799A
Other languages
English (en)
Other versions
JP2021197154A (ja
Inventor
ユーリン リー,
ジュ フアン,
シャマン チン,
ジュニュ ハン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021197154A publication Critical patent/JP2021197154A/ja
Application granted granted Critical
Publication of JP7230081B2 publication Critical patent/JP7230081B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本出願の実施例は、コンピュータ技術分野に関し、具体的に人工知能の深層学習及び画像処理の分野に関する。
帳票は、重要な構造化情報のテキストキャリアであり、様々なビジネスシーンに広く適用され、関連部門が帳票を監査する際に、通常、帳票中に記載された情報を手動で監査する必要があり、コストが高く、効率が低く、人工知能技術の発展に伴い、帳票画像を自動的に認識して、帳票情報を抽出する技術が盛んになってきている。現在、従来技術では、テンプレートマッチング方式により、帳票の固定位置から帳票情報を抽出することが一般的である。しかし、帳票のレイアウトが統一されておらず、構造が異なるため、レイアウト毎の帳票にテンプレートを保持することは困難であり、拡張性及び汎用性が悪いので、帳票情報の抽出精度に影響を与えることがある。
帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供している。
第1の態様によれば、帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定するステップと、前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するステップと、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスに基づいて、前記帳票画像の構造化帳票データを抽出するステップと、を含む帳票画像認識方法を提供している。
第2の態様によれば、帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定するためのテキスト検出モジュールと、前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するための情報推定モジュールと、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスに基づいて、前記帳票画像の構造化帳票データを抽出するための帳票データ抽出モジュールと、を含む帳票画像認識装置を提供している。
第3の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサに本出願の実施例のいずれかに係る帳票画像認識方法が実行される電子機器を提供している。
第4の態様によれば、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令は、前記コンピュータに本出願の実施例のいずれかに係る帳票画像認識方法を実行させる非一時的コンピュータ可読記憶媒体を提供している。
第5の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本出願の実施例のいずれかに係る帳票画像認識方法が実現される、コンピュータプログラムを提供する。
本出願の実施例に係る技術的手段によれば、従来技術における固定テンプレートに基づいて帳票画像認識を行うことによる、拡張性及び汎用性が悪く、認識精度が低いという問題は解決される。
このセクションに記述された内容は、本出願の実施例の肝要又は重要な特徴を識別することを意図しておらず、本出願の範囲を限定するものでもないことを理解されたい。本出願の他の特徴は、以下の明細書を通して容易に理解されるであろう。
図面は、本出願の技術的手段をより良く理解するために使用され、本出願を限定するものではない。
本出願の実施例に係る帳票画像認識方法のフローチャートである。 本出願の実施例に係る帳票認識の視覚的効果を示す模式図である。 本出願の実施例に係る帳票認識の視覚的効果を示す模式図である。 本出願の実施例に係る他の帳票画像認識方法のフローチャートである。 本出願の実施例に係る他の帳票画像認識方法のフローチャートである。 本出願の実施例に係る特徴認識ネットワークの動作原理を示す模式図である。 本出願の実施例に係る他の帳票画像認識方法のフローチャートである。 本出願の実施例に係るサブ予測ネットワークの動作原理を示す模式図である。 本出願の実施例に係る他の帳票画像認識方法のフローチャートである。 本出願の実施例に係る他の帳票画像認識方法のフローチャートである。 本出願の実施例に係る帳票画像認識装置の構造概略図である。 本出願の実施例の帳票画像認識方法を実現するための電子機器のブロック図である。
以下は、理解を容易にするために添付図面を参照して本出願の実施例の様々な詳細を含む本出願の例示的な実施例を説明するが、それらは単なる例示として見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識するであろう。同様に、以下の説明では、明確かつ簡潔にするために、周知の機能及び構造についての記述を省略する。
図1Aは本出願の実施例に係る帳票画像認識方法のフローチャートであり、図1B~1Cは本出願の実施例に係る帳票認識の視覚的効果を示す模式図であり、本実施例は、帳票画像を認識する場合に適用し、特にレイアウトが固定されていない複数種の帳票画像を認識する場合に適用する。該実施例は、電子機器に配置された帳票画像認識装置によって実行され得、該装置はソフトウェア及び/又はハードウェアを用いて実現することができる。図1A~1Cに示すように、該方法はS101~S103を含む。
S101:帳票画像に対してテキスト検出を行って、帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定する。
本出願の実施例における帳票は、所定のレイアウトに従って支払い金額を明記した証書であってもよく、伝票、預金証書、送金手形、小切手などであってもよい。テキストボックスは、テキストが検出された帳票画像における、テキスト文字列にマークされたボックスであってもよい。例えば、図1Bは、帳票画像に対してテキスト検出を行った後における、マークされたテキストボックスの視覚的効果の模式図を示しており、帳票画像における各ボックスは、テキスト文字列を囲むために用いられる。なお、本出願の実施例は、帳票画像中に複数のテキストボックスがある場合に、複数のテキストボックス間の構造的関係をどのように推定して、さらに構造化帳票データをどのようにして抽出するかにフォーカスされている。
選択可能に、テキストボックスの属性情報セットは、帳票画像における各テキストボックス内のテキスト文字列自体の属性を示すための関連情報であってもよく、テキストボックスの位置座標、画像領域及びテキストコンテンツなどを含むことができるが、これらに限定されない。テキストボックスの位置座標は、テキストボックスの四隅の点の位置座標であってもよい。画像領域は、各テキストボックスの帳票画像における対応する領域であってもよい。テキストコンテンツは、テキストボックスで囲まれたテキスト文字列のコンテンツであってもよい。テキストボックスの関係情報セットは、帳票画像における、異なるテキストボックス間の相互関係を示すための情報であってもよい。各テキストボックスと他のテキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含むことができるが、これらに限定されない。
選択可能に、本出願の実施例は、光学的文字認識(Optical Character Recognition,OCR)技術等のテキスト検出技術を用いて、帳票画像における各テキストボックスの属性情報セットを確定した後、各テキストボックスの属性情報セットに基づいて、各テキストボックスと他のテキストボックスとの関係情報セットを確定することができる。
具体的には、テキスト検出技術を用いて帳票画像における各テキストボックスの属性情報セットを確定する場合に、予め設定されたアルゴリズムに従って実現してもよい。例えば、テキスト領域検出アルゴリズムにより帳票画像における各テキスト文字列の位置をマークして、少なくとも2つのテキストボックスを得、その後、各テキストボックスの四隅の点の座標を該テキストボックスの位置座標とし、帳票画像でテキストボックス領域に対応する画像を該テキストボックスの画像領域として切り出し、文字コンテンツ検出アルゴリズムによりテキストボックスにおけるテキストコンテンツを認識することができる。さらに予めトレーニングされたニューラルネットワークモデルに基づいて実現されてもよく、例えば、帳票画像を予めトレーニングされたターゲット文字検出モデル(例えばEASTモデル)に入力し、該ターゲット文字検出モデルは、深層学習アルゴリズムに基づいて、テキストボックスにより帳票画像における各テキスト文字列の位置をマークし、テキストボックスの四隅の点の座標を出力するとともに、時計回り方向にソートして、全てのテキストボックス集合P={p;i∈N}を取得する。ここで、i番目のテキストボックスはp={x,y;n∈(1,4)}である。そして、テキストボックス毎の位置座標に基づいて、帳票画像においてテキストボックスが存在する領域の画像切片を画像領域Iとして切り出す。最後に、画像領域のそれぞれを予めトレーニングされたテキストコンテンツ認識モデル(例えば畳み込みニューラルネットワークCRNNモデル)に入力し、該テキストコンテンツ認識モデルは深層学習アルゴリズムに基づいて画像領域における文字コンテンツcを予測し、即ちテキストボックス毎の属性情報セットが(p,I,c)である。
選択可能に、本出願の実施例は、各テキストボックスの属性情報セットに基づいて、以下の式(1)~(3)に従って、各テキストボックスと他のテキストボックスとの間の関係情報セット(dij,rij,uij)を確定することであってもよく、
ij=p-p (1)
ij=rot(p,p) (2)
ij=Euclidean(p,p) (3)
ここで、pはi番目のテキストボックスの位置座標であり、pはj番目のテキストボックスの位置座標であり、dijはi番目のテキストボックスとj番目のテキストボックスとの四隅の点の位置座標の差であり、rijはi番目のテキストボックスとj番目のテキストボックスとの間の中心点の角度の差であり、且つrij∈[-π,π]であり、rot()は角度の差の計算関数であり、uijはi番目のテキストボックスとj番目のテキストボックスとの間の中心点のユークリッド距離であり、Euclidean()は、ユークリッド距離計算関数である。
S102:テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。
本出願の実施例は、予め帳票構造を定義することができ、即ちテキストボックスのタイプをテキストボックスにおけるテキスト文字列のタイプとし、フィールド属性タイプK、フィールド値タイプV、テーブルヘッダタイプH又はテーブルセルタイプCを含むことができる。前記フィールド属性タイプKと前記フィールド値タイプVとのテキストボックスは、フィールド構造的関係Rを有し、前記テーブルヘッダタイプHとテーブルセルタイプCとのテキストボックスは、テーブル構造的関係Mを有する。該定義に基づいて、本出願の実施例は、帳票画像に対して、G=(Y,E)の無向グラフ(undirected graph)を定義することができ、各テキストボックスは無向グラフにおける頂点Yを表し、該テキストボックスのタイプはK、V、H、V又はCのいずれかに属し、無向グラフにおける2つの頂点(Y及びY)が構造的関係を有する場合、例えば、Y及びYのタイプがK及びV、又はH及びCである場合に、両方の対応辺Eは、フィールド構造的関係R又はテーブル構造的関係Mに属する。無向グラフに基づいて(Y,Y)=(Y,Y)を定義し、無向グラフの2つずつの異なる頂点Y及びY(即ち、2つずつの異なるテキストボックス)について、関連確率Aijを計算することができ、ただし、Aij∈{0,1}であり、Aij=1の場合は、頂点Y及びYが構造的関係を有することを示し、Aij=0の場合は、頂点Y及びYが構造的関係を有しないことを示す。Gは無向グラフであるから、1つの帳票画像における各テキストボックスに基づいて、2つずつの異なるテキストボックス間の関係確率は、2次元確率行列で表されてもよく、該2次元確率行列が対称行列、即ち
Figure 0007230081000001
である。
選択可能に、本出願の実施例は、上記定義された帳票構造に基づいて、帳票画像における各テキストボックスの属性情報セットと、該テキストボックスと他のテキストボックスとの関係情報セットとに基づいて、該テキストボックスが上記定義されたK、V、H、Cのどちらのタイプに属するのか、及び該テキストボックスとテーブル構造的関係又はフィールド構造的関係を有する関連テキストボックスを確定する。
具体的な実現過程は、予め設定された推定アルゴリズムに基づいてテキストボックス毎の属性情報セット及び該テキストボックスと他のテキストボックスとの関係情報セットを解析して、該テキストボックスのタイプを推定し、帳票画像における該テキストボックスとテーブル構造的関係又はフィールド構造的関係を有する関連テキストボックスを推定することができる。帳票画像における各テキストボックスの属性情報セット及び各テキストボックスと他のテキストボックスとの関係情報セットを予めトレーニングされた推定モデルに入力し、推定モデルが深層学習アルゴリズムに基づいて、属性情報セット及び関係情報セットを解析し、各テキストボックスのタイプ及び各テキストボックスと構造的関係を有する関連テキストボックスを出力することができる。
例示的に、図1Cは帳票画像におけるテキストボックスタイプ及び構造的関係を推定した後にマークされた視覚的効果図が示されている。図中において、直角実線枠に対応するテキストボックスのタイプはフィールド属性タイプKであり、直角破線枠に対応するテキストボックスのタイプはフィールド値タイプVであり、角丸実線枠に対応するテキストボックスのタイプはテーブルヘッダタイプHであり、角丸破線枠に対応するテキストボックスのタイプはテーブルセルタイプCである。各テキストボックスについて、関連テキストボックスと直線によって連結され、例えば、フィールド構造的関係を有するフィールド属性タイプの「氏名」テキストボックスと、フィールド値タイプの「張三」テキストボックスとが連結され、テーブルヘッダタイプの「課金種別」テキストボックスと、テーブルセルタイプの「西洋薬代」テキストボックスとが連結される。
なお、フィールド構造的関係については、1つのフィールド属性タイプのテキストボックスが1つのフィールド値タイプのテキストボックスに対応し、テーブル構造的関係については、1つのテーブルヘッダ属性タイプのテキストボックスが少なくとも1つのテーブルセルタイプのテキストボックスに対応し得るが、1つのテーブルセルタイプのテキストボックスが1つのテーブルヘッダタイプのテキストボックスのみに対応する。本出願の実施例の技術的手段は、推定方法により各テキストボックスのタイプ及びテキストボックス間の構造的関係を確定し、従来技術におけるテンプレートに基づいて固定位置に帳票データを抽出する技術的手段と比べて、帳票データの印字がずれた場合にも、テキストボックス間の構造的関係を正確に確定することができ、例えば、図1Cに示すように、帳票データの「受取人」と「92974」の印字がずれた場合でも、両者間のフィールド構造的関係を正確にマークすることができる。
S103:テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。
選択可能に、上記S102の動作により、帳票画像におけるテキストボックス毎のタイプ、及び各テキストボックスと構造的関係を有する関連テキストボックスを得ることができる。このときに、構造的関係を有するテキストボックス同士におけるテキストコンテンツを、1組の構造化帳票データとして抽出することができる。例示的に、図1Cに示すように、各直角実線枠とそれに結ぶ直角破線枠におけるコンテンツを1組のフィールド構造の帳票データとし、例えば、「業務フロー番号」と「2540000」とは1組のフィールド構造の帳票データであり、「業務フロー番号」がフィールド属性タイプであり、「2540000」がフィールド値タイプである。各角丸実線枠とそれに結ぶ角丸破線枠におけるコンテンツを1組のテーブル構造の帳票データとし、例えば、「課金種別」と「西洋薬代」とは1組のテーブル構造の帳票データであり、「課金種別」がテーブルヘッダタイプであり、「西洋薬代」がテーブルセルタイプである。
本出願の実施例の技術的手段は、帳票画像において各テキストボックスの属性情報セット及び関係情報セットを検出することにより、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、さらに帳票画像から構造化帳票データを抽出する。本出願の技術的手段は、テンプレート位置マッチング方式を用いることなく、帳票画像におけるフィールド構造的関係及びテーブル構造的関係を有する構造化帳票データを正確に推定することができる。帳票のレイアウトに制限されることなく、複数の異なるバージョンの帳票画像の自動認識をサポートすることができ、認識中にテンプレートを介することなく、帳票画像認識の汎用性及び精度を高めることができる。
図2は本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、本実施例が上記実施例に基づいて、更なる最適化されたものであり、テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定する具体的な説明を提供する。図2に示すように、該方法はS201~S205を含む。
S201:帳票画像に対してテキスト検出を行って、帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定する。
S202:テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する。
本出願の実施例において、テキストボックスの属性特徴セットは、テキストボックスの属性情報から抽出された、テキストボックス属性情報を示すための関連特徴であってもよい。同様に、テキストボックスの関係特徴は、テキストボックスの関係情報セットから抽出された、テキストボックスの関係情報を示すための関連特徴であってもよい。
選択可能に、本出願の実施例において、テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する際に、予め設定された特徴抽出アルゴリズムに基づいて、帳票画像における全てのテキストボックスの属性情報セット及び関係情報セットを解析し、各テキストボックスの属性を示す可能な属性特徴セット、及びテキストボックスの関係をマークする関係特徴セットを抽出することができる。さらにS201で確定されたテキストボックスの属性情報セット及び関係情報セットを、予めトレーニングされた推定モデルの特徴抽出ネットワークに入力し、該特徴抽出ネットワークは深層学習アルゴリズムに基づいて、テキストボックスの属性情報セット及び関係情報セットを解析し、各テキストボックスの属性特徴セット及び関係特徴セットを出力することができる。
S203:テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定する。
本出願の実施例において、テキストボックスのタイプ確率は、テキストボックスが予め定義されたフィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプに属する確率であってもよい。異なるテキストボックス間の関係確率は、2つずつの異なるテキスト間に構造的関係を有する確率であってもよく、該構造的関係は、フィールド構造的関係であってもよいし、テーブル構造的関係であってもよい。選択可能に、本出願の実施例において、確定された異なるテキストボックス間の関係確率は、構造的関係の種類を具体的に予測することではなく、異なるテキストボックス間に関係を有するか否かを予測することができる。
選択可能に、本出願の実施例において、テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率を確定する際に、予め設定されたタイプ確率予測アルゴリズムに基づいて、各テキストボックスの属性特徴セット及び関係特徴セットを解析し、各テキストボックスがそれぞれ、定義された、フィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプの4つのタイプに属する確率を予測することができる。予め設定された構造的関係予測アルゴリズムに基づいて、各テキストボックスの属性特徴セット及び関係特徴セットを解析することにより、帳票画像における2つずつの異なるテキストボックスが構造的関係を有する確率値を予測する。さらにS202で確定されたテキストボックスの属性特徴セット及び関係特徴セットを予めトレーニングされた推定モデルの確率予測ネットワークに入力し、該確率予測ネットワークは、深層学習アルゴリズムに基づいてテキストボックスの属性特徴セット及び関係特徴セットを解析し、帳票画像における各テキストボックスがそれぞれ定義された4つのタイプに属する確率と、そのうち2つずつの異なるテキストボックスが構造的関係を有する確率値とを出力することができる。本出願の実施例は、大量のサンプルデータによってトレーニングされた確率予測ネットワークによりこのステップの動作を実行し、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率の確定精度を向上させることができる。
S204:テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。
選択可能に、本出願の実施例は、テキストボックスのタイプ確率に基づいて、テキストボックスのタイプを確定することができる。具体的には、S203では、帳票画像における各テキストボックスが定義された4つのタイプに属する確率を既に予測した場合に、それぞれのテキストボックスについて、4つのタイプに属する確率のうち、最も高い確率に対応するタイプを該テキストボックスのタイプとすることができる。例えば、あるテキストボックスがフィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプに属する確率がそれぞれ0.1、0.05、0.08及び0.77であると、該テキストボックスのタイプはテーブルセルタイプであると判定することができる。
選択可能に、本出願の実施例は、各テキストボックスと構造的関係を有する関連テキストボックスを確定する際に、異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定し、前記候補テキストボックスペア及び前記テキストボックスのタイプに基づいて、前記テキストボックスと構造的関係を有する関連テキストボックスを確定することができる。具体的には、異なるテキストボックス間の関係確率は、異なるテキストボックスが構造的関係を有する確率を表し、確率値が高いほど、両者間に構造的関係を有する可能性が高くなり、かつ各関係確率は2つの異なるテキストボックスに対応するので、本出願の実施例は、テキストボックスが構造的関係を有するか否かを判定するための、80%などの関係確率閾値を予め設定することができ、S203で予測された全ての異なるテキストボックス間の関係確率から、確率閾値よりも大きい各関係確率を選別するとともに、選別された確率閾値よりも大きい各関係確率に対応する2つずつのテキストボックスを1組の候補テキストボックスペアとし、その後、確定された各テキストボックスのタイプに基づいて、各候補テキストボックスペアにおける2つずつのテキストボックスのタイプがテーブル構造タイプ又はフィールド構造タイプに属するか否かを判定し、YESである場合に、これらの2つのテキストボックスを互いに相手の関連テキストボックスとすることができる。例えば、図1Bに示すように、「氏名」テキストボックスと「張三」テキストボックスとの間の関係確率が92%であり、「氏名」テキストボックスと「西洋薬代」テキストボックスとの間の関係確率が85%であると仮定し、92%及び85%がいずれも確率閾値80%よりも大きいので、「氏名」テキストボックスと「張三」テキストボックスとを1組の候補テキストボックスとし、「氏名」テキストボックスと「西洋薬代」テキストボックスをも1組の候補テキストボックスとしてもよく、「氏名」テキストボックスのタイプがフィールド属性タイプ、「張三」テキストボックスのタイプがフィールド値タイプ、「西洋薬代」テキストボックスのタイプがテーブルセルタイプであり、フィールド属性タイプとフィールド値タイプとがフィールド構造的関係に対応するので、「氏名」テキストボックスの関連テキストボックスが「張三」テキストボックスであり、「張三」テキストボックスの関連テキストボックスが「氏名」テキストボックスであると判定することができる。
S205:テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。
本出願の実施例の技術的手段は、帳票画像から各テキストボックスの属性情報セット及び関係情報セットを検出し、各テキストボックスの属性特徴セット及び関係特徴セットを抽出し、抽出された各テキストボックスの属性特徴セット及び関係特徴セットに基づいて、各テキストボックスのタイプ確率及び異なるテキストボックスに構造的関係を有する関係確率を予測し、さらにタイプ確率及び関係確率に基づいて各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定することにより、帳票画像から構造化帳票データを抽出することを実現する。本出願の技術的手段は、各テキストボックスタイプ及びその関連テキストボックスを推定する際に、特徴抽出及び確率予測の方法により、テキストボックスタイプ及び関連テキストボックスを推定し、テキストボックスタイプ及び関連テキストボックスを確定する精度が向上される。本出願はテンプレートを用いなくても、帳票の正確な認識や帳票データの抽出が実現できる。
図3Aは本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、図3Bは本出願の実施例に係る特徴認識ネットワークの動作原理を示す模式図である。本実施例は上記実施例に基づいて、さらに最適化されたものであり、前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスの属性特徴セット及び関係特徴セットを確定する具体的な説明を提供する。図3A~3Bに示すように、該方法はS301~S308を含む。
S301:帳票画像に対してテキスト検出を行って、帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定する。
S302:テキストボックスの属性情報セットにおける画像領域に基づいて、テキストボックスの視覚的特徴を確定する。
選択可能に、テキストボックスの視覚的特徴は、テキストボックスの帳票画像における対応する画像領域から抽出された特徴であるため、このステップはS301で確定された各テキストボックスの属性情報セットからテキストボックスの画像領域を抽出し、画像領域を解析することにより、テキストボックスの視覚的特徴を確定することができる。
選択可能に、本出願の実施例は特徴抽出アルゴリズムに基づいてテキストボックスの関連特徴(即ち属性特徴セット及び関係特徴セット)を確定する場合、予め設定された画像特徴抽出アルゴリズムに基づいて、各テキストボックスの画像領域に対して特徴抽出を行い、各画像領域に対応する視覚的特徴を得ることができる。本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける視覚的特徴抽出層に基づいてテキストボックスの視覚的特徴を確定することができる。具体的には、各テキストボックスの属性情報セットにおける画像領域を該視覚的特徴抽出層に入力して、各テキストボックスの視覚的特徴を得ることができる。選択可能に、該視覚的特徴抽出層は少なくとも畳み込みニューラルネットワーク層を含む。例示的に、図3Bに示すように、i番目のテキストボックスについて、その属性情報セットにおける画像領域Iiを、特徴抽出ネットワークの畳み込みニューラルネットワーク層CNNに入力して、i番目のテキストボックスの視覚的特徴(Fνを得ることができる。
S303:テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、テキストボックスの意味的特徴を確定する。
選択可能に、テキストボックスの意味的特徴はテキストボックスにおけるテキストコンテンツから抽出された特徴であるため、このステップはS301で確定された各テキストボックスの属性情報セットからテキストボックスのテキストコンテンツを抽出し、その後、テキストコンテンツをテキストベクトル列に符号化し解析することによって、テキストボックスの意味的特徴を確定することができる。具体的には、本出願の実施例は、テキストコンテンツをテキストベクトル列に符号化する方法が多く、例えば、辞書を検索することによりテキストコンテンツをテキストベクトル列に符号化することができる。
選択可能に、本出願の実施例は特徴抽出アルゴリズムに基づいてテキストボックスの関連特徴(即ち属性特徴セット及び関係特徴セット)を確定する場合、各テキストボックスのテキストコンテンツをテキストベクトル列に符号化した後、予め設定されたテキスト特徴抽出アルゴリズムに基づいて、各テキストボックスのテキストベクトル列に対して特徴抽出を行い、各テキストボックスの意味的特徴を得ることができる。本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける意味的特徴抽出層に基づいてテキストボックスの意味的特徴を確定することができ、具体的には、各テキストボックスの属性情報セットにおけるテキストコンテンツを該意味的特徴抽出層に入力して、各テキストセグメントの意味的特徴を得ることができる。選択可能に、該意味的特徴抽出層は、単語ベクトルコード層、単語埋め込みネットワーク層及び長・短期記憶ネットワーク層を少なくとも含む。例示的に、図3Bに示すように、i番目のテキストボックスについて、その属性情報セットにおけるテキストコンテンツcを単語ベクトルコード層の入力とし、得られたテキスト単語ベクトル列を単語埋め込みネットワーク層Word Embeddingに入力し、得られた出力結果を長・短期記憶ネットワーク層LSTMに入力して、i番目のテキストボックスの意味的特徴(Fを得る。
S304:視覚的特徴、意味的特徴及び属性情報セットにおける位置座標を、テキストボックスの属性特徴セットとする。
選択可能に、本出願の実施例は、上記S302~S303で抽出された各テキストボックスの視覚的特徴及び意味的特徴と、各テキストボックスの属性情報セットにおける位置座標とを統合して、各テキストボックスの属性特徴セットを得ることができる。
選択可能に、本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける第1データ統合層に基づいて各テキストボックスの視覚的特徴、意味的特徴及び位置座標を統合して、テキストボックスの属性特徴セットを得ることができる。例示的に、図3Bに示すように、i番目のテキストボックスの視覚的特徴(Fν、意味的特徴(F、及びi番目のテキストボックスの位置座標pをデータ統合層1に入力して、データ統合層1により入力されたデータを統合して、i番目のテキストボックスの属性特徴セットFであるF=(p,(Fν,(F)を得ることができる。
S305:属性特徴セット及び関係情報セットに基づいて、テキストボックスの関係特徴セットを確定する。
選択可能に、本出願の実施例のテキストボックスの関係特徴セットは属性特徴セット及び関係情報セットに基づいて確定され、具体的には、各関係情報セットに、その対応するテキストボックスの属性特徴セットを追加することによって、テキストボックスの関係特徴セットを得ることができる。例えば、i番目のテキストボックスの属性特徴セットをFとし、j番目のテキストボックスの属性特徴セットをFとし、i番目のテキストボックスとj番目のテキストボックスとの間の関係情報セットを(dij,rij,uij)とすると、i番目のテキストボックスとj番目のテキストボックスとの間の関係特徴セットは(F,F,dij,rij,uij)である。
選択可能に、本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける第2データ統合層に基づいて、2つずつの異なるテキストボックスの属性特徴セット及びこれらの2つの異なるテキストボックスの間の関係情報セットを統合して、これらの2つの異なるテキストボックスの関係特徴セットを得ることができる。例示的に、図3Bに示すように、i番目のテキストボックスの属性特徴セットF、j番目のテキストボックスの属性特徴セットF及びi番目のテキストボックスとj番目のテキストボックスとの間の関係情報セット(dij,rij,uij)をデータ統合層2に入力して、データ統合層2により入力されたデータを統合して、i番目のテキストボックスとj番目のテキストボックスとの間の関係特徴セットEijを得ることができる。
S306:テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定する。
S307:テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。
S308:テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。
本出願の実施例の技術的手段は、帳票画像から検出された各テキストボックスの画像領域及びテキストコンテンツに基づいて、各テキストボックスの視覚的特徴及び意味的特徴をそれぞれ確定し、その後各テキストボックスの視覚的特徴、意味的特徴及び位置座標を各テキストボックスの属性特徴セットとし、属性特徴セットを対応する関係情報セットに追加して、各テキストボックスの関係特徴セットを得、抽出された各テキストボックスの属性特徴セット及び関係特徴セットに基づいて各テキストボックスのタイプ確率及び異なるテキストボックスの構造的関係を有する関係確率を予測し、さらに各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定することにより、帳票画像から構造化帳票データを抽出することを実現できる。本出願の技術的手段は、テキストボックスの属性特徴セット及び関係特徴セットを抽出する際に、視覚的特徴、意味的特徴及び位置関係などの多次元から考慮することにより、抽出された属性特徴セット及び関係特徴セットの精度が高く、さらにテキストボックスタイプ及び関連テキストボックスの確定精度が向上される。本出願はテンプレートを用いなくても、帳票の正確な認識や帳票データの抽出が実現できる。
図4Aは本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、図4Bは本出願の実施例に係るサブ予測ネットワークの動作原理を示す模式図である。本実施例は上記実施例に基づいて、さらに最適化されたものであり、テキストボックスの属性特徴セット及び関係特徴セットを確率予測ネットワークに入力して、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を得る具体的な説明を提供する。
なお、本出願の確率予測ネットワークは、予め大量のサンプルデータによりトレーニングされたものであり、該確率予測ネットワークは、少なくとも1つの首尾接続されたサブ予測ネットワークにより構成されてもよい。図4Bはサブ予測ネットワークの動作原理模式図が示され、本出願における予測ネットワークが複数のサブ予測ネットワークから構成されると、各サブ予測ネットワークの第1パーセプトロンMLPの出力結果を、その次のサブ予測ネットワークの第1パーセプトロンMLPへの入力とし、各サブ予測ネットワークの長・短期記憶ネットワーク層LSTMの出力結果を、次のサブ予測ネットワークの長・短期記憶ネットワーク層LSTM及び第1隠れ層への入力とする。
具体的には、図4A~4Bに示すように、該方法はS401~S411を含む。
S401:帳票画像に対してテキスト検出を行って、帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定する。
S402:テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する。
S403:テキストボックスの関係特徴セットを現在サブ予測ネットワークの第1パーセプトロンに入力して、現在検知確率を得る。
本出願の実施例における現在サブ予測ネットワークは、確率予測ネットワークにおいて現在作業を行っているサブ予測ネットワークであってもよく、確率予測ネットワークにおける任意のサブ予測ネットワークであってもよい。
選択可能に、図4Bに示すように、本出願の実施例は、現在サブ予測ネットワークlの前のサブ予測ネットワークl-1の第2パーセプトロンMLPから出力したテキストボックスの関係特徴セットE[l-1]を、現在サブ予測ネットワークlの第1パーセプトロンMLPに入力し、第1パーセプトロンMLPが、テキストボックスの関係特徴セットE[l-1]に対して多層検知を行い、現在検知確率を得ることができ、選択可能に、該現在検知確率は、現在サブ予測ネットワークが検知した異なるテキストボックス間の関係確率であってもよい。
選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第1サブ予測ネットワークである場合に、このときに現在サブ予測ネットワークの第1パーセプトロンに入力されるテキストボックスの関係特徴セットは、S402で確定された帳票画像の各テキストボックスの関係特徴セットであってもよい。
S404:現在検知確率及びテキストボックスの属性特徴セットを、現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得る。
選択可能に、本出願の実施例は、現在サブ予測ネットワークlの前のサブ予測ネットワークl-1の長・短期記憶ネットワーク層LSTMから出力されたテキストボックスの属性特徴セットF[l-1]と、現在サブ予測ネットワークlの第1パーセプトロンMLPから出力された現在検知確率とを、現在サブ予測ネットワークlの第1隠れ層に入力し、該第1隠れ層は、入力された属性特徴セットF[l-1]と現在検知確率とを計算して、例えば乗算を行い、第1隠れテキスト特徴H1[l]を得ることができる。
選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第1サブ予測ネットワークである場合に、このときに現在サブ予測ネットワークの第1隠れ層に入力されるテキストボックスの属性特徴セットは、S402で確定された帳票画像の各テキストボックスの属性特徴セットであってもよい。
S405:現在サブ予測ネットワークが最後のサブ予測ネットワークであるか否かを判断し、NOである場合に、S406を実行し、YESである場合に、S409を実行する。
選択可能に、本出願の実施例において、現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、現在サブ予測ネットワークが最終的なテキストボックスのタイプ確率及び異なるテキストボックスの関係確率を提供する必要がないことを意味し、このときに現在サブ予測ネットワークはS406~S408の動作を実行でき、自身の内部の各ネットワーク層に基づいて、このサブ予測ネットワークで解析した属性特徴セット及び関係特徴セットを得て次のサブ予測ネットワークに入力する。現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、現在サブ予測ネットワークは、テキストボックスのタイプ確率及び異なるテキストボックスの関係確率を予測するS409の動作を実行する必要がある。
S406:第1隠れテキスト特徴及び属性特徴セットを現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、テキストボックスの更新後の属性特徴セットを得、更新後の属性特徴セットを次のサブ予測ネットワークに入力する。
選択可能に、現在サブ予測ネットワークlが最後のサブ予測ネットワークではない場合に、現在サブ予測ネットワークlの第1隠れ層から出力された第1隠れテキスト特徴H1[l]と、現在サブ予測ネットワークlの前のサブ予測ネットワークl-1の長・短期記憶ネットワーク層LSTMから出力されたテキストボックスの属性特徴セットF[l-1]とを、現在サブ予測ネットワークlの長・短期記憶ネットワーク層LSTMに入力し、該長・短期記憶ネットワーク層LSTMは、深層学習アルゴリズムに基づいて、入力されたテキストボックスの属性特徴セットF[l-1]を更新し、得られたテキストボックスの属性特徴セットF[l]を、現在サブ予測ネットワークlの次のサブ予測ネットワークl+1に入力する。即ち、次のサブ予測ネットワークl+1の第1隠れ層及び長・短期記憶ネットワーク層LSTMにそれぞれ入力する。
選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第1サブ予測ネットワークである場合に、現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力されるテキストボックスの属性特徴セットは、S402で確定された帳票画像の各テキストボックスの属性特徴セットであってもよい。
S407:第1隠れテキスト特徴及び関係特徴セットを、現在サブ予測ネットワークの第2隠れ層に入力して、第2隠れテキスト特徴を得る。
選択可能に、現在サブ予測ネットワークlが最後のサブ予測ネットワークではない場合に、現在サブ予測ネットワークlの前のサブ予測ネットワークl-1の第2パーセプトロンMLPから出力されたテキストボックスの関係特徴セットE[l-1]、現在サブ予測ネットワークlの第1隠れ層から出力された第1隠れテキスト特徴H1[l]、及び第1隠れテキスト特徴の転置H1[l]を、現在サブ予測ネットワークlの第2隠れ層に入力する必要があり、該第2隠れ層は、入力された関係特徴セットE[l-1]、第1隠れテキスト特徴H1[l]及びその転置H1[l]を計算し、例えば三項行列乗算を行って、第2隠れテキスト特徴H2[l]を得る。
選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第1サブ予測ネットワークである場合に、現在サブ予測ネットワークの第2隠れ層に入力されるテキストボックスの関係特徴セットは、S402で確定された帳票画像の各テキストボックスの関係特徴セットであってもよい。
S408:第2隠れテキスト特徴を現在サブ予測ネットワークの第2パーセプトロンに入力して、テキストボックス更新後の関係特徴セットを得、更新後の関係特徴セットを次のサブ予測ネットワークに入力する。
選択可能に、本出願の実施例は、現在サブ予測ネットワークlの第2隠れ層から得られた第2隠れテキスト特徴H2[l]を、現在サブ予測ネットワークlの第2パーセプトロンMLPに入力し、第2パーセプトロンは、第2隠れテキスト特徴H2[l]に対して多層検知を行い、現在サブ予測ネットワークlによって更新された関係特徴セットE[l]を得、該関係特徴セットE[l]を現在サブ予測ネットワークlの次のサブ予測ネットワークl+1に入力することができる。即ち、次のサブ予測ネットワークl+1の第1パーセプトロンMLPに入力する。
なお、現在サブ予測ネットワークlの次のサブ予測ネットワークl+1は、最後のサブ予測ネットワークによって各テキストボックスのタイプ確率及び異なるテキストボックス間の関係確率が予測されるまで、同様に本出願の実施例S403~S409に記載の方法に従って動作する。
S409:第1隠れテキスト特徴及び属性特徴セットを現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、テキストボックスのタイプ確率を得、現在検知確率を異なるテキストボックス間の関係確率とする。
選択可能に、現在サブ予測ネットワークlが最後のサブ予測ネットワークである場合に、現在サブ予測ネットワークlは、各テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を予測する必要がある。このときに、現在サブ予測ネットワークlの第1隠れ層から出力された第1隠れテキスト特徴H1[l]と、現在サブ予測ネットワークlの前のサブ予測ネットワークl-1の長・短期記憶ネットワーク層LSTMから出力されたテキストボックスの属性特徴セットF[l-1]とを、現在サブ予測ネットワークlの長・短期記憶ネットワーク層LSTMに入力することができる。長・短期記憶ネットワーク層LSTMは、深層学習アルゴリズムに基づいて入力されたデータを解析し、各テキストボックスが4つの定義されたタイプ(フィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプ)に属する確率を得る。異なるテキストボックス間の関係確率については、本実施例は、最後のサブ予測ネットワークの第1パーセプトロンMLPから出力された現在検知確率を、最終的に予測された異なるテキストボックス間の関係確率とすることができる。
なお、最後のサブ予測ネットワークと他のサブ予測ネットワークとは、ネットワーク構造が同一であり、ただし、トレーニングされた後、最後のサブ予測ネットワークと他のサブ予測ネットワークとは、長・短期記憶ネットワーク層の機能が異なり、最後のサブ予測ネットワークの長・短期記憶ネットワーク層の機能は、各テキストボックスのタイプ確率を予測するためのものであり、他のサブ予測ネットワークの長・短期記憶ネットワーク層の機能は、テキストボックスの属性特徴セットを更新するためのものである。
S410:テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。
S411:テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。
本出願の実施例の技術的手段は、帳票画像に基づいて各テキストボックスの属性情報セット及び関係情報セットを検出し、各テキストボックスの属性特徴セット及び関係特徴セットを抽出した後、少なくとも1つの首尾接続されたサブ予測ネットワークに基づいて確率予測ネットワークを構成して各テキストボックスのタイプ確率及び異なるテキストボックスの構造的関係を有する関係確率を抽出予測し、さらに各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、帳票画像から構造化帳票データを抽出することを実現する。本出願の技術的手段は、テキストボックスのタイプ確率及びテキストボックス間の関係確率を予測する際に、多層の首尾接続されたサブ予測ネットワークに基づいて予測することにより、予測結果の精度が大幅に向上され、テキストボックスのタイプ及び関連テキストボックスの正確な確定に役立つ。帳票画像認識、帳票データ抽出の精度が確保される。
図5は、本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、本実施例は上記実施例に基づいて、さらに最適化されたものであり、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係有する関連テキストボックスを確定する具体的な説明を提供する。図5に示すように、該方法はS501~S510を含む。
S501:帳票画像に対してテキスト検出を行って、帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定する。
S502:テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する。
S503:テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定する。
S504:テキストボックスのタイプ確率に基づいて、テキストボックスのタイプを確定する。
選択可能に、S503では、帳票画像における各テキストボックスのタイプ確率が既に確定されており、このときに、各テキストボックスについて、4つのタイプに属する確率のうち、最も高い確率に対応するタイプを該テキストボックスのタイプとすることができる。例示的に、図1Bにおける各テキストボックスのタイプ確率に基づいて、各テキストボックスのタイプを確定し、そしてフィールド属性タイプKに属するテキストボックスを直角実線枠としてマークし、フィールド値タイプVに属するテキストボックスを直角破線枠としてマークし、テーブルヘッダタイプHに属するテキストボックスを角丸実線枠としてマークし、テーブルセルタイプCに属するテキストボックスを角丸破線枠としてマークし、視覚化効果は図1Cに示す。
S505:異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定する。
S506:候補テキストボックスペア及びテキストボックスのタイプに基づいて、該テキストボックスと構造的関係を有する関連テキストボックスを確定する。
S507:該テキストボックスと構造的関係を有する関連テキストボックスが1つであるか否かを判断し、NOである場合に、S508を実行し、YESである場合に、S510を実行する。
選択可能に、S506では、各テキストボックスに対して確定された関連テキストボックスのうち、1つのテキストボックスが複数の関連テキストボックスを有する場合もあり得るが、複数の関連テキストボックスに誤判定があることを防止するために、本出願は、テキストボックス毎に、S506で確定されたテキストボックスと構造的関係を有する関連テキストボックスの数が1つであるか否かを順次判定し、YESである場合に、S510を実行して、帳票画像の構造化帳票データを抽出する。NOである場合に、S508を実行し、複数の関連テキストボックスに誤判定があるか否かをさらに判定する。
S508:該テキストボックスが予め設定されたタイプであるか否かを判断し、YESである場合に、S509を実行し、NOである場合に、S510を実行する。
選択可能に、本出願の実施例において、異なるテキストボックスが有する構造的関係については、フィールド属性タイプ、フィールド値タイプ又はテーブルセルタイプのテキストボックスは、その関連キストボックスが一意であるべきであるが、テーブルヘッダタイプのテキストボックスについては、その関連テキストボックスは複数有してもよい。したがって、本出願の実施例における予め設定されたタイプは、フィールド属性タイプ、フィールド値タイプ及びテーブルセルタイプであってもよい。S507では、1つのテキストボックスと構造的関係を有する関連テキストボックスが少なくとも2つであると判断された場合に、該テキストボックスがフィールド属性タイプ、フィールド値タイプ及びテーブルセルタイプの1つであるか否かを判断し、YESである場合に、該テキストボックスの複数の関連テキストボックスのうちの1つだけが正しいであることを意味し、このときに、S509を実行して、最終的に該テキストボックスと構造的関係を有する関連テキストボックスを確定する必要がある。NOである場合に、テキストボックスはテーブルヘッダタイプに属し、複数の関連テキストボックスを有することが正常現象であり、例えば、図1Cにおいて「課金種別」テキストボックスと構造的関係を有する関連テキストボックスは2つあり、即ち、「西洋薬代」テキストボックスと「治療費」テキストボックスである。このときに該テキストボックスに関連付けられた複数の関連テキストボックスを全て保留しておき、S510を直接実行して、帳票画像の構造化帳票データを抽出することができる。
S509:少なくとも2つの関連テキストボックスのうち、該テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に該テキストボックスと構造的関係を有する関連テキストボックスとする。
選択可能に、テキストボックスが関連テキストボックスを複数備え、かつ該テキストボックスが予め設定されたタイプに属する場合、このステップは複数の関連テキストボックスから、該テキストボックスと構造的関係を有する最終関連テキストボックスとして選択する必要がある。具体的な操作手順としては、S503で確定された異なるテキストボックス間の関係確率から、該テキストボックスと各関連テキストボックスとの関係確率を順次検索し、関係確率の最も高い関連テキストボックスを、最終的に該テキストボックスと構造的関係を有する関連テキストボックスとすることができる。例示的に、図1Bに示すように、S506で確定された「業務フロー番号」テキストボックスの関連テキストボックスが2つあると仮定し、即ち「254000」テキストボックス及び「2020年1月1日」テキストボックスであり、「業務フロー番号」テキストボックスのタイプは、予め設定されたタイプに属するフィールド属性タイプであるので、このステップは、「業務フロー番号」テキストボックスと「254000」テキストボックスとの間の第1関係確率と、「業務フロー番号」テキストボックスと「2020年1月1日」テキストボックスとの間の第2関係確率とを検索でき、第1関係確率が98%であり、第2関係確率が88%である場合に、関係確率がより高い「254000」テキストボックスを、最終的に「業務フロー番号」テキストボックスと構造的関係を有する関連テキストボックスとして選択することができる。
S510:テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。
本出願の実施例の技術的手段は、帳票画像に基づいて各テキストボックスの属性情報セット及び関係情報セットを検出し、各テキストボックスの属性特徴セット及び関係特徴セットを抽出して、各テキストボックスのタイプ確率及び異なるテキストボックスの構造的関係を有する関係確率を予測し、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、1つのテキストボックスが関連テキストボックスを複数有して、該テキストボックスが予め設定されたタイプに属すると、該テキストボックスと各関連テキストボックスとの間の関係確率に基づいて、該テキストボックスのための一意な関連テキストボックスを確定することで、帳票画像から構造化帳票データを抽出することが実現される。本出願の技術的手段は、テキストボックス毎の関連テキストボックスを確定した後に、テーブルヘッダタイプのテキストボックスに対しては、その全ての関連テキストボックスを保留し、他のタイプのテキストボックスに対しては、その中から関連確率の最も高い関連テキストボックスを選択することにより、関連テキストボックスの誤判定確率が大幅に低減され、関連テキストボックスの確定精度が向上される。本出願の帳票認識精度及び帳票データ抽出精度が確保される。
図6は本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本実施例は、上記実施例に基づいて、さらに最適化されたものであり、帳票画像に対してテキスト検出を行い、帳票画像における少なくとも2つのテキストボックスの属性情報セットを確定する具体的な説明を提供する。図6に示すように、該方法はS601~S606を含む。
S601:帳票画像に対してテキスト検出を行って、帳票画像における少なくとも2つのテキストボックスの位置座標を得る。
S602:少なくとも2つのテキストボックスの位置座標に対して歪み補正(Distortion Correction)を行う。
選択可能に、帳票画像については、その撮像角度の違い、帳票の置き方、及び帳票の平坦度の違いにより、撮像された帳票画像に多少の歪みが生じる場合がある。テキスト検出技術に基づいて帳票画像のテキストコンテンツを検出する場合に、通常、同一行に属するテキスト文字列を1つのテキストボックスとするため、撮像された帳票画像に歪みがあると、テキストコンテンツ検出に誤りがあるおそれがある。該問題について、本出願の実施例は、帳票画像に対してテキスト検出を行い、帳票画像における各テキストボックスの位置座標を取得した後、該位置座標に対して歪み補正を行うことができ、具体的な実行過程は、S601で確定された各テキストボックスの位置座標に対してアフィン変換(affine transformation)により歪み補正を行い、補正後の位置座標が正矩形の配列となることができる。さらにニューラルネットワークモデルにより位置座標を補正してもよく、本実施例はこれらに限定されない。
S603:補正後の少なくとも2つのテキストボックスの位置座標に基づいて、少なくとも2つのテキストボックスの画像領域及びテキストコンテンツを確定する。
S604:テキストボックスの属性情報セットに基づいて、テキストボックスの関係情報セットを確定する。
S605:テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。
S606:テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。
本出願の実施例の技術的手段は、帳票画像における各テキストボックスの属性情報を確定する際に、検出された各テキストボックスの位置座標に対して歪み補正を行った後、画像領域及びテキストコンテンツを確定することにより、テキストボックスの属性情報セットの精度が保証され、その後に該属性情報セットに基づいて関係情報セットを確定し、各テキストボックスのタイプ及び各テキストボックスとの関連テキストボックスを正確に推定することに役立ち、帳票画像から抽出された構造化帳票データの精度が保証される。
図7は本出願の実施例に係る帳票画像認識装置の構造概略図であり、本実施例は、帳票画像を認識する場合に適し、特にレイアウトが固定されていない複数種の帳票画像を認識する場合に適する。該装置は、本出願の実施例のいずれかに係る帳票画像認識方法を実現することができる。該装置700は具体的に、
帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも2つのテキストボックスの属性情報セット及び関係情報セットを確定するためのテキスト検出モジュール701と、
前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するための情報推定モジュール702と、
前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスに基づいて、前記帳票画像の構造化帳票データを抽出するための帳票データ抽出モジュール703と、を含む。
本出願の実施例の技術的手段は、帳票画像において各テキストボックスの属性情報セット及び関係情報セットを検出することにより、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、さらに帳票画像から構造化帳票データを抽出する。本出願の技術的手段は、テンプレート位置マッチング方式を用いることなく、帳票画像におけるフィールド構造的関係及びテーブル構造的関係を有する構造化帳票データを正確に推定することができる。帳票のレイアウトに制限されることなく、複数の異なるバージョンの帳票画像の自動認識をサポートすることができ、認識中にテンプレートを介することなく、帳票画像認識の汎用性及び精度が向上される。
さらに、前記テキストボックスのタイプは、フィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ又はテーブルセルタイプを含み、前記フィールド属性タイプと前記フィールド値タイプとのテキストボックスは、フィールド構造的関係を有し、前記テーブルヘッダタイプとテーブルセルタイプとのテキストボックスは、テーブル構造的関係を有する。
さらに、前記情報推定モジュール702は、
前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスの属性特徴セット及び関係特徴セットを確定するための特徴確定ユニットと、
前記テキストボックスの属性特徴セット及び関係特徴セットに基づいて、前記テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定するための確率確定ユニットと、
前記テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するためのタイプ関係確定ユニットと、を含む。
さらに、前記特徴確定ユニットは具体的に、
前記テキストボックスの属性情報セットにおける画像領域に基づいて、前記テキストボックスの視覚的特徴を確定し、
前記テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、前記テキストボックスの意味的特徴を確定し、
前記視覚的特徴、前記意味的特徴及び前記属性情報セットにおける位置座標を、前記テキストボックスの属性特徴セットとし、
前記属性特徴セット及び前記関係情報セットに基づいて、前記テキストボックスの関係特徴セットを確定するように構成される。
さらに、前記確率確定ユニットは、
前記テキストボックスの属性特徴セット及び関係特徴セットを確率予測ネットワークに入力して、前記テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を得るように構成される。
さらに、前記確率予測ネットワークは、少なくとも1つの首尾接続されたサブ予測ネットワークを含み、前記確率確定ユニットは具体的に、
前記テキストボックスの関係特徴セットを現在サブ予測ネットワークの第1パーセプトロンに入力して、現在検知確率を得、
前記現在検知確率及び前記テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得、
前記現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、前記第1隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記テキストボックスのタイプ確率を得、前記現在検知確率を異なるテキストボックス間の関係確率とするように構成される。
さらに、前記確率確定ユニットは前記現在検知確率及び前記テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得た後、さらに
前記現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、前記第1隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記テキストボックスの更新後の属性特徴セットを得、前記更新後の属性特徴セットを次のサブ予測ネットワークに入力し、前記第1隠れテキスト特徴及び前記関係特徴セットを前記現在サブ予測ネットワークの第2隠れ層に入力して、第2隠れテキスト特徴を得、前記第2隠れテキスト特徴を前記現在サブ予測ネットワークの第2パーセプトロンに入力して、前記テキストボックスの更新後の関係特徴セットを得、前記更新後の関係特徴セットを次のサブ予測ネットワークに入力するように構成される。
さらに、前記タイプ関係確定ユニットは、
前記テキストボックスのタイプ確率に基づいて、前記テキストボックスのタイプを確定するためのテキストボックスタイプ確定サブユニットと、
異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定するためのテキストボックスペア確定サブユニットと、
前記候補テキストボックスペア及び前記テキストボックスのタイプに基づいて、前記テキストボックスと構造的関係を有する関連テキストボックスを確定するための関連テキストボックス確定サブユニットと、を含む。
さらに、前記タイプ関係確定ユニットは、
前記テキストボックスと構造的関係を有する関連テキストボックスが少なくとも2つである場合に、前記テキストボックスが予め設定されたタイプであるか否かを判断するためのテキストボックスタイプ判断サブユニットと、
前記テキストボックスが予め設定されたタイプである場合に、前記少なくとも2つの関連テキストボックスのうち、前記テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に前記テキストボックスと構造的関係を有する関連テキストボックスとするための関連テキストボックス選別サブユニットと、を更に含む。
さらに、前記テキストボックスの属性情報セットは、前記テキストボックスの位置座標、画像領域及びテキストコンテンツを含み、前記テキストボックスの関係情報セットは、前記テキストボックスと他のテキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含む。
さらに、前記テキスト検出モジュール701は、
帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも2つのテキストボックスの位置座標を得るための位置確定サブユニットと、
前記少なくとも2つのテキストボックスの位置座標に対して歪み補正を行うための位置補正サブユニットと、
補正後の少なくとも2つのテキストボックスの位置座標に基づいて、前記少なくとも2つのテキストボックスの画像領域及びテキストコンテンツを確定するための画像・テキスト確定サブユニットと、を含む。
本出願の実施例によれば、本出願は電子機器及び可読記憶媒体をさらに提供している。
図8に示すように、本出願の実施例に係る帳票画像認識方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はさらに、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単に例示的なものに過ぎず、本明細書に記載され、及び/又は要求される本出願の実施を限定することを意図するものではない。
図8に示すように、該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、各コンポーネントを接続するための、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各コンポーネントは、異なるバスにより相互に接続されており、共通のマザーボード上に実装されてもよいし、又は必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器内で実行する指令を処理することができ、その指令には、インタフェースに結合される表示装置などの外部入出力装置上にGUIのグラフィック情報を表示するための指令、又はメモリに記憶された指令が含まれる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)必要な動作の一部を提供する。図8において、プロセッサ801を例としている。
メモリ802は、本出願に係る非一時的コンピュータ可読記憶媒体である。前記メモリは、本出願に係る帳票画像認識方法を前記少なくとも1つのプロセッサによって実行させるために、少なくとも1つのプロセッサによって実行可能な指令を記憶している。本出願の非一時的コンピュータ可読記憶媒体は、コンピュータに本出願に係る帳票画像認識方法を実行させるためのコンピュータ指令を記憶する。
メモリ802は、非一時的コンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム、並びに本出願の実施例における帳票画像認識方法に対応するプログラム指令/モジュール(例えば、図7に示すテキスト検出モジュール701、情報推定モジュール702及び帳票データ抽出モジュール703を含む)のようなモジュールを記憶するように構成されてもよい。プロセッサ801は、メモリ802に格納された非一時的なソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例における帳票画像認識方法を実行する。
メモリ802は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができるプログラム記憶領域と、帳票画像認識方法に係る電子機器の使用によるデータなどを記憶することができるデータ記憶領域とを含むことができる。なお、メモリ802は、高速ランダムアクセスメモリを含んでもよく、さらに、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスなどの、非一時的メモリを含んでもよい。いくつかの実施例において、メモリ802は、選択可能に、プロセッサ801に対して遠隔に設置されるメモリを含んでもよく、これらの遠隔メモリは、帳票画像認識方法の電子機器にネットワークを介して接続されてもよい。上記ネットワークの例としては、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びこれらの組み合わせを含むことができるが、これらに限定されない。
帳票画像認識方法の電子機器はさらに、入力装置803及び出力装置804を含むことができる。プロセッサ801、メモリ802、入力装置803及び出力装置804はバスで接続されていてもよいし、他の方式で接続されていてもよいが、図8ではバスで接続されている例を示している。
入力装置803は、入力された数字又は文字情報を受信し、帳票画像認識方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置804は、表示装置、LEDのような補助照明装置及び振動モータのような触覚フィードバック装置などを含むことができる。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及び指令を送信することができる、専用又は汎用のプログラマブルプロセッサであり得る、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な1つ以上のコンピュータプログラムで実行することを含むことができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度なプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ言語/機械語で実行されてもよい。本明細書で使用されるように、用語「機械可読媒体」及び「コンピュータ可読媒体」とは、機械可読信号として機械命令を受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有するコンピュータ上で実行されてもよい。他の種類の装置はさらに、ユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は、音響入力、音声入力又は触覚入力を含む任意の形態で受信されてもよい。
バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、ミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであって、ユーザは、該グラフィカルユーザインタフェース又は該ウェブブラウザを介して、本明細書で説明するシステム及び技術の実施形態と対話することができる)、又はそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに、本明細書で説明するシステム及び技術を実現することができる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で動作され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
本出願の実施例の技術的手段によれば、帳票画像において各テキストボックスの属性情報セット及び関係情報セットを検出することにより、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、さらに帳票画像から構造化帳票データを抽出する。本出願の技術的手段は、テンプレートの位置マッチング方式を用いることなく、帳票画像におけるフィールド構造的関係及びテーブル構造的関係を有する構造化帳票データを正確に推定することができる。帳票のレイアウトに制限されることなく、複数の異なるバージョンの帳票画像の自動認識をサポートすることができ、認識中にテンプレートを介することなく、帳票画像認識の汎用性及び精度が向上される。
なお、上記に示された様々な形態のフローは、ステップの順序変更、追加又は削除により使用されてもよい。例えば、本出願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本明細書に開示された技術的解決手段の所望の結果を実現できるものであれば、これらに限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者には明らかなように、設計要求及び他の要素に応じて、様々な変更、組み合わせ、再組合及び置換を行うことができる。本出願の精神及び原則の範囲内で行われたいかなる変更、同等置換及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. 帳票画像に対してテキスト検出を行って、前記帳票画像におけるテキスト文字列の位置をマークした少なくとも2つのテキストボックスを得るステップと、
    前記少なくとも2つのテキストボックスのそれぞれに対して、テキストボックスの属性情報セット及び当該テキストボックスと他のテキストボックスとの間の関係情報セットを確定するステップであって、前記テキストボックスの属性情報セットは、当該テキストボックスの位置座標、画像領域及びテキストコンテンツを示す情報を含み、前記関係情報セットは、当該テキストボックスと他のテキストボックスとの間の位置関係を示す情報を含む、ステップと、
    第1テキストボックス及び第2テキストボックスを含む前記少なくとも2つのテキストボックスに対して、前記第1テキストボックスの属性情報セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットに基づいて、前記第1テキストボックスのタイプに予め関連付けられたタイプであり、かつ前記第1テキストボックスと構造的関係を有する関連テキストボックスとして前記第2テキストボックスを確定するステップであって、前記第1テキストボックスのタイプは、フィールド属性タイプ又はテーブルヘッダタイプを含み前記第2テキストボックスのタイプは、フィールド値タイプ又はテーブルセルタイプを含み、前記構造的関係は、フィールド属性タイプの前記第1テキストボックスと、当該フィールド値タイプの第1テキストボックスに予め関連付けられたフィールド値タイプの前記第2テキストボックスとの間のフィールド構造的関係、又はテーブルヘッダタイプの前記第1テキストボックスと、前記テーブルヘッダタイプの前記第1テキストボックスに予め関連付けられたテーブルセルタイプの前記第2テキストボックスとの間のテーブル構造的関係とを含む、ステップと、
    前記帳票画像に含まれる複数の前記第1テキストボックスそれぞれと、構造的関係を有する関連テキストボックスである複数の前記第2テキストボックスと、を含む、構造的関係を有するテキストボックスグループを決定し、決定したそれぞれのテキストボックスグループにおけるテキストコンテンツを、前記帳票画像の1組の構造化帳票データとして抽出するステップと、を含み、
    第1テキストボックス及び第2テキストボックスを含む前記少なくとも2つのテキストボックスに対して、前記第1テキストボックスの属性情報セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットに基づいて、前記第1テキストボックスのタイプに予め関連付けられたタイプであり、かつ前記第1テキストボックスと所定の位置関係である構造的関係を有する関連テキストボックスとして前記第2テキストボックスを確定するステップは、
    前記第1テキストボックスの属性情報セットから、前記第1テキストボックスの属性情報を示す関連特徴を抽出して、前記第1テキストボックスの属性特徴セットとして確定し、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットから、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報を示す関連情報を抽出して、前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットとして確定することと、
    前記第1テキストボックスの属性特徴セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットに基づいて、前記第1テキストボックスが、前記フィールド属性タイプ、前記フィールド値タイプ、前記テーブルヘッダタイプ及び前記テーブルセルタイプのそれぞれに属する確率であるタイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとが前記構造的関係を有する確率である関係確率を確定することと、
    前記タイプ確率、及び関係確率に基づいて、前記第1テキストボックスのタイプ、及び前記第1テキストボックスと構造的関係を有する関連テキストボックスである前記第2テキストボックスを確定することと、を含み、
    前記第1テキストボックスの属性特徴セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットに基づいて、前記第1テキストボックスが、前記フィールド属性タイプ、前記フィールド値タイプ、前記テーブルヘッダタイプ及び前記テーブルセルタイプのそれぞれに属する確率であるタイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとが前記構造的関係を有する確率である関係確率を確定することは、
    前記第1テキストボックスの属性特徴セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットを入力することにより、前記第1テキストボックスの前記タイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率を出力するように、複数の帳票画像に含まれるテキストボックスの属性特徴セット及び関係特徴セットに基づいて深層学習した確率予測ネットワークに入力して、前記第1テキストボックスの前記タイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率を得ることを含むことを特徴とする帳票画像認識方法。
  2. 前記第1テキストボックスの属性情報セットから、前記第1テキストボックスの属性情報を示す関連特徴を抽出して、前記第1テキストボックスの属性特徴セットとして確定し、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットから、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報を示す関連情報を抽出して、前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットとして確定することは、
    前記第1テキストボックスの属性情報セットにおける画像領域に基づいて、前記第1テキストボックスの視覚的特徴を確定することと、
    前記第1テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、前記第1テキストボックスの意味的特徴を確定することと、
    前記視覚的特徴、前記意味的特徴及び前記属性情報セットにおける位置座標を、前記第1テキストボックスの属性特徴セットとすることと、
    前記属性特徴セット及び前記関係情報セットに基づいて、前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットを確定することと、を含むことを特徴とする請求項に記載の方法。
  3. 前記確率予測ネットワークは少なくとも1つの首尾接続されたサブ予測ネットワークを含み、
    前記第1テキストボックスの属性特徴セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットを入力することにより、前記第1テキストボックスの前記タイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率を出力するように、複数の帳票画像に含まれるテキストボックスの属性特徴セット及び関係特徴セットに基づいて深層学習した確率予測ネットワークに入力して、前記第1テキストボックスの前記タイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率を得ることは、
    前記第1テキストボックスの関係特徴セットを現在サブ予測ネットワークの第1パーセプトロンに入力して、現在検知確率を得ることと、
    前記現在検知確率及び前記第1テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得ることと、
    前記現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、前記第1隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第1テキストボックスの前記タイプ確率とし、前記現在検知確率を前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率とすることと、を含むことを特徴とする請求項に記載の方法。
  4. 前記現在検知確率及び前記第1テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得た後に、
    前記現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、前記第1隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第1テキストボックスの更新後の属性特徴セットを得、前記更新後の属性特徴セットを次のサブ予測ネットワークに入力することと、
    前記第1隠れテキスト特徴及び前記関係特徴セットを、前記現在サブ予測ネットワークの第2隠れ層に入力して、第2隠れテキスト特徴を得ることと、
    前記第2隠れテキスト特徴を前記現在サブ予測ネットワークの第2パーセプトロンに入力して、前記第1テキストボックスと前記第2テキストボックスとの間の更新後の関係特徴セットを得、前記更新後の関係特徴セットを次のサブ予測ネットワークに入力することと、をさらに含むことを特徴とする請求項に記載の方法。
  5. 前記タイプ確率、及び関係確率に基づいて、前記第1テキストボックスのタイプ、及び前記第1テキストボックスと構造的関係を有する関連テキストボックスである前記第2テキストボックスを確定することは、
    前記第1テキストボックスの前記タイプ確率に基づいて、前記第1テキストボックスのタイプを確定することと、
    前記第1テキストボックスと、前記第1テキストボックスと異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定することと、
    前記候補テキストボックスペア及び前記第1テキストボックスのタイプに基づいて、前記第1テキストボックスと構造的関係を有する関連テキストボックスとして前記第2テキストボックスを確定することと、を含むことを特徴とする請求項に記載の方法。
  6. 前記候補テキストボックスペア及び前記第1テキストボックスのタイプに基づいて、前記第1テキストボックスと構造的関係を有する関連テキストボックスとして前記第2テキストボックスを確定した後に、
    前記第1テキストボックスと構造的関係を有する関連テキストボックスが少なくとも2つである場合に、前記第1テキストボックスが予め設定されたタイプであるか否かを判断することと、
    前記第1テキストボックスが予め設定されたタイプである場合に、前記少なくとも2つの関連テキストボックスのうち、前記第1テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に前記第1テキストボックスと構造的関係を有する関連テキストボックスとすることと、をさらに含むことを特徴とする請求項に記載の方法。
  7. 前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットは、前記第1テキストボックスと前記第2テキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含むことを特徴とする請求項1又は2に記載の方法。
  8. 帳票画像に対してテキスト検出を行って、前記帳票画像におけるテキスト文字列の位置をマークした少なくとも2つのテキストボックスを得るステップは、
    帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも2つのテキストボックスの位置座標を得ることと、
    前記少なくとも2つのテキストボックスの位置座標に対して歪み補正を行うことと、
    補正後の少なくとも2つのテキストボックスの位置座標に基づいて、前記少なくとも2つのテキストボックスの画像領域を確定することと、を含むことを特徴とする請求項1に記載の方法。
  9. 帳票画像に対してテキスト検出を行って、前記帳票画像におけるテキスト文字列の位置をマークした少なくとも2つのテキストボックスを得るテキスト検出モジュールと、
    前記少なくとも2つのテキストボックスのそれぞれに対して、テキストボックスの属性情報セット及び当該テキストボックスと他のテキストボックスとの間の関係情報セットを確定するための情報確定モジュールステップであって、前記テキストボックスの属性情報セットは、当該テキストボックスの位置座標、画像領域及びテキストコンテンツを示す情報を含み、前記関係情報セットは、当該テキストボックスと他のテキストボックスとの間の位置関係を示す情報を含む、モジュールと、
    第1テキストボックス及び第2テキストボックスを含む前記少なくとも2つのテキストボックスに対して、前記第1テキストボックスの属性情報セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットに基づいて、前記第1テキストボックスのタイプに予め関連付けられたタイプであり、かつ前記第1テキストボックスと構造的関係を有する関連テキストボックスとして前記第2テキストボックスを確定するための情報推定モジュールであって、前記第1テキストボックスのタイプは、フィールド属性タイプ又はテーブルヘッダタイプを含み前記第2テキストボックスのタイプは、フィールド値タイプ又はテーブルセルタイプを含み、前記構造的関係は、フィールド属性タイプの前記第1テキストボックスと、当該フィールド値タイプの第1テキストボックスに予め関連付けられたフィールド値タイプの前記第2テキストボックスとの間のフィールド構造的関係、又はテーブルヘッダタイプの前記第1テキストボックスと、前記テーブルヘッダタイプの前記第1テキストボックスに予め関連付けられたテーブルセルタイプの前記第2テキストボックスとの間のテーブル構造的関係とを含む、モジュールと、
    前記帳票画像に含まれる複数の前記第1テキストボックスそれぞれと、構造的関係を有する関連テキストボックスである複数の前記第2テキストボックスと、を含む、構造的関係を有するテキストボックスグループを決定し、決定したそれぞれのテキストボックスグループにおけるテキストコンテンツを、前記帳票画像の1組の構造化帳票データとして抽出するための帳票データ抽出モジュールと、を含み、
    前記情報推定モジュールは、
    前記第1テキストボックスの属性情報セットから、前記第1テキストボックスの属性情報を示す関連特徴を抽出して、前記第1テキストボックスの属性特徴セットとして確定し、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットから、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報を示す関連情報を抽出して、前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットとして確定するための特徴確定ユニットと、
    前記第1テキストボックスの属性特徴セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットに基づいて、前記第1テキストボックスが、前記フィールド属性タイプ、前記フィールド値タイプ、前記テーブルヘッダタイプ及び前記テーブルセルタイプのそれぞれに属する確率であるタイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとが前記構造的関係を有する確率である関係確率を確定するための確率確定ユニットと、
    前記タイプ確率、及び関係確率に基づいて、前記第1テキストボックスのタイプ、及び前記第1テキストボックスと構造的関係を有する関連テキストボックスである前記第2テキストボックスを確定するためのタイプ関係確定ユニットと、を含み、
    前記確率確定ユニットは、
    前記第1テキストボックスの属性特徴セット及び前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットを入力することにより、前記第1テキストボックスの前記タイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率を出力するように、複数の帳票画像に含まれるテキストボックスの属性特徴セット及び関係特徴セットに基づいて深層学習した確率予測ネットワークに入力して、前記第1テキストボックスの前記タイプ確率、及び前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率を得るように構成されることを特徴とする帳票画像認識装置。
  10. 前記特徴確定ユニットは、
    前記第1テキストボックスの属性情報セットにおける画像領域に基づいて、前記第1テキストボックスの視覚的特徴を確定し、
    前記第1テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、前記第1テキストボックスの意味的特徴を確定し、
    前記視覚的特徴、前記意味的特徴及び前記属性情報セットにおける位置座標を、前記第1テキストボックスの属性特徴セットとし、
    前記属性特徴セット及び前記関係情報セットに基づいて、前記第1テキストボックスと前記第2テキストボックスとの間の関係特徴セットを確定するように構成されることを特徴とする請求項に記載の装置。
  11. 前記確率予測ネットワークは少なくとも1つの首尾接続されたサブ予測ネットワークを含み、
    前記確率確定ユニットは、
    前記第1テキストボックスの関係特徴セットを現在サブ予測ネットワークの第1パーセプトロンに入力して、現在検知確率を得、
    前記現在検知確率及び前記第1テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得、
    前記現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、前記第1隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第1テキストボックスの前記タイプ確率とし、前記現在検知確率を前記第1テキストボックスと前記第2テキストボックスとの間の前記関係確率とするように構成されることを特徴とする請求項に記載の装置。
  12. 前記確率確定ユニットは、前記現在検知確率及び前記第1テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第1隠れ層に入力して、第1隠れテキスト特徴を得た後に、さらに
    前記現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、前記第1隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第1テキストボックスの更新後の属性特徴セットを得、前記更新後の属性特徴セットを次のサブ予測ネットワークに入力し、
    前記第1隠れテキスト特徴及び前記関係特徴セットを前記現在サブ予測ネットワークの第2隠れ層に入力して、第2隠れテキスト特徴を得、
    前記第2隠れテキスト特徴を前記現在サブ予測ネットワークの第2パーセプトロンに入力して、前記第1テキストボックスと前記第2テキストボックスとの間の更新後の関係特徴セットを得、前記更新後の関係特徴セットを次のサブ予測ネットワークに入力するように構成されることを特徴とする請求項11に記載の装置。
  13. 前記タイプ関係確定ユニットは、
    前記第1テキストボックスの前記タイプ確率に基づいて、前記第1テキストボックスのタイプを確定するためのテキストボックスタイプ確定サブユニットと、
    前記第1テキストボックスと、前記第1テキストボックスと異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定するためのテキストボックスペア確定サブユニットと、
    前記候補テキストボックスペア及び前記第1テキストボックスのタイプに基づいて、前記第1テキストボックスと構造的関係を有する関連テキストボックスとして前記第2テキストボックスを確定するための関連テキストボックス確定サブユニットと、を含むことを特徴とする請求項に記載の装置。
  14. 前記タイプ関係確定ユニットは、
    前記第1テキストボックスと構造的関係を有する関連テキストボックスが少なくとも2つである場合に、前記第1テキストボックスが予め設定されたタイプであるか否かを判断するためのテキストボックスタイプ判断サブユニットと、
    前記第1テキストボックスが予め設定されたタイプである場合に、前記少なくとも2つの関連テキストボックスのうち、前記第1テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に前記第1テキストボックスと構造的関係を有する関連テキストボックスとするための関連テキストボックス選別サブユニットと、をさらに含むことを特徴とする請求項13に記載の装置。
  15. 前記第1テキストボックスの属性情報セットは、前記テキストボックスの位置座標、画像領域及びテキストコンテンツを含み、前記第1テキストボックスと前記第2テキストボックスとの間の関係情報セットは、前記第1テキストボックスと前記第2テキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含むことを特徴とする請求項9又は10に記載の装置。
  16. 前記テキスト検出モジュールは、
    帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも2つのテキストボックスの位置座標を得るための位置確定サブユニットと、
    前記少なくとも2つのテキストボックスの位置座標に対して歪み補正を行うための位置補正サブユニットと、
    補正後の少なくとも2つのテキストボックスの位置座標に基づいて、前記少なくとも2つのテキストボックスの画像領域を確定するための画像・テキスト確定サブユニットと、を含むことを特徴とする請求項に記載の装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な指令を記憶しており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1から8のいずれか一項に記載の帳票画像認識方法を実行させることを特徴とする電子機器。
  18. コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令がコンピュータに請求項1からのいずれか一項に記載の帳票画像認識方法を実行させることを特徴とする非一時的コンピュータ可読記憶媒体。
  19. プロセッサにより実行されると、請求項1からのいずれか一項に記載の帳票画像認識方法を実現する、コンピュータプログラム。
JP2021032799A 2020-06-09 2021-03-02 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7230081B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010517447.1A CN111709339B (zh) 2020-06-09 2020-06-09 一种票据图像识别方法、装置、设备及存储介质
CN202010517447.1 2020-06-09

Publications (2)

Publication Number Publication Date
JP2021197154A JP2021197154A (ja) 2021-12-27
JP7230081B2 true JP7230081B2 (ja) 2023-02-28

Family

ID=72539524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021032799A Active JP7230081B2 (ja) 2020-06-09 2021-03-02 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11854246B2 (ja)
EP (1) EP3836016A1 (ja)
JP (1) JP7230081B2 (ja)
KR (1) KR102612295B1 (ja)
CN (1) CN111709339B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052835B (zh) * 2020-09-29 2022-10-11 北京百度网讯科技有限公司 信息处理方法、信息处理装置、电子设备和存储介质
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112364857B (zh) * 2020-10-23 2024-04-26 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
WO2022087688A1 (en) * 2020-11-02 2022-05-05 The University Of Melbourne System and method for text mining
CN112597773B (zh) * 2020-12-08 2022-12-13 上海深杳智能科技有限公司 文档结构化方法、系统、终端及介质
CN112699234A (zh) * 2020-12-08 2021-04-23 上海深杳智能科技有限公司 一种通用文档识别方法、系统、终端及存储介质
CN112613367A (zh) * 2020-12-14 2021-04-06 盈科票据服务(深圳)有限公司 票据信息文本框获取方法、系统、设备及存储介质
CN112837466B (zh) * 2020-12-18 2023-04-07 北京百度网讯科技有限公司 票据识别方法、装置、设备以及存储介质
CN112949415B (zh) * 2021-02-04 2023-03-24 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112949450B (zh) * 2021-02-25 2024-01-23 北京百度网讯科技有限公司 票据处理方法、装置、电子设备和存储介质
CN113065536B (zh) * 2021-06-03 2021-09-14 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113657377B (zh) * 2021-07-22 2023-11-14 西南财经大学 一种机打票据图像结构化识别方法
CN113627350B (zh) * 2021-08-12 2022-08-02 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质
CN113780098B (zh) * 2021-08-17 2024-02-06 北京百度网讯科技有限公司 文字识别方法、装置、电子设备以及存储介质
CN113762100B (zh) * 2021-08-19 2024-02-09 杭州米数科技有限公司 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
JPWO2023188362A1 (ja) * 2022-03-31 2023-10-05
CN115497114B (zh) * 2022-11-18 2024-03-12 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法
CN115640401B (zh) * 2022-12-07 2023-04-07 恒生电子股份有限公司 文本内容提取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005462A (ja) 2016-06-30 2018-01-11 株式会社日立ソリューションズ 認識装置及び認識方法
WO2020071558A1 (ja) 2018-10-05 2020-04-09 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126943A (ja) * 2004-10-26 2006-05-18 Canon Inc ワークフロー管理装置、ネットワークシステム、制御方法、及びプログラム
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
US10185946B2 (en) * 2014-12-31 2019-01-22 Fiserv, Inc. Facilitating presentation of content relating to a financial transaction
US10572725B1 (en) * 2018-03-30 2020-02-25 Intuit Inc. Form image field extraction
CN109086756B (zh) * 2018-06-15 2021-08-03 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
US10810420B2 (en) * 2018-09-28 2020-10-20 American Express Travel Related Services Company, Inc. Data extraction and duplicate detection
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
US11055560B2 (en) * 2018-11-21 2021-07-06 Microsoft Technology Licensing, Llc Unsupervised domain adaptation from generic forms for new OCR forms
EP3660733B1 (en) * 2018-11-30 2023-06-28 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
AU2019391808A1 (en) * 2018-12-04 2021-07-01 Leverton Holding Llc Methods and systems for automated table detection within documents
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN109816118B (zh) * 2019-01-25 2022-12-06 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN109948507B (zh) * 2019-03-14 2021-05-07 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN110991456B (zh) * 2019-12-05 2023-07-07 北京百度网讯科技有限公司 票据识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005462A (ja) 2016-06-30 2018-01-11 株式会社日立ソリューションズ 認識装置及び認識方法
WO2020071558A1 (ja) 2018-10-05 2020-04-09 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法

Also Published As

Publication number Publication date
KR20210152931A (ko) 2021-12-16
CN111709339B (zh) 2023-09-19
EP3836016A1 (en) 2021-06-16
US11854246B2 (en) 2023-12-26
US20210383107A1 (en) 2021-12-09
JP2021197154A (ja) 2021-12-27
KR102612295B1 (ko) 2023-12-12
CN111709339A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
JP7230081B2 (ja) 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US11341366B2 (en) Cross-modality processing method and apparatus, and computer storage medium
US11681875B2 (en) Method for image text recognition, apparatus, device and storage medium
US20210201182A1 (en) Method and apparatus for performing structured extraction on text, device and storage medium
JP7299939B2 (ja) テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11423222B2 (en) Method and apparatus for text error correction, electronic device and storage medium
US11275904B2 (en) Method and apparatus for translating polysemy, and medium
US20220253631A1 (en) Image processing method, electronic device and storage medium
US11775845B2 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
EP3855353A2 (en) Image table extraction method and apparatus, electronic device, and storage medium
JP7133002B2 (ja) 句読点予測方法および装置
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111507355A (zh) 一种字符识别方法、装置、设备和存储介质
KR20210090576A (ko) 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램
US20210232856A1 (en) Image processing method, apparatus, electronic device and storage medium
US20230215203A1 (en) Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium
US11830242B2 (en) Method for generating a license plate defacement classification model, license plate defacement classification method, electronic device and storage medium
CN113762109B (zh) 一种文字定位模型的训练方法及文字定位方法
US20210312173A1 (en) Method, apparatus and device for recognizing bill and storage medium
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20220382565A1 (en) Machine-Learned Models for User Interface Prediction, Generation, and Interaction Understanding
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
CN111552829A (zh) 用于分析图像素材的方法和装置
US11881050B2 (en) Method for detecting face synthetic image, electronic device, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230111

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230119

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7230081

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150