JP7230081B2

JP7230081B2 - 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7230081B2
Application number: JP2021032799A
Authority: JP
Inventors: ユーリンリー，; ジュフアン，; シャマンチン，; ジュニュハン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-09
Filing date: 2021-03-02
Publication date: 2023-02-28
Anticipated expiration: 2041-03-02
Also published as: KR20210152931A; CN111709339B; EP3836016A1; US11854246B2; US20210383107A1; JP2021197154A; KR102612295B1; CN111709339A

Description

本出願の実施例は、コンピュータ技術分野に関し、具体的に人工知能の深層学習及び画像処理の分野に関する。

帳票は、重要な構造化情報のテキストキャリアであり、様々なビジネスシーンに広く適用され、関連部門が帳票を監査する際に、通常、帳票中に記載された情報を手動で監査する必要があり、コストが高く、効率が低く、人工知能技術の発展に伴い、帳票画像を自動的に認識して、帳票情報を抽出する技術が盛んになってきている。現在、従来技術では、テンプレートマッチング方式により、帳票の固定位置から帳票情報を抽出することが一般的である。しかし、帳票のレイアウトが統一されておらず、構造が異なるため、レイアウト毎の帳票にテンプレートを保持することは困難であり、拡張性及び汎用性が悪いので、帳票情報の抽出精度に影響を与えることがある。

帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供している。

第１の態様によれば、帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定するステップと、前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するステップと、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスに基づいて、前記帳票画像の構造化帳票データを抽出するステップと、を含む帳票画像認識方法を提供している。

第２の態様によれば、帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定するためのテキスト検出モジュールと、前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するための情報推定モジュールと、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスに基づいて、前記帳票画像の構造化帳票データを抽出するための帳票データ抽出モジュールと、を含む帳票画像認識装置を提供している。

第３の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサに本出願の実施例のいずれかに係る帳票画像認識方法が実行される電子機器を提供している。

第４の態様によれば、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令は、前記コンピュータに本出願の実施例のいずれかに係る帳票画像認識方法を実行させる非一時的コンピュータ可読記憶媒体を提供している。

第５の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本出願の実施例のいずれかに係る帳票画像認識方法が実現される、コンピュータプログラムを提供する。

本出願の実施例に係る技術的手段によれば、従来技術における固定テンプレートに基づいて帳票画像認識を行うことによる、拡張性及び汎用性が悪く、認識精度が低いという問題は解決される。

このセクションに記述された内容は、本出願の実施例の肝要又は重要な特徴を識別することを意図しておらず、本出願の範囲を限定するものでもないことを理解されたい。本出願の他の特徴は、以下の明細書を通して容易に理解されるであろう。

図面は、本出願の技術的手段をより良く理解するために使用され、本出願を限定するものではない。
本出願の実施例に係る帳票画像認識方法のフローチャートである。本出願の実施例に係る帳票認識の視覚的効果を示す模式図である。本出願の実施例に係る帳票認識の視覚的効果を示す模式図である。本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本出願の実施例に係る特徴認識ネットワークの動作原理を示す模式図である。本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本出願の実施例に係るサブ予測ネットワークの動作原理を示す模式図である。本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本出願の実施例に係る帳票画像認識装置の構造概略図である。本出願の実施例の帳票画像認識方法を実現するための電子機器のブロック図である。

以下は、理解を容易にするために添付図面を参照して本出願の実施例の様々な詳細を含む本出願の例示的な実施例を説明するが、それらは単なる例示として見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識するであろう。同様に、以下の説明では、明確かつ簡潔にするために、周知の機能及び構造についての記述を省略する。

図１Ａは本出願の実施例に係る帳票画像認識方法のフローチャートであり、図１Ｂ～１Ｃは本出願の実施例に係る帳票認識の視覚的効果を示す模式図であり、本実施例は、帳票画像を認識する場合に適用し、特にレイアウトが固定されていない複数種の帳票画像を認識する場合に適用する。該実施例は、電子機器に配置された帳票画像認識装置によって実行され得、該装置はソフトウェア及び／又はハードウェアを用いて実現することができる。図１Ａ～１Ｃに示すように、該方法はＳ１０１～Ｓ１０３を含む。

Ｓ１０１：帳票画像に対してテキスト検出を行って、帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定する。

本出願の実施例における帳票は、所定のレイアウトに従って支払い金額を明記した証書であってもよく、伝票、預金証書、送金手形、小切手などであってもよい。テキストボックスは、テキストが検出された帳票画像における、テキスト文字列にマークされたボックスであってもよい。例えば、図１Ｂは、帳票画像に対してテキスト検出を行った後における、マークされたテキストボックスの視覚的効果の模式図を示しており、帳票画像における各ボックスは、テキスト文字列を囲むために用いられる。なお、本出願の実施例は、帳票画像中に複数のテキストボックスがある場合に、複数のテキストボックス間の構造的関係をどのように推定して、さらに構造化帳票データをどのようにして抽出するかにフォーカスされている。

選択可能に、テキストボックスの属性情報セットは、帳票画像における各テキストボックス内のテキスト文字列自体の属性を示すための関連情報であってもよく、テキストボックスの位置座標、画像領域及びテキストコンテンツなどを含むことができるが、これらに限定されない。テキストボックスの位置座標は、テキストボックスの四隅の点の位置座標であってもよい。画像領域は、各テキストボックスの帳票画像における対応する領域であってもよい。テキストコンテンツは、テキストボックスで囲まれたテキスト文字列のコンテンツであってもよい。テキストボックスの関係情報セットは、帳票画像における、異なるテキストボックス間の相互関係を示すための情報であってもよい。各テキストボックスと他のテキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含むことができるが、これらに限定されない。

選択可能に、本出願の実施例は、光学的文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）技術等のテキスト検出技術を用いて、帳票画像における各テキストボックスの属性情報セットを確定した後、各テキストボックスの属性情報セットに基づいて、各テキストボックスと他のテキストボックスとの関係情報セットを確定することができる。

具体的には、テキスト検出技術を用いて帳票画像における各テキストボックスの属性情報セットを確定する場合に、予め設定されたアルゴリズムに従って実現してもよい。例えば、テキスト領域検出アルゴリズムにより帳票画像における各テキスト文字列の位置をマークして、少なくとも２つのテキストボックスを得、その後、各テキストボックスの四隅の点の座標を該テキストボックスの位置座標とし、帳票画像でテキストボックス領域に対応する画像を該テキストボックスの画像領域として切り出し、文字コンテンツ検出アルゴリズムによりテキストボックスにおけるテキストコンテンツを認識することができる。さらに予めトレーニングされたニューラルネットワークモデルに基づいて実現されてもよく、例えば、帳票画像を予めトレーニングされたターゲット文字検出モデル（例えばＥＡＳＴモデル）に入力し、該ターゲット文字検出モデルは、深層学習アルゴリズムに基づいて、テキストボックスにより帳票画像における各テキスト文字列の位置をマークし、テキストボックスの四隅の点の座標を出力するとともに、時計回り方向にソートして、全てのテキストボックス集合Ｐ＝｛ｐ_ｉ；ｉ∈Ｎ^＊｝を取得する。ここで、ｉ番目のテキストボックスはｐ_ｉ＝｛ｘ_ｎ，ｙ_ｎ；ｎ∈（１，４）｝である。そして、テキストボックス毎の位置座標に基づいて、帳票画像においてテキストボックスが存在する領域の画像切片を画像領域Ｉ_ｉとして切り出す。最後に、画像領域のそれぞれを予めトレーニングされたテキストコンテンツ認識モデル（例えば畳み込みニューラルネットワークＣＲＮＮモデル）に入力し、該テキストコンテンツ認識モデルは深層学習アルゴリズムに基づいて画像領域における文字コンテンツｃ_ｉを予測し、即ちテキストボックス毎の属性情報セットが（ｐ_ｉ，Ｉ_ｉ，ｃ_ｉ）である。

選択可能に、本出願の実施例は、各テキストボックスの属性情報セットに基づいて、以下の式（１）～（３）に従って、各テキストボックスと他のテキストボックスとの間の関係情報セット（ｄ_ｉｊ，ｒ_ｉｊ，ｕ_ｉｊ）を確定することであってもよく、
ｄ_ｉｊ＝ｐ_ｉ－ｐ_ｊ（１）
ｒ_ｉｊ＝ｒｏｔ（ｐ_ｉ,ｐ_ｊ）（２）
ｕ_ｉｊ＝Ｅｕｃｌｉｄｅａｎ（ｐ_ｉ,ｐ_ｊ）（３）
ここで、ｐ_ｉはｉ番目のテキストボックスの位置座標であり、ｐ_ｊはｊ番目のテキストボックスの位置座標であり、ｄ_ｉｊはｉ番目のテキストボックスとｊ番目のテキストボックスとの四隅の点の位置座標の差であり、ｒ_ｉｊはｉ番目のテキストボックスとｊ番目のテキストボックスとの間の中心点の角度の差であり、且つｒ_ｉｊ∈［－π,π］であり、ｒｏｔ（）は角度の差の計算関数であり、ｕ_ｉｊはｉ番目のテキストボックスとｊ番目のテキストボックスとの間の中心点のユークリッド距離であり、Ｅｕｃｌｉｄｅａｎ（）は、ユークリッド距離計算関数である。

Ｓ１０２：テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。

本出願の実施例は、予め帳票構造を定義することができ、即ちテキストボックスのタイプをテキストボックスにおけるテキスト文字列のタイプとし、フィールド属性タイプＫ、フィールド値タイプＶ、テーブルヘッダタイプＨ又はテーブルセルタイプＣを含むことができる。前記フィールド属性タイプＫと前記フィールド値タイプＶとのテキストボックスは、フィールド構造的関係Ｒを有し、前記テーブルヘッダタイプＨとテーブルセルタイプＣとのテキストボックスは、テーブル構造的関係Ｍを有する。該定義に基づいて、本出願の実施例は、帳票画像に対して、Ｇ＝（Ｙ，Ｅ）の無向グラフ（ｕｎｄｉｒｅｃｔｅｄｇｒａｐｈ）を定義することができ、各テキストボックスは無向グラフにおける頂点Ｙを表し、該テキストボックスのタイプはＫ、Ｖ、Ｈ、Ｖ又はＣのいずれかに属し、無向グラフにおける２つの頂点（Ｙ_ｉ及びＹ_ｊ）が構造的関係を有する場合、例えば、Ｙ_ｉ及びＹ_ｊのタイプがＫ及びＶ、又はＨ及びＣである場合に、両方の対応辺Ｅは、フィールド構造的関係Ｒ又はテーブル構造的関係Ｍに属する。無向グラフに基づいて（Ｙ_ｉ，Ｙ_ｊ）＝（Ｙ_ｊ，Ｙ_ｉ）を定義し、無向グラフの２つずつの異なる頂点Ｙ_ｉ及びＹ_ｊ（即ち、２つずつの異なるテキストボックス）について、関連確率Ａ_ｉｊを計算することができ、ただし、Ａ_ｉｊ∈｛０，１｝であり、Ａ_ｉｊ＝１の場合は、頂点Ｙ_ｉ及びＹ_ｊが構造的関係を有することを示し、Ａ_ｉｊ＝０の場合は、頂点Ｙ_ｉ及びＹ_ｊが構造的関係を有しないことを示す。Ｇは無向グラフであるから、１つの帳票画像における各テキストボックスに基づいて、２つずつの異なるテキストボックス間の関係確率は、２次元確率行列で表されてもよく、該２次元確率行列が対称行列、即ち

である。

選択可能に、本出願の実施例は、上記定義された帳票構造に基づいて、帳票画像における各テキストボックスの属性情報セットと、該テキストボックスと他のテキストボックスとの関係情報セットとに基づいて、該テキストボックスが上記定義されたＫ、Ｖ、Ｈ、Ｃのどちらのタイプに属するのか、及び該テキストボックスとテーブル構造的関係又はフィールド構造的関係を有する関連テキストボックスを確定する。

具体的な実現過程は、予め設定された推定アルゴリズムに基づいてテキストボックス毎の属性情報セット及び該テキストボックスと他のテキストボックスとの関係情報セットを解析して、該テキストボックスのタイプを推定し、帳票画像における該テキストボックスとテーブル構造的関係又はフィールド構造的関係を有する関連テキストボックスを推定することができる。帳票画像における各テキストボックスの属性情報セット及び各テキストボックスと他のテキストボックスとの関係情報セットを予めトレーニングされた推定モデルに入力し、推定モデルが深層学習アルゴリズムに基づいて、属性情報セット及び関係情報セットを解析し、各テキストボックスのタイプ及び各テキストボックスと構造的関係を有する関連テキストボックスを出力することができる。

例示的に、図１Ｃは帳票画像におけるテキストボックスタイプ及び構造的関係を推定した後にマークされた視覚的効果図が示されている。図中において、直角実線枠に対応するテキストボックスのタイプはフィールド属性タイプＫであり、直角破線枠に対応するテキストボックスのタイプはフィールド値タイプＶであり、角丸実線枠に対応するテキストボックスのタイプはテーブルヘッダタイプＨであり、角丸破線枠に対応するテキストボックスのタイプはテーブルセルタイプＣである。各テキストボックスについて、関連テキストボックスと直線によって連結され、例えば、フィールド構造的関係を有するフィールド属性タイプの「氏名」テキストボックスと、フィールド値タイプの「張三」テキストボックスとが連結され、テーブルヘッダタイプの「課金種別」テキストボックスと、テーブルセルタイプの「西洋薬代」テキストボックスとが連結される。

なお、フィールド構造的関係については、１つのフィールド属性タイプのテキストボックスが１つのフィールド値タイプのテキストボックスに対応し、テーブル構造的関係については、１つのテーブルヘッダ属性タイプのテキストボックスが少なくとも１つのテーブルセルタイプのテキストボックスに対応し得るが、１つのテーブルセルタイプのテキストボックスが１つのテーブルヘッダタイプのテキストボックスのみに対応する。本出願の実施例の技術的手段は、推定方法により各テキストボックスのタイプ及びテキストボックス間の構造的関係を確定し、従来技術におけるテンプレートに基づいて固定位置に帳票データを抽出する技術的手段と比べて、帳票データの印字がずれた場合にも、テキストボックス間の構造的関係を正確に確定することができ、例えば、図１Ｃに示すように、帳票データの「受取人」と「９２９７４」の印字がずれた場合でも、両者間のフィールド構造的関係を正確にマークすることができる。

Ｓ１０３：テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。

選択可能に、上記Ｓ１０２の動作により、帳票画像におけるテキストボックス毎のタイプ、及び各テキストボックスと構造的関係を有する関連テキストボックスを得ることができる。このときに、構造的関係を有するテキストボックス同士におけるテキストコンテンツを、１組の構造化帳票データとして抽出することができる。例示的に、図１Ｃに示すように、各直角実線枠とそれに結ぶ直角破線枠におけるコンテンツを１組のフィールド構造の帳票データとし、例えば、「業務フロー番号」と「２５４００００」とは１組のフィールド構造の帳票データであり、「業務フロー番号」がフィールド属性タイプであり、「２５４００００」がフィールド値タイプである。各角丸実線枠とそれに結ぶ角丸破線枠におけるコンテンツを１組のテーブル構造の帳票データとし、例えば、「課金種別」と「西洋薬代」とは１組のテーブル構造の帳票データであり、「課金種別」がテーブルヘッダタイプであり、「西洋薬代」がテーブルセルタイプである。

本出願の実施例の技術的手段は、帳票画像において各テキストボックスの属性情報セット及び関係情報セットを検出することにより、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、さらに帳票画像から構造化帳票データを抽出する。本出願の技術的手段は、テンプレート位置マッチング方式を用いることなく、帳票画像におけるフィールド構造的関係及びテーブル構造的関係を有する構造化帳票データを正確に推定することができる。帳票のレイアウトに制限されることなく、複数の異なるバージョンの帳票画像の自動認識をサポートすることができ、認識中にテンプレートを介することなく、帳票画像認識の汎用性及び精度を高めることができる。

図２は本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、本実施例が上記実施例に基づいて、更なる最適化されたものであり、テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定する具体的な説明を提供する。図２に示すように、該方法はＳ２０１～Ｓ２０５を含む。

Ｓ２０１：帳票画像に対してテキスト検出を行って、帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定する。

Ｓ２０２：テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する。

本出願の実施例において、テキストボックスの属性特徴セットは、テキストボックスの属性情報から抽出された、テキストボックス属性情報を示すための関連特徴であってもよい。同様に、テキストボックスの関係特徴は、テキストボックスの関係情報セットから抽出された、テキストボックスの関係情報を示すための関連特徴であってもよい。

選択可能に、本出願の実施例において、テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する際に、予め設定された特徴抽出アルゴリズムに基づいて、帳票画像における全てのテキストボックスの属性情報セット及び関係情報セットを解析し、各テキストボックスの属性を示す可能な属性特徴セット、及びテキストボックスの関係をマークする関係特徴セットを抽出することができる。さらにＳ２０１で確定されたテキストボックスの属性情報セット及び関係情報セットを、予めトレーニングされた推定モデルの特徴抽出ネットワークに入力し、該特徴抽出ネットワークは深層学習アルゴリズムに基づいて、テキストボックスの属性情報セット及び関係情報セットを解析し、各テキストボックスの属性特徴セット及び関係特徴セットを出力することができる。

Ｓ２０３：テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定する。

本出願の実施例において、テキストボックスのタイプ確率は、テキストボックスが予め定義されたフィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプに属する確率であってもよい。異なるテキストボックス間の関係確率は、２つずつの異なるテキスト間に構造的関係を有する確率であってもよく、該構造的関係は、フィールド構造的関係であってもよいし、テーブル構造的関係であってもよい。選択可能に、本出願の実施例において、確定された異なるテキストボックス間の関係確率は、構造的関係の種類を具体的に予測することではなく、異なるテキストボックス間に関係を有するか否かを予測することができる。

選択可能に、本出願の実施例において、テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率を確定する際に、予め設定されたタイプ確率予測アルゴリズムに基づいて、各テキストボックスの属性特徴セット及び関係特徴セットを解析し、各テキストボックスがそれぞれ、定義された、フィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプの４つのタイプに属する確率を予測することができる。予め設定された構造的関係予測アルゴリズムに基づいて、各テキストボックスの属性特徴セット及び関係特徴セットを解析することにより、帳票画像における２つずつの異なるテキストボックスが構造的関係を有する確率値を予測する。さらにＳ２０２で確定されたテキストボックスの属性特徴セット及び関係特徴セットを予めトレーニングされた推定モデルの確率予測ネットワークに入力し、該確率予測ネットワークは、深層学習アルゴリズムに基づいてテキストボックスの属性特徴セット及び関係特徴セットを解析し、帳票画像における各テキストボックスがそれぞれ定義された４つのタイプに属する確率と、そのうち２つずつの異なるテキストボックスが構造的関係を有する確率値とを出力することができる。本出願の実施例は、大量のサンプルデータによってトレーニングされた確率予測ネットワークによりこのステップの動作を実行し、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率の確定精度を向上させることができる。

Ｓ２０４：テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。

選択可能に、本出願の実施例は、テキストボックスのタイプ確率に基づいて、テキストボックスのタイプを確定することができる。具体的には、Ｓ２０３では、帳票画像における各テキストボックスが定義された４つのタイプに属する確率を既に予測した場合に、それぞれのテキストボックスについて、４つのタイプに属する確率のうち、最も高い確率に対応するタイプを該テキストボックスのタイプとすることができる。例えば、あるテキストボックスがフィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプに属する確率がそれぞれ０．１、０．０５、０．０８及び０．７７であると、該テキストボックスのタイプはテーブルセルタイプであると判定することができる。

選択可能に、本出願の実施例は、各テキストボックスと構造的関係を有する関連テキストボックスを確定する際に、異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定し、前記候補テキストボックスペア及び前記テキストボックスのタイプに基づいて、前記テキストボックスと構造的関係を有する関連テキストボックスを確定することができる。具体的には、異なるテキストボックス間の関係確率は、異なるテキストボックスが構造的関係を有する確率を表し、確率値が高いほど、両者間に構造的関係を有する可能性が高くなり、かつ各関係確率は２つの異なるテキストボックスに対応するので、本出願の実施例は、テキストボックスが構造的関係を有するか否かを判定するための、８０％などの関係確率閾値を予め設定することができ、Ｓ２０３で予測された全ての異なるテキストボックス間の関係確率から、確率閾値よりも大きい各関係確率を選別するとともに、選別された確率閾値よりも大きい各関係確率に対応する２つずつのテキストボックスを１組の候補テキストボックスペアとし、その後、確定された各テキストボックスのタイプに基づいて、各候補テキストボックスペアにおける２つずつのテキストボックスのタイプがテーブル構造タイプ又はフィールド構造タイプに属するか否かを判定し、ＹＥＳである場合に、これらの２つのテキストボックスを互いに相手の関連テキストボックスとすることができる。例えば、図１Ｂに示すように、「氏名」テキストボックスと「張三」テキストボックスとの間の関係確率が９２％であり、「氏名」テキストボックスと「西洋薬代」テキストボックスとの間の関係確率が８５％であると仮定し、９２％及び８５％がいずれも確率閾値８０％よりも大きいので、「氏名」テキストボックスと「張三」テキストボックスとを１組の候補テキストボックスとし、「氏名」テキストボックスと「西洋薬代」テキストボックスをも１組の候補テキストボックスとしてもよく、「氏名」テキストボックスのタイプがフィールド属性タイプ、「張三」テキストボックスのタイプがフィールド値タイプ、「西洋薬代」テキストボックスのタイプがテーブルセルタイプであり、フィールド属性タイプとフィールド値タイプとがフィールド構造的関係に対応するので、「氏名」テキストボックスの関連テキストボックスが「張三」テキストボックスであり、「張三」テキストボックスの関連テキストボックスが「氏名」テキストボックスであると判定することができる。

Ｓ２０５：テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。

本出願の実施例の技術的手段は、帳票画像から各テキストボックスの属性情報セット及び関係情報セットを検出し、各テキストボックスの属性特徴セット及び関係特徴セットを抽出し、抽出された各テキストボックスの属性特徴セット及び関係特徴セットに基づいて、各テキストボックスのタイプ確率及び異なるテキストボックスに構造的関係を有する関係確率を予測し、さらにタイプ確率及び関係確率に基づいて各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定することにより、帳票画像から構造化帳票データを抽出することを実現する。本出願の技術的手段は、各テキストボックスタイプ及びその関連テキストボックスを推定する際に、特徴抽出及び確率予測の方法により、テキストボックスタイプ及び関連テキストボックスを推定し、テキストボックスタイプ及び関連テキストボックスを確定する精度が向上される。本出願はテンプレートを用いなくても、帳票の正確な認識や帳票データの抽出が実現できる。

図３Ａは本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、図３Ｂは本出願の実施例に係る特徴認識ネットワークの動作原理を示す模式図である。本実施例は上記実施例に基づいて、さらに最適化されたものであり、前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスの属性特徴セット及び関係特徴セットを確定する具体的な説明を提供する。図３Ａ～３Ｂに示すように、該方法はＳ３０１～Ｓ３０８を含む。

Ｓ３０１：帳票画像に対してテキスト検出を行って、帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定する。

Ｓ３０２：テキストボックスの属性情報セットにおける画像領域に基づいて、テキストボックスの視覚的特徴を確定する。

選択可能に、テキストボックスの視覚的特徴は、テキストボックスの帳票画像における対応する画像領域から抽出された特徴であるため、このステップはＳ３０１で確定された各テキストボックスの属性情報セットからテキストボックスの画像領域を抽出し、画像領域を解析することにより、テキストボックスの視覚的特徴を確定することができる。

選択可能に、本出願の実施例は特徴抽出アルゴリズムに基づいてテキストボックスの関連特徴（即ち属性特徴セット及び関係特徴セット）を確定する場合、予め設定された画像特徴抽出アルゴリズムに基づいて、各テキストボックスの画像領域に対して特徴抽出を行い、各画像領域に対応する視覚的特徴を得ることができる。本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける視覚的特徴抽出層に基づいてテキストボックスの視覚的特徴を確定することができる。具体的には、各テキストボックスの属性情報セットにおける画像領域を該視覚的特徴抽出層に入力して、各テキストボックスの視覚的特徴を得ることができる。選択可能に、該視覚的特徴抽出層は少なくとも畳み込みニューラルネットワーク層を含む。例示的に、図３Ｂに示すように、ｉ番目のテキストボックスについて、その属性情報セットにおける画像領域Ｉｉを、特徴抽出ネットワークの畳み込みニューラルネットワーク層ＣＮＮに入力して、ｉ番目のテキストボックスの視覚的特徴（Ｆ_ｉ）_νを得ることができる。

Ｓ３０３：テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、テキストボックスの意味的特徴を確定する。

選択可能に、テキストボックスの意味的特徴はテキストボックスにおけるテキストコンテンツから抽出された特徴であるため、このステップはＳ３０１で確定された各テキストボックスの属性情報セットからテキストボックスのテキストコンテンツを抽出し、その後、テキストコンテンツをテキストベクトル列に符号化し解析することによって、テキストボックスの意味的特徴を確定することができる。具体的には、本出願の実施例は、テキストコンテンツをテキストベクトル列に符号化する方法が多く、例えば、辞書を検索することによりテキストコンテンツをテキストベクトル列に符号化することができる。

選択可能に、本出願の実施例は特徴抽出アルゴリズムに基づいてテキストボックスの関連特徴（即ち属性特徴セット及び関係特徴セット）を確定する場合、各テキストボックスのテキストコンテンツをテキストベクトル列に符号化した後、予め設定されたテキスト特徴抽出アルゴリズムに基づいて、各テキストボックスのテキストベクトル列に対して特徴抽出を行い、各テキストボックスの意味的特徴を得ることができる。本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける意味的特徴抽出層に基づいてテキストボックスの意味的特徴を確定することができ、具体的には、各テキストボックスの属性情報セットにおけるテキストコンテンツを該意味的特徴抽出層に入力して、各テキストセグメントの意味的特徴を得ることができる。選択可能に、該意味的特徴抽出層は、単語ベクトルコード層、単語埋め込みネットワーク層及び長・短期記憶ネットワーク層を少なくとも含む。例示的に、図３Ｂに示すように、ｉ番目のテキストボックスについて、その属性情報セットにおけるテキストコンテンツｃ_ｉを単語ベクトルコード層の入力とし、得られたテキスト単語ベクトル列を単語埋め込みネットワーク層ＷｏｒｄＥｍｂｅｄｄｉｎｇに入力し、得られた出力結果を長・短期記憶ネットワーク層ＬＳＴＭに入力して、ｉ番目のテキストボックスの意味的特徴（Ｆ_ｉ）_ｓを得る。

Ｓ３０４：視覚的特徴、意味的特徴及び属性情報セットにおける位置座標を、テキストボックスの属性特徴セットとする。

選択可能に、本出願の実施例は、上記Ｓ３０２～Ｓ３０３で抽出された各テキストボックスの視覚的特徴及び意味的特徴と、各テキストボックスの属性情報セットにおける位置座標とを統合して、各テキストボックスの属性特徴セットを得ることができる。

選択可能に、本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける第１データ統合層に基づいて各テキストボックスの視覚的特徴、意味的特徴及び位置座標を統合して、テキストボックスの属性特徴セットを得ることができる。例示的に、図３Ｂに示すように、ｉ番目のテキストボックスの視覚的特徴（Ｆ_ｉ）_ν、意味的特徴（Ｆ_ｉ）_ｓ、及びｉ番目のテキストボックスの位置座標ｐ_ｉをデータ統合層１に入力して、データ統合層１により入力されたデータを統合して、ｉ番目のテキストボックスの属性特徴セットＦ_ｉであるＦ_ｉ＝（ｐ_ｉ，（Ｆ_ｉ）_ν，（Ｆ_ｉ）_ｓ）を得ることができる。

Ｓ３０５：属性特徴セット及び関係情報セットに基づいて、テキストボックスの関係特徴セットを確定する。

選択可能に、本出願の実施例のテキストボックスの関係特徴セットは属性特徴セット及び関係情報セットに基づいて確定され、具体的には、各関係情報セットに、その対応するテキストボックスの属性特徴セットを追加することによって、テキストボックスの関係特徴セットを得ることができる。例えば、ｉ番目のテキストボックスの属性特徴セットをＦ_ｉとし、ｊ番目のテキストボックスの属性特徴セットをＦ_ｊとし、ｉ番目のテキストボックスとｊ番目のテキストボックスとの間の関係情報セットを（ｄ_ｉｊ，ｒ_ｉｊ，ｕ_ｉｊ）とすると、ｉ番目のテキストボックスとｊ番目のテキストボックスとの間の関係特徴セットは（Ｆ_ｉ，Ｆ_ｊ，ｄ_ｉｊ，ｒ_ｉｊ，ｕ_ｉｊ）である。

選択可能に、本出願の実施例は、特徴抽出ネットワークに基づいてテキストボックスの関連特徴を確定する場合、このステップは特徴抽出ネットワークにおける第２データ統合層に基づいて、２つずつの異なるテキストボックスの属性特徴セット及びこれらの２つの異なるテキストボックスの間の関係情報セットを統合して、これらの２つの異なるテキストボックスの関係特徴セットを得ることができる。例示的に、図３Ｂに示すように、ｉ番目のテキストボックスの属性特徴セットＦ_ｉ、ｊ番目のテキストボックスの属性特徴セットＦ_ｊ及びｉ番目のテキストボックスとｊ番目のテキストボックスとの間の関係情報セット（ｄ_ｉｊ，ｒ_ｉｊ，ｕ_ｉｊ）をデータ統合層２に入力して、データ統合層２により入力されたデータを統合して、ｉ番目のテキストボックスとｊ番目のテキストボックスとの間の関係特徴セットＥ_ｉｊを得ることができる。

Ｓ３０６：テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定する。

Ｓ３０７：テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。

Ｓ３０８：テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。

本出願の実施例の技術的手段は、帳票画像から検出された各テキストボックスの画像領域及びテキストコンテンツに基づいて、各テキストボックスの視覚的特徴及び意味的特徴をそれぞれ確定し、その後各テキストボックスの視覚的特徴、意味的特徴及び位置座標を各テキストボックスの属性特徴セットとし、属性特徴セットを対応する関係情報セットに追加して、各テキストボックスの関係特徴セットを得、抽出された各テキストボックスの属性特徴セット及び関係特徴セットに基づいて各テキストボックスのタイプ確率及び異なるテキストボックスの構造的関係を有する関係確率を予測し、さらに各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定することにより、帳票画像から構造化帳票データを抽出することを実現できる。本出願の技術的手段は、テキストボックスの属性特徴セット及び関係特徴セットを抽出する際に、視覚的特徴、意味的特徴及び位置関係などの多次元から考慮することにより、抽出された属性特徴セット及び関係特徴セットの精度が高く、さらにテキストボックスタイプ及び関連テキストボックスの確定精度が向上される。本出願はテンプレートを用いなくても、帳票の正確な認識や帳票データの抽出が実現できる。

図４Ａは本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、図４Ｂは本出願の実施例に係るサブ予測ネットワークの動作原理を示す模式図である。本実施例は上記実施例に基づいて、さらに最適化されたものであり、テキストボックスの属性特徴セット及び関係特徴セットを確率予測ネットワークに入力して、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を得る具体的な説明を提供する。

なお、本出願の確率予測ネットワークは、予め大量のサンプルデータによりトレーニングされたものであり、該確率予測ネットワークは、少なくとも１つの首尾接続されたサブ予測ネットワークにより構成されてもよい。図４Ｂはサブ予測ネットワークの動作原理模式図が示され、本出願における予測ネットワークが複数のサブ予測ネットワークから構成されると、各サブ予測ネットワークの第１パーセプトロンＭＬＰの出力結果を、その次のサブ予測ネットワークの第１パーセプトロンＭＬＰへの入力とし、各サブ予測ネットワークの長・短期記憶ネットワーク層ＬＳＴＭの出力結果を、次のサブ予測ネットワークの長・短期記憶ネットワーク層ＬＳＴＭ及び第１隠れ層への入力とする。

具体的には、図４Ａ～４Ｂに示すように、該方法はＳ４０１～Ｓ４１１を含む。

Ｓ４０１：帳票画像に対してテキスト検出を行って、帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定する。

Ｓ４０２：テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する。

Ｓ４０３：テキストボックスの関係特徴セットを現在サブ予測ネットワークの第１パーセプトロンに入力して、現在検知確率を得る。

本出願の実施例における現在サブ予測ネットワークは、確率予測ネットワークにおいて現在作業を行っているサブ予測ネットワークであってもよく、確率予測ネットワークにおける任意のサブ予測ネットワークであってもよい。

選択可能に、図４Ｂに示すように、本出願の実施例は、現在サブ予測ネットワークｌの前のサブ予測ネットワークｌ－１の第２パーセプトロンＭＬＰから出力したテキストボックスの関係特徴セットＥ［ｌ－１］を、現在サブ予測ネットワークｌの第１パーセプトロンＭＬＰに入力し、第１パーセプトロンＭＬＰが、テキストボックスの関係特徴セットＥ［ｌ－１］に対して多層検知を行い、現在検知確率を得ることができ、選択可能に、該現在検知確率は、現在サブ予測ネットワークが検知した異なるテキストボックス間の関係確率であってもよい。

選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第１サブ予測ネットワークである場合に、このときに現在サブ予測ネットワークの第１パーセプトロンに入力されるテキストボックスの関係特徴セットは、Ｓ４０２で確定された帳票画像の各テキストボックスの関係特徴セットであってもよい。

Ｓ４０４：現在検知確率及びテキストボックスの属性特徴セットを、現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得る。

選択可能に、本出願の実施例は、現在サブ予測ネットワークｌの前のサブ予測ネットワークｌ－１の長・短期記憶ネットワーク層ＬＳＴＭから出力されたテキストボックスの属性特徴セットＦ［ｌ－１］と、現在サブ予測ネットワークｌの第１パーセプトロンＭＬＰから出力された現在検知確率とを、現在サブ予測ネットワークｌの第１隠れ層に入力し、該第１隠れ層は、入力された属性特徴セットＦ［ｌ－１］と現在検知確率とを計算して、例えば乗算を行い、第１隠れテキスト特徴Ｈ１［ｌ］を得ることができる。

選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第１サブ予測ネットワークである場合に、このときに現在サブ予測ネットワークの第１隠れ層に入力されるテキストボックスの属性特徴セットは、Ｓ４０２で確定された帳票画像の各テキストボックスの属性特徴セットであってもよい。

Ｓ４０５：現在サブ予測ネットワークが最後のサブ予測ネットワークであるか否かを判断し、ＮＯである場合に、Ｓ４０６を実行し、ＹＥＳである場合に、Ｓ４０９を実行する。

選択可能に、本出願の実施例において、現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、現在サブ予測ネットワークが最終的なテキストボックスのタイプ確率及び異なるテキストボックスの関係確率を提供する必要がないことを意味し、このときに現在サブ予測ネットワークはＳ４０６～Ｓ４０８の動作を実行でき、自身の内部の各ネットワーク層に基づいて、このサブ予測ネットワークで解析した属性特徴セット及び関係特徴セットを得て次のサブ予測ネットワークに入力する。現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、現在サブ予測ネットワークは、テキストボックスのタイプ確率及び異なるテキストボックスの関係確率を予測するＳ４０９の動作を実行する必要がある。

Ｓ４０６：第１隠れテキスト特徴及び属性特徴セットを現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、テキストボックスの更新後の属性特徴セットを得、更新後の属性特徴セットを次のサブ予測ネットワークに入力する。

選択可能に、現在サブ予測ネットワークｌが最後のサブ予測ネットワークではない場合に、現在サブ予測ネットワークｌの第１隠れ層から出力された第１隠れテキスト特徴Ｈ１［ｌ］と、現在サブ予測ネットワークｌの前のサブ予測ネットワークｌ－１の長・短期記憶ネットワーク層ＬＳＴＭから出力されたテキストボックスの属性特徴セットＦ［ｌ－１］とを、現在サブ予測ネットワークｌの長・短期記憶ネットワーク層ＬＳＴＭに入力し、該長・短期記憶ネットワーク層ＬＳＴＭは、深層学習アルゴリズムに基づいて、入力されたテキストボックスの属性特徴セットＦ［ｌ－１］を更新し、得られたテキストボックスの属性特徴セットＦ［ｌ］を、現在サブ予測ネットワークｌの次のサブ予測ネットワークｌ＋１に入力する。即ち、次のサブ予測ネットワークｌ＋１の第１隠れ層及び長・短期記憶ネットワーク層ＬＳＴＭにそれぞれ入力する。

選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第１サブ予測ネットワークである場合に、現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力されるテキストボックスの属性特徴セットは、Ｓ４０２で確定された帳票画像の各テキストボックスの属性特徴セットであってもよい。

Ｓ４０７：第１隠れテキスト特徴及び関係特徴セットを、現在サブ予測ネットワークの第２隠れ層に入力して、第２隠れテキスト特徴を得る。

選択可能に、現在サブ予測ネットワークｌが最後のサブ予測ネットワークではない場合に、現在サブ予測ネットワークｌの前のサブ予測ネットワークｌ－１の第２パーセプトロンＭＬＰから出力されたテキストボックスの関係特徴セットＥ［ｌ－１］、現在サブ予測ネットワークｌの第１隠れ層から出力された第１隠れテキスト特徴Ｈ１［ｌ］、及び第１隠れテキスト特徴の転置Ｈ１［ｌ］^Ｔを、現在サブ予測ネットワークｌの第２隠れ層に入力する必要があり、該第２隠れ層は、入力された関係特徴セットＥ［ｌ－１］、第１隠れテキスト特徴Ｈ１［ｌ］及びその転置Ｈ１［ｌ］^Ｔを計算し、例えば三項行列乗算を行って、第２隠れテキスト特徴Ｈ２［ｌ］を得る。

選択可能に、現在サブ予測ネットワークが確率予測ネットワークの第１サブ予測ネットワークである場合に、現在サブ予測ネットワークの第２隠れ層に入力されるテキストボックスの関係特徴セットは、Ｓ４０２で確定された帳票画像の各テキストボックスの関係特徴セットであってもよい。

Ｓ４０８：第２隠れテキスト特徴を現在サブ予測ネットワークの第２パーセプトロンに入力して、テキストボックス更新後の関係特徴セットを得、更新後の関係特徴セットを次のサブ予測ネットワークに入力する。

選択可能に、本出願の実施例は、現在サブ予測ネットワークｌの第２隠れ層から得られた第２隠れテキスト特徴Ｈ２［ｌ］を、現在サブ予測ネットワークｌの第２パーセプトロンＭＬＰに入力し、第２パーセプトロンは、第２隠れテキスト特徴Ｈ２［ｌ］に対して多層検知を行い、現在サブ予測ネットワークｌによって更新された関係特徴セットＥ［ｌ］を得、該関係特徴セットＥ［ｌ］を現在サブ予測ネットワークｌの次のサブ予測ネットワークｌ＋１に入力することができる。即ち、次のサブ予測ネットワークｌ＋１の第１パーセプトロンＭＬＰに入力する。

なお、現在サブ予測ネットワークｌの次のサブ予測ネットワークｌ＋１は、最後のサブ予測ネットワークによって各テキストボックスのタイプ確率及び異なるテキストボックス間の関係確率が予測されるまで、同様に本出願の実施例Ｓ４０３～Ｓ４０９に記載の方法に従って動作する。

Ｓ４０９：第１隠れテキスト特徴及び属性特徴セットを現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、テキストボックスのタイプ確率を得、現在検知確率を異なるテキストボックス間の関係確率とする。

選択可能に、現在サブ予測ネットワークｌが最後のサブ予測ネットワークである場合に、現在サブ予測ネットワークｌは、各テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を予測する必要がある。このときに、現在サブ予測ネットワークｌの第１隠れ層から出力された第１隠れテキスト特徴Ｈ１［ｌ］と、現在サブ予測ネットワークｌの前のサブ予測ネットワークｌ－１の長・短期記憶ネットワーク層ＬＳＴＭから出力されたテキストボックスの属性特徴セットＦ［ｌ－１］とを、現在サブ予測ネットワークｌの長・短期記憶ネットワーク層ＬＳＴＭに入力することができる。長・短期記憶ネットワーク層ＬＳＴＭは、深層学習アルゴリズムに基づいて入力されたデータを解析し、各テキストボックスが４つの定義されたタイプ（フィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ及びテーブルセルタイプ）に属する確率を得る。異なるテキストボックス間の関係確率については、本実施例は、最後のサブ予測ネットワークの第１パーセプトロンＭＬＰから出力された現在検知確率を、最終的に予測された異なるテキストボックス間の関係確率とすることができる。

なお、最後のサブ予測ネットワークと他のサブ予測ネットワークとは、ネットワーク構造が同一であり、ただし、トレーニングされた後、最後のサブ予測ネットワークと他のサブ予測ネットワークとは、長・短期記憶ネットワーク層の機能が異なり、最後のサブ予測ネットワークの長・短期記憶ネットワーク層の機能は、各テキストボックスのタイプ確率を予測するためのものであり、他のサブ予測ネットワークの長・短期記憶ネットワーク層の機能は、テキストボックスの属性特徴セットを更新するためのものである。

Ｓ４１０：テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。

Ｓ４１１：テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。

本出願の実施例の技術的手段は、帳票画像に基づいて各テキストボックスの属性情報セット及び関係情報セットを検出し、各テキストボックスの属性特徴セット及び関係特徴セットを抽出した後、少なくとも１つの首尾接続されたサブ予測ネットワークに基づいて確率予測ネットワークを構成して各テキストボックスのタイプ確率及び異なるテキストボックスの構造的関係を有する関係確率を抽出予測し、さらに各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、帳票画像から構造化帳票データを抽出することを実現する。本出願の技術的手段は、テキストボックスのタイプ確率及びテキストボックス間の関係確率を予測する際に、多層の首尾接続されたサブ予測ネットワークに基づいて予測することにより、予測結果の精度が大幅に向上され、テキストボックスのタイプ及び関連テキストボックスの正確な確定に役立つ。帳票画像認識、帳票データ抽出の精度が確保される。

図５は、本出願の実施例に係る他の帳票画像認識方法のフローチャートであり、本実施例は上記実施例に基づいて、さらに最適化されたものであり、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係有する関連テキストボックスを確定する具体的な説明を提供する。図５に示すように、該方法はＳ５０１～Ｓ５１０を含む。

Ｓ５０１：帳票画像に対してテキスト検出を行って、帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定する。

Ｓ５０２：テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスの属性特徴セット及び関係特徴セットを確定する。

Ｓ５０３：テキストボックスの属性特徴セット及び関係特徴セットに基づいて、テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定する。

Ｓ５０４：テキストボックスのタイプ確率に基づいて、テキストボックスのタイプを確定する。

選択可能に、Ｓ５０３では、帳票画像における各テキストボックスのタイプ確率が既に確定されており、このときに、各テキストボックスについて、４つのタイプに属する確率のうち、最も高い確率に対応するタイプを該テキストボックスのタイプとすることができる。例示的に、図１Ｂにおける各テキストボックスのタイプ確率に基づいて、各テキストボックスのタイプを確定し、そしてフィールド属性タイプＫに属するテキストボックスを直角実線枠としてマークし、フィールド値タイプＶに属するテキストボックスを直角破線枠としてマークし、テーブルヘッダタイプＨに属するテキストボックスを角丸実線枠としてマークし、テーブルセルタイプＣに属するテキストボックスを角丸破線枠としてマークし、視覚化効果は図１Ｃに示す。

Ｓ５０５：異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定する。

Ｓ５０６：候補テキストボックスペア及びテキストボックスのタイプに基づいて、該テキストボックスと構造的関係を有する関連テキストボックスを確定する。

Ｓ５０７：該テキストボックスと構造的関係を有する関連テキストボックスが１つであるか否かを判断し、ＮＯである場合に、Ｓ５０８を実行し、ＹＥＳである場合に、Ｓ５１０を実行する。

選択可能に、Ｓ５０６では、各テキストボックスに対して確定された関連テキストボックスのうち、１つのテキストボックスが複数の関連テキストボックスを有する場合もあり得るが、複数の関連テキストボックスに誤判定があることを防止するために、本出願は、テキストボックス毎に、Ｓ５０６で確定されたテキストボックスと構造的関係を有する関連テキストボックスの数が１つであるか否かを順次判定し、ＹＥＳである場合に、Ｓ５１０を実行して、帳票画像の構造化帳票データを抽出する。ＮＯである場合に、Ｓ５０８を実行し、複数の関連テキストボックスに誤判定があるか否かをさらに判定する。

Ｓ５０８：該テキストボックスが予め設定されたタイプであるか否かを判断し、ＹＥＳである場合に、Ｓ５０９を実行し、ＮＯである場合に、Ｓ５１０を実行する。

選択可能に、本出願の実施例において、異なるテキストボックスが有する構造的関係については、フィールド属性タイプ、フィールド値タイプ又はテーブルセルタイプのテキストボックスは、その関連キストボックスが一意であるべきであるが、テーブルヘッダタイプのテキストボックスについては、その関連テキストボックスは複数有してもよい。したがって、本出願の実施例における予め設定されたタイプは、フィールド属性タイプ、フィールド値タイプ及びテーブルセルタイプであってもよい。Ｓ５０７では、１つのテキストボックスと構造的関係を有する関連テキストボックスが少なくとも２つであると判断された場合に、該テキストボックスがフィールド属性タイプ、フィールド値タイプ及びテーブルセルタイプの１つであるか否かを判断し、ＹＥＳである場合に、該テキストボックスの複数の関連テキストボックスのうちの１つだけが正しいであることを意味し、このときに、Ｓ５０９を実行して、最終的に該テキストボックスと構造的関係を有する関連テキストボックスを確定する必要がある。ＮＯである場合に、テキストボックスはテーブルヘッダタイプに属し、複数の関連テキストボックスを有することが正常現象であり、例えば、図１Ｃにおいて「課金種別」テキストボックスと構造的関係を有する関連テキストボックスは２つあり、即ち、「西洋薬代」テキストボックスと「治療費」テキストボックスである。このときに該テキストボックスに関連付けられた複数の関連テキストボックスを全て保留しておき、Ｓ５１０を直接実行して、帳票画像の構造化帳票データを抽出することができる。

Ｓ５０９：少なくとも２つの関連テキストボックスのうち、該テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に該テキストボックスと構造的関係を有する関連テキストボックスとする。

選択可能に、テキストボックスが関連テキストボックスを複数備え、かつ該テキストボックスが予め設定されたタイプに属する場合、このステップは複数の関連テキストボックスから、該テキストボックスと構造的関係を有する最終関連テキストボックスとして選択する必要がある。具体的な操作手順としては、Ｓ５０３で確定された異なるテキストボックス間の関係確率から、該テキストボックスと各関連テキストボックスとの関係確率を順次検索し、関係確率の最も高い関連テキストボックスを、最終的に該テキストボックスと構造的関係を有する関連テキストボックスとすることができる。例示的に、図１Ｂに示すように、Ｓ５０６で確定された「業務フロー番号」テキストボックスの関連テキストボックスが２つあると仮定し、即ち「２５４０００」テキストボックス及び「２０２０年１月１日」テキストボックスであり、「業務フロー番号」テキストボックスのタイプは、予め設定されたタイプに属するフィールド属性タイプであるので、このステップは、「業務フロー番号」テキストボックスと「２５４０００」テキストボックスとの間の第１関係確率と、「業務フロー番号」テキストボックスと「２０２０年１月１日」テキストボックスとの間の第２関係確率とを検索でき、第１関係確率が９８％であり、第２関係確率が８８％である場合に、関係確率がより高い「２５４０００」テキストボックスを、最終的に「業務フロー番号」テキストボックスと構造的関係を有する関連テキストボックスとして選択することができる。

Ｓ５１０：テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。

本出願の実施例の技術的手段は、帳票画像に基づいて各テキストボックスの属性情報セット及び関係情報セットを検出し、各テキストボックスの属性特徴セット及び関係特徴セットを抽出して、各テキストボックスのタイプ確率及び異なるテキストボックスの構造的関係を有する関係確率を予測し、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、１つのテキストボックスが関連テキストボックスを複数有して、該テキストボックスが予め設定されたタイプに属すると、該テキストボックスと各関連テキストボックスとの間の関係確率に基づいて、該テキストボックスのための一意な関連テキストボックスを確定することで、帳票画像から構造化帳票データを抽出することが実現される。本出願の技術的手段は、テキストボックス毎の関連テキストボックスを確定した後に、テーブルヘッダタイプのテキストボックスに対しては、その全ての関連テキストボックスを保留し、他のタイプのテキストボックスに対しては、その中から関連確率の最も高い関連テキストボックスを選択することにより、関連テキストボックスの誤判定確率が大幅に低減され、関連テキストボックスの確定精度が向上される。本出願の帳票認識精度及び帳票データ抽出精度が確保される。

図６は本出願の実施例に係る他の帳票画像認識方法のフローチャートである。本実施例は、上記実施例に基づいて、さらに最適化されたものであり、帳票画像に対してテキスト検出を行い、帳票画像における少なくとも２つのテキストボックスの属性情報セットを確定する具体的な説明を提供する。図６に示すように、該方法はＳ６０１～Ｓ６０６を含む。

Ｓ６０１：帳票画像に対してテキスト検出を行って、帳票画像における少なくとも２つのテキストボックスの位置座標を得る。

Ｓ６０２：少なくとも２つのテキストボックスの位置座標に対して歪み補正（ＤｉｓｔｏｒｔｉｏｎＣｏｒｒｅｃｔｉｏｎ）を行う。

選択可能に、帳票画像については、その撮像角度の違い、帳票の置き方、及び帳票の平坦度の違いにより、撮像された帳票画像に多少の歪みが生じる場合がある。テキスト検出技術に基づいて帳票画像のテキストコンテンツを検出する場合に、通常、同一行に属するテキスト文字列を１つのテキストボックスとするため、撮像された帳票画像に歪みがあると、テキストコンテンツ検出に誤りがあるおそれがある。該問題について、本出願の実施例は、帳票画像に対してテキスト検出を行い、帳票画像における各テキストボックスの位置座標を取得した後、該位置座標に対して歪み補正を行うことができ、具体的な実行過程は、Ｓ６０１で確定された各テキストボックスの位置座標に対してアフィン変換（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）により歪み補正を行い、補正後の位置座標が正矩形の配列となることができる。さらにニューラルネットワークモデルにより位置座標を補正してもよく、本実施例はこれらに限定されない。

Ｓ６０３：補正後の少なくとも２つのテキストボックスの位置座標に基づいて、少なくとも２つのテキストボックスの画像領域及びテキストコンテンツを確定する。

Ｓ６０４：テキストボックスの属性情報セットに基づいて、テキストボックスの関係情報セットを確定する。

Ｓ６０５：テキストボックスの属性情報セット及び関係情報セットに基づいて、テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスを確定する。

Ｓ６０６：テキストボックスのタイプ、及び該テキストボックスと構造的関係を有する関連テキストボックスに基づいて、帳票画像の構造化帳票データを抽出する。

本出願の実施例の技術的手段は、帳票画像における各テキストボックスの属性情報を確定する際に、検出された各テキストボックスの位置座標に対して歪み補正を行った後、画像領域及びテキストコンテンツを確定することにより、テキストボックスの属性情報セットの精度が保証され、その後に該属性情報セットに基づいて関係情報セットを確定し、各テキストボックスのタイプ及び各テキストボックスとの関連テキストボックスを正確に推定することに役立ち、帳票画像から抽出された構造化帳票データの精度が保証される。

図７は本出願の実施例に係る帳票画像認識装置の構造概略図であり、本実施例は、帳票画像を認識する場合に適し、特にレイアウトが固定されていない複数種の帳票画像を認識する場合に適する。該装置は、本出願の実施例のいずれかに係る帳票画像認識方法を実現することができる。該装置７００は具体的に、
帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも２つのテキストボックスの属性情報セット及び関係情報セットを確定するためのテキスト検出モジュール７０１と、
前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するための情報推定モジュール７０２と、
前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスに基づいて、前記帳票画像の構造化帳票データを抽出するための帳票データ抽出モジュール７０３と、を含む。

本出願の実施例の技術的手段は、帳票画像において各テキストボックスの属性情報セット及び関係情報セットを検出することにより、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、さらに帳票画像から構造化帳票データを抽出する。本出願の技術的手段は、テンプレート位置マッチング方式を用いることなく、帳票画像におけるフィールド構造的関係及びテーブル構造的関係を有する構造化帳票データを正確に推定することができる。帳票のレイアウトに制限されることなく、複数の異なるバージョンの帳票画像の自動認識をサポートすることができ、認識中にテンプレートを介することなく、帳票画像認識の汎用性及び精度が向上される。

さらに、前記テキストボックスのタイプは、フィールド属性タイプ、フィールド値タイプ、テーブルヘッダタイプ又はテーブルセルタイプを含み、前記フィールド属性タイプと前記フィールド値タイプとのテキストボックスは、フィールド構造的関係を有し、前記テーブルヘッダタイプとテーブルセルタイプとのテキストボックスは、テーブル構造的関係を有する。

さらに、前記情報推定モジュール７０２は、
前記テキストボックスの属性情報セット及び関係情報セットに基づいて、前記テキストボックスの属性特徴セット及び関係特徴セットを確定するための特徴確定ユニットと、
前記テキストボックスの属性特徴セット及び関係特徴セットに基づいて、前記テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を確定するための確率確定ユニットと、
前記テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率に基づいて、前記テキストボックスのタイプ、及び前記テキストボックスと構造的関係を有する関連テキストボックスを確定するためのタイプ関係確定ユニットと、を含む。

さらに、前記特徴確定ユニットは具体的に、
前記テキストボックスの属性情報セットにおける画像領域に基づいて、前記テキストボックスの視覚的特徴を確定し、
前記テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、前記テキストボックスの意味的特徴を確定し、
前記視覚的特徴、前記意味的特徴及び前記属性情報セットにおける位置座標を、前記テキストボックスの属性特徴セットとし、
前記属性特徴セット及び前記関係情報セットに基づいて、前記テキストボックスの関係特徴セットを確定するように構成される。

さらに、前記確率確定ユニットは、
前記テキストボックスの属性特徴セット及び関係特徴セットを確率予測ネットワークに入力して、前記テキストボックスのタイプ確率、及び異なるテキストボックス間の関係確率を得るように構成される。

さらに、前記確率予測ネットワークは、少なくとも１つの首尾接続されたサブ予測ネットワークを含み、前記確率確定ユニットは具体的に、
前記テキストボックスの関係特徴セットを現在サブ予測ネットワークの第１パーセプトロンに入力して、現在検知確率を得、
前記現在検知確率及び前記テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得、
前記現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、前記第１隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記テキストボックスのタイプ確率を得、前記現在検知確率を異なるテキストボックス間の関係確率とするように構成される。

さらに、前記確率確定ユニットは前記現在検知確率及び前記テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得た後、さらに
前記現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、前記第１隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記テキストボックスの更新後の属性特徴セットを得、前記更新後の属性特徴セットを次のサブ予測ネットワークに入力し、前記第１隠れテキスト特徴及び前記関係特徴セットを前記現在サブ予測ネットワークの第２隠れ層に入力して、第２隠れテキスト特徴を得、前記第２隠れテキスト特徴を前記現在サブ予測ネットワークの第２パーセプトロンに入力して、前記テキストボックスの更新後の関係特徴セットを得、前記更新後の関係特徴セットを次のサブ予測ネットワークに入力するように構成される。

さらに、前記タイプ関係確定ユニットは、
前記テキストボックスのタイプ確率に基づいて、前記テキストボックスのタイプを確定するためのテキストボックスタイプ確定サブユニットと、
異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定するためのテキストボックスペア確定サブユニットと、
前記候補テキストボックスペア及び前記テキストボックスのタイプに基づいて、前記テキストボックスと構造的関係を有する関連テキストボックスを確定するための関連テキストボックス確定サブユニットと、を含む。

さらに、前記タイプ関係確定ユニットは、
前記テキストボックスと構造的関係を有する関連テキストボックスが少なくとも２つである場合に、前記テキストボックスが予め設定されたタイプであるか否かを判断するためのテキストボックスタイプ判断サブユニットと、
前記テキストボックスが予め設定されたタイプである場合に、前記少なくとも２つの関連テキストボックスのうち、前記テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に前記テキストボックスと構造的関係を有する関連テキストボックスとするための関連テキストボックス選別サブユニットと、を更に含む。

さらに、前記テキストボックスの属性情報セットは、前記テキストボックスの位置座標、画像領域及びテキストコンテンツを含み、前記テキストボックスの関係情報セットは、前記テキストボックスと他のテキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含む。

さらに、前記テキスト検出モジュール７０１は、
帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも２つのテキストボックスの位置座標を得るための位置確定サブユニットと、
前記少なくとも２つのテキストボックスの位置座標に対して歪み補正を行うための位置補正サブユニットと、
補正後の少なくとも２つのテキストボックスの位置座標に基づいて、前記少なくとも２つのテキストボックスの画像領域及びテキストコンテンツを確定するための画像・テキスト確定サブユニットと、を含む。

本出願の実施例によれば、本出願は電子機器及び可読記憶媒体をさらに提供している。

図８に示すように、本出願の実施例に係る帳票画像認識方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はさらに、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単に例示的なものに過ぎず、本明細書に記載され、及び／又は要求される本出願の実施を限定することを意図するものではない。

図８に示すように、該電子機器は、１つ又は複数のプロセッサ８０１と、メモリ８０２と、各コンポーネントを接続するための、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各コンポーネントは、異なるバスにより相互に接続されており、共通のマザーボード上に実装されてもよいし、又は必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器内で実行する指令を処理することができ、その指令には、インタフェースに結合される表示装置などの外部入出力装置上にＧＵＩのグラフィック情報を表示するための指令、又はメモリに記憶された指令が含まれる。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、（例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして）必要な動作の一部を提供する。図８において、プロセッサ８０１を例としている。

メモリ８０２は、本出願に係る非一時的コンピュータ可読記憶媒体である。前記メモリは、本出願に係る帳票画像認識方法を前記少なくとも１つのプロセッサによって実行させるために、少なくとも１つのプロセッサによって実行可能な指令を記憶している。本出願の非一時的コンピュータ可読記憶媒体は、コンピュータに本出願に係る帳票画像認識方法を実行させるためのコンピュータ指令を記憶する。

メモリ８０２は、非一時的コンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム、並びに本出願の実施例における帳票画像認識方法に対応するプログラム指令／モジュール（例えば、図７に示すテキスト検出モジュール７０１、情報推定モジュール７０２及び帳票データ抽出モジュール７０３を含む）のようなモジュールを記憶するように構成されてもよい。プロセッサ８０１は、メモリ８０２に格納された非一時的なソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例における帳票画像認識方法を実行する。

メモリ８０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができるプログラム記憶領域と、帳票画像認識方法に係る電子機器の使用によるデータなどを記憶することができるデータ記憶領域とを含むことができる。なお、メモリ８０２は、高速ランダムアクセスメモリを含んでもよく、さらに、少なくとも１つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスなどの、非一時的メモリを含んでもよい。いくつかの実施例において、メモリ８０２は、選択可能に、プロセッサ８０１に対して遠隔に設置されるメモリを含んでもよく、これらの遠隔メモリは、帳票画像認識方法の電子機器にネットワークを介して接続されてもよい。上記ネットワークの例としては、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びこれらの組み合わせを含むことができるが、これらに限定されない。

帳票画像認識方法の電子機器はさらに、入力装置８０３及び出力装置８０４を含むことができる。プロセッサ８０１、メモリ８０２、入力装置８０３及び出力装置８０４はバスで接続されていてもよいし、他の方式で接続されていてもよいが、図８ではバスで接続されている例を示している。

入力装置８０３は、入力された数字又は文字情報を受信し、帳票画像認識方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置８０４は、表示装置、ＬＥＤのような補助照明装置及び振動モータのような触覚フィードバック装置などを含むことができる。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信し、該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置にデータ及び指令を送信することができる、専用又は汎用のプログラマブルプロセッサであり得る、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈可能な１つ以上のコンピュータプログラムで実行することを含むことができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度なプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ言語／機械語で実行されてもよい。本明細書で使用されるように、用語「機械可読媒体」及び「コンピュータ可読媒体」とは、機械可読信号として機械命令を受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令及び／又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有するコンピュータ上で実行されてもよい。他の種類の装置はさらに、ユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、ユーザからの入力は、音響入力、音声入力又は触覚入力を含む任意の形態で受信されてもよい。

バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、ミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであって、ユーザは、該グラフィカルユーザインタフェース又は該ウェブブラウザを介して、本明細書で説明するシステム及び技術の実施形態と対話することができる）、又はそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに、本明細書で説明するシステム及び技術を実現することができる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で動作され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。

本出願の実施例の技術的手段によれば、帳票画像において各テキストボックスの属性情報セット及び関係情報セットを検出することにより、各テキストボックスのタイプ及び各テキストボックスと関連関係を有する関連テキストボックスを推定し、さらに帳票画像から構造化帳票データを抽出する。本出願の技術的手段は、テンプレートの位置マッチング方式を用いることなく、帳票画像におけるフィールド構造的関係及びテーブル構造的関係を有する構造化帳票データを正確に推定することができる。帳票のレイアウトに制限されることなく、複数の異なるバージョンの帳票画像の自動認識をサポートすることができ、認識中にテンプレートを介することなく、帳票画像認識の汎用性及び精度が向上される。

なお、上記に示された様々な形態のフローは、ステップの順序変更、追加又は削除により使用されてもよい。例えば、本出願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本明細書に開示された技術的解決手段の所望の結果を実現できるものであれば、これらに限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者には明らかなように、設計要求及び他の要素に応じて、様々な変更、組み合わせ、再組合及び置換を行うことができる。本出願の精神及び原則の範囲内で行われたいかなる変更、同等置換及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

帳票画像に対してテキスト検出を行って、前記帳票画像におけるテキスト文字列の位置をマークした少なくとも２つのテキストボックスを得るステップと、
前記少なくとも２つのテキストボックスのそれぞれに対して、テキストボックスの属性情報セット、及び当該テキストボックスと他のテキストボックスとの間の関係情報セットを確定するステップであって、前記テキストボックスの属性情報セットは、当該テキストボックスの位置座標、画像領域及びテキストコンテンツを示す情報を含み、前記関係情報セットは、当該テキストボックスと他のテキストボックスとの間の位置関係を示す情報を含む、ステップと、
第１テキストボックス及び第２テキストボックスを含む前記少なくとも２つのテキストボックスに対して、前記第１テキストボックスの属性情報セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットに基づいて、前記第１テキストボックスのタイプに予め関連付けられたタイプであり、かつ前記第１テキストボックスと構造的関係を有する関連テキストボックスとして前記第２テキストボックスを確定するステップであって、前記第１テキストボックスのタイプは、フィールド属性タイプ又はテーブルヘッダタイプを含み、前記第２テキストボックスのタイプは、フィールド値タイプ又はテーブルセルタイプを含み、前記構造的関係は、フィールド属性タイプの前記第１テキストボックスと、当該フィールド値タイプの第１テキストボックスに予め関連付けられたフィールド値タイプの前記第２テキストボックスとの間のフィールド構造的関係、又はテーブルヘッダタイプの前記第１テキストボックスと、前記テーブルヘッダタイプの前記第１テキストボックスに予め関連付けられたテーブルセルタイプの前記第２テキストボックスとの間のテーブル構造的関係とを含む、ステップと、
前記帳票画像に含まれる複数の前記第１テキストボックスそれぞれと、構造的関係を有する関連テキストボックスである複数の前記第２テキストボックスと、を含む、構造的関係を有するテキストボックスグループを決定し、決定したそれぞれのテキストボックスグループにおけるテキストコンテンツを、前記帳票画像の１組の構造化帳票データとして抽出するステップと、を含み、
第１テキストボックス及び第２テキストボックスを含む前記少なくとも２つのテキストボックスに対して、前記第１テキストボックスの属性情報セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットに基づいて、前記第１テキストボックスのタイプに予め関連付けられたタイプであり、かつ前記第１テキストボックスと所定の位置関係である構造的関係を有する関連テキストボックスとして前記第２テキストボックスを確定するステップは、
前記第１テキストボックスの属性情報セットから、前記第１テキストボックスの属性情報を示す関連特徴を抽出して、前記第１テキストボックスの属性特徴セットとして確定し、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットから、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報を示す関連情報を抽出して、前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットとして確定することと、
前記第１テキストボックスの属性特徴セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットに基づいて、前記第１テキストボックスが、前記フィールド属性タイプ、前記フィールド値タイプ、前記テーブルヘッダタイプ及び前記テーブルセルタイプのそれぞれに属する確率であるタイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとが前記構造的関係を有する確率である関係確率を確定することと、
前記タイプ確率、及び関係確率に基づいて、前記第１テキストボックスのタイプ、及び前記第１テキストボックスと構造的関係を有する関連テキストボックスである前記第２テキストボックスを確定することと、を含み、
前記第１テキストボックスの属性特徴セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットに基づいて、前記第１テキストボックスが、前記フィールド属性タイプ、前記フィールド値タイプ、前記テーブルヘッダタイプ及び前記テーブルセルタイプのそれぞれに属する確率であるタイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとが前記構造的関係を有する確率である関係確率を確定することは、
前記第１テキストボックスの属性特徴セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットを入力することにより、前記第１テキストボックスの前記タイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率を出力するように、複数の帳票画像に含まれるテキストボックスの属性特徴セット及び関係特徴セットに基づいて深層学習した確率予測ネットワークに入力して、前記第１テキストボックスの前記タイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率を得ることを含むことを特徴とする帳票画像認識方法。
前記第１テキストボックスの属性情報セットから、前記第１テキストボックスの属性情報を示す関連特徴を抽出して、前記第１テキストボックスの属性特徴セットとして確定し、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットから、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報を示す関連情報を抽出して、前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットとして確定することは、
前記第１テキストボックスの属性情報セットにおける画像領域に基づいて、前記第１テキストボックスの視覚的特徴を確定することと、
前記第１テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、前記第１テキストボックスの意味的特徴を確定することと、
前記視覚的特徴、前記意味的特徴及び前記属性情報セットにおける位置座標を、前記第１テキストボックスの属性特徴セットとすることと、
前記属性特徴セット及び前記関係情報セットに基づいて、前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットを確定することと、を含むことを特徴とする請求項１に記載の方法。
前記確率予測ネットワークは少なくとも１つの首尾接続されたサブ予測ネットワークを含み、
前記第１テキストボックスの属性特徴セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットを入力することにより、前記第１テキストボックスの前記タイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率を出力するように、複数の帳票画像に含まれるテキストボックスの属性特徴セット及び関係特徴セットに基づいて深層学習した確率予測ネットワークに入力して、前記第１テキストボックスの前記タイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率を得ることは、
前記第１テキストボックスの関係特徴セットを現在サブ予測ネットワークの第１パーセプトロンに入力して、現在検知確率を得ることと、
前記現在検知確率及び前記第１テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得ることと、
前記現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、前記第１隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第１テキストボックスの前記タイプ確率とし、前記現在検知確率を前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率とすることと、を含むことを特徴とする請求項１に記載の方法。
前記現在検知確率及び前記第１テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得た後に、
前記現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、前記第１隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第１テキストボックスの更新後の属性特徴セットを得、前記更新後の属性特徴セットを次のサブ予測ネットワークに入力することと、
前記第１隠れテキスト特徴及び前記関係特徴セットを、前記現在サブ予測ネットワークの第２隠れ層に入力して、第２隠れテキスト特徴を得ることと、
前記第２隠れテキスト特徴を前記現在サブ予測ネットワークの第２パーセプトロンに入力して、前記第１テキストボックスと前記第２テキストボックスとの間の更新後の関係特徴セットを得、前記更新後の関係特徴セットを次のサブ予測ネットワークに入力することと、をさらに含むことを特徴とする請求項３に記載の方法。
前記タイプ確率、及び関係確率に基づいて、前記第１テキストボックスのタイプ、及び前記第１テキストボックスと構造的関係を有する関連テキストボックスである前記第２テキストボックスを確定することは、
前記第１テキストボックスの前記タイプ確率に基づいて、前記第１テキストボックスのタイプを確定することと、
前記第１テキストボックスと、前記第１テキストボックスと異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定することと、
前記候補テキストボックスペア及び前記第１テキストボックスのタイプに基づいて、前記第１テキストボックスと構造的関係を有する関連テキストボックスとして前記第２テキストボックスを確定することと、を含むことを特徴とする請求項１に記載の方法。
前記候補テキストボックスペア及び前記第１テキストボックスのタイプに基づいて、前記第１テキストボックスと構造的関係を有する関連テキストボックスとして前記第２テキストボックスを確定した後に、
前記第１テキストボックスと構造的関係を有する関連テキストボックスが少なくとも２つである場合に、前記第１テキストボックスが予め設定されたタイプであるか否かを判断することと、
前記第１テキストボックスが予め設定されたタイプである場合に、前記少なくとも２つの関連テキストボックスのうち、前記第１テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に前記第１テキストボックスと構造的関係を有する関連テキストボックスとすることと、をさらに含むことを特徴とする請求項５に記載の方法。
前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットは、前記第１テキストボックスと前記第２テキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含むことを特徴とする請求項１又は２に記載の方法。
帳票画像に対してテキスト検出を行って、前記帳票画像におけるテキスト文字列の位置をマークした少なくとも２つのテキストボックスを得るステップは、
帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも２つのテキストボックスの位置座標を得ることと、
前記少なくとも２つのテキストボックスの位置座標に対して歪み補正を行うことと、
補正後の少なくとも２つのテキストボックスの位置座標に基づいて、前記少なくとも２つのテキストボックスの画像領域を確定することと、を含むことを特徴とする請求項１に記載の方法。
帳票画像に対してテキスト検出を行って、前記帳票画像におけるテキスト文字列の位置をマークした少なくとも２つのテキストボックスを得るテキスト検出モジュールと、
前記少なくとも２つのテキストボックスのそれぞれに対して、テキストボックスの属性情報セット、及び当該テキストボックスと他のテキストボックスとの間の関係情報セットを確定するための情報確定モジュールステップであって、前記テキストボックスの属性情報セットは、当該テキストボックスの位置座標、画像領域及びテキストコンテンツを示す情報を含み、前記関係情報セットは、当該テキストボックスと他のテキストボックスとの間の位置関係を示す情報を含む、モジュールと、
第１テキストボックス及び第２テキストボックスを含む前記少なくとも２つのテキストボックスに対して、前記第１テキストボックスの属性情報セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットに基づいて、前記第１テキストボックスのタイプに予め関連付けられたタイプであり、かつ前記第１テキストボックスと構造的関係を有する関連テキストボックスとして前記第２テキストボックスを確定するための情報推定モジュールであって、前記第１テキストボックスのタイプは、フィールド属性タイプ又はテーブルヘッダタイプを含み、前記第２テキストボックスのタイプは、フィールド値タイプ又はテーブルセルタイプを含み、前記構造的関係は、フィールド属性タイプの前記第１テキストボックスと、当該フィールド値タイプの第１テキストボックスに予め関連付けられたフィールド値タイプの前記第２テキストボックスとの間のフィールド構造的関係、又はテーブルヘッダタイプの前記第１テキストボックスと、前記テーブルヘッダタイプの前記第１テキストボックスに予め関連付けられたテーブルセルタイプの前記第２テキストボックスとの間のテーブル構造的関係とを含む、モジュールと、
前記帳票画像に含まれる複数の前記第１テキストボックスそれぞれと、構造的関係を有する関連テキストボックスである複数の前記第２テキストボックスと、を含む、構造的関係を有するテキストボックスグループを決定し、決定したそれぞれのテキストボックスグループにおけるテキストコンテンツを、前記帳票画像の１組の構造化帳票データとして抽出するための帳票データ抽出モジュールと、を含み、
前記情報推定モジュールは、
前記第１テキストボックスの属性情報セットから、前記第１テキストボックスの属性情報を示す関連特徴を抽出して、前記第１テキストボックスの属性特徴セットとして確定し、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットから、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報を示す関連情報を抽出して、前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットとして確定するための特徴確定ユニットと、
前記第１テキストボックスの属性特徴セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットに基づいて、前記第１テキストボックスが、前記フィールド属性タイプ、前記フィールド値タイプ、前記テーブルヘッダタイプ及び前記テーブルセルタイプのそれぞれに属する確率であるタイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとが前記構造的関係を有する確率である関係確率を確定するための確率確定ユニットと、
前記タイプ確率、及び関係確率に基づいて、前記第１テキストボックスのタイプ、及び前記第１テキストボックスと構造的関係を有する関連テキストボックスである前記第２テキストボックスを確定するためのタイプ関係確定ユニットと、を含み、
前記確率確定ユニットは、
前記第１テキストボックスの属性特徴セット及び前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットを入力することにより、前記第１テキストボックスの前記タイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率を出力するように、複数の帳票画像に含まれるテキストボックスの属性特徴セット及び関係特徴セットに基づいて深層学習した確率予測ネットワークに入力して、前記第１テキストボックスの前記タイプ確率、及び前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率を得るように構成されることを特徴とする帳票画像認識装置。
前記特徴確定ユニットは、
前記第１テキストボックスの属性情報セットにおける画像領域に基づいて、前記第１テキストボックスの視覚的特徴を確定し、
前記第１テキストボックスの属性情報セットにおけるテキストコンテンツに基づいて、前記第１テキストボックスの意味的特徴を確定し、
前記視覚的特徴、前記意味的特徴及び前記属性情報セットにおける位置座標を、前記第１テキストボックスの属性特徴セットとし、
前記属性特徴セット及び前記関係情報セットに基づいて、前記第１テキストボックスと前記第２テキストボックスとの間の関係特徴セットを確定するように構成されることを特徴とする請求項９に記載の装置。
前記確率予測ネットワークは少なくとも１つの首尾接続されたサブ予測ネットワークを含み、
前記確率確定ユニットは、
前記第１テキストボックスの関係特徴セットを現在サブ予測ネットワークの第１パーセプトロンに入力して、現在検知確率を得、
前記現在検知確率及び前記第１テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得、
前記現在サブ予測ネットワークが最後のサブ予測ネットワークである場合に、前記第１隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第１テキストボックスの前記タイプ確率とし、前記現在検知確率を前記第１テキストボックスと前記第２テキストボックスとの間の前記関係確率とするように構成されることを特徴とする請求項９に記載の装置。
前記確率確定ユニットは、前記現在検知確率及び前記第１テキストボックスの属性特徴セットを、前記現在サブ予測ネットワークの第１隠れ層に入力して、第１隠れテキスト特徴を得た後に、さらに
前記現在サブ予測ネットワークが最後のサブ予測ネットワークではない場合に、前記第１隠れテキスト特徴及び前記属性特徴セットを前記現在サブ予測ネットワークの長・短期記憶ネットワーク層に入力して、前記第１テキストボックスの更新後の属性特徴セットを得、前記更新後の属性特徴セットを次のサブ予測ネットワークに入力し、
前記第１隠れテキスト特徴及び前記関係特徴セットを前記現在サブ予測ネットワークの第２隠れ層に入力して、第２隠れテキスト特徴を得、
前記第２隠れテキスト特徴を前記現在サブ予測ネットワークの第２パーセプトロンに入力して、前記第１テキストボックスと前記第２テキストボックスとの間の更新後の関係特徴セットを得、前記更新後の関係特徴セットを次のサブ予測ネットワークに入力するように構成されることを特徴とする請求項１１に記載の装置。
前記タイプ関係確定ユニットは、
前記第１テキストボックスの前記タイプ確率に基づいて、前記第１テキストボックスのタイプを確定するためのテキストボックスタイプ確定サブユニットと、
前記第１テキストボックスと、前記第１テキストボックスと異なるテキストボックス間の関係確率及び確率閾値に基づいて、構造的関係を有する候補テキストボックスペアを確定するためのテキストボックスペア確定サブユニットと、
前記候補テキストボックスペア及び前記第１テキストボックスのタイプに基づいて、前記第１テキストボックスと構造的関係を有する関連テキストボックスとして前記第２テキストボックスを確定するための関連テキストボックス確定サブユニットと、を含むことを特徴とする請求項９に記載の装置。
前記タイプ関係確定ユニットは、
前記第１テキストボックスと構造的関係を有する関連テキストボックスが少なくとも２つである場合に、前記第１テキストボックスが予め設定されたタイプであるか否かを判断するためのテキストボックスタイプ判断サブユニットと、
前記第１テキストボックスが予め設定されたタイプである場合に、前記少なくとも２つの関連テキストボックスのうち、前記第１テキストボックスとの関係確率が最も高い関連テキストボックスを、最終的に前記第１テキストボックスと構造的関係を有する関連テキストボックスとするための関連テキストボックス選別サブユニットと、をさらに含むことを特徴とする請求項１３に記載の装置。
前記第１テキストボックスの属性情報セットは、前記テキストボックスの位置座標、画像領域及びテキストコンテンツを含み、前記第１テキストボックスと前記第２テキストボックスとの間の関係情報セットは、前記第１テキストボックスと前記第２テキストボックスとの位置座標の差、中心点の角度の差及び中心点のユークリッド距離を含むことを特徴とする請求項９又は１０に記載の装置。
前記テキスト検出モジュールは、
帳票画像に対してテキスト検出を行って、前記帳票画像における少なくとも２つのテキストボックスの位置座標を得るための位置確定サブユニットと、
前記少なくとも２つのテキストボックスの位置座標に対して歪み補正を行うための位置補正サブユニットと、
補正後の少なくとも２つのテキストボックスの位置座標に基づいて、前記少なくとも２つのテキストボックスの画像領域を確定するための画像・テキスト確定サブユニットと、を含むことを特徴とする請求項９に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な指令を記憶しており、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１から８のいずれか一項に記載の帳票画像認識方法を実行させることを特徴とする電子機器。
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令がコンピュータに請求項１から８のいずれか一項に記載の帳票画像認識方法を実行させることを特徴とする非一時的コンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１から８のいずれか一項に記載の帳票画像認識方法を実現する、コンピュータプログラム。