JP2018005462A - 認識装置及び認識方法 - Google Patents

認識装置及び認識方法 Download PDF

Info

Publication number
JP2018005462A
JP2018005462A JP2016129997A JP2016129997A JP2018005462A JP 2018005462 A JP2018005462 A JP 2018005462A JP 2016129997 A JP2016129997 A JP 2016129997A JP 2016129997 A JP2016129997 A JP 2016129997A JP 2018005462 A JP2018005462 A JP 2018005462A
Authority
JP
Japan
Prior art keywords
line
item value
recognition
row
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016129997A
Other languages
English (en)
Inventor
昭 森口
Akira Moriguchi
昭 森口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2016129997A priority Critical patent/JP2018005462A/ja
Priority to PCT/JP2017/001418 priority patent/WO2018003153A1/ja
Publication of JP2018005462A publication Critical patent/JP2018005462A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】表見出しと項目値とを対応付ける。【解決手段】認識装置であって、プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置とを備え、帳票から抽出された文字列が項目値を含む項目値行であるかを判定する認識モデルを有し、前記認識モデルは、帳票内の文字列を含む行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を機械学習して生成されたものであって、前記認識モデルは、認識すべき帳票から文字列を含む行の情報を抽出し、前記抽出した行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと他の行のヒストグラムとを比較した行構造の関連性を特徴量として用いて、当該他の行が項目値行であるかを判定する。【選択図】図1A

Description

本発明は、帳票などの文書から表構造を認識する認識装置に関する。
企業は、経済活動の中で、売上伝票や請求書、領収書などの帳票を他の企業とやり取りする。これらの帳票を企業の業務系、勘定系システムに入力し、出荷や入金処理を行うため、OCR(Optical Characterize Recognition、光学式文字認識)を用いて、帳票内の文書を電子データに変換する技術が利用されている。OCRを用いて帳票を電子化した後、近傍の文字列を対応付けたデータをシステムに登録する。例えば、文字列「帳票発行日」の近傍の文字列「2016年3月29日」がある場合、項目名を「帳票発効日」とし、項目値を「2016年3月29日」としてシステムに登録する。さらに、罫線を利用して、帳票内の表構造、すなわち表見出しの項目名と表見出しに対応する項目値のセルとを認識し、これらを対応付けたのち、システムに登録する。
特許文献1には、罫線によって表構造を認識し、項目名候補データベースを用いて項目名を識別し、項目名と他の項目値候補のセルとの位置関係から項目名と項目値との対応の尤度を算出し、表構造全体で尤度の最も高くなるように項目名と項目値を対応付ける方法が開示されている。
特許文献2には、罫線をまたいで記載されている項目間の特徴、例えば背景色やフォントサイズ、フォントタイプ等の差異から、その罫線が項目名と項目値の境界となる罫線かを判定し、表構造中の項目名と項目値、およびその対応関係を推定する方法が記載されている。
特許文献3には、項目名と項目値は、帳票中の水平方向の開始位置、終了位置に類似性が見られることと、表見出しと項目値を含む行間では文字が登場する座標位置に類似性が見られることを利用し、表見出しと項目値を含む行とを対応付け、及び、項目名と項目値との対応付ける方法が記載されている。
特開2013−205974号公報 特開2013−190993号公報 米国特許8,214,733号公報
前述した特許文献1、特許文献2に記載の方法では、罫線を表構造認識の手掛かりとしているが、罫線が記載されていない帳票の表構造の認識には用いることができない。
さらに、帳票によっては、表見出しと項目値を含む行(以降、項目値行と記載)との間や、項目値行同士の間に、表見出しと関連しない文字列が記載される場合がある。例えば、請求書や領収書の場合、項目値行には、商品名や価格が記載されるが、在庫不足で商品の配送に通常より多くの期間が必要な場合は、期間及び配送遅延理由等の補足情報が、その項目値行の上部又は下部に記載される。また、セールスプロモーション期間での商品購入やバルクでの商品購入によるディスカウントの情報が項目値行の近くに記載される。前述した特許文献1に記載の方法では、隣接する項目間で尤度を算出するため、無関係な文字列により項目が分断されると、正しく項目名と項目値を対応付けられなくなる。また、特許文献2に記載の方法では、近くの項目間の特徴を用いて、項目名と項目値の境界を識別するため、補足情報による分断によって、境界の識別が困難になる。
また、特許文献3に記載の方法では、文字列の開始位置及び終了位置を比較し、さらに帳票中の文字列を含む行(文字列行)を、文字が存在する座標を1、空白を0としたバイナリデータに変換し、表見出しのバイナリデータと文字列行のバイナリデータとの間のハミング距離を算出することによって表見出しと項目値行と他の文字列行とを区別する。しかし、表見出しと項目値行とで文字列の開始位置、終了位置が同じとは限らず、また、表見出しの文字列数と項目値行の文字列数とが異なる場合がある。このため、表見出しと項目値行とのハミング距離が、表見出しと他の文字列を含む行とのハミング距離より大きくなり、対応付けが困難になる。
このため、罫線が無く、かつ表構造中に表見出しと関連が無い文字列が登場する帳票でも表見出しと項目値とを対応付ける必要がある。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、認識装置であって、プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置とを備え、帳票から抽出された文字列が項目値を含む項目値行であるかを判定する認識モデルを有し、前記認識モデルは、帳票内の文字列を含む行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を機械学習して生成されたものであって、前記認識モデルは、認識すべき帳票から文字列を含む行の情報を抽出し、前記抽出した行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと他の行のヒストグラムとを比較した行構造の関連性を特徴量として用いて、当該他の行が項目値行であるかを判定する。
本発明の一態様によれば、表見出しと項目値とを正確に対応付けできる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
本発明の実施例の帳票内表構造認識システムの構成図である。 認識サーバの物理的な構成を示すブロック図である。 認識サーバが認識する帳票の一例を示す図である。 項目値行学習プログラムによる処理のフローチャートである。 学習用帳票の一例を示す図である。 帳票の表見出しから生成されたヒストグラムの一例を示す図である。 水平方向項目値学習を行うニューラルネットの認識モデルを示す図である。 近傍行特徴量生成処理の例を示す図である。 近近傍行特徴量テーブルの構成例を示す図である。 垂直方向項目値行認識ニューラルネットワークモデルを示す図である。 項目値行認識プログラム及び項目値認識プログラムによる処理のフローチャートである。 項目名と項目値とを対応付ける方法を示す図である。 項目名・項目値データベースの構成例を示す図である。
以下、図面を参照して本発明の実施例を説明する。
図1は、本発明の実施例の帳票内表構造認識システムの構成図である。
本実施例の帳票内表構造認識システムは、帳票から項目名及び項目値を抽出する認識サーバ100から構成される。認識サーバ100は、取引先企業から郵送等で受け取った紙帳票111を電子化する読み取り装置112に接続されている。また、認識サーバ100は、ネットワーク(例えば、インターネット114)に接続されており、取引先企業PC113から電子帳票を受け取る。
認識サーバ100は、帳票受信部109と、項目値行学習プログラム101と、項目値行認識プログラム102と、項目値認識プログラム103とを有する。また、認識サーバ100は、帳票から取得したい項目名が登録されている項目名データベース105を有する。
帳票受信部109は、読み取り装置112又はインターネット114を介して受信した電子帳票を、取引先企業名と共に、学習用帳票104又は認識対象帳票106として保存する。項目値行学習プログラム101は、項目名データベース105に登録されている項目名を含む行を表見出しとし、項目値行の位置が既知である学習用帳票104から、表見出しと項目値行の対応関係を機械学習し、項目値行認識モデル107を生成する(図3参照)。項目値行認識プログラム102は、項目値行認識モデル107を用いて、認識対象帳票106中の項目値行を認識し、抽出する(図10参照)。項目値認識プログラム103は、表見出しの項目名に項目値行内の項目値を対応付け、図11に示す項目名・項目値データベース108に格納する(図10参照)。
図1Bは、認識サーバ100の物理的な構成を示すブロック図である。
本実施例の認識サーバ100は、プロセッサ(CPU)1、メモリ2、補助記憶装置3及び通信インターフェース4を有する計算機によって構成される。
プロセッサ1は、メモリ2に格納されたプログラムを実行する。メモリ2は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
補助記憶装置3は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置によって構成され、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置3から読み出されて、メモリ2にロードされて、プロセッサ1によって実行される。
通信インターフェース4は、所定のプロトコルに従って、他の装置(読み取り装置112、取引先企業PC113)との通信を制御するネットワークインターフェース装置である。
認識サーバ100は、入力インターフェース5及び出力インターフェース8を有してもよい。入力インターフェース5は、キーボード6やマウス7などが接続され、オペレータからの入力を受けるインターフェースである。出力インターフェース8は、ディスプレイ装置9やプリンタなどが接続され、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースである。
プロセッサ1が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して認識サーバ100に提供され、非一時的記憶媒体である不揮発性の補助記憶装置3に格納される。このため、認識サーバ100は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
認識サーバ100は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
また、認識サーバ100において、プログラムによって実装される機能ブロックの全部又は一部は、物理的な集積回路(例えば、Field-Programmable Gate Array)等によって構成されてもよい。
図2は、認識サーバ100が認識する帳票の一例を示す図である。
図2に示す帳票は、Company AからCompany Bへの請求書である。Company Bが購入した商品及び価格が表構造で帳票に記載されており、表見出し201には、商品の個数(Quantity)、商品番号(Item No.)、商品の説明(Description)、単価(UNIT PRICE)、合計価格(PRICE)の項目名が記載されている。項目値行202、204、206には、表見出しの項目名に対応する項目値が記載されている。また、項目値行202、204、206の間には、項目値行を補足する補足情報203、205が記載されている。さらに、帳票には、取引先企業毎に、帳票を一意に識別するInvoice Number207が付与されている。学習用帳票104は、この帳票の表見出し201と項目値行202、204、206の矩形座標を機械学習の正解データとして設定している。
図3は、項目値行学習プログラム101による処理のフローチャートである。
まず、項目値行学習プログラム101は、学習用帳票104の入力を受ける(ステップS301)。
次に、学習用帳票104から文字列行の矩形座標を抽出する(ステップS302)。ステップS302では、図4に示すような矩形が学習用帳票104から抽出される。
その後、学習用帳票104にOCR処理を行い、文字情報と当該文字の座標を抽出する(ステップS303)。そして、OCRの結果から、項目名データベース105に登録されている項目名と一致する文字を特定し、特定された文字の帳票上の座標を表見出しの位置として特定する(ステップS304)。
ステップS302で矩形として抽出された全ての文字列行について、矩形内の文字ピクセルのヒストグラムを生成する(ステップS305)。このヒストグラムは、行の水平方向の構造的な特徴を表している。具体的には、文字列行の矩形を水平方向に一定数分割した後、分割された領域内の文字に含まれる黒色ピクセルの個数をヒストグラムの度数とする。図2に示す帳票の表見出し201から生成されたヒストグラムを、図5に示す。
次に、水平方向項目値学習を行う(ステップS306)。水平方向項目値学習は、ステップS305で生成された、ピクセルの分布を表す水平方向のヒストグラムから表見出しと項目値行の構造の関連性をニューラルネットワークに学習させる処理である。表見出しと項目値行とは、(1)文字列の数が同一又は近い、(2)水平方向で共通の位置に文字列が存在する、(3)表見出し内の項目名によって項目値の文字列長が所定値以上となる又は所定値以下となる、などのパターンがあり、これをニューラルネットに学習させる。例えば、項目名Descriptionに対応する項目値の文字列長は長くなりやすく、項目名Quantityに対応する項目値の文字列長は短くなりやすい。
図6は、水平方向項目値学習を行うニューラルネットの認識モデルを示す図である。
図6に示す水平方向項目値行認識ニューラルネットワークモデル610は、表見出しヒストグラム601及び文字列行ヒストグラム602を入力値とする。表見出しヒストグラム601は、ステップS304で特定された表見出しの矩形について、ステップS305で生成されたヒストグラムである。文字列行ヒストグラム602は、ステップS302で抽出された表見出し以外の文字列の矩形について、ステップS305で生成されたヒストグラムである。
水平方向項目値行認識ニューラルネットワークモデル610は、表見出しヒストグラム601の構造の特徴量を抽出する特徴量抽出層A611と、文字列行ヒストグラム602の構造の特徴量を抽出する特徴量抽出層B612と、二つの特徴量を比較する比較層613とで構成される。特徴量抽出層A611では、表見出し内の文字列の位置、文字列の数、特定の項目名(例えば、Description)の位置が特徴量として抽出されるよう学習が行われる。特徴量抽出層B612では、文字列行内の文字列の位置、文字列の数、文字列の長さが特徴量として抽出されるように学習が行われる。比較層613では、二つの特徴量から、文字列行ヒストグラム602の構造が、表見出しヒストグラム601に対応する項目値行の構造として尤もらしい程度を評価する。具体的には、表見出しの文字列の位置、文字列の数及び項目名の各々に対応して、表見出しに対する文字列行内の文字列の位置、文字列の数及び文字列の長さの尤度が学習される。比較層613の出力は、項目値行の確率614になる。
水平方向項目値行認識ニューラルネットワークモデル610に対して、帳票から抽出した文字列行毎に、学習用帳票104の表見出しヒストグラム601と項目値行ヒストグラムを入力する場合の出力が1、学習用帳票104の表見出しヒストグラム601と項目値行以外の文字列行のヒストグラムを入力する場合の出力が0となるように、ニューラルネットワークの公知の学習法(例えば、誤差逆伝搬法)によって、学習を実行する。
ステップS306によって、表見出しと項目値行との構造上の特徴量から項目値行を推定できる。
続いて、項目値行の周辺空間の情報からニューラルネットワークに入力可能な特徴量を生成する近傍行特徴量生成処理を行う(ステップS307)。項目値行の周辺空間の情報を追加の特徴量として用いると、より高い精度で項目値行を推定できる。周辺空間の情報とは、具体的には、罫線、空白、類似した文字列行である。帳票によっては、罫線が表見出しと項目値行との間や、表構造の終端に記載されるため、罫線は項目値行の存在範囲を判定するための有効な情報である。また、帳票によっては、表構造と非表構造との間には一定以上の空白が設けられるため、空白は項目値行の存在範囲の判定に有効な情報である。さらに、項目値行が表構造中に複数ある場合、特徴量が類似する行構造が一定範囲内に繰り返し存在し、同様の行構造の相対位置は項目値行の判断に有効な情報である。よって、罫線、空白、類似した文字列行が存在する情報をニューラルネットワークに学習させることによって、項目値行の認識精度を高めることができる。
図7A、図7Bは、近傍行特徴量生成処理の例を示す図である。
図示する例では、帳票700の文字列行701の周辺空間として、上下10行から特徴量を生成する。具体的には、各文字列行を1行、文字列行701と同じ高さの空白部分を1行、罫線を1行とした近傍行10行702、703を対象範囲とする。
図7Bに示す近傍行特徴量テーブル710は、各近傍行に割り当てられた近傍行番号704、711と、各近傍行の特徴量712を含む。特徴量712は、ステップS306で生成した水平方向項目値行認識ニューラルネットワークモデル610が算出した値で、各文字列行が項目値行である確率(Possibility)、空白であるか(Blank)、罫線であるか(Line)、表見出しであるか(Header)を含む。例えば、Possibilityは、行の行構造同士を比較して、同じ又は類似している行構造の行は項目値行である可能性が高いと判定する。
次に、ステップS307で生成した近傍行特徴量を入力として垂直方向項目値行学習を行う(ステップS308)。図8に示すように、垂直方向項目値行学習で生成される垂直方向項目値行認識ニューラルネットワークモデル802は、近傍行特徴量801を入力として、水平方向項目値行認識ニューラルネットワークモデル610と同様に項目値行の確率803を出力する。帳票から抽出された各文字列行毎に、文字列行701が項目値行の場合は1を出力し、非項目値行の場合は0を出力するように、逆誤差伝搬法を用いて学習する。
図9は、項目値行認識プログラム102及び項目値認識プログラム103による処理のフローチャートである。
まず、項目値行認識プログラム102は、認識対象帳票106を取引先企業名と共に取得する(ステップS901)。
ステップS902からステップS905までの処理は、項目値行学習プログラム101によるステップS302からステップS305までの処理と同じである。
ステップS906では、認識対象帳票106の文字列行毎に、ステップS905までの処理で生成された表見出しヒストグラム601及び文字列行ヒストグラム602を入力し、ステップS306で生成された水平方向項目値行認識ニューラルネットワークモデル610によって、文字列行が項目値行である確率を算出する(ステップS906)。
ステップS906で算出された項目値行である確率を用いて、項目値行学習プログラム101によるステップS307と同様に、認識対象帳票106の文字列行毎に近傍行特徴量を生成する(ステップS907)。
ステップS308で生成された垂直方向項目値行認識ニューラルネットワークモデルによって、ステップS907で生成された近傍行特徴量から、文字列行が項目値行である確率を算出する(ステップS908)。
具体的には、所定数の空白行が連続した後は、文字列行が項目値行である可能性が低いと判定する。また、同じ又は類似している行構造の行は、項目値行である可能性が高いと判定する。また、二つの罫線の間の文字列行は項目値行である可能性が高いと判定し、最下部の罫線以後は項目値行である可能性が低いと判定する。
ステップS908で算出された項目値行である確率が所定の閾値以上の文字列行を項目値行であると判定し、表見出しの項目名と項目値行内の項目値とを対応付ける。項目名と項目値とを対応付ける方法を図10に示す。項目名データベース105に格納されている項目名のうち、表見出しに含まれる項目名の数を算出する。項目名データベース105には、Quantity、Item No.、Description、UNIT PRICE、PRICEが含まれている。このとき、表見出し1001には、5つの項目名が含まれると判定できる。なお、表見出し1001中のUNIT PRICEについては、項目名データベース105中のUNIT PRICE及びPRICEが対応するが、文字列長の長い項目名を優先して利用する。続いて、項目値行内の文字列を最小の空白で区切り、文字列の数を算出する。文字列の数が表見出し1001内の項目名の数と異なる場合、文字列を区切る空白長を長くして、再度、文字列の数を算出する。表見出し内の項目名の数と項目値行内の文字列の数とが等しくなるまで、空白長を長くして処理を繰り返し、項目値を決定する。例えば、項目値行1002では、OfficeとChair間を空白として文字列を分割しており、文字列の個数は6となる。P000115とOfficeとの間の空白長を文字列の分割に用いた場合、文字列の数は5となる(1003)。すなわち、項目値行内の項目数が表見出し内の項目数と同じになるように、小さい空白を除外していく。よって、図10に示す場合では、4、P000115、Office Chair、$40.00、$160.00が項目値となる。得られた項目値を左から順に表見出しの項目名と対応付ける(ステップS909)。
次に、帳票番号を抽出する(S910)。具体的には、ステップS903で抽出したOCR結果からInvoice Numberを抽出する。Invoice Numberは、一般的に帳票上で文字列Invoice Numberの右隣又は直下に存在する数値を含む文字列であるため、帳票中の他の文字列と容易に区別可能である。図2に示す帳票では、文字列Invoice Numberの右隣にある111111を抽出する。
そして、項目値認識プログラム103は、ステップS901で取得した取引先企業名、ステップS909で対応付けた項目名及び項目値、及びステップS910で抽出したInvoice Numberを項目名・項目値データベース108に格納する(ステップS911)。
図11は、項目名・項目値データベース108の構成例を示す図である。
項目名・項目値データベース108は、取引先企業名1101、Invoice Number1102、項目名(Quantity、Item No.、Description、Unit Price、Price)に対応する項目値1103を格納する。図2及び図10に示す帳票では、図11の最下行のように、CompanyとしてCompany A、Invoice Numberとして111111、Quantityとして4、Item No.としてP000115、DescriptionとしてOffice Chair、Unit Priceとして40、Priceとして160が格納される。
以上に説明したように、本発明の実施例によると、項目値行認識モデル610は、認識すべき帳票から文字列を含む行の情報を抽出し、抽出した行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと他の行のヒストグラムとを解析して行構造の関連性を特徴量として用いて、当該他の行が項目値行であるかを判定するので、表見出しと項目値とを正確に対応付けできる。
また、行の情報は、文字列を含むように定められた矩形の情報、前記矩形の位置情報、及び文字列を認識した文字情報であるので、帳票中で解析すべき領域を限定し、演算量を減らすことができる。
また、ヒストグラムは、行内の文字列を含むように定められた矩形を水平方向に所定数に分割した領域内で文字に含まれる黒色ピクセルの数を表すように構成したので、行内の文字の和也文字の位置を定量化できる。
また、帳票から文字列を含む行の情報を抽出し、抽出した行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を特徴量として機械学習することによって、項目値行認識モデル610を生成するので、文字そのものを入力するよりも、行の構造的な特徴を表す定量的な値という機械学習に適する値を用いて帳票を解析するためのモデルを生成できる。
また、項目値行認識モデル610は、前記認識すべき帳票に含まれる罫線、空白、及び同じ構造を持った文字列行の位置の少なくとも一つを用いて、当該他の行が項目値行であるかを判定するので、項目値行を認識する精度を向上できる。
また、項目値行認識モデル610は、所定数の空白行が連続した後は項目値行である可能性が低いと判定するので、未知の帳票でも高精度に項目値行を認識できる。
また、項目値行認識モデル610は、行構造が同じ行は項目値行である可能性が高いと判定するので、未知の帳票でも高精度に項目値行を認識できる。
また、項目値行認識モデル610は、二つの罫線の間の行は項目値行である可能性が高く、最下の罫線より下は項目値行である可能性が低いと判定するので、未知の帳票でも高精度に項目値行を認識できる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
100 認識サーバ、101 項目値行学習プログラム、102 項目値行認識プログラム、103 項目値認識プログラム、104 学習用帳票、105 項目名データベース、106 認識対象帳票、107 項目値行認識モデル、108 項目名・項目値データベース、111 紙帳票、112 読み取り装置、113 取引先企業PC、114 インターネット、201 表見出し、202、204、206 項目値行 203、205 項目値行補足情報、207 Invoice Number、601 表見出しヒストグラム、602 文字列行ヒストグラム、610 水平方向項目値行認識ニューラルネットワークモデル、611 特徴量抽出層A、612 特徴量抽出層B、613 比較層、614 項目値行の確率、700 帳票、701 文字列行、702、703 近傍10行、704 近傍行番号、710 近傍行特徴量テーブル、711 近傍行番号、712 特徴量、801 近傍行特徴量、802 垂直方向項目値行認識ニューラルネットワークモデル、803 項目値行の確率、1001 表見出し、1002、1003 項目値行、1101 取引先企業名、1102 Invoice Number、1103 項目値

Claims (16)

  1. 認識装置であって、
    プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置とを備え、
    帳票から抽出された文字列が項目値を含む項目値行であるかを判定する認識モデルを有し、
    前記認識モデルは、帳票内の文字列を含む行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を機械学習して生成されたものであって、
    前記認識モデルは、
    認識すべき帳票から文字列を含む行の情報を抽出し、
    前記抽出した行の情報をヒストグラムに変換し、
    表見出しを含む行のヒストグラムと他の行のヒストグラムとを比較した行構造の関連性を特徴量として用いて、当該他の行が項目値行であるかを判定することを特徴とする認識装置。
  2. 請求項1に記載の認識装置であって、
    前記行の情報は、文字列を含むように定められた矩形の情報、前記矩形の位置情報、及び文字列を認識した文字情報であることを特徴とする認識装置。
  3. 請求項2に記載の認識装置であって、
    前記ヒストグラムは、行内の文字列を含むように定められた矩形を水平方向に所定数に分割した領域内で文字に含まれる黒色ピクセルの数を表すことを特徴とする認識装置。
  4. 請求項1に記載の認識装置であって、
    帳票から文字列を含む行の情報を抽出し、前記抽出した行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を特徴量として機械学習することによって、前記認識モデルを生成することを特徴とする認識装置。
  5. 請求項1に記載の認識装置であって、
    前記認識モデルは、前記認識すべき帳票に含まれる罫線、空白、及び同じ構造を持った文字列行の位置の少なくとも一つを用いて、当該他の行が項目値行であるかを判定することを特徴とする認識装置。
  6. 請求項5に記載の認識装置であって、
    前記認識モデルは、所定数の空白行が連続した後は項目値行である可能性が低いと判定することを特徴とする認識装置。
  7. 請求項5に記載の認識装置であって、
    前記認識モデルは、行構造が同じ行は項目値行である可能性が高いと判定することを特徴とする認識装置。
  8. 請求項5に記載の認識装置であって、
    前記認識モデルは、二つの罫線の間の行は項目値行である可能性が高く、最下の罫線り下は項目値行である可能性が低いと判定することを特徴とする認識装置。
  9. 認識装置が実行する認識方法であって、
    前記認識装置は、
    プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置とを有し、
    帳票から抽出された文字列が項目値を含む項目値行であるかを判定する認識モデルを有し、
    前記認識モデルは、帳票内の文字列を含む行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を機械学習して生成されたものであって、
    前記方法は、
    前記認識モデルが、認識すべき帳票から文字列を含む行の情報を抽出し、
    前記認識モデルが、前記抽出した行の情報をヒストグラムに変換し、
    前記認識モデルが、表見出しを含む行のヒストグラムと他の行のヒストグラムとを比較した行構造の関連性を特徴量として用いて、当該他の行が項目値行であるかを判定することを特徴とする認識方法。
  10. 請求項9に記載の認識方法であって、
    前記行の情報は、文字列を含むように定められた矩形の情報、前記矩形の位置情報、及び文字列を認識した文字情報であることを特徴とする認識方法。
  11. 請求項10に記載の認識方法であって、
    前記ヒストグラムは、行内の文字列を含むように定められた矩形を水平方向に所定数に分割した領域内で文字に含まれる黒色ピクセルの数を表すことを特徴とする認識方法。
  12. 請求項9に記載の認識方法であって、
    帳票から文字列を含む行の情報を抽出し、前記抽出した行の情報をヒストグラムに変換し、表見出しを含む行のヒストグラムと項目値を含む行のヒストグラムとを解析して行構造の関連性を特徴量として機械学習することによって、前記認識モデルを生成することを特徴とする認識方法。
  13. 請求項9に記載の認識方法であって、
    前記認識モデルは、前記認識すべき帳票に含まれる罫線、空白、及び同じ構造を持った文字列行の位置の少なくとも一つを用いて、当該他の行が項目値行であるかを判定することを特徴とする認識方法。
  14. 請求項13に記載の認識方法であって、
    前記認識モデルは、所定数の空白行が連続した後は項目値行である可能性が低いと判定することを特徴とする認識方法。
  15. 請求項13に記載の認識方法であって、
    前記認識モデルは、行構造が同じ行は項目値行である可能性が高いと判定することを特徴とする認識方法。
  16. 請求項13に記載の認識方法であって、
    前記認識モデルは、二つの罫線の間の行は項目値行である可能性が高く、最下の罫線り下は項目値行である可能性が低いと判定することを特徴とする認識方法。
JP2016129997A 2016-06-30 2016-06-30 認識装置及び認識方法 Pending JP2018005462A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016129997A JP2018005462A (ja) 2016-06-30 2016-06-30 認識装置及び認識方法
PCT/JP2017/001418 WO2018003153A1 (ja) 2016-06-30 2017-01-17 認識装置及び認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016129997A JP2018005462A (ja) 2016-06-30 2016-06-30 認識装置及び認識方法

Publications (1)

Publication Number Publication Date
JP2018005462A true JP2018005462A (ja) 2018-01-11

Family

ID=60785193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016129997A Pending JP2018005462A (ja) 2016-06-30 2016-06-30 認識装置及び認識方法

Country Status (2)

Country Link
JP (1) JP2018005462A (ja)
WO (1) WO2018003153A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013281A (ja) * 2018-07-17 2020-01-23 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP2020527260A (ja) * 2018-06-15 2020-09-03 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド テキスト検出分析方法、装置及びデバイス
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
JP2021012741A (ja) * 2020-10-22 2021-02-04 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP2021197154A (ja) * 2020-06-09 2021-12-27 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US11605219B2 (en) 2018-04-02 2023-03-14 Nec Corporation Image-processing device, image-processing method, and storage medium on which program is stored
JP7452120B2 (ja) 2020-03-12 2024-03-19 富士通株式会社 画像処理方法、画像処理プログラムおよび画像処理装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071771A (zh) * 2023-03-24 2023-05-05 南京燧坤智能科技有限公司 表格重构方法、装置、非易失性存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161436A (ja) * 1994-12-06 1996-06-21 Toshiba Corp 領収書読取装置
JP2001092921A (ja) * 1999-09-17 2001-04-06 Toshiba Corp 文字行領域抽出方法と文字行領域検出に用いられる学習方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11605219B2 (en) 2018-04-02 2023-03-14 Nec Corporation Image-processing device, image-processing method, and storage medium on which program is stored
JP2020527260A (ja) * 2018-06-15 2020-09-03 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド テキスト検出分析方法、装置及びデバイス
JP2020013281A (ja) * 2018-07-17 2020-01-23 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP7122896B2 (ja) 2018-07-17 2022-08-22 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7383882B2 (ja) 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP7077998B2 (ja) 2019-03-07 2022-05-31 セイコーエプソン株式会社 情報処理装置
US11436816B2 (en) 2019-03-07 2022-09-06 Seiko Epson Corporation Information processing device, learning device, and storage medium storing learnt model
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
JP7452120B2 (ja) 2020-03-12 2024-03-19 富士通株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
JP2021197154A (ja) * 2020-06-09 2021-12-27 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7230081B2 (ja) 2020-06-09 2023-02-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US11854246B2 (en) 2020-06-09 2023-12-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and storage medium for recognizing bill image
JP7111143B2 (ja) 2020-10-22 2022-08-02 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP2021012741A (ja) * 2020-10-22 2021-02-04 日本電気株式会社 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
WO2018003153A1 (ja) 2018-01-04

Similar Documents

Publication Publication Date Title
WO2018003153A1 (ja) 認識装置及び認識方法
US10685462B2 (en) Automatic data extraction from a digital image
RU2679209C2 (ru) Обработка электронных документов для распознавания инвойсов
US11393233B2 (en) System for information extraction from form-like documents
WO2023279045A1 (en) Ai-augmented auditing platform including techniques for automated document processing
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US11630956B2 (en) Extracting data from documents using multiple deep learning models
US11436852B2 (en) Document information extraction for computer manipulation
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
Cheddad et al. SHIBR—The Swedish historical birth records: A semi-annotated dataset
Nayak et al. Odia running text recognition using moment-based feature extraction and mean distance classification technique
US20230067069A1 (en) Document digitization, transformation and validation
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
JP5566971B2 (ja) 情報処理プログラム、情報処理装置および文字認識方法
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
JP2020154962A (ja) 情報処理装置及びプログラム
TWM626292U (zh) 業務導向要項鍵值辨識系統
Alzuru et al. Cooperative human-machine data extraction from biological collections
TWI807467B (zh) 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法
JP2020166811A (ja) 文書フォームの識別
US12014561B2 (en) Image reading systems, methods and storage medium for performing geometric extraction
JP7370733B2 (ja) 情報処理装置、制御方法、及びプログラム
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム