JP6896260B1

JP6896260B1 - レイアウト解析装置、その解析プログラムおよびその解析方法

Info

Publication number: JP6896260B1
Application number: JP2020070113A
Authority: JP
Inventors: 諒介佐々木; 佳久石橋; 亮介田嶋
Original assignee: Arithmer Inc
Current assignee: Arithmer Inc
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2021-06-30
Anticipated expiration: 2040-04-08
Also published as: JP2021167990A

Abstract

【課題】システムに登録されていない未知の文書のレイアウト解析を可能にする。【解決手段】レイアウト解析装置１は、項目抽出部２と、レイアウト解析部５と、を備える。項目抽出部２は、文書上に活字で印刷された項目名を含む項目領域を抽出対象として、文書画像中に含まれる項目領域とその項目領域の属性とを項目名に対応させて抽出する。レイアウト解析部５は、文書画像上における項目領域の位置およびその属性に基づいて、文書画像のレイアウトを解析する。【選択図】図１

Description

本発明は、文書のレイアウトを解析するレイアウト解析装置、その解析プログラムおよびその解析方法に関する。

従来、文書を画像データとして取り込んで、画像処理によって文書のレイアウトを解析する方法が知られている。例えば、特許文献１には、文書のレイアウトを規定するテンプレートを用いて、文書画像中の文書構造を解析する文書編集出力装置が開示されている。

また、特許文献２には、フィールドのデータ型を学習機能により半自動的に設定可能とすることで、より詳細なＯＣＲ制約条件を容易に課すことができ、これによって、文字認識の精度を向上させる情報処理装置が開示されている。具体的には、入力された文書画像に対応するフォーマット情報および制約条件がフォーマットモデル記憶部から読み出され、このフォーマット情報によって特定されたフィールドにおける文書画像の記入値がフィールドの制約条件の範囲内で文字認識される。

特開平１１−２１９４４２号公報特開２０１７−１００６９号公報

しかしながら、上述した特許文献１および特許文献２の解析手法は、文書のテンプレートやフォーマットがシステムに予め登録されていることを前提とするため、システムに登録されていない未知の文書には対応できない。

そこで、本発明は、システムに登録されていない未知の文書のレイアウト解析を可能にすることを目的とする。

かかる課題を解決すべく、項目抽出部と、レイアウト解析部とを有し、文書のレイアウトを解析する文書レイアウト解析装置を提供する。項目抽出部は、文書上に活字で印刷された項目名を含む項目領域を抽出対象として、文書画像中に含まれる項目領域と当該項目領域の属性とを項目名に対応させて抽出する。レイアウト解析部は、文書画像上における項目領域の位置およびその属性に基づいて、文書画像のレイアウトを解析する。

本発明によれば、文書画像中に含まれる項目領域と、その属性とが取得される。これらの情報から、文書画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、システムに登録されていない未知の文書であっても、レイアウト解析を行うことが可能になる。

本実施形態に係るレイアウト解析装置のブロック図物体検出アルゴリズムの説明図ＹＯＬＯのネットワーク構成図レイアウト解析のフローチャート帳票画像の一例を示す図帳票画像から抽出された項目領域を示す図帳票画像から抽出された手書き文字領域を示す図帳票画像のレイアウト解析結果を示す図複数の属性抽出によるレイアウト候補の説明図複数の項目領域の近接によるレイアウト候補の説明図

図１は、本実施形態に係るレイアウト解析装置のブロック図である。このレイアウト解析装置１は、申請書や契約書などのような手書き文字列が記入された帳票について、そのレイアウトを解析し、帳票のどこに何が記載されているのかを特定する。解析対象となる帳票は未知なもの、すなわち、システムにレイアウトが登録されていない帳票であって、例えば、手書き帳票の光学的文字認識（ＯＣＲ）に先立つ前処理として行われる。なお、解析対象は帳票に限らず、任意の文書であってもよい。

レイアウト解析装置１は、項目抽出部２と、手書き領域抽出部３と、フィルタ処理部４と、レイアウト解析部５と、学習処理部６と、学習モデル７と、対応規則テーブル８とを主体に構成されている。

項目抽出部２は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。例えば、帳票画像中に「氏名」や「住所」などの画像領域が存在する場合、それぞれの画像領域が項目領域として抽出されると共に、それぞれの項目領域に対して「name」や「address」といった属性が付加される。項目領域の抽出は、深層学習による物体検出アルゴリズムを用いて行われ、このアルゴリズムに基づき構築された学習モデル７を参照して、項目領域の抽出と、その属性の分類とが行われる。また、分類された属性については、その分類確度も算出・出力される。

図２は、物体検出アルゴリズムの説明図である。同図（ａ）に示すように、顔検出などで用いられる従来の検出手法では、入力に対する処理として、領域探索、特徴量抽出、機械学習という３つの段階に別れている。すなわち、領域探索が行われ、検出する物体に合わせて特徴抽出が行われ、適切な機械学習手法が選択される。この検出手法では、物体検出を３つのアルゴリズムに別けて実現される。特徴量についても、基本的に、検出対象に応じた専用設計になるため特定の対象しか検出できない。そこで、かかる制約を解消すべく、同図（ｂ）および（ｃ）に示すような深層学習による物体検出アルゴリズムが提案された。同図（ｂ）に示すように、Ｒ−ＣＮＮ（Regions with Convolutional Neural Network）などでは、深層学習を用いることで特徴量抽出が自動で実現される。これによって、ネットワークの設計だけで、色々な物体に対する柔軟な分類が可能になる。しかしながら、領域探索については別処理として依然として残ることから、領域探索についても深層学習に含めたものが、ＹＯＬＯ（You Only Look Once）やＳＳＤ（Single Shot MultiBoxDetector）に代表される同図（ｃ）の手法である。本手法では、入力（帳票画像）を一つのニューラルネットワークに入力することで、項目領域の抽出と、その属性の分類とがまとめて行われる。本手法の特徴として、第１に、回帰問題的なアプローチであることが挙げられる。回帰（Regression）とは、データの傾向から数値を直接予測するアプローチをいい、領域を決めてからそれが何かを分類するのではなく、物体の座標と大きさが直接予測される。第２に、一つのネットワークで処理が完結することである。データ入力した後は深層学習だけで最後（出力結果）までいってしまうという意味で、「End-to-End」の処理であるともいえる。

例えば、ＹＯＬＯの処理は、概ね以下のようになる。まず、入力画像がＳ*Ｓの領域に分割される。つぎに、それぞれの領域内における物体のクラス確率が導出される。そして、Ｂ個（ハイパーパラメータ）のバウンディングボックスのパラメータ（ｘ，ｙ，height，width）と信頼度（confidence）とが算出される。バウンディングボックスとは、物体領域の外接四角形であり、信頼度とは、予測と正解のバウンディングボックスの一致度である。物体検出には、物体のクラス確率と、各バウンディングボックスの信頼度との積が用いられる。図３は、ＹＯＬＯのネットワーク構成図である。ＹＯＬＯにおいて、帳票画像はＣＮＮ（Convolutional Neural Network）層に入力されると共に、複数段の全結合層を経て結果が出力される。出力は、Ｓ*Ｓ個に分割した画像領域と、信頼度（分類確度）を含むバウンディングボックス（ＢＢ）の５パラメータと、クラス数（項目の属性）とを含む。

手書き領域抽出部３は、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する。手書き文字と活字との判別法としては、様々なものが提案されており、任意の手法を用いることができる。例えば、文字画像を実空間で解析する手法を用いてもよい。具体的には、文字の水平方向および垂直方向のヒストグラムを取ることで文字列を抽出し、その基線の直線度を評価することによって手書き文字列を抽出する手法や、文字を構成する線分の直線性と文字の対称性とを評価することによって手書き文字列を抽出する手法といった如くである。その際、文字列を構成する個々の手書き文字の大きさのバラツキや、手書き文字間の近接の度合いなどを考慮してもよい。実空間上の解析に代えて、文字画像を周波数空間で解析する手法を用いてもよい。また、手書き領域抽出部３においては、画素単位で「活字・印字」、「手書き」、「罫線」、「判子」、「背景」を識別するモデルを用いてもよい。その際、分類器として、Semantic Segmentationのような手法を用いてもよい。

フィルタ処理部４は、項目抽出部２によって抽出された複数の属性のうち、信頼度（分類確度）が所定のしきい値よりも小さい属性については、ノイズとみなして除去する。フィルタ処理部４によってフィルタリングされた項目領域に関する情報は、レイアウト解析部５に出力される。

レイアウト解析部５は、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析し、どの属性に関する情報がどこに記入されているのかを特定する。具体的には、手書き領域抽出部３によって抽出された手書き文字領域のそれぞれに対して、項目抽出部２によって分類された属性のいずれかが割り当てられる。基本的に、帳票画像上において、ある項目領域と、ある手書き文字領域とが近接、すなわち、両者の距離が所定のしきい値以下である場合、両者の対応付けが行われ、この手書き文字領域に対して、この項目領域の属性が割り当てられる。例えば、「name」という属性を有する項目領域の近傍に手書き文字領域が存在する場合、この手書き文字領域に対して「name」という属性を割り当てるといった如くである。

また、項目領域と手書き文字領域との具体的な対応規則については、対応規則テーブル８において予め設定・定義されている。この対応規則は、項目領域の右近傍に手書き文字領域が存在する場合に両者を対応付ける、あるいは、項目領域の下近傍に手書き文字領域が存在する場合に両者を対応付けるといった基本的なもの以外に、表中に存在する手書き文字領域の取り扱いなどについても定義している。

学習処理部６は、活字で表された項目名を含む項目画像（部分画像）と、この項目画像の属性との対である教師データを用いた教師あり学習によって学習モデル７を構築する。項目抽出部２によって参照される学習モデル７は、教師データの増大等に伴い、事後的に再構築することができる。

学習モデル７は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域と当該項目領域の属性とを項目名に対応させて抽出するものである。詳しくは、学習モデル７は、帳票画像に対し、当該帳票画像における項目名の部分をバウンディングボックスで指定した教師データによる学習により構築されたものであり、帳票画像の入力に応じて、帳票画像における項目領域の抽出と属性とを出力するものである。

以下、図５から図８を参照しつつ、帳票のレイアウト解析の流れについて詳述する。図４は、レイアウト解析装置１によって実行されるレイアウト解析のフローチャートである。なお、このレイアウト解析装置１は、コンピュータをブロック２〜６として機能・動作させるコンピュータプログラム（レイアウト解析プログラム）をコンピュータにインストールすることによって等価的に実現することも可能である。

まず、ステップ１において、解析対象とする帳票画像が入力される。図５は、帳票画像の一例として「振込依頼書」を示す図である。この帳票は、「氏名」、「所属」、「金額」、「銀行名」等の項目名が帳票上に活字で印刷されている。また、それぞれの項目名の近傍に位置する空欄には、項目名に対応する事項が手書きで記入されている。

つぎに、ステップ２において、項目抽出部２によって、帳票画像中に存在する項目領域が属性付きで個別に抽出される。図６に示すように、印字列「フリガナ」については、これを含む矩形領域が項目領域ａ１として抽出され、その属性「phonetic」と分類確率とが付与される。印字列「所属」については、これを含む矩形領域が項目領域ａ２として抽出され、その属性「department」と分類確率とが付与される。印字列「氏名」について、これを含む矩形領域が項目領域ａ３として抽出され、その属性「name」と分類確率とが付与される。印字列「金額」については、これを含む矩形領域が項目領域ａ４として抽出され、その属性「amount」と分類確率とが付与される。印字列「銀行目」については、これを含む矩形領域が項目領域ａ５として抽出され、その属性「bank」と分類確率とが付与される。印字列「支店名」について、これを含む矩形領域が項目領域ａ６として抽出され、その属性「branch」と分類確率とが付与される。印字列「預金種別」については、これを含む矩形領域が項目領域ａ７として抽出され、その属性「account type」と分類確率とが付与される。印字列「口座番号」については、これを含む矩形領域が項目領域ａ８として抽出され、その属性「account number」と分類確率とが付与される。

つぎに、ステップ３において、手書き領域抽出部３によって、帳票画像中に存在する手書き文字領域が個別に抽出される。図７に示すように、手書き文字列「トッキョイチロウ」については、これを含む矩形領域が手書き文字領域ｂ１として抽出される。手書き文字列「知的財産部」については、これを含む矩形領域が手書き文字領域ｂ２として抽出される。手書き文字列「特許一郎」については、これを含む矩形領域が手書き文字領域ｂ３として抽出される。手書き文字列「６，５００」については、これを含む矩形領域が手書き文字領域ｂ４として抽出される。手書き文字列「三井住友」については、これを含む矩形領域が手書き文字領域ｂ５として抽出される。手書き文字列「銀座」については、これを含む矩形領域が手書き文字領域ｂ６として抽出される。手書き文字列「普通」については、これを含む矩形領域が手書き文字領域ｂ７として抽出される。手書き文字列「１９６２０１２３」については、これを含む矩形領域が手書き文字領域ｂ８として抽出される。

つぎに、ステップ４において、フィルタ処理部４によって、項目抽出部２にて抽出された属性のフィルタリングが行われ、ノイズとみなされた属性が除去される。

つぎに、ステップ５において、レイアウト解析部５によって、帳票画像のレイアウトが解析される。図８に示すように、手書き文字領域ｂ１については、項目領域ａ１の右近傍に位置しているため、項目領域ａ１の属性「phonetic」が割り当てられる。手書き文字領域ｂ２については、項目領域ａ２の右近傍に位置しているため、項目領域ａ２の属性「department」が割り当てられる。手書き文字領域ｂ３については、項目領域ａ３の右近傍に位置しているため、項目領域ａ３の属性「name」が割り当てられる。手書き文字領域ｂ４については、項目領域ａ４の右近傍に位置しているため、項目領域ａ４の属性「amount」が割り当てられる。手書き文字領域ｂ５については、項目領域ａ５の下近傍に位置しているため、項目領域ａ５の属性「bank」が割り当てられる。手書き文字領域ｂ６については、項目領域ａ６の下近傍に位置しているため、項目領域ａ６の属性「branch」が割り当てられる。手書き文字領域ｂ７については、項目領域ａ７の下近傍に位置しているため、項目領域ａ７の属性「account type」が割り当てられる。手書き文字領域ｂ８については、項目領域ａ８の下近傍に位置しているため、項目領域ａ８の属性「account number」が割り当てられる。

最後に、ステップ６において、図８に示したような帳票画像のレイアウトの解析結果が出力され、これによって、一連の処理が終了する。なお、以上の処理において、ステップ２およびステップ３は、互いに独立しているので、その実行順序は逆であってもよく、また、同時並行的に実行してもよい。

なお、ステップ５におけるレイアウトの解析によって複数の解析結果が得られた場合、その適格性をユーザの判断に委ねるために、これらの解析結果をレイアウトの候補としてユーザに提示してもよい。このようなケースとしては、以下の２つが考えられる。第１は、図９に示すように、帳票画像上の１つの項目領域ａに対して複数の属性１，２が割り当てられているケースである。この場合、この項目領域ａの近傍に位置する手書き文字領域ｂの属性として、属性１および属性２の双方が考えられるため、手書き文字領域ｂの属性の候補として、属性１および属性２の双方がユーザに提示される。第２は、図１０に示すように、ある手書き文字領域ｂに対して複数の項目領域ａ１，ａ２が近接しているケースである。この場合、手書き文字領域ｂの属性として、項目領域ａ１の属性３および項目領域ａ２の属性４の双方が考えられるため、手書き文字領域ｂの属性の候補として、属性３および属性４の双方がユーザに提示される。

このように、本実施形態によれば、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、システムに登録されていない未知の帳票であっても、レイアウト解析を行うことが可能になる。特に、深層学習による物体検出アルゴリズムとして、ＹＯＬＯやＳＳＤなどのような、帳票画像中の項目領域の抽出と、その属性の分類とを一つのニューラルネットワークでまとめて行う手法を用いることで、様々な対象を高速で検出することが可能となる。

また、本実施形態によれば、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出し、手書き文字領域のそれぞれに対して、項目抽出部２によって分類された属性のいずれかを割り当てる。これにより、手書き文字列が記入された帳票についても、レイアウト解析を行うことが可能になる。

（変形例）
本実施形態に係るレイアウト解析装置では、解析対象として帳票を例に挙げたが、解析対象は任意の文書であってもよい。

また、本実施形態に係るレイアウト解析装置では、学習モデル７は、帳票画像に対し、当該帳票画像における項目名の部分をバウンディングボックスで指定した教師データによる学習により構築されるものとしたが、学習モデル７の構築はこれに限定されるものではない。例えば、学習モデル７は、帳票画像に対し、当該帳票画像における項目名の部分に対応するピクセルを指定した教師データにより構築されるものでもよい。具体的にはU-Netのようなネットワーク構造により構築されるものでもよい。さらに、学習モデル７は、帳票画像に対し、当該帳票画像における項目名の部分をバウンディングボックスで指定した教師データであって、帳票画像における項目名の部分に対応するピクセルを指定した教師データ（Mask R-CNN）による学習により構築されるものでもよい。要するに、本実施形態に係る物体検出アルゴリズムは、ＹＯＬＯやＳＳＤなどのモデルに限定されるものではなく、Semantic segmentationやInstance segmentationなどのモデルであってもよい。また、物体検出アルゴリズムは、物体の領域抽出と分類とが可能な任意のモデルを採用することができる。

また、本実施形態に係るレイアウト解析装置は、上述した手書き領域抽出部３に代えて、又は追加して、活字領域抽出部を有するものであってもよい。活字領域抽出部は、上述した物体検出アルゴリズムを用いて、帳票上に特定の活字文字（「氏名」「住所」等）で記入された文字列を含む活字文字領域を帳票画像中から抽出する。そして、所定の対応規則テーブルを用いて、項目領域と活字文字領域との位置関係等から項目領域に対応する活字文字領域を特定する。なお、対応規則テーブルは、例えば、項目領域の右近傍に、項目領域で使用される活字文字以外の活字文字領域が存在する場合に両者を対応付ける。或いは、対応規則テーブルは、例えば、項目領域の下近傍に、項目領域で使用される活字文字以外の活字文字領域が存在する場合に両者を対応付ける。

１レイアウト解析装置
２項目抽出部
３手書き領域抽出部
４フィルタ処理部
５レイアウト解析部
６学習処理部
７学習モデル
８対応規則テーブル

Claims

文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する項目抽出部と、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析するレイアウト解析部と、
を備え、
前記項目抽出部は、文書画像に対し、当該文書画像における項目名の部分に対応するピクセルを指定した教師データの学習により構築された学習モデル、若しくは、文書画像に対し、当該文書画像における項目名の部分をバウンディングボックスで指定するとともに当該文書画像における項目名の部分に対応するピクセルを指定した教師データによる学習により構築された学習モデルを用いて、前記文書画像の入力に応じて前記文書画像における前記項目領域の抽出と属性とを出力する、
レイアウト解析装置。
文書上に手書き文字で記入された文字列を含む手書き文字領域を文書画像中から抽出する手書き領域抽出部をさらに有し、
前記レイアウト解析部は、前記手書き文字領域に対して、前記項目抽出部によって抽出された属性を割り当てる、
請求項１に記載されたレイアウト解析装置。
前記レイアウト解析部は、予め設定された対応規則にしたがって、前記項目領域と、当該項目領域から所定距離内に位置する前記手書き文字領域とを対応付けて前記項目領域の属性を割り当てる、
請求項２に記載されたレイアウト解析装置。
前記項目抽出部は、前記属性の分類確度を出力し
前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去するフィルタ処理部をさらに有する、
請求項１から３のいずれか１項に記載されたレイアウト解析装置。
前記レイアウト解析部は、文書画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示する
請求項１から４のいずれか１項に記載されたレイアウト解析装置。
文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する項目抽出部と、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析し、文書画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示するレイアウト解析部と、
を備え、
前記レイアウト解析部は、複数の項目領域と文字領域とが所定距離内に位置し、当該文字領域に前記各項目領域の属性が割り当てられる場合、当該文字領域の属性の候補として前記各項目領域の属性をユーザに提示する、
レイアウト解析装置。
文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する第１のステップと、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析する第２のステップと、
を有し、
前記第１のステップは、文書画像に対し、当該文書画像における項目名の部分に対応するピクセルを指定した教師データの学習により構築された学習モデル、若しくは、文書画像に対し、当該文書画像における項目名の部分をバウンディングボックスで指定するとともに当該文書画像における項目名の部分に対応するピクセルを指定した教師データによる学習により構築された学習モデルを用いて、前記文書画像の入力に応じて前記文書画像における前記項目領域の抽出と属性とを出力する、
処理をコンピュータに実行させる、レイアウト解析プログラム。
文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する第１のステップと、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析する第２のステップと、
を有し、
前記第１のステップは、文書画像に対し、当該文書画像における項目名の部分に対応するピクセルを指定した教師データの学習により構築された学習モデル、若しくは、文書画像に対し、当該文書画像における項目名の部分をバウンディングボックスで指定するとともに当該文書画像における項目名の部分に対応するピクセルを指定した教師データによる学習により構築された学習モデルを用いて、前記文書画像の入力に応じて前記文書画像における前記項目領域の抽出と属性とを出力する、
レイアウト解析方法。