JP7396568B2 - Form layout analysis device, its analysis program, and its analysis method - Google Patents
Form layout analysis device, its analysis program, and its analysis method Download PDFInfo
- Publication number
- JP7396568B2 JP7396568B2 JP2020551133A JP2020551133A JP7396568B2 JP 7396568 B2 JP7396568 B2 JP 7396568B2 JP 2020551133 A JP2020551133 A JP 2020551133A JP 2020551133 A JP2020551133 A JP 2020551133A JP 7396568 B2 JP7396568 B2 JP 7396568B2
- Authority
- JP
- Japan
- Prior art keywords
- item
- layout
- area
- attributes
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 58
- 238000000605 extraction Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
本発明は、帳票のレイアウトを解析する帳票レイアウト解析装置、その解析プログラムおよびその解析方法に関する。 The present invention relates to a form layout analysis device for analyzing the layout of a form, an analysis program thereof, and an analysis method thereof.
従来、帳票を画像データとして取り込んで、画像処理によって帳票のレイアウトを解析する手法が知られている。例えば、特許文献1には、文書のレイアウトを規定するテンプレートを用いて、文書画像中の文書構造を解析する文書編集出力装置が開示されている。また、特許文献2には、フィールドのデータ型を学習機能により半自動的に設定可能とすることで、より詳細なOCR制約条件を容易に課すことができ、これによって、文字認識の精度を向上させる情報処理装置が開示されている。具体的には、入力された帳票画像に対応するフォーマット情報および制約条件がフォーマットモデル記憶部から読み出され、このフォーマット情報によって特定されたフィールドにおける帳票画像の記入値がフィールドの制約条件の範囲内で文字認識される。
Conventionally, a method is known in which a form is captured as image data and the layout of the form is analyzed through image processing. For example,
しかしながら、上述した特許文献1および特許文献2の解析手法は、帳票のテンプレートやフォーマットがシステムに予め登録されていることを前提とするため、システムに登録されていない未知の帳票には対応できない。
However, the above-mentioned analysis methods of
そこで、本発明は、システムに登録されていない未知の帳票のレイアウト解析を可能にすることを目的とする。 Therefore, an object of the present invention is to enable layout analysis of unknown forms that are not registered in the system.
かかる課題を解決すべく、第1の発明は、項目抽出部と、レイアウト解析部とを有し、帳票のレイアウトを解析する帳票レイアウト解析装置を提供する。項目抽出部は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。レイアウト解析部は、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する。 In order to solve this problem, a first invention provides a form layout analysis device that includes an item extraction section and a layout analysis section and analyzes the layout of a form. The item extraction unit uses a deep learning-based object detection algorithm to extract item regions that include item names printed in type on the form, and individually classifies the item regions included in the form image with attribute classification. Extract. The layout analysis unit analyzes the layout of the form image based on the position of the item area on the form image and its attributes.
ここで、第1の発明において、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する手書き領域抽出部をさらに設けてもよい。この場合、レイアウト解析部は、手書き領域抽出部によって抽出された手書き文字領域のそれぞれに対して、項目抽出部によって分類された属性のいずれかを割り当てることが好ましい。また、レイアウト解析部は、予め設定された対応規則にしたがって、項目領域と、その近傍に位置する手書き文字領域とを対応付けた上で、手書き文字領域に対して、これに対応付けられた項目領域の属性を割り当ててもよい。 Here, in the first invention, a handwritten region extracting section may be further provided that individually extracts handwritten character regions including character strings written in handwritten characters on the form from the document image. In this case, it is preferable that the layout analysis section assigns one of the attributes classified by the item extraction section to each of the handwritten character regions extracted by the handwritten region extraction section. Further, the layout analysis unit associates the item area with a handwritten character area located in the vicinity thereof according to a preset correspondence rule, and then associates the item area with the handwritten character area located in the vicinity thereof. Attributes of the area may also be assigned.
第1の発明において、項目抽出部は、物体検出アルゴリズムとして、帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、項目領域の抽出と、その属性の分類とをまとめて行うことが好ましい。この場合、項目抽出部は、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、項目領域の抽出と、その属性の分類とを行ってもよい。 In the first invention, the item extraction unit inputs the form image into one neural network as an object detection algorithm, and extracts the item area and classifies its attributes at the same time using a regression approach. It is preferable to do so. In this case, the item extraction unit refers to a learning model constructed by supervised learning using teacher data that is a pair of an item image including an item name expressed in print and an attribute of the item image. It is also possible to extract item areas and classify their attributes.
第1の発明において、項目抽出部は、属性の分類確度を出力してもよい。この場合、分類確度が所定のしきい値よりも小さい属性をノイズとして除去するフィルタ処理部をさらに設けることが好ましい。 In the first invention, the item extraction unit may output the classification accuracy of the attribute. In this case, it is preferable to further provide a filter processing unit that removes attributes whose classification accuracy is smaller than a predetermined threshold value as noise.
第1の発明において、レイアウト解析部は、帳票画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示してもよい。 In the first invention, when a plurality of analysis results are obtained regarding the layout of the form image, the layout analysis section may present the plurality of analysis results to the user as layout candidates.
第2の発明は、以下のステップを有する処理をコンピュータに実行させ、帳票のレイアウトを解析する帳票レイアウト解析プログラムを提供する。第1のステップでは、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。第2のステップでは、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する。 A second invention provides a form layout analysis program that causes a computer to execute processing having the following steps to analyze the layout of a form. In the first step, the item regions containing the item names printed in type on the form are extracted, and an object detection algorithm based on deep learning is used to extract the item regions contained in the form image individually with attribute classification. Extract to. In the second step, the layout of the form image is analyzed based on the position of the item area on the form image and its attributes.
ここで、第2の発明において、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する第3のステップをさらに設けてもよい。この場合、第2のステップは、第3のステップで抽出された手書き文字領域のそれぞれに対して、第1のステップで分類された属性のいずれかを割り当てることが好ましい。また、第2のステップは、予め設定された対応規則にしたがって、項目領域と、その近傍に位置する手書き文字領域とを対応付けた上で、手書き文字領域に対して、これに対応付けられた項目領域の属性を割り当ててもよい。 Here, in the second invention, a third step may be further provided in which handwritten character areas including character strings written on the form in handwritten characters are individually extracted from the form image. In this case, the second step preferably assigns one of the attributes classified in the first step to each of the handwritten character regions extracted in the third step. In addition, in the second step, the item area and the handwritten character area located in the vicinity thereof are associated with each other according to a preset correspondence rule, and then the handwritten character area is associated with the handwritten character area. Attributes of item areas may also be assigned.
第2の発明において、第1のステップは、物体検出アルゴリズムとして、帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、項目領域の抽出と、その属性の分類とをまとめて行うことが好ましい。この場合、第1のステップは、活字で表された項目名を含む項目画像と、この項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、項目領域の抽出と、その属性の分類とを行ってもよい。 In the second invention, the first step is to input the form image into one neural network as an object detection algorithm, and use a regression approach to extract item areas and classify their attributes. It is preferable to do so. In this case, the first step is to refer to a learning model constructed by supervised learning using training data that is a pair of item images containing printed item names and attributes of this item image. , extraction of item areas and classification of their attributes may be performed.
第2の発明において、第1のステップは、属性の分類確度を出力するステップを含んでいてもよい。この場合、分類確度が所定のしきい値よりも小さい属性をノイズとして除去する第4のステップをさらに設けることが好ましい。 In the second invention, the first step may include a step of outputting the classification accuracy of the attribute. In this case, it is preferable to further provide a fourth step of removing attributes whose classification accuracy is smaller than a predetermined threshold value as noise.
第2の発明において、第2のステップは、帳票画像のレイアウトについて複数の解析結果が得られた場合、複数の解析結果をレイアウトの候補としてユーザに提示するステップを含んでいてもよい。 In the second invention, the second step may include, when a plurality of analysis results are obtained regarding the layout of the form image, a step of presenting the plurality of analysis results as layout candidates to the user.
第3の発明は、以下のステップを有し、帳票のレイアウトを解析する帳票レイアウト解析方法を提供する。第1のステップでは、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。第2のステップでは、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する。 A third invention provides a form layout analysis method that includes the following steps and analyzes the layout of a form. In the first step, the item regions containing the item names printed in type on the form are extracted, and an object detection algorithm based on deep learning is used to extract the item regions contained in the form image individually with attribute classification. Extract to. In the second step, the layout of the form image is analyzed based on the position of the item area on the form image and its attributes.
ここで、第3の発明において、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する第3のステップをさらに設けてもよい。この場合、第2のステップは、第3のステップで抽出された手書き文字領域のそれぞれに対して、第1のステップで分類された属性のいずれかを割り当てることが好ましい。また、第2のステップは、予め設定された対応規則にしたがって、項目領域と、その近傍に位置する手書き文字領域とを対応付けた上で、手書き文字領域に対して、これに対応付けられた項目領域の属性を割り当ててもよい。 Here, in the third invention, a third step of individually extracting handwritten character regions including character strings written in handwritten characters on the form from the form image may be further provided. In this case, the second step preferably assigns one of the attributes classified in the first step to each of the handwritten character regions extracted in the third step. In addition, in the second step, the item area and the handwritten character area located in the vicinity thereof are associated with each other according to a preset correspondence rule, and then the handwritten character area is associated with the handwritten character area. Attributes of item areas may also be assigned.
第3の発明において、第1のステップは、物体検出アルゴリズムとして、帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、項目領域の抽出と、その属性の分類とをまとめて行うことが好ましい。この場合、第1のステップは、活字で表された項目名を含む項目画像と、この項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、項目領域の抽出と、その属性の分類とを行ってもよい。 In the third invention, the first step is to input the form image into one neural network as an object detection algorithm, and use a regression approach to extract item areas and classify their attributes. It is preferable to do so. In this case, the first step is to refer to a learning model constructed by supervised learning using training data that is a pair of item images containing printed item names and attributes of this item image. , extraction of item areas and classification of their attributes may be performed.
第3の発明において、第1のステップは、属性の分類確度を出力するステップを含んでいてもよい。この場合、分類確度が所定のしきい値よりも小さい属性をノイズとして除去する第4のステップをさらに設けることが好ましい。 In the third invention, the first step may include a step of outputting the classification accuracy of the attribute. In this case, it is preferable to further provide a fourth step of removing attributes whose classification accuracy is smaller than a predetermined threshold value as noise.
第3の発明において、第2のステップは、帳票画像のレイアウトについて複数の解析結果が得られた場合、複数の解析結果をレイアウトの候補としてユーザに提示するステップを含んでいてもよい。 In the third invention, the second step may include, when a plurality of analysis results are obtained regarding the layout of the form image, a step of presenting the plurality of analysis results as layout candidates to the user.
本発明によれば、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、システムに登録されていない未知の帳票であっても、レイアウト解析を行うことが可能になる。 According to the present invention, item areas included in a form image and their attributes are acquired using an object detection algorithm based on deep learning. From this information, it is possible to specify what information is written at which position in the form image. This makes it possible to perform layout analysis even for unknown forms that are not registered in the system.
図1は、本実施形態に係る帳票レイアウト解析装置のブロック図である。この帳票レイアウト解析装置1は、申請書や契約書などのような手書き文字列が記入された帳票について、そのレイアウトを解析し、帳票のどこに何が記載されているのかを特定する。解析対象となる帳票は未知なもの、すなわち、システムにレイアウトが登録されていない帳票であって、例えば、手書き帳票の光学的文字認識(OCR)に先立つ前処理として行われる。帳票レイアウト解析装置1は、項目抽出部2と、手書き領域抽出部3と、フィルタ処理部4と、レイアウト解析部5と、学習処理部6と、学習モデル7と、対応規則テーブル8とを主体に構成されている。
FIG. 1 is a block diagram of a form layout analysis device according to this embodiment. This form
項目抽出部2は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。例えば、帳票画像中に「氏名」や「住所」などの画像領域が存在する場合、それぞれの画像領域が項目領域として抽出されると共に、それぞれの項目領域に対して「name」や「address」といった属性が付加される。項目領域の抽出は、深層学習による物体検出アルゴリズムを用いて行われ、このアルゴリズムに基づき構築された学習モデル7を参照して、項目領域の抽出と、その属性の分類とが行われる。また、分類された属性については、その分類確度も算出・出力される。
The
図2は、物体検出アルゴリズムの説明図である。同図(a)に示すように、顔検出などで用いられる従来の検出手法では、入力に対する処理として、領域探索、特徴量抽出、機械学習という3つの段階に別れている。すなわち、領域探索が行われ、検出する物体に合わせて特徴抽出が行われ、適切な機械学習手法が選択される。この検出手法では、物体検出を3つのアルゴリズムに別けて実現される。特徴量についても、基本的に、検出対象に応じた専用設計になるため特定の対象しか検出できない。そこで、かかる制約を解消すべく、同図(b)および(c)に示すような深層学習による物体検出アルゴリズムが提案された。同図(b)に示すように、R-CNN(Regions with Convolutional Neural Network)などでは、深層学習を用いることで特徴量抽出が自動で実現される。これによって、ネットワークの設計だけで、色々な物体に対する柔軟な分類が可能になる。しかしながら、領域探索については別処理として依然として残ることから、領域探索についても深層学習に含めたものが、YOLO(You Only Look Once)やSSD(Single Shot MultiBox Detector)に代表される同図(c)の手法である。本手法では、入力(帳票画像)を一つのニューラルネットワークに入力することで、項目領域の抽出と、その属性の分類とがまとめて行われる。本手法の特徴として、第1に、回帰問題的なアプローチであることが挙げられる。回帰(Regression)とは、データの傾向から数値を直接予測するアプローチをいい、領域を決めてからそれが何かを分類するのではなく、物体の座標と大きさが直接予測される。第2に、一つのネットワークで処理が完結することである。データ入力した後は深層学習だけで最後(出力結果)までいってしまうという意味で、「End-to-End」の処理であるともいえる。本実施形態は、帳票上の項目抽出を深層学習による物体検出アルゴリズムを用いて行うことに特徴があり、特に、YOLOやSSDに代表される同図(c)の手法を採用するものである。 FIG. 2 is an explanatory diagram of the object detection algorithm. As shown in FIG. 5A, in the conventional detection method used for face detection, etc., processing for input is divided into three stages: area search, feature extraction, and machine learning. That is, a region search is performed, features are extracted according to the object to be detected, and an appropriate machine learning method is selected. In this detection method, object detection is realized using three algorithms. As for feature quantities, they are basically designed specifically for the detection target, so only specific targets can be detected. Therefore, in order to eliminate such constraints, an object detection algorithm using deep learning as shown in FIGS. 2(b) and 3(c) has been proposed. As shown in FIG. 6(b), features such as R-CNN (Regions with Convolutional Neural Network) automatically perform feature extraction using deep learning. This allows flexible classification of various objects just by designing the network. However, since region search still remains as a separate process, there are some methods that include region search in deep learning, such as YOLO (You Only Look Once) and SSD (Single Shot MultiBox Detector), as shown in the same figure (c). This is the method. In this method, by inputting an input (form image) into one neural network, extraction of item areas and classification of their attributes are performed at the same time. The first feature of this method is that it is a regression-like approach. Regression is an approach that directly predicts numerical values from trends in data. Rather than determining an area and then classifying what it is, the coordinates and size of an object are directly predicted. Second, processing can be completed in one network. It can be said that it is an "end-to-end" process in the sense that after inputting the data, deep learning goes all the way to the end (output results). The present embodiment is characterized in that items on a form are extracted using an object detection algorithm based on deep learning, and in particular, the method shown in FIG.
例えば、YOLOの処理は、概ね以下のようになる。まず、入力画像がS*Sの領域に分割される。つぎに、それぞれの領域内における物体のクラス確率が導出される。そして、B個(ハイパーパラメータ)のバウンディングボックスのパラメータ(x,y,height,width)と信頼度(confidence)とが算出される。バウンディングボックスとは、物体領域の外接四角形であり、信頼度とは、予測と正解のバウンディングボックスの一致度である。物体検出には、物体のクラス確率と、各バウンディングボックスの信頼度との積が用いられる。図3は、YOLOのネットワーク構成図である。YOLOにおいて、帳票画像はCNN(Convolutional Neural Network)層に入力されると共に、複数段の全結合層を経て結果が出力される。出力は、S*S個に分割した画像領域と、信頼度(分類確度)を含むバウンディングボックス(BB)の5パラメータと、クラス数(項目の属性)とを含む。 For example, YOLO processing is generally as follows. First, the input image is divided into S*S regions. Next, the class probabilities of objects within each region are derived. Then, parameters (x, y, height, width) and confidence of B bounding boxes (hyperparameters) are calculated. The bounding box is a circumscribed rectangle of the object region, and the reliability is the degree of agreement between the predicted and correct bounding boxes. For object detection, the product of the object's class probability and the reliability of each bounding box is used. FIG. 3 is a diagram of the YOLO network configuration. In YOLO, a form image is input to a CNN (Convolutional Neural Network) layer, and the result is output after passing through multiple stages of fully connected layers. The output includes an image region divided into S*S pieces, five parameters of a bounding box (BB) including reliability (classification accuracy), and the number of classes (item attributes).
手書き領域抽出部3は、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する。手書き文字と活字との判別法としては、様々なものが提案されており、任意の手法を用いることができる。例えば、文字画像を実空間で解析する手法を用いてもよい。具体的には、文字の水平方向および垂直方向のヒストグラムを取ることで文字列を抽出し、その基線の直線度を評価することによって手書き文字列を抽出する手法や、文字を構成する線分の直線性と文字の対称性とを評価することによって手書き文字列を抽出する手法といった如くである。その際、文字列を構成する個々の手書き文字の大きさのバラツキや、手書き文字間の近接の度合いなどを考慮してもよい。実空間上の解析に代えて、文字画像を周波数空間で解析する手法を用いてもよい。また、手書き領域抽出部3においては、画素単位で「活字・印字」、「手書き」、「罫線」、「判子」、「背景」を識別するモデルを用いてもよい。その際、分類器として、Semantic Segmentationのような手法を用いてもよい。
The handwritten
フィルタ処理部4は、項目抽出部2によって抽出された複数の属性のうち、信頼度(分類確度)が所定のしきい値よりも小さい属性については、ノイズとみなして除去する。フィルタ処理部4によってフィルタリングされた項目領域に関する情報は、レイアウト解析部5に出力される。
Among the multiple attributes extracted by the
レイアウト解析部5は、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析し、どの属性に関する情報がどこに記入されているのかを特定する。具体的には、手書き領域抽出部3によって抽出された手書き文字領域のそれぞれに対して、項目抽出部2によって分類された属性のいずれかが割り当てられる。基本的に、帳票画像上において、ある項目領域と、ある手書き文字領域とが近接、すなわち、両者の距離が所定のしきい値以下である場合、両者の対応付けが行われ、この手書き文字領域に対して、この項目領域の属性が割り当てられる。例えば、「name」という属性を有する項目領域の近傍に手書き文字領域が存在する場合、この手書き文字領域に対して「name」という属性を割り当てるといった如くである。また、項目領域と手書き文字領域との具体的な対応規則については、対応規則テーブル8において予め設定・定義されている。この対応規則は、項目領域の右近傍に手書き文字領域が存在する場合に両者を対応付ける、あるいは、項目領域の下近傍に手書き文字領域が存在する場合に両者を対応付けるといった基本的なもの以外に、表中に存在する手書き文字領域の取り扱いなどについても定義している。
The
学習処理部6は、活字で表された項目名を含む項目画像(部分画像)と、この項目画像の属性との対である教師データを用いた教師あり学習によって学習モデル7を構築する。項目抽出部2によって参照される学習モデル7は、教師データの増大等に伴い、事後的に再構築することができる。
The
以下、以下、図5から図8を参照しつつ、帳票のレイアウト解析の流れについて詳述する。図4は、帳票レイアウト解析装置1によって実行されるレイアウト解析のフローチャートである。なお、この帳票レイアウト解析装置1は、コンピュータをブロック2~6として機能・動作させるコンピュータプログラム(帳票レイアウト解析プログラム)をコンピュータにインストールすることによって等価的に実現することも可能である。
The flow of document layout analysis will be described in detail below with reference to FIGS. 5 to 8. FIG. 4 is a flowchart of layout analysis performed by the form
まず、ステップ1において、解析対象とする帳票画像が入力される。図5は、帳票画像の一例として「振込依頼書」を示す図である。この帳票は、「氏名」、「所属」、「金額」、「銀行名」等の項目名が帳票上に活字で印刷されている。また、それぞれの項目名の近傍に位置する空欄には、項目名に対応する事項が手書きで記入されている。
First, in
つぎに、ステップ2において、項目抽出部2によって、帳票画像中に存在する項目領域が属性付きで個別に抽出される。図6に示すように、印字列「フリガナ」については、これを含む矩形領域が項目領域a1として抽出され、その属性「phonetic」と分類確率とが付与される。印字列「所属」については、これを含む矩形領域が項目領域a2として抽出され、その属性「department」と分類確率とが付与される。印字列「氏名」について、これを含む矩形領域が項目領域a3として抽出され、その属性「name」と分類確率とが付与される。印字列「金額」については、これを含む矩形領域が項目領域a4として抽出され、その属性「amount」と分類確率とが付与される。印字列「銀行目」については、これを含む矩形領域が項目領域a5として抽出され、その属性「bank」と分類確率とが付与される。印字列「支店名」について、これを含む矩形領域が項目領域a6として抽出され、その属性「branch」と分類確率とが付与される。印字列「預金種別」については、これを含む矩形領域が項目領域a7として抽出され、その属性「account type」と分類確率とが付与される。印字列「口座番号」については、これを含む矩形領域が項目領域a8として抽出され、その属性「account number」と分類確率とが付与される。
Next, in
つぎに、ステップ3において、手書き領域抽出部4によって、帳票画像中に存在する手書き文字領域が個別に抽出される。図7に示すように、手書き文字列「トッキョ イチロウ」については、これを含む矩形領域が手書き文字領域b1として抽出される。手書き文字列「知的財産部」については、これを含む矩形領域が手書き文字領域b2として抽出される。手書き文字列「特許 一郎」については、これを含む矩形領域が手書き文字領域b3として抽出される。手書き文字列「6,500」については、これを含む矩形領域が手書き文字領域b4として抽出される。手書き文字列「三井住友」については、これを含む矩形領域が手書き文字領域b5として抽出される。手書き文字列「銀座」については、これを含む矩形領域が手書き文字領域b6として抽出される。手書き文字列「普通」については、これを含む矩形領域が手書き文字領域b7として抽出される。手書き文字列「19620123」については、これを含む矩形領域が手書き文字領域b8として抽出される。
Next, in
つぎに、ステップ4において、フィルタ処理部4によって、項目抽出部2にて抽出された属性のフィルタリングが行われ、ノイズとみなされた属性が除去される。
Next, in
つぎに、ステップ5において、レイアウト解析部5によって、帳票画像のレイアウトが解析される。図8に示すように、手書き文字領域b1については、項目領域a1の右近傍に位置しているため、項目領域a1の属性「phonetic」が割り当てられる。手書き文字領域b2については、項目領域a2の右近傍に位置しているため、項目領域a2の属性「department」が割り当てられる。手書き文字領域b3については、項目領域a3の右近傍に位置しているため、項目領域a3の属性「name」が割り当てられる。手書き文字領域b4については、項目領域a4の右近傍に位置しているため、項目領域a4の属性「amount」が割り当てられる。手書き文字領域b5については、項目領域a5の下近傍に位置しているため、項目領域a5の属性「bank」が割り当てられる。手書き文字領域b6については、項目領域a6の下近傍に位置しているため、項目領域a6の属性「branch」が割り当てられる。手書き文字領域b7については、項目領域a7の下近傍に位置しているため、項目領域a7の属性「account type」が割り当てられる。手書き文字領域b8については、項目領域a8の下近傍に位置しているため、項目領域a8の属性「account number」が割り当てられる。
Next, in
最後に、ステップ6において、図8に示したような帳票画像のレイアウトの解析結果が出力され、これによって、一連の処理が終了する。なお、以上の処理において、ステップ2およびステップ3は、互いに独立しているので、その実行順序は逆であってもよく、また、同時並行的に実行してもよい。
Finally, in
なお、ステップ5におけるレイアウトの解析によって複数の解析結果が得られた場合、その適格性をユーザの判断に委ねるために、これらの解析結果をレイアウトの候補としてユーザに提示してもよい。このようなケースとしては、以下の2つが考えられる。第1は、図9に示すように、帳票画像上の1つの項目領域aに対して複数の属性1,2が割り当てられているケースである。この場合、この項目領域aの近傍に位置する手書き領域bの属性として、属性1および属性2の双方が考えられるため、手書き文字領域bの属性の候補として、属性1および属性2の双方がユーザに提示される。第2は、図10に示すように、ある手書き文字領域bに対して複数の項目領域a1,a2が近接しているケースである。この場合、手書き領域bの属性として、項目領域a1の属性3および項目領域a2の属性4の双方が考えられるため、手書き文字領域bの属性の候補として、属性3および属性4の双方がユーザに提示される。
Note that if a plurality of analysis results are obtained by the layout analysis in
このように、本実施形態によれば、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、システムに登録されていない未知の帳票であっても、レイアウト解析を行うことが可能になる。特に、深層学習による物体検出アルゴリズムとして、YOLOやSSDなどのような、帳票画像中の項目領域の抽出と、その属性の分類とを一つのニューラルネットワークでまとめて行う手法を用いることで、様々な対象を高速で検出することが可能となる。 As described above, according to the present embodiment, item regions included in a form image and their attributes are acquired using an object detection algorithm based on deep learning. From this information, it is possible to specify what information is written at which position in the form image. This makes it possible to perform layout analysis even for unknown forms that are not registered in the system. In particular, as an object detection algorithm using deep learning, it is possible to use a method such as YOLO or SSD that extracts item areas in a form image and classifies its attributes using a single neural network. It becomes possible to detect the target at high speed.
また、本実施形態によれば、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出し、手書き文字領域のそれぞれに対して、項目抽出部2によって分類された属性のいずれかを割り当てる。これにより、手書き文字列が記入された帳票についても、レイアウト解析を行うことが可能になる。
Further, according to the present embodiment, handwritten character areas including character strings written in handwritten characters on a form are individually extracted from the form image, and each of the handwritten character areas is classified by the
1 帳票レイアウト解析装置
2 項目抽出部
3 手書き領域抽出部
4 フィルタ処理部
5 レイアウト解析部
6 学習処理部
7 学習モデル
8 対応規則テーブル1 Form
Claims (8)
帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する項目抽出部と、
前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析するレイアウト解析部と、
を有し、
前記項目抽出部は、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行う
ことを特徴とする帳票レイアウト解析装置。 In a form layout analysis device that analyzes the layout of a form,
an item extraction unit that individually extracts item areas included in a form image with attribute classification, with an item area including an item name printed in type on the form as an extraction target;
a layout analysis unit that analyzes the layout of the form image based on the position of the item area on the form image and its attributes;
has
The item extraction unit extracts the item by referring to a learning model constructed by supervised learning using teacher data that is a pair of an item image including an item name expressed in print and an attribute of the item image. Extract regions and classify their attributes
A form layout analysis device characterized by:
前記レイアウト解析部は、前記手書き領域抽出部によって抽出された手書き文字領域のそれぞれに対して、前記項目抽出部によって分類された属性のいずれかを割り当てる
ことを特徴とする請求項1に記載された帳票レイアウト解析装置。 further comprising a handwritten region extraction unit that individually extracts handwritten character regions including character strings written in handwritten characters on the form from the form image,
The layout analysis unit assigns one of the attributes classified by the item extraction unit to each of the handwritten character areas extracted by the handwriting area extraction unit. Form layout analysis device.
ことを特徴とする請求項2に記載された帳票レイアウト解析装置。 The layout analysis unit associates the item area with the handwritten character area located in the vicinity thereof according to a preset correspondence rule, and then associates the item area with the handwritten character area located in the vicinity thereof. 3. The form layout analysis device according to claim 2, wherein attributes of the item area are assigned.
ことを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。 4. The item extraction unit extracts the item area and classifies its attributes at the same time by inputting the form image into one neural network. A form layout analysis device described in
前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去するフィルタ処理部をさらに有する
ことを特徴とする請求項1から4のいずれかに記載された帳票レイアウト解析装置。 The item extraction unit outputs the classification accuracy of the attribute,
5. The form layout analysis device according to claim 1, further comprising a filter processing unit that removes the attributes whose classification accuracy is smaller than a predetermined threshold value as noise.
ことを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。 According to any one of claims 1 to 3, the layout analysis unit presents the plurality of analysis results as layout candidates to the user when a plurality of analysis results are obtained regarding the layout of the form image. A form layout analysis device.
帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する第1のステップと、
前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する第2のステップと、
を有し、
前記第1のステップは、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行う
処理をコンピュータに実行させることを特徴とする帳票レイアウト解析プログラム。 In a form layout analysis program that analyzes the layout of a form,
a first step of individually extracting item areas included in the form image with attribute classification , with item areas including item names printed in type on the form as extraction targets;
a second step of analyzing the layout of the form image based on the position of the item area on the form image and its attributes;
has
The first step refers to a learning model constructed by supervised learning using training data that is a pair of an item image including an item name expressed in print and an attribute of the item image. Extract item areas and classify their attributes
A form layout analysis program that causes a computer to perform processing.
帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する第1のステップと、
前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する第2のステップと、
を有し、
前記第1のステップは、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行う
ことを特徴とする帳票レイアウト解析方法。
In a form layout analysis method that analyzes the layout of a form,
a first step of individually extracting item areas included in the form image with attribute classification , with item areas including item names printed in type on the form as extraction targets;
a second step of analyzing the layout of the form image based on the position of the item area on the form image and its attributes;
has
The first step refers to a learning model constructed by supervised learning using training data that is a pair of an item image including an item name expressed in print and an attribute of the item image. Extract item areas and classify their attributes
A form layout analysis method characterized by the following.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190112 | 2018-10-05 | ||
JP2018190112 | 2018-10-05 | ||
PCT/JP2019/039412 WO2020071558A1 (en) | 2018-10-05 | 2019-10-04 | Business form layout analysis device, and analysis program and analysis method therefor |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020071558A1 JPWO2020071558A1 (en) | 2021-10-07 |
JPWO2020071558A5 JPWO2020071558A5 (en) | 2022-10-07 |
JP7396568B2 true JP7396568B2 (en) | 2023-12-12 |
Family
ID=70055833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020551133A Active JP7396568B2 (en) | 2018-10-05 | 2019-10-04 | Form layout analysis device, its analysis program, and its analysis method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7396568B2 (en) |
WO (1) | WO2020071558A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021170221A (en) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | Learned model, site determination program and site determination system |
JP7478345B2 (en) | 2020-05-12 | 2024-05-07 | 京セラドキュメントソリューションズ株式会社 | Report data acquisition system and report data acquisition program |
CN111709339B (en) * | 2020-06-09 | 2023-09-19 | 北京百度网讯科技有限公司 | Bill image recognition method, device, equipment and storage medium |
JP7452809B1 (en) | 2023-08-09 | 2024-03-19 | ファーストアカウンティング株式会社 | Information processing device, information processing method and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009230498A (en) | 2008-03-24 | 2009-10-08 | Oki Electric Ind Co Ltd | Business form processing method, program, device, and system |
JP2017010069A (en) | 2015-06-16 | 2017-01-12 | シャープ株式会社 | Information processor |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231291A (en) * | 1996-02-27 | 1997-09-05 | Mitsubishi Electric Corp | Slip reading method and device |
-
2019
- 2019-10-04 JP JP2020551133A patent/JP7396568B2/en active Active
- 2019-10-04 WO PCT/JP2019/039412 patent/WO2020071558A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009230498A (en) | 2008-03-24 | 2009-10-08 | Oki Electric Ind Co Ltd | Business form processing method, program, device, and system |
JP2017010069A (en) | 2015-06-16 | 2017-01-12 | シャープ株式会社 | Information processor |
Non-Patent Citations (1)
Title |
---|
陳 放歌 外,案内標識のリアルタイム検出および自動生成した学習データに基づく内容認識に関する研究,第23回 画像センシングシンポジウム,2017年12月31日 |
Also Published As
Publication number | Publication date |
---|---|
WO2020071558A1 (en) | 2020-04-09 |
JPWO2020071558A1 (en) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
JP7396568B2 (en) | Form layout analysis device, its analysis program, and its analysis method | |
JP5134628B2 (en) | Media material analysis of consecutive articles | |
CN109685065B (en) | Layout analysis method and system for automatically classifying test paper contents | |
JP2008159056A (en) | Classification through generative model of feature occurring in image | |
Fabrizio et al. | Textcatcher: a method to detect curved and challenging text in natural scenes | |
CN110413825B (en) | Street-clapping recommendation system oriented to fashion electronic commerce | |
CN109389050B (en) | Method for identifying connection relation of flow chart | |
US11600088B2 (en) | Utilizing machine learning and image filtering techniques to detect and analyze handwritten text | |
Slavin | Using special text points in the recognition of documents | |
He et al. | Aggregating local context for accurate scene text detection | |
WO2017092574A1 (en) | Mixed data type data based data mining method | |
JPWO2020071558A5 (en) | ||
CN114463767A (en) | Credit card identification method, device, computer equipment and storage medium | |
Bhattacharya et al. | Understanding contents of filled-in Bangla form images | |
Mörzinger et al. | Visual Structure Analysis of Flow Charts in Patent Images. | |
JP6896260B1 (en) | Layout analysis device, its analysis program and its analysis method | |
Das et al. | Hand-written and machine-printed text classification in architecture, engineering & construction documents | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
CN112241470A (en) | Video classification method and system | |
Baek et al. | TRACE: Table Reconstruction Aligned to Corner and Edges | |
CN114359912B (en) | Software page key information extraction method and system based on graph neural network | |
Tran et al. | A deep learning-based system for document layout analysis | |
Sarkar et al. | Text line extraction from handwritten document pages based on line contour estimation | |
Duth et al. | Recognition of hand written and printed text of cursive writing utilizing optical character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20210714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220929 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7396568 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |