JP2021125040A - Document sorting system, document sorting method and program - Google Patents
Document sorting system, document sorting method and program Download PDFInfo
- Publication number
- JP2021125040A JP2021125040A JP2020018985A JP2020018985A JP2021125040A JP 2021125040 A JP2021125040 A JP 2021125040A JP 2020018985 A JP2020018985 A JP 2020018985A JP 2020018985 A JP2020018985 A JP 2020018985A JP 2021125040 A JP2021125040 A JP 2021125040A
- Authority
- JP
- Japan
- Prior art keywords
- subspecies
- type
- target
- classification
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 230000013016 learning Effects 0.000 claims description 85
- 238000007621 cluster analysis Methods 0.000 claims description 28
- 238000013459 approach Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012015 optical character recognition Methods 0.000 description 66
- 238000012545 processing Methods 0.000 description 15
- 230000005856 abnormality Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000002360 preparation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007417 hierarchical cluster analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、帳票仕分システム、帳票仕分方法、及びプログラムに関する。 The present invention relates to a form sorting system, a form sorting method, and a program.
従来、様々な業界において、様々な帳票が利用されている。例えば、紙の帳票をスキャナ等の読取装置で読み取り、読み取り結果の画像からOCR(Optical Character Reader)技術により文字認識を行うことによりテキスト情報を得ることが行われている。これにより、データ入力などの事務処理を効率化させることが図られている。 Conventionally, various forms have been used in various industries. For example, text information is obtained by reading a paper form with a reading device such as a scanner and performing character recognition from the image of the reading result by OCR (Optical Character Reader) technology. As a result, paperwork such as data entry can be made more efficient.
一般に、帳票は、定型帳票と、準定型帳票と、非定型帳票とに分類される。定型帳票は、項目、記入枠の位置及び大きさが定められており、様式が一つに固定されている帳票である。準定型帳票は、項目は定められているが、記入枠の位置や大きさが定められておらず、異なる様式が複数存在する帳票である。非定型帳票は、項目、記入枠の位置及び大きさが定まった様式が存在しない帳票である。 Generally, forms are classified into standard forms, semi-standard forms, and non-standard forms. A standard form is a form in which items, the position and size of an entry frame are defined, and the format is fixed to one. A semi-standard form is a form in which items are defined, but the position and size of the entry frame are not defined, and there are multiple different formats. An atypical form is a form in which there is no format in which items, the position and size of the entry frame are fixed.
つまり、帳票には、準定型帳票のように、同じ種別の帳票であっても、微妙に異なる様式の帳票(以下、亜種ともいう)が複数存在するという現状がある。このような、様々な亜種が混在していると、ある様式の帳票はOCRによる文字認識ができるが、別の微妙に異なる様式の帳票はOCRによる文字認識ができないといった事象が生じ、帳票のOCR利用の妨げになっていた。 In other words, there are a plurality of forms (hereinafter, also referred to as subspecies) having slightly different formats even if they are of the same type, such as semi-standard forms. When various variants are mixed in this way, a form in which one form can be recognized by OCR, but another form in a slightly different form cannot be recognized by OCR. It was a hindrance to the use of OCR.
この対策として、特許文献1には、OCR文字認識用に定義した定義体の帳票レイアウトを、対象の帳票画像から抽出した罫線レイアウトに応じて補正することにより、様式が類似している帳票群に対して1つの定義体で文字認識を行う技術が開示されているが可能となる。 As a countermeasure, in Patent Document 1, the form layout of the definition program defined for OCR character recognition is corrected according to the ruled line layout extracted from the target form image, so that the forms are similar in style. On the other hand, although a technique for performing character recognition with one definition program is disclosed, it is possible.
しかしながら、亜種の帳票をOCRに読み込ませようとする度に、OCR文字認識の定義体を補正すると、補正の手間がかかってしまう。特に、亜種が混在した大量の帳票を文字認識しようとした場合、特許文献1の技術を適用することは非効率であり現実的でないという問題があった。 However, if the definition program of OCR character recognition is corrected every time the OCR is to read the variant form, it takes time and effort to correct it. In particular, when trying to recognize a large number of forms in which variants are mixed, there is a problem that it is inefficient and impractical to apply the technique of Patent Document 1.
本発明は、上記問題を解決すべくなされたもので、その目的は、OCR文字認識に用いる定義体を補正することなく、OCR文字認識ができるように亜種を仕分けることができる帳票仕分システム、帳票仕分方法、及びプログラムを提供することにある。 The present invention has been made to solve the above problems, and an object of the present invention is a form sorting system capable of sorting variants so that OCR character recognition can be performed without correcting the definition program used for OCR character recognition. The purpose is to provide a form sorting method and a program.
上記問題を解決するために、本発明の一態様は、仕分対象の帳票である対象帳票を取得する取得部と、学習済みモデルを用いて、前記対象帳票の種別を分類する種別分類部と、前記対象帳票の特徴を抽出する特徴抽出部と、前記種別分類部による分類結果、及び前記特徴抽出部による抽出結果に基づき、予め登録された文字認識の定義体に対応する帳票の特徴との類似度合いを用いて機械学習を行うことにより前記対象帳票を分類する亜種分類部と、を備え、前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、ことを特徴とする帳票仕分システムである。 In order to solve the above problem, one aspect of the present invention includes an acquisition unit that acquires a target form, which is a form to be sorted, and a type classification unit that classifies the types of the target form using a learned model. Similarity between the feature extraction unit that extracts the features of the target form and the features of the form corresponding to the pre-registered character recognition definition body based on the classification result by the type classification unit and the extraction result by the feature extraction unit. The trained model is provided with a subspecies classification unit that classifies the target form by performing machine learning using the degree, and the output obtained by inputting the learning form corresponds to the learning form. It is a form sorting system characterized in that it is a model learned to approach the type to be performed and is a model for predicting the type of the input form.
また、本発明の一態様は、仕分対象の帳票である対象帳票を取得する取得部と、前記対象帳票の特徴を抽出する特徴抽出部と、前記特徴抽出部による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票の特徴との類似度合いを用いて機械学習を行うことにより前記対象帳票を分類する亜種分類部と、を備える帳票仕分システムである。 Further, one aspect of the present invention is defined in advance based on an acquisition unit that acquires a target form, which is a form to be sorted, a feature extraction unit that extracts features of the target form, and an extraction result by the feature extraction unit. It is a form sorting system including a subtype classification unit that classifies the target form by performing machine learning using the degree of similarity with the feature of the form corresponding to the definition structure of the character recognition.
また、本発明の一態様は、上記に記載の帳票仕分システムにおいて、前記亜種分類部は、前記特徴抽出部によって抽出された罫線の特徴と、前記定義体に対応する帳票における罫線の特徴との類似度合いを用いたクラスタ分析を行うことにより前記対象帳票を分類する、するようにしてもよい。 Further, one aspect of the present invention is that in the form sorting system described above, the subspecies classification unit has the characteristics of the ruled lines extracted by the feature extraction unit and the characteristics of the ruled lines in the form corresponding to the definition program. The target forms may be classified by performing a cluster analysis using the degree of similarity of.
また、本発明の一態様は、上記に記載の帳票仕分システムにおいて、前記定義体に対応する帳票は、登録用帳票に上記クラスタ分析を行うことにより得られるクラスタ内の帳票から選択された帳票であるようにしてもよい。 Further, in one aspect of the present invention, in the form sorting system described above, the form corresponding to the definition program is a form selected from the forms in the cluster obtained by performing the cluster analysis on the registration form. It may be.
また、本発明の一態様は、上記に記載の帳票仕分システムにおいて、前記亜種分類部による分類結果に基づき、前記定義体に対応する帳票と同一グループに分類された前記対象帳票が、前記定義体を用いた文字認識に適合するか否かを判定する適合判定部を更に備えるようにしてもよい。 Further, in one aspect of the present invention, in the form sorting system described above, the target form classified into the same group as the form corresponding to the definition program based on the classification result by the subspecies classification unit is defined as described above. A conformity determination unit for determining whether or not the character recognition using the body is suitable may be further provided.
また、本発明の一態様は、上記に記載の帳票仕分システムにおいて、前記適合判定部は、前記定義体に対応する帳票と同一グループに分類された前記対象帳票における罫線の特徴と、前記定義体に対応する帳票における罫線の特徴との類似度合いに基づき、前記定義体を用いた文字認識に適合するか否かを判定するようにしてもよい。 Further, one aspect of the present invention is that in the form sorting system described above, the conformity determination unit has features of ruled lines in the target form classified into the same group as the form corresponding to the definition program, and the definition program. Based on the degree of similarity with the characteristics of the ruled lines in the form corresponding to the above, it may be determined whether or not the character recognition using the definition program is suitable.
また、本発明の一態様は、取得部が、仕分対象の帳票である対象帳票を取得し、種別分類部が、学習済みモデルを用いて、前記対象帳票の種別を分類し、特徴抽出部が、前記対象帳票における罫線の特徴を抽出し、亜種分類部が、前記種別分類部による分類結果、及び前記特徴抽出部による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票との類似度合を用いて機械学習を行うことにより前記対象帳票を分類する、帳票仕分方法であって、前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、ことを特徴とする帳票仕分方法である。 Further, in one aspect of the present invention, the acquisition unit acquires the target form, which is the form to be sorted, the type classification unit classifies the type of the target form using the learned model, and the feature extraction unit , The feature of the ruled line in the target form is extracted, and the subtype classification unit corresponds to the definition structure of the character recognition defined in advance based on the classification result by the type classification unit and the extraction result by the feature extraction unit. It is a form sorting method that classifies the target form by performing machine learning using the degree of similarity with, and in the trained model, the output obtained by inputting the learning form is the learning form. It is a form sorting method characterized in that it is a model learned so as to approach the type corresponding to, and is a model for predicting the type of the input form.
また、本発明の一態様は、コンピュータを、仕分対象の帳票である対象帳票を取得する取得手段、学習済みモデルを用いて、前記対象帳票の種別を分類する種別分類手段、前記対象帳票における罫線の特徴を抽出する特徴抽出手段、前記種別分類手段による分類結果、及び前記特徴抽出手段による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票との類似度合を用いて機械学習を行うことにより前記対象帳票を分類する亜種分類手段、として機能させるためのプログラムであって、前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルであるプログラムである。 Further, one aspect of the present invention is an acquisition means for acquiring a target form which is a form to be sorted, a type classification means for classifying the type of the target form using a learned model, and a ruled line in the target form. Based on the feature extraction means for extracting the features of, the classification result by the type classification means, and the extraction result by the feature extraction means, machine learning is performed using the degree of similarity with the form corresponding to the predefined character recognition definition program. It is a program for functioning as a subspecies classification means for classifying the target form by performing the above, and in the trained model, the output obtained by inputting the learning form corresponds to the learning form. It is a program that is a model that is learned so as to approach the type to be performed and that predicts the type of the input form.
この発明によれば、OCR読み取り用の定義体を補正することなく、OCR読み取りができるように亜種を仕分けることができる。 According to the present invention, variants can be sorted so that OCR reading can be performed without correcting the definition program for OCR reading.
以下、本発明の実施形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、実施形態の帳票認識システム1の構成例を示すブロック図である。帳票認識システム1は、例えば、帳票仕分システム100と、文字認識装置30とを備える。
FIG. 1 is a block diagram showing a configuration example of the form recognition system 1 of the embodiment. The form recognition system 1 includes, for example, a
帳票仕分システム100は、様々な様式の帳票を、同一のOCR定義体により読み取り可能なグループに仕分するシステムである。ここで、OCR定義体とは、OCR文字認識の対象となる帳票に関する情報であって、OCR文字認識に用いられる情報である。OCR定義体には、例えば、罫線の本数や長さ、配置などを示す罫線のレイアウト情報、及び帳票のタイトルや項目名称などを示す帳票の固有情報が含まれる。
The
本実施形態において、仕分けの対象となる帳票(以下、対象帳票ともいう)は、源泉徴収票、給与明細書、各種の帳簿や伝票、申込書など、業務や取引または申請などに必要な情報の記入や印刷のために用いられる書類であって、罫線などにより項目欄や記入枠が形成され、定められた位置に定められた記載がなされるようにレイアウトされた書類である。 In the present embodiment, the form to be sorted (hereinafter, also referred to as the target form) is information necessary for business, transaction, application, etc., such as withholding slip, salary statement, various books and slips, application form, etc. It is a document used for entry and printing, and is a document laid out so that an item column and an entry frame are formed by ruled lines and the like, and a defined description is made at a predetermined position.
帳票仕分システム100は、例えば、種別分類装置10と、複数の亜種分類装置20(亜種分類装置20−1、20−2、…、20−N)とを備える。Nは、種別分類装置10により分類された種別の数に応じて決定される自然数である。
The
種別分類装置10は、機械学習の手法を用いて、対象帳票を、その種別ごとに分類するコンピュータである。種別分類装置10が用いる機械学習の手法は、既存の任意の学習手法であってよいが、例えば、教師あり学習であり、CNN(Convolutional Neural Network)等による深層学習(ディープラーニング)のモデルを用いた手法である。学習済みモデルを用いた分類が行われる場合、種別分類装置10が帳票をどのように分類するかは、学習済みモデルにどのようなデータを機械学習させるかにより決定される。学習済みモデルについては、後で詳しく説明する。
The
種別分類装置10は、対象帳票を、一見して見た目が異なるものごとに分類する。例えば、種別分類装置10は、帳票のタイトルごとに対象帳票を分類する。或いは、種別分類装置10は、帳票の様式ごとに、対象帳票を分類する。換言すると、種別分類装置10は、一見して見た目が変わらない対象帳票を、同じ種別に分類する。つまり、種別分類装置10は、亜種を区別せず、同じ種別として分類する。具体的に、種別分類装置10が帳票のタイトルごとに対象帳票を分類する場合、帳票のタイトルが同じであって記入枠の位置や大きさが微妙に異なる様式の対象帳票(亜種)が複数ある場合、これらの亜種を同じ種別の帳票として分類する。種別分類装置10は、分類結果を亜種分類装置20に出力する。
The
亜種分類装置20は、種別分類装置10により同じ種別に分類された帳票群を、その亜種ごとに分類するコンピュータである。亜種分類装置20は、種別分類装置10から分類結果を取得する。亜種分類装置20は、取得した情報に基づいて、同じ種別に分類された帳票群のそれぞれの特徴量を抽出する。ここでの特徴量は、亜種を分類するために必要な帳票の特徴を示す度合いであり、例えば、帳票に用いられている罫線の態様(例えば、罫線の間隔など)である。
The
亜種分類装置20は、抽出した特徴量を用いて機械学習を行うことにより亜種を分類する。亜種分類装置20が用いる機械学習の手法は、既存の任意の手法であってよいが、例えば、教師なし学習であり、クラスタ分析を用いた手法である。
The
亜種分類装置20は、同一のOCR定義体を用いた文字認識が可能となる範囲で亜種を分類する。これにより、ある亜種はOCRによる文字認識ができるが、別の亜種はOCRによる文字認識ができないといった事象を生じ難くすることができる。したがって、帳票のOCR利用を促進することが可能である。
The
亜種分類装置20は、予め登録したOCR定義体に対応する帳票(以下、代表帳票ともいう)の特徴量と、対象帳票の特徴量の類似度合いに基づいて、亜種を分類する。つまり、亜種分類装置20は、代表帳票と似た特徴を有する亜種を、同じグループに分類する。代表帳票は、予め登録済みであり、OCR文字認識できるように、すでにOCR定義体が生成されている帳票である。これにより、代表帳票と似た特徴を有すると分類された亜種は、その代表帳票に対応するOCR定義体を用いてOCR文字認識を行うことができる可能性が高い。亜種分類装置20が亜種を分類する方法については、後で詳しく説明する。亜種分類装置20は、亜種を分類した分類結果を文字認識装置30に出力する。
The
文字認識装置30は、OCR文字認識を行うコンピュータである。文字認識装置30には、複数の代表帳票のそれぞれに対応するOCR定義体が登録されている。亜種分類装置20により指定された代表帳票に基づいて、作業者等によりOCR定義体が生成され、生成されたOCR定義体が、文字認識装置30に登録(記憶)される。なお、文字認識装置30が帳票に基づくOCR定義体を生成する機能を有する場合、文字認識装置30は、亜種分類装置20により指定された代表帳票に対応するOCR定義体を生成するようにしてもよい。亜種分類装置20が代表帳票を指定する方法については後で詳しく説明する。
The
文字認識装置30は、亜種分類装置20から分類結果を取得する。文字認識装置30は、代表帳票と似た特徴を有すると分類された亜種を、その代表帳票に対応するOCR定義体を用いてOCR文字認識を行う。
The
図1の例では、対象帳票が、種別分類装置10によりN個の種別(種別1、種別2、…種別N)のいずれかに分類される構成が示されている。また、それぞれの種別に分類された帳票群が、亜種分類装置20のそれぞれにより複数の亜種に分類される構成が示されている。例えば、亜種分類装置20−1により複数の亜種(種別1亜種A、種別1亜種B、…)に分類される構成が示されている。亜種分類装置20−2により複数の亜種(種別2亜種A、種別2亜種B、…)に分類される構成が示されている。亜種分類装置20−Nにより複数の亜種(種別N亜種A、種別N亜種B、…)に分類される構成が示されている。
In the example of FIG. 1, a configuration is shown in which the target form is classified into any of N types (type 1,
図2は、実施形態の種別分類装置10の構成例を示すブロック図である。種別分類装置10は、例えば、対象画像取得部11と、学習用画像取得部12と、前処理部13と、学習部14と、予測部15と、種別分類部16と、出力部17と、学習済みモデルパラメータ記憶部18とを備える。
FIG. 2 is a block diagram showing a configuration example of the
種別分類装置10が行う処理には、「事前準備」と、「分類実行」との2つの段階がある。「事前準備」の段階において、対象帳票を種別ごとに分類する前に、種別分類装置10により実際の分類に用いる学習済みモデルが準備される。「分類実行」の段階において、10により、対象帳票を種別ごとに分類する実際の分類が行われる。以下、「事前準備」と、「分類実行」との2つの段階について、順に説明する。
The process performed by the
(事前準備)
種別分類装置10は、事前準備として、学習済みモデルを生成する。学習済みモデルは、学習用の帳票(以下、学習用帳票ともいう)と、その種別との対応関係を学習することにより、入力された未学習の帳票の種別を予測できるように学習されたモデルである。すなわち、学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである。
(Advance preparation)
The
学習用画像取得部12は、学習用帳票の画像データを取得する。学習用帳票は、例えば、標準的なフォーマットとして既に公開されている帳票や、過去に利用された実績のある現物の帳票である。画像データは、例えば、紙の帳票をスキャナ等の読取装置で読み取った画像の電子情報である。学習用画像取得部12は、例えば、種別分類装置10と接続されたスキャナにより読み取られた画像の情報を取得する。或いは、学習用画像取得部12は、外部のDB(データベース)サーバ装置に蓄積された学習用帳票の画像データを、ネットワーク等を介して取得するようにしてもよい。学習用画像取得部12は、取得した学習用帳票の画像データを前処理部13に出力する。
The learning
前処理部13は、学習モデルに学習させるデータセットを生成する。学習モデルは、学習済みモデルに学習させる前のモデルであり、例えばCNN等による深層(多層)モデルである。前処理部13は、学習モデルに学習させるデータとして、学習データと教師データとを対応づけたデータセットを生成する。学習データは、学習モデルに入力させるデータであり、学習用画像取得部12によって取得された学習用帳票の画像データである。教師データは、学習モデルから出力される予測値の誤差を算出するためのデータであり、学習用帳票の種別を示す情報である。前処理部13は、学習データとしての学習用帳票に、教師データとしてのその学習用帳票の種別を対応付けることにより学習モデルに学習させるデータセットを生成する。前処理部13は、生成したデータセットを学習部14に出力する。
The preprocessing
学習部14は、前処理部13により生成された学習用のデータセットを用いて、学習モデルを学習させる。学習部14は、学習モデルに、データセットの学習データを入力させる。学習部14は、誤差逆伝搬法などの手法を用いて、学習モデルから出力されたデータ(予測値)が、当該学習データに対応する教師データ(種別)に近づくように、学習モデルのパラメータを調整する。学習部14は、学習モデルの出力層から出力される予測値の誤差が所定の閾値以下となるなど、所定の終了条件を満たしたと判定される場合に、学習モデルの学習を終了させる。学習部14は、学習を終了させた際の学習モデルを学習済みモデルとして確定させる。学習部14は、学習を終了させた際の学習モデルに設定されていたパラメータを学習済みモデルパラメータ記憶部18に記憶させる。ここでのパラメータは、学習済みモデルを生成するための用いられる変数であって、例えば、CNNの学習モデルを用いて学習済みモデルが生成された場合であれば、CNNの入力層、中間層、出力層の各層のユニット数、隠れ層の層数、活性化関数などを示す情報や、各階層のノードを結合する結合係数や重みを示す情報である。
The
学習済みモデルパラメータ記憶部18は、学習部14により生成された学習済みモデルのパラメータを記憶する。
The trained model
(分類実行)
種別分類装置10は、分類実行の段階において、対象帳票の種別を分類する。
(Classification execution)
The
対象画像取得部11は、対象帳票の画像データを取得する。対象画像取得部11が対象帳票の画像データを取得する方法は、学習用画像取得部12が登録用帳票の画像データを取得する方法と同様であるためその説明を省略する。対象画像取得部11は、取得した対象画像の画像データを予測部15に出力する。
The target
予測部15は、対象画像の種別を予測する。予測部15は、対象画像取得部11から対象画像の画像データを取得する。予測部15は、学習済みモデルパラメータ記憶部18を参照することにより、学習部14により生成された学習済みモデルを取得(再構築)する。予測部15は、学習済みモデルに対象画像を入力して得られる出力を予測結果とする。予測部15は、予測結果を種別分類部16に出力する。
The
ここで、学習済みモデルは、予測結果を、その確信度と共に出力する。ここでの確信度とは、予測した種別の確からしさであり、例えば学習済みモデルが予測した種別である確率を示す情報である。例えば、モデルの活性化関数にSoftmax関数を用いることにより、学習済みモデルから、予測結果の確立(確信度合い)を出力させることが可能である。例えば、学習済みモデルは、対象帳票が種別1(例えば、確定申告書)である確率が90%である、という予測結果を出力する。例えば、学習済みモデルは、対象帳票が種別1(例えば、確定申告書)である確率が55%で、種別2(例えば、審査請求書)である確率が40%である、というような予測結果を出力する。なお、確信度は、少なくとも予測した種別の確からしさを示す度合いであればよく、確率に限定されない。例えば、確信度は、(確からしさが)「高い」か「低い」かを示す二値の情報であってもよいし、「高い」、「やや高い」、「やや低い」、「低い」等、複数のレベルを示す情報であってもよい。 Here, the trained model outputs the prediction result together with its certainty. The degree of certainty here is the certainty of the predicted type, and is information indicating, for example, the probability that the trained model is the predicted type. For example, by using the Softmax function as the activation function of the model, it is possible to output the establishment (certainty degree) of the prediction result from the trained model. For example, the trained model outputs a prediction result that the probability that the target form is type 1 (for example, a final tax return) is 90%. For example, in the trained model, the probability that the target form is type 1 (for example, final tax return) is 55%, and the probability that the target form is type 2 (for example, examination request) is 40%. Is output. It should be noted that the degree of certainty may be at least a degree indicating the certainty of the predicted type, and is not limited to the probability. For example, the certainty may be binary information indicating whether it is "high" or "low" (certainty), "high", "slightly high", "slightly low", "low", etc. , Information indicating a plurality of levels may be used.
種別分類部16は、予測部15からの予測結果に基づいて、対象帳票の種別を確定させる。種別分類部16は、例えば、確信度が所定の閾値以上であるもののうち、最も確信度が高い種別を、その対象帳票の種別であると判定する。種別分類部16は、確信度が所定の閾値未満である場合、その対象帳票の種別が不明であると判定する。種別分類部16は、対象帳票の種別を判定した判定結果を、出力部17を介して出力する。
The
ここで、種別分類部16は、判定した種別に応じて、出力先を変更するようにしてもよい。例えば、種別分類部16は、判定した種別がテキスト化の対象となる種別である場合、対象帳票の種別を判定した判定結果を亜種分類装置20に出力する。一方、種別分類部16は、判定した種別がテキスト化の対象とならない種別である場合には、判定結果を他の装置に出力する。他の装置は、例えば、テキスト化の対象としない帳票の画像データが集約されるデータベースである。
Here, the
また、種別分類部16は、確信度が所定の閾値未満である場合、その旨を示す警告を、作業者が知覚可能となるように、例えば図示しない表示部に表示させるようにしてもよい。これにより、種別分類部16は、種別が不明の対象帳票があることを、作業者に知らせることができる。作業者は、警告に応じて、種別不明の対象帳票を目視で確認する等して、個別の対応を行う、或いは、学習済みモデルを再学習させるか等の対応を行うことが可能となる。なお、学習済みモデルを再学習させる場合には、学習用帳票に、種別不明の対象帳票と、その種別とを対応付けたデータセットを含めるようにする。これにより、再学習後の学習済みモデルにより、再学習前のモデルで種別不明と予測された帳票の種別を、精度よく予測することが可能となる。
Further, when the certainty level is less than a predetermined threshold value, the
図3は、実施形態の亜種分類装置20の構成例を示すブロック図である。亜種分類装置20は、例えば、対象画像取得部21と、定義体登録用画像取得部22と、罫線抽出部23と、類似度算出部24と、亜種クラスタリング部25と、適合判定部26と、亜種分類部27と、出力部28とを備える。
FIG. 3 is a block diagram showing a configuration example of the
亜種分類装置20が行う処理には、「事前準備」と、「分類実行」との2つの段階がある。「事前準備」の段階において、同一の種別に分類された対象帳票群を亜種ごとに分類する前に、分類の基準となる代表帳票と、その代表帳票に対応するOCR定義体とが準備される。「分類実行」の段階において、同一の種別に分類された対象帳票群を亜種ごとに分類する、実際の分類が亜種分類装置20により行われる。以下、「事前準備」と、「分類実行」との2つの段階について、順に説明する。
The process performed by the
(事前準備)
亜種分類装置20は、事前準備として、代表帳票を選択する。代表帳票は、OCR文字認識を行う場合に用いられるOCR定義体が生成される帳票である。代表帳票を基準として、代表帳票と似た特徴を有する亜種を、同じグループに分類することにより、その代表帳票に対応するOCR定義体を用いてOCR文字認識ができるようにする。
(Advance preparation)
The
定義体登録用画像取得部22は、OCR定義体を登録するための帳票(以下、登録用帳票ともいう)の画像データを取得する。登録用帳票は、例えば、標準的なフォーマットとして既に公開されている帳票や、過去に利用された実績のある現物の帳票である。定義体登録用画像取得部22は、例えば、亜種分類装置20と接続されたスキャナにより読み取られた画像の情報を取得する。或いは、定義体登録用画像取得部22は、外部のDB(データベース)サーバ装置に蓄積された登録用帳票の画像データを、ネットワーク等を介して取得するようにしてもよい。定義体登録用画像取得部22は、取得した登録用帳票の画像データを罫線抽出部23に出力する。
The definition program registration
罫線抽出部23は、登録用帳票から罫線を抽出する。罫線抽出部23は、既存の技術を用いて罫線を抽出する。例えば、罫線抽出部23は、登録用帳票の画像データをHough変換することにより罫線を抽出する。或いは罫線抽出部23は、登録用帳票にラプラシアンフィルタやソーベル(Sobel)フィルタを適用することにより、登録用帳票における罫線を抽出するようにしてもよい。罫線抽出部23は、登録用帳票から抽出した罫線を示す情報を、登録用帳票に対応づけて、類似度算出部24に出力する。
The ruled
類似度算出部24は、登録用帳票における罫線の特徴に基づいて、帳票同士の類似度を算出する。罫線の特徴は、特にOCR文字認識をさせる場合に、認識に用いられるような特徴的な罫線の態様であり、例えば、罫線の長さ、本数、矩形の位置やサイズ、個数などを示す情報である。類似度算出部24は、例えば、これらの罫線の特徴を数値化(ベクトル表現)して高次元のベクトル空間上に配置する。類似度算出部24は、罫線の特徴量がマッピングされたベクトル空間における帳票同士の相関量をコサイン、内積、距離等によって計算する。類似度算出部24は、計算した相関量を、帳票同士の類似度とする。類似度算出部24は、算出した類似度を亜種クラスタリング部25に出力する。
The
亜種クラスタリング部25は、類似度算出部24によって算出された帳票同士の類似度に基づいて、クラスタ分析を行う。クラスタ分析は、異なる性質のものが混在している集団を、互いに似た性質を持ついくつかの集合に分類する手法である。
The
亜種クラスタリング部25は、例えば、階層クラスタ分析を行う。すなわち、亜種クラスタリング部25は、クラスタ分析をするにあたり、分類する集団の数(クラスタ数)を事前に設定しない。毎年のように亜種が発生する状況において、テキスト化対象の帳票群に対し、幾つのOCR定義体を定義して、幾つの亜種に分類すれば、OCR認識が可能となるかは未知であるためである。亜種クラスタリング部25は、クラスタ分析した結果を適合判定部26、及び亜種分類部27に出力する。
The
適合判定部26は、クラスタ分析された個々の集団(同じ亜種と分類された帳票群)の異常検知を行う。ここでの異常検知とは、分類された帳票群の中から、極端に類似度が低いものが存在しているか否かを検知することである。同じ集団分類された帳票群のうち、類似度が高く互いに特徴が似ているものは同じOCR定義体を用いてOCR認識できる可能性が高いが、極端に類似度が低いものはOCR認識できる可能性が低いと考えられるためである。適合判定部26は、同じ亜種と分類された帳票群が、同じOCR定義体を用いたOCR認識できるか、すなわち、同一のOCR定義体に適合するか否かを判定する。
The
適合判定部26は、例えば、異常、つまり極端に類似度が低い帳票、が検出された場合、その旨を示す警告を、表示部に表示させるようにしてもよい。これにより、種別分類部16は、同じ亜種として分類された帳票の中に極端に類似度が低い対象帳票があることを、作業者に知らせることができる。作業者は、警告に応じて、対象帳票を目視で確認する等して、個別の対応を行う等の対応を行うことができる。適合判定部26は、判定結果を亜種分類部27に出力する。
For example, when an abnormality, that is, a form having an extremely low degree of similarity is detected, the
亜種分類部27は、亜種クラスタリング部25によるクラスタ分析の結果と、適合判定部26による異常検知の結果とを用いて、登録用帳票を亜種ごとに分類する。亜種分類部27は、クラスタ分析により分類された亜種の集団のそれぞれから、異常検知された帳票を取り除いた集団を、同じ亜種に分類された帳票群とする。なお、亜種分類部27は、亜種クラスタリング部25により階層クラスタ分析した結果から、どの階層の分類結果を用いるかを任意に決定してよい。亜種分類部27は、例えば、同一の亜種として分類された帳票群の分布や、OCR認識の精度等に応じて、OCR定義体にて読み取り可能な範囲を決定する。亜種分類部27は、亜種ごとに分類した分類結果を、出力部28を介して、文字認識装置30に出力する。
The
(分類実行)
亜種分類装置20は、分類実行の段階において、対象帳票を亜種ごとに分類する。
(Classification execution)
The
対象画像取得部21は、対象帳票の画像データを取得する。対象画像取得部21が対象帳票の画像データを取得する方法は、定義体登録用画像取得部22が登録用帳票の画像データを取得する方法と同様であるためその説明を省略する。対象画像取得部21は、取得した対象画像の画像データを罫線抽出部23に出力する。
The target
罫線抽出部23は、対象帳票から罫線を抽出する。罫線抽出部23が対象帳票から罫線を抽出する方法は、登録用帳票から罫線を抽出する方法と同等であるため、その説明を省略する。罫線抽出部23は、対象帳票から抽出した罫線を示す情報を、登録用帳票に対応づけて、類似度算出部24に出力する。
The ruled
類似度算出部24は、対象帳票における罫線の特徴に基づいて、代表帳票との類似度を算出する。類似度算出部24が類似度を算出する方法は、既に説明したため、その説明を省略する。類似度算出部24は、算出した類似度を亜種クラスタリング部25に出力する。
The
亜種クラスタリング部25は、類似度算出部24によって算出された対象帳票の帳票同士の類似度に基づいて、クラスタ分析を行う。亜種クラスタリング部25がクラスタ分析を行う方法は既に説明したためその説明を省略する。亜種クラスタリング部25は、クラスタ分析した結果を適合判定部26、及び亜種分類部27に出力する。
The
適合判定部26は、クラスタ分析された個々の集団(同じ亜種と分類された帳票群)の異常検知を行う。適合判定部26が異常検知を行う方法は既に説明したためその説明を省略する。適合判定部26は、異常検知を行った結果を亜種分類部27に出力する。
The
亜種分類部27は、亜種クラスタリング部25によるクラスタ分析の結果と、適合判定部26による異常検知の結果とを用いて、対象帳票を亜種ごとに分類する。亜種分類部27が亜種ごとに分類を行う方法は既に説明したためその説明を省略する。亜種分類部27は、対象帳票を亜種ごとに分類した分類結果を、出力部28を介して、文字認識装置30に出力する。
The
図4は、実施形態の種別分類装置10が行う処理の流れを示すフロー図である。図4には、事前準備の段階において、種別分類装置10が学習済みモデルを生成する処理の流れが示されている。
FIG. 4 is a flow chart showing a flow of processing performed by the
種別分類装置10は、事前準備の段階において、学習用帳票(学習用の帳票群)を取得する(ステップS11)。種別分類装置10は、学習用帳票を用いて、学習データ(学習用帳票)と教師データ(種別)とを対応させた、学習用のデータセットを生成する(ステップS12)。種別分類装置10は、学習モデルに、学習データ(学習用帳票)を入力する(ステップS13)。種別分類装置10は、学習モデルから得られる出力(種別の予測値)と、教師データ(種別の正解)との誤差に応じて、その誤差が小さくなるように学習モデルのパラメータを更新する(ステップS14)。種別分類装置10は、所定の終了条件を充足するか否かを判定する(ステップS15)。ここでの終了条件とは、例えば、誤差が所定の閾値を下回ったこと、或いは、学習回数の上限に達したこと等である。種別分類装置10は、終了条件を充足する場合、学習を終了する。種別分類装置10は、終了条件を充足しない場合、ステップS13に戻り学習を繰返す。
The
図5は、実施形態の帳票認識システム1が行う処理の流れを示すシーケンス図である。図5には、事前準備の段階において、OCR定義体が登録される処理の流れが示されている。 FIG. 5 is a sequence diagram showing a flow of processing performed by the form recognition system 1 of the embodiment. FIG. 5 shows the flow of processing in which the OCR definition program is registered in the preparatory stage.
亜種分類装置20は、登録用帳票(定義体登録用の帳票)をクラスタ分析(亜種クラスタリング、と記載)する(ステップS21)。亜種分類装置20は、クラスタ分析した結果得られた集団(クラスタ)内の帳票から代表帳票を選択する(ステップS22)。亜種分類装置20は、例えば、クラスタ分析した結果得られた集団から、異常検知された帳票を除いた集団を生成する。亜種分類装置20は、異常検知された帳票を除いた集団のなかで、最も共通した特徴を持つ帳票を代表帳票として選択する。最も共通した特徴を持つ帳票とは、例えば、特徴量のベクトル空間にマッピングされた帳票群の代表値(例えば、中央値)に最も近い位置に配置される帳票である。亜種分類装置20は、集団(クラスタ)内の代表帳票を文字認識装置30に出力する。文字認識装置30は、亜種分類装置20から取得した代表帳票に対応するOCR定義体を生成し、生成した定義体を記憶させるなどして登録する(ステップS23)。
The
図6は、実施形態の亜種分類装置20が行う処理の流れを示すフロー図である。図6には、図5のステップS21〜S22に対応する処理の流れの詳細が示されている。
FIG. 6 is a flow chart showing a flow of processing performed by the
亜種分類装置20は、複数の登録用帳票(定義体登録用の帳票群)を取得し(ステップS211)、取得した登録用帳票のそれぞれの画像データから罫線を抽出する(ステップS212)。亜種分類装置20は、登録用帳票のそれぞれの帳票間の罫線の特徴量の類似度を算出する(ステップS213)。亜種分類装置20は、類似度に基づくクラスタ分析(亜種クラスタリング)を行う(ステップS214)。
The
亜種分類装置20は、同一のクラスタ内に分類された帳票のそれぞれに異常検知(適合判定)を行う(ステップS221)。亜種分類装置20は適合判定の結果を用いてクラスタ内の代表帳票を選択する(ステップS222)。例えば、亜種分類装置20は、異常検知(適合判定)の結果、他の帳票と比較して極端に類似度が低い帳票を、そのクラスタから取り除く。亜種分類装置20は、極端に類似度が低い帳票を除いた後の帳票群から、集団内で共通する特徴を最も備えている帳票を、代表帳票として選択する。
The
図7は、実施形態の亜種分類装置20が行う処理を説明する図である。図7には、クラスタ分析の結果が模式的に示されている。図7の横軸と縦軸とはそれぞれ特徴量を示している。図7は2次元の特徴量のベクトル空間である。図7に示す通り、ベクトル空間に、帳票を、その特徴量に応じてマッピングさせると、その距離に応じていくつかの集団に分類することができる。図7では、クラスタ分析の結果、クラスタK1〜K5の5つの集団に分類された例が示されている。例えば、クラスタK2には、点P1〜P5に対応する5つの帳票が含まれている。このうち、点P2〜P4に対応する3つの帳票は互いの距離が近く、互いの類似度が高い。一方、点P1は、点P2〜P4の点群からやや離れた距離にマッピングされており、点P2〜P4に対応する3つの帳票と似ていない、つまり3つの帳票との類似度が低いと考えられる。点P5についても同様に、点P2〜P4に対応する3つの帳票との類似度が低いと考えられる。この場合、適合判定部26は、例えば、クラスタK2に分類された帳票から、点P1、P5に相当する帳票を極端に類似度が低い帳票として異常検知する。
FIG. 7 is a diagram illustrating a process performed by the
図8は、実施形態の帳票認識システム1が行う処理の流れを示すシーケンス図である。図8には、分類実行の段階における帳票認識システム1の処理の流れが示されている。 FIG. 8 is a sequence diagram showing a flow of processing performed by the form recognition system 1 of the embodiment. FIG. 8 shows the processing flow of the form recognition system 1 at the stage of execution of classification.
種別分類装置10は、学習済みモデルを用いて、対象帳票の種別を分類する(ステップS30)。種別分類装置10は分類結果を亜種分類装置20に出力する。
The
例えば、種別分類装置10は、種別1に分類された対象帳票のそれぞれ(種別1の帳票群)を示す情報を亜種分類装置20−1に出力する。亜種分類装置20−1は、種別1の帳票群をクラスタ分析して亜種ごとに分類する(ステップS31)。亜種分類装置20−1は、分類結果を文字認識装置30に出力する。例えば、亜種分類装置20−1は、種別1の亜種Aに分類された対象帳票のそれぞれ(種別1の亜種Aの帳票群)を示す情報を文字認識装置30に出力する。亜種分類装置20−1は、種別1の亜種Bに分類された対象帳票のそれぞれ(種別1の亜種Bの帳票群)を示す情報を文字認識装置30に出力する。
For example, the
例えば、種別分類装置10は、種別2に分類された対象帳票のそれぞれ(種別1の帳票群)を示す情報を亜種分類装置20−2に出力する。亜種分類装置20−2は、種別2の帳票群をクラスタ分析して亜種ごとに分類する(ステップS32)。亜種分類装置20−2は、分類結果を文字認識装置30に出力する。例えば、亜種分類装置20−2は、種別2の亜種Aに分類された対象帳票のそれぞれ(種別2の亜種Aの帳票群)を示す情報を文字認識装置30に出力する。亜種分類装置20−2は、種別2の亜種Bに分類された対象帳票のそれぞれ(種別2の亜種Bの帳票群)を示す情報を文字認識装置30に出力する。
For example, the
例えば、種別分類装置10は、種別Nに分類された対象帳票のそれぞれ(種別Nの帳票群)を示す情報を亜種分類装置20−Nに出力する。亜種分類装置20−Nは、種別Nの帳票群をクラスタ分析して亜種ごとに分類する(ステップS33)。亜種分類装置20−Nは、分類結果を文字認識装置30に出力する。例えば、亜種分類装置20−Nは、種別Nの亜種Aに分類された対象帳票のそれぞれ(種別Nの亜種Aの帳票群)を示す情報を文字認識装置30に出力する。亜種分類装置20−Nは、種別Nの亜種Bに分類された対象帳票のそれぞれ(種別Nの亜種Bの帳票群)を示す情報を文字認識装置30に出力する。
For example, the
文字認識装置30は、亜種分類装置20から取得した亜種ごとに、その亜種の代表帳票に対応するOCR定義体を用いて、その亜種に分類された帳票群をOCR文字認識させる(ステップS34)。
The
図9は、実施形態の種別分類装置10が行う処理の流れを示すフロー図である。図9には、図8のステップS30に対応する処理の流れの詳細が示されている。
FIG. 9 is a flow chart showing a flow of processing performed by the
種別分類装置10は、対象帳票を取得し(ステップS301)、取得した対象帳票のそれぞれの画像データを学習済みモデルに入力することにより種別を予測(推定)する(ステップS302)。種別分類装置10は、学習済みモデルによって予測された種別の確信度が所定の閾値以上であるか否かを判定する(ステップS303)。種別分類装置10は、確信度が所定の閾値以上である場合、予測された種別を、その対象帳票の種別として確定させる(ステップS304)一方、種別分類装置10は、確信度が所定の閾値未満である場合、その対象帳票の種別を、その他の種別(種別不明)とする(ステップS305)。
The
図10は、実施形態の種別分類装置10が行う処理の流れを示すフロー図である。図10には、図8のステップS31(S32、S33)に対応する処理の流れの詳細が示されている。ここではステップS31の処理を例に、処理の流れの詳細を説明する。ステップS32、S33についても同様の処理の流れである。
FIG. 10 is a flow chart showing a flow of processing performed by the
亜種分類装置20−1は、種別ごとの対象帳票を取得し(ステップS311)、取得した対象帳票のそれぞれの画像データから罫線を抽出する(ステップS312)。亜種分類装置20−1は、対象帳票と、代表帳票との類似度を算出する(ステップS313)。亜種分類装置20−1は、類似度に基づくクラスタ分析(亜種クラスタリング)を行う(ステップS314)。亜種分類装置20−1は、適合判定(異常検知)を行い(ステップS315)、異常検知の対象とならなかった帳票を、その亜種に分類された帳票として確定させる(ステップS316)。一方、亜種分類装置20は、異常検知された帳票をその他の亜種(亜種不明)として分類するとする(ステップS317)。
The subspecies classification device 20-1 acquires a target form for each type (step S311), and extracts a ruled line from each image data of the acquired target form (step S312). The subspecies classification device 20-1 calculates the degree of similarity between the target form and the representative form (step S313). The subspecies classification device 20-1 performs cluster analysis (subspecies clustering) based on the similarity (step S314). The subspecies classification device 20-1 performs conformity determination (abnormality detection) (step S315), and determines a form that is not the target of abnormality detection as a form classified into the subspecies (step S316). On the other hand, the
以上説明したように、実施形態の帳票認識システム1は、対象画像取得部11と、種別分類部16と、罫線抽出部23(「特徴抽出部」の一例)と、亜種分類部27とを備える。対象画像取得部11は、対象帳票を取得する。種別分類部16は、学習済みモデルを用いて、対象帳票の種別を分類する。学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである。罫線抽出部23は、対象帳票の特徴を抽出する。亜種分類部27は、種別分類部16による分類結果、及び罫線抽出部23による抽出結果に基づき、代表帳票のOCR定義体(予め登録された文字認識の定義体)に対応する帳票の特徴との類似度合いを用いてクラスタ分析(機械学習)を行うことにより対象帳票を分類する。
As described above, the form recognition system 1 of the embodiment includes the target
これにより、実施形態の帳票認識システム1では、代表帳票のOCR定義体との類似度に基づいて、代表帳票に似ている帳票群を、1つの亜種として分類することができる。このため、亜種として分類された帳票群を、代表帳票に対応するOCR定義体を用いてOCR文字認識させることができ、文字認識が誤る事例を低減させることが可能である。したがって、OCR文字認識に用いる定義体を補正することなく、OCR文字認識ができるように亜種を仕分けることができる。 Thereby, in the form recognition system 1 of the embodiment, the form group similar to the representative form can be classified as one subspecies based on the similarity of the representative form with the OCR definition program. Therefore, the form group classified as a subspecies can be made to recognize OCR characters by using the OCR definition program corresponding to the representative form, and it is possible to reduce the cases where the character recognition is erroneous. Therefore, the variants can be sorted so that OCR character recognition can be performed without correcting the definition program used for OCR character recognition.
また、実施形態の帳票認識システム1では、亜種分類部27は、罫線抽出部23によって抽出された罫線の特徴と、代表帳票(OCR定義体に対応する帳票)における罫線の特徴との類似度合いを用いたクラスタ分析を行うことにより、対象帳票を分類する。これにより、実施形態の帳票認識システム1では、教師データを用意することなく、類似度に応じた分類が可能となり、手間を抑えた分類を行うことができる。
Further, in the form recognition system 1 of the embodiment, the
また、実施形態の帳票認識システム1では、代表帳票は、登録用帳票に、クラスタ分析を行うことにより得られるクラスタ内の帳票から選択された帳票である。これにより、実施形態の帳票認識システム1では、亜種として同一集団に分類された帳票群の中から、その帳票群が共通に有する特徴をもつ帳票を、代表帳票選択することができる。したがって、同一集団に分類された帳票群を、同じOCR定義体で文字認識させることが可能となる。 Further, in the form recognition system 1 of the embodiment, the representative form is a form selected from the forms in the cluster obtained by performing the cluster analysis on the registration form. As a result, in the form recognition system 1 of the embodiment, it is possible to select a representative form from a group of forms classified into the same group as a subspecies, which has the characteristics common to the group of forms. Therefore, it is possible to recognize the form group classified into the same group with the same OCR definition program.
また、実施形態の帳票認識システム1は、適合判定部26を更に備える。適合判定部26は、亜種分類部27による分類結果に基づき、代表帳票と同一グループに分類された亜種が、代表帳票に対応するOCR定義体を用いた文字認識に適合するか否かを判定する。これにより、実施形態の帳票認識システム1では、同じOCR定義体で文字認識させることが困難な帳票をそのグループから取り除くことができ、OCR文字認識が誤りとなる事象を低減させることが可能である。
Further, the form recognition system 1 of the embodiment further includes a
また、実施形態の帳票認識システム1では、適合判定部26は、代表帳票と同一グループに分類された対象帳票における罫線の特徴と、代表帳票における罫線の特徴との類似度合いに基づき、適合するか否かを判定する。これにより、実施形態の帳票認識システム1では、代表帳票と罫線の特徴が似ていない帳票を適合しないとして異常検知することができ、より精度よくOCR文字認識を行うことが可能となる。
Further, in the form recognition system 1 of the embodiment, whether the
また、上述した実施形態では、種別ごとに分類した後に、同一種別のなかで亜種ごとに分類を行う場合を例示して説明した。しかしながらこれに限定されることはない。種別に分類することなく、様々な種別の帳票が混在しているなかから、直接、亜種ごとの分類を行うようにしてもよい。この構成であっても、罫線の構成が同一で、帳票のタイトルのみが異なる複数の帳票が存在するなどの特殊なケースを除き、事前に選択した代表帳票に対応するOCR定義体で読み込み可能な亜種ごとの分類を行うことが可能である。 Further, in the above-described embodiment, a case where classification is performed for each subspecies within the same type after classification for each type has been described as an example. However, it is not limited to this. Instead of classifying by type, it is possible to directly classify by subspecies from a mixture of various types of forms. Even with this configuration, it can be read by the OCR definition program corresponding to the representative form selected in advance, except for special cases where the ruled line configuration is the same and there are multiple forms with different form titles. It is possible to classify by subspecies.
なお、上述した実施形態では、外部のDB(データベース)サーバ装置に種々のデータ(学習用帳票の画像データ、登録用帳票の画像データ等)を蓄積させ、帳票認識システム1がネットワーク等を介して当該種々のデータを取得する構成について説明した。この場合における外部のDBサーバ装置は、任意のコンピュータ装置であってよいが、例えば、ネットワークに接続されるストレージ装置、いわゆるNAS(Network Attached Storage)などであってよい。NASにはファイルシステムやネットワーク通信機能が備えられている。このため、帳票認識システム1への導入が容易であり、蓄積させるデータの容量に応じて追加することも容易である。また、帳票認識システム1の異なる種類の複数の装置(種別分類装置10、亜種分類装置20、及び文字認識装置30など)のそれぞれからのデータを、当該複数の装置のそれぞれで共有させることが容易となる。
In the above-described embodiment, various data (image data of learning form, image data of registration form, etc.) are stored in an external DB (database) server device, and the form recognition system 1 communicates via a network or the like. The configuration for acquiring the various data has been described. The external DB server device in this case may be any computer device, but may be, for example, a storage device connected to a network, so-called NAS (Network Attached Storage) or the like. NAS is equipped with a file system and network communication function. Therefore, it is easy to introduce it into the form recognition system 1, and it is also easy to add it according to the amount of data to be stored. In addition, data from each of a plurality of devices of different types (
上述した実施形態における帳票認識システム1の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。 All or part of the form recognition system 1 in the above-described embodiment may be realized by a computer. In that case, the program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer system and executed. The term "computer system" as used herein includes hardware such as an OS and peripheral devices. Further, the "computer-readable recording medium" refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, or a storage device such as a hard disk built in a computer system. Further, a "computer-readable recording medium" is a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short period of time. It may also include a program that holds a program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or a client in that case. Further, the above program may be for realizing a part of the above-mentioned functions, and may be further realized for realizing the above-mentioned functions in combination with a program already recorded in the computer system. It may be realized by using a programmable logic device such as FPGA (Field Programmable Gate Array).
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and includes designs and the like within a range that does not deviate from the gist of the present invention.
1 帳票認識システム
10 種別分類装置
11 対象画像取得部
16 種別分類部
20 亜種分類装置
21 対象画像取得部
23 罫線抽出部
27 亜種分類部
30 文字認識装置
1 Form
Claims (8)
学習済みモデルを用いて、前記対象帳票の種別を分類する種別分類部と、
前記対象帳票の特徴を抽出する特徴抽出部と、
前記種別分類部による分類結果、及び前記特徴抽出部による抽出結果に基づき、予め登録された文字認識の定義体に対応する帳票の特徴との類似度合いを用いて機械学習を行うことにより前記対象帳票を分類する亜種分類部と、
を備え、
前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、
ことを特徴とする帳票仕分システム。 The acquisition department that acquires the target form, which is the form to be sorted,
A type classification unit that classifies the types of the target form using the trained model,
A feature extraction unit that extracts the features of the target form,
Based on the classification result by the type classification unit and the extraction result by the feature extraction unit, the target form is performed by performing machine learning using the degree of similarity with the characteristics of the form corresponding to the pre-registered definition program of character recognition. Subspecies classification department that classifies
With
The trained model is a model that is trained so that the output obtained by inputting the learning form approaches the type corresponding to the learning form, and is a model that predicts the type of the input form. be,
A form sorting system characterized by this.
前記対象帳票の特徴を抽出する特徴抽出部と、
前記特徴抽出部による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票の特徴との類似度合いを用いて機械学習を行うことにより前記対象帳票を分類する亜種分類部と、
を備えることを特徴とする帳票仕分システム。 The acquisition department that acquires the target form, which is the form to be sorted,
A feature extraction unit that extracts the features of the target form,
Based on the extraction result by the feature extraction unit, the subspecies classification unit that classifies the target form by performing machine learning using the degree of similarity with the feature of the form corresponding to the definition structure of the character recognition defined in advance.
A form sorting system characterized by being equipped with.
請求項1又は請求項2に記載の帳票仕分システム。 The subspecies classification unit classifies the target form by performing cluster analysis using the degree of similarity between the characteristics of the ruled lines extracted by the feature extraction unit and the characteristics of the ruled lines in the form corresponding to the definition program. ,
The form sorting system according to claim 1 or 2.
請求項3に記載の帳票仕分システム。 The form corresponding to the definition program is a form selected from the forms in the cluster obtained by performing the cluster analysis on the registration form.
The form sorting system according to claim 3.
請求項1から請求項4のいずれか一項に記載の帳票仕分システム。 Based on the classification result by the subspecies classification unit, the conformity determination unit determines whether or not the target form classified into the same group as the form corresponding to the definition program conforms to the character recognition using the definition program. Further prepare,
The form sorting system according to any one of claims 1 to 4.
請求項5に記載の帳票仕分システム。 The conformity determination unit is based on the degree of similarity between the characteristics of the ruled lines in the target form classified into the same group as the form corresponding to the definition program and the characteristics of the ruled lines in the form corresponding to the definition program. Judging whether or not it conforms to character recognition using
The form sorting system according to claim 5.
種別分類部が、学習済みモデルを用いて、前記対象帳票の種別を分類し、
特徴抽出部が、前記対象帳票における罫線の特徴を抽出し、
亜種分類部が、前記種別分類部による分類結果、及び前記特徴抽出部による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票との類似度合を用いて機械学習を行うことにより前記対象帳票を分類する、
帳票仕分方法であって、
前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、
ことを特徴とする帳票仕分方法。 The acquisition department acquires the target form, which is the form to be sorted,
The type classification unit classifies the type of the target form using the trained model, and then
The feature extraction unit extracts the features of the ruled lines in the target form,
Based on the classification result by the type classification unit and the extraction result by the feature extraction unit, the subspecies classification unit performs machine learning using the degree of similarity with the form corresponding to the predefined character recognition definition program. Classify the target forms according to
It is a form sorting method,
The trained model is a model that is trained so that the output obtained by inputting the learning form approaches the type corresponding to the learning form, and is a model that predicts the type of the input form. be,
A form sorting method characterized by that.
仕分対象の帳票である対象帳票を取得する取得手段、
学習済みモデルを用いて、前記対象帳票の種別を分類する種別分類手段、
前記対象帳票における罫線の特徴を抽出する特徴抽出手段、
前記種別分類手段による分類結果、及び前記特徴抽出手段による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票との類似度合を用いて機械学習を行うことにより前記対象帳票を分類する亜種分類手段、
として機能させるためのプログラムであって、
前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、
プログラム。 Computer,
Acquisition method to acquire the target form, which is the form to be sorted,
A type classification means for classifying the types of the target form using the trained model,
A feature extraction means for extracting the characteristics of ruled lines in the target form,
Based on the classification result by the type classification means and the extraction result by the feature extraction means, the target form is classified by performing machine learning using the degree of similarity with the form corresponding to the definition structure of the character recognition defined in advance. Subspecies classification means,
It is a program to function as
The trained model is a model that is trained so that the output obtained by inputting the learning form approaches the type corresponding to the learning form, and is a model that predicts the type of the input form. be,
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018985A JP7420578B2 (en) | 2020-02-06 | 2020-02-06 | Form sorting system, form sorting method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018985A JP7420578B2 (en) | 2020-02-06 | 2020-02-06 | Form sorting system, form sorting method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021125040A true JP2021125040A (en) | 2021-08-30 |
JP7420578B2 JP7420578B2 (en) | 2024-01-23 |
Family
ID=77459189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018985A Active JP7420578B2 (en) | 2020-02-06 | 2020-02-06 | Form sorting system, form sorting method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7420578B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4302595B2 (en) | 1996-12-27 | 2009-07-29 | 富士通株式会社 | Form identification device |
JP5670787B2 (en) | 2011-03-18 | 2015-02-18 | 株式会社Pfu | Information processing apparatus, form type estimation method, and form type estimation program |
JP2016048444A (en) | 2014-08-27 | 2016-04-07 | 沖電気工業株式会社 | Document identification program, document identification device, document identification system, and document identification method |
JP6702629B2 (en) | 2014-12-27 | 2020-06-03 | 株式会社 ハンモック | Type OCR system |
JP6973782B2 (en) | 2017-09-27 | 2021-12-01 | 株式会社ミラボ | Standard item name setting device, standard item name setting method and standard item name setting program |
JP6928876B2 (en) | 2017-12-15 | 2021-09-01 | 京セラドキュメントソリューションズ株式会社 | Form type learning system and image processing device |
-
2020
- 2020-02-06 JP JP2020018985A patent/JP7420578B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP7420578B2 (en) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
US11475143B2 (en) | Sensitive data classification | |
US10621727B1 (en) | Label and field identification without optical character recognition (OCR) | |
US11514698B2 (en) | Intelligent extraction of information from a document | |
US20240012846A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN105426356B (en) | A kind of target information recognition methods and device | |
US20230004604A1 (en) | Ai-augmented auditing platform including techniques for automated document processing | |
US11954139B2 (en) | Deep document processing with self-supervised learning | |
US8582872B1 (en) | Place holder image detection via image clustering | |
WO2020164278A1 (en) | Image processing method and device, electronic equipment and readable storage medium | |
CN103761221B (en) | System and method for identifying sensitive text messages | |
US11600088B2 (en) | Utilizing machine learning and image filtering techniques to detect and analyze handwritten text | |
US20190205589A1 (en) | Latent fingerprint ridge flow map improvement | |
CN113011144A (en) | Form information acquisition method and device and server | |
US9558400B2 (en) | Search by stroke | |
JP7396568B2 (en) | Form layout analysis device, its analysis program, and its analysis method | |
AU2015204339A1 (en) | Information processing apparatus and information processing program | |
CN112241470A (en) | Video classification method and system | |
CN115880702A (en) | Data processing method, device, equipment, program product and storage medium | |
US11900705B2 (en) | Intelligent engineering data digitization | |
JP2020115175A (en) | Information processor, method for processing information, and program | |
JP2004171316A (en) | Ocr device, document retrieval system and document retrieval program | |
JP2021125040A (en) | Document sorting system, document sorting method and program | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
US11335108B2 (en) | System and method to recognise characters from an image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221115 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20230908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7420578 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |