JP2019133719A - Document sheet accommodating system, document sheet accommodating method, and document sheet accommodating program - Google Patents
Document sheet accommodating system, document sheet accommodating method, and document sheet accommodating program Download PDFInfo
- Publication number
- JP2019133719A JP2019133719A JP2019089296A JP2019089296A JP2019133719A JP 2019133719 A JP2019133719 A JP 2019133719A JP 2019089296 A JP2019089296 A JP 2019089296A JP 2019089296 A JP2019089296 A JP 2019089296A JP 2019133719 A JP2019133719 A JP 2019133719A
- Authority
- JP
- Japan
- Prior art keywords
- item
- character
- storage unit
- item area
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
Abstract
Description
本発明は、帳票を用いた処理を支援するための帳票対応システム、帳票対応方法及び帳票対応プログラムに関する。 The present invention relates to a form correspondence system, a form correspondence method, and a form correspondence program for supporting processing using a form.
取引を依頼する場合、帳票を用いることがある。例えば、銀行口座を用いて、振込を行なう場合は、振込依頼書を用いることがある。このような振込依頼書に記載された内容は、銀行のホストシステムにデータ投入されて振込処理が行なわれる。また、振込依頼書を文字認識することにより、取引処理に必要なデータを生成する場合もある。 When requesting a transaction, a form may be used. For example, when making a transfer using a bank account, a transfer request form may be used. The contents described in such a transfer request form are input into the bank host system for transfer processing. Moreover, the data required for transaction processing may be generated by recognizing characters of the transfer request form.
例えば、OCR処理において、帳票上の罫線、及び帳票上の固有情報を利用して類似する帳票種類の判別を行ない、その帳票種類に対応する定義体を使用して文字認識を行うことにより、帳票IDで管理されていない私製帳票についても対応可能な帳票処理装置が検討されている(例えば、特許文献1を参照。)。 For example, in OCR processing, a similar form type is determined using ruled lines on the form and unique information on the form, and character recognition is performed using a definition body corresponding to the form type. A form processing apparatus that can deal with a private form that is not managed by an ID has been studied (for example, see Patent Document 1).
上述のように、振込を依頼する場合、収納機関において作成された振込依頼書を利用することがある。この場合、収納機関によって振込依頼書のレイアウトが異なり、振込に必要な各項目の記載位置が異なる。この場合、罫線や固有情報だけでは、各項目に関する情報の特定が困難なこともある。また、手書きにより作成された帳票においては、文字認識処理(OCR処理)が困難な場合もある。このような場合には、的確及び円滑な帳票対応が困難である。 As described above, when requesting a transfer, a transfer request document created in the storage organization may be used. In this case, the layout of the transfer request form differs depending on the storage organization, and the description position of each item required for the transfer is different. In this case, it may be difficult to specify information about each item only with ruled lines and unique information. In addition, in a form created by handwriting, character recognition processing (OCR processing) may be difficult. In such a case, it is difficult to accurately and smoothly respond to the form.
上記課題を解決する帳票対応システムは、帳票に含まれる項目領域の配置を学習した帳票モデルを記憶した学習結果記憶部と、帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備える。そして、前記制御部が、帳票画像において、前記学習結果記憶部に記録された帳票モデルにより予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、前記正解率に基づいて、各項目領域において項目値を特定し、前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、前記照合の結果に応じて、前記項目値を用いた帳票処理を行なう。 The form correspondence system that solves the above problems is connected to a learning result storage unit that stores a form model that has learned the arrangement of item areas included in a form, and a registration information storage unit that stores item values included in the form. And a control unit. Then, the control unit calculates a character candidate recognized for each item area predicted by the form model recorded in the learning result storage unit in the form image, and a correct rate of the character candidate, and the correct rate The item value is specified in each item area, the specified item value is compared with the item value recorded in the registration information storage unit, and the item value is used according to the result of the comparison. Perform the form processing that was done.
本発明によれば、的確かつ効率的に、帳票を読み取り、この帳票に基づく取引を支援することができる。 According to the present invention, a form can be read accurately and efficiently, and transactions based on the form can be supported.
以下、図1〜図3に従って、帳票対応システム、帳票対応方法及び帳票対応プログラムを具体化した一実施形態を説明する。本実施形態では、金融機関において、口座振替依頼書等の帳票に基づく取引を支援する場合を想定する。 Hereinafter, according to FIGS. 1 to 3, an embodiment in which a form correspondence system, a form correspondence method, and a form correspondence program are embodied will be described. In the present embodiment, it is assumed that a financial institution supports a transaction based on a form such as an account transfer request form.
図1に示すように、スキャナ10、支援サーバ20、ホストシステム30及び担当者端末40を用いる。
スキャナ10は、取引に用いる口座振替依頼書(帳票)を読み取り、帳票画像を生成する処理を実行する。
As shown in FIG. 1, a
The
支援サーバ20は、帳票画像に基づいて、取引に用いる取引電文の作成を支援する金融機関のコンピュータシステムである。この支援サーバ20は、制御部21、教師情報記憶部22、学習結果記憶部23を備えている。
The
制御部21は、制御手段(CPUやGPU、RAM、ROM等)を備え、後述する処理(学習処理段階、項目認識段階、文字認識段階、照合処理段階等の各処理等)を行なう。そのための帳票対応プログラムを実行することにより、制御部21は、学習処理部210、項目認識部211、文字認識部212、照合処理部213として機能する。
The
学習処理部210は、各項目領域が設定された帳票画像を含む教師データを用いて、未知の帳票画像において帳票領域を特定するための帳票モデルを生成する学習処理を実行する。
項目認識部211は、帳票画像に含まれる項目領域の特定処理を実行する。
The
The
本実施形態では、機械学習により、項目領域を予測する。具体的には、学習処理部210は、帳票画像と、この帳票画像に含まれる項目領域を示した教師データを用いて学習処理(深層学習)を行なう。この学習処理において、学習処理部210は、帳票認識モデルを生成し、学習結果記憶部23に登録する。そして、予測段階では、項目認識部211は、学習結果記憶部23に記録されている帳票モデルを用いて、予測対象の帳票画像において各項目領域を予測する。
In the present embodiment, the item region is predicted by machine learning. Specifically, the
文字認識部212は、各項目領域に含まれる文字の認識処理を実行する。本実施形態では、手書き文字の文字画像と関連付けられたテキスト文字からなる教師データを用いた機械学習(深層学習)により、文字認識モデルを生成する。そして、この文字認識モデルを用いて、項目領域から切り出した各文字を認識する。この場合、各文字について、複数の認識候補を特定するとともに、各認識候補についての可能性(正解率)を算出する。
The
照合処理部213は、帳票画像により特定した文字列を用いて、予め準備された登録情報と照合する処理を実行する。照合処理部213は、文字種類に応じて、正解率を判定するための基準値に関するデータを保持させておく。
The
教師情報記憶部22には、機械学習に用いられる複数の教師データが記録されている。教師データは、機械学習を行なう前に記録される。教師データには、帳票種別毎に、帳票画像、項目領域、帳票項目に関するデータが記録される。
The teacher
帳票種別は、各帳票の種類を特定するための識別子である。
帳票画像は、この帳票をスキャンした画像である。
項目領域は、帳票画像において、各帳票項目の内容が記載された領域が指定される。
帳票項目は、帳票画像の中に含まれる各項目領域に対して、項目の内容(例えば、口座番号や名義人等)が設定される。
The form type is an identifier for specifying the type of each form.
The form image is an image obtained by scanning this form.
As the item area, an area in which the content of each form item is described in the form image is designated.
In the form item, the contents of the item (for example, an account number, a name holder, etc.) are set for each item area included in the form image.
学習結果記憶部23には、帳票画像において、各項目が記載された項目領域を予測するための帳票モデルが記録されている。帳票モデルは、教師データを用いての機械学習を行なった場合に記録される。帳票モデルには、帳票画像に基づいて特定される帳票種別や、この帳票種別に設けられた帳票項目の記載領域(項目領域)を予測するためのデータが記録される。
The learning
支援サーバ20には、ネットワークを介してホストシステム30及び担当者端末40が接続される。
ホストシステム30は、顧客の口座を管理する金融機関のコンピュータシステムである。このため、ホストシステム30は、口座情報記憶部32を備える。本実施形態では、口座情報記憶部32が登録情報記憶部として機能する。
A
The
口座情報記憶部32には、銀行の顧客の口座に関する情報を管理するための口座管理レコードが記録される。この口座管理レコードは、口座が開設された場合に登録される。この口座管理レコードには、口座番号、名義人名、入出金履歴、残高に関する情報が記録される。
The account
口座番号データ領域には、この口座を特定するための識別子(本支店コード、預金種別、口座番号)に関する情報が記録される。
名義人名データ領域には、この口座の名義人の氏名に関する情報が記録される。
入出金履歴データ領域には、この口座への入金やこの口座からの出金に関する情報(入出金日時、金額、入出金先口座等)に関する情報が記録される。
残高データ領域には、この口座の現在の残高に関する情報が記録される。
Information relating to an identifier (main branch code, deposit type, account number) for specifying the account is recorded in the account number data area.
In the nominee name data area, information related to the name of the nominee of this account is recorded.
In the deposit / withdrawal history data area, information related to depositing / withdrawing to / from this account (deposit / withdrawal date / time, amount, deposit / withdrawal destination account, etc.) is recorded.
In the balance data area, information related to the current balance of this account is recorded.
担当者端末40は、金融機関の担当者が用いるコンピュータ端末(クライアント端末)である。この担当者端末40は、制御部、入力部(ポインティングデバイスやキーボード等)、出力部(ディスプレイ等)を備えている。
The person-in-
(帳票を用いた取引処理)
次に、図2を用いて、帳票(口座振替依頼書)を用いた取引処理の処理手順を説明する。
(Transaction processing using forms)
Next, a processing procedure of transaction processing using a form (account transfer request form) will be described with reference to FIG.
まず、支援サーバ20の制御部21は、学習処理を実行する(ステップS1−0)。具体的には、制御部21の学習処理部210は、教師情報記憶部22に記録された教師データを用いて、画像、位置、サイズ等の情報でモデル構築を行なう機械学習を行なう。これにより、帳票画像において、帳票種別に関連付けられた、項目領域を特定するための帳票モデルを生成し、学習結果記憶部23に記録する。
First, the
次に、顧客から受け取った帳票の対応処理を説明する。
この場合、支援サーバ20の制御部21は、帳票スキャン処理を実行する(ステップS1−1)。具体的には、スキャナ10を用いて、処理対象の帳票のスキャンを行なう。この場合、制御部21の項目認識部211は、スキャナ10から帳票画像を取得する。
Next, processing for a form received from a customer will be described.
In this case, the
次に、支援サーバ20の制御部21は、項目予測処理を実行する(ステップS1−2)。具体的には、制御部21の項目認識部211は、学習結果記憶部23に記録された帳票モデルを用いて、画像認識により、帳票画像に含まれる項目領域を予測する。
Next, the
次に、支援サーバ20の制御部21は、項目抽出を完了したかどうかについての判定処理を実行する(ステップS1−3)。具体的には、制御部21の項目認識部211は、学習結果記憶部23に記録された帳票モデルに関連付けられたすべての帳票項目について、項目領域を特定できた場合には、項目抽出の完了と判定する。
Next, the
項目抽出を完了できなかったと判定した場合(ステップS1−3において「NO」の場合)、支援サーバ20の制御部21は、担当者による項目指定処理を実行する(ステップS1−4)。具体的には、制御部21の項目認識部211は、担当者端末40に帳票確認画面を出力する。この帳票確認画面には、帳票画像及び帳票に含まれる帳票項目候補が出力される。この場合、担当者は、帳票画像に含まれる項目領域を確認し、帳票項目を割り当てる。そして、項目認識部211は、帳票画像において、担当者によって指定された各項目領域を取得する。
When it is determined that item extraction has not been completed (in the case of “NO” in step S1-3), the
次に、支援サーバ20の制御部21は、教師データの登録処理を実行する(ステップS1−5)。具体的には、制御部21の項目認識部211は、帳票種別、帳票画像、項目領域及び帳票項目を含めた教師データを教師情報記憶部22に記録する。そして、支援サーバ20の制御部21は、この教師データを、再度、学習処理(ステップS1−0)に用いる。
Next, the
一方、項目抽出を完了したと判定した場合(ステップS1−3において「YES」の場合)、支援サーバ20の制御部21は、担当者による項目指定処理(ステップS1−4)、教師データの登録処理(ステップS1−5)をスキップする。
On the other hand, when it is determined that the item extraction has been completed (in the case of “YES” in step S1-3), the
次に、支援サーバ20の制御部21は、帳票項目毎に以下の処理を繰り返す。
ここでは、支援サーバ20の制御部21は、文字認識処理を実行する(ステップS1−6)。具体的には、制御部21の文字認識部212は、帳票画像の項目領域に含まれる各文字画像の文字認識を行なう。この場合、文字認識部212は、文字画像毎に、複数の文字候補と正解率とを算出する。
Next, the
Here, the
ここでは、図3に示すように、文字画像501〜507毎に、第1候補〜第3候補について各正解率を算出する。
そして、支援サーバ20の制御部21は、すべての帳票項目について処理を繰り返す。
Here, as shown in FIG. 3, each correct rate is calculated for the first to third candidates for each of the
And the
次に、支援サーバ20の制御部21は、正解率に基づいて登録情報との照合処理を実行する(ステップS1−7)。具体的には、制御部21の照合処理部213は、文字種類に応じて、予め定められた基準値を超える正解率の認識文字を組み合わせて文字列を生成する。この場合、各文字画像について、基準値を超える正解率の認識文字が存在しない場合には、正解率が高い順番で複数の認識文字を選択しておくことにより、正解率が低い文字画像について一致の許容範囲を広げる。そして、照合処理部213は、文字列と登録情報とを照合する。例えば、帳票項目「口座番号」、「名義人」については、ホストシステム30の口座情報記憶部32に記録されている口座番号及び名義人氏名と比較する。
Next, the
次に、支援サーバ20の制御部21は、認識完了かどうかについての判定処理を実行する(ステップS1−8)。具体的には、制御部21の照合処理部213は、認識文字列が含まれる登録情報を特定できた場合、帳票項目毎に、認識文字列と登録情報の文字列との一致率(一致文字数/全文字数)を算出する。そして、照合処理部213は、一致率が予め定められた照合判定基準値を超える場合には、認識完了と判定する。
Next, the
認識完了でないと判定した場合(ステップS1−8において「NO」の場合)、支援サーバ20の制御部21は、確認処理を実行する(ステップS1−9)。具体的には、制御部21の照合処理部213は、担当者端末40に、帳票確認画面を出力する。この帳票確認画面には、帳票画像及び帳票項目の項目値の入力欄が出力される。この場合、担当者は、帳票画像に含まれる項目領域を確認し、項目値を入力する。そして、照合処理部213は、帳票画像において、担当者によって入力された項目値を取得する。
When it is determined that the recognition is not completed (in the case of “NO” in step S1-8), the
一方、認識完了と判定した場合(ステップS1−8において「YES」の場合)、支援サーバ20の制御部21は、帳票処理を実行する(ステップS1−10)。具体的には、制御部21の照合処理部213は、処理対象の帳票について、帳票項目毎に認識した文字列を用いて取引電文を生成し、ホストシステム30に送信する。なお、確認処理(ステップS1−9)を実行した場合には、担当者によって入力された項目値用いて取引電文を生成し、ホストシステム30に送信する。
On the other hand, when it is determined that the recognition is completed (“YES” in step S1-8), the
以上、本実施形態によれば、以下に示す効果を得ることができる。
(1)本実施形態では、支援サーバ20の制御部21は、学習処理を実行する(ステップS1−0)。そして、支援サーバ20の制御部21は、帳票スキャン処理(ステップS1−1)、項目予測処理(ステップS1−2)を実行する。これにより、機械学習した帳票モデルを用いて、項目領域を特定することができる。
As described above, according to the present embodiment, the following effects can be obtained.
(1) In this embodiment, the
(2)本実施形態では、項目抽出を完了できなかったと判定した場合(ステップS1−3において「NO」の場合)、支援サーバ20の制御部21は、担当者による項目指定処理(ステップS1−4)、教師データの登録処理(ステップS1−5)を実行する。これにより、帳票モデルを用いて、項目領域を特定できなかった帳票画像について、人手作業で項目領域を特定し、教師データとして機械学習に用いることができる。
(2) In this embodiment, when it is determined that item extraction has not been completed (in the case of “NO” in step S1-3), the
(3)本実施形態では、支援サーバ20の制御部21は、文字認識処理(ステップS1−6)、正解率に基づいて登録情報との照合処理(ステップS1−7)を実行する。これにより、文字認識が正しい可能性がある文字候補を用いて照合を行なうことができる。
(3) In this embodiment, the
(4)本実施形態では、認識完了でないと判定した場合(ステップS1−8において「NO」の場合)、支援サーバ20の制御部21は、確認処理を実行する(ステップS1−9)。これにより、登録情報を確認できなかった帳票について、人手作業で修正することができる。
(4) In the present embodiment, when it is determined that the recognition is not completed (in the case of “NO” in step S1-8), the
(5)本実施形態では、支援サーバ20の制御部21は、帳票処理を実行する(ステップS1−10)。これにより、効率的に帳票を用いた取引を行なうことができる。
(5) In this embodiment, the
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、銀行で用いる帳票(口座振替依頼書)の読み取りを支援する場合を想定する。帳票を読み取り、帳票対応を行なう場合であれば、口座振替依頼書に限定されるものではなく、各種帳票を用いた処理に適用することができる。
This embodiment can be implemented with the following modifications. The present embodiment and the following modifications can be implemented in combination with each other within a technically consistent range.
In the above embodiment, it is assumed that reading of a form (account transfer request form) used in a bank is supported. If the form is read and the form is handled, it is not limited to the account transfer request form, and can be applied to processing using various forms.
・上記実施形態では、支援サーバ20の制御部21は、正解率に基づいて登録情報と照合処理を実行する(ステップS1−7)。具体的には、制御部21の照合処理部213は、予め定められた基準値を超える正解率の認識文字を組み合わせて文字列を生成する。正解率を用いた文字列の生成方法は、これに限定されるものではない。例えば、正解率の高い順番に複数の認識文字を組み合わせた組み合わせ候補を用いて、照合するようにしてもよい。
-In the above-mentioned embodiment, control
図4を用いて、組み合わせ候補を用いた照合処理を説明する。
ここでは、支援サーバ20の制御部21は、各文字の文字候補の特定処理を実行する(ステップS2−1)。具体的には、制御部21の文字認識部212は、文字認識処理により、各文字画像について、正解率の高い順番に複数の文字候補を特定する。例えば、正解率の上位2候補を特定する。
A matching process using combination candidates will be described with reference to FIG.
Here, the
次に、支援サーバ20の制御部21は、各文字候補の組み合わせの生成処理を実行する(ステップS2−2)。具体的には、制御部21の照合処理部213は、各文字画像について特定した文字候補の組み合わせ候補を生成する。ここで、7文字からなる文字列の場合には、128通り(2の7べき乗)の組み合わせ候補が生成される。
Next, the
次に、支援サーバ20の制御部21は、各組み合わせの正解率の合計値の算出処理を実行する(ステップS2−3)。具体的には、制御部21の照合処理部213は、各組み合わせについて、組み合わせ候補を構成する文字候補の正解率を合計した合計値を算出する。
Next, the
次に、支援サーバ20の制御部21は、正解率の合計値が基準値以上の組み合わせの抽出処理を実行する(ステップS2−4)。具体的には、制御部21の照合処理部213は、帳票項目の文字列の文字種類に応じて基準値を特定する。例えば、数字やアルファベットについては、漢字や仮名文字よりも高い基準値を用いる。例えば、文字種類が数字の場合には98%、漢字や仮名文字の場合には90%を用いる。そして、照合処理部213は、特定した基準値よりも合計値の組み合わせを特定する。
Next, the
次に、支援サーバ20の制御部21は、登録情報と照合処理を実行する(ステップS2−5)。具体的には、制御部21の照合処理部213は、基準値以上の合計値の組み合わせを用いて、登録情報(口座情報記憶部22に記録された情報)と照合する。
これにより、誤読み取りを考慮して、登録情報と照合することができる。
Next, the
Thereby, it is possible to collate with the registered information in consideration of erroneous reading.
・上記実施形態では、認識完了でないと判定した場合(ステップS1−8において「YES」の場合)、支援サーバ20の制御部21は、確認処理を実行する(ステップS1−9)。この場合、正解率に応じて、確認方法を変更するようにしてもよい。
In the above embodiment, when it is determined that the recognition is not completed (“YES” in step S1-8), the
図5、図6を用いて、この場合の確認処理を説明する。
ここでは、支援サーバ20の制御部21は、文字毎に以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、ステップS1−6と同様に、文字認識処理を実行する(ステップS3−1)。
The confirmation process in this case will be described with reference to FIGS.
Here, the
First, the
そして、図5に示すように、確認処理において、支援サーバ20の制御部21は、正解率に応じて表示方法の決定処理を実行する(ステップS3−2)。具体的には、制御部21の文字認識部212は、正解率に応じた出力形式を決定する。例えば、正解率が基準値以上の文字候補については、背景色(グレー)を濃くしたグレースケール表示を行なう。これにより、担当者は、正解率を考慮して確認することができる。一方、正解率が基準値未満の文字候補については、背景色と識別できるように表示する。また、認識文字と文字画像とを入れ替えて表示するようにしてもよい。例えば、正解率が基準値以上の文字候補については、認識文字を表示する。一方、正解率が基準値未満の文字候補については、文字画像を表示する。
そして、支援サーバ20の制御部21は、すべての文字画像について繰り返す。
これにより、担当者は効率的に確認作業を行なうことができる。
Then, as shown in FIG. 5, in the confirmation process, the
Then, the
As a result, the person in charge can efficiently perform the confirmation work.
・上記実施形態では、支援サーバ20の制御部21は、文字認識処理を実行する(ステップS1−6)。この場合、文字認識部212は、文字画像毎に、複数の文字候補と正解率とを算出する。ここで、正解率の高い文字画像を用いて学習するようにしてもよい。
In the above embodiment, the
図6に示すように、各文字画像511〜517において、文字候補と正解率を算出する。ここで、文字画像511,513,514の各正解率a1,c1,d1が基準値を超えている場合を想定する。
As shown in FIG. 6, in each character image 511-517, a character candidate and a correct answer rate are calculated. Here, it is assumed that the accuracy rates a1, c1, and d1 of the
この場合、支援サーバ20の制御部21は、正解率が高い文字を用いて学習処理を実行する(ステップS4−1)。具体的には、制御部21の文字認識部212は、正解率が高い文字画像511,513,514を用いて、文字特徴を学習する学習処理を実行する。ここでは、文字特徴としては、手書きのおける始筆,送筆,終筆、文字の傾き、大きさ等の筆致の特徴を用いる。
In this case, the
次に、支援サーバ20の制御部21は、学習結果を用いて再予測処理を実行する(ステップS4−2)。具体的には、制御部21の文字認識部212は、算出した文字特徴を用いて、正解率の低い文字画像の文字認識を、再実行する。
これにより、正解率が高い認識文字を用いて、書き手の特徴を把握し、この特徴を活かして正解率が低い認識文字の再認識を行なうことができる。
Next, the
As a result, it is possible to grasp the characteristics of the writer by using recognized characters with a high accuracy rate, and to re-recognize recognized characters with a low accuracy rate by using this feature.
・上記実施形態では、支援サーバ20の制御部21は、項目抽出の完了かどうかについての判定処理を実行する(ステップS1−3)。具体的には、制御部21の項目認識部211は、予め定められたすべての項目について項目領域を特定できた場合には、項目抽出の完了と判定する。ここで、他の方法を併用して項目を抽出するようにしてもよい。例えば、帳票項目を登録した項目辞書を準備しておき、帳票画像を文字認識した文字列により、帳票項目を特定するようにしてもよい。
In the above embodiment, the
図7を用いて、帳票処理方法を説明する。
ここでも、ステップS1−1〜S1−3と同様に、支援サーバ20の制御部21は、帳票スキャン処理(ステップS5−1)、項目予測処理(ステップS5−2)、項目抽出を完了したかどうかについての判定処理(ステップS5−3)を実行する。
The form processing method will be described with reference to FIG.
Here too, as in steps S1-1 to S1-3, has the
項目抽出を完了できなかったと判定した場合(ステップS5−3において「NO」の場合)、支援サーバ20の制御部21は、文字認識処理を実行する(ステップS5−4)。具体的には、制御部21の文字認識部212は、通常の文字認識処理により、帳票画像に含まれるすべての文字を認識する。
When it is determined that item extraction has not been completed (in the case of “NO” in step S5-3), the
次に、支援サーバ20の制御部21は、文字の認識位置に応じてグループ化処理を実行する(ステップS5−5)。具体的には、制御部21の項目認識部211は、認識文字の配置に基づいて、文字列をグループ化する。ここで、項目辞書を用いて帳票項目を表わす文字列を検索する。更に、帳票項目を構成する文字列を特定した場合には、特定した文字列の位置から所定範囲に含まれる文字列や、連結された罫線で囲まれた範囲内の文字列をグループ化して項目領域を特定する。
Next, the
次に、支援サーバ20の制御部21は、項目抽出を完了したかどうかについての判定処理を実行する(ステップS5−6)。具体的には、制御部21の項目認識部211は、認識文字の文字列を含む項目領域を特定できた場合には、項目抽出の完了と判定する。
Next, the
項目抽出を完了できなかったと判定した場合(ステップS5−6において「NO」の場合)、支援サーバ20の制御部21は、ステップS1−4、S1−5と同様に、担当者による項目指定処理(ステップS5−7)及び教師データの登録処理(ステップS5−8)を実行する。
If it is determined that item extraction has not been completed (NO in step S5-6), the
一方、項目抽出を完了したと判定した場合(ステップS5−3,S5−6において「YES」の場合)、項目指定処理(ステップS5−7)及び教師データの登録処理(ステップS5−8)をスキップする。
そして、支援サーバ20の制御部21は、帳票項目毎に文字認識処理(ステップS5−9)以降の処理を実行する。
On the other hand, when it is determined that the item extraction has been completed (in the case of “YES” in steps S5-3 and S5-6), an item designation process (step S5-7) and a teacher data registration process (step S5-8) are performed. skip.
And control
これにより、機械学習を用いて生成した帳票モデルにより帳票項目を推定できない場合にも、文字認識を利用して項目領域を特定することができる。 Thereby, even when a form item cannot be estimated by a form model generated using machine learning, an item area can be specified using character recognition.
次に、上記実施形態及び別例から把握できる技術的思想について以下に追記する。
〔a〕帳票に含まれる項目領域の配置を学習した帳票モデルを記憶した学習結果記憶部と、
帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備えた帳票対応システムであって、
前記制御部が、
帳票画像において、前記学習結果記憶部に記録された帳票モデルにより予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、
前記正解率に基づいて、各項目領域において項目値を特定し、
前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、
前記照合の結果に応じて、前記項目値を用いた帳票処理を行なうことを特徴とする帳票対応システム。
〔b〕帳票種別について、項目領域が設定された帳票画像を教師データとして用いて、項目領域を特定するための帳票モデルを生成し、前記学習結果記憶部に記録する学習処理を更に実行することを特徴とする〔a〕に記載の帳票対応システム。
〔c〕前記制御部が、前記学習結果記憶部に記録された帳票モデルにより項目領域を予測できない場合、前記帳票画像に含まれる文字画像を用いて文字認識を行ない、
前記文字認識した文字列の配置に基づいてグループ化を行ない、
前記グループ化された文字列を用いて前記項目領域を予測することを特徴とする〔a〕又は〔b〕に記載の帳票対応システム。
〔d〕認識文字の正解率の高さに応じて複数の文字候補を特定し、
前記正解率を用いて、複数の文字候補の組み合わせを生成し、
前記組み合わせを用いて、前記登録情報記憶部に記録された項目値の照合を行なうことを特徴とする〔a〕〜〔c〕の何れか一項に記載の帳票対応システム。
〔e〕帳票に含まれる項目領域の配置を学習した帳票モデルを記憶した学習結果記憶部と、
帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備えた帳票対応システムを用いて、帳票対応を支援するための方法であって、
前記制御部が、
帳票画像において、前記学習結果記憶部に記録された帳票モデルにより予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、
前記正解率に基づいて、各項目領域において項目値を特定し、
前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、
前記照合の結果に応じて、前記項目値を用いた帳票処理を行なうことを特徴とする帳票対応方法。
〔f〕帳票に含まれる項目領域の配置を学習した帳票モデルを記憶した学習結果記憶部と、
帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備えた帳票対応システムを用いて、帳票対応を支援するためのプログラムであって、
前記制御部を、
帳票画像において、前記学習結果記憶部に記録された帳票モデルにより予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、
前記正解率に基づいて、各項目領域において項目値を特定し、
前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、
前記照合の結果に応じて、前記項目値を用いた帳票処理を行なう手段として機能させることを特徴とする帳票対応プログラム。
Next, the technical idea that can be grasped from the above embodiment and other examples will be described below.
[A] a learning result storage unit that stores a form model that has learned the arrangement of item areas included in the form;
A form-corresponding system comprising a control unit connected to a registration information storage unit in which item values included in the form are recorded,
The control unit is
In the form image, calculate the character candidates recognized for each item area predicted by the form model recorded in the learning result storage unit, and the correct rate of the character candidates,
Based on the accuracy rate, identify the item value in each item area,
Collating the identified item value with the item value recorded in the registration information storage unit,
A form correspondence system that performs form processing using the item value according to the result of the collation.
[B] For a form type, using a form image in which an item area is set as teacher data, generate a form model for specifying the item area, and further execute a learning process of recording in the learning result storage unit The form corresponding system as described in [a].
[C] When the control unit cannot predict the item area by the form model recorded in the learning result storage unit, character recognition is performed using a character image included in the form image,
Grouping is performed based on the arrangement of the recognized character strings,
The form correspondence system according to [a] or [b], wherein the item area is predicted using the grouped character strings.
[D] Identify a plurality of character candidates according to the accuracy rate of recognized characters,
Generating a combination of a plurality of character candidates using the accuracy rate;
The form correspondence system according to any one of [a] to [c], wherein item values recorded in the registration information storage unit are collated using the combination.
[E] a learning result storage unit that stores a form model that has learned the arrangement of item areas included in the form;
A method for supporting form correspondence using a form correspondence system comprising a control unit connected to a registration information storage unit in which item values included in a form are recorded,
The control unit is
In the form image, calculate the character candidates recognized for each item area predicted by the form model recorded in the learning result storage unit, and the correct rate of the character candidates,
Based on the accuracy rate, identify the item value in each item area,
Collating the identified item value with the item value recorded in the registration information storage unit,
A form handling method, wherein a form process using the item value is performed according to the result of the collation.
[F] a learning result storage unit that stores a form model that has learned the arrangement of item areas included in the form;
A program for supporting a form correspondence using a form correspondence system including a control unit connected to a registration information storage unit in which item values included in a form are recorded,
The control unit
In the form image, calculate the character candidates recognized for each item area predicted by the form model recorded in the learning result storage unit, and the correct rate of the character candidates,
Based on the accuracy rate, identify the item value in each item area,
Collating the identified item value with the item value recorded in the registration information storage unit,
A form correspondence program that functions as means for performing form processing using the item values according to the result of the collation.
10…スキャナ、20…支援サーバ、21…制御部、210…学習処理部、211…項目認識部、212…文字認識部、213…照合処理部、22…教師情報記憶部、23…学習結果記憶部、30…ホストシステム、32…口座情報記憶部、40…担当者端末。
DESCRIPTION OF
Claims (4)
帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備えた帳票対応システムであって、
前記制御部が、
帳票画像において、前記学習結果記憶部に記録された帳票モデルにより、各帳票項目の項目領域を予測し、前記予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、
前記正解率に基づいて、各項目領域において項目値を特定し、
前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、
前記照合の結果に応じて、前記項目値を用いた帳票処理を行ない、
前記学習結果記憶部に記録された帳票モデルにより項目領域を予測できない場合、前記帳票画像に含まれる文字画像を用いて文字認識を行ない、
前記文字認識した文字列の配置に基づいてグループ化を行ない、
前記グループ化された文字列を用いて前記項目領域を予測することを特徴とする帳票対応システム。 A learning result storage unit that stores the form model for specifying the item area by learning the arrangement of the item area included in the form using the teacher data indicating each item area included in the form image;
A form-corresponding system comprising a control unit connected to a registration information storage unit in which item values included in the form are recorded,
The control unit is
In the form image, the form model recorded in the learning result storage unit predicts the item area of each form item, and calculates the character candidates recognized for each predicted item area and the correct rate of the character candidates. And
Based on the accuracy rate, identify the item value in each item area,
Collating the identified item value with the item value recorded in the registration information storage unit,
Depending on the result of the collation, form processing using the item value is performed,
If the item area cannot be predicted by the form model recorded in the learning result storage unit, character recognition is performed using a character image included in the form image,
Grouping is performed based on the arrangement of the recognized character strings,
A form correspondence system, wherein the item area is predicted using the grouped character strings.
前記正解率を用いて、複数の文字候補の組み合わせを生成し、
前記組み合わせを用いて、前記登録情報記憶部に記録された項目値の照合を行なうことを特徴とする請求項1に記載の帳票対応システム。 Identify multiple character candidates according to the accuracy rate of recognized characters,
Generating a combination of a plurality of character candidates using the accuracy rate;
2. The form correspondence system according to claim 1, wherein the combination is used to collate item values recorded in the registered information storage unit.
帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備えた帳票対応システムを用いて、帳票対応を支援するための方法であって、
前記制御部が、
帳票画像において、前記学習結果記憶部に記録された帳票モデルにより、各帳票項目の項目領域を予測し、前記予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、
前記正解率に基づいて、各項目領域において項目値を特定し、
前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、
前記照合の結果に応じて、前記項目値を用いた帳票処理を行ない、
前記学習結果記憶部に記録された帳票モデルにより項目領域を予測できない場合、前記帳票画像に含まれる文字画像を用いて文字認識を行ない、
前記文字認識した文字列の配置に基づいてグループ化を行ない、
前記グループ化された文字列を用いて前記項目領域を予測することを特徴とする帳票対応方法。 A learning result storage unit that stores the form model for specifying the item area by learning the arrangement of the item area included in the form using the teacher data indicating each item area included in the form image;
A method for supporting form correspondence using a form correspondence system comprising a control unit connected to a registration information storage unit in which item values included in a form are recorded,
The control unit is
In the form image, the form model recorded in the learning result storage unit predicts the item area of each form item, and calculates the character candidates recognized for each predicted item area and the correct rate of the character candidates. And
Based on the accuracy rate, identify the item value in each item area,
Collating the identified item value with the item value recorded in the registration information storage unit,
Depending on the result of the collation, form processing using the item value is performed,
If the item area cannot be predicted by the form model recorded in the learning result storage unit, character recognition is performed using a character image included in the form image,
Grouping is performed based on the arrangement of the recognized character strings,
A form correspondence method, wherein the item area is predicted using the grouped character strings.
帳票に含まれる項目値が記録された登録情報記憶部に接続される制御部とを備えた帳票対応システムを用いて、帳票対応を支援するためのプログラムであって、
前記制御部を、
帳票画像において、前記学習結果記憶部に記録された帳票モデルにより、各帳票項目の項目領域を予測し、前記予測した項目領域毎に文字認識した文字候補と、前記文字候補の正解率とを算出し、
前記正解率に基づいて、各項目領域において項目値を特定し、
前記特定した項目値と、前記登録情報記憶部に記録された項目値とを照合し、
前記照合の結果に応じて、前記項目値を用いた帳票処理を行ない、
前記学習結果記憶部に記録された帳票モデルにより項目領域を予測できない場合、前記帳票画像に含まれる文字画像を用いて文字認識を行ない、
前記文字認識した文字列の配置に基づいてグループ化を行ない、
前記グループ化された文字列を用いて前記項目領域を予測する手段として機能させることを特徴とする帳票対応プログラム。 A learning result storage unit that stores the form model for specifying the item area by learning the arrangement of the item area included in the form using the teacher data indicating each item area included in the form image;
A program for supporting a form correspondence using a form correspondence system including a control unit connected to a registration information storage unit in which item values included in a form are recorded,
The control unit
In the form image, the form model recorded in the learning result storage unit predicts the item area of each form item, and calculates the character candidates recognized for each predicted item area and the correct rate of the character candidates. And
Based on the accuracy rate, identify the item value in each item area,
Collating the identified item value with the item value recorded in the registration information storage unit,
Depending on the result of the collation, form processing using the item value is performed,
If the item area cannot be predicted by the form model recorded in the learning result storage unit, character recognition is performed using a character image included in the form image,
Grouping is performed based on the arrangement of the recognized character strings,
A form correspondence program that functions as means for predicting the item area using the grouped character strings.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019089296A JP7118923B2 (en) | 2019-05-09 | 2019-05-09 | Form handling system, form handling method and form handling program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019089296A JP7118923B2 (en) | 2019-05-09 | 2019-05-09 | Form handling system, form handling method and form handling program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018012285A Division JP6527256B1 (en) | 2018-01-29 | 2018-01-29 | Report support system, report support method and report support program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019133719A true JP2019133719A (en) | 2019-08-08 |
JP2019133719A5 JP2019133719A5 (en) | 2021-03-25 |
JP7118923B2 JP7118923B2 (en) | 2022-08-16 |
Family
ID=67546377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019089296A Active JP7118923B2 (en) | 2019-05-09 | 2019-05-09 | Form handling system, form handling method and form handling program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7118923B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021103581A (en) * | 2020-06-12 | 2021-07-15 | 北京百度網訊科技有限公司 | Method for extracting form in image, device for extracting form in image, electronic apparatus, computer readable storage medium, method for training form extraction module, and computer program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307639A (en) * | 1992-04-30 | 1993-11-19 | Toshiba Corp | Device for detecting address area of postal matter |
JP2001283150A (en) * | 2000-03-28 | 2001-10-12 | Fuji Data Processing Co Ltd | Data inputting method and image entry system |
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
JP2010009440A (en) * | 2008-06-30 | 2010-01-14 | Fujitsu Frontech Ltd | Character recognition program, character recognition apparatus, and character recognition method |
JP2017010069A (en) * | 2015-06-16 | 2017-01-12 | シャープ株式会社 | Information processor |
-
2019
- 2019-05-09 JP JP2019089296A patent/JP7118923B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307639A (en) * | 1992-04-30 | 1993-11-19 | Toshiba Corp | Device for detecting address area of postal matter |
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
JP2001283150A (en) * | 2000-03-28 | 2001-10-12 | Fuji Data Processing Co Ltd | Data inputting method and image entry system |
JP2010009440A (en) * | 2008-06-30 | 2010-01-14 | Fujitsu Frontech Ltd | Character recognition program, character recognition apparatus, and character recognition method |
JP2017010069A (en) * | 2015-06-16 | 2017-01-12 | シャープ株式会社 | Information processor |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021103581A (en) * | 2020-06-12 | 2021-07-15 | 北京百度網訊科技有限公司 | Method for extracting form in image, device for extracting form in image, electronic apparatus, computer readable storage medium, method for training form extraction module, and computer program |
JP7278321B2 (en) | 2020-06-12 | 2023-05-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method for extracting tables in images, apparatus for extracting tables in images, electronic devices, computer readable storage media, methods and computer programs for training table extraction modules |
Also Published As
Publication number | Publication date |
---|---|
JP7118923B2 (en) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9400806B2 (en) | Image triggered transactions | |
CN104834996B (en) | Order filling method and device | |
WO2021208696A1 (en) | User intention analysis method, apparatus, electronic device, and computer storage medium | |
US11830269B2 (en) | System for information extraction from form-like documents | |
JP6357621B1 (en) | Accounting processing apparatus, accounting processing system, accounting processing method and program | |
JP6527256B1 (en) | Report support system, report support method and report support program | |
CN117114514B (en) | Talent information analysis management method, system and device based on big data | |
JP2015118488A (en) | System, method and program for inputting account data | |
JPWO2019008766A1 (en) | Voucher processing system and voucher processing program | |
US20220335073A1 (en) | Fuzzy searching using word shapes for big data applications | |
US20080008391A1 (en) | Method and System for Document Form Recognition | |
CN113362162A (en) | Wind control identification method and device based on network behavior data, electronic equipment and medium | |
JP7118923B2 (en) | Form handling system, form handling method and form handling program | |
CN113168527A (en) | System and method for extracting information from entity documents | |
JP2020046860A (en) | Form reading apparatus | |
CN113255767A (en) | Bill classification method, device, equipment and storage medium | |
CN115661844A (en) | Model training and form information extraction method and electronic equipment | |
JP6993032B2 (en) | Accounting equipment, accounting systems, accounting methods and programs | |
TWM555521U (en) | Hospitality service system | |
WO2022029874A1 (en) | Data processing device, data processing method, and data processing program | |
Kumar et al. | Optical Character Recognition (OCR) Using Opencv and Python: Implementation and Performance Analysis | |
JP3898645B2 (en) | Form format editing device and form format editing program | |
JP6087879B2 (en) | Reception support system and reception support method | |
CN111310588A (en) | Online account opening application processing method and device, equipment and medium for gas system | |
CN114820211B (en) | Method, device, computer equipment and storage medium for checking and verifying quality of claim data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220803 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7118923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |