JP7312646B2 - 情報処理装置、文書識別方法、及び情報処理システム - Google Patents

情報処理装置、文書識別方法、及び情報処理システム Download PDF

Info

Publication number
JP7312646B2
JP7312646B2 JP2019154410A JP2019154410A JP7312646B2 JP 7312646 B2 JP7312646 B2 JP 7312646B2 JP 2019154410 A JP2019154410 A JP 2019154410A JP 2019154410 A JP2019154410 A JP 2019154410A JP 7312646 B2 JP7312646 B2 JP 7312646B2
Authority
JP
Japan
Prior art keywords
template
information
attribute
processor
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019154410A
Other languages
English (en)
Other versions
JP2021033743A (ja
Inventor
頼宏 信田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019154410A priority Critical patent/JP7312646B2/ja
Publication of JP2021033743A publication Critical patent/JP2021033743A/ja
Application granted granted Critical
Publication of JP7312646B2 publication Critical patent/JP7312646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、情報処理装置、文書識別方法、及び情報処理システムに関する。
特許文献1には、光学文字認識(OCR:Optical Character Recognition)の技術
を用いて紙ベースの文書から属性を読み出す方法に関して記載されている。
特許文献2には、顧客の請求書を電子的に提示する方法であって、顧客から電子的な請求書及び紙の請求書を受け取り、紙の請求書から電子イメージ情報を生成し、スキャンすることにより電子イメージ情報から第1OCRデータを抽出し、スキャンされた紙幣の種類の少なくとも1つの数値識別子を第1OCRデータから検索し、数値識別子の比較結果からスキャンされた紙の請求書のタイプを特定し、特定されたタイプに対応するテンプレートを用いて電子イメージ情報から第2OCRデータを抽出し、第2OCRデータから請求書情報を抽出し、請求書情報と知られた情報とを比較し、電子的な請求書及び請求書情報とを組み合わせた顧客請求提示を提示することが記載されている。
特許文献3には、紙に記載された文書から電子申請で必要な文字列を抽出する計算機に関して記載されている。計算機は、テンプレート情報及び辞書情報を保持し、紙に記載された文書の画像データに対して文字認識処理を実行し、文字認識処理の結果及び複数のテンプレートを用いて、複数のテンプレートの夫々に定義された属性の種別に対応する属性を抽出し、複数のテンプレートの夫々について抽出された属性に関するスコアを算出し、スコアに基づき属性の抽出精度が最も高いテンプレートを選択し、選択されたテンプレートを用いて抽出された属性を含む出力情報を生成する。
米国特許第8630949号明細書 特開2004-171316号公報 特開2018-205910号公報
F.Kimura et. al. "Modified quadratic discriminant functions and the application to chinese character recognition"IEEETransaction on Pattern Analysis and Machine Intelligence、vol.9、 pp.149-153 高橋他、「回帰的遷移通信ネットワークを用いた文字経路探索方式の開発」、電子情報通信学会技術研究報告 Vol.109 No.418 pp.141-146
デジタル化の進展に伴い電子申請を利用する機会が増加している。電子申請では、対象の書類等が全てデジタル化されているわけではなく、紙ベースの文書又は紙をスキャンすることによって作成された画像(以下、「文書画像データ」と称する。)が使用されている場合が多い。
例えば、企業における出納業務では、申請者が請求者から請求書を受け取り、申請者が請求者への請求金額の支払いを記載した請求書を電子申請により財務部門に提出し、財務部門に所属する人間が、請求書に記載された属性を確認し、電子申請が適正であると判断
した場合、企業から請求者に請求金額を支払う、といった手続きが行われている。
しかしこうした紙ベースの文書を取り扱う電子申請においては、紙ベースの文書を人が確認する必要があるため業務効率が低く、また業務に要するコストも大きい。
特許文献2では、スキャンされた紙の請求書のタイプを特定し、特定されたタイプに対応するテンプレートを用いて電子イメージ情報(文書画像データ)からOCRデータを抽出し、OCRデータから請求書情報を抽出し、請求書情報と知られた情報とを比較し、電子的な請求書及び請求書情報とを組み合わせた顧客請求提示を提示することにより、電子申請の業務において人が行う処理の工数を削減して業務の効率を改善し、業務に要するコストの削減を図る。
しかし特許文献2に記載の技術では、最適なテンプレートを選択できないことにより属性の抽出精度が低くなり、業務効率の改善及び業務に要するコストの削減効果が低下してしまう課題がある。
特許文献3では、複数のテンプレートの夫々について抽出された属性に関するスコアに基づき属性の抽出精度が最も高いテンプレートを選択し、選択されたテンプレートを用いて抽出された属性を含む出力情報を生成することにより、特許文献2の課題の解決を図る。
しかし上記のテンプレートは、ユーザが帳票ごとにマウスで1つ1つの項目を指定して登録する必要があり、とくに業務規模が大きく帳票の種類が数千から数万に上る場合、ユーザは多大な労力とコストを強いられる。
本発明は、こうした背景に鑑みてなされたものであり、文書画像データからの情報の抽出に際して用いるテンプレートを効率よく生成することが可能な、情報処理装置、文書識別方法、及び情報処理システムを提供することを目的とする。
上記目的を達成するための本発明の一つは、紙に記載された文書の特徴を示す文字列である属性を抽出する情報処理装置であって、プロセッサ及び前記プロセッサと接続される記憶装置を備え、前記記憶装置は、少なくとも1つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、前記プロセッサは、前記紙に記載された文書の画像データである文書画像データに対して文字認識処理を実行し、前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出し、前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出し、前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、前記記憶装置は、前記テンプレートの候補となる複数のテンプレート候補を記憶し、前記プロセッサは、前記複数のテンプレート候補の夫々が含む前記属性の数を求め、前記属性の数が同じテンプレート候補をグループ化し、前記属性の数が最大のグループに属する前記テンプレート候補を選出し、選出した前記テンプレート候補に基づき前記テンプレートを生成し、前記記憶装置は、生成した前記テンプレートを前記テンプレート情報として記憶する。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、文書画像データからの情報の抽出に際して用いるテンプレートを効率よく生成することができる。
文書審査システムの概略的な構成を示す図である。 計算機のハードウェア構成及びソフトウェア構成を説明する図である。 テンプレート情報のデータ構造の一例を示す図である。 単語辞書のデータ構造の一例を示す図である。 表記辞書のデータ構造の一例を示す図である。 文書審査処理の概要を説明するフローチャートである。 文書サマリ情報生成処理を説明する図である。 OCR要素のデータ構造の一例を示す図である。 特徴ベクトルのデータ構造の一例を示す図である。 文書サマリ情報生成処理を説明するフローチャートである。 OCR処理の一例を説明するフローチャートである。 スコア算出処理を説明するフローチャートである。 代表OCR要素選択処理の一例を説明するフローチャートである。 テンプレート自動生成処理の一例を説明するフローチャートである。 テンプレート候補蓄積処理の一例を説明するフローチャートである。 テンプレート候補蓄積処理を説明する図である。 テンプレート候補情報の一例である。 テンプレート登録処理を説明する図である。 属性照合によるテンプレート候補選出処理の一例を説明するフローチャートである。 属性照合によるテンプレート候補選出処理を説明する図である。 位置照合によるテンプレート候補選出処理の一例を説明するフローチャートである。 位置照合によるテンプレート候補選出処理を説明する図である。 第2実施形態のテンプレート候補蓄積処理を説明するフローチャートである。 色情報抽出処理の詳細を説明するフローチャートである。 色情報抽出処理を説明する図である。 第2実施形態のテンプレート候補情報の一例である。 第2実施形態のテンプレート登録処理を説明するフローチャートである。 色情報照合によるテンプレート候補選出処理の詳細を説明するフローチャートである。 色情報照合によるテンプレート候補選出処理を説明する図である。 閾値設定画面の一例を示す図である。 出力画面の一例を示す図である。
以下、実施形態について図面を参照しつつ説明する。尚、以下の説明において、同一又は類似の機能を有する構成について同一の符号を付すことにより重複した説明を省略することがある。以下の説明において、符号の前に付した「S」の文字は処理ステップを意味する。
[第1実施形態]
図1に第1実施形態として説明する情報処理システム(以下、「文書審査システム1」と称する。)の概略的な構成を示している。文書審査システム1は、計算機100(情報処理装置)、入力端末110、クライアント端末120、及びスキャナ130を含む。計算機100、入力端末110、及びクライアント端末120は、通信ネットワーク150を介して互いに通信可能な状態で接続されている。スキャナ130は、計算機100に通信可能な状態で接続されている。
通信ネットワーク150は、例えば、無線又は有線の通信基盤を用いて構成され、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等
である。スキャナ130は、計算機100に直接接続されてもよいし、また通信ネットワーク150を介して接続されてもよい。
文書審査システム1に含まれる計算機100、入力端末110、クライアント端末120、及びスキャナ130の数は任意の数に設定することができる。
計算機100は、電子申請に関する各種の処理を実行する。クライアント端末120は、電子申請を行うユーザ(申請者)が操作する端末である。ユーザは、クライアント端末120を操作して電子申請に必要な文書を入力する。ユーザは、電子申請を行う会社や行政施設等の組織に直接文書を提出してもよい。文書は、例えば、請求書、領収書、源泉徴収票、及び税金通知等であるが、文書の種類は限定されない。
電子申請時に入力される文書には、電子申請の審査に用いる文字列(1文字の場合を含む。以下同様。)である属性が複数含まれている。例えば、文書が請求書の場合、請求金額、請求者、請求宛先、振込先を指定する銀行名、支店名、口座種別、及び口座番号等の文字列が属性として含まれる。尚、文書審査システム1において、属性は、属性の種別(識別情報)と、属性として抽出される文字列とを対応づけて管理される。
入力端末110は、計算機100を管理する管理者が操作する端末である。スキャナ130は、紙の文書から画像データ(以下、「文書画像データ701」と称する。)を生成する。尚、本実施形態では、文書画像データ701はカラー画像データであるものとする(例えば、銀行の帳票には枠線等がカラー印刷されたものが含まれる。)。スキャナ130は、フラットベッドスキャナ及びオートシートフィーダ付きのスキャナ等であるが、スキャナ130の種類は必ずしも限定されない。例えば、スキャナ130の代わりにCCD(Charge Coupled Device)等の素子を用いて画像を撮影するデジタルカメラを画像入力
装置として用いてもよい。文書画像データ701の画像形式は問わない。
図2は、第1実施形態の計算機100のハードウェア構成及びソフトウェア構成を説明する図である。同図に示すように、計算機100は、プロセッサ201、主記憶装置202、副記憶装置203、通信インタフェース204、入力装置205、及び出力装置206を有する。各ハードウェアは、内部バス等を介して互いに接続される。図2では、各ハードウェアの数は1つとしているが、2つ以上でもよい。計算機100は、クラウドシステム(Cloud System)が提供するクラウドサーバ(Cloud Server)等により実現される仮想的な情報処理装置でもよい。計算機100では、例えば、オペレーティングシステム、デバイスドライバ、ファイルシステム、DBMS(DataBase Management System)等が導入されていてもよい。入力端末110及びクライアント端末120のハードウェア構成は、計算機100と同様である。
プロセッサ201は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmab
le Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成される。プロセッサ201は、主記憶装置
202に格納されるプログラムを実行する。プロセッサ201がプログラムにしたがって処理を実行することによって、各種の機能を実現するモジュールとして動作する。以下の説明では、処理部であるモジュールを主語として処理を説明する場合、プロセッサ201が当該モジュールを実現するプログラムを実行していることを示す。モジュールの機能は、FPGAやASIC等を用いてハードウェアとして実現してもよい。
主記憶装置202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。主記憶装置202は、プロセッサ201が実行するプログラム及びモジュールが使用する情報(データ)を記憶する。また主記憶装置202は、モジュールが一時的に使用するワークエリアを含む。
同図に示すように、主記憶装置202は、文書審査モジュール211、学習処理モジュール212、及びテンプレート生成モジュール213を実現するプログラムを記憶する。また主記憶装置202は、テンプレート情報221、単語辞書222、表記辞書223、及びテンプレート候補情報224を記憶する。
文書審査モジュール211は、電子申請の審査に関する処理を実現する。文書審査モジュール211が実行する処理の詳細については後述する。
学習処理モジュール212は、データの選択方法や抽出方法、及び分類方法に関する各種の機械学習を実行する。尚、機械学習のアルゴリズムは、例えば、ロジスティック回帰、ランダムフォレスト、デシジョンフォレスト、デシジョンジャングル、ブーストデシジョンツリー、ニューラルネットワーク、ディープニューラルネットワーク、平均化パーセプトロン、サポートベクタマシン、ローカル詳細サポートベクタマシン、及びベイズポイントマシン等である。
テンプレート生成モジュール213は、テンプレートの自動生成に関する処理を実現する。
テンプレート情報221は、文書審査に使用する文字列を文書から読み出すためのテンプレートを管理する情報である。テンプレート情報221の詳細については後述する。
単語辞書222及び表記辞書223は、属性として抽出する文字列が定義された情報であり、後述するスコアの算出時等に使用される情報である。単語辞書222及び表記辞書223の詳細については後述する。
副記憶装置203は、ハードディスクドライブ、SSD(Solid State Drive)、光学
式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。主記憶装置202に格納されるプログラム及び情報は、副記憶装置203に格納されてもよい。この場合、プロセッサ201が、副記憶装置203からプログラム及び情報を読み出し、主記憶装置202にロードする。
通信インタフェース204は、通信ネットワーク150を介して行われる他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、各種無線通信モジュール、NIC(Network Interface Card)、USBモジュール、シリアル通信モジュール等である。
入力装置205は、計算機100に対してデータを入力するための装置である。例えば、入力装置205は、キーボード、マウス、及びタッチパネル等を含む。
出力装置206は、データの入力画面及び処理結果等を出力する装置である。出力装置206は、タッチパネル及びディスプレイ等を含む。
図3は、テンプレート情報221のデータ構造の一例である。同図に示すように、テンプレート情報221は、テンプレート番号301、属性302、及び位置情報303から構成されるエントリ(レコード)を含む。1つのエントリは1つのテンプレートに対応している。1つのエントリには、テンプレートにおいて定義された属性の行が1つ以上含まれる。
テンプレート番号301は、テンプレートを一意に識別する識別情報を格納するフィールドである。本例では、テンプレートの識別情報は、エントリの識別情報としても用いられる。
属性302は、テンプレートに含まれる属性の種別を表す情報である属性名称を格納するフィールドである。
位置情報303は、属性の種別に対応する属性の紙面上の位置に関する情報を格納するフィールドである。例えば、矩形領域の右上及び左上の座標や、矩形領域の左上及び右下の座標が、位置情報303に格納される。尚、座標は、相対座標でもよいし、絶対座標でもよい。また位置情報303には、複数の位置を指定する情報が格納されてもよい。位置情報303に格納される情報に限定されない。例えば、エントリは、属性の長さ及び属性が記載されている範囲等を格納するフィールドを含んでいてもよい。
図4は、単語辞書222のデータ構造の一例を示す図である。単語辞書222は、属性として抽出する単語を定義する情報であり、属性401及び文字列402から構成されるエントリを含む。1つのエントリが1つの属性に対応する。
属性401は、属性名称を格納する。文字列402は、属性401に分類される単語(文字列)を格納する。
図5は、表記辞書223のデータ構造の一例を示す図である。表記辞書223は、属性として抽出する数値に対応する文字列を定義する情報であり、属性501及び表記502から構成されるエントリを含む。1つのエントリが1つの属性に対応する。属性501は、属性名称を格納する。表記502は、属性501に分類される数値(文字列)の表記ルールを格納する。
図6は、計算機100が実行する文書審査処理S100の概要を説明するフローチャートである。
まず文書審査モジュール211は、ユーザが操作するクライアント端末120から、電子申請の要求を受け付ける(S101)。電子申請の要求には、審査の対象となる文書の文書画像データ701が含まれる。文書画像データ701が外部の記憶装置に格納されている場合、ユーザは、文書画像データ701の識別情報を電子申請の要求に含めてもよい。またユーザは、紙の文書を提出してもよく、その場合、計算機100は、スキャナ130を用いて紙の文書をスキャンして文書画像データ701を生成する。
続いて、文書審査モジュール211は、文書サマリ情報生成処理S102を実行する。文書サマリ情報生成処理S102では、後続する電子申請の審査処理S103において計算機100が参照する情報である文書サマリ情報705が生成される。
文書サマリ情報705は、文書画像データ701から抽出された属性をまとめた情報である。例えば、文書画像データ701が請求書をスキャンした画像データである場合、請求金額、請求者名、被請求者名、振込先の、銀行名、支店名、口座種別、口座番号等に対応する属性(文字列)が、文書サマリ情報705に含まれる。また例えば、文書画像データ701が領収書をスキャンした画像データである場合、文書サマリ情報705には、金額、物を購入した人又は組織の名称やサービスの提供を受けた人又は組織の名称、物の販売又はサービスの提供を行った人又は組織の名称等に対応する属性(文字列)が含まれる。また例えば、文書画像データ701が源泉徴収票をスキャンした画像データである場合、文書サマリ情報705には、人の氏名、人が所属する組織の名称、人の収入額、及び人の減収徴収額等に対応する属性(文字列)が含まれる。
計算機100は、文書サマリ情報705を用いて電子申請の審査に関する処理を行う(S103)。計算機100は、例えば、審査の結果として「許可」及び「拒絶」のいずれかの応答をユーザに出力する。
図7は、図6の文書サマリ情報生成処理S102を説明する図である。
同図に示すように、まず文書審査モジュール211は、入力された文書画像データ701に対してOCR処理を実行する(S1)。
続いて、文書審査モジュール211は、OCR処理の結果とテンプレート情報221とに基づき、各テンプレートに含まれる属性に関するスコアを算出する(S2)。後述するように、本例では、1つの属性に対して観点の異なる複数のスコアが算出される。文書審査モジュール211は、属性とスコアを対応付けた情報であるOCR要素702を生成する。図7に示す1つの矩形は1つのOCR要素702に対応する。
図8にOCR要素702のデータ構造の一例を示す。同図に示すように、OCR要素702は、属性811、項目値812、位置813、及びスコア814を含む。
属性811は、属性名称を格納するフィールドである。項目値812は、文書から抽出された属性(文字列)を格納するフィールドである。位置813は、紙面上の属性の位置を格納する。スコア814は、テンプレートを用いて抽出された属性(文字列)に関連する各種のスコアを格納するフィールド群である。本例では、表記スコア、単語スコア、位置スコア、面積スコア、項目スコア、及び出現回数スコアが算出される。尚、OCR要素702には、例示する全てのスコアが含まれていなくてもよく、例えば、表記スコア、単語スコア、及び位置スコアのみを含むOCR要素702でもよい。
表記スコアは、属性が表記辞書223に登録された表記ルールに一致する度合いを表す値である。単語スコアは、属性が単語辞書222に登録された単語と一致する度合いを表す値である。位置スコアは、文書画像データ701における属性の位置と、テンプレートにおける属性の位置とのズレの度合いを表す値である。面積スコアは、属性を含む矩形領域の面積に関連する値である。項目スコアは、文書画像データ701とテンプレートとの間での、属性の種別が同一である属性間の距離に関連する値である。出現回数スコアは、文書画像データ701とテンプレートとの間での、属性の出現回数に関する値である。
図7に戻り、続いて、文書審査モジュール211は、各テンプレートのOCR要素70
2に基づき、文書サマリ情報705の生成に適したテンプレートを選択する。さらに、文書審査モジュール211は、選択されたテンプレートに含まれる各属性の種別のOCR要素702の中から代表OCR要素703を選択する(S3)。図7に示す1つの矩形は1つの代表OCR要素703に対応する。代表OCR要素703は属性毎に選択される。例えば、選択されたテンプレートに3つ(3種類)の属性が含まれる場合、3つの代表OCR要素703が選択される。
続いて、文書審査モジュール211は、代表OCR要素703を用いて特徴ベクトル704と文書サマリ情報705を算出する(S4)。文書サマリ情報705は、代表OCR要素703の属性811及び項目値812等をまとめることにより生成される。
図9に文書審査モジュール211が生成する特徴ベクトル704のデータ構造の一例を示す。同図に示すように、特徴ベクトル704は、各代表OCR要素703のスコアを成分とするベクトルを含む。
ところで、以上の仕組みにより生成された文書サマリ情報705は、電子申請の審査に使用できる程度に信頼性を有しているとは限らず、実際の業務においては、信頼性を示す指標をユーザに提示して確認を促す必要がある。本例では、文書審査モジュール211が、生成された文書サマリ情報705の信頼性(確信度)を評価し(S5)、その結果を評価値として文書サマリ情報705とともに出力する(S6)。これにより電子申請に関する業務をスムーズに進行させることができる。
文書審査モジュール211は、特徴ベクトル704を評価式に代入することにより評価値を算出する。評価式は、1つ以上のパラメータを用いて定義される。尚、評価式のパラメータは、予め設定されているものとする。また別の方法として、文書審査モジュール211が、学習済の機械学習モデルを用いて評価値を算出するようにしてもよい。
ユーザは、出力された評価値に基づき、例えば、次のようにして文書サマリ情報705の取り扱いを決定して審査の作業を進める。例えば、評価値が予め設定された第1閾値以上である場合、ユーザは、文書サマリ情報705の信頼性が高いと判断し、生成された文書サマリ情報705について修正を行わない(以下、この取り扱いのことを「ケース0」と称する。)。また例えば、評価値が第1の閾値未満であり、かつ、予め設定された第2の閾値以上である場合、ユーザは、1人の管理者が文書サマリ情報を入力する取り扱い(以下、この取り扱いのことを「ケース1」と称する。)とする。即ちこの場合、1人の管理者が文書画像データ701等を参照して作成した文書サマリ情報を、入力端末110を操作して計算機100に入力する。また例えば、評価値が第2の閾値未満である場合、ユーザは、2人の管理者が文書サマリ情報の入力を入力する取り扱い(以下、この取り扱いのことを「ケース2」と称する。)とする。この場合、2人の管理者が文書画像データ701等を参照して作成した文書サマリ情報を、入力端末110を操作して計算機100に入力する。
図7に戻り、文書審査モジュール211が評価した評価値が予め設定された第3閾値未満である場合、テンプレート生成モジュール213は、文書画像データ701に基づきテンプレートを自動生成する(S7)。ユーザは第3閾値を任意に設定することができるが、例えば、第1閾値又は第2閾値以下の値とする。尚、テンプレートの自動生成に関する処理の詳細については後述する。
図10は、図6及び図7に示した文書サマリ情報生成処理S102の一例を説明するフローチャートである。
まず文書審査モジュール211は、文書画像データ701から計算機100が扱うことができる文字列群のデータを抽出する処理(以下、「OCR処理S201」と称する。)を行う。OCR処理S201の詳細については後述する。
次に、文書審査モジュール211は、テンプレート情報221から1つのテンプレートを選択する(S202)。例えば、文書審査モジュール211は、テンプレート情報221の先頭のエントリから順に選択する。
続いて、文書審査モジュール211は、前述したスコアを算出する処理(以下、「スコア算出処理S203」と称する。)を行う。スコア算出処理S203の詳細については後述する。
続いて、文書審査モジュール211は、全てのテンプレートについて処理が完了したか否かを判定する(S204)。全てのテンプレートについて処理が完了していないと判定された場合(S204:NO)、処理はS202に戻る。全てのテンプレートについて処理が完了したと判定された場合(S204:YES)、文書審査モジュール211は、代表となるOCR要素(以下、「代表OCR要素」と称する。)を選択する処理(以下、「代表OCR要素選択処理S205と称する」)を行う。代表OCR要素選択処理S205の詳細については後述する。
続いて、文書審査モジュール211は、代表OCR要素703を用いて特徴ベクトル704を生成するとともに(S206)、文書サマリ情報705を生成する(S207)。
続いて、文書審査モジュール211は、特徴ベクトルの評価処理(以下、「特徴ベクトル評価処理S208」と称する。)を実行して評価値を求める。
続いて、文書審査モジュール211は、求めた評価値が予め設定した第3閾値以上であるか否かを判定する(S209)。評価値が第3閾値未満である場合(S209:NO)、テンプレート生成モジュール213は、新たなテンプレート(以下、「新テンプレート」と称する。)を生成する処理(以下、「テンプレート自動生成処理S210」と称する。)を行うとともに、文書サマリ情報705と評価値を出力する(S211)。一方、評価値が第3閾値以上である場合(S209:YES)、文書審査モジュール211は、テンプレートの生成は行わず、文書サマリ情報705と評価値を出力する(S211)。
図11は、図10に示したOCR処理S201の一例を説明するフローチャートである。
まず文書審査モジュール211は、文書画像データ701から枠(セル)を検出し(S301)、枠外の領域及び枠内の領域から文字列が存在する領域(文字列領域)を検出する(S302)。本実施形態では、文字列領域は、矩形の領域として検出されるものとする。S301及びS302の処理としては、例えば、特許文献2に記載された方法を用いる。次に、文書審査モジュール211は、辞書を用いて文字列領域に含まれる文字列の識別処理を実行する(S303)。文字列の識別処理は、例えば、非特許文献1に記載の方法を用いる。
図12は、文書審査モジュール211が実行するスコア算出処理S203の一例を説明するフローチャートである。
まず文書審査モジュール211は、S202で選択されたテンプレート(以下、「選択中のテンプレート」と称する。)に含まれる属性種別の中から処理対象とする属性(以下
、「選択中の属性」と称する。)を選択する(S401)。即ちここではテンプレート情報221の選択中のテンプレートに対応するエントリに含まれる属性302が1つ選択される。
続いて、文書審査モジュール211は、選択中の属性に対応するOCR要素702を生成する(S402)。具体的には、以下の処理が実行される。
文書審査モジュール211は、単語辞書222を参照し、OCR処理が実行された文書画像データ701から、選択中の属性に対応するエントリの文字列402に一致又は類似する属性(文字列)を検索する。このとき文書審査モジュール211は、図示しない類義語辞書を用いて、文字列402と同一の文字列だけではなく、意味等が一致又は類似する属性(文字列)を検索する。また文書審査モジュール211は、表記辞書223を参照し、OCR処理が実行された文書画像データ701から選択中の属性に対応するエントリの表記502に一致又は類似する属性(文字列)を検索する。
続いて、文書審査モジュール211は、空のOCR要素702を生成し、選択中の属性を属性811に設定する。文書審査モジュール211は、検索された属性を項目値812に設定し、検索された属性の夫々の位置を位置813に設定する。この時点では、検索された1つの属性に対して、1つのOCR要素702が生成される。
続いて、文書審査モジュール211は、OCR要素702の位置813に基づき、検索された文字列間の距離を算出し、距離が予め設定された第4閾値以下である文字列のOCR要素702を1つのOCR要素702に統合する。この場合、統合されたOCR要素702の項目値812及び位置813には、複数の値が設定される。
単語辞書222及び表記辞書223のいずれを用いても属性が抽出されなかった場合、文書審査モジュール211は、属性811に選択中の属性を設定し、項目値812及び位置813を空欄に設定し、スコア814の全ての値を「0」に設定する。尚、このように属性が抽出されなかった場合、文書審査モジュール211が、選択されたテンプレートを不適切なテンプレートであると判定し、スコア算出処理を終了するようにしてもよい。以上が図12のS402の処理の説明である。
続いて、文書審査モジュール211は、各OCR要素702のスコアを算出する(S403)。具体的には、以下の処理が実行される。
文書審査モジュール211は、単語辞書222及び項目値812を参照し、選択中の属性に対応するエントリの文字列402と、単語辞書222を用いて抽出された属性とを比較し、比較結果に基づき単語スコアを算出する。例えば、文字列の類似度が単語スコアとして算出される。類似度等の算出方法としては、例えば、特許文献2に記載の方法を用いる。尚、単語辞書222を用いた検索処理によって抽出された属性が存在しない場合、文書審査モジュール211は、「0」等の既定値を単語スコアとして設定する。
次に、文書審査モジュール211は、表記辞書223及び項目値812を参照し、選択中の属性に対応するエントリの表記502と、表記辞書223を用いて抽出された属性とを比較し、比較結果に基づき表記スコアを算出する。例えば、表記502の少なくとも1つの表記と属性との一致度が表記スコアとして算出される。尚、一致度等の算出方法は、例えば、非特許文献2に記載の技術を用いる。尚、表記辞書223を用いた検索処理によって抽出された属性が存在しない場合、文書審査モジュール211は、「0」等の既定値を表記スコアとして設定する。
続いて、文書審査モジュール211は、項目値812に設定された属性の出現回数に基づき出現スコアを算出する。例えば、出現回数そのものが出現スコアとして算出される。項目値812に2つ以上の属性が設定されている場合、いずれかの属性の出現回数を用いて出現スコアが算出されてもよい。尚、出現回数を評価できる値であればどのような算出方法でもよい。
続いて、文書審査モジュール211は、位置813及び選択中の属性に対応する行の位置情報303を用いて属性の位置の差を算出し、当該差に基づき位置スコアを算出する。本例では、差をパラメータとする数式を用いて位置スコアが算出される。尚、属性の位置の差を評価できる値であればどのような算出方法でもよい。
文書審査モジュール211は、項目値812に設定された属性の領域の大きさに基づき面積スコアを算出する。例えば、文書画像データ701に対応する紙における属性の領域の割合が面積スコアとして算出される。尚、項目値812に設定された属性の領域の大きさを評価できる値であればどのような算出方法でもよい。
文書審査モジュール211は、位置813を参照して、属性種別が同一である属性間の距離を算出し、当該距離に基づき項目スコアを算出する。例えば、単語辞書222を用いて抽出された属性と、表記辞書223を用いて抽出された属性との間の距離が算出される。本例では、属性間の距離の逆数をパラメータとする数式を用いて項目スコアが算出される。尚、2つの属性の位置を評価できる値であればどのような算出方法でもよい。項目値812に複数の属性が設定されるOCR要素702の場合、前述した算出方法に基づき項目スコアが算出される。一方、項目値812に1つの属性が設定されるOCR要素702の場合、「0」等の既定値が項目スコアとして算出される。
文書審査モジュール211は、上記で説明した各スコアをOCR要素702のスコア814に設定する。以上が図12のS403の処理の説明である。
続いて、文書審査モジュール211は、全ての属性種別について処理が完了したか否かを判定する(S404)。全ての属性種別について処理が完了していないと判定された場合、文書審査モジュール211は、S401に戻り、同様の処理を実行する。全ての属性種別について処理が完了したと判定された場合、文書審査モジュール211は、スコア算出処理を終了する。
図13は、文書審査モジュール211が実行する代表OCR要素選択処理S205の一例を説明するフローチャートである。
まず文書審査モジュール211は、テンプレート情報221からテンプレートを選択する(S501)。また文書審査モジュール211は、選択されたテンプレート(以下、「選択中のテンプレート」と称する。)に含まれる属性種別の中から処理対象とする属性(以下、「選択中の属性」と称する。)を1つ選択する(S502)。
文書審査モジュール211は、選択中の属性に対応するOCR要素702が複数存在するか否かを判定する(S503)。即ち、属性811が選択中の属性に一致するOCR要素702が2つ以上存在するか否かが判定される。
選択中の属性に対応するOCR要素702が1つであると判定された場合、文書審査モジュール211は、1つのOCR要素702を候補OCR要素に設定する(S504)。
一方、選択中の属性に対応するOCR要素702が複数存在すると判定された場合、文
書審査モジュール211は、複数のOCR要素702の中から候補OCR要素を1つ選択する(S505)。例えば、文書審査モジュール211は、任意の数式にOCR要素702のスコア814を代入することにより選択指標を算出し、選択指標に基づき候補OCR要素を選択する。本例では選択指標が最も大きいOCR要素702が候補OCR要素として選択されるものとする。また文書審査モジュール211は、学習済の機械学習モデルを用いて候補OCR要素を選択してもよい。
S506では、文書審査モジュール211は、現在選択中のテンプレートに含まれる全ての属性種別について処理が完了したか否かを判定する(S506)。選択されたテンプレートに含まれる全ての属性種別について処理が完了していないと判定された場合、文書審査モジュール211は、S502に戻り、他の属性を一つ選択して以上と同様の処理を行う。
選択されたテンプレートに含まれる全ての属性種別について処理が完了したと判定された場合、続いて、文書審査モジュール211は、選択されたテンプレートの候補OCR要素を用いて、当該テンプレートの比較値を算出する(S507)。例えば、候補OCR要素のスコア814をパラメータとする数式に基づき比較値が算出される。尚、比較値は、選択中のテンプレートによる属性の抽出精度を評価した値である。
続いて、文書審査モジュール211は、全てのテンプレートについて処理が完了したか否かを判定する(S508)。
全てのテンプレートについて処理が完了していないと判定された場合、文書審査モジュール211は、S501に戻り、同様の処理を実行する。
全てのテンプレートについて処理が完了したと判定された場合、文書審査モジュール211は、各テンプレートの比較値を用いて、各テンプレートの中から代表テンプレートを選択する(S509)。ここでは、比較値が最も大きい(属性の抽出精度の高い)テンプレートが代表テンプレートとして選択される。
続いて、文書審査モジュール211は、代表テンプレートに対応する候補OCR要素を代表OCR要素703として選択する(S510)。その後、文書審査モジュール211は、代表OCR要素選択処理S205を終了する。
図14は、テンプレート生成モジュール213が実行するテンプレート自動生成処理S210の一例を説明するフローチャートである。
まずテンプレート生成モジュール213は、テンプレート候補蓄積処理S601を行う。テンプレート候補蓄積処理S601の詳細については後述する。
続いて、テンプレート生成モジュール213は、蓄積数が予め設定された第5閾値以上であるか否かを判定する(S602)。第5閾値は、新規のテンプレート(以下、「新規テンプレート」と称する。)を生成するのに十分なサンプル(以下、「テンプレート候補」と称する。)が蓄積されたか否かを判定するための値であり、例えば、ユーザが設定することができる。
蓄積数が第5閾値以上であると判定された場合(S601:YES)、テンプレート生成モジュール213はテンプレート登録処理S603を行う。テンプレート生成モジュール213の詳細については後述する。一方、蓄積数が第5閾値未満であると判定された場合(S601:NO)、テンプレート自動生成処理S210は終了し、処理は図10のS
211に進む。
図15は、図14に示したテンプレート候補蓄積処理S601の一例を説明するフローチャートである。また図16は、テンプレート候補蓄積処理S601を説明する図である。テンプレート候補蓄積処理S601は、図6のS101で受け付けた文書画像データ701に基づきテンプレート候補を生成してテンプレート候補情報として登録(蓄積記憶)する処理である。以下、これらの図とともにテンプレート候補蓄積処理S601について説明する。
図15に示すように、まずテンプレート生成モジュール213は、図6のS101で受け付けた文書画像データ701を二値化する(S701)。尚、この処理は、文書画像データ701に含まれているノイズの除去等を目的として行われる。
次に、テンプレート生成モジュール213は、二値化処理後の画像データから文字列が記載されていると判定される部分を切り出す(S702)。
続いて、テンプレート生成モジュール213は、切り出された画像に含まれている文字列を認識する(S703)。
続いて、テンプレート生成モジュール213は、予め設定された属性のうちの一つを選択する(S704)。尚、上記の属性は、例えば、ユーザが予め設定して計算機100に記憶しておく。
続いて、テンプレート生成モジュール213は、S703で認識した文字列と選択中の属性とを対照することにより、文書画像データ701において選択中の属性が記載されている位置を示す情報を取得する(S706)。
続いて、テンプレート生成モジュール213は、予め設定された属性の全てをS704において選択済か否かを判定する(S707)。
続いて、テンプレート生成モジュール213は、取得した各属性の位置に基づきテンプレート候補を生成し、生成したテンプレート候補をテンプレート候補情報224に登録する(S708)。
続いて、テンプレート生成モジュール213は、変数である蓄積数に1を加算する(S709)。以上でテンプレート候補蓄積処理S601は終了する。
図17にテンプレート候補情報224の一例を示す。テンプレート候補情報224の各項目の意味については図3に示したテンプレート情報221と同様であるのでここでは説明を省略する。
図18は、図14に示したテンプレート登録処理S602の一例を説明するフローチャートである。テンプレート登録処理S602は、テンプレート候補情報224に蓄積されているテンプレート候補に基づき新テンプレートを生成してテンプレート情報221に登録する処理である。以下、同図とともにテンプレート登録処理S602について説明する。
まずテンプレート生成モジュール213は、テンプレート候補情報224に蓄積されている各テンプレート候補の属性を照合することにより、テンプレート候補情報224からテンプレート候補を選出する処理(以下、「属性照合によるテンプレート候補選出処理S
801」と称する。)を行う。この属性照合によるテンプレート候補選出処理S801の詳細については後述する。
続いて、テンプレート生成モジュール213は、属性照合によるテンプレート候補選出処理S801で選出された各テンプレート候補の属性の位置を照合することにより、属性照合によるテンプレート候補選出処理S801で選出された各テンプレート候補からテンプレート候補を選出する処理(以下、「位置照合によるテンプレート候補選出処理S802」と称する。)を行う。この位置照合によるテンプレート候補選出処理S802の詳細については後述する。
尚、本実施形態では、このようにテンプレート生成モジュール213が、属性照合によるテンプレート候補選出処理S801と位置照合によるテンプレート候補選出処理S802の双方を行うが、いずれか一方のみを行うようにしてもよい。
続いて、テンプレート生成モジュール213は、位置照合によるテンプレート候補選出処理S802により選出されたテンプレート候補の数が、予め設定された第6閾値以上であるか否かを判定する(S803)。選出数が第6閾値以上である場合(S803:YES)、S804の処理に進む。選出数が第6閾値未満である場合(S803:NO)、テンプレート登録処理S602は終了する。尚、このように選出数が第6閾値未満である場合に新テンプレートの登録を行わないのは、十分な数のサンプル(テンプレート候補)が得られない場合にはテンプレートによる属性の抽出精度が確保できないと考えられるからである。尚、この判定処理(S803)は必ずしも設けなくてもよい。
続いて、テンプレート生成モジュール213は、S802で位置照合によるテンプレート候補選出処理S802により選出されたテンプレート候補に基づき、新テンプレートを生成する(S804)。このときテンプレート生成モジュール213は、例えば、選出されたテンプレート候補の夫々の属性の位置の平均値を、新テンプレートの夫々の属性の位置として用い、位置精度の向上を図る。
続いて、テンプレート生成モジュール213は、生成した新テンプレートをテンプレート情報221に登録する(S805)。
続いて、テンプレート生成モジュール213は、テンプレート候補情報224を初期化(格納されているテンプレート候補を消去)するとともに(S806)、蓄積数に0を設定する(S807)。以上でテンプレート登録処理S602は終了する。
このように、本実施形態の計算機100は、文書サマリ情報705の抽出に際して十分な大きさの評価値が得られなかった文書画像データ701に基づきテンプレート候補を生成して蓄積記憶し、蓄積記憶しているテンプレート候補に基づき新テンプレートを自動生成するので、ユーザの手を煩わせることなく、新テンプレートを生成することができる。またテンプレート情報221として管理されるテンプレートが自動的に増えていくことでユーザから受け付けた文書(文書画像データ701)について自動的に対応できる可能性が高まり、ユーザの業務の効率向上を図ることができる。
図19は、図18に示した属性照合によるテンプレート候補選出処理S801の一例を説明するフローチャートである。また図20は、属性照合によるテンプレート候補選出処理S801を説明する図である。以下、これらの図とともに属性照合によるテンプレート候補選出処理S801について説明する。
まずテンプレート生成モジュール213は、テンプレート候補情報224に登録されて
いる各テンプレート候補について夫々の属性の数を求める(S901)。
続いて、テンプレート生成モジュール213は、テンプレート候補の夫々の属性の数が同じものをグループ化する(S902)。尚、上記グループ化は、例えば、テンプレート候補情報224の各テンプレート候補を総当たりで比較することにより行う。例えば、図20の例では、属性の数が「銀行名」、「支店名」、「口座種別」、及び「口座番号」の4つであるテンプレート候補がグループ化されている。
続いて、テンプレート生成モジュール213は、属性の数が最大のグループを選択する(S903)。図20の例では、テンプレート候補A,B,G等を含むグループが選択されている。尚、本例ではこのように属性の数が最大のグループを選択しているが、他の基準でグループを選択してもよい。
続いて、テンプレート生成モジュール213は、S903で選択したグループに所属するテンプレート候補について、属性名称が一致するテンプレート候補を選出する(S904)。図20の例では、テンプレート候補A,G,N等を含むテンプレート候補が選択されている。以上が属性照合によるテンプレート候補選出処理S801の説明である。
尚、この例では、属性数が最大であり、かつ、属性名称が一致するテンプレート候補のグループを選出したが、いずれかの条件のみに基づきテンプレート候補を選出するようにしてもよい。
図21は、図18に示した位置照合によるテンプレート候補選出処理S802の一例を説明するフローチャートである。また図22は、位置照合によるテンプレート候補選出処理S802を説明する図である。以下、これらの図とともに位置照合によるテンプレート候補選出処理S802について説明する。
まずテンプレート生成モジュール213は、属性照合によるテンプレート候補選出処理S801で選出された各テンプレート候補の間の各属性の位置の差(画像データ上の距離(ズレ)に相当)を求める(S1001)。テンプレート生成モジュール213は、例えば、2つのテンプレート候補の間の同じ種別の属性の位置の差の平均値の合計値を上記の差とする。尚、上記差の種類(算出方法)は、属性の抽出精度の高い新テンプレートを生成する上で、テンプレート候補を有意な複数のグループに分類することができるものであればとくに限定されない。
続いて、テンプレート生成モジュール213は、求めた差が予め設定された第7閾値未満のテンプレート候補のグループを選択する(S1002)。図22の例では、テンプレート候補Aとテンプレート候補Gの属性の位置の差が第7閾値未満であるので、これらのテンプレート候補が選択されており、テンプレート候補A又はテンプレート候補Bとの位置の差(距離)が第7閾値以上となるテンプレート候補Nは選択されていない。以上が位置照合によるテンプレート候補選出処理S802の説明である。
以上のように、計算機100は、属性照合によるテンプレート候補選出処理S801と位置照合によるテンプレート候補選出処理S802という2つのフィルタによって選出されたテンプレート候補に基づき新テンプレートを生成するので、属性の抽出精度の高いテンプレートを自動生成することができる。
[第2実施形態]
第1実施形態では、テンプレート自動生成処理S210において、属性照合によるテンプレート候補選出処理S801、及び位置照合によるテンプレート候補選出処理S802
という、2つのフィルタによって選出されたテンプレート候補に基づき、新テンプレートを生成した。第2実施形態では、さらに文書画像データ701から取得される色情報を用いたフィルタを用いてテンプレート候補を選出し、テンプレート情報221として登録する新テンプレートの属性の抽出精度の向上を図る。第2実施形態の文書審査システム1の基本的な構成は第1実施形態の文書審査システム1と同様である。以下、第1実施形態と異なる部分を中心として説明する。
図23は、第2実施形態のテンプレート候補蓄積処理S601を説明するフローチャートである。第2実施形態のテンプレート候補蓄積処理S601は、文書画像データ701から色情報を抽出する色情報抽出処理S700が追加されている点、S708のテンプレート候補のテンプレート候補情報224への登録に際し、テンプレート候補に色情報抽出処理S700で抽出した色情報を付帯させる点で、第1実施形態のテンプレート候補蓄積処理S601と異なる。
図24は、図23の色情報抽出処理S700の詳細を説明するフローチャートである。また図25は、色情報抽出処理S700を説明する図である。以下、これらの図とともに色情報抽出処理S700について説明する。
まずテンプレート生成モジュール213は、文書審査処理S100のS101で受け付けた文書画像データ701の各ドットのHSL(Hue(色相)、Saturation(彩度)、Lightness(輝度))値を算出する(S1101)。尚、本実施形態では、このように各ドットの色の表現方法としてHSLを用いるが、文書画像データ701の元である紙ベースの文書の態様に応じてRGB(Red、Green、Blue)等の他の表現方法を選択してもよい。
次に、テンプレート生成モジュール213は、求めたHSL値をクラスタリングする(S1102)。
続いて、テンプレート生成モジュール213は、各クラスタのHSL値の平均値を求める(S1103)。
尚、テンプレート生成モジュール213は、図23のテンプレート候補蓄積処理S601のS708において、テンプレート候補情報224として登録するテンプレート候補に、クラスタの識別情報と各クラスタのHSL値の平均値を色情報として付帯させる。
図25は、文書画像データ701が「振込依頼書」の画像データである場合の例であるが、テンプレート生成モジュール213は、要素数が最大のクラスタについては紙ベースの文書の背景色に対応するものとしてその識別情報を「背景色」としている。またテンプレート生成モジュール213は、要素数が2番目に多いクラスタについては、紙ベースの文書の枠色に対応するものとして、その識別子を「枠色」としている。尚、要素数が3番目のクラスタについては、ノイズ等に起因するものとして、テンプレート生成モジュール213はこれをテンプレート候補への登録対象としない。
図26に、図23のS708で登録するテンプレート候補情報224の一例を示す。同図に示すように、テンプレート候補情報224の属性322として色情報321が設けられている。
図27は、第2実施形態のテンプレート登録処理S603を説明するフローチャートである。第2実施形態のテンプレート登録処理S603は、色情報照合によるテンプレート候補選出処理S800が追加されている点で第1実施形態のテンプレート登録処理S603と異なる。
図28は、図27の色情報照合によるテンプレート候補選出処理S800の詳細を説明するフローチャートである。また図29は、色情報照合によるテンプレート候補選出処理S800を説明する図である。尚、本実施形態では、色情報照合によるテンプレート候補選出処理S800、属性照合によるテンプレート候補選出処理S801、位置照合によるテンプレート候補選出処理S802をこの順に実行しているが、実行順序は必ずしも限定されない。以下、これらの図とともに色情報照合によるテンプレート候補選出処理S800について説明する。
まずテンプレート生成モジュール213は、テンプレート候補情報224に登録されている各テンプレート候補の色情報の差(HSL値の差)を求める(S1201)。テンプレート生成モジュール213は、例えば、各テンプレート候補のHSL値の成分毎の差の合計値を上記差として求める。尚、上記差の種類(算出方法)は、複数のテンプレート候補を、属性の抽出精度の高い新テンプレートを生成する上で有意に分類できるものであればとくに限定されない。
続いて、テンプレート生成モジュール213は、求めた上記差が予め設定された第8閾値未満のテンプレート候補のグループを選択する(S1202)。図29の例では、テンプレート候補Aとテンプレート候補Gの属性の位置の差が第8閾値未満であるので、これらのテンプレート候補が選択されており、テンプレート候補Aと位置の差(距離)が第8閾値を超えるテンプレート候補Cは選択されていない。以上で位置照合によるテンプレート候補選出処理S802は終了する。
このように、第2実施形態のテンプレート登録処理S603では、属性照合によるテンプレート候補選出処理S801、位置照合によるテンプレート候補選出処理S802、及び色情報照合によるテンプレート候補選出処理S800という3フィルタを用いて選出されるテンプレート候補に基づき新テンプレートを生成するので、属性の抽出精度のより高いテンプレートを生成することができる。
[画面例]
図30は、第1又は第2の実施形態の計算機100が表示する閾値設定画面3000の一例である。閾値設定画面3000は、第1又は第2の実施形態で用いる各種の閾値をユーザが設定する際に出力装置206が表示する画面である。尚、閾値設定画面3000は、ユーザの要求等に応じて任意のタイミングで表示できる。
同図に示すように、閾値設定画面3000は、閾値設定欄3001、OKボタン3002、及びキャンセルボタン3013を含む。閾値設定欄3001には、ユーザが、第1又は第2の実施形態で用いる各種の閾値を入力する。OKボタン3002は、各入力欄に設定した閾値を計算機100に登録する際に操作されるボタンである。キャンセルボタン3003は、各入力欄の内容を初期化する際に操作されるボタンである。
ユーザは、各種の閾値を適切に設定することで、電子申請時に入力される文書(請求書、領収書、源泉徴収票、振込依頼書等)や業務の態様に応じて、属性の抽出精度が向上するように文書審査システム1を調整(チューニング)することができる。
図31は、第1又は第2の実施形態の計算機100が表示する出力画面3100の一例である。
出力画面3100は、電子申請の審査結果をユーザに提示する画面であり、電子申請の審査が完了した後に表示される画面である。尚、出力画面3100は、管理者やユーザの
要求に応じて任意のタイミングで表示される。
出力画面3100は、結果表示テーブル3110を含む。結果表示テーブル3110は、ID3111、審査結果3112、文書サマリ情報3113、及び評価値3114の各項目(情報)を有するエントリを含む。
ID3111には、電子申請を一意に識別するための識別情報(以下、「申請ID」と称する。)が表示される。例えば、計算機100は、電子申請を受け付けた際に申請IDを付与する。審査結果3112には、S103の処理結果が表示される。文書サマリ情報3113には、生成された文書サマリ情報にアクセスするための所在特定情報(ネットワークアドレス、URL(Uniform Resource Locator)等)が表示される。尚、文書サマリ情報705そのものを文書サマリ情報3113に表示するようにしてもよい。評価値3114には、図10のS208で求めた評価値が表示される。
ユーザは、出力画面3100を利用して、審査結果や文書サマリ情報705を容易に確認することができる。またユーザは、出力画面3100に表示される評価値に基づき、文書サマリ情報705の取り扱い(検証が必要であるか否か等)を適切に判断して業務をスムーズに遂行することができる。
尚、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体を情報処理装置(コンピュータ)に提供し、その情報処理装置が備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性の
メモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、通信ネットワークを介して配信することによって、それを情報処理装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
110 入力端末
120 クライアント端末
130 スキャナ
150 通信ネットワーク
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 通信インタフェース
205 入力装置
206 出力装置
211 文書審査モジュール
212 学習処理モジュール
213 テンプレート生成モジュール
221 テンプレート情報
222 単語辞書
223 表記辞書
224 テンプレート候補情報
701 文書画像データ
702 OCR要素
703 代表OCR要素
704 特徴ベクトル
705 文書サマリ情報
3000 閾値設定画面
3100 出力画面
S210 テンプレート自動生成処理
S601 テンプレート候補蓄積処理
S603 テンプレート登録処理
S801 属性照合によるテンプレート候補選出処理
S802 位置照合によるテンプレート候補選出処理
S700 色情報抽出処理
S800 色情報照合によるテンプレート候補選出処理

Claims (15)

  1. 紙に記載された文書の特徴を示す文字列である属性を抽出する情報処理装置であって、
    プロセッサ及び前記プロセッサと接続される記憶装置を備え、
    前記記憶装置は、少なくとも1つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、
    前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
    前記プロセッサは、
    前記紙に記載された文書の画像データである文書画像データに対して文字認識処理を実行し、
    前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出し、
    前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出し、
    前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、
    前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、
    前記記憶装置は、前記テンプレートの候補となる複数のテンプレート候補を記憶し、
    前記プロセッサは、
    前記複数のテンプレート候補の夫々が含む前記属性の数を求め、
    前記属性の数が同じテンプレート候補をグループ化し、
    前記属性の数が最大のグループに属する前記テンプレート候補を選出し、
    選出した前記テンプレート候補に基づき前記テンプレートを生成し、
    前記記憶装置は、生成した前記テンプレートを前記テンプレート情報として記憶する、
    ことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記プロセッサは、
    選出した前記テンプレート候補のうち、夫々に含まれている前記属性の種別が共通する前記テンプレート候補を選出し、
    選出した前記テンプレート候補に基づき前記テンプレートを生成する、
    ことを特徴とする情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記プロセッサは、
    選出した前記テンプレート候補のうち、夫々に含まれている前記属性の夫々の位置の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出し、
    選出した前記テンプレート候補に基づき前記テンプレートを生成する、
    ことを特徴とする情報処理装置。
  4. 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
    前記記憶装置が記憶する前記テンプレート候補には、前記文書画像データのドット毎の色情報が付帯し、
    前記プロセッサは、選出した前記テンプレート候補のうち、夫々に含まれている前記色情報の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出し、
    選出した前記テンプレート候補に基づき前記テンプレートを生成する、
    ことを特徴とする情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記色情報は、前記文書画像データの各ドットの色情報の分布をクラスタリングすることにより得られるクラスタ毎に設定される、
    ことを特徴とする情報処理装置。
  6. 請求項4に記載の情報処理装置であって、
    前記色情報は、HSL(Hue、Saturation、Lightness)値又はRGB(Red、Green、Blue)値である、
    ことを特徴とする情報処理装置。
  7. 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
    前記プロセッサは、選出した前記テンプレート候補の前記位置情報の平均値を、前記テンプレート候補に基づき生成する前記テンプレートの位置情報として設定する、
    ことを特徴とする情報処理装置。
  8. 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
    前記プロセッサは、
    前記選択されたテンプレートの前記スコアを用いて、前記紙に記載された文書の特徴を表す特徴ベクトルを生成し、
    前記特徴ベクトルを用いて、前記出力情報の信頼性を示す評価値を算出し、
    前記記憶装置が記憶する前記テンプレート候補は、前記評価値が予め設定された閾値未満となる前記出力情報の生成に用いた前記文書画像データに基づき生成される、
    ことを特徴とする情報処理装置。
  9. 紙に記載された文書の特徴を示す文字列である属性を抽出する情報処理装置が実行する文書識別方法であって、
    前記情報処理装置は、プロセッサ及び前記プロセッサに接続される記憶装置を備え、
    前記記憶装置は、少なくとも1つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、
    前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
    前記文書識別方法は、
    前記プロセッサが、前記紙に記載された文書の画像データである文書画像データに対して文字認識処理を実行するステップと、
    前記プロセッサが、前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出するステップと、
    前記プロセッサが、前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出するステップと、
    前記プロセッサが、前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択するステップと、
    前記プロセッサが、前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成するステップと、
    前記記憶装置が、前記テンプレートの候補となる複数のテンプレート候補を記憶するステップと、
    前記プロセッサが、前記複数のテンプレート候補の夫々が含む前記属性の数を求めるス
    テップと、
    前記プロセッサが、前記属性の数が同じテンプレート候補をグループ化するステップと、
    前記プロセッサが、前記属性の数が最大のグループに属する前記テンプレート候補を選出するステップと、
    前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
    前記プロセッサが、前記記憶装置が、生成した前記テンプレートを前記テンプレート情報として記憶するステップと、
    を含むことを特徴とする文書識別方法。
  10. 請求項9に記載の文書識別方法であって、
    前記プロセッサが、選出した前記テンプレート候補のうち、夫々に含まれている前記属性の種別が共通する前記テンプレート候補を選出するステップと、
    前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
    をさらに含むことを特徴とする文書識別方法。
  11. 請求項10に記載の文書識別方法であって、
    前記プロセッサが、選出した前記テンプレート候補のうち、夫々に含まれている前記属性の夫々の位置の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出するステップと、
    前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
    をさらに含むことを特徴とする文書識別方法。
  12. 請求項9乃至11のいずれか一項に記載の文書識別方法であって、
    前記記憶装置が記憶する前記テンプレート候補には、前記文書画像データのドット毎の色情報が付帯し、
    前記プロセッサが、選出した前記テンプレート候補のうち、夫々に含まれている前記色情報の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出するステップと、
    前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
    をさらに含むことを特徴とする文書識別方法。
  13. 請求項12に記載の文書識別方法であって、
    前記色情報は、前記文書画像データの各ドットの色情報の分布をクラスタリングすることにより得られるクラスタ毎に設定される、
    ことを特徴とする文書識別方法。
  14. 請求項12に記載の文書識別方法であって、
    前記色情報は、HSL(Hue、Saturation、Lightness)値又はRGB(Red、Green、Blue)値である、
    ことを特徴とする文書識別方法。
  15. 計算機及び端末を備える情報処理システムであって、
    前記計算機は、第1のプロセッサ及び前記第1のプロセッサに接続される第1の記憶装置を有し、
    前記端末は、第2のプロセッサ及び前記第2のプロセッサに接続される第2の記憶装置
    を有し、
    前記第1の記憶装置は、紙に記載された文書の特徴を示す文字列である属性の種別が少なくとも1つ以上定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、
    前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
    前記第2のプロセッサは、前記紙に記載された文書を入力し、
    前記第1のプロセッサは、
    前記端末が入力した前記紙に記載された文書の画像データを生成し、
    前記画像データに対して文字認識処理を実行し、
    前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出し、
    前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出し、
    前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、
    前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、
    前記出力情報を前記端末に出力し、
    前記第1の記憶装置は、前記テンプレートの候補となる複数のテンプレート候補を記憶し、
    前記第1のプロセッサは、
    前記複数のテンプレート候補の夫々が含む前記属性の数を求め、
    前記属性の数が同じテンプレート候補をグループ化し、
    前記属性の数が最大のグループに属する前記テンプレート候補を選出し、
    選出した前記テンプレート候補に基づき前記テンプレートを生成し、
    前記第1の記憶装置は、生成した前記テンプレートを前記テンプレート情報として記憶する、
    ことを特徴とする情報処理システム。
JP2019154410A 2019-08-27 2019-08-27 情報処理装置、文書識別方法、及び情報処理システム Active JP7312646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019154410A JP7312646B2 (ja) 2019-08-27 2019-08-27 情報処理装置、文書識別方法、及び情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019154410A JP7312646B2 (ja) 2019-08-27 2019-08-27 情報処理装置、文書識別方法、及び情報処理システム

Publications (2)

Publication Number Publication Date
JP2021033743A JP2021033743A (ja) 2021-03-01
JP7312646B2 true JP7312646B2 (ja) 2023-07-21

Family

ID=74678318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019154410A Active JP7312646B2 (ja) 2019-08-27 2019-08-27 情報処理装置、文書識別方法、及び情報処理システム

Country Status (1)

Country Link
JP (1) JP7312646B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023071067A (ja) * 2021-11-10 2023-05-22 NeoX株式会社 表示データ生成システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285190A (ja) 1999-03-31 2000-10-13 Toshiba Corp 帳票識別方法および帳票識別装置および記憶媒体
JP2000357230A (ja) 1999-06-15 2000-12-26 Ricoh Co Ltd 画像処理方法、画像処理装置及び記録媒体
JP2014115857A (ja) 2012-12-11 2014-06-26 Hitachi Omron Terminal Solutions Corp 帳票定義データ作成システムおよび帳票定義データ作成方法
JP2018205910A (ja) 2017-05-31 2018-12-27 株式会社日立製作所 計算機、文書識別方法、及びシステム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123872A (ja) * 1994-10-20 1996-05-17 Oki Electric Ind Co Ltd 光学式文字読取装置
JPH08202818A (ja) * 1995-01-24 1996-08-09 Oki Electric Ind Co Ltd フォーマット情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285190A (ja) 1999-03-31 2000-10-13 Toshiba Corp 帳票識別方法および帳票識別装置および記憶媒体
JP2000357230A (ja) 1999-06-15 2000-12-26 Ricoh Co Ltd 画像処理方法、画像処理装置及び記録媒体
JP2014115857A (ja) 2012-12-11 2014-06-26 Hitachi Omron Terminal Solutions Corp 帳票定義データ作成システムおよび帳票定義データ作成方法
JP2018205910A (ja) 2017-05-31 2018-12-27 株式会社日立製作所 計算機、文書識別方法、及びシステム

Also Published As

Publication number Publication date
JP2021033743A (ja) 2021-03-01

Similar Documents

Publication Publication Date Title
US10552674B2 (en) Computer, document identification method, and system
US10482174B1 (en) Systems and methods for identifying form fields
US10366123B1 (en) Template-free extraction of data from documents
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN110276236B (zh) 计算机及模板管理方法
US11361572B2 (en) Information processing apparatus and non-transitory computer readable medium
US8418050B2 (en) Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
JP2005182730A (ja) ドキュメントの自動分離
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
US10803233B2 (en) Method and system of extracting structured data from a document
JP6529254B2 (ja) 情報処理装置、情報処理方法、プログラムおよび記憶媒体
US9798711B2 (en) Method and system for generating a graphical organization of a page
JP7312646B2 (ja) 情報処理装置、文書識別方法、及び情報処理システム
JP2021033325A (ja) 画像処理装置、その制御方法及びプログラム
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN112445911A (zh) 工作流程辅助装置、系统、方法及存储介质
JP6763967B2 (ja) データ変換装置とデータ変換方法
JP2005208977A (ja) 文書ファイリング装置および文書ファイリング方法
JP6677624B2 (ja) 分析装置、分析方法、および分析プログラム
Hong et al. Information Extraction and Analysis on Certificates and Medical Receipts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230710

R150 Certificate of patent or registration of utility model

Ref document number: 7312646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150