JP6938228B2 - 計算機、文書識別方法、及びシステム - Google Patents

計算機、文書識別方法、及びシステム Download PDF

Info

Publication number
JP6938228B2
JP6938228B2 JP2017108312A JP2017108312A JP6938228B2 JP 6938228 B2 JP6938228 B2 JP 6938228B2 JP 2017108312 A JP2017108312 A JP 2017108312A JP 2017108312 A JP2017108312 A JP 2017108312A JP 6938228 B2 JP6938228 B2 JP 6938228B2
Authority
JP
Japan
Prior art keywords
score
information
attribute
document
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017108312A
Other languages
English (en)
Other versions
JP2018205910A (ja
Inventor
恭男 渡邊
恭男 渡邊
大河内 俊夫
俊夫 大河内
新庄 広
広 新庄
正裕 本林
正裕 本林
鈴木 康文
康文 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017108312A priority Critical patent/JP6938228B2/ja
Priority to CN201810160384.1A priority patent/CN108984578B/zh
Priority to US15/918,830 priority patent/US10552674B2/en
Publication of JP2018205910A publication Critical patent/JP2018205910A/ja
Application granted granted Critical
Publication of JP6938228B2 publication Critical patent/JP6938228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、文書を識別する計算機、方法、及びシステムに関する。
デジタル化の進展に伴い電子申請を利用する機会が増加している。電子申請では、対象の書類等が全てデジタル化されているわけではなく、紙ベースの文書又は紙をスキャンすることによって作成された画像が使用されている場合が多い。
本明細書では、電子化された文書を電子ベース文書と記載し、紙ベースの文書及び紙をスキャンすることによって作成された画像を紙ベース文書とも記載する。また、電子ベース文書及び紙ベース文書を区別しない場合、単に、文書とも記載する。
例えば、企業における出納業務では、(1)申請者が請求者から請求書を受け取り、(2)申請者が請求者への請求金額の支払いを記載した請求書を電子申請により財務部門に提出し、(3)財務部門に所属する人間が、請求書に記載された属性を確認し、電子申請が適正であると判断した場合、企業から請求者に請求金額を支払う、というような手続きが実行されている。
ここで、属性とは、審査対象であり、かつ、文書の特徴を示す文字列である。例えば、出納業務の場合、請求金額、請求金額の振込先の銀行口座番号等が属性に該当する。
紙ベース文書を扱う電子申請の場合、人が紙ベース文書を確認する必要があるため、業務の効率が低く、また、業務に要するコストが大きいという問題がある。
前述の問題に対し、光学文字認識(OCR:Optical Character Recognition)の技術を用いて、紙ベース文書から属性を読み出す方法が知られている。例えば、特許文献1に記載の技術が知られている。
特許文献1には、「顧客の請求書を電子的に提示する方法であって、顧客から電子的な請求書及び紙の請求書を受け取り、紙の請求書から電子イメージ情報を生成し、スキャンすることによって電子イメージ情報から第1OCRデータを抽出し、スキャンされた紙幣の種類の少なくとも1つの数値識別子を第1OCRデータから検索し、数値識別子の比較結果からスキャンされた紙の請求書のタイプを特定し、特定されたタイプに対応するテンプレートを用いて電子イメージ情報から第2OCRデータを抽出し、第2OCRデータから請求書情報を抽出し、請求書情報と知られた情報とを比較し、電子的な請求書及び請求書情報とを組み合わせた顧客請求提示を提示すること」が記載されている。
特許文献1に記載の技術を用いることによって、電子申請の業務において人が行う処理の工数を削減できるため、業務の効率を改善し、また、業務に要するコストを削減することができる。
米国特許第8630949号明細書 特開2004−171316号公報
F.Kimura et. al. "Modified quadratic discriminant functions and the application to chinese character recognition" IEEETransaction on Pattern Analysis and Machine Intelligence、 vol.9、 pp.149-153 高橋他、「回帰的遷移ネットワークを用いた文字経路探索方式の開発」、電子情報通信学会技術研究報告 Vol.109 No.418 pp.141-146
特許文献1に記載の技術では、数値識別子と請求書のタイプを予め設定する必要がある。しかし、類似する属性を含む文書を用いるが審査内容が異なる電子申請が存在する場合、ユーザが数値識別子と請求書のタイプとを適切に関連付けることができない可能性がある。また、数値識別子が含まれていない可能性も考えられる。また、請求書の書式の変更等によって数値識別子が変更される可能性もある。
したがって、従来技術では、最適なテンプレートを選択できないことによって属性の抽出精度が低くなり、業務効率の改善及び業務に要するコストの削減の効果が低い。
本発明は、高い精度で属性を抽出できる装置、文書識別方法、及びシステムを提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、紙に記載された文書の特徴を示す文字列である属性を抽出する計算機であって、プロセッサ及び前記プロセッサに接続される記憶装置を備え、前記記憶装置は、少なくとも一つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を格納し、前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、前記プロセッサは、前記紙に記載された文書の画像データに対して文字認識処理を実行し、前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの各々に定義された前記属性の種別に対応する属性を抽出し、前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの各々について、前記抽出された属性に関するスコアを算出し、前記スコアに基づいて、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、前記選択されたテンプレートの前記スコアを用いて、前記紙に記載された文書の特徴を表す特徴ベクトルを生成し、前記特徴ベクトルを用いて、前記出力情報の信頼性を示す評価値を算出し、前記評価値及び閾値の比較結果に基づいて、前記出力情報の修正又は新たな出力情報の生成が必要であるか否かを判定することを特徴とする。
本発明によれば、紙の文書から高い精度で属性を抽出できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の通信システムの構成例を示す説明図である。 実施例1の計算機のハードウェア構成及びソフトウェア構成を説明する図である。 実施例1のテンプレート情報のデータ構造の一例を示す図である。 実施例1の単語辞書のデータ構造の一例を示す図である。 実施例1の表記辞書のデータ構造の一例を示す図である。 実施例1の計算機が実行する処理の概要を説明するフローチャートである。 実施例1の文書審査モジュールが実行する文書サマリ情報生成処理の概要を示す図である。 実施例1の文書審査モジュールが生成するOCR要素のデータ構造の一例を示す図である。 実施例1の文書審査モジュールが生成する特徴ベクトルのデータ構造の一例を示す図である。 実施例1の文書審査モジュールが実行する文書サマリ情報生成処理を説明するフローチャートである。 実施例1の文書審査モジュールが実行するOCR処理の一例を説明するフローチャートである。 実施例1の文書審査モジュールが実行するスコア算出処理を説明するフローチャートである。 実施例1の文書審査モジュールが実行する代表OCR要素選択処理の一例を説明するフローチャートである。 実施例1の計算機が表示するテンプレート入力画面の一例を示す図である。 実施例1の計算機が表示するクラス分類設定画面の一例を示す図である。 実施例1の計算機が表示する出力画面の一例を示す図である。
以下、本発明の実施例について、図面を参照して説明する。
なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。なお、以下に説明する実施例は特許請求の範囲にかかる発明を限定するものではない。また実施例において説明されている各要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
また、以下の説明では、情報の一例として「xxxテーブル」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。
図1は、実施例1のシステムの構成例を示す図である。
システムは、計算機100、入力端末110、クライアント端末120、及びスキャナ130から構成される。計算機100、入力端末110、クライアント端末120は、ネットワーク150を介して互いに接続される。また、スキャナ130は、計算機100に接続される。
なお、本発明はネットワーク150の種類に限定されない。ネットワーク150は、LAN(Local Area Network)及びWAN(Wide Area Network)等が考えられる。また、本発明はネットワーク150の接続方式に限定されず、無線及び有線のいずれでもよい。また、スキャナ130は、計算機100に直接接続されてもよいし、また、ネットワークを介して接続されてもよい。
なお、本発明のシステムに含まれる計算機100、入力端末110、クライアント端末120、及びスキャナ130の数は任意の数に設定できる。
計算機100は、電子申請に関する処理を実行する。
クライアント端末120は、電子申請を行うユーザ(申請者)が操作する端末である。ユーザは、クライアント端末120を操作して、電子申請に必要な文書を入力する。なお、ユーザは、電子申請を行う会社又は行政施設に直接文書を提出してもよい。なお、本発明は、扱う文書に限定されない。文書は、例えば、請求書、領収書、源泉徴収票、及び税金通知等が考えられる。
電子申請時に入力される文書には、電子申請の審査に用いる文字列である属性が複数含まれる。例えば、文書が請求書の場合、請求金額、請求者、請求宛先、並びに、振込先を指定する銀行名、支店名、口座種別、及び口座番号等の文字列が属性として含まれる。本実施例では、属性は、属性の種別(属性の名称)及び属性として抽出される文字列を対応づけて管理される。
入力端末110は、計算機100を管理する管理者が操作する端末である。スキャナ130は、紙の文書から文書画像データ701(図7参照)を生成する。スキャナ130は、フラットベッドスキャナ及びオートシートフィーダ付きのスキャナ等が考えられる。
なお、スキャナ130の代わりに、CCD(Charge Coupled Device)等の素子を用いて画像を撮影するデジタルカメラを備えてもよい。
図2は、実施例1の計算機100のハードウェア構成及びソフトウェア構成を説明する図である。
計算機100は、プロセッサ201、主記憶装置202、副記憶装置203、ネットワークインタフェース204、入力装置205、及び出力装置206を有する。各ハードウェアは内部パス等を介して互いに接続される。図2では、各ハードウェアの数は一つであるが、二つ以上でもよい。
なお、入力端末110及びクライアント端末120のハードウェア構成は、計算機100と同一である。
プロセッサ201は、主記憶装置202に格納されるプログラムを実行する。プロセッサ201がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ201が当該モジュールを実現するプログラムを実行していることを示す。
主記憶装置202は、プロセッサ201が実行するプログラム及びプログラムが使用する情報を格納する。また、主記憶装置202は、プログラムが一時的に使用するワークエリアを含む。主記憶装置202は、例えば、メモリ等が考えられる。
本実施例の主記憶装置202は、文書審査モジュール211及び学習処理モジュール212を実現するプログラムを格納する。また、主記憶装置202は、テンプレート情報221、単語辞書222、及び表記辞書223を格納する。
文書審査モジュール211は、電子申請の審査処理を実行する。文書審査モジュール211が実行する処理については後述する。学習処理モジュール212は、データの選択方法、抽出方法、及び分類方法に関する学習処理を実行する。なお、機械学習のアルゴリズムには、ロジスティック回帰、デシジョン フォレスト、デシジョン ジャングル、ブースト デシジョン ツリー、ニューラルネットワーク、平均化パーセプトロン、サポート ベクタマシン、ローカル詳細サポート ベクタマシン、及びベイズ ポイント マシン等が知られている。
テンプレート情報221は、文書審査に使用する文字列を文書から読み出すためのテンプレートを管理する情報である。テンプレート情報221の詳細は図3を用いて説明する。単語辞書222及び表記辞書223は、属性として抽出する文字列を定義する情報であり、また、後述するスコアの算出時に使用される情報である。単語辞書222の詳細は図4を用いて説明し、表記辞書223は図5を用いて説明する。
副記憶装置203は、データを永続的に格納する。副記憶装置203は、例えば、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等が考えられる。なお、主記憶装置202に格納されるプログラム及び情報は、副記憶装置203に格納されてもよい。この場合、プロセッサ201が、副記憶装置203からプログラム及び情報を読み出し、主記憶装置202にロードする。
ネットワークインタフェース204は、ネットワークを介して他の装置と接続するためのインタフェースである。
入力装置205は、計算機100に対してデータを入力するための装置である。例えば、入力装置205は、キーボード、マウス、及びタッチパネル等を含む。
出力装置206は、データの入力画面及び処理結果等を出力する装置である。例えば、出力装置206は、タッチパネル及びディスプレイ等を含む。
図3は、実施例1のテンプレート情報221のデータ構造の一例を示す図である。
テンプレート情報221は、テンプレート番号301、属性302、及び位置情報303から構成されるエントリを含む。一つのエントリが一つのテンプレートに対応する。また、一つのエントリには、テンプレートにおいて定義された属性の行が一つ以上含まれる。
テンプレート番号301は、テンプレートを一意に識別する識別情報を格納するフィールドである。本実施例では、テンプレートの識別情報は、エントリの識別情報としても用いられる。属性302は、テンプレートに含まれる属性の種別を表す識別名称を格納するフィールドである。位置情報303は、属性の種別に対応する属性の紙面上の位置に関する情報を格納するフィールドである。例えば、矩形領域の右上及び左上の座標が位置情報303に格納される。なお、座標は、相対座標でもよいし、絶対座標でもよい。また、位置情報303には、複数の位置を指定する情報が格納されてもよい。
なお、本発明は、位置情報303に格納される情報に限定されない。例えば、エントリは、属性の長さ及び属性が記載されている範囲等を格納するフィールドを含んでもよい。
図4は、実施例1の単語辞書222のデータ構造の一例を示す図である。
単語辞書222は、属性として抽出する単語を定義する情報であり、属性401及び文字列402から構成されるエントリを含む。一つのエントリが一つの属性に対応する。
属性401は、属性の識別名称を格納する。文字列402は、属性401に分類される単語(文字列)を格納する。
図5は、実施例1の表記辞書223のデータ構造の一例を示す図である。
表記辞書223は、属性として抽出する数値に対応する文字列を定義する情報であり、属性501及び表記502から構成されるエントリを含む。一つのエントリが一つの属性に対応する。
属性501は、属性の識別名称を格納する。表記502は、属性501に分類される数値(文字列)の表記ルールを格納する。
図6は、実施例1の計算機100が実行する処理の概要を説明するフローチャートである。
計算機100の文書審査モジュール211は、ユーザが操作するクライアント端末120から、電子申請の要求を受け付ける(ステップS101)。電子申請の要求には、審査対象の文書画像データ701(図7参照)が含まれる。
なお、文書画像データ701が外部の記憶装置に格納されている場合、ユーザは、文書画像データ701の識別情報を電子申請の要求に含めてもよい。また、ユーザは、紙の文書を提出してもよい。紙の文書が提出された場合、計算機100は、スキャナ130を用いて紙の文書をスキャンし、文書画像データ701を生成する。
次に、計算機100の文書審査モジュール211は、文書サマリ情報生成処理を実行する(ステップS102)。
文書サマリ情報生成処理では、文書サマリ情報705(図7参照)が生成される。文書サマリ情報705は、文書画像データ701に対応する文書から抽出された属性をまとめた情報である。請求書に対応する文書画像データ701の場合、請求金額、並びに、振込先を特定する銀行名、支店名、口座種別、口座番号、請求者名、及び被請求者名等に対応する属性(文字列)が文書サマリ情報705に含まれる。領収書に対応する文書画像データ701の場合、金額、物を購入又はサービスの提供を受けた人又は組織の名称、及び物の販売又はサービスの提供を行った人又は組織の名称等に対応する属性(文字列)が文書サマリ情報705に含まれる。また、源泉徴収票に対応する文書画像データ701の場合、人の氏名、人が所属する組織の名称、人の収入額、及び人の源泉徴収額等に対応する属性(文字列)が文書サマリ情報705に含まれる。
なお、文書サマリ情報生成処理の詳細は図7から図13を用いて説明する。
計算機100は、文書サマリ情報705を用いて電子申請の審査を行う(ステップS103)。計算機100は、審査の結果として「許可」及び「拒絶」のいずれかの応答をユーザに出力する。
図7は、実施例1の文書審査モジュール211が実行する文書サマリ情報生成処理の概要を示す図である。図8は、実施例1の文書審査モジュール211が生成するOCR要素のデータ構造の一例を示す図である。図9は、実施例1の文書審査モジュール211が生成する特徴ベクトルのデータ構造の一例を示す図である。
ステップS1では、文書審査モジュール211は、文書画像データ701が入力された場合、文書画像データ701に対してOCR処理を実行する。
ステップS2では、文書審査モジュール211は、OCR処理の結果及びテンプレート情報221を用いて、各テンプレートに含まれる属性に関するスコアを算出する。後述するように、本実施例では、一つの属性に対して複数のスコアが算出される。文書審査モジュール211は、属性及びスコアを対応付けたOCR要素702を生成する。図7に示す一つの矩形が一つのOCR要素702に対応する。
図8に示すように、OCR要素702は、属性801、項目値802、位置803、及びスコア804から構成される。
属性801は、属性の識別名称を格納するフィールドである。項目値802は、文書から抽出された属性(文字列)を格納するフィールドである。位置803は、紙面上の属性の位置を格納する。スコア804は、テンプレートを用いて抽出された属性(文字列)に関連するスコアを格納するフィールド群である。
本実施例では、表記スコア、単語スコア、位置スコア、面積スコア、項目スコア、及び出現回数スコアが算出される。
表記スコアは、属性が表記辞書223に登録された表記ルールに一致する度合いを表す値である。単語スコアは、属性が単語辞書222に登録された単語と一致する度合いを表す値である。
位置スコアは、文書画像データ701における属性の位置と、テンプレートにおける属性の位置とのズレの度合いを表す値である。面積スコアは、属性を含む矩形領域の面積に関連する値である。項目スコアは、属性の種別が同一である属性間の距離に関連する値である。出現回数スコアは、属性の出現回数に関する値である。
本実施例では、辞書に基づく文字列の類似度等を表すスコアの他に、文字列の位置に関するスコアが算出される点に特徴がある。なお、OCR要素702には、表記スコア、単語スコア、位置スコア、面積スコア、項目スコア、及び出現回数スコアの全てが含まれていなくてもよい。例えば、表記スコア、単語スコア、及び位置スコアのみを含むOCR要素702でもよい。
ステップS3では、文書審査モジュール211は、各テンプレートのOCR要素702に基づいて、文書サマリ情報705の生成に適したテンプレートを選択する。さらに、文書審査モジュール211は、選択されたテンプレートに含まれる各属性の種別のOCR要素702の中から代表OCR要素703を選択する。図7に示す一つの矩形が一つの代表OCR要素703に対応する。選択されたテンプレートに三種類の属性が含まれる場合、三つの代表OCR要素703が選択される。
ステップS4では、文書審査モジュール211は、代表OCR要素703を用いて、特徴ベクトル704を算出し、また、文書サマリ情報705を生成する。
本実施例では、図9に示すように、各代表OCR要素703のスコアを成分とするベクトルが特徴ベクトル704として生成される。また、文書サマリ情報705は、代表OCR要素703の属性801及び項目値802等をまとめることによって生成される。
「発明が解決しようとする課題」に記載した課題とは別に次のような課題が存在する。従来技術では、テンプレートを用いて文書サマリ情報に相当する情報が生成されていた。しかし、当該情報は、必ずしも電子申請の審査に使用できる情報ではない。そこで、本実施例では、文書審査モジュール211が、生成された文書サマリ情報705の信頼性を評価する。これによって、電子申請における業務の停止を回避し、また、修正作業等を削減できる。
ステップS5では、文書審査モジュール211は、特徴ベクトル704を評価式に代入することによって文書サマリ情報705の信頼性を示す評価値を算出し、算出された評価値に基づいて操作方法(クラス)の分類を行う。評価式は、一つのパラメータを用いて定義される。なお、評価式のパラメータは、予め設定されているものとする。また、別の方法として、文書審査モジュール211は、予め機械学習を行った分類器に特徴ベクトル704を入力することによってクラスの分類を行ってもよい。本実施例では、ケース0、ケース1、ケース2の三つのクラスに分類される。
評価値が第1の閾値以上である場合、ケース0のクラスに分類される。ケース0では、文書サマリ情報705の信頼性が高いため、生成された文書サマリ情報705の修正は行われない。
評価値が第1の閾値より小さく、かつ、第2の閾値以上である場合、ケース1に分類される。ステップS6−1では、文書審査モジュール211は、一人の管理者に対して、文書サマリ情報の入力を促す。管理者は、文書画像データ701等を参照し、文書サマリ情報を生成し、入力端末110を操作して計算機100に文書サマリ情報を入力する。
評価値が第2の閾値より小さい場合、ケース2に分類される。ステップS6−2では、文書審査モジュール211は、二人の管理者に対して、文書サマリ情報の入力を促す。二人の管理者は、それぞれ文書画像データ701等を参照し、文書サマリ情報を生成し、入力端末110を操作して計算機100に文書サマリ情報を入力する。
ステップS7では、文書審査モジュール211は、申請の審査に用いる文書サマリ情報を選択する。
ケース0の場合、文書審査モジュール211が生成した文書サマリ情報705が選択される。
ケース1の場合、文書審査モジュール211は、文書審査モジュール211が生成した文書サマリ情報705と、管理者が生成した文書サマリ情報とが一致するか否かを判定する。判定結果がYESの場合、文書審査モジュール211は、文書審査モジュール211が生成した文書サマリ情報705を選択する。判定結果がNOの場合、文書審査モジュール211は、文書サマリ情報を入力した管理者又は他の管理者に、入力した文書サマリ情報の修正又は新たな文書サマリ情報の入力を促す。この場合、文書審査モジュール211は、修正された文書サマリ情報又は新たに入力された文書サマリ情報を選択する。
ケース2の場合、文書審査モジュール211は、文書審査モジュール211が生成した文書サマリ情報705と、二人の管理者が生成した文書サマリ情報とが一致するか否かを判定する。判定結果がYESの場合、文書審査モジュール211は、文書審査モジュール211が生成した文書サマリ情報705を選択する。判定結果がNOの場合、文書審査モジュール211は、文書サマリ情報を入力したいずれかの管理者又は他の管理者に、入力した文書サマリ情報の修正又は新たな文書サマリ情報の入力を促す。この場合、文書審査モジュール211は、修正された文書サマリ情報又は新たに入力された文書サマリ情報を選択する。
図10は、実施例1の文書審査モジュール211が実行する文書サマリ情報生成処理を説明するフローチャートである。
文書審査モジュール211は、文書画像データ701が入力された場合、以下で説明する文書サマリ情報生成処理を開始する。
まず、文書審査モジュール211は、文書画像データ701に対してOCR処理を実行する(ステップS201)。OCR処理の詳細は図11を用いて説明する。OCR処理によって、文書画像データ701は、計算機が扱うことができる文字列群のデータに変換される。
次に、文書審査モジュール211は、テンプレート情報221から一つのテンプレートを選択する(ステップS202)。例えば、文書審査モジュール211は、テンプレート情報221の上のエントリから順に選択する。
次に、文書審査モジュール211は、スコア算出処理を実行する(ステップS203)。スコア算出処理の詳細は図12を用いて説明する。
次に、文書審査モジュール211は、全てのテンプレートについて処理が完了したか否かを判定する(ステップS204)。
全てのテンプレートについて処理が完了していないと判定された場合、文書審査モジュール211は、ステップS202に戻り、同様の処理を実行する。
全てのテンプレートについて処理が完了したと判定された場合、文書審査モジュール211は、代表OCR要素選択処理を実行する(ステップS205)。代表OCR要素選択処理の詳細は図13を用いて説明する。
次に、文書審査モジュール211は、代表OCR要素703を用いて、特徴ベクトル704を生成し(ステップS206)、また、文書サマリ情報705を生成する(ステップS207)。
次に、文書審査モジュール211は、特徴ベクトル評価処理を実行し(ステップS208)、ケース0、ケース1、及びケース2の三つのクラスに分類する(ステップS209)。
クラスがケース0の場合、文書審査モジュール211は、ステップS207において生成された文書サマリ情報705を出力する(ステップS214)。その後、文書審査モジュール211は、処理を終了する。
クラスがケース1の場合、文書審査モジュール211は、一人の管理者が入力したテンプレート及び文書サマリ情報の入力を受け付ける(ステップS210、ステップS211)。その後、文書審査モジュール211は、ステップS207において生成された文書サマリ情報705と入力された文書サマリ情報とが一致する場合、文書サマリ情報705を出力する(ステップS214)。なお、ステップS207において生成された文書サマリ情報705と入力された文書サマリ情報とが一致しない場合、文書審査モジュール211は、入力された文書サマリ情報を出力する。
クラスがケース2の場合、文書審査モジュール211は、二人の管理者が入力したテンプレート及び文書サマリ情報の入力を受け付ける(ステップS212、ステップS213)。その後、文書審査モジュール211は、ステップS207において生成された文書サマリ情報705と入力された文書サマリ情報とが一致する場合、文書サマリ情報705を出力する(ステップS214)。なお、ステップS207において生成された文書サマリ情報705と入力された文書サマリ情報とが一致しない場合、文書審査モジュール211は、入力された文書サマリ情報を出力する。
図11は、実施例1の文書審査モジュール211が実行するOCR処理の一例を説明するフローチャートである。
文書審査モジュール211は、文書画像データ701から枠(セル)を検出し(ステップS301)、枠外の領域及び枠内の領域から文字列が存在する領域(文字列領域)を検出する(ステップS302)。なお、文字列領域は、矩形の領域として検出される。
ステップS301及びステップS302の処理としては、例えば、特許文献2に記載された方法を用いる。
次に、文書審査モジュール211は、辞書を用いて文字列領域に含まれる文字列の識別処理を実行する(ステップS303)。文字列の識別処理は、例えば、非特許文献1に記載の方法を用いる。その後、文書審査モジュール211は、OCR処理を終了する。
図12は、実施例1の文書審査モジュール211が実行するスコア算出処理を説明するフローチャートである。
文書審査モジュール211は、選択されたテンプレートに含まれる属性の種別の中からターゲット属性種別を選択する(ステップS401)。すなわち、選択されたテンプレートに対応するエントリに含まれる属性302が一つ選択される。
次に、文書審査モジュール211は、ターゲット属性種別に対応するOCR要素702を生成する(ステップS402)。具体的には、以下のような処理が実行される。
文書審査モジュール211は、単語辞書222を参照し、OCR処理が実行された文書画像データ701からターゲット属性種別に対応するエントリの文字列402に一致又は類似する属性(文字列)を検索する。このとき、文書審査モジュール211は、図示しない類義語辞書を用いて、文字列402と同一の文字列だけではなく、意味等が一致又は類似する属性(文字列)を検索する。また、文書審査モジュール211は、表記辞書223を参照し、OCR処理が実行された文書画像データ701からターゲット属性種別に対応するエントリの表記502に一致又は類似する属性(文字列)を検索する。
文書審査モジュール211は、空のOCR要素702を生成し、ターゲット属性種別を属性801に設定する。文書審査モジュール211は、検索された属性を項目値802に設定し、検索された属性の位置を位置803に設定する。この時点では、検索された一つの属性に対して、一つのOCR要素702が生成される。
文書審査モジュール211は、OCR要素702の位置803に基づいて、検索された文字列間の距離を算出し、距離が閾値以下である文字列のOCR要素702を一つのOCR要素702に統合する。この場合、統合されたOCR要素702の項目値802及び位置803には、複数の値が設定される。
単語辞書222及び表記辞書223のいずれを用いても属性が抽出されなかった場合、文書審査モジュール211は、属性801にターゲット属性種別を設定し、項目値802及び位置803を空欄に設定し、スコア804の全ての値を「0」に設定する。また、文書審査モジュール211は、選択されたテンプレートを不適切なテンプレートであると判定し、スコア算出処理を終了してもよい。以上がステップS402の処理の説明である。
次に、文書審査モジュール211は、各OCR要素702のスコアを算出する(ステップS403)。具体的には、以下のような処理が実行される。
文書審査モジュール211は、単語辞書222及び項目値802を参照し、ターゲット属性種別に対応するエントリの文字列402と、単語辞書222を用いて抽出された属性とを比較し、比較結果に基づいて単語スコアを算出する。例えば、文字列の類似度が単語スコアとして算出される。なお、類似度等の算出方法としては、例えば、特許文献に記載の方法を用いる。
なお、単語辞書222を用いた検索処理によって抽出された属性が存在しない場合、文書審査モジュール211は、「0」等の既定値を単語スコアとして設定する。
文書審査モジュール211は、表記辞書223及び項目値802を参照し、ターゲット属性種別に対応するエントリの表記502と、表記辞書223を用いて抽出された属性とを比較し、比較結果に基づいて表記スコアを算出する。例えば、表記502の少なくとも一つの表記と属性との一致度が表記スコアとして算出される。なお、一致度等の算出方法は、例えば、非特許文献2に記載の技術を用いる。
なお、表記辞書223を用いた検索処理によって抽出された属性が存在しない場合、文書審査モジュール211は、「0」等の既定値を表記スコアとして設定する。
文書審査モジュール211は、項目値802に設定された属性の出現回数に基づいて出現回数スコアを算出する。例えば、出現回数そのものが出現回数スコアとして算出される。項目値802に二つ以上の属性が設定されている場合、いずれかの属性の出現回数を用いて出現回数スコアが算出されてもよい。なお、出現回数を評価できる値であればどのような算出方法でもよい。
文書審査モジュール211は、位置803及びターゲット属性種別に対応する行の位置情報303を用いて属性の位置の誤差を算出し、当該誤差に基づいて位置スコアを算出する。本実施例では、誤差をパラメータとする数式を用いて位置スコアが算出される。なお、属性の位置の誤差を評価できる値であればどのような算出方法でもよい。
文書審査モジュール211は、項目値802に設定された属性の領域の大きさに基づいて面積スコアを算出する。例えば、文書画像データ701に対応する紙における属性の領域の割合が面積スコアとして算出される。なお、項目値802に設定された属性の領域の大きさを評価できる値であればどのような算出方法でもよい。
文書審査モジュール211は、位置803を参照して、属性種別が同一である属性間の距離を算出し、当該距離に基づいて項目スコアを算出する。例えば、単語辞書222を用いて抽出された属性と、表記辞書223を用いて抽出された属性との間の距離が算出される。本実施例では、属性間の距離の逆数をパラメータとする数式を用いて項目スコアが算出される。なお、二つの属性の位置を評価できる値であればどのような算出方法でもよい。項目値802に複数の属性が設定されるOCR要素702の場合、前述した算出方法に基づいて項目スコアが算出される。一方、項目値802に一つの属性が設定されるOCR要素702の場合、「0」等の既定値が項目スコアとして算出される。
文書審査モジュール211は、上記で説明した各スコアをOCR要素702のスコア804に設定する。以上がステップS403の処理の説明である。
次に、文書審査モジュール211は、全ての属性種別について処理が完了したか否かを判定する(ステップS404)。
全ての属性種別について処理が完了していないと判定された場合、文書審査モジュール211は、ステップS401に戻り、同様の処理を実行する。
全ての属性種別について処理が完了したと判定された場合、文書審査モジュール211は、スコア算出処理を終了する。
図13は、実施例1の文書審査モジュール211が実行する代表OCR要素選択処理の一例を説明するフローチャートである。
文書審査モジュール211は、テンプレートを選択する(ステップS501)。また、文書審査モジュール211は、選択されたテンプレートに含まれる属性種別の中からターゲット属性種別を選択する(ステップS502)。
文書審査モジュール211は、ターゲット属性種別に対応するOCR要素702が複数存在するか否かを判定する(ステップS503)。すなわち、属性801がターゲット属性種別に一致するOCR要素702が二つ以上存在するか否かが判定される。
ターゲット属性種別に対応するOCR要素702が一つであると判定された場合、文書審査モジュール211は、一つのOCR要素702を候補OCR要素に設定する(ステップS504)。
ターゲット属性種別に対応するOCR要素702が複数存在すると判定された場合、文書審査モジュール211は、複数のOCR要素702の中から候補OCR要素を一つ選択する(ステップS505)。
例えば、文書審査モジュール211は、任意の数式にOCR要素702のスコア804を代入することによって選択指標を算出し、選択指標に基づいて候補OCR要素を選択する。ここでは、選択指標が最も大きいOCR要素702が候補OCR要素として選択される。また、文書審査モジュール211は、機械学習が行われた分類器を用いて候補OCR要素を選択してもよい。
ステップS506では、文書審査モジュール211は、選択されたテンプレートに含まれる全ての属性種別について処理が完了したか否かを判定する(ステップS506)。
選択されたテンプレートに含まれる全ての属性種別について処理が完了していないと判定された場合、文書審査モジュール211は、ステップS502に戻り、同様の処理を実行する。
選択されたテンプレートに含まれる全ての属性種別について処理が完了したと判定された場合、文書審査モジュール211は、選択されたテンプレートの候補OCR要素を用いて、当該テンプレートの比較値を算出する(ステップS507)。例えば、候補OCR要素のスコア804をパラメータとする数式に基づいて比較値が算出される。なお、比較値は、テンプレートを用いて抽出された属性の抽出精度を評価するための値である。
次に、文書審査モジュール211は、全てのテンプレートについて処理が完了したか否かを判定する(ステップS508)。
全てのテンプレートについて処理が完了していないと判定された場合、文書審査モジュール211は、ステップS501に戻り、同様の処理を実行する。
全てのテンプレートについて処理が完了したと判定された場合、文書審査モジュール211は、各テンプレートの比較値を用いて代表テンプレートを選択する(ステップS509)。ここでは、比較値が最も大きいテンプレートが代表テンプレートとして選択される。
次に、文書審査モジュール211は、代表テンプレートに対応する候補OCR要素を代表OCR要素703として選択する(ステップS510)。その後、文書審査モジュール211は、代表OCR要素選択処理を終了する。
図14、図15、及び図16を用いて、計算機100が表示する画面の一例を説明する。
図14は、実施例1の計算機100が表示するテンプレート入力画面1400の一例を示す図である。
テンプレート入力画面1400は、テンプレートを設定するための画面であり、初期設定時、又は、ステップS210及びステップS212において表示される。なお、テンプレート入力画面1400は、管理者の要求に応じて任意のタイミングで表示できる。
テンプレート入力画面1400は、属性設定欄1401、追加ボタン1402、位置設定欄1403、及び登録ボタン1404を含む。
属性設定欄1401は、テンプレートに含める属性の種別を設定する欄である。追加ボタン1402は、属性設定欄1401に行を追加するためのボタンである。位置設定欄1403は、属性設定欄1401に設定された属性の種別に対応する属性の紙面上の位置を設定する欄である。登録ボタン1404は、画面に入力したテンプレートをテンプレート情報221に設定するためのボタンである。
管理者が追加ボタン1402を操作した場合、属性設定欄1401に行が追加される。管理者は、追加された行に属性の種別を入力する。このとき、属性設定欄1401に設定された属性の種別に対応する属性のアイコンが、位置設定欄1403に表示される。管理者は、アイコンを動かすことによって、属性の種別に対応する属性の位置及び範囲を設定する。
管理者が登録ボタン1404を操作した場合、計算機100は、テンプレート情報221にエントリを追加し、追加されたエントリのテンプレート番号301に識別番号を設定する。また、計算機100は、追加されたエントリに、属性設定欄1401に設定された属性の種別の数と同一数の行を生成し、各行に属性設定欄1401の値を設定する。また、計算機100は、位置設定欄1403に基づいて、各行の位置情報303に値を設定する。
図15は、実施例1の計算機100が表示するクラス分類設定画面1500の一例を示す図である。
クラス分類設定画面1500は、クラスの分類方法を設定するための画面であり、初期設定時に表示される。なお、クラス分類設定画面1500は、管理者の要求に応じて任意のタイミングで表示できる。
クラス分類設定画面1500は、第1の閾値設定欄1501、第2の閾値設定欄1502、パラメータ設定欄1503、追加ボタン1504、OKボタン1505、及びキャンセルボタン1506を含む。
第1の閾値設定欄1501及び第2の閾値設定欄1502は、操作方法(クラス)の分類時に使用する閾値を設定する欄である。パラメータ設定欄1503は、代表OCR要素703の選択、及び特徴ベクトルを用いた分類に使用するパラメータ(例えば、スコアの種別等)を設定する欄である。追加ボタン1504は、パラメータ設定欄1503に行を追加するためのボタンである。OKボタン1505は、各入力欄に設定した値を計算機100に登録するためのボタンである。キャンセルボタン1506は、各入力欄に設定した値を初期化するためのボタンである。
図16は、実施例1の計算機100が表示する出力画面1600の一例を示す図である。
出力画面1600は、電子申請の審査結果を表示する画面であり、電子申請の審査が完了した後に表示される。なお、出力画面1600は、管理者又はユーザの要求に応じて任意のタイミングで表示できる。
出力画面1600は、結果表示テーブル1610を含む。結果表示テーブル1610は、ID1611、審査結果1612、文書サマリ情報1613、分類結果1614、及びスコア1615から構成されるエントリを含む。
ID1611は、電子申請を一意に識別するための識別情報を格納する。例えば、計算機100は、電子申請を受け付けた場合に、識別情報を付与する。審査結果1612は、ステップS103の処理結果を格納する。文書サマリ情報1613は、生成された文書サマリ情報にアクセスするためのアドレス又はURL等を格納する。なお、文書サマリ情報705そのものが文書サマリ情報1613に格納されてもよい。分類結果1614は、ステップS209の分類結果を格納する。スコア1615は、ステップS209の分類において使用したスコア等を格納する。なお、スコア1615として表示する値は、任意に設定できる。
本発明によれば、計算機100は、テンプレートに含まれる属性の位置及び文書画像データ701に含まれる属性の位置のズレ、文書画像データ701における属性の範囲等を考慮したスコアに基づいてテンプレートを選択できる。したがって、数値識別子とテンプレートとの対応関係が設定されていなくても、最適なテンプレートを選択できる。
また、当該テンプレートを用いて生成された文書サマリ情報705の信頼性を示す評価値に基づいて、文書サマリ情報705の修正又は新たな文書サマリ情報の入力が必要であるか否かを判定できる。これによって管理者の工程数を削減し、また、電子申請の不要な停止等を回避できるため、電子申請におけるコストの削減が可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
110 入力端末
120 クライアント端末
130 スキャナ
150 ネットワーク
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 ネットワークインタフェース
205 入力装置
206 出力装置
211 文書審査モジュール
212 学習処理モジュール
221 テンプレート情報
222 単語辞書
223 表記辞書
701 文書画像データ
702 OCR要素
703 代表OCR要素
704 特徴ベクトル
705 文書サマリ情報
1400 テンプレート入力画面
1500 クラス分類設定画面
1600 出力画面

Claims (9)

  1. 紙に記載された文書の特徴を示す文字列である属性を抽出する計算機であって、
    プロセッサ及び前記プロセッサに接続される記憶装置を備え、
    前記記憶装置は、少なくとも一つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を格納し、
    前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
    前記プロセッサは、
    前記紙に記載された文書の画像データに対して文字認識処理を実行し、
    前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの各々に定義された前記属性の種別に対応する属性を抽出し、
    前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの各々について、前記抽出された属性に関するスコアを算出し、
    前記スコアに基づいて、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、
    前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、
    前記選択されたテンプレートの前記スコアを用いて、前記紙に記載された文書の特徴を表す特徴ベクトルを生成し、
    前記特徴ベクトルを用いて、前記出力情報の信頼性を示す評価値を算出し、
    前記評価値及び閾値の比較結果に基づいて、前記出力情報の修正又は新たな出力情報の生成が必要であるか否かを判定することを特徴とする計算機。
  2. 請求項1に記載の計算機であって、
    前記プロセッサは、
    前記辞書情報を参照して、前記抽出された属性が前記辞書情報に登録された文字列に合致する度合いを示す第1のスコアを算出し、
    前記テンプレート情報を参照して、前記位置情報と前記抽出された属性の紙面上の位置とのズレを評価する第2のスコアを算出し、
    前記抽出された属性の前記第1のスコア及び前記第2のスコアを成分とする前記特徴ベクトルを生成することを特徴とする計算機。
  3. 請求項2に記載の計算機であって、
    前記プロセッサは、
    前記抽出された属性の紙面上の範囲の大きさを評価する第3のスコアを算出し、
    前記属性の種別が同一である属性間の距離を評価する第4のスコアを算出し、
    前記抽出された属性の前記第1のスコア、前記第2のスコア、前記第3のスコア、及び前記第4のスコアを成分とする前記特徴ベクトルを生成することを特徴とする計算機。
  4. 紙に記載された文書の特徴を示す文字列である属性を抽出する計算機が実行する文書識別方法であって、
    前記計算機は、プロセッサ及び前記プロセッサに接続される記憶装置を備え、
    前記記憶装置は、少なくとも一つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を格納し、
    前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
    前記文書識別方法は、
    前記プロセッサが、前記紙に記載された文書の画像データに対して文字認識処理を実行する第1のステップと、
    前記プロセッサが、前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの各々に定義された前記属性の種別に対応する属性を抽出する第2のステップと、
    前記プロセッサが、前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの各々について、前記抽出された属性に関するスコアを算出する第3のステップと、
    前記プロセッサが、前記スコアに基づいて、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択する第4のステップと、
    前記プロセッサが、前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成する第5のステップと、
    前記プロセッサが、前記選択されたテンプレートの前記スコアを用いて、前記紙に記載された文書の特徴を表す特徴ベクトルを生成する第6のステップと、
    前記プロセッサが、前記特徴ベクトルを用いて、前記出力情報の信頼性を示す評価値を算出する第7のステップと、
    前記プロセッサが、前記評価値及び閾値の比較結果に基づいて、前記出力情報の修正又は新たな出力情報の生成が必要であるか否かを判定する第8のステップと、を含むことを特徴とする文書識別方法。
  5. 請求項4に記載の文書識別方法であって、
    前記第3のステップは、
    前記プロセッサが、前記辞書情報を参照して、前記抽出された属性が前記辞書情報に登録された文字列に合致する度合いを示す第1のスコアを算出するステップと、
    前記プロセッサが、前記テンプレート情報を参照して、前記位置情報と前記抽出された属性の紙面上の位置とのズレを評価する第2のスコアを算出するステップと、を含み、
    前記第6のステップは、前記プロセッサが、前記抽出された属性の前記第1のスコア及び前記第2のスコアを成分とする前記特徴ベクトルを生成するステップを含むことを特徴とする文書識別方法。
  6. 請求項5に記載の文書識別方法であって、
    前記第3のステップは、
    前記プロセッサが、前記抽出された属性の紙面上の範囲の大きさを評価する第3のスコアを算出するステップと、
    前記プロセッサが、前記属性の種別が同一である属性間の距離を評価する第4のスコアを算出するステップと、を含み、
    前記第6のステップは、前記プロセッサが、前記抽出された属性の前記第1のスコア、前記第2のスコア、前記第3のスコア、及び前記第4のスコアを成分とする前記特徴ベクトルを生成することを特徴とする文書識別方法。
  7. 計算機及び端末を備えるシステムであって、
    前記計算機は、第1のプロセッサ及び前記第1のプロセッサに接続される第1の記憶装置を有し、
    前記端末は、第2のプロセッサ及び前記第2のプロセッサに接続される第2の記憶装置を有し、
    前記第1の記憶装置は、紙に記載された文書の特徴を示す文字列である属性の種別が少なくとも一つ以上定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を格納し、
    前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
    前記第2のプロセッサは、前記紙に記載された文書を入力し、
    前記第1のプロセッサは、
    前記端末が入力した前記紙に記載された文書の画像データを生成し、
    前記画像データに対して文字認識処理を実行し、
    前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの各々に定義された前記属性の種別に対応する属性を抽出し、
    前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの各々について、前記抽出された属性に関するスコアを算出し、
    前記スコアに基づいて、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、
    前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、
    前記出力情報を前記端末に出力し、
    前記選択されたテンプレートの前記スコアを用いて、前記紙に記載された文書の特徴を表す特徴ベクトルを生成し、
    前記特徴ベクトルを用いて、前記出力情報の信頼性を示す評価値を算出し、
    前記評価値及び閾値の比較結果に基づいて、前記出力情報の修正又は新たな出力情報の生成が必要であるか否かを判定し、
    前記出力情報の修正又は新たな出力情報の生成が必要であると判定された場合、前記端末を操作するユーザに、前記出力情報の修正又は新たな出力情報の生成が必要である旨を通知することを特徴とするシステム。
  8. 請求項7に記載のシステムであって、
    前記第1のプロセッサは、
    前記辞書情報を参照して、前記抽出された属性が前記辞書情報に登録された文字列に合致する度合いを示す第1のスコアを算出し、
    前記テンプレート情報を参照して、前記位置情報と前記抽出された属性の紙面上の位置とのズレを評価する第2のスコアを算出し、
    前記抽出された属性の前記第1のスコア及び前記第2のスコアを成分とする前記特徴ベクトルを生成することを特徴とするシステム。
  9. 請求項8に記載のシステムであって、
    前記第1のプロセッサは、
    前記抽出された属性の紙面上の範囲の大きさを評価する第3のスコアを算出し、
    前記属性の種別が同一である属性間の距離を評価する第4のスコアを算出し、
    前記抽出された属性の前記第1のスコア、前記第2のスコア、前記第3のスコア、及び前記第4のスコアを成分とする前記特徴ベクトルを生成することを特徴とするシステム。
JP2017108312A 2017-05-31 2017-05-31 計算機、文書識別方法、及びシステム Active JP6938228B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017108312A JP6938228B2 (ja) 2017-05-31 2017-05-31 計算機、文書識別方法、及びシステム
CN201810160384.1A CN108984578B (zh) 2017-05-31 2018-02-26 计算机、文档识别方法以及系统
US15/918,830 US10552674B2 (en) 2017-05-31 2018-03-12 Computer, document identification method, and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017108312A JP6938228B2 (ja) 2017-05-31 2017-05-31 計算機、文書識別方法、及びシステム

Publications (2)

Publication Number Publication Date
JP2018205910A JP2018205910A (ja) 2018-12-27
JP6938228B2 true JP6938228B2 (ja) 2021-09-22

Family

ID=64459849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017108312A Active JP6938228B2 (ja) 2017-05-31 2017-05-31 計算機、文書識別方法、及びシステム

Country Status (3)

Country Link
US (1) US10552674B2 (ja)
JP (1) JP6938228B2 (ja)
CN (1) CN108984578B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6871840B2 (ja) * 2017-11-06 2021-05-19 株式会社日立製作所 計算機及び文書識別方法
JP6791191B2 (ja) * 2018-04-02 2020-11-25 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN109871521A (zh) * 2019-01-08 2019-06-11 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
JP7077998B2 (ja) * 2019-03-07 2022-05-31 セイコーエプソン株式会社 情報処理装置
JP7338203B2 (ja) * 2019-03-29 2023-09-05 富士フイルムビジネスイノベーション株式会社 文字認識装置及びプログラム
JP7312646B2 (ja) * 2019-08-27 2023-07-21 株式会社日立製作所 情報処理装置、文書識別方法、及び情報処理システム
JP7408959B2 (ja) * 2019-09-06 2024-01-09 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11551146B2 (en) * 2020-04-14 2023-01-10 International Business Machines Corporation Automated non-native table representation annotation for machine-learning models
CN115605892A (zh) * 2020-06-05 2023-01-13 富士通株式会社(Jp) 生成方法、生成程序以及生成装置
US20220027578A1 (en) * 2020-07-27 2022-01-27 Nvidia Corporation Text string summarization
CN113111829B (zh) * 2021-04-23 2023-04-07 杭州睿胜软件有限公司 识别文档的方法和装置
CN114298238A (zh) * 2021-12-31 2022-04-08 瀚云科技有限公司 一种档案创建方法、装置、电子设备及存储介质
US11651093B1 (en) * 2022-02-24 2023-05-16 LendingClub Bank, National Association Automated fraudulent document detection
CN114612921B (zh) * 2022-05-12 2022-07-19 中信证券股份有限公司 表单识别方法、装置、电子设备和计算机可读介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204492A (ja) * 1996-01-26 1997-08-05 Toshiba Corp 帳票処理装置
US8165958B1 (en) 1999-03-26 2012-04-24 Metavante Corporation Electronic bill presentation and payment method and system
JP2001202466A (ja) * 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
JP2002230479A (ja) * 2001-01-30 2002-08-16 Tokio Marine & Fire Insurance Co Ltd コンピュータ・システム並びに帳票処理方法及びプログラム
JP2004171316A (ja) 2002-11-21 2004-06-17 Hitachi Ltd Ocr装置及び文書検索システム及び文書検索プログラム
JP4189369B2 (ja) * 2004-09-24 2008-12-03 株式会社東芝 構造化文書検索装置及び構造化文書検索方法
US7787158B2 (en) * 2005-02-01 2010-08-31 Canon Kabushiki Kaisha Data processing apparatus, image processing apparatus, data processing method, image processing method, and programs for implementing the methods
JP2007109051A (ja) * 2005-10-14 2007-04-26 Seiko Epson Corp 帳票識別装置
WO2007117334A2 (en) * 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
US7630520B2 (en) * 2006-07-31 2009-12-08 Canadian Bank Note Company, Limited Method and system for document comparison using cross plane comparison
JP2016048444A (ja) * 2014-08-27 2016-04-07 沖電気工業株式会社 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
CN105654022A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档结构化信息的方法及装置
JP6050843B2 (ja) * 2015-01-30 2016-12-21 株式会社Pfu 情報処理装置、方法およびプログラム
CN105913093B (zh) * 2016-05-03 2019-06-21 电子科技大学 一种用于文字识别处理的模板匹配方法
JP6871840B2 (ja) * 2017-11-06 2021-05-19 株式会社日立製作所 計算機及び文書識別方法

Also Published As

Publication number Publication date
US20180349693A1 (en) 2018-12-06
JP2018205910A (ja) 2018-12-27
CN108984578B (zh) 2022-03-11
CN108984578A (zh) 2018-12-11
US10552674B2 (en) 2020-02-04

Similar Documents

Publication Publication Date Title
JP6938228B2 (ja) 計算機、文書識別方法、及びシステム
JP6871840B2 (ja) 計算機及び文書識別方法
USRE49576E1 (en) Standard exact clause detection
US10366123B1 (en) Template-free extraction of data from documents
JP6406932B2 (ja) 帳票認識装置及び方法
JP6938408B2 (ja) 計算機及びテンプレート管理方法
JP6357621B1 (ja) 会計処理装置、会計処理システム、会計処理方法及びプログラム
JP2014182477A (ja) プログラム及び帳票処理装置
AU2019204444A1 (en) System and method for enrichment of ocr-extracted data
US10614125B1 (en) Modeling and extracting elements in semi-structured documents
US11615244B2 (en) Data extraction and ordering based on document layout analysis
JP2015069256A (ja) 文字識別システム
JP2019191665A (ja) 財務諸表読取装置、財務諸表読取方法及びプログラム
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
JP5550959B2 (ja) 文書処理システム、及びプログラム
JP7312646B2 (ja) 情報処理装置、文書識別方法、及び情報処理システム
US11363162B2 (en) System and method for automated organization of scanned text documents
US11475686B2 (en) Extracting data from tables detected in electronic documents
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
JP2022075467A (ja) データ処理装置、データ処理方法及びプログラム
JP6946222B2 (ja) 給与情報処理装置、給与情報処理方法、およびプログラム
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
WO2023062798A1 (ja) 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム
JP2010205122A (ja) レイアウト構造解析装置及びレイアウト構造解析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210901

R150 Certificate of patent or registration of utility model

Ref document number: 6938228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150