JP2023066474A - 画像処理装置、画像処理方法、プログラム - Google Patents
画像処理装置、画像処理方法、プログラム Download PDFInfo
- Publication number
- JP2023066474A JP2023066474A JP2021177090A JP2021177090A JP2023066474A JP 2023066474 A JP2023066474 A JP 2023066474A JP 2021177090 A JP2021177090 A JP 2021177090A JP 2021177090 A JP2021177090 A JP 2021177090A JP 2023066474 A JP2023066474 A JP 2023066474A
- Authority
- JP
- Japan
- Prior art keywords
- item
- character
- character string
- character recognition
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 133
- 238000003672 processing method Methods 0.000 title claims 2
- 238000000034 method Methods 0.000 claims description 62
- 238000001514 detection method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 description 63
- 230000008569 process Effects 0.000 description 53
- 230000014509 gene expression Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 238000007726 management method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 5
- 230000007717 exclusion Effects 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1452—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【課題】 従来、文書画像から所定のフォーマットで記載された文字列(例えば電話番号)が複数検出された場合、ユーザに選択させるようにしており、ユーザの手間が掛かっていた。【解決手段】 本願では、文書画像の文字認識結果の中から、所定のフォーマットで記載された文字列候補(例えば電話番号候補)を検出し、当該検出された文字列候補の近傍に存在する他の文字列に基づいて、当該文字列候補の尤度を決定し、複数の文字列候補が検出された場合は、前記尤度の高い文字列候補に基づく項目値を出力する。【選択図】 図8
Description
本発明は、文書を発行した会社名を判定する画像処理装置に関する。
近年、MFP(Multi Function Printer:プリント、コピー、ファクシミリなどの機能を備えた複合機)等に備え付けられたイメージスキャナを用いて文書をスキャンして電子化することが一般化している。また、デジタルカメラや、スマートフォンに代表されるモバイル機器のカメラ機能を用いて、文書を撮影することにより電子化することも一般化している。このように、手書き文字や活字を含む文書を、光学的にスキャンあるいは撮影することにより文書画像(スキャン文書画像)を得ることが容易になった。さらに、この文書画像に対して、光学文字認識処理(OCR処理)を行うことによって、文書画像内の文字画像をコンピュータが利用可能な文字コードに変換することができる。このような文字認識処理を用いることで、紙媒体の帳票(領収書、請求書など)をデジタルデータに変換してシステムに入力する作業(例えば、経費精算業務)を自動化することが行われるようになってきている。これにより、データ入力作業における生産性の向上が期待されている。
図1(a)は、会計システムと、連携する各種システムとの間の情報の流れを示すものである。
会計システム101は、会計や経理の作業を支援するシステムである。会計システム101は、会計や経理の担当者により、会社内の現金・預金や資産・商品等の取引を、経営的あるいは税務的な視点で分類しながら記録していくものであり、従来は様々な帳簿の形態であったものを電子化したものである。その記録内容は会計処理結果102として記憶され、必要に応じて各種帳簿107として出力されることになる。また、会計システムは、取引の際に、その内容や目的に応じて費目の分類を行う必要があり、各費目を識別するために、費目コードを使用する。
また、現金や預金等の管理を行う入出金管理システム103、各部門別の予算の管理を行う予算管理システム104、商品の在庫を管理する在庫管理システム105、各種資産の管理を行う資産管理システム106がある。現金・預金や資産・商品等の取引が生じると、各管理システム(103、105、106)内にその増減が記録されることになる。そして、従来、会計や経理の担当者は、各管理システム(103、105、106)に記録された各取引の情報を参照して、会計システム102に記録していた。また、予算管理システム104は、予算を管理する際に、各予算の識別用に予算コードを使用する。
図1(b)の帳票文書110は、事務用品を購入した際に発行された領収書(帳票文書)の例である。これは、事務用品の購入を行ったことを証明する証憑である。帳票文書110内の各部分に、様々な情報が記載されている。例えば、文書タイトル111には、帳票文書110のタイトルとなる部分で、本帳票文書が「領収証」であることが記載されている。発行日112は、本帳票文書が発行された日付を示している。会計や経理の業務では、本帳票文書の領収証を証憑として保存することを行う際に、本帳票文書の識別のために、発行日302の日付「2020年11月12日」の情報を利用することがある。
発行者113には、本帳票文書を作成・発行した会社(発行者)の情報として、その会社名や住所・電話番号の情報が記載されている。なお、帳票文書を受け取って会計や経理の処理する際には、費目の分類を行うために、何を何のために購入したかを明確にする必要があり、その際に発行者113の会社名「AAA事務機(株)」の情報を利用することがある。また、本帳票文書の領収証を証憑として保存する際に、本帳票文書の識別のために会社名の情報も利用する場合がある。
宛名114には、購入・支払いを行った会社の会社名が記載されている。また、合計金額115には、購入・支払いの合計金額が記載されている。帳票文書について会計や経理の処理を行う際には、この金額を(及び必要に応じてその税額も)取引の金額として使用することになる。明細116には、請求されている明細情報が記載されており、品名ごとに対し、その単価や数量、価格などの情報が記載されている。また、集計117には、その各価格の小計に対し、税金などの情報を加え、合計金額115の金額となることが示されている。
図1(c)は、一般的に、会計や経理の担当者が、会計システム101に記録する帳簿の情報の例である。帳簿上の取引記録120は、会計・経理で用いる取引を帳簿の形式で記載したものであり、表の形態で示している。この表は一行が1つの取引になっており、取引の日付を先頭に、各情報が記載されるものになっている。
以下では、ある部門(部署)における取引情報を記録する際の例について説明する。例えば、あらかじめ、その部門の予算として、予算管理システム104では、業務で使用する事務用品としての購入内容や金額を予算計上・記録しておく。そして、その部門では、その購入内容に従い、「2020年11月12日」に、会社名「AAA事務機(株)」の会社から事務用品を購入し、入出金管理システム108から現金で支払ったものとする。この場合、購入金額分の出金が行われたことを記録する必要がある。また、その際に、購入・支払いを行ったことを証明するために、会社名「AAA事務機(株)」の会社は、領収証110を証憑として発行され、入手できているものとする。この場合、帳簿上の取引記録120において、「貸方」以降の3列(左から6~8列目)には以下の内容が記載される。すなわち、入手金管理システムの出金記録における「現金」及びその種別を示すコード「100」と、予算管理システム104から予算情報である部門名「蒲田支店」及び予算コード「221」と、金額「7,700」円が支払われたこととを記載する。さらに、帳簿上の取引記録120の「借方」以降の3列(左から2~4列目)に以下の内容が記載される。すなわち、事務用品費として「蒲田支店」が「7,700」円を使用したことを記載する。したがって、会計・経理の担当者は、「借方」に、費目「事務用品費」と費目コード「300」を記載し、「部門」に、部門名「蒲田支店」及び予算コード「221」を記載し、「金額」に「7,700」円を記載する。さらに、その費目に分類した根拠として、帳票文書110の紐づけを容易にするために、「摘要」に「AAA事務機(株)」を記載している。このように記載することで、どの部門の予算に基づき、資産から現金を引き出し、事務用品を購入した、などの個々の事実を、事務用品費として使用した取引として、関連付けて記録することが可能となるのである。会計や経理の担当者は、この記録をする際に、証憑を含む各事実を確認し、費目の分類を行い会計システム101に記録していく。その記録内容を蓄積したものが会計処理結果102である。
このような作業を行う際に、帳票文書110の記載内容(日付や金額、会社名など)が自動的に会計システム102に転記される機能があれば、会計や経理の担当者の作業負担を軽減することが可能である。そのため、近年、証憑等の文書をイメージスキャナで電子画像として読み込み、文字認識処理を行うことで、その記載情報を抽出して転記することが検討されている。
記載された会社名を情報として取り出す場合、領収証等の会社名がロゴや特殊なフォントでの記載される場合や、スタンプを利用での記載で文字の画像が不鮮明になる場合がある。その場合、文字認識を利用して会社名を取り出すのは難しくなることがある。このような場合に対応するため、事前に電話帳を電子化した電話番号データを保有するか、電話番号サービスを利用できるようにしておき、会社の電話番号を文字認識で抽出し、その電話番号で前記電話番号データや電話番号サービスを検索することで、会社名を得るという方法が行われる。特に文字認識の精度が数字等で高い場合は、有効である。
しかし、実際には、会社の電話番号を文字認識結果の中から得る際に、単純に数字列を取り出していると、複数の電話番号が記載されている場合や、類似の数字列が記載されていたのを電話番号として取り出してしまう場合があり、文字認識の誤りで数字列に見えるものも含め、複数の電話番号が取得できてしまう場合がある。
上記の課題に対して、特許文献1では、電話番号の抽出で複数の電話番号情報が得られた場合は利用者に表示し選択させることを行っている。
しかしながら、特許文献1の手法では、誤って電話番号として抽出したものも含めて全ての電話番号を利用者に提示することになり、利用者はその確認を行う必要がある。
上記課題を解決するために、本発明の画像処理装置は、文書画像に文字認識処理を行うことにより文字認識結果を得る文字認識手段と、前記文字認識結果の中から、所定のフォーマットで記載された文字列候補を検出する検出手段と、前記検出された文字列候補の近傍に存在する他の文字列に基づいて、前記文字列候補の尤度を決定する決定手段と、前記検出手段により複数の文字列候補が検出された場合は、前記尤度の高い文字列候補に基づく項目値を出力する出力手段と、を備えることを特徴とする。
本発明によれば、文書から電話番号を含む特定の情報を抽出する際に、抽出したい項目の項目名や項目値を文字認識結果から検索・検出を行って抽出を行う。その際に、複数の電話番号の項目値に対し、電話番号のよく行われる記載方法を基に尤度を設けて、高尤度のものから順に電話番号データや電話番号サービスなどの検索を行い、会社名が得られるまで行うようにする。これにより、電話番号情報が複数抽出された場合でも、適切な会社名が得られる可能性を向上する。これにより、文書からの特定の情報を抽出し再利用する(再入力を省く)ことで、その情報を利用する業務の利用者の作業の効率化による時間短縮に貢献し、会計や経理の担当者の作業負担を軽減に貢献できる。
以下、本発明の実施形態について図面を用いて説明する。なお、実施形態は本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するため必須の手段であるとは限らない。
<第1の実施形態>
図2に、本実施形態に係る画像処理装置のシステム構成の概略を示す。CPU201は、本実施形態における各種システムの制御や処理を実現するものである。その作業内容は、後述するROM202やRAM203に保持されたプログラムを実行することによって実現される。また、CPU201自身の機能や、コンピュータプログラムの機構により、複数のコンピュータプログラムを並列に動作させることもできる。
図2に、本実施形態に係る画像処理装置のシステム構成の概略を示す。CPU201は、本実施形態における各種システムの制御や処理を実現するものである。その作業内容は、後述するROM202やRAM203に保持されたプログラムを実行することによって実現される。また、CPU201自身の機能や、コンピュータプログラムの機構により、複数のコンピュータプログラムを並列に動作させることもできる。
ROM202には、CPU201による制御の手順を記憶させたコンピュータプログラムやデータが格納されている。RAM203は、CPU201が処理するためのコンピュータプログラムを一時保持して、CPU201が各種制御を実行する際の様々なデータの作業領域を提供するものである。
入力装置204は、ユーザによる各種入力操作環境を提供するキーボードやマウスである。なお、ユーザからの各種入力操作環境を提供するものであれば、タッチパネル、スタイラスペン等による入力でもよいし、また、音声認識やジェスチャー操作による入力でも構わない。
バス205は、内部構成の各部分に接続されているアドレスバス、データバスなどであり、その各部分間の情報交換・通信機能を提供する。これにより、各部分が連携して動作できるようにする。
外部記憶装置206は、さまざまなデータ等を記憶する装置であり、ハードディスクやフレキシブルディスク、光ディスク、磁気ディスク、磁気テープ、不揮発性のメモリカード等の記録媒体と、記憶媒体を駆動し情報を記録するドライブなどで構成される。保管されたコンピュータプログラムやデータの全体や一部は、キーボード等の指示や、各種計算機プログラムの指示により、必要な時にRAM203上に呼び出される。
通信装置NCU207は、他のコンピュータ装置等と通信を行うためのユニットであり、ネットワーク(LAN)等を介して、遠隔地に存在する不図示の装置と通信し、本実施形態のプログラムやデータを共有することが可能になる。この通信手段としては、RS232CやUSB、IEEE1394、P1284、SCSI、モデム、Ethernetなどの有線通信や、Bluetooth、赤外線通信、IEEE802.11a/b/n等の無線通信等何でもよい。すなわち、本発明の装置と接続されている機器と通信手段をもつものであれば何でもかまわない。
GPU208は、CPU201などとバス205を経由して、与えられた表示指示や計算指示に従い、計算を行って表示内容の画像の作成や表示位置などの計算を行い、その計算結果を209の表示装置へ送って描画させる。または、バス205を経由して、計算結果をCPU201に戻すことで、CPU201と連携した計算処理を行う場合もある。表示装置209は、各種入力操作の状態やそれに応じた計算結果などをユーザに対して表示するディスプレイである。
SCNU210は、スキャナユニットであり、スキャナユニットで読み取った文書画像を受信する。なお、スキャナユニットは、内蔵するものに限るものではなく、ケーブル接続、またはNCU207などの外部I/Fの通信機能を用いてネットワーク接続してもよい。
以上述べてきた構成は、あくまでも、本実施形態における一例であり、本発明は、この構成に限定されるものでない。また、この内部構成やその構成する部分は、いわゆるハードウェアである制限はなく、仮想的にソフトウェアで作り出されたものでも構わない。また、以上述べてきた内部構成を単体で利用する場合だけでなく、図2の構成を複数利用して、NCU207を利用した情報交換・共有等を行い連携させることで、サーバ・PCクライアント等の各システムを構成する方法で実現しても構わない。すなわち、この複数利用の場合、各構成が異なる場所にあって、LANやインターネットなどを介して連携動作する場合でも構わないし、前記の仮想的にソフトウェアで作り出されたものが含まれていても構わない。さらに、同一の図2の単一の構成上に、複数のサーバ・PCクライアント等の各システムの全部もしくは一部を動作させるような、構成を共有するような利用方法であっても構わない。例えば、クラウドコンピューティングを利用してもよく、クラウド上の処理部が、スキャナ機能を有する装置から、ネットワークを介して文書画像を受信して処理する構成であってもよい。
図3は、本実施形態に係る画像処理装置の各処理部が実行する主な機能と情報の流れの概略を示す。なお、下記の図3の各処理部による処理は、外部記憶装置206やROM202に格納された処理プログラムやデータで構成され、RAM203にコピーされて、CPU201やGPU208を利用して実行・利用されることで実現される。また、図3の各種データや文字認識辞書は、外部記憶装置206やROM202に格納されたデータで構成され、必要に応じてRAM203にコピーされて利用されることとなる。
スキャン文書画像301は、紙などの媒体に記載・印刷された文書を光学的にスキャンすることによって得られた画像情報である。図2のSCNU210でスキャンが行われることで、スキャン文書画像301は取得される。
文書画像解析部310は、スキャン文書画像301の解析処理を行い、その記載内容の情報として、その中に記載されたテキスト情報や、イラストや写真などの画像情報を抽出する機能部分である。文書画像解析部310は、以下の機能と情報を保有している。
文書画像処理311では、スキャン文書画像301に対して、文書画像の解析が行いやすいように、画像全体の濃度や色の調整、文字認識用の二値化、表などの罫線該当画像の削除を行う機能の処理部である。
文字認識処理312では、文書画像処理311の結果に対して、文字画像領域を検索し、文字画像を得て、その文字画像に対応する文字コードを得る機能の処理部である。文字認識辞書313は、文字認識処理312で、文字画像に対応する文字コードを決めるために使用されるデータである。
文字認識処理312では、近傍の文字を結合していくことにより文字列の記載方向を推定し、文字認識結果の文字列を形成する。この文字認識結果の文字列には、文字列記載方向と、それを構成する文字ごとに、そのスキャン文書画像301内の位置とサイズの領域情報と、文字コード列情報を保有する。この文字コード列は、文字認識時の文字画像としての類似度などを基にした尤度と文字コードの対の列として構成される。この文字コード列で、最尤度の文字コードを最尤文字といい、文字認識結果の文字列で、その中の最尤文字だけで構成された文字列を最尤候補文字列と呼ぶ。なお、文字認識処理312は、スキャン文書画像301の全体の文字認識を行うだけでなく、その画像内の一部の領域に対してのみ行うことが可能である。また、文字認識する際の文字や文字の種類、使用言語、文字列記載方向等の制約を与えた場合の文字認識も可能である。
文字認識結果情報302は、文字認識処理312から出力される文字認識結果の文字列と、文書画像処理311の処理結果の画像によって構成される。
特定情報抽出部320は、文字認識結果情報302に対して解析処理を行い、その記載内容の中から、必要な情報の抽出を行う処理部である。特定情報抽出部320は、以下の機能と情報を保有している。
文書分類・抽出項目選択処理321は、文字認識結果情報302内の記載内容(文字認識結果)やその文書画像内の配置(レイアウト)から、スキャン文書画像301の文書分類を行う。また、その各文書分類の内容に応じて、抽出する情報の項目である抽出項目を決定する。例えば、文書分類内容として、レシートや領収書、請求書、納品書、報告書、見積り等に分類するとともに、その各文書分類の内容に応じて、合計金額や日付等の抽出項目を決定する。文書分類データ(抽出項目データ)322は、文書分類・抽出項目選択処理321が、文書分類を行うために使用するデータである。このデータは、各文書分類の記載内容とその文書画像内の配置(レイアウト)に関する情報と、各文書分類の内容によって決まる抽出項目の情報を格納したものである。
項目名・項目値推定処理323は、抽出項目のそれぞれについて、実際にその抽出項目の項目値に該当すると思われる文字認識結果を、文字認識結果情報302の文字認識結果の中から探して割当を行う。項目名・項目値制約データ324は、項目名・項目値推定処理323で検索を行うための制約に関する情報である。この中の項目名・項目値の制約として、その項目名や項目値について、文字種や用語等の文字認識結果に関する制約や文書画像内の絶対・相対位置(配置)等の制約が記録されている。
辞書・文字パタン突合処理325は、文字認識誤りパタン辞書326と項目値の辞書・文字パタンデータ327を使用して、項目名や項目値と推定された文字認識結果の補正を行う。文字認識結果302は、スキャン文書画像301やその元になった紙原稿自体の劣化やスキャン時の環境等の影響を受けるため、文字認識誤りが含まれる。辞書・文字パタン突合処理325は、可能な限り、文字認識結果の修正を行い、項目値の文字認識結果の精度を向上させるが、やはり、誤りが全くない状態にするのは、非常に困難であり、誤りが減少しているとはいえ、混入している状態となる。
文字認識誤りパタン辞書326は、典型的な文字認識の誤りパタンの情報である。これは、事前に、文字認識処理312と文字認識結果情報302に対し、事前に、様々なサンプルデータでの文字認識を行わせ、その正解結果と文字認識結果を比べることで、作成しておく情報である。辞書・文字パタンデータ327は、抽出対象の項目の項目値を補正するための情報である。項目値の記載内容(文字列)が事前にわかっている、あるいは、予想できる場合には、その記載内容を集めた情報で辞書を事前に作成しておき、辞書・文字パタン突合処理325はこれを利用して、文字認識結果に該当する記載内容を推定する。また、項目値が記載内容の文字列パタンが事前にわかっている、あるいは、予想できる場合には、その記載内容の文字列パタンを事前に作成しておき、辞書・文字パタン突合処理325はこれを利用して、文字認識結果に該当する記載内容を推定する。
会社名タイプ推定328は、文字認識結果情報302内で使用されている用語をもとに、対象のスキャン文書画像301を発行した会社が扱っている商品やサービスなどに関する会社名タイプ(会社の分類種別)を推定するものである。例えば、「鉄道」や「航空」、「食品販売」といった分類種別の情報を、会社名タイプの情報として出力する。頻出用語データ329は、会社名タイプ推定328が使用するデータで、会社名タイプごとによく記載に利用される用語の情報が格納されている。
項目値情報303は、特定情報抽出部320で抽出された各項目の項目値の値である。
特定情報検索部330は、項目値情報303の内容をもとに、事前に準備した情報や外部の情報サービスなどを使用して、抽出情報の追加を行うものである。特定情報検索部330は、以下の機能と情報を保有している。
電話番号検索331は、項目値情報303の電話番号の項目値をもとに、電話番号データ332を検索することで、当該電話番号に対応する会社名を得て、項目名「会社名」に対応する「項目値」とする処理を行う。電話番号データ332は、様々な会社名の電話番号データで、電話帳を電子データ化したものであり、これを検索することで、電話番号情報からその電話番号を保有する会社名を得ることができるデータである。電話番号データ332は事前に作成されるもので、外部記憶装置206やRAM203に格納され、必要に応じてRAM203にコピーされ利用されることになる。
項目値情報(追加後)304は、特定情報抽出部320で抽出された各項目の項目値の値に、特定情報検索部330で検索して追加された各項目の項目値の値を追加したものである。
特定情報修正部340は、項目値情報(追加後)304の内容を利用者に確認あるいは誤りの修正を行ってもらい、正しい項目値の値を取得する。特定情報修正部340は、以下の機能と情報を保有している。「利用者による項目値の確認・修正」341は、項目値情報(追加後)304の内容を利用者に提示し、項目値の確認あるいは誤りの修正を行う部分である。文書抽出情報305は、特定情報修正部340で得られた抽出対象の正しい項目値情報である。
文書抽出情報利用部350は、文書抽出情報305を利用する機器やアプリケーション、サービスなどである。文書抽出情報利用部350には、様々なものが存在し、本発明は、文書抽出情報305を利用するものであれば、いかなるものであっても適用可能になっている。
以上述べてきた機能や処理の流れは、あくまでも、本実施形態における一例であり、本発明においては、特にこれに限定されるものでない。特に、複数の機器で上記の機能を分担するものや、複数の機器で同じ処理を分散させるようなものであっても構わない。
図4は、全体の処理フローを示すフローチャートである。
S401において、画像処理装置は、文書をスキャンして生成されたスキャン文書画像を取得する。これは、図3のスキャン文書画像301を取得する処理に相当するものである。
S402において、画像処理装置は、文字認識に適した画像にするための二値化処理を行う。これは、スキャン文書画像301に対し、図3の文書画像解析部310の文書画像処理311によって、スキャン文書画像を二値化することにより二値画像を作成する処理に相当する。
S403において、画像処理装置は、二値画像内の罫線を検出して、当該二値画像内の罫線除去を行うことで、文字認識処理を行いやすい罫線除去後の画像を得る。これは、図3の文書画像処理311によって、S402の処理結果の二値画像に対し、罫線を検出し、罫線に相当する黒画素部分を白画素に置換することによって、罫線除去後の画像を作成する処理に相当する。
S404において、画像処理装置は、罫線除去後の画像に対して文字認識処理を行って、文字認識結果の文字列を得る。これは、図3の文字認識処理312によって、S403の罫線除去処理結果の画像に対し、文字認識処理を実行する。この文字認識結果の文字列と、S402およびS403で得られた各二値画像と、S401で得られたスキャン文書画像301とに基づいて、文字認識結果情報302が作成されることになる。この処理の結果については、図1(b)の文書の例を用いて、後述するものとする。
S405において、画像処理装置は、文書分類を行い、抽出対象の項目の選択処理を行う。これは、図3の文字認識結果情報302に対して、文書分類データ322を利用し、文書分類・抽出項目選択処理321により行われる処理に相当する。
S406において、画像処理装置は、全ての抽出対象項目について、文字認識結果の中から、その項目名候補と項目値候補を特定する。これは、S404で得た文字認識結果(図3の文字認識結果情報302)の中から、図3の項目名・項目値推定処理323が、項目名・項目値制約データ324を用いて、すべての抽出項目についての項目名とそれに対応する項目値とを検索する処理に相当する。なお、1つの抽出項目(特定の項目名)に対して項目値候補(文字列候補)が複数見つかる場合があるため、検索された項目値それぞれについての尤度も計算する。なお、項目名を検索する際に、文字認識の誤りの修正、省略表現や異表記や値の記載形式違い等がある場合は、記載形式の統一を行ってもよい。この処理の結果については、図1(b)の文書の例を用いて、後述するものとする。
S407において、画像処理装置は、特定の項目値候補を利用して、図3の特定情報検索部330によって検索を行い、別の項目名の項目値を追加することを行う。このS407の処理内容の詳細については、図1(b)に文書の例を用いて、後述する。
S408において、画像処理装置は、利用者の指示に基づいて項目値の修正を行う。これは、図3の「利用者による項目値の確認・修正」341により、S406で補正された全項目値の文字認識結果を利用者に提示し、その内容の確認もしくは修正を行ってもらう処理に相当する。
S409において、画像処理装置は、抽出した情報を出力し、これを利用した所定の処理を行う。これは、特定情報修正部340によって、図3の文書抽出情報305を作成し、文書抽出情報利用部350へ渡して利用されることになる。S409の処理が終了したら、全体処理のフローチャートは終了となる。
図5(a)の文字認識結果は、その識別のためのIDと、文字認識結果の文書画像内の位置―サイズの情報と、文字認識結果の文字列とで構成される。図5(a)は、図1(b)の帳票文書110の請求書の文書の例に対する文字認識処理(S406)の結果の例である。文字認識結果IDの「T1」は、図1(b)の111の文字認識結果に対応している。以下同様に、文字認識結果ID「T2」は112の文字認識結果に対応し、「T3」~「T6」は113の各行の文字認識結果に対応している。「T7」は114の文字認識結果に対応し、「T8」は115の文字認識結果に対応し、「T10」は116の文字認識結果に対応している。なお、文字認識結果には、(図示しないが)、文字や部分文字列には複数の候補がある場合があり、その文字や部分文字列の位置やサイズの情報を持っているものとする。図5(a)の文字認識結果の文字列はその中の最尤候補で構成された文字列を示している。
図5(b)は、図4の処理フローで用いる抽出項目の項目名・項目値制約の例であり、図3の項目名・項目値制約データ324に格納されており、S406とS407で使用される。抽出項目IDの「E1」は領収証の作成日などの日付情報の抽出に関する制約であり、以下、「E2」は電話番号の抽出に関する制約、「E3」は合計金額の抽出に関する制約である。項目名・項目値制約は、抽出項目毎に、識別用のIDと、抽出項目名称と、項目名制約、項目値制約、関係制約で構成される。これらの制約は、各項目が記載される際にどのようなフォーマットで記載されるかに基づいて予め定められているものとする。
図5(b)において、抽出項目名称は抽出項目の内容を示すものである。項目名制約と項目値制約は、それぞれ項目名・項目値に該当する記載部分を文字認識結果に対し検索する際の条件が記されている。例えば、抽出項目ID「E1」の項目名制約は、「発行日」や「支払日」に該当する記載部分を文字認識結果に対し検索する際の条件として記されている。また、図5(b)において、抽出項目ID「E1」と「E2」と「E3」の項目値制約は、正規表現による文字パタンが指定されており、それぞれに該当する記載部分を文字認識結果に対し検索する際の条件が記されている。例えば、抽出項目ID「E1」の項目値制約は、数字列の後に「年」が続き、その後に数字列が続き、その後に「月」が続き、その後に数字列が続き、最後に「日」が続く文字列パタンを示している。
また、図5(b)において、抽出項目ID「E1」と「E3」の関係制約は、それぞれの抽出項目の項目名に該当する記載部分の右側に、その抽出項目の項目値に該当する記載部分があるという制約が記されている。これは、項目名に該当する記載部分と項目値に該当する記載部分のスキャン文書画像301内における相対的な位置関係の制約であり、これを満たす項目値が最終的な抽出結果として利用されることを示している。抽出項目ID「E2」の関係制約は、抽出項目ID「E1」と「E3」と同様の関係制約に加え、さらに、項目値だけでも最終的な抽出結果になりうることを記されている。ただし、値だけの場合が2番目に記載されることで、より尤度を下げて計算するようにする。また、「上」という関係制約は、スキャン文書画像301内の配置が上側であるものの相対的に尤度を高くすることを示している。これらの指定された検索条件を満たす文字認識内の該当部分が、項目値候補となる。
図5(c)と図5(d)は、図1(b)の帳票文書110の請求書の文書の例に対する項目名候補と項目値候補の検索(S406)の結果の例である。図5(c)は項目名候補に関するもので、図5(d)は項目値候補に関するものである。
図5(c)は、図5(b)の項目名制約に従い文字認識結果を検索した結果として得られたものである。図5(c)において、各項目名候補はその識別のためのID、その項目名候補の抽出する際の、検索条件となった抽出項目IDと、検索対象となった文字認識結果ID、その該当部分の文書画像内における位置とサイズの情報と、その該当部分の文字認識結果の文字列とで構成される。項目名候補ID「K1」は、日付情報の抽出項目ID「E1」の項目名制約「発行日」に該当する文字が、文字認識結果ID「T2」内に含まれていたことを示している。項目名候補ID「K2」と「K3」についても同様に、各項目名がどの文字認識結果に含まれていたかが特定される。
図5(d)は、図5(b)の項目値制約に従い文字認識結果を検索した結果として得られたものである。図5(d)において、各項目値候補はその識別のためのID、その項目値候補の抽出する際の、検索条件となった抽出項目IDと、検索対象となった文字認識結果ID、その該当部分の文書画像内における位置とサイズの情報と、その該当部分の文字認識結果の文字列とで構成される。項目値候補ID「V1」は、日付情報の抽出項目ID「E1」の項目値制約の正規表現に該当する文字が、文字認識結果ID「T2」に含まれていたことを示している。項目名候補ID「V2」~「V4」についても同様である。なお、図1の116のボールペンの型番の部分の数字列が、電話番号に関する所定のフォーマットと同様のフォーマットであったため、項目名候補ID「V3」として抽出されている。
このようにして、項目名候補と項目値候補の検索が行われて抽出結果が得られる。
図6は、図4のS407は、全抽出項目の項目名候補と項目値候補に対して、それらの組合せ等の情報を基に、抽出項目ごとに項目値候補の割り当てを行う処理の詳細な流れをフローチャートで記したものである。また、この抽出項目とは、図4のS405での文書分類結果により選択された抽出項目となっている。この処理は抽出項目ごとに行われ、その結果として、各抽出項目の項目値となる文字認識結果が特定され、全抽出項目の項目値の文字認識情報が得られることとなる。以下、図6の処理フローに従って、説明するものとする。
S601において、画像処理装置は、抽出項目に項目値候補があるかどうかで条件分岐する部分である。これは図4のS406の処理結果として得られる項目値候補の情報(図5(d)で例示)があるかどうかで処理が分岐する。抽出項目の項目値候補がなければS614に進み、あればS602へ進む。
S602において、画像処理装置の辞書・文字パタン突合処理325は、すべての項目のすべての項目値候補の文字認識結果に対し、文字認識の誤りの修正、省略表現や異表記や値の記載形式(文字パタン)違い等の記載形式の統一を行う。辞書・文字パタン突合処理325では、文字認識誤りパタン辞書326、辞書・文字パタンデータ327等を用いて記載形式の統一を行う。
S603において、画像処理装置は、抽出項目の関係制約(図5(b))が、スキャン文書中の固定位置(文書内の特定の位置、図5(b)に例示なし)であった場合はS613に進み、それ以外の相対配置か指定なしの場合はS604へ進む。
S604において、画像処理装置は、抽出項目の関係制約(図5(b))の指定において、項目名候補と項目値候補の相対配置の指定が為されていた場合にはS605に進み、相対配置等の指定がない場合には、S608へ進む。
S605において、画像処理装置は、抽出項目の項目値候補の1つを選択し、その個々の項目値候補と相対配置の制約を満たす項目名があるかどうかを調べることを、抽出項目の項目値候補すべてに行う。この結果、相対配置の制約を満たせる項目名を絞り込む処理を行う。この結果、相対配置の制約を満たした項目名候補と項目値候補との組が得られることになる。また、複数の相対配置の制約があれば、そのすべてに対して、この処理を行うことになる。S605の処理が終了したら、S606に進む。
S606において、画像処理装置は、S605の処理結果として項目名候補と項目値候補との組があるかどうか判断し、項目名候補と項目値候補との組があればS611に進み、ない場合はS608へ進む。
S608において、画像処理装置は、抽出項目に排除項目値があるかどうか判断する。排除項目値があればS609に進み、ない場合はS610へ進む。抽出項目の排除項目値とは、項目値として抽出してはいけない内容(例えば機密情報)であるが、図1(b)の例では該当するものがないので、詳細説明を省略する。
S609において、画像処理装置は、S608で抽出項目に排除項目値があると判断したので、その排除項目値に該当する項目値候補を排除する処理を行う。S609の処理が終了したら、S610に進む。
S610において、画像処理装置は、項目値候補の個数により、処理が分岐する部分である。項目値候補の個数が0の場合(項目値候補がない場合)はS614へ進み、項目値候補の個数が1つ以上であればS611へ進む。
S611において、画像処理装置は、複数の項目値候補の中から項目値となるものを選ぶために、個々の項目値候補に対して、尤度を算出する処理を行う。そして、S612において、画像処理装置は、複数の項目値候補のそれぞれに対して、S611で算出した尤度の情報を付加する。尤度は、図5(b)の関係制約に基づき決められる。このS611とS612の処理については、図1(b)のスキャン文書に対する図5の例に基づいて、例示したものを後述する。S612の処理が終了したら、S607に進む。
S607において、画像処理装置は、これ以前の処理で1つ残ったあるいは絞り込まれた、項目名候補と項目値候補との組、または、項目値の候補に対し、その項目値候補を抽出項目の項目値として割り当てを行う。S607の処理が終了したら、S614に進む。
なお、S605で行われる処理が、項目名候補と項目値候補の相対配置を利用した項目値の選択を行う処理であるのに対し、S608~S612による処理は、項目名候補がない場合で項目値候補の情報から項目値の選択を行う処理となっていることに注意されたい。
S613において、画像処理装置は、抽出項目の関係制約でスキャン文書中の固定位置が指定されている場合、当該固定位置に対応する文字の文字認識結果を、抽出項目の項目値として割り当てを行う。S613の処理が終了したら、S614に進む。
S614において、画像処理装置は、項目値の割り当てが行われたか否か判定し、項目値がある場合には本フローチャートは終了となり、項目値がない場合はS615へ進む。
S615において、画像処理装置は、項目値の割り当てができなかった場合で、項目値に該当する文字認識結果情報は該当なしであることを示す情報を作成する。S615の処理が終了したら、本フローチャートは終了となる。
このようして、抽出項目の全抽出項目の項目名候補と項目値候補に対して、それらの組合せ等の情報を基に、抽出項目ごとに項目値候補の割り当てを行う処理が行われる。
図7は、図1(b)の請求書の文書画像110の例について、図5の文字認識結果や項目名候補や項目値候補に基づき、図6の処理を実行した結果の例となっている。
抽出項目ID「E1」については、図5(c)や(d)で示したように、項目名候補ID「K1」と項目値候補「V1」が得られて、それらが指定された相対位置関係(使用した関係制約)を満たしていた場合である(図6のS604、S605、S606)。この場合、項目値候補ID「V1」に、項目値尤度「高」が付与される(図6のS611~S612)。また、抽出項目ID「E4」についても同様であり、項目名候補ID「K4」と項目値候補「V4」が得られて、それらが指定された相対位置関係(使用した関係制約)を満たしていたとする(図6のS604、S605、S606)。この場合も、項目値候補ID「V4」に、項目値尤度「高」が付与される(図6のS611~S612)。
抽出項目ID「E2」については、2つの項目値候補が得られている。1つは、項目名候補ID「K2」と項目値候補「V2」とが得られて、それらが指定された相対位置関係(使用した関係制約)を満たしていた(図6のS604~S606)場合である。この場合、項目値候補ID「V2」に、項目値尤度「高」が付与されている(図6のS611~S612)。もう1つの項目値候補は、対応する項目名はなく、項目値候補「V3」だけが得られて、項目値のみなので排除項目値か判定される(図6のS608)。E2の関係制約が先頭ではなく2番目の項目値のみで得られた項目値候補であり、図1(b)の帳票文書110の請求書の文書の例において、その文書内の位置として(1つしかないので)最上位となるため、項目値候補ID「V3」に、項目値尤度「中」が付与される(図6のS611~S612)。
このようにして、文字認識結果や項目名候補や項目値候補が得られることになる。
図8は、図4のS407において、電話番号の項目値からその会社名を得るために、電話番号の項目値を利用して検索を行い、項目名と項目値を追加する処理の詳細な流れをフローチャートで記したものである。この処理の結果として、抽出項目の発行元の会社名の項目値が追加されることになる。これらの処理は、図3の辞書・文字パタン突合処理325で行われるものである。以下、図8の処理フローに従って、説明するものとする。
S801において、画像処理装置は、項目値として電話番号が得られているかどうか判断する。図4のS406で電話番号の項目値が得られている(電話番号と同じフォーマットを有する文字列が得られている)場合は、S802へ進み、得られなかった場合には、本フローチャートは終了となる。
S802において、画像処理装置は、図4のS406で得られた電話番号の項目値である文字認識結果を取り出す。ここでいう文字認識結果とは、図5(c)のK2で例示されるような文字認識結果であり、電話番号を示す文字列情報となっている。以下、電話番号情報と呼ぶことにする。
S803において、画像処理装置は、S802で得られた各項目値に対してその尤度情報にもとづき、尤度が高いものから順番に並べて、電話番号検索の対象にする順序を決める処理を行う。S803の処理が終了したら、S804へ進む。
S804において、画像処理装置は、S803で決めた順序に従い、検索対象となる電話番号情報を検索キーとして設定する。
S805は、S804で検索キーにした電話番号情報で検索処理を行い、会社名を得る処理を行う。これは、図3の電話番号検索331が、電話番号データ332を使用して検索する処理に相当する。S805の処理が終了したら、S806へ進む。
S806において、画像処理装置は、S805で合致する電話番号が検索されたか(会社名が得られたか)を判断する。S805の結果として会社名が得られている場合は、S808へ進み、得られなかった場合には、S807へ進む。
S807において、画像処理装置は、電話番号情報の順番で条件分岐する部分である。電話番号情報が順番の最後の場合(すべての電話番号の検索が行われた場合)は、この本フローチャートは終了となる。電話番号情報が最後でない場合は、S804に進んで、次の電話番号情報を選択し、処理を続けることになる。
S808において、画像処理装置は、電話番号情報で検索して得られた会社名を、抽出した項目値に追加する。S808の処理が終了したら、本フローチャートの処理は終了となる。
このようにして、本実施形態では、抽出した項目値の文字認識結果(電話番号情報)について、尤度の高い順に電話番号検索を行うことで、対応する会社名の検索を行う。
図9は、図1(b)の文書画像110について、図5の文字認識結果や項目名候補や項目値候補が得られ、さらに、図8の処理を行った後のデータの例である。
図9の抽出結果IDのR1からR4は、図7の内容に対して、抽出結果IDをつけたものである。図9の抽出結果IDのD1は、図8の電話番号検索フローで追加されたものである。図7のE2で示される2つの電話番号情報に対して、尤度が高い方から順番に電話番号検索が行われた結果(S803からS805)、尤度が高い方のV2の電話番号情報から会社名「AAA事務機(株)」が検索されて追加されたものとする(S808)。このようにして、記載されている電話番号に基づいて、当該文書の発行元の会社名の項目値が追加されることになる。
図10は、図3の特定情報修正部340の「利用者による項目値の確認・修正」341の処理によって表示される画面の例であり、図4のS408で表示される画面である。図10の画面は、図4のS407で追加された項目値(会社名)の文字列について、図1(b)の帳票文書110の請求書の文書の例と突き合わせて、正しい値が抽出できたかどうかを、利用者に確認してもらい、誤りがあったら修正してもらうための画面である。
1000は、図4のS408で表示される画面を構成するウィンドウである。1001は、ウィンドウのタイトルであり、抽出した項目値(抽出情報)の修正・確認であることを示している。
1002は、一時保存ボタンであり、これを押下することで、ウィンドウ1000での作業内容を一時保存して作業を一時的に終了し、ウィンドウ1000を閉じるためのボタンである。この後、この作業内容をウィンドウ1000に戻して、作業の再開を行うことができるようになる。
1003は、完了ボタンであり、これを押下することで、ウィンドウ1000での作業内容を、確認作業結果として保存したのち、作業を終了し、ウィンドウ1000を閉じるためのボタンである。
1010は、対象の帳票文書のスキャン画像の全体をプレビュ表示する部分であり、図1(b)の請求書の文書画像110の全体が表示されている。また、1011は、プレビュ表示されたスキャン画像1010内で、ユーザのカーソル操作(1034)により現在注目している部分に対応する領域を示す枠線である。
1020は、図4のS407で得られた抽出項目の各項目値を表示し(1030,1040,1050)、利用者に確認・修正を行わせる部分である。
1021は、表示対象の抽出項目の項目値が多数あって1020内に表示しきれない場合に操作するスクロールバーである。利用者はこれを操作することで、1020内のすべての抽出項目の項目値に対して順次確認作業を行える。
1030~1050は、個々の抽出項目の項目値を表示し、利用者に確認・修正を行わせる領域である。1030は、抽出項目「合計金額」の項目値に関するものである。同様に、1040は、抽出項目「発行日」に関するものである。1050は、「電話番号」と「発行元」の項目値に関するものである。
1031は、抽出項目の名称「合計金額」を表示している。1032は、項目値の文字認識結果に関連づけて保存されている文書画像内の位置・サイズの情報に基づき、図1(b)の文書画像110から、該当領域の部分画像を切り抜いて表示したものである。1033は、抽出された項目値の文字列を表示し、ユーザによる確認・修正を行えるようにする部分で、文字列そのものを表示すると同時に、その編集を可能としている。利用者は、1033の内容の文字列に対して、間違っていると判断した場合は編集を行えるし、正しいと確認した場合はそのままの文字列を残せばよい。これは、1040においても同様に、項目名「発行日」について、1041に部分画像を表示し、1042に項目値候補が編集可能に表示される。また、1050においても同様に、1051に部分画像を表示し、1052と1053に当該文書の発行元の「電話番号」と「会社名」とが編集可能に表示される。
図10において、現在、利用者は、確認・修正対象の抽出項目として、1030の「合計金額」をカーソル1034等で選択している状態にある。そのため、1030の枠が選択状態を示すように太枠で表示されている。これに合わせて、文書画像のプレビュー表示1011において、部分画像1032に該当する領域の位置をユーザが確認しやすいように点線枠で強調表示されている。また、1033の抽出項目「合計金額」の項目値の文字列を編集できるように文字カーソル1034が表示されており、編集可能な状態であることを示している。この状態で、利用者は、抽出項目「合計金額」の項目値に対して、確認・修正ができる。この時点では、1042、1052、1053は、選択状態でないため、文字カーソルはない状態になっている。
このようにして、利用者は、図10の画面を利用し、全抽出項目の項目値の確認・修正を行う。
以上述べたように、本実施形態では、文書画像から抽出したい項目の項目名や項目値を、文字認識結果から検索・検出を行って抽出を行う。その際に、文書の発行元の名称(例えば会社名)については、電話番号に基づく名称(会社名)の検索も行う。すなわち、文書画像内の文字認識結果の中から電話番号に相当するフォーマットの文字列を抽出する。このとき、電話番号に相当すると判定された文字列が複数抽出された場合は、電話番号のよく行われる記載方法を基に尤度を設けて、高尤度のものから順に検索対象として、電話番号データベースや電話番号サービスなどで会社名を検索する。これにより、電話番号候補が複数抽出された場合でも、適切な会社名が得られる可能性を向上する。なお、もし電話番号に相当する文字列が抽出されなかった場合は、文字認識結果から直接抽出された会社名が表示される。
このように、電話番号に基づいて特定される会社名を優先して表示するとともに、複数の電話番号が抽出された場合は尤度の高いものに基づく会社名を表示するようにしている。したがって、正しい発行元の会社名が表示される確率を高くすることができるので、その情報を利用する業務の利用者の作業の効率化による時間短縮に貢献し、会計や経理の担当者の作業負担を軽減に貢献できる。
<第2の実施形態>
電話番号に類似した数字列等を電話番号として間違わないようにする方法として、「TEL」等の項目の内容を示す項目名の右側に電話番号が記載されているという条件以外に、電話番号と同時に出現しやすい記載内容を利用するという方法も考えられる。第2の実施形態では、領収書等における電話番号は、会社名や会社の住所等とまとめて記載されることが多いため、これらの文字列の近傍に記載されるという特徴を利用する。
電話番号に類似した数字列等を電話番号として間違わないようにする方法として、「TEL」等の項目の内容を示す項目名の右側に電話番号が記載されているという条件以外に、電話番号と同時に出現しやすい記載内容を利用するという方法も考えられる。第2の実施形態では、領収書等における電話番号は、会社名や会社の住所等とまとめて記載されることが多いため、これらの文字列の近傍に記載されるという特徴を利用する。
図11(a)は、文書画像の例である。図11(a)の1110~1117は、図1(b)の1100~1107と、それぞれ同様の内容が記載されている。ただし、図11(a)の1103は、図1(b)の113と同様に、会社名「AAA事務機(株)」の記載の下に住所と電話番号が記載されているが、一部異なる部分がある。すなわち、電話番号である「03-1234-5678」の記載において、図1(b)の113は「TEL」の項目名の記載があるが、図11(a)の1103にはそれがなく、電話番号だけが記載されていることが異なっている。以下では、この「TEL」の項目名の記載がない文字領域1103を有する図11(a)で実施例1と同様に処理する場合を考えるものとする。
図11(b)は、抽出項目の項目名・項目値制約の例であり、図5(b)と同様のものである。ただし、図5(b)の項目名制約と項目値制約に加え、図11(b)では項目参考制約が追加されている。すなわち、図11(b)では、抽出項目ID「E2」において、項目参考制約も使用する内容が追加されている。なお、これらの情報は、実施例1と同じく、図3の項目名・項目値制約データ324に格納されており、図4のS406とS407で使用される。なお、図11(b)の抽出項目ID「E1」と「E3」については、項目参考制約の指定がなく、関係制約内に項目参考制約を使用する制約がないため、実施例1と全く同じ処理が行われることになる。
これに対し、図11(b)の抽出項目ID「E2」については、項目参考制約として、法人格表現や住所表現を用いることが指定されている。これは、「株式会社」、「(株)」、「学校」等の法人格を示す表現が、法人名や会社名についていることが多いので、このような「法人格表現」を含む文字列が電話番号候補の近傍にあることを条件としている。また、会社の住所を示すような地名や行政上の識別である「県」や「市」といった表現を含む「住所表現」も条件として指定されている。なお、このような表現に関する情報は、図3の辞書・文字パタンデータ327に格納されていて、辞書・文字パタン突合処理325によって、該当する部分文字列を文字認識結果の文字列の中から検索する。
また、図11(b)の抽出項目ID「E2」については、関係制約として、前記の項目参考制約を利用した「近傍({項目参考},{項目値})」が追加されており、前記の項目参考制約に該当する文字列の近傍に、項目値制約(電話番号のフォーマット)に該当する文字認識結果の文字列があれば、この関係制約を満たすことになる。なお、第1の実施形態で示したように、関係制約の記載順序が尤度の高さを示すので、この追加された関係制約に該当する場合は尤度「中」となり、該当する項目値のみの関係制約は第1の実施形態と異なり、尤度「低」となる。
図11(c)は、図11(a)の文書の例に対して、図11(b)で示された項目参考制約に該当する文字認識結果の文字列の該当部分を検索した結果の例である。各結果には項目参考IDの識別情報と、使用した抽出項目IDの情報、該当部分を有する文字認識結果IDの情報、使用した項目参考制約の情報、文書画像内の位置及びサイズの情報と、該当した文字認識結果の部分文字列が記載されている。これにより、図11(b)の抽出項目ID「E2」で指定した、「法人格表現」や「住所表現」に該当する文字認識結果の部分文字列が得られていることが分かる。
図11(c)の結果を利用して、図6の項目値抽出処理を行うと、抽出項目ID「E2」の結果として、第1の実施形態と異なり図11(a)の1103「TEL」の記載がないために、項目名制約を利用した結果が作れず、尤度「高」の電話番号の項目値候補「03-1234-5678」は作成されない。その代わりに、図11(c)の項目参考ID「B2」が近傍にあるために、尤度「中」の電話番号の項目値候補「03-1234-5678」が作成される。また、項目値候補「045-555-1234」は、近傍に法人格表現や住所表現がなく、項目値のみのため、尤度「低」の電話番号の項目値候補「045-555-1234」として作成されることになる。
図11(d)は、図11(c)の結果を利用して、図6の項目値抽出処理を行った結果の例である。図11(d)の抽出結果ID「R1」と「R4」については、図9の「R1」と「R4」と同一のものである。これに対し、図11(d)の抽出結果ID「R2」については、前述したように、図11(c)の項目参考ID「B2」が近傍にあるために、尤度「中」の電話番号の項目値「03-1234-5678」となっている。同様に、図11(d)の抽出結果ID「R3」については、近傍に法人格表現や住所表現がなく、項目値のみのため、尤度「低」の電話番号の項目値候補「045-555-1234」となっている。図11(d)の抽出結果ID「D1」は、図11(d)の抽出結果ID「R2」から、図8の電話番号検索の結果として得られたものである。
このようにして、電話番号の項目名がない場合でも、文字認識結果の中から「法人格表現」や「住所表現」などの特定の表現を含む文字列を検索することにより、複数の電話番号候補の中から尤度の高い電話番号候補を特定して、会社名を特定することができる。なお、ここでは、近傍の特定表現を例に挙げて説明したが、特定の会社名を示すロゴやマークの画像、特定の住所や地域を示す画像等が近傍にある場合でも、その画像の識別手段を文字認識等の認識機能に含めれば、同様の効果を得ることができ、本発明はそのような場合でも適用可能である。
<その他の実施例>
また、本発明は、以下の処理を実行することによっても実現される。その処理は、上述した実施例の機能を実現させるソフトウェア(プログラム)を、ネットワーク又はコンピュータ読取可能な記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを実行する、というものである。
また、本発明は、以下の処理を実行することによっても実現される。その処理は、上述した実施例の機能を実現させるソフトウェア(プログラム)を、ネットワーク又はコンピュータ読取可能な記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを実行する、というものである。
Claims (11)
- 文書画像に文字認識処理を行うことにより文字認識結果を得る文字認識手段と、
前記文字認識結果の中から、所定のフォーマットで記載された文字列候補を検出する検出手段と、
前記検出された文字列候補の近傍に存在する他の文字列に基づいて、前記文字列候補の尤度を決定する決定手段と、
前記検出手段により複数の文字列候補が検出された場合は、前記尤度の高い文字列候補に基づく項目値を出力する出力手段と、
を備えることを特徴とする画像処理装置。 - 前記所定のフォーマットで記載された文字列候補は、電話番号の候補であることを特徴とする請求項1に記載の画像処理装置。
- 前記決定手段は、所定の項目名の文字列が近傍に存在する前記検出された文字列候補の尤度が高くなるように決定することを特徴とする請求項1または2に記載の画像処理装置。
- 前記決定手段は、電話番号の項目名を示す文字列が近傍に存在する前記検出された文字列候補の尤度が高くなるように決定することを特徴とする請求項2に記載の画像処理装置。
- 前記出力手段により出力される項目値は、前記文書画像の発行元の情報であることを特徴とする請求項1に記載の画像処理装置。
- 前記出力手段は、前記検出手段により複数の電話番号の候補が検出された場合は、前記尤度の高い電話番号の候補に対応する名称を検索し、当該検索された名称を前記項目値として出力することを特徴とする請求項2に記載の画像処理装置。
- 前記名称は、前記文書画像の発行元を示す会社名であることを特徴とする請求項6に記載の画像処理装置。
- 前記出力手段は、前記検出手段により電話番号の候補が検出されなかった場合は、前記文字認識結果の中から検出された会社名を出力することを特徴とする請求項7に記載の画像処理装置。
- 前記出力手段は、さらに、前記文字認識結果の中から抽出された合計金額および発行日の少なくともいずれかに対応する項目値を出力することを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
- コンピュータを、請求項1乃至9のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
- 文書画像に文字認識処理を行うことにより文字認識結果を得る文字認識ステップと、
前記文字認識結果の中から、所定のフォーマットで記載された文字列候補を検出する検出ステップと、
前記検出された文字列候補の近傍に存在する他の文字列に基づいて、前記文字列候補の尤度を決定する決定ステップと、
前記検出ステップで複数の文字列候補が検出された場合は、前記尤度の高い文字列候補に基づく項目値を出力する出力ステップと、
を備えることを特徴とする画像処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021177090A JP2023066474A (ja) | 2021-10-29 | 2021-10-29 | 画像処理装置、画像処理方法、プログラム |
US18/050,400 US20230140357A1 (en) | 2021-10-29 | 2022-10-27 | Image processing apparatus, image processing method, and non-transitory storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021177090A JP2023066474A (ja) | 2021-10-29 | 2021-10-29 | 画像処理装置、画像処理方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023066474A true JP2023066474A (ja) | 2023-05-16 |
Family
ID=86145960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021177090A Pending JP2023066474A (ja) | 2021-10-29 | 2021-10-29 | 画像処理装置、画像処理方法、プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230140357A1 (ja) |
JP (1) | JP2023066474A (ja) |
-
2021
- 2021-10-29 JP JP2021177090A patent/JP2023066474A/ja active Pending
-
2022
- 2022-10-27 US US18/050,400 patent/US20230140357A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230140357A1 (en) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916606B2 (en) | System and method for processing a transaction document including one or more financial transaction entries | |
US10366123B1 (en) | Template-free extraction of data from documents | |
AU2006307452B2 (en) | Form data extraction without customization | |
CA2502811C (en) | System and method for capture, storage and processing of receipts and related data | |
US20150227785A1 (en) | Information processing apparatus, information processing method, and program | |
US20120314954A1 (en) | Embedded form extraction definition to enable automatic workflow configuration | |
JP6357621B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP2013164740A (ja) | 会計情報読取りシステム、会計情報読取り方法、及びプログラム | |
JP2011060219A (ja) | 文書分類システム、文書分類方法、及びプログラム | |
JP2019016045A (ja) | 会計装置及びプログラム | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
JP2007034549A (ja) | 提案書設計管理システム | |
JP2016192223A (ja) | 会計情報読取りシステム及びプログラム | |
JP7408340B2 (ja) | 画像処理装置の制御方法、プログラム及び画像処理装置 | |
JP2023066474A (ja) | 画像処理装置、画像処理方法、プログラム | |
US10614068B2 (en) | Transaction slip search method, information processing apparatus, and computer product | |
JP6993032B2 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP2019101802A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
JP2023046684A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2023047570A1 (ja) | 情報処理装置、情報処理方法、情報処理プログラム | |
JP6858420B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
US20230137138A1 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium that stores program | |
JP2015005156A (ja) | 顧客誘導システム及び顧客誘導方法 | |
JP6974264B2 (ja) | 取引処理システム及び取引処理方法 | |
JP2015005155A (ja) | 顧客誘導システム及び顧客誘導方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |