JP7329331B2 - 帳票に含まれる文字列を認識するための装置、方法、及びプログラム - Google Patents
帳票に含まれる文字列を認識するための装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP7329331B2 JP7329331B2 JP2019017157A JP2019017157A JP7329331B2 JP 7329331 B2 JP7329331 B2 JP 7329331B2 JP 2019017157 A JP2019017157 A JP 2019017157A JP 2019017157 A JP2019017157 A JP 2019017157A JP 7329331 B2 JP7329331 B2 JP 7329331B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- image
- color image
- item
- dropout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
Description
するものである。
該帳票の種類を特定し、さらに、当該帳票に含まれる項目(対応する処理の依頼者、口
座番号、及び各種の金額等)の種類及び位置を特定することが行われている。例えば、
下記特許文献1は、事前に帳票のサイズや罫線情報、項目の位置等を様式情報として登
録しておき、帳票の読取画像と登録済みの様式情報とを照合することを開示している。
治体等)毎に異なるので、様式の数は膨大(数千又は数万等)となり、これらの様式情
報の全てを登録することが非現実的となってしまう場合がある。したがって、様式情報
の事前登録なしで帳票の処理が可能な仕組みの実現が望まれる。
つとする。本発明の他の目的は、本明細書全体を参照することにより明らかとなる。
、当該第1文字列の位置に基づいて当該所定の項目の値に対応する第2文字列を検出す
るから、帳票の様式情報の事前登録なしに、所定の項目の値(第2文字列)の認識が可
能となる。さらに、帳票のカラー画像から特定の色が消去されたドロップアウト画像に
おいて所定の項目の値(第2文字列)を検出するから、例えば、カラー画像において所
定の項目の値が特定の色の枠線/罫線等に重なっている場合であっても(こうした枠線
/罫線等との接触は不読/誤読の原因となる。)、ドロップアウト画像においては当該
特定の色の枠線/罫線が消去され、所定の項目の値の不読/誤読が抑制される。
され、帳票に含まれる文字列を認識するための文字列認識方法であって、前記帳票のカ
ラー画像を取得する工程と、取得した前記カラー画像において、前記帳票に含まれる所
定の項目の名称に対応する第1文字列を検出する工程と、前記カラー画像から少なくと
も特定の色が消去されたドロップアウト画像を生成する工程と、生成した前記ドロップ
アウト画像において、前記カラー画像において検出された前記第1文字列の位置に少な
くとも基づいて、前記所定の項目の値に対応する第2文字列を検出する工程と、を備え
る。
、当該第1文字列の位置に基づいて当該所定の項目の値に対応する第2文字列を検出す
るから、帳票の様式情報の事前登録なしに、所定の項目の値(第2文字列)の認識が可
能となる。さらに、帳票のカラー画像から特定の色が消去されたドロップアウト画像に
おいて所定の項目の値(第2文字列)を検出するから、例えば、カラー画像において所
定の項目の値が特定の色の枠線/罫線等に重なっている場合であっても(こうした枠線
/罫線等との接触は不読/誤読の原因となる。)、ドロップアウト画像においては当該
特定の色の枠線/罫線が消去され、所定の項目の値の不読/誤読が抑制される。
ための文字列認識プログラムであって、コンピュータに、前記帳票のカラー画像を取得
する処理と、取得した前記カラー画像において、前記帳票に含まれる所定の項目の名称
に対応する第1文字列を検出する処理と、前記カラー画像から少なくとも特定の色が消
去されたドロップアウト画像を生成する処理と、生成した前記ドロップアウト画像にお
いて、前記カラー画像において検出された前記第1文字列の位置に少なくとも基づいて
、前記所定の項目の値に対応する第2文字列を検出する処理と、を実行させる。
、当該第1文字列の位置に基づいて当該所定の項目の値に対応する第2文字列を検出す
るから、帳票の様式情報の事前登録なしに、所定の項目の値(第2文字列)の認識が可
能となる。さらに、帳票のカラー画像から特定の色が消去されたドロップアウト画像に
おいて所定の項目の値(第2文字列)を検出するから、例えば、カラー画像において所
定の項目の値が特定の色の枠線/罫線等に重なっている場合であっても(こうした枠線
/罫線等との接触は不読/誤読の原因となる。)、ドロップアウト画像においては当該
特定の色の枠線/罫線が消去され、所定の項目の値の不読/誤読が抑制される。
る。
タ伝送を仲介し、当該装置10から入力される画像を一時的に蓄積するための画像バッ
ファ241を有している。入力インターフェイス25は、CPU21と各種の入力部と
の間のデータ伝送を仲介する。入力部には、マウス31、キーボード、及びタッチパネ
ル等が含まれる。表示コントローラ26は、液晶モニタ等のディスプレイ32が接続さ
れており、当該ディスプレイ32における表示を制御する。通信インターフェイス27
は、CPU21とパーソナルコンピュータ及びホストサーバ30等との間のデータ伝送
を仲介する。リーダ/ライタ28は、CPU21と各種の記録媒体(メモリカード33
が含まれる)との間のデータ伝送を仲介する。各インターフェイスは、例えばUSB等
の規格に従うように構成される。
をメインメモリ22に読み込んで実行することにより、各種の処理を実行する。ストレ
ージ23等に格納されているプログラムは、例えば、メモリカード33や光ディスク等
のコンピュータ読取可能な記録媒体を介して提供され、又は、インターネット等の通信
ネットワークNを介して提供される。なお、本実施形態におけるプログラムは、単体の
アプリケーションプログラムとして構成されていてもよいし、他のプログラムの一部と
して組み込まれるモジュールとして構成されていてもよい。また、こうしたプログラム
を介して実行される処理の一部又は全部は、ASIC等の専用回路を介して実行される
ように構成され得る。
る。画像処理装置20は、図示するように、カラー画像取得部201と、項目名称検出
部202と、ドロップアウト画像生成部203と、項目値検出部204と、様々な情報
をストレージ23等において記憶する記憶部205とを有する。
ば、カラー画像取得部201は、帳票読取装置10から入力されるカラー画像を取得す
るように構成されている。
言う場合がある。)に対応する文字列(第1文字列)の検出に関する処理を実行する。
例えば、項目名称検出部202は、カラー画像取得部201によって取得されるカラー
画像を解析することにより、当該カラー画像に含まれる、項目名称に対応する文字列を
検出するように構成されている。
額」、「納付額」、「収納金額」、「請求金額」等の金額に関する項目として構成され
る。これらの項目名称に対応する文字列は、例えば、所定の形式のファイル内にリスト
化されており、当該ファイルは、記憶部205(ストレージ23)及び/又はホストサ
ーバ30等に格納される。なお、本発明の他の実施形態においては、文字列の認識の対
象となる所定の項目は、金額に関する項目以外の様々な項目が含まれ得る。
加えて、通貨に関する通貨関連文字(所定の文字)を検出するように構成されている。
例えば、項目名称検出部202は、カラー画像に含まれる「円」及び「¥」という文字
を検出するように構成されている。
する。例えば、ドロップアウト画像生成部203は、カラー画像取得部201によって
取得されたカラー画像に対してドロップアウト処理を行うことにより、ドロップアウト
画像を生成するように構成されている。本実施形態におけるドロップアウト処理は、黒
色以外の色を除去する処理であり、例えば、カラー画像から、R成分、G成分、及び、
B成分を順に除去する処理として構成される。なお、黒色とは、R成分、G成分、及び
、B成分を完全に除去したものに限定されず、帳票に含まれる項目値を検出できる程度
に各色の成分が除去されればよい。また、本発明の他の実施形態において、ドロップア
ウト処理においてカラー画像から除去される色は、黒色以外の色に限定されず、例えば
、黒色及び他の特定の色以外の色、又は、1又は複数の特定の色であってもよい。
合がある。)に対応する文字列(第2文字列)の検出に関する処理を実行する。例えば
、項目値検出部204は、ドロップアウト画像生成部203によって生成されたドロッ
プアウト画像を解析し、当該解析結果と、項目名称検出部202によって検出されたカ
ラー画像における項目名称に対応する文字列の位置と、に少なくとも基づいて、当該ド
ロップアウト画像における項目値に対応する文字列を検出するように構成されている。
。図4は、画像処理装置20が実行する処理を例示するフローチャートである。当該装
置20は、まず、図示するように、帳票読取装置10から入力される帳票のカラー画像
を取得し(S101)、当該カラー画像に含まれる対象の項目名称及び通貨関連文字を
検出する(S102)。具体的には、上述したように、項目名称としての「納入金額」
、「税額」、「納付額」、「収納金額」、「請求金額」等の文字列が検出されると共に
、関連文字としての「円」及び「¥」という文字が検出される。以下、具体例を用いて
説明する。
道料金等納入済み通知書」の様式であって、様々なテキスト、枠線/罫線、項目名称(
例えば、お客様番号、水道料金、開栓手数料、納入期限等)、単位(例えば、「円」等
)等の情報が印刷されている。様式として予め印刷されているこれらの情報は、黒色以
外の色(例えば、青色)で印刷されている。
の帳票を例示する。具体的には、図6の帳票においては、お客様番号、使用期間、お客
様氏名、水道料金、下水道使用料、収納金額、納入期限、及び、発行日に対する値がそ
れぞれ対応する枠内に印刷されている。また、図6の帳票においては、領収日付印が押
印されている。これらの各項目の値、及び、領収日付印は、黒色で印刷又は押印されて
いる。ステップS101では、このように項目の値が印刷されている状態の帳票のカラ
ー画像が取得されている。
化されているので、当該文字列がカラー画像において検出される。また、図5、6の帳
票における「円」という文字が通貨関連文字としてカラー画像において検出される。具
体的には、図7に例示するように、「収納金額」と印字されている1つの矩形領域A1
、及び、「円」と印字されている6つの矩形領域A2がカラー画像において検出される
。
ドロップアウト画像を生成する(S103)。上述したように、本実施形態におけるド
ロップアウト画像は、黒色以外の色が除去された画像(二値画像)である。図8は、図
6に例示した帳票のカラー画像に基づいて生成されるドロップアウト画像を例示する。
図示するように、ドロップアウト画像では、帳票において黒色以外の色で印刷されてい
た様々なテキスト、枠線/罫線、項目名称、単位等の情報が除去され、黒色で印刷/押
印されていた項目値及び領収日付印が残存する。
像処理装置20は、当該ドロップアウト画像に含まれる対象の項目値を検出する(S1
04)。項目値の検出は、ステップS102において検出された項目名称及び通貨関連
文字のカラー画像上での位置に基づいて行われる。
、図示するように、対象の項目名称の矩形領域A1を拡張した拡張領域A11に含まれ
る文字列が対象の項目値の候補となる。当該拡張領域A11は、領域A1を、上方向及
び左方向に第1の幅W1だけ拡張し、且つ、下方向に第1の幅W1よりも大きい第2の
幅W2だけ拡張すると共に右方向に第1の幅W1よりも大きい第3の幅W3だけ拡張し
た領域として構成される。図9の例では、拡張領域A11に含まれる「148,004
」という文字列、及び、「平成29年3月27日」という文字列が対象の項目値の候補
となる。
て検出される。具体的には、「円」という通貨関連文字の左側の文字列が優先的に対象
の項目値として検出され、例えば、図9の例では、対象の項目値の候補となる2つの文
字列「148,004」及び「平成29年3月27日」のうち、通貨関連文字の領域A
2の左側に位置する「148,004」という文字列が対象の項目値として検出される
。なお、「¥」という通貨関連文字が検出されている場合には、当該文字の右側の文字
列が優先的に対象の項目値として検出される。
っている場合を考える。例えば、図10の上側に例示するように、対象の項目である「
収納金額」の項目値「148,004」がカラー画像において枠の下側の枠線/罫線に
重なってしまっている場合、当該カラー画像を用いて項目値を検出しようとすると、不
読/誤読のおそれがあるが、図10の下側に例示するように、ドロップアウト画像にお
いては黒色以外の色で印刷されていた枠線/罫線が消去されるので、枠線/罫線に重な
ってしまうことに起因する項目値の不読/誤読のおそれがなくなる。
る文字列が対象の項目値として検出されるようにしたが、こうした手法は例示であって
、本発明の他の実施形態では、他の手法が適用され、例えば、対象の項目名称の矩形領
域A1との間の相対的な位置関係が所定の関係にある文字列が対象の項目値として検出
されるような様々な手法が適用される。
通貨に関する通貨関連文字を検出するように構成したが、本発明の他の実施形態では、
通貨関連文字の検出は行わず、例えばカラー画像に存在する罫線ないし枠線の情報を用
いて、項目名称の属する矩形領域を特定し、その右または下の矩形領域を探索対象領域として、項目値の検出を行なう手法が適用されてもよい。
目の名称に対応する文字列を検出し、当該名称に対応する文字列の位置に基づいて当該
所定の項目の値に対応する文字列を検出するから、帳票の様式情報の事前登録なしに、
所定の項目の値に対応する文字列の認識が可能となる。さらに、帳票のカラー画像から
特定の色(例えば、黒色以外の色)が消去されたドロップアウト画像において項目値に
対応する文字列を検出するから、例えば、カラー画像において項目値が特定の色の枠線
/罫線に重なってしまっている場合であっても、ドロップアウト画像においては当該特
定の色の枠線/罫線が消去され、項目値に対応する文字列の不読/誤読が抑制される。
22…メインメモリ、23…ストレージ、24…帳票読取装置インターフェイス、24
1…画像バッファ、25…入力インターフェイス、26…表示コントローラ、27…通
信インターフェイス、28…リーダ/ライタ、30…ホストサーバ、31…マウス、3
2…ディスプレイ、33…メモリカード、201…カラー画像取得部、202…項目名
称検出部、203…ドロップアウト画像生成部、204…項目値検出部、205…記憶
部。
Claims (8)
- 帳票に含まれる文字列を認識するための文字列認識装置であって、
前記帳票のカラー画像を取得するように構成されたカラー画像取得部と、
取得した前記カラー画像において、前記帳票に含まれる所定の項目の名称に対応する第1文字列を検出するように構成された項目名称検出部であって、前記第1文字列は、特定の色により表示される、項目名称検出部と、
前記カラー画像から少なくとも前記特定の色が消去されたドロップアウト画像を生成するように構成されたドロップアウト画像生成部と、
生成した前記ドロップアウト画像において、前記カラー画像において検出された前記第1文字列の位置に少なくとも基づいて、前記所定の項目の値に対応する第2文字列を検出するように構成された項目値検出部と、を備える、
文字列認識装置。 - 前記ドロップアウト画像生成部は、黒色を除く色が消去されたドロップアウト画像を生成するように構成されている、
請求項1の文字列認識装置。 - 前記項目値検出部は、前記カラー画像における前記第1文字列との間の相対的な位置関係が所定の関係にある前記ドロップアウト画像における文字列を前記第2文字列として検出するように構成されている、
請求項1又は2の文字列認識装置。 - 前記項目値検出部は、前記カラー画像における前記第1文字列の位置に基づいて設定される前記ドロップアウト画像における所定の領域に含まれる文字列を前記第2文字列として検出するように構成されている、
請求項3の文字列認識装置。 - 前記所定の領域は、前記カラー画像における前記第1文字列の右側及び/又は下側の領域が少なくとも含まれるように構成されている、
請求項4の文字列認識装置。 - 前記所定の項目は、金額に関する項目であり、
前記項目名称検出部は、前記第1文字列に加えて、通貨に関する所定の文字を検出するように構成されており、
前記項目値検出部は、前記カラー画像において検出された前記第1文字列及び前記所定の文字の位置に少なくとも基づいて前記第2文字列を検出するように構成されている、
請求項1ないし5の何れか一項の文字列認識装置。 - 1又は複数のコンピュータによって実行され、帳票に含まれる文字列を認識するための文字列認識方法であって、
前記帳票のカラー画像を取得する工程と、
取得した前記カラー画像において、前記帳票に含まれる所定の項目の名称に対応する第1文字列を検出する工程であって、前記第1文字列は、特定の色により表示される、工程と、
前記カラー画像から少なくとも前記特定の色が消去されたドロップアウト画像を生成する工程と、
生成した前記ドロップアウト画像において、前記カラー画像において検出された前記第1文字列の位置に少なくとも基づいて、前記所定の項目の値に対応する第2文字列を検出する工程と、を備える、
文字列認識方法。 - 帳票に含まれる文字列を認識するための文字列認識プログラムであって、コンピュータに、
前記帳票のカラー画像を取得する処理と、
取得した前記カラー画像において、前記帳票に含まれる所定の項目の名称に対応する第1文字列を検出する処理であって、前記第1文字列は、特定の色により表示される、処理と、
前記カラー画像から少なくとも前記特定の色が消去されたドロップアウト画像を生成する処理と、
生成した前記ドロップアウト画像において、前記カラー画像において検出された前記第1文字列の位置に少なくとも基づいて、前記所定の項目の値に対応する第2文字列を検出する処理と、を実行させる、
文字列認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019017157A JP7329331B2 (ja) | 2019-02-01 | 2019-02-01 | 帳票に含まれる文字列を認識するための装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019017157A JP7329331B2 (ja) | 2019-02-01 | 2019-02-01 | 帳票に含まれる文字列を認識するための装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126326A JP2020126326A (ja) | 2020-08-20 |
JP7329331B2 true JP7329331B2 (ja) | 2023-08-18 |
Family
ID=72083955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019017157A Active JP7329331B2 (ja) | 2019-02-01 | 2019-02-01 | 帳票に含まれる文字列を認識するための装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7329331B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001126010A (ja) | 1999-11-01 | 2001-05-11 | Ricoh Co Ltd | 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体 |
JP2013030040A (ja) | 2011-07-29 | 2013-02-07 | Fujitsu Frontech Ltd | 情報処理プログラム、情報処理装置および文字認識方法 |
JP2015118488A (ja) | 2013-12-17 | 2015-06-25 | 株式会社日本デジタル研究所 | 会計データ入力システム、方法、およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0668299A (ja) * | 1992-08-19 | 1994-03-11 | Hitachi Ltd | 読み取り結果表示方法、読み取り結果修正方法、およびデータ読み取り装置 |
-
2019
- 2019-02-01 JP JP2019017157A patent/JP7329331B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001126010A (ja) | 1999-11-01 | 2001-05-11 | Ricoh Co Ltd | 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体 |
JP2013030040A (ja) | 2011-07-29 | 2013-02-07 | Fujitsu Frontech Ltd | 情報処理プログラム、情報処理装置および文字認識方法 |
JP2015118488A (ja) | 2013-12-17 | 2015-06-25 | 株式会社日本デジタル研究所 | 会計データ入力システム、方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020126326A (ja) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9400806B2 (en) | Image triggered transactions | |
US9027833B2 (en) | Commodity information display apparatus and method for displaying commodity information in different forms | |
AU2017410934B2 (en) | Detecting orientation of textual documents on a live camera feed | |
Pramkeaw et al. | Development of a process to enhance the reimbursement efficiency with ocr and ontology for financial documents | |
US10803233B2 (en) | Method and system of extracting structured data from a document | |
US9129197B1 (en) | Highlight-based bill processing | |
JP2002324166A (ja) | 帳票、帳票処理システム、帳票作成システム、帳票印刷システム、帳票処理方法、帳票作成方法、及び、帳票印刷方法 | |
US20110170144A1 (en) | Document processing | |
JP7329331B2 (ja) | 帳票に含まれる文字列を認識するための装置、方法、及びプログラム | |
JP5566971B2 (ja) | 情報処理プログラム、情報処理装置および文字認識方法 | |
JP5975766B2 (ja) | クレジット伝票チェック支援装置、方法およびプログラム | |
JP5878004B2 (ja) | 複数文書認識システム及び複数文書認識方法 | |
JP6810303B1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP6575207B2 (ja) | 伝票検索方法、情報処理装置、および伝票検索プログラム | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6676121B2 (ja) | データ入力装置及びデータ入力プログラム | |
KR100908406B1 (ko) | 스캐닝 이미지 데이터 검증장치 | |
JP7574167B2 (ja) | 画像処理装置、画像処理方法、プログラム | |
JP6844076B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
US20230140357A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
WO2023047570A1 (ja) | 情報処理装置、情報処理方法、情報処理プログラム | |
JP7445364B2 (ja) | 画像処理プログラム、画像処理方法、及び画像処理装置 | |
JP2018136709A (ja) | データ入力装置、データ入力プログラム及びデータ入力システム | |
JP2023046684A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2020194491A (ja) | 情報処理装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7329331 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |