JP2019168747A - 文書読取装置及びプログラム - Google Patents
文書読取装置及びプログラム Download PDFInfo
- Publication number
- JP2019168747A JP2019168747A JP2018053866A JP2018053866A JP2019168747A JP 2019168747 A JP2019168747 A JP 2019168747A JP 2018053866 A JP2018053866 A JP 2018053866A JP 2018053866 A JP2018053866 A JP 2018053866A JP 2019168747 A JP2019168747 A JP 2019168747A
- Authority
- JP
- Japan
- Prior art keywords
- document
- reading
- reading position
- ocr
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
Description
図1は、本実施形態における画像処理装置を含むシステムの構成ブロック図である。システムは、端末装置10及び画像処理装置12を備える。端末装置10と画像処理装置12は、通信回線14を介して接続され、通信回線14は、例えばLAN(ローカルエリアネットワーク)等のデータ通信ネットワークである。通信回線14は、有線、無線のいずれでもよい。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
等である。検出された読取位置21の読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、2ページ目のOCR実行結果として、「会社名」の項目から「株式会社XX」が文字列として抽出され、「金額」の項目から「¥32,400」が文字列として抽出され、「請求日」の項目から「2017/△△/△」が文字列として抽出される。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、3ページ目のOCR実行結果として、「会社名」の項目から「株式会社○○」が文字列として抽出され、「金額」の項目から「¥10,800」が文字列として抽出され、「請求日」の項目から「2017/××/×」が文字列として抽出される。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
等である。検出されたこれらの読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、1ページ目のOCR実行結果として、「会社名」の項目から「株式会社XX」が文字列として抽出され、「金額」の項目から「¥32,400」が文字列として抽出され、「請求日」の項目から「2017/△△/△」が文字列として抽出される。2ページ目〜Mページ目についても同様である。
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
のリストが作成されて記憶装置123に記憶される。
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
のリストが作成されて記憶装置123に記憶される。
実施形態1では、第1文書20と第2文書22が同一形式の場合について説明したが、本実施形態では第1文書20と第2文書22が類似形式の場合、すなわち項目は共通するがその位置は異なる場合について説明する。
「お客様番号 01234」
との項目がある場合、属性は「お客様番号」でその値は「01234」であり、値は属性の右側に位置している。そこで、属性とその値の相対的位置関係に着目し、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
等により読取位置情報を生成する。値の幅及び高さにより、値が記載されている領域のサイズが特定される。
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
と検出する。また、「有効期限 2018/3/10」の項目について設定された読取位置21に関して、有効期限の値が有効期限の下側に位置していることから
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
と検出する。制御部124は、検出した属性とその値の組データを、読取位置情報として記憶装置123に記憶する。
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
のリストが作成されて記憶装置123に記憶される。
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
であれば、制御部124は、OCR対象ページの全体に対してOCRを実行し、文字列「お客様番号」を抽出する。そして、抽出した「お客様番号」を基準として、その右側に位置する幅100、高さ20の領域のOCR処理結果から文字列を抽出することで属性の値、例えば「01234」等を取得する。属性はページ全体のOCR処理結果から抽出されるが、当該属性の値は、属性との相対的位置関係から規定される特定領域に対するゾーンOCRで取得される。OCR処理を実行して属性とその値を抽出すると、抽出した属性とその値を記憶装置123に記憶する(S309)。なお、記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。
属性:「お客様番号」
値の属性との位置関係:右側または下側
値の幅:100
値の高さ:20
とする等である。この場合、S308では、検出された属性の右側、及び下側のゾーンOCR処理を実行して値の文字列を抽出する。
実施形態1,2では、第2文書22が1ページ単位の帳票の場合について説明したが、第2文書22が複数ページで1組の帳票の場合もあり得る。あるいは、第2文書22が表と裏の両面文書の場合もあり得る。
表面20a:
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
裏面20b:
(X、Y、幅、高さ)
=(15,100,140,10)
等である。検出されたこれらの読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
表面20a:
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
裏面20b:
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
等である。
実施形態では、第1文書20の中の属性とその値の組に着目して読取位置情報を生成し記憶装置123に記憶しているが、属性としては「お客様番号」や「有効期限」等の特定文字列の他に、特定色や特定形状としてもよい。
実施形態では、第1文書20に対するマーキングとして、特定色のマーカによる囲みや塗りつぶし、チェックマークの追加等を例示したが、これ以外にも、無色透明による塗りつぶしや囲みによるマーキングでもよく、制御部124は、第1文書20に対してブラックライトを照射することで第1文書20の無色透明マーキングを検出して読取位置情報を生成してもよい。特定色のマーカによる囲みでは、表を構成する特定色の罫線と区別すべく、当該罫線色以外の色とするのが望ましい。
実施形態1では、図5に示すように読取位置情報として位置座標、幅、高さを規定し、実施形態2では、図11に示すように読取位置情報として属性、属性との相対的位置関係、幅、高さを規定しているが、これらを組み合わせてもよい。すなわち、ある読取位置21については図5に示す形式とし、別の読取位置21については図11に示す形式とする等である。
実施形態では、第1文書20の読取位置21を検出して生成された読取位置情報を用いて、第2文書22の読取位置を特定しているが、読取位置の特定には、厳密に一致する位置の他、許容範囲内にある最近位置も含まれ得る。従って、第2文書22において読取位置情報で特定される位置に文字列が存在しない場合(例えばチェックマークの場合)には、読取位置情報で特定される位置に最も近い文字列をOCRの対象とすればよい。
実施形態1では、第2文書22のページ毎にゾーンOCRを実行してOCR結果を出力しているが、第2文書22が同一形式の場合には、第2文書22の全てのページについて読取位置情報で特定される読取位置を一括して読み取り、その後にページ毎にOCRを実行してその結果を出力してもよい。
Claims (16)
- 文書読取部と、
読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、
前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、
を備える文書読取装置。 - 前記読取位置情報は、前記第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報を含む
請求項1に記載の文書読取装置。 - 前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含む
請求項1に記載の文書読取装置。 - 前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む
請求項3に記載の文書読取装置。 - 前記特定位置は、特定属性の位置である
請求項3に記載の文書読取装置。 - 前記記憶部は、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて前記文書読取部で読み取り、読取位置情報として記憶する
請求項1に記載の文書読取装置。 - 前記複数枚は表面と裏面である
請求項6に記載の文書読取装置。 - 前記複数枚は、1組の帳票を構成する
請求項6に記載の文書読取装置。 - 前記複数枚からなる組は、前記読取位置が互いに異なる
請求項6に記載の文書読取装置。 - 前記第1文書における前記読取位置の設定は、マーキングによる
請求項1に記載の文書読取装置。 - 前記マーキングは、特定色による囲み、特定色による塗りつぶし、チェックマークの追加、無色透明による囲み、無色透明による塗りつぶしの少なくともいずれかである
請求項10に記載の文書読取装置。 - 前記第1文書の画像を表示する表示部と、
前記第1文書の画像に対してマーキングする操作部と、
をさらに備える請求項10に記載の文書読取装置。 - 前記第1文書は、前記第2文書に対する1または複数のヘッダシートである
請求項1に記載の文書読取装置。 - 前記ヘッダシートの枚数は、利用者により設定される
請求項13に記載の文書読取装置。 - 前記ヘッダシートの枚数は、前記文書読取部で判定される
請求項13に記載の文書読取装置。 - コンピュータに、
読取位置が設定されている第1文書を読み取るステップと、
前記読取位置についての読取位置情報を生成するステップと、
前記読取位置情報を記憶部に記憶するステップと、
前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップ
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018053866A JP7059734B2 (ja) | 2018-03-22 | 2018-03-22 | 文書読取装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018053866A JP7059734B2 (ja) | 2018-03-22 | 2018-03-22 | 文書読取装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019168747A true JP2019168747A (ja) | 2019-10-03 |
JP7059734B2 JP7059734B2 (ja) | 2022-04-26 |
Family
ID=68107458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018053866A Active JP7059734B2 (ja) | 2018-03-22 | 2018-03-22 | 文書読取装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7059734B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402070A (zh) * | 2023-05-31 | 2023-07-07 | 中电长城(长沙)信息技术有限公司 | 一种用于多证件的sp服务实现方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011237840A (ja) * | 2010-04-30 | 2011-11-24 | Murata Mach Ltd | 文書処理装置 |
JP2015159456A (ja) * | 2014-02-25 | 2015-09-03 | 富士ゼロックス株式会社 | 画像処理装置、画像処理システム及び画像処理プログラム |
JP2016200967A (ja) * | 2015-04-09 | 2016-12-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP2017058732A (ja) * | 2015-09-14 | 2017-03-23 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
-
2018
- 2018-03-22 JP JP2018053866A patent/JP7059734B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011237840A (ja) * | 2010-04-30 | 2011-11-24 | Murata Mach Ltd | 文書処理装置 |
JP2015159456A (ja) * | 2014-02-25 | 2015-09-03 | 富士ゼロックス株式会社 | 画像処理装置、画像処理システム及び画像処理プログラム |
JP2016200967A (ja) * | 2015-04-09 | 2016-12-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP2017058732A (ja) * | 2015-09-14 | 2017-03-23 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402070A (zh) * | 2023-05-31 | 2023-07-07 | 中电长城(长沙)信息技术有限公司 | 一种用于多证件的sp服务实现方法及系统 |
CN116402070B (zh) * | 2023-05-31 | 2023-08-08 | 中电长城(长沙)信息技术有限公司 | 一种用于多证件的sp服务实现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP7059734B2 (ja) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8610929B2 (en) | Image processing apparatus, control method therefor, and program | |
US9454696B2 (en) | Dynamically generating table of contents for printable or scanned content | |
US10270934B2 (en) | Image processing apparatus and image forming apparatus | |
JP2010211466A (ja) | 画像処理装置および画像処理方法及びプログラム | |
JP2009104590A (ja) | 印刷装置及び印刷システム | |
US8891113B2 (en) | Image forming apparatus, data processing program, data processing method, and electronic pen | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
CN111385424A (zh) | 图像处理系统和图像处理方法 | |
CN101951452A (zh) | 印刷状态设定设备、方法、系统及存储介质 | |
JP2010211465A (ja) | 画像処理装置および画像処理方法及びプログラム | |
JP7059734B2 (ja) | 文書読取装置及びプログラム | |
US20210287187A1 (en) | Image processing apparatus and non-transitory computer readable medium storing program | |
US10452903B2 (en) | Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device | |
JP5143059B2 (ja) | 画像処理装置及びその制御方法並びにプログラム | |
CN102737372A (zh) | 校对装置、校对方法和记录介质 | |
US20110157659A1 (en) | Information processing apparatus, method for controlling the information processing apparatus, and storage medium | |
US20200202123A1 (en) | Information processing device and information processing method | |
JP5900597B2 (ja) | 帳票サーバ装置、帳票情報処理システム、帳票情報処理方法およびプログラム | |
WO2022097408A1 (ja) | 画像処理装置及び画像形成装置 | |
JP5884853B2 (ja) | 帳票情報処理システム、帳票情報処理方法および帳票情報処理プログラム | |
JP5906608B2 (ja) | 情報処理装置及びプログラム | |
JP5672837B2 (ja) | 帳票サーバ装置、帳票情報処理システム、帳票情報処理方法およびプログラム | |
US11962734B2 (en) | Image processing apparatus comprising image reader for reading document according to scan setup data, image processing program storing medium, and image processing system | |
JP6281739B2 (ja) | 処理装置及びプログラム | |
JP5532733B2 (ja) | 帳票情報処理システム、帳票情報処理方法および帳票情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7059734 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |