JP7383882B2 - 情報処理装置、及び情報処理プログラム - Google Patents
情報処理装置、及び情報処理プログラム Download PDFInfo
- Publication number
- JP7383882B2 JP7383882B2 JP2019008665A JP2019008665A JP7383882B2 JP 7383882 B2 JP7383882 B2 JP 7383882B2 JP 2019008665 A JP2019008665 A JP 2019008665A JP 2019008665 A JP2019008665 A JP 2019008665A JP 7383882 B2 JP7383882 B2 JP 7383882B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- line
- value
- extraction
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 102
- 238000000605 extraction Methods 0.000 claims description 204
- 239000000284 extract Substances 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 37
- 238000000034 method Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 238000012015 optical character recognition Methods 0.000 description 10
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005034 decoration Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、例えばOCR処理された文書からキーワードに対応した文字列を抽出して出力する情報処理装置10の機能構成例を示すブロック図である。
情報処理装置10は予め書式が固定された1種類の文書20からバリューを抽出するのではなく、様々な書式の文書20からキーワードを抽出する。したがって、情報処理装置10で処理する文書20の中には、図7に示すように、キーワードの記載行とバリューとの間に空白行22Bが存在し、バリューが空白行22Aと空白行22Bで区切られているような書式が存在することも考えられる。しかしながら、図7に示すような書式の文書を図5に示した情報処理で処理した場合、空白行22Bを読み込むと、空白行22Bの上の行にバリューがあるのにステップS30の判定処理でバリューの抽出が終了してしまうことになる。
ここまでは、バリューの記載範囲の区切りに空白行が用いられている文書から複数行に亘って記載された、キーワードに対応するバリューを抽出する情報処理装置10について説明してきた。しかし、文書の中にはバリューの記載範囲の区切りに空白行が用いられないものも存在する。
文書20の中には、バリューの記載範囲の区切りに空白行が用いられず、かつ、バリューの記載行数も予め決められていない文書20も存在する。このような場合、文書20の文字列がキーワードに対応したバリューであるか否かを判定する手がかりとして、文字列の記載位置を用いればよい場合がある。
文書20の中には、バリューの記載範囲の区切りに必ずしも空白行が用いられず、かつ、バリューの記載行数も予め決められていない上、バリューを表す文字列とその他の文字列の先頭文字の位置にも特に違いが設けられていない文書20も存在する。このような場合、文書20の文字列がキーワードに対応したバリューであるか否かを判定する手がかりとして、文字列を表す書式の視覚上の相違を用いればよい場合がある。
11・・・スキャン処理部
12・・・画像処理部
12A・・・OCR処理部
12B・・・抽出部
12C・・・結合部
13・・・出力部
14・・・UI部
15・・・制御部
16・・・抽出ルールDB
20・・・文書
22(22A、22B)・・・空白行
30・・・抽出ルール
40・・・コンピュータ
41・・・CPU
42・・・ROM
43・・・RAM
44・・・不揮発性メモリ
47・・・通信ユニット
48・・・入力ユニット
49・・・表示ユニット
50・・・スキャナユニット
Claims (3)
- 複数の行に亘って記載されたキーワードを含む文字列から、前記キーワードに対応した文字列の抽出条件に従って前記キーワードに対応した文字列を抽出する抽出部と、
前記抽出部で抽出された各々の文字列を行の並びに従って結合する結合部と、
前記結合部で結合された各々の文字列を前記キーワードに対応した文字列として出力する出力部と、
を備え、
前記抽出条件に、前記キーワードの記載位置から見た前記キーワードに対応した文字列の抽出方向が定められ、前記抽出方向が、複数の行から前記キーワードに対応した文字列を抽出する場合に、前記キーワードの記載行から順次前の行に向かって移行する方向、または、前記キーワードの記載行から順次後ろの行に向かって移行する方向を表し、
前記抽出部は、前記抽出方向に沿って行を順次参照し、行方向に沿った行の先頭文字の位置が、前記キーワードの記載行の先頭文字の位置と異なる行が現れる手前までの各行から前記キーワードに対応した文字列を抽出する
情報処理装置。 - 前記抽出部は、前記キーワードの記載行から前記キーワードに対応した文字列が抽出されなかった場合、前記キーワードに対応した文字列を含む行が現れるまで前記キーワードの記載行から前記抽出方向に沿って行を順次参照し、前記キーワードに対応した文字列が最初に現れた行から、前記キーワードに対応した文字列が最初に現れた行の先頭文字の位置と先頭文字の位置が異なる行が現れる手前までの各行から前記キーワードに対応した文字列を抽出する
請求項1記載の情報処理装置。 - コンピュータを、請求項1又は請求項2に記載の情報処理装置の各部として機能させるための情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019008665A JP7383882B2 (ja) | 2019-01-22 | 2019-01-22 | 情報処理装置、及び情報処理プログラム |
US16/528,640 US11113558B2 (en) | 2019-01-22 | 2019-08-01 | Information processing apparatus and non-transitory computer readable medium storing information processing program for character string extraction |
CN201910829570.4A CN111539240A (zh) | 2019-01-22 | 2019-09-03 | 信息处理装置、储存介质及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019008665A JP7383882B2 (ja) | 2019-01-22 | 2019-01-22 | 情報処理装置、及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119152A JP2020119152A (ja) | 2020-08-06 |
JP7383882B2 true JP7383882B2 (ja) | 2023-11-21 |
Family
ID=71609022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019008665A Active JP7383882B2 (ja) | 2019-01-22 | 2019-01-22 | 情報処理装置、及び情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11113558B2 (ja) |
JP (1) | JP7383882B2 (ja) |
CN (1) | CN111539240A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021043775A (ja) * | 2019-09-12 | 2021-03-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008204226A (ja) | 2007-02-21 | 2008-09-04 | Hitachi Computer Peripherals Co Ltd | 帳票認識装置およびそのプログラム |
JP2010102668A (ja) | 2008-10-27 | 2010-05-06 | Hitachi Software Eng Co Ltd | メタデータ抽出装置およびその方法 |
JP2011123825A (ja) | 2009-12-14 | 2011-06-23 | Fujitsu Frontech Ltd | 文字認識方法、文字認識装置および文字認識プログラム |
JP2018005462A (ja) | 2016-06-30 | 2018-01-11 | 株式会社日立ソリューションズ | 認識装置及び認識方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5416849A (en) * | 1992-10-21 | 1995-05-16 | International Business Machines Corporation | Data processing system and method for field extraction of scanned images of document forms |
JP3656799B2 (ja) * | 1998-09-17 | 2005-06-08 | 日立ソフトウエアエンジニアリング株式会社 | 帳票データ検索装置 |
JP4470913B2 (ja) * | 2005-07-14 | 2010-06-02 | セイコーエプソン株式会社 | 文字列検索装置およびプログラム |
JP2007026263A (ja) * | 2005-07-20 | 2007-02-01 | Sharp Corp | 文字認識装置及びコンピュータプログラム |
JP2007233913A (ja) | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP4487073B2 (ja) | 2006-03-03 | 2010-06-23 | 国立大学法人長岡技術科学大学 | 外力推定方法および外力推定装置 |
WO2011105608A1 (ja) * | 2010-02-26 | 2011-09-01 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体 |
JP5810568B2 (ja) * | 2011-03-17 | 2015-11-11 | 富士通株式会社 | 情報処理装置、プログラム、およびデータの抽出方法 |
US9251413B2 (en) * | 2013-06-14 | 2016-02-02 | Lexmark International Technology, SA | Methods for automatic structured extraction of data in OCR documents having tabular data |
JP6322291B2 (ja) * | 2014-09-26 | 2018-05-09 | 株式会社日立製作所 | 文書処理装置および項目抽出方法 |
JP6762722B2 (ja) * | 2016-01-18 | 2020-09-30 | キヤノン株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2018055256A (ja) * | 2016-09-27 | 2018-04-05 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP6878034B2 (ja) | 2017-02-10 | 2021-05-26 | キヤノン株式会社 | 情報処理装置、制御方法、およびプログラム |
CN108268623B (zh) * | 2018-01-09 | 2022-06-03 | 顺丰科技有限公司 | 一种文本提取方法、装置、设备和介质 |
CN108959254A (zh) * | 2018-06-29 | 2018-12-07 | 中教汇据(北京)科技有限公司 | 一种用于期刊pdf文件中文章内容的解析方法 |
-
2019
- 2019-01-22 JP JP2019008665A patent/JP7383882B2/ja active Active
- 2019-08-01 US US16/528,640 patent/US11113558B2/en active Active
- 2019-09-03 CN CN201910829570.4A patent/CN111539240A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008204226A (ja) | 2007-02-21 | 2008-09-04 | Hitachi Computer Peripherals Co Ltd | 帳票認識装置およびそのプログラム |
JP2010102668A (ja) | 2008-10-27 | 2010-05-06 | Hitachi Software Eng Co Ltd | メタデータ抽出装置およびその方法 |
JP2011123825A (ja) | 2009-12-14 | 2011-06-23 | Fujitsu Frontech Ltd | 文字認識方法、文字認識装置および文字認識プログラム |
JP2018005462A (ja) | 2016-06-30 | 2018-01-11 | 株式会社日立ソリューションズ | 認識装置及び認識方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200234073A1 (en) | 2020-07-23 |
JP2020119152A (ja) | 2020-08-06 |
CN111539240A (zh) | 2020-08-14 |
US11113558B2 (en) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP6878034B2 (ja) | 情報処理装置、制御方法、およびプログラム | |
JP2010020468A (ja) | 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体 | |
KR102613255B1 (ko) | 화상 처리 방법 및 화상 처리 시스템 | |
JP2009193356A (ja) | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 | |
US8526744B2 (en) | Document processing apparatus and computer readable medium | |
JP2008310772A (ja) | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP7379876B2 (ja) | 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム | |
JP7302175B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP5159588B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
US20210182477A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
US8165404B2 (en) | Method and apparatus for creating document data, and computer program product | |
US10853000B2 (en) | Image processing apparatus and storage medium | |
JP2011060268A (ja) | 画像処理装置及び画像処理プログラム | |
JP2020099030A (ja) | 情報処理装置、及び情報処理方法 | |
JP2020099031A (ja) | 情報処理装置、及び情報処理方法 | |
JP2019153230A (ja) | 情報処理装置及び情報処理プログラム | |
US20210157969A1 (en) | Information processing system, information processing apparatus, and non-transitory computer readable medium storing program | |
JP7501255B2 (ja) | 文書検索システム、文書検索方法およびプログラム | |
KR102313056B1 (ko) | 사용자 맞춤형 폰트의 생성에 이용되는 시트, 사용자 맞춤형 폰트를 생성하는 디바이스 및 방법 | |
JP5284342B2 (ja) | 文字認識システムおよび文字認識プログラム | |
JP6489041B2 (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7383882 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |