JP6322291B2 - 文書処理装置および項目抽出方法 - Google Patents
文書処理装置および項目抽出方法 Download PDFInfo
- Publication number
- JP6322291B2 JP6322291B2 JP2016549887A JP2016549887A JP6322291B2 JP 6322291 B2 JP6322291 B2 JP 6322291B2 JP 2016549887 A JP2016549887 A JP 2016549887A JP 2016549887 A JP2016549887 A JP 2016549887A JP 6322291 B2 JP6322291 B2 JP 6322291B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- item
- item name
- characters
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 53
- 238000012545 processing Methods 0.000 title claims description 45
- 239000000284 extract Substances 0.000 claims description 13
- 238000000034 method Methods 0.000 description 28
- 239000011159 matrix material Substances 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Description
図1は、本発明の実施形態の枠不完全帳票からの項目領域抽出装置の構成を示すブロック図である。枠不完全帳票とは、表領域を示す枠線が完全には明示されておらず、例えば下線のみが引かれている帳票等のことを言う。
<処理全体フロー>
図2は、本発明の実施形態である、帳票からの項目領域抽出装置10が実行する、項目-値関係抽出処理の全体フローチャートである。このフローは、画像入力装置111から入力される帳票画像を受信し、通常のOCR処理を施したデータを受け取った状態から開始する。処理フローは、探索文脈考慮型の2次元項目名辞書照合による項目抽出(S201)と、項目-値関係抽出(S202)の2つのフローから構成される。各フローの詳細は、追って説明する。
<項目抽出>
図3は、本実施例の情報抽出プログラム153による、探索文脈考慮型の2次元項目名辞書照合処理(S201)による、項目文字行抽出処理の詳細フローチャートである。
1 + 1 + 10 = 12
となる。
50 + 1 + 900 = 951
となる。
<項目-値関係抽出>
図13は、本実施例の項目領域抽出装置10が実行する文書解析処理において、探索文脈考慮型の2次元項目名辞書照合(S201)にて抽出した文字行情報に基づき、項目文字行と値文字行の関係を抽出する処理(S202)のフローチャートを表す。
これらの手掛かり文字がない場合は、値文字行間の距離閾値が一定以上(例えば閾値503)の値文字行については、別のレコードとする。
11:入力装置
12:表示装置
13:CPU(Central Processing Unit)
14:印刷装置
15:ワークエリア
151 OS
152 通信プログラム
153 文書構造解析プログラム
16:情報保持手段
161 項目名辞書現単語辞書
162 文字連接閾値辞書
163 探索優先順序定義辞書
164 レコード境界定義辞書
165 文字列連接コスト定義辞書
19 通信ネットワーク
21 ファイルサーバ
Claims (10)
- 帳票文書の画像を入力する入力装置と、前記入力装置に接続されたプロセッサと、前記プロセッサに接続された記憶装置と、前記プロセッサに接続された出力装置と、を備える文書処理装置であって、
前記記憶装置は、
項目名の文字列を含む項目名辞書を記憶し、
前記プロセッサは、
前記帳票文書の画像から、文字の配置に基づき文字間の2次元の連接関係を示す文字連接グラフを抽出する第1手段と、
前記抽出した文字連接グラフから、前記項目名辞書に格納されている項目名の文字列を探索することにより、前記帳票文書で用いられている項目名の候補となる文字の連接関係を抽出し、抽出した連接関係に基づいて項目名領域候補を抽出する第2手段と、
を備えることを特徴とする文書処理装置。 - 前記プロセッサは、
前記項目名辞書を参照し、前記第1手段で抽出した文字連接グラフのエッジに対し、当該エッジの2次元の連接方向および当該エッジに連接された文字が前記項目名辞書に記憶された項目名の文字列に存在するか否かを示す、接続タイプフラグを付加する第3手段を有し、
前記第2手段は、
前記文字連接グラフに対して、前記接続タイプフラグに基づいて定められた優先度に従った連接方向に、前記項目名の文字列を探索することを特徴とする請求項1記載の文書処理装置。 - 前記項目名辞書は、
前記項目名の文字列に対応した項目IDを記憶し、
前記プロセッサは、
前記項目名辞書に含まれる前記項目名の文字列に含まれる文字を検出した場合には、当該文字に対応する前記項目IDを付加し、
前記第2手段は、
前記文字連接グラフに対して深さ優先探索を実施し、エッジの終端に至った場合には、それまでに探索した文字をグループ化してグループIDを付加し、
前記一つのグループIDが付加されたグループの文字に、単一の前記項目IDが付加されている文字のみ含まれる場合は、当該グループを前記項目名領域候補として抽出し、
前記一つのグループIDが付加されたグループの文字に、異なる前記項目IDが付加されている文字が含まれる場合は、文字に含まれる項目IDが単一になるように前記グループの文字を分離し、複数の前記項目名領域候補を抽出することを特徴とする請求項1記載の文書処理装置。 - 前記項目名辞書は、
前記項目名の文字列に対応した項目IDを記憶し、
前記プロセッサは、
前記項目名辞書に含まれる前記項目名の文字列に含まれる文字を検出した場合には、当該文字に対応する前記項目IDを付加し、
前記第2手段は、
前記文字連接グラフに対して深さ優先探索を実施し、既に探索済みのノードに至った場合(ただし、直前のエッジに連接された文字が前記項目名辞書に記憶された項目名の文字列に存在する場合を除く)には、それまでに探索した文字をグループ化してグループIDを付加し、
前記一つのグループIDが付加されたグループの文字に、単一の前記項目IDが付加されている文字のみ含まれる場合は、当該グループを前記項目名領域候補として抽出し、
前記一つのグループIDが付加されたグループの文字に、異なる前記項目IDが付加されている文字が含まれる場合は、文字に含まれる項目IDが単一になるように前記グループの文字を分離し、複数の前記項目名領域候補を抽出することを特徴とする請求項1記載の文書処理装置。 - 前記第2手段は、
前記項目名領域候補となる文字の連接関係を抽出した結果、前記帳票文書の同一領域について、前記項目名領域候補が複数抽出された場合には、連接関係のコストを考慮することにより、可能性の高い候補を選択することを特徴とする請求項1記載の文書処理装置。 - 帳票文書の画像を入力する入力装置と、前記入力装置に接続されたプロセッサと、前記プロセッサに接続された記憶装置と、前記プロセッサに接続された出力装置と、を備える文書処理装置における項目抽出方法であって、
前記記憶装置は、
項目名の文字列を含む項目名辞書を記憶し、
前記プロセッサは、
前記帳票文書の画像から、文字の配置に基づき文字間の2次元の連接関係を示す文字連接グラフを抽出し、
前記抽出した文字連接グラフから、前記項目名辞書に格納されている項目名の文字列を探索することにより、前記帳票文書で用いられている項目名の候補となる文字の連接関係を抽出し、抽出した連接関係に基づいて項目名領域候補を抽出する、
ことを特徴とする項目抽出方法。 - 前記プロセッサは、
前記項目名辞書を参照し、前記抽出した文字連接グラフのエッジに対し、当該エッジの2次元の連接方向および当該エッジに連接された文字が前記項目名辞書に記憶された項目名の文字列に存在するか否かを示す、接続タイプフラグを付加し、
前記文字連接グラフに対して、前記接続タイプフラグに基づいて定められた優先度に従った連接方向に、前記項目名の文字列を探索することを特徴とする請求項6記載の項目抽出方法。 - 前記項目名辞書は、
前記項目名の文字列に対応した項目IDを記憶し、
前記プロセッサは、
前記項目名辞書に含まれる前記項目名の文字列に含まれる文字を検出した場合には、当該文字に対応する前記項目IDを付加し、
前記文字連接グラフに対して深さ優先探索を実施し、エッジの終端に至った場合には、それまでに探索した文字をグループ化してグループIDを付加し、
前記一つのグループIDが付加されたグループの文字に、単一の前記項目IDが付加されている文字のみ含まれる場合は、当該グループを前記項目名領域候補として抽出し、
前記一つのグループIDが付加されたグループの文字に、異なる前記項目IDが付加されている文字が含まれる場合は、文字に含まれる項目IDが単一になるように前記グループの文字を分離し、複数の前記項目名領域候補を抽出することを特徴とする請求項6記載の項目抽出方法。 - 前記項目名辞書は、
前記項目名の文字列に対応した項目IDを記憶し、
前記プロセッサは、
前記項目名辞書に含まれる前記項目名の文字列に含まれる文字を検出した場合には、当該文字に対応する前記項目IDを付加し、
前記文字連接グラフに対して深さ優先探索を実施し、既に探索済みのノードに至った場合(ただし、直前のエッジに連接された文字が前記項目名辞書に記憶された項目名の文字列に存在する場合を除く)には、それまでに探索した文字をグループ化してグループIDを付加し、
前記一つのグループIDが付加されたグループの文字に、単一の前記項目IDが付加されている文字のみ含まれる場合は、当該グループを前記項目名領域候補として抽出し、
前記一つのグループIDが付加されたグループの文字に、異なる前記項目IDが付加されている文字が含まれる場合は、文字に含まれる項目IDが単一になるように前記グループの文字を分離し、複数の前記項目名領域候補を抽出することを特徴とする請求項6記載の項目抽出方法。 - 前記プロセッサは、
前記項目名領域候補となる文字の連接関係を抽出した結果、前記帳票文書の同一領域について、前記項目名領域候補が複数抽出された場合には、連接関係のコストを考慮することにより、可能性の高い候補を選択することを特徴とする請求項6記載の項目抽出方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/075744 WO2016046988A1 (ja) | 2014-09-26 | 2014-09-26 | 文書処理装置および項目抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016046988A1 JPWO2016046988A1 (ja) | 2017-06-01 |
JP6322291B2 true JP6322291B2 (ja) | 2018-05-09 |
Family
ID=55580546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016549887A Active JP6322291B2 (ja) | 2014-09-26 | 2014-09-26 | 文書処理装置および項目抽出方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6322291B2 (ja) |
WO (1) | WO2016046988A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7383882B2 (ja) * | 2019-01-22 | 2023-11-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3215176B2 (ja) * | 1992-09-07 | 2001-10-02 | 株式会社東芝 | 文書画像処理装置及び文書画像処理方法 |
JP5380040B2 (ja) * | 2008-10-30 | 2014-01-08 | 株式会社日立ソリューションズ | 文書処理装置 |
-
2014
- 2014-09-26 WO PCT/JP2014/075744 patent/WO2016046988A1/ja active Application Filing
- 2014-09-26 JP JP2016549887A patent/JP6322291B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2016046988A1 (ja) | 2017-06-01 |
WO2016046988A1 (ja) | 2016-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6721451B1 (en) | Apparatus and method for reading a document image | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
JP5380040B2 (ja) | 文書処理装置 | |
JP2021043478A (ja) | 情報処理装置、その制御方法及びプログラム | |
JP6623754B2 (ja) | 表形式データ処理プログラム、方法及び装置 | |
CN114118070A (zh) | 文档目录生成方法及装置、电子设备和介质 | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
JP6067952B1 (ja) | 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 | |
JPWO2009048149A1 (ja) | 電子文書の同等判定システムおよび同等判定方法 | |
JP6322291B2 (ja) | 文書処理装置および項目抽出方法 | |
JP5790820B2 (ja) | 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法 | |
JP7331551B2 (ja) | 情報処理装置及び情報処理プログラム | |
JPWO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
JP2011070529A (ja) | 文書処理装置 | |
JP4466241B2 (ja) | 文書処理手法及び文書処理装置 | |
JP6807201B2 (ja) | 情報処理装置 | |
JPWO2020240820A1 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
JP2008210229A (ja) | 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム | |
JP4213558B2 (ja) | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
US20230267274A1 (en) | Mapping entities in unstructured text documents via entity correction and entity resolution | |
JP4922030B2 (ja) | 文字列検索装置、方法及びプログラム | |
JP6475288B2 (ja) | プログラム比較方法、プログラム比較装置およびプログラム比較プログラム | |
JP5971571B2 (ja) | 構造文書管理システム、構造文書管理方法及びプログラム | |
JP2021009591A (ja) | データ取得装置、データ取得方法、およびデータ取得プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6322291 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |