JP7122896B2 - 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム - Google Patents
帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム Download PDFInfo
- Publication number
- JP7122896B2 JP7122896B2 JP2018134466A JP2018134466A JP7122896B2 JP 7122896 B2 JP7122896 B2 JP 7122896B2 JP 2018134466 A JP2018134466 A JP 2018134466A JP 2018134466 A JP2018134466 A JP 2018134466A JP 7122896 B2 JP7122896 B2 JP 7122896B2
- Authority
- JP
- Japan
- Prior art keywords
- text information
- information
- dimensional array
- processing
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
Description
図1に示す帳票情報処理システム1は、ドキュメントスキャナ(以下、「スキャナ」と記す)10と、一実施形態に係る帳票情報処理装置としてのサーバコンピュータ(以下、「サーバ」と記す)20と、第1端末コンピュータ(以下、「第1端末」と記す)40と、第2端末コンピュータ(以下、「第2端末」と記す)50と、基幹システムのクライアントコンピュータ(以下、「クライアント」と記す)60と、を有して構成される。
スキャナ10は、紙媒体の帳票(学習用帳票M1、入力対象帳票M2)の紙面に記載されている情報を光学文字認識(OCR:Optical Character Recognition)してテキスト情報を生成する。スキャナ10は、学習データ登録担当者及び帳票入力担当者により共用される。
サーバ20は、クレンジング処理部21と、文字列抽出部22と、一次元配列処理部23と、一次元配列補正処理部24と、タグ付け処理部25と、構造化処理部26と、振り分け処理部27と、学習データ登録処理部28と、機械学習部29と、タグ補正処理部30と、を有する。これら処理部21乃至30の機能は、サーバ20のCPU(Central Processing Unit)が一実施形態に係る帳票処理プログラムを実行することにより実現される。
第1端末40は、学習データ登録担当者により操作されるコンピュータである。第1端末40は、表示機能40aと、クレンジング操作機能40bと、タグ補正操作機能40cと、を有する。これらの機能40a乃至40cは、第1端末40のCPUが一実施形態に係る帳票処理プログラムに付属する第1端末用プログラムを実行することにより実現される。
第2端末50は、帳票入力担当者により操作されるコンピュータである。第2端末50は、表示機能50aと、クレンジング操作機能50bと、タグ補正操作機能50cと、を有する。これらの機能50a乃至50cは、第2端末50のCPUが一実施形態に係る帳票処理プログラムに付属する第2端末用プログラムを実行することにより実現される。
クライアント60は、基幹システムのユーザが使用するコンピュータである。クライアント60は、サーバ20の特定のフォルダ27a、27b、・・・に表計算ソフトファイル形式で保存されている構造化テキスト情報T5と構造化テキスト表項目情報T6とを取得(ダウンロード)し、基幹システムに自動入力する自動入力機能60aと、基幹システムに手動入力する手動入力機能60bと、を有している。両機能60a、60bは、クライアント60のCPUがRPA(Robotic Process Automation)プログラムを実行することにより実現される。なお、手動入力機能60bは、帳票入力担当者が基幹システムへ構造化テキスト情報T5及び構造化テキスト表項目情報T6をコピー&ペーストしたり、公知のインポート機能等を使用して手動入力を行ったりする場合に使用される機能である。
次に、上記のように構成された帳票情報処理システム1における処理の流れについて説明する。帳票情報処理システム1における処理は、学習データ登録処理(図2)、帳票読み取り処理(図3)及び基幹システムへの自動入力処理(図4)からなる。
図2に示すように、学習データ登録処理は、学習用帳票読み取り処理S11、クレンジング処理S12、文字列抽出処理S13、一次元配列処理S14、一次元配列補正処理S15、自動タグ付け処理S16、タグ補正処理S17及び補正済みデータ登録処理S18からなる。
図3に示すように、帳票読み取り処理は、入力対象帳票読み取り処理(S21)、クレンジング処理(S22)、文字列抽出処理(S23)、一次元配列処理(S24)、一次元配列補正処理(S25)、自動タグ付け処理(S26)、構造化処理(S27)、振り分け処理(S28)、タグ補正処理(S29)、補正済みデータ登録処理(S30)からなる。
図4に示すように、基幹システムへの自動入力処理はダウンロード処理S31及び入力処理S32からなる。
21 クレンジング処理部
22 文字列抽出部
23 一次元配列処理部
24 一次元配列補正処理部
25 タグ付け処理部
26 構造化処理部
27 振り分け処理部
28 学習データ登録処理部
29 機械学習部
30 タグ補正処理部
LM 学習済みモデル
LD 学習データ
M1 学習用帳票
T1 テキスト情報
T2 一次元配列テキスト情報
T4 タグ付きテキスト情報
T5 構造化テキスト情報
T6 構造化テキスト表項目情報
Claims (7)
- 帳票に記載された情報を文字認識することにより得られたテキスト情報から各種の文字列を抽出する文字列抽出部と、
抽出された前記各種の文字列に各々タグを付加したタグ付きテキスト情報を生成するタグ付け処理部と、
前記タグ付きテキスト情報に基づいて、帳票の種別毎の書式に従って構造化したテキスト情報を生成する構造化処理部と、を有するものであって、
前記タグ付け処理部は、学習済みモデルを用いて前記文字列に各々タグを付加することを特徴とする帳票情報処理装置。 - 前記学習済みモデルは、
前記文字列が表す意味と当該文字列に付すべきタグとの対応関係を機械学習して得られた学習済みモデルである、請求項1に記載の帳票情報処理装置。 - 前記文字列抽出部により抽出した前記文字列を一次元配列した一次元配列テキスト情報を生成する一次元配列処理部を更に有し、
前記学習済みモデルは、
前記一次元配列内における位置と当該位置にある前記文字列に付すべきタグとの対応関係を機械学習して得られた学習済みモデルである、請求項1又2に記載の帳票情報処理装置。 - 前記一次元配列処理部により生成された前記一次元配列テキスト情報に含まれる前記一次元配列内の各配列要素のデータ型を判別し、前記一次元配列内において互いに所定の位置関係にあるべき配列要素間のデータ型の不一致を検出し、当該不一致を解消するべく前記一次元配列テキスト情報を補正する一次元配列補正処理部を更に有する、請求項3に記載の帳票情報処理装置。
- 前記所定の位置関係は、前記帳票に記載された表に含まれる項目と当該項目の項目値との位置関係である、請求項4に記載の帳票情報処理装置。
- 帳票に記載された情報を文字認識することにより得られたテキスト情報から各種の文字列を抽出する文字列抽出ステップと、
抽出された前記各種の文字列に各々タグを付加したタグ付きテキスト情報を生成するタグ付け処理ステップと、
前記タグ付きテキスト情報に基づいて、帳票の種別毎の書式に従って構造化したテキスト情報を生成する構造化処理ステップと、を有し、
前記タグ付け処理ステップは、学習済みモデルを用いて前記文字列に各々タグを付加することを特徴とする帳票情報構造化処理方法。 - 帳票に記載された情報を文字認識することにより得られたテキスト情報から各種の文字列を抽出する文字列抽出ステップと、
抽出された前記各種の文字列に各々タグを付加したタグ付きテキスト情報を生成するタグ付け処理ステップと、
前記タグ付きテキスト情報に基づいて、帳票の種別毎の書式に従って構造化したテキスト情報を生成する構造化処理ステップと、をコンピュータに実行させるものであって、
前記タグ付け処理ステップは、学習済みモデルを用いて前記文字列に各々タグを付加することを特徴とする帳票情報構造化処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134466A JP7122896B2 (ja) | 2018-07-17 | 2018-07-17 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134466A JP7122896B2 (ja) | 2018-07-17 | 2018-07-17 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020013281A JP2020013281A (ja) | 2020-01-23 |
JP7122896B2 true JP7122896B2 (ja) | 2022-08-22 |
Family
ID=69169945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018134466A Active JP7122896B2 (ja) | 2018-07-17 | 2018-07-17 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7122896B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6869394B1 (ja) * | 2020-03-23 | 2021-05-12 | 三菱電機Itソリューションズ株式会社 | 検証装置、検証方法、及び、検証プログラム |
CN117593757B (zh) * | 2023-12-13 | 2024-10-01 | 招商基金管理有限公司 | 扫描件中的文本要素抽取方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052615A (ja) | 2005-08-17 | 2007-03-01 | Fuji Xerox Co Ltd | 文書処理装置、ルールデータ生成方法およびプログラム |
JP2009093305A (ja) | 2007-10-05 | 2009-04-30 | Hitachi Computer Peripherals Co Ltd | 帳票認識装置 |
JP2010140402A (ja) | 2008-12-15 | 2010-06-24 | Toshiba Corp | 帳票処理装置、及び方法 |
JP2012194932A (ja) | 2011-03-18 | 2012-10-11 | Hitachi Ltd | 文書検定システム及び文書検定方法 |
JP2013229011A (ja) | 2012-03-30 | 2013-11-07 | Toshiba Corp | 帳票識別装置および帳票識別方法 |
JP2018005462A (ja) | 2016-06-30 | 2018-01-11 | 株式会社日立ソリューションズ | 認識装置及び認識方法 |
-
2018
- 2018-07-17 JP JP2018134466A patent/JP7122896B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052615A (ja) | 2005-08-17 | 2007-03-01 | Fuji Xerox Co Ltd | 文書処理装置、ルールデータ生成方法およびプログラム |
JP2009093305A (ja) | 2007-10-05 | 2009-04-30 | Hitachi Computer Peripherals Co Ltd | 帳票認識装置 |
JP2010140402A (ja) | 2008-12-15 | 2010-06-24 | Toshiba Corp | 帳票処理装置、及び方法 |
JP2012194932A (ja) | 2011-03-18 | 2012-10-11 | Hitachi Ltd | 文書検定システム及び文書検定方法 |
JP2013229011A (ja) | 2012-03-30 | 2013-11-07 | Toshiba Corp | 帳票識別装置および帳票識別方法 |
JP2018005462A (ja) | 2016-06-30 | 2018-01-11 | 株式会社日立ソリューションズ | 認識装置及び認識方法 |
Non-Patent Citations (1)
Title |
---|
西田 京介 外3名,階層的オートタギング技術とその応用,情報処理学会論文誌 論文誌トランザクション,日本,一般社団法人情報処理学会,2013年04月15日,第6巻,第1号,pp.29~40 |
Also Published As
Publication number | Publication date |
---|---|
JP2020013281A (ja) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US9754176B2 (en) | Method and system for data extraction from images of semi-structured documents | |
JP5126541B2 (ja) | 情報分類装置、情報分類方法、及び情報分類プログラム | |
US9582483B2 (en) | Automatically tagging variable data documents | |
JP6357621B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP7122896B2 (ja) | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム | |
JP2013164740A (ja) | 会計情報読取りシステム、会計情報読取り方法、及びプログラム | |
JP2021043775A (ja) | 情報処理装置及びプログラム | |
EP4168901A1 (en) | System and method for detection and auto-validation of key data in any non-handwritten document | |
JP2016177349A (ja) | 帳票処理システム、帳票処理方法及びプログラム | |
US20110170144A1 (en) | Document processing | |
Hamzah et al. | Data capturing: Methods, issues and concern | |
JP2019057311A (ja) | 帳票情報認識装置および帳票情報認識方法 | |
JP2015005100A (ja) | 情報処理装置、テンプレート生成方法、およびプログラム | |
CN112445911A (zh) | 工作流程辅助装置、系统、方法及存储介质 | |
CN111768565A (zh) | 一种增值税发票中发票代码识别后处理方法 | |
JP7021496B2 (ja) | 情報処理装置及びプログラム | |
JP6870159B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
US20100023517A1 (en) | Method and system for extracting data-points from a data file | |
JP2006134106A (ja) | 帳票認識システム、帳票認識方法及びコンピュータプログラム | |
JP6980927B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP5253788B2 (ja) | 画像認識装置、画像認識プログラムおよび画像認識方法 | |
JP3732254B2 (ja) | フォーマット情報生成方法及びフォーマット情報生成装置 | |
CN112149402A (zh) | 文档对比方法、装置、电子设备和计算机可读存储介质 | |
JP2011008584A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210603 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7122896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |