JP2021179747A - 帳票データ取得システムおよび帳票データ取得プログラム - Google Patents
帳票データ取得システムおよび帳票データ取得プログラム Download PDFInfo
- Publication number
- JP2021179747A JP2021179747A JP2020084142A JP2020084142A JP2021179747A JP 2021179747 A JP2021179747 A JP 2021179747A JP 2020084142 A JP2020084142 A JP 2020084142A JP 2020084142 A JP2020084142 A JP 2020084142A JP 2021179747 A JP2021179747 A JP 2021179747A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- attribute
- learning
- form data
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】 情報処理装置は、学習用帳票における属性の位置関係を学習することによって、帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成し(S122)、学習用帳票の画像に対する文字認識の結果における文字列と、学習用帳票に基づいた学習用帳票データにおける属性との対応付けを実行することによって、帳票における文字列の属性の確率を取得するための文字列属性モデルを作成し(S123)、帳票の画像に対する文字認識の結果における文字列に対して、文字列属性モデルを適用して、属性の確率を取得し、帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、属性位置関係ルールとに基づいて、確率を補正することを特徴とする。
【選択図】 図9
Description
34a 帳票データ取得プログラム
34b 学習用データ(学習用帳票データ)
34c 文字列属性モデル
34f 属性位置関係ルール
35a 文字列属性学習部
35b 属性位置関係学習部
35c フォーマット取得部
35d 算出式導出部
35e 属性確率取得部
35f 属性確率補正部
35g 値算出部
35h フォーマット変更部
Claims (6)
- 帳票に基づいたデータとしての帳票データを、この帳票から自動で取得する帳票データ取得システムであって、
帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、
帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、
帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、
帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部と
を備え、
前記文字列属性学習部は、
帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、
前記学習用帳票データにおける属性と
の対応付けを実行することによって、前記文字列属性モデルを作成し、
前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする帳票データ取得システム。 - 前記文字列属性学習部は、前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、この文字列がいずれの値に対応するかということにも基づいて、前記文字列属性モデルを作成することを特徴とする請求項1に記載の帳票データ取得システム。
- 前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、前記帳票データにおける値のフォーマットのルールを取得するフォーマット取得部と、
前記フォーマット取得部によって取得されたルールに基づいて前記帳票データにおける値のフォーマットを変更するフォーマット変更部と
を備えることを特徴とする請求項2に記載の帳票データ取得システム。 - 前記文字列属性学習部は、前記学習用帳票データにおける属性のうちの、項目の値に対応する文字列が前記学習用帳票の画像に対する文字認識の結果に存在するが、この項目の項目名に対応する文字列がこの文字認識の結果に存在しない項目としての項目名対応文字列無項目が存在する場合に、前記項目名対応文字列無項目の前記学習用帳票データにおける値に、前記学習用帳票の画像に対する文字認識の結果において対応する文字列との、前記学習用帳票の画像における位置関係に基づいて、前記項目名対応文字列無項目の項目名に対応する文字列の候補を探索し、探索によって抽出された前記候補と、この候補に対応する項目名との類似度に基づいて、この候補の属性が、この項目名であると判定したとき、この候補がいずれの項目名に対応するかということにも基づいて、前記文字列属性モデルを作成することを特徴とする請求項1から請求項3までのいずれかに記載の帳票データ取得システム。
- 帳票に存在しない値を算出するための算出式を導き出す算出式導出部と、
帳票に存在しない値を前記算出式に基づいて算出して前記帳票データに追加する値算出部と
を備え、
前記算出式導出部は、前記学習用帳票の画像に対する文字認識の結果に存在する文字列に対応するものが存在しない、前記学習用帳票データにおける属性のうちの、項目の値について、前記学習用帳票データにおける値のそれぞれの間の関係性を分析して、前記学習用帳票データにおける他の値からの前記算出式を導き出すことを特徴とする請求項1から請求項4までのいずれかに記載の帳票データ取得システム。 - 帳票に基づいたデータとしての帳票データを、この帳票から自動で取得するための帳票データ取得プログラムであって、
帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、
帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、
帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、
帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部と
をコンピューターに実現させ、
前記文字列属性学習部は、
帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、
前記学習用帳票データにおける属性と
の対応付けを実行することによって、前記文字列属性モデルを作成し、
前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする帳票データ取得プログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020084142A JP7478345B2 (ja) | 2020-05-12 | 2020-05-12 | 帳票データ取得システムおよび帳票データ取得プログラム |
| US17/315,521 US11676409B2 (en) | 2020-05-12 | 2021-05-10 | Form data acquirement system and non-transitory computer readable recording medium storing form data acquiring program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020084142A JP7478345B2 (ja) | 2020-05-12 | 2020-05-12 | 帳票データ取得システムおよび帳票データ取得プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021179747A true JP2021179747A (ja) | 2021-11-18 |
| JP7478345B2 JP7478345B2 (ja) | 2024-05-07 |
Family
ID=78511515
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020084142A Active JP7478345B2 (ja) | 2020-05-12 | 2020-05-12 | 帳票データ取得システムおよび帳票データ取得プログラム |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US11676409B2 (ja) |
| JP (1) | JP7478345B2 (ja) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
| JP2019133218A (ja) * | 2018-01-29 | 2019-08-08 | 株式会社 みずほ銀行 | 帳票対応システム、帳票対応方法及び帳票対応プログラム |
| JP2020016946A (ja) * | 2018-07-23 | 2020-01-30 | 日本生命保険相互会社 | 情報処理装置、情報処理方法、プログラム及び帳票読取システム |
| WO2020071558A1 (ja) * | 2018-10-05 | 2020-04-09 | Arithmer株式会社 | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 |
| JP6856916B1 (ja) * | 2020-01-08 | 2021-04-14 | ジーニアルテクノロジー,インク. | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6874729B2 (ja) * | 2018-04-02 | 2021-05-19 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
| JP6791191B2 (ja) * | 2018-04-02 | 2020-11-25 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
| JP6524311B2 (ja) | 2018-05-24 | 2019-06-05 | 株式会社エスピック | 表認識処理装置 |
| JP2019204399A (ja) * | 2018-05-25 | 2019-11-28 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
| JP7608065B2 (ja) * | 2020-03-31 | 2025-01-06 | キヤノン株式会社 | 情報処理装置 |
-
2020
- 2020-05-12 JP JP2020084142A patent/JP7478345B2/ja active Active
-
2021
- 2021-05-10 US US17/315,521 patent/US11676409B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019133218A (ja) * | 2018-01-29 | 2019-08-08 | 株式会社 みずほ銀行 | 帳票対応システム、帳票対応方法及び帳票対応プログラム |
| JP2020016946A (ja) * | 2018-07-23 | 2020-01-30 | 日本生命保険相互会社 | 情報処理装置、情報処理方法、プログラム及び帳票読取システム |
| CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
| WO2020071558A1 (ja) * | 2018-10-05 | 2020-04-09 | Arithmer株式会社 | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 |
| JP6856916B1 (ja) * | 2020-01-08 | 2021-04-14 | ジーニアルテクノロジー,インク. | 情報処理装置、情報処理方法及び情報処理プログラム |
Non-Patent Citations (1)
| Title |
|---|
| "eFLOWソリューションのご紹介", 金融国際情報技術展 FIT2018, JPN6023043963, 25 October 2018 (2018-10-25), ISSN: 0005287823 * |
Also Published As
| Publication number | Publication date |
|---|---|
| US20210357632A1 (en) | 2021-11-18 |
| US11676409B2 (en) | 2023-06-13 |
| JP7478345B2 (ja) | 2024-05-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9886669B2 (en) | Interactive visualization of machine-learning performance | |
| TWI838631B (zh) | 資訊處理系統、資訊處理方法及程式產品 | |
| JP2019040467A (ja) | 画像処理装置およびその制御方法 | |
| WO2021059848A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
| US11315351B2 (en) | Information processing device, information processing method, and information processing program | |
| JP2019168856A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
| JP2020166811A (ja) | 文書フォームの識別 | |
| WO2019194052A1 (ja) | 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 | |
| JP5787073B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム | |
| JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
| JP2021179747A (ja) | 帳票データ取得システムおよび帳票データ取得プログラム | |
| US11494553B2 (en) | Document creation assistance apparatus and non-transitory computer readable medium | |
| JP2010205122A (ja) | レイアウト構造解析装置及びレイアウト構造解析方法 | |
| JP7719878B2 (ja) | 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム | |
| US20240086428A1 (en) | Data labeling work support apparatus, data labeling work support method, and storage medium | |
| JP6810303B1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
| US12148234B2 (en) | Information processing with iteratively improved estimates of data attributes based on user modifications, and apparatus, method, and storage medium thereof | |
| JP2020154962A (ja) | 情報処理装置及びプログラム | |
| KR102684423B1 (ko) | 데이터 검색 방법 및 시스템 | |
| JP2001005886A (ja) | データ処理装置及び記憶媒体 | |
| JP4517822B2 (ja) | 画像処理装置及びプログラム | |
| JP7037237B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
| JP7111143B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
| JP7703196B1 (ja) | 図面処理装置、及び、図面処理方法 | |
| JP4747828B2 (ja) | 履歴管理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230427 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240219 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240321 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240403 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7478345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |