JP7478345B2 - 帳票データ取得システムおよび帳票データ取得プログラム - Google Patents
帳票データ取得システムおよび帳票データ取得プログラム Download PDFInfo
- Publication number
- JP7478345B2 JP7478345B2 JP2020084142A JP2020084142A JP7478345B2 JP 7478345 B2 JP7478345 B2 JP 7478345B2 JP 2020084142 A JP2020084142 A JP 2020084142A JP 2020084142 A JP2020084142 A JP 2020084142A JP 7478345 B2 JP7478345 B2 JP 7478345B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- learning
- character string
- unit
- form data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000012937 correction Methods 0.000 claims description 9
- 238000009795 derivation Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 21
- 238000012549 training Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Description
34a 帳票データ取得プログラム
34b 学習用データ(学習用帳票データ)
34c 文字列属性モデル
34f 属性位置関係ルール
35a 文字列属性学習部
35b 属性位置関係学習部
35c フォーマット取得部
35d 算出式導出部
35e 属性確率取得部
35f 属性確率補正部
35g 値算出部
35h フォーマット変更部
Claims (6)
- 帳票に基づいたデータとしての帳票データを、この帳票から自動で取得する帳票データ取得システムであって、
帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、
帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、
帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、
帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部と
を備え、
前記文字列属性学習部は、
帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、
前記学習用帳票データにおける属性と
の対応付けを実行することによって、前記文字列属性モデルを作成し、
前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする帳票データ取得システム。 - 前記文字列属性学習部は、前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、この文字列がいずれの値に対応するかということにも基づいて、前記文字列属性モデルを作成することを特徴とする請求項1に記載の帳票データ取得システム。
- 前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、前記帳票データにおける値のフォーマットのルールを取得するフォーマット取得部と、
前記フォーマット取得部によって取得されたルールに基づいて前記帳票データにおける値のフォーマットを変更するフォーマット変更部と
を備えることを特徴とする請求項2に記載の帳票データ取得システム。 - 前記文字列属性学習部は、前記学習用帳票データにおける属性のうちの、項目の値に対応する文字列が前記学習用帳票の画像に対する文字認識の結果に存在するが、この項目の項目名に対応する文字列がこの文字認識の結果に存在しない項目としての項目名対応文字列無項目が存在する場合に、前記項目名対応文字列無項目の前記学習用帳票データにおける値に、前記学習用帳票の画像に対する文字認識の結果において対応する文字列との、前記学習用帳票の画像における位置関係に基づいて、前記項目名対応文字列無項目の項目名に対応する文字列の候補を探索し、探索によって抽出された前記候補と、この候補に対応する項目名との類似度に基づいて、この候補の属性が、この項目名であると判定したとき、この候補がいずれの項目名に対応するかということにも基づいて、前記文字列属性モデルを作成することを特徴とする請求項1から請求項3までのいずれかに記載の帳票データ取得システム。
- 帳票に存在しない値を算出するための算出式を導き出す算出式導出部と、
帳票に存在しない値を前記算出式に基づいて算出して前記帳票データに追加する値算出部と
を備え、
前記算出式導出部は、前記学習用帳票の画像に対する文字認識の結果に存在する文字列に対応するものが存在しない、前記学習用帳票データにおける属性のうちの、項目の値について、前記学習用帳票データにおける値のそれぞれの間の関係性を分析して、前記学習用帳票データにおける他の値からの前記算出式を導き出すことを特徴とする請求項1から請求項4までのいずれかに記載の帳票データ取得システム。 - 帳票に基づいたデータとしての帳票データを、この帳票から自動で取得するための帳票データ取得プログラムであって、
帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、
帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、
帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、
帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部と
をコンピューターに実現させ、
前記文字列属性学習部は、
帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、
前記学習用帳票データにおける属性と
の対応付けを実行することによって、前記文字列属性モデルを作成し、
前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする帳票データ取得プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020084142A JP7478345B2 (ja) | 2020-05-12 | 2020-05-12 | 帳票データ取得システムおよび帳票データ取得プログラム |
US17/315,521 US11676409B2 (en) | 2020-05-12 | 2021-05-10 | Form data acquirement system and non-transitory computer readable recording medium storing form data acquiring program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020084142A JP7478345B2 (ja) | 2020-05-12 | 2020-05-12 | 帳票データ取得システムおよび帳票データ取得プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021179747A JP2021179747A (ja) | 2021-11-18 |
JP7478345B2 true JP7478345B2 (ja) | 2024-05-07 |
Family
ID=78511515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020084142A Active JP7478345B2 (ja) | 2020-05-12 | 2020-05-12 | 帳票データ取得システムおよび帳票データ取得プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11676409B2 (ja) |
JP (1) | JP7478345B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308476A (zh) | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
JP2019133218A (ja) | 2018-01-29 | 2019-08-08 | 株式会社 みずほ銀行 | 帳票対応システム、帳票対応方法及び帳票対応プログラム |
WO2020071558A1 (ja) | 2018-10-05 | 2020-04-09 | Arithmer株式会社 | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 |
JP6856916B1 (ja) | 2020-01-08 | 2021-04-14 | ジーニアルテクノロジー,インク. | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6791191B2 (ja) * | 2018-04-02 | 2020-11-25 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP6874729B2 (ja) * | 2018-04-02 | 2021-05-19 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP6524311B2 (ja) | 2018-05-24 | 2019-06-05 | 株式会社エスピック | 表認識処理装置 |
JP2019204399A (ja) * | 2018-05-25 | 2019-11-28 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021163178A (ja) * | 2020-03-31 | 2021-10-11 | キヤノン株式会社 | 情報処理装置 |
-
2020
- 2020-05-12 JP JP2020084142A patent/JP7478345B2/ja active Active
-
2021
- 2021-05-10 US US17/315,521 patent/US11676409B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019133218A (ja) | 2018-01-29 | 2019-08-08 | 株式会社 みずほ銀行 | 帳票対応システム、帳票対応方法及び帳票対応プログラム |
CN109308476A (zh) | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
WO2020071558A1 (ja) | 2018-10-05 | 2020-04-09 | Arithmer株式会社 | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 |
JP6856916B1 (ja) | 2020-01-08 | 2021-04-14 | ジーニアルテクノロジー,インク. | 情報処理装置、情報処理方法及び情報処理プログラム |
Non-Patent Citations (1)
Title |
---|
eFLOWソリューションのご紹介,金融国際情報技術展 FIT2018,株式会社 Top Image Systems Japan,2018年10月25日 |
Also Published As
Publication number | Publication date |
---|---|
US20210357632A1 (en) | 2021-11-18 |
JP2021179747A (ja) | 2021-11-18 |
US11676409B2 (en) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007080263A (ja) | ページレイアウト属性に基づく文書クラスタリングの方法 | |
US9582483B2 (en) | Automatically tagging variable data documents | |
JP5670787B2 (ja) | 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム | |
JP2003524258A (ja) | 電子ドキュメントを処理する方法および装置 | |
CN112651392A (zh) | 证件信息的获取方法及装置、存储介质、计算机设备 | |
JP6975312B2 (ja) | 不正推定システム、不正推定方法、及びプログラム | |
JP7478345B2 (ja) | 帳票データ取得システムおよび帳票データ取得プログラム | |
JP6223305B2 (ja) | 情報処理装置、印字制御装置、サーバ装置、及びプログラム | |
JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
EP4195136A1 (en) | Automated video generation from images for e-commerce applications | |
JP2021060876A (ja) | 学習データ生成装置、その制御方法、及びプログラム | |
WO2022029874A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP2020154962A (ja) | 情報処理装置及びプログラム | |
JP7190479B2 (ja) | 学習装置、機械学習モデル及び学習方法 | |
WO2021059848A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JP6379768B2 (ja) | 情報処理装置及び情報処理プログラム | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP5787073B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム | |
JP2001005886A (ja) | データ処理装置及び記憶媒体 | |
JP2020144427A (ja) | 文書作成装置、及びプログラム | |
TWI838631B (zh) | 資訊處理系統、資訊處理方法及程式產品 | |
CN113127597A (zh) | 搜索信息的处理方法、装置及电子设备 | |
JP2009182530A (ja) | 業務処理遂行支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240321 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7478345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |