JP6870159B1 - データ処理装置、データ処理方法及びプログラム - Google Patents
データ処理装置、データ処理方法及びプログラム Download PDFInfo
- Publication number
- JP6870159B1 JP6870159B1 JP2020561940A JP2020561940A JP6870159B1 JP 6870159 B1 JP6870159 B1 JP 6870159B1 JP 2020561940 A JP2020561940 A JP 2020561940A JP 2020561940 A JP2020561940 A JP 2020561940A JP 6870159 B1 JP6870159 B1 JP 6870159B1
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- master data
- recognition
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 54
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000012937 correction Methods 0.000 claims abstract description 102
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
Abstract
Description
図1は、データ処理装置1の概要を説明するための図である。データ処理装置1は、証憑画像データを取得し、証憑画像データに文字認識の処理を施すことにより証憑画像データに含まれる文字列を特定する装置であり、例えばコンピュータである。データ処理装置1は、特定した文字列を含む証憑データを作成し、作成した証憑データを外部装置3に出力する。
図4は、データ処理装置1の構成を示す図である。データ処理装置1は、通信部11と、記憶部12と、制御部13と、を有する。制御部13は、データ取得部131と、文字認識部132と、補正部133と、出力部134と、を有する。
以下、補正部133による補正処理の詳細を説明する。
一例として、補正部133は、文字認識部132が認識した第1文字列である認識会社名がマスターデータに含まれておらず、文字認識部が認識した第2文字列である認識口座情報がマスターデータに含まれている場合に、マスターデータにおいて認識口座情報に関連付けられている会社名に認識会社名を補正する。
出力部134は、証憑に記載された文字列に基づいて、適切な文字列が基幹システムに登録される確率を向上させるために、補正部133が補正をした文字列を基幹システムに出力する前にユーザが確認できるようにしてもよい。一例として、出力部134は、複数の認識文字列のうち、補正が必要であると補正部133が判定した文字列と、補正が不要であると補正部133が判定した文字列とを識別できる態様で出力する。
図8は、データ処理装置1の処理の流れを示すフローチャートである。図8に示すフローチャートは、画像読取装置2が証憑画像データを出力した時点から開始している。
以上説明したように、データ処理装置1は、証憑に記載される文字列である会社名、支店名、電話番号、口座情報、連絡先、担当部署、担当者名、品目名及び商品単価のうち複数の文字列が複数の登録文字列として関連付けられたマスターデータを参照する。そして、補正部133は、証憑画像データに含まれる文字列を認識することにより特定された複数の認識文字列のうち第1文字列が前記マスターデータに含まれておらず、複数の認識文字列のうち第1文字列と異なる第2文字列がマスターデータに含まれている場合に、マスターデータにおいて第2文字列に関連付けられている一以上の登録文字列のうち第1文字列に最も類似する類似文字列に第1文字列を補正する。
2 画像読取装置
3 外部装置
11 通信部
12 記憶部
13 制御部
121 会社マスターデータ
122 商品マスターデータ
131 データ取得部
132 文字認識部
133 補正部
134 出力部
Claims (12)
- 証憑画像データを取得するデータ取得部と、
前記証憑画像データに含まれる文字列を認識することにより複数の認識文字列を出力する文字認識部と、
前記複数の認識文字列のうち第1文字列が、複数の登録文字列が関連付けられたマスターデータに含まれておらず、前記複数の認識文字列のうち前記第1文字列と異なる第2文字列が前記マスターデータに含まれている場合に、前記マスターデータにおいて前記第2文字列に関連付けられている一以上の前記登録文字列のうち前記第1文字列に最も類似する類似文字列に前記第1文字列を補正する補正部と、
前記第1文字列が補正された後の補正第1文字列と前記第2文字列とを関連付けて出力する出力部と、
を有し、
前記補正部は、前記第1文字列を前記類似文字列に補正する前に前記類似文字列に関連付けられた会社名又は電話番号をキーワードとしてインターネット上での検索を実行し、検索により表示される文字列に前記第1文字列が一致している場合に、前記第1文字列を補正することなく、前記マスターデータにおける前記類似文字列を前記第1文字列に補正する、
データ処理装置。 - 前記補正部は、前記複数の認識文字列のうち2つ以上の前記第2文字列が前記マスターデータに含まれていることを条件として、前記第1文字列を前記類似文字列に補正する、
請求項1に記載のデータ処理装置。 - 前記補正部は、前記第1文字列に最も類似する前記類似文字列の候補が複数あることを特定した場合、前記第1文字列を前記類似文字列に補正をする前に、前記類似文字列の複数の候補を前記出力部に出力させ、前記複数の候補から選択された候補に対応する前記類似文字列に前記第1文字列を補正する、
請求項1又は2に記載のデータ処理装置。 - 前記マスターデータは、会社名及び口座情報を前記複数の登録文字列として含み、
前記補正部は、前記文字認識部が認識した前記第1文字列である認識会社名が前記マスターデータに含まれておらず、前記文字認識部が認識した前記第2文字列である認識口座情報が前記マスターデータに含まれている場合に、前記マスターデータにおいて前記認識口座情報に関連付けられている会社名に前記認識会社名を補正する、
請求項1から3のいずれか一項に記載のデータ処理装置。 - 前記マスターデータは、会社名及び品目名を前記複数の登録文字列として含み、
前記補正部は、前記文字認識部が認識した前記第1文字列である認識会社名が前記マスターデータに含まれておらず、前記文字認識部が認識した前記第2文字列である認識品目名が前記マスターデータに含まれている場合に、前記マスターデータにおいて前記認識品目名に関連付けられている複数の会社名のうち、前記認識会社名に最も類似する会社名に前記認識会社名を補正する、
請求項1から4のいずれか一項に記載のデータ処理装置。 - 前記マスターデータは、品目名及び商品単価を前記複数の登録文字列として含み、
前記補正部は、前記文字認識部が認識した前記第1文字列である認識品目名が前記マスターデータに含まれておらず、前記文字認識部が認識した前記第2文字列である認識商品単価が前記マスターデータに含まれている場合に、前記マスターデータにおいて前記認識商品単価に関連付けられている複数の品目名のうち、前記認識品目名に最も類似する品目名に前記認識品目名を補正する、
請求項1から5のいずれか一項に記載のデータ処理装置。 - 前記補正部は、前記第1文字列を前記類似文字列に補正する前に、前記第1文字列又は前記類似文字列の少なくともいずれかをキーワードとしてインターネット上での検索を実行し、前記類似文字列が前記第1文字列よりも正しい蓋然性が高いと判定した場合に、前記第1文字列を前記類似文字列に補正する、
請求項1から6のいずれか一項に記載のデータ処理装置。 - 前記出力部は、前記複数の認識文字列のうち、補正が必要であると前記補正部が判定した文字列と、補正が不要であると前記補正部が判定した文字列とを識別できる態様で出力する、
請求項1から7のいずれか一項に記載のデータ処理装置。 - 前記第1文字列との類似度が閾値以上の文字列が前記マスターデータに含まれていない場合、前記出力部は、前記第1文字列を前記マスターデータに登録する対象の文字列として出力する、
請求項1から8のいずれか一項に記載のデータ処理装置。 - 前記出力部は、前記複数の認識文字列のうち、前記マスターデータに含まれていない認識文字列の割合が所定の値以上である場合に、前記マスターデータに含まれていない文字列が多いということを示す情報を出力する、
請求項1から9のいずれか一項に記載のデータ処理装置。 - コンピュータが実行する、
証憑画像データを取得するステップと、
前記証憑画像データに含まれる文字列を認識することにより複数の認識文字列を出力するステップと、
前記複数の認識文字列のうち第1文字列が、複数の登録文字列が関連付けられたマスターデータに含まれておらず、前記複数の認識文字列のうち前記第1文字列と異なる第2文字列が前記マスターデータに含まれている場合に、前記マスターデータにおいて前記第2文字列に関連付けられている一以上の前記登録文字列のうち前記第1文字列に最も類似する類似文字列に前記第1文字列を補正するステップと、
前記第1文字列が補正された後の補正第1文字列と前記第2文字列とを関連付けて出力するステップと、
を有し、
前記補正するステップにおいて、前記第1文字列を前記類似文字列に補正する前に前記類似文字列に関連付けられた会社名又は電話番号をキーワードとしてインターネット上での検索を実行し、検索により表示される文字列に前記第1文字列が一致している場合に、前記第1文字列を補正することなく、前記マスターデータにおける前記類似文字列を前記第1文字列に補正するデータ処理方法。 - コンピュータに、
証憑画像データを取得するステップと、
前記証憑画像データに含まれる文字列を認識することにより複数の認識文字列を出力するステップと、
前記複数の認識文字列のうち第1文字列が、複数の登録文字列が関連付けられたマスターデータに含まれておらず、前記複数の認識文字列のうち前記第1文字列と異なる第2文字列が前記マスターデータに含まれている場合に、前記マスターデータにおいて前記第2文字列に関連付けられている一以上の前記登録文字列のうち前記第1文字列に最も類似する類似文字列に前記第1文字列を補正するステップと、
前記第1文字列が補正された後の補正第1文字列と前記第2文字列とを関連付けて出力するステップと、
を実行させ、
前記補正するステップにおいて、前記第1文字列を前記類似文字列に補正する前に前記類似文字列に関連付けられた会社名又は電話番号をキーワードとしてインターネット上での検索を実行し、検索により表示される文字列に前記第1文字列が一致している場合に、前記第1文字列を補正することなく、前記マスターデータにおける前記類似文字列を前記第1文字列に補正するためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021068170A JP2022075467A (ja) | 2020-11-04 | 2021-04-14 | データ処理装置、データ処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/041162 WO2022097189A1 (ja) | 2020-11-04 | 2020-11-04 | データ処理装置、データ処理方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021068170A Division JP2022075467A (ja) | 2020-11-04 | 2021-04-14 | データ処理装置、データ処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6870159B1 true JP6870159B1 (ja) | 2021-05-12 |
JPWO2022097189A1 JPWO2022097189A1 (ja) | 2022-05-12 |
Family
ID=75801856
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020561940A Active JP6870159B1 (ja) | 2020-11-04 | 2020-11-04 | データ処理装置、データ処理方法及びプログラム |
JP2021068170A Pending JP2022075467A (ja) | 2020-11-04 | 2021-04-14 | データ処理装置、データ処理方法及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021068170A Pending JP2022075467A (ja) | 2020-11-04 | 2021-04-14 | データ処理装置、データ処理方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP6870159B1 (ja) |
WO (1) | WO2022097189A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7339708B1 (ja) | 2022-09-29 | 2023-09-06 | 株式会社トランザック | プログラム、事業者情報確認方法及び事業者情報確認システム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004133565A (ja) * | 2002-10-09 | 2004-04-30 | Fujitsu Ltd | インターネットを利用した文字認識の後処理装置 |
JP2012517637A (ja) * | 2009-02-10 | 2012-08-02 | コファックス, インコーポレイテッド | 文書の有効性を決定するためのシステム、方法およびコンピュータプログラム製品 |
JP2014078203A (ja) * | 2012-10-12 | 2014-05-01 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2014137791A (ja) * | 2013-01-18 | 2014-07-28 | Fujitsu Ltd | 表示プログラム、表示装置及び表示方法 |
JP2016159245A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社東芝 | 配達物処理装置、および配達物処理プログラム |
-
2020
- 2020-11-04 WO PCT/JP2020/041162 patent/WO2022097189A1/ja active Application Filing
- 2020-11-04 JP JP2020561940A patent/JP6870159B1/ja active Active
-
2021
- 2021-04-14 JP JP2021068170A patent/JP2022075467A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004133565A (ja) * | 2002-10-09 | 2004-04-30 | Fujitsu Ltd | インターネットを利用した文字認識の後処理装置 |
JP2012517637A (ja) * | 2009-02-10 | 2012-08-02 | コファックス, インコーポレイテッド | 文書の有効性を決定するためのシステム、方法およびコンピュータプログラム製品 |
JP2014078203A (ja) * | 2012-10-12 | 2014-05-01 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2014137791A (ja) * | 2013-01-18 | 2014-07-28 | Fujitsu Ltd | 表示プログラム、表示装置及び表示方法 |
JP2016159245A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社東芝 | 配達物処理装置、および配達物処理プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7339708B1 (ja) | 2022-09-29 | 2023-09-06 | 株式会社トランザック | プログラム、事業者情報確認方法及び事業者情報確認システム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022097189A1 (ja) | 2022-05-12 |
WO2022097189A1 (ja) | 2022-05-12 |
JP2022075467A (ja) | 2022-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8526739B2 (en) | Systems, methods and computer program products for determining document validity | |
US10366123B1 (en) | Template-free extraction of data from documents | |
JP6938228B2 (ja) | 計算機、文書識別方法、及びシステム | |
US20140169665A1 (en) | Automated Processing of Documents | |
JP2014182477A (ja) | プログラム及び帳票処理装置 | |
JP2017174309A (ja) | 携帯型情報装置、サーバ装置、データ入力支援システム、およびプログラム | |
JP6870159B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
US20220044012A1 (en) | Information processing apparatus, information processing method, and computer program product | |
KR102282025B1 (ko) | 컴퓨터를 이용한 문서 분류 및 문자 추출 방법 | |
JP2016192223A (ja) | 会計情報読取りシステム及びプログラム | |
JP7021496B2 (ja) | 情報処理装置及びプログラム | |
US20100023517A1 (en) | Method and system for extracting data-points from a data file | |
JP7317612B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2022029874A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP2022137634A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7122896B2 (ja) | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム | |
JP6946222B2 (ja) | 給与情報処理装置、給与情報処理方法、およびプログラム | |
US20200304670A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
TWM584476U (zh) | 轉帳伺服系統 | |
JP2021064122A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2021064123A (ja) | データ入力支援システム、データ入力支援方法、及びプログラム | |
US20230140357A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
US11875109B1 (en) | Machine learning (ML)-based system and method for facilitating correction of data in documents | |
US11763582B2 (en) | Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium | |
JP6946596B1 (ja) | データ処理装置、データ処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201104 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201104 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210414 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6870159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |