JP2021149531A - 情報処理装置、修正候補表示方法、及びプログラム - Google Patents
情報処理装置、修正候補表示方法、及びプログラム Download PDFInfo
- Publication number
- JP2021149531A JP2021149531A JP2020048975A JP2020048975A JP2021149531A JP 2021149531 A JP2021149531 A JP 2021149531A JP 2020048975 A JP2020048975 A JP 2020048975A JP 2020048975 A JP2020048975 A JP 2020048975A JP 2021149531 A JP2021149531 A JP 2021149531A
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition result
- character string
- candidates
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 57
- 230000010365 information processing Effects 0.000 claims description 57
- 238000000605 extraction Methods 0.000 claims description 28
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 48
- 230000008569 process Effects 0.000 description 36
- 238000012015 optical character recognition Methods 0.000 description 16
- 238000012790 confirmation Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000001174 ascending effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
図1は、本実施形態に係るシステムの構成の概略を示す図である。本実施形態に係るシステムは、情報処理装置1、文書読取装置8及び文字認識装置9を備える。
従来、ユーザの過去の入力内容の履歴から、OCRによる認識結果と類似度の高いものを修正候補としてリスト表示し、その中からユーザに選択させることで、エントリー業務に係る手間を軽減する方法も考えられるが、この方法では、OCRによる認識結果と修正候補となる文字列との類似度を、単なる文字列比較により算出しているに過ぎないため、適切な表示順(認識対象である正しい文字列に類似した表示順)で修正候補がリスト表示されず、認識結果である文字列の修正に手間が生じる場合があるという問題があった。以下、具体例により、この従来の一般的な類似度(編集距離)の算出方法を説明する。
本実施形態では、類似度算出部25は、上述のように、最終的な文字認識結果と修正候補との単なる文字列比較を行うのではなく、認識対象である文字列中の各文字についての文字候補と修正候補とを比較することで、編集距離を算出する。つまり、類似度算出部25は、OCR認識時の各文字についての文字候補も加味した編集距離を算出する。
次に、本実施形態に係る情報処理装置によって実行される処理の流れを、フローチャートを用いて説明する。なお、以下に説明するフローチャートに示された処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
次に、本開示に係る情報処理装置、修正候補表示方法及びプログラムのバリエーションを説明する。上記説明した実施形態では、文字認識装置9において、帳票イメージに対して文字認識処理を行っていた。これに対して、本バリエーションでは、情報処理装置1において、帳票イメージに対する文字認識処理が行われる。
本バリエーションでは、複合機等の文書読取装置8において、帳票イメージに対する文字認識処理が行われる。また、本バリエーションでは、文字認識処理が文書読取装置8において行われるため、第一のバリエーションと同様に、文字認識を行うための文字認識装置9は備えなくても良い。また、同様に、情報処理装置1において、文字認識ソフトウェアを備える必要もない。なお、本バリエーションに係る情報処理装置1の機能構成については、上述した実施形態に係る機能構成(図2)と同様であるため、説明を省略する。本バリエーションにおいて、認識データ受信部21Aは、文書読取装置8から、帳票データ及び文字候補に係るデータを受信(取得)し、文書イメージ取得部22は、文書読取装置8から、帳票イメージを取得する。
21 認識結果取得部
21A 認識データ受信部
21B 認識結果抽出部
22 文書イメージ取得部
23 修正候補記憶部
24 修正候補抽出部
25 類似度算出部
25A 重み付け値決定部
26 表示制御部
27 表示部
28 入力受付部
29 置換部
8 文書読取装置
9 文字認識装置
Claims (16)
- 文書に記載された1以上の文字から構成される文字列についての認識結果を取得する認識結果取得手段と、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、
前記文字列認識結果に対する各修正候補について、該文字列認識結果との類似度を算出する類似度算出手段と、
該類似度に基づき前記修正候補の表示順を決定する表示制御手段と、
前記修正候補を前記表示順に従い表示する表示手段と、を備え、
前記認識結果取得手段は、前記文書に記載された各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記類似度を算出する、
情報処理装置。 - 前記類似度算出手段は、前記比較を行い、認識対象である前記文字列中の文字についての文字候補のいずれかと、該文字に対応する前記修正候補中の文字とが一致するか否かを判定する、
請求項1に記載の情報処理装置。 - 前記類似度算出手段は、前記判定の結果、前記修正候補中の文字が前記文字候補のいずれかと一致する場合、該修正候補の前記文字列認識結果との類似度が高くなるよう、該類似度を算出する、
請求項2に記載の情報処理装置。 - 前記類似度算出手段は、前記判定の結果、一致した文字候補の、認識対象である前記文字列中の文字に対する認識の確からしさに応じて重み付け値を決定し、該重み付け値を用いて前記類似度を算出する、
請求項3に記載の情報処理装置。 - 前記文字候補の認識の確からしさは、該文字候補の優先順位であり、
前記重み付け値は、該優先順位に基づき決定される、
請求項4に記載の情報処理装置。 - 前記文字候補の認識の確からしさは、該文字候補の信頼度であり、
前記重み付け値は、該信頼度に基づき決定される、
請求項4に記載の情報処理装置。 - 前記類似度算出手段は、前記類似度として、前記修正候補と前記文字列認識結果との編集距離を算出し、決定された前記重み付け値を、前記編集距離を算出する際の文字の置換に係る編集距離に付与する、
請求項4から6の何れか一項に記載の情報処理装置。 - 前記編集距離は、前記修正候補の文字列を構成する文字数又は前記文字列認識結果の文字列を構成する文字数により正規化される、
請求項7に記載の情報処理装置。 - 前記表示制御手段は、算出された前記類似度が高い順に前記修正候補が表示されるよう、前記表示順を決定する、
請求項1から8の何れか一項に記載の情報処理装置。 - 前記修正候補は、ユーザの入力履歴および/または予め設定された辞書に含まれる文字列である、
請求項1から9の何れか一項に記載の情報処理装置。 - ユーザによる入力を受け付ける入力受付手段を更に備え、
該入力受付手段が、前記文字列認識結果の選択に係る入力を受け付けると、前記表示手段は、前記修正候補を前記表示順に従い表示する、
請求項1から10の何れか一項に記載の情報処理装置。 - 前記認識結果取得手段は、
前記文書を読み取ることで得られた文書画像を文字認識した結果である文書データを取得する文書データ取得手段と、
該文書データ内の入力領域を指定することで、該入力領域に含まれる、認識対象である前記文字列についての認識結果を取得する認識結果抽出手段と、
を備える、
請求項1から11の何れか一項に記載の情報処理装置。 - 前記認識結果抽出手段は、前記文字列認識結果に係る認識対象が属する項目に基づき、前記入力領域を指定することで、該項目に該当する文字列認識結果を取得する、
請求項12に記載の情報処理装置。 - 前記文字列認識結果に係る認識対象が属する項目に基づき、前記修正候補記憶手段から、該文字列認識結果に対する修正候補を抽出する修正候補抽出手段を更に備える、
請求項1から13の何れか一項に記載の情報処理装置。 - コンピューターが、
文書に記載された1以上の文字から構成される文字列についての認識結果を取得する認識結果取得ステップと、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶ステップと、
前記文字列認識結果に対する各修正候補について、該文字列認識結果との類似度を算出する類似度算出ステップと、
該類似度に基づき前記修正候補の表示順を決定する表示制御ステップと、
前記修正候補を前記表示順に従い表示する表示ステップと、を実行し、
前記認識結果取得ステップは、前記文書に記載された各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出ステップは、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記類似度を算出する、
修正候補表示方法。 - コンピューターを、
文書に記載された1以上の文字から構成される文字列についての認識結果を取得する認識結果取得手段と、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、
前記文字列認識結果に対する各修正候補について、該文字列認識結果との類似度を算出する類似度算出手段と、
該類似度に基づき前記修正候補の表示順を決定する表示制御手段と、
前記修正候補を前記表示順に従い表示する表示手段と、として機能させるためのプログラムであって、
前記認識結果取得手段は、前記文書に記載された各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記類似度を算出する、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020048975A JP7421384B2 (ja) | 2020-03-19 | 2020-03-19 | 情報処理装置、修正候補表示方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020048975A JP7421384B2 (ja) | 2020-03-19 | 2020-03-19 | 情報処理装置、修正候補表示方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021149531A true JP2021149531A (ja) | 2021-09-27 |
JP7421384B2 JP7421384B2 (ja) | 2024-01-24 |
Family
ID=77848999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020048975A Active JP7421384B2 (ja) | 2020-03-19 | 2020-03-19 | 情報処理装置、修正候補表示方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7421384B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58163072A (ja) * | 1982-03-20 | 1983-09-27 | Comput Basic Mach Technol Res Assoc | 文字修正方式 |
JPH04138583A (ja) * | 1990-09-28 | 1992-05-13 | Sanyo Electric Co Ltd | 文字認識装置 |
JPH06290308A (ja) * | 1993-04-02 | 1994-10-18 | Oki Electric Ind Co Ltd | 文字認識装置 |
JP2007042097A (ja) * | 2005-07-29 | 2007-02-15 | Fujitsu Ltd | キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法 |
JP2015090625A (ja) * | 2013-11-06 | 2015-05-11 | 株式会社東芝 | 帳票読取装置、プログラムおよび帳票読取システム |
JP2017033434A (ja) * | 2015-08-05 | 2017-02-09 | 大日本印刷株式会社 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
-
2020
- 2020-03-19 JP JP2020048975A patent/JP7421384B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58163072A (ja) * | 1982-03-20 | 1983-09-27 | Comput Basic Mach Technol Res Assoc | 文字修正方式 |
JPH04138583A (ja) * | 1990-09-28 | 1992-05-13 | Sanyo Electric Co Ltd | 文字認識装置 |
JPH06290308A (ja) * | 1993-04-02 | 1994-10-18 | Oki Electric Ind Co Ltd | 文字認識装置 |
JP2007042097A (ja) * | 2005-07-29 | 2007-02-15 | Fujitsu Ltd | キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法 |
JP2015090625A (ja) * | 2013-11-06 | 2015-05-11 | 株式会社東芝 | 帳票読取装置、プログラムおよび帳票読取システム |
JP2017033434A (ja) * | 2015-08-05 | 2017-02-09 | 大日本印刷株式会社 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7421384B2 (ja) | 2024-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
US7668372B2 (en) | Method and system for collecting data from a plurality of machine readable documents | |
JP4787275B2 (ja) | セグメント化ベースの認識 | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP7149721B2 (ja) | 情報処理装置、文字認識エンジン最適化方法及びプログラム | |
JP4782346B2 (ja) | 電子ドキュメントを処理する方法および装置 | |
JP2014182477A (ja) | プログラム及び帳票処理装置 | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
JPH08161436A (ja) | 領収書読取装置 | |
WO2014068770A1 (ja) | データ抽出方法、データ抽出装置及びそのプログラム | |
JP7021496B2 (ja) | 情報処理装置及びプログラム | |
JP2020095374A (ja) | 文字認識システム、文字認識装置、プログラム及び文字認識方法 | |
JP2021149531A (ja) | 情報処理装置、修正候補表示方法、及びプログラム | |
JP6624120B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 | |
US11335108B2 (en) | System and method to recognise characters from an image | |
US7133556B1 (en) | Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition | |
Esser et al. | Few-exemplar information extraction for business documents | |
JP5712415B2 (ja) | 帳票処理システム及び帳票処理方法 | |
JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
JP2015170129A (ja) | 認識装置、認識方法およびプログラム | |
WO2023062799A1 (ja) | 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム | |
JP4261831B2 (ja) | 文字認識処理方法、文字認識処理装置、文字認識プログラム | |
US11315351B2 (en) | Information processing device, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200820 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7421384 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |