JP2021064123A - Data input support system, data input support method, and program - Google Patents
Data input support system, data input support method, and program Download PDFInfo
- Publication number
- JP2021064123A JP2021064123A JP2019187927A JP2019187927A JP2021064123A JP 2021064123 A JP2021064123 A JP 2021064123A JP 2019187927 A JP2019187927 A JP 2019187927A JP 2019187927 A JP2019187927 A JP 2019187927A JP 2021064123 A JP2021064123 A JP 2021064123A
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- reliability
- data input
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文字認識処理により抽出された文字列についてチェック作業を行うインタフェースを提供するデータ入力支援システム、データ入力支援方法、及びプログラムに関するものである。 The present invention relates to a data input support system, a data input support method, and a program that provide an interface for checking a character string extracted by a character recognition process.
従来から、複写機やスキャナにおいて帳票などの文書を読み取り、画像データに変換し、文書の内容をOCR(Optical Character Recognition)処理する方法が知られている。
OCR処理においては、文字認識処理の精度を向上するために、様々な手法が組み合わせて用いられる。例えば、文字認識結果の前処理として、細かいノイズドットを除去する画像処理が用いられることがある。あるいは、OCR処理によって予測された候補文字に対して、あらかじめ定義しておいた単語リストと照合して、最も近い文字列を見つける「単語マッチング」という手法が用いられることもある。
Conventionally, a method of reading a document such as a form with a copier or a scanner, converting it into image data, and performing OCR (Optical Character Recognition) processing on the content of the document has been known.
In the OCR process, various methods are used in combination in order to improve the accuracy of the character recognition process. For example, as preprocessing of the character recognition result, image processing for removing fine noise dots may be used. Alternatively, a method called "word matching" may be used in which the candidate characters predicted by the OCR process are collated with a predefined word list to find the closest character string.
また、特許文献1では、OCR処理の精度を上げる方法として、「突合(とつごう)」という手法が用いられている。突合とは、例えば、住所を表す一定の長さの文字列をOCR処理する場合、住所などのデータベースを利用して、文字列全体でのマッチングの程度や整合性を考慮することにより、OCR結果における信頼度の低い文字や、誤認識した文字の補正を行う手法である。
Further, in
前述した突合によれば、住所などの単語以外にも、例えば、帳票に登場しうる顧客名を単語リストに登録しておくことによって、OCR処理の精度が多少低くても、補正処理を行い、正解を見つけ出すことが可能になる。
しかし、例えば、住所の丁目や番地、電話番号などについては、あらかじめ単語リストに登録しておくことにより突合を行うことは困難である。それは、番地や電話番号などは、リストに登録しておいた単語との整合性を考慮して正解を見つけ出すことができるような性質の情報ではないからである。
そのような、突合による補正が困難な文字列については、文書を読み取ったスキャン画像と見比べて、OCR結果が正しく取得されているかをユーザがチェックする必要がある。そして、OCR結果が間違っている場合、ユーザの操作によりOCR結果を修正することが必要となる。
According to the above-mentioned matching, in addition to words such as addresses, for example, by registering customer names that can appear in the form in the word list, correction processing is performed even if the accuracy of OCR processing is slightly low. It becomes possible to find the correct answer.
However, for example, it is difficult to match addresses, street addresses, telephone numbers, etc. by registering them in a word list in advance. This is because the address, telephone number, etc. are not information of a nature that allows the correct answer to be found in consideration of the consistency with the words registered in the list.
For such a character string that is difficult to correct by matching, it is necessary for the user to check whether the OCR result is correctly acquired by comparing with the scanned image obtained by reading the document. Then, when the OCR result is incorrect, it is necessary to correct the OCR result by the user's operation.
しかし、単語マッチングや突合などでも補正されない文字の修正作業は、ユーザにとっても負担が重く、また、修正ミスも発生しやすい。そのため、ユーザにとって修正作業を行いやすい環境を提供することが望まれる。
そこで、本発明は、文字認識処理において、単語マッチングや突合などによっても補正が困難な文字列をユーザが修正する際に、作業負担が軽減されるように、簡便な手法を提供することを目的とする。
However, the correction work of characters that are not corrected even by word matching or matching is burdensome for the user, and correction mistakes are likely to occur. Therefore, it is desired to provide an environment in which the user can easily perform the correction work.
Therefore, an object of the present invention is to provide a simple method for reducing the work load when the user corrects a character string that is difficult to correct due to word matching or matching in the character recognition process. And.
本発明は、画像中の文字領域に対して文字認識処理を実行して文字列を抽出し、前記文字列を構成する文字毎に、候補文字と、前記候補文字毎の信頼度を取得する文字認識手段と、前記文字列を構成する文字毎に前記信頼度が第1位の候補文字を提示するとともに、前記第1位の候補文字の前記信頼度に基づいて、前記第1位の候補文字のうち、一部の候補文字をその他の候補文字と区別して提示するユーザインタフェースを提供する提供手段と、を有することを特徴とするデータ入力支援システムである。 The present invention executes character recognition processing on a character area in an image to extract a character string, and obtains a candidate character and a reliability of each candidate character for each character constituting the character string. The recognition means and the candidate character having the highest reliability for each character constituting the character string are presented, and the first candidate character is based on the reliability of the first candidate character. Among them, the data input support system is characterized by having a providing means for providing a user interface for presenting a part of the candidate characters in a distinctive manner from the other candidate characters.
本発明によれば、文字認識処理の結果を、ユーザが簡便に確認し、修正することができるため、ユーザの作業負担を軽減させることができる。 According to the present invention, the result of the character recognition process can be easily confirmed and corrected by the user, so that the workload of the user can be reduced.
以下に、図面を参照して、本発明を実施するための実施例について説明する。ただし、以下に説明する実施例はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施例で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。 Hereinafter, examples for carrying out the present invention will be described with reference to the drawings. However, the examples described below are merely examples, and are not intended to limit the scope of the present invention to them. Moreover, not all combinations of features described in the following examples are essential for the means of solving the present invention.
<実施例1>
図1は、本実施例に係るデータ入力支援システム10の全体構成を示す図である。
図1に示すように、データ入力支援システム10は、画像処理装置100、PC/サーバー端末101、モバイル端末103などの装置を備えている。
画像処理装置100及びPC/サーバー端末101は、イーサネット(登録商標)や無線LANなどからなるLAN104を介して、インターネット105に接続されている。また、モバイル端末103は、公衆無線通信網102などを介して、インターネット105に接続されている。画像処理装置100、PC/サーバー端末101、及び、モバイル端末103は、LAN104又は公衆無線通信網102を介して、インターネット105に接続され、相互に通信可能となっている。
なお、PC/サーバー端末101とモバイル端末103に関しては、いずれか一方のみを備える構成でもよい。また、PC/サーバー端末101やモバイル端末103において実行させる処理を、画像処理装置100において実行するように構成してもよい。
<Example 1>
FIG. 1 is a diagram showing an overall configuration of the data
As shown in FIG. 1, the data
The
The PC /
画像処理装置100は、操作部、スキャナ部、プリンタ部などを有する複合機(Multi Function Peripheral:MFP)である。本実施例に係るシステムでは、画像処理装置100は、1枚以上のレシート、名刺、免許証、ハガキなどの原稿を読み取るスキャン端末として利用される。特に、本実施例においては、画像処理装置100は、複数枚のレシートを読み取るスキャン端末として利用される。
また、画像処理装置100は、原稿を読み取ることにより生成した画像から、原稿毎の画像を抽出するマルチクロップ処理を実施する。さらに、画像処理装置100は、表示部や、タッチパネルやハードボタンなどの操作部を有し、エラー通知や指示通知などの表示や、スキャン操作や設定操作などの操作を行う。
The
Further, the
PC/サーバー端末101は、画像処理装置100が生成した画像を表示する。また、PC/サーバー端末101は、画像処理装置100が生成した画像の保存や、OCR処理などを実施し、再利用可能なコンテンツデータを生成する。
なお、画像処理装置100が実行するマルチクロップ処理をPC/サーバー端末101で実行すると、処理速度上の利点を発揮できる。更に、画像処理装置100及びPC/サーバー端末101は、クラウドやサーバーなどの外部ストレージとの通信も可能で、保存した画像データやメタデータを外部ストレージへ送信することができる。なお、本実施例では、画像処理装置100において画像データの保存や、言語推定後のメタデータ生成を行った後、PC/サーバー端末101へ送信を行うが、同じ機能をPC/サーバー端末101が備えていてもよい。
The PC /
If the multi-crop process executed by the
モバイル端末103は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末などである。本実施例に係るシステムにおいて、モバイル端末103は、PC/サーバー端末101と同様に、表示端末、操作端末、コンテンツデータの生成や保存を行う端末などとして利用される。
なお、表示、操作、メタデータやコンテンツデータの生成や保存の機能などは、PC/サーバー端末101とモバイル端末103のいずれか一方のみが備える構成であってもよい。
以上の構成要素はあくまで例示であり、すべての構成要素が本発明を実施するために必須というものではない。
The
It should be noted that the functions of display, operation, generation and storage of metadata and content data, and the like may be provided in only one of the PC /
The above components are merely examples, and not all components are essential for carrying out the present invention.
図2は、画像処理装置100のハードウェア構成を示すブロック図である。
画像処理装置100は、制御部110、スキャナ120、表示・操作部121を備えている。
制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115などのハードウェアを備えている。また、これらのハードウェアは、システムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
FIG. 2 is a block diagram showing a hardware configuration of the
The
The control unit 110 includes hardware such as a
CPU111は、記憶装置112に記憶された制御プログラムを読み出して、読取制御や送信制御などの各種制御を行う。
記憶装置112は、制御プログラム、画像データ、メタデータ、設定データ、処理結果データなどを格納し保存する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118、大容量記憶領域であるHDD119などから構成される。
ROM117は、CPU111により実行される制御プログラムなどを保持する。
RAM118は、CPU111の主メモリ、ワークエリアなどの一時記憶領域として用いられる。
HDD119は、大容量記憶装置であるハードディスクであり、画像データ、メタデータなどを保存する記憶領域として用いられる。
The
The
The
The
The
ネットワークI/F部113は、制御部110(画像処理装置100)をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバー端末101やモバイル端末103などのLAN104上の外部装置に画像を送信したり、LAN104上の外部装置から各種情報を受信したりする。
スキャナI/F部114は、スキャナ部120と制御部110とを接続するインタフェースである。スキャナ部120は、原稿上の画像を読み取って画像データを生成し、スキャナI/F部114を介して制御部110に入力する。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部やテンキー、スタートボタン、キャンセルボタンなどのハードキーが備えられている。スタートボタンは、コピーやスキャンなどの処理を開始させるためのボタンである。キャンセルボタンは、画像処理装置100が実行中の処理を一時停止または中止させるためのボタンである。
The network I /
The scanner I /
The display / operation unit I /
その他、画像処理装置100にはプリンタ部なども備えることもできるが、本実施例にとって必須のハードウェアではないため、説明は省略する。
以上のように、本実施例に係る画像処理装置100は、上記のハードウェア構成によって、画像処理機能を提供することが可能である。
In addition, the
As described above, the
次に、図3を用いて、突合によるOCR結果の補正の問題点について説明する。
ここでは、一例として、「東京都千代田区飯田橋3−8−8」という文字列301に対してOCR処理を行う例について説明する。
Next, the problem of correction of the OCR result by collation will be described with reference to FIG.
Here, as an example, an example in which OCR processing is performed on the
「東京都千代田区飯田橋3−8−8」という文字列301において、「東京都千代田区飯田橋」という部分文字列302は、突合により住所データベースと照合することによって、OCR結果を補正することが可能である。例えば、OCR結果が「束京都」になっていたとしても、住所の全体(「千代田区飯田橋」という後続の部分)から補正可能である。また、「束京都干代日凶飯田矯」のような誤認識がされたとしても、OCR結果では一般的に複数の候補文字が提示されるため、各候補文字と住所データベースを照合することによって補正可能である。
しかし、「3−8−8」という部分文字列303のような、住所の丁目や番地の部分に関しては、突合によって完全な認識を行うことは現在のOCRの技術では難しい。これは、「東京都千代田区飯田橋」の範囲で住所データベースを備えていたとしても、候補となる丁目や番地は多数存在するためである。
In the
However, it is difficult with the current OCR technology to completely recognize the part of the street address or the street address such as the
図4は、画像処理装置100において行われる、OCR結果の修正作業を含むデータ入力処理の全体を示すフローチャートである。なお、本フローチャートにおける処理は、CPU111が、ROM117、HDD119などに記憶された制御プログラムを実行することにより実現される。
また、一般的に、OCR処理を実行する前には、画像データに対する前処理が適宜行われる。前処理には、例えば、データファイルの読み込み、展開、必要に応じて二値化処理などがある。
FIG. 4 is a flowchart showing the entire data input process including the correction work of the OCR result performed in the
Further, in general, before executing the OCR processing, preprocessing for the image data is appropriately performed. The pre-processing includes, for example, reading and decompressing a data file, and binarization processing if necessary.
さらに、読み取り対象の文書が帳票である場合は、OCR処理の対象となる帳票の発行元や金額などの文字列の領域を特定するために、帳票の構造を認識するレイアウト分析手法などを用いて、帳票の中にある各文字列の座標が検出される。そして、検出された座標内の各文字列に対して、それぞれ、OCR処理が行われる。ただし、これらの前処理については、公知の技術を採用することができるため、ここでは詳細な説明は省略する。 Furthermore, when the document to be read is a form, a layout analysis method that recognizes the structure of the form is used to identify the area of the character string such as the issuer and amount of the form to be OCR processed. , The coordinates of each character string in the form are detected. Then, OCR processing is performed on each character string in the detected coordinates. However, since known techniques can be adopted for these pretreatments, detailed description thereof will be omitted here.
図4のフローチャートで、まず、S401において、CPU111は、画像中の1つの文字領域に対して、文字認識処理であるOCR処理を実行する。これにより、OCR結果として、例えば、図5に示されるような情報が取得される。すなわち、OCR結果として、文字領域から文字列が抽出され、文字列を構成する文字毎に、複数の候補文字502と、候補文字毎の信頼度(%)503とが取得される。ここでは、信頼度503の値(%)が大きいほど、OCR結果の信頼度が高い、すなわち、候補文字502の正解である確率が高いと判断される。なお、信頼度は、スキャン画像を登録されている各文字と比較することなどによって算出されるが、信頼度を取得する手法は公知のものであるため、ここでは詳細な説明は省略する。
In the flowchart of FIG. 4, first, in S401, the
次に、S402において、CPU111は、S401で取得したOCR結果の文字列を突合によって補正する。この際、突合による補正が可能な部分の文字列が特定される。例えば、OCR結果として図3(a)に示したような「東京都千代田区飯田橋3−8−8」という文字列301が取得された場合、図3(b)のハッチングされた「東京都千代田区飯田橋」という部分文字列302が、突合によって補正可能な文字列である。
Next, in S402, the
次に、S403において、CPU111は、S402で突合による補正が不可能である文字列(突合不可能文字列)を特定する。図3の例であれば、図3(c)のハッチングされた「3−8−8」という部分文字列303が、突合不可能文字列である。
Next, in S403, the
次に、S410において、CPU111は、S403で特定された突合不可能文字列について、OCR結果の修正を行うための修正用のユーザインタフェース(UI)を生成するUI生成処理を行う。そして、生成した修正用のユーザインタフェースを表示・操作部121に表示する。UI生成処理の詳細については、図6を用いて後述する。
Next, in S410, the
そして、S412において、CPU111は、修正用のユーザインタフェースにおけるユーザの入力操作を検知する。
ユーザの入力操作を検知すると、S413において、CPU111は、ユーザによりOCR結果が正しいと確認されたか否かを判断する。
S413の判断がYesである場合、処理を終了する。
Then, in S412, the
When the user's input operation is detected, in S413, the
If the determination in S413 is Yes, the process ends.
S413の判断がNoである場合、S414において、CPU111は、ユーザの入力操作により、OCR結果である文字列が変更されたか否かを判断する。
S414の判断がNoである場合、S412に戻り、CPU111は、ユーザの入力操作を待機する。
If the determination in S413 is No, in S414, the
If the determination in S414 is No, the process returns to S412, and the
S414の判断がYesである場合、S420において、CPU111は、修正用のユーザインタフェースを再生成するために、OCR結果の文字列のうち、ユーザにより修正された文字の信頼度を高くする。
そして、S410に戻り、CPU111は、再生成した修正用のユーザインタフェースを表示・操作部121に表示する。
When the determination in S414 is Yes, in S420, the
Then, returning to S410, the
図6は、図4のフローチャートのS410において行われる、OCR結果の修正を行うための修正用のユーザインタフェースを生成するUI生成処理の詳細を示すフローチャートである。
まず、S601において、CPU111は、図4のフローチャートのS401〜S403の結果に基づいて、OCR結果の文字列の中から、突合不可能文字列を抽出する。
FIG. 6 is a flowchart showing the details of the UI generation process for generating the correction user interface for correcting the OCR result, which is performed in S410 of the flowchart of FIG.
First, in S601, the
次に、S602において、CPU111は、S601で抽出した突合不可能文字列の中から、OCR結果の信頼度の低い文字を抽出する。ここでは、OCR結果による第1位の候補文字の信頼度が閾値L1(例えば、60%)以下である文字を、OCR結果の信頼度の低い文字として判定することとする。
Next, in S602, the
ここで、OCR結果の信頼度の低い文字を抽出する手法について、図5のOCR結果を例として用いて説明する。
図5のOCR結果において、第1位の候補文字の信頼度が60%の閾値以下である文字は、信頼度の低い順に、末尾の「3」(信頼度は50%)と、2文字目の「1」(信頼度は60%)である。
Here, a method for extracting characters with low reliability of the OCR result will be described using the OCR result of FIG. 5 as an example.
In the OCR result of FIG. 5, the characters whose reliability of the first candidate character is 60% or less of the threshold value are the last "3" (reliability is 50%) and the second character in ascending order of reliability. "1" (reliability is 60%).
次に、S603において、CPU111は、OCR結果の修正を行うための修正用のユーザインタフェースを生成する。ここでは、ユーザに対して信頼度が低い文字への注意を促すように、S602でOCR結果の信頼度が低いと判定された文字をハイライト表示させる。
図5の例では、2文字目の「1」と末尾の「3」がハイライト表示されることになる。
Next, in S603, the
In the example of FIG. 5, the second character "1" and the last "3" are highlighted.
続いて、S604において、CPU111は、修正用のユーザインタフェース上に、S602で求めた信頼度が最も低い文字に編集用のカーソルを合わせて表示する。
図5の例では、信頼度が最も低いと判定された文字は末尾の「3」(信頼度は50%)であるため、編集用のカーソルは末尾の「3」に合わせられることになる。
Subsequently, in S604, the
In the example of FIG. 5, since the character determined to have the lowest reliability is the trailing "3" (reliability is 50%), the editing cursor is aligned with the trailing "3".
本実施例では、ユーザによるOCR結果の修正作業を簡便にさせることが目的であるため、図7に示すように、表示パネル700の上部には、元画像として、スキャンされた画像の文字列701を表示させる。また、下部には、OCR結果として、文字列701をOCR処理した際の、信頼度が第1位の候補文字を並べた文字列702を表示させる。
信頼度が第1位の候補文字を並べた文字列702に対しては、表示パネル700の右側に配置されたテンキー703を用いてユーザが修正することが可能である。あるいは、表示パネル700内に表示されるソフトウェアキーボードを使って修正するように構成してもよいが、ここでは詳細な説明は省略する。また、表示パネル700の右側には、OCR結果を確定するためのOKボタン704も表示される。
Since the purpose of this embodiment is to simplify the work of correcting the OCR result by the user, as shown in FIG. 7, the
The
図5の例では、文字列702の中で、末尾の文字についての第1位の候補文字「S」の信頼度が最も低いため、表示パネル700には、編集用のカーソル710が末尾の「S」に合わせられた状態で表示される。
この状態では、末尾の文字「S」が編集可能となっている。この状態において、ユーザが、例えば、テンキー703の「3」のキーを押すと、文字列702の末尾の文字「S」が「3」に置換される。すなわち、誤認識されたOCR結果である「211−089S」が、元画像の文字列である「211−0893」に置換される。
このように、簡便かつ少ない手順により、ユーザがOCR結果を修正することができる。
In the example of FIG. 5, in the
In this state, the last character "S" can be edited. In this state, when the user presses, for example, the "3" key of the
In this way, the user can modify the OCR result with a simple and few steps.
図4のフローチャートに戻り、OCR結果による文字がユーザによって修正された場合、S420において、CPU111は、修正された文字について信頼度を高くする。
ここで、設定する信頼度は、ユーザは修正ミスをしないという前提に基づいて、「100%」としてもよい。あるいは、同じ文字列中の他の文字のうちの最高の信頼度(図5の例では、「0」と「9」の「90%」)としてもよいが、本実施例ではこれらの値に限定されるものではない。
Returning to the flowchart of FIG. 4, when the character based on the OCR result is corrected by the user, in S420, the
Here, the reliability to be set may be set to "100%" on the premise that the user does not make a correction error. Alternatively, it may be the highest reliability among other characters in the same character string (in the example of FIG. 5, "90%" of "0" and "9"), but in this embodiment, these values are set. It is not limited.
図8には、OCR結果の文字列702に対して、ユーザが末尾の文字「S」を「3」に修正したことにより、更新された状態のOCR結果の情報が示されている。すなわち、ここでは、OCR結果の文字列702が文字列801に置換されるとともに、修正された文字「3」の信頼度が「90%」に設定され、第1位の候補文字に変更されたことが示されている。
FIG. 8 shows information on the OCR result in an updated state when the user corrects the last character “S” to “3” with respect to the
S420の処理が行われると、再びS410の処理に戻り、修正用ユーザインタフェースが更新され、再び表示パネル700に表示される。この際、図8に示されるように、文字列702の中で、末尾の「3」の次に信頼性が低かった文字である、2文字目の「1」(信頼度は60%)にカーソルが合わせられる。そして、図7で示したテンキー703を押すことにより、2文字目の「1」が編集可能となる。
このように、信頼度が低いと判定した文字について、信頼度の低い文字から順に編集用のカーソルを移動させていくことにより、簡便かつ連続的に文字を確認・修正する処理が可能となる。
そして、文字列を構成するすべての文字が正しいことを確認した状態でOKボタン704が押されると(S413でY)、処理は終了する。
When the process of S420 is performed, the process returns to the process of S410 again, the correction user interface is updated, and the display is displayed on the
In this way, by moving the editing cursor in order from the character with the lowest reliability for the character determined to have the lower reliability, it is possible to easily and continuously check and correct the character.
Then, when the
以上のとおり、実施例1では、OCR結果として取得された文字列について、第1位の候補文字の信頼度が低い一部の文字を強調して区別し、さらに、信頼度が低い文字から、順次、カーソルを合わせていくような修正用のユーザインタフェースを提供する。
これにより、突合による修正が不可能な文字列についても、ユーザは、簡便かつ少ない手順により、OCR結果を修正することができる。
As described above, in the first embodiment, in the character string acquired as the OCR result, some characters having low reliability of the first-ranked candidate character are emphasized and distinguished, and further, the characters having low reliability are selected first. It provides a user interface for correction that sequentially moves the cursor.
As a result, the user can correct the OCR result with a simple and few steps even for a character string that cannot be corrected by matching.
<実施例2>
実施例1では、OCR結果の文字列を表示させるとともに、誤認識された文字をユーザに修正させるため、OCR結果の信頼度の低い文字の順に、編集用のカーソルを合わせていくようにした。
これに対して、実施例2では、OCR結果の信頼度が低い文字が多数ある場合には、誤認識された文字を1文字ずつユーザに修正させるのはかえって煩雑となることを考慮して、OCR結果として空白を表示する。そして、テンキーなどを用いて、文字列全体の入力をユーザに行わせることとする。
<Example 2>
In the first embodiment, in order to display the character string of the OCR result and to have the user correct the erroneously recognized character, the editing cursor is placed in the order of the characters with the lowest reliability of the OCR result.
On the other hand, in the second embodiment, when there are many characters with low reliability of the OCR result, it is rather complicated to have the user correct the erroneously recognized characters one by one. Display a blank as an OCR result. Then, the user is made to input the entire character string by using the numeric keypad or the like.
図9は、実施例1における図4のフローチャートのS410(図6のフローチャート)に置き換わる、実施例2でのUI生成処理の詳細を示すフローチャートである。
まず、S901において、CPU111は、OCR結果のうち、突合不可能文字列を抽出する。この処理は、実施例1のS601と同様である。
FIG. 9 is a flowchart showing the details of the UI generation process in the second embodiment, which replaces S410 (the flowchart of the sixth diagram) in the flowchart of the fourth embodiment in the first embodiment.
First, in S901, the
次に、S902において、CPU111は、S901で抽出した突合不可能文字列において信頼度が第1位の候補文字についての信頼度の平均値を算出して、その値を閾値Lmとする。
ここでは、例として、図10に示すように、実施例1と同様のOCR結果501(図5)を用いることとする。ただし、図10のOCR結果1001は、図5に示した文字列と同じ文字から構成されているものの、スキャン処理の品質が低いため文字色が薄く取得されたものとする。このため、図10に示すように、OCR結果である候補文字1002の信頼度1003が全体的に低いものとなっている。
Next, in S902, the
Here, as an example, as shown in FIG. 10, the same OCR result 501 (FIG. 5) as in Example 1 is used. However, it is assumed that the
すなわち、各文字における信頼度が第1位の候補文字の信頼度を平均すると、
(60+50+80+70+60+50+60+40)/8=58.75(%)
となる。
そして、CPU111は、S902で算出された平均値「58.75」を「閾値Lm」として保持する。
That is, when the reliability of the candidate characters having the highest reliability in each character is averaged,
(60 + 50 + 80 + 70 + 60 + 50 + 60 + 40) / 8 = 58.75 (%)
Will be.
Then, the
次に、S903において、CPU111は、S901で抽出した突合不可能文字列の中に、第1位の候補文字の信頼度がS902で算出した閾値Lm以下である文字の文字数を取得する。図10の例では、信頼度が閾値Lm58.75以下の文字数は、3文字である(2文字目の「1」(信頼度は50%)、6文字目の「8」(信頼度は50%)、8文字目の「3」(信頼度は40%))。
Next, in S903, the
次に、S904において、CPU111は、S903で取得された文字数が、所定の数以上であるか否かを判定する。ここでは、所定の数として、閾値Lc(「3」)とする。
Next, in S904, the
S904での判定がYesである場合、S905において、CPU111は、修正用のユーザインタフェースにOCR結果として表示される文字列を空文字列にする。
そして、S906において、CPU111は、空文字列の先頭の文字の位置に編集用のカーソルを合わせる。
If the determination in S904 is Yes, in S905, the
Then, in S906, the
図10の例では、信頼度が閾値Lm(「58.75」)以下の文字数は3文字であり、閾値Lc(「3」)以上である。その結果、表示パネル700には、図11に示されるように、修正用のユーザインタフェースにOCR結果として空文字列1102が表示される。そして、ユーザが元画像の文字列1101を見ながら文字列を入力しやすいように、入力用のカーソルが空文字列の先頭1103に合わせられる。
In the example of FIG. 10, the number of characters whose reliability is the threshold value Lm (“58.75”) or less is 3 characters, and is equal to or higher than the threshold value Lc (“3”). As a result, on the
なお、ここでは、閾値Lmとして、信頼度の平均値を、閾値Lcとして、所定の値(「3」)を、それぞれ、用いたが、これらは、平均値や所定値である必要はなく、システムやユースケースによって、適切に選択されるものである。ただし、その適切な選択方法についてはケースバイケースであり多岐に及ぶため、ここではこれ以上の説明は省略する。 Here, the average value of the reliability is used as the threshold value Lm, and a predetermined value (“3”) is used as the threshold value Lc, respectively, but these do not have to be the average value or the predetermined value. It is the one that is properly selected depending on the system and use case. However, since the appropriate selection method is wide-ranging on a case-by-case basis, further description is omitted here.
以上のとおり、実施例2では、OCR結果の文字列の中に信頼度が低い文字が多数ある場合は、修正用のユーザインタフェースにおいて、ユーザにテンキーなどを使って文字列を入力させるために、OCR結果として、空文字列を表示させる。
これにより、誤認識された文字を個々に修正させるよりも簡便な操作により、OCR結果を修正することができる。
As described above, in the second embodiment, when there are many characters with low reliability in the character string of the OCR result, in order to make the user input the character string by using the numeric keypad or the like in the user interface for correction, As an OCR result, an empty character string is displayed.
As a result, the OCR result can be corrected by a simpler operation than correcting the erroneously recognized characters individually.
<実施例3>
実施例1では、ユーザにチェック作業への注意を促すように、OCR結果の信頼度が第1位の候補文字についての信頼度が閾値L1(例えば、60%)以下の文字について、信頼度が低いと判定し、ハイライト表示するようにした。
しかし、第1位の候補文字の信頼度が高いと判定された文字であっても、その候補文字が実際にユーザにより修正された場合は、信頼度が高いと判定されたその他の文字についても誤認識が含まれている可能性が高いと考えられる。
そこで、実施例3では、第1位の候補文字の信頼度が閾値L1より低いと判定された文字以外の文字がユーザにより修正された場合は、閾値L1を上方に修正することにより、他の文字に対してもユーザに注意を促すようにする。
<Example 3>
In the first embodiment, the reliability of the candidate character having the highest reliability of the OCR result is equal to or less than the threshold value L1 (for example, 60%) so as to call the user's attention to the check operation. It was judged to be low and highlighted.
However, even if the character is judged to have high reliability of the first-ranked candidate character, if the candidate character is actually modified by the user, other characters judged to have high reliability are also included. It is highly probable that misrecognition is included.
Therefore, in the third embodiment, when the user corrects a character other than the character whose reliability of the first-ranked candidate character is determined to be lower than the threshold value L1, the threshold value L1 is corrected upward to obtain another character. Call the user's attention to the characters as well.
図12は、実施例1における図4のフローチャートに置き換わる、実施例3におけるOCR結果の修正作業を含むデータ入力処理の全体を示すフローチャートである。
図12のフローチャートは、基本的には図4のフローチャートと同じものであるが、図4のS420における処理がS1220に置き換えられる。なお、その他の処理については、図4のフローチャートにおける処理と同様であるため、詳細な説明は省略する。
FIG. 12 is a flowchart showing the entire data input process including the correction work of the OCR result in the third embodiment, which replaces the flowchart of the fourth embodiment in the first embodiment.
The flowchart of FIG. 12 is basically the same as the flowchart of FIG. 4, but the process in S420 of FIG. 4 is replaced with S1220. Since the other processes are the same as the processes in the flowchart of FIG. 4, detailed description thereof will be omitted.
図12のフローチャートにおいて、S1214でユーザが文字列を修正すると、S1220において、CPU111は、実施例1で説明した閾値L1を高くする。
In the flowchart of FIG. 12, when the user corrects the character string in S1214, the
図13は、実施例1において図5で説明したものと同様のOCR結果の情報である。ただし、ここでは、末尾の文字がユーザにより修正されて(「S」→「3」)、信頼度が「90%」に変更されている。
この状態では、第1位の候補文字の信頼度が閾値L1(60%)以下の文字は、2文字目の「1」のみである。したがって、この状態では、2文字目の「1」に編集用のカーソルが合わせられ、その文字のみがハイライト表示される。
FIG. 13 is information on the OCR result similar to that described in FIG. 5 in Example 1. However, here, the last character is corrected by the user (“S” → “3”), and the reliability is changed to “90%”.
In this state, the only character whose reliability of the first-ranked candidate character is the threshold value L1 (60%) or less is the second character "1". Therefore, in this state, the editing cursor is placed on the second character "1", and only that character is highlighted.
しかし、この状態において、仮に1文字目の「2」がユーザにより修正されたとしたら、信頼度が70%であったとしても、OCR結果には誤認識があったということである。
そこで、実施例1において用いた閾値L1をより高く設定し、他の文字に対してもユーザに注意を促すようにした方が好ましい。例えば、閾値L1を70%に変更した場合、2文字目の「1」に加えて、4文字目の「−」もハイライト表示される。
なお、閾値Lmに対する上方修正バイアスの与え方には、目的やユースケースによって、適切に選択されることを前提としている。ただし、その方法については、目的やケースバイケースに応じて多岐に及ぶため、ここではこれ以上の説明は省略する。
However, in this state, if the first character "2" is corrected by the user, even if the reliability is 70%, the OCR result is erroneously recognized.
Therefore, it is preferable to set the threshold value L1 used in the first embodiment to be higher so as to call the user's attention to other characters. For example, when the threshold value L1 is changed to 70%, the fourth character "-" is highlighted in addition to the second character "1".
It is premised that the method of giving the upward correction bias to the threshold value Lm is appropriately selected depending on the purpose and use case. However, since the method varies depending on the purpose and case by case, further description is omitted here.
以上のとおり、実施例3によれば、信頼度が低いと判定された候補文字以外の候補文字がユーザにより実際に修正された場合は、信頼度が低いと判定するために用いられる閾値を高く変更する。
これにより、信頼度が高いと判定されていたその他の文字についても、ハイライト表示や編集用のカーソルを合わせる対象とすることにより、ユーザに注意を促すことができる。
なお、ハイライト表示された文字以外にも修正が必要であるとユーザが判断した場合、上記の手法に限られず、実施例2のように、OCR結果として空文字列が表示されるように、ユーザにクリアさせるようにしてもよい。
As described above, according to the third embodiment, when the candidate characters other than the candidate characters judged to have low reliability are actually corrected by the user, the threshold value used to judge that the reliability is low is increased. change.
As a result, the user can be alerted to other characters that have been determined to have high reliability by targeting the highlight display or editing cursor.
When the user determines that corrections other than the highlighted characters are necessary, the user is not limited to the above method, and the user displays an empty string as an OCR result as in the second embodiment. You may try to clear it.
<その他の実施例>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した各実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
<Other Examples>
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
Further, the present invention may be applied to a system composed of a plurality of devices or a device composed of one device.
The present invention is not limited to the above-described examples, and various modifications can be made based on the gist of the present invention, and these are not excluded from the scope of the present invention. That is, all the configurations in which each of the above-described examples and modifications thereof are combined are also included in the present invention.
10 データ入力支援システム
100 画像処理装置
700 表示パネル
10 Data
Claims (11)
前記文字列を構成する文字毎に前記信頼度が第1位の候補文字を提示するとともに、前記第1位の候補文字の前記信頼度に基づいて、前記第1位の候補文字のうち、一部の候補文字をその他の候補文字と区別して提示するユーザインタフェースを提供する提供手段と、を有する
ことを特徴とするデータ入力支援システム。 A character recognition process for executing character recognition processing on a character area in an image to extract a character string, a candidate character for each character constituting the character string, and a character recognition means for acquiring the reliability of each candidate character.
A candidate character having the highest reliability is presented for each character constituting the character string, and one of the first candidate characters is presented based on the reliability of the first candidate character. A data input support system characterized by having a providing means for providing a user interface for presenting a part candidate character separately from other candidate characters.
ことを特徴とする請求項1に記載のデータ入力支援システム。 In the user interface, the providing means sets the cursor on the candidate character having the lowest reliability among the first-ranked candidate characters, so that the candidate character having the lowest reliability can be referred to as another candidate character. The data input support system according to claim 1, wherein the data input support system is presented separately.
ことを特徴とする請求項2に記載のデータ入力支援システム。 When the first-ranked candidate character to which the cursor is placed is modified, the providing means is characterized in that the cursor is placed on the first-ranked candidate character having the next lowest reliability in the user interface. The data input support system according to claim 2.
他の候補文字とは区別して提示する
ことを特徴とする請求項1乃至3のいずれか1項に記載のデータ入力支援システム。 The providing means emphasizes and presents the first-ranked candidate character whose reliability is equal to or less than the first threshold value among the first-ranked candidate characters in the user interface.
The data input support system according to any one of claims 1 to 3, characterized in that the characters are presented separately from other candidate characters.
ことを特徴とする請求項4に記載のデータ入力支援システム。 The data input according to claim 4, wherein in the user interface, when the first-ranked candidate character other than the emphasized candidate character is modified, the first threshold value is raised. Support system.
ことを特徴とする請求項1に記載のデータ入力支援システム。 When the number of candidate characters whose reliability is equal to or less than the second threshold value among the first-ranked candidate characters is a predetermined number or more, the providing means constitutes the character string in the interface. The data input support system according to claim 1, wherein the first candidate character for each character is not presented.
ことを特徴とする請求項6に記載のデータ入力支援システム。 The data input support system according to claim 6, wherein the second threshold value is calculated based on the average of the reliabilitys of the first-ranked candidate characters.
ことを特徴とする請求項1乃至7のいずれか1項に記載のデータ入力支援システム。 The data input support system according to any one of claims 1 to 7, wherein the character string has a specific means for identifying a portion of the character string that cannot be corrected by collation using a database.
ことを特徴とする請求項8に記載のデータ入力支援システム。 The data input support system according to claim 8, wherein the providing means provides the interface with respect to the portion specified by the specific means to be impossible due to the matching.
前記文字列を構成する文字毎に前記信頼度が第1位の候補文字を提示するとともに、前記第1位の候補文字の前記信頼度に基づいて、前記第1位の候補文字のうち、一部の候補文字をその他の候補文字と区別して提示するユーザインタフェースを提供する提供ステップと、を有する
ことを特徴とするデータ入力支援方法。
データ入力支援方法 A character recognition process for extracting a character string from a character area in an image, a candidate character for each character constituting the character string, and a character recognition step for acquiring the reliability of each candidate character.
A candidate character having the highest reliability is presented for each character constituting the character string, and one of the first candidate characters is presented based on the reliability of the first candidate character. A data input support method comprising a provision step that provides a user interface that presents a part candidate character separately from other candidate characters.
Data entry support method
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019187927A JP2021064123A (en) | 2019-10-11 | 2019-10-11 | Data input support system, data input support method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019187927A JP2021064123A (en) | 2019-10-11 | 2019-10-11 | Data input support system, data input support method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021064123A true JP2021064123A (en) | 2021-04-22 |
Family
ID=75486295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019187927A Pending JP2021064123A (en) | 2019-10-11 | 2019-10-11 | Data input support system, data input support method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021064123A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270575A1 (en) * | 2021-06-25 | 2022-12-29 | ローレルバンクマシン株式会社 | Information processing device and program |
-
2019
- 2019-10-11 JP JP2019187927A patent/JP2021064123A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270575A1 (en) * | 2021-06-25 | 2022-12-29 | ローレルバンクマシン株式会社 | Information processing device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984233B2 (en) | Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image | |
KR102247606B1 (en) | Image processing apparatus, control method therefor, and storage medium | |
JP5712487B2 (en) | Image processing apparatus, image processing system, image processing method, and program | |
KR101955732B1 (en) | Associating captured image data with a spreadsheet | |
JP7013182B2 (en) | Information processing equipment, information processing methods and programs | |
WO2019024692A1 (en) | Speech input method and device, computer equipment and storage medium | |
JP7387363B2 (en) | Data input support device, data input support method and program | |
US11836442B2 (en) | Information processing apparatus, method, and storage medium for associating metadata with image data | |
US20220201146A1 (en) | Information processing apparatus, information processing system, control method of the same, and storage medium | |
JP2019115011A (en) | Image processing apparatus and image processing program | |
US20220201141A1 (en) | Image processing apparatus, image processing system, control method thereof, and storage medium | |
US20220189186A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
US11887390B2 (en) | Information processing apparatus, information processing system, information processing method, and non-transitory recording medium | |
JP2021064123A (en) | Data input support system, data input support method, and program | |
JP2010061471A (en) | Character recognition device and program | |
JP2019114193A (en) | Image processing device and image processing program | |
JP2020087112A (en) | Document processing apparatus and document processing method | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP7414449B2 (en) | Data processing system, data processing method, and program | |
JP2022170175A (en) | Information processing apparatus, information processing method, and program | |
JP4535176B2 (en) | Work control program and work control system | |
EP3132381A1 (en) | Smart optical input/output (i/o) extension for context-dependent workflows | |
US20230368555A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP2020052480A (en) | Information processing apparatus and program |