JP2021064123A - Data input support system, data input support method, and program - Google Patents

Data input support system, data input support method, and program Download PDF

Info

Publication number
JP2021064123A
JP2021064123A JP2019187927A JP2019187927A JP2021064123A JP 2021064123 A JP2021064123 A JP 2021064123A JP 2019187927 A JP2019187927 A JP 2019187927A JP 2019187927 A JP2019187927 A JP 2019187927A JP 2021064123 A JP2021064123 A JP 2021064123A
Authority
JP
Japan
Prior art keywords
character
candidate
reliability
data input
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019187927A
Other languages
Japanese (ja)
Inventor
聡史 河原
Satoshi Kawahara
聡史 河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019187927A priority Critical patent/JP2021064123A/en
Publication of JP2021064123A publication Critical patent/JP2021064123A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide an environment for allowing a user to easily perform a correction operation because a correction operation of a character string that is not corrected even by collation or the like is a heavy load to a user and because a correction error is easily generated even though the user has to check whether an OCR result is correct about a character string that is difficult to correct by collation, such as the street number and the house number of an address, and a telephone number in OCR processing.SOLUTION: This present invention provides an interface. The interface easily edits a character string acquired by OCR processing on the basis of the reliability of each character such that a user easily corrects an OCR result. Thus, a working burden of the user can be reduced.SELECTED DRAWING: Figure 7

Description

本発明は、文字認識処理により抽出された文字列についてチェック作業を行うインタフェースを提供するデータ入力支援システム、データ入力支援方法、及びプログラムに関するものである。 The present invention relates to a data input support system, a data input support method, and a program that provide an interface for checking a character string extracted by a character recognition process.

従来から、複写機やスキャナにおいて帳票などの文書を読み取り、画像データに変換し、文書の内容をOCR(Optical Character Recognition)処理する方法が知られている。
OCR処理においては、文字認識処理の精度を向上するために、様々な手法が組み合わせて用いられる。例えば、文字認識結果の前処理として、細かいノイズドットを除去する画像処理が用いられることがある。あるいは、OCR処理によって予測された候補文字に対して、あらかじめ定義しておいた単語リストと照合して、最も近い文字列を見つける「単語マッチング」という手法が用いられることもある。
Conventionally, a method of reading a document such as a form with a copier or a scanner, converting it into image data, and performing OCR (Optical Character Recognition) processing on the content of the document has been known.
In the OCR process, various methods are used in combination in order to improve the accuracy of the character recognition process. For example, as preprocessing of the character recognition result, image processing for removing fine noise dots may be used. Alternatively, a method called "word matching" may be used in which the candidate characters predicted by the OCR process are collated with a predefined word list to find the closest character string.

また、特許文献1では、OCR処理の精度を上げる方法として、「突合(とつごう)」という手法が用いられている。突合とは、例えば、住所を表す一定の長さの文字列をOCR処理する場合、住所などのデータベースを利用して、文字列全体でのマッチングの程度や整合性を考慮することにより、OCR結果における信頼度の低い文字や、誤認識した文字の補正を行う手法である。 Further, in Patent Document 1, a method called "totsugo" is used as a method for improving the accuracy of OCR processing. Matching is, for example, when OCR processing a character string of a certain length representing an address, by using a database such as an address and considering the degree and consistency of matching in the entire character string, the OCR result is obtained. This is a method for correcting characters with low reliability and characters that are erroneously recognized.

特開平10―40426号公報Japanese Unexamined Patent Publication No. 10-40426

前述した突合によれば、住所などの単語以外にも、例えば、帳票に登場しうる顧客名を単語リストに登録しておくことによって、OCR処理の精度が多少低くても、補正処理を行い、正解を見つけ出すことが可能になる。
しかし、例えば、住所の丁目や番地、電話番号などについては、あらかじめ単語リストに登録しておくことにより突合を行うことは困難である。それは、番地や電話番号などは、リストに登録しておいた単語との整合性を考慮して正解を見つけ出すことができるような性質の情報ではないからである。
そのような、突合による補正が困難な文字列については、文書を読み取ったスキャン画像と見比べて、OCR結果が正しく取得されているかをユーザがチェックする必要がある。そして、OCR結果が間違っている場合、ユーザの操作によりOCR結果を修正することが必要となる。
According to the above-mentioned matching, in addition to words such as addresses, for example, by registering customer names that can appear in the form in the word list, correction processing is performed even if the accuracy of OCR processing is slightly low. It becomes possible to find the correct answer.
However, for example, it is difficult to match addresses, street addresses, telephone numbers, etc. by registering them in a word list in advance. This is because the address, telephone number, etc. are not information of a nature that allows the correct answer to be found in consideration of the consistency with the words registered in the list.
For such a character string that is difficult to correct by matching, it is necessary for the user to check whether the OCR result is correctly acquired by comparing with the scanned image obtained by reading the document. Then, when the OCR result is incorrect, it is necessary to correct the OCR result by the user's operation.

しかし、単語マッチングや突合などでも補正されない文字の修正作業は、ユーザにとっても負担が重く、また、修正ミスも発生しやすい。そのため、ユーザにとって修正作業を行いやすい環境を提供することが望まれる。
そこで、本発明は、文字認識処理において、単語マッチングや突合などによっても補正が困難な文字列をユーザが修正する際に、作業負担が軽減されるように、簡便な手法を提供することを目的とする。
However, the correction work of characters that are not corrected even by word matching or matching is burdensome for the user, and correction mistakes are likely to occur. Therefore, it is desired to provide an environment in which the user can easily perform the correction work.
Therefore, an object of the present invention is to provide a simple method for reducing the work load when the user corrects a character string that is difficult to correct due to word matching or matching in the character recognition process. And.

本発明は、画像中の文字領域に対して文字認識処理を実行して文字列を抽出し、前記文字列を構成する文字毎に、候補文字と、前記候補文字毎の信頼度を取得する文字認識手段と、前記文字列を構成する文字毎に前記信頼度が第1位の候補文字を提示するとともに、前記第1位の候補文字の前記信頼度に基づいて、前記第1位の候補文字のうち、一部の候補文字をその他の候補文字と区別して提示するユーザインタフェースを提供する提供手段と、を有することを特徴とするデータ入力支援システムである。 The present invention executes character recognition processing on a character area in an image to extract a character string, and obtains a candidate character and a reliability of each candidate character for each character constituting the character string. The recognition means and the candidate character having the highest reliability for each character constituting the character string are presented, and the first candidate character is based on the reliability of the first candidate character. Among them, the data input support system is characterized by having a providing means for providing a user interface for presenting a part of the candidate characters in a distinctive manner from the other candidate characters.

本発明によれば、文字認識処理の結果を、ユーザが簡便に確認し、修正することができるため、ユーザの作業負担を軽減させることができる。 According to the present invention, the result of the character recognition process can be easily confirmed and corrected by the user, so that the workload of the user can be reduced.

データ入力支援システムの全体構成を示す図である。It is a figure which shows the whole structure of a data input support system. 画像処理装置のハードウェア構成例を示す図である。It is a figure which shows the hardware configuration example of an image processing apparatus. 突合によるOCR結果の修正について説明する図である。It is a figure explaining the correction of the OCR result by a butt. データ処理システムの全体を示すフローチャートである。It is a flowchart which shows the whole data processing system. OCR結果の例である。This is an example of OCR results. UI生成処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of UI generation processing. 修正用のユーザインタフェースの例である。This is an example of a user interface for modification. OCR結果の情報が更新されたことを説明するための図である。It is a figure for demonstrating that the information of the OCR result was updated. 実施例2におけるUI生成処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the UI generation processing in Example 2. FIG. 実施例2におけるOCR結果の例である。It is an example of the OCR result in Example 2. 実施例2におけるUI生成処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the UI generation processing in Example 2. FIG. 実施例3におけるデータ処理の全体を示すフローチャートである。It is a flowchart which shows the whole data processing in Example 3. FIG. 実施例3におけるOCR結果の例である。It is an example of the OCR result in Example 3.

以下に、図面を参照して、本発明を実施するための実施例について説明する。ただし、以下に説明する実施例はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施例で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。 Hereinafter, examples for carrying out the present invention will be described with reference to the drawings. However, the examples described below are merely examples, and are not intended to limit the scope of the present invention to them. Moreover, not all combinations of features described in the following examples are essential for the means of solving the present invention.

<実施例1>
図1は、本実施例に係るデータ入力支援システム10の全体構成を示す図である。
図1に示すように、データ入力支援システム10は、画像処理装置100、PC/サーバー端末101、モバイル端末103などの装置を備えている。
画像処理装置100及びPC/サーバー端末101は、イーサネット(登録商標)や無線LANなどからなるLAN104を介して、インターネット105に接続されている。また、モバイル端末103は、公衆無線通信網102などを介して、インターネット105に接続されている。画像処理装置100、PC/サーバー端末101、及び、モバイル端末103は、LAN104又は公衆無線通信網102を介して、インターネット105に接続され、相互に通信可能となっている。
なお、PC/サーバー端末101とモバイル端末103に関しては、いずれか一方のみを備える構成でもよい。また、PC/サーバー端末101やモバイル端末103において実行させる処理を、画像処理装置100において実行するように構成してもよい。
<Example 1>
FIG. 1 is a diagram showing an overall configuration of the data input support system 10 according to the present embodiment.
As shown in FIG. 1, the data input support system 10 includes devices such as an image processing device 100, a PC / server terminal 101, and a mobile terminal 103.
The image processing device 100 and the PC / server terminal 101 are connected to the Internet 105 via a LAN 104 composed of Ethernet (registered trademark), wireless LAN, or the like. Further, the mobile terminal 103 is connected to the Internet 105 via a public wireless communication network 102 or the like. The image processing device 100, the PC / server terminal 101, and the mobile terminal 103 are connected to the Internet 105 via the LAN 104 or the public wireless communication network 102, and can communicate with each other.
The PC / server terminal 101 and the mobile terminal 103 may be configured to include only one of them. Further, the processing to be executed by the PC / server terminal 101 or the mobile terminal 103 may be configured to be executed by the image processing device 100.

画像処理装置100は、操作部、スキャナ部、プリンタ部などを有する複合機(Multi Function Peripheral:MFP)である。本実施例に係るシステムでは、画像処理装置100は、1枚以上のレシート、名刺、免許証、ハガキなどの原稿を読み取るスキャン端末として利用される。特に、本実施例においては、画像処理装置100は、複数枚のレシートを読み取るスキャン端末として利用される。
また、画像処理装置100は、原稿を読み取ることにより生成した画像から、原稿毎の画像を抽出するマルチクロップ処理を実施する。さらに、画像処理装置100は、表示部や、タッチパネルやハードボタンなどの操作部を有し、エラー通知や指示通知などの表示や、スキャン操作や設定操作などの操作を行う。
The image processing device 100 is a multi-function peripheral (MFP) having an operation unit, a scanner unit, a printer unit, and the like. In the system according to this embodiment, the image processing device 100 is used as a scanning terminal for reading a document such as one or more receipts, business cards, driver's licenses, and postcards. In particular, in this embodiment, the image processing device 100 is used as a scanning terminal that reads a plurality of receipts.
Further, the image processing device 100 performs a multi-crop process for extracting an image for each document from the image generated by reading the document. Further, the image processing device 100 has a display unit and operation units such as a touch panel and hard buttons, and performs operations such as display of error notifications and instruction notifications, scanning operations, and setting operations.

PC/サーバー端末101は、画像処理装置100が生成した画像を表示する。また、PC/サーバー端末101は、画像処理装置100が生成した画像の保存や、OCR処理などを実施し、再利用可能なコンテンツデータを生成する。
なお、画像処理装置100が実行するマルチクロップ処理をPC/サーバー端末101で実行すると、処理速度上の利点を発揮できる。更に、画像処理装置100及びPC/サーバー端末101は、クラウドやサーバーなどの外部ストレージとの通信も可能で、保存した画像データやメタデータを外部ストレージへ送信することができる。なお、本実施例では、画像処理装置100において画像データの保存や、言語推定後のメタデータ生成を行った後、PC/サーバー端末101へ送信を行うが、同じ機能をPC/サーバー端末101が備えていてもよい。
The PC / server terminal 101 displays an image generated by the image processing device 100. Further, the PC / server terminal 101 saves the image generated by the image processing device 100, performs OCR processing, and the like to generate reusable content data.
If the multi-crop process executed by the image processing device 100 is executed by the PC / server terminal 101, an advantage in processing speed can be exhibited. Further, the image processing device 100 and the PC / server terminal 101 can also communicate with an external storage such as a cloud or a server, and can transmit the stored image data and metadata to the external storage. In this embodiment, the image processing device 100 stores image data, generates metadata after language estimation, and then transmits the data to the PC / server terminal 101. The PC / server terminal 101 performs the same function. You may have it.

モバイル端末103は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末などである。本実施例に係るシステムにおいて、モバイル端末103は、PC/サーバー端末101と同様に、表示端末、操作端末、コンテンツデータの生成や保存を行う端末などとして利用される。
なお、表示、操作、メタデータやコンテンツデータの生成や保存の機能などは、PC/サーバー端末101とモバイル端末103のいずれか一方のみが備える構成であってもよい。
以上の構成要素はあくまで例示であり、すべての構成要素が本発明を実施するために必須というものではない。
The mobile terminal 103 is a smartphone or tablet terminal having an operation unit, a wireless communication unit, and an application unit for operating a web browser. In the system according to this embodiment, the mobile terminal 103 is used as a display terminal, an operation terminal, a terminal for generating and storing content data, and the like, similarly to the PC / server terminal 101.
It should be noted that the functions of display, operation, generation and storage of metadata and content data, and the like may be provided in only one of the PC / server terminal 101 and the mobile terminal 103.
The above components are merely examples, and not all components are essential for carrying out the present invention.

図2は、画像処理装置100のハードウェア構成を示すブロック図である。
画像処理装置100は、制御部110、スキャナ120、表示・操作部121を備えている。
制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115などのハードウェアを備えている。また、これらのハードウェアは、システムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
FIG. 2 is a block diagram showing a hardware configuration of the image processing device 100.
The image processing device 100 includes a control unit 110, a scanner 120, and a display / operation unit 121.
The control unit 110 includes hardware such as a CPU 111, a storage device 112, a network I / F unit 113, a scanner I / F unit 114, and a display / operation unit I / F unit 115. Further, these hardwares are connected to each other so as to be able to communicate with each other via the system bus 116. The control unit 110 controls the operation of the entire image processing device 100.

CPU111は、記憶装置112に記憶された制御プログラムを読み出して、読取制御や送信制御などの各種制御を行う。
記憶装置112は、制御プログラム、画像データ、メタデータ、設定データ、処理結果データなどを格納し保存する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118、大容量記憶領域であるHDD119などから構成される。
ROM117は、CPU111により実行される制御プログラムなどを保持する。
RAM118は、CPU111の主メモリ、ワークエリアなどの一時記憶領域として用いられる。
HDD119は、大容量記憶装置であるハードディスクであり、画像データ、メタデータなどを保存する記憶領域として用いられる。
The CPU 111 reads the control program stored in the storage device 112 and performs various controls such as read control and transmission control.
The storage device 112 stores and stores the control program, image data, metadata, setting data, processing result data, and the like. The storage device 112 is composed of a ROM 117 which is a non-volatile memory, a RAM 118 which is a volatile memory, an HDD 119 which is a large capacity storage area, and the like.
The ROM 117 holds a control program or the like executed by the CPU 111.
The RAM 118 is used as a temporary storage area such as a main memory and a work area of the CPU 111.
The HDD 119 is a hard disk that is a large-capacity storage device, and is used as a storage area for storing image data, metadata, and the like.

ネットワークI/F部113は、制御部110(画像処理装置100)をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバー端末101やモバイル端末103などのLAN104上の外部装置に画像を送信したり、LAN104上の外部装置から各種情報を受信したりする。
スキャナI/F部114は、スキャナ部120と制御部110とを接続するインタフェースである。スキャナ部120は、原稿上の画像を読み取って画像データを生成し、スキャナI/F部114を介して制御部110に入力する。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部やテンキー、スタートボタン、キャンセルボタンなどのハードキーが備えられている。スタートボタンは、コピーやスキャンなどの処理を開始させるためのボタンである。キャンセルボタンは、画像処理装置100が実行中の処理を一時停止または中止させるためのボタンである。
The network I / F unit 113 is an interface for connecting the control unit 110 (image processing device 100) to the LAN 104. The network I / F unit 113 transmits an image to an external device on the LAN 104 such as a PC / server terminal 101 or a mobile terminal 103, and receives various information from the external device on the LAN 104.
The scanner I / F unit 114 is an interface that connects the scanner unit 120 and the control unit 110. The scanner unit 120 reads an image on a document to generate image data, and inputs the image data to the control unit 110 via the scanner I / F unit 114.
The display / operation unit I / F unit 115 is an interface for connecting the display / operation unit 121 and the control unit 110. The display / operation unit 121 is provided with a liquid crystal display unit having a touch panel function and hard keys such as a numeric keypad, a start button, and a cancel button. The start button is a button for starting a process such as copying or scanning. The cancel button is a button for suspending or stopping the processing being executed by the image processing device 100.

その他、画像処理装置100にはプリンタ部なども備えることもできるが、本実施例にとって必須のハードウェアではないため、説明は省略する。
以上のように、本実施例に係る画像処理装置100は、上記のハードウェア構成によって、画像処理機能を提供することが可能である。
In addition, the image processing device 100 may also be provided with a printer unit and the like, but since it is not essential hardware for this embodiment, the description thereof will be omitted.
As described above, the image processing apparatus 100 according to the present embodiment can provide an image processing function by the above hardware configuration.

次に、図3を用いて、突合によるOCR結果の補正の問題点について説明する。
ここでは、一例として、「東京都千代田区飯田橋3−8−8」という文字列301に対してOCR処理を行う例について説明する。
Next, the problem of correction of the OCR result by collation will be described with reference to FIG.
Here, as an example, an example in which OCR processing is performed on the character string 301 "3-8-8 Iidabashi, Chiyoda-ku, Tokyo" will be described.

「東京都千代田区飯田橋3−8−8」という文字列301において、「東京都千代田区飯田橋」という部分文字列302は、突合により住所データベースと照合することによって、OCR結果を補正することが可能である。例えば、OCR結果が「束京都」になっていたとしても、住所の全体(「千代田区飯田橋」という後続の部分)から補正可能である。また、「束京都干代日凶飯田矯」のような誤認識がされたとしても、OCR結果では一般的に複数の候補文字が提示されるため、各候補文字と住所データベースを照合することによって補正可能である。
しかし、「3−8−8」という部分文字列303のような、住所の丁目や番地の部分に関しては、突合によって完全な認識を行うことは現在のOCRの技術では難しい。これは、「東京都千代田区飯田橋」の範囲で住所データベースを備えていたとしても、候補となる丁目や番地は多数存在するためである。
In the character string 301 "3-8-8 Iidabashi, Chiyoda-ku, Tokyo", the substring 302 "Iidabashi, Chiyoda-ku, Tokyo" can be collated with the address database to correct the OCR result. Is. For example, even if the OCR result is "Bunch Kyoto", it can be corrected from the entire address (the subsequent part "Iidabashi, Chiyoda-ku"). In addition, even if a misrecognition such as "Bunch Kyoto Hoshiyo Nikkei Iida" is made, multiple candidate characters are generally presented in the OCR result, so by collating each candidate character with the address database. It can be corrected.
However, it is difficult with the current OCR technology to completely recognize the part of the street address or the street address such as the substring 303 of "3-8-8" by matching. This is because even if the address database is provided within the range of "Iidabashi, Chiyoda-ku, Tokyo", there are many candidate streets and street addresses.

図4は、画像処理装置100において行われる、OCR結果の修正作業を含むデータ入力処理の全体を示すフローチャートである。なお、本フローチャートにおける処理は、CPU111が、ROM117、HDD119などに記憶された制御プログラムを実行することにより実現される。
また、一般的に、OCR処理を実行する前には、画像データに対する前処理が適宜行われる。前処理には、例えば、データファイルの読み込み、展開、必要に応じて二値化処理などがある。
FIG. 4 is a flowchart showing the entire data input process including the correction work of the OCR result performed in the image processing device 100. The processing in this flowchart is realized by the CPU 111 executing a control program stored in the ROM 117, HDD 119, or the like.
Further, in general, before executing the OCR processing, preprocessing for the image data is appropriately performed. The pre-processing includes, for example, reading and decompressing a data file, and binarization processing if necessary.

さらに、読み取り対象の文書が帳票である場合は、OCR処理の対象となる帳票の発行元や金額などの文字列の領域を特定するために、帳票の構造を認識するレイアウト分析手法などを用いて、帳票の中にある各文字列の座標が検出される。そして、検出された座標内の各文字列に対して、それぞれ、OCR処理が行われる。ただし、これらの前処理については、公知の技術を採用することができるため、ここでは詳細な説明は省略する。 Furthermore, when the document to be read is a form, a layout analysis method that recognizes the structure of the form is used to identify the area of the character string such as the issuer and amount of the form to be OCR processed. , The coordinates of each character string in the form are detected. Then, OCR processing is performed on each character string in the detected coordinates. However, since known techniques can be adopted for these pretreatments, detailed description thereof will be omitted here.

図4のフローチャートで、まず、S401において、CPU111は、画像中の1つの文字領域に対して、文字認識処理であるOCR処理を実行する。これにより、OCR結果として、例えば、図5に示されるような情報が取得される。すなわち、OCR結果として、文字領域から文字列が抽出され、文字列を構成する文字毎に、複数の候補文字502と、候補文字毎の信頼度(%)503とが取得される。ここでは、信頼度503の値(%)が大きいほど、OCR結果の信頼度が高い、すなわち、候補文字502の正解である確率が高いと判断される。なお、信頼度は、スキャン画像を登録されている各文字と比較することなどによって算出されるが、信頼度を取得する手法は公知のものであるため、ここでは詳細な説明は省略する。 In the flowchart of FIG. 4, first, in S401, the CPU 111 executes an OCR process, which is a character recognition process, on one character area in the image. As a result, as an OCR result, for example, information as shown in FIG. 5 is acquired. That is, as an OCR result, a character string is extracted from the character area, and a plurality of candidate characters 502 and a reliability (%) 503 for each candidate character are acquired for each character constituting the character string. Here, it is determined that the larger the value (%) of the reliability 503, the higher the reliability of the OCR result, that is, the higher the probability that the candidate character 502 is the correct answer. The reliability is calculated by comparing the scanned image with each registered character, but since the method for obtaining the reliability is known, detailed description thereof will be omitted here.

次に、S402において、CPU111は、S401で取得したOCR結果の文字列を突合によって補正する。この際、突合による補正が可能な部分の文字列が特定される。例えば、OCR結果として図3(a)に示したような「東京都千代田区飯田橋3−8−8」という文字列301が取得された場合、図3(b)のハッチングされた「東京都千代田区飯田橋」という部分文字列302が、突合によって補正可能な文字列である。 Next, in S402, the CPU 111 corrects the character string of the OCR result acquired in S401 by matching. At this time, the character string of the part that can be corrected by matching is specified. For example, when the character string 301 "3-8-8 Iidabashi, Chiyoda-ku, Tokyo" as shown in FIG. 3 (a) is acquired as the OCR result, the hatched "Chiyoda, Tokyo" in FIG. 3 (b) is acquired. The sub-character string 302 "Iidabashi-ku" is a character string that can be corrected by matching.

次に、S403において、CPU111は、S402で突合による補正が不可能である文字列(突合不可能文字列)を特定する。図3の例であれば、図3(c)のハッチングされた「3−8−8」という部分文字列303が、突合不可能文字列である。 Next, in S403, the CPU 111 identifies a character string (character string that cannot be matched) that cannot be corrected by matching in S402. In the example of FIG. 3, the hatched substring 303 of FIG. 3 (c) is a non-matchable character string.

次に、S410において、CPU111は、S403で特定された突合不可能文字列について、OCR結果の修正を行うための修正用のユーザインタフェース(UI)を生成するUI生成処理を行う。そして、生成した修正用のユーザインタフェースを表示・操作部121に表示する。UI生成処理の詳細については、図6を用いて後述する。 Next, in S410, the CPU 111 performs a UI generation process for generating a correction user interface (UI) for correcting the OCR result with respect to the non-matchable character string specified in S403. Then, the generated user interface for correction is displayed on the display / operation unit 121. The details of the UI generation process will be described later with reference to FIG.

そして、S412において、CPU111は、修正用のユーザインタフェースにおけるユーザの入力操作を検知する。
ユーザの入力操作を検知すると、S413において、CPU111は、ユーザによりOCR結果が正しいと確認されたか否かを判断する。
S413の判断がYesである場合、処理を終了する。
Then, in S412, the CPU 111 detects the user's input operation in the user interface for correction.
When the user's input operation is detected, in S413, the CPU 111 determines whether or not the user has confirmed that the OCR result is correct.
If the determination in S413 is Yes, the process ends.

S413の判断がNoである場合、S414において、CPU111は、ユーザの入力操作により、OCR結果である文字列が変更されたか否かを判断する。
S414の判断がNoである場合、S412に戻り、CPU111は、ユーザの入力操作を待機する。
If the determination in S413 is No, in S414, the CPU 111 determines whether or not the character string that is the OCR result has been changed by the input operation of the user.
If the determination in S414 is No, the process returns to S412, and the CPU 111 waits for the user's input operation.

S414の判断がYesである場合、S420において、CPU111は、修正用のユーザインタフェースを再生成するために、OCR結果の文字列のうち、ユーザにより修正された文字の信頼度を高くする。
そして、S410に戻り、CPU111は、再生成した修正用のユーザインタフェースを表示・操作部121に表示する。
When the determination in S414 is Yes, in S420, the CPU 111 increases the reliability of the character corrected by the user in the character string of the OCR result in order to regenerate the user interface for correction.
Then, returning to S410, the CPU 111 displays the regenerated user interface for correction on the display / operation unit 121.

図6は、図4のフローチャートのS410において行われる、OCR結果の修正を行うための修正用のユーザインタフェースを生成するUI生成処理の詳細を示すフローチャートである。
まず、S601において、CPU111は、図4のフローチャートのS401〜S403の結果に基づいて、OCR結果の文字列の中から、突合不可能文字列を抽出する。
FIG. 6 is a flowchart showing the details of the UI generation process for generating the correction user interface for correcting the OCR result, which is performed in S410 of the flowchart of FIG.
First, in S601, the CPU 111 extracts a non-matchable character string from the character string of the OCR result based on the results of S401 to S403 of the flowchart of FIG.

次に、S602において、CPU111は、S601で抽出した突合不可能文字列の中から、OCR結果の信頼度の低い文字を抽出する。ここでは、OCR結果による第1位の候補文字の信頼度が閾値L1(例えば、60%)以下である文字を、OCR結果の信頼度の低い文字として判定することとする。 Next, in S602, the CPU 111 extracts a character having a low reliability of the OCR result from the non-matchable character string extracted in S601. Here, a character whose reliability of the first-ranked candidate character based on the OCR result is equal to or less than the threshold value L1 (for example, 60%) is determined as a character having a low reliability of the OCR result.

ここで、OCR結果の信頼度の低い文字を抽出する手法について、図5のOCR結果を例として用いて説明する。
図5のOCR結果において、第1位の候補文字の信頼度が60%の閾値以下である文字は、信頼度の低い順に、末尾の「3」(信頼度は50%)と、2文字目の「1」(信頼度は60%)である。
Here, a method for extracting characters with low reliability of the OCR result will be described using the OCR result of FIG. 5 as an example.
In the OCR result of FIG. 5, the characters whose reliability of the first candidate character is 60% or less of the threshold value are the last "3" (reliability is 50%) and the second character in ascending order of reliability. "1" (reliability is 60%).

次に、S603において、CPU111は、OCR結果の修正を行うための修正用のユーザインタフェースを生成する。ここでは、ユーザに対して信頼度が低い文字への注意を促すように、S602でOCR結果の信頼度が低いと判定された文字をハイライト表示させる。
図5の例では、2文字目の「1」と末尾の「3」がハイライト表示されることになる。
Next, in S603, the CPU 111 generates a correction user interface for correcting the OCR result. Here, the characters determined to have low reliability in the OCR result in S602 are highlighted so as to alert the user to the characters having low reliability.
In the example of FIG. 5, the second character "1" and the last "3" are highlighted.

続いて、S604において、CPU111は、修正用のユーザインタフェース上に、S602で求めた信頼度が最も低い文字に編集用のカーソルを合わせて表示する。
図5の例では、信頼度が最も低いと判定された文字は末尾の「3」(信頼度は50%)であるため、編集用のカーソルは末尾の「3」に合わせられることになる。
Subsequently, in S604, the CPU 111 displays the character with the lowest reliability obtained in S602 on the user interface for correction by moving the cursor for editing.
In the example of FIG. 5, since the character determined to have the lowest reliability is the trailing "3" (reliability is 50%), the editing cursor is aligned with the trailing "3".

本実施例では、ユーザによるOCR結果の修正作業を簡便にさせることが目的であるため、図7に示すように、表示パネル700の上部には、元画像として、スキャンされた画像の文字列701を表示させる。また、下部には、OCR結果として、文字列701をOCR処理した際の、信頼度が第1位の候補文字を並べた文字列702を表示させる。
信頼度が第1位の候補文字を並べた文字列702に対しては、表示パネル700の右側に配置されたテンキー703を用いてユーザが修正することが可能である。あるいは、表示パネル700内に表示されるソフトウェアキーボードを使って修正するように構成してもよいが、ここでは詳細な説明は省略する。また、表示パネル700の右側には、OCR結果を確定するためのOKボタン704も表示される。
Since the purpose of this embodiment is to simplify the work of correcting the OCR result by the user, as shown in FIG. 7, the character string 701 of the scanned image as the original image is displayed on the upper part of the display panel 700. Is displayed. Further, as an OCR result, a character string 702 in which candidate characters having the highest reliability when the character string 701 is OCR-processed is displayed at the lower part.
The character string 702 in which the candidate characters having the highest reliability are arranged can be modified by the user by using the numeric keypad 703 arranged on the right side of the display panel 700. Alternatively, the software keyboard displayed in the display panel 700 may be used for modification, but detailed description thereof will be omitted here. Further, on the right side of the display panel 700, an OK button 704 for confirming the OCR result is also displayed.

図5の例では、文字列702の中で、末尾の文字についての第1位の候補文字「S」の信頼度が最も低いため、表示パネル700には、編集用のカーソル710が末尾の「S」に合わせられた状態で表示される。
この状態では、末尾の文字「S」が編集可能となっている。この状態において、ユーザが、例えば、テンキー703の「3」のキーを押すと、文字列702の末尾の文字「S」が「3」に置換される。すなわち、誤認識されたOCR結果である「211−089S」が、元画像の文字列である「211−0893」に置換される。
このように、簡便かつ少ない手順により、ユーザがOCR結果を修正することができる。
In the example of FIG. 5, in the character string 702, the reliability of the first candidate character "S" for the last character is the lowest, so that the display panel 700 has the editing cursor 710 at the end ". It is displayed in a state adjusted to "S".
In this state, the last character "S" can be edited. In this state, when the user presses, for example, the "3" key of the numeric keypad 703, the character "S" at the end of the character string 702 is replaced with "3". That is, the erroneously recognized OCR result "211-089S" is replaced with the character string "211-0893" of the original image.
In this way, the user can modify the OCR result with a simple and few steps.

図4のフローチャートに戻り、OCR結果による文字がユーザによって修正された場合、S420において、CPU111は、修正された文字について信頼度を高くする。
ここで、設定する信頼度は、ユーザは修正ミスをしないという前提に基づいて、「100%」としてもよい。あるいは、同じ文字列中の他の文字のうちの最高の信頼度(図5の例では、「0」と「9」の「90%」)としてもよいが、本実施例ではこれらの値に限定されるものではない。
Returning to the flowchart of FIG. 4, when the character based on the OCR result is corrected by the user, in S420, the CPU 111 increases the reliability of the corrected character.
Here, the reliability to be set may be set to "100%" on the premise that the user does not make a correction error. Alternatively, it may be the highest reliability among other characters in the same character string (in the example of FIG. 5, "90%" of "0" and "9"), but in this embodiment, these values are set. It is not limited.

図8には、OCR結果の文字列702に対して、ユーザが末尾の文字「S」を「3」に修正したことにより、更新された状態のOCR結果の情報が示されている。すなわち、ここでは、OCR結果の文字列702が文字列801に置換されるとともに、修正された文字「3」の信頼度が「90%」に設定され、第1位の候補文字に変更されたことが示されている。 FIG. 8 shows information on the OCR result in an updated state when the user corrects the last character “S” to “3” with respect to the character string 702 of the OCR result. That is, here, the character string 702 of the OCR result is replaced with the character string 801 and the reliability of the corrected character "3" is set to "90%", and the character string is changed to the first candidate character. Is shown.

S420の処理が行われると、再びS410の処理に戻り、修正用ユーザインタフェースが更新され、再び表示パネル700に表示される。この際、図8に示されるように、文字列702の中で、末尾の「3」の次に信頼性が低かった文字である、2文字目の「1」(信頼度は60%)にカーソルが合わせられる。そして、図7で示したテンキー703を押すことにより、2文字目の「1」が編集可能となる。
このように、信頼度が低いと判定した文字について、信頼度の低い文字から順に編集用のカーソルを移動させていくことにより、簡便かつ連続的に文字を確認・修正する処理が可能となる。
そして、文字列を構成するすべての文字が正しいことを確認した状態でOKボタン704が押されると(S413でY)、処理は終了する。
When the process of S420 is performed, the process returns to the process of S410 again, the correction user interface is updated, and the display is displayed on the display panel 700 again. At this time, as shown in FIG. 8, in the character string 702, the second character "1" (reliability is 60%), which is the character with the lowest reliability next to the last "3". The cursor is placed. Then, by pressing the numeric keypad 703 shown in FIG. 7, the second character "1" can be edited.
In this way, by moving the editing cursor in order from the character with the lowest reliability for the character determined to have the lower reliability, it is possible to easily and continuously check and correct the character.
Then, when the OK button 704 is pressed (Y in S413) after confirming that all the characters constituting the character string are correct, the process ends.

以上のとおり、実施例1では、OCR結果として取得された文字列について、第1位の候補文字の信頼度が低い一部の文字を強調して区別し、さらに、信頼度が低い文字から、順次、カーソルを合わせていくような修正用のユーザインタフェースを提供する。
これにより、突合による修正が不可能な文字列についても、ユーザは、簡便かつ少ない手順により、OCR結果を修正することができる。
As described above, in the first embodiment, in the character string acquired as the OCR result, some characters having low reliability of the first-ranked candidate character are emphasized and distinguished, and further, the characters having low reliability are selected first. It provides a user interface for correction that sequentially moves the cursor.
As a result, the user can correct the OCR result with a simple and few steps even for a character string that cannot be corrected by matching.

<実施例2>
実施例1では、OCR結果の文字列を表示させるとともに、誤認識された文字をユーザに修正させるため、OCR結果の信頼度の低い文字の順に、編集用のカーソルを合わせていくようにした。
これに対して、実施例2では、OCR結果の信頼度が低い文字が多数ある場合には、誤認識された文字を1文字ずつユーザに修正させるのはかえって煩雑となることを考慮して、OCR結果として空白を表示する。そして、テンキーなどを用いて、文字列全体の入力をユーザに行わせることとする。
<Example 2>
In the first embodiment, in order to display the character string of the OCR result and to have the user correct the erroneously recognized character, the editing cursor is placed in the order of the characters with the lowest reliability of the OCR result.
On the other hand, in the second embodiment, when there are many characters with low reliability of the OCR result, it is rather complicated to have the user correct the erroneously recognized characters one by one. Display a blank as an OCR result. Then, the user is made to input the entire character string by using the numeric keypad or the like.

図9は、実施例1における図4のフローチャートのS410(図6のフローチャート)に置き換わる、実施例2でのUI生成処理の詳細を示すフローチャートである。
まず、S901において、CPU111は、OCR結果のうち、突合不可能文字列を抽出する。この処理は、実施例1のS601と同様である。
FIG. 9 is a flowchart showing the details of the UI generation process in the second embodiment, which replaces S410 (the flowchart of the sixth diagram) in the flowchart of the fourth embodiment in the first embodiment.
First, in S901, the CPU 111 extracts a non-matchable character string from the OCR results. This process is the same as S601 of Example 1.

次に、S902において、CPU111は、S901で抽出した突合不可能文字列において信頼度が第1位の候補文字についての信頼度の平均値を算出して、その値を閾値Lmとする。
ここでは、例として、図10に示すように、実施例1と同様のOCR結果501(図5)を用いることとする。ただし、図10のOCR結果1001は、図5に示した文字列と同じ文字から構成されているものの、スキャン処理の品質が低いため文字色が薄く取得されたものとする。このため、図10に示すように、OCR結果である候補文字1002の信頼度1003が全体的に低いものとなっている。
Next, in S902, the CPU 111 calculates the average value of the reliability of the candidate character having the highest reliability in the non-matchable character string extracted in S901, and sets that value as the threshold value Lm.
Here, as an example, as shown in FIG. 10, the same OCR result 501 (FIG. 5) as in Example 1 is used. However, it is assumed that the OCR result 1001 of FIG. 10 is composed of the same characters as the character string shown in FIG. 5, but the character color is lightly acquired because the quality of the scanning process is low. Therefore, as shown in FIG. 10, the reliability 1003 of the candidate character 1002, which is the OCR result, is low as a whole.

すなわち、各文字における信頼度が第1位の候補文字の信頼度を平均すると、
(60+50+80+70+60+50+60+40)/8=58.75(%)
となる。
そして、CPU111は、S902で算出された平均値「58.75」を「閾値Lm」として保持する。
That is, when the reliability of the candidate characters having the highest reliability in each character is averaged,
(60 + 50 + 80 + 70 + 60 + 50 + 60 + 40) / 8 = 58.75 (%)
Will be.
Then, the CPU 111 holds the average value "58.75" calculated in S902 as the "threshold value Lm".

次に、S903において、CPU111は、S901で抽出した突合不可能文字列の中に、第1位の候補文字の信頼度がS902で算出した閾値Lm以下である文字の文字数を取得する。図10の例では、信頼度が閾値Lm58.75以下の文字数は、3文字である(2文字目の「1」(信頼度は50%)、6文字目の「8」(信頼度は50%)、8文字目の「3」(信頼度は40%))。 Next, in S903, the CPU 111 acquires the number of characters in the non-matchable character string extracted in S901 whose reliability of the first-ranked candidate character is equal to or less than the threshold value Lm calculated in S902. In the example of FIG. 10, the number of characters whose reliability is the threshold value Lm58.75 or less is 3 characters (2nd character "1" (reliability is 50%)) and 6th character "8" (reliability is 50). %), The 8th character "3" (reliability is 40%)).

次に、S904において、CPU111は、S903で取得された文字数が、所定の数以上であるか否かを判定する。ここでは、所定の数として、閾値Lc(「3」)とする。 Next, in S904, the CPU 111 determines whether or not the number of characters acquired in S903 is equal to or greater than a predetermined number. Here, the threshold value Lc (“3”) is set as a predetermined number.

S904での判定がYesである場合、S905において、CPU111は、修正用のユーザインタフェースにOCR結果として表示される文字列を空文字列にする。
そして、S906において、CPU111は、空文字列の先頭の文字の位置に編集用のカーソルを合わせる。
If the determination in S904 is Yes, in S905, the CPU 111 sets the character string displayed as the OCR result on the user interface for correction to an empty string.
Then, in S906, the CPU 111 puts the editing cursor on the position of the first character of the empty string.

図10の例では、信頼度が閾値Lm(「58.75」)以下の文字数は3文字であり、閾値Lc(「3」)以上である。その結果、表示パネル700には、図11に示されるように、修正用のユーザインタフェースにOCR結果として空文字列1102が表示される。そして、ユーザが元画像の文字列1101を見ながら文字列を入力しやすいように、入力用のカーソルが空文字列の先頭1103に合わせられる。 In the example of FIG. 10, the number of characters whose reliability is the threshold value Lm (“58.75”) or less is 3 characters, and is equal to or higher than the threshold value Lc (“3”). As a result, on the display panel 700, as shown in FIG. 11, an empty string 1102 is displayed as an OCR result on the user interface for correction. Then, the input cursor is set to the beginning 1103 of the empty character string so that the user can easily input the character string while looking at the character string 1101 of the original image.

なお、ここでは、閾値Lmとして、信頼度の平均値を、閾値Lcとして、所定の値(「3」)を、それぞれ、用いたが、これらは、平均値や所定値である必要はなく、システムやユースケースによって、適切に選択されるものである。ただし、その適切な選択方法についてはケースバイケースであり多岐に及ぶため、ここではこれ以上の説明は省略する。 Here, the average value of the reliability is used as the threshold value Lm, and a predetermined value (“3”) is used as the threshold value Lc, respectively, but these do not have to be the average value or the predetermined value. It is the one that is properly selected depending on the system and use case. However, since the appropriate selection method is wide-ranging on a case-by-case basis, further description is omitted here.

以上のとおり、実施例2では、OCR結果の文字列の中に信頼度が低い文字が多数ある場合は、修正用のユーザインタフェースにおいて、ユーザにテンキーなどを使って文字列を入力させるために、OCR結果として、空文字列を表示させる。
これにより、誤認識された文字を個々に修正させるよりも簡便な操作により、OCR結果を修正することができる。
As described above, in the second embodiment, when there are many characters with low reliability in the character string of the OCR result, in order to make the user input the character string by using the numeric keypad or the like in the user interface for correction, As an OCR result, an empty character string is displayed.
As a result, the OCR result can be corrected by a simpler operation than correcting the erroneously recognized characters individually.

<実施例3>
実施例1では、ユーザにチェック作業への注意を促すように、OCR結果の信頼度が第1位の候補文字についての信頼度が閾値L1(例えば、60%)以下の文字について、信頼度が低いと判定し、ハイライト表示するようにした。
しかし、第1位の候補文字の信頼度が高いと判定された文字であっても、その候補文字が実際にユーザにより修正された場合は、信頼度が高いと判定されたその他の文字についても誤認識が含まれている可能性が高いと考えられる。
そこで、実施例3では、第1位の候補文字の信頼度が閾値L1より低いと判定された文字以外の文字がユーザにより修正された場合は、閾値L1を上方に修正することにより、他の文字に対してもユーザに注意を促すようにする。
<Example 3>
In the first embodiment, the reliability of the candidate character having the highest reliability of the OCR result is equal to or less than the threshold value L1 (for example, 60%) so as to call the user's attention to the check operation. It was judged to be low and highlighted.
However, even if the character is judged to have high reliability of the first-ranked candidate character, if the candidate character is actually modified by the user, other characters judged to have high reliability are also included. It is highly probable that misrecognition is included.
Therefore, in the third embodiment, when the user corrects a character other than the character whose reliability of the first-ranked candidate character is determined to be lower than the threshold value L1, the threshold value L1 is corrected upward to obtain another character. Call the user's attention to the characters as well.

図12は、実施例1における図4のフローチャートに置き換わる、実施例3におけるOCR結果の修正作業を含むデータ入力処理の全体を示すフローチャートである。
図12のフローチャートは、基本的には図4のフローチャートと同じものであるが、図4のS420における処理がS1220に置き換えられる。なお、その他の処理については、図4のフローチャートにおける処理と同様であるため、詳細な説明は省略する。
FIG. 12 is a flowchart showing the entire data input process including the correction work of the OCR result in the third embodiment, which replaces the flowchart of the fourth embodiment in the first embodiment.
The flowchart of FIG. 12 is basically the same as the flowchart of FIG. 4, but the process in S420 of FIG. 4 is replaced with S1220. Since the other processes are the same as the processes in the flowchart of FIG. 4, detailed description thereof will be omitted.

図12のフローチャートにおいて、S1214でユーザが文字列を修正すると、S1220において、CPU111は、実施例1で説明した閾値L1を高くする。 In the flowchart of FIG. 12, when the user corrects the character string in S1214, the CPU 111 raises the threshold value L1 described in the first embodiment in S1220.

図13は、実施例1において図5で説明したものと同様のOCR結果の情報である。ただし、ここでは、末尾の文字がユーザにより修正されて(「S」→「3」)、信頼度が「90%」に変更されている。
この状態では、第1位の候補文字の信頼度が閾値L1(60%)以下の文字は、2文字目の「1」のみである。したがって、この状態では、2文字目の「1」に編集用のカーソルが合わせられ、その文字のみがハイライト表示される。
FIG. 13 is information on the OCR result similar to that described in FIG. 5 in Example 1. However, here, the last character is corrected by the user (“S” → “3”), and the reliability is changed to “90%”.
In this state, the only character whose reliability of the first-ranked candidate character is the threshold value L1 (60%) or less is the second character "1". Therefore, in this state, the editing cursor is placed on the second character "1", and only that character is highlighted.

しかし、この状態において、仮に1文字目の「2」がユーザにより修正されたとしたら、信頼度が70%であったとしても、OCR結果には誤認識があったということである。
そこで、実施例1において用いた閾値L1をより高く設定し、他の文字に対してもユーザに注意を促すようにした方が好ましい。例えば、閾値L1を70%に変更した場合、2文字目の「1」に加えて、4文字目の「−」もハイライト表示される。
なお、閾値Lmに対する上方修正バイアスの与え方には、目的やユースケースによって、適切に選択されることを前提としている。ただし、その方法については、目的やケースバイケースに応じて多岐に及ぶため、ここではこれ以上の説明は省略する。
However, in this state, if the first character "2" is corrected by the user, even if the reliability is 70%, the OCR result is erroneously recognized.
Therefore, it is preferable to set the threshold value L1 used in the first embodiment to be higher so as to call the user's attention to other characters. For example, when the threshold value L1 is changed to 70%, the fourth character "-" is highlighted in addition to the second character "1".
It is premised that the method of giving the upward correction bias to the threshold value Lm is appropriately selected depending on the purpose and use case. However, since the method varies depending on the purpose and case by case, further description is omitted here.

以上のとおり、実施例3によれば、信頼度が低いと判定された候補文字以外の候補文字がユーザにより実際に修正された場合は、信頼度が低いと判定するために用いられる閾値を高く変更する。
これにより、信頼度が高いと判定されていたその他の文字についても、ハイライト表示や編集用のカーソルを合わせる対象とすることにより、ユーザに注意を促すことができる。
なお、ハイライト表示された文字以外にも修正が必要であるとユーザが判断した場合、上記の手法に限られず、実施例2のように、OCR結果として空文字列が表示されるように、ユーザにクリアさせるようにしてもよい。
As described above, according to the third embodiment, when the candidate characters other than the candidate characters judged to have low reliability are actually corrected by the user, the threshold value used to judge that the reliability is low is increased. change.
As a result, the user can be alerted to other characters that have been determined to have high reliability by targeting the highlight display or editing cursor.
When the user determines that corrections other than the highlighted characters are necessary, the user is not limited to the above method, and the user displays an empty string as an OCR result as in the second embodiment. You may try to clear it.

<その他の実施例>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した各実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
<Other Examples>
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
Further, the present invention may be applied to a system composed of a plurality of devices or a device composed of one device.
The present invention is not limited to the above-described examples, and various modifications can be made based on the gist of the present invention, and these are not excluded from the scope of the present invention. That is, all the configurations in which each of the above-described examples and modifications thereof are combined are also included in the present invention.

10 データ入力支援システム
100 画像処理装置
700 表示パネル
10 Data input support system 100 Image processing device 700 Display panel

Claims (11)

画像中の文字領域に対して文字認識処理を実行して文字列を抽出し、前記文字列を構成する文字毎に、候補文字と、前記候補文字毎の信頼度を取得する文字認識手段と、
前記文字列を構成する文字毎に前記信頼度が第1位の候補文字を提示するとともに、前記第1位の候補文字の前記信頼度に基づいて、前記第1位の候補文字のうち、一部の候補文字をその他の候補文字と区別して提示するユーザインタフェースを提供する提供手段と、を有する
ことを特徴とするデータ入力支援システム。
A character recognition process for executing character recognition processing on a character area in an image to extract a character string, a candidate character for each character constituting the character string, and a character recognition means for acquiring the reliability of each candidate character.
A candidate character having the highest reliability is presented for each character constituting the character string, and one of the first candidate characters is presented based on the reliability of the first candidate character. A data input support system characterized by having a providing means for providing a user interface for presenting a part candidate character separately from other candidate characters.
前記提供手段は、前記ユーザインタフェースにおいて、前記第1位の候補文字のうち、前記信頼度が最も低い候補文字にカーソルを合わせることにより、前記信頼度が最も低い候補文字を他の候補文字とは区別して提示する
ことを特徴とする請求項1に記載のデータ入力支援システム。
In the user interface, the providing means sets the cursor on the candidate character having the lowest reliability among the first-ranked candidate characters, so that the candidate character having the lowest reliability can be referred to as another candidate character. The data input support system according to claim 1, wherein the data input support system is presented separately.
前記カーソルが合わせられた前記第1位の候補文字が修正された場合、前記提供手段は、前記ユーザインタフェースにおいて、前記信頼度が次に低い第1位の候補文字にカーソルを合わせる
ことを特徴とする請求項2に記載のデータ入力支援システム。
When the first-ranked candidate character to which the cursor is placed is modified, the providing means is characterized in that the cursor is placed on the first-ranked candidate character having the next lowest reliability in the user interface. The data input support system according to claim 2.
前記提供手段は、前記ユーザインタフェースにおいて、前記第1位の候補文字のうち、前記信頼度が第1の閾値以下である第1位の候補文字を強調して提示することにより、
他の候補文字とは区別して提示する
ことを特徴とする請求項1乃至3のいずれか1項に記載のデータ入力支援システム。
The providing means emphasizes and presents the first-ranked candidate character whose reliability is equal to or less than the first threshold value among the first-ranked candidate characters in the user interface.
The data input support system according to any one of claims 1 to 3, characterized in that the characters are presented separately from other candidate characters.
前記ユーザインタフェースにおいて、前記強調して提示された候補文字以外の前記第1位の候補文字が修正された場合、前記第1の閾値を高くする
ことを特徴とする請求項4に記載のデータ入力支援システム。
The data input according to claim 4, wherein in the user interface, when the first-ranked candidate character other than the emphasized candidate character is modified, the first threshold value is raised. Support system.
前記第1位の候補文字のうち、前記信頼度が第2の閾値以下である候補文字の数が所定の数以上である場合は、前記提供手段は、前記インタフェースにおいて、前記文字列を構成する文字毎の第1位の候補文字を提示しない
ことを特徴とする請求項1に記載のデータ入力支援システム。
When the number of candidate characters whose reliability is equal to or less than the second threshold value among the first-ranked candidate characters is a predetermined number or more, the providing means constitutes the character string in the interface. The data input support system according to claim 1, wherein the first candidate character for each character is not presented.
前記第2の閾値は、前記第1位の候補文字の信頼度の平均に基づいて算出される
ことを特徴とする請求項6に記載のデータ入力支援システム。
The data input support system according to claim 6, wherein the second threshold value is calculated based on the average of the reliabilitys of the first-ranked candidate characters.
前記文字列のうち、データベースを用いた突合による補正が不可能である部分を特定する特定手段を有する
ことを特徴とする請求項1乃至7のいずれか1項に記載のデータ入力支援システム。
The data input support system according to any one of claims 1 to 7, wherein the character string has a specific means for identifying a portion of the character string that cannot be corrected by collation using a database.
前記特定手段が前記突合による不可能であると特定した前記部分について、前記提供手段は前記インタフェースを提供する
ことを特徴とする請求項8に記載のデータ入力支援システム。
The data input support system according to claim 8, wherein the providing means provides the interface with respect to the portion specified by the specific means to be impossible due to the matching.
画像中の文字領域に対して文字認識処理を実行して文字列を抽出し、前記文字列を構成する文字毎に、候補文字と、前記候補文字毎の信頼度を取得する文字認識ステップと、
前記文字列を構成する文字毎に前記信頼度が第1位の候補文字を提示するとともに、前記第1位の候補文字の前記信頼度に基づいて、前記第1位の候補文字のうち、一部の候補文字をその他の候補文字と区別して提示するユーザインタフェースを提供する提供ステップと、を有する
ことを特徴とするデータ入力支援方法。
データ入力支援方法
A character recognition process for extracting a character string from a character area in an image, a candidate character for each character constituting the character string, and a character recognition step for acquiring the reliability of each candidate character.
A candidate character having the highest reliability is presented for each character constituting the character string, and one of the first candidate characters is presented based on the reliability of the first candidate character. A data input support method comprising a provision step that provides a user interface that presents a part candidate character separately from other candidate characters.
Data entry support method
請求項10に記載されたデータ入力支援方法をコンピュータにより実行させるためのプログラム。 A program for causing a computer to execute the data input support method according to claim 10.
JP2019187927A 2019-10-11 2019-10-11 Data input support system, data input support method, and program Pending JP2021064123A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019187927A JP2021064123A (en) 2019-10-11 2019-10-11 Data input support system, data input support method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019187927A JP2021064123A (en) 2019-10-11 2019-10-11 Data input support system, data input support method, and program

Publications (1)

Publication Number Publication Date
JP2021064123A true JP2021064123A (en) 2021-04-22

Family

ID=75486295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019187927A Pending JP2021064123A (en) 2019-10-11 2019-10-11 Data input support system, data input support method, and program

Country Status (1)

Country Link
JP (1) JP2021064123A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022270575A1 (en) * 2021-06-25 2022-12-29 ローレルバンクマシン株式会社 Information processing device and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022270575A1 (en) * 2021-06-25 2022-12-29 ローレルバンクマシン株式会社 Information processing device and program

Similar Documents

Publication Publication Date Title
US10984233B2 (en) Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image
KR102247606B1 (en) Image processing apparatus, control method therefor, and storage medium
JP5712487B2 (en) Image processing apparatus, image processing system, image processing method, and program
KR101955732B1 (en) Associating captured image data with a spreadsheet
JP7013182B2 (en) Information processing equipment, information processing methods and programs
WO2019024692A1 (en) Speech input method and device, computer equipment and storage medium
JP7387363B2 (en) Data input support device, data input support method and program
US11836442B2 (en) Information processing apparatus, method, and storage medium for associating metadata with image data
US20220201146A1 (en) Information processing apparatus, information processing system, control method of the same, and storage medium
JP2019115011A (en) Image processing apparatus and image processing program
US20220201141A1 (en) Image processing apparatus, image processing system, control method thereof, and storage medium
US20220189186A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium
US11887390B2 (en) Information processing apparatus, information processing system, information processing method, and non-transitory recording medium
JP2021064123A (en) Data input support system, data input support method, and program
JP2010061471A (en) Character recognition device and program
JP2019114193A (en) Image processing device and image processing program
JP2020087112A (en) Document processing apparatus and document processing method
US20220207900A1 (en) Information processing apparatus, information processing method, and storage medium
US11170211B2 (en) Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium
JP7414449B2 (en) Data processing system, data processing method, and program
JP2022170175A (en) Information processing apparatus, information processing method, and program
JP4535176B2 (en) Work control program and work control system
EP3132381A1 (en) Smart optical input/output (i/o) extension for context-dependent workflows
US20230368555A1 (en) Information processing apparatus, information processing method, and storage medium
JP2020052480A (en) Information processing apparatus and program