JPH0668261A - Pattern recognizing device - Google Patents
Pattern recognizing deviceInfo
- Publication number
- JPH0668261A JPH0668261A JP4217946A JP21794692A JPH0668261A JP H0668261 A JPH0668261 A JP H0668261A JP 4217946 A JP4217946 A JP 4217946A JP 21794692 A JP21794692 A JP 21794692A JP H0668261 A JPH0668261 A JP H0668261A
- Authority
- JP
- Japan
- Prior art keywords
- character
- correction
- information
- recognition
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、文字、図形、音声等の
パターン情報を自動的に認識し、認識結果を検証および
確認修正するのに必要な認識情報、すなわち認識処理系
から得られる入力文字イメージまたは音声、文字の特徴
または音声の特徴、認識結果、認識結果に含まれる候補
情報である候補文字または候補コードと距離値、あるい
は類似度を保存しておく認識情報格納部と、認識情報に
対して言語処理や候補情報による検証を施し、認識誤り
候補の文字列またはコード列、およびそれらの文字列ま
たはコード列に対する訂正候補の文字列またはコード列
を抽出して検証情報格納部に記憶しておく検証処理部等
を有し、文字パターン情報またはコード列情報を計算機
で処理できるようなコードデータに変換するパターン認
識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention automatically recognizes pattern information such as characters, figures and voices, and recognizes information necessary for verifying and confirming and correcting the recognition result, that is, input obtained from a recognition processing system. A recognition information storage unit that stores a character image or voice, a character feature or a voice feature, a recognition result, a candidate character or candidate code that is candidate information included in the recognition result, a distance value, or similarity, and recognition information. Linguistic processing and verification using candidate information are performed, and the recognition error candidate character strings or code strings and the correction candidate character strings or code strings for those character strings or code strings are extracted and stored in the verification information storage unit. The present invention relates to a pattern recognition device that has a verification processing unit and the like and that converts character pattern information or code string information into code data that can be processed by a computer.
【0002】[0002]
【従来の技術】図11はこの種のパターン(文字)認識
装置の従来例の構成図である。イメージ入力部1は認識
対象の文字を入力し、電気信号に変換する。認識部2は
電気信号に変換された文字を入力し、個々の文字パター
ンを切り出す前処理、認識に用いるパラメータを少ない
情報で表現するための特徴抽出、入力した文字がどのカ
テゴリに属するかを判定する認識処理を施す。修正部3
Aは認識情報を用いた認識結果の検証処理や言語処理
(単語知識や言語規則)などを用いて曖昧な認識結果を
検証する後処理を施し、その結果がオペレータによって
確認修正される。出力部4は修正された正解文字コード
の情報を外部に出力する。制御部5はこれら各部1〜4
を制御する。2. Description of the Related Art FIG. 11 is a block diagram of a conventional example of a pattern (character) recognition device of this type. The image input unit 1 inputs a character to be recognized and converts it into an electric signal. The recognition unit 2 inputs characters converted into electric signals and performs preprocessing for cutting out individual character patterns, feature extraction for expressing parameters used for recognition with a small amount of information, and determines to which category the input characters belong. A recognition process is performed. Correction part 3
A performs post-processing for verifying an ambiguous recognition result using verification processing of recognition result using recognition information, language processing (word knowledge or language rule), and the result is confirmed and corrected by an operator. The output unit 4 outputs the corrected correct character code information to the outside. The control unit 5 has these units 1 to 4
To control.
【0003】図12は図11中の修正部3Aの構成図で
ある。検証処理部30内の認識情報格納部31には、認
識部2から送られてきた認識情報が一旦保持される。言
語処理部33は認識情報に対して検証のために言語処理
を施し、不自然な文字列の位置を認識情報格納部31
に、不自然な文字列、およびその訂正候補の文字列を検
出して検証情報格納部32に記録する。表示処理部34
は確認修正に必要な情報、言語処理の結果も含めて表示
部35に表示し、オペレータの確認修正を受け付ける。
この時、表示処理部34はオペレータが確認や修正の処
理がし易いように、認識情報格納部31の内容と検証情
報格納部32の内容とを、位置、大きさ、色などを整え
て表示部35に表示する。オペレータは、表示された認
識情報や検証情報を目視によって確認し、その中に認識
誤りが存在すれば修正入力部37を用いて正しい情報を
候補の中から選択したり、新たな情報を入力したりし
て、誤りのないデータに完成させる。修正処理部36A
は修正入力部37からの指示に従って、認識情報格納部
31の内容を正しいコードデータに書き換える。このよ
うにして得られた情報が誤りのないデータとして修正済
み情報格納部38に転送される。FIG. 12 is a block diagram of the correction unit 3A in FIG. The recognition information storage unit 31 in the verification processing unit 30 temporarily holds the recognition information sent from the recognition unit 2. The language processing unit 33 performs language processing on the recognition information for verification, and identifies the position of the unnatural character string in the recognition information storage unit 31.
In addition, the unnatural character string and the correction candidate character string are detected and recorded in the verification information storage unit 32. Display processing unit 34
Displays on the display unit 35 the information necessary for confirmation and correction and the result of language processing, and accepts confirmation and correction by the operator.
At this time, the display processing unit 34 displays the contents of the recognition information storage unit 31 and the contents of the verification information storage unit 32 by adjusting the position, size, color, etc. so that the operator can easily perform confirmation and correction processing. It is displayed on the section 35. The operator visually confirms the displayed recognition information and verification information, and if there is a recognition error therein, selects correct information from the candidates using the correction input section 37 or inputs new information. Or complete the data without error. Correction processing unit 36A
Rewrites the contents of the recognition information storage unit 31 with correct code data according to the instruction from the correction input unit 37. The information thus obtained is transferred to the corrected information storage unit 38 as error-free data.
【0004】[0004]
【発明が解決しようとする課題】上述した従来の文字認
識装置では、認識部2から送られてくる認識情報や検証
情報を表示部35に表示、あるいは音声出力し、それを
オペレータが目視や聞き取りによって検査を行ってい
た。そこで認識誤りを検出した場合、そのつどキーボー
ド、あるいはマウスを用いて正解文字を入力し正しいデ
ータを作っていた。したがって、認識結果の認識修正で
は、目視チェックにより認識誤りの検出、認識誤り
の位置までカーソルを移動、処理モードを認識処理モ
ードから文字入力モードへ移行、正しい文字を入力す
る、正解情報と認識誤りを置換するなどの操作が必要
であった。In the above-mentioned conventional character recognition device, the recognition information and verification information sent from the recognition unit 2 are displayed on the display unit 35 or output as voice, and the operator visually or hears the information. Had been inspected by. When a recognition error was detected, the correct character was input each time using the keyboard or mouse to create correct data. Therefore, in the recognition correction of the recognition result, the recognition error is detected by the visual check, the cursor is moved to the position of the recognition error, the processing mode is changed from the recognition processing mode to the character input mode, the correct character is input, the correct answer information and the recognition error. Operations such as replacing
【0005】そのため、(a)オペレータの操作が煩雑
である。(b)修正のための操作回数が多いためデータ
入力速度が遅くなる、(b)認識誤りを指示するための
カーソル移動に時間がかかる(検証情報を利用して不自
然な文字列の位置までスキップすることもできる)など
の問題が存在していた。音声認識装置でも同様の問題が
あった。Therefore, (a) the operation of the operator is complicated. (B) The data input speed becomes slow due to the large number of correction operations, and (b) it takes time to move the cursor for instructing a recognition error (using the verification information up to an unnatural character string position). There is a problem such as (can be skipped). The voice recognition device had the same problem.
【0006】本発明の目的は、認識結果を短時間に、容
易に、かつ精度良く確認、修正できるパターン認識装置
を提供することである。An object of the present invention is to provide a pattern recognition device which can easily and accurately confirm and correct a recognition result in a short time.
【0007】[0007]
【課題を解決するための手段】本発明のパターン認識装
置は、検証情報格納部中の認識誤り候補の文字列または
コード列、あるいはそれらの訂正候補の文字列またはコ
ード列が同じ、あるいは類似のカテゴリから成っている
ものを同一カテゴリの文字またはコードが誤ったものと
見なして自動的に抽出する同一文字列またはコード列抽
出部と、該同一文字列またはコード列抽出部で得られた
複数の同一、あるいは類似のカテゴリの文字列群または
コード列を入力文字イメージまたは入力音声とともに表
示部に表示し、オペレータが文字列またはコード列を複
数個選択し、複数カ所を一度に正解文字または正解コー
ドに変換したり、新たな正解文字または正解コードを入
力したりできるようにする修正処理部とを備えている。The pattern recognition device of the present invention has the same character string or code string of recognition error candidates in the verification information storage section, or the same character string or code string of these correction candidates, or a similar string. The same character string or code string extraction unit that automatically considers a character or code in the same category as an incorrect character or code, and a plurality of the same character string or code string extraction unit Character strings or code strings of the same or similar category are displayed on the display together with the input character image or input voice, the operator selects multiple character strings or code strings, and correct characters or correct codes at multiple locations at once. And a correction processing unit that allows input of a new correct character or correct answer code.
【0008】[0008]
【作用】本発明は、未修正の認識結果の中で不自然なも
のを検出し、その中で同一傾向を示す認識情報や検証情
報を自動的に抽出し、これらを同一カテゴリごとにまと
めて一括修正の操作ができるようにしたものである。こ
れにより、オペレータの修正に要する時間を少なくする
ことができ、データ入力の生産性が向上すると共に、修
正操作を容易にすることができる。The present invention detects unnatural recognition results among uncorrected recognition results, automatically extracts recognition information and verification information showing the same tendency, and collects them in the same category. It is designed to allow batch correction operations. As a result, the time required for the operator to make corrections can be reduced, the productivity of data entry can be improved, and the correction operation can be facilitated.
【0009】オペレータが選択、あるいは入力した正解
文字または正解コードと、認識誤り候補の文字列または
コード列と、訂正候補の文字列またはコード列と、認識
情報とを蓄積する履歴情報格納部と、修正情報格納部を
備え、修正部は、該履歴情報格納部の履歴情報の中の重
複する情報を一つにまとめて他の情報を除去し、同一カ
テゴリが答えになると思われる情報を選択・まとめるた
め修正情報を算出して前記修正情報格納部に格納し、検
証情報および認識情報の中から修正情報格納部内の修正
情報と同一の認識誤り候補の文字列またはコード列、あ
るいは同一の訂正候補の文字列またはコード列を検出
し、文字列またはコード列が同じ、あるいは類似のカテ
ゴリからなっているものを同一カテゴリの文字または音
声が誤っているものと見なして自動的に抽出することに
より、履歴情報を用いて効率良く、しかも検出もれの少
ない一括修正ができる。A history information storage unit for accumulating correct characters or correct codes selected or input by an operator, recognition error candidate character strings or code strings, correction candidate character strings or code strings, and recognition information. A correction information storage unit is provided, and the correction unit collects duplicate information in the history information of the history information storage unit to remove other information, and selects information that seems to be the answer to the same category. In order to put together, correction information is calculated and stored in the correction information storage unit, and from the verification information and the recognition information, the same character string or code string of the recognition error candidate as the correction information in the correction information storage unit, or the same correction candidate. Detects the character string or code string of, and the character or code strings of the same character string or code string are the same or similar categories, or the characters or voices of the same category are incorrect By automatically extracting regarded, efficiently using the history information, yet can detect leakage less bulk modify.
【0010】修正部が、オペレータが選択あるいは入力
した正解文字または正解コードを利用して、表示部上に
表示された複数の文字列またはコード列の中から同一の
認識誤り候補の文字列またはコード列、あるいは訂正候
補の文字列またはコード列を、オペレータが選択して正
解文字または正解コードに書き換える機能と、この処理
を繰返すことにより認識誤り候補の文字列またはコード
列の種々のカテゴリに対して正解文字または正解コード
に修正する機能を有することにより、オペレータが正解
情報の入力を行う必要がなくなり、オペレータの確認修
正作業の生産性が向上する。The correction unit uses the correct character or the correct code selected or input by the operator to select the same character string or code as a recognition error candidate from a plurality of character strings or code strings displayed on the display unit. A function to rewrite a string, or a character string or a code string of a correction candidate to the correct character or a correct code by the operator, and by repeating this process, for various categories of the character string or code string of the recognition error candidate By having the function of correcting the correct answer character or correct answer code, the operator does not need to input correct answer information, and the productivity of the operator's confirmation and correction work is improved.
【0011】修正部が、同一の認識誤り候補の文字列ま
たはコード列、あるいは訂正候補の文字列またはコード
列と文字イメージまたは入力音声、およびその前後に格
納されている認識情報を認識情報格納部の中から自動的
に抽出し、これらを同時に表示部に表示することによ
り、オペレータは当該同一文字列の文字カテゴリを前後
の文字から同形文字や類似文字の識別が容易に推測で
き、オペレータの確認作業を支援することができる。The correction unit stores the same character string or code string of the recognition error candidate, or the character string or code string of the correction candidate and the character image or input voice, and the recognition information stored before and after the character information storage unit. By automatically extracting from the above and displaying them on the display unit at the same time, the operator can easily infer the character category of the same character string from the preceding and following characters and identify the same character or similar character. Can support work.
【0012】修正部が、検証情報および認識情報の中か
ら修正情報格納部内の修正情報と同一の認識誤り候補の
文字列またはコード列、あるいは同一の訂正候補の文字
列またはコード列の確からしさを信頼度として算出する
同一文字列または同一コード列検出の機能と、前記文字
列または前記コード列が同じ、あるいは類似のカテゴリ
から成っているものを同一カテゴリの文字またはコード
が誤ったものと見なし、その確からしさを信頼度として
算出するとともに信頼度の高い順から自動的に抽出する
機能を有することにより、認識結果に含まれる認識誤り
の修正を効率的に行うことができる。The correction unit determines, from the verification information and the recognition information, the probability of the same character string or code string as the recognition error candidate or the same correction candidate character string or code string as the correction information in the correction information storage unit. A function of detecting the same character string or the same code string that is calculated as the reliability, and the character string or the code string is the same, or the ones made up of similar categories are regarded as the wrong characters or codes in the same category, By having the function of calculating the certainty as reliability and automatically extracting from the order of high reliability, it is possible to efficiently correct the recognition error included in the recognition result.
【0013】[0013]
【実施例】次に、本発明の実施例について図面を参照し
て説明する。Embodiments of the present invention will now be described with reference to the drawings.
【0014】実施例1 図1は本発明の一実施例の文字認識装置の基本構成図で
ある。本実施例は修正部3のみが図11の従来例の文字
認識装置と異なっている。Embodiment 1 FIG. 1 is a basic configuration diagram of a character recognition apparatus according to an embodiment of the present invention. In this embodiment, only the correction unit 3 is different from the conventional character recognition device shown in FIG.
【0015】図2は修正部3の構成図である。修正部3
は修正処理部36のみが図12の修正部3Aと異なって
いる。修正処理部36は、同一文字列格納部40を含
み、検証処理部30の検証情報格納部32中の認識誤り
候補の文字列、あるいはそれらの訂正候補の文字列が同
じ、あるいは類似のカテゴリから成っているものを同一
カテゴリの文字が誤ったものと見なして自動的に抽出
し、同一文字列格納部40に格納する同一文字列抽出部
39と、同一文字列抽出部39で得られた複数の同一、
あるいは類似のカテゴリの文字列群を入力文字イメージ
とともに表示処理部34を経て表示部35に表示し、オ
ペレータが文字列を複数個選択し、複数カ所、一度に正
解文字に変換したり、新たな正解文字を入力したりでき
るようにした修正処理部36とを備えている。FIG. 2 is a block diagram of the correction unit 3. Correction part 3
Only the modification processing unit 36 is different from the modification unit 3A in FIG. The correction processing unit 36 includes the same character string storage unit 40, and the character strings of recognition error candidates in the verification information storage unit 32 of the verification processing unit 30 or the character strings of these correction candidates are the same or similar categories. The same character string extraction unit 39 that automatically extracts what is formed as an incorrect character in the same category and stores it in the same character string storage unit 40, and a plurality of characters obtained by the same character string extraction unit 39. Of the same
Alternatively, a group of character strings in a similar category is displayed on the display unit 35 through the display processing unit 34 together with the input character image, and the operator selects a plurality of character strings and converts them into correct characters at a plurality of places at once, or creates a new character. The correction processing unit 36 is provided so that a correct answer character can be input.
【0016】この修正部3の動作を説明する。まず、認
識部2から送られてきた認識情報を検証処理部30で検
証した後、認識情報格納部31に一旦保持する。この認
識情報格納部31の中の認識情報は、修正入力部37か
ら入力されるオペレータの指示に従って直接、または同
一文字列抽出部39で処理されたものが表示部35に表
示される。オペレータは表示部35に表示された情報を
目視によって確認し、その中で誤認識文字が存在すれば
修正入力部37を用いて正解文字を候補文字の中から選
択したり、または文字入力機能を用いて新たな正解文字
を入力する。一括修正の処理ではこのとき、認識情報に
あらかじめ言語処理(たとえば、誤認識文字の検出に
は、特開平1−41061号:“日本文誤字自動訂正装
置”で行えるような処理、また、信頼度の算出には、特
開昭62−182982号:“日本文誤字自動検出方
式”などの文字連接の強さの度合で訂正候補を検出する
処理)を施して、認識誤り候補の文字列やそれらの訂正
候補の文字列を検出しておき検証情報格納部32に記録
しておく。次に、同一文字列抽出部39において同一カ
テゴリを示す認識誤り候補の文字列と、同一カテゴリを
示す訂正候補の文字とをそれぞれ別々に検出し、それら
を同一文字列格納部40に格納してからオペレータの指
示を待つ。一括修正の処理は、オペレータが修正入力部
37から入力する表示に指示に従って、同一文字列格納
部40の中から同一カテゴリごとにまとめられた認識誤
り候補の文字列や訂正候補の文字列、およびそれらの文
字列に対応する認識情報格納部31の文字イメージとを
表示処理部34の要求に基づいて表示部35に表示す
る。オペレータは表示部35に表示された認識誤り候補
の文字列群を目視によって確認し、キーボードやマウス
を用いて同じカテゴリに属する文字イメージを1つのグ
ループとしてまとめた後、正解文字を選択、あるいは入
力する。この処理を同一文字列格納部40(検証情報格
納部32)の中に認識誤り候補の文字列がなくなるまで
行うことにより、認識情報格納部31の中の認識結果の
認識誤り文字をなくすことができる。また、この時、確
認修正が行われたことを示す情報(選択情報)を確認情
報の中に記録する。この選択情報を付与することによっ
て、認識結果の後処理をさらに信頼度の高いものにする
ことができる。The operation of the correction unit 3 will be described. First, after the recognition information sent from the recognition unit 2 is verified by the verification processing unit 30, the recognition information is temporarily held in the recognition information storage unit 31. The recognition information in the recognition information storage unit 31 is displayed on the display unit 35 either directly according to an operator's instruction input from the correction input unit 37 or processed by the same character string extraction unit 39. The operator visually confirms the information displayed on the display unit 35, and if there is an erroneously recognized character in the information, the correct input character 37 is used to select the correct character from the candidate characters, or the character input function is selected. Use to enter a new correct character. In the batch correction process, at this time, the recognition information is preliminarily subjected to language processing (for example, to detect a misrecognized character, a process that can be performed by Japanese Patent Laid-Open No. 1-41061: “Japanese sentence erroneous character automatic correction device”) and reliability. For example, Japanese Unexamined Patent Publication No. 62-182982: "Detection of correction candidates based on the degree of character concatenation strength such as" Japanese sentence erroneous character automatic detection method ") is performed to recognize character strings of recognition error candidates and those. The correction candidate character string is detected and recorded in the verification information storage unit 32. Next, the same character string extraction unit 39 separately detects a character string of a recognition error candidate indicating the same category and a character of a correction candidate indicating the same category, and stores them in the same character string storage unit 40. Waits for operator's instruction. The collective correction process is performed by the operator in accordance with a display input from the correction input unit 37, and the recognition error candidate character strings and the correction candidate character strings, which are grouped in the same character string storage unit 40 for each same category, and The character images of the recognition information storage unit 31 corresponding to those character strings are displayed on the display unit 35 based on a request from the display processing unit 34. The operator visually confirms the character string group of the recognition error candidates displayed on the display unit 35, collects the character images belonging to the same category as one group using the keyboard or the mouse, and then selects or inputs the correct answer character. To do. By performing this process until there is no character string of the recognition error candidate in the same character string storage unit 40 (verification information storage unit 32), the recognition error character of the recognition result in the recognition information storage unit 31 can be eliminated. it can. Further, at this time, information (selection information) indicating that the confirmation correction has been performed is recorded in the confirmation information. By adding this selection information, the post-processing of the recognition result can be made more reliable.
【0017】図3は、認識情報格納部31中の認識情報
の具体的な内容を示したものである。認識情報は入力文
字パターン311と文字の特徴312と認識結果313
と候補文字314と距離値または類似度315と位置情
報316と選択情報317(選択情報が記録されるまで
は、認識誤り候補の文字であることを示す情報として使
用する)からなる。選択情報317は、表示部35に表
示された認識情報の中からオペレータが目視によって同
じ文字カテゴリと判断し、選択したときに認識情報の中
に書込まれるものであり、例えば同じ文字カテゴリのグ
ループごとに1,2,・・・,iの数字列で表わすこと
ができる。認識情報格納部31は、修正処理部36から
の指示に従って認識結果313の内容を正解文字に書き
換える。書き換えられた認識結果は、書き換え前の認識
結果と置き換えて表示部35に表示する。この時、オペ
レータが修正した修正情報と修正の対象となった認識情
報とを履歴情報として履歴情報格納部41の中に蓄積し
ておき、以後の認識誤り候補の文字列の修正に利用され
る。FIG. 3 shows the specific contents of the recognition information in the recognition information storage unit 31. The recognition information includes the input character pattern 311, character features 312, and recognition result 313.
A candidate character 314, a distance value or similarity 315, position information 316, and selection information 317 (until the selection information is recorded, it is used as information indicating that the character is a recognition error candidate). The selection information 317 is written in the recognition information when the operator visually judges from the recognition information displayed on the display unit 35 that the same character category is selected, and is, for example, a group of the same character category. , I, i can be represented by a number string. The recognition information storage unit 31 rewrites the content of the recognition result 313 with the correct character according to the instruction from the correction processing unit 36. The rewritten recognition result is replaced with the recognition result before rewriting and displayed on the display unit 35. At this time, the correction information corrected by the operator and the recognition information to be corrected are accumulated as history information in the history information storage unit 41 and are used for subsequent correction of the character string of the recognition error candidate. .
【0018】図4は、検証情報格納部32中の検証情報
の具体的な内容を示したものである。検証情報は認識誤
り候補の文字列321と、認識誤り候補の文字列321
が存在する認識情報の格納アドレス322と、訂正候補
の文字列323と、信頼度324からなる。ここで、訂
正候補の文字列323と信頼度324とは対になって保
存する。FIG. 4 shows the specific contents of the verification information in the verification information storage unit 32. The verification information includes the character string 321 of the recognition error candidate and the character string 321 of the recognition error candidate.
The storage address 322 of the recognition information in which is present, the character string 323 of the correction candidate, and the reliability 324. Here, the correction candidate character string 323 and the reliability 324 are stored as a pair.
【0019】図5は、同一文字列抽出部39とオペレー
タが行なう処理の流れを示すフローチャートである。な
お、実線で囲まれた部分が同一文字列抽出部39の処理
の流れを、点線で囲まれた部分がオペレータの処理を示
している。まず、同一文字列抽出部39は、検証情報格
納部32から転送された認識誤り候補の文字列とそれら
の訂正候補の文字列の中から同一カテゴリを示すものを
自動的に抽出する(ステップ391)。抽出の基準は、
例えば(1)検証処理によって検出された認識誤り文字
が同一カテゴリのものを集めてくる方法、(2)認識誤
り文字を訂正するための訂正文字が同一カテゴリのもの
を集めてくる方法とがある。ここでは前者について説明
する。次に、同一文字列抽出部39は、抽出した認識情
報の中から認識誤り文字が同一カテゴリのものを、オペ
レータの確認修正に必要な入力文字パターン311と認
識誤り候補の文字列321、すなわち認識誤り候補とし
て検出されて認識結果313とともに表示部35に表示
し、オペレータの確認と一括修正を受け付ける(ステッ
プ392)。同一文字列抽出部39は、表示部35に表
示する訂正候補の文字列324の文字カテゴリが重複表
示されないように、文字カテゴリをまとめてから表示部
35に表示する。オペレータは表示部35に表示された
入力文字パターン311を目視によって確認し、同じ文
字カテゴリの入力文字パターン311を修正入力部37
を用いて選択し、1つのグループとして完成させる(ス
テップ393)。この時、修正処理部36は修正入力部
37の指示に従って、オペレータが選択した入力文字パ
ターン311に対して、選択情報317を割り付ける。
オペレータは、1つのグループとしてまとめられた入力
文字パターン311に対応する正解文字を修正入力部3
7を用いて、訂正候補の文字列から選択したり、新たな
文字を入力する(ステップ394)。修正処理部36は
修正入力部37の指示と選択情報317との対応をとっ
て認識結果313の内容を正解文字に書き換える。FIG. 5 is a flow chart showing the flow of processing performed by the same character string extraction unit 39 and the operator. The portion surrounded by a solid line shows the flow of processing of the same character string extraction unit 39, and the portion surrounded by a dotted line shows processing by the operator. First, the same character string extraction unit 39 automatically extracts a character string of the same category from the character string of the recognition error candidate transferred from the verification information storage unit 32 and the character string of those correction candidates (step 391). ). The extraction criteria are
For example, there are (1) a method in which recognition error characters detected by verification processing are in the same category, and (2) a method in which correction characters for correcting recognition error characters are in the same category. . Here, the former will be described. Next, the same character string extracting unit 39 selects the input character patterns 311 and the recognition error candidate character strings 321 required for the operator's confirmation and correction, that is, the recognition error characters, from the extracted recognition information, in which the recognition error characters are in the same category. It is detected as an error candidate and displayed on the display unit 35 together with the recognition result 313, and the operator's confirmation and collective correction are accepted (step 392). The same character string extraction unit 39 collects the character categories and displays them on the display unit 35 so that the character categories of the correction candidate character string 324 displayed on the display unit 35 are not displayed in duplicate. The operator visually confirms the input character pattern 311 displayed on the display unit 35, and corrects the input character pattern 311 of the same character category by the correction input unit 37.
To be completed as one group (step 393). At this time, the correction processing unit 36 allocates the selection information 317 to the input character pattern 311 selected by the operator according to the instruction of the correction input unit 37.
The operator corrects the correct characters corresponding to the input character pattern 311 collected as one group by the correction input unit 3
7 is used to select from a correction candidate character string or to input a new character (step 394). The correction processing unit 36 takes the correspondence between the instruction of the correction input unit 37 and the selection information 317 and rewrites the content of the recognition result 313 with the correct character.
【0020】図6は本実施例の内、オペレータが同じ文
字カテゴリをまとめて認識修正する場合の表示部35の
表示例を示しており、351は入力文字パターン表示、
352は認識結果の文字表示、353は訂正候補の文字
列の表示を示している。同一文字列抽出部39によって
認識情報格納部31から抽出された認識情報(入力文字
パターン)のうち、認識修正に必要な情報を表示部35
に表示する。オペレータは、入力文字パターン表示35
1を確認し、同じ文字カテゴリの入力文字パターン群の
表示354を修正入力部37を用いて選択する。表示部
35は、選択された入力文字パターン群の表示354と
選択されていない入力文字パターン群の表示355を区
別するため、色や大きさを変化させて表示部35に表示
する。オペレータは、1つのグループとして選択を終了
すると、このグループの文字カテゴリに対応する正解文
字を認識結果の文字表示352の中、あるいは訂正候補
の文字列表示353の中から選択したり、文字入力機能
を用いて新たな正解文字を修正入力部37を用いて入力
する。修正処理部36は修正入力部37の指示に従って
認識結果313の内容を正解文字に書き換える。このよ
うにして修正入力部37は、オペレータの確認と一括修
正を繰り返し受け付ける。なお、本実施例に示した同じ
文字カテゴリごとにまとめて認識修正する場合、該当す
る同一文字列以外の入力文字パターン表示351は表示
部35に表示されるが、表示された入力文字パターン表
示351の中から、オペレータが修正が必要だと判断し
た入力文字パターン表示351については、同じ文字カ
テゴリをまとめて正解文字の繰り返し入力を可能とす
る。FIG. 6 shows a display example of the display unit 35 when the operator collectively recognizes and corrects the same character category in the present embodiment, and 351 shows an input character pattern display,
Reference numeral 352 shows a character display of the recognition result, and reference numeral 353 shows a display of a correction candidate character string. Of the recognition information (input character pattern) extracted from the recognition information storage unit 31 by the same character string extraction unit 39, the information necessary for the recognition correction is displayed on the display unit 35.
To display. The operator displays the input character pattern display 35.
1 is confirmed, and the input character pattern group display 354 of the same character category is selected using the correction input unit 37. In order to distinguish the display 354 of the selected input character pattern group and the display 355 of the non-selected input character pattern group, the display unit 35 displays the display unit 35 in different colors and sizes. When the operator completes the selection as one group, he / she selects the correct character corresponding to the character category of this group from the character display 352 of the recognition result or the character string display 353 of the correction candidate, and has a character input function. A new correct character is input using the correction input unit 37 using. The correction processing unit 36 rewrites the content of the recognition result 313 with the correct character according to the instruction of the correction input unit 37. In this way, the correction input unit 37 repeatedly receives operator confirmation and collective correction. In addition, in the case of collectively recognizing and correcting each of the same character categories shown in the present embodiment, the input character pattern display 351 other than the corresponding same character string is displayed on the display unit 35, but the displayed input character pattern display 351 is displayed. For the input character pattern display 351 which is determined by the operator to be corrected, the same character category is collected and the correct character can be repeatedly input.
【0021】本実施例は、未修正の認識結果の中で不自
然なものを検出し、その中で同一傾向を示す認識情報や
検証情報を自動的に抽出し、これを同一カテゴリごとに
まとめて一括修正の操作ができるようにしたもので、こ
れにより、オペレータの修正に要する時間を少なくする
ことができ、データ入力の生産性が向上すると共に、修
正操作を容易にすることができる。In the present embodiment, unnatural recognition results are detected among uncorrected recognition results, and recognition information and verification information showing the same tendency are automatically extracted from the uncorrected recognition results, which are summarized for each same category. In this way, the collective correction operation can be performed, which can reduce the time required for the operator to correct the data, improve the productivity of data input, and facilitate the correction operation.
【0022】実施例2 図7は修正部3における履歴情報410を用いた一括修
正の処理を示す図であって、410は履歴情報、411
はオペレータが入力した正解文字、412は言語処理が
有効に働いた履歴情報(言語履歴情報)、413はオペ
レータの修正が有効だった履歴情報(入力履歴情報)で
あり、図8の420は履歴情報410から重複する情報
を除去した修正情報の内容を示す図である。具体的処理
は、修正部3において、認識情報格納部31の中の認識
結果をオペレータが確認し、修正する際に、正解文字を
選択あるいは入力するのと同時に修正に関係する情報、
すなわち正解文字411、認識誤り候補の文字、訂正候
補の文字列、信頼度、認識情報(入力文字パターン、文
字の特徴や認識結果の候補情報など)を履歴情報410
として履歴情報格納部41に記録する。次に、修正処理
部36は修正処理がある一定量行われた時点、たとえば
一日の仕事、あるいは1,000枚程度の文書の読み取
りが終了した時点で、修正情報420を作成してその結
果を修正情報格納部42に記録しておく。このような修
正情報420の作成は履歴情報410の中から重複する
情報を1つにまとめて情報を圧縮するとともに、同一カ
テゴリが答えになる可能性のある情報を選択し、まとめ
る処理であり、処理時間の短縮や履歴情報の容量の削
減、および履歴情報の信頼性の向上をねらったものであ
る。同一文字列抽出部39は検証情報格納部32の中の
情報および認識情報格納部31の中の認識情報が修正情
報420の中の認識誤り文字と一致し、さらに文字間の
連接関係が一致するもの、あるいは認識誤り文字が異な
っていても訂正候補の文字列が一致するものを自動的に
抽出して、修正情報420の中の正解文字を追加して、
文字イメージとともに表示部35に表示する。この処理
によって、オペレータは表示部35に表示された文字パ
ターン311を目視によって確認し、キーボードやマウ
スなどを用いて同じ文字カテゴリに属する入力文字パタ
ーン311を1つのグループとしてまとめた後、正解文
字の選択、あるいは入力すればよい。Embodiment 2 FIG. 7 is a diagram showing a batch correction process using the history information 410 in the correction unit 3, where 410 is history information and 411.
Is a correct character input by the operator, 412 is history information (language history information) in which the language processing has worked effectively, 413 is history information in which the operator's correction is valid (input history information), and 420 in FIG. It is a figure which shows the content of the correction information which removed the duplicated information from the information 410. Specifically, in the correction unit 3, when the operator confirms the recognition result in the recognition information storage unit 31 and corrects it, the correct character is selected or input, and at the same time, information related to the correction,
That is, the correct character 411, the character of the recognition error candidate, the character string of the correction candidate, the reliability, and the recognition information (the input character pattern, the characteristic of the character, the candidate information of the recognition result, and the like) are used as the history information 410.
Is recorded in the history information storage unit 41. Next, the correction processing unit 36 creates the correction information 420 at the time when a certain amount of correction processing is performed, for example, when the work of one day or the reading of about 1,000 documents is completed, and the correction information 420 is generated as a result. Is recorded in the correction information storage unit 42. The creation of such correction information 420 is a process of collecting duplicate information from the history information 410 into one and compressing the information, and selecting and collecting information that may be the answer to the same category. It aims at shortening the processing time, reducing the capacity of history information, and improving the reliability of history information. In the same character string extraction unit 39, the information in the verification information storage unit 32 and the recognition information in the recognition information storage unit 31 match the recognition error character in the correction information 420, and the concatenation relationship between the characters also matches. Even if the recognition error character is different, the character string of the correction candidate is automatically extracted and the correct character in the correction information 420 is added,
It is displayed on the display unit 35 together with the character image. By this processing, the operator visually confirms the character pattern 311 displayed on the display unit 35, collects the input character patterns 311 belonging to the same character category as one group using a keyboard or a mouse, and then Select or enter.
【0023】本実施例の処理は過去と同じ誤り傾向のも
のが存在すれば、検証情報や認識情報の中に、その文字
に対応する文字パターンを検出して表示部35に表示し
て、確認修正の対象にしたり、それを訂正候補の文字列
の中に入れて表示部35からオペレータに提示するもの
であって、誤認識文字の検出に有効に働くとともに、修
正のためにオペレータが入力する正解文字の入力回数を
低減できる。In the processing of the present embodiment, if there is the same error tendency as in the past, the character pattern corresponding to the character is detected in the verification information and the recognition information and displayed on the display unit 35 for confirmation. It is an object to be corrected or is put in a correction candidate character string and presented to the operator from the display unit 35, which works effectively for detection of misrecognized characters and is inputted by the operator for correction. The number of times the correct answer is input can be reduced.
【0024】本実施例は、未修正の認識情報の中からオ
ペレータの修正した履歴処理情報と同じ傾向を示す認識
情報や検証情報を自動的に抽出し、これを同一カテゴリ
ごとにまとめて修正操作ができるようにしたもので、こ
れにより、オペレータが修正した履歴情報を用いて効率
良く、しかも検出もれの少ない一括修正ができる。In this embodiment, the recognition information and the verification information showing the same tendency as the history processing information corrected by the operator are automatically extracted from the uncorrected recognition information, and the correction information is collectively collected for each same category. With this, the history information corrected by the operator can be used to efficiently make a batch correction with less omission of detection.
【0025】実施例3 図9は修正処理部36において、履歴情報410として
履歴情報格納部41に記録されているオペレータが選択
あるいは入力した正解文字の情報を利用して、後続の修
正処理を容易にできるようにした実施例のフローチャー
トである。これは先にオペレータが選択あるいは入力し
た正解文字の情報を履歴情報格納部41に保持してお
き、表示部35上に表示された種々の文字列に対し、そ
の中から同一の認識誤り候補の文字列をオペレータが選
択することによって、認識情報格納部31の中の誤認識
文字を、直前に入力した履歴情報410の正解文字に書
き換えるようにしたものである。また、この処理を繰り
返すことによって認識誤り候補の文字列の種々のカテゴ
リに対して正解文字に書き換えることができるようにし
たものである。まず、正解文字の選択・入力を同一カテ
ゴリを選択前に入力するのか、後に入力するのかを示す
「認識結果の修正モード」は、オペレータが変更可能な
システムのディフォルト値として与える。本実施例では
正解文字を選択前に入力する場合について、以下のステ
ップで処理を進める。この図で実線の部分は自動処理、
破線の部分はオペレータによる処理である。まず、認識
結果の修正モードを入力する(ステップ501)。表示
画面に表示された認識誤り候補の文字列に対して、オペ
レータが正解文字を入力する(ステップ501)。次
に、正解文字と同一カテゴリの認識誤り候補の文字列イ
メージを複数個選択する(ステップ503)。次に、選
択が終了した時点、すなわち同一画面表示で他のカテゴ
リに対する修正作業をするために次の正解文字を入力す
る時点、1つの修正情報での誤認識文字の修正作業を終
了する時点で選択された認識誤り候補の文字列(認識結
果)を正解文字に書き換える(ステップ504,50
5)。次に、同一画面表示で他のカテゴリに対する修正
作業を行うか否かを判定する(ステップ506)。最後
に、1つの検証情報や修正情報を用いて集められた同一
文字列格納部40内の認識誤りの候補文字がなくなった
か否かを判定する(ステップ507)。Embodiment 3 In FIG. 9, the correction processing unit 36 uses the correct character information selected or input by the operator as the history information 410 recorded in the history information storage unit 41 to facilitate the subsequent correction processing. 7 is a flowchart of an embodiment that can be performed. This is because the information on the correct character selected or input by the operator is held in the history information storage unit 41, and the same recognition error candidate is selected from among the various character strings displayed on the display unit 35. By selecting a character string by the operator, the erroneously recognized character in the recognition information storage unit 31 is rewritten to the correct character of the history information 410 input immediately before. Further, by repeating this process, it is possible to rewrite various categories of character strings of recognition error candidates into correct characters. First, a “recognition result correction mode” indicating whether the correct category is selected / input before or after selecting the same category is given as a default value of the system that can be changed by the operator. In this embodiment, in the case of inputting the correct character before selection, the process proceeds in the following steps. In this figure, the solid line part is automatic processing,
The broken line shows the processing by the operator. First, the recognition result correction mode is input (step 501). The operator inputs the correct character to the character string of the recognition error candidate displayed on the display screen (step 501). Next, a plurality of recognition error candidate character string images in the same category as the correct character are selected (step 503). Next, at the time when the selection is completed, that is, when the next correct answer character is input to perform correction work for another category on the same screen display, at the time when the correction work of the misrecognized character in one correction information is finished. The selected recognition error candidate character string (recognition result) is rewritten to the correct answer character (steps 504 and 50).
5). Next, it is determined whether or not the correction work for another category is performed on the same screen display (step 506). Finally, it is determined whether there are no recognition error candidate characters in the same character string storage unit 40 collected using one piece of verification information or correction information (step 507).
【0026】本実施例は、オペレータが入力した正解文
字を利用して同一の認識誤り候補の文字列、あるいは訂
正候補の文字列を正解文字に書き換えるようにしたもの
で、これにより、オペレータが正解情報の入力を行う必
要がなくなり、オペレータの確認修正作業の生産性が向
上する。In the present embodiment, the correct character input by the operator is used to rewrite the same character string of the recognition error candidate or the character string of the correction candidate to the correct character. Since it is not necessary to input information, the productivity of operator confirmation and correction work is improved.
【0027】実施例4 図10は、実施例4を説明するための表示部35の表示
画面の図であり、この場合修正部3の構成は図2と同じ
構成となっている。同一文字列抽出部39は、修正処理
部36の指示に従って同一文字列格納部40の内容を表
示部35に表示する際、認識誤り文字の前後に格納され
ている認識情報(文字パターン)も認識情報格納部31
の中から自動的に抽出し、これらを同時に表示部35に
表示する。ただし、類似する認識情報の前または後に認
識情報が存在しない場合は、修正対象の認識情報、すな
わち、入力文字パターン表示351の中央の文字に位置
するように認識情報の桁を合わせて表示部35に表示す
る。また、表示部35は同一カテゴリの認識情報が1画
面上に全て表示しきれない場合、画面切り替えモードを
表示部35に表示し、オペレータは、画面切り替えを行
ないながら認識と一括修正の処理を行う。オペレータは
表示部35に表示された修正対象の認識情報の文字種
を、その前後に表示された認識情報を参考に確認し、修
正入力部37を用いて同じ文字カテゴリを1つのグルー
プとしてまとめ修正処理を行う。Fourth Embodiment FIG. 10 is a diagram showing a display screen of the display unit 35 for explaining the fourth embodiment. In this case, the correction unit 3 has the same configuration as that of FIG. When the same character string extraction unit 39 displays the content of the same character string storage unit 40 on the display unit 35 according to the instruction of the correction processing unit 36, the same character string extraction unit 39 also recognizes the recognition information (character pattern) stored before and after the recognition error character. Information storage unit 31
Are automatically extracted and displayed on the display unit 35 at the same time. However, if there is no recognition information before or after the similar recognition information, the recognition information to be corrected, that is, the digit of the recognition information is aligned so that it is positioned at the center character of the input character pattern display 351, and the display unit 35 is displayed. To display. Further, when the display unit 35 cannot display all the recognition information of the same category on one screen, the screen switching mode is displayed on the display unit 35, and the operator performs the recognition and collective correction processing while switching the screens. . The operator confirms the character type of the recognition information of the correction target displayed on the display unit 35 with reference to the recognition information displayed before and after the correction information, and uses the correction input unit 37 to combine the same character categories into one group to perform a correction process. I do.
【0028】本実施例は、抽出された同一文字列および
その前後の文字を同時に表示部35に表示することによ
り、オペレータは当該同一文字列の文字カテゴリを前後
の文字から同形文字や類似文字の識別が容易に推測で
き、オペレータの確認作業を支援することができる。In the present embodiment, the extracted same character string and the characters before and after the same character string are simultaneously displayed on the display unit 35, so that the operator can change the character category of the same character string from the preceding and succeeding characters to the isomorphic characters and similar characters. The identification can be easily guessed, and the operator's confirmation work can be supported.
【0029】実施例5 本実施例5は修正部3において、検証処理の際の検証処
理結果の確からしさを信頼度323として算出し、その
結果を検証情報格納部32に記録しておくとともに、修
正情報を用いて同一文字列を抽出する際の同一文字列抽
出結果の確からしさを信頼度323として算出してお
き、後続の同一文字列抽出部39において前記文字列が
同じ、あるいは類似のカテゴリから成っているものを同
一のカテゴリの文字が誤ったものとみなし、その確から
しさを信頼度323として算出し、同一文字列抽出部3
9ではその信頼度の高い順から自動的に抽出するように
し、この情報を用いて同一のカテゴリをまとめて表示で
きるようにしたものである。Fifth Embodiment In the fifth embodiment, the correction unit 3 calculates the certainty of the verification process result at the time of the verification process as the reliability 323, and records the result in the verification information storage unit 32. The probability of the same character string extraction result when extracting the same character string using the correction information is calculated as the reliability 323, and the subsequent same character string extraction unit 39 uses the same character string or a similar category. Is regarded as an incorrect character in the same category, its certainty is calculated as the reliability 323, and the same character string extraction unit 3
In No. 9, the information is automatically extracted from the highest reliability, and the same category can be collectively displayed by using this information.
【0030】信頼度323は、特開昭62−18298
2号:“日本文誤字自動検出方式”などで示されるよう
に、連接する文字列の結合の強さの度合などとして求め
られるものを用いる場合と修正情報を用いる場合とがあ
る。前者の場合、同一文字列抽出部39は、修正処理部
36の指示に従って同一文字列格納部40の中から同一
カテゴリで、かつ連接の度合の高いものから選択して表
示部35に表示する。信頼度323として修正情報の中
の利用回数421を用いる場合は、修正情報が表記通り
の正解文字を表示して有効だった場合(正利用422)
と、有効に働かず他の文字が選択、あるいは入力された
場合(負利用423)との比較値を用い、比較値の高い
ものから選択して表示部35に表示する。The reliability 323 is determined by Japanese Patent Laid-Open No. 62-18298.
No. 2: As shown in "Japanese typographical error automatic detection method" and the like, there are cases where the one required as the degree of connection strength of the concatenated character strings is used and where correction information is used. In the case of the former, the same character string extraction unit 39 selects from the same character string storage unit 40 in accordance with the instruction of the correction processing unit 36, the one in the same category and the one having a high degree of connection, and displays it on the display unit 35. When the number of times of use 421 in the correction information is used as the reliability 323, when the correction information is valid by displaying the correct character as described (correct use 422)
When the other characters do not work effectively and are selected or input (negative use 423), the comparison value is used, and the one with the highest comparison value is selected and displayed on the display unit 35.
【0031】本実施例は、認識誤り候補の文字列、ある
いは訂正候補の文字列が同一カテゴリを示すものに対し
て、信頼度の高い順に抽出するもので、これにより、認
識結果に含まれる認識誤りの修正を効率的に行なうこと
ができる。In the present embodiment, a character string of a recognition error candidate or a character string of a correction candidate showing the same category is extracted in descending order of reliability. As a result, the recognition included in the recognition result is performed. Errors can be corrected efficiently.
【0032】実施例6 本実施例は認識の対象パターンが音声の場合を示すもの
である。音声認識の場合の修正部3において、同一音声
抽出部(同一文字列抽出部39に相当)では同一カテゴ
リを示す誤認識音声の候補が集められ、その音声のラベ
ル用の音声(カテゴリ名)に続いて集められた原音声が
信頼度の高い順に出力される。この時、原音声がラベル
の音声と同じカテゴリであれば、同一カテゴリであるこ
とを示す指示をタブレットやマウスなどの端末を用いて
行う。この指示された原音声に対応する誤認識音声の候
補を、ラベルとして出力された音声のカテゴリ名の示す
コード情報に変換することにより、誤認識音声が正解音
声に修正され、音声認識の確認修正を効率よく行うこと
ができる。Embodiment 6 This embodiment shows a case where a recognition target pattern is voice. In the correction unit 3 in the case of voice recognition, the same voice extraction unit (corresponding to the same character string extraction unit 39) collects candidates of misrecognized voices that indicate the same category, and adds them to the voice (category name) for the label of the voice. Subsequently, the collected original voices are output in the order of high reliability. At this time, if the original voice is in the same category as the voice of the label, an instruction indicating the same category is given using a terminal such as a tablet or a mouse. By converting the erroneously recognized voice candidate corresponding to the designated original voice to the code information indicated by the category name of the voice output as a label, the erroneously recognized voice is corrected to the correct voice, and the voice recognition confirmation and correction are performed. Can be done efficiently.
【0033】本実施例では、音声認識の場合を示したも
ので、誤認識音声の候補をまとめて音声出力し、同一の
音声だけを選択的に抽出した後、まとめて修正指示を行
って正解コードに変換することにより、効率よく確認修
正ができる。In the present embodiment, the case of voice recognition is shown, in which candidates of erroneously recognized voices are collectively output as voices, only the same voices are selectively extracted, and then correction instructions are collectively issued to make a correct answer. By converting it to a code, you can check and correct it efficiently.
【0034】[0034]
【発明の効果】以上説明したように本発明は、以下に示
すような効果がある。 (1)請求項1の発明は、未修正の認識結果の中で不自
然なものを検出し、その中で同一傾向を示す認識情報や
検証情報を自動的に抽出し、これを同一カテゴリごとに
まとめて一括修正の操作ができるようにしたことによ
り、オペレータの修正に要する時間を少なくすることが
でき、データ入力の生産性が向上すると共に、修正操作
を容易にすることができる。 (2)請求項2の発明は、未修正の認識結果の中からオ
ペレータが修正した履歴情報と同じ傾向を示す認識情報
や検証情報を自動的に抽出し、これを同一カテゴリごと
にまとめて一括修正の操作ができるようにしたことによ
り、履歴情報を用いて効率良く、しかも検出もれの少な
い一括修正できる。 (3)請求項3の発明は、オペレータが選択あるいは入
力した正解文字または正解コードを利用して、同一の認
識誤り候補の文字列またはコード列、あるいは訂正候補
の文字列またはコード列を正解文字または正解コードに
書き換えるようにしたことにより、オペレータが正解情
報の入力を行う必要がなくなり、オペレータの確認修正
作業の生産性が向上する。 (4)請求項4の発明は、抽出された同一文字列または
同一コード列およびその前後の文字またはコードを同時
に表示部に表示することにより、オペレータは当該同一
文字列または同一コード列の文字カテゴリを前後の文字
またはコードから同形文字または同形コードや類似文字
または類似コードの識別が容易に推測でき、オペレータ
の確認作業を支援することができる。 (5)請求項5の発明は、認識誤り候補の文字列または
コード列、あるいは訂正候補の文字列またはコード列が
同一カテゴリを示すものに対して、信頼度の高い順に自
動的に抽出することにより、認識結果に含まれる認識誤
りの修正を効率的に行うことができる。As described above, the present invention has the following effects. (1) The invention of claim 1 detects an unnatural recognition result among uncorrected recognition results, and automatically extracts recognition information and verification information showing the same tendency, and extracts the recognition information and the verification information from each unrecognized recognition result for each same category. By collectively performing the batch correction operation, the time required for the correction by the operator can be reduced, the productivity of data input can be improved, and the correction operation can be facilitated. (2) The invention of claim 2 automatically extracts the recognition information and the verification information showing the same tendency as the history information corrected by the operator from the uncorrected recognition results, and collectively collects them in the same category. By making the correction operation possible, it is possible to make a batch correction efficiently using history information and with little detection error. (3) The invention according to claim 3 uses the correct character or the correct code selected or input by the operator to convert the same recognition error candidate character string or code string or correction candidate character string or code string to the correct character. Alternatively, by rewriting the correct answer code, the operator does not need to input the correct answer information, and the productivity of the operator's confirmation and correction work is improved. (4) According to the invention of claim 4, by displaying the extracted same character string or the same code string and the characters or codes before and after the same character string on the display unit at the same time, the operator can display the same character string or the character category of the same code string. It is possible to easily infer the homomorphic character or the homomorphic code or the similar character or the similar code from the preceding or following characters or codes, and it is possible to support the operator's confirmation work. (5) The invention according to claim 5 is to automatically extract the recognition error candidate character strings or code strings or the correction candidate character strings or code strings in the same category in descending order of reliability. As a result, it is possible to efficiently correct the recognition error included in the recognition result.
【図1】本発明の一実施例の文字認識装置の構成図であ
る。FIG. 1 is a configuration diagram of a character recognition device according to an embodiment of the present invention.
【図2】図1中の修正部3の構成図である。FIG. 2 is a configuration diagram of a correction unit 3 in FIG.
【図3】図2中の認識情報格納部31中の認識情報の内
容を示す図である。FIG. 3 is a diagram showing the contents of recognition information in a recognition information storage unit 31 in FIG.
【図4】図2中の検証情報格納部32中の検証情報の内
容を示す図である。4 is a diagram showing the contents of verification information in a verification information storage unit 32 in FIG.
【図5】図2中の同一文字列抽出部39およびオペレー
タが行なう処理を示すフローチャートである。FIG. 5 is a flowchart showing processing performed by the same character string extraction unit 39 and an operator in FIG.
【図6】オペレータが同じ文字カテゴリをまとめて修正
する場合の表示部35の表示を示す図である。FIG. 6 is a diagram showing a display of a display unit 35 when an operator collectively modifies the same character category.
【図7】表示部35における認識結果の表示を示す図で
ある。7 is a diagram showing a display of a recognition result on the display unit 35. FIG.
【図8】図7の履歴情報410から重複する情報を除去
した修正情報420を示す図である。8 is a diagram showing correction information 420 obtained by removing redundant information from the history information 410 of FIG.
【図9】オペレータが選択あるいは入力した正解文字の
情報を利用して後続の修正処理を容易にできるようにし
た実施例3のフローチャートである。FIG. 9 is a flow chart of a third embodiment in which information on correct characters selected or input by an operator is used to facilitate subsequent correction processing.
【図10】実施例4における表示部35の内容を説明す
るための図である。FIG. 10 is a diagram for explaining the contents of the display unit 35 in the fourth embodiment.
【図11】文字認識装置の従来例の構成図である。FIG. 11 is a configuration diagram of a conventional example of a character recognition device.
【図12】図11の文字認識装置の修正部3Aの構成図
である。12 is a configuration diagram of a correction unit 3A of the character recognition device of FIG.
1 入力部 2 認識部 3,3A 修正部 4 出力部 5 制御部 30 検証処理部 31 認識情報格納部 32 検証情報格納部 33 言語処理部 34 表示処理部 35 表示部 36,36A 修正処理部 37 修正入力部 38 修正済み情報格納部 39 同一文字列抽出部 40 同一文字列格納部 41 履歴情報格納部 42 修正情報格納部 311 入力文字パターン 312 文字の特徴 313 認識結果 314 候補文字 315 距離値 316 位置情報 317 選択情報 321 認識誤り候補の文字列 322 認識誤り候補の文字列が存在する認識情報の
格納アドレス 323 信頼度 324 訂正候補の文字列 351 入力文字パターン表示 352 認識結果の文字表示 353 訂正候補の文字列表示 354 選択入力文字パターン群表示 355 否選択入力文字パターン群表示 391〜394 ステップ 410 履歴情報 411 正解文字 412 言語履歴情報 413 入力履歴情報 420 修正情報 421 利用回数 422 正利用回数 423 負利用回数 501〜507 ステップDESCRIPTION OF SYMBOLS 1 Input section 2 Recognition section 3, 3A Correction section 4 Output section 5 Control section 30 Verification processing section 31 Recognition information storage section 32 Verification information storage section 33 Language processing section 34 Display processing section 35 Display section 36, 36A Correction processing section 37 Correction Input unit 38 Corrected information storage unit 39 Same character string extraction unit 40 Same character string storage unit 41 History information storage unit 42 Correction information storage unit 311 Input character pattern 312 Character characteristics 313 Recognition result 314 Candidate character 315 Distance value 316 Position information 317 Selection information 321 Character string of recognition error candidate 322 Storage address of recognition information in which character string of recognition error candidate exists 323 Reliability 324 Character string of correction candidate 351 Input character pattern display 352 Character display of recognition result 353 Character of correction candidate Column display 354 Selected input character pattern group display 355 No selected input character pattern Turn group display 391 to 394 steps 410 History information 411 Correct characters 412 Language history information 413 Input history information 420 Correction information 421 Number of uses 422 Positive number of uses 423 Negative number of uses 501 to 507 steps
Claims (5)
動的に認識し、認識結果を検証、および確認修正するの
に必要な認識情報、すなわち認識処理系から得られる入
力文字イメージまたは音声、文字の特徴または音声の特
徴、認識結果、認識結果に含まれる候補情報である候補
文字または候補コードと距離値、あるいは類似度を保存
しておく認識情報格納部と、前記認識情報に対して言語
処理や候補情報による検証を施し、認識誤り候補の文字
列またはコード列、およびそれらの文字列またはコード
列に対する訂正候補の文字列またはコード列を抽出して
検証情報格納部に記憶しておく検証処理部等を有し、文
字パターン情報またはコード列情報を計算機で処理でき
るようなコードデータに変換する修正部を含むパターン
認識装置において、 前記検証情報格納部中の認識誤り候補の文字列またはコ
ード列、あるいはそれらの訂正候補の文字列またはコー
ド列が同じ、あるいは類似のカテゴリから成っているも
のを同一カテゴリの文字またはコードが誤ったものと見
なして自動的に抽出する同一文字列またはコード列抽出
部と、 該同一文字列またはコード列抽出部で得られた複数の同
一、あるいは類似のカテゴリの文字列群またはコード列
群を入力文字イメージまたは入力音声とともに表示部に
表示し、オペレータが文字列またはコード列を複数個選
択し、複数カ所を一度に正解文字または正解音声に変換
したり、新たな正解文字または正解コードを入力したり
できるようにする修正処理部とを備えたことを特徴とす
るパターン認識装置。1. Recognition information necessary for automatically recognizing pattern information such as characters, figures, voices, and verifying and confirming and correcting the recognition result, that is, an input character image or voice obtained from a recognition processing system, A recognition information storage unit that stores a character feature or a voice feature, a recognition result, a candidate character or a candidate code that is candidate information included in the recognition result, a distance value, or similarity, and a language for the recognition information. Verification that performs verification by processing and candidate information, extracts character strings or code strings of recognition error candidates, and character strings or code strings of correction candidates for those character strings or code strings and stores them in the verification information storage unit In a pattern recognition device having a processing unit and the like, including a correction unit for converting character pattern information or code string information into code data that can be processed by a computer, A character string or code string of a recognition error candidate in the verification information storage unit, or a character string or code string of those correction candidates that are the same or similar to each other has a wrong character or code in the same category. Input the same character string or code string extraction unit that is automatically regarded as one and a plurality of same or similar category character string groups or code string groups obtained by the same character string or code string extraction unit It is displayed on the display along with the character image or input voice, the operator selects multiple character strings or code strings, converts multiple places at once into correct characters or correct voices, or inputs a new correct character or correct code. A pattern recognition device, comprising:
解文字または正解コード、認識誤り候補の文字列または
コード列と、訂正候補の文字列またはコード列と、認識
情報とを蓄積する履歴情報格納部と、修正情報格納部を
備え、 前記修正部は、該履歴情報格納部の履歴情報の中の重複
する情報を1つにまとめて他の情報を除去し、同一カテ
ゴリが答えになると思われる情報を選択・まとめるため
の修正情報を算出して前記修正情報格納部に格納し、検
証情報および認識情報の中から前記修正情報格納部内の
修正情報と同一の認識誤り候補の文字列またはコード
列、あるいは同一の訂正候補の文字列またはコード列を
検出し、前記文字列またはコード列が同じ、あるいは類
似のカテゴリからなっているものを同一カテゴリの文字
または音声が誤ったものと見なして自動的に抽出する請
求項1記載のパターン認識装置。2. A history information storage unit for accumulating correct characters or correct codes selected or input by an operator, character strings or code strings of recognition error candidates, character strings or code strings of correction candidates, and recognition information. , A correction information storage unit, wherein the correction unit collects duplicate information in the history information of the history information storage unit into one and removes other information, The correction information for selecting / combining is calculated and stored in the correction information storage unit, and a character string or a code string of the same recognition error candidate as the correction information in the correction information storage unit from the verification information and the recognition information, or The same correction candidate character string or code string is detected, and if the character string or code string has the same or similar category, the character or voice of the same category is detected. Pattern recognition apparatus according to claim 1, wherein automatically extracting it is assumed that Tsu.
は入力した正解文字または正解コードを利用して、前記
表示部上に表示された複数の文字列またはコード列の中
から同一の認識誤り候補の文字列またはコード列、ある
いは訂正候補の文字列またはコード列をオペレータが選
択した正解文字または正解コードに書き換える機能と、
この処理を繰り返すことによって認識誤り候補の文字列
またはコード列の種々のカテゴリに対して正解文字また
は正解コードに修正する機能を有する、請求項2記載の
パターン認識装置。3. The correction unit uses the correct character or the correct code selected or input by the operator to identify the same recognition error candidate from a plurality of character strings or code strings displayed on the display unit. A function to rewrite a character string or code string, or a correction candidate character string or code string to the correct character or correct code selected by the operator,
3. The pattern recognition device according to claim 2, which has a function of correcting various categories of character strings or code strings of recognition error candidates into correct characters or correct codes by repeating this process.
字列またはコード列、あるいは訂正候補の文字列または
コード列、文字イメージまたは入力音声、およびその前
後に格納されている認識情報を前記認識情報格納部の中
から自動的に抽出し、これらを同時に前記表示部に表示
する請求項1または2記載のパターン認識装置。4. The correction unit stores the same character string or code string of a recognition error candidate, a character string or code string of a correction candidate, a character image or an input voice, and recognition information stored before and after the character information. 3. The pattern recognition device according to claim 1, wherein the pattern recognition device automatically extracts from the recognition information storage unit and simultaneously displays them on the display unit.
の中から前記修正情報格納部内の修正情報と同一の認識
誤り候補の文字列またはコード列、あるいは同一の訂正
候補の文字列またはコード列の確からしさを信頼度とし
て算出する同一文字列または同一コード列検出の機能
と、前記文字列または前記コード列が同じ、あるいは類
似のカテゴリから成っているものを同一カテゴリの文字
またはコードが誤ったものと見なし、その確からしさを
信頼度として算出するとともに信頼度の高い順から自動
的に抽出する機能を有する請求項1または2記載のパタ
ーン認識装置。5. The correction unit includes a character string or a code string of a recognition error candidate that is the same as the correction information in the correction information storage unit from the verification information and the recognition information, or a character string or a code string of the same correction candidate. The same character string or the same code string detection function that calculates the probability of reliability as the reliability, and the character string or the code string that is the same or similar category is the same character or code is wrong 3. The pattern recognition apparatus according to claim 1, wherein the pattern recognition apparatus has a function of calculating the reliability as a reliability and automatically extracting the reliability from the highest reliability.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4217946A JPH0668261A (en) | 1992-08-17 | 1992-08-17 | Pattern recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4217946A JPH0668261A (en) | 1992-08-17 | 1992-08-17 | Pattern recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0668261A true JPH0668261A (en) | 1994-03-11 |
Family
ID=16712188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4217946A Pending JPH0668261A (en) | 1992-08-17 | 1992-08-17 | Pattern recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0668261A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002279353A (en) * | 2001-03-15 | 2002-09-27 | Ricoh Co Ltd | Character recognition device, method therefor, and recording medium |
-
1992
- 1992-08-17 JP JP4217946A patent/JPH0668261A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002279353A (en) * | 2001-03-15 | 2002-09-27 | Ricoh Co Ltd | Character recognition device, method therefor, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2641225C2 (en) | Method of detecting necessity of standard learning for verification of recognized text | |
JPH0696263A (en) | Pattern recognizing device | |
JP3394694B2 (en) | Format information registration method and OCR system | |
JPH0668261A (en) | Pattern recognizing device | |
JPH0612520A (en) | Confirming and correcting system for character recognizing device | |
KR950001061B1 (en) | Correcting apparatus for recognizing document | |
JP2890788B2 (en) | Document recognition device | |
JP2002207960A (en) | Method and program for recognized character correction | |
JPH06119483A (en) | Character reader | |
JPS61163472A (en) | Character recognizing device | |
JP3270551B2 (en) | Character recognition device and character recognition method | |
JPH0636066A (en) | Confirming and correcting process system of character recognizing device | |
JPH03240183A (en) | Automatic correction system for recognized character | |
JPH06251187A (en) | Method and device for correcting character recognition error | |
JP2024081434A (en) | Computer system and graph recognizing method | |
CN117422070A (en) | Calculation question reading method and system based on lexical analysis feedback | |
CN117273001A (en) | Medical record entity extraction method and device | |
JP2953162B2 (en) | Character recognition device | |
JP2669897B2 (en) | How to correct misread characters | |
JPH0520492A (en) | Document recognizing/correcting device | |
JPH06195514A (en) | Character recognizing device | |
JPH04268684A (en) | Method for correcting recognition character | |
JPS63143684A (en) | Method for correcting recognized result in character recognizing device | |
JPH0713991A (en) | Mistaken character corrector | |
JPH07129651A (en) | Input editing method for automatic drawing recognizing device |