JPH05298474A - Optical character reader - Google Patents

Optical character reader

Info

Publication number
JPH05298474A
JPH05298474A JP4104215A JP10421592A JPH05298474A JP H05298474 A JPH05298474 A JP H05298474A JP 4104215 A JP4104215 A JP 4104215A JP 10421592 A JP10421592 A JP 10421592A JP H05298474 A JPH05298474 A JP H05298474A
Authority
JP
Japan
Prior art keywords
character
recognition
correction
misread
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4104215A
Other languages
Japanese (ja)
Other versions
JP2829186B2 (en
Inventor
Masanori Terasaki
正則 寺崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4104215A priority Critical patent/JP2829186B2/en
Publication of JPH05298474A publication Critical patent/JPH05298474A/en
Application granted granted Critical
Publication of JP2829186B2 publication Critical patent/JP2829186B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To provide an optical character reader where an erroneous reading character is efficiency and surely corrected. CONSTITUTION:This device is provided with a scanner 1, a character segmenting part 2, a recognizing part 3, a recognized result storing part 4, a correcting part 5, an input part 6 and a display part 7. The correcting part 5 displays a recognized result by the recognizing part 3 in the display part 7. An operator operated the input part 6 on the display screen of the display part 7 and designates the erroneous reading character in an object to be replaced, its attribution information, a correction character (right character) and a replacing mode (recognition replacement and forced replacement). The correcting part 5 retrieves a recognition character which is the character having the same character code as that of the erroneous reading character designated by the recognition result storing part 4 and also having the same attribution information as designated attribution information. The correcting part 5 replaces the retrieved recognition character (erroneous reading character) with the correction character in accordance with the designated replacing mode.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、光学的文字読取装置に
関し、より詳しくは認識文字に含まれる誤読文字の修正
機能を有する光学的文字読取装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical character reader, and more particularly to an optical character reader having a function of correcting misread characters included in recognized characters.

【0002】[0002]

【従来の技術】光学的文字読取装置は、原稿に記入され
た文字を文字コード化した認識文字(認識結果)として
読取るものである。しかしながら、現状では、誤読文字
のない完全な文字認識結果を得ることは困難であるた
め、オペレータによる修正作業を要する。
2. Description of the Related Art An optical character reading device reads a character written on a document as a character-recognized character (recognition result). However, under the present circumstances, it is difficult to obtain a complete character recognition result without misreading characters, and therefore correction work by an operator is required.

【0003】その修正作業は、従来、オペレータが認識
結果と原稿とを見比べて、光学的文字読取装置の誤読文
字を1文字づつ修正して行っていた。この修正の方法に
は、一般的なカナ漢字変換を用いて修正する方法と、光
学的文字読取装置が出力した候補文字列からオペレータ
が選択する方法とがある。
Conventionally, the correction work is performed by the operator comparing the recognition result with the original and correcting the misread characters of the optical character reading device one by one. This correction method includes a method of correcting using a general Kana-Kanji conversion and a method of selecting from a candidate character string output by the optical character reading device by an operator.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、いずれ
の修正方法でも、認識結果が短い場合にはさほど修正時
間を要さないが、一般文書等の如く長い場合には、文字
数に比例して修正時間を要し、オペレータに負担となっ
ていた。
However, in any of the correction methods, when the recognition result is short, the correction time is not so long, but when it is long as in a general document, the correction time is proportional to the number of characters. It was a burden to the operator.

【0005】また、修正作業が単調であることから、誤
読文字を見逃し易いという問題もあった。
Further, since the correction work is monotonous, there is a problem that it is easy to overlook a misread character.

【0006】そこで、本発明は、上記事情に鑑みてなさ
れたものであり、誤読文字の修正を効率的、かつ、確実
に行うことが可能な光学的文字読取装置を提供すること
を目的とする。
Therefore, the present invention has been made in view of the above circumstances, and an object of the present invention is to provide an optical character reading device capable of efficiently and reliably correcting a misread character. ..

【0007】[0007]

【課題を解決するための手段】上記目的を達成するため
に請求項1記載の発明は、原稿に記入された文字を文字
コード化した認識文字として読取る光学的文字読取装置
において、前記認識文字を格納する認識結果格納部と、
前記認識文字に含まれる誤読文字及び修正文字の指定に
基づき、前記認識結果格納部から前記指定された誤読文
字と同一の文字コードを有する認識文字を検索し、その
検索した認識文字を前記修正文字に置換する修正部とを
有することを特徴とするものである。
In order to achieve the above object, the invention according to claim 1 is an optical character reading apparatus for reading a character written on a manuscript as a character-coded recognized character, wherein the recognized character is A recognition result storage unit to store,
Based on the designation of the misread character and the corrected character included in the recognized character, the recognition result storage unit is searched for a recognized character having the same character code as the designated misread character, and the found recognized character is the corrected character. And a correction unit for replacing

【0008】また、請求項2記載の発明は、原稿に記入
された文字をその属性情報と共に文字コード化した認識
文字として読取る光学的文字読取装置において、前記認
識文字及びその属性情報を格納する認識結果格納部と、
前記認識文字に含まれる誤読文字,その属性情報及び修
正文字の指定に基づき、前記認識結果格納部から前記指
定された誤読文字と同一の文字コードを有する認識文字
であって、前記指定された属性情報と同一の属性情報を
有する認識文字を検索し、その検索した認識文字を前記
修正文字に置換する修正部とを有することを特徴とする
ものである。
According to a second aspect of the present invention, in an optical character reading device for reading a character written on a manuscript together with its attribute information as a recognized character, the recognition character and its attribute information are stored. A result store,
A recognition character having the same character code as the specified misread character from the recognition result storage unit based on the specification of the misread character included in the recognized character, its attribute information, and the correction character, and the specified attribute It is characterized by including a correction unit that searches for a recognized character having the same attribute information as the information and replaces the searched recognized character with the corrected character.

【0009】また、請求項3記載の発明は、請求項1又
は2記載の発明において、前記修正部による置換は、選
択された置換モードに応じて行うものである。
According to a third aspect of the invention, in the first or second aspect of the invention, the replacement by the correction unit is performed according to the selected replacement mode.

【0010】[0010]

【作用】請求項1記載の発明によれば、一定の形式で記
入された文字を一定の読取装置で読取った場合には、認
識文字にはほぼ一定の誤読文字が含まれる。従って、認
識文字に含まれる1つの誤読文字及び修正文字を指定す
ることにより、修正部は全ての誤読文字(認識文字)を
検索することになる。そして、修正部は、その検索した
認識文字を修正文字に置換する。これにより、オペレー
タが誤読文字を1文字づつ修正する必要がなくなり、誤
読文字の修正を効率的、かつ、確実に行うことが可能と
なる。
According to the first aspect of the invention, when a character written in a certain format is read by a certain reading device, the recognized character includes a substantially constant misread character. Therefore, by designating one misread character and a corrected character included in the recognized character, the correction unit searches all the misread characters (recognized characters). Then, the correction unit replaces the retrieved recognized character with the corrected character. This eliminates the need for the operator to correct the misread character one by one, and the misread character can be corrected efficiently and reliably.

【0011】請求項2記載の発明によれば、一定の形式
で記入された文字を一定の読取装置で読取った場合に
は、認識文字にはほぼ一定の誤読文字が含まれる。従っ
て、認識文字に含まれる1つの誤読文字,その属性情報
及び修正文字を指定することにより、修正部は全ての誤
読文字(認識文字)を検索することになる。そして、修
正部は、その検索した認識文字を修正文字に置換する。
これにより、オペレータが誤読文字を1文字づつ修正す
る必要がなくなり、誤読文字の修正を効率的、かつ、確
実に行うことが可能となる。また、置換対象の誤読文字
の特定がより正確となる。
According to the second aspect of the present invention, when a character written in a certain format is read by a certain reading device, the recognized character includes a substantially constant misread character. Therefore, by designating one misread character included in the recognized character, its attribute information, and the modified character, the modification unit searches all the misread characters (recognized characters). Then, the correction unit replaces the retrieved recognized character with the corrected character.
This eliminates the need for the operator to correct the misread character one by one, and the misread character can be corrected efficiently and reliably. In addition, the identification of the misread character to be replaced becomes more accurate.

【0012】請求項3記載の発明によれば、認識文字に
含まれる誤読文字が一定しているか否かに応じて置換モ
ードを選択することにより、より効率の良い修正が可能
となる。
According to the third aspect of the present invention, more efficient correction can be performed by selecting the replacement mode depending on whether or not the misread characters included in the recognized characters are constant.

【0013】[0013]

【実施例】以下、本発明の実施例を図面を参照して詳述
する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0014】図1は本発明の光学的文字読取装置の一実
施例を示す概略構成図である。
FIG. 1 is a schematic block diagram showing an embodiment of the optical character reading apparatus of the present invention.

【0015】本装置は、原稿10のイメージを検出する
スキャナ1と、その検出された原稿イメージから文字パ
ターンを切出すと共に、その切出した文字パターンの属
性情報を検出する文字切出し部2と、文字切出し部2が
切出した文字パターンについて文字認識処理を行い文字
コード化した認識文字を得る認識部3と、認識文字,属
性情報を含む認識結果を格納する認識結果格納部4と、
認識文字に含まれる誤読文字を修正するための修正部5
と、同じく誤読文字を修正するためのキーボード,マウ
ス等を備えた入力部6及びCRTディスプレイの如き表
示部7とを有して構成されている。
This apparatus comprises a scanner 1 for detecting an image of an original document 10, a character cutout section 2 for cutting out a character pattern from the detected original image, and a character cutting section 2 for detecting attribute information of the cut out character pattern, and a character. A recognition unit 3 which obtains a character-coded recognition character by performing character recognition processing on the character pattern cut out by the cut-out unit 2; a recognition result storage unit 4 which stores a recognition result including the recognition character and attribute information;
Correction unit 5 for correcting misread characters included in recognized characters
And a display section 7 such as a CRT display and an input section 6 having a keyboard and a mouse for correcting misread characters.

【0016】次に、上記各部の詳細を説明する。Next, the details of each of the above parts will be described.

【0017】前記スキャナ1は、原稿10上に光を照射
する光源と、原稿10からの反射光を受けて電気信号に
変換する光電変換素子とを備え、原稿10全体を光学的
に走査して原稿イメージを検出するものである。
The scanner 1 includes a light source for irradiating the original 10 with light and a photoelectric conversion element for receiving the reflected light from the original 10 and converting it into an electric signal, and optically scans the entire original 10. The original image is detected.

【0018】前記文字切出し部2は、スキャナ1が検出
した原稿イメージから1文字毎に文字パターンを切出す
と共に、その切出した文字パターンの属性情報を検出
し、切出す前の原稿イメージと共に各文字パターン及び
その属性情報を認識部3に出力するようになっている。
文字切出し部2が検出する属性情報には、例えば、文字
パターンの位置(座標),文字パターンのサイズ(横,
縦),辞書タイプ(活字,手書き),特徴ベクトル(n
次元のベクトル)等がある。
The character cut-out unit 2 cuts out a character pattern for each character from the document image detected by the scanner 1, detects attribute information of the cut-out character pattern, and detects each character together with the document image before cutting. The pattern and its attribute information are output to the recognition unit 3.
The attribute information detected by the character cutout unit 2 includes, for example, the position (coordinates) of the character pattern, the size of the character pattern (horizontal,
Vertical), dictionary type (print, handwriting), feature vector (n
Dimensional vector) etc.

【0019】前記認識部3は、候補文字パターンを格納
する候補文字メモリを備え、文字切出し部2が切出した
文字パターンについて文字認識処理を行い、候補文字列
を出力するものである。ここで行う文字認識処理として
は、例えば重ね合わせ法(パターンマッチング法)によ
り行われる。すなわち、原稿イメージから切出した文字
パターンと候補文字メモリに格納している候補文字パタ
ーンとを照合して類似度値を演算して求め、類似度値の
最も大きい第1候補文字から順に第n候補文字まで複数
の候補文字を決定するものである。なお、ここでの文字
認識処理は、パターンマッチング法に限定されず、他の
方法を用いてもよい。
The recognition unit 3 has a candidate character memory for storing candidate character patterns, performs character recognition processing on the character patterns cut out by the character cutting unit 2, and outputs candidate character strings. The character recognition processing performed here is performed by, for example, a superposition method (pattern matching method). That is, the character pattern cut out from the original image is compared with the candidate character pattern stored in the candidate character memory to calculate the similarity value, and the first candidate character having the largest similarity value is sequentially selected from the nth candidate character. Up to a character, a plurality of candidate characters are determined. The character recognition process here is not limited to the pattern matching method, and other methods may be used.

【0020】前記認識結果格納部4は、認識ファイル,
候補ファイル及びイメージファイルから構成されてい
る。認識ファイルには、認識部3による認識文字(文字
コード)と共に、文字切出し部2により検出された属性
情報がその認識文字に関連付けて格納される。また、候
補ファイルには、認識部3が決定した候補文字列が格納
される。また、イメージファイルには、1原稿分のイメ
ージ(図,写真等の部分イメージを含む)が格納され
る。そして、誤読文字の修正作業には、認識ファイル及
び候補ファイルが用いられる。なお、行イメージファイ
ルを設けて、原稿10の行毎のイメージをこの行イメー
ジファイルに格納しておいてもよい。
The recognition result storage unit 4 stores a recognition file,
It is composed of a candidate file and an image file. In the recognition file, the recognition character (character code) by the recognition unit 3 and the attribute information detected by the character cutout unit 2 are stored in association with the recognition character. Further, the candidate file stores the candidate character strings determined by the recognition unit 3. Further, the image file stores an image of one document (including partial images such as drawings and photographs). Then, the recognition file and the candidate file are used to correct the misread character. A line image file may be provided and an image of each line of the document 10 may be stored in this line image file.

【0021】前記修正部5は、この装置の各部の制御を
司ると共に、後述する表示制御,誤読文字の検索処理,
置換処理等を行うCPU50と、このCPU50に接続
された誤読文字メモリ51,修正文字メモリ52,プロ
グラムメモリ53を具備している。
The correction section 5 controls each section of this apparatus, and also controls display described later, search processing for misread characters,
It is provided with a CPU 50 that performs replacement processing and the like, a misread character memory 51, a corrected character memory 52, and a program memory 53 connected to this CPU 50.

【0022】誤読文字メモリ51及び修正文字メモリ5
2は、CPU50の制御の下に、入力部6にて選択(入
力)された誤読文字又は修正文字(正解文字)をそれぞ
れ格納するものである。また、プログラムメモリ53に
は、誤読文字を修正するための動作プログラムが格納さ
れている。CPU50はその動作プログラムに従って動
作するものである。
Misread character memory 51 and modified character memory 5
Under the control of the CPU 50, 2 stores the misread character or the corrected character (correct character) selected (input) by the input unit 6, respectively. Further, the program memory 53 stores an operation program for correcting misread characters. The CPU 50 operates according to the operation program.

【0023】CPU50が行う表示制御について説明す
る。
The display control performed by the CPU 50 will be described.

【0024】CPU50は、認識結果格納部4の各ファ
イルに格納した認識結果(認識文字,原稿イメージ等)
から所定のフォーマットで作成した修正画面(後述)を
表示制御により表示部7に表示するものであり、修正条
件(検索,置換条件)の設定段階においては、修正条件
設定画面(後述)を表示制御により表示部7に表示する
ものである。
The CPU 50 recognizes the recognition result (recognition character, original image, etc.) stored in each file of the recognition result storage unit 4.
A correction screen (described later) created in a predetermined format from is displayed on the display unit 7 by display control. At the stage of setting correction conditions (search and replacement conditions), a correction condition setting screen (described later) is displayed and controlled. Is displayed on the display unit 7.

【0025】その修正画面の一例を図2に示す。同図の
画面の右上には原稿10のレイアウト70が表示され、
同図の画面の中央にはカーソル(例えば青色)71が現
在表示されているブロック72a及びそれに続く他のブ
ロック72bの内容が表示され、画面下にはカーソル7
1が現在表示されている行イメージ73が表示され、画
面右下には画面中央に表示されたブロック72に重なる
ようにウインドウが開かれ候補文字列74が重畳表示さ
れる。なお、行イメージ73は、CPU50により認識
結果格納部4のイメージファイルに格納されている原稿
イメージから対応する行イメージが切出されて表示され
る。同図は、具体的にはカーソル71はレイアウト70
中斜線を施したブロック72a中の文字「ヰ」の下に表
示され、行イメージ73として「2.日本語テヰストリ
ー」が表示され、候補文字列74として、第1候補文字
は「ヰ」、第2候補文字は「キ」、第3候補文字は
「午」、第4候補文字は「中」、第5候補文字は
「ギ」、第6候補文字は「半」が表示されている状態を
示している。
An example of the correction screen is shown in FIG. The layout 70 of the manuscript 10 is displayed in the upper right of the screen of FIG.
At the center of the screen in the figure, the contents of the block 72a in which the cursor (for example, blue) 71 is currently displayed and the other blocks 72b following it are displayed, and the cursor 7 is displayed at the bottom of the screen.
A line image 73 in which 1 is currently displayed is displayed, a window is opened in the lower right part of the screen so as to overlap the block 72 displayed in the center of the screen, and a candidate character string 74 is displayed in an overlapping manner. The line image 73 is displayed by the CPU 50 by cutting out the corresponding line image from the document image stored in the image file of the recognition result storage unit 4. In the figure, specifically, the cursor 71 is the layout 70.
It is displayed below the character “ヰ” in the block 72a with a diagonal line, “2. Japanese test” is displayed as the line image 73, and the first candidate character is “ヰ”, 2 The candidate character is "ki", the third candidate character is "noon", the fourth candidate character is "medium", the fifth candidate character is "gi", and the sixth candidate character is "half". Shows.

【0026】また、修正条件設定画面の一例を図3に示
す。同図に示す画面の枠内には上から順に置換対象文字
(誤読文字)「ヰ」、修正文字(正解文字)「キ」、属
性指定(有効,無効)、ブロック(全ブロック,現在の
ブロック)、パターンサイズ(横,縦)、辞書タイプ
(有り,無し,活字,手書き,活字・手書き)、特徴ベ
クトルマッチング(有り,無し)、置換モード(確認置
換,強制置換)、確認キー(YES,NO)が表示され
ている。同図は、誤読文字「ヰ」を修正文字「キ」に変
更することを示している。また、同図中、二重丸の印の
中央の円内が黒塗りとなっているものは、それが指定さ
れていることを示している。従って、同図は、属性指定
は有効が選択され、検索,置換対象のブロックは全ブロ
ックが選択され、パターンサイズは横縦共に5mm±1
mm以内が入力され、辞書タイプは有り及び活字が選択
され、特徴ベクトルマッチングは有りが選択され、置換
モードは確認置換が選択されている状態を示している。
An example of the correction condition setting screen is shown in FIG. In the frame of the screen shown in the figure, the replacement target character (misread character) "ヰ", the correction character (correct character) "ki", the attribute specification (valid, invalid), block (all blocks, current block) ), Pattern size (horizontal, vertical), dictionary type (yes / no, print, handwriting, print / handwriting), feature vector matching (yes / no), replacement mode (confirmation replacement, forced replacement), confirmation key (YES, NO) is displayed. The figure shows that the misread character "ヰ" is changed to the corrected character "ki". Also, in the figure, the black circle in the center of the double circle mark indicates that it is designated. Therefore, in the figure, the attribute designation is selected to be valid, all the blocks to be searched and replaced are selected, and the pattern size is 5 mm ± 1 in both horizontal and vertical directions.
A value within mm is input, the dictionary type is set to “Yes” and the type is selected, “Feature vector matching” is set to “Yes”, and the replacement mode is set to “confirmed replacement”.

【0027】CPU50が行う検索処理(サーチ処理)
について図3を参照して説明する。
Search process (search process) performed by the CPU 50
Will be described with reference to FIG.

【0028】図3に示す画面上で、オペレータによる入
力部6のマウス又はキーボードの操作により、各属性情
報の選択等ができるようになっている。入力部6にて検
索条件として誤読文字,修正文字が指定されており、属
性指定は無効が選択されている場合、CPU50は誤読
文字と同一の文字コードを有する認識文字を認識結果格
納部4の認識ファイルから検索するものである。また、
入力部6にて検索条件として誤読文字,修正文字が指定
されており、属性指定は有効が選択されている場合、そ
の指定された誤読文字と同一の文字コードを有する認識
文字であって、指定された属性情報と同一(一定の範囲
内での同一を意味する)の属性情報を有する認識文字を
認識結果格納部4の認識ファイルから検索するものであ
る。
On the screen shown in FIG. 3, the operator can operate the mouse or keyboard of the input unit 6 to select each attribute information. When the misread character or the modified character is designated as the search condition in the input unit 6 and the attribute designation is set to invalid, the CPU 50 stores the recognized character having the same character code as the misread character in the recognition result storage unit 4. It is a search from the recognition file. Also,
When the misread character or the modified character is specified as the search condition in the input unit 6 and the attribute specification is selected to be valid, it is a recognized character having the same character code as the specified misread character, The recognition file having the same attribute information as the generated attribute information (meaning the same within a certain range) is searched from the recognition file in the recognition result storage unit 4.

【0029】CPU50の検索処理をより具体的に説明
すると、検索,置換対象の「ブロック」については、全
ブロック内が選択されている場合は、原稿内の全てのブ
ロック内について認識文字(誤読文字)を検索し、現在
のブロック内が選択されている場合は、現在カーソル7
1が表示されているブロック内について検索する。ま
た、「パターンサイズ」については、入力されたパター
ンの横及び縦のサイズに該当する認識文字を検索する。
従って、倍角,全角,半角等の基本文字サイズについて
は、このパターンサイズを入力することにより、対応で
きる。なお、倍角,全角,半角等の基本文字サイズを選
択できるようにしてもよい。また、「辞書タイプ」につ
いては、辞書タイプ有りが選択され、更に活字,手書き
又は活字・手書きのいずれかが選択されている場合は、
そのタイプを有する認識文字を検索し、辞書タイプ無し
が選択された場合は、タイプによる検索は行わない。ま
た、「特徴ベクトルマッチング」については、有りが選
択されている場合は、誤読文字が有する特徴ベクトルと
他の認識文字が有する特徴ベクトルとの比較例えば単純
マッチングを行い、その結果がある値(例えば80%)
以上となった認識文字は誤読文字と特徴ベクトルが同一
と判断し、無しが選択されている場合は、この特徴ベク
トルの比較は行わない。
More specifically, the retrieval process of the CPU 50 will be described. As for the “block” to be retrieved and replaced, when all the blocks are selected, the recognition characters (misread characters) in all the blocks in the manuscript are selected. ) Is searched and if the current block is selected, the current cursor 7
Search within the block in which 1 is displayed. As for the “pattern size”, the recognized characters corresponding to the horizontal and vertical sizes of the input pattern are searched.
Therefore, basic character sizes such as double-width, full-width, and half-width can be handled by inputting this pattern size. The basic character size such as double-width, full-width, and half-width may be selectable. For “Dictionary type”, select “Dictionary type available”, and if either print type, handwriting, or print type / handwriting is selected,
When the recognition character having that type is searched and no dictionary type is selected, the search by type is not performed. For “feature vector matching”, if “Yes” is selected, the feature vector of the misread character is compared with the feature vector of another recognized character, for example, simple matching is performed, and the result is a certain value (eg, 80%)
It is determined that the misrecognized character and the feature vector are the same as those of the recognized characters described above, and if none is selected, the feature vector is not compared.

【0030】CPU50が行う置換処理について図3を
参照して説明する。
The replacement process performed by the CPU 50 will be described with reference to FIG.

【0031】置換モードには、確認置換と強制置換との
2種類がある。CPU50は、これらの置換モードにう
ち入力部6にて選択された置換モードにより置換処理を
行うものである。すなわち、図3に示す修正条件設定画
面上で、確認置換が選択されている場合は、前記検索処
理により誤読文字を検索する毎にオペレータに置換の要
否の確認を行い、置換を要するとされたもののみを修正
文字に逐次置換(検索−確認−置換)する。また、強制
置換が選択されている場合は、前記検索処理により検索
した誤読文字をオペレータに対する確認を行わずに、修
正文字に強制的に置換(検索−置換)する。この場合も
検索処理と同様に、CPU50は、入力部6にて検索領
域(ブロック)が選択されている場合は、そのブロック
のみについて置換処理を行うものである。
There are two types of replacement modes: confirmation replacement and forced replacement. The CPU 50 performs the replacement process according to the replacement mode selected by the input unit 6 among these replacement modes. That is, when the confirmation replacement is selected on the correction condition setting screen shown in FIG. 3, the operator is asked whether the replacement is necessary each time the misread character is searched by the search processing, and the replacement is required. Sequentially replace only the ones with the corrected characters (search-confirm-replace). When the forced replacement is selected, the misread character retrieved by the retrieval process is forcibly replaced with the corrected character (search-replace) without confirming with the operator. Also in this case, similarly to the search processing, when the search area (block) is selected by the input unit 6, the CPU 50 performs the replacement processing only for the block.

【0032】次に、本実施例の動作を図4に示すフロー
チャートに従い、誤読文字「ヰ」を修正文字「キ」に置
換する場合を例に挙げて説明する。
Next, the operation of the present embodiment will be described with reference to the flowchart shown in FIG. 4, taking as an example the case where the misread character "ヰ" is replaced with the corrected character "ki".

【0033】本装置が読取対象とする原稿10は、一定
の形式(活字印字等)で文字が記入されているものとす
る。
It is assumed that the original 10 to be read by the apparatus has characters written in a fixed format (printing of characters, etc.).

【0034】まず、スキャナ1が、原稿10のイメージ
を検出する。次に、文字切出し部2は、スキャナ1が検
出した原稿イメージから1文字毎に文字パターンを切出
すと共に、その切出した文字パターンの属性情報を検出
し、認識部3に出力する。認識部3は、文字切出し部2
から出力された文字パターンについて文字認識処理を行
い、認識結果(認識文字,候補文字列,属性情報及び原
稿イメージ等)を認識結果格納部4に出力する。認識結
果格納部4は、出力された認識結果(認識文字,候補文
字列,属性情報及び原稿イメージ等)を格納部4内の対
応する各ファイルに格納する。
First, the scanner 1 detects the image of the original 10. Next, the character cutout unit 2 cuts out a character pattern for each character from the document image detected by the scanner 1, detects attribute information of the cutout character pattern, and outputs the attribute information to the recognition unit 3. The recognition unit 3 includes the character cutting unit 2
Character recognition processing is performed on the character pattern output from the recognition pattern storage unit 4, and the recognition result (recognition character, candidate character string, attribute information, document image, etc.) is output to the recognition result storage unit 4. The recognition result storage unit 4 stores the output recognition result (recognition character, candidate character string, attribute information, document image, etc.) in each corresponding file in the storage unit 4.

【0035】修正部5のCPU50は、プログラムメモ
リ53に格納されている動作プログラムに従い、表示制
御,検索処理,置換処理を実行する。まず、CPU50
は、認識結果格納部4の各ファイルに格納した認識結果
から所定のフォーマットで作成した図2に示すような修
正画面を表示制御により表示部7に表示する。
The CPU 50 of the correction section 5 executes display control, search processing and replacement processing according to the operation program stored in the program memory 53. First, the CPU 50
Displays a correction screen as shown in FIG. 2 created in a predetermined format from the recognition result stored in each file of the recognition result storage unit 4 on the display unit 7 by display control.

【0036】ここで、オペレータは、表示部7に表示さ
れた認識結果と、原稿10とを見比べて、最初の誤読文
字「ヰ」を発見する(S1)。
Here, the operator compares the recognition result displayed on the display unit 7 with the original 10 and finds the first misread character "" (S1).

【0037】オペレータは、その発見した誤読文字
「ヰ」にポインタを合わせてクリック操作をする。CP
U50は、そのクリック操作に基づき、図2に示すよう
に、表示部7に表示されている誤読文字「ヰ」の下にカ
ーソル71を表示し、認識結果格納部4の候補ファイル
からその誤読文字「ヰ」に対応する候補文字列74を検
索して表示部7に重畳表示する。
The operator puts the pointer on the found misread character "ヰ" and clicks. CP
Based on the click operation, U50 displays a cursor 71 under the misread character "ヰ" displayed on the display unit 7 as shown in FIG. 2, and the misread character is selected from the candidate files in the recognition result storage unit 4. The candidate character string 74 corresponding to “ヰ” is searched and displayed on the display unit 7 in an overlapping manner.

【0038】次に、オペレータは、候補文字列74中に
修正文字(正解文字)があるか否かを判断する。画面に
表示されている第1乃至第6候補文字に修正文字がなけ
れば、スクロール表示,ページめくり表示等により第7
乃至第n候補文字まで表示させる。本例では候補文字列
74中に修正文字(正解文字)があるので、オペレータ
は、入力部6のマウスを操作してポインタをその修正文
字「キ」に合わせてクリック操作をする。CPU50
は、そのクリック操作に基づき、選択された候補文字
「キ」を白黒反転表示する。なお、候補文字列74中に
修正文字がなければ、オペレータは、一般的な修正方法
(カナ漢字変換)により修正文字「キ」を入力する。
Next, the operator determines whether or not there is a correction character (correct character) in the candidate character string 74. If there is no correction character in the first to sixth candidate characters displayed on the screen, scroll display, page turning display, etc.
To the nth candidate character are displayed. In this example, since there is a correction character (correct answer character) in the candidate character string 74, the operator operates the mouse of the input unit 6 to move the pointer to the correction character "ki" and click. CPU50
Displays the selected candidate character “ki” in black and white based on the click operation. If there is no correction character in the candidate character string 74, the operator inputs the correction character “ki” by a general correction method (kana-kanji conversion).

【0039】次に、修正文字「キ」の選択又は入力が終
了すると、オペレータは、表示画面上の候補文字列74
の下側に表示されている「置換」にポインタを合わせて
クリック操作をする。CPU50は、そのクリック操作
に基づき、カーソル71が示す誤読文字「ヰ」の1文字
のみを修正文字「キ」に置換して修正する。なお、候補
文字列74から修正文字「キ」を選択した際に、ダブル
クリック操作により修正文字「キ」の選択と置換指示と
を兼ねてもよい(S2)。
Next, when the correction character "ki" is selected or input, the operator selects the candidate character string 74 on the display screen.
Move the pointer to "Replace" displayed at the bottom of and click. Based on the click operation, the CPU 50 corrects only one character of the misread character "ヰ" indicated by the cursor 71 with the correction character "ki" and corrects it. When the correction character “ki” is selected from the candidate character string 74, the double-click operation may serve as both the selection of the correction character “ki” and the replacement instruction (S2).

【0040】次に、オペレータが、入力部6のキーボー
ド上のPFキーを押下する。
Next, the operator presses the PF key on the keyboard of the input unit 6.

【0041】CPU50は、PFキーが押下され、か
つ、条件αが真か否かを判断する(S3)。この「条件
α」とは、カーソル71が示す認識文字(修正済も含
む)とその時の候補文字列74の第1候補文字とが異な
る場合をいう。
The CPU 50 determines whether or not the PF key is pressed and the condition α is true (S3). The “condition α” means that the recognized character (including the corrected character) indicated by the cursor 71 is different from the first candidate character of the candidate character string 74 at that time.

【0042】PFキーが押下され、かつ、条件αが真で
ある場合は、CPU50は、誤読文字メモリ51に誤読
文字(文字コード)「ヰ」を格納し、修正文字メモリ5
2に修正文字(文字コード)「キ」を格納する(S
4)。
When the PF key is pressed and the condition α is true, the CPU 50 stores the misread character (character code) "ヰ" in the misread character memory 51, and the corrected character memory 5
The correction character (character code) "ki" is stored in 2 (S
4).

【0043】次に、CPU50は、PFキーの押下に基
づき、図3に示すような修正条件設定画面を表示する。
オペレータは、入力部6のマウス又はキーボードを操作
して、図3に示す画面上で、属性指定の選択、検索,置
換対象のブロックの選択、パターンサイズの入力、辞書
タイプの選択、特徴ベクトルマッチングの選択、置換モ
ードの選択を行う。また、ここで修正文字を変更したい
場合は、入力部6のマウス又はキーボードの操作により
表示されている修正文字を他の修正文字に変更する。こ
こでは、図3に示すように、属性指定は有効が選択さ
れ、検索,置換対象のブロックは全ブロックが選択さ
れ、パターンサイズは横縦共に5mm±1mm以内が入
力され、辞書タイプは有り及び活字が選択され、特徴ベ
クトルマッチングは有りが選択され、置換モードは確認
置換が選択されたとする。
Next, the CPU 50 displays the correction condition setting screen as shown in FIG. 3 based on the depression of the PF key.
The operator operates the mouse or keyboard of the input unit 6 to select attribute designation, search, block to be replaced, pattern size input, dictionary type selection, feature vector matching on the screen shown in FIG. And the replacement mode are selected. Further, when it is desired to change the correction character here, the correction character displayed by operating the mouse or keyboard of the input unit 6 is changed to another correction character. Here, as shown in FIG. 3, the attribute designation is selected to be valid, all the blocks to be searched and replaced are selected, the pattern size is input within 5 mm ± 1 mm in both horizontal and vertical directions, and there is a dictionary type. It is assumed that the print type is selected, the feature vector matching is selected as “Yes”, and the confirmation mode is selected as the replacement mode.

【0044】修正条件の設定が終了した後は、オペレー
タは、入力部6のマウスを操作してポインタを図3に示
す「YES」の位置に合わせてクリック操作をする(S
5)。
After the correction conditions have been set, the operator operates the mouse of the input unit 6 to move the pointer to the position of "YES" shown in FIG. 3 and clicks (S).
5).

【0045】CPU50は、そのクリック操作に基づ
き、表示部7の表示制御により図2に示すような修正画
面を再び表示し、図3で設定された修正条件に従い、検
索処理,置換処理を行う。
Based on the click operation, the CPU 50 redisplays the correction screen as shown in FIG. 2 by the display control of the display unit 7, and performs the search process and the replacement process according to the correction condition set in FIG.

【0046】CPU50は、認識結果格納部4の認識フ
ァイル内を現在のカーソル71の位置からファイルエン
ドまで、誤読文字メモリ51に格納した誤読文字「ヰ」
と同一の文字コードを有する認識文字であって、修正条
件設定画面で設定された属性情報と同一の属性情報を有
する認識文字を全ブロックに対して検索する(S6)。
CPU50は、選択された置換モード(確認置換)に基
づき、その誤読文字「ヰ」を検索すると、オペレータに
置換の要否を確認する(例えば表示画面にその旨を表示
する)。オペレータは、置換を要すると判断した場合
は、置換要求操作(例えばリターンキーを押下する)を
行う。CPU50は、その置換要求操作に基づき、その
検索した誤読文字「ヰ」を修正文字メモリ52に格納し
た修正文字「キ」に置換する(S7)。このようにして
検索,確認,置換をファイルエンドまで逐次実行すると
(S8)、スタートに戻り、カーソル71は元の位置
(図2に示す位置)に戻る。表示部7の表示画面には、
CPU50による表示制御により、上記検索,置換処理
の過程がオペレータに分かるように、カーソル71の移
動する様子や誤読文字が置換される様子が表示される。
そして、検索,確認,置換がファイルエンドまで終了す
ると、指定したブロック72a内の誤読文字「ヰ」の全
てが修正文字「キ」に置換されて表示部7に表示され
る。
The CPU 50 stores the misread character "ヰ" stored in the misread character memory 51 from the current position of the cursor 71 to the file end in the recognition file of the recognition result storage unit 4.
All the blocks are searched for a recognized character having the same character code as the recognized character having the same attribute information as the attribute information set on the correction condition setting screen (S6).
When the CPU 50 searches for the misread character "ヰ" based on the selected replacement mode (confirmation replacement), the CPU 50 confirms with the operator whether or not replacement is necessary (for example, the fact is displayed on the display screen). When the operator determines that the replacement is necessary, the operator performs a replacement request operation (for example, pressing the return key). Based on the replacement request operation, the CPU 50 replaces the retrieved misread character "ヰ" with the corrected character "ki" stored in the corrected character memory 52 (S7). In this way, when the search, confirmation, and replacement are sequentially executed up to the file end (S8), the process returns to the start and the cursor 71 returns to the original position (the position shown in FIG. 2). On the display screen of the display unit 7,
By the display control by the CPU 50, the movement of the cursor 71 and the replacement of the erroneously read character are displayed so that the operator can understand the process of the search and replacement processing.
Then, when the search, confirmation, and replacement are completed up to the file end, all the misread characters "ヰ" in the designated block 72a are replaced with the corrected characters "KI" and displayed on the display unit 7.

【0047】このような上記実施例の光学的文字読取装
置によれば、認識文字のうちで1つの誤読文字を発見し
て修正し、修正条件を設定するだけで、他の誤読文字を
確認的又は強制的に修正文字に置換できるので、誤読文
字の修正を効率的、かつ、確実に行うことができる。
According to the optical character reader of the above-described embodiment, one misread character among the recognized characters can be found and corrected, and other misread characters can be confirmed by just setting the correction condition. Alternatively, since the correction character can be forcibly replaced, the misread character can be corrected efficiently and reliably.

【0048】なお、本発明は上記実施例に限定されず、
その要旨を変更しない範囲内で種々に変形実施できる。
例えば、検索情報である属性情報は、フォント,基本文
字サイズ(倍角,全角,半角)等を用いてもよい。例え
ば、ゴシック体のロゴは明朝体のロゴと比較して誤り易
い場合に、このようなフォントを指定して置換対象を限
定することにより、効率の良い検索,置換処理が行え、
オペレータの負担が軽くなるという効果が得られる。ま
た、置換対象を1文字に限らず、置換対象を検索する際
の文字範囲を「東之太郎」の如く指定し、更に置換対象
文字の位置を「東」の後で、かつ、「太郎」の前の如く
指定して、誤読文字「之」を修正文字「芝」に置換して
もよい。また、誤読文字「束」を含む単語「束芝」単位
で「東芝」に置換してもよい。このように行うことによ
り、置換すべき誤読文字を正確に特定でき、強制置換が
行える機会が多くなって、効率的な修正ができるように
なる。また、ドットプリンタ,レーザープリンタ等の印
字装置の種類により、置換対象を特定してもよい。
The present invention is not limited to the above embodiment,
Various modifications can be made without departing from the spirit of the invention.
For example, the attribute information that is the search information may use a font, a basic character size (double-byte, full-width, half-width) or the like. For example, if the Gothic type logo is more likely to be erroneous than the Mincho type logo, by specifying such a font and limiting the replacement target, efficient search and replacement processing can be performed.
The effect that the burden on the operator is reduced is obtained. Also, the replacement target is not limited to one character, the character range when searching for the replacement target is specified as "Higashi no Taro", and the position of the replacement target character is after "East" and "Taro". It is also possible to replace the erroneously read character "no" with the corrected character "shiba" by designating as before. Further, "Toshiba" may be replaced in units of the word "bunshiba" including the misread character "bundle". By doing in this way, the misread character to be replaced can be accurately specified, the chances of forced replacement are increased, and efficient correction can be performed. Also, the replacement target may be specified by the type of printing device such as a dot printer or a laser printer.

【0049】[0049]

【発明の効果】以上詳述した請求項1記載の発明によれ
ば、オペレータが誤読文字を1文字づつ修正することが
なくなるため、誤読文字の修正を効率的、かつ、確実に
行うことが可能な光学的文字読取装置を提供することが
できる。
According to the invention described in claim 1 described above in detail, the operator does not need to correct the misread characters one by one, so that the misread characters can be corrected efficiently and surely. It is possible to provide a simple optical character reader.

【0050】また、請求項2記載の発明によれば、修正
部は誤読文字の属性情報をも考慮して誤読文字を検索し
て置換するので、請求項1記載の効果に加え、置換対象
の誤読文字のより正確な特定が可能となる。
According to the second aspect of the present invention, the correction unit searches and replaces the misread character in consideration of the attribute information of the misread character. Therefore, in addition to the effect of the first claim, It enables more accurate identification of misread characters.

【0051】また、請求項3記載の発明によれば、認識
文字に含まれる誤読文字が一定しているか否かに応じて
置換モードを選択できるので、請求項1又は2記載の効
果に加え、より効率の良い修正が可能となる。
Further, according to the invention of claim 3, since the replacement mode can be selected depending on whether or not the misread character included in the recognized character is constant, in addition to the effect of claim 1 or 2, More efficient correction is possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の光学的文字読取装置の一実施例を示す
概略構成図である。
FIG. 1 is a schematic configuration diagram showing an embodiment of an optical character reading device of the present invention.

【図2】本実施例の表示部における修正画面の一例を示
す図である。
FIG. 2 is a diagram showing an example of a correction screen on a display unit of the present embodiment.

【図3】本実施例の表示部における修正条件設定画面の
一例を示す図である。
FIG. 3 is a diagram showing an example of a correction condition setting screen on the display unit of the present embodiment.

【図4】本実施例の動作を説明するためのフローチャー
トである。
FIG. 4 is a flowchart for explaining the operation of this embodiment.

【符号の説明】[Explanation of symbols]

1 スキャナ 2 文字切出し部 3 認識部 4 認識結果格納部 5 修正部 6 入力部 7 表示部 10 原稿 1 Scanner 2 Character Extraction Section 3 Recognition Section 4 Recognition Result Storage Section 5 Correction Section 6 Input Section 7 Display Section 10 Original

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 原稿に記入された文字を文字コード化し
た認識文字として読取る光学的文字読取装置において、
前記認識文字を格納する認識結果格納部と、前記認識文
字に含まれる誤読文字及び修正文字の指定に基づき、前
記認識結果格納部から前記指定された誤読文字と同一の
文字コードを有する認識文字を検索し、その検索した認
識文字を前記修正文字に置換する修正部とを有すること
を特徴とする光学的文字読取装置。
1. An optical character reading device for reading a character entered on a manuscript as a character-coded recognized character,
A recognition result storage unit that stores the recognition character, and a recognition character having the same character code as the designated misread character from the recognition result storage unit based on the designation of the misread character and the correction character included in the recognition character. An optical character reading device comprising: a correction unit that searches and replaces the searched recognition character with the correction character.
【請求項2】 原稿に記入された文字をその属性情報と
共に文字コード化した認識文字として読取る光学的文字
読取装置において、前記認識文字及びその属性情報を格
納する認識結果格納部と、前記認識文字に含まれる誤読
文字,その属性情報及び修正文字の指定に基づき、前記
認識結果格納部から前記指定された誤読文字と同一の文
字コードを有する認識文字であって、前記指定された属
性情報と同一の属性情報を有する認識文字を検索し、そ
の検索した認識文字を前記修正文字に置換する修正部と
を有することを特徴とする光学的文字読取装置。
2. An optical character reading device for reading a character written on a manuscript together with its attribute information as a character coded recognition character, and a recognition result storage unit for storing the recognition character and its attribute information, and the recognition character. A recognition character having the same character code as the designated misread character from the recognition result storage unit based on the designation of the misread character, its attribute information, and the corrected character included in the designated attribute information. And a correction unit that replaces the searched recognition character with the correction character.
【請求項3】 前記修正部による置換は、選択された置
換モードに応じて行うものとする請求項1又は2記載の
光学的文字読取装置。
3. The optical character reader according to claim 1, wherein the replacement by the correction unit is performed according to the selected replacement mode.
JP4104215A 1992-04-23 1992-04-23 Optical character reader Expired - Lifetime JP2829186B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4104215A JP2829186B2 (en) 1992-04-23 1992-04-23 Optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4104215A JP2829186B2 (en) 1992-04-23 1992-04-23 Optical character reader

Publications (2)

Publication Number Publication Date
JPH05298474A true JPH05298474A (en) 1993-11-12
JP2829186B2 JP2829186B2 (en) 1998-11-25

Family

ID=14374740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4104215A Expired - Lifetime JP2829186B2 (en) 1992-04-23 1992-04-23 Optical character reader

Country Status (1)

Country Link
JP (1) JP2829186B2 (en)

Also Published As

Publication number Publication date
JP2829186B2 (en) 1998-11-25

Similar Documents

Publication Publication Date Title
US6466694B2 (en) Document image processing device and method thereof
JPH06274680A (en) Method and system recognizing document
US5233672A (en) Character reader and recognizer with a specialized editing function
JP2000322417A (en) Device and method for filing image and storage medium
JP3319203B2 (en) Document filing method and apparatus
JP2829186B2 (en) Optical character reader
JPH0696288A (en) Character recognizing device and machine translation device
JP3083171B2 (en) Character recognition apparatus and method
JPH06251187A (en) Method and device for correcting character recognition error
JPS61272882A (en) Information recognizing device
JP2662404B2 (en) Dictionary creation method for optical character reader
JP3077580B2 (en) Character reader
JP3310063B2 (en) Document processing device
JPH09114918A (en) Optical character reader
JP4081074B2 (en) Form processing apparatus, form processing method, and form processing program
JP2874815B2 (en) Japanese character reader
JPH06333083A (en) Optical character reader
JPH04293185A (en) Filing device
JPH06223221A (en) Character recognizing device
JP2003099709A (en) Misread character correction method and optical character recognition device
JPH11143983A (en) Character recognition device and method and computer readable recording medium storing character recognition program
JPH05120472A (en) Character recognizing device
JPH07334624A (en) Character recognizing device
JPH01287755A (en) Information input device with correcting function
JPH06348889A (en) Character recognizing device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070918

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080918

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080918

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090918

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090918

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100918

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100918

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110918

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 14