JPH0496190A - Device and method for post-processor for optical hand-written kanji - Google Patents

Device and method for post-processor for optical hand-written kanji

Info

Publication number
JPH0496190A
JPH0496190A JP2210786A JP21078690A JPH0496190A JP H0496190 A JPH0496190 A JP H0496190A JP 2210786 A JP2210786 A JP 2210786A JP 21078690 A JP21078690 A JP 21078690A JP H0496190 A JPH0496190 A JP H0496190A
Authority
JP
Japan
Prior art keywords
kanji
furigana
recognition
character string
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2210786A
Other languages
Japanese (ja)
Inventor
Yasuhiro Igarashi
康弘 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2210786A priority Critical patent/JPH0496190A/en
Publication of JPH0496190A publication Critical patent/JPH0496190A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To improve the accuracy of recognition by extracting the reading of a corresponding KANJI (Chinese character) from a KANJI dictionary part with readings when the absence in a word dictionary part with FURIGANA (Japanese rendering of Chinese character) is judged from the result of the initial recognition and preparing a candidate character string corresponding to the reading based on that way of reading. CONSTITUTION:An optical initial recognition part 61 fetches a hand-written KANJI character string and the corresponding hand-written FURIGANA character string optically. Respective plural character candidates are taken in order of a constant level for each character forming each character string to output plural character string candidates arranged corresponding to each character string to be recognized as the result of the recognition. The retrieval is performed for each character string candidate which is the recognition result from a word recognition interpolation part 2 with HIRAGANA to a word dictionary 3 with FURIGANA, and when there is no each character string candidate, the reading is extracted from a KANJI dictionary 5 with reading for each word on each recognized KANJI, and the retrieval of the word dictionary 3 with FURIGANA is performed again while preparing the character string candidate corresponding to the reading. Thus, the accuracy of KANJI recognition can be improved.

Description

【発明の詳細な説明】 〔目次〕 概要 産業上の利用分野 従来の技術(第6図) 発明が解決しようとする課題 課題を解決するための手段(第1,2図)作用(第1,
2図) 実施例(第3.4.5図) 発明の効果 〔概要〕 漢字とそのフリガナとを対応付けるフリガナ付単語辞書
を検索し、手書き漢字列及びフリガナ列の光学的認識の
補完を行う光学的手書き漢字認識の後処理装置及び方法
に関し、 漢字認識精度を上げて業務処理の一層の効率化を実現し
信頼性のある光学的手書き漢字認識の後処理装置及び方
法を提供することを目的とし、手書き漢字列及び対応す
る手書きフリガナ列を光学的に取込み、各文字列を形成
する文字毎に、各々複数の文字候補を一定のレベル順に
挙げ、当該各レベル毎に、認識すべき各文字列に対応さ
せて並べた複数の文字列候補を認識結果として出力し、
フリガナ付単語辞書に対し、前記認識結果である各文字
列候補毎について検索を行い、当該認識結果である各文
字列候補がフリガナ付単語辞書に存在するか否かを判断
し、存在する場合には、当該文字列候補をフリガナ付漢
字として出力し、存在しない場合には、認識された各漢
字について、一字毎に読み方付漢字辞書から読み方を抽
出し、当該読み方に該当する文字列候補を作成して再度
フリガナ付単語辞書の検索を行う構成である。
[Detailed Description of the Invention] [Table of Contents] Overview Industrial Application Fields Prior Art (Fig. 6) Means for Solving Problems to be Solved by the Invention (Figs. 1 and 2) Effects (Figs. 1 and 2)
Figure 2) Example (Figure 3.4.5) Effects of the invention [Summary] Optical system that searches a word dictionary with furigana that associates kanji with their furigana, and complements the optical recognition of handwritten kanji strings and furigana strings. The purpose of the present invention is to provide a post-processing device and method for optical handwritten kanji recognition that improves the accuracy of kanji recognition, realizes further efficiency in business processing, and is reliable. , optically captures a handwritten kanji string and a corresponding handwritten furigana string, lists a plurality of character candidates for each character forming each character string in a certain level order, and identifies each character string to be recognized for each level. Outputs multiple character string candidates arranged in correspondence with each other as recognition results,
The word dictionary with furigana is searched for each character string candidate that is the recognition result, and it is determined whether each character string candidate that is the recognition result exists in the word dictionary with furigana. outputs the character string candidate as a kanji with furigana, and if it does not exist, extracts the reading for each recognized kanji from a kanji dictionary with reading, and selects a string candidate that corresponds to the reading. This is a configuration in which the word dictionary with furigana is created and searched again.

〔産業上の利用分野〕[Industrial application field]

本発明は帳票による業務処理等の高速化を実現するため
に導入されるOCR装置における光学的手書き漢字認識
の後処理装置及び方法に係り、特に、漢字と当該漢字に
付されるべきフリガナとを対応付けて格納するフリガナ
付単語辞書を検索して、手書き漢字列及び対応する手書
きフリガナ列の光学的認識の補完を行う光学的手書き漢
字認識の後処理装置及び方法に関する。
The present invention relates to a post-processing device and method for optical handwritten kanji recognition in an OCR device introduced in order to speed up business processing using forms, and in particular to a post-processing device and method for recognizing kanji and furigana to be added to the kanji. The present invention relates to a post-processing device and method for optical handwritten kanji recognition that searches a dictionary of words with furigana that are stored in correspondence and complements the optical recognition of a handwritten kanji string and a corresponding handwritten furigana string.

これによって、OCR装置の漢字の認識精度を挙げ、こ
れによって帳票の記入値を正確に読み取ることか可能と
なり、業務処理の一層の効率化が実現されることになる
This increases the accuracy of Chinese character recognition by the OCR device, thereby making it possible to accurately read the values entered in the form, thereby realizing further efficiency in business processing.

〔従来の技術〕[Conventional technology]

従来、各メーカで行っている光学的手書き漢字認識の後
処理(特に住所、氏名)はフリガナ付単語辞書により実
施しているところが多い。
Conventionally, the post-processing of optical handwritten kanji recognition (particularly for addresses and names) carried out by various manufacturers is often carried out using word dictionaries with furigana.

このような光学的手書き漢字認識の後処理装置として第
6図に示すものがあった。
An example of such a post-processing device for optical handwritten Chinese character recognition is shown in FIG.

本装置は同図に示すように、漢字列と当該漢字列に付さ
れるべきフリガナ列とを対応付けて格納するフリガナ付
単語辞書部63と、手書き漢字列及び対応する手書きフ
リガナ列を光学的に取り込み、各文字列を形成する文字
毎に最も類似の程度の高い文字候補を求め、認識すべき
前記各文字列に対応させて最も類似の程度の高いレベル
について並べた文字列候補を認識結果として出方する手
書きフリガナ付漢字の光学的初期認識部61と、ヲリガ
ナ付単語辞書部63に対し、前記認識結果である各文字
列候補毎について検索を行うフリガす付単語認識補完部
62と、を有するものである。
As shown in the figure, this device includes a word dictionary with furigana section 63 that stores kanji strings and furigana strings to be attached to the kanji strings in correspondence, and a word dictionary section 63 that stores handwritten kanji strings and corresponding handwritten furigana strings. for each character forming each character string, and obtain the character string candidates with the highest level of similarity in correspondence with each character string to be recognized as recognition results. an optical initial recognition unit 61 for handwritten kanji with furigana that appears as It has the following.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

ところで、フリガナ付単語辞書による後処理のメリット
は、フリガナが確実に認識されていて、しかも辞書に登
録されていれは、漢字側の認識率が多少低くとも、10
0%認識することができるところにある。しかし、日本
の姓名単語及び住所単語は10万語以上あり、実状は使
用頻度の高いもののみを辞書登録して使う場合が多い。
By the way, the advantage of post-processing using a word dictionary with furigana is that if the furigana is reliably recognized and registered in the dictionary, even if the recognition rate on the kanji side is somewhat low,
It is in a place where you can recognize 0%. However, there are more than 100,000 names and address words in Japan, and in reality, only the most frequently used words are registered in a dictionary and used.

また、フリガナの認識率は漢字よりも高いとはいえ、1
00%ではない。したがって、フリガナ付単語辞書によ
る認識補完の辞書に登録されていなかったり、フリガナ
の誤認識によって後処理の効果が出ない場合があるとい
う問題点を有していた。
Also, although the recognition rate of furigana is higher than that of kanji,
Not 00%. Therefore, there have been problems in that the post-processing may not be effective due to the word dictionary not being registered in the dictionary for recognition supplementation using the word dictionary with furigana, or due to misrecognition of the furigana.

このような場合が生ずるのはフリガナ付単語辞書による
光学的手書き漢字認識結果の補完処理の中で、手書きフ
リガナが辞書の中に登録されていなかったり、本来、登
録されているにも拘らず、手書きフリガナが一部、誤認
識されていたために未登録と判断されたような場合であ
る。
Such cases occur when the handwritten furigana is not registered in the dictionary, or even though it is originally registered, during the complementation process of the optical handwritten kanji recognition results using the word dictionary with furigana. This is a case where a part of handwritten furigana is incorrectly recognized and is determined to be unregistered.

そこで、本発明は漢字の認識精度を上げることにより帳
票上の記入値等を正確に読み取って、業務処理の一層の
効率化を実現することができる信頼性のある光学的手書
き漢字認識の後処理装置及び方法を提供することを目的
としてなされたものである。
Therefore, the present invention provides reliable optical post-processing for handwritten kanji recognition that can improve the recognition accuracy of kanji, accurately read values entered on forms, etc., and realize further efficiency in business processing. The purpose of this invention is to provide an apparatus and method.

〔課題を解決するための手段〕[Means to solve the problem]

以上の技術的課題を解決するため、第一の発明は第1図
に示すように、漢字と当該漢字に付されるべきフリガナ
とを対応付けて格納するフリガナ付単語辞書部3を有し
、当該フリガナ付単語辞書部3を検索して、手書き漢字
列の光学的認識の補完を行う光学的手書き漢字認識の後
処理装置において、手書き漢字列及び対応する手書きフ
リガナ列を光学的に取り込み、各文字列を形成する文字
毎に、各々複数の文字候補を類似の程度に応じたレベル
順に挙げ、当該各レベル毎に、認識すべき前記各文字列
に対応させて並べた複数の文字列候補を認識結果として
出力する手書きフリガナ付漢字の光学的初期認識部lと
、フリガナ付単語辞書部3に対し、前記認識結果である
各文字列候補について検索を行うフリガナ付単語認識補
完部2と、漢字一字毎に漢字と当該漢字の読み方とを対
応付けて格納する読み方付漢字辞書部5と、フリガナ付
単語認識補完部2により前記認識結果がフリガナ付単語
辞書部3に存在しないと判断された場合には、認識され
た各漢字について読み方付漢字辞書部5から対応する漢
字の読み方を抽出し、当該読み方に該当する文字列候補
を作成して前記フリガナ付単語認識補完部2に送出する
フリガナ補完部4と、を有するものである。
In order to solve the above technical problem, the first invention has a word dictionary with furigana part 3 that stores kanji and furigana to be added to the kanji in association with each other, as shown in FIG. In an optical handwritten kanji recognition post-processing device that searches the word dictionary with furigana section 3 and complements the optical recognition of handwritten kanji strings, the handwritten kanji strings and the corresponding handwritten furigana strings are optically captured and each For each character forming a character string, a plurality of character candidates are listed in order of level according to the degree of similarity, and for each level, a plurality of character string candidates are arranged corresponding to each character string to be recognized. An optical initial recognition unit l of handwritten kanji with furigana output as a recognition result, a word recognition complement unit 2 with furigana that searches for each character string candidate that is the recognition result for the word dictionary unit 3 with furigana, and kanji with furigana. The kanji dictionary with pronunciation unit 5 that stores the kanji and the reading of the kanji for each character in association with each other, and the word recognition complement unit 2 with furigana determine that the recognition result does not exist in the word dictionary with furigana unit 3. In this case, for each recognized kanji, the reading of the corresponding kanji is extracted from the kanji dictionary with reading 5, a character string candidate corresponding to the reading is created, and the character string candidate is sent to the word recognition complementation unit 2 with furigana. It has a complementing section 4.

一方、第二の発明は第2図に示すように、漢字と当該漢
字に付されるべきフリガナとを対応付けるフリガナ付単
語辞書を検索して、手書き漢字列の光学的認識の補完を
行う光学的手書き漢字認識の後処理方法において、手書
き漢字列及び対応する手書きフリガナ列を光学的に認識
し、各文字列を形成する文字毎に、各々複数の文字候補
を類似の程度に応じたレベル順に挙げ、当該各レベル毎
に、認識すべき前記各文字列に対応させて各レベル毎に
並べた複数の文字列候補を認識結果として出力し(S1
)、フリガナ付単語辞書に対し、前記認識結果である各
文字列候補毎について検索を行い(S2)、、当該認識
結果である各文字列候補がフリガナ付単語辞書に存在す
るか否かの判断を行い(S3)、存在すると判断された
場合には、当該文字列候補をフリガナ付漢字として出方
しくS5)、存在しないと判断された場合には、認識さ
れた各漢字について、一字毎に読み方付漢字辞書からそ
の読み方を抽出し、当該読み方に該当する文字列候補を
作成して(S4)、再度フリガナ付単語辞書の検索を行
う(S2)ものである。
On the other hand, the second invention, as shown in Figure 2, is an optical system that searches a word dictionary with furigana that associates kanji with furigana to be attached to the kanji, and complements the optical recognition of handwritten kanji strings. In the handwritten kanji recognition post-processing method, a handwritten kanji string and a corresponding handwritten furigana string are optically recognized, and for each character forming each character string, a plurality of character candidates are listed in order of level of similarity. , for each level, output a plurality of character string candidates arranged for each level in correspondence with the character strings to be recognized as recognition results (S1
), searches the word dictionary with furigana for each character string candidate that is the recognition result (S2), and determines whether each character string candidate that is the recognition result exists in the word dictionary with furigana. (S3), and if it is determined that the character string candidate exists, the character string candidate is used as a kanji with furigana (S5), and if it is determined that it does not exist, the character string candidate is The pronunciation is extracted from the kanji dictionary with pronunciation, a character string candidate corresponding to the pronunciation is created (S4), and the word dictionary with furigana is searched again (S2).

〔作用〕[Effect]

続いて、本発明(第−及び第二の発明)についての動作
を説明する。
Next, the operation of the present invention (first and second inventions) will be explained.

第1図及び第2図に示すように、ステッフSlで前記手
書きフリガナ付漢字を前記手書きフリガナ付漢字の光学
的初期認識部1により光学的に取り込み、各文字を形成
する文字毎に、各々複数の文字候補を類似の程度に応じ
たレベル順に独立に挙げ、認識すべき前記各文字列に対
応させて各レベル毎に並べた複数の文字列候補を認識結
果として出力する。
As shown in FIGS. 1 and 2, the step Sl optically captures the handwritten kanji with furigana by the optical initial recognition unit 1 for handwritten kanji with furigana, and for each character forming each character, each Character candidates are listed independently in order of level according to the degree of similarity, and a plurality of character string candidates arranged for each level corresponding to each character string to be recognized are output as recognition results.

ステップS2で、例えば、前記フリガナ付単語認識補完
部2はフリガナ付単語辞書部3に対し、前記認識結果で
ある各文字列候補毎について検索を行う。
In step S2, for example, the furigana-added word recognition complementing unit 2 searches the furigana-added word dictionary unit 3 for each character string candidate that is the recognition result.

ステップS3で、当該フリガナ付単語認識補完部2は前
記認識結果である文字列候補が存在するか否かの判断を
行う。
In step S3, the furigana-added word recognition complementing unit 2 determines whether or not there is a character string candidate that is the recognition result.

当該認識結果であるいずれかの文字列候補が存在する場
合にはステップS5に進み、当該文字列候補を該当する
手書きのフリガナ付漢字として出力することになる。
If any character string candidate exists as a result of the recognition, the process proceeds to step S5, and the character string candidate is output as the corresponding handwritten kanji with furigana.

一方、ステップS3で当該認識結果である文字列候補の
いずれも存在しない場合には、ステップS4に進み、例
えば、前記フリガナ補完部4は認識された各漢字につい
て、前記読み方付漢字辞書部5から漢字一字毎に当該漢
字の読み方を抽出し、当該読み方に基づき前記初期認識
結果の文字候補内に当該読み方が存在するか否かを判断
し、存在する場合には、当該読み方(フリガナ)を正し
いものととして前記初期認識結果を修正して再度前記フ
リガナ付き漢字認識補完部2により前記フリガナ付単語
辞書部3に対し、ステップS2で検索を行わしめること
になる。
On the other hand, if there are no character string candidates that are the recognition results in step S3, the process proceeds to step S4, and for example, the furigana complementation unit 4 extracts the characters from the reading kanji dictionary unit 5 for each recognized kanji. For each kanji character, the reading of the kanji is extracted, and based on the reading, it is determined whether the reading exists in the character candidates of the initial recognition result, and if it exists, the reading (furigana) is selected. The initial recognition result is corrected as correct, and the furigana-added kanji recognition complement section 2 searches the furigana-added word dictionary section 3 again in step S2.

ステップS3で前記フリガナ付単語辞書部3にいずれか
の文字列候補が存在すると判断された場合には、ステッ
プS5に進み、該当する文字列候補が認識された手書き
フリガナ付漢字として出力されることになる。
If it is determined in step S3 that any character string candidate exists in the word dictionary section 3 with furigana, the process proceeds to step S5, and the corresponding character string candidate is output as a recognized handwritten kanji with furigana. become.

〔実施例〕〔Example〕

続いて、本発明の実施例に係る光学的手書き漢字認識の
後処理装置及び方法について説明する。
Next, a post-processing device and method for optical handwritten Chinese character recognition according to an embodiment of the present invention will be described.

第3図に本実施例に係る機器構成ブロック図を示す。FIG. 3 shows a block diagram of the equipment configuration according to this embodiment.

同図ニ示すように、CPU20と、0CR(Optic
al Character Reader ;光学的文
字読取り装置)30と、漢字と当該漢字に付されるべき
フリガナとを対応付けて格納するフリガナ付単語辞書部
13と、主記憶装置40と、出力部50と、漢字一字毎
に漢字と当該漢字の読み方とを対応付けて格納する読み
方付漢字辞書部15と、初期認識を行うため漢字及びフ
リガナの標準パターンを格納する漢字・フリガナ辞書部
60とを有するものである。
As shown in FIG.
al Character Reader (optical character reading device) 30, a word dictionary with furigana unit 13 that stores kanji and furigana to be attached to the kanji in association with each other, a main storage device 40, an output unit 50, It has a kanji dictionary with readings 15 that stores kanji and readings of the kanji in correspondence with each character, and a kanji/furigana dictionary 60 that stores standard patterns of kanji and furigana for initial recognition. be.

また、第4図には、本実施例に係る光学的手書き漢字認
識の後処理装置を機能的に示したものであり、本装置は
フリガナ付単語辞書部13と、手書き漢字列及び対応す
る手書きフリガナ列を光学的に取り込み、各文字列を形
成する文字毎に、各々複数の文字候補を類似の程度に応
じたレベル順に独立に挙げ、認識すべき前記各文字列に
対応させて各レベル毎に並べた複数の文字列候補を認識
結果として出力する手書きフリガナ付漢字の光学的初期
認識部11と、前記フリガナ付単語辞書部13に対し、
前記認識結果である各文字列候補毎について検索を行う
フリガナ付単語認識補完部12と、読み方付き漢字辞書
部15と、フリガナ付単語認識補完部12により前記認
識結果がフリガナ付き漢字辞書部13に存在しないと判
断された場合には、認識された各漢字について読み方付
漢字辞書部15から対応する漢字の読み方を抽出し、当
該読み方に該当する文字列候補を作成して前記フリガナ
付単語認識補完部12に送出するフリガナ補完部14と
、を有するものである。
FIG. 4 functionally shows the post-processing device for optical handwritten kanji recognition according to this embodiment, which includes a word dictionary section 13 with furigana, a string of handwritten kanji and the corresponding handwritten kanji. A furigana string is optically captured, and for each character forming each character string, a plurality of character candidates are independently listed in order of level according to the degree of similarity, and each character candidate is selected for each level in correspondence with each character string to be recognized. an optical initial recognition unit 11 for handwritten kanji with furigana that outputs a plurality of character string candidates arranged in a row as a recognition result, and the word dictionary unit 13 with furigana;
The recognition results are sent to the furigana-added kanji dictionary section 13 by the furigana-added word recognition complementation section 12 , which searches for each character string candidate that is the recognition result, the furigana-added kanji dictionary section 15 , and the furigana-added word recognition complementation section 12 . If it is determined that it does not exist, the reading of the corresponding kanji is extracted from the reading-reading kanji dictionary unit 15 for each recognized kanji, a character string candidate corresponding to the reading is created, and the word recognition with furigana is complemented. 12.

ここで、フリガナ付単語認識補完部12及びフリガナ補
完部14は認識補完後処理部10に相当するものであり
、前記CPU20、当該処理プログラムを格納した前記
主記憶装置40、及び前記出力部50に相当するもので
ある。
Here, the word recognition complementation unit 12 with furigana and the furigana complementation unit 14 correspond to the recognition completion post-processing unit 10, and are connected to the CPU 20, the main storage device 40 storing the processing program, and the output unit 50. It is equivalent.

また、前記0CR30、CPU20、前記漢字・フリガ
ナ辞書部60、及び初期認識のプログラムを格納した前
記主記憶装置40は前記光学的初期認識部11に相当す
るものである。
Further, the OCR 30, the CPU 20, the kanji/furigana dictionary section 60, and the main storage device 40 storing the initial recognition program correspond to the optical initial recognition section 11.

さらに、当該手書きフリガナ付漢字の光学的初期認識部
11は第4図に示すように手書き漢字光学的認識部11
a及び手書きフリガナの光学的認識部11bからなるも
のである。
Further, the optical initial recognition unit 11 for the handwritten kanji with furigana is configured as shown in FIG.
a and a handwritten furigana optical recognition section 11b.

続いて、本実施例に係る光学的手書き漢字認識の後処理
装置及び方法の動作を説明する。
Next, the operation of the optical handwritten kanji recognition post-processing apparatus and method according to this embodiment will be described.

前記手書きフリガナ付漢字の光学的初期認識部11の前
記手書き漢字の光学的認識部11aにより認識された手
書き漢字列及び手書きフリガナの光学的認識部11bに
より認識された手書きフリガナ列の初期認識結果が前記
認識補完後処理部10の前記フリガナ付単語認識補完部
12に入力する。
The initial recognition results of the handwritten kanji string recognized by the handwritten kanji optical recognition section 11a of the handwritten kanji with furigana optical initial recognition section 11 and the handwritten furigana string recognized by the handwritten furigana optical recognition section 11b are The information is input to the word recognition complement section 12 of the recognition complement post-processing section 10 .

ここで、前記手書きフリガナ付漢字の光学的初期認識部
11による初期認識は、例えば、光学的に取り込まれた
手書きされた文字像を電気信号に変換し、雑音を含む文
字信号から文字信号のみを切り出し、文字の位置、大き
さ、傾き、線巾の正規化、特徴抽出を行って、得たパタ
ーンと予め前記漢字・フリガナ辞書部60に格納してお
いた標準パターンとの類似の程度を計算し、類似性の高
い標準パターンを初期認識結果として出力する。
Here, the initial recognition of the handwritten kanji with furigana by the optical initial recognition unit 11 is performed by, for example, converting an optically captured handwritten character image into an electrical signal, and extracting only the character signal from the character signal containing noise. Cut out, normalize character position, size, inclination, line width, and extract features, and calculate the degree of similarity between the obtained pattern and the standard pattern stored in the kanji/furigana dictionary section 60 in advance. Then, a highly similar standard pattern is output as the initial recognition result.

第5図には例として、手書きされた「束材(アズマムラ
)」について、当該光学的初期認識部11により初期認
識された結果の文字列候補を示す。
As an example, FIG. 5 shows character string candidates as a result of initial recognition by the optical initial recognition unit 11 for the handwritten "bundle material (Azumamura)".

同図に示すように、手書きされた「東」について初期認
識された結果、類似の程度の最も高いレベルの候補1は
「東」であり、次に類似性の高いレベルの候補2は「束
」であり、次は候補3の「策」であり、・・・、候補n
は「西」である。また、手書きされた「村」について初
期認識された結果、類似性の最も高い候補1は「材」で
あり、次が候補2の「村」であり、次は候補3の「林」
であり、・・・候補nは「森」である。
As shown in the figure, as a result of the initial recognition of the handwritten "Higashi", the candidate 1 with the highest level of similarity is "Higashi", and the candidate 2 with the next highest level of similarity is "Bundle". ”, and the next is the “strategy” of candidate 3, ..., candidate n
is "West". In addition, as a result of the initial recognition of the handwritten "village", candidate 1 with the highest similarity is "wood", the next candidate is "village", and the next candidate is "hayashi" (candidate 3).
...candidate n is "forest".

同様にして、手書きされた「ア」については候補1は「
ア」てあり、候補2は「す」であり、候補3は「テ」で
あり、・・・、候補nは「フ」である。以下同様にして
番手書きされた「ズ」、「マ」、「ム」、「ヲ」につい
て各々n個ずつの候補が挙げられている。
Similarly, for the handwritten "a", candidate 1 is "
Candidate 2 is "su", candidate 3 is "te", ..., candidate n is "fu". Thereafter, n candidates are listed for each of ``zu'', ``ma'', ``mu'', and ``wo'' written in the same way.

フリガナ付単語認識補完部12は前記フリカナ付単語辞
書部13を検索し、各文字列候補毎、第5図に示す場合
には、最も類似性の高いレベルの文字列候補1ては「束
材、アズマムヲ」、候補2では「束材、ナスコハヨ」、
・・・等について、当該フリカナ付単語辞書部13に当
該各文字列候補の組合せが存在するか否かが判断される
ことになる。
The furigana-added word recognition complement unit 12 searches the furigana-added word dictionary unit 13, and for each character string candidate, in the case shown in FIG. , Azumamuwo'', candidate 2 is ``Takuzai, Nasukohayo'',
. . , etc., it is determined whether the combination of each character string candidate exists in the furikana-added word dictionary section 13.

第5図に示した同レベル毎に並べた各文字列候補につい
ては、いずれも当該フリカナ付単語辞書部13には存在
しないと判断されることになる。
It is determined that none of the character string candidates arranged at the same level shown in FIG. 5 exist in the furikana-added word dictionary section 13.

一方、当該フリカナ付単語辞書部13に当該漢字列のフ
リガナ列が存在し、かつ1個だけであって、しかもフリ
ガナの初期認識結果と一致する場合には、前記フリガナ
付単語認識補完部12により当該フリガナを認識結果と
して出力することになる。
On the other hand, if there is a furigana string for the kanji string in the furigana word dictionary section 13 and there is only one furigana string, and it matches the initial recognition result of the furigana, the furigana word recognition complement section 12 The furigana will be output as a recognition result.

第5図に示したように、前記フリガナ付単語認識補完部
12により各文字列候補が前記フリカナ付単語辞書部1
3に存在しないと判断された場合には、その旨が前記フ
リガナ補完部14に通知される。
As shown in FIG.
If it is determined that the name does not exist in 3, the furigana complementing unit 14 is notified of this fact.

すると、当該フリガナ補完部14は初期認識された各漢
字列候補を形成する各漢字について、その読み方を検索
し、読み方付漢字辞書部15から初期認識されたフリガ
ナ組合せの中に該当するものがあるか否かの判断を行う
ことになる。
Then, the furigana completion unit 14 searches for the reading of each kanji forming each initially recognized kanji string candidate, and searches the kanji dictionary with readings unit 15 for the corresponding reading among the initially recognized furigana combinations. A decision will be made as to whether or not.

その場合、前記フリガナ組合せの中に該当するものがな
かった場合には、補完終了を前記フリガナ付単語認識補
完部12に報告を行う(成果なし)。
In this case, if there is no corresponding one among the furigana combinations, the completion of the completion is reported to the furigana-added word recognition complementation unit 12 (no result).

また、初期認識されたフリガナの組み合わせの中に該当
するものが1個存在すれば、それを、複数個存在すると
判断された場合には、各候補レベルに重み付は算出を行
って可能性の高いものを採用するようにする。
In addition, if there is one corresponding combination of furigana among the initially recognized furigana combinations, if it is determined that there are multiple combinations, weighting is calculated for each candidate level to increase the probability. Make sure to choose something expensive.

こうして、採用した結果を前記フリガナ付単語認識補完
部12に対し、フリガナ補完結果としてフィードバック
することになる。
In this way, the adopted result is fed back to the furigana-added word recognition complementation section 12 as a furigana complementation result.

ここで、読み方付漢字辞書により検索された例として、
第5図に初期認識された結果を示すと、候補1の「材」
について、「ザイ」はフリガナ組合せの中に該当なく、
候補2の「村」について、「リン」はフリガナ組合せの
中に該当なく、「ムラ」はフリガナ組合せの中に該当あ
り、所定の可能性値の算出を行うことになる。
Here, as an example searched using a kanji dictionary with readings,
Figure 5 shows the initial recognition results.
Regarding, "zai" does not fall under the furigana combination,
Regarding candidate 2, ``mura,''``Rin'' does not fall within the furigana combination, and ``Mura'' does fall within the furigana combination, so a predetermined probability value is calculated.

さらに、候補3の「林」について、「リン」はフリガナ
組合せの中に該当なく、「ハヤシ」はフリガナ組合せの
中に該当ない。このようにして候補nの「森」について
までフリガナ組合せの中に該当するものがあるか否かの
判断がなされることになる。
Furthermore, regarding Candidate 3, "Hayashi,""Rin" does not fall within the furigana combination, and "Hayashi" does not fall within the furigana combination. In this way, it is determined whether or not there is a corresponding furigana combination for candidate n, ``Mori''.

こうして、第5図に示した例では判定の結果は「ムラ」
ではなく「ムラ」ということになる。
In this way, in the example shown in Figure 5, the judgment result is "uneven".
Instead, it is called "unevenness."

こうして、得られたフリガナ列候補「アズマ」「ムラ」
と、初期認識された漢字候補について、前記漢字認識補
完部12により再度、前記フリガナ付単語辞書部13に
対して検索が行われ、当該辞書部13に存在すれは、最
終的な認識結果として、当該漢字列及びフリガナ列が前
記出力部50から出力されることになる。
In this way, the furigana column candidates “Azuma” and “Mura” were obtained.
The initially recognized kanji candidate is searched again by the kanji recognition complementation unit 12 in the word dictionary with furigana unit 13, and if it exists in the dictionary unit 13, the final recognition result is: The kanji string and furigana string are output from the output section 50.

以上説明したように、本実施例によれば、OCR装置に
よる光学的読取りによる漢字認識の精度が向上し、従来
の認識精度の低さに起因する入力データの修正にかかわ
る操作者の負荷の軽減が可能となる。
As explained above, according to this embodiment, the accuracy of kanji recognition by optical reading by an OCR device is improved, and the burden on the operator involved in correcting input data caused by the low recognition accuracy of conventional methods is reduced. becomes possible.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明はフリガナ付単語認識補完
部と、フリガナ付単語辞書部により前記初期認識結果が
フリガナ付単語辞書部に存在しないと判断された場合に
は、認識された各漢字について読み方付漢字辞書部から
対応する漢字の読み方を抽出し、当該読み方に基づき、
当該読み方に該当する文字列候補を作成するフリガナ補
完部を設けている。
As explained above, in the present invention, when the initial recognition result is determined by the furigana-added word recognition complementing unit and the furigana-added word dictionary unit to be non-existent in the furigana-added word dictionary unit, each recognized kanji is Extract the reading of the corresponding kanji from the kanji dictionary with reading, and based on the reading,
A furigana completion section is provided to create character string candidates corresponding to the reading.

従って、光学的読取りによる漢字認識の精度が向上し、
従来のように精度の低さに起因する入力データの修正を
行う必要のあった操作者の負担の軽減を図ることができ
て、信頼性があり、かつ効率の良い光学的手書き漢字認
識の後処理装置及び方法を提供することができることに
なる。
Therefore, the accuracy of kanji recognition by optical reading is improved,
After reliable and efficient optical handwritten kanji recognition, it is possible to reduce the burden on the operator who had to correct the input data due to low accuracy as in the past. Processing apparatus and methods can then be provided.

【図面の簡単な説明】 第1図は第一の発明の原理ブロック図、第2図は第二の
発明に係る原理流れ図、第3図は実施例に係る機器構成
ブロック図、第4図は実施例に係るブロック図、第5図
は実施例に係る処理例を示す図、及び、第6図は従来例
に係るブロック図である。 1.11・・・手書きフリガナ付漢字の光学的初期認識
部 2.12・・・フリガナ付単語認識補完部3.13・・
・フリガナ付単語辞書部 4.14・・・フリガナ補完部 5.15・・・読み刃付漢字−辞書部
[Brief Description of the Drawings] Fig. 1 is a principle block diagram of the first invention, Fig. 2 is a principle flow diagram of the second invention, Fig. 3 is a device configuration block diagram of the embodiment, and Fig. 4 is a principle block diagram of the second invention. FIG. 5 is a block diagram of the embodiment, FIG. 5 is a diagram showing a processing example of the embodiment, and FIG. 6 is a block diagram of a conventional example. 1.11... Optical initial recognition unit for handwritten kanji with furigana 2.12... Word recognition complement unit with furigana 3.13...
・Word dictionary with furigana section 4.14... Furigana complement section 5.15... Kanji with reading blade - dictionary section

Claims (2)

【特許請求の範囲】[Claims] (1)漢字と当該漢字に付されるべきフリガナとを対応
付けて格納するフリガナ付単語辞書部(3)を有し、当
該フリガナ付単語辞書部(3)を検索して、手書き漢字
列の光学的認識の補完を行う光学的手書き漢字認識の後
処理装置において、手書き漢字列及び対応する手書きフ
リガナ列を光学的に取り込み、各文字列を形成する文字
毎に、各々複数の文字候補を類似の程度に応じたレベル
順に挙げ、当該各レベル毎に、認識すべき前記各文字列
に対応させて並べた複数の文字列候補を認識結果として
出力する手書きフリガナ付漢字の光学的初期認識部(1
)と、 フリガナ付単語辞書部(3)に対し、前記認識結果であ
る各文字列候補について検索を行うフリガナ付単語認識
補完部(2)と、 漢字一字毎に漢字と当該漢字の読み方とを対応付けて格
納する読み方付漢字辞書部(5)と、フリガナ付単語認
識補完部(2)により前記認識結果がフリガナ付単語辞
書部(3)に存在しないと判断された場合には、認識さ
れた各漢字について読み方付漢字辞書部(5)から対応
する漢字の読み方を抽出し、当該読み方に該当する文字
列候補を作成して前記フリガナ付単語認識補完部(2)
に送出するフリガナ補完部(4)と、を有することを特
徴とする光学的手書き漢字認識の後処理装置。
(1) It has a word dictionary with furigana (3) that stores kanji and the furigana to be attached to the kanji in association with each other, and searches the word dictionary with furigana (3) to find handwritten kanji strings. In an optical handwritten kanji recognition post-processing device that complements optical recognition, a handwritten kanji string and a corresponding handwritten furigana string are optically captured, and multiple character candidates are created similar to each character for each character forming each character string. An optical initial recognition unit for handwritten kanji with furigana ( 1
), a word dictionary with furigana part (3), a word recognition complement part with furigana (2) that searches each character string candidate that is the recognition result, and a word dictionary with furigana part (2) that searches for each character string candidate that is the recognition result; If it is determined by the kanji dictionary with pronunciation (5) and the word recognition complement unit (2) with reading that the recognition result does not exist in the word dictionary with furigana (3), the recognition For each kanji that has been read, extracts the reading of the corresponding kanji from the kanji dictionary with reading (5), creates a character string candidate corresponding to the reading, and processes the word recognition complement unit (2) with furigana.
A post-processing device for optical handwritten kanji recognition, comprising: a furigana complementing unit (4) that sends a reading to a user.
(2)漢字と当該漢字に付されるべきフリガナとを対応
付けるフリガナ付単語辞書を検索して、手書き漢字列の
光学的認識の補完を行う光学的手書き漢字認識の後処理
方法において、 手書き漢字列及び対応する手書きフリガナ列を光学的に
認識し、各文字列を形成する文字毎に、各々複数の文字
候補を類似の程度に応じたレベル順に挙げ、当該各レベ
ル毎に、認識すべき前記各文字列に対応させて並べた複
数の文字列候補を認識結果として出力し(S1)、 フリガナ付単語辞書に対し、前記認識結果である各文字
列候補毎について検索を行い(S2)、当該認識結果で
ある各文字列候補がフリガナ付単語辞書に存在するか否
かの判断を行い (S3)、 存在すると判断された場合には、当該文字列候補をフリ
ガナ付漢字として出力し(S5)、存在しないと判断さ
れた場合には、認識された各漢字について、一字毎に読
み方付漢字辞書からその読み方を抽出し、当該読み方に
該当する文字列候補を作成して(S4)、再度フリガナ
付単語漢字辞書の検索を行う(S2)ことを特徴とする
光学的手書き漢字認識の後処理方法。
(2) In a post-processing method for optical handwritten kanji recognition, which complements optical recognition of handwritten kanji strings by searching a word dictionary with furigana that associates kanji with furigana to be added to the kanji, and the corresponding handwritten furigana string, and for each character forming each character string, list a plurality of character candidates in order of level according to the degree of similarity, and select each of the above-mentioned characters to be recognized for each level. A plurality of character string candidates arranged in correspondence with the character string are output as recognition results (S1), and a word dictionary with furigana is searched for each character string candidate that is the recognition result (S2). It is determined whether each resulting character string candidate exists in the word dictionary with furigana (S3), and if it is determined that it exists, the character string candidate is output as a kanji with furigana (S5); If it is determined that it does not exist, for each recognized kanji, the reading is extracted from the kanji dictionary with readings, a character string candidate corresponding to the reading is created (S4), and the reading is read again. A post-processing method for optical handwritten kanji recognition, characterized by searching a kanji dictionary with attached words (S2).
JP2210786A 1990-08-09 1990-08-09 Device and method for post-processor for optical hand-written kanji Pending JPH0496190A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2210786A JPH0496190A (en) 1990-08-09 1990-08-09 Device and method for post-processor for optical hand-written kanji

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2210786A JPH0496190A (en) 1990-08-09 1990-08-09 Device and method for post-processor for optical hand-written kanji

Publications (1)

Publication Number Publication Date
JPH0496190A true JPH0496190A (en) 1992-03-27

Family

ID=16595110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2210786A Pending JPH0496190A (en) 1990-08-09 1990-08-09 Device and method for post-processor for optical hand-written kanji

Country Status (1)

Country Link
JP (1) JPH0496190A (en)

Similar Documents

Publication Publication Date Title
US7970213B1 (en) Method and system for improving the recognition of text in an image
US5265171A (en) Optical character reading apparatus for performing spelling check
US10438097B2 (en) Recognition device, recognition method, and computer program product
JPH0496190A (en) Device and method for post-processor for optical hand-written kanji
JP3071745B2 (en) Post-processing method of character recognition result
JP2001147990A (en) Device and method for processing image data and storage medium to be utilized therefor
JP2001236467A (en) Method and device for pattern recognition, and recording medium with pattern recognition program recorded thereon
JPH1069494A (en) Image retrieval method and device therefor
JP2746345B2 (en) Post-processing method for character recognition
JP4633271B2 (en) Dictionary learning method and dictionary learning program
JP2918380B2 (en) Post-processing method of character recognition result
JPS60138689A (en) Character recognizing method
JPH07271920A (en) Character recognizing device
CN116092083A (en) OCR error correction method and device based on knowledge base and storage medium
JPS58125183A (en) Method for displaying unrecognizable character in optical character reader
JPH0540854A (en) Post-processing method for character recognizing result
JPH10162103A (en) Character recognition device
JP3595081B2 (en) Character recognition method
KR20220168787A (en) Method to extract units of Manchu characters and system
JP2000207491A (en) Reading method and device for character string
JP2851102B2 (en) Character extraction method
JPH0355874B2 (en)
JPS6318483A (en) Character recognizing method for optical information input device
JPS60138688A (en) Character recognizing method
JPH06187450A (en) Pattern recognizing method and device therefor