JP3331302B2 - 文字認識後処理装置 - Google Patents

文字認識後処理装置

Info

Publication number
JP3331302B2
JP3331302B2 JP05068197A JP5068197A JP3331302B2 JP 3331302 B2 JP3331302 B2 JP 3331302B2 JP 05068197 A JP05068197 A JP 05068197A JP 5068197 A JP5068197 A JP 5068197A JP 3331302 B2 JP3331302 B2 JP 3331302B2
Authority
JP
Japan
Prior art keywords
kanji
candidate
dictionary
furigana
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05068197A
Other languages
English (en)
Other versions
JPH10247218A (ja
Inventor
正人 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP05068197A priority Critical patent/JP3331302B2/ja
Publication of JPH10247218A publication Critical patent/JPH10247218A/ja
Application granted granted Critical
Publication of JP3331302B2 publication Critical patent/JP3331302B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識処理後に
認識精度を高める処理を行う文字認識後処理装置に関す
る。
【0002】
【従来の技術】文字認識処理装置は、一般に、手書き入
力などによって入力された手書き文字を文字認識し、該
手書き文字に類似する候補文字を、たとえば複数個出力
する。ふりがなが付された氏名などの漢字をふりがなと
ともに文字認識する場合、ふりがなと漢字とは個別的に
文字認識される。したがって、第1候補文字においてふ
りがなと漢字とが対応していないことがある。たとえ
ば、手書き入力による「はしもと」と付された「橋本」
を文字認識したときに、第1ふりがな候補として「はし
もと」が得られ、第1漢字候補として「稿不」が得られ
ることがある。
【0003】また、たとえば特開平4−340686号
公報には文字認識後処理用氏名辞書が開示されている。
当該文字認識後処理用氏名辞書は、先頭文字と文字長と
が合致する幾つかの氏名候補を索引する処理を可能とす
るための辞書であり、具体的には、姓のふりがな、名の
ふりがな、姓の漢字および名の漢字を文字数毎に記憶す
るものである。
【0004】このような文字認識後処理用氏名辞書を用
いて、第1ふりがな候補として「はしもと」を得て、該
第1ふりがな候補の「はしもと」と、ふりがな文字数
「4」と、漢字文字数「2」とをもとに前記辞書を検索
する。そして、文字認識によって漢字候補として得られ
た「橋」および「本」を第1漢字候補とすることができ
る。この場合、得られた漢字候補自体の変更などの処理
は実施されない。
【0005】
【発明が解決しようとする課題】手書き入力によるふり
がなと漢字とを文字認識し、第1ふりがな候補と第1漢
字候補とが対応していなかったときに、複数個出力され
る候補の中に対応するふりがなまたは漢字が含まれてい
れば、その中から所望のふりがなまたは漢字を選択すれ
ばよい。しかし、出力される複数の候補中に対応するふ
りがなまたは漢字が含まれていないならば、何らかの手
段を用いて文字を再度入力するなどの操作が必要であ
り、文字認識効率の著しい低下を招く。
【0006】また、前記文字認識後処理用氏名辞書を用
いる場合では、複数個出力される候補の中に対応するふ
りがなおよび漢字が含まれているときのみに有効であ
り、対応するふりがなおよび漢字が含まれていないとき
には、上述と同様に、何らかの手段を用いて文字を再度
入力するなどの操作が必要であり、文字認識効率の著し
い低下を招く。
【0007】本発明の目的は、複数個出力される候補の
中に所望の文字が含まれるように前記候補を追加するこ
とができ、簡単な操作で優れた文字認識効率が得られる
文字認識後処理装置を提供することである。
【0008】
【課題を解決するための手段】本発明は、互いに対応す
る辞書漢字と辞書ふりがなとを含む辞書データを、該辞
書漢字の文字数および該辞書ふりがなの文字数毎に記憶
する辞書手段と、互いに対応する漢字とふりがなとを文
字認識し、漢字候補、ふりがな候補、該漢字候補の文字
数、該ふりがな候補の文字数を出力する文字認識手段
と、前記文字認識手段から出力された漢字候補を記憶す
る漢字候補記憶手段と、前記文字認識手段から出力され
たふりがな候補を記憶するふりがな候補記憶手段と、前
記文字認識手段から出力された漢字候補の文字数を記憶
する漢字候補文字数記憶手段と、前記文字認識手段から
出力されたふりがな候補の文字数を記憶するふりがな候
補文字数記憶手段と、前記漢字候補文字数記憶手段に記
憶された漢字候補文字数と等しい辞書漢字文字数であっ
て、前記ふりがな候補文字数記憶手段に記憶されたふり
がな候補文字数と等しい辞書ふりがな文字数である辞書
データを、前記辞書手段から読出す第1辞書データ読出
し手段と、前記第1辞書データ読出し手段によって読出
された辞書データの中から、前記ふりがな候補記憶手段
に記憶されたふりがな候補と予め定められる関係の辞書
データを読出す第2辞書データ読出し手段と、前記第2
辞書データ読出し手段によって読出された辞書データの
辞書漢字と、前記漢字候補記憶手段に記憶された漢字候
補とを比較する漢字比較手段と、前記漢字比較手段の比
較結果に基づいて、漢字同士が一致していなかったとき
には、読出された前記辞書漢字を追加漢字候補として記
憶する追加漢字候補記憶手段とを含むことを特徴とする
文字認識後処理装置である。本発明に従えば、たとえば
手書きによって互いに対応する漢字とふりがなとが入力
されると、文字認識処理が実施され、漢字候補、ふりが
な候補、該漢字候補の文字数、該ふりがな候補の文字数
が得られる。さらに、漢字候補文字数と等しい辞書漢字
文字数であって、ふりがな候補文字数と等しい辞書ふり
がな文字数である辞書データが読出され、さらにふりが
な候補と予め定められる関係の辞書データが読出され
る。次に、読出された辞書データの辞書漢字と漢字候補
との比較結果に基づいて、漢字同士が一致していなかっ
たときに、読出された前記辞書漢字が追加漢字候補とし
て追加記憶される。したがって、漢字候補の数が増加さ
れ、該漢字候補中に所望の漢字が含まれる確率が高めら
れる。このため、文字を再度入力するなどの操作の必要
が低減するので、簡単な操作で高い文字認識効率が得ら
れる。
【0009】また本発明は、前記漢字比較手段の比較結
果に基づいて、漢字同士が一致していたときには、前記
漢字候補記憶手段に記憶された一致する漢字候補を、第
1番目の候補として順位を設定する順位設定手段を含む
ことを特徴とする。本発明に従えば、読出された辞書漢
字と漢字候補との比較結果に基づいて、漢字同士が一致
していたときには、一致する漢字候補が第1候補とされ
る。したがって、漢字候補の数が増加されて該漢字候補
中に所望の漢字が含まれる確率が高められるとともに、
所望の漢字である可能性の高い漢字が第1候補とされる
ので、簡単な操作で高い文字認識効率が得られる。
【0010】また本発明は、前記第2辞書データ読出し
手段は、前記ふりがな候補記憶手段に記憶されたふりが
な候補と全文字一致する辞書ふりがなの辞書データ、お
よび該ふりがな候補とn(nは自然数)文字だけ不一致
な辞書ふりがなの辞書データを、前記第1辞書データ読
出し手段によって読出された辞書データの中から読出す
ことを特徴とする。本発明に従えば、読出された辞書デ
ータから、ふりがな候補と予め定められる関係の辞書デ
ータが読出されるときにおいて、ふりがな候補と全文字
一致する辞書ふりがなの辞書データ、および該ふりがな
候補とn文字だけ不一致な辞書ふりがなの辞書データが
読出される。したがって、漢字候補の数が増加され、該
漢字候補中に所望の漢字が含まれる確率が高められる。
このため、文字を再度入力するなどの操作の必要が低減
するので、簡単な操作で高い文字認識効率が得られる。
【0011】また本発明は、前記第2辞書データ読出し
手段は、前記ふりがな候補記憶手段に記憶されたふりが
な候補と全文字一致する辞書ふりがなの辞書データ、お
よび該ふりがな候補と1文字だけ不一致な辞書ふりがな
の辞書データを、前記第1辞書データ読出し手段によっ
て読出された辞書データの中から読出すことを特徴とす
る。本発明に従えば、読出された辞書データから、ふり
がな候補と予め定められる関係の辞書データが読出され
るときにおいて、ふりがな候補と全文字一致する辞書ふ
りがなの辞書データ、および該ふりがな候補と1文字だ
け不一致な辞書ふりがなの辞書データが読出される。し
たがって、漢字候補の数が増加され、該漢字候補中に所
望の漢字が含まれる確率が高められる。このため、文字
を再度入力するなどの操作の必要が低減するので、簡単
な操作で高い文字認識効率が得られる。
【0012】また本発明は、前記漢字比較手段の比較結
果に基づいて、漢字同士が一致していなかったときに
は、読出された前記辞書漢字に対応する辞書ふりがなを
追加ふりがな候補として記憶する追加ふりがな候補記憶
手段を含むことを特徴とする。本発明に従えば、読出さ
れた辞書漢字と漢字候補との比較結果に基づいて、漢字
同士が一致していなかったときには、読出された前記辞
書漢字に対応する辞書ふりがなが追加ふりがな候補とし
て記憶される。したがって、前記追加漢字候補に対応す
る追加ふりがな候補を出力することが可能となる。
【0013】また本発明は、前記追加漢字候補記憶手段
は、漢字文字数が複数であり、すべての文字が一致して
いなかったときに、読出された前記辞書漢字を追加漢字
候補として記憶することを特徴とする。本発明に従え
ば、読出された辞書漢字と漢字候補との比較結果に基づ
いて、複数文字の漢字のすべての文字同士が一致してい
なかったときには、読出された前記辞書漢字が追加漢字
候補として追加記憶される。したがって、漢字が複数文
字であったときでも、漢字候補の数が増加され、該漢字
候補中に所望の漢字が含まれる確率が高められる。この
ため、文字を再度入力するなどの操作の必要が低減する
ので、簡単な操作で高い文字認識効率が得られる。
【0014】また本発明は、前記追加漢字候補記憶手段
は、一致している文字数の多い前記辞書漢字を高次の追
加漢字候補として記憶することを特徴とする。本発明に
従えば、読出された辞書漢字と漢字候補との比較結果に
基づいて、複数文字の漢字のすべての文字同士が一致し
ていなかったときに、読出された前記辞書漢字が追加漢
字候補として追加記憶される。このとき、一致している
文字数の多い前記辞書漢字が高次の追加漢字候補として
記憶される。したがって、漢字が複数文字であったとき
でも、漢字候補の数が増加され、該漢字候補中に所望の
漢字が含まれる確率が高められるとともに、所望の漢字
である可能性の高い漢字が第1候補とされる。このた
め、簡単な操作で高い文字認識効率が得られる。
【0015】また本発明は、前記辞書手段は、互いに対
応する前記辞書漢字と前記辞書ふりがなに加えて辞書漢
字の画数を含む辞書データを、辞書漢字の前記文字数お
よび辞書ふりがなの前記文字数毎に記憶し、前記文字認
識後処理装置は、さらに、前記文字認識手段から出力さ
れた漢字候補の画数を記憶する漢字候補画数記憶手段
と、前記漢字比較手段の比較結果に基づいて、漢字同士
が一致していなかったときに、読出された前記辞書漢字
の画数と、前記漢字候補画数記憶手段に記憶された漢字
候補画数とを比較する画数比較手段とを含み、前記追加
漢字候補記憶手段は、前記画数比較手段の比較結果に基
づいて、画数同士が一致していたときに、読出された前
記辞書漢字を追加漢字候補として記憶することを特徴と
する。本発明に従えば、文字認識処理が実施されたとき
に、前記漢字候補、前記ふりがな候補、前記漢字候補の
文字数、前記ふりがな候補の文字数に加えて、漢字候補
の画数が得られる。さらに、漢字候補文字数と等しい辞
書漢字文字数であって、ふりがな候補文字数と等しい辞
書ふりがな文字数である辞書データが読出され、さらに
ふりがな候補と予め定められる関係の辞書データが読出
される。次に、読出された辞書データの辞書漢字と漢字
候補との比較結果に基づいて、漢字同士が一致していな
かったときには、読出された前記辞書漢字の画数と漢字
候補画数とが比較され、画数の比較結果に基づいて、画
数同士が一致していたときに、読出された前記辞書デー
タの辞書漢字が追加漢字候補として追加記憶される。し
たがって、漢字候補の数が画数によって絞り込まれ、簡
単な操作で高い文字認識効率が得られる。
【0016】
【発明の実施の形態】図1は、本発明の一実施形態であ
る文字認識後処理装置1の電気的構成を示すブロック図
である。文字認識後処理装置1は、CPU(中央演算処
理装置)2、手書き入力部3、文字認識部4、主記憶部
5、補助記憶部6および表示部7を含んで構成される。
【0017】CPU2は、文字認識後処理装置1の全体
の動作を統括的に制御する。互いに対応する漢字とふり
がなとが手書き入力される手書き入力部3は、たとえば
透光性を有し、直交座標が設定された入力面を有するタ
ブレットを備え、該入力面を入力ペンなどで指示するこ
とによって、前記漢字とふりがなとが手書き入力され
る。該タブレットは、入力ペンで指示された座標点を表
すアナログ座標信号を出力し、該アナログ座標信号はア
ナログ/デジタル変換されてCPU2に与えられる。こ
のようなタブレットとしては、たとえば抵抗膜式、電磁
誘導式および静電誘導式が採用できる。
【0018】文字認識部4は、手書き入力部3から入力
された前記漢字とふりがなとを予め定められる手法で文
字認識し、漢字候補、ふりがな候補、該漢字候補の文字
数、該ふりがな候補の文字数を出力する。さらに、前記
漢字候補の画数を出力する。文字認識の手法としては、
既知の手法を採用することができる。
【0019】主記憶部5は、漢字候補格納領域8、ふり
がな候補格納領域9、漢字候補文字数格納領域10、ふ
りがな候補文字数格納領域11、漢字候補追加登録領域
12、ふりがな候補追加登録領域13および漢字候補画
数格納領域14を有する。補助記憶部6は、人名辞書領
域15を有する。
【0020】表示部7は、前記手書き入力部3から入力
された前記漢字とふりがな、前記文字認識部4での文字
認識結果、および後述する後処理結果などを表示し、出
力する。たとえば、液晶表示装置で実現され、その表示
面は前記手書き入力部3の入力面と重畳して配置され
る。
【0021】前記主記憶部5の漢字候補格納領域8は、
前記文字認識部4から出力された漢字候補を記憶する。
ふりがな候補格納領域9は、前記文字認識部4から出力
されたふりがな候補を記憶する。漢字候補文字数格納領
域10は、前記文字認識部4から出力された漢字候補の
文字数を記憶する。ふりがな候補文字数格納領域11
は、前記文字認識部4から出力されたふりがな候補の文
字数を記憶する。漢字候補画数格納領域14は、前記文
字認識部4から出力された漢字候補の画数を記憶する。
【0022】また、前記主記憶部5の漢字候補追加登録
領域12は、後述する後処理によって得られた辞書漢字
を追加漢字候補として記憶する。ふりがな候補追加登録
領域13は、追加漢字候補として記憶された前記辞書漢
字に対応する辞書ふりがなを追加ふりがな候補として記
憶する。
【0023】前記補助記憶部6の人名辞書領域15は、
図2に示されるように、ふりがなm文字で漢字n文字の
先頭格納アドレス21およびふりがなm文字で漢字n文
字の人名漢字数22を含む複数のアドレスデータ26〜
28と、辞書ふりがな23、辞書漢字24および辞書漢
字画数25を含む複数の辞書データ29〜31とを記憶
する。すなわち、図3の概念図に示されるように、互い
に対応する辞書漢字32と辞書ふりがな33とを、該辞
書漢字の文字数34および該辞書ふりがなの文字数35
毎に記憶する。
【0024】図4は、後述する後処理動作において用い
られるふりがなの優先度Pおよび漢字の優先度Qによっ
てランク付けられた候補データを示すランク表の概念図
である。
【0025】たとえば、ふりがな候補のすべての文字が
第1候補である候補データが、第1ふりがな優先度P1
であるランク1とされる。ふりがな候補のすべての文字
のうちの1文字だけが第1候補以外の候補であり、残余
の文字が第1候補である候補データが、第2ふりがな優
先度P2であるランク2とされる。ふりがな候補のすべ
ての文字のうちの1文字だけに候補がなく、残余の文字
が第1候補である候補データが、第3ふりがな優先度P
3であるランク3とされる。ふりがな候補のすべての文
字のうちの2文字が第1候補以外の候補であり、残余の
文字が第1候補である候補データが、第4ふりがな優先
度P4であるランク4とされる。以降、適宜ランク付け
される。そして、第FM+2ふりがな優先度PFM+2
であるランクFM+2の候補データが、最下位ランクの
データとされる。ここで、FMは文字認識部4から出力
されたふりがな候補の文字数を表す。
【0026】また、漢字候補のすべての文字が第1候補
以外の候補である候補データが、第1漢字優先度Q1で
あるランク1とされる。漢字候補のすべての文字のうち
の1文字だけに候補がなく、残余の文字が第1候補以外
の候補である候補データが、第2漢字優先度Q2である
ランク2とされる。以降、適宜ランク付けされる。そし
て、第KM+1漢字優先度QKM+1であるランクKM
+1の候補データが、最下位ランクのデータとされる。
ここで、KMは文字認識部4からから出力された漢字候
補の文字数を表す。
【0027】次に、前記文字認識後処理装置1の後処理
動作を説明する。ここで、以下の説明で用いる記号を定
義する。F(k,n)は、文字認識部4から出力された
ふりがな候補Fの第k番目の候補のn文字目を指す。F
Mは、前述したように文字認識部4から出力されたふり
がな候補Fの文字数を表す。K(k,n)は、文字認識
部4から出力された漢字候補Kの第k番目の候補のn文
字目を指す。KMは、前述したように文字認識部4から
から出力された漢字候補Kの文字数を表す。
【0028】GKは、漢字候補文字数格納領域10に記
憶された漢字候補文字数と等しい辞書漢字文字数であっ
て、前記ふりがな候補文字数格納領域11に記憶された
ふりがな候補文字数と等しい辞書ふりがな文字数である
辞書データ群を指す。GMは、前記辞書データ群GKの
データ数、すなわち人名数を表す。GK(n)は、前記
辞書データ群GKのn番目のデータを指す。GK
(n).F(m)は、前記辞書データ群GKのn番目の
データのm文字目のふりがな文字を指す。GK(n).
K(m)は、前記辞書データ群GKのn番目のデータの
m文字目の漢字文字を指す。
【0029】図5〜図7は、前記文字認識後処理装置1
の後処理動作を示すフローチャートである。ステップS
1では、文字認識部4から出力されたふりがな候補Fの
第k番目の候補のn文字目であるF(k,n)、該ふり
がな候補Fの文字数FM、文字認識部4から出力された
漢字候補Kの第k番目の候補のn文字目であるK(k,
n)、および該漢字候補Kの文字数KMを受け取る。そ
して、F(k,n)はふりがな候補格納領域9に、FM
はふりがな候補文字数格納領域11に、K(k,n)は
漢字候補格納領域8に、KMは漢字候補文字数格納領域
10にそれぞれ格納される。
【0030】ふりがな候補格納領域9には具体的に、図
8に示されるようなふりがな候補データ41が格納され
る。すなわち、第1ふりがな候補42と、第2以降のふ
りがな候補43とが、複数文字分、本実施形態では5文
字分の各文字データ49として格納される。第2以降の
ふりがな候補としては、本実施形態では、第2〜第6ま
でのふりがな候補44〜48が格納される。第1ふりが
な候補42としては、たとえば「ほ」、「し」、
「も」、「と」が格納され、第2ふりがな候補44とし
ては、「ま」、「か」、「み」、「り」が格納され、第
3ふりがな候補45としては「わ」、「り」、「ま」、
「さ」が格納される。
【0031】また、漢字候補格納領域8には具体的に、
図9に示されるような漢字候補データ51が格納され
る。すなわち、第1漢字候補52と、第2以降の漢字候
補53とが、複数文字分、本実施形態では5文字分の各
文字データ59として格納される。第2以降の漢字候補
としては、本実施形態では、第2〜第6までの漢字候補
54〜58が格納される。第1漢字候補52としては、
たとえば「稿」、「不」が格納され、第2漢字候補54
としては、「補」、「木」が格納され、第3漢字候補5
5としては「根」、「本」が格納される。
【0032】ステップS2では、漢字候補文字数格納領
域10に記憶された漢字候補文字数KMと等しい辞書漢
字文字数であって、前記ふりがな候補文字数格納領域1
1に記憶されたふりがな候補文字数FMと等しい辞書ふ
りがな文字数である辞書データ群GKを決定して人名辞
書領域15から読出し、該辞書データ群GKのデータ数
GM、すなわち人名数を取得する。
【0033】ステップS3では、変数nを初期化して1
に設定する。ステップS4では、読出された前記辞書デ
ータ群GKからn番目の辞書データGK(n)を読出
す。
【0034】ステップS5〜S11では、読出された辞
書データGK(n)のふりがなに対して、ふりがな優先
度Pを算出する。具体的に、ステップS5では、変数m
を1に設定し、変数Pを0に設定する。
【0035】ステップS6では、ふりがな候補格納領域
9に格納されたふりがな候補Fを順次取出し、前記辞書
データGK(n)のm文字目の辞書ふりがな文字GK
(n).F(m)が、当該ふりがな候補Fのm文字目の
第1候補であるかどうかが判断される。第1候補である
ときにはステップS7に進み、変数PをP+10に設定
してステップS8に進む。第1候補ではないときにはそ
のままステップS8に進む。
【0036】ステップS8では、ふりがな候補格納領域
9に格納されたふりがな候補Fを順次取出し、前記辞書
データGK(n)のm文字目の辞書ふりがな文字GK
(n).F(m)が、当該ふりがな候補Fのm文字目の
第k候補であるかどうかが判断される。第k候補である
ときにはステップS9に進み、変数PをP+1に設定し
てステップS10に進む。第k候補ではないときにはそ
のままステップS10に進む。
【0037】ステップS10では、変数mと、ふりがな
候補文字数格納領域11に記憶されたふりがな候補Fの
文字数FMとが等しいかどうかが判断される。等しいと
きにはステップS12に進み、等しくないときにはステ
ップS11に進み、変数mをm+1に設定してステップ
S6に戻る。
【0038】ステップS12〜S16では、読出された
辞書データGK(n)の漢字に対して、漢字優先度Qを
算出する。具体的に、ステップS12では、変数mを1
に設定し、変数Qを0に設定する。
【0039】ステップS13では、漢字候補格納領域8
に格納された漢字候補Kを順次取出し、前記辞書データ
GK(n)のm文字目の辞書漢字文字GK(n).K
(m)が、当該漢字候補Fのm文字目の第k候補である
かどうかが判断される。第k候補であるときにはステッ
プS14に進み、変数QをQ+1に設定してステップS
15に進む。第k候補ではないときにはそのままステッ
プS15に進む。
【0040】ステップS15では、変数mと、漢字候補
文字数格納領域10に記憶された漢字候補Kの文字数K
Mとが等しいかどうかが判断される。等しいときにはス
テップS17に進み、等しくないときにはステップS1
6に進み、変数mをm+1に設定してステップS13に
戻る。
【0041】ステップS17では、変数P,Qの値によ
って、前記図4の概念図に示されるようなふりがな優先
度Pおよび漢字優先度Qのランク表を作成する。
【0042】ステップS18では、前記変数nと、前記
辞書データ群GKのデータ数GM、すなわち人名数とが
等しいかどうかが判断される。等しいときにはステップ
S19に進み、等しくないときにはステップS26に進
み、変数nをn+1に設定してステップS4に戻る。こ
れによって、対象となるすべての辞書データについてラ
ンク付けが行われる。
【0043】ステップS19〜S25では、作成された
優先度P,Qのランク表に基づいて、辞書データを優先
度の高い順番に漢字候補として漢字候補追加登録領域1
2に格納する。具体的に、ステップS19では、作成さ
れたランク表の辞書データGKから、n番目の辞書デー
タGK(n)を取出す。ステップS20では、変数mを
1に設定する。
【0044】ステップS21では、取出されたn番目の
辞書データGK(n)のm文字目の漢字文字GK
(n).K(m)が、漢字候補格納領域8に格納された
漢字候補Kのm文字目の第k候補K(k,m)に存在す
るかどうかが判断される。存在するときには既に登録済
みなのでそのままステップS23に進み、存在しないと
きにはステップS22に進み、取出された前記漢字文字
GK(n).K(m)を漢字候補として、所定の順位で
漢字候補追加登録領域12に記憶する。
【0045】ステップS23では、変数mと、漢字候補
文字数格納領域10に格納された漢字文字数KMとが等
しいかどうかが判断される。等しいときにはすべての文
字の判断が終了しているのでステップS24に進み、等
しくないときにはステップS25に進み、変数mをm+
1に設定してステップS21に戻る。
【0046】ステップS24では、すべての漢字の候補
数が、予め定められる登録上限値に達したかどうか、ま
たはすべての辞書データを読出して処理したかどうかを
判断する。上限値に達したときまたはすべての辞書デー
タを処理したときには動作を終了し、上限値に達してい
ないときまたはすべての辞書データを処理していないと
きにはステップS19に戻る。
【0047】以上のように本実施形態によれば、前記漢
字候補文字数格納領域10に記憶された漢字候補文字数
と等しい辞書漢字文字数であって、前記ふりがな候補文
字数格納領域11に記憶されたふりがな候補文字数と等
しい辞書ふりがな文字数の辞書データを前記人名辞書領
域15から読出し、さらに前記ふりがな候補格納領域9
に記憶されたふりがな候補と予め定められる関係の辞書
ふりがなの辞書データを読出す。そして、読出された辞
書データの辞書漢字と前記漢字候補格納領域8に記憶さ
れた漢字候補とを比較し、当該比較結果に基づいて、漢
字同士が一致していなかったときには、読出された前記
辞書漢字を追加漢字候補として漢字候補追加登録領域1
2に記憶させることができる。
【0048】これによって、たとえば図10に示される
ような出力データ61を得ることができる。すなわち、
前記図9に示される「ほしもと」のふりがなを1文字補
正して得られた「はしもと」に基づいて、「橋本」を抽
出し、「橋」を追加漢字候補62として漢字候補追加登
録領域12に追加して記憶することができる。また、
「本」は、既に登録済みであり、追加記憶されない。し
たがって、漢字候補の数が増加され、該漢字候補中に所
望の漢字が含まれる確率が高められる。このため、文字
を再度入力するなどの操作の必要が低減するので、簡単
な操作で高い文字認識効率が得られる。
【0049】また、前記漢字の比較時において漢字同士
が一致していたときには、前記漢字候補格納領域8に記
憶された一致する漢字候補を、第1番目の候補とするこ
とができる。
【0050】これによって、たとえば図11に示される
ような出力データ71を得ることができる。すなわち、
前記図9において2文字目の第3漢字候補の「本」が一
致する漢字候補であるとき、「本」が第1漢字候補72
とされる。そして、図9における第1および第2漢字候
補が、第2および第3漢字候補73,74とされる。し
たがって、所望の漢字である可能性の高い漢字が第1候
補とされるので、高い文字認識効率が得られる。
【0051】また、辞書漢字を読出すときにおいて、前
記ふりがな候補格納領域9に記憶されたふりがな候補と
一致する辞書ふりがなの辞書データ、および該ふりがな
候補とn文字だけ不一致な辞書ふりがなの辞書データを
読出すことができる。このとき、ふりがなの一致する度
合の高い順番に読出すことができる。すなわち、ふりが
なに優先度を付けることができる。
【0052】これによって、たとえば図12示されるよ
うな出力データ81を得ることができる。すなわち、前
記図9に示される「ほしもと」のふりがなをn=1文字
補正して得られた「はしもと」に基づいて「橋本」を抽
出し、n=2文字の補正をして得られた「あさもと」に
基づいて「朝元」を抽出し、「橋」、「朝」および
「元」の追加漢字候補82〜84を得る。そして、n=
2による追加漢字候補83,84よりも、n=1による
追加漢字候補82を優先的に出力することができる。
【0053】特に、前記ふりがな候補格納領域9に記憶
されたふりがな候補と一致する辞書ふりがなの辞書デー
タ、および該ふりがな候補とn=1文字だけ不一致な辞
書ふりがなの辞書データを読出すようにしてもかまわな
い。
【0054】また、前記漢字比較結果に基づいて、漢字
同士が一致していなかったときには、読出された辞書デ
ータの辞書ふりがなを追加ふりがな候補としてふりがな
候補追加登録領域13に記憶させることができる。
【0055】これによって、たとえば図13に示される
ような出力データ91を得ることができる。すなわち、
「橋本」を抽出して「橋」を追加漢字候補として登録す
る際に、「はしもと」の中の「は」を追加ふりがな候補
92として追加して記憶することができる。したがっ
て、前記追加漢字候補に対応する追加ふりがな候補を出
力することが可能となる。
【0056】また、前記漢字の比較時において、漢字候
補文字数が複数であり、すべての文字が一致していなか
ったときには、読出された前記辞書漢字を追加漢字候補
として漢字候補追加登録領域12に記憶させることがで
きる。したがって、漢字が複数文字であったときでも、
漢字候補の数が増加され、該漢字候補中に所望の漢字が
含まれる確率が高められる。特に、一致している文字数
の多い読出された前記辞書漢字を高次の追加漢字候補と
して記憶させることができる。すなわち、漢字に優先度
を付けることができる。
【0057】また、辞書データを読出し、漢字比較結果
に基づいて、漢字同士が一致していなかったときには、
読出された前記辞書データの辞書漢字の画数と、前記漢
字候補画数格納領域14に記憶された漢字候補画数とを
比較し、当該画数比較結果に基づいて、画数同士が一致
していたときに、読出された前記辞書漢字を追加漢字候
補として漢字候補追加登録領域12に追加して記憶させ
ることも本発明の範囲に属するものである。
【0058】これによって、たとえば図14に示される
ような出力データ101を得ることができる。すなわ
ち、1文字目の漢字の比較によって互いに一致していな
い漢字候補として「橋」および「秋」が得られたとき
に、漢字候補画数格納領域14から「稿」の画数として
16を読出し、「橋」の画数としての16と比較する。
この場合、画数同士が一致するので、「橋」は追加漢字
候補102とされる。「秋」の画数としての9との比較
結果は、画数同士が一致しないので、「秋」は追加漢字
候補とはされない。2文字目も同様にして候補を絞り込
むことができる。したがって、簡単な操作で高い文字認
識効率が得られる。
【0059】なお、本実施形態では、文字認識部4が手
書き入力された文字を認識する例について説明したが、
手書き入力文字にかかわらず、たとえば帳票などに記述
されている文字を認識する例も本発明の範囲に属するも
のである。
【0060】
【発明の効果】以上のように本発明によれば、たとえば
手書き入力された互いに対応する漢字とふりがなとを文
字認識処理し、漢字候補、ふりがな候補、該漢字候補の
文字数、該ふりがな候補の文字数を得ると、漢字および
ふりがなの文字数に基づいて辞書データを読出し、さら
にふりがな候補との関係に基づいて辞書データを読出
し、読出された辞書データの辞書漢字と漢字候補とが一
致していなかったときに、該辞書漢字を追加漢字候補と
して追加記憶する。したがって、漢字候補の数が増加さ
れ、該漢字候補中に所望の漢字が含まれる確率が高めら
れる。このため、文字を再度入力するなどの操作の必要
が低減するので、簡単な操作で高い文字認識効率が得ら
れる。
【0061】また本発明によれば、辞書漢字と漢字候補
とが一致していたときには、一致する漢字候補を第1候
補とする。したがって、所望の漢字である可能性の高い
漢字が第1候補とされるので、簡単な操作で高い文字認
識効率が得られる。
【0062】また本発明によれば、辞書データを読出す
ときにおいて、ふりがな候補と一致する辞書ふりがなの
辞書データ、および該ふりがな候補とn文字または1文
字だけ不一致な辞書ふりがなの辞書データを読出すこと
ができる。
【0063】また本発明によれば、辞書漢字と漢字候補
とが一致していなかったときには、辞書漢字に対応する
辞書ふりがなを追加ふりがな候補として記憶する。した
がって、前記追加漢字候補に対応する追加ふりがな候補
を出力することが可能となる。
【0064】また本発明によれば、辞書漢字と漢字候補
とのすべての文字同士が一致していなかったときには、
辞書漢字を追加漢字候補として追加記憶する。したがっ
て、漢字が複数文字であったときでも、漢字候補の数が
増加され、該漢字候補中に所望の漢字が含まれる確率が
高められる。このため、文字を再度入力するなどの操作
の必要が低減するので、簡単な操作で高い文字認識効率
が得られる。
【0065】また本発明によれば、辞書漢字と漢字候補
とのすべての文字同士が一致しておらず、辞書漢字を追
加漢字候補として追加記憶するときにおいて、一致して
いる文字数の多い辞書漢字を高次の追加漢字候補として
記憶する。したがって、漢字が複数文字であったときで
も、漢字候補の数が増加され、該漢字候補中に所望の漢
字が含まれる確率が高められるとともに、所望の漢字で
ある可能性の高い漢字が第1候補とされる。このため、
簡単な操作で高い文字認識効率が得られる。
【0066】また本発明によれば、画数によって漢字候
補の数を絞り込むようにしたので、簡単な操作で高い文
字認識効率が得られる。
【図面の簡単な説明】
【図1】本発明の一実施形態である文字認識後処理装置
1の電気的構成を示すブロック図である。
【図2】補助記憶部6の人名辞書領域15の構成を示す
図である。
【図3】前記人名辞書領域15を示す概念図である。
【図4】ふりがなの優先度Pおよび漢字の優先度Qによ
ってランク付けられた候補データを示すランク表の概念
図である。
【図5】前記文字認識後処理装置1の後処理動作を示す
フローチャートである。
【図6】前記文字認識後処理装置1の後処理動作を示す
フローチャートである。
【図7】前記文字認識後処理装置1の後処理動作を示す
フローチャートである。
【図8】ふりがな候補格納領域9に格納されるふりがな
候補データ41を示す図である。
【図9】漢字候補格納領域8に格納される漢字候補デー
タ51を示す図である。
【図10】出力データ61を示す図である。
【図11】出力データ71を示す図である。
【図12】出力データ81を示す図である。
【図13】出力データ91を示す図である。
【図14】出力データ101を示す図である。
【符号の説明】
1 文字認識後処理装置 2 CPU 3 手書き入力部 4 文字認識部 5 主記憶部 6 補助記憶部 7 表示部 8 漢字候補格納領域 9 ふりがな候補格納領域 10 漢字候補文字数格納領域 11 ふりがな候補文字数格納領域 12 漢字候補追加登録領域 13 ふりがな候補追加登録領域 14 漢字候補画数格納領域 15 人名辞書領域 41 ふりがな候補データ 51 漢字候補データ 61,71,81,91,101 出力データ

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 互いに対応する辞書漢字と辞書ふりがな
    とを含む辞書データを、該辞書漢字の文字数および該辞
    書ふりがなの文字数毎に記憶する辞書手段と、互いに対
    応する漢字とふりがなとを文字認識し、漢字候補、ふり
    がな候補、該漢字候補の文字数、該ふりがな候補の文字
    数を出力する文字認識手段と、 前記文字認識手段から出力された漢字候補を記憶する漢
    字候補記憶手段と、 前記文字認識手段から出力されたふりがな候補を記憶す
    るふりがな候補記憶手段と、 前記文字認識手段から出力された漢字候補の文字数を記
    憶する漢字候補文字数記憶手段と、 前記文字認識手段から出力されたふりがな候補の文字数
    を記憶するふりがな候補文字数記憶手段と、 前記漢字候補文字数記憶手段に記憶された漢字候補文字
    数と等しい辞書漢字文字数であって、前記ふりがな候補
    文字数記憶手段に記憶されたふりがな候補文字数と等し
    い辞書ふりがな文字数である辞書データを、前記辞書手
    段から読出す第1辞書データ読出し手段と、 前記第1辞書データ読出し手段によって読出された辞書
    データの中から、前記ふりがな候補記憶手段に記憶され
    たふりがな候補と予め定められる関係の辞書データを読
    出す第2辞書データ読出し手段と、 前記第2辞書データ読出し手段によって読出された辞書
    データの辞書漢字と、前記漢字候補記憶手段に記憶され
    た漢字候補とを比較する漢字比較手段と、 前記漢字比較手段の比較結果に基づいて、漢字同士が一
    致していなかったときには、読出された前記辞書漢字を
    追加漢字候補として記憶する追加漢字候補記憶手段とを
    含むことを特徴とする文字認識後処理装置。
  2. 【請求項2】 前記漢字比較手段の比較結果に基づい
    て、漢字同士が一致していたときには、前記漢字候補記
    憶手段に記憶された一致する漢字候補を、第1番目の候
    補として順位を設定する順位設定手段を含むことを特徴
    とする請求項1記載の文字認識後処理装置。
  3. 【請求項3】 前記第2辞書データ読出し手段は、前記
    ふりがな候補記憶手段に記憶されたふりがな候補と全文
    字一致する辞書ふりがなの辞書データ、および該ふりが
    な候補とn(nは自然数)文字だけ不一致な辞書ふりが
    なの辞書データを、前記第1辞書データ読出し手段によ
    って読出された辞書データの中から読出すことを特徴と
    する請求項1記載の文字認識後処理装置。
  4. 【請求項4】 前記第2辞書データ読出し手段は、前記
    ふりがな候補記憶手段に記憶されたふりがな候補と全文
    字一致する辞書ふりがなの辞書データ、および該ふりが
    な候補と1文字だけ不一致な辞書ふりがなの辞書データ
    を、前記第1辞書データ読出し手段によって読出された
    辞書データの中から読出すことを特徴とする請求項1記
    載の文字認識後処理装置。
  5. 【請求項5】 前記漢字比較手段の比較結果に基づい
    て、漢字同士が一致していなかったときには、読出され
    た前記辞書漢字に対応する辞書ふりがなを追加ふりがな
    候補として記憶する追加ふりがな候補記憶手段を含むこ
    とを特徴とする請求項1記載の文字認識後処理装置。
  6. 【請求項6】 前記追加漢字候補記憶手段は、漢字文字
    数が複数であり、すべての文字が一致していなかったと
    きに、読出された前記辞書漢字を追加漢字候補として記
    憶することを特徴とする請求項1記載の文字認識後処理
    装置。
  7. 【請求項7】 前記追加漢字候補記憶手段は、一致して
    いる文字数の多い前記辞書漢字を高次の追加漢字候補と
    して記憶することを特徴とする請求項6記載の文字認識
    後処理装置。
  8. 【請求項8】 前記辞書手段は、互いに対応する前記辞
    書漢字と前記辞書ふりがなに加えて辞書漢字の画数を含
    む辞書データを、辞書漢字の前記文字数および辞書ふり
    がなの前記文字数毎に記憶し、 前記文字認識後処理装置は、さらに、 前記文字認識手段から出力された漢字候補の画数を記憶
    する漢字候補画数記憶手段と、 前記漢字比較手段の比較結果に基づいて、漢字同士が一
    致していなかったときに、読出された前記辞書漢字の画
    数と、前記漢字候補画数記憶手段に記憶された漢字候補
    画数とを比較する画数比較手段とを含み、 前記追加漢字候補記憶手段は、前記画数比較手段の比較
    結果に基づいて、画数同士が一致していたときに、読出
    された前記辞書漢字を追加漢字候補として記憶すること
    を特徴とする請求項1記載の文字認識後処理装置。
JP05068197A 1997-03-05 1997-03-05 文字認識後処理装置 Expired - Fee Related JP3331302B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05068197A JP3331302B2 (ja) 1997-03-05 1997-03-05 文字認識後処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05068197A JP3331302B2 (ja) 1997-03-05 1997-03-05 文字認識後処理装置

Publications (2)

Publication Number Publication Date
JPH10247218A JPH10247218A (ja) 1998-09-14
JP3331302B2 true JP3331302B2 (ja) 2002-10-07

Family

ID=12865679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05068197A Expired - Fee Related JP3331302B2 (ja) 1997-03-05 1997-03-05 文字認識後処理装置

Country Status (1)

Country Link
JP (1) JP3331302B2 (ja)

Also Published As

Publication number Publication date
JPH10247218A (ja) 1998-09-14

Similar Documents

Publication Publication Date Title
CN109147767B (zh) 语音中的数字识别方法、装置、计算机设备及存储介质
CN86105459A (zh) 输入处理系统
JP2012185722A (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
CN1095560C (zh) 修改汉字转换结果的系统
JP4890551B2 (ja) 文字変換装置、文字変換装置の制御方法
JPS60189565A (ja) 仮名漢字変換装置
JP3331302B2 (ja) 文字認識後処理装置
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JPH1055409A (ja) 手書き入力情報処理装置
JP2003228394A (ja) 音声入力を利用する名詞特定装置およびその方法
JP2894305B2 (ja) 認識装置の候補修正方式
JPS59117673A (ja) 文字認識装置における後処理方式
JP2000305935A (ja) 文書ファイリング装置
CN1048346C (zh) 词典检索装置
JPH0797370B2 (ja) 文字・音声入力変換方式
JPH0438026B2 (ja)
KR100207657B1 (ko) 계층 구조의 문자 인식 방법 및 장치,그리고 이에 적합한 단어후처리 방법
JPH0760434B2 (ja) 漢字変換装置
JPH0632086B2 (ja) パターン認識装置
JP3184035B2 (ja) 単文節カナ漢字変換入力方式
JPS6049481A (ja) 単語認識装置
JPS63138479A (ja) 文字認識装置
JPH03198180A (ja) 文字認識の後処理方法
JPS6243769A (ja) 仮名漢字変換装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070719

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080719

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080719

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090719

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100719

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110719

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110719

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120719

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees