JPH0438026B2

JPH0438026B2 -

Info

Publication number: JPH0438026B2
Application number: JP59004198A
Authority: JP
Inventors: Eiichiro Yamamoto; Yukikazu Kaburayama; Yoshihisa Fujii; Tozen Hai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-01-12
Filing date: 1984-01-12
Publication date: 1992-06-23
Also published as: JPS60147888A

Description

【発明の詳細な説明】 (1) 発明の技術分野本発明は、文字認識に当つて文字の誤認識を防
止するための一旦認識した文字に対して行なわれ
る文字認識後処理方法及びその装置に関する。

(2) 従来の背景一般に、文字認識装置は、用紙等に書かれた文
字を観測して当該文字の特徴を抽出した後、当該
文字の特徴と認識辞書の内容とを照合させて上記
文字を識別するようにしたものである。ところ
が、用紙等に書かれた文字が乱雑であつたり、く
せ字であるような場合には、当該文字が誤認識さ
れるという虞れがある。

(3) 従来技術とその問題点そこで、従来にあつては、文字認識後処理方法
として、認識対象が複数文字から成る単語である
ことを前提とし、一旦認識した文字を単語単位で
再認識するようにしたものがあり、これにより、
文字の誤認識を極力防止するようにしている。即
ち、上記後処理方法は、上記入力単語を含む多数
の単語を先頭文字によつて検索可能に配列した単
語辞書を予め作成しておき、上記入力単語の各文
字を認識して類似度の高い順位から順に求められ
た候補文字列を単語単位に区画して候補単語列と
し、この候補単語列を上記単語辞書の内容と照合
させることにより、単語辞書から最適な単語を選
択するようにしたものである。

ところで、単語の文字数によつては、ある先頭
文字から始まる単語数が非常に多くなつてしまう
という事態を生ずる。このような場合において、
従来の文字認識後処理方法にあつては、上記単語
辞書は常に単語の先頭文字によつて検索される構
成になつているので、単語辞書の検索時間がかさ
み、その分、文字認識後処理の効率が悪くなると
いう不具合を生ずる。

(4) 発明の目的本発明は以上の観点に立つて為されたものであ
つて、その目的とするところは、文字認識後処理
において、単語辞書の検索時間の短縮化を図り、
もつて処理効率を向上させるようにした文字認識
後処理方法及びその装置を提供することにある。

(5) 発明の構成そして、本発明に係る文字認識後処理方法の基
本的構成は、複数文字から成る入力単語の各文字
を認識して求められた候補文字列を単語単位に区
画して候補単語列とし、この候補単語列を単語辞
書の内容と照合させて単語辞書から最適な単語を
選択するに際し、上記単語辞書に登録すべき単語
の文字数ｎに応じて索引文字位置ｍを先頭文字以
外で任意に設定し、上記単語辞書にはｎ文字から
なる単語の第ｍ番目の文字により類別して単語を
登録しておき、上記単語辞書の登録単語群を上記
索引文字位置ｍの文字によつて検索可能にする一
方、上記候補単語列の上記索引文字位置ｍに対応
する文字を索引文字として上記単語辞書から候補
単語と同一文字数の単語を検索するようにしたも
のである。また、上記方法を実施するための装置
の基本的構成は、複数文字から成る入力単語の各
文字を認識して求められた候補文字列を単語単位
に区画した候補単語列として蓄積する蓄積手段
と、ｎ文字からなる単語の第ｍ番目の文字により
類別して単語を登録しておき索引文字位置ｍの文
字により登録単語群を検索可能にした単語辞書
と、上記蓄積手段に蓄積された候補単語列の最適
索引文字位置に対応する文字を索引文字として上
記単語辞書から候補単語と同一文字数の単語を検
索する検索手段と、上記単語辞書から検索された
単語のうち最適なものを選択する選択手段とを備
えたものである。

(6) 発明の実施例以下、添付図面に示す実施例に基づいて本発明
に係る文字認識後処理方法及びその装置を詳細に
説明する。

第１図は文字認識装置に本発明に係る文字認識
後処理装置を付設したものを示すブロツク図であ
る。同図において、文字認識装置は、用紙等に書
かれた入力単語の各文字を光学的に読み取り該光
信号を光電変換して出力する観測部１と、この観
測部１からの文字図形を表わす電気信号に基づい
て入力文字の特徴を抽出する特徴抽出部２と、認
識対象となる文字の標準特徴を予め格納している
認識辞書３と、上記特徴抽出部２から転送される
入力文字の特徴と上記認識辞書３内の標準特徴と
を照合させて類似度の高い順位から順に認識辞書
内の文字を入力文字として識別する識別部４とを
備えている。また、文字識別後処理装置は、上記
入力単語の各文字に対して上記識別部４で識別さ
れた各候補文字列を単語単位に区画した候補単語
列として蓄積する候補単語バツフア５と、入力単
語を含む単語を予め格納している単語辞書６と、
上記候補単語列を単語辞書６の内容と照合させて
単語辞書から最適な単語を選択する単語照合部７
とを備えている。

この実施例において、上記候補単語バツフア５
は、第２図に示すように、入力単語の最大文字数
に対応するビツト数のレジスタを識別部４から得
られる候補文字数分（例えば５）だけ備えたもの
で、入力単語（文字数ｎ、例えば３）のｉ（ｉ＝
１，２，３）番目の文字に対する候補文字は各レ
ジスタ５ａ乃至５ｅのｉ番目のアドレスに上位レ
ジスタ５ａから下位レジスタ５ｅにかけて類似度
の高い順に格納され、各レジスタ５ａ乃至５ｅに
は上記候補単語が配設されるようになつている。

また、上記単語辞書６に登録される単語群は、
第２図に示すように、最適索引文字位置の文字に
よつて検索可能に配列されている。上記最適索引
文字位置は、登録されるべき単語の文字数によつ
て予め設定されるものであり、単語辞書６から所
定文字数の単語を検索するに当つて、先頭文字以
外の任意に設定した索引文字位置ｍを示すもので
ある。この実施例では、入力単語の文字数ｎ＝３
に対して索引文字位置ｍ（＝ｎ−１）＝２と設定さ
れている。

更に、単語照合部７は、第２図に示すように、
上記候補単語列の索引文字位置ｍに対応する文字
を索引文字として上記単語辞書６から候補単語と
同一文字数の単語を検索する検索手段と、上記単
語辞書６から検索された単語のうち最適なものを
選択する選択手段とを備えている。第２図におい
て、７ａは候補単語バツフア５内の候補単語の文
字数を格納する単語文字数レジスタ、７ｂは登録
されるべき単語の文字数ｎに対する最適索引文字
位置ｍを格納している索引文字テーブル、７ｃは
上記単語文字数レジスタ７ａの内容を読みとり、
しかも索引文字テーブル７ｂを参照して候補単語
バツフア５から索引文字を読み出す索引文字読出
回路、７ｄは単語辞書６内に登録されている単語
のアドレスを格納している読出アドレステーブ
ル、７ｅは単語文字数レジスタ７ａ及び索引文字
読出回路７の内容から読出アドレステーブル７ｄ
内のアドレスを知り、単語辞書６から単語を順次
読出す単語辞書読出制御回路であり、これらは上
記検索手段を構成している。また、符号７ｆは単
語辞書６から読み出された単語を格納する単語レ
ジスタ、７ｇは類似度計算回路で、上記単語レジ
スタ７ｆに格納されている単語の各文字が候補単
語バツフア５の各候補文字列の何番目の順位にあ
るかを調べ、この値を各文字について加算するも
のであり、単語レジスタ７ｆに格納されている単
語のある文字が対応する候補文字列に存在しない
場合には、当該文字に対して候補文字数より大き
い順位を与えるようになつている。７ｈは類似度
計算回路７ｇで計算された類似度を格納する類似
度レジスタ、７ｉは類似度レジスタ７ｈに順次格
納される類似度のうち小さい値のものを更新しな
がら格納する類似度最小値レジスタ、７ｊは類似
度最小値レジスタ７ｉに格納される類似度をもつ
単語を更新しながら格納する最適単語レジスタ、
７ｋは比較器であり、類似度レジスタ７ｈの値が
類似度最小値レジスタ７ｉの値よりも小さいとき
類似度レジスタ７ｈの値を類似度最小値レジスタ
７ｉに格納すると共に、単語レジスタ７ｆの内容
を最適単語レジスタ７ｊに格納するものである。
そして、上記単語レジスタ７ｆ乃至比較器７ｋは
上記選択手段を構成している。

次に、この実施例に係る文字認識後処理装置の
作動を説明する。今、入力単語が文字数ｎ＝３で
ある「計算機」であるとし、識別部４から入力文
字「計」に対して「訂」「計」「討」「許」「訴」の
候補文字が与えられ、入力文字「算」に対して
「算」「篤」「等」「賀」「簿」の候補文字が与えら
れ、入力文字「機」に対して「機」「磯」「横」
「欄」「精」の候補文字が与えられたとする。この
場合、候補単語バツフア５には各文字の各候補文
字が所定の順位に従つて上位レジスタ５ａから下
位レジスタ５ｅへと順に格納され、各レジスタ５
ａ乃至５ｅには候補単語「訂算機」…が格納され
ることになる。この状態において、上記単語文字
数レジスタ７ａには候補単語の文字数に応じた値
（この場合３）が格納され、この値が索引文字読
出回路７ｃに送られると、索引文字テーブル７ｂ
を参照して上記索引文字読出回路７ｃは候補単語
バツフア５から索引文字位置ｍ＝２に対応する。
各候補単語の文字「算」「篤」「等」「賀」「簿」を
索引文字として順次読出する。すると、上記索引
文字及び単語文字数レジスタ７ａの内容が上記単
語辞書読出制御回路７ｅに送られ、読出アドレス
テーブル７ｄを参照して上記単語辞書読出制御回
路７ｅは単語辞書６から文字数が３文字で且つ第
２番目の文字が「算」「篤」「等」「賀」「簿」であ
る単語を順次読出していく。このとき、上記索引
文字は最適なものに設定されていることから、単
語辞書６の検索時間は、候補単語列における先頭
の文字「訂」…や第３番目の文字「機」…を索引
文字とした場合に比べて短縮されている。

そして、単語辞書６から読出された単語が例え
ば「計算機」であるとすると、該単語は単語レジ
スタ７ｆに格納されると共に、該単語の候補単語
に対する類似度が類似度計算回路７ｇで計算され
る。この場合、上記単語の先頭文字「計」は候補
文字列の第２番目に位置し、上記単語の第２、第
３番目の文字「算」「機」は夫々候補文字列の第
１番目に位置することから、類似度計算回路７ｇ
は２＋１＋１の計算を行ない、当該計算値４を類
似度として類似度レジスタ７ｈに格納する。この
状態において、先り格納されている類似度最小値
レジスタ７ｉの内容は「計算機」という単語が存
在しない以上、上記類似度レジスタ７ｈの内容よ
り大きいものであるため、上記比較器７ｋの動き
によつて、類似度レジスタ７ｈの内容が類似度最
小値レジスタ７ｉに格納されると共に、単語レジ
スタ７ｆの内容が最適単語レジスタ７ｊに格納さ
れる。この後、単語辞書６から読出された単語が
順次単語レジスタ７ｆに格納され、夫々の単語に
おける類似度が計算されて類似度レジスタ７ｈに
格納されるが、夫々の単語の類似度は単語「計算
機」における類似度より大きいものになるため、
類似度最小値レジスタ７ｉ及び最適単語レジスタ
７ｊの内容は更新されず、元の内容を保持する。
このようにして、全単語の検索が終了すると、最
終的に類似度最小値レジスタ７ｉには類似度の最
小値が格納され、最適単語レジスタ７ｊには類似
度の最小値に対応する単語「計算機」が格納さ
れ、最適単語レジスタ７ｊから入力単語の最終認
識結果である最適単語「計算機」が読出される。

尚、文字認識後処理装置の具体的構成について
は、上記、実施例で示したものに限定されるもの
ではなく、単語照合部７をマイクロプロセツサを
用いて作成する等適宜設計変更して差支えない。

(7) 発明の効果以上説明してきたように、本発明に係る文字認
識後処理方法及びその装置によれば、文字認識後
処理において単語辞書の検索時間を従来に比べて
短縮でき、その分、処理効率を向上させることが
できる。

【図面の簡単な説明】

第１図は本発明に係る文字認識後処理装置を文
字認識装置に付設したシステムの一例を示すブロ
ツク図、第２図は本発明に係る文字認識後処理装
置の一実施例を示すブロツク図である。５…候補単語バツフア（蓄積手段）、６…単語
辞書、７…単語照合部（検索手段、選択手段）、
ｍ…索引文字位置、ｎ…単語辞書に登録すべき単
語の文字数。

Claims

【特許請求の範囲】１複数文字からなる入力単語の各文字を認識し
て求められた候補文字列を単語単位に区画して候
補単語列とし、この候補単語列を単語辞書の内容
と照合させて、単語辞書から最適な単語を選択す
るに際し、上記単語辞書に登録すべき単語の文字
数ｎに応じて索引文字位置ｍを先頭文字以外で任
意に設定し、上記単語辞書にはｎ文字からなる単
語の第ｍ番目の文字により類別して単語を登録し
ておき、上記単語辞書の登録単語群を上記索引文
字位置ｍの文字によつて検索可能にする一方、上
記候補単語列の上記索引文字位置ｍに対応する文
字を索引文字として上記単語辞書から候補単語と
同一文字の単語を検索するようにしたことを特徴
とする文字認識後処理方法。２複数文字からなる入力単語の各文字を認識し
て求められた候補文字列を単語単位に区画した候
補単語列として蓄積する蓄積手段と、ｎ文字から
なる単語の第ｍ番目の文字により類別して単語を
登録しておき索引文字位置ｍの文字により登録単
語群を検索可能にした単語辞書と、上記蓄積手段
に蓄積された候補単語列の索引文字位置ｍに対応
する文字を索引文字として上記単語辞書から候補
単語と同一文字数の単語を検索する検索手段と、
上記単語辞書から検索された単語のうち最適なも
のを選択する選択手段とを備えてなる文字認識後
処理装置。