JPH0795337B2

JPH0795337B2 - 単語認識方式

Info

Publication number: JPH0795337B2
Application number: JP58108111A
Authority: JP
Inventors: 由明黒沢; 好勝中村; 正人須田
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1983-06-16
Filing date: 1983-06-16
Publication date: 1995-10-11
Anticipated expiration: 2010-10-11
Also published as: JPS60583A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、例えば印刷、手書入力された文字列あるいは
音声入力された文字列からなる単語データを簡易に且つ
効果的に認識することのできる単語認識方式に関する。

〔発明の技術的背景とその問題点〕

情報処理技術の発展に伴い、印刷、手書入力された文字
列や音声入力された文字列からなる単語データを認識
し、その情報を計算機システムに取込むことが行われて
いる。この場合、基本的には上記単語データを構成する
文字列の各文字の特徴をそれぞれ検出することによって
行われるが、個々の文字認識結果を組合せるだけでは、
その認識処理が不十分なことが多い。例えば、或る文字
についての認識結果が正しく得られない場合には、その
単語データ全体の認識ができなくなる。

そこで従来では、例えば第１図に示すように、光電変換
部１にて帳票２から読取った文字列の各文字を前処理部
３を介したのち文字認識部４で認識し、その認識された
文字候補によって示される候補単語と単語辞書５に予め
登録された単語との類似度を単語認識部６にて求め、そ
の類似度の高い単語を認識結果として得ている。

即ち、入力されたｒ個の文字列からなる単語の各文字に
ついての複数の認識結果と、単語辞書５に登録された単
語を構成する文字列の対応文字位置の文字との類似度を
それぞれ求め、これらの類似度の情報に従って総合的に
最も高い類似度を得る辞書登録された単語を前記入力文
字列の認識結果として求めるものであり、例えば特願昭
56−138163号等に詳しく紹介される。

ところが、この種の従来方式にあっては、例えば異種の
単語を連結してなる合成語を示す文字列が与えられた場
合等、その合成語を正しく認識することができないとい
う不具合があった。例えば「日本大学」なる合成語が単
語として辞書登録してあるにも拘らず、「熊本大学」な
る合成語が辞書登録されていないときに、「熊本大学」
なる文字列が入力されると、単語辞書を用いた類似度計
算によって、「本」「大」「学」の各文字についてそれ
ぞれ高い類似度が得られる。これに較べて「熊」なる文
字が単語辞書に登録されていないから、結局入力された
４文字中の３文字について高い類似度を得るものとし
て、「日本大学」なる単語が認識結果として求められ
る。この不具合は、上記「熊本」や「日本」なる単語と
「大学」なる単語とが異なる種類に属し、且つ「熊本大
学」や「日本大学」は、これらの異種単語を結合した合
成語であると云う事実を利用していない為である。この
為、このらの合成語を認識対象とした場合、その認識率
が低下すると云う問題があった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力文字列が複数の単語を結合
した合成語であっても、これを簡易に且つ効果的に認識
することのできる単語認識方式を提供することにある。

〔発明の概要〕

本発明は、入力文字列として複数の単語を連結した合成
語が与えられるような場合、合成語を構成する各単語に
ついてそれぞれ求められた候補単語について単語辞書に
登録された単語を参照して所定のしきい値を越える類似
度のものを求め、そして、これら類似度を結合した情報
として、例えば類似度の和情報を求めて、この情報に従
って合成語を構成する各単語にそれぞれ対応した候補単
語の組み合わせの中から入力文字列の認識結果を決定す
るようにしたものである。

〔発明の効果〕

かくして本発明によれば、合成語を構成する各単語につ
いてそれぞれ求められた候補単語の組み合わせの中から
最も類似度の高い組み合わせのものを入力文字列の認識
結果として決定することができるので、合成語であって
も誤りの少ない精度の高い単語認識を実現することがで
き、これにより合成語を為す文字列を統一的に認識処理
対象とする場合のような不具合を招くことがない。具体
的には前述した「熊本大学」と「日本大学」の例のよう
にその全体で認識処理した場合には４文字中の３文字で
高い類似度が得られて誤った認識結果が得られる不具合
があるのに対して、本方式によれば「熊本」と「日本」
との２文字における単語認識での認識結果が「大学」な
る単語の認識結果によって左右されることがない。従っ
て、その認識精度を高めることが可能となる。しかも、
合成語を構成する単語に対応させて入力文字列から候補
単語を選び出し、これらについてそれぞれ認識処理する
ので非常に簡単である等の実用上多大なる効果が奏せら
れる。尚、このとき、単語辞書として合成語を構成する
単語にそれぞれ対応したものを準備しておき、これらを
ポインタによって結び付けておくようにすれば非常に詳
細な合成語認識を行い得る等の効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の実施例につき説明する。

第２図は実施例に係る単語認識部の概略構成を示すもの
である。単語情報バッファ11は、前記文字認識部４で認
識された入力文字列の各文字の文字候補をそれぞれ蓄え
るものである。これらの文字候補の組によって前記入力
文字列に対する候補単語が示される。単語類似度計算部
12はコントローラ13の制御を受けて、前記バッファ11に
求められた候補単語と、単語辞書５に予め登録された辞
書単語との類似度を計算するもので、コントローラ13
は、これらの類似度の情報に従って、前記入力文字列が
示す単語を認識結果として得ている。

しかして、上記コントローラ13の制御による単語認識
は、基本的には前記バッファ11に格納された入力文字列
の各文字の認識結果（文字候補）の列を１つの単語と看
做して行われるが、前記入力文字列が複数の単語を結合
した合成語であるとき、この合成語を構成する単語に対
応して文字候補の列を区切り、各候補単語毎に単語辞書
５との照合による認識処理が行われる。即ち、入力文字
列が合成語であるとき、この合成語を為す単語の可能な
組合せに応じて前記入力文字列を区切り、これらの区切
られた文字列をそれぞれ候補単語として認識処理する。
例えば入力文字列が４文字からなる場合には、この合成
語を為す単語の文字数の組合せとして（１文字単語＋３
文字単語）、（２文字単語＋２文字単語）、（３文字単
語＋１文字単語）等が考えられる。これらの単語の組に
応じて、その組を為す候補単語と単語辞書５に登録され
た単語との類似度が計算される。コントローラ13は、こ
れらの合成語を為す単語の組の各単語について求められ
た類似度の情報に従って、その単語の組を評価し、前記
入力文字列に対する認識結果を得ている。

このようにして認識処理を行う装置に、今、「熊本大
学」からなる４文字の合成語を示す文字列が与えられた
とする。この場合、第３図に示すように単語情報バッフ
ァ11には、その合成語を為す単語に対応して「熊本」な
る候補単語と「大学」なる候補単語が求められる。これ
らの単語は互いにその種別を異にするものである。この
ような各単語に対して、例えば単語辞書ファイル5aに登
録された単語との類似度が計算され、その最大類似度を
得る辞書単語「熊本」とその類似度値S₁が求められる。
また同様にして「大学」なる入力単語については、単語
辞書ファイル5bに登録された単語との類似度が計算さ
れ、その最大類似度を得る辞書単語「大学」と、その類
似度値S₂とが求められる。そして、コントローラ13は、
これらの類似度値S₁，S₂が共に所定の閾値を越えること
から、上記最大類似度を得た単語を結合し、入力文字列
の認識結果として「熊本大学」を得ている。

第４図は、入力文字列が２つの単語を合成した合成語か
らなる場合の認識手順を示すもので、上記入力文字列を
前半部と後半部とに分け、これらに対応する単語辞書を
第１ファイル，第２ファイルと定義した場合を示してい
る。しかして、この処理は文字列が入力された場合、先
ず定数ｊを「１」にセットし、第１ファイル中の第ｊ番
目の単語を抽出する。そして、この第１ファイルのｊ番
目の単語と、入力文字列を為す前半部の単語との類似度
S₁を計算する。しかるのち、定数ｋを「１」にセット
し、第２ファイル中のｋ番目の単語と、前記入力文字列
を為す後半部の単語との類似度S₂を計算する。そして、
これらの類似度S₁，S₂が共に所定の閾値T₁，T₂を越える
とき、その類似度の和を求め、前記ｊとｋの情報を登録
する。この処理を第１ファイルおよび第２ファイルにそ
れぞれ登録された単語の組合せの全てについて行い、こ
れによって得られた前記類似度の和Ｓに従って、その情
報Ｓが大きいものから順に前記単語の組をソート処理す
る。そして、これらのソート処理された単語の組の、最
も類似度の高い単語の組を、前記入力文字列の認識結果
として出力している。

このように本方式によれば、入力文字列が単語を組合せ
た合成語からなるとき、その単語に対応した文字列毎に
認識処理して前記入力文字列を認識するので、例えば前
述した「熊本大学」が「日本大学」として誤認識される
ような不具合がない。つまり、「熊本」「日本」等の名
称を示す単語と、「大学」なる別の事象の単語とを分離
して認識処理するので、これらの種別の異なる単語の認
識結果によって他の単語に対する認識処理が左右される
こともない。つまり、この例では「大学」のみが独立に
認識されるので、「熊本」および「日本」のそれぞれ２
文字の認識処理によって、その正しい認識結果を得るこ
とができる。従って、入力文字列中の「熊」なる文字が
曖昧であったとしても、その単語認識が２文字中の１文
字に委ねられるだけで、従来のように４文字中の３文字
に委ねられると云う不具合がない。この結果、認識率の
向上を図ることが可能となる。またこのようにして合成
語に対処し得るので、単語辞書５には基本単語のみを登
録しておけばよく、膨大な量からなる合成語の全てを辞
書登録する必要がなくなる。故に、辞書構成の簡略化を
図ることもでき、その実用的利点は絶大である。

ところで合成語は一般に、所定の関連をもって複数の単
語を結合して構成されることが多い。従って、単語辞書
５に登録しておく単語を第５図に示すようにポインタ15
によって繋いでおき、先に決定された単語に応じて残り
部分の単語に対して、上記ポインタ15で示される単語辞
書ファイルを用いて順に認識処理していくようにすれ
ば、その認識処理効率が大幅に向上する。しかも、合成
語を為す単語がポインタによって繋がれているので、そ
の認識精度を高めることが可能となる。

尚、本発明は上記実施例に限定されるものではない。例
えば入力文字列が３個以上の単語を結合して得られる場
合にあっても同様に実施できる。また認識処理を入力文
字列の先頭単語部分から行う必要もない。その他、類似
度の計算法や、この類似度の情報を利用した単語認識
（判定）手段も特に限定されない。また入力文字列が音
声入力された音韻情報によって構成されるものであって
もよい。要するに本発明は、その要旨を逸脱しない範囲
で種々変形して実施することができる。

【図面の簡単な説明】

第１図は単語認識装置の基本構成図、第２図は本発明方
式の一実施例を示す単語認識部の構成図、第３図は本方
式の処理概念を示す図、第４図は実施例に係る処理手順
を示す図、第５図は他の実施例方式の概念を示す図であ
る。４…文字認識部、５…単語辞書、5a,5b…単語辞書ファ
イル、６…単語認識部、11…単語情報バッファ、12…単
語類似度計算部、13…コントローラ、15…ポインタ。

Claims

【特許請求の範囲】

【請求項１】入力文字列の各文字をそれぞれ認識し、こ
の認識された文字候補の列からなる候補単語と単語辞書
に予め登録された単語との類似度を求めて前記入力文字
列が構成する単語を認識する単語認識方式において、前記入力文字列として複数の単語を連結した合成語が与
えられる時、この合成語を為す単語の可能な組み合せに
応じて前記入力文字列を区切り、区切られた各文字列をそれぞれ候補単語とし、これら候
補単語について前記単語辞書に登録された単語と比較し
て所定のしきい値を越える類似度のものを求めると共
に、求められた各候補単語の類似度に基づいて、前記合成語
を為す単語にそれぞれ対応した候補単語の組み合わせの
中から前記入力文字列の認識結果を得ることを特徴とす
る単語認識方式。