JPH0795337B2 - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPH0795337B2
JPH0795337B2 JP58108111A JP10811183A JPH0795337B2 JP H0795337 B2 JPH0795337 B2 JP H0795337B2 JP 58108111 A JP58108111 A JP 58108111A JP 10811183 A JP10811183 A JP 10811183A JP H0795337 B2 JPH0795337 B2 JP H0795337B2
Authority
JP
Japan
Prior art keywords
word
words
character string
similarity
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58108111A
Other languages
English (en)
Other versions
JPS60583A (ja
Inventor
由明 黒沢
好勝 中村
正人 須田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP58108111A priority Critical patent/JPH0795337B2/ja
Publication of JPS60583A publication Critical patent/JPS60583A/ja
Publication of JPH0795337B2 publication Critical patent/JPH0795337B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、例えば印刷、手書入力された文字列あるいは
音声入力された文字列からなる単語データを簡易に且つ
効果的に認識することのできる単語認識方式に関する。
〔発明の技術的背景とその問題点〕
情報処理技術の発展に伴い、印刷、手書入力された文字
列や音声入力された文字列からなる単語データを認識
し、その情報を計算機システムに取込むことが行われて
いる。この場合、基本的には上記単語データを構成する
文字列の各文字の特徴をそれぞれ検出することによって
行われるが、個々の文字認識結果を組合せるだけでは、
その認識処理が不十分なことが多い。例えば、或る文字
についての認識結果が正しく得られない場合には、その
単語データ全体の認識ができなくなる。
そこで従来では、例えば第1図に示すように、光電変換
部1にて帳票2から読取った文字列の各文字を前処理部
3を介したのち文字認識部4で認識し、その認識された
文字候補によって示される候補単語と単語辞書5に予め
登録された単語との類似度を単語認識部6にて求め、そ
の類似度の高い単語を認識結果として得ている。
即ち、入力されたr個の文字列からなる単語の各文字に
ついての複数の認識結果と、単語辞書5に登録された単
語を構成する文字列の対応文字位置の文字との類似度を
それぞれ求め、これらの類似度の情報に従って総合的に
最も高い類似度を得る辞書登録された単語を前記入力文
字列の認識結果として求めるものであり、例えば特願昭
56−138163号等に詳しく紹介される。
ところが、この種の従来方式にあっては、例えば異種の
単語を連結してなる合成語を示す文字列が与えられた場
合等、その合成語を正しく認識することができないとい
う不具合があった。例えば「日本大学」なる合成語が単
語として辞書登録してあるにも拘らず、「熊本大学」な
る合成語が辞書登録されていないときに、「熊本大学」
なる文字列が入力されると、単語辞書を用いた類似度計
算によって、「本」「大」「学」の各文字についてそれ
ぞれ高い類似度が得られる。これに較べて「熊」なる文
字が単語辞書に登録されていないから、結局入力された
4文字中の3文字について高い類似度を得るものとし
て、「日本大学」なる単語が認識結果として求められ
る。この不具合は、上記「熊本」や「日本」なる単語と
「大学」なる単語とが異なる種類に属し、且つ「熊本大
学」や「日本大学」は、これらの異種単語を結合した合
成語であると云う事実を利用していない為である。この
為、このらの合成語を認識対象とした場合、その認識率
が低下すると云う問題があった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力文字列が複数の単語を結合
した合成語であっても、これを簡易に且つ効果的に認識
することのできる単語認識方式を提供することにある。
〔発明の概要〕
本発明は、入力文字列として複数の単語を連結した合成
語が与えられるような場合、合成語を構成する各単語に
ついてそれぞれ求められた候補単語について単語辞書に
登録された単語を参照して所定のしきい値を越える類似
度のものを求め、そして、これら類似度を結合した情報
として、例えば類似度の和情報を求めて、この情報に従
って合成語を構成する各単語にそれぞれ対応した候補単
語の組み合わせの中から入力文字列の認識結果を決定す
るようにしたものである。
〔発明の効果〕
かくして本発明によれば、合成語を構成する各単語につ
いてそれぞれ求められた候補単語の組み合わせの中から
最も類似度の高い組み合わせのものを入力文字列の認識
結果として決定することができるので、合成語であって
も誤りの少ない精度の高い単語認識を実現することがで
き、これにより合成語を為す文字列を統一的に認識処理
対象とする場合のような不具合を招くことがない。具体
的には前述した「熊本大学」と「日本大学」の例のよう
にその全体で認識処理した場合には4文字中の3文字で
高い類似度が得られて誤った認識結果が得られる不具合
があるのに対して、本方式によれば「熊本」と「日本」
との2文字における単語認識での認識結果が「大学」な
る単語の認識結果によって左右されることがない。従っ
て、その認識精度を高めることが可能となる。しかも、
合成語を構成する単語に対応させて入力文字列から候補
単語を選び出し、これらについてそれぞれ認識処理する
ので非常に簡単である等の実用上多大なる効果が奏せら
れる。尚、このとき、単語辞書として合成語を構成する
単語にそれぞれ対応したものを準備しておき、これらを
ポインタによって結び付けておくようにすれば非常に詳
細な合成語認識を行い得る等の効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の実施例につき説明する。
第2図は実施例に係る単語認識部の概略構成を示すもの
である。単語情報バッファ11は、前記文字認識部4で認
識された入力文字列の各文字の文字候補をそれぞれ蓄え
るものである。これらの文字候補の組によって前記入力
文字列に対する候補単語が示される。単語類似度計算部
12はコントローラ13の制御を受けて、前記バッファ11に
求められた候補単語と、単語辞書5に予め登録された辞
書単語との類似度を計算するもので、コントローラ13
は、これらの類似度の情報に従って、前記入力文字列が
示す単語を認識結果として得ている。
しかして、上記コントローラ13の制御による単語認識
は、基本的には前記バッファ11に格納された入力文字列
の各文字の認識結果(文字候補)の列を1つの単語と看
做して行われるが、前記入力文字列が複数の単語を結合
した合成語であるとき、この合成語を構成する単語に対
応して文字候補の列を区切り、各候補単語毎に単語辞書
5との照合による認識処理が行われる。即ち、入力文字
列が合成語であるとき、この合成語を為す単語の可能な
組合せに応じて前記入力文字列を区切り、これらの区切
られた文字列をそれぞれ候補単語として認識処理する。
例えば入力文字列が4文字からなる場合には、この合成
語を為す単語の文字数の組合せとして(1文字単語+3
文字単語)、(2文字単語+2文字単語)、(3文字単
語+1文字単語)等が考えられる。これらの単語の組に
応じて、その組を為す候補単語と単語辞書5に登録され
た単語との類似度が計算される。コントローラ13は、こ
れらの合成語を為す単語の組の各単語について求められ
た類似度の情報に従って、その単語の組を評価し、前記
入力文字列に対する認識結果を得ている。
このようにして認識処理を行う装置に、今、「熊本大
学」からなる4文字の合成語を示す文字列が与えられた
とする。この場合、第3図に示すように単語情報バッフ
ァ11には、その合成語を為す単語に対応して「熊本」な
る候補単語と「大学」なる候補単語が求められる。これ
らの単語は互いにその種別を異にするものである。この
ような各単語に対して、例えば単語辞書ファイル5aに登
録された単語との類似度が計算され、その最大類似度を
得る辞書単語「熊本」とその類似度値S1が求められる。
また同様にして「大学」なる入力単語については、単語
辞書ファイル5bに登録された単語との類似度が計算さ
れ、その最大類似度を得る辞書単語「大学」と、その類
似度値S2とが求められる。そして、コントローラ13は、
これらの類似度値S1,S2が共に所定の閾値を越えること
から、上記最大類似度を得た単語を結合し、入力文字列
の認識結果として「熊本大学」を得ている。
第4図は、入力文字列が2つの単語を合成した合成語か
らなる場合の認識手順を示すもので、上記入力文字列を
前半部と後半部とに分け、これらに対応する単語辞書を
第1ファイル,第2ファイルと定義した場合を示してい
る。しかして、この処理は文字列が入力された場合、先
ず定数jを「1」にセットし、第1ファイル中の第j番
目の単語を抽出する。そして、この第1ファイルのj番
目の単語と、入力文字列を為す前半部の単語との類似度
S1を計算する。しかるのち、定数kを「1」にセット
し、第2ファイル中のk番目の単語と、前記入力文字列
を為す後半部の単語との類似度S2を計算する。そして、
これらの類似度S1,S2が共に所定の閾値T1,T2を越える
とき、その類似度の和を求め、前記jとkの情報を登録
する。この処理を第1ファイルおよび第2ファイルにそ
れぞれ登録された単語の組合せの全てについて行い、こ
れによって得られた前記類似度の和Sに従って、その情
報Sが大きいものから順に前記単語の組をソート処理す
る。そして、これらのソート処理された単語の組の、最
も類似度の高い単語の組を、前記入力文字列の認識結果
として出力している。
このように本方式によれば、入力文字列が単語を組合せ
た合成語からなるとき、その単語に対応した文字列毎に
認識処理して前記入力文字列を認識するので、例えば前
述した「熊本大学」が「日本大学」として誤認識される
ような不具合がない。つまり、「熊本」「日本」等の名
称を示す単語と、「大学」なる別の事象の単語とを分離
して認識処理するので、これらの種別の異なる単語の認
識結果によって他の単語に対する認識処理が左右される
こともない。つまり、この例では「大学」のみが独立に
認識されるので、「熊本」および「日本」のそれぞれ2
文字の認識処理によって、その正しい認識結果を得るこ
とができる。従って、入力文字列中の「熊」なる文字が
曖昧であったとしても、その単語認識が2文字中の1文
字に委ねられるだけで、従来のように4文字中の3文字
に委ねられると云う不具合がない。この結果、認識率の
向上を図ることが可能となる。またこのようにして合成
語に対処し得るので、単語辞書5には基本単語のみを登
録しておけばよく、膨大な量からなる合成語の全てを辞
書登録する必要がなくなる。故に、辞書構成の簡略化を
図ることもでき、その実用的利点は絶大である。
ところで合成語は一般に、所定の関連をもって複数の単
語を結合して構成されることが多い。従って、単語辞書
5に登録しておく単語を第5図に示すようにポインタ15
によって繋いでおき、先に決定された単語に応じて残り
部分の単語に対して、上記ポインタ15で示される単語辞
書ファイルを用いて順に認識処理していくようにすれ
ば、その認識処理効率が大幅に向上する。しかも、合成
語を為す単語がポインタによって繋がれているので、そ
の認識精度を高めることが可能となる。
尚、本発明は上記実施例に限定されるものではない。例
えば入力文字列が3個以上の単語を結合して得られる場
合にあっても同様に実施できる。また認識処理を入力文
字列の先頭単語部分から行う必要もない。その他、類似
度の計算法や、この類似度の情報を利用した単語認識
(判定)手段も特に限定されない。また入力文字列が音
声入力された音韻情報によって構成されるものであって
もよい。要するに本発明は、その要旨を逸脱しない範囲
で種々変形して実施することができる。
【図面の簡単な説明】
第1図は単語認識装置の基本構成図、第2図は本発明方
式の一実施例を示す単語認識部の構成図、第3図は本方
式の処理概念を示す図、第4図は実施例に係る処理手順
を示す図、第5図は他の実施例方式の概念を示す図であ
る。 4…文字認識部、5…単語辞書、5a,5b…単語辞書ファ
イル、6…単語認識部、11…単語情報バッファ、12…単
語類似度計算部、13…コントローラ、15…ポインタ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力文字列の各文字をそれぞれ認識し、こ
    の認識された文字候補の列からなる候補単語と単語辞書
    に予め登録された単語との類似度を求めて前記入力文字
    列が構成する単語を認識する単語認識方式において、 前記入力文字列として複数の単語を連結した合成語が与
    えられる時、この合成語を為す単語の可能な組み合せに
    応じて前記入力文字列を区切り、 区切られた各文字列をそれぞれ候補単語とし、これら候
    補単語について前記単語辞書に登録された単語と比較し
    て所定のしきい値を越える類似度のものを求めると共
    に、 求められた各候補単語の類似度に基づいて、前記合成語
    を為す単語にそれぞれ対応した候補単語の組み合わせの
    中から前記入力文字列の認識結果を得ることを特徴とす
    る単語認識方式。
JP58108111A 1983-06-16 1983-06-16 単語認識方式 Expired - Lifetime JPH0795337B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58108111A JPH0795337B2 (ja) 1983-06-16 1983-06-16 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58108111A JPH0795337B2 (ja) 1983-06-16 1983-06-16 単語認識方式

Publications (2)

Publication Number Publication Date
JPS60583A JPS60583A (ja) 1985-01-05
JPH0795337B2 true JPH0795337B2 (ja) 1995-10-11

Family

ID=14476170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58108111A Expired - Lifetime JPH0795337B2 (ja) 1983-06-16 1983-06-16 単語認識方式

Country Status (1)

Country Link
JP (1) JPH0795337B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61194584A (ja) * 1985-02-25 1986-08-28 Toshiba Corp 単語認識方式
JPS61272888A (ja) * 1985-05-28 1986-12-03 Toshiba Corp 単語認識方式
JPH07120396B2 (ja) * 1986-09-11 1995-12-20 富士通株式会社 文書読み取り装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5710195A (en) * 1980-06-19 1982-01-19 Nippon Electric Co Word recognizing device
JPS5848482A (ja) * 1981-09-17 1983-03-22 Matsushita Electric Ind Co Ltd 複合圧電素子
JPS5848182A (ja) * 1981-09-18 1983-03-22 Fujitsu Ltd 文字認識後処理方式

Also Published As

Publication number Publication date
JPS60583A (ja) 1985-01-05

Similar Documents

Publication Publication Date Title
JPH0664631B2 (ja) 文字認識装置
JPH0795337B2 (ja) 単語認識方式
JPH09282418A (ja) 認識方式複合化装置および方法
JP2786380B2 (ja) キーワード照合検索処理方法
JPH08221254A (ja) マージソート方法及びマージソート装置
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JPH0454270B2 (ja)
JPH0766423B2 (ja) 文字認識装置
JPH069065B2 (ja) 単語認識装置
JPS60225273A (ja) 単語検索方式
JP2845463B2 (ja) パターン認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS646514B2 (ja)
JPS61272888A (ja) 単語認識方式
JP2908132B2 (ja) 文字認識結果の後処理方法
JPS62285189A (ja) 文字認識後処理方式
JP3139624B2 (ja) 形態素解析装置
JP2773657B2 (ja) 文字列検索装置
JPS58186882A (ja) 手書き文字入力装置
JP2746899B2 (ja) 文字認識装置
JPS5953985A (ja) 文字認識装置
JPS63138479A (ja) 文字認識装置
JPH04278664A (ja) 住所解析処理装置
JPH0757059A (ja) 文字認識装置
JPH07225763A (ja) 文書処理装置