JPS60583A - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPS60583A
JPS60583A JP58108111A JP10811183A JPS60583A JP S60583 A JPS60583 A JP S60583A JP 58108111 A JP58108111 A JP 58108111A JP 10811183 A JP10811183 A JP 10811183A JP S60583 A JPS60583 A JP S60583A
Authority
JP
Japan
Prior art keywords
word
words
dictionary
similarity
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58108111A
Other languages
English (en)
Other versions
JPH0795337B2 (ja
Inventor
Yoshiaki Kurosawa
由明 黒沢
Yoshikatsu Nakamura
中村 好勝
Masato Suda
正人 須田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58108111A priority Critical patent/JPH0795337B2/ja
Publication of JPS60583A publication Critical patent/JPS60583A/ja
Publication of JPH0795337B2 publication Critical patent/JPH0795337B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、例えば印刷、手書入力された文字列あるいは
音声入力された文字列からなる単語データを簡易に且つ
効果的に認識することのできる単語認識方式に関する。
〔発明の技術的背景とその問題点〕
情報処理技術の発展に伴い、印刷、手曹入力された文字
列や音声入力された文字列からなる単語データを認識し
、その情@を計算機システムに取込むことが行われてい
る。この場合、基本的には上記単語データを構成する文
字列の各文字の特徴をそれぞれ検出する・ことによりで
行われるが、個々の文字認識結果を組合せるだけでは、
その認識処理が不十分なことが多い。例えば、成る文字
についての認識結果が正しく得られない場合には、その
単語データ全体の認識ができなくなる。
そこで従来では、例えば第1図に示すように、光電変換
部1にて帳票2から読取った文字列の各文字を前処理部
3を介したのち文字認識部4で認識し、その認識された
文字候補によって示される候補単語と単語辞書5に予め
登録された単語との類似度を単語認識部6にてめ、その
類似度の高い単語を認識結果として得ている。
即ち、入力されたr個の文字列からなる単語の各文字に
ついての複数の認識結果と、単語辞書5に登録された単
語を構成する文字列の対応文字位置の文字との類似度を
それぞれめ、これらの類似度の情報に従って総合的に最
も高い類似度を得る辞書登録された単語を前記入力文字
列の認識結果としてめるものでLj)、例えば特願昭5
6−138163号等に詳しく紹介される。
ところが、この種の従来方式にあっては、例えば異種の
単語を連結してなる合成語を示す文字列が与えられた場
合等、その合成語を正しく認識することができないとい
う不具合があった。
例えば「日本大学」なる合成語が単語として辞書登録し
であるにも拘らず、「熊本大学」なる合成語が辞書登録
されていないときに、「熊本大学」なる文字列が入力さ
れると、単語辞書を用いた類似度計算によって、「本」
「犬」「学」の各文字についてそれぞれ高い類似度が得
られる。これに較べて「熊」なる文字が単語辞、瞥に登
録されていないから、結局入力された4文字中の3文字
について高い類似度を得るものとして、「日本大学」な
る単語が認猷結果としてめられる。この不具合は、上記
「熊本」や「日本」なる単語と「大学」なる単語とが異
なる種類に属し、且つ「熊本大学」や「日本大学」は、
これらの異種単語を結合した合成語であると云う事実を
利用していない為である。この為、これらの合成語を認
識対象とした場合、その認識率が低下すると云う問題が
あった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、人力父子列が複数の単語を結合
した合成語であっても、これを簡易に且つ効果的に認識
することのできる単語認識方式を提供することにある。
〔発明の概要〕
本発明は入力文字列が複数の単語を連結した合成語であ
るとき、この合成語を構成する単語にそれぞれ対応して
めた候補単語毎に単語辞書に登録された単語との類似度
をめ、これらの類似度を結合した情報に従って前記複数
の単語にそれぞれ対応した認識単語の組をめ、これらの
認識単語を連結して前記入力単語列に対する認識結果を
得るようにしたものである。
〔発明の効果〕
かくして本発明によれば、合成語を構成する複数の単語
についてそれぞれ得られた認識結果を結合して、入力文
字列が為す合成語を認識するので、合成語を為す文字列
の全てを統一的に認識処理対象とする場合のような不具
合を招くことがない。具体的には前述した「熊本大学」
と「日本大学」の例のようにその全体で認識処理した場
合には4文字中の3文字で高い類似度が得られて誤った
認識結果が得られる不具合があるのに対して、本方式に
よれば「熊本」と「日本」との2文字における単語認識
での認識結果が「大学」なる単語のg識結果によって左
右されることがない。従って、その認識精度を高めるこ
とが可能となる。しかも、合成語を構成する単語に対応
させて入力文字列から候補単語を選び出し、これらにつ
いてそれぞれ認識処理するので非常に簡単である等の実
用上多大なる効果が奏せられる。尚、このとき、単語辞
書として合成語を構成する単語にそれぞれ対応したもの
を準備しておき、これらをポインタによって結び付けて
おくようにすれば非常に詳細な合成語認識を行い得る等
の、効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の実施例につき説明する。
第2図は実施例に係る単@認識部の概略構成を示すもの
である。単鎖情報ノ々ツ7アJ1は、前記文字認識部4
で認識された入力文字列の各文字の文字候補をそれぞれ
蓄えるものである。
これらの文字候補の組によって前記入力文字列に対する
候補単語が示される。単@類似度計算部12はコントロ
ーラ13の制御を受けて、前記バッファ1ノにめられた
候補単語と、単語辞書5に予め登録された辞書単語との
類似度を計算するもので、コントローラ13は、これら
の類似度の情報に従って、前記入力文字列が示゛す単語
t−g識結果として得ている。
しかして、上記コントローラ13の制御による単語認識
は、基本的には前記バッファ11に格納された入力文字
列の各文字の認識結果(文字候補)の列を1つの単語と
看做して行われるが、前記入力文字列が複数の単語を結
合した合成語であるとき、この合成語全構成する単語に
対応して文字候補の利金区切υ、各候補単語毎に単語辞
書5との照合による認識処理が行われる。即ち、入力文
字列が合成語でちるとき、この合成語を為す単語の可能
な組合せに応じて前記入力文字列を区切り、これらの区
切られた文字列をそれぞれ候補単語として認識処理する
例えば入力文字列が4文字から々る場合には、この合成
語を為す単語の組合せとして(1文字単語+3文字単語
)、(2文字単語+2文字単語)、(3文字単語+1文
字単語)等が考えられる。これらの単語の組に応じて、
その組金為す候補単語と単語辞書5に登録された単語と
の類似度が計算される。コントローラ13は、これらの
合成語を為す単語の組の各4語についてめられた類似度
の情報に従って、その単語の組を評価し、前記入力又字
列に対する認識結果を得ている。
このようにして認識処理を行う装置に、今、「熊本大学
」からなる4文字の合成語を示す文字列が与えられたと
する。この場合、第3図に示すように単語情報ノ々ツフ
ァ11には、その合成語を為す単語に対応して「熊本」
なる候補単語と「大学」なる候補単語がめられる。これ
らの単語は互いにその種別を異にするものである。この
ような各単語に対して、例えば単語辞書ファイル5aに
登録された単語との類似度が計算され、その最大類似度
を得る辞書率@「熊本」とその類似度値S1がめられる
。また同様にして「大学」なる入力単語については、単
語辞書ファイル5bに登録された単語との類似度が計算
され、その最大類似度を得る辞書単語「大学」と、その
類似度値S2とがめられる。
そして、コントローラ13は、これらの類似度値S1 
、S、が共に所定の閾値を越えることがら、上記最大類
似度を得た単語を結合し、入力文字列の認識結果として
「熊本大学」を得ている。
第4図は、入力文字列が2つの単語を合成した合成語か
らなる場合の認識手順を示すもので、上記入力文字列を
前半部と後半部とに分け、これらに対応する単語辞書を
第1フアイル、第2フアイルと定義した場合を示してい
る。しかして、この処理は文字列が入力された場合、先
ず定数jをrlJにセットし、第1フアイル中の第j番
目の単@を抽出する。そして、この第1フアイルのj番
目の単語と、入力文字列を為す前半部の単語との類似度
S1を計算する。しかるのち、定数に1kr I Jに
セットし、第2フアイル中のに番目の単語と、前記入力
文字列を為す後半部の単語との類似度Sz’a”計算す
る。そして、これらの類似度51tS!が共に所定の閾
値’rl 、’r、を越えるとき、その類似度の和をめ
、前記jとkの情報を登録する。この処理を第1フアイ
ルおよび第2フアイルにそれぞれ登録された単語の組合
せの全てについて行い、これによって得られた前記類似
度の和Sに従って、その情報Sが太きいものから順に前
記単語の組をソート処理する。そして、これらのソート
処理された単語の組の、最も類似度の高い単語の組を、
前記入力文字列のg Vtftr結果として出力してい
る。
このように本方式によれば、入力文字列が単語を組合せ
た合成語からなるとき、その単語に対応した文字列毎に
認識処理して前記入力文字かない。つまシ、「熊本」「
日本」等の名称を示す単語と、「大学」なる別の事象の
単語とを分離して認識処理するので、これらの種別の異
なる単語の認識結果によって他の単語に対する認識処理
が左右されることもない。っまシ、この例では「大学」
のみが独立に認識されるので、「熊本」および「日本」
のそれぞれ2文字の認識処理によって、その正しい認識
結果を得ることができる。従って、入力文字列中の「熊
」なる文字が曖昧であったとしても、その単@認識が2
文字中の1文字に委ねられるだけで、従来のように4文
字中の3文字に委ねられると云う不具合がない。この結
果、認識率の向上を図ることが可能となる。またこのよ
うにして合成語に対処し得るので、単語辞’15には基
本単語のみを登録しておけばよく、膨大な量からなる合
成語の全てを辞書登録する必要がなくなる。故に、辞書
構成の簡略化を図ることもでき、その実用的利点は絶大
である。
ところで合成語は一般に、所定の関連を持って被数の単
語を結合して構成されることが多い。
従って、単語辞書5に登録しておく単語を第5図に示す
ようにポインタ15によって繋いでおき、先に決定され
た単語に応じて残p部分の単語に対して、上記ポインタ
15で示される単語辞書ファイルを用いて順に認識処理
していくようにすれば、その認識処理効率が大幅に向上
する。しかも、合成語を為す単語がポインタによって繋
がれているので、その認識精度を高めることが可能とな
る。
尚、本発明は上記実施例に限定されるものではない。例
えば入力文字列が3個以上の単語を結合して得られる場
合にあっても同様に実施できる。また認識処理を入力文
字列の先頭単語部分から行う必要もない。その他、類似
度の計算法や、この類似度の情報を利用した単語認識(
判定)手段も特に限定されない。また入力文字列が音声
入力された音韻情報によって構成されるものであっても
よい。要するに本発明は、その要旨を逸脱しない範囲で
種々変形して実施することができる。
【図面の簡単な説明】
第1図は単語認識装置の基本構成図、第2図は本発明方
式の一実施例を示す単語認識装置の構成図、第3図は本
方式の処理概念を示す図、第4図は実施例に係る処理手
順を示す図、第5図は他の実施例方式の概念を示す図で
ある。 4・・・文字認識部、5・・・単語辞書、5*、5b・
・・単語辞書ファイル、6・・・単語認識部、11・・
・単語情報バッファ、12・・・単語類似度計算部、1
3・・・コントローラ、15・・・ポインタ。 出願人代理人 弁理士 鈴 江 武 彦764

Claims (2)

    【特許請求の範囲】
  1. (1)入力文字列の各文字をそれぞれ認識し、この認識
    された文字候補の列からなる候補単語と単語辞書に予め
    登録された単語との類似度をめて前記入力文字列が構成
    する単語を認識するに際して、前記入力文字列が複数の
    単語を連結した合成語であるとき、この合成語を構成す
    る複数の単語にそれぞれ対応してめた候補単語毎に前記
    単語辞書に登録された単語との類似度をめ、これらの類
    似度を結合した情報に従って前記合成語を構成する複数
    の単語にそれぞれ対応した認識単語の組をめ、これらの
    認識単語を連結して前記入力文字列の認識結果を得るこ
    とを特徴とする単語認識方式。
  2. (2)単語辞書は、合成語を構成する複数の単語の階層
    に応じた辞書フrイルを有し、各階層の辞書ファイルに
    登録された単語は相互に対応付けられていることを特徴
    とする特許請求の範囲第1項記載の単語認識方式。
JP58108111A 1983-06-16 1983-06-16 単語認識方式 Expired - Lifetime JPH0795337B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58108111A JPH0795337B2 (ja) 1983-06-16 1983-06-16 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58108111A JPH0795337B2 (ja) 1983-06-16 1983-06-16 単語認識方式

Publications (2)

Publication Number Publication Date
JPS60583A true JPS60583A (ja) 1985-01-05
JPH0795337B2 JPH0795337B2 (ja) 1995-10-11

Family

ID=14476170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58108111A Expired - Lifetime JPH0795337B2 (ja) 1983-06-16 1983-06-16 単語認識方式

Country Status (1)

Country Link
JP (1) JPH0795337B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61194584A (ja) * 1985-02-25 1986-08-28 Toshiba Corp 単語認識方式
JPS61272888A (ja) * 1985-05-28 1986-12-03 Toshiba Corp 単語認識方式
JPS6368989A (ja) * 1986-09-11 1988-03-28 Fujitsu Ltd 文書読み取り装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5710195A (en) * 1980-06-19 1982-01-19 Nippon Electric Co Word recognizing device
JPS5848182A (ja) * 1981-09-18 1983-03-22 Fujitsu Ltd 文字認識後処理方式
JPS5848482A (ja) * 1981-09-17 1983-03-22 Matsushita Electric Ind Co Ltd 複合圧電素子

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5710195A (en) * 1980-06-19 1982-01-19 Nippon Electric Co Word recognizing device
JPS5848482A (ja) * 1981-09-17 1983-03-22 Matsushita Electric Ind Co Ltd 複合圧電素子
JPS5848182A (ja) * 1981-09-18 1983-03-22 Fujitsu Ltd 文字認識後処理方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61194584A (ja) * 1985-02-25 1986-08-28 Toshiba Corp 単語認識方式
JPS61272888A (ja) * 1985-05-28 1986-12-03 Toshiba Corp 単語認識方式
JPS6368989A (ja) * 1986-09-11 1988-03-28 Fujitsu Ltd 文書読み取り装置

Also Published As

Publication number Publication date
JPH0795337B2 (ja) 1995-10-11

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
CN111291571A (zh) 语义纠错方法、电子设备及存储介质
CN111506608A (zh) 一种结构化文本的比较方法和装置
JPH02115973A (ja) 記号列照合装置とその制御方法
CN111401038B (zh) 文本处理方法、装置、电子设备及存储介质
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
JPS60583A (ja) 単語認識方式
CN111488450A (zh) 一种用于生成关键词库的方法、装置和电子设备
CN114461812A (zh) 一种面向大规模知识图谱的多通道实体对齐方法及装置
CN102819524A (zh) 基于关键字的字符序列分割方法及装置
Reynolds The conference on mechanical translation held at MIT, June 17-20, 1952
CN116383367B (zh) 对话系统冷启动阶段的数据处理方法、装置、设备及介质
JPH0454270B2 (ja)
Makara et al. Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence
JPS61272888A (ja) 単語認識方式
CN117725151A (zh) 基于改良模板的语义搜索方法及系统
CN117648406A (zh) 文本无监督排序方法及系统
JPS60144886A (ja) 文字認識装置における後処理方式
JPS5856189A (ja) 文字認識装置
JP2773657B2 (ja) 文字列検索装置
JPS63138479A (ja) 文字認識装置
JPS62203276A (ja) 形態素解析装置
JPH03214259A (ja) 情報抽出方法
JPS62201498A (ja) 音声認識方法