JPH04340166A

JPH04340166A - 単語辞書検索装置

Info

Publication number: JPH04340166A
Application number: JP3156742A
Authority: JP
Inventors: Shunichi Fukushima; 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-11-30
Filing date: 1991-06-27
Publication date: 1992-11-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力文字列と単語辞書
とを照合して、入力文字列において、単語辞書内に存在
する単語が出現した部分を検索する単語辞書検索装置に
関するものである。特に、入力文字列の各文字が複数の
候補をもつような場合にも適用する単語辞書検索装置に
関するものである。

【０００２】入力文字列の各文字に複数の候補がなく一
意な場合の単語辞書検索装置は、かな漢字変換装置にお
いてキーボードから入力されたかな文字列に対する単語
辞書検索を行なう部分、または機械翻訳装置、文音声変
換装置もしくは文章校正装置などにおいてワードプロセ
ッサなどで作成された漢字かな混じり文字列に対する単
語辞書検索を行なう部分などに用いられている。

【０００３】入力文字列の各文字に複数の候補がある場
合の単語辞書検索装置は、音声認識装置や文字認識装置
などにおいて、認識結果の複数の候補文字から最も確か
らしい文字を選択するための単語辞書検索部などに用い
られている。

【０００４】

【従来の技術】従来、かな漢字変換装置・文音声変換装
置などにおいて用いられている単語辞書検索方式は、基
本的に、文献：「計算機によるカナ漢字変換」（相沢・
江原、ＮＨＫ技術研究、第２５巻第５号、２３頁〜６０
頁、１９７３年）に示されている方式を引き継いでいる
。すなわち、入力された文字列から部分文字列を切り出
して、その部分文字列に表記（かな漢字変換では「かな
表記」すなわち「読みがな」）の一致する単語を単語辞
書内から検索するという処理を行なう（これを、以下で
は、第１の従来技術と呼ぶことにする）。

【０００５】例えば、「文章を解析する」という漢字か
な混じり文字列に対する単語辞書検索を行なう場合は、
１文字目・２文字目など各文字位置から始まる単語を検
索するために、「文章を解析する」「章を解析する」「
を解析する」「解析する」「析する」「する」「る」と
いった部分文字列を別々に切り出す。そして、各部分文
字列について、さらに、末尾を削った部分文字列も生成
して、その各々を単語辞書から検索する。すなわち、１
文字目から始まる単語を検索する際には、「文章を解析
する」「文章を解析す」「文章を解析」「文章を解」「
文章を」「文章」「文」といった部分文字列に関して、
検索を次々に繰り返し、２文字目から始まる単語を検索
する際には、「章を解析する」「章を解析す」「章を解
析」「章を解」「章を」「章」といった部分文字列に関
して、検索を次々に繰り返すわけである。その結果、下
線を引いた部分文字列などについて、表記の一致する単
語が見つかることになる。

【０００６】この第１の従来技術では、複数の部分文字
列に対して単語辞書の検索を繰り返すわけであるが、単
語辞書の構成を工夫しておくことによって、１つの部分
文字列に対する検索の所要時間の短縮を図っている。例
えば、単語辞書内の単語をあらかじめソートしておいて
二分検索を行なったり、１文字目・２文字目など文字ご
とに分割して共通な部分をまとめて木構造として１文字
ずつ照合を行なうなどである。このような辞書の構造と
検索方式の工夫については、文献：“ｔｈｅＡｒｔ　　
ｏｆ　　Ｃｏｍｐｕｔｅｒ　　Ｐｒｏｇｒａｍｍｉｎｇ
　　３：Ｓｏｒｔｉｎｇ　　ａｎｄ　　Ｓｅａｒｃｈｉ
ｎｇ”（Ｄ．Ｅ．Ｋｎｕｔｈ，Ａｄｄｉｓｏｎ−Ｗｅｓ
ｌｅｙ，１９７３）に多く示されている。

【０００７】ただし、この第１の従来技術は、コンピュ
ータ上の逐次型プログラムとしての実現を想定しており
、所要時間短縮の工夫は逐次処理の枠内での工夫である
。したがって、入力文字列のある部分文字列と単語辞書
内のある単語の表記の文字列とを比較する処理などは、
１文字ずつ逐次行なわれる。例えば、「文章を」という
部分文字列と単語辞書内の「文章」という単語の比較は
、「文」と「文」とを照合し、一致したところで「章」
と「章」とを照合し、次に、「を」に対して不一致とな
り失敗するというように、１文字ずつの照合処理の繰り
返しである。

【０００８】また、第１の従来技術では、入力文字列の
各文字にｍ個ずつ候補があるような場合は、あらかじめ
、長さＬの部分文字列に対して、候補を組み合わせたｍ
Ｌ　通りの文字列を生成する必要がある。そして、それ
らの各々について、さらに、上記のように末尾を削った
部分文字列を生成して、単語辞書内を検索することにな
る。

【０００９】一方、ある長さＬの文字列と入力文字列と
の比較の際に、１文字ずつの照合を繰り返すのではなく
、対応する文字位置のＬ組の照合を同時に行なうことが
考えられている。その際、入力文字列をシフトレジスタ
に格納しておけば、照合の位置をずらすことが、入力文
字列から再度部分文字列を切り出すのではなく、シフト
レジスタ内の全文字を一度に１文字ずらすことで実現で
きるようにもなる。この第２の従来技術は、特開昭６３
−２６１４２１号公報「文字列処理装置」および特開昭
６３−２６１４２２号公報「文字列照合装置」に述べら
れている。なお、この第２の従来技術では、入力文字列
に複数の候補は存在せず、検索される文字列も１通りに
限られる（単語辞書のように多数ではない）。

【００１０】特開昭６２−６７６３６号公報「照合方式
」および：「音声日本語入力システムにおける高速な言
語処理のための辞書照合アルゴリズム」（浜口・鈴木、
電子情報通信学会論文誌、第Ｊ７０−Ｄ巻第８号、１５
８９頁〜１５９６頁、１９８７年）には、第３の従来技
術が示されている。

【００１１】第３の従来技術では、入力文字列に複数の
文字候補があることを想定している。まず、文字の種類
をＭ（例えば、ＪＩＳの文字コード表では、ひらがなに
ついてＭ＝８３）とすると、１文字目・２文字目など各
文字位置に、Ｍビットのメモリを１個ずつ用意し、複数
の候補文字に対応する各ビットを１にしておく。そして
、照合時は、単語辞書内の各単語について、単語の表記
の１文字目・２文字目など文字位置ごとに、対応するＭ
ビットメモリから、対応する文字のビット内容（１また
は０）を同時に読み出す。すべてのＭビットメモリから
１が読みだされたら、入力文字列中に単語辞書内にある
単語が出現したことになる。

【００１２】

【発明が解決しようとする課題】第１の従来技術には、
まず第１に、前述のように、多数の部分文字列に対する
単語辞書検索を繰り返さねばならないという欠点がある
。この欠点は、入力文字列の各文字に複数の候補がある
場合に、特に顕著になる。長さＫの入力文字列の各文字
にｍ個ずつ候補がある場合、最長の部分文字列の長さを
Ｌとすると（通常、単語辞書内の最長の単語の長さをＬ
とする）、最大（ｍＬ　×Ｌ×Ｋ）個の部分文字列に対
する検索を繰り返す必要が生じる。通常、あらかじめ条
件を定めて、不要な部分文字列の検索を避けるようにす
るので、（ｍＬ　×Ｌ×Ｋ）個というのは最悪の場合て
あるが、それでも検索の回数はかなり多くなる。

【００１３】第１の従来技術の第２の欠点は、ある部分
文字列と単語辞書内のある単語の表記の文字列との比較
を、１文字ずつ順に行なうため、比較に時間がかかると
いうことである。

【００１４】第２の従来技術では、第１の従来技術の第
２の欠点に対処している。しかし、第２の従来技術は、
入力文字列に複数の候補がある場合に適用できない。ま
た、検索される文字列も１通りに限られ、単語辞書のよ
うに多数の文字列と比較を行なうことを考えると、単語
辞書内の各単語の表記の長さの異なりが問題となって適
用できない。

【００１５】第３の従来技術は、第１の従来技術の２つ
の欠点に対処している。しかし、入力文字列を記憶する
ために、文字の種類だけのビット数をもったメモリを、
文字列長だけ用意する必要があるため、文字の種類が多
数の場合はメモリサイズがかなり大きくなってしまう問
題がある。かな漢字変換や音声認識の場合は、入力文字
列がひらがな（あるいは音素文字）で１００種類程度に
限定されるので、あまり問題にならないが、漢字かな混
じり文字列を対象とした文音声変換や機械翻訳などの場
合は、漢字を含み文字の種類が３０００〜４０００種類
にもおよぶため、メモリが大きくなって問題になる。

【００１６】また、第３の従来技術では、入力された文
字列の先頭から始まる単語の検索しか行わないため、２
文字目から始まる単語や、３文字目から始まる単語など
を検索する場合には、入力文字列のメモリへの登録を、
やり直す必要が生じるという問題もある。

【００１７】さらに、複数の候補文字を組み合わせたも
のが単語辞書内の単語と一致した場合、どのような候補
を組み合わせたかによって、その単語の出現に関する信
頼度は異なってくると考えられる。例えば、単語辞書内
の長さ３文字の単語が入力文字列の候補文字のある組み
合わせと一致したとしても、第３候補と第２候補と第３
候補の組み合わせたものと一致した場合と、第１候補と
第１候補と第２候補の組み合わせたものと一致した場合
とでは、後者の方が確からしいと思われる。したがって
、一致に対して、その信頼度が算出できることが望まれ
る。

【００１８】本発明の目的は、上記のような従来技術の
欠点を除去し、入力文字列の各文字に複数の候補があっ
ても、高速に単語辞書との照合が可能な単語辞書検索装
置を提供することである。

【００１９】

【課題を解決するための手段】第１の発明は、各文字に
対して第１から第ｍ候補（ｍはｍ≧１なる整数）までの
ｍ種類の候補が存在する文字列の入力位置と、ｎ文字分
（ｎはｎ≧１なる整数）のデータ巾をもつ各アドレスに
単語の表記を１個ずつ格納してｎ文字に満たない部分に
はあらかじめ定めた残余記号を詰めた単語辞書メモリと
、前記入力装置によって１文字に対するｍ種類の候補が
入力されるたびにシフトクロック１回と前記単語辞書メ
モリ内の全単語数に応じた回数の判定クロックとカウン
タクロックとを発生するコントローラと、前記シフトク
ロックに同期したリセットと前記カウンタクロックに同
期したカウントアップとを行なう前記単語辞書メモリの
アドレスカウンタと、前記入力装置によって入力された
文字列の第１・第２・……・第ｍ候補に対応し前記シフ
トクロックに同期した１文字ずつの順送りを行なう各々
ｎ文字分の第１・第２・……・第ｍ候補シフトレジスタ
と、前記単語辞書メモリから読み出されるｎ文字分のデ
ータの１文字目・２文字目・……・ｎ文字目に対応し該
当位置の文字と前記第１・第２・……・第ｍシフトレジ
スタの同位置の文字や残余記号との一致パターンに応じ
た類似度信号を出力する１文字目・２文字目・……・ｎ
文字目比較回路と、前記判定クロックに同期して前記１
文字目・２文字目・……・ｎ文字目比較回路から出力さ
れたｎ個の類似度信号の演算を行なうことによって前記
入力装置から入力された文字列に対する前記単語辞書メ
モリから読み出された単語の出現可能性を算出する判定
回路とを備えたことを特徴とする単語辞書検索装置であ
る。

【００２０】第２の発明は、各文字に対して第１から第
ｍ候補（ｍはｍ≧１なる整数）までのｍ種類の候補が存
在する文字列の入力装置と、ｎ文字分（ｎはｎ≧１なる
整数）のデータ巾をもつ各アドレスに先頭文字を除去し
た単語の表記を１個ずつ格納してｎ文字に満たない部分
にはあらかじめ定めた残余記号を詰めた単語辞書メモリ
と、前記単語辞書メモリのアドレスカウンタと、前記単
語辞書メモリについて前記除去した先頭文字ごとに該当
する単語の存在範囲を示したインデックスメモリと、前
記入力装置によって入力された文字列の第１・第２・…
…・第ｍ候補に対応し１文字ずつの順送りを行なう各々
（ｎ＋１）文字分の第１・第２・……・第ｍ候補シフト
レジスタと、前記入力装置によって１文字に対するｍ種
類の候補が入力されるたびにシフトクロック１回と前記
インデックスメモリより前記第１・第２・……・第ｍ候
補シフトレジスタの各１文字目が前記除去した先頭文字
に対応する単語の存在範囲を順次求めて前記アドレスカ
ウンタに先頭アドレスをセットするセットクロックと単
語数に応じた回数の判定クロックとカウンタクロックと
を出力するコントローラと、前記単語辞書メモリから読
み出されるｎ文字分のデータの１文字目・２文字目・…
…・ｎ文字目と前記第１・第２・……・第ｍ候補シフト
レジスタの２文字目・３文字目・……・（ｎ＋１）文字
目とを対応付け前記単語辞書から読み出された文字が前
記シフトレジスタの対応する位置のｍ種類の文字のいず
れかまたは前記残余記号に一致したとき一致記号を出力
する１文字目・２文字目・……・ｎ文字目比較回路と、
前記１文字目・２文字目・……・ｎ文字目比較回路のす
べてから一致記号が検出された場合に前記入力装置によ
って入力された文字列中に前記単語辞書メモリ内に存在
する単語が出現したと判定する判定回路とを備えたこと
を特徴とする単語辞書検索装置である。

【００２１】

【実施例】図面を参照して第１の発明の構成、作成を説
明する。

【００２２】図１は、第１の発明の単語辞書検索装置の
第１の実施例の構成を示すブロック図である。以下、ま
ず、各構成要素を説明する。

【００２３】入力装置５は、各文字に対して第１候補か
ら第ｍ候補（ｍはｍ≧１なる整数）までのｍ種類の候補
が存在する文字列を入力する装置であり、例えば、音声
認識装置や文字認識装置などである。入力装置５は、各
文字に対するｍ個の候補を、同時に出力し、その出力の
タイミングを入力クロック５０によってコントローラ７
へ伝える。

【００２４】単語辞書メモリ１は、ｎ文字分（ｎはｎ≧
１なる整数）のデータ巾をもつ各アドレスに、単語の表
記を１個ずつ格納して、ｎ文字に満たない部分には、あ
らかじめ定めた残余記号を詰めたものである。図２は、
単語辞書メモリ１の内容の例を示す図である（図２では
ｎ＝４としている）。図２において、△が残余記号を表
している。図２の単語辞書メモリ１のアドレスをａとす
ると、「日本△△」というｎ（＝４）文字が同時に読み
出される。単語辞書メモリ１は、ＩＣメモリなどを用い
て実現できる。通常、漢字コードは１６ビットで実現さ
れるので、図２の単語辞書メモリ１のデータ巾は、１６
×４＝６４ビットである。現在ＩＣメモリでは、同時に
読み出せるデータ巾が８ビット程度であるから、そのよ
うなＩＣメモリを８個並列に並べて実現できる。

【００２５】コントローラ７は、入力装置５によって１
文字に対するｍ種類の候補が入力されるたびに、シフト
クロック１回と、単語辞書メモリ１内の全単語数に応じ
た回数の判定クロックとカウンタクロックとを発生する
。図３は、コントローラ７の入出力信号のタイムチャー
トの例である。図３のタイムチャートでは、入力装置５
から入力クロック５０が入力されるたびに、まず、シフ
トクロック７０を１回出力（入力クロック５０をそのま
まシフトクロック７０として出力）し、続いて、判定ク
ロック７２とカウンタクロック７１とを、交互にＮ回出
力している。ただし、カウンタクロック７１は（Ｎ−１
）回でもよい。ここで、Ｎは単語辞書メモリ１内の全単
語数である。このようなタイムチャート通りに動作する
コントローラ７は、当業者において容易に実現可能であ
る。

【００２６】アドレスカウンタ４は、シフトクロック７
０に同期したリセツトと、カンウタクロック７１に同期
したカウントアップとを行なうカウンタで、カウンタ値
を単語辞書メモリ１のアドレス値として出力する。従来
のカウンタＩＣで実現できる。第ｉ候補シフトレジスタ
２は、入力装置５によって入力された文字列の第ｉ候補
（ｉは１≦ｉ≦ｍなる整数）を、シフトクロック７０に
同期して１文字ずつ順送りしながら、ｎ文字分格納する
シフトレジスタである。このシフトレジスタ２は、入力
文字列の各文字に対するｍ個の候補の各々に対して設け
られており、第１候補シフトレジスタ、第２候補シフト
レジスタ、……、第ｍ候補シフトレジスタのｍ個がある
。図４は、各シフトレジスタ２の構成例を示した図であ
る。１文字をｄビットで表現している場合、第ｉ候補シ
フトレジスタ２は、第４図のように、シフトクロック７
０に同期した（ｄ×ｎ）個のＤフリップフロップで実現
できる（ｄ個並列に並べたものを、ｎ個直列に接続する
）。並列に接続したｄ個が１文字に対応し、その出力は
まとめて比較回路３へ送られる。

【００２７】ｊ文字目比較回路３は、アドレスカウンタ
４の示す１つのアドレスに対して単語辞書メモリ１から
読み出されるｎ文字分のデータのｊ番目（ｊは１≦ｊ≦
ｎなる整数）の文字と、ｍ個のシフトレジスタのｊ番目
の文字や残余記号との比較を行ない、その一致パターン
に応じて類似度信号を出力する回路である。この比較回
路３は、単語辞書メモリ１のデータ巾ｎ文字の各々に対
して設けられており、１文字目比較回路、２文字目比較
回路、……、ｎ文字目比較回路のｎ個がある。

【００２８】図５は、ｊ文字目比較回路３の構成例を示
した図である。１文字をｄビットで表現して、シフトレ
ジスタ２がｍ個設けられている場合、ｊ文字目比較回路
３は、図５のように、（ｍ＋１）個のｄビット比較器と
、１個のエンコーダで構成できる。ｍ個のｄビツト比較
器は、単語辞書メモリ１から読み出されているｎ文字デ
ータのうちのｊ文字目と、各シフトレジスタ２のｊ文字
目とを比較し、残りの１個のｄビット比較器は、単語辞
書メモリ１から読み出されているｎ文字データのうちの
ｊ文字目が残余記号であるか否かを調べる。最終的にエ
ンコーダは、この（ｍ＋１）個の比較器のうちの一致が
検出されたものに対応する値を、類似度信号３０として
出力する。

【００２９】図８は、ｍ（候補数）＝３のときのエンコ
ーダの入力値の条件に対する出力値を対応付けた真理値
表の例である。図８の真理値表ではエンコーダの出力値
は、単語辞書メモリ１のｊ文字目が残余記号に一致した
ときは１、そうではないときには、シフトレジスタのｊ
文字目の第１候補文字に一致すれば８で最大、第２候補
文字なら６、第３候補文字なら２であり、また、いずれ
にも一致しなかったときは０となっている。このような
真理値表の機能を満たすエンコーダは、当業者において
容易に実現可能である。

【００３０】なお、本実施例では、図８のような真理値
表を満足するエンコーダを用いるが、本発明では図８の
ようなエンコーダに限定するものではない。条件の分類
、および各条件に対するエンコーダの出力値の大小関係
や値など、様々なパターンで実現し得る。

【００３１】判定回路６は、判定クロック７２に同期し
て、ｎ個の比較回路から出力されたｎ個の類似度信号の
演算を行なうことによって、入力装置５によって入力さ
れた文字列に対する単語辞書メモリ１から読み出された
単語の出現可能性を判定する回路である。図６は、判定
回路６の構成例を示す図である。判定回路６は、図６の
ように、演算回路とＤフリップフロップで実現できる。本実施例では、判定回路６内の演算器はｎ個の類似度信
号の値の加算を行なう。ただし、本発明では、この演算
器を加算器に限定するものではなく、乗算器あるいはも
っと複雑な演算を行なう回路として実現することもあり
得る。Ｄフリップフロップは、判定クロック７２のタイ
ミングで、演算器から出力された演算結果をラツチする
。このラッチされた値が、単語辞書メモリ１から読み出
された単語が入力文字列に出現したと考えられる信頼度
に対応する。なお、本実施例では、信頼度の値が大きい
ほど確からしいものとしている。

【００３２】次に第１の発明の第１の実施例の動作を図
７を用いて説明する。

【００３３】図７（ａ）〜（ｈ）は、第１の発明の第１
の実施例では、ｎ＝４，ｍ＝３で、入力文字列の長さが
４のときの第１候補シフトレジスタ・第２候補シフトレ
ジスタ及び第３候補シフトレジスタの内容の変化の例を
示した図である。図７の３×４のマトリックスは、１行
が各シフトレジスタ２の内容に対応しており、行方向が
文字位置（１〜４）、列方向が候補レベル（１〜３）を
表している。これらのシフトレジスタ２に入力されてい
る文字列は、１文字目の候補は第１候補から順に「日」
「白」「目」、２文字目の候補は順に「木」「本」「大
」、３文字目は順に「電」「雷」「霧」、４文字目は順
に「気」「島」「戒」である。斜線部分は文字が格納さ
れていないことを表わす。

【００３４】図７において、（ａ）→（ｂ）→（ｃ）→
（ｄ）→（ｅ）→（ｆ）→（ｇ）→（ｈ）という変化は
、シフトクロック７０が１回発生されるたびに起こる変
化を示している。そして、（ａ）〜（ｇ）の各々の状態
で、カウンタクロック７１と判定クロック７２がＮ回発
生される。アドレスカウンタ４は、シフトクロック７０
によってリセットされ、カウンタクロック７１によって
Ｎ回カウントアップされるため、各状態で、単語辞書メ
モリ１からは、先頭の単語から末尾の単語まで順に、全
単語（Ｎ個）の表記が読み出され、ｎ個（この例では４
個）の比較回路３において、それらと図７のシフトレジ
スタの内容との照合が行なわれることになる。

【００３５】その結果、各状態で、判定回路６は例えば
次のような判定結果を示す。

【００３６】（ａ）単語辞書内の長さ１の全単語に対して信頼度３単
語辞書内の長さ２の全単語に対して信頼度２単語辞書内
の長さ３の全単語に対して信頼度１単語辞書内の長さ４
の全単語に対して信頼度０（ｂ）単語辞書内の長さ１の
全単語に対して信頼度３単語辞書内の長さ２の全単語に
対して信頼度２単語辞書内の長さ３の全単語に対して信
頼度１単語辞書内の長さ４の全単語に対して信頼度０（
ｃ）単語辞書内の長さ１の全単語に対して信頼度３単語
辞書内の長さ２の全単語に対して信頼度２単語辞書内の
長さ３の全単語に対して信頼度１単語辞書内の長さ４の
全単語に対して信頼度０（ｄ）「日」　　　　　　　　
に対して信頼度１１「日本」　　　　　　に対して信頼
度１６「日本電気」　　に対して信頼度３０「日大」　　　　　　に対して信頼度１４「白」　　　
　　　　　に対して信頼度９「白木」　　　　　　に対
して信頼度１６「目」　　　　　　　　に対して信頼度
７それ以外の単語辞書内の長さ１の全単語に対して信頼
度３単語辞書内の長さ２の全単語に対して信頼度２単語辞書
内の長さ３の全単語に対して信頼度１単語辞書内の長さ
４の全単語に対して信頼度０（ｅ）「木」　　　　　　
　　に対して信頼度１１「本」　　　　　　　　に対し
て信頼度９「大」　　　　　　　　に対して信頼度７そ
れ以外の単語辞書内の長さ１の全単語に対して信頼度３単語辞書内の長さ２の全単語に対して信頼度２単語辞書
内の長さ３の全単語に対して信頼度１単語辞書内の長さ
４の全単語に対して信頼度０（ｆ）「電」　　　　　　
　　に対して信頼度１１「電気」　　　　　　に対して
信頼度１８「霧」　　　　　　　　に対して信頼度７「
霧島」　　　　　　に対して信頼度１２「雷」　　　　
　　　　に対して信頼度９それ以外の単語辞書内の長さ
１の全単語に対して信頼度３単語辞書内の長さ２の全単語に対して信頼度２単語辞書
内の長さ３の全単語に対して信頼度１単語辞書内の長さ
４の全単語に対して信頼度０（ｇ）「気」　　　　　　
　　に対して信頼度１１「島」　　　　　　　　に対し
て信頼度９それ以外の単語辞書内の長さ１の全単語に対
して信頼度３単語辞書内の長さ２の全単語に対して信頼度２単語辞書
内の長さ３の全単語に対して信頼度１単語辞書内の長さ
４の全単語に対して信頼度０このうち、状態（ｄ）にお
ける図７のシフトレジスタ内容と、単語辞書内の単語「
日本」（＝「日本△△」）とを照合する際の、各比較回
路３の動作を説明する。１文字目比較回路は、「日本△
△」の「日」と第１候補シフトレジスタの１文字目の「
日」との一致により類似度信号３０の値として８を出力
する。２文字目比較回路は、「日本△△」の「本」と第
２候補シフトレジスタの２文字目の「本」との一致によ
り類似度信号３０の値として６を出力する。３文字目比
較回路と４文字目比較回路はともに、「日本△△」の「
△」（残余記号）を検出して類似度信号３０の値として
１を出力する。その結果、判定回路６は、すべての比較
回路３の類似度信号３０を加算して、１６という値を単
語出現の信頼度として出力することになる。

【００３７】なお、入力文字列長がＫの場合、シフトレ
ジスタ２内での順送りは、少なくとも（Ｋ＋ｎ−１）回
行われる必要がある。したがって、入力装置５は、長さ
Ｋの入力文字列を入力した後、さらに、（ｎ−１）回の
ダミーの文字列入力を行なう必要がある。あるいは、コ
ントローラ７が、入力文字列の末尾を検出して、さらに
、シフトクロック７０を１回とカウンタクロック７１と
判定クロック７２をＮ回ずつというサイクルを、（ｎ−
１）回繰り返すようにしてもよい。

【００３８】また、最初の（ｎ−１）回の順送りの間（
図７では（ａ）から（ｃ）まで）は、入力文字列がシフ
トレジスタ２の先頭まで到達していないので、単語辞書
メモリ１との照合を行なっても意味がない。そこで、そ
の間は、コントローラ７は、カウンタクロック７１や判
定クロック７２を発生せず、シフトクロック７０のみを
連続して発生するようにしてもよい。

【００３９】図面を用いて、第２の発明の構成・作用を
説明する。

【００４０】図９は、第２の発明の単語辞書検索装置の
第１の実施例の構成を示すブロック図である。以下、ま
ず、各構成要素を説明する。

【００４１】入力装置５は、各文字に対して第１候補か
ら第ｍ候補（ｍはｍ≧１なる整数）までのｍ種類の候補
が存在する文字列を入力する装置であり、例えば、音声
認識装置や文字認識装置などである。入力装置５は、各
文字に対するｍ個の候補を、同時に出力し、その出力の
タイミングを入力クロック５０によってコントローラ７
へ伝える。

【００４２】単語辞書メモリ１は、ｎ文字分（ｎはｎ≧
１なる整数）のデータ巾をもつ各アドレスに、先頭文字
を除去した単語の表記を１個ずつ格納して、ｎ文字に満
たない部分には、あらかじめ定めた残余記号を詰めたも
のである。図１０は、単語辞書メモリ１の内容の例を示
す図である（図１０ではｎ＝３としている）。図１０に
おいて、△が残余記号を表している。また、アドレス０
．１の単語は、除去された先頭文字が「あ」であり、ア
ドレスａ・（ａ＋１）・（ａ＋２）・（ａ＋３）・（ａ
＋４）の単語は、除去された先頭文字が「日」である。図１０の単語辞書メモリ１のアドレスをａとすると、「
本△△」というｎ（＝３）文字が同時に読み出される（
この読み出された単語は「日本」という単語に相当する
）。単語辞書メモリ１は、ＩＣメモリなどを用いて実現
できる。通常、漢字コードは１６ビットで表現されるの
で、図１０の単語辞書メモリ１のデータ巾は、１６×３
＝４８ビットである。現在のＩＣメモリでは、同時に読
み出せるデータ巾が８ビット程度であるから、そのよう
なＩＣメモリを６個並列に並べて実現できる。

【００４３】インデックスメモリ８は、単語辞書メモリ
１について、ある文字を表記の先頭文字にもつ単語群の
存在範囲を示したメモリである。単語辞書メモリ１では
、表記の先頭文字は除去されているので、その除去され
た先頭文字がインデックスメモリ８で対応付けられる。図１６（ａ）は、インデックスメモリ８の内容の例を示
す図である。図１６のインデックスメモリ８は、ある文
字に対するアドレスに、単語辞書メモリ１において、そ
の文字が、除去された先頭文字に対応する単語群の存在
する先頭アドレス８００と、その単語群の単語数８０１
とが記憶されている。このようなインデックスメモリ８
は、従来のＩＣメモリを用いて実現できる。

【００４４】図１６（ｂ）は、図１６（ａ）のインデッ
クスメモリ８の内容と単語辞書メモリ１との対応を表わ
した図である。単語辞書メモリ１内では、同一の文字を
表記の先頭にもつ単語のアドレスが連続するように集め
ておき、インデックスメモリ８から得られる先頭アドレ
ス８００と単語数８０１とから、その存在範囲（単語辞
書メモリ１内のアドレス範囲）が求められるようにして
いる。例えば、図１６（ａ）から、「日」に対して、先
頭アドレス８００の値としてａ１　、単語数８０１の値
としてＮ１　とが得られるが、これは、図１６（ｂ）に
示されているように、単語辞書メモリ１内で先頭文字が
「日」に対応する単語は、アドレスａ１　からＮ１　個
、すなわち、アドレスａ１　からアドレス（ａ１　＋Ｎ
１　−１）までの範囲に存在することを意味する。なお
、インデックスメモリ８について、ある文字に対するア
ドレスは、その文字の文字コードをそのままアドレス値
とするのが最も単純であるが、その文字の文字コードに
なんらかの演算をほどこした結果の値をアドレス値とす
るなどの方法も考えられる。

【００４５】コントローラ７は、入力装置５によって１
文字に対するｍ種類の候補が入力されるたびに、インデ
ックスメモリ８より、ｍ個のシフトレジスタ２の各１文
字目を先頭とする単語の存在範囲を順次求めて、アドレ
スカウンタ４を制御するとともに、シフトレジスタ２の
順送りや、判定回路６の判定のタイミングなども制御す
る。

【００４６】図１１は、コントローラ７に入出力される
制御信号のタイムチャートの例である。図１１において
、入力クロック５０は入力装置５から入力される制御信
号、シフトクロック７０はシフトレジスタ２へ出力され
る制御信号、セットクロック７３とカウンタクロック７
１はアドレスカウンタ４へ出力される制御信号、判定ク
ロック７２は判定回路６へ出力される制御信号である。

【００４７】まず、シフトクロック７０は入力クロック
５０が１回入力されるたびに１回出力される（入力クロ
ック５０をそのままシフトクロック７０として出力する
）。このシフトクロック７０は、入力装置５からシフト
レジスタ２へ１文字読み込ませ、かつ、シフトレジスタ
２内の文字列を１文字ずつ順送りさせるためのものであ
る。

【００４８】セットクロック７３は、シフトクロック７
０に引き続いて、ｍ回出力される。このセットクロック
７３は、インデックスメモリ８から読み出される先頭ア
ドレスを、アドレスカウンタ４にセツトするための信号
である。第１候補シフトレジスタの１文字目の文字、第
２候補シフトレジスタの１文字目の文字、………、第ｍ
候補シフトレジスタの１文字目の文字の各々について、
合計ｍ回繰り返される。

【００４９】セットクロック７３が１回出力された後に
、判定クロック７２とカウンタクロック７１とが交互に
出力される。これらの出力回数は、セツトクロック７３
でセットされた先頭アドレスと同時にインデックスメモ
リ８から読み出された単語数と同一回数である。図１１
のタイムチャートでは、第１候補シフトレジスタの１文
字目、第２候補シフトレジスタの１文字目、………、第
ｍ候補シフトレジスタの１文字目の各々に対して、その
文字を先頭文字とする単語辞書メモリ１内の単語数が、
Ｎ１　個、Ｎ２　個、Ｎｍ　個であったことを示してい
る。ただし、カウンタクロック７１は判定クロック７２
よりも１回少なくともよい。

【００５０】アドレスカウンタ４は、セットクロック７
３に同期してコントローラ７から指定されたカウンタ値
（先頭アドレス）をセットし、カウンタクロック７１に
同期してカウントアップを行なうカウンタである。そし
て、カウンタ値を単語辞書メモリ１のアドレス値として
出力する。従来のカウンタＩＣで実現できる。

【００５１】第ｉ候補シフトレジスタ２は、入力装置５
によって入力された文字列の第ｉ候補（ｉは１≦ｉ≦ｍ
なる整数）を、シフトクロック７０に同期して１文字ず
つ順送りしながら、（ｎ＋１）文字分格納するシフトレ
ジスタである。このシフトレジスタ２は、入力文字列の
各文字に対するｍ個の候補の各々に対して設けられてお
り、第１候補シフトレジスタ、第２候補シフトレジスタ
、………、第ｍ候補シフトレジスタのｍ個がある。図１
２は、各シフトレジスタ２の構成例を示した図である。１文字をｄビットで表現している場合、第ｉ候補シフト
レジスタ２は、図１２のように、シフトクロック７０に
同期した［ｄ×（ｎ＋１）］個のＤフリップフロップで
実現できる（ｄ個並列に並べたものを、（ｎ＋１）個の
直列に接続する）。並列に接続したｄ個が１文字に対応
し、先頭文字を除いて、その出力はまとめて比較回路３
へ送られる。

【００５２】ｊ文字目比較回路３は、アドレスカウンタ
４の示す１つのアドレスに対して単語辞書メモリ１から
読み出されるｎ文字分のデータのｊ番目（ｊは１≦ｊ≦
ｎなる整数）の文字が、ｍ個のシフトレジスタ２のいず
れかの（ｊ＋１）番目の文字、または、残余記号に一致
したときに、一致記号を出力する回路である。この比較
回路３は、単語辞書メモリ１のデータ巾ｎ文字の各々に
対して設けられており、１文字目比較回路、２文字目比
較回路、………、ｎ文字目比較回路のｎ個がある。

【００５３】図１３は、ｊ文字目比較回路３の構成例を
示した図である。１文字をｄビットで表現して、シフト
レジスタ２がｍ個設けられている場合、ｊ文字目比較回
路３は、図１３のように、（ｍ＋１）個のｄビット比較
器と、１個のＯＲゲートで構成できる。ｍ個のｄビツト
比較器は、単語辞書メモリ１から読み出されているｎ文
字データのうちのｊ文字目と、各シフトレジスタ２の（
ｊ＋１）文字目とを比較し、残りの１個のｄビット比較
器は、単語辞書メモリ１から読み出されているｎ文字デ
ータのうちのｊ文字目が残余記号であるか否かを調べる
。最終的なＯＲゲートの出力では、この（ｍ＋１）個の
比較器のいずれかで一致が検出されたときに、一致信号
４０が出力される。

【００５４】判定回路６は、判定クロック７２に同期し
て、ｎ個の比較回路３のすべてから一致信号が検出され
た場合に、入力装置５によって入力された文字列中に単
語辞書メモリ１内に存在する単語が出現したと判定する
回路である。図１４は、判定回路６の構成例を示す図で
ある。判定回路６は、図１４のように、１個のＡＮＤゲ
ートと１個のＤフリップフロップで実現できる。ｎ個の
比較回路３はシフトレジスタの２文字目から（ｎ＋１）
文字目に対応していて、シフトレジスタ２の１文字目の
位置での一致が比較回路３では判定されていないが、イ
ンデックスメモリ８でシフトレジスタ２の１文字目を先
頭文字とする単語に絞っていることから、一致は明かで
ある（比較器を設けておく必要がない）。

【００５５】次に第２の発明の第１の実施例の動作を図
７を用いて説明する。

【００５６】図７は、第２の発明の第１の実施例ではｎ
＝３、ｍ＝３で、入力文字の長さが４のときの、第１候
補シフトレジスタ・第２候補シフトレジスタ・第３候補
シフトレジスタの内容の変化の例を示した図である。ｎ
＝３であるから、各シフトレジスタの長さは（ｎ＋１）
＝４である。図７の３×４のマトリックスは、１行が各
シフトレジスタ２の内容に対応しており、行方向が文字
位置（１〜４）、列方向が候補レベル（１〜３）を表わ
している。これらのシフトレジスタ２に入力されている
文字列は、１文字目の候補は第１候補から順に「日」「
白」「目」、２文字目の候補は順に「木」「本」「大」
、３文字目は順に「電」「雷」「霧」、４文字目は順に
「気」「島」「戒」である。斜線部分は文字が格納され
ていないことを表わす。

【００５７】図７において、（ａ）→（ｂ）→（ｃ）→
（ｄ）→（ｅ）→（ｆ）→（ｇ）→（ｈ）という変化は
、シフトクロック７０が１回発生されるたびに起こる変
化を示している。そして、（ａ）〜（ｇ）の各々の状態
において、ｎ個（この例では３個）の比較回路３で、単
語辞書メモリ１内の単語と図７のシフトレジスタの内容
との照合が行なわれる。その際、単語辞書メモリ１内の
全単語とシフトレジスタ２とが照合されるのではなく、
そのときの各シフトレジスタ２の１文字目をもとにして
、単語辞書メモリ１内の照合する単語数を制限する。例
えば、状態（ｄ）では、３個のシフトレジスタ２の内容
と、まず、「日」で始まる単語辞書メモリ１内の単語群
とが照合され、次に、「白」で始まる単語群と照合され
、最後に、「目」で始まる単語群と照合される。このような単語群の存在範囲は、インデックスメモリ８
から得ることができ、コントローラ７が単語辞書メモリ
１のアドレスカウンタ４を制御する。

【００５８】その結果、各状態で、単語辞書メモリ１内
の例えば次のような単語に対して、判定回路６が出現を
検出する。

【００５９】（ａ）　　該当なし（ｂ）　　該当なし（ｃ）　　該当なし（ｄ）　　「日」「日本」「日本電気」「日大」「白」
「白木」「目」（ｅ）　　「木」「本」「大」（ｆ）　　「電」「電気」「霧」「霧島」「雷」（ｇ）
　　「気」「島」このうち、状態（ｄ）における図７のシフトレジスタ内
容と、「日本」に相当する単語辞書１内の「本△△」（
インデックスメモリ８の「日」と対応付けられている）
とを照合する際の、各比較回路３の動作を説明する。１
文字目比較回路は、「本△△」の「本」と第１候補シフ
トレジスタの２文字目の「本」との一致により一致信号
４０を発生する。２文字目は比較回路と３文字目比較回
路はともに、「本△△」の「△」（残余記号）を検出し
て一致記号４０を発生する。その結果、判定回路６は、
すべての比較回路３の一致信号４０を受けて、単語「日
本」の出現を検出することになる。

【００６０】なお、入力文字列長がＫの場合、シフトレ
ジスタ２内での順送りは、少なくとも（Ｋ＋ｎ−１）回
行なわれる必要がある。したがって、入力装置５は、長
さＫの入力文字列を入力した後、さらに、（ｎ−１）回
のダミーの文字列入力を行なう必要がある。あるいは、
コントローラ７が、入力文字列の末尾を検出して、さら
に、シフトクロック７０の１回に対応するサイクルを、
（ｎ−１）回繰り返すようにしてもよい。

【００６１】また、最初の（ｎ−１）回の順送りの間（
図７では（ａ）から（ｃ）まで）は、入力文字列がシフ
トレジスタ２の先頭まで到達していないので、単語辞書
メモリ１との照合を行なっても意味がない。そこで、そ
の間は、コントローラ７は、セットクロック７３やカウ
ンタクロック７１や判定クロック７２を発生せず、シフ
トクロック７０のみを連続して発生するようにしてもよ
い。

【００６２】以上では、入力文字列の各文字にｍ個の候
補が存在する一般的な場合の実施例を示したが、かな漢
字変換における単語辞書検索や、ワードプロセッサで作
成した文章の解析を行なう際の単語辞書検索などでは、
入力文字列の各文字は１通りである（ｍ＝１）。図１５
は、そのような場合を対象とした第２の発明の第２の実
施例を示すブロック図である。この場合は、シフトレジ
スタ２が１個でよい。構成要素・動作は第１の実施例に
ついて、ｍ＝１とすればよいので、説明を省略する。

【００６３】

【発明の効果】以上説明したように、本発明によれば、
漢字のように種類の多い文字から成る文字列に対して、
各文字が複数の候補をもっていても、高速に単語辞書と
の照合が可能な単語辞書検索装置が得られる。特に、入
力文字列の各文字の候補数にも、単語辞書内の単語の表
記長にもかかわらず、入力文字列と単語辞書内の１つの
単語との照合が２クロツク程度の間に行えることの効果
が大きい。

【００６４】さらに、実施例に示したように、本発明の
各構成要素は、少数のロジックＩＣを組み合わせて実現
できる。したがって、ＬＳＩ技術を利用すれば、非常に
小型の装置として実現できる点も長所である。それに加
えて、第１の従来技術のように、汎用計算機上のソフト
ウェアとして実現されるのではなく、専用ハードウェア
、特殊ＬＳＩとして実現できるため、クロックの周波数
自体を汎用計算機に比べてかなり高く設定することが可
能であり、この点でも高速性が優れている。

【００６５】以上のような高速性から、第１の発明では
、前述の第１の従来技術のように単語辞書内で照合する
単語数を制限せず、単語辞書内の全単語との照合を行な
っても、従来より十分高速な単語辞書検索装置が得られ
ることが考えられるが、その結果、単語辞書内が表記の
コード順にソートされている必要がないという長所も生
ずる。したがって、単語の追加・削除が行なわれても、
単語辞書を編成し直す必要がなく、単語辞書のメンテナ
ンスがきわめて容易である。

【００６６】また、第１の発明では、単語辞書内の各単
語に対して、入力された文字列に対する出現可能性を計
算するので、その出現可能性の値にもとづき、複数の単
語が入力文字列と一致した場合でも、最も確からしいも
のを選択することができる。一方、文字認識装置などで
は、各文字の候補に必ずしも正解文字が含まれないこと
もあり、１つの単語も入力文字列と完全には一致しない
ことも考えられるが、そのような場合でも、最も出現し
た可能性が高いものを選択することができる。

【００６７】

【図面の簡単な説明】

【図１】第１の発明の第１の実施例の構成を示す図

【図
２】単語辞書メモリ１の内容の例を示す図

【図３】コン
トローラ７の入出力信号のタイムチャート

【図４】シフ
トレジスタ２の構成例を示す図

【図５】比較回路３の構
成例を示す図

【図６】判定回路６の構成例を示す図

【図７】シフトレジスタ２の内容の変化の例を示す図

【
図８】比較回路３におけるエンコーダの真理値表の例を
示す図

【図９】第２の発明の第１の実施例の構成を示すブロッ
ク図である。

【図１０】単語辞書メモリ１の内容の例を示す図である
。

【図１１】コントローラ７の入出力信号のタイムチャー
トの例を表わす図である。

【図１２】シフトレジスタ２の構成例を示す図である。

【図１３】比較回路３の構成例を示す図である。

【図１４】判定回路６の構成例を示す図である。

【図１５】第２の発明の第２の実施例を示すブロック図
である。

【図１６】インデックスメモリ８の内容の例と単語辞書
メモリ１との対応を示す図である。

【符号の説明】

１　　単語辞書メモリ２　　シフトレジスタ（第ｉ候補シフトレジスタ）３　
　比較回路（ｊ文字目比較回路）４　　アドレスカウンタ５　　入力装置６　　判定回路７　　コントローラ８　　インデックスメモリ３０　　類似度信号４０　　一致信号５０　　入力クロック７０　　シフトクロツク７１　　カウンタクロック７２　　判定クロック７３　　セットクロック７４　　先頭アドレス

Claims

【特許請求の範囲】

【請求項１】　　各文字に対して第１から第ｍ候補（ｍ
はｍ≧１なる整数）までのｍ種類の候補が存在する文字
列の入力装置と、ｎ文字分（ｎはｎ≧１なる整数）のデ
ータ巾をもつ各アドレスに単語の表記を１個ずつ格納し
てｎ文字に満たない部分にはあらかじめ定めた残余記号
を詰めた単語辞書メモリと、前記入力装置によって１文
字に対するｍ種類の候補が入力されるたびにシフトクロ
ック１回と前記単語辞書メモリ内の全単語数に応じた回
数の判定クロックとカウンタクロックとを発生するコン
トローラと、前記シフトクロックに同期したリセットと
前記カウンタクロックに同期したカウントアップとを行
なう前記単語辞書メモリのアドレスカウンタと、前記入
力装置によって入力された文字列の第１・第２・……・
第ｍ候補に対応し前記シフトロックに同期した１文字ず
つの順送りを行なう各々ｎ文字分の第１・第２・……・
第ｍ候補シフトレジスタと、前記単語辞書メモリから読
み出されるｎ文字分のデータの１文字目・２文字目・…
…・ｎ文字目に対応し該当位置の文字と前記第１・第２
・……・第ｍシフトレジスタの同位置の文字や残余記号
との一致パターンに応じた類似度信号を出力する１文字
目・２文字目・……・ｎ文字目比較回路と、前記判定ク
ロックに同期して前記１文字目・２文字目・……・ｎ文
字目比較回路から出力されたｎ個の類似度信号の演算を
行なうことによって前記入力装置から入力された文字列
に対する前記単語辞書メモリから読み出された単語の出
現可能性を算出する判定回路とを備えたことを特徴とす
る単語辞書検索装置。
【請求項２】　　各文字に対して第１から第ｍ候補（ｍ
はｍ≧１なる整数）までのｍ種類の候補が存在する文字
列の入力装置と、ｎ文字分（ｎはｎ≧１なる整数）のデ
ータ巾をもつ各アドレスに先頭文字を除去した単語の表
記を１個ずつ格納してｎ文字に満たない部分にはあらか
じめ定めた残余記号を詰めた単語辞書メモリと、前記単
語辞書メモリのアドレスカウンタと、前記単語辞書メモ
リについて前記除去した先頭文字ごとに該当する単語の
存在範囲を示したインデックスメモリと、前記入力装置
によって入力された文字列の第１・第２・……・第ｍ候
補に対応し１文字ずつの順送りを行なう各々（ｎ＋１）
文字分の第１・第２・……・第ｍ候補シフトレジスタと
、前記入力装置によって１文字に対するｍ種類の候補が
入力されるたびにシフトクロック１回と前記インデック
スメモリより前記第１・第２・……・第ｍ候補シフトレ
ジスタの各１文字目が前記除去した先頭文字に対応する
単語の存在範囲を順次求めて前記アドレスカウンタに先
頭アドレスをセットするセットクロックと単語数に応じ
た回数の判定クロックとカウンタクロックとを出力する
コントローラと、前記単語辞書メモリから読み出される
ｎ文字分のデータの１文字目・２文字目・……・ｎ文字
目と前記第１・第２・……・第ｍ候補シフトレジスタの
２文字目・３文字目・……・（ｎ＋１）文字目とを対応
付け前記単語辞書から読み出された文字が前記シフトレ
ジスタの対応する位置のｍ種類の文字のいずれかまたは
前記残余記号に一致したとき一致記号を出力する１文字
目・２文字目・……・ｎ文字目比較回路と、前記１文字
目・２文字目・……・ｎ文字目比較回路のすべてから一
致記号が検出された場合に前記入力装置によって入力さ
れた文字列中に前記単語辞書メモリ内に存在する単語が
出現したと判定する判定回路とを備えたことを特徴とす
る単語辞書検索装置。