JPH03110676A

JPH03110676A - 単語辞書検索装置

Info

Publication number: JPH03110676A
Application number: JP1250040A
Authority: JP
Inventors: Shunichi Fukushima; 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-09-25
Filing date: 1989-09-25
Publication date: 1991-05-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力文字と単語辞書とを照合して、入力文字
列において、単語辞書内に存在する単語が出現した部分
を検索する単語辞書検索装置に関するものである。ただ
し、入力文字列は、各文字が複数の候補をもつ場合と、
１個しかもたない場合がある。また、単語辞書検索にお
ける検索キーは、単語の表記（漢字かな混じり文字列）
の場合と、読みがな（かな文字列）の場合が多い。

入力文字列のの各文字に複数の候補がなく一意な場合の
単語辞書検索装置は、かな漢字変換装置においてキーボ
ードから入力されなかな文字列に対する単語辞書検索を
行なう部分や、機械翻訳装置・文音声変換装置・文章構
成装置などにおいてワードプロセッサなどで作成された
漢字かな混じり文字列に対する単語辞書検索を行なう部
分などに用いられている。前者は検索キーが読みがなで
、後者は検索キーが表記である。

入力文字列の各文字に複数の候補がある場合の単語辞書
検索装置は、音声認識装置や文字認識装置などにおいて
、認識結果の複数の候補文字から最も確からしい文字を
選択するための単語辞書検索部などに用いられている。

音声認識の場合は検索キーが読みがな（音節）で、文字
認識の場合は検索キーが表記である。

（従来の技術）従来、かな漢字変換装置・文音声変換装置などにおいて
用いられている単語辞書検索方式は、基本的に、文献＝
「計算機によるカナ漢字変換」（和訳・江原、Ｎ　ＨＫ
技術研究、第２５巻第５号、２３頁〜６０頁、１９７３
年）に示されている方式を引き継いでいる。すなわち、
入力された文字列から部分文字列を切り出して、その部
分文字列に表記（かな漢字変換では「かな表記」すなわ
ち「読みがな」）の一致する単語を単語辞書内から検索
するという処理を行なう（これを、以下では、第１の従
来技術と呼ぶことにする）。

第１の従来技術では、例えば、「文章を解析する」とい
う漢字かな混じり文字列に対する単語辞書検索を行なう
場合は、１文字目・２文字目など各文字位置から始まる
単語を検索するために、「文章を解析する」　「章を解
析する」　「を解析する」　「解析する」　「する」　
「る」といった部分文字列を別々に切り出す、そして、
各部分文字列について、さらに、末尾を削った部分文字
列も生成して、その各々を単語辞書から検索する。すな
わち、１文字目から始まる単語を検索する際には、「文
章を解析する」　「文章を解析すＪ　「文章を解析」　
「文章を解」「文章を」「文章」　１文」といった部分
文字列に関して、検索を次々に繰り返し、２文字目から
始まる単語を検索する際には、「章を解析する」　１章
を解析す」　「章を解析」　「章を解析」　「章を」　
「章」といった部分文字列に関して、検索を次々に繰り
返すわけである。その結果、下線を引いた部分文字列な
どについて、表記の一致する単語が見つかることになる
。

この第１の従来技術では、上述のように複数の部分文字
列に対して単語辞書の検索を繰り返すわけであるが、単
語辞書の構成を工夫しておくことによって、１つの部分
文字列に対する検索の所要時間の短縮を図っている０例
えば、単語辞書内の単語をあらかじめソートしておいて
二分検索を行なったり１文字目・２文字目などに文字ご
とに分割して共通な部分をまとめて木構造として１文字
ずつの照合を行なうなどである。このような辞書の構造
と検索方式については、文献：“Ｔｈｅ＾「ｔｏｆ　Ｃ
ｏｇｇｐｕｔｅｒ・Ｐｒｏｇｒａｍｍｉｎｇ　３　：５
ＯｒｔｉｎＵ　ａｎｄ　Ｓｅａｒ−ｃｈｉｎｇ”（Ｄ、
Ｅ、Ｋｎｕｔｈ、＾ｄｄｉｓｏｎ　Ｗｅｓｌｅｙ、１９
７３　）に多く示されている。

ただし、この第１の従来技術は、コンピュータの逐次型
１０グラムとしての実現を想定しており、所要時間短縮
の工夫は逐次処理の枠内での工夫である。したがって、
入力文字列のある部分文字列と単語辞書内のある単語の
表記の文字列とを比較する処理などは、１文字ずつ逐次
性なわれる。

例えば、「文章をノという部分文字列と単語辞書内の「
文章」という単語の比較は、「文」と１文」とを照合し
、一致したところでｒ章」とｒ章」とを照合し、次に、
「を」に対して不一致となり失敗するというように、１
文字ずつの照合処理の繰り返しである。

また、第１の従来技術では、入力文字列の各文字にｍ個
ずつ候補があるような場合は、あらかじめ、長さしの部
分文字列に対して、候補を組み合わせたｍ’通りの文字
列を生成する必要がある。

そして、それらの各々について、さらに、上記のように
末尾を削った部分文字列を生成して、単語辞書内を検索
することになる。

一方、ある長さしの文字列と入力文字列との比較の際に
、１文字ずつの照合を繰り返すのではなく、対応する文
字位置のＬ組の照合を同時に行なうことが考えられてい
る。（以下、第２の従来技術と呼ぶ、）その際、入力文
字列をシフトレジスタに格納しておけば、照合の位置を
ずらすことが、入力文字列から再度部分文字列を切り出
すのではなく、シフトレジスタ内の全文字を一度に１文
字ずらすことで実現できるようにもなる。この第２の従
来技術は、特開昭６３−２６１４２１号公報「文字列処
理装置」および特開昭６３−２６１４２２号公報ｒ文字
列照合装置」に述べられている。

なお、この第２の従来技術では、入力文字列に複数の候
補は存在せず、検索される文字列も１通りに限られるも
ので単語辞書のように多数ではない。

特開昭６２−６７６３６号公報「照合方式」および文献
：「音声日本語入力システムにおける高速な言語処理の
ための辞書照合アルゴリズム」（浜口・銘木、電子情報
通信学会論文誌、第、１７０−Ｄ巻第８号、１５８９頁
〜１５９６頁、１９８７年）には、第３の従来技術が示
されている。

この第３の従来技術で、入力文字列に複数の文字候補が
あることを想定している。まず、文字の種類をＭ（例え
ば、ＪＩＳの文字コード表では、ひらがなについてＭ＝
８３）とすると、１文字目・２文字目など各文字位置に
、Ｍビットのメモリを１個ずつ用意し、複数の候補文字
に対応する各ビットを１にしておく、そして、照合時は
、単語辞書内の各単語について、単語の表記の１文字目
・２文字目など文字位置ごとに、対応するＭビットメモ
リから、対応する文字のビット内容（１または０）を同
時に読み出す、すべてのＭビットメモリから１が読み出
されたら、入力文字列巾に単語辞書内にある単語が出現
したことになる。

以上の第１〜第３の従来技術では、単語辞書を検索する
際の検索キーを１種類しか設けていない。

しかし、文書処理システムでは、単Ｂ辞書検索の際に、
複数の検索キーを設定する必要が生ずることがある０例
えば、文献：「日本語文章作成支援システムＣＯＭＥＴ
−文章解析応用の統合化方式を中心に−」　（福島・犬
山、情報処理学会・文書処理とヒユーマンインタフェー
ス研究会、２〇−２，１９８８年）では、かな漢字変換
、文音声変換、文章構成などのアプリケーションを統合
化したシステムが述べられている。上記の文献では、か
な漢字変換用の単語の読みがなを検索キーとして単語の
表記を得る辞書と、文音声変換・文章校正用の単語の表
記を検索キーとして単語の読みがなを得る辞書という、
２種類の独立した単語辞書を用いている（以下では、こ
れを、第４の従来技術と呼ぶことにする）、そして、そ
の各々については、第１の従来技術の手法を適用してい
る。したがって、単語の読みがなと表記とは、２つの辞
書の両方に重複して登録されていることになる。

これに対して、１つのめ単語辞書を、単語の読みがなで
も表記でも検索できるようにしたのが、以下に述べる第
５・第６の従来技術である。

第５の従来技術では、単語の表記を検索キーとした第１
の従来技術にもとづく単語辞書と、漢字読み表とを利用
する。漢字読み表は漢字１文中の読み方を登録した表で
あり、単語辞書の単語の表記を漢字読み表で展開して、
単語の読みがなを生成しながら検索する。特開昭６２−
２１２７８６号公報「かな漢字相互変換装置」や特開昭
６２−２２４８５９号公報「日本語処理方式」などに、
その手法が述べられている。

第６の従来技術では、ポインタを利用して、２通りの検
索キーについて第１の従来技術の手法が適用できるよう
な単語辞書構成をとる。すなわち、第４の従来技術の重
複した内容の部分を、ポインタで置き換えたものである
。特公昭６３−４２２５号公報「電子辞書」では、第４
の従来技術における２つの単語辞書の一方のすべてをポ
インタの集合と置き換えている。特開昭６１−３０７４
１２号公報「単語辞書構成方式」では、第４の従来技術
における２つの単語辞書の検索キーが、相互にポインタ
で参照し合う形態となっている。

（発明が解決しようとする課題）まず、１種類の検索キーに関する従来技術の課題を述べ
る。

第１の従来技術には、第１に、前述のように、多数の部
分文字列に対する単語辞書検索を繰り返さねばならない
という欠点がある。この欠点は、入力文字列の各文字に
複数の候補゛がある場合に、特に顕著になる。長さＫの
入力文字列の各文字にｍ個ずつ候補がある場合、最長の
部分文字列の長さをＬとすると（通常、単語辞書内の最
長の単語の長さをＬとする）、最大（ｍＬＸＬＸＫ）個
の部分文字列に対する検索を繰り返す必要が生ずる。

通常、あらかじめ条件を定めて、不要な部分文１字列の
検索を避けるようにするので、（１ｎＬＸＬＸＫ）個と
いうのはｆ＆悪の場合であるが、それでも検索の回数は
かなり多くなる。

第１の従来技術の第２の欠点は、ある部分文字列と単語
辞書内のある単晶の表記の文字列との比較を、１文字ず
つ順に行なうため、比較に時間がかかるということであ
る。

第２の従来技術では、第１の従来技術の第２の欠点に対
処している。しかし、第２の従来技術は、入力文字列に
複数の候補がある場合に適用できない、また、検索され
る文字列も１通りに限られ、単語辞書のように多数の文
字列と比較を行なうことを考えると、単語辞書内の各単
語の表記の長さの異なりが問題となって適用できない。

第″′３の従来技術は、第１の従来技術の２つの欠点に
対処している。しかし、入力文字列を記憶するために、
文字の種類だけのビット数をもったメモリを、文字列長
だけ用意する必要があるので、文字の種類が多数の場合
はメモリサイズがかなり大きくなってしまう問題がある
。かな漢字変換や音声認識の場合は、入力文字列がひら
がな（あるいは音素文字）で１００種類程度に限定され
るので、あまり問題にならないが、漢字かな混じり文字
列を対象とした文音声変換や機械翻訳などの場合は、漢
字を含み文字の種類が３０００〜４０００種類にもおよ
ぶので、メモリが大きくなって問題になる。

また、第３の従来技術では、入力された文字列の先頭か
ら始まる単語の検索しか行なわないため、２文字目から
始まる単語や、３文字目から始まる単語などを検索する
場合には、入力文字列のメモリへの登録を、やり直す必
要が生じるという問題もある。

次に検索キーを複数設けた場合の従来技術の課題を述べ
る。

第１〜第３の従来技術では、検索キーはただ１種類と考
えられている。したがって、複数の検索キーを設けよう
とすると、第４の従来技術と同様に、検索キーごとの単
語辞書を用意することになる。その場合、複数の単語辞
書に情報が重複して登録されることになり、無駄が多い
構造となる。

第５・第６の従来技術では、この重複の無駄をなくして
いるが、次のような問題点がある。まず、第５の従来技
術では、単語の読みがなを検索キーとした検索の場合、
漢字読み表で展開して見出しを生成しながら照合を行な
うといった複雑な処理を行なう上に、本来の単語の読み
がな以外の見出しも生成されてしまうので、処理量が多
く、結果として処理時間が増大する０次に、第６の従来
技術では、ポインタで関係を管理しているため、項目（
単語）の追加・削除の際に、その関係が壊れないかチエ
ツクする必要が発生し、単語辞書のメンテナンス作業の
労力が大きくなる。また、ポインタに置き換えることに
より、見かけ上の情報の亜種はなくなっているが、代わ
りにポインタ領域がとられることになり、実質的な辞書
容量の面では、第４の従来技術と同様に無駄が多い。

本発明の目的は、上記のような従来技術の欠点を除去し
、入力文字列の各文字に複数の候補があっても、高速に
単語辞書との照合が可能な単語辞書検索装置であって、
しかも、複数の検索キーを設けても、容量の面で無駄の
ある構造をとることなく、高速性を保てる単語辞書検索
装置を提供することである。

（課題を解決するための手段）本発明の単語辞書検索装置は、各文字に対して第１から
第ｍ候補（ｍはｍ≧１なる整数）までのｍ種類の候補が
存在する文字列を入力する入力装置と、ｎ文字（ｎはｎ
≧１なる整数）以下のｐ文字分（ｐは１≦ｐ≦ｎなる整
数）のデータ巾をもつ各アドレスに見出しを１個ずつ格
納して該データ巾に満たない部分にはあらかじめ定めた
残余記号を詰めて構成され見出しの種類に応じて区分さ
れたＳ種類（ｓはＳ≧１なる整数）の単語辞書メモリと
、前記Ｓ種類の単語辞書メモリのうちデータ巾がｎ文字
に満たないものについて該データ巾とｎ文字との差分の
前記残余記号を発生する残余記号発生器と、前記入力装
置によって１文字に対するｍ種類の候補が入力されるた
びに１回のシフトシクロツク並びに前記単語辞書メモリ
内の全単語数に応じた回数の判定クロック及びカウンタ
クロックを発生するコントローラと、前記シフトクロッ
クに同期したリセットと前記カウンタクロックに同期し
たカウントアツプとを行なう前記Ｓ種類の単語辞書メモ
リに共通のアドレスカウンタと、前記入力装置によって
入力された文字列の第１・第２・・・・・・・・第ｍ候
補に対応し前記シフトクロックに同期した１文字ずつの
順送りを行なう各々ｎ文字分の第１・第２・・・・・・
・・第ｍ候補シフトレジスタと、前記Ｓ種類の単語辞書
メモリの１つを選択するスイッチと、前記スイッチで選
択された単語辞書をメモリから読み出されるデータと該
単語辞書メモリのデータ巾がｎ文字に満たない場合に対
応する前記残余記号発生器の発生するデータとを合わせ
たｎ文字分のデータの１文字目・２文字目・・・・・・
・・ｎ文字目に対応し該当位置の文字が前記第１・第２
・・・・・・・・第ｍシフトレジスタのいずれかの同位
置の文字または前記残余記号に一致したとき一致信号を
出力する１文字目・２文字目・・・・・・・・ｎ文字目
比較回路と、前記判定クロックに同期して前記１文字目
・２文字目・・・・・・・・ｎ文字目比較回路のすべて
から一致信号が検出された場合に前記入力装置によって
入力された文字列巾に前記単語辞書メモリ内に存在する
単語が出現したと判定する判定回路とを備える。

（実施例）図面を用いて、本発明の構成・作用を説明する。

第１図は本発明の単語辞書検索装置の第１の実施例の構
成を示すブロック図である。以下、まず、各構成要素を
説明する。

入力装置５は、各文字に対して第１候補から第ｍ候補（
ｍはｍ≧１なる整数）までのｍ種類の候補が存在する文
字列を入力する装置であり、例えば、音声認識装置や文
字認識装置などである。入力装置５は、各文字に対する
ｍ個の候補を同時に出力し、その出力のタイミングを入
力クロック５０によってコントローラ７へ伝える。

単語辞書メモリ１は、ｎ文字（ｎはｎ≧１なる整数）以
下のデータ中（ｐ文字とする＝１≦ｐ≦ｎ）をもつ各ア
ドレスに見出しを１個ずつ格納しｐ文字に満たない部分
には、あらかじめ定めた残余記号を詰めて構成されたも
のである。この単語辞書メモリ１を、見出しの種類の異
なるＳ種類（ｓはＳ≧１なる整数）だけ設ける。以下、
Ｓ種類の単語辞書メモリ１を、第１の単語辞書メモリ、
第２の単語辞書メモリ、・・・・・・、第Ｓの単語辞書
メモリとする。このとき、各単語辞書メモリ１のデータ
ｒｌ　ｐは、各単語辞書メモリ１ごとに異なってもかま
わない、第１図ではｓ＝２としている。第１の単語辞書
メモリは単語の読みがなを見出しとしたものであり、第
２の単語辞書メモリは単語の表記を見出しとしたもので
ある。他にも単語の英表記を見出しとしたものなども考
えられる。Ｓ種類のφ語辞書メモリについて、同一のア
ドレスには同一の単語に対する見出しを格納するものと
する。ただし、この第１の実施例では、単語の出現のみ
を判定するので、必ずしも、同一アドレスが同一単語に
対応してなくとも動作する。さらに、単語辞書メモリ内
の単語の並びは、ソートされている必要はない。

第５図は、単語辞書メモリ１の内容の例を示す図である
。第５図（ａ）は第１の単語辞書メモリの内容の例、第
５図（ｂ）は第２の単語辞書メモリの内容の例である。

第１の単語辞書メモリのデータ中はＰＬ＝６、第２の単
語辞書メモリのデータ中はｐ２＝４としている。なおΔ
が残余記号を表わしている。第５図（ａ）の第１の単語
辞書メモリのアドレスをａとすると、「にほんΔΔΔ」
という６文字が同時に読み出される。同じアドレスに対
して、第５図（ｂ）の第２の単語辞書メモリからは、「
日本ΔΔ」という４文字が同時に読み出される。単語辞
書メモリ１は、ＩＣメモリなどを用いて実現できる０通
常、日本語の文字コードは１６ビツトで表現されるので
、第５図（ａ）のデータ中は１６Ｘ６＝９６ビツトであ
る。現在のＩＣメモリでは、同時に読み出されるデータ
ｒｊＪが８ビット程度であるから、第５図（ａ）の第１
の単語辞書メモリは、そのようなＩＣメモリを１２２個
並に並べて実現できる。また、第２の単語辞書メモリは
、同様にＩＣメモリを８個並列に並べて実現できる。

残余記号発生器１２は、Ｓ種類の単語辞書メモリ１のう
ちデータ中Ｐがｎ文字に満たないものについて、該デー
タ巾とｎ文字との差分：（ｎ−ｐ）文字の残余記号を発
生する。この残余記号発生器１２は、（ｎ−ｐ）文字の
残余記号を格納したレジスタとして実現できる。データ
巾がｎ文字に満たない単語辞書メモリ１の各々について
、各々のデータ巾に応じた長さの残余記号を発生する残
余記号発生器１２を設ける。

コントローラ７は、入力装置５によって１文字に対する
ｍ種類の候補が入力されるたびに、１回のシフトクロッ
ク並びに単語辞書メモリ１内の全単語数に応じた回数の
判定クロック及びカウンタクロックを発生する。第６図
は、コントローラ７の入出力信号のタイムチャートの例
である。第６図のタイムチャートでは、入力装置５から
入力クロック５０が入力されるたびに、まず、シフトク
ロック７０を１回出力する０本実施例では、入力クロッ
ク５０をそのままシフトクロック７０として出力してい
る。続いて、判定クロック７２とカウンタクロック７１
とを、交互にＮ回出力している。ただし、カウンタクロ
ック７１は（Ｎ−１）回でもよい、ここで、Ｎは単語辞
書メモリ１内の全単語数である。このようなタイムチャ
ート通りに動作するコントローラ７は、当業者において
容易に実現可能である。

アドレスカウンタ４は、シフトクロック７０に同期した
リセットと、カウンタクロック７１に同期したカウント
アツプとを行なうカウンタで、カウンタ値をＳ種類の単
語辞書メモリ１の共通のアドレス値として出力する。ア
ドレスカウンタ４は、従来のカウンタＩＣで実現できる
。

第１候補シフトレジスタ２は、入力装置５によって入力
された文字列の第ｉ候補（１は１≦ｌ≦ｍなる整数）を
、シフトクロック７０に同期して１文字ずつ順送りしな
がら、ｎ文字分格納するシフトレジスタである。このシ
フトレジスタ２は、入力文字列の各文字に対するｍ個の
候補の各々に対して設けられており、第１候補シフトレ
ジスタ、第２候補シフトレジスタ、・・・・・・、第ｍ
候補シフトレジスタのｍ個がある。第７図は、各シフト
レジスタ２の構成例を示した図である。１文字をｄビッ
トで表現している場合、第１候補シフトレジスタ２は、
第７図のように、シフトクロック７０に同期した（ｄＸ
ｎ）個のＤフリップフロップで実現できる。すなわち、
ｄ個並列に並べたものを、ｎ個直列に接続する。並列に
接続したｄ個が１文字に対応し、その出力は各文字目毎
にまとめて比較回路３へ送られる。

スイッチ８は、Ｓ種類の単語辞書メモリ１の１つを選択
する手段である１選択された単語辞書メモリに対応する
値を選択信号８０として出力する。

例えば、ｓ＝２の場合は、選択信号線を１ビット用意し
、その値が０のとき第１の単語辞書メモリ、値が１のと
き第２の単語辞書メモリに対応させればよい、一般に、
選択信号線はｌｏｇ　ｓビット必要になる。スイッチ８
は、トグルスイッチ、デイツプスイッチなどで実現でき
る。なお、入力装置５から入力されるテキストの文字コ
ードに応じて、切り換えるようなスイッチ８の構成も可
能である。

Ｊ文字目比較回路３は、アドレスカウンタ４の示す１つ
のアドレスに対して、スイッチ８で選択された単語辞書
メモリ１に対応するｎ文字分のデータの３番目（ｊは１
≦ｊ≦ｎなる整数）の文字が、ｍ個のシフトレジスタ２
の３番目の文字のいずれかまたは、残余記号に一致した
ときに、一致信号を出力する回路である。ここで、スイ
ッチ８で選択された単語辞書メモリ１に対応するｎ文字
分のデータとは、選択された単語辞書メモリ１が第ｔの
単語辞書メモリとしたとき、そのデータ巾がｎの場合（
ｐｃ　＝ｎの場合）には、第ｔの単語辞書メモリから読
み出されるｎ文字分のデータそのままであり、データ巾
がｎより短い場合（ｐｔくｎの場合）には、第ｔの単語
辞書メモリと対になっている残余記号発生器１２の（ｎ
ｐｔ）文字の残余記号データが、第ｔの単語辞書メモリ
から読み出されるＰＬ文字のデータの後に付加されたも
のである。この比較回路３は、そのｎ文字のデータ中の
各々に対応した数だけ設けられており。

１文字目比較回路、２文字目比較回路、・・・・・・　
ｎ文字目比較回路のｎ個がある。第８図はｊ文字目比較
回路３の構成例を示した図である。１文字をｄビットで
表現して、シフトレジスタ２がｍ個設けられている場合
、ｊ文字目比較回路３は、第８図のように、＜ｍ＋１　
＞個のｄビット比較器と、１個のＯＲゲートと、１個の
ｄビットセレクタとで構成できる。ｄビットセレクタは
、選択信号８０にしたがって、５個の単語辞書メモリに
対応するＳ種類のｊ文字目データのうちの１つを選択す
る（第８図ではｓ＝２としである）０ｍ個のｄビット比
較器はｄビットセレクタで選択された文字と各シフトレ
ジスタ２のｊ文字目とを比較する。

一方、残りの１個のｄビット比較器はｄビットセレクタ
で選択された文字が残余記号であるか否かを調べる。最
終的なＯＲゲートの出力では、この（ｍ＋　１　）個の
比較器のいずれかで一致が検出されたときに、一致信号
３０が出力される。さらに、第９図はｊ文字目比較回路
３の別の構成例を示した図である。第９図の構成では、
各単語辞書メモリから読み出されたｊ文字目ごとに、（
ｍ＋１　）個のｄビット比較器でｍ個のシフトレジスタ
の」文字目および残余記号との比較を行ない、その結果
を１ビツトセレクタで選択して出力する。

判定回路６は、判定クロック７２に同期して、ｎ個の比
較回路３のすべてから一致信号が検出された場合に、入
力装Ｗｔ５によって入力された文字列巾に単語辞書メモ
リ１内に存在する単語が出現したと判定する回路である
。第１０図は、判定回路６の構成例を示す図である０判
定回路６は、第１０図のように、１個のＡＮＤゲートと
１個のＤフリップフロップで実現できる。

次にこの実施例の動作を例を用いて説明する。

第１１図・第１２図の（ａ）〜（ｌ）は、各単語辞書メ
モリ１の最大のデータ中ｎ＝６、候Ｍ数ｍ＝３で、入力
文字列の長さが６のときの、第１候補シフトレジタ・第
２候補シフトレジスタ・第３候補シフトレジスタの内容
の変化の例を示した図である。第１１図は、入力装置５
として文字認識装置が用いられ、漢字かな混じり文字列
が入力された場合の一例である。また、第１２図は、入
力装置５として音声認識装置が用いられ、かな文字列が
入力された場合の一例である。第１１図・第１２図とも
に、３ｘ６のマトリックスは、１行が各シフトレジスタ
２の内容に対応しており、行方向が文字位！（１〜６）
、列方向が候補レベル（１〜３）を表わしている０例え
ば、第１１図の例でシフトレジスタ２に入力されている
文字列は、１文字目の候補は第１候補から順に「日」　
「白Ｊ「目」、２文字目の候補は順に「木」「本」　ｒ
大」、３文字目は順に「語」　「話」　「詰」、４文字
目は順に「の」　「め」「つ」、５文字目は順に「丈」
「又」１文」、６文字目は順に１章」「草」「早」であ
る、斜線部分は文字が格納されていないことを表わす。

第１１図のような入力文字列（入力装置５が文字認識装
置の場合）に対しては、第５図（ｂ）のような単語の表
記を見出しと゛して単語辞書検索処理を行なうように、
スイッチ８を設定する。すなわち、第２の単語辞書メモ
リ（表記を見出しとした単語辞書メモリ）を選択する。

そのとき、第１１図において、（ａ）→（ｂ）→（Ｃ）
→（ｄ）→（ｅ）→（ｆ）→（ｇ）→（ｈ）→（ｉ）→
（Ｊ）→（ｋ）→（１）という変化は、シフトクロック
７０が１回発生されるたびに起こる変化を示している。

そして、（ａ）〜（ｋ）の各々の状態で、カウンタクロ
ック７１と判定クロック７２が全単語数Ｎと同じＮ回発
生される。アドレスカウンタ４は、シフトクロック７０
によってリセットされ、カウンタクロック７１によって
Ｎ回カウントアツプされるため、各状態で単語辞書メモ
リ１からは、先頭の単語から末尾単語まで順に、全単語
（ｎ個）の表記が読み出される。そして、ｎ個（この例
では６個）の比較回路３において、スイッチ８によって
選択された単語辞書メモリ１の全見出しと、第１１図の
シフトレジスタの内容との照合が行なわれることになる
。

その結果、各状態で、第２の単語辞書メモリ１内の例え
ば次のような単語（見出し）に対して、判定回路６が出
現を検出する。

（ａ　該当なしくｂ　該当なしくＣ該当なしくｄ　該当なしくｅ　該当なしくｆ　　１日」　「白」　「目」　「日本」　「日入」
「白木」　「日本語」（ｇ）「木」　「本」「大」「大詰め」（ｈ）　「語」
　「話」　「詰め」（１）「の」「め」「つ」（ｊ）「丈」「又」ｒ文」「文章」（ｋ）「章Ｊ「草」「早」このうち、状態（ｆ）における第７図のシフトレジスタ
２の内容と第２の単語辞書メモリ１内の見出し「“日本
」（＝「日本ΔΔ」）とを照合する際の、各比較回路３
の動作を説明する。１文字目比較回路は、「日本ΔΔ」
の１日」と第１候補シフトレジスタの１文字目の１日」
との一致により一致信号３０を発生する。２文字目比較
回路は、「日本ΔΔ」の「本」と第２候補シフトレジス
タの２文字目の１本」との一致により一致信号３０を発
生ずる。３文字目比較回路と４文字目比較回路は、第２
の単語辞書メモリから読み出された「日本ΔΔ」に含ま
れる「Δ」　（残余記号）を検出して一致信号３０を発
生する。ここで、第２の単語辞書メモリのデータ巾２２
＝４に対して、ｎ＝３６でｐ２＜ｎとなるから、前述し
たように、第２の単語辞書メモリについては、２（＝ｎ
−ｐ２）文字の残余記号を発生する残余記号発生器１２
が設けられている。そして、５文字目比較回路と６文字
目比較回路は、残余記号発生器１２からの残余記号「Δ
」を受は取り、３文字目比較回路や４文字目比較回路と
同様に「Δ」の検出にもとづく一致信号３０を発生する
。その結果、判定回路６は、すべての比較回路３の一致
信号３０を受けて、単語の出現を検出することになる。

さて、第１２図のような文字列が入力される場合（入力
装置５が音声認識装置の場合）には、第５図（ａ）のよ
うな単語の読みがなを見出しとして単語辞書検索処理を
行なうように、スイッチ８を切り換える。すなわち、第
１の単語辞書メモリ（読みがなを見出しとした単語辞書
メモリ）を選択し直す、そして、同様に、１文字ずつ順
送りしながら、その度に、第１の単語辞書メモリ１の全
見出しとシフトレジスタ２の内容とを照合する。

その結果、各状態で検出される第１の単語辞書メモリ内
の単語（見出し）は、例えば、次のようなものである。

（ａ）該当なしくｂ）該当なしくＣ）該当なしくｄ）該当なしくｅ）該当なしくｆ）　「に」　「い」　「す」　「にお」　「にほん
」「いはん」　「いはう」　「いおん」　「いおう」「はＪ　「お」　「はん」　「はん」　「はぼ」「はう
」「おん」「おう」　「はんぐ」ｒはんぶ」　「おんぶ
」　［はんぐん」　「はんぶん」　「はんぶん」　ｒお
うぼう」（ｈ）　「ん」「う」ｒはぐ」「はぼ」［はぶ
んＪ（ｇ）（１）　「ぐ」　「ぶ」「ぼ」「ぐん」　「ぶん」「ぼ
ん」　「ぐんか」　「ぶんか」（ｊ）　「ん」　「う」　「ほか」（ｋ）「かＪ　’＜Ｊ　’が」この場合は、第１の単語辞書メモリのデータ中ｐ＋　＝
ｌ’ｌ　（＝６）であるから、対応する残余記号発生器
１２は設けられず、第１の単語辞書メモリから読み出さ
れるｎ文字の各々が、ｎ個の比較回路の各々に渡される
ことになる。

なお、入力文字列長がＫの場合、シフトレジスタ２内で
の順送りは、少なくとも（Ｋ＋ｎ−１＞回行なわれる必
要がある。したがって、入力装置５は、長さＫの入力文
字列を入力した後、さらに、（ｎ−１）回のダミーの文
字列入力を行なう必要がある。あるいは、コントローラ
７が、入力文字列の末尾を検出して、さらに、シフトク
ロック７０を１回とカウンタクロック７１と判定クロッ
ク７２を８回ずつというサイクルを、＜ｎ−１）回繰り
返すようにしてもよい。

また、最初の（ｎ−１）回の順送りの間（第１１図・第
１２図では（ａ＞から（ｅ）まで）は、入力文字列がシ
フトレジスタ２の先頭まで到達していないので、単語辞
書メモリ１との照合を行なっても意味がない、そこで、
その間は、コントローラ７は、カウンタクロック７１や
判定クロック７２を発生せず、シフトクロック７０のみ
を連続して発生するようにしてもよい。

以上に示したように、この第１の実施例では、入力装置
５として、文字認識装置を用いて表記を見出しとした単
語辞書検索を行なう場合でも、音声認識装置を用いて読
みがなを見出しとした単語辞書検索を行なう場合でも、
スイッチを切り換えるだばで共通に適用できる。

第２図は、第２の実施例の構成を示すブロック図である
。第１の実施例では、単語の出現を検出するのみであっ
たが、第２の実施例では、検出された単語に関する情報
を出力する。第２の実施例は、第１図にその構成を示し
た第１の実施例に、付加情報メモリ９と出力レジスタ１
０を追加したものである。

ここで、付加情報メモリ９は、Ｓ種類の単語辞書メモリ
１の見出し以外の付加情報を格納したメモリである０例
えば、単語の品詞、アクセント、意味分類、表記共、読
み長などを収める。付加情報メモリ９では、単語辞書メ
モリ１の単語と同一のアドレスに、それら付加情報を格
納する。第１３図は、単語ｎ書メモリｌと付加情報メモ
リ９の内容の対応例を示した図である（ただし、付加情
報としては品詞しか登録していない）、アドレスａは、
表記が「日本」、読みがなが「にほん」、品詞が固有名
詞である単語に対応している。アドレスカウンタ４は、
ｓＮＭ、の単語辞書メモリ１だけでなく、付加情報メモ
リ９にも、共通のアドレスを与えるようにする。

出力レジスタ１０は、Ｓ種類の単語辞書メモリ１と付加
情報メモリ９から読み出される１つの単語に対する全情
報（ｓ種類の見出しの内容と付加情報の内容）を、その
まま判定回路６から出力される検出クロック６０のタイ
ミングでラッチする。

出力レジスタ１０はフリップフロップで実現されるレジ
スタである。

ここで、漢字かな混じり文字列のテキストを文字認識し
、さらに、文章解析・音声合成する読書器を考えた場合
、表記を見出しとした単語辞書検索処理の結果として、
読みがな・品詞などは必要であるが、表記は出力される
必要はない、なぜならば単語辞書検索処理の後で行なわ
れる音声合成処理では使われないからである。また、逆
に、音声入力で文章を作成する音声ワードプロセッサを
考えた場合、読みがなを見出しとした単語辞書検索処理
の結果として、表記・品詞などは必要であるが、読みが
なは出力される必要はない、そこで、第２の実施例のよ
うに単語の情報をすべて出力するのではなく、検出の際
に用いられた見出しは出力しないようにしたものが、第
３の実施例である。

第３図は、この第３の実施例の構成を示すブロック図で
ある。

第３の実施例では、第２図にその構成を示した第２の実
施例に対して、セレクタ１１が追加されている。なお、
第１の実施例に対しては、付加情報メモリ９、セレクタ
１１、出力レジスタ１０が追加されている。

第３図において、セレクタ１１は、Ｓ種類の単語辞書メ
モリ１の内容（ｓ種類の見出し）のうちスイッチで選択
された単語辞書メモリ以外の（ｓ−１）種類の内容と、
付加情報メモリ９の内容とを選別出力する０例えば、第
２の単語辞書メモリ１がスイッチ８で選択されている際
、その第２の単語辞書メモリ１内の見出し「日本」に対
して検出が行なわれたときは、第１の単語辞書メモリ１
の内容「にほんＪと付加情報メモリ９の内容「固有名詞
」が出力される。すなわち「日本」は出力されない。

以上の第１〜第３の実施例では、入力文字列の各文字に
ｍ個の候補が存在する一般的な場合の実施例を示したが
、かな漢字変換における単語辞書検索や、作成した文章
を音声出力するための漢字かな変換における単語辞書検
索などでは、入力文字列の各文字は１通りである（ｍ＝
１）、第３図にその構成を示した第３の実施例について
、ｍ＝１とした場合を、第４の実施例として第４図に示
す、第４図は第４の実施例の構成を示すブロック図であ
る。

第４の実施例では、シフトレジスタ２が１個でよい、構
成要素・動作は、これまでに示した実施例について、ｍ
＝１とすればよいので、詳しい説明を省略する。かな漢
字変換の際には、入力されなかな文字列と、第１の単語
辞書メモリ（読みがなを見出しとするＭ語辞書メモリ）
の見出しとを照合して、検出された単語について、表記
・品詞などが出力される。漢字かな変換の際には、入力
された漢字かな混じり文字列と、第２の単語辞書メモリ
（表記を見出しとする単語辞書メモリ）の見出しとを照
合して、検出された単語について、読みがな・品詞など
が出力される。

なお、見出しによって、１文字を表現するビット数が異
なることがある０例えば、漢字かな混じりの表記１文字
の表現には、通常、１６ビツトが必要であるが、読みが
なの１文字は８ビツトで表現可能である。そのような場
合に対処する方法の１つは、多いビット数のものに合わ
せることである２例えば、読みがなの１文字にも、８ビ
ット余分なビットを付加して、１６ビツト割り当てれば
よい、別な対処方法は、公約数のビット数を単位として
、有効な区切りのみを利用するものである。

例えば、８ビツトを単位として順送りや比較を行ない、
表記に関する照合の場合には、偶数回目の順送りの回だ
けを有効とすればよい、なお、読みがなは８ビツトなの
で、毎回有効である。

（発明の効果）以上説明したように、本発明によれば、漢字のように種
類の多い文字から成る文字列に対して、各文字が複数の
候補をもっていても、高速に単語辞書との照合が可能な
単語辞書検索装置が得られる。特に、入力文字列の各文
字の候補数にも、単語辞書内の単語の表記長にもかかわ
らず、入力文字列と単語辞書内の１つの単語との照合が
２クロック程度の間に行えることの効果が大きい。

また、検索キーが１種類に限定されず、複数種類の検索
キーを切り換えて照合が可能である。しかも、複数種類
の検索キーを用いることによる単語辞書容量の無駄な増
加は発生しない、そして、いずれの種類の検索キーにつ
いても、検索の高速性は保たれている。さらに、本発明
では、検索キーの種類ごとにキー長が異なっていても残
余記号が付加されるようにしているので、検索キーの各
種類に最適のデータ中のメモリで足り、最長のキーにデ
ータ中をそろえるというような無駄が生じない。

また、本発明の各構成要素は、少数のロジックＩＣを組
み合わせて実現できる。したがって、ＬＳＩ技術を利用
すれば、非常に小型の装置とじて実現でき一６点も長所
である。それに加えて、第１の従来技術のように、汎用
計算機上のソフトウェアとして実現されるのではなく、
専用ハードウェア・特殊ＬＳＩとして実現できるため、
クロックの周波数自体を、汎用計算機に比べてかなり高
く設定することが可能であり、この点でも高速性が優れ
ている。

以上のような高速性から、本発明では、前述の第１の従
来技術のように単語辞書内で照合する単語数を制限せず
に、単語辞書内の全単語との照合を行なっても、従来よ
り十分高速な単語辞書検索装置が得られる。この結果、
単語辞書内が見出しのコード順にソートされている必要
がないという長所も生ずる。したがって、単語の追加・
削除が行なわれても、単語辞書を編成し直す必要がなく
、単語辞書のメンテナンスがきわめて容易である。

【図面の簡単な説明】

第１図は本発明の第１の実施例の構成を示すブロック図
、第２図は第２の実施例の構成を示すブロック図、第３
図は第３の実施例の構成を示すブロック図、第４図は第
４の実施例の構成を示すブロック図、第５図は単語辞書
メモリ１の内容の例を示す図、第６図はコントローラ７
の入出力信号のタイムチャート、第７図はシフトレジス
タ２の構成例を示す図、第８図・第９図は比較回路３の
構成例を示す図、第１０図は判定回路６の構成例を示す
図、第１１図（ａ）〜（１）は漢字かな混じり文字列の
入力に対するシフトレジスタ２の内容の変化の例を示す
図、第１２図（ａ）〜（１）はかな文字列の入力に対す
るシフトレジスタ２の内容の変化の例を示す図、第１３
図は単語辞書メモリ１と付加情報メモリ９の対応を示す
図である。１・・・単語辞書メモリ、２・・・シフトレジスタ（第
１候補シフトレジスタ）、３・・・比較回路（ｊ文字目
比較回路）、４・・・アドレスカウンタ、５・・・入力
装置、６・・・判定回路、７・・・コントローラ、８・
・・スイッチ、９・・・付加情報メモリ、１０・・・出
力レジスタ、１１・・・セレクタ、１２・・・残余記号
発生器、３０・・・一致信号、５０・・・入力り口・／
り、６０・・・検出タロツク、７０・・・シフトクロック、１・・・カランタフロック、７２・・・判定クロック、８０・・・選択信号。

Claims

【特許請求の範囲】

各文字に対して第１から第ｍ候補（ｍはｍ≧１なる整数
）までのｍ種類の候補が存在する文字列を入力する入力
装置と、ｎ文字（ｎはｎ≧１なる整数）以下のｐ文字分
（ｐは１≦ｐ≦ｎなる整数）のデータ巾をもつ各アドレ
スに見出しを１個ずつ格納して該データ巾に満たない部
分にはあらかじめ定めた残余記号を詰めて構成され見出
しの種類に応じて区分されたｓ種類（ｓはｓ≧１なる整
数）の単語辞書メモリと、前記ｓ種類の単語辞書メモリ
のうちデータ巾がｎ文字に満たないものについて該デー
タ巾とｎ文字との差分の前記残余記号を発生する残余記
号発生器と、前記入力装置によって１文字に対するｍ種
類の候補が入力されるたびに１回のシフトクロック並び
に前記単語辞書メモリ内の全単語数に応じた回数の判定
クロック及びカウンタクロックを発生するコントローラ
と、前記シフトクロックに同期したリセットと前記カウ
ンタクロックに同期したカウントアップとを行なう前記
ｓ種類の単語辞書メモリに共通のアドレスカウンタと、
前記入力装置によって入力された文字列の第１・第２・
・・・・・・・第ｍ候補に対応し前記シフトクロックに
同期した１文字ずつの順送りを行なう各々ｎ文字分の第
１・第２・・・・・・・・第ｍ候補シフトレジスタと、
前記ｓ種類の単語辞書メモリの１つを選択するスイッチ
と、前記スイッチで選択された単語辞書をメモリから読
み出されるデータと該単語辞書メモリのデータ巾がｎ文
字に満たない場合に対応する前記残余記号発生器の発生
するデータとを合わせたｎ文字分のデータの１文字目・
２文字目・・・・・・・・ｎ文字目に対応し該当位置の
文字が前記第１・第２・・・・・・・・第ｍシフトレジ
スタのいずれかの同位置の文字または前記残余記号に一
致したとき一致信号を出力する１文字目・２文字目・・
・・・・・・ｎ文字目比較回路と、前記判定クロックに
同期して前記１文字目・２文字目・・・・・・・・ｎ文
字目比較回路のすべてから一致信号が検出された場合に
前記入力装置によって入力された文字列中に前記単語辞
書メモリ内に存在する単語が出現したと判定する判定回
路とを備えたことを特徴とする単語辞書検索装置。