JP2526678B2

JP2526678B2 - 単語辞書検索装置

Info

Publication number: JP2526678B2
Application number: JP1250039A
Authority: JP
Inventors: 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-09-25
Filing date: 1989-09-25
Publication date: 1996-08-21
Anticipated expiration: 2011-08-21
Also published as: JPH03110675A

Description

【発明の詳細な説明】（産業上の利用分野）本願発明は、入力文字列と単語辞書とを照合して、入
力文字列において、単語辞書内に存在する単語が出現し
た部分を検索する単語辞書検索装置に関するものであ
る。ただし、入力文字列は、各文字が複数の候補をもつ
場合と、１個しかもたない場合がある。また、単語辞書
検索に置ける検索キーは、単語の表記（漢字かな混じり
文字列）の場合と、読みがな（かな文字列）の場合が多
い。

入力文字列の各文字に複数の候補がなく一意な場合の
単語辞書検索装置は、かな漢字変換装置においてキーボ
ードから入力されたかな文字列に対する単語辞書検索を
行なう部分や、機械翻訳装置・文音声変換装置・文章校
正装置などにおいてワードプロセッサなどで作成された
漢字かな混じり文字列に対する単語辞書検索を行なう部
分などに用いられている。前者は検索キーが読みがな
で、後者は検索キーが表記である。

入力文字列の各文字に複数の候補がある場合の単語辞
書検索装置は、音声認識装置や文字認識装置などにおい
て、認識結果の複数の候補文字から最も確からしい文字
を選択するための単語辞書検索部などに用いられてい
る。音声認識の場合は検索キーが読みがな（音節）で、
文字認識の場合は検索キーが表記である。

（従来の技術）従来、かな漢字変換装置・文音声変換装置などにおい
て用いられている単語辞書検索方式は、基本的に、文
献：「計算機によるカナ漢字変換」（相沢・江原、NHK
技術研究、第25巻第５号、23頁〜60頁、1973年）に示さ
れている方式を引き継いでいる。すなわち、入力された
文字列から部分文字列を切り出して、その部分文字列に
表記（かな漢字変換では「かな表記」すなわち「読みが
な」）の一致する単語を単語辞書内から検索するという
処理を行なう（これを、以下では、第１の従来技術と呼
ぶことにする）。

第１の従来技術では、例えば、「文章を解析する」と
いう漢字かな混じり文字列に対する単語辞書検索を行な
う場合は、１文字目・２文字目など各文字位置から始ま
る単語を検索するために、「文章を解析する」「章を解
析する」「を解析する」「解析する」「析する」「す
る」「る」といった部分文字列を別々に切り出す。そし
て、各部分文字列について、さらに、末尾を削った部分
文字列も生成して、その各々を単語辞書から検索する。
すなわち、１文字目から始まる単語を検索する際には、
「文章を解析する」「文章を解析す」「文章を解析」
「文章を解」「文章を」「文章」「文」といった部分文
字列に関して、検索を次々に繰り返し、２文字目から始
まる単語を検索する際には、「章を解析する」「章を解
析す」「章を解析」「章を解」「章を」「章」といった
部分文字列に関して、検索を次々に繰り返すわけであ
る。その結果、下線を引いた部分文字列などについて、
表記の一致する単語が見つかることになる。

この第１の従来技術では、上述のように、複数の部分
文字列に対して単語辞書の検索を繰り返すわけである
が、単語辞書の構成を工夫しておくことによって、１つ
の部分文字列に対する検索の所定時間の短縮を図ってい
る。例えば、単語辞書内の単語をあらかじめソートして
おいて二分検索を行なったり、１文字目・２文字目など
文字ごとに分割して共通な部分をまとめて木構造として
１文字ずつの照合を行なうなどである。このような辞書
の構造と検索方式の工夫については、文献：“The Art
of Computer Programming 3:Sorting and Searching"
（D.E.Knuth,Addison−Wesley,1973）に多く示されてい
る。

ただし、この第１の従来技術は、コンピュータ上の逐
次型プログラムとしての実現を想定しており、所要時間
短縮の工夫は逐次処理の枠内での工夫である。したがっ
て、入力文字列のある部分文字列と単語辞書内のある単
語の表記の文字列とを比較する処理などは、１文字ずつ
逐次行なわれる。例えば、「文章を」という部分文字列
と単語辞書内の「文章」という単語の比較は、「文」と
「文」とを照合し、一致したところで「章」と「章」と
を照合し、次に、「を」に対して不一致となり失敗する
というように、１文字ずつ照合処理の繰り返しである。

また、第１の従来技術では、入力文字列の各文字にｍ
個ずつ候補があるような場合は、あらかじめ、長さＬの
部分文字列に対して、候補を組み合わせたm^L通りの文字
列を生成する必要がある。そして、それらの各々につい
て、さらに、上記のように末尾を削った部分文字列を生
成して、単語辞書内を検索することになる。

一方、ある長さＬの文字列と入力文字列との比較の際
に、１文字ずつの照合を繰り返すのではなく、対応する
文字位置のＬ組の照合を同時に行なうことが考えられて
いる（以下、第２の従来技術と呼ぶ。）その際、入力文
字列をシフトレジスタに格納しておけば、照合の位置を
ずらすことが、入力文字列から再度部分文字列を切り出
すのではなく、シフトレジスタ内の全文字を一度に１文
字ずらすことで実現できるようになる。この第２の従来
技術では、特開昭63−261421号公報「文字列処理装置」
および特開昭63−261422号公報「文字列照合装置」に述
べられている。なお、この第２の従来技術では、入力文
字列に複数の候補は存在せず、検索される文字列も１通
りに限られるもので単語辞書のように多数ではない。特
開昭62−67636号公報「照合方式」および文献：「音声
日本語入力システムにおける高速な言語処理のための辞
書照合アルゴリズム」（浜口・鈴木・電子情報通信学会
論文誌、第J70−Ｄ巻第８号、1589頁〜1596頁、1987
年）には、第３の従来技術が示されている。

この第３の従来技術では、入力文字列に複数の文字候
補があることを想定している。まず、文字の種類をＭ
（例えば、JISの文字コード表では、ひらがなについて
Ｍ＝83）とすると、１文字目・２文字目など各文字位置
に、Ｍビットのメモリを１個ずつ用意し、複数の候補文
字に対応する各ビットを１にしておく、そして、照合時
は、単語辞書内の各単語について、単語の表記の１文字
目・２文字目などに文字位置ごとに、対応するＭビット
メモリから、対応する文字のビット内容（１または０）
を同時に読み出す。すべてのＭビットメモリから１が読
み出されたら、入力文字列中に単語辞書内にある単語が
出現したことになる。

以上の第１〜第３の従来技術では、単語辞書を検索す
る際の検索キーを１種類しか設けていない。しかし、文
書処理システムでは、単語辞書検索の際に、複数の検索
キーを設定する必要が生ずることがある。例えば、文
献：「日本語文章作成支援システムCOMET−文章解析応
用の統合化方式を中心に−」（福島・大山、情報処理学
会・文章処理とヒューマンインタフェース研究会、20−
２、1988年）では、かな漢字変換、文音声変換、文章校
正などのアプリケーションを統合化したシステムが述べ
られている。上記の文献では、かな漢字変換用の単語の
読みがなを検索キーとして単語の表記を得る辞書と、文
音声変換、・文章校正用の単語の表記を検索キーとして
単語の読みがなを得る辞書という、２種類の独立した単
語辞書を用いている（以下では、これを、第４の従来技
術と呼ぶことにする）。そして、その各々については、
第１の従来技術の手法を適用している。したがって、単
語の読みがなと表記とは、２つの辞書の両方に重複して
登録されていることになる。

これに対して、１つの単語辞書を、単語の読みがなで
も表記でも検索できるようにしたのが、以下に述べる第
５・第６の従来技術である。

第５の従来技術では、単語の表記を検索キーとした第
１の従来技術にもとづく単語辞書と、漢字読み表とを利
用する。漢字読み表は漢字１文字の読み方を登録した表
であり、単語辞書の単語の表記を漢字読み表で展開し
て、単語の読みがなを生成しながら検索する。特開昭62
−212876号公報「かな漢字相互変換装置」や特開昭62−
224859「日本語処理方式」などに、その手法が述べられ
ている。

第６の従来技術では、ポインタを利用して、２通りの
検索キーについて第１の従来技術の手法が適用できるよ
うな単語辞書構成をとる。すなわち、第４の従来技術の
重複した内容の部分を、ポインタで置き換えたものであ
る。特許公告昭63−4225「電子辞書」では、第４の従来
技術における２つの単語辞書の一方のすべてをポインタ
の集合と置き換えている。特開昭63−157266（特願昭61
−307412）「単語辞書構成方式」では、第４の従来技術
における２つの単語辞書の検索キーが、相互にポインタ
で参照し合う形態となっている。

（発明が解決しようとする課題）まず、１種類の検索キーに関する従来技術の課題を述
べる。

第１の従来技術には、第１に、前述のように、多数の
部分文字列に対する単語辞書検索を繰り返さねばならな
いという欠点がある。この欠点は、入力文字列の各文字
に複数の候補がある場合に、特に顕著になる。長さＫの
入力文字列の各文字にｍ個ずつ候補がある場合、最長の
部分文字列の長さＬとすると（通常、単語辞書内の最長
の単語の長さをＬとする。）、最大（m^L×Ｌ×Ｋ）個の
部分文字列に対する検索を繰り返す必要が生ずる。通
常、あらかじめ条件を定めて、不要な部分文字列の検索
を避けるようにするので、（m^L×Ｌ×Ｋ）個というのは
最悪の場合であるが、それでも検索の回数はかなり多く
なる。

第１の従来技術の第２の欠点は、ある部分文字列と単
語辞書内のある単語の表記の文字列と比較を、１文字ず
つ順に行なうため、比較に時間がかかるということであ
る。

第２の従来技術では、第１の従来技術の第２の欠点に
対処している。しかし、第２の従来技術は、入力文字列
に複数の候補がある場合に適用できない。また、検索さ
れる文字列も１通りに限られ、単語辞書のように多数の
文字列と比較を行なうことを考えると、単語辞書内の各
単語の表記の長さの異なりが問題となって適用できな
い。

第３の従来技術は、第１の従来技術の２つの欠点に対
処している。しかし、入力文字列を記憶するために、文
字の種類だけのビット数をもったメモリを、文字列長だ
け用意する必要があるので、文字の種類が多数の場合は
メモリサイズがかなり大きくなってしまう問題がある。
かな漢字変換や音声認識の場合は、入力文字列がひらが
な（あるいは音素文字）で100種類程度に限定されるの
で、あまり問題にならないが、漢字かな混じり文字列を
対象とした文音声変換や機械翻訳など場合は、漢字を含
み文字の種類が3000〜4000種類にもおよぶので、メモリ
が大きくなって問題になる。

また、第３の従来技術では、入力された文字列の先頭
から始る単語の検索しか行なわないため、２文字目から
始まる単語や、３文字目から始まる単語などを検索する
場合には、入力文字列のメモリへの登録を、やり直す必
要が生じるという問題もある。

次に、検索キーを複数設けた場合の従来技術の課題を
述べる。

第１〜第３の従来技術では、検索キーはただ１種類と
考えられている。したがって、複数の検索キーを設けよ
うとすると、第４の従来技術と同様に、検索キーごとの
単語辞書を用意することになる。その場合、複数の単語
辞書に情報が重複して登録されることになり、無駄が多
い構造となる。

第５・第６の従来技術では、この重複の無駄をなくし
ているが、次のような問題点がある。まず、第５の従来
技術では、単語の読みがなを検索キーとした検索の場
合、漢字読み表で展開して見出しを生成しながら照合を
行なうといった複雑な処理を行なう上に、本来の単語の
読みがな以外の見出しも生成されてしまうので、処理量
が多く、結果として処理時間が増大する。次に第６の従
来技術では、ポインタで関係を管理しているため、項目
（単語）の追加・削除の際に、その関係が壊れないかを
チェックする必要が発生し、単語辞書のメンテナンス作
業の労力が大きくなる。また、ポインタに置き換えるこ
とにより、見かけ上の情報の重複はなくなっているが、
代わりにポインタ領域がとられることになり、実質的な
辞書内容の面では、第４の従来技術と同様に無駄が多
い。

本発明の目的は、上記のような従来技術の欠点を除去
し、入力文字列の各文字に複数の候補があっても、高速
に単語辞書との照合が可能な単語辞書検索装置であっ
て、しかも、複数の検索キーを設けても、容量の面で無
駄のある構造をとることなく、高速性を保てる単語辞書
検索装置を提供することである。

（課題を解決するための手段）本願の第１の発明の単語辞書検索装置は、各文字に対
して第１から第ｍ候補（ｍはｍ≧２なる整数）までのｍ
種類の候補が存在する文字列を入力する入力装置と、ｎ
文字分（ｎはｎ≧１なる整数）のデータ巾をもつ各アド
レスに見出しを１個ずつ格納してｎ文字に満たない部分
にあらかじめ定めた残余記号を詰めて構成され見出しの
種類に応じて区分されたｓ種類（ｓはｓ≧２なる整数）
の単語辞書メモリ登録単語数≧２）と、前記入力装置に
よって１文字に対するｍ種類の候補が入力されるたびに
１回のシフトクロック並びに前記単語辞書メモリ内の全
単語数に応じた回数の判定クロック及びカウンタクロッ
クを発生するコントローラと、前記シフトクロックに同
期したリセットと前記カウンタクロックに同期したカウ
ントアップとを行なう前記ｓ種類の単語辞書メモリに共
通のアドレスカウンタと、前記入力装置によって入力さ
れた文字列の第１・第２・…・第ｍ候補に対応し前記シ
フトクロックに同期した１文字ずつの順送りを行なう各
々ｎ文字分の第１・第２・…・第ｍ候補シフトレジスタ
と、前記ｓ種類の単語辞書メモリの１つを選択するスイ
ッチと、前記スイッチで選択された単語辞書メモリから
読み出されるｎ文字分のデータの１文字目・２文字目・
…・ｎ文字目に対応し該当位置の文字が前記第１・第２
・…・第ｍ候補シフトレジスタのいずれかの同位置の文
字または前記残余記号に一致したとき一致信号を出力す
る１文字目・２文字目・…・ｎ文字目比較回路と、前記
判定クロックに同期して前記１文字目・２文字目・…・
ｎ文字目比較回路のすべてから一致信号が検出された場
合に前記入力装置によって入力された文字列中に前記単
語辞書メモリ内に存在する単語が出現したと判定する判
定回路とを備える。

本願の第２の発明の単語辞書検索装置は、各文字に対
して第１から第ｍ候補（ｍはｍ≧２なる整数）までのｍ
種類の候補が存在する文字列を入力する入力装置と、ｎ
文字文（ｎはｎ≧１なる整数）のデータ巾をもつ各アド
レスに見出しを１個ずつ格納してｎ文字に満たない部分
にあらかじめ定めた残余記号を詰めて構成され見出しの
種類に応じて区分されたｓ種類（ｓはｓ≧２なる整数）
の単語辞書メモリ（登録単語数≧２）と、各アドレスに
単語に関する前記ｓ種類の見出し以外の付加情報を格納
した付加情報メモリと、前記入力装置によって１文字に
対するｍ種類の候補が入力されるたびに１回のシフトク
ロック並びに前記単語辞書メモリ内の全単語数に応じた
回数の判定クロック及びカウンタクロックを発生するコ
ントローラと、前記シフトクロックに同期したリセット
と前記カウンタクロックに同期したカウントアップとを
行なう前記ｓ種類の単語辞書メモリと前記付加情報メモ
リとに共通のアドレスカウンタと、前記入力装置によっ
て入力された文字列の第１・第２・…・第ｍ候補に対応
し前記シフトクロックに同期した１文字ずつの順送りを
行なう各々ｎ文字分の第１・第２・…・第ｍ候補シフト
レジスタと、前記ｓ種類の単語辞書メモリの１つを選択
するスイッチと、前記スイッチで選択された単語辞書メ
モリから読み出されるｎ文字分のデータの１文字目・２
文字目・…・ｎ文字目に対応し該当位置の文字が前記第
１・第２・…・第ｍ候補シフトレジスタのいずれかの同
位置の文字または前記残余記号に一致したとき一致信号
を出力する１文字目・２文字目・…・ｎ文字目比較回路
と、前記判定クロックに同期して前記１文字目・２文字
目・…・ｎ文字目比較回路のすべてから一致信号が検出
された場合に前記入力装置によって入力された文字列中
に前記単語辞書メモリ内に存在する単語が出現したと判
定する判定回路と前記判定回路により出現が検出された
単語について前記スイッチで選択された単語辞書メモリ
以外の単語辞書メモリ内と前記付加情報メモリ内とを選
別出力するセレクタとを備える。

（実施例）図面を用いて、本願発明の構成・作用を説明する。

第１図は本願の第１の発明の単語辞書検索装置の第１
の実施例の構成を示すブロック図である。以下、まず、
各構成要素を説明する。

入力装置５は、各文字に対して第１の候補から第ｍ候
補（ｍはｍ≧２なる整数）までのｍ種類の候補が存在す
る文字列を入力する装置であり、例えば、音声認識装置
や文字認識装置などである。入力装置５は、各文字に対
するｍ個の候補を同時に出力し、その出力のタイミング
を入力クロック50によってコントローラ７へ伝える。

単語辞書メモリ１は、ｎ文字分（ｎはｎ≧１なる整
数）のデータ巾をもつ各アドレスに見出しを１個ずつ格
納し、ｎ文字に満たない部分にはあらかじめ定めた残余
記号を詰めて構成されたものである。この単語辞書メモ
リ１を、見出しの種類の異なるｓ種類（ｓはｓ≧２なる
整数）だけ設ける。以下、ｓ種類の単語辞書メモリ１
を、第１の単語辞書メモリ、第２の単語辞書メモリ、…
……、第ｓの単語辞書メモリとする。ちなみに、第１図
ではｓ＝２としている。第１の単語辞書メモリは単語の
読みがなを見出しとしたものであり、第２の単語辞書メ
モリは第２の表記を見出しとしたものである。他にも単
語の英表記を見出しとしたものなども考えられる。ｓ種
類の単語辞書メモリについて、同一のアドレスには同一
の単語に対する見出しを格納するものとする。ただし、
この第１の実施例では、単語の出現のみを判定するの
で、必ずしも、同一アドレスが同一単語に対応してなく
とも動作する。さらに単語辞書メモリ内の単語の並び
は、ソートされている必要はない。

第５図は、単語辞書メモリ１の内容の例を示す図であ
る。第５図（ａ）は第１の単語辞書メモリの内容の例、
第５図（ｂ）は第２の単語辞書メモリの内容の例であ
る。いずれもｎ＝６としている。なお、Δが残余記号を
表している。第５図（ａ）の第１の単語辞書メモリのア
ドレスａとすると、「にほんΔΔΔ」というｎ（＝６）
文字が同時に読み出される。同じアドレスに対して、第
５図（ｂ）の第２の単語辞書メモリからは、「日本ΔΔ
ΔΔ」というｎ（＝６）文字が同時に読み出される。単
語辞書メモリ１は、ICメモリなどを用いて実現できる。
通常、日本語の文字コードは16ビットで表現されるの
で、第５図のデータ巾は16×６＝96ビットである。現在
のICメモリでは、同時に読み出されるデータ巾が８ビッ
ト程度であるから、第５図の各単語辞書メモリは、その
ようなICメモリを12個並列に並べて実現できる。

コントローラ７は、入力装置５によって１文字に対す
るｍ種類の候補が入力されるたびに、１回のシフトクロ
ック並びに、単語辞書メモリ１内の全単語数に応じた回
数の判定クロックおよびカウンタクロックを発生する。
第６図は、コントローラ７の入力信号のタイムチャート
の例である。第６図のタイムチャートでは、入力装置５
から入力クロック50が入力されるたびに、まず、シフト
クロック70を１回出力する。本実施例では入力クロック
50をそのままシフトクロック70として出力している。続
いて、判定クロック２とカウンタクロック71とを交互に
Ｎ回出力している。ただし、カウンタクロック71は（Ｎ
−１）回でもよい。ここで、Ｎは単語辞書メモリ１内の
全単語数である。このようなタイムチャート通りに動作
するコントローラ７は、当業者において容易に実現可能
である。

アドレスカウンタ４は、シフトクロック70に同期した
リセットと、カウンタクロック71に同期したカウントア
ップとを行なうカウンタで、カウンタ値をｓ種類の単語
辞書メモリ１の共通のアドレス値として出力する。アド
レスカウンタ４は従来のカウンタICで実現できる。

第ｉ候補シフトレジスタ２は、入力装置５によって入
力された文字列の第ｉ候補（ｉは１≦ｉ≦ｍなる整数）
を、シフトクロック70に同期して１文字ずつ順送りしな
がら、ｎ文字分格納するシフトレジスタである。このシ
フトレジスタ２は、入力文字列の各文字に対するｍ個の
候補の各々に対して設けられており、第１の候補シフト
レジスタ、第２候補シフトレジスタ、………、第ｍ候補
シフトレジスタのｍ個がある。第７図は、各シフトレジ
スタ２の構成例を示した図である。１も字をｄビットで
実現している場合、第ｉ候補シフトレジスタ２は、第７
図のように、シフトクロック70に同期した（ｄ×ｎ）個
のＤフリップフロップで実現できる。すなわち、ｄ個並
列に並べたものを、ｎ個直列に接続する。並列に接続し
たｄ個が１文字に対応し、その出力は各文字目毎にまと
めて比較回路３へ送られる。

スイッチ８は、ｓ種類の単語辞書メモリ１の１つを選
択する手段である。選択された単語辞書メモリに対応す
る値を選択信号80として出力する。例えば、ｓ＝２の場
合は、選択信号線を１ビット用意し、その値が０のとき
第１の単語辞書メモリ、値が１のとき第２の単語辞書メ
モリに対応させればよい。一般に、選択信号線は、logs
ビット必要になる。このスイッチ８は、トグルスイッ
チ、ディップスイッチなどで実現できる。なお、入力装
置５から入力されるテキストの文字コードに応じて、切
り換えるようなスイッチ８の構成も可能である。

ｊ文字目比較回路３は、アドレスカウンタ４の示す１
つのアドレスに対して、スイッチ８で選択された単語辞
書メモリ１から読み出されるｎ文字分のデータ中のｊ番
目（ｊは１≦ｊ≦ｎなる整数）の文字が、ｍ個のシフト
レジスタ２のｊ番目の文字のいずれか、または、残余記
号に一致したときに、一致信号を出力する回路である。
この比較回路３は、単語辞書メモリ１のデータ巾ｎ文字
の各々に対応した数だけ設けられており、１文字目比較
回路、２文字目比較回路、………、ｎ文字目比較回路の
ｎ個がある。第８図はｊ文字目比較回路３の構成例を示
した図である。１も字をｄビットで表現して、シフトレ
ジスタ２がｍ個設けられている場合、ｊ文字目比較回路
３は、第８図のように、（ｍ＋１）個のｄビット比較器
と、１個のORゲートと、１個のｄビットセレクタとで構
成できる。ｄビットセレクタは、選択信号80にしたがっ
て、ｓ個の単語辞書メモリから読み出されたｓ種類のｊ
文字目データのうちの１つを選択する（第８図ではｓ＝
２としてある）。ｎ個のｄビット比較器はｄビッチセレ
クタで選択された文字と各シフトレジスタ２のｊ文字目
とを比較する。一方、残りの１個のｄビット比較器はｄ
ビットセレクタで選択された文字が残余記号であるか否
かを調べる。最終的なORゲートの出力では、この（ｍ＋
１）個の比較器のいずれかで一致が検出されたときに、
一致信号30が出力される。さらに、第９図はｊ文字目比
較回路３の別の構成例を示した図である。第９図の構成
では、各単語辞書メモリから読み出されたｊ文字目ごと
に、（ｍ＋１）個のｄビット比較器でｍ個のシフトレジ
スタのｊ文字目および残余記号との比較を行ない、その
結果を１ビットセレクタで選択して出力する。

判定回路６は、判定クロック２に同期して、ｎ個の比
較回路３のすべてから一致信号が検出された場合に、入
力装置５によって入力された文字列中に単語辞書メモリ
１内に存在する単語が出現したと判定する回路である。
第10図は、判定回路６の構成例を示す図である。判定回
路６は、第10図のように、１個のANDゲートと１個のＤ
フリップフロップで実現できる。

次にこの実施例の動作を例を用いて説明する。

第11図・第12図（ａ）〜（ｌ）は、単語辞書メモリの
データ巾ｎ＝６、候補数ｍ＝３で、入力文字列の長さが
６のとき、第１の候補シフトレジスタ・第２候補シフト
レジスタ・第３候補レジスタの内容の変化の例を示した
図である。第11図は、入力装置５として文字認識装置が
用いられ、漢字かな混じり文字列が入力された場合の一
例である。また、第12図は、入力装置５として音声認識
装置が用いられ、かな文字列が入力された場合の一例で
ある。第11図・第12図ともに、３×６のマトリックス
は、１行が各シフトレジスタ２の内容に対応しており、
行方向が文字位置（１〜６）、列方向が候補レベル（１
〜３）を表わしている。例えば、第11図の例でシフトレ
ジスタ２に入力されている文字列は、１文字目の候補は
第１候補から順に「日」「白」「目」、２文字目の候補
は順に「木」「本」「大」、３文字目は順に「語」
「話」「詰」、４文字目は順に「の」「め」「つ」、５
文字目は順に「丈」「又」「文」、６文字目は順に
「章」「草」「早」である。斜線部分は文字が格納され
ていないことを表わす。

第11図のような入力文字列（入力装置５が文字認識装
置の場合）に対しては、第５図（ｂ）のような単語の表
記を見出しとして単語辞書検索処理を行なうように、ス
イッチ８を設定する。すなわち、第２の単語辞書メモリ
（表記を見出しとしたとき単語辞書メモリ）を選択す
る。

そのとき、第11図において、（ａ）→（ｂ）→（ｃ）
→（ｄ）→（ｅ）→（ｆ）→（ｇ）→（ｈ）→（ｉ）→
（ｊ）→（ｋ）→（ｌ）という変化は、シフトクロック
70が１回発生されるたびに起こる変化を示している。そ
して、（ａ）〜（ｋ）の各々の状態で、カウンタクロッ
ク71と判定クロック72が全単語数Ｎと同じＮ回発生され
る。アドレスカウンタ４は、シフトクロック70によって
リセットされ、カウンタクロック71によってＮ回カウン
トアップされるため、各状態で、単語辞書メモリ１から
は、先頭の単語から末尾の単語まで順に、全単語（Ｎ
個）の表記が読み出される。そして、ｎ個（この例では
６個）の比較回路３において、スイッチ８によって選択
され単語辞書メモリ１の全見出しと、第11図のシフトレ
ジスタの内容との照合が行なわれることになる。

その結果、各状態では、第２の単語辞書メモリ１内の
例えば次のような単語（見出し）に対して、判定回路６
の出現を検出する。

（ａ）該当なし（ｂ）該当なし（ｃ）該当なし（ｄ）該当なし（ｅ）該当なし（ｆ）「日」「白」「目」「日本」「日大」「白木」
「日本語」（ｇ）「木」「本」「大」「大詰め」（ｈ）「語」「話」「詰め」（ｉ）「の」「め」「つ」（ｊ）「丈」「又」「文」「文章」（ｋ）「章」「草」「早」このうち、状態（ｆ）における第７図のシフトレジス
タ２の内容と、第２図の単語辞書メモリ１内の見出し
「日本」（＝「日本ΔΔΔΔ」）とを照合する際の、各
比較回路３の動作を説明する。１文字目比較回路は、
「日本ΔΔΔΔ」の「日」と第１候補シフトレジスタの
１文字目の「日」との一致により一致信号30を発生す
る。２文字目比較回路は、「日本ΔΔΔΔ」の「本」と
第２候補シフトレジスタの２文字目の「本」との一致に
より一致信号30を発生する。３文字目比較回路から６文
字目比較回路までは、「日本ΔΔΔΔ」の「Δ」（残余
記号）を検出して一致信号30を発生する。その結果、判
定回路６は、すべての比較回路３の一致信号30を受け
て、単語の出現を検出することになる。

さて、第12図のような文字列が入力される場合（入力
装置５が音声認識装置の場合）には、第５図（ａ）のよ
うな単語の読みがなを見出しとして単語辞書検索処理を
行なうように、スイッチ８を切り換える。すなわち、第
１の単語辞書メモリ（読みがなを見出しとした単語辞書
メモリ）を選択し直す。そして、同様に、１文字ずつ順
送りしながら、その度に、第１の単語辞書メモリ１の全
見出しとシフトレジスタ２の内容とを照合する。その結
果、各状態で検出される第１の単語辞書メモリ内の単語
（見出し）は、例えば、次のようなものである。

（ａ）該当なし（ｂ）該当なし（ｃ）該当なし（ｄ）該当なし（ｅ）該当なし（ｆ）「に」「い」「り」「にお」「にほん」「いは
ん」「いほう」「いおん」「いおう」（ｇ）「は」「お」「はん」「ほん」「ほほ」「ほう」
「おん」「おう」「はんぐ」「ほんぶ」「おんぶ」「は
んぐん」「はんぶん」「ほんぶん」「おうぼう」（ｈ）「ん」「う」「ほぐ」「ほぼ」「ほぶん」（ｉ）「ぐ」「ぶ」「ぼ」「ぐん」「ぶん」「ぼん」
「ぐんか」「ぶんか」（ｊ）「ん」「う」「ほか」（ｋ）「か」「く」「が」なお、入力文字列長がｋの場合、シフトレジスタ２内
の順送りは、少なくとも（ｋ＋ｎ−１）回行なわれる必
要がある。したがって、入力装置５は、長さｋの入力文
字列を入力した後、さらに、（ｎ−１）回のダミーの文
字列入力を行なう必要がある。あるいは、コントローラ
７が、入力文字列の末尾を検出して、さらに、シフトク
ロック70を１回カウンタクロック71と判定クロック72を
Ｎ回ずつというサイクルを、（ｎ−１）回繰り返すよう
にしてもよい。

また、最初の（ｎ−１）回の順送りの間（第11図・第
12図では（ａ）から（ｅ）まで）は、入力文字列がシフ
トレジスタ２の先頭まで到達していないので、単語辞書
メモリ１との照合を行なっても意味がない。そこで、そ
の間は、コントローラ７は、カウンタクロック71や判定
クロック72を発生せず、シフトクロック70のみを連続し
て発生するようにしてもよい。

以上に示したように、この第１の実施例では、入力装
置５として、文字認識装置を用い表記を見出しとした単
語辞書検索を行なう場合、音声認識装置を用いて読みが
なを見出しとした単語辞書検索を行なう場合、スイッチ
を切り換えるだけで共通に適用できる。

第２図は、第２の実施例の構成を示すブロック図であ
る。第１の実施例では、単語の出現を検出するのみであ
ったが、第２の実施例では、検出された単語に関する情
報を出力する。第２の実施例は、第１図にその構成を示
した第１の実施例に、付加情報メモリ９と出力レジスタ
10を追加したものである。

ここで、付加情報メモリ９は、ｓ種類の単語辞書メモ
リ１の見出し以外の付加情報を格納したメモリである。
例えば、単語の品詞、アクセント、意味分類、表記長、
読み長などを収める。付加情報メモリ９では、単語辞書
メモリ１の単語と同一のアドレスに、それら付加情報を
格納する。第13図は、単語辞書メモリ１と付加情報メモ
リ９の内容の対応例を示した図である。ただし、付加情
報としては品詞しか登録していない。アドレスａは、表
記が「日本」、読みがなが「にほん」、品詞が固有名詞
である単語に対応している。アドレスカウンタ４は、ｓ
種類の単語辞書メモリ１だけでなく、付加情報メモリ９
にも、共通のアドレスを与えるようにする。

出力レジスタ10は、ｓ種類の単語辞書メモリ１と付加
情報メモリ９から読み出される１つの単語に対する全情
報（ｓ種類の見出しの内容と付加情報の内容）を、その
まま判定回路６から出力れる検出クロック60のタイミン
グでラッチする。出力レジスタ10はフリップフロップで
実現されるレジスタである。

ここで、漢字かな混じり文字列のテキストを文字認識
し、さらに、文章解析・音声合成する読書器を考えた場
合、表記を見出しとした単語辞書検索処理の結果とし
て、読みがな・品詞などは必要であるが、表記は出力さ
れる必要はないなぜならば単語辞書検索処理の後で行な
われる音声合成処理では使われないからである。たま、
逆に、音声入力で文章を作成する音声ワードプロセッサ
を考えた場合、読みがなを見出しとした単語辞書検索処
理の結果として、表記・品詞などは必要であるが、読み
がなは出力される必要はない。そこで、第２の実施例の
ように単語の情報をすべて出力するのではなく、検出の
際に用いられた見出しは出力しないようにしたものが、
第３の実施例である。第３図は、この第３の実施例の構
成を示すブロック図である。この第３の実施例は、本願
の第２の発明にもとづくものである。

第３の実施例では、第２図にその構成を示した第２の
実施例の対して、セレクタ11が追加されている。なお、
第１の実施例に対しては、付加情報メモリ９、セレクタ
11、出力レジスタ10が追加されている。

第３図において、セレクタ11は、ｓ種類の単語辞書メ
モリ１の内容（ｓ種類の見出し）のうちスイッチ８で選
択された単語辞書メモリ以外の（ｓ−１）種類の内容
と、付加情報メモリ９の内容とを選別出力する。例え
ば、第２の単語辞書メモリ１がスイッチ８で選択されて
いる際、その第２の単語辞書メモリ１内の見出し「日
本」に対して検出が行なわれたときは、第１の単語辞書
メモリ１の内容「にほん」と付加情報メモリ９の内容
「固有名詞」が出力される。すなわち、「日本」は出力
されない。

以上の第１〜第３の実施例では、入力文字列の各文字
にｍ個の候補が存在する一般的な場合の実施例を示した
が、かな漢字変換における単語辞書検索や、作成した文
章を音声出力するための漢字かな変換における単語辞書
検索などでは、入力文字列の各文字は１通りである（ｍ
＝１）。第３図の実施例においてｍ＝１とした場合の単
語辞書検索装置の例を第４図に示す。第４図は第４の実
施例の構成を示すブロック図である。

第４図の例では、シフトレジスタ２が１個でよい。構
成要素・動作は、これまでに示した実施例について、ｍ
＝１とすればよいので、詳しい説明を省略する。かな漢
字変換の際には、入力されたかな文字列と、第１の単語
辞書メモリ（読みがなを見出しとする単語辞書メモリ）
の見出しとを照合して、検出された単語について、表記
・品詞などが出力される。漢字かな変換の際には、入力
された漢字かな混じり文字列と、第２の単語辞書メモリ
（表記を見出しとする単語辞書メモリ）の見出しとを照
合して、検出された単語について、読みがな・品詞など
が出力される。

なお、見出しによって、１文字を表現するビット数が
異なることがある。例えば、漢字かな混じりの表記の１
文字の表現には、通常、16ビットが必要であるが、読み
がなの１文字は８ビットで表現可能である。そのような
場合に対処する方法の１つは、多いビット数のものに合
わせることである。例えば、読みがなの１文字にも、８
ビット余分なビットを付加して、16ビット割り当てれば
よい。別な対処方法は、公約数のビット数を単位とし
て、有効な区切りのみを利用するものである。例えば、
８ビットを単位として順送りや比較を行ない、表記に関
する照合の場合には、偶数回目の順送りの回だけを有効
とすればよい。なお、読みがなは８ビットなので、毎回
有効である。

（発明の効果）以上に説明したように、本願発明によれば、漢字のよ
うに種類の多い文字から成る文字列に対して、各文字が
複数の候補をもっていても、高速に単語辞書との照合が
可能な単語辞書検索装置が得られる。特に、入力文字列
の各文字の候補数にも、単語辞書内の単語の表記長にも
かかわらず、入力文字列と単語辞書内の１つの単語との
照合が２クロック程度の間に行えることの効果が大き
い。

また、検索キーが１種類に限定されず、複数種類の検
索キーを切り換えて照合が可能である。しかも、複数種
類の検索キーを用いることによる単語辞書容量の無駄な
増加は発生しない。そして、いずれの種類の検索キーに
ついても、検索の高速性は保たれている。

また、本願発明の各構成要素は、少数のロジックICを
組み合わせで実現できる。したがって、LSI技術を利用
すれば、非常に小型の装置として実現できる点も長所で
ある。それに加えて、第１の従来技術のように、汎用計
算機上のソフトウェアとして実現されるのではなく、専
用ハードウェア・特殊LSIとして実現できるため、クロ
ックの周波数自体を、汎用計算機に比べてかなり高く設
定することが可能であり、この点でも高速性が優れてい
る。

以上のような高速性から、本願発明では、前述の第１
の従来技術のように単語辞書内で照合する単語数を制限
せずに単語辞書内の全単語との照合を行なっても、従来
より十分高速な単語辞書検索装置が得られる。この結
果、単語辞書内が見出しのコード順にソートされている
必要がないという長所も生ずる。したがって、単語の追
加・削除が行なわれても、単語辞書を編成し直す必要が
なく、単語辞書のメンテナンスがきわめて容易である。

【図面の簡単な説明】

第１図は本願発明の第１の実施例の構成を示すブロック
図、第２図は第２の実施例の構成を示すブロック図、第
３図は第３の実施例の構成を示すブロック図、第４図は
ｍ＝１とした単語辞書検索装置の例の構成を示すブロッ
ク図、第５図は単語辞書メモリ１の内容の例を示す図、
第６図はコントローラ７の入力信号のタイムチャート、
第７図はシフトレジスタ２の構成例を示す図、第８図・
第９図は比較回路３の構成例を示す図、第10図は判定回
路６の構成例を示す図、第11図（ａ）〜（ｌ）は漢字か
な混じり文字列の入力に対するシフトレジスタ２の内容
の変化の例を示す図、第12図（ａ）〜（ｌ）はかな文字
列の入力に対するシフトレジスタ２の内容の変化の例を
示す図、第13図は単語辞書メモリ１と付加情報メモリ９
の対応を示す図である。１……単語辞書メモリ、２……シフトレジスタ（第ｉ候
補シフトレジスタ）、３……比較回路（ｊ文字目比較回
路）、４……アドレスカウンタ、５……入力装置、６…
…判定回路、７……コントローラ、８……スイッチ、９
……付加情報メモリ、10……出力レジスタ、30……一致
信号、50……入力クロック、60……検出クロック、70…
…シフトクロック、71……カウンタクロック、72……判
定クロック、80……選択信号。

Claims

(57)【特許請求の範囲】

【請求項１】各文字に対して第１から第ｍ候補（ｍはｍ
≧２なる整数）までのｍ種類の候補が存在する文字列を
入力する入力装置と、ｎ文字分（ｎはｎ≧１なる整数）
のデータ巾をもつ各アドレスに見出しを１個ずつ格納し
てｎ文字に満たない部分にあらかじめ定めた残余記号を
詰めて構成され見出しの種類に応じて区分されたｓ種類
（ｓはｓ≧２なる整数）の単語辞書メモリ（登録単語数
≧２）と、前記入力装置によって１文字に対するｍ種類
の候補が入力されるたびに１回のシフトクロック並びに
前記単語辞書メモリ内の全単語数に応じた回数の判定ク
ロック及びカウンタクロックを発生するコントローラ
と、前記シフトクロックに同期したリセットと前記カウ
ンタクロックに同期したカウントアップとを行なう前記
ｓ種類の単語辞書メモリに共通のアドレスカウンタと、
前記入力装置によって入力された文字列の第１・第２・
…・第ｍ候補に対応し前記シフトクロックに同期した１
文字ずつの順送りを行なう各々ｎ文字分の第１・第２・
…第ｍ候補シフトレジスタと、前記ｓ種類の単語辞書メ
モリの１つを選択するスイッチと、前記スイッチで選択
された単語辞書メモリから読み出されるｎ文字分のデー
タの１文字目・２文字目・…・ｎ文字目に対応し該当位
置の文字が前記第１・第２・…・第ｍ候補シフトレジス
タのいずれかの同位置の文字または前記残余記号に一致
したとき一致信号を出力する１文字目・２文字目・…・
ｎ文字目比較回路と、前記判定クロックに同期して前記
１文字目・２文字目・…・ｎ文字目比較回路のすべてか
ら一致信号が検出された場合に前記入力装置によって入
力された文字列中に前記単語辞書メモリ内に存在する単
語が出現したと判定する判定回路とを備えたことを特徴
とする単語辞書検索装置。
【請求項２】各文字に対して第１から第ｍ候補（ｍはｍ
≧２なる整数）までのｍ種類の候補が存在する文字列を
入力する入力装置と、ｎ文字分（ｎはｎ≧１なる整数）
のデータ巾をもつ各アドレスに見出しを１個ずつ格納し
てｎ文字に満たない部分にあらかじめ定めた残余記号詰
めて構成され見出しの種類に応じて区分されたｓ種類
（ｓはｓ≧２なる整数）の単語辞書メモリ（登録単語数
≧２）と、各アドレスに単語に関する前記ｓ種類の見出
し以外の付加情報を格納した付加情報メモリと、前記入
力装置によって１文字に対するｍ種類の候補が入力され
るたびに１回のシフトクロック並びに前記単語辞書メモ
リ内の全単語数に応じた回数の判定クロック及びカウン
タクロックを発生するコントローラと、前記シフトクロ
ックに同期したリセットと前記カウンタクロックに同期
したカウントアップとを行なう前記ｓ種類の単語辞書メ
モリと前記付加情報メモリとに共通のアドレスカウンタ
と、前記入力装置によって入力れた文字列の第１・第２
・…・第ｍ候補に対応し前記シフトクロックに同期した
１文字ずつの順送りを行なう各々ｎ文字分の第１・第２
・…・第ｍ候補シフトレジスタと、前記ｓ種類の単語辞
書メモリの１つを選択するスイッチと、前記スイッチで
選択された単語辞書メモリから読み出されるｎ文字分の
データの１文字目・２文字目・…・ｎ文字目に対応し該
当位置の文字が前記第１・第２・…・第ｍ候補シフトレ
ジスタのいずれかの同位置の文字または前記残余記号に
一致したとき一致信号を出力する１文字目・２文字目・
…・ｎ文字目比較回路と、前記判定クロックに同期して
前記１文字目・２文字目・…・ｎ文字目比較回路のすべ
てから一致信号が検出された場合に前記入力装置によっ
て入力された文字列中に前記単語辞書メモリ内に存在す
る単語が出現したと判定する判定回路と前記判定回路に
より出現が検出された単語について前記スイッチで選択
された単語辞書メモリ以外の単語辞書メモリ内と前記付
加情報メモリ内とを選別出力するセレクタとを備えたこ
とを特徴とする単語辞書検索装置。