JPH0670789B2 - 単語辞書検索装置 - Google Patents
単語辞書検索装置Info
- Publication number
- JPH0670789B2 JPH0670789B2 JP1173442A JP17344289A JPH0670789B2 JP H0670789 B2 JPH0670789 B2 JP H0670789B2 JP 1173442 A JP1173442 A JP 1173442A JP 17344289 A JP17344289 A JP 17344289A JP H0670789 B2 JPH0670789 B2 JP H0670789B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- word dictionary
- input
- word
- clock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力文字列と単語辞書とを照合して、入力文
字列において、単語辞書内に存在する単語が出現した部
分を検索する単語辞書検索装置に関するものである。特
に、入力文字列の各文字が複数の候補をもつような場合
にも適用できる単語辞書検索装置に関するものである。
字列において、単語辞書内に存在する単語が出現した部
分を検索する単語辞書検索装置に関するものである。特
に、入力文字列の各文字が複数の候補をもつような場合
にも適用できる単語辞書検索装置に関するものである。
入力文字列の各文字に複数の候補がなく一意な場合の単
語辞書検索装置は、かな漢字変換装置においてキーボー
ドから入力されたかな文字列に対する単語辞書検索を行
なう部分、機械翻訳装置・文音声変換装置・文章校正装
置などにおいてワードプロセッサなどで作成された漢字
かな混じり文字列に対する単語辞書検索を行なう部分な
どに用いられている。
語辞書検索装置は、かな漢字変換装置においてキーボー
ドから入力されたかな文字列に対する単語辞書検索を行
なう部分、機械翻訳装置・文音声変換装置・文章校正装
置などにおいてワードプロセッサなどで作成された漢字
かな混じり文字列に対する単語辞書検索を行なう部分な
どに用いられている。
入力文字列の各文字に複数の候補がある場合の単語辞書
検索装置は、音声認識装置や文字認識装置などにおい
て、認識結果の複数の候補文字から最も確からしい文字
を選択するための単語辞書検索部などに用いられてい
る。
検索装置は、音声認識装置や文字認識装置などにおい
て、認識結果の複数の候補文字から最も確からしい文字
を選択するための単語辞書検索部などに用いられてい
る。
(従来の技術) 従来、かな漢字変換装置・文音声変換装置などにおいて
用いられている単語辞書検索方式は、基本的に、文献:
「計算機によるカナ漢字変換」(相沢・江原、NHK技術
研究、第25巻第5号、23頁〜60頁、1973年)に示されて
いる方式を引き継いでいる。すなわち、入力された文字
列から部分文字列を切り出して、その部分文字列に表記
(かな漢字変換では「かな表記」すなわち「読みが
な」)の一致する単語を単語辞書内から検索するという
処理を行なう(これを、以下では、第1の従来技術と呼
ぶことにする。) 例えば、「文章を解析する」という漢字かな混じり文字
列に対する単語辞書検索を行なう場合は、1文字目・2
文字目など各文字位置から始まる単語を検索するため
に、「文章を解析する」「章を解析する」「を解析す
る」「解析する」「析する」「する」「る」といった部
分文字列を別々に切り出す。そして、各部分文字列につ
いて、さらに、末尾を削った部分文字列も生成して、そ
の各々を単語辞書から検索する。すなわち、1文字目か
ら始まる単語を検索する際には、「文章を解析する」
「文章を解析す」「文章を解析」「文章を解」「文章
を」「文章」「文」といった部分文字列に関して、検索
を次々に繰り返し、2文字目から始まる単語を検索する
際には、「章を解析する」「章を解析す」「章を解析」
「章を解」「章を」「章」といった部分文字列に関し
て、検索を次々に繰り返すわけである。その結果、下線
を引いた部分文字列などについて、表記の一致する単語
が見つかることになる。
用いられている単語辞書検索方式は、基本的に、文献:
「計算機によるカナ漢字変換」(相沢・江原、NHK技術
研究、第25巻第5号、23頁〜60頁、1973年)に示されて
いる方式を引き継いでいる。すなわち、入力された文字
列から部分文字列を切り出して、その部分文字列に表記
(かな漢字変換では「かな表記」すなわち「読みが
な」)の一致する単語を単語辞書内から検索するという
処理を行なう(これを、以下では、第1の従来技術と呼
ぶことにする。) 例えば、「文章を解析する」という漢字かな混じり文字
列に対する単語辞書検索を行なう場合は、1文字目・2
文字目など各文字位置から始まる単語を検索するため
に、「文章を解析する」「章を解析する」「を解析す
る」「解析する」「析する」「する」「る」といった部
分文字列を別々に切り出す。そして、各部分文字列につ
いて、さらに、末尾を削った部分文字列も生成して、そ
の各々を単語辞書から検索する。すなわち、1文字目か
ら始まる単語を検索する際には、「文章を解析する」
「文章を解析す」「文章を解析」「文章を解」「文章
を」「文章」「文」といった部分文字列に関して、検索
を次々に繰り返し、2文字目から始まる単語を検索する
際には、「章を解析する」「章を解析す」「章を解析」
「章を解」「章を」「章」といった部分文字列に関し
て、検索を次々に繰り返すわけである。その結果、下線
を引いた部分文字列などについて、表記の一致する単語
が見つかることになる。
この第1の従来技術では、複数の部分文字列に対して単
語辞書の検索を繰り返すわけであるが、単語辞書の構成
を工夫しておくことによって、1つの部分文字列に対す
る検索の所要時間の短縮を図っている。例えば、単語辞
書内の単語をあらかじめソートしておいて二分検索を行
なったり、1文字目・2文字目など文字ごとに分割して
共通な部分をまとめて木構造として1文字ずつの照合を
行なうなどである。このような辞書の構造と検索方式の
工夫については、文献:“The Art of Computer Progra
mming 3:Sorting and Searching"(D.E.Knuth,Addison
−Wesley,1973)に多く示されている。
語辞書の検索を繰り返すわけであるが、単語辞書の構成
を工夫しておくことによって、1つの部分文字列に対す
る検索の所要時間の短縮を図っている。例えば、単語辞
書内の単語をあらかじめソートしておいて二分検索を行
なったり、1文字目・2文字目など文字ごとに分割して
共通な部分をまとめて木構造として1文字ずつの照合を
行なうなどである。このような辞書の構造と検索方式の
工夫については、文献:“The Art of Computer Progra
mming 3:Sorting and Searching"(D.E.Knuth,Addison
−Wesley,1973)に多く示されている。
ただし、この第1の従来技術は、コンピュータ上の逐次
型プログラムとしての実現を想定しており、所要時間短
縮の工夫は逐次処理の枠内で工夫である。したがって、
入力文字列のある部分文字列と単語辞書内のある単語の
表記の文字列とを比較する処理などは、1文字ずつ逐次
行なわれる。例えば「文章を」という部分文字列と単語
辞書内の「文章」という単語の比較は、「文」と「文」
とを照合し、一致したところで「章」と「章」とを照合
し、次に、「を」に対して不一致となり失敗するという
ように、1文字ずつ照合処理の繰り返しである。
型プログラムとしての実現を想定しており、所要時間短
縮の工夫は逐次処理の枠内で工夫である。したがって、
入力文字列のある部分文字列と単語辞書内のある単語の
表記の文字列とを比較する処理などは、1文字ずつ逐次
行なわれる。例えば「文章を」という部分文字列と単語
辞書内の「文章」という単語の比較は、「文」と「文」
とを照合し、一致したところで「章」と「章」とを照合
し、次に、「を」に対して不一致となり失敗するという
ように、1文字ずつ照合処理の繰り返しである。
また、第1の従来技術では、入力文字列の各文字にm個
ずつ候補があるような場合は、あらかじめ、長さLの部
分文字列に対して、候補を組み合せたmL通りの文字列を
生成する必要がある。そして、それらの各々について、
さらに、上記のように末尾を削った部分文字列を生成し
て、単語辞書内を検索することになる。
ずつ候補があるような場合は、あらかじめ、長さLの部
分文字列に対して、候補を組み合せたmL通りの文字列を
生成する必要がある。そして、それらの各々について、
さらに、上記のように末尾を削った部分文字列を生成し
て、単語辞書内を検索することになる。
一方、ある長さLの文字列と入力文字列との比較の際
に、1文字ずつの照合を繰り返すのではなく、対応する
文字位置のL組の照合を同時に行なうことが考えられて
いる。その際、入力文字列をシフトレジスタに格納して
おけば、照合の位置をずらすことが、入力文字列から再
度部分文字列を切り出すのではなく、シフトレジスタ内
の全文字を一度に1文字ずらすことで実現できるように
もなる。この第2の従来技術は、特開昭63−261421号公
報「文字列処理装置」および特開昭63−261422号公報
「文字列照合装置」に述べられている。なお、この第2
の従来技術では、入力文字列に複数の候補は存在せず、
検索される文字列も1通りに限られる(単語辞書のよう
に多数ではない)。
に、1文字ずつの照合を繰り返すのではなく、対応する
文字位置のL組の照合を同時に行なうことが考えられて
いる。その際、入力文字列をシフトレジスタに格納して
おけば、照合の位置をずらすことが、入力文字列から再
度部分文字列を切り出すのではなく、シフトレジスタ内
の全文字を一度に1文字ずらすことで実現できるように
もなる。この第2の従来技術は、特開昭63−261421号公
報「文字列処理装置」および特開昭63−261422号公報
「文字列照合装置」に述べられている。なお、この第2
の従来技術では、入力文字列に複数の候補は存在せず、
検索される文字列も1通りに限られる(単語辞書のよう
に多数ではない)。
特開昭62−67636号公報「照合方式」および文献:「音
声日本語入力システムにおける高速な言語処理のための
辞書照合アルゴリズム」(浜口・鈴木、電子情報通信学
会論文誌、第J70−D巻第8号、1589頁〜1596頁1987
年)には、第3の従来技術が示されている。
声日本語入力システムにおける高速な言語処理のための
辞書照合アルゴリズム」(浜口・鈴木、電子情報通信学
会論文誌、第J70−D巻第8号、1589頁〜1596頁1987
年)には、第3の従来技術が示されている。
第3の従来技術では、入力文字列に複数の文字候補があ
ることを想定している。まず、文字の種類をM(例え
ば、JISの文字コード表では、ひらがなについてM=8
3)とすると、1文字目・2文字目など各文字位置に、
Mビットのメモリを1個ずつ用意し、複数の候補文字に
対応する各ビットを1にしておく。そして、照合時は、
単語辞書内の各単語について、単語の表記の1文字目・
2文字目など文字位置ごとに、対応するMビットメモリ
から、対応する文字のビット内容(1または0)を同時
に読み出す。すべてのMビットメモリから1が読み出さ
れたら、入力文字列中に単語辞書内にある単語が出現し
たことになる。
ることを想定している。まず、文字の種類をM(例え
ば、JISの文字コード表では、ひらがなについてM=8
3)とすると、1文字目・2文字目など各文字位置に、
Mビットのメモリを1個ずつ用意し、複数の候補文字に
対応する各ビットを1にしておく。そして、照合時は、
単語辞書内の各単語について、単語の表記の1文字目・
2文字目など文字位置ごとに、対応するMビットメモリ
から、対応する文字のビット内容(1または0)を同時
に読み出す。すべてのMビットメモリから1が読み出さ
れたら、入力文字列中に単語辞書内にある単語が出現し
たことになる。
(発明が解決しようとする課題) 第1の従来技術には、まず第1に、前述のように、多数
の部分文字列に対する単語辞書検索を繰り返さねばなら
ないという欠点がある。この欠点は、入力文字列の各文
字に複数の候補がある場合に、特に顕著になる。長さK
の入力文字列の各文字にm個ずつ候補がある場合、最長
の部分文字列の長さをLとすると(通常、単語辞書内の
最長の単語の長さをLとする)、最大(mL×L×K)個
の部分文字列に対する検索を繰り返す必要が生ずる。通
常、あらかじめ条件を定めて、不要な部分文字列の検索
を避けるようにするので、(mL×L×K)個というのは
最悪の場合であるが、それでも検索の回数はかなり多く
なる。
の部分文字列に対する単語辞書検索を繰り返さねばなら
ないという欠点がある。この欠点は、入力文字列の各文
字に複数の候補がある場合に、特に顕著になる。長さK
の入力文字列の各文字にm個ずつ候補がある場合、最長
の部分文字列の長さをLとすると(通常、単語辞書内の
最長の単語の長さをLとする)、最大(mL×L×K)個
の部分文字列に対する検索を繰り返す必要が生ずる。通
常、あらかじめ条件を定めて、不要な部分文字列の検索
を避けるようにするので、(mL×L×K)個というのは
最悪の場合であるが、それでも検索の回数はかなり多く
なる。
第1の従来技術の第2の欠点は、ある部分文字列と単語
辞書内のある単語の表記の文字列との比較を、1文字ず
つ順に行なうため、比較に時間がかかるということであ
る。
辞書内のある単語の表記の文字列との比較を、1文字ず
つ順に行なうため、比較に時間がかかるということであ
る。
第2の従来技術では、第1の従来技術の第2の欠点に対
処している。しかし、第2の従来技術は、入力文字列に
複数の候補がある場合に適用できない。また、検索され
る文字列も1通りに限られ、単語辞書のように多数の文
字列と比較を行なうことを考えると、単語辞書内の各単
語の表記の長さの異なりが問題となって適用できない。
処している。しかし、第2の従来技術は、入力文字列に
複数の候補がある場合に適用できない。また、検索され
る文字列も1通りに限られ、単語辞書のように多数の文
字列と比較を行なうことを考えると、単語辞書内の各単
語の表記の長さの異なりが問題となって適用できない。
第3の従来技術は、第1の従来技術の2つの欠点に対処
している。しかし、入力文字列を記憶するために、文字
の種類だけのビット数をもったメモリを、文字列長だけ
用意する必要があるため、文字の種類が多数の場合はメ
モリサイズがかなり大きくなってしまう問題がある。か
な漢字変換や音声認識の場合は、入力文字列がひらがな
(あるいは音素文字)で100種類程度に限定されるの
で、あまり問題にならないが、漢字かな混じり文字列を
対象とした文音声変換や機械翻訳など場合は、漢字を含
み文字の種類が3000〜4000種類にもおよぶため、メモリ
が大きくなって問題になる。
している。しかし、入力文字列を記憶するために、文字
の種類だけのビット数をもったメモリを、文字列長だけ
用意する必要があるため、文字の種類が多数の場合はメ
モリサイズがかなり大きくなってしまう問題がある。か
な漢字変換や音声認識の場合は、入力文字列がひらがな
(あるいは音素文字)で100種類程度に限定されるの
で、あまり問題にならないが、漢字かな混じり文字列を
対象とした文音声変換や機械翻訳など場合は、漢字を含
み文字の種類が3000〜4000種類にもおよぶため、メモリ
が大きくなって問題になる。
また、第3の従来技術では、入力された文字列の先頭か
ら始まる単語の検索しか行なわないため、2文字目から
始まる単語や、3文字目から始まる単語などを検索する
場合には、入力文字列のメモリへの登録を、やり直す必
要が生じるという問題もある。
ら始まる単語の検索しか行なわないため、2文字目から
始まる単語や、3文字目から始まる単語などを検索する
場合には、入力文字列のメモリへの登録を、やり直す必
要が生じるという問題もある。
本発明の目的は、上記のような従来技術の欠点を除去
し、入力文字列の各文字に複数の候補があっても、高速
に単語辞書との照合が可能な単語辞書検索装置を提供す
ることである。
し、入力文字列の各文字に複数の候補があっても、高速
に単語辞書との照合が可能な単語辞書検索装置を提供す
ることである。
(課題を解決するための手段) 本発明は、各文字に対して第1から第m候補(m≧2な
る整数)までのm種類の候補が存在する文字列の入力装
置と、n文字分(nはn≧1なる整数)のデータ巾をも
つ各アドレスに単語の表記を1個ずつ格納してn文字に
満たない部分にはあらかじめ定めた残余記号を詰めた単
語辞書メモリ(登録単語数≧2)と、前記入力装置によ
って1文字に対するm種類の候補が入力されるたびにシ
フトクロック1回と前記単語辞書メモリ内の全単語数に
応じた回数の判定クロックとカウンタクロックとを発生
するコントローラと、前記シフトクロックに同期したリ
セットと前記カウンタクロックに同期したカウントアッ
プとを行なう前記単語辞書メモリのアドレスカウンタ
と、前記入力装置によって入力された文字列の第1・第
2・……・第m候補に対応し前記シフトクロックに同期
した1文字ずつの順送りを行なう各々n文字分の第1・
第2・……・第m候補シフトレジスタと、前記単語辞書
メモリから読み出されるn文字分のデータの1文字目・
2文字目・……・n文字目に対応し該当位置の文字が前
記第1・第2・……・第m候補シフトレジスタのいずれ
かの同位置の文字または前記残余記号に一致したとき一
致信号を出力する1文字目・2文字目・……・n文字目
比較回路と、前記判定クロックに同期して前記1文字目
・2文字目・……・n文字目比較回路のすべてから一致
信号が検出された場合に前記入力装置によって入力され
た文字列中に前記単語辞書メモリ内に存在する単語が出
現したと判定する判定回路とを備えたことを特徴とする
単語辞書検索装置である。
る整数)までのm種類の候補が存在する文字列の入力装
置と、n文字分(nはn≧1なる整数)のデータ巾をも
つ各アドレスに単語の表記を1個ずつ格納してn文字に
満たない部分にはあらかじめ定めた残余記号を詰めた単
語辞書メモリ(登録単語数≧2)と、前記入力装置によ
って1文字に対するm種類の候補が入力されるたびにシ
フトクロック1回と前記単語辞書メモリ内の全単語数に
応じた回数の判定クロックとカウンタクロックとを発生
するコントローラと、前記シフトクロックに同期したリ
セットと前記カウンタクロックに同期したカウントアッ
プとを行なう前記単語辞書メモリのアドレスカウンタ
と、前記入力装置によって入力された文字列の第1・第
2・……・第m候補に対応し前記シフトクロックに同期
した1文字ずつの順送りを行なう各々n文字分の第1・
第2・……・第m候補シフトレジスタと、前記単語辞書
メモリから読み出されるn文字分のデータの1文字目・
2文字目・……・n文字目に対応し該当位置の文字が前
記第1・第2・……・第m候補シフトレジスタのいずれ
かの同位置の文字または前記残余記号に一致したとき一
致信号を出力する1文字目・2文字目・……・n文字目
比較回路と、前記判定クロックに同期して前記1文字目
・2文字目・……・n文字目比較回路のすべてから一致
信号が検出された場合に前記入力装置によって入力され
た文字列中に前記単語辞書メモリ内に存在する単語が出
現したと判定する判定回路とを備えたことを特徴とする
単語辞書検索装置である。
(実施例) 図面を用いて、本発明の構成・作用を説明する。
第1図は本発明の単語辞書検索装置の第1の実施例の構
成を示すブロック図である。以下、まず、各構成要素を
説明する。
成を示すブロック図である。以下、まず、各構成要素を
説明する。
入力装置5は、各文字に対して第1候補から第m候補
(mはm≧2なる整数)までのm種類の候補が存在する
文字列を入力する装置であり、例えば、音声認識装置や
文字認識装置などである。入力装置5は、各文字に対す
るm個の候補を、同時に出力し、その出力のタイミング
を入力クロック50によってコントローラ7へ伝える。
(mはm≧2なる整数)までのm種類の候補が存在する
文字列を入力する装置であり、例えば、音声認識装置や
文字認識装置などである。入力装置5は、各文字に対す
るm個の候補を、同時に出力し、その出力のタイミング
を入力クロック50によってコントローラ7へ伝える。
単語辞書メモリ1は、n文字分(nはn≧1なる整数)
のデータ巾をもつ各アドレスに、単語の表記を1個ずつ
格納して、n文字に満たない部分には、あらかじめ定め
た残余記号を詰めたものである。第2図は、単語辞書メ
モリ1の内容の例を示す図である(第2図ではn=4と
している)。第2図において、△が残余記号を表わして
いる。第2図の単語辞書メモリ1のアドレスをaとする
と、「日本△△」というn(=4)文字が同時に読み出
される。単語辞書メモリ1は、ICメモリなどを用いて実
現できる。通常、漢字コードは16ビットで実現されるの
で、第2図の単語辞書メモリ1のデータ巾は、16×4=
64ビットである。現在のICメモリでは、同時に読み出せ
るデータ巾が8ビット程度であるから、そのようなICメ
モリを8個並列に並べて実現できる。
のデータ巾をもつ各アドレスに、単語の表記を1個ずつ
格納して、n文字に満たない部分には、あらかじめ定め
た残余記号を詰めたものである。第2図は、単語辞書メ
モリ1の内容の例を示す図である(第2図ではn=4と
している)。第2図において、△が残余記号を表わして
いる。第2図の単語辞書メモリ1のアドレスをaとする
と、「日本△△」というn(=4)文字が同時に読み出
される。単語辞書メモリ1は、ICメモリなどを用いて実
現できる。通常、漢字コードは16ビットで実現されるの
で、第2図の単語辞書メモリ1のデータ巾は、16×4=
64ビットである。現在のICメモリでは、同時に読み出せ
るデータ巾が8ビット程度であるから、そのようなICメ
モリを8個並列に並べて実現できる。
コントローラ7は、入力装置5によって1文字に対する
m種類の候補が入力されるたびに、シフトクロック1回
と、単語辞書メモリ1内の全単語数に応じた回数の判定
クロックとカウンタクロックとを発生する。第3図はコ
ントローラ7の入出力信号のタイムチャートの例であ
る。第3図のタイムチャートでは、入力装置5から入力
クロック50が入力されるたびに、まず、シフトクロック
70を1回出力(入力クロック50をそのままシフトクロッ
ク70として出力)し、続いて、判定クロック72とカウン
タクロック71とを、交互にN回出力している。ただし、
カウンタクロック71は(N−1)回でもよい。ここで、
Nは単語辞書メモリ1内の全単語数である。このような
タイムチャート通りに動作するコントローラ7は、当業
者において容易に実現可能である。
m種類の候補が入力されるたびに、シフトクロック1回
と、単語辞書メモリ1内の全単語数に応じた回数の判定
クロックとカウンタクロックとを発生する。第3図はコ
ントローラ7の入出力信号のタイムチャートの例であ
る。第3図のタイムチャートでは、入力装置5から入力
クロック50が入力されるたびに、まず、シフトクロック
70を1回出力(入力クロック50をそのままシフトクロッ
ク70として出力)し、続いて、判定クロック72とカウン
タクロック71とを、交互にN回出力している。ただし、
カウンタクロック71は(N−1)回でもよい。ここで、
Nは単語辞書メモリ1内の全単語数である。このような
タイムチャート通りに動作するコントローラ7は、当業
者において容易に実現可能である。
アドレスカウンタ4は、シフトクロック70に同期したリ
セットと、カウンタクロック71に同期したカウントアッ
プとを行なうカウンタで、カウンタ値を単語辞書メモリ
1のアドレス値として出力する。従来のカウンタICで実
現できる。
セットと、カウンタクロック71に同期したカウントアッ
プとを行なうカウンタで、カウンタ値を単語辞書メモリ
1のアドレス値として出力する。従来のカウンタICで実
現できる。
第i候補シフトレジスタ2は、入力装置5によって入力
された文字列の第i候補(iは1≦i≦mなる整数)
を、シフトクロック70に同期して1文字ずつ順送りしな
がら、n文字分格納するシフトレジスタである。このシ
フトレジスタ2は、入力文字列の各文字に対するm個の
候補の各々に対して設けられており、第1候補シフトレ
ジスタ、第2候補シフトレジスタ、……、第m候補シフ
トレジスタのm個がある。第4図は各シフトレジスタ2
の構成例を示した図である。1文字をdビットで表現し
ている場合、第i候補シフトレジスタ2は、第4図のよ
うに、シフトクロック70に同期した(d×n)個のDフ
リップフロップで実現できる(d個並列に並べたもの
を、n個直列に接続する)。並列に接続したd個が1文
字に対応し、その出力はまとめて比較回路3へ送られ
る。
された文字列の第i候補(iは1≦i≦mなる整数)
を、シフトクロック70に同期して1文字ずつ順送りしな
がら、n文字分格納するシフトレジスタである。このシ
フトレジスタ2は、入力文字列の各文字に対するm個の
候補の各々に対して設けられており、第1候補シフトレ
ジスタ、第2候補シフトレジスタ、……、第m候補シフ
トレジスタのm個がある。第4図は各シフトレジスタ2
の構成例を示した図である。1文字をdビットで表現し
ている場合、第i候補シフトレジスタ2は、第4図のよ
うに、シフトクロック70に同期した(d×n)個のDフ
リップフロップで実現できる(d個並列に並べたもの
を、n個直列に接続する)。並列に接続したd個が1文
字に対応し、その出力はまとめて比較回路3へ送られ
る。
j文字目比較回路3は、アドレスカウンタ4の示す1つ
のアドレスに対して単語辞書メモリ1から読み出される
n文字分のデータのj番目(jは1≦j≦nなる整数)
の文字が、m個のシフトレジスタ2のいずれかのj番目
の文字、または、残余記号に一致したときに、一致信号
を出力する回路である。この比較回路3は、単語辞書メ
モリ1のデータ巾n文字の各々に対して設けられてお
り、1文字目比較回路、2文字目比較回路、……、n文
字目比較回路のn個がある。第5図は、j文字目比較回
路3の構成例を示した図である。1文字をdビットで表
現して、シフトレジスタ2がm個設けられている場合、
j文字目比較回路3は、第5図のように、(m+1)個
のdビット比較器と、1個のORゲートで構成できる。m
個のdビット比較器は、単語辞書メモリ1から読み出さ
れているn文字データのうちj文字目と、各シフトレジ
スタ2のj文字目とを比較し、残りの1個のdビット比
較器は、単語辞書メモリ1から読み出されているn文字
データのうちのj文字目が残余記号であるか否かを調べ
る。最終的なORデートの出力では、この(m+1)個の
比較器のいずれかで、一致が検出されたときに、一致信
号30が出力される。
のアドレスに対して単語辞書メモリ1から読み出される
n文字分のデータのj番目(jは1≦j≦nなる整数)
の文字が、m個のシフトレジスタ2のいずれかのj番目
の文字、または、残余記号に一致したときに、一致信号
を出力する回路である。この比較回路3は、単語辞書メ
モリ1のデータ巾n文字の各々に対して設けられてお
り、1文字目比較回路、2文字目比較回路、……、n文
字目比較回路のn個がある。第5図は、j文字目比較回
路3の構成例を示した図である。1文字をdビットで表
現して、シフトレジスタ2がm個設けられている場合、
j文字目比較回路3は、第5図のように、(m+1)個
のdビット比較器と、1個のORゲートで構成できる。m
個のdビット比較器は、単語辞書メモリ1から読み出さ
れているn文字データのうちj文字目と、各シフトレジ
スタ2のj文字目とを比較し、残りの1個のdビット比
較器は、単語辞書メモリ1から読み出されているn文字
データのうちのj文字目が残余記号であるか否かを調べ
る。最終的なORデートの出力では、この(m+1)個の
比較器のいずれかで、一致が検出されたときに、一致信
号30が出力される。
判定回路6は、判定クロック72に同期して、n個の比較
回路のすべてから一致信号が検出された場合に、入力装
置5によって入力された文字列中に単語辞書メモリ1内
に存在する単語が出現したと判定する回路である。第6
図は、判定回路6の構成例を示す図である。判定回路6
は、第6図のように、1個のANDゲートと1個のDフリ
ップフロップで実現できる。
回路のすべてから一致信号が検出された場合に、入力装
置5によって入力された文字列中に単語辞書メモリ1内
に存在する単語が出現したと判定する回路である。第6
図は、判定回路6の構成例を示す図である。判定回路6
は、第6図のように、1個のANDゲートと1個のDフリ
ップフロップで実現できる。
次にこの実施例の動作を例を用いて説明する。
第7図(a)〜(h)は、n=4、m=3で入力文字列
の長さが4のときの、第1候補シフトレジスタ・第2候
補シフトレジスタ・第3候補シフトレジスタの内容の変
化の例を示した図である。第7図の3×4のマトリック
スは、1行が各シフトレジスタ2の内容に対応してお
り、行方向が文字位置(1〜4)、列方向が候補レベル
(1〜3)を表わしている。これらのシフトレジスタ2
に入力されている文字列は、1文字目の候補は第1候補
から順に「日」「白」「目」、2文字目の候補は順に
「木」「本」「大」、3文字目は順に「電」「雷」
「霧」、4文字目は順に「気」「島」「戒」である。斜
線部分は文字が格納されていないことを表わす。
の長さが4のときの、第1候補シフトレジスタ・第2候
補シフトレジスタ・第3候補シフトレジスタの内容の変
化の例を示した図である。第7図の3×4のマトリック
スは、1行が各シフトレジスタ2の内容に対応してお
り、行方向が文字位置(1〜4)、列方向が候補レベル
(1〜3)を表わしている。これらのシフトレジスタ2
に入力されている文字列は、1文字目の候補は第1候補
から順に「日」「白」「目」、2文字目の候補は順に
「木」「本」「大」、3文字目は順に「電」「雷」
「霧」、4文字目は順に「気」「島」「戒」である。斜
線部分は文字が格納されていないことを表わす。
第7図において、(a)→(b)→(c)→(d)→
(e)→(f)→(g)→(h)という変化は、シフト
クロック70が1回発生されるたびに起こる変化を示して
いる。そして、(a)〜(g)の各々の状態で、カウン
タクロック71と判定クロック72がN回発生される。アド
レスカウンタ4は、シフトクロック70によってリセット
され、カウンタクロック71によってN回カウントアップ
されるため、各状態で、単語辞書メモリ1からは、先頭
の単語から末尾の単語まで順に、全単語(N個)の表記
が読み出され、n個(この例では4個)の比較回路3に
おいて、それらと第7図のシフトレジスタの内容との照
合が行なわれることになる。
(e)→(f)→(g)→(h)という変化は、シフト
クロック70が1回発生されるたびに起こる変化を示して
いる。そして、(a)〜(g)の各々の状態で、カウン
タクロック71と判定クロック72がN回発生される。アド
レスカウンタ4は、シフトクロック70によってリセット
され、カウンタクロック71によってN回カウントアップ
されるため、各状態で、単語辞書メモリ1からは、先頭
の単語から末尾の単語まで順に、全単語(N個)の表記
が読み出され、n個(この例では4個)の比較回路3に
おいて、それらと第7図のシフトレジスタの内容との照
合が行なわれることになる。
その結果、各状態で、単語辞書メモリ1内の例えば次の
ような単語に対して、判定回路6が出現を検出する。
ような単語に対して、判定回路6が出現を検出する。
(a)該当なし (b)該当なし (c)該当なし (d)「日」「日本」「日本電気」「日大」「白」「白
木」「目」 (e)「木」「本」「大」 (f)「電」「電気」「霧」「霧島」「雷」 (g)「気」「島」 このうち、状態(d)における第7図のシフトレジスタ
内容と、単語辞書内の単語「日本」(=「日本△△」)
とを照合する際の、各比較回路3の動作を説明する。1
文字目比較回路は、「日本△△」の「日」と第1候補シ
フトレジスタの1文字目の「日」との一致により一致信
号30を発生する。2文字目比較回路は、「日本△△」の
「本」と第2候補シフトレジスタの2文字目の「本」と
の一致により一致信号30を発生する。3文字目比較回路
と4文字目比較回路はともに、「日本△△」の「△」
(残余記号)を検出して一致信号30を発生する。その結
果、判定回路6は、すべての比較回路3の一致信号30を
受けて、単語の出現を検出することになる。
木」「目」 (e)「木」「本」「大」 (f)「電」「電気」「霧」「霧島」「雷」 (g)「気」「島」 このうち、状態(d)における第7図のシフトレジスタ
内容と、単語辞書内の単語「日本」(=「日本△△」)
とを照合する際の、各比較回路3の動作を説明する。1
文字目比較回路は、「日本△△」の「日」と第1候補シ
フトレジスタの1文字目の「日」との一致により一致信
号30を発生する。2文字目比較回路は、「日本△△」の
「本」と第2候補シフトレジスタの2文字目の「本」と
の一致により一致信号30を発生する。3文字目比較回路
と4文字目比較回路はともに、「日本△△」の「△」
(残余記号)を検出して一致信号30を発生する。その結
果、判定回路6は、すべての比較回路3の一致信号30を
受けて、単語の出現を検出することになる。
なお、入力文字列長がKの場合、シフトレジスタ2内で
の順送りは、少なくとも(K+n−1)回行なわれる必
要がある。したがって、入力装置5は、長さKの入力文
字列を入力した後、さらに、(n−1)回のダミーの文
字列入力を行なう必要がある。あるいは、コントローラ
7が、入力文字列の末尾を検出して、さらに、シフトク
ロック70の1回とカウンタクロック71と判定クロック72
をN回ずつというサイクルを、(n−1)回繰り返すよ
うにしてもよい。
の順送りは、少なくとも(K+n−1)回行なわれる必
要がある。したがって、入力装置5は、長さKの入力文
字列を入力した後、さらに、(n−1)回のダミーの文
字列入力を行なう必要がある。あるいは、コントローラ
7が、入力文字列の末尾を検出して、さらに、シフトク
ロック70の1回とカウンタクロック71と判定クロック72
をN回ずつというサイクルを、(n−1)回繰り返すよ
うにしてもよい。
また、最初の(n−1)回の順送りの間(第7図では
(a)から(c)まで)は、入力文字列がシフトレジス
タ2の先頭まで到達していないので、単語辞書メモリ1
との照合を行なっても意味がない。そこで、その間は、
コントローラ7は、カウンタクロック71や判定クロック
72を発生せず、シフトクロック70のみを連続して発生す
るようにしてもよい。
(a)から(c)まで)は、入力文字列がシフトレジス
タ2の先頭まで到達していないので、単語辞書メモリ1
との照合を行なっても意味がない。そこで、その間は、
コントローラ7は、カウンタクロック71や判定クロック
72を発生せず、シフトクロック70のみを連続して発生す
るようにしてもよい。
以上では、入力文字列の各文字にm個の候補が存在する
一般的な場合の実施例を示したが、かな漢字変換におけ
る単語辞書検索や、ワードプロセッサで作成した文章の
解析を行なう際の単語辞書検索などでは、入力文字列の
各文字は1通りである(m=1)。第8図は、そのよう
な場合を対象とした単語辞書検索装置の例を示すブロッ
ク図である。この場合は、第2の従来技術と同様にシフ
トレジスタが1個でよく、本発明の特許請求の範囲から
は除外している。構成要素・動作は第1図の実施例につ
いてm=1とすればよいので、説明を省略する。
一般的な場合の実施例を示したが、かな漢字変換におけ
る単語辞書検索や、ワードプロセッサで作成した文章の
解析を行なう際の単語辞書検索などでは、入力文字列の
各文字は1通りである(m=1)。第8図は、そのよう
な場合を対象とした単語辞書検索装置の例を示すブロッ
ク図である。この場合は、第2の従来技術と同様にシフ
トレジスタが1個でよく、本発明の特許請求の範囲から
は除外している。構成要素・動作は第1図の実施例につ
いてm=1とすればよいので、説明を省略する。
(発明の効果) 以上説明したように、本発明によれば、漢字のように種
類の多い文字から成る文字列に対して、各文字が複数の
候補をもっていても、高速に単語辞書との照合が可能な
単語辞書検索装置が得られる。特に、入力文字列が各文
字の候補数にも、単語辞書内の単語の表記長にもかかわ
らず、入力文字列と単語辞書内の1つの単語との照合が
2クロック程度の間に行えることの効果が大きい。
類の多い文字から成る文字列に対して、各文字が複数の
候補をもっていても、高速に単語辞書との照合が可能な
単語辞書検索装置が得られる。特に、入力文字列が各文
字の候補数にも、単語辞書内の単語の表記長にもかかわ
らず、入力文字列と単語辞書内の1つの単語との照合が
2クロック程度の間に行えることの効果が大きい。
さらに、実施例に示したように、本発明の各構成要素
は、少数のロジックICを組み合わせで実現できる。した
がって、LSI技術を利用すれば、非常に小型の装置とし
て実現できる点も長所である。それに加えて、第1の従
来技術のように、汎用計算機上のソフトウェアとして実
現されるのではなく、専用ハードウェア・特殊LSIとし
て実現できるため、クロックの周波数自体を、汎用計算
機に比べてかなり高く設定することが可能であり、この
点でも高速性が優れている。
は、少数のロジックICを組み合わせで実現できる。した
がって、LSI技術を利用すれば、非常に小型の装置とし
て実現できる点も長所である。それに加えて、第1の従
来技術のように、汎用計算機上のソフトウェアとして実
現されるのではなく、専用ハードウェア・特殊LSIとし
て実現できるため、クロックの周波数自体を、汎用計算
機に比べてかなり高く設定することが可能であり、この
点でも高速性が優れている。
以上のような高速性から、本発明では、前述の第1の従
来技術のように単語辞書内で照合する単語数を制限せ
ず、単語辞書内の全単語との照合を行なっても、従来よ
り十分高速な単語辞書検索装置が得られると考えられる
が、その結果、単語辞書内が表記のコード順にソートさ
れている必要がないという長所も生じる。したがって、
単語の追加・削除が行なわれても、単語辞書を編成し直
す必要がなく、単語辞書のメンテナンスがきわめて容易
である。
来技術のように単語辞書内で照合する単語数を制限せ
ず、単語辞書内の全単語との照合を行なっても、従来よ
り十分高速な単語辞書検索装置が得られると考えられる
が、その結果、単語辞書内が表記のコード順にソートさ
れている必要がないという長所も生じる。したがって、
単語の追加・削除が行なわれても、単語辞書を編成し直
す必要がなく、単語辞書のメンテナンスがきわめて容易
である。
第1図は本発明の第1の実施例の構成を示すブロック
図、第2図は単語辞書メモリ1の内容の例を示す図、第
3図はコントローラ7の入出力信号のタイムチャートの
例、第4図はシフトレジスタ2の構成例を示す図、第5
図は比較回路3の構成例を示す図、第6図は判定回路6
の構成例を示す図、第7図(a)〜(h)はシフトレジ
スタ2の内容の変化の例を示す図、第8図はm=1とし
た単語辞書検索装置の例を示すブロック図。 図において、1……単語辞書メモリ、2……シフトレジ
スタ(第i候補シフトレジスタ)、3……比較回路(j
文字目比較回路)、4……アドレスカウンタ、5……入
力装置、6……判定回路、7……コントローラ、30……
一致信号、50……入力クロック、70……シフトクロッ
ク、71……カウンタクロック、72……判定クロックであ
る。
図、第2図は単語辞書メモリ1の内容の例を示す図、第
3図はコントローラ7の入出力信号のタイムチャートの
例、第4図はシフトレジスタ2の構成例を示す図、第5
図は比較回路3の構成例を示す図、第6図は判定回路6
の構成例を示す図、第7図(a)〜(h)はシフトレジ
スタ2の内容の変化の例を示す図、第8図はm=1とし
た単語辞書検索装置の例を示すブロック図。 図において、1……単語辞書メモリ、2……シフトレジ
スタ(第i候補シフトレジスタ)、3……比較回路(j
文字目比較回路)、4……アドレスカウンタ、5……入
力装置、6……判定回路、7……コントローラ、30……
一致信号、50……入力クロック、70……シフトクロッ
ク、71……カウンタクロック、72……判定クロックであ
る。
Claims (1)
- 【請求項1】各文字に対して第1から第m候補(mはm
≧2なる整数)までのm種類の候補が存在する文字列の
入力装置と、n文字分(nはn≧1なる整数)のデータ
巾をもつ各アドレスに単語の表記を1個ずつ格納してn
文字に満たない部分にはあらかじめ定めた残余記号を詰
めた単語辞書メモリ(登録単語数≧2)と、前記入力装
置によって1文字に対するm種類の候補が入力されるた
びにシフトクロック1回と前記単語辞書メモリ内の全単
語数に応じた回数の判定クロックとカウンタクロックと
を発生するコントローラと、前記シフトクロックに同期
したリセットと前記カウンタクロックに同期したカウン
トアップとを行なう前記単語辞書メモリのアドレスカウ
ンタと、前記入力装置によって入力された文字列の第1
・第2・………・第m候補に対応し前記シフトクロック
に同期した1文字ずつの順送りを行なう各々n文字分の
第1・第2・………・第m候補シフトレジスタと、前記
単語辞書メモリから読み出されるn文字分のデータの1
文字目・2文字目・………・n文字目に対応し該当位置
の文字が前記第1・第2・………・第m候補レジスタの
いずれかの同位置の文字または前記残余記号に一致した
とき一致信号を出力する1文字目・2文字目・………・
n文字目比較回路と、前記判定クロックに同期して前記
1文字目・2文字目・………・n文字目比較回路のすべ
てから一致信号が検出された場合に前記入力装置によっ
て入力された文字列中に前記単語辞書メモリ内に存在す
る単語が出現したと判定する判定回路とを備えたことを
特徴とする単語辞書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1173442A JPH0670789B2 (ja) | 1989-07-04 | 1989-07-04 | 単語辞書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1173442A JPH0670789B2 (ja) | 1989-07-04 | 1989-07-04 | 単語辞書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0337765A JPH0337765A (ja) | 1991-02-19 |
JPH0670789B2 true JPH0670789B2 (ja) | 1994-09-07 |
Family
ID=15960549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1173442A Expired - Lifetime JPH0670789B2 (ja) | 1989-07-04 | 1989-07-04 | 単語辞書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0670789B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6057849U (ja) * | 1983-09-21 | 1985-04-22 | 株式会社日立製作所 | 情報検索装置 |
JPS63261421A (ja) * | 1987-04-17 | 1988-10-28 | Mitsubishi Electric Corp | 文字列処理装置 |
-
1989
- 1989-07-04 JP JP1173442A patent/JPH0670789B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0337765A (ja) | 1991-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3143079B2 (ja) | 辞書索引作成装置と文書検索装置 | |
US5138669A (en) | Range-conditional character string retrieving method and system | |
JPH07160389A (ja) | データ入力ワークステーション | |
US5560037A (en) | Compact hyphenation point data | |
KR960018993A (ko) | 정보 검색 방법 및 시스템 | |
JPH024026B2 (ja) | ||
JP2526670B2 (ja) | 単語辞書検索装置 | |
JPH0670788B2 (ja) | 巣語辞書検索装置 | |
JPH0670789B2 (ja) | 単語辞書検索装置 | |
Kiraz | Automatic concordance generation of Syriac texts | |
JP2526678B2 (ja) | 単語辞書検索装置 | |
JPH04340166A (ja) | 単語辞書検索装置 | |
JP3166629B2 (ja) | 辞書作成装置と語切り出し装置 | |
JPH03110676A (ja) | 単語辞書検索装置 | |
JPH0337754A (ja) | 単語辞書検索装置 | |
EP0649106B1 (en) | Compactly stored word groups | |
KR20000018924A (ko) | 띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치 | |
JPH02148174A (ja) | Ocrによる住所データベース検索装置 | |
JPH06309360A (ja) | 否定論理条件の処理に適したフルテキストサーチ方法 | |
JPH05225248A (ja) | データベース検索システム | |
JP2744241B2 (ja) | 文字処理装置 | |
JP2004318753A (ja) | 字句をデータに変換する装置及び方法 | |
JP3104893B2 (ja) | 情報検索方式 | |
JPS62256075A (ja) | 辞書検索方式 | |
JPH01205267A (ja) | 単語辞書検索装置 |