JP2526678B2 - 単語辞書検索装置 - Google Patents

単語辞書検索装置

Info

Publication number
JP2526678B2
JP2526678B2 JP1250039A JP25003989A JP2526678B2 JP 2526678 B2 JP2526678 B2 JP 2526678B2 JP 1250039 A JP1250039 A JP 1250039A JP 25003989 A JP25003989 A JP 25003989A JP 2526678 B2 JP2526678 B2 JP 2526678B2
Authority
JP
Japan
Prior art keywords
character
word dictionary
word
input
clock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1250039A
Other languages
English (en)
Other versions
JPH03110675A (ja
Inventor
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1250039A priority Critical patent/JP2526678B2/ja
Publication of JPH03110675A publication Critical patent/JPH03110675A/ja
Application granted granted Critical
Publication of JP2526678B2 publication Critical patent/JP2526678B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本願発明は、入力文字列と単語辞書とを照合して、入
力文字列において、単語辞書内に存在する単語が出現し
た部分を検索する単語辞書検索装置に関するものであ
る。ただし、入力文字列は、各文字が複数の候補をもつ
場合と、1個しかもたない場合がある。また、単語辞書
検索に置ける検索キーは、単語の表記(漢字かな混じり
文字列)の場合と、読みがな(かな文字列)の場合が多
い。
入力文字列の各文字に複数の候補がなく一意な場合の
単語辞書検索装置は、かな漢字変換装置においてキーボ
ードから入力されたかな文字列に対する単語辞書検索を
行なう部分や、機械翻訳装置・文音声変換装置・文章校
正装置などにおいてワードプロセッサなどで作成された
漢字かな混じり文字列に対する単語辞書検索を行なう部
分などに用いられている。前者は検索キーが読みがな
で、後者は検索キーが表記である。
入力文字列の各文字に複数の候補がある場合の単語辞
書検索装置は、音声認識装置や文字認識装置などにおい
て、認識結果の複数の候補文字から最も確からしい文字
を選択するための単語辞書検索部などに用いられてい
る。音声認識の場合は検索キーが読みがな(音節)で、
文字認識の場合は検索キーが表記である。
(従来の技術) 従来、かな漢字変換装置・文音声変換装置などにおい
て用いられている単語辞書検索方式は、基本的に、文
献:「計算機によるカナ漢字変換」(相沢・江原、NHK
技術研究、第25巻第5号、23頁〜60頁、1973年)に示さ
れている方式を引き継いでいる。すなわち、入力された
文字列から部分文字列を切り出して、その部分文字列に
表記(かな漢字変換では「かな表記」すなわち「読みが
な」)の一致する単語を単語辞書内から検索するという
処理を行なう(これを、以下では、第1の従来技術と呼
ぶことにする)。
第1の従来技術では、例えば、「文章を解析する」と
いう漢字かな混じり文字列に対する単語辞書検索を行な
う場合は、1文字目・2文字目など各文字位置から始ま
る単語を検索するために、「文章を解析する」「章を解
析する」「を解析する」「解析する」「析する」「す
る」「る」といった部分文字列を別々に切り出す。そし
て、各部分文字列について、さらに、末尾を削った部分
文字列も生成して、その各々を単語辞書から検索する。
すなわち、1文字目から始まる単語を検索する際には、
「文章を解析する」「文章を解析す」「文章を解析」
「文章を解」「文章を」「文章」「文」といった部分文
字列に関して、検索を次々に繰り返し、2文字目から始
まる単語を検索する際には、「章を解析する」「章を解
析す」「章を解析」「章を解」「章を」「章」といった
部分文字列に関して、検索を次々に繰り返すわけであ
る。その結果、下線を引いた部分文字列などについて、
表記の一致する単語が見つかることになる。
この第1の従来技術では、上述のように、複数の部分
文字列に対して単語辞書の検索を繰り返すわけである
が、単語辞書の構成を工夫しておくことによって、1つ
の部分文字列に対する検索の所定時間の短縮を図ってい
る。例えば、単語辞書内の単語をあらかじめソートして
おいて二分検索を行なったり、1文字目・2文字目など
文字ごとに分割して共通な部分をまとめて木構造として
1文字ずつの照合を行なうなどである。このような辞書
の構造と検索方式の工夫については、文献:“The Art
of Computer Programming 3:Sorting and Searching"
(D.E.Knuth,Addison−Wesley,1973)に多く示されてい
る。
ただし、この第1の従来技術は、コンピュータ上の逐
次型プログラムとしての実現を想定しており、所要時間
短縮の工夫は逐次処理の枠内での工夫である。したがっ
て、入力文字列のある部分文字列と単語辞書内のある単
語の表記の文字列とを比較する処理などは、1文字ずつ
逐次行なわれる。例えば、「文章を」という部分文字列
と単語辞書内の「文章」という単語の比較は、「文」と
「文」とを照合し、一致したところで「章」と「章」と
を照合し、次に、「を」に対して不一致となり失敗する
というように、1文字ずつ照合処理の繰り返しである。
また、第1の従来技術では、入力文字列の各文字にm
個ずつ候補があるような場合は、あらかじめ、長さLの
部分文字列に対して、候補を組み合わせたmL通りの文字
列を生成する必要がある。そして、それらの各々につい
て、さらに、上記のように末尾を削った部分文字列を生
成して、単語辞書内を検索することになる。
一方、ある長さLの文字列と入力文字列との比較の際
に、1文字ずつの照合を繰り返すのではなく、対応する
文字位置のL組の照合を同時に行なうことが考えられて
いる(以下、第2の従来技術と呼ぶ。)その際、入力文
字列をシフトレジスタに格納しておけば、照合の位置を
ずらすことが、入力文字列から再度部分文字列を切り出
すのではなく、シフトレジスタ内の全文字を一度に1文
字ずらすことで実現できるようになる。この第2の従来
技術では、特開昭63−261421号公報「文字列処理装置」
および特開昭63−261422号公報「文字列照合装置」に述
べられている。なお、この第2の従来技術では、入力文
字列に複数の候補は存在せず、検索される文字列も1通
りに限られるもので単語辞書のように多数ではない。特
開昭62−67636号公報「照合方式」および文献:「音声
日本語入力システムにおける高速な言語処理のための辞
書照合アルゴリズム」(浜口・鈴木・電子情報通信学会
論文誌、第J70−D巻第8号、1589頁〜1596頁、1987
年)には、第3の従来技術が示されている。
この第3の従来技術では、入力文字列に複数の文字候
補があることを想定している。まず、文字の種類をM
(例えば、JISの文字コード表では、ひらがなについて
M=83)とすると、1文字目・2文字目など各文字位置
に、Mビットのメモリを1個ずつ用意し、複数の候補文
字に対応する各ビットを1にしておく、そして、照合時
は、単語辞書内の各単語について、単語の表記の1文字
目・2文字目などに文字位置ごとに、対応するMビット
メモリから、対応する文字のビット内容(1または0)
を同時に読み出す。すべてのMビットメモリから1が読
み出されたら、入力文字列中に単語辞書内にある単語が
出現したことになる。
以上の第1〜第3の従来技術では、単語辞書を検索す
る際の検索キーを1種類しか設けていない。しかし、文
書処理システムでは、単語辞書検索の際に、複数の検索
キーを設定する必要が生ずることがある。例えば、文
献:「日本語文章作成支援システムCOMET−文章解析応
用の統合化方式を中心に−」(福島・大山、情報処理学
会・文章処理とヒューマンインタフェース研究会、20−
2、1988年)では、かな漢字変換、文音声変換、文章校
正などのアプリケーションを統合化したシステムが述べ
られている。上記の文献では、かな漢字変換用の単語の
読みがなを検索キーとして単語の表記を得る辞書と、文
音声変換、・文章校正用の単語の表記を検索キーとして
単語の読みがなを得る辞書という、2種類の独立した単
語辞書を用いている(以下では、これを、第4の従来技
術と呼ぶことにする)。そして、その各々については、
第1の従来技術の手法を適用している。したがって、単
語の読みがなと表記とは、2つの辞書の両方に重複して
登録されていることになる。
これに対して、1つの単語辞書を、単語の読みがなで
も表記でも検索できるようにしたのが、以下に述べる第
5・第6の従来技術である。
第5の従来技術では、単語の表記を検索キーとした第
1の従来技術にもとづく単語辞書と、漢字読み表とを利
用する。漢字読み表は漢字1文字の読み方を登録した表
であり、単語辞書の単語の表記を漢字読み表で展開し
て、単語の読みがなを生成しながら検索する。特開昭62
−212876号公報「かな漢字相互変換装置」や特開昭62−
224859「日本語処理方式」などに、その手法が述べられ
ている。
第6の従来技術では、ポインタを利用して、2通りの
検索キーについて第1の従来技術の手法が適用できるよ
うな単語辞書構成をとる。すなわち、第4の従来技術の
重複した内容の部分を、ポインタで置き換えたものであ
る。特許公告昭63−4225「電子辞書」では、第4の従来
技術における2つの単語辞書の一方のすべてをポインタ
の集合と置き換えている。特開昭63−157266(特願昭61
−307412)「単語辞書構成方式」では、第4の従来技術
における2つの単語辞書の検索キーが、相互にポインタ
で参照し合う形態となっている。
(発明が解決しようとする課題) まず、1種類の検索キーに関する従来技術の課題を述
べる。
第1の従来技術には、第1に、前述のように、多数の
部分文字列に対する単語辞書検索を繰り返さねばならな
いという欠点がある。この欠点は、入力文字列の各文字
に複数の候補がある場合に、特に顕著になる。長さKの
入力文字列の各文字にm個ずつ候補がある場合、最長の
部分文字列の長さLとすると(通常、単語辞書内の最長
の単語の長さをLとする。)、最大(mL×L×K)個の
部分文字列に対する検索を繰り返す必要が生ずる。通
常、あらかじめ条件を定めて、不要な部分文字列の検索
を避けるようにするので、(mL×L×K)個というのは
最悪の場合であるが、それでも検索の回数はかなり多く
なる。
第1の従来技術の第2の欠点は、ある部分文字列と単
語辞書内のある単語の表記の文字列と比較を、1文字ず
つ順に行なうため、比較に時間がかかるということであ
る。
第2の従来技術では、第1の従来技術の第2の欠点に
対処している。しかし、第2の従来技術は、入力文字列
に複数の候補がある場合に適用できない。また、検索さ
れる文字列も1通りに限られ、単語辞書のように多数の
文字列と比較を行なうことを考えると、単語辞書内の各
単語の表記の長さの異なりが問題となって適用できな
い。
第3の従来技術は、第1の従来技術の2つの欠点に対
処している。しかし、入力文字列を記憶するために、文
字の種類だけのビット数をもったメモリを、文字列長だ
け用意する必要があるので、文字の種類が多数の場合は
メモリサイズがかなり大きくなってしまう問題がある。
かな漢字変換や音声認識の場合は、入力文字列がひらが
な(あるいは音素文字)で100種類程度に限定されるの
で、あまり問題にならないが、漢字かな混じり文字列を
対象とした文音声変換や機械翻訳など場合は、漢字を含
み文字の種類が3000〜4000種類にもおよぶので、メモリ
が大きくなって問題になる。
また、第3の従来技術では、入力された文字列の先頭
から始る単語の検索しか行なわないため、2文字目から
始まる単語や、3文字目から始まる単語などを検索する
場合には、入力文字列のメモリへの登録を、やり直す必
要が生じるという問題もある。
次に、検索キーを複数設けた場合の従来技術の課題を
述べる。
第1〜第3の従来技術では、検索キーはただ1種類と
考えられている。したがって、複数の検索キーを設けよ
うとすると、第4の従来技術と同様に、検索キーごとの
単語辞書を用意することになる。その場合、複数の単語
辞書に情報が重複して登録されることになり、無駄が多
い構造となる。
第5・第6の従来技術では、この重複の無駄をなくし
ているが、次のような問題点がある。まず、第5の従来
技術では、単語の読みがなを検索キーとした検索の場
合、漢字読み表で展開して見出しを生成しながら照合を
行なうといった複雑な処理を行なう上に、本来の単語の
読みがな以外の見出しも生成されてしまうので、処理量
が多く、結果として処理時間が増大する。次に第6の従
来技術では、ポインタで関係を管理しているため、項目
(単語)の追加・削除の際に、その関係が壊れないかを
チェックする必要が発生し、単語辞書のメンテナンス作
業の労力が大きくなる。また、ポインタに置き換えるこ
とにより、見かけ上の情報の重複はなくなっているが、
代わりにポインタ領域がとられることになり、実質的な
辞書内容の面では、第4の従来技術と同様に無駄が多
い。
本発明の目的は、上記のような従来技術の欠点を除去
し、入力文字列の各文字に複数の候補があっても、高速
に単語辞書との照合が可能な単語辞書検索装置であっ
て、しかも、複数の検索キーを設けても、容量の面で無
駄のある構造をとることなく、高速性を保てる単語辞書
検索装置を提供することである。
(課題を解決するための手段) 本願の第1の発明の単語辞書検索装置は、各文字に対
して第1から第m候補(mはm≧2なる整数)までのm
種類の候補が存在する文字列を入力する入力装置と、n
文字分(nはn≧1なる整数)のデータ巾をもつ各アド
レスに見出しを1個ずつ格納してn文字に満たない部分
にあらかじめ定めた残余記号を詰めて構成され見出しの
種類に応じて区分されたs種類(sはs≧2なる整数)
の単語辞書メモリ登録単語数≧2)と、前記入力装置に
よって1文字に対するm種類の候補が入力されるたびに
1回のシフトクロック並びに前記単語辞書メモリ内の全
単語数に応じた回数の判定クロック及びカウンタクロッ
クを発生するコントローラと、前記シフトクロックに同
期したリセットと前記カウンタクロックに同期したカウ
ントアップとを行なう前記s種類の単語辞書メモリに共
通のアドレスカウンタと、前記入力装置によって入力さ
れた文字列の第1・第2・…・第m候補に対応し前記シ
フトクロックに同期した1文字ずつの順送りを行なう各
々n文字分の第1・第2・…・第m候補シフトレジスタ
と、前記s種類の単語辞書メモリの1つを選択するスイ
ッチと、前記スイッチで選択された単語辞書メモリから
読み出されるn文字分のデータの1文字目・2文字目・
…・n文字目に対応し該当位置の文字が前記第1・第2
・…・第m候補シフトレジスタのいずれかの同位置の文
字または前記残余記号に一致したとき一致信号を出力す
る1文字目・2文字目・…・n文字目比較回路と、前記
判定クロックに同期して前記1文字目・2文字目・…・
n文字目比較回路のすべてから一致信号が検出された場
合に前記入力装置によって入力された文字列中に前記単
語辞書メモリ内に存在する単語が出現したと判定する判
定回路とを備える。
本願の第2の発明の単語辞書検索装置は、各文字に対
して第1から第m候補(mはm≧2なる整数)までのm
種類の候補が存在する文字列を入力する入力装置と、n
文字文(nはn≧1なる整数)のデータ巾をもつ各アド
レスに見出しを1個ずつ格納してn文字に満たない部分
にあらかじめ定めた残余記号を詰めて構成され見出しの
種類に応じて区分されたs種類(sはs≧2なる整数)
の単語辞書メモリ(登録単語数≧2)と、各アドレスに
単語に関する前記s種類の見出し以外の付加情報を格納
した付加情報メモリと、前記入力装置によって1文字に
対するm種類の候補が入力されるたびに1回のシフトク
ロック並びに前記単語辞書メモリ内の全単語数に応じた
回数の判定クロック及びカウンタクロックを発生するコ
ントローラと、前記シフトクロックに同期したリセット
と前記カウンタクロックに同期したカウントアップとを
行なう前記s種類の単語辞書メモリと前記付加情報メモ
リとに共通のアドレスカウンタと、前記入力装置によっ
て入力された文字列の第1・第2・…・第m候補に対応
し前記シフトクロックに同期した1文字ずつの順送りを
行なう各々n文字分の第1・第2・…・第m候補シフト
レジスタと、前記s種類の単語辞書メモリの1つを選択
するスイッチと、前記スイッチで選択された単語辞書メ
モリから読み出されるn文字分のデータの1文字目・2
文字目・…・n文字目に対応し該当位置の文字が前記第
1・第2・…・第m候補シフトレジスタのいずれかの同
位置の文字または前記残余記号に一致したとき一致信号
を出力する1文字目・2文字目・…・n文字目比較回路
と、前記判定クロックに同期して前記1文字目・2文字
目・…・n文字目比較回路のすべてから一致信号が検出
された場合に前記入力装置によって入力された文字列中
に前記単語辞書メモリ内に存在する単語が出現したと判
定する判定回路と前記判定回路により出現が検出された
単語について前記スイッチで選択された単語辞書メモリ
以外の単語辞書メモリ内と前記付加情報メモリ内とを選
別出力するセレクタとを備える。
(実施例) 図面を用いて、本願発明の構成・作用を説明する。
第1図は本願の第1の発明の単語辞書検索装置の第1
の実施例の構成を示すブロック図である。以下、まず、
各構成要素を説明する。
入力装置5は、各文字に対して第1の候補から第m候
補(mはm≧2なる整数)までのm種類の候補が存在す
る文字列を入力する装置であり、例えば、音声認識装置
や文字認識装置などである。入力装置5は、各文字に対
するm個の候補を同時に出力し、その出力のタイミング
を入力クロック50によってコントローラ7へ伝える。
単語辞書メモリ1は、n文字分(nはn≧1なる整
数)のデータ巾をもつ各アドレスに見出しを1個ずつ格
納し、n文字に満たない部分にはあらかじめ定めた残余
記号を詰めて構成されたものである。この単語辞書メモ
リ1を、見出しの種類の異なるs種類(sはs≧2なる
整数)だけ設ける。以下、s種類の単語辞書メモリ1
を、第1の単語辞書メモリ、第2の単語辞書メモリ、…
……、第sの単語辞書メモリとする。ちなみに、第1図
ではs=2としている。第1の単語辞書メモリは単語の
読みがなを見出しとしたものであり、第2の単語辞書メ
モリは第2の表記を見出しとしたものである。他にも単
語の英表記を見出しとしたものなども考えられる。s種
類の単語辞書メモリについて、同一のアドレスには同一
の単語に対する見出しを格納するものとする。ただし、
この第1の実施例では、単語の出現のみを判定するの
で、必ずしも、同一アドレスが同一単語に対応してなく
とも動作する。さらに単語辞書メモリ内の単語の並び
は、ソートされている必要はない。
第5図は、単語辞書メモリ1の内容の例を示す図であ
る。第5図(a)は第1の単語辞書メモリの内容の例、
第5図(b)は第2の単語辞書メモリの内容の例であ
る。いずれもn=6としている。なお、Δが残余記号を
表している。第5図(a)の第1の単語辞書メモリのア
ドレスaとすると、「にほんΔΔΔ」というn(=6)
文字が同時に読み出される。同じアドレスに対して、第
5図(b)の第2の単語辞書メモリからは、「日本ΔΔ
ΔΔ」というn(=6)文字が同時に読み出される。単
語辞書メモリ1は、ICメモリなどを用いて実現できる。
通常、日本語の文字コードは16ビットで表現されるの
で、第5図のデータ巾は16×6=96ビットである。現在
のICメモリでは、同時に読み出されるデータ巾が8ビッ
ト程度であるから、第5図の各単語辞書メモリは、その
ようなICメモリを12個並列に並べて実現できる。
コントローラ7は、入力装置5によって1文字に対す
るm種類の候補が入力されるたびに、1回のシフトクロ
ック並びに、単語辞書メモリ1内の全単語数に応じた回
数の判定クロックおよびカウンタクロックを発生する。
第6図は、コントローラ7の入力信号のタイムチャート
の例である。第6図のタイムチャートでは、入力装置5
から入力クロック50が入力されるたびに、まず、シフト
クロック70を1回出力する。本実施例では入力クロック
50をそのままシフトクロック70として出力している。続
いて、判定クロック2とカウンタクロック71とを交互に
N回出力している。ただし、カウンタクロック71は(N
−1)回でもよい。ここで、Nは単語辞書メモリ1内の
全単語数である。このようなタイムチャート通りに動作
するコントローラ7は、当業者において容易に実現可能
である。
アドレスカウンタ4は、シフトクロック70に同期した
リセットと、カウンタクロック71に同期したカウントア
ップとを行なうカウンタで、カウンタ値をs種類の単語
辞書メモリ1の共通のアドレス値として出力する。アド
レスカウンタ4は従来のカウンタICで実現できる。
第i候補シフトレジスタ2は、入力装置5によって入
力された文字列の第i候補(iは1≦i≦mなる整数)
を、シフトクロック70に同期して1文字ずつ順送りしな
がら、n文字分格納するシフトレジスタである。このシ
フトレジスタ2は、入力文字列の各文字に対するm個の
候補の各々に対して設けられており、第1の候補シフト
レジスタ、第2候補シフトレジスタ、………、第m候補
シフトレジスタのm個がある。第7図は、各シフトレジ
スタ2の構成例を示した図である。1も字をdビットで
実現している場合、第i候補シフトレジスタ2は、第7
図のように、シフトクロック70に同期した(d×n)個
のDフリップフロップで実現できる。すなわち、d個並
列に並べたものを、n個直列に接続する。並列に接続し
たd個が1文字に対応し、その出力は各文字目毎にまと
めて比較回路3へ送られる。
スイッチ8は、s種類の単語辞書メモリ1の1つを選
択する手段である。選択された単語辞書メモリに対応す
る値を選択信号80として出力する。例えば、s=2の場
合は、選択信号線を1ビット用意し、その値が0のとき
第1の単語辞書メモリ、値が1のとき第2の単語辞書メ
モリに対応させればよい。一般に、選択信号線は、logs
ビット必要になる。このスイッチ8は、トグルスイッ
チ、ディップスイッチなどで実現できる。なお、入力装
置5から入力されるテキストの文字コードに応じて、切
り換えるようなスイッチ8の構成も可能である。
j文字目比較回路3は、アドレスカウンタ4の示す1
つのアドレスに対して、スイッチ8で選択された単語辞
書メモリ1から読み出されるn文字分のデータ中のj番
目(jは1≦j≦nなる整数)の文字が、m個のシフト
レジスタ2のj番目の文字のいずれか、または、残余記
号に一致したときに、一致信号を出力する回路である。
この比較回路3は、単語辞書メモリ1のデータ巾n文字
の各々に対応した数だけ設けられており、1文字目比較
回路、2文字目比較回路、………、n文字目比較回路の
n個がある。第8図はj文字目比較回路3の構成例を示
した図である。1も字をdビットで表現して、シフトレ
ジスタ2がm個設けられている場合、j文字目比較回路
3は、第8図のように、(m+1)個のdビット比較器
と、1個のORゲートと、1個のdビットセレクタとで構
成できる。dビットセレクタは、選択信号80にしたがっ
て、s個の単語辞書メモリから読み出されたs種類のj
文字目データのうちの1つを選択する(第8図ではs=
2としてある)。n個のdビット比較器はdビッチセレ
クタで選択された文字と各シフトレジスタ2のj文字目
とを比較する。一方、残りの1個のdビット比較器はd
ビットセレクタで選択された文字が残余記号であるか否
かを調べる。最終的なORゲートの出力では、この(m+
1)個の比較器のいずれかで一致が検出されたときに、
一致信号30が出力される。さらに、第9図はj文字目比
較回路3の別の構成例を示した図である。第9図の構成
では、各単語辞書メモリから読み出されたj文字目ごと
に、(m+1)個のdビット比較器でm個のシフトレジ
スタのj文字目および残余記号との比較を行ない、その
結果を1ビットセレクタで選択して出力する。
判定回路6は、判定クロック2に同期して、n個の比
較回路3のすべてから一致信号が検出された場合に、入
力装置5によって入力された文字列中に単語辞書メモリ
1内に存在する単語が出現したと判定する回路である。
第10図は、判定回路6の構成例を示す図である。判定回
路6は、第10図のように、1個のANDゲートと1個のD
フリップフロップで実現できる。
次にこの実施例の動作を例を用いて説明する。
第11図・第12図(a)〜(l)は、単語辞書メモリの
データ巾n=6、候補数m=3で、入力文字列の長さが
6のとき、第1の候補シフトレジスタ・第2候補シフト
レジスタ・第3候補レジスタの内容の変化の例を示した
図である。第11図は、入力装置5として文字認識装置が
用いられ、漢字かな混じり文字列が入力された場合の一
例である。また、第12図は、入力装置5として音声認識
装置が用いられ、かな文字列が入力された場合の一例で
ある。第11図・第12図ともに、3×6のマトリックス
は、1行が各シフトレジスタ2の内容に対応しており、
行方向が文字位置(1〜6)、列方向が候補レベル(1
〜3)を表わしている。例えば、第11図の例でシフトレ
ジスタ2に入力されている文字列は、1文字目の候補は
第1候補から順に「日」「白」「目」、2文字目の候補
は順に「木」「本」「大」、3文字目は順に「語」
「話」「詰」、4文字目は順に「の」「め」「つ」、5
文字目は順に「丈」「又」「文」、6文字目は順に
「章」「草」「早」である。斜線部分は文字が格納され
ていないことを表わす。
第11図のような入力文字列(入力装置5が文字認識装
置の場合)に対しては、第5図(b)のような単語の表
記を見出しとして単語辞書検索処理を行なうように、ス
イッチ8を設定する。すなわち、第2の単語辞書メモリ
(表記を見出しとしたとき単語辞書メモリ)を選択す
る。
そのとき、第11図において、(a)→(b)→(c)
→(d)→(e)→(f)→(g)→(h)→(i)→
(j)→(k)→(l)という変化は、シフトクロック
70が1回発生されるたびに起こる変化を示している。そ
して、(a)〜(k)の各々の状態で、カウンタクロッ
ク71と判定クロック72が全単語数Nと同じN回発生され
る。アドレスカウンタ4は、シフトクロック70によって
リセットされ、カウンタクロック71によってN回カウン
トアップされるため、各状態で、単語辞書メモリ1から
は、先頭の単語から末尾の単語まで順に、全単語(N
個)の表記が読み出される。そして、n個(この例では
6個)の比較回路3において、スイッチ8によって選択
され単語辞書メモリ1の全見出しと、第11図のシフトレ
ジスタの内容との照合が行なわれることになる。
その結果、各状態では、第2の単語辞書メモリ1内の
例えば次のような単語(見出し)に対して、判定回路6
の出現を検出する。
(a)該当なし (b)該当なし (c)該当なし (d)該当なし (e)該当なし (f)「日」「白」「目」「日本」「日大」「白木」
「日本語」 (g)「木」「本」「大」「大詰め」 (h)「語」「話」「詰め」 (i)「の」「め」「つ」 (j)「丈」「又」「文」「文章」 (k)「章」「草」「早」 このうち、状態(f)における第7図のシフトレジス
タ2の内容と、第2図の単語辞書メモリ1内の見出し
「日本」(=「日本ΔΔΔΔ」)とを照合する際の、各
比較回路3の動作を説明する。1文字目比較回路は、
「日本ΔΔΔΔ」の「日」と第1候補シフトレジスタの
1文字目の「日」との一致により一致信号30を発生す
る。2文字目比較回路は、「日本ΔΔΔΔ」の「本」と
第2候補シフトレジスタの2文字目の「本」との一致に
より一致信号30を発生する。3文字目比較回路から6文
字目比較回路までは、「日本ΔΔΔΔ」の「Δ」(残余
記号)を検出して一致信号30を発生する。その結果、判
定回路6は、すべての比較回路3の一致信号30を受け
て、単語の出現を検出することになる。
さて、第12図のような文字列が入力される場合(入力
装置5が音声認識装置の場合)には、第5図(a)のよ
うな単語の読みがなを見出しとして単語辞書検索処理を
行なうように、スイッチ8を切り換える。すなわち、第
1の単語辞書メモリ(読みがなを見出しとした単語辞書
メモリ)を選択し直す。そして、同様に、1文字ずつ順
送りしながら、その度に、第1の単語辞書メモリ1の全
見出しとシフトレジスタ2の内容とを照合する。その結
果、各状態で検出される第1の単語辞書メモリ内の単語
(見出し)は、例えば、次のようなものである。
(a)該当なし (b)該当なし (c)該当なし (d)該当なし (e)該当なし (f)「に」「い」「り」「にお」「にほん」「いは
ん」「いほう」「いおん」「いおう」 (g)「は」「お」「はん」「ほん」「ほほ」「ほう」
「おん」「おう」「はんぐ」「ほんぶ」「おんぶ」「は
んぐん」「はんぶん」「ほんぶん」「おうぼう」 (h)「ん」「う」「ほぐ」「ほぼ」「ほぶん」 (i)「ぐ」「ぶ」「ぼ」「ぐん」「ぶん」「ぼん」
「ぐんか」「ぶんか」 (j)「ん」「う」「ほか」 (k)「か」「く」「が」 なお、入力文字列長がkの場合、シフトレジスタ2内
の順送りは、少なくとも(k+n−1)回行なわれる必
要がある。したがって、入力装置5は、長さkの入力文
字列を入力した後、さらに、(n−1)回のダミーの文
字列入力を行なう必要がある。あるいは、コントローラ
7が、入力文字列の末尾を検出して、さらに、シフトク
ロック70を1回カウンタクロック71と判定クロック72を
N回ずつというサイクルを、(n−1)回繰り返すよう
にしてもよい。
また、最初の(n−1)回の順送りの間(第11図・第
12図では(a)から(e)まで)は、入力文字列がシフ
トレジスタ2の先頭まで到達していないので、単語辞書
メモリ1との照合を行なっても意味がない。そこで、そ
の間は、コントローラ7は、カウンタクロック71や判定
クロック72を発生せず、シフトクロック70のみを連続し
て発生するようにしてもよい。
以上に示したように、この第1の実施例では、入力装
置5として、文字認識装置を用い表記を見出しとした単
語辞書検索を行なう場合、音声認識装置を用いて読みが
なを見出しとした単語辞書検索を行なう場合、スイッチ
を切り換えるだけで共通に適用できる。
第2図は、第2の実施例の構成を示すブロック図であ
る。第1の実施例では、単語の出現を検出するのみであ
ったが、第2の実施例では、検出された単語に関する情
報を出力する。第2の実施例は、第1図にその構成を示
した第1の実施例に、付加情報メモリ9と出力レジスタ
10を追加したものである。
ここで、付加情報メモリ9は、s種類の単語辞書メモ
リ1の見出し以外の付加情報を格納したメモリである。
例えば、単語の品詞、アクセント、意味分類、表記長、
読み長などを収める。付加情報メモリ9では、単語辞書
メモリ1の単語と同一のアドレスに、それら付加情報を
格納する。第13図は、単語辞書メモリ1と付加情報メモ
リ9の内容の対応例を示した図である。ただし、付加情
報としては品詞しか登録していない。アドレスaは、表
記が「日本」、読みがなが「にほん」、品詞が固有名詞
である単語に対応している。アドレスカウンタ4は、s
種類の単語辞書メモリ1だけでなく、付加情報メモリ9
にも、共通のアドレスを与えるようにする。
出力レジスタ10は、s種類の単語辞書メモリ1と付加
情報メモリ9から読み出される1つの単語に対する全情
報(s種類の見出しの内容と付加情報の内容)を、その
まま判定回路6から出力れる検出クロック60のタイミン
グでラッチする。出力レジスタ10はフリップフロップで
実現されるレジスタである。
ここで、漢字かな混じり文字列のテキストを文字認識
し、さらに、文章解析・音声合成する読書器を考えた場
合、表記を見出しとした単語辞書検索処理の結果とし
て、読みがな・品詞などは必要であるが、表記は出力さ
れる必要はないなぜならば単語辞書検索処理の後で行な
われる音声合成処理では使われないからである。たま、
逆に、音声入力で文章を作成する音声ワードプロセッサ
を考えた場合、読みがなを見出しとした単語辞書検索処
理の結果として、表記・品詞などは必要であるが、読み
がなは出力される必要はない。そこで、第2の実施例の
ように単語の情報をすべて出力するのではなく、検出の
際に用いられた見出しは出力しないようにしたものが、
第3の実施例である。第3図は、この第3の実施例の構
成を示すブロック図である。この第3の実施例は、本願
の第2の発明にもとづくものである。
第3の実施例では、第2図にその構成を示した第2の
実施例の対して、セレクタ11が追加されている。なお、
第1の実施例に対しては、付加情報メモリ9、セレクタ
11、出力レジスタ10が追加されている。
第3図において、セレクタ11は、s種類の単語辞書メ
モリ1の内容(s種類の見出し)のうちスイッチ8で選
択された単語辞書メモリ以外の(s−1)種類の内容
と、付加情報メモリ9の内容とを選別出力する。例え
ば、第2の単語辞書メモリ1がスイッチ8で選択されて
いる際、その第2の単語辞書メモリ1内の見出し「日
本」に対して検出が行なわれたときは、第1の単語辞書
メモリ1の内容「にほん」と付加情報メモリ9の内容
「固有名詞」が出力される。すなわち、「日本」は出力
されない。
以上の第1〜第3の実施例では、入力文字列の各文字
にm個の候補が存在する一般的な場合の実施例を示した
が、かな漢字変換における単語辞書検索や、作成した文
章を音声出力するための漢字かな変換における単語辞書
検索などでは、入力文字列の各文字は1通りである(m
=1)。第3図の実施例においてm=1とした場合の単
語辞書検索装置の例を第4図に示す。第4図は第4の実
施例の構成を示すブロック図である。
第4図の例では、シフトレジスタ2が1個でよい。構
成要素・動作は、これまでに示した実施例について、m
=1とすればよいので、詳しい説明を省略する。かな漢
字変換の際には、入力されたかな文字列と、第1の単語
辞書メモリ(読みがなを見出しとする単語辞書メモリ)
の見出しとを照合して、検出された単語について、表記
・品詞などが出力される。漢字かな変換の際には、入力
された漢字かな混じり文字列と、第2の単語辞書メモリ
(表記を見出しとする単語辞書メモリ)の見出しとを照
合して、検出された単語について、読みがな・品詞など
が出力される。
なお、見出しによって、1文字を表現するビット数が
異なることがある。例えば、漢字かな混じりの表記の1
文字の表現には、通常、16ビットが必要であるが、読み
がなの1文字は8ビットで表現可能である。そのような
場合に対処する方法の1つは、多いビット数のものに合
わせることである。例えば、読みがなの1文字にも、8
ビット余分なビットを付加して、16ビット割り当てれば
よい。別な対処方法は、公約数のビット数を単位とし
て、有効な区切りのみを利用するものである。例えば、
8ビットを単位として順送りや比較を行ない、表記に関
する照合の場合には、偶数回目の順送りの回だけを有効
とすればよい。なお、読みがなは8ビットなので、毎回
有効である。
(発明の効果) 以上に説明したように、本願発明によれば、漢字のよ
うに種類の多い文字から成る文字列に対して、各文字が
複数の候補をもっていても、高速に単語辞書との照合が
可能な単語辞書検索装置が得られる。特に、入力文字列
の各文字の候補数にも、単語辞書内の単語の表記長にも
かかわらず、入力文字列と単語辞書内の1つの単語との
照合が2クロック程度の間に行えることの効果が大き
い。
また、検索キーが1種類に限定されず、複数種類の検
索キーを切り換えて照合が可能である。しかも、複数種
類の検索キーを用いることによる単語辞書容量の無駄な
増加は発生しない。そして、いずれの種類の検索キーに
ついても、検索の高速性は保たれている。
また、本願発明の各構成要素は、少数のロジックICを
組み合わせで実現できる。したがって、LSI技術を利用
すれば、非常に小型の装置として実現できる点も長所で
ある。それに加えて、第1の従来技術のように、汎用計
算機上のソフトウェアとして実現されるのではなく、専
用ハードウェア・特殊LSIとして実現できるため、クロ
ックの周波数自体を、汎用計算機に比べてかなり高く設
定することが可能であり、この点でも高速性が優れてい
る。
以上のような高速性から、本願発明では、前述の第1
の従来技術のように単語辞書内で照合する単語数を制限
せずに単語辞書内の全単語との照合を行なっても、従来
より十分高速な単語辞書検索装置が得られる。この結
果、単語辞書内が見出しのコード順にソートされている
必要がないという長所も生ずる。したがって、単語の追
加・削除が行なわれても、単語辞書を編成し直す必要が
なく、単語辞書のメンテナンスがきわめて容易である。
【図面の簡単な説明】
第1図は本願発明の第1の実施例の構成を示すブロック
図、第2図は第2の実施例の構成を示すブロック図、第
3図は第3の実施例の構成を示すブロック図、第4図は
m=1とした単語辞書検索装置の例の構成を示すブロッ
ク図、第5図は単語辞書メモリ1の内容の例を示す図、
第6図はコントローラ7の入力信号のタイムチャート、
第7図はシフトレジスタ2の構成例を示す図、第8図・
第9図は比較回路3の構成例を示す図、第10図は判定回
路6の構成例を示す図、第11図(a)〜(l)は漢字か
な混じり文字列の入力に対するシフトレジスタ2の内容
の変化の例を示す図、第12図(a)〜(l)はかな文字
列の入力に対するシフトレジスタ2の内容の変化の例を
示す図、第13図は単語辞書メモリ1と付加情報メモリ9
の対応を示す図である。 1……単語辞書メモリ、2……シフトレジスタ(第i候
補シフトレジスタ)、3……比較回路(j文字目比較回
路)、4……アドレスカウンタ、5……入力装置、6…
…判定回路、7……コントローラ、8……スイッチ、9
……付加情報メモリ、10……出力レジスタ、30……一致
信号、50……入力クロック、60……検出クロック、70…
…シフトクロック、71……カウンタクロック、72……判
定クロック、80……選択信号。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】各文字に対して第1から第m候補(mはm
    ≧2なる整数)までのm種類の候補が存在する文字列を
    入力する入力装置と、n文字分(nはn≧1なる整数)
    のデータ巾をもつ各アドレスに見出しを1個ずつ格納し
    てn文字に満たない部分にあらかじめ定めた残余記号を
    詰めて構成され見出しの種類に応じて区分されたs種類
    (sはs≧2なる整数)の単語辞書メモリ(登録単語数
    ≧2)と、前記入力装置によって1文字に対するm種類
    の候補が入力されるたびに1回のシフトクロック並びに
    前記単語辞書メモリ内の全単語数に応じた回数の判定ク
    ロック及びカウンタクロックを発生するコントローラ
    と、前記シフトクロックに同期したリセットと前記カウ
    ンタクロックに同期したカウントアップとを行なう前記
    s種類の単語辞書メモリに共通のアドレスカウンタと、
    前記入力装置によって入力された文字列の第1・第2・
    …・第m候補に対応し前記シフトクロックに同期した1
    文字ずつの順送りを行なう各々n文字分の第1・第2・
    …第m候補シフトレジスタと、前記s種類の単語辞書メ
    モリの1つを選択するスイッチと、前記スイッチで選択
    された単語辞書メモリから読み出されるn文字分のデー
    タの1文字目・2文字目・…・n文字目に対応し該当位
    置の文字が前記第1・第2・…・第m候補シフトレジス
    タのいずれかの同位置の文字または前記残余記号に一致
    したとき一致信号を出力する1文字目・2文字目・…・
    n文字目比較回路と、前記判定クロックに同期して前記
    1文字目・2文字目・…・n文字目比較回路のすべてか
    ら一致信号が検出された場合に前記入力装置によって入
    力された文字列中に前記単語辞書メモリ内に存在する単
    語が出現したと判定する判定回路とを備えたことを特徴
    とする単語辞書検索装置。
  2. 【請求項2】各文字に対して第1から第m候補(mはm
    ≧2なる整数)までのm種類の候補が存在する文字列を
    入力する入力装置と、n文字分(nはn≧1なる整数)
    のデータ巾をもつ各アドレスに見出しを1個ずつ格納し
    てn文字に満たない部分にあらかじめ定めた残余記号詰
    めて構成され見出しの種類に応じて区分されたs種類
    (sはs≧2なる整数)の単語辞書メモリ(登録単語数
    ≧2)と、各アドレスに単語に関する前記s種類の見出
    し以外の付加情報を格納した付加情報メモリと、前記入
    力装置によって1文字に対するm種類の候補が入力され
    るたびに1回のシフトクロック並びに前記単語辞書メモ
    リ内の全単語数に応じた回数の判定クロック及びカウン
    タクロックを発生するコントローラと、前記シフトクロ
    ックに同期したリセットと前記カウンタクロックに同期
    したカウントアップとを行なう前記s種類の単語辞書メ
    モリと前記付加情報メモリとに共通のアドレスカウンタ
    と、前記入力装置によって入力れた文字列の第1・第2
    ・…・第m候補に対応し前記シフトクロックに同期した
    1文字ずつの順送りを行なう各々n文字分の第1・第2
    ・…・第m候補シフトレジスタと、前記s種類の単語辞
    書メモリの1つを選択するスイッチと、前記スイッチで
    選択された単語辞書メモリから読み出されるn文字分の
    データの1文字目・2文字目・…・n文字目に対応し該
    当位置の文字が前記第1・第2・…・第m候補シフトレ
    ジスタのいずれかの同位置の文字または前記残余記号に
    一致したとき一致信号を出力する1文字目・2文字目・
    …・n文字目比較回路と、前記判定クロックに同期して
    前記1文字目・2文字目・…・n文字目比較回路のすべ
    てから一致信号が検出された場合に前記入力装置によっ
    て入力された文字列中に前記単語辞書メモリ内に存在す
    る単語が出現したと判定する判定回路と前記判定回路に
    より出現が検出された単語について前記スイッチで選択
    された単語辞書メモリ以外の単語辞書メモリ内と前記付
    加情報メモリ内とを選別出力するセレクタとを備えたこ
    とを特徴とする単語辞書検索装置。
JP1250039A 1989-09-25 1989-09-25 単語辞書検索装置 Expired - Lifetime JP2526678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1250039A JP2526678B2 (ja) 1989-09-25 1989-09-25 単語辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1250039A JP2526678B2 (ja) 1989-09-25 1989-09-25 単語辞書検索装置

Publications (2)

Publication Number Publication Date
JPH03110675A JPH03110675A (ja) 1991-05-10
JP2526678B2 true JP2526678B2 (ja) 1996-08-21

Family

ID=17201917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1250039A Expired - Lifetime JP2526678B2 (ja) 1989-09-25 1989-09-25 単語辞書検索装置

Country Status (1)

Country Link
JP (1) JP2526678B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60147888A (ja) * 1984-01-12 1985-08-03 Comput Basic Mach Technol Res Assoc 文字認識後処理方法及びその装置
JPS63157266A (ja) * 1986-12-22 1988-06-30 Nec Corp 単語辞書構成方式
JPS63261421A (ja) * 1987-04-17 1988-10-28 Mitsubishi Electric Corp 文字列処理装置
JPS63261422A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文字列照合装置
JPH06103266B2 (ja) * 1988-03-30 1994-12-14 三菱電機株式会社 メタン生成菌計測装置
JP2755278B2 (ja) * 1992-08-28 1998-05-20 不二製油株式会社 グリセロ糖脂質の製造法

Also Published As

Publication number Publication date
JPH03110675A (ja) 1991-05-10

Similar Documents

Publication Publication Date Title
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
KR100693697B1 (ko) 모호성 텍스트 엔트리의 명시적 문자 필터링
US6646573B1 (en) Reduced keyboard text input system for the Japanese language
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPH0533422B2 (ja)
JPH0896085A (ja) 文字認識文字補完方法及びコンピュータ・システム
US5560037A (en) Compact hyphenation point data
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JP2526678B2 (ja) 単語辞書検索装置
JP3532780B2 (ja) 音声仮名文字の入力順序を生成するための入力システム
JP2526670B2 (ja) 単語辞書検索装置
JPH0670788B2 (ja) 巣語辞書検索装置
JP2002207557A (ja) 日本語入力システム、日本語入力方法、および、記録媒体
JPH03110676A (ja) 単語辞書検索装置
JPH04340166A (ja) 単語辞書検索装置
JPH0670789B2 (ja) 単語辞書検索装置
JP3492981B2 (ja) 音声仮名文字の入力順序を生成するための入力システム
JPH0140372B2 (ja)
CN101206665A (zh) 一种多语种文字信息搜索方法
JPH04215181A (ja) 情報検索処理方式および検索ファイル作成装置
JP2744241B2 (ja) 文字処理装置
Newitt et al. A structure for real-time stenotype transcription
JPH0830626A (ja) 日本語電子化辞書検索装置
JPH0337754A (ja) 単語辞書検索装置
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法