JPH03110676A - 単語辞書検索装置 - Google Patents

単語辞書検索装置

Info

Publication number
JPH03110676A
JPH03110676A JP1250040A JP25004089A JPH03110676A JP H03110676 A JPH03110676 A JP H03110676A JP 1250040 A JP1250040 A JP 1250040A JP 25004089 A JP25004089 A JP 25004089A JP H03110676 A JPH03110676 A JP H03110676A
Authority
JP
Japan
Prior art keywords
character
word dictionary
characters
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1250040A
Other languages
English (en)
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1250040A priority Critical patent/JPH03110676A/ja
Publication of JPH03110676A publication Critical patent/JPH03110676A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力文字と単語辞書とを照合して、入力文字
列において、単語辞書内に存在する単語が出現した部分
を検索する単語辞書検索装置に関するものである。ただ
し、入力文字列は、各文字が複数の候補をもつ場合と、
1個しかもたない場合がある。また、単語辞書検索にお
ける検索キーは、単語の表記(漢字かな混じり文字列)
の場合と、読みがな(かな文字列)の場合が多い。
入力文字列のの各文字に複数の候補がなく一意な場合の
単語辞書検索装置は、かな漢字変換装置においてキーボ
ードから入力されなかな文字列に対する単語辞書検索を
行なう部分や、機械翻訳装置・文音声変換装置・文章構
成装置などにおいてワードプロセッサなどで作成された
漢字かな混じり文字列に対する単語辞書検索を行なう部
分などに用いられている。前者は検索キーが読みがなで
、後者は検索キーが表記である。
入力文字列の各文字に複数の候補がある場合の単語辞書
検索装置は、音声認識装置や文字認識装置などにおいて
、認識結果の複数の候補文字から最も確からしい文字を
選択するための単語辞書検索部などに用いられている。
音声認識の場合は検索キーが読みがな(音節)で、文字
認識の場合は検索キーが表記である。
(従来の技術) 従来、かな漢字変換装置・文音声変換装置などにおいて
用いられている単語辞書検索方式は、基本的に、文献=
「計算機によるカナ漢字変換」(和訳・江原、N HK
技術研究、第25巻第5号、23頁〜60頁、1973
年)に示されている方式を引き継いでいる。すなわち、
入力された文字列から部分文字列を切り出して、その部
分文字列に表記(かな漢字変換では「かな表記」すなわ
ち「読みがな」)の一致する単語を単語辞書内から検索
するという処理を行なう(これを、以下では、第1の従
来技術と呼ぶことにする)。
第1の従来技術では、例えば、「文章を解析する」とい
う漢字かな混じり文字列に対する単語辞書検索を行なう
場合は、1文字目・2文字目など各文字位置から始まる
単語を検索するために、「文章を解析する」 「章を解
析する」 「を解析する」 「解析する」 「する」 
「る」といった部分文字列を別々に切り出す、そして、
各部分文字列について、さらに、末尾を削った部分文字
列も生成して、その各々を単語辞書から検索する。すな
わち、1文字目から始まる単語を検索する際には、「文
章を解析する」 「文章を解析すJ 「文章を解析」 
「文章を解」「文章を」「文章」 1文」といった部分
文字列に関して、検索を次々に繰り返し、2文字目から
始まる単語を検索する際には、「章を解析する」 1章
を解析す」 「章を解析」 「章を解析」 「章を」 
「章」といった部分文字列に関して、検索を次々に繰り
返すわけである。その結果、下線を引いた部分文字列な
どについて、表記の一致する単語が見つかることになる
この第1の従来技術では、上述のように複数の部分文字
列に対して単語辞書の検索を繰り返すわけであるが、単
語辞書の構成を工夫しておくことによって、1つの部分
文字列に対する検索の所要時間の短縮を図っている0例
えば、単語辞書内の単語をあらかじめソートしておいて
二分検索を行なったり1文字目・2文字目などに文字ご
とに分割して共通な部分をまとめて木構造として1文字
ずつの照合を行なうなどである。このような辞書の構造
と検索方式については、文献:“The^「tof C
oggputer・Programming 3 :5
OrtinU and Sear−ching”(D、
E、Knuth、^ddison Wesley、19
73 )に多く示されている。
ただし、この第1の従来技術は、コンピュータの逐次型
10グラムとしての実現を想定しており、所要時間短縮
の工夫は逐次処理の枠内での工夫である。したがって、
入力文字列のある部分文字列と単語辞書内のある単語の
表記の文字列とを比較する処理などは、1文字ずつ逐次
性なわれる。
例えば、「文章をノという部分文字列と単語辞書内の「
文章」という単語の比較は、「文」と1文」とを照合し
、一致したところでr章」とr章」とを照合し、次に、
「を」に対して不一致となり失敗するというように、1
文字ずつの照合処理の繰り返しである。
また、第1の従来技術では、入力文字列の各文字にm個
ずつ候補があるような場合は、あらかじめ、長さしの部
分文字列に対して、候補を組み合わせたm’通りの文字
列を生成する必要がある。
そして、それらの各々について、さらに、上記のように
末尾を削った部分文字列を生成して、単語辞書内を検索
することになる。
一方、ある長さしの文字列と入力文字列との比較の際に
、1文字ずつの照合を繰り返すのではなく、対応する文
字位置のL組の照合を同時に行なうことが考えられてい
る。(以下、第2の従来技術と呼ぶ、)その際、入力文
字列をシフトレジスタに格納しておけば、照合の位置を
ずらすことが、入力文字列から再度部分文字列を切り出
すのではなく、シフトレジスタ内の全文字を一度に1文
字ずらすことで実現できるようにもなる。この第2の従
来技術は、特開昭63−261421号公報「文字列処
理装置」および特開昭63−261422号公報r文字
列照合装置」に述べられている。
なお、この第2の従来技術では、入力文字列に複数の候
補は存在せず、検索される文字列も1通りに限られるも
ので単語辞書のように多数ではない。
特開昭62−67636号公報「照合方式」および文献
:「音声日本語入力システムにおける高速な言語処理の
ための辞書照合アルゴリズム」(浜口・銘木、電子情報
通信学会論文誌、第、170−D巻第8号、1589頁
〜1596頁、1987年)には、第3の従来技術が示
されている。
この第3の従来技術で、入力文字列に複数の文字候補が
あることを想定している。まず、文字の種類をM(例え
ば、JISの文字コード表では、ひらがなについてM=
83)とすると、1文字目・2文字目など各文字位置に
、Mビットのメモリを1個ずつ用意し、複数の候補文字
に対応する各ビットを1にしておく、そして、照合時は
、単語辞書内の各単語について、単語の表記の1文字目
・2文字目など文字位置ごとに、対応するMビットメモ
リから、対応する文字のビット内容(1または0)を同
時に読み出す、すべてのMビットメモリから1が読み出
されたら、入力文字列巾に単語辞書内にある単語が出現
したことになる。
以上の第1〜第3の従来技術では、単語辞書を検索する
際の検索キーを1種類しか設けていない。
しかし、文書処理システムでは、単B辞書検索の際に、
複数の検索キーを設定する必要が生ずることがある0例
えば、文献:「日本語文章作成支援システムCOMET
−文章解析応用の統合化方式を中心に−」 (福島・犬
山、情報処理学会・文書処理とヒユーマンインタフェー
ス研究会、2〇−2,1988年)では、かな漢字変換
、文音声変換、文章構成などのアプリケーションを統合
化したシステムが述べられている。上記の文献では、か
な漢字変換用の単語の読みがなを検索キーとして単語の
表記を得る辞書と、文音声変換・文章校正用の単語の表
記を検索キーとして単語の読みがなを得る辞書という、
2種類の独立した単語辞書を用いている(以下では、こ
れを、第4の従来技術と呼ぶことにする)、そして、そ
の各々については、第1の従来技術の手法を適用してい
る。したがって、単語の読みがなと表記とは、2つの辞
書の両方に重複して登録されていることになる。
これに対して、1つのめ単語辞書を、単語の読みがなで
も表記でも検索できるようにしたのが、以下に述べる第
5・第6の従来技術である。
第5の従来技術では、単語の表記を検索キーとした第1
の従来技術にもとづく単語辞書と、漢字読み表とを利用
する。漢字読み表は漢字1文中の読み方を登録した表で
あり、単語辞書の単語の表記を漢字読み表で展開して、
単語の読みがなを生成しながら検索する。特開昭62−
212786号公報「かな漢字相互変換装置」や特開昭
62−224859号公報「日本語処理方式」などに、
その手法が述べられている。
第6の従来技術では、ポインタを利用して、2通りの検
索キーについて第1の従来技術の手法が適用できるよう
な単語辞書構成をとる。すなわち、第4の従来技術の重
複した内容の部分を、ポインタで置き換えたものである
。特公昭63−4225号公報「電子辞書」では、第4
の従来技術における2つの単語辞書の一方のすべてをポ
インタの集合と置き換えている。特開昭61−3074
12号公報「単語辞書構成方式」では、第4の従来技術
における2つの単語辞書の検索キーが、相互にポインタ
で参照し合う形態となっている。
(発明が解決しようとする課題) まず、1種類の検索キーに関する従来技術の課題を述べ
る。
第1の従来技術には、第1に、前述のように、多数の部
分文字列に対する単語辞書検索を繰り返さねばならない
という欠点がある。この欠点は、入力文字列の各文字に
複数の候補゛がある場合に、特に顕著になる。長さKの
入力文字列の各文字にm個ずつ候補がある場合、最長の
部分文字列の長さをLとすると(通常、単語辞書内の最
長の単語の長さをLとする)、最大(mLXLXK)個
の部分文字列に対する検索を繰り返す必要が生ずる。
通常、あらかじめ条件を定めて、不要な部分文1字列の
検索を避けるようにするので、(1nLXLXK)個と
いうのはf&悪の場合であるが、それでも検索の回数は
かなり多くなる。
第1の従来技術の第2の欠点は、ある部分文字列と単語
辞書内のある単晶の表記の文字列との比較を、1文字ず
つ順に行なうため、比較に時間がかかるということであ
る。
第2の従来技術では、第1の従来技術の第2の欠点に対
処している。しかし、第2の従来技術は、入力文字列に
複数の候補がある場合に適用できない、また、検索され
る文字列も1通りに限られ、単語辞書のように多数の文
字列と比較を行なうことを考えると、単語辞書内の各単
語の表記の長さの異なりが問題となって適用できない。
第″′3の従来技術は、第1の従来技術の2つの欠点に
対処している。しかし、入力文字列を記憶するために、
文字の種類だけのビット数をもったメモリを、文字列長
だけ用意する必要があるので、文字の種類が多数の場合
はメモリサイズがかなり大きくなってしまう問題がある
。かな漢字変換や音声認識の場合は、入力文字列がひら
がな(あるいは音素文字)で100種類程度に限定され
るので、あまり問題にならないが、漢字かな混じり文字
列を対象とした文音声変換や機械翻訳などの場合は、漢
字を含み文字の種類が3000〜4000種類にもおよ
ぶので、メモリが大きくなって問題になる。
また、第3の従来技術では、入力された文字列の先頭か
ら始まる単語の検索しか行なわないため、2文字目から
始まる単語や、3文字目から始まる単語などを検索する
場合には、入力文字列のメモリへの登録を、やり直す必
要が生じるという問題もある。
次に検索キーを複数設けた場合の従来技術の課題を述べ
る。
第1〜第3の従来技術では、検索キーはただ1種類と考
えられている。したがって、複数の検索キーを設けよう
とすると、第4の従来技術と同様に、検索キーごとの単
語辞書を用意することになる。その場合、複数の単語辞
書に情報が重複して登録されることになり、無駄が多い
構造となる。
第5・第6の従来技術では、この重複の無駄をなくして
いるが、次のような問題点がある。まず、第5の従来技
術では、単語の読みがなを検索キーとした検索の場合、
漢字読み表で展開して見出しを生成しながら照合を行な
うといった複雑な処理を行なう上に、本来の単語の読み
がな以外の見出しも生成されてしまうので、処理量が多
く、結果として処理時間が増大する0次に、第6の従来
技術では、ポインタで関係を管理しているため、項目(
単語)の追加・削除の際に、その関係が壊れないかチエ
ツクする必要が発生し、単語辞書のメンテナンス作業の
労力が大きくなる。また、ポインタに置き換えることに
より、見かけ上の情報の亜種はなくなっているが、代わ
りにポインタ領域がとられることになり、実質的な辞書
容量の面では、第4の従来技術と同様に無駄が多い。
本発明の目的は、上記のような従来技術の欠点を除去し
、入力文字列の各文字に複数の候補があっても、高速に
単語辞書との照合が可能な単語辞書検索装置であって、
しかも、複数の検索キーを設けても、容量の面で無駄の
ある構造をとることなく、高速性を保てる単語辞書検索
装置を提供することである。
(課題を解決するための手段) 本発明の単語辞書検索装置は、各文字に対して第1から
第m候補(mはm≧1なる整数)までのm種類の候補が
存在する文字列を入力する入力装置と、n文字(nはn
≧1なる整数)以下のp文字分(pは1≦p≦nなる整
数)のデータ巾をもつ各アドレスに見出しを1個ずつ格
納して該データ巾に満たない部分にはあらかじめ定めた
残余記号を詰めて構成され見出しの種類に応じて区分さ
れたS種類(sはS≧1なる整数)の単語辞書メモリと
、前記S種類の単語辞書メモリのうちデータ巾がn文字
に満たないものについて該データ巾とn文字との差分の
前記残余記号を発生する残余記号発生器と、前記入力装
置によって1文字に対するm種類の候補が入力されるた
びに1回のシフトシクロツク並びに前記単語辞書メモリ
内の全単語数に応じた回数の判定クロック及びカウンタ
クロックを発生するコントローラと、前記シフトクロッ
クに同期したリセットと前記カウンタクロックに同期し
たカウントアツプとを行なう前記S種類の単語辞書メモ
リに共通のアドレスカウンタと、前記入力装置によって
入力された文字列の第1・第2・・・・・・・・第m候
補に対応し前記シフトクロックに同期した1文字ずつの
順送りを行なう各々n文字分の第1・第2・・・・・・
・・第m候補シフトレジスタと、前記S種類の単語辞書
メモリの1つを選択するスイッチと、前記スイッチで選
択された単語辞書をメモリから読み出されるデータと該
単語辞書メモリのデータ巾がn文字に満たない場合に対
応する前記残余記号発生器の発生するデータとを合わせ
たn文字分のデータの1文字目・2文字目・・・・・・
・・n文字目に対応し該当位置の文字が前記第1・第2
・・・・・・・・第mシフトレジスタのいずれかの同位
置の文字または前記残余記号に一致したとき一致信号を
出力する1文字目・2文字目・・・・・・・・n文字目
比較回路と、前記判定クロックに同期して前記1文字目
・2文字目・・・・・・・・n文字目比較回路のすべて
から一致信号が検出された場合に前記入力装置によって
入力された文字列巾に前記単語辞書メモリ内に存在する
単語が出現したと判定する判定回路とを備える。
(実施例) 図面を用いて、本発明の構成・作用を説明する。
第1図は本発明の単語辞書検索装置の第1の実施例の構
成を示すブロック図である。以下、まず、各構成要素を
説明する。
入力装置5は、各文字に対して第1候補から第m候補(
mはm≧1なる整数)までのm種類の候補が存在する文
字列を入力する装置であり、例えば、音声認識装置や文
字認識装置などである。入力装置5は、各文字に対する
m個の候補を同時に出力し、その出力のタイミングを入
力クロック50によってコントローラ7へ伝える。
単語辞書メモリ1は、n文字(nはn≧1なる整数)以
下のデータ中(p文字とする=1≦p≦n)をもつ各ア
ドレスに見出しを1個ずつ格納しp文字に満たない部分
には、あらかじめ定めた残余記号を詰めて構成されたも
のである。この単語辞書メモリ1を、見出しの種類の異
なるS種類(sはS≧1なる整数)だけ設ける。以下、
S種類の単語辞書メモリ1を、第1の単語辞書メモリ、
第2の単語辞書メモリ、・・・・・・、第Sの単語辞書
メモリとする。このとき、各単語辞書メモリ1のデータ
rl pは、各単語辞書メモリ1ごとに異なってもかま
わない、第1図ではs=2としている。第1の単語辞書
メモリは単語の読みがなを見出しとしたものであり、第
2の単語辞書メモリは単語の表記を見出しとしたもので
ある。他にも単語の英表記を見出しとしたものなども考
えられる。S種類のφ語辞書メモリについて、同一のア
ドレスには同一の単語に対する見出しを格納するものと
する。ただし、この第1の実施例では、単語の出現のみ
を判定するので、必ずしも、同一アドレスが同一単語に
対応してなくとも動作する。さらに、単語辞書メモリ内
の単語の並びは、ソートされている必要はない。
第5図は、単語辞書メモリ1の内容の例を示す図である
。第5図(a)は第1の単語辞書メモリの内容の例、第
5図(b)は第2の単語辞書メモリの内容の例である。
第1の単語辞書メモリのデータ中はPL=6、第2の単
語辞書メモリのデータ中はp2=4としている。なおΔ
が残余記号を表わしている。第5図(a)の第1の単語
辞書メモリのアドレスをaとすると、「にほんΔΔΔ」
という6文字が同時に読み出される。同じアドレスに対
して、第5図(b)の第2の単語辞書メモリからは、「
日本ΔΔ」という4文字が同時に読み出される。単語辞
書メモリ1は、ICメモリなどを用いて実現できる0通
常、日本語の文字コードは16ビツトで表現されるので
、第5図(a)のデータ中は16X6=96ビツトであ
る。現在のICメモリでは、同時に読み出されるデータ
rjJが8ビット程度であるから、第5図(a)の第1
の単語辞書メモリは、そのようなICメモリを122個
並に並べて実現できる。また、第2の単語辞書メモリは
、同様にICメモリを8個並列に並べて実現できる。
残余記号発生器12は、S種類の単語辞書メモリ1のう
ちデータ中Pがn文字に満たないものについて、該デー
タ巾とn文字との差分:(n−p)文字の残余記号を発
生する。この残余記号発生器12は、(n−p)文字の
残余記号を格納したレジスタとして実現できる。データ
巾がn文字に満たない単語辞書メモリ1の各々について
、各々のデータ巾に応じた長さの残余記号を発生する残
余記号発生器12を設ける。
コントローラ7は、入力装置5によって1文字に対する
m種類の候補が入力されるたびに、1回のシフトクロッ
ク並びに単語辞書メモリ1内の全単語数に応じた回数の
判定クロック及びカウンタクロックを発生する。第6図
は、コントローラ7の入出力信号のタイムチャートの例
である。第6図のタイムチャートでは、入力装置5から
入力クロック50が入力されるたびに、まず、シフトク
ロック70を1回出力する0本実施例では、入力クロッ
ク50をそのままシフトクロック70として出力してい
る。続いて、判定クロック72とカウンタクロック71
とを、交互にN回出力している。ただし、カウンタクロ
ック71は(N−1)回でもよい、ここで、Nは単語辞
書メモリ1内の全単語数である。このようなタイムチャ
ート通りに動作するコントローラ7は、当業者において
容易に実現可能である。
アドレスカウンタ4は、シフトクロック70に同期した
リセットと、カウンタクロック71に同期したカウント
アツプとを行なうカウンタで、カウンタ値をS種類の単
語辞書メモリ1の共通のアドレス値として出力する。ア
ドレスカウンタ4は、従来のカウンタICで実現できる
第1候補シフトレジスタ2は、入力装置5によって入力
された文字列の第i候補(1は1≦l≦mなる整数)を
、シフトクロック70に同期して1文字ずつ順送りしな
がら、n文字分格納するシフトレジスタである。このシ
フトレジスタ2は、入力文字列の各文字に対するm個の
候補の各々に対して設けられており、第1候補シフトレ
ジスタ、第2候補シフトレジスタ、・・・・・・、第m
候補シフトレジスタのm個がある。第7図は、各シフト
レジスタ2の構成例を示した図である。1文字をdビッ
トで表現している場合、第1候補シフトレジスタ2は、
第7図のように、シフトクロック70に同期した(dX
n)個のDフリップフロップで実現できる。すなわち、
d個並列に並べたものを、n個直列に接続する。並列に
接続したd個が1文字に対応し、その出力は各文字目毎
にまとめて比較回路3へ送られる。
スイッチ8は、S種類の単語辞書メモリ1の1つを選択
する手段である1選択された単語辞書メモリに対応する
値を選択信号80として出力する。
例えば、s=2の場合は、選択信号線を1ビット用意し
、その値が0のとき第1の単語辞書メモリ、値が1のと
き第2の単語辞書メモリに対応させればよい、一般に、
選択信号線はlog sビット必要になる。スイッチ8
は、トグルスイッチ、デイツプスイッチなどで実現でき
る。なお、入力装置5から入力されるテキストの文字コ
ードに応じて、切り換えるようなスイッチ8の構成も可
能である。
J文字目比較回路3は、アドレスカウンタ4の示す1つ
のアドレスに対して、スイッチ8で選択された単語辞書
メモリ1に対応するn文字分のデータの3番目(jは1
≦j≦nなる整数)の文字が、m個のシフトレジスタ2
の3番目の文字のいずれかまたは、残余記号に一致した
ときに、一致信号を出力する回路である。ここで、スイ
ッチ8で選択された単語辞書メモリ1に対応するn文字
分のデータとは、選択された単語辞書メモリ1が第tの
単語辞書メモリとしたとき、そのデータ巾がnの場合(
pc =nの場合)には、第tの単語辞書メモリから読
み出されるn文字分のデータそのままであり、データ巾
がnより短い場合(ptくnの場合)には、第tの単語
辞書メモリと対になっている残余記号発生器12の(n
pt)文字の残余記号データが、第tの単語辞書メモリ
から読み出されるPL文字のデータの後に付加されたも
のである。この比較回路3は、そのn文字のデータ中の
各々に対応した数だけ設けられており。
1文字目比較回路、2文字目比較回路、・・・・・・ 
n文字目比較回路のn個がある。第8図はj文字目比較
回路3の構成例を示した図である。1文字をdビットで
表現して、シフトレジスタ2がm個設けられている場合
、j文字目比較回路3は、第8図のように、<m+1 
>個のdビット比較器と、1個のORゲートと、1個の
dビットセレクタとで構成できる。dビットセレクタは
、選択信号80にしたがって、5個の単語辞書メモリに
対応するS種類のj文字目データのうちの1つを選択す
る(第8図ではs=2としである)0m個のdビット比
較器はdビットセレクタで選択された文字と各シフトレ
ジスタ2のj文字目とを比較する。
一方、残りの1個のdビット比較器はdビットセレクタ
で選択された文字が残余記号であるか否かを調べる。最
終的なORゲートの出力では、この(m+ 1 )個の
比較器のいずれかで一致が検出されたときに、一致信号
30が出力される。さらに、第9図はj文字目比較回路
3の別の構成例を示した図である。第9図の構成では、
各単語辞書メモリから読み出されたj文字目ごとに、(
m+1 )個のdビット比較器でm個のシフトレジスタ
の」文字目および残余記号との比較を行ない、その結果
を1ビツトセレクタで選択して出力する。
判定回路6は、判定クロック72に同期して、n個の比
較回路3のすべてから一致信号が検出された場合に、入
力装Wt5によって入力された文字列巾に単語辞書メモ
リ1内に存在する単語が出現したと判定する回路である
。第10図は、判定回路6の構成例を示す図である0判
定回路6は、第10図のように、1個のANDゲートと
1個のDフリップフロップで実現できる。
次にこの実施例の動作を例を用いて説明する。
第11図・第12図の(a)〜(l)は、各単語辞書メ
モリ1の最大のデータ中n=6、候M数m=3で、入力
文字列の長さが6のときの、第1候補シフトレジタ・第
2候補シフトレジスタ・第3候補シフトレジスタの内容
の変化の例を示した図である。第11図は、入力装置5
として文字認識装置が用いられ、漢字かな混じり文字列
が入力された場合の一例である。また、第12図は、入
力装置5として音声認識装置が用いられ、かな文字列が
入力された場合の一例である。第11図・第12図とも
に、3x6のマトリックスは、1行が各シフトレジスタ
2の内容に対応しており、行方向が文字位!(1〜6)
、列方向が候補レベル(1〜3)を表わしている0例え
ば、第11図の例でシフトレジスタ2に入力されている
文字列は、1文字目の候補は第1候補から順に「日」 
「白J「目」、2文字目の候補は順に「木」「本」 r
大」、3文字目は順に「語」 「話」 「詰」、4文字
目は順に「の」 「め」「つ」、5文字目は順に「丈」
「又」1文」、6文字目は順に1章」「草」「早」であ
る、斜線部分は文字が格納されていないことを表わす。
第11図のような入力文字列(入力装置5が文字認識装
置の場合)に対しては、第5図(b)のような単語の表
記を見出しと゛して単語辞書検索処理を行なうように、
スイッチ8を設定する。すなわち、第2の単語辞書メモ
リ(表記を見出しとした単語辞書メモリ)を選択する。
そのとき、第11図において、(a)→(b)→(C)
→(d)→(e)→(f)→(g)→(h)→(i)→
(J)→(k)→(1)という変化は、シフトクロック
70が1回発生されるたびに起こる変化を示している。
そして、(a)〜(k)の各々の状態で、カウンタクロ
ック71と判定クロック72が全単語数Nと同じN回発
生される。アドレスカウンタ4は、シフトクロック70
によってリセットされ、カウンタクロック71によって
N回カウントアツプされるため、各状態で単語辞書メモ
リ1からは、先頭の単語から末尾単語まで順に、全単語
(n個)の表記が読み出される。そして、n個(この例
では6個)の比較回路3において、スイッチ8によって
選択された単語辞書メモリ1の全見出しと、第11図の
シフトレジスタの内容との照合が行なわれることになる
その結果、各状態で、第2の単語辞書メモリ1内の例え
ば次のような単語(見出し)に対して、判定回路6が出
現を検出する。
(a 該当なし くb 該当なし くC該当なし くd 該当なし くe 該当なし くf  1日」 「白」 「目」 「日本」 「日入」
「白木」 「日本語」 (g)「木」 「本」「大」「大詰め」(h) 「語」
 「話」 「詰め」 (1)「の」「め」「つ」 (j)「丈」「又」r文」「文章」 (k)「章J「草」「早」 このうち、状態(f)における第7図のシフトレジスタ
2の内容と第2の単語辞書メモリ1内の見出し「“日本
」(=「日本ΔΔ」)とを照合する際の、各比較回路3
の動作を説明する。1文字目比較回路は、「日本ΔΔ」
の1日」と第1候補シフトレジスタの1文字目の1日」
との一致により一致信号30を発生する。2文字目比較
回路は、「日本ΔΔ」の「本」と第2候補シフトレジス
タの2文字目の1本」との一致により一致信号30を発
生ずる。3文字目比較回路と4文字目比較回路は、第2
の単語辞書メモリから読み出された「日本ΔΔ」に含ま
れる「Δ」 (残余記号)を検出して一致信号30を発
生する。ここで、第2の単語辞書メモリのデータ巾22
=4に対して、n=36でp2<nとなるから、前述し
たように、第2の単語辞書メモリについては、2(=n
−p2)文字の残余記号を発生する残余記号発生器12
が設けられている。そして、5文字目比較回路と6文字
目比較回路は、残余記号発生器12からの残余記号「Δ
」を受は取り、3文字目比較回路や4文字目比較回路と
同様に「Δ」の検出にもとづく一致信号30を発生する
。その結果、判定回路6は、すべての比較回路3の一致
信号30を受けて、単語の出現を検出することになる。
さて、第12図のような文字列が入力される場合(入力
装置5が音声認識装置の場合)には、第5図(a)のよ
うな単語の読みがなを見出しとして単語辞書検索処理を
行なうように、スイッチ8を切り換える。すなわち、第
1の単語辞書メモリ(読みがなを見出しとした単語辞書
メモリ)を選択し直す、そして、同様に、1文字ずつ順
送りしながら、その度に、第1の単語辞書メモリ1の全
見出しとシフトレジスタ2の内容とを照合する。
その結果、各状態で検出される第1の単語辞書メモリ内
の単語(見出し)は、例えば、次のようなものである。
(a)該当なし くb)該当なし くC)該当なし くd)該当なし くe)該当なし くf) 「に」 「い」 「す」 「にお」 「にほん
」「いはん」 「いはう」 「いおん」 「いおう」 「はJ 「お」 「はん」 「はん」 「はぼ」「はう
」「おん」「おう」 「はんぐ」rはんぶ」 「おんぶ
」 [はんぐん」 「はんぶん」 「はんぶん」 rお
うぼう」(h) 「ん」「う」rはぐ」「はぼ」[はぶ
んJ(g) (1) 「ぐ」 「ぶ」「ぼ」「ぐん」 「ぶん」「ぼ
ん」 「ぐんか」 「ぶんか」 (j) 「ん」 「う」 「ほか」 (k)「かJ ’<J ’が」 この場合は、第1の単語辞書メモリのデータ中p+ =
l’l (=6)であるから、対応する残余記号発生器
12は設けられず、第1の単語辞書メモリから読み出さ
れるn文字の各々が、n個の比較回路の各々に渡される
ことになる。
なお、入力文字列長がKの場合、シフトレジスタ2内で
の順送りは、少なくとも(K+n−1>回行なわれる必
要がある。したがって、入力装置5は、長さKの入力文
字列を入力した後、さらに、(n−1)回のダミーの文
字列入力を行なう必要がある。あるいは、コントローラ
7が、入力文字列の末尾を検出して、さらに、シフトク
ロック70を1回とカウンタクロック71と判定クロッ
ク72を8回ずつというサイクルを、<n−1)回繰り
返すようにしてもよい。
また、最初の(n−1)回の順送りの間(第11図・第
12図では(a>から(e)まで)は、入力文字列がシ
フトレジスタ2の先頭まで到達していないので、単語辞
書メモリ1との照合を行なっても意味がない、そこで、
その間は、コントローラ7は、カウンタクロック71や
判定クロック72を発生せず、シフトクロック70のみ
を連続して発生するようにしてもよい。
以上に示したように、この第1の実施例では、入力装置
5として、文字認識装置を用いて表記を見出しとした単
語辞書検索を行なう場合でも、音声認識装置を用いて読
みがなを見出しとした単語辞書検索を行なう場合でも、
スイッチを切り換えるだばで共通に適用できる。
第2図は、第2の実施例の構成を示すブロック図である
。第1の実施例では、単語の出現を検出するのみであっ
たが、第2の実施例では、検出された単語に関する情報
を出力する。第2の実施例は、第1図にその構成を示し
た第1の実施例に、付加情報メモリ9と出力レジスタ1
0を追加したものである。
ここで、付加情報メモリ9は、S種類の単語辞書メモリ
1の見出し以外の付加情報を格納したメモリである0例
えば、単語の品詞、アクセント、意味分類、表記共、読
み長などを収める。付加情報メモリ9では、単語辞書メ
モリ1の単語と同一のアドレスに、それら付加情報を格
納する。第13図は、単語n書メモリlと付加情報メモ
リ9の内容の対応例を示した図である(ただし、付加情
報としては品詞しか登録していない)、アドレスaは、
表記が「日本」、読みがなが「にほん」、品詞が固有名
詞である単語に対応している。アドレスカウンタ4は、
sNM、の単語辞書メモリ1だけでなく、付加情報メモ
リ9にも、共通のアドレスを与えるようにする。
出力レジスタ10は、S種類の単語辞書メモリ1と付加
情報メモリ9から読み出される1つの単語に対する全情
報(s種類の見出しの内容と付加情報の内容)を、その
まま判定回路6から出力される検出クロック60のタイ
ミングでラッチする。
出力レジスタ10はフリップフロップで実現されるレジ
スタである。
ここで、漢字かな混じり文字列のテキストを文字認識し
、さらに、文章解析・音声合成する読書器を考えた場合
、表記を見出しとした単語辞書検索処理の結果として、
読みがな・品詞などは必要であるが、表記は出力される
必要はない、なぜならば単語辞書検索処理の後で行なわ
れる音声合成処理では使われないからである。また、逆
に、音声入力で文章を作成する音声ワードプロセッサを
考えた場合、読みがなを見出しとした単語辞書検索処理
の結果として、表記・品詞などは必要であるが、読みが
なは出力される必要はない、そこで、第2の実施例のよ
うに単語の情報をすべて出力するのではなく、検出の際
に用いられた見出しは出力しないようにしたものが、第
3の実施例である。
第3図は、この第3の実施例の構成を示すブロック図で
ある。
第3の実施例では、第2図にその構成を示した第2の実
施例に対して、セレクタ11が追加されている。なお、
第1の実施例に対しては、付加情報メモリ9、セレクタ
11、出力レジスタ10が追加されている。
第3図において、セレクタ11は、S種類の単語辞書メ
モリ1の内容(s種類の見出し)のうちスイッチで選択
された単語辞書メモリ以外の(s−1)種類の内容と、
付加情報メモリ9の内容とを選別出力する0例えば、第
2の単語辞書メモリ1がスイッチ8で選択されている際
、その第2の単語辞書メモリ1内の見出し「日本」に対
して検出が行なわれたときは、第1の単語辞書メモリ1
の内容「にほんJと付加情報メモリ9の内容「固有名詞
」が出力される。すなわち「日本」は出力されない。
以上の第1〜第3の実施例では、入力文字列の各文字に
m個の候補が存在する一般的な場合の実施例を示したが
、かな漢字変換における単語辞書検索や、作成した文章
を音声出力するための漢字かな変換における単語辞書検
索などでは、入力文字列の各文字は1通りである(m=
1)、第3図にその構成を示した第3の実施例について
、m=1とした場合を、第4の実施例として第4図に示
す、第4図は第4の実施例の構成を示すブロック図であ
る。
第4の実施例では、シフトレジスタ2が1個でよい、構
成要素・動作は、これまでに示した実施例について、m
=1とすればよいので、詳しい説明を省略する。かな漢
字変換の際には、入力されなかな文字列と、第1の単語
辞書メモリ(読みがなを見出しとするM語辞書メモリ)
の見出しとを照合して、検出された単語について、表記
・品詞などが出力される。漢字かな変換の際には、入力
された漢字かな混じり文字列と、第2の単語辞書メモリ
(表記を見出しとする単語辞書メモリ)の見出しとを照
合して、検出された単語について、読みがな・品詞など
が出力される。
なお、見出しによって、1文字を表現するビット数が異
なることがある0例えば、漢字かな混じりの表記1文字
の表現には、通常、16ビツトが必要であるが、読みが
なの1文字は8ビツトで表現可能である。そのような場
合に対処する方法の1つは、多いビット数のものに合わ
せることである2例えば、読みがなの1文字にも、8ビ
ット余分なビットを付加して、16ビツト割り当てれば
よい、別な対処方法は、公約数のビット数を単位として
、有効な区切りのみを利用するものである。
例えば、8ビツトを単位として順送りや比較を行ない、
表記に関する照合の場合には、偶数回目の順送りの回だ
けを有効とすればよい、なお、読みがなは8ビツトなの
で、毎回有効である。
(発明の効果) 以上説明したように、本発明によれば、漢字のように種
類の多い文字から成る文字列に対して、各文字が複数の
候補をもっていても、高速に単語辞書との照合が可能な
単語辞書検索装置が得られる。特に、入力文字列の各文
字の候補数にも、単語辞書内の単語の表記長にもかかわ
らず、入力文字列と単語辞書内の1つの単語との照合が
2クロック程度の間に行えることの効果が大きい。
また、検索キーが1種類に限定されず、複数種類の検索
キーを切り換えて照合が可能である。しかも、複数種類
の検索キーを用いることによる単語辞書容量の無駄な増
加は発生しない、そして、いずれの種類の検索キーにつ
いても、検索の高速性は保たれている。さらに、本発明
では、検索キーの種類ごとにキー長が異なっていても残
余記号が付加されるようにしているので、検索キーの各
種類に最適のデータ中のメモリで足り、最長のキーにデ
ータ中をそろえるというような無駄が生じない。
また、本発明の各構成要素は、少数のロジックICを組
み合わせて実現できる。したがって、LSI技術を利用
すれば、非常に小型の装置とじて実現でき一6点も長所
である。それに加えて、第1の従来技術のように、汎用
計算機上のソフトウェアとして実現されるのではなく、
専用ハードウェア・特殊LSIとして実現できるため、
クロックの周波数自体を、汎用計算機に比べてかなり高
く設定することが可能であり、この点でも高速性が優れ
ている。
以上のような高速性から、本発明では、前述の第1の従
来技術のように単語辞書内で照合する単語数を制限せず
に、単語辞書内の全単語との照合を行なっても、従来よ
り十分高速な単語辞書検索装置が得られる。この結果、
単語辞書内が見出しのコード順にソートされている必要
がないという長所も生ずる。したがって、単語の追加・
削除が行なわれても、単語辞書を編成し直す必要がなく
、単語辞書のメンテナンスがきわめて容易である。
【図面の簡単な説明】
第1図は本発明の第1の実施例の構成を示すブロック図
、第2図は第2の実施例の構成を示すブロック図、第3
図は第3の実施例の構成を示すブロック図、第4図は第
4の実施例の構成を示すブロック図、第5図は単語辞書
メモリ1の内容の例を示す図、第6図はコントローラ7
の入出力信号のタイムチャート、第7図はシフトレジス
タ2の構成例を示す図、第8図・第9図は比較回路3の
構成例を示す図、第10図は判定回路6の構成例を示す
図、第11図(a)〜(1)は漢字かな混じり文字列の
入力に対するシフトレジスタ2の内容の変化の例を示す
図、第12図(a)〜(1)はかな文字列の入力に対す
るシフトレジスタ2の内容の変化の例を示す図、第13
図は単語辞書メモリ1と付加情報メモリ9の対応を示す
図である。 1・・・単語辞書メモリ、2・・・シフトレジスタ(第
1候補シフトレジスタ)、3・・・比較回路(j文字目
比較回路)、4・・・アドレスカウンタ、5・・・入力
装置、6・・・判定回路、7・・・コントローラ、8・
・・スイッチ、9・・・付加情報メモリ、10・・・出
力レジスタ、11・・・セレクタ、12・・・残余記号
発生器、30・・・一致信号、50・・・入力り口・/
り、60・・・検出タロツク、 70・・・シフトクロック、 1・・・カラン タフロック、 72・・・判定クロック、 80・・・選択信 号。

Claims (1)

    【特許請求の範囲】
  1. 各文字に対して第1から第m候補(mはm≧1なる整数
    )までのm種類の候補が存在する文字列を入力する入力
    装置と、n文字(nはn≧1なる整数)以下のp文字分
    (pは1≦p≦nなる整数)のデータ巾をもつ各アドレ
    スに見出しを1個ずつ格納して該データ巾に満たない部
    分にはあらかじめ定めた残余記号を詰めて構成され見出
    しの種類に応じて区分されたs種類(sはs≧1なる整
    数)の単語辞書メモリと、前記s種類の単語辞書メモリ
    のうちデータ巾がn文字に満たないものについて該デー
    タ巾とn文字との差分の前記残余記号を発生する残余記
    号発生器と、前記入力装置によって1文字に対するm種
    類の候補が入力されるたびに1回のシフトクロック並び
    に前記単語辞書メモリ内の全単語数に応じた回数の判定
    クロック及びカウンタクロックを発生するコントローラ
    と、前記シフトクロックに同期したリセットと前記カウ
    ンタクロックに同期したカウントアップとを行なう前記
    s種類の単語辞書メモリに共通のアドレスカウンタと、
    前記入力装置によって入力された文字列の第1・第2・
    ・・・・・・・第m候補に対応し前記シフトクロックに
    同期した1文字ずつの順送りを行なう各々n文字分の第
    1・第2・・・・・・・・第m候補シフトレジスタと、
    前記s種類の単語辞書メモリの1つを選択するスイッチ
    と、前記スイッチで選択された単語辞書をメモリから読
    み出されるデータと該単語辞書メモリのデータ巾がn文
    字に満たない場合に対応する前記残余記号発生器の発生
    するデータとを合わせたn文字分のデータの1文字目・
    2文字目・・・・・・・・n文字目に対応し該当位置の
    文字が前記第1・第2・・・・・・・・第mシフトレジ
    スタのいずれかの同位置の文字または前記残余記号に一
    致したとき一致信号を出力する1文字目・2文字目・・
    ・・・・・・n文字目比較回路と、前記判定クロックに
    同期して前記1文字目・2文字目・・・・・・・・n文
    字目比較回路のすべてから一致信号が検出された場合に
    前記入力装置によって入力された文字列中に前記単語辞
    書メモリ内に存在する単語が出現したと判定する判定回
    路とを備えたことを特徴とする単語辞書検索装置。
JP1250040A 1989-09-25 1989-09-25 単語辞書検索装置 Pending JPH03110676A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1250040A JPH03110676A (ja) 1989-09-25 1989-09-25 単語辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1250040A JPH03110676A (ja) 1989-09-25 1989-09-25 単語辞書検索装置

Publications (1)

Publication Number Publication Date
JPH03110676A true JPH03110676A (ja) 1991-05-10

Family

ID=17201931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1250040A Pending JPH03110676A (ja) 1989-09-25 1989-09-25 単語辞書検索装置

Country Status (1)

Country Link
JP (1) JPH03110676A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60147888A (ja) * 1984-01-12 1985-08-03 Comput Basic Mach Technol Res Assoc 文字認識後処理方法及びその装置
JPS63157266A (ja) * 1986-12-22 1988-06-30 Nec Corp 単語辞書構成方式
JPS63261422A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文字列照合装置
JPS63261421A (ja) * 1987-04-17 1988-10-28 Mitsubishi Electric Corp 文字列処理装置
JPH01250039A (ja) * 1988-03-30 1989-10-05 Nec Corp 液体屈折率測定装置
JPH0670789A (ja) * 1992-08-28 1994-03-15 Fuji Oil Co Ltd グリセロ糖脂質の製造法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60147888A (ja) * 1984-01-12 1985-08-03 Comput Basic Mach Technol Res Assoc 文字認識後処理方法及びその装置
JPS63157266A (ja) * 1986-12-22 1988-06-30 Nec Corp 単語辞書構成方式
JPS63261422A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文字列照合装置
JPS63261421A (ja) * 1987-04-17 1988-10-28 Mitsubishi Electric Corp 文字列処理装置
JPH01250039A (ja) * 1988-03-30 1989-10-05 Nec Corp 液体屈折率測定装置
JPH0670789A (ja) * 1992-08-28 1994-03-15 Fuji Oil Co Ltd グリセロ糖脂質の製造法

Similar Documents

Publication Publication Date Title
JP2005530272A (ja) 曖昧なテキスト入力の明確な文字フィルタリング
US5560037A (en) Compact hyphenation point data
JPH03110676A (ja) 単語辞書検索装置
JP2526678B2 (ja) 単語辞書検索装置
JP2526670B2 (ja) 単語辞書検索装置
JPH0337764A (ja) 巣語辞書検索装置
JP2002207557A (ja) 日本語入力システム、日本語入力方法、および、記録媒体
JPH04340166A (ja) 単語辞書検索装置
JPH0337754A (ja) 単語辞書検索装置
JPH0337765A (ja) 単語辞書検索装置
JPH0140372B2 (ja)
JP2744241B2 (ja) 文字処理装置
JP2004318753A (ja) 字句をデータに変換する装置及び方法
JPH0131229B2 (ja)
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
Newitt et al. A structure for real-time stenotype transcription
JPS61188684A (ja) 認識装置
JPH01205267A (ja) 単語辞書検索装置
JPH04114278A (ja) 文字列比較方式
JPH0469766A (ja) かな漢字変換装置
JPS62214468A (ja) かな漢字変換装置
JPH0830626A (ja) 日本語電子化辞書検索装置
JPH05341961A (ja) 整列のカストマイズ方法
JPS59167735A (ja) カナ漢字変換装置
JPH0830631A (ja) 辞書検索方式