JP3419205B2 - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JP3419205B2
JP3419205B2 JP17621596A JP17621596A JP3419205B2 JP 3419205 B2 JP3419205 B2 JP 3419205B2 JP 17621596 A JP17621596 A JP 17621596A JP 17621596 A JP17621596 A JP 17621596A JP 3419205 B2 JP3419205 B2 JP 3419205B2
Authority
JP
Japan
Prior art keywords
character
word
transition
character string
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP17621596A
Other languages
English (en)
Other versions
JPH1021262A (ja
Inventor
圭子 郡司
晃洋 桂
壮四郎 ▲葛▼貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17621596A priority Critical patent/JP3419205B2/ja
Publication of JPH1021262A publication Critical patent/JPH1021262A/ja
Application granted granted Critical
Publication of JP3419205B2 publication Critical patent/JP3419205B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、予め登録されてい
る文字列を、後から入力されたキーとなる文字を元に検
索する情報検索装置に関する。
【0002】
【従来の技術】従来、単語辞書の単語を検索する場合、
単語全体や単語の頭の文字列を入力し、検索するのが一
般的である。例えば、あるカーナビゲーションの50音
検索では、単語の頭の部分から文字を入力してゆくと、
入力された文字を単語の先頭に含む単語に候補を絞って
ゆく。
【0003】また、別の従来例では、PenPC(ペン
入力コンピュータ)などの伝票処理等では、住所や定形
句の入力が用途として多い。従来の住所や定形句の入力
方法としては、(1)メニューによる選択や、(2)文
字認識とメニューの組み合わせで、郵便番号を入力する
と、関連する住所をメニューで表示し、選択する方法、
(3)手書き入力した文字を認識し、その候補を単語辞
書で最適化する方法などが開示されている。
【0004】(1)のメニューによる方法は、例えば、
文献「文字位置のずれを許容する枠なし筆記住所認識」
(電子情報通信学会論文誌D−2,1994年1月号)
に開示されるように、住所のように階層化されたデータ
では、上位階層から順々に下位まで(例えば、「茨城
県」→「日立市」→「大みか町」のように)選択する方
法が一般的である。そこで、もし、「日立市」と入力す
るのに、「日立市」が何県にあるのか、例えば「茨城
県」か「栃木県」か分からなかったら、なかなか「日立
市」を選べない問題がある。
【0005】(2)の郵便番号を入力すると、関連する
住所をメニューで表示する方法は、郵便番号のみ文字入
力し、あとは、郵便番号から決まる地名はメニューで選
べるので、比較的容易に入力可能である。しかし、自分
の住所の郵便番号は覚えられるが、他の郵便番号まで覚
えるのは困難である。
【0006】(3)の手書き入力した文字を認識し、そ
の候補を単語辞書で最適化する方法について、図面を用
いて説明する。図3は、従来の文字認識の構成図であ
る。タブレットa1より入力された手書きパターンを認
識辞書a2とパターンマッチして文字認識a3し、得ら
れた候補文字を単語辞書a6と単語照合b7し、該当す
る単語をLCDa8に表示する。
【0007】図4は、従来の文字認識を用いて住所を入
力する場合の動作概要図である。例えば、「茨城県 日
立市 大みか町」と入力するには、「茨城県 日立市
大みか町」と全部を所定の住所入力エリアb1に手書き
入力する。すると、文字認識a3し、得られた候補文字
を単語辞書a6を用いて、最上位階層の都道府県から単
語照合し、候補文字を最適化し、結果を候補文字として
出力していた。
【0008】従来、住所のような階層データを最上位の
階層からアクセスしていたのは、一般に階層の上位ほど
データ量が少なく、上位が決まれば下位の候補を絞るこ
とができたからである。もし、仮に従来のシステムで
「大みか」というキーワードを入力して、単語辞書を検
索したならば、どの階層にあるかも分からないので、約
1.5MB もある単語辞書を全文検索するしかなく、オ
ンライン文字認識のように応答性が必要な場合には実用
的でなかったためである。
【0009】 ((住所単語辞書の例) 都道府県: 約50個×約3文字×2バイト = 約300B 市町村 : 約4000個×約3文字×2バイト = 約2.5KB それ以下: 約160000個×約4文字×2バイト = 約1.3MB 合 計 : 約1.5MB ) しかし、従来の方式のように、例えば「茨城県 日立市
大みか町」と、長い住所を全部を手書き入力しなけれ
ばならないのでは、ユーザにとっては大変である。
【0010】
【発明が解決しようとする課題】従来の、単語の頭から
文字を入力し、候補を絞る方式(前方一致方式)では、
単語の頭の部分を知らなければ、所望の単語を検索する
ことはできない。そのため、うろ覚えで、単語の途中や
終りを知っていても、その情報が生かされないという問
題がある。
【0011】また、上記従来技術(1)〜(3)に共通す
る問題点としては、文字認識利用の例では、住所や定形
句などを全て手書き入力する必要がありユーザにとって
煩わしい点、また、単語辞書を最上位以外の階層から探
索すると探索に膨大な時間を要してしまう点、メニュー
により選択する場合においても住所のように階層構造に
なっていると、上位が分からないと下位を選択できない
点がある。
【0012】本発明の目的は、検索したい文字列の先頭
や末尾の文字に限らずに、うろ覚えの情報をキー入力と
して、目的の文字列を曖昧検索できる情報検索装置を提
供することにある。
【0013】さらに、本発明の他の目的は、キー文字を
入力して候補が絞りきれなかった時には、順序を気にせ
ずに、キー入力情報を追加できる情報検索装置を提供す
ることにある。
【0014】
【課題を解決するための手段】本発明の特徴は、入力さ
れた文字列を含む文字群を検索する情報検索装置におい
て、予め複数の文字列群を、それぞれ固有のアドレスに
記憶する辞書と、少なくとも、ある文字から他の文字へ
の遷移情報と、前記複数の文字列群のうち前記遷移関係
にある文字の組み合わせを含む文字列群のアドレスとを
それぞれ対応付けて記憶した文字遷移情報テーブルを有
し、前記入力された文字列に対応する文字列群を前記文
字遷移情報テーブルに記載したアドレスにより前記辞書
をアクセスし、当該アドレスに対応する前記辞書中の文
字列群を検索結果として表示するようにしたことにあ
る。
【0015】このことにより、検索したい文字列の一部
を適当に入力することにより、所望の文字列を高速に得
ることができる。
【0016】
【発明の実施の形態】以下、図面を用いて、手書きによ
り住所を入力する装置に本発明を適用した実施例、およ
び、単語の曖昧検索に適用した例を用いて説明する。
【0017】[手書き住所入力装置]図2は、本発明の
一実施例である手書き入力住所認識装置の動作概要図で
ある。住所入力エリアb1に、スタイラスペンa9で、
住所のキーとなる文字「大みか」を手書き入力する。す
ると、手書きされたストローク(筆跡)は、文字認識a
3により認識され、キーワードの候補文字,第一候補
「大みか」と第二候補「犬るカ」が得られる。これらの
候補文字を、文字遷移確率テーブルa4にある文字間の
遷移確率((文字A)→(文字B)に続く確率)と、文
字の出現確率テーブルa8を参照し、候補文字をどのよ
うに組み合わせると、文字列として出現確率が高くなる
かを求め、文字列としての出現確率が高くなるように、
候補文字の順位を最適化する。さらに、文字遷移確率テ
ーブルの候補単語No.を参照し、候補文字列にある文字
遷移を含む単語のポインタを求める。図の例では、「大
みか」と候補文字を組み合わせると出現確率が高くな
り、文字遷移確率テーブルより、(大→み)と(み→
か)を含む単語のポインタNo.A11が求められる。本
方式では、文字認識の後処理に用いる、遷移確率テーブ
ルに、新たに単語辞書中の単語へのポインタを設けるこ
とにより、高速に目的の単語にアクセスすることができ
る。そして、単語辞書中で該当する単語が分かったら、
単語辞書の階層情報により、上位の階層は一意に求めら
れる。この例では、最下位の階層の「大みか町」が一意
に求められたので、上位は「茨城県 日立市」と一意に
求めることができる。従って、「大みか」しか手書き入
力していないのに、「茨城県 日立市 大みか町」と、
住所を頭から候補表示し、入力することができる。
【0018】図1は、本発明の一実施例である手書き入
力住所認識装置の機能ブロック図である。図1を用いて
動作を簡単に説明する。スタイラスペンa9をタブレッ
トa1上に滑らせることにより、手書き文字パターンが
入力される。入力された手書きパターンを、認識辞書a
2にある文字パターンとマッチングして文字認識a3す
る。文字認識の結果得られた候補文字の候補順位を最適
化するために、予め学習して作成してある、文字間の遷
移確率と文字遷移を含む単語辞書中の候補単語のポイン
タが載っている文字遷移確率テーブルa4及び文字の出
現確率テーブルa8を参照し、文字列としての出現確率
が高くなるように候補順位を最適化するとともに、最適
化した文字列が該当する単語辞書中の単語へのポインタ
を求める(a5)。前記方法で求めた単語辞書a6の単
語と候補文字列を照合し、該当する単語とその前後の情
報を単語辞書の階層情報より求める(a7)。求められ
た結果をLCDa8に表示する。
【0019】尚、本発明の特徴である、[1]文字遷移
確率テーブルa4の作成方法、[2]文字遷移確率テー
ブルa4を用いて、候補文字を文字列としての出現確率
が高くなるように候補順位を最適化するとともに、最適
化した文字列にある文字遷移を含む単語へのポインタを
求める方法、[3]求めた単語のポインタを利用して手
書き入力した単語(キーワード)を含む文字列を推測す
る方法、[4]推測した文字列の表示方法については、
後に図面を用いて詳細に説明する。
【0020】図5は、本発明の一実施例である手書き入
力住所認識装置のハード構成図である。入力パターンと
辞書パターンをマッチングする機能,パターンマッチン
グにより得られた候補文字を最適化し、候補文字を含む
単語へのポインタを求める機能,候補文字を単語照合し
て、さらに前後の情報を検索する機能は、例えば、RO
Mc5に記憶してあるプログラムをCPUc3が読みだし、
実行することにより実現される。尚、各機能について
は、後に図面を用いて詳細に説明する。
【0021】[1]文字遷移確率テーブルa4の作成方
法 図6は、文字遷移確率テーブルa4の作成方法を説明す
るフロー図である。まず、学習用の単語辞書a6を読み
出すd1。読み出した単語について、単語中に含まれる
文字の出現回数をカウントし(d2)、出現回数テーブ
ルd3に記録する。続いて、文字遷移回数をカウントし
(d4),遷移回数テーブルd6に記録する。続いて、
遷移回数テーブルd6に、文字遷移が含まれた元の単語
の単語No.(単語のポインタ)を記録するd5。例え
ば、単語「大みか」の例では、文字の出現回数は、
「大」「み」「か」それぞれ1回、文字遷移回数では
「大→み」と「み→か」がそれぞれ1回とカウントされ
る。また、「大→み」と「み→か」の候補単語No.に
は、単語「大みか」の単語No.が記録される。このよう
な処理d1〜d6を、単語辞書a6中の全ての単語につ
いて繰り返し行う。その後、前記処理により作成した文
字出現回数テーブルd3と文字遷移回数テーブルd6を
参照して、文字間の遷移確率と文字遷移を含む候補単語
No.の情報を記述した文字遷移確率テーブルa4を作成
する(d9)。さらに、必要があれば、文字出現回数テ
ーブルd3を参照して、文字毎の出現確率を記述した文
字出現確率テーブルd8を作成する(d7)。それぞれ
のテーブルの構成については、以下図面を用いて説明す
る。
【0022】図7は、単語辞書の概要図である。ここで
は例として、住所の単語辞書a6を示す。この辞書は、
都道府県・市町村・それ以下で階層化された構造になっ
ており、各要素は、単語No.(単語の位置情報),上位
単語No.,単語(文字列)からなる。各単語にアクセス
するには、単語No.によりアクセスできる。また、単語
の階層関係は、上位単語No.によって分かる。
【0023】図8は、文字出現回数テーブルの概要図で
ある。文字出現回数テーブルd3には、学習用単語辞書
中に各文字が現れた回数が記憶され、学習用単語中の全
文字数をカウントするのに用いられる。
【0024】図9は、文字遷移回数テーブルの概要図で
ある。文字遷移回数テーブルd6は、学習用単語辞書中
に各文字遷移が現れた回数と、文字遷移が含まれていた
単語のNo.(候補単語No.)を記録するのに用いる。
【0025】図10は、文字出現確率テーブルの概要図
である。例えば、文字「日」の出現確率は、出現確率
(日)=出現回数(日)/全文字数で表せる。従って、
文字出現確率テーブルd8を作成するには、出現回数テ
ーブルd3を参照し、各文字の出現回数を求め、文字出
現確率テーブルd8に記録すればよい。
【0026】図11は、文字遷移確率テーブルの概要図
である。例えば、文字遷移「日→立」の遷移確率は、遷移
確率(日→立)=遷移回数(日→立)/出現回数(日)
で表せる。従って、文字遷移確率テーブルa4を作成す
るには、出現回数テーブルd3と遷移回数テーブルd6
を参照して、各文字の遷移確率を求め、文字遷移確率テ
ーブルa4に記録すればよい。
【0027】以上の処理により、単語辞書の単語へのポ
インタのついた文字遷移確率テーブルa4を作成するこ
とができる。尚、本実施例においては、単語辞書中の各
単語を識別するための単語識別情報として単語No.を用
いたが、これに限られるものではなく、コード情報であ
っても良い。また、同様に、単語辞書中の単語間の階層
関係を示す階層情報として上位単語No.を用いたが、こ
れに限られるものではなく、階層関係を表し得るもので
あれば良く、例えばコード情報であっても良い。
【0028】[2]遷移確率による後処理(候補文字の
最適化と候補単語のポインタの決定)方法 図12は、遷移確率テーブルを用いて行う文字認識後処
理の概要図である。図のように、入力パターン「大み
か」の候補文字が、第一候補「大るか」・第二候補「犬
みカ」であるとする。尚、ここでは文字認識結果に誤り
がある場合でも、遷移確率による候補文字の最適化で対
応できることを示すため、特に、図2の例とは異なる
「大みか」を誤認識した例を用いて説明する。候補文字
の組み合わせは、図に示す8通りが考えられる。これら
文字列の組について、文字遷移確率テーブルを参照し
て、文字列の出現確率と単語辞書中の単語候補の単語の
ポインタを求める。文字列の出現確率が高い候補文字の
組み合わせが、最適な組み合わせ(パス)である。従っ
て、その文字組を候補単語No.と共に遷移確率後処理の
結果とする。
【0029】それでは、まず、文字列の出現確率の計算
方法を述べる。
【0030】一般に、文字列S1 S2 …Snの出現
確率は、次式で近似できる。
【0031】
【数1】 出現確率(S1 S2 …Sn) =出現確率(S1)×遷移確率(S1→S2)×…×遷移確率(Sn−1→Sn) …(数1) 図の候補文字の組み合わせNo.3の「大みか」の例で
は、以下の通りとなる。出現確率(大みか)=出現確率
(大)×遷移確率(大→み)×遷移確率(み→か)具体的に
は、文字遷移確率テーブルa4と出現確率テーブルa8
とにより、次式の通り値が求められる。
【0032】
【数2】 出現確率(大みか) =(18/89274)×(1/18)×(2/15)×(2/198) =14940×10~8% …(数2) 次に、候補単語No.(単語辞書中の単語候補のポインタ
0を求める方法を述べる。文字列S1 S2 …Snの
候補単語No.は、次式のように求めることができる。
【0033】
【数3】 候補単語No.(S1 S2 …Sn) =候補単語No.(S1→S2)∩…∩候補単語No.(Sn−1→Sn) …(数3) 図の例、文字列「大みか」の場合は、文字遷移確率テー
ブルa4により次式のようになる。
【0034】
【数4】 候補単語No.(大みか) =∩候補単語No.(大→み)∩候補単語No.(み→か) =(A11)∩(A11,A12) =A11 …(数4) この例では、アンド(∩)をとることにより、候補を
「大みか町」(A11)に絞ったが、オア(∪)をとり
候補を「大みか町」と「みかの原町」にしてもよい。こ
の場合、一致数を考慮すれば「大みか町」を第一候補に
することができる。詳細は、後で図面を用いて述べる。
【0035】以上の方法により、文字認識により得られ
た候補文字を文字列としての出現確率が高くなるように
最適化し、最適化した候補文字列の候補単語No.(単語
へのポインタ)を求めることができる。尚、上記の方法
によれば、例えば、「大みか町」の一部分である「み
か」のみを入力しても、「大みか町」と「みかの原町」
を候補にすることができる。
【0036】[3]手書き入力した単語(キーワード)
を含む文字列の推測方法 続いて、最適化した候補文字列(手書き入力したキーワ
ード)を含む文字列全体の推測方法について、図面を用
いて説明する。
【0037】図13は、後処理結果により文字列を推測
する概要図である。この例では、遷移確率による後処理
でキーワード(候補文字)「大みか」と候補単語No.A
11が得られた場合を示す。この図から分かるように、
キーワード「大みか」は単語辞書中に1つしかなく、ま
た最下位の階層なので、上位の文字列「茨城県 日立
市」は一意に決まる。そこで、手書き文字「大みか」の
全体の推測結果として、候補文字列「茨城県 日立市
大みか町」を表示した。
【0038】図22は、図13と同様の例であるが、手
書き文字「大みか」の候補文字列として、文字列推測結
果の「茨城県 日立市 大みか町」と推測結果なしの文
字認識結果の「大みか町」を両方候補として出し、ユー
ザが選択できるようにしたことが特徴である。このよう
に、キーワードから推測した文字列と推測なしのキーワ
ードのみの両方を候補にすると、ユーザは好みの方を選
べる利点がある。
【0039】図14は、後処理結果により文字列を推測
する概要図である。この例では、遷移確率による後処理
の結果、単語辞書の中間階層の単語である「日立」(候
補単語No.A1)得られた場合を示す。図より分かるよ
うに、キーワード「日立」は、単語辞書テーブル中に1
つしかないので、上位階層の文字列「茨城県」は一意に
決まる。しかし、下位の階層は複数あるので、例えば、
候補を「茨城県 日立市 大みか町」「茨城県 日立市
みかの原町」・・・と複数表示し、ユーザに選択して
もらえば良い。
【0040】図15は図14と同様に後処理の結果単語
辞書の中間階層の単語である「日立」(候補単語No.A
1)遷移確率により得られ、下位の候補が複数ある例で
ある。この図の例では、単語辞書には各都市毎の人口情
報を保持しており、複数ある下位の階層のうち、人口の
多い町を優先的に高い候補順位で表示することにより、
操作性を向上している。
【0041】図16は、図15と似ているが、単語辞書
には人口情報の代わりに、単語間の遷移確率を持ってい
る。複数ある下位の階層のうち、遷移確率の高い単語を
優先的に高い候補順位で表示することにより、操作性を
向上できる。この単語間の遷移確率は、地名がよく現れ
るテキストなどから学習することができる。また、簡易
には、都市の人口により頻度を決定して学習してもよ
い。
【0042】図21は、図14と同様に後処理の結果単
語辞書の中間階層のキーワード「日立」(単語No.A
1)が得られ、下位の候補が一意に定まらない例であ
る。図14と異なるのは、一意に候補が決まった「茨城
県 日立市」のみを表示しており、一意に定まらない市
町村以下は、ユーザが再度入力するようにした点であ
る。
【0043】以上より、わかるように、キーワードより
上位の階層は、自動で一意に推測できるし、キーワード
より下位の候補が複数ある場合は、一意には定められな
いので、メニューを提示したり、その部分だけ際入力し
てもらえばよい。
【0044】[4]推測した文字列の表示方法 さて、次に、上記方法で求めた文字列候補の表示の仕方
について述べる。図17〜図20は、推測した文字列の
表示形態を示す図である。いずれも「大みか町」と入力
して、推測認識結果の文字列「茨城県 日立市 大みか
町」を表示しているが、各々表示の位置を変えて、特徴
を出している。
【0045】図17では、「大みか町」と手書きした近
くに候補文字列「茨城県 日立市大みか町」の中の「大
みか町」の部分を表示している。この表示方法では、手
書きした筆跡と認識結果の候補を対比しやすいメリット
がある。
【0046】さて、図18は、「大みか町」と手書きし
た位置の近くから、「茨城県 日立市 大みか町」と表
示している。この表示方法では、手書き文字と候補文字
列の頭が揃っているので、結果の表示開始位置が容易に
分かるメリットがある。
【0047】図19では、「大みか町」と手書きした位
置を中心として、候補文字列「茨城県 日立市 大みか
町」と表示している。この表示方法では、手書き文字と
候補文字列の位置が全体的に見て一番近く、視点をあま
り動かさなくて済むというメリットがある。
【0048】図20では、「大みか町」と手書きした終
りの位置と候補文字列「茨城県 日立市 大みか町」の
最後の文字の位置を揃えてと表示している。この表示方
法では、特に右利きのユーザでは、ペンを持った手の下
に候補文字列が隠れないメリットがある。
【0049】図17〜図20のように、各々特徴ある表
示方法があるが、システムが適宜どれか1つの方法に決
めてもよいし、ユーザが複数の表示方法から自分にあっ
た表示方法を選択できるようにしてもよい。
【0050】また、図17〜図20では、候補文字列中
のキーワード「大みか」を反転表示して分かりやすくし
ているが、例えばフォントを変えるなど、他の方法でも
よい。また、特に反転表示やフォントを変えるなどを行
わなくてもよい。
【0051】以上、本実施例によれば、住所のような階
層データや定形句などを入力する際に、キーとなる文字
を入力するだけで、文字列全体を推測し、候補として表
示することができる。また、単語辞書に高速にアクセス
して単語照合することができ、上記実施例のように単語
辞書が階層化されているときでも、階層の上位・下位に
関係なく高速にアクセスができる。
【0052】[5]キー入力文字の曖昧検索 それでは、次に、入力文字をキーにした曖昧検索につい
て述べる。ここで、曖昧検索とは、キー入力と完全に一
致していなかったり、一部欠損していたり、キー文字の
並び順が一部異なっていたりする曖昧な情報をキーにし
て検索する意味である。
【0053】図23は、キーとして、「大みか」と入力
した。これを、文字遷移に分解すると、図のように、
「大→み」「み→か」に分けられる。これらの文字遷移
を含む文字は、「大→み」に対して「大みか町」が、
「み→か」に対して「大みか町」と「みかの原町」が候
補になる。これらは、両方とも、「町村以下」の地名な
ので、階層で繋がって纏められることはない。そこで、
次に、2つの候補それぞれの得点(キー文字の一致数と
文字遷移の一致数)を計算する。文字の一致数では、
「大みか町」は、キー文字「大みか」と3文字が一致し
ているので3点、「みかの原町」は、キー文字「大み
か」のうち「みか」の2文字が一致しているので2点と
数える。文字遷移では、「大→み」と「み→か」の2つ
が該当しているので、2点、「みかの原町」は、「み→
か」のみが該当しているので、1点と計算できる。図2
3の例では、(キー文字一致数>キー文字の文字遷移の
一致数>キー文字該当階層順>キー文字一致位置)の順
に強い優先とした。そこで、優先度が一番高い、文字の
一致数の得点の高い「大みか町」が1位,「みかの原
町」が2位になり、単語辞書a6を参照して、1位:
「茨城県 日立市 大みか町」,2位:「茨城県 日立
市 みかの原町」となる。
【0054】このように、入力キー文字「大みか」を
(一部でも)含む住所を検索する場合、検索結果に表示
優先順位を付け、尤もらしい結果が先に表示されるよう
にして、操作性を向上することが必要である。優先順
は、キー文字の一致数,キー文字の文字遷移の一致数,
キー文字の階層順,キー文字が一致した位置,キー文字
の並び順,キー文字間距離,単語の使用頻度の少なくと
も1つを考慮すればよい。図24の例では、「みか」と
キーの文字を入力した。文字遷移「み→か」を含む地名
は、図23と同様に、「大みか町」と「みかの原町」が
ある。この例では、「大みか町」も「みかの原町」も、
キー文字を2文字含み(2点)、キー文字と同じ遷移1
つを含む(1点)ので、文字一致数と文字遷移一致数か
らは、優先は付けられない。また、階層も、両方等も同
じ「町村以下」のレベルである。そこで、一般には、キ
ー文字を頭に含む文字列を入力することが多いので、キ
ー文字「みか」を先頭に含む「みかの原町」を1位にす
る。そして、2位が、「大みか町」となる。検索結果と
しては、単語辞書a6を参照して、1位:「茨城県日立
市 みかの原町」,2位:「茨城県 日立市 大みか
町」を表示した。
【0055】図25の例では、キー入力文字として「常
陸太田市真弓」と入力した。「常陸太田市真弓」を文字
遷移に分解すると、「常陸」「陸太」「太田」「田市」
「市真」「真弓」となる。これらの文字遷移を含む単語
は、図の例では「常陸」「陸太」「太田」「田市」を含
む単語として「常陸太田市」が、「太田」「田市」を含
む単語として「太田市」「太田市町」が、「太田」を含
む単語「太田」,「市真」を含む単語はないが、「真
弓」を含む単語として「真弓(常陸太田市)」「真弓
(生駒市)」「真弓南」が得られる。ところで、この中
で、「常陸太田市」−「真弓(常陸太田市)」および「太
田市」−「太田」は、単語辞書a6より、階層関係にあ
ることがわかる。そこで、「常陸太田市真弓」と「太田
市太田」は、繋いで考えることができる。
【0056】これらの単語の文字一致数による得点は、
「常陸太田市真弓」が7点,「太田市太田」が3点,
「常陸太田市」が5点,「太田市」が3点,「太田市
町」が3点,「真弓(生駒市)」が2点,「真弓南」が
2点となる。これらの単語の文字遷移一致数による得点
は、これらの単語が含むキー文字の文字遷移の数の和と
すると、「常陸太田市真弓」が4点+1点=5点。但
し、「太田市太田」はキー文字の「太田」は1度しか書
いていないのに、2回出現したと見なしているので、重
みは小さくして、例えば、2点+0.1点=2.1点とす
る。その他の単語は、単語が含むキー文字の文字遷移の
数を得点とし、「常陸太田市」が4点,「太田市」が2
点,「太田市町」も2点,「真弓(生駒市)」が1点,
「真弓南」が1点となる。そこで、文字一致数の点数で
優先を付け、文字一致数が同点のものについては、文字
遷移一致数で優先を付け、それでも優先が付けられない
ものについては、階層順で優先を付けると、1位:「常
陸太田市真弓」,2位:「常陸太田市」,3位:「太田
市太田」,4位:「太田市」,5位:「太田市町」,6
位:「真弓(生駒市)」,6位:「真弓南」となる。
(4位と5位は、階層順により優先を付けた。) 検索結果は、単語辞書a6を参照し、1位:「茨城県
常陸太田市 真弓町」,2位:「茨城県 常陸太田市 山
下町」,3位:「群馬県 太田市 太田」,4位:「群
馬県 太田市 本町」,5位:「奈良県 橿原市 太田
市町」,6位:「奈良県 生駒市 真弓」,6位:「奈
良県 生駒市 真弓南」となる。
【0057】図48は、キー入力文字として「常陸太田
真弓」と入力した。ここでは、優先順位を(キー文字一
致数(a)>キー文字該当階層(b)>キー文字一致位
置(c)>余り文字数(d))の総合得点により付ける
方法を述べる。さて、「常陸太田真弓」を文字遷移に分
解すると、「常陸」「陸太」「太田」「田真」「真弓」
となり、これらの文字遷移を含む単語として「常陸太田
市真弓町」「常陸太田市」「太田市太田」「太田市」
「上太田」「真弓(生駒市)」「真弓南」が得られたと
する。これらの単語の文字一致数による得点(a)は、
キー文字のうち、候補単語に含まれれば1点、含まれな
ければ0点として加算すると、「常陸太田市真弓町」が
6点,「常陸太田市」が4点で、それ以外は2点とな
る。階層による得点(b)は、都道府県レベルが3点,
市・郡レベルが2点,町村以下レベルが1点として、複
数階層を含む場合は加算する。すると、市・郡と町村以
下を含む「常陸太田市真弓町」「太田市太田」が2+1
点=3点,市・郡の「常陸太田市」「太田市」が2点,
「上太田」「真弓(生駒市)」「真弓南」が1点にな
る。次に、キー文字一致位置による評価値(c)では、
単語の頭からキー文字と一致すれば0点,2文字目から
なら−1点,3文字目からなら−2点・・・と得点計算
する。すると、「上太田」が−1点で、それ以外は0点
になる。余り文字による得点(d)では、候補の単語の
うち、キー文字以外の文字が何文字含まれるかという値
で、N文字含めば、−N点とカウントする。図に示すよ
うに、「常陸太田市真弓町」が−2点,「常陸太田市」
「太田市太田」「太田市」「上太田」「真弓南」が−1
点,「真弓」が0点になる。最後に、これらの総合得点
(e)は、(キー文字一致数(a)>キー文字該当階層
(b)>キー文字一致位置(c)>余り文字数(d))の
優先度を付けるため、ここでは、(e)=1000×
(a)+100×(b)+10×(c)+(d)とし
た。各評価値に付ける重みは、優先度が高い評価値ほど
大きくすればよい。また、優先度を絶対的にするために
は、優先度が低い評価値の最大値よりも大きな値を重み
にすればよい(例:余り文字数の評価値(d)の最大が
0ならば、キー文字一致位置による評価値(c)は、1
以上ならよい。)。このようにして定めた評価値によ
り、優先順位を決定し、単語辞書a6を参照して、検索
結果を得る。
【0058】さて、これまで説明したような、文字遷移
に分解して検索する手法を用いれば、キー入力文字が一
部欠損していたり、一部誤りがあったり、キー文字の順
序が曖昧であっても検索が可能である。そのような例を
紹介する。
【0059】図26は、図25で検索したのと同じ地名
「茨城県 常陸太田市 真弓町」を検索するのに、キー
文字を、「真弓太田」と、順序を逆に入力している。し
かし、キー文字を文字遷移に分解すれば、図25と同じ
ように、「真弓」を含む単語として、「真弓(常陸太田
市)」「真弓(生駒市)」「真弓南」が得られる。「弓
太」を含む単語はないが、「太田」を含む単語として、
「常陸太田市」「太田市」「太田市町」「太田」が得ら
れる。あとは、図25と同様に、階層で繋がる単語は繋
ぎ「常陸太田市真弓」「太田市太田」、同様に得点計算
をすると、1位の「茨城県 常陸太田市 真弓町」が得
られる。この例のように、キー文字の順序を逆にして
も、妥当な結果が得られるのは、単語辞書へのポインタ
(インデックス)に文字遷移(2文字組)という、文字
の並びを意識した情報を用いているためである(2文字
の熟語が多いことなどからも分かる)。これが、もし、
1文字毎のインデックスを付けているとすると、順序を
気にせずに検索したら、予想しないおかしな検索結果が
含まれるのは容易に想像がつく(例:「山形」と入力し
たのに、「形山」がたくさん含まれる)。
【0060】図27は、「茨城県 常陸太田市 真弓
町」を検索したく、「常陸太田市真弓」と入力すべきと
ころを、「常陸大田市真弓」と、「太田」−「大田」を
誤って入力した例である。単語で考えれば、「常陸太田
市」と「常陸大田市」では異なるが、キー入力文字を文
字遷移に分解すれば、「常陸」「陸太」「大田」「田
市」「市真」「真弓」となり、「常陸」「田市」から、
「常陸太田市」を候補に含めることが可能である。単語
辞書a6より、階層で繋がる単語は繋いで、前記方法と
同様に得点計算をすれば、「常陸太田市真弓」がキー文
字「常陸大田市真弓」の文字遷移「常陸」「陸太」「大
田」「田市」「市真」「真弓」との一致数が最も多く、
「茨城県 常陸太田市 真弓町」が第1位になる。この
ように、キー入力文字の途中など、一部に誤りがあって
も、残りの文字をキーとして、欲しい文字列を検索する
ことができる。
【0061】ところで、図25〜図27などでは、キー
入力文字の文字数が増えたため、曖昧検索の検索結果の
数が多くなっている。曖昧検索結果を全部表示した方が
嬉しい場合もあるが、全部見るのも大変だし、キー文字
をたくさん入れたのだから、候補を絞って欲しい場合も
ある。その場合、図28のように、検索結果の表示条件
をユーザが指定できるようにすれば、ユーザは、好みに
応じて、必要な情報を選択できるようになる。図の例で
は、キー入力文字の80%以上を含む検索結果のみを表
示するように指定している。そのため、検索システム
は、検索により得られた住所候補がキー文字の何%を含
むか計算し、ユーザの指定条件に合った検索結果のみを
表示する。
【0062】図28の例では、曖昧検索の結果をどのく
らい出力するかを、キー入力文字との一致割合などの指
標を元に、ユーザに選択させるものであった。この外に
も、(キー入力と完全にANDがとれる結果を表示する
/キー入力のORの結果を表示する)などで、結果の出
力をユーザに選択させてもよい。
【0063】さらには、図29のように、曖昧検索結果
の優先順位の付け方をユーザに指定させるようにして、
ユーザの欲しい情報が優先的に表示されるようにしても
よい。図の例では、(階層>文字一致数)の順に優先を
付けるように指定があるので、キー文字を含む曖昧検索
結果のうち、階層が高いものが優先的に表示される。 [6]1文字の曖昧検索 さて、これまで、文字遷移情報を使った曖昧検索につい
て述べてきた。文字遷移情報とは、2文字間の関係を表
す情報なので、一般には、2文字以上の単語について有
効である。しかし、単語の中には1文字のものも存在す
る(例:住所単語の「泉」や「イ」「ロ」「ハ」など)
ため、文字遷移情報による曖昧検索を、1文字の単語に
も拡張する必要がある。次に、文字遷移情報を用いて1
文字の単語を曖昧検索する方法を述べる。
【0064】図30は、文字遷移情報をベースにしなが
ら、1文字の情報でも検索するための遷移情報学習方法
と検索方法の概要を示す。1文字検索のポイントは、1
文字の単語WをW→Nullという文字遷移で表すことにあ
る。例えば、図の例では、「埼玉県 川口市 峯」を、
「埼→玉」「玉→県」「川→口」「口→市」「峯→Nul
l」という文字線遷移に見立てて学習した。
【0065】このように学習しておけば、例えば、検索
するためのキーワードとして、「川口,峯」と区切って
入力されれば、「川→口」と「峯→Null」(あるいは、
「峯→*(なんでもよい)」)の遷移を含むと解釈し、
図のように、「川口市 峯」を第一候補に選択できる。
(1文字の単語wを「w→Null」と学習したのに、検索
する場合には、「w→*(何でもよい)」と見なす方が
好都合な場合がある。これについては、次の図31で詳
しく述べる。) 前に述べた「川口,峯」のように、1文字のキーワード
を区切って入力してもらえれば良いが、「川口峯」のよ
うに、区切られないで入力されることも考えられる。そ
の場合には、「川口峯」を、これまでと同じように2文
字の遷移(「川→口」「口→峯」)と見なす他に、図の
ように、1文字毎の遷移(「川→*」「口→*」「峯→
*」)と見なすことにより、1文字の単語「峯」も取り
こぼさずに検索することができる。
【0066】さて、先ほど、1文字の単語wを「w→Nu
ll」と学習したのに、検索する場合には、「w→*(何
でもよい)」と見なす方が好都合な場合があると述べた
が、そのような例を図31を用いて説明する。
【0067】図31の例では、「千葉県 旭市 イ」と
いう住所の学習と検索の例を示す。学習時は、図30の
例と同様に、文字遷移「千→葉」「葉→県」「旭→市」
「イ→Null」に分解して学習する。
【0068】次に、検索の話をする。「旭市」のよう
に、固有の地名が「旭」1文字で、後ろに単位を表す
「市」がついて2文字になったような地名の場合、検索
時には、固有の地名を表す「旭」1文字のみを入力した
いことがよくある。例えば、「千葉県 旭市 イ」を検
索したく、「旭,イ」のように入力する場合がこれに当
たる。このような場合、「旭,イ」を「旭→Null」と
「イ→Null」としか見なさないと、「イ」という単語に
ついては、「イ→Null」と学習してあるため検索できる
が、「旭市」については、「旭→市」と学習してあるた
め、検索ができない。このような不具合を防ぐために
は、学習するときには、1文字の単語wを文字遷移「W
→Null」と見なしてよいが、検索する場合には、1文字
の単語(あるいは文字)Wを、「W→*(なんでもよ
い)」と見なすほうがよい。但し、この場合、Wが頭に
つく文字遷移を全部含めるため、意図しない候補も急に
増えることが予想される。そのような場合には、「旭
市」のように、固有の地名が先頭の1文字で、後ろに単
位を表す「都道府県・市郡・町村」等がついて2文字に
なったような地名を優先するとよい。それには、まず
は、「W→都」「W→道」「W→府」・・・「W→村」を
優先的に検索し、さらに、ユーザに提示する検索結果の
数に余裕があれば、「W→*(なんでもよい)」を実行
するとよい。
【0069】あるいは、まずは、「W→都」「W→道」
「W→府」・・・「W→村」を優先的に検索し、結果を
ユーザに見せ、その中に欲しい検索結果があれば、そこ
で終了。もし、なければ、「W→*(なんでもよい)」
を実行する方法もある。
【0070】あるいは、図29のような、ユーザの検索
の条件設定パネルで、「W→都」「W→道」「W→府」
・・・「W→村」を優先的に検索すればよいか、あるい
は、「W→*(なんでもよい)」まで検索する必要があ
るかを設定してもらってもよい。
【0071】以上により、文字遷移情報を用いる曖昧検
索を、1文字の曖昧検索もできるように拡張することが
できた。
【0072】[7]単語辞書と文字遷移回数および出現
回数の学習 図32は、単語辞書と遷移&出現回数テーブル(文字の
遷移確率と出現確率の元データ)の学習システムの構成
を示す。動作概要を説明する。ユーザは、単語入力部h
1により、新しい単語を入力する。すると、学習システ
ムは、学習機能付き単語辞書h3に、新たに入力された
単語を追加登録するh2。もし、新たに入力された単語
が、以前に登録済みであった場合には、追加登録せず
に、次のステップ(遷移&出現回数のカウント)に進
む。続いて、新たに入力された単語を文字遷移に分解
し、単語に含まれる文字の遷移回数と出現回数を学習機
能付きユーザ遷移&出現回数テーブルh5に記録する。
さらに、入力された単語が学習機能付き単語辞書h3の
どこに記録されているか、そのアドレスを文字遷移に関
連づけて、学習機能付きユーザ遷移&出現回数テーブル
h5に記録する。以上を、ユーザが新たに単語を学習さ
せる度に行えばよい。それでは、次に、図面を用いて、
学習機能付き単語辞書h3と学習機能付きユーザ遷移&
出現回数テーブルh5の構成を詳細に述べる。
【0073】図33は、学習機能付き単語辞書h3と学
習機能付きユーザ遷移&出現回数テーブルh5の構成を
示す。この図の例では、学習機能付き単語辞書h3に
は、氏名と電話番号の情報(電話帳情報)が記録できる
ようになっている。電話帳情報のテーブルには、Nextの
電話帳情報を差すポインタがついて、情報を増やせるよ
うになっている。この図では、「田中博」,「菊池圭
二」,「田所ゆかり」の3名の電話帳情報を登録してあ
る。
【0074】図33は、前記、学習機能付き単語辞書h
3のデータを高速検索するための、学習機能付きユーザ
遷移&出現回数テーブルh5の様子を示す。学習機能付
きユーザ遷移&出現回数テーブルh5には、単語に現れ
た文字遷移の情報(遷移元文字とその出現回数、およ
び、文字遷移の遷移先文字と文字遷移回数)と文字遷移
を含む単語(関連単語)のアドレスを記録する構成にな
っている。こちらも、Nextの文字遷移情報を指すポイン
タが付いていて、情報を増やせるようになっている。こ
こで、後で、単語や住所の曖昧検索を行う際に、高速な
検索を実現するためには、遷移元文字や、各遷移元文字
に繋がる遷移先文字のデータを、図のように文字コード
順に並べておくとよい。そうすれば、後から検索を行う
際には、文字遷移情報をバイナリサーチなどで、高速に
探すことができる。
【0075】さて、図34は、図33の学習機能付き単
語辞書h3に、新たに、「郡司圭子(電話番号056−
41−5046)」という情報を追加し、学習機能付き
ユーザ遷移&出現回数テーブルh5を更新した様子を示
す。学習機能付きユーザ遷移&出現回数テーブルh5
に、以前には、「郡→司」や「圭→子」という文字遷移
情報が登録されていなかった。そのため、新たに、「郡
→司」と「圭→子」という文字遷移情報を追加した。追
加の際には、後で検索する時に高速に行えるよう、図に
示すように、遷移元文字と、遷移元文字に繋がる遷移先
文字のデータが文字コード順に並ぶ位置に挿入した。
【0076】図35には、図34の例に、さらに、学習
機能付き単語辞書h3に、新たに、「菊池博(電話番号
03−453−5587)」という情報を追加し、学習
機能付きユーザ遷移&出現回数テーブルh5を更新した
様子を示す。さて、学習機能付きユーザ遷移&出現回数
テーブルh5には、以前から、「菊→池」や「博→Nul
l」という文字遷移情報が登録されていた。そこで、こ
こでは、以前からある「菊→池」「博→Null」という文
字遷移情報テーブルの、遷移元文字出現回数と文字遷移
の遷移回数、および、遷移情報を含む単語(関連単語)
を書き換えればよい。以上のような学習を用いれば、ユ
ーザが新たに単語情報を追加したい場合、従来から学習
している単語辞書や遷移&出現回数テーブルを生かした
まま、高速曖昧検索のためのデータを更新できる。
【0077】図36は、単語辞書とユーザ遷移&出現回
数テーブルの学習機能を単語の曖昧検索装置に組み込ん
だ例を示す。前述した方法で、学習機能付き単語辞書h
3と学習機能付きユーザ遷移&出現回数テーブルh5の
学習を行う。ここでポイントは、これらのテーブルを学
習したら、その度に、曖昧検索システムは、学習機能付
き単語辞書h3と学習機能付きユーザ遷移&出現回数テ
ーブルh5のロードを行い、最新の情報を用いて検索で
きるようにしたことにある。
【0078】図37は、単語辞書やユーザ遷移&出現回
数テーブルを、標準の辞書(テーブル)と、ユーザの辞
書(テーブル)に分けた例である。例えば、一般的に用
いるデータは標準辞書に、個人に特有なデータはユーザ
辞書に登録する。すると、複数の人間がシステムを共用
する場合にも、標準辞書は共用し、個人に特有のデータ
は、各自が持てばよい。標準辞書が更新されたときなど
にも、個人に特有のデータをユーザ辞書に分けておくこ
とで、個人のデータが保護されるし、新しい標準辞書デ
ータも用いることができる。
【0079】このように、ユーザ辞書と標準辞書を複数
使う場合には、例えば、図に示すように、最初に、学習
機能付きユーザ遷移&出現回数テーブルh5を使って、
候補文字列の最適化と単語のポインタ決定を行いi5、
その最適化結果が妥当なものかどうかをチェックするi
6。もし、これが妥当ならば、ユーザの単語辞書h3を
参照して結果を導ける。しかし、もし、妥当でなかった
ならば、ユーザは検索キーとして、学習機能付きユーザ
遷移&出現回数テーブルh5にはない情報(標準のテー
ブルにある情報)を入力したと考えられる。そこで、標
準出現確率テーブルd8や、標準の文字遷移確率テーブ
ルa4,標準の単語辞書a6を用いて、図1で説明した
のと同様の検索を行えばよい。
【0080】学習機能付きユーザ遷移&出現回数テーブ
ルh5による文字列最適化が妥当ならば、ユーザ遷移&
出現回数テーブルに記載されている、その文字遷移を含
む単語辞書アドレスを参照して、単語検索を行うi7。
もし、検索結果が妥当ならばi8、結果を表示するi
4。もし、妥当でなかったならば、ユーザは検索キーと
して、学習機能付きユーザ遷移&出現回数テーブルh5
にはない情報(標準のテーブルにある情報)を入力した
と考えられる。そこで、標準出現確率テーブルd8や、
標準の文字遷移確率テーブルa4,標準の単語辞書a6
を用いて、図1で説明したのと同様の検索を行えばよ
い。
【0081】[曖昧検索の様々な応用] [11]各種の入力(キーボード・文字・音声)に適用
する例 さて、これまでは、文字遷移情報テーブルと単語辞書を
用いて、文字認識結果の最適化と曖昧検索を行う例を中
心に述べてきた。しかし、この、文字遷移情報テーブル
と単語辞書を用いて、文字列の最適化と曖昧検索を行う
方法は、文字認識以外にも、音声認識等にも適用可能で
あるし、さらには、曖昧検索をキーボード等、各種の方
法で入力した文字に対して用いることも可能である。
【0082】文字遷移情報テーブルと単語辞書を用いた
文字列最適化と住所の曖昧検索をキーボード・文字(文
字認識入力)・音声による入力に適用した場合の検索モ
ジュール関連図を図38に示す。文字入力は、図に示す
ように、キーボード・文字(文字認識入力)・音声な
ど、様々な手段で入力することができる(図の例では、
「大みか」と入力した)。
【0083】文字や音声などは、文字認識や音声認識な
どの認識系により、文字コード化される。但し、認識系
を用いる場合、得られた文字コード(丈みか・大るカ)
は、あくまでも、正解の候補であり、確定はしていな
い。この不確定な候補文字をできるだけ正解らしくする
ために、文字遷移確率テーブルa4に記載されている文
字間の遷移確率の情報を用いて、文字列として尤もらし
くする(図の例で「大みか」に候補が訂正された)。そ
の後は、候補文字を最適化するために用いた文字遷移確
率テーブルに記載された、文字遷移を含む候補単語のデ
ータアドレスを参照し、文字遷移を含む単語を検索(直
接参照)する。そして、単語辞書a6から、住所の階層
情報を使って、ユーザが検索したい住所の候補を表示す
る(詳細は、前述したとおり)。
【0084】もし、認識系を使わないキーボード等でキ
ー文字(「大みか」)が入力された場合(ユーザの入力
ミスがないとすれば)、入力された情報は、確定した情
報と見なせる。従って、例えば、文字や音声による入力
で、認識と候補文字最適化を終えた状態と考えられる。
そこで、認識と候補文字最適化を飛ばして、単語検索の
部分から、同様に行えばよい。
【0085】[12]住所の曖昧検索を地図情報の検索
等に用いる例 さて、図39は、住所の曖昧検索を地図情報の検索に適
用した例を示す。この例では、例えば、「大みか」と音
声等で入力すると、「大みか町」付近の地図を表示する
ようになっており、カーナビゲーションの操作等に用い
ることができる。ここでのポイントは、単語辞書の情報
(地名単語とその階層情報)に、各地名単語が表す場所
の地図データへのポインタ(該当地図アドレス情報)を
付加したことにある。例えば、「大みか」と入力する
と、音声や文字など、コード化するのに認識系が必要な
場合は、認識して候補文字を得て、文字遷移確率テーブ
ルa4を参照し、候補の最適化をする(キーボードなら
ば、認識と候補の最適化は飛ばす。)。さらに、文字遷
移確率テーブルa4に記載されている、文字遷移と関連
する単語のアドレスを参照する。そこには、「大みか
町」という単語の他に「大みか町」付近の地図のアドレ
ス(MA11)が記載されている。そこで、地図データ
j2のアドレスMA11にアクセスし、「大みか町」付
近の地図を表示した。
【0086】さて、図39の例では、地名を表す単語辞
書に地図データのポインタを加えた例を示した。この例
のように、単語辞書に各種データへのポインタを張った
り、単語辞書に単語と一緒に各種データを記憶するとい
うアイディアは、他にも様々に応用ができる。例えば、
地名単語辞書に郵便番号を付加すれば、地名の一部を入
力して郵便番号を調べるシステムができる。また、地名
の回に人名を階層化したような単語辞書に電話番号を付
加すれば、住所と氏名の一部を曖昧に入力して電話番号
を調べるようなシステムもできる。また、単語辞書に、
その単語の意味情報(国語辞典の様なデータ)へのポイ
ンタを張れば、曖昧に入力して、正しい表記(単語)と
その意味を調べるような、国語辞典システムも作成可能
である。その他にも、図書館の書名・著者名・出版社な
どから、本を検索するシステム。医者が扱う薬を、薬の
記号や薬品名の一部から検索するシステム。住所・氏名
情報(単語辞書)と戸籍情報をリンクしておき、住所・
氏名の曖昧入力から、戸籍情報を探すシステム。インタ
ーネットのキーワードを曖昧な入力から検索するシステ
ムなど、あらゆる情報の検索に応用が可能である。
【0087】[13]単語辞書を複数表記で記憶し曖昧
検索の曖昧さをさらに広げる 次に、図38と同様の検索システムで、単語辞書k1を
複数の表記(一般の表記・読み・英語・ドイツ語・ひら
がな・カタカナ・音節など)で持つ。文字遷移確率テー
ブルは、全ての表記について持ち、全ての表記から単語
辞書へポインタを張ることにより、検索キーがこれらの
どれでも良いようにして、さらに検索の曖昧度を広げる
方法について述べる。
【0088】図40は、住所の単語辞書を複数の表記
(一般の表記・よみ・英語表記)で持ち、漢字とかな文
字の混ぜ書きや、英語の入力にも対応できるようにした
例である。ここでは、表記(漢字など)と表記に対応す
る読みを、表記1文字毎に対応させて記憶してある。表
記・よみ・英語のいずれからも、文字遷移情報を抽出
し、単語辞書へのポインタが張ってある。そこで、図の
例のように、漢字とかなの混ぜ書き(「いし名坂」)で
入力されても、単語を特定し、例えば、正しい表記に直
して表示することが可能である。
【0089】図40の例では、検索結果を一般的な表記
で表示したが、単語辞書k1を複数表記で持っていれ
ば、結果を図41のように、複数表記で表示したり、図
42のように、入力された表記(言語)で表示してもよ
い。
【0090】[14]一般の表記テーブルを用いて異表
記からの検索を可能にする 図38のような表記のみを単語辞書に用いて、異なる表
記でも図40のような曖昧検索を使えるようにする他の
方法としては、例えば、かな文字やかなと漢字の混ぜ書
きで入力された文字列を漢字変換してから、図38のよ
うな表記のみを単語辞書に用いる方法。英語など、異国
の表記の時には、翻訳してから、図38のような表記の
みを単語辞書に用いる方法などもある。
【0091】[15]1重マルコフ・2重マルコフ・・
・N重マルコフを使い分ける 一般に、漢字は文字種が多く(約3000文字以上)、
ある漢字の文字遷移(2文字の組み合わせ)を含む単語
は、数が限られる(住所の場合、平均約7単語/文字遷
移)。しかし、ひらがな・カタカナ・英語などでは文字
種が少なく、その文字遷移(2文字の組み合わせ)を含
む単語は、住所の例でも、平均約40単語/文字遷移
と、漢字の場合に比べて、非常に大きくなる。このよう
な場合には、2文字の組み合わせ(遷移)(1重マルコ
フ)では、その文字を含む単語を絞れないし、文字遷移
確率テーブルに記さなければならない候補単語データア
ドレスの量も大きくなる。そこで、ひらがな・カタカナ
・英語などでは、3文字の組み合わせ(遷移)(2重マ
ルコフ)や、もっと多い文字の組み合わせを文字遷移確
率テーブルに用いればよい。
【0092】その際には、漢字のように文字種が多い文
字まで、3文字の組み合わせ(2重マルコフ)などを用
いると、文字の組み合わせが単純には3,000文字の
3乗とテーブルが膨大になる。そこで、図42のよう
に、例えば、漢字は2文字の組み合わせ(1重マルコ
フ)の情報で文字遷移確率テーブルe1に持ち、ひらが
な・カタカナ・英字などは、3文字の組み合わせ(2重
マルコフ)でテーブルに持つなど、文字種に応じて、使
い分ければよい。
【0093】[16]誤り表記からでも検索する方法 文字の中には、同じ読みの異表記((の/ノ/之/乃)
(が/ヶ/ケ)(街/町)(太田/大田)など)があ
る。例えば、同じ「みどりがおか」でも、「宮城県 山
形市 緑が丘」/「山形県 酒田市 緑ケ丘」など、地
名により使っている文字が異なっており、混乱を招きや
すい。このような文字を正確に入力しなければ、所望の
文字列を検索できないのでは、使い勝手が悪い。
【0094】図43に、このような問題を解決する1つ
の方法を示す。このような誤りを起こしやすい文字を予
め調べておき、誤りやすい語テーブルm1に、誤りやす
い文字組を記しておく。そして、ユーザが入力した検索
キー文字の中に、誤りやすい語が含まれていたならば
(図の例で、「三ノ丸」の「ノ」)、誤りやすい語テー
ブルm1を参照し、誤った可能性のある文字(「の/之
/乃」)を、候補文字に追加する。それから、遷移確率
を用いた候補文字の最適化や遷移情報を使った曖昧検索
を行えば、所望の文字列を検索結果として得ることがで
きる。このような場合、検索結果の表示は、正しい表記
に直して表記すると親切である。
【0095】誤り表記からでも検索する他の方法として
は、例えば、図40のような複数表記のテーブルを用い
る方法もある。例えば、図43と同じ例で、「三の丸」
が正しいのに、「三ノ丸」と入力したとする。すると、
これを、かな漢字変換の辞書を参照し、読み「さんのま
る」に直す。そして、読みから複数表記で読み情報を持
つ単語辞書を検索すれば、入力した文字「三ノ丸」とは
異なるが、同じ読みで正しい表記の「三の丸」を検索す
ることができる。
【0096】図40のような複数表記のテーブルを用い
ず、一般の表記のみの単語辞書で、同様の誤り表記の検
索をするには、かな漢字変換の辞書を用いて、誤り表記
(「三ノ丸」)を読み(「さんのまる」)に直し、さら
に、読みから、かな漢字変換して、正しい「三の丸」を
得て、検索する方法もある。
【0097】[16]文字遷移情報テーブルを用いた文
字検索 これまで述べてきたような文字列の曖昧検索を行う場合
でも、入力手段がキーボードであったり、あるいは、文
字や音声の入力でも、認識系に既に単語処理などが含ま
れていて、文字間の遷移確率を使った候補文字列の最適
化が不要な場合もある。その場合には、遷移確率の細か
い値を使用しないので、図44のような、ありえる文字
遷移とその文字遷移を含む単語のデータアドレスのみを
記した文字遷移情報テーブルを用いてもよい。この場合
でも、検索の部分は、これまで述べた方法と同様に行え
る。
【0098】[17]キーボードによる曖昧入力検索 図45に、キーボードによる曖昧入力検索システム(キ
ー入力のミスがあっても、検索できるシステム)の概要
を示す。このシステムの特徴は、キーボードなどによる
入力ミスがあっても、ミスしやすいキーの文字を候補文
字に追加して、遷移確率による候補の最適化や、曖昧検
索を行うことにより、ミスを救済し、所望の検索結果を
得るものである。
【0099】図の例では、ユーザは、「isi」と入力
するつもりが、「idi」と、隣のキーをミスタイプし
た。しかし、キーボードのキー配列情報より、入力文字
「i」「d」の回りのキーを調べ、ミスタイプした可能性
のある候補として候補文字に追加する。そうすれば、そ
の後の遷移確率による候補の最適化や、曖昧検索を行う
ことにより、ミスを救済し、所望の検索結果を得られ
る。
【0100】[18]繰り返し使われる情報の曖昧検索 さて、これまで述べた例では、検索する対象が住所のみ
であったり、氏名のみの例で述べてきた。複数の項目を
持つ情報(例:名簿情報など)でも、各情報(例:名前
・所属・住所など)より文字遷移を抽出し、同様の遷移
確率テーブルを作成すれば、曖昧検索が実施できる。
【0101】さて、複数の項目を持つ情報(例:名簿情
報など)では、同じ単語が繰り返し使われることがよく
ある。例えば、名簿情報の例を考えると、同じ所属に複
数の人が存在したり、1つの電話番号を複数の人で共用
したりするため、複数人の名簿の所属や電話の欄に、同
じ文字が繰り返し登場するのである。
【0102】図46は、文字遷移や単語をコード化し、
名簿データをコード情報として持った例である。この例
では、文字遷移情報と、その文字遷移を含む単語の情報
(アドレス)を関連づけて記憶してある。また、単語
は、文字遷移の並びとしてコード化されて記憶してあ
り、さらに、単語を含む名簿データの情報(アドレス)
を関連づけて記憶してある。名簿情報は、前記、コード
化された単語情報の並びとして記憶してある。このよう
に、単語を文字遷移ベースに記憶しコード化すると、こ
れまで述べてきたような曖昧検索ができるとともに、名
簿のような同じ単語が繰り返し出てくるデータを圧縮し
て持つことができる。
【0103】図47は、図46の名簿データの内容を、
単語遷移情報で表した例を示す。文字遷移情報と、その
文字遷移を含む単語の情報(アドレス)を関連づけて記
憶してある。また、単語は、文字遷移の並びとしてコー
ド化されて記憶してあり、さらに、名簿情報での単語の
並び方と同じ形になるように、各単語の次に並ぶ単語の
情報(アドレス)(単語間の遷移情報)を関連づけて記
憶してある。文字遷移情報がベースになっているので、
これまで述べてきたような曖昧検索ができるとともに、
単語間の遷移情報を用いることにより、単語を含むデー
タが不要になる。
【0104】以上のような方法により、名簿のような多
項目の情報も、曖昧検索の機能を保ったまま、容量を圧
縮することが可能となる。
【0105】
【発明の効果】本発明によれば、検索したい文字列の先
頭や末尾の文字に限らずに、うろ覚えの情報をキー入力
として、目的の文字列を検索できるため、操作性が大き
く向上する。また、他の効果としては、キーとなる文字
を手書き入力するのみで、残りの文字列を推測し認識結
果として文字列全体が出力されるので、操作性が大幅に
向上できる。
【図面の簡単な説明】
【図1】本発明の一実施例である手書き入力住所認識装
置の機能ブロック図である。
【図2】本発明の一実施例である手書き入力住所認識装
置の動作概要図である。
【図3】従来の文字認識装置の構成図である。
【図4】従来の文字認識装置を用いて住所入力する場合
の動作概要図である。
【図5】本発明の一実施例である手書き入力住所認識装
置のハード構成図である。
【図6】文字遷移確率テーブルの作成方法を説明するフ
ロー図である。
【図7】単語辞書の概要図である。
【図8】文字出現回数テーブルの概要図である。
【図9】文字遷移回数テーブルの概要図である。
【図10】文字出現確率テーブルの概要図である。
【図11】文字遷移確率テーブルの概要図である。
【図12】遷移確率テーブルを用いて行う文字認識後処
理方法の概要図である。
【図13】後処理結果より文字列を推測する概要図であ
る。
【図14】後処理結果より文字列を推測する概要図であ
る。
【図15】後処理結果より文字列を推測する概要図であ
る。
【図16】後処理結果より文字列を推測する概要図であ
る。
【図17】推測した文字列の表示形態を示す図である。
【図18】推測した文字列の表示形態を示す図である。
【図19】推測した文字列の表示形態を示す図である。
【図20】推測した文字列の表示形態を示す図である。
【図21】後処理結果より文字列を推測する概要図であ
る。
【図22】後処理結果より文字列を推測する概要図であ
る。
【図23】曖昧検索結果の優先順位決定方法の概要図で
ある。
【図24】曖昧検索結果の優先順位決定方法の概要図で
ある。
【図25】曖昧検索結果の優先順位決定方法の概要図で
ある。
【図26】曖昧検索結果の優先順位決定方法の概要図で
ある。
【図27】曖昧検索結果の優先順位決定方法の概要図で
ある。
【図28】検索結果表示条件設定パネルの概要図であ
る。
【図29】検索結果優先条件設定パネルの概要図であ
る。
【図30】文字遷移をベースにした1文字検索の概要図
である。
【図31】文字遷移をベースにした1文字検索の概要図
である。
【図32】単語辞書と遷移&出現回数テーブルの学習装
置の概要図である。
【図33】学習機能付き単語辞書と学習機能付き遷移&
出現回数テーブルの概要図である。
【図34】学習機能付き単語辞書と学習機能付き遷移&
出現回数テーブルの概要図である。
【図35】学習機能付き単語辞書と学習機能付き遷移&
出現回数テーブルの概要図である。
【図36】学習機能付き情報の曖昧検索装置の概要図で
ある。
【図37】学習機能付きユーザ辞書を持った情報の曖昧
検索装置の概要図である。
【図38】キーボード・手書き文字・音声による文字情
報の曖昧検索の概要図である。
【図39】曖昧地図検索装置の概要図である。
【図40】複数表記の単語辞書を用い、混ぜ書きに対応
した曖昧検索の概要図である。
【図41】複数表記の単語辞書を用い、複数表記で検索
結果を表示する曖昧検索の概要図である。
【図42】複数表記の単語辞書を用い、入力された表記
に合わせて検索結果を表示する曖昧検索の概要図であ
る。
【図43】誤りやすい誤テーブルを用い、複数表記で検
索結果を表示する曖昧検索の概要図である。
【図44】文字遷移情報テーブルを用いた曖昧検索の概
要図である。
【図45】文字遷移確率テーブルを用い、キー入力のミ
スも救済する曖昧検索の概要図である。
【図46】文字遷移をベースにした単語情報により情報
の圧縮も行える曖昧検索装置の概要図である。
【図47】文字遷移をベースにした単語情報と単語間の
遷移確率により情報の圧縮も行える曖昧検索装置の概要
図である。
【図48】本発明における優先順位決定の説明図であ
る。
【符号の説明】
a1…タブレット、a2…認識辞書、a3…文字認識
部、a4…文字遷移確率テーブル、a5…候補文字最適
化と単語のポインタ決定部、a6…単語辞書、a7…単
語照合と文字列推測部、d1…学習用単語の読み出し
部、d2…文字出現回数のカウント部、d3…出現回数
テーブル、d4…文字遷移回数のカウント部、d5…文
字遷移を含む候補単語記憶部、d6…遷移回数テーブ
ル、d7…文字出現確率テーブル作成部、d8…標準出
現確率テーブル、d9…文字遷移確率テーブル作成部、
h1…単語入力部、h2…単語辞書登録部、h3…学習
機能付き単語辞書、h4…遷移&出現回数学習&単語ア
ドレス対応付け部、h5…学習機能付きユーザ遷移&出
現回数テーブル。
フロントページの続き (56)参考文献 特開 平6−162274(JP,A) 特開 平7−320002(JP,A) 特開 平5−6464(JP,A) 特開 昭63−36488(JP,A) 特開 平8−137841(JP,A) 特開 平5−233696(JP,A) 特開 平7−325838(JP,A) 特開 平5−165889(JP,A) 特開 平9−282420(JP,A) 特開 平9−305716(JP,A) 特開 平10−21252(JP,A) 伊東信泰 他2名,オンライン文字認 識における後処理−住所・姓名の補完機 能−,電子情報通信学会研究報告(NL C94−18),1994年10月20日,第94巻, 第291号,pp.33−40 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06K 9/00 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された文字列を含む文字群を検索する
    情報検索装置において、 予め複数の文字列群を、それぞれ固有のアドレスに記憶
    する辞書と、 少なくとも、ある文字から他の文字への遷移情報と、前
    記複数の文字列群のうち前記遷移関係にある文字の組み
    合わせを含む文字列群のアドレスとをそれぞれ対応付け
    て記憶した文字遷移確率テーブルを有し、 前記入力された文字列に対応する文字列群を前記文字遷
    移確率テーブルに記載したアドレスにより前記辞書をア
    クセスし、当該アドレスに対応する前記辞書中の文字列
    群を検索結果として表示し、 入力した文字列の一部を含む文字列群が複数存在したと
    きには、 文字列群の文字遷移のうち入力した文字列の文字遷移と
    一致する文字遷移の数と、 文字列群のうち入力した文字と一致する文字の数,文字
    列群の文字列中で入力した文字を含む位置,文字列群の
    使用頻度,文字列群の優先度,文字列群の階層,文字列
    群の50音順,文字列群の文字コード順,文字列群に関
    係する情報との関連の強い順及び検索システムを使用し
    ているユーザの条件(住所,電話番号など)のうち少な
    くとも1つ以上の条件を用いて文字列群の優先順位を決
    定する手段を設けたことを特徴とする情報検索装置。
  2. 【請求項2】請求項1において、 前記文字遷移確率テーブルは、前記辞書に単語が追加さ
    れると、文字遷移を含む単語のアドレスを更新して学習
    することを特徴とする情報検索装置。
JP17621596A 1996-07-05 1996-07-05 情報検索装置 Expired - Lifetime JP3419205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17621596A JP3419205B2 (ja) 1996-07-05 1996-07-05 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17621596A JP3419205B2 (ja) 1996-07-05 1996-07-05 情報検索装置

Publications (2)

Publication Number Publication Date
JPH1021262A JPH1021262A (ja) 1998-01-23
JP3419205B2 true JP3419205B2 (ja) 2003-06-23

Family

ID=16009641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17621596A Expired - Lifetime JP3419205B2 (ja) 1996-07-05 1996-07-05 情報検索装置

Country Status (1)

Country Link
JP (1) JP3419205B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003339066A (ja) 2002-05-21 2003-11-28 Nec Corp 情報端末、情報端末における情報提供方法、情報提供処理プログラム
US7571048B2 (en) * 2006-08-18 2009-08-04 Google Inc. Providing routing information based on ambiguous locations
JP2009008505A (ja) * 2007-06-27 2009-01-15 Aisin Aw Co Ltd ナビゲーション装置、及びナビゲーション用プログラム
CN107430601B8 (zh) * 2014-11-14 2022-03-22 大众汽车(中国)投资有限公司 用于导航系统的控制方法和控制装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伊東信泰 他2名,オンライン文字認識における後処理−住所・姓名の補完機能−,電子情報通信学会研究報告(NLC94−18),1994年10月20日,第94巻,第291号,pp.33−40

Also Published As

Publication number Publication date
JPH1021262A (ja) 1998-01-23

Similar Documents

Publication Publication Date Title
US7117144B2 (en) Spell checking for text input via reduced keypad keys
JP3560289B2 (ja) 統合辞書ベースで、ありそうな文字列の手書き認識方法
US8015196B2 (en) Geographic feature name search system
US7088861B2 (en) System and method for chinese input using a joystick
US7385591B2 (en) Out-of-vocabulary word determination and user interface for text input via reduced keypad keys
JP4037608B2 (ja) 減少されたキーボード明瞭化システム
US8713432B2 (en) Device and method incorporating an improved text input mechanism
JP5501625B2 (ja) 不確定なテキスト入力から明確な文字をフィルタリングする装置及び方法
US9104244B2 (en) All-in-one Chinese character input method
US20160328377A1 (en) System and method for inputting text into electronic devices
US8312025B2 (en) Information processing device, information processing method, and information processing program
US8099416B2 (en) Generalized language independent index storage system and searching method
CN102063482B (zh) 一种手持设备高效联系人查找方法
CN101369209B (zh) 用于全混合输入的手写输入装置及其方法
JP3419205B2 (ja) 情報検索装置
JPS646496B2 (ja)
JP4004060B1 (ja) 文字検索方法
CN100561469C (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
KR20020021182A (ko) 성조 표현을 이용한 중국어 입력 시스템 및 그 방법
JPH05113964A (ja) 電子辞書
JP3275704B2 (ja) 入力文字列推測認識装置
JP2008117310A (ja) 辞書検索装置および辞書検索処理プログラム
JP3154875B2 (ja) 漢字変換学習装置
JPH1021252A (ja) 情報検索装置
US20070033173A1 (en) Method and apparatus for data search with error tolerance

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090418

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090418

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100418

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140418

Year of fee payment: 11

EXPY Cancellation because of completion of term