JP3419205B2

JP3419205B2 - 情報検索装置

Info

Publication number: JP3419205B2
Application number: JP17621596A
Authority: JP
Inventors: 圭子郡司; 晃洋桂; 壮四郎 ▲葛▼貫
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-07-05
Filing date: 1996-07-05
Publication date: 2003-06-23
Anticipated expiration: 2016-07-05
Also published as: JPH1021262A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、予め登録されてい
る文字列を、後から入力されたキーとなる文字を元に検
索する情報検索装置に関する。

【０００２】

【従来の技術】従来、単語辞書の単語を検索する場合、
単語全体や単語の頭の文字列を入力し、検索するのが一
般的である。例えば、あるカーナビゲーションの５０音
検索では、単語の頭の部分から文字を入力してゆくと、
入力された文字を単語の先頭に含む単語に候補を絞って
ゆく。

【０００３】また、別の従来例では、ＰｅｎＰＣ（ペン
入力コンピュータ）などの伝票処理等では、住所や定形
句の入力が用途として多い。従来の住所や定形句の入力
方法としては、（１）メニューによる選択や、（２）文
字認識とメニューの組み合わせで、郵便番号を入力する
と、関連する住所をメニューで表示し、選択する方法、
（３）手書き入力した文字を認識し、その候補を単語辞
書で最適化する方法などが開示されている。

【０００４】（１）のメニューによる方法は、例えば、
文献「文字位置のずれを許容する枠なし筆記住所認識」
（電子情報通信学会論文誌Ｄ−２，１９９４年１月号）
に開示されるように、住所のように階層化されたデータ
では、上位階層から順々に下位まで（例えば、「茨城
県」→「日立市」→「大みか町」のように）選択する方
法が一般的である。そこで、もし、「日立市」と入力す
るのに、「日立市」が何県にあるのか、例えば「茨城
県」か「栃木県」か分からなかったら、なかなか「日立
市」を選べない問題がある。

【０００５】（２）の郵便番号を入力すると、関連する
住所をメニューで表示する方法は、郵便番号のみ文字入
力し、あとは、郵便番号から決まる地名はメニューで選
べるので、比較的容易に入力可能である。しかし、自分
の住所の郵便番号は覚えられるが、他の郵便番号まで覚
えるのは困難である。

【０００６】（３）の手書き入力した文字を認識し、そ
の候補を単語辞書で最適化する方法について、図面を用
いて説明する。図３は、従来の文字認識の構成図であ
る。タブレットａ１より入力された手書きパターンを認
識辞書ａ２とパターンマッチして文字認識ａ３し、得ら
れた候補文字を単語辞書ａ６と単語照合ｂ７し、該当す
る単語をＬＣＤａ８に表示する。

【０００７】図４は、従来の文字認識を用いて住所を入
力する場合の動作概要図である。例えば、「茨城県日
立市大みか町」と入力するには、「茨城県日立市
大みか町」と全部を所定の住所入力エリアｂ１に手書き
入力する。すると、文字認識ａ３し、得られた候補文字
を単語辞書ａ６を用いて、最上位階層の都道府県から単
語照合し、候補文字を最適化し、結果を候補文字として
出力していた。

【０００８】従来、住所のような階層データを最上位の
階層からアクセスしていたのは、一般に階層の上位ほど
データ量が少なく、上位が決まれば下位の候補を絞るこ
とができたからである。もし、仮に従来のシステムで
「大みか」というキーワードを入力して、単語辞書を検
索したならば、どの階層にあるかも分からないので、約
１.５ＭＢもある単語辞書を全文検索するしかなく、オ
ンライン文字認識のように応答性が必要な場合には実用
的でなかったためである。

【０００９】（（住所単語辞書の例）都道府県：約５０個×約３文字×２バイト＝約３００Ｂ市町村：約４０００個×約３文字×２バイト＝約２.５ＫＢそれ以下：約160000個×約４文字×２バイト＝約１.３ＭＢ合計：約１.５ＭＢ）しかし、従来の方式のように、例えば「茨城県日立市
大みか町」と、長い住所を全部を手書き入力しなけれ
ばならないのでは、ユーザにとっては大変である。

【００１０】

【発明が解決しようとする課題】従来の、単語の頭から
文字を入力し、候補を絞る方式（前方一致方式）では、
単語の頭の部分を知らなければ、所望の単語を検索する
ことはできない。そのため、うろ覚えで、単語の途中や
終りを知っていても、その情報が生かされないという問
題がある。

【００１１】また、上記従来技術（１)〜(３）に共通す
る問題点としては、文字認識利用の例では、住所や定形
句などを全て手書き入力する必要がありユーザにとって
煩わしい点、また、単語辞書を最上位以外の階層から探
索すると探索に膨大な時間を要してしまう点、メニュー
により選択する場合においても住所のように階層構造に
なっていると、上位が分からないと下位を選択できない
点がある。

【００１２】本発明の目的は、検索したい文字列の先頭
や末尾の文字に限らずに、うろ覚えの情報をキー入力と
して、目的の文字列を曖昧検索できる情報検索装置を提
供することにある。

【００１３】さらに、本発明の他の目的は、キー文字を
入力して候補が絞りきれなかった時には、順序を気にせ
ずに、キー入力情報を追加できる情報検索装置を提供す
ることにある。

【００１４】

【課題を解決するための手段】本発明の特徴は、入力さ
れた文字列を含む文字群を検索する情報検索装置におい
て、予め複数の文字列群を、それぞれ固有のアドレスに
記憶する辞書と、少なくとも、ある文字から他の文字へ
の遷移情報と、前記複数の文字列群のうち前記遷移関係
にある文字の組み合わせを含む文字列群のアドレスとを
それぞれ対応付けて記憶した文字遷移情報テーブルを有
し、前記入力された文字列に対応する文字列群を前記文
字遷移情報テーブルに記載したアドレスにより前記辞書
をアクセスし、当該アドレスに対応する前記辞書中の文
字列群を検索結果として表示するようにしたことにあ
る。

【００１５】このことにより、検索したい文字列の一部
を適当に入力することにより、所望の文字列を高速に得
ることができる。

【００１６】

【発明の実施の形態】以下、図面を用いて、手書きによ
り住所を入力する装置に本発明を適用した実施例、およ
び、単語の曖昧検索に適用した例を用いて説明する。

【００１７】［手書き住所入力装置］図２は、本発明の
一実施例である手書き入力住所認識装置の動作概要図で
ある。住所入力エリアｂ１に、スタイラスペンａ９で、
住所のキーとなる文字「大みか」を手書き入力する。す
ると、手書きされたストローク（筆跡）は、文字認識ａ
３により認識され、キーワードの候補文字，第一候補
「大みか」と第二候補「犬るカ」が得られる。これらの
候補文字を、文字遷移確率テーブルａ４にある文字間の
遷移確率（（文字Ａ）→（文字Ｂ）に続く確率）と、文
字の出現確率テーブルａ８を参照し、候補文字をどのよ
うに組み合わせると、文字列として出現確率が高くなる
かを求め、文字列としての出現確率が高くなるように、
候補文字の順位を最適化する。さらに、文字遷移確率テ
ーブルの候補単語Ｎo.を参照し、候補文字列にある文字
遷移を含む単語のポインタを求める。図の例では、「大
みか」と候補文字を組み合わせると出現確率が高くな
り、文字遷移確率テーブルより、（大→み）と（み→
か）を含む単語のポインタＮo.Ａ１１が求められる。本
方式では、文字認識の後処理に用いる、遷移確率テーブ
ルに、新たに単語辞書中の単語へのポインタを設けるこ
とにより、高速に目的の単語にアクセスすることができ
る。そして、単語辞書中で該当する単語が分かったら、
単語辞書の階層情報により、上位の階層は一意に求めら
れる。この例では、最下位の階層の「大みか町」が一意
に求められたので、上位は「茨城県日立市」と一意に
求めることができる。従って、「大みか」しか手書き入
力していないのに、「茨城県日立市大みか町」と、
住所を頭から候補表示し、入力することができる。

【００１８】図１は、本発明の一実施例である手書き入
力住所認識装置の機能ブロック図である。図１を用いて
動作を簡単に説明する。スタイラスペンａ９をタブレッ
トａ１上に滑らせることにより、手書き文字パターンが
入力される。入力された手書きパターンを、認識辞書ａ
２にある文字パターンとマッチングして文字認識ａ３す
る。文字認識の結果得られた候補文字の候補順位を最適
化するために、予め学習して作成してある、文字間の遷
移確率と文字遷移を含む単語辞書中の候補単語のポイン
タが載っている文字遷移確率テーブルａ４及び文字の出
現確率テーブルａ８を参照し、文字列としての出現確率
が高くなるように候補順位を最適化するとともに、最適
化した文字列が該当する単語辞書中の単語へのポインタ
を求める（ａ５）。前記方法で求めた単語辞書ａ６の単
語と候補文字列を照合し、該当する単語とその前後の情
報を単語辞書の階層情報より求める（ａ７）。求められ
た結果をＬＣＤａ８に表示する。

【００１９】尚、本発明の特徴である、［１］文字遷移
確率テーブルａ４の作成方法、［２］文字遷移確率テー
ブルａ４を用いて、候補文字を文字列としての出現確率
が高くなるように候補順位を最適化するとともに、最適
化した文字列にある文字遷移を含む単語へのポインタを
求める方法、［３］求めた単語のポインタを利用して手
書き入力した単語（キーワード）を含む文字列を推測す
る方法、［４］推測した文字列の表示方法については、
後に図面を用いて詳細に説明する。

【００２０】図５は、本発明の一実施例である手書き入
力住所認識装置のハード構成図である。入力パターンと
辞書パターンをマッチングする機能，パターンマッチン
グにより得られた候補文字を最適化し、候補文字を含む
単語へのポインタを求める機能，候補文字を単語照合し
て、さらに前後の情報を検索する機能は、例えば、ＲＯ
Ｍc5に記憶してあるプログラムをＣＰＵc3が読みだし、
実行することにより実現される。尚、各機能について
は、後に図面を用いて詳細に説明する。

【００２１】［１］文字遷移確率テーブルａ４の作成方
法図６は、文字遷移確率テーブルａ４の作成方法を説明す
るフロー図である。まず、学習用の単語辞書ａ６を読み
出すｄ１。読み出した単語について、単語中に含まれる
文字の出現回数をカウントし（ｄ２）、出現回数テーブ
ルｄ３に記録する。続いて、文字遷移回数をカウントし
（ｄ４），遷移回数テーブルｄ６に記録する。続いて、
遷移回数テーブルｄ６に、文字遷移が含まれた元の単語
の単語Ｎo.（単語のポインタ）を記録するｄ５。例え
ば、単語「大みか」の例では、文字の出現回数は、
「大」「み」「か」それぞれ１回、文字遷移回数では
「大→み」と「み→か」がそれぞれ１回とカウントされ
る。また、「大→み」と「み→か」の候補単語Ｎo.に
は、単語「大みか」の単語Ｎo.が記録される。このよう
な処理ｄ１〜ｄ６を、単語辞書ａ６中の全ての単語につ
いて繰り返し行う。その後、前記処理により作成した文
字出現回数テーブルｄ３と文字遷移回数テーブルｄ６を
参照して、文字間の遷移確率と文字遷移を含む候補単語
Ｎo.の情報を記述した文字遷移確率テーブルａ４を作成
する（ｄ９）。さらに、必要があれば、文字出現回数テ
ーブルｄ３を参照して、文字毎の出現確率を記述した文
字出現確率テーブルｄ８を作成する（ｄ７）。それぞれ
のテーブルの構成については、以下図面を用いて説明す
る。

【００２２】図７は、単語辞書の概要図である。ここで
は例として、住所の単語辞書ａ６を示す。この辞書は、
都道府県・市町村・それ以下で階層化された構造になっ
ており、各要素は、単語Ｎo.（単語の位置情報），上位
単語Ｎo.，単語（文字列）からなる。各単語にアクセス
するには、単語Ｎo.によりアクセスできる。また、単語
の階層関係は、上位単語Ｎo.によって分かる。

【００２３】図８は、文字出現回数テーブルの概要図で
ある。文字出現回数テーブルｄ３には、学習用単語辞書
中に各文字が現れた回数が記憶され、学習用単語中の全
文字数をカウントするのに用いられる。

【００２４】図９は、文字遷移回数テーブルの概要図で
ある。文字遷移回数テーブルｄ６は、学習用単語辞書中
に各文字遷移が現れた回数と、文字遷移が含まれていた
単語のＮo.（候補単語Ｎo.）を記録するのに用いる。

【００２５】図１０は、文字出現確率テーブルの概要図
である。例えば、文字「日」の出現確率は、出現確率
（日）＝出現回数（日）／全文字数で表せる。従って、
文字出現確率テーブルｄ８を作成するには、出現回数テ
ーブルｄ３を参照し、各文字の出現回数を求め、文字出
現確率テーブルｄ８に記録すればよい。

【００２６】図１１は、文字遷移確率テーブルの概要図
である。例えば、文字遷移「日→立」の遷移確率は、遷移
確率（日→立）＝遷移回数（日→立）／出現回数（日）
で表せる。従って、文字遷移確率テーブルａ４を作成す
るには、出現回数テーブルｄ３と遷移回数テーブルｄ６
を参照して、各文字の遷移確率を求め、文字遷移確率テ
ーブルａ４に記録すればよい。

【００２７】以上の処理により、単語辞書の単語へのポ
インタのついた文字遷移確率テーブルａ４を作成するこ
とができる。尚、本実施例においては、単語辞書中の各
単語を識別するための単語識別情報として単語Ｎo.を用
いたが、これに限られるものではなく、コード情報であ
っても良い。また、同様に、単語辞書中の単語間の階層
関係を示す階層情報として上位単語Ｎo.を用いたが、こ
れに限られるものではなく、階層関係を表し得るもので
あれば良く、例えばコード情報であっても良い。

【００２８】［２］遷移確率による後処理（候補文字の
最適化と候補単語のポインタの決定）方法図１２は、遷移確率テーブルを用いて行う文字認識後処
理の概要図である。図のように、入力パターン「大み
か」の候補文字が、第一候補「大るか」・第二候補「犬
みカ」であるとする。尚、ここでは文字認識結果に誤り
がある場合でも、遷移確率による候補文字の最適化で対
応できることを示すため、特に、図２の例とは異なる
「大みか」を誤認識した例を用いて説明する。候補文字
の組み合わせは、図に示す８通りが考えられる。これら
文字列の組について、文字遷移確率テーブルを参照し
て、文字列の出現確率と単語辞書中の単語候補の単語の
ポインタを求める。文字列の出現確率が高い候補文字の
組み合わせが、最適な組み合わせ（パス）である。従っ
て、その文字組を候補単語Ｎo.と共に遷移確率後処理の
結果とする。

【００２９】それでは、まず、文字列の出現確率の計算
方法を述べる。

【００３０】一般に、文字列Ｓ１Ｓ２ …Ｓｎの出現
確率は、次式で近似できる。

【００３１】

【数１】出現確率（Ｓ１Ｓ２ …Ｓｎ）＝出現確率(Ｓ１)×遷移確率(Ｓ１→Ｓ２)×…×遷移確率(Ｓｎ−１→Ｓｎ) …（数１）図の候補文字の組み合わせＮo.３の「大みか」の例で
は、以下の通りとなる。出現確率(大みか)＝出現確率
(大)×遷移確率(大→み)×遷移確率(み→か)具体的に
は、文字遷移確率テーブルａ４と出現確率テーブルａ８
とにより、次式の通り値が求められる。

【００３２】

【数２】出現確率（大みか）＝(１８／８９２７４)×(１／１８)×(２／１５)×(２／１９８) ＝１４９４０×１０~⁸％ …（数２）次に、候補単語Ｎo.（単語辞書中の単語候補のポインタ
０を求める方法を述べる。文字列Ｓ１Ｓ２ …Ｓｎの
候補単語Ｎo.は、次式のように求めることができる。

【００３３】

【数３】候補単語Ｎo.（Ｓ１Ｓ２ …Ｓｎ）＝候補単語Ｎo.(Ｓ１→Ｓ２)∩…∩候補単語Ｎo.(Ｓｎ−１→Ｓｎ) …（数３）図の例、文字列「大みか」の場合は、文字遷移確率テー
ブルａ４により次式のようになる。

【００３４】

【数４】候補単語Ｎo.（大みか）＝∩候補単語Ｎo.(大→み)∩候補単語Ｎo.(み→か) ＝(Ａ１１)∩(Ａ１１，Ａ１２）＝Ａ１１ …（数４）この例では、アンド（∩）をとることにより、候補を
「大みか町」（Ａ１１）に絞ったが、オア（∪）をとり
候補を「大みか町」と「みかの原町」にしてもよい。こ
の場合、一致数を考慮すれば「大みか町」を第一候補に
することができる。詳細は、後で図面を用いて述べる。

【００３５】以上の方法により、文字認識により得られ
た候補文字を文字列としての出現確率が高くなるように
最適化し、最適化した候補文字列の候補単語Ｎo.（単語
へのポインタ）を求めることができる。尚、上記の方法
によれば、例えば、「大みか町」の一部分である「み
か」のみを入力しても、「大みか町」と「みかの原町」
を候補にすることができる。

【００３６】［３］手書き入力した単語（キーワード）
を含む文字列の推測方法続いて、最適化した候補文字列（手書き入力したキーワ
ード）を含む文字列全体の推測方法について、図面を用
いて説明する。

【００３７】図１３は、後処理結果により文字列を推測
する概要図である。この例では、遷移確率による後処理
でキーワード（候補文字）「大みか」と候補単語Ｎo.Ａ
１１が得られた場合を示す。この図から分かるように、
キーワード「大みか」は単語辞書中に１つしかなく、ま
た最下位の階層なので、上位の文字列「茨城県日立
市」は一意に決まる。そこで、手書き文字「大みか」の
全体の推測結果として、候補文字列「茨城県日立市
大みか町」を表示した。

【００３８】図２２は、図１３と同様の例であるが、手
書き文字「大みか」の候補文字列として、文字列推測結
果の「茨城県日立市大みか町」と推測結果なしの文
字認識結果の「大みか町」を両方候補として出し、ユー
ザが選択できるようにしたことが特徴である。このよう
に、キーワードから推測した文字列と推測なしのキーワ
ードのみの両方を候補にすると、ユーザは好みの方を選
べる利点がある。

【００３９】図１４は、後処理結果により文字列を推測
する概要図である。この例では、遷移確率による後処理
の結果、単語辞書の中間階層の単語である「日立」（候
補単語Ｎo.Ａ１）得られた場合を示す。図より分かるよ
うに、キーワード「日立」は、単語辞書テーブル中に１
つしかないので、上位階層の文字列「茨城県」は一意に
決まる。しかし、下位の階層は複数あるので、例えば、
候補を「茨城県日立市大みか町」「茨城県日立市
みかの原町」・・・と複数表示し、ユーザに選択して
もらえば良い。

【００４０】図１５は図１４と同様に後処理の結果単語
辞書の中間階層の単語である「日立」（候補単語Ｎo.Ａ
１）遷移確率により得られ、下位の候補が複数ある例で
ある。この図の例では、単語辞書には各都市毎の人口情
報を保持しており、複数ある下位の階層のうち、人口の
多い町を優先的に高い候補順位で表示することにより、
操作性を向上している。

【００４１】図１６は、図１５と似ているが、単語辞書
には人口情報の代わりに、単語間の遷移確率を持ってい
る。複数ある下位の階層のうち、遷移確率の高い単語を
優先的に高い候補順位で表示することにより、操作性を
向上できる。この単語間の遷移確率は、地名がよく現れ
るテキストなどから学習することができる。また、簡易
には、都市の人口により頻度を決定して学習してもよ
い。

【００４２】図２１は、図１４と同様に後処理の結果単
語辞書の中間階層のキーワード「日立」（単語Ｎo.Ａ
１）が得られ、下位の候補が一意に定まらない例であ
る。図１４と異なるのは、一意に候補が決まった「茨城
県日立市」のみを表示しており、一意に定まらない市
町村以下は、ユーザが再度入力するようにした点であ
る。

【００４３】以上より、わかるように、キーワードより
上位の階層は、自動で一意に推測できるし、キーワード
より下位の候補が複数ある場合は、一意には定められな
いので、メニューを提示したり、その部分だけ際入力し
てもらえばよい。

【００４４】［４］推測した文字列の表示方法さて、次に、上記方法で求めた文字列候補の表示の仕方
について述べる。図１７〜図２０は、推測した文字列の
表示形態を示す図である。いずれも「大みか町」と入力
して、推測認識結果の文字列「茨城県日立市大みか
町」を表示しているが、各々表示の位置を変えて、特徴
を出している。

【００４５】図１７では、「大みか町」と手書きした近
くに候補文字列「茨城県日立市大みか町」の中の「大
みか町」の部分を表示している。この表示方法では、手
書きした筆跡と認識結果の候補を対比しやすいメリット
がある。

【００４６】さて、図１８は、「大みか町」と手書きし
た位置の近くから、「茨城県日立市大みか町」と表
示している。この表示方法では、手書き文字と候補文字
列の頭が揃っているので、結果の表示開始位置が容易に
分かるメリットがある。

【００４７】図１９では、「大みか町」と手書きした位
置を中心として、候補文字列「茨城県日立市大みか
町」と表示している。この表示方法では、手書き文字と
候補文字列の位置が全体的に見て一番近く、視点をあま
り動かさなくて済むというメリットがある。

【００４８】図２０では、「大みか町」と手書きした終
りの位置と候補文字列「茨城県日立市大みか町」の
最後の文字の位置を揃えてと表示している。この表示方
法では、特に右利きのユーザでは、ペンを持った手の下
に候補文字列が隠れないメリットがある。

【００４９】図１７〜図２０のように、各々特徴ある表
示方法があるが、システムが適宜どれか１つの方法に決
めてもよいし、ユーザが複数の表示方法から自分にあっ
た表示方法を選択できるようにしてもよい。

【００５０】また、図１７〜図２０では、候補文字列中
のキーワード「大みか」を反転表示して分かりやすくし
ているが、例えばフォントを変えるなど、他の方法でも
よい。また、特に反転表示やフォントを変えるなどを行
わなくてもよい。

【００５１】以上、本実施例によれば、住所のような階
層データや定形句などを入力する際に、キーとなる文字
を入力するだけで、文字列全体を推測し、候補として表
示することができる。また、単語辞書に高速にアクセス
して単語照合することができ、上記実施例のように単語
辞書が階層化されているときでも、階層の上位・下位に
関係なく高速にアクセスができる。

【００５２】［５］キー入力文字の曖昧検索それでは、次に、入力文字をキーにした曖昧検索につい
て述べる。ここで、曖昧検索とは、キー入力と完全に一
致していなかったり、一部欠損していたり、キー文字の
並び順が一部異なっていたりする曖昧な情報をキーにし
て検索する意味である。

【００５３】図２３は、キーとして、「大みか」と入力
した。これを、文字遷移に分解すると、図のように、
「大→み」「み→か」に分けられる。これらの文字遷移
を含む文字は、「大→み」に対して「大みか町」が、
「み→か」に対して「大みか町」と「みかの原町」が候
補になる。これらは、両方とも、「町村以下」の地名な
ので、階層で繋がって纏められることはない。そこで、
次に、２つの候補それぞれの得点（キー文字の一致数と
文字遷移の一致数）を計算する。文字の一致数では、
「大みか町」は、キー文字「大みか」と３文字が一致し
ているので３点、「みかの原町」は、キー文字「大み
か」のうち「みか」の２文字が一致しているので２点と
数える。文字遷移では、「大→み」と「み→か」の２つ
が該当しているので、２点、「みかの原町」は、「み→
か」のみが該当しているので、１点と計算できる。図２
３の例では、（キー文字一致数＞キー文字の文字遷移の
一致数＞キー文字該当階層順＞キー文字一致位置）の順
に強い優先とした。そこで、優先度が一番高い、文字の
一致数の得点の高い「大みか町」が１位，「みかの原
町」が２位になり、単語辞書ａ６を参照して、１位：
「茨城県日立市大みか町」，２位：「茨城県日立
市みかの原町」となる。

【００５４】このように、入力キー文字「大みか」を
（一部でも）含む住所を検索する場合、検索結果に表示
優先順位を付け、尤もらしい結果が先に表示されるよう
にして、操作性を向上することが必要である。優先順
は、キー文字の一致数，キー文字の文字遷移の一致数，
キー文字の階層順，キー文字が一致した位置，キー文字
の並び順，キー文字間距離，単語の使用頻度の少なくと
も１つを考慮すればよい。図２４の例では、「みか」と
キーの文字を入力した。文字遷移「み→か」を含む地名
は、図２３と同様に、「大みか町」と「みかの原町」が
ある。この例では、「大みか町」も「みかの原町」も、
キー文字を２文字含み（２点）、キー文字と同じ遷移１
つを含む（１点）ので、文字一致数と文字遷移一致数か
らは、優先は付けられない。また、階層も、両方等も同
じ「町村以下」のレベルである。そこで、一般には、キ
ー文字を頭に含む文字列を入力することが多いので、キ
ー文字「みか」を先頭に含む「みかの原町」を１位にす
る。そして、２位が、「大みか町」となる。検索結果と
しては、単語辞書ａ６を参照して、１位：「茨城県日立
市みかの原町」，２位：「茨城県日立市大みか
町」を表示した。

【００５５】図２５の例では、キー入力文字として「常
陸太田市真弓」と入力した。「常陸太田市真弓」を文字
遷移に分解すると、「常陸」「陸太」「太田」「田市」
「市真」「真弓」となる。これらの文字遷移を含む単語
は、図の例では「常陸」「陸太」「太田」「田市」を含
む単語として「常陸太田市」が、「太田」「田市」を含
む単語として「太田市」「太田市町」が、「太田」を含
む単語「太田」，「市真」を含む単語はないが、「真
弓」を含む単語として「真弓（常陸太田市）」「真弓
（生駒市）」「真弓南」が得られる。ところで、この中
で、「常陸太田市」−「真弓（常陸太田市）」および「太
田市」−「太田」は、単語辞書ａ６より、階層関係にあ
ることがわかる。そこで、「常陸太田市真弓」と「太田
市太田」は、繋いで考えることができる。

【００５６】これらの単語の文字一致数による得点は、
「常陸太田市真弓」が７点，「太田市太田」が３点，
「常陸太田市」が５点，「太田市」が３点，「太田市
町」が３点，「真弓（生駒市）」が２点，「真弓南」が
２点となる。これらの単語の文字遷移一致数による得点
は、これらの単語が含むキー文字の文字遷移の数の和と
すると、「常陸太田市真弓」が４点＋１点＝５点。但
し、「太田市太田」はキー文字の「太田」は１度しか書
いていないのに、２回出現したと見なしているので、重
みは小さくして、例えば、２点＋０.１点＝２.１点とす
る。その他の単語は、単語が含むキー文字の文字遷移の
数を得点とし、「常陸太田市」が４点，「太田市」が２
点，「太田市町」も２点，「真弓（生駒市）」が１点，
「真弓南」が１点となる。そこで、文字一致数の点数で
優先を付け、文字一致数が同点のものについては、文字
遷移一致数で優先を付け、それでも優先が付けられない
ものについては、階層順で優先を付けると、１位：「常
陸太田市真弓」，２位：「常陸太田市」，３位：「太田
市太田」，４位：「太田市」，５位：「太田市町」，６
位：「真弓（生駒市）」，６位：「真弓南」となる。
（４位と５位は、階層順により優先を付けた。）検索結果は、単語辞書ａ６を参照し、１位：「茨城県
常陸太田市真弓町」,２位：「茨城県常陸太田市山
下町」，３位：「群馬県太田市太田」，４位：「群
馬県太田市本町」，５位：「奈良県橿原市太田
市町」，６位：「奈良県生駒市真弓」，６位：「奈
良県生駒市真弓南」となる。

【００５７】図４８は、キー入力文字として「常陸太田
真弓」と入力した。ここでは、優先順位を（キー文字一
致数（ａ）＞キー文字該当階層（ｂ）＞キー文字一致位
置（ｃ）＞余り文字数（ｄ））の総合得点により付ける
方法を述べる。さて、「常陸太田真弓」を文字遷移に分
解すると、「常陸」「陸太」「太田」「田真」「真弓」
となり、これらの文字遷移を含む単語として「常陸太田
市真弓町」「常陸太田市」「太田市太田」「太田市」
「上太田」「真弓（生駒市）」「真弓南」が得られたと
する。これらの単語の文字一致数による得点（ａ）は、
キー文字のうち、候補単語に含まれれば１点、含まれな
ければ０点として加算すると、「常陸太田市真弓町」が
６点，「常陸太田市」が４点で、それ以外は２点とな
る。階層による得点（ｂ）は、都道府県レベルが３点，
市・郡レベルが２点，町村以下レベルが１点として、複
数階層を含む場合は加算する。すると、市・郡と町村以
下を含む「常陸太田市真弓町」「太田市太田」が２＋１
点＝３点，市・郡の「常陸太田市」「太田市」が２点，
「上太田」「真弓（生駒市）」「真弓南」が１点にな
る。次に、キー文字一致位置による評価値（ｃ）では、
単語の頭からキー文字と一致すれば０点，２文字目から
なら−１点，３文字目からなら−２点・・・と得点計算
する。すると、「上太田」が−１点で、それ以外は０点
になる。余り文字による得点（ｄ）では、候補の単語の
うち、キー文字以外の文字が何文字含まれるかという値
で、Ｎ文字含めば、−Ｎ点とカウントする。図に示すよ
うに、「常陸太田市真弓町」が−２点，「常陸太田市」
「太田市太田」「太田市」「上太田」「真弓南」が−１
点，「真弓」が０点になる。最後に、これらの総合得点
（ｅ）は、（キー文字一致数（ａ）＞キー文字該当階層
（ｂ）＞キー文字一致位置(ｃ)＞余り文字数（ｄ））の
優先度を付けるため、ここでは、（ｅ）＝１０００×
（ａ）＋１００×（ｂ）＋１０×（ｃ）＋（ｄ）とし
た。各評価値に付ける重みは、優先度が高い評価値ほど
大きくすればよい。また、優先度を絶対的にするために
は、優先度が低い評価値の最大値よりも大きな値を重み
にすればよい（例：余り文字数の評価値（ｄ）の最大が
０ならば、キー文字一致位置による評価値（ｃ）は、１
以上ならよい。）。このようにして定めた評価値によ
り、優先順位を決定し、単語辞書ａ６を参照して、検索
結果を得る。

【００５８】さて、これまで説明したような、文字遷移
に分解して検索する手法を用いれば、キー入力文字が一
部欠損していたり、一部誤りがあったり、キー文字の順
序が曖昧であっても検索が可能である。そのような例を
紹介する。

【００５９】図２６は、図２５で検索したのと同じ地名
「茨城県常陸太田市真弓町」を検索するのに、キー
文字を、「真弓太田」と、順序を逆に入力している。し
かし、キー文字を文字遷移に分解すれば、図２５と同じ
ように、「真弓」を含む単語として、「真弓（常陸太田
市）」「真弓（生駒市）」「真弓南」が得られる。「弓
太」を含む単語はないが、「太田」を含む単語として、
「常陸太田市」「太田市」「太田市町」「太田」が得ら
れる。あとは、図２５と同様に、階層で繋がる単語は繋
ぎ「常陸太田市真弓」「太田市太田」、同様に得点計算
をすると、１位の「茨城県常陸太田市真弓町」が得
られる。この例のように、キー文字の順序を逆にして
も、妥当な結果が得られるのは、単語辞書へのポインタ
（インデックス）に文字遷移（２文字組）という、文字
の並びを意識した情報を用いているためである（２文字
の熟語が多いことなどからも分かる）。これが、もし、
１文字毎のインデックスを付けているとすると、順序を
気にせずに検索したら、予想しないおかしな検索結果が
含まれるのは容易に想像がつく（例：「山形」と入力し
たのに、「形山」がたくさん含まれる）。

【００６０】図２７は、「茨城県常陸太田市真弓
町」を検索したく、「常陸太田市真弓」と入力すべきと
ころを、「常陸大田市真弓」と、「太田」−「大田」を
誤って入力した例である。単語で考えれば、「常陸太田
市」と「常陸大田市」では異なるが、キー入力文字を文
字遷移に分解すれば、「常陸」「陸太」「大田」「田
市」「市真」「真弓」となり、「常陸」「田市」から、
「常陸太田市」を候補に含めることが可能である。単語
辞書ａ６より、階層で繋がる単語は繋いで、前記方法と
同様に得点計算をすれば、「常陸太田市真弓」がキー文
字「常陸大田市真弓」の文字遷移「常陸」「陸太」「大
田」「田市」「市真」「真弓」との一致数が最も多く、
「茨城県常陸太田市真弓町」が第１位になる。この
ように、キー入力文字の途中など、一部に誤りがあって
も、残りの文字をキーとして、欲しい文字列を検索する
ことができる。

【００６１】ところで、図２５〜図２７などでは、キー
入力文字の文字数が増えたため、曖昧検索の検索結果の
数が多くなっている。曖昧検索結果を全部表示した方が
嬉しい場合もあるが、全部見るのも大変だし、キー文字
をたくさん入れたのだから、候補を絞って欲しい場合も
ある。その場合、図２８のように、検索結果の表示条件
をユーザが指定できるようにすれば、ユーザは、好みに
応じて、必要な情報を選択できるようになる。図の例で
は、キー入力文字の８０％以上を含む検索結果のみを表
示するように指定している。そのため、検索システム
は、検索により得られた住所候補がキー文字の何％を含
むか計算し、ユーザの指定条件に合った検索結果のみを
表示する。

【００６２】図２８の例では、曖昧検索の結果をどのく
らい出力するかを、キー入力文字との一致割合などの指
標を元に、ユーザに選択させるものであった。この外に
も、（キー入力と完全にＡＮＤがとれる結果を表示する
／キー入力のＯＲの結果を表示する）などで、結果の出
力をユーザに選択させてもよい。

【００６３】さらには、図２９のように、曖昧検索結果
の優先順位の付け方をユーザに指定させるようにして、
ユーザの欲しい情報が優先的に表示されるようにしても
よい。図の例では、（階層＞文字一致数）の順に優先を
付けるように指定があるので、キー文字を含む曖昧検索
結果のうち、階層が高いものが優先的に表示される。［６］１文字の曖昧検索さて、これまで、文字遷移情報を使った曖昧検索につい
て述べてきた。文字遷移情報とは、２文字間の関係を表
す情報なので、一般には、２文字以上の単語について有
効である。しかし、単語の中には１文字のものも存在す
る（例：住所単語の「泉」や「イ」「ロ」「ハ」など）
ため、文字遷移情報による曖昧検索を、１文字の単語に
も拡張する必要がある。次に、文字遷移情報を用いて１
文字の単語を曖昧検索する方法を述べる。

【００６４】図３０は、文字遷移情報をベースにしなが
ら、１文字の情報でも検索するための遷移情報学習方法
と検索方法の概要を示す。１文字検索のポイントは、１
文字の単語ＷをＷ→Nullという文字遷移で表すことにあ
る。例えば、図の例では、「埼玉県川口市峯」を、
「埼→玉」「玉→県」「川→口」「口→市」「峯→Nul
l」という文字線遷移に見立てて学習した。

【００６５】このように学習しておけば、例えば、検索
するためのキーワードとして、「川口，峯」と区切って
入力されれば、「川→口」と「峯→Null」（あるいは、
「峯→＊（なんでもよい）」）の遷移を含むと解釈し、
図のように、「川口市峯」を第一候補に選択できる。
（１文字の単語ｗを「ｗ→Null」と学習したのに、検索
する場合には、「ｗ→＊（何でもよい）」と見なす方が
好都合な場合がある。これについては、次の図３１で詳
しく述べる。）前に述べた「川口，峯」のように、１文字のキーワード
を区切って入力してもらえれば良いが、「川口峯」のよ
うに、区切られないで入力されることも考えられる。そ
の場合には、「川口峯」を、これまでと同じように２文
字の遷移（「川→口」「口→峯」）と見なす他に、図の
ように、１文字毎の遷移（「川→＊」「口→＊」「峯→
＊」）と見なすことにより、１文字の単語「峯」も取り
こぼさずに検索することができる。

【００６６】さて、先ほど、１文字の単語ｗを「ｗ→Nu
ll」と学習したのに、検索する場合には、「ｗ→＊（何
でもよい）」と見なす方が好都合な場合があると述べた
が、そのような例を図３１を用いて説明する。

【００６７】図３１の例では、「千葉県旭市イ」と
いう住所の学習と検索の例を示す。学習時は、図３０の
例と同様に、文字遷移「千→葉」「葉→県」「旭→市」
「イ→Null」に分解して学習する。

【００６８】次に、検索の話をする。「旭市」のよう
に、固有の地名が「旭」１文字で、後ろに単位を表す
「市」がついて２文字になったような地名の場合、検索
時には、固有の地名を表す「旭」１文字のみを入力した
いことがよくある。例えば、「千葉県旭市イ」を検
索したく、「旭，イ」のように入力する場合がこれに当
たる。このような場合、「旭，イ」を「旭→Null」と
「イ→Null」としか見なさないと、「イ」という単語に
ついては、「イ→Null」と学習してあるため検索できる
が、「旭市」については、「旭→市」と学習してあるた
め、検索ができない。このような不具合を防ぐために
は、学習するときには、１文字の単語ｗを文字遷移「Ｗ
→Null」と見なしてよいが、検索する場合には、１文字
の単語（あるいは文字）Ｗを、「Ｗ→＊（なんでもよ
い）」と見なすほうがよい。但し、この場合、Ｗが頭に
つく文字遷移を全部含めるため、意図しない候補も急に
増えることが予想される。そのような場合には、「旭
市」のように、固有の地名が先頭の１文字で、後ろに単
位を表す「都道府県・市郡・町村」等がついて２文字に
なったような地名を優先するとよい。それには、まず
は、「Ｗ→都」「Ｗ→道」「Ｗ→府」・・・「Ｗ→村」を
優先的に検索し、さらに、ユーザに提示する検索結果の
数に余裕があれば、「Ｗ→＊（なんでもよい）」を実行
するとよい。

【００６９】あるいは、まずは、「Ｗ→都」「Ｗ→道」
「Ｗ→府」・・・「Ｗ→村」を優先的に検索し、結果を
ユーザに見せ、その中に欲しい検索結果があれば、そこ
で終了。もし、なければ、「Ｗ→＊（なんでもよい）」
を実行する方法もある。

【００７０】あるいは、図２９のような、ユーザの検索
の条件設定パネルで、「Ｗ→都」「Ｗ→道」「Ｗ→府」
・・・「Ｗ→村」を優先的に検索すればよいか、あるい
は、「Ｗ→＊（なんでもよい）」まで検索する必要があ
るかを設定してもらってもよい。

【００７１】以上により、文字遷移情報を用いる曖昧検
索を、１文字の曖昧検索もできるように拡張することが
できた。

【００７２】［７］単語辞書と文字遷移回数および出現
回数の学習図３２は、単語辞書と遷移＆出現回数テーブル（文字の
遷移確率と出現確率の元データ）の学習システムの構成
を示す。動作概要を説明する。ユーザは、単語入力部ｈ
１により、新しい単語を入力する。すると、学習システ
ムは、学習機能付き単語辞書ｈ３に、新たに入力された
単語を追加登録するｈ２。もし、新たに入力された単語
が、以前に登録済みであった場合には、追加登録せず
に、次のステップ（遷移＆出現回数のカウント）に進
む。続いて、新たに入力された単語を文字遷移に分解
し、単語に含まれる文字の遷移回数と出現回数を学習機
能付きユーザ遷移＆出現回数テーブルｈ５に記録する。
さらに、入力された単語が学習機能付き単語辞書ｈ３の
どこに記録されているか、そのアドレスを文字遷移に関
連づけて、学習機能付きユーザ遷移＆出現回数テーブル
ｈ５に記録する。以上を、ユーザが新たに単語を学習さ
せる度に行えばよい。それでは、次に、図面を用いて、
学習機能付き単語辞書ｈ３と学習機能付きユーザ遷移＆
出現回数テーブルｈ５の構成を詳細に述べる。

【００７３】図３３は、学習機能付き単語辞書ｈ３と学
習機能付きユーザ遷移＆出現回数テーブルｈ５の構成を
示す。この図の例では、学習機能付き単語辞書ｈ３に
は、氏名と電話番号の情報（電話帳情報）が記録できる
ようになっている。電話帳情報のテーブルには、Nextの
電話帳情報を差すポインタがついて、情報を増やせるよ
うになっている。この図では、「田中博」，「菊池圭
二」，「田所ゆかり」の３名の電話帳情報を登録してあ
る。

【００７４】図３３は、前記、学習機能付き単語辞書ｈ
３のデータを高速検索するための、学習機能付きユーザ
遷移＆出現回数テーブルｈ５の様子を示す。学習機能付
きユーザ遷移＆出現回数テーブルｈ５には、単語に現れ
た文字遷移の情報（遷移元文字とその出現回数、およ
び、文字遷移の遷移先文字と文字遷移回数）と文字遷移
を含む単語（関連単語）のアドレスを記録する構成にな
っている。こちらも、Nextの文字遷移情報を指すポイン
タが付いていて、情報を増やせるようになっている。こ
こで、後で、単語や住所の曖昧検索を行う際に、高速な
検索を実現するためには、遷移元文字や、各遷移元文字
に繋がる遷移先文字のデータを、図のように文字コード
順に並べておくとよい。そうすれば、後から検索を行う
際には、文字遷移情報をバイナリサーチなどで、高速に
探すことができる。

【００７５】さて、図３４は、図３３の学習機能付き単
語辞書ｈ３に、新たに、「郡司圭子（電話番号０５６−
４１−５０４６）」という情報を追加し、学習機能付き
ユーザ遷移＆出現回数テーブルｈ５を更新した様子を示
す。学習機能付きユーザ遷移＆出現回数テーブルｈ５
に、以前には、「郡→司」や「圭→子」という文字遷移
情報が登録されていなかった。そのため、新たに、「郡
→司」と「圭→子」という文字遷移情報を追加した。追
加の際には、後で検索する時に高速に行えるよう、図に
示すように、遷移元文字と、遷移元文字に繋がる遷移先
文字のデータが文字コード順に並ぶ位置に挿入した。

【００７６】図３５には、図３４の例に、さらに、学習
機能付き単語辞書ｈ３に、新たに、「菊池博（電話番号
０３−４５３−５５８７）」という情報を追加し、学習
機能付きユーザ遷移＆出現回数テーブルｈ５を更新した
様子を示す。さて、学習機能付きユーザ遷移＆出現回数
テーブルｈ５には、以前から、「菊→池」や「博→Nul
l」という文字遷移情報が登録されていた。そこで、こ
こでは、以前からある「菊→池」「博→Null」という文
字遷移情報テーブルの、遷移元文字出現回数と文字遷移
の遷移回数、および、遷移情報を含む単語（関連単語）
を書き換えればよい。以上のような学習を用いれば、ユ
ーザが新たに単語情報を追加したい場合、従来から学習
している単語辞書や遷移＆出現回数テーブルを生かした
まま、高速曖昧検索のためのデータを更新できる。

【００７７】図３６は、単語辞書とユーザ遷移＆出現回
数テーブルの学習機能を単語の曖昧検索装置に組み込ん
だ例を示す。前述した方法で、学習機能付き単語辞書ｈ
３と学習機能付きユーザ遷移＆出現回数テーブルｈ５の
学習を行う。ここでポイントは、これらのテーブルを学
習したら、その度に、曖昧検索システムは、学習機能付
き単語辞書ｈ３と学習機能付きユーザ遷移＆出現回数テ
ーブルｈ５のロードを行い、最新の情報を用いて検索で
きるようにしたことにある。

【００７８】図３７は、単語辞書やユーザ遷移＆出現回
数テーブルを、標準の辞書（テーブル）と、ユーザの辞
書（テーブル）に分けた例である。例えば、一般的に用
いるデータは標準辞書に、個人に特有なデータはユーザ
辞書に登録する。すると、複数の人間がシステムを共用
する場合にも、標準辞書は共用し、個人に特有のデータ
は、各自が持てばよい。標準辞書が更新されたときなど
にも、個人に特有のデータをユーザ辞書に分けておくこ
とで、個人のデータが保護されるし、新しい標準辞書デ
ータも用いることができる。

【００７９】このように、ユーザ辞書と標準辞書を複数
使う場合には、例えば、図に示すように、最初に、学習
機能付きユーザ遷移＆出現回数テーブルｈ５を使って、
候補文字列の最適化と単語のポインタ決定を行いｉ５、
その最適化結果が妥当なものかどうかをチェックするｉ
６。もし、これが妥当ならば、ユーザの単語辞書ｈ３を
参照して結果を導ける。しかし、もし、妥当でなかった
ならば、ユーザは検索キーとして、学習機能付きユーザ
遷移＆出現回数テーブルｈ５にはない情報（標準のテー
ブルにある情報）を入力したと考えられる。そこで、標
準出現確率テーブルｄ８や、標準の文字遷移確率テーブ
ルａ４，標準の単語辞書ａ６を用いて、図１で説明した
のと同様の検索を行えばよい。

【００８０】学習機能付きユーザ遷移＆出現回数テーブ
ルｈ５による文字列最適化が妥当ならば、ユーザ遷移＆
出現回数テーブルに記載されている、その文字遷移を含
む単語辞書アドレスを参照して、単語検索を行うｉ７。
もし、検索結果が妥当ならばｉ８、結果を表示するｉ
４。もし、妥当でなかったならば、ユーザは検索キーと
して、学習機能付きユーザ遷移＆出現回数テーブルｈ５
にはない情報（標準のテーブルにある情報）を入力した
と考えられる。そこで、標準出現確率テーブルｄ８や、
標準の文字遷移確率テーブルａ４，標準の単語辞書ａ６
を用いて、図１で説明したのと同様の検索を行えばよ
い。

【００８１】［曖昧検索の様々な応用］［１１］各種の入力（キーボード・文字・音声）に適用
する例さて、これまでは、文字遷移情報テーブルと単語辞書を
用いて、文字認識結果の最適化と曖昧検索を行う例を中
心に述べてきた。しかし、この、文字遷移情報テーブル
と単語辞書を用いて、文字列の最適化と曖昧検索を行う
方法は、文字認識以外にも、音声認識等にも適用可能で
あるし、さらには、曖昧検索をキーボード等、各種の方
法で入力した文字に対して用いることも可能である。

【００８２】文字遷移情報テーブルと単語辞書を用いた
文字列最適化と住所の曖昧検索をキーボード・文字（文
字認識入力）・音声による入力に適用した場合の検索モ
ジュール関連図を図３８に示す。文字入力は、図に示す
ように、キーボード・文字（文字認識入力）・音声な
ど、様々な手段で入力することができる（図の例では、
「大みか」と入力した）。

【００８３】文字や音声などは、文字認識や音声認識な
どの認識系により、文字コード化される。但し、認識系
を用いる場合、得られた文字コード（丈みか・大るカ）
は、あくまでも、正解の候補であり、確定はしていな
い。この不確定な候補文字をできるだけ正解らしくする
ために、文字遷移確率テーブルａ４に記載されている文
字間の遷移確率の情報を用いて、文字列として尤もらし
くする（図の例で「大みか」に候補が訂正された）。そ
の後は、候補文字を最適化するために用いた文字遷移確
率テーブルに記載された、文字遷移を含む候補単語のデ
ータアドレスを参照し、文字遷移を含む単語を検索（直
接参照）する。そして、単語辞書ａ６から、住所の階層
情報を使って、ユーザが検索したい住所の候補を表示す
る（詳細は、前述したとおり）。

【００８４】もし、認識系を使わないキーボード等でキ
ー文字（「大みか」）が入力された場合（ユーザの入力
ミスがないとすれば）、入力された情報は、確定した情
報と見なせる。従って、例えば、文字や音声による入力
で、認識と候補文字最適化を終えた状態と考えられる。
そこで、認識と候補文字最適化を飛ばして、単語検索の
部分から、同様に行えばよい。

【００８５】［１２］住所の曖昧検索を地図情報の検索
等に用いる例さて、図３９は、住所の曖昧検索を地図情報の検索に適
用した例を示す。この例では、例えば、「大みか」と音
声等で入力すると、「大みか町」付近の地図を表示する
ようになっており、カーナビゲーションの操作等に用い
ることができる。ここでのポイントは、単語辞書の情報
（地名単語とその階層情報）に、各地名単語が表す場所
の地図データへのポインタ（該当地図アドレス情報）を
付加したことにある。例えば、「大みか」と入力する
と、音声や文字など、コード化するのに認識系が必要な
場合は、認識して候補文字を得て、文字遷移確率テーブ
ルａ４を参照し、候補の最適化をする（キーボードなら
ば、認識と候補の最適化は飛ばす。）。さらに、文字遷
移確率テーブルａ４に記載されている、文字遷移と関連
する単語のアドレスを参照する。そこには、「大みか
町」という単語の他に「大みか町」付近の地図のアドレ
ス（ＭＡ１１）が記載されている。そこで、地図データ
ｊ２のアドレスＭＡ１１にアクセスし、「大みか町」付
近の地図を表示した。

【００８６】さて、図３９の例では、地名を表す単語辞
書に地図データのポインタを加えた例を示した。この例
のように、単語辞書に各種データへのポインタを張った
り、単語辞書に単語と一緒に各種データを記憶するとい
うアイディアは、他にも様々に応用ができる。例えば、
地名単語辞書に郵便番号を付加すれば、地名の一部を入
力して郵便番号を調べるシステムができる。また、地名
の回に人名を階層化したような単語辞書に電話番号を付
加すれば、住所と氏名の一部を曖昧に入力して電話番号
を調べるようなシステムもできる。また、単語辞書に、
その単語の意味情報（国語辞典の様なデータ）へのポイ
ンタを張れば、曖昧に入力して、正しい表記（単語）と
その意味を調べるような、国語辞典システムも作成可能
である。その他にも、図書館の書名・著者名・出版社な
どから、本を検索するシステム。医者が扱う薬を、薬の
記号や薬品名の一部から検索するシステム。住所・氏名
情報（単語辞書）と戸籍情報をリンクしておき、住所・
氏名の曖昧入力から、戸籍情報を探すシステム。インタ
ーネットのキーワードを曖昧な入力から検索するシステ
ムなど、あらゆる情報の検索に応用が可能である。

【００８７】［１３］単語辞書を複数表記で記憶し曖昧
検索の曖昧さをさらに広げる次に、図３８と同様の検索システムで、単語辞書ｋ１を
複数の表記（一般の表記・読み・英語・ドイツ語・ひら
がな・カタカナ・音節など）で持つ。文字遷移確率テー
ブルは、全ての表記について持ち、全ての表記から単語
辞書へポインタを張ることにより、検索キーがこれらの
どれでも良いようにして、さらに検索の曖昧度を広げる
方法について述べる。

【００８８】図４０は、住所の単語辞書を複数の表記
（一般の表記・よみ・英語表記）で持ち、漢字とかな文
字の混ぜ書きや、英語の入力にも対応できるようにした
例である。ここでは、表記（漢字など）と表記に対応す
る読みを、表記１文字毎に対応させて記憶してある。表
記・よみ・英語のいずれからも、文字遷移情報を抽出
し、単語辞書へのポインタが張ってある。そこで、図の
例のように、漢字とかなの混ぜ書き（「いし名坂」）で
入力されても、単語を特定し、例えば、正しい表記に直
して表示することが可能である。

【００８９】図４０の例では、検索結果を一般的な表記
で表示したが、単語辞書ｋ１を複数表記で持っていれ
ば、結果を図４１のように、複数表記で表示したり、図
４２のように、入力された表記（言語）で表示してもよ
い。

【００９０】［１４］一般の表記テーブルを用いて異表
記からの検索を可能にする図３８のような表記のみを単語辞書に用いて、異なる表
記でも図４０のような曖昧検索を使えるようにする他の
方法としては、例えば、かな文字やかなと漢字の混ぜ書
きで入力された文字列を漢字変換してから、図３８のよ
うな表記のみを単語辞書に用いる方法。英語など、異国
の表記の時には、翻訳してから、図３８のような表記の
みを単語辞書に用いる方法などもある。

【００９１】［１５］１重マルコフ・２重マルコフ・・
・Ｎ重マルコフを使い分ける一般に、漢字は文字種が多く（約３０００文字以上）、
ある漢字の文字遷移（２文字の組み合わせ）を含む単語
は、数が限られる（住所の場合、平均約７単語／文字遷
移）。しかし、ひらがな・カタカナ・英語などでは文字
種が少なく、その文字遷移（２文字の組み合わせ）を含
む単語は、住所の例でも、平均約４０単語／文字遷移
と、漢字の場合に比べて、非常に大きくなる。このよう
な場合には、２文字の組み合わせ（遷移）（１重マルコ
フ）では、その文字を含む単語を絞れないし、文字遷移
確率テーブルに記さなければならない候補単語データア
ドレスの量も大きくなる。そこで、ひらがな・カタカナ
・英語などでは、３文字の組み合わせ（遷移）（２重マ
ルコフ）や、もっと多い文字の組み合わせを文字遷移確
率テーブルに用いればよい。

【００９２】その際には、漢字のように文字種が多い文
字まで、３文字の組み合わせ（２重マルコフ）などを用
いると、文字の組み合わせが単純には３，０００文字の
３乗とテーブルが膨大になる。そこで、図４２のよう
に、例えば、漢字は２文字の組み合わせ（１重マルコ
フ）の情報で文字遷移確率テーブルｅ１に持ち、ひらが
な・カタカナ・英字などは、３文字の組み合わせ（２重
マルコフ）でテーブルに持つなど、文字種に応じて、使
い分ければよい。

【００９３】［１６］誤り表記からでも検索する方法文字の中には、同じ読みの異表記（（の／ノ／之／乃）
（が／ヶ／ケ）（街／町）（太田／大田）など）があ
る。例えば、同じ「みどりがおか」でも、「宮城県山
形市緑が丘」／「山形県酒田市緑ケ丘」など、地
名により使っている文字が異なっており、混乱を招きや
すい。このような文字を正確に入力しなければ、所望の
文字列を検索できないのでは、使い勝手が悪い。

【００９４】図４３に、このような問題を解決する１つ
の方法を示す。このような誤りを起こしやすい文字を予
め調べておき、誤りやすい語テーブルｍ１に、誤りやす
い文字組を記しておく。そして、ユーザが入力した検索
キー文字の中に、誤りやすい語が含まれていたならば
（図の例で、「三ノ丸」の「ノ」）、誤りやすい語テー
ブルｍ１を参照し、誤った可能性のある文字（「の／之
／乃」）を、候補文字に追加する。それから、遷移確率
を用いた候補文字の最適化や遷移情報を使った曖昧検索
を行えば、所望の文字列を検索結果として得ることがで
きる。このような場合、検索結果の表示は、正しい表記
に直して表記すると親切である。

【００９５】誤り表記からでも検索する他の方法として
は、例えば、図４０のような複数表記のテーブルを用い
る方法もある。例えば、図４３と同じ例で、「三の丸」
が正しいのに、「三ノ丸」と入力したとする。すると、
これを、かな漢字変換の辞書を参照し、読み「さんのま
る」に直す。そして、読みから複数表記で読み情報を持
つ単語辞書を検索すれば、入力した文字「三ノ丸」とは
異なるが、同じ読みで正しい表記の「三の丸」を検索す
ることができる。

【００９６】図４０のような複数表記のテーブルを用い
ず、一般の表記のみの単語辞書で、同様の誤り表記の検
索をするには、かな漢字変換の辞書を用いて、誤り表記
（「三ノ丸」）を読み（「さんのまる」）に直し、さら
に、読みから、かな漢字変換して、正しい「三の丸」を
得て、検索する方法もある。

【００９７】［１６］文字遷移情報テーブルを用いた文
字検索これまで述べてきたような文字列の曖昧検索を行う場合
でも、入力手段がキーボードであったり、あるいは、文
字や音声の入力でも、認識系に既に単語処理などが含ま
れていて、文字間の遷移確率を使った候補文字列の最適
化が不要な場合もある。その場合には、遷移確率の細か
い値を使用しないので、図４４のような、ありえる文字
遷移とその文字遷移を含む単語のデータアドレスのみを
記した文字遷移情報テーブルを用いてもよい。この場合
でも、検索の部分は、これまで述べた方法と同様に行え
る。

【００９８】［１７］キーボードによる曖昧入力検索図４５に、キーボードによる曖昧入力検索システム（キ
ー入力のミスがあっても、検索できるシステム）の概要
を示す。このシステムの特徴は、キーボードなどによる
入力ミスがあっても、ミスしやすいキーの文字を候補文
字に追加して、遷移確率による候補の最適化や、曖昧検
索を行うことにより、ミスを救済し、所望の検索結果を
得るものである。

【００９９】図の例では、ユーザは、「ｉｓｉ」と入力
するつもりが、「ｉｄｉ」と、隣のキーをミスタイプし
た。しかし、キーボードのキー配列情報より、入力文字
「ｉ」「ｄ」の回りのキーを調べ、ミスタイプした可能性
のある候補として候補文字に追加する。そうすれば、そ
の後の遷移確率による候補の最適化や、曖昧検索を行う
ことにより、ミスを救済し、所望の検索結果を得られ
る。

【０１００】［１８］繰り返し使われる情報の曖昧検索さて、これまで述べた例では、検索する対象が住所のみ
であったり、氏名のみの例で述べてきた。複数の項目を
持つ情報（例：名簿情報など）でも、各情報（例：名前
・所属・住所など）より文字遷移を抽出し、同様の遷移
確率テーブルを作成すれば、曖昧検索が実施できる。

【０１０１】さて、複数の項目を持つ情報（例：名簿情
報など）では、同じ単語が繰り返し使われることがよく
ある。例えば、名簿情報の例を考えると、同じ所属に複
数の人が存在したり、１つの電話番号を複数の人で共用
したりするため、複数人の名簿の所属や電話の欄に、同
じ文字が繰り返し登場するのである。

【０１０２】図４６は、文字遷移や単語をコード化し、
名簿データをコード情報として持った例である。この例
では、文字遷移情報と、その文字遷移を含む単語の情報
（アドレス）を関連づけて記憶してある。また、単語
は、文字遷移の並びとしてコード化されて記憶してあ
り、さらに、単語を含む名簿データの情報（アドレス）
を関連づけて記憶してある。名簿情報は、前記、コード
化された単語情報の並びとして記憶してある。このよう
に、単語を文字遷移ベースに記憶しコード化すると、こ
れまで述べてきたような曖昧検索ができるとともに、名
簿のような同じ単語が繰り返し出てくるデータを圧縮し
て持つことができる。

【０１０３】図４７は、図４６の名簿データの内容を、
単語遷移情報で表した例を示す。文字遷移情報と、その
文字遷移を含む単語の情報（アドレス）を関連づけて記
憶してある。また、単語は、文字遷移の並びとしてコー
ド化されて記憶してあり、さらに、名簿情報での単語の
並び方と同じ形になるように、各単語の次に並ぶ単語の
情報（アドレス）（単語間の遷移情報）を関連づけて記
憶してある。文字遷移情報がベースになっているので、
これまで述べてきたような曖昧検索ができるとともに、
単語間の遷移情報を用いることにより、単語を含むデー
タが不要になる。

【０１０４】以上のような方法により、名簿のような多
項目の情報も、曖昧検索の機能を保ったまま、容量を圧
縮することが可能となる。

【０１０５】

【発明の効果】本発明によれば、検索したい文字列の先
頭や末尾の文字に限らずに、うろ覚えの情報をキー入力
として、目的の文字列を検索できるため、操作性が大き
く向上する。また、他の効果としては、キーとなる文字
を手書き入力するのみで、残りの文字列を推測し認識結
果として文字列全体が出力されるので、操作性が大幅に
向上できる。

【図面の簡単な説明】

【図１】本発明の一実施例である手書き入力住所認識装
置の機能ブロック図である。

【図２】本発明の一実施例である手書き入力住所認識装
置の動作概要図である。

【図３】従来の文字認識装置の構成図である。

【図４】従来の文字認識装置を用いて住所入力する場合
の動作概要図である。

【図５】本発明の一実施例である手書き入力住所認識装
置のハード構成図である。

【図６】文字遷移確率テーブルの作成方法を説明するフ
ロー図である。

【図７】単語辞書の概要図である。

【図８】文字出現回数テーブルの概要図である。

【図９】文字遷移回数テーブルの概要図である。

【図１０】文字出現確率テーブルの概要図である。

【図１１】文字遷移確率テーブルの概要図である。

【図１２】遷移確率テーブルを用いて行う文字認識後処
理方法の概要図である。

【図１３】後処理結果より文字列を推測する概要図であ
る。

【図１４】後処理結果より文字列を推測する概要図であ
る。

【図１５】後処理結果より文字列を推測する概要図であ
る。

【図１６】後処理結果より文字列を推測する概要図であ
る。

【図１７】推測した文字列の表示形態を示す図である。

【図１８】推測した文字列の表示形態を示す図である。

【図１９】推測した文字列の表示形態を示す図である。

【図２０】推測した文字列の表示形態を示す図である。

【図２１】後処理結果より文字列を推測する概要図であ
る。

【図２２】後処理結果より文字列を推測する概要図であ
る。

【図２３】曖昧検索結果の優先順位決定方法の概要図で
ある。

【図２４】曖昧検索結果の優先順位決定方法の概要図で
ある。

【図２５】曖昧検索結果の優先順位決定方法の概要図で
ある。

【図２６】曖昧検索結果の優先順位決定方法の概要図で
ある。

【図２７】曖昧検索結果の優先順位決定方法の概要図で
ある。

【図２８】検索結果表示条件設定パネルの概要図であ
る。

【図２９】検索結果優先条件設定パネルの概要図であ
る。

【図３０】文字遷移をベースにした１文字検索の概要図
である。

【図３１】文字遷移をベースにした１文字検索の概要図
である。

【図３２】単語辞書と遷移＆出現回数テーブルの学習装
置の概要図である。

【図３３】学習機能付き単語辞書と学習機能付き遷移＆
出現回数テーブルの概要図である。

【図３４】学習機能付き単語辞書と学習機能付き遷移＆
出現回数テーブルの概要図である。

【図３５】学習機能付き単語辞書と学習機能付き遷移＆
出現回数テーブルの概要図である。

【図３６】学習機能付き情報の曖昧検索装置の概要図で
ある。

【図３７】学習機能付きユーザ辞書を持った情報の曖昧
検索装置の概要図である。

【図３８】キーボード・手書き文字・音声による文字情
報の曖昧検索の概要図である。

【図３９】曖昧地図検索装置の概要図である。

【図４０】複数表記の単語辞書を用い、混ぜ書きに対応
した曖昧検索の概要図である。

【図４１】複数表記の単語辞書を用い、複数表記で検索
結果を表示する曖昧検索の概要図である。

【図４２】複数表記の単語辞書を用い、入力された表記
に合わせて検索結果を表示する曖昧検索の概要図であ
る。

【図４３】誤りやすい誤テーブルを用い、複数表記で検
索結果を表示する曖昧検索の概要図である。

【図４４】文字遷移情報テーブルを用いた曖昧検索の概
要図である。

【図４５】文字遷移確率テーブルを用い、キー入力のミ
スも救済する曖昧検索の概要図である。

【図４６】文字遷移をベースにした単語情報により情報
の圧縮も行える曖昧検索装置の概要図である。

【図４７】文字遷移をベースにした単語情報と単語間の
遷移確率により情報の圧縮も行える曖昧検索装置の概要
図である。

【図４８】本発明における優先順位決定の説明図であ
る。

【符号の説明】

ａ１…タブレット、ａ２…認識辞書、ａ３…文字認識
部、ａ４…文字遷移確率テーブル、ａ５…候補文字最適
化と単語のポインタ決定部、ａ６…単語辞書、ａ７…単
語照合と文字列推測部、ｄ１…学習用単語の読み出し
部、ｄ２…文字出現回数のカウント部、ｄ３…出現回数
テーブル、ｄ４…文字遷移回数のカウント部、ｄ５…文
字遷移を含む候補単語記憶部、ｄ６…遷移回数テーブ
ル、ｄ７…文字出現確率テーブル作成部、ｄ８…標準出
現確率テーブル、ｄ９…文字遷移確率テーブル作成部、
ｈ１…単語入力部、ｈ２…単語辞書登録部、ｈ３…学習
機能付き単語辞書、ｈ４…遷移＆出現回数学習＆単語ア
ドレス対応付け部、ｈ５…学習機能付きユーザ遷移＆出
現回数テーブル。

フロントページの続き (56)参考文献特開平６−162274（ＪＰ，Ａ) 特開平７−320002（ＪＰ，Ａ) 特開平５−6464（ＪＰ，Ａ) 特開昭63−36488（ＪＰ，Ａ) 特開平８−137841（ＪＰ，Ａ) 特開平５−233696（ＪＰ，Ａ) 特開平７−325838（ＪＰ，Ａ) 特開平５−165889（ＪＰ，Ａ) 特開平９−282420（ＪＰ，Ａ) 特開平９−305716（ＪＰ，Ａ) 特開平10−21252（ＪＰ，Ａ) 伊東信泰他２名，オンライン文字認識における後処理−住所・姓名の補完機能−，電子情報通信学会研究報告（ＮＬＣ94−18），1994年10月20日，第94巻, 第291号，ｐｐ．33−40 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06K 9/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力された文字列を含む文字群を検索する
情報検索装置において、予め複数の文字列群を、それぞれ固有のアドレスに記憶
する辞書と、少なくとも、ある文字から他の文字への遷移情報と、前
記複数の文字列群のうち前記遷移関係にある文字の組み
合わせを含む文字列群のアドレスとをそれぞれ対応付け
て記憶した文字遷移確率テーブルを有し、前記入力された文字列に対応する文字列群を前記文字遷
移確率テーブルに記載したアドレスにより前記辞書をア
クセスし、当該アドレスに対応する前記辞書中の文字列
群を検索結果として表示し、入力した文字列の一部を含む文字列群が複数存在したと
きには、文字列群の文字遷移のうち入力した文字列の文字遷移と
一致する文字遷移の数と、文字列群のうち入力した文字と一致する文字の数，文字
列群の文字列中で入力した文字を含む位置，文字列群の
使用頻度，文字列群の優先度，文字列群の階層，文字列
群の５０音順，文字列群の文字コード順，文字列群に関
係する情報との関連の強い順及び検索システムを使用し
ているユーザの条件（住所，電話番号など）のうち少な
くとも１つ以上の条件を用いて文字列群の優先順位を決
定する手段を設けたことを特徴とする情報検索装置。
【請求項２】請求項１において、前記文字遷移確率テーブルは、前記辞書に単語が追加さ
れると、文字遷移を含む単語のアドレスを更新して学習
することを特徴とする情報検索装置。