JPH1021252A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH1021252A
JPH1021252A JP8168958A JP16895896A JPH1021252A JP H1021252 A JPH1021252 A JP H1021252A JP 8168958 A JP8168958 A JP 8168958A JP 16895896 A JP16895896 A JP 16895896A JP H1021252 A JPH1021252 A JP H1021252A
Authority
JP
Japan
Prior art keywords
word
character
input
characters
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8168958A
Other languages
English (en)
Inventor
Keiko Gunji
圭子 郡司
Akihiro Katsura
晃洋 桂
壮四郎 ▲葛▼貫
Soshiro Kuzunuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8168958A priority Critical patent/JPH1021252A/ja
Publication of JPH1021252A publication Critical patent/JPH1021252A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】検索したい文字列の途中の文字あるいは末尾の
文字を入力として、目的の文字列を検索できる情報検索
装置を提供することにある。 【解決手段】情報検索装置において、単語辞書e4に記
憶された単語に含まれる各文字とその文字を含む少なく
とも1つ以上の単語のアドレスとの対応関係を保持する
文字−単語対応テーブルe3と、単語を構成する一部の
文字が入力されれると、入力された文字を含む単語のア
ドレスを文字−単語対応テーブルより求め、求めたアド
レスを参照して対応する単語群を抽出する単語候補抽出
部e2を設け、入力された文字を含む単語を抽出し表示
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、あらかじめ登録さ
れている文字列を、検索する情報検索装置に関する。
【0002】
【従来の技術】従来、単語辞書の単語を検索する場合、
単語全体や単語の先頭の文字列を入力し、検索するのが
一般的である。例えば、あるカーナビゲーションの50
音検索では、単語の先頭の部分から文字を入力してゆく
と、入力された文字を単語の先頭に含む単語に候補を絞
ってゆく。
【0003】
【発明が解決しようとする課題】従来の、単語の先頭か
ら文字を入力し、候補を絞る方式(前方一致方式)で
は、単語の先頭の部分を知らなければ、所望の単語を検
索することはできない。そのため、うろ覚えで、単語の
途中の文字や末尾の文字を仮に知っていたとしても、そ
の情報により単語を検索することはできないという問題
があった。
【0004】本発明の目的は、検索したい文字列の先頭
の文字に限らず、検索したい文字列の途中の文字あるい
は末尾の文字を入力として、目的の文字列を検索できる
情報検索装置を提供することにある。
【0005】
【課題を解決するための手段】本発明の特徴は、文字列
を単語毎に記憶する単語辞書を用いて、入力された文字
列に対応する単語を求め、結果を表示する情報検索装置
において、前記単語辞書に記憶された単語に含まれる各
文字と、その文字を含む少なくとも1つ以上の単語のア
ドレスとの対応関係を保持する文字−単語対応テーブル
と、単語を構成する一部の文字が入力されれると、当該
入力された文字を含む単語のアドレスを前記文字−単語
対応テーブルより求め、求めたアドレスを参照して対応
する単語群を抽出する単語抽出手段と、前記抽出された
単語群を構成する文字と前記入力された文字との一致
数,抽出された単語中での前記入力された文字の並び
順,前記入力された文字間の距離,前記抽出された単語
中における前記入力された文字の位置及び単語の使用頻
度のうち少なくとも1つ以上に基づいて前記抽出された
単語の優先順位を決定する手段を設けたことにある。
【0006】これにより、検索したい文字列の一部のみ
が入力された場合であっても、所望の文字列を高速に得
ることができる。
【0007】
【発明の実施の形態】以下、図面を用いて、単語のあい
まい検索、および、手書きにより住所を入力する装置に
本発明を適用した場合を例として説明する。
【0008】[単語のあいまい検索]本発明の一実施例
である、単語検索装置の概要を示す。単語検索装置で
は、単語を検索するのに、単語中に含まれる文字を1文
字以上入力すると、その文字(以下、キー文字という)
を含む単語を検索結果として返す。
【0009】図1に、単語のあいまい検索装置の構成図
を示す。動作概要を説明する。文字入力部e1により、
検索したい単語中に含まれるキー文字が入力される。単
語候補抽出部e2は、入力されたキー文字を含む単語の
単語辞書中のアドレスを文字−単語対応テーブルe3に
より調べる。そして、単語辞書e4の文字−単語対応テ
ーブルe3により調べたアドレスを参照し、単語の候補
を抽出する。次に、優先処理部e5は、抽出された候補
単語を、検索キー文字との一致数や、単語中でのキー文
字の並び順やキー文字間の距離,単語中でのキー文字の
位置,単語の使用頻度などから優先順位を決定する。そ
して、表示部e6は、検索結果の単語を表示する。この
ようにすることで、1文字以上のキー文字により、単語
を検索することができる。
【0010】図2の例では、単語辞書e4に格納された
単語を構成する各文字と、それぞれの文字が対応する単
語の単語辞書e4中のアドレスとを予め文字−単語対応
テーブルe3に文字コード順に記録しておく。従って、
キー文字として「戸」という文字のみ1文字が入力され
ると、文字コード順にキー文字を記録してある文字−単
語対応テーブルを参照し、そのキー文字を含む単語辞書
中の単語のアドレス(A4)を、即座に求めることがで
きる。単語辞書のアドレス(A4)を参照すると、
「戸」を含む単語が「水戸工場」であることが分かり、
「水戸工場」を検索結果として出力した。
【0011】さて、図3の例では、キー文字として
「研」という1文字を入力した場合を説明するものであ
る。文字−単語対応テーブルe3を参照すると、キー文
字「研」を含む単語辞書中の単語のアドレスが2つ(A
2,A3)示されている。従って、単語辞書のこれらの
アドレス(A2,A3)を参照し、「研」を含む単語
「中央研究所」と「日立研究所」を得、出力した。
【0012】図4の例では、キー文字として、「研」の
他に、さらに、「日」を追加して2つの文字を入力した
場合を示している。文字−単語対応テーブルe3より、
キー文字「日」を含む単語のアドレスはA1(日立工
場),A3(日立研究所)であることが分かる。キー文
字「研」を含む単語のアドレスがA2(中央研究所),
A3(日立研究所)である。そこで、「研」と「日」両
方を含む単語アドレスA3(日立研究所)を第1位の候
補の単語アドレスとし、「研」と「日」を片方しか含ま
ないA1,A2を第2位の候補にする。そして、これら
の単語を(1位:日立研究所,2位:日立工場,中央研
究所)を表示した。尚、結果の表示においては第1位の
候補単語のみを表示するようにしても良い。
【0013】図4の例では、キー文字である「研」と
「日」の両方を含む単語は1つしかなかったので、問題
はなかった。しかし、単語数を増やし、キー文字を含む
単語が増えた場合には、検索結果の表示優先順位や絞り
込みが重要になる。そこで、次に、検索結果の表示方法
について述べる。
【0014】結果表示優先基準については、例えば、キ
ー文字の一致数や、キー文字の並び順,キー文字間距
離,キー文字位置,単語の使用頻度などを考慮すればよ
い。キー文字一致数による優先では、例えば、キー文字
として入力した文字の全てが単語中に含まれるほど優先
し、不足する文字があるほど非優先とする。キー文字並
び順による優先では、例えば、キー文字として入力され
た文字の並びと単語中のキー文字の並びが同じならば優
先し、並び順が異なる程非優先とする。キー文字間距離
による優先では、例えば、キーとして入力された文字同
志が近くに固まっている程優先し、離れて存在するほど
非優先とする。キー文字位置による優先では、例えば、
キーとして入力された文字が単語の前方にあるほど優先
し、後方ほど非優先とする。単語の使用頻度による優先
では、例えば、単語の使用頻度が高いほど優先し、低い
ほど非優先とすればよい。単語の使用頻度を優先順位の
考慮に加えるには、単語辞書か、文字−単語対応テーブ
ルなどに、予め求めた単語の使用頻度を記録しておけば
よい。
【0015】図5では、キー文字として「田中」と入力
した場合を示す。優先条件については、(キー文字一致
数>キー文字並び順>キー文字間距離>キー文字位置)
の順に強い優先するとする。すると、図のように、キー
文字として入力した「田」と「中」を多く含み、「田」
→「中」の順に並んでいて、「田」と「中」が隣接して
いて、「田中」が単語中の前の方にあるものが優先さ
れ、図のような順位で出力される。
【0016】図6では、図5と同様に、キー文字として
「田中」と入力したが、優先条件は、(キー文字一致数
固定(「田」と「中」を両方含む単語)>キー文字並び
順>キー文字間距離>キー文字位置)で検索した。する
と、図5の検索結果からキー文字「中」を含まない6位
の「田所町」のみが除かれた結果になる。
【0017】図7では、図6と同様に、キー文字として
「田中」と入力したが、優先条件は、キー文字一致数固
定(「田」と「中」を両方含む単語)且つ、キー文字並
び順固定(「田」→「中」の順)且つ、キー文字間距離
固定(「田」「中」が隣接)>キー文字位置の条件で検
索した。そのため、文字列「田中」を含む単語のみが抽
出され、キー文字一致位置の順に並べて出力された。
【0018】図8は、同様に、キー文字として「田中」
と入力したが、優先条件は、キー文字一致数固定
(「田」と「中」を両方含む単語)且つ、キー文字並び
順固定(「田」→「中」の順)且つ、キー文字間距離固
定(「田」「中」が隣接)>単語の使用頻度の条件で検
索した。そのため、文字列「田中」を含む単語のみが抽
出され、単語の使用頻度が高い順に並べて出力された。
【0019】このように、優先条件を柔軟に変えること
により、検索したい文字列を入力から絞ることができ
る。
【0020】さて、次に、単語のあいまい検索に用いる
単語辞書e4と文字−単語対応テーブルe3の作成方法
について述べる。
【0021】図9に、単語辞書・文字−単語対応テーブ
ル作成装置の構成を示す。動作概要を説明する。まず、
単語入力部f1より、単語辞書e4に登録したい単語を
入力する。すると、その単語を単語辞書登録部f2で、
単語辞書e4に登録する。次に、文字−単語対応付け部
f3で、前記単語辞書に登録した単語に含まれる文字と
前記登録した単語の単語辞書e4中のアドレスを関連付
けて、文字−単語対応テーブルe3に登録する。以上を
繰り返せばよい。
【0022】さて、次に、単語辞書e4と文字−単語対
応テーブルe3の構成について述べる。
【0023】図10には、単語辞書e4と文字−単語対
応テーブルe3の構成概要を示す。単語辞書e4には、
単語「日立工場」と「中央研究所」を登録してある。そ
して、文字−単語対応テーブルe3には、単語辞書e4
に登録してある単語と単語に含まれる文字の関連を示し
てある。
【0024】単語辞書e4では、単語を記述するセルに
Next単語を差すポインタを付けてあり、単語数が増加し
ても対応が可能になっている。
【0025】文字−単語対応テーブルe3では、単語中
に出現する文字(出現文字)と、その文字を含む単語
(関連単語)のアドレスを記述する。出現文字情報は、
Next出現文字情報のポインタを付けることにより、単語
中に出現する文字数に合わせて長さを可変長にできる。
さらに、文字を含む関連単語アドレス情報にも、Nextポ
インタを付けてあるので、文字を含む関連単語数が増加
しても対応できる。
【0026】また、ポインタを使って、出現文字を文字
コード順などにソートしておくことができる。すると、
メモリに辞書をロードし、検索するときに、文字コード
順に並べて配置できるため、文字のバイナリサーチが可
能となり、高速に検索することが可能になる。
【0027】図11には、図10の例に、「日立研究
所」という単語を加えた例を示す。「日」「立」「研」
「究」「所」は、それぞれ、以前(図10の状態)から
文字−単語対応テーブル中に登録済みである。従って、
文字−単語対応テーブルの出現文字「日」「立」「研」
「究」「所」の各関連単語アドレスに、新規登録した単
語「日立研究所」のアドレスA3を加えればよい。
【0028】図12には、図11の例に、「水戸工場」
という単語を加えた例を示す。「水」「戸」「工」「場」
のうち、「工」「場」は、図11の状態で、文字−単語
対応テーブルe3の出現文字に登録してあるので、図1
1で「日立研究所」という単語を加えた例と同様に、新
規登録した単語「水戸工場」のアドレスA4を加えれば
よい。テーブルになかった文字「水」「戸」について
は、文字コード順に並べてある出現文字の適当な位置に
挿入し、「水戸工場」のアドレスA4とともに記憶す
る。
【0029】以上のようにすれば、新規単語を単語辞書
e4に登録しながら、文字−単語対応テーブルe3を更
新し、学習を行うことが可能になる。
【0030】さて、前述した方法は、単語辞書も学習し
ながら作成したが、予め作成してある単語辞書e4を読
み出して、同様に文字−単語対応テーブルe3を作成し
てもよい。図13に、予め作成してある単語辞書e4か
ら文字−単語対応テーブルe3を作成する装置の構成を
示す。動作を簡単に説明する。まず、単語辞書e4よ
り、単語を読み出す。そして、単語中に含まれる文字と
単語の単語辞書中のアドレスを対応付けて、文字−単語
対応テーブルe3に登録する。もし、単語辞書e4に追
加の単語があれば、同様に、単語辞書から単語を読み出
し、文字−単語対応テーブルe3に追加する。この場
合、文字−単語対応テーブルe3の構成は、図10〜図
12と同じでよい。
【0031】以上により、単語のあいまい検索装置が実
現できた。次に、単語のあいまい検索装置の応用例を示
す。
【0032】図14は、単語のあいまい検索を利用し
た、Fax 送信システムである。単語辞書e4の代わりに
電話帳辞書e8を、文字−単語対応テーブルe3の代わ
りに文字−電話帳対応テーブルe7を用い、宛先の一部
を入力すると、その宛先にFaxを送る。図の例では、Fax
書類と宛先「水戸工場」の一部「戸」を入力したの
で、「戸」のつく宛先を文字−電話帳対応テーブルe7
を参照して求める。この例では、「戸」のつく宛先は電
話帳アドレスA4の「水戸工場」しかなかったので、ユ
ーザに電話帳e8を参照して、宛先と電話番号「水戸工
場:029−224−5694」を提示する。ユーザが
確認したら、その宛先にFax 送信する。
【0033】この例のように、文字列検索を電話番号検
索に応用したり、地図検索に利用したり、あらゆるデー
タの検索に応用することができる。知っている文字を適
当に並べて入力すれば、目的の単語や文字列を選べるた
め、ユーザの操作性が向上する。
【0034】[手書き住所入力装置]図16は、本発明
の他の実施例である手書き入力住所認識装置の動作概要
図である。住所入力エリアb1に、スタイラスペンa9
で、住所のキーとなる文字「大みか」を手書き入力す
る。すると、手書きされたストローク(筆跡)は、文字
認識部a3により認識され、キーワードの候補文字,第
一候補「大みか」と第二候補「犬るカ」が得られる。こ
れらの候補文字を、遷移確率テーブルa4にある文字間
の遷移確率((文字A)→(文字B)に続く確率)と、
文字の出現確率テーブルa8を参照し、候補文字をどの
ように組み合わせると、文字列として出現確率が高くな
るかを求め、文字列としての出現確率が高くなるよう
に、候補文字の順位を最適化する。さらに、文字遷移確
率テーブルの候補単語No.を参照し、候補文字列にある
文字遷移を含む単語のポインタを求める。図の例では、
「大みか」と候補文字を組み合わせると出現確率が高く
なり、文字遷移確率テーブルより、(大→み)と(み→
か)を含む単語のポインタNo.A11が求められる。本
方式では、文字認識の後処理に用いる、遷移確率テーブ
ルに、新たに単語辞書中の単語へのポインタを設けるに
より、高速に目的の単語にアクセスすることができる。
そして、単語辞書中で該当する単語が分かったら、単語
辞書の階層情報により、上位の階層は一意に求められ
る。この例では、最下位の階層の「大みか町」が一意に
求められたので、上位は「茨城県 日立市」と一意に求
めることができる。従って、「大みか」しか手書き入力
していないのに、「茨城県 日立市大みか町」と、住所
を頭から候補表示し、入力することができる。
【0035】図15は、本発明の一実施例である手書き
入力住所認識装置の機能ブロック図である。図15を用
いて動作を簡単に説明する。スタイラスペンa9をタブ
レットa1上に滑らせることにより、手書き文字パター
ンが入力される。入力された手書きパターンを、認識辞
書a2にある文字パターンとマッチングして文字認識部
a3する。文字認識の結果得られた候補文字の候補順位
を最適化するために、あらかじめ学習して作成してあ
る、文字間の遷移確率と文字遷移を含む単語辞書中の候
補単語のポインタが載っている遷移確率テーブルa4及
び文字の出現確率テーブルa8を参照し、文字列として
の出現確率が高くなるように候補順位を最適化するとと
もに、最適化した文字列が該当する単語辞書中の単語へ
のポインタを求める(a5)。前記方法で求めた単語辞
書a6の単語と候補文字列を照合し、該当する単語とそ
の前後の情報を単語辞書の階層情報より求める(a
7)。求められた結果をLCDa8に表示する。
【0036】尚、本発明の特徴である、[1]遷移確率
テーブルa4の作成方法、[2]遷移確率テーブルa4
を用いて、候補文字を文字列としての出現確率が高くな
るように候補順位を最適化するとともに、最適化した文
字列にある文字遷移を含む単語へのポインタを求める方
法、[3]求めた単語のポインタを利用して手書き入力
した単語(キーワード)を含む文字列を推測する方法、
[4]推測した文字列の表示方法については、後に図面
を用いて詳細に説明する。
【0037】図19は、本発明の一実施例である手書き
入力住所認識装置のハード構成図である。入力パターン
と辞書パターンをマッチングする機能,パターンマッチ
ングにより得られた候補文字を最適化し、候補文字を含
む単語へのポインタを求める機能,候補文字を単語照合
して、さらに前後の情報を検索する機能は、例えば、R
OMc5に記憶してあるプログラムをCPUc3が読みだ
し、実行することにより実現される。尚、各機能につい
ては、後に図面を用いて詳細に説明する。
【0038】[1]遷移確率テーブルa4の作成方法 図20は、遷移確率テーブルa4の作成方法を説明する
フロー図である。まず、学習用の単語辞書a6を読み出
すd1。読み出した単語について、単語中に含まれる文
字の出現回数をカウントし(d2)、文字出現回数テー
ブルd3に記録する。続いて、文字遷移回数をカウント
し(d4)、文字遷移回数テーブルd6に記録する。続
いて、文字遷移回数テーブルd6に、文字遷移が含まれ
た元の単語の単語No.(単語のポインタ)を記録するd
5。例えば、単語「大みか」の例では、文字の出現回数
は、「大」「み」「か」それぞれ1回、文字遷移回数で
は「大→み」と「み→か」がそれぞれ1回とカウントさ
れる。また、「大→み」と「み→か」の候補単語No.に
は、単語「大みか」の単語No.が記録される。このよう
な処理d1〜d6を、単語辞書a6中の全ての単語につ
いて繰り返し行う。その後、前記処理により作成した文
字出現回数テーブルd3と文字遷移回数テーブルd6を
参照して、文字間の遷移確率と文字遷移を含む候補単語
No.の情報を記述した遷移確率テーブルa4を作成する
(d9)。さらに、必要があれば、文字出現回数テーブ
ルd3を参照して、文字毎の出現確率を記述した文字出
現確率テーブルd8を作成する(d7)。それぞれのテ
ーブルの構成については、以下図面を用いて説明する。
【0039】図21は、単語辞書の概要図である。ここ
では例として、住所の単語辞書a6を示す。この辞書
は、都道府県・市町村・それ以下で階層化された構造に
なっており、各要素は、単語No.(単語の位置情報),
上位単語No.,単語(文字列)からなる。各単語にアク
セスするには、単語No.によりアクセスできる。また、
単語の階層関係は、上位単語No.によって分かる。
【0040】図22は、文字出現回数テーブルの概要図
である。文字出現回数テーブルd3には、学習用単語辞
書中に各文字が現れた回数が記憶され、学習用単語中の
全文字数をカウントするのに用いられる。
【0041】図23は、文字遷移回数テーブルの概要図
である。文字遷移回数テーブルd6は、学習用単語辞書
中に各文字遷移が現れた回数と、文字遷移が含まれてい
た単語のNo.(候補単語No.)を記録するのに用いる。
【0042】図24は、文字出現確率テーブルの概要図
である。例えば、文字「日」の出現確率は、出現確率
(日)=出現回数(日)/全文字数で表せる。従って、
文字出現確率テーブルd8を作成するには、文字出現回
数テーブルd3を参照し、各文字の出現回数を求め、文
字出現確率テーブルd8に記録すればよい。
【0043】図25は、文字遷移確率テーブルの概要図
である。例えば、文字遷移「日→立」の遷移確率は、遷移
確率(日→立)=遷移回数(日→立)/出現回数(日)
で表せる。従って、遷移確率テーブルa4を作成するに
は、文字出現回数テーブルd3と文字遷移回数テーブル
d6を参照して、各文字の遷移確率を求め、遷移確率テ
ーブルa4に記録すればよい。
【0044】以上の処理により、単語辞書の単語へのポ
インタのついた遷移確率テーブルa4を作成することが
できる。尚、本実施例においては、単語辞書中の各単語
を識別するための単語識別情報として単語No.を用いた
が、これに限られるものではなく、コード情報であって
も良い。また、同様に、単語辞書中の単語間の階層関係
を示す階層情報として上位単語No.を用いたが、これに
限られるものではなく、階層関係を表わし得るものであ
れば良く、例えばコード情報であっても良い。
【0045】[2]遷移確率による後処理(候補文字の
最適化と候補単語のポインタの決定)方法 図26は、遷移確率テーブルを用いて行う文字認識後処
理の概要図である。図のように、入力パターン「大み
か」の候補文字が、第一候補「大るか」・第二候補「犬
みカ」であるとする。尚、ここでは文字認識結果に誤り
がある場合でも、遷移確率による候補文字の最適化で対
応できることを示すため、特に、図16の例とは異なる
「大みか」を誤認識した例を用いて説明する。候補文字
の組み合わせは、図に示す8通りが考えられる。これら
文字列の組について、文字遷移確率テーブルを参照し
て、文字列の出現確率と単語辞書中の単語候補の単語の
ポインタを求める。文字列の出現確率が高い候補文字の
組合せが、最適な組み合わせ(パス)である。従って、
その文字組を候補単語No.と共に遷移確率後処理の結果
とする。
【0046】それでは、まず、文字列の出現確率の計算
方法を述べる。
【0047】一般に、文字列S1,S2,…Snの出現
確率は、次式で近似できる。
【0048】
【数1】 出現確率(S1,S2,…Sn) =出現確率(S1)×遷移確率(S1→S2)×…×遷移確率(Sn−1→Sn) …(数1) 図の候補文字の組み合わせNo.3の「大みか」の例で
は、以下の通りとなる。出現確率(大みか)=出現確率
(大)×遷移確率(大→み)×遷移確率(み→か)具体的に
は、遷移確率テーブルa4と出現確率テーブルa8とに
より、次式の通り値が求められる。
【0049】
【数2】 出現確率(大みか) =(18/89274)×(1/18)×(2/15)×(2/198) =14940×10~8% …(数2) 次に、候補単語No.(単語辞書中の単語候補のポインタ
0を求める方法を述べる。文字列S1,S2,…Snの
候補単語No.は、次式のように求めることができる。
【0050】
【数3】 候補単語No.(S1,S2,…Sn) =候補単語No.(S1→S2)∩…∩候補単語No.(Sn−1→Sn) …(数3) 図の例,文字列「大みか」の場合は、文字遷移確率テー
ブルa4により次式のようになる。
【0051】
【数4】 候補単語No.(大みか) =∩候補単語No.(大→み)∩候補単語No.(み→か) =(A11)∩(A11,A12) =A11 …(数4) この例では、アンド(∩)をとることにより、候補を
「大みか町」(A11)に絞ったが、オア(∪)をとり
候補を「大みか町」と「みかの原町」にしてもよい。こ
の場合、一致数を考慮すれば「大みか町」を第一候補に
することができる。
【0052】以上の方法により、文字認識により得られ
た候補文字を文字列としての出現確率が高くなるように
最適化し、最適化した候補文字列の候補単語No.(単語
へのポインタ)を求めることができる。尚、上記の方法
によれば、例えば、「大みか町」の一部分である「み
か」のみを入力しても、「大みか町」と「みかの原町」
を候補にすることができる。
【0053】[3]手書き入力した単語(キーワード)
を含む文字列の推測方法 続いて、最適化した候補文字列(手書き入力したキーワ
ード)を含む文字列全体の推測方法について、図面を用
いて説明する。
【0054】図27は、後処理結果により文字列を推測
する概要図である。この例では、遷移確率による後処理
でキーワード(候補文字)「大みか」と候補単語No.A
11が得られた場合を示す。この図から分かるように、
キーワード「大みか」は単語辞書中に1つしかなく、ま
た最下位の階層なので、上位の文字列「茨城県 日立
市」は一意に決まる。そこで、手書き文字「大みか」の
全体の推測結果として、候補文字列「茨城県 日立市
大みか町」を表示した。
【0055】図36は、図27と同様の例であるが、手
書き文字「大みか」の候補文字列として、文字列推測結
果の「茨城県 日立市 大みか町」と推測結果なしの文
字認識結果の「大みか町」を両方候補として出し、ユー
ザが選択できるようにしたことが特徴である。このよう
に、キーワードから推測した文字列と推測なしのキーワ
ードのみの両方を候補にすると、ユーザは好みの方を選
べる利点がある。
【0056】図28は、後処理結果により文字列を推測
する概要図である。この例では、遷移確率による後処理
の結果、単語辞書の中間階層の単語である「日立」(候
補単語No.A1)得られた場合を示す。図より分かるよ
うに、キーワード「日立」は、単語辞書テーブル中に1
つしかないので、上位階層の文字列「茨城県」は一意に
決まる。しかし、下位の階層は複数あるので、例えば、
候補を「茨城県 日立市 大みか町」「茨城県 日立市
みかの原町」・・・と複数表示し、ユーザに選択して
もらえば良い。
【0057】図29は、図28と同様に後処理の結果単
語辞書の中間階層の単語である「日立」(候補単語No.
A1)遷移確率により得られ、下位の候補が複数ある例
である。この図の例では、単語辞書には各都市毎の人口
情報を保持しており、複数ある下位の階層のうち、人口
の多い町を優先的に高い候補順位で表示することによ
り、操作性を向上している。
【0058】図30は、図29と似ているが、単語辞書
には人口情報の代わりに、単語間の遷移確率をもってい
る。複数ある下位の階層のうち、遷移確率の高い単語を
優先的に高い候補順位で表示することにより、操作性を
向上できる。この単語間の遷移確率は、地名がよく現れ
るテキストなどから学習することができる。また、簡易
には、都市の人口により頻度を決定して学習してもよ
い。
【0059】図35は、図28と同様に後処理の結果単
語辞書の中間階層のキーワード「日立」(単語No.A
1)が得られ、下位の候補が一意に定まらない例であ
る。図28と異なるのは、一意に候補が決まった「茨城
県 日立市」のみを表示しており、一意に定まらない市
町村以下は、ユーザが再度入力するようにした点であ
る。
【0060】以上より、わかるように、キーワードより
上位の階層は、自動で一意に推測できるし、キーワード
より下位の候補が複数ある場合は、一意には定められな
いので、メニューを提示したり、その部分だけ再入力し
てもらえばよい。
【0061】[4]推測した文字列の表示方法 さて、次に、上記方法で求めた文字列候補の表示の仕方
について述べる。図31〜図34は、推測した文字列の
表示形態を示す図である。いずれも「大みか町」と入力
して、推測認識結果の文字列「茨城県 日立市 大みか
町」を表示しているが、各々表示の位置を変えて、特徴
を出している。
【0062】図31では、「大みか町」と手書きした近
くに候補文字列「茨城県 日立市大みか町」の中の「大
みか町」の部分を表示している。この表示方法では、手
書きした筆跡と認識結果の候補を対比しやすいメリット
がある。
【0063】さて、図32は、「大みか町」と手書きし
た位置の近くから、「茨城県 日立市 大みか町」と表
示している。この表示方法では、手書き文字と候補文字
列の頭が揃っているので、結果の表示開始位置が容易に
分かるメリットがある。
【0064】図33では、「大みか町」と手書きした位
置を中心として、候補文字列「茨城県 日立市 大みか
町」と表示している。この表示方法では、手書き文字と
候補文字列の位置が全体的に見て一番近く、視点をあま
り動かさなくて済むというメリットがある。
【0065】図34では、「大みか町」と手書きした終
りの位置と候補文字列「茨城県 日立市 大みか町」の
最後の文字の位置を揃えてと表示している。この表示方
法では、特に右利きのユーザでは、ペンを持った手の下
に候補文字列が隠れないメリットがある。
【0066】図31〜図34のように、各々特徴ある表
示方法があるが、システムが適宜どれか1つの方法に決
めてもよいし、ユーザが複数の表示方法から自分にあっ
た表示方法を選択できるようにしてもよい。
【0067】また、図31〜図34では、候補文字列中
のキーワード「大みか」を反転表示して分かりやすくし
ているが、例えばフォントを変えるなど、他の方法でも
よい。また、特に反転表示やフォントを変えるなどを行
わなくてもよい。
【0068】以上、本実施例によれば、住所のような階
層データや定形句などを入力する際に、キーとなる文字
を入力するだけで、文字列全体を推測し、候補として表
示することができる。また、単語辞書に高速にアクセス
して単語照合することができ、上記実施例のように単語
辞書が階層化されているときでも、階層の上位・下位に
関係なく高速にアクセスができる。
【0069】
【発明の効果】本発明によれば、検索したい文字列の先
頭の文字に限らず、検索したい文字列の途中の文字ある
いは末尾の文字を入力として目的の文字列を検索できる
ため、操作性が大きく向上する。
【図面の簡単な説明】
【図1】本発明の一実施例である単語検索装置の機能ブ
ロック図である。
【図2】単語検索装置の動作概要図である。
【図3】単語検索装置の動作概要図である。
【図4】単語検索装置の動作概要図である。
【図5】単語検索の候補絞り込み方法の概要図である。
【図6】単語検索の候補絞り込み方法の概要図である。
【図7】単語検索の候補絞り込み方法の概要図である。
【図8】単語検索の候補絞り込み方法の概要図である。
【図9】単語辞書・文字−単語対応テーブル作成装置の
概要図である。
【図10】単語辞書と文字−単語対応テーブルの構成図
である。
【図11】単語辞書と文字−単語対応テーブルの構成図
と学習過程を示す図である。
【図12】単語辞書と文字−単語対応テーブルの構成図
と学習過程を示す図である。
【図13】文字−単語対応テーブル作成装置の概要図で
ある。
【図14】本発明の一実施例である単語検索装置をFax
送信に応用した概要図である。
【図15】本発明の一実施例である手書き入力住所認識
装置の機能ブロック図である。
【図16】本発明の一実施例である手書き入力住所認識
装置の動作概要図である。
【図17】従来の文字認識装置の構成図である。
【図18】従来の文字認識装置を用いて住所入力する場
合の動作概要図である。
【図19】本発明の一実施例である手書き入力住所認識
装置のハード構成図である。
【図20】文字遷移確率テーブルの作成方法を説明する
フロー図である。
【図21】単語辞書の概要図である。
【図22】文字出現回数テーブルの概要図である。
【図23】文字遷移回数テーブルの概要図である。
【図24】文字出現確率テーブルの概要図である。
【図25】文字遷移確率テーブルの概要図である。
【図26】遷移確率テーブルを用いて行う文字認識後処
理方法の概要図である。
【図27】後処理結果より文字列を推測する概要図であ
る。
【図28】後処理結果より文字列を推測する概要図であ
る。
【図29】後処理結果より文字列を推測する概要図であ
る。
【図30】後処理結果より文字列を推測する概要図であ
る。
【図31】推測した文字列の表示形態を示す図である。
【図32】推測した文字列の表示形態を示す図である。
【図33】推測した文字列の表示形態を示す図である。
【図34】推測した文字列の表示形態を示す図である。
【図35】後処理結果より文字列を推測する概要図であ
る。
【図36】後処理結果より文字列を推測する概要図であ
る。
【符号の説明】
a1…タブレット、a2…認識辞書、a3…文字認識
部、a4…遷移確率テーブル、a5…候補文字最適化と
単語のポインタ決定部、a6…単語辞書、a7…単語照
合と文字列推測部、d1…学習用単語の読み出し部、d
2…文字出現回数のカウント部、d3…文字出現回数テ
ーブル、d4…文字遷移回数のカウント部、d5…文字
遷移を含む候補単語記憶部、d6…文字遷移回数テーブ
ル、d7…文字出現確率テーブル作成部、d8…文字出
現確率テーブル、d9…文字遷移確率テーブル作成部、
e1…文字入力部、e2…単語候補抽出部、e3…文字
−単語対応テーブル、e4…単語辞書、e5…優先処理
部、e6…表示部、e7…文字−電話帳対応テーブル、
e8…電話帳辞書、f1…単語入力部、f2…単語辞書
登録部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】検索したい文字列を入力する手段と、文字
    列を単語毎に記憶する単語辞書と、前記単語辞書を用い
    て入力される文字列に対応する単語を求める検索手段
    と、検索結果を表示する手段を有する情報検索装置にお
    いて、 前記単語辞書に記憶された単語に含まれる各文字と、そ
    の文字を含む少なくとも1つ以上の単語のアドレスとの
    対応関係を保持する文字−単語対応テーブルと、 単語を構成する一部の文字が入力されれると、当該入力
    された文字を含む単語のアドレスを前記文字−単語対応
    テーブルより求め、求めたアドレスを参照して対応する
    単語群を抽出する単語抽出手段と、 前記抽出された単語群を構成する文字と前記入力された
    文字との一致数,抽出された単語中での前記入力された
    文字の並び順,前記入力された文字間の距離,前記抽出
    された単語中における前記入力された文字の位置及び単
    語の使用頻度のうち少なくとも1つ以上に基づいて前記
    抽出された単語の優先順位を決定する手段を設けたこと
    を特徴とする情報検索装置。
  2. 【請求項2】請求項1において、前記文字−単語対応テ
    ーブルは、前記単語辞書から文字列を読み出し、読み出
    された文字列に含まれる各文字と当該文字列の単語辞書
    中のアドレスとを対応付けることにより作成されること
    を特徴とする情報検索装置。
  3. 【請求項3】予め文字列を単語毎に記憶した単語辞書を
    用いて、入力された文字列に対応する単語を検索し、検
    索結果を表示する情報検索方法において、 単語を構成する一部の文字が入力されると、当該入力さ
    れた文字を含む単語を、前記単語辞書に記憶された単語
    に含まれる各文字とその文字を含む少なくとも1つ以上
    の単語のアドレスとの対応関係を保持する文字−単語対
    応テーブルを用いて抽出し、 抽出された単語群を、入力された文字の一致数,抽出さ
    れた単語中での前記入力された文字の並び順,前記入力
    された文字間の距離,前記抽出された単語中における前
    記入力された文字の位置及び単語の使用頻度のうち少な
    くとも1つ以上に基づいて求められた優先順位に従って
    表示することを特徴とする情報検索方法。
JP8168958A 1996-06-28 1996-06-28 情報検索装置 Pending JPH1021252A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8168958A JPH1021252A (ja) 1996-06-28 1996-06-28 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8168958A JPH1021252A (ja) 1996-06-28 1996-06-28 情報検索装置

Publications (1)

Publication Number Publication Date
JPH1021252A true JPH1021252A (ja) 1998-01-23

Family

ID=15877716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8168958A Pending JPH1021252A (ja) 1996-06-28 1996-06-28 情報検索装置

Country Status (1)

Country Link
JP (1) JPH1021252A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331003A (ja) * 1999-05-17 2000-11-30 Kenwood Corp 名前検索システム、携帯電話装置、名前検索方法及び記録媒体
WO2002025927A1 (fr) * 2000-09-22 2002-03-28 Ricoh Company, Ltd. Dispositif d'acquisition de documents, systeme de classification de documents, et systeme de legalisation de documents electroniques
JP2012203728A (ja) * 2011-03-25 2012-10-22 Casio Comput Co Ltd 情報検索装置およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331003A (ja) * 1999-05-17 2000-11-30 Kenwood Corp 名前検索システム、携帯電話装置、名前検索方法及び記録媒体
WO2002025927A1 (fr) * 2000-09-22 2002-03-28 Ricoh Company, Ltd. Dispositif d'acquisition de documents, systeme de classification de documents, et systeme de legalisation de documents electroniques
JP2012203728A (ja) * 2011-03-25 2012-10-22 Casio Comput Co Ltd 情報検索装置およびプログラム

Similar Documents

Publication Publication Date Title
US5649023A (en) Method and apparatus for indexing a plurality of handwritten objects
US5952942A (en) Method and device for input of text messages from a keypad
EP0310283A2 (en) A multilingual ordered data retrieval system
CN102063482B (zh) 一种手持设备高效联系人查找方法
CN101167075A (zh) 专有表现抽取装置、方法以及程序
JPH08147320A (ja) 情報検索方法及びシステム
JP3199093B2 (ja) 住所情報検索装置
JP3275704B2 (ja) 入力文字列推測認識装置
JPH1021252A (ja) 情報検索装置
JPH06325092A (ja) 顧客情報検索方式
JPH09319767A (ja) 類義語辞書登録方法
JPH06162115A (ja) 地図情報システムにおける曖昧検索方式
JP3419205B2 (ja) 情報検索装置
JPH05250416A (ja) データベースの登録・検索装置
JPH08272813A (ja) ファイリング装置
JPS60233782A (ja) 住所読取装置
JPH04232570A (ja) キーワード検索方法
JP3241854B2 (ja) 単語スペル自動補正装置
JP3446866B2 (ja) データベース作成装置および方法
JPH0721212A (ja) 文書処理装置
JPH05181719A (ja) 可変長データの格納および参照システム
JP2000011096A (ja) 文字認識処理装置及び方法並びに記憶媒体
JP2947832B2 (ja) 単語照合方法
JPH0555912B2 (ja)
JP3972309B2 (ja) 情報変換装置及びプログラム