JPH11154160A - データ検索システム - Google Patents

データ検索システム

Info

Publication number
JPH11154160A
JPH11154160A JP9321432A JP32143297A JPH11154160A JP H11154160 A JPH11154160 A JP H11154160A JP 9321432 A JP9321432 A JP 9321432A JP 32143297 A JP32143297 A JP 32143297A JP H11154160 A JPH11154160 A JP H11154160A
Authority
JP
Japan
Prior art keywords
data
keyword
search
notation
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9321432A
Other languages
English (en)
Inventor
Keiko Gunji
圭子 郡司
Soshiro Kuzunuki
壮四郎 葛貫
Akihiro Katsura
晃洋 桂
Toshimi Yokota
登志美 横田
Masaki Miura
雅樹 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9321432A priority Critical patent/JPH11154160A/ja
Publication of JPH11154160A publication Critical patent/JPH11154160A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワードの表記や条件が不完全であって
も、その表記や条件に近いデータを検索して、優先度を
付してデータを表示できるデータ検索支援システムおよ
びデータ検索システムを提供する。 【解決手段】 入力装置120によりキーワードが入力
されると情報処理装置本体110は、入力されたキーワ
ードと表記が類似したデータを検索し、データと表記の
類似度を得る。入力されたキーワードと表記が類似した
意味類似語辞書a9の項を参照し、入力されたキーワー
ドと表記および意味が類似したキーワードとその表記・
意味の類似度を求め、類似表記・意味語をキーとして、
さらに、表記が似たデータを検索し、その表記の類似度
を求める。前記検索された、データの表記・意味の総合
類似度を、前記、表記の類似度と意味の類似度を用いて
求め、検索結果を出力装置130に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索システム
に係り、特に、手書き入力など、入力文字に誤りが含ま
れやすい場合、表現に多様性があるため一義的にキーワ
ードを決定できない場合等のように、キーワードが不完
全な場合、曖昧な場合であっても、検索が容易に行える
情報検索システムに関する。
【0002】
【従来の技術】データベースシステム等の情報を蓄積し
たシステムに対して、特定の情報を検索する場合、一般
に、欲しい情報のキーワードを入力すると、そのキーワ
ードを含んだデータを検索結果として返す。しかし、同
じような内容のデータでも、データを作った人によっ
て、異なるキーワードをつけることがよくある。そのた
め、検索者が入力したキーワードと内容は非常に近いデ
ータが存在するにもかかわらず、異なるキーワードがつ
いているために、検索できないということがよく起こ
る。
【0003】特開平7−239857号公報には、類義
語を格納した辞書を用いて、入力されたキーワードと似
た意味のキーワード(類義語)を求め、類義語も含んだ
キーワードを用いて検索する方法が記載されている。図
17に、この方式の概要を示す。ユーザがキーワードを
入力すると、検索システムは、意味類似語辞書を参照
し、入力されたキーワードと同じ意味のキーワードを
(類義語)求める。続いて、入力されたキーワード、お
よび、拡張された類義語キーワードをキーとして、デー
タベースを検索する。この従来の技術によれば、図18
に示すように、キーワードが正しい表記(オレンジ)で
入力されれば、キーワードと類似した意味のキーワード
(みかん)が拡張され、拡張されたキーワードも含んだ
検索結果を得ることができる。
【0004】
【発明が解決しようとする課題】一般に、ユーザは、キ
ーワードを正確に表現できるとは限らないこと、また、
手書き入力、音声入力等の場合、認識を正確に行うこと
が容易ではないため、上述したような表記上野相違が生
じ易い。このような場合に、キーワードの表記を厳密に
要求したのでは、使い勝っての点で、好ましくない。
【0005】同様に、ユーザは、その意図することを正
確なキーワードで表現できるとは限らない。関連性のあ
る他の用語を表現を用いてキーワードを入力することが
あり得る。この場合にも、入力されたキーワードのみに
こだわって、検索結果を出力すると、上述したように、
ユーザの意図を必ずしも反映していないデータを索出す
ることとなる。
【0006】しかし、この従来の技術では、意味が類似
したキーワードの類似度には着目していないため、キー
ワードを拡張してたくさん得られた検索結果のうち、ど
の結果がユーザの意図に近い重要な結果なのかがわから
ないという問題がある。また、この従来例では、入力さ
れたキーワードの表記の変動については考慮されていな
いため、図19のように、もし、表記に一部でも誤りが
あるキーワード(オレンヂ)が入力されると、類似した
意味のキーワード(みかん)を拡張することもできず、
誤ったキーワード(オレンヂ)をキーにしてデータベー
スを検索するため、必要な検索結果が得られないという
問題があった。
【0007】本発明は、上記問題を解決するものであ
り、思いついたキーワードや条件を入力すれば、キーワ
ードの表記や条件がぴったり一致しなくても、その表記
や条件に近いデータを検索し、条件に合った順、すなわ
ち、優先度を付してデータを表示することができるデー
タ検索支援システム、および、データ検索システムを提
供することを目的とする。
【0008】
【課題を解決するための手段】前記目的を達成するた
め、本発明の第1の態様によれば、キーワードを用いて
データベースにアクセスして目的のデータを検索するデ
ータ検索支援システムにおいて、キーワードを入力する
ための入力装置と、入力されたキーワードをキーとし
て、対応するデータを検索するための情報処理装置と、
検索結果を出力するための出力装置とを備え、情報処理
装置は、与えられたキーワードに対して、表記差のある
対応キーワードの検索を行う際に参照する第1の検索支
援情報蓄積部と、与えられたキーワードに対して、予め
関連付けられた対応するキーワードの検索を行う際に参
照される第2の検索支援情報蓄積部と、与えられたキー
ワードについて、前記第1の検索支援情報蓄積部を参照
して、対応キーワードを含むデータを検索すると共に、
その対応キーワードについての前記入力されたキーワー
ドからの表記差を示す情報を求める第1の検索支援処理
手段と、与えられたキーワードについて、前記第2の検
索支援情報蓄積部を参照して、関連のある対応キーワー
ドを含むデータを検索すると共に、および、その関連の
度合いを示す情報を求める第2の検索支援処理手段と、
前記第1の検索支援処理手段によって得られた対応キー
ワード、および、入力されたキーワードに対する表記差
を示す情報と、前記第2の検索支援処理手段によって得
られた対応キーワード、および、入力されたキーワード
に対する関連の度合いを示す情報とを用いて、予め定め
た評価基準にしたがって、索出されたデータの優先順位
を決定して、索出したデータを優先順位と共に出力する
評価処理手段とを備えることを特徴とするデータ検索支
援システムが提供される。
【0009】本発明の第2の態様によれば、データを蓄
積するデータベースと、キーワードを用いて該データベ
ースにアクセスして目的のデータを検索するデータ検索
支援システムとを備えるデータ検索システムにおいて、
前記データ検索支援システムは、キーワードを入力する
ための入力装置と、入力されたキーワードをキーとし
て、対応するデータを検索するための情報処理装置と、
検索結果を出力するための出力装置とを備え、情報処理
装置は、与えられたキーワードに対して、表記差のある
対応キーワードの検索を行う際に参照する第1の検索支
援情報蓄積部と、与えられたキーワードに対して、予め
関連付けられた対応するキーワードの検索を行う際に参
照される第2の検索支援情報蓄積部と、与えられたキー
ワードについて、前記第1の検索支援情報蓄積部を参照
して、対応キーワードを含むデータを検索すると共に、
その対応キーワードについての前記入力されたキーワー
ドからの表記差を示す情報を求める第1の検索支援処理
手段と、与えられたキーワードについて、前記第2の検
索支援情報蓄積部を参照して、関連のある対応キーワー
ドを含むデータを検索すると共に、および、その関連の
度合いを示す情報を求める第2の検索支援処理手段と、
前記第1の検索支援処理手段によって得られた対応キー
ワード、および、入力されたキーワードに対する表記差
を示す情報と、前記第2の検索支援処理手段によって得
られた対応キーワード、および、入力されたキーワード
に対する関連の度合いを示す情報とを用いて、予め定め
た評価基準にしたがって、索出されたデータの優先順位
を決定して、索出したデータを優先順位と共に出力する
評価処理手段とを備えることを特徴とするデータ検索シ
ステムが提供される。
【0010】第3の態様によれば、キーワードを入力す
る手段と、入力されたキーワードを含んだデータを検索
する手段と、検索結果を表示する手段を備えたデータベ
ース検索装置において、キーワードと表記が類似したデ
ータを検索し、キーワードと求めたデータの表記の類似
度を求める、類似表記データ検索手段と、キーワードと
表記および意味が類似したデータを検索し、キーワード
と求めたデータの表記の類似度を求める、類似表記・意
味データ検索手段、および、表記と意味の類似度を総合
評価し、検索したデータの優先度を決定する、総合評価
手段を備えたことを特徴とするデータ検索システムが提
供される。
【0011】また、本発明の第4の態様によれば、キー
ワードを入力すると、入力されたキーワードを含んだデ
ータを検索し、検索結果を表示するデータベース検索方
法において、キーワードと表記が類似したデータを検索
し、キーワードと求めたデータの表記の類似度、およ
び、キーワードと表記および意味が類似したデータを検
索し、キーワードと求めたデータの表記の類似度を求
め、表記と意味の類似度を総合評価し、検索したデータ
の優先度を決定し、優先度に従って検索結果を表示する
ことを特徴とするデータ検索方法が提供される。
【0012】
【発明の実施の形態】本発明の実施の形態について、図
面を参照して説明する。
【0013】まず、本発明のデータ検索システムの概要
について、図1、図2および図3を参照して説明する。
【0014】本発明によるデータ検索システムの機能の
概要を、図2に示す。本発明のデータ検索システムは、
データを蓄積しているデータベース200と、キーワー
ドを用いて該データベース200にアクセスして目的の
データを検索するデータ検索支援システム100とを備
える。データ検索支援システム100は、 キーワードの入力を受け付けて、 キーワードと表記が類似したデータを検索し、キーワ
ードと求めたデータの表記の類似度を求める、類似表記
データ検索(第1の検索支援処理手段)と、 意味類似語辞書を参照して、キーワードと表記および
意味が類似した対応語を抽出し、これによりデータを検
索し、キーワードと求めたデータの表記の類似度を求め
る、類似表記・意味データ検索(第2の検索支援処理手
段)と、 表記と意味の類似度を総合評価し、検索したデータの
優先度を決定する、総合評価(評価処理手段)とを行っ
て、 得られた結果を出力する。
【0015】ここで、類似表記データ検索と類似表記・
意味データ検索とは、得られた対応語について、さら
に、同じ操作を繰返して、より多くの候補を挙げるよう
にすることもできる。
【0016】本発明のデータ検索システムは、例えば、
図3に示すように、情報処理装置本体110と、入力装
置120と、出力装置130と、記憶装置210とを有
するハードウエアシステム構成を有するコンピュータシ
ステムを用いて実現される。
【0017】情報処理装置本体110は、中央処理装置
(CPU)110と、主記憶装置として機能するRAM
112と、システムで用いられる一部のプログラムおよ
び固定データを格納するROM113と、入力装置12
0を制御する入力装置コントローラ114と、出力装置
130を制御する出力装置コントローラ115と、外部
の記憶装置210とのデータ転送を制御するインタフェ
ース116とを備えている。
【0018】入力装置120は、外部から、指示、デー
タ等の入力を行なうための装置であって、例えば、キー
ボード、マウス、タッチパネル等で構成される。
【0019】出力装置130は、検索結果を外部に出力
するための装置である。例えば、表示装置、印刷装置等
で構成される。
【0020】記憶装置210は、例えば、ハードディス
ク装置で構成される。この記憶装置210には、前記C
PU110が実行するプログラム、検索に際して参照さ
れる各種支援情報、および、データベース200を構成
するデータが記憶される。なお、前記CPU110が実
行するプログラムを記憶する記憶装置と、データベース
200を構成するデータを蓄積する記憶装置とを、別の
装置で構成してもよい。この場合、各種支援情報は、プ
ログラムを記憶する記憶装置と、データベースを構成す
る記憶装置の一方または双方に格納される。なお、後述
するように、データベースが離れて存在する場合には、
データ検索時には、データ検索支援システム側に格納し
ておくことがよい。
【0021】また、データベース200は、それ自体を
別のコンピュータシステムによって構成してもよい。こ
の場合、例えば、LAN等の通信手段を介して、データ
検索支援システム100と、データベース200とを接
続するようにしてもよい。もちろん、小規模のデータベ
ースであれば、内蔵ハードディスク装置、ROM等によ
って構成してもよい。
【0022】本発明で用いられるプログラムは、可搬型
の記憶媒体等に記憶されて、システムに提供することが
できる。例えば、プログラムを記録したCD−ROMか
ら、再生装置を介して、プログラムをインストールする
ことができる。もちろん、通信手段を介して、プログラ
ムのインストールを行うことも可能である。
【0023】本発明で用いられる各種検索支援情報は、
予め作成しておき、データベースに格納しておく。もち
ろん、データ検索支援システムにより、必要に応じて、
それぞれ作製すると共に、更新を行って、これを保存す
るようにしてもよい。この場合には、各種検索支援情報
を格納するためのデータ構造の定義が予め提供される。
例えば、データ検索支援システムのプログラムと共に提
供することができる。
【0024】次に、図1を参照して、本発明のデータ検
索システムの機能構成について説明する。
【0025】図1では、データベース200(a2)と、
CPU110が実行する機能、検索支援システム100
において用いられる各種支援情報、および、検索結果と
して蓄積される情報との関係を示す。すなわち、本装置
では、検索に用いられる各機能部を統括する制御統轄部
a1、検索対象となるデータベースa2、ユーザが入力する
キーワードを取得する入力部a6、表記が類似したデータ
の検索に用いる表記インデックスa8、入力されたキーワ
ードと、表記が類似したデータの検索結果を記憶するた
めに用いる類似表記検索結果記憶テーブルa10-1、表記
が類似したデータを検索する類似表記データ検索部a3、
入力されたキーワードと、意味が類似したデータを検索
する類似意味データ検索部a4、キーワードの意味の類似
度を記載した類似意味辞書a9、意味・表記が類似したデ
ータの検索結果を記憶するために用いる類似表記検索結
果記憶テーブルa10-2、検索結果の表記、および、意味
の総合類似度をもとめ、検索結果の優先順位を決定する
総合優先順決定部a5、前記、検索結果の総合順位を記憶
しておく総合順位記憶テーブルa10-3、総合順位記憶テ
ーブルa10-3の順位に従って検索結果を表示する出力部a
7を有する。
【0026】ここで、表記が類似したデータの検索に用
いる表記インデックスa8は、与えられたキーワードに対
して、表記差のある対応語の索出を行う際に参照する第
1の検索支援情報蓄積部として機能する。また、キーワ
ードの意味の類似度を記載した類似意味辞書a9は、与え
られたキーワードに対して、予め関連付けられた対応語
の索出を行う際に参照される第2の検索支援情報蓄積部
として機能する。
【0027】次に、図4を用いて、本発明の一実施例で
ある「データベース検索装置」の動作を説明する。この
動作フローは、図1の制御統轄部a1の処理手順を表して
いる。
【0028】まず、入力部a6により、ユーザが入力する
キーワードを取得する(f1)。次に、類似表記データ検索
部a3、表記インデックスa8を用いて、データベースa2の
データのうち、入力されたキーワードと表記の一部に相
違がある対応語を含む表記類似データの検索と、その類
似度(表記差)を求め、類似表記検索結果記憶テーブル
a10-1に記憶する(f2)。次に、類似意味・表記データ検
索部a4、意味データベースa9、表記インデックスa8を用
いてデータベースa2を参照し、キーワードと関連のある
対応語を含む意味・表記が類似した意味類似データの検
索と、その関連する度合いを示す類似度(意味差・表記
差)を求め、類似意味・表記検索結果記憶テーブルa10-
2に記憶する(f3)。次に、総合優先順決定部a5、類似表
記検索結果記憶テーブルa10-1、類似意味・表記検索結
果記憶テーブルa10-2を用いて、入力キーワードと表記
・意味が類似したデータの評価を行って、総合順位を求
め、総合順位記憶テーブルa10-3に記憶する(f4)。総合
順位記憶テーブルa10-3の順位に基づき、表示部a7を用
いて検索結果を表示する。f2・f3の、インデックスa8の
使い方、類似度(表記差・意味差)の求め方、および、
f4の総合順位の求め方については、後述する。
【0029】本実施の形態では、前述のとおり、検索に
は、検索対象のデータベースa2以外に、第1の検索支援
情報として用いられる表記インデックスa8と、第2の検
索支援情報として意味類似語辞書a9を用いる。各データ
ベース(テーブル)の詳細について、図面を用いて説明
する。
【0030】図5は、データベースa2の一例を示す。複
数項目(商品名・等級・価格)のデータベースとなって
おり、各項目には、D1〜DnのようにNoがついている。こ
のような複数項目のデータベースは、一般的に用いられ
ているものである。各項目のNoは、それぞれのレコード
のポインタとして用いられる。したがって、各レコード
の格納アドレスであってもよい。
【0031】図7は、類似意味語辞書a9の概要を示す。
類似意味語辞書a9は、予め定義された関連性を持って類
似したキーワードの組と、これらのキーワード間の関連
の度合いを示す類似度(意味の差分)を記載したテーブ
ルである。これは、ユーザによって入力されたキーワー
ドと、類似した意味のキーワードを求めるために用い
る。ユーザが入力したキーワードのみでなく、類似した
意味のキーワードを自動的に生成することにより、キー
ワード付与者の違いによる、検索漏れを防ぐことが可能
となる。この辞書には、ユーザが、一部誤りなどのあい
まいなキーワードを入力した場合でも、後で述べる表記
インデックスa8を用いて、意味類似語辞書a9のテーブル
を容易に参照できるよう、リンク先を示すNo(I1〜In)
を付与してある。
【0032】一般に、意味の類似したキーワードとその
類似度を記したテーブルは、シソーラスなどと呼ばれ、
一般的に用いられているので、ここでは、意味類似語辞
書a9の作成方法は省略する。本発明で用いられる第2の
検索支援情報は、狭義の意味類似に限られない。キーワ
ードに関し予め定義された分類体系上での関連性を示す
情報、キーワードに関し予め定義された属性について、
キーワードおよび属性間の関連性を示す情報等がある。
分類体系としては、生物学的分類、製品規格上の分類、
商品の分類、地名分類等の種々の分類を用いることがで
きる。また、属性の例としては、名簿、商品に関する選
択肢等が挙げられる。
【0033】図6は、図5のデータベースa2の商品名、
および、意味類似語辞書a9を検索するための、表記イン
デックスa8の概要を示す。表記インデックスa8は、文字
列の一部分と、その部分文字列を含むデータベースa2の
データNo、部分文字列を含む類似意味語辞書a9のデータ
Noから成る。このように、キーワードの部分文字とその
部分文字を含むデータ、および、類似意味辞書のNoをテ
ーブル化しておく。各部分文字は、データベースに格納
されている検索の対象となるデータに含まれるキーワー
ドを、予め一定文字数(本例では、2文字)に分割して
生成される。分割された各部分文字には、それぞれが含
まれるキーワードに対応する、データベースa2のデータ
No、部分文字列を含む類似意味語辞書a9のデータNoをリ
ンクさせる。
【0034】このテーブルを用いることにより、ユーザ
が入力したキーワードに一部誤りがあっても、正しいデ
ータやキーワードを即座に参照することができる。例え
ば、図5のデータベースa2のNo.D2には、商品名「オレ
ンジ」が記載されている。しかし、ユーザは、キーワー
ドを「オレンヂ」と、異なる表記で入力するかもしれな
い。このように、データベースの表記と一部異なる表記
で入力された場合にも対応できるように、ここでは、文
字遷移分解検索方式により検索する。
【0035】次に、この文字遷移分解検索方式による、
あいまいな入力をキーにした検索方法について説明す
る。
【0036】文字遷移分解検索方式では、まず、入力さ
れたキーワード「オレンヂ」を2文字の組「オレ」、
「レン」および「ンヂ」に分解する。図6に示す表記イ
ンデックスa3-3には、文字コード順に並べられた、2文
字の組のインデックスと、その文字組を含むデータベー
スのNoが記してある。そこで、図6の表記インデックス
a3-3を参照すると、「オレ」および「レン」は、図5に
示すデータベースNo.D2の「オレンジ」(「D2,オレン
ジ,秀,300円」)の部分文字列であることが分か
る。このように、キーワードを2文字の組分解して、分
解した文字単位に辞書を参照することにより、ユーザが
入力したキーワードが、データベースa2や、意味類似語
辞書a8の表記と一部異なっても、必要な情報を検索する
ことが可能である。また、一致した文字の数などから、
表記の類似度(表記差)も求めることが出来る。表記差
の求め方については、後述する。
【0037】表記インデックスa8は、インデックス作成
ツールが、データベースa2の商品名、および、意味類似
語辞書a8のキーワードを読みだし、キーワードに含まれ
る2文字の組と、その文字を含むデータ、および、辞書
のNo.を記憶することにより、作成する。
【0038】次に、表記、および、表記・意味の類似し
たデータと類似度の求め方を説明する。
【0039】図8に、入力されたキーワードから、キー
ワードと類似した表記のデータ、および、類似した表記
・意味のデータが検索される過程を示す。まず、キーワ
ード「オレンヂ」が入力される。すると、文字遷移分解
検索方式により、キーワード「オレンヂ」と、表記のみ
が一部分異なる、データベースデータ「D2,オレンジ,
秀,300円」が検索され、類似度(表記差1-1)=1
0が求められる。文字遷移分解検索方式は、前述のとお
りである。
【0040】表記が一部異なるデータを求めた後、今度
は、意味が類似したデータを検索する。まず、キーワー
ド「オレンヂ」と表記が類似した類似意味辞書a8の意味
データを、文字遷移分解検索方式により検索すると、類
似意味辞書a8のNo.I1の「オレンジ」がヒットする。こ
の検索段階で、表記に差があり、表記差1-2=10が発
生する。続いて、類似意味辞書a8のNo.I1から、「オレ
ンジ」は、「みかん」と類似した意味の言葉で、類似度
(意味差)が20であることがわかる。次に、キーワー
ド「オレンヂ」と意味が類似したキーワードとして求め
られた、キーワード「みかん」をキーとして、データベ
ースa2を検索する。前述の、文字遷移分解検索方式を用
いて、表記が類似したデータとその類似度(表記差)を
求める。図の例では、「D4,温州みかん,秀,180円」
が表記差=6で、「D5,みかん,優,100円」が表記差
=0でヒットした。
【0041】図8には図示しないが、これらの類似度
(表記差・意味差)を用いて、検索されたデータの総合
類似度を求める。次に、類似度(表記差)の計算方法
と、表記・意味の総合類似度の計算方法を述べる。
【0042】まず、図14を用いて、表記差の計算方法
を述べる。一般に、文字列1と文字列2は、それらの文
字列が含む文字の並びや数が、一致しているほど似てい
る。そこで、表記差は、例えば、文字列1(キーワー
ド)にはあるのに、文字列2(データ)にはない文字が
N個あったら、10×N点、文字列1(キーワード)に
はないのに、文字列2(データ)にはある文字がN個あ
ったら、3×N点と計算することができる。ここで、係
数である10および3は、それぞれ重みである。(キー
ワード)にはあるのに、文字列2(データ)にはない文
字がN個ある場合と、文字列1(キーワード)にはない
のに、文字列2(データ)にはある文字がN個ある場合
で、表記差の重みを変えたのは、一般に、検索のための
キーワードは、入力操作を簡単にするため、短い文字列
で入力される傾向があるからである。前記、表記差の計
算方法は、一例であり、他の方法で求めてもかまわな
い。
【0043】次に、図16と図8を用いて、表記と意味
の総合的な類似度(表記・意味差)の計算方法を説明す
る。例えば、図8の検索結果の1つである、「D2,オレ
ンジ,秀,300円」は、入力されたキーワードと、表
記の変動のみ考慮して得られた結果である。それに対し
て、図8の検索結果である、「D4,温州みかん,秀,18
0円」や、「D5,みかん,優,100円」は、入力されたキ
ーワードとの表記の変動に加えて、意味の変動も考慮し
ている。表記の変動と意味の変動の両方を考慮するに
は、例えば、表記差と意味差に適当な重みをかけて加え
ればよい。
【0044】図16に、表記の差と意味の差を総合的に
考慮した、総合類似度の定義の例を示す。例えば、[キ
ーワードと表記差のみある場合]には、総合類似度(表
記・意味差)は、キーワードとデータベースの表記差1
に重みαをかけた値と定義する。また、[キーワードと
表記差のみある場合]には、総合類似度(表記・意味
差)は、キーワードと類似意味辞書の表記差1に重みα
をかけた値と、類似意味辞書によりキーワードを変換し
たときに生じた意味差1に重みβをかけた値と、意味の
変換をして得られたキーワードとデータベースの表記差
2に重みγをかけた値の和と定義すれば、表記と意味の
総合的な類似度が算出され、総合類似度の大小を比較す
ることにより、ユーザの意図に近いデータとその順位が
求められる。
【0045】次に、図8〜図11を用いて、検索結果の
記憶に用いるテーブルについて説明する。検索結果の記
憶には、検索結果記憶テーブルa10-1(図9)、類似意
味検索結果記憶テーブルa10-2(図10)、および、総
合順位記憶テーブルa10-3(図11)を用いる。
【0046】図9は、類似表記検索結果記憶テーブルa1
0-1の概要を示す。類似表記検索結果記憶テーブルa10-1
は、図8の検索結果「D2,オレンジ,秀,300円」の
ように、入力されたキーワードと、表記の変動のみ考慮
して得られた結果を記憶するのに用いる。テーブルの要
素は、テーブルNo.、検索によってヒットしたデータベ
ースNo.、データベースデータ、評価値(総合類似度)
から成る。なお、検索によってヒットしたデータベース
データは、データベースNo.とデータベースa2があれば
求まるので、テーブル要素から除いてもかまわない。
【0047】図10は、類似意味検索結果記憶テーブル
a10-2の概要を示す。類似意味検索結果記憶テーブルa10
-2は、図8の検索結果「D4,温州みかん,秀,180円」
や、「D5,みかん,優,100円」のように、入力された
キーワードとの表記に加えて、意味の変動(関連性)も
考慮して得られた結果を記憶するのに用いる。テーブル
の要素は、テーブルNo.、検索によってヒットした類似
意味辞書No.、意味データ、データベースNo.、データベ
ースデータ、評価値(総合類似度)から成る。図9の類
似表記検索結果記憶テーブルa10-1と同様の理由から、
意味データとデータベースデータの項目は、テーブル要
素から除いてもかまわない。
【0048】図11は、総合順位記憶テーブルa10-3の
概要を示す。総合順位記憶テーブルa10-3は、検索結果
を表記と意味の総合類似度順に並べて記憶するのに用い
る。図9の類似表記検索結果記憶テーブルa10-1と、図
10の類似意味検索結果記憶テーブルa10-2を参照し、
類似度の高い順にデータベースデータの情報を記憶す
る。テーブルの要素は、テーブルNo.、検索によってヒ
ットしたデータベースNo.、データベースデータ、評価
値(総合類似度)から成る。この総合順位記憶テーブル
a10-3を参照して、出力部が検索結果を表示する。
【0049】以上により、キーワードの表記や意味に変
動があっても、必要とするデータベースを検索すること
が可能となる。あいまいなキーワードからも、ユーザが
希望するデータを検索することができるため、操作性が
向上する。もちろん、キーワードが正確に入力されてい
る場合には、表記差0で検索される。
【0050】次に、本発明の実施の態様に係るデータ検
索システムの動作概要について、図3、図12、図13
および図15を参照して説明する。
【0051】図12は、検索キーワード入力画面の例で
ある。キーワードを「オレンヂ」と入力している。図1
3が、キーワードを「オレンヂ」に対する、本発明によ
る検索結果の例である。1位の結果は、「オレンジ」で
あり、表記「ヂ」と「ジ」の変動があるが、このような
場合でも、表記の変動を考慮して、類似した結果を出力
している。また、2位、3位の結果は、「みかん」、
「温州みかん」であり、表記のほかに、意味の変動も考
慮した結果となっている。また、検索結果は、このよう
な変動の大きさも考慮し、しかも、入力されたキーワー
ドに、表記上および意味上に、類似したものから表示し
て、ユーザの希望に近いデータを見つけやすいように表
示する。
【0052】図15において、キーワード入力装置12
0より、(表記が一部部異なる)キーワード「オレン
ヂ」が入力される(e1)。すると、情報処理装置本体11
0は、第1の検索支援処理を実行する。すなわち、類似
表記データベース検索部として機能し、入力されたキー
ワードと表記が近いデータ「オレンジ,秀,300円」
と、その類似度(表記差=1)を求める(e2)。入力され
たキーワードと表記が(完全一致でなくても)近いデー
タを検索する方法、および、類似度の求め方は、前述し
た通りである。
【0053】次に、情報処理装置本体110は、第2の
検索支援処理を実行する。すなわち、類似表記・意味デ
ータベース検索部として機能して、意味類似語辞書a4
の中から、入力されたキーワード「オレンヂ」と表記の
類似している項目「オレンジ,みかん,意味差=1」を
検索する。この際には、入力されたキーワード「オレン
ヂ」と、ヒットした項目「オレンジ」の表記差(表記差
=1)も求め、記憶しておく。また、検索された項目よ
り、入力されたキーワード「オレンヂ」と表記が類似し
たキーワード「オレンジ」と、「オレンジ」と意味の近
い「みかん」の意味差(意味差=1)が分かるので、や
はり、記憶しておく(e3)。ここで得られた、表記・意味
の類似した語「みかん」をキーとして、表記の類似した
データを検索する。すると、「温州みかん,秀,180
円」が(表記差=2)で、「みかん,優,150円」が
(表記差=0)で見つかる(e4)。
【0054】次に、情報処理装置本体110は、評価処
理を実行する。すなわち、総合優先順決定部として機能
し、最初に、類似表記データベース検索により求められ
たデータ「オレンジ,秀,300円」と、後から、類似
表記・意味データベース検索により求められたデータ
「温州みかん,秀,180円」、「みかん,優,150
円」の総合順位を決定する。総合順位は、ユーザの入力
したキーワードに近い結果ほど上位とするために、前述
の表記差、および、意味差を用いて、総合的に評価す
る。この例では、最初に、入力されたキーワードと、表
記が類似したデータ「オレンジ,秀,300円」の類似
度は、α×(表記差=1)と評価している。後から、類
似表記・意味データベース検索により求められたデータ
は、表記差と意味差を考慮する。「温州みかん,秀,1
80円」の類似度はα×(表記差=1)+β×(意味差
=1)+γ×(表記差=2)、「みかん,優,150
円」の類似度はα×(表記差=1)+β×(意味差=
1)+γ×(表記差=0)と評価している(e5)。そし
て、前記、類似度の高い順に、検索結果を出力する。こ
の例では、入力されたキーワード「オレンヂ」と表記が
1文字のみ異なる「オレンジ,秀,300円」が1位、
意味が少し異なる「みかん,優,150円」が2位、意
味と表記が少しずつ異なる「温州みかん,秀,180
円」が3位の結果として表示される(e6)。
【0055】この例からも分かるように、本発明によれ
ば、あいまいなキーワードを入力するのみで、表記・意
味が近いデータを、表記・意味の総合的な類似度が高い
順に表示するため、ユーザは、ユーザの意図に近いデー
タを素早く見つけることが可能である。
【0056】以上の例は、表記差のあるキーワードの検
索の際に、予めキーワードを構成する文字を複数文字単
位に、分割して、それぞれの文字の組み毎に、対応する
キーワードをリンクさせて、検索する構成となってい
る。本発明は、これに限定されるものではない。例え
ば、キーワードを文字単位に分解すると共に、それぞれ
の文字の次に特定の文字が配置される確率(文字遷移確
率)を予め求めておき、あるキーワードを構成する各文
字についての文字遷移確率を求めて、対応するキーワー
ドを決定することができる。
【0057】次に、文字遷移確率を用いて、表記差のあ
るキーワードの検索を行う例について説明する。ここで
は、一部が正しくない可能性のある住所に関する入力キ
ーワードから正しい住所を特定する場合を例とする。も
ちろん、これに限られないことは言うまでもない。
【0058】本実施の形態によれば、表記の類似度と意
味の類似度の両方を、総合的に考慮した検索が可能なた
め、表記が1部異なるキーワードが入力された場合で
も、入力されたキーワードと表記が近いデータを求め、
類似度の順に表示することができる。従って、ユーザ
は、思いついたキーワードを入力するのみで、意図にあ
ったデータを即座に得ることが可能となり、操作性が向
上する。例えば、キーワードを「オレンヂ」と入力した
場合には、「オレンジ」「みかん」「温州みかん」な
ど、表記や意味がぴったり一致しなくても、ユーザの意
図に近いものから、表示するシステムを提供することが
できる。
【0059】本例は、文字入力手段より入力された文字
パターンを文字認識手段により認識する際に、文字認識
により得られた候補文字を、文字遷移確率テーブルを利
用して候補順位を最適化するとともに、最適化した文字
列に該当する単語辞書中の候補単語へのポインタを求め
るシステムにおいて用いられる。このシステムでは、さ
らに、前記方法により求めた候補文字列とポインタを使
って参照した候補単語と照合し、該当する単語を決定す
ることが出来る。さらには、その単語の前後の文字列ま
で推測して表示することも可能である。
【0060】ここで、本発明のシステムでは、文字認識
の後処理に使用する遷移確率テーブルに文字遷移を含む
単語へのポインタを設けることにより、単語辞書に高速
にアクセスすることが可能である。また、本発明によれ
ば、階層データであっても、上位・下位に関係なく、該
当する単語に直接、高速にアクセスすることができる。
【0061】まず、遷移確率テーブルの作成方法につい
て説明する。
【0062】図20には、本発明の一実施例である「手
書き入力住所認識装置」に用いる、単語辞書へのポイン
タのついた文字遷移確率テーブルを作成する装置の機能
ブロックを示す。
【0063】まず、学習用の単語辞書p6(図21参照)
を読み出す(q1)。読み出した単語について、単語中に
含まれる文字の出現回数をカウントし(q2)、出現回数
テーブル(q3)に記録する。続いて、文字遷移回数をカ
ウントし(q4)、遷移回数テーブル(q6)に記録する。
続いて、遷移回数テーブル(q6)に、文字遷移が含まれ
た元の単語の単語No.(単語のポインタ)を記録する(q
5)。例えば、単語「大みか」の例では、文字の出現回
数は、「大」「み」「か」それぞれ1回、文字遷移回数
では「大→み」と「み→か」がそれぞれ1回とカウント
される。また、「大→み」と「み→か」の候補単語No.
には、単語「大みか」の単語No. が記録される。このよ
うな処理q1〜q6を、単語辞書p6中の全ての単語について
繰り返し行う。その後、前記処理により作成した文字出
現回数テーブルq3と文字遷移回数テーブルq6を参照し
て、文字間の遷移確率と文字遷移を含む候補単語No.の
情報を記述した遷移確率テーブルp4を作成する(q9)。
さらに、必要があれば、文字出現回数テーブルq3を参照
して、文字毎の出現確率を記述した文字出現確率テーブ
ルq8を作成する(q7)。
【0064】それぞれのテーブルの構成については、以
下図面を用いて説明する。
【0065】図21は、単語辞書p6の例として、住所の
単語辞書を示す。この辞書は、都道府県・市町村・それ
以下で階層化された構造になっており、各要素は、単語
No.(単語の位置情報)、上位単語No.、単語(文字列)
からなる。各単語にアクセスするには、単語No.により
アクセスできる。また、単語の階層関係は、上位単語N
o.によって分かる。
【0066】図22は、文字出現回数テーブルq3の例を
示す。文字出現回数テーブルq3には、学習用単語辞書中
に各文字が現れた回数と、学習用単語中の全文字数をカ
ウントするのに用いる。
【0067】図23は、文字遷移回数テーブルq6の例を
示す。文字遷移回数テーブルq6は、学習用単語辞書中に
各文字遷移が現れた回数と、文字遷移が含まれていた単
語のNo.(候補単語No.)を記録するのに用いる。
【0068】図24は、文字出現確率テーブルq8の例を
示す。例えば、文字「日」の出現確率は、 出現確率(日)=出現回数(日)/全文字数 で表せる。従って、文字出現確率テーブルq8を作成する
には、文字出現回数テーブルq3を参照し、各文字の出現
回数を求め、文字出現確率テーブルq8に記録すればよ
い。
【0069】図25は、文字間の遷移確率テーブルp4の
例を示す。例えば、文字遷移「日→立」の遷移確率は、 遷移確率(日→立)=遷移回数(日→立)/出現回数
(日) で表せる。従って、文字遷移確率テーブルp4を作成する
には、文字出現回数テーブルq3と文字遷移回数テーブル
q6を参照して、各文字の遷移確率を求め、文字遷移確率
テーブルp4に記録すればよい。
【0070】以上の処理により、単語辞書の単語へのポ
インタのついた遷移確率テーブルp4を作成することがで
きる。
【0071】次に、遷移確率による後処理(候補文字の
最適化と候補単語のポインタの決定)方法について、説
明する。
【0072】図26は、遷移確率による後処理(候補文
字の最適化と候補単語のポインタの決定)方法p5の概要
を示す。図のように、入力パターン「大みか」の候補文
字が、第一候補「大るか」・第二候補「犬みカ」である
とする。候補文字の組み合わせは、図に示す8通りが考
えられる。これら文字列の組について、文字遷移確率テ
ーブルを参照して、文字列の出現確率と単語辞書中の単
語候補の単語のポインタを求める。文字列の出現確率が
高い候補文字の組合せが、最適な組み合わせ(パス)で
ある。従って、その文字組を候補単語No.と共に遷移確
率後処理の結果とする。
【0073】まず、文字列の出現確率の計算方法につい
て述べる。
【0074】一般に、文字列S1 S2 ・・・Snの出現確率
は、 出現確率(S1 S2 ・・・Sn)=遷移確率(Null→S1)×
遷移確率(S1→S2)×・・・×遷移確率(Sn-1→Sn)×
遷移確率(Sn→Null) と近似できる。
【0075】なお、他の文字列の出現確率近似方法で出
現確率(S1 S2 ・・・Sn)=出現確率(S1)×遷移確率
(S1→S2)×・・・×遷移確率(Sn-1→Sn) と近似する方法もある。ここでは前者で例示するが、後
者でもよい。
【0076】図26の候補文字の組み合わせNo.3の「大
みか」の例では、文字遷移に分解すると、「Null→大」
「大→み」「み→か」「か→Null」と分けられ、 出現確率(大みか)=遷移確率(Null→大)×遷移確率
(大→み)×遷移確率(み→か)×遷移確率(か→Nul
l) と表せる。遷移確率テーブルより、出現確率(大みか)
は、=(7/267)×(1/18)×(2/15)×
(2/198)=1962×10−7% と計算できる。
【0077】次に、候補単語No.(単語辞書中の単語候
補のポインタ)を求める方法について述べる。
【0078】文字列S1 S2 ・・・Snの候補単語No.は、 候補単語No.(S1 S2 ・・・Sn)=候補単語No.(Null→
S1)∩候補単語No.(S1→S2)∩・・・∩候補単語No.
(Sn-1→Sn)∩候補単語No.(Sn→Null) と求めることができる。図の例、文字列「大みか」の場
合、 候補単語No.(大みか)=候補単語No.(Null→大)∩候
補単語No.(大→み)∩候補単語No.(み→か)∩候補単
語No.(か→Null) となり、文字遷移確率テーブルより、 =(A11 , A23 , S3 , T41 )∩(A11)∩(A11 , A1
2)∩(A11 , Q72)=A11 と求められる。
【0079】以上の方法により、文字認識により得られ
た候補文字を文字列としての出現確率が高くなるように
最適化し、最適化した候補文字列の候補単語No.(単語
へのポインタ)を求めることができる。すなわち、不完
全な入力キーワードに対してそれらを構成する各文字の
出現確率を考慮して、ただしキーワードを求めることが
できる。これは、表記差の異なるキーワードを求める処
理に適用することができる。
【0080】次に、前述したデータ検索システムにおい
て、第2の検索支援情報として、多項目のデータベース
に、項目の属性など、各項目の検索方法に関する単純な
情報を付加することによって、曖昧検索を可能にした実
施の形態について説明する。
【0081】この実施の形態では、ユーザは、多項目デ
ータの各項目について、(1)検索する/しない、(2)項目
間の優先順位、(3)項目の属性を指示する。これによ
り、データ検索システムは、曖昧検索用の文字遷移イン
デックスデータを自動で作成し、文字列の一部誤りや、
属性に基づく意味の曖昧(例:色:青→水色、紺、モ
ノ:オレンジ→ネーブルオレンジ、みかん)を許した検
索を行う。本実施の形態について、[1]シソーラス等
の類似テーブルを用いた曖昧検索、[2]画像データな
どの非テキストデータ(検索対象外データ)を含む多項
目データの曖昧検索、[3]文字遷移−単語インデック
スによる曖昧検索の三つの態様で示す。
【0082】まず、シソーラスを用いた曖昧検索につい
て説明する。
【0083】本実施の態様では、データの属性毎の類似
テーブルを持つことにより、属性に基づく意味の曖昧
(例:色:青→水色、紺、モノ:オレンジ→ネーブルオ
レンジ、みかん)を許した検索を行うことができる。
【0084】図27に、本実施の形態における第1の態
様の機能構成図を示す。動作を簡単に説明する。
【0085】タブレットS001より、手書きのストローク
が入力される。すると、前記ストロークは、文字認識部
S002で、文字認識辞書S003との比較により文字認識さ
れ、候補文字を得る。前記候補文字(複数文字分)は、
認識結果最適化&データ推測部S004で、2文字の組(文
字遷移)に分解される。各文字遷移は、文字遷移インデ
ックス作成ツールで予め作成した文字遷移インデックス
S005と照合され、登録されていれば、候補の文字遷移と
なる。特定の文字遷移を含むデータのアドレスは、文字
遷移インデックスに記載されており、即座に多項目デー
タベースS006にアクセスすることができる。以上の処理
で、候補文字列は、文字遷移に分解され、文字遷移の単
位でインデックスを引くため、タブレットS001より入力
された文字列や文字認識S002の結果に一部誤りがあって
も、多項目のデータを検索可能である。
【0086】さらに、入力されたデータに意味的に近い
データを求めるために、多項目のデータのうちヒットし
たものが、類似データ推測部S007に転送される。ヒット
したデータの各項目のデータは、属性定義テーブルの定
義のとおり、項目の属性に合った類似テーブルと比較さ
れ、ヒットしたデータに類似したデータが求められる。
類似したデータは、再び、データ推測部S004に転送さ
れ、類似データを含む多項目データベースS006のデータ
に即座にアクセスすることができる。
【0087】以上により、タブレットS001より入力され
た文字列を含むデータと、そのデータに意味的に近いデ
ータを検索することができた。次に、求められたデータ
の優先度を、データベース優先定義部S011の定義に従っ
て求める。そして、検索結果表示範囲定義部S012の定義
に従い、求められたデータのうち、優先度の高いものか
ら順に、段階的にLCD等の表示装置S013に表示する。
曖昧さを許した検索では、検索にヒットするデータの数
が多くなるが、このように優先度の高いものから段階的
に表示することにより、ユーザは、検索結果から該当す
るものを選択しやすくなる効果がある。
【0088】以上が、シソーラスなどの類似度を表す類
似テーブルを用いて、意味的な曖昧さも許した汎用曖昧
検索の構成と、動作概要である。
【0089】次に、図27の構成図に記載されたテーブ
ルの概要について、図28(a)〜(i)を参照して説
明する。
【0090】図28(a)に示すS003は、文字認識の辞
書であり、例えば、文字パターンとその文字コードを対
応させて記憶してある。
【0091】図28(b)に示すS005は、文字遷移イン
デックステーブルである。文字遷移(2文字の組)と、
その文字遷移を含む多項目データベースのアドレスを対
にして記憶してある。これは、多項目データベースを検
索する際のインデックスとして用いられる。なお、イン
デックステーブルは、検索用インデックス作成ツールが
多項目データを2文字の組(文字遷移)等に分解し、自
動で作成する。
【0092】図28(c)に示すS006は、多項目データ
ベースの例である。この例では、No.1「商品名」、No.2
「サイズ」、No.3「価格」の3項目のデータがある。
【0093】図28(h)に示すS014は、検索対象指定
テーブルであり、多項目データベースS006の項目のう
ち、検索対象にするものを指定するためにある。このテ
ーブルを設けたのは、多項目データベース中に、画像デ
ータや音楽データなど、文字ベースの曖昧検索で対象に
したくないデータが含まれた場合に、検索したいもの
と、検索したくないものを明示するためである。この例
では、No.1「商品名」、No.2「サイズ」、No.3「価格」
の3項目全てを検索対象にしている。
【0094】図28(i)に示すS015は、属性定義テー
ブルである。本テーブルは、多項目データベースS006の
各項目のデータがどのような性質のデータなのかを明示
するものである。本曖昧検索では、この属性定義テーブ
ルに明示された属性から、属性にあった類似テーブルを
参照し、各項目のデータに、意味的に近いデータを求め
ることが出来る。
【0095】図28(d)に示すS008は、類似テーブル
の一例で、この例では、「サイズ」の類似度について表
現している。テーブルには、「サイズ」とその「基準
値」が対になって記載されている。この基準値の差が小
さいサイズ同志は似ていることを示している。
【0096】図28(e)に示すS009も、類似テーブル
の一例で、この例では、「商品名」の品物など、一般的
なモノに関する類似度を表現している。ここでは、一般
的なモノに関する類似度を表現した代表的なテーブルと
して、「シソーラス」を利用した。シソーラスは、図の
例のように、モノとそれに関連するモノを、上位階層と
下位階層に分けて示したものである。階層で繋がってお
り、階層間が近いものほど似ていることを表す。
【0097】前記S008、S009に属性が「サイズ」と「シ
ソーラス」の類似テーブルの例を示したが、類似テーブ
ルは、他に、属性「色」の類似性を示したものや、「明
暗」、「きめの細かさ」・・・など、あらゆる属性に関
するものが考えられる。
【0098】また、属性によっては、「数値」など、わ
ざわざ、テーブルを用意しなくても、明らかに類似性が
分かるものもある。このような属性については、類似テ
ーブルを設けなくてもよい。
【0099】図28(f)に示すS011は、データベース
優先順定義テーブルである。検索の結果、完全に一致し
たものはなく、例えば、あるデータは、「商品名」が一
致し、別のデータは、「サイズ」が一致した。このよう
な場合に、「商品名」が一致したデータと「サイズ」が
一致したデータのうち、どちらのデータを優先して表示
するか、といったことを定義しておくことにより、ユー
ザが必要とする情報に近いものを優先的に表示すること
が可能である。
【0100】曖昧さを許した検索を行うと、一般に多数
の候補が得られる。多数の候補を一度に表示すると、候
補を選択しにくくなる可能性がある。このような問題点
をなくすには、優先度の高い検索結果から、優先度の低
い検索結果へ、段階的に表示すればよい。
【0101】図28(g)に示すS012は、検索結果表示
範囲定義テーブルである。この例では、検索結果表示範
囲定義テーブルに、「表示段階」と、各段階で表示する
データは、入力とどの程度一致しているかを示す「一致
度」を対応付けて記載しておく。この例では、表示段階
を「一致度」で分けているが、他に、検索結果の「個
数」で分けたり、「相違度」などで分けても良い。
【0102】以上が、図28に示す、曖昧検索に用いる
テーブルの説明である。一般敵には、多項目データベー
スS006や、検索対象指定テーブルS014、データベース優
先順定義S011、属性定義テーブルS015はユーザが定義
し、類似テーブルS008、S009は、あらかじめ、システム
が用意しておく。シソーラスは、現在、一般に用いられ
ているものから、簡単に流用可能である。
【0103】次に、図29を用いて、曖昧検索の処理の
流れを説明する。
【0104】タブレットS001により手書き文字「オレン
ヂ」を入力する。すると、手書き文字を文字認識部S002
が文字認識し、認識結果の候補文字「第一候補:才レン
ヂ、第二候補:オしソチ」(S021)を得る。これらの候補
文字は、それぞれ2文字ずつ組み合わされ、S022のよう
な候補文字遷移を得る。これら候補文字遷移は、文字遷
移インデックスS005と比較され、文字遷移インデックス
に登録されていれば、その文字遷移を含むデータのアド
レスを取得する(S023)。図29の例では、「オ→レ」と
「レ→ン」が、双方とも003.1のインデックスとして登
録されている。「オ→レ」と「レ→ン」のように、同じ
003.1からのインデックスで、「レ」を挟んで繋がるよ
うなものは、組み合わせ、アドレス003を有力候補とす
る。
【0105】さて、多項目データベースS006のアドレス
003を参照すると、「オレンジ・L・180」というデータ
が即座に得られる。以上で、手書き入力文字「オレン
ヂ」に近いデータ「オレンジ・L・180」が得られた。
しかし、さらに、「オレンジ」と意味的に近いデータま
で探すことができる。属性定義テーブルS015を見ると、
「オレンヂ」がヒットした「オレンジ」(S003.1)、即ち
商品名は、シソーラス類似テーブル(S009)の属性を持
っていることがわかる。そこで、シソーラスの「オレン
ジ」の項目を見ると、「オレンジ」の上位概念は、「み
かん類」であると記載されている。そこで、さらに、シ
ソーラス(S009)の「みかん類」の項目を見ると、「み
かん類」の下位概念として、「オレンジ」の他に、「み
かん」が記載されている。そこで、「みかん」を候補文
字とし、前記、S002〜S024と同様の方法で、「みかん」
を含む多項目データベースS006のデータ001「みかん・
M・160」を得る。
【0106】さて、このようにして検索されたデータに
ついて、ヒットした文字の数・意味的近さなどから、手
書き入力文字との「一致度」を計算する(S025)。図29
の例では、003「オレンジ・L・180」は、入力文字は、
優先度が最も高い商品名と3文字が一致しており、3*10
00=3000点とする。001「みかん・M・160」は、商品名
の類似データとして検索されたため、500点とする。
【0107】表示は、表示範囲定義テーブルに、第一段
階は1000点以上、第二段階は500点以上と定義している
ため、まず、第一段階では、003「オレンジ・L・180
円」のみを表示する(S025)。もし、ユーザが希望して、
「更に検索」の指示を行うと、第二段階として、001
「みかん・M・160円」も表示する。
【0108】次に、画像データ付き多項目データの曖昧
検索について、説明する。特に、画像データなど、文字
ベースの検索で検索対象としないデータを含む、多項目
データベースの曖昧検索システムについて説明する。
【0109】図30(a)に、非テキストデータ(画像
データ)を含む多項目データベースS006の一例を示す。
画像など、テキストでないデータを含む多項目データベ
ースS006は、一般に、テキストベースのデータ部S006-1
と、テキスト以外のデータ部(画像データなど)S006-2
に分けられる。そして、テキストベースのデータ部S006
-1と、テキスト以外のデータ部(画像データ)S006-2
は、例えば、画像データへのポインタなどで、リンクさ
れている。
【0110】このような場合に、図30(c)に示す検
索対象指定テーブル(S014)で、多項目データベースのう
ち、検索対象にするものを明示する。この例では、車情
報に関するデータのうち、「車名」「色」「年式」を検
索対象とし、「画像ポインタ」は、検索対象外とする。
このように、検索対象を明示することにより、多項目デ
ータに文字列ベースの検索に不適当なデータが含まれて
いても、文字列ベースの検索に適した項目のみを検索す
ることが可能である。
【0111】図30(d)に示すS015は、属性指定テー
ブルの例である。ここでは、「車名」は、一般的な「文
字列」として扱うことにしている。「色」は属性
「色」、「年式」は属性「数値」の指定にした。
【0112】図30(b)に示すS088は、「色」の類似
テーブルである。「色」の類似関係のように、一次元で
表現できない類似性は、二次元以上で表してもよい。例
では、「色」をベクトル座標で表現し、ベクトルの差で
類似度(相違度)を表現している。
【0113】図31は、検索用インデックス作成ツール
の構成を示す。検索用インデックス自動生成部S031は、
検索対象指定テーブルS014を参照し、多項目データベー
スS006の文字データ部S006-1のうち、どの項目が検索対
象であるかを確認する。さらに、属性定義テーブルS015
を参照し、検索対象の項目の属性を確認する。検索対象
の項目について、各属性に応じて、データを解析し、検
索用インデックスS005を作成する。この検索用インデッ
クスは、図のように、各項目毎(S005-1〜S005-3)に作成
してもよいし、検索項目全体をまとめて作成してもよ
い。
【0114】図32(a)〜(c)は、検索用インデッ
クスの一例である。この例では、「車名」と「色」の項
目は、項目毎に、データを2文字の組(文字遷移)に分
解し、その文字遷移を含むデータのアドレスとともに記
憶してある。「年式」については、属性が数値の指定に
なっているため、数値の部分をインデックスとするイン
デックステーブルを作成した。
【0115】図33は、検索システムの構成を示す。図
27の検索システムの構成との相違点のみ説明する。本
態様では、検索用画面自動生成部S031が、ユーザやアプ
リケーションが検索用の画面を作らなくても、自動で、
検索用のパレットを表示する。また、検索用インデック
ステーブルは、前述のとおり、項目毎に複数保持してい
る。項目毎に検索用インデックスがあるため、この例で
は、認識結果最適化&データ推測部S004を、項目毎の認
識結果最適化&データ推測部S004-1と、総合認識結果最
適化&データ推測部S004-2に分けて構成している。検索
対象の多項目データベースS006は、テキストベースのデ
ータ部S006-1と、テキスト以外のデータ部(画像データ
など)S006-2に分かれているため、テキストベースのデ
ータ部S006-1の検索を行った後、テキスト以外のデータ
部(画像データなど)S006-2のデータを表示上マージす
る、非テキストデータ統合部S032を設けてある。
【0116】図34は、検索用画面自動生成部S031によ
って作成された、検索用キーワード入力パレットS041の
例である。検索用パレットは、多項目データベースの項
目のうち、検索対象として定義された項目のキーワード
入力枠を、項目指定キーワード入力枠として表示する。
さらに、フリーキーワード入力枠も表示し、項目を指定
しない入力も受け付けるようにする。フリーキーワード
検索の場合、入力されたキーワードは、総合検索部が、
全ての検索用インデックスについて参照して検索する。
なお、キーワードは、各項目のデータ長に合わせて、入
力できるようにするとよい。もし、画面上に配置しきれ
ない場合には、スクロールバーなどをつける。
【0117】図35は、検索用画面自動生成部S031によ
って作成された、検索結果表示パレットS043の例であ
る。検索結果のうち、検索非対象の項目を表示したり、
表示せずに、例えば、画像データへのポインタの数値の
まま表示してもよい。
【0118】図36は、アプリケーションが、検索シス
テムより検索結果を受取り、画像を表示した例である。
このように、アプリケーション側でのみ、画像を含めた
処理を行い、検索システム側では、あくまでも、テキス
トベースのデータ部S006-1のみ扱うように、役割分担を
行ってもよい。
【0119】図37は、総合認識結果最適化&データ推
測部S004-2の処理フローを示す。簡単に、処理内容を説
明する。検索用キーワード入力パレットS041で入力され
たキーワードが、フリーキーワードであったならば、全
ての項目の検索用インデックスを用いて検索を行う。も
し、項目指定キーワードも入力されていたならば、項目
毎の認識結果最適化&データ推測部S004-1により、指定
項目を検索し、OR情報を出力する。もし、フリーキーワ
ードの入力がなく、指定項目のみが入力されていたなら
ば、項目毎の認識結果最適化&データ推測部S004-1によ
り、指定項目の検索を行い、検索結果を出力する。
【0120】以上が、画像データなど、文字ベースの検
索で検索対象としないデータを含む、多項目データベー
スの曖昧検索システムの説明である。
【0121】次に、文字遷移−単語インデックスによる
曖昧検索について、図38を参照して説明する。
【0122】図38(a)〜(c)に、文字遷移−単語
インデックス類似テーブルによる曖昧検索の概要を示
す。この例は、図38(a)のように、検索用インデッ
クスに、文字遷移・データ(単語)・データの類似性評
価値・単語を含む多項目データのNo.(アドレスでもよ
い)の情報を記載しておくのが特徴である。このよう
に、インデックスに、文字遷移を含むことで、「カーデ
ガン」と「カーディガン」のような、表記のちょっとし
た違いを吸収して、検索を行うことが出来る。もちろ
ん、ユーザの一部入力ミスも救済できる。さらに、単語
単位に多項目データベースのインデックスを構成し、単
語間の類似性に合わせて単語インデックスをソートして
おくことにより、ある単語が検索されたときに、それに
近い単語を含むデータを即座に求めることが可能であ
る。
【0123】図38(b)の例では、検索用キーワード
入力パレットに、「カーディガン・9号・赤・5000
円」と指定し検索した。すると、ユーザの希望に近い検
索結果として、図38(c)に示すように、1位「No.9
・カーディガン・赤・9号・4900円」が表示され
た。さらに、それに続き、類似する結果として、2位
「カーディガン・ワイン・9号・4700円」、3位
「カーデガン・ピンク・9号・5400円」なども即座
に求められる。
【0124】以上により、多項目データベースを、ユー
ザの入力ミスや、多項目データ自体の一部不備も救済
し、さらに、データに意味的に近いものまで含めて曖昧
検索することができる。
【0125】
【発明の効果】以上説明したように、本発明によれば、
キーワードが不完全であっても、また、関連する他の語
であっても、入力されたキーワードに対して、表記差お
よび関連性とを考慮して、対応するキーワードを得るこ
とができ、それを用いて、データを検索することが可能
となる。その結果、ユーザは、思いついたキーワードや
条件を入力すると、欲しい情報に近いものが検索される
ため、操作性が向上する。
【図面の簡単な説明】
【図1】 本発明の実施の形態であるデータ検索システ
ムの機能構成を示すブロック図。
【図2】 本発明のデータ検索システムにおけるの動作
概要を示すブロック図。
【図3】 本発明のデータ検索システムのハードウエア
システム構成を示すブロック図。
【図4】 本発明の一実施例であるデータベース検索装
置の処理の流れを示すフローチャート。
【図5】 本発明のおいて検索の対象となるデータを蓄
積しているデータベースにおけるデータの格納構造の一
例を示す説明図。
【図6】 本発明による検索に用いる表記インデックス
のデータ構造の概要を示す説明図。
【図7】 本発明による検索に用いる類似意味辞書のデ
ータ構造の概要を示す説明図。
【図8】 本発明による検索処理における処理の遷移を
示す説明図。
【図9】 本発明による検索結果の記憶に用いる類似表
記検索結果記憶テーブルのデータ構造の概要を示す説明
図。
【図10】 本発明による検索結果の記憶に用いる類似
意味・表記検索結果記憶テーブルのデータ構造の概要を
示す説明図。
【図11】 本発明による検索結果の記憶に用いる総合
順位記憶テーブルのデータ構造の概要を示す説明図。
【図12】 本発明による検索キーワード入力画面の一
例を示す説明図。
【図13】 本発明による検索結果表示画面の一例を示
す説明図。
【図14】 表記差の計算方法を示す説明図。
【図15】 本発明のデータベース検索の動作の流れを
示す説明図。
【図16】 総合類似度計算方法の一例を示す説明図。
【図17】 従来のデータベース検索の動作概要を示す
ブロック図。
【図18】 従来のデータベース検索の動作例を示すブ
ロック図。
【図19】 従来のデータベース検索の動作例を示すブ
ロック図。
【図20】 本発明の他の実施の形態で使用する単語辞
書へのポインタつき文字遷移確率テーブル作成装置の機
能ブロック図。
【図21】 本発明の他の実施の形態で使用する単語辞
書の概要を示す説明図。
【図22】 本発明の他の実施の形態で使用する文字出
現回数テーブルの概要を示す説明図。
【図23】 本発明の他の実施の形態で使用する文字遷
移回数テーブルの概要を示す説明図。
【図24】 本発明の他の実施の形態で使用する文字出
現確率テーブルの概要を示す説明図。
【図25】 本発明の他の実施の形態で使用する文字遷
移確率テーブルの概要を示す説明図。
【図26】 遷移確率テーブルを用いて行う文字認識後
処理方法の概要を示す説明図。
【図27】 本発明の多の実施の形態における機能構成
を示すブロック図。
【図28】 (a)〜(i)は、データベースのデータ
構造の一例および、曖昧なキーワードでデータ検索を行
うために用いられる各種検索支援情報を格納するテーブ
ル群のデータ構造例、および、検索結果を示すデータを
格納するテーブル群のデータ構造を示す説明図。
【図29】 本発明の他の実施の形態における曖昧検索
の処理の流れを示す説明図。
【図30】 (a)は非テキストデータを含む多項目デ
ータベースに格納されるデータのデータ構造の一例を示
す説明図、(b)は色の類似関係を示す類似テーブルの
データ構造の一例を示す説明図、(c)は検索対象の指
定を行うためのテーブルのデータ構造の一例を示す説明
図、(d)は属性を指定する族生していてーブルのデー
タ構造の一例を示す説明図。
【図31】 検索要因デックス作成ツールの機能構成の
一例を示す説明図。
【図32】 (a)〜(c)は検索に用いられる各種イ
ンデックスのデータ構造の一例を示す説明図。
【図33】 本発明のデータ検索システムのさらに他の
態様の機能構成を示すブロック図。
【図34】 検索用キーワード入力パレットの画面の一
例を示す説明図。
【図35】 検索結果表示パレットの画面の一例を示す
説明図。
【図36】 アプリケーションが検索システムより検索
結果を受け取り、画像を表示した状態の一例を示す説明
図。
【図37】 総合認識結果最適化およびデータ推測処理
の流れを示すフローチャート。
【図38】 本発明のさらに別の実施態様であって、文
字遷移−単語インデックス類似テーブルを用いた曖昧検
索の一例を示し、(a)はデータ検索用データベースの
データ構造の一例を示す説明図、(b)は検索用パレッ
トの表示画面例を示す説明図、(c)は検索結果を表示
する表示画面の一例を示す説明図。
【符号の説明】
a1…制御統轄部、a2…データベース、a3…類似表
記データ検索部、a4…類似意味データ検索部、a5…
総合優先順位決定部、a6…入力部、a7…出力部、a
8…表記インデックス、a9…意味データベース、a1
0−1…類似表記検索結果記憶テーブル、a10−2…
類似意味・表記検索結果記憶テーブル、a10−3…総
合順位記憶テーブル、100…検索支援システム、11
0…情報処理装置本体、110…入力装置、120…入
力装置、130…出力装置、111…中央処理装置(C
PU)、112…RAM、113…ROM、114…入
力装置コントローラ、115…出力装置コントローラ、
210…記憶装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 横田 登志美 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内 (72)発明者 三浦 雅樹 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 キーワードを用いてデータベースにアク
    セスして目的のデータを検索するデータ検索支援システ
    ムにおいて、 キーワードを入力するための入力装置と、 入力されたキーワードをキーとして、対応するデータを
    検索するための情報処理装置と、 検索結果を出力するための出力装置とを備え、 情報処理装置は、 与えられたキーワードに対して、表記差のある対応キー
    ワードの検索を行う際に参照する第1の検索支援情報蓄
    積部と、 与えられたキーワードに対して、予め関連付けられた対
    応するキーワードの検索を行う際に参照される第2の検
    索支援情報蓄積部と、 与えられたキーワードについて、前記第1の検索支援情
    報蓄積部を参照して、対応キーワードを含むデータを検
    索すると共に、その対応キーワードについての前記入力
    されたキーワードからの表記差を示す情報を求める第1
    の検索支援処理手段と、 与えられたキーワードについて、前記第2の検索支援情
    報蓄積部を参照して、関連のある対応キーワードを含む
    データを検索すると共に、および、その関連の度合いを
    示す情報を求める第2の検索支援処理手段と、 前記第1の検索支援処理手段によって得られた対応キー
    ワード、および、入力されたキーワードに対する表記差
    を示す情報と、前記第2の検索支援処理手段によって得
    られた対応キーワード、および、入力されたキーワード
    に対する関連の度合いを示す情報とを用いて、予め定め
    た評価基準にしたがって、索出されたデータの優先順位
    を決定して、索出したデータを優先順位と共に出力する
    評価処理手段とを備えることを特徴とするデータ検索支
    援システム。
  2. 【請求項2】 データを蓄積するデータベースと、キー
    ワードを用いて該データベースにアクセスして目的のデ
    ータを検索するデータ検索支援システムとを備えるデー
    タ検索システムにおいて、 前記データ検索支援システムは、 キーワードを入力するための入力装置と、 入力されたキーワードをキーとして、対応するデータを
    検索するための情報処理装置と、 検索結果を出力するための出力装置とを備え、 情報処理装置は、 与えられたキーワードに対して、表記差のある対応キー
    ワードの検索を行う際に参照する第1の検索支援情報蓄
    積部と、 与えられたキーワードに対して、予め関連付けられた対
    応するキーワードの検索を行う際に参照される第2の検
    索支援情報蓄積部と、 与えられたキーワードについて、前記第1の検索支援情
    報蓄積部を参照して、対応キーワードを含むデータを検
    索すると共に、その対応キーワードについての前記入力
    されたキーワードからの表記差を示す情報を求める第1
    の検索支援処理手段と、 与えられたキーワードについて、前記第2の検索支援情
    報蓄積部を参照して、関連のある対応キーワードを含む
    データを検索すると共に、および、その関連の度合いを
    示す情報を求める第2の検索支援処理手段と、 前記第1の検索支援処理手段によって得られた対応キー
    ワード、および、入力されたキーワードに対する表記差
    を示す情報と、前記第2の検索支援処理手段によって得
    られた対応キーワード、および、入力されたキーワード
    に対する関連の度合いを示す情報とを用いて、予め定め
    た評価基準にしたがって、索出されたデータの優先順位
    を決定して、索出したデータを優先順位と共に出力する
    評価処理手段とを備えることを特徴とするデータ検索シ
    ステム。
  3. 【請求項3】 キーワードを入力する手段と、入力され
    たキーワードを含んだデータを検索する手段と、検索結
    果を表示する手段を備えたデータベース検索装置におい
    て、キーワードと表記が類似したデータを検索し、キー
    ワードと求めたデータの表記の類似度を求める、類似表
    記データ検索手段と、キーワードと表記および意味が類
    似したデータを検索し、キーワードと求めたデータの表
    記の類似度を求める、類似表記・意味データ検索手段、
    および、表記と意味の類似度を総合評価し、検索したデ
    ータの優先度を決定する、総合評価手段を備えたことを
    特徴とするデータ検索システム。
  4. 【請求項4】 キーワードを入力すると、入力されたキ
    ーワードを含んだデータを検索し、検索結果を表示する
    データベース検索方法において、キーワードと表記が類
    似したデータを検索し、キーワードと求めたデータの表
    記の類似度、および、キーワードと表記および意味が類
    似したデータを検索し、キーワードと求めたデータの表
    記の類似度を求め、表記と意味の類似度を総合評価し、
    検索したデータの優先度を決定し、優先度に従って検索
    結果を表示することを特徴とするデータ検索方法。
JP9321432A 1997-11-21 1997-11-21 データ検索システム Pending JPH11154160A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9321432A JPH11154160A (ja) 1997-11-21 1997-11-21 データ検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9321432A JPH11154160A (ja) 1997-11-21 1997-11-21 データ検索システム

Publications (1)

Publication Number Publication Date
JPH11154160A true JPH11154160A (ja) 1999-06-08

Family

ID=18132493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9321432A Pending JPH11154160A (ja) 1997-11-21 1997-11-21 データ検索システム

Country Status (1)

Country Link
JP (1) JPH11154160A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309453A (ja) * 2005-04-27 2006-11-09 Toyota Motor Corp データレコードの検索方法とそのためのプログラム
JP2012208917A (ja) * 2011-03-28 2012-10-25 Nec (China) Co Ltd ドキュメントランク付け方法および装置
JP2015528593A (ja) * 2012-08-13 2015-09-28 ベイジン ジンドン シャンケ インフォメーション テクノロジー カンパニー リミテッド 電子商取引プラットフォームにおける情報を検索するための方法及び装置
JP2016122344A (ja) * 2014-12-25 2016-07-07 株式会社東芝 システム、サーバ装置及び電子機器
US11144712B2 (en) 2019-09-02 2021-10-12 Fujitsu Limited Dictionary creation apparatus, dictionary creation method, and non-transitory computer-readable storage medium for storing dictionary creation program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309453A (ja) * 2005-04-27 2006-11-09 Toyota Motor Corp データレコードの検索方法とそのためのプログラム
JP2012208917A (ja) * 2011-03-28 2012-10-25 Nec (China) Co Ltd ドキュメントランク付け方法および装置
JP2015528593A (ja) * 2012-08-13 2015-09-28 ベイジン ジンドン シャンケ インフォメーション テクノロジー カンパニー リミテッド 電子商取引プラットフォームにおける情報を検索するための方法及び装置
JP2016122344A (ja) * 2014-12-25 2016-07-07 株式会社東芝 システム、サーバ装置及び電子機器
US11144712B2 (en) 2019-09-02 2021-10-12 Fujitsu Limited Dictionary creation apparatus, dictionary creation method, and non-transitory computer-readable storage medium for storing dictionary creation program

Similar Documents

Publication Publication Date Title
US5649193A (en) Document detection system using detection result presentation for facilitating user's comprehension
US9280535B2 (en) Natural language querying with cascaded conditional random fields
US6499030B1 (en) Apparatus and method for information retrieval, and storage medium storing program therefor
US10140333B2 (en) Trusted query system and method
US8346795B2 (en) System and method for guiding entity-based searching
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
US20090094223A1 (en) System and method for classifying search queries
JPH09153066A (ja) 文書検索装置
JPH03172966A (ja) 類似文書検索装置
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US20090112845A1 (en) System and method for language sensitive contextual searching
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
JP2013020439A (ja) 同義語抽出システム、方法およびプログラム
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
US8082240B2 (en) System for retrieving information units
JP3612769B2 (ja) 情報検索装置および情報検索方法
KR100341396B1 (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JPH11154160A (ja) データ検索システム
JP5299963B2 (ja) 分析システム及び情報分析方法
CN110688559A (zh) 一种检索方法及装置
JP2000194721A (ja) 文書群分類装置および文書群分類方法
JP2732661B2 (ja) テキスト型データベース装置
KR20190086395A (ko) 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040608