JP5050599B2 - 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。 - Google Patents

情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。 Download PDF

Info

Publication number
JP5050599B2
JP5050599B2 JP2007076044A JP2007076044A JP5050599B2 JP 5050599 B2 JP5050599 B2 JP 5050599B2 JP 2007076044 A JP2007076044 A JP 2007076044A JP 2007076044 A JP2007076044 A JP 2007076044A JP 5050599 B2 JP5050599 B2 JP 5050599B2
Authority
JP
Japan
Prior art keywords
search
keyword
replacement
similarity
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007076044A
Other languages
English (en)
Other versions
JP2008234519A (ja
Inventor
錦一 和田
位好 寺澤
博之 星野
博昭 関山
利行 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2007076044A priority Critical patent/JP5050599B2/ja
Publication of JP2008234519A publication Critical patent/JP2008234519A/ja
Application granted granted Critical
Publication of JP5050599B2 publication Critical patent/JP5050599B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力された検索条件に応じて情報を検索する情報検索システム、情報検索装置、情報検索方法、及びそのプログラムに関する。
従来より、利用者の入力する条件に合致する情報をデータベース等から検索する情報検索システム等が広く利用され、コンピュータや携帯電話、またはカーナビゲーションシステム等の各種電子機器に搭載されている。
そして、このような情報検索システム等において、利用者により入力された検索キーワードから検索結果が得られない場合に、その検索キーワードを自動的に類似するキーワードに置換することで検索範囲を拡張し、少なくとも1件以上の検索結果を取得できるようにするユーザ支援機能を有するものが開示されている(特許文献1参照)。
特開2003−016103号公報
特許文献1に示す方式では、あらかじめキーワードの属するカテゴリに置換順位を設定し、入力条件中の順位の高いカテゴリに属するキーワードから置換する手法をとっている。或いは、あらかじめ同一カテゴリ内の各キーワードに置換順位を設定し、入力条件中に同一カテゴリのキーワードが複数ある場合にはこの順位の高いキーワードから置換する手法をとっている。
そして、上述の方式を用いた情報検索システム等では、入力条件中の検索キーワードの内容に関わらず、置換の順位が固定されたものであるため、必ずしも利用者の要望に合った検索結果が得られるとは限らない。例えば、入力条件として利用者が「A市のホームセンター」を入力した場合、入力条件には「A市」という地域カテゴリと、「ホームセンター」という業種カテゴリとの2種類のカテゴリが存在する。この場合、利用者は遠方でも「ホームセンター」を検索したいと思っている場合もあるし、「A市」であれば「ホームセンター」でなくてもそれに類似する施設、例えば「スーパー」、「ドラッグストア」等でもよいと思っている場合もある。そこで、特許文献1にはカテゴリ毎に重み付けをし、このカテゴリの重みとカテゴリの移動変更するランク数とを検索順位の計算に用いることが開示されている。
しかしながら、上述の特許文献1に示される「重み付け」とは、いわばどのカテゴリを優先して検索するかを表す指標である。従って、入力条件に含まれる個々のキーワードが細密に評価されるものではない。例えば、入力条件として「A市、ホームセンター」のように広い地域の条件が入力された場合と「B駅、ホームセンター」のように駅名まで指定して入力された場合とでは、そのキーワードをどの程度置換してよいのか、利用者の思惑は異なる。つまり、キーワード毎に利用者の要望を反映した内容に置換し、検索順位が決定されることが望まれる。
本発明はこのような問題に鑑みてなされたもので、その目的とするところは、入力条件を利用者の要望に近い検索キーワードに拡張して情報を検索できる情報検索装置、情報検索システム、情報検索方法、及びそのプログラムを提供することにある。
前述した目的を達成するために第1の発明は、あるキーワードに類似する類似キーワードを、元のキーワードとどの程度類似しているかを示す類似度に対応付けてキーワード毎に設定した類似度付き置換候補データベースと、あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数をキーワード毎に設定した置換重み指数データベースと、入力された条件データから検索キーワードを抽出する検索キーワード抽出手段と、前記検索キーワード抽出手段により抽出された全ての検索キーワードについて、前記類似度付き置換候補データベースを参照して類似キーワードを抽出し、その類似キーワードと元の検索キーワードとを含む全ての組み合わせを検索式のリストとして生成する検索式リスト生成手段と、前記置換重み指数データベースに設定された置換重み指数と、前記類似度付き置換候補データベースに設定された類似度と、を用いて、前記検索式リスト生成手段により生成された各検索式について、元の検索キーワードからの置換の正当性を評価する検索式評価手段と、前記検索式評価手段による評価結果に基づいて、該検索式を条件データに置き換えて情報検索を行う検索手段と、を備えることを特徴とする情報検索装置である。
ここで、置換の正当性とは、検索キーワードを他のキーワードに置換するにおよびどの程度置換してもよいか、すなわちそのキーワードを他のキーワードに置換すること自体のもっともらしさや、置換されたキーワードの元のキーワードとの類似性を含めて評価することである。
また、前記検索式評価手段は、前記検索式に含まれる各キーワードについて前記置換重み指数と前記類似度との重畳和を算出し、その結果に基づいて置換の正当性を評価することが望ましい。
また、前記検索手段は、検索式評価手段による評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了することが望ましい。
また、あるキーワードに対する同義語を設定した同義語データベースを更に備え、前記検索キーワード抽出手段は、入力された条件データから抽出したキーワードの同義語を前記同義語データベースを参照して抽出し、その同義語も含めて検索キーワードとすることとしてもよい。
また、第2の発明は、ネットワークを介して互いに通信接続された複数の情報処理装置により構成される情報検索システムであって、あるキーワードに類似する類似キーワードを、元のキーワードとどの程度類似しているかを示す類似度に対応付けてキーワード毎に設定した類似度付き置換候補データベースと、あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数をキーワード毎に設定した置換重み指数データベースと、入力された条件データから検索キーワードを抽出する検索キーワード抽出手段と、前記検索キーワード抽出手段により抽出された全ての検索キーワードについて、前記類似度付き置換候補データベースを参照して類似キーワードを抽出し、その類似キーワードと元の検索キーワードとを含む全ての組み合わせを検索式のリストとして生成する検索式リスト生成手段と、前記置換重み指数データベースに設定された置換重み指数と、前記類似度付き置換候補データベースに設定された類似度と、を用いて、前記検索式リスト生成手段により生成された各検索式について、元の検索キーワードからの置換の正当性を評価する検索式評価手段と、前記検索式評価手段による評価結果に基づいて、該検索式を条件データに置き換えて情報検索を行う検索手段と、を備えることを特徴とする情報検索システムである。
また、前記検索式評価手段は、前記検索式に含まれる各キーワードについて前記置換重み指数と前記類似度との重畳和を算出し、その結果に基づいて置換の正当性を評価することが望ましい。
また、前記検索手段は、検索式評価手段による評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了することが望ましい。
また、あるキーワードに対する同義語を設定した同義語データベースを更に備え、前記検索キーワード抽出手段は、入力された条件データから抽出したキーワードの同義語を前記同義語データベースを参照して抽出し、その同義語も含めて検索キーワードとしてもよい。
また、第3の発明は、入力された条件データから検索キーワードを抽出する検索キーワード抽出ステップと、前記検索キーワード抽出ステップにより抽出された全ての検索キーワードについて、あるキーワードに類似する類似キーワードを、元のキーワードとどの程度類似しているかを示す類似度に対応付けてキーワード毎に設定した類似度付き置換候補データベースを参照して類似キーワードを抽出し、その類似キーワードと元の検索キーワードとを含む全ての組み合わせを検索式のリストとして生成する検索式リスト生成ステップと、あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数をキーワード毎に設定した置換重み指数データベースに設定された置換重み指数と、前記類似度付き置換候補データベースに設定された類似度と、を用いて、前記検索式リスト生成ステップにより生成された各検索式について、元の検索キーワードからの置換の正当性を評価する検索式評価ステップと、前記検索式評価ステップによる評価結果に基づいて、該検索式を条件データに置き換えて情報検索を行う検索ステップと、を備え、それらのステップをCPUが行うことを特徴とする情報検索方法である。
また、前記検索式評価ステップは、前記検索式に含まれる各キーワードについて前記置換重み指数と前記類似度との重畳和を算出し、その結果に基づいて置換の正当性を評価することが望ましい。
また、前記検索ステップは、検索式評価ステップによる評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了することが望ましい。
また、前記検索キーワード抽出ステップは、入力された条件データから抽出したキーワードの同義語を、あるキーワードに対する同義語を設定した同義語データベースを参照して抽出し、その同義語も含めて検索キーワードとしてもよい。
また、第4の発明は、コンピュータを請求項1からのいずれかの情報検索装置として機能させるためのプログラムである。
本発明によれば、入力条件を利用者の要望に近い検索キーワードに拡張して情報を検索できる情報検索装置、情報検索システム、情報検索方法、及びそのプログラムを提供することができる。
以下図面に基づいて、本発明の実施形態を詳細に説明する。
まず、構成を説明する。
図1は、本実施の形態に係る情報検索装置1を実現するコンピュータのハードウェア構成図である。
情報検索装置1は、制御部3、記憶部5、メディア入出力部7、通信制御部9、入力部11、表示部13、周辺機器I/F部15等が、バス17と介して接続される。
なお、以下の実施の形態では、コンピュータをハードウェアとして利用した情報検索装置1の例を示しているが、コンピュータに限るものではなく、例えばカーナビゲーションシステム等の各種電子機器に応用することも可能である。
制御部3は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部5、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス17を介して接続された各装置を駆動制御し、情報検索装置1が行う後述する情報検索処理(図7参照)を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部5、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部3が各種処理を行う為に使用するワークエリアを備える。
記憶部5は、HDD(ハードディスクドライブ)であり、制御部3が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述の情報検索処理に相当するアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部3により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
メディア入出力部7(ドライブ装置)は、データの入出力を行い、例えば、フロッピー(登録商標)ディスクドライブ、PDドライブ、CDドライブ(−ROM、−R、RW等)、DVDドライブ(−ROM、−R、−RW等)、MOドライブ等のメディア入出力装置を有する。
通信制御部9は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク19間の通信を媒介する通信インタフェースであり、ネットワーク19を介して、他のコンピュータ間との通信制御を行う。
入力部11は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。また、例えば、マイク等の音声入力装置を有する。入力部11を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部13は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F(インタフェース)部15は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部15を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部15は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。
バス17は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
次に、図2を参照しながら、情報検索装置1の機能を実現する構成について説明する。
図2は、情報検索装置1の機能の概要を示すブロック図である。
情報検索装置1は、条件データ入力手段21、検索キーワード抽出手段22、検索式リスト生成手段23、検索式評価手段24、検索手段25、検索結果出力手段26、同義語データベース27、類似度付き置換候補データベース28、及び置換重み指数データベース29を備える。
条件データ入力手段21は、入力部11を介して利用者から検索対象となる条件データが入力されると、入力された条件データを検索キーワード抽出手段22に出力する。条件データは、検索条件とする個々のキーワードを空白区切りしたリストの形式で入力されてもよいし、自然言語による文章の形式で入力されてもよい。また、ネットワーク19を介して、他のコンピュータ等から入力されるものであってもよい。
検索キーワード抽出手段22は、入力された条件データから検索キーワードを抽出する。条件データのキーワードが空白区切りしたリストの形式で入力された場合は、そのキーワードを個々の検索キーワードに分解する。また、自然言語による文章の形式で条件データが入力された場合は、形態素解析等の手法により個々の検索キーワードに分解する。
また、検索キーワード抽出手段22は、同義語データベース27(図3)を参照し、条件データから抽出した個々の検索キーワードに対応する同義語も抽出し、この同義語も検索キーワードに含めることとしてもよい。
例えば、条件データから抽出した個々のキーワードとして「百貨店」と入力された場合に、同義語データベース27を参照して「百貨店」に対応する同義語「デパート」を抽出し、この同義語も検索キーワードとする。
検索式リスト生成手段23は、検索キーワード抽出手段22により抽出された全ての検索キーワードについて、その検索キーワード及びその検索キーワードに意味の類似する類似キーワードを含む全ての組み合わせを検索式のリストとして生成する。類似キーワードは、後述する類似度付き置換候補データベース28(図4参照)にキーワード毎に設定されている。検索式リスト生成手段23は、類似度付き置換候補データベース28を参照して各検索キーワードに対応する類似キーワードを抽出し、この類似キーワードと元の検索キーワードとの全ての組み合わせを生成する。
検索式評価手段24は、検索式リスト生成手段23により生成された各検索式について、元の検索キーワードからの置換の正当性を評価する。ここで、置換の正当性とは、検索キーワードを他のキーワードに置換するにおよびどの程度置換してもよいか、すなわちそのキーワードを他のキーワードに置換すること自体のもっともらしさや、置換されたキーワードの元のキーワードとの類似性を含めて評価することである。その評価のための指数として、キーワードの置換重み指数や類似度を利用する。
すなわち、検索式評価手段24は、後述する置換重み指数データベース29(図5参照)に設定された置換重み指数Wを参照し、また、類似度付き置換候補データベース28に設定された類似度Sを参照し、各検索式についてこの置換重み指数W及び類似度Sの重畳和(後述の式(1))を計算して、その結果(評価値f)に基づいて検索式の正当性を評価する。
具体的には、元の検索キーワード(n個)をK〜Kとし、その検索キーワードK〜Kに対応する各置換重み指数をW〜Wとし、ある検索キーワードKに対応する類似キーワード集合Rとした場合に、その類似キーワード集合Rの各要素Rixの類似度を夫々Six(xは1〜z)で表す。すると、置換後のキーワードがR1x,R2y,・・・,Rnzの評価式は、
f=W×S1x+W×S2y+・・・+W×Snz・・・(1)
で表される。
ただし、キーワードKに対応する置換後のキーワード集合にはK自身(元のキーワード)も含むものとし、自身との類似度は1.0とする。
検索手段25は、検索式評価手段25による評価結果に基づいて、検索式リスト生成手段23により生成された各検索式を条件データとして情報検索を実行する。この情報検索は、記憶部5やメディア入出力部7等に蓄積されたローカルなデータベースを用いるものであってよいし、ネットワーク19を介して他の機器(サーバ等)に通信接続し、そのサーバ等に蓄積されたデータベースを用いるものであってもよい。
また検索手段25は、検索式評価手段25により、置換の正当性が高い、すなわち評価値fの値が大きい検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合には、検索を終了して、検索結果出力手段26に出力する。
検索結果出力手段26は、検索手段25から取得した検索結果データを表示部13に表示したり音声出力したりして、利用者に提示する。
図3は、同義語データベース27の例を示す図である。
図3に示すように、同義語データベース27には、あるキーワードに対する同義語が設定されている。例えば、「百貨店」というキーワードに対しては同義語「デパート」等が対応付けられている。
図4は、類似度付き置換候補データベース28の例を示す図である。
図4に示すように、類似度付き置換候補データベース28には、あるキーワードに類似する類似キーワードRが、元のキーワードとどの程度類似しているかを数値で示した類似度Sに対応付けて設定されている。ここで類似キーワードとは、意味の類似する語をいい、検索キーワードの置換候補とするものである。また各キーワードはカテゴリに対応付けて整理されている。
例えば、「藤が丘駅」というキーワードに対する類似キーワードは、その意味的な類似性、すなわち距離的に近い範囲にある地名である「本郷駅」、「名東区」、「名古屋市」が設定され、その類似度は夫々「0.8」、「0.5」、「0.1」と設定される。また、「ホームセンター」というキーワードに対する類似キーワードとして「デパート」、「スーパー」が設定され、その類似度は夫々「0.3」、「0.2」と設定される。類似度は、0より大きく1以下の数値で表され、元のキーワードは類似度「1.0」(すなわち同義)とする。
なお、類似度付き置換候補データベース28の作成にあたっては、上位概念のキーワードや関連キーワードから置換候補となる類似キーワードを収集し、意味的な尺度を用いて類似度を設定するものとする。
例えば、地域カテゴリの類似キーワードを収集するには、駅を表すキーワードの場合には、その隣接駅や所在地を類似キーワードとすればよい。また、その類似度を設定するには、駅名同士の場合であれば2点間の距離を用い、駅名と県名のように下位概念と上位概念の関係にある場合は、駅名、市町村、都道府県といった規模の階層の差を類似度に反映すればよい。
また、業種カテゴリの類似キーワードを収集するには、利用者に予めアンケート調査等を実施し、その結果から類似キーワードを選出すればよい。また、類似度を設定するには、アンケート中の出現頻度を目安に設定すればよい。
図5は、置換重み指数データベース29の例を示す図である。
図5に示すように、置換重み指数データベース29には、あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数Wがキーワード毎に設定されている。また各キーワードはカテゴリに対応付けて整理されている。置換重み指数Wは、例えば0より大きく1以下の数値で表現される。
具体的には例えば、施設情報の検索用途に置換重み指数データベース29を構築する場合、地域カテゴリと業種カテゴリに属するキーワードが設定される。この例では、地域カテゴリの「藤が丘駅」というキーワードに対する置換重み指数は「0.9」、「名東区」というキーワードに対する置換重み指数は「0.7」、「名古屋市」というキーワードに対する置換重み指数は「0.4」、「愛知県」というキーワードに対する置換重み指数は「0.1」が設定されている。また業種カテゴリの「コンビニ」というキーワードに対する置換重み指数は「0.9」、「カフェ」というキーワードに対する置換重み指数は「0.7」、「ホームセンター」というキーワードに対する置換重み指数は「0.4」が設定されている。
これらの数値は利用者の要望を反映したものである。すなわち、「藤が丘駅」のように駅名を入力条件に含めて施設情報を検索する場合には、「藤が丘駅」から徒歩圏内等の比較的近距離の施設等を検索したいことが多いと推測される。従って、「藤が丘駅」というキーワードは置換せずに、そのまま条件式に利用されることが望まれるので、置換重み指数に大きな値を設定すればよい。一方、「愛知県」のように県名等の広い範囲を入力条件に含めて検索する場合は、利用者の要望としては「愛知県」内であれば地域はあいまいに検索し、むしろ業種カテゴリのキーワードを固定的な条件にした方がよい場合が多いと推測される。従って、広い範囲を意味する地域カテゴリのキーワードについては、置換重み指数に小さな値を設定すればよい。
置換重み指数データベース29の作成にあたっては、上述のような施設検索用途のデータベースを構築する場合、地域カテゴリのキーワードに関しては、距離基準と置換重み指数の変換表30を予め定義しておき、これを利用すればよい。
図6は、距離基準と置換重み指数の変換表30の一例を示す図である。
この変換表30には距離基準毎に置換重み指数が設定されている。例えば、半径0.5km程度の徒歩圏内に相当する地域には比較的大きな値の置換重み指数「0.9」が設定され、半径2km程度の地域内には置換重み指数「0.7」が設定され、半径10km程度の市内に相当する地域には置換重み指数「0.5」が設定され、半径20km程度の地区内には置換重み指数「0.3」が設定され、半径50km程度の県内に相当する地域には小さな値の置換重み指数「0.1」が設定されている。
実際に、各キーワードに置換重み指数を設定する際は、この変換表30を用いて、キーワードの示す地域の実際の面積と同じになる円の半径を求め、この半径の値と変換表30の距離基準とから線形補間等の手法を用いて具体的な数値を決定すればよい。ただし、キーワードが駅名の場合には、便宜上徒歩圏内に対応する置換重み指数を用いたほうがよいと思われる。
また、業種カテゴリに含まれるキーワードに関しては、予め利用者にアンケート調査等を実施して、その結果を反映させればよい。具体的には例えば、「ある業種のお店に行く場合、許容できる遠さはどの程度ですか?」といった内容の質問と図6に示す変換表30の距離基準とを提示してアンケート調査を行い、その回答結果の平均値等から置換重み指数の値を決定すればよい。
このような統計的な調査の結果を地域重み指数の設定に用いれば、「遠くてもよいのでホームセンターを探したい」、「隣町にいくくらいならカフェでなくても喫茶店でよい」といった利用者の検索への要望を置換重み指数データベース29に的確に反映させることが可能となる。
次に動作を説明する。
図7は本実施の形態における情報検索装置1において実行される情報検索処理の流れを説明するフローチャートであり、図8は情報検索装置1の表示部13に表示される表示画面の一例、図9及び図10は情報検索処理にて生成される検索式リストの例を示す図である。
以下、図7のフローチャート、図8の表示画面例、図9及び図10に示す検索式リストの具体例を参照しながら、情報検索装置1で実行される情報検索処理を説明する。
まず、入力部11を介して利用者により条件データが入力されると、制御部3は、入力された条件データから検索キーワードの抽出処理を行う(ステップS1)。
制御部3は、入力された条件データについて個々のキーワードに分解し、検索キーワードとして抽出する(ステップS2)。このとき制御部3は、同義語データベース27も参照し、各キーワードの同義語も検索キーワードとして抽出する。
表示画面例としては、例えば図8に示すように表示画面131の上段131aに条件データの入力枠として、地域カテゴリの入力枠131aaと業種カテゴリの入力枠131abが表示される。これらの各入力枠131aa、131abに対して、利用者により夫々「名東区」、「ホームセンター」と入力されるものとする。すると制御部3は、入力された条件データから検索キーワードとして「名東区」及び「ホームセンター」を抽出する。
次に、制御部3は、抽出された個々の検索キーワードについて、夫々類似度付き置換候補データベース28を参照して類似キーワードを抽出し、元の検索キーワードと、類似キーワードとの全ての組み合わせを検索式として生成する(ステップS3)。そして、制御部3は、生成された各検索式について、置換重み指数データベース29と類似度付き置換候補データベース28とを参照して、置換重み指数Wと類似度Sの重畳和(上述の式(1))を算出する。更に、算出された評価値fの大きな順に並べ替える(ステップS4)。
図9は、入力された条件データから抽出した検索キーワードが、「名東区」と「ホームセンター」の場合に生成される検索式のリストと、その評価値fを示す表である。
類似度付き置換候補データベース28(図4)を参照すると、「名東区」の類似キーワードには「千種区」、「昭和区」、「名古屋市」が設定されている。また、「ホームセンター」の類似キーワードには「デパート」と「スーパー」が設定されている。
従って、これらの類似キーワードと元のキーワード(「名東区」、「ホームセンター」)とを含む全ての組み合わせが、検索式リストとして生成される(図9の表の中列)。
さらに、制御部3は、類似度付き置換候補データベース28の類似度Sと、置換重み指数データベース29(図5)の置換重み指数Wとを参照し、置換重み指数Wと類似度Sの重畳和を計算する。例えば「名東区、ホームセンター」の組み合わせの場合は、「名東区」の置換重み指数Wが「0.7」で類似度Sが「1.0」であり、「ホームセンター」の置換重み指数Wが「0.4」で類似度Sが「1.0」であるので、重畳和は「0.7×1.0+0.4×1.0」で計算され、その計算結果(評価値f)は「1.10」となる。
同様に、例えば「千種区、ホームセンター」の組み合わせの検索式では、「名東区」の置換重み指数Wが「0.7」で「千種区」の類似度Sが「0.8」であり、「ホームセンター」の置換重み指数Wが「0.4」で類似度Sが「1.0」であるので、重畳和は「0.7×0.8+0.4×1.0」で計算され、その計算結果(評価値f)は「0.96」となる。
以下同様に各検索式について評価値fを計算すると、図9の表の右列に示す結果を得る。なお、図9の検索式リストは評価値fの大きな順に並べ替えられている。
各検索式について評価値fを得ると、制御部3は評価値fの高い検索式から順にその検索式を条件データとする情報検索を実行する(ステップS5)。
図9の例の場合は、検索式「名東区、ホームセンター」の評価値が一番大きいので、制御部3は、まずこの検索式「名東区、ホームセンター」を始めに検索する。検索の結果、この検索式に該当する施設情報が見つからなかった場合は(ステップS6;No)、次に評価値fの大きい検索式について情報検索を実行する。
図9の例の場合は、検索式「千種区、ホームセンター」を次に検索する。検索の結果、この検索式に該当する施設情報が見つかった場合は(ステップS6;Yes)、取得した検索結果データを表示部13に出力して(ステップS7)、情報検索処理を終了する。
例えば、一つ目の検索式「名東区、ホームセンター」では検索結果を取得できず、二つ目の検索式「千種区、ホームセンター」で2件の施設情報を取得した場合には、制御部3は図8に示す表示画面131を表示する。
すなわち、表示画面131の2段目131bに、入力条件(「名東区、ホームセンター」)の検索結果として「該当するお店がありません」等の検索結果を得られない旨の表示を行う。更に、表示画面3段目131cに、条件データを置換した旨の表記として「条件拡張」と表示するとともに、次の検索式「場所:千種区、業種:ホームセンター」を表示する。そして、下段131dに検索結果を表示する。例えば、「検索結果:2件見つかりました」や、検索結果となる施設の名称や距離を表示する。
なお、更に検索式の利用履歴を表示するようにしてもよい。例えば、検索順位の低い検索式からしか検索結果を取得できなかった場合、どの検索式を利用して検索したかが具体的に利用者に分かれば、利用者は検索結果に納得しやすく、入力条件を変更する際には参考にすることもできる。
以上説明した情報検索処理によって、利用者による入力条件「名東区、ホームセンター」では検索結果を取得できなかった場合にも、それに類似する意味の検索式に置き換えて情報を検索できる。また、キーワードの置換の際には、「ホームセンター」という業種カテゴリを固定するものでも「名東区」という地域カテゴリを固定するものでもなく、各カテゴリに属するキーワードの意味的な類似性や、どの程度の重みで置換するのかといったことを尺度として検索順位を決定している。
別の例として、入力条件に「藤が丘駅」、「カフェ」と入力された場合に生成される検索式リストや評価値fの例を図10を参照して説明する。
制御部3は、入力された条件データから検索キーワードとして「藤が丘駅」及び「カフェ」を抽出する。
次に、制御部3は、抽出された個々の検索キーワードから類似度付き置換候補データベース28を参照して「藤が丘駅」の類似キーワード「本郷駅」、「名東区」、「名古屋市」を抽出する。また、「カフェ」の類似キーワード「喫茶店」、「マンガ喫茶」を抽出する。
そして、制御部3は、これらの類似キーワードと元のキーワード(「藤が丘駅」、「カフェ」)とを含む全ての組み合わせを、検索式リストとして生成する(図10の中列)。
さらに、制御部3は、類似度付き置換候補データベース28の類似度Sと、置換重み指数データベース29の置換重み指数Wとを参照し、各検索式の評価値fを計算する。例えば「藤が丘駅、カフェ」の組み合わせの場合は、「藤が丘駅」の置換重み指数Wが「0.9」で類似度Sが「1.0」であり、「カフェ」の置換重み指数Wが「0.7」で類似度Sが「1.0」であるので、重畳和は「0.9×1.0+0.7×1.0」で計算され、その計算結果(評価値f)は「1.60」となる。
また、例えば「名古屋市、マンガ喫茶」の組み合わせの検索式では、「名古屋市」の類似度Sが「0.1」であり、「マンガ喫茶」の類似度Sが「0.4」であるので、重畳和は「0.9×0.1+0.7×0.4」で計算され、その計算結果(評価値f)は「0.37」となる。
この図10の例で示すように、置換重み指数Wや類似度Sといった指数を置換の正当性の評価に用いると、始めに検索されるのは「藤ヶ丘駅周辺のカフェ」であるが、次に検索されるのは「藤が丘駅周辺の喫茶店」であり、更に次の順位では「本郷駅周辺のカフェ」であり、その次の順位では「本郷駅周辺の喫茶店」となる。つまり、「藤が丘駅周辺にカフェがなければ喫茶店でもいい」、「どうしてもカフェを探したいので隣町まで含めて検索したい」といった利用者の検索の要望を的確に反映できるといえる。
以上説明したように、本実施の形態の情報検索装置1によれば、検索キーワード抽出手段22によって入力された条件データから検索キーワードを抽出し、検索式リスト生成手段23によって全ての検索キーワードについて、その検索キーワード及びその検索キーワードに意味の類似する類似キーワードを含む全ての組み合わせを検索式のリストとして生成する。そして検索式評価手段24によって、置換重み指数Wや類似度Sといった指数を用いて、各検索式についての元の検索キーワードからの置換の正当性を評価し、その評価結果に基づいて検索手段25により検索式を条件データに置き換えて情報検索を行う。
従って、検索キーワードを他のキーワードに拡張するのみならず、置換の正当性の評価により利用者の要望に近い検索式から順に検索することが可能となる。
また、類似度付き置換候補データベース28に、あるキーワードに類似する類似キーワードを類似度Sに対応付けて設定しておき、置換重み指数データベース29に、あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数Wを設定しておき、これらの各データベース28、29を参照して検索式リストを生成したり各検索式の評価をしたりするので、これらの各データベース28、29に利用者の要望を反映でき、検索結果をより要望に近いものとすることが可能となる。
また、検索手段25は、検索式評価手段24による評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了するので、利用者は入力した条件データから一番要望に近い検索式についての検索結果を取得できるので、検索結果が多すぎてかえって情報の選択にとまどうといった不都合が起こりにくい。
また、同義語データベース27に、あるキーワードに対する同義語を設定しているので、入力された条件データの同義語の範囲まで含めて検索キーワードを抽出すれば更に検索範囲を拡張できるので、利用者にとって更に便利なものとなる。
なお、上述の情報検索装置1では、一例として施設情報の検索用途に用いる場合を詳述したが、本発明に係る情報検索装置はこれに限定されるものではなく、一般の情報の検索用途に応用することも可能である。また、キーワードのカテゴリも簡潔な説明のために「地域」と「業種」の2種類の例を示したが、より多くのカテゴリまで拡張してもよい。更に、類似キーワードの数や種類、類似度S及び置換重み指数Wの具体的な数値等も利用者の要望に応じて変更可能なものである。
また、図7に示す情報検索処理を行うプログラムは、CD−ROM等の記録媒体に保持させて流通させても良いし、通信回線を介して送受信することもできる。
以上、添付図面を参照しながら本発明に係る情報検索装置の好適な実施形態について説明したが、前述した実施の形態に限定されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
本発明の情報検索装置1を実現するコンピュータのハードウェア構成図 情報検索装置1の機能を示すブロック図 同義語データベース27の例を示す図 類似度付き置換候補データベース28の例を示す図 置換重み指数データベース29の例を示す図 距離基準と置換重み指数の変換表30の例を示す図 情報検索処理の流れを説明するフローチャート 本実施の形態に係る表示画面例 情報検索処理にて生成される検索式リストの例を示す図 情報検索処理にて生成される検索式リストの例を示す図
符号の説明
1・・・・・・情報検索装置
21・・・・・・条件データ入力手段
22・・・・・・検索キーワード抽出手段
23・・・・・・検索式リスト生成手段
24・・・・・・検索式評価手段
25・・・・・・検索手段
26・・・・・・検索結果出力手段
27・・・・・・同義語データベース
28・・・・・・類似度付き置換候補データベース
29・・・・・・置換重み指数データベース

Claims (13)

  1. あるキーワードに類似する類似キーワードを、元のキーワードとどの程度類似しているかを示す類似度に対応付けてキーワード毎に設定した類似度付き置換候補データベースと、
    あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数をキーワード毎に設定した置換重み指数データベースと、
    入力された条件データから検索キーワードを抽出する検索キーワード抽出手段と、
    前記検索キーワード抽出手段により抽出された全ての検索キーワードについて、前記類似度付き置換候補データベースを参照して類似キーワードを抽出し、その類似キーワードと元の検索キーワードとを含む全ての組み合わせを検索式のリストとして生成する検索式リスト生成手段と、
    前記置換重み指数データベースに設定された置換重み指数と、前記類似度付き置換候補データベースに設定された類似度と、を用いて、前記検索式リスト生成手段により生成された各検索式について、元の検索キーワードからの置換の正当性を評価する検索式評価手段と、
    前記検索式評価手段による評価結果に基づいて、該検索式を条件データに置き換えて情報検索を行う検索手段と、
    を備えることを特徴とする情報検索装置。
  2. 前記検索式評価手段は、前記検索式に含まれる各キーワードについて前記置換重み指数と前記類似度との重畳和を算出し、その結果に基づいて置換の正当性を評価することを特徴とする請求項記載の情報検索装置。
  3. 前記検索手段は、検索式評価手段による評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了することを特徴とする請求項1記載の情報検索装置。
  4. あるキーワードに対する同義語を設定した同義語データベースを更に備え、
    前記検索キーワード抽出手段は、入力された条件データから抽出したキーワードの同義語を前記同義語データベースを参照して抽出し、その同義語も含めて検索キーワードとすることを特徴とする請求項1記載の情報検索装置。
  5. ネットワークを介して互いに通信接続された複数の情報処理装置により構成される情報検索システムであって、
    あるキーワードに類似する類似キーワードを、元のキーワードとどの程度類似しているかを示す類似度に対応付けてキーワード毎に設定した類似度付き置換候補データベースと、
    あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数をキーワード毎に設定した置換重み指数データベースと、
    入力された条件データから検索キーワードを抽出する検索キーワード抽出手段と、
    前記検索キーワード抽出手段により抽出された全ての検索キーワードについて、前記類似度付き置換候補データベースを参照して類似キーワードを抽出し、その類似キーワードと元の検索キーワードとを含む全ての組み合わせを検索式のリストとして生成する検索式リスト生成手段と、
    前記置換重み指数データベースに設定された置換重み指数と、前記類似度付き置換候補データベースに設定された類似度と、を用いて、前記検索式リスト生成手段により生成された各検索式について、元の検索キーワードからの置換の正当性を評価する検索式評価手段と、
    前記検索式評価手段による評価結果に基づいて、該検索式を条件データに置き換えて情報検索を行う検索手段と、
    を備えることを特徴とする情報検索システム。
  6. 前記検索式評価手段は、前記検索式に含まれる各キーワードについて前記置換重み指数と前記類似度との重畳和を算出し、その結果に基づいて置換の正当性を評価することを特徴とする請求項記載の情報検索システム。
  7. 前記検索手段は、検索式評価手段による評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了することを特徴とする請求項記載の情報検索システム。
  8. あるキーワードに対する同義語を設定した同義語データベースを更に備え、
    前記検索キーワード抽出手段は、入力された条件データから抽出したキーワードの同義語を前記同義語データベースを参照して抽出し、その同義語も含めて検索キーワードとすることを特徴とする請求項記載の情報検索システム。
  9. 入力された条件データから検索キーワードを抽出する検索キーワード抽出ステップと、
    前記検索キーワード抽出ステップにより抽出された全ての検索キーワードについて、あるキーワードに類似する類似キーワードを、元のキーワードとどの程度類似しているかを示す類似度に対応付けてキーワード毎に設定した類似度付き置換候補データベースを参照して類似キーワードを抽出し、その類似キーワードと元の検索キーワードとを含む全ての組み合わせを検索式のリストとして生成する検索式リスト生成ステップと、
    あるキーワードが他のキーワードにどの程度置換可能かどうかを示す置換重み指数をキーワード毎に設定した置換重み指数データベースに設定された置換重み指数と、前記類似度付き置換候補データベースに設定された類似度と、を用いて、前記検索式リスト生成ステップにより生成された各検索式について、元の検索キーワードからの置換の正当性を評価する検索式評価ステップと、
    前記検索式評価ステップによる評価結果に基づいて、該検索式を条件データに置き換えて情報検索を行う検索ステップと、
    を備え、それらのステップをCPUが行うことを特徴とする情報検索方法。
  10. 前記検索式評価ステップは、前記検索式に含まれる各キーワードについて前記置換重み指数と前記類似度との重畳和を算出し、その結果に基づいて置換の正当性を評価することを特徴とする請求項記載の情報検索方法。
  11. 前記検索ステップは、検索式評価ステップによる評価の結果に基づき、置換の正当性の高い検索式から順に情報検索を実行し、一つ以上の検索結果データを取得した場合に検索を終了することを特徴とする請求項記載の情報検索方法。
  12. 前記検索キーワード抽出ステップは、入力された条件データから抽出したキーワードの同義語を、あるキーワードに対する同義語を設定した同義語データベースを参照して抽出し、その同義語も含めて検索キーワードとすることを特徴とする請求項記載の情報検索方法。
  13. コンピュータを請求項1からのいずれかの情報検索装置として機能させるためのプログラム。
JP2007076044A 2007-03-23 2007-03-23 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。 Expired - Fee Related JP5050599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007076044A JP5050599B2 (ja) 2007-03-23 2007-03-23 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007076044A JP5050599B2 (ja) 2007-03-23 2007-03-23 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。

Publications (2)

Publication Number Publication Date
JP2008234519A JP2008234519A (ja) 2008-10-02
JP5050599B2 true JP5050599B2 (ja) 2012-10-17

Family

ID=39907186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007076044A Expired - Fee Related JP5050599B2 (ja) 2007-03-23 2007-03-23 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。

Country Status (1)

Country Link
JP (1) JP5050599B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101868936B1 (ko) * 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
JP2019159883A (ja) * 2018-03-14 2019-09-19 アルパイン株式会社 検索システム、検索方法
CN113449099B (zh) * 2020-03-25 2024-02-23 瑞典爱立信有限公司 文本分类方法和文本分类设备
WO2024069941A1 (ja) * 2022-09-30 2024-04-04 三菱電機株式会社 情報処理装置、検索方法、及び検索プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3527540B2 (ja) * 1994-06-15 2004-05-17 株式会社アドイン研究所 情報検索装置
JP3430431B2 (ja) * 1995-02-06 2003-07-28 日本電信電話株式会社 データベース検索装置及びデータベース検索方法
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JP3612914B2 (ja) * 1997-01-14 2005-01-26 富士ゼロックス株式会社 構造化文書検索装置及び構造化文書検索方法
JP2003016103A (ja) * 2001-06-28 2003-01-17 Ai Frontier:Kk ホームページにおけるデータ紹介提示方式
JP4459269B2 (ja) * 2005-03-31 2010-04-28 パイオニア株式会社 曲検索装置、曲検索方法及び曲検索用プログラム並びに情報記録媒体

Also Published As

Publication number Publication date
JP2008234519A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
JP4810469B2 (ja) 検索支援装置、プログラム及び検索支援システム
US8145662B2 (en) Methods and apparatus for generating a data dictionary
US20090313572A1 (en) Phrase builder
JP2012501499A (ja) バーティカル提案により検索要求を支援するためのシステム及び方法
JP5494126B2 (ja) 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
JPH06309362A (ja) 情報検索方法
CN104881397B (zh) 缩写词扩展方法和装置
JP5050599B2 (ja) 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。
JP6003637B2 (ja) 情報処理装置、ノード抽出プログラムおよびノード抽出方法
US20190121918A1 (en) Identifying merchant data associated with multiple data structures
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
JP5897991B2 (ja) 専門家評価情報管理装置
US20090144222A1 (en) Chart generator for searching research data
JP2017219899A (ja) ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム
US20090144318A1 (en) System for searching research data
US20090144241A1 (en) Search term parser for searching research data
JP2012043115A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20090144242A1 (en) Indexer for searching research data
JP2001325276A (ja) 情報処理システム、情報処理方法、コンピュータプログラム、記憶媒体及びプログラム伝送装置
US20090144317A1 (en) Data search markup language for searching research data
US20090144243A1 (en) User interface for searching research data
JP2018022217A (ja) ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム
JP6570712B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP5417359B2 (ja) 文書評価支援システム、及び文書評価支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120709

R151 Written notification of patent or utility model registration

Ref document number: 5050599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees