JP2010231344A - 検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法 - Google Patents

検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法 Download PDF

Info

Publication number
JP2010231344A
JP2010231344A JP2009076331A JP2009076331A JP2010231344A JP 2010231344 A JP2010231344 A JP 2010231344A JP 2009076331 A JP2009076331 A JP 2009076331A JP 2009076331 A JP2009076331 A JP 2009076331A JP 2010231344 A JP2010231344 A JP 2010231344A
Authority
JP
Japan
Prior art keywords
search
reference data
information
query
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009076331A
Other languages
English (en)
Inventor
Jun Sasaki
純 佐々木
Takeshi Yoshimura
健 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009076331A priority Critical patent/JP2010231344A/ja
Publication of JP2010231344A publication Critical patent/JP2010231344A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索クエリが誤入力された場合や、検索キーワードの表現に揺らぎがあるような場合であっても、好適な検索結果を得ることができるような検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法を提供する。
【解決手段】検索履歴格納手段110は、一又は複数の検索キーワードを含む検索クエリによる検索履歴を検索クエリ毎にメモリに格納する。検索回数集計手段111は、検索履歴格納手段110によって検索用参照データ作成装置11の内蔵メモリに格納された検索履歴に基づき検索クエリの検索回数Fを検索クエリ毎に集計する。関連度算出手段112は、検索回数集計手段111によって集計された検索回数に基づき検索履歴に含まれている二つの検索キーワードの関連度を算出し、関連度と当該二つの検索キーワードとを対応付ける検索用参照データを作成する。
【選択図】図1

Description

本発明は、検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法に関する。
近時、膨大な情報がインターネット等の通信網を介してアクセス可能となっている。ユーザは、検索エンジン等の検索装置を用いることによって、この膨大な情報のなかから所望とする情報にアクセスする。従来の情報検索技術の一例が、特許文献1に開示されている。特許文献1には、入力された検索キーワードに基づいて検索キーワード展開用辞書を検索し、検索キーワードに関連する検索キーワード展開単語の中から予め指定されている分野情報に基づいて単語選別処理を行い、単語選別処理された検索キーワードのみを検索キーワード展開単語として出力する技術が開示されている。
また、特許文献2や特許文献3等には、検索キーワードだけでなく、検索キーワードに関連する情報を用いた検索方法の一例が開示されている。特許文献2には、検索キーワードにおる情報の検索において、検索キーワードそのものだけではなく、検索キーワードと関係の強い語に関する情報によって検索を行うための技術が開示されている。特許文献3には、文書を分類することなく、また辞書やパターンを事前に作成することなく、検索キーワード検索によって所望の文書に含まれる共起表現を検索するための技術が開示されている。
特開2002−149683号公報 特開平7−56948号公報 特開2006−139484号公報
しかし、検索キーワードや共起語等を用いた従来の情報検索技術であっても、検索キーワードを指定するための検索クエリの誤入力や、検索キーワードの表現に揺らぎ(例えば、「打ち合わせ」、「打合せ」等)があるような場合には、ユーザの所望とする検索結果が得られない虞が生じる。そこで本発明の目的は、検索クエリが誤入力された場合や、検索キーワードの表現に揺らぎがあるような場合であっても、好適な検索結果を得ることができるような検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法を提供することである。
本発明の検索用参照データ作成装置は、情報検索用の検索キーワードを含み前記情報検索に用いる検索用参照データを作成する検索用参照データ作成装置であって、一又は複数の検索キーワードを含む検索クエリによる検索履歴を前記検索クエリ毎にメモリに格納する検索履歴格納手段と、前記検索履歴格納手段によって前記メモリに格納された前記検索履歴に基づいて前記検索クエリの検索回数を該検索クエリ毎に集計する検索回数集計手段と、前記検索回数集計手段によって集計された前記検索回数に基づいて前記検索履歴に含まれている二つの検索キーワードの関連度を算出し、この算出した関連度と当該二つの検索キーワードとを対応付ける前記検索用参照データを作成する関連度算出手段と、を備える、ことを特徴とする。
本発明の検索用参照データ作成方法は、情報検索用の検索キーワードを含み前記情報検索に用いる検索用参照データを作成する作成装置を用いた検索用参照データ作成方法であって、前記作成装置が、一又は複数の検索キーワードを含む検索クエリによる検索履歴を前記検索クエリ毎に前記作成装置のメモリに格納する検索履歴格納ステップと、前記作成装置が、前記検索履歴格納ステップにおいて前記メモリに格納した前記検索履歴に基づいて前記検索クエリによる検索回数を該検索クエリ毎に集計する検索回数集計ステップと、前記作成装置が、前記検索回数集計ステップにおいて集計した前記検索回数に基づいて前記検索履歴に含まれている二つの検索キーワードの関連度を算出し、この算出した関連度と当該二つの検索キーワードとを対応付ける前記検索用参照データを作成する関連度算出ステップと、を備える、ことを特徴とする。
本発明の検索用参照データ作成装置及び検索用参照データ作成方法によれば、情報検索に用いる検索用参照データが、過去の検索履歴に基づいて作成されるので、検索用参照データの信頼性が向上される。また、検索用参照データは、過去の検索履歴に基づく検索キーワード間の関連度を含むので、このような検索用参照データを用いれば、検索クエリだけでなく、この検索クエリに関連する複数の検索キーワードも情報検索に利用できるようになる。例えば、検索クエリに近い意味の検索キーワードや、表記揺れの範囲内にあるキーワードや、一部が誤って入力される検索キーワード等も情報検索に利用可能となる。従って、情報検索の精度が向上される。また、従来のように、大量のテキストデータの収集、形態素解析、単語辞書の準備等を用いずに検索用参照データの作成が可能となるので、検索用参照データ作成時の負荷を低減できる。
本発明の検索用参照データ作成装置では、前記関連度算出手段は、前記検索回数集計手段によって集計された前記検索回数に基づいて前記二つの検索キーワードのそれぞれに対応する二つの特徴量を算出し、この算出した二つの特徴量を用いて前記二つの検索キーワードの前記関連度を算出するのが好ましい。このように、関連度の算出は、検索キーワードのそれぞれの特徴量を用いて行われる。
本発明の検索用参照データ作成装置では、前記検索キーワードの前記特徴量は、前記検索キーワードと共に同一の検索クエリに含まれていた他の検索キーワード毎にそれぞれの前記検索回数の対応付けられたベクトル量であり、前記関連度は、前記二つの特徴量のそれぞれに対応する二つの前記ベクトル量のコサイン距離であるのが好ましい。このように、関連度の算出に用いる特徴量は、ベクトル量であり、関連度は、このベクトル量のコサイン距離となっている。
本発明の検索用参照データ作成装置では、前記検索履歴格納手段は、前記メモリに格納された前記検索履歴を所定期間毎に更新するのが好ましい。従って、直近の検索履歴のみを利用できる。
前記検索回数集計手段は、前記検索回数を前記検索クエリの入力元毎に集計するのが好ましい。このように、集計結果は、検索クエリの入力元(例えばユーザ等)に特有のものとなるので、入力元毎に好適な検索用参照データを作成できる。
本発明の情報検索装置は、上記の何れかの検索用参照データ作成装置によって作成される検索用参照データを用い、入力された検索クエリに応じて情報検索を行う情報検索装置であって、前記入力された検索クエリに含まれる一又は複数の検索キーワードの関連語を前記検索用参照データを用いて取得する関連語取得手段と、前記入力された検索クエリと前記関連語取得手段によって取得された前記関連語とに基づいて前記情報検索を行う情報検索手段と、を備える、ことを特徴とする。
本発明の情報検索方法は、上記の何れかの検索用参照データ作成装置によって作成される検索用参照データを用い、入力された検索クエリに応じて情報検索を行う検索装置を用いた情報検索方法であって、前記検索装置が、前記入力された検索クエリに含まれる一又は複数の検索キーワードの関連語を前記検索用参照データを用いて取得する関連語取得ステップと、前記検索装置が、前記入力された検索クエリと前記関連語取得ステップにおいて取得した前記関連語とに基づいて前記情報検索を行う情報検索ステップと、を備える、ことを特徴とする。
本発明の情報検索装置及び情報検索方法によれば、過去の検索履歴に基づいて作成された検索用参照データが情報検索に用いられるので、情報検索の信頼性を向上できる。また、検索用参照データは、過去の検索履歴に基づく検索キーワード間の関連度を含むので、このような検索用参照データを用いれば、検索クエリだけでなく、この検索クエリに関連する複数の検索キーワードも情報検索に利用できるようになる。例えば、検索クエリに近い意味の検索キーワードや、表記揺れの範囲にあるキーワードや、一部が誤って入力される検索キーワード等も情報検索に利用可能となる。
本発明の情報検索装置では、前記関連語取得手段は、前記検索用参照データ作成装置によって集計された検索回数を用いて、前記入力された検索クエリに含まれている検索キーワードと共に他の検索クエリに含まれていた他の第1の検索キーワード、を更に取得し、前記情報検索手段は、前記関連語取得手段によって取得された前記第1の検索キーワードを更に用いて、前記情報検索を行うのが好ましい。このように、検索用参照データ作成装置によって集計された検索回数を用いて取得された他の第1の検索キーワードも更に用いられるので、情報検索の精度を向上できる。
本発明の情報検索装置では、前記関連語取得手段は、前記検索用参照データ作成装置のメモリに格納された検索履歴を用いて、前記入力された検索クエリに含まれている検索キーワードと共に一の検索セッション内に入力された他の第2の検索キーワード、を更に取得し、前記情報検索手段は、前記関連語取得手段によって取得された前記第2の検索キーワードを更に用いて、前記情報検索を行うのが好ましい。このように、入力された検索クエリに含まれている検索キーワードと共に一の検索セッション内に入力された他の第2の検索キーワードも用いられるので、情報検索の精度を向上できる。
本発明によれば、検索クエリが誤入力された場合や、検索キーワードの表現に揺らぎがあるような場合であっても、好適な検索結果を得ることができるような検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法を提供できる。
実施形態に係る情報検索システムの構成を示す図である。 実施形態に係る検索用参照データ作成装置の構成を示す図である。 実施形態に係る情報検索装置の構成を示す図である。 実施形態に係る検索クエリDBに格納される検索履歴データの一例を示す図である。 実施形態に係る検索回数DBに格納される検索回数データの一例を示す図である。 実施形態に係る関連度DBに格納される検索用参照データの一例を示す図である。 実施形態に係る各種データの具体例を示す図である。 実施形態に係る検索用参照データ作成装置の動作を説明するためのフローチャートである。 実施形態に係る情報検索装置の動作を説明するためのフローチャートである。
以下、図面を参照して、本発明に係る好適な実施形態について詳細に説明する。なお、図面の説明において、可能な場合には、同一要素には同一符号を付し、重複する説明を省略する。図1は、実施形態に係る情報検索システム1の構成を説明するための図である。情報検索システム1は、通信端末10、ネットワークN、検索用参照データ作成装置11及び情報検索装置12を備え、通信端末10に対し情報を提供するシステムである。通信端末10に提供される情報は、通信端末10からネットワークNを介して送信される検索クエリに応じた情報検索の結果を示す検索結果リストである。ネットワークNは、例えば、移動体通信網やインターネット等を含む。
通信端末10は、携帯電話等の通信装置であり、ネットワークNにアクセスする機能を有しており、URLを含むHTTPリクエストをネットワークN側に送信することによって、このURLに対応するWebページをネットワークN側から受信する。通信端末10は、ネットワークNを介して、検索用参照データ作成装置11及び情報検索装置12と通信する機能を有している。通信端末10は、ユーザによって入力された情報検索用の検索クエリを、ネットワークNを介して情報検索装置12に送信することによって、この検索クエリに応じた検索結果リストをネットワークNを介して情報検索装置12から受信する。通信端末10がネットワークN側に送信する検索クエリは、一又は複数の検索キーワード(例えば「レストラン」や「クーポン」等)を含みこれらの検索キーワードに関連するコンテンツ(ネットワークNを介してアクセス可能なデジタルコンテンツ)のURLの検索を情報検索装置12に指示するためのデータである。
検索用参照データ作成装置11は、ネットワークNを介して通信端末10から送信された検索クエリを蓄積し、この蓄積した過去の検索クエリに基づいて情報検索装置12が情報検索に用いる検索用参照データを作成する。情報検索装置12は、ネットワークNを介して通信端末10から送信された検索クエリに応じて、検索用参照データ作成装置11の検索用参照データを用いた情報検索を行い、この情報検索の検索結果を示す検索結果リストを作成し、この検索結果リストをネットワークNを介して通信端末10に送信する。
次に、図1及び図2を参照して、検索用参照データ作成装置11の構成を説明する。検索用参照データ作成装置11は、図2に示すように、物理的には、CPU11a、ROM11b、RAM11c、通信装置11d及び記憶装置11e等を有しており、これらCPU11a〜記憶装置11eはバス11iに接続されている。CPU11aは、ROM11b等の内蔵メモリに格納された所定のコンピュータプログラムをRAM11cにロードして実行することによって、検索用参照データ作成装置11を統括的に制御する。通信装置11dは、外部の通信機器(通信端末10や情報検索装置12等)と通信を行うためのインターフェイスを有する。記憶装置11eは、書き込み/読み出しが自在なメモリであって、各種コンピュータプログラム(特に、図8のフローチャートに示す処理を実行するためのコンピュータプログラム)を格納する。記憶装置11eは、コンピュータプログラムの実行に必要な各種データ及びコンピュータプログラムの実行によって得られる各種データ等、を格納するための検索クエリDB11f、検索回数DB11g及び関連度DB11h(DB;データベース)を含む。
また、検索用参照データ作成装置11は、図1に示すように、機能的には、検索履歴格納手段110、検索回数集計手段111及び関連度算出手段112を有する。これらの検索履歴格納手段110〜関連度算出手段112は、CPU11aがROM11b等の検索用参照データ作成装置11の内蔵メモリに格納された上記コンピュータプログラムを実行し、図2に示す検索用参照データ作成装置11の各構成部を動作させることによって実現される機能である。CPU11aは、上記コンピュータプログラムを実行することによって(検索履歴格納手段110〜関連度算出手段112を用いて)、図8のフローチャートに示す処理を実行する。
検索履歴格納手段110は、通信装置11dを介して通信端末10からの検索クエリを受信し、この検索クエリを、検索クエリDB11fに格納する。検索履歴格納手段110は、検索クエリDB11fに格納される検索クエリを、所定期間毎に更新(定期的にクリア)する。検索クエリDB11fに格納される検索クエリの内容は、ユーザID及びタイムスタンプと共に図4に示す検索履歴データD1に登録される。検索履歴データD1は、検索クエリDB11fに格納されている。検索履歴データD1に示す検索クエリの内容は、検索クエリを構成する検索キーワード(例えば、単語W1や単語W2等)である。検索クエリは、空白文字等を挟んでこのような単語W1や単語W2等を含む。検索履歴データD1に示すユーザIDは、検索クエリを送信した通信端末10を一意に識別できる識別番号(通信アドレス等)であり、検索履歴データD1に示すタイムスタンプは、検索クエリを受信した時刻である。
検索回数集計手段111は、検索クエリDB11fに格納されている検索履歴データD1を用いて、検索クエリの検索回数Fを検索クエリ毎に集計する。この集計結果(検索回数F)は、検索回数データD2に登録される。検索回数データD2に示す検索キーワードK11及び検索キーワードK12は、同一の検索クエリに含まれる二つの検索キーワード(単語W1や単語W2等)に対応している。なお、検索回数データD2に登録される検索キーワードの数は、検索キーワードK11及び検索キーワードK12のように二つに限るものではなく、一つ又は3つ以上であってもよい。検索回数Fに示す検索回数は、検索キーワードK11及び検索キーワードK12それぞれの検索キーワード(単語W1や単語W2等)が共通の検索クエリに含まれた状態で行われた情報検索の回数である。検索回数データD2は、検索回数DB11gに格納されている。
関連度算出手段112は、検索回数DB11gに格納されている検索回数データD2を参照し、検索履歴データD1に登録されている二つの検索キーワード(単語W1や単語W2等である)の関連度Rを、下記に示す方法に基づいて算出する。関連度Rの算出対象となる二つの検索キーワードを検索キーワードK21及び検索キーワードK22とする。まず、検索キーワードK21及び検索キーワードK22のそれぞれの特徴量を算出する。検索キーワードK21の場合、この特徴量は、検索キーワードK21と共に同一の検索クエリに含まれていた他の検索キーワード毎にそれぞれの検索回数Fの対応付けられたベクトル量である。図5に示す検索回数データD2を参照して説明する。検索キーワードK21を単語W1とすると、単語W1と共に同一の検索クエリに含まれていた他の検索キーワードは単語W2〜単語W6であり、それぞれの検索回数Fが図5に示す検索回数データD2に示されている。そこで、検索キーワードK21(単語W1)の特徴量は、単語W2〜単語W6毎に、それぞれの検索回数Fの対応付けられたベクトル量となる。kを正の整数とし、ベクトル量の第k成分を単語Wkに対応させると(以下同様)、この場合、単語W1及び単語Wkが共通の検索クエリに含まれた状態で情報検索の行われた回数(検索回数F)が、単語W1のベクトル量の第k成分の値となる。検索キーワードK22の特徴量も、上記した検索キーワードK21の特徴量と同様のベクトル量である。
なお、特徴量(ベクトル量)に用いる検索回数Fの値は、TF/IDF(Term Frequency / Inverse Document Frequency)法によって重み付けされる。多くの単語と共に使われる単語の検索回数は特徴量としてあまり意味を持たないからである。この重み付けの値(IDF値)は、以下のように算出される。すなわち、検索回数データD2の全レコード数をLa(Laは正の整数)とし、検索回数データD2に含まれており単語Wkを含むレコード数をm(k)とすると(この場合、kはLa以下の正の整数)、単語Wkの場合の重み付けの値IDF(k)は、下記数式1によって算出される。なお、以下の説明において、ベクトル量に用いる検索回数Fの値は、上記のように重み付けされた値であるとする。
Figure 2010231344
次に、検索キーワードK21及び検索キーワードK22間の関連度Rは、検索キーワードK21及び検索キーワードK22それぞれのベクトル量(特徴量)から下記数式2を用いて算出される。数式2によって算出される関連度Rはコサイン距離に対応している。ここで、検索キーワードK21のベクトル量をV21={v21(1)、v21(2)・・v21(p)}とし(pは正の整数)、検索キーワードK22のベクトル量をV22={v22(1)、v22(2)・・v22(p)}とする。数式2によって算出される関連度Rは、0以上1以下の値であり、ベクトル量V21及びベクトル量V22の関連性が高いほど1に近い値となる。
Figure 2010231344
関連度算出手段112は、上記のようにして算出した関連度Rを、関連度DB11hに格納されている検索用参照データD3(図6)に登録する。検索用参照データD3において、検索キーワードK21及び検索キーワードK22の関連度Rは、検索キーワードK21及び検索キーワードK22に対応付けられている。
次に、図1及び図3を参照して、情報検索装置12の構成を説明する。情報検索装置12は、図3に示すように、物理的には、CPU12a、ROM12b、RAM12c、通信装置12d及び記憶装置12e等を有しており、これらCPU12a〜記憶装置12eはバス12fに接続されている。CPU12aは、ROM12b等の内蔵メモリに格納された所定のコンピュータプログラムをRAM12cにロードして実行することによって、情報検索装置12を統括的に制御する。通信装置12dは、外部の通信機器(通信端末10や検索用参照データ作成装置11等)と通信を行うためのインターフェイスを有する。記憶装置12eは、書き込み/読み出しが自在なメモリであって、各種コンピュータプログラム(特に、図9のフローチャートに示す処理を実行するためのコンピュータプログラム)を格納する。記憶装置12eは、コンピュータプログラムの実行に必要な各種データ及びコンピュータプログラムの実行によって得られる各種データ(検索結果リスト)等、を格納する。
また、情報検索装置12は、図1に示すように、機能的には、関連語取得手段120、情報検索手段121及び検索結果リスト作成手段122を有する。これらの関連語取得手段120〜検索結果リスト作成手段122は、CPU12aがROM12b等の情報検索装置12の内蔵メモリに格納された上記コンピュータプログラムを実行し、図3に示す情報検索装置12の各構成部を動作させることによって実現される機能である。CPU12aは、上記コンピュータプログラムを実行することによって(関連語取得手段120〜検索結果リスト作成手段122を用いて)、図9のフローチャートに示す処理を実行する。
関連語取得手段120は、通信装置12dを介して通信端末10から検索クエリを受信すると、この受信した検索クエリ(元の検索クエリ)を解析し、この検索クエリに含まれる全ての検索キーワードを特定する。そして、関連語取得手段120は、特定した検索キーワード(検索キーワードK31とする)に関連する他の検索キーワード(検索キーワードK41とする)と、検索キーワードK31及び検索キーワードK41の関連度Rとを、関連度DB11hの検索用参照データD3から通信装置12dを介して取得する。なお、検索用参照データD3に登録されている検索キーワードK21及び検索キーワードK22は、過去に同一の検索クエリに含まれた状態で情報検索が行われたものであってもよい。関連語取得手段120は、特定した全ての検索キーワードのそれぞれに関連する複数の他の検索キーワードと、この複数の他の検索キーワードのそれぞれの関連度Rとを、上記のようにして、関連度DB11hから取得する。
検索クエリがn個(nは正の整数)の検索キーワードK31〜K3nから構成され、検索キーワードK31〜K3nのそれぞれが単語W1〜単語Wnの場合(元の検索クエリ)に、例えば検索キーワードK31には、単語W1と、この単語W1に関連し関連度DB11hから関連語取得手段120によって取得された他の単語との何れか一の単語が設定される。他の検索キーワードK32〜検索キーワードK3nも、検索キーワードK31の場合と同様に単語の設定が行われる。検索キーワードK31〜検索キーワードK3nのそれぞれの単語には、それぞれの関連度R(元の検索クエリの検索キーワードK31〜検索キーワードK3nの単語W1〜単語Wnとの関連度)が紐付けられている。関連語取得手段120は、検索キーワードK31〜検索キーワードK3nに設定可能な単語の全ての組み合わせ(複数の新たな検索クエリであり、元の検索クエリの関連語に相当する)と、この新たな検索クエリの検索キーワードK31〜検索キーワードK3nのそれぞれに紐付けされた関連度Rとを、元の検索クエリと共に情報検索手段121に送信する。
情報検索手段121は、関連語取得手段120から送信された複数の新たな検索クエリと元の検索クエリとに基づいて情報検索を行い、それぞれの検索クエリに適合したURLと、このURLの適合度合(Score)と、適合度合順にソートした場合の順位(Rank)とを含む検索結果を取得する。適合度合(Score)は、検索クエリに対し、検索したURLがどの程度適合しているかを示す指標である。情報検索手段121は、検索クエリ毎にScoreを算出する。情報検索手段121は、算出したScoreに、このScoreに対応する検索クエリの検索キーワードK31〜検索キーワードK3nのそれぞれの関連度Rの値の積(重みα)を乗じる。元の検索クエリの場合の重みαは、特に、予め設定された定数α(0)であるとする(以下、Scoreは、重みαが乗じられた値であるとする)。情報検索手段121は、検索結果を検索結果リスト作成手段122に送信する。なお、情報検索手段121の機能を外部の検索エンジンに替えてもよい。また、Scoreを取得せずにRankのみ取得する場合や、Rankを取得せずにScoreのみ取得する場合等であってもよい。Rankを取得する場合、情報検索手段121は、ScoreをRankの逆数として求めてもよい。
Scoreの算出は例えば以下の方法で行う。予め検索対象となる各文書について、文書d_1で出現する単語t_1の頻度TF(t_1,d_1)(Term Frequency)を算出する。更に、各単語が出現する文書数をdf(t_1)、全文書数をN_1として次式で示す単語の重みIDF(t_1)(InverseDocument Frequency)を算出する。IDF(t_1)=log{N_1/df(t_1)+1}。これらのTF(t_1,d_1)とIDF(t_1)の値を単語t_1について乗じることで、文書d_1で出現する単語t_1の重み付頻度TF・IDF(t_1,d_1)を求める。IDF(t_1)の値は多くの文書で使用されるありふれた単語であるほど小さい値となる。検索クエリが入力されると、検索クエリに含まれる単語に対応するTF・IDF(t_1,d_1)の値を文書d_1のScoreとする。複数の単語が検索クエリに含まれる場合は、全ての単語に対応するTF・IDF(t_1,d_1)の合計値を文書d_1のScoreとする。また、必要に応じてTF・IDF値に加えて、文書d_1の重要度を考慮してScoreを算出しても良い。文書の重要度を算出する方法は、例えば、USP6285999B1(PageRank),USP611202(HITS)等に開示されている。これらの方法で求められる重要度をTF・IDFに加算あるいは乗算した値をScoreとしても良い。また、検索クエリを含む文書についての重要度をそのままScoreとしても良い。上記の方法で求められたScoreを大きいものから順に文書をソートして順位付けしたものをRankとする。
次に、図8を参照して、検索用参照データ作成装置11の動作を説明する。図8は、検索用参照データ作成装置11の動作を説明するためのフローチャートである。検索履歴格納手段110は、通信装置11dを介して通信端末10からの検索クエリを受信し、この検索クエリを、検索クエリDB11fに格納する(ステップS1)。検索履歴格納手段110は、検索クエリDB11fに格納される検索クエリを、所定期間毎に更新(定期的にクリア)する。検索クエリDB11fに格納される検索クエリの内容(検索キーワード)は、ユーザID及びタイムスタンプと共に図4に示す検索履歴データD1に登録される。
ステップS1の後、検索回数集計手段111は、検索クエリDB11fに格納されている検索履歴データD1を用いて、検索クエリの検索回数Fを検索クエリ毎に集計し、この集計結果(検索回数F)を検索回数データD2に登録する(ステップS2)。ステップS2の後、関連度算出手段112は、検索回数DB11gに格納されている検索回数データD2を参照し、検索履歴データD1に登録されている二つの検索キーワード(単語W1や単語W2等)の関連度Rを算出し、この関連度Rと二つの検索キーワードとを対応付ける検索用参照データD3を作成する(ステップS3)。関連度算出手段112は、検索用参照データD3を検索回数DB11gに格納する。
なお、検索回数集計手段111は、ステップS2において、検索回数Fを検索クエリの入力元毎に(例えば通信端末10毎に)集計し、検索回数データD2を検索クエリの入力元毎に作成してもよい。この場合、関連度算出手段112は、ステップS3において、検索クエリの入力元毎に関連度Rを算出し、検索クエリの入力元毎に検索用参照データD3を作成する。
次に、図9を参照して、情報検索装置12の動作を説明する。図9は、情報検索装置12の動作を説明するためのフローチャートである。まず、関連語取得手段120は、通信装置12dを介して通信端末10から検索クエリを受信すると(ステップS4)、この受信した検索クエリ(元の検索クエリ)を解析し、この元の検索クエリの関連語に相当する複数の新たな検索クエリを取得し、この取得した複数の新たな検索クエリと元の検索クエリとを情報検索手段121に送信する(ステップS5)。
ステップS5の後、情報検索手段121は、関連語取得手段120から送信された新たな複数の検索クエリと元の検索クエリとに基づいて情報検索を行い、それぞれの検索クエリに適合したURLと、このURLの適合度合(Score)と、適合度合順にソートした場合の順位(Rank)とを含む検索結果を取得する(ステップS6)。ステップS6の後、検索結果リスト作成手段122は、情報検索手段121から送信された検索結果に基づいて、この検索結果を示す検索結果リストを作成し(ステップS7)、この作成した検索結果リストを通信装置12dを介して通信端末10に送信する(ステップS8)。
なお、関連語取得手段120は、検索用参照データD3が検索クエリの入力元毎に作成されている場合に、ステップS5において、通信装置12dを介して受信した元の検索クエリの入力元(通信端末10)についての検索用参照データD3から、元の検索クエリの関連語に相当する複数の新たな検索クエリを取得してもよい。
次に、実施例として、検索クエリ“レストラン クーポン”が通信端末10から入力された場合について説明する。関連語取得手段120は、“レストラン”及び“クーポン”それぞれの関連語と関連度Rとを、関連度DB11hの検索用参照データD3から取得する。図7(A)は、検索キーワードK1等に“レストラン”及び“クーポン”を含む検索用参照データD3の具体例である。そして、情報検索手段121は、“レストラン”及び“クーポン”それぞれの関連語から成る複数の新たな検索クエリ毎に、URL、Score及びRankを取得する。図7(B)に、新たな検索クエリと、この新たな検索クエリそれぞれの重みαとを示す。
次に、検索用参照データ作成装置11の作用・効果を説明する。検索用参照データ作成装置11は、情報検索用の検索キーワードを含み情報検索に用いる検索用参照データD3を作成する装置である。検索用参照データ作成装置11は、検索履歴格納手段110、検索回数集計手段111及び関連度算出手段112を備える。検索履歴格納手段110は、一又は複数の検索キーワードを含む検索クエリによる検索履歴を検索クエリ毎にRAM11cや記憶装置11e等の検索用参照データ作成装置11の内蔵メモリ(内蔵メモリ内の検索履歴データD1)に格納する。検索回数集計手段111は、検索履歴格納手段110によって検索用参照データ作成装置11の内蔵メモリに格納された検索履歴に基づいて検索クエリの検索回数Fを検索クエリ毎に集計する。関連度算出手段112は、検索回数集計手段111によって集計された検索回数Fに基づいて検索履歴に含まれている二つの検索キーワードの関連度Rを算出し、この算出した関連度Rと当該二つの検索キーワードとを対応付ける検索用参照データを作成する(第1の態様)。
このように、情報検索に用いる検索用参照データが、過去の検索履歴に基づいて作成されるので、検索用参照データの信頼性が向上される。また、検索用参照データは、過去の検索履歴に基づく検索キーワード間の関連度を含むので、このような検索用参照データを用いれば、検索クエリだけでなく、この検索クエリに関連する複数の検索キーワードも情報検索に利用できるようになる。例えば、検索クエリに近い意味のキーワードや、表記揺れの範囲内にあるキーワードや、一部が誤って入力されるキーワード等も情報検索に利用可能となる。従って、情報検索の精度が向上される。また、従来のように、大量のテキストデータの収集、形態素解析、単語辞書の準備等を用いずに検索用参照データの作成が可能となるので、検索用参照データ作成時の負荷を低減できる。
第1の態様において、関連度算出手段112は、検索回数集計手段111によって集計された検索回数Fに基づいて二つの検索キーワードのそれぞれに対応する二つの特徴量を算出し、この算出した二つの特徴量を用いて二つの検索キーワードの関連度Rを算出する(第2の態様)。このように、関連度の算出は、検索キーワードのそれぞれの特徴量を用いて行われる。
第2の態様において、検索キーワードの特徴量は、検索キーワードと共に同一の検索クエリに含まれていた他の検索キーワード毎にそれぞれの検索回数Fの対応付けられたベクトル量(例えばベクトル量V21やベクトル量V22等)であり、関連度Rは、二つの特徴量のそれぞれに対応する二つのベクトル量のコサイン距離となっている(第3の態様)。このように、関連度の算出に用いる特徴量は、ベクトル量であり、関連度は、このベクトル量のコサイン距離となっている。
第1〜第3の態様において、検索履歴格納手段110は、検索用参照データ作成装置11の内蔵メモリに格納された検索履歴(検索履歴データD1)を所定期間毎に更新する(第4の態様)。従って、直近の検索履歴のみを利用できる。
第1〜4の態様において、検索回数集計手段111は、検索回数Fを検索クエリの入力元毎に(例えば通信端末10等の通信端末やユーザ等毎に)集計する(第5の態様)。このように、集計結果は、検索クエリの入力元に特有のものとなるので、入力元毎に好適な検索用参照データD3を作成できる。
次に、情報検索装置12の作用・効果を説明する。情報検索装置12は、第1〜5の態様の何れか一の態様の検索用参照データ作成装置11によって作成される検索用参照データD3を用い、入力された検索クエリに応じて情報検索を行う。情報検索装置12は、関連語取得手段120及び情報検索手段121を備える。関連語取得手段120は、入力された検索クエリに含まれる一又は複数の検索キーワードの関連語を検索用参照データD3を用いて取得する。情報検索手段121は、入力された検索クエリと関連語取得手段120によって取得された関連語とに基づいて情報検索を行う(第6の態様)。
このように、過去の検索履歴に基づいて作成された検索用参照データD3が情報検索に用いられるので、情報検索の信頼性を向上できる。また、検索用参照データD3は、過去の検索履歴に基づく検索キーワード間の関連度を含むので、このような検索用参照データを用いれば、検索クエリだけでなく、この検索クエリに関連する複数の検索キーワードも情報検索に利用できるようになる。例えば、検索クエリに近い意味の検索キーワードや、表記揺れの範囲にあるキーワードや、一部が誤って入力される検索キーワード等も情報検索に利用可能となる。
(変形例1)なお、上記第6の態様における情報検索装置12は、下記構成を有していてもよい。関連語取得手段120は、検索用参照データ作成装置11によって集計された検索回数Fを用いて、入力された検索クエリに含まれている検索キーワードと共に他の検索クエリに含まれていた他の第1の検索キーワード、を更に取得し(この場合、検索回数Fを基準にして、検索回数の比較的多い検索キーワードを取得してもよい)、情報検索手段121は、関連語取得手段120によって取得された第1の検索キーワードを更に用いて情報検索を行う(第7の態様)。このように、検索用参照データ作成装置11によって集計された検索回数Fを用いて取得された他の第1の検索キーワードも用いられるので、情報検索の精度を向上できる。
(変形例2)更に、上記第6又は第7の態様における情報検索装置12は、下記構成を有していてもよい。第6又は7の態様において、関連語取得手段120は、検索用参照データ作成装置11の内蔵メモリに格納された検索履歴データD1を用いて、入力された検索クエリに含まれている検索キーワードと共に一の検索セッション内に入力された他の第2の検索キーワード、を更に取得し(この場合、検索回数Fを基準にして、検索回数の比較的多い検索キーワードを取得してもよい)、情報検索手段121は、関連語取得手段120によって取得された第2の検索キーワードを更に用いて情報検索を行う(第8の態様)。このように、入力された検索クエリに含まれている検索キーワードと共に一の検索セッション内に入力された他の第2の検索キーワードも用いられるので、情報検索の精度を向上できる。
1…情報検索システム、10…通信端末、11…検索用参照データ作成装置、110…検索履歴格納手段、111…検索回数集計手段、112…関連度算出手段、11a,12a…CPU、11b,12b…ROM、11c,12c…RAM、11d,12d…通信装置、11e,12e…記憶装置、11i,12f…バス、11f…検索クエリDB、11g…検索回数DB、11h…関連度DB、12…情報検索装置、120…関連語取得手段、121…情報検索手段、122…検索結果リスト作成手段、D1…検索履歴データ、D2…検索回数データ、D3…検索用参照データ

Claims (10)

  1. 情報検索用の検索キーワードを含み前記情報検索に用いる検索用参照データを作成する検索用参照データ作成装置であって、
    一又は複数の検索キーワードを含む検索クエリによる検索履歴を前記検索クエリ毎にメモリに格納する検索履歴格納手段と、
    前記検索履歴格納手段によって前記メモリに格納された前記検索履歴に基づいて前記検索クエリの検索回数を該検索クエリ毎に集計する検索回数集計手段と、
    前記検索回数集計手段によって集計された前記検索回数に基づいて前記検索履歴に含まれている二つの検索キーワードの関連度を算出し、この算出した関連度と当該二つの検索キーワードとを対応付ける前記検索用参照データを作成する関連度算出手段と、
    を備える、ことを特徴とする検索用参照データ作成装置。
  2. 前記関連度算出手段は、前記検索回数集計手段によって集計された前記検索回数に基づいて前記二つの検索キーワードのそれぞれに対応する二つの特徴量を算出し、この算出した二つの特徴量を用いて前記二つの検索キーワードの前記関連度を算出する、ことを特徴とする請求項1に記載の検索用参照データ作成装置。
  3. 前記検索キーワードの前記特徴量は、前記検索キーワードと、該検索キーワードと共に同一の検索クエリに含まれていた他の検索キーワード毎にそれぞれの前記検索回数が対応付けられたベクトル量であり、前記関連度は、前記二つの特徴量のそれぞれに対応する二つの前記ベクトル量のコサイン距離である、ことを特徴とする請求項2に記載の検索用参照データ作成装置。
  4. 前記検索履歴格納手段は、前記メモリに格納された前記検索履歴を所定期間毎に更新する、ことを特徴とする請求項1〜3の何れか一項に記載の検索用参照データ作成装置。
  5. 前記検索回数集計手段は、前記検索回数を前記検索クエリの入力元毎に集計する、ことを特徴とする請求項1〜4の何れか一項に記載の検索用参照データ作成装置。
  6. 請求項1〜請求項5の何れか一項に記載の検索用参照データ作成装置によって作成される検索用参照データを用い、入力された検索クエリに応じて情報検索を行う情報検索装置であって、
    前記入力された検索クエリに含まれる一又は複数の検索キーワードの関連語を前記検索用参照データを用いて取得する関連語取得手段と、
    前記入力された検索クエリと前記関連語取得手段によって取得された前記関連語とに基づいて前記情報検索を行う情報検索手段と、
    を備える、ことを特徴とする情報検索装置。
  7. 前記関連語取得手段は、前記検索用参照データ作成装置によって集計された検索回数を用いて、前記入力された検索クエリに含まれている検索キーワードと共に他の検索クエリに含まれていた他の第1の検索キーワード、を更に取得し、
    前記情報検索手段は、前記関連語取得手段によって取得された前記第1の検索キーワードを更に用いて、前記情報検索を行う、ことを特徴とする請求項6に記載の情報検索装置。
  8. 前記関連語取得手段は、前記検索用参照データ作成装置のメモリに格納された検索履歴を用いて、前記入力された検索クエリに含まれている検索キーワードと共に一の検索セッション内に入力された他の第2の検索キーワード、を更に取得し、
    前記情報検索手段は、前記関連語取得手段によって取得された前記第2の検索キーワードを更に用いて、前記情報検索を行う、ことを特徴とする請求項6又は7に記載の情報検索装置。
  9. 情報検索用の検索キーワードを含み前記情報検索に用いる検索用参照データを作成する作成装置を用いた検索用参照データ作成方法であって、
    前記作成装置が、一又は複数の検索キーワードを含む検索クエリによる検索履歴を前記検索クエリ毎に前記作成装置のメモリに格納する検索履歴格納ステップと、
    前記作成装置が、前記検索履歴格納ステップにおいて前記メモリに格納した前記検索履歴に基づいて前記検索クエリの検索回数を該検索クエリ毎に集計する検索回数集計ステップと、
    前記作成装置が、前記検索回数集計ステップにおいて集計した前記検索回数に基づいて前記検索履歴に含まれている二つの検索キーワードの関連度を算出し、この算出した関連度と当該二つの検索キーワードとを対応付ける前記検索用参照データを作成する関連度算出ステップと、
    を備える、ことを特徴とする検索用参照データ作成方法。
  10. 請求項1〜請求項5の何れか一項に記載の検索用参照データ作成装置によって作成される検索用参照データを用い、入力された検索クエリに応じて情報検索を行う検索装置を用いた情報検索方法であって、
    前記検索装置が、前記入力された検索クエリに含まれる一又は複数の検索キーワードの関連語を前記検索用参照データを用いて取得する関連語取得ステップと、
    前記検索装置が、前記入力された検索クエリと前記関連語取得ステップにおいて取得した前記関連語とに基づいて前記情報検索を行う情報検索ステップと、
    を備える、ことを特徴とする情報検索方法。
JP2009076331A 2009-03-26 2009-03-26 検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法 Pending JP2010231344A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009076331A JP2010231344A (ja) 2009-03-26 2009-03-26 検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009076331A JP2010231344A (ja) 2009-03-26 2009-03-26 検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法

Publications (1)

Publication Number Publication Date
JP2010231344A true JP2010231344A (ja) 2010-10-14

Family

ID=43047121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009076331A Pending JP2010231344A (ja) 2009-03-26 2009-03-26 検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法

Country Status (1)

Country Link
JP (1) JP2010231344A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189215A (ja) * 2016-07-05 2016-11-04 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP2017059014A (ja) * 2015-09-17 2017-03-23 株式会社アイ・ビジネスセンター 解析装置およびデータ検索装置,ならびにこれらの制御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034466A (ja) * 2005-07-25 2007-02-08 Yafoo Japan Corp 情報検索システム、情報検索プログラム
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034466A (ja) * 2005-07-25 2007-02-08 Yafoo Japan Corp 情報検索システム、情報検索プログラム
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200700304020; 山口雅史: 'サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化' 電子情報通信学会技術研究報告 Vol.106,No.148, 20060705, pp.121-126, 社団法人電子情報通信学会 *
JPN6013002878; 山口雅史: 'サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化' 電子情報通信学会技術研究報告 Vol.106,No.148, 20060705, pp.121-126, 社団法人電子情報通信学会 *
JPN7013000228; Bruno M. Fonseca: 'Using association rules to discover related queries' Proceedings of the First Latin American Web Congress , 200310 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059014A (ja) * 2015-09-17 2017-03-23 株式会社アイ・ビジネスセンター 解析装置およびデータ検索装置,ならびにこれらの制御方法
JP2016189215A (ja) * 2016-07-05 2016-11-04 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Similar Documents

Publication Publication Date Title
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
KR101475466B1 (ko) 모바일 검색 결과 혼합
CN101361068B (zh) 从用户日志推断搜索类别同义词的方法及系统
JP5494454B2 (ja) 検索結果生成方法、検索結果生成プログラムおよび検索システム
US20090271391A1 (en) Method and apparatus for rating user generated content in seach results
US7756867B2 (en) Ranking documents
US9116992B2 (en) Providing time series information with search results
US20150161173A1 (en) Similar search queries and images
US9177057B2 (en) Re-ranking search results based on lexical and ontological concepts
US20070239692A1 (en) Logo or image based search engine for presenting search results
EP2013703A2 (en) Propagating useful information among related web pages, such as web pages of a website
US20120066359A1 (en) Method and system for evaluating link-hosting webpages
US20120295633A1 (en) Using user's social connection and information in web searching
WO2009031759A1 (en) Method and system for generating search collection of query
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
US11226969B2 (en) Dynamic deeplinks for navigational queries
CN102364467A (zh) 一种网络搜索方法和系统
WO2014093808A2 (en) Utilizing keystroke logging to determine items for presentation
JP2007034772A (ja) Webサイト検索結果の最適表示システム及びその装置及びその方法及びそのプログラム
JP5290041B2 (ja) 情報検索装置及び情報検索方法
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2010231344A (ja) 検索用参照データ作成装置、情報検索装置、検索用参照データ作成方法及び情報検索方法
US9037591B1 (en) Storing term substitution information in an index
CN107423298B (zh) 一种搜索方法和装置
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130604