JP5426526B2

JP5426526B2 - 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム

Info

Publication number: JP5426526B2
Application number: JP2010284227A
Authority: JP
Inventors: 毅晴江田; 伸二宮原; 典史片渕; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-12-21
Filing date: 2010-12-21
Publication date: 2014-02-26
Anticipated expiration: 2030-12-21
Also published as: JP2012133520A

Description

本発明は、検索エンジン利用時にユーザが投入したクエリに関連するクエリを推薦する技術に関する。

情報が常に増え続けるというオープンエンド性を持つウェブ検索エンジン（Ｇｏｏｇｌｅ（http://www.google.com)、Ｂｉｎｇ(http://www.bing.com)、ｇｏｏ（http://www.goo.ne.jp)）は史上類を見ない情報源となり、人々の生活に欠かせないものとなった。我々は、身の回りのありとあらゆる情報を検索エンジンを利用して探すことができる。そうしたユーザの検索活動を支援する方法としてクエリ推薦がある。ユーザが入力中のクエリに対して、次に検索すべき関連クエリを推薦し、ユーザのキーボード入力の手間を省く効果がある。

一方で、検索エンジンはＰＣだけでなく携帯電話やタッチインタフェースを持つスマートフォンにおいても積極的に利用されつつある。しかしながら、携帯電話やスマートフォンには、ＰＣに比べて画面が狭いという制約があるため、従来のＰＣを対象とした検索支援技術をスマートフォン上では効果的に利用することができない。例えば、通常のクエリ推薦アルゴリズムを用いると、似た意味を持つクエリばかりが推薦されてしまう傾向があり、狭い画面で効果的に推薦クエリを提示することが困難になる。

意味の似たクエリばかりを推薦する状況は必ずしも間違いとは言えないこともある。ユーザの情報要求が一意に特定されているのなら、その要求に関連するクエリ集合だけを推薦すれば良い。しかしながら、一つのクエリだけで多種多様なユーザの情報要求を特定することは難しく、曖昧性を考慮した上でクエリを推薦することが望まれる。

尚、マルコフ遷移理論を応用したクエリ推薦アルゴリズムとして、ＲＷＲ（ＲａｎｄｏｍＷａｌｋＷｉｔｈＲｅｓｔａｒｔ）（非特許文献１）、ＨｉｔｔｉｎｇＴｉｍｅ（非特許文献２）およびそれら両者の組合せ（非特許文献３）が提案されている。いずれも、セッションを考慮していない点が本発明と大きく異なる。

セッションを考慮したユーザの情報要求のクラスタリング方法として、吸収マルコフ連鎖（ＡｂｓｏｒｂｉｎｇＭａｒｋｏｖＣｈａｉｎ）の吸収状態への分布を利用したもの（非特許文献４）が提案されている。この非特許文献４では、クエリ推薦までは未評価であると共に、ハードクラスタリングであるため、本発明のような、クエリの曖昧性を考慮したクエリ推薦を実現することはできない。

検索結果を多様化しユーザの理解度合いを向上させるためのクラスタリング方法が多数提案されている（例えば非特許文献５）。この非特許文献５は、多様性を高めるという点で、本発明と共通する考え方も見受けられるが、そもそも目的が異なるためクラスタリングアルゴリズムが異なり、その先の推薦アルゴリズム自体も研究されていない。

ＮｉｃｋＣｒａｓｗｅｌｌａｎｄＭａｒｔｉｎＳｚｕｍｍｅｒ，"ＲａｎｄｏｍＷａｌｋｓｏｎｔｈｅＣｌｉｃｋＧｒａｐｈ"，ＩｎＰｒｏｃ．ＳＩＧＩＲ，２００７ＱｉａｏｚｈｕＭｅｉ，ＤｅｎｇｙｏｎｇＺｈｏｕ，ａｎｄＫｅｎｎｅｔｈＣｈｕｒｃｈ，"ＱｕｅｒｙＳｕｇｇｅｓｔｉｏｎＵｓｉｎｇＨｉｔｔｉｎｇＴｉｍｅ"，ＩｎＰｒｏｃ．ＣＩＫＭ，ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００８，ｐｐ．４６９−４７８ＨａｏＭａ，ＭｉｃｈａｅｌＲ．Ｌｙｕ，ａｎｄＩｒｗｉｎＫｉｎｇ，"ＤｉｖｅｒｓｉｆｙｉｎｇＱｕｅｒｙＳｕｇｇｅｓｔｉｏｎＲｅｓｕｌｔｓ"，ＩｎＰｒｏｃ．ＡｓｓｏｃｉａｔｉｏｎｆｏｒｔｈｅＡｄｖａｎｃｅｍｅｎｔｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２０１０ＥｌｄａｒＳａｄｉｋｏｖ，ＪａｙａｎｔＭａｄｈａｖａｎ，ＬｕＷａｎｇ，ａｎｄＡｌｏｎＨａｌｅｖｙ，"ＣｌｕｓｔｅｒｉｎｇＱｕｅｒｙＲｅｆｉｎｅｍｅｎｔｓｂｙＵｓｅｒＩｎｔｅｎｔ"，ＩｎＰｒｏｃ．ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｆｅｒｅｎｃｅＣｏｍｍｉｔｔｅｅ，２０１０ＭａｒｉｎａＤｒｏｓｏｕａｎｄＥｖａｇｇｅｌｉａＰｉｔｏｕｒａ，"ＳｅａｒｃｈＲｅｓｕｌｔＤｉｖｅｒｓｉｆｉｃａｔｉｏｎ"，ＩｎＳＩＧＭＯＤＲｅｃｏｒｄ，Ｍａｒｃｈ２０１０，Ｖｏｌ．３９，Ｎｏ．１，ｐｐ．４１−４７

検索エンジン利用時にユーザが投入したクエリに関連するクエリを推薦する際に、従来のクエリ推薦アルゴリズムでは、入力クエリの情報要求やコンテキスト（文脈、前後関係、状況、条件）によらず関連クエリ集合に似た意味を持つクエリばかりが推薦されてしまうという問題があった。

本発明は上記課題を解決するものであり、その目的は、クエリの曖昧性を考慮したクエリ推薦を行なうことができる確率的情報検索処理装置、方法、プログラムを提供することにある。

上記課題を解決するために、本発明は、クエリの曖昧性を考慮した確率的なクエリ推薦フレームワークを構成した。すなわち、あらかじめ検索エンジンのクエリログを分析し、検索行動の単位となるセッショングラフから二部グラフを構築しておく。そして確率モデルを用いて前記二部グラフ中のクエリに対して情報要求のソフトクラスタリングを行う。これにより、セッショングラフ内のユーザの情報要求の確率的クラスタを得る。入力されたクエリに対して、前記確率的クラスタへの所属確率分布を利用してクエリの曖昧性を判定し、曖昧でない場合は一つのクラスタから関連クエリを推薦し、曖昧な場合は複数のクラスタから関連クエリを推薦する。

本発明の請求項１に記載の確率的情報検索処理装置は、情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理装置であって、情報検索のためにユーザが投入したクエリに対してクリックされたＵＲＬを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースと、前記セッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとＵＲＬを各々ノードとし、クエリ、ＵＲＬ間の関係をエッジとする二部グラフを構築するセッショングラフ構築手段と、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリング手段と、ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が１の場合は当該１つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦手段と、を備えたことを特徴としている。

（１）請求項１〜９に記載の発明によれば、検索エンジン利用時に関連クエリとして、入力クエリの曖昧性に応じて、情報要求に曖昧性がない場合には強く関連するクエリが推薦され、曖昧な場合には、関連する可能性の高い複数の情報要求から多様なクエリを推薦することができ、ユーザの検索満足度を向上することが期待できる。
（２）また請求項２、６に記載の発明によれば、セッション構築時のノイズを除去することができる。
（３）また請求項３、７に記載の発明によれば、ＥＭアルゴリズムを用いているため、情報要求のソフトクラスタリングを高精度に実現できる。
（４）また請求項４、８に記載の発明によれば、推薦するクエリの選択精度が向上する。

本発明の実施形態例による情報検索システムの構成図。本発明の実施形態例におけるセッショングラフ構築手段が実行する処理のフローチャート。本発明の実施形態例における確率的クラスタリング手段が実行する処理のフローチャート。本発明の実施形態例におけるクエリ推薦手段が実行する処理のフローチャート。本発明の実施形態例で取り扱うクリックログの例を示す説明図。本発明の実施形態例におけるセッションデータベースに保持されるセッションの例を示す説明図。本発明の実施形態例で取り扱うクエリの「京都」からはじまるセッションの例を示す説明図。本発明の実施形態例で取り扱うクエリの「京都」とのセッション共起頻度を表す説明図。本発明の実施形態例におけるセッショングラフ構築手段の処理によって得られる、“京都”と同一セッションで共起したクリックログの例を示す説明図。本発明の実施形態例におけるセッショングラフ構築手段の処理によって得られる、セッショングラフ（二部グラフ）の例を示す説明図。本発明の実施形態例における確率的クラスタリング手段で用いるクエリ（ｑ）とＵＲＬ（ｒ）の隠れ変数（ｚ）モデルの説明図。本発明の実施形態例における確率的クラスタリング手段が行なうソフトクラスタリングを表す説明図。本発明の実施形態例によるクエリの曖昧性を考慮したクエリ推薦の直観的イメージを示す説明図。本発明の実施形態例におけるクエリ推薦手段が行なう複数クラスタからの推薦クエリマージ方法を示す説明図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図１は、本発明を、ユーザが大量のテキスト文書や画像、動画等の情報を検索する情報検索システムに適用した実施例を示している。

図１において、１００は、例えば大量のテキスト文書や画像、動画等の情報検索を行なうユーザが操作するユーザ端末であり、このユーザ端末１００はネットワーク２００を介して確率的情報検索処理装置３００に接続されている。

ユーザ端末１００は、データ通信を実行する通信手段１０１、各種データを記憶する記憶手段１０２、各種データの処理を行なうデータ処理手段１０３およびデータ入出力機能（データの入力部、表示部）を有したユーザインターフェース１０４を備えている。

確率的情報検索処理装置３００は、通信インターフェース３１０と、セッショングラフ構築手段３２１、確率的クラスタリング手段３２２およびクエリ推薦手段３２３を有して確率的情報検索処理（被検索文書格納処理、索引付け処理、セッショングラフ構築処理、確率的クラスタリング処理、検索処理および関連クエリ推薦処理等を含む）を実行する制御手段３２０と、被検索文書や後述するセッション毎のクリックログ、制御手段３２０の各処理結果等を記憶する記憶手段３３０とを備えている。

前記セッショングラフ構築手段３２１は、記憶手段３３０に記憶されている、後述のセッション毎のクリックログから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとＵＲＬを各々ノードとし、クエリ、ＵＲＬ間の関係をエッジとする二部グラフを構築して、クエリとＵＲＬの共起モデルを取得する。

前記確率的クラスタリング手段３２２は、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める。

前記クエリ推薦手段３２３は、ユーザ端末１００からクエリが入力された際に、前記確率的クラスタリング手段３２２により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が１の場合は当該１つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦する。

尚３２４は、後述する各種設定値、しきい値、推薦クエリ数等を制御手段３２０に入力する入力装置である。

３２５は、制御手段３２０内の各手段３２１〜３２３の処理結果を出力する出力装置である。

前記記憶手段３３０は、ＲＯＭ３３１，ＲＡＭ３３２，ＨＤＤ３３３，ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）３３４を備えている。

前記確率的情報検索処理装置３００は、具体的には例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えば通信インターフェース(Ｉ／Ｆ)、ＣＰＵ、キーボードなどの入力装置、ディスプレイ、プリンターなどの出力装置、ＲＯＭ、ＲＡＭ、ＨＤＤ、ＳＳＤ等を備えている。

このハードウェアリソースとソフトウェアリソース（ＯＳ、アプリケーションなど）との協働の結果、前記装置３００は、セッショングラフ構築手段３２１、確率的クラスタリング手段３２２、クエリ推薦手段３２３、後述するセッション毎のクリックログが格納されたセッションＤＢ（データベース）（図示省略）を実装する。

前記セッションＤＢはＲＡＭ３３２、ＨＤＤ３３３、ＳＳＤ３３４などの保存手段・記憶手段に構築されているものとする。

次に、上記のように構成された情報検索システムを詳細に説明する。本実施形態例においては、（１）セッショングラフ構築手段３２１が、クリックログからのセッショングラフの構築を行なう処理（図２に示す処理Ａ）、（２）確率的クラスタリング手段３２２が、クエリとＵＲＬの共起モデルを用いたクエリの確率的クラスタリングを行なう処理（図３に示す処理Ｂ）、（３）クエリ推薦手段３２３が、確率的クラスタへの所属確率を用いたクエリの曖昧性に基づいたクエリ推薦を行なう処理（図４に示す処理Ｃ）とが、以下のようにして実施される。

＜クリックログからのセッショングラフの構築＞
クリックログとは、検索サービスを利用したユーザの投入キーワードに対してクリックされたＵＲＬを記録したログデータである。例えば図５に示すように、通常は、ＵＲＬだけでなく、クリックした時刻を表すタイムスタンプと、ユーザを識別するためのセッションＩＤが保存される。

制御手段３２０では、これらのクリックログから図６のようにセッション（アクセス継続期間）を切りだす。通常は、同一セッションＩＤで、例えば最長１０分などの条件でクリックログから切りだされる（非特許文献４参照）。そして取り出したセッションは、あるクエリを含むかどうか判定できる形でデータベース等（例えば図１のＨＤＤ３３３内に構築されるセッションＤＢ）に保存しておく。

セッショングラフ構築手段３２１は、図７の「京都」のように、入力となるクエリを含むセッションをセッションデータベースから取り出し（図２のステップＳ１１，Ｓ１２）、それらのセッションをマージしてセッショングラフを構築する（図２のステップＳ１３）。

その際に、例えば図８のように同一セッションで共起した回数を頻度として数え、セッション構築時のノイズを除去するために、高頻度のクエリあるいはＵＲＬを含むセッションを選択する。すなわち図８の図示Ｘ部分のように、セッション共起頻度の高いクエリを用いてセッショングラフを構築する。そして選択されたクリックログを集約することにより、図９のようなセッションに限定されたクリックログを取得できる。このグラフは、図１０のように、クエリ×ＵＲＬの共起行列と等価であるとともに枝（エッジ）の重みを頻度とする二部グラフ（共起モデル）とみなすことができる。

図１０は図９のクリックログをクエリとＵＲＬを各々ノードとし、クエリ、ＵＲＬ間の関係をエッジとする二部グラフで表現したものであり、エッジは頻度であり、枝が無いところの頻度は０となる。また同じクエリから異なるＵＲＬをクリックすることもある。

＜クエリとＵＲＬの共起モデルを用いたクエリの確率的クラスタリング＞
セッショングラフ構築手段３２１によってクエリとＵＲＬの共起モデルが得られたので、確率的クラスタリング手段３２２では、図１１に示す隠れ変数モデル（確率的潜在意味解析；ＰＬＳＩ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）モデル）を用いて共起行列の次元縮約処理およびソフトクラスタリングを行う。

今、クエリｑとＵＲＬｒは、隠れ変数ｚの基で独立に生起すると仮定する。ｑとｒの共起確率ｐ（ｑ，ｒ）は、ｚを介在して下記式（１）のように展開できる。

この式（１）および図１１におけるｐ（ｑ｜ｚ）はｚからｑが生起する確率、ｐ（ｒ｜ｚ）はｚからｒが生起する確率、ｐ（ｚ）は条件なしにｚが生起する確率である。

このモデルのそれぞれの確率ｐ（ｑ｜ｚ）、ｐ（ｒ｜ｚ）、ｐ（ｚ）を求めると、ｑからｚが生起する確率ｐ（ｚ｜ｑ）を求めることができる。隠れ変数ｚとして、クラスタ数に相当する適当な個数を設定することにより、ｐ（ｚ｜ｑ）（ｚ∈Ｚ）は、ｑのクラスタ集合への所属確率分布とみなすことにより、図１２のようにソフトクラスタリングが実現できる。図１２においてＺｊ_|z|が前記クラスタ数に相当する個数である。

確率の計算は、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを用いて行う。ＥＭアルゴリズムは、期待値を求めるステップ（Ｅステップ）と期待値を最大化するステップ（Ｍステップ）からなる逐次更新型のアルゴリズムである。適当な初期値を設定し繰り返し計算することにより、局所最適解に収束することが保証されている。ＥＭアルゴリズムの更新式において、温度パラメータ（統計力学における温度パラメータβ）を導入し、尤度を滑らかにしてやることにより、より大域最適解に近づけることができる。

確率的クラスタリング手段３２２における、前記ＥＭアルゴリズムを用いた、セッショングラフに対する確率的クラスタリングの処理は図３のフローチャートに沿って実行される。

まずステップＳ２１において、セッショングラフ構築手段３２１により構築されたセッショングラフ（図１０)ＣＳＱと、隠れ変数としての潜在変数（＝クラスタ数）ｋと、ＥＭアルゴリズム停止条件ｃｏｎｄとが入力される。

次にステップＳ２２において、ｐ（ｚｉ）、ｐ（ｑ｜ｚｉ）、ｐ（ｒ｜ｚｉ）に、確率分布となるランダムな初期値を設定する。

前記潜在変数ｋ、ＥＭアルゴリズム停止条件ｃｏｎｄおよびランダムな初期値は、例えば入力装置３２４によってオペレータが設定し入力する。

次にステップＳ２３，Ｓ２４において、ＥＭアルゴリズム停止条件ｃｏｎｄが真となるまで、ＥＭアルゴリズムの更新式によってｐ（ｚｉ）、ｐ（ｑ｜ｚｉ）、ｐ（ｒ｜ｚｉ）を更新しながら前記ＥステップとＭステップを繰り返し実行する。

ＥＭアルゴリズム停止条件ｃｏｎｄが真となったらステップＳ２５において、ｐ（ｚｉ）、ｐ（ｑ｜ｚｉ）、ｐ（ｒ｜ｚｉ）が出力される。

そして、ベイズ則（ベイズの定理；Ｂａｙｅｓ’ｔｈｅｏｒｅｍ）により、ＥＭアルゴリズムの出力であるｐ（ｚｊ），ｐ（ｑ｜ｚｊ），ｐ（ｒ｜ｚｊ）を用いて、クエリから隠れ変数が生起する確率ｐ（ｚｊ｜ｑｉ）が下記の式（２）のように求められる。

確率ｐ（ｚｊ｜ｑｉ）はクエリｑｉからある隠れ変数が生起する確率であり、隠れ変数をクラスタとみなすことにより、クラスタへの所属確率を表わしていると考えることができ（図１２)、全てクラスタへの確率を足すと１になることにより、確率分布ともなっている。したがって、この確率分布をクエリ推薦手段３２３において分析することにより、そのクエリが、すでに投入されたクエリ集合の中で、ある１つのクラスタに強く所属するか（クエリに曖昧性が無いか）、複数のクラスタにまたがる確率を持つか（クエリに曖昧性がある）を判定することができる。

前記のようにして算出された、クエリがクラスタに所属する確率は、該当するクエリとともに記憶手段３３０の例えばＨＤＤ３３３に格納しておく。

＜クラスタへの所属確率を用いたクエリの曖昧性に基づいたクエリ推薦＞
本発明では、本技術の確率モデルにて推定したソフトクラスタリング結果（確率的クラスタリング手段３２２の出力）は、ユーザの情報要求クラスタであるという仮定を置く。入力されたクエリがあるクラスタに強く所属するということは、過去のログを基にユーザの情報要求が特定されたことを示しており、曖昧性があるということはその入力クエリだけでは、情報要求が特定されていないことを示している。クエリに曖昧性が無い時にはクエリが所属するクラスタからクエリを推薦することがユーザの情報要求を満たし、曖昧性がある場合には、複数の意味を持つ関連クエリを推薦することにより、ユーザの情報要求に適合する確率が高まるという仮定に基づいてクエリを推薦する。

図１３はこのような本発明のクエリ推薦アルゴリズムのイメージを表現している。図１３において、入力クエリはユーザ端末１００を介してユーザが入力したクエリを示し、確率的クラスタは確率的クラスタリング手段３２２のソフトクラスタリング結果を示し、推薦クエリはクエリ推薦手段３２３が推薦する推薦クエリを示している。

クエリ推薦手段３２３で行なわれる実際のクエリ推薦アルゴリズムの処理の流れを図４とともに説明する。

まずステップＳ３１において、入力としてキークエリｑとクラスタ所属確率に対するしきい値ｐ₀と推薦クエリ数ｔとが与えられる。

前記入力クエリｑはユーザ端末１００からネットワーク２００を介してクエリ推薦手段３２３に入力され、前記しきい値ｐ₀および推薦クエリ数ｔは例えば入力装置３２４を介してオペレータから与えられるものである。

次にステップＳ３２において、確率的クラスタリング手段３２２の結果から、しきい値ｐ₀を超える所属確率ｐ（ｚｉ｜ｑ）を持つクラスタを選択する。選択されたクラスタ数が一つの場合はすなわちクエリに曖昧性がない場合であり、そのクラスタから生起する関連クエリをスコアの高い順に取得し、スコアの高い上位ｔ件の推薦クエリを出力する（ステップＳ３３〜Ｓ３５，Ｓ３９）。

しきい値ｐ₀を高く設定してしまうとクラスタ数がゼロの場合もありうる。その場合は関連クエリは推薦されない（ステップＳ３６）。複数のクラスタが選択された場合には、それぞれのクラスタからスコアの高い上位ｔ件を取得し（ステップＳ３７）、それぞれの結果をスコアに応じてマージし、スコアの高い上位ｔ件の推薦クエリを出力する（ステップＳ３８，Ｓ３９）。

＜しきい値のチューニング＞
前記選択されたクラスタ数のログ情報を基に、システム管理者は前記所属確率のしきい値ｐ₀を変更することが考えられる。しきい値ｐ₀を小さく設定すると（例：０．３等）、複数のクラスタにまたがるケースが増える。しきい値ｐ₀を小さくする程、多様なクエリが推薦されることになるが、多様性と推薦精度にはトレードオフの関係があり、アプリケーションの要求や、クリックログの傾向に基づいて、システム管理者が調節すべき項目である。

＜クラスタ内クエリのランキングスコア＞
クラスタが決定された場合に、関連クエリをランキングするスコアとしては複数のやり方が考えられる。単純にクラスタからの生起確率ｐ（ｑｊ｜ｚｋ）のみでランキングすると、曖昧性は無くなるものの利用頻度がそれ程高くないクエリが選ばれる可能性があり、みかけ上精度が低くみえることがある。そこで、クエリの選択精度を上げるために、例えばキークエリからクラスタの生起確率をかけた確率ｐ（ｑｊ｜ｚｋ）ｐ（ｚｋ｜ｑｉ）、キークエリとのセッション共起頻度、あるいはセッショングラフにたいして適用したＲＷＲスコア、およびそれらの組合せ等を利用して、ランキングを行う。

＜複数クラスタから推薦されたクエリのマージ方法＞
クエリのマージアルゴリズムとして、（１）単純にスコアを比較してマージする単純ランキング法と、（２）クラスタ毎に一件ずつ取得するラウンドロビン法から選択して利用する方法がある（図１４参照）。

（１）の単純ランキング法では、スコアのみで比較するので精度は高まる可能性は高いが、同じクラスタばかりから推薦され多様性が低くなる可能性がある。一方で、（２）のラウンドロビン法では、図１４に示すように、まず初めに所属確率の高い順にクラスタをランキングする。そしてその順番で、それぞれのクラスタ内でスコアの高い関連クエリを一つずつラウンドロビンで出力する。これにより、多様性が高いクエリを推薦することが可能である。

また、本実施形態の確率的情報検索処理装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の確率的情報検索処理方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１００…ユーザ端末装置
２００…ネットワーク
３００…確率的情報検索処理装置
３１０…通信インタフェース
３２０…制御手段
３２１…セッショングラフ構築手段
３２２…確率的クラスタリング手段
３２３…クエリ推薦手段
３２４…入力装置
３２５…出力装置
３３０…記憶手段
３３１…ＲＯＭ
３３２…ＲＡＭ
３３３…ＨＤＤ
３３４…ＳＳＤ

Claims

情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理装置であって、
情報検索のためにユーザが投入したクエリに対してクリックされたＵＲＬを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースと、
前記セッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとＵＲＬを各々ノードとし、クエリ、ＵＲＬ間の関係をエッジとする二部グラフを構築するセッショングラフ構築手段と、
前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリング手段と、
ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が１の場合は当該１つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦手段と、
を備えたことを特徴とする確率的情報検索処理装置。
前記セッショングラフ構築手段は、入力クエリと同一セッションで共起した回数が設定値以上のクエリ又はＵＲＬを含むクリックログについて二部グラフを構築することを特徴とする請求項１に記載の確率的情報検索処理装置。
前記確率的クラスタリング手段は、前記隠れ変数をクラスタ数に相当する個数に設定し、ＥＭアルゴリズムを用いてクエリから隠れ変数が生起する確率を求めることによって、クエリがクラスタに所属する確率を求めることを特徴とする請求項１又は２に記載の確率的情報検索処理装置。
前記クエリ推薦手段は、前記取得されたクラスタ中のクエリの、クラスタからクエリが生起する確率と前記入力されたクエリからクラスタが生起する確率との積によって関連クエリのランキングスコアを決定し、該スコアの高い順に所定個数の関連クエリを推薦することを特徴とする請求項１ないし３のいずれか１項に記載の確率的情報検索処理装置。
情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理方法であって、
セッショングラフ構築手段が、情報検索のためにユーザが投入したクエリに対してクリックされたＵＲＬを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとＵＲＬを各々ノードとし、クエリ、ＵＲＬ間の関係をエッジとする二部グラフを構築するセッショングラフ構築ステップと、
確率的クラスタリング手段が、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリングステップと、
クエリ推薦手段が、ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が１の場合は当該１つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦ステップと、
を備えたことを特徴とする確率的情報検索処理方法。
前記セッショングラフ構築ステップは、入力クエリと同一セッションで共起した回数が設定値以上のクエリ又はＵＲＬを含むクリックログについて二部グラフを構築することを特徴とする請求項５に記載の確率的情報検索処理方法。
前記確率的クラスタリングステップは、前記隠れ変数をクラスタ数に相当する個数に設定し、ＥＭアルゴリズムを用いてクエリから隠れ変数が生起する確率を求めることによって、クエリがクラスタに所属する確率を求めることを特徴とする請求項５又は６に記載の確率的情報検索処理方法。
前記クエリ推薦ステップは、前記取得されたクラスタ中のクエリの、クラスタからクエリが生起する確率と前記入力されたクエリからクラスタが生起する確率との積によって関連クエリのランキングスコアを決定し、該スコアの高い順に所定個数の関連クエリを推薦することを特徴とする請求項５ないし７のいずれか１項に記載の確率的情報検索処理方法。
コンピュータを請求項１ないし４のいずれか１項に記載の各手段として機能させる確率的情報検索処理プログラム。