JP5426526B2 - 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム - Google Patents

確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム Download PDF

Info

Publication number
JP5426526B2
JP5426526B2 JP2010284227A JP2010284227A JP5426526B2 JP 5426526 B2 JP5426526 B2 JP 5426526B2 JP 2010284227 A JP2010284227 A JP 2010284227A JP 2010284227 A JP2010284227 A JP 2010284227A JP 5426526 B2 JP5426526 B2 JP 5426526B2
Authority
JP
Japan
Prior art keywords
query
cluster
session
input
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010284227A
Other languages
English (en)
Other versions
JP2012133520A (ja
Inventor
毅晴 江田
伸二 宮原
典史 片渕
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010284227A priority Critical patent/JP5426526B2/ja
Publication of JP2012133520A publication Critical patent/JP2012133520A/ja
Application granted granted Critical
Publication of JP5426526B2 publication Critical patent/JP5426526B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索エンジン利用時にユーザが投入したクエリに関連するクエリを推薦する技術に関する。
情報が常に増え続けるというオープンエンド性を持つウェブ検索エンジン(Google(http://www.google.com)、Bing(http://www.bing.com)、goo(http://www.goo.ne.jp))は史上類を見ない情報源となり、人々の生活に欠かせないものとなった。我々は、身の回りのありとあらゆる情報を検索エンジンを利用して探すことができる。そうしたユーザの検索活動を支援する方法としてクエリ推薦がある。ユーザが入力中のクエリに対して、次に検索すべき関連クエリを推薦し、ユーザのキーボード入力の手間を省く効果がある。
一方で、検索エンジンはPCだけでなく携帯電話やタッチインタフェースを持つスマートフォンにおいても積極的に利用されつつある。しかしながら、携帯電話やスマートフォンには、PCに比べて画面が狭いという制約があるため、従来のPCを対象とした検索支援技術をスマートフォン上では効果的に利用することができない。例えば、通常のクエリ推薦アルゴリズムを用いると、似た意味を持つクエリばかりが推薦されてしまう傾向があり、狭い画面で効果的に推薦クエリを提示することが困難になる。
意味の似たクエリばかりを推薦する状況は必ずしも間違いとは言えないこともある。ユーザの情報要求が一意に特定されているのなら、その要求に関連するクエリ集合だけを推薦すれば良い。しかしながら、一つのクエリだけで多種多様なユーザの情報要求を特定することは難しく、曖昧性を考慮した上でクエリを推薦することが望まれる。
尚、マルコフ遷移理論を応用したクエリ推薦アルゴリズムとして、RWR(Random Walk With Restart)(非特許文献1)、Hitting Time(非特許文献2)およびそれら両者の組合せ(非特許文献3)が提案されている。いずれも、セッションを考慮していない点が本発明と大きく異なる。
セッションを考慮したユーザの情報要求のクラスタリング方法として、吸収マルコフ連鎖(Absorbing Markov Chain)の吸収状態への分布を利用したもの(非特許文献4)が提案されている。この非特許文献4では、クエリ推薦までは未評価であると共に、ハードクラスタリングであるため、本発明のような、クエリの曖昧性を考慮したクエリ推薦を実現することはできない。
検索結果を多様化しユーザの理解度合いを向上させるためのクラスタリング方法が多数提案されている(例えば非特許文献5)。この非特許文献5は、多様性を高めるという点で、本発明と共通する考え方も見受けられるが、そもそも目的が異なるためクラスタリングアルゴリズムが異なり、その先の推薦アルゴリズム自体も研究されていない。
Nick Craswell and Martin Szummer,"Random Walks on the Click Graph",In Proc.SIGIR,2007 Qiaozhu Mei, Dengyong Zhou, and Kenneth Church,"Query Suggestion Using Hitting Time",In Proc.CIKM,New York,NY,USA,2008,pp.469−478 Hao Ma,Michael R. Lyu, and Irwin King,"Diversifying Query Suggestion Results",In Proc.Association for the Advancement of Artificial Intelligence,2010 Eldar Sadikov, Jayant Madhavan, Lu Wang, and Alon Halevy,"Clustering Query Refinements by User Intent",In Proc.World Wide Web Conference Committee,2010 Marina Drosou and Evaggelia Pitoura,"Search Result Diversification",In SIGMOD Record,March 2010,Vol.39,No.1,pp.41−47
検索エンジン利用時にユーザが投入したクエリに関連するクエリを推薦する際に、従来のクエリ推薦アルゴリズムでは、入力クエリの情報要求やコンテキスト(文脈、前後関係、状況、条件)によらず関連クエリ集合に似た意味を持つクエリばかりが推薦されてしまうという問題があった。
本発明は上記課題を解決するものであり、その目的は、クエリの曖昧性を考慮したクエリ推薦を行なうことができる確率的情報検索処理装置、方法、プログラムを提供することにある。
上記課題を解決するために、本発明は、クエリの曖昧性を考慮した確率的なクエリ推薦フレームワークを構成した。すなわち、あらかじめ検索エンジンのクエリログを分析し、検索行動の単位となるセッショングラフから二部グラフを構築しておく。そして確率モデルを用いて前記二部グラフ中のクエリに対して情報要求のソフトクラスタリングを行う。これにより、セッショングラフ内のユーザの情報要求の確率的クラスタを得る。入力されたクエリに対して、前記確率的クラスタへの所属確率分布を利用してクエリの曖昧性を判定し、曖昧でない場合は一つのクラスタから関連クエリを推薦し、曖昧な場合は複数のクラスタから関連クエリを推薦する。
本発明の請求項1に記載の確率的情報検索処理装置は、情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理装置であって、情報検索のためにユーザが投入したクエリに対してクリックされたURLを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースと、前記セッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフを構築するセッショングラフ構築手段と、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリング手段と、ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が1の場合は当該1つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦手段と、を備えたことを特徴としている。
(1)請求項1〜9に記載の発明によれば、検索エンジン利用時に関連クエリとして、入力クエリの曖昧性に応じて、情報要求に曖昧性がない場合には強く関連するクエリが推薦され、曖昧な場合には、関連する可能性の高い複数の情報要求から多様なクエリを推薦することができ、ユーザの検索満足度を向上することが期待できる。
(2)また請求項2、6に記載の発明によれば、セッション構築時のノイズを除去することができる。
(3)また請求項3、7に記載の発明によれば、EMアルゴリズムを用いているため、情報要求のソフトクラスタリングを高精度に実現できる。
(4)また請求項4、8に記載の発明によれば、推薦するクエリの選択精度が向上する。
本発明の実施形態例による情報検索システムの構成図。 本発明の実施形態例におけるセッショングラフ構築手段が実行する処理のフローチャート。 本発明の実施形態例における確率的クラスタリング手段が実行する処理のフローチャート。 本発明の実施形態例におけるクエリ推薦手段が実行する処理のフローチャート。 本発明の実施形態例で取り扱うクリックログの例を示す説明図。 本発明の実施形態例におけるセッションデータベースに保持されるセッションの例を示す説明図。 本発明の実施形態例で取り扱うクエリの「京都」からはじまるセッションの例を示す説明図。 本発明の実施形態例で取り扱うクエリの「京都」とのセッション共起頻度を表す説明図。 本発明の実施形態例におけるセッショングラフ構築手段の処理によって得られる、“京都”と同一セッションで共起したクリックログの例を示す説明図。 本発明の実施形態例におけるセッショングラフ構築手段の処理によって得られる、セッショングラフ(二部グラフ)の例を示す説明図。 本発明の実施形態例における確率的クラスタリング手段で用いるクエリ(q)とURL(r)の隠れ変数(z)モデルの説明図。 本発明の実施形態例における確率的クラスタリング手段が行なうソフトクラスタリングを表す説明図。 本発明の実施形態例によるクエリの曖昧性を考慮したクエリ推薦の直観的イメージを示す説明図。 本発明の実施形態例におけるクエリ推薦手段が行なう複数クラスタからの推薦クエリマージ方法を示す説明図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は、本発明を、ユーザが大量のテキスト文書や画像、動画等の情報を検索する情報検索システムに適用した実施例を示している。
図1において、100は、例えば大量のテキスト文書や画像、動画等の情報検索を行なうユーザが操作するユーザ端末であり、このユーザ端末100はネットワーク200を介して確率的情報検索処理装置300に接続されている。
ユーザ端末100は、データ通信を実行する通信手段101、各種データを記憶する記憶手段102、各種データの処理を行なうデータ処理手段103およびデータ入出力機能(データの入力部、表示部)を有したユーザインターフェース104を備えている。
確率的情報検索処理装置300は、通信インターフェース310と、セッショングラフ構築手段321、確率的クラスタリング手段322およびクエリ推薦手段323を有して確率的情報検索処理(被検索文書格納処理、索引付け処理、セッショングラフ構築処理、確率的クラスタリング処理、検索処理および関連クエリ推薦処理等を含む)を実行する制御手段320と、被検索文書や後述するセッション毎のクリックログ、制御手段320の各処理結果等を記憶する記憶手段330とを備えている。
前記セッショングラフ構築手段321は、記憶手段330に記憶されている、後述のセッション毎のクリックログから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフを構築して、クエリとURLの共起モデルを取得する。
前記確率的クラスタリング手段322は、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める。
前記クエリ推薦手段323は、ユーザ端末100からクエリが入力された際に、前記確率的クラスタリング手段322により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が1の場合は当該1つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦する。
尚324は、後述する各種設定値、しきい値、推薦クエリ数等を制御手段320に入力する入力装置である。
325は、制御手段320内の各手段321〜323の処理結果を出力する出力装置である。
前記記憶手段330は、ROM331,RAM332,HDD333,SSD(Solid State Drive)334を備えている。
前記確率的情報検索処理装置300は、具体的には例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えば通信インターフェース(I/F)、CPU、キーボードなどの入力装置、ディスプレイ、プリンターなどの出力装置、ROM、RAM、HDD、SSD等を備えている。
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、前記装置300は、セッショングラフ構築手段321、確率的クラスタリング手段322、クエリ推薦手段323、後述するセッション毎のクリックログが格納されたセッションDB(データベース)(図示省略)を実装する。
前記セッションDBはRAM332、HDD333、SSD334などの保存手段・記憶手段に構築されているものとする。
次に、上記のように構成された情報検索システムを詳細に説明する。本実施形態例においては、(1)セッショングラフ構築手段321が、クリックログからのセッショングラフの構築を行なう処理(図2に示す処理A)、(2)確率的クラスタリング手段322が、クエリとURLの共起モデルを用いたクエリの確率的クラスタリングを行なう処理(図3に示す処理B)、(3)クエリ推薦手段323が、確率的クラスタへの所属確率を用いたクエリの曖昧性に基づいたクエリ推薦を行なう処理(図4に示す処理C)とが、以下のようにして実施される。
<クリックログからのセッショングラフの構築>
クリックログとは、検索サービスを利用したユーザの投入キーワードに対してクリックされたURLを記録したログデータである。例えば図5に示すように、通常は、URLだけでなく、クリックした時刻を表すタイムスタンプと、ユーザを識別するためのセッションIDが保存される。
制御手段320では、これらのクリックログから図6のようにセッション(アクセス継続期間)を切りだす。通常は、同一セッションIDで、例えば最長10分などの条件でクリックログから切りだされる(非特許文献4参照)。そして取り出したセッションは、あるクエリを含むかどうか判定できる形でデータベース等(例えば図1のHDD333内に構築されるセッションDB)に保存しておく。
セッショングラフ構築手段321は、図7の「京都」のように、入力となるクエリを含むセッションをセッションデータベースから取り出し(図2のステップS11,S12)、それらのセッションをマージしてセッショングラフを構築する(図2のステップS13)。
その際に、例えば図8のように同一セッションで共起した回数を頻度として数え、セッション構築時のノイズを除去するために、高頻度のクエリあるいはURLを含むセッションを選択する。すなわち図8の図示X部分のように、セッション共起頻度の高いクエリを用いてセッショングラフを構築する。そして選択されたクリックログを集約することにより、図9のようなセッションに限定されたクリックログを取得できる。このグラフは、図10のように、クエリ×URLの共起行列と等価であるとともに枝(エッジ)の重みを頻度とする二部グラフ(共起モデル)とみなすことができる。
図10は図9のクリックログをクエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフで表現したものであり、エッジは頻度であり、枝が無いところの頻度は0となる。また同じクエリから異なるURLをクリックすることもある。
<クエリとURLの共起モデルを用いたクエリの確率的クラスタリング>
セッショングラフ構築手段321によってクエリとURLの共起モデルが得られたので、確率的クラスタリング手段322では、図11に示す隠れ変数モデル(確率的潜在意味解析;PLSI(Probabilistic Latent Semantic Indexing)モデル)を用いて共起行列の次元縮約処理およびソフトクラスタリングを行う。
今、クエリqとURLrは、隠れ変数zの基で独立に生起すると仮定する。qとrの共起確率p(q,r)は、zを介在して下記式(1)のように展開できる。
Figure 0005426526
この式(1)および図11におけるp(q|z)はzからqが生起する確率、p(r|z)はzからrが生起する確率、p(z)は条件なしにzが生起する確率である。
このモデルのそれぞれの確率p(q|z)、p(r|z)、p(z)を求めると、qからzが生起する確率p(z|q)を求めることができる。隠れ変数zとして、クラスタ数に相当する適当な個数を設定することにより、p(z|q)(z∈Z)は、qのクラスタ集合への所属確率分布とみなすことにより、図12のようにソフトクラスタリングが実現できる。図12においてZj|z|が前記クラスタ数に相当する個数である。
確率の計算は、EM(Expectation−Maximization)アルゴリズムを用いて行う。EMアルゴリズムは、期待値を求めるステップ(Eステップ)と期待値を最大化するステップ(Mステップ)からなる逐次更新型のアルゴリズムである。適当な初期値を設定し繰り返し計算することにより、局所最適解に収束することが保証されている。EMアルゴリズムの更新式において、温度パラメータ(統計力学における温度パラメータβ)を導入し、尤度を滑らかにしてやることにより、より大域最適解に近づけることができる。
確率的クラスタリング手段322における、前記EMアルゴリズムを用いた、セッショングラフに対する確率的クラスタリングの処理は図3のフローチャートに沿って実行される。
まずステップS21において、セッショングラフ構築手段321により構築されたセッショングラフ(図10)CSQと、隠れ変数としての潜在変数(=クラスタ数)kと、EMアルゴリズム停止条件condとが入力される。
次にステップS22において、p(zi)、p(q|zi)、p(r|zi)に、確率分布となるランダムな初期値を設定する。
前記潜在変数k、EMアルゴリズム停止条件condおよびランダムな初期値は、例えば入力装置324によってオペレータが設定し入力する。
次にステップS23,S24において、EMアルゴリズム停止条件condが真となるまで、EMアルゴリズムの更新式によってp(zi)、p(q|zi)、p(r|zi)を更新しながら前記EステップとMステップを繰り返し実行する。
EMアルゴリズム停止条件condが真となったらステップS25において、p(zi)、p(q|zi)、p(r|zi)が出力される。
そして、ベイズ則(ベイズの定理;Bayes’theorem)により、EMアルゴリズムの出力であるp(zj),p(q|zj),p(r|zj)を用いて、クエリから隠れ変数が生起する確率p(zj|qi)が下記の式(2)のように求められる。
Figure 0005426526
確率p(zj|qi)はクエリqiからある隠れ変数が生起する確率であり、隠れ変数をクラスタとみなすことにより、クラスタへの所属確率を表わしていると考えることができ(図12)、全てクラスタへの確率を足すと1になることにより、確率分布ともなっている。したがって、この確率分布をクエリ推薦手段323において分析することにより、そのクエリが、すでに投入されたクエリ集合の中で、ある1つのクラスタに強く所属するか(クエリに曖昧性が無いか)、複数のクラスタにまたがる確率を持つか(クエリに曖昧性がある)を判定することができる。
前記のようにして算出された、クエリがクラスタに所属する確率は、該当するクエリとともに記憶手段330の例えばHDD333に格納しておく。
<クラスタへの所属確率を用いたクエリの曖昧性に基づいたクエリ推薦>
本発明では、本技術の確率モデルにて推定したソフトクラスタリング結果(確率的クラスタリング手段322の出力)は、ユーザの情報要求クラスタであるという仮定を置く。入力されたクエリがあるクラスタに強く所属するということは、過去のログを基にユーザの情報要求が特定されたことを示しており、曖昧性があるということはその入力クエリだけでは、情報要求が特定されていないことを示している。クエリに曖昧性が無い時にはクエリが所属するクラスタからクエリを推薦することがユーザの情報要求を満たし、曖昧性がある場合には、複数の意味を持つ関連クエリを推薦することにより、ユーザの情報要求に適合する確率が高まるという仮定に基づいてクエリを推薦する。
図13はこのような本発明のクエリ推薦アルゴリズムのイメージを表現している。図13において、入力クエリはユーザ端末100を介してユーザが入力したクエリを示し、確率的クラスタは確率的クラスタリング手段322のソフトクラスタリング結果を示し、推薦クエリはクエリ推薦手段323が推薦する推薦クエリを示している。
クエリ推薦手段323で行なわれる実際のクエリ推薦アルゴリズムの処理の流れを図4とともに説明する。
まずステップS31において、入力としてキークエリqとクラスタ所属確率に対するしきい値p0と推薦クエリ数tとが与えられる。
前記入力クエリqはユーザ端末100からネットワーク200を介してクエリ推薦手段323に入力され、前記しきい値p0および推薦クエリ数tは例えば入力装置324を介してオペレータから与えられるものである。
次にステップS32において、確率的クラスタリング手段322の結果から、しきい値p0を超える所属確率p(zi|q)を持つクラスタを選択する。選択されたクラスタ数が一つの場合はすなわちクエリに曖昧性がない場合であり、そのクラスタから生起する関連クエリをスコアの高い順に取得し、スコアの高い上位t件の推薦クエリを出力する(ステップS33〜S35,S39)。
しきい値p0を高く設定してしまうとクラスタ数がゼロの場合もありうる。その場合は関連クエリは推薦されない(ステップS36)。複数のクラスタが選択された場合には、それぞれのクラスタからスコアの高い上位t件を取得し(ステップS37)、それぞれの結果をスコアに応じてマージし、スコアの高い上位t件の推薦クエリを出力する(ステップS38,S39)。
<しきい値のチューニング>
前記選択されたクラスタ数のログ情報を基に、システム管理者は前記所属確率のしきい値p0を変更することが考えられる。しきい値p0を小さく設定すると(例:0.3等)、複数のクラスタにまたがるケースが増える。しきい値p0を小さくする程、多様なクエリが推薦されることになるが、多様性と推薦精度にはトレードオフの関係があり、アプリケーションの要求や、クリックログの傾向に基づいて、システム管理者が調節すべき項目である。
<クラスタ内クエリのランキングスコア>
クラスタが決定された場合に、関連クエリをランキングするスコアとしては複数のやり方が考えられる。単純にクラスタからの生起確率p(qj|zk)のみでランキングすると、曖昧性は無くなるものの利用頻度がそれ程高くないクエリが選ばれる可能性があり、みかけ上精度が低くみえることがある。そこで、クエリの選択精度を上げるために、例えばキークエリからクラスタの生起確率をかけた確率p(qj|zk)p(zk|qi)、キークエリとのセッション共起頻度、あるいはセッショングラフにたいして適用したRWRスコア、およびそれらの組合せ等を利用して、ランキングを行う。
<複数クラスタから推薦されたクエリのマージ方法>
クエリのマージアルゴリズムとして、(1)単純にスコアを比較してマージする単純ランキング法と、(2)クラスタ毎に一件ずつ取得するラウンドロビン法から選択して利用する方法がある(図14参照)。
(1)の単純ランキング法では、スコアのみで比較するので精度は高まる可能性は高いが、同じクラスタばかりから推薦され多様性が低くなる可能性がある。一方で、(2)のラウンドロビン法では、図14に示すように、まず初めに所属確率の高い順にクラスタをランキングする。そしてその順番で、それぞれのクラスタ内でスコアの高い関連クエリを一つずつラウンドロビンで出力する。これにより、多様性が高いクエリを推薦することが可能である。
また、本実施形態の確率的情報検索処理装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の確率的情報検索処理方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
100…ユーザ端末装置
200…ネットワーク
300…確率的情報検索処理装置
310…通信インタフェース
320…制御手段
321…セッショングラフ構築手段
322…確率的クラスタリング手段
323…クエリ推薦手段
324…入力装置
325…出力装置
330…記憶手段
331…ROM
332…RAM
333…HDD
334…SSD

Claims (9)

  1. 情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理装置であって、
    情報検索のためにユーザが投入したクエリに対してクリックされたURLを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースと、
    前記セッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフを構築するセッショングラフ構築手段と、
    前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリング手段と、
    ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が1の場合は当該1つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦手段と、
    を備えたことを特徴とする確率的情報検索処理装置。
  2. 前記セッショングラフ構築手段は、入力クエリと同一セッションで共起した回数が設定値以上のクエリ又はURLを含むクリックログについて二部グラフを構築することを特徴とする請求項1に記載の確率的情報検索処理装置。
  3. 前記確率的クラスタリング手段は、前記隠れ変数をクラスタ数に相当する個数に設定し、EMアルゴリズムを用いてクエリから隠れ変数が生起する確率を求めることによって、クエリがクラスタに所属する確率を求めることを特徴とする請求項1又は2に記載の確率的情報検索処理装置。
  4. 前記クエリ推薦手段は、前記取得されたクラスタ中のクエリの、クラスタからクエリが生起する確率と前記入力されたクエリからクラスタが生起する確率との積によって関連クエリのランキングスコアを決定し、該スコアの高い順に所定個数の関連クエリを推薦することを特徴とする請求項1ないし3のいずれか1項に記載の確率的情報検索処理装置。
  5. 情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理方法であって、
    セッショングラフ構築手段が、情報検索のためにユーザが投入したクエリに対してクリックされたURLを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフを構築するセッショングラフ構築ステップと、
    確率的クラスタリング手段が、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリングステップと、
    クエリ推薦手段が、ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が1の場合は当該1つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦ステップと、
    を備えたことを特徴とする確率的情報検索処理方法。
  6. 前記セッショングラフ構築ステップは、入力クエリと同一セッションで共起した回数が設定値以上のクエリ又はURLを含むクリックログについて二部グラフを構築することを特徴とする請求項5に記載の確率的情報検索処理方法。
  7. 前記確率的クラスタリングステップは、前記隠れ変数をクラスタ数に相当する個数に設定し、EMアルゴリズムを用いてクエリから隠れ変数が生起する確率を求めることによって、クエリがクラスタに所属する確率を求めることを特徴とする請求項5又は6に記載の確率的情報検索処理方法。
  8. 前記クエリ推薦ステップは、前記取得されたクラスタ中のクエリの、クラスタからクエリが生起する確率と前記入力されたクエリからクラスタが生起する確率との積によって関連クエリのランキングスコアを決定し、該スコアの高い順に所定個数の関連クエリを推薦することを特徴とする請求項5ないし7のいずれか1項に記載の確率的情報検索処理方法。
  9. コンピュータを請求項1ないし4のいずれか1項に記載の各手段として機能させる確率的情報検索処理プログラム。
JP2010284227A 2010-12-21 2010-12-21 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム Active JP5426526B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010284227A JP5426526B2 (ja) 2010-12-21 2010-12-21 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010284227A JP5426526B2 (ja) 2010-12-21 2010-12-21 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム

Publications (2)

Publication Number Publication Date
JP2012133520A JP2012133520A (ja) 2012-07-12
JP5426526B2 true JP5426526B2 (ja) 2014-02-26

Family

ID=46649061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010284227A Active JP5426526B2 (ja) 2010-12-21 2010-12-21 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム

Country Status (1)

Country Link
JP (1) JP5426526B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577416B (zh) * 2012-07-20 2017-09-22 阿里巴巴集团控股有限公司 扩展查询方法及系统
CA2932401A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for in-memory database search
JP6196200B2 (ja) * 2014-09-19 2017-09-13 ヤフー株式会社 ラベル抽出装置、ラベル抽出方法およびプログラム
KR101916798B1 (ko) 2016-10-21 2018-11-09 네이버 주식회사 검색 컨텍스트를 이용한 질의 추천 방법 및 시스템
JP6521931B2 (ja) * 2016-11-29 2019-05-29 日本電信電話株式会社 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
US11778061B2 (en) * 2019-05-13 2023-10-03 Ntt Docomo, Inc. Feature extraction device and state estimation system
JP6979986B2 (ja) * 2019-07-30 2021-12-15 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN112560496B (zh) * 2020-12-09 2024-02-02 北京百度网讯科技有限公司 语义分析模型的训练方法、装置、电子设备及存储介质
CN112650907B (zh) * 2020-12-25 2023-07-14 百度在线网络技术(北京)有限公司 搜索词的推荐方法、目标模型的训练方法、装置及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
JP4848388B2 (ja) * 2008-04-09 2011-12-28 ヤフー株式会社 検索クエリに関するスコアを算出する方法
JP5049223B2 (ja) * 2008-07-29 2012-10-17 ヤフー株式会社 Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム

Also Published As

Publication number Publication date
JP2012133520A (ja) 2012-07-12

Similar Documents

Publication Publication Date Title
JP5426526B2 (ja) 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム
US7613692B2 (en) Persona-based application personalization
Wang et al. On summarization and timeline generation for evolutionary tweet streams
Skoutas et al. Ranking and clustering web services using multicriteria dominance relationships
US9311386B1 (en) Categorizing network resources and extracting user interests from network activity
US8626768B2 (en) Automated discovery aggregation and organization of subject area discussions
JP5185498B2 (ja) エンティティ固有の調整された検索
KR101700352B1 (ko) 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성
US8832105B2 (en) System for incrementally clustering news stories
CN106796608B (zh) 上下文搜索字符串同义词的自动生成
US20110060716A1 (en) Systems and methods for improving web site user experience
US20110060717A1 (en) Systems and methods for improving web site user experience
JP4371382B2 (ja) アクセス対象情報検索装置
KR20150135196A (ko) 미인지된 및 새로운 유저들에 대한 향상된 유저 경험
US20110113201A1 (en) Garbage collection in a cache with reduced complexity
US7925645B2 (en) Dynamic metadata filtering for classifier prediction
WO2017136295A1 (en) Adaptive seeded user labeling for identifying targeted content
Chung et al. Categorization for grouping associative items using data mining in item-based collaborative filtering
KR101686919B1 (ko) 빅데이터에 기반한 추론 엔진을 관리하는 방법 및 장치
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
Das et al. Adaptive web personalization system using splay tree
WO2016028948A1 (en) Method for record selection to avoid negatively impacting latency
JP2011103020A (ja) 検索条件推薦装置、検索条件推薦方法および検索条件推薦プログラム
Wu et al. Adaptive data fusion methods in information retrieval
JP5757187B2 (ja) ファイル格納先候補決定装置、ファイル格納先候補の決定方法、ファイル格納先決定支援システム、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5426526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350