JP5426526B2 - 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム - Google Patents
確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム Download PDFInfo
- Publication number
- JP5426526B2 JP5426526B2 JP2010284227A JP2010284227A JP5426526B2 JP 5426526 B2 JP5426526 B2 JP 5426526B2 JP 2010284227 A JP2010284227 A JP 2010284227A JP 2010284227 A JP2010284227 A JP 2010284227A JP 5426526 B2 JP5426526 B2 JP 5426526B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- cluster
- session
- input
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(2)また請求項2、6に記載の発明によれば、セッション構築時のノイズを除去することができる。
(3)また請求項3、7に記載の発明によれば、EMアルゴリズムを用いているため、情報要求のソフトクラスタリングを高精度に実現できる。
(4)また請求項4、8に記載の発明によれば、推薦するクエリの選択精度が向上する。
クリックログとは、検索サービスを利用したユーザの投入キーワードに対してクリックされたURLを記録したログデータである。例えば図5に示すように、通常は、URLだけでなく、クリックした時刻を表すタイムスタンプと、ユーザを識別するためのセッションIDが保存される。
セッショングラフ構築手段321によってクエリとURLの共起モデルが得られたので、確率的クラスタリング手段322では、図11に示す隠れ変数モデル(確率的潜在意味解析;PLSI(Probabilistic Latent Semantic Indexing)モデル)を用いて共起行列の次元縮約処理およびソフトクラスタリングを行う。
本発明では、本技術の確率モデルにて推定したソフトクラスタリング結果(確率的クラスタリング手段322の出力)は、ユーザの情報要求クラスタであるという仮定を置く。入力されたクエリがあるクラスタに強く所属するということは、過去のログを基にユーザの情報要求が特定されたことを示しており、曖昧性があるということはその入力クエリだけでは、情報要求が特定されていないことを示している。クエリに曖昧性が無い時にはクエリが所属するクラスタからクエリを推薦することがユーザの情報要求を満たし、曖昧性がある場合には、複数の意味を持つ関連クエリを推薦することにより、ユーザの情報要求に適合する確率が高まるという仮定に基づいてクエリを推薦する。
前記選択されたクラスタ数のログ情報を基に、システム管理者は前記所属確率のしきい値p0を変更することが考えられる。しきい値p0を小さく設定すると(例:0.3等)、複数のクラスタにまたがるケースが増える。しきい値p0を小さくする程、多様なクエリが推薦されることになるが、多様性と推薦精度にはトレードオフの関係があり、アプリケーションの要求や、クリックログの傾向に基づいて、システム管理者が調節すべき項目である。
クラスタが決定された場合に、関連クエリをランキングするスコアとしては複数のやり方が考えられる。単純にクラスタからの生起確率p(qj|zk)のみでランキングすると、曖昧性は無くなるものの利用頻度がそれ程高くないクエリが選ばれる可能性があり、みかけ上精度が低くみえることがある。そこで、クエリの選択精度を上げるために、例えばキークエリからクラスタの生起確率をかけた確率p(qj|zk)p(zk|qi)、キークエリとのセッション共起頻度、あるいはセッショングラフにたいして適用したRWRスコア、およびそれらの組合せ等を利用して、ランキングを行う。
クエリのマージアルゴリズムとして、(1)単純にスコアを比較してマージする単純ランキング法と、(2)クラスタ毎に一件ずつ取得するラウンドロビン法から選択して利用する方法がある(図14参照)。
200…ネットワーク
300…確率的情報検索処理装置
310…通信インタフェース
320…制御手段
321…セッショングラフ構築手段
322…確率的クラスタリング手段
323…クエリ推薦手段
324…入力装置
325…出力装置
330…記憶手段
331…ROM
332…RAM
333…HDD
334…SSD
Claims (9)
- 情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理装置であって、
情報検索のためにユーザが投入したクエリに対してクリックされたURLを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースと、
前記セッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフを構築するセッショングラフ構築手段と、
前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリング手段と、
ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が1の場合は当該1つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦手段と、
を備えたことを特徴とする確率的情報検索処理装置。 - 前記セッショングラフ構築手段は、入力クエリと同一セッションで共起した回数が設定値以上のクエリ又はURLを含むクリックログについて二部グラフを構築することを特徴とする請求項1に記載の確率的情報検索処理装置。
- 前記確率的クラスタリング手段は、前記隠れ変数をクラスタ数に相当する個数に設定し、EMアルゴリズムを用いてクエリから隠れ変数が生起する確率を求めることによって、クエリがクラスタに所属する確率を求めることを特徴とする請求項1又は2に記載の確率的情報検索処理装置。
- 前記クエリ推薦手段は、前記取得されたクラスタ中のクエリの、クラスタからクエリが生起する確率と前記入力されたクエリからクラスタが生起する確率との積によって関連クエリのランキングスコアを決定し、該スコアの高い順に所定個数の関連クエリを推薦することを特徴とする請求項1ないし3のいずれか1項に記載の確率的情報検索処理装置。
- 情報検索のためにユーザが投入したクエリに関連する関連クエリを推薦する情報検索処理方法であって、
セッショングラフ構築手段が、情報検索のためにユーザが投入したクエリに対してクリックされたURLを記録したクリックログデータのうち、セッション毎のクリックログが格納されたセッションデータベースから、入力クエリを含むセッションを抽出して統合し、入力クエリと同一セッションで共起したクリックログについて、クエリとURLを各々ノードとし、クエリ、URL間の関係をエッジとする二部グラフを構築するセッショングラフ構築ステップと、
確率的クラスタリング手段が、前記構築された二部グラフ中のクエリに対し、隠れ変数モデルを利用し隠れ変数をクラスタと見なしてソフトクラスタリングを行い、クエリがクラスタに所属する確率を求める確率的クラスタリングステップと、
クエリ推薦手段が、ユーザからクエリが入力された際に、前記確率的クラスタリング手段により求められた、前記入力クエリに該当するクエリのクラスタへの所属確率がしきい値を超えるクラスタを取得し、該取得されたクラスタの個数が1の場合は当該1つのクラスタから生起する関連クエリを取得し推薦し、前記取得されたクラスタの個数が複数の場合は当該複数のクラスタから各々生起する関連クエリを取得して推薦するクエリ推薦ステップと、
を備えたことを特徴とする確率的情報検索処理方法。 - 前記セッショングラフ構築ステップは、入力クエリと同一セッションで共起した回数が設定値以上のクエリ又はURLを含むクリックログについて二部グラフを構築することを特徴とする請求項5に記載の確率的情報検索処理方法。
- 前記確率的クラスタリングステップは、前記隠れ変数をクラスタ数に相当する個数に設定し、EMアルゴリズムを用いてクエリから隠れ変数が生起する確率を求めることによって、クエリがクラスタに所属する確率を求めることを特徴とする請求項5又は6に記載の確率的情報検索処理方法。
- 前記クエリ推薦ステップは、前記取得されたクラスタ中のクエリの、クラスタからクエリが生起する確率と前記入力されたクエリからクラスタが生起する確率との積によって関連クエリのランキングスコアを決定し、該スコアの高い順に所定個数の関連クエリを推薦することを特徴とする請求項5ないし7のいずれか1項に記載の確率的情報検索処理方法。
- コンピュータを請求項1ないし4のいずれか1項に記載の各手段として機能させる確率的情報検索処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010284227A JP5426526B2 (ja) | 2010-12-21 | 2010-12-21 | 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010284227A JP5426526B2 (ja) | 2010-12-21 | 2010-12-21 | 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012133520A JP2012133520A (ja) | 2012-07-12 |
JP5426526B2 true JP5426526B2 (ja) | 2014-02-26 |
Family
ID=46649061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010284227A Active JP5426526B2 (ja) | 2010-12-21 | 2010-12-21 | 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5426526B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577416B (zh) * | 2012-07-20 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 扩展查询方法及系统 |
CA2932401A1 (en) * | 2013-12-02 | 2015-06-11 | Qbase, LLC | Systems and methods for in-memory database search |
JP6196200B2 (ja) * | 2014-09-19 | 2017-09-13 | ヤフー株式会社 | ラベル抽出装置、ラベル抽出方法およびプログラム |
KR101916798B1 (ko) | 2016-10-21 | 2018-11-09 | 네이버 주식회사 | 검색 컨텍스트를 이용한 질의 추천 방법 및 시스템 |
JP6521931B2 (ja) * | 2016-11-29 | 2019-05-29 | 日本電信電話株式会社 | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム |
US11778061B2 (en) * | 2019-05-13 | 2023-10-03 | Ntt Docomo, Inc. | Feature extraction device and state estimation system |
JP6979986B2 (ja) * | 2019-07-30 | 2021-12-15 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN112560496B (zh) * | 2020-12-09 | 2024-02-02 | 北京百度网讯科技有限公司 | 语义分析模型的训练方法、装置、电子设备及存储介质 |
CN112650907B (zh) * | 2020-12-25 | 2023-07-14 | 百度在线网络技术(北京)有限公司 | 搜索词的推荐方法、目标模型的训练方法、装置及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
JP4848388B2 (ja) * | 2008-04-09 | 2011-12-28 | ヤフー株式会社 | 検索クエリに関するスコアを算出する方法 |
JP5049223B2 (ja) * | 2008-07-29 | 2012-10-17 | ヤフー株式会社 | Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム |
-
2010
- 2010-12-21 JP JP2010284227A patent/JP5426526B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012133520A (ja) | 2012-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5426526B2 (ja) | 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム | |
US7613692B2 (en) | Persona-based application personalization | |
Wang et al. | On summarization and timeline generation for evolutionary tweet streams | |
Skoutas et al. | Ranking and clustering web services using multicriteria dominance relationships | |
US9311386B1 (en) | Categorizing network resources and extracting user interests from network activity | |
US8626768B2 (en) | Automated discovery aggregation and organization of subject area discussions | |
JP5185498B2 (ja) | エンティティ固有の調整された検索 | |
KR101700352B1 (ko) | 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성 | |
US8832105B2 (en) | System for incrementally clustering news stories | |
CN106796608B (zh) | 上下文搜索字符串同义词的自动生成 | |
US20110060716A1 (en) | Systems and methods for improving web site user experience | |
US20110060717A1 (en) | Systems and methods for improving web site user experience | |
JP4371382B2 (ja) | アクセス対象情報検索装置 | |
KR20150135196A (ko) | 미인지된 및 새로운 유저들에 대한 향상된 유저 경험 | |
US20110113201A1 (en) | Garbage collection in a cache with reduced complexity | |
US7925645B2 (en) | Dynamic metadata filtering for classifier prediction | |
WO2017136295A1 (en) | Adaptive seeded user labeling for identifying targeted content | |
Chung et al. | Categorization for grouping associative items using data mining in item-based collaborative filtering | |
KR101686919B1 (ko) | 빅데이터에 기반한 추론 엔진을 관리하는 방법 및 장치 | |
JP5084796B2 (ja) | 関連性判定装置、関連性判定方法およびプログラム | |
Das et al. | Adaptive web personalization system using splay tree | |
WO2016028948A1 (en) | Method for record selection to avoid negatively impacting latency | |
JP2011103020A (ja) | 検索条件推薦装置、検索条件推薦方法および検索条件推薦プログラム | |
Wu et al. | Adaptive data fusion methods in information retrieval | |
JP5757187B2 (ja) | ファイル格納先候補決定装置、ファイル格納先候補の決定方法、ファイル格納先決定支援システム、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131128 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5426526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |