JP4874828B2 - コミュニティ抽出による検索用インデックス作成方法およびその装置 - Google Patents
コミュニティ抽出による検索用インデックス作成方法およびその装置 Download PDFInfo
- Publication number
- JP4874828B2 JP4874828B2 JP2007024761A JP2007024761A JP4874828B2 JP 4874828 B2 JP4874828 B2 JP 4874828B2 JP 2007024761 A JP2007024761 A JP 2007024761A JP 2007024761 A JP2007024761 A JP 2007024761A JP 4874828 B2 JP4874828 B2 JP 4874828B2
- Authority
- JP
- Japan
- Prior art keywords
- search index
- authority
- hub
- cluster
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
J. Kleinberg. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1998. Extended version in Journal of the ACM 46(1999). Integrating the Document Object Model with Hyperlinks for Enhanced Topic Distillation and Information Extraction Proc. of the 10th International WWW conference, pp.211-220, 2001 「ハイパーリンクのグラフ構造に基づくWebコミュニティの洗練」村田 剛志 人工知能学会誌, Vol.17, No.3, pp.322-329, 2002.
ブログにおいては、一つのブログ記事(エントリ)に複数のトピック(マルチトピックス)が含まれる現象がよく見られる。このようなマルチトピックスがあると、前述したトピックドリフトと同様の問題が発生する。図2はブログ記事のマルチトピックスの例を示す図であり、ブログB11のトピック「ラーメン」についてブログB12からリンクし、ブログB11のトピック「サッカー」についてブログB13からリンクしているものとすると、本来はブログB11とブログB12が「ラーメン」コミュニティC11と認識され、ブログB11とブログB13が「サッカー」コミュニティC12と認識されるべきところ、一つのコミュニティC13と認識されてしまうことになる。
ブログではエントリ毎にトピックが異なることが多く、一般的なサイトを単位とする手法では正確にコミュニティを抽出することができない。
ブログのコミュニティは短期間のうちに消滅したり新たに発生したりすることが多く、ブログないしコミュニティを特徴付けるタームも同様に短期間のうちに変化していく。従って、これらの変化に追随できる仕組としなければならない。
ブログでは通常のWebページと比較して情報が散在しており、組織化されていない。従って、単にコミュニティ単位にブログをまとめるだけでなく、階層化された見通しのよいものとしなければならない。
ブログでは通常のリンクに加えトラックバックリンクが存在し、その取り扱いをいかなるものにするか決定しなければならない。
図3は本発明の一実施形態にかかるシステムの構成例を示す図である。
図4は上記の実施形態の全体的な処理の流れを示す図である。
W=MMT (MTはMの転置行列)
で計算される共起行列Wを作成する(ステップS4)。図10は共起行列Wの例を示す図であり、複数のクエリ同士の組み合わせに対する相関値wが記録されたものとなっている。
以上説明したように、本発明の実施形態にあっては、次のような利点がある。
11 クエリログ収集部
12 共起行列作成部
13 クラスタリング処理部
14 ラベリング部
2 コミュニティ抽出サーバ
21 ブログ検索部
22 リンク取得部
23 ルートセット作成部
24 ベースセット作成部
25 コミュニティ抽出部
26 フレーズ抽出部
27 ディレクトリ作成部
28 インデックス作成部
3 ブログ検索サーバ
4 ネットワーク
5 ユーザ端末
101 クエリログDB
102 ターム集合DB
103 カテゴリDB
104 ブログDB
105 フレーズ辞書
106 インデックスDB
Claims (12)
- 検索用インデックス作成装置のクラスタリング手段が、対象となる所定期間のクエリログであって、主たる検索タームであるクエリと当該クエリと同時に用いられた検索タームである共起語とが発生頻度をともなって記録された情報から、上記発生頻度の相関の強いクエリ同士をグループ化してターム集合であるクラスタにクラスタリングを行うクラスタリング工程と、
上記検索用インデックス作成装置のラベリング手段が、上記クラスタリングにより得られた各クラスタに対してラベル付けを行うラベリング工程と、
上記検索用インデックス作成装置のルートセット作成手段が、ラベルの付された各クラスタのタームに基づいて当該タームを含むクラスタ毎のノードの集合であるルートセットを作成するルートセット作成工程と、
上記検索用インデックス作成装置のベースセット作成手段が、作成されたルートセットに含まれる各ノードに基づいて当該ノードのクラスタ毎のリンク先とリンク元のノードの集合であるベースセットを作成するベースセット作成工程と、
上記検索用インデックス作成装置のコミュニティ抽出手段が、作成されたベースセットに含まれる各ノードにオーソリティの重みとハブの重みを割り当て、ベースセットの全ノードのオーソリティの重みを要素に持つベクトルとベースセットの全ノードのハブの重みを要素に持つベクトルとを割り当て、HITSアルゴリズムにより最大固有値に対応する固有ベクトルおよび最大固有値以外の固有値に対応する固有ベクトルを算出し、最大固有値に対応するオーソリティの重みおよびハブの重みを大きい順に配置した序列と最大固有値以外の固有値に対応するオーソリティの重みおよびハブの重みを大きい順に配置した序列とをクラスタ毎にコミュニティ抽出結果として生成するコミュニティ抽出工程と、
上記検索用インデックス作成装置のフレーズ抽出手段が、コミュニティ抽出結果の上位序列の所定数のオーソリティおよびハブからフレーズの抽出を行うフレーズ抽出工程と、
上記検索用インデックス作成装置のディレクトリ作成手段が、上記クラスタに付されたラベル、上記クラスタに含まれるターム、上記オーソリティおよびハブから抽出されたフレーズ、ならびに上記オーソリティおよびハブを、階層構造に配置したディレクトリを作成するディレクトリ作成工程と、
上記検索用インデックス作成装置のインデックス作成手段が、作成されたディレクトリに基づいて検索用のインデックスを作成するインデックス作成工程とを備えたことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記クラスタリング工程は、
上記クエリログからクエリと共起語の発生頻度を表すクエリ/共起語の行列を作成する工程と、
作成されたクエリ/共起語の行列から検索ターム間の相関を表す共起行列を作成する工程と、
作成された共起行列から相関の強いクエリ同士をグループ化してクラスタリングを行う工程とを備えたことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記ラベリング工程は、カテゴリデータを用いてラベルを付すことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記ルートセット作成工程は、各クラスタのタームにより、キーワードと対応するノードの対応を表すキーワード/URLテーブルを検索してクラスタ毎のノードの集合であるルートセットを作成することを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記ベースセット作成工程は、作成されたルートセットに含まれる各ノードにつき、ノードとリンクの相手方のノードの対応を表すURL/リンクテーブルを検索することで、クラスタ毎のリンク先とリンク元のノードの集合であるベースセットを作成することを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記コミュニティ抽出工程は、最大固有値に対応する固有ベクトルの計算と最大固有値以外の固有値に対応する固有ベクトルの計算とを並列的に行うことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記コミュニティ抽出工程の最大固有値に対応する固有ベクトルの計算は、
オーソリティの重みベクトルとハブの重みベクトルの両者の要素を「1」とする初期化の工程と、
係数行列Eとオーソリティの重みベクトルの乗算結果のハブの重みベクトルへの代入、ハブの重みベクトルの絶対値の計算、ハブの重みベクトルをハブの重みベクトルの絶対値で除算した結果のハブの重みベクトルへの代入、係数行列ETとハブの重みベクトルの乗算結果のオーソリティの重みベクトルへの代入、オーソリティの重みベクトルの絶対値の計算、オーソリティの重みベクトルをオーソリティの重みベクトルの絶対値で除算した結果のオーソリティの重みベクトルへの代入を順次に行い、値が収束まで繰り返す工程とを備えたことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記コミュニティ抽出工程の最大固有値以外の固有値に対応する固有ベクトルの計算は、子空間反復法により計算を行うことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記フレーズ抽出工程は、抽出された上位所定数のオーソリティおよびハブのノードにつきフレーズ辞書を用いて特徴的なフレーズを抽出することを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記ディレクトリ作成工程は、
第1階層にラベルを設定する工程と、
第2階層に各タームを設定する工程と、
第3階層にフレーズ抽出で得られたフレーズを設定する工程と、
第4階層に、対応するオーソリティのうち最大固有値に対応するもの、最大固有値以外の固有値に対応するものの順に設定する工程と、
第5階層に、ハブのうち最大固有値に対応するもの、最大固有値以外の固有値に対応するものの順に設定する工程とを備えたことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 請求項1に記載のコミュニティ抽出による検索用インデックス作成方法において、
上記インデックス作成工程は、
第1階層に上記クラスタに付されたラベルを設定する工程と、
第2階層に上記クラスタに含まれるタームを設定する工程と、
第3階層に上記オーソリティおよびハブのノードから抽出されたフレーズを設定する工程と、
上記第3階層に合致するノードのURLとオーソリティ/ハブの区別を対応付けて設定する工程とを備えたことを特徴とするコミュニティ抽出による検索用インデックス作成方法。 - 対象となる所定期間のクエリログであって、主たる検索タームであるクエリと当該クエリと同時に用いられた検索タームである共起語とが発生頻度をともなって記録された情報から、上記発生頻度の相関の強いクエリ同士をグループ化してターム集合であるクラスタにクラスタリングを行うクラスタリング手段と、
上記クラスタリングにより得られた各クラスタに対してラベル付けを行うラベリング手段と、
ラベルの付された各クラスタのタームに基づいて当該タームを含むクラスタ毎のノードの集合であるルートセットを作成するルートセット作成手段と、
作成されたルートセットに含まれる各ノードに基づいて当該ノードのクラスタ毎のリンク先とリンク元のノードの集合であるベースセットを作成するベースセット作成手段と、
作成されたベースセットに含まれる各ノードにオーソリティの重みとハブの重みを割り当て、ベースセットの全ノードのオーソリティの重みを要素に持つベクトルとベースセットの全ノードのハブの重みを要素に持つベクトルとを割り当て、HITSアルゴリズムにより最大固有値に対応する固有ベクトルおよび最大固有値以外の固有値に対応する固有ベクトルを算出し、最大固有値に対応するオーソリティの重みおよびハブの重みを大きい順に配置した序列と最大固有値以外の固有値に対応するオーソリティの重みおよびハブの重みを大きい順に配置した序列とをクラスタ毎にコミュニティ抽出結果として生成するコミュニティ抽出手段と、
コミュニティ抽出結果の上位序列の所定数のオーソリティおよびハブからフレーズの抽出を行うフレーズ抽出手段と、
上記クラスタに付されたラベル、上記クラスタに含まれるターム、上記オーソリティおよびハブから抽出されたフレーズ、ならびに上記オーソリティおよびハブを、階層構造に配置したディレクトリを作成するディレクトリ作成手段と、
作成されたディレクトリに基づいて検索用のインデックスを作成するインデックス作成手段とを備えたことを特徴とするコミュニティ抽出による検索用インデックス作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007024761A JP4874828B2 (ja) | 2007-02-02 | 2007-02-02 | コミュニティ抽出による検索用インデックス作成方法およびその装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007024761A JP4874828B2 (ja) | 2007-02-02 | 2007-02-02 | コミュニティ抽出による検索用インデックス作成方法およびその装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008191877A JP2008191877A (ja) | 2008-08-21 |
JP4874828B2 true JP4874828B2 (ja) | 2012-02-15 |
Family
ID=39751929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007024761A Expired - Fee Related JP4874828B2 (ja) | 2007-02-02 | 2007-02-02 | コミュニティ抽出による検索用インデックス作成方法およびその装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4874828B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978332A (zh) * | 2014-04-04 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 用户生成内容标签数据生成方法、装置及相关方法和装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5271863B2 (ja) * | 2009-10-13 | 2013-08-21 | 日本電信電話株式会社 | 情報分析装置、情報分析方法および情報分析プログラム |
JP5068304B2 (ja) * | 2009-12-28 | 2012-11-07 | ヤフー株式会社 | 抽出装置、方法及びプログラム |
JP5165720B2 (ja) * | 2010-03-31 | 2013-03-21 | ヤフー株式会社 | スパムブログ抽出装置及び方法 |
EP2738687A4 (en) * | 2011-07-25 | 2015-01-07 | Rakuten Inc | GENDER GENERATING DEVICE |
JP6033070B2 (ja) * | 2012-12-14 | 2016-11-30 | 株式会社エクサ | データ管理装置及びデータ管理プログラム |
JP6553793B1 (ja) * | 2018-09-20 | 2019-07-31 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2007
- 2007-02-02 JP JP2007024761A patent/JP4874828B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978332A (zh) * | 2014-04-04 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 用户生成内容标签数据生成方法、装置及相关方法和装置 |
CN104978332B (zh) * | 2014-04-04 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 用户生成内容标签数据生成方法、装置及相关方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008191877A (ja) | 2008-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
Kao et al. | Mining web informative structures and contents based on entropy analysis | |
KR101361182B1 (ko) | 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법 | |
US6560600B1 (en) | Method and apparatus for ranking Web page search results | |
JP4908214B2 (ja) | サーチクエリのリファインメントを提供するシステム及び方法。 | |
US7020679B2 (en) | Two-level internet search service system | |
JP4874828B2 (ja) | コミュニティ抽出による検索用インデックス作成方法およびその装置 | |
US20100131563A1 (en) | System and methods for automatic clustering of ranked and categorized search objects | |
US8812508B2 (en) | Systems and methods for extracting phases from text | |
Zaiane et al. | Dbconnect: mining research community on dblp data | |
US7398461B1 (en) | Method for ranking web page search results | |
US20070271228A1 (en) | Documentary search procedure in a distributed system | |
JP2000090103A (ja) | 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Kumari et al. | Comparative study of page rank and weighted page rank algorithm | |
Zaïane et al. | Mining research communities in bibliographical data | |
JP2001188802A (ja) | 情報検索装置及び情報検索方法 | |
US7483877B2 (en) | Dynamic comparison of search systems in a controlled environment | |
Iqbal et al. | CURE: Collection for urdu information retrieval evaluation and ranking | |
US7490082B2 (en) | System and method for searching internet domains | |
JP3632354B2 (ja) | 情報検索装置 | |
Joshi et al. | A novel approach towards integration of semantic web mining with link analysis to improve the effectiveness of the personalized web | |
Akritidis et al. | Effective ranking fusion methods for personalized metasearch engines | |
KR100434718B1 (ko) | 문서 색인 시스템 및 그 방법 | |
Sima et al. | Keyword query approach over rdf data based on tree template | |
Arora et al. | Efficient Hybrid Ranking Algorithm for Search Engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111124 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4874828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
LAPS | Cancellation because of no payment of annual fees | ||
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |