JP4633162B2 - インデックス生成システム、情報検索システム、及びインデックス生成方法 - Google Patents
インデックス生成システム、情報検索システム、及びインデックス生成方法 Download PDFInfo
- Publication number
- JP4633162B2 JP4633162B2 JP2008306728A JP2008306728A JP4633162B2 JP 4633162 B2 JP4633162 B2 JP 4633162B2 JP 2008306728 A JP2008306728 A JP 2008306728A JP 2008306728 A JP2008306728 A JP 2008306728A JP 4633162 B2 JP4633162 B2 JP 4633162B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- access
- similarity
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Description
[第1実施形態]
例えば、類似度算出部32が図4に示される正規化後のデータに基づいて各ベクトル間の内積値の算出を上記式(1)に基づいて行うと、図5に示されるように、文書D1,D2間のアクセス類似度が0.53、文書D1,D3間のアクセス類似度が0.99、文書D1,D4間のアクセス類似度が0.97、文書D2,D3間のアクセス類似度が0.49、文書D2,D4間のアクセス類似度が0.36、文書D3,D4間のアクセス類似度が0.97として、それぞれ算出される。類似度算出部32は、このようにして算出したアクセス類似度を類似文書特定部34へ出力する。
[第2実施形態]
[第3実施形態]
[第4実施形態]
[第5実施形態]
[変形例]
Claims (12)
- 文書検索用の検索インデックスを生成するインデックス生成システムであって、
ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納手段と、
前記アクセス履歴格納手段に格納された前記履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出手段と、
各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出手段と、
検索対象となる一の文書に類似する類似文書を前記アクセス類似度に基づいて特定する類似文書特定手段と、
前記検索対象となる一の文書及び前記類似文書からなる集合文書に出現する語から前記検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成手段と、を有し、
前記アクセス履歴格納手段は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を前記履歴情報として格納し、
前記類似度算出手段は、前記アクセス履歴格納手段に格納された前記頻度情報に基づいて前記アクセス類似度を算出し、
前記類似文書特定手段は、前記リンク距離算出手段を用いて前記検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、前記文書群に含まれる文書と前記検索対象となる文書との間の前記アクセス類似度を類似判定閾値と比較して前記類似文書を特定する、ことを特徴とするインデックス生成システム。 - 前記類似度算出手段は、前記リンク距離算出手段により算出されるリンク距離が大きくなるにつれて低下するように前記アクセス類似度を算出する、ことを特徴とする請求項1記載のインデックス生成システム。
- 前記アクセス履歴格納手段は、前記アクセス頻度それぞれに対応するアクセス時間を含む前記頻度情報を前記履歴情報として格納し、
前記類似度算出手段は、前記頻度情報における前記アクセス頻度を前記アクセス時間に基づいて増減して、前記アクセス類似度を算出する、ことを特徴とする請求項1又は2記載のインデックス生成システム。 - 前記類似文書特定手段は、前記類似判定閾値を複数有しており、且つ、前記複数の類似判定閾値のそれぞれに対応する前記類似文書をそれぞれ特定し、
前記検索インデックス生成手段は、前記複数の類似判定閾値それぞれに対応する各前記類似文書に応じて特定される前記文書集合それぞれに出現する語から、前記検索対象となる一の文書に対する検索インデックスを複数パターン生成する、ことを特徴とする請求項1〜3のいずれか一項記載のインデックス生成システム。 - 文書を検索する情報検索システムであって、
請求項1〜4のいずれか一項記載のインデックス生成システムにより生成された前記検索インデックスを用いて、検索要求に適合する適合文書を検索する情報検索手段を有することを特徴とする情報検索システム。 - 前記情報検索手段は、請求項4記載のインデックス生成システムにより生成された前記複数パターンの内の一のパターンの前記検索インデックスを用いて検索要求に適合する適合文書を検索すると共に、検索された適合文書の数に応じて複数パターンの内の別のパターンの前記検索インデックスを選択して用いることを特徴とする請求項5記載の情報検索システム。
- 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記検索要求との類似度が大きい文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項5又は6記載の情報検索システム。
- 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記検索インデックスを構成する語の数が多い文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項5又は6記載の情報検索システム。
- 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記複数の文書の内、文書パスが上位の文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項5又は6記載の情報検索システム。
- 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記アクセス履歴格納手段に格納されている前記履歴情報に基づいて文書アクセス数が上位の文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項5又は6記載の情報検索システム。
- 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記アクセス履歴格納手段に格納されている前記履歴情報に基づいてユーザによる各セッションにおけるアクセス開始文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項5又は6記載の情報検索システム。
- 文書検索用の検索インデックスを生成するインデックス生成方法であって、
アクセス履歴格納手段が、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納ステップと、
類似度算出手段が、前記アクセス履歴格納ステップで格納された前記履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出ステップと、
リンク距離算出手段が、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出ステップと、
類似文書特定手段が、検索対象となる一の文書に類似する類似文書を前記アクセス類似度に基づいて特定する類似文書特定ステップと、
検索インデックス生成手段が、前記検索対象となる一の文書及び前記類似文書からなる集合文書に出現する語から前記検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成ステップと、を含み、
前記アクセス履歴格納ステップでは、前記アクセス履歴格納手段が、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を前記履歴情報として格納し、
前記類似度算出ステップでは、前記類似度算出手段が、前記アクセス履歴格納ステップで格納された前記頻度情報に基づいて前記アクセス類似度を算出し、
前記類似文書特定ステップでは、前記類似文書特定手段が、前記リンク距離算出ステップで算出されるリンク距離を用いて前記検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、前記文書群に含まれる文書と前記検索対象となる文書との間の前記アクセス類似度を類似判定閾値と比較して前記類似文書を特定する、ことを特徴とするインデックス生成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008306728A JP4633162B2 (ja) | 2008-12-01 | 2008-12-01 | インデックス生成システム、情報検索システム、及びインデックス生成方法 |
US12/626,779 US8285723B2 (en) | 2008-12-01 | 2009-11-27 | System and method for indexing documents and retrieving similar document based on link transition count distance calculations |
CN2009102466999A CN101901241B (zh) | 2008-12-01 | 2009-12-01 | 索引生成系统、信息检索系统以及索引生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008306728A JP4633162B2 (ja) | 2008-12-01 | 2008-12-01 | インデックス生成システム、情報検索システム、及びインデックス生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010129061A JP2010129061A (ja) | 2010-06-10 |
JP4633162B2 true JP4633162B2 (ja) | 2011-02-16 |
Family
ID=42223736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008306728A Expired - Fee Related JP4633162B2 (ja) | 2008-12-01 | 2008-12-01 | インデックス生成システム、情報検索システム、及びインデックス生成方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8285723B2 (ja) |
JP (1) | JP4633162B2 (ja) |
CN (1) | CN101901241B (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048765B1 (en) | 2008-06-25 | 2021-06-29 | Richard Paiz | Search engine optimizer |
US11423018B1 (en) * | 2010-04-21 | 2022-08-23 | Richard Paiz | Multivariate analysis replica intelligent ambience evolving system |
US11379473B1 (en) * | 2010-04-21 | 2022-07-05 | Richard Paiz | Site rank codex search patterns |
JP5373710B2 (ja) * | 2010-06-30 | 2013-12-18 | ヤフー株式会社 | インデックス更新装置及びその方法 |
US8620907B2 (en) | 2010-11-22 | 2013-12-31 | Microsoft Corporation | Matching funnel for large document index |
US8713024B2 (en) | 2010-11-22 | 2014-04-29 | Microsoft Corporation | Efficient forward ranking in a search engine |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
US9424351B2 (en) | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
US9342582B2 (en) * | 2010-11-22 | 2016-05-17 | Microsoft Technology Licensing, Llc | Selection of atoms for search engine retrieval |
US9195745B2 (en) | 2010-11-22 | 2015-11-24 | Microsoft Technology Licensing, Llc | Dynamic query master agent for query execution |
US8478704B2 (en) | 2010-11-22 | 2013-07-02 | Microsoft Corporation | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components |
US9158767B2 (en) * | 2011-04-08 | 2015-10-13 | Microsoft Technology Licensing, Llc | Lock-free indexing of documents |
US8402030B1 (en) * | 2011-11-21 | 2013-03-19 | Raytheon Company | Textual document analysis using word cloud comparison |
US9721039B2 (en) * | 2011-12-16 | 2017-08-01 | Palo Alto Research Center Incorporated | Generating a relationship visualization for nonhomogeneous entities |
JP5701846B2 (ja) * | 2012-11-28 | 2015-04-15 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
JP5900356B2 (ja) * | 2013-01-08 | 2016-04-06 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US11741090B1 (en) | 2013-02-26 | 2023-08-29 | Richard Paiz | Site rank codex search patterns |
US11809506B1 (en) * | 2013-02-26 | 2023-11-07 | Richard Paiz | Multivariant analyzing replicating intelligent ambience evolving system |
US9164667B2 (en) * | 2013-03-15 | 2015-10-20 | Luminoso Technologies, Inc. | Word cloud rotatable through N dimensions via user interface |
WO2016006276A1 (ja) * | 2014-07-10 | 2016-01-14 | 日本電気株式会社 | インデックス生成装置及びインデックス生成方法 |
US9965788B2 (en) | 2014-09-26 | 2018-05-08 | Wal-Mart Stores, Inc. | System and method for prioritized product index searching |
US20160092519A1 (en) * | 2014-09-26 | 2016-03-31 | Wal-Mart Stores, Inc. | System and method for capturing seasonality and newness in database searches |
CN109299348B (zh) * | 2018-11-28 | 2021-09-28 | 北京字节跳动网络技术有限公司 | 一种数据查询方法、装置、电子设备及存储介质 |
JP6675742B1 (ja) * | 2019-02-15 | 2020-04-01 | 国立大学法人大阪大学 | 文書検索装置、文書検索方法、及び、文書検索プログラム |
CN113468278B (zh) * | 2021-06-30 | 2023-09-08 | 杭州云深科技有限公司 | 获取目标用户关联关系的系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172665A (ja) * | 1998-12-04 | 2000-06-23 | Fuji Xerox Co Ltd | ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体 |
JP2000242626A (ja) * | 1999-02-23 | 2000-09-08 | Hitachi Ltd | 電子商取引履歴分析方法 |
JP2001052017A (ja) * | 1999-08-11 | 2001-02-23 | Fuji Xerox Co Ltd | ハイパーテキスト解析装置 |
JP2005018530A (ja) * | 2003-06-27 | 2005-01-20 | Toshiba Corp | 情報処理装置、情報処理プログラム及び情報処理方法 |
JP2008117267A (ja) * | 2006-11-07 | 2008-05-22 | Yafoo Japan Corp | 閲覧履歴提供システム、閲覧履歴提供装置、閲覧履歴提供方法、および閲覧履歴提供プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3470861B2 (ja) * | 1997-07-17 | 2003-11-25 | 株式会社日立情報システムズ | 参照アクセス情報の取得システム |
JP3849318B2 (ja) | 1998-09-10 | 2006-11-22 | 富士ゼロックス株式会社 | 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7213198B1 (en) * | 1999-08-12 | 2007-05-01 | Google Inc. | Link based clustering of hyperlinked documents |
US20030004996A1 (en) * | 2001-06-29 | 2003-01-02 | International Business Machines Corporation | Method and system for spatial information retrieval for hyperlinked documents |
US7523096B2 (en) * | 2003-12-03 | 2009-04-21 | Google Inc. | Methods and systems for personalized network searching |
GB0610119D0 (en) * | 2006-05-20 | 2006-06-28 | Ibm | Internet browser and method of bookmarking in same |
CN100524307C (zh) | 2006-06-27 | 2009-08-05 | 国际商业机器公司 | 一种建立文档间关联关系的方法和装置 |
JP5340751B2 (ja) | 2008-04-22 | 2013-11-13 | 株式会社エヌ・ティ・ティ・ドコモ | 文書処理装置および文書処理方法 |
-
2008
- 2008-12-01 JP JP2008306728A patent/JP4633162B2/ja not_active Expired - Fee Related
-
2009
- 2009-11-27 US US12/626,779 patent/US8285723B2/en not_active Expired - Fee Related
- 2009-12-01 CN CN2009102466999A patent/CN101901241B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172665A (ja) * | 1998-12-04 | 2000-06-23 | Fuji Xerox Co Ltd | ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体 |
JP2000242626A (ja) * | 1999-02-23 | 2000-09-08 | Hitachi Ltd | 電子商取引履歴分析方法 |
JP2001052017A (ja) * | 1999-08-11 | 2001-02-23 | Fuji Xerox Co Ltd | ハイパーテキスト解析装置 |
JP2005018530A (ja) * | 2003-06-27 | 2005-01-20 | Toshiba Corp | 情報処理装置、情報処理プログラム及び情報処理方法 |
JP2008117267A (ja) * | 2006-11-07 | 2008-05-22 | Yafoo Japan Corp | 閲覧履歴提供システム、閲覧履歴提供装置、閲覧履歴提供方法、および閲覧履歴提供プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101901241A (zh) | 2010-12-01 |
US20100138426A1 (en) | 2010-06-03 |
US8285723B2 (en) | 2012-10-09 |
CN101901241B (zh) | 2012-09-19 |
JP2010129061A (ja) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4633162B2 (ja) | インデックス生成システム、情報検索システム、及びインデックス生成方法 | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
US7693904B2 (en) | Method and system for determining relation between search terms in the internet search system | |
US20170116200A1 (en) | Trust propagation through both explicit and implicit social networks | |
US9171078B2 (en) | Automatic recommendation of vertical search engines | |
JP5632124B2 (ja) | 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム | |
JP5431727B2 (ja) | 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム | |
JP4909334B2 (ja) | サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法 | |
KR100522029B1 (ko) | 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템 | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
CN105069103B (zh) | App搜索引擎利用用户评论的方法及系统 | |
US20090125549A1 (en) | Method and system for calculating competitiveness metric between objects | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
JP5379978B2 (ja) | 検索システム及び検索方法 | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
JP2007188352A (ja) | ページリランキング装置、ページリランキングプログラム | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
JP2009122807A (ja) | 連想検索システム | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP2019003406A (ja) | 情報収集装置、情報収集方法、および情報収集プログラム | |
JP5777663B2 (ja) | 検索支援装置及び検索支援プログラム | |
JP2010282403A (ja) | 文書検索方法 | |
Makris et al. | Personalized Hotlink Assignment using Social Networks | |
JP5903370B2 (ja) | 情報検索装置、情報検索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101109 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4633162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |