JP5200750B2 - 情報検索装置、情報検索方法、プログラム、および記録媒体 - Google Patents
情報検索装置、情報検索方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP5200750B2 JP5200750B2 JP2008205582A JP2008205582A JP5200750B2 JP 5200750 B2 JP5200750 B2 JP 5200750B2 JP 2008205582 A JP2008205582 A JP 2008205582A JP 2008205582 A JP2008205582 A JP 2008205582A JP 5200750 B2 JP5200750 B2 JP 5200750B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- query
- node
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
閲覧済文書について不正規インスタンスとして排除する事例を以下に、例示的に列挙する。
(1)同一のユーザからの短時間で発生した多量の検索要求。
(2)同一のユーザからの短時間で発生した多量の検索要求。
(3)長すぎる検索クエリーを含む検索要求または不正な検索要求を含む検索要求。
<検索クエリーおよび文書についての不正規・冗長インスタンスの登録排除>
検索クエリーに関連して不正規インスタンスの登録を排除する基準例を、以下に例示的に列挙する。
(1)同一ユーザによる複数の検索クエリーに対しては、同一の検索語を含む場合にでも異なる検索クエリーIdが割り当てられるが、グラフ生成においては、当該重複登録された検索クエリーのうち、最新のタイムスタンプを有するインスタンスをノードとして採用する。
(2)文書の閲覧を行わなかった検索クエリーについては、グラフ生成から排除する。
(3)設定したしきい値よりも閲覧頻度の低い閲覧済文書はグラフ生成から排除する。
(4)オプション構成として、閲覧頻度が低下する傾向にある文書についてグラフ生成から排除する。
link(χi→χj)(χ=u、q、vd)は、ノードχi、ノードχjを各端点とするリンクを意味し、以下、ui、uj、vdi、vdjについて同様の表記を採用する。link(qi→vdj)は、閲覧済文書が含む検索語または検索語のセマンティック上での類似性に基づいて与えられる重みである。例えば、閲覧文書が検索クエリーの検索語を含む場合には、Query_vd_link_weight(i,j)=1であり、それ以外の場合には、Query_vd_link_weight(i,j)=0である。ない、セマンティック類似性を利用する場合、文書検索の際に得られた相対類似度(完全に類似する場合に値=1)の値を重み付け値として与える。
link(qi→uj)は、検索クエリーの作製者が対象としているユーザか否かの2値判断で割り当てられ、検索クエリーqiが判断中のユーザにより発行されたものである場合、User_query_link_weight(i,j)=1とされ、それ以外の場合は、User_query_link_weight(i,j)=0が与えられる。
link(qi→qj)は、検索クエリー間の時系列的関係を含む類似性の重みであり、図7で与えられる関数で定義される。図7は、関数span(qi,qj)の例示的な実施形態の関数を示した図である。図7に示すように、関数span(qi,qj)は、対象とされる検索クエリーqiとqjとの間に発行された検索クエリーの数であるkに応じて、単調減少する関数f(k)で与えられる。なお、λは、λ>−1を満たす実数である。
ユーザ間に定義するリンクは、検索クエリーを基準尺度として使用する場合、ユーザが発行した検索クエリーの類似性を重み付け尺度として与えることができ、本実施形態では、検索クエリーを、検索クエリーが含む検索語ベクトルとし、検索クエリーqiと検索クエリーqjとの内積として与えることができる。また、ユーザ間の関係は、外部要因を類似性の尺度として使用することもでき、例えば、RSSなどを介してブックマーク情報にアクセスできる場合には、ユーザ間に共通するブックマーク情報の存在を使用して類似性尺度を計算することもできる。
link(ui→vdj)は、ユーザが閲覧した文書について、ユーザと文書間に定義される重み付け値であり、<link(ui→vdj)は、特定のユーザuiが閲覧済文書vdjを閲覧した場合には、User_vd_link_weight(i,j)=1として設定し、それ以外の場合には、User_vd_link_weight(i,j)=0を与える。
として初期設定する。その後、上記式(1)の計算を実行して更新ランキングベクトルvectU′を計算する。その後、vectU′を、vectUの値に設定してさらにvectU′の値を更新し、最終的にvectU′と、vectUとの間の距離が収束した段階で、最後のvectU′を定常状態ベクトルとして確定する。上記処理は、span(qi,qj)を考慮して、最もspanの値が離れたクエリー間での類似度の高さを反復して計算させることに対応し、収束に成功した場合、追加するべき最関連検索語を指定することが適切なためである。
Claims (10)
- ネットワークを介して受領した検索要求の履歴を追加して情報検索を実行する情報検索装置であって、
ネットワークを介して外部から送付される検索要求を受領して前記検索要求の履歴を登録し、前記検索要求に含まれる検索クエリーから、検索語または検索語列を抽出する要求処理手段と、
前記要求処理手段からの前記検索要求の履歴を受領して履歴データベースを更新するログ管理手段と、
前記検索要求の履歴および前記検索クエリーを使用して、前記検索要求のユーザノード、クエリーノード、および閲覧履歴の登録された閲覧済文書ノードに関する情報を登録し、前記情報から前記各ノード間のリンクについて定義された重み付け値を計算し、計算された前記重み付け値を要素とする隣接マトリックスを生成するグラフ管理手段と、
外部から別の検索要求を受領して、前記別の検索要求から前記隣接マトリックスに少なくともクエリーノードを追加し、前記追加したクエリーノードに対応する要素を初期設定したベクトルを生成して前記隣接マトリックスを使用してランキングベクトルが収束するまで反復計算して前記別の検索要求に含まれる検索クエリーを拡張するための最関連検索語を決定し、前記別の検索要求に含まれる検索クエリーを拡張した拡張検索クエリーを生成する最関連検索語決定手段と、
前記拡張検索クエリーを受領して、文書データベースに照会を実行し、検索結果を受領する検索実行手段と、
前記検索結果を編集して構造化文書を作成し、前記検索要求の送付元に前記構造化文書を送付させる検索結果編集手段と
を含む情報検索装置。 - 前記ノード間のリンクは、少なくとも前記ユーザノード間、前記クエリーノード間、および前記クエリーノードと閲覧済文書ノードとの間に定義され、前記ユーザノード間のリンクは、ユーザが過去に送付した検索クエリーの類似性について重み付け値が与えられ、前記クエリーノード間のリンクは、複数の検索クエリーの間の時系列的間隔を使用して前記検索クエリー間の類似性について重み付け値が与えられ、前記クエリーノードと閲覧済文書ノードとの間に定義されるリンクは、前記クエリーノードに対応する前記検索語と前記閲覧済文書ノードに登録された閲覧済文書の類似度についての重み付け値が与えられる、請求項1に記載の情報検索装置。
- 前記最関連検索語決定手段は、直前の反復サイクルのランキングベクトルを、試行ベクトルとして設定し、前記試行ベクトルを使用して前記隣接マトリックスによる反復計算を実行してランキングベクトルを更新する反復計算を実行し、最新のランキングベクトルと、当該反復サイクルでの試行ベクトルとの間の内積が設定された少値以下となった場合に収束を判定して、前記最新のランキングベクトルから前記最関連検索語を決定する、請求項1または2に記載の情報検索装置。
- 前記グラフ管理手段は、前記別の検索要求に含まれる検索クエリーを使用して前記隣接マトリックスの前記クエリーノードと前記閲覧済文書ノードとの間の重み付け値を使用して前記隣接マトリックスを更新する、請求項2または3に記載の情報検索装置。
- ネットワークを介して受領した検索要求の履歴を追加してコンピュータが実行する情報検索方法であって、前記コンピュータが、
ネットワークを介して外部から送付される検索要求を受領して前記検索要求の履歴を登録し、前記検索要求に含まれる検索クエリーから、検索語または検索語列を抽出するステップと、
前記検索要求の履歴を受領して履歴データベースを更新するステップと、
前記検索要求の履歴および前記検索クエリーを使用して、前記検索要求のユーザノード、クエリーノード、および閲覧履歴の登録された閲覧済文書ノードに関する情報を登録し、前記情報から前記各ノード間のリンクについて定義された重み付け値を計算し、計算された前記重み付け値を要素とする隣接マトリックスを生成するステップと、
外部から別の検索要求を受領して、前記別の検索要求から前記隣接マトリックスに少なくともクエリーノードを追加し、前記追加したクエリーノードに対応する要素を初期設定したベクトルを生成して前記隣接マトリックスを使用してランキングベクトルが収束するまで反復計算して前記別の検索要求に含まれる検索クエリーを拡張するための最関連検索語を決定し、前記別の検索要求に含まれる検索クエリーを拡張した拡張検索クエリーを生成するステップと、
前記拡張検索クエリーを受領して、文書データベースに照会を実行し、検索結果を受領するステップと、
前記検索結果を編集して構造化文書を作成し、前記検索要求の送付元に前記構造化文書を送付するステップと
を実行する、情報検索方法。 - 前記ノード間のリンクが、少なくとも前記ユーザノード間、前記クエリーノード間、および前記クエリーノードと閲覧済文書ノードとの間に定義され、さらに、前記隣接マトリックスを生成するステップは、
前記ユーザノード間のリンクに対して、ユーザが過去に送付した検索クエリーの類似性について重み付け値を計算するステップと、
前記クエリーノード間のリンクに対して、複数の検索クエリーの間の時系列的間隔を使用して前記検索クエリー間の類似性について重み付け値を計算するステップと、
前記クエリーノードと閲覧済文書ノードとの間に定義されるリンクに対して、前記クエリーノードに対応する前記検索語と前記閲覧済文書ノードに登録された閲覧済文書の類似度についての重み付け値を計算するステップと
を含む、請求項5に記載の情報検索方法。 - 前記拡張検索クエリーを生成するステップは、
直前の反復サイクルのランキングベクトルを、試行ベクトルとして設定するステップと、
前記試行ベクトルを使用して前記隣接マトリックスを使用した反復計算を実行してランキングベクトルを更新するステップと、
最新のランキングベクトルと、当該反復サイクルでの試行ベクトルとの間の内積が設定された少値以下となった場合に収束を判定して、前記最新のランキングベクトルから前記最関連検索語を決定するステップと
を含む、請求項5または6に記載の情報検索方法。 - 前記隣接マトリックスを生成するステップは、前記別の検索要求に含まれる検索クエリーを使用して前記隣接マトリックスの前記クエリーノードと前記閲覧済文書ノードとの間の重み付け値を使用して前記隣接マトリックスを更新する、請求項5または6に記載の情報検索方法。
- 情報処理装置が請求項6〜8のいずれか1項に記載の各ステップを実行するためのコンピュータ実行可能なプログラム。
- 請求項9に記載のコンピュータ実行可能なプログラムを記録したコンピュータ可読な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205582A JP5200750B2 (ja) | 2008-08-08 | 2008-08-08 | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205582A JP5200750B2 (ja) | 2008-08-08 | 2008-08-08 | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010039997A JP2010039997A (ja) | 2010-02-18 |
JP5200750B2 true JP5200750B2 (ja) | 2013-06-05 |
Family
ID=42012432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008205582A Expired - Fee Related JP5200750B2 (ja) | 2008-08-08 | 2008-08-08 | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5200750B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180078712A (ko) * | 2016-12-30 | 2018-07-10 | 서울대학교산학협력단 | 그래프 랭킹 수행 방법 및 장치 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5084859B2 (ja) * | 2010-03-17 | 2012-11-28 | ヤフー株式会社 | 情報処理装置、データ抽出方法、及びプログラム |
JP5467062B2 (ja) * | 2011-01-17 | 2014-04-09 | 日本電信電話株式会社 | 情報推薦装置及び方法及びプログラム |
JP6773972B2 (ja) * | 2016-09-30 | 2020-10-21 | 富士通株式会社 | データ変換プログラム、データ変換方法、およびデータ変換装置 |
CN111599463B (zh) * | 2020-05-09 | 2023-07-14 | 吾征智能技术(北京)有限公司 | 基于声音认知模型的智能辅助诊断系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041700A (ja) * | 2005-08-01 | 2007-02-15 | Nippon Telegr & Teleph Corp <Ntt> | トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 |
JP4750628B2 (ja) * | 2006-06-14 | 2011-08-17 | 日本電信電話株式会社 | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
-
2008
- 2008-08-08 JP JP2008205582A patent/JP5200750B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180078712A (ko) * | 2016-12-30 | 2018-07-10 | 서울대학교산학협력단 | 그래프 랭킹 수행 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2010039997A (ja) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314823B2 (en) | Method and apparatus for expanding query | |
US8150846B2 (en) | Content searching and configuration of search results | |
Ahmadi-Abkenari et al. | An architecture for a focused trend parallel Web crawler with the application of clickstream analysis | |
US7925641B2 (en) | Indexing web content of a runtime version of a web page | |
US20090248661A1 (en) | Identifying relevant information sources from user activity | |
US9495453B2 (en) | Resource download policies based on user browsing statistics | |
CN103530339A (zh) | 移动应用信息推送方法和装置 | |
JP5200750B2 (ja) | 情報検索装置、情報検索方法、プログラム、および記録媒体 | |
WO2006124287A2 (en) | Importance ranking for a hierarchical collection of objects | |
JP5084796B2 (ja) | 関連性判定装置、関連性判定方法およびプログラム | |
Bakariya et al. | An inclusive survey on data preprocessing methods used in web usage mining | |
KR101244357B1 (ko) | 웹 자원 아카이빙을 위한 장치 및 방법 | |
KR100975510B1 (ko) | 웹 페이지 색인 업데이트 방법 및 시스템 | |
Bharamagoudar et al. | Literature survey on web mining | |
JP5379627B2 (ja) | 検索制御装置、検索制御方法、及びプログラム | |
WO2023045378A1 (zh) | 向用户推荐物品信息的方法、设备、存储介质及程序产品 | |
Khanchana et al. | An efficient web page prediction based on access time-length and frequency | |
KR101780581B1 (ko) | 온라인 상에 노출된 사용자의 정보를 관리하는 방법 및 장치 | |
US20240086941A1 (en) | Systems and methods to identify technographics for a company | |
CN111460307B (zh) | 一种移动终端精确搜索方法和装置 | |
Jindal et al. | Data Mining in Web Search Engine Optimization and User Assisted Rank Results‖ | |
Attia et al. | Computer and Information Sciences | |
JP6040136B2 (ja) | 特徴スコア計算装置、特徴スコア計算方法及び特徴スコア計算プログラム | |
JP5914186B2 (ja) | 情報処理装置および情報処理方法 | |
Rajkumar et al. | Crawler for Image Acquisition from World Wide Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130128 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5200750 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |