JP5321258B2 - 情報収集システムおよび情報収集方法ならびにそのプログラム - Google Patents
情報収集システムおよび情報収集方法ならびにそのプログラム Download PDFInfo
- Publication number
- JP5321258B2 JP5321258B2 JP2009138230A JP2009138230A JP5321258B2 JP 5321258 B2 JP5321258 B2 JP 5321258B2 JP 2009138230 A JP2009138230 A JP 2009138230A JP 2009138230 A JP2009138230 A JP 2009138230A JP 5321258 B2 JP5321258 B2 JP 5321258B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- result information
- search result
- information
- search key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は同実施形態による情報収集システムの構成を示す第1のブロック図である。
本実施形態の情報収集システムは、検索キーの入力を受け付ける入力装置1、検索キーに基づいて情報を収集するフォーカスドクローラ2、収集された情報を記憶する収集データ管理装置3、収集された情報に格納されている単語の関連語を抽出する関連語抽出装置4、収集された情報の中かからユーザ所望の情報を検索および表示処理する検索表示装置5、表示処理された情報をモニタ等に出力する出力装置6の各装置を備えている。
次に、フォーカスドクローラ2、収集データ管理装置3、関連語抽出装置4、検索表示装置5の各装置の機能構成について説明する。
図2で示すように、フォーカスドクローラ2において、符号21は、他の装置と通信を行う通信処理部である。また22は、検索キーに基づいて情報を収集する情報収集部である。また23は、入力装置1等から情報の入力を受け付ける入力受付部である。また24は、検索キーに基づいて検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報(URL等)に基づいて検索したリンク先対応検索結果情報との関連度の高低を判定し、関連度の高いリンク先対応検索結果情報を特定する文書分類部である。
また、関連語抽出装置4において、符号41は他の装置と通信を行う通信処理部である。また42は検索キー対応検索結果情報の中からキーワードを含む文を抽出し、当該文に出てくる他の単語のうち出現頻度の高い単語を、キーワードと関連度の高い関連語として抽出する関連語抽出処理部42である。
また、検索表示装置5において、符号51は他の装置と通信を行う通信処理部である。また52は収集データ管理装置3の記憶する情報を検索し出力装置6へ表示処理する表示処理部である。
また情報収集システムは、検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いたURL(リンク先情報)と、抽出した関連度の高い関連語とを、新たな検索キーとして特定する。
そして情報収集システムは、フォーカスドクローラ2の新たな検索キーを用いた検索回数を制限し、その検索回数に基づいて、フォーカスドクローラ2の情報収集部22が情報を収集する。
このような処理により、本実施形態による情報収集システムは、与えられた検索キーに基づいて、意味的に関連する広がりのある情報を所望の量だけ収集する処理を行う。
次に、本実施形態による、情報収集システムの処理フローについて図1〜図3を用いて詳細に説明する。
まず、フォーカスドクローラ2の入力受付部23は、入力装置1から情報を収集する始点となる単語又はURLを、検索キーとして受け付ける(ステップS101)。次に、フォーカスドクローラ2の情報収集部22が、その検索キーが単語かURLかを判定する(ステップS102)。そして単語であれば、フォーカスドクローラ2の情報収集部22(Web検索エンジン)は、単語の検索キーを用いて、インターネット通信網に接続されている各ウェブサーバから情報を検索する(ステップS103)。情報収集部22は、その検索結果で最上位の順位として検索できたウェブページのURLを収集データ管理装置3へ通知する(ステップS104)。収集データ管理装置3のデータ管理部32は、通知を受けたウェブページのURLを新たな検索キーとして、収集対象URL記憶部35の待ち行列に登録する(ステップS105)。なお、ステップS102において検索キーがURLであると判定した場合には、フォーカスドクローラ2の情報収集部22は、そのURLを、収集対象URL記憶部35の待ち行列に保存するよう収集データ管理装置3へ指示する(ステップS106)。
関連語抽出装置4の関連語抽出処理部42は、データ記憶部34に記録されている検索キー対応検索結果情報と、その情報に対応付けられて記録されている当該検索キー対応検索結果情報のウェブページにおけるキーワードを読み取る。そして関連語抽出処理部42は、検索キー対応検索結果情報のウェブページデータの中から、キーワードに関連する関連語の抽出処理を行う。ここで、関連語の抽出処理は、まず、検索キー対応検索結果情報を代表するキーワードが、当該検索キー対応検索結果情報内において出現する文章を抽出する。そして、そのキーワードの出現する文に含まれる他の単語のうち、出現頻度(出現回数)の高い単語を、キーワードと関連度の高い単語として抽出する。出現頻度の高い単語は、出現回数が上位の所定の数の単語を抽出したり、閾値以上の出現回数を抽出したりすることにより行う。そして、関連語抽出装置4の関連語抽出処理部42は、抽出した1つまたは複数の単語を新たな検索キーとして、フォーカスドクローラ2へ出力する。フォーカスドクローラ2は、新たな検索キーを受信すると、その検索キーを自装置のメモリ等に格納する。そして、情報収集部22は、自装置のメモリに登録された新たな検索キーに基づいて、順次、インターネット通信網に接続されたウェブサーバから、検索キー対応検索結果情報となるウェブページデータを収集する。そして、この収集した検索キー対応検索結果情報を用いて、上述のステップS110〜ステップS116の処理が行われる。
また、フォーカスドクローラ2は、自装置が検索した検索キー対応検索結果情報のウェブページデータにおいて、そのデータを代表するキーワードに関連する関連語を、新たな検索キーとして関連語抽出装置4より受け付け、その関連語を示す新たな検索キーに基づいて検索した検索キー対応検索結果情報を収集する。これにより、本情報収集システムでは、与えられた検索キーに基づいて、意味的に関連する広がりのある情報を所望の量だけ収集することができる。
本実施形態においては、検索キー対応検索結果情報とリンク先対応検索結果情報の各ウェブページデータの相違度を測定することにより、検索キー対応検索結果情報とリンク先対応検索結果情報とが類似しているかどうかを判定する。
まず、検索キー対応検索結果情報の示すウェブページデータと、そのウェブページデータに含まれているリンク先であるリンク先対応検索結果情報の示すウェブページデータをd2(以下、検索キー対応検索結果情報d2と呼ぶ)、d1(以下、リンク先対応検索結果情報d1と呼ぶ)とする。そして、フォーカスドクローラ2の文書分類部24は、リンク先対応検索結果情報d1,検索キー対応検索結果情報d2に含まれる文書情報を形態素解析して単語に分割する。そして、リンク先対応検索結果情報d1と検索キー対応検索結果情報d2のそれぞれから自立語を抽出する。
次に、フォーカスドクローラ2の文書分類部24は、リンク先対応検索結果情報d1と検索キー対応検索結果情報d2のそれぞれから抽出した自立語の単語を用いて、図4で示すような単語出現順位表を生成する。図4で示すように、単語出現順位表は、リンク先対応検索結果情報d1内の各自立語の単語の当該リンク先対応検索結果情報d1における出現頻度に基づく順位、または、検索キー対応検索結果情報d2内の各自立語の単語の当該検索キー対応検索結果情報d2における出現頻度に基づく順位、を示す情報である。そして、リンク先対応検索結果情報d1の単語出現順位表をRank(d1)、検索キー対応検索結果情報d2の単語出現順位表をRank(d2)とする。また、リンク先対応検索結果情報d1に含まれる単語xの順位をrd1(x)、検索キー対応検索結果情報d2に含まれる単語xの順位をrd2(x)とする。例えば、図4においてrd1(a)、rd2(e)はそれぞれ各検索結果情報における順位の1位、3位の単語を示す。そして、このとき、リンク先対応検索結果情報d1と、検索キー対応検索結果情報d2の相違度Dd1d2は、式(1)のように定義することができる。
まず、最初に単語aに関して相違度を求める。rd1(a)はRank(d1)より1位となる。同様にrd2(a)は2位となる。よって単語aの相違度は、|1−2|/(1+2)=0.33となる。次に、単語dについて相違度を求める。rd1(d)はRank(d1)より4位となる。しかし、検索キー対応検索結果情報d2には単語dが存在しない。このときrd2(d)は式(2)を用いて、4+1の掲載により5となる。これは検索キー対応検索結果情報d2中の頻度が最下位である順位に1を足したものである。よって単語dの相違度は、|4−5|/(4+5)=0.11となる。同様に各単語について相違度を求め、それらの総和を求めると、Dd1d2=1.17となる。このDd1d2と閾値を比べ閾値以下であれば、リンク先対応検索結果情報d1と、検索キー対応検索結果情報d2は類似していると判断し、閾値よりも大きければリンク先対応検索結果情報d1と、検索キー対応検索結果情報d2は類似していないと判断する。
次に、検索表示装置5の処理について説明する。
入力装置1からの指示に基づいて、検索表示装置5は、収集データ管理装置3に対して、出力装置6へ表示するデータを要求する。すると、収集データ管理装置3のデータ管理部32は、データ記憶部34から、各収集した検索キー対応検索結果情報と、そのメタ情報と、その検索キー対応検索結果情報のキーワードとを取り出す。そして、データ管理部32は、メタ情報に含まれる、URLとそのURLを特定した元である、検索キー対応検索結果情報のURLの組の親子関係に基づいて、検索キー対応検索結果情報の親子関係を特定し、その親子関係を表す図を、各検索キー対応検索結果情報のキーワードにより出力装置6へ出力する。図5では、各検索キー対応検索結果情報のキーワードをその親子関係に基づいて表示した様子を示している。
上述の例では、情報収集システムが、フォーカスドクローラ2を1つ備える場合の例について説明したが、図6で示すように、情報収集システムは、フォーカスドクローラ2を複数有するマルチフォーカスドクローラ20を有するようにしても良い。この場合、マルチフォーカスドクローラ20内の各フォーカスドクローラ2は連携して、順に収集データ管理装置3の収集対象URL記憶部35からURLを取得して、または、関連語抽出装置4から新たな検索キーとなる関連語を取得して、それぞれが情報収集を行う。これにより、収集処理の負荷分散を行うことができる。
2・・・フォーカスドクローラ
3・・・収集データ管理装置
4・・・関連語抽出装置
5・・・検索表示装置
Claims (8)
- 検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定する検索結果情報関連度判定手段と、
前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出する関連語抽出手段と、
前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する新検索キー特定手段と、
を備えることを特徴とする情報収集システム。 - 前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する検索回数制限手段と、
を備えることを特徴とする請求項1に記載の情報収集システム。 - 前記検索結果情報関連度判定手段は、
前記検索キー対応検索結果情報に含まれる各単語の当該検索キー対応検索結果情報内の出現頻度と、前記リンク先対応検索結果情報に含まれる各単語の当該リンク先対応検索結果情報内の出現頻度とを用いて、前記検索キー対応検索結果情報と、前記リンク先対応検索結果情報との関連度の高低を判定する
ことを特徴とする請求項1または請求項2に記載の情報収集システム。 - 前記関連語抽出手段は、
前記検索キー対応検索結果情報の中から前記代表するキーワードを含む文を抽出し、当該文に出てくる他の単語のうち、出現頻度の高い単語を前記代表するキーワードと関連度の高い単語として抽出する
ことを特徴とする請求項2または請求項3に記載の情報収集システム。 - 情報収集システムにおける情報収集方法であって、
前記情報収集システムの検索結果情報関連度判定手段が、検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定し、
前記情報収集システムの関連語抽出手段が、前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出し、
前記情報収集システムの新検索キー特定手段が、前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する
ことを特徴とする情報収集方法。 - 前記情報収集システムの検索回数制限手段が、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する
ことを特徴とする請求項5に記載の情報収集方法。 - 情報収集システムのコンピュータを、
検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定する検索結果情報関連度判定手段、
前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出する関連語抽出手段、
前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する新検索キー特定手段、
として機能させることを特徴とするプログラム。 - 請求項7の各手段に加え、情報収集システムのコンピュータを、さらに、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する検索回数制限手段、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009138230A JP5321258B2 (ja) | 2009-06-09 | 2009-06-09 | 情報収集システムおよび情報収集方法ならびにそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009138230A JP5321258B2 (ja) | 2009-06-09 | 2009-06-09 | 情報収集システムおよび情報収集方法ならびにそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010286888A JP2010286888A (ja) | 2010-12-24 |
JP5321258B2 true JP5321258B2 (ja) | 2013-10-23 |
Family
ID=43542569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009138230A Expired - Fee Related JP5321258B2 (ja) | 2009-06-09 | 2009-06-09 | 情報収集システムおよび情報収集方法ならびにそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5321258B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6034674B2 (ja) * | 2012-11-27 | 2016-11-30 | Kddi株式会社 | 検索情報難読化装置、検索情報難読化方法、およびプログラム |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
WO2017104655A1 (ja) * | 2015-12-14 | 2017-06-22 | 日本電気株式会社 | 情報分析システム、情報分析方法、及び、記録媒体 |
JP6795467B2 (ja) * | 2017-07-14 | 2020-12-02 | 株式会社日立製作所 | 情報収集支援装置および情報収集支援方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
JP2001075859A (ja) * | 1999-08-31 | 2001-03-23 | Just Syst Corp | 情報巡回獲得装置 |
JP2002117043A (ja) * | 2000-10-11 | 2002-04-19 | Ricoh Co Ltd | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 |
JP4154118B2 (ja) * | 2000-10-31 | 2008-09-24 | 株式会社リコー | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
JP2002245061A (ja) * | 2001-02-14 | 2002-08-30 | Seiko Epson Corp | キーワード抽出 |
JP4152669B2 (ja) * | 2002-05-08 | 2008-09-17 | 株式会社リコー | 文書検索装置、文書検索方法、記録媒体及びプログラム |
JP4380375B2 (ja) * | 2003-03-19 | 2009-12-09 | 富士ゼロックス株式会社 | 文書収集装置および文書収集用コンピュータプログラム |
JP4948071B2 (ja) * | 2006-07-28 | 2012-06-06 | 三菱スペース・ソフトウエア株式会社 | コンテンツ検索装置及びコンテンツ検索プログラム |
JP4819628B2 (ja) * | 2006-09-19 | 2011-11-24 | ヤフー株式会社 | ドキュメントデータを検索する方法、サーバ、およびプログラム |
-
2009
- 2009-06-09 JP JP2009138230A patent/JP5321258B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010286888A (ja) | 2010-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6883001B2 (en) | Document information search apparatus and method and recording medium storing document information search program therein | |
JP2009151749A (ja) | ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム | |
JP2011154467A (ja) | 検索結果順位付け方法および検索結果順位付けシステム | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
KR101011726B1 (ko) | 스니펫 제공 장치 및 방법 | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP2009122807A (ja) | 連想検索システム | |
JP2005107688A (ja) | 情報表示方法及びシステム及び情報表示プログラム | |
JP2007140603A (ja) | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5579140B2 (ja) | 文書検索装置及び方法及びプログラム | |
KR100557874B1 (ko) | 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 | |
JP4774087B2 (ja) | 動画評価方法、装置及びプログラム | |
JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
JP5466133B2 (ja) | 画像付文書検索装置及び画像付文書検索プログラム | |
JP2010108363A (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
JP6727097B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP2009070210A (ja) | カテゴリ別ランキング作成装置 | |
JP2004264928A (ja) | Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体 | |
CN104731867B (zh) | 一种对对象进行聚类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5321258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |