JP5321258B2 - 情報収集システムおよび情報収集方法ならびにそのプログラム - Google Patents

情報収集システムおよび情報収集方法ならびにそのプログラム Download PDF

Info

Publication number
JP5321258B2
JP5321258B2 JP2009138230A JP2009138230A JP5321258B2 JP 5321258 B2 JP5321258 B2 JP 5321258B2 JP 2009138230 A JP2009138230 A JP 2009138230A JP 2009138230 A JP2009138230 A JP 2009138230A JP 5321258 B2 JP5321258 B2 JP 5321258B2
Authority
JP
Japan
Prior art keywords
search
result information
search result
information
search key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009138230A
Other languages
English (en)
Other versions
JP2010286888A (ja
Inventor
悠一 籔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009138230A priority Critical patent/JP5321258B2/ja
Publication of JP2010286888A publication Critical patent/JP2010286888A/ja
Application granted granted Critical
Publication of JP5321258B2 publication Critical patent/JP5321258B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報を収集する情報収集システムおよび情報収集方法ならびにそのプログラムに関する。
コンピュータ装置が接続された通信ネットワークにおいて、各コンピュータ装置の記憶する情報を収集する情報収集システムが存在する。例えば、一般にインターネット上に公開されたウェブページの検索エンジンと呼ばれるものは、このような情報収集システムに該当する。なお情報収集システムの技術として特許文献1が開示されている。
特開2000−020542号公報
上述のような情報収集システムは、与えられたキーワードまたはURLに対して、幅優先探索による情報収集や、もしくは対象とするウェブページにリンクされて繋がった他のウェブページから情報収集を行う、といった手法が利用されてきた。しかし、前者の場合、大量のデータを収集できるが不必要なデータも多く収集されてしまうという問題がある。また、後者の場合、目的のデータのみを収集することはできるが、得られた情報に広がりがない、つまり、元の検索対象の情報に関連する新たな情報を収集するのが難しいという問題がある。
そこでこの発明は、与えられた検索キーに基づいて、意味的に関連する広がりのある情報を所望の量だけ収集することのできる情報収集システムおよび情報収集方法ならびにそのプログラムを提供することを目的としている。
上記目的を達成するために、本発明は、検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定する検索結果情報関連度判定手段と、前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出する関連語抽出手段と、前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する新検索キー特定手段と、を備えることを特徴とする情報収集システムである。
また本発明は、上述の情報収集システムにおいて、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する検索回数制限手段と、を備えることを特徴とする。
また本発明は、上述の情報収集システムにおいて、前記検索結果情報関連度判定手段は、前記検索キー対応検索結果情報に含まれる各単語の当該検索キー対応検索結果情報内の出現頻度と、前記リンク先対応検索結果情報に含まれる各単語の当該リンク先対応検索結果情報内の出現頻度とを用いて、前記検索キー対応検索結果情報と、前記リンク先対応検索結果情報との関連度の高低を判定することを特徴とする。
また本発明は、上述の情報収集システムにおいて、前記関連語抽出手段は、前記検索キー対応検索結果情報の中から前記代表するキーワードを含む文を抽出し、当該文に出てくる他の単語のうち、出現頻度の高い単語を前記代表するキーワードと関連度の高い単語として抽出することを特徴とする。
また本発明は、情報収集システムにおける情報収集方法であって、前記情報収集システムの検索結果情報関連度判定手段が、検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定し、前記情報収集システムの関連語抽出手段が、前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出し、前記情報収集システムの新検索キー特定手段が、前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定することを特徴とする情報収集方法である。
また本発明は、上述の情報収集方法において、前記情報収集システムの検索回数制限手段が、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限することを特徴とする。
また本発明は、情報収集システムのコンピュータを、検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定する検索結果情報関連度判定手段、前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出する関連語抽出手段、前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する新検索キー特定手段、として機能させることを特徴とするプログラムである。
また本発明は、上述の各手段に加え、情報収集システムのコンピュータを、さらに、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する検索回数制限手段、として機能させることを特徴とするプログラムである。
本発明によれば、検索手段は、検索キーに基づいて検索した検索キー対応検索結果情報と、その検索キー対応検索結果情報に含まれるURLのうち、関連度の高いURLを新たな検索キーとした場合の検索結果である検索キー対応検索結果情報や、さらにその検索キー対応検索結果情報に含まれるURLのうち、関連度の高いURLを新たな検索キーとした場合の検索結果である検索キー対応検索結果情報を、予め定められた検索回数に達するまで順に収集する。また、検索手段は、自装置が検索した検索キー対応検索結果情報のウェブページデータにおいて、そのデータを代表するキーワードに関連する関連語を、新たな検索キーとして関連語抽出装置より受け付け、その関連語を示す新たな検索キーに基づいて検索した検索キー対応検索結果情報を収集する。これにより、本情報収集システムでは、与えられた検索キーに基づいて、意味的に関連する広がりのある情報を所望の量だけ収集することができる。
情報収集システムの構成を示す第1のブロック図である。 情報収集システムの各装置の機能構成を示す図である。 情報収集システムの処理フローを示す図である。 単語出現順位表のデータ例を示す図である。 出力装置の表示例を示す図である。 情報収集システムの構成を示す第2のブロック図である。
以下、本発明の一実施形態による情報収集システムを図面を参照して説明する。
図1は同実施形態による情報収集システムの構成を示す第1のブロック図である。
本実施形態の情報収集システムは、検索キーの入力を受け付ける入力装置1、検索キーに基づいて情報を収集するフォーカスドクローラ2、収集された情報を記憶する収集データ管理装置3、収集された情報に格納されている単語の関連語を抽出する関連語抽出装置4、収集された情報の中かからユーザ所望の情報を検索および表示処理する検索表示装置5、表示処理された情報をモニタ等に出力する出力装置6の各装置を備えている。
図2は、同実施形態による情報収集システムの各装置の機能構成を示す図である。
次に、フォーカスドクローラ2、収集データ管理装置3、関連語抽出装置4、検索表示装置5の各装置の機能構成について説明する。
図2で示すように、フォーカスドクローラ2において、符号21は、他の装置と通信を行う通信処理部である。また22は、検索キーに基づいて情報を収集する情報収集部である。また23は、入力装置1等から情報の入力を受け付ける入力受付部である。また24は、検索キーに基づいて検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報(URL等)に基づいて検索したリンク先対応検索結果情報との関連度の高低を判定し、関連度の高いリンク先対応検索結果情報を特定する文書分類部である。
また、収集データ管理装置3において、符号31は他の装置と通信を行う通信処理部31である。また32はフォーカスドクローラ2から受信した情報を管理するデータ管理部である。また33は検索キー対応検索結果情報からキーワードを抽出するキーワード抽出部である。また34は検索キー対応検索結果情報等の情報を記憶するデータ記憶部34である。また35は収集したURLの情報を記憶する収集対象URL記憶部である。
また、関連語抽出装置4において、符号41は他の装置と通信を行う通信処理部である。また42は検索キー対応検索結果情報の中からキーワードを含む文を抽出し、当該文に出てくる他の単語のうち出現頻度の高い単語を、キーワードと関連度の高い関連語として抽出する関連語抽出処理部42である。
また、検索表示装置5において、符号51は他の装置と通信を行う通信処理部である。また52は収集データ管理装置3の記憶する情報を検索し出力装置6へ表示処理する表示処理部である。
そして、本実施形態による情報収集システムは、検索キーに基づいてフォーカスドクローラ2の情報収集部22(検索手段)が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいてフォーカスドクローラ2の情報収集部22が検索したリンク先対応検索結果情報と、の関連度の高低を判定し、また、検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い関連語を抽出する。
また情報収集システムは、検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いたURL(リンク先情報)と、抽出した関連度の高い関連語とを、新たな検索キーとして特定する。
そして情報収集システムは、フォーカスドクローラ2の新たな検索キーを用いた検索回数を制限し、その検索回数に基づいて、フォーカスドクローラ2の情報収集部22が情報を収集する。
このような処理により、本実施形態による情報収集システムは、与えられた検索キーに基づいて、意味的に関連する広がりのある情報を所望の量だけ収集する処理を行う。
図3は情報収集システムの処理フローを示す図である。
次に、本実施形態による、情報収集システムの処理フローについて図1〜図3を用いて詳細に説明する。
まず、フォーカスドクローラ2の入力受付部23は、入力装置1から情報を収集する始点となる単語又はURLを、検索キーとして受け付ける(ステップS101)。次に、フォーカスドクローラ2の情報収集部22が、その検索キーが単語かURLかを判定する(ステップS102)。そして単語であれば、フォーカスドクローラ2の情報収集部22(Web検索エンジン)は、単語の検索キーを用いて、インターネット通信網に接続されている各ウェブサーバから情報を検索する(ステップS103)。情報収集部22は、その検索結果で最上位の順位として検索できたウェブページのURLを収集データ管理装置3へ通知する(ステップS104)。収集データ管理装置3のデータ管理部32は、通知を受けたウェブページのURLを新たな検索キーとして、収集対象URL記憶部35の待ち行列に登録する(ステップS105)。なお、ステップS102において検索キーがURLであると判定した場合には、フォーカスドクローラ2の情報収集部22は、そのURLを、収集対象URL記憶部35の待ち行列に保存するよう収集データ管理装置3へ指示する(ステップS106)。
次に、フォーカスドクローラ2の情報収集部22は、収集データ管理装置3の収集対象URL記憶部35の待ち行列に順に記録されているURLの転送を収集データ管理装置3へ要求し(ステップS107)、その結果、収集データ管理装置3のデータ管理部32からURLを受信する(ステップS108)。そしてフォーカスドクローラ2の情報収集部22は、受信したURLに基づいて、インターネット通信網に接続されたウェブサーバの配信するウェブページデータ(以下、検索キー対応検索結果情報と呼ぶ)を検索・収集処理(ステップS109)し、その検索キー対応検索結果情報を受信する。次に、フォーカスドクローラ2の文書分類部24は、検索キーに基づいて収集した検索キー対応検索結果情報内にリンク先のURLが含まれるかどうかを判定する(ステップS110)。
例えば、ウェブページデータ内からURLとして出現する文字列(.htmlや.htm)が検索できればURLが含まれると判定し、そのURLを抽出する。次に、文書分類部24は、検索キー対応検索結果情報に含まれるリンク先のURLをキーとして、インターネット通信網に接続されている各ウェブサーバからウェブページデータ(以下、リンク先対応検索結果情報と呼ぶ)を検索・収集処理する(ステップS111)。そして、その検索・収集処理に基づいて収集した、リンク先対応検索結果情報を一時メモリ等に記憶する。そして、文書分類部24は、検索キー対応検索結果情報と、リンク先対応検索結果情報とが類似しているかどうかを判定する(ステップS112)。この類似判定の処理の詳細については後述する。文書分類部24は、検索キー対応検索結果情報と、リンク先対応検索結果情報とが類似している場合には、検索キー対応検索結果情報と類似度の高いリンク先対応検索結果情報の収集に用いたURLと、そのURLを特定した元である、検索キー対応検索結果情報のURLとを、収集データ管理装置3へ通知する(ステップS113)。収集データ管理装置3のデータ管理部32は、通知を受けた類似度の高いリンク先対応検索結果情報の収集に用いたURL(新たな検索キー)と、そのURLを特定した元である、検索キー対応検索結果情報のURLとの組を、収集対象URL記憶部35の待ち行列に登録する(ステップS114)。
また、フォーカスドクローラ2の情報収集部22は、フォーカスドクローラ2のIDと、検索キーとなるURL等を含むメタ情報と、ステップS109において検索キーにより収集した検索キー対応検索結果情報と、を収集データ管理装置3へ送信し(ステップS115)、収集データ管理装置3のデータ管理部2が、メタ情報に対応付けてウェブページデータをデータ記憶部34に記録する(ステップS116)。なお、検索キーとなるURLが、収集データ管理装置3の収集対象URL記憶部35の待ち行列から読み取ったものであれば、そのURLと、そのURLを特定した元である、検索キー対応検索結果情報のURLの組がメタ情報に格納される。
そして、フォーカスドクローラ2の情報収集部22は、取得した検索キーによる、検索キー対応検索結果情報の収集が終了すると、再度、ステップS107のように、収集データ管理装置3の収集対象URL記憶部35の待ち行列に順に記録されているURLと、そのURLを特定した元である、検索キー対応検索結果情報のURLの組の転送を収集データ管理装置3へ要求し、その結果、ステップS108と同様に、収集データ管理装置3のデータ管理部32から、それら、待ち行列に順に記録されているURLと、そのURLを特定した元である、検索キー対応検索結果情報のURLの組を受信する。そしてフォーカスドクローラ2の情報収集部22は、ステップS109と同様に、そのURLを新たな検索キーとして、検索キー対応検索結果情報を収集する。このとき、収集データ管理装置3のデータ管理部32は、待ち行列の最前列のURLをフォーカスドクローラ2へ送信すると、そのURLを待ち行列から削除する。そして情報収集部22は、検索キー対応検索結果情報を収集すると、その情報を文書分類部24へ通知すると共に、収集対象URL記憶部35の待ち行列に新たに最前列に記録された次のURLの要求を、収集データ管理装置3へ繰り返す。これらの処理により、収集データ管理装置3では、フォーカスドクローラ2が収集した検索キー対応検索結果情報のウェブページデータが順次、データ記憶部34に記録されていく。
収集データ管理装置3では、収集された各検索キー対応検索結果情報のウェブページデータから、それぞれのウェブページデータにおいて代表するキーワードを抽出する。この抽出の処理は、キーワード抽出部33が、検索キー対応検索結果情報のウェブページデータに含まれる文書情報を形態素解析し単語に分割する。そして、検索キー対応検索結果情報のウェブページデータ内で出現する各単語の頻度(出現回数)をそれぞれ計算し、最も頻度(出現回数)の多い名詞の単語を、各検索キー対応検索結果情報のキーワードとして抽出する。そして、キーワード抽出部33は、データ記憶部34において、既に記録された各検索キー対応検索結果情報のウェブページデータに対応付けて、それぞれのキーワードを登録する。
次に関連語抽出装置の処理について説明する。
関連語抽出装置4の関連語抽出処理部42は、データ記憶部34に記録されている検索キー対応検索結果情報と、その情報に対応付けられて記録されている当該検索キー対応検索結果情報のウェブページにおけるキーワードを読み取る。そして関連語抽出処理部42は、検索キー対応検索結果情報のウェブページデータの中から、キーワードに関連する関連語の抽出処理を行う。ここで、関連語の抽出処理は、まず、検索キー対応検索結果情報を代表するキーワードが、当該検索キー対応検索結果情報内において出現する文章を抽出する。そして、そのキーワードの出現する文に含まれる他の単語のうち、出現頻度(出現回数)の高い単語を、キーワードと関連度の高い単語として抽出する。出現頻度の高い単語は、出現回数が上位の所定の数の単語を抽出したり、閾値以上の出現回数を抽出したりすることにより行う。そして、関連語抽出装置4の関連語抽出処理部42は、抽出した1つまたは複数の単語を新たな検索キーとして、フォーカスドクローラ2へ出力する。フォーカスドクローラ2は、新たな検索キーを受信すると、その検索キーを自装置のメモリ等に格納する。そして、情報収集部22は、自装置のメモリに登録された新たな検索キーに基づいて、順次、インターネット通信網に接続されたウェブサーバから、検索キー対応検索結果情報となるウェブページデータを収集する。そして、この収集した検索キー対応検索結果情報を用いて、上述のステップS110〜ステップS116の処理が行われる。
なお、情報収集部22は、収集データ管理装置3の収集対象URL記憶部35に記録されたURLや、関連語抽出装置4から受信する単語などの、新たな検索キーを用いた収集検索処理を繰り返す回数(検索回数)を記憶しておき、入力を受け付けた最初の検索キーに基づく収集検索処理から、その繰り返し回数をカウントし、最大の検索回数に達した場合には、収集検索処理を終了する。この検索回数に達したかどうかを判定する処理部を収集データ管理装置3や、関連語抽出装置4が保持しており、それら装置が、検索回数に達した場合に、URLや単語などの新たな検索キーの記憶部への蓄積やフォーカスドクローラに対する通知を中止するようにしてもよい。
以上の処理によれば、フォーカスドクローラ2は、検索キーに基づいて検索した検索キー対応検索結果情報と、その検索キー対応検索結果情報に含まれるURLのうち、関連度の高いURLを新たな検索キーとした場合の検索結果である検索キー対応検索結果情報や、さらにその検索キー対応検索結果情報に含まれるURLのうち、関連度の高いURLを新たな検索キーとした場合の検索結果である検索キー対応検索結果情報を、予め定められた検索回数に達するまで順に収集する。
また、フォーカスドクローラ2は、自装置が検索した検索キー対応検索結果情報のウェブページデータにおいて、そのデータを代表するキーワードに関連する関連語を、新たな検索キーとして関連語抽出装置4より受け付け、その関連語を示す新たな検索キーに基づいて検索した検索キー対応検索結果情報を収集する。これにより、本情報収集システムでは、与えられた検索キーに基づいて、意味的に関連する広がりのある情報を所望の量だけ収集することができる。
次に、検索キー対応検索結果情報とリンク先対応検索結果情報とが類似しているかどうかの判定処理について説明する。
本実施形態においては、検索キー対応検索結果情報とリンク先対応検索結果情報の各ウェブページデータの相違度を測定することにより、検索キー対応検索結果情報とリンク先対応検索結果情報とが類似しているかどうかを判定する。
まず、検索キー対応検索結果情報の示すウェブページデータと、そのウェブページデータに含まれているリンク先であるリンク先対応検索結果情報の示すウェブページデータをd2(以下、検索キー対応検索結果情報d2と呼ぶ)、d1(以下、リンク先対応検索結果情報d1と呼ぶ)とする。そして、フォーカスドクローラ2の文書分類部24は、リンク先対応検索結果情報d1,検索キー対応検索結果情報d2に含まれる文書情報を形態素解析して単語に分割する。そして、リンク先対応検索結果情報d1と検索キー対応検索結果情報d2のそれぞれから自立語を抽出する。
図4は単語出現順位表のデータ例を示す図である。
次に、フォーカスドクローラ2の文書分類部24は、リンク先対応検索結果情報d1と検索キー対応検索結果情報d2のそれぞれから抽出した自立語の単語を用いて、図4で示すような単語出現順位表を生成する。図4で示すように、単語出現順位表は、リンク先対応検索結果情報d1内の各自立語の単語の当該リンク先対応検索結果情報d1における出現頻度に基づく順位、または、検索キー対応検索結果情報d2内の各自立語の単語の当該検索キー対応検索結果情報d2における出現頻度に基づく順位、を示す情報である。そして、リンク先対応検索結果情報d1の単語出現順位表をRank(d1)、検索キー対応検索結果情報d2の単語出現順位表をRank(d2)とする。また、リンク先対応検索結果情報d1に含まれる単語xの順位をrd1(x)、検索キー対応検索結果情報d2に含まれる単語xの順位をrd2(x)とする。例えば、図4においてrd1(a)、rd2(e)はそれぞれ各検索結果情報における順位の1位、3位の単語を示す。そして、このとき、リンク先対応検索結果情報d1と、検索キー対応検索結果情報d2の相違度Dd1d2は、式(1)のように定義することができる。
Figure 0005321258
この式(1)より、Dd1d2は小さいほどリンク先対応検索結果情報d1と、検索キー対応検索結果情報d2が類似していることを表す。ただし、検索キー対応検索結果情報d2に出現しない単語xの、当該検索キー対応検索結果情報d2における順位rd2(x)は、式(2)のように定義することができる。
Figure 0005321258
この手法によりリンク先対応検索結果情報d1と、検索キー対応検索結果情報d2の相違度を求め、相違度の値が閾値以下であれば、文書分類部24は、リンク先対応検索結果情報d1の収集に用いたURLを、収集データ管理装置3へ通知し、収集対象URL記憶部35の待ち行列に追加するよう要求する。
例として、図4を使って、リンク先対応検索結果情報d1と、検索キー対応検索結果情報d2の相違度Dd1d2を求める。
まず、最初に単語aに関して相違度を求める。rd1(a)はRank(d1)より1位となる。同様にrd2(a)は2位となる。よって単語aの相違度は、|1−2|/(1+2)=0.33となる。次に、単語dについて相違度を求める。rd1(d)はRank(d1)より4位となる。しかし、検索キー対応検索結果情報d2には単語dが存在しない。このときrd2(d)は式(2)を用いて、4+1の掲載により5となる。これは検索キー対応検索結果情報d2中の頻度が最下位である順位に1を足したものである。よって単語dの相違度は、|4−5|/(4+5)=0.11となる。同様に各単語について相違度を求め、それらの総和を求めると、Dd1d2=1.17となる。このDd1d2と閾値を比べ閾値以下であれば、リンク先対応検索結果情報d1と、検索キー対応検索結果情報d2は類似していると判断し、閾値よりも大きければリンク先対応検索結果情報d1と、検索キー対応検索結果情報d2は類似していないと判断する。
図5は出力装置の表示例を示す図である。
次に、検索表示装置5の処理について説明する。
入力装置1からの指示に基づいて、検索表示装置5は、収集データ管理装置3に対して、出力装置6へ表示するデータを要求する。すると、収集データ管理装置3のデータ管理部32は、データ記憶部34から、各収集した検索キー対応検索結果情報と、そのメタ情報と、その検索キー対応検索結果情報のキーワードとを取り出す。そして、データ管理部32は、メタ情報に含まれる、URLとそのURLを特定した元である、検索キー対応検索結果情報のURLの組の親子関係に基づいて、検索キー対応検索結果情報の親子関係を特定し、その親子関係を表す図を、各検索キー対応検索結果情報のキーワードにより出力装置6へ出力する。図5では、各検索キー対応検索結果情報のキーワードをその親子関係に基づいて表示した様子を示している。
図6は情報収集システムの構成を示す第2のブロック図である。
上述の例では、情報収集システムが、フォーカスドクローラ2を1つ備える場合の例について説明したが、図6で示すように、情報収集システムは、フォーカスドクローラ2を複数有するマルチフォーカスドクローラ20を有するようにしても良い。この場合、マルチフォーカスドクローラ20内の各フォーカスドクローラ2は連携して、順に収集データ管理装置3の収集対象URL記憶部35からURLを取得して、または、関連語抽出装置4から新たな検索キーとなる関連語を取得して、それぞれが情報収集を行う。これにより、収集処理の負荷分散を行うことができる。
なお、上述の情報収集システムでは、複数の装置により、上記各処理を実行しているが、何れかの複数の装置の処理を1つの装置で実行させる場合や、1つの装置の機能を別々の装置で実行する場合も想定される。つまり、入力装置1、フォーカスドクローラ2、収集データ管理装置3、関連語抽出装置4、検索表示装置5のうちの、何れか複数の装置の機能が1つの装置で実行されるようにしてもよい。またフォーカスドクローラ2の情報収集部22と文書分類部22の機能が、別々の装置で実行されるようにしてもよい。
上述の各装置は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1・・・入力装置
2・・・フォーカスドクローラ
3・・・収集データ管理装置
4・・・関連語抽出装置
5・・・検索表示装置

Claims (8)

  1. 検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定する検索結果情報関連度判定手段と、
    前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出する関連語抽出手段と、
    前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する新検索キー特定手段と、
    を備えることを特徴とする情報収集システム。
  2. 前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する検索回数制限手段と、
    を備えることを特徴とする請求項1に記載の情報収集システム。
  3. 前記検索結果情報関連度判定手段は、
    前記検索キー対応検索結果情報に含まれる各単語の当該検索キー対応検索結果情報内の出現頻度と、前記リンク先対応検索結果情報に含まれる各単語の当該リンク先対応検索結果情報内の出現頻度とを用いて、前記検索キー対応検索結果情報と、前記リンク先対応検索結果情報との関連度の高低を判定する
    ことを特徴とする請求項1または請求項2に記載の情報収集システム。
  4. 前記関連語抽出手段は、
    前記検索キー対応検索結果情報の中から前記代表するキーワードを含む文を抽出し、当該文に出てくる他の単語のうち、出現頻度の高い単語を前記代表するキーワードと関連度の高い単語として抽出する
    ことを特徴とする請求項2または請求項3に記載の情報収集システム。
  5. 情報収集システムにおける情報収集方法であって、
    前記情報収集システムの検索結果情報関連度判定手段が、検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定し、
    前記情報収集システムの関連語抽出手段が、前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出し、
    前記情報収集システムの新検索キー特定手段が、前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する
    ことを特徴とする情報収集方法。
  6. 前記情報収集システムの検索回数制限手段が、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する
    ことを特徴とする請求項5に記載の情報収集方法。
  7. 情報収集システムのコンピュータを、
    検索キーに基づいて検索手段が検索した検索キー対応検索結果情報と、当該検索キー対応検索結果情報に含まれるリンク先情報に基づいて前記検索手段が検索したリンク先対応検索結果情報と、の関連度の高低を判定する検索結果情報関連度判定手段、
    前記検索キー対応検索結果情報の中から当該検索キー対応検索結果情報を代表するキーワードと関連度の高い単語を抽出する関連語抽出手段、
    前記検索キー対応検索結果情報と関連度の高いリンク先対応検索結果情報の検索に用いた前記リンク先情報と、前記関連度の高い単語とを、新たな検索キーとして特定する新検索キー特定手段、
    として機能させることを特徴とするプログラム。
  8. 請求項7の各手段に加え、情報収集システムのコンピュータを、さらに、前記新たな検索キーを用いた検索を繰り返す前記検索手段の前記新たな検索キーを用いた検索回数を制限する検索回数制限手段、
    として機能させることを特徴とするプログラム。
JP2009138230A 2009-06-09 2009-06-09 情報収集システムおよび情報収集方法ならびにそのプログラム Expired - Fee Related JP5321258B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009138230A JP5321258B2 (ja) 2009-06-09 2009-06-09 情報収集システムおよび情報収集方法ならびにそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009138230A JP5321258B2 (ja) 2009-06-09 2009-06-09 情報収集システムおよび情報収集方法ならびにそのプログラム

Publications (2)

Publication Number Publication Date
JP2010286888A JP2010286888A (ja) 2010-12-24
JP5321258B2 true JP5321258B2 (ja) 2013-10-23

Family

ID=43542569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009138230A Expired - Fee Related JP5321258B2 (ja) 2009-06-09 2009-06-09 情報収集システムおよび情報収集方法ならびにそのプログラム

Country Status (1)

Country Link
JP (1) JP5321258B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6034674B2 (ja) * 2012-11-27 2016-11-30 Kddi株式会社 検索情報難読化装置、検索情報難読化方法、およびプログラム
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
WO2017104655A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 情報分析システム、情報分析方法、及び、記録媒体
JP6795467B2 (ja) * 2017-07-14 2020-12-02 株式会社日立製作所 情報収集支援装置および情報収集支援方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP2001075859A (ja) * 1999-08-31 2001-03-23 Just Syst Corp 情報巡回獲得装置
JP2002117043A (ja) * 2000-10-11 2002-04-19 Ricoh Co Ltd 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP4154118B2 (ja) * 2000-10-31 2008-09-24 株式会社リコー 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出
JP4152669B2 (ja) * 2002-05-08 2008-09-17 株式会社リコー 文書検索装置、文書検索方法、記録媒体及びプログラム
JP4380375B2 (ja) * 2003-03-19 2009-12-09 富士ゼロックス株式会社 文書収集装置および文書収集用コンピュータプログラム
JP4948071B2 (ja) * 2006-07-28 2012-06-06 三菱スペース・ソフトウエア株式会社 コンテンツ検索装置及びコンテンツ検索プログラム
JP4819628B2 (ja) * 2006-09-19 2011-11-24 ヤフー株式会社 ドキュメントデータを検索する方法、サーバ、およびプログラム

Also Published As

Publication number Publication date
JP2010286888A (ja) 2010-12-24

Similar Documents

Publication Publication Date Title
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
JP2009151749A (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP2007219929A (ja) 感性評価システム及び方法
KR101011726B1 (ko) 스니펫 제공 장치 및 방법
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2009122807A (ja) 連想検索システム
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5579140B2 (ja) 文書検索装置及び方法及びプログラム
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP4774087B2 (ja) 動画評価方法、装置及びプログラム
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
JP2010108363A (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
Moumtzidou et al. Discovery of environmental nodes in the web
JP6727097B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP2009070210A (ja) カテゴリ別ランキング作成装置
JP2004264928A (ja) Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体
CN104731867B (zh) 一种对对象进行聚类的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Ref document number: 5321258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees