JP2001282837A - 情報収集装置 - Google Patents

情報収集装置

Info

Publication number
JP2001282837A
JP2001282837A JP2000095997A JP2000095997A JP2001282837A JP 2001282837 A JP2001282837 A JP 2001282837A JP 2000095997 A JP2000095997 A JP 2000095997A JP 2000095997 A JP2000095997 A JP 2000095997A JP 2001282837 A JP2001282837 A JP 2001282837A
Authority
JP
Japan
Prior art keywords
site
document
documents
field
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000095997A
Other languages
English (en)
Inventor
Tatsuya Sukehiro
達哉 介弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000095997A priority Critical patent/JP2001282837A/ja
Publication of JP2001282837A publication Critical patent/JP2001282837A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ある分野に対して関連性の深いサイトのみ
を、効率よく、高精度で収集する。 【解決手段】 文書ネットワーク10は、種々の分野の
文書が分散して存在する文書群のネットワークである。
キーワードデータ格納部27には、特定のサイトの文書
に含まれるキーワードが格納されている。キーワード解
析手段26は、文書ネットワーク10の任意のサイトの
文書に、キーワードデータ格納部27に格納されている
キーワードがどの程度含まれるかを解析する。分野判定
手段23は、キーワード解析手段26の解析結果に基づ
き、任意のサイトが特定の分野のサイトであるかを判定
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ハイパーリンクな
どにより関連付けられた文書群の中から、ある特定の分
野を扱ったサイトの情報を効率よく高い精度で収集する
情報収集装置に関する。
【0002】
【従来の技術】従来より、例えば、文献:特開平10−
105572号公報等に示されるように、分散された文
書の中から関連性のある文書を抽出するようにしたもの
があった。この文献に示された技術は、文書の参照関係
を辿る範囲を限定することによって、意味的に関連性の
深い文書のみを収集するようにしたものである。即ち、
文献に示された技術は、文書中のキーワードの含有率を
調べ、含有率の大きいものを関連性のあるものとし、関
連のない文書のリンクを辿らないことによって、効率的
に関連性の深い文書だけを収集するようにしている。
【0003】
【発明が解決しようとする課題】しかしながら、ある文
書からリンクされている文書があまり関連性のない文書
であっても、その文書からリンクされている文書は関連
性がある場合もあり得る。
【0004】また、複数の文書で関連性があるかないか
をコンピュータにより100%正しく判定することは不
可能である。そのため、あるリンクの部分で誤って関連
性がないと判断されてしまうと、そこからリンクされて
いる文書は収集されないことになってしまう。
【0005】
【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈構成1〉複数の文書からなる文書群中で特定の分野に
ついて記述された文書の集合を特定のサイトとし、その
サイトの文書を収集する情報収集装置であって、特定の
サイトの文書に含まれるキーワードを格納するキーワー
ドデータ格納部と、文書群上の任意のサイト内の文書
で、キーワードがどの程度含まれるかを解析するキーワ
ード解析手段と、キーワード解析手段での解析結果に基
づき、任意のサイトが特定の分野のサイトか否かを判定
する分野判定手段とを備えたことを特徴とする情報収集
装置。
【0006】〈構成2〉複数の文書からなる文書群中で
特定の分野について記述された文書の集合を特定のサイ
トとして、そのサイトの文書を収集する情報収集装置で
あって、文書群上の任意のサイト内の文書と、予め登録
した特定の分野に属するサイトの文書との類似度を計算
する類似度計算手段と、類似度計算手段で計算された類
似度の値に基づき、対象となるサイトが特定の分野のサ
イトであるか否かを判定する分野判定手段とを備えたこ
とを特徴とする情報収集装置。
【0007】〈構成3〉複数の文書からなる文書群中で
特定の分野について記述された文書の集合を特定のサイ
トとして、そのサイトの文書を収集する情報収集装置で
あって、文書群上の任意のサイト内の文書が、予め登録
した特定の分野に属するサイトの文書からリンクされて
いる数を計算するリンク状況管理手段と、リンク状況管
理手段で計算された値が所定値以上であった場合に、対
象となるサイトが特定の分野であると判定する分野判定
手段とを備えたことを特徴とする情報収集装置。
【0008】
【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて詳細に説明する。
【0009】《具体例1》 〈構成〉図1は、本発明の情報収集装置の具体例1を示
す構成図である。図において、10は文書ネットワー
ク、20は情報収集装置を示している。文書ネットワー
ク10は、複数のサイトから構成され、更にそのサイト
には複数の文書(ハイパーテキスト)から構成されてい
る。それぞれの文書はリンクによって結ばれている。こ
の文書ネットワーク10は、例えばインターネットとい
ったネットワーク上に分散して存在する文書群である。
【0010】ここでは、ある特定の分野について記述さ
れた文書の集合のことをサイトと呼ぶことにする。例え
ば、URL(Uniform Resource Locator)が、 http://www.foo.co.jp/ というドメインに、 http://www.foo.co.jp/sports/soccer/ http://www.foo.co.jp/sports/baseball/ http://www.foo.co.jp/sports/basketball/ とあった場合、 http://www.foo.co.jp/sports/soccer/ を一つのサイトと呼び、 http://www.foo.co.jp/sports/soccer/index.htm http://www.foo.co.jp/sports/soccer/schedule.htm http://www.foo.co.jp/sports/soccer/results/990901.
htm などの文書がそのサイトに属する。
【0011】図1で説明すると、例えば、サイトAが
[http://www.foo.co.jp/sports/soccer/]、サイトB
が[http://www.foo.co.jp/sports/baseball/]、サイ
トCが[http://www.foo.co.jp/sports/basketball/]
といったようになる。
【0012】情報収集装置20は、文書ネットワーク1
0から、特定のサイトの文書を収集する機能を有するも
ので、文書取得手段21、文書保存手段22、分野判定
手段23、サイト判定手段24、リンク検出手段25、
キーワード解析手段26、キーワードデータ格納部2
7、形態素解析手段28を備えている。
【0013】文書取得手段21は、URLで指定された
文書ネットワーク10上の指定された文書を取得する機
能を有し、また、文書保存手段22は、収集した文書を
保存する機能を有している。
【0014】図2は、文書保存手段22の一例を示す説
明図である。図示のように、文書保存手段22は、ID
221、サイト認定222、URL223の項目からな
るテーブルである。
【0015】ID221はサイト毎に一意に付与された
識別IDである。サイト認定222は、そのサイトが、
特定分野に属するかどうかを示すデータであり、○が特
定分野に属するもの、×が属していないもの、印がない
のは未調査のものである。URL223はそのサイトの
URLを示している。このURL223は、それぞれの
サイトのトップディレクトリとその中の文書(複数)を
記憶している。例えば、[http://www.foo.co.jp/sport
s/soccer/]がある特定のサイトのトップディレクト
リ、[http://www.foo.co.jp/sports/soccer/index.ht
m]、[http://www.foo.co.jp/sports/soccer/main.ht
m]、[http://www.foo.co.jp/sports/soccer/sub.ht
m]がその中の文書である。
【0016】文書保存手段22は、文書自体を保存して
おいてもよいし、文書のURLのみを記憶しておき、必
要な時に文書ネットワーク10に取りに行ってもよい。
【0017】分野判定手段23は、処理対象のサイトが
指定した分野に属するかを判別する。この手法として、
例えば、キーワード含有率が60%以上あった場合に特
定分野に属する、といったように判定する。
【0018】サイト判定手段24は、指定された文書が
どのサイトに属しているかを判定する機能部である。こ
の判定方法としては、例えば他のサイトからリンクされ
ているURLからファイル名を除いたものをその文書が
属するサイトとする、といった方法を用いる。例えば、
http://www.abc.ac.jp/〜hanako/soccer/team/index.ht
mが他のサイトからリンクされていたとすると、http://
www.abc.ac.jp/〜hanako/soccer/の部分が共通ならば同
一サイトとみなす。
【0019】リンク検出手段25は、文書を解析し、他
の文書へリンクしている部分を判定する機能部である。
例えば、HTML文書では、<a href="http://www.foo.
co.jp/">などと記述されている部分を検出する。
【0020】キーワード解析手段26は、文書中の単語
を解析し、キーワードデータ格納部27に格納されてい
るキーワードがどの程度含まれているかを調査する機能
部である。例えば、1000個の自立語があり、その中
にキーワードが300個含まれているとするとキーワー
ド含有率は30%である、といったように、そのサイト
のキーワード含有率を計算する。
【0021】キーワードデータ格納部27は、特定分野
の専門用語などのよく使われる単語データを格納するデ
ータベースである。
【0022】形態素解析手段28は、文書を単語単位に
分割し、品詞を推定し、自立語・付属語などの判定を行
う機能を有している。尚、この形態素解析手段28は、
既存の形態素解析システムを利用することができる。
【0023】〈動作〉図3は、本発明の情報収集装置の
具体例1の動作を示すフローチャートである。
【0024】先ず、文書保存手段22に未処理の文書が
あるかを調べ(ステップS11)、ない場合は動作を終
了する。ステップS11で未処理の文書があった場合、
文書取得手段21は、文書保存手段22内の未処理文書
のURLを一つ取得する(ステップS12)。
【0025】次に、取得されたURLをサイト判定手段
24が解析し、登録サイト内の文書であるかどうかを調
べる(ステップS13)。ここで、登録サイトとは、後
述するステップS19またはステップS21において、
分野判定手段23が、認定/非認定サイトであると判定
したサイトを意味する。即ち、図2の場合、ID201
が“1”“2”“7”のサイトである。
【0026】ステップS13において、登録サイト内の
文書であった場合、分野判定手段23は、次にその文書
が認定サイトの文書かを判定する(ステップS14)。
判定の結果、認定サイト内の文書であった場合、リンク
検出手段25は、その文書内のリンク情報を調べ、リン
ク先の文書のURLを未処理文書として文書保存手段2
2に追加する(ステップS15)。また、ステップS1
5において、リンク情報を取得した時点で分野判定手段
23はその文書を処理済みとする。
【0027】一方、ステップS14において、認定サイ
トの文書でなかった場合、サイト判定手段24は、その
文書を文書保存手段22から削除する(ステップS1
6)。
【0028】上記ステップS13において、その文書が
登録サイト内の文書ではなかった場合、分野判定手段2
3は、そのサイト内の文書が、特定分野の文書であるか
どうかを計算する(ステップS17)。即ち、そのサイ
ト内に複数の文書がある場合は、全ての文書を含めて、
特定分野のサイトに属するかを計算する。このステップ
S17の詳細については、図4を用いて後述する。
【0029】次に、ステップS17の計算の結果に基づ
いてそのサイト内の文書が特定分野の文書であるかを判
定し(ステップS18)、そうであった場合は、判定し
たサイトを認定サイトとして文書保存手段22に登録す
る(ステップS19)。そして、サイト内の文書を未処
理文書として追加し(ステップS20)、ステップS1
1に戻る。尚、このステップS20にて追加された未処
理文書は、ステップS15において処理される文書とな
る。
【0030】一方、ステップS18において、そのサイ
トが指定された分野に属してはいない場合、分野判定手
段23は、判定したサイトを非認定サイトとして文書保
存手段22に登録し(ステップS21)、ステップS1
1に戻る。これにより、この非認定サイトの未処理文書
があった場合は、ステップS16において、文書保存手
段22から削除されることになる。
【0031】図4は、分野判定処理(図3のステップS
17)の詳細を示すフローチャートである。分野判定手
段23は、先ず、文書保存手段22中に、サイト内の文
書でかつ未処理の文書があるかどうかを調べる(ステッ
プS101)。尚、ここでの未処理文書とは、指定分野
判定処理における未処理文書であり、上述した図3のス
テップS11等の未処理文書とは意味が異なる。
【0032】ステップS101において、未処理文書が
あれば、この未処理文書を文書取得手段21によって文
書ネットワーク10から取得する(ステップS10
2)。尚、ここでは、文書保存手段22にはURLのみ
保存してある場合を説明しており、未処理文書とは、文
書保存手段22に実際の文書がないことを意味してい
る。
【0033】サイト内の未処理文書を取得し、これを文
書保存手段22に保存すると、リンク検出手段25は、
その文書からリンク情報を調べ、同一サイト内のリンク
があれば、分野判定手段23はそのURLを文書保存手
段22の未処理文書に追加する(ステップS103)。
【0034】一方、ステップS101において、サイト
内で未処理文書がない場合、即ち、そのサイト内の全て
の文書が文書保存手段22に保存された場合は、形態素
解析手段28により、そのサイト内の全ての文書を形態
素解析し、単語に区切る(ステップS104)。次に、
キーワード解析手段26は、文書中の自立語のみを抽出
して(ステップS105)、キーワードデータ格納部2
7のキーワードが、自立語中にどの程度含まれているか
を調べ、その割合を計算する(ステップS106)。
【0035】このような処理により、そのサイトのキー
ワード含有率を調べ、ある閾値以上である場合に、指定
分野のサイトであると判定する。
【0036】〈効果〉以上のように具体例1によれば、
関連性があるかないかを、サイト毎に判断するようにし
たので、従来のように、リンク元が関連性がないと判定
されたために、特定の分野に属していながら関連性のあ
る文書が収集されない、といったことがなく、ある事柄
(分野)に対して関連性の深いサイトのみを、効率よ
く、高い精度で収集することができる。また、文書のリ
ンク情報に基づいて収集しているため、特定の分野に関
連するサイトのリンク集などを簡単に作成することもで
きる。
【0037】更に、関連性の判定として、予め登録した
キーワードがそのサイト内の文書にどの程度含まれるか
により判定を行うようにしたので、収集するための専門
サイトのURLは少なくてもよい(最低一つあればよ
い)といった効果がある。
【0038】《具体例2》具体例2は、関連性の判定と
して、収集対象のサイトに対して予め登録した専門サイ
トとの類似度に基づき行うようにしたものである。
【0039】〈構成〉図5は、具体例2の構成図であ
る。図において、10は文書ネットワーク、30は情報
収集装置を示している。文書ネットワーク10は、複数
のサイトから構成された具体例1における文書ネットワ
ーク10と同様のネットワークである。
【0040】情報収集装置30は、文書ネットワーク1
0から、特定のサイトの文書を収集する機能を有するも
ので、文書取得手段31、文書保存手段32、分野判定
手段33、サイト判定手段34、リンク検出手段35、
類似度計算手段36、形態素解析手段37を備えてい
る。
【0041】ここで、文書取得手段31〜リンク検出手
段35および形態素解析手段37の基本的な機能は、具
体例1の文書取得手段21〜リンク検出手段25および
形態素解析手段28と同様であるため、その説明は省略
する。
【0042】類似度計算手段36は、収集対象となる文
書が、予め蓄えられた特定の分野に属するサイトの文書
とどの程度類似しているかを計算する機能部である。具
体的には、文書をベクトルで表現し、ベクトル同士の類
似度を用いて比較を行う。ベクトルの各軸は文書中の単
語に対して重み付けしたものがよく用いられる。尚、類
似度計算手段36は既存のシステムを用いることができ
る。
【0043】また、分野判定手段33は、この類似度計
算手段36で計算された類似度の値に基づいて、対象と
なるサイトが特定の分野に属するかを判定するよう構成
されている。
【0044】〈動作〉具体例2の全体の基本的な動作は
図3に示した具体例1の動作と同様である。一方、具体
例1と異なるのは図3におけるステップS17で行うサ
イトの分野判定処理についてである。
【0045】図6は、具体例2の分野判定処理の詳細を
示すフローチャートである。分野判定手段33は、先
ず、文書保存手段32中に、サイト内の文書でかつ未処
理の文書があるかどうかを調べる(ステップS20
1)。未処理文書があれば、この未処理文書を文書取得
手段31によって文書ネットワーク10から取得する
(ステップS202)。尚、ここでは、文書保存手段3
2にはURLのみ保存してある場合を説明しており、未
処理文書とは、文書保存手段32に実際の文書がない文
書を意味している。
【0046】サイト内の未処理文書を取得し、これを文
書保存手段32に保存すると、リンク検出手段35は、
その文書からリンク情報を調べ、同一サイト内のリンク
があればそのURLを文書保存手段32の未処理文書に
追加する(ステップS203)。
【0047】一方、ステップS201において、サイト
内で未処理文書がない場合、即ち、そのサイト内の全て
の文書を文書保存手段32に保存した場合は、形態素解
析手段37により、そのサイト内の全ての文書を形態素
解析し、単語に区切る(ステップS204)。次いで、
類似度計算手段36は、文書中の自立語のみを抽出し、
単語の出現頻度を表すベクトルを求める(ステップS2
05)。そして、類似度計算手段36は、ステップS2
05で求めたベクトルと専門サイト(指定分野に属する
サイト)のベクトルと比較し、類似度を計算する(ステ
ップS206)。
【0048】このような処理により、そのサイトと予め
登録した専門サイトとの類似度を計算し、ある閾値以上
である場合に指定分野のサイトであると判定する。
【0049】〈効果〉以上のように具体例2によれば、
関連性があるかないかを、サイト毎に判断するようにし
たので、従来のように、リンク元が関連性がないと判定
されたために、特定の分野に属していながら関連性のあ
る文書が収集されない、といったことがなく、ある事柄
(分野)に対して関連性の深いサイトのみを、効率よ
く、高い精度で収集することができる。また、文書のリ
ンク情報に基づいて収集しているため、特定の分野に関
連するサイトのリンク集などを簡単に作成することもで
きる。
【0050】更に、関連性の判定として、予め登録した
専門サイトとの類似度に基づいて判定を行うようにした
ので、収集するための必要なキーワードデータは不要で
あるという効果がある。
【0051】《具体例3》具体例3は、関連性の判定と
して、収集対象のサイトが予め登録した専門サイトから
どの程度リンクされているかといったリンク数に基づい
て判定を行うようにしたものである。
【0052】〈構成〉図7は、具体例3の構成図であ
る。図において、10は文書ネットワーク、40は情報
収集装置を示している。文書ネットワーク10は、複数
のサイトから構成された具体例1、2における文書ネッ
トワーク10と同様のネットワークである。
【0053】情報収集装置40は、文書ネットワーク1
0から、特定のサイトの文書を収集する機能を有するも
ので、文書取得手段41、文書保存手段42、分野判定
手段43、サイト判定手段44、リンク検出手段45、
リンク状況管理手段46を備えている。
【0054】ここで、文書取得手段41〜リンク検出手
段45の基本的な機能は、具体例1の文書取得手段21
〜リンク検出手段25と同様であるため、その説明は省
略する。
【0055】リンク状況管理手段46は、どのサイトか
らどのサイトへリンクが張られているかを管理する手段
である。尚、分野判定手段43は、このリンク状況管理
手段46で計算された値が所定値以上であった場合に、
対象となるサイトが特定の分野に属すると判定するよう
構成されている。
【0056】図8は、リンク状況管理手段46における
リンク状況管理テーブルの説明図である。ID461
は、サイト毎に一意に付けられたIDである。サイト認
定462は、そのサイトが特定分野に属するかどうかを
示すフィールドであり、○が分野に属すると判定された
ものである。URL463は、そのサイトのURLを示
している。リンク数464は、他のサイト(専門サイト
と認定されたもの)からリンクされている数を示すもの
である。リンク関係465は、どのサイトからリンクさ
れているかをIDで示している。
【0057】〈動作〉図9は、具体例3の動作を示すフ
ローチャートである。先ず、文書保存手段42に未処理
の文書があるかを調べ(ステップS31)、ない場合は
動作を終了する。ステップS31で未処理の文書があっ
た場合、文書取得手段41は、文書保存手段42内の未
処理文書のURLを一つ取得する(ステップS32)。
【0058】次に、取得されたURLをサイト判定手段
44が解析し、認定サイト内の文書であるかどうかを調
べる(ステップS33)。尚、認定サイトとは、後述す
るステップS37において、分野判定手段43、認定サ
イトであると判定したサイトを意味する。即ち、図8の
場合、ID461が“1”“2”“3”“4”のサイト
である。
【0059】ステップS33において、認定サイトの文
書であった場合、分野判定手段43は、その文書を処理
済みとし、かつ、リンク検出手段45は、その文書内の
リンク情報を調べ、リンク先の文書のURLを未処理文
書として文書保存手段42に追加する(ステップS3
4)。
【0060】上記ステップS33において、その文書が
認定サイトの文書ではなかった場合、リンク状況管理手
段46は、そのサイトの文書が、他のサイトからリンク
されている数を調べる(ステップS35)。
【0061】ステップS35の計算結果に基づき、分野
判定手段43は、そのサイトの文書が予め決められたリ
ンク数を満たしているかどうかを判定する(ステップS
36)。決められた数を満たしていた場合、分野判定手
段43は、判定したサイトを認定サイトとして文書保存
手段42に登録する(ステップS37)。
【0062】例えば、図8の例では、IDが“5”のサ
イトは、IDが“3”とIDが“4”のサイトからリン
クされている。ここで認定サイトの条件が二つ以上のサ
イトからリンクされている場合にその分野に属するよう
に設定されているとすると、IDが“5”のサイトは条
件を満たすので、専門サイトに認定されることになる。
【0063】その後、分野判定手段43は、サイト内の
文書を未処理文書に追加し(ステップS38)、ステッ
プS31に戻る。一方、ステップS36において、リン
ク数が予め決められた数を満たしていない場合は、その
ままステップS31に戻る。
【0064】〈効果〉以上のように具体例3によれば、
関連性があるかないかを、サイト毎に判断するようにし
たので、従来のように、リンク元が関連性がないと判定
されたために、特定の分野に属していながら関連性のあ
る文書が収集されない、といったことがなく、ある事柄
(分野)に対して関連性の深いサイトのみを、効率よ
く、高い精度で収集することができる。また、文書のリ
ンク情報に基づいて収集しているため、特定の分野に関
連するサイトのリンク集などを簡単に作成することもで
きる。
【0065】更に、関連性の判定として、対象となるサ
イトが予め登録した専門サイトからリンクされている数
に基づいて判定を行うようにしたので、リンクの状況を
把握するために、ある程度の数の専門サイトのURLを
必要とするが、形態素解析等の処理が必要ないという効
果が得られる。
【0066】尚、上記各具体例では、キーワード含有率
を求める方法や文書の類似度を求める方法は、説明の都
合上、単純な方法を示したが、情報検索などで用いられ
る、もっと複雑で精度の高い方法を使えば、更に情報収
集の精度を上げることができる。このような方法として
は、例えば、福本文代、鈴木良弥、福本淳一:“辞書の
語義文を用いた文書の自動分類”、情報処理学会論文
誌、Vol.37 No.10 pp.1789-1799(1996)に示されてい
る方法等を用いることができる。
【0067】更に、上記各具体例では、文書ネットワー
ク10がインターネットの例を示したが、文書データベ
ースであっても同様の効果が得られる。この場合も、サ
イトとは、特定の分野に属する文書群を意味する。
【0068】また、上記各具体例は別の具体例として示
したが、各具体例を組み合わせてもよい。例えば、具体
例2と具体例3を組み合わせ、類似度とリンク数を用い
てそのサイトが特定分野に属するかを調べるよう構成す
るといった情報収集装置であってもよい。
【図面の簡単な説明】
【図1】本発明の情報収集装置の具体例1を示す構成図
である。
【図2】文書保存手段の一例を示す説明図である。
【図3】本発明の情報収集装置の具体例1の動作を示す
フローチャートである。
【図4】具体例1の分野判定処理の詳細を示すフローチ
ャートである。
【図5】本発明の情報収集装置の具体例2の構成図であ
る。
【図6】具体例2の分野判定処理の詳細を示すフローチ
ャートである。
【図7】本発明の情報収集装置の具体例3の構成図であ
る。
【図8】リンク状況管理テーブルの説明図である。
【図9】本発明の情報収集装置の具体例3の動作を示す
フローチャートである。
【符号の説明】
10 文書ネットワーク 20、30、40 情報収集装置 23、33、43 分野判定手段 26 キーワード解析手段 27 キーワードデータ格納部 36 類似度計算手段 46 リンク状況管理手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書からなる文書群中で特定の分
    野について記述された文書の集合を特定のサイトとし、
    当該サイトの文書を収集する情報収集装置であって、 前記特定のサイトの文書に含まれるキーワードを格納す
    るキーワードデータ格納部と、 前記文書群上の任意のサイト内の文書で、前記キーワー
    ドがどの程度含まれるかを解析するキーワード解析手段
    と、 前記キーワード解析手段での解析結果に基づき、前記任
    意のサイトが前記特定の分野のサイトか否かを判定する
    分野判定手段とを備えたことを特徴とする情報収集装
    置。
  2. 【請求項2】 複数の文書からなる文書群中で特定の分
    野について記述された文書の集合を特定のサイトとし
    て、当該サイトの文書を収集する情報収集装置であっ
    て、 前記文書群上の任意のサイト内の文書と、予め登録した
    前記特定の分野に属するサイトの文書との類似度を計算
    する類似度計算手段と、 前記類似度計算手段で計算された類似度の値に基づき、
    対象となるサイトが前記特定の分野のサイトであるか否
    かを判定する分野判定手段とを備えたことを特徴とする
    情報収集装置。
  3. 【請求項3】 複数の文書からなる文書群中で特定の分
    野について記述された文書の集合を特定のサイトとし
    て、当該サイトの文書を収集する情報収集装置であっ
    て、 前記文書群上の任意のサイト内の文書が、予め登録した
    前記特定の分野に属するサイトの文書からリンクされて
    いる数を計算するリンク状況管理手段と、 前記リンク状況管理手段で計算された値が所定値以上で
    あった場合に、対象となるサイトが前記特定の分野であ
    ると判定する分野判定手段とを備えたことを特徴とする
    情報収集装置。
JP2000095997A 2000-03-31 2000-03-31 情報収集装置 Pending JP2001282837A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000095997A JP2001282837A (ja) 2000-03-31 2000-03-31 情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000095997A JP2001282837A (ja) 2000-03-31 2000-03-31 情報収集装置

Publications (1)

Publication Number Publication Date
JP2001282837A true JP2001282837A (ja) 2001-10-12

Family

ID=18610818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000095997A Pending JP2001282837A (ja) 2000-03-31 2000-03-31 情報収集装置

Country Status (1)

Country Link
JP (1) JP2001282837A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096073A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP2011096078A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
US8041721B2 (en) 2007-12-26 2011-10-18 Fujitsu Limited Attribute extraction processing method and apparatus
JP2016045620A (ja) * 2014-08-21 2016-04-04 富士通株式会社 専門家検索装置、専門家検索方法および専門家検索プログラム
JP2016081096A (ja) * 2014-10-10 2016-05-16 Jcc株式会社 情報取得サーバー、情報取得方法、及び情報取得配信システム
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041721B2 (en) 2007-12-26 2011-10-18 Fujitsu Limited Attribute extraction processing method and apparatus
JP2011096073A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP2011096078A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
JP2016045620A (ja) * 2014-08-21 2016-04-04 富士通株式会社 専門家検索装置、専門家検索方法および専門家検索プログラム
JP2016081096A (ja) * 2014-10-10 2016-05-16 Jcc株式会社 情報取得サーバー、情報取得方法、及び情報取得配信システム

Similar Documents

Publication Publication Date Title
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
US7630973B2 (en) Method for identifying related pages in a hyperlinked database
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US8838567B1 (en) Customization of search results for search queries received from third party sites
EP2289007B1 (en) Search results ranking using editing distance and document information
US20090222426A1 (en) Computer-Implemented System And Method For Analyzing Search Queries
US7823065B2 (en) Lexicon-based new idea detector
JP2007528520A (ja) 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
JP2004054631A (ja) 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム
US6941293B1 (en) Methods and apparatus for determining equivalent descriptions for an information need
JP3698242B2 (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
US8521746B1 (en) Detection of bounce pad sites
JP2000331032A (ja) 文書処理装置、単語抽出装置及び単語抽出方法
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP2001282837A (ja) 情報収集装置
JPH11338869A (ja) 情報推薦方法及びシステム及び情報推薦プログラムを格納した記憶媒体及び情報蓄積方法及び装置及び情報蓄積プログラムを格納した記憶媒体
KR100610775B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
JP3655495B2 (ja) 情報検索方法および装置と情報検索プログラムを記録した記録媒体
JP4690232B2 (ja) 情報処理装置、ソフトウェア登録方法およびプログラム
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
JP2002163273A (ja) 文書管理方法およびシステム
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2004192368A (ja) 関連分類抽出方法及び装置