JP4094844B2 - 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム - Google Patents

特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム Download PDF

Info

Publication number
JP4094844B2
JP4094844B2 JP2001379280A JP2001379280A JP4094844B2 JP 4094844 B2 JP4094844 B2 JP 4094844B2 JP 2001379280 A JP2001379280 A JP 2001379280A JP 2001379280 A JP2001379280 A JP 2001379280A JP 4094844 B2 JP4094844 B2 JP 4094844B2
Authority
JP
Japan
Prior art keywords
document
documents
collected
network
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001379280A
Other languages
English (en)
Other versions
JP2002259407A (ja
Inventor
宏 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001379280A priority Critical patent/JP4094844B2/ja
Publication of JP2002259407A publication Critical patent/JP2002259407A/ja
Application granted granted Critical
Publication of JP4094844B2 publication Critical patent/JP4094844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書の収集に関し、特に特定用途に合わせて文書を効率的に収集する文書収集装置、その方法に関する。
【0002】
【従来の技術】
イントラネット、WWW等のネットワーク上の文書の検索エンジンは、ネットワークから文書を収集する文書収集装置(ロボット)と、収集した文書用のキーワード索引を作成する検索エンジンとから実現される。
【0003】
文書収集装置は、所与のネタURL(Uniform Resorce Locator)集(収集を開始する際の開始点となるURL集)から文書収集を開始し、収集済みの文書からアンカー(参照関係)により参照されている未収集文書を次収集候補として収集し、といった処理を一定の回数繰り返すことにより動作する。このようにして文書収集ロボットは、数千万から数億のURLから文書を定期的に収集する。ここで、URLとは、ネットワーク上の情報のありかと取得方法を指定する記述方式をいう。
【0004】
ところで、今日、ネットワーク上の文書の増加スピードは速く、2000年1月には、Inktomi等によって、インターネットのユニーク文書は10億文書に達したという調査結果が発表されている。また、2000年7月には、アメリカCyveillance社によって、インターネットの大きさは約21億文書であり、2001年にはさらに倍の大きさになると予測されるという調査結果が発表されている。
【0005】
10億URLから文書を収集するともなると、一日100万URLずつ(毎秒約10URL=40Kバイト)収集したとしても収集し終わるには3年かかることになり、収集し終わった頃には最初の頃に収集した文書の情報は陳腐化していまう。そこで、用途に合わせて重要度の高い情報だけを効率よく収集する知的文書収集装置が求められていた。
【0006】
特定用途の文書を優先して収集する文書収集装置には、以下のものがある。
・例えば、特開平9-311802に開示される発明のように、新しい情報を優先して収集する。
・内容が類似していると考えられる文書を収集する。その際に、以下の考え方を導入する。
【0007】
a)階層数で収集範囲を制限する。
例えば、特開平9-218876に開示される発明のように、参照関係を有する文書は内容的にも近いと考えられるが、あまり階層的に離れると意味的な繋がりがなくなるため、階層数で収集範囲を制限して文書を収集するという考え方。
【0008】
b)意味的内容が近い文書のみ収集する。
例えば、特開平10-105572に開示される発明のように、文書の中身のマッチングから意味的な近さを計算し、参照関係を有する文書のうち、意味的に近い文書だけを収集するという考え方。
【0009】
c)参照先を示す文字列が適当な文書のみ収集する。
例えば、特開平10-260979及び特開2000-9011に開示される発明のように、参照先を表している表現である参照表現、例えばHTMLであればアンカータグの内容に基づいて、その参照表現で参照されている参照先文書を次に収集するか否かを判定するという考え方。
・一般的に、より人気度の高い文書から優先して収集する。
【0010】
被参照数(その文書を参照している他の文書の数)が多い文書は、人気度が高いと考えられる。収集済みの文書群内の文書から参照されている数が多い文書から順に収集することで、人気度の高い文書を優先して収集できるという考え方。
【0011】
【発明が解決しようとする課題】
しかし、上述の従来技術の枠組みだけでは、企業のようなコミュニティのポータルサイトに求められるような文書の収集に用いるためには、不十分な点があった。例えば、企業内のポータルサイト、つまりコーポレートポータルの要件として、以下の点が要求される。
・社内外でリアルタイムに発生する膨大な文書を自動的に収集する。
・自動で意味解析及び分類分け(カテゴライズ)する。
・文書を収集し、分類した結果を画面の適当な場所に(人に合わせて)フィードする。
【0012】
このうち、文書収集において、社内外の膨大な文書を漫然と収集するのではなく、文書の中から業務に関係するという観点から文書を選別して収集することが必要とされる。業務に関係するという観点は、特定の意味的内容を持つ、或いは重要度を持つということとはやや異なる。例えば、ある程度の規模の企業が有するイントラネットコミュニティでは、文書内容も意味的に多様になるからである。また、社外(例えばインターネット)の文書は、趣味に関する情報も人気度が高くそうした情報は必ずしもコーポレートポータルにとって有用であるとは限らない。
【0013】
しかし、従来の文書収集において用いられてきた枠組み、例えば、最新情報の優先取得、特定分野情報の優先取得、人気度が高い情報の優先取得という枠組みだけでは、このような趣味に関する情報のように、一般的に重要度が高いが必ずしもこのコミュニティにとって有用でない文書も収集されてしまうという問題があった。
【0014】
また、例えば、上述の従来技術の「意味的内容が近い文書のみを収集する」と方法で文書を収集する場合、各々の考え方には以下の問題があった。
・単に階層数を予め制限する考え方は、処理は簡単であるが、本当に意味内容が近い文書を優先して収集しているのか、また、重要な文書を収集し逃していないのか、保証がない。
・文書の内容を比べて意味的内容が近いか否か判定する方式によれば、一般に自然言語処理を使って、文書に記載された本文を解析してキーワードを取り出し、取り出されたキーワードの類似度によって解析する。そのため、処理に時間がかかる。早くても、毎秒100文書程度しか処理できない。従って、数十億ともいわれる文書を1つ1つ処理することは、現実的な時間内に行いがたい。また、そのように時間をかけて処理したとしても、その精度は70から80%程度である。さらに、この処理は、言語の種類に大きく依存するため、言語毎に判定ツールを備えることが必要となる。
・参照表現に基づいて収集するか否か判定する場合でも、参照表現で用いられる文字列には、「ホームページ」、「トップに戻る」及び「ここをクリック」といったような決まった語句(定番的ば語句)も多く、必ずしも参照先の意味的内容を表しているとは限らない。
【0015】
以上の問題を鑑み、用途にあった文書を言語に依存せず、かつ精度良く迅速に収集することを可能とすることが、本発明が解決しようとする課題である。
【0016】
【課題を解決するための手段】
本発明は、ネットワークから文書の収集を行なう装置または方法を前提とする。そして、本発明の各態様に係わる装置では、ネットワークから文書を収集する文書収集装置において、収集済みの文書群の参照関係に基づいて、次に収集すべき文書の候補である次収集候補を決定する次候補判定手段と、ネットワークから前記次収集候補を収集して収集済み文書群に加える文書収集手段と、を備え、収集済み文書群の文書がある数以上になるまで、次候補判定手段による次収集候補の決定及び前記文書収集手段による文書の収集を繰り返す。
【0017】
上記装置を、ネットワーク上のコミュニティにとって有用度の高い文書を収集するコミュニティ向けの文書収集装置として構成するようにしてもよい。そのために、上記構成において、文書収集手段がネットワーク上のコミュニティ内から文書をまんべんなく収集した後、次候補判定手段は、収集済み文書群の参照関係に基づいてコミュニティ内外の文書から次収集候補を決定する、こととしてもよい。
【0018】
コミュニティ内外から文書を収集する前に、コミュニティ内から文書をまんべんなく収集することにより、コミュニティ内で必要とされている多様な分野の文書についての情報を入手することができる。このようにして入手した多様な分野に関する文書群の参照関係を用いてコミュニティ内外から文書を収集することにより、正確にコミュニティにとって有用度の高い文書を収集することが可能となる。また、文書本文の内容を解析しないため、言語に依存せず、迅速にコミュニティにとって有用度の高い文書を収集することが可能となる。
【0019】
上記構成において、収集済み文書群の参照関係及び文書のネットワーク上の場所を示す情報、例えばURL、に基づいて重要度を算出するランキング手段を更に備え、次候補判定手段は、参照関係及び重要度に基づいて次収集候補を決定することとしてもよい。
【0020】
上記コミュニティ向け文書収集装置において、ランキング手段は、重要度に基づいて、前記コミュニティ内外に分けてランキングし、次候補判定手段は、コミュニティ内及びコミュニティ外それぞれにおいて、ランキングが高い文書を前記次収集候補とすることとしてもよい。これにより、次収集候補がコミュニティ内又はコミュニティ外に集中し、文書がコミュニティ内又はコミュニティ外いずれかからばかり収集されてしまうことを防ぐことが可能となる。
【0021】
また、上記コミュニティ向け文書収集装置は、更に、収集済み文書群を検索した結果を、前記コミュニティ内外に分けて提示する提示手段を備えることとしても良い。これにより、コミュニティに属するクライアントが、コミュニティ内外別に文書の検索結果を取得することが可能となる。
【0022】
また、上記コミュニティ向け文書収集装置は、更に、文書がコミュニティ内の文書であるか否かを文書のネットワーク上での場所を示す情報、例えばURL、に基づいて判別するコミュニティ判別手段を備えることとしても良い。文書のネットワーク上での場所を示す情報に基づいて判定することにより、文書がコミュニティ内の文書であるか否かの判定が迅速に行うことが可能となる。
【0023】
また、上記のネットワークから文書を収集する文書収集装置を、特定の分野に関する文書を収集する特定分野向け文書収集装置として構成するようにしてもよい。そのために、本発明の更なる別の態様によれば、ネットワークから文書を収集する装置において、文書の収集に先立って、特定分野に関する文書群である正例文書群と、特定分野と関連が少ない分野に関する文書群である負例文書群とを収集済み文書群として与え、文書収集手段は、収集された次収集候補を、正例文書群に加え、収集済み文書群のうち、正例文書群の文書がある数以上になるまで、次候補判定手段による次収集候補の決定及び文書収集手段による収集を繰り返すように構成する。これにより、特定分野に関する文書を、文書本文の内容を解析せずに、参照関係に基づいて迅速に収集することが可能となる。
【0024】
また、上記の特定分野向け文書収集装置において、更に、収集済み文書の参照関係に基づいて、正例文書群の文書からのみ参照される度合いである参照度を算出する参照度算出手段を備え、次候補判定手段は、参照度が高い文書を次収集候補として決定することとしてもよい。また、上記の特定分野向け文書収集装置において、更に、収集済み文書の参照関係に基づいて、正例文書群の文書を参照している収集済み文書群から参照されている文書について、収集済み文書群から参照される度合いを示す共参照度を算出する共参照度算出手段を備え、次候補判定手段は、共参照度が高い文書を次収集候補として決定することとしてもよい。参照度及び共参照度を用いることにより、収集したい分野に関する文書を、文書本文の内容を検討すること無く、迅速に収集することが可能となる。
【0025】
また、上記の特定分野向け文書収集装置は、複数の分野を対象とし、各分野に関する文書を同時に収集する文書収集装置とすることもできる。そのために、上記の特定分野向け文書収集装置において、収集に先立って与える収集済み文書群を複数の分野に関する文書群の和集合とし、ある分野に関する文書群を正例文書群として文書を収集する際に、他の残りの分野に関する文書群の和集合を負例文書群とするように構成する。
【0026】
また、各文書収集装置は、更に、収集済み文書で用いられている参照表現に基づいて収集済み文書群をまとめあげるまとめあげる手段を更に備えることとしてもよい。参照表現のうち、参照先文書と参照元文書の内容が同一であるのにネットワーク上で分散されて格納されていることを示す参照表現がある。例えば、「次へ」、「Next」、「前へ」及び「Prev」等がそのような参照表現に該当する。まとめあげ手段は、このような参照表現による参照関係をもつ2つ以上の文書を1つにまとめあげる。
【0027】
また、各文書収集装置は、更に、収集済み文書群内の文書である収集済み文書で用いられている参照表現に基づいて、収集済み文書にキーワードを付与するキーワード付与手段を備えることとしても良い。これにより、文書本文の意味内容を解析することなく、かつ、様々な各キーワードの異称をも、キーワードとすることが可能となる。
【0028】
また、キーワード付与手段は、参照表現が参照先文書に関係なく使用される参照表現の場合、キーワードとしないこととしても良い。ここで、参照先文書に関係なく使用される参照表現の例として、「トップへ戻る」、「ホームへ」等が考えられる。
【0029】
また、キーワード付与手段は、参照表現が参照する相異なる文書数を計数し、相異なる文書数がある数以上である場合、その参照表現をキーワードとしないこととしても良い。このような参照表現は、参照先文書に関係なく使用される参照表現である可能性が高いからである。
【0030】
また、キーワード付与手段は、参照表現が参照する相異なる文書数がある数未満である場合、更に、各収集済み文書でその参照表現によって参照されている回数である参照回数を計数し、相異なる文書数及び参照回数に基づいて、その参照表現をキーワードとするか否か判定することとしてもよい。
【0031】
また、キーワード付与手段は、参照表現に基づくキーワードに、収集済み文書の本文から抽出したキーワード及び収集済み文書のネットワーク上の場所を示す情報から抽出したキーワードを組み合せることとしてもよい。これにより、多様な方法で抽出したキーワードを組み合せることが可能となる。
【0032】
また、本発明の各構成により行われる処理の過程からなる方法によっても、前述した課題を解決することができる。また、上述した本発明の各構成により行なわれる機能と同様の制御をコンピュータに行なわせるプログラムも、コンピュータに実行されることによって、前述した課題を解決することができる。また、上述のプログラムを記録したコンピュータで読み取り可能な記録媒体も、その記録媒体からプログラムをコンピュータに読み出して実行することによって、前述した課題を解決することができる。
【0033】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。本発明は、ネットワークから、用途にあった文書を収集する文書収集装置に関する。なお、以下の説明において、文書がHTMLで記述されている場合について説明するが、本発明を限定する趣旨ではない。言語をHTML(HyperText Markup Language)に限定する趣旨ではない。文書の構造を記述するマークアップ言語であれば、XML(eXtensibleMarkup Language)及びXSL(eXtensible Stylesheet Language)等その他言語でもよい。また、文書のネットワーク上の場所を示す情報として、URL(Uniform Resource Locators)を用いて説明するが、本発明を限定する趣旨ではない。文書のネットワーク上の場所を示す情報であれば、URLでなくともよい。なお、URLは、URI(Uniform Resource Identifiers)の機能の一部であり、現在ネットワーク上で広く用いられている。
【0034】
図1に、本発明の原理図を示す。図1に示すように、文書収集装置1は、インターネットやイントラネット等のネットワークに接続されている。文書収集装置1は、文書収集手段2、参照関係抽出手段3、コミュニティ判別手段4、次候補判定手段5、ランキング手段6、URL判定手段7、参照度/共参照度算出手段8、まとめあげ手段9、キーワード抽出手段10を備える。図1において、点線で示される構成要素、つまり、コミュニティ判別手段4及び参照度/共参照度算出手段8は、実施形態によって用いられたり、用いられなかったりする。同様に、点線で示される矢印、つまり、ランキング手段6による文書のランキング結果は、実施形態によって、次候補判定手段15による次収集候補の判定に用いられたり、用いられなかったりする。
【0035】
本発明の1実施形態に係わる文書収集装置は、ネットワーク上のコミュニティ向けの文書を収集する。そのために、1実施形態に係わるコミュニティ向け文書収集装置は、文書収集手段2、参照関係抽出手段3、コミュニティ判別手段4、次候補判定手段5、ランキング手段6、まとめあげ手段9及びキーワード付与手段10を備える。コミュニティ向け文書収集装置において、まず、コミュニティ内からまんべんなく文書を収集した後、コミュニティ内外からコミュニティにとって有用度が高い文書を収集する。
【0036】
参照関係抽出手段3は、収集済み文書群20から参照関係を抽出し、文書間参照関係22を抽出する。なお、収集開始時は、予め収集済み文書群20として初期文書群を与える。コミュニティ判別手段4は、収集済み文書群20の参照先文書であって、未収集の文書がコミュニティ内の文書であるか否か判別する。
【0037】
次候補判定手段5は、収集済み文書群20の参照先であって、コミュニティ内の未収集文書を次収集候補21として判定する。文書収集手段2は、次収集候補21として判定された文書を収集し、新たに収集した文書群(新規収集文書群)を収集済み文書群20に加え、新たな収集済み文書群20とする。文書収集手段2は、収集済み文書群20の文書数が規定された値以上であるか否か判定する。収集済み文書群20の文書数が規定された値より少ない場合、上述のようにしてコミュニティ内から文書を収集する処理を繰り返す。このようにコミュニティ内の文書を規定数以上、まんべんなく収集することにより、コミュニティ内の文書が属する多様な分野についての情報を取得する。この情報は、コミュニティにとって有用度が高い文書をコミュニティ内外から収集することに役立てられる。
【0038】
収集済み文書群20の文書数が規定された値以上である場合、次にコミュニティにとって有用度が高い文書をコミュニティ内外から収集する。参照関係抽出手段3により新規収集文書群から参照関係を抽出し、コミュニティ判別手段4により参照先文書であって未収集の文書がコミュニティ内の文書であるか否か判別する。ランキング手段6は、参照関係及び、文書のネットワーク上での場所を示す情報、例えばURL、の特徴に基づいて、収集済み文書の参照先となっている未収集の文書をコミュニティ内外別にランキングする。ランキング手段6は、URL判定手段7を備え、URL判定手段7は、参照先文書と参照元文書のURL文字列上の類似を判定する。ランキング手段6は、URL判定手段7によって判定されURLの文字列上の類似に基づいて、文書をランキングする。
【0039】
次候補判定手段5は、コミュニティ内外でそれぞれ上位にランキングされた未収集文書を次回にネットワークから収集すべき文書である次収集候補21として判定し、文書収集手段2は、次収集候補21として判定された文書を収集する。このように、本発明の1実施形態に係わるコミュニティ向け文書収集装置は、多段階に分けてコミュニティにとって有用度が高い文書を収集する。ある規定された以上の文書をコミュニティ内外から収集すると、まとめあげ手段9は、参照表現に基づいて収集済み文書20をまとめあげる。キーワード付与手段10は、参照表現及び参照表現の出現頻度に基づいて、収集済み文書20にキーワードを付与する。ランキング手段6は、上述のようにして、今度は収集済み文書20をランキングする。最終的にまとめあげられ、キーワードを付与し、ランキングした収収集済み文書20は、収集文書ファイル23として格納される。上述のように、コミュニティ向け文書収集装置において、文書本文の内容を解析していないため、言語に依存せず、迅速に、用途に合った文書を収集することができる。
【0040】
また、本発明の別の1実施形態に係わる文書収集装置は、特定の分野に関する文書を収集する。そのために、上記特定分野に関する文書収集装置は、文書収集手段2、参照関係抽出手段3、次候補判定手段5、ランキング手段6、参照度/共参照度算出手段8、まとめあげ手段9及びキーワード付与手段10を備える。特定分野に関する文書収集装置において、コミュニティ内外の文書の区別は不要であるため、コミュニティ判別に係わる処理はない。
【0041】
特定分野に関する文書収集装置において、収集に先立って特定分野に関する文書群を正例文書群として、その特定分野との関連が少ない文書群を負例文書群として与える。収集済み文書群20は、正例文書群と負例文書群の和集合とする。参照度/共参照度算出手段8は、ある文書と正例文書群、その文書と負例文書群のそれぞれの参照関係に基づいて、その文書が特定分野に関連する度合いを参照度及び共参照度として算出する。次候補判定手段5は、ランキング手段6によるランキングの代わりに、参照度/共参照度算出手段8が算出した参照度又は共参照度が高い未収集文書を次収集候補として判定する。また、負例文書群に含まれる収集済み文書20のうち、参照度又は共参照度が高い文書を負例文書群から除き、正例文書群に加える。文書収集手段2は、次収集候補21として判定された文書を収集し、正例文書群に加える。そして、正例文書群の文書数が規定された数以上になるまで、次収集候補の決定及び文書の収集を繰り返す。その他の動作は、上述の通りである。
【0042】
以下、第1実施形態に係わる、コミュニティにとって有用度の高い文書を収集するコミュニティ向け文書収集装置について説明する。本発明の第1実施形態において述べるネットワーク上のコミュニティとして、例えば、社内サイト、業界サイト及び特定トピックのネットワーク上のユーザグループが考えられる。ここで、社内サイトは、しばしばイントラネットに代表される。業界サイトは、複数の会社のシステムからなるエクストラネットに代表される。なお、社内サイトに必要な文書を収集する文書収集装置は、コーポレートポータル(EIP:EnterpriseInformation Portalともいわれる)ともいわれる、企業内のイントラネットポータルに適用可能である。
【0043】
コミュニティのポータルにおいて、コミュニティにとって有用度が高い文書を優先して自動収集するという要件が必要とされている。例えば、コーポレートポータルの場合、業務に関係する文書を自動収集する必要がある。本発明の第1実施形態によれば、このような文書の自動収集を実現する。そのために、第1実施形態に係わる文書収集装置において、以下の考え方を採用する。
・特定のコミュニティにとって有用度の高い文書は、そのコミュニティ内の文書の多くからよく参照されている文書である、またはコミュニティ内の重要文書から参照されている文書である、と考える。
【0044】
図2は、第1実施形態に係わる文書収集装置の構成を示す。図1に示すように、文書収集装置100は、文書収集部101、参照関係抽出部102、コミュニティ判別部103、次候補判定部104、ランキング部105、まとめあげ部106及びキーワード付与部107を備える。
【0045】
上述のように、本文書収集装置100において、先にコミュニティ内の文書について複数回、収集を行い、次に、コミュニティ内外の文書についても複数回、収集を行う。このように多段階に分けて複数回、文書収集を行うことが本文書収集装置100の特徴の1つである。
【0046】
収集開始に先立って、まず、初期文書群を収集済み文書群Sとして与える。この初期文書群は、収集の開始点となる。初期文書群として、例えば、サイトのトップページやトップページの参照集(リンク集)等が考えられる。収集済み文書群S又は初期文書群は、具体的には、URLテーブル120として文書収集装置100に備えられる。
【0047】
続いて、参照関係抽出部102は、収集済み文書群Sから参照関係を抽出し、収集済み文書群Sの参照先となる文書(以下、参照先文書という)のURLをURLテーブル120に格納し、抽出された参照関係を参照関係テーブル121に格納する。コミュニティ判別部103は、参照関係抽出部102が抽出した、収集済み文書群Sの参照先文書が、コミュニティ内の文書であるのか、コミュニティ外の文書であるのか、URLに基づいて判定し、判別結果を参照関係テーブル121に格納する。
【0048】
本文書収集装置100は、先にコミュニティ内の文書について1回以上収集を行う。この際、収集をまんべんなく行う。次候補判定部104は、参照関係抽出部102が抽出した収集済み文書群Sの参照先文書のうち、まだ収集されていない、コミュニティ内の文書を次に収集すべき文書の候補(以下、次収集候補Nという)として判定する。文書収集部101は、次収集候補Nとして判定された文書群を収集し、収集した文書を収集済み文書群に追加し、新たな収集済み文書群Sとする。このコミュニティ内の文書の収集は、規定された数の文書を収集するまで行う。コミュニティ内の全ての文書を収集しなくても良く、大体、コミュニティ内の全文書の1/2から1/4程度で良い。まんべんなくコミュニティ内の文書を収集することにより、コミュニティ内で有用な文書の分野についての情報を入手する。
【0049】
文書収集部101がコミュニティ内の文書を規定された数だけ収集した後、文書収集装置100は、次に、コミュニティ内外の文書についても1回以上収集を行う。この場合、上述のようにして、文書収集部101は、文書を収集し、参照関係抽出部102及びコミュニティ判別部103は、URLテーブル120及び参照関係テーブル121に情報を格納した後、さらに、ランキング部105は、参照関係及び文書のURLに基づいて、参照先文書に重要度を与え、その重要度に基づいて、参照先文書をランキングする。
【0050】
候補判定部104は、ランキング部105による判定結果に基づいて、まだ収集されていない参照先文書であって、コミュニティ内の文書のうちで上位n1位内にある文書群、及び、コミュニティ外の文書のうちで上位n2位内にある文書群を次収集候補Nとなる文書として判定する。コミュニティ内外で分けて次収集候補Nを決定することにより、コミュニティ内とコミュニティ外のいずれかに文書が偏って収集されてしまうことを防ぐことが可能となる。
【0051】
続いて、コミュニティ内の文書の収集と同様にして、文書収集部101は、次収集候補Nをコミュニティ内外から収集し、収集した文書を収集済み文書群に追加して新たな収集済み文書群Sとする。文書収集装置100は、規定された数の文書を収集するまで、コミュニティ内外からの文書収集を繰り返す。
【0052】
文書収集部101がコミュニティ内外から規定数だけの文書を収集した後、収集した文書の選別を行う。文書の選別は、まとめあげ部106、キーワード付与部107及びランキング部105により行われる。まず、まとめあげ部106は、文書において他文書を参照する際に用いる文字列(参照表現ともいう)に基づいて、収集済み文書のうち、同一内容であるが複数の文書に分割されてい文書をまとめあげる。
【0053】
キーワード付与部107は、文書中の参照表現に基づいて、キーワードを決定し、文書にキーワードを付与する。より具体的には、キーワード付与部107は、参照表現のうち、「トップに戻る」、「ホームへ」というような参照先文書の内容に関係なくしばしば使用される参照表現を除く。続いて、キーワード付与部107は、各参照表現が参照する相異なる文書数を計数し、参照表現テーブル122に格納する(図2では不図示)。また、各収集済み文書についてある参照表現で参照されている頻度を計数し、参照回数テーブル123に格納する(図2では不図示)。キーワード付与部107は、これら計数結果に基づいて各収集済み文書について参照表現の重みを算出し、重みが大きい順にある数だけの参照表現をキーワードとして各収集済み文書に付与する。
【0054】
ランキング部105は、参照関係及び文書のURLに基づいて、各文書に重要度を付与し、その重要度に基づいて文書をランキングする。このように、本実施形態に係わるコミュニティ向け文書収集装置100は、文書本文の内容を解析すること無く、参照関係及びURLに基づいて文書を収集し、まとめあげ、キーワードを付与し、ランキングする。
【0055】
上述のようにして、文書収集装置100は、まとめあげられ、キーワードが付与され、ランキングされた文書群を優良コンテンツ130として提供する。優良コンテンツ130は、検索エンジン140を介して索引141として提供されたり、検索エンジン140を介してサーバ160に提供されたり、分類エンジン150によってディレクトリ編集されてサーバ160に提供されたりする。サーバ160のクライアントは、サーバ160に提供された優良コンテンツ130を、ブラウザ170を介して閲覧することができる。
【0056】
以下、図3から図6を用いて各テーブルのデータ構造について説明する。図3にURLテーブル120のデータ構造の一例を示す。図3に示すように、URLテーブルは、各文書について文書を識別する文書ID(Identification information)、文書のURL、収集済みであるか否かを示す収集済みフラグ、コミュニティ内の文書であるか否かを示すコミュニティフラグ及び文書の重要度を格納する。文書ID及びURLは、参照関係抽出部102が収集済み文書の参照先文書を抽出した際に格納される。収集済みフラグは、文書収集部101がその文書を収集した際に「オン(1)」にされる。コミュニティフラグは、コミュニティ判別部103がその文書がコミュニティ内の文書であると判定した場合に「オン(1)」にされる。重要度は、ランキング部105が文書の参照関係及びURLの文字列上の特徴に基づいて算出し、格納する。
【0057】
図4に参照関係テーブル121のデータ構造の一例を示す。図4に示すように、参照関係テーブル121は、文書の参照関係に関する情報を格納する。より具体的には、参照関係テーブル121は、参照元文書の文書IDである参照元文書ID、参照元文書によって参照されるコミュニティ内の文書の文書IDである参照先文書ID1、及び、参照元文書によって参照されるコミュニティ外の文書の文書IDである参照先文書ID2を格納する。これら情報は、参照関係抽出部102によって格納される。
【0058】
図5に参照表現テーブル122のデータ構造の一例を示す。図5に示すように、参照表現テーブル122は、収集済み文書で各参照表現が用いられる頻度に関する情報を格納する。より具体的には、参照表現テーブル122は、各参照表現について、参照表現を識別する表現ID、参照表現(文字列)、参照表現が参照する相異なる文書の数である文書頻度DF(w)、及び、キーワードとして用いるべきか否かを示す要否フラグを格納する。これら情報は全て、キーワード付与部107によって格納される。
【0059】
図6に参照回数テーブル123のデータ構造の一例を示す。図6に示すように、参照回数テーブル123は、各収集済み文書が各参照表現で参照されている回数である参照表現頻度TF(d,w)を格納する。これら情報は全て、キーワード付与部107によって格納される。例えば、ある文書中のある参照表現rw1に埋め込まれたリンクを参照することによって、参照先文書doc2が得られた場合、参照先文書doc2のTF(doc2,rw1)は、1インクリメントされる。図6において、文書IDがdociである文書が、表現IDがrwjである参照表現によってTF(doci,rwj)回参照されていることを示す。例えば、図6において、文書IDがdoc1である文書は、表現IDがrw1である参照表現によって19回参照されていることがわかる。
【0060】
以下、第1実施形態に係わる文書収集装置が実現する特定のコミュニティにとって有用度の高い文書を収集する方法について説明する。説明において以下の表記法を用いる。
・LT(S)は、文書群Sの参照先となる文書群を示す。
・X−Yは、集合Xと集合Yの差集合を示す。
【0061】
最初に、図7を用いて特定のコミュニティ向けの文書を収集する処理の大まかな流れについて説明する。まず、収集開始時に、収集済み文書群Sの初期文書群(収集の開始点となる文書群)としてコミュニティ内の文書を与える。
【0062】
参照関係抽出部102による参照関係の抽出結果及びコミュニティ判別部103による、参照先文書がコミュニティ内の文書であるか否かの判別結果に基づいて、候補判定部104は、次収集候補Nを抽出する(ステップS1)。次収集候補Nを抽出する処理について、詳しくは後述する。
【0063】
続いて、文書収集部101は、URLテーブル120に格納されたURLに基づいて、次収集候補Nを収集し(ステップS2)、収集された文書についての収集済みフラグをオンにする。これにより、文書収集部101は、新たに収集された次収集候補Nを収集済み文書群Sに加える。つまり、式S∪Nで示される文書群を新たに収集済み文書群Sとする。
【0064】
文書収集部101は、収集済み文書群Sに含まれる文書数が規定された文書数以上であるか否か判定する(ステップS3)。この判定は、URLテーブル120に格納された収集済みフラグが「オン(1)」になっている文書の数を計数することにより行う。収集済み文書群Sに含まれる文書数が規定された文書数以上でない場合(ステップS3:No)、次候補判定部104は、再度次収集候補を決定し(ステップS4)、ステップS2に戻る。2回目以降の次収集候補の決定において、今回の収集で新たに収集した文書(以下、新規収集文書という)についての参照関係抽出部102による参照関係の抽出結果、及び、コミュニティ判別部103による新規収集文書の参照先文書がコミュニティ内の文書であるか否かの判別結果に基づいて、候補判定部104は、未収集の参照先文書のうちコミュニティ内の文書を次収集候補Nとして抽出する。ステップS4の処理は、ステップS1と同様であるため、ステップS1について後述する際に一緒に説明する。
【0065】
収集済み文書群Sに含まれる文書数が規定された文書数以上である場合(ステップS3:Yes)、今度は、候補判定部104は、コミュニティ内外の文書から次収集候補を決定する。そのために、まず、参照関係抽出部102は、新規収集文書の参照関係の抽出し、コミュニティ判別部103は、新規収集文書の参照先文書がコミュニティ内の文書であるか否かを判別する。その後、ランキング部105は、収集済み文書及びその参照先文書、つまりS∪LT(S)に対して重要度を付与し、重要度に基づいて、未収集の参照先文書、つまりLT(S)−Sのランキングを行う(ステップS5)。このステップS5の処理について詳しくは後述する。
【0066】
続いて、次候補判定部104は、LT(S)−Sのうち、コミュニティ内の文書群のランキングで上位n1件に入っている文書群及びコミュニティ外の文書群のランキングで上位n2件に入っている文書群を次収集候補Nとする(ステップS6)。このようにコミュニティ内とコミュニティ外とを区別して次収集候補Nを抽出することにより、コミュニティ内またはコミュニティ外に、収集される文書が偏ることを防ぐことができる。
【0067】
文書収集部101は、URLテーブル120に格納されたURLに基づいて、次収集候補Nを収集し(ステップS7)、収集された文書の収集済みフラグを「オン(1)」にする。文書収集部101は、URLテーブル120に格納された収集済みフラグが「オン(1)」になっている文書の数を計数することにより、収集済み文書群Sに含まれる文書数が規定された文書数以上であるか否か判定する(ステップS8)。
【0068】
収集済み文書群Sに含まれる文書数が規定された文書数以上でない場合(ステップS8:No)、ステップS5に戻る。収集済み文書群Sに含まれる文書数が規定された文書数以上である場合(ステップS8:Yes)、ランキング部105、まとめあげ部106及びキーワード部107によって、収集済み文書群Sの文書を選別する(ステップS9)。ステップS9の処理について詳しくは後述する。
【0069】
以下、コミュニティ内の文書を収集する際に、次収集候補を決定する処理について詳しく説明する。この処理は、図7のステップS1及びステップS4に相当する。
【0070】
まず、参照関係抽出部102は、新規収集文書から参照されている参照先文書を抽出する(ステップS11)。参照関係抽出部102は、各抽出された参照先文書について、参照先文書と同一のURLがURLテーブル120に格納されていない場合、参照先文書のURLをURLテーブル120に格納する(ステップS12)。同じURLを重複して格納する必要はないからである。情報を格納する際、参照関係抽出部102は、収集済みフラグを「オフ(0)」とする。
【0071】
続いて、コミュニティ判別部103は、URLテーブル120に格納された参照先文書のURLの文字列に基づいて、抽出された参照先文書がコミュニティ内の文書であるか否か判別し、コミュニティ内の文書であると判別した場合、コミュニティ判別部103は、URLテーブル120のコミュニティフラグを「オン(1)」とする。それ以外の場合、コミュニティ判別部103は、コミュニティフラグを「オフ(0)」とする(ステップS13)。さらに、参照関係抽出部102は、コミュニティ判別部103の判別結果に基づいて、参照関係テーブル121の各欄に参照関係を格納する。
【0072】
ここで、本実施形態によれば、コミュニティは、ネットワーク上の文書の集合、つまり文書群として与えられている。従って、同一コミュニティ内の文書であるか否かの判別は、その文書群を示すURLに基づいて判別できる。より具体的には、コミュニティ内の文書であるか否かの判定は、URLの文字列上の特徴に基づいて、以下のようにして行う。
・コミュニティが社内サイトである場合、通常、社内サイトのドメイン名(fujitsu.co.jp等)とドメイン名が同じである文書をコミュニティ内の文書であると判定する。
・コミュニティが業界サイトである場合、その業界サイトに属する複数の企業のサイトのドメイン名のいずれかとドメイン名が同じである文書をコミュニティ内の文書であると判定する。
・コミュニティがユーザグループである場合、各ユーザのサイト(ホーム文書ともいう)のURL(例えば、http://www.fujitsu.co.jp/foo/ )のいずれかと同じ文字列をURLに含む文書をコミュニティ内の文書であると判定する。
【0073】
次候補判定部104は、収集済み文書の参照先文書であり、かつ、未収集文書である文書LT(S)−Sのうち、コミュニティ内の文書を次収集候補Nとして判定する。具体的には、次候補判定部104は、URLテーブル120を参照し、収集済みフラグが「オフ(0)」であり、且つ、コミュニティフラグが「オン(1)」である文書を次収集候補Nとして決定する(ステップS14)。このような次収集候補Nは、以下の(1)式で表すことができる。
【0074】
N={d|d∈LT(S)−S,dはコミュニティ内} ・・・・(1)
このようにして次収集候補Nを決定し、コミュニティ内の文書をまんべんなく収集することにより、コミュニティ内で必要とされる、意味的に多様な文書についての情報を偏りなく取得することが可能となる。
【0075】
続いて、図9を用いて収集済み文書及びその参照先文書をランキングする処理について説明する。この処理は、図7のステップS5に相当する。
参照関係抽出部102及びコミュニティ判別部103は、新規収集文書の参照関係の抽出し、参照関係をコミュニティの判別結果とともに、URLテーブル120及び参照関係テーブル121に格納する(ステップS21からS23)。このステップS21からS23の処理は、図8で説明したステップS11からS13と同様であるため、詳しい説明は省略する。
【0076】
続いて、ランキング部105は、収集済み文書及びその参照先文書、つまりS∪LT(S)に対して、参照関係テーブル121に格納された参照関係及びURLテーブル120に格納されたURLの文字列上の特徴に基づいて重要度を算出し、算出した重要度をURLテーブル120に格納する(ステップS24)。ランキング部105は、URLテーブル120に格納されたコミュニティフラグ及び重要度に基づいて、未収集の参照先文書、つまり、LT(S)−Sを、コミュニティ内外に分けてランキングする(ステップS25)。
【0077】
以下、ステップS24の重要度を算出する処理について詳しく説明する。上述のように、ランキング部105は、文書の参照関係及びURLを利用して、収集済み文書の意味内容を分析することなく、文書の重要度を算出する。以下、参照関係に基づいて文書に付与される重要度をリンク重要度という。リンク重要度を付与する際の基本的な考え方は以下の通りである。
・類似度の低いURLから多く参照されている文書は重要である。
【0078】
例えば、一般に、同一サイト内に設けられた複数の文書はそのサイト内の他の文書に参照されているが、それらの文書のURLは相互に類似する。従って、類似度の高いURLから参照されている文書の重要度は低いと推定できる。
・多くの文書から参照されている文書ほど重要な文書であり、重要な文書から参照されている、URLの類似度の低い文書は重要である。
【0079】
例えば、有名なディレクトリサービス等及び官公庁等は多くの文書から参照されているが、このような重要な文書から参照されている文書は重要度が高いと考えられる。また、多くの文書やミラーサイトを抱えるサービス(サイト)に設けられた文書等はそのサイト内で参照されていることが多いが、同じサイト内の文書のURLは大抵類似しているため、「URLの類似度の低い文書は重要である」という考え方を導入すれば、同じサイトの文書が多く検索されてしまうことを避けることが可能となる。
・URLの類似度は、サーバアドレス、パス、ファイル名の全てが異なるものが最も小さく、ミラーサイトや同一サーバ内の文書は類似度が高くなるように、URLの字面情報から定義する。
【0080】
上述の3つの考え方を導入することにより、全ての参照関係を同等に扱わないでリンク重要度に応じた重みを参照関係に与えることとしている。より具体的には、重みを参照元と参照先文書のURLの類似度の逆数として与えることとしている。以下、リンク重要度の算出についてより詳しく説明する。
【0081】
リンク重要度の算出対象となる文書集合をDOC={p1 , p2 ,....pN }、
文書pのリンク重要度をWp
文書pの参照先の文書集合をRef(p)、
文書pの参照元の文書集合をRefed(p)、
文書pとqのURL類似度をsim(p,q)、
相異度をdiff(p,q)=1/sim(p,q)とすると、
文書pからqに参照が張られているとした時、その参照の重みlw(p,q)を以下の(2)式で定義する。
【0082】
【数1】
Figure 0004094844
【0083】
この(2)式から分かるように、lw(p,q) は、pとqのURLの類似度sim(p,q)が低いほど、また、pからの参照数がより少ないほど大きくなる。
各文書のリンク重要度は、各p∈DOCに対して、Cq を定数(重要度の下限であり、文書によって異なる値を与えてもよい。)として、
【0084】
【数2】
Figure 0004094844
【0085】
という連立一次方程式の解として定義する。ランキング部105は、この連立一次方程式を解くことにより、リンク重要度を各文書に付与する。なお、連立一次方程式の解法については、既存のアルゴリズムが多数存在するため、説明は省略する。(2)式及び(3)式から、上述の考え方が実現されていることを読み取ることができる。
【0086】
次に、(2)式及び(3)式中の文書pとqのURL類似度sim(p,q) について説明する。URL類似度は、ランキング部105のURL判別部(不図示)により算出される。一般に、文書のURLは、サーバアドレス、パス、ファイル名の三種類の情報から構成される。例えば、WWW文書のURL、
http://www.flab.fujitsu.co.jp/hypertext/news/1999/product1.html は、サーバアドレス(www.flab.fujitsu.co.jp)、パス(hypertext/news/1999)、ファイル名(product1.html)の3種類の情報から構成される。
【0087】
本実施形態では、与えられた2つの文書p及びqのURL類似度を、上記の三種類の組合せにより定義する。類似度sim(p,q)として、例えば、以下に述べるドメイン類似度sim _domain(p,q)及び融合類似度sim _merge(p,q)が考えられる。
【0088】
ドメイン類似度sim _domain(p,q)は、ドメインの類似に基づいて算出される。ドメインとは、サーバアドレスの後半部分であり、会社や組織を表す。サーバアドレスが.com、.edu、.org等で終わる米国サーバの場合はサーバアドレスの後ろから2つめまで、サーバアドレスが.jp 、.fr 等で終わる他国のサーバの場合はサーバアドレスの後ろから3つめまでがドメインに相当する。
【0089】
文書pと文書qのドメイン類似度は以下の式により定義される。
Figure 0004094844
ここで、αは定数で、0より大きく1より小さい実数値を取るとする。
【0090】
また、sim(p,q)として、前述の三種類の情報を融合した類似度sim_merge(p,q)を次のように定義する。
sim _merge(p,q)=(サーバアドレスの類似度)+(パスの類似度)+(ファイル名の類似度)
以下、右辺の各項の算出方法について説明する。
【0091】
サーバアドレスの類似度は、アドレスの階層を後ろから見ていき、nレベルまで一致した場合、類似度を1+nとする。例えば、www.fujitsu.co.jp とwww.flab.fujitsu.co.jpは3レベルまで一致しているので4となる。www.fujitsu.co.jp とwww.fujitsu.com は1レベルも一致していないので(一致0レベル)、類似度は1である。
【0092】
パスの類似度は、先頭からパスの"/"で区切られた要素毎に比較し、一致したレベルまでを類似度とする。例えば、/doc/patent/index.htmlと/doc/patent/1999/2/file.htmlとは、2レベルまで一致しているので類似度は2である。
【0093】
ファイル名の類似度は、ファイル名が一致する場合、類似度1とする。
このsim_merge(p,q)によっても、URLが似通った文書が多く検索されることを防ぐことができる。
【0094】
このようにして、ランキング部105は、文書に重要度を付与し、高い重要度を付与された文書を上位にランキングする。
このように、本実施形態によれば、ランキング部105は、取得した文書の参照関係及びURLの文字列の特徴に基づいて、文書本文の意味内容を解析せずに、つまり処理速度が速くかつ精度良く、文書に重要度を付与し、その重要度に基づいて文書をランキングすることができる。
【0095】
以下、図10を用いて収集済み文書を選別する処理について詳しく説明する。この処理は図7のステップS9に相当する。まず、まとめあげ部106は、収集済み文書群Sで用いられている参照表現に基づいて、収集済み文書群Sをまとめあげる(ステップS31)。なお、参照表現とは、例えば、HTML(HyperText Mark-up Language)では、アンカータグで囲まれた部分がそれに相当する。
【0096】
より具体的には、予め不図示のまとめあげ参照表現テーブルに、「次に」、「前へ」といった参照表現(参照時に用いられる文字列)を格納する。これら「次に」、「前へ」といった参照表現を用いている文書は、参照元文書と参照先文書は同一内容であるが、URLが分散されている文書と推定される。まとめあげ部106は、まとめあげ参照表現テーブルに格納されている参照表現を文書から抽出し、以下のようにして文書をまとめあげる。
・文書doc1の中から「次へ」、「次に続く」、「Next」というような表現により、文書doc2が参照されている場合、まとめあげ部106は、文書doc2を文書doc1に縮退する。この操作の繰り返しを可能な限り行う。
・文書doc1の中から「前へ」、「前に戻る」、「Prev」といった表現により、文書doc2が参照されている場合、まとめあげ部106は、文書doc1をdoc2に縮退する。この操作の繰り返しを可能な限り行う。
【0097】
続いて、キーワード付与部107は、参照表現に基づいて収集済み文書Sにキーワードを付す(ステップS32)。キーワード付与処理について詳しくは後述する。最後に、ランキング部105は、上述の図9のステップS24と同様にして、収集済み文書に重要度を付与し、重要度をURLテーブル120に格納する。ランキング部105は、重要度に基づいて収集済み文書をランキングする(ステップS33)。
【0098】
次に、ステップS32のキーワード付与処理について、図11を用いて詳しく説明する。まず、予め、収集済み文書で用いられている参照表現のうち、「ホームへ」、「トップに戻る」等、参照先文書に関係なく、しばしば使用される参照表現を不図示の不要語辞書に格納する(不図示)。キーワード付与部107は、収集済み文書群Sから参照表現を抽出し、各参照表現wについて、参照表現wを用いて参照される相異なる文書の数DF(w)を集計し、参照表現wを識別する表現ID、その参照表現(文字列)とともにDF(w)の集計結果を参照表現テーブル122に格納する(ステップS41)。この段階では、要否フラグを「オフ(0)」としておく。
【0099】
キーワード付与部107は、参照表現wのうち、DF(w)が所定の数以上であるものをキーワード候補から省く(ステップS42)。言い換えると、参照先文書まで含めた総文書数をNとすると、以下の式に該当する参照表現wを省く。
【0100】
DF(w)>αN
ここで、αは、定数であり、例えば0.1としてもよい。
キーワード付与部107は、参照表現wのうち、不要語辞書に格納されている特定の参照表現をキーワード候補から省く(ステップS43)。これらの参照表現は、参照先文書に関係なく使用されているため、キーワードとして用いるには適切でないからである。
【0101】
キーワード付与部107は、収集済み文書Sから、文書dを取り出し、収集済み文書群Sとdの差集合、つまりS−dを新たな収集済み文書群Sとする(ステップS44)。
【0102】
キーワード付与部107は、キーワード付与部107は、文書dにおいて各参照表現wによって参照されている回数TF(d,w)を集計し、以下の(4)式を用いて、文書dについて各参照表現wの重みW(d,w)を算出する(ステップS45)。
【0103】
W(d,w)=TF(d,w)log(N/DF(w)) ・・・・(4)
キーワード付与部107は、参照表現テーブル122にアクセスし、参照表現の重みWの大きい順に高々n個の参照表現の要否フラグを「オン(1)」とする。つまり、重みWの大きい順に高々n個の参照表現を文書dのキーワードとする。
【0104】
このようにして得られた参照表現に基づくキーワードは、文書dの本文に含まれる単語に基づくキーワードと異なり、様々な異称をキーワードとして取得することが特徴の1つである。例えば、ある企業のホームページへの参照表現から、その企業の様々な呼称(正式名、略称、通称、英語名等)を取得することができる。また、例えば、用語「Linux」に関して、「リナックス」、「ライナックス」等の様々な異称がキーワードとして取得することができる。一方、一般に1つの文書の本文ではこうした異称のうち1つだけを統一的に用いるため、本文からキーワードを取得する場合では異称をキーワードとして取得することはできない。
【0105】
また、参照表現から取得したキーワードに、文書dの本文に出現する単語のうちで頻出する単語からキーワード及び文書dを示すURLから得たキーワード、例えば、http://www.fujitsu.com/であれば、キーワードとしてfujitsu、を加えることとしてもよい。これにより、文書dに多様なキーワードを付与することが可能になる。
【0106】
図12に、第1実施形態に係わる文書収集装置を用いて収集した文書をユーザに提供する画面の一例を示す。図12において、収集した優良コンテンツ130を、分類エンジン150を用いてディレクトリに分け、サーバ160のクライアントに提供する場合を例としている。クライアントは、画面180でキーワードを入力する、又は、カテゴリを選択することにより、閲覧したい文書へのリンクまたはリンク集を画面に表示させることができる。
【0107】
クライアントがキーワードを入力した場合、画面181に示すようにキーワードに基づいて検索された文書へのリンクが、重要度と共に表示される。本実施形態によれば、入力されたキーワードの異称も合わせて検索することが可能である。カテゴリを選択した場合、画面182に示すように選択されたカテゴリに関連する文書へのリンク集が表示される。
【0108】
ここで、画面181及び画面182に示すように、検索された文書を提示する際に、URLテーブル120に格納されたコミュニティフラグに基づいて、文書をコミュニティ内外に分けて提示することとしても良い。
【0109】
以下、第2実施形態に係わる文書収集装置について説明する。第2実施形態に係わる文書収集装置は、特定分野に関する文書を収集する。本実施形態に係わる文書収集装置において以下の考え方を採用する。
・ネットワークにおいて、参照の親子/兄弟関係にある文書は、内容的に似通っている傾向にある。ある程度の文書群としばしば親子/兄弟関係にあるとされる文書は、元文書群と同じような分野の内容である可能性が高い。元の文書群からと親子/兄弟関係にある文書のうち参照度(親子関係)や共参照度(兄弟関係)の高い文書を収集し、元文書群に繰り込み、という操作を多段階に繰り返すことで、当該分野に関する文書を収集していくことができる。
【0110】
図13に第2実施形態に係わる文書収集装置の構成を示す。図13に示すように第2実施形態に係わる文書収集装置200は、文書収集部101、参照関係抽出部102、候補判定部104、参照度/共参照度算出部201、ランキング部105、まとめあげ部106及びキーワード付与部107を備える。参照度/共参照度算出部201は、文書の参照関係に基づいて、ある文書が特定分野に関連している度合いを算出する。その他の各部の機能は、第1実施形態で説明した通りである。
【0111】
第2実施形態に係わる文書収集装置において、収集開始に先立って、まず、ある分野の代表的な文書を既存の検索エンジンやリンク集を用いて収集し、正例文書群PSとして与え、当該分野と重ならない任意の分野の文書も同様にして収集して負例文書群NSとして与え、PS∪NSを収集済み文書群Sとする。この収集済み文書群Sが収集の開始点となる。
【0112】
参照関係抽出部102は、収集済み文書群Sから参照関係を抽出し、収集済み文書群Sの参照先文書のURLをURLテーブル120に格納し、抽出された参照関係を参照関係テーブル121に格納する。ここで、第2実施形態に係わる文書収集装置において、URLテーブル120に、コミュニティフラグの代わりに正例文書群PSに含まれる文書であるか否かを示す正例フラグの欄を含む。正例フラグは、正例文書群PSに含まれる文書である場合に「オン(1)」となる。また、参照関係テーブル121に参照関係を格納する際、コミュニティ内外で分けることは不要となる。
【0113】
参照度/共参照度算出部201は、参照関係抽出部102が抽出した参照関係に基づいて、正例文書群PS及び負例文書群NSと収集済み文書Sの参照先文書との関係を示す参照度及び共参照度を算出する。次候補判定部104は、参照度/共参照度算出部201が算出した参照度及び共参照度に基づいて、収集済み文書群Sの参照先文書であって、正例文書群PSに含まれない文書のなかから所定の条件を満たす文書を次収集候補Nとして判定する。次候補判定部104は、次収集候補Nのうち負例文書群NSに含まれている文書を負例文書群NSから除き、正例文書群PSに加える。
【0114】
文書収集部101は、URLテーブル120を参照し、次収集候補Nのうち未収集文書を収集し、収集した文書を正例文書群PSに加える。第2実施形態に係わる文書収集装置200は、正例文書群PSの文書数が規定された数以上になるまで、上述のようにして収集済み文書Sの参照関係を抽出し、参照関係に基づいて次収集候補Nを決定し、次収集候補Nを収集する処理を繰り返す。
【0115】
収集済み文書Sが規定された数以上になると、まとめあげ部106は参照表現に基づいて収集済み文書群Sをまとめあげ、キーワード付与部107は参照表現が用いられる頻度等に基づいて収集済み文書群Sにキーワードを付す。ランキング部105は、参照関係及びURLの文字列上の特徴に基づいて各収集済み文書Sの重要度を算出し、重要度に基づいて収集済み文書Sをランキングする。これにより、分野別優良コンテンツ210を作成する。このように、第2実施形態に係わる文書収集装置によれば、文書本文の内容を解析せずに、特定分野に関する文書を収集し、まとめあげ、キーワードを付与することができる。
【0116】
分野別優良コンテンツ210は、検索エンジン140を介してサーバ160に提供される。サーバのクライアントはブラウザ160を用いて検索サービスの提供を受けることができる。
【0117】
以下、第2実施形態に係わる文書収集装置が実現する特定分野に関する文書収集方法について説明する。まず、用いる表記法について説明する。
・LT(B)は、文書群Bの参照先文書集合を示す。
・LT(p)は、文書pの参照先文書集合を示す。
・LS(d,X)={c∈X|c refers d}は、文書集合Xのうち文書dを参照している文書の集合を示す。
・LS(A,X)={c∈X|∃d∈A,crefers d}は、文書集合Xのうち集合A中の少なくとも1文書を参照している文書の集合を示す。
・CC(d,A,X)=LS(d,X)∩LS(A,X)は、文書集合Xのうちで、文書d、及び集合Aの文書(少なくとも1文書)の両方を参照している文書の集合を示す。
【0118】
図14に、LT(S)、LT(p)、LS(d,X)及びLS(A,X)について、各集合が意味する文書の参照関係を示す。図14において黒丸は文書を示し、矢印は参照関係を示し、矢印の元が参照元、矢印の先が参照先を示す。図14に示すように、LT(B)とLS(A,X)及びLT(p)とLS(d,X)は、それぞれ矢印が逆になっている、つまり参照先文書と参照元文書が入れかわった関係にあることが分かる。また、図15に、CC(d,A,X)が意味する文書の参照関係を示す。
【0119】
以下、図16を用いて特定分野に関する文書を収集する処理について説明する。第2実施形態に係わる文書収集装置によれば、「XML」や「Linux」といった、特定分野(ジャンル)に関する意味的に類似した文書を優先的に収集する場合に、文書本文の内容を解析する処理を行わずに、参照関係に基づいて収集することが可能である。
【0120】
まず、当該分野に属する代表的な文書を、既存の検索エンジンやリンク集から探し出して収集し、正例文書群PSとする。同様にして当該分野とは重ならない分野に属する文書を、探し出して収集し、負例文書群NSとする。この正例文書群PSと負例文書群NSが初期文書群となる。そして、PS及びNSの文書のURL、収集済みフラグ(全て「オン(1)」)、及び正例フラグ(正例文書の場合「オン(1)」)をURLテーブル120に格納する。正例文書群PSと負例文書群NSの和集合PS∪NSを収集済み文書群Sとする(ステップS51)。ここで、例えば、当該分野を「コンピュータ」であるとすると、当該分野と重ならない分野の例として、「手芸」、「料理」、「美容」等が考えられる。
【0121】
参照関係抽出部102は、収集開始時は初期の収集済み文書群S(初期文書群)から、それ以降は新規収集文書から参照関係を抽出し(ステップS52)、参照先文書のURLをURLテーブル120に格納し、参照関係を参照関係テーブル121に格納する。この処理は、第1実施形態と同様である。
【0122】
参照度/共参照度算出部201は、抽出された参照関係に基づいて、収集済み文書群Sの参照先文書から正例文書群PSに含まれる文書を除いた文書集合T(S)=LT(S)−PSに含まれる文書d∈T(S)について、以下の(5)式を用いて参照度Rscore(d,PS,S)を算出する。次候補判定部105は、参照度Rscore(d,PS,S)が上位n1件に入っている文書群をN1とする。(ステップS53)。なお、収集済み文書が正例文書群PSに含まれるか否かは、URLテーブル120の正例フラグを参照することにより判定できる。
【0123】
【数3】
Figure 0004094844
【0124】
(5)式の第1項は、文書dを参照している正例文書群PSの文書数の対数を示す。また、(5)式の第2項は、文書dを参照している収集済み文書数に対する、文書dを参照している正例文書群PSの文書数の割合を示す。従って、収集済み文書群Sのうち正例文書群PSからのみ多く参照されている文書dほど、Rscore(d,PS,S)が大きな値を取ることが分かる。
【0125】
つまり、次候補判定部105は、参照度Rscore(d,PS,S)に基づいて、新規収集文書の参照先文書のうち、特定分野に関係ある正例文書群PSから多く参照され、特定分野とあまり関係ない負例文書群NSから参照されていない文書をN1として決定する。図17に、文書dについて参照度を算出する際に、(5)式に含まれる各集合が意味する参照関係を示す。
【0126】
続いて、参照度/共参照度算出部201は、文書d∈T(S)−N1について、以下の(6)式を用いて共参照度Cscore(d,PS,S)を算出する。次候補判定部105は、d∈T(S)−N1のうちで共参照度Cscore(d,PS,S)が上位n2件に入っている文書群をN2とする(ステップS54)。
【0127】
【数4】
Figure 0004094844
【0128】
(6)式の第1項の対数の中身は、文書d及び正例文書群PSの文書の両方を参照している収集済み文書p全てについての、文書pの参照先文書であって正例文書群PSに含まれる文書数の積和を示す。従って、共参照度Cscore(d,PS,S)は、文書d及び正例文書群PSの文書の両方を参照している収集済み文書pの数が多い文書dほど、及び、このような文書pの参照先文書であって正例文書群PSに含まれる文書の数が多いような文書dほど、大きな値を取ることが分かる。言い換えると、正例文書群PSの文書を参照している収集済み文書から参照されている文書dについて、その文書dを参照している収集済み文書の数が多い文書dほど、共参照度Cscore(d,PS,S)は、大きな値を取る。
【0129】
(6)式の第2項は、文書dの参照元となっている収集済み文書の数に対する、文書dと共に参照されている文書pの数の割合を示す。共参照度Cscore(d,PS,S)は、この割合が大きいほど大きな値を取る。図18に、文書dについて共参照度を算出する際に、(6)式に含まれる各集合が意味する参照関係を示す。
【0130】
次候補判定部105は次収集候補N=N1∪N2とする(ステップS55)。次候補判定部105は、次収集候補NのURLをキーとしてURLテーブル120を検索し、次収集候補Nの正例フラグを「オン(1)」する。この処理により、負例文書群NSに含まれていたが、次収集候補として判定された文書が、負例文書群NSから除かれ、正例文書群PSに加えられることとなる(ステップS56)。
【0131】
文書収集部101は、URLテーブル120に格納されたURLに基づいて、次収集候補Nのうち未収集文書をネットワークから収集し、収集した文書に対応する収集済みフラグを「オン(1)」にする(ステップS57)。この処理により、新規収集文書を正例文書群PSに加える。文書収集部101は、URLテーブル120を参照し、正例文書群PSの文書数が規定された数以上であるか否か判定する(ステップS58)。正例文書群PSの文書数が規定された数以上でない場合(ステップS58:No)、ステップS52に戻って処理を繰り返す。
【0132】
正例文書群PSの文書数が規定された数以上である場合(ステップS58:Yes)、正例文書群PSの文書を選別し(ステップS59)、処理を終了する。文書の選別処理は、第1実施形態と同様であるため説明を省略する。
【0133】
このようにして、本実施形態によれば、文書本文の内容を解析することなく、特定分野に関する文書を精度よく、かつ迅速に収集することが可能となる。
以下、第2実施形態の変形例について説明する。負例文書群NSは、集めることも難しいため、収集処理の後に廃棄することをさけて、有効利用することが望ましい。そこで、第2実施形態の変形例に係わる文書収集装置によれば、上記処理で収集した負例文書群NSを有効に利用することとする。これにより、なるべく独立な、例えば、「Java(登録商標)言語」と「編物」及び「フランス料理」等、複数分野の文書を並行して収集することを可能とする。そのために、ある分野の文書を収集する際、その分野の文書群を正例文書群PSとし、その分野以外の他の分野の文書群を負例文書群NSとして扱う。
【0134】
文書収集装置の構成は、図13を用いて説明した通りであるため、説明を省略する。以下、図19を用いて第2実施形態の変形例に係わる文書収集装置で行う処理について説明する。
【0135】
まず、n個の独立な分野の文書群Di(i=1,2,・・・n)を、検索エンジンやリンク集等から探し出して収集し、文書群Diの文書のURL、収集済みフラグ、及び分野を識別する情報である分野識別情報をURLテーブル120に格納する。第2実施形態の変形例に係わる文書収集装置では、正例フラグは不要である。文書群Diは、分野iの初期文書群となる。収集済み文書群をD=(D1、D2、・・・、Dn)とする(ステップS61)。
【0136】
まず、参照関係抽出部102は、iを与える(ステップS62)。なお、収集開始時に、参照関係抽出部102は、iを1とする。続いて、参照関係抽出部102は、iがnを超えているか否か判定する(ステップS63)。iがnを超えている場合(ステップS63:Yes)、ステップS71に進む。そうでない場合(ステップS63:No)、参照関係抽出部102は、分野iに対応する文書群Diの新規収集文書から(収集開始時は初期文書群から)、参照関係を抽出し、参照先文書のURLをURLテーブル120に、参照関係を参照関係テーブル121にそれぞれ格納する(ステップS64)。この処理は、第1実施形態と同様である。
【0137】
参照度/共参照度算出部201は、文書群Diの参照先文書であって、収集済み文書群Dに含まれない文書群T(Di)=LT(Di)−Dを次収集範囲とし、この次収集範囲T(Di)に含まれる文書d∈T(Di)について、上述の(5)式を用いて参照度Rscore(d,Di,D)を算出する。次候補判定部105は、参照度Rscore(d,Di,D)が上位n1件に入っている文書群をN1iとする。(ステップS65)。なお、収集済み文書が含まれる分野は、URLテーブル120の分野識別情報を参照することにより判定できる。
【0138】
参照度/共参照度算出部201は、次収集範囲T(Di)からN1iを除いた集合に含まれる文書d∈T(Di)−N1iついて、上述の(6)式を用いて共参照度Cscore(d,Di,D)を算出する。次候補判定部105は、共参照度Cscore(d,Di,D)が上位n2件に入っている文書群をN2iとする。(ステップS66)。
【0139】
次候補判定部105は、N1i∪N2iを分野iについての次収集候補Niとする(ステップS67)。次候補判定部105は、URLテーブル120にアクセスし、次収集候補Niに現在のiの値に対応した分類識別情報を付す。文書収集部101は、ネットワークから次収集候補Niを収集する(ステップS68)。文書収集部101は、URLテーブル120にアクセスし、収集された次収集候補Ni(新規収集文書群)の収集済みフラグを「オン(1)」とする。これにより、文書収集部101は、文書群Diに新規収集文書群を加えて新たな文書群Diとする(ステップS69)。
【0140】
続いて、参照関係抽出部102は、iを1インクリメントし(ステップS70)、ステップS63に戻る。文書収集装置200は、上述の処理をiがnを超えるまで、処理を繰り返す。
【0141】
iがnを超えると(ステップS63:Yes)、参照関係抽出部102は、URLテーブル120を参照し、収集済みフラグ及び分野識別情報に基づいて、各文書群Diの文書数を計数し、各文書群Diの文書数が規定された数以上であるか否か判定する(ステップS71)。文書数が規定数以上でない文書群Dk(kは1からnまでの任意の数)がある場合、ステップS62に戻り、参照関係抽出部102は、i=kとしてステップS63以下の処理を繰り返す。
【0142】
なお、文書数が規定数以上でない文書群Dkが複数ある場合、例えば、Dk1 k2及びDk3がある場合、i=k1、k2及びk3である場合について、ステップS63以下の処理を繰り返す。D1からDnまで全ての収集済み文書群Diについて文書数が規定数以上である場合(ステップS71:Yes)、処理を終了する。
【0143】
これにより、ある分野の文書を収集する際に、その分野の文書群を正例文書群PSとし、他の残りの分野の文書群の和集合を負例文書群NSとして用いることができるため、負例文書群NSに関する処理が無駄にならないこととなる。
【0144】
また、第2実施形態の変形例によれば、ある分野の文書群D1を正例文書群PSとして、その分野に関する文書を収集する場合に注目すると、負例文書群NSとして用いられる他の分野の文書群が、正例文書群PSと比べ大きくなる。さらにまた、負例文書群NS自体も他の分野に関する文書群であるため、意味的に一定している。変形例ではない第2実施形態においてある程度以上収集が進むと、正例文書群PSが大きくなる一方で負例文書群NSから正例文書群PSに文書が移されることによって、例えば(5)式に示されるRscore(d,PS,S)の第2項が大きくなっていくこと態が生じうる。これによって、収集の精度が低下するる可能性があったが、変形例ではその可能性が低くなる。
【0145】
以下、図20及び図21を用いて、第2実施形態に係わる文書収集装置において特定分野に関する文書を収集する精度について説明する。図20に、ネットワークから収集した約670万URLの文書を全体集合Dとし、URLに「Linux」を含む15,000URLを正解例Lとし、任意に選択した約5,000URLを正例文書群PSそれ以外のURL(D−PS)を負例文書群NSを初期文書として、文書収集装置の収集精度を実験した結果を示す。
【0146】
図20において、横軸に収集のくり返し回数i、縦軸に適合率又は再現率を示す。再現率を折れ線、適合率を四角プロットで示す。ここで、i回目の繰り返しで得られた正例集合Siについての適合率及び再現率は、以下(7)式及び(8)式で示される。
【0147】
適合率=|Si∩L|/|Si| ・・・・(7)
再現率=|Si∩L|/|L| ・・・・(8)
つまり、適合率は、正例集合Si中の正例文書群Sに含まれる正解例Lの割合であり、対象としている分野に含まれない文書(いわゆるゴミ)の少なさを示す。再現率は、正解例L中の正例文書群Siに含まれる正解例Lの割合であり、対象としている分野に含まれる文書が収集されないこと(いわゆる漏れ)の少なさを示す。図20に示すように、繰り返し回数が73回程度になると、再現率が急激に低下するが、数十回の繰り返しでは、適合率、再現率とも良好であることが分かる。なお、繰り返し回数が73回程度になると再現率が低下する原因は、所謂ゴミがゴミをよぶためであると考えられる。
【0148】
図21に、URLに「What's New」を含む14,000URLを正解例Lとした場合に、同様の実験を行った結果を示す。図21に示すように、繰り返し回数が数回程度になると急激に適合率が低下している。これは、What's Newのようなコンテンツは、互いにあまり意味的な関連(つながり)が無いためと考えられる。
【0149】
図20に示す実験結果から、本実施形態に係わる文書収集装置によれば意味的に関連する文書群を効率よく収集することができることが分かる。
上述において説明した各サーバ及び各端末は、図22に示すような情報処理装置(コンピュータ)を用いて構成することができる。図22の情報処理装置300は、CPU301、メモリ302、入力装置303、出力装置304、外部記憶装置305、媒体駆動装置306、及びネットワーク接続装置307を備え、それらはバス308により互いに接続されている。
【0150】
メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)等を含み、処理に用いられるプログラムとデータを格納する。CPU301は、メモリ302を利用してプログラムを実行することにより、必要な処理を行う。
【0151】
上述の各サーバ及び各端末を構成する各機器及び各部は、それぞれメモリ302の特定のプログラムコードセグメントにプログラムとして格納される。入力装置303は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置304は、例えば、ディスプレイやプリンタ等であり、情報処理装置300の利用者への問い合わせ、処理結果等の出力に用いられる。
【0152】
外部記憶装置305は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置等である。この外部記憶装置305に上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ302にロードして使用することもできる。
【0153】
媒体駆動装置306は、可搬記録媒体309を駆動し、その記録内容にアクセスする。可搬記録媒体309としては、メモリカード、メモリスティック、フロッピー(登録商標)ディスク、CD−ROM(Compact Disc Read Only Memory )、光ディスク、光磁気ディスク、DVD(Digital Versatile Disk)等、任意の情報処理装置で読み取り可能な記録媒体が用いられる。この可搬記録媒体309に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ302にロードして使用することもできる。
【0154】
ネットワーク接続装置307は、LAN、WAN等の任意のネットワーク(回線)を介して外部の装置を通信し、通信に伴なうデータ変換を行う。また、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ302にロードして使用することもできる。
【0155】
図23は、図22の情報処理装置300にプログラムとデータを供給することのできる情報処理装置で読み取り可能な記録媒体及び伝送信号を示している。
なお、本発明は、情報処理装置により使用されたときに、上述の本発明の実施形態の各構成によって実現される機能と同様の機能を情報処理装置に行わせるための情報処理装置で読み出し可能な記録媒体309として構成することもできる。
【0156】
実施形態において各装置により行なわれる処理と同様のものを情報処理装置に行なわせるプログラムを、情報処理装置で読み取り可能な記録媒体309に予め記憶させておき、図23に示すようにしてその記録媒体309からそのプログラムを情報処理装置300に読み出させてその情報処理装置300のメモリ302や外部記憶装置305に一旦格納させ、その情報処理装置300の有するCPU301にこの格納されたプログラムを読み出させて実行させる。
【0157】
また、プログラム(データ)提供者310から情報処理装置300にプログラムをダウンロードする際に回線311(伝送媒体)を介して伝送される伝送信号自体も、上述した本発明の実施形態において説明した各装置に相当する機能を汎用的な情報処理装置で行なわせることのできるものである。
【0158】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではなく、他の様々な変更が可能である。
例えば、第1実施形態に係わる文書収集装置100と第2実施形態に係わる文書収集装置200とを組みせるように構成ことにより、コミュニティ向けに分野別に文書を収集させることとしてもよい。
【0159】
また、文書収集装置100又は200を構成する各部及び各DBは、お互いに連携して動作することにより一連のビジネスプロセスを実現する。これら各部及び各DBは同じサーバに設けられてもよいし、異なるサーバに設けられネットワークを介して連携して動作することとしてもよい。
【0160】
(付記1) ネットワークから文書を収集する文書収集方法であって、
前記文書の参照関係に基づいて、前記ネットワーク上のコミュニティ内から文書を所定数以上収集し、
前記コミュニティから前記第1の所定数以上の文書を収集した後、収集済み文書の参照関係に基づいて、前記コミュニティ内外から文書を収集する、
ことを特徴とする文書収集方法。
【0161】
(付記2) 前記収集済み文書群の参照関係及びネットワーク上の場所を示す情報に基づいて前記収集済み文書の重要さの度合いを示す重要度を算出し、
前記参照関係及び前記重要度に基づいて、収集すべき文書を決定する、
ことを特徴とする付記1記載の文書収集方法。
【0162】
(付記3) 前記収集すべき文書は、前記コミュニティ内外別に決定される、
ことを特徴とする付記2記載の文書収集方法。
【0163】
(付記4) 前記収集済み文書群を検索した結果を、前記コミュニティ内外に分けて提示する、
ことを特徴とする付記3記載の文書収集方法。
【0164】
(付記5) 前記コミュニティ内の文書であるか否かを前記ネットワーク上の場所を示す情報に基づいて判定する、
ことを特徴とする付記2記載の文書収集方法。
【0165】
(付記6) ネットワークから文書を収集する文書収集方法であって、
ある分野に関する文書群である正例文書群と、前記分野と関連が少ない分野に関する文書群である負例文書群とを与え、
前記正例文書群及び前記負例文書群の参照関係に基づいて、前記分野に関する収集すべき文書を決定し、
前記ネットワークから前記収集すべき文書を収集する、
ことを特徴とする文書収集方法。
【0166】
(付記7) 前記参照関係に基づいて、前記正例文書群の文書からのみ参照される度合いを示す参照度を算出し、
前記参照度が高い文書を前記収集すべき文書として決定する、
ことを特徴とする付記6記載の文書収集方法。
【0167】
(付記8) 前記参照関係に基づいて、前記正例文書群の文書を参照している収集済み文書から参照されている文書について、収集済み文書から参照される度合いを示す共参照度を算出し、
共参照度が高い文書を収集すべき文書として決定する、
ことを特徴とする付記6記載の文書収集方法。
【0168】
(付記9) 前記負例文書群は、複数の分野に関する文書群の和集合である、
ことを特徴とする、付記6記載の文書収集方法。
【0169】
(付記10) 前記収集済み文書で用いられている参照表現に基づいて、前記収集済み文書群をまとめあげる、
ことを特徴とする付記1記載の文書収集方法。
【0170】
(付記11) 前記収集済み文書で用いられている参照表現に基づいて、前記収集済み文書にキーワードを付与する、
ことを特徴とする付記1記載の文書収集方法。
【0171】
(付記12) 前記参照表現が参照先文書に関係なく使用される参照表現の場合、キーワードとしない、
ことを特徴とする付記11記載の文書収集方法。
【0172】
(付記13) 前記参照表現が参照する相異なる文書の数を計数し、
前記相異なる文書の数がある数以上である場合、前記参照表現をキーワードとしない、
ことを特徴とする付記11記載の文書収集方法。
【0173】
(付記14) 前記相異なる文書の数がある数未満である場合、各収集済み文書が前記参照表現によって参照されている回数である参照回数を計数し、
前記相異なる文書の数及び前記参照回数に基づいて、前記参照表現をキーワードとするか否か判定する、
ことを特徴とする付記11記載の文書集収集方法。
【0174】
(付記15) 前記参照表現に基づくキーワードに、前記収集済み文書の本文から抽出したキーワード及び前記収集済み文書のネットワーク上の場所を示す情報から抽出したキーワードを組み合せる、
ことを特徴とする付記11記載の文書集収集方法。
【0175】
(付記16) ネットワーク上のコミュニティに属する文書を検索する検索方法であって、
文書を検索するための情報をサーバに送信し、
前記検索するための情報に基づいて前記コミュニティ内外に分けて検索した文書を、前記コミュニティにとっての重要さの度合いを示す情報とともに受信する、
ことを特徴とする検索方法。
【0176】
(付記17) ネットワークから文書を収集する文書収集装置であって、
前記文書の参照関係に基づいて、次に収集すべき文書の候補である次収集候補を決定する次候補判定手段と、
前記文書のネットワーク上の場所を示す情報に基づいて前記文書が前記ネットワーク上のコミュニティ内の文書であるか否か判別するコミュニティ判別手段と、
前記ネットワークから前記次収集候補を収集する文書収集手段と、を備え、
前記文書収集手段は、前記コミュニティ内から所定数以上文書を収集した後、前記コミュニティ内外から文書を収集する、
ことを特徴とする文書収集装置。
【0177】
(付記18) ネットワークから文書を収集する文書収集装置であって、
ある分野に関する文書群である正例文書群及び前記分野と関連が少ない分野に関する文書群である負例文書群の参照関係に基づいて、次に収集すべき文書の候補である次収集候補を決定する次候補判定手段と、
前記ネットワークから前記次収集候補を収集する文書収集手段とを備える、
ことを特徴とする文書収集装置。
【0178】
(付記19) コンピュータに実行させることによって、ネットワークから文書を収集する制御を該コンピュータに行なわせるプログラムを記録した、コンピュータで読み取り可能な記録媒体であって、
前記文書の参照関係に基づいて、前記ネットワーク上のコミュニティ内から文書を所定数以上収集し、
前記コミュニティから前記第1の所定数以上の文書を収集した後、収集済み文書の参照関係に基づいて、前記コミュニティ内外から文書を収集する、
ことを含む制御をコンピュータに行なわせるプログラムを記録した記録媒体。
【0179】
(付記20) コンピュータに実行させることによって、ネットワークから文書を収集する制御を該コンピュータに行なわせるプログラムを記録した、コンピュータで読み取り可能な記録媒体であって、
ある分野に関する文書群である正例文書群及び前記分野と関連が少ない分野に関する文書群である負例文書群の参照関係に基づいて、前記分野に関する収集すべき文書を決定し、
前記ネットワークから前記収集すべき文書を収集する、
ことを含む制御をコンピュータに行なわせるプログラムを記録した記録媒体。
【0180】
(付記21) 搬送波に具現化された、ネットワークから文書を収集する制御をコンピュータに行わせるプログラムを表現するコンピュータ・データ・シグナルであって、前記プログラムは以下をコンピュータに実行させる、
前記文書の参照関係に基づいて、前記ネットワーク上のコミュニティ内から文書を所定数以上収集し、
前記コミュニティから前記第1の所定数以上の文書を収集した後、収集済み文書の参照関係に基づいて、前記コミュニティ内外から文書を収集する、
(付記22) コンピュータによって実行されることによって、ネットワークから文書を収集する制御を前記コンピュータに行わせるコンピュータ・プログラムであって、
前記文書の参照関係に基づいて、前記ネットワーク上のコミュニティ内から文書を所定数以上収集し、
前記コミュニティから前記第1の所定数以上の文書を収集した後、収集済み文書の参照関係に基づいて、前記コミュニティ内外から文書を収集する、
ことを含む制御を前記コンピュータに行わせることを特徴とするコンピュータ・プログラム。
【0181】
(付記23) コンピュータによって実行されることによって、ネットワークから文書を収集する制御を前記コンピュータに行わせるコンピュータ・プログラムであって、
ある分野に関する文書群である正例文書群と、前記分野と関連が少ない分野に関する文書群である負例文書群とを与え、
前記正例文書群及び前記負例文書群の参照関係に基づいて、前記分野に関する収集すべき文書を決定し、
前記ネットワークから前記収集すべき文書を収集する、
こと含む制御を前記コンピュータに行わせることを特徴とするコンピュータ・プログラム。
【0182】
【発明の効果】
以上詳細に説明したように、本発明は、ある用途向けの文書を収集する際に、文書間の参照関係に基づいて収集すべき文書を決定し、決定された文書を収集することにより、言語に依存すること無く、迅速に用途にあった文書を選択して収集することが可能となる。
【0183】
また、参照表現に基づいて、収集済み文書をまとめあげ、各収集済み文書にキーワードを付与することにより、収集済み文書へのアクセスを容易とすることが可能となる。また、文書本文の内容を解析しないため、言語に依存せず、迅速にキーワードを付与することが可能となる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】第1実施形態に係わる文書収集装置の構成図である。
【図3】URLテーブルのデータ構造の1例を示す図である。
【図4】参照関係テーブルのデータ構造の1例を示す図である。
【図5】参照表現テーブルのデータ構造の1例を示す図である。
【図6】参照回数テーブルのデータ構造の1例を示す図である。
【図7】第1実施形態に係わる文書収集装置が行う処理の大まかな流れを示すフローチャートである。
【図8】コミュニティ内の文書を収集する際に次収集候補を判定する処理を示すフローチャートである。
【図9】収集済み文書及び参照先文書をランキングする処理を示すフローチャートである。
【図10】収集済み文書を選別する処理を示すフローチャートである。
【図11】キーワード付与処理を示すフローチャートである。
【図12】収集した文書を提供する画面の1例を示す図である。
【図13】第2実施形態に係わる文書収集装置の構成図である。
【図14】LT(S)、LT(p)、LS(d,X)、LS(A,X)が意味する文書の参照関係を示す図である。
【図15】CC(d,A,X)が意味する文書の参照関係を示す図である。
【図16】第2実施形態に係わる文書収集装置が行う処理を示すフローチャートである。
【図17】参照度を算出する式に含まれる各集合が意味する参照関係を示す図である。
【図18】共参照度を算出する式に含まれる各集合が意味する参照関係を示す図である。
【図19】第2実施形態の変形例に係わる文書収集装置が行う処理を示すフローチャートである。
【図20】文書収集装置の収集精度の実験結果を示す図(その1)である。
【図21】文書収集装置の収集精度の実験結果を示す図(その2)である。
【図22】情報処理装置の構成図である。
【図23】情報処理装置にプログラムやデータを供給する記録媒体、伝送信号及び伝送媒体を説明する図である。
【符号の説明】
1、100、200 文書収集装置
2 文書収集手段
3 参照関係抽出手段
4 コミュニティ判別手段
5 次候補判定手段
6 ランキング手段
7 URL判定手段
8 参照度/共参照度算出手段
9 まとめあげ手段
10 キーワード付与手段
20 収集済み文書群
21 次収集候補
22 文書間参照関係
23 収集文書ファイル
101 文書収集部
102 参照関係抽出部
103 コミュニティ判別部
104 候補判定部
105 ランキング部
106 まとめあげ部
107 キーワード付与部
120 URLテーブル
121 参照関係テーブル
122 参照表現テーブル
123 参照回数テーブル
130 優良コンテンツ
140 検索エンジン
141 索引
150 分類エンジン
160 サーバ
170 ブラウザ
180、181、182 画面
201 参照度/共参照度テーブル
210 分野別優良コンテンツ
300 情報処理装置
301 CPU
302 メモリ
303 入力装置
304 出力装置
305 外部記憶装置
306 媒体駆動装置
307 ネットワーク接続装置
308 バス
309 可搬記録媒体
310 プログラム(データ)提供者
311 回線

Claims (10)

  1. コンピュータが、記録手段に記録された電子的な文書であって、前記記録手段から読み出すことによりネットワークを介して閲覧可能な文書を、前記ネットワークから収集する文書収集方法であって、
    前記文書は、自文書以外の他の文書についてのネットワーク上で文書を特定する情報を含み、
    前記ネットワーク上の所定の文書群に含まれる文書から、前記ネットワーク上で文書を特定する情報を抽出し、
    前記ネットワーク上で文書を特定する情報に基づいて、前記文書群内から前記他の文書を所定数以上収集し、
    前記文書群から所定数以上の文書を収集した後、収集済み文書から、他の文書についてのネットワーク上で文書を特定する情報を更に抽出し、
    前記更に抽出されたネットワーク上で文書を特定する情報に含まれる記号列に基づいて、文書の重要さの度合いを示す重要度であって、ネットワーク上で文書を特定する情報に含まれる記号列が、収集済みの文書についての、ネットワーク上で文書を特定する情報に含まれる記号列と類似する場合、低く算出される重要度を算出し、
    前記重要度に基づいて、次に収集すべき文書を決定し、
    前記文書群内外から前記次に収集すべき文書を更に収集する、
    ことを特徴とする文書収集方法。
  2. 前記ネットワーク上で文書を特定する情報は、URL (Uniform Resource Locator )であり、前記記号列が、前記URLに含まれるサーバアドレス、パス、ファイル名であることを特徴とする請求項1記載の文書収集方法。
  3. 前記重要度は、文書が他の文書から参照される回数に基づいて算出される、ことを更に含むことを特徴とする請求項1又は2記載の文書収集方法。
  4. 前記重要度は、重要度が高い文書から参照される文書の場合、高く算出される、ことを更に含むことを特徴とする請求項1乃至3のいずれか1項に記載の文書収集方法。
  5. 前記次に収集すべき文書は、前記文書群内外別に決定される、
    ことを更に含むことを特徴とする請求項1乃至4のいずれか1項に記載の文書収集方法。
  6. 前記収集済み文書を検索した結果を、前記文書群内外に分けて提示する、ことを更に含むことを特徴とする請求項1乃至5のいずれか1項に記載の文書収集方法。
  7. 前記収集済み文書から、自文書以外の他の文書についてのネットワーク上で文書を特定する情報の近傍にある文字列を抽出し、抽出された文字列が所定の文字列である場合、その文書とその文書から参照される他の文書を1つの文書にまとめ上げる、ことを特徴とする請求項1乃至のいずれか1項に記載の文書収集方法。
  8. 文書から抽出された、ネットワーク上で文書を特定する情報の近傍にある文字列に基づいて、前記ネットワーク上で文書を特定する情報によって特定される文書にキーワードを付与する、ことを特徴とする請求項1乃至のいずれか1項に記載の文書収集方法。
  9. コンピュータによって実行されることによって、記録手段に記録され、前記記録手段から読み出すことによりネットワークを介して閲覧可能な文書を、前記ネットワークから収集する制御を前記コンピュータに行わせるコンピュータ・プログラムであって、
    前記文書は、自文書以外の他の文書についての前記ネットワーク上で文書を特定する情報を含み、
    前記ネットワーク上の所定の文書群に含まれる文書から、前記ネットワーク上で文書を特定する情報を抽出し、
    前記ネットワーク上で文書を特定する情報に基づいて、前記文書群内から前記他の文書を所定数以上収集し、
    前記文書群から所定数以上の文書を収集した後、収集済み文書から、他の文書についての前記ネットワーク上で文書を特定する情報を更に抽出し、
    前記更に抽出されたネットワーク上で文書を特定する情報に含まれる記号列に基づいて、文書の重要さの度合いを示す重要度であって、ネットワーク上で文書を特定する情報に含まれる記号列が、収集済みの文書についての、ネットワーク上で文書を特定する情報に含まれる記号列と類似する場合、低く算出される重要度を算出し、
    前記重要度に基づいて、次に収集すべき文書を決定し、
    前記文書群内外から前記次に収集すべき文書を更に収集する、
    ことを含む制御を前記コンピュータに行わせることを特徴とするコンピュータ・プログラム。
  10. 記録手段に記録された電子的な文書であって、自文書以外の他の文書についてのネットワーク上で文書を特定する情報を含み、且つ、前記記録手段から読み出すことによりネットワークを介して閲覧可能な文書を、前記ネットワークから収集する文書収集装置であって、
    ネットワーク上の所定の文書群に含まれる文書から、前記ネットワーク上で文書を特定する情報を抽出する参照関係抽出手段と、
    前記ネットワーク上で文書を特定する情報に基づいて、前記文書群内から前記他の文書を所定数以上収集する文書収集手段とを備え、
    前記参照関係抽出手段は、前記文書群から所定数以上の文書を収集した後、収集済み文書から、他の文書についてのネットワーク上で文書を特定する情報を更に抽出し、
    前記文書収集手段は、前記更に抽出されたネットワーク上で文書を特定する情報に含まれる記号列に基づいて、文書の重要さの度合いを示す重要度であって、ネットワーク上で文書を特定する情報に含まれる記号列が、収集済みの文書についての、ネットワーク上で文書を特定する情報に含まれる記号列と類似する場合、低く算出される重要度を算出し、前記重要度に基づいて、次に収集すべき文書を決定し、前記文書群内外から前記次に収集すべき文書を更に収集する、
    ことを特徴とする文書収集装置。
JP2001379280A 2000-12-27 2001-12-12 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム Expired - Fee Related JP4094844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001379280A JP4094844B2 (ja) 2000-12-27 2001-12-12 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-397966 2000-12-27
JP2000397966 2000-12-27
JP2001379280A JP4094844B2 (ja) 2000-12-27 2001-12-12 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007287448A Division JP2008097626A (ja) 2000-12-27 2007-11-05 特定用途向けの文書収集方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2002259407A JP2002259407A (ja) 2002-09-13
JP4094844B2 true JP4094844B2 (ja) 2008-06-04

Family

ID=26606856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001379280A Expired - Fee Related JP4094844B2 (ja) 2000-12-27 2001-12-12 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム

Country Status (1)

Country Link
JP (1) JP4094844B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101159342B1 (ko) * 2004-10-15 2012-06-25 마이크로소프트 코포레이션 인트라넷 검색을 위한 방법 및 장치
US8595223B2 (en) 2004-10-15 2013-11-26 Microsoft Corporation Method and apparatus for intranet searching
JP4718205B2 (ja) * 2005-02-22 2011-07-06 三菱電機株式会社 選択的Web情報収集装置
WO2010041517A1 (ja) * 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報収集装置、検索エンジン、情報収集方法およびプログラム
JP5375065B2 (ja) * 2008-12-12 2013-12-25 富士ゼロックス株式会社 情報分析装置及びプログラム
JP5529790B2 (ja) * 2011-03-28 2014-06-25 Kddi株式会社 収集装置、収集方法及び収集プログラム

Also Published As

Publication number Publication date
JP2002259407A (ja) 2002-09-13

Similar Documents

Publication Publication Date Title
US8204881B2 (en) Information search, retrieval and distillation into knowledge objects
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US7225181B2 (en) Document searching apparatus, method thereof, and record medium thereof
US7917489B2 (en) Implicit name searching
US8037068B2 (en) Searching through content which is accessible through web-based forms
US6493702B1 (en) System and method for searching and recommending documents in a collection using share bookmarks
US9104772B2 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
US8051080B2 (en) Contextual ranking of keywords using click data
KR101393839B1 (ko) 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템
US20140344306A1 (en) Information service that gathers information from multiple information sources, processes the information, and distributes the information to multiple users and user communities through an information-service interface
US20070250501A1 (en) Search result delivery engine
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
CN100433007C (zh) 提供搜索结果的方法
US20090144240A1 (en) Method and systems for using community bookmark data to supplement internet search results
US11361036B2 (en) Using historical information to improve search across heterogeneous indices
US20080065632A1 (en) Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
WO2004099901A2 (en) Concept network
US7203673B2 (en) Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20200175081A1 (en) Server, method and system for providing information search service by using sheaf of pages
US20170091192A1 (en) Methods of furnishing search results to a plurality of client devices via a search engine system
WO2009079875A1 (en) Systems and methods for extracting phrases from text
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
WO2006094557A1 (en) Highlighting of search terms in a meta search engine
JP4094844B2 (ja) 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080306

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120314

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130314

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140314

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees