JP3571312B2 - リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム - Google Patents

リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム Download PDF

Info

Publication number
JP3571312B2
JP3571312B2 JP2001200106A JP2001200106A JP3571312B2 JP 3571312 B2 JP3571312 B2 JP 3571312B2 JP 2001200106 A JP2001200106 A JP 2001200106A JP 2001200106 A JP2001200106 A JP 2001200106A JP 3571312 B2 JP3571312 B2 JP 3571312B2
Authority
JP
Japan
Prior art keywords
document
sentence
link destination
link
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001200106A
Other languages
English (en)
Other versions
JP2003016082A (ja
Inventor
和弘 増田
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2001200106A priority Critical patent/JP3571312B2/ja
Publication of JP2003016082A publication Critical patent/JP2003016082A/ja
Application granted granted Critical
Publication of JP3571312B2 publication Critical patent/JP3571312B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、リンク集作成装置、リンク集作成方法、及びリンク集作成プログラムに関し、例えば、リンク先コンテンツの紹介文を自動生成するものに関する。
【0002】
【従来の技術】
インターネットでは、WWW(World Wide Web)上のサイトをURL(Uniform Resource Locator)によって指定することができる。即ち、ユーザは、クライアント端末装置に設置されているブラウザなどを用いてURLを指定することにより、当該URLにて特定されるサイトにクライアント端末装置を接続することができ、例えば、ホームページの閲覧など当該サイトによって提供されているサービスを受けることができる。
この仕組みを利用し、インターネットでは、ホームページ上にURLを記載することにより、サイト間にリンクを張ることができるようになっている。
ユーザは、ホームページ上に記載されたURLをマウスでクリックするなどすることにより、瞬時に当該URLで指定されるサイトにクライアント端末装置を接続することができる。
【0003】
さて、このようなインターネット上で容易にリンクを張ることができる機能を用いたものにディレクトリ型リンク集ページがある。
これは、URLをカテゴリ毎に分類し、ユーザが容易に所望のURLを検索することができるようにしたWebページである。
カテゴリの分類は、大きい区分から細かい区分へ階層的に区分されたディレクトリ構造となっており、ユーザは、ディレクトリのパスを辿っていくことにより、所望のサイトが存在するURLを得ることができる。
【0004】
図7は、ディレクトリ構造の一例を説明するための図である。
例えば、最上部のディレクトリに「教育」、「娯楽」、・・・、などのカテゴリがあったとする。最上部のディレクトリは、カテゴリの最も大きな区分を表している。
最上部のディレクトリは、更に細かい分類に区分され、ディレクトリ構造は木構造となっておる。そして、末端部は、当該カテゴリに属するサイトを特定するURLと当該サイトの紹介文となっている。
例えば、図7の例では、最上部のディレクトリには「教育」、「娯楽」、・・・、というカテゴリがある。「娯楽」の下には、更に「映画」、「スポーツ」、・・・、などのカテゴリがあり、「映画」の下には、更に「ホラー」、「コメディ」、・・・、などのカテゴリなどがある。
【0005】
ユーザは、コメディ映画に関するサイトを検索したい場合は、「娯楽」→「映画」→「コメディ」などとパスを辿っていく。すると、コメディ映画に関するコンテンツを有するサイトのURLの一覧が説明文と共に表示される。ユーザは、当該URLの紹介文を参照しながらアクセスするURLを、例えばマウス操作でクリックするなどして特定する。すると、当該URLで特定されるサイトにジャンプすることができる。
【0006】
従来、このようなディレクトリ型リンクページを作成する場合、ブラウザのブックマークを変換し、そしてcgi(Common Gateway Interface)スクリプトに、例えばサイトの説明文の入力などの必要項目を設定投入することにより作成されていた。
ここで、ブックマークとは、気に入ったサイトや頻繁にアクセスする特定のWebページのURLをブラウザなどに登録し、次回のアクセスを容易にする仕組みを言う。
【0007】
【発明が解決しようとする課題】
しかし、ブックマーク作成は1人による手作業である。また、cgiに対する設定は多人数で分業可能であるがこれも手作業である。
インターネットの普及と共にディレクトリ型リンク集に対する需要は増大しているが、このように手作業で作成、更新しなくてはならないため多額のメンテナンスコストがかかり、これが最大の問題点となっていた。
また、ロボット型検索を用いて全文検索を行うことにより、上記手作業の代用を行おうと試みた場合、例えばトップページに、実際のページ内容とは無関係なLinux、Java、UDDIなど時事キーワード多数を含めて検索結果画面の上位進出を狙うサイトがあるため、価値の低いページ(ノイズ)の混入が避けられず、完全な代用はできない。
【0008】
そこで、本発明の目的は、リンク集を自動作成することができるリンク集作成装置、リンク集作成方法、及びリンク集作成プログラムを提供することである。
【0009】
【課題を解決するための手段】
本発明は、前記目的を達成するために、請求項1に記載の発明では、文書ファイルを取得する文書取得手段と、前記取得した文書ファイルに含まれるリンク先特定情報を抽出するリンク先特定情報抽出手段と、前記抽出したリンク先特定情報で特定されるリンク先に含まれるリンク先文書を取得するリンク先文書取得手段と、前記取得した文書ファイルに含まれている文書から複数の紹介文候補を抽出する紹介文候補抽出手段と、前記抽出した各紹介文候補の前記取得したリンク先文書に対する類似度を算出する類似度算出手段と、前記算出した類似度を用いて紹介文を特定する紹介文特定手段と、を具備したことを特徴とするリンク集作成装置を提供する。
請求項2に記載の発明では、前記類似度算出手段が、前記リンク先文書の文書ベクトルと前記紹介文候補の文書ベクトルを用いて所定の演算を行うことにより前記類似度を算出することを特徴とする請求項1に記載のリンク集作成装置を提供する。
請求項3に記載の発明では、前記紹介文特定手段が、前記類似度が最も大きい前記紹介文候補を紹介文として特定することを特徴とする請求項1又は請求項2に記載のリンク集作成装置を提供する。
請求項4に記載の発明では、前記リンク先文書を要約して要約文を生成する要約手段を更に具備し、前記算出した類似度の内、最も大きいものが所定の閾値に達しない場合に、前記要約手段は、前記リンク先文書の要約文を生成し、前記紹介文特定手段は、前記要約手段が生成した前記要約文を紹介文として特定することを特徴とする請求項1又は請求項2に記載のリンク集作成装置を提供する。
請求項5に記載の発明では、前記リンク先文書を要約して要約文を生成する要約手段を更に具備し、前記算出した類似度の内、最も大きいものが所定の閾値に達しない場合に、前記要約手段は、前記リンク先文書の要約文を生成し、前記類似度算出手段は、前記生成した前記要約文に対する前記各紹介文候補の類似度を算出し、前記紹介文特定手段は、前記類似度が最も大きい紹介文候補を紹介文として特定することを特徴とする請求項1又は請求項2に記載のリンク集作成装置を提供する。
請求項6に記載の発明では、前記リンク先文書を要約して要約文を生成する要約手段を更に具備し、前記リンク先文書取得手段は、前記要約手段で生成した要約文をリンク先文書として取得することを特徴とする請求項1、請求項2又は請求項3に記載のリンク集作成装置を提供する。
請求項7に記載の発明では、前記紹介文特定手段にて特定した前記紹介文の内容から、当該紹介文が属するカテゴリを特定するカテゴリ特定手段と、前記紹介文に、当該紹介文に対応するリンク先特定情報と前記特定したカテゴリを関連けて出力する出力手段と、を更に具備したことを特徴とする請求項1から請求項6までの内の何れかの1の請求項に記載のリンク集作成装置を提供する。
請求項8に記載の発明では、前記出力手段が、前記紹介文を当該紹介文に対応したリンク先特定情報と共に所定のコンピュータ言語で記述したディレクトリ構造として出力し、前記ディレクトリ構造は、紹介文のカテゴリを階層的に配置したツリー構造を有していることを特徴とする請求項7に記載のリンク集作成装置を提供する。
また、請求項8に記載の発明は、前記出力手段が、紹介文のカテゴリを階層的に配置したディレクトリ構造を所定のコンピュータ言語にて記述して出力し、前記カテゴリには、当該カテゴリに関連付けられた前記紹介文及び当該紹介文に対応するリンク先特定情報が配置されていることを特徴とする請求項7に記載のリンク集作成装置として構成することも可能である。
ここで、所定のコンピュータ言語とは、例えばリンク集のディレクトリ構造を出力する言語である。
請求項9に記載の発明では、前記リンク先特定情報が、前記リンク先のサイトを特定するURLであることを特徴とする請求項1から請求項8までの内の何れかの1の請求項に記載のリンク集作成装置を提供する。
請求項10に記載の発明では、文書取得手段と、リンク先特定情報抽出手段と、リンク先文書取得手段と、紹介文候補抽出手段と、類似度算出手段と、紹介文特定手段と、を備えたコンピュータにおいて、前記文書取得手段で、文書ファイルを取得する文書取得ステップと、前記リンク先特定情報抽出手段で、前記取得した文書ファイルに含まれるリンク先特定情報を抽出するリンク先特定情報抽出ステップと、前記リンク先文書取得手段で、前記抽出したリンク先特定情報で特定されるリンク先に含まれるリンク先文書を取得するリンク先文書取得ステップと、前記紹介文候補抽出手段で、前記取得した文書ファイルに含まれている文書から複数の紹介文候補を抽出する紹介文候補抽出ステップと、前記類似度算出手段で、前記抽出した各紹介文候補の前記取得したリンク先文書に対する類似度を算出する類似度算出ステップと、前記紹介文特定手段で、前記算出した類似度を用いて紹介文を特定する紹介文特定手ステップと、から構成されたことを特徴とするリンク集作成方法を提供する。
請求項11に記載の発明では、文書ファイルを取得する文書取得機能と、前記取得した文書ファイルに含まれるリンク先特定情報を抽出するリンク先特定情報抽出機能と、前記抽出したリンク先特定情報で特定されるリンク先に含まれるリンク先文書を取得するリンク先文書取得機能と、前記取得した文書ファイルに含まれている文書から複数の紹介文候補を抽出する紹介文候補抽出機能と、前記抽出した各紹介文候補の前記取得したリンク先文書に対する類似度を算出する類似度算出機能と、前記算出した類似度を用いて紹介文を特定する紹介文特定機能と、をコンピュータに実現させるためのリンク集作成プログラムを提供する。
また、請求項7に記載の出力手段にて出力されたデータの内、少なくとも前記抽出したリンク先特定情報と、当該リンク先特定情報に関連付けられた第1の紹介文を格納する格納手段と、新規に取得した新規文書ファイルから、リンク先特定情報を抽出し、当該リンク先特定情報に関連付ける第2の紹介文を当該新規文書ファイルから抽出する新規紹介文抽出手段と、前記格納したデータから前記抽出した前記リンク先特定情報を検索する検索手段と、前記検索手段にて前記リンク先特定情報が検索された場合に、前記リンク先特定情報に関連付けられた第1の紹介文を取得する第1の紹介文取得手段と、前記第1の紹介文の類似度と前記第2の紹介文の類似度を比較する比較手段と、前記比較手段にて前記第2の紹介文の類似度の方が前記第1の紹介文の類似度よりも大きい場合に、前記格納手段にて格納した前記第1の紹介文を前記第2の紹介文にて置換する置換手段と、を更に具備したことを特徴とする請求項4に記載のリンク集作成装置を提供することも可能である。
【0010】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、図1から図5を参照して詳細に説明する。
図1は、本実施の形態に係るリンク集作成装置がリンク集を作成する方法を説明するための図である。
リンク集作成装置は、まずURL(Uniform Resource Locators)を含む電子メール、掲示板、ニュースグループの投稿などの文書ファイル(ドキュメント)5を取得する。
文書ファイル5に含まれるURLは、リンク集ページに掲載するURLとして使用し、文書ファイル5に含まれる文書は当該URLを紹介するための紹介文を作成する際に使用される。
これは、人から人へ伝達されたメッセージの本文中に含まれるURLは、紹介するだけの価値がある優良コンテンツである可能性が高い上、当該URLの前後には、紹介者が送信相手に興味を持ってもらおうと、それなりに工夫した紹介文が付いていることが期待できるためである。
【0011】
次に、文書ファイル5に含まれるURL7を抽出すると共に、URL7が記載されていた場所の近傍にある文書を文書6、6、6、…、に分解する。文書6、6、6、…、の内、URL7でリンクされるコンテンツの内容に最もマッチ(類似)したものをURL7の紹介文として使用する。
URL7の近傍の文書を分解するのは、URL7のリンク先を紹介する文書がURL7の近傍にあると予想されるためである。
【0012】
次に、文書ファイル5から抽出された文書6、6、6、…、のそれぞれの文書ベクトル10、10、10、…、を設定する。これは、後にURL7でリンクされるコンテンツについて得られた文書ベクトルと比較することによって、当該コンテンツの内容に最も類似した文書6、6、6、…、を特定するためである。文書ベクトルについては後程説明する。
【0013】
一方抽出されたURL7を用いてインターネットに接続し、リンク先のWebページのコンテンツに含まれる本文11を取得する。そして、本文の文書ベクトル12を設定する。
次に、文書ベクトル10、10、10、…、と文書ベクトル12を比較し、本文11の内容と最も類似した文書6、6、6、…、を特定する。
例えば、2つのベクトルが平行に近いほど2つの文書は類似している考えられる。このような性質を用いて文書の類似度を適当な方法で数値化し、数値(スコア)を比較することにより最も類似した文書6を特定することができる。
【0014】
比較の結果、本文11と最も類似していると判断された文書6は、URL7と共に文書データベース13に格納され、リンク集を作成する際のリンク先の説明文として使用される。
次に、各リンクの紹介文を文書分類器でカテゴリ毎にまとめて所定のコンピュータ言語、例えばHTML(Hypertext Markup Language)形式のファイル15として出力する。なお、本実施の形態では、リンク集ページをディレクトリ型リンク集ページとして作成した。
【0015】
図2は、本実施の形態に係るリンク集作成装置のシステム構成を概念的に示した図である。
なお、後に説明するように、本実施の形態におけるリンク集作成装置は一例としてパーソナルコンピュータ(以下PCと記す)にリンク集作成プログラムをインストールすることにより構成した。
図2に示したようにリンク集作成装置のシステムは、文書取得手段21、URL抽出手段22、文書分解手段23、紹介文決定手段24、本文取得手段27、文書データベース13、クラスタリング器33、文書分類器32、図示しない文書要約器などから構成されている。
【0016】
文書取得手段21は、URLを含んだ電子メール、掲示板、ニュースグループの投稿などの文書ファイル5を取得する手段であり、例えば、インターネットやLAN(Local Area Network)などのネットワークと接続する通信制御部とCPU(Central Processing Unit)などにより構成される。この他にも、文書ファイルを記憶した記憶媒体を駆動する記憶媒体駆動装置、紙面上などに記載された文書を読み取るスキャナなどで構成された文字認識装置などを使用することも可能である。
【0017】
URL抽出手段22は、文書中(テキスト中)のURLを検出して抽出する手段である。必要に応じて不要なURLの除去フィルタを設けることができる。例えばスパムメール(受信者に無差別に送信される勧誘や広告の電子メールなどの受信者にとって迷惑な電子メール)に対するフィルタは、インターネット上で公開されているブラックリストに記載されているURLなどを用いて構成することができる。
また、電子メールの差出人などの署名部分のURLはレイアウト解析器で除去する。
【0018】
文書分解手段23は、文書を当該文書を構成する文書に分解する手段であって、文書取得手段21が文書ファイル5を取得し、文書ファイル5を文書6、6、6、…、に分解する。
本実施の形態では、文書分解手段23は文書ファイル5に含まれているURLを検出し、当該URLの前後、所定の個数、例えば2個分の文を分解して抽出するように構成した。
なお、これに限定せず、文書ファイル5の全てを対象に分解作業を行うように構成することも可能である。
【0019】
本文取得手段27は、URL抽出手段22により取得したURLから実際のページ内容を取得し、文書データベース13に登録する。
即ち、URL抽出手段22により抽出されたURLを用いて、リンク先のコンテンツの本文11(テキスト)を取得し、これを文書データベース13に格納する手段である。本実施の形態では、例えば、インターネットと接続するための通信制御装置や文書データベース13を駆動する記憶媒体駆動装置などにより構成されている。
更に、例えば、コンテンツが磁気ディスクや半導体メモリなどの記憶媒体に格納されている場合は、当該記憶媒体の駆動装置にてコンテンツを取得するように構成することもできる。
【0020】
また、本文取得手段27の使用に際しては、全対象ページの文書データベース13をまず作成するようにする。即ち、リンク集ページを作成するために多数の文書ファイル5、5、5、・・・、から多数のURLを抽出するが、これらリンク集ページ作成の対象となる全てのURLに対して本文11、11、11、・・・、を収集し、予め文書データベース13に格納しておく。
これは、文書データベース13のターム出現頻度などの統計情報が後に文書6、6、6、…、と本文11の類似度判定を行う際に必要になるためである。
【0021】
紹介文決定手段24は、本文11に最も類似した文書6を選択し、これを文書データベース13に格納する手段である。紹介文決定手段24にて選択された文書6は、URLの紹介文として使用される。そのため、紹介文決定手段24は、選択した文書6を対応するURLと関連付けて文書データベース13に格納する。
なお、本実施の形態では、文書ベクトルを用いて本文11と文書6、6、6、…、の類似度を判断することとした。
即ち、紹介文決定手段24は、文書6、6、6、…、のそれぞれの文書ベクトル10、10、10、…、と本文11の文書ベクトル12を設定し、本文11と各文書ベクトル10、10、10、・・・、に所定の演算を施して類似度を求める。そして、類似度が最も大きい文書ベクトル10をもって紹介文とし、これを文書データベース13に格納する。
なお、本実施の形態では、後に説明するTF*IDFスコアを用いて類似度を数値化した。
また、紹介文決定手段24は、本文取得手段27にて文書データベース13に格納さた本文11を用いて文書ベクトル12を設定する。
【0022】
文書データべース13は、本文取得手段27にて取得した文書や紹介文決定手段24から取得した紹介文などを格納するためのデータベースである。
文書データベース13には、URL抽出手段22にて抽出されたURL、当該URLによりリンクするページのページ内容(本文11)、当該ページの名称、当該ページの紹介文などが格納されている。これらのデータは、URL毎に互いに関連付けられて格納されている。即ち、URLを特定すると当該URLにて指定される本文11、及び当該本文11が掲載された当該ページの名称、当該URLの紹介文などが特定できるようになっている。
【0023】
クラスタリング器33は、複数の文書からなる文書集合を、内容が似ているもの同士でグループ分け(クラスタリング)するものである。内容が似ているもの同士がグループとなるため、各グループに分類された文書は同一のカテゴリに属するものと考えることができる。そして、各グループに特徴的に出現する言葉を調べることにより、これらの言葉を文書分類器32の教師データとして使用することができる。なお、教師データとは、文書分類器32に文書分類を機械学習させるための正解データとして使用されるデータである。
【0024】
例えば、あるグループに属する文書を調べた結果、学校名や「教育委員会」、「学級」、「数学」、「進学率」、「生徒」、「先生」、「校長」、「教育現場」、・・・、などの単語が特徴的に高い確率で出現する場合、当該グループは教育に関するカテゴリに属すると推定される。これらカテゴリを特徴付ける言葉(教師データ)を文書分類器32に学習させることにより、文書分類器32は、被分類文書中に出現する言葉を分析して当該被分類文書の属するカテゴリーを推定することができる。
【0025】
クラスタリング器33で生成するカテゴリ数は、予めユーザが設定することができる。例えば、カテゴリ数としてユーザが100を設定した場合、クラスタリング器33は、文書集合を100のグループにクラスタリングする。
クラスタリング器33は、内容が類似した文書を判別してグループを作成するため、カテゴリとして何が入っているかわからない文書の集合でも、文書間類似度によって文書をクラスタリングすることができるという利点がある。
更に詳細に述べると、クラスタリングの結果は木構造となり、枝の末端は個々の文書となっている。木構造の枝はカテゴリに対応し、枝に所属する文書は、そのカテゴリの教師データとして、文書分類器32の学習に使用される。
【0026】
文書分類器32は、文書データベース13に格納された紹介文を教師データを用いて何れのカテゴリに属するか判断して分類し、ディレクトリ型リンク集ページをHTML形式のファイルとして作成して出力する手段である。出力先は、例えば、ハードディスク、光磁気ディスク、半導体メモリなどの記憶媒体やネットワークを介して接続された他の端末装置などである。
文書分類器32は、文書に出現する単語と特定のカテゴリに出現する頻度が高い単語とを比較し、当該文書の属するカテゴリを判断する。先に述べたように特定のカテゴリに出現する頻度が高い単語は教師データを用いて文書分類器32に学習させておく。
【0027】
より詳細に述べると、例えば、それぞれの語(単語・複合語)について、全体におけるの語出現確率と、教育カテゴリ中の語出現確率を統計的に算出しておけば、「教育」のカテゴリに特徴的に出現する語が特定できる。
分類対象の文書に出てくる語の1つ1つについて、カテゴリ毎の出現確率を教師データから求めておけば、文書全体で、どのカテゴリに属すると仮定するのが、最も合理的なのか確率的に計算することが可能である。
【0028】
図示しない文書要約器は、本文11に出現する重要語を基に、本文11の要約を作成するものである。紹介文決定手段24は、本文11と文書6、6、6、・・・、の類似度の内、最も高い類似度が所定の閾値(予め設定された一定のスコア)に達しなかった場合は、本文11を文書要約器にて要約したものを紹介文として採用する。
【0029】
ここで、紹介文決定手段24にて使用した文書ベクトルについて説明する。
文書中に出現する確率の高い単語は当該文書の属するカテゴリにより偏りがある。例えば、教育に関する文書の場合、学校名や「教育現場」、「進学率」などの教育に関する単語の出現確率が高くなり、映画に関する文書の場合、監督名、俳優名、映画タイトルや「撮影」、「映画館」などの映画に関する単語の出現確率が高くなる。このように、予め特定のカテゴリに特有な単語を重要語としてデータベース化しておき、文書に出現する単語とデータベース化された重要語とを比較することにより、当該文書のカテゴリを推定することができる。
【0030】
文書ベクトルの次元はカテゴリを区別するために採用した重要語の数となる。例えば、教育カテゴリに属する文書と映画カテゴリに属する文書の集合体があって、これを教育カテゴリと映画カテゴリに分類したいとする。教育に関する重要語がN1個あり、映画に関する重要語がN2個あった場合、文書ベクトルはN1+N2次元空間内のベクトルとして表される。そして、教育に関する文書の文書ベクトルは、共にほぼ同様の方向を指し、また、絵画に関する文書の文書ベクトルも共にほぼ同様の方向を指すと考えられ、これによって各文書の属するカテゴリを推定することができる。
【0031】
更に、詳細に述べると、まず文書ベクトルを設定しようとする文書中から予めデータベース化してある重要語(教師データ)を自動抽出する。そして、当該文書の文書ベクトルを、例えば出現回数など所定の方法で重み付けした重要度f(x)を成分とするベクトルで表す。xは重要語である。
【0032】
仮に、文書ベクトルを表現する空間の座標軸を、教育現場、進学率、撮影、映画館の4つの重要語で構成したとする。例えば、教育に関する文書Aを解析した場合、f(教育現場)=16、f(進学率)=12、f(撮影)=1、f(映画館)=0などと、教育関係の単語に関する成分が大きくなり、文書Aの文書ベクトルは(16、12、1、0)となる。
このように、文書ベクトルの方向と大きさは、当該文書のカテゴリを設定する際の指標とすることができる。
【0033】
本実施の形態では、2つの文書の類似度を数値化する方法として、TF*IDFスコアを用いた。
TF(Term Frequency)は、該当文書中に、所定の語が出現した回数を表し、IDF(Inverse Document Frequency)は以下の式1で表される値を表す。
log(全体文書数/該当語を含む文書数)+1…(式1)
TF*IDFは、TFとIDFの積である。この値が大きい語ほど、文書全体の中から特定文書を弁別できることを意味し、TF*IDFを文書ベクトルの成分の重みとして採用することができる。
TF*IDFスコアと言うのは、2つの文書ベクトルにTF*IDFの重みを持たせて例えば、内積などで求めた類似度スコアである。
【0034】
更に、TF*IDFスコアを内積によって求める場合は、以下のようになる。
内容が同じカテゴリに関して書かれた文書の文書ベクトルは互いに平行に近くなる傾向がある。文書ベクトル間の角度は通常のベクトルと同様にして求めることができる。即ち、2つのベクトルの成す方向余弦(cosθ)は、当該2つの文書ベクトル内積を求め、これをそれぞれの文書ベクトルの絶対値で除することにより求めることができる。この方向余弦の値から2つの文書ベクトルの成す角度(θ)を求めることができる。
なお、文書の類似度の判定法は、これに限定するものではなく、他の方法を用いても良い。
【0035】
図3は、本実施の形態のリンク集作成装置が接続されるネットワークの構成の一例を示した図である。
当該ネットワークは、メールサーバ62、Webサーバ63、端末装置64、64、64、…、などがインターネット61に接続可能に配設されることにより構成されている。
インターネット61は、公衆回線、光ファイバ網、衛星通信回線、移動体端末装置用無線回線などの通信回線が接続されることにより構成されている。
【0036】
メールサーバ62は、端末装置64から電子メールのアップロードを受付、宛先の端末装置64が接続した際に、当該電子メールを宛先の端末装置64にダウンロードする。これによって、1のユーザから他のユーザに電子メールを送信することができる。なお、メールサーバの機能を単純化して説明したものであって、実際は、アップロード用のサーバ装置やダウンロード用のサーバ装置が複数台あり、電子メールのデータをサーバ装置間で転送しながら、所定のユーザにこれを配信している。
【0037】
リンク集作成装置は、メールサーバ62から紹介文を作成するための文書ファイル5を取得することができる。
Webサーバ63は、端末装置64、64、64、…、に対してHTML形式のファイルなどをダウンロードするサーバ装置である。図3では、Webサーバ63は、1台のみ示してあるが、実際は複数のWebサーバがインターネット61に接続しており、ユーザは、端末装置64、64、64、…、からURLを入力することにより、Webサーバ63と当該Webサーバ63からダウンロードするHTML形式のファイルを特定することができる。
【0038】
リンク集作成装置は、URL抽出手段22により抽出したURLを用いて所定のWebサーバ63から紹介文を決定する際に使用する本文11をダウンロードすることができる。
Webサーバ63が掲示板機能を提供している場合は、リンク集作成装置は当該掲示板から紹介文を作成するための素材である文書ファイル5を取得することも可能である。
【0039】
端末装置64、64、64、…、は、例えばPCなどを用いて構成されたクライアント端末装置であって、インターネット61を介してメールサーバ62、Webサーバ63などと接続可能に構成されている。
端末装置64は、リンク集作成プログラムなどを備えることにより、リンク集作成装置として機能させることができる。
リンク集作成機能を持った端末装置64は、インターネット61を介して、紹介文を作成するための素材である、URLを含んだ文書ファイル5(電子メール、ニュースグループの投稿文書、掲示板の文書など)や、Webページの本文11を取得することができる。
【0040】
なお、端末装置64は、PCの他にも例えばインターネット接続可能なワードプロセッサ、インターネット接続可能なテレビ、移動体端末装置、などにより構成することも可能である。
また、端末装置64は、LAN(Local Area Network)、WAN(World Area Network)などを介してインターネット61に接続するように構成しても良い。
【0041】
図4は、リンク集作成装置40の具体的な構成の一例を示した図である。
本実施の形態では、リンク集作成装置をPCを用いて構成した。
リンク集作成装置40は、システム全体を制御するための制御部41を備えている。
そして、制御部41は、CPU42、ROM(Read Only Memory)43、RAM(Random Access Memory)44などから構成されている。
ROM43は、CPU42が各種演算や制御を行うための各種プログラムやデータを格納したリードオンリーメモリである。CPU42は、ROM43からプログラムやデータを読み込むことはできるが、これらを書き換えたり消去することはできない。
【0042】
RAM44は、CPU42にワーキングメモリとして使用されるランダムアクセスメモリである。CPU42は、RAM44にプログラムやデータなどを書込んだり消去したりすることができる。本実施の形態では、RAM44には、文書分解処理、文書べクトル設定処理、クラスタリング処理、ディレクトリ型リンク集ページ作成処理などの各種処理を行うためのエリアが確保可能となっている。
【0043】
制御部41には、バスライン49を介してキーボード45、マウス46、表示装置47、印刷装置48、記憶装置53、記憶媒体駆動装置57、入出力インターフェース58、文字認識装置59などが接続されている。
キーボード45は、ユーザがユーザがカテゴリ数を手動で設定する場合にカテゴリ数を入力したり、又はその他の文字や情報を入力するためのデバイスである。キーボード45は、カナや英文字などを入力するためのキーや数字を入力するためのテンキー、各種機能キー、カーソルキー及びその他のキーによって構成されている。
【0044】
マウス46は、ポインティングデバイスであって、表示装置47上に表示されたボタンやアイコンをクリックすることにより、所定の機能の指定を行う入力装置である。
表示装置47は、例えば例えばCRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、プラズマディスプレイなどで構成される。
表示装置47には、例えば、インターネットを介してサーバ装置から送られてきた各種画面や電子メール、リンク集作成装置40にて作成されたディレクトリ型リンク集ページなどをユーザに対して表示する。
【0045】
印刷装置48は、文書6、6、6、…、や画像などを紙などの印刷媒体に印刷するデバイスであって、例えば、インクジェットプリンタ、レーザプリンタ、熱転写プリンタ、ドットプリンタなどの各種プリンタ装置によって構成されている。
通信制御部50は、CPU42にコントロールされながらWebサーバやメールサーバなどとリンク集作成装置40を接続するための制御装置である。
通信制御部50を介して、説明文を作成する素材である文書ファイル5を取得したり、URL抽出手段にて抽出されたURLにて指定されるサイトから本文11を取得したりすることができる。
【0046】
記憶装置53は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータを読み書きするための駆動装置によって構成されている。この記憶媒体として主にハードディスクが使用されるが、その他に、例えば、光磁気ディスク、磁気ディスク、半導体メモリなどの他の読み書き可能な記憶媒体によって構成することも可能である。
記憶装置53には、リンク集作成処理プログラム54、文書データベース13、ブラウザ、OS(Operating System)、インターネット接続プログラムその他のプログラムやデータベースなどが格納されている。
【0047】
リンク集作成プログラム54は、リンク集作成装置40が、ディレクトリ型リンク集ページを作成するための機能を実現するためのプログラムである。
リンク集作成プログラム54が起動される場合は、全部又は動作に必要な部分がRAM44にロードされる。CPU42は、RAM44にロードされたリンク集作成プログラム54をレジスタ(CPU42内のメモリ)に読み込んでこれに従って動作し、図2に示した文書取得手段21、URL抽出手段22、文書分解手段23、紹介部決定手段24、本文取得手段27、クラスタリング器33、文書分類器32などの機能を実現する。
【0048】
ブラウザは、HTML形式のファイル(HTML言語によって表示装置47に表示する画面やリンク先などが記述されている)を用いて表示装置47に所定の画面を表示したり、表示された画面に対してユーザが入力したデータをネットワーク接続したサーバ装置に送信したりなどする機能を実現するためのプログラムである。ブラウザで表示されるHTML形式のファイルは、例えば、リンク集作成装置40とネットワーク接続されたサーバ装置からダウンロードしたり、記憶媒体などから取得する。CPU42は、ブラウザが持つ機能を実現することにより、文書分類器32が作成したディレクトリ型リンク集ページを表示装置47に表示することができる。
【0049】
OSは、リンク集作成装置40(本実施の形態ではPC)を動作させるための基本的なプログラムであり、例えばGUI(Graphical User Interface)にて、ユーザがリンク集作成装置40を操作できる環境を実現することができる。
インターネット接続プログラムは、通信制御部50を介してCPU42をインターネットに接続し、インターネット上に設置されたWebサーバやメールサーバなどとデータの送受信を制御する機能を実現するためのプログラムである。
【0050】
記憶媒体駆動装置57は、CPU42が外部の記憶媒体からコンピュータプログラム、紹介文を作成するための素材である電子メールなどの文書ファイル5やその他のデータが記憶された着脱可能な記憶媒体を駆動するための駆動装置である。
この着脱可能な記憶媒体としては、磁気ディスク、光磁気ディスク、半導体メモリなどの読み書き可能な媒体が使用され、この記憶媒体にリンク集作成プログラム54や文書データベース13、文書分類器32が作成したディレクトリ型リンク集ページ31を表示するためのデータなど格納することも可能である。
また、CD−ROMなどの読み出しのみ可能な記憶媒体を駆動することも可能である。
【0051】
入出力インターフェース58は、例えば、シリアルインターフェースやその他の規格のインターフェースにより構成されており、リンク集作成装置40と外部の機器を接続するためのインターフェースである。入出力インターフェース58により、例えばジョイスティックやマイクロフォンなどの入力装置や、スピーカなどの出力装置、或いは、記憶媒体駆動装置などの入出力装置などを接続し、リンク集作成装置40と外部機器との入出力を行うことができる。
文字認識装置59は、紙などの印刷媒体などに記載されたテキスト文書やHTML文書を読み取って認識する装置であって、イメージスキャナや文字認識プログラムなどに構成されている。文字認識装置59により、用紙などに印刷された文書ファイル5をリンク集作成装置40に入力することが可能である。
【0052】
図5は、リンク先作成装置40がリンク先ページを作成する手順を示したフローチャートである。
まず、ユーザはリンク先作成装置40をメールサーバ62やWebサーバ63などに接続し、文書取得手段21によってURLを含んだ文書ファイル5を取得する(ステップ10)。文書ファイル5は、リンク先サイトの紹介文を作成するための素材となる。また、必要に応じて文書ファイル5を記憶装置53に格納しておくこともできる。
【0053】
次に、文書取得手段21にて取得した文書ファイル5からURLを抽出する(ステップ15)。このとき、スパムメールなどはフィルタを用いて取り除き、署名欄はレイアウト解析器にて取り除く。
また、URL抽出手段22は、検出したURLを文書データベース13に問い合わせる。問い合わせの結果、当該URLにて特定される本文11が文書データベース13内に既存であることが確認できた場合、次に述べる本文取得手段27による本文11の取得は行わず、文書データベース13に格納されている本文11を用いて作業を行う。
【0054】
本文取得手段27が、URL抽出手段22にて抽出されたURLにて特定されるサイトから本文11を取得し、これを文書データベース13に格納する(ステップ20)。この段階では当該サイトに対する紹介文は未決定である。
次に、文書分解手段23が、文書ファイル5中のURLを検出し、URL前後の自然文を規定文数だけ紹介文候補として抽出する(ステップ30)。
【0055】
次に、紹介文決定手段24が、文書分解手段23で得た各候補文と文書データベース13に格納した本文11との類似度を計算する(ステップ35)。
ステップ35における類似度の計算は、文書6、6、6、…、に対する文書ベクトル10、10、10、…、と本文11に対する文書ベクトル12を設定し、これらに対して所定の演算を施すことにより類似度が数値化される。
【0056】
次に、紹介文決定手段24は、類似度が最も大きい文書6を特定した後、当該文書6の類似度が所定の閾値に達しているかどうかを判断する(ステップ40)。
類似度が所定の閾値に達している場合は(ステップ40;Y)、紹介文決定手段24は、当該文書6を紹介文として対応するURLと共に文書データベース13に出力する。
類似度が所定の閾値に達していない場合は(ステップ40;N)、文書要約器が起動して本文11の要約文を生成する(ステップ45)。文書要約器は生成した要約文を紹介文として対応するURLと共に文書データベース13に出力する。
【0057】
文書分類器32は、紹介文をURLと共にカテゴリ毎にまとめて(ステップ50)、HTMLファイルにて出力する(ステップ55)。
なお、入力テキストを追加する場合、文書データベース13の統計情報が十分であれば、上記のステップ10からステップ20までを省略でき、文書データベース13に格納されているデータを用いてステップ25以下を行うことが可能である。
【0058】
以上、本実施の形態では、文書分類器32が、HTMLファイルにてリンク集ページを出力するように構成したが、これはリンク集ページを作成するコンピュータ言語をHTMLに限定するものではなく、例えばJava、JavaScript、XML(Extensible Markup Language)、Perl、XHTML(Extensible Hypertext Markup Language)その他のコンピュータ言語を用いて作成しても良い。Java、JavaScriptを用いてリンク集ページを構成すると、初期画面でディレクトリの階層のトップだけが表示され、マウスなどでフォーカスを移動すると階層の下が展開されるといった動的なページ表現を行うことが可能である。
【0059】
また、本実施の形態では、文書ファイル5からURL抽出手段22にてURLを抽出した後、文書分解手段23にて文書ファイル5を文書6、6、6、…、に分解したが、これに限定するものではなく、URLの抽出と文書ファイル5の分解を同時に行っても良いし、又は、文書ファイル5を分解した後にURLを抽出するように構成することもできる。
文書ファイル5を分解した後にURLを抽出する場合は、例えば、文書ファイル5の全てを分解し、分解後にURL近傍の文書6、6、6、・・・、を抽出するようにすることができできる。
【0060】
本実施の形態では、ディレクトリ型リンク集ページを作成したが、これに限定するものではなく、ディレクトリ型でないリンク集ページを作成するように構成することもできる。
また、リンク集ページに限らず、例えばユーザが入力したキーワードにヒットする紹介文及びURLを文書データベース13から検索するように構成することもできる。
また、本実施の形態では、リンク集作成プログラムをクライアント端末装置であるPCに設置したが、これに限定するものではなく、例えば、Webサーバ装置に設置してサーバ上でリンク集ページを作成し、クライアント端末装置から当該リンク集ページを利用できるように構成しても良い。
【0061】
以上に述べた本実施の形態では、以下のような効果が得られる。
電子メール、掲示板、ニュースグループの投稿に埋もれている、人から人へ紹介されたURL情報を、利用しやすいディレクトリ型リンク集に加工する処理を自動的に行うことができる。
メーリングリスト、掲示板、ニュースグループのアーカイブなど、特定の読者層を対象にした大量のテキストデータから、上記URLと紹介文の組を抽出し、分類配置することができる。
リンク作成者の作業は、最初の分類カテゴリ作成だけで、リンク集メンテナンス作業から開放される。
通常の自然文によるURL紹介メッセージを投稿するだけで、二次加工されて情報活用されるので、投稿者への動機付けとなり、このシステムを採用したメーリングリスト、掲示板の投稿活動が活性化される。
【0062】
(実施の形態の変形例1)
上記、実施の形態では、文書分類器32に与える教師データは、クラスタリング器33が作成し、文書分類器32に与えたが、これは、ユーザが作成して文書分類器32に与えることもできる。
この場合は、例えば「教育」に関連するURLを100個、「映画」に関連するURLを100個、…、などと各カテゴリに属するURLをインターネット上でディレクトリサービスを行っている既存のサイトから集めて来る。そして、これらのURLにて指定されるサイトに掲載されている文書も集める。
即ち、所定のカテゴリに属することがわかっているデータを適当な数だけ集めるのである。そして、これらのデータを、文書分類器32に学習させるための教師データとして使用することができる。
【0063】
変形例1では、リンク集作成装置40がクラスタリング器33を装備していない場合でもリンク集を作成することができる。
【0064】
(本実施の形態の変形例2)
本変形例は、既に作成してあるリンク集ページに掲載されている紹介文よりも、より本文に類似した紹介文を取得した場合に、前者の紹介文を後者の紹介文で置き換えることによりリンク集ページを更新するものである。システム的には図2のシステム構成に紹介文更新手段を追加する。
【0065】
文書データベース13には、前回にリンク集ページを作成した際のデータ(URL、紹介文など)が格納されているものとする。
文書6、6、6、…、からURLの紹介文を決定するところまでは実施の形態と同じである。このように新たに取得したURLと紹介文をそれぞれ新規URL、新規紹介文と呼ぶことにする。
紹介文更新手段は、まず、新規URLと同じURLが存在するかどうか文書データベース13を検索する。
【0066】
同じURLが存在しなかった場合は、紹介文更新手段は、新規URLと新規紹介文を文書データベース13に追加する。
後は、実施の形態と同様にしてクラスタリング器33や文書分類器32などを用いてディレクトリ型リンク集ページ31を生成する。
【0067】
同じURLが存在する場合は、紹介文更新手段は、既に文書データベース13に格納されている当該URLに係る紹介文(旧紹介文と呼ぶことにする)の文書ベクトルと新規紹介文の文書ベクトルを生成して本文11との類似度を比較する。
類似度の比較の結果、新規紹介文の方が旧紹介文よりも本文11に類似していた場合は、紹介文更新手段は、文書データベース13内の旧紹介文を新規紹介文で置き換える。
【0068】
類似度比較の結果、旧紹介文の方が新規紹介文よりも本文11に類似している場合は、紹介文更新手段は、文書データベース13内の旧紹介文をそのまま保持する。
以上に示したように、紹介文更新手段を起動することにより文書データベース13内の紹介文は、より適切にリンク先を紹介する紹介文に更新することができる。そして、更新後に文書分類器32を起動してディレクトリ型リンク集ページ31を新たに生成することにより、ディレクトリ型リンク集ページを更新することができる。
【0069】
(本実施の形態の変形例3)
本変形例は、紹介文決定手段24にて計算した文書6、6、6、…、の本文11に対する類似度の内、最も大きいものが所定の閾値に達しなかった場合に、本文11を文書要約器にて生成した要約文を用いて文書6、6、6、…、類似度を計算するものである。
これは、文書要約器にて本文11を要約することにより、文書6、6、6、・・・、との類似度を高めることが期待できるためである。
これは、本文11を要約することにより、本文11の要旨と関係の無い部分がカットされるため、要旨と関係の無い部分に含まれる言葉によるベクトル成分の文書ベクトルに対する寄与が少なくなるためである。
【0070】
図6は、本変形例において、リンク先作成装置40がリンク先ページを作成する手順を示したフローチャートである。
図5のフローチャートと対応するステップには、同じステップ番号を付してある。
ステップ10からステップ35までは、発明の実施の形態と同じである。
紹介文決定手段24は、文書6、6、6、…、の本文11に対する類似度を計算した後、最も大きい類似度が所定の閾値に達しているか否かを判断する(ステップ40)。
類似度が所定の閾値に達している場合は(ステップ40;Y)、紹介文決定手段24は、当該文書6を紹介文として対応するURLと共に文書データベース13に出力する。
【0071】
類似度が所定の閾値に達していない場合は(ステップ40;N)、文書要約器が起動して本文11の要約文を生成する(ステップ45)。
文書要約器は、生成した要約文を文書データベース13に出力する。紹介文決定手段24は、文書データベース13から当該要約文を取得し、これを新たな文書11として文書6、6、6、…、の当該要約文に対する類似度を計算する(ステップ35)。
以下、類似度が所定の閾値に達するまで、ステップ35、40、45を繰り返す。
類似度が所定の閾値に達した場合は、文書6、6、6、…、から最も類似度が大きかった文書がリンク先のサイトの紹介文となる。
【0072】
以上の構成は、ステップ35、40、45を所定の回数だけ繰り返しても類似度が閾値に達しなかった場合は、文書要約器にて本文11を要約したものを紹介文とするように構成しても良い。
また、本文取得手段27にて取得した本文11を、まず文書要約器にて要約した後、当該要約後の本文に対する文書6、6、6、…、の類似度を算出するように構成することもできる。
【0073】
変形例3によれば、たとえ文書6、6、6、…、の本文11に対する類似度が所定の類似度に達しない場合でも、本文11の内容に最も類似すると思われる文書6を紹介文として採用することができる。
【0074】
【発明の効果】
本発明によれば、リンク集を自動作成作成することができる。
【図面の簡単な説明】
【図1】リンク集作成装置がリンク集を作成する方法を説明するための図である
【図2】リンク集作成装置のシステム構成を概念的に示した図である。
【図3】本実施の形態のリンク集作成装置が接続されるネットワークの構成の一例を示した図である。
【図4】リンク集作成装置の具体的な構成の一例を示した図である。
【図5】リンク集作成装置がリンク先ページファイルを作成する手順を示したフローチャートである。
【図6】変形例3に係るリンク集作成装置がリンク先ページファイルを作成する手順を示したフローチャートである。
【図7】ディレクトリ構造の一例を説明するための図である。
【符号の説明】
5 文書
6 文書
7 URL
10 文書ベクトル
11 本文
12 文書ベクトル
13 文書データベース
15 ファイル
21 文書取得手段
22 URL抽出手段
23 文書分解手段
24 紹介文決定手段
27 本文取得手段
31 ディレクトリ型リンク集ページ
32 文書分類器
33 クラスタリング器
40 リンク集作成装置
41 制御部
42 CPU
43 ROM
44 RAM
45 キーボード
46 マウス
47 表示装置
48 印刷装置
50 通信制御部
53 記憶装置
54 リンク集作成プログラム
57 記憶媒体駆動装置
58 入出力インターフェース
59 文字認識装置
61 インターネット
62 メールサーバ
63 Webサーバ
64 端末装置

Claims (11)

  1. 文書ファイルを取得する文書取得手段と、
    前記取得した文書ファイルに含まれるリンク先特定情報を抽出するリンク先特定情報抽出手段と、
    前記抽出したリンク先特定情報で特定されるリンク先に含まれるリンク先文書を取得するリンク先文書取得手段と、
    前記取得した文書ファイルに含まれている文書から複数の紹介文候補を抽出する紹介文候補抽出手段と、
    前記抽出した各紹介文候補の前記取得したリンク先文書に対する類似度を算出する類似度算出手段と、
    前記算出した類似度を用いて紹介文を特定する紹介文特定手段と、
    を具備したことを特徴とするリンク集作成装置。
  2. 前記類似度算出手段は、前記リンク先文書の文書ベクトルと前記紹介文候補の文書ベクトルを用いて所定の演算を行うことにより前記類似度を算出することを特徴とする請求項1に記載のリンク集作成装置。
  3. 前記紹介文特定手段は、前記類似度が最も大きい前記紹介文候補を紹介文として特定することを特徴とする請求項1又は請求項2に記載のリンク集作成装置。
  4. 前記リンク先文書を要約して要約文を生成する要約手段を更に具備し、
    前記算出した類似度の内、最も大きいものが所定の閾値に達しない場合に、前記要約手段は、前記リンク先文書の要約文を生成し、
    前記紹介文特定手段は、前記要約手段が生成した前記要約文を紹介文として特定することを特徴とする請求項1又は請求項2に記載のリンク集作成装置。
  5. 前記リンク先文書を要約して要約文を生成する要約手段を更に具備し、
    前記算出した類似度の内、最も大きいものが所定の閾値に達しない場合に、前記要約手段は、前記リンク先文書の要約文を生成し、
    前記類似度算出手段は、前記生成した前記要約文に対する前記各紹介文候補の類似度を算出し、
    前記紹介文特定手段は、前記類似度が最も大きい紹介文候補を紹介文として特定することを特徴とする請求項1又は請求項2に記載のリンク集作成装置。
  6. 前記リンク先文書を要約して要約文を生成する要約手段を更に具備し、
    前記リンク先文書取得手段は、前記要約手段で生成した要約文をリンク先文書として取得することを特徴とする請求項1、請求項2又は請求項3に記載のリンク集作成装置。
  7. 前記紹介文特定手段にて特定した前記紹介文の内容から、当該紹介文が属するカテゴリを特定するカテゴリ特定手段と、
    前記紹介文に、当該紹介文に対応するリンク先特定情報と前記特定したカテゴリを関連けて出力する出力手段と、
    を更に具備したことを特徴とする請求項1から請求項6までの内の何れかの1の請求項に記載のリンク集作成装置。
  8. 前記出力手段は、前記紹介文を当該紹介文に対応したリンク先特定情報と共に所定のコンピュータ言語で記述したディレクトリ構造として出力し、前記ディレクトリ構造は、紹介文のカテゴリを階層的に配置したツリー構造を有していることを特徴とする請求項7に記載のリンク集作成装置。
  9. 前記リンク先特定情報は、前記リンク先のサイトを特定するURLであることを特徴とする請求項1から請求項8までの内の何れかの1の請求項に記載のリンク集作成装置。
  10. 文書取得手段と、リンク先特定情報抽出手段と、リンク先文書取得手段と、紹介文候補抽出手段と、類似度算出手段と、紹介文特定手段と、を備えたコンピュータにおいて、
    前記文書取得手段で、文書ファイルを取得する文書取得ステップと、
    前記リンク先特定情報抽出手段で、前記取得した文書ファイルに含まれるリンク先特定情報を抽出するリンク先特定情報抽出ステップと、
    前記リンク先文書取得手段で、前記抽出したリンク先特定情報で特定されるリンク先に含まれるリンク先文書を取得するリンク先文書取得ステップと、
    前記紹介文候補抽出手段で、前記取得した文書ファイルに含まれている文書から複数の紹介文候補を抽出する紹介文候補抽出ステップと、
    前記類似度算出手段で、前記抽出した各紹介文候補の前記取得したリンク先文書に対する類似度を算出する類似度算出ステップと、
    前記紹介文特定手段で、前記算出した類似度を用いて紹介文を特定する紹介文特定手ステップと、
    から構成されたことを特徴とするリンク集作成方法。
  11. 文書ファイルを取得する文書取得機能と、
    前記取得した文書ファイルに含まれるリンク先特定情報を抽出するリンク先特定情報抽出機能と、
    前記抽出したリンク先特定情報で特定されるリンク先に含まれるリンク先文書を取得するリンク先文書取得機能と、
    前記取得した文書ファイルに含まれている文書から複数の紹介文候補を抽出する紹介文候補抽出機能と、
    前記抽出した各紹介文候補の前記取得したリンク先文書に対する類似度を算出する類似度算出機能と、
    前記算出した類似度を用いて紹介文を特定する紹介文特定機能と、
    をコンピュータに実現させるためのリンク集作成プログラム。
JP2001200106A 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム Expired - Fee Related JP3571312B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001200106A JP3571312B2 (ja) 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001200106A JP3571312B2 (ja) 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Publications (2)

Publication Number Publication Date
JP2003016082A JP2003016082A (ja) 2003-01-17
JP3571312B2 true JP3571312B2 (ja) 2004-09-29

Family

ID=19037288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001200106A Expired - Fee Related JP3571312B2 (ja) 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Country Status (1)

Country Link
JP (1) JP3571312B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4539438B2 (ja) * 2005-05-30 2010-09-08 日本電信電話株式会社 トラックバック元のコメント・トラックバックの集約方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
US8307275B2 (en) * 2005-12-08 2012-11-06 International Business Machines Corporation Document-based information and uniform resource locator (URL) management
JP4693680B2 (ja) * 2006-03-30 2011-06-01 富士通株式会社 更新情報表示プログラム及び更新情報表示方法
JP4249771B2 (ja) * 2006-09-28 2009-04-08 株式会社東芝 コメント領域抽出装置、プログラムおよびコメント領域抽出方法
JP4922274B2 (ja) * 2008-06-12 2012-04-25 ヤフー株式会社 社会的な人気・関心を反映したディレクトリを作成、検索及び表示する情報管理装置、方法及びプログラム
JP5405507B2 (ja) * 2011-02-17 2014-02-05 日本電信電話株式会社 具体主題の有無判定装置、方法、及びプログラム
JP5523405B2 (ja) * 2011-07-12 2014-06-18 ヤフー株式会社 要約作成装置及び方法
JP5969908B2 (ja) * 2012-12-05 2016-08-17 株式会社Nttドコモ 要約生成装置及び要約生成方法
JP6511865B2 (ja) * 2015-03-03 2019-05-15 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN110750739B (zh) * 2018-07-04 2022-07-05 北京国双科技有限公司 一种页面类型确定方法及装置
JP7355322B1 (ja) 2023-05-22 2023-10-03 株式会社グローカルMa メール要素設定システム及びメール件名設定支援システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203291A (ja) * 1998-01-10 1999-07-30 Ricoh Co Ltd 分類情報生成装置

Also Published As

Publication number Publication date
JP2003016082A (ja) 2003-01-17

Similar Documents

Publication Publication Date Title
EP1428139B1 (en) System and method for extracting content for submission to a search engine
US9411827B1 (en) Providing images of named resources in response to a search query
US7346487B2 (en) Method and apparatus for identifying translations
US6658408B2 (en) Document information management system
JP3959180B2 (ja) 通信翻訳装置
US20080059897A1 (en) Method and system of social networking through a cloud
US8874590B2 (en) Apparatus and method for supporting keyword input
CN109614504A (zh) 一种互联网电子书的管理系统及方法
JP2003529845A (ja) ネットワーク経由の多言語翻訳を提供する方法と装置
US20080120541A1 (en) System and method for on-line retrieval and typing of non-standard characters
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
JP3571312B2 (ja) リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム
CN112052414A (zh) 一种数据处理方法、装置以及可读存储介质
US20020133514A1 (en) Method, system, and program for verifying network addresses included in a file
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
KR20020017966A (ko) 단어 기반 렌더 브라우저를 위한 데이터 처리 시스템에서웹 페이지를 대략 읽거나 속독하기 위한 방법 및 장치
JP2005050156A (ja) コンテンツの置換方法及びシステム
KR100819339B1 (ko) 정보 처리 시스템 및 교육 컨텐츠의 처리 방법
JP4119413B2 (ja) 知識情報収集システム、知識検索システム及び知識情報収集方法
KR102639463B1 (ko) 커먼 아이디정보의 매칭을 이용한 웹페이지 메모 공유방법
JP2011159321A (ja) データ変換方法、装置及びプログラム
King Re-presenting visual content for blind people
JP2003141125A (ja) マルチメディア情報統合検索装置およびその方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040623

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100702

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees