JP2003016082A - リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム - Google Patents

リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Info

Publication number
JP2003016082A
JP2003016082A JP2001200106A JP2001200106A JP2003016082A JP 2003016082 A JP2003016082 A JP 2003016082A JP 2001200106 A JP2001200106 A JP 2001200106A JP 2001200106 A JP2001200106 A JP 2001200106A JP 2003016082 A JP2003016082 A JP 2003016082A
Authority
JP
Japan
Prior art keywords
document
sentence
link
link destination
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001200106A
Other languages
English (en)
Other versions
JP3571312B2 (ja
Inventor
Kazuhiro Masuda
和弘 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001200106A priority Critical patent/JP3571312B2/ja
Publication of JP2003016082A publication Critical patent/JP2003016082A/ja
Application granted granted Critical
Publication of JP3571312B2 publication Critical patent/JP3571312B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ディレクトリ型リンク集ページを自動作成す
ることができるリンク集作成装置、リンク集作成方法、
及びリンク集作成プログラムを提供すること。 【解決手段】 電子メール、ニュースグループ、掲示板
などからURLを含む文書ファイルを取得する。URL
を文書ファイルから抽出すると共に、当該URL前後に
ある文書を規定文数だけ当該URLの紹介文候補として
抽出する。URLで指定されるサイトに掲載されている
文書(本文)を全て取得し、当該文書の文書ベクトルを
設定する。これを紹介文候補として抽出された文書の文
書ベクトルと比較し、本文と最も類似する紹介文候補を
紹介文として特定する。次に、特定された紹介文をカテ
ゴリごとに分類し、URLと共にディレクトリ型リンク
集ページとしてHTML形式のファイルにて出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、リンク集作成装
置、リンク集作成方法、及びリンク集作成プログラムに
関し、例えば、リンク先コンテンツの紹介文を自動生成
するものに関する。
【0002】
【従来の技術】インターネットでは、WWW(Worl
d Wide Web)上のサイトをURL(Unif
orm Resource Locator)によって
指定することができる。即ち、ユーザは、クライアント
端末装置に設置されているブラウザなどを用いてURL
を指定することにより、当該URLにて特定されるサイ
トにクライアント端末装置を接続することができ、例え
ば、ホームページの閲覧など当該サイトによって提供さ
れているサービスを受けることができる。この仕組みを
利用し、インターネットでは、ホームページ上にURL
を記載することにより、サイト間にリンクを張ることが
できるようになっている。ユーザは、ホームページ上に
記載されたURLをマウスでクリックするなどすること
により、瞬時に当該URLで指定されるサイトにクライ
アント端末装置を接続することができる。
【0003】さて、このようなインターネット上で容易
にリンクを張ることができる機能を用いたものにディレ
クトリ型リンク集ページがある。これは、URLをカテ
ゴリ毎に分類し、ユーザが容易に所望のURLを検索す
ることができるようにしたWebページである。カテゴ
リの分類は、大きい区分から細かい区分へ階層的に区分
されたディレクトリ構造となっており、ユーザは、ディ
レクトリのパスを辿っていくことにより、所望のサイト
が存在するURLを得ることができる。
【0004】図7は、ディレクトリ構造の一例を説明す
るための図である。例えば、最上部のディレクトリに
「教育」、「娯楽」、・・・、などのカテゴリがあったと
する。最上部のディレクトリは、カテゴリの最も大きな
区分を表している。最上部のディレクトリは、更に細か
い分類に区分され、ディレクトリ構造は木構造となって
おる。そして、末端部は、当該カテゴリに属するサイト
を特定するURLと当該サイトの紹介文となっている。
例えば、図7の例では、最上部のディレクトリには「教
育」、「娯楽」、・・・、というカテゴリがある。「娯
楽」の下には、更に「映画」、「スポーツ」、・・・、な
どのカテゴリがあり、「映画」の下には、更に「ホラ
ー」、「コメディ」、・・・、などのカテゴリなどがあ
る。
【0005】ユーザは、コメディ映画に関するサイトを
検索したい場合は、「娯楽」→「映画」→「コメディ」
などとパスを辿っていく。すると、コメディ映画に関す
るコンテンツを有するサイトのURLの一覧が説明文と
共に表示される。ユーザは、当該URLの紹介文を参照
しながらアクセスするURLを、例えばマウス操作でク
リックするなどして特定する。すると、当該URLで特
定されるサイトにジャンプすることができる。
【0006】従来、このようなディレクトリ型リンクペ
ージを作成する場合、ブラウザのブックマークを変換
し、そしてcgi(Common Gateway I
nterface)スクリプトに、例えばサイトの説明
文の入力などの必要項目を設定投入することにより作成
されていた。ここで、ブックマークとは、気に入ったサ
イトや頻繁にアクセスする特定のWebページのURL
をブラウザなどに登録し、次回のアクセスを容易にする
仕組みを言う。
【0007】
【発明が解決しようとする課題】しかし、ブックマーク
作成は1人による手作業である。また、cgiに対する
設定は多人数で分業可能であるがこれも手作業である。
インターネットの普及と共にディレクトリ型リンク集に
対する需要は増大しているが、このように手作業で作
成、更新しなくてはならないため多額のメンテナンスコ
ストがかかり、これが最大の問題点となっていた。ま
た、ロボット型検索を用いて全文検索を行うことによ
り、上記手作業の代用を行おうと試みた場合、例えばト
ップページに、実際のページ内容とは無関係なLinu
x、Java、UDDIなど時事キーワード多数を含め
て検索結果画面の上位進出を狙うサイトがあるため、価
値の低いページ(ノイズ)の混入が避けられず、完全な
代用はできない。
【0008】そこで、本発明の目的は、リンク集を自動
作成することができるリンク集作成装置、リンク集作成
方法、及びリンク集作成プログラムを提供することであ
る。
【0009】
【課題を解決するための手段】本発明は、前記目的を達
成するために、請求項1に記載の発明では、文書ファイ
ルを取得する文書取得手段と、前記取得した文書ファイ
ルに含まれるリンク先特定情報を抽出するリンク先特定
情報抽出手段と、前記抽出したリンク先特定情報で特定
されるリンク先に含まれるリンク先文書を取得するリン
ク先文書取得手段と、前記取得した文書ファイルに含ま
れている文書から複数の紹介文候補を抽出する紹介文候
補抽出手段と、前記抽出した各紹介文候補の前記取得し
たリンク先文書に対する類似度を算出する類似度算出手
段と、前記算出した類似度を用いて紹介文を特定する紹
介文特定手段と、を具備したことを特徴とするリンク集
作成装置を提供する。請求項2に記載の発明では、前記
類似度算出手段が、前記リンク先文書の文書ベクトルと
前記紹介文候補の文書ベクトルを用いて所定の演算を行
うことにより前記類似度を算出することを特徴とする請
求項1に記載のリンク集作成装置を提供する。請求項3
に記載の発明では、前記紹介文特定手段が、前記類似度
が最も大きい前記紹介文候補を紹介文として特定するこ
とを特徴とする請求項1又は請求項2に記載のリンク集
作成装置を提供する。請求項4に記載の発明では、前記
リンク先文書を要約して要約文を生成する要約手段を更
に具備し、前記算出した類似度の内、最も大きいものが
所定の閾値に達しない場合に、前記要約手段は、前記リ
ンク先文書の要約文を生成し、前記紹介文特定手段は、
前記要約手段が生成した前記要約文を紹介文として特定
することを特徴とする請求項1又は請求項2に記載のリ
ンク集作成装置を提供する。請求項5に記載の発明で
は、前記リンク先文書を要約して要約文を生成する要約
手段を更に具備し、前記算出した類似度の内、最も大き
いものが所定の閾値に達しない場合に、前記要約手段
は、前記リンク先文書の要約文を生成し、前記類似度算
出手段は、前記生成した前記要約文に対する前記各紹介
文候補の類似度を算出し、前記紹介文特定手段は、前記
類似度が最も大きい紹介文候補を紹介文として特定する
ことを特徴とする請求項1又は請求項2に記載のリンク
集作成装置を提供する。請求項6に記載の発明では、前
記リンク先文書を要約して要約文を生成する要約手段を
更に具備し、前記リンク先文書取得手段は、前記要約手
段で生成した要約文をリンク先文書として取得すること
を特徴とする請求項1、請求項2又は請求項3に記載の
リンク集作成装置を提供する。請求項7に記載の発明で
は、前記紹介文特定手段にて特定した前記紹介文の内容
から、当該紹介文が属するカテゴリを特定するカテゴリ
特定手段と、前記紹介文に、当該紹介文に対応するリン
ク先特定情報と前記特定したカテゴリを関連けて出力す
る出力手段と、を更に具備したことを特徴とする請求項
1から請求項6までの内の何れかの1の請求項に記載の
リンク集作成装置を提供する。請求項8に記載の発明で
は、前記出力手段が、前記紹介文を当該紹介文に対応し
たリンク先特定情報と共に所定のコンピュータ言語で記
述したディレクトリ構造として出力し、前記ディレクト
リ構造は、紹介文のカテゴリを階層的に配置したツリー
構造を有していることを特徴とする請求項7に記載のリ
ンク集作成装置を提供する。また、請求項8に記載の発
明は、前記出力手段が、紹介文のカテゴリを階層的に配
置したディレクトリ構造を所定のコンピュータ言語にて
記述して出力し、前記カテゴリには、当該カテゴリに関
連付けられた前記紹介文及び当該紹介文に対応するリン
ク先特定情報が配置されていることを特徴とする請求項
7に記載のリンク集作成装置として構成することも可能
である。ここで、所定のコンピュータ言語とは、例えば
リンク集のディレクトリ構造を出力する言語である。請
求項9に記載の発明では、前記リンク先特定情報が、前
記リンク先のサイトを特定するURLであることを特徴
とする請求項1から請求項8までの内の何れかの1の請
求項に記載のリンク集作成装置を提供する。請求項10
に記載の発明では、文書取得手段と、リンク先特定情報
抽出手段と、リンク先文書取得手段と、紹介文候補抽出
手段と、類似度算出手段と、紹介文特定手段と、を備え
たコンピュータにおいて、前記文書取得手段で、文書フ
ァイルを取得する文書取得ステップと、前記リンク先特
定情報抽出手段で、前記取得した文書ファイルに含まれ
るリンク先特定情報を抽出するリンク先特定情報抽出ス
テップと、前記リンク先文書取得手段で、前記抽出した
リンク先特定情報で特定されるリンク先に含まれるリン
ク先文書を取得するリンク先文書取得ステップと、前記
紹介文候補抽出手段で、前記取得した文書ファイルに含
まれている文書から複数の紹介文候補を抽出する紹介文
候補抽出ステップと、前記類似度算出手段で、前記抽出
した各紹介文候補の前記取得したリンク先文書に対する
類似度を算出する類似度算出ステップと、前記紹介文特
定手段で、前記算出した類似度を用いて紹介文を特定す
る紹介文特定手ステップと、から構成されたことを特徴
とするリンク集作成方法を提供する。請求項11に記載
の発明では、文書ファイルを取得する文書取得機能と、
前記取得した文書ファイルに含まれるリンク先特定情報
を抽出するリンク先特定情報抽出機能と、前記抽出した
リンク先特定情報で特定されるリンク先に含まれるリン
ク先文書を取得するリンク先文書取得機能と、前記取得
した文書ファイルに含まれている文書から複数の紹介文
候補を抽出する紹介文候補抽出機能と、前記抽出した各
紹介文候補の前記取得したリンク先文書に対する類似度
を算出する類似度算出機能と、前記算出した類似度を用
いて紹介文を特定する紹介文特定機能と、をコンピュー
タに実現させるためのリンク集作成プログラムを提供す
る。また、請求項7に記載の出力手段にて出力されたデ
ータの内、少なくとも前記抽出したリンク先特定情報
と、当該リンク先特定情報に関連付けられた第1の紹介
文を格納する格納手段と、新規に取得した新規文書ファ
イルから、リンク先特定情報を抽出し、当該リンク先特
定情報に関連付ける第2の紹介文を当該新規文書ファイ
ルから抽出する新規紹介文抽出手段と、前記格納したデ
ータから前記抽出した前記リンク先特定情報を検索する
検索手段と、前記検索手段にて前記リンク先特定情報が
検索された場合に、前記リンク先特定情報に関連付けら
れた第1の紹介文を取得する第1の紹介文取得手段と、
前記第1の紹介文の類似度と前記第2の紹介文の類似度
を比較する比較手段と、前記比較手段にて前記第2の紹
介文の類似度の方が前記第1の紹介文の類似度よりも大
きい場合に、前記格納手段にて格納した前記第1の紹介
文を前記第2の紹介文にて置換する置換手段と、を更に
具備したことを特徴とする請求項4に記載のリンク集作
成装置を提供することも可能である。
【0010】
【発明の実施の形態】以下、本発明の好適な実施の形態
について、図1から図5を参照して詳細に説明する。図
1は、本実施の形態に係るリンク集作成装置がリンク集
を作成する方法を説明するための図である。リンク集作
成装置は、まずURL(Uniform Resour
ce Locators)を含む電子メール、掲示板、
ニュースグループの投稿などの文書ファイル(ドキュメ
ント)5を取得する。文書ファイル5に含まれるURL
は、リンク集ページに掲載するURLとして使用し、文
書ファイル5に含まれる文書は当該URLを紹介するた
めの紹介文を作成する際に使用される。これは、人から
人へ伝達されたメッセージの本文中に含まれるURL
は、紹介するだけの価値がある優良コンテンツである可
能性が高い上、当該URLの前後には、紹介者が送信相
手に興味を持ってもらおうと、それなりに工夫した紹介
文が付いていることが期待できるためである。
【0011】次に、文書ファイル5に含まれるURL7
を抽出すると共に、URL7が記載されていた場所の近
傍にある文書を文書6、6、6、…、に分解する。文書
6、6、6、…、の内、URL7でリンクされるコンテ
ンツの内容に最もマッチ(類似)したものをURL7の
紹介文として使用する。URL7の近傍の文書を分解す
るのは、URL7のリンク先を紹介する文書がURL7
の近傍にあると予想されるためである。
【0012】次に、文書ファイル5から抽出された文書
6、6、6、…、のそれぞれの文書ベクトル10、1
0、10、…、を設定する。これは、後にURL7でリ
ンクされるコンテンツについて得られた文書ベクトルと
比較することによって、当該コンテンツの内容に最も類
似した文書6、6、6、…、を特定するためである。文
書ベクトルについては後程説明する。
【0013】一方抽出されたURL7を用いてインター
ネットに接続し、リンク先のWebページのコンテンツ
に含まれる本文11を取得する。そして、本文の文書ベ
クトル12を設定する。次に、文書ベクトル10、1
0、10、…、と文書ベクトル12を比較し、本文11
の内容と最も類似した文書6、6、6、…、を特定す
る。例えば、2つのベクトルが平行に近いほど2つの文
書は類似している考えられる。このような性質を用いて
文書の類似度を適当な方法で数値化し、数値(スコア)
を比較することにより最も類似した文書6を特定するこ
とができる。
【0014】比較の結果、本文11と最も類似している
と判断された文書6は、URL7と共に文書データベー
ス13に格納され、リンク集を作成する際のリンク先の
説明文として使用される。次に、各リンクの紹介文を文
書分類器でカテゴリ毎にまとめて所定のコンピュータ言
語、例えばHTML(Hypertext Marku
p Language)形式のファイル15として出力
する。なお、本実施の形態では、リンク集ページをディ
レクトリ型リンク集ページとして作成した。
【0015】図2は、本実施の形態に係るリンク集作成
装置のシステム構成を概念的に示した図である。なお、
後に説明するように、本実施の形態におけるリンク集作
成装置は一例としてパーソナルコンピュータ(以下PC
と記す)にリンク集作成プログラムをインストールする
ことにより構成した。図2に示したようにリンク集作成
装置のシステムは、文書取得手段21、URL抽出手段
22、文書分解手段23、紹介文決定手段24、本文取
得手段27、文書データベース13、クラスタリング器
33、文書分類器32、図示しない文書要約器などから
構成されている。
【0016】文書取得手段21は、URLを含んだ電子
メール、掲示板、ニュースグループの投稿などの文書フ
ァイル5を取得する手段であり、例えば、インターネッ
トやLAN(Local Area Network)
などのネットワークと接続する通信制御部とCPU(C
entral Processing Unit)など
により構成される。この他にも、文書ファイルを記憶し
た記憶媒体を駆動する記憶媒体駆動装置、紙面上などに
記載された文書を読み取るスキャナなどで構成された文
字認識装置などを使用することも可能である。
【0017】URL抽出手段22は、文書中(テキスト
中)のURLを検出して抽出する手段である。必要に応
じて不要なURLの除去フィルタを設けることができ
る。例えばスパムメール(受信者に無差別に送信される
勧誘や広告の電子メールなどの受信者にとって迷惑な電
子メール)に対するフィルタは、インターネット上で公
開されているブラックリストに記載されているURLな
どを用いて構成することができる。また、電子メールの
差出人などの署名部分のURLはレイアウト解析器で除
去する。
【0018】文書分解手段23は、文書を当該文書を構
成する文書に分解する手段であって、文書取得手段21
が文書ファイル5を取得し、文書ファイル5を文書6、
6、6、…、に分解する。本実施の形態では、文書分解
手段23は文書ファイル5に含まれているURLを検出
し、当該URLの前後、所定の個数、例えば2個分の文
を分解して抽出するように構成した。なお、これに限定
せず、文書ファイル5の全てを対象に分解作業を行うよ
うに構成することも可能である。
【0019】本文取得手段27は、URL抽出手段22
により取得したURLから実際のページ内容を取得し、
文書データベース13に登録する。即ち、URL抽出手
段22により抽出されたURLを用いて、リンク先のコ
ンテンツの本文11(テキスト)を取得し、これを文書
データベース13に格納する手段である。本実施の形態
では、例えば、インターネットと接続するための通信制
御装置や文書データベース13を駆動する記憶媒体駆動
装置などにより構成されている。更に、例えば、コンテ
ンツが磁気ディスクや半導体メモリなどの記憶媒体に格
納されている場合は、当該記憶媒体の駆動装置にてコン
テンツを取得するように構成することもできる。
【0020】また、本文取得手段27の使用に際して
は、全対象ページの文書データベース13をまず作成す
るようにする。即ち、リンク集ページを作成するために
多数の文書ファイル5、5、5、・・・、から多数のUR
Lを抽出するが、これらリンク集ページ作成の対象とな
る全てのURLに対して本文11、11、11、・・・、
を収集し、予め文書データベース13に格納しておく。
これは、文書データベース13のターム出現頻度などの
統計情報が後に文書6、6、6、…、と本文11の類似
度判定を行う際に必要になるためである。
【0021】紹介文決定手段24は、本文11に最も類
似した文書6を選択し、これを文書データベース13に
格納する手段である。紹介文決定手段24にて選択され
た文書6は、URLの紹介文として使用される。そのた
め、紹介文決定手段24は、選択した文書6を対応する
URLと関連付けて文書データベース13に格納する。
なお、本実施の形態では、文書ベクトルを用いて本文1
1と文書6、6、6、…、の類似度を判断することとし
た。即ち、紹介文決定手段24は、文書6、6、6、
…、のそれぞれの文書ベクトル10、10、10、…、
と本文11の文書ベクトル12を設定し、本文11と各
文書ベクトル10、10、10、・・・、に所定の演算を
施して類似度を求める。そして、類似度が最も大きい文
書ベクトル10をもって紹介文とし、これを文書データ
ベース13に格納する。なお、本実施の形態では、後に
説明するTF*IDFスコアを用いて類似度を数値化し
た。また、紹介文決定手段24は、本文取得手段27に
て文書データベース13に格納さた本文11を用いて文
書ベクトル12を設定する。
【0022】文書データべース13は、本文取得手段2
7にて取得した文書や紹介文決定手段24から取得した
紹介文などを格納するためのデータベースである。文書
データベース13には、URL抽出手段22にて抽出さ
れたURL、当該URLによりリンクするページのペー
ジ内容(本文11)、当該ページの名称、当該ページの
紹介文などが格納されている。これらのデータは、UR
L毎に互いに関連付けられて格納されている。即ち、U
RLを特定すると当該URLにて指定される本文11、
及び当該本文11が掲載された当該ページの名称、当該
URLの紹介文などが特定できるようになっている。
【0023】クラスタリング器33は、複数の文書から
なる文書集合を、内容が似ているもの同士でグループ分
け(クラスタリング)するものである。内容が似ている
もの同士がグループとなるため、各グループに分類され
た文書は同一のカテゴリに属するものと考えることがで
きる。そして、各グループに特徴的に出現する言葉を調
べることにより、これらの言葉を文書分類器32の教師
データとして使用することができる。なお、教師データ
とは、文書分類器32に文書分類を機械学習させるため
の正解データとして使用されるデータである。
【0024】例えば、あるグループに属する文書を調べ
た結果、学校名や「教育委員会」、「学級」、「数
学」、「進学率」、「生徒」、「先生」、「校長」、
「教育現場」、・・・、などの単語が特徴的に高い確率で
出現する場合、当該グループは教育に関するカテゴリに
属すると推定される。これらカテゴリを特徴付ける言葉
(教師データ)を文書分類器32に学習させることによ
り、文書分類器32は、被分類文書中に出現する言葉を
分析して当該被分類文書の属するカテゴリーを推定する
ことができる。
【0025】クラスタリング器33で生成するカテゴリ
数は、予めユーザが設定することができる。例えば、カ
テゴリ数としてユーザが100を設定した場合、クラス
タリング器33は、文書集合を100のグループにクラ
スタリングする。クラスタリング器33は、内容が類似
した文書を判別してグループを作成するため、カテゴリ
として何が入っているかわからない文書の集合でも、文
書間類似度によって文書をクラスタリングすることがで
きるという利点がある。更に詳細に述べると、クラスタ
リングの結果は木構造となり、枝の末端は個々の文書と
なっている。木構造の枝はカテゴリに対応し、枝に所属
する文書は、そのカテゴリの教師データとして、文書分
類器32の学習に使用される。
【0026】文書分類器32は、文書データベース13
に格納された紹介文を教師データを用いて何れのカテゴ
リに属するか判断して分類し、ディレクトリ型リンク集
ページをHTML形式のファイルとして作成して出力す
る手段である。出力先は、例えば、ハードディスク、光
磁気ディスク、半導体メモリなどの記憶媒体やネットワ
ークを介して接続された他の端末装置などである。文書
分類器32は、文書に出現する単語と特定のカテゴリに
出現する頻度が高い単語とを比較し、当該文書の属する
カテゴリを判断する。先に述べたように特定のカテゴリ
に出現する頻度が高い単語は教師データを用いて文書分
類器32に学習させておく。
【0027】より詳細に述べると、例えば、それぞれの
語(単語・複合語)について、全体におけるの語出現確率
と、教育カテゴリ中の語出現確率を統計的に算出してお
けば、「教育」のカテゴリに特徴的に出現する語が特定
できる。分類対象の文書に出てくる語の1つ1つについ
て、カテゴリ毎の出現確率を教師データから求めておけ
ば、文書全体で、どのカテゴリに属すると仮定するの
が、最も合理的なのか確率的に計算することが可能であ
る。
【0028】図示しない文書要約器は、本文11に出現
する重要語を基に、本文11の要約を作成するものであ
る。紹介文決定手段24は、本文11と文書6、6、
6、・・・、の類似度の内、最も高い類似度が所定の閾値
(予め設定された一定のスコア)に達しなかった場合
は、本文11を文書要約器にて要約したものを紹介文と
して採用する。
【0029】ここで、紹介文決定手段24にて使用した
文書ベクトルについて説明する。文書中に出現する確率
の高い単語は当該文書の属するカテゴリにより偏りがあ
る。例えば、教育に関する文書の場合、学校名や「教育
現場」、「進学率」などの教育に関する単語の出現確率
が高くなり、映画に関する文書の場合、監督名、俳優
名、映画タイトルや「撮影」、「映画館」などの映画に
関する単語の出現確率が高くなる。このように、予め特
定のカテゴリに特有な単語を重要語としてデータベース
化しておき、文書に出現する単語とデータベース化され
た重要語とを比較することにより、当該文書のカテゴリ
を推定することができる。
【0030】文書ベクトルの次元はカテゴリを区別する
ために採用した重要語の数となる。例えば、教育カテゴ
リに属する文書と映画カテゴリに属する文書の集合体が
あって、これを教育カテゴリと映画カテゴリに分類した
いとする。教育に関する重要語がN1個あり、映画に関
する重要語がN2個あった場合、文書ベクトルはN1+
N2次元空間内のベクトルとして表される。そして、教
育に関する文書の文書ベクトルは、共にほぼ同様の方向
を指し、また、絵画に関する文書の文書ベクトルも共に
ほぼ同様の方向を指すと考えられ、これによって各文書
の属するカテゴリを推定することができる。
【0031】更に、詳細に述べると、まず文書ベクトル
を設定しようとする文書中から予めデータベース化して
ある重要語(教師データ)を自動抽出する。そして、当
該文書の文書ベクトルを、例えば出現回数など所定の方
法で重み付けした重要度f(x)を成分とするベクトル
で表す。xは重要語である。
【0032】仮に、文書ベクトルを表現する空間の座標
軸を、教育現場、進学率、撮影、映画館の4つの重要語
で構成したとする。例えば、教育に関する文書Aを解析
した場合、f(教育現場)=16、f(進学率)=1
2、f(撮影)=1、f(映画館)=0などと、教育関
係の単語に関する成分が大きくなり、文書Aの文書ベク
トルは(16、12、1、0)となる。このように、文
書ベクトルの方向と大きさは、当該文書のカテゴリを設
定する際の指標とすることができる。
【0033】本実施の形態では、2つの文書の類似度を
数値化する方法として、TF*IDFスコアを用いた。
TF(Term Frequency)は、該当文書中
に、所定の語が出現した回数を表し、IDF(Inve
rse Document Frequency)は以
下の式1で表される値を表す。log(全体文書数/該
当語を含む文書数)+1…(式1)TF*IDFは、T
FとIDFの積である。この値が大きい語ほど、文書全
体の中から特定文書を弁別できることを意味し、TF*
IDFを文書ベクトルの成分の重みとして採用すること
ができる。TF*IDFスコアと言うのは、2つの文書
ベクトルにTF*IDFの重みを持たせて例えば、内積
などで求めた類似度スコアである。
【0034】更に、TF*IDFスコアを内積によって
求める場合は、以下のようになる。内容が同じカテゴリ
に関して書かれた文書の文書ベクトルは互いに平行に近
くなる傾向がある。文書ベクトル間の角度は通常のベク
トルと同様にして求めることができる。即ち、2つのベ
クトルの成す方向余弦(cosθ)は、当該2つの文書
ベクトル内積を求め、これをそれぞれの文書ベクトルの
絶対値で除することにより求めることができる。この方
向余弦の値から2つの文書ベクトルの成す角度(θ)を
求めることができる。なお、文書の類似度の判定法は、
これに限定するものではなく、他の方法を用いても良
い。
【0035】図3は、本実施の形態のリンク集作成装置
が接続されるネットワークの構成の一例を示した図であ
る。当該ネットワークは、メールサーバ62、Webサ
ーバ63、端末装置64、64、64、…、などがイン
ターネット61に接続可能に配設されることにより構成
されている。インターネット61は、公衆回線、光ファ
イバ網、衛星通信回線、移動体端末装置用無線回線など
の通信回線が接続されることにより構成されている。
【0036】メールサーバ62は、端末装置64から電
子メールのアップロードを受付、宛先の端末装置64が
接続した際に、当該電子メールを宛先の端末装置64に
ダウンロードする。これによって、1のユーザから他の
ユーザに電子メールを送信することができる。なお、メ
ールサーバの機能を単純化して説明したものであって、
実際は、アップロード用のサーバ装置やダウンロード用
のサーバ装置が複数台あり、電子メールのデータをサー
バ装置間で転送しながら、所定のユーザにこれを配信し
ている。
【0037】リンク集作成装置は、メールサーバ62か
ら紹介文を作成するための文書ファイル5を取得するこ
とができる。Webサーバ63は、端末装置64、6
4、64、…、に対してHTML形式のファイルなどを
ダウンロードするサーバ装置である。図3では、Web
サーバ63は、1台のみ示してあるが、実際は複数のW
ebサーバがインターネット61に接続しており、ユー
ザは、端末装置64、64、64、…、からURLを入
力することにより、Webサーバ63と当該Webサー
バ63からダウンロードするHTML形式のファイルを
特定することができる。
【0038】リンク集作成装置は、URL抽出手段22
により抽出したURLを用いて所定のWebサーバ63
から紹介文を決定する際に使用する本文11をダウンロ
ードすることができる。Webサーバ63が掲示板機能
を提供している場合は、リンク集作成装置は当該掲示板
から紹介文を作成するための素材である文書ファイル5
を取得することも可能である。
【0039】端末装置64、64、64、…、は、例え
ばPCなどを用いて構成されたクライアント端末装置で
あって、インターネット61を介してメールサーバ6
2、Webサーバ63などと接続可能に構成されてい
る。端末装置64は、リンク集作成プログラムなどを備
えることにより、リンク集作成装置として機能させるこ
とができる。リンク集作成機能を持った端末装置64
は、インターネット61を介して、紹介文を作成するた
めの素材である、URLを含んだ文書ファイル5(電子
メール、ニュースグループの投稿文書、掲示板の文書な
ど)や、Webページの本文11を取得することができ
る。
【0040】なお、端末装置64は、PCの他にも例え
ばインターネット接続可能なワードプロセッサ、インタ
ーネット接続可能なテレビ、移動体端末装置、などによ
り構成することも可能である。また、端末装置64は、
LAN(Local Area Network)、W
AN(World Area Network)などを
介してインターネット61に接続するように構成しても
良い。
【0041】図4は、リンク集作成装置40の具体的な
構成の一例を示した図である。本実施の形態では、リン
ク集作成装置をPCを用いて構成した。リンク集作成装
置40は、システム全体を制御するための制御部41を
備えている。そして、制御部41は、CPU42、RO
M(Read Only Memory)43、RAM
(Random Access Memory)44な
どから構成されている。ROM43は、CPU42が各
種演算や制御を行うための各種プログラムやデータを格
納したリードオンリーメモリである。CPU42は、R
OM43からプログラムやデータを読み込むことはでき
るが、これらを書き換えたり消去することはできない。
【0042】RAM44は、CPU42にワーキングメ
モリとして使用されるランダムアクセスメモリである。
CPU42は、RAM44にプログラムやデータなどを
書込んだり消去したりすることができる。本実施の形態
では、RAM44には、文書分解処理、文書べクトル設
定処理、クラスタリング処理、ディレクトリ型リンク集
ページ作成処理などの各種処理を行うためのエリアが確
保可能となっている。
【0043】制御部41には、バスライン49を介して
キーボード45、マウス46、表示装置47、印刷装置
48、記憶装置53、記憶媒体駆動装置57、入出力イ
ンターフェース58、文字認識装置59などが接続され
ている。キーボード45は、ユーザがユーザがカテゴリ
数を手動で設定する場合にカテゴリ数を入力したり、又
はその他の文字や情報を入力するためのデバイスであ
る。キーボード45は、カナや英文字などを入力するた
めのキーや数字を入力するためのテンキー、各種機能キ
ー、カーソルキー及びその他のキーによって構成されて
いる。
【0044】マウス46は、ポインティングデバイスで
あって、表示装置47上に表示されたボタンやアイコン
をクリックすることにより、所定の機能の指定を行う入
力装置である。表示装置47は、例えば例えばCRT
(Cathode Ray Tube)ディスプレイ、
液晶ディスプレイ、プラズマディスプレイなどで構成さ
れる。表示装置47には、例えば、インターネットを介
してサーバ装置から送られてきた各種画面や電子メー
ル、リンク集作成装置40にて作成されたディレクトリ
型リンク集ページなどをユーザに対して表示する。
【0045】印刷装置48は、文書6、6、6、…、や
画像などを紙などの印刷媒体に印刷するデバイスであっ
て、例えば、インクジェットプリンタ、レーザプリン
タ、熱転写プリンタ、ドットプリンタなどの各種プリン
タ装置によって構成されている。通信制御部50は、C
PU42にコントロールされながらWebサーバやメー
ルサーバなどとリンク集作成装置40を接続するための
制御装置である。通信制御部50を介して、説明文を作
成する素材である文書ファイル5を取得したり、URL
抽出手段にて抽出されたURLにて指定されるサイトか
ら本文11を取得したりすることができる。
【0046】記憶装置53は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータを読み書
きするための駆動装置によって構成されている。この記
憶媒体として主にハードディスクが使用されるが、その
他に、例えば、光磁気ディスク、磁気ディスク、半導体
メモリなどの他の読み書き可能な記憶媒体によって構成
することも可能である。記憶装置53には、リンク集作
成処理プログラム54、文書データベース13、ブラウ
ザ、OS(Operating System)、イン
ターネット接続プログラムその他のプログラムやデータ
ベースなどが格納されている。
【0047】リンク集作成プログラム54は、リンク集
作成装置40が、ディレクトリ型リンク集ページを作成
するための機能を実現するためのプログラムである。リ
ンク集作成プログラム54が起動される場合は、全部又
は動作に必要な部分がRAM44にロードされる。CP
U42は、RAM44にロードされたリンク集作成プロ
グラム54をレジスタ(CPU42内のメモリ)に読み
込んでこれに従って動作し、図2に示した文書取得手段
21、URL抽出手段22、文書分解手段23、紹介部
決定手段24、本文取得手段27、クラスタリング器3
3、文書分類器32などの機能を実現する。
【0048】ブラウザは、HTML形式のファイル(H
TML言語によって表示装置47に表示する画面やリン
ク先などが記述されている)を用いて表示装置47に所
定の画面を表示したり、表示された画面に対してユーザ
が入力したデータをネットワーク接続したサーバ装置に
送信したりなどする機能を実現するためのプログラムで
ある。ブラウザで表示されるHTML形式のファイル
は、例えば、リンク集作成装置40とネットワーク接続
されたサーバ装置からダウンロードしたり、記憶媒体な
どから取得する。CPU42は、ブラウザが持つ機能を
実現することにより、文書分類器32が作成したディレ
クトリ型リンク集ページを表示装置47に表示すること
ができる。
【0049】OSは、リンク集作成装置40(本実施の
形態ではPC)を動作させるための基本的なプログラム
であり、例えばGUI(Graphical User
Interface)にて、ユーザがリンク集作成装
置40を操作できる環境を実現することができる。イン
ターネット接続プログラムは、通信制御部50を介して
CPU42をインターネットに接続し、インターネット
上に設置されたWebサーバやメールサーバなどとデー
タの送受信を制御する機能を実現するためのプログラム
である。
【0050】記憶媒体駆動装置57は、CPU42が外
部の記憶媒体からコンピュータプログラム、紹介文を作
成するための素材である電子メールなどの文書ファイル
5やその他のデータが記憶された着脱可能な記憶媒体を
駆動するための駆動装置である。この着脱可能な記憶媒
体としては、磁気ディスク、光磁気ディスク、半導体メ
モリなどの読み書き可能な媒体が使用され、この記憶媒
体にリンク集作成プログラム54や文書データベース1
3、文書分類器32が作成したディレクトリ型リンク集
ページ31を表示するためのデータなど格納することも
可能である。また、CD−ROMなどの読み出しのみ可
能な記憶媒体を駆動することも可能である。
【0051】入出力インターフェース58は、例えば、
シリアルインターフェースやその他の規格のインターフ
ェースにより構成されており、リンク集作成装置40と
外部の機器を接続するためのインターフェースである。
入出力インターフェース58により、例えばジョイステ
ィックやマイクロフォンなどの入力装置や、スピーカな
どの出力装置、或いは、記憶媒体駆動装置などの入出力
装置などを接続し、リンク集作成装置40と外部機器と
の入出力を行うことができる。文字認識装置59は、紙
などの印刷媒体などに記載されたテキスト文書やHTM
L文書を読み取って認識する装置であって、イメージス
キャナや文字認識プログラムなどに構成されている。文
字認識装置59により、用紙などに印刷された文書ファ
イル5をリンク集作成装置40に入力することが可能で
ある。
【0052】図5は、リンク先作成装置40がリンク先
ページを作成する手順を示したフローチャートである。
まず、ユーザはリンク先作成装置40をメールサーバ6
2やWebサーバ63などに接続し、文書取得手段21
によってURLを含んだ文書ファイル5を取得する(ス
テップ10)。文書ファイル5は、リンク先サイトの紹
介文を作成するための素材となる。また、必要に応じて
文書ファイル5を記憶装置53に格納しておくこともで
きる。
【0053】次に、文書取得手段21にて取得した文書
ファイル5からURLを抽出する(ステップ15)。こ
のとき、スパムメールなどはフィルタを用いて取り除
き、署名欄はレイアウト解析器にて取り除く。また、U
RL抽出手段22は、検出したURLを文書データベー
ス13に問い合わせる。問い合わせの結果、当該URL
にて特定される本文11が文書データベース13内に既
存であることが確認できた場合、次に述べる本文取得手
段27による本文11の取得は行わず、文書データベー
ス13に格納されている本文11を用いて作業を行う。
【0054】本文取得手段27が、URL抽出手段22
にて抽出されたURLにて特定されるサイトから本文1
1を取得し、これを文書データベース13に格納する
(ステップ20)。この段階では当該サイトに対する紹
介文は未決定である。次に、文書分解手段23が、文書
ファイル5中のURLを検出し、URL前後の自然文を
規定文数だけ紹介文候補として抽出する(ステップ3
0)。
【0055】次に、紹介文決定手段24が、文書分解手
段23で得た各候補文と文書データベース13に格納し
た本文11との類似度を計算する(ステップ35)。ス
テップ35における類似度の計算は、文書6、6、6、
…、に対する文書ベクトル10、10、10、…、と本
文11に対する文書ベクトル12を設定し、これらに対
して所定の演算を施すことにより類似度が数値化され
る。
【0056】次に、紹介文決定手段24は、類似度が最
も大きい文書6を特定した後、当該文書6の類似度が所
定の閾値に達しているかどうかを判断する(ステップ4
0)。類似度が所定の閾値に達している場合は(ステッ
プ40;Y)、紹介文決定手段24は、当該文書6を紹
介文として対応するURLと共に文書データベース13
に出力する。類似度が所定の閾値に達していない場合は
(ステップ40;N)、文書要約器が起動して本文11
の要約文を生成する(ステップ45)。文書要約器は生
成した要約文を紹介文として対応するURLと共に文書
データベース13に出力する。
【0057】文書分類器32は、紹介文をURLと共に
カテゴリ毎にまとめて(ステップ50)、HTMLファ
イルにて出力する(ステップ55)。なお、入力テキス
トを追加する場合、文書データベース13の統計情報が
十分であれば、上記のステップ10からステップ20ま
でを省略でき、文書データベース13に格納されている
データを用いてステップ25以下を行うことが可能であ
る。
【0058】以上、本実施の形態では、文書分類器32
が、HTMLファイルにてリンク集ページを出力するよ
うに構成したが、これはリンク集ページを作成するコン
ピュータ言語をHTMLに限定するものではなく、例え
ばJava、JavaScript、XML(Exte
nsible Markup Language)、P
erl、XHTML(Extensible Hype
rtext Markup Language)その他
のコンピュータ言語を用いて作成しても良い。Jav
a、JavaScriptを用いてリンク集ページを構
成すると、初期画面でディレクトリの階層のトップだけ
が表示され、マウスなどでフォーカスを移動すると階層
の下が展開されるといった動的なページ表現を行うこと
が可能である。
【0059】また、本実施の形態では、文書ファイル5
からURL抽出手段22にてURLを抽出した後、文書
分解手段23にて文書ファイル5を文書6、6、6、
…、に分解したが、これに限定するものではなく、UR
Lの抽出と文書ファイル5の分解を同時に行っても良い
し、又は、文書ファイル5を分解した後にURLを抽出
するように構成することもできる。文書ファイル5を分
解した後にURLを抽出する場合は、例えば、文書ファ
イル5の全てを分解し、分解後にURL近傍の文書6、
6、6、・・・、を抽出するようにすることができでき
る。
【0060】本実施の形態では、ディレクトリ型リンク
集ページを作成したが、これに限定するものではなく、
ディレクトリ型でないリンク集ページを作成するように
構成することもできる。また、リンク集ページに限ら
ず、例えばユーザが入力したキーワードにヒットする紹
介文及びURLを文書データベース13から検索するよ
うに構成することもできる。また、本実施の形態では、
リンク集作成プログラムをクライアント端末装置である
PCに設置したが、これに限定するものではなく、例え
ば、Webサーバ装置に設置してサーバ上でリンク集ペ
ージを作成し、クライアント端末装置から当該リンク集
ページを利用できるように構成しても良い。
【0061】以上に述べた本実施の形態では、以下のよ
うな効果が得られる。電子メール、掲示板、ニュースグ
ループの投稿に埋もれている、人から人へ紹介されたU
RL情報を、利用しやすいディレクトリ型リンク集に加
工する処理を自動的に行うことができる。メーリングリ
スト、掲示板、ニュースグループのアーカイブなど、特
定の読者層を対象にした大量のテキストデータから、上
記URLと紹介文の組を抽出し、分類配置することがで
きる。リンク作成者の作業は、最初の分類カテゴリ作成
だけで、リンク集メンテナンス作業から開放される。通
常の自然文によるURL紹介メッセージを投稿するだけ
で、二次加工されて情報活用されるので、投稿者への動
機付けとなり、このシステムを採用したメーリングリス
ト、掲示板の投稿活動が活性化される。
【0062】(実施の形態の変形例1)上記、実施の形
態では、文書分類器32に与える教師データは、クラス
タリング器33が作成し、文書分類器32に与えたが、
これは、ユーザが作成して文書分類器32に与えること
もできる。この場合は、例えば「教育」に関連するUR
Lを100個、「映画」に関連するURLを100個、
…、などと各カテゴリに属するURLをインターネット
上でディレクトリサービスを行っている既存のサイトか
ら集めて来る。そして、これらのURLにて指定される
サイトに掲載されている文書も集める。即ち、所定のカ
テゴリに属することがわかっているデータを適当な数だ
け集めるのである。そして、これらのデータを、文書分
類器32に学習させるための教師データとして使用する
ことができる。
【0063】変形例1では、リンク集作成装置40がク
ラスタリング器33を装備していない場合でもリンク集
を作成することができる。
【0064】(本実施の形態の変形例2)本変形例は、
既に作成してあるリンク集ページに掲載されている紹介
文よりも、より本文に類似した紹介文を取得した場合
に、前者の紹介文を後者の紹介文で置き換えることによ
りリンク集ページを更新するものである。システム的に
は図2のシステム構成に紹介文更新手段を追加する。
【0065】文書データベース13には、前回にリンク
集ページを作成した際のデータ(URL、紹介文など)
が格納されているものとする。文書6、6、6、…、か
らURLの紹介文を決定するところまでは実施の形態と
同じである。このように新たに取得したURLと紹介文
をそれぞれ新規URL、新規紹介文と呼ぶことにする。
紹介文更新手段は、まず、新規URLと同じURLが存
在するかどうか文書データベース13を検索する。
【0066】同じURLが存在しなかった場合は、紹介
文更新手段は、新規URLと新規紹介文を文書データベ
ース13に追加する。後は、実施の形態と同様にしてク
ラスタリング器33や文書分類器32などを用いてディ
レクトリ型リンク集ページ31を生成する。
【0067】同じURLが存在する場合は、紹介文更新
手段は、既に文書データベース13に格納されている当
該URLに係る紹介文(旧紹介文と呼ぶことにする)の
文書ベクトルと新規紹介文の文書ベクトルを生成して本
文11との類似度を比較する。類似度の比較の結果、新
規紹介文の方が旧紹介文よりも本文11に類似していた
場合は、紹介文更新手段は、文書データベース13内の
旧紹介文を新規紹介文で置き換える。
【0068】類似度比較の結果、旧紹介文の方が新規紹
介文よりも本文11に類似している場合は、紹介文更新
手段は、文書データベース13内の旧紹介文をそのまま
保持する。以上に示したように、紹介文更新手段を起動
することにより文書データベース13内の紹介文は、よ
り適切にリンク先を紹介する紹介文に更新することがで
きる。そして、更新後に文書分類器32を起動してディ
レクトリ型リンク集ページ31を新たに生成することに
より、ディレクトリ型リンク集ページを更新することが
できる。
【0069】(本実施の形態の変形例3)本変形例は、
紹介文決定手段24にて計算した文書6、6、6、…、
の本文11に対する類似度の内、最も大きいものが所定
の閾値に達しなかった場合に、本文11を文書要約器に
て生成した要約文を用いて文書6、6、6、…、類似度
を計算するものである。これは、文書要約器にて本文1
1を要約することにより、文書6、6、6、・・・、との
類似度を高めることが期待できるためである。これは、
本文11を要約することにより、本文11の要旨と関係
の無い部分がカットされるため、要旨と関係の無い部分
に含まれる言葉によるベクトル成分の文書ベクトルに対
する寄与が少なくなるためである。
【0070】図6は、本変形例において、リンク先作成
装置40がリンク先ページを作成する手順を示したフロ
ーチャートである。図5のフローチャートと対応するス
テップには、同じステップ番号を付してある。ステップ
10からステップ35までは、発明の実施の形態と同じ
である。紹介文決定手段24は、文書6、6、6、…、
の本文11に対する類似度を計算した後、最も大きい類
似度が所定の閾値に達しているか否かを判断する(ステ
ップ40)。類似度が所定の閾値に達している場合は
(ステップ40;Y)、紹介文決定手段24は、当該文
書6を紹介文として対応するURLと共に文書データベ
ース13に出力する。
【0071】類似度が所定の閾値に達していない場合は
(ステップ40;N)、文書要約器が起動して本文11
の要約文を生成する(ステップ45)。文書要約器は、
生成した要約文を文書データベース13に出力する。紹
介文決定手段24は、文書データベース13から当該要
約文を取得し、これを新たな文書11として文書6、
6、6、…、の当該要約文に対する類似度を計算する
(ステップ35)。以下、類似度が所定の閾値に達する
まで、ステップ35、40、45を繰り返す。類似度が
所定の閾値に達した場合は、文書6、6、6、…、から
最も類似度が大きかった文書がリンク先のサイトの紹介
文となる。
【0072】以上の構成は、ステップ35、40、45
を所定の回数だけ繰り返しても類似度が閾値に達しなか
った場合は、文書要約器にて本文11を要約したものを
紹介文とするように構成しても良い。また、本文取得手
段27にて取得した本文11を、まず文書要約器にて要
約した後、当該要約後の本文に対する文書6、6、6、
…、の類似度を算出するように構成することもできる。
【0073】変形例3によれば、たとえ文書6、6、
6、…、の本文11に対する類似度が所定の類似度に達
しない場合でも、本文11の内容に最も類似すると思わ
れる文書6を紹介文として採用することができる。
【0074】
【発明の効果】本発明によれば、リンク集を自動作成作
成することができる。
【図面の簡単な説明】
【図1】リンク集作成装置がリンク集を作成する方法を
説明するための図である
【図2】リンク集作成装置のシステム構成を概念的に示
した図である。
【図3】本実施の形態のリンク集作成装置が接続される
ネットワークの構成の一例を示した図である。
【図4】リンク集作成装置の具体的な構成の一例を示し
た図である。
【図5】リンク集作成装置がリンク先ページファイルを
作成する手順を示したフローチャートである。
【図6】変形例3に係るリンク集作成装置がリンク先ペ
ージファイルを作成する手順を示したフローチャートで
ある。
【図7】ディレクトリ構造の一例を説明するための図で
ある。
【符号の説明】
5 文書 6 文書 7 URL 10 文書ベクトル 11 本文 12 文書ベクトル 13 文書データベース 15 ファイル 21 文書取得手段 22 URL抽出手段 23 文書分解手段 24 紹介文決定手段 27 本文取得手段 31 ディレクトリ型リンク集ページ 32 文書分類器 33 クラスタリング器 40 リンク集作成装置 41 制御部 42 CPU 43 ROM 44 RAM 45 キーボード 46 マウス 47 表示装置 48 印刷装置 50 通信制御部 53 記憶装置 54 リンク集作成プログラム 57 記憶媒体駆動装置 58 入出力インターフェース 59 文字認識装置 61 インターネット 62 メールサーバ 63 Webサーバ 64 端末装置
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 13/00 540 G06F 13/00 540F

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文書ファイルを取得する文書取得手段
    と、 前記取得した文書ファイルに含まれるリンク先特定情報
    を抽出するリンク先特定情報抽出手段と、 前記抽出したリンク先特定情報で特定されるリンク先に
    含まれるリンク先文書を取得するリンク先文書取得手段
    と、 前記取得した文書ファイルに含まれている文書から複数
    の紹介文候補を抽出する紹介文候補抽出手段と、 前記抽出した各紹介文候補の前記取得したリンク先文書
    に対する類似度を算出する類似度算出手段と、 前記算出した類似度を用いて紹介文を特定する紹介文特
    定手段と、 を具備したことを特徴とするリンク集作成装置。
  2. 【請求項2】 前記類似度算出手段は、前記リンク先文
    書の文書ベクトルと前記紹介文候補の文書ベクトルを用
    いて所定の演算を行うことにより前記類似度を算出する
    ことを特徴とする請求項1に記載のリンク集作成装置。
  3. 【請求項3】 前記紹介文特定手段は、前記類似度が最
    も大きい前記紹介文候補を紹介文として特定することを
    特徴とする請求項1又は請求項2に記載のリンク集作成
    装置。
  4. 【請求項4】 前記リンク先文書を要約して要約文を生
    成する要約手段を更に具備し、 前記算出した類似度の内、最も大きいものが所定の閾値
    に達しない場合に、前記要約手段は、前記リンク先文書
    の要約文を生成し、 前記紹介文特定手段は、前記要約手段が生成した前記要
    約文を紹介文として特定することを特徴とする請求項1
    又は請求項2に記載のリンク集作成装置。
  5. 【請求項5】 前記リンク先文書を要約して要約文を生
    成する要約手段を更に具備し、 前記算出した類似度の内、最も大きいものが所定の閾値
    に達しない場合に、前記要約手段は、前記リンク先文書
    の要約文を生成し、 前記類似度算出手段は、前記生成した前記要約文に対す
    る前記各紹介文候補の類似度を算出し、 前記紹介文特定手段は、前記類似度が最も大きい紹介文
    候補を紹介文として特定することを特徴とする請求項1
    又は請求項2に記載のリンク集作成装置。
  6. 【請求項6】 前記リンク先文書を要約して要約文を生
    成する要約手段を更に具備し、 前記リンク先文書取得手段は、前記要約手段で生成した
    要約文をリンク先文書として取得することを特徴とする
    請求項1、請求項2又は請求項3に記載のリンク集作成
    装置。
  7. 【請求項7】 前記紹介文特定手段にて特定した前記紹
    介文の内容から、当該紹介文が属するカテゴリを特定す
    るカテゴリ特定手段と、 前記紹介文に、当該紹介文に対応するリンク先特定情報
    と前記特定したカテゴリを関連けて出力する出力手段
    と、 を更に具備したことを特徴とする請求項1から請求項6
    までの内の何れかの1の請求項に記載のリンク集作成装
    置。
  8. 【請求項8】 前記出力手段は、前記紹介文を当該紹介
    文に対応したリンク先特定情報と共に所定のコンピュー
    タ言語で記述したディレクトリ構造として出力し、前記
    ディレクトリ構造は、紹介文のカテゴリを階層的に配置
    したツリー構造を有していることを特徴とする請求項7
    に記載のリンク集作成装置。
  9. 【請求項9】 前記リンク先特定情報は、前記リンク先
    のサイトを特定するURLであることを特徴とする請求
    項1から請求項8までの内の何れかの1の請求項に記載
    のリンク集作成装置。
  10. 【請求項10】 文書取得手段と、リンク先特定情報抽
    出手段と、リンク先文書取得手段と、紹介文候補抽出手
    段と、類似度算出手段と、紹介文特定手段と、を備えた
    コンピュータにおいて、 前記文書取得手段で、文書ファイルを取得する文書取得
    ステップと、 前記リンク先特定情報抽出手段で、前記取得した文書フ
    ァイルに含まれるリンク先特定情報を抽出するリンク先
    特定情報抽出ステップと、 前記リンク先文書取得手段で、前記抽出したリンク先特
    定情報で特定されるリンク先に含まれるリンク先文書を
    取得するリンク先文書取得ステップと、 前記紹介文候補抽出手段で、前記取得した文書ファイル
    に含まれている文書から複数の紹介文候補を抽出する紹
    介文候補抽出ステップと、 前記類似度算出手段で、前記抽出した各紹介文候補の前
    記取得したリンク先文書に対する類似度を算出する類似
    度算出ステップと、 前記紹介文特定手段で、前記算出した類似度を用いて紹
    介文を特定する紹介文特定手ステップと、 から構成されたことを特徴とするリンク集作成方法。
  11. 【請求項11】 文書ファイルを取得する文書取得機能
    と、 前記取得した文書ファイルに含まれるリンク先特定情報
    を抽出するリンク先特定情報抽出機能と、 前記抽出したリンク先特定情報で特定されるリンク先に
    含まれるリンク先文書を取得するリンク先文書取得機能
    と、 前記取得した文書ファイルに含まれている文書から複数
    の紹介文候補を抽出する紹介文候補抽出機能と、 前記抽出した各紹介文候補の前記取得したリンク先文書
    に対する類似度を算出する類似度算出機能と、 前記算出した類似度を用いて紹介文を特定する紹介文特
    定機能と、 をコンピュータに実現させるためのリンク集作成プログ
    ラム。
JP2001200106A 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム Expired - Fee Related JP3571312B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001200106A JP3571312B2 (ja) 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001200106A JP3571312B2 (ja) 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Publications (2)

Publication Number Publication Date
JP2003016082A true JP2003016082A (ja) 2003-01-17
JP3571312B2 JP3571312B2 (ja) 2004-09-29

Family

ID=19037288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001200106A Expired - Fee Related JP3571312B2 (ja) 2001-06-29 2001-06-29 リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Country Status (1)

Country Link
JP (1) JP3571312B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331348A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> トラックバック元のコメント・トラックバックの集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2007157132A (ja) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> 文書ベースの情報およびユニフォーム・リソース・ロケータ(url)の管理方法およびプログラム
JP2007265334A (ja) * 2006-03-30 2007-10-11 Fujitsu Ltd 更新情報表示プログラム及び更新情報表示方法
JP2008084133A (ja) * 2006-09-28 2008-04-10 Toshiba Corp コメント領域抽出装置、プログラムおよびコメント領域抽出方法
JP2010020739A (ja) * 2008-06-12 2010-01-28 Yahoo Japan Corp 社会的な人気・関心を反映したディレクトリを作成、検索、及び表示する情報管理装置、方法及びプログラム
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
JP2013020460A (ja) * 2011-07-12 2013-01-31 Yahoo Japan Corp 要約作成装置及び方法
JP2014112315A (ja) * 2012-12-05 2014-06-19 Ntt Docomo Inc 要約生成装置及び要約生成方法
JP2016162257A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN110750739A (zh) * 2018-07-04 2020-02-04 北京国双科技有限公司 一种页面类型确定方法及装置
JP7355322B1 (ja) 2023-05-22 2023-10-03 株式会社グローカルMa メール要素設定システム及びメール件名設定支援システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203291A (ja) * 1998-01-10 1999-07-30 Ricoh Co Ltd 分類情報生成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203291A (ja) * 1998-01-10 1999-07-30 Ricoh Co Ltd 分類情報生成装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4539438B2 (ja) * 2005-05-30 2010-09-08 日本電信電話株式会社 トラックバック元のコメント・トラックバックの集約方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2006331348A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> トラックバック元のコメント・トラックバックの集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2007157132A (ja) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> 文書ベースの情報およびユニフォーム・リソース・ロケータ(url)の管理方法およびプログラム
JP2007265334A (ja) * 2006-03-30 2007-10-11 Fujitsu Ltd 更新情報表示プログラム及び更新情報表示方法
JP4693680B2 (ja) * 2006-03-30 2011-06-01 富士通株式会社 更新情報表示プログラム及び更新情報表示方法
JP2008084133A (ja) * 2006-09-28 2008-04-10 Toshiba Corp コメント領域抽出装置、プログラムおよびコメント領域抽出方法
JP2010020739A (ja) * 2008-06-12 2010-01-28 Yahoo Japan Corp 社会的な人気・関心を反映したディレクトリを作成、検索、及び表示する情報管理装置、方法及びプログラム
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
JP2013020460A (ja) * 2011-07-12 2013-01-31 Yahoo Japan Corp 要約作成装置及び方法
JP2014112315A (ja) * 2012-12-05 2014-06-19 Ntt Docomo Inc 要約生成装置及び要約生成方法
JP2016162257A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN110750739A (zh) * 2018-07-04 2020-02-04 北京国双科技有限公司 一种页面类型确定方法及装置
CN110750739B (zh) * 2018-07-04 2022-07-05 北京国双科技有限公司 一种页面类型确定方法及装置
JP7355322B1 (ja) 2023-05-22 2023-10-03 株式会社グローカルMa メール要素設定システム及びメール件名設定支援システム

Also Published As

Publication number Publication date
JP3571312B2 (ja) 2004-09-29

Similar Documents

Publication Publication Date Title
US9411827B1 (en) Providing images of named resources in response to a search query
EP1428139B1 (en) System and method for extracting content for submission to a search engine
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
JP4365074B2 (ja) ユーザ定義可能なパーソナリティを備えた文書拡充システム
US8862591B2 (en) System and method for evaluating sentiment
AU2012327239B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US6341306B1 (en) Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
Kotenko et al. Categorisation of web pages for protection against inappropriate content in the internet
US8661035B2 (en) Content management system and method
US20080059897A1 (en) Method and system of social networking through a cloud
US20050216516A1 (en) Advertisement placement method and system using semantic analysis
US8874590B2 (en) Apparatus and method for supporting keyword input
GB2339374A (en) Display screen and window size related web page adaptation system
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20080120541A1 (en) System and method for on-line retrieval and typing of non-standard characters
WO2002063481A1 (en) A dynamic object type for information management and real time graphic collaboration
Chau et al. Web searching in Chinese: A study of a search engine in Hong Kong
JP2008176511A (ja) コンピュータネットワークにおける情報処理方法および情報処理装置
JP3571312B2 (ja) リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム
WO2002017166A2 (en) System and method for automatic preparation and searching of scanned documents
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
CN1845134B (zh) 基于计算机网络的防转载或/和反剽窃监控方法
CN110175288B (zh) 一种面向青少年群体的文字和图像数据的过滤方法及系统
US20230004345A1 (en) Method of browsing a resource through voice interaction
US20120047128A1 (en) Open class noun classification

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040623

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100702

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees