JP2000331017A - 文書間関連度計算装置、その方法およびその記録媒体 - Google Patents

文書間関連度計算装置、その方法およびその記録媒体

Info

Publication number
JP2000331017A
JP2000331017A JP11139133A JP13913399A JP2000331017A JP 2000331017 A JP2000331017 A JP 2000331017A JP 11139133 A JP11139133 A JP 11139133A JP 13913399 A JP13913399 A JP 13913399A JP 2000331017 A JP2000331017 A JP 2000331017A
Authority
JP
Japan
Prior art keywords
document
hyperlink
relevance
inter
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11139133A
Other languages
English (en)
Other versions
JP3604069B2 (ja
Inventor
Masakatsu Okubo
雅且 大久保
Masayuki Sugizaki
正之 杉崎
Daijiro Mori
大二郎 森
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP13913399A priority Critical patent/JP3604069B2/ja
Publication of JP2000331017A publication Critical patent/JP2000331017A/ja
Application granted granted Critical
Publication of JP3604069B2 publication Critical patent/JP3604069B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 人間が作成したリンク集等に記載されている
関連文書集合を集計することによって、人間の視点によ
り近い形での文書間の関連度を計算する文書間関連度計
算装置および方法を提供することを目的とする。 【解決手段】 所定の文書を参照するURL等のハイパ
ーリンクを持つ文書間の関連度を計算する場合、各文書
内に記述されているハイパーリンクを抽出し、この抽出
されたハイパーリンクによってリンクされている文書の
それぞれの間の関連度を計算し、この計算された関連度
を集計するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書間の関連度を
計算する文書間関連度計算装置および方法に係り、特
に、互いにハイパーリンクによって参照されている文書
間の関連度を、ハイパーリンクに応じて計算する文書間
関連度計算装置および方法に関する。
【0002】
【従来の技術】文書間の関連度を計算することによっ
て、ユーザが指定した文書に関連する文書を効率的に検
索したり、大量の文書を分類して活用することができ
る。これを実現するために、文書間の関連度を計算する
方法が、従来から提案されている。
【0003】たとえば、文献(G. Salton,“Automatic
Text Processing”,Addison Wesley, Reading, Mass, 1
989)では、各文書に含まれる単語の頻度に基づいて、
文書間の関連度を計算する点が開示されている。すなわ
ち、2つの文書間で、頻出する単語が互いに類似してい
る場合には、互いに関連度が高く、逆に、頻出する単語
が互いに類似している度合いが低い場合には、関連度が
低いと考える。
【0004】しかし、同じ概念を記述する場合でも、同
義語を用いたり、日本語と英語等言語そのものが異なっ
たりする場合があるので、単語の統計的な処理によって
得られた文書間関連度の精度は、必ずしも高いとはいえ
ない。
【0005】さらに、文書間の関連性は、使用されてい
る単語の類似性のみによって決定されるものではなく、
様々な視点から定義することができる。
【0006】したがって、関連文書検索等のサービスを
提供する場合、互いに関連していることを多くの人間が
認めるような文書集合を見つけることが必要である。
【0007】
【発明が解決しようとする課題】しかし、従来例では、
上記のように多くの人間が認めるような文書間関連性を
見つけることができないという問題がある。
【0008】たとえば、インターネット上では、3億ペ
ージを超えるWWW文書が公開され(S. Lawrence and
C.L.Giles,“Searching the World Wide Web”, Scienc
e,Vol.280, No.5360, p.98, 1998)、多くのユーザは、
自分の興味に合致し、しかも何度もアクセスする文書
を、自分の視点から関連付けたリンク集を作成して公開
している。すなわち、リンク集に掲載されている文書
は、ある程度良質で、しかも所定の視点からの関連性が
定義されているとみなすことができる。したがって、こ
れらの関連性を集計することによって、良質な関連文書
集合を作成することができ、この結果、関連ページ検索
等を初めとする有効なサービスを提供することが可能に
なる。
【0009】しかし、上記従来例では、人間の視点によ
り近い形での文書間の関連度を計算することができない
という問題がある。
【0010】本発明は、人間が作成したリンク集等に記
載されている関連文書集合を集計することによって、人
間の視点により近い形での文書間の関連度を計算する文
書間関連度計算装置および方法を提供することを目的と
する。
【0011】
【課題を解決するための手段】本発明は、所定の文書を
参照するURL等のハイパーリンクを持つ文書間の関連
度を計算する場合、各文書内に記述されているハイパー
リンクを抽出し、この抽出されたハイパーリンクによっ
てリンクされている文書のそれぞれの間の関連度を計算
し、この計算された関連度を集計するものである。
【0012】
【発明の実施の形態および実施例】図1は、本発明の一
実施例である文書間関連度計算装置100を示すブロッ
ク図である。
【0013】文書間関連度計算装置100は、所定の文
書を参照するURL等のハイパーリンクを持つ文書間の
関連度を計算する装置であり、文書選択手段10と、H
TML文書集合用メモリ11と、URL抽出手段20
と、増減ルール用メモリ21と、文書間関連度計算手段
30と、文書間集計手段40と、文書間関連度用メモリ
41とを有する。
【0014】ここで、上記実施例において、関連度を計
算する対象となる文書は、HTML(Hyper Text Marku
p Language)によって記述されている文書であるとし、
またリンク先の文書位置(文書格納場所)は、URL
(Uniform Resource Locator)によって示されていると
する。
【0015】文書選択手段10は、HTML文書集合用
メモリ11に格納されているHTML文書から所望の文
書を選択する手段である。
【0016】HTML文書集合用メモリ11は、HTM
L文書集合が多数格納されているメモリである。
【0017】URL抽出手段20は、各文書内に記述さ
れているハイパーリンクを抽出するハイパーリンク抽出
手段の例であり、上記実施例では、各文書内からURL
を抽出する手段である。
【0018】増減ルール用メモリ21は、タグの種類に
応じて距離を増減する増減ルールのデータを格納してあ
るメモリである。
【0019】文書間関連度計算手段30は、URL抽出
手段20によって抽出されたURLによってリンクされ
ている複数の文書のそれぞれの間における文書間関連度
を計算する手段である。
【0020】文書間集計手段40は、文書間関連度計算
手段30によって計算された文書間関連度を集計する手
段である。
【0021】文書間関連度用メモリ41は、文書間文書
間関連度が格納されているメモリである。
【0022】図2は、文書間関連度計算装置100の動
作を示すフローチャートである。
【0023】まず、処理対象とするHTML文書を選択
する(S1)。選択されたHTML文書に記述されてい
るURLと、そのURLによって参照されている文書の
格納場所とを抽出し(S2)、抽出された各URLの間
における関連度を求める。つまり、1つのURLによっ
て参照されている文書と、他のURLによって参照され
ている文書との間の関連度を求める(S3)。そして、
各URL間の関連度を集計する。つまり、上記求められ
た文書間関連度を集計する(S4)。そして、全てのH
TML文書について上記計算が完了するまで、上記処理
(S1〜S4)を繰り返す(S5)。
【0024】上記実施例を、記録媒体の発明として把握
することができる。つまり、上記実施例は、処理対象と
するHTML文書を選択する文書選択手順と、上記選択
されたHTML文書において表示されているハイパーリ
ンクと、上記選択されたHTML文書において上記ハイ
パーリンクを表示する表示用記述における上記ハイパー
リンクの位置とを抽出する抽出手順と、上記抽出された
1つのハイパーリンクによって参照されている文書と、
上記抽出された他のハイパーリンクによって参照されて
いる文書との間の文書間関連度を演算する文書間関連度
演算手順と、上記演算された文書間関連度を集計する集
計手順とをコンピュータに実行させるプログラムを記録
したコンピュータ読み取り可能な記録媒体の例である。
【0025】この場合、上記記録媒体として、FD、C
D、DVD、半導体メモリ等が考えられる。
【0026】図3は、上記実施例で用いられているHT
ML文書の記述例を示す図である。
【0027】図4は、図3に示したHTML文書をブラ
ウザで表示した例を示す図である。
【0028】図3に示すように、HTML文書は、「<
HEAD>」や「</HEAD>」のように、「<」で
始まり「>」で終わるタグと、通常のテキストデータと
が混在したものである。
【0029】また、他の文書へのハイパーリンクは、た
とえば図3の12行目に記載されている「<A HRE
F=“URL1”>文書1</A>」のように、表され
る。つまり、(1)ハイパーリンクを示すタグ「<A
>」、リンク先文書の格納場所を表す「“URL1”」
と、(2)ハイパーリンク先の文書の表示用テキスト
「文書1」と、(3)ハイパーリンクの記述の終了を示
すタグ「</A>」とによって、他の文書へのハイパー
リンクが表される。
【0030】また、図2に示すステップS2では、HT
ML文書中から、ハイパーリンクとして記述されている
他文書の格納場所(つまり、URL)と、そのURLに
対応する表示用テキストとを抽出する。
【0031】図3に示すHTML文書では、12行目、
13行目、17行目、18行目に、ハイパーリンクが記
述されている。このHTML文書から、他文書の格納場
所として、URL1、URL2、URL11、URL1
2をそれぞれ抽出する。
【0032】一方、各ハイパーリンクが参照するテキス
トは、それぞれ、文書1、文書2、文書11、文書12
である。これらの(表示用)テキストが記述されている
位置を、所定の位置算出ルールに従って求める。上記実
施例における位置算出ルールは、HTML文書の最初の
部分から、テキストが記述されている位置までのバイト
数である。なお、図3の記述では、1行目は1byte
目から始まる。
【0033】このようにして数えると、文書1、文書
2、文書11、文書12の記述位置は、図3(1)に示
すように、それぞれ、129、158、215、246
である。
【0034】なお、上記実施例では、各リンクの表示用
テキストの記述位置を算出するルールは、HTML文書
の最初の部分から、テキストが記述されている位置まで
のバイト数であるが、上記ルールとは別のルールを使用
するようにしてもよい。
【0035】たとえば、HTML文書の最初の部分か
ら、テキストが記述されている位置までまでの間で、タ
グを除いたバイト数が、各リンクの表示用テキストの記
述位置であるとするルールを採用するようにしてもよ
い。このルールによれば、文書1、文書2、文書11、
文書12の記述位置は、図3(2)に示すように、それ
ぞれ、44、50、65、72である。
【0036】また、HTML文書の最初の部分から、テ
キストが記述されている位置までのバイト数を、タグの
種類に応じて増減する増減ルールを定め、この増減ルー
ルを加味し、上記テキストが記述されている位置までの
バイト数を求めるようにしてもよい。
【0037】図5は、上記実施例において、タグの種類
に応じた増減ルールの例を示す図である。
【0038】図5において、<HR>タグは+100、
<UL>タグと<H1>タグとは+50、<H2>タグ
は+30、その他のタグは増減しない。この結果、たと
えば図3の8行目に記載されている関連文献集は、上記
タグを除いたバイト数で数えると、その記述位置は24
であるが、増減ルールを適用すると、<H1>の後なの
で、「50」を加算するので、その記述位置は74であ
る。
【0039】このように、増減ルールを適用することに
よって、文書1、文書2、文書11、文書12の記述位
置は、図3(3)に示すように、それぞれ、274、2
80、375、382である。
【0040】また、ブラウザで表示した場合に何行目に
表示されるかによって、記述位置を表すことができる。
この場合、文書1、文書2、文書11、文書12の記述
位置は、図3(4)に示すように、それぞれ、4、5、
8、9である。
【0041】図2におけるステップS3では、ステップ
S2において抽出された各URLと、URLを表示する
表示用記述における上記URLの位置とに基づいて、各
URL間の関連度(つまり、URLが参照する文書間の
関連度)を計算する。上記実施例において、関連度は、
表示用テキストの記述位置同士の差分の逆数とする。
【0042】図6は、上記実施例において計算されたU
RL間の関連度を示す図である。
【0043】上記のように、表示用テキストの記述位置
同士の差分の逆数によって、文書間関連度を求め、この
ようにして求められたURL1、URL2、URL1
1、URL12の間の関連度は、図6のように計算され
る。
【0044】なお、URL間の関連度の計算方法とし
て、表示用テキストの記述位置の差分の2乗の逆数を用
いる方法以外に、表示用テキストの記述位置に基づく方
法を採用するようにしてもよい。
【0045】図3におけるステップS4では、各HTM
L文書について計算されたURL間の関連度を集計す
る。
【0046】ステップS1〜S4を、対象となる全ての
HTML文書について実行することによって、各URL
間の関連度、すなわちそのURLで示されているHTM
L文書間の関連度を求めることができる。
【0047】このようにして求められた関連度は、もと
のHTML文書間ではハイパーリンクによって直接結合
されていなくても、多くのHTML文書内で互いに近く
に記述してあれば、高い関連度を持つことになる。した
がって、多くのユーザが様々な観点から関連リンク集を
作成しているインターネット上のWWW文書の場合に
は、その関連性を集計することによる関連ページ検索等
のサービスを提供することができるので、利便性を著し
く向上させることができる。
【0048】図7は、上記実施例におけるステップS
2、S3の動作説明図である。
【0049】図7(1)は、抽出された各リンク、その表
示用テキストの記述位置を示す図であり、図7(2)は、
2つのリンクのそれぞれが参照するテキストの記述位置
同士の差分の逆数を文書間関連度として示す図である。
図7は、図6と内容的には同じものである。
【0050】図8は、上記実施例において、2つのリン
クのそれぞれが参照するテキストの記述位置同士の差分
の逆数である文書間関連度を計算する具体例を示すフロ
ーチャートである。
【0051】入力されたリンクの数をNとし(図7に示
す例ではN=4)、各リンクを、LINK[i]とし(図
7に示す例ではi=1、2、3、4)、各リンクの表示
用テキストの記述位置を、POS[i]とし、LINK
[i]とLINK[j]との関連度を、REL[i,j]とす
る。
【0052】図8において、リンクの順番iを1にセッ
トし(S11)、このiがN−1に達すれば(S12)、出
力し、達しなければ、文書関連度を求める相手のリンク
の順番jをn+1とし(S13)、LINK[i]とLI
NK[j]との関連度REL[i,j]を、差分の逆数とし
て演算し(S14)、相手のリンクの順番jを1インク
リメントし(S15)、相手のリンクの順番jがN以下
であれば(S16)、上記処理(S14、S15)を繰り
返す(S16)。相手のリンクの順番jがNよりも大きく
なれば(S16)、リンクの順番iを1インクリメントし
(S17)、ステップS12に戻る。
【0053】つまり、複数のHTML文書から1つのH
TML文書が選択され、この選択されたHTML文書に
おいて表示されているハイパーリンクを抽出し、上記選
択されたHTML文書において上記ハイパーリンクを表
示する表示用記述における上記ハイパーリンクの位置を
抽出した後、上記抽出された1つ目のハイパーリンクに
よって参照されている文書と、上記抽出された2つ目の
ハイパーリンクによって参照されている文書との間の文
書間関連度を文書間関連度演算手順で演算するが、この
文書間関連度演算手段の例として、上記実施例では、入
力されたハイパーリンクの数をNとし、各ハイパーリン
クをLINK[i]とし、各ハイパーリンクの表示用テキ
ストの記述位置を、POS[i]とし、LINK[i]とL
INK[j]との関連度をREL[i,j]とし、LINK
[i]とLINK[j]との関連度REL[i,j]を、差分
の逆数として演算する。
【0054】すなわち、上記選択されたHTML文書に
おいて1つ目の上記ハイパーリンクを表示する表示用記
述における上記ハイパーリンクの位置と、上記選択され
たHTML文書において2つ目の上記ハイパーリンクを
表示する表示用記述における上記ハイパーリンクの位置
との差分の逆数を、上記文書間関連度として求める。
【0055】図9は、上記実施例におけるステップS
2、S3の他の動作説明図である。
【0056】図9(1)は、入力された複数のリンクのう
ちで同一のリンクがあった場合の例を示す図である。つ
まりURL1が2つ存在する。この場合、2つのリンク
がそれぞれ参照する2つのテキストの位置の最大値を採
用する。なお、2つのリンクがそれぞれ参照する2つの
テキストの位置の平均値を採用するようにしてもよい。
【0057】図9(2)は、図9(1)に示す場合におい
て、2つのリンクのそれぞれが参照するテキストの記述
位置同士の差分の逆数を文書間関連度として示す図であ
る。
【0058】図10は、上記実施例において、入力され
た複数のリンクのうちで同一のリンクがあり、これら2
つのリンクがそれぞれ参照する2つのテキストの位置の
最大値を採用した場合に、文書関連度を求めるフローチ
ャートである。
【0059】図10に示すフローチャートは、基本的に
は、図8に示すフローチャートと同じであるが、図8に
示すフローチャートにおけるステップS14の代わり
に、ステップS21〜S24を設けたものである。
【0060】なお、LINK[1]=LINK[3]であ
り、各リンクの、リンク名から決定される一意なID
を、ID[リンク名]とする。また、ID[LINK[i]]
と、ID[LINK[j]]との関連度を、REL[ID[L
INK[i]],ID[LINK[j]]]とし、max(a,
b)は、a,bのうちで小さくない方の値である。
【0061】つまり、文書関連度を求める相手のリンク
の順番jをn+1とし(S13)た後に、LINK[i]
とLINK[j]との差分の逆数Rを求め(S21)、R
EL[ID[LINK[i]],ID[LINK[j]]]の計算
が終了していれば(S22)、max(REL[ID[LI
NK[i]],ID[LINK[j]]],R)を、REL[I
D[LINK[i]],ID[LINK[j]]]とし(S2
3)、一方、REL[ID[LINK[i]],ID[LIN
K[j]]]の計算が終了していなければ(S22)、Rを、
REL[ID[LINK[i]],ID[LINK[j]]]とす
る(S24)。
【0062】すなわち、1つ目の上記ハイパーリンクが
2つ存在する場合、上記1つ目の上記ハイパーリンクを
表示する表示用記述における上記ハイパーリンクの位置
の最大値または、その平均値を、上記ハイパーリンクの
位置とする。
【0063】上記実施例において、文書を記述する方式
として、HTMLによる記述方式を採用しているが、文
書間の関連を記述できる言語であれば、他の記述言語を
使用するようにしてもよい。この記述言語としては、た
とえばXML(eXtensible Markup Language)等があ
る。
【0064】なお、上記実施例は、集計対象となる文書
が予め収集され、データベース等に格納されている場合
の例であるが、集計対象となる文書を収集する処理と並
行して、文書間の関連度を算出するようにしてもよい。
【0065】上記実施例によれば、まず、各文書内に記
述されているハイパーリンクを抽出し、ハイパーリンク
は、リンク先の文書を一意に特定する文書ロケーション
(URL)と、そのリンクを画面に表示する際に使われ
る表示用記述とによって構成され、ハイパーリンク抽出
する場合、上記文書ロケーション(URL)と、上記表
示用記述の文書内での位置を抽出する。次に、抽出され
た各文書ロケーション(URL)間の関連度を、表示用
記述の文書内での位置に基づいて計算する。このとき、
記述位置が近い程、関連度が高くなり、記述位置が遠い
程、関連度が低くなるように計算することによって、そ
の文書の作成者が意図した文書間の関連性を求める。最
後に、計算された文書間関連度を集計することによっ
て、最終的に各文書間の関連度を求めることができる。
【0066】
【発明の効果】本発明によれば、人間が記述したリンク
集等を集計することによって、文書間の関連度を計算す
るので、人間の視点によって近い形で関連度を求めるこ
とができ、この結果、関連情報の提示や検索等の情報提
供システムの操作性が極めて向上するという効果を奏す
る。
【図面の簡単な説明】
【図1】本発明の一実施例である文書間関連度計算装置
100を示すブロック図である。
【図2】文書間関連度計算装置100の動作を示すフロ
ーチャートである。
【図3】上記実施例で用いられているHTML文書の記
述例を示す図である。
【図4】図3に示したHTML文書をブラウザで表示し
た例を示す図である。
【図5】上記実施例において、タグの種類に応じた増減
ルールの例を示す図である。
【図6】上記実施例において計算されたURL間の関連
度を示す図である。
【図7】上記実施例におけるステップS2、S3の動作
説明図である。
【図8】上記実施例において、2つのリンクのそれぞれ
が参照するテキストの記述位置同士の差分の逆数である
文書間関連度を計算する具体例を示すフローチャートで
ある。
【図9】上記実施例におけるステップS2、S3の他の
動作説明図である。
【図10】上記実施例において、入力された複数のリン
クのうちで同一のリンクがあり、これら2つのリンクが
それぞれ参照する2つのテキストの位置の最大値を採用
した場合に、文書関連度を求めるフローチャートであ
る。
【符号の説明】
10…文書選択手段、 11…HTML文書集合用メモリ、 20…URL抽出手段、 21…増減ルール用メモリ、 30…文書間関連度計算手段、 40…文書間集計手段、 41…文書間関連度用メモリ。
フロントページの続き (72)発明者 森 大二郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND02 PQ02 PQ36 5B082 EA00 EA01

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 所定の文書を参照するハイパーリンクを
    持つ文書間の関連度を計算する文書間関連度計算装置に
    おいて、 上記各文書内に記述されているハイパーリンクを抽出す
    るハイパーリンク抽出手段と;上記ハイパーリンク抽出
    手段によって抽出されたハイパーリンクによって参照さ
    れている複数の文書のそれぞれの間における関連度を計
    算する文書間関連度計算手段と;上記文書間関連度計算
    手段によって計算された関連度を集計する文書間関連度
    集計手段と;を有することを特徴とする文書間関連度計
    算装置。
  2. 【請求項2】 請求項1において、 上記ハイパーリンク抽出手段は、リンク先の文書が格納
    されている格納場所を示すハイパーリンクと、上記ハイ
    パーリンクを表示する表示用記述における上記ハイパー
    リンクの位置とを抽出する手段であり、 上記文書間関連度計算手段は、上記ハイパーリンクを表
    示する表示用記述における上記ハイパーリンクの位置に
    応じて、上記ハイパーリンクに対応する2つの文書間関
    連度を計算する手段であることを特徴とする文書間関連
    度計算装置。
  3. 【請求項3】 請求項2において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 文書の先頭からのバイト数によって数えられた位置であ
    ることを特徴とする文書間関連度計算装置。
  4. 【請求項4】 請求項2において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 文書の先頭からタグ情報を除いたバイト数によって数え
    られた位置であることを特徴とする文書間関連度計算装
    置。
  5. 【請求項5】 請求項2において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 各タグ情報に応じて定められた所定の増減ルールに応じ
    て、文書の先頭から数えた位置であることを特徴とする
    文書間関連度計算装置。
  6. 【請求項6】 請求項2において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 文書を表示した際の行数によって数えられた位置である
    ことを特徴とする文書間関連度計算装置。
  7. 【請求項7】 所定の文書を参照するハイパーリンクを
    持つ文書間の関連度を計算する文書間関連度計算方法に
    おいて、 上記各文書内に記述されているハイパーリンクを抽出す
    るハイパーリンク抽出段階と;上記ハイパーリンク抽出
    段階によって抽出されたハイパーリンクによって参照さ
    れている複数の文書のそれぞれの間における関連度を計
    算する文書間関連度計算段階と;上記文書間関連度計算
    段階によって計算された関連度を集計する文書間関連度
    集計段階と;を有することを特徴とする文書間関連度計
    算方法。
  8. 【請求項8】 請求項7において、 上記ハイパーリンク抽出段階は、リンク先の文書が格納
    されている格納場所を示すハイパーリンクと、上記ハイ
    パーリンクを表示する表示用記述における上記ハイパー
    リンクの位置とを抽出する段階であり、 上記文書間関連度計算段階は、上記ハイパーリンクを表
    示する表示用記述における上記ハイパーリンクの位置に
    応じて、上記ハイパーリンクに対応する2つの文書間関
    連度を計算する段階であることを特徴とする文書間関連
    度計算方法。
  9. 【請求項9】 請求項8において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 文書の先頭からのバイト数によって数えられた位置であ
    ることを特徴とする文書間関連度計算方法。
  10. 【請求項10】 請求項8において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 文書の先頭からタグ情報を除いたバイト数によって数え
    られた位置であることを特徴とする文書間関連度計算方
    法。
  11. 【請求項11】 請求項8において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 各タグ情報に応じて定められた所定の増減ルールに応じ
    て、文書の先頭から数えた位置であることを特徴とする
    文書間関連度計算方法。
  12. 【請求項12】 請求項8において、 上記ハイパーリンクを表示する表示用記述における上記
    ハイパーリンクの位置は、 文書を表示した際の行数によって数えられた位置である
    ことを特徴とする文書間関連度計算方法。
  13. 【請求項13】 処理対象とするHTML文書を選択す
    る文書選択手順と;上記選択されたHTML文書におい
    て表示されているハイパーリンクと、上記選択されたH
    TML文書において上記ハイパーリンクを表示する表示
    用記述における上記ハイパーリンクの位置とを抽出する
    抽出手順と;上記抽出された1つのハイパーリンクによ
    って参照されている文書と、上記抽出された他のハイパ
    ーリンクによって参照されている文書との間の文書間関
    連度を演算する文書間関連度演算手順と;上記演算され
    た文書間関連度を集計する集計手順と;をコンピュータ
    に実行させるプログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  14. 【請求項14】 請求項13において、 上記文書間関連度演算手順は、 上記選択されたHTML文書において1つ目の上記ハイ
    パーリンクを表示する表示用記述における上記ハイパー
    リンクの位置と、上記選択されたHTML文書において
    2つ目の上記ハイパーリンクを表示する表示用記述にお
    ける上記ハイパーリンクの位置との差分の逆数を、上記
    文書間関連度として求める手順であることを特徴とする
    コンピュータ読み取り可能な記録媒体。
  15. 【請求項15】 請求項14において、 上記1つ目の上記ハイパーリンクが2つ存在する場合、
    上記1つ目の上記ハイパーリンクを表示する表示用記述
    における上記ハイパーリンクの位置の最大値または、そ
    の平均値を、上記ハイパーリンクの位置とすることを特
    徴とするコンピュータ読み取り可能な記録媒体。
JP13913399A 1999-05-19 1999-05-19 文書間関連度計算装置、その方法およびその記録媒体 Expired - Lifetime JP3604069B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13913399A JP3604069B2 (ja) 1999-05-19 1999-05-19 文書間関連度計算装置、その方法およびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13913399A JP3604069B2 (ja) 1999-05-19 1999-05-19 文書間関連度計算装置、その方法およびその記録媒体

Publications (2)

Publication Number Publication Date
JP2000331017A true JP2000331017A (ja) 2000-11-30
JP3604069B2 JP3604069B2 (ja) 2004-12-22

Family

ID=15238312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13913399A Expired - Lifetime JP3604069B2 (ja) 1999-05-19 1999-05-19 文書間関連度計算装置、その方法およびその記録媒体

Country Status (1)

Country Link
JP (1) JP3604069B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
JP2009509259A (ja) * 2005-09-20 2009-03-05 フランス テレコム 一組の電子文書を並べ替える方法
JP2012212333A (ja) * 2011-03-31 2012-11-01 Yahoo Japan Corp 急上昇ワード関連付け装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105572A (ja) * 1996-10-02 1998-04-24 Nec Corp 文書グループ化装置および文書グループ化方法
JPH10134087A (ja) * 1996-09-06 1998-05-22 Toshiba Corp 文書要求装置および関連文書の先取り方法
JPH10254899A (ja) * 1997-03-13 1998-09-25 Fujitsu Ltd 文書分類システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134087A (ja) * 1996-09-06 1998-05-22 Toshiba Corp 文書要求装置および関連文書の先取り方法
JPH10105572A (ja) * 1996-10-02 1998-04-24 Nec Corp 文書グループ化装置および文書グループ化方法
JPH10254899A (ja) * 1997-03-13 1998-09-25 Fujitsu Ltd 文書分類システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
JP2009509259A (ja) * 2005-09-20 2009-03-05 フランス テレコム 一組の電子文書を並べ替える方法
JP2012212333A (ja) * 2011-03-31 2012-11-01 Yahoo Japan Corp 急上昇ワード関連付け装置及び方法

Also Published As

Publication number Publication date
JP3604069B2 (ja) 2004-12-22

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
JP3703080B2 (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US20020107847A1 (en) Method and system for visual internet search engine
JP5384837B2 (ja) 文書に注釈を付するシステムと方法
US8745039B2 (en) Method and system for user guided search navigation
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
US7058944B1 (en) Event driven system and method for retrieving and displaying information
US9104772B2 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
US8650483B2 (en) Method and apparatus for improving the readability of an automatically machine-generated summary
KR100849272B1 (ko) 마크업 문서 자동 요약 방법
JP5222581B2 (ja) 文書に注釈を付するシステムと方法
KR101393839B1 (ko) 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템
US7310633B1 (en) Methods and systems for generating textual information
US20060123042A1 (en) Block importance analysis to enhance browsing of web page search results
US20150234827A1 (en) Method, apparatus, and device for ranking search results
US20070074108A1 (en) Categorizing page block functionality to improve document layout for browsing
JP2000194612A (ja) 電子デ―タの内容を無線装置用に変換する方法およびシステム
CN101454781A (zh) 扩展的摘录
KR20110085995A (ko) 검색 결과들의 제공
KR20060017501A (ko) 소정의 검색 질의로부터의 검색 결과에 대한 액세스를제공하는 url들로 보완된 검색 엔진
JP5103051B2 (ja) 情報処理システム及び情報処理方法
US20050283470A1 (en) Content categorization
KR20020075359A (ko) 디지털 소스로부터 정보를 포착하고 관리하기 위한 시스템및 방법
KR100917458B1 (ko) 추천검색어 제공 방법 및 시스템
JP2002116983A (ja) ウェブコンテンツの変換方法およびシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040924

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081008

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101008

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101008

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111008

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111008

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term