JP4005798B2 - 文書間関連度計算装置並びに記録媒体及びソフトウェア - Google Patents

文書間関連度計算装置並びに記録媒体及びソフトウェア Download PDF

Info

Publication number
JP4005798B2
JP4005798B2 JP2001371149A JP2001371149A JP4005798B2 JP 4005798 B2 JP4005798 B2 JP 4005798B2 JP 2001371149 A JP2001371149 A JP 2001371149A JP 2001371149 A JP2001371149 A JP 2001371149A JP 4005798 B2 JP4005798 B2 JP 4005798B2
Authority
JP
Japan
Prior art keywords
document
relevance
documents
hyperlink
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001371149A
Other languages
English (en)
Other versions
JP2003173355A (ja
Inventor
正之 杉崎
俊朗 牧野
聡哉 栗島
博人 稲垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001371149A priority Critical patent/JP4005798B2/ja
Publication of JP2003173355A publication Critical patent/JP2003173355A/ja
Application granted granted Critical
Publication of JP4005798B2 publication Critical patent/JP4005798B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ハイパーリンク情報が含まれる文書について複数の文書間での関連度を求めるために用いられる文書間関連度計算装置並びに記録媒体及びソフトウェアに関する。
【0002】
【従来の技術】
近年、インターネットなどのコンピュータネットワークを通じて、大量の電子化された文書をやり取りしたり、不特定他数を対象にした情報発信ができるようになっている。
コンピュータネットワーク上で流通する文書においては、その特徴を生かした表現が利用されている。中でもWWW(World Wide Web)上で利用されるHTML(Hyper Text Markup Language)と呼ばれる文書には、ハイパーリンクの機能が備わっている。ハイパーリンクは、任意のコンピュータ上に存在する他の任意の文書を参照するためのリンク情報である。
【0003】
ハイパーリンクを利用することにより、1つの文書から他の特定の文書を簡単に参照することができる。
従って、例えばある文書の作者が信頼できる他人の文書に対する参照機能を自分の文書に付加して情報を補間したり、類似する文書を示したいような場合にハイパーリンクが利用される。
【0004】
このようなハイパーリンクの文書内共起情報を用いて複数の文書間における関連度を計算する方法については、例えば特開2000−331017に開示されている。
この方法では、文書(a)内に共起しているハイパーリンクを抽出し、抽出されたハイパーリンクによって関連付けされている文書間の関連度を、文書(a)内のハイパーリンク間の距離として文字数に換算して求める。このようにして求められる関連度は、文書検索結果の生成や類似文書の検索などに用いることができる。
【0005】
【発明が解決しようとする課題】
しかし、従来の方法を用いる場合には、例えば1つの文書(a)内に互いに関連のない2つの文書(b,c)に対するハイパーリンクを並べて配置すると、2つの文書(b,c)の間に高い関連度があると見なされてしまう。従って、文書(a)の作者は意図的に特定の文書(b,c)間での関連度が高くなるように不正な操作を行うことができる。
【0006】
特に、インターネット上の文書であれば不特定他数の人間が容易に文書を作成し発信することができる。そのため、全く関係のない2つの文書に対して1つの文書からハイパーリンクを張り、更にそのような文書を大量に作成して発信することにより、関連のない文書間の関連度を不正に高くすることが考えられる。
また、従来の方法では、実際には関連のある文書であっても、少なくとも1つのハイパーリンクによって直接的に関連付けられていない限り関連がないと判断されてしまう。
【0007】
本発明は、文書の作者が意図的な操作を行う場合であっても実際の文書間の関連性を正確に評価することが可能な文書間関連度計算装置並びに記録媒体及びソフトウェアを提供することを目的とする。
【0008】
【課題を解決するための手段】
請求項1は、関連する他の文書を表すハイパーリンク情報が含まれる文書について、複数の文書間での関連度を求める文書間関連度計算装置において、各々の文書から前記ハイパーリンク情報を抽出するハイパーリンク抽出手段と、抽出された前記ハイパーリンク情報に基づいて、複数のリンク元の文書の中のリンク元の文書ごとに、リンク元の文書から文書xと文書yへのハイパーリンクがあるとき、リンク元の文書における2つのハイパーリンクの位置によりリンク元の文書からみた文書xと文書yの関連度をそれぞれ求め、求められたそれぞれのリンク元からみた関連度を平均することによって文書xと文書yとの第1の関連度(x、y)を求め、第1の関連度(x、y)を与える複数のリンク元の文書の中から2つの文書の組を1つ以上抽出し、文書xと文書yの場合と同様にして抽出した2つの文書の組の第1の関連度を求める関連度計算手段と、前記抽出した2つの文書の組の第1の関連度と前記第1の関連度(x、y)とに基づいて、文書xと文書yとの第2の関連度(x、y)を求める関連度再計算手段とを有することを特徴とする。
【0009】
請求項1においては、ハイパーリンク情報によって直接関連付けられた複数の文書(又はグループ)間の関連性を第1の関連度として求めた後で、得られた第1の関連度を用いて文書(又はグループ)間の関連性を第2の関連度として求める。
【0010】
これにより、ハイパーリンク情報によって直接関連付けられていない場合であっても、多重化された複数のハイパーリンク情報を辿って間接的に関連付けることができる場合には、複数の文書間の関連度を検出することができる。
例えば、図2に示す例では、文書(a)と文書(A)とが1つのハイパーリンクで直接関連付けられ、文書(b)と文書(A)とが1つのハイパーリンクで直接関連付けられ、文書(a)と文書(B)とが1つのハイパーリンクで直接関連付けられ、文書(b)と文書(B)とが1つのハイパーリンクで直接関連付けられている。
【0011】
また、図2では文書(A)と文書(B)とを直接関連付けるハイパーリンクは存在しない。そのため、ハイパーリンクによって直接求められる第1の関連度においては、文書(A)と文書(B)との間の関連性を検出することができない。しかしながら、文書(a)と文書(A)との間に関連性があり、文書(a)と文書(B)との間にも関連性がある。更に、文書(b)と文書(A)との間に関連性があり、文書(b)と文書(B)との間に関連性がある。従って、実際には文書(A)と文書(B)との間にも関連性が認められる。
【0012】
そこで、文書(a)と文書(A)との間の関連性を表す第1の関連度と、文書(a)と文書(B)との間の関連性を表す第1の関連度と、文書(b)と文書(A)との間の関連性を表す第1の関連度と、文書(b)と文書(B)との間の関連性を表す第1の関連度との関連性を第2の関連度として総合的に評価すれば、第2の関連度において文書(A)と文書(B)との間の関連性を検出することができる。
【0013】
このため、高精度で文書間の関連度を求めることができる。
請求項2は、請求項1の文書間関連度計算装置において、前記関連度再計算手段は、1つ以上求められる前記抽出した2つの文書の組の第1の関連度の平均値と前記第1の関連度(x、y)との乗算により第2の関連度(x、y)を求めることを特徴とする。
請求項3は、請求項2の文書間関連度計算装置において、前記関連度再計算手段は、リンク元の前記抽出した2つの文書の組に対しても文書xと文書yの場合と同様にして第2の関連度を求め、1つ以上求められる前記抽出した2つの文書の組の第2の関連度の平均値と前記第1の関連度(x、y)との乗算により第3の関連度(x、y)を求める第3の関連度算出手段を更に設けたことを特徴とする。
【0014】
請求項においては、前記第2の関連度に基づいて第3の関連度を求める。すなわち、関連度の再計算を2回以上繰り返し行う。これにより、複雑な多重関係でハイパーリンクが形成されている場合であっても、文書間の関連度を高精度で検出することが可能になる。
【0015】
例えば、1つのコンピュータ上に存在する文書やインターネット上に存在する文書の場合、互いに関連性のある複数の文書は、同一のホルダや同一のディレクトリにまとめて配置されている場合が多い。
そのような場合には、文書毎に文書間の関連度を求めるよりも、予め同一のホルダや同一のディレクトリに配置されている複数の文書を同一のグループにまとめてグループ毎に文書の関連度を求めた方が、その結果を利用する際に都合がよい。
【0016】
すなわち、文書毎に関連度を検出するよりも文書グループ毎に関連度を検出した方が関連度の検出対象となる要素数が減るので、ユーザは互いに関連のある各文書又は文書グループの所在を把握しやすくなる。
【0019】
請求項のプログラムは、請求頂ないし請求項に記載の文書間関連計算装置を構成する各手段としてコンピュータを機能させることを特徴とする。
【0020】
請求項の記録媒体は、請求項のプログラムを記録したことを特徴とする。
【0026】
【発明の実施の形態】
本発明の文書間関連度計算装置並びに記録媒体及びソフトウェアの1つの実施の形態について図1〜図6を参照して説明する。この形態は全ての請求項に対応する。
【0027】
図1はこの形態の文書間関連度計算装置の構成を示すブロック図である。図2及び図3はハイパーリンクにより関連付けされた文書の例を示す模式図である。図4は抽出されたハイパーリンクの例を示す模式図である。図5は文書間関連度の計算結果の例を示す模式図である。図6は文書グループの構成例を示す模式図である。
【0028】
この形態では、請求項のハイパーリンク抽出手段,関連度計算手段および関連度再計算手段は、それぞれハイパーリンク抽出部102,関連度計算部104及び関連度再計算部105に対応する。
また、請求項の第3の関連度算出手段は関連度再計算部105に対応する。
【0029】
ここでは、インターネット上に存在する複数のHTML文書について文書間の関連度を求める場合を想定して説明する。勿論、例えば企業内のLAN上に存在する複数の文書や1つのコンピュータ上に存在する複数の文書について関連度を求めることも可能である。
例えば、図3(a)の例では、1つの文書(C1)に組み込まれたハイパーリンクが他の特定の文書(C2)に関連付けている。従って、文書(C1)を参照しているときに、ハイパーリンクを用いて文書(C2)を呼び出すこともできる。
【0030】
また、図3(b)の例では、文書(D1)上のハイパーリンクによって他の1つの文書(D2)が関連付けられ、文書(D2)上のハイパーリンクによってもう1つの文書(D3)が関連付けられている。すなわち、各文書のハイパーリンクを順番に辿ることにより、文書(D1)から文書(D3)にたどり着くことができる。
【0031】
ところで、インターネット上のHTML文書は複数のコンピュータ上に分散して存在しており、各文書を容易に参照できるようにURL(Uniform Resource Locator)という表記方法でアクセスできるように規定されている(インターネットRFC1738参照)。
このURLは、一般に「http://コンピュータアドレス/ディレクトリ名/・・・/ファイル名」という表記で表され、複数の文書は「http://コンピュータアドレス/」あるいは「http://コンピュータアドレス/ディレクトリ名/」としてまとめ上げることができる。こうしてまとめ上げた文書集合は、一般に「サイト」と呼ばれている。
【0032】
本発明では、この「サイト」を「文書グループ」と呼ぶことにする。HTML文書に組み込まれるハイパーリンクは「文書」あるいは「文書グルーブ」を参照先として記述することができる。
この形態の文書間関連度計算装置は、図1に示すように文書入力部101,ハイパーリンク抽出部102,文書グループ生成部103,関連度計算部104,関連度再計算部105及び結果出力部106を備えている。
【0033】
なお、図1に示す各構成要素は、専用のハードウェアで構成することもできるし、コンピュータとコンピュータ上で実行されるソフトウェアとで実現することもできる。ソフトウェアで実現する場合には、例えばCD−ROMのような記録媒体からソフトウェアをコンピュータに読み込んで実行してもよいし、通信回線を介してソフトウェアをコンピュータに転送して実行することもできる。
【0034】
文書入力部101は、処理対象となる全ての文書の情報を例えばインターネットを介して入力する。
ハイパーリンク抽出部102は、文書入力部101が入力した文書のそれぞれに含まれているハイパーリンクの情報を抽出する。また、ハイパーリンク抽出部102は文書中のハイパーリンクの記述位置も同時に求める。この位置情報は関連度の計算に利用される。
【0035】
文書グループ生成部103は、文書入力部101で入力された全体の文書について文書グループの情報を生成する。この例では、インターネット上に存在する文書を評価対象とするので、URLに基づいて文書グループの情報を生成している。
すなわち、各文書のURLに基づいてその文書が含まれる
「http://コンピュータアドレス/」あるいは
「http://コンピュータアドレス/ディレクトリ/」
を文書グループとして生成する。
【0036】
また、「http://コンピュータアドレス/ディレクトリ/」の文書グルーブ内には「http://コンピュータアドレス/ディレクトリ/」配下に実在するすべての文書を含める。
また、ハイパーリンク抽出部102で抽出されたハイパーリンクの記述を集計し、出現頻度の高いURLのみを文書グループとすることで、抽出する文書グループの数を制限する場合もある。
【0037】
関連度計算部104は、ハイパーリンク抽出部102で抽出されたハイパーリンク情報、すなわちリンク先のURL及び文書内の位置情報に基づいて、文書入力部101で入力された文書や、文書グループ生成部103で生成された文書グループの各要素間の関連度(A)を計算する。
関連度再計算部105は、関連度計算部104で得られた関連度(A)に基づいて文書や、文書グループ生成部103で生成された文書グループの各要素間の関連度(B)を再計算する。
【0038】
結果出力部106は、関連度再計算部105が求めた各要素間の関連度(B)を出力し、例えば画面上に関連度(B)を表示する。
図1に示す各要素の更に詳細な動作及び具体例について以下に説明する。
ここでは、検索対象とする文書は、コンピュータネットワークであるインターネット上のWWWのページ(HTMLファイル)とする。これらを文書入力部101で入力する。
【0039】
ハイパーリンク抽出部102は、文書入力部101で入力された文書の情報からハイパーリンクの情報を抽出するとともにそのハイパーリンクの記述位置の情報を検出し、例えば図4に示すような情報を生成する。
文書グループ生成部103は、ハイパーリンク抽出部102で抽出されたハイパーリンクのURL情報に基づいて文書グループを作成する。例えば、
http://www.aaa.co.jp/watasi/
http://www.aaa.co.jp/watasi/index.html
http://www.aaa.co.jp/watasi/file1.html
http://www.aaa.co.jp/watasi/file2.html
http://www.aaa.co.jp/anata/
http://www.aaa.co.ip/anata/index.html
http://www.aaa.co.jp/anata/text1.html
http://www.aaa.co.jp/anata/text2.html
の文書群のURLが存在する場合には、これらに基づいて、図6に示すように
「http://www.aaa.co.jp/watasi/」及び
「http://www.aaa.co.jp/anata/」の2つの文書グループが生成される。
【0040】
また、ハイパーリンク抽出部102で抽出されたURLとして
「http://www.aaa.co.jp/」の出現回数が多い場合(閾値以上の場合)には
「http://www.aaa.co.jp/」という文書グループも生成される。
【0041】
関連度計算部104は、ハイパーリンク抽出部102で抽出された文書及び文書グループ生成部103で生成された文書グループの各要素について複数要素間の関連度を計算する。この計算方法について以下に説明する。
インターネット上には、他の複数の文書を容易に参照出来るようにリンク集と呼ばれる文書が数多く作成されている。このリンク集には多数の文書を表す多数のハイパーリンクが記述されており、互いに関連のある文書はリンク集の文書内で互いに近い位置にそれぞれのハイパーリンクが記述されている。
【0042】
ここでは、1つの文書(i)内に存在するハイパーリンクの情報から各文書あるいは文書グループ(x,y)の関連度をreli(x,y)で表す。関連度reli(x,y)は例えば次のように定義することができる。
reli(x,y)=1(文書(i)内にx,yの両方が存在する) ・・・(1)
reli(x,y)=0(それ以外) ・・・(2)
また、文書(i)内におけるx,yのハイパーリンクの位置をそれぞれposx,posyで表すと、関連度reli(x,y)は次のように表すこともできる。
【0043】
reli(x,y)=1(posx,posyの差が閾値以下) ・・・(3)
reli(x,y)=0(それ以外) ・・・(4)
この場合、文書内での位置が近い文書(x,y)の関連度が高くなる(閾値は整数)。
また、特開2000−331017で採用されている文書内の距離を用いて関連度reli(x,y)を定義することもできる。
【0044】
この例では、関連度計算部104はハイパーリンクの文書内位置情報に基づき次式を用いて関連度reli(x,y)を求める。
reli(x,y)=1/(文書(i)内のx,yの出現位置の差分)・・・(5)
例えば、図4の例では、ハイパーリンクによって参照されているものは「文書グルーブ(図4中の番号1,2,3)」と「文書(図4中の番号4のみ)」であり、各文書及び文書グループ間で図5に示すような関連度(reli(x,y))が求められる。
【0045】
このような関連度(reli(x,y))を計算対象の複数の文書に対して計算する。すなわち、関連度計算部104が出力する各文書あるいは文書グループ(x,y)の関連度(rel1(x,y))は次式で表される。
【数1】
Figure 0004005798
なお、(x,y)の組み合わせとして「文書と文書」,「文書と文書グループ」及び「文書グループと文書グループ」がありうる。また、関連度(rel1(x,y))の値は0から1の範囲の実数値であり、値が大きいほど関連があると言える。
【0046】
関連度再計算部105は、関連度計算部104が求めた関連度(rel1(x,y))を用いて再帰的に関連度の計算を行う。また、この計算は複数回繰り返し行う。
文書あるいは文書グループ(x,y)のk回目に再計算して求められる関連度を(relk(x,y))で表す。
【0047】
文書あるいは文書グループ(x,y)に関してk回目の計算で計算対象となる文書集合sk x,yは次式で表される。
【数2】
Figure 0004005798
また、関連度計算部104から出力される関連度(rel1(x,y))に基づき再計算された関連度(relk+1(x,y))は次式で表される。
【数3】
Figure 0004005798
上記の数式では、関連度は基本的には文書内での関連度の和になる。また値が0より大きい関連度を持つ文書あるいは文書グループ間の関連度の平均値を重みとして掛け合わせてもよい。その場合、k回目の再計算で得られる関連度(relk(x,y))の高い文書あるいは文書グルーブが関連があるとした場合に、次回の(k+1)回目の再計算で得られる関連度(relk+1(x,y))が高くなるようにできる。
【0048】
なお、k回目の再計算で用いる閾値thkについては、kの変化に関わらず同じ値にする場合もあるし、変化させることもある。
関連度再計算部105における再計算の具体例について説明する。
ここでは、ある2つの文書x,yに関する(k+1)回目の関連度relk+1(x,y)を求める場合を想定する。この場合、1つ前のk回目の再計算で得られた関連度relki,j(i,j∈s k x,y の値が必要になる。例えば、
rel1(x,y)=0.5
k x,y=(s1,s2,s3
relk(s1,s2)=0.5
relk(s1,s3)=0.5
relk(s2,s3)=0.5
の条件では次のように関連度が計算される。
【0049】
Figure 0004005798
また、
rel1(x,y)=0.5
k x,y=(s1,s2,s3
relk(s1,s2)=0.5
relk(s1,s3)=0.1
relk(s2,s3)=0.1
の条件では次のように関連度が計算される。
【0050】
Figure 0004005798
すなわち、お互いの関連度が高いk回目の文書集合sk x,yに属する文書及び文書グループが関連があるとしている文書間の関連度は大きくなることが分かる。図2に示す例では、文書(a)と文書(A)とが1つのハイパーリンクで直接関連付けられ、文書(b)と文書(A)とが1つのハイパーリンクで直接関連付けられ、文書(a)と文書(B)とが1つのハイパーリンクで直接関連付けられ、文書(b)と文書(B)とが1つのハイパーリンクで直接関連付けられている。
【0051】
また、図2では文書(A)と文書(B)とを直接関連付けるハイパーリンクは存在しない。そのため、ハイパーリンクに基づいて関連度計算部104で求められる関連度(rel1(x,y))においては、文書(A)と文書(B)との間の関連性を検出することができない。
しかしながら、文書(a)と文書(A)との間に関連性があり、文書(a)と文書(B)との間にも関連性がある。更に、文書(b)と文書(A)との間に関連性があり、文書(b)と文書(B)との間に関連性がある。従って、実際には文書(A)と文書(B)との間にも関連性が認められる。
【0052】
関連度再計算部105は、関連度計算部104が最初に求めた関連度(rel1(x,y))に基づいて再計算を行うので、文書(a)と文書(A)との間の関連性を表す関連度(rel1(x,y))と、文書(a)と文書(B)との間の関連性を表す関連度(rel1(x,y))と、文書(b)と文書(A)との間の関連性を表す関連度(rel1(x,y))と、文書(b)と文書(B)との間の関連性を表す関連度(rel1(x,y))との関連性を関連度(relk+1(x,y))として総合的に評価し、文書(A)と文書(B)との間の関連性を検出することができる。
【0053】
【発明の効果】
以上のように本発明によれば、ハイパーリンクによる直接の関連度を求めた後で、関連度の再計算を行うので、多重化されたハイパーリンクによって間接的に関連付けられた文書間の関連度も求めることができる。また、文書の作者が意図的な操作を行う場合であっても実際の文書間の関連性を正確に評価することが可能である。
【図面の簡単な説明】
【図1】実施の形態の文書間関連度計算装置の構成を示すブロック図である。
【図2】ハイパーリンクにより関連付けされた文書の例を示す模式図である。
【図3】ハイパーリンクにより関連付けされた文書の例を示す模式図である。
【図4】抽出されたハイパーリンクの例を示す模式図である。
【図5】文書間関連度の計算結果の例を示す模式図である。
【図6】文書グループの構成例を示す模式図である。
【符号の説明】
101 文書入力部
102 ハイパーリンク抽出部
103 文書グループ生成部
104 関連度計算部
105 関連度再計算部
106 結果出力部

Claims (5)

  1. 関連する他の文書を表すハイパーリンク情報が含まれる文書について、複数の文書間での関連度を求める文書間関連度計算装置において、
    各々の文書から前記ハイパーリンク情報を抽出するハイパーリンク抽出手段と、
    抽出された前記ハイパーリンク情報に基づいて、複数のリンク元の文書の中のリンク元の文書ごとに、リンク元の文書から文書xと文書yへのハイパーリンクがあるとき、リンク元の文書における2つのハイパーリンクの位置によりリンク元の文書からみた文書xと文書yの関連度をそれぞれ求め、求められたそれぞれのリンク元からみた関連度を平均することによって文書xと文書yとの第1の関連度(x、y)を求め、第1の関連度(x、y)を与える複数のリンク元の文書の中から2つの文書の組を1つ以上抽出し、文書xと文書yの場合と同様にして抽出した2つの文書の組の第1の関連度を求める関連度計算手段と、
    前記抽出した2つの文書の組の第1の関連度と前記第1の関連度(x、y)とに基づいて、文書xと文書yとの第2の関連度(x、y)を求める関連度再計算手段と
    を有することを特徴とする文書間関連度計算装置。
  2. 請求項1の文書間関連度計算装置において、
    前記関連度再計算手段は、1つ以上求められる前記抽出した2つの文書の組の第1の関連度の平均値と前記第1の関連度(x、y)との乗算により第2の関連度(x、y)を求める
    ことを特徴とする文書間関連度計算装置。
  3. 請求項2の文書間関連度計算装置において、
    前記関連度再計算手段は、リンク元の前記抽出した2つの文書の組に対しても文書xと文書yの場合と同様にして第2の関連度を求め、
    1つ以上求められる前記抽出した2つの文書の組の第2の関連度の平均値と前記第1の関連度(x、y)との乗算により第3の関連度(x、y)を求める第3の関連度算出手段
    を更に設けたことを特徴とする文書間関連度計算装置。
  4. 請求頂1ないし請求項3に記載の文書間関連計算装置を構成する各手段としてコンピュータを機能させるプログラム。
  5. 請求項4記載のプログラムを記録した記録媒体。
JP2001371149A 2001-12-05 2001-12-05 文書間関連度計算装置並びに記録媒体及びソフトウェア Expired - Lifetime JP4005798B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001371149A JP4005798B2 (ja) 2001-12-05 2001-12-05 文書間関連度計算装置並びに記録媒体及びソフトウェア

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001371149A JP4005798B2 (ja) 2001-12-05 2001-12-05 文書間関連度計算装置並びに記録媒体及びソフトウェア

Publications (2)

Publication Number Publication Date
JP2003173355A JP2003173355A (ja) 2003-06-20
JP4005798B2 true JP4005798B2 (ja) 2007-11-14

Family

ID=19180244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001371149A Expired - Lifetime JP4005798B2 (ja) 2001-12-05 2001-12-05 文書間関連度計算装置並びに記録媒体及びソフトウェア

Country Status (1)

Country Link
JP (1) JP4005798B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827173B2 (en) * 2005-09-20 2010-11-02 France Telecom Method for sorting a set of electronic documents
KR101003240B1 (ko) 2008-06-11 2010-12-21 구글 인코포레이티드 문서 그룹 가치 평가 방법 및 그 시스템
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
JP6119542B2 (ja) * 2013-10-03 2017-04-26 富士ゼロックス株式会社 情報管理装置、プログラム及び情報処理システム

Also Published As

Publication number Publication date
JP2003173355A (ja) 2003-06-20

Similar Documents

Publication Publication Date Title
US10929487B1 (en) Customization of search results for search queries received from third party sites
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8335785B2 (en) Ranking results for network search query
JP5069285B2 (ja) ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬
US7594011B2 (en) Network traffic monitoring for search popularity analysis
US7624102B2 (en) System and method for grouping by attribute
US7424472B2 (en) Search query dominant location detection
Cohen et al. A short walk in the Blogistan
US20070208703A1 (en) Web forum crawler
EP1225517A2 (en) System and methods for computer based searching for relevant texts
WO2010027914A1 (en) System and method for generating a search ranking score for a web page
Wang et al. Website browsing aid: A navigation graph-based recommendation system
US20090083266A1 (en) Techniques for tokenizing urls
JP4636473B2 (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
KR100917458B1 (ko) 추천검색어 제공 방법 및 시스템
Matsuo et al. Average-clicks: A new measure of distance on the World Wide Web
JP4005798B2 (ja) 文書間関連度計算装置並びに記録媒体及びソフトウェア
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2005018157A (ja) 固有表現文字列の評価装置および評価方法
JP5135174B2 (ja) 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
JP2002024262A (ja) 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体
Guo et al. A web crawler detection algorithm based on web page member list
Gupta et al. A survey on various web page ranking algorithms
JP5661708B2 (ja) 広告入札システム、文書検索システム、広告入札方法、文書検索方法、及びプログラム
JP2013254366A (ja) 情報処理装置および関連語判断方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070824

R150 Certificate of patent or registration of utility model

Ref document number: 4005798

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term