JP2004164290A - 情報処理装置および方法、記録媒体、並びにプログラム - Google Patents
情報処理装置および方法、記録媒体、並びにプログラム Download PDFInfo
- Publication number
- JP2004164290A JP2004164290A JP2002329492A JP2002329492A JP2004164290A JP 2004164290 A JP2004164290 A JP 2004164290A JP 2002329492 A JP2002329492 A JP 2002329492A JP 2002329492 A JP2002329492 A JP 2002329492A JP 2004164290 A JP2004164290 A JP 2004164290A
- Authority
- JP
- Japan
- Prior art keywords
- page
- pages
- data
- processing
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】サイトページ処理部111は、サイトに含まれるページを収集し、ページ間の親子関係を判断し、その判断結果をサイトページデータ記憶部104に記憶させる。関連ページデータ処理部112は、サイトページデータ記憶部104に記憶されているデータを用いて、ページ間の兄弟関係と共通親関係の少なくとも一方が考慮された重み付けが施されたページ特徴抽出の値が用いてページ間の関連度を算出する。このページ特徴抽出により、リンク関係にあるページに共通に用いられる単語が関連度算出に大きな影響を与えないように処理される。本発明は、インターネット上に設けられ、所定のページの関連ページ検索するためのサーバに適用することが可能である。
【選択図】 図5
Description
【発明の属する技術分野】
本発明は情報処理装置および方法、記録媒体、並びにプログラムに関し、特に、ネットワーク上で開設されているホームページなどの検索に用いて好適な情報処理装置および方法、記録媒体、並びにプログラムに関する。
【0002】
【従来の技術】
近年、インターネットの普及により、そのインターネット上で開設されているホームページの数も増大しつつある。それらのホームページは、企業だけでなく、個人ユーザも開設しているため、その数は、膨大なものとなっている。それら膨大な数のホームページから、ユーザが所望の情報を掲載したホームページを探し出すということは大変な手間がかかることであった。
【0003】
そのような手間を省くために、キーワードなどを入力するだけで、所望のホームページが検索できるような、俗に検索エンジンなどと称されるホームページ、例えば、Yahoo(商標)、goo(商標)、Excite(商標)、Google(商標)、Netscape(商標)がサービスの提供を開始している。
【0004】
これらの検索エンジンは、ユーザが入力したキーワードを含み、キーワードの特徴に近い類似したホームページを探す際に適しているが、その検索結果以外にもユーザが所望するページが多い。
【0005】
そのため、幾つかの検索エンジンでは、関連ページ検索などと称される関連ページ検索エンジンのサービスを開始している。例えば、特許文献1や、Googleの検索結果の各々ページに対する関連ページ検索、Google Toolbarの関連ページ検索ボタン、Netscape Navigatorなどのブラウザに表示される関連サイト検索ボタンなどがある。
【0006】
【特許文献1】
特開2002−149698号公報(第4―7頁)
【0007】
【発明が解決しようとする課題】
関連ページ検索エンジンを用いた検索は、ユーザが閲覧中のページ、あるいは検索エンジンの検索結果の所定のページに対して関連するページが検索される。その検索は、WWW(World Wide Web)のリンク構造を考慮するものもあったが、関連ページの検索が必ずしも精度良く行われているとは限らなかった。
【0008】
これは、従来のページの特徴抽出によるページモデルの生成は、関連ページ検索ではなく、検索エンジン、つまり、入力されるキーワードや自然言語と検索対象となるページとの類似度を求めるための手段であったため、関連ページを検索する場合のページの特徴抽出には適していなかったためである。関連ページ検索では関連ページ検索に適したページの特徴抽出に基づくページモデルの生成が必要である。
【0009】
本発明はこのような状況に鑑みてなされたものであり、リンク構造のうち、兄弟関係(Sibling関係)、あるいは共通親関係(Co−Parent関係)、またはその両方を考慮したページの特徴抽出により関連ページ検索に適したページモデルを生成し、このページモデルに基づく関連ページ検索エンジンを提供することにより、関連ページの検索をより精度良く行われるようにすることを目的とする。
【0010】
【課題を解決するための手段】
本発明の情報処理装置は、サイトを構成するページのデータを取得する取得手段と、取得手段により取得されたページのデータを用いて、ページ内に出現する単語を抽出する抽出手段と、抽出手段により抽出された単語が、ページ内で出現する回数をカウントするカウント手段と、取得されたページ間のリンク構造を解析し、カウント手段によるカウントの値を用いて、リンク関係にあるページ間の第1の重みを生成する第1の生成手段と、第1の生成手段により生成された第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成手段と、第2の生成手段により生成された第2の重みを用いて、SDF(Sibling Document Frequencyの略)データまたはCDF(Co−Parent Document Frequencyの略)データの少なくとも一方のデータを生成する第3の生成手段と、第3の生成手段により生成されたデータを用いて、ISDF(Inverse Sibling Document Frequencyの略)またはICDF(Inverse Co−Parent Document Frequencyの略)の少なくとも一方に基づくページモデル拡張処理により所定の値を算出する算出手段を含むことを特徴とする。
【0011】
前記算出手段により算出された所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出手段をさらに含むことを特徴とする。
【0012】
前記第2の生成手段が、所定のページをリンク元とし、そのリンク元からリンクが張られているリンク先のページ同士のページ間の第2の重みを算出する場合、前記第3の生成手段は、SDFデータを生成し、前記算出手段は、ISDFに基づくページモデル拡張処理により所定の値を算出し、前記第2の生成手段が、所定のページをリンク先とし、そのリンク先にリンクを張っているリンク元のページ同士のページ間の第2の重みを算出する場合、前記第3の生成手段は、CDFデータを生成し、前記算出手段は、ICDFに基づくページモデル拡張処理により所定の値を算出し、前記第2の生成手段が、所定のページをリンク元とし、そのリンク元からリンクが張られているリンク先のページ同士のページ間の第2の重みと、所定のページをリンク先とし、そのリンク先にリンクを張っているリンク元のページ同士のページ間の第2の重みをそれぞれ算出する場合、前記第3の生成手段は、SDFデータとCDFデータをそれぞれ生成し、前記算出手段は、ISDFとICDFに基づくページモデル拡張処理により所定の値を算出するようにすることができる。
【0013】
前記算出手段は、所定のページ内における所定の単語の出現回数と、所定のページと前記第2の生成手段で生成されたリンク関係にあるページのうち、所定の単語を含むページに対応する前記第3の生成手段により生成されたデータを用いた演算により、所定の値を算出するようにすることができる。
【0014】
前記第2の算出手段により算出された関連度を記憶する記憶手段と、所定のページに関連があるページの情報の提供が要求された場合、前記記憶手段に記憶されている関連度を参照して、所定のページと関連度が高いページの情報を提供する提供手段とをさらに含むようにすることができる。
【0015】
前記提供手段は、情報を提供する際、所定のページと関連する広告に関する情報も提供するようにすることができる。
【0016】
本発明の情報処理方法は、サイトを構成するページのデータを取得する取得ステップと、取得ステップの処理で取得されたページのデータを用いて、ページ内に出現する単語を抽出する抽出ステップと、抽出ステップの処理で抽出された単語が、ページ内で出現する回数をカウントするカウントステップと、取得されたページ間のリンク構造を解析し、カウントステップの処理によるカウントの値を用いて、リンク関係にあるページ間の第1の重みを生成する第1の生成ステップと、第1の生成ステップの処理で生成された第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成ステップと、第2の生成ステップの処理で生成された第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成ステップと、第3の生成ステップの処理で生成されたデータを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する第1の算出ステップと、第1の算出ステップの処理で算出された所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出ステップとを含むことを特徴とする。
【0017】
本発明の記録媒体のプログラムは、サイトを構成するページのデータを取得する取得ステップと、取得ステップの処理で取得されたページのデータを用いて、ページ内に出現する単語を抽出する抽出ステップと、抽出ステップの処理で抽出された単語が、ページ内で出現する回数をカウントするカウントステップと、取得されたページ間のリンク構造を解析し、カウントステップの処理によるカウントの値を用いて、リンク関係にあるページ間の第1の重みを生成する第1の生成ステップと、第1の生成ステップの処理で生成された第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成ステップと、第2の生成ステップの処理で生成された第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成ステップと、第3の生成ステップの処理で生成されたデータを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する第1の算出ステップと、第1の算出ステップの処理で算出された所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出ステップとを含むことを特徴とする。
【0018】
本発明のプログラムは、サイトを構成するページのデータを取得する取得ステップと、取得ステップの処理で取得されたページのデータを用いて、ページ内に出現する単語を抽出する抽出ステップと、抽出ステップの処理で抽出された単語が、ページ内で出現する回数をカウントするカウントステップと、取得されたページ間のリンク構造を解析し、カウントステップの処理によるカウントの値を用いて、リンク関係にあるページ間の第1の重みを生成する第1の生成ステップと、第1の生成ステップの処理で生成された第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成ステップと、第2の生成ステップの処理で生成された第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成ステップと、第3の生成ステップの処理で生成されたデータを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する第1の算出ステップと、第1の算出ステップの処理で算出された所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出ステップとをコンピュータに実行させることを特徴とする。
【0019】
本発明の情報処理装置および方法、並びにプログラムにおいては、ISDFまたはICDFの少なくとも一方に基づくページモデルにより、より精度の高い関連ページ検索が行われる。
【0020】
【発明の実施の形態】
以下に、本発明の実施の形態について図面を参照して説明する。図1は、本発明の情報処理装置を含む情報処理システムの一実施の形態の構成を示す図である。ネットワーク1は、インターネットやLAN(Local Area Network)から構成されるネットワークである。ネットワーク1には、WWWサーバ2−1乃至2−3、端末3−1乃至3−3、および、検索サーバ4が接続され、相互にデータの授受を行えるように構成されている。
【0021】
以下の説明において、WWWサーバ2−1乃至2−3を個々に区別する必要がない場合、単にWWWサーバ2と記述する。他の装置に関しても同様に記述する。なお、図1には、説明の都合上、WWWサーバ2や端末3は、それぞれ3台、検索サーバ4は1台しか図示していないが、それらの装置は、ネットワーク1に複数接続されている。
【0022】
WWWサーバ2は、インターネット上のサービスの1つとして提供されているホームページを管理し、提供するサーバである。端末3は、ユーザ側の端末であり、WWWサーバ2から提供されるホームページを閲覧する機能を有する。検索サーバ4は、端末3のユーザが、WWWサーバ2で提供されるホームページに関連するページなどを検索したいときに接続されるサーバであり、ユーザの要求に対応する情報を検索し、その結果を提供する機能を有する。
【0023】
図2は、WWWサーバ2の内部構成例を示す図である。WWWサーバ2は、パーソナルコンピュータなどで構成することが可能であり、そのCPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)13には、CPU11が各種の処理を実行する上において必要なデータやプログラムなどが適宜記憶される。入出力インタフェース15は、キーボードやマウスから構成される入力部16が接続され、入力部16に入力された信号をCPU11に出力する。また、入出力インタフェース15には、ディスプレイやスピーカなどから構成される出力部17も接続されている。
【0024】
さらに、入出力インタフェース15には、ハードディスクなどから構成される記憶部18、および、ネットワーク1を介して他の装置(例えば、端末3)とデータの授受を行う通信部19も接続されている。記憶部18には、ホームページに関するデータが記憶されており、他の装置から、管理しているホームページの提供の要請があった場合に提供するようになされている。ドライブ20は、磁気ディスク31、光ディスク32、光磁気ディスク33、半導体メモリ34などの記録媒体からデータを読み出したり、データを書き込んだりするときに用いられる。
【0025】
図3は、端末3の内部構成例を示す図である。端末3は、パーソナルコンピュータなどで構成することが可能であり、そのCPU41は、ROM42に記憶されているプログラムに従って各種の処理を実行する。RAM43には、CPU41が各種の処理を実行する上において必要なデータやプログラムなどが適宜記憶される。入出力インタフェース45は、キーボードやマウスから構成される入力部46が接続され、入力部46に入力された信号をCPU41に出力する。また、入出力インタフェース45には、ディスプレイやスピーカなどから構成される出力部47も接続されている。
【0026】
さらに、入出力インタフェース45には、ハードディスクなどから構成される記憶部48、インターネットなどのネットワークを介して他の装置(例えば、検索サーバ4)とデータの授受を行う通信部49やドライブ50も接続されている。記憶部48には、WWWサーバ2から提供されるホームページを閲覧するために必要なブラウザなどのソフトウェアやデータが記憶されており、必要に応じ、読み出され、RAM43に展開される。
【0027】
図4は、検索サーバ4の内部構成例を示す図である。検索サーバ4は、パーソナルコンピュータなどで構成することが可能であり、そのCPU71は、ROM72に記憶されているプログラムに従って各種の処理を実行する。RAM73には、CPU71が各種の処理を実行する上において必要なデータやプログラムなどが適宜記憶される。入出力インタフェース75は、キーボードやマウスから構成される入力部76が接続され、入力部76に入力された信号をCPU71に出力する。また、入出力インタフェース75には、ディスプレイやスピーカなどから構成される出力部77も接続されている。
【0028】
さらに、入出力インタフェース75には、ハードディスクなどから構成される記憶部78、インターネットなどのネットワークを介して他の装置(例えば、端末3)とデータの授受を行う通信部79やドライブ80も接続されている。記憶部78には、WWWサーバ2により提供されるホームページを検索するためのデータが記憶されている。
【0029】
図5は、検索サーバ4の機能ブロック図である。検索サーバ4は、データを記憶する記憶機能と、その記憶されるデータを作成したり、記憶されているデータを用いた処理を実行する処理機能とから構成されている。検索サーバ4は、記憶機能として、データを収集するホームページ(サイト)のリストを記憶する収集サイトリスト記憶部101、収集サイトリスト記憶部101に記憶されているリストに基づき収集されたサイトのページのデータを記憶する保存ページ記憶部102、および、保存ページ記憶部102に記憶されたページデータが処理された結果を記憶するページデータ記憶部103を備えている。
【0030】
検索サーバ4は、処理機能として、保存ページ記憶部102に記憶されているページデータを処理するサイトページ処理部111と、サイトページ処理部111により処理された結果としてのデータを用いて所定の処理を実行し、関連ページに関するデータの生成などを行う関連ページデータ処理部112を備えている。
【0031】
サイトページ処理部111により処理されたデータは、ページデータ記憶部103のサイトページデータ記憶部104に記憶され、関連ページデータ処理部112により処理されたデータは、ページデータ記憶部103の関連ページデータ記憶部105に記憶される。
【0032】
サイトページ処理部111およびサイトページデータ記憶部104の詳細について、図6を参照して説明する。サイトページ処理部111は、ページ取得保存部141を備える。ページ取得保存部141は、収集サイトリスト記憶部101に記憶されているリストに記載されているサイトと接続する処理を実行し、各々のサイトに記憶されているホームページの全てのページのデータをダウンロードし、そのダウンロードしたデータを保存ページ記憶部102に記憶(保存)させる。
【0033】
保存ページ記憶部102に記憶されたページは、ページID割り当て部142により、各ページが一意に区別がつくようなIDが割り当てられ、その割り当てられたIDに関するデータが、サイトページデータ記憶部104のページID記憶部161に記憶される。
【0034】
保存ページ記憶部102に記憶されたページは、単語抽出部143にも読み出される。単語抽出部143は、読み出したページ内から、そのページに含まれる単語を抽出する。単語抽出部143により抽出された単語のデータは、単語ID割り当て部144に供給される。単語ID割り当て部144は、供給された単語に対して、その単語が他の単語と区別がつくようなIDを割り振る。その割り振られたIDと、そのIDに対応する単語のデータは、サイトページデータ記憶部104の単語ID記憶部162に記憶される。
【0035】
単語割り当て部144からのデータは、基本ページモデル生成部145にも提供される。基本ページモデル生成部145は、抽出された単語が、そのページ内で、どのぐらいの頻度で用いられているかなどのデータを作成する。基本ページモデル生成部145により作成されたデータは、サイトページデータ記憶部104の基本ページモデル記憶部163に記憶される。
【0036】
保存ページ記憶部102に記憶されているページはサイトページ処理部111のリンク判定部146にも読み出される。リンク判定部146は、各ページの親子関係を判定する。各ページの親子関係とは、所定のページにおいて、そのページを親ページと称したとき、その親ページがリンクを張っている先のページを子ページと称したときの関係である。リンク判定部146により判定されたページ間の親子関係に関する情報は、サイトページデータ記憶部104のリンク情報記憶部164に出力され、記憶される。
【0037】
次に、関連ページ処理部112と関連ページデータ記憶部105の詳細な構成について、図7を参照して説明する。関連ページ処理部112は、必要に応じ、サイトページ記憶部104に記憶されているデータを用いて処理を実行する。まず、関連ページ処理部112のリンク関係情報生成部181は、サイトページデータ記憶部104に記憶されているデータを用いて同じ親ページを持つ子ページの情報を抽出する。
【0038】
図8を参照して説明するに、1つ所定の親ページからリンクが張られている子ページが複数存在している場合、その子ページの情報が抽出される。そして抽出された子ページ同士の情報、すなわち、兄弟(Sibling)と位置づけられるページ同士の情報が生成される。兄弟と位置づけられるページ同士の情報が、リンク関係情報生成部181において生成され、関連ページデータ記憶部105のリンク関係情報記憶部191に記憶される。
【0039】
関連ページ処理部112のSDFデータ生成部182は、SDFデータを生成する。SDFとは、Sibling Document Frequencyの略である。SDFデータ生成部182により生成されるSDFデータとは、詳細は後述するが、各々のページに含まれる(各ページで出現する)単語に対して、その単語が現れる兄弟ページのリンクの重みを総和したデータである。
【0040】
SDFデータ生成部182により生成されたSDFデータは、関連ページデータ記憶部105のSDFデータ記憶部192に記憶される。関連ページ処理部112のページモデル拡張部183は、SDFデータ記憶部192に記憶されているデータに対して重み付けを行い、その重み付けを行ったデータを、関連ページデータ記憶部105のページモデル拡張データ記憶部193に提供し、記憶させる。
【0041】
関連ページ処理部112の関連度算出部184は、ページ毎の関連度を算出し、その結果を、関連ページデータ記憶部105の関連度データ記憶部194に記憶させる。関連度算出部184が行う関連度の算出は、例えば、VSM(VectorSpace Modelの略、あるいは、ベクトル空間法と称される)のcosine類似度に基づいて行われる。
【0042】
関連ページ一覧生成部185は、ユーザからの指示があった場合に、ページデータ記憶部103に記憶されているデータに基づいて、関連するページについての一覧表を作成し、そのデータを提供するといった処理を実行する。
【0043】
このようなデータを生成し、記憶する検索サーバ4と端末3との間で行われる処理について、図9のフローチャートを参照して説明する。ステップS11において、端末3は、ネットワーク1を介して検索サーバ4に接続される。ここでの接続(アクセス)は、始めて端末3が検索サーバ4と接続されたとき、又は、端末3側で後述する設定が行われていないときであるとする。換言すれば、ユーザが検索を行うために、後述する関連ページ検索ボタン231(図10B)を操作したときの接続とは異なる接続であるとする。
【0044】
検索サーバ4は、端末3からのアクセスを受け付けると、ステップS21において、導入画面の送付を行う。導入画面とは、端末3のユーザが、検索サーバ4による検索を行う際に操作するボタンなどを、端末3のブラウザ上に設定するための画面であり、例えば、図10Aに示したような画面である。
【0045】
端末3の記憶部48(図3)には、ネットワーク1を介してデータの授受を行う際に用いられるブラウザに関するプログラムが記憶されており、必要に応じ、起動され、CPU41が処理を実行する際に用いられる。ブラウザが起動され、検索サーバ4からの導入画面のデータが受信され、起動されているブラウザにより処理されると、図10Aに示したような画面が、出力部47としてのディスプレイ211上に表示される(ステップS12)。
【0046】
ディスプレイ211には、ブラウザが起動されることにより表示される部分の下側に、画像表示部221が設けられており、その画像表示部221に、検索サーバ4からの導入画面が表示される。導入画面としては、例えば、“このボタンをドラッグアンドドロップすると、関連ページ検索エンジンがブラウザ上に設定されます”といったメッセージと共に、ボタンが表示されている画面である。ユーザは、このメッセージに従って、ボタンを、例えば、ブラウザの上部の所定の欄(通常、リンクツールバーという欄)にドラッグアンドドロップを行う。
【0047】
このようなドラッグアンドドロップが、ステップS13において行われると、そのドラッグアンドドロップの処理に対応する設定が、ステップS14において、行われる。すなわち、例えば、図10Bに示したように、ドラッグアンドドロップされたボタンに対応する関連ページ検索ボタン231が、ブラウザの所定の部分に表示され、その関連ページ検索ボタン231に関連付けられて、検索サーバ4のアドレスが記憶されるなどの設定である。
【0048】
このような設定が行われることにより、図10Bに示したように、ブラウザ上の所定の部分に関連ページ検索ボタン231が表示されるようになると、ユーザは、検索サーバ4による検索を利用することが可能な状態とされる。
【0049】
このような導入画面を用い、関連ページ検索ボタン231がブラウザ上に設定されるようにしても良いし、所定のページ内に、バナーとして関連ページ検索ボタン231が設けられているようにしても良い。また、ユーザが検索サーバ4にアクセスし、所定のページのURL(Uniform Resource Locationの略)を入力することも可能である。いずれにしても、ユーザが検索を所望したときに、ボタンのクリックなど簡便な操作で、検索サーバ4にアクセスでき、その検索サーバ4による検索の結果を授受できるように設定されていればよい。
【0050】
ここでは、図10Bに示したように、ブラウザ上に、関連ページ検索ボタン231が設定されているとして説明する。ユーザが、所定のページ、例えば、WWWサーバ2−1(図1)により提供されているホームページの所定のページを閲覧している状態で、関連ページ検索ボタン231を操作すると、検索サーバ4に、関連ページ検索ボタン231が操作されたという情報、すなわち、検索が指示されたという情報が送信される。その結果、検索サーバ4においては、図11に示すようなフローチャートの処理が開始される。
【0051】
ステップS41において、所定のホームページ(サイト)のページのデータ(以下、単にページと記述した場合も、ページのデータという意味を示すとする)が取得され、保存される。取得されるホームページのページは、収集サイトリスト記憶部101に記憶されているリストに基づくものである。また、ユーザからの要求により送信された所定のURLが収集サイトリスト記憶部101に記録されていない場合には、そのURLを追加し記録する。収集サイトリスト記憶部101に記憶されているリストの一例を図12に示す。図12に示したように、収集サイトリスト記憶部101に記憶されているリストには、“収集開始URL”、“含むディレクトリ”、“排他ディレクトリ”、“含むドメイン”、および、“排他ドメイン”といった情報が含まれる。
【0052】
このようなリストに基づいて、ページが取得される。取得されたページは、保存ページ記憶部102に保存され記憶される。また、保存ページ記憶部102には、図13に示すようなリスト形式で、取得されたページのサイト単位での情報が管理されている。図13に示したように、リストには、“サイトID”、“サイト名”、および、“総ページ数”といった情報が含まれる。
【0053】
サイトIDは、そのサイトに割り当てられたIDであり、ページ取得保存部141がページ(サイト)の情報を取得した時点で、割り当てるようにしても良いし、収集サイトリスト記憶部101で記憶されている図12に示したようなリストで、IDも関連付けて記憶するようにし、そのIDが、記憶されるようにしても良い。
【0054】
このようにして、保存ページ記憶部102に取得されたページが保存され、所定のサイトの情報が記憶されると、ステップS42において、ページID割り当て部142により、取得されたページ毎にIDが割り当てられる。ページID割り当て部142は、保存ページ記憶部102に記憶されているページを読み出し、そのページにIDを割り当てる。
【0055】
この際、読み出されるページと、割り当てられたIDから、図14に示したようなリストが作成され、ページID記憶部161に記憶される。図14に示したページID記憶部161に記憶されるリストには、“ページID”、“サイトID”、“ページURL”、“タイトル”、“サマリー”、“ページ保存場所”、および、“最終更新日”といった情報が含まれる。
【0056】
これらの情報のうち、“ページID”は、ページ割り当て部142により割り当てられ、その他の情報は、保存ページ記憶部102に記憶され、読み出されたページのデータから抽出される。
【0057】
ステップS43において、ページ内に含まれる単語が、単語抽出部143により抽出される。この単語の抽出は、単語抽出部143が、保存ページ記憶部102から保存されているページのうちの1ページを読み出し、そのページに含まれている単語が抽出されることにより行われる。抽出される単語としては、名詞に分類される単語である。形容詞や動詞などに分類される単語や、英語なども抽出されるようにしても良い。単語抽出部143により抽出される単語は、後の処理において必要となる(検索サーバ4が最終的に検索結果としてユーザに提供する結果が良好になるために必要となる)品詞の単語が抽出されれば良い。
【0058】
抽出された単語は、単語ID割り当て部144に供給される。単語ID割り当て部144に供給されるのは、抽出された単語だけでなく、その単語の出現回数、ページID、タグ付きの各単語、そのタグ付きの単語の出現回数なども供給される。これらの情報は、必要に応じ、単語抽出部143が、ページID記憶部161や保存ページ記憶部102から読み出し、供給する。
【0059】
単語ID割り当て部144は、供給された単語に対してIDを割り当てる。IDが割り当てられた単語は、IDと関連付けられて、単語ID記憶部162に記憶される。単語ID記憶部162には、例えば、図15に示したようなリストが記憶されている。
【0060】
図15に示したように、単語ID記憶部162には、“単語ID”と“単語”が関連付けられて記憶されている。なお、同一の単語が抽出された場合には、同一のIDが割り当てられる。そのために、単語抽出部143は、抽出された単語が、既に単語ID記憶部162に記憶されている単語であるか否かを判断し、既に記憶されている単語である場合には、新たにIDを割り振ることが無いように制御されている。
【0061】
また、単語ID割り当て部144は、図16に示したようなリストを作成し、単語ID記憶部162に記憶させる。図16に示したリストは、“単語ID”、“サイトID”、“そのサイト内で当該単語を含むページ数”、および、“そのサイト内で当該単語を含むページ”といった情報を含むものである。図16に示したリストは、所定の1つのサイトに注目したときに、そのサイトに含まれる所定の単語との関連を示すものである。
【0062】
単語IDと、その単語IDが割り当てられた単語は、単語ID記憶部162に供給されると共に、その一部のデータは、基本ページモデル生成部145にも供給される。基本ページモデル生成部145は、ステップS45において、基本ページモデルを生成する。基本ページモデルとは、図17に示したようなデータであり、基本ページモデル記憶部163に記憶されるリスト形式のデータである。このようなデータを作成するために、基本ページモデル生成部145は、単語ID割り当て部144から、ページIDと、それぞれの単語IDとその出現回数に関する情報が供給される。
【0063】
図17に示すように、基本ページモデル記憶部163に記憶されるリストは、“ページID”、“出現単語”、“Title”、“Keywords”、および、“description”といった情報が含まれる。このリストは、1つのページに対して、1つの単語が、何回出現しているか(用いられているか)を示す情報であり、また、タイトル(Title)などの種類毎に分類された情報も含む情報である。このような種類毎に分類された情報は、最終的に関連するページを決定する際に、単語の用いられている部分毎(種類毎)に重要度が異なることが考えられ、そのような重要度の違いにより重み付けを行うようにした場合のことを考慮したときに用いられる。
【0064】
ステップS46において、リンク判定部146は、図8を参照して説明したように、親ページと、そのページがリンクしている子ページを判断し、その判断結果をリンク情報記憶部164に記憶させる。リンク情報記憶部164に記憶されている情報は、例えば、図18に示したような情報である。
【0065】
図18に示したように、リンク情報記憶部164に記憶されているリスト形式の情報は、“ページID”、“リンク先のページID”、“リンクの重み”、および、“アンカー窓内単語”といった情報が含まれている。“ページID”と、“リンク先のページID”、すなわち、親としてのページと子としてのページが関連付けられていることがわかる。このような情報を作成するために、リンク判定部146は、必要に応じ、保存ページ記憶部102、ページID記憶部161、および、基本ページモデル記憶部163からデータを読み出す。
【0066】
“リンクの重み”は、以下のようにして算出される。なお、重み付けを算出する際、アンカー窓内に含まれる単語が、リンク先のページ(この場合、子ページ)に含まれるほど、ページ間の関連性が高いと考え、重みを増加するようにする。また、リンク元のページ(すなわち、親ページ)が多くのリンクを持つほど、1つのリンクに対する重要性は低いと考えられるため、そのようなページからリンクが張られている子ページとのリンクの重みは小さくなるようにする。
【0067】
親ページpから子ページqへのリンクの重みWc(p,q)は、次式(1)に基づいて算出される。
Wc(p,q)=1+Npq(Tanc)×1/k ・・・(1)
式(1)において、p,q∈P(Pはページ集合)である。また、Npq(Tanc)は、親ページp内のアンカー窓内の単語の集合を集合(Tanc)とし、その集合(Tanc)の子ページq内の出現数を表している。なお、Tanc∈Tallであり、Tallは、全単語の集合とする。
【0068】
kは、親ページpが有しているリンクの数であり、ページpからページqへのリンクを含むため、kは、常に1以上の数に設定される。なお、式(1)において、右辺の第1項で1だけ加算しているのは、算出される重みWc(p,q)が1未満にならないようにするためである。
【0069】
このようにして重みWc(p,q)が算出されるようにしても良いし、アンカー窓内の出現単語にアンカーを中心とした距離に応じた重み付けを行ってWc(p,q)が算出されるようにしても良い。アンカーを中心とした距離に応じた重み付けを行ってWc(p,q)を算出するようにした場合、式(1)におけるNpq(Tanc)は、次式(2)に基づいて算出される。
N(p,q)(Tanc)=H(Dis(t1))×Tc(t1)+H(Dis(t2))×Tc(t2)+・・・+H(Dis(tk))×Tc(tk) ・・・(2)
【0070】
式(2)において、tk∈Tancであり、Dis(tk)は、アンカータグから単語tkが出現するまでの距離を示し、 0≦Dis(tk)≦Dmax の値を取る。Dmaxは、アンカー窓の片方の最大幅である。また、H(Dis(tk))は、Dis(tk)に対する重みを表し、 0< H(Dis(tk)) ≦1 の範囲内の値であり、H(0)= 1 である。Tc(tk)は、単語tkの子ページq内の出現数を表す。
【0071】
このように、アンカー窓からの距離を考慮した重み付けを行うようにしても良い。また、アンカー窓内の単語のアンカー窓内出現数や、リンク先ページ(子ページ)での出現数にタグの種類に応じた重み付け(重要度)を考慮した重み付けを行うことも可能である。また、これらの重み付けを行わず、単にWc(p,q)=1としてもよい。
【0072】
このようにして、図18に示したリンク情報記憶部164に記憶されるリスト内の“リンクの重み”は算出される。図11のフローチャートの説明に戻り、ステップS47において、リンク関係情報の生成が、リンク関係情報生成部181(図7)により行われる。リンク関係情報生成部181により作成された情報は、リンク関係情報記憶部191(図7)に、図19に示したようなリスト形式で記憶される。リンク関係情報生成部181は、図19に示したような情報を作成するための情報を、リンク情報記憶部164から取得する。
【0073】
図19に示したように、リンク関係情報記憶部191には、“ページID”、“SiblingページID”、および、“リンクの重み”が、それぞれ関連付けられて記憶されている。ここで、Siblingページとは、共通の親ページを有する子ページのことであり、図8を用いて説明したように、兄弟関係にあるページのことを示す。
【0074】
リンク関係情報生成部181は、各々のページIDに対して、Siblingの関係にあるページIDを抽出するといった処理を行うとともに、Siblingページ間のリンクの重みも算出する。そのSiblingページ間のリンクの重みの算出は、以下のようにして行われる。すなわち、Siblingページ間のリンクの重みWs(r,s)は、次式(3)に基づいて算出される。
【0075】
Ws(r,s)=Wc(t,r)×Wc(t,s) ・・・(3)
式(3)において、r,s,tは、Pをページ集合とした場合、r,s,t∈Pを満たす値であり、Ws(r,s)は、1≦Ws(r,s)を満たす値である。
【0076】
式(3)において、Ws(r,s)は、所定のページrと、そのページrとSiblingの関係にあるSiblingページs間のリンクの重みであり、Wc(t,r)は、所定のページtと、そのページtと親子関係にある子ページr間のリンクの重みであり、Wc(t,s)は、所定のページtと、そのページtと親子関係にある子ページs間のリンクの重みである。
【0077】
図20を参照して、式(3)について説明するに、この重みの算出は、所定のページrと、そのページrとSibling(兄弟)の関係にあるページsとのリンクの重みWs(r,s)は、そのSibling関係内に存在するページ間のリンクの重み、この場合、ページrとページsとに共通に親子の関係にある親ページtとのリンクの重みである、重みWc(t,r)と重みWc(t,s)とを乗算することにより求められる。
【0078】
このようにして、Siblingページ間のリンクの重みが算出され、その算出結果が、図19に示したようなリスト形式のデータに書き込まれる。
【0079】
図11のフローチャートの説明に戻り、ステップS48において、SDFデータの生成が、SDFデータ生成部182(図7)により行われる。SDFデータ生成部182は、必要に応じ、リンク関係情報記憶部191と基本ページモデル記憶部163からデータを読み出し、その読み出したデータを用いて、図21に示すようなリスト形式のデータを作成し、SDFデータ記憶部192に記憶させる。
【0080】
図21に示したSDFデータ記憶部192に記憶されるデータは、“ページID”と、“ページIDに含まれる単語IDと、その単語IDを含むSiblingページのリンクの重みの総和”といった情報を含む。このデータは、各々のページにおいて、そのページ内で出現する単語に対して、その単語が現れるSiblingページのリンクの重みを総和したデータであり、リンク判定部146が、前述のとおりWc(p,q)=1とリンクの重みを生成した場合には、単にその単語が現れるSiblingページの総数となる。
【0081】
ステップS49において、ページモデル拡張部183(図7)は、ページモデル拡張処理を実行する。ページモデル拡張処理とは、図22に示すようなリスト形式のデータを作成し、ページモデル拡張データ記憶部193に記憶させる処理である。ページモデル拡張部183は、図22に示すようなデータを作成するために、基本ページモデル記憶部163、リンク情報記憶部164、リンク関係情報記憶部191、および、SDFデータ記憶部192に、それぞれ記憶されているデータを必要に応じて読み出す。
【0082】
図22に示したページモデル拡張データ記憶部193に記憶されているデータは、“ページID”と“ベクトル”といった情報を含む。“ベクトル”内の重みは、ISDF(Inverse Sibling Document Frequency)に基づき、以下のようにして求められる。
【0083】
Pi=({Ti1×Wi1}, {Ti2×Wi2}, ……, {Tij×Wij}, …… ・・・(4)
式(4)において、iはページであり、i∈P、jは単語であり、j∈Tallである。Piは、ページiのTall次元のベクトルを示す。Tijは、ページiにおいて単語jが出現しているか否かを示す値であり、出現している場合1が、出現していない場合0が、それぞれ設定される。
【0084】
Wijは、ページiにおける単語jの重みであり次式(5)に基づいて算出される。また、Wij は、 0 ≦ Wij を満たす値となり、Σ(Ti×Wij)^2=1(TiとWijを乗算した値を2乗した値の総和が1)になるよう正規化される。
【0085】
Wij= ( 1 + log(TFij) )×( 1 + log( 1 /(1 + SDFij))) ・・・(5)
式(5)において、TFij は、単語jのページiにおける出現回数を示し、0 ≦ TFijの値を取る。SDFij は、ページiのSiblingページのうち、単語jを含むページのリンクの重みの総和を示す。
【0086】
このような式(4)と式(5)を用いてベクトル内の重みを算出するようにしても良いが、さらに、SDFijの効果を高めるため、式(5)を式(6)に置き換えても良い。
Wij = ( 1 + log(TFij) )×( 1 + log( 1+ASDFi /(1 + SDFij)))・・・(6)
【0087】
式(6)において、ASDFiは、ページiと全Siblingページ間のリンクの重みの総和を示す。
【0088】
さらに、TTFij, ATFijを加え、式(5)を基に次式(7)あるいは、式(6)を基に次式(8)に基づいて、重みを算出するようにしても良い。
Wij = ( 1 + log(TFij+TTFij+ATFij) )×( 1 + log( 1 /(1 + SDFij)))・・・(7)
Wij = ( 1 + log(TFij+TTFij+ATFij) )×( 1 + log( 1+ ASDFi /(1 + SDFij))) ・・・(8)
式(7),(8)において、TTFijは、タグ付単語jがページiにおいて出現するか否かを示し、出現しない場合0が、出現する場合1が、それぞれ設定される。あるいは出現回数(0以上)が設定されるようにしても良い。タグの種類に応じてそれぞれ重みを付けるようにしても良い。
【0089】
また、ATFijは、ページiのリンク元ページ(この場合、親ページ)におけるアンカー窓内において単語jが出現するか否かを示し、出現しない場合0が、出現する場合1が、それぞれ設定される。あるいは出現回数(0以上)が設定されるようにしても良い。タグ付単語と同様に、重みを付けてもよい。さらに、アンカーからの距離に応じて重みをつけるようにしても良い。
【0090】
このような式に基づいて、図22に示したデータ内の“ベクトル”内の各々の単語に対する“重み”のデータが算出される。図11のフローチャートの説明に戻り、ステップS50において、関連度算出部184において、ページ間の関連度が算出される。関連度算出部184は、必要に応じ、ページモデル拡張データ記憶部193に記憶されているデータを読み出し、図23に示すようなリスト形式のデータを作成し、関連度データ記憶部194に記憶させる。
【0091】
図23に示した関連度データ記憶部194に記憶されるデータは、“ページID”、“対象ページID”、“関連度”、および、“高関連度単語”といった情報を含む。このうち、関連度は、以下のようにして算出される。関連度は、関連ページ検索に適した形に特徴抽出されたページ間の特徴が共通している部分が多いほど、関連度が高くなるという考えに基づき算出される。例えば、共通特徴数/総特徴数(積/和)、VSMのcosine類似度などを用いて算出することができる。
【0092】
具体的には、次式(9)に基づいて算出される。式(9)は、VSMのcosine
類似度によるものである。
R(i,j) = Pi ・ Pj / | |Pi| || |Pj| | ・・・(9)
式(9)において、Pi 、Pjはそれぞれページi、ページjのベクトル表現であり、式(4)により算出(表現)される値である。また、i、j∈Pである。R(i,j)は、ページiに対するページjの関連度であり、図23では、ページiが“ページID”,ページjが“対象ページID”となる。
【0093】
このようにして算出された関連度は、図23に示すようなリスト形式のデータ内のデータとして、関連度データ記憶部194に記憶される。次に、ステップS51以降の処理が行われるわけだが、ステップS51以降の処理は、このようにして各記憶部に記憶されたデータ、特に、関連度データ記憶部194に記憶されているデータが用いられて行われる。
【0094】
そこで、ここまでの処理、すなわち、ステップS41乃至S50までの処理は、ユーザの要求があった際に、リアルタイムに実行されるようにしても良いし、ユーザの要求に関わらず、事前に実行されるようにしても良い。
【0095】
ユーザの要求に関わらず、ステップS41乃至S50の処理が行われる場合、所定のサイトから定期的にデータを取得するようにし、各記憶部に記憶されているデータが更新されるようにすれば良い。このように、予めデータを作成しておけば、ユーザからの要求があった際、ユーザからの要求があってからリアルタイムに処理を実行するよりも、その要求に即座に対応することが可能となる。
【0096】
また、上記のように予めデータを作成した場合、ユーザから要求がある際に送信されるURLが予め作成したデータに存在しないときには、ステップS41乃至S50をそのURLの示すページ、あるいはそのページのサイトについて行うことが可能である。
【0097】
ステップS51において、関連ページ一覧生成部185は、ユーザが関連ページの提供を指示してきたページに対応する関連ページの一覧を作成する。その作成は、以下のようにして行われる。
【0098】
まず、関連ページ一覧生成部185は、ページID記憶部161から、ユーザが関連ページ検索ボタン231を操作した際に閲覧されていたページ(関連ページの検索が指示されたページ)のURLに対応するページIDを読み出す。その読み出されたページIDをKey1とするデータが、関連度データ記憶部194(図23)から読み出される。その際、関連度の値が高い順にソートされ、その関連度に該当する対象ページID(Key2となるページID)が読み出される。
【0099】
そして、関連ページ一覧生成部185は、該当したページIDをページID記憶部161に照合し、URLなど、そのページに関する情報を取り出し、一覧データを生成する。
【0100】
一覧データを生成する際、ここまでの処理により得られたデータで終了しても良いが、さらに、以下のような機能を付け加えても良い。ユーザには、関連度が高い順にページに関する情報が表示されるように、一覧表が作成されるわけだが、例えば、同一の関連度を有するページが複数存在する場合が考えられ、そのようなとき、どのページを上位に表示するかが問題となる。また、関連度とは関係しないページの重要度を加味して、最終的にユーザへ関連ページを表示することも考えられる。
【0101】
そこで、関連度算出部184が算出した関連度に対して、ページのランク付けを行い、そのデータを最終的な関連度の値に付加するようにする。例えば、ページのランク付けとしては、検索サーバ4自体が、ランク付けの機能を有するようにしても良いし、他のサーバで提供しているランク付けの情報を引用するようにしても良い。
【0102】
ランク付けのデータを加味した関連度の算出は、具体的には、パラメータによる調整が考えられる。
R’(i,j) = p R(i,j) + (1−p) G(j) ・・・(10)
式(10)において、R’(i,j) は、ページiに対するページjのランク付関連度であり、R(i,j) は、ページiに対するページjの関連度であり、式(9)により算出される値である。また、G(j) は、ページjのランクであり、p は、0 ≦ p ≦ 1の値を有するパラメータである。この式(10)で算出されたランク付関連度をすでに述べた図23に示すようなリスト形式のデータ内のデータとして、関連度データ記憶部194に記憶してもよい。
【0103】
また、上述した実施の形態でステップS49において、ページモデル拡張部183が行う処理の前または後の処理として、リンク先のページを考慮したページモデルを作成するようにしても良い。具体的には、所定のページの基本ページモデルに、リンク先の基本ページモデルの総和を付加する。このようにした場合、上述したリンク判定部146で算出されるリンク間の重みを付加するようにしてもよい。最下層(葉)のページまで計算する、あるいは、N回のリンク先まで考慮という形にする。
【0104】
ISDFによるページモデル拡張部183が行う処理の前に、この機能を実現した場合、所定のページのページモデルに存在する単語種が増えるため、ISDFの結果が影響を受けることになるため、このことを考慮して、前または後の、どちらに処理を実行するかを決定した方が良い。
【0105】
さらに、上述した実施の形態において、各処理を行う上で、単語の関連性ということを考慮して処理を行うようにしても良い。例えば、“旅行”と“海外”といった単語を関連付けた辞書(関連辞書)を設け、その関連辞書を参照して処理が行われるようにする。このような関連辞書を設けない場合は、ページ内に出現した単語のみで関連度が決定されるが、関連辞書を設けるようにした場合は、例えば、基本ページモデル生成部145やSDFデータ生成部182、あるいは関連度算出部184などが処理を実行する前の処理として、関連辞書が参照され、その結果が用いられて関連度が算出されるようにしても良い。関連辞書としては、共起情報やKeyGraph手法により作成されるか、ODP(Open Directory Projectの略)のカテゴリー情報などが利用されるようにしても良い。
【0106】
図11のフローチャートの説明に戻り、このようにして生成された一覧データは、ステップS52において、ネットワーク1を介して端末3に送信される。端末3側において、一覧データが処理されることにより、ユーザに関連ページの一覧表が提供される。この関連ページの一覧表は、端末3のディスプレイ211上では、既に開かれているウインドウ(関連ページ検索ボタン231が操作されたウインドウ)とは異なるウインドウとして表示されるようにしても良いし、既に開かれているウインドウに表示されるようにしても良い。
【0107】
ここで、このような検索サーバ4による検索の結果として、ユーザに提供される関連ページについて説明する。例えば、従来の手法により所定のページの関連ページを検索した場合、その検索される関連ページは、類似しているページが上位に表示されるようになっていた。例えば、所定のミュージシャンのサイト内のプロフィールのページを閲覧しているときに、そのページに関連するページを検索した場合、そのミュージシャンの他のサイト内のプロフィールのページが検索結果としてユーザに提供されるといったことが行われていた。
【0108】
しかしながら、この例の場合、同一のミュージシャンの同一のプロフィールを、別のサイトで閲覧してもユーザにとって、新たに得られる情報は何もないといえる。換言すれば、ユーザは、同一のミュージシャンのプロフィールを何度も閲覧したいわけではなく、プロフィールに関連する情報、例えば過去に参加したイベントに関する情報や、プロフィールに記載されたストーリーに関する情報、ミュージシャンが好む事柄に関する情報などを所望しているために、関連ページの検索を実行したと考えられる。すなわち、ユーザは、検索を実行する際、重複した情報である類似するページを参照したいわけではなく、何らかの関わりのあるページを参照したいと考えられる。このような、類似しているわけではないが、関連しているページを提供することが、上述した検索サーバ4による検索においては実現することが可能である。
【0109】
上述した検索サーバ4の処理を図24を参照して説明する。図24に示すように、親ページには、リンクが張られている子ページとして子ページ1乃至3が存在するとする。そして、子ページ1に含まれる単語(ステップS43の処理で抽出される単語)が、“a,b,c,・・・”であり、子ページ2に含まれる単語が、“a,c,d,・・・”であり、子ページ3に含まれる単語が、“a,x,・・・”であるとする。
【0110】
このような状況では、子ページ1乃至3には、共通に、単語aが含まれている。例えば、所定の会社が運営するサイトの所定の製品Aのホームページ内で、使い方の提案などが掲載されているページがあるとする。そのページ内には、製品Aの名称を示す単語aが、高い確率で含まれている可能性がある。そのような場合には、単語aは、各ページの特徴を示す単語として(他のページとの差異を表す単語として)は、ふさわしくないと考えられる。
【0111】
よって、単語aなど、複数のページに共通に含まれる単語などは、それらのページの特徴を表す単語として取り扱われないようにする。換言すれば、ページ間の関連度を判断するためのページの特徴抽出としては、単語aなど、複数のページに共通に含まれる単語などは、他の単語と比較して重要度が低く設定される(他の単語の方が、重みが重く設定される)ようにする。
【0112】
その重みの設定は、上述したように、本実施の形態においては、ISDF(Inverse Sibling Document Frequency)に基づいて行っている。このISDFに基づく重み付けは、上述したように、ステップS49の処理として、ページモデル拡張部183(図7)が行っている。
【0113】
ここで、従来の重み付けの手法として、TF−IDF(Term Frequency−Inverse Document Frequency)がある。重み付けにTFを用いるのは、文書中(所定のページ中)で繰り返し用いられる単語は、そのページ内において重要な概念であると考えられるためである。しかしながら、ページ内に多く用いられている単語の中には、そのページを特定する性質を持たない共通あるいは汎用の単語も多く、索引語として適していないことが多い。そこで、語がどのくらい特定性を持つかをIDFによって重み付けに反映させるという手法である。
【0114】
IDFにより、所定のデータセットの多くの文書に出現する単語の重みを小さくする効果が得られる。そのため、所定のデータセット内のページの特徴をより明確に出すことが可能となる。
【0115】
このTF−IDFのIDFに対して、本実施の形態においては、ISDFという手法を用いている。従って、本実施の形態においては、TF−ISDFという手法を用いて重み付けを行っていることになる。これは、TF−IDFの手法と異なり、所定の関係(この場合、兄弟関係にあるページであり、後に詳細を示すICDFでは、共通親関係)の文書群を1つのデータセットとみなし、IDFを適用していると考えられる。
【0116】
すなわち、何を共通のデータセットとして見なすかが異なることになる。本実施の形態においては、兄弟関係にある文書(ページ)を1つのデータセットと見なしている。この兄弟関係にあるページとは、リンク元のページが共通という関係にある。リンク元のページが共通という関係にあるということは、そのページ間において、何らかの関係がある、何らかの類似点(共通点)があると考えられる。
【0117】
そのような類似点(共通点)があるページ群を1データセットとみなし、重み付けを行う(ISDFに基づく処理を行う)ことにより、類似したページの間の差分が、より明確になると考えられる。これにより、関連ページ検索に適した形で、各ページの特徴をより明確にすることになると考えられる。
【0118】
このようなことを換言すれば、どこまでを不要な特徴(雑音)として見なし、排除するかを適切に設定することにより、類似する文書に含まれる単語の重みを減じ、それらの文書(ページ)の他の特徴を浮き出させる。このように他の特徴を浮き出させることにより、類似度ではなく、関連度を求めるためのページの重み付け(特徴抽出)を行うことが可能となる。
【0119】
つまり、TF−IDFのIDFは、あるデータセット内のページに共通で用いられる単語を不要な特徴とみなし、各ページの特徴を明確にすることで、キーワードを入力し検索結果を出力する従来の検索エンジンに適したページの特徴抽出方法として用いられてきた。しかしながら、TF−ISDFのISDFは、類似点がある兄弟関係のページ群をデータセットとみなし、その中で共通に用いられる単語を不要な特徴とみなすことで、関連ページ検索に適した特徴抽出手法であるといえる。
【0120】
このような重み付けが行われた結果が用いられて、関連度が、例えば、VSMのcosine類似度などに基づいて算出される。この関連度の算出は、上述した実施の形態においては、関連度算出部184により行われる。VSMについて簡便に説明するに、VSMによる手法は、出現する単語の有無や出現数を特徴量とし、検索対象データや入力文書を全単語次元数のベクトルで表現するものである。VSMでは、データ間の類似度(共通する度合い)を算出するために、ベクトル間のcosineを用いることが多い。VSMによる手法は、記事と語彙の関係、記事同士の関係、単語同士の関係をモデル化するのに有効な手法とされている。
【0121】
本実施の形態において、上述したような重み付けを行い、関連度を算出し、その関連度を用いて、ユーザに対して関連ページの情報を提供するため、例えば、所定のミュージシャンのサイト内のプロフィールのページを閲覧しているときに、そのページに関連するページを検索した場合、そのミュージシャンの他のサイト内の同一プロフィールのページが検索結果としてユーザに提供されるというのではなく、そのミュージシャンの過去に参加したイベントに関する情報や、プロフィールに記載されたストーリーに関する情報、ミュージシャンが好む事柄に関する情報などの情報がユーザに提供されることになる。
【0122】
従って、本実施の形態によれば、ユーザが所望する関連ページをより高い精度で提供することが可能となる。
【0123】
一方、本実施の形態における、ページの兄弟関係、あるいは詳細を後述する共通親関係を用いたページの特徴抽出手段は、ユーザのブラウジング履歴のなかの所定のページを用いたユーザモデル生成法に適用可能である。すなわち、ユーザモデルの生成法は、ユーザが過去に参照したページ群を解析することによって生成されることが多いが、そのページの特徴抽出手段として、本実施の形態にある兄弟あるいは共通親関係のページを考慮したページの特徴抽出手段が利用できる。さらに、キーワードや自然言語を入力とした検索エンジンへ適用し、兄弟関係、あるいは共通親関係を考慮したページモデルに基づく検索エンジンの実現も可能である。
【0124】
上述した実施の形態においては、リンク判定部146(図6)は、親ページに注目して、その親ページがリンクを張っている他の子ページを判定するようにし、その結果を用いて後段の処理が行われるとしたが、子ページに注目して、その子ページにリンクを張っている他の親ページを判定するようにし、その結果を用いて後段の処理が行われるようにしても良い。
【0125】
すなわち、図25を参照して説明するに、所定の子ページに注目した際、その子ページにリンクを張っている複数の親ページ(共通親のページ)が存在している場合が考えられ、それらの共通親(Co−Parent)ページの関係を、リンク関係情報生成部181に相当する部分が判定し、その判定結果が用いられて、後段の処理が行われるようにしても良い。
【0126】
そのような判定結果を用いるようにした場合について説明する。検索サーバ4の内部構成は、基本的に、図5乃至図7に示したような構成と同様に構成することが可能である。ただし、図7に示した部分に関する構成は、図26に示したような構成となる。図7に示した構成と、図26に示した構成とを比較するに、図26に示した構成は、図7のSDFデータ生成部182とSDFデータ記憶部192を、それぞれCDFデータ生成部252とCDFデータ記憶部262に置き換えた構成とされ、他の部分は、同じ構成とされている。しかしながら、各部で処理されるデータが異なり、その異なる部分について、以下に説明する。
【0127】
図26に示した構成を含む検索サーバ4の動作は、図27に示したフローチャートの処理に従って行われる。ここで、図27に示したフローチャートを参照して、図26に示した構成を含む検索サーバ4の動作について説明する。ステップS71乃至S76の処理は、図11に示したフローチャートのステップS41乃至S46の処理と同様の処理であるので、その説明は省略する。
【0128】
ステップS71乃至S76における処理、すなわち、検索サーバ4内の構成のうち、図6に示した部分で行われる処理が行われることにより、図6に示した、保存ページ記憶部102、ページID記憶部161、単語ID記憶部162、基本ページモデル記憶部163、および、リンク情報記憶部164にはそれぞれ、図14乃至図18に示したデータが記憶される。
【0129】
ステップS77において、リンク関係情報が、リンク関係情報生成部251により生成されるわけだが、その生成され、リンク関係情報記憶部261に記憶されるデータは、図28に示したようなデータである。図28に示したように、リンク関係情報記憶部261には、“ページID”、“Co−ParentページID”、および、“リンクの重み”が、それぞれ関連付けられて記憶されている。
【0130】
リンク関係情報生成部251は、各々のページIDに対して、Co−Parentの関係にあるページIDを抽出するといった処理を行うとともに、Co−Parentページ間のリンクの重みも算出する。そのCo−Parentページ間のリンクの重みの算出は、以下のようにして行われる。すなわち、Co−Parentページ間のリンクの重みWo(u,v)は、次式(11)に基づいて算出される。
【0131】
Wo(u,v)=Wc(u,w)×Wc(v,w) ・・・(11)
式(11)において、u,v,wは、Pをページ集合とした場合、u,v,w∈Pを満たす値であり、Wo(u,v)は、1≦W(u,v)を満たす値である。
【0132】
式(11)において、Wo(u,v)は、所定のページuと、そのページuとCo−Parentの関係にあるCo−Parentページv間のリンクの重みであり、Wc(u,w)は、所定のページuと、そのページuと親子関係にある子ページw間のリンクの重みであり、Wc(v,w)は、所定のページvと、そのページvと親子関係にある子ページw間のリンクの重みである。
【0133】
このようにして、Co−Parentページ間のリンクの重みが算出され、その算出結果が、図28に示したようなリスト形式のデータに書き込まれる。
【0134】
図27のフローチャートの説明に戻り、ステップS78において、CDFデータの生成が、CDFデータ生成部252(図26)により行われる。CDFデータ生成部252は、必要に応じ、リンク関係情報記憶部251(図26)と基本ページモデル記憶部163(図6)からデータを読み出し、その読み出したデータを用いて、図29に示すようなリスト形式のデータを作成し、CDFデータ記憶部262に記憶させる。
【0135】
ここで、CDFとは、Co−Parent Document Frequencyの略であり、各々のページに含まれる(各ページで出現する)単語に対して、その単語が現れる共通親ページのリンクの重みを総和したデータである。
【0136】
図29に示したCDFデータ記憶部262に記憶されるデータは、“ページID”と、“ページIDに含まれる単語IDと、その単語IDを含むCo−Parentページのリンクの重みの総和”といった情報を含む。このデータは、各々のページにおいて、そのページ内で出現する単語に対して、その単語が現れるCo−Parentページのリンクの重みを総和したデータであり、リンク判定部146が、前述のとおりWc(p,q)=1とリンクの重みを生成した場合には、単にその単語が現れるCo−Parentページの総数となる。
【0137】
ステップS79において、ページモデル拡張部253(図26)は、ページモデル拡張処理を実行する。ページモデル拡張処理とは、図22に示すようなリスト形式のデータを作成し、ページモデル拡張データ記憶部263に記憶させる処理である。ページモデル拡張部253は、図22に示すようなデータを作成するために、基本ページモデル記憶部163、リンク情報記憶部164、リンク関係情報記憶部261、および、CDFデータ記憶部262に記憶されているデータを必要に応じて読み出す。
【0138】
図22に示したページモデル拡張データ記憶部263に記憶されているデータは、既に説明したように、“ページID”と“ベクトル”といった情報を含む。既に説明した実施の形態においては、Siblingの関係に注目したときのデータであったが、この実施の形態においては、Co−Parentの関係に注目したときのデータである。従って、そのデータの算出(“ベクトル”という情報内の“重み”という情報)に用いられる式が異なる。その異なる式に関して説明する。
【0139】
基本的に、Co−Parentの関係に注目し、ICDF(Inverse Co−Parent Document Frequency)に基づいて重みを計算した場合でも、“ベクトル”の重みに関するデータは、式(4)に基づいて算出される。ただし、式(4)に含まれるWijは、次式(12)に基づいて算出される。
Wij= ( 1 + log(TFij) )×( 1 + log( 1 /(1 + CDFij))) ・・・(12)
式(12)において、TFij は、単語jのページiにおける出現回数を示し、0 ≦ TFijの値を取る。CDFij は、ページiのCo−Parentページのうち、単語jを含むページのリンクの重みの総和を示す。
【0140】
このような式(4)と式(12)を用いてベクトル内の重みを算出するようにしても良いが、さらに、CDFijの効果を高めるため、式(12)を式(13)に置き換えても良い。
Wij = ( 1 + log(TFij) )×( 1 + log( 1+ACDFi /(1 + CDFij)))・・・(13)
【0141】
式(13)において、ACDFiは、ページiと全Co−Parentページ間のリンクの重みの総和を示す。
【0142】
さらに、TTFij, ATFijを加え、式(12)を基に次式(14)あるいは、式(13)を基に次式(15)に基づいて、重みを算出するようにしても良い。
Wij = ( 1 + log(TFij+TTFij+ATFij) )×( 1 + log( 1 /(1 + CDFij)))・・・(14)
Wij = ( 1 + log(TFij+TTFij+ATFij) )×( 1 + log( 1+ ACDFi /(1 + CDFij))) ・・・(15)
式(14)、(15)において、TTFijは、タグ付単語jのページiにおいて出現するか否かを示し、出現しない場合0が、出現する場合1が、それぞれ設定される。あるいは出現回数(0以上)が設定されるようにしても良い。タグの種類に応じてそれぞれ重みを付けるようにしても良い。
【0143】
また、ATFijは、単語jのページiへのリンク元ページにおけるアンカー窓内において単語jが出現するか否かを示し、出現しない場合0が、出現する場合1が、それぞれ設定される。あるいは出現回数(0以上)が設定されるようにしても良い。タグ付単語と同様に、重み付けを行うようにしてもよい。さらに、アンカーからの距離に応じたウインドウ重みをつけるようにしても良い。
【0144】
ステップS80において、関連度算出部254において、ページ間の関連度が算出される。関連度算出部254は、必要に応じ、ページモデル拡張データ記憶部263に記憶されているデータを読み出し、図23に示すようなリスト形式のデータを作成し、関連度データ記憶部264に記憶させる。
【0145】
図23に示した関連度データ記憶部264に記憶されるデータは、既に説明したように、“ページID”、“対象ページID”、“関連度”、および、“高関連度単語”といった情報を含む。このうち、関連度は、Co−Parentの関係に注目して処理が行われる際でも、Siblinの関係に注目して処理が行われる際と同様の式により行われる。すなわち、既に説明した式(9)に基づいて算出される。
【0146】
ステップS81以降の処理は、図11のステップS51以降の処理と同様であるので、その説明は省略する。
【0147】
このように、Co−Parentの関係に注目して処理を行う場合においても、Siblingの関係に注目して処理を行う場合と同様の効果、又は、それ以上の効果を得ることが可能である。
【0148】
さらに、第3の実施の形態として、Siblingの関係とCo−Parentの関係の両方を考慮して処理を行うことが考えられる。そのようにした場合においても、検索サーバ4の構成は、図5乃至図7に示したような構成でよい。ただし、図7(図26)に示した詳細な構成は、図30に示したような構成とする。
【0149】
図30に示した検索サーバ4に含まれる内部構成例について、既に説明した図7又は図26と比較して説明する。図7に示したリンク関係情報生成部181または図26に示したリンク関係情報生成部251は、Siblingリンク関係情報生成部301とCo−Parentリンク関係情報生成部302で構成される。またこれらの各部で生成されたデータを記憶するために、関連ページデータ記憶部105には、Siblingリンク関係情報記憶部311とCo−Parentリンク関係情報記憶部312とが、それぞれ設けられている。
【0150】
図7に示したSDFデータ生成部182または図26に示したCDFデータ生成部252は、SDF・CDFデータ生成部303で構成される。また、図7に示したページモデル拡張部183または図26に示したページモデル拡張部253は、ISDF・ICDFページモデル拡張部304で構成される。これらの各部で生成されたデータを記憶するために、関連ページデータ記憶部105には、SDF・CDFデータ記憶部313とISDF・ICDFページモデル拡張データ記憶部314が、それぞれ設けられている。
【0151】
その他の部分に関しては、基本的に、図7(図26)に示した構成と同様なので、その説明は省略する。
【0152】
図31のフローチャートを参照して、図30に示した構成を含む検索サーバ4の動作について説明する。ステップS101乃至S106の処理は、図11に示したフローチャートのステップS41乃至S46の処理と同様の処理であるので、その説明は省略する。
【0153】
ステップS101乃至S106における処理、すなわち、検索サーバ4内の構成のうち、図6に示した部分で行われる処理が行われることにより、図6に示した、保存ページ記憶部102、ページID記憶部161、単語ID記憶部162、基本ページモデル記憶部163、および、リンク情報記憶部164にはそれぞれ、図14乃至図18に示したデータが記憶される。
【0154】
ステップS107において、Siblingリンク関係情報が、Siblingリンク関係情報生成部301(図30)により生成されるわけだが、その生成され、Siblingリンク関係情報記憶部311に記憶されるデータは、図19に示したようなデータである。すなわち、ステップS107における処理は、図11のステップS47の処理と同様であり、Siblingリンク関係情報生成部301が生成するデータは、図7に示したリンク情報関係情報生成部181が生成するデータと同様であるので、その詳細な説明は既に説明したので、ここではその説明を省略する。
【0155】
次に、ステップS108において、Co−ParentTリンク関係情報が、Co−Parentリンク関係情報生成部302により生成されるわけだが、その生成され、Co−Parentリンク関係情報記憶部312に記憶されるデータは、図28に示したようなデータである。すなわち、ステップS108における処理は、図27のステップS77の処理と同様であり、Co−Parentリンク関係情報生成部302が生成するデータは、図26に示したリンク情報関係情報生成部251が生成するデータと同様であるので、その詳細な説明は既に説明したので、ここではその説明を省略する。
【0156】
図31のフローチャートの説明に戻り、ステップS109において、SDF・CDFデータの生成が、SDF・CDFデータ生成部303(図30)により行われる。SDF・CDFデータ生成部303は、必要に応じ、Siblingリンク関係情報記憶部311、Co−Parentリンク関係情報記憶部312、および基本ページモデル記憶部163(図6)からデータを読み出し、その読み出したデータを用いて、図21と図29に示すようなリスト形式のデータを作成し、SDF・CDFデータ記憶部313に記憶させる。
【0157】
図21に示したデータは、SDF用のデータであり、図29に示したデータは、CDF用のデータである。SDF用のデータは、図7のSDFデータ生成部182が図11のステップS48の処理として行う処理と同様な処理により生成され、CDF用のデータは、図26のCDFデータ生成部252が図27のステップS78の処理として行う処理と同様な処理により生成される。これらの生成については、既に説明したので、ここでは、その説明を省略する。
【0158】
また、図21と図29に示したリスト形式のデータは、それぞれ別々のリスト形式のデータとして、SDF・CDFデータ記憶部313に記憶されるようにしても良いし、1つのリスト形式としてまとめられて記憶されるようにしても良い。
【0159】
ステップS110において、ISDF・ICDFページモデル拡張部304(図30)は、ISDF・ICDFページモデル拡張処理を実行する。ISDF・ICDFページモデル拡張処理とは、図22に示すようなリスト形式のデータを作成し、ISDF・ICDFページモデル拡張データ記憶部314に記憶させる処理である。
【0160】
ISDF・ICDFページモデル拡張データ記憶部314に記憶されているデータは、図22に示したようなデータであるとし、その図22に示したデータは、既に説明したように、“ページID”と“ベクトル”といった情報を含む。図22に示したデータについては、Siblingの関係に注目したときのデータ、または、Co−Parentの関係に注目したときのデータであるとして説明した。ここでは、その両方の関係に注目したときのデータであるため、そのデータの算出(“ベクトル”という情報内の“重み”という情報)に用いられる式が異なる。その異なる式に関して説明する。
【0161】
基本的に、Siblingの関係とCo−Parentの関係の両方に注目したときでも、“ベクトル”の重みに関するデータは、式(4)に基づいて算出される。式(4)に含まれるWijは、次式(16)に基づいて算出される。
Wij= ( 1 + log(TFij) )×( 1 + log( 1 /(1 + SDFij+CDFij)))・・・(16)
式(16)において、TFij は、単語jのページiにおける出現回数を示し、0 ≦ TFijの値を取る。SDFij は、ページiのSiblingページのうち、単語jを含むページのリンクの重みの総和を示し、CDFij は、ページiのCo−Parentページのうち、単語jを含むページのリンクの重みの総和を示す。
【0162】
このような式(4)と式(16)を用いてベクトル内の重みを算出するようにしても良いが、さらに、SDFijとCDFijの効果を、それぞれ高めるため、式(16)を式(17)に置き換えて算出するようにしても良い。
Wij = ( 1 + log(TFij) )×( 1 + log( 1+ACDFi+ASDFi /(1 + ASDFij+CDFij))) ・・・(17)
【0163】
式(17)において、ASDFiは、ページiと全Siblingページ間のリンクの重みの総和を、ACDFiは、ページiと全Co−Parentページ間のリンクの重みの総和を示す。
【0164】
さらに、TTFij, ATFijを加え、式(16)を基に次式(18)あるいは、式(17)を基に次式(19)に基づいて、重みを算出するようにしても良い。
Wij = ( 1 + log(TFij+TTFij+ATFij) )×( 1 + log( 1 /(1 + SDFij+CDFij))) ・・・(18)
Wij = ( 1 + log(TFij+TTFij+ATFij) )×( 1 + log( 1+ ASDFi+ACDFi /(1 + SDFij+CDFij))) ・・(19)
式(18)または式(19)において、TTFijは、タグ付単語jのページiにおいて出現するか否かを示し、出現しない場合0が、出現する場合1が、それぞれ設定される。あるいは出現回数(0以上)が設定されるようにしても良い。タグの種類に応じてそれぞれ重みを付けるようにしても良い。
【0165】
また、ATFijは、単語jのページiへのリンク元ページにおけるアンカー窓内において単語jが出現するか否かを示し、出現しない場合0が、出現する場合1が、それぞれ設定される。あるいは出現回数(0以上)が設定されるようにしても良い。タグ付単語と同様に、重み付けを行うようにしてもよい。さらに、アンカーからの距離に応じたウインドウ重みをつけるようにしても良い。
【0166】
図31のフローチャートの説明に戻り、ステップS111において、関連度算出部305において、ページ間の関連度が算出される。関連度算出部305は、必要に応じ、ISDF・ICDFページモデル拡張データ記憶部314に記憶されているデータを読み出し、図23に示すようなリスト形式のデータを作成し、関連度データ記憶部315に記憶させる。
【0167】
図23に示した関連度データ記憶部264に記憶されるデータは、既に説明したように、“ページID”、“対象ページID”、“関連度”、および、“高関連度単語”といった情報を含む。このうち、関連度は、Co−Parentの関係に注目して処理が行われる際でも、Siblingの関係に注目して処理が行われる際でも、または、SiblingとCo−Parentの両方の関係に注目して処理が行われる際でも、同様の式により行われる。すなわち、既に説明した式(9)に基づいて算出される。
【0168】
ステップS112以降の処理は、図11のステップS51以降の処理と同様であるので、その説明は省略する。
【0169】
このように、Siblinの関係とCo−Parentの関係の両方に注目して処理を行う場合においても、Co−Parentの関係に注目して処理を行うときや、Siblingの関係に注目して処理を行うときと同様の効果、またはそれ以上の効果を得ることが可能である。
【0170】
上述した実施の形態においては、ユーザに関連ページの情報を提供する際の処理について説明したが、その関連ページの情報に、広告などの情報を含めるようにしても良い。そのような広告などの情報も提供するようにした場合、検索サーバ4の構成は、図32に示したようになる。図32に示した検索サーバ4の構成は、図5に示した検索サーバ4の構成に、特殊設定管理用記憶部331を追加した構成とされている。
【0171】
この特殊設定管理用記憶部331には、図33、図34にそれぞれ示す記憶部が設けられている。図33に示した特殊設定用管理データ記憶部341には、“タイトル”、“リンク先URL”、“説明”、“単語”、“URLパターン”、および、“オーナID”といった情報が含まれている。図34に示した特殊設定管理者データ記憶部342には、“オーナID”、“名前”、“所属”、“e−mail”、“Account”、および、“Password”といった情報が含まれている。
【0172】
このような特殊設定管理用記憶部331が、検索サーバ4に設けられた場合、例えば、図11に示したフローチャートにおいて、関連ページ一覧生成という処理の内の1処理として、この特殊設定管理用記憶部331に記憶されている情報を提供するための処理が実行される。具体的には、関連ページの一覧表のデータが、作成された後に、特殊設定管理用記憶部331が参照され、その関連ページに関連すると判断されるURLなどの情報が、特殊設定用管理データ記憶部341から抽出され、一覧表のデータに含まれる。
【0173】
提供されたデータがユーザ側の端末3で再生されると、その画面には、関連ページの一覧と、その関連ページに関わりのある情報(広告)が表示されている。
【0174】
特殊設定用管理データ記憶部341に記憶されているデータは、管理者により削除、追加、訂正などの処理が行えるようになっており、その管理者を管理するためのデータが、特殊設定管理者データ記憶部342に記憶されている。この特殊設定管理者データ記憶部342に記憶されている管理者のみが、特殊設定用管理データ記憶部341のデータを操作することが可能とするために、パスワード(Password)などが設定されるようになっている。
【0175】
このように、関連ページの一覧表に、広告も含めるようにした場合、その広告を掲載する会社から、その掲載料金を徴収することが可能となる。また、上述した実施の形態においては説明しなかったが、例えば、検索サーバ4の収集サイトリスト記憶部101に記憶されるサイトを管理する管理者から、料金を徴収するようにしても良い。
【0176】
これは、検索サーバ4により、ユーザに関連ページであるとしてユーザに提供されることにより、そのサイトへのアクセスの増加を期待することができ、そのために、検索サーバ4自体に登録してもらいたいというサイトの管理者から登録料として料金を徴収することができる。
【0177】
このような課金制度を、必要に応じて設けることも可能である。
【0178】
上述した一連の処理は、それぞれの機能を有するハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
【0179】
記録媒体は、図2に示すように、WWWサーバ2を構成するパーソナルコンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク31(フレキシブルディスクを含む)、光ディスク32(CD−ROM(Compact Disc−Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク33(MD(Mini−Disc)(登録商標)を含む)、若しくは半導体メモリ34などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記憶されているROM12や記憶部18が含まれるハードディスクなどで構成される。
【0180】
なお、本明細書において、媒体により提供されるプログラムを記述するステップは、記載された順序に従って、時系列的に行われる処理は勿論、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0181】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【0182】
【発明の効果】
本発明の情報処理装置および方法、記録媒体、並びにプログラムによれば、インターネット上に開設されているサイトの検索を行うことが可能である。
【0183】
また、本発明の情報処理装置および方法、記録媒体、並びにプログラムによれば、よりユーザの所望としているサイトを検索し、その情報を提供することが可能である。
【図面の簡単な説明】
【図1】本発明を適用した情報処理システムの一実施の形態の構成を示す図である。
【図2】WWWサーバの内部構成例を示す図である。
【図3】端末3の内部構成例を示す図である。
【図4】検索サーバの内部構成例を示す図である。
【図5】検索サーバの内部構成例を示す図である。
【図6】検索サーバの詳細な内部構成例を示す図である。
【図7】検索サーバの詳細な内部構成例を示す図である。
【図8】リンク関係について説明するための図である。
【図9】端末と検索サーバとの間で行われる処理について説明するフローチャートである。
【図10】端末側のディスプレイ上に表示される画面の一例を示す図である。
【図11】検索サーバの動作について説明するためのフローチャートである。
【図12】収集サイトリスト記憶部に記憶されるデータを説明するための図である。
【図13】保存ページ記憶部に記憶されるサイトのデータを説明するための図である。
【図14】ページID記憶部に記憶されるデータを説明するための図である。
【図15】単語ID記憶部に記憶されるデータを説明するための図である。
【図16】単語ID記憶部に記憶されるデータを説明するための図である。
【図17】基本ページモデル記憶部に記憶されるデータを説明するための図である。
【図18】リンク情報記憶部に記憶されるデータを説明するための図である。
【図19】リンク関係情報記憶部に記憶されるデータを説明するための図である。
【図20】重みの算出について説明するための図である。
【図21】SDFデータ記憶部に記憶されているデータを説明するための図である。
【図22】ページモデル拡張データ記憶部に記憶されるデータを説明するための図である。
【図23】関連度データ記憶部に記憶されるデータを説明するための図である。
【図24】関連ページ間の特徴の抽出について説明するための図である。
【図25】リンク関係について説明するための図である。
【図26】検索サーバの詳細な他の内部構成例を示す図である。
【図27】図26に示した構成を有する検索サーバの動作について説明するフローチャートである。
【図28】リンク関係情報記憶部に記憶されるデータを説明するための図である。
【図29】CDFデータ記憶部262に記憶されるデータを説明するための図である。
【図30】検索サーバの詳細な他の内部構成例を示す図である。
【図31】図30に示した構成を有する検索サーバの動作について説明するフローチャートである。
【図32】検索サーバの他の内部構成例を示す図である。
【図33】特殊設定用管理データ記憶部に記憶されるデータを説明する図である。
【図34】特殊設定管理者データ記憶部に記憶されるデータを説明する図である。
【符号の説明】
1 ネットワーク, 2 WWWサーバ, 3 端末, 4 検索サーバ, 101 収集サイトリスト記憶部, 102 保存ページ記憶部, 103 ページデータ記憶部, 104 サイトページデータ記憶部, 105 関連ページデータ記憶部, 111 サイトページ記憶部, 112 関連ページデータ処理部
Claims (9)
- サイトを構成するページのデータを取得する取得手段と、
前記取得手段により取得された前記ページのデータを用いて、前記ページ内に出現する単語を抽出する抽出手段と、
前記抽出手段により抽出された前記単語が、前記ページ内で出現する回数をカウントするカウント手段と、
前記取得手段で取得されたページ間のリンク構造を解析し、前記カウント手段によるカウントの値を用いて、リンク関係にある前記ページ間の第1の重みを生成する第1の生成手段と、
前記第1の生成手段により生成された前記第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成手段と、
前記第2の生成手段により生成された前記第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成手段と、
前記第3の生成手段により生成された前記データを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する算出手段と
を含むことを特徴とする情報処理装置。 - 前記算出手段により算出された前記所定の値を用いて、前記取得されたページ間の所定のページ間の関連度を算出する第2の算出手段を
さらに含むことを特徴とする請求項1に記載の情報処理装置。 - 前記第2の生成手段が、前記所定のページをリンク元とし、そのリンク元からリンクが張られているリンク先のページ同士のページ間の前記第2の重みを算出する場合、前記第3の生成手段は、前記SDFデータを生成し、前記算出手段は、前記ISDFに基づくページモデル拡張処理により前記所定の値を算出し、
前記第2の生成手段が、前記所定のページをリンク先とし、そのリンク先にリンクを張っているリンク元のページ同士のページ間の前記第2の重みを算出する場合、前記第3の生成手段は、前記CDFデータを生成し、前記算出手段は、前記ICDFに基づくページモデル拡張処理により前記所定の値を算出し、
前記第2の生成手段が、前記所定のページをリンク元とし、そのリンク元からリンクが張られているリンク先のページ同士のページ間の前記第2の重みと、前記所定のページをリンク先とし、そのリンク先にリンクを張っているリンク元のページ同士のページ間の前記第2の重みをそれぞれ算出する場合、前記第3の生成手段は、前記SDFデータと前記CDFデータをそれぞれ生成し、前記算出手段は、前記ISDFと前記ICDFに基づくページモデル拡張処理により前記所定の値を算出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記算出手段は、前記所定のページ内における所定の単語の出現回数と、前記所定のページと前記第2の生成手段で生成されたリンク関係にあるページのうち、前記所定の単語を含むページに対応する前記第3の生成手段により生成された前記データを用いた演算により、前記所定の値を算出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第2の算出手段により算出された前記関連度を記憶する記憶手段と、
所定のページに関連があるページの情報の提供が要求された場合、前記記憶手段に記憶されている前記関連度を参照して、前記所定のページと関連度が高いページの情報を提供する提供手段と
をさらに含むことを特徴とする請求項1に記載の情報処理装置。 - 前記提供手段は、前記情報を提供する際、前記所定のページと関連する広告に関する情報も提供する
ことを特徴とする請求項5に記載の情報処理装置。 - サイトを構成するページのデータを取得する取得ステップと、
前記取得ステップの処理で取得された前記ページのデータを用いて、前記ページ内に出現する単語を抽出する抽出ステップと、
前記抽出ステップの処理で抽出された前記単語が、前記ページ内で出現する回数をカウントするカウントステップと、
前記取得ステップの処理で取得されたページ間のリンク構造を解析し、前記カウントステップの処理によるカウントの値を用いて、リンク関係にある前記ページ間の第1の重みを生成する第1の生成ステップと、
前記第1の生成ステップの処理で生成された前記第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成ステップと、
前記第2の生成ステップの処理で生成された前記第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成ステップと、
前記第3の生成ステップの処理で生成された前記データを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する第1の算出ステップと、
前記第1の算出ステップの処理で算出された前記所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出ステップと
を含むことを特徴とする情報処理方法。 - サイトを構成するページのデータを取得する取得ステップと、
前記取得ステップの処理で取得された前記ページのデータを用いて、前記ページ内に出現する単語を抽出する抽出ステップと、
前記抽出ステップの処理で抽出された前記単語が、前記ページ内で出現する回数をカウントするカウントステップと、
前記取得ステップの処理で取得されたページ間のリンク構造を解析し、前記カウントステップの処理によるカウントの値を用いて、リンク関係にある前記ページ間の第1の重みを生成する第1の生成ステップと、
前記第1の生成ステップの処理で生成された前記第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成ステップと、
前記第2の生成ステップの処理で生成された前記第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成ステップと、
前記第3の生成ステップの処理で生成された前記データを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する第1の算出ステップと、
前記第1の算出ステップの処理で算出された前記所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。 - サイトを構成するページのデータを取得する取得ステップと、
前記取得ステップの処理で取得された前記ページのデータを用いて、前記ページ内に出現する単語を抽出する抽出ステップと、
前記抽出ステップの処理で抽出された前記単語が、前記ページ内で出現する回数をカウントするカウントステップと、
前記取得ステップの処理で取得されたページ間のリンク構造を解析し、前記カウントステップの処理によるカウントの値を用いて、リンク関係にある前記ページ間の第1の重みを生成する第1の生成ステップと、
前記第1の生成ステップの処理で生成された前記第1の重みを用いて、所定のページとリンク関係にある他のページ同士のページ間の第2の重みを生成する第2の生成ステップと、
前記第2の生成ステップの処理で生成された前記第2の重みを用いて、SDFデータまたはCDFデータの少なくとも一方のデータを生成する第3の生成ステップと、
前記第3の生成ステップの処理で生成された前記データを用いて、ISDFまたはICDFの少なくとも一方に基づくページモデル拡張処理により所定の値を算出する第1の算出ステップと、
前記第1の算出ステップの処理で算出された前記所定の値を用いて、取得されたページ内の所定のページ間の関連度を算出する第2の算出ステップと
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002329492A JP3997412B2 (ja) | 2002-11-13 | 2002-11-13 | 情報処理装置および方法、記録媒体、並びにプログラム |
US10/697,467 US7216122B2 (en) | 2002-11-13 | 2003-10-30 | Information processing device and method, recording medium, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002329492A JP3997412B2 (ja) | 2002-11-13 | 2002-11-13 | 情報処理装置および方法、記録媒体、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004164290A true JP2004164290A (ja) | 2004-06-10 |
JP3997412B2 JP3997412B2 (ja) | 2007-10-24 |
Family
ID=32500704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002329492A Expired - Fee Related JP3997412B2 (ja) | 2002-11-13 | 2002-11-13 | 情報処理装置および方法、記録媒体、並びにプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7216122B2 (ja) |
JP (1) | JP3997412B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006235928A (ja) * | 2005-02-24 | 2006-09-07 | Hitachi Ltd | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
JP2008547119A (ja) * | 2005-06-20 | 2008-12-25 | グーグル インコーポレイテッド | サーチ結果を提供するためのシステムおよび方法 |
JP2012018674A (ja) * | 2010-07-06 | 2012-01-26 | Ricoh Co Ltd | 文書からの1つ又は複数のキー要素取得方法及び装置 |
JP2012518221A (ja) * | 2009-02-17 | 2012-08-09 | エヌエイチエヌ コーポレーション | 寄与スコアに基づいた文書順位決定システムおよび方法 |
JP2015057747A (ja) * | 2014-12-26 | 2015-03-26 | 株式会社Jvcケンウッド | 情報処理方法、表示方法、情報処理装置、表示装置、情報処理プログラム、表示プログラム |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006065395A (ja) * | 2004-08-24 | 2006-03-09 | Fujitsu Ltd | ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム |
JP4696721B2 (ja) * | 2005-06-27 | 2011-06-08 | 富士ゼロックス株式会社 | 文書管理サーバ、文書管理システム |
US7895193B2 (en) * | 2005-09-30 | 2011-02-22 | Microsoft Corporation | Arbitration of specialized content using search results |
US20070214119A1 (en) * | 2006-03-07 | 2007-09-13 | Microsoft Corporation | Searching within a Site of a Search Result |
JP4876734B2 (ja) * | 2006-06-22 | 2012-02-15 | 富士ゼロックス株式会社 | 文書利用管理システム及び方法、文書管理サーバ及びそのプログラム |
JP4940791B2 (ja) * | 2006-07-04 | 2012-05-30 | 富士通株式会社 | テスト支援プログラム、テスト支援装置、およびテスト支援方法 |
TWI337712B (en) * | 2006-10-30 | 2011-02-21 | Inst Information Industry | Systems and methods for measuring behavior characteristics, and machine readable medium thereof |
JP5003131B2 (ja) * | 2006-12-04 | 2012-08-15 | 富士ゼロックス株式会社 | 文書提供システム及び情報提供プログラム |
JP4305510B2 (ja) * | 2006-12-28 | 2009-07-29 | 富士ゼロックス株式会社 | 情報処理システム、情報処理装置及びプログラム |
JP5082460B2 (ja) * | 2007-01-19 | 2012-11-28 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム及び情報処理システム |
JP5023715B2 (ja) * | 2007-01-25 | 2012-09-12 | 富士ゼロックス株式会社 | 情報処理システム、情報処理装置及びプログラム |
JP2008257317A (ja) * | 2007-04-02 | 2008-10-23 | Fuji Xerox Co Ltd | 情報処理装置、情報処理システム及びプログラム |
JP2009042856A (ja) * | 2007-08-07 | 2009-02-26 | Fuji Xerox Co Ltd | 文書管理装置、文書管理システム及びプログラム |
JP5119840B2 (ja) * | 2007-10-02 | 2013-01-16 | 富士ゼロックス株式会社 | 情報処理装置、情報処理システム、及びプログラム |
US10614134B2 (en) * | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
JP6149434B2 (ja) * | 2012-04-10 | 2017-06-21 | 株式会社リコー | 情報処理装置、文書管理サーバ、プログラム、ファイルシステム |
US9852215B1 (en) * | 2012-09-21 | 2017-12-26 | Amazon Technologies, Inc. | Identifying text predicted to be of interest |
US11537581B2 (en) | 2019-03-22 | 2022-12-27 | Hewlett Packard Enterprise Development Lp | Co-parent keys for document information trees |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7437351B2 (en) * | 1997-01-10 | 2008-10-14 | Google Inc. | Method for searching media |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US6405188B1 (en) * | 1998-07-31 | 2002-06-11 | Genuity Inc. | Information retrieval system |
US6636848B1 (en) * | 2000-05-31 | 2003-10-21 | International Business Machines Corporation | Information search using knowledge agents |
US6584468B1 (en) * | 2000-09-29 | 2003-06-24 | Ninesigma, Inc. | Method and apparatus to retrieve information from a network |
US7299270B2 (en) * | 2001-07-10 | 2007-11-20 | Lycos, Inc. | Inferring relations between internet objects that are not connected directly |
US7764617B2 (en) * | 2002-04-29 | 2010-07-27 | Harris Corporation | Mobile ad-hoc network and methods for performing functions therein based upon weighted quality of service metrics |
-
2002
- 2002-11-13 JP JP2002329492A patent/JP3997412B2/ja not_active Expired - Fee Related
-
2003
- 2003-10-30 US US10/697,467 patent/US7216122B2/en not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006235928A (ja) * | 2005-02-24 | 2006-09-07 | Hitachi Ltd | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
JP4634821B2 (ja) * | 2005-02-24 | 2011-02-16 | 株式会社日立製作所 | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
JP2008547119A (ja) * | 2005-06-20 | 2008-12-25 | グーグル インコーポレイテッド | サーチ結果を提供するためのシステムおよび方法 |
US7996391B2 (en) | 2005-06-20 | 2011-08-09 | Google Inc. | Systems and methods for providing search results |
JP2011238273A (ja) * | 2005-06-20 | 2011-11-24 | Google Inc | サーチ結果を提供するためのシステムおよび方法 |
US8386480B2 (en) | 2005-06-20 | 2013-02-26 | Google Inc. | Systems and methods for providing search results |
US9177030B2 (en) | 2005-06-20 | 2015-11-03 | Google Inc. | Systems and methods for providing search results |
JP2012518221A (ja) * | 2009-02-17 | 2012-08-09 | エヌエイチエヌ コーポレーション | 寄与スコアに基づいた文書順位決定システムおよび方法 |
US8838611B2 (en) | 2009-02-17 | 2014-09-16 | Nhn Corporation | Document ranking system and method based on contribution scoring |
JP2012018674A (ja) * | 2010-07-06 | 2012-01-26 | Ricoh Co Ltd | 文書からの1つ又は複数のキー要素取得方法及び装置 |
JP2015057747A (ja) * | 2014-12-26 | 2015-03-26 | 株式会社Jvcケンウッド | 情報処理方法、表示方法、情報処理装置、表示装置、情報処理プログラム、表示プログラム |
Also Published As
Publication number | Publication date |
---|---|
US7216122B2 (en) | 2007-05-08 |
US20040117363A1 (en) | 2004-06-17 |
JP3997412B2 (ja) | 2007-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3997412B2 (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
US9576029B2 (en) | Trust propagation through both explicit and implicit social networks | |
US8326818B2 (en) | Method of managing websites registered in search engine and a system thereof | |
KR101114023B1 (ko) | 확장형 문서 검색을 위한 콘텐츠 전파 | |
US7395498B2 (en) | Apparatus and method for evaluating web pages | |
CN102262647B (zh) | 信息处理装置、信息处理方法和程序 | |
US20050222989A1 (en) | Results based personalization of advertisements in a search engine | |
JP2011096255A (ja) | ランキング指向の協調フィルタリング推薦方法および装置 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
CN108520007A (zh) | 万维网网页信息提取方法、存储介质及计算机设备 | |
US20220036209A1 (en) | Unsupervised competition-based encoding | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
KR20060025726A (ko) | 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템 | |
JP2003167907A (ja) | 情報提供方法およびシステム | |
KR20090001871A (ko) | 광고 집행에 따른 반응정보 제공 방법 및 시스템 | |
Li et al. | Automatic content extraction and time-aware topic clustering for large-scale social network on cloud platform | |
CN116932832B (zh) | 数据资产目录生成方法、设备及计算机可读存储介质 | |
JP2023064042A (ja) | コンテンツ視聴装置、コンテンツ視聴方法、及びプログラム | |
Abd Wahab et al. | Discovering Web Server Logs Patterns Using Generalized Association Rules Algorithm | |
CN113656574A (zh) | 用于搜索结果排序的方法、计算设备和存储介质 | |
Kumar et al. | Discover Patterns from Web-Based Dataset | |
Halimeh et al. | Evolving Design of Hypermedia Systems through Analyzing User Navigational Paths | |
Suganya | A Survey on Web Structure and Web Usage Mining Algorithms for Web Applications | |
Zhu | Name of Author: Tingshao Zhu Title of Thesis: Learning Browsing Behavior Model for Web Recommendation Degree: Doctor of Philosophy Year this Degree Granted: 2003 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070724 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |