JP5068437B2

JP5068437B2 - イントラネット検索のための方法および装置

Info

Publication number: JP5068437B2
Application number: JP2005261230A
Authority: JP
Inventors: エス．ドゥルソーマーク
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-10-15
Filing date: 2005-09-08
Publication date: 2012-11-07
Anticipated expiration: 2025-09-08
Also published as: JP2012027938A; EP1647904A3; JP2006114021A; EP1647904A2; KR20060050806A; KR101159342B1; JP2012027937A

Description

本発明はイントラネット用検索エンジンに関する。

ネットワーク、例えばインターネット全体において関心のある情報を見つけるため、あるいは企業イントラネットでのより集中的な検索のために、検索エンジンを用いることが多い。通常の検索エンジンは、ユーザのクエリ（照会）に応答して、発見したコンテンツの簡単な説明と、関連するネットワークページへのテキストリンクとを含むランク付きリストを提供する。リストのランク付けは通常、クエリに現れるワードとコンテンツに現れるワードとの間の一致に基づいている。この検索法における典型的限界により、クエリに応答して関連性のないコンテンツが返されることが多い。特に、大量のコンテンツが利用可能なことにより、関連性のあるコンテンツから関連性のないコンテンツを分離することが困難となるため、検索エンジンの有効性が損なわれる場合がある。

通常のエンジンは、検索ページに見出されるキーワードの出現回数に部分的に基づいてページを選択する。ページには、そのページにおける検索タームの発生数をそのページの長さで正規化したものに対応する関連性（ｒｅｌｅｖａｎｃｅ）を割り当てることができる。一部のエンジンでは、リンク数を重要度の指標として、より多くの他のページによってリンクされているウェブページに対してより高い重要度を与えることによって、検索結果を改善しようとしている。

ほとんどの検索エンジンが、ネットワークを基盤とするページのコレクションにおける情報処理に対して同一の基本的手続きに従っている。エンジンは、クロールおよびパース技法を用いて、ネットワークのページに見出されるタームのインデックスを作成する。インデックスは、クエリを処理し関連性のあるページを識別するために検索システムによって用いられるデータを含む。インデックスが作成された後、クエリを検索エンジンにサブミットすることができる。クエリは、ユーザの情報要求を表し、検索エンジンによって定義されるクエリ言語および構文を用いて表現される。検索エンジンは、ネットワークのインデックスデータを用いてクエリを処理し、検索エンジンがトピックス的に関連性があると識別したオブジェクトのヒットリストを返す。そしてユーザは、閲覧および処理のために、ヒットリストから関連性のあるオブジェクトを選択できる。また、エンジンのユーザは、ネットワークをさらにナビゲーションするための出発点として、ヒットリストからのページを利用することもできる。

本発明のいくつかの原理による検索ツールは、検索結果が一般的（ｇｅｎｅｒｉｃ）または具体的（ｓｐｅｃｉｆｉｃ）な主題コンテンツに関連するかどうかに基づいて、検索結果をまとめることができる。例えば、具体的クエリに応答して、関連する具体的コンテンツを有するページを返すことができ、一般的クエリに応答して、関連する一般的コンテンツを有するページを返すことができる。検索ツールは、クロール関連、パース関連、およびクエリ関連の任意のまたはすべての特徴を含むことができる。

したがって、一態様において、本発明の特徴は、少なくとも１つのページがルートページであるページを含むイントラネットを処理する方法を提供する。この処理方法は、イントラネットをクロールしてイントラネットの少なくとも一部のページを識別し、識別した各ページについてルートページから識別したページまでの最短パスのリンク数を決定することを含む。決定した最短パスのリンク数に応じて、識別したページに対する階層レベルを割り当てることができる。

もう１つの態様において、本発明の特徴は、ページが階層構造として構成されたタームを含むイントラネットの少なくとも１つのページをパースする方法を提供する。本方法は、ページをパースすることによりページ内のタームを識別し、識別したタームについて１つまたは複数の具体性関連パラメータ（ｓｐｅｃｉｆｉｃｉｔｙ−ｒｅｌａｔｅｄｐａｒａｍｅｔｅｒ）を決定することを含む。具体性関連パラメータは、例えば、ページの階層構造内でのタームの位置、および／またはタームに関連するタグタイプに関連づけることができる。

さらにもう１つの態様において、本発明の特徴は、イントラネットに対するクエリを処理する方法を提供する。本方法は、少なくとも１つの検索タームを含むクエリを受け取り、クエリの具体性の程度を決定することを含む。

出願人が認識したところでは、従来の検索エンジンは、例えば検索に利用可能なページ数が膨大なこと、およびユーザからサブミットされる検索クエリがしばしば非常に広範なことにより、不満足な検索結果を与える場合が多い。広範なクエリは、検索者にとってほとんどまたは全く無用な多数のヒットを返すことになることがある。さらに、関連性のあるヒットが検索結果のリストの中に深く埋もれてしまうため、検索者はリスト中の関連するページを見つける可能性がほとんどなくなることがある。

また、出願人が認識したところでは、従来の検索エンジンはイントラネット検索に十分に適合していない。一般的な情報を探しているユーザは、検索クエリとして一般的検索タームを入力することが多い。すると検索エンジンは、関心対象のページを有する長大なヒットリストを返すが、関心対象のページがリスト内に深く埋もれているため、ユーザはそれに気づかないことがある。さらに、リストは、探している一般的な情報とは関連性のない具体的な主題を有するページを含むことがある。

本明細書において「イントラネット」という用語は、ウェブサイト（ウェブプレゼンスとも呼ばれる）またはプライベートネットワーク（従業員専用イントラネットや顧客専用エクストラネット等）を指す広義で用いられている。したがって、イントラネットには、公衆からアクセス可能なものもあれば、アクセス制限されるものもある。イントラネットは、まとまりのある情報のセットとして提示されるようにナビゲーションツールで互いにリンクされた情報のコレクションを含む。

イントラネットはページを含み、その１つまたは複数は、階層構造のトップにあるルートページである。ルートページは、例えばホームページおよび／またはコンセプトページ（ｃｏｎｃｅｐｔｕａｌｐａｇｅ）とすることができる。イントラネットは、１つまたは複数のエンティティによって管理することができるが、通常は、例えば単一の会社、組織、または個人によって管理される。イントラネットの構造の一例を図２に示すが、これについては以下でさらに詳細に説明する。

また、出願人が認識したところでは、イントラネットは通常、階層構造を有し、その階層構造において、ページが種々のレベルに配置され、各レベルは１つまたは複数のルートページからページに到達するのに必要なリンクによって定まる。この構造は、ルートページをツリーのベース（すなわち、ツリールートのトップレベル、あるいはツリーブランチのボトムレベル）とした、ツリーのブランチ状あるいはルート状の構造とみなすことができる。通常、ルートページからの距離がより大きいレベルにあるページのほうが、ルートページにより近いレベルにあるページ（これは、より一般的なコンテンツを有する傾向がある）に比べて、より狭い、および／またはより詳細な主題のカバー範囲（ｃｏｖｅｒａｇｅ）を有する。本発明の一実施形態によれば、以下でさらに説明するように、検索クエリが一般的な情報または具体的な情報のいずれを探しているかに応じて、検索クエリに応答して得られる結果に影響を及ぼすことができる。

ページとは、ディスプレイを通じてネットワークユーザにページとして提示される時にその視覚的レイアウトを制御する書式化情報（ｆｏｒｍａｔｔｉｎｇｉｎｆｏｒｍａｔｉｏｎ）を備えたファイルを意味する。ページは、関連するネットワークアドレスを有する。ページは、例えばノードあるいはドキュメントとも呼ばれることがある。通常、ページは１つまたは複数の他のページにリンクされる。リンクは、例えばリンクに関連づけられたタームを選択することによってたどることができる。ページコンテンツは、ＨＴＭＬ（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ）を用いて書式化されることが多い。以下の説明ではＨＴＭＬベースのページの例を利用するが、このような例は説明の目的であって限定的でなく、本発明の特徴は、ＨＴＭＬ以外の言語を含む任意の言語に基づくページを含むイントラネットにも適用可能であることを理解されたい。

個々のページは構造的階層を有することができる。例えば、ＨＴＭＬベースのページは、例えばルートタグ等のＨＴＭＬタグと、ルートタグに対して種々のレベルにある追加タグとに関連するノード階層を有することがある。この構造の一例が図４に示され、以下で説明される。出願人が認識したところでは、ページの階層内でより下位の情報のほうが通常はより具体的であり、ページ内でより上位の情報のほうが通常はより一般的である。以下でさらに詳細に説明するように、一実施形態では、情報の階層位置の知識を用いて、一般的検索または具体的検索に応答して返される結果に影響を及ぼす。

本明細書において「コンセプトページ」という表現は、特定の主題トピックのための主ページあるいは親として作用するページを指すために用いられる。したがって、あるトピックのコンセプトページは、そのトピックに具体的な情報の階層のトップにある。コンセプトページから延びるリンクは、コンセプトページの主題トピックに関係する追加情報を提供することが多い。すなわち、このようなページは、親コンセプトページの子として作用することがある。

本明細書において「ターム」という語は、ページに現れるワード、フレーズ、記号、またはその他の情報単位を指すために用いられる。イントラネットのユーザは、イントラネットにおいて、例えば関心のある情報に関連する１つまたは複数のタームを含むクエリを検索エンジンにサブミットすることによって、関心のある情報を検索することができる。

本明細書において「重み」という語は、ページまたはタームに関係する具体性のレベルを指すために用いられる。また、この語は、検索者に返される結果リスト内のページの位置付けを決定するために、クエリ時にページに割り当てられる値を指すためにも用いられる。例えば、重みは、イントラネット内のページの階層に基づいてページに割り当てられる具体性の程度、または、ページ内のターム階層内のタームの具体性の程度を指すことができる。

さらに、ページには、ページ内のタームに関連する具体性の値を割り当てることができ、したがって、ページ内に位置する異なるタームごとに、異なる具体性の程度を有することがある。より高い具体性の程度が割り当てられたページは、より低い具体性の程度が割り当てられたページ（これは、一般的な主題コンテンツである可能性が相対的に高い）よりも具体的な主題コンテンツの確率が高い。

具体性は、ページ／タームの組合せに割り当てられ、例えばイントラネット構造内のページの位置および／またはページ構造内のタームの位置から決定できる。ページ重みが、例えばクエリ時にページ関連性の程度に関連してページに割り当てられる場合、潜在的関連性がより高いページは、例えばクエリ応答結果リストのトップのほうに方向付けることができる。

本発明は、種々の態様において、部分的には以下の認識に基づく。すなわち、イントラネット検索エンジンがイントラネットに共通の構造的特徴を活用することにより、関連性が改善された検索結果を提供し、ユーザが関連性のある情報を見つけるのに費やす時間を短縮することができる。例えば、イントラネットは、ホームページあるいはコンセプトページからの距離が増大していく一連のページレベルを通じてリンクされたページを含む。出願人が認識したところでは、イントラネット構造においてページの距離が離れているほど、より具体性の高い情報を含む傾向がある。すなわち、出願人が認識したところでは、イントラネットの作成者や設計者は、ルートページまたはそれにより近いページにはより一般的な情報を配置し、ルートページから遠いほどより詳細で、具体的なトピックの情報を配置する傾向がある。

さらに、例えば企業プレゼンスウェブサイトの管理者は、サイトの構造を論理的コンセプトエリアのグループにまとめる傾向がある。また、これらのコンセプトエリアは、同一主題に関する一般的コンテンツよりも具体的コンテンツのほうを、コンセプトのホームページからより遠い距離に配置するようにまとめることもある。したがって、イントラネットは、コンセプトのクラスタにまとめられる傾向があるリンク構造を有し、それらのクラスタ自体は、リンクを通じて一般的なものから具体的なものへとまとめられる。

したがって、近いレベルのページは通常、より一般的な範囲でより広範な主題をカバーする傾向がある一方、より遠いレベルのページは通常、ベースレベルまたはそれに近いページの主題のある側面に関する、より狭く、詳細で、具体的な情報を提供する傾向がある。よって、本発明の原理による一実施形態では、イントラネットの構造を活用することにより、例えばイントラネット内のページをクロールしてそれらの階層的位置を決定し、それらの階層的位置に基づいて、クロールしたページの具体性の程度を推論することによって、より関連性のある検索結果を提供することができる。もう１つの実施形態では、コンテンツの具体性の程度は、ページ内の構造に基づいて推論することができる。

以下で説明する一実施形態では、ページ階層およびページ内のタームの階層に関する情報がともに用いられている。しかし、本発明はこの点において限定されず、いずれの特徴も、一緒に用いても単独で用いてもよい。

もう１つの実施形態では、具体性に関する情報を推論した後、検索クエリを調べて要求された具体性のレベルを決定し、その記述された具体性のレベルを有するコンテンツを返すことができる。

本発明の原理によれば、例えば検索エンジンが、上記の構造的傾向を活用することで、より関連性のある、および／またはより有用なページヒットを提供することができる。例えば、より具体的な情報を有するページは、相対的に具体的なクエリに応答してヒットリストのトップに押し上げられ、より一般的な情報を有するページは、相対的に広範なクエリに応答してヒットリストのトップに押し上げられることが可能である。したがって、ユーザは、例えば、具体的クエリを行ったときには一般的な主題のページを、一般的クエリを行ったときには不適切な具体的ページを、それぞれ調べるのに費やす時間が短くなるので、関心のあるページをより容易かつ迅速に見つけることができる。

これに対して、従来技術の検索エンジンは通常、クエリに応答して、クエリタームを含むページを返す。ページは、例えば、ページへのリンク数（これは、ページの重要度の指標とみなせる）に応じて並べ替えられることもある。しかし、従来の検索エンジンは、本発明に関して本明細書で説明するようなイントラネットの構造的階層の特徴を利用していない。例えば、従来の検索エンジンは、狭いクエリに応答して、一般的な主題を有する高レベルのページを返す傾向があり、また、広範なクエリに応答して、狭い主題を有する、関連性のない、より深いレベルのページを返すことがある。

したがって、本発明の原理によれば、一般的クエリを用いることにより、クエリに関係する一般的主題を含むイントラネットの部分に検索者を導くことができる。これらの部分から、ユーザは、多くの場合、より具体的で関連性のある主題を有するページへと下るさらなるサイトナビゲーションにより、必要な情報を見出すことができる。逆に、具体的クエリを用いることにより、クエリに関係する具体的主題を含むイントラネットの部分に検索者を導くことができる。

図１は、本発明の一実施形態によるイントラネットを処理する方法１００の流れ図である。方法１００は、イントラネットをクロール（１１０）してイントラネット内のページを識別するアクトを含む。クロール１１０は、任意の好適な方法で行うことができ、したがっていかなる特定の技法にも限定されない。クロール１１０は、イントラネット内のすべてのページを識別してもよいが、本発明はこの点に関して限定されず、必ずしもあらゆるページを処理する必要がないこともある。

また、本方法は、識別した各ページについてルートページから識別したページまでの最短パスのリンク数を決定（１２０）するアクトも含む。最短パスは、任意の好適な方法で決定できる。パスは、各ページを識別（１１０）するときに決定（１２０）できる。別法として、例えば、まずページを識別（１１０）して、最短パスを決定（１２０）することもできる。

また、方法１００は、それぞれの識別したページについて、少なくとも１つのルートページから識別したページまでの最短パスのリンク数を示す情報を格納（１３０）するアクトも含む。この情報は、イントラネットにおける識別したページの階層レベルを指定する。この情報は任意の形式をとり得る。これはリンクであってもよく、任意のスケールに従って、あるいはその他の任意の好適な方法で具体性を格付けする情報であってもよい。

したがって、図１の本発明の実施形態によれば、ページの主題コンテンツに関する情報を、ページ階層のようなイントラネット構造から推論することができる。例えば、ルートページまでのパスが最短である識別されたページは、ルートページからのパスがより長い識別されたページ（これは、相対的に狭く、より具体的な主題を保持すると仮定できる）よりも主題に関してより一般的である可能性が高い。

最短パスは、ルートページからクロールした場合に、識別されたページを最初に発見するパスである。最短パスは、ルートページからクロールを開始し、ルートページに埋め込まれたリンクを通じて次のレベルのページに進むことによって決定できる。同様に、次のレベルのページに埋め込まれたリンクをたどって、イントラネット階層のさらに深くに進むことができる。階層内でより深いページに埋め込まれたルートページへのリンクは無視するのが好ましい。というのは、イントラネット内のすべてのページは、ユーザがルートページ（例えばイントラネットのホームページ）に容易に復帰できるように、このような埋め込まれたリンクを含むことがあるからである。したがって、最短パスは、多くの場合、イントラネットのページ内に意図的に配置されたリンクの関数となる。

図２は、方法１００によって処理可能なイントラネット構造２００の一例を示す図である。この構造は、ホームページ２０１、ホームページから１リンクの位置にある第１レベルのページ２１０（図２のレベル１）、ホームページ２０１から２リンクの位置にある第２レベルのページ２２０（図２のレベル２）、およびホームページ２０１から３リンクの位置にある第３レベルのページ２３０（図２のレベル３）を有する。本発明の原理によれば、第１レベルのページ２１０は、第２レベルのページ２２０に含まれる主題よりも一般的な主題を含むと推論される。同様に、第２レベルのページ２２０は、第３レベルのページ２３０に含まれる主題よりも一般的な主題を含むと推論され、以下同様である。

図３は、ページをパースして、ページの内部構造によって定まる階層内の位置および／またはタームの扱いに基づいて、コンテンツ具体性に関する追加情報を集める方法３００の流れ図である。方法３００は、少なくとも１つのページをパース（３１０）してページ内の少なくとも１つのタームを識別するアクトと、それぞれの識別したタームについて、ターム具体性に関連する１つまたは複数の具体性関連パラメータを決定（３２０）するアクトとを含む。このようなパラメータとしては、例えばページ構造パラメータおよびタグタイプパラメータがある。ページ構造パラメータは、例えばページのルートからの距離とすることができる。

方法３００は、それぞれの識別したタームについて、ルートからの距離のような具体性関連パラメータを示す情報を格納（３３０）するアクトを含むことができる。したがって、この情報は、ページ内の識別されたタームの階層レベルを指定することができる。ページ内の識別されたタームの階層レベルを指定する情報は任意の形式をとることができる。これは、ページのルートからのレベルであってもよく、任意のスケールに従って、あるいはその他の任意の好適な方法で具体性を評価する情報であってもよい。

本発明の一実施形態によれば、ターム具体性は、少なくとも部分的には、内部ページ構造におけるタームの位置から推論することができる。例えば、図４に関して説明するように、ＨＴＭＬページはノード階層を有する。以下の説明はＨＴＭＬページに関連するが、本発明の実施形態は他の書式を有するイントラネットページにも適用可能である。

ＨＴＭＬページ階層はＨＴＭＬタグを含み、ＨＴＭＬタグは通常、内部テキストに関連づけられる。一実施形態によれば、これらのノード階層を用いて、ページ内のコンテンツが一般的か具体的かを推論することができる。例えば、現在の内部テキストを含むノードがページのルートに近いほど、その内部テキストが具体的トピックに具体的にフォーカスしていない一般的コンテンツを含む可能性が高くなる。逆に、ノードがルートから遠くに位置するほど、そのノードの内部テキストが特定のトピックに具体的なものである可能性が高くなる。

さらに、出願人が認識したところでは、タームの太字（ボールド）化、タームへの下線、および／またはタームのリンク付けのような書式化の諸態様は、具体性が高くなるのに関連してタームの重要性のレベルが高くなることを示すことがあり、それとともにテキストはページのルートからより遠くに位置することになる。

上記のページレベルの構造情報を用いて、例えばドキュメントに含まれるある所与のタームに対してページが有すべき重みを推論することができる。したがって、例えばページ内のタームがそのページ内の他のタームよりも高い具体性のレベルに関連すると識別される場合に、そのページには当該タームについて、より高い具体性のレベルを割り当てることができる。

本発明の一実施形態では、ページのターム重みが、ページ長に基づいて、他のページ内の同一タームのターム重みに対して正規化される。この正規化は、長いページが短いページよりも具体的に見えること（すなわち、より長いページほど、タームの出現数が多くなりやすいこと）がないようにするのに役立つ。正規化を用いる場合、任意の好適な方法で実行することができる。

図４は、ＨＴＭＬベースのページ構造４００の一例を示す図である。構造４００に関連するページは、例えば図２の構造２００を有するイントラネット内に配置され、図３に関して説明した方法３００によって処理されることが可能である。構造４００は、ルートタグ４０１、ページ見出しタグ（ｐａｇｅｈｅａｄｉｎｇｔａｇ）４１０、ページタイトルタグ（ｐａｇｅｔｉｔｌｅｔａｇ）４１１、見出しメタタグ（ｈｅａｄｉｎｇｍｅｔａｔａｇ）４１２（複数可）、ページ４００の本文部分を識別する本文タグ（ｂｏｄｙｔａｇ）４２０、本文見出しタグ（ｂｏｄｙｈｅａｄｉｎｇｔａｇ）４２１、本文テーブルタグ（ｂｏｄｙｔａｂｌｅｔａｇ）４２２、本文段落タグ（ｂｏｄｙｐａｒａｇｒａｐｈｔａｇｓ）４２３ａ、４２３ｂ、太字フォントタグ（ｂｏｌｄｆｏｎｔｔａｇｓ）４２４ａ、４２４ｂ、およびアンカータグ（ａｎｃｈｏｒｔａｇｓ）４２５ａ、４２５ｂを含む。一部のタグは関連する内部テキスト（ｉｎｎｅｒｔｅｘｔ）４３０ａ、４３０ｂ、４３０ｃを有し、これらはページが表示される時にユーザが見ることができる。これらのタグタイプおよびそれらの内部テキストとの関連づけはＨＴＭＬ技術において公知である。

前述のように、本発明のいくつかの実施形態では、ページ構造４００内でルートタグ４０１からより離れたタームほど、より高い具体性の情報に対応するものとして識別できる。例えば、ルートタグ４０１をレベル０に対応させ、ページ見出しタグ４１０および本文タグ４２０をレベル１に対応させ、ページタイトルタグ４１１、見出しメタタグ４１２、本文見出しタグ４２１、本文テーブルタグ４２２、および本文段落タグ４２３ａをレベル２に対応させ、本文段落タグ４２３ｂをレベル３に対応させることができる。

さらに、追加書式を有するタームを、より高い具体性のレベルに対応させることができる。具体性を示す追加書式としては、例えば、太字その他の区別可能なフォントまたは区別可能な色、ハイパーテキストリンク、および／またはタイトルやメタタグ中に現れることが挙げられる。したがって、タームは、もしあれば、追加書式に対応して、ページ階層構造のより深いレベルに対応させることができる。

追加タグタイプは、ページ階層において、より深いレベルを示すことができる。このようなタグタイプとしてはコードタグがあるが、これに限定されない。この場合、ターム具体性は、ページの階層におけるターム深さに対応させることができる。また、ターム具体性は、以下でさらに詳細に説明するように、タグタイプに従って重みを付けることができる。したがって、具体性計算は、タグタイプによって提供される具体性レベルの指示を利用することによって改善することができる。

好ましくは、内部テキストには、それに直接関係するノードレベルに関連したページ階層内のレベルが割り当てられる。すなわち、ノードは、内部テキストと、同じく内部テキストを有する子とを含むことがある。そこで、好ましくは、子の内部テキストは、親ノードに直接関連する内部テキストと比較して、階層の異なるレベルに存在するとみなされる。

前述のように、ページ内のコンテンツの具体性または一般性に関する情報は、イントラネット階層におけるそのページの位置と、ページの構造におけるコンテンツの位置を管理する情報との両方に基づいて推論することができる。コンテンツの具体性／一般性に関する情報のこれらの２つの基準は任意の好適な方法で組み合わせることができ、両方を使用する本発明の実施形態はいかなる特定の技法にも限定されない。以下では、２つの情報源を使用する特定の実施例を説明するが、これは単なる一例に過ぎず、コンテンツの具体性／一般性の決定は他の方法でも行うことができる。

ページを識別するためのクロール１１０（図２参照）は、例えば上記のような任意の好適なクロール技法を用いることによって実行でき、既知の技法に限定されない。例えば、ソフトウェアロボット、スパイダ、ワンダラ（ｗａｎｄｅｒｅｒ）、ワーム等を用いてイントラネットをクロールしてページを識別することができる。本発明の原理によれば、識別したページまでの最短パスの決定（１２０）されたリンク数に関する情報が保持される。クロールは、例えばイントラネットのルートページおよび／またはコンセプトページから開始でき、それらのページは、クローラにとって任意の好適な方法で識別できる。

上記のような技法を用いて、クロールするアクト（１１０）および決定するアクト（１２０）を用いることにより、イントラネット構造内のページの位置を決定するためのリンク情報を収集することができる。例えば、クロール１１０は、イントラネット内のそれぞれ識別したページについて、ページレベルを識別するパラメータＤＬを提供することができる。パラメータＤＬは任意の好適な方法で指定できる。例えばＤＬは、ルートページから特定のページまでのレベル単位の距離として都合良く識別される。この場合、ルートページはレベル０であり、それに続くレベルは、ルートページから離れるごとに、前のレベルに対して１だけインクリメントされる。

この例では、クロール１１０の間に決定されるページレベルに加えて、識別したページのパース中に、タームについて、ページ内のタームのネストしたレベルを決定する。これは、方法３００を用いることで実現可能である。本発明のいくつかの原理によれば、イントラネット階層内のページ位置と、ページ内のコンテンツ位置とに関する情報を組み合わせることについて数式を用いて実装することができる。その数式の例を次に説明する。

この実施例では、以下の数式は、関連するページ内のターム階層を割り当てることに関係する。識別されたページ内のタームに対する正規化されたターム階層が次のように定義される。

ＮＬＷ＝ＮＬ−ＴＴＬ
ここで、ＮＬＷは、特定のページ内のタームに関連する正規化されたタームレベルすなわち具体性である。ＮＬは、この特定ページの階層内のタームの未加工のタームレベルであり、ページのルートタグから測ることができる。

ＴＴＬは、当該タームを含むイントラネットの全ページについて、当該タームの正規化された最小ネストレベルを定義するしきい値タームレベル（ｔｈｒｅｓｈｏｌｄｔｅｒｍｌｅｖｅｌ）である。ＴＴＬは、当該タームを含むすべての識別されたページについて、当該タームに対して一定値を有する。例えば、ＴＴＬを都合良く選択するには、まず、イントラネット内で当該タームを含む全ページ内の当該タームの最大ネストレベルを決定する。そして、最大タームレベルからある距離だけ離れたレベルにＴＴＬを設定することができる。例えば、あるタームの最大ネストレベルがレベル１０である場合、そのタームのＴＴＬをレベル５に設定できる。すると、ＮＬＷパラメータは、レベル５よりも深くないネストレベルにあるタームを有するページを除去することになる。

別法として、例えば、統計的考察に基づいてＴＴＬを選択することもできる。例えば、最大タームレベルよりも２標準偏差だけ上のレベルにＴＴＬを設定することができる。

いかなる方法でＴＴＬを選択するにせよ、ＴＴＬパラメータの効果は、あるタームについて、ページの高い階層レベルだけでそのタームを含むページを除去することである。事実上、ＴＴＬパラメータは、あるタームを含むページのリストから、そのタームを含んではいるが、結果リストにおいて検索者に提示するに値するほど十分な具体性を有しないページを除去することによって、ノイズをカットする。

タームに関連する具体性をさらに精緻化するため、ページ内のタームについて、次のようにＮＬＷパラメータをタグ重みパラメータＴａｇＷに加えることによって、ターム具体性パラメータＴＷを決定できる。

ＴＷ＝ＴａｇＷ＋ＮＬＷ
ここで、ＴＷは、特定のページについて、あるタームに割り当てられた全体的具体性に関連するターム具体性であり、ＴａｇＷは、あるタームの直近の親のＨＴＭＬタグタイプに基づいてそのタームに帰されるタグ具体性パラメータである。これを実行するため、タグタイプごとにイントラネット全体で定義された一定値をタグタイプに割り当てることができる。例えば、イントラネット全体で最も共通するタグタイプに重み１を割り当て、他のタグタイプには、それらの相対的不明瞭さに応じて、より高い重みを割り当てることができる。例えば、重み２のタグは、重み１のタグに比べて頻度が半分であるとすることができる。また、例えばページ見出し中のタグをページ本文中のタグとは別様に扱うこともできる。例えば、見出し中のタグにはチューニング可能な重みを与えることができる。すなわち、任意の好適な手続きを利用して、種々のタグタイプに具体性レベルを割り当てることができる。

例えば、一部は統計的分析を通じて、そして一部は人による選択を通じて、タグに値を割り当てることができる。例えば、タグに１から２０までの値を持たせ、より大きい値ほどより高い具体性に対応させることができる。統計的分析からは、例えばタグの使用頻度が得られ、より高い頻度ほどより高い一般性を示すとすることができる。

上記のアクティビティを用いて、イントラネット内のページのタームインデックスを生成できる。タームインデックスは、特定のタームを含むページのリストと、上記のＴＷパラメータのような、各ページについてのそのタームの具体性の値とを含むことができる。さらに、本発明のいくつかの実施形態では、検索技術の当業者には知られているように、逆キーワードインデックスをクエリ時の検索のために作成できる。逆キーワードインデックスを検索することで、検索タームを含むページのリストを取得することができる。

いくつかの実施形態では、全体的ターム具体性パラメータ（例えば下記のＮＴＷパラメータ）が利用される。これは、あるページについて、そのページ内での特定のタームのすべての出現に関して定義される。正規化された全体的ターム具体性パラメータＮＴＷが次のように定義される。

ＮＴＷ＝ｌｏｇ（ＳＴＷ／ＡＳＴＷ）

ＳＴＷは、特定のページ内でのあるタームのすべての出現に対するすべてのターム具体性（ＴＷ）の値の和である。ＡＳＴＷは、あるタームについて、イントラネット全体でそのタームが現れるすべてのページに対するすべてのＳＴＷパラメータ値の平均である。ＡＳＴＷに対するＳＴＷの比は、未加工の正規化された全体的ターム具体性を提供し、ＮＴＷは、あるページ内のあるタームに対する正規化された全体的ターム具体性である。ＮＴＷは、便宜上、対数を用いて表される。対数の底は１０でも他の値でもよい。対数を用いることで、ＮＴＷ値の範囲が制限されるので、計算の目的上都合が良い。

上記の例の数式を用いて、例えば、図５を参照して説明するように、検索エンジンクエリへの応答を支援することができる。

次に図５を参照し、本発明の特徴を活用して、例えばユーザクエリに対する検索エンジンの応答を改善することができる。図５は、本発明の一実施形態による、イントラネットのための検索エンジンクエリを処理する方法５００の流れ図である。方法５００は、少なくとも１つの検索タームを含むクエリを受け取り（５１０）、クエリの具体性の程度を決定する（５２０）ことを含む。

決定するアクト（５２０）は任意の好適な方法で行うことができる。一実施形態では、具体性は、クエリに応答して返される潜在的ページ数と逆の関係となるように決定される。ページ数は、クエリに見出されるいずれかのタームを含むページ数とすることができる。例えば、返されるページに複数の検索タームのいずれかが出現することを明示的に要求するクエリが、このような潜在的ページ数を提供する。別法として、ページ数は、例えばすべての検索タームを含むページ数であってもよい。このような潜在的ページ数は、すべての検索タームがページ内に存在することをクエリが明示的に要求する場合、またはプレファレンスが提供されないときにこの要求がデフォルトである場合に、得ることができる。

方法５００は、イントラネットの少なくとも一部のページを、クエリにマッチするものとして選択すること（５３０）を含むことができる。選択５３０は、少なくとも一部がクエリの具体性の程度に依存する選択プロセスを利用することができる。また、方法５００は、クエリに応答して提示するために、少なくとも一部の選択したページをランク付けすること（５４０）を含むこともできる。ランク付け５４０は、クエリの具体性の程度に少なくとも部分的に依存するランク付けプロセスを利用することができる。

ランク付け５４０は、クエリの具体性のレベルに相関づけられたページ具体性のレベルに従ってページをランク付けすることを含むことができる。したがって、クエリが具体的であると認識される場合、提示されるランキングは、具体的コンテンツを有するページを優先することができる。クエリが一般的または包括的であると認識される場合、ランキングは、一般的または包括的な主題コンテンツを有するページを優先することができる。

例えば、方法５００の一実施態様では、それぞれの選択されたページに関連性の値Ｒを割り当てることによって、あるソート順序でページをランク付けすることができる。例えば、選択されるページは、クエリ内のすべてのタームに最適にマッチするものとすることができる。その場合、それぞれのこのようなページに割り当てられるＲ値は、検索者に提示するために、選択されたページのソート順序を決定することができる。

ページ関連性の値を計算するための１つの例示的な数式のセットにおいて、Ｒは次のように定義される。

Ｒ＝ｌｏｇ（ｒ）、ここで
ＮＤＬ＝ＩＤＬ−ＴＤＬ、そして
ｒ＝（（ｔｗＫ＊ＮＴＷ）＋（ｎｌＫ＊ＮＤＬ））の和
これらの数式におけるパラメータは以下の定義を有する。

ＮＤＬは、特定のクエリに応答して返される各ページに対する正規化されたページレベルである。ＮＤＬパラメータは、検索結果と選択されたページの具体性との間の関連づけを提供する。また、以下で説明するように、上記のタームパラメータに従って選択されたページに重みを付けることで、検索者に提示される結果リストをさらに精緻化することができる。

ＩＤＬは、イントラネット全体でのすべてのページレベルのうち最大の識別された深さにあるページから、特定のページまでの距離に対応する逆ページレベルである。それに続くレベルは、最大深さレベルから離れるごとに、前のページレベルから１だけデクリメントすることによって決まる。したがって、ＩＤＬは、上記のパース１１０中に決定されるページレベルパラメータＤＬに類似している。ただし、ページレベルは、ルートページからではなく、イントラネットのすべての識別されたページのうち最大深さのレベルから測る。

ＴＤＬ（しきい値ページレベル）は、主題コンテンツが重要であると仮定される最小のページレベルである。ＴＤＬの値は、特定のクエリの具体性に応じて選択され、その具体性自体は、クエリに応答したページヒット数によって決まる。ＴＤＬは経験的に決定できる。例えば、ＴＤＬ値の範囲は、ページヒット数の範囲に割り当てることができる。例えば、最大ページレベルが１０である場合、特定のクエリの特定の具体性にＴＤＬ値５を割り当てることができる。この例では、ＮＤＬの計算は、ヒットリスト内でページレベルが５未満のすべてのページを除去するように作用する。

したがって、ＴＤＬはクエリの具体性に依存し得る。そこで、例えば、より具体的なクエリに対しては、ルートから遠いページレベルほど関連性がある可能性が高いので、より具体的なクエリに対しより深いＴＤＬを選択できる。ＩＤＬパラメータからＴＤＬを減算すると、負のＮＤＬパラメータ値を有するページが落とされる。したがって、ページのリストに残っているページでクエリタームを含むものは、ＴＤＬパラメータの作用により選択されたレベルよりも高い具体性を有するページである。

Ｒは、クエリに応答して選択されるページに割り当てられる関連性である。Ｒは、特定のクエリに応答して検索から返されるページのリストのソート順序を制御する。未加工の関連性の値（下記のｒを参照）の対数としてＲを計算することで、Ｒ値の範囲を０から１までに入るように制限する。値の範囲を制限することは、計算の目的上都合がよい場合がある。また、計算した値を打ち切って、例えば４桁だけを用いることで、検索によって課される計算要求をさらに制限することができる。

ｒは、クエリに応答して選択される各ページの未加工の関連性であり、正規化された全体的ターム具体性（ＮＴＷ）パラメータをターム重み係数（ｔｗＫ、下記参照）で調整したものと、正規化されたページレベル（ＮＤＬ）をページ重み係数（ｎｌＫ、下記参照）で調整したものとの和である。したがって、未加工の関連性は、ページ具体性パラメータおよびページ内ターム具体性パラメータの両方に相関づけられたページヒットのランキングを提供する。

ｔｗＫはタームレベル係数であり、未加工の関連性ｒの計算において、正規化された全体的ターム具体性（ＮＴＷ）に及ぼす効果と、正規化されたページレベル（ＮＤＬ）に及ぼす効果とのバランスをとるために、ページレベル係数（ｎｌＫを参照）とともに用いられる。ｎｌＫはページレベル係数である。ｔｗＫおよびｎｌＫは、関連性の決定においてターム具体性とページ具体性の使用の間の望ましいバランスをとるために選択される。

このバランスは任意の好適な方法で選択できる。ｔｗＫおよびｎｌＫは、すべてのクエリに対して定数としてもよく、異なるクエリごとに調整してもよい。ｔｗＫおよびｎｌＫは、少なくとも部分的には、タームレベル値に関するＮＴＷの値の単位、およびページレベル値に関するＮＤＬの値の単位を調整するために選択することができる。

これらの定数には、例えば０、１、２、またはそれ以上の値を割り当てることにより、関連性の計算においてターム具体性およびページレベルに与えられる相対的重みを変化させることができる。値は任意の好適な方法で選択できる。例えば、サンプルのユーザグループに、相異なる割り当てられた定数値を用いて生成された検索結果を提示した後、そのユーザグループに、どの結果セットが最も満足なものであるかを識別させることができる。したがって、例えば、定数値は主観的、経験的な手法で選択することができる。

上記のように、一実施形態では、クエリの１つまたは複数の検索タームの一般性は、潜在的結果リスト内のページ数の関数である。例えば、Ｍｉｃｒｏｓｏｆｔ．ｃｏｍのウェブサイト上で「ｗｉｎｄｏｗｓ」という語を含むクエリは数十万ページとマッチするであろう。本発明の一実施形態によれば、このワードは、そのサイトに対する相対的に一般的な検索タームとして扱われる。本発明の原理によれば、ターム「ｗｉｎｄｏｗｓ」が一般的クエリであると理解することにより、検索エンジンはページの結果セットにおいて一般的結果を押し上げることができる。すなわち、広範な主題を有するページが検索エンジンのユーザに提示される結果リストのトップに押し上げられる。

これに対して、ページヒット数が相対的に少数であるクエリは、相対的に具体的とみなすことができる。これに応じて、ルートページからの距離が大きいページヒットほど、結果リストのトップへ向かって押し上げるためにより高い重みを与えることができる。具体性の値がより低い一般的コンテンツのページは、ルートページの近くに存在すると考えられるが、リストのトップから離れるように押し下げることができる。そして検索者は、検索との関連性の具体性がより高いページに誘導されるので、検索成功の速度や可能性を向上させることができる。

例えば、上記のプロセスを通じて、より長いパスを有するページには具体的クエリに応答してより高い重みを与え、より短いパスを有するページには一般的クエリに応答してより高い重みを与えることができる。こうして、例えば、一般的クエリは、一般的ページがリストのトップへ向かって押し上げられたページのリストを受け取り、具体的クエリは、具体的ページがリストのトップへ向かって押し上げられたページのリストを受け取ることができる。

こうして、一般的クエリを提示したユーザは、狭く不要な情報を有する多くのページを分類することが不要となる。このユーザは、一般的主題のページから出発するので、望みの情報を有するページに誘導される可能性が高くなる。同様に、具体的クエリを提示したユーザは、具体的検索を満足させるには一般的すぎる情報を有するページを調べることを避けることができる。

なお、認識されるべきであるが、本明細書で概説した方法１００、３００のいくつかの特徴は、さまざまなオペレーティングシステムあるいはプラットフォームのうちの任意のものを用いて１つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコーディングすることができる。また、このようなソフトウェアは、いくつもの好適なプログラミング言語および／または従来のプログラミングツールあるいはスクリプティングツールのいずれを用いて書くことも可能であり、実行可能な機械語コードとしてコンパイルすることもできる。

なお、理解されるべきであるが、本明細書において「プログラム」という用語は、コンピュータまたはその他のプロセッサをプログラムすることにより上記のような本発明の諸態様を実施するために使用可能な、任意のタイプのコンピュータコードあるいは命令セットを指すための一般的な意味で用いられる。また、認識されるべきであるが、本実施形態の一態様によれば、実行時に本発明の方法を実施する１つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はなく、本発明の諸態様を実施するためにいくつかの異なるコンピュータまたはプロセッサの間にモジュール方式で分散してもよい。

本発明の諸態様は、単独で用いても、組み合わせて用いても、あるいは上記の実施形態では具体的に説明していないさまざまな構成で用いてもよい。したがって、上記の説明に記載され、あるいは図面に例示されているコンポーネントの詳細および構成への適用には限定されない。特に、最上位レベルのそれぞれの作業は、任意のさまざまな下位作業を含み得る。例えば、本明細書に記載の最上位レベルの作業は、本明細書に記載の下位作業の１つまたは任意の組合せを含み、あるいは、パッチ管理プロセスを命令し管理する階層構造を精緻化する他の下位作業を含み得る。

特許請求の範囲において請求項の要素を修飾するために「第１」、「第２」、「第３」等の序数詞を使用することは、それ自体では、請求項の構成要素間の優先順位、選好、あるいは順序や、方法のアクトが実行される時間的順序を含意せず、単に、ある名称を有する１つの請求項の構成要素を、（その序数詞を用いなければ）同一名称を有する別の構成要素から区別して、請求項の構成要素間の区別を行うためのラベルとして用いられるに過ぎない。

また、本明細書で用いられる語法や用語は説明を目的としたものであり、限定的とみなしてはならない。本明細書において、「〜を含む」、「〜を備える」、あるいは「〜を有する」、「〜を収容する」、「〜を伴う」、およびそれらの変化形の使用は、それらの前に記載される項目およびその均等物ならびに追加的項目を包含することを意味する。

本発明の一実施形態によるイントラネットをクロールする方法の流れ図である。本発明の原理による、各ページの具体性または一般性を推論するために使用することができるイントラネットの階層的編成のブロック図である。本発明の一実施形態によるイントラネットをパースする方法の流れ図である。本発明の原理による、ページ中の各タームの具体性または一般性を推論するために使用することができるページ構造の階層的編成のブロック図である。本発明の一実施形態による検索エンジンクエリを処理する方法の流れ図である。

符号の説明

２００イントラネット構造
２０１ホームページ
２１０第１レベルのページ
２２０第２レベルのページ
２３０第３レベルのページ
４００ページ構造
４０１ルートタグ
４１０ページ見出しタグ
４１１ページタイトルタグ
４１２見出しメタタグ
４２０本文タグ
４２１本文見出しタグ
４２２本文テーブルタグ
４２３ａ，４２３ｂ本文段落タグ
４２４ａ，４２４ｂ太字フォントタグ
４２５ａ，４２５ｂアンカータグ
４３０ａ，４３０ｂ，４３０ｃ内部テキスト

Claims

少なくとも１つのルートページを含む複数のページを備えるイントラネットを処理するための、１つまたは複数のコンピュータが実施する方法であって、
（Ａ）前記イントラネットをクロールして前記イントラネット中の前記複数のページを識別することと、
（Ｂ）前記識別したページのそれぞれについて、前記少なくとも１つのルートページから前記識別したページまでの最短パスのリンク数を表す第１の数を決定することと、
（Ｃ）クエリの具体性を表す第２の数を計算することであって、前記クエリの具体性が前記クエリに応答して返される潜在的ページの数と逆の関係を有することと、
（Ｄ）前記検索クエリに応答して選択されたページを提示することであって、前記選択されたページの提示は、前記クエリに対する各選択されたページの関連性を示し、前記関連性は前記第１の数を前記第２の数で調整した結果に基づくことと
を含むことを特徴とする方法。
（Ｅ）前記識別したページのそれぞれについて、前記少なくとも１つのルートページから前記識別したページまでの最短パスのリンクの前記第１の数を示す情報を格納することであって、前記情報が前記イントラネット中の前記識別したページの階層レベルを指定すること
をさらに含むことを特徴とする請求項１に記載の方法。
（Ｆ）前記識別したページの階層レベルと相関する前記識別したページの主題の具体性レベルを定めること
をさらに含むことを特徴とする請求項２に記載の方法。
前記主題の具体性レベルは、前記少なくとも１つのルートページからの最短パスのリンクの第１の数がより大きい識別したページについての値のほうが、前記少なくとも１つのルートページからの最短パスのリンクの第１の数がより小さい識別したページについての値に比べて大きいことを特徴とする請求項３に記載の方法。
（Ｅ）複数のコンセプトページを複数のルートページであるように選択すること
をさらに含むことを特徴とする請求項１に記載の方法。
前記（Ａ）は、前記複数のルートページのそれぞれから出発して前記イントラネットを通して複数のクロールを開始することによって、前記イントラネットをクロールすることを含むことを特徴とする請求項１に記載の方法。
前記（Ａ）は、前記イントラネット中の前記複数のページのすべてを識別することを含むことを特徴とする請求項１に記載の方法。
前記複数のページの少なくとも１つは、ＨＴＭＬ書式を備えることを特徴とする請求項１に記載の方法。
前記イントラネットは、ウェブサイトに関連づけられることを特徴とする請求項１に記載の方法。
（Ｅ）識別したページごとに、前記最短パスのリンクの前記第１の数に関連する逆ページレベルを決定すること
をさらに含むことを特徴とする請求項１に記載の方法。
（Ｆ）前記識別したページのうち、リンクのしきい値数より小さいリンク数の最短パスを有するページを除外すること
をさらに含むことを特徴とする請求項１０に記載の方法。
（Ｅ）前記複数のページの各ページをパースして前記ページ内の任意のタームを識別すること
をさらに含むことを特徴とする請求項１に記載の方法。
（Ｆ）識別したタームごとに、前記ページのルートノードからの距離を決定すること
をさらに含むことを特徴とする請求項１２に記載の方法。
（Ｇ）識別したタームごとに、前記ルートからの距離を示す情報を格納することであって、前記情報が前記ページの前記識別したタームについての階層レベルを指定すること
をさらに含むことを特徴とする請求項１３に記載の方法。
前記（Ｄ）は、前記クエリの具体性のレベルに関連する具体性のレベルを有するページを前記選択されたページとして自動的に提示することを含むことを特徴とする請求項１に記載の方法。
前記（Ｄ）は、前記選択されたページの具体性のレベルに相関づけられる順序で前記選択されたページを提示することを含むことを特徴とする請求項１５に記載の方法。
請求項１乃至１６のいずれかに記載の方法を前記１つまたは複数のコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ記憶媒体。