JP5068437B2 - イントラネット検索のための方法および装置 - Google Patents

イントラネット検索のための方法および装置 Download PDF

Info

Publication number
JP5068437B2
JP5068437B2 JP2005261230A JP2005261230A JP5068437B2 JP 5068437 B2 JP5068437 B2 JP 5068437B2 JP 2005261230 A JP2005261230 A JP 2005261230A JP 2005261230 A JP2005261230 A JP 2005261230A JP 5068437 B2 JP5068437 B2 JP 5068437B2
Authority
JP
Japan
Prior art keywords
page
pages
level
intranet
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005261230A
Other languages
English (en)
Other versions
JP2006114021A (ja
JP2006114021A5 (ja
Inventor
エス.ドゥルソー マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/967,003 external-priority patent/US8595223B2/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006114021A publication Critical patent/JP2006114021A/ja
Publication of JP2006114021A5 publication Critical patent/JP2006114021A5/ja
Application granted granted Critical
Publication of JP5068437B2 publication Critical patent/JP5068437B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明はイントラネット用検索エンジンに関する。
ネットワーク、例えばインターネット全体において関心のある情報を見つけるため、あるいは企業イントラネットでのより集中的な検索のために、検索エンジンを用いることが多い。通常の検索エンジンは、ユーザのクエリ(照会)に応答して、発見したコンテンツの簡単な説明と、関連するネットワークページへのテキストリンクとを含むランク付きリストを提供する。リストのランク付けは通常、クエリに現れるワードとコンテンツに現れるワードとの間の一致に基づいている。この検索法における典型的限界により、クエリに応答して関連性のないコンテンツが返されることが多い。特に、大量のコンテンツが利用可能なことにより、関連性のあるコンテンツから関連性のないコンテンツを分離することが困難となるため、検索エンジンの有効性が損なわれる場合がある。
通常のエンジンは、検索ページに見出されるキーワードの出現回数に部分的に基づいてページを選択する。ページには、そのページにおける検索タームの発生数をそのページの長さで正規化したものに対応する関連性(relevance)を割り当てることができる。一部のエンジンでは、リンク数を重要度の指標として、より多くの他のページによってリンクされているウェブページに対してより高い重要度を与えることによって、検索結果を改善しようとしている。
ほとんどの検索エンジンが、ネットワークを基盤とするページのコレクションにおける情報処理に対して同一の基本的手続きに従っている。エンジンは、クロールおよびパース技法を用いて、ネットワークのページに見出されるタームのインデックスを作成する。インデックスは、クエリを処理し関連性のあるページを識別するために検索システムによって用いられるデータを含む。インデックスが作成された後、クエリを検索エンジンにサブミットすることができる。クエリは、ユーザの情報要求を表し、検索エンジンによって定義されるクエリ言語および構文を用いて表現される。検索エンジンは、ネットワークのインデックスデータを用いてクエリを処理し、検索エンジンがトピックス的に関連性があると識別したオブジェクトのヒットリストを返す。そしてユーザは、閲覧および処理のために、ヒットリストから関連性のあるオブジェクトを選択できる。また、エンジンのユーザは、ネットワークをさらにナビゲーションするための出発点として、ヒットリストからのページを利用することもできる。
本発明のいくつかの原理による検索ツールは、検索結果が一般的(generic)または具体的(specific)な主題コンテンツに関連するかどうかに基づいて、検索結果をまとめることができる。例えば、具体的クエリに応答して、関連する具体的コンテンツを有するページを返すことができ、一般的クエリに応答して、関連する一般的コンテンツを有するページを返すことができる。検索ツールは、クロール関連、パース関連、およびクエリ関連の任意のまたはすべての特徴を含むことができる。
したがって、一態様において、本発明の特徴は、少なくとも1つのページがルートページであるページを含むイントラネットを処理する方法を提供する。この処理方法は、イントラネットをクロールしてイントラネットの少なくとも一部のページを識別し、識別した各ページについてルートページから識別したページまでの最短パスのリンク数を決定することを含む。決定した最短パスのリンク数に応じて、識別したページに対する階層レベルを割り当てることができる。
もう1つの態様において、本発明の特徴は、ページが階層構造として構成されたタームを含むイントラネットの少なくとも1つのページをパースする方法を提供する。本方法は、ページをパースすることによりページ内のタームを識別し、識別したタームについて1つまたは複数の具体性関連パラメータ(specificity−related parameter)を決定することを含む。具体性関連パラメータは、例えば、ページの階層構造内でのタームの位置、および/またはタームに関連するタグタイプに関連づけることができる。
さらにもう1つの態様において、本発明の特徴は、イントラネットに対するクエリを処理する方法を提供する。本方法は、少なくとも1つの検索タームを含むクエリを受け取り、クエリの具体性の程度を決定することを含む。
出願人が認識したところでは、従来の検索エンジンは、例えば検索に利用可能なページ数が膨大なこと、およびユーザからサブミットされる検索クエリがしばしば非常に広範なことにより、不満足な検索結果を与える場合が多い。広範なクエリは、検索者にとってほとんどまたは全く無用な多数のヒットを返すことになることがある。さらに、関連性のあるヒットが検索結果のリストの中に深く埋もれてしまうため、検索者はリスト中の関連するページを見つける可能性がほとんどなくなることがある。
また、出願人が認識したところでは、従来の検索エンジンはイントラネット検索に十分に適合していない。一般的な情報を探しているユーザは、検索クエリとして一般的検索タームを入力することが多い。すると検索エンジンは、関心対象のページを有する長大なヒットリストを返すが、関心対象のページがリスト内に深く埋もれているため、ユーザはそれに気づかないことがある。さらに、リストは、探している一般的な情報とは関連性のない具体的な主題を有するページを含むことがある。
本明細書において「イントラネット」という用語は、ウェブサイト(ウェブプレゼンスとも呼ばれる)またはプライベートネットワーク(従業員専用イントラネットや顧客専用エクストラネット等)を指す広義で用いられている。したがって、イントラネットには、公衆からアクセス可能なものもあれば、アクセス制限されるものもある。イントラネットは、まとまりのある情報のセットとして提示されるようにナビゲーションツールで互いにリンクされた情報のコレクションを含む。
イントラネットはページを含み、その1つまたは複数は、階層構造のトップにあるルートページである。ルートページは、例えばホームページおよび/またはコンセプトページ(conceptual page)とすることができる。イントラネットは、1つまたは複数のエンティティによって管理することができるが、通常は、例えば単一の会社、組織、または個人によって管理される。イントラネットの構造の一例を図2に示すが、これについては以下でさらに詳細に説明する。
また、出願人が認識したところでは、イントラネットは通常、階層構造を有し、その階層構造において、ページが種々のレベルに配置され、各レベルは1つまたは複数のルートページからページに到達するのに必要なリンクによって定まる。この構造は、ルートページをツリーのベース(すなわち、ツリールートのトップレベル、あるいはツリーブランチのボトムレベル)とした、ツリーのブランチ状あるいはルート状の構造とみなすことができる。通常、ルートページからの距離がより大きいレベルにあるページのほうが、ルートページにより近いレベルにあるページ(これは、より一般的なコンテンツを有する傾向がある)に比べて、より狭い、および/またはより詳細な主題のカバー範囲(coverage)を有する。本発明の一実施形態によれば、以下でさらに説明するように、検索クエリが一般的な情報または具体的な情報のいずれを探しているかに応じて、検索クエリに応答して得られる結果に影響を及ぼすことができる。
ページとは、ディスプレイを通じてネットワークユーザにページとして提示される時にその視覚的レイアウトを制御する書式化情報(formatting information)を備えたファイルを意味する。ページは、関連するネットワークアドレスを有する。ページは、例えばノードあるいはドキュメントとも呼ばれることがある。通常、ページは1つまたは複数の他のページにリンクされる。リンクは、例えばリンクに関連づけられたタームを選択することによってたどることができる。ページコンテンツは、HTML(hypertext markup language)を用いて書式化されることが多い。以下の説明ではHTMLベースのページの例を利用するが、このような例は説明の目的であって限定的でなく、本発明の特徴は、HTML以外の言語を含む任意の言語に基づくページを含むイントラネットにも適用可能であることを理解されたい。
個々のページは構造的階層を有することができる。例えば、HTMLベースのページは、例えばルートタグ等のHTMLタグと、ルートタグに対して種々のレベルにある追加タグとに関連するノード階層を有することがある。この構造の一例が図4に示され、以下で説明される。出願人が認識したところでは、ページの階層内でより下位の情報のほうが通常はより具体的であり、ページ内でより上位の情報のほうが通常はより一般的である。以下でさらに詳細に説明するように、一実施形態では、情報の階層位置の知識を用いて、一般的検索または具体的検索に応答して返される結果に影響を及ぼす。
本明細書において「コンセプトページ」という表現は、特定の主題トピックのための主ページあるいは親として作用するページを指すために用いられる。したがって、あるトピックのコンセプトページは、そのトピックに具体的な情報の階層のトップにある。コンセプトページから延びるリンクは、コンセプトページの主題トピックに関係する追加情報を提供することが多い。すなわち、このようなページは、親コンセプトページの子として作用することがある。
本明細書において「ターム」という語は、ページに現れるワード、フレーズ、記号、またはその他の情報単位を指すために用いられる。イントラネットのユーザは、イントラネットにおいて、例えば関心のある情報に関連する1つまたは複数のタームを含むクエリを検索エンジンにサブミットすることによって、関心のある情報を検索することができる。
本明細書において「重み」という語は、ページまたはタームに関係する具体性のレベルを指すために用いられる。また、この語は、検索者に返される結果リスト内のページの位置付けを決定するために、クエリ時にページに割り当てられる値を指すためにも用いられる。例えば、重みは、イントラネット内のページの階層に基づいてページに割り当てられる具体性の程度、または、ページ内のターム階層内のタームの具体性の程度を指すことができる。
さらに、ページには、ページ内のタームに関連する具体性の値を割り当てることができ、したがって、ページ内に位置する異なるタームごとに、異なる具体性の程度を有することがある。より高い具体性の程度が割り当てられたページは、より低い具体性の程度が割り当てられたページ(これは、一般的な主題コンテンツである可能性が相対的に高い)よりも具体的な主題コンテンツの確率が高い。
具体性は、ページ/タームの組合せに割り当てられ、例えばイントラネット構造内のページの位置および/またはページ構造内のタームの位置から決定できる。ページ重みが、例えばクエリ時にページ関連性の程度に関連してページに割り当てられる場合、潜在的関連性がより高いページは、例えばクエリ応答結果リストのトップのほうに方向付けることができる。
本発明は、種々の態様において、部分的には以下の認識に基づく。すなわち、イントラネット検索エンジンがイントラネットに共通の構造的特徴を活用することにより、関連性が改善された検索結果を提供し、ユーザが関連性のある情報を見つけるのに費やす時間を短縮することができる。例えば、イントラネットは、ホームページあるいはコンセプトページからの距離が増大していく一連のページレベルを通じてリンクされたページを含む。出願人が認識したところでは、イントラネット構造においてページの距離が離れているほど、より具体性の高い情報を含む傾向がある。すなわち、出願人が認識したところでは、イントラネットの作成者や設計者は、ルートページまたはそれにより近いページにはより一般的な情報を配置し、ルートページから遠いほどより詳細で、具体的なトピックの情報を配置する傾向がある。
さらに、例えば企業プレゼンスウェブサイトの管理者は、サイトの構造を論理的コンセプトエリアのグループにまとめる傾向がある。また、これらのコンセプトエリアは、同一主題に関する一般的コンテンツよりも具体的コンテンツのほうを、コンセプトのホームページからより遠い距離に配置するようにまとめることもある。したがって、イントラネットは、コンセプトのクラスタにまとめられる傾向があるリンク構造を有し、それらのクラスタ自体は、リンクを通じて一般的なものから具体的なものへとまとめられる。
したがって、近いレベルのページは通常、より一般的な範囲でより広範な主題をカバーする傾向がある一方、より遠いレベルのページは通常、ベースレベルまたはそれに近いページの主題のある側面に関する、より狭く、詳細で、具体的な情報を提供する傾向がある。よって、本発明の原理による一実施形態では、イントラネットの構造を活用することにより、例えばイントラネット内のページをクロールしてそれらの階層的位置を決定し、それらの階層的位置に基づいて、クロールしたページの具体性の程度を推論することによって、より関連性のある検索結果を提供することができる。もう1つの実施形態では、コンテンツの具体性の程度は、ページ内の構造に基づいて推論することができる。
以下で説明する一実施形態では、ページ階層およびページ内のタームの階層に関する情報がともに用いられている。しかし、本発明はこの点において限定されず、いずれの特徴も、一緒に用いても単独で用いてもよい。
もう1つの実施形態では、具体性に関する情報を推論した後、検索クエリを調べて要求された具体性のレベルを決定し、その記述された具体性のレベルを有するコンテンツを返すことができる。
本発明の原理によれば、例えば検索エンジンが、上記の構造的傾向を活用することで、より関連性のある、および/またはより有用なページヒットを提供することができる。例えば、より具体的な情報を有するページは、相対的に具体的なクエリに応答してヒットリストのトップに押し上げられ、より一般的な情報を有するページは、相対的に広範なクエリに応答してヒットリストのトップに押し上げられることが可能である。したがって、ユーザは、例えば、具体的クエリを行ったときには一般的な主題のページを、一般的クエリを行ったときには不適切な具体的ページを、それぞれ調べるのに費やす時間が短くなるので、関心のあるページをより容易かつ迅速に見つけることができる。
これに対して、従来技術の検索エンジンは通常、クエリに応答して、クエリタームを含むページを返す。ページは、例えば、ページへのリンク数(これは、ページの重要度の指標とみなせる)に応じて並べ替えられることもある。しかし、従来の検索エンジンは、本発明に関して本明細書で説明するようなイントラネットの構造的階層の特徴を利用していない。例えば、従来の検索エンジンは、狭いクエリに応答して、一般的な主題を有する高レベルのページを返す傾向があり、また、広範なクエリに応答して、狭い主題を有する、関連性のない、より深いレベルのページを返すことがある。
したがって、本発明の原理によれば、一般的クエリを用いることにより、クエリに関係する一般的主題を含むイントラネットの部分に検索者を導くことができる。これらの部分から、ユーザは、多くの場合、より具体的で関連性のある主題を有するページへと下るさらなるサイトナビゲーションにより、必要な情報を見出すことができる。逆に、具体的クエリを用いることにより、クエリに関係する具体的主題を含むイントラネットの部分に検索者を導くことができる。
図1は、本発明の一実施形態によるイントラネットを処理する方法100の流れ図である。方法100は、イントラネットをクロール(110)してイントラネット内のページを識別するアクトを含む。クロール110は、任意の好適な方法で行うことができ、したがっていかなる特定の技法にも限定されない。クロール110は、イントラネット内のすべてのページを識別してもよいが、本発明はこの点に関して限定されず、必ずしもあらゆるページを処理する必要がないこともある。
また、本方法は、識別した各ページについてルートページから識別したページまでの最短パスのリンク数を決定(120)するアクトも含む。最短パスは、任意の好適な方法で決定できる。パスは、各ページを識別(110)するときに決定(120)できる。別法として、例えば、まずページを識別(110)して、最短パスを決定(120)することもできる。
また、方法100は、それぞれの識別したページについて、少なくとも1つのルートページから識別したページまでの最短パスのリンク数を示す情報を格納(130)するアクトも含む。この情報は、イントラネットにおける識別したページの階層レベルを指定する。この情報は任意の形式をとり得る。これはリンクであってもよく、任意のスケールに従って、あるいはその他の任意の好適な方法で具体性を格付けする情報であってもよい。
したがって、図1の本発明の実施形態によれば、ページの主題コンテンツに関する情報を、ページ階層のようなイントラネット構造から推論することができる。例えば、ルートページまでのパスが最短である識別されたページは、ルートページからのパスがより長い識別されたページ(これは、相対的に狭く、より具体的な主題を保持すると仮定できる)よりも主題に関してより一般的である可能性が高い。
最短パスは、ルートページからクロールした場合に、識別されたページを最初に発見するパスである。最短パスは、ルートページからクロールを開始し、ルートページに埋め込まれたリンクを通じて次のレベルのページに進むことによって決定できる。同様に、次のレベルのページに埋め込まれたリンクをたどって、イントラネット階層のさらに深くに進むことができる。階層内でより深いページに埋め込まれたルートページへのリンクは無視するのが好ましい。というのは、イントラネット内のすべてのページは、ユーザがルートページ(例えばイントラネットのホームページ)に容易に復帰できるように、このような埋め込まれたリンクを含むことがあるからである。したがって、最短パスは、多くの場合、イントラネットのページ内に意図的に配置されたリンクの関数となる。
図2は、方法100によって処理可能なイントラネット構造200の一例を示す図である。この構造は、ホームページ201、ホームページから1リンクの位置にある第1レベルのページ210(図2のレベル1)、ホームページ201から2リンクの位置にある第2レベルのページ220(図2のレベル2)、およびホームページ201から3リンクの位置にある第3レベルのページ230(図2のレベル3)を有する。本発明の原理によれば、第1レベルのページ210は、第2レベルのページ220に含まれる主題よりも一般的な主題を含むと推論される。同様に、第2レベルのページ220は、第3レベルのページ230に含まれる主題よりも一般的な主題を含むと推論され、以下同様である。
図3は、ページをパースして、ページの内部構造によって定まる階層内の位置および/またはタームの扱いに基づいて、コンテンツ具体性に関する追加情報を集める方法300の流れ図である。方法300は、少なくとも1つのページをパース(310)してページ内の少なくとも1つのタームを識別するアクトと、それぞれの識別したタームについて、ターム具体性に関連する1つまたは複数の具体性関連パラメータを決定(320)するアクトとを含む。このようなパラメータとしては、例えばページ構造パラメータおよびタグタイプパラメータがある。ページ構造パラメータは、例えばページのルートからの距離とすることができる。
方法300は、それぞれの識別したタームについて、ルートからの距離のような具体性関連パラメータを示す情報を格納(330)するアクトを含むことができる。したがって、この情報は、ページ内の識別されたタームの階層レベルを指定することができる。ページ内の識別されたタームの階層レベルを指定する情報は任意の形式をとることができる。これは、ページのルートからのレベルであってもよく、任意のスケールに従って、あるいはその他の任意の好適な方法で具体性を評価する情報であってもよい。
本発明の一実施形態によれば、ターム具体性は、少なくとも部分的には、内部ページ構造におけるタームの位置から推論することができる。例えば、図4に関して説明するように、HTMLページはノード階層を有する。以下の説明はHTMLページに関連するが、本発明の実施形態は他の書式を有するイントラネットページにも適用可能である。
HTMLページ階層はHTMLタグを含み、HTMLタグは通常、内部テキストに関連づけられる。一実施形態によれば、これらのノード階層を用いて、ページ内のコンテンツが一般的か具体的かを推論することができる。例えば、現在の内部テキストを含むノードがページのルートに近いほど、その内部テキストが具体的トピックに具体的にフォーカスしていない一般的コンテンツを含む可能性が高くなる。逆に、ノードがルートから遠くに位置するほど、そのノードの内部テキストが特定のトピックに具体的なものである可能性が高くなる。
さらに、出願人が認識したところでは、タームの太字(ボールド)化、タームへの下線、および/またはタームのリンク付けのような書式化の諸態様は、具体性が高くなるのに関連してタームの重要性のレベルが高くなることを示すことがあり、それとともにテキストはページのルートからより遠くに位置することになる。
上記のページレベルの構造情報を用いて、例えばドキュメントに含まれるある所与のタームに対してページが有すべき重みを推論することができる。したがって、例えばページ内のタームがそのページ内の他のタームよりも高い具体性のレベルに関連すると識別される場合に、そのページには当該タームについて、より高い具体性のレベルを割り当てることができる。
本発明の一実施形態では、ページのターム重みが、ページ長に基づいて、他のページ内の同一タームのターム重みに対して正規化される。この正規化は、長いページが短いページよりも具体的に見えること(すなわち、より長いページほど、タームの出現数が多くなりやすいこと)がないようにするのに役立つ。正規化を用いる場合、任意の好適な方法で実行することができる。
図4は、HTMLベースのページ構造400の一例を示す図である。構造400に関連するページは、例えば図2の構造200を有するイントラネット内に配置され、図3に関して説明した方法300によって処理されることが可能である。構造400は、ルートタグ401、ページ見出しタグ(page heading tag)410、ページタイトルタグ(page title tag)411、見出しメタタグ(heading meta tag)412(複数可)、ページ400の本文部分を識別する本文タグ(body tag)420、本文見出しタグ(body heading tag)421、本文テーブルタグ(body table tag)422、本文段落タグ(body paragraph tags)423a、423b、太字フォントタグ(bold font tags)424a、424b、およびアンカータグ(anchor tags)425a、425bを含む。一部のタグは関連する内部テキスト(inner text)430a、430b、430cを有し、これらはページが表示される時にユーザが見ることができる。これらのタグタイプおよびそれらの内部テキストとの関連づけはHTML技術において公知である。
前述のように、本発明のいくつかの実施形態では、ページ構造400内でルートタグ401からより離れたタームほど、より高い具体性の情報に対応するものとして識別できる。例えば、ルートタグ401をレベル0に対応させ、ページ見出しタグ410および本文タグ420をレベル1に対応させ、ページタイトルタグ411、見出しメタタグ412、本文見出しタグ421、本文テーブルタグ422、および本文段落タグ423aをレベル2に対応させ、本文段落タグ423bをレベル3に対応させることができる。
さらに、追加書式を有するタームを、より高い具体性のレベルに対応させることができる。具体性を示す追加書式としては、例えば、太字その他の区別可能なフォントまたは区別可能な色、ハイパーテキストリンク、および/またはタイトルやメタタグ中に現れることが挙げられる。したがって、タームは、もしあれば、追加書式に対応して、ページ階層構造のより深いレベルに対応させることができる。
追加タグタイプは、ページ階層において、より深いレベルを示すことができる。このようなタグタイプとしてはコードタグがあるが、これに限定されない。この場合、ターム具体性は、ページの階層におけるターム深さに対応させることができる。また、ターム具体性は、以下でさらに詳細に説明するように、タグタイプに従って重みを付けることができる。したがって、具体性計算は、タグタイプによって提供される具体性レベルの指示を利用することによって改善することができる。
好ましくは、内部テキストには、それに直接関係するノードレベルに関連したページ階層内のレベルが割り当てられる。すなわち、ノードは、内部テキストと、同じく内部テキストを有する子とを含むことがある。そこで、好ましくは、子の内部テキストは、親ノードに直接関連する内部テキストと比較して、階層の異なるレベルに存在するとみなされる。
前述のように、ページ内のコンテンツの具体性または一般性に関する情報は、イントラネット階層におけるそのページの位置と、ページの構造におけるコンテンツの位置を管理する情報との両方に基づいて推論することができる。コンテンツの具体性/一般性に関する情報のこれらの2つの基準は任意の好適な方法で組み合わせることができ、両方を使用する本発明の実施形態はいかなる特定の技法にも限定されない。以下では、2つの情報源を使用する特定の実施例を説明するが、これは単なる一例に過ぎず、コンテンツの具体性/一般性の決定は他の方法でも行うことができる。
ページを識別するためのクロール110(図2参照)は、例えば上記のような任意の好適なクロール技法を用いることによって実行でき、既知の技法に限定されない。例えば、ソフトウェアロボット、スパイダ、ワンダラ(wanderer)、ワーム等を用いてイントラネットをクロールしてページを識別することができる。本発明の原理によれば、識別したページまでの最短パスの決定(120)されたリンク数に関する情報が保持される。クロールは、例えばイントラネットのルートページおよび/またはコンセプトページから開始でき、それらのページは、クローラにとって任意の好適な方法で識別できる。
上記のような技法を用いて、クロールするアクト(110)および決定するアクト(120)を用いることにより、イントラネット構造内のページの位置を決定するためのリンク情報を収集することができる。例えば、クロール110は、イントラネット内のそれぞれ識別したページについて、ページレベルを識別するパラメータDLを提供することができる。パラメータDLは任意の好適な方法で指定できる。例えばDLは、ルートページから特定のページまでのレベル単位の距離として都合良く識別される。この場合、ルートページはレベル0であり、それに続くレベルは、ルートページから離れるごとに、前のレベルに対して1だけインクリメントされる。
この例では、クロール110の間に決定されるページレベルに加えて、識別したページのパース中に、タームについて、ページ内のタームのネストしたレベルを決定する。これは、方法300を用いることで実現可能である。本発明のいくつかの原理によれば、イントラネット階層内のページ位置と、ページ内のコンテンツ位置とに関する情報を組み合わせることについて数式を用いて実装することができる。その数式の例を次に説明する。
この実施例では、以下の数式は、関連するページ内のターム階層を割り当てることに関係する。識別されたページ内のタームに対する正規化されたターム階層が次のように定義される。
NLW=NL−TTL
ここで、NLWは、特定のページ内のタームに関連する正規化されたタームレベルすなわち具体性である。NLは、この特定ページの階層内のタームの未加工のタームレベルであり、ページのルートタグから測ることができる。
TTLは、当該タームを含むイントラネットの全ページについて、当該タームの正規化された最小ネストレベルを定義するしきい値タームレベル(threshold term level)である。TTLは、当該タームを含むすべての識別されたページについて、当該タームに対して一定値を有する。例えば、TTLを都合良く選択するには、まず、イントラネット内で当該タームを含む全ページ内の当該タームの最大ネストレベルを決定する。そして、最大タームレベルからある距離だけ離れたレベルにTTLを設定することができる。例えば、あるタームの最大ネストレベルがレベル10である場合、そのタームのTTLをレベル5に設定できる。すると、NLWパラメータは、レベル5よりも深くないネストレベルにあるタームを有するページを除去することになる。
別法として、例えば、統計的考察に基づいてTTLを選択することもできる。例えば、最大タームレベルよりも2標準偏差だけ上のレベルにTTLを設定することができる。
いかなる方法でTTLを選択するにせよ、TTLパラメータの効果は、あるタームについて、ページの高い階層レベルだけでそのタームを含むページを除去することである。事実上、TTLパラメータは、あるタームを含むページのリストから、そのタームを含んではいるが、結果リストにおいて検索者に提示するに値するほど十分な具体性を有しないページを除去することによって、ノイズをカットする。
タームに関連する具体性をさらに精緻化するため、ページ内のタームについて、次のようにNLWパラメータをタグ重みパラメータTagWに加えることによって、ターム具体性パラメータTWを決定できる。
TW=TagW+NLW
ここで、TWは、特定のページについて、あるタームに割り当てられた全体的具体性に関連するターム具体性であり、TagWは、あるタームの直近の親のHTMLタグタイプに基づいてそのタームに帰されるタグ具体性パラメータである。これを実行するため、タグタイプごとにイントラネット全体で定義された一定値をタグタイプに割り当てることができる。例えば、イントラネット全体で最も共通するタグタイプに重み1を割り当て、他のタグタイプには、それらの相対的不明瞭さに応じて、より高い重みを割り当てることができる。例えば、重み2のタグは、重み1のタグに比べて頻度が半分であるとすることができる。また、例えばページ見出し中のタグをページ本文中のタグとは別様に扱うこともできる。例えば、見出し中のタグにはチューニング可能な重みを与えることができる。すなわち、任意の好適な手続きを利用して、種々のタグタイプに具体性レベルを割り当てることができる。
例えば、一部は統計的分析を通じて、そして一部は人による選択を通じて、タグに値を割り当てることができる。例えば、タグに1から20までの値を持たせ、より大きい値ほどより高い具体性に対応させることができる。統計的分析からは、例えばタグの使用頻度が得られ、より高い頻度ほどより高い一般性を示すとすることができる。
上記のアクティビティを用いて、イントラネット内のページのタームインデックスを生成できる。タームインデックスは、特定のタームを含むページのリストと、上記のTWパラメータのような、各ページについてのそのタームの具体性の値とを含むことができる。さらに、本発明のいくつかの実施形態では、検索技術の当業者には知られているように、逆キーワードインデックスをクエリ時の検索のために作成できる。逆キーワードインデックスを検索することで、検索タームを含むページのリストを取得することができる。
いくつかの実施形態では、全体的ターム具体性パラメータ(例えば下記のNTWパラメータ)が利用される。これは、あるページについて、そのページ内での特定のタームのすべての出現に関して定義される。正規化された全体的ターム具体性パラメータNTWが次のように定義される。
NTW=log(STW/ASTW)
STWは、特定のページ内でのあるタームのすべての出現に対するすべてのターム具体性(TW)の値の和である。ASTWは、あるタームについて、イントラネット全体でそのタームが現れるすべてのページに対するすべてのSTWパラメータ値の平均である。ASTWに対するSTWの比は、未加工の正規化された全体的ターム具体性を提供し、NTWは、あるページ内のあるタームに対する正規化された全体的ターム具体性である。NTWは、便宜上、対数を用いて表される。対数の底は10でも他の値でもよい。対数を用いることで、NTW値の範囲が制限されるので、計算の目的上都合が良い。
上記の例の数式を用いて、例えば、図5を参照して説明するように、検索エンジンクエリへの応答を支援することができる。
次に図5を参照し、本発明の特徴を活用して、例えばユーザクエリに対する検索エンジンの応答を改善することができる。図5は、本発明の一実施形態による、イントラネットのための検索エンジンクエリを処理する方法500の流れ図である。方法500は、少なくとも1つの検索タームを含むクエリを受け取り(510)、クエリの具体性の程度を決定する(520)ことを含む。
決定するアクト(520)は任意の好適な方法で行うことができる。一実施形態では、具体性は、クエリに応答して返される潜在的ページ数と逆の関係となるように決定される。ページ数は、クエリに見出されるいずれかのタームを含むページ数とすることができる。例えば、返されるページに複数の検索タームのいずれかが出現することを明示的に要求するクエリが、このような潜在的ページ数を提供する。別法として、ページ数は、例えばすべての検索タームを含むページ数であってもよい。このような潜在的ページ数は、すべての検索タームがページ内に存在することをクエリが明示的に要求する場合、またはプレファレンスが提供されないときにこの要求がデフォルトである場合に、得ることができる。
方法500は、イントラネットの少なくとも一部のページを、クエリにマッチするものとして選択すること(530)を含むことができる。選択530は、少なくとも一部がクエリの具体性の程度に依存する選択プロセスを利用することができる。また、方法500は、クエリに応答して提示するために、少なくとも一部の選択したページをランク付けすること(540)を含むこともできる。ランク付け540は、クエリの具体性の程度に少なくとも部分的に依存するランク付けプロセスを利用することができる。
ランク付け540は、クエリの具体性のレベルに相関づけられたページ具体性のレベルに従ってページをランク付けすることを含むことができる。したがって、クエリが具体的であると認識される場合、提示されるランキングは、具体的コンテンツを有するページを優先することができる。クエリが一般的または包括的であると認識される場合、ランキングは、一般的または包括的な主題コンテンツを有するページを優先することができる。
例えば、方法500の一実施態様では、それぞれの選択されたページに関連性の値Rを割り当てることによって、あるソート順序でページをランク付けすることができる。例えば、選択されるページは、クエリ内のすべてのタームに最適にマッチするものとすることができる。その場合、それぞれのこのようなページに割り当てられるR値は、検索者に提示するために、選択されたページのソート順序を決定することができる。
ページ関連性の値を計算するための1つの例示的な数式のセットにおいて、Rは次のように定義される。
R=log(r)、ここで
NDL=IDL−TDL、そして
r=((twK*NTW)+(nlK*NDL))の和
これらの数式におけるパラメータは以下の定義を有する。
NDLは、特定のクエリに応答して返される各ページに対する正規化されたページレベルである。NDLパラメータは、検索結果と選択されたページの具体性との間の関連づけを提供する。また、以下で説明するように、上記のタームパラメータに従って選択されたページに重みを付けることで、検索者に提示される結果リストをさらに精緻化することができる。
IDLは、イントラネット全体でのすべてのページレベルのうち最大の識別された深さにあるページから、特定のページまでの距離に対応する逆ページレベルである。それに続くレベルは、最大深さレベルから離れるごとに、前のページレベルから1だけデクリメントすることによって決まる。したがって、IDLは、上記のパース110中に決定されるページレベルパラメータDLに類似している。ただし、ページレベルは、ルートページからではなく、イントラネットのすべての識別されたページのうち最大深さのレベルから測る。
TDL(しきい値ページレベル)は、主題コンテンツが重要であると仮定される最小のページレベルである。TDLの値は、特定のクエリの具体性に応じて選択され、その具体性自体は、クエリに応答したページヒット数によって決まる。TDLは経験的に決定できる。例えば、TDL値の範囲は、ページヒット数の範囲に割り当てることができる。例えば、最大ページレベルが10である場合、特定のクエリの特定の具体性にTDL値5を割り当てることができる。この例では、NDLの計算は、ヒットリスト内でページレベルが5未満のすべてのページを除去するように作用する。
したがって、TDLはクエリの具体性に依存し得る。そこで、例えば、より具体的なクエリに対しては、ルートから遠いページレベルほど関連性がある可能性が高いので、より具体的なクエリに対しより深いTDLを選択できる。IDLパラメータからTDLを減算すると、負のNDLパラメータ値を有するページが落とされる。したがって、ページのリストに残っているページでクエリタームを含むものは、TDLパラメータの作用により選択されたレベルよりも高い具体性を有するページである。
Rは、クエリに応答して選択されるページに割り当てられる関連性である。Rは、特定のクエリに応答して検索から返されるページのリストのソート順序を制御する。未加工の関連性の値(下記のrを参照)の対数としてRを計算することで、R値の範囲を0から1までに入るように制限する。値の範囲を制限することは、計算の目的上都合がよい場合がある。また、計算した値を打ち切って、例えば4桁だけを用いることで、検索によって課される計算要求をさらに制限することができる。
rは、クエリに応答して選択される各ページの未加工の関連性であり、正規化された全体的ターム具体性(NTW)パラメータをターム重み係数(twK、下記参照)で調整したものと、正規化されたページレベル(NDL)をページ重み係数(nlK、下記参照)で調整したものとの和である。したがって、未加工の関連性は、ページ具体性パラメータおよびページ内ターム具体性パラメータの両方に相関づけられたページヒットのランキングを提供する。
twKはタームレベル係数であり、未加工の関連性rの計算において、正規化された全体的ターム具体性(NTW)に及ぼす効果と、正規化されたページレベル(NDL)に及ぼす効果とのバランスをとるために、ページレベル係数(nlKを参照)とともに用いられる。nlKはページレベル係数である。twKおよびnlKは、関連性の決定においてターム具体性とページ具体性の使用の間の望ましいバランスをとるために選択される。
このバランスは任意の好適な方法で選択できる。twKおよびnlKは、すべてのクエリに対して定数としてもよく、異なるクエリごとに調整してもよい。twKおよびnlKは、少なくとも部分的には、タームレベル値に関するNTWの値の単位、およびページレベル値に関するNDLの値の単位を調整するために選択することができる。
これらの定数には、例えば0、1、2、またはそれ以上の値を割り当てることにより、関連性の計算においてターム具体性およびページレベルに与えられる相対的重みを変化させることができる。値は任意の好適な方法で選択できる。例えば、サンプルのユーザグループに、相異なる割り当てられた定数値を用いて生成された検索結果を提示した後、そのユーザグループに、どの結果セットが最も満足なものであるかを識別させることができる。したがって、例えば、定数値は主観的、経験的な手法で選択することができる。
上記のように、一実施形態では、クエリの1つまたは複数の検索タームの一般性は、潜在的結果リスト内のページ数の関数である。例えば、Microsoft.comのウェブサイト上で「windows」という語を含むクエリは数十万ページとマッチするであろう。本発明の一実施形態によれば、このワードは、そのサイトに対する相対的に一般的な検索タームとして扱われる。本発明の原理によれば、ターム「windows」が一般的クエリであると理解することにより、検索エンジンはページの結果セットにおいて一般的結果を押し上げることができる。すなわち、広範な主題を有するページが検索エンジンのユーザに提示される結果リストのトップに押し上げられる。
これに対して、ページヒット数が相対的に少数であるクエリは、相対的に具体的とみなすことができる。これに応じて、ルートページからの距離が大きいページヒットほど、結果リストのトップへ向かって押し上げるためにより高い重みを与えることができる。具体性の値がより低い一般的コンテンツのページは、ルートページの近くに存在すると考えられるが、リストのトップから離れるように押し下げることができる。そして検索者は、検索との関連性の具体性がより高いページに誘導されるので、検索成功の速度や可能性を向上させることができる。
例えば、上記のプロセスを通じて、より長いパスを有するページには具体的クエリに応答してより高い重みを与え、より短いパスを有するページには一般的クエリに応答してより高い重みを与えることができる。こうして、例えば、一般的クエリは、一般的ページがリストのトップへ向かって押し上げられたページのリストを受け取り、具体的クエリは、具体的ページがリストのトップへ向かって押し上げられたページのリストを受け取ることができる。
こうして、一般的クエリを提示したユーザは、狭く不要な情報を有する多くのページを分類することが不要となる。このユーザは、一般的主題のページから出発するので、望みの情報を有するページに誘導される可能性が高くなる。同様に、具体的クエリを提示したユーザは、具体的検索を満足させるには一般的すぎる情報を有するページを調べることを避けることができる。
なお、認識されるべきであるが、本明細書で概説した方法100、300のいくつかの特徴は、さまざまなオペレーティングシステムあるいはプラットフォームのうちの任意のものを用いて1つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコーディングすることができる。また、このようなソフトウェアは、いくつもの好適なプログラミング言語および/または従来のプログラミングツールあるいはスクリプティングツールのいずれを用いて書くことも可能であり、実行可能な機械語コードとしてコンパイルすることもできる。
なお、理解されるべきであるが、本明細書において「プログラム」という用語は、コンピュータまたはその他のプロセッサをプログラムすることにより上記のような本発明の諸態様を実施するために使用可能な、任意のタイプのコンピュータコードあるいは命令セットを指すための一般的な意味で用いられる。また、認識されるべきであるが、本実施形態の一態様によれば、実行時に本発明の方法を実施する1つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はなく、本発明の諸態様を実施するためにいくつかの異なるコンピュータまたはプロセッサの間にモジュール方式で分散してもよい。
本発明の諸態様は、単独で用いても、組み合わせて用いても、あるいは上記の実施形態では具体的に説明していないさまざまな構成で用いてもよい。したがって、上記の説明に記載され、あるいは図面に例示されているコンポーネントの詳細および構成への適用には限定されない。特に、最上位レベルのそれぞれの作業は、任意のさまざまな下位作業を含み得る。例えば、本明細書に記載の最上位レベルの作業は、本明細書に記載の下位作業の1つまたは任意の組合せを含み、あるいは、パッチ管理プロセスを命令し管理する階層構造を精緻化する他の下位作業を含み得る。
特許請求の範囲において請求項の要素を修飾するために「第1」、「第2」、「第3」等の序数詞を使用することは、それ自体では、請求項の構成要素間の優先順位、選好、あるいは順序や、方法のアクトが実行される時間的順序を含意せず、単に、ある名称を有する1つの請求項の構成要素を、(その序数詞を用いなければ)同一名称を有する別の構成要素から区別して、請求項の構成要素間の区別を行うためのラベルとして用いられるに過ぎない。
また、本明細書で用いられる語法や用語は説明を目的としたものであり、限定的とみなしてはならない。本明細書において、「〜を含む」、「〜を備える」、あるいは「〜を有する」、「〜を収容する」、「〜を伴う」、およびそれらの変化形の使用は、それらの前に記載される項目およびその均等物ならびに追加的項目を包含することを意味する。
本発明の一実施形態によるイントラネットをクロールする方法の流れ図である。 本発明の原理による、各ページの具体性または一般性を推論するために使用することができるイントラネットの階層的編成のブロック図である。 本発明の一実施形態によるイントラネットをパースする方法の流れ図である。 本発明の原理による、ページ中の各タームの具体性または一般性を推論するために使用することができるページ構造の階層的編成のブロック図である。 本発明の一実施形態による検索エンジンクエリを処理する方法の流れ図である。
符号の説明
200 イントラネット構造
201 ホームページ
210 第1レベルのページ
220 第2レベルのページ
230 第3レベルのページ
400 ページ構造
401 ルートタグ
410 ページ見出しタグ
411 ページタイトルタグ
412 見出しメタタグ
420 本文タグ
421 本文見出しタグ
422 本文テーブルタグ
423a,423b 本文段落タグ
424a,424b 太字フォントタグ
425a,425b アンカータグ
430a,430b,430c 内部テキスト

Claims (17)

  1. 少なくとも1つのルートページを含む複数のページを備えるイントラネットを処理するための、1つまたは複数のコンピュータが実施する方法であって、
    (A)前記イントラネットをクロールして前記イントラネット中の前記複数のページを識別することと、
    (B)前記識別したページのそれぞれについて、前記少なくとも1つのルートページから前記識別したページまでの最短パスのリンク数を表す第1の数を決定することと、
    (C)クエリの具体性を表す第2の数を計算することであって、前記クエリの具体性が前記クエリに応答して返される潜在的ページの数と逆の関係を有することと、
    (D)前記検索クエリに応答して選択されたページを提示することであって、前記選択されたページの提示は、前記クエリに対する各選択されたページの関連性を示し、前記関連性は前記第1の数を前記第2の数で調整した結果に基づくことと
    を含むことを特徴とする方法。
  2. (E)前記識別したページのそれぞれについて、前記少なくとも1つのルートページから前記識別したページまでの最短パスのリンクの前記第1の数を示す情報を格納することであって、前記情報が前記イントラネット中の前記識別したページの階層レベルを指定すること
    をさらに含むことを特徴とする請求項1に記載の方法。
  3. (F)前記識別したページの階層レベルと相関する前記識別したページの主題の具体性レベルを定めること
    をさらに含むことを特徴とする請求項2に記載の方法。
  4. 前記主題の具体性レベルは、前記少なくとも1つのルートページからの最短パスのリンクの第1の数がより大きい識別したページについての値のほうが、前記少なくとも1つのルートページからの最短パスのリンクの第1の数がより小さい識別したページについての値に比べて大きいことを特徴とする請求項3に記載の方法。
  5. (E)複数のコンセプトページを複数のルートページであるように選択すること
    をさらに含むことを特徴とする請求項1に記載の方法。
  6. 前記(A)は、前記複数のルートページのそれぞれから出発して前記イントラネットを通して複数のクロールを開始することによって、前記イントラネットをクロールすることを含むことを特徴とする請求項1に記載の方法。
  7. 前記(A)は、前記イントラネット中の前記複数のページのすべてを識別することを含むことを特徴とする請求項1に記載の方法。
  8. 前記複数のページの少なくとも1つは、HTML書式を備えることを特徴とする請求項1に記載の方法。
  9. 前記イントラネットは、ウェブサイトに関連づけられることを特徴とする請求項1に記載の方法。
  10. (E)識別したページごとに、前記最短パスのリンクの前記第1の数に関連する逆ページレベルを決定すること
    をさらに含むことを特徴とする請求項1に記載の方法。
  11. (F)前記識別したページのうち、リンクのしきい値数より小さいリンク数の最短パスを有するページを除外すること
    をさらに含むことを特徴とする請求項10に記載の方法。
  12. (E)前記複数のページの各ページをパースして前記ページ内の任意のタームを識別すること
    をさらに含むことを特徴とする請求項1に記載の方法。
  13. (F)識別したタームごとに、前記ページのルートノードからの距離を決定すること
    をさらに含むことを特徴とする請求項12に記載の方法。
  14. (G)識別したタームごとに、前記ルートからの距離を示す情報を格納することであって、前記情報が前記ページの前記識別したタームについての階層レベルを指定すること
    をさらに含むことを特徴とする請求項13に記載の方法。
  15. 前記(D)は、前記クエリの具体性のレベルに関連する具体性のレベルを有するページを前記選択されたページとして自動的に提示することを含むことを特徴とする請求項1に記載の方法。
  16. 前記(D)は、前記選択されたページの具体性のレベルに相関づけられる順序で前記選択されたページを提示することを含むことを特徴とする請求項15に記載の方法。
  17. 請求項1乃至16のいずれかに記載の方法を前記1つまたは複数のコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ記憶媒体。
JP2005261230A 2004-10-15 2005-09-08 イントラネット検索のための方法および装置 Expired - Fee Related JP5068437B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US10/967,003 US8595223B2 (en) 2004-10-15 2004-10-15 Method and apparatus for intranet searching
US10/967,003 2004-10-15
US10/987,283 2004-11-12
US10/987,092 2004-11-12
US10/987,283 US7779012B2 (en) 2004-10-15 2004-11-12 Method and apparatus for intranet searching
US10/987,092 US20060085427A1 (en) 2004-10-15 2004-11-12 Method and apparatus for intranet searching

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2011209151A Division JP2012027938A (ja) 2004-10-15 2011-09-26 イントラネット検索のための方法および装置
JP2011209150A Division JP2012027937A (ja) 2004-10-15 2011-09-26 イントラネット検索のための方法および装置

Publications (3)

Publication Number Publication Date
JP2006114021A JP2006114021A (ja) 2006-04-27
JP2006114021A5 JP2006114021A5 (ja) 2008-10-23
JP5068437B2 true JP5068437B2 (ja) 2012-11-07

Family

ID=35709117

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2005261230A Expired - Fee Related JP5068437B2 (ja) 2004-10-15 2005-09-08 イントラネット検索のための方法および装置
JP2011209151A Withdrawn JP2012027938A (ja) 2004-10-15 2011-09-26 イントラネット検索のための方法および装置
JP2011209150A Withdrawn JP2012027937A (ja) 2004-10-15 2011-09-26 イントラネット検索のための方法および装置

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2011209151A Withdrawn JP2012027938A (ja) 2004-10-15 2011-09-26 イントラネット検索のための方法および装置
JP2011209150A Withdrawn JP2012027937A (ja) 2004-10-15 2011-09-26 イントラネット検索のための方法および装置

Country Status (3)

Country Link
EP (1) EP1647904A3 (ja)
JP (3) JP5068437B2 (ja)
KR (1) KR101159342B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6520362B2 (ja) 2014-08-25 2019-05-29 富士通株式会社 生成方法、装置、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305729A (ja) * 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd ネットワーク情報フィルタリングシステム
JP3615280B2 (ja) * 1995-08-17 2005-02-02 沖電気工業株式会社 ネットワーク情報検索システム
JP2940459B2 (ja) * 1996-02-08 1999-08-25 日本電気株式会社 ノード・リンク探索装置
US6151595A (en) * 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
US6658402B1 (en) * 1999-12-16 2003-12-02 International Business Machines Corporation Web client controlled system, method, and program to get a proximate page when a bookmarked page disappears
US7330845B2 (en) * 2000-02-17 2008-02-12 International Business Machines Corporation System, method and program product for providing navigational information for facilitating navigation and user socialization at web sites
US6785688B2 (en) * 2000-11-21 2004-08-31 America Online, Inc. Internet streaming media workflow architecture
JP4094844B2 (ja) * 2000-12-27 2008-06-04 富士通株式会社 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
JP3774145B2 (ja) * 2001-12-21 2006-05-10 日本電信電話株式会社 Webサイトの内部構造推定装置、内部構造推定方法、この方法のプログラム、このプログラムを記録した記録媒体
US7567953B2 (en) 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources

Also Published As

Publication number Publication date
JP2012027938A (ja) 2012-02-09
EP1647904A3 (en) 2006-08-09
JP2006114021A (ja) 2006-04-27
EP1647904A2 (en) 2006-04-19
KR20060050806A (ko) 2006-05-19
KR101159342B1 (ko) 2012-06-25
JP2012027937A (ja) 2012-02-09

Similar Documents

Publication Publication Date Title
US9507828B2 (en) Method and apparatus for intranet searching
US11314824B2 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
US6691108B2 (en) Focused search engine and method
US7447684B2 (en) Determining searchable criteria of network resources based on a commonality of content
US8190601B2 (en) Identifying task groups for organizing search results
EP1934823B1 (en) Click distance determination
US7657546B2 (en) Knowledge management system, program product and method
US8099423B2 (en) Hierarchical metadata generator for retrieval systems
US7475074B2 (en) Web search system and method thereof
US7756860B2 (en) Advanced handling of multiple form fields based on recent behavior
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
US20080294619A1 (en) System and method for automatic generation of search suggestions based on recent operator behavior
AU2009223819A1 (en) System, method, and/or apparatus for reordering search results
US20120166973A1 (en) Presenting list previews among search results
CA2547800A1 (en) Logo or image based search engine for presenting search results
US20050114317A1 (en) Ordering of web search results
JP5068437B2 (ja) イントラネット検索のための方法および装置
US7490082B2 (en) System and method for searching internet domains
US8117205B2 (en) Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric
Álvarez et al. A Task-specific Approach for Crawling the Deep Web.
US8495483B1 (en) Using text surrounding hypertext links when indexing and generating page summaries
Almuhareb Arabic poetry focused crawling using SVM and keywords
Ogban et al. On a cohesive focused and path-ascending crawling scheme for improved search results
Chakrapani et al. Automatic Summarization on Aggregated Search Results
Moise et al. Effectively Retrieving Related Pages on the Web using Focused Co-citation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080908

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110824

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120720

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5068437

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees