JP2003248692A

JP2003248692A - １組のドキュメントの階層的記述の推測

Info

Publication number: JP2003248692A
Application number: JP2003020236A
Authority: JP
Inventors: Eric Glover; グローバーエリック; Robert Lawrence Stephen; ロバートローレンスステファン; David Pennock; ぺノックディビッド
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-02-22
Filing date: 2003-01-29
Publication date: 2003-09-05
Anticipated expiration: 2023-01-29
Also published as: JP3928722B2; US20030167163A1; US7165024B2; JP2006318511A

Abstract

(57)【要約】【課題】ウェブ・ディレクトリに有用であり、あるい
は、情報検索を改良するための、自動的に生成されたさ
まざまなクラスタを関連づけて符号を付ける方法を提供
すること。【解決手段】ドキュメントのポジティブ・セットから
フィーチャーの第１のヒストグラムを供給するステップ
と、ドキュメントのコレクション・セットからフィーチ
ャーの第２のヒストグラムを供給するステップと、前記
フィーチャーを含む前記ポジティブ・セット内の前記ド
キュメントの割合と、前記フィーチャーを含む前記コレ
クション・セット内の前記ドキュメントの割合にもとづ
いて、各フィーチャーがセルフ・フィーチャー、ペアレ
ント・フィーチャーあるいはチャイルド・フィーチャー
であるか否かを決定するステップを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はワールド・ワイド・
ウェブの検索に関し、具体的には、階層的情報について
の事前の知識は何等無しに、検索されたウェブ・ページ
の小さい集合から、トピックについての階層的関係を推
測することに関する。

【０００２】さらに本発明は、ドキュメントの小さな集
合の記述的名称である語、あるいは、句のグループを自
動的に判定することと、概念についての事前の知識は何
等無しに、記述的名称よりも一般的でより具体的なドキ
ュメントの集合内の概念を推測することに関する。記述
的名称および概念は、ドキュメントに含まれていないこ
とさえ有り得る。本発明の主な応用はワールド・ワイド
・ウェブの検索であるが、本発明はワールド・ワイド・
ウェブあるいは特定の情報検索システムに使用すること
のみに制限されず、ドキュメントの任意の集合に応用す
ることができる。

【０００３】

【従来の技術】ワールド・ワイド・ウェブの急速な発展
は、オンライン・テキスト・ドキュメントの検索、ブラ
ウジングおよび系統化を容易にすることを目的とする研
究の急増をもたらした。この研究の多くは、ドキュメン
トを意味のあるグループにクラスタ化することに重点を
置かれた。ドキュメント・クラスタを集合、あるいは階
層化する多くの場合、利用者は、特定のドキュメントを
詳細を確かめることなくクラスタを識別するために、コ
レクションにざっと目を通すことを好む。

【０００４】ワールド・ワイド・ウェブは、生物学コミ
ュニティ、あるいはＩＳＰホームページのコミュニティ
のような、関連するドキュメントについて大量な数のコ
ミュニティを含んでいる。本発明は、孤立している単一
のコミュニティについての有用な階層的情報を自動的に
推測する方法である。

【０００５】１組のドキュメントから始まって、その１
組のドキュメントに関するさまざまに有用ないくつかの
情報を自動的に推測することが望ましい。その情報は、
記述的な名称あるいは関連する概念（時にはドキュメン
トの中に明示的に含まれていない）を有してもよい。こ
のような情報は、検索あるいは解析のために有用であ
る。

【０００６】クラスタリングは、構成要素がある点で、
対象を類似であるグループに系統化する処理と定義する
ことができる。クラスタリングには、すべての対象が厳
密に１つのグループに指定される「分割」（多くの場合
ｋ−クラスタリングと呼ばれる）と、１を超える大きさ
の各グループをより小さなグループで構成することが可
能な「階層的クラスタリング」の２つの主な形式があ
る。ワールド・ワイド・ウェブ検索エンジンの出現、明
確には、利用可能な大量のデータを系統化する課題と、
大規模データベースの「データ・マイニング」の概念
は、クラスタリング・アルゴリズムに対する関心を復活
させた。

【０００７】本発明は、ドキュメントの集合あるいはク
ラスタの理解を助けるために、フィーチャーの意味のあ
るクラスを識別する方法を提供する。フィーチャーには
３つのクラスがあることが望ましい。「セルフ」フィー
チャーあるいはセルフ・タームは、全体としてクラスタ
を記述する。「ペアレント」フィーチャーあるいはペア
レント・タームは、一般的な概念を記述する。「チャイ
ルド」フィーチャーあるいはチャイルド・タームは、ク
ラスタの特殊化を記述する。たとえば、１組の生物学ド
キュメントを仮定すると、ペアレント・タームは科学で
あってよく、セルフ・タームは生物学であってよく、チ
ャイルド・タームは遺伝学であってもよい。

【０００８】セルフ・フィーチャーは推奨されたクラス
タの名称として使用でき、ペアレント・フィーチャーお
よびチャイルド・フィーチャーは、クラスタをより大き
いコレクションのスペースに置くために使用できる。ペ
アレント・フィーチャーはより一般的な概念を示唆し、
チャイルド・フィーチャーはセルフ・フィーチャーの特
殊化についての記述である概念を示唆する。

【０００９】ペアレント・フィーチャー、セルフ・フィ
ーチャーおよびチャイルド・フィーチャーを自動的に発
見することは、ウェブ・ディレクトリのオートマティッ
ク・ラベリングあるいは情報検索の改善を含むいくつか
の目的に対して有用である。別の重要な利用法は、単一
のクラスタの概要統計とバックグランド・コレクション
統計のみを使用して、生成されたクラスタを自動的に命
名するとともに、クラスタに含まれるより一般的でより
具体的な概念の両方を推奨することである。

【００１０】現在、ヤフー社が運営するポータルサイト
(http://www.yahoo.com/)あるいはオープン・ディレク
トリ(http://www.dmoz.org/)のような普及しているウェ
ブ・ディレクトリは、人間が生成し、人間が維持してい
る。カテゴリーが人間により定義される場合でも、自動
的な階層的記述は、新しいペアレントあるいはチャイル
ド・リンク、あるいは別の名称を推奨するために有用な
ことがある。ドキュメントあるいはページの検索された
集合にもとづいて、別の問い合わせ（より一般的で、よ
り具体的な問い合わせ）を推奨することにより、同じ技
術が情報検索を改良するために有用なことがある。

【００１１】自動的な要約に関連する一連の先行する研
究がある。たとえば、Radev と Fanは、"Automatic sum
marization of search engine hit lists" ,in Proceed
ings of ACL'2000 Workshop on Recent Advances in Na
ture Language Processingand Information Retrieval,
Hong Kong, P.R. China, 2000,（非特許文献１）でウ
ェブ・ドキュメントのクラスタの要約の技術を説明して
いる。彼等の技術は、ドキュメントを個別の文に構文解
析し、テーマ、すなわち、「選択されたドキュメントか
らの最も顕著な一節」を識別する。この技術は、「重心
ベースの要約」を使用し、階層的に関連するフィーチャ
ーの集合を作ったり、あるいはクラスタ内の語あるいは
句を発見することはない。

【００１２】さまざまな概念関係をテキストから推測す
るために、語彙の技術が応用されてきた。たとえば、Ma
rti A. Hearst in "Automatic acquisition of hyponym
s from large text corpora" ,in Proceedings of the
Fourteenth International Conference on Computation
al Linguistics, Nantes, France(1992)（非特許文献
２）、Marti A. Hearst in "Automated discovery in w
ordnet relations", Christiane Fellbaum 編、WordNe
t: An Electronical Lexical Database, MIT Press (19
98)（非特許文献３）、および、 Sharon A. Carballo i
n "automatic construction of a hypernym-labeled no
un hierarchy from text", in Proceedingsof the 37th
Annual Meeting of the Association for Computation
al Linguistics (1999)（非特許文献４）等参照。

【００１３】名詞句、たとえば、「打撲傷、外傷、骨折
した骨あるいは他の傷害」の点で区切られたリストのよ
うな、１組の語彙統語的なパターンを識別することによ
り、語彙の関係を見出す方法を Hearst は説明してい
る。これらのパターンは、語彙関係の型、たとえば打撲
傷、外傷および骨折した骨が傷害のすべての型であるこ
とを示唆するために使用される。上位語がラベル付けら
れ、階層化された名詞を自動的に構築する技術を、Cara
balo は説明している。英語を母国語とする人が文章
「ＢはＡの一種である」を理解すれば、上位語としては
語ＡとＢの間の関係を説明するものとする。HearstとCa
raballo により説明されたような言語学関係はシソーラ
スを生成するために有用であるが、ドキュメントのクラ
スタとコレクションの残りの部分との関係を必然的には
説明していない。スポーツに焦点が当てられたクラスタ
があることを知っていれば、「野球がスポーツである」
ことを知ることは、有用であることがある。しかし、抽
出された関係は、集合の中にある概念の実際の頻度とは
必然的には関連していない。主としてバスケットボール
とホッケーを論じているスポーツ・ドキュメントのクラ
スタがあれば、野球もスポーツであるという事実は、そ
の集合を説明するために非常に重要なものではない。

【００１４】SandersonとCroftは、"Deriving concept
hierarchies from text", in Research and Developmen
t in Information Retrieval" pages 206-213 (1999)
（非特許文献５）において、包含関係にもとづく統計的
技術を発表した。

【００１５】SandersonとCroftのモデルにおいて、２つ
の用語ｘとｙに対して、所与のｙに対するｘの確率が１
であり、所与のｘに対するｙの確率が１未満であれば、
ｘはｙを含むと言う。実際のモデルにおいて、使用され
た確率は、雑音を減少するために０．８であった。包含
関係は、ペアレント・チャイルド関係（本発明において
はセルフ・チャイルド関係）を示唆する。これは、所与
のクラスタの関係の中で階層が創出されることを可能に
する。これに対して、本発明は、「ペアレント」（共通
のテーマより一般的）、「セルフ」（クラスタを全体と
して定義あるいは記述するフィーチャー）および「チル
ドレン」（共通の下位概念を記述するフィーチャー）と
して識別されたフィーチャーに特有の一般的な領域に関
心を置いている。

【００１６】PopesculとUngarは、http://citeseer.nj.
nec.com/popsecu100automatic.htmlにて未刊行原稿で入
手可能な、"Automatic labeling of document cluster
s"（非特許文献６）において、ドキュメント・クラスタ
に自動的に符号を付けるためにｘの２乗を使用して、単
純な統計的技術を説明している。各（分岐した）フィー
チャーは、局部的な頻度と予報性の積にもとづいて、ス
コアを割り当てられた。良いクラスタ・ラベルの概念
は、現在の「セルフ・フィーチャー」の概念に類似す
る。良いセルフ・フィーチャーは、ポジティブ・セット
では一般的であると共にネガティブ・セットで希少なも
のであり、局部的な高頻度と高い予報性に対応する。彼
等の研究に対して、本発明は、良い名称ではないかもし
れないがクラスタの理解を促進するフィーチャー（ペア
レントおよびチャイルド・フィーチャー）を考慮してい
る。

【００１７】Eric J. Glover 他は、"Using web struct
ure for classifying and describing web pages" in P
roceedings of the 11th WWW Conference, Hawaii (200
2)（非特許文献７）で、予想されるエントロピーの低下
によるフィーチャーの順位付けが、セルフ名あるいはペ
アレントまたはチャイルドの概念に対する良い候補を識
別するために、どのように使用できるかを説明してい
る。ポジティブ・セット内では一般的であり、ネガティ
ブ・セット内で希少となるフィーチャーは、良いセルフ
とチルドレンを作り、さらに予想されるエントロピーの
低下が多くなることを示す。ペアレントもネガティブ・
セット内で相対的に希少であり、ポジティブ・セット内
で一般的であり、さらに予想されるエントロピーの低下
が多くなる可能性が高い。本発明は、単一のエントロピ
ー・ベースの基準による順位付けとは対照的に、具体的
なポジティブおよびネガティブ頻度を考慮することによ
り、異なるクラスのフィーチャーを分離することに関心
を置いている。

【００１８】単一のクラスタを分析する他の方法は、ク
ラスタの階層を形成するために、クラスタを副クラスタ
に分けることが挙げられる。http://citeseer.nj.nec.c
om/fasulo99analysi.htmlにより入手可能なD. Fasuloに
よる"An Analysis of recentwork on clustering algor
ithms", Technical Report, University of Washingto
n, (1999)（非特許文献８）では、ドキュメントのクラ
スタリング（および階層的クラスタリング）に対するさ
まざまな技術の概要を提供している。"Trawling the we
b for emerging cyber-communities" WWW8/Computer Ne
tworks, 31(11-16):1481-1493(1999)（非特許文献９）
で、Kumar他は、クラスタを判定するためにウェブのリ
ンク構造を使用して、コミュニティに対してウェブを具
体的に分析することを説明している。HofmannとPuzicha
は、"Statistical models for co-occurrence data" Te
chnical Report AIM-1625 (1998)（非特許文献１０）
で、同時に出現するデータおよび関連する階層的クラス
タリング・アルゴリズムに対するいくつかの統計モデル
を説明している。HofmannとPuzichaは、特に、情報検索
問題と用語の関連に取り組んでいる。

【００１９】次の例は、本発明と従来の階層的クラスタ
リング研究の間の相違を明確にするであろう。利用者が
「生物学」に対してウェブ検索を行い、すべてが一般的
な生物学の「中心」となるページである２０個のドキュ
メントを検索すると仮定する。各ページは、生物学の特
有の面に集中していない点である程度類似である。階層
的クラスタリングでは２０個のドキュメントを副クラス
タに分け、各副クラスタは「チャイルド」概念を表すで
あろう。一番上のクラスタは、ほぼ間違いなく「セル
フ」クラスタであると考えることができる。しかし、副
クラスタを仮定すると、どのフィーチャー（語あるいは
句）が意味がある名称であるかを認識する容易な方法は
ない。例えば、「植物学」は、副クラスタとして「大
学」より良い名称であろうか、等。

【００２０】さらに、１群の類似のドキュメントを仮定
すると、クラスタリングは有意義ではない恐れがある。
副クラスタは、ドキュメントの２分の１は句「著作権２
００２年」を含み、他の２分の１は含まないというよう
な、関連のない面に集中する恐れがある。文字内容に欠
けるウェブ・ページ、すなわち「ウェルカム・ページ」
に対して、あるいは、ページの一部が混合トピック（ク
ラスタ全体としては主として生物学についてであって
も）であれば、これは特に困難である。

【００２１】本発明による教示によれば、（非記述的ペ
ージを処理するウェブ構造を考慮して）２０個のドキュ
メントの集合が分析され、各フィーチャーの出現を要約
するヒストグラムが生成される（個別のドキュメント内
の語の頻度は除去される）。本明細書において使用され
るフィーチャーは、任意の用語あるいはｎグラム（単一
の語あるいは句）を指す。さらにフィーチャーは構造的
な情報、ドキュメントの一般的な性質、あるいは他の有
意義な記述でも良い。構造的な情報は、ドキュメントの
名称内の語あるいは句を含んでもよく、あるいはドキュ
メントのメタタグ内の語あるいは句および同等物であっ
てもよい。ドキュメントの一般的な性質は、「これは最
近のドキュメントである」のような要因、あるいは、
「ニュース」あるいは「ホームページ」のようなドキュ
メント分類を含んでもよい。このようなフィーチャー
は、通常２進法である。すべてのドキュメント（あるい
は、若干の、より大きい参照コレクション）のヒストグ
ラム内のフィーチャーの分析を使用する、生成されたヒ
ストグラム内のフィーチャーの分析は、クラスタの「最
良の」名称は「生物学」であり、「科学」はより一般的
な概念を説明する用語であるとの識別をもたらす。同様
に、異なる型についてのクラスタを形成するであろう集
合内にドキュメントがなくても、生物学のいくつかの異
なる「型」が識別されるであろう。例は、「植物学」、
「細胞生物学」、「進化論」および同等物である。「著
作権２００２年」のような句は、より大きいコレクショ
ン内での頻度のために重要ではないことが知られるであ
ろう。さらに、ウェブ構造（以下に説明する拡張アンカ
ーテキスト）の使用は、ドキュメントのフルテキストの
みの使用と比較して、ドキュメントの小さい集合を指名
する能力を大幅に改良することができ、その結果、非記
述的なページ、たとえば、「ウェルカムページ」の問題
に注意を集中する。ひとたび創出されたドキュメントの
コレクション・セットのヒストグラムは、コレクション
・セットが変化しない限り、ドキュメントの任意のポジ
ティブ・セットと連係して使用される。すなわち、各ポ
ジティブ・セットに対してコレクション・セットのヒス
トグラムを再生することと対照的に、ドキュメントのコ
レクション・セットのヒストグラムは、ドキュメントの
多くの異なるポジティブ・セットに対して再利用するこ
とができる。

【００２２】

【非特許文献１】Radev and Fan in "Automatic summar
ization of search engine hit lists" ,in Proceeding
s of ACL'2000 Workshop on Recent Advances in Natur
e Language Processing and Information Retrieval, H
ong Kong, P.R. China, 2000.

【非特許文献２】Marti A. Hearst in "Automatic acqu
isition of hyponyms from large textcorpora" ,in Pr
oceedings of the Fourteenth International Conferen
ce on Computational Linguistics, Nantes, France(19
92).

【非特許文献３】Marti A. Hearst in "Automated disc
overy in wordnet relations", Christiane Fellbaum
編、WordNet: An Electronical Lexical Database MIT
Press (1998).

【非特許文献４】Sharon A. Carballo in "automatic c
onstruction of a hypernym-labeled noun hierarchy f
rom text", in Proceedings of the 37th Annual Meeti
ng of the Association for Computational Linguistic
s (1999).

【非特許文献５】Sanderson and Croft in "Deriving c
oncept hierarchies from text", in Research and Dev
elopment in Information Retrieval" pages 206-213
(1999).

【非特許文献６】Popescul and Ungar in "Automatic l
abeling of document clusters"［平成１４年７月３１
日検索］、インターネット＜URL：http://citeseer.nj.
nec.com/popsecu100automatic.html＞

【非特許文献７】Eric J. Glover et al, "Using web s
tructure for classifying and describing web pages"
in Proceedings of the 11th WWW Conference, Hawaii
(2002)

【非特許文献８】D. Fasulo in "An Analysis of recen
t work on clustering algorithms", Technical Repor
t, University of Washington, (1999)［平成１４年７
月３１日検索］、インターネット＜URL：http://citese
er.nj.nec.com/fasulo99analysi.html＞

【非特許文献９】Kumar et al "Trawling the web for
emerging cyber-communities" WWW8/Computer Network
s, 31(11-16):1481-1493(1999).

【非特許文献１０】Hofmann and Puzicha in "Statisti
cal models for co-occurrence data" Technical Repor
t AIM-1625 (1998).

【００２３】

【発明が解決しようとする課題】本発明は、上述したよ
うな従来技術を踏まえてなされたものであり、相対的に
ドキュメントの小さいクラスタに対して、ペアレント、
チャイルドおよびセルフ・フィーチャーを予測するため
の統計モデルを得る方法を提供するものである。

【００２４】本発明によれば、トピックに関連するサン
プル・ウェブ・ページの小さい集合のみを使用して、階
層的情報の事前の知識無しに、トピックについての階層
的な用語関係を推測する統計モデルが創られる。

【００２５】本発明を形成する統計モデルは、クラスタ
内のページのフルテキストあるいはページへ向かうリン
クの前後関係のいずれかを利用することができる。

【００２６】したがって、本発明の主な目的は、ウェブ
・ディレクトリに有用であり、あるいは、情報検索を改
良するための、自動的に生成されたさまざまなクラスタ
を関連づけて符号を付ける方法を提供することである。

【００２７】本発明の他の目的は、ウェブ・ページの小
さい集合あるいはトピックに関連するドキュメントの集
合から、事前に何らの階層的情報の知識無しに、トピッ
クについての階層的な用語関係を推測するための統計モ
デルを創るための方法を提供することである。

【００２８】本発明の他の目的は、１組のドキュメント
内のペアレント・フィーチャー、セルフ・フィーチャー
およびチャイルド・フィーチャーを識別する方法を提供
することである。

【００２９】本発明のさらに他の目的は、情報検索シス
テムにおいて、より広いおよび／またはより狭い検索用
語を推薦するために、１組のドキュメント内のペアレン
ト・フィーチャー、セルフ・フィーチャーおよびチャイ
ルド・フィーチャーを識別する方法を提供することであ
る。

【００３０】本発明のさらに他の目的は、ウェブ・ディ
レクトリに自動的に符号を付けるために、１組のドキュ
メント内のペアレント・フィーチャー、セルフ・フィー
チャーおよびチャイルド・フィーチャーを識別する方法
を提供することである。

【００３１】本発明のさらに別の目的は、添付図面と関
連する下記の説明により明白になるであろう。

【００３２】

【課題を解決するための手段】ペアレント・フィーチャ
ー、セルフ・フィーチャーおよびチャイルド・フィーチ
ャーの自動的な選択は、ウェブ・ディレクトリの自動的
なラベリングあるいは情報検索の改善を含むいくつかの
目的に対して有用であり得る。別の重要な利用法は、ク
ラスタの概要統計と背景となるコレクションの統計のみ
を使用して、生成されたクラスタを自動的に命名すると
ともに、より一般的でより具体的な概念を推奨すること
であろう。

【００３３】時折ネガティブ・セットと呼ばれるドキュ
メントの全部のコレクション内のフィーチャーｆの頻度
と比較した、１組のドキュメント（「ポジティブ・クラ
スタ」）内のフィーチャーｆの頻度の分析にもとづい
て、ペアレント・フィーチャー、セルフ・フィーチャー
およびチャイルド・フィーチャーを区別することが可能
である。具体的にいうと、ｆがポジティブ・クラスタ内
では非常に普通であるが、コレクション内では相対的に
希少であれば、ｆは良いセルフ・フィーチャーであるこ
とがある。ポジティブ・クラスタ内では普通であるが全
体のコレクション内でもある程度普通であるフィーチャ
ーは、ポジティブ・クラスタの記述であるが、より一般
的であり、したがって良いペアレント・フィーチャーで
あることがある。ポジティブ・クラスタ内ではある程度
普通であるが、一般的なコレクション内では非常に希少
なフィーチャーは、正のドキュメントの部分集合のみを
説明するから、良いチャイルド・フィーチャーであるこ
とがある。

【００３４】本明細書において使用される用語「ドキュ
メント」は、ドキュメントと同様の表現、すなわち、ド
キュメントのプロキシ、たとえば要約、概要、アンカー
テキスト、および同等物を含むと理解されるが、それに
制限されない。ポジティブ・セットあるいはコレクショ
ン・セットのいずれかを形成するドキュメントは、ウェ
ブ・ブックマークを使用して、本発明による教示にした
がって説明されたもの以外を含むクラスタリング方法の
結果を使用し、ドキュメントの先存する階層あるいはド
キュメントを得る他の任意の方法を使用して、ワールド
・ワイド・ウェブあるいは任意の情報検索システムに問
い合わせを出すことにより得ることが可能である。ドキ
ュメントのポジティブ・セットあるいはドキュメントの
コレクション・セットは、たとえば既存の階層からのラ
ンダムなＵＲＬをコレクション・セットとして使用する
による、ドキュメントのより大きい集合のサンプリング
であってもよい。

【００３５】

【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。

【００３６】ここで、図、特に、図１を参照すると、ペ
アレント・フィーチャー、チャイルド・フィーチャーお
よびセルフ・フィーチャーの間の予測される関係のグラ
フ図が示されている。「正の頻度」は、所与のフィーチ
ャーを含むポジティブ・セット内のドキュメントのパー
センテージあるいは割合を示す。「コレクション頻度」
は、所与のフィーチャーを含むコレクション内のドキュ
メントの総合的なパーセンテージあるいは割合を示す。

【００３７】長方形の箱により示されている３つの領域
は、ペアレント・フィーチャー１０、チャイルド・フィ
ーチャー１２およびセルフ・フィーチャー１４の間に予
測される相対的な関係である。長方形の箱の外のフィー
チャーは、ペアレント、チャイルドおよびセルフのクラ
スに対しては好ましくない候補であると考えられ、この
ようなフィーチャーは分類されない。図１は、絶対的な
数値的境界を示すものではなく、単に領域の相対的な位
置のみを示す。領域は、クラスの特有の一般性に依存す
る。たとえば、「生物学」のクラスタに対しては「科
学」のペアレントは比較的普通であるが、「遺伝子配列
決定」に関するドキュメントのクラスタに対しては「Ｄ
ＮＡ」のペアレントはもっと希少であるかもしれない、
したがって、ペアレントとセルフの間の境界線はより０
に近いであろう。

【００３８】図２は、生物学のセルフ・エリア、科学の
ペアレント・エリアおよび植物学のチャイルド・エリア
に対するフィーチャーの分布の見本を示す。外の円２０
は、一般に「科学」の主題エリア内の集合内でのすべて
のドキュメントの集合を表す。中央の円２２は「生物
学」のエリア内のドキュメントの集合であり、最も内部
の円２４は「植物学」のエリア内のドキュメントを表
す。フィーチャー「科学」、「植物学」および「生物
学」が、それぞれの対応する円の中でのみ出現し、それ
ぞれの対応する円の中に含まれる各ドキュメント内に出
現すると仮定すれば、ペアレント、チャイルド、セルフ
関係は明確である。図２から、全体のドキュメントのお
よそ２０％が「科学」に言及し、ドキュメントの約５％
が「生物学」に言及し、１％が「植物学」に言及してい
る。「生物学」ドキュメントの集合の中で、１００％が
「科学」と「生物学」の両方に言及しているが、「植物
学」には約２０％が言及している。生物学の円内のすべ
てのドキュメントが生物学と言う語を実際に含んでいる
と想定しているので、これは非常に単純化した表現であ
るが、必ずしもこうはならない。同様に、植物学の副カ
テゴリー内のすべてのドキュメントが、「生物学」と
「科学」の両方に言及することはありそうもない。

【００３９】最終的な結果を補償するために、所与の
「適切な」フィーチャーが使用される何らかの確率があ
ると想定する。この確率は、セルフあるいはチャイルド
に対するよりも、ペアレントに対しては通常低い。結果
として、図１において、ペアレント領域はセルフ領域よ
りも左方に延びている。使用されている所与のフィーチ
ャーの確率は、右下のコーナーの座標にも影響を与える
であろう、低い確率はセルフ内の出現のパーセンテージ
を左方にシフトする。確率１は、すべてのセルフ・フィ
ーチャーを含むポジティブ・セット内のすべての正のド
キュメントに対応する。

【００４０】図１に説明したモデルを試験するために、
グラウンド・トルース・データと既知の正のドキュメン
トを使用し、ペアレント・フィーチャー、セルフ・フィ
ーチャーおよびチャイルド・フィーチャーの実際の出現
のグラフが生成された。階層的記述が推測されるべきコ
レクション・セットおよびドキュメントの集合を形成す
るために、オープン・ディレクトリ (http://www.dmoz.
org/) が選択された。ドキュメントの集合Ｓ_iを形成す
るために、「コンピュータ」、「科学」および「スポー
ツ」のトップレベルのカテゴリーを使用して、各カテゴ
リーからの上位１５の主題ベースのサブカテゴリーが選
択され、（科学には１１の主題ベースのサブカテゴリー
が存在した）合計４１のオープン・ディレクトリ・カテ
ゴリーが得られた、ここでｉは階層的記述が推測される
べき異なるカテゴリーに対応する。表１は、実験に使用
された４１のオープン・ディレクトリ・カテゴリーと、
それらの３つのペアレント・カテゴリーを列挙してい
る。フィーチャーのコレクション頻度の近似を収集する
ために、ドキュメントはオープン・ディレクトリ内の任
意の場所からランダムに選ばれ、これらのドキュメント
は集合Ｃを構成する。同じ集合Ｃが、実験のすべてに使
用された。

【００４１】

【表１】各カテゴリーは、割り当てられたペアレント（この場
合、科学、コンピュータあるいはスポーツのいずれ
か）、セルフ・フィーチャーを形成する関連する名称、
およびチャイルドを形成するいくつかのサブカテゴリー
を有する。各々の場合に、本発明者等は、割り当てられ
た名称を「および」、「あるいは」またはコンマのよう
な句読点で分割した。したがって、カテゴリー「異常と
代替科学」は２つのセルフ「異常」および「代替科学」
となる。

【００４２】実験の第１の部分は、集合Ｃ（コレクショ
ン統計）として、Ｓ_i集合を形成するために各カテゴリ
ーから５００の任意のドキュメントの初期集合と、ディ
レクトリ内の任意の場所からの２０,０００のランダム
なドキュメントを考慮した。ウェブのＵＲＬのそれぞれ
がダウンロードされ、フィーチャーがヒストグラムに入
れられた。ＵＲＬがターミナル・エラーに終われば、ペ
ージは無視され、トレーニングのために使用された集合
Ｓ_i内のドキュメントの数の変化として説明された。フ
ィーチャーは、語あるいは２つあるいは３つの語句から
成り、各フィーチャーはドキュメントごとに最大１と数
える。

【００４３】次に、各カテゴリーに対して、各ペアレン
ト、チャイルドおよびセルフ・フィーチャー（オープン
・ディレクトリにより割当られるように）が、フィーチ
ャーを含む集合Ｓ_i内のドキュメントの割合としてＸ座
標を使用し、そのフィーチャーを含む集合Ｃ内のドキュ
メント（ランダム・ドキュメント）の割合としてＹ座標
を使用してグラフ化された。集合Ｓ_iの２％未満のフィ
ーチャーが出現すれば、そのフィーチャーは無視され
た。

【００４４】図３は、４１のカテゴリーのすべてのペア
レント、チャイルドおよびセルフ・フィーチャーの分布
を示す。一般的な傾向であるように見えるが、ペアレン
トの近くに出現するチャイルドが多く存在する。同じペ
アレント（独自のペアレントは３つのみ）を有する多く
のカテゴリーが存在し、共通の集合Ｃが使用されたの
で、ペアレントは共通のＹ軸値の同一直線上にある。

【００４５】チルドレンのいくつかは、カテゴリーの知
識がない場合に明確に定義されていない語あるいは句で
ある。たとえば、フィーチャー「ニュース」は、関連す
るカテゴリーを知らない限り、人工知能についてのニュ
ー＃スか、あるいは野球についてのニュースか不確定で
ある。同様に、ニュースを含むいくつかのフィーチャー
は、「主題」ではなく、むしろページの非テキスト属性
である。カテゴリーとそれらのチルドレンのリストは、
手作業で検査され、孤立して十分に定義されなかったチ
ャイルドは除去された。チルドレンの半分以上がこの方
法で除去された。データを参照するより前に、「不十分
に定義された」語あるいは句が何故除去されるかの正確
な知識なしに、除去は行われた。

【００４６】データの分析は、「コンピュータ」（comp
uters）のペアレントがコンピュータ（computer）に
より置換されるべきであることを示唆した。普通の意味
で使用される場合に語スポーツ（sports）が多くの場
合には複数形であるのと異なり、コンピュータ（comput
ers）は多くの場合に単数形である。ステミング（stemm
ing）あるいはストップ語除去は行われなかったので、
コンピュータ（computers）とコンピュータ（compute
r）は異なるフィーチャーである。図４は、ペアレント
がコンピュータ（computers）からコンピュータ（comp
uter）に変わり、不十分に定義されたチルドレンが除去
されたこと以外は、図３と同じデータを示す。すなわ
ち、ペアレントの知識なしでは定義されないいくつかの
サブカテゴリー、たとえば「ニュース」あるいは「リソ
ース」が除去された。この変更は、ペアレント、セルフ
およびチャイルド領域の間により明確な隔離をもたら
す。除去された不十分に定義されたチルドレンは、一般
にフィーチャーの第４のクラスを形成する。図１におい
て、フィーチャーのこの第４のクラスは、ペアレント・
クラスタの左でチャイルド・クラスタの上に通常位置す
る。

【００４７】ドキュメントは、多くの場合それらの「カ
テゴリー」を記述する語を含んでいない。たとえば「マ
ルチメディア」のカテゴリーにおいて、フィーチャー
「マルチメディア」は、正のドキュメントのわずか１３
％のみに出現した。これは、ページの作者による用語の
選択の組み合わせと、多くの場合にメイン・ウェブ・ペ
ージがテキスト・コンテントを有せず「エンターするた
めには、ここをクリックしてください」画像のみにより
表されるためである。

【００４８】モデルは、「ドキュメント」が実際に記述
であると想定する。ページ自身に存在する語を使用する
のではなく、図５に示すように、「拡張アンカー・テキ
スト」と呼ばれるであろうものを使用して、実験は繰り
返された。参考文献として本明細書に包含される前掲の
Glover他による文献（非特許文献７）に、拡張アンカ
ー・テキストの記述と、拡張アンカー・テキストがドキ
ュメントのフルテキストよりも「概要」を使用してより
良く一致するフィーチャーを作り出す方法が説明されて
いる。拡張アンカー・テキストを使用して見出されたフ
ィーチャーは、より合理的な名称を作ると見られるクラ
スタを生成する。

【００４９】拡張アンカー・テキストとは、目標ページ
へのリンクの近くに出現する語、すなわち、インバウン
ド・リンクにごく近接している語を示す。図５は、拡張
アンカー・テキストの例を概略的に示す。フルテキスト
を使用する代わりに、最高１５の拡張アンカー・テキス
トで構成される仮想ドキュメントが使用された。ヤフー
社の提供するポータルサイトあるいはオープン・ディレ
クトリからのインバウンドリンクは除外された。インバ
ウンド・アンカー・テキストを含めて前後に最高２５の
語を考慮することにより創り出された仮想ドキュメント
を使用する場合（フルテキストの使用と比較して）、ド
キュメントＳ_iのポジティブ・セット内のセルフ・フィ
ーチャーの使用に著しい増加がある。マルチメディアの
カテゴリーにおいて、フィーチャー「マルチメディア」
は、フルテキストの１３％とは対照的に、正の仮想ドキ
ュメントの４２％に出現した。集合Ｃ（全体のコレクシ
ョン）内のドキュメントの中のフィーチャー「マルチメ
ディア」の出現は、フルテキストおよび仮想ドキュメン
トの両方に対して、約２％と殆ど同一であった。

【００５０】図５において、拡張アンカー・テキスト
は、第１のドキュメント、すなわち、たとえば「ＡＢ
ＣＤＥ」ページ５０から、あるいは、第２のドキュメン
ト、すなわち、たとえば「ＦＧＨＩＪ」ページ５０から
決定される。他のドキュメント５２、５２’からページ
５０へのインバウンド・リンク５１、５１’は、当業者
に公知の多数の方法によって見出される。アンカー・テ
キスト５３、５３’は、ソース・ページ５０および５
０’を示す他のページからのハイパーリンクである。一
般的には、大部分の従来のドキュメントにおけるアンカ
ー・テキストは、青いフォントで強調され、ドキュメン
ト内で下線を引かれている。ページ５０を示しているペ
ージに対する拡張アンカー・テキストは、ハイパーリン
クおよびハイパーリンクの前後のいくつかの語を含む拡
張アンカー・テキスト５４、５４’である。ドキュメン
ト５２の場合、拡張アンカー・テキスト５４は、『私の
好きな検索エンジンは「ＡＢＣＤＥ」である』である。
ドキュメント５２’では、ドキュメント５０に対する拡
張アンカー・テキスト５４’は、『検索エンジン「ＡＢ
ＣＤＥ」は、「ＦＧＨＩＪ」によって駆動されている』
である。

【００５１】前者の場合には、拡張アンカー・テキスト
は、図５中に示されるように英語で表現した場合、テキ
ストの最後の語「ＡＢＣＤＥ」で終わっている。後者の
場合には、語「ＡＢＣＤＥ」は、拡張アンカー・テキス
トの中に出現する。

【００５２】インバウンド・リンクを取り囲んでいるテ
キストを含めることは、そのページがリンクされている
前後関係と意味を提供する。

【００５３】すべてが「正」として識別される（すなわ
ち、１つのトピックについて単一のクラスタ）１組のペ
ージから始まり、次いで１度に１つずつ、ポジティブ・
セットの各ページが検査され、ポジティブ・セットのそ
のページにリンクするページが識別される。上の例で
は、「ＡＢＣＤＥ」は正のページであり、「ＡＢＣＤ
Ｅ」へのリンクに「近い」語を調査することにより、
「ＡＢＣＤＥ」にリンクする第１のページが、ページ
「ＡＢＣＤＥ」のトピックが関連するものの若干の表示
を提供する。リンクは、必然的に「ＡＢＣＤＥ」のよう
な検索エンジンからではなく、任意のページからであっ
てよい。同じ手順が、コレクション・セットの各ページ
に対して繰り返される。

【００５４】同じソース・ドキュメントに対して見出さ
れた拡張アンカー・テキストのすべては、仮想ドキュメ
ント（図示せず）を形成するために一個所に配置され
る。

【００５５】表２は、フルテキスト（Ｆ列）実験に対し
て、ならびに拡張アンカー・テキスト（Ｖ列）実験に対
して、（第１の実験に使用された５００からランダムに
選ばれた）各カテゴリーに使用された仮想ドキュメント
の数を列挙している。合計７４３の仮想ドキュメント
が、ドキュメント集合ｃとして使用された。仮想ドキュ
メントの生成は非常に費用がかかり、考慮されるページ
の総数の削減を余儀なくされる。仮想ドキュメントから
の改良された要約能力は、より少数のドキュメントを使
用して、処理が作動することを可能にするべきである。

【００５６】

【表２】

【００５７】

【表３】

【００５８】

【表４】図６は、拡張アンカー・テキストに対して、すべてのペ
アレント、チルドレンおよびセルフ・フィーチャーに対
する結果を示す。ポジティブ・セットＳ_i内のドキュメ
ントのパーセンテージは、セルフがチルドレンからより
明らか分かれるにつれて、一般に右にシフトしている。
図７は、不十分に定義されたチルドレンを除去し、"com
puters" を "computer"で置換した後の結果を示す。極
めて少数のデータ点のみが、各クラスの周囲に定められ
た単純な長方形の領域の外に脱落している。

【００５９】大部分のペアレント、チルドレンおよびセ
ルフは示された領域に含まれるが、フィーチャーのステ
ミングを行うことにより、結果を改善することが可能で
ある。たとえば、フィーチャーによっては単数形と複数
形の両方で出現することがあり、１方の形は偽のチャイ
ルドとして出現する。さらに、句はそれらの個別の語よ
りも出現頻度が低い恐れがあり、「人工知能」のような
場合に、セルフを誤ってチルドレンとして出現させる。
この場合、句の出現頻度が比較的低いために、句「人工
知能」はチャイルドとして出現する。

【００６０】図７は、４１のカテゴリーに対するオープ
ン・ディレクトリからのグラウンド・トルース・フィー
チャーのグラフが、一般に図１の予測されたモデルに従
うことを示すが、このモデルは各カテゴリーに出現する
すべてのフィーチャーをグラフに表さず、オープン・デ
ィレクトリにより割当られたフィーチャーのみがグラフ
に表されている。すべてのフィーチャーを可能性のある
ペアレント、チルドレンおよびセルフとして順位付け、
その出力をオープン・ディレクトリからのグラウンド・
トルース・データと比較するアルゴリズムを使用するこ
とにより、モデルの妥当性は強化される。

【００６１】問い合わせの結果、クラスタリング・オペ
レーションから結果として生ずるドキュメント、ブック
マークを付されたドキュメントのリスト、あるいは、手
作業で選択されたドキュメントであってもよい１群のド
キュメント、を使用する。ドキュメントがウェブ・ペー
ジあるいは他のハイパーリンクされたドキュメント・コ
レクションを有するならば、上述のように各ページに対
して仮想ドキュメントが創出されることが望ましい。ハ
イパーリンクされていないドキュメントがあれば、ドキ
ュメントのフルテキスト・バージョンを使用することが
できる。次に、以下のアルゴリズムが適用される。順位
は、結果について実行される。多くの順位付けが可能で
あるが、望ましい順位付けは、フィーチャーを含むドキ
ュメントの最も高いパーセンテージにもとづいた順位に
依存する。表３は、各カテゴリー内の上位２番にランク
されたセルフ・フィーチャーを示し、ここで、順位はフ
ィーチャーを含むポジティブ・セット内のドキュメント
のパーセンテージにもとづいている。

【００６２】ペアレント・チルドレンおよびセルフ予測
アルゴリズム１組の所望のフィーチャーからの各フィーチャーｆに対
して、１．フィーチャーｆに次のようにラベルを割り当てる。 if (f.C > maxParentC)[Label = 'N' ] elseif (f.C>maxSelfC)[Label='P' ] elseif (f.Si>minSelfSi)[Label='S' ] elseif ((f.Si<maxChildSi) and (f.C<maxChildC))[Lab
el='C') else [Label='N') ２．各ラベル（Ｐ、Ｓ、Ｃ）に対して、そのラベルを使
用して f.S_i により各フィーチャーｆを分類する。

【００６３】図７からのデータを使用して、次のカット
オフを指定する。 maxParentC = 0.08 maxSelfC = 0.06 minSelfSi= 0.4 maxChildSi = 0.4 maxChildC = 0.02 Ｓ_iは階層的記述が推測されるべきドキュメントの集合
であり、Ｃはドキュメントのコレクション・セットであ
り、ｆ．Ｃはフィーチャーｆを含むドキュメントＣのコ
レクション・セット内のドキュメントの割合であり、
ｆ．Ｓｉはフィーチャーｆを含むポジティブ・ドキュメ
ントＳｉの集合内のドキュメントの割合である。

【００６４】上記の望ましいアルゴリズムは、セルフ、
ペアレントおよびチャイルド領域が長方形であり、図１
に示すように接続されている場合に、最も有用である。
領域が、切断されている、および／または部分的に重な
り合っている、および／または非長方形であることが望
ましければ、アルゴリズムは当業者により適宜修正する
ことができる。

【００６５】表３は、ペアレント・チルドレンおよびセ
ルフ予測アルゴリズムを使用して、試験された４１のカ
テゴリーのそれぞれに対する上位のペアレント・フィー
チャー、上位のセルフ・フィーチャーおよび上位のチル
ドレン・フィーチャーを示す。空白のエントリは、その
カテゴリーに対して指定された領域に、語あるいはフィ
ーチャーがないことを意味する。結果は、すべての４１
のカテゴリーにおいて（"computers" を "computer"で
置換）、オープン・ディレクトリが割当したペアレント
が上位５に順位付けられたことを示している。カテゴリ
ーの約８０％において、上位にランクされたセルフは、
オープン・ディレクトリが割当したセルフと同一である
か、あるいは、実際上同一（同義語、あるいは同一の語
幹）である。リストされない多くの合理的なチルドレン
が存在するので、チルドレンを評価することはより困難
である。

【００６６】

【表５】

【００６７】

【表６】

【００６８】

【表７】

【００６９】

【表８】

【００７０】

【表９】

【００７１】

【表１０】

【００７２】

【表１１】

【００７３】

【表１２】アルゴリズムの改良は可能である。第１に、「インター
ネット」のような、いくつかのカテゴリーにおいて、カ
ットオフ点は変化する。アルゴリズムは、所与のカテゴ
リーに対するデータに動的に順応しない。さらに、アル
ゴリズムは境界点を知ることを必要とする。第２に、時
には句は単一の語より正の出現頻度が低い。たとえば、
句「Artificial Intelligence(人工知能)」は、セルフ
の代わりに誤ってチャイルドとして出現する。第３に、
ステミングあるいはインテリジェントなフィーチャー除
去がない。たとえば、「university of(大学)」のよう
なフィーチャーは、ストップ語で終了するので、無視さ
れるべきである。同様に、"consult" とは対照的に "co
nsulting" 、あるいは "computer" とは対照的に "comp
uters" は、すべて語幹の失敗が誤りを起こす例であ
る。別の改良は、効率的でないフィーチャーを自動的に
除去する閾値を適用することである。上述のように、非
長方形の領域が所望であれば、あるいは領域が部分的に
重なり合っていれば、あるいは領域が接続されていなけ
れば、アルゴリズムを変えることが可能である。

【００７４】説明した発明は、英文に限定されるもので
はない。日本語を含む、ほとんどの言語が使用できる。
次のリストは、日本の大学のカテゴリーから日本語のウ
ェブ・ページからのフルテキストを使用して、ペアレン
ト・チルドレンおよびセルフ予測アルゴリズムを適用し
た結果を示す。抽出されたフィーチャーは、日本語の単
語であり、英語の翻訳ではない。

【００７５】次のデータは、４３２の「ランダムな」ウ
ェブ・ページ（日本語の）および、３６７の日本の大学
のページ（同じく日本語の）を使用して収集された。

【００７６】上位にランクされたペアレント：年度−ye
ar、学校−school、学−study 上位にランクされたセルフ：大学−university、入試
−admission examination 上位にランクされたチルドレン：学生−student、学科
−subject、入学−entrance、科−course、図書館−lib
rary、キャンパス−campus、学部−department、学内−
inside the university、施設−facility、大学院−gra
duate schoolペアレント・チルドレンおよびセルフ予測
アルゴリズムを適用するために使用されたカットオフ値
は近似的に次の通りであった。 maxParentC : = 0.05; maxSelfC = 0.04; minSelfSi = maxChildSi = 0.35; maxChildC = 0.03. さらに本発明はテキスト・ドキュメントのみに限定され
るものではない。本発明は、識別することが可能なフィ
ーチャーが存在するマルチメディア・データ、オーディ
オデータ、画像データ、ビデオデータおよび同等物を含
むが、それらのみに限定されない非テキスト・データに
適用することができる。ＵＲＬ、リンク、あるいは、引
用、参照、クローズド・キャプショニングまたは同等物
のようなテキストの他のソースが非テキスト・データに
利用できれば、拡張アンカー・テキスト方法が使用でき
る。ＵＲＬあるいはリンクが利用できなければ、非テキ
スト・データを記述するための一般的なフィーチャーが
使用できる。ソースがターゲットたとえば引用参照につ
いての情報を有するドキュメントの間のインターリンキ
ング・システムは、ＵＲＬの代わりに使用できる。

【００７７】これらの方法を使用することにより、サー
チャーはドキュメントのクラスタに容易に名称をつけ、
関連づけることができる。前の問い合わせよりも、より
一般的で、より具体的な別の問い合わせを自動的に推薦
されることにより、サーチャーは利益を得ることが可能
である。問い合わせに対する１組の結果は、予測される
階層にもとづいて拡大することができる。たとえば、利
用者は単語「生物学」を検索し、単語「科学」は単語
「生物学」より一般的であり、単語「植物学」は単語
「生物学」より特有であるとの推薦を受ける。同様に、
たとえば、複数のホームページに関連するいくつかのペ
ージを選択する利用者は、これらのページは「インター
ネット・サービス・プロバイダー」と命名されるべきで
あることを理解することができる。

【００７８】要約すれば、比較的小さいドキュメントの
クラスタに対するペアレント、チャイルドおよびセルフ
・フィーチャーの予測に対して、統計モデルを創る方法
を説明し、例示した。セルフ・フィーチャーはクラスタ
の推薦された名称として有用であり、ペアレントおよび
チルドレン・フィーチャーはより大きいコレクションの
スペースにクラスタを「配置する」ために使用すること
ができる。ペアレント・フィーチャーはより一般的な概
念を示唆し、一方チルドレン・フィーチャーはセルフ・
フィーチャーの専門分野を説明する概念を示唆する。グ
ラウンド・トルース・データのグラフ化の実験的なテス
トは、実際のペアレント、チャイルドおよびセルフ・フ
ィーチャーが一般にモデルに従うことを確認した。フィ
ーチャー・ヒストグラムからペアレント、チャイルドお
よびセルフ・フィーチャーを予測することができるアル
ゴリズムを開示した。予測されたフィーチャーは、多く
の場合にグラウンド・トルースと一致し、関連するカテ
ゴリーの間の新しい相互接続を示唆した。

【００７９】階層的情報の事前の知識なしに１組のドキ
ュメントから階層的記述を推測する望ましい方法を説明
し例示したが、本明細書に付された特許請求の範囲によ
りのみ制限されるべきである本発明の技術思想と広い範
囲を逸脱せずに、修正および変形がさらに可能であるこ
とは、当業者に明白であろう。

【００８０】以上、本発明の実施例について詳述した
が、以下に本発明の実施態様を示す。

【００８１】［実施態様１］ドキュメントのポジティ
ブ・セットからフィーチャーの第１のヒストグラムを供
給するステップと、ドキュメントのコレクション・セッ
トからフィーチャーの第２のヒストグラムを供給するス
テップと、前記フィーチャーを含む前記ポジティブ・セ
ット内の前記ドキュメントの割合と、前記フィーチャー
を含む前記コレクション・セット内の前記ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
る１組のドキュメントの階層的記述を推測する方法。

【００８２】［実施態様２］ヒストグラム閾値を設定
し、前記第１のヒストグラムおよび前記第２のヒストグ
ラムの両方の中の前記閾値以下のフィーチャーを除去す
るステップをさらに有する実施態様１記載の１組のドキ
ュメントの階層的記述を推測する方法。

【００８３】［実施態様３］ドキュメントの前記ポジ
ティブ・セット内の出現の順序により前記フィーチャー
を順位付けることをさらに有する実施態様１記載の１組
のドキュメントの階層的記述を推測する方法。

【００８４】［実施態様４］ドキュメントは画像デー
タを有する実施態様１記載の１組のドキュメントの階層
的記述を推測する方法。

【００８５】［実施態様５］ドキュメントはテキスト
データを有する実施態様１記載の１組のドキュメントの
階層的記述を推測する方法。

【００８６】［実施態様６］前記テキストデータは英
語以外の言語である実施態様５記載の１組のドキュメン
トの階層的記述を推測する方法。

【００８７】［実施態様７］ドキュメントはオーディ
オデータを有する実施態様１記載の１組のドキュメント
の階層的記述を推測する方法。

【００８８】［実施態様８］ドキュメントはマルチメ
ディア・データを有する実施態様１記載の１組のドキュ
メントの階層的記述を推測する方法。

【００８９】［実施態様９］前記決定するステップ
は、ペアレント、チルドレンおよびセルフ予測アルゴリ
ズムを使用して実行される実施態様１記載の１組のドキ
ュメントの階層的記述を推測する方法。

【００９０】［実施態様１０］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様９記載の１組のド
キュメントの階層的記述を推測する方法。

【００９１】［実施態様１１］ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様９記載の１
組のドキュメントの階層的記述を推測する方法。

【００９２】［実施態様１２］ドキュメントは画像デ
ータを有する実施態様９記載の１組のドキュメントの階
層的記述を推測する方法。

【００９３】［実施態様１３］ドキュメントはテキス
トデータを有する実施態様９記載の１組のドキュメント
の階層的記述を推測する方法。

【００９４】［実施態様１４］前記テキストデータは
英語以外の言語である実施態様１３記載の１組のドキュ
メントの階層的記述を推測する方法。

【００９５】［実施態様１５］ドキュメントはオーデ
ィオデータを有する実施態様９記載の１組のドキュメン
トの階層的記述を推測する方法。

【００９６】［実施態様１６］ドキュメントはマルチ
メディア・データを有する実施態様９記載の１組のドキ
ュメントの階層的記述を推測する方法。

【００９７】［実施態様１７］ドキュメントのポジテ
ィブ・セットを有するＵＲＬの第１の集合を得るステッ
プと、ドキュメントのコレクション・セットを有するＵ
ＲＬの第２の集合を得るステップと、ＵＲＬの前記第１
の集合内の各ＵＲＬと、ＵＲＬの前記第２の集合内の各
ＵＲＬに対するインバウンド・リンクを決定するステッ
プと、ドキュメントの前記ポジティブ・セット内の各Ｕ
ＲＬに対する仮想ドキュメントと、ドキュメントの前記
コレクション・セット内の各ＵＲＬに対する仮想ドキュ
メントを創るステップと、ＵＲＬの前記第１の集合と組
み合わされた前記仮想ドキュメントからフィーチャーの
第１のヒストグラムを供給するステップと、ＵＲＬの前
記第２の集合と組み合わされた前記仮想ドキュメントか
らフィーチャーの第２のヒストグラムを供給するステッ
プと、前記フィーチャーを含むドキュメントの前記ポジ
ティブ・セットと組み合わされた前記仮想ドキュメント
の割合と、前記フィーチャーを含むドキュメントの前記
コレクション・セットと組み合わされた前記仮想ドキュ
メントの割合にもとづいて、各フィーチャーがセルフ・
フィーチャー、ペアレント・フィーチャーあるいはチャ
イルド・フィーチャーであるか否かを決定するステップ
を有するウェブ・ページを有する１組のドキュメントの
階層的記述を推測する方法。

【００９８】［実施態様１８］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様１７記載の１組の
ドキュメントの階層的記述を推測する方法。

【００９９】［実施態様１９］ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様１７記載の
１組のドキュメントの階層的記述を推測する方法。

【０１００】［実施態様２０］ＵＲＬは画像データを
含むページを示す実施態様１７記載の１組のドキュメン
トの階層的記述を推測する方法。

【０１０１】［実施態様２１］ＵＲＬはテキストデー
タを含むページを示す実施態様１７記載の１組のドキュ
メントの階層的記述を推測する方法。

【０１０２】［実施態様２２］前記テキストデータは
英語以外の言語である実施態様２１記載の１組のドキュ
メントの階層的記述を推測する方法。

【０１０３】［実施態様２３］ＵＲＬはオーディオデ
ータを含むページを示す実施態様１７記載の１組のドキ
ュメントの階層的記述を推測する方法。

【０１０４】［実施態様２４］ＵＲＬはマルチメディ
ア・データを含むページを示す実施態様１７記載の１組
のドキュメントの階層的記述を推測する方法。

【０１０５】［実施態様２５］各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様１７記載の
ウェブ・ページを有する１組のドキュメントの階層的記
述を推測する方法。

【０１０６】［実施態様２６］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様２５記載の１組の
ドキュメントの階層的記述を推測する方法。

【０１０７】［実施態様２７］ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様２５記載の
１組のドキュメントの階層的記述を推測する方法。

【０１０８】［実施態様２８］ＵＲＬは画像データを
含むページを示す実施態様２５記載の１組のドキュメン
トの階層的記述を推測する方法。

【０１０９】［実施態様２９］ＵＲＬはテキストデー
タを含むページを示す実施態様２５記載の１組のドキュ
メントの階層的記述を推測する方法。

【０１１０】［実施態様３０］前記テキストデータは
英語以外の言語である実施態様２９記載の１組のドキュ
メントの階層的記述を推測する方法。

【０１１１】［実施態様３１］ＵＲＬはオーディオデ
ータを含むページを示す実施態様２５記載の１組のドキ
ュメントの階層的記述を推測する方法。

【０１１２】［実施態様３２］ＵＲＬはマルチメディ
ア・データを含むページを示す実施態様２５記載の１組
のドキュメントの階層的記述を推測する方法。

【０１１３】［実施態様３３］情報検索システムに検
索問い合わせを提出するステップと、前記検索問い合わ
せに応答する前記情報検索システムからのドキュメント
の第１の集合を検索するステップと、ドキュメントの第
２の集合を供給するステップと、前記第１の集合のドキ
ュメント内の各検索されたドキュメントに対して、なら
びにドキュメントの前記第２の集合内の各ドキュメント
に対して、インバウンド・リンクを決定するステップ
と、ドキュメントの前記第１の集合内の各ドキュメント
に対して、ならびにドキュメントの前記第２の集合内の
各ドキュメントに対して、仮想ドキュメントを創出する
ステップと、ドキュメントの前記第１の集合と組み合わ
された前記仮想ドキュメント内にフィーチャーの第１の
ヒストグラムを創出するステップと、ドキュメントの前
記第２の集合と組み合わされた前記仮想ドキュメント内
にフィーチャーの第２のヒストグラムを創出するステッ
プと、前記フィーチャーを含むドキュメントの前記ポジ
ティブ・セットと組み合わされた前記仮想ドキュメント
の割合と、前記フィーチャーを含むドキュメントの前記
コレクション・セットと組み合わされた前記仮想ドキュ
メントの割合にもとづいて、各フィーチャーがセルフ・
フィーチャー、ペアレント・フィーチャーあるいはチャ
イルド・フィーチャーであるか否かを決定するステップ
と、フィーチャーの分類に応答する前記検索問い合わせ
を変えるステップを有する１組のドキュメントの推測に
もとづく階層的記述を使用する情報検索システムの検索
方法。

【０１１４】［実施態様３４］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様３３記載の１組の
ドキュメントの推測にもとづく階層的記述を使用する情
報検索システムの検索方法。

【０１１５】［実施態様３５］ドキュメントの前記第
１の集合内の出現の順序により前記フィーチャーを順位
付けることをさらに有する実施態様３３記載の１組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。

【０１１６】［実施態様３６］検索範囲を広げるため
に、検索の問い合わせがペアレント・フィーチャーに変
えられた実施態様３３記載の１組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。

【０１１７】［実施態様３７］検索範囲を狭めるため
に、検索の問い合わせがチャイルド・フィーチャーに変
えられた実施態様３３記載の１組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。

【０１１８】［実施態様３８］ドキュメントは画像デ
ータを有する実施態様３３記載の１組のドキュメントの
推測にもとづく階層的記述を使用する情報検索システム
の検索方法。

【０１１９】［実施態様３９］ドキュメントはテキス
トデータを有する実施態様３３記載の１組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。

【０１２０】［実施態様４０］前記テキストデータは
英語以外の言語である実施態様３９記載の１組のドキュ
メントの推測にもとづく階層的記述を使用する情報検索
システムの検索方法。

【０１２１】［実施態様４１］ドキュメントはオーデ
ィオデータを有する実施態様３３記載の１組のドキュメ
ントの推測にもとづく階層的記述を使用する情報検索シ
ステムの検索方法。

【０１２２】［実施態様４２］ドキュメントはマルチ
メディア・データを有する実施態様３３記載の１組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。

【０１２３】［実施態様４３］各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様３３記載の
１組のドキュメントの推測にもとづく階層的記述を使用
する情報検索システムの検索方法。

【０１２４】［実施態様４４］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様４３記載の１組の
ドキュメントの推測にもとづく階層的記述を使用する情
報検索システムの検索方法。

【０１２５】［実施態様４５］ドキュメントの前記第
１の集合内の出現の順序により前記フィーチャーを順位
付けることをさらに有する実施態様４３記載の１組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。

【０１２６】［実施態様４６］検索範囲を広げるため
に、検索の問い合わせをペアレント・フィーチャーに変
えた実施態様４３記載の１組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。

【０１２７】［実施態様４７］検索範囲を狭めるため
に、検索の問い合わせをチャイルド・フィーチャーに変
えた実施態様４３記載の１組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。

【０１２８】［実施態様４８］ドキュメントは画像デ
ータを有する実施態様４３記載の１組のドキュメントの
推測にもとづく階層的記述を使用する情報検索システム
の検索方法。

【０１２９】［実施態様４９］ドキュメントはテキス
トデータを有する実施態様４３記載の１組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。

【０１３０】［実施態様５０］前記テキストデータは
英語以外の言語である実施態様４９記載の１組のドキュ
メントの推測にもとづく階層的記述を使用する情報検索
システムの検索方法。

【０１３１】［実施態様５１］ドキュメントはオーデ
ィオデータを有する実施態様４３記載の１組のドキュメ
ントの推測にもとづく階層的記述を使用する情報検索シ
ステムの検索方法。

【０１３２】［実施態様５２］ドキュメントはマルチ
メディア・データを有する実施態様４３記載の１組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。

【０１３３】［実施態様５３］（ａ）ドキュメントの
集合の階層を設けるステップと、（ｂ）ドキュメントの
コレクション・セットを設けるステップと、（ｃ）前記
階層内の１組のドキュメント内の各ドキュメントに対し
て、ならびにドキュメントの前記コレクション・セット
内の各ドキュメントに対して、インバウンド・リンクを
決定するステップと、（ｄ）前記階層内のドキュメント
の前記集合内の各ドキュメントに対して、ならびにドキ
ュメントの前記コレクション・セット内の各ドキュメン
トに対して、仮想ドキュメントを創出するステップと、
（ｅ）前記階層内のドキュメントの前記集合と組み合わ
された前記仮想ドキュメントからフィーチャーの第１の
ヒストグラムを創出するステップと、（ｆ）ドキュメン
トの前記コレクション・セットと組み合わされた前記仮
想ドキュメントからフィーチャーの第２のヒストグラム
を創出するステップと、（ｇ）前記フィーチャーを含む
前記階層内のドキュメントの前記集合と組み合わされた
前記仮想ドキュメントの割合と、前記フィーチャーを含
むドキュメントの前記コレクション・セットと組み合わ
された仮想ドキュメントの割合にもとづいて、各フィー
チャーがセルフ・フィーチャー、ペアレント・フィーチ
ャーあるいはチャイルド・フィーチャーであるか否かを
決定するステップと、（ｈ）ドキュメントの集合の前記
階層内のドキュメントの各集合に対してステップ（ｃ）
からステップ（ｇ）を繰り返すステップと、（ｉ）各フ
ィーチャーを決定することに応答するドキュメントの集
合の前記階層に符号を付けるステップを有するドキュメ
ントの集合の推測にもとづく記述を使用してドキュメン
ト・ディレクトリに符号を付ける方法。

【０１３４】［実施態様５４］各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様５３記載の
ドキュメントの集合の推測にもとづく記述を使用してド
キュメント・ディレクトリに符号を付ける方法。

【０１３５】［実施態様５５］（ａ）ドキュメントの
集合の階層を設けるステップと、（ｂ）ドキュメントの
コレクション・セットを設けるステップと、（ｃ）前記
階層内のドキュメントの各集合からフィーチャーの第１
のヒストグラムを創出するステップと、（ｄ）ドキュメ
ントの前記コレクション・セットからフィーチャーの第
２のヒストグラムを創出するステップと、（ｅ）前記フ
ィーチャーを含む前記階層内のドキュメントの前記集合
と組み合わされたドキュメントの割合と、前記フィーチ
ャーを含むドキュメントの前記コレクション・セットと
組み合わされたドキュメントの割合にもとづいて、各フ
ィーチャーがセルフ・フィーチャー、ペアレント・フィ
ーチャーあるいはチャイルド・フィーチャーであるか否
かを決定するステップと、（ｆ）ドキュメントの集合の
前記階層内のドキュメントの各集合に対してステップ
（ｃ）からステップ（ｅ）を繰り返すステップと、
（ｇ）各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。

【０１３６】［実施態様５６］各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様５５記載の
ドキュメントの集合の推測にもとづく記述を使用してド
キュメント・ディレクトリに符号を付ける方法。

【０１３７】［実施態様５７］ドキュメントのポジテ
ィブ・セットを有するドキュメントの第１の集合を得る
ステップと、ドキュメントのコレクション・セットを有
するドキュメントの第２の集合を得るステップと、ドキ
ュメントの前記第１の集合内の各ドキュメントに対し
て、ならびにドキュメントの前記第２の集合内の各ドキ
ュメントに対して、インバウンド・リンクを決定するス
テップと、ドキュメントの前記ポジティブ・セット内の
各ドキュメントに対する仮想ドキュメント、およびドキ
ュメントの前記コレクション・セット内の各ドキュメン
トに対する仮想ドキュメントを創出するステップと、ド
キュメントの前記第１の集合と組み合わされた前記仮想
ドキュメントからフィーチャーの第１のヒストグラムを
供給するステップと、ドキュメントの前記第２の集合と
組み合わされた前記仮想ドキュメントからフィーチャー
の第２のヒストグラムを供給するステップと、前記フィ
ーチャーを含むドキュメントの前記ポジティブ・セット
と組み合わされた前記仮想ドキュメントの割合と、前記
フィーチャーを含むドキュメントの前記コレクション・
セットと組み合わされた前記仮想ドキュメントの割合に
もとづいて、各フィーチャーがセルフ・フィーチャー、
ペアレント・フィーチャーあるいはチャイルド・フィー
チャーであるか否かを決定するステップを有する１組の
ドキュメントの階層的記述を推測する方法。

【０１３８】［実施態様５８］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様５７記載の１組の
ドキュメントの階層的記述を推測する方法。

【０１３９】［実施態様５９］ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様５７記載の
１組のドキュメントの階層的記述を推測する方法。

【０１４０】［実施態様６０］ドキュメントは画像デ
ータを含む実施態様５７記載の１組のドキュメントの階
層的記述を推測する方法。

【０１４１】［実施態様６１］ドキュメントはテキス
トデータを含む実施態様５７記載の１組のドキュメント
の階層的記述を推測する方法。

【０１４２】［実施態様６２］前記テキストデータは
英語以外の言語である実施態様６１記載の１組のドキュ
メントの階層的記述を推測する方法。

【０１４３】［実施態様６３］ドキュメントはオーデ
ィオデータを含む実施態様５７記載の１組のドキュメン
トの階層的記述を推測する方法。

【０１４４】［実施態様６４］ドキュメントはマルチ
メディア・データを含む実施態様５７記載の１組のドキ
ュメントの階層的記述を推測する方法。

【０１４５】［実施態様６５］各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様５７記載の
１組のドキュメントの階層的記述を推測する方法。

【０１４６】［実施態様６６］ヒストグラム閾値を設
定し、前記第１のヒストグラムおよび前記第２のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様６５記載の１組の
ドキュメントの階層的記述を推測する方法。

【０１４７】［実施態様６７］ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様６５記載の
１組のドキュメントの階層的記述を推測する方法。

【０１４８】［実施態様６８］ドキュメントは画像デ
ータを含む実施態様６５記載の１組のドキュメントの階
層的記述を推測する方法。

【０１４９】［実施態様６９］ドキュメントはテキス
トデータを含む実施態様６５記載の１組のドキュメント
の階層的記述を推測する方法。

【０１５０】［実施態様７０］前記テキストデータは
英語以外の言語である実施態様６９記載の１組のドキュ
メントの階層的記述を推測する方法。

【０１５１】［実施態様７１］ドキュメントはオーデ
ィオデータを含む実施態様６５記載の１組のドキュメン
トの階層的記述を推測する方法。

【０１５２】［実施態様７２］ドキュメントはマルチ
メディア・データを含む実施態様６５記載の１組のドキ
ュメントの階層的記述を推測する方法。

【図面の簡単な説明】

【図１】ペアレント・フィーチャー、チャイルド・フィ
ーチャーおよびセルフ・フィーチャーの間の予測される
関係を示すグラフ図である。

【図２】生物学のセルフ・フィーチャー、科学のペアレ
ント・フィーチャーおよび植物学のチャイルド・フィー
チャーに対するフィーチャーの分布の見本である。

【図３】オープン・ディレクトリからのグラウンド・ト
ルース・フィーチャーの分布のグラフである。

【図４】ペアレントが「computers」から「computer」
に変わり、ペアレントの知識無しに定義されなかったサ
ブカテゴリーのいくつか、すなわち、「ニュース」ある
いは「リソース」が除去されたこと以外は、図３に類似
のグラフである。

【図５】拡張アンカーテキストの概念図である。

【図６】フルテキストの代わりに拡張アンカーテキスト
仮想ドキュメントを使用した、オープン・ディレクトリ
からのグラウンド・トルース・フィーチャーのグラフで
ある。

【図７】ペアレントが「computers」から「computer」
に変わり、不十分に定義されたチルドレンが除去され、
フルテキストの代わりに拡張アンカーテキスト仮想ドキ
ュメントを使用した、オープン・ディレクトリからのグ
ラウンド・トルース・フィーチャーのグラフである。

【符号の説明】１０ペアレント・フィーチャー１２チャイルド・フィーチャー１４セルフ・フィーチャー

───────────────────────────────────────────────────── フロントページの続き (72)発明者ステファンロバートローレンスアメリカ合衆国、ニュージャージー 08540 プリンストン、４インディペンデンスウェイエヌイーシーリサーチインスティテューテュインク内 (72)発明者ディビッドぺノックアメリカ合衆国、ニュージャージー 08540 プリンストン、４インディペンデンスウェイエヌイーシーリサーチインスティテューテュインク内Ｆターム(参考） 5B075 KK02 ND16 NR05 NR12 NS10 PR06 QM05 QS01

Claims

【特許請求の範囲】

【請求項１】ドキュメントのポジティブ・セットから
フィーチャーの第１のヒストグラムを供給するステップ
と、ドキュメントのコレクション・セットからフィーチャー
の第２のヒストグラムを供給するステップと、前記フィーチャーを含む前記ポジティブ・セット内の前
記ドキュメントの割合と、前記フィーチャーを含む前記
コレクション・セット内の前記ドキュメントの割合にも
とづいて、各フィーチャーがセルフ・フィーチャー、ペ
アレント・フィーチャーあるいはチャイルド・フィーチ
ャーであるか否かを決定するステップを有する１組のド
キュメントの階層的記述を推測する方法。
【請求項２】ヒストグラム閾値を設定し、前記第１の
ヒストグラムおよび前記第２のヒストグラムの両方の中
の前記閾値以下のフィーチャーを除去するステップをさ
らに有する請求項１記載の１組のドキュメントの階層的
記述を推測する方法。
【請求項３】ドキュメントの前記ポジティブ・セット
内の出現の順序により前記フィーチャーを順位付けるこ
とをさらに有する請求項１記載の１組のドキュメントの
階層的記述を推測する方法。
【請求項４】ドキュメントは画像データを有する請求
項１記載の１組のドキュメントの階層的記述を推測する
方法。
【請求項５】ドキュメントはテキストデータを有する
請求項１記載の１組のドキュメントの階層的記述を推測
する方法。
【請求項６】前記テキストデータは英語以外の言語で
ある請求項５記載の１組のドキュメントの階層的記述を
推測する方法。
【請求項７】ドキュメントはオーディオデータを有す
る請求項１記載の１組のドキュメントの階層的記述を推
測する方法。
【請求項８】ドキュメントはマルチメディア・データ
を有する請求項１記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項９】前記決定するステップは、ペアレント、
チルドレンおよびセルフ予測アルゴリズムを使用して実
行される請求項１記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項１０】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項９記載の１組のドキュメントの階層
的記述を推測する方法。
【請求項１１】ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項９記載の１組のドキュメント
の階層的記述を推測する方法。
【請求項１２】ドキュメントは画像データを有する請
求項９記載の１組のドキュメントの階層的記述を推測す
る方法。
【請求項１３】ドキュメントはテキストデータを有す
る請求項９記載の１組のドキュメントの階層的記述を推
測する方法。
【請求項１４】前記テキストデータは英語以外の言語
である請求項１３記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項１５】ドキュメントはオーディオデータを有
する請求項９記載の１組のドキュメントの階層的記述を
推測する方法。
【請求項１６】ドキュメントはマルチメディア・デー
タを有する請求項９記載の１組のドキュメントの階層的
記述を推測する方法。
【請求項１７】ドキュメントのポジティブ・セットを
有するＵＲＬの第１の集合を得るステップと、ドキュメントのコレクション・セットを有するＵＲＬの
第２の集合を得るステップと、ＵＲＬの前記第１の集合内の各ＵＲＬと、ＵＲＬの前記
第２の集合内の各ＵＲＬに対するインバウンド・リンク
を決定するステップと、ドキュメントの前記ポジティブ・セット内の各ＵＲＬに
対する仮想ドキュメントと、ドキュメントの前記コレク
ション・セット内の各ＵＲＬに対する仮想ドキュメント
を創るステップと、ＵＲＬの前記第１の集合と組み合わされた前記仮想ドキ
ュメントからフィーチャーの第１のヒストグラムを供給
するステップと、ＵＲＬの前記第２の集合と組み合わされた前記仮想ドキ
ュメントからフィーチャーの第２のヒストグラムを供給
するステップと、前記フィーチャーを含むドキュメントの前記ポジティブ
・セットと組み合わされた前記仮想ドキュメントの割合
と、前記フィーチャーを含むドキュメントの前記コレク
ション・セットと組み合わされた前記仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
るウェブ・ページを有する１組のドキュメントの階層的
記述を推測する方法。
【請求項１８】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項１７記載の１組のドキュメントの階
層的記述を推測する方法。
【請求項１９】ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項１７記載の１組のドキュメン
トの階層的記述を推測する方法。
【請求項２０】ＵＲＬは画像データを含むページを示
す請求項１７記載の１組のドキュメントの階層的記述を
推測する方法。
【請求項２１】ＵＲＬはテキストデータを含むページ
を示す請求項１７記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項２２】前記テキストデータは英語以外の言語
である請求項２１記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項２３】ＵＲＬはオーディオデータを含むペー
ジを示す請求項１７記載の１組のドキュメントの階層的
記述を推測する方法。
【請求項２４】ＵＲＬはマルチメディア・データを含
むページを示す請求項１７記載の１組のドキュメントの
階層的記述を推測する方法。
【請求項２５】各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項１７記載のウェブ・ページを
有する１組のドキュメントの階層的記述を推測する方
法。
【請求項２６】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項２５記載の１組のドキュメントの階
層的記述を推測する方法。
【請求項２７】ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項２５記載の１組のドキュメン
トの階層的記述を推測する方法。
【請求項２８】ＵＲＬは画像データを含むページを示
す請求項２５記載の１組のドキュメントの階層的記述を
推測する方法。
【請求項２９】ＵＲＬはテキストデータを含むページ
を示す請求項２５記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項３０】前記テキストデータは英語以外の言語
である請求項２９記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項３１】ＵＲＬはオーディオデータを含むペー
ジを示す請求項２５記載の１組のドキュメントの階層的
記述を推測する方法。
【請求項３２】ＵＲＬはマルチメディア・データを含
むページを示す請求項２５記載の１組のドキュメントの
階層的記述を推測する方法。
【請求項３３】情報検索システムに検索問い合わせを
提出するステップと、前記検索問い合わせに応答する前記情報検索システムか
らのドキュメントの第１の集合を検索するステップと、ドキュメントの第２の集合を供給するステップと、前記第１の集合のドキュメント内の各検索されたドキュ
メントに対して、ならびにドキュメントの前記第２の集
合内の各ドキュメントに対して、インバウンド・リンク
を決定するステップと、ドキュメントの前記第１の集合内の各ドキュメントに対
して、ならびにドキュメントの前記第２の集合内の各ド
キュメントに対して、仮想ドキュメントを創出するステ
ップと、ドキュメントの前記第１の集合と組み合わされた前記仮
想ドキュメント内にフィーチャーの第１のヒストグラム
を創出するステップと、ドキュメントの前記第２の集合と組み合わされた前記仮
想ドキュメント内にフィーチャーの第２のヒストグラム
を創出するステップと、前記フィーチャーを含むドキュメントの前記ポジティブ
・セットと組み合わされた前記仮想ドキュメントの割合
と、前記フィーチャーを含むドキュメントの前記コレク
ション・セットと組み合わされた前記仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップと、フィーチャーの分類に応答する前記検索問い合わせを変
えるステップを有する１組のドキュメントの推測にもと
づく階層的記述を使用する情報検索システムの検索方
法。
【請求項３４】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項３３記載の１組のドキュメントの推
測にもとづく階層的記述を使用する情報検索システムの
検索方法。
【請求項３５】ドキュメントの前記第１の集合内の出
現の順序により前記フィーチャーを順位付けることをさ
らに有する請求項３３記載の１組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
【請求項３６】検索範囲を広げるために、検索の問い
合わせがペアレント・フィーチャーに変えられた請求項
３３記載の１組のドキュメントの推測にもとづく階層的
記述を使用する情報検索システムの検索方法。
【請求項３７】検索範囲を狭めるために、検索の問い
合わせがチャイルド・フィーチャーに変えられた請求項
３３記載の１組のドキュメントの推測にもとづく階層的
記述を使用する情報検索システムの検索方法。
【請求項３８】ドキュメントは画像データを有する請
求項３３記載の１組のドキュメントの推測にもとづく階
層的記述を使用する情報検索システムの検索方法。
【請求項３９】ドキュメントはテキストデータを有す
る請求項３３記載の１組のドキュメントの推測にもとづ
く階層的記述を使用する情報検索システムの検索方法。
【請求項４０】前記テキストデータは英語以外の言語
である請求項３９記載の１組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。
【請求項４１】ドキュメントはオーディオデータを有
する請求項３３記載の１組のドキュメントの推測にもと
づく階層的記述を使用する情報検索システムの検索方
法。
【請求項４２】ドキュメントはマルチメディア・デー
タを有する請求項３３記載の１組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
【請求項４３】各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項３３記載の１組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。
【請求項４４】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項４３記載の１組のドキュメントの推
測にもとづく階層的記述を使用する情報検索システムの
検索方法。
【請求項４５】ドキュメントの前記第１の集合内の出
現の順序により前記フィーチャーを順位付けることをさ
らに有する請求項４３記載の１組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
【請求項４６】検索範囲を広げるために、検索の問い
合わせをペアレント・フィーチャーに変えた請求項４３
記載の１組のドキュメントの推測にもとづく階層的記述
を使用する情報検索システムの検索方法。
【請求項４７】検索範囲を狭めるために、検索の問い
合わせをチャイルド・フィーチャーに変えた請求項４３
記載の１組のドキュメントの推測にもとづく階層的記述
を使用する情報検索システムの検索方法。
【請求項４８】ドキュメントは画像データを有する請
求項４３記載の１組のドキュメントの推測にもとづく階
層的記述を使用する情報検索システムの検索方法。
【請求項４９】ドキュメントはテキストデータを有す
る請求項４３記載の１組のドキュメントの推測にもとづ
く階層的記述を使用する情報検索システムの検索方法。
【請求項５０】前記テキストデータは英語以外の言語
である請求項４９記載の１組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。
【請求項５１】ドキュメントはオーディオデータを有
する請求項４３記載の１組のドキュメントの推測にもと
づく階層的記述を使用する情報検索システムの検索方
法。
【請求項５２】ドキュメントはマルチメディア・デー
タを有する請求項４３記載の１組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
【請求項５３】（ａ）ドキュメントの集合の階層を設
けるステップと、（ｂ）ドキュメントのコレクション・セットを設けるス
テップと、（ｃ）前記階層内の１組のドキュメント内の各ドキュメ
ントに対して、ならびにドキュメントの前記コレクショ
ン・セット内の各ドキュメントに対して、インバウンド
・リンクを決定するステップと、（ｄ）前記階層内のドキュメントの前記集合内の各ドキ
ュメントに対して、ならびにドキュメントの前記コレク
ション・セット内の各ドキュメントに対して、仮想ドキ
ュメントを創出するステップと、（ｅ）前記階層内のドキュメントの前記集合と組み合わ
された前記仮想ドキュメントからフィーチャーの第１の
ヒストグラムを創出するステップと、（ｆ）ドキュメントの前記コレクション・セットと組み
合わされた前記仮想ドキュメントからフィーチャーの第
２のヒストグラムを創出するステップと、（ｇ）前記フィーチャーを含む前記階層内のドキュメン
トの前記集合と組み合わされた前記仮想ドキュメントの
割合と、前記フィーチャーを含むドキュメントの前記コ
レクション・セットと組み合わされた仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップと、（ｈ）ドキュメントの集合の前記階層内のドキュメント
の各集合に対してステップ（ｃ）からステップ（ｇ）を
繰り返すステップと、（ｉ）各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。
【請求項５４】各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項５３記載のドキュメントの集
合の推測にもとづく記述を使用してドキュメント・ディ
レクトリに符号を付ける方法。
【請求項５５】（ａ）ドキュメントの集合の階層を設
けるステップと、（ｂ）ドキュメントのコレクション・セットを設けるス
テップと、（ｃ）前記階層内のドキュメントの各集合からフィーチ
ャーの第１のヒストグラムを創出するステップと、（ｄ）ドキュメントの前記コレクション・セットからフ
ィーチャーの第２のヒストグラムを創出するステップ
と、（ｅ）前記フィーチャーを含む前記階層内のドキュメン
トの前記集合と組み合わされたドキュメントの割合と、
前記フィーチャーを含むドキュメントの前記コレクショ
ン・セットと組み合わされたドキュメントの割合にもと
づいて、各フィーチャーがセルフ・フィーチャー、ペア
レント・フィーチャーあるいはチャイルド・フィーチャ
ーであるか否かを決定するステップと、（ｆ）ドキュメントの集合の前記階層内のドキュメント
の各集合に対してステップ（ｃ）からステップ（ｅ）を
繰り返すステップと、（ｇ）各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。
【請求項５６】各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項５５記載のドキュメントの集
合の推測にもとづく記述を使用してドキュメント・ディ
レクトリに符号を付ける方法。
【請求項５７】ドキュメントのポジティブ・セットを
有するドキュメントの第１の集合を得るステップと、ドキュメントのコレクション・セットを有するドキュメ
ントの第２の集合を得るステップと、ドキュメントの前記第１の集合内の各ドキュメントに対
して、ならびにドキュメントの前記第２の集合内の各ド
キュメントに対して、インバウンド・リンクを決定する
ステップと、ドキュメントの前記ポジティブ・セット内の各ドキュメ
ントに対する仮想ドキュメント、およびドキュメントの
前記コレクション・セット内の各ドキュメントに対する
仮想ドキュメントを創出するステップと、ドキュメントの前記第１の集合と組み合わされた前記仮
想ドキュメントからフィーチャーの第１のヒストグラム
を供給するステップと、ドキュメントの前記第２の集合と組み合わされた前記仮
想ドキュメントからフィーチャーの第２のヒストグラム
を供給するステップと、前記フィーチャーを含むドキュメントの前記ポジティブ
・セットと組み合わされた前記仮想ドキュメントの割合
と、前記フィーチャーを含むドキュメントの前記コレク
ション・セットと組み合わされた前記仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
る１組のドキュメントの階層的記述を推測する方法。
【請求項５８】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項５７記載の１組のドキュメントの階
層的記述を推測する方法。
【請求項５９】ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項５７記載の１組のドキュメン
トの階層的記述を推測する方法。
【請求項６０】ドキュメントは画像データを含む請求
項５７記載の１組のドキュメントの階層的記述を推測す
る方法。
【請求項６１】ドキュメントはテキストデータを含む
請求項５７記載の１組のドキュメントの階層的記述を推
測する方法。
【請求項６２】前記テキストデータは英語以外の言語
である請求項６１記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項６３】ドキュメントはオーディオデータを含
む請求項５７記載の１組のドキュメントの階層的記述を
推測する方法。
【請求項６４】ドキュメントはマルチメディア・デー
タを含む請求項５７記載の１組のドキュメントの階層的
記述を推測する方法。
【請求項６５】各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項５７記載の１組のドキュメン
トの階層的記述を推測する方法。
【請求項６６】ヒストグラム閾値を設定し、前記第１
のヒストグラムおよび前記第２のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項６５記載の１組のドキュメントの階
層的記述を推測する方法。
【請求項６７】ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項６５記載の１組のドキュメン
トの階層的記述を推測する方法。
【請求項６８】ドキュメントは画像データを含む請求
項６５記載の１組のドキュメントの階層的記述を推測す
る方法。
【請求項６９】ドキュメントはテキストデータを含む
請求項６５記載の１組のドキュメントの階層的記述を推
測する方法。
【請求項７０】前記テキストデータは英語以外の言語
である請求項６９記載の１組のドキュメントの階層的記
述を推測する方法。
【請求項７１】ドキュメントはオーディオデータを含
む請求項６５記載の１組のドキュメントの階層的記述を
推測する方法。
【請求項７２】ドキュメントはマルチメディア・デー
タを含む請求項６５記載の１組のドキュメントの階層的
記述を推測する方法。