JP2003248692A - 1組のドキュメントの階層的記述の推測 - Google Patents

1組のドキュメントの階層的記述の推測

Info

Publication number
JP2003248692A
JP2003248692A JP2003020236A JP2003020236A JP2003248692A JP 2003248692 A JP2003248692 A JP 2003248692A JP 2003020236 A JP2003020236 A JP 2003020236A JP 2003020236 A JP2003020236 A JP 2003020236A JP 2003248692 A JP2003248692 A JP 2003248692A
Authority
JP
Japan
Prior art keywords
documents
feature
hierarchical description
inferring
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003020236A
Other languages
English (en)
Other versions
JP3928722B2 (ja
Inventor
Eric Glover
グローバー エリック
Robert Lawrence Stephen
ロバート ローレンス ステファン
David Pennock
ぺノック ディビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2003248692A publication Critical patent/JP2003248692A/ja
Application granted granted Critical
Publication of JP3928722B2 publication Critical patent/JP3928722B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 ウェブ・ディレクトリに有用であり、あるい
は、情報検索を改良するための、自動的に生成されたさ
まざまなクラスタを関連づけて符号を付ける方法を提供
すること。 【解決手段】 ドキュメントのポジティブ・セットから
フィーチャーの第1のヒストグラムを供給するステップ
と、ドキュメントのコレクション・セットからフィーチ
ャーの第2のヒストグラムを供給するステップと、前記
フィーチャーを含む前記ポジティブ・セット内の前記ド
キュメントの割合と、前記フィーチャーを含む前記コレ
クション・セット内の前記ドキュメントの割合にもとづ
いて、各フィーチャーがセルフ・フィーチャー、ペアレ
ント・フィーチャーあるいはチャイルド・フィーチャー
であるか否かを決定するステップを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はワールド・ワイド・
ウェブの検索に関し、具体的には、階層的情報について
の事前の知識は何等無しに、検索されたウェブ・ページ
の小さい集合から、トピックについての階層的関係を推
測することに関する。
【0002】さらに本発明は、ドキュメントの小さな集
合の記述的名称である語、あるいは、句のグループを自
動的に判定することと、概念についての事前の知識は何
等無しに、記述的名称よりも一般的でより具体的なドキ
ュメントの集合内の概念を推測することに関する。記述
的名称および概念は、ドキュメントに含まれていないこ
とさえ有り得る。本発明の主な応用はワールド・ワイド
・ウェブの検索であるが、本発明はワールド・ワイド・
ウェブあるいは特定の情報検索システムに使用すること
のみに制限されず、ドキュメントの任意の集合に応用す
ることができる。
【0003】
【従来の技術】ワールド・ワイド・ウェブの急速な発展
は、オンライン・テキスト・ドキュメントの検索、ブラ
ウジングおよび系統化を容易にすることを目的とする研
究の急増をもたらした。この研究の多くは、ドキュメン
トを意味のあるグループにクラスタ化することに重点を
置かれた。ドキュメント・クラスタを集合、あるいは階
層化する多くの場合、利用者は、特定のドキュメントを
詳細を確かめることなくクラスタを識別するために、コ
レクションにざっと目を通すことを好む。
【0004】ワールド・ワイド・ウェブは、生物学コミ
ュニティ、あるいはISPホームページのコミュニティ
のような、関連するドキュメントについて大量な数のコ
ミュニティを含んでいる。本発明は、孤立している単一
のコミュニティについての有用な階層的情報を自動的に
推測する方法である。
【0005】1組のドキュメントから始まって、その1
組のドキュメントに関するさまざまに有用ないくつかの
情報を自動的に推測することが望ましい。その情報は、
記述的な名称あるいは関連する概念(時にはドキュメン
トの中に明示的に含まれていない)を有してもよい。こ
のような情報は、検索あるいは解析のために有用であ
る。
【0006】クラスタリングは、構成要素がある点で、
対象を類似であるグループに系統化する処理と定義する
ことができる。クラスタリングには、すべての対象が厳
密に1つのグループに指定される「分割」(多くの場合
k−クラスタリングと呼ばれる)と、1を超える大きさ
の各グループをより小さなグループで構成することが可
能な「階層的クラスタリング」の2つの主な形式があ
る。ワールド・ワイド・ウェブ検索エンジンの出現、明
確には、利用可能な大量のデータを系統化する課題と、
大規模データベースの「データ・マイニング」の概念
は、クラスタリング・アルゴリズムに対する関心を復活
させた。
【0007】本発明は、ドキュメントの集合あるいはク
ラスタの理解を助けるために、フィーチャーの意味のあ
るクラスを識別する方法を提供する。フィーチャーには
3つのクラスがあることが望ましい。「セルフ」フィー
チャーあるいはセルフ・タームは、全体としてクラスタ
を記述する。「ペアレント」フィーチャーあるいはペア
レント・タームは、一般的な概念を記述する。「チャイ
ルド」フィーチャーあるいはチャイルド・タームは、ク
ラスタの特殊化を記述する。たとえば、1組の生物学ド
キュメントを仮定すると、ペアレント・タームは科学で
あってよく、セルフ・タームは生物学であってよく、チ
ャイルド・タームは遺伝学であってもよい。
【0008】セルフ・フィーチャーは推奨されたクラス
タの名称として使用でき、ペアレント・フィーチャーお
よびチャイルド・フィーチャーは、クラスタをより大き
いコレクションのスペースに置くために使用できる。ペ
アレント・フィーチャーはより一般的な概念を示唆し、
チャイルド・フィーチャーはセルフ・フィーチャーの特
殊化についての記述である概念を示唆する。
【0009】ペアレント・フィーチャー、セルフ・フィ
ーチャーおよびチャイルド・フィーチャーを自動的に発
見することは、ウェブ・ディレクトリのオートマティッ
ク・ラベリングあるいは情報検索の改善を含むいくつか
の目的に対して有用である。別の重要な利用法は、単一
のクラスタの概要統計とバックグランド・コレクション
統計のみを使用して、生成されたクラスタを自動的に命
名するとともに、クラスタに含まれるより一般的でより
具体的な概念の両方を推奨することである。
【0010】現在、ヤフー社が運営するポータルサイト
(http://www.yahoo.com/)あるいはオープン・ディレク
トリ(http://www.dmoz.org/)のような普及しているウェ
ブ・ディレクトリは、人間が生成し、人間が維持してい
る。カテゴリーが人間により定義される場合でも、自動
的な階層的記述は、新しいペアレントあるいはチャイル
ド・リンク、あるいは別の名称を推奨するために有用な
ことがある。ドキュメントあるいはページの検索された
集合にもとづいて、別の問い合わせ(より一般的で、よ
り具体的な問い合わせ)を推奨することにより、同じ技
術が情報検索を改良するために有用なことがある。
【0011】自動的な要約に関連する一連の先行する研
究がある。たとえば、Radev と Fanは、"Automatic sum
marization of search engine hit lists" ,in Proceed
ings of ACL'2000 Workshop on Recent Advances in Na
ture Language Processingand Information Retrieval,
Hong Kong, P.R. China, 2000,(非特許文献1)でウ
ェブ・ドキュメントのクラスタの要約の技術を説明して
いる。彼等の技術は、ドキュメントを個別の文に構文解
析し、テーマ、すなわち、「選択されたドキュメントか
らの最も顕著な一節」を識別する。この技術は、「重心
ベースの要約」を使用し、階層的に関連するフィーチャ
ーの集合を作ったり、あるいはクラスタ内の語あるいは
句を発見することはない。
【0012】さまざまな概念関係をテキストから推測す
るために、語彙の技術が応用されてきた。たとえば、Ma
rti A. Hearst in "Automatic acquisition of hyponym
s from large text corpora" ,in Proceedings of the
Fourteenth International Conference on Computation
al Linguistics, Nantes, France(1992)(非特許文献
2)、Marti A. Hearst in "Automated discovery in w
ordnet relations", Christiane Fellbaum 編、WordNe
t: An Electronical Lexical Database, MIT Press (19
98)(非特許文献3)、および、 Sharon A. Carballo i
n "automatic construction of a hypernym-labeled no
un hierarchy from text", in Proceedingsof the 37th
Annual Meeting of the Association for Computation
al Linguistics (1999)(非特許文献4)等参照。
【0013】名詞句、たとえば、「打撲傷、外傷、骨折
した骨あるいは他の傷害」の点で区切られたリストのよ
うな、1組の語彙統語的なパターンを識別することによ
り、語彙の関係を見出す方法を Hearst は説明してい
る。これらのパターンは、語彙関係の型、たとえば打撲
傷、外傷および骨折した骨が傷害のすべての型であるこ
とを示唆するために使用される。上位語がラベル付けら
れ、階層化された名詞を自動的に構築する技術を、Cara
balo は説明している。英語を母国語とする人が文章
「BはAの一種である」を理解すれば、上位語としては
語AとBの間の関係を説明するものとする。HearstとCa
raballo により説明されたような言語学関係はシソーラ
スを生成するために有用であるが、ドキュメントのクラ
スタとコレクションの残りの部分との関係を必然的には
説明していない。スポーツに焦点が当てられたクラスタ
があることを知っていれば、「野球がスポーツである」
ことを知ることは、有用であることがある。しかし、抽
出された関係は、集合の中にある概念の実際の頻度とは
必然的には関連していない。主としてバスケットボール
とホッケーを論じているスポーツ・ドキュメントのクラ
スタがあれば、野球もスポーツであるという事実は、そ
の集合を説明するために非常に重要なものではない。
【0014】SandersonとCroftは、"Deriving concept
hierarchies from text", in Research and Developmen
t in Information Retrieval" pages 206-213 (1999)
(非特許文献5)において、包含関係にもとづく統計的
技術を発表した。
【0015】SandersonとCroftのモデルにおいて、2つ
の用語xとyに対して、所与のyに対するxの確率が1
であり、所与のxに対するyの確率が1未満であれば、
xはyを含むと言う。実際のモデルにおいて、使用され
た確率は、雑音を減少するために0.8であった。包含
関係は、ペアレント・チャイルド関係(本発明において
はセルフ・チャイルド関係)を示唆する。これは、所与
のクラスタの関係の中で階層が創出されることを可能に
する。これに対して、本発明は、「ペアレント」(共通
のテーマより一般的)、「セルフ」(クラスタを全体と
して定義あるいは記述するフィーチャー)および「チル
ドレン」(共通の下位概念を記述するフィーチャー)と
して識別されたフィーチャーに特有の一般的な領域に関
心を置いている。
【0016】PopesculとUngarは、http://citeseer.nj.
nec.com/popsecu100automatic.htmlにて未刊行原稿で入
手可能な、"Automatic labeling of document cluster
s"(非特許文献6)において、ドキュメント・クラスタ
に自動的に符号を付けるためにxの2乗を使用して、単
純な統計的技術を説明している。各(分岐した)フィー
チャーは、局部的な頻度と予報性の積にもとづいて、ス
コアを割り当てられた。良いクラスタ・ラベルの概念
は、現在の「セルフ・フィーチャー」の概念に類似す
る。良いセルフ・フィーチャーは、ポジティブ・セット
では一般的であると共にネガティブ・セットで希少なも
のであり、局部的な高頻度と高い予報性に対応する。彼
等の研究に対して、本発明は、良い名称ではないかもし
れないがクラスタの理解を促進するフィーチャー(ペア
レントおよびチャイルド・フィーチャー)を考慮してい
る。
【0017】Eric J. Glover 他は、"Using web struct
ure for classifying and describing web pages" in P
roceedings of the 11th WWW Conference, Hawaii (200
2)(非特許文献7)で、予想されるエントロピーの低下
によるフィーチャーの順位付けが、セルフ名あるいはペ
アレントまたはチャイルドの概念に対する良い候補を識
別するために、どのように使用できるかを説明してい
る。ポジティブ・セット内では一般的であり、ネガティ
ブ・セット内で希少となるフィーチャーは、良いセルフ
とチルドレンを作り、さらに予想されるエントロピーの
低下が多くなることを示す。ペアレントもネガティブ・
セット内で相対的に希少であり、ポジティブ・セット内
で一般的であり、さらに予想されるエントロピーの低下
が多くなる可能性が高い。本発明は、単一のエントロピ
ー・ベースの基準による順位付けとは対照的に、具体的
なポジティブおよびネガティブ頻度を考慮することによ
り、異なるクラスのフィーチャーを分離することに関心
を置いている。
【0018】単一のクラスタを分析する他の方法は、ク
ラスタの階層を形成するために、クラスタを副クラスタ
に分けることが挙げられる。http://citeseer.nj.nec.c
om/fasulo99analysi.htmlにより入手可能なD. Fasuloに
よる"An Analysis of recentwork on clustering algor
ithms", Technical Report, University of Washingto
n, (1999)(非特許文献8)では、ドキュメントのクラ
スタリング(および階層的クラスタリング)に対するさ
まざまな技術の概要を提供している。"Trawling the we
b for emerging cyber-communities" WWW8/Computer Ne
tworks, 31(11-16):1481-1493(1999)(非特許文献9)
で、Kumar他は、クラスタを判定するためにウェブのリ
ンク構造を使用して、コミュニティに対してウェブを具
体的に分析することを説明している。HofmannとPuzicha
は、"Statistical models for co-occurrence data" Te
chnical Report AIM-1625 (1998)(非特許文献10)
で、同時に出現するデータおよび関連する階層的クラス
タリング・アルゴリズムに対するいくつかの統計モデル
を説明している。HofmannとPuzichaは、特に、情報検索
問題と用語の関連に取り組んでいる。
【0019】次の例は、本発明と従来の階層的クラスタ
リング研究の間の相違を明確にするであろう。利用者が
「生物学」に対してウェブ検索を行い、すべてが一般的
な生物学の「中心」となるページである20個のドキュ
メントを検索すると仮定する。各ページは、生物学の特
有の面に集中していない点である程度類似である。階層
的クラスタリングでは20個のドキュメントを副クラス
タに分け、各副クラスタは「チャイルド」概念を表すで
あろう。一番上のクラスタは、ほぼ間違いなく「セル
フ」クラスタであると考えることができる。しかし、副
クラスタを仮定すると、どのフィーチャー(語あるいは
句)が意味がある名称であるかを認識する容易な方法は
ない。例えば、「植物学」は、副クラスタとして「大
学」より良い名称であろうか、等。
【0020】さらに、1群の類似のドキュメントを仮定
すると、クラスタリングは有意義ではない恐れがある。
副クラスタは、ドキュメントの2分の1は句「著作権2
002年」を含み、他の2分の1は含まないというよう
な、関連のない面に集中する恐れがある。文字内容に欠
けるウェブ・ページ、すなわち「ウェルカム・ページ」
に対して、あるいは、ページの一部が混合トピック(ク
ラスタ全体としては主として生物学についてであって
も)であれば、これは特に困難である。
【0021】本発明による教示によれば、(非記述的ペ
ージを処理するウェブ構造を考慮して)20個のドキュ
メントの集合が分析され、各フィーチャーの出現を要約
するヒストグラムが生成される(個別のドキュメント内
の語の頻度は除去される)。本明細書において使用され
るフィーチャーは、任意の用語あるいはnグラム(単一
の語あるいは句)を指す。さらにフィーチャーは構造的
な情報、ドキュメントの一般的な性質、あるいは他の有
意義な記述でも良い。構造的な情報は、ドキュメントの
名称内の語あるいは句を含んでもよく、あるいはドキュ
メントのメタタグ内の語あるいは句および同等物であっ
てもよい。ドキュメントの一般的な性質は、「これは最
近のドキュメントである」のような要因、あるいは、
「ニュース」あるいは「ホームページ」のようなドキュ
メント分類を含んでもよい。このようなフィーチャー
は、通常2進法である。すべてのドキュメント(あるい
は、若干の、より大きい参照コレクション)のヒストグ
ラム内のフィーチャーの分析を使用する、生成されたヒ
ストグラム内のフィーチャーの分析は、クラスタの「最
良の」名称は「生物学」であり、「科学」はより一般的
な概念を説明する用語であるとの識別をもたらす。同様
に、異なる型についてのクラスタを形成するであろう集
合内にドキュメントがなくても、生物学のいくつかの異
なる「型」が識別されるであろう。例は、「植物学」、
「細胞生物学」、「進化論」および同等物である。「著
作権2002年」のような句は、より大きいコレクショ
ン内での頻度のために重要ではないことが知られるであ
ろう。さらに、ウェブ構造(以下に説明する拡張アンカ
ーテキスト)の使用は、ドキュメントのフルテキストの
みの使用と比較して、ドキュメントの小さい集合を指名
する能力を大幅に改良することができ、その結果、非記
述的なページ、たとえば、「ウェルカムページ」の問題
に注意を集中する。ひとたび創出されたドキュメントの
コレクション・セットのヒストグラムは、コレクション
・セットが変化しない限り、ドキュメントの任意のポジ
ティブ・セットと連係して使用される。すなわち、各ポ
ジティブ・セットに対してコレクション・セットのヒス
トグラムを再生することと対照的に、ドキュメントのコ
レクション・セットのヒストグラムは、ドキュメントの
多くの異なるポジティブ・セットに対して再利用するこ
とができる。
【0022】
【非特許文献1】Radev and Fan in "Automatic summar
ization of search engine hit lists" ,in Proceeding
s of ACL'2000 Workshop on Recent Advances in Natur
e Language Processing and Information Retrieval, H
ong Kong, P.R. China, 2000.
【非特許文献2】Marti A. Hearst in "Automatic acqu
isition of hyponyms from large textcorpora" ,in Pr
oceedings of the Fourteenth International Conferen
ce on Computational Linguistics, Nantes, France(19
92).
【非特許文献3】Marti A. Hearst in "Automated disc
overy in wordnet relations", Christiane Fellbaum
編、WordNet: An Electronical Lexical Database MIT
Press (1998).
【非特許文献4】Sharon A. Carballo in "automatic c
onstruction of a hypernym-labeled noun hierarchy f
rom text", in Proceedings of the 37th Annual Meeti
ng of the Association for Computational Linguistic
s (1999).
【非特許文献5】Sanderson and Croft in "Deriving c
oncept hierarchies from text", in Research and Dev
elopment in Information Retrieval" pages 206-213
(1999).
【非特許文献6】Popescul and Ungar in "Automatic l
abeling of document clusters"[平成14年7月31
日検索]、インターネット<URL:http://citeseer.nj.
nec.com/popsecu100automatic.html>
【非特許文献7】Eric J. Glover et al, "Using web s
tructure for classifying and describing web pages"
in Proceedings of the 11th WWW Conference, Hawaii
(2002)
【非特許文献8】D. Fasulo in "An Analysis of recen
t work on clustering algorithms", Technical Repor
t, University of Washington, (1999)[平成14年7
月31日検索]、インターネット<URL:http://citese
er.nj.nec.com/fasulo99analysi.html>
【非特許文献9】Kumar et al "Trawling the web for
emerging cyber-communities" WWW8/Computer Network
s, 31(11-16):1481-1493(1999).
【非特許文献10】Hofmann and Puzicha in "Statisti
cal models for co-occurrence data" Technical Repor
t AIM-1625 (1998).
【0023】
【発明が解決しようとする課題】本発明は、上述したよ
うな従来技術を踏まえてなされたものであり、相対的に
ドキュメントの小さいクラスタに対して、ペアレント、
チャイルドおよびセルフ・フィーチャーを予測するため
の統計モデルを得る方法を提供するものである。
【0024】本発明によれば、トピックに関連するサン
プル・ウェブ・ページの小さい集合のみを使用して、階
層的情報の事前の知識無しに、トピックについての階層
的な用語関係を推測する統計モデルが創られる。
【0025】本発明を形成する統計モデルは、クラスタ
内のページのフルテキストあるいはページへ向かうリン
クの前後関係のいずれかを利用することができる。
【0026】したがって、本発明の主な目的は、ウェブ
・ディレクトリに有用であり、あるいは、情報検索を改
良するための、自動的に生成されたさまざまなクラスタ
を関連づけて符号を付ける方法を提供することである。
【0027】本発明の他の目的は、ウェブ・ページの小
さい集合あるいはトピックに関連するドキュメントの集
合から、事前に何らの階層的情報の知識無しに、トピッ
クについての階層的な用語関係を推測するための統計モ
デルを創るための方法を提供することである。
【0028】本発明の他の目的は、1組のドキュメント
内のペアレント・フィーチャー、セルフ・フィーチャー
およびチャイルド・フィーチャーを識別する方法を提供
することである。
【0029】本発明のさらに他の目的は、情報検索シス
テムにおいて、より広いおよび/またはより狭い検索用
語を推薦するために、1組のドキュメント内のペアレン
ト・フィーチャー、セルフ・フィーチャーおよびチャイ
ルド・フィーチャーを識別する方法を提供することであ
る。
【0030】本発明のさらに他の目的は、ウェブ・ディ
レクトリに自動的に符号を付けるために、1組のドキュ
メント内のペアレント・フィーチャー、セルフ・フィー
チャーおよびチャイルド・フィーチャーを識別する方法
を提供することである。
【0031】本発明のさらに別の目的は、添付図面と関
連する下記の説明により明白になるであろう。
【0032】
【課題を解決するための手段】ペアレント・フィーチャ
ー、セルフ・フィーチャーおよびチャイルド・フィーチ
ャーの自動的な選択は、ウェブ・ディレクトリの自動的
なラベリングあるいは情報検索の改善を含むいくつかの
目的に対して有用であり得る。別の重要な利用法は、ク
ラスタの概要統計と背景となるコレクションの統計のみ
を使用して、生成されたクラスタを自動的に命名すると
ともに、より一般的でより具体的な概念を推奨すること
であろう。
【0033】時折ネガティブ・セットと呼ばれるドキュ
メントの全部のコレクション内のフィーチャーfの頻度
と比較した、1組のドキュメント(「ポジティブ・クラ
スタ」)内のフィーチャーfの頻度の分析にもとづい
て、ペアレント・フィーチャー、セルフ・フィーチャー
およびチャイルド・フィーチャーを区別することが可能
である。具体的にいうと、fがポジティブ・クラスタ内
では非常に普通であるが、コレクション内では相対的に
希少であれば、fは良いセルフ・フィーチャーであるこ
とがある。ポジティブ・クラスタ内では普通であるが全
体のコレクション内でもある程度普通であるフィーチャ
ーは、ポジティブ・クラスタの記述であるが、より一般
的であり、したがって良いペアレント・フィーチャーで
あることがある。ポジティブ・クラスタ内ではある程度
普通であるが、一般的なコレクション内では非常に希少
なフィーチャーは、正のドキュメントの部分集合のみを
説明するから、良いチャイルド・フィーチャーであるこ
とがある。
【0034】本明細書において使用される用語「ドキュ
メント」は、ドキュメントと同様の表現、すなわち、ド
キュメントのプロキシ、たとえば要約、概要、アンカー
テキスト、および同等物を含むと理解されるが、それに
制限されない。ポジティブ・セットあるいはコレクショ
ン・セットのいずれかを形成するドキュメントは、ウェ
ブ・ブックマークを使用して、本発明による教示にした
がって説明されたもの以外を含むクラスタリング方法の
結果を使用し、ドキュメントの先存する階層あるいはド
キュメントを得る他の任意の方法を使用して、ワールド
・ワイド・ウェブあるいは任意の情報検索システムに問
い合わせを出すことにより得ることが可能である。ドキ
ュメントのポジティブ・セットあるいはドキュメントの
コレクション・セットは、たとえば既存の階層からのラ
ンダムなURLをコレクション・セットとして使用する
による、ドキュメントのより大きい集合のサンプリング
であってもよい。
【0035】
【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。
【0036】ここで、図、特に、図1を参照すると、ペ
アレント・フィーチャー、チャイルド・フィーチャーお
よびセルフ・フィーチャーの間の予測される関係のグラ
フ図が示されている。「正の頻度」は、所与のフィーチ
ャーを含むポジティブ・セット内のドキュメントのパー
センテージあるいは割合を示す。「コレクション頻度」
は、所与のフィーチャーを含むコレクション内のドキュ
メントの総合的なパーセンテージあるいは割合を示す。
【0037】長方形の箱により示されている3つの領域
は、ペアレント・フィーチャー10、チャイルド・フィ
ーチャー12およびセルフ・フィーチャー14の間に予
測される相対的な関係である。長方形の箱の外のフィー
チャーは、ペアレント、チャイルドおよびセルフのクラ
スに対しては好ましくない候補であると考えられ、この
ようなフィーチャーは分類されない。図1は、絶対的な
数値的境界を示すものではなく、単に領域の相対的な位
置のみを示す。領域は、クラスの特有の一般性に依存す
る。たとえば、「生物学」のクラスタに対しては「科
学」のペアレントは比較的普通であるが、「遺伝子配列
決定」に関するドキュメントのクラスタに対しては「D
NA」のペアレントはもっと希少であるかもしれない、
したがって、ペアレントとセルフの間の境界線はより0
に近いであろう。
【0038】図2は、生物学のセルフ・エリア、科学の
ペアレント・エリアおよび植物学のチャイルド・エリア
に対するフィーチャーの分布の見本を示す。外の円20
は、一般に「科学」の主題エリア内の集合内でのすべて
のドキュメントの集合を表す。中央の円22は「生物
学」のエリア内のドキュメントの集合であり、最も内部
の円24は「植物学」のエリア内のドキュメントを表
す。フィーチャー「科学」、「植物学」および「生物
学」が、それぞれの対応する円の中でのみ出現し、それ
ぞれの対応する円の中に含まれる各ドキュメント内に出
現すると仮定すれば、ペアレント、チャイルド、セルフ
関係は明確である。図2から、全体のドキュメントのお
よそ20%が「科学」に言及し、ドキュメントの約5%
が「生物学」に言及し、1%が「植物学」に言及してい
る。「生物学」ドキュメントの集合の中で、100%が
「科学」と「生物学」の両方に言及しているが、「植物
学」には約20%が言及している。生物学の円内のすべ
てのドキュメントが生物学と言う語を実際に含んでいる
と想定しているので、これは非常に単純化した表現であ
るが、必ずしもこうはならない。同様に、植物学の副カ
テゴリー内のすべてのドキュメントが、「生物学」と
「科学」の両方に言及することはありそうもない。
【0039】最終的な結果を補償するために、所与の
「適切な」フィーチャーが使用される何らかの確率があ
ると想定する。この確率は、セルフあるいはチャイルド
に対するよりも、ペアレントに対しては通常低い。結果
として、図1において、ペアレント領域はセルフ領域よ
りも左方に延びている。使用されている所与のフィーチ
ャーの確率は、右下のコーナーの座標にも影響を与える
であろう、低い確率はセルフ内の出現のパーセンテージ
を左方にシフトする。確率1は、すべてのセルフ・フィ
ーチャーを含むポジティブ・セット内のすべての正のド
キュメントに対応する。
【0040】図1に説明したモデルを試験するために、
グラウンド・トルース・データと既知の正のドキュメン
トを使用し、ペアレント・フィーチャー、セルフ・フィ
ーチャーおよびチャイルド・フィーチャーの実際の出現
のグラフが生成された。階層的記述が推測されるべきコ
レクション・セットおよびドキュメントの集合を形成す
るために、オープン・ディレクトリ (http://www.dmoz.
org/) が選択された。ドキュメントの集合Siを形成す
るために、「コンピュータ」、「科学」および「スポー
ツ」のトップレベルのカテゴリーを使用して、各カテゴ
リーからの上位15の主題ベースのサブカテゴリーが選
択され、(科学には11の主題ベースのサブカテゴリー
が存在した)合計41のオープン・ディレクトリ・カテ
ゴリーが得られた、ここでiは階層的記述が推測される
べき異なるカテゴリーに対応する。表1は、実験に使用
された41のオープン・ディレクトリ・カテゴリーと、
それらの3つのペアレント・カテゴリーを列挙してい
る。フィーチャーのコレクション頻度の近似を収集する
ために、ドキュメントはオープン・ディレクトリ内の任
意の場所からランダムに選ばれ、これらのドキュメント
は集合Cを構成する。同じ集合Cが、実験のすべてに使
用された。
【0041】
【表1】 各カテゴリーは、割り当てられたペアレント(この場
合、科学、コンピュータあるいはスポーツのいずれ
か)、セルフ・フィーチャーを形成する関連する名称、
およびチャイルドを形成するいくつかのサブカテゴリー
を有する。各々の場合に、本発明者等は、割り当てられ
た名称を「および」、「あるいは」またはコンマのよう
な句読点で分割した。したがって、カテゴリー「異常と
代替科学」は2つのセルフ「異常」および「代替科学」
となる。
【0042】実験の第1の部分は、集合C(コレクショ
ン統計)として、Si集合を形成するために各カテゴリ
ーから500の任意のドキュメントの初期集合と、ディ
レクトリ内の任意の場所からの20,000のランダム
なドキュメントを考慮した。ウェブのURLのそれぞれ
がダウンロードされ、フィーチャーがヒストグラムに入
れられた。URLがターミナル・エラーに終われば、ペ
ージは無視され、トレーニングのために使用された集合
i内のドキュメントの数の変化として説明された。フ
ィーチャーは、語あるいは2つあるいは3つの語句から
成り、各フィーチャーはドキュメントごとに最大1と数
える。
【0043】次に、各カテゴリーに対して、各ペアレン
ト、チャイルドおよびセルフ・フィーチャー(オープン
・ディレクトリにより割当られるように)が、フィーチ
ャーを含む集合Si内のドキュメントの割合としてX座
標を使用し、そのフィーチャーを含む集合C内のドキュ
メント(ランダム・ドキュメント)の割合としてY座標
を使用してグラフ化された。集合Siの2%未満のフィ
ーチャーが出現すれば、そのフィーチャーは無視され
た。
【0044】図3は、41のカテゴリーのすべてのペア
レント、チャイルドおよびセルフ・フィーチャーの分布
を示す。一般的な傾向であるように見えるが、ペアレン
トの近くに出現するチャイルドが多く存在する。同じペ
アレント(独自のペアレントは3つのみ)を有する多く
のカテゴリーが存在し、共通の集合Cが使用されたの
で、ペアレントは共通のY軸値の同一直線上にある。
【0045】チルドレンのいくつかは、カテゴリーの知
識がない場合に明確に定義されていない語あるいは句で
ある。たとえば、フィーチャー「ニュース」は、関連す
るカテゴリーを知らない限り、人工知能についてのニュ
ー#スか、あるいは野球についてのニュースか不確定で
ある。同様に、ニュースを含むいくつかのフィーチャー
は、「主題」ではなく、むしろページの非テキスト属性
である。カテゴリーとそれらのチルドレンのリストは、
手作業で検査され、孤立して十分に定義されなかったチ
ャイルドは除去された。チルドレンの半分以上がこの方
法で除去された。データを参照するより前に、「不十分
に定義された」語あるいは句が何故除去されるかの正確
な知識なしに、除去は行われた。
【0046】データの分析は、「コンピュータ」(comp
uters) のペアレントが コンピュータ(computer) に
より置換されるべきであることを示唆した。普通の意味
で使用される場合に語 スポーツ(sports) が多くの場
合には複数形であるのと異なり、コンピュータ(comput
ers)は多くの場合に単数形である。ステミング(stemm
ing)あるいはストップ語除去は行われなかったので、
コンピュータ(computers)とコンピュータ(compute
r) は異なるフィーチャーである。図4は、ペアレント
が コンピュータ(computers)からコンピュータ(comp
uter)に変わり、不十分に定義されたチルドレンが除去
されたこと以外は、図3と同じデータを示す。すなわ
ち、ペアレントの知識なしでは定義されないいくつかの
サブカテゴリー、たとえば「ニュース」あるいは「リソ
ース」が除去された。この変更は、ペアレント、セルフ
およびチャイルド領域の間により明確な隔離をもたら
す。除去された不十分に定義されたチルドレンは、一般
にフィーチャーの第4のクラスを形成する。図1におい
て、フィーチャーのこの第4のクラスは、ペアレント・
クラスタの左でチャイルド・クラスタの上に通常位置す
る。
【0047】ドキュメントは、多くの場合それらの「カ
テゴリー」を記述する語を含んでいない。たとえば「マ
ルチメディア」のカテゴリーにおいて、フィーチャー
「マルチメディア」は、正のドキュメントのわずか13
%のみに出現した。これは、ページの作者による用語の
選択の組み合わせと、多くの場合にメイン・ウェブ・ペ
ージがテキスト・コンテントを有せず「エンターするた
めには、ここをクリックしてください」画像のみにより
表されるためである。
【0048】モデルは、「ドキュメント」が実際に記述
であると想定する。ページ自身に存在する語を使用する
のではなく、図5に示すように、「拡張アンカー・テキ
スト」と呼ばれるであろうものを使用して、実験は繰り
返された。参考文献として本明細書に包含される前掲の
Glover他による文献(非特許文献7)に、拡張アンカ
ー・テキストの記述と、拡張アンカー・テキストがドキ
ュメントのフルテキストよりも「概要」を使用してより
良く一致するフィーチャーを作り出す方法が説明されて
いる。拡張アンカー・テキストを使用して見出されたフ
ィーチャーは、より合理的な名称を作ると見られるクラ
スタを生成する。
【0049】拡張アンカー・テキストとは、目標ページ
へのリンクの近くに出現する語、すなわち、インバウン
ド・リンクにごく近接している語を示す。図5は、拡張
アンカー・テキストの例を概略的に示す。フルテキスト
を使用する代わりに、最高15の拡張アンカー・テキス
トで構成される仮想ドキュメントが使用された。ヤフー
社の提供するポータルサイトあるいはオープン・ディレ
クトリからのインバウンドリンクは除外された。インバ
ウンド・アンカー・テキストを含めて前後に最高25の
語を考慮することにより創り出された仮想ドキュメント
を使用する場合(フルテキストの使用と比較して)、ド
キュメントSiのポジティブ・セット内のセルフ・フィ
ーチャーの使用に著しい増加がある。マルチメディアの
カテゴリーにおいて、フィーチャー「マルチメディア」
は、フルテキストの13%とは対照的に、正の仮想ドキ
ュメントの42%に出現した。集合C(全体のコレクシ
ョン)内のドキュメントの中のフィーチャー「マルチメ
ディア」の出現は、フルテキストおよび仮想ドキュメン
トの両方に対して、約2%と殆ど同一であった。
【0050】図5において、拡張アンカー・テキスト
は、第1のドキュメント、すなわち、たとえば 「AB
CDE」ページ50から、あるいは、第2のドキュメン
ト、すなわち、たとえば「FGHIJ」ページ50から
決定される。他のドキュメント52、52’からページ
50へのインバウンド・リンク51、51’は、当業者
に公知の多数の方法によって見出される。アンカー・テ
キスト53、53’は、ソース・ページ50および5
0’を示す他のページからのハイパーリンクである。一
般的には、大部分の従来のドキュメントにおけるアンカ
ー・テキストは、青いフォントで強調され、ドキュメン
ト内で下線を引かれている。ページ50を示しているペ
ージに対する拡張アンカー・テキストは、ハイパーリン
クおよびハイパーリンクの前後のいくつかの語を含む拡
張アンカー・テキスト54、54’である。ドキュメン
ト52の場合、拡張アンカー・テキスト54は、『私の
好きな検索エンジンは「ABCDE」である』である。
ドキュメント52’では、ドキュメント50に対する拡
張アンカー・テキスト54’は、『検索エンジン「AB
CDE」は、「FGHIJ」によって駆動されている』
である。
【0051】前者の場合には、拡張アンカー・テキスト
は、図5中に示されるように英語で表現した場合、テキ
ストの最後の語「ABCDE」で終わっている。後者の
場合には、語「ABCDE」は、拡張アンカー・テキス
トの中に出現する。
【0052】インバウンド・リンクを取り囲んでいるテ
キストを含めることは、そのページがリンクされている
前後関係と意味を提供する。
【0053】すべてが「正」として識別される(すなわ
ち、1つのトピックについて単一のクラスタ)1組のペ
ージから始まり、次いで1度に1つずつ、ポジティブ・
セットの各ページが検査され、ポジティブ・セットのそ
のページにリンクするページが識別される。上の例で
は、「ABCDE」は正のページであり、「ABCD
E」へのリンクに「近い」語を調査することにより、
「ABCDE」にリンクする第1のページが、ページ
「ABCDE」のトピックが関連するものの若干の表示
を提供する。リンクは、必然的に「ABCDE」のよう
な検索エンジンからではなく、任意のページからであっ
てよい。同じ手順が、コレクション・セットの各ページ
に対して繰り返される。
【0054】同じソース・ドキュメントに対して見出さ
れた拡張アンカー・テキストのすべては、仮想ドキュメ
ント(図示せず)を形成するために一個所に配置され
る。
【0055】表2は、フルテキスト(F列)実験に対し
て、ならびに拡張アンカー・テキスト(V列)実験に対
して、(第1の実験に使用された500からランダムに
選ばれた)各カテゴリーに使用された仮想ドキュメント
の数を列挙している。合計743の仮想ドキュメント
が、ドキュメント集合cとして使用された。仮想ドキュ
メントの生成は非常に費用がかかり、考慮されるページ
の総数の削減を余儀なくされる。仮想ドキュメントから
の改良された要約能力は、より少数のドキュメントを使
用して、処理が作動することを可能にするべきである。
【0056】
【表2】
【0057】
【表3】
【0058】
【表4】 図6は、拡張アンカー・テキストに対して、すべてのペ
アレント、チルドレンおよびセルフ・フィーチャーに対
する結果を示す。ポジティブ・セットSi内のドキュメ
ントのパーセンテージは、セルフがチルドレンからより
明らか分かれるにつれて、一般に右にシフトしている。
図7は、不十分に定義されたチルドレンを除去し、"com
puters" を "computer"で置換した後の結果を示す。極
めて少数のデータ点のみが、各クラスの周囲に定められ
た単純な長方形の領域の外に脱落している。
【0059】大部分のペアレント、チルドレンおよびセ
ルフは示された領域に含まれるが、フィーチャーのステ
ミングを行うことにより、結果を改善することが可能で
ある。たとえば、フィーチャーによっては単数形と複数
形の両方で出現することがあり、1方の形は偽のチャイ
ルドとして出現する。さらに、句はそれらの個別の語よ
りも出現頻度が低い恐れがあり、「人工知能」のような
場合に、セルフを誤ってチルドレンとして出現させる。
この場合、句の出現頻度が比較的低いために、句「人工
知能」はチャイルドとして出現する。
【0060】図7は、41のカテゴリーに対するオープ
ン・ディレクトリからのグラウンド・トルース・フィー
チャーのグラフが、一般に図1の予測されたモデルに従
うことを示すが、このモデルは各カテゴリーに出現する
すべてのフィーチャーをグラフに表さず、オープン・デ
ィレクトリにより割当られたフィーチャーのみがグラフ
に表されている。すべてのフィーチャーを可能性のある
ペアレント、チルドレンおよびセルフとして順位付け、
その出力をオープン・ディレクトリからのグラウンド・
トルース・データと比較するアルゴリズムを使用するこ
とにより、モデルの妥当性は強化される。
【0061】問い合わせの結果、クラスタリング・オペ
レーションから結果として生ずるドキュメント、ブック
マークを付されたドキュメントのリスト、あるいは、手
作業で選択されたドキュメントであってもよい1群のド
キュメント、を使用する。ドキュメントがウェブ・ペー
ジあるいは他のハイパーリンクされたドキュメント・コ
レクションを有するならば、上述のように各ページに対
して仮想ドキュメントが創出されることが望ましい。ハ
イパーリンクされていないドキュメントがあれば、ドキ
ュメントのフルテキスト・バージョンを使用することが
できる。次に、以下のアルゴリズムが適用される。順位
は、結果について実行される。多くの順位付けが可能で
あるが、望ましい順位付けは、フィーチャーを含むドキ
ュメントの最も高いパーセンテージにもとづいた順位に
依存する。表3は、各カテゴリー内の上位2番にランク
されたセルフ・フィーチャーを示し、ここで、順位はフ
ィーチャーを含むポジティブ・セット内のドキュメント
のパーセンテージにもとづいている。
【0062】ペアレント・チルドレンおよびセルフ予測
アルゴリズム 1組の所望のフィーチャーからの各フィーチャーfに対
して、 1.フィーチャーfに次のようにラベルを割り当てる。 if (f.C > maxParentC)[Label = 'N' ] elseif (f.C>maxSelfC)[Label='P' ] elseif (f.Si>minSelfSi)[Label='S' ] elseif ((f.Si<maxChildSi) and (f.C<maxChildC))[Lab
el='C') else [Label='N') 2.各ラベル(P、S、C)に対して、そのラベルを使
用して f.Si により各フィーチャーfを分類する。
【0063】図7からのデータを使用して、次のカット
オフを指定する。 maxParentC = 0.08 maxSelfC = 0.06 minSelfSi= 0.4 maxChildSi = 0.4 maxChildC = 0.02 Siは階層的記述が推測されるべきドキュメントの集合
であり、Cはドキュメントのコレクション・セットであ
り、f.Cはフィーチャーfを含むドキュメントCのコ
レクション・セット内のドキュメントの割合であり、
f.Siはフィーチャーfを含むポジティブ・ドキュメ
ントSiの集合内のドキュメントの割合である。
【0064】上記の望ましいアルゴリズムは、セルフ、
ペアレントおよびチャイルド領域が長方形であり、図1
に示すように接続されている場合に、最も有用である。
領域が、切断されている、および/または部分的に重な
り合っている、および/または非長方形であることが望
ましければ、アルゴリズムは当業者により適宜修正する
ことができる。
【0065】表3は、ペアレント・チルドレンおよびセ
ルフ予測アルゴリズムを使用して、試験された41のカ
テゴリーのそれぞれに対する上位のペアレント・フィー
チャー、上位のセルフ・フィーチャーおよび上位のチル
ドレン・フィーチャーを示す。空白のエントリは、その
カテゴリーに対して指定された領域に、語あるいはフィ
ーチャーがないことを意味する。結果は、すべての41
のカテゴリーにおいて("computers" を "computer"で
置換)、オープン・ディレクトリが割当したペアレント
が上位5に順位付けられたことを示している。カテゴリ
ーの約80%において、上位にランクされたセルフは、
オープン・ディレクトリが割当したセルフと同一である
か、あるいは、実際上同一(同義語、あるいは同一の語
幹)である。リストされない多くの合理的なチルドレン
が存在するので、チルドレンを評価することはより困難
である。
【0066】
【表5】
【0067】
【表6】
【0068】
【表7】
【0069】
【表8】
【0070】
【表9】
【0071】
【表10】
【0072】
【表11】
【0073】
【表12】 アルゴリズムの改良は可能である。第1に、「インター
ネット」のような、いくつかのカテゴリーにおいて、カ
ットオフ点は変化する。アルゴリズムは、所与のカテゴ
リーに対するデータに動的に順応しない。さらに、アル
ゴリズムは境界点を知ることを必要とする。第2に、時
には句は単一の語より正の出現頻度が低い。たとえば、
句「Artificial Intelligence(人工知能)」は、セルフ
の代わりに誤ってチャイルドとして出現する。第3に、
ステミングあるいはインテリジェントなフィーチャー除
去がない。たとえば、「university of(大学)」のよう
なフィーチャーは、ストップ語で終了するので、無視さ
れるべきである。同様に、"consult" とは対照的に "co
nsulting" 、あるいは "computer" とは対照的に "comp
uters" は、すべて語幹の失敗が誤りを起こす例であ
る。別の改良は、効率的でないフィーチャーを自動的に
除去する閾値を適用することである。上述のように、非
長方形の領域が所望であれば、あるいは領域が部分的に
重なり合っていれば、あるいは領域が接続されていなけ
れば、アルゴリズムを変えることが可能である。
【0074】説明した発明は、英文に限定されるもので
はない。日本語を含む、ほとんどの言語が使用できる。
次のリストは、日本の大学のカテゴリーから日本語のウ
ェブ・ページからのフルテキストを使用して、ペアレン
ト・チルドレンおよびセルフ予測アルゴリズムを適用し
た結果を示す。抽出されたフィーチャーは、日本語の単
語であり、英語の翻訳ではない。
【0075】次のデータは、432の「ランダムな」ウ
ェブ・ページ(日本語の)および、367の日本の大学
のページ(同じく日本語の)を使用して収集された。
【0076】上位にランクされたペアレント:年度−ye
ar、学校−school、学−study 上位にランクされたセルフ: 大学−university、入試
−admission examination 上位にランクされたチルドレン: 学生−student、学科
−subject、入学−entrance、科−course、図書館−lib
rary、キャンパス−campus、学部−department、学内−
inside the university、施設−facility、大学院−gra
duate schoolペアレント・チルドレンおよびセルフ予測
アルゴリズムを適用するために使用されたカットオフ値
は近似的に次の通りであった。 maxParentC : = 0.05; maxSelfC = 0.04; minSelfSi = maxChildSi = 0.35; maxChildC = 0.03. さらに本発明はテキスト・ドキュメントのみに限定され
るものではない。本発明は、識別することが可能なフィ
ーチャーが存在するマルチメディア・データ、オーディ
オデータ、画像データ、ビデオデータおよび同等物を含
むが、それらのみに限定されない非テキスト・データに
適用することができる。URL、リンク、あるいは、引
用、参照、クローズド・キャプショニングまたは同等物
のようなテキストの他のソースが非テキスト・データに
利用できれば、拡張アンカー・テキスト方法が使用でき
る。URLあるいはリンクが利用できなければ、非テキ
スト・データを記述するための一般的なフィーチャーが
使用できる。ソースがターゲットたとえば引用参照につ
いての情報を有するドキュメントの間のインターリンキ
ング・システムは、URLの代わりに使用できる。
【0077】これらの方法を使用することにより、サー
チャーはドキュメントのクラスタに容易に名称をつけ、
関連づけることができる。前の問い合わせよりも、より
一般的で、より具体的な別の問い合わせを自動的に推薦
されることにより、サーチャーは利益を得ることが可能
である。問い合わせに対する1組の結果は、予測される
階層にもとづいて拡大することができる。たとえば、利
用者は単語「生物学」を検索し、単語「科学」は単語
「生物学」より一般的であり、単語「植物学」は単語
「生物学」より特有であるとの推薦を受ける。同様に、
たとえば、複数のホームページに関連するいくつかのペ
ージを選択する利用者は、これらのページは「インター
ネット・サービス・プロバイダー」と命名されるべきで
あることを理解することができる。
【0078】要約すれば、比較的小さいドキュメントの
クラスタに対するペアレント、チャイルドおよびセルフ
・フィーチャーの予測に対して、統計モデルを創る方法
を説明し、例示した。セルフ・フィーチャーはクラスタ
の推薦された名称として有用であり、ペアレントおよび
チルドレン・フィーチャーはより大きいコレクションの
スペースにクラスタを「配置する」ために使用すること
ができる。ペアレント・フィーチャーはより一般的な概
念を示唆し、一方チルドレン・フィーチャーはセルフ・
フィーチャーの専門分野を説明する概念を示唆する。グ
ラウンド・トルース・データのグラフ化の実験的なテス
トは、実際のペアレント、チャイルドおよびセルフ・フ
ィーチャーが一般にモデルに従うことを確認した。フィ
ーチャー・ヒストグラムからペアレント、チャイルドお
よびセルフ・フィーチャーを予測することができるアル
ゴリズムを開示した。予測されたフィーチャーは、多く
の場合にグラウンド・トルースと一致し、関連するカテ
ゴリーの間の新しい相互接続を示唆した。
【0079】階層的情報の事前の知識なしに1組のドキ
ュメントから階層的記述を推測する望ましい方法を説明
し例示したが、本明細書に付された特許請求の範囲によ
りのみ制限されるべきである本発明の技術思想と広い範
囲を逸脱せずに、修正および変形がさらに可能であるこ
とは、当業者に明白であろう。
【0080】以上、本発明の実施例について詳述した
が、以下に本発明の実施態様を示す。
【0081】[実施態様1] ドキュメントのポジティ
ブ・セットからフィーチャーの第1のヒストグラムを供
給するステップと、ドキュメントのコレクション・セッ
トからフィーチャーの第2のヒストグラムを供給するス
テップと、前記フィーチャーを含む前記ポジティブ・セ
ット内の前記ドキュメントの割合と、前記フィーチャー
を含む前記コレクション・セット内の前記ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
る1組のドキュメントの階層的記述を推測する方法。
【0082】[実施態様2] ヒストグラム閾値を設定
し、前記第1のヒストグラムおよび前記第2のヒストグ
ラムの両方の中の前記閾値以下のフィーチャーを除去す
るステップをさらに有する実施態様1記載の1組のドキ
ュメントの階層的記述を推測する方法。
【0083】[実施態様3] ドキュメントの前記ポジ
ティブ・セット内の出現の順序により前記フィーチャー
を順位付けることをさらに有する実施態様1記載の1組
のドキュメントの階層的記述を推測する方法。
【0084】[実施態様4] ドキュメントは画像デー
タを有する実施態様1記載の1組のドキュメントの階層
的記述を推測する方法。
【0085】[実施態様5] ドキュメントはテキスト
データを有する実施態様1記載の1組のドキュメントの
階層的記述を推測する方法。
【0086】[実施態様6] 前記テキストデータは英
語以外の言語である実施態様5記載の1組のドキュメン
トの階層的記述を推測する方法。
【0087】[実施態様7] ドキュメントはオーディ
オデータを有する実施態様1記載の1組のドキュメント
の階層的記述を推測する方法。
【0088】[実施態様8] ドキュメントはマルチメ
ディア・データを有する実施態様1記載の1組のドキュ
メントの階層的記述を推測する方法。
【0089】[実施態様9] 前記決定するステップ
は、ペアレント、チルドレンおよびセルフ予測アルゴリ
ズムを使用して実行される実施態様1記載の1組のドキ
ュメントの階層的記述を推測する方法。
【0090】[実施態様10] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様9記載の1組のド
キュメントの階層的記述を推測する方法。
【0091】[実施態様11] ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様9記載の1
組のドキュメントの階層的記述を推測する方法。
【0092】[実施態様12] ドキュメントは画像デ
ータを有する実施態様9記載の1組のドキュメントの階
層的記述を推測する方法。
【0093】[実施態様13] ドキュメントはテキス
トデータを有する実施態様9記載の1組のドキュメント
の階層的記述を推測する方法。
【0094】[実施態様14] 前記テキストデータは
英語以外の言語である実施態様13記載の1組のドキュ
メントの階層的記述を推測する方法。
【0095】[実施態様15] ドキュメントはオーデ
ィオデータを有する実施態様9記載の1組のドキュメン
トの階層的記述を推測する方法。
【0096】[実施態様16] ドキュメントはマルチ
メディア・データを有する実施態様9記載の1組のドキ
ュメントの階層的記述を推測する方法。
【0097】[実施態様17] ドキュメントのポジテ
ィブ・セットを有するURLの第1の集合を得るステッ
プと、ドキュメントのコレクション・セットを有するU
RLの第2の集合を得るステップと、URLの前記第1
の集合内の各URLと、URLの前記第2の集合内の各
URLに対するインバウンド・リンクを決定するステッ
プと、ドキュメントの前記ポジティブ・セット内の各U
RLに対する仮想ドキュメントと、ドキュメントの前記
コレクション・セット内の各URLに対する仮想ドキュ
メントを創るステップと、URLの前記第1の集合と組
み合わされた前記仮想ドキュメントからフィーチャーの
第1のヒストグラムを供給するステップと、URLの前
記第2の集合と組み合わされた前記仮想ドキュメントか
らフィーチャーの第2のヒストグラムを供給するステッ
プと、前記フィーチャーを含むドキュメントの前記ポジ
ティブ・セットと組み合わされた前記仮想ドキュメント
の割合と、前記フィーチャーを含むドキュメントの前記
コレクション・セットと組み合わされた前記仮想ドキュ
メントの割合にもとづいて、各フィーチャーがセルフ・
フィーチャー、ペアレント・フィーチャーあるいはチャ
イルド・フィーチャーであるか否かを決定するステップ
を有するウェブ・ページを有する1組のドキュメントの
階層的記述を推測する方法。
【0098】[実施態様18] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様17記載の1組の
ドキュメントの階層的記述を推測する方法。
【0099】[実施態様19] ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様17記載の
1組のドキュメントの階層的記述を推測する方法。
【0100】[実施態様20] URLは画像データを
含むページを示す実施態様17記載の1組のドキュメン
トの階層的記述を推測する方法。
【0101】[実施態様21] URLはテキストデー
タを含むページを示す実施態様17記載の1組のドキュ
メントの階層的記述を推測する方法。
【0102】[実施態様22] 前記テキストデータは
英語以外の言語である実施態様21記載の1組のドキュ
メントの階層的記述を推測する方法。
【0103】[実施態様23] URLはオーディオデ
ータを含むページを示す実施態様17記載の1組のドキ
ュメントの階層的記述を推測する方法。
【0104】[実施態様24] URLはマルチメディ
ア・データを含むページを示す実施態様17記載の1組
のドキュメントの階層的記述を推測する方法。
【0105】[実施態様25] 各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様17記載の
ウェブ・ページを有する1組のドキュメントの階層的記
述を推測する方法。
【0106】[実施態様26] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様25記載の1組の
ドキュメントの階層的記述を推測する方法。
【0107】[実施態様27] ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様25記載の
1組のドキュメントの階層的記述を推測する方法。
【0108】[実施態様28] URLは画像データを
含むページを示す実施態様25記載の1組のドキュメン
トの階層的記述を推測する方法。
【0109】[実施態様29] URLはテキストデー
タを含むページを示す実施態様25記載の1組のドキュ
メントの階層的記述を推測する方法。
【0110】[実施態様30] 前記テキストデータは
英語以外の言語である実施態様29記載の1組のドキュ
メントの階層的記述を推測する方法。
【0111】[実施態様31] URLはオーディオデ
ータを含むページを示す実施態様25記載の1組のドキ
ュメントの階層的記述を推測する方法。
【0112】[実施態様32] URLはマルチメディ
ア・データを含むページを示す実施態様25記載の1組
のドキュメントの階層的記述を推測する方法。
【0113】[実施態様33] 情報検索システムに検
索問い合わせを提出するステップと、前記検索問い合わ
せに応答する前記情報検索システムからのドキュメント
の第1の集合を検索するステップと、ドキュメントの第
2の集合を供給するステップと、前記第1の集合のドキ
ュメント内の各検索されたドキュメントに対して、なら
びにドキュメントの前記第2の集合内の各ドキュメント
に対して、インバウンド・リンクを決定するステップ
と、ドキュメントの前記第1の集合内の各ドキュメント
に対して、ならびにドキュメントの前記第2の集合内の
各ドキュメントに対して、仮想ドキュメントを創出する
ステップと、ドキュメントの前記第1の集合と組み合わ
された前記仮想ドキュメント内にフィーチャーの第1の
ヒストグラムを創出するステップと、ドキュメントの前
記第2の集合と組み合わされた前記仮想ドキュメント内
にフィーチャーの第2のヒストグラムを創出するステッ
プと、前記フィーチャーを含むドキュメントの前記ポジ
ティブ・セットと組み合わされた前記仮想ドキュメント
の割合と、前記フィーチャーを含むドキュメントの前記
コレクション・セットと組み合わされた前記仮想ドキュ
メントの割合にもとづいて、各フィーチャーがセルフ・
フィーチャー、ペアレント・フィーチャーあるいはチャ
イルド・フィーチャーであるか否かを決定するステップ
と、フィーチャーの分類に応答する前記検索問い合わせ
を変えるステップを有する1組のドキュメントの推測に
もとづく階層的記述を使用する情報検索システムの検索
方法。
【0114】[実施態様34] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様33記載の1組の
ドキュメントの推測にもとづく階層的記述を使用する情
報検索システムの検索方法。
【0115】[実施態様35] ドキュメントの前記第
1の集合内の出現の順序により前記フィーチャーを順位
付けることをさらに有する実施態様33記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
【0116】[実施態様36] 検索範囲を広げるため
に、検索の問い合わせがペアレント・フィーチャーに変
えられた実施態様33記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
【0117】[実施態様37] 検索範囲を狭めるため
に、検索の問い合わせがチャイルド・フィーチャーに変
えられた実施態様33記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
【0118】[実施態様38] ドキュメントは画像デ
ータを有する実施態様33記載の1組のドキュメントの
推測にもとづく階層的記述を使用する情報検索システム
の検索方法。
【0119】[実施態様39] ドキュメントはテキス
トデータを有する実施態様33記載の1組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。
【0120】[実施態様40] 前記テキストデータは
英語以外の言語である実施態様39記載の1組のドキュ
メントの推測にもとづく階層的記述を使用する情報検索
システムの検索方法。
【0121】[実施態様41] ドキュメントはオーデ
ィオデータを有する実施態様33記載の1組のドキュメ
ントの推測にもとづく階層的記述を使用する情報検索シ
ステムの検索方法。
【0122】[実施態様42] ドキュメントはマルチ
メディア・データを有する実施態様33記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
【0123】[実施態様43] 各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様33記載の
1組のドキュメントの推測にもとづく階層的記述を使用
する情報検索システムの検索方法。
【0124】[実施態様44] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様43記載の1組の
ドキュメントの推測にもとづく階層的記述を使用する情
報検索システムの検索方法。
【0125】[実施態様45] ドキュメントの前記第
1の集合内の出現の順序により前記フィーチャーを順位
付けることをさらに有する実施態様43記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
【0126】[実施態様46] 検索範囲を広げるため
に、検索の問い合わせをペアレント・フィーチャーに変
えた実施態様43記載の1組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。
【0127】[実施態様47] 検索範囲を狭めるため
に、検索の問い合わせをチャイルド・フィーチャーに変
えた実施態様43記載の1組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。
【0128】[実施態様48] ドキュメントは画像デ
ータを有する実施態様43記載の1組のドキュメントの
推測にもとづく階層的記述を使用する情報検索システム
の検索方法。
【0129】[実施態様49] ドキュメントはテキス
トデータを有する実施態様43記載の1組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。
【0130】[実施態様50] 前記テキストデータは
英語以外の言語である実施態様49記載の1組のドキュ
メントの推測にもとづく階層的記述を使用する情報検索
システムの検索方法。
【0131】[実施態様51] ドキュメントはオーデ
ィオデータを有する実施態様43記載の1組のドキュメ
ントの推測にもとづく階層的記述を使用する情報検索シ
ステムの検索方法。
【0132】[実施態様52] ドキュメントはマルチ
メディア・データを有する実施態様43記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
【0133】[実施態様53] (a)ドキュメントの
集合の階層を設けるステップと、(b)ドキュメントの
コレクション・セットを設けるステップと、(c)前記
階層内の1組のドキュメント内の各ドキュメントに対し
て、ならびにドキュメントの前記コレクション・セット
内の各ドキュメントに対して、インバウンド・リンクを
決定するステップと、(d)前記階層内のドキュメント
の前記集合内の各ドキュメントに対して、ならびにドキ
ュメントの前記コレクション・セット内の各ドキュメン
トに対して、仮想ドキュメントを創出するステップと、
(e)前記階層内のドキュメントの前記集合と組み合わ
された前記仮想ドキュメントからフィーチャーの第1の
ヒストグラムを創出するステップと、(f)ドキュメン
トの前記コレクション・セットと組み合わされた前記仮
想ドキュメントからフィーチャーの第2のヒストグラム
を創出するステップと、(g)前記フィーチャーを含む
前記階層内のドキュメントの前記集合と組み合わされた
前記仮想ドキュメントの割合と、前記フィーチャーを含
むドキュメントの前記コレクション・セットと組み合わ
された仮想ドキュメントの割合にもとづいて、各フィー
チャーがセルフ・フィーチャー、ペアレント・フィーチ
ャーあるいはチャイルド・フィーチャーであるか否かを
決定するステップと、(h)ドキュメントの集合の前記
階層内のドキュメントの各集合に対してステップ(c)
からステップ(g)を繰り返すステップと、(i)各フ
ィーチャーを決定することに応答するドキュメントの集
合の前記階層に符号を付けるステップを有するドキュメ
ントの集合の推測にもとづく記述を使用してドキュメン
ト・ディレクトリに符号を付ける方法。
【0134】[実施態様54] 各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様53記載の
ドキュメントの集合の推測にもとづく記述を使用してド
キュメント・ディレクトリに符号を付ける方法。
【0135】[実施態様55] (a)ドキュメントの
集合の階層を設けるステップと、(b)ドキュメントの
コレクション・セットを設けるステップと、(c)前記
階層内のドキュメントの各集合からフィーチャーの第1
のヒストグラムを創出するステップと、(d)ドキュメ
ントの前記コレクション・セットからフィーチャーの第
2のヒストグラムを創出するステップと、(e)前記フ
ィーチャーを含む前記階層内のドキュメントの前記集合
と組み合わされたドキュメントの割合と、前記フィーチ
ャーを含むドキュメントの前記コレクション・セットと
組み合わされたドキュメントの割合にもとづいて、各フ
ィーチャーがセルフ・フィーチャー、ペアレント・フィ
ーチャーあるいはチャイルド・フィーチャーであるか否
かを決定するステップと、(f)ドキュメントの集合の
前記階層内のドキュメントの各集合に対してステップ
(c)からステップ(e)を繰り返すステップと、
(g)各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。
【0136】[実施態様56] 各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様55記載の
ドキュメントの集合の推測にもとづく記述を使用してド
キュメント・ディレクトリに符号を付ける方法。
【0137】[実施態様57] ドキュメントのポジテ
ィブ・セットを有するドキュメントの第1の集合を得る
ステップと、ドキュメントのコレクション・セットを有
するドキュメントの第2の集合を得るステップと、ドキ
ュメントの前記第1の集合内の各ドキュメントに対し
て、ならびにドキュメントの前記第2の集合内の各ドキ
ュメントに対して、インバウンド・リンクを決定するス
テップと、ドキュメントの前記ポジティブ・セット内の
各ドキュメントに対する仮想ドキュメント、およびドキ
ュメントの前記コレクション・セット内の各ドキュメン
トに対する仮想ドキュメントを創出するステップと、ド
キュメントの前記第1の集合と組み合わされた前記仮想
ドキュメントからフィーチャーの第1のヒストグラムを
供給するステップと、ドキュメントの前記第2の集合と
組み合わされた前記仮想ドキュメントからフィーチャー
の第2のヒストグラムを供給するステップと、前記フィ
ーチャーを含むドキュメントの前記ポジティブ・セット
と組み合わされた前記仮想ドキュメントの割合と、前記
フィーチャーを含むドキュメントの前記コレクション・
セットと組み合わされた前記仮想ドキュメントの割合に
もとづいて、各フィーチャーがセルフ・フィーチャー、
ペアレント・フィーチャーあるいはチャイルド・フィー
チャーであるか否かを決定するステップを有する1組の
ドキュメントの階層的記述を推測する方法。
【0138】[実施態様58] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様57記載の1組の
ドキュメントの階層的記述を推測する方法。
【0139】[実施態様59] ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様57記載の
1組のドキュメントの階層的記述を推測する方法。
【0140】[実施態様60] ドキュメントは画像デ
ータを含む実施態様57記載の1組のドキュメントの階
層的記述を推測する方法。
【0141】[実施態様61] ドキュメントはテキス
トデータを含む実施態様57記載の1組のドキュメント
の階層的記述を推測する方法。
【0142】[実施態様62] 前記テキストデータは
英語以外の言語である実施態様61記載の1組のドキュ
メントの階層的記述を推測する方法。
【0143】[実施態様63] ドキュメントはオーデ
ィオデータを含む実施態様57記載の1組のドキュメン
トの階層的記述を推測する方法。
【0144】[実施態様64] ドキュメントはマルチ
メディア・データを含む実施態様57記載の1組のドキ
ュメントの階層的記述を推測する方法。
【0145】[実施態様65] 各フィーチャーがセル
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様57記載の
1組のドキュメントの階層的記述を推測する方法。
【0146】[実施態様66] ヒストグラム閾値を設
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様65記載の1組の
ドキュメントの階層的記述を推測する方法。
【0147】[実施態様67] ドキュメントの前記ポ
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様65記載の
1組のドキュメントの階層的記述を推測する方法。
【0148】[実施態様68] ドキュメントは画像デ
ータを含む実施態様65記載の1組のドキュメントの階
層的記述を推測する方法。
【0149】[実施態様69] ドキュメントはテキス
トデータを含む実施態様65記載の1組のドキュメント
の階層的記述を推測する方法。
【0150】[実施態様70] 前記テキストデータは
英語以外の言語である実施態様69記載の1組のドキュ
メントの階層的記述を推測する方法。
【0151】[実施態様71] ドキュメントはオーデ
ィオデータを含む実施態様65記載の1組のドキュメン
トの階層的記述を推測する方法。
【0152】[実施態様72] ドキュメントはマルチ
メディア・データを含む実施態様65記載の1組のドキ
ュメントの階層的記述を推測する方法。
【図面の簡単な説明】
【図1】ペアレント・フィーチャー、チャイルド・フィ
ーチャーおよびセルフ・フィーチャーの間の予測される
関係を示すグラフ図である。
【図2】生物学のセルフ・フィーチャー、科学のペアレ
ント・フィーチャーおよび植物学のチャイルド・フィー
チャーに対するフィーチャーの分布の見本である。
【図3】オープン・ディレクトリからのグラウンド・ト
ルース・フィーチャーの分布のグラフである。
【図4】ペアレントが「computers」から「computer」
に変わり、ペアレントの知識無しに定義されなかったサ
ブカテゴリーのいくつか、すなわち、「ニュース」ある
いは「リソース」が除去されたこと以外は、図3に類似
のグラフである。
【図5】拡張アンカーテキストの概念図である。
【図6】フルテキストの代わりに拡張アンカーテキスト
仮想ドキュメントを使用した、オープン・ディレクトリ
からのグラウンド・トルース・フィーチャーのグラフで
ある。
【図7】ペアレントが「computers」から「computer」
に変わり、不十分に定義されたチルドレンが除去され、
フルテキストの代わりに拡張アンカーテキスト仮想ドキ
ュメントを使用した、オープン・ディレクトリからのグ
ラウンド・トルース・フィーチャーのグラフである。
【符号の説明】 10 ペアレント・フィーチャー 12 チャイルド・フィーチャー 14 セルフ・フィーチャー
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ステファン ロバート ローレンス アメリカ合衆国、 ニュージャージー 08540 プリンストン、 4 インディペ ンデンス ウェイ エヌ イー シー リ サーチ インスティテューテュ インク内 (72)発明者 ディビッド ぺノック アメリカ合衆国、 ニュージャージー 08540 プリンストン、 4 インディペ ンデンス ウェイ エヌ イー シー リ サーチ インスティテューテュ インク内 Fターム(参考) 5B075 KK02 ND16 NR05 NR12 NS10 PR06 QM05 QS01

Claims (72)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメントのポジティブ・セットから
    フィーチャーの第1のヒストグラムを供給するステップ
    と、 ドキュメントのコレクション・セットからフィーチャー
    の第2のヒストグラムを供給するステップと、 前記フィーチャーを含む前記ポジティブ・セット内の前
    記ドキュメントの割合と、前記フィーチャーを含む前記
    コレクション・セット内の前記ドキュメントの割合にも
    とづいて、各フィーチャーがセルフ・フィーチャー、ペ
    アレント・フィーチャーあるいはチャイルド・フィーチ
    ャーであるか否かを決定するステップを有する1組のド
    キュメントの階層的記述を推測する方法。
  2. 【請求項2】 ヒストグラム閾値を設定し、前記第1の
    ヒストグラムおよび前記第2のヒストグラムの両方の中
    の前記閾値以下のフィーチャーを除去するステップをさ
    らに有する請求項1記載の1組のドキュメントの階層的
    記述を推測する方法。
  3. 【請求項3】 ドキュメントの前記ポジティブ・セット
    内の出現の順序により前記フィーチャーを順位付けるこ
    とをさらに有する請求項1記載の1組のドキュメントの
    階層的記述を推測する方法。
  4. 【請求項4】 ドキュメントは画像データを有する請求
    項1記載の1組のドキュメントの階層的記述を推測する
    方法。
  5. 【請求項5】 ドキュメントはテキストデータを有する
    請求項1記載の1組のドキュメントの階層的記述を推測
    する方法。
  6. 【請求項6】 前記テキストデータは英語以外の言語で
    ある請求項5記載の1組のドキュメントの階層的記述を
    推測する方法。
  7. 【請求項7】 ドキュメントはオーディオデータを有す
    る請求項1記載の1組のドキュメントの階層的記述を推
    測する方法。
  8. 【請求項8】 ドキュメントはマルチメディア・データ
    を有する請求項1記載の1組のドキュメントの階層的記
    述を推測する方法。
  9. 【請求項9】 前記決定するステップは、ペアレント、
    チルドレンおよびセルフ予測アルゴリズムを使用して実
    行される請求項1記載の1組のドキュメントの階層的記
    述を推測する方法。
  10. 【請求項10】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項9記載の1組のドキュメントの階層
    的記述を推測する方法。
  11. 【請求項11】 ドキュメントの前記ポジティブ・セッ
    ト内の出現の順序により前記フィーチャーを順位付ける
    ことをさらに有する請求項9記載の1組のドキュメント
    の階層的記述を推測する方法。
  12. 【請求項12】 ドキュメントは画像データを有する請
    求項9記載の1組のドキュメントの階層的記述を推測す
    る方法。
  13. 【請求項13】 ドキュメントはテキストデータを有す
    る請求項9記載の1組のドキュメントの階層的記述を推
    測する方法。
  14. 【請求項14】 前記テキストデータは英語以外の言語
    である請求項13記載の1組のドキュメントの階層的記
    述を推測する方法。
  15. 【請求項15】 ドキュメントはオーディオデータを有
    する請求項9記載の1組のドキュメントの階層的記述を
    推測する方法。
  16. 【請求項16】 ドキュメントはマルチメディア・デー
    タを有する請求項9記載の1組のドキュメントの階層的
    記述を推測する方法。
  17. 【請求項17】 ドキュメントのポジティブ・セットを
    有するURLの第1の集合を得るステップと、 ドキュメントのコレクション・セットを有するURLの
    第2の集合を得るステップと、 URLの前記第1の集合内の各URLと、URLの前記
    第2の集合内の各URLに対するインバウンド・リンク
    を決定するステップと、 ドキュメントの前記ポジティブ・セット内の各URLに
    対する仮想ドキュメントと、ドキュメントの前記コレク
    ション・セット内の各URLに対する仮想ドキュメント
    を創るステップと、 URLの前記第1の集合と組み合わされた前記仮想ドキ
    ュメントからフィーチャーの第1のヒストグラムを供給
    するステップと、 URLの前記第2の集合と組み合わされた前記仮想ドキ
    ュメントからフィーチャーの第2のヒストグラムを供給
    するステップと、 前記フィーチャーを含むドキュメントの前記ポジティブ
    ・セットと組み合わされた前記仮想ドキュメントの割合
    と、前記フィーチャーを含むドキュメントの前記コレク
    ション・セットと組み合わされた前記仮想ドキュメント
    の割合にもとづいて、各フィーチャーがセルフ・フィー
    チャー、ペアレント・フィーチャーあるいはチャイルド
    ・フィーチャーであるか否かを決定するステップを有す
    るウェブ・ページを有する1組のドキュメントの階層的
    記述を推測する方法。
  18. 【請求項18】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項17記載の1組のドキュメントの階
    層的記述を推測する方法。
  19. 【請求項19】 ドキュメントの前記ポジティブ・セッ
    ト内の出現の順序により前記フィーチャーを順位付ける
    ことをさらに有する請求項17記載の1組のドキュメン
    トの階層的記述を推測する方法。
  20. 【請求項20】 URLは画像データを含むページを示
    す請求項17記載の1組のドキュメントの階層的記述を
    推測する方法。
  21. 【請求項21】 URLはテキストデータを含むページ
    を示す請求項17記載の1組のドキュメントの階層的記
    述を推測する方法。
  22. 【請求項22】 前記テキストデータは英語以外の言語
    である請求項21記載の1組のドキュメントの階層的記
    述を推測する方法。
  23. 【請求項23】 URLはオーディオデータを含むペー
    ジを示す請求項17記載の1組のドキュメントの階層的
    記述を推測する方法。
  24. 【請求項24】 URLはマルチメディア・データを含
    むページを示す請求項17記載の1組のドキュメントの
    階層的記述を推測する方法。
  25. 【請求項25】 各フィーチャーがセルフ・フィーチャ
    ー、ペアレント・フィーチャーあるいはチャイルド・フ
    ィーチャーであるか否かを決定する前記ステップは、ペ
    アレント、チルドレンおよびセルフ予測アルゴリズムを
    使用して実行される請求項17記載のウェブ・ページを
    有する1組のドキュメントの階層的記述を推測する方
    法。
  26. 【請求項26】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項25記載の1組のドキュメントの階
    層的記述を推測する方法。
  27. 【請求項27】 ドキュメントの前記ポジティブ・セッ
    ト内の出現の順序により前記フィーチャーを順位付ける
    ことをさらに有する請求項25記載の1組のドキュメン
    トの階層的記述を推測する方法。
  28. 【請求項28】 URLは画像データを含むページを示
    す請求項25記載の1組のドキュメントの階層的記述を
    推測する方法。
  29. 【請求項29】 URLはテキストデータを含むページ
    を示す請求項25記載の1組のドキュメントの階層的記
    述を推測する方法。
  30. 【請求項30】 前記テキストデータは英語以外の言語
    である請求項29記載の1組のドキュメントの階層的記
    述を推測する方法。
  31. 【請求項31】 URLはオーディオデータを含むペー
    ジを示す請求項25記載の1組のドキュメントの階層的
    記述を推測する方法。
  32. 【請求項32】 URLはマルチメディア・データを含
    むページを示す請求項25記載の1組のドキュメントの
    階層的記述を推測する方法。
  33. 【請求項33】 情報検索システムに検索問い合わせを
    提出するステップと、 前記検索問い合わせに応答する前記情報検索システムか
    らのドキュメントの第1の集合を検索するステップと、 ドキュメントの第2の集合を供給するステップと、 前記第1の集合のドキュメント内の各検索されたドキュ
    メントに対して、ならびにドキュメントの前記第2の集
    合内の各ドキュメントに対して、インバウンド・リンク
    を決定するステップと、 ドキュメントの前記第1の集合内の各ドキュメントに対
    して、ならびにドキュメントの前記第2の集合内の各ド
    キュメントに対して、仮想ドキュメントを創出するステ
    ップと、 ドキュメントの前記第1の集合と組み合わされた前記仮
    想ドキュメント内にフィーチャーの第1のヒストグラム
    を創出するステップと、 ドキュメントの前記第2の集合と組み合わされた前記仮
    想ドキュメント内にフィーチャーの第2のヒストグラム
    を創出するステップと、 前記フィーチャーを含むドキュメントの前記ポジティブ
    ・セットと組み合わされた前記仮想ドキュメントの割合
    と、前記フィーチャーを含むドキュメントの前記コレク
    ション・セットと組み合わされた前記仮想ドキュメント
    の割合にもとづいて、各フィーチャーがセルフ・フィー
    チャー、ペアレント・フィーチャーあるいはチャイルド
    ・フィーチャーであるか否かを決定するステップと、 フィーチャーの分類に応答する前記検索問い合わせを変
    えるステップを有する1組のドキュメントの推測にもと
    づく階層的記述を使用する情報検索システムの検索方
    法。
  34. 【請求項34】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項33記載の1組のドキュメントの推
    測にもとづく階層的記述を使用する情報検索システムの
    検索方法。
  35. 【請求項35】 ドキュメントの前記第1の集合内の出
    現の順序により前記フィーチャーを順位付けることをさ
    らに有する請求項33記載の1組のドキュメントの推測
    にもとづく階層的記述を使用する情報検索システムの検
    索方法。
  36. 【請求項36】 検索範囲を広げるために、検索の問い
    合わせがペアレント・フィーチャーに変えられた請求項
    33記載の1組のドキュメントの推測にもとづく階層的
    記述を使用する情報検索システムの検索方法。
  37. 【請求項37】 検索範囲を狭めるために、検索の問い
    合わせがチャイルド・フィーチャーに変えられた請求項
    33記載の1組のドキュメントの推測にもとづく階層的
    記述を使用する情報検索システムの検索方法。
  38. 【請求項38】 ドキュメントは画像データを有する請
    求項33記載の1組のドキュメントの推測にもとづく階
    層的記述を使用する情報検索システムの検索方法。
  39. 【請求項39】 ドキュメントはテキストデータを有す
    る請求項33記載の1組のドキュメントの推測にもとづ
    く階層的記述を使用する情報検索システムの検索方法。
  40. 【請求項40】 前記テキストデータは英語以外の言語
    である請求項39記載の1組のドキュメントの推測にも
    とづく階層的記述を使用する情報検索システムの検索方
    法。
  41. 【請求項41】 ドキュメントはオーディオデータを有
    する請求項33記載の1組のドキュメントの推測にもと
    づく階層的記述を使用する情報検索システムの検索方
    法。
  42. 【請求項42】 ドキュメントはマルチメディア・デー
    タを有する請求項33記載の1組のドキュメントの推測
    にもとづく階層的記述を使用する情報検索システムの検
    索方法。
  43. 【請求項43】 各フィーチャーがセルフ・フィーチャ
    ー、ペアレント・フィーチャーあるいはチャイルド・フ
    ィーチャーであるか否かを決定する前記ステップは、ペ
    アレント、チルドレンおよびセルフ予測アルゴリズムを
    使用して実行される請求項33記載の1組のドキュメン
    トの推測にもとづく階層的記述を使用する情報検索シス
    テムの検索方法。
  44. 【請求項44】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項43記載の1組のドキュメントの推
    測にもとづく階層的記述を使用する情報検索システムの
    検索方法。
  45. 【請求項45】 ドキュメントの前記第1の集合内の出
    現の順序により前記フィーチャーを順位付けることをさ
    らに有する請求項43記載の1組のドキュメントの推測
    にもとづく階層的記述を使用する情報検索システムの検
    索方法。
  46. 【請求項46】 検索範囲を広げるために、検索の問い
    合わせをペアレント・フィーチャーに変えた請求項43
    記載の1組のドキュメントの推測にもとづく階層的記述
    を使用する情報検索システムの検索方法。
  47. 【請求項47】 検索範囲を狭めるために、検索の問い
    合わせをチャイルド・フィーチャーに変えた請求項43
    記載の1組のドキュメントの推測にもとづく階層的記述
    を使用する情報検索システムの検索方法。
  48. 【請求項48】 ドキュメントは画像データを有する請
    求項43記載の1組のドキュメントの推測にもとづく階
    層的記述を使用する情報検索システムの検索方法。
  49. 【請求項49】 ドキュメントはテキストデータを有す
    る請求項43記載の1組のドキュメントの推測にもとづ
    く階層的記述を使用する情報検索システムの検索方法。
  50. 【請求項50】 前記テキストデータは英語以外の言語
    である請求項49記載の1組のドキュメントの推測にも
    とづく階層的記述を使用する情報検索システムの検索方
    法。
  51. 【請求項51】 ドキュメントはオーディオデータを有
    する請求項43記載の1組のドキュメントの推測にもと
    づく階層的記述を使用する情報検索システムの検索方
    法。
  52. 【請求項52】 ドキュメントはマルチメディア・デー
    タを有する請求項43記載の1組のドキュメントの推測
    にもとづく階層的記述を使用する情報検索システムの検
    索方法。
  53. 【請求項53】 (a)ドキュメントの集合の階層を設
    けるステップと、 (b)ドキュメントのコレクション・セットを設けるス
    テップと、 (c)前記階層内の1組のドキュメント内の各ドキュメ
    ントに対して、ならびにドキュメントの前記コレクショ
    ン・セット内の各ドキュメントに対して、インバウンド
    ・リンクを決定するステップと、 (d)前記階層内のドキュメントの前記集合内の各ドキ
    ュメントに対して、ならびにドキュメントの前記コレク
    ション・セット内の各ドキュメントに対して、仮想ドキ
    ュメントを創出するステップと、 (e)前記階層内のドキュメントの前記集合と組み合わ
    された前記仮想ドキュメントからフィーチャーの第1の
    ヒストグラムを創出するステップと、 (f)ドキュメントの前記コレクション・セットと組み
    合わされた前記仮想ドキュメントからフィーチャーの第
    2のヒストグラムを創出するステップと、 (g)前記フィーチャーを含む前記階層内のドキュメン
    トの前記集合と組み合わされた前記仮想ドキュメントの
    割合と、前記フィーチャーを含むドキュメントの前記コ
    レクション・セットと組み合わされた仮想ドキュメント
    の割合にもとづいて、各フィーチャーがセルフ・フィー
    チャー、ペアレント・フィーチャーあるいはチャイルド
    ・フィーチャーであるか否かを決定するステップと、 (h)ドキュメントの集合の前記階層内のドキュメント
    の各集合に対してステップ(c)からステップ(g)を
    繰り返すステップと、 (i)各フィーチャーを決定することに応答するドキュ
    メントの集合の前記階層に符号を付けるステップを有す
    るドキュメントの集合の推測にもとづく記述を使用して
    ドキュメント・ディレクトリに符号を付ける方法。
  54. 【請求項54】 各フィーチャーがセルフ・フィーチャ
    ー、ペアレント・フィーチャーあるいはチャイルド・フ
    ィーチャーであるか否かを決定する前記ステップは、ペ
    アレント、チルドレンおよびセルフ予測アルゴリズムを
    使用して実行される請求項53記載のドキュメントの集
    合の推測にもとづく記述を使用してドキュメント・ディ
    レクトリに符号を付ける方法。
  55. 【請求項55】 (a)ドキュメントの集合の階層を設
    けるステップと、 (b)ドキュメントのコレクション・セットを設けるス
    テップと、 (c)前記階層内のドキュメントの各集合からフィーチ
    ャーの第1のヒストグラムを創出するステップと、 (d)ドキュメントの前記コレクション・セットからフ
    ィーチャーの第2のヒストグラムを創出するステップ
    と、 (e)前記フィーチャーを含む前記階層内のドキュメン
    トの前記集合と組み合わされたドキュメントの割合と、
    前記フィーチャーを含むドキュメントの前記コレクショ
    ン・セットと組み合わされたドキュメントの割合にもと
    づいて、各フィーチャーがセルフ・フィーチャー、ペア
    レント・フィーチャーあるいはチャイルド・フィーチャ
    ーであるか否かを決定するステップと、 (f)ドキュメントの集合の前記階層内のドキュメント
    の各集合に対してステップ(c)からステップ(e)を
    繰り返すステップと、 (g)各フィーチャーを決定することに応答するドキュ
    メントの集合の前記階層に符号を付けるステップを有す
    るドキュメントの集合の推測にもとづく記述を使用して
    ドキュメント・ディレクトリに符号を付ける方法。
  56. 【請求項56】 各フィーチャーがセルフ・フィーチャ
    ー、ペアレント・フィーチャーあるいはチャイルド・フ
    ィーチャーであるか否かを決定する前記ステップは、ペ
    アレント、チルドレンおよびセルフ予測アルゴリズムを
    使用して実行される請求項55記載のドキュメントの集
    合の推測にもとづく記述を使用してドキュメント・ディ
    レクトリに符号を付ける方法。
  57. 【請求項57】 ドキュメントのポジティブ・セットを
    有するドキュメントの第1の集合を得るステップと、 ドキュメントのコレクション・セットを有するドキュメ
    ントの第2の集合を得るステップと、 ドキュメントの前記第1の集合内の各ドキュメントに対
    して、ならびにドキュメントの前記第2の集合内の各ド
    キュメントに対して、インバウンド・リンクを決定する
    ステップと、 ドキュメントの前記ポジティブ・セット内の各ドキュメ
    ントに対する仮想ドキュメント、およびドキュメントの
    前記コレクション・セット内の各ドキュメントに対する
    仮想ドキュメントを創出するステップと、 ドキュメントの前記第1の集合と組み合わされた前記仮
    想ドキュメントからフィーチャーの第1のヒストグラム
    を供給するステップと、 ドキュメントの前記第2の集合と組み合わされた前記仮
    想ドキュメントからフィーチャーの第2のヒストグラム
    を供給するステップと、 前記フィーチャーを含むドキュメントの前記ポジティブ
    ・セットと組み合わされた前記仮想ドキュメントの割合
    と、前記フィーチャーを含むドキュメントの前記コレク
    ション・セットと組み合わされた前記仮想ドキュメント
    の割合にもとづいて、各フィーチャーがセルフ・フィー
    チャー、ペアレント・フィーチャーあるいはチャイルド
    ・フィーチャーであるか否かを決定するステップを有す
    る1組のドキュメントの階層的記述を推測する方法。
  58. 【請求項58】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項57記載の1組のドキュメントの階
    層的記述を推測する方法。
  59. 【請求項59】 ドキュメントの前記ポジティブ・セッ
    ト内の出現の順序により前記フィーチャーを順位付ける
    ことをさらに有する請求項57記載の1組のドキュメン
    トの階層的記述を推測する方法。
  60. 【請求項60】 ドキュメントは画像データを含む請求
    項57記載の1組のドキュメントの階層的記述を推測す
    る方法。
  61. 【請求項61】 ドキュメントはテキストデータを含む
    請求項57記載の1組のドキュメントの階層的記述を推
    測する方法。
  62. 【請求項62】 前記テキストデータは英語以外の言語
    である請求項61記載の1組のドキュメントの階層的記
    述を推測する方法。
  63. 【請求項63】 ドキュメントはオーディオデータを含
    む請求項57記載の1組のドキュメントの階層的記述を
    推測する方法。
  64. 【請求項64】 ドキュメントはマルチメディア・デー
    タを含む請求項57記載の1組のドキュメントの階層的
    記述を推測する方法。
  65. 【請求項65】 各フィーチャーがセルフ・フィーチャ
    ー、ペアレント・フィーチャーあるいはチャイルド・フ
    ィーチャーであるか否かを決定する前記ステップは、ペ
    アレント、チルドレンおよびセルフ予測アルゴリズムを
    使用して実行される請求項57記載の1組のドキュメン
    トの階層的記述を推測する方法。
  66. 【請求項66】 ヒストグラム閾値を設定し、前記第1
    のヒストグラムおよび前記第2のヒストグラムの両方の
    中の前記閾値以下のフィーチャーを除去するステップを
    さらに有する請求項65記載の1組のドキュメントの階
    層的記述を推測する方法。
  67. 【請求項67】 ドキュメントの前記ポジティブ・セッ
    ト内の出現の順序により前記フィーチャーを順位付ける
    ことをさらに有する請求項65記載の1組のドキュメン
    トの階層的記述を推測する方法。
  68. 【請求項68】 ドキュメントは画像データを含む請求
    項65記載の1組のドキュメントの階層的記述を推測す
    る方法。
  69. 【請求項69】 ドキュメントはテキストデータを含む
    請求項65記載の1組のドキュメントの階層的記述を推
    測する方法。
  70. 【請求項70】 前記テキストデータは英語以外の言語
    である請求項69記載の1組のドキュメントの階層的記
    述を推測する方法。
  71. 【請求項71】 ドキュメントはオーディオデータを含
    む請求項65記載の1組のドキュメントの階層的記述を
    推測する方法。
  72. 【請求項72】 ドキュメントはマルチメディア・デー
    タを含む請求項65記載の1組のドキュメントの階層的
    記述を推測する方法。
JP2003020236A 2002-02-22 2003-01-29 1組のドキュメントの階層的記述の推測 Expired - Fee Related JP3928722B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US35919702P 2002-02-22 2002-02-22
US60/359197 2002-02-22
US36730902P 2002-03-25 2002-03-25
US60/367309 2002-03-25
US10/209,594 US7165024B2 (en) 2002-02-22 2002-07-31 Inferring hierarchical descriptions of a set of documents
US10/209594 2002-07-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006224137A Division JP2006318511A (ja) 2002-02-22 2006-08-21 1組のドキュメントの階層的記述の推測

Publications (2)

Publication Number Publication Date
JP2003248692A true JP2003248692A (ja) 2003-09-05
JP3928722B2 JP3928722B2 (ja) 2007-06-13

Family

ID=27808567

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003020236A Expired - Fee Related JP3928722B2 (ja) 2002-02-22 2003-01-29 1組のドキュメントの階層的記述の推測
JP2006224137A Pending JP2006318511A (ja) 2002-02-22 2006-08-21 1組のドキュメントの階層的記述の推測

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2006224137A Pending JP2006318511A (ja) 2002-02-22 2006-08-21 1組のドキュメントの階層的記述の推測

Country Status (2)

Country Link
US (1) US7165024B2 (ja)
JP (2) JP3928722B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043593A1 (ja) * 2005-10-11 2007-04-19 Intellectual Property Bank Corp. 企業技術文書群分析支援装置
JP2009104591A (ja) * 2007-09-12 2009-05-14 Nec (China) Co Ltd ウェブ文書クラスタリング方法およびシステム

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7155668B2 (en) 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US20040117188A1 (en) 2002-07-03 2004-06-17 Daniel Kiecza Speech based personal information manager
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US7171407B2 (en) * 2002-10-03 2007-01-30 International Business Machines Corporation Method for streaming XPath processing with forward and backward axes
US20040083104A1 (en) * 2002-10-17 2004-04-29 Daben Liu Systems and methods for providing interactive speaker identification training
US7280957B2 (en) * 2002-12-16 2007-10-09 Palo Alto Research Center, Incorporated Method and apparatus for generating overview information for hierarchically related information
JP2004220215A (ja) * 2003-01-14 2004-08-05 Hitachi Ltd 計算機を利用した業務誘導支援システムおよび業務誘導支援方法
US7917483B2 (en) 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US7363214B2 (en) * 2003-08-08 2008-04-22 Cnet Networks, Inc. System and method for determining quality of written product reviews in an automated manner
US7707210B2 (en) * 2003-12-18 2010-04-27 Xerox Corporation System and method for multi-dimensional foraging and retrieval of documents
GB0414623D0 (en) * 2004-06-30 2004-08-04 Ibm Method and system for determining the focus of a document
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7831545B1 (en) * 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization
US7502765B2 (en) * 2005-12-21 2009-03-10 International Business Machines Corporation Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US20080109232A1 (en) * 2006-06-07 2008-05-08 Cnet Networks, Inc. Evaluative information system and method
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8108413B2 (en) 2007-02-15 2012-01-31 International Business Machines Corporation Method and apparatus for automatically discovering features in free form heterogeneous data
US8996587B2 (en) 2007-02-15 2015-03-31 International Business Machines Corporation Method and apparatus for automatically structuring free form hetergeneous data
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7970721B2 (en) * 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8171029B2 (en) * 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities
US8332439B2 (en) * 2007-10-05 2012-12-11 Fujitsu Limited Automatically generating a hierarchy of terms
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US20090271388A1 (en) * 2008-04-23 2009-10-29 Yahoo! Inc. Annotations of third party content
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
US20100121842A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for presenting categorized search results
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US8554696B2 (en) * 2009-02-13 2013-10-08 Fujitsu Limited Efficient computation of ontology affinity matrices
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US20110112824A1 (en) * 2009-11-06 2011-05-12 Craig Peter Sayers Determining at least one category path for identifying input text
US8392175B2 (en) 2010-02-01 2013-03-05 Stratify, Inc. Phrase-based document clustering with automatic phrase extraction
US8560519B2 (en) * 2010-03-19 2013-10-15 Microsoft Corporation Indexing and searching employing virtual documents
US20130085946A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg Systems, methods and user interfaces in a patent management system
US10318591B2 (en) * 2015-06-02 2019-06-11 International Business Machines Corporation Ingesting documents using multiple ingestion pipelines
US10474672B2 (en) * 2015-08-25 2019-11-12 Schlafender Hase GmbH Software & Communications Method for comparing text files with differently arranged text sections in documents
CN106951554B (zh) * 2017-03-29 2021-04-20 浙江大学 一种层次化新闻热点及其演化的挖掘与可视化方法
US11113315B2 (en) 2018-04-27 2021-09-07 Branch Metrics, Inc. Search keyword generation
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
US10970488B2 (en) * 2019-02-27 2021-04-06 International Business Machines Corporation Finding of asymmetric relation between words
US11468786B2 (en) * 2019-10-16 2022-10-11 Adobe Inc. Generating tool-based smart-tutorials
CN111079402B (zh) * 2019-12-31 2021-10-26 北大方正集团有限公司 文档层级划分方法、文档层级划分装置和可读存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
EP0859330A1 (en) * 1997-02-12 1998-08-19 Kokusai Denshin Denwa Co., Ltd Document retrieval apparatus
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
US6473095B1 (en) * 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6430558B1 (en) * 1999-08-02 2002-08-06 Zen Tech, Inc. Apparatus and methods for collaboratively searching knowledge databases
US6598043B1 (en) * 1999-10-04 2003-07-22 Jarg Corporation Classification of information sources using graph structures
US6519602B2 (en) * 1999-11-15 2003-02-11 International Business Machine Corporation System and method for the automatic construction of generalization-specialization hierarchy of terms from a database of terms and associated meanings
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
US6931595B2 (en) * 2000-11-02 2005-08-16 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US20020099702A1 (en) * 2001-01-19 2002-07-25 Oddo Anthony Scott Method and apparatus for data clustering
US6925460B2 (en) * 2001-03-23 2005-08-02 International Business Machines Corporation Clustering data including those with asymmetric relationships
US7010163B1 (en) * 2001-04-20 2006-03-07 Shell & Slate Software Method and apparatus for processing image data
US20020165860A1 (en) * 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US20050114130A1 (en) * 2003-11-20 2005-05-26 Nec Laboratories America, Inc. Systems and methods for improving feature ranking using phrasal compensation and acronym detection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043593A1 (ja) * 2005-10-11 2007-04-19 Intellectual Property Bank Corp. 企業技術文書群分析支援装置
JP2009104591A (ja) * 2007-09-12 2009-05-14 Nec (China) Co Ltd ウェブ文書クラスタリング方法およびシステム
US8185530B2 (en) 2007-09-12 2012-05-22 Nec (China) Co., Ltd. Method and system for web document clustering

Also Published As

Publication number Publication date
JP3928722B2 (ja) 2007-06-13
US20030167163A1 (en) 2003-09-04
US7165024B2 (en) 2007-01-16
JP2006318511A (ja) 2006-11-24

Similar Documents

Publication Publication Date Title
JP3928722B2 (ja) 1組のドキュメントの階層的記述の推測
US6182091B1 (en) Method and apparatus for finding related documents in a collection of linked documents using a bibliographic coupling link analysis
Capstick et al. A system for supporting cross-lingual information retrieval
Imam et al. An ontology-based summarization system for arabic documents (ossad)
Lin et al. ACIRD: intelligent Internet document organization and retrieval
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
Li et al. Incorporating document keyphrases in search results
Chen et al. Adding new concepts on the domain ontology based on semantic similarity
Zhou et al. CMedPort: An integrated approach to facilitating Chinese medical information seeking
Husain Critical concepts and techniques for information retrieval system
Hendez et al. Keywords extraction for automatic indexing of e-learning resources
Morato et al. Experiments in discourse analysis impact on information classification and retrieval algorithms
Markó et al. Interlingual Indexing across Different Languages.
Moumtzidou et al. Discovery of environmental nodes in the web
Pai Text summarizer using abstractive and extractive method
Li Research on an Enhanced Web Information Processing Technology based on AIS Text Mining
Tannebaum et al. Acquiring lexical knowledge from query logs for query expansion in patent searching
Brunzel et al. Discovering multi terms and co-hyponymy from xhtml documents with XTREEM
Bot et al. A hybrid classifier approach for Web retrieved documents classification
AygÜn et al. Automatic Term Extraction on Turkish Scientific Texts
Canan Pembe et al. Structure‐preserving and query‐biased document summarisation for web searching
Golub Using controlled vocabularies in automated subject classification of textual web pages, in the context of browsing
Shah et al. WebRank: Language-Independent Extraction of Keywords from Webpages
Toth Innovative solutions in automatic classification: a brief summary

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050106

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100316

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120316

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120316

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140316

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees