JP2003248692A - 1組のドキュメントの階層的記述の推測 - Google Patents
1組のドキュメントの階層的記述の推測Info
- Publication number
- JP2003248692A JP2003248692A JP2003020236A JP2003020236A JP2003248692A JP 2003248692 A JP2003248692 A JP 2003248692A JP 2003020236 A JP2003020236 A JP 2003020236A JP 2003020236 A JP2003020236 A JP 2003020236A JP 2003248692 A JP2003248692 A JP 2003248692A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- feature
- hierarchical description
- inferring
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 160
- 230000004044 response Effects 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 208000014674 injury Diseases 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 208000034656 Contusions Diseases 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008733 trauma Effects 0.000 description 2
- 208000010392 Bone Fractures Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 208000034526 bruise Diseases 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
は、情報検索を改良するための、自動的に生成されたさ
まざまなクラスタを関連づけて符号を付ける方法を提供
すること。 【解決手段】 ドキュメントのポジティブ・セットから
フィーチャーの第1のヒストグラムを供給するステップ
と、ドキュメントのコレクション・セットからフィーチ
ャーの第2のヒストグラムを供給するステップと、前記
フィーチャーを含む前記ポジティブ・セット内の前記ド
キュメントの割合と、前記フィーチャーを含む前記コレ
クション・セット内の前記ドキュメントの割合にもとづ
いて、各フィーチャーがセルフ・フィーチャー、ペアレ
ント・フィーチャーあるいはチャイルド・フィーチャー
であるか否かを決定するステップを有する。
Description
ウェブの検索に関し、具体的には、階層的情報について
の事前の知識は何等無しに、検索されたウェブ・ページ
の小さい集合から、トピックについての階層的関係を推
測することに関する。
合の記述的名称である語、あるいは、句のグループを自
動的に判定することと、概念についての事前の知識は何
等無しに、記述的名称よりも一般的でより具体的なドキ
ュメントの集合内の概念を推測することに関する。記述
的名称および概念は、ドキュメントに含まれていないこ
とさえ有り得る。本発明の主な応用はワールド・ワイド
・ウェブの検索であるが、本発明はワールド・ワイド・
ウェブあるいは特定の情報検索システムに使用すること
のみに制限されず、ドキュメントの任意の集合に応用す
ることができる。
は、オンライン・テキスト・ドキュメントの検索、ブラ
ウジングおよび系統化を容易にすることを目的とする研
究の急増をもたらした。この研究の多くは、ドキュメン
トを意味のあるグループにクラスタ化することに重点を
置かれた。ドキュメント・クラスタを集合、あるいは階
層化する多くの場合、利用者は、特定のドキュメントを
詳細を確かめることなくクラスタを識別するために、コ
レクションにざっと目を通すことを好む。
ュニティ、あるいはISPホームページのコミュニティ
のような、関連するドキュメントについて大量な数のコ
ミュニティを含んでいる。本発明は、孤立している単一
のコミュニティについての有用な階層的情報を自動的に
推測する方法である。
組のドキュメントに関するさまざまに有用ないくつかの
情報を自動的に推測することが望ましい。その情報は、
記述的な名称あるいは関連する概念(時にはドキュメン
トの中に明示的に含まれていない)を有してもよい。こ
のような情報は、検索あるいは解析のために有用であ
る。
対象を類似であるグループに系統化する処理と定義する
ことができる。クラスタリングには、すべての対象が厳
密に1つのグループに指定される「分割」(多くの場合
k−クラスタリングと呼ばれる)と、1を超える大きさ
の各グループをより小さなグループで構成することが可
能な「階層的クラスタリング」の2つの主な形式があ
る。ワールド・ワイド・ウェブ検索エンジンの出現、明
確には、利用可能な大量のデータを系統化する課題と、
大規模データベースの「データ・マイニング」の概念
は、クラスタリング・アルゴリズムに対する関心を復活
させた。
ラスタの理解を助けるために、フィーチャーの意味のあ
るクラスを識別する方法を提供する。フィーチャーには
3つのクラスがあることが望ましい。「セルフ」フィー
チャーあるいはセルフ・タームは、全体としてクラスタ
を記述する。「ペアレント」フィーチャーあるいはペア
レント・タームは、一般的な概念を記述する。「チャイ
ルド」フィーチャーあるいはチャイルド・タームは、ク
ラスタの特殊化を記述する。たとえば、1組の生物学ド
キュメントを仮定すると、ペアレント・タームは科学で
あってよく、セルフ・タームは生物学であってよく、チ
ャイルド・タームは遺伝学であってもよい。
タの名称として使用でき、ペアレント・フィーチャーお
よびチャイルド・フィーチャーは、クラスタをより大き
いコレクションのスペースに置くために使用できる。ペ
アレント・フィーチャーはより一般的な概念を示唆し、
チャイルド・フィーチャーはセルフ・フィーチャーの特
殊化についての記述である概念を示唆する。
ーチャーおよびチャイルド・フィーチャーを自動的に発
見することは、ウェブ・ディレクトリのオートマティッ
ク・ラベリングあるいは情報検索の改善を含むいくつか
の目的に対して有用である。別の重要な利用法は、単一
のクラスタの概要統計とバックグランド・コレクション
統計のみを使用して、生成されたクラスタを自動的に命
名するとともに、クラスタに含まれるより一般的でより
具体的な概念の両方を推奨することである。
(http://www.yahoo.com/)あるいはオープン・ディレク
トリ(http://www.dmoz.org/)のような普及しているウェ
ブ・ディレクトリは、人間が生成し、人間が維持してい
る。カテゴリーが人間により定義される場合でも、自動
的な階層的記述は、新しいペアレントあるいはチャイル
ド・リンク、あるいは別の名称を推奨するために有用な
ことがある。ドキュメントあるいはページの検索された
集合にもとづいて、別の問い合わせ(より一般的で、よ
り具体的な問い合わせ)を推奨することにより、同じ技
術が情報検索を改良するために有用なことがある。
究がある。たとえば、Radev と Fanは、"Automatic sum
marization of search engine hit lists" ,in Proceed
ings of ACL'2000 Workshop on Recent Advances in Na
ture Language Processingand Information Retrieval,
Hong Kong, P.R. China, 2000,(非特許文献1)でウ
ェブ・ドキュメントのクラスタの要約の技術を説明して
いる。彼等の技術は、ドキュメントを個別の文に構文解
析し、テーマ、すなわち、「選択されたドキュメントか
らの最も顕著な一節」を識別する。この技術は、「重心
ベースの要約」を使用し、階層的に関連するフィーチャ
ーの集合を作ったり、あるいはクラスタ内の語あるいは
句を発見することはない。
るために、語彙の技術が応用されてきた。たとえば、Ma
rti A. Hearst in "Automatic acquisition of hyponym
s from large text corpora" ,in Proceedings of the
Fourteenth International Conference on Computation
al Linguistics, Nantes, France(1992)(非特許文献
2)、Marti A. Hearst in "Automated discovery in w
ordnet relations", Christiane Fellbaum 編、WordNe
t: An Electronical Lexical Database, MIT Press (19
98)(非特許文献3)、および、 Sharon A. Carballo i
n "automatic construction of a hypernym-labeled no
un hierarchy from text", in Proceedingsof the 37th
Annual Meeting of the Association for Computation
al Linguistics (1999)(非特許文献4)等参照。
した骨あるいは他の傷害」の点で区切られたリストのよ
うな、1組の語彙統語的なパターンを識別することによ
り、語彙の関係を見出す方法を Hearst は説明してい
る。これらのパターンは、語彙関係の型、たとえば打撲
傷、外傷および骨折した骨が傷害のすべての型であるこ
とを示唆するために使用される。上位語がラベル付けら
れ、階層化された名詞を自動的に構築する技術を、Cara
balo は説明している。英語を母国語とする人が文章
「BはAの一種である」を理解すれば、上位語としては
語AとBの間の関係を説明するものとする。HearstとCa
raballo により説明されたような言語学関係はシソーラ
スを生成するために有用であるが、ドキュメントのクラ
スタとコレクションの残りの部分との関係を必然的には
説明していない。スポーツに焦点が当てられたクラスタ
があることを知っていれば、「野球がスポーツである」
ことを知ることは、有用であることがある。しかし、抽
出された関係は、集合の中にある概念の実際の頻度とは
必然的には関連していない。主としてバスケットボール
とホッケーを論じているスポーツ・ドキュメントのクラ
スタがあれば、野球もスポーツであるという事実は、そ
の集合を説明するために非常に重要なものではない。
hierarchies from text", in Research and Developmen
t in Information Retrieval" pages 206-213 (1999)
(非特許文献5)において、包含関係にもとづく統計的
技術を発表した。
の用語xとyに対して、所与のyに対するxの確率が1
であり、所与のxに対するyの確率が1未満であれば、
xはyを含むと言う。実際のモデルにおいて、使用され
た確率は、雑音を減少するために0.8であった。包含
関係は、ペアレント・チャイルド関係(本発明において
はセルフ・チャイルド関係)を示唆する。これは、所与
のクラスタの関係の中で階層が創出されることを可能に
する。これに対して、本発明は、「ペアレント」(共通
のテーマより一般的)、「セルフ」(クラスタを全体と
して定義あるいは記述するフィーチャー)および「チル
ドレン」(共通の下位概念を記述するフィーチャー)と
して識別されたフィーチャーに特有の一般的な領域に関
心を置いている。
nec.com/popsecu100automatic.htmlにて未刊行原稿で入
手可能な、"Automatic labeling of document cluster
s"(非特許文献6)において、ドキュメント・クラスタ
に自動的に符号を付けるためにxの2乗を使用して、単
純な統計的技術を説明している。各(分岐した)フィー
チャーは、局部的な頻度と予報性の積にもとづいて、ス
コアを割り当てられた。良いクラスタ・ラベルの概念
は、現在の「セルフ・フィーチャー」の概念に類似す
る。良いセルフ・フィーチャーは、ポジティブ・セット
では一般的であると共にネガティブ・セットで希少なも
のであり、局部的な高頻度と高い予報性に対応する。彼
等の研究に対して、本発明は、良い名称ではないかもし
れないがクラスタの理解を促進するフィーチャー(ペア
レントおよびチャイルド・フィーチャー)を考慮してい
る。
ure for classifying and describing web pages" in P
roceedings of the 11th WWW Conference, Hawaii (200
2)(非特許文献7)で、予想されるエントロピーの低下
によるフィーチャーの順位付けが、セルフ名あるいはペ
アレントまたはチャイルドの概念に対する良い候補を識
別するために、どのように使用できるかを説明してい
る。ポジティブ・セット内では一般的であり、ネガティ
ブ・セット内で希少となるフィーチャーは、良いセルフ
とチルドレンを作り、さらに予想されるエントロピーの
低下が多くなることを示す。ペアレントもネガティブ・
セット内で相対的に希少であり、ポジティブ・セット内
で一般的であり、さらに予想されるエントロピーの低下
が多くなる可能性が高い。本発明は、単一のエントロピ
ー・ベースの基準による順位付けとは対照的に、具体的
なポジティブおよびネガティブ頻度を考慮することによ
り、異なるクラスのフィーチャーを分離することに関心
を置いている。
ラスタの階層を形成するために、クラスタを副クラスタ
に分けることが挙げられる。http://citeseer.nj.nec.c
om/fasulo99analysi.htmlにより入手可能なD. Fasuloに
よる"An Analysis of recentwork on clustering algor
ithms", Technical Report, University of Washingto
n, (1999)(非特許文献8)では、ドキュメントのクラ
スタリング(および階層的クラスタリング)に対するさ
まざまな技術の概要を提供している。"Trawling the we
b for emerging cyber-communities" WWW8/Computer Ne
tworks, 31(11-16):1481-1493(1999)(非特許文献9)
で、Kumar他は、クラスタを判定するためにウェブのリ
ンク構造を使用して、コミュニティに対してウェブを具
体的に分析することを説明している。HofmannとPuzicha
は、"Statistical models for co-occurrence data" Te
chnical Report AIM-1625 (1998)(非特許文献10)
で、同時に出現するデータおよび関連する階層的クラス
タリング・アルゴリズムに対するいくつかの統計モデル
を説明している。HofmannとPuzichaは、特に、情報検索
問題と用語の関連に取り組んでいる。
リング研究の間の相違を明確にするであろう。利用者が
「生物学」に対してウェブ検索を行い、すべてが一般的
な生物学の「中心」となるページである20個のドキュ
メントを検索すると仮定する。各ページは、生物学の特
有の面に集中していない点である程度類似である。階層
的クラスタリングでは20個のドキュメントを副クラス
タに分け、各副クラスタは「チャイルド」概念を表すで
あろう。一番上のクラスタは、ほぼ間違いなく「セル
フ」クラスタであると考えることができる。しかし、副
クラスタを仮定すると、どのフィーチャー(語あるいは
句)が意味がある名称であるかを認識する容易な方法は
ない。例えば、「植物学」は、副クラスタとして「大
学」より良い名称であろうか、等。
すると、クラスタリングは有意義ではない恐れがある。
副クラスタは、ドキュメントの2分の1は句「著作権2
002年」を含み、他の2分の1は含まないというよう
な、関連のない面に集中する恐れがある。文字内容に欠
けるウェブ・ページ、すなわち「ウェルカム・ページ」
に対して、あるいは、ページの一部が混合トピック(ク
ラスタ全体としては主として生物学についてであって
も)であれば、これは特に困難である。
ージを処理するウェブ構造を考慮して)20個のドキュ
メントの集合が分析され、各フィーチャーの出現を要約
するヒストグラムが生成される(個別のドキュメント内
の語の頻度は除去される)。本明細書において使用され
るフィーチャーは、任意の用語あるいはnグラム(単一
の語あるいは句)を指す。さらにフィーチャーは構造的
な情報、ドキュメントの一般的な性質、あるいは他の有
意義な記述でも良い。構造的な情報は、ドキュメントの
名称内の語あるいは句を含んでもよく、あるいはドキュ
メントのメタタグ内の語あるいは句および同等物であっ
てもよい。ドキュメントの一般的な性質は、「これは最
近のドキュメントである」のような要因、あるいは、
「ニュース」あるいは「ホームページ」のようなドキュ
メント分類を含んでもよい。このようなフィーチャー
は、通常2進法である。すべてのドキュメント(あるい
は、若干の、より大きい参照コレクション)のヒストグ
ラム内のフィーチャーの分析を使用する、生成されたヒ
ストグラム内のフィーチャーの分析は、クラスタの「最
良の」名称は「生物学」であり、「科学」はより一般的
な概念を説明する用語であるとの識別をもたらす。同様
に、異なる型についてのクラスタを形成するであろう集
合内にドキュメントがなくても、生物学のいくつかの異
なる「型」が識別されるであろう。例は、「植物学」、
「細胞生物学」、「進化論」および同等物である。「著
作権2002年」のような句は、より大きいコレクショ
ン内での頻度のために重要ではないことが知られるであ
ろう。さらに、ウェブ構造(以下に説明する拡張アンカ
ーテキスト)の使用は、ドキュメントのフルテキストの
みの使用と比較して、ドキュメントの小さい集合を指名
する能力を大幅に改良することができ、その結果、非記
述的なページ、たとえば、「ウェルカムページ」の問題
に注意を集中する。ひとたび創出されたドキュメントの
コレクション・セットのヒストグラムは、コレクション
・セットが変化しない限り、ドキュメントの任意のポジ
ティブ・セットと連係して使用される。すなわち、各ポ
ジティブ・セットに対してコレクション・セットのヒス
トグラムを再生することと対照的に、ドキュメントのコ
レクション・セットのヒストグラムは、ドキュメントの
多くの異なるポジティブ・セットに対して再利用するこ
とができる。
ization of search engine hit lists" ,in Proceeding
s of ACL'2000 Workshop on Recent Advances in Natur
e Language Processing and Information Retrieval, H
ong Kong, P.R. China, 2000.
isition of hyponyms from large textcorpora" ,in Pr
oceedings of the Fourteenth International Conferen
ce on Computational Linguistics, Nantes, France(19
92).
overy in wordnet relations", Christiane Fellbaum
編、WordNet: An Electronical Lexical Database MIT
Press (1998).
onstruction of a hypernym-labeled noun hierarchy f
rom text", in Proceedings of the 37th Annual Meeti
ng of the Association for Computational Linguistic
s (1999).
oncept hierarchies from text", in Research and Dev
elopment in Information Retrieval" pages 206-213
(1999).
abeling of document clusters"[平成14年7月31
日検索]、インターネット<URL:http://citeseer.nj.
nec.com/popsecu100automatic.html>
tructure for classifying and describing web pages"
in Proceedings of the 11th WWW Conference, Hawaii
(2002)
t work on clustering algorithms", Technical Repor
t, University of Washington, (1999)[平成14年7
月31日検索]、インターネット<URL:http://citese
er.nj.nec.com/fasulo99analysi.html>
emerging cyber-communities" WWW8/Computer Network
s, 31(11-16):1481-1493(1999).
cal models for co-occurrence data" Technical Repor
t AIM-1625 (1998).
うな従来技術を踏まえてなされたものであり、相対的に
ドキュメントの小さいクラスタに対して、ペアレント、
チャイルドおよびセルフ・フィーチャーを予測するため
の統計モデルを得る方法を提供するものである。
プル・ウェブ・ページの小さい集合のみを使用して、階
層的情報の事前の知識無しに、トピックについての階層
的な用語関係を推測する統計モデルが創られる。
内のページのフルテキストあるいはページへ向かうリン
クの前後関係のいずれかを利用することができる。
・ディレクトリに有用であり、あるいは、情報検索を改
良するための、自動的に生成されたさまざまなクラスタ
を関連づけて符号を付ける方法を提供することである。
さい集合あるいはトピックに関連するドキュメントの集
合から、事前に何らの階層的情報の知識無しに、トピッ
クについての階層的な用語関係を推測するための統計モ
デルを創るための方法を提供することである。
内のペアレント・フィーチャー、セルフ・フィーチャー
およびチャイルド・フィーチャーを識別する方法を提供
することである。
テムにおいて、より広いおよび/またはより狭い検索用
語を推薦するために、1組のドキュメント内のペアレン
ト・フィーチャー、セルフ・フィーチャーおよびチャイ
ルド・フィーチャーを識別する方法を提供することであ
る。
レクトリに自動的に符号を付けるために、1組のドキュ
メント内のペアレント・フィーチャー、セルフ・フィー
チャーおよびチャイルド・フィーチャーを識別する方法
を提供することである。
連する下記の説明により明白になるであろう。
ー、セルフ・フィーチャーおよびチャイルド・フィーチ
ャーの自動的な選択は、ウェブ・ディレクトリの自動的
なラベリングあるいは情報検索の改善を含むいくつかの
目的に対して有用であり得る。別の重要な利用法は、ク
ラスタの概要統計と背景となるコレクションの統計のみ
を使用して、生成されたクラスタを自動的に命名すると
ともに、より一般的でより具体的な概念を推奨すること
であろう。
メントの全部のコレクション内のフィーチャーfの頻度
と比較した、1組のドキュメント(「ポジティブ・クラ
スタ」)内のフィーチャーfの頻度の分析にもとづい
て、ペアレント・フィーチャー、セルフ・フィーチャー
およびチャイルド・フィーチャーを区別することが可能
である。具体的にいうと、fがポジティブ・クラスタ内
では非常に普通であるが、コレクション内では相対的に
希少であれば、fは良いセルフ・フィーチャーであるこ
とがある。ポジティブ・クラスタ内では普通であるが全
体のコレクション内でもある程度普通であるフィーチャ
ーは、ポジティブ・クラスタの記述であるが、より一般
的であり、したがって良いペアレント・フィーチャーで
あることがある。ポジティブ・クラスタ内ではある程度
普通であるが、一般的なコレクション内では非常に希少
なフィーチャーは、正のドキュメントの部分集合のみを
説明するから、良いチャイルド・フィーチャーであるこ
とがある。
メント」は、ドキュメントと同様の表現、すなわち、ド
キュメントのプロキシ、たとえば要約、概要、アンカー
テキスト、および同等物を含むと理解されるが、それに
制限されない。ポジティブ・セットあるいはコレクショ
ン・セットのいずれかを形成するドキュメントは、ウェ
ブ・ブックマークを使用して、本発明による教示にした
がって説明されたもの以外を含むクラスタリング方法の
結果を使用し、ドキュメントの先存する階層あるいはド
キュメントを得る他の任意の方法を使用して、ワールド
・ワイド・ウェブあるいは任意の情報検索システムに問
い合わせを出すことにより得ることが可能である。ドキ
ュメントのポジティブ・セットあるいはドキュメントの
コレクション・セットは、たとえば既存の階層からのラ
ンダムなURLをコレクション・セットとして使用する
による、ドキュメントのより大きい集合のサンプリング
であってもよい。
面を参照して説明する。
アレント・フィーチャー、チャイルド・フィーチャーお
よびセルフ・フィーチャーの間の予測される関係のグラ
フ図が示されている。「正の頻度」は、所与のフィーチ
ャーを含むポジティブ・セット内のドキュメントのパー
センテージあるいは割合を示す。「コレクション頻度」
は、所与のフィーチャーを含むコレクション内のドキュ
メントの総合的なパーセンテージあるいは割合を示す。
は、ペアレント・フィーチャー10、チャイルド・フィ
ーチャー12およびセルフ・フィーチャー14の間に予
測される相対的な関係である。長方形の箱の外のフィー
チャーは、ペアレント、チャイルドおよびセルフのクラ
スに対しては好ましくない候補であると考えられ、この
ようなフィーチャーは分類されない。図1は、絶対的な
数値的境界を示すものではなく、単に領域の相対的な位
置のみを示す。領域は、クラスの特有の一般性に依存す
る。たとえば、「生物学」のクラスタに対しては「科
学」のペアレントは比較的普通であるが、「遺伝子配列
決定」に関するドキュメントのクラスタに対しては「D
NA」のペアレントはもっと希少であるかもしれない、
したがって、ペアレントとセルフの間の境界線はより0
に近いであろう。
ペアレント・エリアおよび植物学のチャイルド・エリア
に対するフィーチャーの分布の見本を示す。外の円20
は、一般に「科学」の主題エリア内の集合内でのすべて
のドキュメントの集合を表す。中央の円22は「生物
学」のエリア内のドキュメントの集合であり、最も内部
の円24は「植物学」のエリア内のドキュメントを表
す。フィーチャー「科学」、「植物学」および「生物
学」が、それぞれの対応する円の中でのみ出現し、それ
ぞれの対応する円の中に含まれる各ドキュメント内に出
現すると仮定すれば、ペアレント、チャイルド、セルフ
関係は明確である。図2から、全体のドキュメントのお
よそ20%が「科学」に言及し、ドキュメントの約5%
が「生物学」に言及し、1%が「植物学」に言及してい
る。「生物学」ドキュメントの集合の中で、100%が
「科学」と「生物学」の両方に言及しているが、「植物
学」には約20%が言及している。生物学の円内のすべ
てのドキュメントが生物学と言う語を実際に含んでいる
と想定しているので、これは非常に単純化した表現であ
るが、必ずしもこうはならない。同様に、植物学の副カ
テゴリー内のすべてのドキュメントが、「生物学」と
「科学」の両方に言及することはありそうもない。
「適切な」フィーチャーが使用される何らかの確率があ
ると想定する。この確率は、セルフあるいはチャイルド
に対するよりも、ペアレントに対しては通常低い。結果
として、図1において、ペアレント領域はセルフ領域よ
りも左方に延びている。使用されている所与のフィーチ
ャーの確率は、右下のコーナーの座標にも影響を与える
であろう、低い確率はセルフ内の出現のパーセンテージ
を左方にシフトする。確率1は、すべてのセルフ・フィ
ーチャーを含むポジティブ・セット内のすべての正のド
キュメントに対応する。
グラウンド・トルース・データと既知の正のドキュメン
トを使用し、ペアレント・フィーチャー、セルフ・フィ
ーチャーおよびチャイルド・フィーチャーの実際の出現
のグラフが生成された。階層的記述が推測されるべきコ
レクション・セットおよびドキュメントの集合を形成す
るために、オープン・ディレクトリ (http://www.dmoz.
org/) が選択された。ドキュメントの集合Siを形成す
るために、「コンピュータ」、「科学」および「スポー
ツ」のトップレベルのカテゴリーを使用して、各カテゴ
リーからの上位15の主題ベースのサブカテゴリーが選
択され、(科学には11の主題ベースのサブカテゴリー
が存在した)合計41のオープン・ディレクトリ・カテ
ゴリーが得られた、ここでiは階層的記述が推測される
べき異なるカテゴリーに対応する。表1は、実験に使用
された41のオープン・ディレクトリ・カテゴリーと、
それらの3つのペアレント・カテゴリーを列挙してい
る。フィーチャーのコレクション頻度の近似を収集する
ために、ドキュメントはオープン・ディレクトリ内の任
意の場所からランダムに選ばれ、これらのドキュメント
は集合Cを構成する。同じ集合Cが、実験のすべてに使
用された。
合、科学、コンピュータあるいはスポーツのいずれ
か)、セルフ・フィーチャーを形成する関連する名称、
およびチャイルドを形成するいくつかのサブカテゴリー
を有する。各々の場合に、本発明者等は、割り当てられ
た名称を「および」、「あるいは」またはコンマのよう
な句読点で分割した。したがって、カテゴリー「異常と
代替科学」は2つのセルフ「異常」および「代替科学」
となる。
ン統計)として、Si集合を形成するために各カテゴリ
ーから500の任意のドキュメントの初期集合と、ディ
レクトリ内の任意の場所からの20,000のランダム
なドキュメントを考慮した。ウェブのURLのそれぞれ
がダウンロードされ、フィーチャーがヒストグラムに入
れられた。URLがターミナル・エラーに終われば、ペ
ージは無視され、トレーニングのために使用された集合
Si内のドキュメントの数の変化として説明された。フ
ィーチャーは、語あるいは2つあるいは3つの語句から
成り、各フィーチャーはドキュメントごとに最大1と数
える。
ト、チャイルドおよびセルフ・フィーチャー(オープン
・ディレクトリにより割当られるように)が、フィーチ
ャーを含む集合Si内のドキュメントの割合としてX座
標を使用し、そのフィーチャーを含む集合C内のドキュ
メント(ランダム・ドキュメント)の割合としてY座標
を使用してグラフ化された。集合Siの2%未満のフィ
ーチャーが出現すれば、そのフィーチャーは無視され
た。
レント、チャイルドおよびセルフ・フィーチャーの分布
を示す。一般的な傾向であるように見えるが、ペアレン
トの近くに出現するチャイルドが多く存在する。同じペ
アレント(独自のペアレントは3つのみ)を有する多く
のカテゴリーが存在し、共通の集合Cが使用されたの
で、ペアレントは共通のY軸値の同一直線上にある。
識がない場合に明確に定義されていない語あるいは句で
ある。たとえば、フィーチャー「ニュース」は、関連す
るカテゴリーを知らない限り、人工知能についてのニュ
ー#スか、あるいは野球についてのニュースか不確定で
ある。同様に、ニュースを含むいくつかのフィーチャー
は、「主題」ではなく、むしろページの非テキスト属性
である。カテゴリーとそれらのチルドレンのリストは、
手作業で検査され、孤立して十分に定義されなかったチ
ャイルドは除去された。チルドレンの半分以上がこの方
法で除去された。データを参照するより前に、「不十分
に定義された」語あるいは句が何故除去されるかの正確
な知識なしに、除去は行われた。
uters) のペアレントが コンピュータ(computer) に
より置換されるべきであることを示唆した。普通の意味
で使用される場合に語 スポーツ(sports) が多くの場
合には複数形であるのと異なり、コンピュータ(comput
ers)は多くの場合に単数形である。ステミング(stemm
ing)あるいはストップ語除去は行われなかったので、
コンピュータ(computers)とコンピュータ(compute
r) は異なるフィーチャーである。図4は、ペアレント
が コンピュータ(computers)からコンピュータ(comp
uter)に変わり、不十分に定義されたチルドレンが除去
されたこと以外は、図3と同じデータを示す。すなわ
ち、ペアレントの知識なしでは定義されないいくつかの
サブカテゴリー、たとえば「ニュース」あるいは「リソ
ース」が除去された。この変更は、ペアレント、セルフ
およびチャイルド領域の間により明確な隔離をもたら
す。除去された不十分に定義されたチルドレンは、一般
にフィーチャーの第4のクラスを形成する。図1におい
て、フィーチャーのこの第4のクラスは、ペアレント・
クラスタの左でチャイルド・クラスタの上に通常位置す
る。
テゴリー」を記述する語を含んでいない。たとえば「マ
ルチメディア」のカテゴリーにおいて、フィーチャー
「マルチメディア」は、正のドキュメントのわずか13
%のみに出現した。これは、ページの作者による用語の
選択の組み合わせと、多くの場合にメイン・ウェブ・ペ
ージがテキスト・コンテントを有せず「エンターするた
めには、ここをクリックしてください」画像のみにより
表されるためである。
であると想定する。ページ自身に存在する語を使用する
のではなく、図5に示すように、「拡張アンカー・テキ
スト」と呼ばれるであろうものを使用して、実験は繰り
返された。参考文献として本明細書に包含される前掲の
Glover他による文献(非特許文献7)に、拡張アンカ
ー・テキストの記述と、拡張アンカー・テキストがドキ
ュメントのフルテキストよりも「概要」を使用してより
良く一致するフィーチャーを作り出す方法が説明されて
いる。拡張アンカー・テキストを使用して見出されたフ
ィーチャーは、より合理的な名称を作ると見られるクラ
スタを生成する。
へのリンクの近くに出現する語、すなわち、インバウン
ド・リンクにごく近接している語を示す。図5は、拡張
アンカー・テキストの例を概略的に示す。フルテキスト
を使用する代わりに、最高15の拡張アンカー・テキス
トで構成される仮想ドキュメントが使用された。ヤフー
社の提供するポータルサイトあるいはオープン・ディレ
クトリからのインバウンドリンクは除外された。インバ
ウンド・アンカー・テキストを含めて前後に最高25の
語を考慮することにより創り出された仮想ドキュメント
を使用する場合(フルテキストの使用と比較して)、ド
キュメントSiのポジティブ・セット内のセルフ・フィ
ーチャーの使用に著しい増加がある。マルチメディアの
カテゴリーにおいて、フィーチャー「マルチメディア」
は、フルテキストの13%とは対照的に、正の仮想ドキ
ュメントの42%に出現した。集合C(全体のコレクシ
ョン)内のドキュメントの中のフィーチャー「マルチメ
ディア」の出現は、フルテキストおよび仮想ドキュメン
トの両方に対して、約2%と殆ど同一であった。
は、第1のドキュメント、すなわち、たとえば 「AB
CDE」ページ50から、あるいは、第2のドキュメン
ト、すなわち、たとえば「FGHIJ」ページ50から
決定される。他のドキュメント52、52’からページ
50へのインバウンド・リンク51、51’は、当業者
に公知の多数の方法によって見出される。アンカー・テ
キスト53、53’は、ソース・ページ50および5
0’を示す他のページからのハイパーリンクである。一
般的には、大部分の従来のドキュメントにおけるアンカ
ー・テキストは、青いフォントで強調され、ドキュメン
ト内で下線を引かれている。ページ50を示しているペ
ージに対する拡張アンカー・テキストは、ハイパーリン
クおよびハイパーリンクの前後のいくつかの語を含む拡
張アンカー・テキスト54、54’である。ドキュメン
ト52の場合、拡張アンカー・テキスト54は、『私の
好きな検索エンジンは「ABCDE」である』である。
ドキュメント52’では、ドキュメント50に対する拡
張アンカー・テキスト54’は、『検索エンジン「AB
CDE」は、「FGHIJ」によって駆動されている』
である。
は、図5中に示されるように英語で表現した場合、テキ
ストの最後の語「ABCDE」で終わっている。後者の
場合には、語「ABCDE」は、拡張アンカー・テキス
トの中に出現する。
キストを含めることは、そのページがリンクされている
前後関係と意味を提供する。
ち、1つのトピックについて単一のクラスタ)1組のペ
ージから始まり、次いで1度に1つずつ、ポジティブ・
セットの各ページが検査され、ポジティブ・セットのそ
のページにリンクするページが識別される。上の例で
は、「ABCDE」は正のページであり、「ABCD
E」へのリンクに「近い」語を調査することにより、
「ABCDE」にリンクする第1のページが、ページ
「ABCDE」のトピックが関連するものの若干の表示
を提供する。リンクは、必然的に「ABCDE」のよう
な検索エンジンからではなく、任意のページからであっ
てよい。同じ手順が、コレクション・セットの各ページ
に対して繰り返される。
れた拡張アンカー・テキストのすべては、仮想ドキュメ
ント(図示せず)を形成するために一個所に配置され
る。
て、ならびに拡張アンカー・テキスト(V列)実験に対
して、(第1の実験に使用された500からランダムに
選ばれた)各カテゴリーに使用された仮想ドキュメント
の数を列挙している。合計743の仮想ドキュメント
が、ドキュメント集合cとして使用された。仮想ドキュ
メントの生成は非常に費用がかかり、考慮されるページ
の総数の削減を余儀なくされる。仮想ドキュメントから
の改良された要約能力は、より少数のドキュメントを使
用して、処理が作動することを可能にするべきである。
アレント、チルドレンおよびセルフ・フィーチャーに対
する結果を示す。ポジティブ・セットSi内のドキュメ
ントのパーセンテージは、セルフがチルドレンからより
明らか分かれるにつれて、一般に右にシフトしている。
図7は、不十分に定義されたチルドレンを除去し、"com
puters" を "computer"で置換した後の結果を示す。極
めて少数のデータ点のみが、各クラスの周囲に定められ
た単純な長方形の領域の外に脱落している。
ルフは示された領域に含まれるが、フィーチャーのステ
ミングを行うことにより、結果を改善することが可能で
ある。たとえば、フィーチャーによっては単数形と複数
形の両方で出現することがあり、1方の形は偽のチャイ
ルドとして出現する。さらに、句はそれらの個別の語よ
りも出現頻度が低い恐れがあり、「人工知能」のような
場合に、セルフを誤ってチルドレンとして出現させる。
この場合、句の出現頻度が比較的低いために、句「人工
知能」はチャイルドとして出現する。
ン・ディレクトリからのグラウンド・トルース・フィー
チャーのグラフが、一般に図1の予測されたモデルに従
うことを示すが、このモデルは各カテゴリーに出現する
すべてのフィーチャーをグラフに表さず、オープン・デ
ィレクトリにより割当られたフィーチャーのみがグラフ
に表されている。すべてのフィーチャーを可能性のある
ペアレント、チルドレンおよびセルフとして順位付け、
その出力をオープン・ディレクトリからのグラウンド・
トルース・データと比較するアルゴリズムを使用するこ
とにより、モデルの妥当性は強化される。
レーションから結果として生ずるドキュメント、ブック
マークを付されたドキュメントのリスト、あるいは、手
作業で選択されたドキュメントであってもよい1群のド
キュメント、を使用する。ドキュメントがウェブ・ペー
ジあるいは他のハイパーリンクされたドキュメント・コ
レクションを有するならば、上述のように各ページに対
して仮想ドキュメントが創出されることが望ましい。ハ
イパーリンクされていないドキュメントがあれば、ドキ
ュメントのフルテキスト・バージョンを使用することが
できる。次に、以下のアルゴリズムが適用される。順位
は、結果について実行される。多くの順位付けが可能で
あるが、望ましい順位付けは、フィーチャーを含むドキ
ュメントの最も高いパーセンテージにもとづいた順位に
依存する。表3は、各カテゴリー内の上位2番にランク
されたセルフ・フィーチャーを示し、ここで、順位はフ
ィーチャーを含むポジティブ・セット内のドキュメント
のパーセンテージにもとづいている。
アルゴリズム 1組の所望のフィーチャーからの各フィーチャーfに対
して、 1.フィーチャーfに次のようにラベルを割り当てる。 if (f.C > maxParentC)[Label = 'N' ] elseif (f.C>maxSelfC)[Label='P' ] elseif (f.Si>minSelfSi)[Label='S' ] elseif ((f.Si<maxChildSi) and (f.C<maxChildC))[Lab
el='C') else [Label='N') 2.各ラベル(P、S、C)に対して、そのラベルを使
用して f.Si により各フィーチャーfを分類する。
オフを指定する。 maxParentC = 0.08 maxSelfC = 0.06 minSelfSi= 0.4 maxChildSi = 0.4 maxChildC = 0.02 Siは階層的記述が推測されるべきドキュメントの集合
であり、Cはドキュメントのコレクション・セットであ
り、f.Cはフィーチャーfを含むドキュメントCのコ
レクション・セット内のドキュメントの割合であり、
f.Siはフィーチャーfを含むポジティブ・ドキュメ
ントSiの集合内のドキュメントの割合である。
ペアレントおよびチャイルド領域が長方形であり、図1
に示すように接続されている場合に、最も有用である。
領域が、切断されている、および/または部分的に重な
り合っている、および/または非長方形であることが望
ましければ、アルゴリズムは当業者により適宜修正する
ことができる。
ルフ予測アルゴリズムを使用して、試験された41のカ
テゴリーのそれぞれに対する上位のペアレント・フィー
チャー、上位のセルフ・フィーチャーおよび上位のチル
ドレン・フィーチャーを示す。空白のエントリは、その
カテゴリーに対して指定された領域に、語あるいはフィ
ーチャーがないことを意味する。結果は、すべての41
のカテゴリーにおいて("computers" を "computer"で
置換)、オープン・ディレクトリが割当したペアレント
が上位5に順位付けられたことを示している。カテゴリ
ーの約80%において、上位にランクされたセルフは、
オープン・ディレクトリが割当したセルフと同一である
か、あるいは、実際上同一(同義語、あるいは同一の語
幹)である。リストされない多くの合理的なチルドレン
が存在するので、チルドレンを評価することはより困難
である。
ネット」のような、いくつかのカテゴリーにおいて、カ
ットオフ点は変化する。アルゴリズムは、所与のカテゴ
リーに対するデータに動的に順応しない。さらに、アル
ゴリズムは境界点を知ることを必要とする。第2に、時
には句は単一の語より正の出現頻度が低い。たとえば、
句「Artificial Intelligence(人工知能)」は、セルフ
の代わりに誤ってチャイルドとして出現する。第3に、
ステミングあるいはインテリジェントなフィーチャー除
去がない。たとえば、「university of(大学)」のよう
なフィーチャーは、ストップ語で終了するので、無視さ
れるべきである。同様に、"consult" とは対照的に "co
nsulting" 、あるいは "computer" とは対照的に "comp
uters" は、すべて語幹の失敗が誤りを起こす例であ
る。別の改良は、効率的でないフィーチャーを自動的に
除去する閾値を適用することである。上述のように、非
長方形の領域が所望であれば、あるいは領域が部分的に
重なり合っていれば、あるいは領域が接続されていなけ
れば、アルゴリズムを変えることが可能である。
はない。日本語を含む、ほとんどの言語が使用できる。
次のリストは、日本の大学のカテゴリーから日本語のウ
ェブ・ページからのフルテキストを使用して、ペアレン
ト・チルドレンおよびセルフ予測アルゴリズムを適用し
た結果を示す。抽出されたフィーチャーは、日本語の単
語であり、英語の翻訳ではない。
ェブ・ページ(日本語の)および、367の日本の大学
のページ(同じく日本語の)を使用して収集された。
ar、学校−school、学−study 上位にランクされたセルフ: 大学−university、入試
−admission examination 上位にランクされたチルドレン: 学生−student、学科
−subject、入学−entrance、科−course、図書館−lib
rary、キャンパス−campus、学部−department、学内−
inside the university、施設−facility、大学院−gra
duate schoolペアレント・チルドレンおよびセルフ予測
アルゴリズムを適用するために使用されたカットオフ値
は近似的に次の通りであった。 maxParentC : = 0.05; maxSelfC = 0.04; minSelfSi = maxChildSi = 0.35; maxChildC = 0.03. さらに本発明はテキスト・ドキュメントのみに限定され
るものではない。本発明は、識別することが可能なフィ
ーチャーが存在するマルチメディア・データ、オーディ
オデータ、画像データ、ビデオデータおよび同等物を含
むが、それらのみに限定されない非テキスト・データに
適用することができる。URL、リンク、あるいは、引
用、参照、クローズド・キャプショニングまたは同等物
のようなテキストの他のソースが非テキスト・データに
利用できれば、拡張アンカー・テキスト方法が使用でき
る。URLあるいはリンクが利用できなければ、非テキ
スト・データを記述するための一般的なフィーチャーが
使用できる。ソースがターゲットたとえば引用参照につ
いての情報を有するドキュメントの間のインターリンキ
ング・システムは、URLの代わりに使用できる。
チャーはドキュメントのクラスタに容易に名称をつけ、
関連づけることができる。前の問い合わせよりも、より
一般的で、より具体的な別の問い合わせを自動的に推薦
されることにより、サーチャーは利益を得ることが可能
である。問い合わせに対する1組の結果は、予測される
階層にもとづいて拡大することができる。たとえば、利
用者は単語「生物学」を検索し、単語「科学」は単語
「生物学」より一般的であり、単語「植物学」は単語
「生物学」より特有であるとの推薦を受ける。同様に、
たとえば、複数のホームページに関連するいくつかのペ
ージを選択する利用者は、これらのページは「インター
ネット・サービス・プロバイダー」と命名されるべきで
あることを理解することができる。
クラスタに対するペアレント、チャイルドおよびセルフ
・フィーチャーの予測に対して、統計モデルを創る方法
を説明し、例示した。セルフ・フィーチャーはクラスタ
の推薦された名称として有用であり、ペアレントおよび
チルドレン・フィーチャーはより大きいコレクションの
スペースにクラスタを「配置する」ために使用すること
ができる。ペアレント・フィーチャーはより一般的な概
念を示唆し、一方チルドレン・フィーチャーはセルフ・
フィーチャーの専門分野を説明する概念を示唆する。グ
ラウンド・トルース・データのグラフ化の実験的なテス
トは、実際のペアレント、チャイルドおよびセルフ・フ
ィーチャーが一般にモデルに従うことを確認した。フィ
ーチャー・ヒストグラムからペアレント、チャイルドお
よびセルフ・フィーチャーを予測することができるアル
ゴリズムを開示した。予測されたフィーチャーは、多く
の場合にグラウンド・トルースと一致し、関連するカテ
ゴリーの間の新しい相互接続を示唆した。
ュメントから階層的記述を推測する望ましい方法を説明
し例示したが、本明細書に付された特許請求の範囲によ
りのみ制限されるべきである本発明の技術思想と広い範
囲を逸脱せずに、修正および変形がさらに可能であるこ
とは、当業者に明白であろう。
が、以下に本発明の実施態様を示す。
ブ・セットからフィーチャーの第1のヒストグラムを供
給するステップと、ドキュメントのコレクション・セッ
トからフィーチャーの第2のヒストグラムを供給するス
テップと、前記フィーチャーを含む前記ポジティブ・セ
ット内の前記ドキュメントの割合と、前記フィーチャー
を含む前記コレクション・セット内の前記ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
る1組のドキュメントの階層的記述を推測する方法。
し、前記第1のヒストグラムおよび前記第2のヒストグ
ラムの両方の中の前記閾値以下のフィーチャーを除去す
るステップをさらに有する実施態様1記載の1組のドキ
ュメントの階層的記述を推測する方法。
ティブ・セット内の出現の順序により前記フィーチャー
を順位付けることをさらに有する実施態様1記載の1組
のドキュメントの階層的記述を推測する方法。
タを有する実施態様1記載の1組のドキュメントの階層
的記述を推測する方法。
データを有する実施態様1記載の1組のドキュメントの
階層的記述を推測する方法。
語以外の言語である実施態様5記載の1組のドキュメン
トの階層的記述を推測する方法。
オデータを有する実施態様1記載の1組のドキュメント
の階層的記述を推測する方法。
ディア・データを有する実施態様1記載の1組のドキュ
メントの階層的記述を推測する方法。
は、ペアレント、チルドレンおよびセルフ予測アルゴリ
ズムを使用して実行される実施態様1記載の1組のドキ
ュメントの階層的記述を推測する方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様9記載の1組のド
キュメントの階層的記述を推測する方法。
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様9記載の1
組のドキュメントの階層的記述を推測する方法。
ータを有する実施態様9記載の1組のドキュメントの階
層的記述を推測する方法。
トデータを有する実施態様9記載の1組のドキュメント
の階層的記述を推測する方法。
英語以外の言語である実施態様13記載の1組のドキュ
メントの階層的記述を推測する方法。
ィオデータを有する実施態様9記載の1組のドキュメン
トの階層的記述を推測する方法。
メディア・データを有する実施態様9記載の1組のドキ
ュメントの階層的記述を推測する方法。
ィブ・セットを有するURLの第1の集合を得るステッ
プと、ドキュメントのコレクション・セットを有するU
RLの第2の集合を得るステップと、URLの前記第1
の集合内の各URLと、URLの前記第2の集合内の各
URLに対するインバウンド・リンクを決定するステッ
プと、ドキュメントの前記ポジティブ・セット内の各U
RLに対する仮想ドキュメントと、ドキュメントの前記
コレクション・セット内の各URLに対する仮想ドキュ
メントを創るステップと、URLの前記第1の集合と組
み合わされた前記仮想ドキュメントからフィーチャーの
第1のヒストグラムを供給するステップと、URLの前
記第2の集合と組み合わされた前記仮想ドキュメントか
らフィーチャーの第2のヒストグラムを供給するステッ
プと、前記フィーチャーを含むドキュメントの前記ポジ
ティブ・セットと組み合わされた前記仮想ドキュメント
の割合と、前記フィーチャーを含むドキュメントの前記
コレクション・セットと組み合わされた前記仮想ドキュ
メントの割合にもとづいて、各フィーチャーがセルフ・
フィーチャー、ペアレント・フィーチャーあるいはチャ
イルド・フィーチャーであるか否かを決定するステップ
を有するウェブ・ページを有する1組のドキュメントの
階層的記述を推測する方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様17記載の1組の
ドキュメントの階層的記述を推測する方法。
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様17記載の
1組のドキュメントの階層的記述を推測する方法。
含むページを示す実施態様17記載の1組のドキュメン
トの階層的記述を推測する方法。
タを含むページを示す実施態様17記載の1組のドキュ
メントの階層的記述を推測する方法。
英語以外の言語である実施態様21記載の1組のドキュ
メントの階層的記述を推測する方法。
ータを含むページを示す実施態様17記載の1組のドキ
ュメントの階層的記述を推測する方法。
ア・データを含むページを示す実施態様17記載の1組
のドキュメントの階層的記述を推測する方法。
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様17記載の
ウェブ・ページを有する1組のドキュメントの階層的記
述を推測する方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様25記載の1組の
ドキュメントの階層的記述を推測する方法。
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様25記載の
1組のドキュメントの階層的記述を推測する方法。
含むページを示す実施態様25記載の1組のドキュメン
トの階層的記述を推測する方法。
タを含むページを示す実施態様25記載の1組のドキュ
メントの階層的記述を推測する方法。
英語以外の言語である実施態様29記載の1組のドキュ
メントの階層的記述を推測する方法。
ータを含むページを示す実施態様25記載の1組のドキ
ュメントの階層的記述を推測する方法。
ア・データを含むページを示す実施態様25記載の1組
のドキュメントの階層的記述を推測する方法。
索問い合わせを提出するステップと、前記検索問い合わ
せに応答する前記情報検索システムからのドキュメント
の第1の集合を検索するステップと、ドキュメントの第
2の集合を供給するステップと、前記第1の集合のドキ
ュメント内の各検索されたドキュメントに対して、なら
びにドキュメントの前記第2の集合内の各ドキュメント
に対して、インバウンド・リンクを決定するステップ
と、ドキュメントの前記第1の集合内の各ドキュメント
に対して、ならびにドキュメントの前記第2の集合内の
各ドキュメントに対して、仮想ドキュメントを創出する
ステップと、ドキュメントの前記第1の集合と組み合わ
された前記仮想ドキュメント内にフィーチャーの第1の
ヒストグラムを創出するステップと、ドキュメントの前
記第2の集合と組み合わされた前記仮想ドキュメント内
にフィーチャーの第2のヒストグラムを創出するステッ
プと、前記フィーチャーを含むドキュメントの前記ポジ
ティブ・セットと組み合わされた前記仮想ドキュメント
の割合と、前記フィーチャーを含むドキュメントの前記
コレクション・セットと組み合わされた前記仮想ドキュ
メントの割合にもとづいて、各フィーチャーがセルフ・
フィーチャー、ペアレント・フィーチャーあるいはチャ
イルド・フィーチャーであるか否かを決定するステップ
と、フィーチャーの分類に応答する前記検索問い合わせ
を変えるステップを有する1組のドキュメントの推測に
もとづく階層的記述を使用する情報検索システムの検索
方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様33記載の1組の
ドキュメントの推測にもとづく階層的記述を使用する情
報検索システムの検索方法。
1の集合内の出現の順序により前記フィーチャーを順位
付けることをさらに有する実施態様33記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
に、検索の問い合わせがペアレント・フィーチャーに変
えられた実施態様33記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
に、検索の問い合わせがチャイルド・フィーチャーに変
えられた実施態様33記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。
ータを有する実施態様33記載の1組のドキュメントの
推測にもとづく階層的記述を使用する情報検索システム
の検索方法。
トデータを有する実施態様33記載の1組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。
英語以外の言語である実施態様39記載の1組のドキュ
メントの推測にもとづく階層的記述を使用する情報検索
システムの検索方法。
ィオデータを有する実施態様33記載の1組のドキュメ
ントの推測にもとづく階層的記述を使用する情報検索シ
ステムの検索方法。
メディア・データを有する実施態様33記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様33記載の
1組のドキュメントの推測にもとづく階層的記述を使用
する情報検索システムの検索方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様43記載の1組の
ドキュメントの推測にもとづく階層的記述を使用する情
報検索システムの検索方法。
1の集合内の出現の順序により前記フィーチャーを順位
付けることをさらに有する実施態様43記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
に、検索の問い合わせをペアレント・フィーチャーに変
えた実施態様43記載の1組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。
に、検索の問い合わせをチャイルド・フィーチャーに変
えた実施態様43記載の1組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。
ータを有する実施態様43記載の1組のドキュメントの
推測にもとづく階層的記述を使用する情報検索システム
の検索方法。
トデータを有する実施態様43記載の1組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。
英語以外の言語である実施態様49記載の1組のドキュ
メントの推測にもとづく階層的記述を使用する情報検索
システムの検索方法。
ィオデータを有する実施態様43記載の1組のドキュメ
ントの推測にもとづく階層的記述を使用する情報検索シ
ステムの検索方法。
メディア・データを有する実施態様43記載の1組のド
キュメントの推測にもとづく階層的記述を使用する情報
検索システムの検索方法。
集合の階層を設けるステップと、(b)ドキュメントの
コレクション・セットを設けるステップと、(c)前記
階層内の1組のドキュメント内の各ドキュメントに対し
て、ならびにドキュメントの前記コレクション・セット
内の各ドキュメントに対して、インバウンド・リンクを
決定するステップと、(d)前記階層内のドキュメント
の前記集合内の各ドキュメントに対して、ならびにドキ
ュメントの前記コレクション・セット内の各ドキュメン
トに対して、仮想ドキュメントを創出するステップと、
(e)前記階層内のドキュメントの前記集合と組み合わ
された前記仮想ドキュメントからフィーチャーの第1の
ヒストグラムを創出するステップと、(f)ドキュメン
トの前記コレクション・セットと組み合わされた前記仮
想ドキュメントからフィーチャーの第2のヒストグラム
を創出するステップと、(g)前記フィーチャーを含む
前記階層内のドキュメントの前記集合と組み合わされた
前記仮想ドキュメントの割合と、前記フィーチャーを含
むドキュメントの前記コレクション・セットと組み合わ
された仮想ドキュメントの割合にもとづいて、各フィー
チャーがセルフ・フィーチャー、ペアレント・フィーチ
ャーあるいはチャイルド・フィーチャーであるか否かを
決定するステップと、(h)ドキュメントの集合の前記
階層内のドキュメントの各集合に対してステップ(c)
からステップ(g)を繰り返すステップと、(i)各フ
ィーチャーを決定することに応答するドキュメントの集
合の前記階層に符号を付けるステップを有するドキュメ
ントの集合の推測にもとづく記述を使用してドキュメン
ト・ディレクトリに符号を付ける方法。
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様53記載の
ドキュメントの集合の推測にもとづく記述を使用してド
キュメント・ディレクトリに符号を付ける方法。
集合の階層を設けるステップと、(b)ドキュメントの
コレクション・セットを設けるステップと、(c)前記
階層内のドキュメントの各集合からフィーチャーの第1
のヒストグラムを創出するステップと、(d)ドキュメ
ントの前記コレクション・セットからフィーチャーの第
2のヒストグラムを創出するステップと、(e)前記フ
ィーチャーを含む前記階層内のドキュメントの前記集合
と組み合わされたドキュメントの割合と、前記フィーチ
ャーを含むドキュメントの前記コレクション・セットと
組み合わされたドキュメントの割合にもとづいて、各フ
ィーチャーがセルフ・フィーチャー、ペアレント・フィ
ーチャーあるいはチャイルド・フィーチャーであるか否
かを決定するステップと、(f)ドキュメントの集合の
前記階層内のドキュメントの各集合に対してステップ
(c)からステップ(e)を繰り返すステップと、
(g)各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様55記載の
ドキュメントの集合の推測にもとづく記述を使用してド
キュメント・ディレクトリに符号を付ける方法。
ィブ・セットを有するドキュメントの第1の集合を得る
ステップと、ドキュメントのコレクション・セットを有
するドキュメントの第2の集合を得るステップと、ドキ
ュメントの前記第1の集合内の各ドキュメントに対し
て、ならびにドキュメントの前記第2の集合内の各ドキ
ュメントに対して、インバウンド・リンクを決定するス
テップと、ドキュメントの前記ポジティブ・セット内の
各ドキュメントに対する仮想ドキュメント、およびドキ
ュメントの前記コレクション・セット内の各ドキュメン
トに対する仮想ドキュメントを創出するステップと、ド
キュメントの前記第1の集合と組み合わされた前記仮想
ドキュメントからフィーチャーの第1のヒストグラムを
供給するステップと、ドキュメントの前記第2の集合と
組み合わされた前記仮想ドキュメントからフィーチャー
の第2のヒストグラムを供給するステップと、前記フィ
ーチャーを含むドキュメントの前記ポジティブ・セット
と組み合わされた前記仮想ドキュメントの割合と、前記
フィーチャーを含むドキュメントの前記コレクション・
セットと組み合わされた前記仮想ドキュメントの割合に
もとづいて、各フィーチャーがセルフ・フィーチャー、
ペアレント・フィーチャーあるいはチャイルド・フィー
チャーであるか否かを決定するステップを有する1組の
ドキュメントの階層的記述を推測する方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様57記載の1組の
ドキュメントの階層的記述を推測する方法。
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様57記載の
1組のドキュメントの階層的記述を推測する方法。
ータを含む実施態様57記載の1組のドキュメントの階
層的記述を推測する方法。
トデータを含む実施態様57記載の1組のドキュメント
の階層的記述を推測する方法。
英語以外の言語である実施態様61記載の1組のドキュ
メントの階層的記述を推測する方法。
ィオデータを含む実施態様57記載の1組のドキュメン
トの階層的記述を推測する方法。
メディア・データを含む実施態様57記載の1組のドキ
ュメントの階層的記述を推測する方法。
フ・フィーチャー、ペアレント・フィーチャーあるいは
チャイルド・フィーチャーであるか否かを決定する前記
ステップは、ペアレント、チルドレンおよびセルフ予測
アルゴリズムを使用して実行される実施態様57記載の
1組のドキュメントの階層的記述を推測する方法。
定し、前記第1のヒストグラムおよび前記第2のヒスト
グラムの両方の中の前記閾値以下のフィーチャーを除去
するステップをさらに有する実施態様65記載の1組の
ドキュメントの階層的記述を推測する方法。
ジティブ・セット内の出現の順序により前記フィーチャ
ーを順位付けることをさらに有する実施態様65記載の
1組のドキュメントの階層的記述を推測する方法。
ータを含む実施態様65記載の1組のドキュメントの階
層的記述を推測する方法。
トデータを含む実施態様65記載の1組のドキュメント
の階層的記述を推測する方法。
英語以外の言語である実施態様69記載の1組のドキュ
メントの階層的記述を推測する方法。
ィオデータを含む実施態様65記載の1組のドキュメン
トの階層的記述を推測する方法。
メディア・データを含む実施態様65記載の1組のドキ
ュメントの階層的記述を推測する方法。
ーチャーおよびセルフ・フィーチャーの間の予測される
関係を示すグラフ図である。
ント・フィーチャーおよび植物学のチャイルド・フィー
チャーに対するフィーチャーの分布の見本である。
ルース・フィーチャーの分布のグラフである。
に変わり、ペアレントの知識無しに定義されなかったサ
ブカテゴリーのいくつか、すなわち、「ニュース」ある
いは「リソース」が除去されたこと以外は、図3に類似
のグラフである。
仮想ドキュメントを使用した、オープン・ディレクトリ
からのグラウンド・トルース・フィーチャーのグラフで
ある。
に変わり、不十分に定義されたチルドレンが除去され、
フルテキストの代わりに拡張アンカーテキスト仮想ドキ
ュメントを使用した、オープン・ディレクトリからのグ
ラウンド・トルース・フィーチャーのグラフである。
Claims (72)
- 【請求項1】 ドキュメントのポジティブ・セットから
フィーチャーの第1のヒストグラムを供給するステップ
と、 ドキュメントのコレクション・セットからフィーチャー
の第2のヒストグラムを供給するステップと、 前記フィーチャーを含む前記ポジティブ・セット内の前
記ドキュメントの割合と、前記フィーチャーを含む前記
コレクション・セット内の前記ドキュメントの割合にも
とづいて、各フィーチャーがセルフ・フィーチャー、ペ
アレント・フィーチャーあるいはチャイルド・フィーチ
ャーであるか否かを決定するステップを有する1組のド
キュメントの階層的記述を推測する方法。 - 【請求項2】 ヒストグラム閾値を設定し、前記第1の
ヒストグラムおよび前記第2のヒストグラムの両方の中
の前記閾値以下のフィーチャーを除去するステップをさ
らに有する請求項1記載の1組のドキュメントの階層的
記述を推測する方法。 - 【請求項3】 ドキュメントの前記ポジティブ・セット
内の出現の順序により前記フィーチャーを順位付けるこ
とをさらに有する請求項1記載の1組のドキュメントの
階層的記述を推測する方法。 - 【請求項4】 ドキュメントは画像データを有する請求
項1記載の1組のドキュメントの階層的記述を推測する
方法。 - 【請求項5】 ドキュメントはテキストデータを有する
請求項1記載の1組のドキュメントの階層的記述を推測
する方法。 - 【請求項6】 前記テキストデータは英語以外の言語で
ある請求項5記載の1組のドキュメントの階層的記述を
推測する方法。 - 【請求項7】 ドキュメントはオーディオデータを有す
る請求項1記載の1組のドキュメントの階層的記述を推
測する方法。 - 【請求項8】 ドキュメントはマルチメディア・データ
を有する請求項1記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項9】 前記決定するステップは、ペアレント、
チルドレンおよびセルフ予測アルゴリズムを使用して実
行される請求項1記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項10】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項9記載の1組のドキュメントの階層
的記述を推測する方法。 - 【請求項11】 ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項9記載の1組のドキュメント
の階層的記述を推測する方法。 - 【請求項12】 ドキュメントは画像データを有する請
求項9記載の1組のドキュメントの階層的記述を推測す
る方法。 - 【請求項13】 ドキュメントはテキストデータを有す
る請求項9記載の1組のドキュメントの階層的記述を推
測する方法。 - 【請求項14】 前記テキストデータは英語以外の言語
である請求項13記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項15】 ドキュメントはオーディオデータを有
する請求項9記載の1組のドキュメントの階層的記述を
推測する方法。 - 【請求項16】 ドキュメントはマルチメディア・デー
タを有する請求項9記載の1組のドキュメントの階層的
記述を推測する方法。 - 【請求項17】 ドキュメントのポジティブ・セットを
有するURLの第1の集合を得るステップと、 ドキュメントのコレクション・セットを有するURLの
第2の集合を得るステップと、 URLの前記第1の集合内の各URLと、URLの前記
第2の集合内の各URLに対するインバウンド・リンク
を決定するステップと、 ドキュメントの前記ポジティブ・セット内の各URLに
対する仮想ドキュメントと、ドキュメントの前記コレク
ション・セット内の各URLに対する仮想ドキュメント
を創るステップと、 URLの前記第1の集合と組み合わされた前記仮想ドキ
ュメントからフィーチャーの第1のヒストグラムを供給
するステップと、 URLの前記第2の集合と組み合わされた前記仮想ドキ
ュメントからフィーチャーの第2のヒストグラムを供給
するステップと、 前記フィーチャーを含むドキュメントの前記ポジティブ
・セットと組み合わされた前記仮想ドキュメントの割合
と、前記フィーチャーを含むドキュメントの前記コレク
ション・セットと組み合わされた前記仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
るウェブ・ページを有する1組のドキュメントの階層的
記述を推測する方法。 - 【請求項18】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項17記載の1組のドキュメントの階
層的記述を推測する方法。 - 【請求項19】 ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項17記載の1組のドキュメン
トの階層的記述を推測する方法。 - 【請求項20】 URLは画像データを含むページを示
す請求項17記載の1組のドキュメントの階層的記述を
推測する方法。 - 【請求項21】 URLはテキストデータを含むページ
を示す請求項17記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項22】 前記テキストデータは英語以外の言語
である請求項21記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項23】 URLはオーディオデータを含むペー
ジを示す請求項17記載の1組のドキュメントの階層的
記述を推測する方法。 - 【請求項24】 URLはマルチメディア・データを含
むページを示す請求項17記載の1組のドキュメントの
階層的記述を推測する方法。 - 【請求項25】 各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項17記載のウェブ・ページを
有する1組のドキュメントの階層的記述を推測する方
法。 - 【請求項26】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項25記載の1組のドキュメントの階
層的記述を推測する方法。 - 【請求項27】 ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項25記載の1組のドキュメン
トの階層的記述を推測する方法。 - 【請求項28】 URLは画像データを含むページを示
す請求項25記載の1組のドキュメントの階層的記述を
推測する方法。 - 【請求項29】 URLはテキストデータを含むページ
を示す請求項25記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項30】 前記テキストデータは英語以外の言語
である請求項29記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項31】 URLはオーディオデータを含むペー
ジを示す請求項25記載の1組のドキュメントの階層的
記述を推測する方法。 - 【請求項32】 URLはマルチメディア・データを含
むページを示す請求項25記載の1組のドキュメントの
階層的記述を推測する方法。 - 【請求項33】 情報検索システムに検索問い合わせを
提出するステップと、 前記検索問い合わせに応答する前記情報検索システムか
らのドキュメントの第1の集合を検索するステップと、 ドキュメントの第2の集合を供給するステップと、 前記第1の集合のドキュメント内の各検索されたドキュ
メントに対して、ならびにドキュメントの前記第2の集
合内の各ドキュメントに対して、インバウンド・リンク
を決定するステップと、 ドキュメントの前記第1の集合内の各ドキュメントに対
して、ならびにドキュメントの前記第2の集合内の各ド
キュメントに対して、仮想ドキュメントを創出するステ
ップと、 ドキュメントの前記第1の集合と組み合わされた前記仮
想ドキュメント内にフィーチャーの第1のヒストグラム
を創出するステップと、 ドキュメントの前記第2の集合と組み合わされた前記仮
想ドキュメント内にフィーチャーの第2のヒストグラム
を創出するステップと、 前記フィーチャーを含むドキュメントの前記ポジティブ
・セットと組み合わされた前記仮想ドキュメントの割合
と、前記フィーチャーを含むドキュメントの前記コレク
ション・セットと組み合わされた前記仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップと、 フィーチャーの分類に応答する前記検索問い合わせを変
えるステップを有する1組のドキュメントの推測にもと
づく階層的記述を使用する情報検索システムの検索方
法。 - 【請求項34】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項33記載の1組のドキュメントの推
測にもとづく階層的記述を使用する情報検索システムの
検索方法。 - 【請求項35】 ドキュメントの前記第1の集合内の出
現の順序により前記フィーチャーを順位付けることをさ
らに有する請求項33記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。 - 【請求項36】 検索範囲を広げるために、検索の問い
合わせがペアレント・フィーチャーに変えられた請求項
33記載の1組のドキュメントの推測にもとづく階層的
記述を使用する情報検索システムの検索方法。 - 【請求項37】 検索範囲を狭めるために、検索の問い
合わせがチャイルド・フィーチャーに変えられた請求項
33記載の1組のドキュメントの推測にもとづく階層的
記述を使用する情報検索システムの検索方法。 - 【請求項38】 ドキュメントは画像データを有する請
求項33記載の1組のドキュメントの推測にもとづく階
層的記述を使用する情報検索システムの検索方法。 - 【請求項39】 ドキュメントはテキストデータを有す
る請求項33記載の1組のドキュメントの推測にもとづ
く階層的記述を使用する情報検索システムの検索方法。 - 【請求項40】 前記テキストデータは英語以外の言語
である請求項39記載の1組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。 - 【請求項41】 ドキュメントはオーディオデータを有
する請求項33記載の1組のドキュメントの推測にもと
づく階層的記述を使用する情報検索システムの検索方
法。 - 【請求項42】 ドキュメントはマルチメディア・デー
タを有する請求項33記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。 - 【請求項43】 各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項33記載の1組のドキュメン
トの推測にもとづく階層的記述を使用する情報検索シス
テムの検索方法。 - 【請求項44】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項43記載の1組のドキュメントの推
測にもとづく階層的記述を使用する情報検索システムの
検索方法。 - 【請求項45】 ドキュメントの前記第1の集合内の出
現の順序により前記フィーチャーを順位付けることをさ
らに有する請求項43記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。 - 【請求項46】 検索範囲を広げるために、検索の問い
合わせをペアレント・フィーチャーに変えた請求項43
記載の1組のドキュメントの推測にもとづく階層的記述
を使用する情報検索システムの検索方法。 - 【請求項47】 検索範囲を狭めるために、検索の問い
合わせをチャイルド・フィーチャーに変えた請求項43
記載の1組のドキュメントの推測にもとづく階層的記述
を使用する情報検索システムの検索方法。 - 【請求項48】 ドキュメントは画像データを有する請
求項43記載の1組のドキュメントの推測にもとづく階
層的記述を使用する情報検索システムの検索方法。 - 【請求項49】 ドキュメントはテキストデータを有す
る請求項43記載の1組のドキュメントの推測にもとづ
く階層的記述を使用する情報検索システムの検索方法。 - 【請求項50】 前記テキストデータは英語以外の言語
である請求項49記載の1組のドキュメントの推測にも
とづく階層的記述を使用する情報検索システムの検索方
法。 - 【請求項51】 ドキュメントはオーディオデータを有
する請求項43記載の1組のドキュメントの推測にもと
づく階層的記述を使用する情報検索システムの検索方
法。 - 【請求項52】 ドキュメントはマルチメディア・デー
タを有する請求項43記載の1組のドキュメントの推測
にもとづく階層的記述を使用する情報検索システムの検
索方法。 - 【請求項53】 (a)ドキュメントの集合の階層を設
けるステップと、 (b)ドキュメントのコレクション・セットを設けるス
テップと、 (c)前記階層内の1組のドキュメント内の各ドキュメ
ントに対して、ならびにドキュメントの前記コレクショ
ン・セット内の各ドキュメントに対して、インバウンド
・リンクを決定するステップと、 (d)前記階層内のドキュメントの前記集合内の各ドキ
ュメントに対して、ならびにドキュメントの前記コレク
ション・セット内の各ドキュメントに対して、仮想ドキ
ュメントを創出するステップと、 (e)前記階層内のドキュメントの前記集合と組み合わ
された前記仮想ドキュメントからフィーチャーの第1の
ヒストグラムを創出するステップと、 (f)ドキュメントの前記コレクション・セットと組み
合わされた前記仮想ドキュメントからフィーチャーの第
2のヒストグラムを創出するステップと、 (g)前記フィーチャーを含む前記階層内のドキュメン
トの前記集合と組み合わされた前記仮想ドキュメントの
割合と、前記フィーチャーを含むドキュメントの前記コ
レクション・セットと組み合わされた仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップと、 (h)ドキュメントの集合の前記階層内のドキュメント
の各集合に対してステップ(c)からステップ(g)を
繰り返すステップと、 (i)各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。 - 【請求項54】 各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項53記載のドキュメントの集
合の推測にもとづく記述を使用してドキュメント・ディ
レクトリに符号を付ける方法。 - 【請求項55】 (a)ドキュメントの集合の階層を設
けるステップと、 (b)ドキュメントのコレクション・セットを設けるス
テップと、 (c)前記階層内のドキュメントの各集合からフィーチ
ャーの第1のヒストグラムを創出するステップと、 (d)ドキュメントの前記コレクション・セットからフ
ィーチャーの第2のヒストグラムを創出するステップ
と、 (e)前記フィーチャーを含む前記階層内のドキュメン
トの前記集合と組み合わされたドキュメントの割合と、
前記フィーチャーを含むドキュメントの前記コレクショ
ン・セットと組み合わされたドキュメントの割合にもと
づいて、各フィーチャーがセルフ・フィーチャー、ペア
レント・フィーチャーあるいはチャイルド・フィーチャ
ーであるか否かを決定するステップと、 (f)ドキュメントの集合の前記階層内のドキュメント
の各集合に対してステップ(c)からステップ(e)を
繰り返すステップと、 (g)各フィーチャーを決定することに応答するドキュ
メントの集合の前記階層に符号を付けるステップを有す
るドキュメントの集合の推測にもとづく記述を使用して
ドキュメント・ディレクトリに符号を付ける方法。 - 【請求項56】 各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項55記載のドキュメントの集
合の推測にもとづく記述を使用してドキュメント・ディ
レクトリに符号を付ける方法。 - 【請求項57】 ドキュメントのポジティブ・セットを
有するドキュメントの第1の集合を得るステップと、 ドキュメントのコレクション・セットを有するドキュメ
ントの第2の集合を得るステップと、 ドキュメントの前記第1の集合内の各ドキュメントに対
して、ならびにドキュメントの前記第2の集合内の各ド
キュメントに対して、インバウンド・リンクを決定する
ステップと、 ドキュメントの前記ポジティブ・セット内の各ドキュメ
ントに対する仮想ドキュメント、およびドキュメントの
前記コレクション・セット内の各ドキュメントに対する
仮想ドキュメントを創出するステップと、 ドキュメントの前記第1の集合と組み合わされた前記仮
想ドキュメントからフィーチャーの第1のヒストグラム
を供給するステップと、 ドキュメントの前記第2の集合と組み合わされた前記仮
想ドキュメントからフィーチャーの第2のヒストグラム
を供給するステップと、 前記フィーチャーを含むドキュメントの前記ポジティブ
・セットと組み合わされた前記仮想ドキュメントの割合
と、前記フィーチャーを含むドキュメントの前記コレク
ション・セットと組み合わされた前記仮想ドキュメント
の割合にもとづいて、各フィーチャーがセルフ・フィー
チャー、ペアレント・フィーチャーあるいはチャイルド
・フィーチャーであるか否かを決定するステップを有す
る1組のドキュメントの階層的記述を推測する方法。 - 【請求項58】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項57記載の1組のドキュメントの階
層的記述を推測する方法。 - 【請求項59】 ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項57記載の1組のドキュメン
トの階層的記述を推測する方法。 - 【請求項60】 ドキュメントは画像データを含む請求
項57記載の1組のドキュメントの階層的記述を推測す
る方法。 - 【請求項61】 ドキュメントはテキストデータを含む
請求項57記載の1組のドキュメントの階層的記述を推
測する方法。 - 【請求項62】 前記テキストデータは英語以外の言語
である請求項61記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項63】 ドキュメントはオーディオデータを含
む請求項57記載の1組のドキュメントの階層的記述を
推測する方法。 - 【請求項64】 ドキュメントはマルチメディア・デー
タを含む請求項57記載の1組のドキュメントの階層的
記述を推測する方法。 - 【請求項65】 各フィーチャーがセルフ・フィーチャ
ー、ペアレント・フィーチャーあるいはチャイルド・フ
ィーチャーであるか否かを決定する前記ステップは、ペ
アレント、チルドレンおよびセルフ予測アルゴリズムを
使用して実行される請求項57記載の1組のドキュメン
トの階層的記述を推測する方法。 - 【請求項66】 ヒストグラム閾値を設定し、前記第1
のヒストグラムおよび前記第2のヒストグラムの両方の
中の前記閾値以下のフィーチャーを除去するステップを
さらに有する請求項65記載の1組のドキュメントの階
層的記述を推測する方法。 - 【請求項67】 ドキュメントの前記ポジティブ・セッ
ト内の出現の順序により前記フィーチャーを順位付ける
ことをさらに有する請求項65記載の1組のドキュメン
トの階層的記述を推測する方法。 - 【請求項68】 ドキュメントは画像データを含む請求
項65記載の1組のドキュメントの階層的記述を推測す
る方法。 - 【請求項69】 ドキュメントはテキストデータを含む
請求項65記載の1組のドキュメントの階層的記述を推
測する方法。 - 【請求項70】 前記テキストデータは英語以外の言語
である請求項69記載の1組のドキュメントの階層的記
述を推測する方法。 - 【請求項71】 ドキュメントはオーディオデータを含
む請求項65記載の1組のドキュメントの階層的記述を
推測する方法。 - 【請求項72】 ドキュメントはマルチメディア・デー
タを含む請求項65記載の1組のドキュメントの階層的
記述を推測する方法。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US35919702P | 2002-02-22 | 2002-02-22 | |
US60/359197 | 2002-02-22 | ||
US36730902P | 2002-03-25 | 2002-03-25 | |
US60/367309 | 2002-03-25 | ||
US10/209,594 US7165024B2 (en) | 2002-02-22 | 2002-07-31 | Inferring hierarchical descriptions of a set of documents |
US10/209594 | 2002-07-31 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006224137A Division JP2006318511A (ja) | 2002-02-22 | 2006-08-21 | 1組のドキュメントの階層的記述の推測 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003248692A true JP2003248692A (ja) | 2003-09-05 |
JP3928722B2 JP3928722B2 (ja) | 2007-06-13 |
Family
ID=27808567
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003020236A Expired - Fee Related JP3928722B2 (ja) | 2002-02-22 | 2003-01-29 | 1組のドキュメントの階層的記述の推測 |
JP2006224137A Pending JP2006318511A (ja) | 2002-02-22 | 2006-08-21 | 1組のドキュメントの階層的記述の推測 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006224137A Pending JP2006318511A (ja) | 2002-02-22 | 2006-08-21 | 1組のドキュメントの階層的記述の推測 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7165024B2 (ja) |
JP (2) | JP3928722B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007043593A1 (ja) * | 2005-10-11 | 2007-04-19 | Intellectual Property Bank Corp. | 企業技術文書群分析支援装置 |
JP2009104591A (ja) * | 2007-09-12 | 2009-05-14 | Nec (China) Co Ltd | ウェブ文書クラスタリング方法およびシステム |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7155668B2 (en) | 2001-04-19 | 2006-12-26 | International Business Machines Corporation | Method and system for identifying relationships between text documents and structured variables pertaining to the text documents |
US20040117188A1 (en) | 2002-07-03 | 2004-06-17 | Daniel Kiecza | Speech based personal information manager |
US20040006628A1 (en) * | 2002-07-03 | 2004-01-08 | Scott Shepard | Systems and methods for providing real-time alerting |
US7171407B2 (en) * | 2002-10-03 | 2007-01-30 | International Business Machines Corporation | Method for streaming XPath processing with forward and backward axes |
US20040083104A1 (en) * | 2002-10-17 | 2004-04-29 | Daben Liu | Systems and methods for providing interactive speaker identification training |
US7280957B2 (en) * | 2002-12-16 | 2007-10-09 | Palo Alto Research Center, Incorporated | Method and apparatus for generating overview information for hierarchically related information |
JP2004220215A (ja) * | 2003-01-14 | 2004-08-05 | Hitachi Ltd | 計算機を利用した業務誘導支援システムおよび業務誘導支援方法 |
US7917483B2 (en) | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
US7363214B2 (en) * | 2003-08-08 | 2008-04-22 | Cnet Networks, Inc. | System and method for determining quality of written product reviews in an automated manner |
US7707210B2 (en) * | 2003-12-18 | 2010-04-27 | Xerox Corporation | System and method for multi-dimensional foraging and retrieval of documents |
GB0414623D0 (en) * | 2004-06-30 | 2004-08-04 | Ibm | Method and system for determining the focus of a document |
US7769579B2 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Learning facts from semi-structured text |
US9208229B2 (en) * | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
US8682913B1 (en) | 2005-03-31 | 2014-03-25 | Google Inc. | Corroborating facts extracted from multiple sources |
US7587387B2 (en) | 2005-03-31 | 2009-09-08 | Google Inc. | User interface for facts query engine with snippets from information sources that include query terms and answer terms |
US7831545B1 (en) * | 2005-05-31 | 2010-11-09 | Google Inc. | Identifying the unifying subject of a set of facts |
US8996470B1 (en) | 2005-05-31 | 2015-03-31 | Google Inc. | System for ensuring the internal consistency of a fact repository |
US20070112898A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for probe-based clustering |
US7813919B2 (en) * | 2005-12-20 | 2010-10-12 | Xerox Corporation | Class description generation for clustering and categorization |
US7502765B2 (en) * | 2005-12-21 | 2009-03-10 | International Business Machines Corporation | Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering |
US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US20080109232A1 (en) * | 2006-06-07 | 2008-05-08 | Cnet Networks, Inc. | Evaluative information system and method |
US8122026B1 (en) | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
US8108413B2 (en) | 2007-02-15 | 2012-01-31 | International Business Machines Corporation | Method and apparatus for automatically discovering features in free form heterogeneous data |
US8996587B2 (en) | 2007-02-15 | 2015-03-31 | International Business Machines Corporation | Method and apparatus for automatically structuring free form hetergeneous data |
US8347202B1 (en) | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
US7970721B2 (en) * | 2007-06-15 | 2011-06-28 | Microsoft Corporation | Learning and reasoning from web projections |
US7970766B1 (en) | 2007-07-23 | 2011-06-28 | Google Inc. | Entity type assignment |
US8171029B2 (en) * | 2007-10-05 | 2012-05-01 | Fujitsu Limited | Automatic generation of ontologies using word affinities |
US8332439B2 (en) * | 2007-10-05 | 2012-12-11 | Fujitsu Limited | Automatically generating a hierarchy of terms |
US8812435B1 (en) | 2007-11-16 | 2014-08-19 | Google Inc. | Learning objects and facts from documents |
US20090271388A1 (en) * | 2008-04-23 | 2009-10-29 | Yahoo! Inc. | Annotations of third party content |
US20090287668A1 (en) * | 2008-05-16 | 2009-11-19 | Justsystems Evans Research, Inc. | Methods and apparatus for interactive document clustering |
US20100121790A1 (en) * | 2008-11-13 | 2010-05-13 | Dennis Klinkott | Method, apparatus and computer program product for categorizing web content |
US20100121842A1 (en) * | 2008-11-13 | 2010-05-13 | Dennis Klinkott | Method, apparatus and computer program product for presenting categorized search results |
US20100131563A1 (en) * | 2008-11-25 | 2010-05-27 | Hongfeng Yin | System and methods for automatic clustering of ranked and categorized search objects |
US8554696B2 (en) * | 2009-02-13 | 2013-10-08 | Fujitsu Limited | Efficient computation of ontology affinity matrices |
US8954893B2 (en) * | 2009-11-06 | 2015-02-10 | Hewlett-Packard Development Company, L.P. | Visually representing a hierarchy of category nodes |
US20110112824A1 (en) * | 2009-11-06 | 2011-05-12 | Craig Peter Sayers | Determining at least one category path for identifying input text |
US8392175B2 (en) | 2010-02-01 | 2013-03-05 | Stratify, Inc. | Phrase-based document clustering with automatic phrase extraction |
US8560519B2 (en) * | 2010-03-19 | 2013-10-15 | Microsoft Corporation | Indexing and searching employing virtual documents |
US20130085946A1 (en) * | 2011-10-03 | 2013-04-04 | Steven W. Lundberg | Systems, methods and user interfaces in a patent management system |
US10318591B2 (en) * | 2015-06-02 | 2019-06-11 | International Business Machines Corporation | Ingesting documents using multiple ingestion pipelines |
US10474672B2 (en) * | 2015-08-25 | 2019-11-12 | Schlafender Hase GmbH Software & Communications | Method for comparing text files with differently arranged text sections in documents |
CN106951554B (zh) * | 2017-03-29 | 2021-04-20 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
US11113315B2 (en) | 2018-04-27 | 2021-09-07 | Branch Metrics, Inc. | Search keyword generation |
US10936630B2 (en) * | 2018-09-13 | 2021-03-02 | Microsoft Technology Licensing, Llc | Inferring topics with entity linking and ontological data |
US10970488B2 (en) * | 2019-02-27 | 2021-04-06 | International Business Machines Corporation | Finding of asymmetric relation between words |
US11468786B2 (en) * | 2019-10-16 | 2022-10-11 | Adobe Inc. | Generating tool-based smart-tutorials |
CN111079402B (zh) * | 2019-12-31 | 2021-10-26 | 北大方正集团有限公司 | 文档层级划分方法、文档层级划分装置和可读存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5857179A (en) * | 1996-09-09 | 1999-01-05 | Digital Equipment Corporation | Computer method and apparatus for clustering documents and automatic generation of cluster keywords |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
EP0859330A1 (en) * | 1997-02-12 | 1998-08-19 | Kokusai Denshin Denwa Co., Ltd | Document retrieval apparatus |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US6185550B1 (en) * | 1997-06-13 | 2001-02-06 | Sun Microsystems, Inc. | Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking |
US5956026A (en) * | 1997-12-19 | 1999-09-21 | Sharp Laboratories Of America, Inc. | Method for hierarchical summarization and browsing of digital video |
US6100901A (en) * | 1998-06-22 | 2000-08-08 | International Business Machines Corporation | Method and apparatus for cluster exploration and visualization |
US6473095B1 (en) * | 1998-07-16 | 2002-10-29 | Koninklijke Philips Electronics N.V. | Histogram method for characterizing video content |
US6480843B2 (en) * | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
US6430558B1 (en) * | 1999-08-02 | 2002-08-06 | Zen Tech, Inc. | Apparatus and methods for collaboratively searching knowledge databases |
US6598043B1 (en) * | 1999-10-04 | 2003-07-22 | Jarg Corporation | Classification of information sources using graph structures |
US6519602B2 (en) * | 1999-11-15 | 2003-02-11 | International Business Machine Corporation | System and method for the automatic construction of generalization-specialization hierarchy of terms from a database of terms and associated meanings |
US20020065857A1 (en) * | 2000-10-04 | 2002-05-30 | Zbigniew Michalewicz | System and method for analysis and clustering of documents for search engine |
US6931595B2 (en) * | 2000-11-02 | 2005-08-16 | Sharp Laboratories Of America, Inc. | Method for automatic extraction of semantically significant events from video |
US20020099702A1 (en) * | 2001-01-19 | 2002-07-25 | Oddo Anthony Scott | Method and apparatus for data clustering |
US6925460B2 (en) * | 2001-03-23 | 2005-08-02 | International Business Machines Corporation | Clustering data including those with asymmetric relationships |
US7010163B1 (en) * | 2001-04-20 | 2006-03-07 | Shell & Slate Software | Method and apparatus for processing image data |
US20020165860A1 (en) * | 2001-05-07 | 2002-11-07 | Nec Research Insititute, Inc. | Selective retrieval metasearch engine |
US20030221163A1 (en) * | 2002-02-22 | 2003-11-27 | Nec Laboratories America, Inc. | Using web structure for classifying and describing web pages |
US7320000B2 (en) * | 2002-12-04 | 2008-01-15 | International Business Machines Corporation | Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy |
US20050114130A1 (en) * | 2003-11-20 | 2005-05-26 | Nec Laboratories America, Inc. | Systems and methods for improving feature ranking using phrasal compensation and acronym detection |
-
2002
- 2002-07-31 US US10/209,594 patent/US7165024B2/en active Active
-
2003
- 2003-01-29 JP JP2003020236A patent/JP3928722B2/ja not_active Expired - Fee Related
-
2006
- 2006-08-21 JP JP2006224137A patent/JP2006318511A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007043593A1 (ja) * | 2005-10-11 | 2007-04-19 | Intellectual Property Bank Corp. | 企業技術文書群分析支援装置 |
JP2009104591A (ja) * | 2007-09-12 | 2009-05-14 | Nec (China) Co Ltd | ウェブ文書クラスタリング方法およびシステム |
US8185530B2 (en) | 2007-09-12 | 2012-05-22 | Nec (China) Co., Ltd. | Method and system for web document clustering |
Also Published As
Publication number | Publication date |
---|---|
JP3928722B2 (ja) | 2007-06-13 |
US20030167163A1 (en) | 2003-09-04 |
US7165024B2 (en) | 2007-01-16 |
JP2006318511A (ja) | 2006-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3928722B2 (ja) | 1組のドキュメントの階層的記述の推測 | |
US6182091B1 (en) | Method and apparatus for finding related documents in a collection of linked documents using a bibliographic coupling link analysis | |
Capstick et al. | A system for supporting cross-lingual information retrieval | |
Imam et al. | An ontology-based summarization system for arabic documents (ossad) | |
Lin et al. | ACIRD: intelligent Internet document organization and retrieval | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JP2009288870A (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
Li et al. | Incorporating document keyphrases in search results | |
Chen et al. | Adding new concepts on the domain ontology based on semantic similarity | |
Zhou et al. | CMedPort: An integrated approach to facilitating Chinese medical information seeking | |
Husain | Critical concepts and techniques for information retrieval system | |
Hendez et al. | Keywords extraction for automatic indexing of e-learning resources | |
Morato et al. | Experiments in discourse analysis impact on information classification and retrieval algorithms | |
Markó et al. | Interlingual Indexing across Different Languages. | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
Pai | Text summarizer using abstractive and extractive method | |
Li | Research on an Enhanced Web Information Processing Technology based on AIS Text Mining | |
Tannebaum et al. | Acquiring lexical knowledge from query logs for query expansion in patent searching | |
Brunzel et al. | Discovering multi terms and co-hyponymy from xhtml documents with XTREEM | |
Bot et al. | A hybrid classifier approach for Web retrieved documents classification | |
AygÜn et al. | Automatic Term Extraction on Turkish Scientific Texts | |
Canan Pembe et al. | Structure‐preserving and query‐biased document summarisation for web searching | |
Golub | Using controlled vocabularies in automated subject classification of textual web pages, in the context of browsing | |
Shah et al. | WebRank: Language-Independent Extraction of Keywords from Webpages | |
Toth | Innovative solutions in automatic classification: a brief summary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050106 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061127 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070227 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100316 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140316 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |