JP3928722B2 - 1組のドキュメントの階層的記述の推測 - Google Patents

1組のドキュメントの階層的記述の推測 Download PDF

Info

Publication number
JP3928722B2
JP3928722B2 JP2003020236A JP2003020236A JP3928722B2 JP 3928722 B2 JP3928722 B2 JP 3928722B2 JP 2003020236 A JP2003020236 A JP 2003020236A JP 2003020236 A JP2003020236 A JP 2003020236A JP 3928722 B2 JP3928722 B2 JP 3928722B2
Authority
JP
Japan
Prior art keywords
documents
feature
document
features
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003020236A
Other languages
English (en)
Other versions
JP2003248692A (ja
Inventor
グローバー エリック
ロバート ローレンス ステファン
ぺノック ディビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2003248692A publication Critical patent/JP2003248692A/ja
Application granted granted Critical
Publication of JP3928722B2 publication Critical patent/JP3928722B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はワールド・ワイド・ウェブの検索に関し、具体的には、階層的情報についての事前の知識は何等無しに、検索されたウェブ・ページの小さい集合から、トピックについての階層的関係を推測することに関する。
【0002】
さらに本発明は、ドキュメントの小さな集合の記述的名称である語、あるいは、句のグループを自動的に判定することと、概念についての事前の知識は何等無しに、記述的名称よりも一般的でより具体的なドキュメントの集合内の概念を推測することに関する。記述的名称および概念は、ドキュメントに含まれていないことさえ有り得る。本発明の主な応用はワールド・ワイド・ウェブの検索であるが、本発明はワールド・ワイド・ウェブあるいは特定の情報検索システムに使用することのみに制限されず、ドキュメントの任意の集合に応用することができる。
【0003】
【従来の技術】
ワールド・ワイド・ウェブの急速な発展は、オンライン・テキスト・ドキュメントの検索、ブラウジングおよび系統化を容易にすることを目的とする研究の急増をもたらした。この研究の多くは、ドキュメントを意味のあるグループにクラスタ化することに重点を置かれた。ドキュメント・クラスタを集合、あるいは階層化する多くの場合、利用者は、特定のドキュメントを詳細を確かめることなくクラスタを識別するために、コレクションにざっと目を通すことを好む。
【0004】
ワールド・ワイド・ウェブは、生物学コミュニティ、あるいはISPホームページのコミュニティのような、関連するドキュメントについて大量な数のコミュニティを含んでいる。本発明は、孤立している単一のコミュニティについての有用な階層的情報を自動的に推測する方法である。
【0005】
1組のドキュメントから始まって、その1組のドキュメントに関するさまざまに有用ないくつかの情報を自動的に推測することが望ましい。その情報は、記述的な名称あるいは関連する概念(時にはドキュメントの中に明示的に含まれていない)を有してもよい。このような情報は、検索あるいは解析のために有用である。
【0006】
クラスタリングは、構成要素がある点で、対象を類似であるグループに系統化する処理と定義することができる。クラスタリングには、すべての対象が厳密に1つのグループに指定される「分割」(多くの場合k−クラスタリングと呼ばれる)と、1を超える大きさの各グループをより小さなグループで構成することが可能な「階層的クラスタリング」の2つの主な形式がある。ワールド・ワイド・ウェブ検索エンジンの出現、明確には、利用可能な大量のデータを系統化する課題と、大規模データベースの「データ・マイニング」の概念は、クラスタリング・アルゴリズムに対する関心を復活させた。
【0007】
本発明は、ドキュメントの集合あるいはクラスタの理解を助けるために、フィーチャーの意味のあるクラスを識別する方法を提供する。フィーチャーには3つのクラスがあることが望ましい。「セルフ」フィーチャーあるいはセルフ・タームは、全体としてクラスタを記述する。「ペアレント」フィーチャーあるいはペアレント・タームは、一般的な概念を記述する。「チャイルド」フィーチャーあるいはチャイルド・タームは、クラスタの特殊化を記述する。たとえば、1組の生物学ドキュメントを仮定すると、ペアレント・タームは科学であってよく、セルフ・タームは生物学であってよく、チャイルド・タームは遺伝学であってもよい。
【0008】
セルフ・フィーチャーは推奨されたクラスタの名称として使用でき、ペアレント・フィーチャーおよびチャイルド・フィーチャーは、クラスタをより大きいコレクションのスペースに置くために使用できる。ペアレント・フィーチャーはより一般的な概念を示唆し、チャイルド・フィーチャーはセルフ・フィーチャーの特殊化についての記述である概念を示唆する。
【0009】
ペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーを自動的に発見することは、ウェブ・ディレクトリのオートマティック・ラベリングあるいは情報検索の改善を含むいくつかの目的に対して有用である。別の重要な利用法は、単一のクラスタの概要統計とバックグランド・コレクション統計のみを使用して、生成されたクラスタを自動的に命名するとともに、クラスタに含まれるより一般的でより具体的な概念の両方を推奨することである。
【0010】
現在、ヤフー社が運営するポータルサイト(http://www.yahoo.com/)あるいはオープン・ディレクトリ(http://www.dmoz.org/)のような普及しているウェブ・ディレクトリは、人間が生成し、人間が維持している。カテゴリーが人間により定義される場合でも、自動的な階層的記述は、新しいペアレントあるいはチャイルド・リンク、あるいは別の名称を推奨するために有用なことがある。ドキュメントあるいはページの検索された集合にもとづいて、別の問い合わせ(より一般的で、より具体的な問い合わせ)を推奨することにより、同じ技術が情報検索を改良するために有用なことがある。
【0011】
自動的な要約に関連する一連の先行する研究がある。たとえば、Radev と Fanは、"Automatic summarization of search engine hit lists" ,in Proceedings of ACL'2000 Workshop on Recent Advances in Nature Language Processing and Information Retrieval, Hong Kong, P.R. China, 2000,(非特許文献1)でウェブ・ドキュメントのクラスタの要約の技術を説明している。彼等の技術は、ドキュメントを個別の文に構文解析し、テーマ、すなわち、「選択されたドキュメントからの最も顕著な一節」を識別する。この技術は、「重心ベースの要約」を使用し、階層的に関連するフィーチャーの集合を作ったり、あるいはクラスタ内の語あるいは句を発見することはない。
【0012】
さまざまな概念関係をテキストから推測するために、語彙の技術が応用されてきた。たとえば、Marti A. Hearst in "Automatic acquisition of hyponyms from large text corpora" ,in Proceedings of the Fourteenth International Conference on Computational Linguistics, Nantes, France(1992)(非特許文献2)、Marti A. Hearst in "Automated discovery in wordnet relations", Christiane Fellbaum 編、WordNet: An Electronical Lexical Database, MIT Press (1998)(非特許文献3)、および、 Sharon A. Carballo in "automatic construction of a hypernym-labeled noun hierarchy from text", in Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (1999)(非特許文献4)等参照。
【0013】
名詞句、たとえば、「打撲傷、外傷、骨折した骨あるいは他の傷害」の点で区切られたリストのような、1組の語彙統語的なパターンを識別することにより、語彙の関係を見出す方法を Hearst は説明している。これらのパターンは、語彙関係の型、たとえば打撲傷、外傷および骨折した骨が傷害のすべての型であることを示唆するために使用される。上位語がラベル付けられ、階層化された名詞を自動的に構築する技術を、Carabalo は説明している。英語を母国語とする人が文章「BはAの一種である」を理解すれば、上位語としては語AとBの間の関係を説明するものとする。HearstとCaraballo により説明されたような言語学関係はシソーラスを生成するために有用であるが、ドキュメントのクラスタとコレクションの残りの部分との関係を必然的には説明していない。スポーツに焦点が当てられたクラスタがあることを知っていれば、「野球がスポーツである」ことを知ることは、有用であることがある。しかし、抽出された関係は、集合の中にある概念の実際の頻度とは必然的には関連していない。主としてバスケットボールとホッケーを論じているスポーツ・ドキュメントのクラスタがあれば、野球もスポーツであるという事実は、その集合を説明するために非常に重要なものではない。
【0014】
SandersonとCroftは、"Deriving concept hierarchies from text", in Research and Development in Information Retrieval" pages 206-213 (1999)(非特許文献5)において、包含関係にもとづく統計的技術を発表した。
【0015】
SandersonとCroftのモデルにおいて、2つの用語xとyに対して、所与のyに対するxの確率が1であり、所与のxに対するyの確率が1未満であれば、xはyを含むと言う。実際のモデルにおいて、使用された確率は、雑音を減少するために0.8であった。包含関係は、ペアレント・チャイルド関係(本発明においてはセルフ・チャイルド関係)を示唆する。これは、所与のクラスタの関係の中で階層が創出されることを可能にする。これに対して、本発明は、「ペアレント」(共通のテーマより一般的)、「セルフ」(クラスタを全体として定義あるいは記述するフィーチャー)および「チルドレン」(共通の下位概念を記述するフィーチャー)として識別されたフィーチャーに特有の一般的な領域に関心を置いている。
【0016】
PopesculとUngarは、http://citeseer.nj.nec.com/popsecu100automatic.htmlにて未刊行原稿で入手可能な、"Automatic labeling of document clusters"(非特許文献6)において、ドキュメント・クラスタに自動的に符号を付けるためにxの2乗を使用して、単純な統計的技術を説明している。各(分岐した)フィーチャーは、局部的な頻度と予報性の積にもとづいて、スコアを割り当てられた。良いクラスタ・ラベルの概念は、現在の「セルフ・フィーチャー」の概念に類似する。良いセルフ・フィーチャーは、ポジティブ・セットでは一般的であると共にネガティブ・セットで希少なものであり、局部的な高頻度と高い予報性に対応する。彼等の研究に対して、本発明は、良い名称ではないかもしれないがクラスタの理解を促進するフィーチャー(ペアレントおよびチャイルド・フィーチャー)を考慮している。
【0017】
Eric J. Glover 他は、"Using web structure for classifying and describing web pages" in Proceedings of the 11th WWW Conference, Hawaii (2002)(非特許文献7)で、予想されるエントロピーの低下によるフィーチャーの順位付けが、セルフ名あるいはペアレントまたはチャイルドの概念に対する良い候補を識別するために、どのように使用できるかを説明している。ポジティブ・セット内では一般的であり、ネガティブ・セット内で希少となるフィーチャーは、良いセルフとチルドレンを作り、さらに予想されるエントロピーの低下が多くなることを示す。ペアレントもネガティブ・セット内で相対的に希少であり、ポジティブ・セット内で一般的であり、さらに予想されるエントロピーの低下が多くなる可能性が高い。本発明は、単一のエントロピー・ベースの基準による順位付けとは対照的に、具体的なポジティブおよびネガティブ頻度を考慮することにより、異なるクラスのフィーチャーを分離することに関心を置いている。
【0018】
単一のクラスタを分析する他の方法は、クラスタの階層を形成するために、クラスタを副クラスタに分けることが挙げられる。http://citeseer.nj.nec.com/fasulo99analysi.htmlにより入手可能なD. Fasuloによる"An Analysis of recent work on clustering algorithms", Technical Report, University of Washington, (1999)(非特許文献8)では、ドキュメントのクラスタリング(および階層的クラスタリング)に対するさまざまな技術の概要を提供している。"Trawling the web for emerging cyber-communities" WWW8/Computer Networks, 31(11-16):1481-1493(1999)(非特許文献9)で、Kumar他は、クラスタを判定するためにウェブのリンク構造を使用して、コミュニティに対してウェブを具体的に分析することを説明している。HofmannとPuzichaは、"Statistical models for co-occurrence data" Technical Report AIM-1625 (1998)(非特許文献10)で、同時に出現するデータおよび関連する階層的クラスタリング・アルゴリズムに対するいくつかの統計モデルを説明している。HofmannとPuzichaは、特に、情報検索問題と用語の関連に取り組んでいる。
【0019】
次の例は、本発明と従来の階層的クラスタリング研究の間の相違を明確にするであろう。利用者が「生物学」に対してウェブ検索を行い、すべてが一般的な生物学の「中心」となるページである20個のドキュメントを検索すると仮定する。各ページは、生物学の特有の面に集中していない点である程度類似である。階層的クラスタリングでは20個のドキュメントを副クラスタに分け、各副クラスタは「チャイルド」概念を表すであろう。一番上のクラスタは、ほぼ間違いなく「セルフ」クラスタであると考えることができる。しかし、副クラスタを仮定すると、どのフィーチャー(語あるいは句)が意味がある名称であるかを認識する容易な方法はない。例えば、「植物学」は、副クラスタとして「大学」より良い名称であろうか、等。
【0020】
さらに、1群の類似のドキュメントを仮定すると、クラスタリングは有意義ではない恐れがある。副クラスタは、ドキュメントの2分の1は句「著作権2002年」を含み、他の2分の1は含まないというような、関連のない面に集中する恐れがある。文字内容に欠けるウェブ・ページ、すなわち「ウェルカム・ページ」に対して、あるいは、ページの一部が混合トピック(クラスタ全体としては主として生物学についてであっても)であれば、これは特に困難である。
【0021】
本発明による教示によれば、(非記述的ページを処理するウェブ構造を考慮して)20個のドキュメントの集合が分析され、各フィーチャーの出現を要約するヒストグラムが生成される(個別のドキュメント内の語の頻度は除去される)。本明細書において使用されるフィーチャーは、任意の用語あるいはnグラム(単一の語あるいは句)を指す。さらにフィーチャーは構造的な情報、ドキュメントの一般的な性質、あるいは他の有意義な記述でも良い。構造的な情報は、ドキュメントの名称内の語あるいは句を含んでもよく、あるいはドキュメントのメタタグ内の語あるいは句および同等物であってもよい。ドキュメントの一般的な性質は、「これは最近のドキュメントである」のような要因、あるいは、「ニュース」あるいは「ホームページ」のようなドキュメント分類を含んでもよい。このようなフィーチャーは、通常2進法である。すべてのドキュメント(あるいは、若干の、より大きい参照コレクション)のヒストグラム内のフィーチャーの分析を使用する、生成されたヒストグラム内のフィーチャーの分析は、クラスタの「最良の」名称は「生物学」であり、「科学」はより一般的な概念を説明する用語であるとの識別をもたらす。同様に、異なる型についてのクラスタを形成するであろう集合内にドキュメントがなくても、生物学のいくつかの異なる「型」が識別されるであろう。例は、「植物学」、「細胞生物学」、「進化論」および同等物である。「著作権2002年」のような句は、より大きいコレクション内での頻度のために重要ではないことが知られるであろう。さらに、ウェブ構造(以下に説明する拡張アンカーテキスト)の使用は、ドキュメントのフルテキストのみの使用と比較して、ドキュメントの小さい集合を指名する能力を大幅に改良することができ、その結果、非記述的なページ、たとえば、「ウェルカムページ」の問題に注意を集中する。ひとたび創出されたドキュメントのコレクション・セットのヒストグラムは、コレクション・セットが変化しない限り、ドキュメントの任意のポジティブ・セットと連係して使用される。すなわち、各ポジティブ・セットに対してコレクション・セットのヒストグラムを再生することと対照的に、ドキュメントのコレクション・セットのヒストグラムは、ドキュメントの多くの異なるポジティブ・セットに対して再利用することができる。
【0022】
【非特許文献1】
Radev and Fan in "Automatic summarization of search engine hit lists" ,in Proceedings of ACL'2000 Workshop on Recent Advances in Nature Language Processing and Information Retrieval, Hong Kong, P.R. China, 2000.
【非特許文献2】
Marti A. Hearst in "Automatic acquisition of hyponyms from large text corpora" ,in Proceedings of the Fourteenth International Conference on Computational Linguistics, Nantes, France(1992).
【非特許文献3】
Marti A. Hearst in "Automated discovery in wordnet relations", Christiane Fellbaum 編、WordNet: An Electronical Lexical Database MIT Press (1998).
【非特許文献4】
Sharon A. Carballo in "automatic construction of a hypernym-labeled noun hierarchy from text", in Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (1999).
【非特許文献5】
Sanderson and Croft in "Deriving concept hierarchies from text", in Research and Development in Information Retrieval" pages 206-213 (1999).
【非特許文献6】
Popescul and Ungar in "Automatic labeling of document clusters"[平成14年7月31日検索]、インターネット<URL:http://citeseer.nj.nec.com/popsecu100automatic.html>
【非特許文献7】
Eric J. Glover et al, "Using web structure for classifying and describing web pages" in Proceedings of the 11th WWW Conference, Hawaii (2002)
【非特許文献8】
D. Fasulo in "An Analysis of recent work on clustering algorithms", Technical Report, University of Washington, (1999)[平成14年7月31日検索]、インターネット<URL:http://citeseer.nj.nec.com/fasulo99analysi.html>
【非特許文献9】
Kumar et al "Trawling the web for emerging cyber-communities" WWW8/Computer Networks, 31(11-16):1481-1493(1999).
【非特許文献10】
Hofmann and Puzicha in "Statistical models for co-occurrence data" Technical Report AIM-1625 (1998).
【0023】
【発明が解決しようとする課題】
本発明は、上述したような従来技術を踏まえてなされたものであり、相対的にドキュメントの小さいクラスタに対して、ペアレント、チャイルドおよびセルフ・フィーチャーを予測するための統計モデルを得る方法を提供するものである。
【0024】
本発明によれば、トピックに関連するサンプル・ウェブ・ページの小さい集合のみを使用して、階層的情報の事前の知識無しに、トピックについての階層的な用語関係を推測する統計モデルが創られる。
【0025】
本発明を形成する統計モデルは、クラスタ内のページのフルテキストあるいはページへ向かうリンクの前後関係のいずれかを利用することができる。
【0026】
したがって、本発明の主な目的は、ウェブ・ディレクトリに有用であり、あるいは、情報検索を改良するための、自動的に生成されたさまざまなクラスタを関連づけて符号を付ける方法を提供することである。
【0027】
本発明の他の目的は、ウェブ・ページの小さい集合あるいはトピックに関連するドキュメントの集合から、事前に何らの階層的情報の知識無しに、トピックについての階層的な用語関係を推測するための統計モデルを創るための方法を提供することである。
【0028】
本発明の他の目的は、1組のドキュメント内のペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーを識別する方法を提供することである。
【0029】
本発明のさらに他の目的は、情報検索システムにおいて、より広いおよび/またはより狭い検索用語を推薦するために、1組のドキュメント内のペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーを識別する方法を提供することである。
【0030】
本発明のさらに他の目的は、ウェブ・ディレクトリに自動的に符号を付けるために、1組のドキュメント内のペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーを識別する方法を提供することである。
【0031】
本発明のさらに別の目的は、添付図面と関連する下記の説明により明白になるであろう。
【0032】
【課題を解決するための手段】
ペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーの自動的な選択は、ウェブ・ディレクトリの自動的なラベリングあるいは情報検索の改善を含むいくつかの目的に対して有用であり得る。別の重要な利用法は、クラスタの概要統計と背景となるコレクションの統計のみを使用して、生成されたクラスタを自動的に命名するとともに、より一般的でより具体的な概念を推奨することであろう。
【0033】
時折ネガティブ・セットと呼ばれるドキュメントの全部のコレクション内のフィーチャーfの頻度と比較した、1組のドキュメント(「ポジティブ・クラスタ」)内のフィーチャーfの頻度の分析にもとづいて、ペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーを区別することが可能である。具体的にいうと、fがポジティブ・クラスタ内では非常に普通であるが、コレクション内では相対的に希少であれば、fは良いセルフ・フィーチャーであることがある。ポジティブ・クラスタ内では普通であるが全体のコレクション内でもある程度普通であるフィーチャーは、ポジティブ・クラスタの記述であるが、より一般的であり、したがって良いペアレント・フィーチャーであることがある。ポジティブ・クラスタ内ではある程度普通であるが、一般的なコレクション内では非常に希少なフィーチャーは、正のドキュメントの部分集合のみを説明するから、良いチャイルド・フィーチャーであることがある。
【0034】
本明細書において使用される用語「ドキュメント」は、ドキュメントと同様の表現、すなわち、ドキュメントのプロキシ、たとえば要約、概要、アンカーテキスト、および同等物を含むと理解されるが、それに制限されない。ポジティブ・セットあるいはコレクション・セットのいずれかを形成するドキュメントは、ウェブ・ブックマークを使用して、本発明による教示にしたがって説明されたもの以外を含むクラスタリング方法の結果を使用し、ドキュメントの先存する階層あるいはドキュメントを得る他の任意の方法を使用して、ワールド・ワイド・ウェブあるいは任意の情報検索システムに問い合わせを出すことにより得ることが可能である。ドキュメントのポジティブ・セットあるいはドキュメントのコレクション・セットは、たとえば既存の階層からのランダムなURLをコレクション・セットとして使用するによる、ドキュメントのより大きい集合のサンプリングであってもよい。
【0035】
【発明の実施の形態】
次に、本発明の実施例について図面を参照して説明する。
【0036】
ここで、図、特に、図1を参照すると、ペアレント・フィーチャー、チャイルド・フィーチャーおよびセルフ・フィーチャーの間の予測される関係のグラフ図が示されている。「正の頻度」は、所与のフィーチャーを含むポジティブ・セット内のドキュメントのパーセンテージあるいは割合を示す。「コレクション頻度」は、所与のフィーチャーを含むコレクション内のドキュメントの総合的なパーセンテージあるいは割合を示す。
【0037】
長方形の箱により示されている3つの領域は、ペアレント・フィーチャー10、チャイルド・フィーチャー12およびセルフ・フィーチャー14の間に予測される相対的な関係である。長方形の箱の外のフィーチャーは、ペアレント、チャイルドおよびセルフのクラスに対しては好ましくない候補であると考えられ、このようなフィーチャーは分類されない。図1は、絶対的な数値的境界を示すものではなく、単に領域の相対的な位置のみを示す。領域は、クラスの特有の一般性に依存する。たとえば、「生物学」のクラスタに対しては「科学」のペアレントは比較的普通であるが、「遺伝子配列決定」に関するドキュメントのクラスタに対しては「DNA」のペアレントはもっと希少であるかもしれない、したがって、ペアレントとセルフの間の境界線はより0に近いであろう。
【0038】
図2は、生物学のセルフ・エリア、科学のペアレント・エリアおよび植物学のチャイルド・エリアに対するフィーチャーの分布の見本を示す。外の円20は、一般に「科学」の主題エリア内の集合内でのすべてのドキュメントの集合を表す。中央の円22は「生物学」のエリア内のドキュメントの集合であり、最も内部の円24は「植物学」のエリア内のドキュメントを表す。フィーチャー「科学」、「植物学」および「生物学」が、それぞれの対応する円の中でのみ出現し、それぞれの対応する円の中に含まれる各ドキュメント内に出現すると仮定すれば、ペアレント、チャイルド、セルフ関係は明確である。図2から、全体のドキュメントのおよそ20%が「科学」に言及し、ドキュメントの約5%が「生物学」に言及し、1%が「植物学」に言及している。「生物学」ドキュメントの集合の中で、100%が「科学」と「生物学」の両方に言及しているが、「植物学」には約20%が言及している。生物学の円内のすべてのドキュメントが生物学と言う語を実際に含んでいると想定しているので、これは非常に単純化した表現であるが、必ずしもこうはならない。同様に、植物学の副カテゴリー内のすべてのドキュメントが、「生物学」と「科学」の両方に言及することはありそうもない。
【0039】
最終的な結果を補償するために、所与の「適切な」フィーチャーが使用される何らかの確率があると想定する。この確率は、セルフあるいはチャイルドに対するよりも、ペアレントに対しては通常低い。結果として、図1において、ペアレント領域はセルフ領域よりも左方に延びている。使用されている所与のフィーチャーの確率は、右下のコーナーの座標にも影響を与えるであろう、低い確率はセルフ内の出現のパーセンテージを左方にシフトする。確率1は、すべてのセルフ・フィーチャーを含むポジティブ・セット内のすべての正のドキュメントに対応する。
【0040】
図1に説明したモデルを試験するために、グラウンド・トルース・データと既知の正のドキュメントを使用し、ペアレント・フィーチャー、セルフ・フィーチャーおよびチャイルド・フィーチャーの実際の出現のグラフが生成された。階層的記述が推測されるべきコレクション・セットおよびドキュメントの集合を形成するために、オープン・ディレクトリ (http://www.dmoz.org/) が選択された。ドキュメントの集合Siを形成するために、「コンピュータ」、「科学」および「スポーツ」のトップレベルのカテゴリーを使用して、各カテゴリーからの上位15の主題ベースのサブカテゴリーが選択され、(科学には11の主題ベースのサブカテゴリーが存在した)合計41のオープン・ディレクトリ・カテゴリーが得られた、ここでiは階層的記述が推測されるべき異なるカテゴリーに対応する。表1は、実験に使用された41のオープン・ディレクトリ・カテゴリーと、それらの3つのペアレント・カテゴリーを列挙している。フィーチャーのコレクション頻度の近似を収集するために、ドキュメントはオープン・ディレクトリ内の任意の場所からランダムに選ばれ、これらのドキュメントは集合Cを構成する。同じ集合Cが、実験のすべてに使用された。
【0041】
【表1】
Figure 0003928722
各カテゴリーは、割り当てられたペアレント(この場合、科学、コンピュータあるいはスポーツのいずれか)、セルフ・フィーチャーを形成する関連する名称、およびチャイルドを形成するいくつかのサブカテゴリーを有する。各々の場合に、本発明者等は、割り当てられた名称を「および」、「あるいは」またはコンマのような句読点で分割した。したがって、カテゴリー「異常と代替科学」は2つのセルフ「異常」および「代替科学」となる。
【0042】
実験の第1の部分は、集合C(コレクション統計)として、Si集合を形成するために各カテゴリーから500の任意のドキュメントの初期集合と、ディレクトリ内の任意の場所からの20,000のランダムなドキュメントを考慮した。ウェブのURLのそれぞれがダウンロードされ、フィーチャーがヒストグラムに入れられた。URLがターミナル・エラーに終われば、ページは無視され、トレーニングのために使用された集合Si内のドキュメントの数の変化として説明された。フィーチャーは、語あるいは2つあるいは3つの語句から成り、各フィーチャーはドキュメントごとに最大1と数える。
【0043】
次に、各カテゴリーに対して、各ペアレント、チャイルドおよびセルフ・フィーチャー(オープン・ディレクトリにより割当られるように)が、フィーチャーを含む集合Si内のドキュメントの割合としてX座標を使用し、そのフィーチャーを含む集合C内のドキュメント(ランダム・ドキュメント)の割合としてY座標を使用してグラフ化された。集合Siの2%未満のフィーチャーが出現すれば、そのフィーチャーは無視された。
【0044】
図3は、41のカテゴリーのすべてのペアレント、チャイルドおよびセルフ・フィーチャーの分布を示す。一般的な傾向であるように見えるが、ペアレントの近くに出現するチャイルドが多く存在する。同じペアレント(独自のペアレントは3つのみ)を有する多くのカテゴリーが存在し、共通の集合Cが使用されたので、ペアレントは共通のY軸値の同一直線上にある。
【0045】
チルドレンのいくつかは、カテゴリーの知識がない場合に明確に定義されていない語あるいは句である。たとえば、フィーチャー「ニュース」は、関連するカテゴリーを知らない限り、人工知能についてのニュー#スか、あるいは野球についてのニュースか不確定である。同様に、ニュースを含むいくつかのフィーチャーは、「主題」ではなく、むしろページの非テキスト属性である。カテゴリーとそれらのチルドレンのリストは、手作業で検査され、孤立して十分に定義されなかったチャイルドは除去された。チルドレンの半分以上がこの方法で除去された。データを参照するより前に、「不十分に定義された」語あるいは句が何故除去されるかの正確な知識なしに、除去は行われた。
【0046】
データの分析は、「コンピュータ」(computers) のペアレントが コンピュータ(computer) により置換されるべきであることを示唆した。普通の意味で使用される場合に語 スポーツ(sports) が多くの場合には複数形であるのと異なり、コンピュータ(computers)は多くの場合に単数形である。ステミング(stemming)あるいはストップ語除去は行われなかったので、コンピュータ(computers)とコンピュータ(computer) は異なるフィーチャーである。図4は、ペアレントが コンピュータ(computers)からコンピュータ(computer)に変わり、不十分に定義されたチルドレンが除去されたこと以外は、図3と同じデータを示す。すなわち、ペアレントの知識なしでは定義されないいくつかのサブカテゴリー、たとえば「ニュース」あるいは「リソース」が除去された。この変更は、ペアレント、セルフおよびチャイルド領域の間により明確な隔離をもたらす。除去された不十分に定義されたチルドレンは、一般にフィーチャーの第4のクラスを形成する。図1において、フィーチャーのこの第4のクラスは、ペアレント・クラスタの左でチャイルド・クラスタの上に通常位置する。
【0047】
ドキュメントは、多くの場合それらの「カテゴリー」を記述する語を含んでいない。たとえば「マルチメディア」のカテゴリーにおいて、フィーチャー「マルチメディア」は、正のドキュメントのわずか13%のみに出現した。これは、ページの作者による用語の選択の組み合わせと、多くの場合にメイン・ウェブ・ページがテキスト・コンテントを有せず「エンターするためには、ここをクリックしてください」画像のみにより表されるためである。
【0048】
モデルは、「ドキュメント」が実際に記述であると想定する。ページ自身に存在する語を使用するのではなく、図5に示すように、「拡張アンカー・テキスト」と呼ばれるであろうものを使用して、実験は繰り返された。参考文献として本明細書に包含される前掲の Glover他による文献(非特許文献7)に、拡張アンカー・テキストの記述と、拡張アンカー・テキストがドキュメントのフルテキストよりも「概要」を使用してより良く一致するフィーチャーを作り出す方法が説明されている。拡張アンカー・テキストを使用して見出されたフィーチャーは、より合理的な名称を作ると見られるクラスタを生成する。
【0049】
拡張アンカー・テキストとは、目標ページへのリンクの近くに出現する語、すなわち、インバウンド・リンクにごく近接している語を示す。図5は、拡張アンカー・テキストの例を概略的に示す。フルテキストを使用する代わりに、最高15の拡張アンカー・テキストで構成される仮想ドキュメントが使用された。ヤフー社の提供するポータルサイトあるいはオープン・ディレクトリからのインバウンドリンクは除外された。インバウンド・アンカー・テキストを含めて前後に最高25の語を考慮することにより創り出された仮想ドキュメントを使用する場合(フルテキストの使用と比較して)、ドキュメントSiのポジティブ・セット内のセルフ・フィーチャーの使用に著しい増加がある。マルチメディアのカテゴリーにおいて、フィーチャー「マルチメディア」は、フルテキストの13%とは対照的に、正の仮想ドキュメントの42%に出現した。集合C(全体のコレクション)内のドキュメントの中のフィーチャー「マルチメディア」の出現は、フルテキストおよび仮想ドキュメントの両方に対して、約2%と殆ど同一であった。
【0050】
図5において、拡張アンカー・テキストは、第1のドキュメント、すなわち、たとえば 「ABCDE」ページ50から、あるいは、第2のドキュメント、すなわち、たとえば「FGHIJ」ページ50から決定される。他のドキュメント52、52’からページ50へのインバウンド・リンク51、51’は、当業者に公知の多数の方法によって見出される。アンカー・テキスト53、53’は、ソース・ページ50および50’を示す他のページからのハイパーリンクである。一般的には、大部分の従来のドキュメントにおけるアンカー・テキストは、青いフォントで強調され、ドキュメント内で下線を引かれている。ページ50を示しているページに対する拡張アンカー・テキストは、ハイパーリンクおよびハイパーリンクの前後のいくつかの語を含む拡張アンカー・テキスト54、54’である。ドキュメント52の場合、拡張アンカー・テキスト54は、『私の好きな検索エンジンは「ABCDE」である』である。ドキュメント52’では、ドキュメント50に対する拡張アンカー・テキスト54’は、『検索エンジン「ABCDE」は、「FGHIJ」によって駆動されている』である。
【0051】
前者の場合には、拡張アンカー・テキストは、図5中に示されるように英語で表現した場合、テキストの最後の語「ABCDE」で終わっている。後者の場合には、語「ABCDE」は、拡張アンカー・テキストの中に出現する。
【0052】
インバウンド・リンクを取り囲んでいるテキストを含めることは、そのページがリンクされている前後関係と意味を提供する。
【0053】
すべてが「正」として識別される(すなわち、1つのトピックについて単一のクラスタ)1組のページから始まり、次いで1度に1つずつ、ポジティブ・セットの各ページが検査され、ポジティブ・セットのそのページにリンクするページが識別される。上の例では、「ABCDE」は正のページであり、「ABCDE」へのリンクに「近い」語を調査することにより、「ABCDE」にリンクする第1のページが、ページ「ABCDE」のトピックが関連するものの若干の表示を提供する。リンクは、必然的に「ABCDE」のような検索エンジンからではなく、任意のページからであってよい。同じ手順が、コレクション・セットの各ページに対して繰り返される。
【0054】
同じソース・ドキュメントに対して見出された拡張アンカー・テキストのすべては、仮想ドキュメント(図示せず)を形成するために一個所に配置される。
【0055】
表2は、フルテキスト(F列)実験に対して、ならびに拡張アンカー・テキスト(V列)実験に対して、(第1の実験に使用された500からランダムに選ばれた)各カテゴリーに使用された仮想ドキュメントの数を列挙している。合計743の仮想ドキュメントが、ドキュメント集合cとして使用された。仮想ドキュメントの生成は非常に費用がかかり、考慮されるページの総数の削減を余儀なくされる。仮想ドキュメントからの改良された要約能力は、より少数のドキュメントを使用して、処理が作動することを可能にするべきである。
【0056】
【表2】
Figure 0003928722
【0057】
【表3】
Figure 0003928722
【0058】
【表4】
Figure 0003928722
図6は、拡張アンカー・テキストに対して、すべてのペアレント、チルドレンおよびセルフ・フィーチャーに対する結果を示す。ポジティブ・セットSi内のドキュメントのパーセンテージは、セルフがチルドレンからより明らか分かれるにつれて、一般に右にシフトしている。図7は、不十分に定義されたチルドレンを除去し、"computers" を "computer"で置換した後の結果を示す。極めて少数のデータ点のみが、各クラスの周囲に定められた単純な長方形の領域の外に脱落している。
【0059】
大部分のペアレント、チルドレンおよびセルフは示された領域に含まれるが、フィーチャーのステミングを行うことにより、結果を改善することが可能である。たとえば、フィーチャーによっては単数形と複数形の両方で出現することがあり、1方の形は偽のチャイルドとして出現する。さらに、句はそれらの個別の語よりも出現頻度が低い恐れがあり、「人工知能」のような場合に、セルフを誤ってチルドレンとして出現させる。この場合、句の出現頻度が比較的低いために、句「人工知能」はチャイルドとして出現する。
【0060】
図7は、41のカテゴリーに対するオープン・ディレクトリからのグラウンド・トルース・フィーチャーのグラフが、一般に図1の予測されたモデルに従うことを示すが、このモデルは各カテゴリーに出現するすべてのフィーチャーをグラフに表さず、オープン・ディレクトリにより割当られたフィーチャーのみがグラフに表されている。すべてのフィーチャーを可能性のあるペアレント、チルドレンおよびセルフとして順位付け、その出力をオープン・ディレクトリからのグラウンド・トルース・データと比較するアルゴリズムを使用することにより、モデルの妥当性は強化される。
【0061】
問い合わせの結果、クラスタリング・オペレーションから結果として生ずるドキュメント、ブックマークを付されたドキュメントのリスト、あるいは、手作業で選択されたドキュメントであってもよい1群のドキュメント、を使用する。ドキュメントがウェブ・ページあるいは他のハイパーリンクされたドキュメント・コレクションを有するならば、上述のように各ページに対して仮想ドキュメントが創出されることが望ましい。ハイパーリンクされていないドキュメントがあれば、ドキュメントのフルテキスト・バージョンを使用することができる。次に、以下のアルゴリズムが適用される。順位は、結果について実行される。多くの順位付けが可能であるが、望ましい順位付けは、フィーチャーを含むドキュメントの最も高いパーセンテージにもとづいた順位に依存する。表3は、各カテゴリー内の上位2番にランクされたセルフ・フィーチャーを示し、ここで、順位はフィーチャーを含むポジティブ・セット内のドキュメントのパーセンテージにもとづいている。
【0062】
ペアレント・チルドレンおよびセルフ予測アルゴリズム
1組の所望のフィーチャーからの各フィーチャーfに対して、
1.フィーチャーfに次のようにラベルを割り当てる。
if (f.C > maxParentC)[Label = 'N' ]
elseif (f.C>maxSelfC)[Label='P' ]
elseif (f.Si>minSelfSi)[Label='S' ]
elseif ((f.Si<maxChildSi) and (f.C<maxChildC))[Label='C')else [Label='N')
2.各ラベル(P、S、C)に対して、そのラベルを使用して f.Si により各フィーチャーfを分類する。
【0063】
図7からのデータを使用して、次のカットオフを指定する。
maxParentC = 0.08
maxSelfC = 0.06
minSelfSi= 0.4
maxChildSi = 0.4
maxChildC = 0.02
iは階層的記述が推測されるべきドキュメントの集合であり、Cはドキュメントのコレクション・セットであり、f.Cはフィーチャーfを含むドキュメントCのコレクション・セット内のドキュメントの割合であり、f.Siはフィーチャーfを含むポジティブ・ドキュメントSiの集合内のドキュメントの割合である。
【0064】
上記の望ましいアルゴリズムは、セルフ、ペアレントおよびチャイルド領域が長方形であり、図1に示すように接続されている場合に、最も有用である。領域が、切断されている、および/または部分的に重なり合っている、および/または非長方形であることが望ましければ、アルゴリズムは当業者により適宜修正することができる。
【0065】
表3は、ペアレント・チルドレンおよびセルフ予測アルゴリズムを使用して、試験された41のカテゴリーのそれぞれに対する上位のペアレント・フィーチャー、上位のセルフ・フィーチャーおよび上位のチルドレン・フィーチャーを示す。空白のエントリは、そのカテゴリーに対して指定された領域に、語あるいはフィーチャーがないことを意味する。結果は、すべての41のカテゴリーにおいて("computers" を "computer"で置換)、オープン・ディレクトリが割当したペアレントが上位5に順位付けられたことを示している。カテゴリーの約80%において、上位にランクされたセルフは、オープン・ディレクトリが割当したセルフと同一であるか、あるいは、実際上同一(同義語、あるいは同一の語幹)である。リストされない多くの合理的なチルドレンが存在するので、チルドレンを評価することはより困難である。
【0066】
【表5】
Figure 0003928722
【0067】
【表6】
Figure 0003928722
【0068】
【表7】
Figure 0003928722
【0069】
【表8】
Figure 0003928722
【0070】
【表9】
Figure 0003928722
【0071】
【表10】
Figure 0003928722
【0072】
【表11】
Figure 0003928722
【0073】
【表12】
Figure 0003928722
アルゴリズムの改良は可能である。第1に、「インターネット」のような、いくつかのカテゴリーにおいて、カットオフ点は変化する。アルゴリズムは、所与のカテゴリーに対するデータに動的に順応しない。さらに、アルゴリズムは境界点を知ることを必要とする。第2に、時には句は単一の語より正の出現頻度が低い。たとえば、句「Artificial Intelligence(人工知能)」は、セルフの代わりに誤ってチャイルドとして出現する。第3に、ステミングあるいはインテリジェントなフィーチャー除去がない。たとえば、「university of(大学)」のようなフィーチャーは、ストップ語で終了するので、無視されるべきである。同様に、"consult" とは対照的に "consulting" 、あるいは "computer" とは対照的に "computers" は、すべて語幹の失敗が誤りを起こす例である。別の改良は、効率的でないフィーチャーを自動的に除去する閾値を適用することである。上述のように、非長方形の領域が所望であれば、あるいは領域が部分的に重なり合っていれば、あるいは領域が接続されていなければ、アルゴリズムを変えることが可能である。
【0074】
説明した発明は、英文に限定されるものではない。日本語を含む、ほとんどの言語が使用できる。次のリストは、日本の大学のカテゴリーから日本語のウェブ・ページからのフルテキストを使用して、ペアレント・チルドレンおよびセルフ予測アルゴリズムを適用した結果を示す。抽出されたフィーチャーは、日本語の単語であり、英語の翻訳ではない。
【0075】
次のデータは、432の「ランダムな」ウェブ・ページ(日本語の)および、367の日本の大学のページ(同じく日本語の)を使用して収集された。
【0076】
上位にランクされたペアレント:年度−year、学校−school、学−study
上位にランクされたセルフ: 大学−university、入試−admission examination
上位にランクされたチルドレン: 学生−student、学科−subject、入学−entrance、科−course、図書館−library、キャンパス−campus、学部−department、学内−inside the university、施設−facility、大学院−graduate school
ペアレント・チルドレンおよびセルフ予測アルゴリズムを適用するために使用されたカットオフ値は近似的に次の通りであった。
maxParentC : = 0.05;
maxSelfC = 0.04;
minSelfSi = maxChildSi = 0.35;
maxChildC = 0.03.
さらに本発明はテキスト・ドキュメントのみに限定されるものではない。本発明は、識別することが可能なフィーチャーが存在するマルチメディア・データ、オーディオデータ、画像データ、ビデオデータおよび同等物を含むが、それらのみに限定されない非テキスト・データに適用することができる。URL、リンク、あるいは、引用、参照、クローズド・キャプショニングまたは同等物のようなテキストの他のソースが非テキスト・データに利用できれば、拡張アンカー・テキスト方法が使用できる。URLあるいはリンクが利用できなければ、非テキスト・データを記述するための一般的なフィーチャーが使用できる。ソースがターゲットたとえば引用参照についての情報を有するドキュメントの間のインターリンキング・システムは、URLの代わりに使用できる。
【0077】
これらの方法を使用することにより、サーチャーはドキュメントのクラスタに容易に名称をつけ、関連づけることができる。前の問い合わせよりも、より一般的で、より具体的な別の問い合わせを自動的に推薦されることにより、サーチャーは利益を得ることが可能である。問い合わせに対する1組の結果は、予測される階層にもとづいて拡大することができる。たとえば、利用者は単語「生物学」を検索し、単語「科学」は単語「生物学」より一般的であり、単語「植物学」は単語「生物学」より特有であるとの推薦を受ける。同様に、たとえば、複数のホームページに関連するいくつかのページを選択する利用者は、これらのページは「インターネット・サービス・プロバイダー」と命名されるべきであることを理解することができる。
【0078】
要約すれば、比較的小さいドキュメントのクラスタに対するペアレント、チャイルドおよびセルフ・フィーチャーの予測に対して、統計モデルを創る方法を説明し、例示した。セルフ・フィーチャーはクラスタの推薦された名称として有用であり、ペアレントおよびチルドレン・フィーチャーはより大きいコレクションのスペースにクラスタを「配置する」ために使用することができる。ペアレント・フィーチャーはより一般的な概念を示唆し、一方チルドレン・フィーチャーはセルフ・フィーチャーの専門分野を説明する概念を示唆する。グラウンド・トルース・データのグラフ化の実験的なテストは、実際のペアレント、チャイルドおよびセルフ・フィーチャーが一般にモデルに従うことを確認した。フィーチャー・ヒストグラムからペアレント、チャイルドおよびセルフ・フィーチャーを予測することができるアルゴリズムを開示した。予測されたフィーチャーは、多くの場合にグラウンド・トルースと一致し、関連するカテゴリーの間の新しい相互接続を示唆した。
【0079】
階層的情報の事前の知識なしに1組のドキュメントから階層的記述を推測する望ましい方法を説明し例示したが、本明細書に付された特許請求の範囲によりのみ制限されるべきである本発明の技術思想と広い範囲を逸脱せずに、修正および変形がさらに可能であることは、当業者に明白であろう。
【図面の簡単な説明】
【図1】ペアレント・フィーチャー、チャイルド・フィーチャーおよびセルフ・フィーチャーの間の予測される関係を示すグラフ図である。
【図2】生物学のセルフ・フィーチャー、科学のペアレント・フィーチャーおよび植物学のチャイルド・フィーチャーに対するフィーチャーの分布の見本である。
【図3】オープン・ディレクトリからのグラウンド・トルース・フィーチャーの分布のグラフである。
【図4】ペアレントが「computers」から「computer」に変わり、ペアレントの知識無しに定義されなかったサブカテゴリーのいくつか、すなわち、「ニュース」あるいは「リソース」が除去されたこと以外は、図3に類似のグラフである。
【図5】拡張アンカーテキストの概念図である。
【図6】フルテキストの代わりに拡張アンカーテキスト仮想ドキュメントを使用した、オープン・ディレクトリからのグラウンド・トルース・フィーチャーのグラフである。
【図7】ペアレントが「computers」から「computer」に変わり、不十分に定義されたチルドレンが除去され、フルテキストの代わりに拡張アンカーテキスト仮想ドキュメントを使用した、オープン・ディレクトリからのグラウンド・トルース・フィーチャーのグラフである。
【符号の説明】
10 ペアレント・フィーチャー
12 チャイルド・フィーチャー
14 セルフ・フィーチャー

Claims (8)

  1. 情報検索システムで行われる検索方法であって、
    前記情報検索システムが、入力された検索問い合わせデータを受け付けるステップと、
    前記情報検索システムが、前記検索問い合わせデータに応答してドキュメントの第1の集合を検索するステップと、
    前記情報検索システムが、ドキュメントの第2の集合を受け付けるステップと、
    前記情報検索システムが、前記第1の集合のドキュメント内の各検索されたドキュメントに対して、ならびにドキュメントの前記第2の集合内の各ドキュメントに対して、インバウンド・リンクを決定するステップと、
    前記情報検索システムが、ドキュメントの前記第1の集合内の各ドキュメントに対して、ならびにドキュメントの前記第2の集合内の各ドキュメントに対して、拡張アンカー・テキストを創出するステップと、
    前記情報検索システムが、ドキュメントの前記第1の集合と組み合わされた前記拡張アンカー・テキストから任意の用語あるいはnグラムの出現頻度を示す第1のヒストグラムを創出するステップと、
    前記情報検索システムが、ドキュメントの前記第2の集合と組み合わされた前記拡張アンカー・テキストから前記任意の用語あるいはnグラムの出現頻度を示す第2のヒストグラムを創出するステップと、
    前記情報検索システムが、1組の所望の任意の用語あるいはnグラム(フィーチャー)からの各フィーチャーfに対して、
    1.f.Si を前記第1の集合のドキュメントの中の前記任意の用語あるいはnグラムの割合、 f.c を前記第2の集合のドキュメントの中の前記任意の用語あるいはnグラムの割合、としてフィーチャーfに次のようにラベルを割り当てる
    if (f.C > maxParentC)[Label = 'N' ]
    elseif (f.C>maxSelfC)[Label='P' ]
    elseif (f.Si>minSelfSi)[Label='S' ]
    elseif ((f.Si<maxChildSi) and (f.C<maxChildC))[Label='C']
    else [Label='N']
    ここで、maxParentC > maxSelfC >= maxChildC、minSelfSi >= maxChildSi
    2.ペアレント・フィーチャー、セルフ・フィーチャーあるいはチャイルド・フィーチャーをそれぞれ示す各ラベル(P、S、C)に対して、そのラベルによりフィーチャーを分類することにより、前記任意の用語あるいはnグラムを含むドキュメントの前記第1の集合であるポジティブ・セットと組み合わされた前記拡張アンカー・テキストの割合と、前記任意の用語あるいはnグラムを含むドキュメントの前記第2の集合であるコレクション・セットと組み合わされた前記拡張アンカー・テキストの割合にもとづいて、各任意の用語あるいはnグラムがセルフ・フィーチャー、ペアレント・フィーチャーあるいはチャイルド・フィーチャーであるか否かを決定するステップと、
    前記情報検索システムが、前記受け付けた検索問い合わせデータのフィーチャーの分類に応答し、前記検索問い合わせを変更するステップを有する検索方法。
  2. 検索範囲を広げるために、検索の問い合わせがペアレント・フィーチャーに変えられた請求項1記載の検索方法。
  3. 検索範囲を狭めるために、検索の問い合わせがチャイルド・フィーチャーに変えられた請求項1記載の検索方法。
  4. ドキュメントは画像データを有する請求項1記載の検索方法。
  5. ドキュメントはテキストデータを有する請求項1記載の検索方法。
  6. 前記テキストデータは英語以外の言語である請求項5記載の検索方法。
  7. ドキュメントはオーディオデータを有する請求項1記載の検索方法。
  8. ドキュメントはマルチメディア・データを有する請求項1記載の検索方法。
JP2003020236A 2002-02-22 2003-01-29 1組のドキュメントの階層的記述の推測 Expired - Fee Related JP3928722B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US35919702P 2002-02-22 2002-02-22
US60/359197 2002-02-22
US36730902P 2002-03-25 2002-03-25
US60/367309 2002-03-25
US10/209,594 US7165024B2 (en) 2002-02-22 2002-07-31 Inferring hierarchical descriptions of a set of documents
US10/209594 2002-07-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006224137A Division JP2006318511A (ja) 2002-02-22 2006-08-21 1組のドキュメントの階層的記述の推測

Publications (2)

Publication Number Publication Date
JP2003248692A JP2003248692A (ja) 2003-09-05
JP3928722B2 true JP3928722B2 (ja) 2007-06-13

Family

ID=27808567

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003020236A Expired - Fee Related JP3928722B2 (ja) 2002-02-22 2003-01-29 1組のドキュメントの階層的記述の推測
JP2006224137A Pending JP2006318511A (ja) 2002-02-22 2006-08-21 1組のドキュメントの階層的記述の推測

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2006224137A Pending JP2006318511A (ja) 2002-02-22 2006-08-21 1組のドキュメントの階層的記述の推測

Country Status (2)

Country Link
US (1) US7165024B2 (ja)
JP (2) JP3928722B2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7155668B2 (en) 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US20040024598A1 (en) 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US7171407B2 (en) * 2002-10-03 2007-01-30 International Business Machines Corporation Method for streaming XPath processing with forward and backward axes
US20040163034A1 (en) * 2002-10-17 2004-08-19 Sean Colbath Systems and methods for labeling clusters of documents
US7280957B2 (en) * 2002-12-16 2007-10-09 Palo Alto Research Center, Incorporated Method and apparatus for generating overview information for hierarchically related information
JP2004220215A (ja) * 2003-01-14 2004-08-05 Hitachi Ltd 計算機を利用した業務誘導支援システムおよび業務誘導支援方法
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US7363214B2 (en) * 2003-08-08 2008-04-22 Cnet Networks, Inc. System and method for determining quality of written product reviews in an automated manner
US7707210B2 (en) * 2003-12-18 2010-04-27 Xerox Corporation System and method for multi-dimensional foraging and retrieval of documents
GB0414623D0 (en) * 2004-06-30 2004-08-04 Ibm Method and system for determining the focus of a document
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US7831545B1 (en) * 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
JPWO2007043593A1 (ja) * 2005-10-11 2009-04-16 株式会社アイ・ピー・ビー 企業技術文書群分析支援装置
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization
US7502765B2 (en) * 2005-12-21 2009-03-10 International Business Machines Corporation Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US20080109232A1 (en) * 2006-06-07 2008-05-08 Cnet Networks, Inc. Evaluative information system and method
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8996587B2 (en) * 2007-02-15 2015-03-31 International Business Machines Corporation Method and apparatus for automatically structuring free form hetergeneous data
US8108413B2 (en) 2007-02-15 2012-01-31 International Business Machines Corporation Method and apparatus for automatically discovering features in free form heterogeneous data
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7970721B2 (en) * 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
CN101388013A (zh) * 2007-09-12 2009-03-18 日电(中国)有限公司 用于网络文件聚类的方法和系统
US8332439B2 (en) * 2007-10-05 2012-12-11 Fujitsu Limited Automatically generating a hierarchy of terms
US8171029B2 (en) * 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US20090271388A1 (en) * 2008-04-23 2009-10-29 Yahoo! Inc. Annotations of third party content
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
US20100121842A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for presenting categorized search results
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US8554696B2 (en) * 2009-02-13 2013-10-08 Fujitsu Limited Efficient computation of ontology affinity matrices
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US20110112824A1 (en) * 2009-11-06 2011-05-12 Craig Peter Sayers Determining at least one category path for identifying input text
US8392175B2 (en) * 2010-02-01 2013-03-05 Stratify, Inc. Phrase-based document clustering with automatic phrase extraction
US8560519B2 (en) * 2010-03-19 2013-10-15 Microsoft Corporation Indexing and searching employing virtual documents
US20130086093A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg System and method for competitive prior art analytics and mapping
US10318591B2 (en) * 2015-06-02 2019-06-11 International Business Machines Corporation Ingesting documents using multiple ingestion pipelines
US10474672B2 (en) * 2015-08-25 2019-11-12 Schlafender Hase GmbH Software & Communications Method for comparing text files with differently arranged text sections in documents
CN106951554B (zh) * 2017-03-29 2021-04-20 浙江大学 一种层次化新闻热点及其演化的挖掘与可视化方法
US11113315B2 (en) 2018-04-27 2021-09-07 Branch Metrics, Inc. Search keyword generation
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
US10970488B2 (en) * 2019-02-27 2021-04-06 International Business Machines Corporation Finding of asymmetric relation between words
US11468786B2 (en) * 2019-10-16 2022-10-11 Adobe Inc. Generating tool-based smart-tutorials
CN111079402B (zh) * 2019-12-31 2021-10-26 北大方正集团有限公司 文档层级划分方法、文档层级划分装置和可读存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
EP1486891A3 (en) * 1997-02-12 2005-03-09 Kokusai Denshin Denwa Co., Ltd Document retrieval apparatus
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6055540A (en) * 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
US6473095B1 (en) * 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6430558B1 (en) * 1999-08-02 2002-08-06 Zen Tech, Inc. Apparatus and methods for collaboratively searching knowledge databases
US6598043B1 (en) * 1999-10-04 2003-07-22 Jarg Corporation Classification of information sources using graph structures
US6519602B2 (en) * 1999-11-15 2003-02-11 International Business Machine Corporation System and method for the automatic construction of generalization-specialization hierarchy of terms from a database of terms and associated meanings
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
US6931595B2 (en) * 2000-11-02 2005-08-16 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US20020099702A1 (en) * 2001-01-19 2002-07-25 Oddo Anthony Scott Method and apparatus for data clustering
US6925460B2 (en) * 2001-03-23 2005-08-02 International Business Machines Corporation Clustering data including those with asymmetric relationships
US7010163B1 (en) * 2001-04-20 2006-03-07 Shell & Slate Software Method and apparatus for processing image data
US20020165860A1 (en) * 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US20050114130A1 (en) * 2003-11-20 2005-05-26 Nec Laboratories America, Inc. Systems and methods for improving feature ranking using phrasal compensation and acronym detection

Also Published As

Publication number Publication date
US7165024B2 (en) 2007-01-16
JP2003248692A (ja) 2003-09-05
JP2006318511A (ja) 2006-11-24
US20030167163A1 (en) 2003-09-04

Similar Documents

Publication Publication Date Title
JP3928722B2 (ja) 1組のドキュメントの階層的記述の推測
Singh et al. A systematic review of text stemming techniques
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
US20180300315A1 (en) Systems and methods for document processing using machine learning
US7548913B2 (en) Information synthesis engine
Eisa et al. Existing plagiarism detection techniques: A systematic mapping of the scholarly literature
Imam et al. An ontology-based summarization system for arabic documents (ossad)
Capstick et al. A system for supporting cross-lingual information retrieval
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2011118689A (ja) 検索方法及びシステム
Mahdi et al. A Citation-based approach to automatic topical indexing of scientific literature
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
WO2012091541A1 (en) A semantic web constructor system and a method thereof
Zhou et al. CMedPort: An integrated approach to facilitating Chinese medical information seeking
Hsu et al. Mining various semantic relationships from unstructured user-generated web data
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
Gonzalo et al. The Web as a Resource for WSD
Milić-Frayling Text processing and information retrieval
Maree et al. Coupling semantic and statistical techniques for dynamically enriching web ontologies
Pasca The role of queries in ranking labeled instances extracted from text
Canan Pembe et al. Structure‐preserving and query‐biased document summarisation for web searching
Majumdar Automatic Keyword Extraction Method for Multilingual Web Pages
Liu et al. Keyphrase extraction for labeling a website topic hierarchy
Demartini et al. An architecture for finding entities on the web

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050106

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100316

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120316

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120316

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140316

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees