JP2006525601A - 概念ネットワーク - Google Patents

概念ネットワーク Download PDF

Info

Publication number
JP2006525601A
JP2006525601A JP2006509984A JP2006509984A JP2006525601A JP 2006525601 A JP2006525601 A JP 2006525601A JP 2006509984 A JP2006509984 A JP 2006509984A JP 2006509984 A JP2006509984 A JP 2006509984A JP 2006525601 A JP2006525601 A JP 2006525601A
Authority
JP
Japan
Prior art keywords
network
data storage
conceptual network
web
conceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006509984A
Other languages
English (en)
Other versions
JP2006525601A5 (ja
Inventor
チョン チェン
シェンピン リュー
ウェイ−イン マー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006525601A publication Critical patent/JP2006525601A/ja
Publication of JP2006525601A5 publication Critical patent/JP2006525601A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/96Object-relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

ユーザ問い合わせに応答して生成され得る概念ネットワーク(100)。一実施形態において、概念ネットワーク(100)は、サーチツールと共に使用されている。サーチツールは複数のデータ記憶場所をサーチする。各データ記憶場所は、1つのノード(302)を用いて構成される。ノードのうちのいくつかのものは、少なくとも1つのリンク(306)によって接続される。概念ネットワーク(100)はリンク(306)に基づいてノードのうちのうちのいくつかのものの一部を選択し、その少なくとも1つのリンクはコンテンツのために使用される(306)。

Description

本開示はサーチツールに関し、より詳細には、表示されるサーチ結果に関する。
インターネットなどのネットワークの急速な成長に伴って、サーチの正確さおよび品質がますます重要になっている。しかしながら、多くのユーザは、サーチエンジンを使ったサーチは、その多くがユーザが送った問い合わせ(query)にあまり当てはまらない多数の(おそらく何千もの)結果を生み出すと感じている。そのため、多くのユーザが、サーチ結果に不満を持つようになっている。また、ユーザの中には、問い合わせで返される結果が多数であることが、インターネットに含まれる重要な情報を分かりにくくすると感じている人もいる。
大部分の従来技術のサーチエンジンは、主に、キーワード比較に基づくものである。世界の上位N社(Nは整数とする)のデジタルカメラ製造会社を尋ねる問い合わせを考える。キーワード比較サーチエンジンは、キーとなる用語「デジタルカメラ」を含むいくつかのWebページ、およびキーとなる用語「製造会社」を含む他のWebページを返すはずである。したがって、キーワード比較サーチエンジンにおいて返される、デジタルカメラ製造会社に関連する結果の合計のパーセンテージは比較的小さい。また、キーワード比較サーチエンジンは、それらのWebページに基づいて、個々のデジタルカメラ製造会社が、他のデジタルカメラ製造会社より大きく、またはよりよく知られているかどうか比較する方法(あるいは他の何らかの定量化可能な比較方法)も持たない。そのため、主にキーワード比較に基づくものである従来技術のサーチエンジンは、しばしば、その多くが辛うじて問い合わせに関連するだけの、多数の結果をもたらすことがある。そのようなキーワード比較サーチエンジンは、Webサイトの構造に基づいて、複数のサーチされたWebサイトのうちで最も該当するものを識別することができない。
別の態様において、多くのユーザは、役に立つサーチ結果を獲得するには多数の問い合わせによってサーチする必要があると考えている。そのため、ユーザは、すべての関連性のある応答が考察されるようにするには、問い合わせ(およびサーチ結果の関連性の検討)に相当な時間を必要とすると考えている。そのような時間が費やされた後でさえも、ユーザは、しばしば、最も有効なサーチ結果が、膨大な量の関連性のない情報内に紛れて見失われている可能性があると考えることがある。
さらに別の態様において、多くのインターネットアプリケーションは、(George A.Miller教授の指示の下、プリンストン大学において開発された)WordNet(登録商標)などの辞書編集ツールを利用して、サーチエンジンの精度を向上させるためにユーザの問い合わせを拡張する。WordNetはオンライン語彙参照システムである。WordNetでは、名詞、動詞、形容詞および副詞は、それぞれが1つの基礎をなす語彙概念を表す同義語集合に編成される。様々な関係がそれらの同義語集合を結びつける。WordNetでは、ユーザが、Webページに関連して自分の個人的分類法を手入力する。したがって、WordNetは、インターネットおよび他のネットワークで接続されたコンピュータシステムの急速な成長およびダイナミックな変化に追随するのにふさわしく構成されていない。例えば、WordNetでは、Web中の語の半分以上が現れない。
本発明は、概念ネットワークに関するものである。概念ネットワークは、ユーザ問い合わせに応答して生成され得る。一実施形態では、概念ネットワークは、サーチツールと共に使用されている。サーチツールは複数のデータ記憶場所をサーチする。各データ記憶場所は、1つのノードを用いて構成される。ノードのうちのいくつかのものは、少なくとも1つのリンクによって接続される。概念ネットワークはリンクに基づいてノードのうちのうちのいくつかのものの一部を選択し、その少なくとも1つのリンクはコンテンツのために使用される。
図面全体を通して、同じ番号は、類似の機能および構成要素を参照する。
本開示は、概念ネットワークの様々な実施形態を提供する。概念ネットワークにおいて、問い合わせは、サーチされている概念と同等とみなされる。概念ネットワークでは、複数のサーチ結果情報が、ユーザに表示される複数の概念に構造的に編成される。本明細書で開示する概念ネットワークは、問い合わせの様々な概念に対するサーチ結果の関連性に従ってサーチ結果を検索し、かつ/または表示する(サーチ結果は概念に基づいて整理される)。概念ネットワークは、ユーザが、ユーザ問い合わせに対するサーチ結果の関連性に基づいて、様々なサーチ結果、サーチ結果の様々なコンテンツ、またはサーチ結果の様々な部分にアクセスすることができるように構成することができる。そのような概念ネットワークが、問い合わせに基づき、コンピュータ環境において生成される。「概念ネットワーク」という用語の一態様は、概念がユーザによって理解され、アクセスされ得るような仕方での概念の概念ネットワークへの概念のグループ化に関連する。
概念ネットワークの一実施形態は、特にインターネットを対象とする。とはいえ、概念ネットワークは、一般には、どんなコンピュータ環境にもコンピュータシステムにも適用することができる。概念ネットワークのインターネット実施形態では、ユーザは問い合わせを入力することができ、表示される出力概念ネットワークは、ユーザによって選択され得る概念の一覧とすることができる。例えば、ユーザが「電子システム」を問い合わせる場合、表示される概念ネットワークには、セルラ電話、コンピュータ、オーディオシステム、ビデオシステムなど、様々な概念が含まれ得る。ユーザは、その上で、より具体的なサーチ結果を表示するために概念ネットワークとして表示されるこれらの概念の1つを選択することができる。
概念ネットワークの一実施形態は、図3に関連して説明するような、複数の相互接続された概念を表示する大きな接続グラフを含む。この概念ネットワークは、従来技術のサーチエンジンからのサーチ結果と同様に、ユーザ問い合わせに基づいて導出される。概念ネットワークは、従来技術のサーチエンジンに比べて、ユーザ問い合わせへの応答の正確さを向上させる。また、概念ネットワークは、キーワード問い合わせを利用する従来技術のサーチエンジンの間で一般化している多数の無関係なサーチ結果を制限する。
図1に、概念ネットワーク100を生成し、表示するように構成されたコンピュータ環境50の一実施形態のブロック図を示す。コンピュータ環境50は、任意選択のネットワーク部分72を含み得る(とはいえ、コンピュータは独立型コンピュータとすることもできる)。コンピュータ環境50は、サーチツール74および表示ツール75を含む。サーチツール74および表示ツール75の部分は、概念ネットワーク100の一実施形態の部分を含む。概念ネットワーク100は、ユーザにサーチ結果の構造化表現を表示するためのユーザインターフェースとして提供され、サーチ結果は、やはり、返される各サーチ結果の関連性を指示するためにユーザに示され得る概念に従って構造化され、配列される。従来技術のサーチエンジンは、通常、該当するWebページなどの一覧表示を返すのに対し、本開示で開示する返される概念ネットワークは、例えば、それらのコンテンツに従って構造的に配列された複数のWebページを含む。概念ネットワーク100を生成するサーチは、サーチされるデータの何らかの構造的特徴によって告発される(indicted)、サーチされるデータ(Webページなど)内に含まれる情報を利用する。そのため、(サーチされるデータの構造に基づくものである)概念ネットワークの返される結果は、一般に、(キーワードマッチングに基づくものである)従来技術のサーチエンジンの結果よりも正確なサーチ結果を提供する。
概念ネットワーク100を含む図1のコンピュータ環境50には、一般化されたコンピュータ環境が示されている。概念ネットワークは、独立型コンピュータ、ネットワークで接続されたコンピュータ、またはメインフレームコンピュータを含めて、サーチエンジンを使用することのできるどんな種類のコンピュータ環境においても大いに適用可能であると想定される。しかしながら、本開示では、コンピュータ環境の特定の実施形態に適用できるものとして説明する。より詳細には、概念ネットワーク100はネットワークに適用できると想定される。一層詳細には、概念ネットワーク100を含むコンピュータ環境50の一実施形態は、インターネット中のWebサイトに配置された様々なWebページを含むと想定される。そのため、概念ネットワークのいくつかの実施形態は、インターネットなどのネットワークで接続されたコンピュータ環境においてクライアントにサーチ結果を形成するデータを提供するサーバを利用する。ユーザに表示されるサーチ結果の構造化表現の一実施形態は、インターネットのユーザに一般に知られているユニバーサルリソースロケータ(URL)に基づくものである。本開示では、インターネットのいくつかの実施形態で使用されるURLの構造的態様について説明する。本開示では、URLを、概念ネットワークにおいて利用されるデータに構造を提供するものとして説明するが、概念ネットワークによって利用され得る類似の構造情報を含み得る他の任意の機構も本開示の意図する範囲内に含まれることを強調しておく。
コンピュータ環境50のいくつかの実施形態において、ユーザが問い合わせを送ることにより、表示結果が一連の関連する概念に編成された、関連する概念ネットワーク100を生じる。一般に、多種多様なタイプのサーチ結果が、多種多様なユーザ問い合わせに基づいて獲得され得る。そのため、本開示では、多数のユーザ問い合わせに基づく様々な概念ネットワークの生成について説明する。概念ネットワークの1つの実例は、「上位N件」の問い合わせ(Nを整数とする、任意のカテゴリの上位「N」件を求める問い合わせ)をサーチすることによってもたらされる。概念ネットワークの別の実例は、「エレクトロニクスを説明する」といった、複雑な概念を求めるサーチにおいて意味のある結果をもたらす。概念ネットワーク100は、(ユーザの問い合わせによって提供される実際のキーワードに基づいてサーチ結果を生成する従来技術のサーチエンジンと異なり)概念に基づいて生成される。概念ネットワーク100は、問い合わせに応答して、ユーザにより詳細で正確な情報を提供し得るように生成される。概念ネットワークのいくつかの実施形態は、例えば、問い合わせによって提示される概念に関連する相当数のWebサイトを考慮して生成される。概念ネットワークは、問い合わせによって提供される概念への各Webサイトの関連性を考慮し、次いで、様々なWebページの関連性のある部分が概念ネットワークを介してユーザに例示される。
概念ネットワーク100は、様々な問い合わせからの結果を、キーワード問い合わせ結果を利用する従来技術のサーチエンジンよりも整理された、正確な仕方で表示することができる。より方向づけられた、正確な問い合わせ応答が含まれるということは、概念ネットワークが、ユーザへの表示においてより少数のWebページを処理することを可能にする。次いで、概念ネットワークによって生成される比較的少数のWebページは、それらの構造に従って編成され得る。例えば、ある種類の概念に関連するWebページは、概念ネットワークのある部分を介してアクセスされ、別の種類の概念に関連するWebページは、概念ネットワークの別の部分を介してアクセスされ得る。したがって、概念ネットワーク100は、(Webサイトや、Webサイトコンテンツ情報や、Webページの部分など)大量の検索された情報に関連する構造情報を含むことができる。
概念ネットワーク100は、大部分の従来技術のサーチエンジンによって返されるWebページの一覧表示にまさるいくつかの改善点を提供する。概念ネットワーク100のいくつかの実施形態は、代わりに、(概念ネットワークを表示する)Webページ上の順に配列された構造化情報を提供し、表示する。自動的に生成され、表示される概念ネットワーク100は、図4に示すように、容易に理解し、解釈することができ、ユーザにとってより役に立つ形をしている。概念ネットワーク100は、一般に、従来技術のサーチエンジンに比べて、サーチの精度および速度を向上させると共に、これらのサーチの間に獲得される情報の関連性も増大させる。
概念ネットワーク100は、一般に、データの構造情報(例えば、形式、ノード間のリンクなど)に基づいて導出される相当量の情報を表示する。一実施形態では、この構造情報は、ユニバーサルリソースロケータ(URL)に基づいて獲得されるが、検索される情報の構造情報を含む任意の手段が使用され得る。インターネットでは、現在、ブラウザがインターネットを介して個々のWebページにアクセスできるようにナビゲートするために、URLが使用される。また、URLは、本開示で説明するように概念ネットワークを作成するのに使用される(異なるノード間の関係を記述する)構造情報を提供するのにも使用され得る。そのような構造情報の例には、例えば、別のノードに対して祖先、子孫、兄弟、または他の何らかの関係にある1つのノードが関与する。そのような構造情報は、概念ネットワーク100の様々な実施形態によって、その概念ネットワーク内の異なるノード間の関係を構造的に記述するのに使用される。
そのような構造情報は、概念ネットワーク100において、語の分類法、または類別を提供するのに使用される。概念ネットワークの分類法は(従来技術のサーチエンジンと同様に)個々の語の意味に関連する。従来技術の手動のサーチエンジンでは、サーチエンジン内で意味を変更しており、あるいは追加または除去される多数の語を考慮して、現在の分類法を維持するのが困難である。概念ネットワークのいくつかの実施形態は、問い合わせの間にアクセスされるWebサイトの構造に基づいてドメインおよびユーザに適応できる、自動的に構築される分類法を提供する。本明細書で開示する概念ネットワーク100は、それだけに限らないが、データベース、オンラインショッピング、カメラ、パーソナルコンピュータ、ハンドヘルドコンピュータ、機械学習、およびコンピュータ製造を含む、多種多様なコンピュータシステムに適用され得ると想定される。
本開示では、インターネット上のWebサイトを解析するために適用される概念ネットワーク100について説明するが、これらの概念は、すべてのネットワークで接続されたサーチエンジン、独立型のサーチエンジン、および他のコンピュータベースのサーチエンジンに適用可能であることを強調すべきである。そのため、本開示の意図する範囲内には、インターネット、あるいは任意のネットワークまたはコンピュータシステムへの概念ネットワークの適用が含まれる。
本開示では、概念ネットワーク100の様々な実施形態、および関連する構成要素について説明する。概念ネットワーク100は、ユーザの代わりに更新を行うことをまったく必要とせずに、自動的に最新状態に維持されるように設計される。問い合わせと問い合わせの間、コンピュータ環境の一実施形態は、キーワードサーチが、Webサイトクローラを使用するなどして、人気のあるサーチをキャッシュするのと同様の仕方で、絶えずサーチを行う。概念ネットワーク100の一実施形態は、概念ネットワークを最新状態に維持するために、収集される概念に関連するWebサイトすべてをクロール(crawl)する。このクロールプロセスは、従来のサーチエンジンによって実行されるプロセスと類似のものと想定される。
概念ネットワーク100は、妥当な時間内に、概念ネットワークを用いて作成される分類法に基づいて多数の典型的な用法の多数のキーワードを(それらの構造を含めて)理解することができる。分類法を使用して、概念ネットワークは、それらのキーワードを構造化して表示する。そのため、概念ネットワークは、シソーラスとして使用されることができる。というのは、概念ネットワークは、分類法に基づいて語の意味を解釈することができるからである。したがって、特定の技術、法律、または他のそのような専門分野の語を求めてネットワークやWebといったコンピュータ環境をサーチしているユーザにとって、概念ネットワーク中の分類法(すなわち辞書)にますます多数の語が含まれることは、特に有用である。
ほとんどすべての専門的職業には相当数の専門語があり、その多くは、長年の間に絶えず更新されている。例えば、法律家、税務専門家、技術者などの専門的職業およびグループは、それぞれ、その個々の用途および専門的知識の分野に基づく独自の分類法を持つ。手動のサーチエンジンは、これらの領域ごとのユーザが比較的少数であるために、これらの用語の多くを更新しない。概念ネットワークは、これらの専門化された、一般的でない、または頻繁に更新される用法の用語の多くを自動的に更新することができる。
概念ネットワーク100を導出するのに使用されるWebサイトサーチ部分201の一実施形態を図2で説明する。このWebサイトサーチ部分201の実施形態は、入り口ページおよびクローラ規則部分202、Webサイト構造アナライザ204、Webページ要約部分206、Webサイト構造マージツール208、および概念ネットワーク100を含む。Webサイト構造アナライザ204は、ハイパーリンクキュー212、Webサイトクローラ214、HTMLパーサ216、ファンクションベースオブジェクトモデル(FOM)アナライザ218、およびハイパーリンク解析220を含む。
概念ネットワーク100を作成するために、Webサイト構造アナライザ204は、Webサイトの構造を解析する。次いで、(本明細書で、図2のWebサイト構造マージツール208ともいうWebマージツールが、概念ネットワークを使って表示され得るサーチ結果を生み出すために、構造化されたWebサイトの異なるものからのコンテンツをマージする。
リンクを使って従来のWebサイトにおいてナビゲートが行われる。Webサイトコンテンツ構造を解析して各概念ネットワーク100を作成するために、リンクが、ナビゲーションに使用されるものからコンテンツに使用されるものに変換される。この変換を行うために、以下のステップが実行される。
a)各Webサイトごとの構造化情報がURLで符号化される。そのため、個々のリンクは、それが上位リンクであるか、下位リンクであるか、兄弟リンクであるか、それとも横方向のリンクであるかに関係なく、そのURLで符号化される。これは従来技術のサーチエンジンでは行われない。一実施形態では、このリンクタイプの区別は、Webサイトクローラ214により、Webサイトクローラの訪問順序を考慮することによって実行される。
b)集約および関連解析が実行される。この集約および関連解析は、ハブおよび異なる権限の場所を決定することを含む。一実施形態では、これは、FOMアナライザ218によって実行することができる。
c)次いで、情報リンクおよびナビゲーションリンクが区別される。この識別は、ファンクションベースオブジェクトモード(FOM)を使ってナビゲーションバー、ナビゲーションリスト、または独立のリンクを解析して実行される。そのため、ページレイアウトを使ってWebページが区分化される。一実施形態では、c)は、FOMアナライザ218を使って実行することができる。
従来技術サーチエンジンは、一度に1つずつ、複数のWebサイトへのアクセスを提供するが、概念ネットワーク100は、様々なWebサイトから同時に獲得された構造情報を同時に含むように形成される。この様々なWebページからの情報は、概念ネットワーク100上で、ユーザによって容易に理解することができるように編成され得る。より詳細には、複数のWebサイトからの同様に構造化された情報が、概念ネットワーク100において、(しばしばURLに基づいて)複数のWebページの構造情報からの定量化可能な値を提示するような仕方で表示され得る。次いで、そのような複数のWebページからの構造情報が、異なるWebページの主題間の比較をもたらすような仕方で提示され得る。例えば、特定の産業または話題を扱う複数の企業またはグループは、それらのWebページにおいて類似の構造で類似の種類の情報を含む可能性が高い。概念ネットワークは、この異なるWebページからの類似情報を表示する手段を提供し、あるいは、代替として、ユーザに提示される、異なるが関連するWebページを、同じ概念ネットワークからの異なるWebページへの容易なアクセスを可能にするような仕方で提示する。
いくつかの実施形態において、Webサイト構造アナライザ204は、入力として、その入り口ページおよびクローラ規則部分202から、Webサイトの入り口点(enter−point)URLおよびいくつかのWebサイトクローラ規則を受け入れる。URLは、個々のWebページに関連する様々な構造情報(例えば、リンクの端点、Webページのタイプなど)を含む。URLによって提供されるこの構造は、従来のサーチエンジンによっては、Webページに関連する構造情報を導出するのに利用されない。Webサイト構造アナライザ204は、Webサイト構造を解析し、Webページに深さ情報を割り当てる。その結果、Webサイト構造アナライザ204の一実施形態は、そのノードが概念を含むWebサイトの階層グラフを生成する。概念ネットワークによって導出される概念は、本開示で説明するようにキーワードによって特徴付けることができる。Webサイト構造アナライザ204は、構造化Webサイトの使用に導く。
Webサイト構造アナライザ204の一実施形態は、BFS(幅優先探索)アルゴリズムに基づくものである。Webサイト構造アナライザ204は、ハイパーリンクキュー212を維持する。Webサイトクローラ214は、ハイパーリンクキュー212からURLをフェッチし、次いで、Webサイトクローラ214を使ってインターネットからハイパーテキストマークアップ言語(HTML)ソースコードをクロールし、次いで、そのHTMLソースコードをHTMLパーサ216に転送する。ハイパーリンクキュー212は、未解析のハイパーリンクを含むキューである。解析が始まる前に、Webサイト構造アナライザ204は、入り口点URLを添付する。解析の間は、Webサイトクローラ214だけがハイパーリンクキュー212からURLをフェッチする。ハイパーリンクアナライザ220だけが、新しい未解析のハイパーリンクを適用する。
Webサイトの入り口点URLは、その入り口ページおよびクローラ規則部分202からWebサイト構造アナライザ204のハイパーリンクキュー212に入る。Webサイト構造アナライザ204がその解析を開始すると、Webサイトクローラ214は、ハイパーリンクキュー212からURLをフェッチし、次いで、WebサイトクローラはインターネットからHTMLソースコードをクロールし、そのHTMLソースコードをHTMLパーサ216に転送する。HTMLパーサは、インターネットからクロールされたHTMLソースコードを処理する。
HTMLパーサ216は、Webサイトクローラ214から入力されるHTMLソースコードを受け入れる。一実施形態では、HTMLパーサ216の活動には、URLフェッチ、URL単一化、およびURLグループ化が含まれる。URLフェッチでは、HTMLパーサ216は、Webページを指し示し、入力されるWebサイト定義によるWebサイトの内部にあるすべてのURLをフェッチする。あらゆるURLにアンカテキストが添付される。イメージリンクでは、アンカがテキストを取り囲んでいる。
URL単一化では、HTMLパーサ216の一実施形態は、a)相対URLアドレスを直接URLアドレスに変換すること、b)IPアドレスをドメイン名に変更すること、およびc)宛先変更されたURL問題を、そのURLを最終ターゲットURLアドレスと置き換えることによって解決することを含む様々な操作を実行する。URLグループ化では、同じタグ要素および同じ外観を持つ表またはリスト中のハイパーリンクが、例えば、関連するノードとみなされる可能性が高い。次いで、HTMLパーサ216からの結果がファンクションベースオブジェクトモデル(FOM)アナライザ218に転送される。
ファンクションベースオブジェクトモデル(FOM)アナライザ218は、FOMの基本イデアル(basic ideal)およびアルゴリズムを使ってハイパーリンクに機能情報を割り当てる。この機能情報は、各Webサイトの構造を解析するのに非常に役立つ。FOMは、Webページのファンクションベースオブジェクトモデルを表す。意味解析ではなく、FOMアナライザ218は、各オブジェクト機能およびカテゴリを識別することによって著者の意図を理解しようと試みる。各Webページは、索引ページまたはコンテンツページとして機能し得る。ナビゲーションオブジェクトの1つのカテゴリがナビゲーションバーである。FOMアナライザ218の一実施形態は、以下のFOM解析タスクとして索引/コンテンツページ認識およびナビゲーションバー検出を行う。
索引/コンテンツページ認識では、FOMアナライザ218の一実施形態は、WebページURLが「index(索引)」または「default(デフォルト)」というテキストを含むかどうか、およびそのURLがディレクトリであるかどうか、またはそれが索引ページであるかどうか判定する。そのページ内に下位ディレクトリに対応するリンクがある場合、このリンクは索引ページへのリンクである。ハイパーリンクとコンテンツ語の割合が閾値と比較される。この割合が閾値より大きい場合、そのWebページは索引ページである。閾値がこの割合より大きい場合、そのWebページはコンテンツページである。
FOMアナライザ218の一実施形態は、ナビゲーションバー検出を提供する。ナビゲーションバー中の項目は相互に接続され、対応するリンクトポロジーは完全に接続されたグラフである。FOMアナライザ218の出力は、ハイパーリンクアナライザ220に転送される複数のハイパーリンクを含む。FOMアナライザ218は、Webページのブロック区分化を提供する。一実施形態では、区分化の後、Webページは、コンテンツブロック、ナビゲーションブロック、広告ブロックなど、その機能に基づくいくつかの小単位に分割される。これらの小単位は、ユーザによって個別にアクセスすることができる。
ハイパーリンクアナライザ220の一実施形態は、Webサイト構造解析アルゴリズムを使ってFOMアナライザ218によって解析され(そこから送られた)各ハイパーリンクを処理する。構文解析されたソースコードは、機能解析を行うためにFOMアナライザ218に転送される。ハイパーリンクアナライザ220は、Webサイト構造解析規則に従って各ハイパーリンクを解析し、新しい未解析のハイパーリンクがハイパーリンクキュー212に挿入される。ハイパーリンクアナライザ220は各Webページに深さ値を割り当てる(と共に、Webサイトの一時的階層グラフを維持する)。深さ値は、Webサイトクローラ214によって出力され得る。一実施形態では、Webサイトクローラ214は、幅優先探索によってWebサイトを訪問する。その進行経路はツリー形式として形成され、ツリーのノードはWebページであり、ノード内のリンクはWebページ内のハイパーリンクである。そのため、ツリー中のノードの深さが獲得しようとした値である。例えば、(URL、http://www.microsoft.comで識別される入り口点ページなどの)入り口点Webページの深さは0である。URL、http://www.microsoft.com/chinaで識別されるWebページの深さは、それと比較して、1である。
Webサイト構造アナライザ204は、ハイパーリンクキュー212において開始および終了とみなされ得るループを形成する。Webサイトクローラ214は、次のループを開始するために、ハイパーリンクキュー212から次のURLをフェッチする。これは、ハイパーリンクキュー212に新しいURLがなくなるまで行われる。解析プロセスが達成され、(構造化Webサイトと呼ばれる)Webサイトの階層グラフが構築される。
各Webサイトごとの構造化情報は、ハイパーリンクアナライザ220を使って検出することができるようにURLで符号化される。そのため、個々のリンクが上位リンクであれ、下位リンクであり、兄弟リンクであれ、あるいは横方向のリンクであれ、それはURLで符号化され(、ハイパーリンクアナライザ220を使って検出され得)る。一実施形態では、URLブロック長に基づくヒューリスティック規則を使って上位リンクおよび順方向リンクが検出される。URLブロック長は、ブロックの数として定義され、1つのブロックは、「/」または「?」で区切られるURLの一部である。例えば、URL「http://www.sonystyle.com/digital/digital_camera.htm」のURLブロック長は、「http://www.sonystyle.com」、「digital」、および「digital_camera.htm」を含む、3である。一実施形態では、URLを解析するのに制限された規則が適用される。その場合、規則によってカバーされない残りのURLについては、前述の戦略を使って解析が行われる)。ハイパーリンク検出規則の一実施形態は、2つの規則に従って説明される。第1の規則は、URLブロック長(ハイパーリンク)がWebページのURLブロック長以下である場合、そのハイパーリンクは上位リンクであるというものである。第2の規則は、URLブロック長(ハイパーリンク)からURLブロック長(WebページのURL)を差し引いたものが2以上である場合、そのハイパーリンクは順方向リンクであるというものである。
現在のWebページノードがBであり、それがWebページCへのハイパーリンクを持つと仮定する。Webサイト構造アナライザ204のハイパーリンクアナライザ部分220は以下のプロセスに従う。
I.ハイパーリンクが上方リンクである場合、それは廃棄される(それ以上考察されない)。
II.BおよびCがナビゲーションバーに属する場合、BおよびCは(本明細書で説明する)兄弟ノードである。
III.Cが訪問されており、BのURLブロック長がC以上である場合:
Bが索引ページである場合、CはBの(本明細書で説明する)子ノードである。
そうでなくBがコンテンツページである場合、CはBの兄弟ノードである。
IV.Cが訪問されておらず、
Bがコンテンツページである場合、CはBの兄弟ノードであり、
そうでない場合、CはBの子ノードである。
そうでなく、Cがアクセスされたことがない場合、
まず、Bがコンテンツページであり、またはいくつかのページに表示されている場合、そのリンクは明示的な関連である。
そうでない場合、そのリンクは集約である。
ハイパーリンクキューのURLを解析した後、Webページ要約部分206を使ってWebサイト構造が導出される。例えば、あるWebページに含まれる一定量のデータは特定のユーザの問い合わせに関連性を持ち得るが、他のデータは関連性がない。Webページ要約は、関連性のある情報を、概念ネットワーク100内の特定の概念部分を介して表示され得る形で提供する。各Webページの全部は概念ネットワークを介して示されないため、概念ネットワークは、ユーザによってアクセスすることができる各概念またはWebページの情報のより方向づけられた要約を提供することができる。次いで、Webページ要約部分206から導出された異なるWebページの様々なコンテンツ(または他のコンテンツ)が、Webサイト構造マージツール208を使って概念ネットワーク100にマージされる。Webサイト構造は、階層グラフを用いて表される。
概念ネットワーク100のいくつかの実施形態は、関連性のあるWebサイトの構造を解析し、その上で、その結果を一緒にマージする。この複数のWebサイトからの情報のマージを、本開示では、図2に示すWebサイト構造マージツール208によって実行されるWebマージと呼ぶ。Webサイト構造マージツール208によって実行されるWebマージは、概念ネットワークの精度および速度を高めるものであり、以下のように行われる。
各Webサイトが「ツリー様のグラフ」または「深さレベルのグラフ」に構造化された後、次の問題はこれらのグラフをネットワークにマージすることである。このネットワークにおいて、各ノードは1つの概念を表し、これらのノード間のリンクはこれらの概念間の関係を表す。基本の関係には、それだけに限らないが、上位語、下位語、同義語などが含まれ得る。各Webサイトは関連する話題に関する元のエディタのビューを表すので、異なるビューを1つのビューにマージするのは多少困難である。そのため、以下において、あらゆる種類のソースからの概念階層を1つの使用可能な階層にマージするための解決法を提示する。
概念ネットワークの階層をどのようにマージするかの一実施形態を例示するために、所与の概念Cでのある種の関係Rが、2つの異なる階層Hからマージされる。この問題を解決する詳細なアルゴリズムは以下の通りである。
以下の技法は、オントロジマージ手順(ontology merging procedure)を実行するのに使用され得る一実施形態を表す。
a)各Webブロックごとに、図2に示すWebページ要約部分206を使ってWebページについて概念が要約される。概念は、キーワードの集合として解釈される。
b)次いで、概念ネットワーク100を介して生成され、表示される各概念を「トークン」句またはキーワードによって表すために概念がトークン化される。そのため、概念ネットワークに含まれる概念を表し、記述するためのキーワード集合が設けられる。以下の(1)を使って最終的に概念が生み出される。
=[wi1,wi2,...,wim] (1)
式中、wi1,wi2,...,wimは語を表し、nは語の配列を表す。nは概念ネットワーク中のノード(Webページ)の要約であり、いくつかの語/句、すなわちwi1,wi2,...,wimに分解され得る。
c)階層ツリー上に、(2)、(3)、および(4)を使って、それぞれ、子孫、祖先、および兄弟の下位ツリーSTを生成するために、グライディングウィンドウが設けられる。いくつかの語が異なるウィンドウに表示されるものと想定される。
ST=(offspring)=(n,sons(n),...,sons(n)) (2)
ST(ancestor)=(n,parents(n),...,parent(n)) (3)
ST(sibling)=(n,sibs(n),...,sibs(n)) (4)
式中、ST(offspring)、ST(ancestor)、およびST(sibling)は、子孫、祖先および兄弟関係を計算するための下位ツリーである。sons、parentsおよびsibsは、別個に、ノードnのd番目のレベルの子ノード、親ノードおよび兄弟ノードを表す。
d)各生成される下位ツリー(ST(ancestor)など)ごとに、用語対の相互情報が式(5)としてカウントされる。各単語対w,wごとの相互情報MIが計算される。高い値を持つ相互情報は、その単語対が類似していることを示す。
Figure 2006525601
式中、MI(w,w)は、用語wおよびwの相互情報であり、Pr(w,w)は、用語wおよびwがその下位ツリーに共に出現する確率を表し、Pr(x)(xはwまたはwとすることができる)は、用語xがその下位ツリーに出現する確率を表す。
1対の用語の関連性を決定する別の要因は、その用語対の分布である。より多くの下位ツリーがその用語対を含むほど、その2つの用語はより類似性が高い。本発明の実装では、ステップ(d)に示すように、エントロピーを使って用語対の分布が測定される。
d)各単語対w,wごとのエントロピーを計算する。エントロピー変換は、実際にはWebサイトすべてにおいて共通である(5)で求められる相互情報に基づいて、共通であると決定された語の対w,wの尺度である。エントロピーが高いほど、概念ネットワークがユーザに提供し得る、Webサイトのすべての中にその単語対が含まれるという信頼度が大きい。
Figure 2006525601
e)(11)に従って各単語対ごとの類似性Simを計算する。
Figure 2006525601
(11)に示す類似性は、相互情報MI(w,w)とエントロピー(w,w)を組み合わせる。
(2)、(3)、および(4)に関連する関連概念(子孫、祖先、および兄弟)を示すために、概念ネットワークは、様々な関連カテゴリを作成する。例えば、表1に、よく知られた概念の様々な例示的子孫概念を示す。
Figure 2006525601

表2に様々な例示的祖先概念を示す。
Figure 2006525601
表3に、様々な例示的兄弟概念を示す。
Figure 2006525601
図2に示す概念ネットワーク100の一実施形態は、図3に構造形式で示す有向グラフとして、図4としてユーザに表示され得る形で提供される。この概念ネットワークが基づく有向グラフ(G)300は、以下の(12)で説明される。
G=(V,E) (12)
式中、Vはノードの集合体であり、Eはエッジまたはリンクの集合体である。そのため、有向グラフで表される概念ネットワーク100は、複数のノード、およびノードを接続する複数のリンクまたはエッジを含む。ノードは概念を表す。エッジまたはリンクは、概念間の関係を表す。図4に示す概念ネットワーク100の有向グラフ300は、それによって、コンテンツ構造を提供する。Webページのコンテンツ構造は、概念ネットワークを作成するのに使用される情報をもたらすためにマイニングされる情報である。
図3には、概念ネットワーク100を使って特定のドメインの分類法を構築する技法の一実施形態が示されている。図3は、1つまたは複数のドメイン固有のWebサイト302の導出から開始する。これは、このジョブを行う既存のメタサーチエンジンを活用することによって達成することができる。例えば、ユーザが「デジタルカメラ」ドメインの概念ネットワークを構築しようとする場合、そのユーザは、サーチエンジンに問い合わせを送り、上位100件のWebサイトを使って概念ネットワークを構築することができる。各ドメイン固有のWebサイト302は、(ノードによって表される)コンテンツの解析および(リンク構造によって表される)リンク構造の解析に対応する構造を含む。
概念ネットワーク100の作成は、1つまたは複数のWebサイトのコンテンツ構造の効率的マイニングを利用する。このマイニングは、そのリンクが、図2のハイパーリンクアナライザ220に関連して説明したような子孫リンクであるか、祖先リンクであるか、それとも兄弟リンクであるかを決定する、リンクタイプの解析によって行われ得る。これらのリンクタイプの1つが各リンクに割り当てられる。次いで、図2に示すWebページ要約部分206を使ってノードの意味構造が要約される。図3において、ドメイン固有の分類法は、この情報マイニングに基づいて導出される。ドメイン固有の分類法の導出は、分類法のために手操作のエディタ入力を必要とするWordNet(登録商標)などの従来技術のツールと比べて、本開示においては自動的に行われることに留意されたい。WordNetは一般のドメインのための手操作で構築される分類法である。本開示の分類法は、エンドユーザではなく、エディタによって構築される。情報マイニングは、ドメイン固有のWebサイトのリンク構造およびコンテンツを利用する。これは、情報が、リンク構造ではなく、コンテンツからマイニングされる、いくつかの従来技術の自動シソーラス構築とは異なる。
次いで、オントロジ学習を使って、概念ネットワーク100が構築される。オントロジ学習に基づき、自動的に構築される概念ネットワークは、それ自体の分類法を作成する。オントロジ学習は統計的枠組みに基づくものであり、複数のエディタのビューを生成することができる。統計的枠組みは、多くの統計用途に容易に適用される。図3に示すように構築される概念ネットワーク100には、エレクトロニクスの様々な概念ネットワークが示されている。概念ネットワーク100は、それぞれがエレクトロニクスの異なるカテゴリ(エレクトロニクス製品、エレクトロニクスのカテゴリ、エレクトロニクス機器製造会社など)を表す、様々なWebブロック450を含む。
各Webブロックは、ユーザが認識できるキーワードによって記述される。各下位Webブロック454は、基本Webブロックに関連するものとみなされ得る。例えば、図3では、「エレクトロニクス」という語が基本Webブロック452を表す。「エレクトロニクス」という用語は、適切な基本Webブロック452を表す。というのは、この用語が、様々な製品に付随する多くのWebサイトに現れるからである(様々な製品のそれぞれが下位Webブロックとみなされ得る)。例えば、図3では、(カメラおよび写真、オーディオおよびビデオ、ハンドヘルド、セル電話、コンピュータ、Sony(登録商標)、iPAQ(登録商標)、Palm(登録商標)、アクセサリ、および様々なCompaq(登録商標)製品を含む)様々な下位Webブロック454がエレクトロニクス基本Webブロックの下に示されている。各Webブロックは、本開示内において、同種の情報を含む概念であるとみなされる。したがって、「概念ネットワーク」という用語は、複数の概念またはWebブロックのネットワークを示す。
各Webブロックは、(図3に示すカメラ、コンピュータ、「Sony」などの)キーワードによって要約され得る。図3の各下位Webブロックの主題は、基本Webブロックエレクトロニクスに密接に関連しており、したがって、「エレクトロニクス」という概念の下に広く分類され得る。概念ネットワーク100のWebブロックの構造、マイニング、およびドメイン固有の分類法に基づいて、図3に示すエレクトロニクスの概念ネットワークは、これらの用語の多くを含む。図3に示す生成された概念ネットワーク100は、自動的に構築される最終結果とみなされ得る。
フラットパネルディスプレイやCRTモニタなどのコンピュータディスプレイ200上に表示される際の、例示的概念ネットワーク100の一実施形態を図4に示す。そのため、図4には、様々な概念402を含む(図2および3に示す技法を使用して)生成された概念ネットワーク100が示されている。各概念402は、そのいくつかの実施形態が図3に示されている方式で生成されているWebブロック450の少なくとも1つに付随する情報を含む。したがって、図4に示す概念ネットワーク100は、ディスプレイ上にタイル状に並べられたいくつかの概念402を含む。概念ネットワークの詳細は、関心領域(この例では「エレクトロニクス」)に関して比較的詳しく記述される。例えば、ユーザによって選択された場合、概念のいくつかは、そのユーザを、現在表示されている概念ネットワークより狭い、または広いことのある別の概念ネットワークに導く。例えば、ユーザは、エレクトロニクス概念ネットワークからコンピュータ概念ネットワークに移ることができる。
概念ネットワークのある解析は、様々なWebサイトをサーチすることによって実行された。この解析は、概念ネットワークのいくつかの実装形態で正しく探し出されたWebサイトのパーセンテージにおいて(75%までの)改善を示した。これは、正確さに関する限り、従来技術にまさる大きな改善を表すものである。
例示の問い合わせ「デジタルカメラ製造会社」を考察する。典型的な従来技術のサーチエンジンは、Web全体をサーチし、キーとなる用語「デジタル」および/または「カメラ」および/または「製造会社」を含むWebページを返す。したがって、そのような従来技術のサーチエンジンは、相当数の無関係なWebページを返すことになる。
概念ネットワーク100は、ノード「デジタルカメラ」から広がる下位グラフをサーチしさえすればよい。そのため、概念ネットワークはより高速であり、返される関連性のないWebページの数は相当低減される。
概念ネットワーク100は、問い合わせへの所望の応答の容易さ、速度、および信頼性を高める。まず、概念ネットワーク100において、「デジタルカメラ」という用語の場所が見つけられる。ノード「デジタルカメラ」を指し示し、またはそこから指し示されるノードすべてが抽出される。次いで、その属性が「製造会社」であるノードが選択され、(ヒット数に基づくなどして)ランク付けされる。そのため、Webページの任意のカテゴリ(最大企業、最大生産者、大部分のオフィス、最も近い所在地など)の上位N件を求める問い合わせをサーチすることができ、妥当な数の正確なヒットを獲得する確率が大幅に増大する。
概念ネットワークによるそのような改善されたサーチ特性が生じるのは、その問い合わせが(URL内に含まれる)サーチされたWebサイトの構造に向けられるからである。図5に関連して説明する概念ネットワーク100のいくつかの実施形態は、インターネット上のWebサイトにリストされた上位「N」件(「N」は何らかの正の数とする)の組織、企業、項目、グループ、製品などの何らかの定量化可能なパラメータをサーチし得る様々なサーチサービスを提供することができる。例えば、いくつかの実施形態は、世界の上位5社のデジタルカメラ製造会社を探し出す問い合わせのサーチ結果を提供する概念ネットワーク100を作成する。別の問い合わせは、欧州での上位5社の製鉄会社を示すなど別の複雑な問い合わせのサーチ結果を提供する。概念ネットワークが非常に有益であると思われる問い合わせの1つのタイプは、(URLによって提供される構造に基づくなどして)Webサイトの構造に基づいてデータにアクセスすることを利用する。「上位N件」型の問い合わせは、複数のWebサイトの構造に基づいて情報を解析し、返す。例えば、合衆国における上位3社の自動車生産者はどこか決定する1つの技法には、可能な自動車生産者すべてのWebサイトにアクセスすること、各Webサイトから類似の生産情報を導出すること、次いで、それら異なるWebサイトから導出された生産情報を比較することを伴う。そのため、概念ネットワーク100のいくつかの実施形態は、Webページ内の詳細な特徴をサーチすることができる。
データマイニングは、そのようなWebサイト解析を対象とする。一般に、データマイニング(データまたは知識発見と呼ぶこともある)とは、問い合わせに基づいて異なる観点からデータを解析し、それをユーザに役立つ情報に要約するプロセスである。データマイニングソフトウェアは、データを解析する多数の解析ツールの1つである。これは、ユーザが多くの異なる次元または角度からデータを解析し、それを類別し、識別された関係を要約することを可能にする。技術的には、データマイニングは、大規模な関係データ中の何十ものフィールドの間の相関関係またはパターンを見つけ出すプロセスであり、一般に、問い合わせにおいてよく知られている。そのため、概念ネットワークのいくつかの実施形態は、図3によって提供されるデータマイニング306を使ってドメイン固有の分類法304を導出することができる。
図5に、結果として概念ネットワークを作成することになるプロセス600の一実施形態を示す。プロセス600は、ユーザがそこで(図1に示す)コンピュータ環境50に問い合わせを入力する602を含む。問い合わせの結果として概念ネットワークが作成され、ユーザに表示される。604で、問い合わせは、図3に関連して説明した複数のドメイン固有のWebサイト302に送られる。これらのWebサイトは、よくあるメタサーチエンジンまたは人間が作成したWeb階層によって返される。606で、コンピュータ環境は、関連付けられたWebサイトのURLを考察するなどによって、Webサイト構造を解析する。608で、Webサイトの構造およびコンテンツに基づいて情報がマイニングされる。そのマイニングされた情報を使って(図3の304に関連して説明した)610でドメイン固有の分類法が作成される。プロセス600は612に進み、そこで概念ネットワーク100が作成され、ユーザに表示される。
概念ネットワーク100は、(従来技術のサーチエンジンが実行することのできない)「エレクトロニクスという語を説明する」などといった問い合わせに対して正確な応答を返すように作成されることができる。また、そのような概念ネットワーク100は、(図5の問い合わせの場合のように)様々なWebサイトおよびWebページの構造を解析することによっても生成される。概念ネットワークの一実施形態は、概念の階層に関するエディタのビューを表すWebサイトの構造情報を保存する。概念ネットワーク100では、異なるエディタのビューが一緒にマージされ、そのため、ユーザは、何が最も一般的な説明であるか決定することができる。
概念ネットワーク100の他のいくつかの実施形態は、「エレクトロニクス」という語を説明するなどのタスクを実行するのに最適なWebサイトを決定している問い合わせを提供することができる。このタイプの問い合わせは、説明し、かつ/または比較する問い合わせとみなされ得る。そのため、概念ネットワークによって多くのWebサイトが評価され、比較される必要がある。そのような概念ネットワーク(複雑な問題を説明することができる概念ネットワークなど)を作成するのに伴う1つの機構は、問い合わせによって提示された問題に関連する多数のWebサイトを考察すること、すなわち、何とかして、従来技術のサーチエンジンによって行われるのと同様に各Webサイトの関連性を測定可能に考察し、次いで、概念ネットワークのユーザに、Webページの関連性のある部分を表示することを伴う。図5のプロセス600の実施形態は、このタイプの問い合わせを行うのにも使用することができる。
これらのタイプの比較的複雑な問い合わせ(上位N件タイプの問い合わせ、または複数のWebサイトなどを評価し、比較する必要のある問い合わせ)に応答するために、概念ネットワーク100は、考察される各WebページまたはWebサイトの構造を評価することによって構築される。従来技術のサーチエンジンは、これらの解析を行うためにWebサイトから構造を導出することができない(したがって、そのような問い合わせに応答することができない)。例えば、エレクトロニクスの例に関連して、概念ネットワークは、エレクトロニクスの話題を正確に記述することに十分に方向づけられた十分な情報を提供するように構造化されたWebページを考察する。
また、概念ネットワーク100は、問い合わせ拡張においても非常に役立つ。現在、多くのインターネットアプリケーションは、従来技術の手操作のツール、WordNetを利用して、既存のサーチエンジンの精度を高めるためにユーザの問い合わせを拡張する。しかしながら、WordNetは、手操作で(シソーラスを)構築する労働集約的作業として作成される。ほとんどのWebサイトは、シソーラスを手操作で構築することを好まない。Webサイト運営者は、シソーラス構築を自動化するほうを好む。ユーザによる手操作のシソーラス構築は、インターネットの急速な成長に適さない。インターネットなどのネットワークにおける文書数は増大し続けている。本開示で説明する概念ネットワークの有用性を強調するますます多くの新しい語および概念が出現し続けている。概念ネットワークは、キーワード比較を利用する従来技術のサーチエンジンに比べて、より少ないがより方向づけられた結果を返す。そのため、ユーザが、概念ネットワークによって返される各結果を評価するのがより容易になる。また、ユーザが、問い合わせが所望のタイプの結果を返さないかどうか評価するのがより容易になり、したがって、ユーザは、最初の問い合わせをより方向づけられるように変更することができる。
(概念ネットワークがそれとして機能し得る)ライブシソーラスは、インターネットおよび他のネットワークサーチで役に立つ。さらに、概念ネットワーク100は、概念の階層を含むのみならず、これらの概念の統計情報も含む。そのため、概念ネットワークは、調査など、評判に関するいくつかの特定の質問に容易に適用することができる。
概念ネットワーク100の一実施形態は、インターネットおよび他のネットワーク環境の著者すべてからの語および概念に関するビューをマージするため、概念ネットワーク100は、ネットワークユーザに代替のシソーラスを提供するものとみなすことができる。概念ネットワーク100は、クライアント側に対して個人用シソーラスとして適応することができる。ユーザのブラウズ経路は、Webの部分空間を生成する。類似の方法が、Webの部分空間を解析して個人的に使用頻度の高い概念の関係を生成するために適用され得る。
したがって、概念ネットワークは、Webページの要約を提供する。ハイパーリンクおよびページタイトル上のテキストが、Webページの要約として使用され得る。別の実施形態では、いくつかの主要なキーワードを使って文書を要約するために、自然言語パース(NLP)技法が(おそらくHTMLパーサ216の一部として)Webサイトサーチ部分201に統合され得る。
本開示には、様々な概念ネットワーク100が示されている。概念ネットワークは、複数のWebサイトの構造を解析し、その解析結果をマージすることによってWebサイトから構築されるインターネット概念ネットワークとみなすことができる。概念ネットワーク100は、サーチエンジンの精度および速度を高めるのに特に役立ち得る。概念ネットワークは、Webサイト内に含まれるプレーンテキストではなく、Webサイト構造から知識を抽出する。概念ネットワークは、ドメインの自動構築を提供する。概念ネットワークからの統計結果は、様々なWebサイトに含まれる一般的知識を明らかにする。
そのため、概念ネットワークは、個々のWebサイトから情報を獲得するだけでなく、ネットワーク上の多種多様なWebサイトからも知識を獲得する。概念ネットワークは、オントロジ学習を使って、Webサイトに関連する構造情報を維持することができる。したがって、新しいWebページおよび概念がインターネットに適用されるにつれて、オントロジは、それらのWebページからの構造情報が概念ネットワークに自動的に統合されることを可能にする。さらに、概念ネットワーク100は、「世界の上位N社のデジタルカメラ製造会社を探し出す」や、「エレクトロニクスという語を説明する」といった、一般のサーチエンジンが行うことのできないいくつかのサービスを提供することができる。また、概念ネットワークは、問い合わせ拡張のためのライブインターネットシソーラスとして機能することもできる。というのは、概念ネットワークは、図3に示す基本Webブロックを介して、相互に関連し合うそのような様々な下位Webブロックを提供するからである。
図6に、概念ネットワークを作成し得るユーザインターフェースを含む適切なコンピュータ環境またはネットワーク500の一例を示す。コンピュータ環境500は、図1に示すコンピュータ環境50の一実施形態を表す。類似のリソースが、本明細書で説明するコンピュータ環境およびプロセスを使用し得る。
図6に示すコンピュータ環境500は、本明細書で説明する概念ネットワーク技法を実施するのに使用することができる一般的なコンピュータ環境である。コンピュータ環境500はコンピュータ環境の一例にすぎず、コンピュータおよびネットワークアーキテクチャの用途または機能の範囲に関するどんな限定を示唆することも意図されていない。コンピュータ環境100は、例示的コンピュータ環境500に示す構成要素のいずれか1つまたはそれらの組合せに関連するどんな依存関係または要件を有するものであるとも解釈すべきではない。
コンピュータ環境100は、コンピュータ502の形で汎用コンピュータ装置を含む。コンピュータ502は、例えば、独立型コンピュータ、ネットワークで接続されたコンピュータ、メインフレームコンピュータ、PDA、電話機、マイクロコンピュータまたはマイクロプロセッサ、あるいはプロセッサをメモリと組み合わせて使用する他の任意のコンピュータ装置を含むグループからの1つまたは複数を含み得る。コンピュータ502の構成要素には、それだけに限らないが、1つまたは複数の(任意選択で暗号プロセッサまたはコプロセッサを含む)プロセッサまたは処理装置504と、システムメモリ506と、プロセッサ504およびシステムメモリ506を含む様々なシステム構成要素を結合するシステムバス508とが含まれ得る。
システムバス508は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、およびプロセッサまたはローカルバスを含む数種類のバス構造のいずれかの1つまたは複数を表す。例をあげると、そのようなアーキテクチャには、インダストリースタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISAバス(EISA)、ビデオエレクトロニクススタンダードアソシエーション(VESA)ローカルバス、およびメザニンバスとも呼ばれるペリフェラルコンポーネントインターコネクト(PCI)バスが含まれ得る。
コンピュータ502は、通常、様々なコンピュータ可読媒体を含む。そのような媒体は、コンピュータ502によりアクセスできる任意の利用可能な媒体とすることができ、それには、揮発性と不揮発性両方の媒体、取り外し可能と取り外し不能両方の媒体が含まれる。
システムメモリ506は、読出し専用メモリ(ROM)512などの不揮発性メモリ、および/またはランダムアクセスメモリ(RAM)510などの揮発性メモリの形でコンピュータ可読媒体を含む。基本入出力システム(BIOS)514は、始動時などにコンピュータ502内の要素間での情報転送を支援する基本ルーチンを含み、ROM512に格納される。RAM510は、通常、処理装置504によって直ちにアクセス可能であり、かつ/または現在、処理装置504によって操作されているデータおよび/またはプログラムモジュールを含む。
また、コンピュータ502は、他の取り外し可能/取り外し不能、揮発性/不揮発性コンピュータ記憶媒体も含み得る。例として、図6に、取り外し不能、不揮発性磁気媒体(図示せず)との間で読取りおよび書込みを行うハードディスクドライブ515、取り外し可能、不揮発性磁気ディスク520(「フロッピー(登録商標)ディスク」など)との間で読取りおよび書込みを行う磁気ディスクドライブ518、およびCD−ROM、DVD−ROM、他の光媒体などの取り外し可能、不揮発性光ディスク524との間で読取りおよび書込みを行う光ディスクドライブ522を示す。ハードディスクドライブ515、磁気ディスクドライブ518、および光ディスクドライブ522は、それぞれ、1つまたは複数のデータ媒体インターフェース527によってシステムバス508に接続される。代替として、ハードディスクドライブ515、磁気ディスクドライブ518、および光ディスクドライブ522は、1つまたは複数のインターフェース(図示せず)によってもシステムバス508に接続され得る。
ディスクドライブおよびそれらに関連付けられたコンピュータ可読媒体は、コンピュータ502のためのコンピュータ可読命令、制御ノードデータ構造、プログラムモジュール、およびその他のデータの不揮発性記憶を提供する。例には、ハードディスクドライブ515内のハードディスク、取り外し可能磁気ディスク520、および不揮発性光ディスク524が示されているが、磁気カセットその他の磁気記憶装置、フラッシュメモリカード、CD−ROM、デジタル多用途ディスク(DVD)などの光記憶装置、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、電気的に消去可能書込み可能な読出し専用メモリ(EEPROM)など、コンピュータによりアクセス可能なデータを格納することができる他の種類のコンピュータ可読媒体を利用して例示的コンピュータ環境500を実施することもできることを理解すべきである。
ハードディスクドライブ515に含まれるハードディスク、磁気ディスク520、不揮発性光ディスク524、ROM512、および/またはRAM510には、例えば、OS526、1つまたは複数のアプリケーションプログラム528、その他のプログラムモジュール530、およびプログラムデータ532などを含む任意の数のプログラムモジュールが格納され得る。各OS526、1つまたは複数のアプリケーションプログラム528、その他のプログラムモジュール530、およびプログラムデータ532(またはそれらの何らかの組合せ)は、分散ファイルシステムをサポートする常駐コンポーネントの全部または一部を実施することができる。
ユーザは、キーボード534やポインティングデバイス536(「マウス」など)といった入力装置を介してコンピュータ502にコマンドおよび情報を入力することができる。他の入力装置538(具体的には図示せず)には、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、シリアルポート、スキャナなどが含まれ得る。上記その他の入力装置は、システムバス508に結合される入出力インターフェース540を介して処理装置504に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)といった他のインターフェースおよびバス構造によっても接続され得る。
また、モニタ、フラットパネルディスプレイ、またはその他の種類のコンピュータディスプレイ200も、ビデオアダプタ544などのインターフェースを介してシステムバス508に接続され得る。コンピュータディスプレイ200に加えて、他の出力周辺装置には、入出力インターフェース540を介してコンピュータ502に接続され得るスピーカ(図示せず)やプリンタ546などの構成要素が含まれ得る。
コンピュータ502は、リモートコンピュータ装置548など1つまたは複数のリモートコンピュータへの論理接続を使ってネットワークで接続された環境で動作することができる。例をあげると、リモートコンピュータ装置548は、パーソナルコンピュータ、携帯用コンピュータ、サーバ、ルータ、ネットワークコンピュータ、ピアデバイスまたはその他一般のネットワークノード、ゲームコンソールなどとすることができる。リモートコンピュータ装置548は、本明細書でコンピュータ502に関連して説明する要素および機能の多くまたはすべてを含み得る携帯用コンピュータとして示されている。
コンピュータ502とリモートコンピュータ装置548の間の論理接続は、ローカルエリアネットワーク(LAN)550および一般の広域ネットワーク(WAN)552として示されている。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、インターネットではよく見られるものである。
LANネットワーク環境で実施されるとき、コンピュータ502は、ネットワークインターフェースまたはアダプタ554を介してローカルネットワーク550に接続される。WANネットワーク環境で実施されるとき、コンピュータ502は、通常、モデム556、または広域ネットワーク552を介して通信を確立する他の手段を含む。モデム556は、コンピュータ502に内蔵することも、外付けすることもでき、入出力インターフェース540または他の適切な機構を介してシステムバス508に接続され得る。図示のネットワーク接続は例であり、コンピュータ502と548の間で通信リンクを確立する他の手段も用いられ得ることを理解すべきである。
コンピュータ環境500で示すような、ネットワークで接続された環境では、コンピュータ502に関連して示すプログラムモジュール、またはその一部は、リモートメモリ記憶装置に格納され得る。例をあげると、リモートアプリケーションプログラム558は、リモートコンピュータ548のメモリ装置にある。例として、本明細書では、アプリケーションプログラムおよびオペレーティングシステムなど他の実行可能プログラムコンポーネントが別個のWebブロックとして示されているが、そのようなプログラムおよびコンポーネントは、様々なときに、コンピュータ502の異なる記憶コンポーネントにあり、コンピュータ502のデータプロセッサによって実行されることが理解される。図示し、説明したネットワーク接続は例であり、コンピュータ間で通信リンクを確立する他の手段も使用することができることが理解されるであろう。
本明細書では、様々なモジュールおよび技法は、1つまたは複数のコンピュータまたはその他の装置によって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラムモジュールには、個々のタスクを実行し、個々の抽象データ型を実装するルーチン、プログラム、制御オブジェクト650、コンポーネント、制御ノードデータ構造654などが含まれる。通常、プログラムモジュールの機能は、様々な実施形態で求めに応じて組み合わされ、または分散され得る。
これらのモジュールおよび技法の実装は、何らかの形のコンピュータ可読媒体上に格納され、またはそれを介して送信され得る。コンピュータ可読媒体は、コンピュータによってアクセスすることができる任意の利用可能な媒体とすることができる。例をあげると、それだけに限らないが、コンピュータ可読媒体には、「コンピュータ記憶媒体」および「通信媒体」が含まれ得る。
「コンピュータ記憶媒体」には、コンピュータ可読命令、制御ノードデータ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意のプロセスまたは技術で実施される揮発性と不揮発性、取り外し可能と取り外し不能の媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリなどのメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)などの光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶などの磁気記憶装置、あるいは所望の情報を格納するのに使用され、コンピュータによってアクセスすることができる他の任意の媒体が含まれる。
「通信媒体」は、通常、コンピュータ可読命令、制御ノードデータ構造、プログラムモジュール、またはその他のデータを、搬送波や他の搬送機構などの変調されたデータ信号中に具現化するものである。また、通信媒体は、任意の情報伝達媒体も含む。「変調されたデータ信号」という用語は、その特性の1つまたは複数が、信号に情報を符号化するような方式で設定され、または変更されている信号を意味する。例をあげると、それだけに限らないが、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体が含まれる。また、上記のいずれかの組合せもコンピュータ可読媒体の範囲内に含まれる。
以上、システム、媒体、方法、手法、プロセスなどを構造的、機能的特徴および/または方法に特有の言葉で説明してきたが、添付の特許請求の範囲で定義される本発明は、必ずしも、前述の具体的特徴または方法に限定されるものではないことを理解すべきである。そうでなく、それらの具体的特徴および方法は、特許請求される発明を実施する例示的な形として開示したものである。
概念ネットワークを含むコンピュータ環境の一実施形態を示すブロック図である。 概念ネットワークの一実施形態を作成するWebサイトサーチ部分の別の実施形態を示すブロック図である。 概念ネットワークを設けるのに使用されるドメインの分類法構築の一実施形態を示すブロック図である。 概念ネットワークがコンピュータ環境のディスプレイ上に表示され得る際の概念ネットワークの表示される結果を示す透視図である。 Webサイト構造解析アルゴリズムの一実施形態を示す流れ図である。 ユーザに概念ネットワークを導出し、または表示するのに使用され得るコンピュータ環境の一実施形態を示すブロック図である。

Claims (50)

  1. 各データ記憶場所がノードの中に配置され、いくつかのノードが少なくとも1つのリンクによって接続される、複数のデータ記憶場所を求めるサーチツールと、
    前記リンクに基づいて前記複数のノードのうちのいくつかのものの一部を考察する概念ネットワークであって、前記少なくとも1つのリンクはコンテンツのために使用される概念ネットワークと
    を備えることを特徴とする装置。
  2. 前記リンクは、コンテンツのためのみならずナビゲートのためにも使用されることを特徴とする請求項1に記載の装置。
  3. 前記概念ネットワークは、前記複数のノードのうちのいくつかのものを表示することを特徴とする請求項1に記載の装置。
  4. 前記概念ネットワークは、ドメイン固有の分類法部分を利用して前記複数のノードのうちのいくつかのものの一部を選択することを特徴とする請求項1に記載の装置。
  5. 前記ドメイン固有の分類法部分は、複数のドメイン固有のデータ記憶場所からの入力を選択することを特徴とする請求項4に記載の装置。
  6. 前記ドメイン固有の分類法は、情報マイニング部分からの入力を受け取ることを特徴とする請求項4に記載の装置。
  7. 前記情報マイニング部分は、リンク構造に基づくものであることを特徴とする請求項6に記載の装置。
  8. 前記複数のノードのうちのいくつかのものの一部を選択する前記概念ネットワークは、前記データ記憶場所の構造を利用することを特徴とする請求項1に記載の装置。
  9. 前記構造は、ユニバーサルリソースロケータ(URL)に基づくものであることを特徴とする請求項8に記載の装置。
  10. 前記URLは、複数のデータ記憶場所の構造を獲得することを特徴とする請求項9に記載の装置。
  11. データ記憶場所のマージをさらに含むことを特徴とする請求項1に記載の装置。
  12. 前記マージは、Webサイト構造マージツールによって実行されることを特徴とする請求項11に記載の装置。
  13. Webサイト構造アナライザをさらに備えることを特徴とする請求項11に記載の装置。
  14. 前記Webサイト構造アナライザは、ハイパーリンクキューを含むことを特徴とする請求項13に記載の装置。
  15. 前記Webサイト構造アナライザは、Webサイトクローラを含むことを特徴とする請求項13に記載の装置。
  16. 前記Webサイト構造アナライザは、HTMLパーサを含むことを特徴とする請求項13に記載の装置。
  17. 前記Webサイト構造アナライザは、ファンクションベースオブジェクトモデル(FOM)アナライザを含むことを特徴とする請求項13に記載の装置。
  18. 前記Webサイト構造アナライザは、ハイパーリンク解析を含むことを特徴とする請求項13に記載の装置。
  19. 前記概念ネットワークは、前記データ記憶場所にすでに含まれる構造を利用することを特徴とする請求項1に記載の装置。
  20. 前記概念ネットワークは、相互情報を利用することを特徴とする請求項1に記載の装置。
  21. 前記概念ネットワークは、エントロピーを利用することを特徴とする請求項1に記載の装置。
  22. 前記概念ネットワークは、異なる単語対間の類似性を利用することを特徴とする請求項1に記載の装置。
  23. 前記データ記憶場所は、Webサイトを含むことを特徴とする請求項1に記載の装置。
  24. 前記概念ネットワークは、3つの関係、すなわち、子孫、祖先、および兄弟を含むことを特徴とする請求項1に記載の装置。
  25. 各データ記憶場所が複数のノードを含む複数のデータ記憶場所を求めるサーチツールと、
    前記複数のノードの構造に基づいて前記複数のノードのうちのいくつかのものの一部を選択する概念ネットワークと
    を備えることを特徴とする装置。
  26. 前記複数のデータ記憶場所の構造は、前記データ記憶場所のユニバーサルリソースロケータ(URL)に基づいて導出されることを特徴とする請求項25に記載の装置。
  27. 前記概念ネットワークは、Webマージに基づいて前記複数のノードのうちのいくつかのものの一部を選択することを特徴とする請求項25に記載の装置。
  28. 前記概念ネットワークは、複数のWebブロックを含む構造を表示することを特徴とする請求項25に記載の装置。
  29. 前記データ記憶場所はWebページを含むことを特徴とする請求項25に記載の装置。
  30. 前記概念ネットワークは、3つの関係、すなわち、子孫、祖先、および兄弟を含むことを特徴とする請求項25に記載の装置。
  31. 複数のWebページに対応する複数のユニバーサルリソースロケータ(URL)を受け取ること、
    前記複数のURLのコンテンツを割り出すために前記複数のURLを解析すること、および
    前記解析された複数のURLに基づいて複数のWebブロックを概念ネットワークに構造化すること
    を備えることを特徴とする方法。
  32. 前記概念ネットワークを表示することをさらに備えることを特徴とする請求項31に記載の方法。
  33. 前記表示された概念ネットワークに応答したユーザ入力を受け取ることをさらに備えることを特徴とする請求項32に記載の方法。
  34. 前記URLに基づいて、個々のリンクが上方リンクであるか、下方リンクであるか、兄弟リンクであるか、それとも横方向のリンクであるかを決定することをさらに備えることを特徴とする請求項31に記載の方法。
  35. 複数のドメイン固有のWebサイトを考察すること、
    複数のドメイン固有のWebサイトの相対的コンテンツを解析することによってドメイン固有の分類法を導出すること、および
    前記ドメイン固有の分類法に基づいて概念ネットワークを明確に表すこと
    を備えることを特徴とする方法。
  36. 前記ドメイン固有の分類法は、情報マイニングに基づいて導出されることを特徴とする請求項35に記載の方法。
  37. 前記情報マイニングは、リンク構造およびコンテンツに基づくものであることを特徴とする請求項36に記載の方法。
  38. 前記概念ネットワークは、エントロピーに基づいて明確に表されることを特徴とする請求項35に記載の方法。
  39. 前記概念ネットワークは、相互情報に基づいて明確に表されることを特徴とする請求項35に記載の方法。
  40. 前記概念ネットワークは、類似性に基づいて明確に表されることを特徴とする請求項35に記載の方法。
  41. ユーザから送られた問い合わせに基づいて複数のWebサイトに関する構造情報を解析すること、
    前記複数のWebサイトの前記構造情報に基づいて「上位N件」型の問い合わせの応答を決定すること、および
    前記ユーザに、前記決定された応答に関連する情報を返すこと
    を含む概念ネットワークを生成すること
    を備えることを特徴とする方法。
  42. 前記構造情報は、ユニバーサルリソースロケータ(URL)に基づくものであることを特徴とする請求項41に記載の方法。
  43. 前記構造情報は、各Webページ内の隠された概念に基づくものであることを特徴とする請求項41に記載の方法。
  44. ユーザから送られた問い合わせに基づいて複数のデータ記憶場所に関する構造情報を解析すること、
    前記複数のデータ記憶場所の前記構造情報に基づいて関連型問い合わせの応答を決定すること、および
    前記ユーザに、前記決定された応答に関連する情報を返すこと
    を含む概念ネットワークを生成すること
    を備えることを特徴とする方法。
  45. 前記構造情報は、ユニバーサルリソースロケータ(URL)に基づくものであることを特徴とする請求項44に記載の方法。
  46. 前記構造情報は、各データ記憶場所内の隠された概念に基づくものであることを特徴とする請求項44に記載の方法。
  47. 前記データ記憶場所はWebページを含むことを特徴とする請求項44に記載の方法。
  48. 概念ネットワークを生成するコンピュータ実行可能命令を有するコンピュータ可読媒体であって、
    ユーザから送られた問い合わせに基づいて複数のWebサイトに関する構造情報を解析すること、
    前記複数のWebサイトの前記構造情報に基づいて関連型問い合わせの応答を決定すること、および
    前記ユーザに、前記決定された応答に関連する情報を返すこと
    を備えることを特徴とするコンピュータ可読媒体。
  49. ユーザから送られた問い合わせに基づいて複数のデータ記憶場所に関する構造情報を解析すること、および
    前記複数のデータ記憶場所の前記構造情報に基づいて関連型問い合わせの応答を決定すること
    によってドメイン固有の分類法を自動的に導出すること
    を備えることを特徴とする方法。
  50. 前記ドメイン固有の分類法を使って概念ネットワークを生成することをさらに備えることを特徴とする請求項49に記載の方法。
JP2006509984A 2003-05-01 2004-04-12 概念ネットワーク Pending JP2006525601A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/427,550 US7406459B2 (en) 2003-05-01 2003-05-01 Concept network
PCT/US2004/011379 WO2004099901A2 (en) 2003-05-01 2004-04-12 Concept network

Publications (2)

Publication Number Publication Date
JP2006525601A true JP2006525601A (ja) 2006-11-09
JP2006525601A5 JP2006525601A5 (ja) 2007-06-07

Family

ID=33310182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006509984A Pending JP2006525601A (ja) 2003-05-01 2004-04-12 概念ネットワーク

Country Status (7)

Country Link
US (2) US7406459B2 (ja)
EP (1) EP1618503A4 (ja)
JP (1) JP2006525601A (ja)
KR (1) KR20060017765A (ja)
CN (2) CN101256581A (ja)
TW (1) TW200502800A (ja)
WO (1) WO2004099901A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008523469A (ja) * 2004-12-06 2008-07-03 ヤフー! インコーポレイテッド クエリの自動的カテゴリ化による検索処理
JP2010061638A (ja) * 2008-06-26 2010-03-18 Nec (China) Co Ltd 階層構築方法および階層構築システム
JP2014506357A (ja) * 2011-01-05 2014-03-13 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
US9659098B2 (en) 2011-12-19 2017-05-23 International Business Machines Corporation Method, computer program and computer for detecting communities in social media

Families Citing this family (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7451131B2 (en) * 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US20060230040A1 (en) * 2003-12-08 2006-10-12 Andy Curtis Methods and systems for providing a response to a query
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US7243099B2 (en) * 2003-12-23 2007-07-10 Proclarity Corporation Computer-implemented method, system, apparatus for generating user's insight selection by showing an indication of popularity, displaying one or more materialized insight associated with specified item class within the database that potentially match the search
US8335753B2 (en) * 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
US7685195B2 (en) * 2005-03-24 2010-03-23 Sas Institute Inc. Systems and methods for analyzing web site search terms
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US7490289B2 (en) * 2005-06-09 2009-02-10 International Business Machines Corporation Depth indicator for a link in a document
US7739218B2 (en) * 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
US20070083671A1 (en) * 2005-10-11 2007-04-12 International Business Machines Corporation Servlet filters to decode encoded request parameters
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US8266185B2 (en) * 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US20070198504A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Calculating level-based importance of a web page
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
KR100852174B1 (ko) * 2006-05-23 2008-08-13 한국전자통신연구원 계층적 분류에 의한 정보 표시 방법 및 장치
WO2008108857A1 (en) * 2006-06-05 2008-09-12 Askmenow System for presentation of content and advertising in wireless internet-enabled mobile device
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
WO2008076438A1 (en) * 2006-12-18 2008-06-26 Mind Fund Llc Augmenting individual and collective human thinking and knowledge navigation and creation
CA2674294C (en) * 2006-12-29 2017-03-07 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
US8473845B2 (en) * 2007-01-12 2013-06-25 Reazer Investments L.L.C. Video manager and organizer
US7844602B2 (en) * 2007-01-19 2010-11-30 Healthline Networks, Inc. Method and system for establishing document relevance
JP2008204444A (ja) * 2007-01-23 2008-09-04 Just Syst Corp データ処理装置、データ処理方法及び検索装置
US7890549B2 (en) * 2007-04-30 2011-02-15 Quantum Leap Research, Inc. Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users
US7904461B2 (en) * 2007-05-01 2011-03-08 Google Inc. Advertiser and user association
US20090112865A1 (en) * 2007-10-26 2009-04-30 Vee Erik N Hierarchical structure entropy measurement methods and systems
US7987194B1 (en) 2007-11-02 2011-07-26 Google Inc. Targeting advertisements based on cached contents
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
KR100987330B1 (ko) * 2008-05-21 2010-10-13 성균관대학교산학협력단 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
US8180771B2 (en) 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US20100211533A1 (en) * 2009-02-18 2010-08-19 Microsoft Corporation Extracting structured data from web forums
US9171077B2 (en) 2009-02-27 2015-10-27 International Business Machines Corporation Scaling dynamic authority-based search using materialized subgraphs
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
US20100274807A1 (en) * 2009-04-23 2010-10-28 Frank John Williams Method and system for representing information
US8185432B2 (en) * 2009-05-08 2012-05-22 Sas Institute Inc. Computer-implemented systems and methods for determining future profitability
US8150843B2 (en) 2009-07-02 2012-04-03 International Business Machines Corporation Generating search results based on user feedback
US9430521B2 (en) * 2009-09-30 2016-08-30 Microsoft Technology Licensing, Llc Query expansion through searching content identifiers
JP2011118770A (ja) * 2009-12-04 2011-06-16 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US8577915B2 (en) 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
CN102063468B (zh) * 2010-12-03 2014-04-16 百度在线网络技术(北京)有限公司 一种用于确定查询序列的查询类别的设备及其方法
CN102129472B (zh) * 2011-04-14 2012-12-19 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US8706860B2 (en) 2011-06-30 2014-04-22 Amazon Technologies, Inc. Remote browsing session management
US9621406B2 (en) 2011-06-30 2017-04-11 Amazon Technologies, Inc. Remote browsing session management
US8577963B2 (en) 2011-06-30 2013-11-05 Amazon Technologies, Inc. Remote browsing session between client browser and network based browser
US8799412B2 (en) 2011-06-30 2014-08-05 Amazon Technologies, Inc. Remote browsing session management
US9037696B2 (en) 2011-08-16 2015-05-19 Amazon Technologies, Inc. Managing information associated with network resources
US9195768B2 (en) 2011-08-26 2015-11-24 Amazon Technologies, Inc. Remote browsing session management
US10089403B1 (en) 2011-08-31 2018-10-02 Amazon Technologies, Inc. Managing network based storage
US9383958B1 (en) 2011-09-27 2016-07-05 Amazon Technologies, Inc. Remote co-browsing session management
US8849802B2 (en) 2011-09-27 2014-09-30 Amazon Technologies, Inc. Historical browsing session management
US9178955B1 (en) 2011-09-27 2015-11-03 Amazon Technologies, Inc. Managing network based content
US8914514B1 (en) 2011-09-27 2014-12-16 Amazon Technologies, Inc. Managing network based content
US10693991B1 (en) 2011-09-27 2020-06-23 Amazon Technologies, Inc. Remote browsing session management
US9152970B1 (en) 2011-09-27 2015-10-06 Amazon Technologies, Inc. Remote co-browsing session management
US9641637B1 (en) 2011-09-27 2017-05-02 Amazon Technologies, Inc. Network resource optimization
US9298843B1 (en) 2011-09-27 2016-03-29 Amazon Technologies, Inc. User agent information management
US8589385B2 (en) 2011-09-27 2013-11-19 Amazon Technologies, Inc. Historical browsing session management
US8615431B1 (en) 2011-09-29 2013-12-24 Amazon Technologies, Inc. Network content message placement management
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US9313100B1 (en) 2011-11-14 2016-04-12 Amazon Technologies, Inc. Remote browsing session management
US8972477B1 (en) 2011-12-01 2015-03-03 Amazon Technologies, Inc. Offline browsing session management
US9117002B1 (en) 2011-12-09 2015-08-25 Amazon Technologies, Inc. Remote browsing session management
US9009334B1 (en) 2011-12-09 2015-04-14 Amazon Technologies, Inc. Remote browsing session management
US9330188B1 (en) 2011-12-22 2016-05-03 Amazon Technologies, Inc. Shared browsing sessions
US8839087B1 (en) 2012-01-26 2014-09-16 Amazon Technologies, Inc. Remote browsing and searching
US9336321B1 (en) 2012-01-26 2016-05-10 Amazon Technologies, Inc. Remote browsing and searching
US8627195B1 (en) 2012-01-26 2014-01-07 Amazon Technologies, Inc. Remote browsing and searching
US9092405B1 (en) * 2012-01-26 2015-07-28 Amazon Technologies, Inc. Remote browsing and searching
US9087024B1 (en) 2012-01-26 2015-07-21 Amazon Technologies, Inc. Narration of network content
US9509783B1 (en) 2012-01-26 2016-11-29 Amazon Technlogogies, Inc. Customized browser images
US9037975B1 (en) 2012-02-10 2015-05-19 Amazon Technologies, Inc. Zooming interaction tracking and popularity determination
US9183258B1 (en) 2012-02-10 2015-11-10 Amazon Technologies, Inc. Behavior based processing of content
US9137210B1 (en) 2012-02-21 2015-09-15 Amazon Technologies, Inc. Remote browsing session management
US9374244B1 (en) 2012-02-27 2016-06-21 Amazon Technologies, Inc. Remote browsing session management
US10296558B1 (en) 2012-02-27 2019-05-21 Amazon Technologies, Inc. Remote generation of composite content pages
US9208316B1 (en) 2012-02-27 2015-12-08 Amazon Technologies, Inc. Selective disabling of content portions
EP2820582B1 (en) 2012-02-29 2018-08-22 EntIT Software LLC Network service interface analysis
US9286391B1 (en) 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
US9460220B1 (en) 2012-03-26 2016-10-04 Amazon Technologies, Inc. Content selection based on target device characteristics
US9307004B1 (en) 2012-03-28 2016-04-05 Amazon Technologies, Inc. Prioritized content transmission
US9159056B2 (en) * 2012-07-10 2015-10-13 Spigit, Inc. System and method for determining the value of a crowd network
US20140040233A1 (en) * 2012-07-31 2014-02-06 Mehmet Kivanc Ozonat Organizing content
US9772979B1 (en) 2012-08-08 2017-09-26 Amazon Technologies, Inc. Reproducing user browsing sessions
US8943197B1 (en) 2012-08-16 2015-01-27 Amazon Technologies, Inc. Automated content update notification
CN103729768B (zh) * 2012-10-15 2018-10-19 北京京东尚科信息技术有限公司 一种电子交易信息处理方法和装置
US9578137B1 (en) 2013-06-13 2017-02-21 Amazon Technologies, Inc. System for enhancing script execution performance
US10152463B1 (en) 2013-06-13 2018-12-11 Amazon Technologies, Inc. System for profiling page browsing interactions
WO2015047423A1 (en) 2013-09-30 2015-04-02 Mindjet Llc Scoring members of a set dependent on eliciting preference data amongst subsets selected according to a height-balanced tree
KR102244298B1 (ko) * 2014-04-30 2021-04-23 삼성전자주식회사 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
US9635041B1 (en) 2014-06-16 2017-04-25 Amazon Technologies, Inc. Distributed split browser content inspection and analysis
JP6900190B2 (ja) * 2016-01-14 2021-07-07 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
US9721026B1 (en) 2016-07-27 2017-08-01 Searchmetrics Gmbh Systems for topic exploration and related methods
CN107402766B (zh) * 2017-07-31 2020-08-04 武汉斗鱼网络科技有限公司 页面布局管理方法及装置
US10664538B1 (en) 2017-09-26 2020-05-26 Amazon Technologies, Inc. Data security and data access auditing for network accessible content
US10726095B1 (en) 2017-09-26 2020-07-28 Amazon Technologies, Inc. Network content layout using an intermediary system
US10997259B2 (en) * 2017-10-06 2021-05-04 Realpage, Inc. Concept networks and systems and methods for the creation, update and use of same in artificial intelligence systems
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法
KR20200094853A (ko) 2019-01-25 2020-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11829417B2 (en) 2019-02-05 2023-11-28 Microstrategy Incorporated Context-based customization using semantic graph data
US11625426B2 (en) 2019-02-05 2023-04-11 Microstrategy Incorporated Incorporating opinion information with semantic graph data
US11941020B2 (en) * 2021-02-26 2024-03-26 Micro Focus Llc Displaying query results using machine learning model-determined query results visualizations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US20020099700A1 (en) * 1999-12-14 2002-07-25 Wen-Syan Li Focused search engine and method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182062B1 (en) 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
US6286002B1 (en) 1996-01-17 2001-09-04 @Yourcommand System and method for storing and searching buy and sell information of a marketplace
US6098081A (en) * 1996-05-06 2000-08-01 Microsoft Corporation Hypermedia navigation using soft hyperlinks
EP0909414A1 (en) * 1996-05-06 1999-04-21 Adobe Systems Incorporated Internet hyperlink drag and drop
US5842206A (en) * 1996-08-20 1998-11-24 Iconovex Corporation Computerized method and system for qualified searching of electronically stored documents
US5870559A (en) 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
WO2000005664A1 (en) * 1998-07-24 2000-02-03 Jarg Corporation Search system and method based on multiple ontologies
US6356910B1 (en) * 1998-08-07 2002-03-12 Paul Zellweger Method and apparatus for a self-service content menu
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US6823491B1 (en) * 2000-08-31 2004-11-23 International Business Machines Corporation System and method for a dynamically integrated search engine
US20030020749A1 (en) * 2001-07-10 2003-01-30 Suhayya Abu-Hakima Concept-based message/document viewer for electronic communications and internet searching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US20020099700A1 (en) * 1999-12-14 2002-07-25 Wen-Syan Li Focused search engine and method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008523469A (ja) * 2004-12-06 2008-07-03 ヤフー! インコーポレイテッド クエリの自動的カテゴリ化による検索処理
JP2010061638A (ja) * 2008-06-26 2010-03-18 Nec (China) Co Ltd 階層構築方法および階層構築システム
JP2014506357A (ja) * 2011-01-05 2014-03-13 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
US9659098B2 (en) 2011-12-19 2017-05-23 International Business Machines Corporation Method, computer program and computer for detecting communities in social media
US10068009B2 (en) 2011-12-19 2018-09-04 International Business Machines Corporation Method, computer program and computer for detecting communities in social media

Also Published As

Publication number Publication date
EP1618503A4 (en) 2009-10-21
CN1799050A (zh) 2006-07-05
US20040220905A1 (en) 2004-11-04
EP1618503A2 (en) 2006-01-25
CN101256581A (zh) 2008-09-03
US20080281821A1 (en) 2008-11-13
WO2004099901A3 (en) 2005-10-06
US7406459B2 (en) 2008-07-29
TW200502800A (en) 2005-01-16
KR20060017765A (ko) 2006-02-27
WO2004099901A2 (en) 2004-11-18
CN100476806C (zh) 2009-04-08
US8065298B2 (en) 2011-11-22

Similar Documents

Publication Publication Date Title
US7406459B2 (en) Concept network
US7627571B2 (en) Extraction of anchor explanatory text by mining repeated patterns
JP3665480B2 (ja) 文書整理装置および方法
US7493312B2 (en) Media agent
US7640488B2 (en) System, method, and service for using a focused random walk to produce samples on a topic from a collection of hyper-linked pages
US6604099B1 (en) Majority schema in semi-structured data
US7861151B2 (en) Web site structure analysis
Kao et al. Mining web informative structures and contents based on entropy analysis
US8185530B2 (en) Method and system for web document clustering
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20020065857A1 (en) System and method for analysis and clustering of documents for search engine
US20090248661A1 (en) Identifying relevant information sources from user activity
US20090327338A1 (en) Hierarchy extraction from the websites
US20080306928A1 (en) Method and apparatus for the searching of information resources
Singh et al. A comparative study of page ranking algorithms for information retrieval
KR20080007740A (ko) 웹 온톨로지 검색/분류 시스템 및 방법
WO2012091541A1 (en) A semantic web constructor system and a method thereof
Ye et al. Learning object models from semistructured web documents
Murata Visualizing the structure of web communities based on data acquired from a search engine
Li et al. A path-based approach for web page retrieval
KR20020032060A (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
KR20070037809A (ko) 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법
JP4094844B2 (ja) 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100525