JP2010061638A - 階層構築方法および階層構築システム - Google Patents

階層構築方法および階層構築システム Download PDF

Info

Publication number
JP2010061638A
JP2010061638A JP2009146095A JP2009146095A JP2010061638A JP 2010061638 A JP2010061638 A JP 2010061638A JP 2009146095 A JP2009146095 A JP 2009146095A JP 2009146095 A JP2009146095 A JP 2009146095A JP 2010061638 A JP2010061638 A JP 2010061638A
Authority
JP
Japan
Prior art keywords
hierarchy
page
web page
semantic
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009146095A
Other languages
English (en)
Other versions
JP4975783B2 (ja
Inventor
Yu Zhao
ユウ ジャオ
Jianqiang Li
ジェンチャン リイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2010061638A publication Critical patent/JP2010061638A/ja
Application granted granted Critical
Publication of JP4975783B2 publication Critical patent/JP4975783B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 オブジェクト階層を構築するために方法とシステムを提供する。
【解決手段】 この階層構築方法は、ウェブサイトからウェブページ集合を取得し、ウェブページの階層を抽出するために、取得したウェブページについてページ間解析を行い、ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した各ウェブページについてページ内解析を行い、統合的な階層を生成するために、意味ブロックの階層をウェブページの階層と融合する。その後、統合的なオブジェクト階層を生成するために、生成された統合的な階層上のノードを対応するオブジェクトにマッピングする。本発明による階層構築システムおよび方法は、従来と比較し、ページ間解析結果およびページ内解析結果を融合させることにより、より正確でより効率的にオブジェクト階層を構築することが可能である。
【選択図】 図1B

Description

本発明は、ウェブからドメイン知識(domain
knowledge)を取得するための方法とシステムに関し、特に、ウェブから自動でオブジェクト階層(object
hierarchy)の構築と生成を可能にするシステムおよび方法に関する。
近年、コンピューターは、人々が関心のある情報を見つけ出すのを支援する現代生活の必要不可欠なツールとなっている。増大する莫大な量の多種多様な情報がウェブ上に蓄積されるインターネット時代においては、特に、そうである。コンピューターは計算、記憶あるいは検索のような情報処理においては高速であるが、情報理解における不適格さが、知的情報処理(intelligent information processing)にとって大きな障害である。そのような問題に対処するために、知的情報処理にための意味的な関連の研究が最近一般的となっている。
例えば、関連する技術が、
ティム・バーナーズ・リー、 ジェイムズ・ヘンドラー、 オー・ラッシーラ(2001)等による「セマンティックウェブ、サイエンティフィックアメリカン」、 2001年5月、28−37頁(T. Berners-Lee, J. Hendler, O. Lassila
(2001), entitled “The Semantic Web, Scientific American”, May 2001, pp. 28-37,)(非特許文献1)、ナイジェル・シャボット、 ティム・バーナーズ・リー、 ウエンディー・ホール等による「再考されたセマンティックウェブ」インテリジェントシステムのIEEE、 巻21号(3)、96−101頁、2006年5月/6月(Nigel Shadbolt, Tim Berners-Lee and Wendy
Hall, entitled “The Semantic Web Revisited”, IEEE Intelligent Systems 21(3) pp.
96-101, May/June 2006) (非特許文献2)、Eero Hyvonenによる「フィンランドにおけるセマンティックウェブの開始−ビジョン、技術、調査およびアプリケーション」ヘルシンキ研究所情報技術公開、304頁(E. Hyvonen (editor), entitled “Semantic Web
Kick-Off in Finland - Vision, Technologies, Research, and Applications”, HIIT
Publications, 2002-001, Helsinki Institute for Information Technology (HIIT),
Helsinki, Finland, 304 pp)(非特許文献3)
等に開示されている。
それらはコンピューターによる情報理解を支援するための形態と技術に集中している。人工知能(AI)および一般的なウェブ情報処理技術の従来の分野からの知識表現のための記述論理あるいはフレーム論理のような、ある数学の論理について基づいて、World Wide Web Consortium(W3C)のような標準化組織は、XML、RDF(Resource Description Framework)やOWL(Web Ontology Language)及びルール言語(例えば、ウェブ・ルール言語(Web
Rule Language)、ルールマークアップ言語(Rule Markup Language))のような、セマンティック技術の採用を進めるための基礎として役立つ標準を積極的に明示している、
また、多くの開発者、企業家および技術者が、意味ベースの知的情報利用の考え方を実現させるために、関連するツールセット、製品、ケーススタディーおよび実際に動作するアプリケーションなどを生み出し展開する段階に入っている。
しかしながら、ウェブユーザーに様々な知的情報利用サービスを提供するためにコンピューターの強力な計算性能およびセマンティック関連の標準を利用するには、バックエンドドメイン知識(現在、オントロジはウェブ上の知識表現のための支配された方法である)が重要な役割を果たす。このように、ドメイン知識構築は解決されなければならない重大な問題である。
現在、主に2種類のドメイン知識が存在する。オントロジと階層である。
オントロジは、形式的に用語の関係を規定する文書あるいはファイルである。また、ウェブのための最も代表的な種類のオントロジは、概念分類(taxonomy)と推論規則(inference rule)集合を有する。さらに、概念分類は、オブジェクトのクラスとそれらの間の関係を定義する。例えば、住所は、位置のタイプとして定義され、都市名コードは位置にのみ適用するために定義される。オントロジは、「都市名コードが州コードに対応付けられ、住所がその都市名コードを使用するならば、住所は対応付けられた州コードを持つ。」というような規則を示す。それから、プログラムは、例えば、イサカにあるコーネル大学の住所が、米国のニューヨーク州にあるはずであり、従って、米国標準にフォーマットされるべきであると、容易に推測する。
階層は、ノードと、ノードを接続するエッジを含み、時にノードに附随するインスタンスを含んでいる。オントロジと比較して、階層は非常に簡単な形式である。オントロジにおける、クラス、特性、定義および関係のような多くの要素は、階層において無視することが可能である。しかし、階層からそれらの要素を推論するいくつかの方法がある。したがって、階層は、明示的であるが略式の仕様を持った一種の擬オントロジと見なすことができる。
関連技術として、主に2種類のオントロジ構築(OB)方法が存在する。すなわち、ある原料に基づいたオントロジ構築方法と、ある既存のオントロジに基づいたオントロジ構築方法である。原料ベースのオントロジ構築方法においては、例えば、オントロジは、テキスト、辞書、知識ベース、半構造化データあるいは関係スキーマから構築することが可能である。既存のオントロジベースのオントロジ構築方法においては、テキストあるいは概念のコンテキストを比較することによって、いくつかの既存のオントロジを一つに統合することが可能である。
オントロジはセマンティックウェブ(Semantic Web)および関連サービスにとって重大であるが、オントロジが、クラス、クラス定義、クラスの関係、特性などのような人間によってさえ満足するのが難しい多くのコンテンツを通常含んでいるので、形式的オントロジ(formal
ontology)を自動的に構築するのはとにかく困難である。言うまでもなく、オントロジの複雑な構成は、あるリアルタイムウェブ・サービスのような、その大規模構造そして広く普及したアプリケーションを阻害した。さらに、オントロジ統合は、人間の相互作用を通して通常実行される。そのため、階層統合のように簡単に実現することができない。
また、階層構築(HB)について若干の関連技術が存在する。例えば、特開2001−34635号公報(特許文献1)は、ウェブから階層を構築する方法を開示している。具体的には、1つの用語(すなわち1つのノード)は各ウェブページから抽出され、また、階層的関係はウェブページ間のリンクに基づいて構築される。全てのページの関係を構築する代わりに、この方法では、同じタイプのウェブページについてのみ関係を構築する。例えば、2つの製品ページ間のリンクは保持されるが、製品ページと広告ページ間のリンクは無視される。
また、N.リウ、C.C.ヤン等による、「ウェブサイト・トピック階層生成へのアプローチに基づくリンク分類」(N. Liu, C.C. Yang, entitled "A link classification based
approach to website topic hierarchy generation" (WWW2007))(非特許文献4)においては、ページ間リンク構成解析に基づいてウェブサイト中のウェブページ間の階層的関係を抽出する方法が提供されている。そして、各ウェブページをトピック・オブジェクトで包み、トピック階層を構築する。
上述した特許文献1及び非特許文献4の開示内容は、専ら参照の目的でここに取り入れられる。
特開2001−34635号公報
ティム・バーナーズ・リー、 ジェイムズ・ヘンドラー、 オー・ラッシーラ(2001)等による「セマンティックウェブ、サイエンティフィックアメリカン」、 2001年5月、28−37頁(T. Berners-Lee, J. Hendler, O. Lassila(2001), entitled "The Semantic Web, Scientific American", May 2001, pp. 28-37,) ナイジェル・シャボット、 ティム・バーナーズ・リー、 ウエンディー・ホール等による「再考されたセマンティックウェブ」インテリジェントシステムのIEEE、 巻21号(3)、96−101頁、2006年5月/6月(Nigel Shadbolt, Tim Berners-Lee and WendyHall, entitled "The Semantic Web Revisited", IEEE Intelligent Systems 21(3) pp.96-101, May/June 2006) Eero Hyvonenによる「フィンランドにおけるセマンティックウェブの開始−ビジョン、技術、調査およびアプリケーション」ヘルシンキ研究所情報技術公開、304頁(E. Hyvonen (editor), entitled "Semantic WebKick-Off in Finland - Vision, Technologies, Research, and Applications", HIITPublications, 2002-001, Helsinki Institute for Information Technology (HIIT),Helsinki, Finland, 304 pp) N.リウ、C.C.ヤン等による、「ウェブサイト・トピック階層生成へのアプローチに基づくリンク分類」(N. Liu, C.C. Yang, entitled "A link classification basedapproach to website topic hierarchy generation" (WWW2007))
しかしながら、HBに関する関連技術(特許文献1及び非特許文献1に記載の技術)において、既存の方法は、オブジェクト/トピックがページ全体によって表わされる場合を考慮するだけであり、また、オブジェクト/トピック中の関係はページ間ハイパーリンク解析によって取得される。しかしながら、オブジェクト/トピック(階層のノード)の一部分だけがページ全体によって表され、オブジェクトの他の部分はウェブページのいくつかの部分によって覆われているだけである。さらに、ページ間のリンク中には階層的関係以外に多くのノイズが存在するので、ページ間関係のみから抽出されたハイパーリンクは、十分に正確とは言えない。
関連技術におけるHB方法の欠陥を考慮し、本発明は、より正確でより有効な方法でウェブサイトからオブジェクト(例えば製品)の階層を自動的に抽出するためになされたものである。
本発明においては、ページ間解析(すなわち、ウェブページの階層の解析)をページ内解析(すなわち、ウェブページ内の意味ブロックの関係についての解析)と統合することによる、ウェブサイトからの自動階層抽出のための統合された方法を提案する。ページ内部の意味ブロック内に包含された階層的関係は、ページ間解析からのみ生ずる不正確な階層を修正するために利用される。
より具体的には、本発明の統合的な階層抽出方法は、主に、(1)ページ間階層解析、(2)ページ内階層解析、そして(3)統合階層生成の、3つの工程を含んでいる。
ページ間階層解析中、階層は、ウェブサイトの全ページ集合の意味関係解析に基づいて生成される。一方、ネストされたオブジェクトは、ウェブサイトから抜粋され、各トピックをその代表的なページと結び付ける。他方、ウェブページ間の階層関係は、ハイパーリンクとコンテンツの解析を統合する、ハイパーリンクベースの方法あるいはハイブリッド方法で識別される。したがって、オブジェクト階層は、ウェブページ間のオブジェクトとページのペアおよび階層関係の統合により抽出される。
その後、ページ内階層解析において、階層は、ウェブページ内部の意味ブロック解析に基づいて生成される。意味ブロック解析は、オブジェクト表示ページへ案内するハイパーリンクのバンドルを有する各ページについて実行される。また、それは、意味ブロック間のハイパーリンクおよび階層的関係を含むネストされた意味ブロックを取り出す。これらのネストされた意味ブロックもオブジェクトとして結び付けられる。したがって、新たなオブジェクト集合の階層は、オブジェクトとページのペア、オブジェクトとブロックのペアおよび意味ブロック間の階層的関係の統合により抽出することができる。
最後に、洗練されたオブジェクト階層が、ページ間解析とページ内解析の結果を融合させることにより生成される。実施の形態において、融合動作は互いに不当な階層的関係を調整し互いに欠けている階層的関係を補完することを含むことが可能である。もちろん、ページ間解析とページ内解析の結果に対する融合動作が説明された実施例への制限されていないと当業者のために考えるのは簡単である。
さらに、前述の説明は本発明の原理を簡潔に説明するためにのみ利用されるものであり、本発明を限定するものではない。例えば、前述の例においては、ウェブページとオブジェクトおよび意味ブロックとオブジェクトのマッピング動作は、ページ間解析とページ内解析の工程においてそれぞれ実行されるとして区別されている。しかしながら、他のいくつかの実施の形態では、ウェブページの階層と意味ブロックのネストされた関係(これらはページ間解析とページ内解析の結果として取得される)は、最初に融合され、それから、統合的な階層上のノード(ウェブページあるいは意味的なブロック)を、最終的なオブジェクト階層を得るためにオブジェクトにマッピングすることが可能である。
本発明の階層構築方法は、ウェブサイトからウェブページ集合を取得するステップと、ウェブページの階層を抽出するために、取得したウェブページについてページ間解析を行なうステップと、ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した各ウェブページについてページ内解析を行なうステップと、統合的な階層を生成するために、意味ブロックの階層をウェブページの階層と融合するステップとを有する。
本発明の階層構築システムは、ウェブサイトから全てのウェブページを取得するウェブページ取得手段と、ウェブページの階層を抽出するために、取得したウェブページについてページ間解析を行なうページ間解析手段と、ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した各ウェブページについてページ内解析を行なうページ内析手段と、統合的な階層を生成するために、意味ブロックの階層をウェブページの階層と融合する融合手段とを備える。
まず、本発明がオントロジではなく階層に注目しているので、ドメイン知識構築の多くの現実の事例を処理することが可能になる。さらに、本発明は、ウェブサイトにおける既存の非公式、半形式上の知識の再使用を容易にし、できるだけ世界/ドメインの共通の理解を反映することが可能である。
さらに、本発明に適用される統合オブジェクト階層抽出方法は、ページ間解析ベースの方法あるいはページ内解析ベースの方法のいずれかより、高精度で階層を取得することが可能である。ページ間解析およびページ内解析の結果は、互いに調整し補完することが可能である。
また、本発明において適用したページ内解析が、オブジェクト表示ページ(ページ間解析中に識別されるページ)に導くハイパーリンクのバンドルを有するページについてのみ実行することが可能であるので、ウェブページの全てのページについてページ内解析を実行するより、非常に効率の高い処理が可能である。
本発明の上述した特徴と他の特徴及び効果は、添付図面と組み合わせた以下の説明からより明らかになると思われる。本発明の範囲が、ここに説明された例あるいは特定の実施の形態に限定されないことは言うまでもない。
本発明の前述した特徴及び他の特徴は、添附図面と共に以下の説明を参照することでよりよく理解されるであろう。
本発明の第1の実施の形態による統合オブジェクト階層構築システム100aの内部構成例を示すブロック図である。 図1Aにおいて示した統合オブジェクト階層構築システム100aの動作を説明するためのフローチャートである。 本発明の第2の実施の形態による統合オブジェクト階層構築システム100bの内部構成例を示すブロック図である。 図2Aにおいて示した統合オブジェクト階層構築システム100bの動作を説明するためのフローチャートである。 本発明の第3の実施の形態による統合オブジェクト階層構築システム100cの内部構成例を示すブロック図である。 図3Aにおいて示した統合オブジェクト階層構築システム100cの動作を説明するためのフローチャートである。 本発明の第3の実施の形態による統合オブジェクト階層構築システム100cに含まれるオブジェクト関連ウェブページの識別のためのフィルタ手段302のさらに詳細な内部構成例を示すブロック図である。 ページ内階層解析を実行するページ内解析手段103の内部構成例を示すブロック図である。 意味ブロックタイトル抽出の処理、および融合処理とマッピング処理について説明する概略図である。 本発明による統合オブジェクト階層構築システムの中に含まれる融合手段とマッピング手段のさらに詳細な内部構成例を示すブロック図である。 本発明を実現するために利用されるコンピュータ・システムの概略を示すブロック図である。
以下、本発明の実施の形態について、添付図面を参照して説明する。以下に述べる実施の形態は例として説明するものであり、本発明の範囲を制限するものとして考慮されるべきでないことは言うまでもない。
本発明は、知識抽出、管理および利用のためのシステムおよび方法についてなされている。特に、本発明は、例えば、ウェブサイトのウェブページ集合を考慮することにより、非常に正確で効率的なオブジェクト階層抽出を実現する方法およびシステムを提供する。もちろん、本発明の適応例が以下に説明する実施例に限定されるものでなく、他の知識源からのドメイン知識の解析および管理に同様に利用することが可能であることは当業者であれば理解できるであろう。
まず、図1Aは、本発明の第1の実施の形態による統合オブジェクト階層構築システム100aの内部構成例を示すブロック図であり、図1Bは、図1Aに示す統合オブジェクト階層構築システム100aの動作について説明するフローチャートである。
図1Aにおいて示すように、統合オブジェクト階層構築システム100aの中核部分は、オブジェクト階層構築モジュール10aにある。オブジェクト階層構築モジュール10aは、ウェブページ記憶装置108から、ウェブサイトのウェブページ集合を取得し、処理の後、ウェブサイトに対するオブジェクト階層Lを構築し、その後、オブジェクト階層Lをオブジェクト階層記憶装置109に格納する。図示しないウェブサイトクローラアプリケーション(website crawling application)は、インターネットから1つ以上のウェブサイトのウェブページ集合をダウンロードし、階層抽出のためにウェブページ記憶装置108に取得したウェブページを格納する。ウェブページ解析モジュール110は、ウェブページ中のハイパーリンク情報を抽出し、ハイパーリンク記憶装置111に抽出した情報を格納するために、ウェブページ記憶装置108内のウェブページを解析するのに利用される。
図示のように、オブジェクト階層構築モジュール10aは、ウェブページ取得手段101と、ページ間解析手段102と、ページ内解析手段103と、融合手段104およびマッピング手段105とを含んでいる。これらの構成要素に加えて、オブジェクト階層構築モジュール10aは、ページ間解析結果を格納するためのウェブページ階層記憶装置106およびページ内解析結果を格納するための意味的ブロック記憶装置107を含んでいる。
図1Bのフローチャートを参照すると、まずステップ201aにおいて、ウェブページ取得手段101が、ウェブサイトからウェブページ集合を取得する。例えば、ウェブページ取得手段101は、ウェブサイトの全てのウェブページを取得することが可能である。そして、ページ間解析手段102およびページ内解析手段103は、ハイパーリンク記憶装置111に格納されたウェブページのハイパーリンク情報を参照して、取得したウェブページについてページ間解析とページ内解析をそれぞれ実行する。そして、ページ間解析結果として抽出されるウェブページの階層をウェブページ階層記憶装置106に格納する。また、ページ内解析結果として抽出される意味ブロック、意味ブロックの階層および意味ブロックのタイトルを全て意味ブロック記憶装置107に格納する(ステップ202aおよびステップ203a)。その後、ステップ204aにおいて、融合手段104は、統合的な階層を生成するためにウェブページ階層と意味的ブロック階層を融合させる。ステップ205aにおいて、その後、マッピング手段105は、統合的なオブジェクト階層を得るために、対応するオブジェクトに、統合的な階層上のノード(ウェブページあるいは意味的ブロック)をマッピングする。その統合的なオブジェクト階層は、オブジェクト階層記憶装置109に格納される。後述するように、階層のマッピングはオブジェクトのタイトルにノードのタイトルをマッピングすること、オブジェクトの階層関係にノードの階層関係をマッピングすることを含む。
最終的に生成された統合オブジェクト階層は、オブジェクト(例えば、製品)関連であり、各ノードによって表わされるオブジェクトは、ウェブページあるいはウェブページ内の意味ブロックである。
オブジェクト階層記憶装置109に格納された様々なウェブサイトに対するオブジェクト階層は、後で、種々の階層関連アプリケーション(図示せず)によって利用される。階層関連アプリケーションは、様々なウェブサイトから抽出された階層を統合し、整合させるための階層統合アプリケーションのようなものである。
図2Aおよび2Bは、本発明の第2の実施の形態による統合オブジェクト階層構築システム100bとその動作処理を示す。第1の実施の形態によるシステム100aと比較すると、第2の実施の形態においては、マッピング手段105が融合手段104の前に置かれ、ページ間解析とページ内解析のそれぞれに対する2つのマッピング手段(第1のマッピング手段1051と第2のマッピング手段1052)として構成されている。第1のマッピング手段1051は、ページ間解析手段102の後に置かれ、ウェブページによって表わされるオブジェクトの階層を構築するために、対応するオブジェクトに、ページ間解析結果として取得されるウェブページの階層上のノード(すなわち、ウェブページ)をマッピングする。第2のマッピング手段1052は、ページ内解析手段103の後に置かれ、意味的なブロックによって表わされるオブジェクトの階層を構築するために、対応するオブジェクトに、ページ内解析結果として取得される意味的なブロックの階層上のノード(すなわち、意味的なブロック)をマッピングする。その後、ウェブページによって表わされるオブジェクトの階層、および意味ブロックによって表わされるオブジェクトの階層は、第1のマッピング手段1051および第2のマッピング手段1052から、融合動作のための融合手段104に出力される。融合手段104において、2つの階層が、統合的なオブジェクト階層Lを生成するために融合される。第1の実施の形態と同様に、統合的なオブジェクト階層Lは、オブジェクト階層記憶装置109に格納される。
図2Bは、図2Aに示す統合オブジェクト階層構築システム100bの動作を説明するためのフローチャートである。図1Bと比較して、第1と第2の実施の形態間の違いが、第1と第2マッピングステップ203bおよび205bにあることが分かる。さらに、ウェブページ−オブジェクトマッピング処理および意味ブロック−オブジェクトマッピング処理が、ページ間解析とページ内解析において既に実行されているので、融合ステップ206bの後、統合的なオブジェクト階層Lが直ちに生成される。
第1の実施の形態と類似する図2Aに示される他の構成要素及びおよび図2Bにおいて示される他のステップに関しては、それらの説明を分かりやすくするために説明を省略する。
さらに、図3Aおよび3Bはより有効な他の実施の形態を示している。本発明の目的がオブジェクトに関連する階層を生成することであるので、ページ間解析中に、ウェブページ取得手段101によって取得されたウェブページの集合からオブジェクト関連のウェブページをまず検索し、次に階層関係を判定するために分析し処理する必要があるオブジェクト関連のウェブページだけを検索することが重要である。詳細については、図3Aおよび3に示されている。図3Aは、本発明の第3の実施の形態による統合オブジェクト階層構築システム100cの内部構成例を示すブロック図であり、図3Bは、図3Aにおいて示すシステム100cの動作を説明するためのフローチャートである。
図1に示す第1の実施の形態と比較すると、第1と第2実施の形態に類似する構成要素に加えて、図3Aに示すシステム100cにおけるオブジェクト階層構築モジュール10cは、オブジェクトタイプ入力手段301およびフィルタ手段302を含んでいる。まず図3Bのフローチャートを参照すると、第1と第2実施の形態と同様に、まずステップ201cで、ウェブページ取得手段101は、ウェブページ記憶装置108からウェブサイトのウェブページの集合を取得する。ステップ202cで、利用者は関心のあるオブジェクトタイプをオブジェクトタイプ入力手段301によって入力する。その後、フィルタ手段302は、ウェブページ取得手段101によって取得したウェブページから利用者が関心を持つオブジェクトタイプを有するウェブページを、オブジェクト関連のウェブページとして取り出すフィルタリングを行う(ステップ203c)。ステップ204cで、オブジェクト関連のウェブページの階層を抽出するために、ページ間解析手段102は、フィルタリングして得たオブジェクト関連のウェブページについてだけページ間解析を実行する。同様に、ページ内解析について、ページ内解析手段103は、ページ内意味ブロック解析を行うために、オブジェクト関連のウェブページにハイパーリンクのバンドルを有するページだけを選択することが可能である(ステップ205c)。次に、第1の実施の形態と同様に、融合手段104は、統合的な階層を生成するために、ステップ204cで構築されたウェブページの階層と、ステップ205cで構築された意味的なブロックの階層とを融合させる(ステップ206c)。そして、ステップ207cで、マッピング手段105は、統合的なオブジェクト階層を構築するために、対応するオブジェクトに、統合的な階層上の各ノードをマッピングする。その後、処理が終了する。
図3Aにおいて示すシステムは、図1Aで示した第1の実施の形態のシステムに基づいているが、対応オブジェクトタイプ入力手段301およびフィルタ手段302をシステム100bに追加すれば、図2Aに示す第2の実施の形態に第3の実施の形態の技術原理を同様に適用することが可能であることは当業者にとって明白である。
図4は、オブジェクト関連ウェブページを識別するためのフィルタ手段302のさらに詳細な内部構成例を示すブロック図である。図示のように、この例において、フィルタ手段302は、階層型ハイパーリンク識別ユニット401、階層型ナビゲーション経路生成ユニット402、オブジェクト関連ウェブページ識別ユニット403および収集ユニット404を含む。この実施例において、オブジェクト関連ウェブページのフィルタリングは、階層型ナビゲーション経路(HNP:hierarchical navigation path)ベースの方法で実行することができる。もちろん、このHNP方法は、あくまで一例として説明している。オブジェクト関連ページのフィルタリングを実行するために、他の適切な既存方法を採用することが可能であることは、当業者とって容易に理解できる。
基本的に、HNPは特定のウェブサイトと関連付けられる。それは、ウェブサイトのルートページから行き先ページに利用者の操作を案内するための仮のナビゲーション経路を構成するウェブページ間の階層的関係を有するそれらのハイパーリンクのマルチステップを意味する。HNPの構造ハイパーリンク(ここでは、階層的ハイパーリンク(HL:hierarchical
hyperlink)と称する)は、ピア・ツー・ビア勧告を示唆する参照ハイパーリンクと異なると共に、あるページから別のページに対してただショートカットを提供する単なるナビゲーションハイパーリンクとも異なる。代わりに、HLはウェブページ構築のために利用され、ウェブページ間のある種の階層的関係(例えば、全体と一部あるいは親と子)を埋め込む。親ページの意味は、連続するHL(すなわち、HNP)に沿って子ページに継承される。このように、HNPは、その行き先ウェブページのコンテンツ上に意味のある指標を与える。
図4を参照すると、階層型ハイパーリンク識別ユニット401は、ウェブサイト内のすべてのハイパーリンクからHLを識別するために利用される。
一例として、階層型ハイパーリンク識別ユニット401は、単なるナビゲーションハイパーリンク(すなわち、HLに付随する雑音情報(例えば、直接又は間接の兄弟間のハイパーリンクや上向きのハイパーリンク))を除去するためのアルゴリズムを採用する。
このアルゴリズムは、1)URL構文の解析と、2)意味的なハイパーリンク解析の2つのステップを含んでいる。
ステップ1は、URL文法(すなわち、ハイパーリンクのソースと行き先のウェブページ間に階層的関係があると識別できるhttp://[host]/[path]/[file]#[fragment]に包含される情報)を利用する。
その後、意味的なハイパーリンク解析のためのステップ2で、ウェブページ集合P1内のウェブページが同じリンク集から生じ、これらのページが共通の下向きのページ集合P2を有する場合、P1が同じ階層的レベルの兄弟ページである確率が高く、かつ、P2が、P1(P1内のページは互いにリンクされている)内に含まれ、あるいはP1と同じ親ページを共有する可能性が高いという、規則が採用される。
従って、P1からP2へのハイパーリンクは非HLであると見なされる。ここで、リンク集とは、1つのウェブページ中に同じレイアウトとプレゼンテーションプロパティを持つリンクの集合を意味する。それは、通常、ページの意味的なブロックのうちの1つを表わす。
上述したアルゴリズムは、単に、階層的ハイパーリンク識別の一例として利用されるものであり、本発明を制限するものではない。
ウェブサイト中の全てのHLを識別した後、階層型ナビゲーション経路生成ユニット402は、ウェブサイト中の各ウェブドキュメントについてHNPを生成する。
同時に、収集ユニット404は、そのHNPに沿って、URL、アンカー・テキストおよびウェブページタイトルを含むHNP内の言語コンテンツを収集する。
そして、ナビゲーション経路が、階層型ナビゲーション経路生成ユニット402によって生成された後、オブジェクト関連ウェブページ識別ユニット403は、オブジェクト関連ウェブページを検索するかあるいはオブジェクトに無関係のウェブページをフィルタリングするために、予め入力されたオブジェクトタイプ名あるいはその同義語でHNPのテキストノードを問い合わせることにより、経路問合せを行なう。例えば、利用者が会社ウェブサイトから製品ウェブページを抽出したい場合、HNPは、「製品」や「サービス」等のキーワードなどで問い合わせる。あるページのHNPのいくつかのノードがこれらのキーワードを含んでいると、HNPが目的ページの正確に意味のあるコンテキストを含んでいるので、そのページを可能性のあるオブジェクト関連ウェブページと見なすことができる。そのようなオブジェクト関連ウェブページを一連のネストされたオブジェクトの代表的なページと見なすことができるかもしれない。また、対応するウェブページのタイトル、および対応するウェブページに導くハイパーリンクのアンカー・テキストからオブジェクトの名前を要約することが可能である。
オブジェクト関連ウェブページがフィルタ手段302によってフィルタリングされた後、これらのオブジェクト関連ウェブページは、ページ間解析とページ内解析のために、ページ間解析手段102およびページ内解析手段103に供給される。
以上、本発明の第1、第2および第3の実施の形態に従って、統合的オブジェクト階層構築システムおよび方法の全体構成および原理について、添付図面を参照して説明した。3つの特徴、すなわちページ間階層解析(ページ間解析手段102)、ページ内階層解析(ページ内解析手段103)、統合的なオブジェクト階層の生成(第1の実施の形態における融合手段104およびマッピング手段105、あるいは第2の実施の形態における融合手段104、第1のマッピング手段1051および第2のマッピング手段1052)が、上述したシステムの重要な技術的特徴であることが理解できるであろう。
これらの特徴は、後でより詳細に説明する。
まず、ページ間階層解析(すなわち、ページ間解析手段102の動作)に関しては、当業者によって周知の様々な方法を利用することにより実現することが可能である。例えば、オブジェクト関連ウェブページの処理の場合には、階層型ハイパーリンク識別ユニット401によって識別された階層的ハイパーリンクを利用することが可能である。その結果、2つのオブジェクト関連ウェブページが、連続する階層的ハイパーリンクによってリンクされるなら、それらは親子供ペアと見なされ、それらの間の階層的関係が格納される。もちろん、当業者によって知られているように、先行技術には、本発明に適用することが可能な多くのページ間解析方法が存在する。ウェブページの階層を抽出するために、利用者は実際の適用条件に従って適切な方法を選択することが可能である。
ページ内階層解析に関しては、上述したように、ページ内解析手段103が、各ウェブページをいくつかのネストされた意味ブロックに分割し、かつ意味ブロックの階層を抽出するために利用される。ページ内階層解析処理についても、当業者によって周知の様々な方法を利用することによって実現することが可能である。ここで、ページ内階層解析の例を図5を参照して説明する。
図5は、ページ内階層解析を実行するページ内解析手段103の内部構成例を示すブロック図である。図示のように、この実施例において、ページ内解析手段103は、オブジェクト開始ページ選択ユニット501と、ウェブページ分割ユニット502と、階層抽出ユニット503と、タイトル生成ユニット504とを含む。
まず、オブジェクト開始ページ選択ユニット501は、ウェブページ取得手段101によって取得されたウェブページからオブジェクト開始ページを選択する。オブジェクト開始ページとは、様々なオブジェクト関連ウェブページに導くハイパーリンクの束を含んでいるページである。その後、ウェブページ分割ユニット502は、ページからネストされた意味ブロックを生成するために、選択されたオブジェクト開始ページについてウェブページ分割を行なう。さらに効率を向上させるためには、ウェブページ分割ユニット502は、以下の階層抽出のために、オブジェクト関連ウェブページに導くハイパーリンクを含む意味ブロックだけを選択することも可能である。ウェブページ分割については、DOMパターン反復ベースの方法(DOM pattern repetition based method)あるいはビジョンレイアウトベースの方法(vision
layout based method)のようないくつかの既存の方法によって実現することが可能である。これらの既存の方法の詳細はここでは説明しない。意味ブロックの分割の後、階層抽出ユニット503は、意味ブロックの階層を抽出する。その後、タイトル生成ユニット504は、個々の意味ブロックについてタイトルを生成する。
1例として、意味ブロックのタイトル生成は、個々の意味ブロックに対するタイトルを、意味ブロックのブロックが配置されるページについてのページ内コンテキストおよび意味ブロックのブロック内部の下向きリンクのあて先ページについてのページ間コンテキストの両方の分析および合成で識別するハイブリッドコンテキストベースの方法によって実現することが可能である。例えば、図6にはその一例を示している。この例において、2つの意味ブロックが、セキュリティ製品ウェブページで、「アンチウイルス」と「アンチスパム」として分割されている。ここでは、意味ブロック「アンチスパム」の点線で囲んだタイトルを抽出する必要がある。意味ブロックのタイトルについて、意味ブロックのリテラルコンテンツからそのテキストを直接抽出することが可能であれば、タイトルを簡単に取得することが可能である。しかしながら、そのようなテキストが存在しないか、テキストがイメージに埋め込まれている場合、意味ブロックのタイトルを要約するために、ページ内コンテキストとページ間コンテキストの両方を利用する。例えば、図6において、意味ブロック「アンチスパム」のタイトルを要約するために、ページ内コンテキスト(意味ブロック内のハイパーリンク「サーバ」および「クライアント」のアンカーテキスト)およびページ間コンテキスト(それら2つのハイパーリンクの行き先ページ「サーバアンチスパム製品リストページ」と「クライアントアンチスパム製品リストページ」のタイトル)の両方を利用することが可能である。
図5に戻ると、最後に、分割された意味ブロック、意味ブロックの抽出された階層および意味ブロックの生成されたタイトルはすべて、意味的ブロック記憶装置107に格納される。
ページ間階層解析およびページ内階層解析が行われた後、融合手段104は、統合的な階層を生成するためにページ間解析結果およびページ内解析結果を融合させる。図7は、融合手段とマッピング手段の内部構成の詳細を示すブロック図である。図7に示す実施例において、融合手段は、キャリブレーションユニット701および補完ユニット702を含んでいる。キャリブレーションユニット701は、衝突を解決するためにウェブページの階層と意味ブロックの階層を相互に調整するように構成されている。補完ユニット702は、統合階層を生成するために、意味ブロックの階層に従ってウェブページの階層に仮想ウェブページとして意味ブロックを補完するように構成されている。キャリブレーションユニット701については、多くの既存の階層統合方法を様々な階層間の調整を実現するために利用することができる。したがって、ここではその詳細は説明しない。一方、本発明の目的がオブジェクト階層を取得することであり、かつ、多くのオブジェクトがページ全体とは別に、ページの一部(例えば、意味ブロック)によって表わされるので、意味ブロック結果(すなわち、ページ内解析結果)から、ページ間階層解析によって生成されたオブジェクト階層にそのようなオブジェクトおよび他のオブジェクトとの関係を補完すべきである。例えば、図6に示す例において、ページ間解析によって生成されたウェブページの階層は、意味ブロック「アンチスパム」によって表わされるオブジェクトを考慮していない。しかし、融合処理の後、統合階層L’においては、この意味ブロックが他の2つのオブジェクト関連ウェブページ(つまし、「サーバアンチスパム製品リストページ」と「クライアントアンチスパム製品リストページ」)に対するハイパーリンクを含んでいるので、意味ブロック「アンチスパム」が、新たなノードとして、ウェブページ階層に補完されている。
最後に、融合手段104によって生成された統合階層L’は、マッピング手段105によって対応する統合オブジェクト階層にマッピングされる。図7に示すように、この実施例において、マッピング手段105は、タイトルマッピングユニット703と階層関係マッピングユニット704を含んでいる。タイトルマッピングユニット703は、ウェブページあるいはノードによって表わされる意味ブロックのタイトルを、対応するオブジェクトのタイトルにマッピングするように構成されている。階層関係マッピングユニット704は、ウェブページあるいはノードによって表わされる意味ブロックの階層関係を、対応するオブジェクトの階層関係にマッピングするように構成されている。その後、マッピング手段105によって生成された統合的なオブジェクト階層は、他の階層関係に適用するためにオブジェクト階層記憶装置109に格納される。
図8は、本発明を実現するために利用されるコンピュータシステム800の概略ブロック図である。図示のように、コンピュータシステム800は、CPU801、ユーザインターフェース802、周辺装置803、メモリ805、外部記憶装置806および上記構成要素を互いに接続する内部バス804を含んでいる。メモリ805は、さらに、ウェブサイトクロール取得モジュール、オブジェクト階層構築モジュール、階層関連アプリケーションモジュール、ウェブページ解析モジュール、オペレーティング・システム(OS)等を含んでいる。本発明は、主にオブジェクト階層構築モジュール、例えば、図1A、図2Aおよび図3Aに示される、オブジェクト階層構築モジュール10a、10bおよび10cに関連している。ウェブサイトクロール取得モジュールは、ネットワークからのウェブページを取得し、ウェブページ記憶装置にそれらを格納するために利用される。ウェブページ解析モジュールは、ウェブページのハイパーリンク関係を抽出するために取得したウェブページを解析する。抽出されたハイパーリンク関係は、ハイパーリンク記憶装置の中に格納される。外部記憶装置806は、ウェブページ記憶装置108、ハイパーリンク記憶装置111、ウェブページ階層記憶装置106、意味的ブロック記憶装置107およびオブジェクト階層記憶装置109のような、本発明に関する様々なデータベースを含んでいる。
上記のように、第1、第2及び第3の実施の形態による統合オブジェクト階層構築システムおよび方法について、添附図面を参照して説明した。本発明の方法及びシステムは、関連技術と比較して、以下のような効果を有する。
まず、本発明がオントロジではなく階層に注目しているので、ドメイン知識構築の多くの現実の事例を処理することが可能になる。さらに、本発明は、ウェブサイトにおける既存の非公式、半形式上の知識の再使用を容易にし、できるだけ世界/ドメインの共通の理解を反映することが可能である。
さらに、本発明に適用される統合オブジェクト階層抽出方法は、ページ間解析ベースの方法あるいはページ内解析ベースの方法のいずれかより、高精度で階層を取得することが可能である。 ページ間解析およびページ内解析の結果は、互いに調整し補完することが可能である。
また、本発明において適用したページ内解析が、オブジェクト表示ページ(ページ間解析中に識別されるページ)に導くハイパーリンクのバンドルを有するページについてのみ実行することが可能であるので、ウェブページの全てのページについてページ内解析を実行するより、非常に効率の高い処理が可能である。
本発明の特定の実施の形態について、上記のように添付の図面を参照して説明した。しかしながら、本発明は、添付の図面中で示される特定の構成および処理に限定されない。上記の実施の形態において、いくつかの特定のステップは具体例として示されかつ説明されている。しかしながら、本発明の方法処理はこれらの特定のステップに限定されない。当業者は、これらのステップを変更し、修正し、補足することが可能であり、あるいは、いくつかのステップの順序を、本発明の精神および本質的な機能から外れずに変更することが可能であることを理解するだろう。
本発明の要素は、ハードウェア、ソフトウェア、ファームウェアあるいはそれの組合せにおいて実装することが可能であり、システム、サブシステム、コンポーネントあるいはサブコンポーネントにおいて利用することが可能である。ソフトウェアの中で実施された場合、本発明の要素は、必要なタスクを実行するためのプログラム、あるいはコードセグメントである。プログラムまたはコードセグメントは、コンピュータ読み取り可能な媒体に格納するか、あるいは伝送ケーブルか通信リンク上の搬送波に包含されたデータ信号によって送信することが可能である。コンピュータ読み取り可能な媒体には、情報を格納するか転送することが可能であるすべての媒体を含む。コンピュータ読み取り可能な媒の具体例は、電子回路、半導体記憶装置、ROM、フラッシュ・メモリー、消去可能ROM(EROM)、フロッピー・ディスク、CD−ROM光ディスク、ハードディスク、光ファイバー媒体、無線周波数(RF)リンクなどを含む。コードセグメントは、インターネット、イントラネットなどのようなコンピュータネットワークを経由してダウンロードすることも可能である。
以上、特定の実施の形態を参照して本発明を説明したが、本発明は、図面中で示される上記の特定の実施の形態および特定の構成に限定されない。例えば、示されたいくつかの構成要素は、1つの構成要素としてお互いと組み合わせるかもしれない。あるいは、1つの構成要素はいくつかのサブコンポーネントに分割されるかもしれないし、他の既知の構成要素も加えられるかもしれない。動作処理も実施例において示されるものに限定されない。当業者は、本発明が、本発明の精神および本質的な機能から外れずに、他の特定の形態で実装可能であることを理解するだろう。従って、現在の実施の形態は、全ての点において例示でありかつ限定的でないとして考慮されるべきである。本発明の範囲は、前述の説明によってではなく添付された請求項によって示される。また、したがって、請求項と同等の意味と範囲の内で生ずる変更は全て本発明の範囲に包含される。
100a:統合オブジェクト階層構築システム
10a:オブジェクト階層構築モジュール
108:ウェブページ記憶装置
109:オブジェクト階層記憶装置
110:ウェブページ解析モジュール
111:ハイパーリンク記憶装置
101:ウェブ・ページ取得手段
102:ページ間解析手段
103:ページ内解析手段
104:融合手段
105:マッピング手段
106:ウェブページ階層記憶装置
107:意味ブロック記憶装置
100b:統合オブジェクト階層構築システム
10b:オブジェクト階層構築モジュール
1051:第1のマッピング手段
1052:第2のマッピング手段
100c:統合オブジェクト階層構築システム
10c:オブジェクト階層構築モジュール
301:オブジェクトタイプ入力手段
302:フィルタ手段
401:階層型ハイパーリンク識別ユニット
402:階層型ナビゲーション経路生成ユニット
403:オブジェクト関連ウェブページ識別ユニット
404:収集ユニット
501:オブジェクト開始ページ選択ユニット
502:ウェブページ分割ユニット
503:階層抽出ユニット
504:タイトル生成ユニット
701:キャリブレーションユニット
702:補完ユニット
703:タイトルマッピングユニット
704:階層関係マッピングユニット
800:コンピュータシステム
801:CPU
802:ユーザインターフェース
803:周辺装置
804:内部バス
805:メモリ
806:外部記憶装置

Claims (22)

  1. ウェブサイトからウェブページ集合を取得するステップと、
    前記ウェブページの階層を抽出するために、取得した前記ウェブページについてページ間解析を行なうステップと、
    前記ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した前記各ウェブページについてページ内解析を行なうステップと、
    統合的な階層を生成するために、前記意味ブロックの階層を前記ウェブページの階層と融合するステップとを有することを特徴とする階層構築方法。
  2. 統合的なオブジェクト階層を取得するために、統合的な階層上の各ノードを対応するオブジェクトにマッピングするステップをさらに有することを特徴とする請求項1に記載の階層構築方法。
  3. 前記ウェブページによって表わされる前記オブジェクトの階層を取得するために、前記ページ間解析の後に、ウェブページの階層上の各ノードを対応するオブジェクトにマッピングするステップと、
    前記意味ブロックによって表わされるオブジェクトの階層を取得するために、前記ページ内解析の後に、前記意味ブロックの階層上の各ノードを対応するオブジェクトにマッピングするステップをさらに有し、
    前記融合ステップで、統合的なオブジェクト階層を取得するために、前記ウェブページによって表わされるオブジェクトの階層と前記意味ブロックによって表わされるオブジェクトの階層とを融合することを特徴とする請求項1に記載の階層構築方法。
  4. 前記融合ステップが、
    互いの競合を解決するために、前記ウェブページの階層と前記意味ブロックの階層を調整するステップと、
    統合的な階層を生成するために、前記意味ブロックの階層に従って、前記ウェブページの階層に、前記意味ブロックを仮想ウェブページとして補完するステップを有することを特徴とする請求項1に記載の階層構築方法。
  5. 利用者が関心を持つオブジェクトタイプを入力するステップと、
    取得した前記ウェブページから、入力された前記オブジェクトタイプを有するオブジェクト関連ウェブページをフィルタリングして取り出すステップとをさらに有し、
    前記ページ間解析と前記ページ内解析を前記オブジェクト関連ウェブページ上で実行することを特徴とする請求項1に記載の階層構築方法。
  6. 前記フィルタリングステップが、
    取得した前記ウェブページのハイパーリンクから階層型ハイパーリンクを識別するステップと、
    識別した前記階層型ハイパーリンクを参照して、前記各ウェブページについて階層型ナビゲーション経路を生成するステップと、
    生成した前記階層型ナビゲーション経路をチェックすることにより、前記オブジェクト関連ウェブページを識別するステップとを有することを特徴とする請求項5に記載の階層構築方法。
  7. 生成された階層型ナビゲーション経路に沿ってウェブページの言語的コンテンツを収集するステップをさらに含み、
    前記チェックステップが、
    前記オブジェクト関連ウェブページを識別するために、入力された前記オブジェクトタイプに従って収集したウェブページの前記言語コンテンツを問い合わせるステップを含むことを特徴とする請求項6に記載の階層構築方法。
  8. 前記ページ内解析を行なうステップが、
    意味ブロックを生成するために、前記各ウェブページについてウェブページ分割を行なうステップと、
    全ての前記ウェブページについて前記意味ブロックの階層を抽出するステップと、
    前記各意味ブロックについてタイトルを生成するステップを含むことを特徴とする請求項1に記載の階層構築方法。
  9. 前記ページ内解析を行なうステップが、
    種々のオブジェクト関連ウェブページに導くハイパーリンクのバンドルを含むオブジェクト開始ページを、取得したウェブページから選択するステップと、
    前記意味ブロックを生成するために、選択した前記オブジェクト開始ページについてウェブページ分割を行なうステップと、
    前記意味ブロックの階層を抽出するステップと、
    前記各意味ブロックについてタイトルを生成するステップとを含むことを特徴とする請求項5に記載の階層構築方法。
  10. 前記タイトル生成ステップで、
    前記タイトルのテキストが前記意味ブロックのリテラルコンテンツ中に含まれていない場合、前記意味ブロックが属するウェブページのページ内コンテキスト及びページ間コンテキストを利用して、前記タイトルを生成することを特徴とする請求項8又は請求項9に記載の階層構築方法。
  11. 前記マッピングステップが、
    前記対応するオブジェクトのタイトルに各ノードのタイトルをマッピングするステップと、
    前記オブジェクトの階層関係にノードの階層関係をマッピングするステップを含むことを特徴とする請求項2又は請求項3に記載の階層構築方法。
  12. ウェブサイトから全てのウェブページを取得するウェブページ取得手段と、
    前記ウェブページの階層を抽出するために、取得した前記ウェブページについてページ間解析を行なうページ間解析手段と、
    前記ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した前記各ウェブページについてページ内解析を行なうページ内析手段と、
    統合的な階層を生成するために、前記意味ブロックの階層を前記ウェブページの階層と融合する融合手段とを備えることを特徴とする階層構築システム。
  13. 統合的なオブジェクト階層を取得するために、統合的な階層上の各ノードを対応するオブジェクトにマッピングするマッピング手段をさらに備えることを特徴とする請求項12に記載の階層構築システム。
  14. 前記ページ間解析手段に接続され、前記ウェブページによって表わされる前記オブジェクトの階層を取得するために、前記ページ間解析の後に、ウェブページの階層上の各ノードを対応するオブジェクトにマッピングする第1のマッピング手段と、
    前記ページ内解析手段に接続され、前記意味ブロックによって表わされるオブジェクトの階層を取得するために、前記ページ内解析の後に、前記意味ブロックの階層上の各ノードを対応するオブジェクトにマッピングする第2のマッピング手段をさらに備え、
    前記融合手段が、統合的なオブジェクト階層を取得するために、前記ウェブページによって表わされるオブジェクトの階層と前記意味ブロックによって表わされるオブジェクトの階層とを融合することを特徴とする請求項12に記載の階層構築システム。
  15. 前記融合手段が、
    互いの競合を解決するために、前記ウェブページの階層と前記意味ブロックの階層を調整する調整ユニットと、
    統合的な階層を生成するために、前記意味ブロックの階層に従って、前記ウェブページの階層に、前記意味ブロックを仮想ウェブページとして補完する補完ユニットを備えることを特徴とする請求項12に記載の階層構築システム。
  16. 利用者が関心を持つオブジェクトタイプを入力するオブジェクトタイプ入力手段と、
    取得した前記ウェブページから、入力された前記オブジェクトタイプを有するオブジェクト関連ウェブページをフィルタリングして取り出すフィルタ手段とをさらに備え、
    前記ページ間解析手段と前記ページ内解析手段が、前記ページ間解析と前記ページ内解析を、前記オブジェクト関連ウェブページ上で実行することを特徴とする請求項12に記載の階層構築システム。
  17. 前記フィルタ手段が、
    取得した前記ウェブページのハイパーリンクから階層型ハイパーリンクを識別する階層型ハイパーリンク識別ユニットと、
    識別した前記階層型ハイパーリンクを参照して、前記各ウェブページについて階層型ナビゲーション経路を生成する階層型ナビゲーション経路生成ユニットと、
    生成した前記階層型ナビゲーション経路をチェックすることにより、前記オブジェクト関連ウェブページを識別するオブジェクト関連ウェブページ識別ユニットとを備えることを特徴とする請求項16に記載の階層構築システム。
  18. 前記フィルタ手段が、
    生成された階層型ナビゲーション経路に沿ってウェブページの言語的コンテンツを収集する収集ユニットをさらに備え、
    前記オブジェクト関連ウェブページ識別ユニットが、
    前記オブジェクト関連ウェブページを識別するために、入力された前記オブジェクトタイプに従って収集したウェブページの前記言語コンテンツを問い合わせるステップを含むことを特徴とする請求項17に記載の階層構築システム。
  19. 前記ページ内解析手段が、
    意味ブロックを生成するために、前記各ウェブページについてウェブページ分割を行なうウェブページ分割ユニットと、
    全ての前記ウェブページについて前記意味ブロックの階層を抽出する階層抽出ユニットと、
    前記各意味ブロックについてタイトルを生成するタイトル生成ユニットを備えることを特徴とする請求項12に記載の階層構築システム。
  20. 前記ページ内解析手段が、
    種々のオブジェクト関連ウェブページに導くハイパーリンクのバンドルを含むオブジェクト開始ページを、取得したウェブページから選択するオブジェクト開始ページ選択ユニットと、
    前記意味ブロックを生成するために、選択した前記オブジェクト開始ページについてウェブページ分割を行なうウェブページ分割ユニットと、
    前記意味ブロックの階層を抽出する階層抽出ユニットと、
    前記各意味ブロックについてタイトルを生成するタイトル生成ユニットとを備えることを特徴とする請求項16に記載の階層構築システム。
  21. 前記タイトル生成ユニットは、
    前記タイトルのテキストが前記意味ブロックのリテラルコンテンツ中に含まれていない場合、前記意味ブロックが属するウェブページのページ内コンテキスト及びページ間コンテキストを利用して、前記タイトルを生成することを特徴とする請求項19又は請求項20に記載の階層構築システム。
  22. 前記マッピング手段、又は前記第1のマッピング手段と前記第2のマッピング手段が、
    前記対応するオブジェクトのタイトルに各ノードのタイトルをマッピングするタイトルマッピングユニットと、
    前記オブジェクトの階層関係にノードの階層関係をマッピングする階層関係マッピングユニットとを備えることを特徴とする請求項13又は請求項14に記載の階層構築システム。


JP2009146095A 2008-06-26 2009-06-19 階層構築方法および階層構築システム Expired - Fee Related JP4975783B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2008101114822A CN101615178B (zh) 2008-06-26 2008-06-26 用于建立对象层次结构的方法和系统
CN200810111482.2 2008-06-26

Publications (2)

Publication Number Publication Date
JP2010061638A true JP2010061638A (ja) 2010-03-18
JP4975783B2 JP4975783B2 (ja) 2012-07-11

Family

ID=41448762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009146095A Expired - Fee Related JP4975783B2 (ja) 2008-06-26 2009-06-19 階層構築方法および階層構築システム

Country Status (3)

Country Link
US (1) US20090327338A1 (ja)
JP (1) JP4975783B2 (ja)
CN (1) CN101615178B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528930A (ja) * 2012-05-29 2015-10-01 ヴィヴァンス カンパニー、リミテッド ウェブサイト内部構造の自動抽出システム及び抽出方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990499B2 (en) * 2010-03-26 2015-03-24 Amazon Technologies, Inc. Caching of a site model in a hierarchical modeling system for network sites
WO2011123981A1 (en) 2010-04-07 2011-10-13 Google Inc. Detection of boilerplate content
US8645384B1 (en) * 2010-05-05 2014-02-04 Google Inc. Updating taxonomy based on webpage
US9317622B1 (en) * 2010-08-17 2016-04-19 Amazon Technologies, Inc. Methods and systems for fragmenting and recombining content structured language data content to reduce latency of processing and rendering operations
CN102768660B (zh) * 2011-05-05 2014-09-03 江苏金鸽网络科技有限公司 一种基于动态交互的互联网采集系统模版生成方法
US8751917B2 (en) 2011-11-30 2014-06-10 Facebook, Inc. Social context for a page containing content from a global community
US9129259B2 (en) * 2011-12-06 2015-09-08 Facebook, Inc. Pages: hub structure for related pages
CN103885957A (zh) * 2012-12-20 2014-06-25 百度在线网络技术(北京)有限公司 网页信息提取方法及设备
CN104978431B (zh) * 2015-07-13 2019-05-17 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN107102997A (zh) * 2016-02-22 2017-08-29 北京国双科技有限公司 数据爬取方法及装置
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN107463661B (zh) * 2017-07-31 2021-04-27 绿湾网络科技有限公司 数据的导入方法及装置
CN108196831B (zh) * 2017-12-29 2021-03-30 广州斯沃德科技有限公司 业务系统的构建方法和装置
CN112486355A (zh) * 2020-11-30 2021-03-12 维沃移动通信有限公司 电子设备的超链接触发方法及装置
US12488180B2 (en) * 2021-03-30 2025-12-02 Microsoft Technology Licensing, Llc Systems and methods for generating dialog trees
US12105761B2 (en) * 2022-11-10 2024-10-01 Palo Psifiakes Technologie Epe System and method for web crawling and content summarization
CN115935074B (zh) * 2023-01-09 2023-08-11 北京创新乐知网络技术有限公司 文章推荐方法、装置、设备及介质
CN116484834A (zh) * 2023-03-30 2023-07-25 合肥工业大学 基于层次结构的文章分割方法及系统
US12517937B1 (en) * 2024-07-03 2026-01-06 Dell Products L.P. Semantic segmentation of data for information retrieval

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297668A (ja) * 2001-04-02 2002-10-11 Nippon Telegr & Teleph Corp <Ntt> ハイパーテキスト文書検索方法とその装置及びそのプログラムとこのプログラムを記録した記録媒体
JP2003223390A (ja) * 2002-01-29 2003-08-08 Fujitsu Social Science Laboratory Ltd データ抽出・構造変換処理プログラム、コンテンツ生成処理プログラム、データ抽出・構造変換処理プログラム記録媒体、コンテンツ生成処理プログラム記録媒体、およびコンテンツ再構築処理システム
US20040093328A1 (en) * 2001-02-08 2004-05-13 Aditya Damle Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
JP2005056028A (ja) * 2003-07-31 2005-03-03 Internatl Business Mach Corp <Ibm> ナビゲーション生成装置、情報管理装置、ナビゲーション生成方法、サイト構造管理方法、プログラム、およびサイト構造データ
JP2005092889A (ja) * 2003-09-18 2005-04-07 Fujitsu Ltd ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法
JP2006525601A (ja) * 2003-05-01 2006-11-09 マイクロソフト コーポレーション 概念ネットワーク

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918224A (en) * 1995-07-26 1999-06-29 Borland International, Inc. Client/server database system with methods for providing clients with server-based bi-directional scrolling at the server
US5826253A (en) * 1995-07-26 1998-10-20 Borland International, Inc. Database system with methodology for notifying clients of any additions, deletions, or modifications occurring at the database server which affect validity of a range of data records cached in local memory buffers of clients
US6356902B1 (en) * 1998-07-28 2002-03-12 Matsushita Electric Industrial Co., Ltd. Method and system for storage and retrieval of multimedia objects
US6397231B1 (en) * 1998-08-31 2002-05-28 Xerox Corporation Virtual documents generated via combined documents or portions of documents retrieved from data repositories
US6654734B1 (en) * 2000-08-30 2003-11-25 International Business Machines Corporation System and method for query processing and optimization for XML repositories
JP4400147B2 (ja) * 2003-08-29 2010-01-20 富士ゼロックス株式会社 文書群構造データ作成装置及び方法
US20050071310A1 (en) * 2003-09-30 2005-03-31 Nadav Eiron System, method, and computer program product for identifying multi-page documents in hypertext collections
US7376643B2 (en) * 2004-05-14 2008-05-20 Microsoft Corporation Method and system for determining similarity of objects based on heterogeneous relationships
US7596574B2 (en) * 2005-03-30 2009-09-29 Primal Fusion, Inc. Complex-adaptive system for providing a facted classification
US20070073638A1 (en) * 2005-09-26 2007-03-29 Bea Systems, Inc. System and method for using soft links to managed content
US7680764B2 (en) * 2006-06-21 2010-03-16 Oracle International Corporation Parallel population of an XML index
US8108410B2 (en) * 2006-10-09 2012-01-31 International Business Machines Corporation Determining veracity of data in a repository using a semantic network
WO2009050590A2 (en) * 2007-05-04 2009-04-23 Bmenu As Computer-accessible medium, method and system for assisting in navigating the internet
US8869023B2 (en) * 2007-08-06 2014-10-21 Ricoh Co., Ltd. Conversion of a collection of data to a structured, printable and navigable format
US20090063533A1 (en) * 2007-08-27 2009-03-05 International Business Machines Corporation Method of supporting multiple extractions and binding order in xml pivot join
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US7882143B2 (en) * 2008-08-15 2011-02-01 Athena Ann Smyros Systems and methods for indexing information for a search engine
US8370119B2 (en) * 2009-02-19 2013-02-05 Microsoft Corporation Website design pattern modeling
US20100241639A1 (en) * 2009-03-20 2010-09-23 Yahoo! Inc. Apparatus and methods for concept-centric information extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093328A1 (en) * 2001-02-08 2004-05-13 Aditya Damle Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
JP2002297668A (ja) * 2001-04-02 2002-10-11 Nippon Telegr & Teleph Corp <Ntt> ハイパーテキスト文書検索方法とその装置及びそのプログラムとこのプログラムを記録した記録媒体
JP2003223390A (ja) * 2002-01-29 2003-08-08 Fujitsu Social Science Laboratory Ltd データ抽出・構造変換処理プログラム、コンテンツ生成処理プログラム、データ抽出・構造変換処理プログラム記録媒体、コンテンツ生成処理プログラム記録媒体、およびコンテンツ再構築処理システム
JP2006525601A (ja) * 2003-05-01 2006-11-09 マイクロソフト コーポレーション 概念ネットワーク
JP2005056028A (ja) * 2003-07-31 2005-03-03 Internatl Business Mach Corp <Ibm> ナビゲーション生成装置、情報管理装置、ナビゲーション生成方法、サイト構造管理方法、プログラム、およびサイト構造データ
JP2005092889A (ja) * 2003-09-18 2005-04-07 Fujitsu Ltd ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528930A (ja) * 2012-05-29 2015-10-01 ヴィヴァンス カンパニー、リミテッド ウェブサイト内部構造の自動抽出システム及び抽出方法

Also Published As

Publication number Publication date
JP4975783B2 (ja) 2012-07-11
US20090327338A1 (en) 2009-12-31
CN101615178B (zh) 2013-01-09
CN101615178A (zh) 2009-12-30

Similar Documents

Publication Publication Date Title
JP4975783B2 (ja) 階層構築方法および階層構築システム
Elgazzar et al. Clustering wsdl documents to bootstrap the discovery of web services
US20170242934A1 (en) Methods for integrating semantic search, query, and analysis and devices thereof
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US10671584B2 (en) Identifying unvisited portions of visited information
KR20130060720A (ko) 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법
JP2019537128A (ja) 複数のデータ表現間の類似性を識別するための方法およびシステム
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
JP2009104591A (ja) ウェブ文書クラスタリング方法およびシステム
JP2006525601A (ja) 概念ネットワーク
JP2010170529A (ja) オブジェクト分類方法およびオブジェクト分類システム
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
US20090083266A1 (en) Techniques for tokenizing urls
Kumar World towards advance web mining: A review
TW201415254A (zh) 語意標註建議方法及其系統
Jou Schema extraction for deep web query interfaces using heuristics rules
KR20100070084A (ko) 대용량 온톨로지에서 사용자 질의 관련 지식을 실시간으로 검색하기 위한 장치 및 그 방법
Aranda-Corral et al. Reconciling knowledge in social tagging web services
KR101272377B1 (ko) 시맨틱 클라우드에 기반한 시맨틱 어노테이션 방법 및 장치
KR20100003084A (ko) 온톨로지 부분 그래프 추출 장치 및 그 방법과, 그를이용한 검색 사용자 질의와 온톨로지의 의미적 매칭 장치및 그 방법
Kamath et al. Similarity analysis of service descriptions for efficient Web service discovery
TWI442249B (zh) Domain Knowledge Network Construction Method and Its System
KR20070037809A (ko) 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법
Annalakshmi et al. Structuring of Web Pages using XML Framework for Information Filtering

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees