JP2010061638A - 階層構築方法および階層構築システム - Google Patents
階層構築方法および階層構築システム Download PDFInfo
- Publication number
- JP2010061638A JP2010061638A JP2009146095A JP2009146095A JP2010061638A JP 2010061638 A JP2010061638 A JP 2010061638A JP 2009146095 A JP2009146095 A JP 2009146095A JP 2009146095 A JP2009146095 A JP 2009146095A JP 2010061638 A JP2010061638 A JP 2010061638A
- Authority
- JP
- Japan
- Prior art keywords
- hierarchy
- page
- web page
- semantic
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】 この階層構築方法は、ウェブサイトからウェブページ集合を取得し、ウェブページの階層を抽出するために、取得したウェブページについてページ間解析を行い、ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した各ウェブページについてページ内解析を行い、統合的な階層を生成するために、意味ブロックの階層をウェブページの階層と融合する。その後、統合的なオブジェクト階層を生成するために、生成された統合的な階層上のノードを対応するオブジェクトにマッピングする。本発明による階層構築システムおよび方法は、従来と比較し、ページ間解析結果およびページ内解析結果を融合させることにより、より正確でより効率的にオブジェクト階層を構築することが可能である。
【選択図】 図1B
Description
knowledge)を取得するための方法とシステムに関し、特に、ウェブから自動でオブジェクト階層(object
hierarchy)の構築と生成を可能にするシステムおよび方法に関する。
例えば、関連する技術が、
ティム・バーナーズ・リー、 ジェイムズ・ヘンドラー、 オー・ラッシーラ(2001)等による「セマンティックウェブ、サイエンティフィックアメリカン」、 2001年5月、28−37頁(T. Berners-Lee, J. Hendler, O. Lassila
(2001), entitled “The Semantic Web, Scientific American”, May 2001, pp. 28-37,)(非特許文献1)、ナイジェル・シャボット、 ティム・バーナーズ・リー、 ウエンディー・ホール等による「再考されたセマンティックウェブ」インテリジェントシステムのIEEE、 巻21号(3)、96−101頁、2006年5月/6月(Nigel Shadbolt, Tim Berners-Lee and Wendy
Hall, entitled “The Semantic Web Revisited”, IEEE Intelligent Systems 21(3) pp.
96-101, May/June 2006) (非特許文献2)、Eero Hyvonenによる「フィンランドにおけるセマンティックウェブの開始−ビジョン、技術、調査およびアプリケーション」ヘルシンキ研究所情報技術公開、304頁(E. Hyvonen (editor), entitled “Semantic Web
Kick-Off in Finland - Vision, Technologies, Research, and Applications”, HIIT
Publications, 2002-001, Helsinki Institute for Information Technology (HIIT),
Helsinki, Finland, 304 pp)(非特許文献3)
等に開示されている。
それらはコンピューターによる情報理解を支援するための形態と技術に集中している。人工知能(AI)および一般的なウェブ情報処理技術の従来の分野からの知識表現のための記述論理あるいはフレーム論理のような、ある数学の論理について基づいて、World Wide Web Consortium(W3C)のような標準化組織は、XML、RDF(Resource Description Framework)やOWL(Web Ontology Language)及びルール言語(例えば、ウェブ・ルール言語(Web
Rule Language)、ルールマークアップ言語(Rule Markup Language))のような、セマンティック技術の採用を進めるための基礎として役立つ標準を積極的に明示している、
また、多くの開発者、企業家および技術者が、意味ベースの知的情報利用の考え方を実現させるために、関連するツールセット、製品、ケーススタディーおよび実際に動作するアプリケーションなどを生み出し展開する段階に入っている。
ontology)を自動的に構築するのはとにかく困難である。言うまでもなく、オントロジの複雑な構成は、あるリアルタイムウェブ・サービスのような、その大規模構造そして広く普及したアプリケーションを阻害した。さらに、オントロジ統合は、人間の相互作用を通して通常実行される。そのため、階層統合のように簡単に実現することができない。
また、N.リウ、C.C.ヤン等による、「ウェブサイト・トピック階層生成へのアプローチに基づくリンク分類」(N. Liu, C.C. Yang, entitled "A link classification based
approach to website topic hierarchy generation" (WWW2007))(非特許文献4)においては、ページ間リンク構成解析に基づいてウェブサイト中のウェブページ間の階層的関係を抽出する方法が提供されている。そして、各ウェブページをトピック・オブジェクトで包み、トピック階層を構築する。
上述した特許文献1及び非特許文献4の開示内容は、専ら参照の目的でここに取り入れられる。
図1Aにおいて示すように、統合オブジェクト階層構築システム100aの中核部分は、オブジェクト階層構築モジュール10aにある。オブジェクト階層構築モジュール10aは、ウェブページ記憶装置108から、ウェブサイトのウェブページ集合を取得し、処理の後、ウェブサイトに対するオブジェクト階層Lを構築し、その後、オブジェクト階層Lをオブジェクト階層記憶装置109に格納する。図示しないウェブサイトクローラアプリケーション(website crawling application)は、インターネットから1つ以上のウェブサイトのウェブページ集合をダウンロードし、階層抽出のためにウェブページ記憶装置108に取得したウェブページを格納する。ウェブページ解析モジュール110は、ウェブページ中のハイパーリンク情報を抽出し、ハイパーリンク記憶装置111に抽出した情報を格納するために、ウェブページ記憶装置108内のウェブページを解析するのに利用される。
図示のように、オブジェクト階層構築モジュール10aは、ウェブページ取得手段101と、ページ間解析手段102と、ページ内解析手段103と、融合手段104およびマッピング手段105とを含んでいる。これらの構成要素に加えて、オブジェクト階層構築モジュール10aは、ページ間解析結果を格納するためのウェブページ階層記憶装置106およびページ内解析結果を格納するための意味的ブロック記憶装置107を含んでいる。
最終的に生成された統合オブジェクト階層は、オブジェクト(例えば、製品)関連であり、各ノードによって表わされるオブジェクトは、ウェブページあるいはウェブページ内の意味ブロックである。
hyperlink)と称する)は、ピア・ツー・ビア勧告を示唆する参照ハイパーリンクと異なると共に、あるページから別のページに対してただショートカットを提供する単なるナビゲーションハイパーリンクとも異なる。代わりに、HLはウェブページ構築のために利用され、ウェブページ間のある種の階層的関係(例えば、全体と一部あるいは親と子)を埋め込む。親ページの意味は、連続するHL(すなわち、HNP)に沿って子ページに継承される。このように、HNPは、その行き先ウェブページのコンテンツ上に意味のある指標を与える。
一例として、階層型ハイパーリンク識別ユニット401は、単なるナビゲーションハイパーリンク(すなわち、HLに付随する雑音情報(例えば、直接又は間接の兄弟間のハイパーリンクや上向きのハイパーリンク))を除去するためのアルゴリズムを採用する。
このアルゴリズムは、1)URL構文の解析と、2)意味的なハイパーリンク解析の2つのステップを含んでいる。
ステップ1は、URL文法(すなわち、ハイパーリンクのソースと行き先のウェブページ間に階層的関係があると識別できるhttp://[host]/[path]/[file]#[fragment]に包含される情報)を利用する。
その後、意味的なハイパーリンク解析のためのステップ2で、ウェブページ集合P1内のウェブページが同じリンク集から生じ、これらのページが共通の下向きのページ集合P2を有する場合、P1が同じ階層的レベルの兄弟ページである確率が高く、かつ、P2が、P1(P1内のページは互いにリンクされている)内に含まれ、あるいはP1と同じ親ページを共有する可能性が高いという、規則が採用される。
従って、P1からP2へのハイパーリンクは非HLであると見なされる。ここで、リンク集とは、1つのウェブページ中に同じレイアウトとプレゼンテーションプロパティを持つリンクの集合を意味する。それは、通常、ページの意味的なブロックのうちの1つを表わす。
上述したアルゴリズムは、単に、階層的ハイパーリンク識別の一例として利用されるものであり、本発明を制限するものではない。
同時に、収集ユニット404は、そのHNPに沿って、URL、アンカー・テキストおよびウェブページタイトルを含むHNP内の言語コンテンツを収集する。
これらの特徴は、後でより詳細に説明する。
layout based method)のようないくつかの既存の方法によって実現することが可能である。これらの既存の方法の詳細はここでは説明しない。意味ブロックの分割の後、階層抽出ユニット503は、意味ブロックの階層を抽出する。その後、タイトル生成ユニット504は、個々の意味ブロックについてタイトルを生成する。
10a:オブジェクト階層構築モジュール
108:ウェブページ記憶装置
109:オブジェクト階層記憶装置
110:ウェブページ解析モジュール
111:ハイパーリンク記憶装置
101:ウェブ・ページ取得手段
102:ページ間解析手段
103:ページ内解析手段
104:融合手段
105:マッピング手段
106:ウェブページ階層記憶装置
107:意味ブロック記憶装置
100b:統合オブジェクト階層構築システム
10b:オブジェクト階層構築モジュール
1051:第1のマッピング手段
1052:第2のマッピング手段
100c:統合オブジェクト階層構築システム
10c:オブジェクト階層構築モジュール
301:オブジェクトタイプ入力手段
302:フィルタ手段
401:階層型ハイパーリンク識別ユニット
402:階層型ナビゲーション経路生成ユニット
403:オブジェクト関連ウェブページ識別ユニット
404:収集ユニット
501:オブジェクト開始ページ選択ユニット
502:ウェブページ分割ユニット
503:階層抽出ユニット
504:タイトル生成ユニット
701:キャリブレーションユニット
702:補完ユニット
703:タイトルマッピングユニット
704:階層関係マッピングユニット
800:コンピュータシステム
801:CPU
802:ユーザインターフェース
803:周辺装置
804:内部バス
805:メモリ
806:外部記憶装置
Claims (22)
- ウェブサイトからウェブページ集合を取得するステップと、
前記ウェブページの階層を抽出するために、取得した前記ウェブページについてページ間解析を行なうステップと、
前記ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した前記各ウェブページについてページ内解析を行なうステップと、
統合的な階層を生成するために、前記意味ブロックの階層を前記ウェブページの階層と融合するステップとを有することを特徴とする階層構築方法。 - 統合的なオブジェクト階層を取得するために、統合的な階層上の各ノードを対応するオブジェクトにマッピングするステップをさらに有することを特徴とする請求項1に記載の階層構築方法。
- 前記ウェブページによって表わされる前記オブジェクトの階層を取得するために、前記ページ間解析の後に、ウェブページの階層上の各ノードを対応するオブジェクトにマッピングするステップと、
前記意味ブロックによって表わされるオブジェクトの階層を取得するために、前記ページ内解析の後に、前記意味ブロックの階層上の各ノードを対応するオブジェクトにマッピングするステップをさらに有し、
前記融合ステップで、統合的なオブジェクト階層を取得するために、前記ウェブページによって表わされるオブジェクトの階層と前記意味ブロックによって表わされるオブジェクトの階層とを融合することを特徴とする請求項1に記載の階層構築方法。 - 前記融合ステップが、
互いの競合を解決するために、前記ウェブページの階層と前記意味ブロックの階層を調整するステップと、
統合的な階層を生成するために、前記意味ブロックの階層に従って、前記ウェブページの階層に、前記意味ブロックを仮想ウェブページとして補完するステップを有することを特徴とする請求項1に記載の階層構築方法。 - 利用者が関心を持つオブジェクトタイプを入力するステップと、
取得した前記ウェブページから、入力された前記オブジェクトタイプを有するオブジェクト関連ウェブページをフィルタリングして取り出すステップとをさらに有し、
前記ページ間解析と前記ページ内解析を前記オブジェクト関連ウェブページ上で実行することを特徴とする請求項1に記載の階層構築方法。 - 前記フィルタリングステップが、
取得した前記ウェブページのハイパーリンクから階層型ハイパーリンクを識別するステップと、
識別した前記階層型ハイパーリンクを参照して、前記各ウェブページについて階層型ナビゲーション経路を生成するステップと、
生成した前記階層型ナビゲーション経路をチェックすることにより、前記オブジェクト関連ウェブページを識別するステップとを有することを特徴とする請求項5に記載の階層構築方法。 - 生成された階層型ナビゲーション経路に沿ってウェブページの言語的コンテンツを収集するステップをさらに含み、
前記チェックステップが、
前記オブジェクト関連ウェブページを識別するために、入力された前記オブジェクトタイプに従って収集したウェブページの前記言語コンテンツを問い合わせるステップを含むことを特徴とする請求項6に記載の階層構築方法。 - 前記ページ内解析を行なうステップが、
意味ブロックを生成するために、前記各ウェブページについてウェブページ分割を行なうステップと、
全ての前記ウェブページについて前記意味ブロックの階層を抽出するステップと、
前記各意味ブロックについてタイトルを生成するステップを含むことを特徴とする請求項1に記載の階層構築方法。 - 前記ページ内解析を行なうステップが、
種々のオブジェクト関連ウェブページに導くハイパーリンクのバンドルを含むオブジェクト開始ページを、取得したウェブページから選択するステップと、
前記意味ブロックを生成するために、選択した前記オブジェクト開始ページについてウェブページ分割を行なうステップと、
前記意味ブロックの階層を抽出するステップと、
前記各意味ブロックについてタイトルを生成するステップとを含むことを特徴とする請求項5に記載の階層構築方法。 - 前記タイトル生成ステップで、
前記タイトルのテキストが前記意味ブロックのリテラルコンテンツ中に含まれていない場合、前記意味ブロックが属するウェブページのページ内コンテキスト及びページ間コンテキストを利用して、前記タイトルを生成することを特徴とする請求項8又は請求項9に記載の階層構築方法。 - 前記マッピングステップが、
前記対応するオブジェクトのタイトルに各ノードのタイトルをマッピングするステップと、
前記オブジェクトの階層関係にノードの階層関係をマッピングするステップを含むことを特徴とする請求項2又は請求項3に記載の階層構築方法。 - ウェブサイトから全てのウェブページを取得するウェブページ取得手段と、
前記ウェブページの階層を抽出するために、取得した前記ウェブページについてページ間解析を行なうページ間解析手段と、
前記ウェブページ中の意味ブロックを識別し、全てのウェブページについて意味ブロックの階層を抽出するために、取得した前記各ウェブページについてページ内解析を行なうページ内析手段と、
統合的な階層を生成するために、前記意味ブロックの階層を前記ウェブページの階層と融合する融合手段とを備えることを特徴とする階層構築システム。 - 統合的なオブジェクト階層を取得するために、統合的な階層上の各ノードを対応するオブジェクトにマッピングするマッピング手段をさらに備えることを特徴とする請求項12に記載の階層構築システム。
- 前記ページ間解析手段に接続され、前記ウェブページによって表わされる前記オブジェクトの階層を取得するために、前記ページ間解析の後に、ウェブページの階層上の各ノードを対応するオブジェクトにマッピングする第1のマッピング手段と、
前記ページ内解析手段に接続され、前記意味ブロックによって表わされるオブジェクトの階層を取得するために、前記ページ内解析の後に、前記意味ブロックの階層上の各ノードを対応するオブジェクトにマッピングする第2のマッピング手段をさらに備え、
前記融合手段が、統合的なオブジェクト階層を取得するために、前記ウェブページによって表わされるオブジェクトの階層と前記意味ブロックによって表わされるオブジェクトの階層とを融合することを特徴とする請求項12に記載の階層構築システム。 - 前記融合手段が、
互いの競合を解決するために、前記ウェブページの階層と前記意味ブロックの階層を調整する調整ユニットと、
統合的な階層を生成するために、前記意味ブロックの階層に従って、前記ウェブページの階層に、前記意味ブロックを仮想ウェブページとして補完する補完ユニットを備えることを特徴とする請求項12に記載の階層構築システム。 - 利用者が関心を持つオブジェクトタイプを入力するオブジェクトタイプ入力手段と、
取得した前記ウェブページから、入力された前記オブジェクトタイプを有するオブジェクト関連ウェブページをフィルタリングして取り出すフィルタ手段とをさらに備え、
前記ページ間解析手段と前記ページ内解析手段が、前記ページ間解析と前記ページ内解析を、前記オブジェクト関連ウェブページ上で実行することを特徴とする請求項12に記載の階層構築システム。 - 前記フィルタ手段が、
取得した前記ウェブページのハイパーリンクから階層型ハイパーリンクを識別する階層型ハイパーリンク識別ユニットと、
識別した前記階層型ハイパーリンクを参照して、前記各ウェブページについて階層型ナビゲーション経路を生成する階層型ナビゲーション経路生成ユニットと、
生成した前記階層型ナビゲーション経路をチェックすることにより、前記オブジェクト関連ウェブページを識別するオブジェクト関連ウェブページ識別ユニットとを備えることを特徴とする請求項16に記載の階層構築システム。 - 前記フィルタ手段が、
生成された階層型ナビゲーション経路に沿ってウェブページの言語的コンテンツを収集する収集ユニットをさらに備え、
前記オブジェクト関連ウェブページ識別ユニットが、
前記オブジェクト関連ウェブページを識別するために、入力された前記オブジェクトタイプに従って収集したウェブページの前記言語コンテンツを問い合わせるステップを含むことを特徴とする請求項17に記載の階層構築システム。 - 前記ページ内解析手段が、
意味ブロックを生成するために、前記各ウェブページについてウェブページ分割を行なうウェブページ分割ユニットと、
全ての前記ウェブページについて前記意味ブロックの階層を抽出する階層抽出ユニットと、
前記各意味ブロックについてタイトルを生成するタイトル生成ユニットを備えることを特徴とする請求項12に記載の階層構築システム。 - 前記ページ内解析手段が、
種々のオブジェクト関連ウェブページに導くハイパーリンクのバンドルを含むオブジェクト開始ページを、取得したウェブページから選択するオブジェクト開始ページ選択ユニットと、
前記意味ブロックを生成するために、選択した前記オブジェクト開始ページについてウェブページ分割を行なうウェブページ分割ユニットと、
前記意味ブロックの階層を抽出する階層抽出ユニットと、
前記各意味ブロックについてタイトルを生成するタイトル生成ユニットとを備えることを特徴とする請求項16に記載の階層構築システム。 - 前記タイトル生成ユニットは、
前記タイトルのテキストが前記意味ブロックのリテラルコンテンツ中に含まれていない場合、前記意味ブロックが属するウェブページのページ内コンテキスト及びページ間コンテキストを利用して、前記タイトルを生成することを特徴とする請求項19又は請求項20に記載の階層構築システム。 - 前記マッピング手段、又は前記第1のマッピング手段と前記第2のマッピング手段が、
前記対応するオブジェクトのタイトルに各ノードのタイトルをマッピングするタイトルマッピングユニットと、
前記オブジェクトの階層関係にノードの階層関係をマッピングする階層関係マッピングユニットとを備えることを特徴とする請求項13又は請求項14に記載の階層構築システム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2008101114822A CN101615178B (zh) | 2008-06-26 | 2008-06-26 | 用于建立对象层次结构的方法和系统 |
| CN200810111482.2 | 2008-06-26 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010061638A true JP2010061638A (ja) | 2010-03-18 |
| JP4975783B2 JP4975783B2 (ja) | 2012-07-11 |
Family
ID=41448762
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009146095A Expired - Fee Related JP4975783B2 (ja) | 2008-06-26 | 2009-06-19 | 階層構築方法および階層構築システム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20090327338A1 (ja) |
| JP (1) | JP4975783B2 (ja) |
| CN (1) | CN101615178B (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015528930A (ja) * | 2012-05-29 | 2015-10-01 | ヴィヴァンス カンパニー、リミテッド | ウェブサイト内部構造の自動抽出システム及び抽出方法 |
Families Citing this family (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8990499B2 (en) * | 2010-03-26 | 2015-03-24 | Amazon Technologies, Inc. | Caching of a site model in a hierarchical modeling system for network sites |
| WO2011123981A1 (en) | 2010-04-07 | 2011-10-13 | Google Inc. | Detection of boilerplate content |
| US8645384B1 (en) * | 2010-05-05 | 2014-02-04 | Google Inc. | Updating taxonomy based on webpage |
| US9317622B1 (en) * | 2010-08-17 | 2016-04-19 | Amazon Technologies, Inc. | Methods and systems for fragmenting and recombining content structured language data content to reduce latency of processing and rendering operations |
| CN102768660B (zh) * | 2011-05-05 | 2014-09-03 | 江苏金鸽网络科技有限公司 | 一种基于动态交互的互联网采集系统模版生成方法 |
| US8751917B2 (en) | 2011-11-30 | 2014-06-10 | Facebook, Inc. | Social context for a page containing content from a global community |
| US9129259B2 (en) * | 2011-12-06 | 2015-09-08 | Facebook, Inc. | Pages: hub structure for related pages |
| CN103885957A (zh) * | 2012-12-20 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 网页信息提取方法及设备 |
| CN104978431B (zh) * | 2015-07-13 | 2019-05-17 | 百度在线网络技术(北京)有限公司 | 网页数据融合方法和装置 |
| CN107102997A (zh) * | 2016-02-22 | 2017-08-29 | 北京国双科技有限公司 | 数据爬取方法及装置 |
| KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
| CN107463661B (zh) * | 2017-07-31 | 2021-04-27 | 绿湾网络科技有限公司 | 数据的导入方法及装置 |
| CN108196831B (zh) * | 2017-12-29 | 2021-03-30 | 广州斯沃德科技有限公司 | 业务系统的构建方法和装置 |
| CN112486355A (zh) * | 2020-11-30 | 2021-03-12 | 维沃移动通信有限公司 | 电子设备的超链接触发方法及装置 |
| US12488180B2 (en) * | 2021-03-30 | 2025-12-02 | Microsoft Technology Licensing, Llc | Systems and methods for generating dialog trees |
| US12105761B2 (en) * | 2022-11-10 | 2024-10-01 | Palo Psifiakes Technologie Epe | System and method for web crawling and content summarization |
| CN115935074B (zh) * | 2023-01-09 | 2023-08-11 | 北京创新乐知网络技术有限公司 | 文章推荐方法、装置、设备及介质 |
| CN116484834A (zh) * | 2023-03-30 | 2023-07-25 | 合肥工业大学 | 基于层次结构的文章分割方法及系统 |
| US12517937B1 (en) * | 2024-07-03 | 2026-01-06 | Dell Products L.P. | Semantic segmentation of data for information retrieval |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002297668A (ja) * | 2001-04-02 | 2002-10-11 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト文書検索方法とその装置及びそのプログラムとこのプログラムを記録した記録媒体 |
| JP2003223390A (ja) * | 2002-01-29 | 2003-08-08 | Fujitsu Social Science Laboratory Ltd | データ抽出・構造変換処理プログラム、コンテンツ生成処理プログラム、データ抽出・構造変換処理プログラム記録媒体、コンテンツ生成処理プログラム記録媒体、およびコンテンツ再構築処理システム |
| US20040093328A1 (en) * | 2001-02-08 | 2004-05-13 | Aditya Damle | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
| JP2005056028A (ja) * | 2003-07-31 | 2005-03-03 | Internatl Business Mach Corp <Ibm> | ナビゲーション生成装置、情報管理装置、ナビゲーション生成方法、サイト構造管理方法、プログラム、およびサイト構造データ |
| JP2005092889A (ja) * | 2003-09-18 | 2005-04-07 | Fujitsu Ltd | ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法 |
| JP2006525601A (ja) * | 2003-05-01 | 2006-11-09 | マイクロソフト コーポレーション | 概念ネットワーク |
Family Cites Families (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5918224A (en) * | 1995-07-26 | 1999-06-29 | Borland International, Inc. | Client/server database system with methods for providing clients with server-based bi-directional scrolling at the server |
| US5826253A (en) * | 1995-07-26 | 1998-10-20 | Borland International, Inc. | Database system with methodology for notifying clients of any additions, deletions, or modifications occurring at the database server which affect validity of a range of data records cached in local memory buffers of clients |
| US6356902B1 (en) * | 1998-07-28 | 2002-03-12 | Matsushita Electric Industrial Co., Ltd. | Method and system for storage and retrieval of multimedia objects |
| US6397231B1 (en) * | 1998-08-31 | 2002-05-28 | Xerox Corporation | Virtual documents generated via combined documents or portions of documents retrieved from data repositories |
| US6654734B1 (en) * | 2000-08-30 | 2003-11-25 | International Business Machines Corporation | System and method for query processing and optimization for XML repositories |
| JP4400147B2 (ja) * | 2003-08-29 | 2010-01-20 | 富士ゼロックス株式会社 | 文書群構造データ作成装置及び方法 |
| US20050071310A1 (en) * | 2003-09-30 | 2005-03-31 | Nadav Eiron | System, method, and computer program product for identifying multi-page documents in hypertext collections |
| US7376643B2 (en) * | 2004-05-14 | 2008-05-20 | Microsoft Corporation | Method and system for determining similarity of objects based on heterogeneous relationships |
| US7596574B2 (en) * | 2005-03-30 | 2009-09-29 | Primal Fusion, Inc. | Complex-adaptive system for providing a facted classification |
| US20070073638A1 (en) * | 2005-09-26 | 2007-03-29 | Bea Systems, Inc. | System and method for using soft links to managed content |
| US7680764B2 (en) * | 2006-06-21 | 2010-03-16 | Oracle International Corporation | Parallel population of an XML index |
| US8108410B2 (en) * | 2006-10-09 | 2012-01-31 | International Business Machines Corporation | Determining veracity of data in a repository using a semantic network |
| WO2009050590A2 (en) * | 2007-05-04 | 2009-04-23 | Bmenu As | Computer-accessible medium, method and system for assisting in navigating the internet |
| US8869023B2 (en) * | 2007-08-06 | 2014-10-21 | Ricoh Co., Ltd. | Conversion of a collection of data to a structured, printable and navigable format |
| US20090063533A1 (en) * | 2007-08-27 | 2009-03-05 | International Business Machines Corporation | Method of supporting multiple extractions and binding order in xml pivot join |
| US20090248707A1 (en) * | 2008-03-25 | 2009-10-01 | Yahoo! Inc. | Site-specific information-type detection methods and systems |
| US7882143B2 (en) * | 2008-08-15 | 2011-02-01 | Athena Ann Smyros | Systems and methods for indexing information for a search engine |
| US8370119B2 (en) * | 2009-02-19 | 2013-02-05 | Microsoft Corporation | Website design pattern modeling |
| US20100241639A1 (en) * | 2009-03-20 | 2010-09-23 | Yahoo! Inc. | Apparatus and methods for concept-centric information extraction |
-
2008
- 2008-06-26 CN CN2008101114822A patent/CN101615178B/zh not_active Expired - Fee Related
-
2009
- 2009-06-19 JP JP2009146095A patent/JP4975783B2/ja not_active Expired - Fee Related
- 2009-06-25 US US12/491,573 patent/US20090327338A1/en not_active Abandoned
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040093328A1 (en) * | 2001-02-08 | 2004-05-13 | Aditya Damle | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
| JP2002297668A (ja) * | 2001-04-02 | 2002-10-11 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト文書検索方法とその装置及びそのプログラムとこのプログラムを記録した記録媒体 |
| JP2003223390A (ja) * | 2002-01-29 | 2003-08-08 | Fujitsu Social Science Laboratory Ltd | データ抽出・構造変換処理プログラム、コンテンツ生成処理プログラム、データ抽出・構造変換処理プログラム記録媒体、コンテンツ生成処理プログラム記録媒体、およびコンテンツ再構築処理システム |
| JP2006525601A (ja) * | 2003-05-01 | 2006-11-09 | マイクロソフト コーポレーション | 概念ネットワーク |
| JP2005056028A (ja) * | 2003-07-31 | 2005-03-03 | Internatl Business Mach Corp <Ibm> | ナビゲーション生成装置、情報管理装置、ナビゲーション生成方法、サイト構造管理方法、プログラム、およびサイト構造データ |
| JP2005092889A (ja) * | 2003-09-18 | 2005-04-07 | Fujitsu Ltd | ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015528930A (ja) * | 2012-05-29 | 2015-10-01 | ヴィヴァンス カンパニー、リミテッド | ウェブサイト内部構造の自動抽出システム及び抽出方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4975783B2 (ja) | 2012-07-11 |
| US20090327338A1 (en) | 2009-12-31 |
| CN101615178B (zh) | 2013-01-09 |
| CN101615178A (zh) | 2009-12-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4975783B2 (ja) | 階層構築方法および階層構築システム | |
| Elgazzar et al. | Clustering wsdl documents to bootstrap the discovery of web services | |
| US20170242934A1 (en) | Methods for integrating semantic search, query, and analysis and devices thereof | |
| JP5392077B2 (ja) | オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム | |
| CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
| US10671584B2 (en) | Identifying unvisited portions of visited information | |
| KR20130060720A (ko) | 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법 | |
| JP2019537128A (ja) | 複数のデータ表現間の類似性を識別するための方法およびシステム | |
| CN103955529A (zh) | 一种互联网信息搜索聚合呈现方法 | |
| JP2009104591A (ja) | ウェブ文書クラスタリング方法およびシステム | |
| JP2006525601A (ja) | 概念ネットワーク | |
| JP2010170529A (ja) | オブジェクト分類方法およびオブジェクト分類システム | |
| JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
| US20090083266A1 (en) | Techniques for tokenizing urls | |
| Kumar | World towards advance web mining: A review | |
| TW201415254A (zh) | 語意標註建議方法及其系統 | |
| Jou | Schema extraction for deep web query interfaces using heuristics rules | |
| KR20100070084A (ko) | 대용량 온톨로지에서 사용자 질의 관련 지식을 실시간으로 검색하기 위한 장치 및 그 방법 | |
| Aranda-Corral et al. | Reconciling knowledge in social tagging web services | |
| KR101272377B1 (ko) | 시맨틱 클라우드에 기반한 시맨틱 어노테이션 방법 및 장치 | |
| KR20100003084A (ko) | 온톨로지 부분 그래프 추출 장치 및 그 방법과, 그를이용한 검색 사용자 질의와 온톨로지의 의미적 매칭 장치및 그 방법 | |
| Kamath et al. | Similarity analysis of service descriptions for efficient Web service discovery | |
| TWI442249B (zh) | Domain Knowledge Network Construction Method and Its System | |
| KR20070037809A (ko) | 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법 | |
| Annalakshmi et al. | Structuring of Web Pages using XML Framework for Information Filtering |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111028 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111110 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120208 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120411 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |