JP4160578B2 - ウェブデータベースのスキーママッチングの方法およびシステム - Google Patents

ウェブデータベースのスキーママッチングの方法およびシステム Download PDF

Info

Publication number
JP4160578B2
JP4160578B2 JP2005139882A JP2005139882A JP4160578B2 JP 4160578 B2 JP4160578 B2 JP 4160578B2 JP 2005139882 A JP2005139882 A JP 2005139882A JP 2005139882 A JP2005139882 A JP 2005139882A JP 4160578 B2 JP4160578 B2 JP 4160578B2
Authority
JP
Japan
Prior art keywords
attribute
global
schema
interface
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005139882A
Other languages
English (en)
Other versions
JP2006004411A (ja
JP2006004411A5 (ja
Inventor
ウェン ジー−ロン
マ ウェイ−イン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006004411A publication Critical patent/JP2006004411A/ja
Publication of JP2006004411A5 publication Critical patent/JP2006004411A5/ja
Application granted granted Critical
Publication of JP4160578B2 publication Critical patent/JP4160578B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、全体として、ウェブデータベースのスキーマ(schema)を決定することに関する。
ワールドワイドウェブ(「ウェブ」)は、ウェブページを通じてアクセス可能な大量の情報を提供する。ウェブページは、静的コンテンツと動的コンテンツ(dynamic content)のいずれも含み得る。静的コンテンツとは一般に、ウェブページへの多数回のアクセスにわたって同一のままであり得る情報を指す。動的コンテンツとは一般に、ウェブデータベースに記憶され、検索要求に応答してウェブページに付加される情報を指す。動的コンテンツは、深層ウェブあるいは隠れたウェブ(hidden web)と呼ばれてきたものを表す。
多くの検索エンジンサービスにより、ユーザは、ウェブの静的コンテンツを検索することができる。ユーザが、検索タームを含む検索要求あるいはクエリ(問合せ)をサブミット(投入、提出)した後、検索エンジンサービスは、それらの検索タームに関係している可能性のあるウェブページを識別する。これらのウェブページが検索結果である。関係するウェブページを迅速に識別するため、検索エンジンサービスは、キーワードからウェブページへのマッピングを維持管理することができる。このマッピングは、ウェブを「クロール」して各ウェブページのキーワードを識別することにより生成できる。ウェブをクロールするため、検索エンジンサービスは、ルートウェブページのリストを用い、それらのルートウェブページを通じてアクセス可能なすべてのウェブページを識別できる。個々のウェブページのキーワードは、見出しの語、ウェブページのメタデータに提供された語、強調表示された語等を識別するというような、種々の周知の情報検索技法を用いて識別することができる。
しかし、これらの検索エンジンサービスは一般に、動的コンテンツを検索するようになっていない。動的コンテンツは、クロール不能コンテンツともみなされている。動的コンテンツを検索する場合の1つの問題点として、ウェブデータベースを提供するウェブサイトの協力なしには、対応するウェブデータベースのスキーマを直接取得することが困難または不可能なことがある。スキーマは、データベースに記憶される情報すなわち属性を定義する。例えば、書店のウェブデータベースは、各書籍のタイトル属性および著者属性を含む書籍のカタログ(すなわちウェブデータベース)のスキーマを有するであろう。スキーマが未知の場合、検索エンジンサービスがウェブデータベースのコンテンツをクロールして、どの情報が検索に利用可能かを判定することが非常に困難となる。ウェブデータベースのスキーマが既知であっても、検索エンジンサービスは依然として、ウェブデータベースをクロールしてそのコンテンツを読み出す方法を決定する必要がある。検索エンジンがウェブデータベースのコンテンツを読み出すことができたとしても、検索エンジンサービスは依然として、異なるスキーマの属性が意味的に等価な属性を表す場合を識別する必要がある。例えば、書籍がペーパーバック、ハードカバー、またはコンパクトディスクのいずれであるかを明記したカタログを書店ウェブサイトが有しているとする。ある書店のウェブサイトではこの属性を「type」(タイプ)と名付け、別の書店のウェブサイトでは同じ属性を「format」(形態)と名付けているかもしれない。複数のウェブサイトにわたって動的コンテンツを効果的に検索できるためには、検索エンジンサービスは、ウェブデータベースの属性の意味すなわちセマンティクスを知る必要がある。
S.カスタノ(S. Castano)、V.アントネリス(V. Antonellis)、S.ヴィメルカティ(S. Vimercati)、「異種データソースのグローバルな閲覧(Global Viewing of Heterogeneous Data Sources)」、IEEE Trans. Data and Knowledge Eng.、第13巻、第2号、2001年 B.ヘー(B. He)、C.C.チャン(C. C. Chang)、「ウェブクエリインタフェース間の統計的スキーママッチング(Statistical Schema Matching across Web Query Interfaces)」、Proc. ACM SIGMOD Conf.、2003年 F.ハキンプル(F. Hakimpour)、A.ゲッパート(A. Geppert)、「形式オントロジを用いたグローバルスキーマ生成(Global Schema Generation Using Formal Ontologies)」、Proc. 21st Conf. on Conceptual Modeling、2002年 A.アラス(A. Arasu)、H.ガルシア=モリナ(H. Garcia-Molina)、「ウェブページから構造化データを抽出する(Extracting Structured Data from Web Pages)」、Proc. ACM SIGMOD Conf.、2003年 C.H.チャン(C. H. Chang)、S.C.ルイ(S. C. Lui)、「IEPAD:パターン発見に基づく情報抽出(IEPAD: Information Extraction based on Pattern Discovery)」、Proc. 10th World Wide Web Conf.、p.681-688、2001年 V.クレセンツィ(V. Crescenzi)、G.メッカ(G. Mecca)、P.メリアルド(P. Merialdo)、「ROADRUNNER:大規模ウェブサイトからの自動データ抽出に向けて(ROADRUNNER: Towards Automatic Data Extraction from Large Web Sites)」、Proc. 27th VLDB. Conf.、p.109-118、2001年 J.ワン(J. Wang)、F.ロチョフスキ(F. Lochovsky)、「ウェブデータベースのためのデータ抽出およびラベル割当て(Data Extraction and Label Assignment for Web Databases)」、Proc. 12th World Wide Web Conf.、p.187-196、2003年
ウェブデータベースに関連するスキーマを自動的に識別する技法を実現し、異なるスキーマの同じ意味内容を表す属性を識別することが望ましい。
ウェブデータベースのスキーマを識別する方法およびシステムが提供される。スキーママッチングシステムが、ウェブデータベースのインタフェーススキーマと結果スキーマとの間のマッピングを生成し、これを用いて、基礎となるデータベーススキーマを表現する。また、スキーママッチングシステムは、ウェブデータベースのインタフェース属性および結果属性(result attribute)から、セマンティクスが既知であるグローバルスキーマのグローバル属性へのマッピングも生成する。これらのマッピングを用いることで、検索エンジンサービスは、グローバル属性を用いてクエリを作成し、それらのクエリを対応するインタフェース属性にマッピングし、クエリをサブミットし、目的のグローバル属性に対応する結果属性から値を読み出すことができる。
ウェブデータベースのスキーマを識別する方法およびシステムが提供される。一実施形態では、スキーママッチングシステムが、ウェブデータベースのインタフェーススキーマと結果スキーマとの間のマッピングを生成し、これを用いて、基礎となるデータベーススキーマを表現する。ウェブデータベースのインタフェーススキーマは、検索に使用可能なデータベースの属性を表す。ウェブデータベースの結果スキーマは、検索結果の一部として表示されるデータベースの属性を表す。マッピングは、どのインタフェース属性がどの結果属性と同じ意味を有する(対応する、あるいはマッチするともいう)かを示す。また、スキーママッチングシステムは、ウェブデータベースのインタフェース属性および結果属性から、セマンティクスが既知であるグローバルスキーマのグローバル属性へのマッピングも生成する。これらのマッピングを用いることで、検索エンジンサービスは、グローバル属性を用いてクエリを作成し、それらのクエリを対応するインタフェース属性にマッピングし、クエリをサブミットし、目的のグローバル属性に対応する結果属性から値を読み出すことができる。このようにして、スキーママッチングシステムは、ウェブデータベースを検索するために使用可能なウェブデータベースのスキーマを識別する。
図1は、書店のウェブデータベースの種々のスキーマを例示する図である。ウェブデータベースは、データベーススキーマ101、インタフェーススキーマ102、および結果スキーマ103を含む。データベーススキーマは、ウェブデータベースの基礎となるスキーマを表し、この例では、タイトル(Title)、著者(Author)、出版社(Publisher)、ISBN、形態(Format)、および発行日(Publication Date)という属性を含む。ウェブサイトは、ユーザが書籍を検索するために訪れることができる検索ウェブページを提供する。このウェブデータベースのインタフェーススキーマは、タイトル、著者、形態、およびISBNという属性を含む。ユーザは、書籍データベースを検索するために、インタフェース属性の任意の組合せに対する検索文字列を指定できる。ウェブページの「Your Search」(あなたの検索)フィールドにより、ユーザは、ウェブデータベースのすべての属性において検索ができる。検索の結果は結果ウェブページに表示される。このウェブデータベースの結果スキーマは、タイトル、著者、出版社、形態、および発行日を含む。検索の結果は通常、検索要求にマッチするデータベースの各エントリごとに複数のエントリを提供する。結果の各エントリは通常、結果属性のそれぞれに対する値を含む。この例では、インタフェーススキーマは、結果スキーマに含まれない属性(すなわちISBN)を有し、結果スキーマは、インタフェーススキーマに含まれない属性(すなわち発行日)を有する。
ウェブデータベースのためにインタフェーススキーマおよび結果スキーマを用いることに加えて、スキーママッチングシステムは、ドメイン(領域、範囲)固有のグローバル(包括的な)スキーマも使用する。ドメインのグローバルスキーマは、そのドメイン内でウェブデータベースによって一般的に使用される属性の集合を表す。例えば、書籍のドメイン内のウェブデータベースは通常、タイトル、著者、および出版社等の属性を有し、自動車のドメイン内のウェブデータベースは通常、車名、型式、および年式等の属性を有する。また、グローバルスキーマは、それに関連するサンプルグローバル属性値を有してもよい。例えば、書籍ドメインの出版社属性は、「Random House」および「MIT Press」等のグローバル属性値を有してもよい。
マッピングを生成するため、スキーママッチングシステムは、まず、ウェブデータベースのドメインに対するグローバルスキーマと、ウェブデータベースのインタフェーススキーマおよび結果スキーマを識別する。(これらのスキーマを識別するための技法については後述する。)スキーママッチングシステムは、グローバル属性のグローバル属性値から(例えば値集合のサンプルから)クエリを生成し、インタフェースウェブページ経由でウェブデータベースへそれらのクエリをサブミットする(例えば、検索ウェブページ経由でクエリのサブミットに対応するHTTP要求を送信する)。スキーママッチングシステムは、結果ウェブページによって提示される結果を分析することにより、どのインタフェース属性がどの結果属性に対応するか(「インタフェース−結果対応」)、どのグローバル属性がどのインタフェース属性に対応するか(「グローバル−インタフェース対応」)、および、どのグローバル属性がどの結果属性に対応するか(「グローバル−結果」対応)を判定する。インタフェーススキーマおよび結果スキーマは単一のウェブサイトのスキーマに対応するので、これらの対応は「サイト内」マッチングと呼ばれる。スキーママッチングシステムは、結果属性の値が、検索時に用いられたインタフェース属性の値といつマッチするかに基づいて、インタフェース属性が結果属性に対応するかどうかを識別する。例えば、タイトルインタフェース属性に「Harry Potter」という値が与えられている場合、結果の多くのエントリが、タイトル結果属性に「Harry Potter」という値を有すると考えられる。これに対して、著者インタフェース属性に「Harry Potter」という値を与えて検索すると、結果のほんの少しのエントリのみが、タイトル結果属性に「Harry Potter」という値を有すると考えられる。このように、タイトルインタフェース属性はタイトル結果属性に対応する可能性が高いが、著者インタフェース属性はタイトル結果属性に対応しない可能性が高い。
一実施形態では、スキーママッチングシステムは、異なるウェブサイトのインタフェーススキーマと結果スキーマとの間のマッピングを生成することも可能である。スキーママッチングシステムは、上記のようにサブミットしたクエリの結果を分析し、あるウェブサイトのスキーマのどのインタフェース属性が別のウェブサイトのスキーマのどのインタフェース属性に対応するか(「インタフェース−インタフェース対応」)、および、あるウェブサイトのスキーマのどの結果属性が別のウェブサイトのスキーマのどの結果属性に対応するか(「結果−結果対応」)を識別する。例えば、スキーママッチングシステムは、あるウェブサイトのタイプ(type)インタフェース属性が別のウェブサイトの形態(format)インタフェース属性に対応するであろうと識別するかもしれない。これらの対応は、異なるウェブサイト間でスキーマがマッチングされるので、「サイト間」マッチングと呼ばれる。サイト間(inter-site)マッチング情報は、ドメイン内の複数のウェブデータベースを検索する際に使用可能である。また、サイト間マッチング情報は、サイト内(intra-site)マッチングが正しいかどうかの検証を助けるためにも使用可能である。
図2は、一実施形態におけるサイト内およびサイト間のマッチングを示している。楕円202は、書籍ドメイン内のウェブデータベースに関係するスキーマを表す。各サイト1〜Nが、インタフェーススキーマ(「IS」)および結果スキーマ(「RS」)を有し、ドメインはグローバルスキーマ(「GS」)を有する。スキーマの表現の間の線は、サイト内およびサイト間のマッチングを表す。例えば、サイト1のISとGSとの間の線はサイト内のグローバル−インタフェース対応を表し、サイト1のISとサイト1のRSとの間の線は、サイト内のインタフェース−結果対応を表し、サイト1のISとサイト2のISとの間の線は、サイト1とサイト2の間のサイト間のインタフェース−インタフェース対応を表す。
一実施形態では、スキーママッチングシステムは生起キューブ(occurrence cube)を生成する。生起キューブは、グローバル属性、ウェブデータベースのインタフェース属性および結果属性のそれぞれの組合せについて、そのグローバル属性に対するあるグローバル属性値が検索時にそのインタフェース属性の値として使用される場合に、当該グローバル属性値がその結果属性に現れる回数を識別する。各インタフェース属性に対して、スキーママッチングシステムは複数のクエリをサブミットする。各クエリは、そのインタフェース属性の値が、異なるグローバル属性値にセットされる。例えば、グローバル属性が、ペーパーバック、ハードカバー、およびコンパクトディスクという値をとる形態属性と、Rowlingという値をとる著者属性とを含む場合、スキーママッチングシステムは、タイトル属性をペーパーバックにセットしたクエリと、タイトル属性をハードカバーにセットしたクエリと、タイトル属性をコンパクトディスクにセットしたクエリと、タイトル属性をRowlingにセットしたクエリとをサブミットする。他のそれぞれのインタフェース属性について、スキーママッチングシステムは、ペーパーバック、ハードカバー、コンパクトディスク、およびRowlingというグローバル属性値に対するクエリをサブミットする。各クエリ結果に対し、スキーママッチングシステムは、クエリのグローバル属性値が各結果属性の値として現れる回数をカウントする。例えば、タイトルインタフェース属性をペーパーバックにセットしたクエリをサブミットした場合、マッチがほとんどまたは全く見つからない可能性が高い。これは、タイトルインタフェース属性が形態グローバル属性にマッチしないだろうということを示す。これに対して、形態インタフェース属性をペーパーバックにセットしたクエリをサブミットした場合、多くのマッチが見つかり、検索ターム「ペーパーバック」が、形態結果属性における結果の多くのエントリに見つかる可能性が高い。これは、形態グローバル属性、形態インタフェース属性、および形態結果属性が互いに対応する可能性が高いことを示す。特定のグローバル属性、インタフェース属性、および結果属性の組合せが、特に他の組合せに比べてカウントが高いことは、それらの属性が対応している可能性、すなわち、それらが同じ意味内容を表す可能性が高いことを示していると考えられる。
生起キューブを生成した後、スキーママッチングシステムは、グローバル−インタフェース対応、グローバル−結果対応、およびインタフェース−結果対応に対する生起行列を作成する。一実施形態では、スキーママッチングシステムは、生起キューブの1次元を平面上に射影することによって生起行列を作成する。グローバル−インタフェース対応に対する生起行列を生成するため、スキーママッチングシステムは、グローバル属性とインタフェース属性のそれぞれの組合せに対するすべての結果属性の生起カウントの和をとる。スキーママッチングシステムは、グローバル−結果対応およびインタフェース−結果対応に対する生起行列を同様に生成する。表1は、グローバル−インタフェース対応に対する生起行列の一例である。
Figure 0004160578
カウントの大きさは、対をなす属性間の対応の指標であるが、絶対的大きさよりも相対的大きさのほうがマッチの重要な指標である。特に、生起カウントが高くても、対応する属性を表していない可能性がある。例えば、著者ISと出版社GSに対する行列要素(534)はこの行列における最高値であるが、著者ISと出版社GSは意味的に互いに対応しない。一般に、与えられた特定の行列要素mijに対して、そのインタフェース属性iおよびグローバル属性jに対するすべての要素のうちでの相対的大きさのほうが、その絶対的大きさよりも重要である。例えば、キーワードISは、「Your Search」フィールドを含むと考えられ、書籍ドメインの真の属性ではないが、すべてのグローバル属性について類似のパフォーマンスを有する。このことは、グローバル属性のいずれについても良好なマッチではない可能性があることを示す。出版社ISと出版社GSの要素(468)は、出版社GSに対する要素のうちで最高ではない。しかし、出版社ISに対する他の要素よりも相対的に大きい。
属性のどの対が対応するかを識別するため、スキーママッチングシステムは、属性対の相互情報量を推定する。相互情報量は、相互エントロピーおよび情報利得とも呼ばれる。スキーママッチングシステムは、各スキーマを考慮して、スキーマの属性によるウェブデータベースの分割を表現する。最も重なりの大きい分割を有する異なるスキーマからの属性の対が、対応する可能性が高い。一実施形態では、スキーママッチングシステムは、次式に従って、属性対の相互情報量を推定する。
Figure 0004160578
ここで、EMIは、スキーマSのi番目の属性S1iとSのj番目の属性S2jとの間の推定相互情報量であり、Mは
Figure 0004160578
であり、mi+
Figure 0004160578
であり、m+j
Figure 0004160578
である。表1の生起行列に対するEMI行列を表2に示す。
Figure 0004160578
スキーママッチングシステムは、あるEMI行列要素が、同じインタフェース属性に対して(すなわち同じ行において)他の要素よりも大きく、しかも同じグローバル属性に対して(すなわち同じ列において)他の要素よりも大きい場合に、属性間のマッチを検出する。対応する属性は、矩形で示したように、相互間の情報量の重なりが、相手スキーマの他の属性との重なりよりも大きい。例えば、著者ISと著者GSに対するEMI行列要素(すなわち0.11)は、著者インタフェース属性および著者グローバル属性の両方について最大のものであるので、これは正しいマッチである。属性のマッチは次式で表現される。
Figure 0004160578
ここでMAPは、スキーマSのi番目の属性がスキーマSのj番目の属性とマッチするかどうかを示し、eijは、スキーマSのi番目の属性とスキーマSのj番目の属性に対するEMI行列要素である。
一実施形態では、スキーママッチングシステムは異なるウェブデータベースの属性間のマッチを識別する。スキーママッチングシステムは、ウェブデータベースの対応する生起行列のベクトル間の類似度に基づいてマッチを識別する。例えば、表3は、スキーマSに対するグローバル−インタフェース生起行列を表し、表4は、スキーマSに対するグローバル−インタフェース生起行列を表す。グローバルスキーマGSは{タイトル(T),著者(A),出版社(P),ISBN(I)}であり、サイト1のインタフェーススキーマISは{著者(A),タイトル(T),出版社(P),キーワード(K),ISBN(I)}であり、サイト2のインタフェーススキーマISは{タイトル(T),著者(A),ISBN(I)}である。
Figure 0004160578
Figure 0004160578
属性A1は、表3の第1行のベクトルで表され、属性A2は、表4の第2行のベクトルで表される。スキーママッチングシステムは、次式を用いて2つの属性間の類似度を計算する。
Figure 0004160578
ここで、EVSは、スキーマSのi番目の属性とSのj番目の属性との間の推定ベクトル類似度であり、aikはスキーマSに対する生起行列の値を表し、bjkはスキーマSに対する生起行列の値を表す。
表5は、表3および表4から導出された推定ベクトル類似度を表す。
Figure 0004160578
スキーママッチングシステムは、あるEVS行列要素が、一方のウェブサイトの同じインタフェース属性に対して他の要素よりも大きく、しかも他方のウェブサイトの同じインタフェース属性に対して他の要素よりも大きい場合に、属性間のマッチを検出する。表5の矩形は、行および列の両方についての最大の類似度値を示し、同時に正しいマッチングも示している。ISの2番目の属性である著者は、GSの出版社と誤ってマッチングされているが、スキーママッチングシステムはサイト間マッチングを用いてマッチングを訂正する。
一実施形態では、スキーママッチングシステムは、グローバル−インタフェース対応、グローバル−結果対応、インタフェース−結果対応、インタフェース−インタフェース対応、および結果−結果対応を相互検証することにより、誤りの可能性があるマッチを識別し訂正する。スキーママッチングシステムは、インタフェース属性を(そして同様に結果属性も)、それらがマッチする相手のグローバル属性に基づいて複数のクラスタへとクラスタ化する。例えば、ある特定のグローバル属性にマッチした種々のウェブデータベースの属性が1つのクラスタを表す。このクラスタ化はサイト内(intra-site)マッチングに基づく。サイト間(inter-site)マッチングを用いてクラスタ(cluster;集団)を相互検証することも可能である。サイト内およびサイト間のマッチングが完全に正しいとすれば、ウェブデータベースの各属性は、他のウェブデータベースの同一クラスタ内にある属性のみにマッピングされるであろう。すなわち、ウェブデータベースの属性は、相互に、およびグローバル属性に、整合的にマッピングされるであろう。一実施形態では、スキーママッチングシステムは、ウェブデータベーススキーマの属性を頂点として表し、サイト間マッチングをそれらの頂点間の辺として表す。スキーママッチングシステムは、辺切断が最小になるように頂点を分割する。辺切断は、分割間のすべての辺の重みの和である(例えば、各辺は同じ重みを有する)。辺切断を最小化することにより、スキーママッチングシステムは、異なるクラスタの頂点間の辺数を最小化する。
一実施形態では、スキーママッチングシステムは、初期クラスタを初期分割として用い、切断数が減少する限りはあるクラスタから別のクラスタへ頂点を移動することによって、辺切断の最小化を近似する。一般に、頂点は、その隣接頂点の大部分が存在するクラスタに移動される。隣接頂点間には辺がある。頂点は、その隣接頂点の多くが移動される場合には移動される必要があるので、スキーママッチングシステムは、辺切断が局所最適値に収束するように複数のパスを使用してもよい。辺切断が収束したら、スキーママッチングシステムは、2つのクラスタCおよびCに含まれるサイトSの属性AとサイトSの属性Bの間のクラスタ間マッチを捨てることによってそのクラスタ間マッチングを解消し、Cにクラスタ化されたサイトSの属性BにAをマッチングし直す。他方のクラスタについても同様である。
図3は、一実施形態におけるスキーママッチングシステムの分割の1つのパスを示している。この例では、グローバルスキーマは2つの属性{著者,出版社}を含み、5個のウェブデータベースは、IS属性IS={A}、IS={B,B}、IS={C,C}、IS={D,D}、およびIS={E,E}を含む。クラスタ301および302は、(サイト内マッチングにより)マッチする相手がどのグローバル属性であるかに基づく属性(頂点で表す)の初期クラスタを示し、対をなす属性間の辺は、それらの属性が(サイト間マッチングにより)マッチしていることを示す。初期状態では、Aは、出版社グローバル属性に誤ってマッチングされており、誤ってBにもマッチングされているが、著者カテゴリ内の他の3個の属性には正しくマッチングされている。したがって、スキーママッチングシステムは、クラスタ間の辺数を3から1に減らすようにAを移動する。移動は、Aのマッチング相手の属性を出版社グローバル属性から著者グローバル属性に訂正する。この移動後、スキーママッチングシステムは、AとBの間の辺を除去し、AとB(著者グローバル属性にマッチングされているサイト2の属性)の間の新たな辺を追加する。クラスタ311および312は、訂正された対応を表す。
グローバルスキーマ、インタフェーススキーマ、および結果スキーマは、種々の技法を用いて識別できる。グローバルスキーマを識別するためのいくつかの技法として、属性名および要素の構造に基づくものがある。(非特許文献1および非特許文献2を参照。これらは参照により本明細書に援用される。)他の技法として、形式オントロジに基づくものがある。(非特許文献2および非特許文献3を参照。これらは参照により本明細書に援用される。)サンプルグローバル属性値は、種々のサンプルウェブデータベースから収集することも、手作業で生成することも可能である。ウェブデータベースのインタフェーススキーマは、HTML仕様により定義されるクエリウェブページの入力関連タグから識別できる。結果スキーマを識別するためのいくつかの技法として、ラッパ(wrapper)を生成することで、動的テンプレートにより生成されたウェブページから、埋め込まれた半構造化データ内容を抽出することがある。(非特許文献4〜非特許文献7を参照。これらは参照により本明細書に援用される。)ある技法では、HTMLページ内のネストされた繰り返しパターンの発見に基づいて正規表現ラッパを生成する。(非特許文献7を参照。これは参照により本明細書に援用される。)当業者には理解されるように、これらのスキーマのそれぞれが、手動で、または手動手段と自動手段の組合せによって識別されることも可能である。
図4は、一実施形態におけるスキーママッチングシステムのコンポーネントを示すブロック図である。スキーママッチングシステム410は、通信リンク402経由で種々のウェブデータベースサイト401に接続される。スキーママッチングシステムは、サイト内マッチングコンポーネント411、サイト間マッチングコンポーネント412、相互検証(クロス確認)コンポーネント413、キューブ生成コンポーネント414、キューブ射影(project)コンポーネント415、EMI計算コンポーネント416、およびマッチング行列生成コンポーネント417を含む。また、スキーママッチングシステムは、キューブ記憶部421、射影(projection)記憶部422、EMI記憶部423、およびマッチング記憶部424を含む。サイト内マッチングコンポーネントは、キューブ生成コンポーネントを呼び出すことにより生起キューブを生成し、キューブ射影コンポーネントを呼び出すことによりグローバル−インタフェース生起行列、グローバル−結果生起行列、およびインタフェース−結果生起行列を生成する。また、サイト内マッチングコンポーネントは、EMI計算コンポーネントを呼び出すことにより、生起行列に基づいて推定相互情報量を計算し、マッチング行列生成コンポーネントを呼び出すことにより、属性のどの対がマッチするかを識別する。サイト間マッチングコンポーネントは、生起行列を用いて推定ベクトル類似度を計算し、マッチング行列生成コンポーネントを呼び出すことによりマッチを識別する。相互検証コンポーネントは、誤ってマッチングされていると見られる属性についてマッチングを変更する。キューブ記憶部は生起キューブを含み、射影記憶部は生起行列を含み、EMI記憶部はEMI行列を含み、マッチング記憶部はマッチング行列を含む。
スキーママッチングシステムが実施されるコンピューティング装置は、中央処理ユニット、メモリ、入力装置(例えば、キーボードおよびポインティングデバイス)、出力装置(例えばディスプレイ装置)、および記憶装置(例えばディスクドライブ)を含み得る。メモリおよび記憶装置は、スキーママッチングシステムを実装する命令を含み得るコンピュータ可読媒体である。さらに、通信リンク上の信号のようなデータ伝送媒体によって、データ構造およびメッセージ構造が記憶または伝送されてもよい。インターネット、ローカルエリアネットワーク、広域ネットワーク、またはポイントツーポイント型ダイヤルアップ接続のような種々の通信リンクが使用可能である。
スキーママッチングシステムは、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサ方式のシステム、プログラム可能な消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたは装置のいずれかを含む分散コンピューティング環境等、を含む種々のオペレーティング環境で実施可能である。
スキーママッチングシステムは、1つまたは複数のコンピュータ等の装置によって実行されるプログラムモジュール等のコンピュータ実行可能命令との一般的関連で説明される。一般的に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。通常、プログラムモジュールの機能は、種々の実施形態において望み通りに組み合わされ、または分散され得る。
図5は、一実施形態におけるサイト内マッチングコンポーネントの処理を示す流れ図である。このコンポーネントは、ウェブデータベースについてグローバル−インタフェース対応、グローバル−結果対応、およびインタフェース−結果対応を識別する。ブロック501で、コンポーネントは、キューブ生成コンポーネントを呼び出すことにより生起キューブを生成する。ブロック502〜506で、コンポーネントは、スキーマの対(すなわち、グローバルとインタフェース、グローバルと結果、そしてインタフェースと結果)を選択することを繰り返し、各対の対応を表すマッチング行列を生成する。ブロック502で、コンポーネントは、次のスキーマ対を選択する。判断ブロック503で、すべてのスキーマ対が既に選択されている場合、コンポーネントは終了し、そうでない場合、コンポーネントはブロック504に進む。ブロック504で、コンポーネントは、キューブ射影コンポーネントを呼び出すことにより、選択したスキーマ対に対する生起行列を生成する。ブロック505で、コンポーネントは、EMI計算コンポーネントを呼び出すことにより、選択したスキーマ対の属性対の相互情報量を推定する。ブロック506で、コンポーネントは、マッチング行列生成コンポーネントを呼び出すことにより、選択したスキーマ対の属性対応を示すマッチング行列を生成する。そして、コンポーネントはブロック502にループして次のスキーマ対を選択する。
図6は、一実施形態におけるキューブ生成コンポーネントの処理を示す流れ図である。このコンポーネントは、グローバルスキーマ、インタフェーススキーマ、および結果スキーマに基づいて、ウェブデータベースの生起キューブを生成する。生起キューブは、グローバル属性、インタフェース属性、および結果属性のそれぞれの組合せをカウントにマッピングする3次元行列である。カウントは、そのインタフェース属性がそのグローバル属性のあるグローバル属性値にセットされたクエリに対する結果エントリが、その結果属性においてそのグローバル属性値を有した回数である。ブロック601で、コンポーネントは、次のグローバル属性(GA)を選択する。判断ブロック602で、すべてのグローバル属性が既に選択されている場合、コンポーネントは復帰し、そうでない場合、コンポーネントはブロック603に進む。ブロック603で、コンポーネントは、選択したグローバル属性に対する次のグローバル属性値(GAV)を選択する。判断ブロック604で、選択したグローバル属性に対するすべてのグローバル属性値が既に選択されている場合、コンポーネントはブロック601にループして次のグローバル属性を選択し、そうでない場合、コンポーネントはブロック605に進む。ブロック605〜609で、コンポーネントは、各インタフェース属性を選択し、そのインタフェース属性が選択したグローバル属性値にセットされたクエリをサブミットすることを繰り返す。当業者には理解されるように、一部のインタフェース属性に対する値のドメインが制限されることがある。例えば、インタフェース属性がHTMLのSELECT要素で表されている場合、その値のドメインは、関連するOPTION要素の値に制限されることがある。このような場合、コンポーネントは、オプション値に「類似」するグローバル属性値に対するクエリのみをサブミットしてもよい。グローバル属性値は、それがオプション値を含む場合に類似しているとみなし得る。当業者には理解されるように、他の類似性の尺度を用いてもよい。CHECKBOX要素およびRADIOBOX要素に対するクエリは同様に処理できる。TEXTBOXに対する値のドメインは未知のことがあるので、コンポーネントは、TEXTBOXによって表されるインタフェース属性に対するすべてのグローバル属性値を用いて網羅的にクエリをサブミットしてもよい。一実施形態では、コンポーネントは、各クエリごとにただ1つのインタフェース属性に対する値をセットする。他のインタフェース属性の値は、ウェブサイトによって定義されるデフォルト値を有してよい。ブロック605で、コンポーネントは、次のインタフェース属性(IA)を選択する。判断ブロック606で、すべてのインタフェース属性が既に選択されている場合、コンポーネントはブロック603にループし、選択したグローバル属性に対する次のグローバル属性値を選択する。ブロック607で、コンポーネントは、選択したインタフェース属性および選択したグローバル属性値を用いてクエリを作成する。ブロック608で、コンポーネントは、作成したクエリをウェブサイトにサブミット(提出、投入)する。ブロック609で、コンポーネントは、クエリの結果に基づいて生起キューブを更新した後、ブロック605にループして、次のインタフェース属性を選択する。
図7は、一実施形態におけるキューブ更新コンポーネントの処理を示す流れ図である。このコンポーネントには、グローバル属性、グローバル属性値、およびインタフェース属性の指示と、クエリ結果とが渡される。ブロック701で、コンポーネントは、結果の次のエントリすなわち行を選択する。判断ブロック702で、結果のすべてのエントリが既に選択されている場合、コンポーネントは復帰し、そうでない場合、コンポーネントはブロック703に進む。ブロック703で、コンポーネントは、次の結果属性すなわち列を選択する。判断ブロック704で、すべての結果属性が既に選択されている場合、コンポーネントはブロック701にループして結果の次のエントリを選択し、そうでない場合、コンポーネントはブロック705に進む。ブロック705で、グローバル属性値(GAV)が、選択したエントリの選択した結果属性(AV)の値に等しい場合、コンポーネントはブロック706に進み、そうでない場合、コンポーネントはブロック703にループして、選択したエントリの次の結果属性を選択する。ブロック706で、コンポーネントは、渡されたグローバル属性、渡されたインタフェース属性、および選択した結果属性に対する生起キューブ内のカウントをインクリメントする。そして、コンポーネントはブロック703にループして、選択したエントリの次の結果属性を選択する。
図8は、一実施形態におけるキューブ射影コンポーネントの処理を示す流れ図である。本実施形態では、このコンポーネントは、グローバル−インタフェース対応の生起行列を生成する。スキーママッチングシステムは、同様にして、グローバル−結果対応およびインタフェース−結果対応の生起行列を生成することも可能である。本実施形態では、このコンポーネントは、グローバル属性とインタフェース属性の対について結果属性のカウントの和をとることにより、3次元の生起キューブを2次元の対応行列に射影する。当業者には理解されるように、直接の総和以外の射影技法も使用可能である。例えば、コンポーネントは、重み付き総和を用い、重みは結果スキーマの自動識別中に導出される信頼度に基づくようにしてもよい。ブロック801で、コンポーネントは、次のグローバル属性を選択する。判断ブロック802で、すべてのグローバル属性が既に選択されている場合、コンポーネントは復帰し、そうでない場合、コンポーネントはブロック803に進む。ブロック803で、コンポーネントは、次のインタフェース属性を選択する。判断ブロック804で、すべてのインタフェース属性が既に選択されている場合、コンポーネントはブロック801にループして次のグローバル属性を選択し、そうでない場合、コンポーネントはブロック805に進む。ブロック805で、コンポーネントは、次の結果属性を選択する。判断ブロック806で、すべての結果属性が既に選択されている場合、コンポーネントはブロック803にループして次のインタフェース属性を選択し、そうでない場合、コンポーネントはブロック807に進む。ブロック807で、コンポーネントは、選択したインタフェース属性およびグローバル属性に対する生起行列内のカウントを、選択したグローバル属性、インタフェース属性、および結果属性に対する生起キューブからのカウントだけインクリメントする。そして、コンポーネントはブロック805にループして次の結果属性を選択する。
図9は、一実施形態におけるEMI計算コンポーネントの処理を示す流れ図である。このコンポーネントは、式1を用いて、生起行列における属性対の相互情報量を推定する。当業者には理解されるように、属性対がマッチしている尤度を推定するために種々の技法が使用可能である。このコンポーネントは、生起行列が渡され、EMI行列を返す。ブロック901で、コンポーネントは、生起行列内のすべてのカウントの和を計算する。ブロック902で、コンポーネントは、生起行列の各行内のカウントの和を計算する。ブロック903で、コンポーネントは、生起行列の各列内のカウントの和を計算する。ブロック904〜908で、コンポーネントは、生起行列の各属性対を選択することを繰り返し、それらの属性がマッチしている尤度(likelihood)を求める。ブロック904で、コンポーネントは、生起行列の次の行を選択する。判断ブロック905で、生起行列のすべての行が既に選択されている場合、コンポーネントは復帰し、そうでない場合、コンポーネントはブロック906に進む。ブロック906で、コンポーネントは、生起行列の次の列を選択する。判断ブロック907で、生起行列のすべての列が既に選択されている場合、コンポーネントはブロック904にループして生起行列の次の行を選択し、そうでない場合、コンポーネントはブロック908に進む。ブロック908で、コンポーネントは、選択した行および列によって表される属性に対する推定相互情報量を計算する。そして、コンポーネントはブロック906にループして次の列を選択する。
図10は、一実施形態におけるマッチング行列生成コンポーネントの処理を示す流れ図である。このコンポーネントには、属性対がマッチしている尤度を示すEMI行列のような行列が渡される。属性対に対する尤度が、両方の属性について最高の尤度である(一方の属性を表す行において最高であり、他方の属性を表す列において最高である)場合、コンポーネントは、それらの属性がマッチしていると認める。ブロック1001で、コンポーネントは、渡された行列の次の行を選択する。判断ブロック1002で、渡された行列のすべての行が既に選択されている場合、コンポーネントは復帰し、そうでない場合、コンポーネントはブロック1003に進む。ブロック1003で、コンポーネントは、渡された行列の次の列を選択する。判断ブロック1004で、渡された行列のすべての列が既に選択されている場合、コンポーネントはブロック1001にループして、渡された行列の次の行を選択し、そうでない場合、コンポーネントはブロック1005に進む。判断ブロック1005で、選択した行および列の値がその行内で最高である場合、コンポーネントはブロック1006に進み、そうでない場合、コンポーネントはブロック1003にループして次の列を選択する。判断ブロック1006で、選択した行および列の値がその列内で最高である場合、コンポーネントはブロック1007に進み、そうでない場合、コンポーネントはブロック1003にループして次の列を選択する。ブロック1007で、コンポーネントは、選択した行および列に対するマッチング行列の値をマッチングを示すようにセットした後、ブロック1003にループして、選択した行の次の列を選択する。
図11は、一実施形態におけるサイト間マッチングコンポーネントの処理を示す流れ図である。このコンポーネントは、あるウェブサイトのどの属性(インタフェースおよび結果)が別のウェブサイトのどの属性とマッチするかを識別する。コンポーネントは、ウェブサイトのグローバル−インタフェース対応の生起行列を用いてインタフェーススキーマについてのマッチングを識別し、ウェブサイトのグローバル−結果対応の生起行列を用いて結果スキーマについてのマッチングを識別する。ブロック1101で、コンポーネントは、キューブ生成コンポーネントを呼び出すことにより、サイトAの生起キューブを生成する。ブロック1102で、コンポーネントは、キューブ射影コンポーネントを呼び出すことにより、サイトAの生起行列を生成する。ブロック1103で、コンポーネントは、キューブ生成コンポーネントを呼び出すことにより、サイトBの生起キューブを生成する。ブロック1104で、コンポーネントは、キューブ射影コンポーネントを呼び出すことにより、サイトBの生起行列を生成する。ブロック1105で、コンポーネントは、インタフェース属性について、推定ベクトル類似度計算コンポーネント(calculate estimated vector similarity component)を呼び出すことにより、サイトAおよびサイトBからのインタフェース属性の対がマッチしている尤度を生成する。当業者には理解されるように、この尤度を推定するためには多くの異なる技法が使用可能であり、ベクトル類似度は単なる一例である。ブロック1106で、コンポーネントは、インタフェース属性に対する推定ベクトル類似度行列を渡してマッチング行列生成コンポーネントを呼び出すことにより、どのインタフェース属性対がマッチしているかを示す行列を生成する。ブロック1107で、コンポーネントは、推定ベクトル類似度計算コンポーネントを呼び出すことにより、結果属性に対する推定ベクトル類似度行列を生成する。ブロック1108で、コンポーネントは、マッチング行列生成コンポーネントを呼び出すことにより、どの結果属性対がマッチしているかを示す行列を生成する。そして、コンポーネントは終了する。
図12は、一実施形態における推定ベクトル類似度計算コンポーネントの処理を示す流れ図である。このコンポーネントは、インタフェース−インタフェース対応または結果−結果対応の生起行列が渡され、各属性対がマッチしている尤度を求める。ブロック1201で、コンポーネントは、サイトAの次の属性を選択する。判断ブロック1202で、サイトAのすべての属性が既に選択されている場合、コンポーネントは復帰し、そうでない場合、コンポーネントはブロック1203に進む。ブロック1203で、コンポーネントは、サイトBの次の属性を選択する。判断ブロック1204で、サイトBのすべての属性が既に選択されている場合、コンポーネントはブロック1201にループしてサイトAの次の属性を選択し、そうでない場合、コンポーネントはブロック1205に進む。ブロック1205で、コンポーネントは、式3に従って、選択した属性に対する推定ベクトル類似度を計算した後、ブロック1203にループして、サイトBの次の属性を選択する。
図13は、一実施形態における相互検証コンポーネントの処理を示す流れ図である。サイト内マッチが誤っていることをサイト間マッチが示している場合、コンポーネントは、属性のマッチを変更する。ブロック1301で、コンポーネントは、次のグローバル属性を選択する。判断ブロック1302で、すべてのグローバル属性が既に選択されている場合、コンポーネントは終了し、そうでない場合、コンポーネントはブロック1303に進む。ブロック1303で、コンポーネントは、次のウェブサイト(S)を選択する。判断ブロック1304で、すべてのウェブサイトが既に選択されている場合、コンポーネントはブロック1301にループして次のグローバル属性を選択し、そうでない場合、コンポーネントはブロック1305に進む。判断ブロック1305で、選択したウェブサイトが、選択したグローバル属性にマッチする属性を有する場合、コンポーネントはブロック1306に進み、そうでない場合、コンポーネントはブロック1303にループして次のウェブサイトを選択する。判断ブロック1306で、選択した属性(SA)が別のグローバル属性に移動されるべきである場合、コンポーネントはブロック1307に進み、そうでない場合、コンポーネントはブロック1303にループして次のウェブサイトを選択する。ブロック1307で、コンポーネントは、選択した属性を、異なるグローバル属性にマッチするように変更する。ブロック1308で、コンポーネントは、選択した属性のサイト内マッチを変更する。そして、コンポーネントはブロック1303にループして次のウェブサイトを選択する。
当業者には理解されるように、本明細書には、説明の目的上、スキーママッチングシステムの特定の実施形態が記載されているが、本発明の趣旨および範囲から逸脱することなく種々の変更をなし得る。したがって、本発明は、特許請求の範囲によって以外には限定されない。
書店のウェブデータベースの種々のスキーマを例示する図である。 一実施形態におけるサイト内およびサイト間のマッチングを示す図である。 一実施形態におけるスキーママッチングシステムの分割の1つのパスを示す図である。 一実施形態におけるスキーママッチングシステムのコンポーネントを示すブロック図である。 一実施形態におけるサイト内マッチングコンポーネントの処理を示す流れ図である。 一実施形態におけるキューブ生成コンポーネントの処理を示す流れ図である。 一実施形態におけるキューブ更新コンポーネントの処理を示す流れ図である。 一実施形態におけるキューブ射影コンポーネントの処理を示す流れ図である。 一実施形態におけるEMI計算コンポーネントの処理を示す流れ図である。 一実施形態におけるマッチング行列生成コンポーネントの処理を示す流れ図である。 一実施形態におけるサイト間マッチングコンポーネントの処理を示す流れ図である。 一実施形態における推定ベクトル類似度計算コンポーネントの処理を示す流れ図である。 一実施形態における相互検証コンポーネントの処理を示す流れ図である。
符号の説明
101 データベーススキーマ
102 インタフェーススキーマ
103 結果スキーマ
301,302,311,312 クラスタ
401 ウェブデータベースサイト
402 通信リンク
410 スキーママッチングシステム
411 サイト内マッチングコンポーネント
412 サイト間マッチングコンポーネント
413 相互検証コンポーネント
414 キューブ生成コンポーネント
415 キューブ射影コンポーネント
416 EMI計算コンポーネント
417 マッチング行列生成コンポーネント
421 キューブ記憶部
422 射影記憶部
423 EMI記憶部
424 マッチング記憶部

Claims (16)

  1. コンピュータシステムにおいてデータベースのスキーママッチングのために用いられる生起キューブを生成する方法において、
    前記コンピュータシステムの処理ユニットが、データベースのドメインのそれぞれのグローバル属性に関して、前記データベースのそれぞれのインタフェース属性に対して、通信リンクを介して前記データベースにクエリをサブミットするステップであって、各クエリは、前記データベースのインタフェース属性の値が前記データベースのドメインのグローバル属性のグローバル属性値にセットされる、クエリをサブミットするステップと、
    前記コンピュータシステムの処理ユニットが、それぞれのサブミットされた前記クエリの結果に対して、前記グローバル属性の前記値が前記結果の各結果属性に現れる回数をカウントするステップと、
    前記コンピュータシステムの処理ユニットが、グローバル属性、インタフェース属性、および結果属性の各組合せに対して、前記グローバル属性のグローバル属性値にセットされた前記インタフェース属性を有してサブミットされるクエリからの結果とし前記グローバル属性の前記値が各結果属性に現れる回数をカウントする蓄積を、前記生起キューブの要素として、記憶装置に記憶するステップとを含み、
    前記記憶された要素は、生起キューブを形成することを特徴とする生起キューブを生成する方法。
  2. 前記生起キューブから、グローバル属性およびインタフェース属性に関連する生起行列を生成するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記生起キューブから、グローバル属性および結果属性に関連する生起行列を生成するステップを含むことを特徴とする請求項1に記載の方法。
  4. 前記生起キューブから、インタフェース属性および結果属性に関連する生起行列を生成するステップを含むことを特徴とする請求項1に記載の方法。
  5. グローバル属性値およびインタフェース属性の各組合せごとにクエリがサブミットされることを特徴とする請求項1に記載の方法。
  6. 前記生起キューブが、グローバル属性、インタフェース属性、および結果属性の各組合せに対するカウントを含むことを特徴とする請求項1に記載の方法。
  7. データベースのスキーママッチングのために、コンピュータシステムにおいてドメイン内のデータベースの属性を識別する方法において、
    前記コンピュータシステムの処理ユニットが、前記ドメインのグローバルスキーマのグローバル属性ならびに前記データベースのインタフェーススキーマのインタフェース属性および結果スキーマの結果属性に関連する生起カウントを、記憶装置に記憶することで提供するステップであって、カウントのそれぞれは、グローバル属性、インタフェース属性、および結果属性の各組合せに対して、グローバル属性に関するグローバル属性値が、前記グローバル属性値にセットされた前記インタフェース属性を有して前記データベースにサブミットされるクエリの結果の前記結果属性の値として現れる、生起の数を表す、生起カウントを提供するステップと、
    前記コンピュータシステムの処理ユニットが、提供されたカウントに基づいてスキーマの対の相互情報量を推定するステップと、
    前記コンピュータシステムの処理ユニットが、推定された相互情報量からどの属性がマッチするかを識別するステップと
    を含むことを特徴とするデータベースの属性を識別する方法。
  8. 前記カウントを提供するステップが、グローバル属性、インタフェース属性、および結果属性に関連する生起カウントを提供する生起キューブを、スキーマの対に関連する行列に射影するステップを含むことを特徴とする請求項7に記載の方法。
  9. 前記インタフェース属性の値が前記グローバル属性のグローバル属性値にセットされたクエリを前記データベースにサブミットすることによって前記生起キューブを生成するステップを含むことを特徴とする請求項8に記載の方法。
  10. 前記生起キューブ内の前記生起カウントは、クエリにおけるインタフェース属性の値として用いられるグローバル属性のグローバル属性値が該クエリの結果の結果属性に現れる回数を表すことを特徴とする請求項9に記載の方法。
  11. 前記インタフェース属性が、HTMLの入力関連要素に基づいて識別されることを特徴とする請求項7に記載の方法。
  12. 前記結果属性が、正規表現ラッパを用いて識別されることを特徴とする請求項7に記載の方法。
  13. インタフェース属性の値が前記グローバル属性のグローバル属性値にセットされたクエリを前記データベースにサブミットすることによって、前記生起カウントが提供されることを特徴とする請求項7に記載の方法。
  14. 前記相互情報量が次式
    Figure 0004160578
    によって推定されて算出されることを特徴とする請求項7に記載の方法。
  15. スキーマの対において、一方のスキーマの属性であって、他方のスキーマの属性について最高の推定相互情報量を有する属性が、他方のスキーマの別の属性についてさらに高い推定相互情報量を有しない場合に、スキーマの対における属性間のマッチが識別されることを特徴とする請求項7に記載の方法。
  16. サイト内マッチングコンポーネント、サイト間マッチングコンポーネント、および相互検証コンポーネントを備え、通信リンクを介してウェブデータベースに接続されるスキーママッチングシステムであって、
    前記サイト内マッチングコンポーネントは、
    生起キューブを生成する手段と、
    生成した生起キューブに基づいてグローバル−インタフェース生起行列、グローバル−結果生起行列、およびインタフェース−結果生起行列を生成する手段と、
    前記各生起行列に基づいて推定相互情報量を計算する手段と、
    前記計算した推定相互情報量に基づいて属性のどの対がマッチするかを識別する手段と
    を含み、
    前記サイト間マッチングコンポーネントは、
    前記生起行列を用いて推定ベクトル類似度を計算する手段と、
    前記推定ベクトル類似度に基づいて属性のどの対がマッチするかを識別する手段と
    を備え、
    前記相互検証コンポーネントは、
    誤ってマッチングされていると見られる属性についてマッチングを変更する手段を備えることを特徴とするスキーママッチングシステム。
JP2005139882A 2004-05-14 2005-05-12 ウェブデータベースのスキーママッチングの方法およびシステム Expired - Fee Related JP4160578B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/846,396 US7249135B2 (en) 2004-05-14 2004-05-14 Method and system for schema matching of web databases

Publications (3)

Publication Number Publication Date
JP2006004411A JP2006004411A (ja) 2006-01-05
JP2006004411A5 JP2006004411A5 (ja) 2008-02-14
JP4160578B2 true JP4160578B2 (ja) 2008-10-01

Family

ID=34939804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005139882A Expired - Fee Related JP4160578B2 (ja) 2004-05-14 2005-05-12 ウェブデータベースのスキーママッチングの方法およびシステム

Country Status (11)

Country Link
US (1) US7249135B2 (ja)
EP (1) EP1596313B1 (ja)
JP (1) JP4160578B2 (ja)
KR (1) KR101109225B1 (ja)
CN (1) CN1716258B (ja)
AT (1) ATE538441T1 (ja)
AU (1) AU2005201998A1 (ja)
BR (1) BRPI0501832A (ja)
CA (1) CA2507309C (ja)
MX (1) MXPA05005220A (ja)
RU (1) RU2386997C2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9537731B2 (en) 2004-07-07 2017-01-03 Sciencelogic, Inc. Management techniques for non-traditional network and information system topologies
US7496571B2 (en) * 2004-09-30 2009-02-24 Alcatel-Lucent Usa Inc. Method for performing information-preserving DTD schema embeddings
US7469248B2 (en) * 2005-05-17 2008-12-23 International Business Machines Corporation Common interface to access catalog information from heterogeneous databases
JP4855080B2 (ja) * 2006-01-13 2012-01-18 三菱電機株式会社 スキーマ統合支援装置、スキーマ統合支援装置のスキーマ統合支援方法およびスキーマ統合支援プログラム
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
US8495004B2 (en) * 2006-03-27 2013-07-23 International Business Machines Corporation Determining and storing at least one results set in a global ontology database for future use by an entity that subscribes to the global ontology database
US7634471B2 (en) * 2006-03-30 2009-12-15 Microsoft Corporation Adaptive grouping in a file network
US7624130B2 (en) * 2006-03-30 2009-11-24 Microsoft Corporation System and method for exploring a semantic file network
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7533085B2 (en) * 2006-08-14 2009-05-12 International Business Machines Corporation Method for searching deep web services
US7917507B2 (en) * 2007-02-12 2011-03-29 Microsoft Corporation Web data usage platform
JP4588731B2 (ja) * 2007-02-27 2010-12-01 日本電信電話株式会社 サービス連結情報生成システム、方法、及びプログラム
JP5170466B2 (ja) * 2007-03-09 2013-03-27 日本電気株式会社 フィールド照合方法及びシステムと、そのプログラム
US9058608B2 (en) * 2007-09-12 2015-06-16 Google Inc. Placement attribute targeting
CN101655850B (zh) * 2008-08-21 2014-08-27 日电(中国)有限公司 知识提取过程生成设备和知识提取过程调整设备及其方法
US8346819B2 (en) * 2008-12-22 2013-01-01 Sap Ag Enhanced data conversion framework
US9773033B2 (en) * 2009-05-22 2017-09-26 International Business Machines Corporation Storing and retrieving volumes in a database by volume attributes
US8793208B2 (en) 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
CN103026345B (zh) * 2010-06-02 2016-01-20 惠普发展公司,有限责任合伙企业 用于事件监测优先级的动态多维模式
CN101916272B (zh) * 2010-08-10 2012-04-25 南京信息工程大学 用于深层网数据集成的数据源选择方法
CN102103636B (zh) * 2011-01-18 2013-08-07 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN103246664B (zh) * 2012-02-07 2016-05-25 阿里巴巴集团控股有限公司 网页检索方法和装置
CN103246685B (zh) * 2012-02-14 2016-12-14 株式会社理光 将对象实例的属性规则化为特征的方法和设备
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
FI20126010A (fi) 2012-09-28 2014-03-29 Tekla Corp Lähdekohteiden muuntaminen kohdekohteiksi
CN103714086A (zh) 2012-09-29 2014-04-09 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
US10127292B2 (en) * 2012-12-03 2018-11-13 Ut-Battelle, Llc Knowledge catalysts
US9009175B2 (en) * 2013-02-04 2015-04-14 Sap Se System and method for database migration and validation
WO2014121323A1 (en) * 2013-02-05 2014-08-14 The University Of Queensland A schema generation process and system
US9582494B2 (en) 2013-02-22 2017-02-28 Altilia S.R.L. Object extraction from presentation-oriented documents using a semantic and spatial approach
US9934279B2 (en) * 2013-12-05 2018-04-03 Oracle International Corporation Pattern matching across multiple input data streams
CN103902743B (zh) * 2014-04-29 2017-07-11 智业软件股份有限公司 通过业务名词操控数据的自助查询方法
US9875263B2 (en) 2014-10-21 2018-01-23 Microsoft Technology Licensing, Llc Composite partition functions
US10657323B2 (en) 2015-09-30 2020-05-19 Obschestvo S Ogranichennoy Otvetstvennostyu “Intersoft” Method of preparing documents in markup languages
RU2613026C1 (ru) * 2015-09-30 2017-03-14 Общество с ограниченной ответственностью "Интерсофт" Способ подготовки документов на языках разметки при реализации пользовательского интерфейса для работы с данными информационной системы
CN107704474B (zh) * 2016-08-08 2020-08-25 华为技术有限公司 属性对齐方法和装置
CN107786882A (zh) * 2017-09-30 2018-03-09 青岛海信宽带多媒体技术有限公司 一种网页显示方法、装置及机顶盒
US10691652B2 (en) 2018-03-29 2020-06-23 International Business Machines Corporation Similarity-based clustering search engine
CN110633406B (zh) * 2018-06-06 2023-08-01 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备
US11474978B2 (en) * 2018-07-06 2022-10-18 Capital One Services, Llc Systems and methods for a data search engine based on data profiles
US11138194B2 (en) 2019-04-02 2021-10-05 International Business Machines Corporation Method of extracting relationships from a NoSQL database
US11113300B2 (en) 2019-05-29 2021-09-07 Babylon Partners Limited System and method for enabling interoperability between a first knowledge base and a second knowledge base
US12020297B1 (en) 2021-05-13 2024-06-25 Amazon Technologies, Inc. Relevance-based schema matching for targeted catalog enrichment
KR102689974B1 (ko) * 2022-01-07 2024-08-05 주식회사 누아 항공 데이터의 ndc 스키마를 변환하기 위한 장치, 방법 및 컴퓨터 프로그램

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554083A (ja) * 1991-08-21 1993-03-05 Nec Corp データベース検索方式
JP2002207655A (ja) 2001-01-10 2002-07-26 Toshiba Corp 情報統合方法、プログラム及びシステム

Also Published As

Publication number Publication date
CN1716258B (zh) 2012-05-23
EP1596313B1 (en) 2011-12-21
CN1716258A (zh) 2006-01-04
CA2507309A1 (en) 2005-11-14
JP2006004411A (ja) 2006-01-05
KR20060047885A (ko) 2006-05-18
CA2507309C (en) 2013-10-22
AU2005201998A1 (en) 2005-12-01
ATE538441T1 (de) 2012-01-15
BRPI0501832A (pt) 2006-01-10
KR101109225B1 (ko) 2012-01-30
US7249135B2 (en) 2007-07-24
US20050256850A1 (en) 2005-11-17
RU2386997C2 (ru) 2010-04-20
MXPA05005220A (es) 2005-12-06
EP1596313A3 (en) 2006-06-28
RU2005114658A (ru) 2006-11-20
EP1596313A2 (en) 2005-11-16

Similar Documents

Publication Publication Date Title
JP4160578B2 (ja) ウェブデータベースのスキーママッチングの方法およびシステム
Wei et al. A survey of faceted search
US10346457B2 (en) Platform support clusters from computer application metadata
Gupta et al. An overview of social tagging and applications
JP2013516022A (ja) 検索提案のクラスタ化及び提示
CA2932401A1 (en) Systems and methods for in-memory database search
WO2013154947A1 (en) Clustered information processing and searching with structured-unstructured database bridge
US20120016863A1 (en) Enriching metadata of categorized documents for search
US11727058B2 (en) Unsupervised automatic taxonomy graph construction using search queries
KR20120038418A (ko) 탐색 방법 및 디바이스
Faba‐Pérez et al. Comparative analysis of webometric measurements in thematic environments
Martins Geographically aware web text mining
JP2011018152A (ja) 情報提示装置、情報提示方法およびプログラム
Al-Akashi Using Wikipedia Knowledge and Query Types in a New Indexing Approach for Web Search Engines
Clough et al. Extending Domain-Specific Resources to Enable Semantic Access to Cultural Heritage Data.
Sharma et al. Improved stemming approach used for text processing in information retrieval system
Tran Process-oriented Semantic Web Search
Xi et al. Identifying Notable Tuples in Multi-Concept Web Tables
da Graça Martins Geographically aware web text mining
Zadgaonkar et al. Facets extraction-based approach for query recommendation using data mining approach
Dessi et al. Computing on-the-fly dbpedia property ranking
Trani Improving the Efficiency and Effectiveness of Document Understanding in Web Search.
Tan Designing new crawling and indexing techniques for web search engines
Kalpanadevi et al. Rule based method in entity resolution for efficient web search
Tagarelli et al. Web search based on ranking

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071221

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071221

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080620

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080717

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4160578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130725

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees