JP2020126604A

JP2020126604A - データモデルを構築する方法、装置、デバイス及び媒体

Info

Publication number: JP2020126604A
Application number: JP2020002944A
Authority: JP
Inventors: ワン，ヂャオイー; Zhaoyu Wang; シー，ヤビン; Yabing Shi; リャン，ハイヂン; Haijin Liang; ヂャン，イエ; Yang Zhang; ヂャン，イァン; ヂゥー，イォン; Yong Zhu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2020-01-10
Publication date: 2020-08-20
Anticipated expiration: 2040-01-10
Also published as: CN109885697B; US20200250380A1; KR20200096133A; EP3690759A1; CN109885697A; JP7076483B2; KR102354127B1

Abstract

【課題】データモデルを構築するための方法、装置、デバイス及び媒体に関する。【解決手段】データモデルを構築するための方法は、エンティティタイプに関連する第１属性セットを取得するステップを含む。当該方法は、第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第２属性セットを生成するステップであって、第２属性セット内の２つの属性は異なる語義を有するステップをさらに含む。当該方法は、当該エンティティタイプと第２属性セットとに基づいて、当該エンティティタイプに関連するデータモデルを構築するステップをさらに含む。本願の実施例は、異なるソースからのデータにおける異なる表現方式の同義属性を自動的に識別することができる。同義属性を自動的にアライメントさせるため、本願の実施例は人件費を有効に下げるとともに、効率的にデータモデルを構築することができる。【選択図】図１

Description

本願にかかる実施例はコンピュータ分野に関し、特にデータモデルを構築するための方法、装置、デバイス及びコンピュータ読み取り可能な媒体に関する。

知識グラフは、知識ベース（ＫｎｏｗｌｅｄｇｅＢａｓｅ）とも呼ばれ、実世界に存在しているそれぞれの実体と概念、それらの間の関係およびそれらのそれぞれの属性を説明する。現在、知識グラフは検索、人工知能、ディープラーニングなどの分野に広く使用されている。知識グラフにおいて、ｓｃｈｅｍａを使用してある分野のデータモデルを説明し、当該分野におけるエンティティタイプ及び当該エンティティタイプに関連する属性を含む。例えば、エンティティタイプである「人物」を例として、その属性は身長、体重、年齢などを含むことが可能である。ここで述べる「属性」は「述語（Ｐｒｅｄｉｃａｔｅ）」とも呼ばれる。

ある分野のｓｃｈｅｍａを構築するため、異なるソースのデータからエンティティタイプに関連する属性をマイニングおよび要約する必要がある。しかしながら、データの多源異性化と表現方式の多様性のため、マイニングされた属性の表現方式は複雑かつ多様である。

本願の例示実施例により、データモデルを構築するための方案を提供している。

本願の第１態様において、データモデルを構築するための方法を提供している。当該方法はエンティティタイプに関連する第１属性セットを取得するステップを含む。当該方法は、第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第２属性セットを生成するステップであって、第２属性セット内の２つの属性は異なる語義を有するステップをさらに含む。当該方法は、当該エンティティタイプと第２属性セットに基づいて、エンティティタイプに関連するデータモデルを構築するステップをさらに含む。

本願の第２態様において、データモデルを構築するための装置を提供している。当該装置は、エンティティタイプに関連する第１属性セットを取得するように構成される属性取得モジュールと、第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第２属性セットを生成するように構成される属性マッチングモジュールであって、第２属性セット内の２つの属性は異なる語義を有する属性アライメントモジュールと、当該エンティティタイプと第２属性セットに基づいて、当該エンティティタイプに関連するデータモデルを構築するように構成されるモデル構築モジュールと、を含む。

本願の第３態様において、データモデルを構築するためのデバイスを提供している。当該デバイスは、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶する記憶装置とを含み、当該１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行される場合に、当該１つまたは複数のプロセッサが本願の第１態様にかかる方法を実現する。

本願の第４態様において、コンピュータ読み取り可能な記憶媒体を提供している。該当媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行される場合に、本願の第１態様にかかる方法が実現される。

発明の内容の部分で説明した内容は、本開示の実施例の肝心または重要な特徴を制限するものではなく、本開示の範囲を制限するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなることを理解されたい。

図面を参照しつつ以下の詳細な説明を参照し、本願の各実施例と他の特徴、利点及び態様はさらに明らかになる。図面において、同一または類似の符号は同一または類似の要素を示す。

本願の実施例にかかる例示システムを示すブロック図である。本願の実施例にかかるデータモデルを構築するための方法を示すフロチャートである。本願の実施例にかかる第１タイプ属性ペアと第２タイプ属性ペアが同じ語義を有するか否かを決定するための例示モジュールを示すブロック図である。本願の実施例にかかるデータモデルを構築するための装置のブロック図である。本願の実施例を実現可能なコンピュータデバイスを示すブロック図である。

以下では、図面を参照しつつ本願の実施例をより詳細に説明する。図面には本願のいくつかの実施例が示されているが、本願は様々な方式で実現でき、かつここで説明する実施例に制限されなく、これらの実施例を提供することはさらに本願を明確かつ完全に理解するためであり、本願の図面及び実施例は例示的に利用されるに過ぎず、本願の保護範囲を制限するものではないことを理解されたい。

本願の実施例の説明において、用語「含む」及びその類似用語は、開放的に含むことと理解すべきであり、すなわち「含むが限られていない」。用語「に基づく」は「少なくとも部分的基づく」と理解すべきである。用語「１つの実施例」または「当該実施例」は「少なくとも１つの実施例」と理解すべきである。用語「第１」、「第２」などは異なるまたは同じ対象を指すことが可能である。

前記内容のように、ある分野の知識グラフを構築するため、当該分野におけるｓｃｈｅｍａを構築する必要があるので、異なるソースのデータからエンティティタイプに関連する属性をマイニングおよび要約する必要がある。しかしながら、データの多源異性化と表現方式の多様性のため、マイニングした属性の表現方式は複雑かつ多様である。

いくつかの従来の解決手段は、人工でｓｃｈｅｍａにおけるエンティティ属性を編集することによって、ｓｃｈｅｍａの構築を実現させる。当該方案は効率が低く、データ量の大きい状況と表現方式が多様である状況に適応することはできない。他のいくつかの解決方案は、機械学習モデルを利用して、ビッグデータからエンティティタイプに関連する属性のセットをマイニングおよび抽出する。しかしながら、このような方案に用いられる特徴は単一であり、ロバスト性が悪く、かつ精度が低い。

本願の実施例によって、データモデルを構築するための方案を提出している。当該方案は機械学習モデルによって異なるソースからのデータにおける異なる表現方式を有する同義属性を識別する。同義属性の判定過程において、豊富な各次元の特徴を使用しているため、当該方案は高い正確率と高いロバスト性を実現することができる。自動的に同義属性をアライメントすることにより、当該方法は、人件費を有効に下げるとともに、効率的にデータモデルを構築することができる。

以下では図面を参照して、具体的に本願の実施例を説明する。図１は本願の実施例にかかる例示システム１００を示すブロック図である。図１に示すように、例示システム１００は、統括的にモデル構築装置１２０を含むことができる。図１ではシステム１００の構造と機能を例示として説明し、本願の範囲に対する任意の制限を暗示しないことを理解されたい。本願の実施例は異なる構造や／機能を有する環境に適用されてもよい。

モデル構築装置１２０は複数のデータソースからエンティティタイプ１１１に関連する入力データ１１０を取得することができる。図１に示すように、入力データ１１０は、例えばエンティティタイプ１１１と、エンティティタイプ１１１に関連する初期属性セット１１２と、及びエンティティタイプ１１１に関連する一組の知識項目１１３とを含むことができる。エンティティタイプ１１１の例示は、例えば人物、ムービー、電器または場所などであってもよい。属性セット１１２は、例えばエンティティタイプ１１１に関連する分類または処理されていない一組の属性を含んでもよい。エンティティタイプの人物を例として、それに関連する分類または処理されていない属性は、例えば身長、高さ、体重、重さ、年齢、妻、女房などを含んでもよく、その中で同じ語義を有する複数の属性（例えば、人物の「身長」と「高さ」、人物の「体重」と「重さ」、人物の「妻」と「女房」など）を含む可能性かある。知識項目１１３は、エンティティタイプ１１１に関連する、主語述語目的語（ＳＰＯ）構造を有する複数のセンテンス（以下ではＳＰＯ構造を有する知識項目を「ＳＰＯ」と省略する）、例えば「張三の妻は李四である」（「張三」は主語であり、「妻」は述語であり、かつ「李四」は目的語である）、「張三の女房は李四である」（「張三」は主語であり、「女房」は述語であり、かつ「李四」は目的語である）、「王五の身長は１７６ｃｍである」（「王五」は主語であり、「身長」は述語であり、かつ「１７６ｃｍ」は目的語である）など。

図１における入力データ１１０はエンティティタイプ１１１のみに関連していると示されているが、説明するためのものであり、本願の範囲を制限するものではないことを理解されたい。ある実施例において、モデル構築装置１２０は複数のデータソースからそれぞれのエンティティタイプに関連する相応な入力データを取得することができる。モデル構築装置１２０は、各エンティティタイプに関連する入力データを取得するように、エンティティタイプに応じて取得した入力データを分割することができる。

図１に示すように、モデル構築装置１２０は属性セット１１２における同じ語義を有する複数の属性を識別することができる（例えば、人物の「身長」と「高さ」、人物の「体重」と「重さ」、人物の「妻」と「女房」など）。属性セット１１２で同じ語義を有する複数の属性を同一属性にアライメントし（すなわち、同じ語義を有する複数の属性に代わり、同一属性を使用する）、モデル構築装置１２０は属性セット１３１における任意の２つの属性が異なる語義を有するように、エンティティタイプ１１１に関連する属性セット１３１を生成することができる。例えば、モデル構築装置１２０は、属性「身長」と属性「高さ」を同一属性「身長」にアライメントし、属性「体重」と属性「重さ」を同一属性「体重」にアライメントし、属性「妻」と属性「女房」を同一属性「妻」にアライメントすることができる。モデル構築装置１２０はさらにエンティティタイプ１１１と属性セット１３１における各属性に基づいてエンティティタイプ１１１に特定するデータモデル１３０を構築することができる。

図２は本願の実施例によるデータモデルを構築するための方法を示すフロチャートである。例えば、方法２００は図１に示すようなモデル構築装置１２０によって実行されてもよい。以下では、図１を参照しながら方法２００を詳細に説明する。方法２００は、示されていない付加ブロック及び／または省略可能な示されたブロックをさらに含んでもよい。この点では、本願の範囲を制限するものではない。

ブロック２１０において、モデル構築装置１２０はエンティティタイプに関連する第１属性セットを取得する。

ある実施例において、第１属性セットは、例えば図１に示すような初期属性セット１１２であってもよい。すなわち、複数のデータソースから受信した分類または処理されていない属性セットであってもよい。付加的または代替的に、ある実施例において、モデル構築装置１２０は、図１に示すような初期属性セット１１２（本願では「第３属性セット」とも呼ばれる）を属性の類似度に基づいてさらに複数のサブセットに分割し、かつ複数のサブセットのうちの１つを第１属性セットとすることができる。

ある実施例において、モデル構築装置１２０は初期属性セット１１２を複数のサブセットに分割するように、初期属性セット１１２をクラスタリングすることができる。例えば、モデル構築装置１２０は、マルコフクラスタリングアルゴリズムのようなクラスタリングアルゴリズムにより初期属性セット１１２をクラスタリングすることができる。従来のテキストクラスタリングアルゴリズムに比べて、グラフクラスタリングアルゴリズムはより多くの次元の類似度の特徴を用いて、長さの短い文字列に対するクラスタリング問題をより良く解決することができる。付加的または代替的に、ある実施例において、モデル構築装置１２０は、例えば、階層的クラスタリングアルゴリズムのグラフクラスタリングアルゴリズムにより初期属性セット１１２をクラスタリングすることができる。以上では、モデル構築装置１２０が使用可能ないくつかのクラスタリングアルゴリズムを例示するに過ぎない。モデル構築装置１２０は、既に存在または開発直前の全ての方法を利用して初期属性セット１１２を複数のサブセットに分割することができ、以上に示したものに限定されていない。

ブロック２２０において、モデル構築装置１２０は、第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントし、当該エンティティタイプに関連する第２属性セットを生成し、第２属性セット内の２つの属性は異なる語義を有する。

ある実施例において、モデル構築装置１２０は複数のタイプ属性ペア（ｔｙｐｅ−ｐｒｅｄｉｃａｔｅ）を生成するように、エンティティタイプと第１属性セット内の各属性を組み合わせることができ、エンティティタイプである人物を例として、生成したタイプ属性ペアの例示は、例えば「人物−身長」、「人物−高さ」、「人物−体重」、「人物−重さ」などである。複数のタイプ属性ペアにおける任意の２つのタイプ属性ペア（本願では「第１タイプ属性ペア」と「第２タイプ属性ペア」とも呼ばれ、例えば「人物−体重」と「人物−重さ」）に対して、モデル構築装置１２０は、第１タイプ属性ペアと第２タイプ属性ペアとが同じ語義を有するか否かを決定することができる。

図３は、本願の実施例にかかる第１タイプ属性ペアと第２タイプ属性ペアとが同じ語義を有するか否かを決定するための例示モジュールを示すブロック図である。ある実施例において、モジュール３００は、図１に示すモデル構築装置１２０の一部に実現されることができる。図３に示すように、モジュール３００は、統括的に特徴抽出ユニット３１０と分類モデル３２０とを含んでもよい。

ある実施例において、特徴抽出ユニット３１０は、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを取得することができ、図１に示すＳＰＯ構造を有する知識項目１１３から第１タイプ属性ペア３０１−１に関連する第１群の知識項目３０２−１と第２タイプ属性ペア３０１−２に関連する第２群の知識項目３０２−２とを取得することができる。第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とが同じ語義を有するか否かを決定するため、特徴抽出ユニット３１０は第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との複数の類似度特徴３０３を抽出することができる。例えば、複数の類似度特徴３０３は、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とのテキスト類似度を示す第１類似度特徴３０３−１と、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２が語義辞書で同義語であるか否かを示す第２類似度特徴３０３−２と、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２の語義類似度を示す第３類似度特徴３０３−３と、第１タイプ属性ペア３０１−１に関連する第１群の知識項目と第２タイプ属性ペアに関連する第２群の知識項目とを統計して取得した第４類似度特徴３０３−４のうちの少なくとも一つを含んでもよい。

ある実施例において、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とのテキスト類似度は、両者のＪａｃｃａｒｄ類似度係数に基づいて測定することができる。例えば、Ｊａｃｃａｒｄ係数が大きいほど、両者の類似度は高いを示す。ある実施例において、第２類似度特徴３０３−２は第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とが、１つまたは複数の語義辞書（例えば、ｗｏｒｄｎｅｔ辞書）で同義語であるか否かを示すことができる。

第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との語義類似度は、様々な方式により測定されることができる。ある実施例において、特徴抽出ユニット３１０は、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との語義類似度を評価する第３類似度特徴３０３−３とするように、第１タイプ属性ペア３０１−１における第１属性と第２タイプ属性ペア３０１−２における第２属性の検索類似度を決定することができる。例えば、特徴抽出ユニット３１０は、第１属性と第２属性を検索キーワードとして、かつ両者の検索結果の類似度に基づいて第１属性と第２属性との検索類似度を決定する。付加的または代替的に、ある実施例において、特徴抽出ユニット３１０は、ワードバッグ（ｂａｇｏｆｗｏｒｄ）モデルを利用して第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを２つのベクトルに転換し、２つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。付加的または代替的に、特徴抽出ユニット３１０は一般回帰ニューラルネットワーク（ＧＲＮＮ）モデルを用いることにより、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを２つのベクトルに転換し、２つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。付加的または代替的に、ある実施例において、特徴抽出ユニット３１０は、第１タイプ属性ペア３０１−１における第１属性に関連する検索クリック特徴と第２タイプ属性ペアにおける第２属性に関連する検索クリック特徴に基づいて、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを２つのベクトルに転換することができ、かつ２つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。付加的または代替的に、ある実施例において、特徴抽出ユニット３１０は、教師あり学習手段に基づいて訓練された語義分類モデルを使用して、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との語義類似度を決定することができる。付加的または代替的に、ある実施例において、特徴抽出ユニット３１０はＳｋｉｐ−Ｇｒａｍモデルにより第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを２つのベクトルに転換することができ、２つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。

以上では、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との語義類似度を示す第３類似度特徴３０３−３を決定するためのいくつかの例示方式が列挙されるに過ぎない。特徴抽出ユニット３１０は、既に存在または開発直前の全ての方法により第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との語義類似度を示す第３類似度特徴３０３−３を決定することができ、以上に示したものに限定されていないことを理解されたい。

ある実施例において、特徴抽出ユニット３１０は、第１タイプ属性ペア３０１−１に関連する第１群の知識項目３０２−１と第２タイプ属性ペア３０１−２とに関連する第２群の知識項目３０２−２を統計することにより、第１タイプ属性ペア３０１−１と第２タイプ属性ペアとの第４類似度特徴３０３−４をさらに取得することができる。例えば、特徴抽出ユニット３１０は、第１タイプ属性ペア３０１−１に関連する第１群の知識項目３０２−１と第２タイプ属性ペア３０１−２に関連する第２群の知識項目３０２−２に基づいて、それぞれの統計情報を決定することができる。統計情報は、例えば主語−目的語の共起情報を含むことができる。ここで述べる「主語−目的語の共起」は、２つのＳＰＯにおける主語（Ｓ）と目的語（Ｏ）が同じであることを指し、例えば「張三の妻は李四である」と「張三の女房は李四である」である。主語−目的語の共起は、一般的には、２つのＳＰＯのうちの２つの述語（すなわち、「妻」と「女房」）が同じ語義を有する可能性が高いことを示すことができる。付加的または代替的に、統計情報は、例えば目的語のタイプ情報をさらに含んでもよい。ここで述べる「目的語タイプ」はＳＰＯにおける目的語の上位単語を指す。２つのＳＰＯにおける目的語のタイプが同じである場合に、この２つのＳＰＯにおける２つの述語が同じ語義を持つ可能性が高いことを示すことができる。付加的または代替的に、統計情報は、例えば目的語キーワード情報をさらに含んでもよい。すなわち、２つのＳＰＯにおける上位されていない目的語を比較することによって得られた結果である。付加的または代替的に、統計情報は、同源情報をさらに含んでもよい。例えば、２つのＳＰＯが同じデータソースかつ同一エンティティに関連する場合に、この２つのＳＰＯにおける２つの述語（Ｐ）は異なる語義を有する可能性が高いことを示すことができる。モデル構築装置１２０は、これらの統計情報によって第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との第４類似度特徴３０３−４を決定することができる。

以上では、第１タイプ属性ペアと第２タイプ属性ペアとのＳＰＯ統計類似度を示す第４類似度特徴３０３−４を決定するためのいくつかの例示方式が列挙されるに過ぎない。モデル構築装置１２０は、既に存在または開発直前の全ての方法により第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とのＳＰＯ統計類似度を示す第４類似度特徴３０３−４を決定することができ、以上に示したものに限定されていないことを理解されたい。

ある実施例において、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とが同じ語義を有するか否かを決定するように、抽出された第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との複数の類似度特徴３０３は、訓練された分類モデル３２０に提供することができる。例えば、分類モデル３２０はサポートベクターマシン（ＳＶＭ）モデルであってもよい。

ある実施例において、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とが同じ語義を有するか否かを決定するためのＳＶＭモデル３２０は予め訓練され、かつモデル構築装置１２０に提供することができる。ＳＶＭモデルを訓練するための訓練データセットは、クラスタリングと人工標識を組み合わせた方式で取得することができる。例えば、いくつかの特定エンティティタイプ（例えば、人物、電器、場所など）のタイプ属性ペアを選択してＳＶＭモデルを訓練するための訓練データとすることができる。これらのタイプ属性ペアに対して人工標識を行う前に、クラスタリングアルゴリズムを利用してこれらのタイプ属性ペアをクラスタリングすることができる。人工標識を行う場合に、クラスタリングした訓練データセットを同じ語義を有するタイプ属性ペアを標識するように、各標識作業者にそれぞれ提供してもよい。この方式で、複数の標識作業者からの標識結果を統合することにより、標識の正確性を保証することができる。ＳＶＭモデルを訓練する場合に、選択した特徴は、前記類似度特徴であってもよく、テキスト類似度特徴、同義語特徴、語義類似度特徴（検索類似度、Ｂｏｗ類似度、ＧＲＮＮ類似度、検索クリック特徴、語義類似度モデルから得られた語義類似度、Ｓｋｉｐ−ｇｒａｍ類似度などを含む）、統計類似度（ＳＰＯデータを統計することにより得られる）などを含むが、これに限られていない。

この方式で、図３における分類結果３０４に示すように、訓練された分類モデル３２０は、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との複数の類似度特徴３０３に基づいて、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とが同じ語義を有するか否かを決定する。

付加的または代替的に、ある実施例において、モデル構築装置１２０は予め設けられた規則に基づいて分類モデル３２０の分類結果３０４をさらに最適化することができる。例えば、分類モデル３２０が第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを同じ語義を有すると決定した場合に、モデル構築装置１２０は、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２との語義類似度のスコア（例えば、前記第３類似度特徴に示したもの）が予め設けられた閾値を超えるか否かをさらに決定することができる。分類モデル３２０が、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２を同じ語義を有し、かつ両者の語義類似度のスコアが予め設けられた閾値を超えたと決定した場合のみに、モデル構築装置１２０は、第１タイプ属性ペア３０１−１と第２タイプ属性ペア３０１−２とを同じ語義を有すると決定する。ある実施例において、モデル構築装置１２０は、１つまたは複数の予め設けられた規則の組み合わせに基づいて、分類結果３０４をフィルタリングするため、分類結果の正確率をさらに高める。付加的または代替的に、ある実施例において、モデル構築装置１２０は、分類結果３０４をユーザーに提供して検査させられ、ユーザのフィードバックの検査結果に基づいて分類結果３０４を最適化することにより、分類結果の正確率をさらに高める。

ある実施例において、第１タイプ属性ペアと第２タイプ属性ペアが同じ語義を有すると決定された時、モデル構築装置１２０は第１タイプ属性ペア（例えば、「人物−身長」）の第１属性（すなわち、「身長」）と第２タイプ属性ペア（例えば、「人物−高さ」）の第２属性（すなわち、「高さ」）を同一属性にアライメントすることができる。例えば、モデル構築装置１２０は、同じ語義を有する第１属性と第２属性とを、第１属性と第２属性のうちの１つにアライメントすることができる。代替的に、モデル構築装置１２０は、同じ語義を有する第１属性と第２属性とを、予め設けられた他の属性にさらにアライメントすることができ、例えば、第１属性と第２属性とが異なってもよい。この方式で、モデル構築装置１２０は、第２属性セット内の任意の２つの属性が異なる語義を有するように、エンティティタイプに関連する第２属性セット（例えば、図１に示す属性セット１３１）を生成することができる。

図２に戻って、ブロック２３０において、モデル構築装置１２０は、当該エンティティタイプと第２属性セットとに基づいて、当該エンティティタイプに関連するデータモデルを構築する。例えば、モデル構築装置１２０は、相応なタイプ属性ペアを取得するように、エンティティタイプと第２属性セット内の属性とを組み合わせることができ、各タイプ属性ペアは、当該エンティティタイプに関連するｓｃｈｅｍａに対応する。

以上の説明により、本願の実施例は、機械学習モデルによって、異なるソースからのデータにおける異なる表現方式を有する同義属性を識別する。同義属性の判定過程において、豊富な各次元の特徴を使用したため、本願の実施例は高い正確率とロバスト性を実現することができる。自動的に同義属性をアライメントすることにより、当該方法は、人件費を有効に下げるとともに、効率的にデータモデルを構築することができる。

図４は、本願の実施例にかかるデータモデルを構築するための装置のブロック図である。当該装置４００は、図１に示すモデル構築装置１２０の実現に用いられることができる。図４に示すように、装置４００は、エンティティタイプに関連する第１属性セットを取得するように構成される属性取得モジュール４１０と、第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第２属性セットを生成するように構成される属性マッチングモジュール４２０であって、第２属性セット内の２つの属性は異なる語義を有する属性アライメントモジュール４２０と、当該エンティティタイプと第２属性セットに基づいて、当該エンティティタイプに関連するデータモデルを構築するように構成されるモデル構築モジュール４３０と、を含むことができる。

ある実施例において、属性取得モジュール４１０は、エンティティタイプに関連する第３属性セットを取得するように構成される属性取得ユニットと、属性類似度に基づいて第３属性セットを複数のサブセットに分割するように構成されるサブセット分割ユニットと、複数のサブセットのうちの１つを第１属性セットに決定するように構成される第１決定ユニットと、を含む。

ある実施例において、サブセット分割ユニットは、さらに第３属性セットを複数のサブセットに分割するため、第３属性セットをクラスタリングする。

ある実施例において、属性アライメントモジュール４２０は、第１タイプ属性ペアを取得するように、エンティティタイプを第１属性セット内の第１属性に組み合わせるように構成される第１組み合わせユニットと、第２タイプ属性ペアを取得するように、エンティティタイプと、第１属性セット内の第１属性とは異なる第２属性とを組み合わせるように構成される第２組み合わせユニットと、第１タイプ属性ペアと第２タイプ属性ペアとが同じ語義を有するか否かを決定するように構成される第２決定ユニットと、第１タイプ属性ペアと第２タイプ属性ペアとが同じ語義を有するに応答して、第１属性と第２属性とを同一属性にアライメントするように構成される属性アライメントユニットと、を含む。

ある実施例において、第２決定ユニットは、さらに、第１タイプ属性ペアと第２タイプ属性ペアとの複数の類似度特徴を抽出し、及び抽出された複数の類似度特徴に基づいて、第１タイプ属性ペアと第２タイプ属性ペアとが同じ語義を有するか否かを決定する。

ある実施例において、複数の類似度特徴は、第１タイプ属性ペアと第２タイプ属性ペアとのテキスト類似度特徴を示す第１類似度特徴と、第１タイプ属性ペアと第２タイプ属性ペアとが語義辞書で同義語であるか否かを示す第２類似度特徴と、第１タイプ属性ペアと第２タイプ属性ペアとの語義類似度を示す第３類似度特徴と、第１タイプ属性ペアに関連する第１群の知識項目と第２タイプ属性ペアに関連する第２群の知識項目を統計することにより得られた第４類似度特徴のうちの少なくとも１つを含む。

ある実施例において、第２決定ユニットは、さらに、訓練された分類モデルにより第１タイプ属性ペアと第２タイプ属性ペアとが同じ語義を有するか否かを決定する。

ある実施例において、分類モデルは、サポートベクターマシン（ＳＶＭ）モデルである。

装置４００に記載の各モジュールは、それぞれ図２に説明した方法２００における各ステップに対応し、かつ方法２００における相応な操作や特徴とが同じ効果を有し、具体的な詳細を詳しく説明しない。

また、装置４００に含まれるモジュール及び／またはユニットはそれぞれの方式で実現でき、ソフトウェア、ハードウェア、ファームウェアまたは任意の組み合わせを含む。ある実施例において、１つまたは複数のユニットはソフトウェア及び／またはファームウェアを用いて実現でき、例えば、記憶媒体に記憶されている機器実行可能な指令であるきる。機器実行可能な指令の以外または代替的に、装置４００における部分または全てのユニットは少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントにより実現することができる。制限ではなく、例示として、使用可能な例示タイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

図４に示すこれらのモジュール及び／またはユニットは、部分的または全てハードウェアモジュール、ソフトウェアモジュール、ファームウェアモジュールまたはその任意の組み合わせにより実現することができる。特別に、ある実施例において、前記説明したフロー、方法または過程は記憶システムまたは記憶システムに対応するホストまたは記憶システムとは独立した他の計算装置におけるハードウェアによって実現することができる。

図５は、本願の実施例を実現可能なコンピュータデバイスを示すブロック図である。デバイス５００は図１に示すモデル構築装置１２０の実現に用いられる。図面に示すように、デバイス５００はリードオンリーメモリ（ＲＯＭ）５０２に記憶されているコンピュータプログラム指令または記憶ユニット５０８からランダムアクセスメモリ(ＲＡＭ)５０３にロードされたコンピュータプログラム指令に基づいて、それぞれの適当な動作や処理を実行する中央処理装置（ＣＰＵ）５０１を含む。ＲＡＭ５０３において、デバイス５００の操作に必要であるプログラムやデータを記憶することもできる。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３はバス５０４によって互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース５０５もバス５０４に接続されている。

デバイス５００における複数の部品は、Ｉ／Ｏインタフェースに接続され、キーボード、マウスなどの入力ユニット５０６と、様々なディスプレイ、スピーカーなどの出力ユニット５０７と、磁気ディスク、光ディスクなどの記憶ユニット５０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット５０９とを含む。通信ユニット５０９は、デバイス５００がインターネットなどのコンピュータネットワーク及び／または様々な電気通信ネットワークを介して他のデバイスと情報／データを交換する可能である。

処理ユニット５０１は、前記説明した各方法や処理を実行し、例えば方法２００である。例えば、ある実施例において、方法２００はコンピュータソフトウェアプログラムに実現されることができ、例えば記憶ユニット５０８である機器読み取り可能な媒体に有形的に含まれる。ある実施例において、コンピュータプログラムの部分または全てはＲＯＭ５０２及び／または通信ユニット５０９を通してデバイス５００にロード及び／またはインストールされている。コンピュータプログラムがＲＡＭ５０３にロードされ、ＣＰＵ５０１により実行される場合に、前記説明した方法２００の１つまたは複数のステップを実行することができる。代替的に、他の実施例において、ＣＰＵ５０１は、他の任意の適当な手段（例えば、ファームウェアによる）により方法２００を実行するように構成される可能である。

本願において、前記説明した機能は、少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントによって実行されることができる。例えば、制限ではなく、例示として、使用可能な例示タイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本願の方法を実施するためのプログラムコードは１つまたは複数のプログラミング言語の任意の組み合わせを採用してプログラミングしてもよい。これらのプログラムコードは、プロセッサまたはコントローラによって実行されるときに、フローチャート及び／またはブロック図に特定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは完全に機器で実行でき、部分的に機器で実行でき、独立したソフトウェアパッケージとして、部分的に機器で実行され、部分的にリモート機器で実行または完全にリモートマシンまたはサーバで実行される。

本願のコンテキストにおいて、機器読み取り可能な媒体は有形的な媒体であってもよく、指令実行システム、装置またはデバイスまたは指令実行システム、装置またはデバイスに合わせて使用するためのプログラムを含むまたは記憶することができる。機器読み取り可能な媒体は、機器読み取り可能なシグナル媒体または機器読み取り可能なメモリ媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置、デバイス、または前記内容の任意の適切な組合せを含むことができるが、これらに限定されない。機器読み取り可能な記憶媒体のより具体的な例示は、１つまたは複数の線に基づく電気接続、ポータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、書き込み消去可能なリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光学記憶装置、磁気記憶装置、または上述内容の任意の組み合わせを含む。

また、各動作は、特定の順序で示されているが、このような動作は、示された特定の順序または順序で実行されることを要求され、または、所望の結果を取得するように、すべての図示を要求する動作が実行されるべきであることを理解されたい。一定の環境では、マルチタスクと並列処理は有利である可能性がある。同様に、以上の検討には、いくつかの具体的な実現詳細が含まれているが、これらは、本願の範囲に対する制限と解釈されるべきではない。別の実施形態のコンテキストで説明したいくつかの特徴は、一つの実現態様に組み合わせて実現されてもよい。逆に、一つの実現態様のコンテキストに説明した各特徴は、単独にまたは任意の適当なサブ組み合わせの方式で複数の実現態様に実現することができる。

構造特徴及び／または方法論理動作に特定された内容を採用して本主題を説明したが、添付の特許請求の範囲内に限定される主題は、必ずしも前記説明した特定の特徴または動作に限定されるものではないことを理解されたい。逆に、前記説明した特定の特徴や動作は、特許請求の範囲を実現する例示に過ぎない。

Claims

データモデルを構築するための方法であって、
エンティティタイプに関連する第１属性セットを取得するステップと、
前記第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、前記エンティティタイプに関連する第２属性セットを生成するステップであって、前記第２属性セット内の２つの属性は異なる語義を有するステップと、
前記エンティティタイプと前記第２属性セットとに基づいて、前記エンティティタイプに関連するデータモデルを構築するステップと、を含む、
ことを特徴とするデータモデルを構築するための方法。
前記エンティティタイプに関連する前記第１属性セットを取得するステップは、
前記エンティティタイプに関連する第３属性セットを取得するステップと、
属性類似度に基づいて前記第３属性セットを複数のサブセットに分割するステップと、
前記複数のサブセットのうちの１つを前記第１属性セットとして決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記第３属性セットを前記複数のサブセットに分割するステップは、
前記第３属性セットを前記複数のサブセットに分割するように、前記第３属性セットをクラスタリングするステップを含む、
ことを特徴とする請求項２に記載の方法。
前記第１属性セット内の同じ語義を有する複数の属性をアライメントするステップは、
第１タイプ属性ペアを取得するように、前記エンティティタイプと前記第１属性セット内の第１属性とを組み合わせるステップと、
第２タイプ属性ペアを取得するように、前記エンティティタイプと、前記第１属性セット内の前記第１属性とは異なる第２属性とを組み合わせるステップと、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定するステップと、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有すると決定されたことに応答して、前記第１属性と前記第２属性とを同一属性にアライメントするステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定するステップは、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとの複数の類似度特徴を抽出するステップと、
抽出された前記複数の類似度特徴に基づいて、前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定するステップと、を含む、
ことを特徴とする請求項４に記載の方法。
前記複数の類似度特徴は、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとのテキスト類似度を示す第１類似度特徴と、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが語義辞書で同義語であるか否かを示す第２類似度特徴と、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとの語義類似度を示す第３類似度特徴と、
前記第１タイプ属性ペアに関連する第１群の知識項目と前記第２タイプ属性ペアに関連する第２群の知識項目とを統計して得られた第４類似度特徴と、のうちの少なくとも一つを含む、
ことを特徴とする請求項５に記載の方法。
前記第１タイプ属性ペアと前記第２タイプ属性ペアが同じ語義を有するか否かを決定するステップは、
訓練された分類モデルにより前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定するステップを含む、
ことを特徴とする請求項４に記載の方法。
前記分類モデルは、サポートベクターマシン（ＳＶＭ）モデルである、
ことを特徴とする請求項７に記載の方法。
データモデルを構築するための装置であって、
エンティティタイプに関連する第１属性セットを取得するように構成される属性取得モジュールと、
前記第１属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、前記エンティティタイプに関連する第２属性セットを生成するように構成される属性アライメントモジュールであって、前記第２属性セット内の２つの属性は異なる語義を有する属性アライメントモジュールと、
前記エンティティタイプと前記第２属性セットに基づいて、前記エンティティタイプに関連するデータモデルを構築するように構成されるモデル構築モジュールと、を含む、
ことを特徴とするデータモデルを構築するための装置。
前記属性取得モジュールは、
前記エンティティタイプに関連する第３属性セットを取得するように構成される属性取得ユニットと、
属性類似度に基づいて前記第３属性セットを複数のサブセットに分割するように構成されるサブセット分割ユニットと、
前記複数のサブセットのうちの１つを前記第１属性セットとして決定するように構成される第１決定ユニットと、を含む、
ことを特徴とする請求項９に記載の装置。
前記サブセット分割ユニットは、さらに、
前記第３属性セットを前記複数のサブセットに分割するように、前記第３属性セットをクラスタリングする、
ことを特徴とする請求項１０に記載の装置。
前記属性アライメントモジュールは、
第１タイプ属性ペアを取得するように、前記エンティティタイプと前記第１属性セット内の第１属性とを組み合わせるように構成される第１組み合わせユニットと、
第２タイプ属性ペアを取得するように、前記エンティティタイプと、前記第１属性セット内の第１属性とは異なる第２属性とを組み合わせるように構成される第２組み合わせユニットと、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定するように構成される第２決定ユニットと、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有すると決定されたことに応答して、前記第１属性と前記第２属性とを同一属性にアライメントするように構成される属性アライメントユニットと、を含む、
ことを特徴とする請求項９に記載の装置。
前記第２決定ユニットは、さらに、
前記第１タイプ属性ペアと前記第２タイプ属性ペアの複数の類似度特徴を抽出し、
抽出された前記複数の類似度特徴に基づいて、前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定する、
ことを特徴とする請求項１２に記載の装置。
前記複数の類似度特徴は、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとのテキスト類似度特徴を示す第１類似度特徴と、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとが語義辞書で同義語であるか否かを示す第２類似度特徴と、
前記第１タイプ属性ペアと前記第２タイプ属性ペアとの語義類似度を示す第３類似度特徴と、
前記第１タイプ属性ペアに関連する第１群の知識項目と前記第２タイプ属性ペアに関連する第２群の知識項目とを統計して得られた第４類似度特徴と、のうちの少なくとも１つを含む、
ことを特徴とする請求項１３に記載の装置。
前記第２決定ユニットは、さらに、
訓練された分類モデルにより前記第１タイプ属性ペアと前記第２タイプ属性ペアとが同じ語義を有するか否かを決定する、
ことを特徴とする請求項１２に記載の装置。
前記分類モデルは、サポートベクターマシン（ＳＶＭ）モデルである、
ことを特徴とする請求項１５に記載の装置。
データモデルを構築するためのデバイスであって、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶する記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行される場合に、前記１つまたは複数のプロセッサが請求項１〜８のいずれかに記載の方法を実現する、
ことを特徴とするデータモデルを構築するためのデバイス。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合に、請求項１〜８のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。