JP2020126604A - データモデルを構築する方法、装置、デバイス及び媒体 - Google Patents

データモデルを構築する方法、装置、デバイス及び媒体 Download PDF

Info

Publication number
JP2020126604A
JP2020126604A JP2020002944A JP2020002944A JP2020126604A JP 2020126604 A JP2020126604 A JP 2020126604A JP 2020002944 A JP2020002944 A JP 2020002944A JP 2020002944 A JP2020002944 A JP 2020002944A JP 2020126604 A JP2020126604 A JP 2020126604A
Authority
JP
Japan
Prior art keywords
attribute
type
pair
attribute pair
type attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020002944A
Other languages
English (en)
Other versions
JP7076483B2 (ja
Inventor
ワン,ヂャオイー
Zhaoyu Wang
シー,ヤビン
Yabing Shi
リャン,ハイヂン
Haijin Liang
ヂャン,イエ
Yang Zhang
ヂャン,イァン
ヂゥー,イォン
Yong Zhu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020126604A publication Critical patent/JP2020126604A/ja
Application granted granted Critical
Publication of JP7076483B2 publication Critical patent/JP7076483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

【課題】データモデルを構築するための方法、装置、デバイス及び媒体に関する。【解決手段】データモデルを構築するための方法は、エンティティタイプに関連する第1属性セットを取得するステップを含む。当該方法は、第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第2属性セットを生成するステップであって、第2属性セット内の2つの属性は異なる語義を有するステップをさらに含む。当該方法は、当該エンティティタイプと第2属性セットとに基づいて、当該エンティティタイプに関連するデータモデルを構築するステップをさらに含む。本願の実施例は、異なるソースからのデータにおける異なる表現方式の同義属性を自動的に識別することができる。同義属性を自動的にアライメントさせるため、本願の実施例は人件費を有効に下げるとともに、効率的にデータモデルを構築することができる。【選択図】図1

Description

本願にかかる実施例はコンピュータ分野に関し、特にデータモデルを構築するための方法、装置、デバイス及びコンピュータ読み取り可能な媒体に関する。
知識グラフは、知識ベース(Knowledge Base)とも呼ばれ、実世界に存在しているそれぞれの実体と概念、それらの間の関係およびそれらのそれぞれの属性を説明する。現在、知識グラフは検索、人工知能、ディープラーニングなどの分野に広く使用されている。知識グラフにおいて、schemaを使用してある分野のデータモデルを説明し、当該分野におけるエンティティタイプ及び当該エンティティタイプに関連する属性を含む。例えば、エンティティタイプである「人物」を例として、その属性は身長、体重、年齢などを含むことが可能である。ここで述べる「属性」は「述語(Predicate)」とも呼ばれる。
ある分野のschemaを構築するため、異なるソースのデータからエンティティタイプに関連する属性をマイニングおよび要約する必要がある。しかしながら、データの多源異性化と表現方式の多様性のため、マイニングされた属性の表現方式は複雑かつ多様である。
本願の例示実施例により、データモデルを構築するための方案を提供している。
本願の第1態様において、データモデルを構築するための方法を提供している。当該方法はエンティティタイプに関連する第1属性セットを取得するステップを含む。当該方法は、第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第2属性セットを生成するステップであって、第2属性セット内の2つの属性は異なる語義を有するステップをさらに含む。当該方法は、当該エンティティタイプと第2属性セットに基づいて、エンティティタイプに関連するデータモデルを構築するステップをさらに含む。
本願の第2態様において、データモデルを構築するための装置を提供している。当該装置は、エンティティタイプに関連する第1属性セットを取得するように構成される属性取得モジュールと、第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第2属性セットを生成するように構成される属性マッチングモジュールであって、第2属性セット内の2つの属性は異なる語義を有する属性アライメントモジュールと、当該エンティティタイプと第2属性セットに基づいて、当該エンティティタイプに関連するデータモデルを構築するように構成されるモデル構築モジュールと、を含む。
本願の第3態様において、データモデルを構築するためのデバイスを提供している。当該デバイスは、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置とを含み、当該1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行される場合に、当該1つまたは複数のプロセッサが本願の第1態様にかかる方法を実現する。
本願の第4態様において、コンピュータ読み取り可能な記憶媒体を提供している。該当媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行される場合に、本願の第1態様にかかる方法が実現される。
発明の内容の部分で説明した内容は、本開示の実施例の肝心または重要な特徴を制限するものではなく、本開示の範囲を制限するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなることを理解されたい。
図面を参照しつつ以下の詳細な説明を参照し、本願の各実施例と他の特徴、利点及び態様はさらに明らかになる。図面において、同一または類似の符号は同一または類似の要素を示す。
本願の実施例にかかる例示システムを示すブロック図である。 本願の実施例にかかるデータモデルを構築するための方法を示すフロチャートである。 本願の実施例にかかる第1タイプ属性ペアと第2タイプ属性ペアが同じ語義を有するか否かを決定するための例示モジュールを示すブロック図である。 本願の実施例にかかるデータモデルを構築するための装置のブロック図である。 本願の実施例を実現可能なコンピュータデバイスを示すブロック図である。
以下では、図面を参照しつつ本願の実施例をより詳細に説明する。図面には本願のいくつかの実施例が示されているが、本願は様々な方式で実現でき、かつここで説明する実施例に制限されなく、これらの実施例を提供することはさらに本願を明確かつ完全に理解するためであり、本願の図面及び実施例は例示的に利用されるに過ぎず、本願の保護範囲を制限するものではないことを理解されたい。
本願の実施例の説明において、用語「含む」及びその類似用語は、開放的に含むことと理解すべきであり、すなわち「含むが限られていない」。用語「に基づく」は「少なくとも部分的基づく」と理解すべきである。用語「1つの実施例」または「当該実施例」は「少なくとも1つの実施例」と理解すべきである。用語「第1」、「第2」などは異なるまたは同じ対象を指すことが可能である。
前記内容のように、ある分野の知識グラフを構築するため、当該分野におけるschemaを構築する必要があるので、異なるソースのデータからエンティティタイプに関連する属性をマイニングおよび要約する必要がある。しかしながら、データの多源異性化と表現方式の多様性のため、マイニングした属性の表現方式は複雑かつ多様である。
いくつかの従来の解決手段は、人工でschemaにおけるエンティティ属性を編集することによって、schemaの構築を実現させる。当該方案は効率が低く、データ量の大きい状況と表現方式が多様である状況に適応することはできない。他のいくつかの解決方案は、機械学習モデルを利用して、ビッグデータからエンティティタイプに関連する属性のセットをマイニングおよび抽出する。しかしながら、このような方案に用いられる特徴は単一であり、ロバスト性が悪く、かつ精度が低い。
本願の実施例によって、データモデルを構築するための方案を提出している。当該方案は機械学習モデルによって異なるソースからのデータにおける異なる表現方式を有する同義属性を識別する。同義属性の判定過程において、豊富な各次元の特徴を使用しているため、当該方案は高い正確率と高いロバスト性を実現することができる。自動的に同義属性をアライメントすることにより、当該方法は、人件費を有効に下げるとともに、効率的にデータモデルを構築することができる。
以下では図面を参照して、具体的に本願の実施例を説明する。図1は本願の実施例にかかる例示システム100を示すブロック図である。図1に示すように、例示システム100は、統括的にモデル構築装置120を含むことができる。図1ではシステム100の構造と機能を例示として説明し、本願の範囲に対する任意の制限を暗示しないことを理解されたい。本願の実施例は異なる構造や/機能を有する環境に適用されてもよい。
モデル構築装置120は複数のデータソースからエンティティタイプ111に関連する入力データ110を取得することができる。図1に示すように、入力データ110は、例えばエンティティタイプ111と、エンティティタイプ111に関連する初期属性セット112と、及びエンティティタイプ111に関連する一組の知識項目113とを含むことができる。エンティティタイプ111の例示は、例えば人物、ムービー、電器または場所などであってもよい。属性セット112は、例えばエンティティタイプ111に関連する分類または処理されていない一組の属性を含んでもよい。エンティティタイプの人物を例として、それに関連する分類または処理されていない属性は、例えば身長、高さ、体重、重さ、年齢、妻、女房などを含んでもよく、その中で同じ語義を有する複数の属性(例えば、人物の「身長」と「高さ」、人物の「体重」と「重さ」、人物の「妻」と「女房」など)を含む可能性かある。知識項目113は、エンティティタイプ111に関連する、主語述語目的語(SPO)構造を有する複数のセンテンス(以下ではSPO構造を有する知識項目を「SPO」と省略する)、例えば「張三の妻は李四である」(「張三」は主語であり、「妻」は述語であり、かつ「李四」は目的語である)、「張三の女房は李四である」(「張三」は主語であり、「女房」は述語であり、かつ「李四」は目的語である)、「王五の身長は176cmである」(「王五」は主語であり、「身長」は述語であり、かつ「176cm」は目的語である)など。
図1における入力データ110はエンティティタイプ111のみに関連していると示されているが、説明するためのものであり、本願の範囲を制限するものではないことを理解されたい。ある実施例において、モデル構築装置120は複数のデータソースからそれぞれのエンティティタイプに関連する相応な入力データを取得することができる。モデル構築装置120は、各エンティティタイプに関連する入力データを取得するように、エンティティタイプに応じて取得した入力データを分割することができる。
図1に示すように、モデル構築装置120は属性セット112における同じ語義を有する複数の属性を識別することができる(例えば、人物の「身長」と「高さ」、人物の「体重」と「重さ」、人物の「妻」と「女房」など)。属性セット112で同じ語義を有する複数の属性を同一属性にアライメントし(すなわち、同じ語義を有する複数の属性に代わり、同一属性を使用する)、モデル構築装置120は属性セット131における任意の2つの属性が異なる語義を有するように、エンティティタイプ111に関連する属性セット131を生成することができる。例えば、モデル構築装置120は、属性「身長」と属性「高さ」を同一属性「身長」にアライメントし、属性「体重」と属性「重さ」を同一属性「体重」にアライメントし、属性「妻」と属性「女房」を同一属性「妻」にアライメントすることができる。モデル構築装置120はさらにエンティティタイプ111と属性セット131における各属性に基づいてエンティティタイプ111に特定するデータモデル130を構築することができる。
図2は本願の実施例によるデータモデルを構築するための方法を示すフロチャートである。例えば、方法200は図1に示すようなモデル構築装置120によって実行されてもよい。以下では、図1を参照しながら方法200を詳細に説明する。方法200は、示されていない付加ブロック及び/または省略可能な示されたブロックをさらに含んでもよい。この点では、本願の範囲を制限するものではない。
ブロック210において、モデル構築装置120はエンティティタイプに関連する第1属性セットを取得する。
ある実施例において、第1属性セットは、例えば図1に示すような初期属性セット112であってもよい。すなわち、複数のデータソースから受信した分類または処理されていない属性セットであってもよい。付加的または代替的に、ある実施例において、モデル構築装置120は、図1に示すような初期属性セット112(本願では「第3属性セット」とも呼ばれる)を属性の類似度に基づいてさらに複数のサブセットに分割し、かつ複数のサブセットのうちの1つを第1属性セットとすることができる。
ある実施例において、モデル構築装置120は初期属性セット112を複数のサブセットに分割するように、初期属性セット112をクラスタリングすることができる。例えば、モデル構築装置120は、マルコフクラスタリングアルゴリズムのようなクラスタリングアルゴリズムにより初期属性セット112をクラスタリングすることができる。従来のテキストクラスタリングアルゴリズムに比べて、グラフクラスタリングアルゴリズムはより多くの次元の類似度の特徴を用いて、長さの短い文字列に対するクラスタリング問題をより良く解決することができる。付加的または代替的に、ある実施例において、モデル構築装置120は、例えば、階層的クラスタリングアルゴリズムのグラフクラスタリングアルゴリズムにより初期属性セット112をクラスタリングすることができる。以上では、モデル構築装置120が使用可能ないくつかのクラスタリングアルゴリズムを例示するに過ぎない。モデル構築装置120は、既に存在または開発直前の全ての方法を利用して初期属性セット112を複数のサブセットに分割することができ、以上に示したものに限定されていない。
ブロック220において、モデル構築装置120は、第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントし、当該エンティティタイプに関連する第2属性セットを生成し、第2属性セット内の2つの属性は異なる語義を有する。
ある実施例において、モデル構築装置120は複数のタイプ属性ペア(type−predicate)を生成するように、エンティティタイプと第1属性セット内の各属性を組み合わせることができ、エンティティタイプである人物を例として、生成したタイプ属性ペアの例示は、例えば「人物−身長」、「人物−高さ」、「人物−体重」、「人物−重さ」などである。複数のタイプ属性ペアにおける任意の2つのタイプ属性ペア(本願では「第1タイプ属性ペア」と「第2タイプ属性ペア」とも呼ばれ、例えば「人物−体重」と「人物−重さ」)に対して、モデル構築装置120は、第1タイプ属性ペアと第2タイプ属性ペアとが同じ語義を有するか否かを決定することができる。
図3は、本願の実施例にかかる第1タイプ属性ペアと第2タイプ属性ペアとが同じ語義を有するか否かを決定するための例示モジュールを示すブロック図である。ある実施例において、モジュール300は、図1に示すモデル構築装置120の一部に実現されることができる。図3に示すように、モジュール300は、統括的に特徴抽出ユニット310と分類モデル320とを含んでもよい。
ある実施例において、特徴抽出ユニット310は、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを取得することができ、図1に示すSPO構造を有する知識項目113から第1タイプ属性ペア301−1に関連する第1群の知識項目302−1と第2タイプ属性ペア301−2に関連する第2群の知識項目302−2とを取得することができる。第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とが同じ語義を有するか否かを決定するため、特徴抽出ユニット310は第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との複数の類似度特徴303を抽出することができる。例えば、複数の類似度特徴303は、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とのテキスト類似度を示す第1類似度特徴303−1と、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2が語義辞書で同義語であるか否かを示す第2類似度特徴303−2と、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2の語義類似度を示す第3類似度特徴303−3と、第1タイプ属性ペア301−1に関連する第1群の知識項目と第2タイプ属性ペアに関連する第2群の知識項目とを統計して取得した第4類似度特徴303−4のうちの少なくとも一つを含んでもよい。
ある実施例において、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とのテキスト類似度は、両者のJaccard類似度係数に基づいて測定することができる。例えば、Jaccard係数が大きいほど、両者の類似度は高いを示す。ある実施例において、第2類似度特徴303−2は第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とが、1つまたは複数の語義辞書(例えば、wordnet辞書)で同義語であるか否かを示すことができる。
第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との語義類似度は、様々な方式により測定されることができる。ある実施例において、特徴抽出ユニット310は、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との語義類似度を評価する第3類似度特徴303−3とするように、第1タイプ属性ペア301−1における第1属性と第2タイプ属性ペア301−2における第2属性の検索類似度を決定することができる。例えば、特徴抽出ユニット310は、第1属性と第2属性を検索キーワードとして、かつ両者の検索結果の類似度に基づいて第1属性と第2属性との検索類似度を決定する。付加的または代替的に、ある実施例において、特徴抽出ユニット310は、ワードバッグ(bag of word)モデルを利用して第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを2つのベクトルに転換し、2つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。付加的または代替的に、特徴抽出ユニット310は一般回帰ニューラルネットワーク(GRNN)モデルを用いることにより、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを2つのベクトルに転換し、2つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。付加的または代替的に、ある実施例において、特徴抽出ユニット310は、第1タイプ属性ペア301−1における第1属性に関連する検索クリック特徴と第2タイプ属性ペアにおける第2属性に関連する検索クリック特徴に基づいて、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを2つのベクトルに転換することができ、かつ2つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。付加的または代替的に、ある実施例において、特徴抽出ユニット310は、教師あり学習手段に基づいて訓練された語義分類モデルを使用して、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との語義類似度を決定することができる。付加的または代替的に、ある実施例において、特徴抽出ユニット310はSkip−Gramモデルにより第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを2つのベクトルに転換することができ、2つのベクトルの余弦距離を算出することによって両者の語義類似度を決定する。
以上では、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との語義類似度を示す第3類似度特徴303−3を決定するためのいくつかの例示方式が列挙されるに過ぎない。特徴抽出ユニット310は、既に存在または開発直前の全ての方法により第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との語義類似度を示す第3類似度特徴303−3を決定することができ、以上に示したものに限定されていないことを理解されたい。
ある実施例において、特徴抽出ユニット310は、第1タイプ属性ペア301−1に関連する第1群の知識項目302−1と第2タイプ属性ペア301−2とに関連する第2群の知識項目302−2を統計することにより、第1タイプ属性ペア301−1と第2タイプ属性ペアとの第4類似度特徴303−4をさらに取得することができる。例えば、特徴抽出ユニット310は、第1タイプ属性ペア301−1に関連する第1群の知識項目302−1と第2タイプ属性ペア301−2に関連する第2群の知識項目302−2に基づいて、それぞれの統計情報を決定することができる。統計情報は、例えば主語−目的語の共起情報を含むことができる。ここで述べる「主語−目的語の共起」は、2つのSPOにおける主語(S)と目的語(O)が同じであることを指し、例えば「張三の妻は李四である」と「張三の女房は李四である」である。主語−目的語の共起は、一般的には、2つのSPOのうちの2つの述語(すなわち、「妻」と「女房」)が同じ語義を有する可能性が高いことを示すことができる。付加的または代替的に、統計情報は、例えば目的語のタイプ情報をさらに含んでもよい。ここで述べる「目的語タイプ」はSPOにおける目的語の上位単語を指す。2つのSPOにおける目的語のタイプが同じである場合に、この2つのSPOにおける2つの述語が同じ語義を持つ可能性が高いことを示すことができる。付加的または代替的に、統計情報は、例えば目的語キーワード情報をさらに含んでもよい。すなわち、2つのSPOにおける上位されていない目的語を比較することによって得られた結果である。付加的または代替的に、統計情報は、同源情報をさらに含んでもよい。例えば、2つのSPOが同じデータソースかつ同一エンティティに関連する場合に、この2つのSPOにおける2つの述語(P)は異なる語義を有する可能性が高いことを示すことができる。モデル構築装置120は、これらの統計情報によって第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との第4類似度特徴303−4を決定することができる。
以上では、第1タイプ属性ペアと第2タイプ属性ペアとのSPO統計類似度を示す第4類似度特徴303−4を決定するためのいくつかの例示方式が列挙されるに過ぎない。モデル構築装置120は、既に存在または開発直前の全ての方法により第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とのSPO統計類似度を示す第4類似度特徴303−4を決定することができ、以上に示したものに限定されていないことを理解されたい。
ある実施例において、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とが同じ語義を有するか否かを決定するように、抽出された第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との複数の類似度特徴303は、訓練された分類モデル320に提供することができる。例えば、分類モデル320はサポートベクターマシン(SVM)モデルであってもよい。
ある実施例において、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とが同じ語義を有するか否かを決定するためのSVMモデル320は予め訓練され、かつモデル構築装置120に提供することができる。SVMモデルを訓練するための訓練データセットは、クラスタリングと人工標識を組み合わせた方式で取得することができる。例えば、いくつかの特定エンティティタイプ(例えば、人物、電器、場所など)のタイプ属性ペアを選択してSVMモデルを訓練するための訓練データとすることができる。これらのタイプ属性ペアに対して人工標識を行う前に、クラスタリングアルゴリズムを利用してこれらのタイプ属性ペアをクラスタリングすることができる。人工標識を行う場合に、クラスタリングした訓練データセットを同じ語義を有するタイプ属性ペアを標識するように、各標識作業者にそれぞれ提供してもよい。この方式で、複数の標識作業者からの標識結果を統合することにより、標識の正確性を保証することができる。SVMモデルを訓練する場合に、選択した特徴は、前記類似度特徴であってもよく、テキスト類似度特徴、同義語特徴、語義類似度特徴(検索類似度、Bow類似度、GRNN類似度、検索クリック特徴、語義類似度モデルから得られた語義類似度、Skip−gram類似度などを含む)、統計類似度(SPOデータを統計することにより得られる)などを含むが、これに限られていない。
この方式で、図3における分類結果304に示すように、訓練された分類モデル320は、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との複数の類似度特徴303に基づいて、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とが同じ語義を有するか否かを決定する。
付加的または代替的に、ある実施例において、モデル構築装置120は予め設けられた規則に基づいて分類モデル320の分類結果304をさらに最適化することができる。例えば、分類モデル320が第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを同じ語義を有すると決定した場合に、モデル構築装置120は、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2との語義類似度のスコア(例えば、前記第3類似度特徴に示したもの)が予め設けられた閾値を超えるか否かをさらに決定することができる。分類モデル320が、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2を同じ語義を有し、かつ両者の語義類似度のスコアが予め設けられた閾値を超えたと決定した場合のみに、モデル構築装置120は、第1タイプ属性ペア301−1と第2タイプ属性ペア301−2とを同じ語義を有すると決定する。ある実施例において、モデル構築装置120は、1つまたは複数の予め設けられた規則の組み合わせに基づいて、分類結果304をフィルタリングするため、分類結果の正確率をさらに高める。付加的または代替的に、ある実施例において、モデル構築装置120は、分類結果304をユーザーに提供して検査させられ、ユーザのフィードバックの検査結果に基づいて分類結果304を最適化することにより、分類結果の正確率をさらに高める。
ある実施例において、第1タイプ属性ペアと第2タイプ属性ペアが同じ語義を有すると決定された時、モデル構築装置120は第1タイプ属性ペア(例えば、「人物−身長」)の第1属性(すなわち、「身長」)と第2タイプ属性ペア(例えば、「人物−高さ」)の第2属性(すなわち、「高さ」)を同一属性にアライメントすることができる。例えば、モデル構築装置120は、同じ語義を有する第1属性と第2属性とを、第1属性と第2属性のうちの1つにアライメントすることができる。代替的に、モデル構築装置120は、同じ語義を有する第1属性と第2属性とを、予め設けられた他の属性にさらにアライメントすることができ、例えば、第1属性と第2属性とが異なってもよい。この方式で、モデル構築装置120は、第2属性セット内の任意の2つの属性が異なる語義を有するように、エンティティタイプに関連する第2属性セット(例えば、図1に示す属性セット131)を生成することができる。
図2に戻って、ブロック230において、モデル構築装置120は、当該エンティティタイプと第2属性セットとに基づいて、当該エンティティタイプに関連するデータモデルを構築する。例えば、モデル構築装置120は、相応なタイプ属性ペアを取得するように、エンティティタイプと第2属性セット内の属性とを組み合わせることができ、各タイプ属性ペアは、当該エンティティタイプに関連するschemaに対応する。
以上の説明により、本願の実施例は、機械学習モデルによって、異なるソースからのデータにおける異なる表現方式を有する同義属性を識別する。同義属性の判定過程において、豊富な各次元の特徴を使用したため、本願の実施例は高い正確率とロバスト性を実現することができる。自動的に同義属性をアライメントすることにより、当該方法は、人件費を有効に下げるとともに、効率的にデータモデルを構築することができる。
図4は、本願の実施例にかかるデータモデルを構築するための装置のブロック図である。当該装置400は、図1に示すモデル構築装置120の実現に用いられることができる。図4に示すように、装置400は、エンティティタイプに関連する第1属性セットを取得するように構成される属性取得モジュール410と、第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、当該エンティティタイプに関連する第2属性セットを生成するように構成される属性マッチングモジュール420であって、第2属性セット内の2つの属性は異なる語義を有する属性アライメントモジュール420と、当該エンティティタイプと第2属性セットに基づいて、当該エンティティタイプに関連するデータモデルを構築するように構成されるモデル構築モジュール430と、を含むことができる。
ある実施例において、属性取得モジュール410は、エンティティタイプに関連する第3属性セットを取得するように構成される属性取得ユニットと、属性類似度に基づいて第3属性セットを複数のサブセットに分割するように構成されるサブセット分割ユニットと、複数のサブセットのうちの1つを第1属性セットに決定するように構成される第1決定ユニットと、を含む。
ある実施例において、サブセット分割ユニットは、さらに第3属性セットを複数のサブセットに分割するため、第3属性セットをクラスタリングする。
ある実施例において、属性アライメントモジュール420は、第1タイプ属性ペアを取得するように、エンティティタイプを第1属性セット内の第1属性に組み合わせるように構成される第1組み合わせユニットと、第2タイプ属性ペアを取得するように、エンティティタイプと、第1属性セット内の第1属性とは異なる第2属性とを組み合わせるように構成される第2組み合わせユニットと、第1タイプ属性ペアと第2タイプ属性ペアとが同じ語義を有するか否かを決定するように構成される第2決定ユニットと、第1タイプ属性ペアと第2タイプ属性ペアとが同じ語義を有するに応答して、第1属性と第2属性とを同一属性にアライメントするように構成される属性アライメントユニットと、を含む。
ある実施例において、第2決定ユニットは、さらに、第1タイプ属性ペアと第2タイプ属性ペアとの複数の類似度特徴を抽出し、及び抽出された複数の類似度特徴に基づいて、第1タイプ属性ペアと第2タイプ属性ペアとが同じ語義を有するか否かを決定する。
ある実施例において、複数の類似度特徴は、第1タイプ属性ペアと第2タイプ属性ペアとのテキスト類似度特徴を示す第1類似度特徴と、第1タイプ属性ペアと第2タイプ属性ペアとが語義辞書で同義語であるか否かを示す第2類似度特徴と、第1タイプ属性ペアと第2タイプ属性ペアとの語義類似度を示す第3類似度特徴と、第1タイプ属性ペアに関連する第1群の知識項目と第2タイプ属性ペアに関連する第2群の知識項目を統計することにより得られた第4類似度特徴のうちの少なくとも1つを含む。
ある実施例において、第2決定ユニットは、さらに、訓練された分類モデルにより第1タイプ属性ペアと第2タイプ属性ペアとが同じ語義を有するか否かを決定する。
ある実施例において、分類モデルは、サポートベクターマシン(SVM)モデルである。
装置400に記載の各モジュールは、それぞれ図2に説明した方法200における各ステップに対応し、かつ方法200における相応な操作や特徴とが同じ効果を有し、具体的な詳細を詳しく説明しない。
また、装置400に含まれるモジュール及び/またはユニットはそれぞれの方式で実現でき、ソフトウェア、ハードウェア、ファームウェアまたは任意の組み合わせを含む。ある実施例において、1つまたは複数のユニットはソフトウェア及び/またはファームウェアを用いて実現でき、例えば、記憶媒体に記憶されている機器実行可能な指令であるきる。機器実行可能な指令の以外または代替的に、装置400における部分または全てのユニットは少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントにより実現することができる。制限ではなく、例示として、使用可能な例示タイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などを含む。
図4に示すこれらのモジュール及び/またはユニットは、部分的または全てハードウェアモジュール、ソフトウェアモジュール、ファームウェアモジュールまたはその任意の組み合わせにより実現することができる。特別に、ある実施例において、前記説明したフロー、方法または過程は記憶システムまたは記憶システムに対応するホストまたは記憶システムとは独立した他の計算装置におけるハードウェアによって実現することができる。
図5は、本願の実施例を実現可能なコンピュータデバイスを示すブロック図である。デバイス500は図1に示すモデル構築装置120の実現に用いられる。図面に示すように、デバイス500はリードオンリーメモリ(ROM)502に記憶されているコンピュータプログラム指令または記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラム指令に基づいて、それぞれの適当な動作や処理を実行する中央処理装置(CPU)501を含む。RAM503において、デバイス500の操作に必要であるプログラムやデータを記憶することもできる。CPU501、ROM502及びRAM503はバス504によって互いに接続されている。入力/出力(I/O)インタフェース505もバス504に接続されている。
デバイス500における複数の部品は、I/Oインタフェースに接続され、キーボード、マウスなどの入力ユニット506と、様々なディスプレイ、スピーカーなどの出力ユニット507と、磁気ディスク、光ディスクなどの記憶ユニット508と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット509とを含む。通信ユニット509は、デバイス500がインターネットなどのコンピュータネットワーク及び/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換する可能である。
処理ユニット501は、前記説明した各方法や処理を実行し、例えば方法200である。例えば、ある実施例において、方法200はコンピュータソフトウェアプログラムに実現されることができ、例えば記憶ユニット508である機器読み取り可能な媒体に有形的に含まれる。ある実施例において、コンピュータプログラムの部分または全てはROM502及び/または通信ユニット509を通してデバイス500にロード及び/またはインストールされている。コンピュータプログラムがRAM503にロードされ、CPU501により実行される場合に、前記説明した方法200の1つまたは複数のステップを実行することができる。代替的に、他の実施例において、CPU501は、他の任意の適当な手段(例えば、ファームウェアによる)により方法200を実行するように構成される可能である。
本願において、前記説明した機能は、少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントによって実行されることができる。例えば、制限ではなく、例示として、使用可能な例示タイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などを含む。
本願の方法を実施するためのプログラムコードは1つまたは複数のプログラミング言語の任意の組み合わせを採用してプログラミングしてもよい。これらのプログラムコードは、プロセッサまたはコントローラによって実行されるときに、フローチャート及び/またはブロック図に特定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは完全に機器で実行でき、部分的に機器で実行でき、独立したソフトウェアパッケージとして、部分的に機器で実行され、部分的にリモート機器で実行または完全にリモートマシンまたはサーバで実行される。
本願のコンテキストにおいて、機器読み取り可能な媒体は有形的な媒体であってもよく、指令実行システム、装置またはデバイスまたは指令実行システム、装置またはデバイスに合わせて使用するためのプログラムを含むまたは記憶することができる。機器読み取り可能な媒体は、機器読み取り可能なシグナル媒体または機器読み取り可能なメモリ媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置、デバイス、または前記内容の任意の適切な組合せを含むことができるが、これらに限定されない。機器読み取り可能な記憶媒体のより具体的な例示は、1つまたは複数の線に基づく電気接続、ポータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、書き込み消去可能なリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光学記憶装置、磁気記憶装置、または上述内容の任意の組み合わせを含む。
また、各動作は、特定の順序で示されているが、このような動作は、示された特定の順序または順序で実行されることを要求され、または、所望の結果を取得するように、すべての図示を要求する動作が実行されるべきであることを理解されたい。一定の環境では、マルチタスクと並列処理は有利である可能性がある。同様に、以上の検討には、いくつかの具体的な実現詳細が含まれているが、これらは、本願の範囲に対する制限と解釈されるべきではない。別の実施形態のコンテキストで説明したいくつかの特徴は、一つの実現態様に組み合わせて実現されてもよい。逆に、一つの実現態様のコンテキストに説明した各特徴は、単独にまたは任意の適当なサブ組み合わせの方式で複数の実現態様に実現することができる。
構造特徴及び/または方法論理動作に特定された内容を採用して本主題を説明したが、添付の特許請求の範囲内に限定される主題は、必ずしも前記説明した特定の特徴または動作に限定されるものではないことを理解されたい。逆に、前記説明した特定の特徴や動作は、特許請求の範囲を実現する例示に過ぎない。

Claims (18)

  1. データモデルを構築するための方法であって、
    エンティティタイプに関連する第1属性セットを取得するステップと、
    前記第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、前記エンティティタイプに関連する第2属性セットを生成するステップであって、前記第2属性セット内の2つの属性は異なる語義を有するステップと、
    前記エンティティタイプと前記第2属性セットとに基づいて、前記エンティティタイプに関連するデータモデルを構築するステップと、を含む、
    ことを特徴とするデータモデルを構築するための方法。
  2. 前記エンティティタイプに関連する前記第1属性セットを取得するステップは、
    前記エンティティタイプに関連する第3属性セットを取得するステップと、
    属性類似度に基づいて前記第3属性セットを複数のサブセットに分割するステップと、
    前記複数のサブセットのうちの1つを前記第1属性セットとして決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記第3属性セットを前記複数のサブセットに分割するステップは、
    前記第3属性セットを前記複数のサブセットに分割するように、前記第3属性セットをクラスタリングするステップを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記第1属性セット内の同じ語義を有する複数の属性をアライメントするステップは、
    第1タイプ属性ペアを取得するように、前記エンティティタイプと前記第1属性セット内の第1属性とを組み合わせるステップと、
    第2タイプ属性ペアを取得するように、前記エンティティタイプと、前記第1属性セット内の前記第1属性とは異なる第2属性とを組み合わせるステップと、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定するステップと、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有すると決定されたことに応答して、前記第1属性と前記第2属性とを同一属性にアライメントするステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定するステップは、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとの複数の類似度特徴を抽出するステップと、
    抽出された前記複数の類似度特徴に基づいて、前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定するステップと、を含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記複数の類似度特徴は、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとのテキスト類似度を示す第1類似度特徴と、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとが語義辞書で同義語であるか否かを示す第2類似度特徴と、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとの語義類似度を示す第3類似度特徴と、
    前記第1タイプ属性ペアに関連する第1群の知識項目と前記第2タイプ属性ペアに関連する第2群の知識項目とを統計して得られた第4類似度特徴と、のうちの少なくとも一つを含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記第1タイプ属性ペアと前記第2タイプ属性ペアが同じ語義を有するか否かを決定するステップは、
    訓練された分類モデルにより前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定するステップを含む、
    ことを特徴とする請求項4に記載の方法。
  8. 前記分類モデルは、サポートベクターマシン(SVM)モデルである、
    ことを特徴とする請求項7に記載の方法。
  9. データモデルを構築するための装置であって、
    エンティティタイプに関連する第1属性セットを取得するように構成される属性取得モジュールと、
    前記第1属性セット内の同じ語義を有する複数の属性を同一属性にアライメントさせ、前記エンティティタイプに関連する第2属性セットを生成するように構成される属性アライメントモジュールであって、前記第2属性セット内の2つの属性は異なる語義を有する属性アライメントモジュールと、
    前記エンティティタイプと前記第2属性セットに基づいて、前記エンティティタイプに関連するデータモデルを構築するように構成されるモデル構築モジュールと、を含む、
    ことを特徴とするデータモデルを構築するための装置。
  10. 前記属性取得モジュールは、
    前記エンティティタイプに関連する第3属性セットを取得するように構成される属性取得ユニットと、
    属性類似度に基づいて前記第3属性セットを複数のサブセットに分割するように構成されるサブセット分割ユニットと、
    前記複数のサブセットのうちの1つを前記第1属性セットとして決定するように構成される第1決定ユニットと、を含む、
    ことを特徴とする請求項9に記載の装置。
  11. 前記サブセット分割ユニットは、さらに、
    前記第3属性セットを前記複数のサブセットに分割するように、前記第3属性セットをクラスタリングする、
    ことを特徴とする請求項10に記載の装置。
  12. 前記属性アライメントモジュールは、
    第1タイプ属性ペアを取得するように、前記エンティティタイプと前記第1属性セット内の第1属性とを組み合わせるように構成される第1組み合わせユニットと、
    第2タイプ属性ペアを取得するように、前記エンティティタイプと、前記第1属性セット内の第1属性とは異なる第2属性とを組み合わせるように構成される第2組み合わせユニットと、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定するように構成される第2決定ユニットと、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有すると決定されたことに応答して、前記第1属性と前記第2属性とを同一属性にアライメントするように構成される属性アライメントユニットと、を含む、
    ことを特徴とする請求項9に記載の装置。
  13. 前記第2決定ユニットは、さらに、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアの複数の類似度特徴を抽出し、
    抽出された前記複数の類似度特徴に基づいて、前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定する、
    ことを特徴とする請求項12に記載の装置。
  14. 前記複数の類似度特徴は、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとのテキスト類似度特徴を示す第1類似度特徴と、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとが語義辞書で同義語であるか否かを示す第2類似度特徴と、
    前記第1タイプ属性ペアと前記第2タイプ属性ペアとの語義類似度を示す第3類似度特徴と、
    前記第1タイプ属性ペアに関連する第1群の知識項目と前記第2タイプ属性ペアに関連する第2群の知識項目とを統計して得られた第4類似度特徴と、のうちの少なくとも1つを含む、
    ことを特徴とする請求項13に記載の装置。
  15. 前記第2決定ユニットは、さらに、
    訓練された分類モデルにより前記第1タイプ属性ペアと前記第2タイプ属性ペアとが同じ語義を有するか否かを決定する、
    ことを特徴とする請求項12に記載の装置。
  16. 前記分類モデルは、サポートベクターマシン(SVM)モデルである、
    ことを特徴とする請求項15に記載の装置。
  17. データモデルを構築するためのデバイスであって、
    1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶する記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合に、前記1つまたは複数のプロセッサが請求項1〜8のいずれかに記載の方法を実現する、
    ことを特徴とするデータモデルを構築するためのデバイス。
  18. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムがプロセッサによって実行される場合に、請求項1〜8のいずれかに記載の方法が実現される、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2020002944A 2019-02-01 2020-01-10 データモデルを構築する方法、装置、デバイス及び媒体 Active JP7076483B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910105197.8A CN109885697B (zh) 2019-02-01 2019-02-01 构建数据模型的方法、装置、设备和介质
CN201910105197.8 2019-02-01

Publications (2)

Publication Number Publication Date
JP2020126604A true JP2020126604A (ja) 2020-08-20
JP7076483B2 JP7076483B2 (ja) 2022-05-27

Family

ID=66927892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002944A Active JP7076483B2 (ja) 2019-02-01 2020-01-10 データモデルを構築する方法、装置、デバイス及び媒体

Country Status (5)

Country Link
US (1) US20200250380A1 (ja)
EP (1) EP3690759A1 (ja)
JP (1) JP7076483B2 (ja)
KR (1) KR102354127B1 (ja)
CN (1) CN109885697B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151460B2 (en) * 2014-03-26 2021-10-19 Unanimous A. I., Inc. Adaptive population optimization for amplifying the intelligence of crowds and swarms
US11269502B2 (en) 2014-03-26 2022-03-08 Unanimous A. I., Inc. Interactive behavioral polling and machine learning for amplification of group intelligence
CN110263342A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 实体的上下位关系的挖掘方法和装置、电子设备
US11263400B2 (en) * 2019-07-05 2022-03-01 Google Llc Identifying entity attribute relations
CN112906368B (zh) * 2021-02-19 2022-09-02 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN113987131B (zh) * 2021-11-11 2022-08-23 江苏天汇空间信息研究院有限公司 异构多源数据关联分析系统和方法
US11949638B1 (en) 2023-03-04 2024-04-02 Unanimous A. I., Inc. Methods and systems for hyperchat conversations among large networked populations with collective intelligence amplification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
JP2017208015A (ja) * 2016-05-20 2017-11-24 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
US20190019088A1 (en) * 2017-07-14 2019-01-17 Guangdong Shenma Search Technology Co., Ltd. Knowledge graph construction method and device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108204B2 (en) * 2006-06-16 2012-01-31 Evgeniy Gabrilovich Text categorization using external knowledge
US10075384B2 (en) * 2013-03-15 2018-09-11 Advanced Elemental Technologies, Inc. Purposeful computing
US10380187B2 (en) * 2015-10-30 2019-08-13 International Business Machines Corporation System, method, and recording medium for knowledge graph augmentation through schema extension
CN105574089B (zh) * 2015-12-10 2020-08-28 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN106202041B (zh) * 2016-07-01 2019-07-09 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
EP3516566A1 (en) * 2016-09-22 2019-07-31 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN106897403B (zh) * 2017-02-14 2019-03-26 中国科学院电子学研究所 面向知识图谱构建的细粒度中文属性对齐方法
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
US11250042B2 (en) * 2018-06-06 2022-02-15 Microsoft Technology Licensing Llc Taxonomy enrichment using ensemble classifiers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
JP2017208015A (ja) * 2016-05-20 2017-11-24 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
US20190019088A1 (en) * 2017-07-14 2019-01-17 Guangdong Shenma Search Technology Co., Ltd. Knowledge graph construction method and device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MENG QU ET AL.: "Automatic Synonym Discovery with Knowledge Bases", ARXIVE:1706.08186V1, JPN6021008562, 25 June 2017 (2017-06-25), US, pages 1 - 9, ISSN: 0004462974 *
QIAN LIU ET AL.: "Extracting Attributes and Synonymous Attributes from Online Encyclopedias", 2014 IEEE/WIC/ACM INTERNATIONAL JOINT CONFERENCES ON WEB INTELLIGENCE (WI) AND INTELLIGENT AGENT TEC, JPN6021008561, 11 August 2014 (2014-08-11), pages 290 - 296, XP032665271, ISSN: 0004645153, DOI: 10.1109/WI-IAT.2014.46 *
YEYE HE ET AL.: "Automatic Discovery of Attribute Synonyms Using Query Logs and Table Corpora", PROCEEDINGS OF THE 25TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB, JPN6021008560, 11 April 2016 (2016-04-11), pages 1429 - 1439, XP058080013, ISSN: 0004645152, DOI: 10.1145/2872427.2874816 *

Also Published As

Publication number Publication date
CN109885697B (zh) 2022-02-18
US20200250380A1 (en) 2020-08-06
KR20200096133A (ko) 2020-08-11
EP3690759A1 (en) 2020-08-05
CN109885697A (zh) 2019-06-14
JP7076483B2 (ja) 2022-05-27
KR102354127B1 (ko) 2022-01-20

Similar Documents

Publication Publication Date Title
JP2020126604A (ja) データモデルを構築する方法、装置、デバイス及び媒体
US10963794B2 (en) Concept analysis operations utilizing accelerators
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US10915577B2 (en) Constructing enterprise-specific knowledge graphs
US9176949B2 (en) Systems and methods for sentence comparison and sentence-based search
Khuc et al. Towards building large-scale distributed systems for twitter sentiment analysis
EP3867789A2 (en) Techniques for ranking content item recommendations
US20190377793A1 (en) Method and apparatus for establishing a hierarchical intent system
US20150310096A1 (en) Comparing document contents using a constructed topic model
US11580119B2 (en) System and method for automatic persona generation using small text components
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
EP3598436A1 (en) Structuring and grouping of voice queries
Hegde et al. Aspect based feature extraction and sentiment classification of review data sets using Incremental machine learning algorithm
CN106778880B (zh) 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
US11573994B2 (en) Encoding entity representations for cross-document coreference
US20190318191A1 (en) Noise mitigation in vector space representations of item collections
Kastrati et al. An improved concept vector space model for ontology based classification
Godara et al. Support vector machine classifier with principal component analysis and k mean for sarcasm detection
Bova et al. Multi-level ontological model of big data processing
CN114357180A (zh) 知识图谱的更新方法及电子设备
Hao et al. Discovering mis-categorized entities
Wang et al. A graph-based approach for semantic similar word retrieval
US11748342B2 (en) Natural language based processor and query constructor
Zhang et al. The improved algorithm of semantic similarity based on the multi-dictionary
CN112818167A (zh) 实体检索方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220318

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220318

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220328

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220517

R150 Certificate of patent or registration of utility model

Ref document number: 7076483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150