JP2023004969A

JP2023004969A - 知識グラフ埋め込みモデルを訓練するための装置、コンピュータプログラム、及び、コンピュータ実装された方法

Info

Publication number: JP2023004969A
Application number: JP2022101646A
Authority: JP
Inventors: ドモコスチャバ; Domokos Csaba; ステパノワダリア; Stepanova Daria; アンドレーゼルメディナ; Andresel Medina; キエンチャンチュン; Chenxi Zhang
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-06-25
Filing date: 2022-06-24
Publication date: 2023-01-17
Also published as: EP4109348A1; CN115599922A; US20220414480A1

Abstract

【課題】オントロジー（２０２）によって強化される知識グラフ（２００）の知識グラフ埋め込みモデル（２０８）を訓練するための装置、コンピュータプログラム、及び、コンピュータ実装された方法に関する。【解決手段】本方法は、知識グラフ埋め込みモデル（２０８）を、第１の訓練クエリと、第１の訓練クエリの所定の応答とを用いて、知識グラフ埋め込みモデル（２０８）における応答の埋め込みと、知識グラフ埋め込みモデル（２０８）における第１の訓練クエリの埋め込みとの間の距離を減少させるために、特に最小化するために、かつ、応答の埋め込みと、知識グラフ埋め込みモデル（２０８）における第２の訓練クエリの埋め込みとの間の距離を減少させるために、特に最小化するために、訓練すること（２）を含み、第２の訓練クエリは、オントロジー（２０２）に依存して第１の訓練クエリから決定される（１）。【選択図】図２

Description

背景
本発明は、知識グラフ埋め込みモデルを訓練するための装置、コンピュータプログラム、及び、コンピュータ実装された方法に関する。

知識グラフ埋め込みモデルは、クエリに対する応答を提供するように訓練可能である。不完全な知識グラフに対するクエリに応答する体系的な手法を有する方法を提供することが望ましい。

発明の開示
オントロジーによって強化される知識グラフの知識グラフ埋め込みモデルを訓練するためのコンピュータ実装された方法は、知識グラフ埋め込みモデルを、第１の訓練クエリと、第１の訓練クエリの所定の応答とを用いて、知識グラフ埋め込みモデルにおける応答の埋め込みと、知識グラフ埋め込みモデルにおける第１の訓練クエリの埋め込みとの間の距離を減少させるために、特に最小化するために、かつ、応答の埋め込みと、知識グラフ埋め込みモデルにおける第２の訓練クエリの埋め込みとの間の距離を減少させるために、特に最小化するために、訓練することを含み、第２の訓練クエリは、オントロジーに依存して第１の訓練クエリから決定される。第２の訓練クエリは、知識グラフにおける応答を有する所定のクエリの特化である。これにより、不完全な知識グラフに対する連言クエリ（conjunctive query）に応答するために、知識グラフ埋め込みモデルを訓練することが可能となる。訓練は、元々の知識グラフだけでなく、知識グラフに付随するオントロジーにも依存している。第２の訓練クエリの埋め込みは、第２の訓練クエリを決定するために使用されたオントロジー公理を考慮している。

第１の訓練クエリをサンプリングするために、本方法は、オントロジーに従って無矛盾である、可能性のある単項の連続的なクエリの集合と、知識グラフのエンティティの集合及び関係の集合とを決定することと、単項の連続的なクエリの集合から第１の訓練クエリを選択することとを含み得る。訓練するためのクエリをランダムにサンプリングする代わりに、オントロジーに依存してクエリを戦略的にサンプリングのための方法が提供される。

本方法は、第１の訓練クエリを所定のクエリ形状に従って決定することを含み得る。クエリをランダムにサンプリングする代わりに、所定のクエリ形状に従ったクエリが考慮される。ランダムに選択された例は、オントロジーに基づいて互いに関連するクエリを何ら含まない可能性がある。このことは、オントロジーに基づくサンプリングによって回避される。

本方法は、クエリを、特にランダムにサンプリングすることと、オントロジーを用いてクエリの汎化を決定することと、汎化から、特に汎化の特化から第２の訓練クエリを決定することとを含み得る。汎化は、複数の特化を記述し、オントロジーに従って第１の訓練クエリに類似する多くの異なる訓練クエリを決定することを可能にする。

本方法は、汎化深さを提供し、汎化深さまでクエリの汎化を決定すること、及び／又は、特化深さを提供し、特化深さまでクエリの特化を決定することを含み得る。このことは、実質的に、計算労力を制限するためである。

本方法は、知識グラフ埋め込みモデルを用いて、連言クエリに対する応答を提供することを含み得る。

本方法は、第１の訓練クエリの埋め込みと、第１の訓練クエリに対する応答ではない所定のエンティティの少なくとも１つの埋め込みとの間の距離を増加させるために、特に最大化するために、及び／又は、第２の訓練クエリの埋め込みと、第２の訓練クエリに対する応答ではない所定のエンティティの少なくとも１つの埋め込みとの間の距離を増加させるために、特に最大化するために、知識グラフ埋め込みモデルを訓練することを含み得る。このようにすると、訓練の結果、第１の訓練クエリの埋め込みは、第１の訓練クエリの非応答の埋め込みによりも、第１の訓練クエリの応答の埋め込みの方に近づくこととなる。

オントロジーによって強化される知識グラフの知識グラフ埋め込みモデルを訓練するための装置は、本方法における各ステップを実施するように構成されている。

コンピュータプログラムは、コンピュータによって実行された場合に、本方法をコンピュータに実施させるためのコンピュータ可読命令を含む。

以下の説明及び図面から、さらなる有利な実施形態を導き出すことができる。

知識グラフパターンを示す図である。知識グラフのための知識グラフ埋め込みモデルを訓練するための方法を示す図である。知識グラフのための知識グラフ埋め込みモデルを訓練するための装置を示す図である。

知識グラフＫＧは、エンティティの集合及び関係の集合を含む。ＫＧは、特定の関心ドメインに関するファクトを、エンティティの集合のうちの少なくとも１つのエンティティを用いてそのファクトを表現することによって記述し、エンティティの集合のうちのこの少なくとも１つのエンティティは、関係の集合のうちの少なくとも１つの関係を介して、エンティティの集合のうちの少なくとも１つの他のエンティティに相互接続されている。

ＫＧ表現においては、エンティティは、ＫＧのノードによって表現され、２つのエンティティの間の関係が、これらのノードの間のＫＧのエッジによって表現される。

ファクトは、主語（subject）と、述語（predicate）と、目的語（object）とのトリプルである。ＫＧにおいては、主語は、エンティティであり、目的語は、エンティティであり、述語は、関係である。

ＫＧの知識グラフ埋め込みＫＧＥにおいては、エンティティが埋め込みによって表現される。ＫＧＥにおいては、関係が埋め込みによって表現される。ファクトの主語の埋め込みと、述語の埋め込みと、目的語の埋め込みとのトリプルが、ＫＧＥにおけるファクトを表現する。

ＫＧは、第１の所与のエンティティと第２の所与のエンティティとの間の関係を予測するために使用可能である。関係は、関係の集合からスコアに依存して選択可能である。スコアは、ＫＧＥにおける第１のエンティティの埋め込みと、ＫＧＥにおける第２のエンティティの埋め込みと、ＫＧＥにおける関係の埋め込みとをスコアにマッピングするスコア関数を用いて決定可能である。

埋め込みは、ベクトル空間内のベクトルであるものとしてよい。スコア関数を用いてスコアを決定することは、ベクトル和を決定することを含み得る。ベクトル和を決定することは、第１のエンティティを表現するベクトルに、関係を表現するベクトルを加算することを含み得る。スコアを決定することは、ベクトル和から第２のエンティティを表現するベクトルまでの距離を決定することを含み得る。

エンティティの埋め込みは、第１のベクトル空間内のベクトルであるものとしてよい。関係の埋め込みは、第２のベクトル空間内のベクトルであるものとしてよい。スコアを決定することは、第１のベクトル空間内の第１のエンティティを表現する第１のベクトルと、第２のベクトル空間内の第１のベクトルとのマッピングを決定することを含み得る。スコアを決定することは、第１のベクトル空間内の第２のエンティティを表現する第２のベクトルと、第２のベクトル空間内の第２のベクトルとのマッピングを決定することを含み得る。スコア関数を用いてスコアを決定することは、ベクトル和を決定することを含み得る。ベクトル和を決定することは、第１のベクトルに、第２のベクトル空間内の関係を表現するベクトルを加算することを含み得る。スコアを決定することは、ベクトル和から第２のベクトルまでの距離を決定することを含み得る。

一例においては、距離は、ユークリッド距離である。

ＫＧとの関係を予測するために、２つの所与のエンティティを含む入力を、関係を含む出力にマッピングすることができる。関係は、関係の集合から選択可能である。一例においては、選択された関係は、関係の集合のうちの少なくとも１つの他の関係よりも高いスコアを結果的にもたらす。好ましくは、関係の集合において最高のスコアの関係を結果的にもたらすような関係が選択される。

ニューラルネットワークは、ＫＧＥを表現するように訓練可能である。ニューラルネットワークは、埋め込みのトリプルを含む訓練データを用いて訓練可能である。訓練データは、ＫＧの真のファクトを表現するトリプルを含み得る。訓練データは、ＫＧの真のファクトではないトリプルを表現するトリプルを含み得る。

ニューラルネットワークは、エンティティの集合のうちの第１の所与のエンティティの第１の埋め込みと、第２の所与のエンティティの第２の埋め込みとを、関係の集合のうちのそれぞれの関係ごとのスコアにマッピングするように訓練可能である。関係のスコアは、関係に関して、この関係が第１の所与のエンティティと第２の所与のエンティティとの間の関係である確率を表す。

ニューラルネットワークは、所与のエンティティの埋め込みと、関係の集合のうちの所与の関係の埋め込みとを、エンティティの集合のうちのそれぞれのエンティティごとのスコアにマッピングするように訓練可能である。エンティティのスコアは、エンティティに関して、このエンティティが所与のエンティティに対する所与の関係を有するエンティティである確率を表す。

ＫＧは、自然質問応答、ウェブ検索及びデータ分析のために広く使用されている。ＫＧは、数百万のファクトに関する情報を格納している。

ＫＧは、自動的に、半自動的に又は少なくとも部分的に手動により、例えばクラウドソーシング法を使用することによって構築可能である。

訓練においては、ＫＧ又はＫＧＥ、特にニューラルネットワークは、利用可能な知識を表現するために、訓練データを用いて訓練可能である。訓練データは、真のファクトを表現する正のトリプルと、正しくないファクトを表現する負のトリプルとを含み得る。

ＫＧ又はＫＧＥ、特にニューラルネットワークは、正のトリプル及び負のトリプルを用いて訓練可能である。

本方法は、正しいトリプル即ち正のトリプルと、正しくないトリプル即ち負のトリプルとを識別する。

ＫＧは、ファクトに基づいた情報の、相互リンクされた集合体を表現する。ＫＧは、（主語；述語；目的語）のトリプル、例えば（ｊｏｈｎ；ｗｏｒｋｓＡｔ；ｂｏｓｃｈ）の集合としてエンコード可能である。このようなトリプルのうちの主語又は目的語は、エンティティと称され、述語は、関係と称される。ＫＧのトリプルの集合は、有向グラフとして表現可能であり、この有向グラフの頂点及び辺にはラベルが付されている。ＫＧトリプルは、ファクトと称される。ＫＧファクトは、ｍａｎ（ｊｏｈｎ），ｗｏｒｋｓＡｔ（ｊｏｈｎ；ｂｏｓｃｈ）のように、単項又は二項の基底述語として表現可能である。

本例においては、ＫＧＧのシグネチャ

は、Ｇに出現するエンティティ

の集合及び関係Ｒの集合を定義する。シグネチャΣ_Ｇ内の関係Ｒは、述語、即ち、ＫＧのエッジを表現する。シグネチャΣ_Ｇ内の定数は、エンティティ

、即ち、ＫＧのノード、又は、関係Ｒを表現する。

ＫＧＥは、ＫＧのエンティティ及び関係を、ユーザ指定された次元ｎを有する連続的なベクトル空間に埋め込むことに関する。より具体的には、ＫＧＥモデルは、ＫＧトリプルの集合を入力として受信し、ＫＧ構造を反映するいくつかの特徴が保持されるように、エンティティ及び関係をｎ次元のベクトル空間にマッピングすることを目的とする。これらの特徴は、それぞれのＫＧＥモデルの目的関数によって捕捉される。このようにして、リレーショナルデータから数値ベクトルの集合が得られる。

オントロジーは、公理の集合として表現される関心ドメインを概念化したものである。オントロジーは、ＫＧが従うべきスキーム、例えば、

を反映している。

第１の公理は、企業で働く人は従業員であると陳述し、その一方で、第２の公理は、関係ｍａｎａｇｅｒＡｔが関係ｗｏｒｋｓＡｔよりも特有であることを示す。

本発明は、Artale, A., Calvanese, D., Kontchakov, R., Zakharyaschev, M.: The DL-lite family and relations. CoRR abs/1401.3487 (2014)によるＤＬ－ｌｉｔｅ_Ａにおけるオントロジーに、ルールの右側の実存論的な制約なしに基づいている。サポートされる例示的なルール形式の概要は、
（１）ｔｙｐｅ（Ｘ，Ａ）→ｔｙｐｅ（Ｘ，Ｂ）
（２）ｐ（Ｘ，Ｙ）→ｔｙｐｅ（Ｘ，Ａ）
（３）ｐ（Ｘ，Ｙ）→ｔｙｐｅ（Ｙ，Ａ）
（４）ｐ（Ｘ，Ｙ）→ｓ（Ｘ，Ｙ）
（５）ｐ（Ｘ，Ｙ）→ｓ（Ｙ，Ｘ）
である。

連言クエリは、ｑ（Ｘ_１，Ｘ_２，・・・，Ｘ_ｋ）←Ｂ又は＜Ｘ_１，Ｘ_２，・・・，Ｘ_ｋ＞←Ｂの形式で表現したものであり、ここで、Ｂは、ルールにおいて定義されたボディであり、Ｘ_１，Ｘ_２，・・・，Ｘ_ｋは、応答変数、即ち、クエリの応答を保持する変数である。単項のＣＱ（monadic conjunctive query）は、単一の応答変数を有するＣＱである。

ＫＧ及びオントロジーＯに関して、ＣＱに対する特定の応答は、ＫＧ及びオントロジーＯの結果として生じる全てのファクトによって強化されたＫＧに対して得られる応答である。

ユーザによって自然言語で定式化された情報ニーズは、例えば、Yahya, M., Berberich, K., Elbassuoni, S., Ramanath, M., Tresp, V., Weikum, G.: Deep answers for naturally asked questions on the web of data. In: Proceedings of the 21st World Wide Web Conference, WWW 2012, Lyon, France, April 16-20, 2012 (Companion Volume). pp. 445-449 (2012)に開示されている方法を使用して、そのような形式的なＣＱに翻訳される。例えば、人とその職場とに関する情報を格納しているＫＧの場合、ユーザは、Ｂｏｓｃｈ社のいくつかのＩＴ部門で働いている全ての人に興味がある可能性がある。形式的には、このようなクエリは、
Ｑ（Ｘ）←ｗｏｒｋＡｔ（Ｘ，ｂｏｓｃｈ）；ｅｍｐｌｏｙｅｄＩｎ（Ｘ，Ｙ）；ｔｙｐｅ（Ｙ，ｉｔ＿ｄｅｐａｒｔｍｅｎｔ）
のように定式化されるべきであり、これは、単項のＣＱである。

連言クエリは、ＫＧパターンとして自然に表現可能である。上記のクエリに対応するＫＧパターンについて、例示的なＫＧパターンが図１に示されている。

以下に、不完全なＫＧに対してＣＱに応答するための方法を説明する。本方法は、元々のＫＧのみならず、ＫＧが付随するオントロジーＯにも依存している。

本方法は、オントロジーに基づく訓練戦略を含み、オントロジー公理を考慮することを可能にする損失関数を拡張し、拡張された損失関数を使用する。このような損失関数は、例えば、Ren, H., Hu, W., Leskovec, J.: Query2box: Reasoning over knowledge graphs in vector space using box embedding. In: ICLR. OpenReview.net (2000)に記載されている。

エンティティは、ｄ次元のベクトル空間内に点として埋め込まれる。

クエリは、ボックスとして埋め込まれる。この文脈におけるボックスとは、ｄ次元のベクトル空間内の、座標軸に平行な超長方形（axis-aligned hyper-rectangle）を指す。

（ΣＧ；Ｑ_Ｇ）についてのｄ次元の埋め込みは、

をｃ∈Ｒ^ｄにマッピングし、かつ、ｑ∈Ｑ_Ｇを

にマッピングする関数Ｆであり、ここで、シグネチャΣ_Ｇは、ＫＧＧの所与のシグネチャ

であり、Ｑ_Ｇは、シグネチャΣ_Ｇに対する単項のＣＱの集合であり、ｃｅｎ_ｑは、ボックスの中心であり、ｏｆｆ_ｑは、ボックスのオフセットｃｅｎ_ｑである。ボックスの中心ｃｅｎ_ｑまでの距離ｏｆｆ_ｑの内部にある、ｄ次元ベクトル空間の任意の点は、ボックスの内側にあるとみなされる。

オントロジールールＢ_１，・・・，Ｂ_ｎ→Ｈは、Ｂ_１，・・・，Ｂ_ｎが保持されるときにはいつでもＨを強制的に保持するように、ＫＧＥモデルを構成することができる場合に、ＫＧＥモデルに注入可能である。

本方法は、クエリボックスの内側の点の集合がＣＱの応答エンティティの集合に対応するという条件に従ってＣＱを埋め込むことを目的とする。それぞれのオントロジールールごとにルールの左手側及び右手側をクエリに変換することができるので、オントロジーをＫＧＥモデルに注入することは、それぞれのクエリに対応するボックスの相互の包含を保証することに等しい。

本方法を、図２を参照してさらに説明する。

本方法への入力は、ＫＧ２００及びオントロジー２０２である。任意選択肢として、以下に説明するようにクエリ深さ２０４が提供される。

訓練は、正のサンプル２０６－１及び負のサンプル２０６－２に基づいている。訓練においては、ＫＧＥモデル２０８が訓練される。

本方法は、ステップ１を含む。

ステップ１は、正のサンプル及び負のサンプルを決定することを含む。

正のサンプルは、訓練クエリと、その応答とを含む。訓練クエリは、以下に説明される訓練戦略に従って決定される。負のサンプルは、正のサンプルと同様に構造化されており、特に、ＫＧからランダムにサンプリングされる。

本例においては、複数の正のサンプル及び複数の負のサンプルが決定される。

その後、ステップ２が実施される。

ステップ２は、正のサンプル及び負のサンプルを用いてＫＧＥモデル２０８を訓練することを含む。ＫＧＥモデル２０８は、本例においては、複数の正のサンプル及び複数の負のサンプルを用いて訓練される。

訓練目的、特にＫＧＥモデル２０８を訓練するための損失関数を、以下に説明する。

ステップ２の結果として計算されたＫＧＥモデルを使用して、ＣＱに応答することができる。

ステップ１において活用される訓練戦略は、ＫＧ２００のシグネチャΣ_Ｇ内の述語及び定数を使用して形成することができる可能な単項のＣＱの集合Ｑ_Ｇを考慮している。好ましくは、全ての可能な単項のＣＱが考慮される。

即ち、本方法は、知識グラフ２００に出現するエンティティの集合及び関係の集合を使用して、オントロジーによって、即ち、オントロジーに従って形成することができる可能な単項の連続的なクエリの集合Ｑ_Ｇから、訓練クエリを決定することを含み得る。

以下に、オントロジーによってガイドされるように訓練クエリを決定するための３つの例を説明する。

特定の応答に基づくサンプリング：
特定の応答に基づくサンプリングは、クエリをランダムにサンプリングすることと、それらのクエリを、訓練において標準の応答ではなくそれらのクエリの特定の応答とともに使用することとを含む。

オントロジーが、クエリ応答を効率的に実施することができる言語での公理を含む場合には、訓練クエリを、それら訓練クエリの特定の応答とともに生成することが、実際に実現可能である。特定の応答に基づくサンプリングのための例示的な言語は、Artale, A., Calvanese, D., Kontchakov, R., Zakharyaschev, M.: The dl-lite family and relations. CoRR abs/1401.3487 (2014)に開示されている。

例として、ＫＧ２００が、以下のファクト：
ｈａｓＡｌｕｍｎｕｓ（ｕ１，ｐｅｔｅ）；
ｗｏｒｋｓＦｏｒ（ｐｅｔｅ，ｉｂｍ）；
ｈａｓＡｌｕｍｎｕｓ（ｕ１，ｊｏｈｎ）；
ｍａｎａｇｅｒＡｔ（ｊｏｈｎ，ｂｏｓｃｈ）
を格納していて、オントロジーＯが、以下のルール：
ｍａｎａｇｅｒＡｔ（Ｘ，Ｙ）→ｗｏｒｋｓＡｔ（Ｘ，Ｙ）
と、特にランダムに選択された所与のクエリ：
ｑ１（Ｘ）←ｈａｓＡｌｕｍｎｕｓ（ｕ１，Ｘ）＾ｗｏｒｋｓＦｏｒ（Ｘ，Ｙ）
とを含み、そのクエリの特定の応答が、
｛ｊｏｈｎ，ｐｅｔｅ｝
であると仮定する。

本例においては、このクエリと、そのクエリの特定の応答とが、訓練ステップ２のための正のサンプルを定義する。

クエリ書き換えに基づくサンプリング：
クエリ書き換えに基づくサンプリングは、ランダムにサンプリングされたクエリの集合に、それらのクエリの特化（specialization）及び汎化（generalization）も追加する。クエリの特化は、オントロジーＯを考慮して得られる。クエリの汎化は、オントロジーＯを考慮して得られる。

所与のクエリｑの特化は、以下においてはＳｐｅｃ（ｑ）として表される。特化は、クエリｑに対する応答を構築するために有用である可能性のある情報を組み込んでいる。所与のクエリｑの汎化は、Ｇｅｎ（ｑ）として表される。汎化は、もっともらしい欠落した応答である可能性のある追加的な関連するエンティティを組み込んでいる。

クエリの汎化

及び特化

を取得するための例示的なルールは、

である。

例として、以下の公理：
ｔｙｐｅ（Ｘ，ａｓｓｉｓｔ＿ｐｒｏｆ）→ｔｙｐｅ（Ｘ，ｐｒｏｆｅｓｓｏｒ）；ｔｅａｃｈｅｓＡｔ（Ｘ，Ｙ）→ｗｏｒｋｓＡｔ（Ｘ，Ｙ）
と、以下のクエリ：
ｑ（Ｘ）←ｔｙｐｅ（Ｘ，ａｓｓｉｓｔ＿ｐｒｏｆ）＾ｗｏｒｋｓＦｏｒ（Ｘ，Ｙ）
とが与えられた場合、第１のルールＲ１は、クエリｑの汎化として
ｑ’（Ｘ）←ｔｙｐｅ（Ｘ，ｐｒｏｆｅｓｓｏｒ）＾ｗｏｒｋｓＦｏｒ（Ｘ，Ｙ）
をもたらし、第３のルールＲ３は、クエリｑ’の特化として
ｑ’’（Ｘ）←ｔｙｐｅ（Ｘ，ａｓｓｉｓｔ＿ｐｒｏｆ）＾ｔｅａｃｈｅｓＡｔ（Ｘ，Ｙ）
をもたらす。

本方法は、複数のクエリを、それらのクエリの汎化及び特化とともにランダムにサンプリングすることを含み得るものであり、複数のクエリと、それらのクエリの汎化及び特化とを使用して、訓練サンプルを構築することができる。

計算労力を軽減するために、本方法は、汎化深さｋ_ｇ及び／又は特化深さｋ_ｓを提供することを含み得るものであり、この汎化深さｋ_ｇ及び／又は特化深さｋ_ｓまで、訓練クエリが生成される。本例においては、本方法に入力されるクエリ深さ２０４が、汎化深さｋ_ｇ及び／又は特化深さｋ_ｓを定義する。

ランダムなクエリに汎化及び特化を追加することによって、オントロジーの背景知識のいくつかの部分を捕捉することが可能となる。

オントロジーに基づく戦略的な訓練：
オントロジーに基づく戦略的な訓練は、オントロジーＯに基づいて関連するクエリを見つけることを目的とする。

本方法は、オントロジーＯに依存することによって訓練クエリを生成することを含み得る。

目標クエリの集合が、有向非巡回グラフ（Ｎ，Ｅ）によって定式化され、ここで、Ｎは、ノードの集合であり、Ｅは、有向エッジの集合である。このような有向非巡回グラフＤＡＧは、クエリ形状を捕捉する。この形状を、関係Ｒ及び定数の集合によってシグネチャΣ_Ｇからインスタンス化することができる。シグネチャΣ_Ｇは、まださらに決定されるべき関係Ｒ又はエンティティ

のためのシンボル、例えば、関係シンボル又は変数をさらに含み得る。次いで、シグネチャΣ_Ｇ内のシンボルをＫＧのノード及びエッジに割り当てるためのラベル付け関数ｆを適用することにより、目標クエリの集合が得られる。

本例においては、クエリ形状Ｓは、タプル（Ｎ，Ｅ，Ａ，ｎ）であり、従って、（Ｎ，Ｅ）は、ＤＡＧであり、ｎ∈Ｎは、Ｓの識別ノードであり、Ａ⊆Ｎは、Ｓにおけるアンカーノードの集合を表す。シグネチャΣ_Ｇからの関係及び定数の所与の集合について、ラベル付け関数ｆは、Ｎ∪ＥからΣ_Ｇ∪Ｖへのマッピングであり、ここで、Ｖは、変数の集合であり、従って、それぞれのアンカーノードは、定数にマッピングされ、それぞれの非アンカーノードは、変数又は定数のいずれかにマッピングされ、それぞれのエッジは、シグネチャΣ_Ｇ内の関係シンボルにマッピングされる。

シグネチャΣ_Ｇ及びクエリ形状Ｓが与えられた場合、ＣＱの集合は、

であり、ただし、

である。

本例においては、ラベル付け関数ｆは、以下の集合：

によって決定され、ここで、所与の関係ｐについて：
ｉｎｖ（ｐ）は、ｐの全ての逆関係を含む集合である。
ｄｏｍ（ｐ）は、ｐの複数のドメインタイプを含む集合である。ｄｏｍ（ｐ）は、好ましくは全てのドメインタイプを含む。
ｒａｎｇｅ（ｐ）は、ｐの複数の範囲タイプを含む集合である。ｒａｎｇｅ（ｐ）は、好ましくは全ての範囲タイプを含む。
ｆｏｌｌｏｗｓ（ｐ）は、ｐに続くことができる複数の関係ｐ’を含む集合である。ｆｏｌｌｏｗｓ（ｐ）は、好ましくは全てのそのような関係ｐ’を含む。
ｉｎｔｅｒ_ｒ（ｐ）は、範囲内でｐと交差することができる複数の関係ｐ’を含む集合である。ｉｎｔｅｒ_ｒ（ｐ）は、好ましくは全てのこのような関係ｐ’を含む。
ｉｎｔｅｒ_ｄ（ｐ）は、ドメイン位置においてｐと交差することができる複数の関係ｐ’を含む集合である。ｉｎｔｅｒ_ｄ（ｐ）は、好ましくは全てのこのような関係ｐ’を含む。

本例においては、クエリ形状Ｓ及びオントロジーＯに関して、エッジのそれぞれのペアｅ＝（ｎ_１，ｎ_２），ｅ’＝（ｎ_２，ｎ_３）について、
ｆ（ｅ’）∈ｆｏｌｌｏｗｓ（ｆ（ｅ））である場合、又は、
ｆ（ｅ）＝ｔｙｐｅ，ｆ（ｎ_２）＝ＡかつＡ∈ｄｏｍ（ｆ（ｅ’））である場合、又は、
ｐ∈ｉｎｖ（ｆ（ｅ’））かつＡ∈ｒａｎｇｅ（ｐ）である場合、又は、
ｆ（ｅ’）∈ｔｙｐｅ，ｆ（ｎ_３）＝ＡかつＡ∈ｒａｎｇｅ（ｆ（ｅ））である場合、又は、
ｐ∈ｉｎｖ（ｆ（ｅ））かつＡ∈ｄｏｍ（ｐ）である場合には、
ラベル付け関数ｆは、Ｏに関してＳに対して有効である。

本例においては、クエリ形状Ｓ及びオントロジーＯに関して、エッジのそれぞれのペアｅ＝（ｎ_１，ｎ_２），ｅ’＝（ｎ_３，ｎ_２）について、
ｆ（ｅ’）∈ｉｎｔｅｒ_ｒ（ｆ（ｅ））である場合、又は、
ｆ（ｅ）＝ｔｙｐｅ，ｆ（ｎ_２）＝ＡかつＡ∈ｄｏｍ（ｆ（ｅ’））である場合、又は、
ｐ∈ｉｎｖ（ｆ（ｅ’））かつＡ∈ｒａｎｇｅ（ｐ）である場合、又は、
ｆ（ｅ）＝ｆ（ｅ’）＝ｔｙｐｅ，ｆ（ｎ_１）＝Ａ_１，ｆ（ｎ_３）＝Ａ２であって、かつ、

となるような概念Ａが存在する場合には、
ラベル付け関数ｆは、Ｏに関してＳに対して有効である。

本例においては、クエリ形状Ｓ及びオントロジーＯに関して、エッジのそれぞれのペアｅ＝（ｎ_１，ｎ_２），ｅ’＝（ｎ_１，ｎ_３）について、
ｆ（ｅ’）∈ｉｎｔｅｒ_ｄ（ｆ（ｅ））である場合、又は、
ｆ（ｅ）＝ｔｙｐｅ，ｆ（ｎ_２）＝ＡかつＡ∈ｄｏｍ（ｆ（ｅ’））である場合、又は、
ｐ∈ｉｎｖ（ｆ（ｅ’））かつＡ∈ｒａｎｇｅ（ｐ）である場合、又は、
ｆ（ｅ）＝ｆ（ｅ’）＝ｔｙｐｅ，ｆ（ｎ_２）＝Ａ_１，ｆ（ｎ_３）＝Ａ_２であって、かつ、

となるようないくつかのエンティティＡが存在する場合には、
ラベル付け関数ｆは、Ｏに関してＳに対して有効である。

上記の＊記号は、例えば、ｔｙｐｅ（Ｘ，Ａ）→ｔｙｐｅ（Ｘ，Ａ_１）→ｔｙｐｅ（Ｘ，Ａ’_１）→ｔｙｐｅ（Ｘ，Ａ’’_１）・・・ｔｙｐｅ（Ｘ，Ａ）のように、複数の公理を介して汎化を実施することができることを反映している。

このようにして、意味論的に意味のあるクエリが作成される。

例として、クエリ形状
Ｓ＝（｛ｎ_１ｎ_２；ｎ_３｝，｛ｅ_１＝（ｎ_１ｎ_２），ｅ_２＝（ｎ_２，ｎ_３）ｇ｝，ｎ_１）
と、
ｆ_１（ｅ_１）＝ｗｏｒｋｓＡｔ、及び、
ｆ_２（ｅ_２）＝ｔｙｐｅ、及び、
ｆ_３（ｅ_３）＝ｗｏｒｋｓＡｔ
をマッピングするラベル付け関数ｆ_１とが与えられた場合、ラベル付け関数ｆ_１（ｎ_３）＝ｃｏｍｐａｎｙは、オントロジーＯに関して有効であるが、その一方で、ラベル付け関数ｆ_２（ｅ_１）＝ｗｏｒｋｓＡｔ及びｆ_２（ｅ_２）＝ｔｅａｃｈｅｓＡｔは、ｗｏｒｋｓＡｔの範囲と、ｔｅａｃｈｅｓＡｔのドメインとが交差していないので、オントロジーＯに関して有効ではない。

複数の訓練クエリを含む訓練集合は、例えば、それぞれのクエリ形状に対するそれぞれの有効なラベル付け関数を計算し、オントロジーＯによって捕捉されないデータパターンを追加することによって構築される。この文脈における、オントロジーＯによって捕捉されないデータパターンとは、その汎化又は特化であるものとしてよい。

本例においては、ＫＧに対する応答を有している所与の形状Ｓの全てのラベル付けされたクエリは、単項のＣＱの集合Ｑ_Ｇである。オントロジーＯを使用して、それぞれのクエリの汎化が、例えば、上記のルールＲ１乃至Ｒ６によって決定される。取得された複数の訓練クエリは、本例においては、オントロジーＯと、データパターンの集合とが与えられた場合に構成することができる全てのクエリを含む。

本方法は、それぞれのアンカーノードに対して、特にランダムに、有効なエンティティの一部を選択することを含み得る。即ち、アンカーとして選択されたそれぞれのエンティティに対して、結果として生じるクエリにより、ＫＧ２００に対する特定の応答が生成される。

Ren, H., Leskovec, J.: Beta embedding for multi-hop logical reasoning in knowledge graphs. In: Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual (2020)は、目的関数を用いて知識グラフ埋め込みモデルを訓練するための例示的な訓練方法を開示している。

ＫＧＥモデル２０８は、この訓練方法に基づいている。この方法とは対照的に、訓練のための目的関数は、オントロジー公理も考慮する。

本例における方法は、オントロジーＯに依存して、クエリの汎化及び／又は特化を含む、クエリの表現を学習することを目的とする。

本例における方法は、クエリの埋め込みと、応答、即ち、正のサンプルを表現する埋め込みとの間の距離を減少させること、好ましくは最小化することを目的とし、その一方で、クエリの埋め込みと、非応答、即ち、負のサンプルを表現する埋め込みとの間の距離を増加させること、特に最大化することを目的とする。

本例においては、距離は、ｂｏｘ_ｑとｖとの間のＬ_１距離として、クエリボックス

と、エンティティベクトル

との間の距離であり、即ち、
ｄ（ｖ，ｑ）＝ｍａｘ（ｖ－ｑ_ｍａｘ，０）＋ｍａｘ（ｑ_ｍｉｎ－ｖ，０）
であり、ここで、
ｑ_ｍａｘ＝Ｃｅｎ_ｑ＋Ｏｆｆ_ｑかつｑ_ｍｉｎ＝Ｃｅｎ_ｑ－Ｏｆｆ_ｑ
である。

本例においては、関数

が、距離を（０，１）の間隔に変換し、ここで、γ≧０は、マージンであり、σ＞０は、ペナルティの強さを制御する。

本方法は、特定の訓練クエリｑが、オントロジーＯに依存している他のクエリｑ’の汎化である場合に、訓練クエリｑのためのボックスｂｏｘ_ｑが、この他の訓練クエリｑ’のためのボックスｂｏｘ_ｑ’を含むことを保証することを目的とする。

より一般的には、ａが訓練クエリｑに対する応答エンティティである場合、本方法は、応答ａと訓練クエリｑとの間の距離だけでなく、応答ａと訓練クエリｑの特化との間の距離も最小化することを目的とする。

一例においては、クエリの所与の訓練集合が、クエリの応答とともに提供され、同様にして、クエリの複数の汎化又はクエリの全ての汎化も提供される。

例えば、クエリｑの全ての汎化の集合Ｇｅｎ（ｑ）＝｛ｑ_１，・・・，ｑ_ｎ｝が、オントロジーＯに基づいて決定される。次いで、オントロジーＯに関して、訓練クエリｑと、この訓練クエリｑの特定の応答ｖ∈ｑ［Ｇ，Ｏ］とが与えられた場合、目的関数は、ｖのための損失関数であるものとしてよい。損失関数の２つの例、即ち、第１の損失関数及び第２の損失関数を以下に提示する。

第１の損失関数は、負の対数尤度：

であり、ここで、

は、負のサンプリングによって得られたランダムなエンティティであり、β≧０は、固定されたスカラーである。

第２の損失関数は、

であり、ここで、ｖ∈ｑ［Ｇ，Ｏ］は、Ｏに関するＧに対するｑの特定の応答、即ち、

であり、γは、マージンであり、ｄ＊（ｖ，ｑ）＝Σ_{ｑｉ∈Ｇｅｎ（ｑ）}β_ｉｄ（ｖ，ｑ_ｉ）及び０≦β_ｉ≦１は、固定されたスカラーである。

例として、オントロジーＯは、以下のルール
Ｏ＝｛ｔｅａｃｈｅｓＡｔ（Ｘ，Ｙ）→ｗｏｒｋｓＡｔ（Ｘ，Ｙ）；ｔｙｐｅ（Ｘ，ａｓｓｉｓｔ＿ｐｒｏｆ）→ｔｙｐｅ（Ｘ，ｐｒｏｆｅｓｓｏｒ）｝
を含み得る。

次に、ｑの汎化の集合Ｇｅｎ（ｑ）＝｛ｑ_１，ｑ_２，ｑ_３｝は、連言肢ｔｅａｃｈｅｓＡｔ（Ｘ，Ｙ）をｗｏｒｋｓＡｔ（Ｘ，Ｙ）に置き換えることによってｑから得られたｑ_１と、ｔｙｐｅ（Ｘ，ａｓｓｉｓｔ＿ｐｒｏｆ）の代わりにｔｙｐｅ（Ｘ，ｐｒｏｆｅｓｓｏｒ）を有するクエリｑであるｑ_２と、ｑ，ｑ_１，ｑ_２及びそれぞれの場合と同様である第１、第２及び第３の連言肢を有するｑ_３と、を含む。

オントロジーＯによるＫＧＧに対するクエリｑへの特定の応答がｑ［Ｇ，Ｏ］＝｛ｐ｝であるとすると、訓練目的は、関数ｐの埋め込みｖ_ｐと、クエリｑの埋め込みｂｏｘ_ｑとの間の距離も、埋め込みｖ_ｐと、クエリｑの汎化ｑ_１，ｑ_２，ｑ_３に対応する埋め込み空間内のボックスとの間の距離も最小化することである。

上で定義された２つの目的関数の一方と、上で説明された方法のうちの１つを使用して生成された正のクエリサンプル及び負のクエリサンプルとに依存して、知識グラフ埋め込みモデル２０８が訓練される。

取得された知識グラフ埋め込みモデル２０８を使用して、オントロジーを備えた不完全なＫＧに対する連言クエリに応答することができる。

知識グラフ２００、オントロジー２０２及び／又は埋め込みモデル２０８は、機械状態、デジタル画像内のオブジェクトのプロパティ、又は、質問に対する応答に関係することができる。

知識グラフ２００は、機械のステータスメッセージを機械状態にマッピングすることに関する知識を表現することができる。本方法は、ステータスメッセージを受信することと、ステータスメッセージに依存して機械状態を出力することとを含み得る。ステータスを表現する主語エンティティと、機械状態を表現する目的語エンティティとを含むトリプルが存在するかどうかを知識グラフ埋め込みモデル２０８を用いて予測することによって、状態を決定することができる。本方法は、機械状態を出力することを含み得る。

デジタル画像処理の場合、知識グラフ２００は、画像のためのオブジェクト認識において認識されるオブジェクトの記述であるものとしてよい。知識グラフ２００におけるエンティティは、オブジェクト及び／又はそのプロパティを表現することができる。本方法は、オブジェクトを受信することと、オブジェクトに依存して記述を出力することとを含み得る。

ストリートビューにおいては、オブジェクトは、自動車、人間、家、又は、インフラストラクチャの他の部分であるものとしてよい。ストリートビューにおいては、知識グラフ２００、オントロジー２０２及び／又は埋め込みモデル２０８は、オブジェクト、及び／又は、特にデジタル画像におけるオブジェクトと他のオブジェクトとの関係を記述することができる。本方法は、オブジェクトを受信することと、オブジェクトに依存して記述を出力することとを含み得る。

本方法は、オントロジーによって強化される不完全なＫＧに対する複雑なクエリに応答するために使用可能である。本方法は、例えば製造ドメインにおけるデジタルツインの文脈において適用可能である。

図３には、オントロジー２０２によって強化される知識グラフ２００の知識グラフ埋め込みモデル２０８を訓練するための装置３００の少なくとも一部が概略的に図示されている。装置３００は、本方法における各ステップを実施するように構成されている。

装置３００は、少なくとも１つのストレージと、少なくとも１つのプロセッサとを含む。

本例においては、ストレージ３０２は、ＫＧ２００と、ＫＧＥモデル２０８と、オントロジー２０２と、正のサンプル２０６－１と、負のサンプル２０６－２とを格納するように構成されている。

本例においては、プロセッサ３０４は、上記の方法を実施するように構成されている。ストレージ３０２は、プロセッサ３０４によって実行された場合に、本方法をプロセッサ３０４に実行させるためのコンピュータ可読命令を格納することができる。プロセッサ３０４は、例えば、ストレージ３０２又はインタフェース（図示せず）からクエリ深さ２０４を受信するように構成可能である。

Claims

オントロジー（２０２）によって強化される知識グラフ（２００）の知識グラフ埋め込みモデル（２０８）を訓練するためのコンピュータ実装された方法であって、
当該方法は、
前記知識グラフ埋め込みモデル（２０８）を、前記第１の訓練クエリと、前記第１の訓練クエリの所定の応答とを用いて、
前記知識グラフ埋め込みモデル（２０８）における前記応答の埋め込みと、前記知識グラフ埋め込みモデル（２０８）における前記第１の訓練クエリの埋め込みとの間の距離を減少させるために、特に最小化するために、かつ、
前記応答の埋め込みと、前記知識グラフ埋め込みモデル（２０８）における第２の訓練クエリの埋め込みとの間の距離を減少させるために、特に最小化するために、
訓練すること（２）
を含み、
前記第２の訓練クエリは、前記オントロジー（２０２）に依存して前記第１の訓練クエリから決定される（１）
ことを特徴とする、方法。
前記オントロジーに従って無矛盾である、可能性のある単項の連続的なクエリの集合と、前記知識グラフ（２００）のエンティティの集合及び関係の集合とを決定すること（１）と、
前記単項の連続的なクエリの集合から前記第１の訓練クエリを選択することと、
を特徴とする、請求項１に記載の方法。
当該方法は、前記第１の訓練クエリを所定のクエリ形状に従って決定することを含む
ことを特徴とする、請求項２に記載の方法。
当該方法は、
クエリを、特にランダムにサンプリングすることと、
前記オントロジー（２０２）を用いて前記クエリの汎化を決定することと、
前記汎化、特に前記汎化の特化から前記第２の訓練クエリを決定することと、
を含む
ことを特徴とする、請求項１乃至３のいずれか一項に記載の方法。
汎化深さを提供し、前記汎化深さまで前記クエリの汎化を決定すること、
及び／又は
特化深さを提供し、前記特化深さまで前記クエリの特化を決定すること
を特徴とする、請求項４に記載の方法。
前記知識グラフ埋め込みモデル（２０８）を用いて、連言クエリに対する応答を提供すること
を特徴とする、請求項１乃至５のいずれか一項に記載の方法。
前記第１の訓練クエリの前記埋め込みと、前記第１の訓練クエリに対する応答ではない所定のエンティティの少なくとも１つの埋め込みとの間の距離を増加させるために、特に最大化するために、及び／又は、
前記第２の訓練クエリの前記埋め込みと、前記第２の訓練クエリに対する応答ではない所定のエンティティの少なくとも１つの埋め込みとの間の距離を増加させるために、特に最大化するために、
前記知識グラフ埋め込みモデル（２０８）を訓練すること
を特徴とする、請求項１乃至６のいずれか一項に記載の方法。
オントロジー（２０２）によって強化される知識グラフ（２００）の知識グラフ埋め込みモデル（２０８）を訓練するための装置（３００）であって、
当該装置（３００）は、請求項１乃至７のいずれか一項に記載の方法における各ステップを実施するように構成されている
ことを特徴とする、装置（３００）。
コンピュータプログラムであって、
当該コンピュータプログラムは、コンピュータによって実行された場合に、請求項１乃至７のいずれか一項に記載の方法を前記コンピュータに実施させるためのコンピュータ可読命令を含む
ことを特徴とする、コンピュータプログラム。