JP7375919B2

JP7375919B2 - オントロジー生成プログラム、オントロジー生成装置およびオントロジー生成方法

Info

Publication number: JP7375919B2
Application number: JP2022515154A
Authority: JP
Inventors: 孝典鵜飼
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-11-08
Anticipated expiration: 2040-04-16
Also published as: JPWO2021210148A1; WO2021210148A1

Description

本発明は、オントロジー生成技術などに関する。

近年、ドメイン（特定の分野）の知識を記述するための基盤となるオントロジーの生成がなされている。かかるオントロジーは、あるドメインをモデル化するために使われている語彙を提供する。また、オントロジーは、ナレッジグラフの構造を決めるので、ナレッジグラフにとって重要である。ナレッジグラフは、計算機による意味処理を可能とするために、オントロジーという語彙体系で定められた例えばクラスとプロパティとを用いて記述される。

あるドメインのオントロジーが生成されるためには、当該対象のドメインで用いられる語彙が集められる。そして、例えば人間が、集められた語彙同士の関係を整理して、対象のドメインのオントロジーを生成する。

また、ナレッジグラフから、検索時のコンテンツの文脈を考慮してユーザの検索意図に近い情報を提供する技術が開示されている（例えば特許文献１参照）。かかる技術では、情報提供装置は、ナレッジグラフから、コンテンツに含まれるワード群の意味情報として、オントロジーにより定義されるクラスおよびプロパティの少なくとも一方を抽出し、抽出した情報に基づいて検索を推奨するクエリの候補を提供する。また、情報提供装置は、コンテンツから抽出される重要ワードに対応したエンティティがナレッジグラフに存在しない場合、ナレッジグラフから、重要ワードと共に同じコンテンツから抽出された他のワードに対応するエンティティを抽出する。更に、情報提供装置は、他のワードに対応するプロパティによって定義されたエンティティ（類似エンティティ）を抽出する。そして、情報提供装置は、類似エンティティとそのエンティティのプロパティに相当するワードを推薦クエリとして提供する。

特開２０１９－７４８４３号公報

例えば、人間があるドメインのオントロジーを生成する場合には、人間が対象のドメインで用いられる語彙同士の関係を整理するため、オントロジーを生成するために工数がかかってしまう。

また、情報提供装置が実行する技術を利用してオントロジーを生成することが考えられる。ところが、情報提供装置は、重要ワードに対応したエンティティがナレッジグラフに存在しない場合には、ナレッジグラフから、重要ワードと共に同じコンテンツから抽出された他のワードに対応するプロパティによって定義されたエンティティ（類似エンティティ）を抽出して、類似エンティティとそのエンティティのプロパティに相当するワードを推薦クエリとして提供する。このため、情報提供装置は、重要ワードの同じドメインの他のワードに対応するプロパティによって定義された類似エンティティを抽出できるが、重要ワードに対応するプロパティによって定義される類似エンティティを抽出できない。すなわち、情報提供装置は、重要ワードに関係付けられるエンティティまたは類似エンティティを抽出できないといった課題がある。

本発明は、１つの側面では、ナレッジグラフを用いてオントロジーを生成することを目的とする。

１つの態様では、オントロジー生成プログラムが、複数の単語の特定の関係を示すオントロジーを追加したナレッジグラフに基づいた機械学習によって生成された機械学習モデルを用いて、前記複数の単語に含まれる単語と前記特定の関係を有する他の単語を予測し、前記オントロジーに、予測された前記他の単語を追加することによって新たなオントロジーを生成する、ことをコンピュータに実行させる。

１実施態様によれば、ナレッジグラフを用いてオントロジーを生成することができる。

図１は、実施例に係るオントロジー生成装置の構成を示す機能ブロック図である。図２は、ナレッジグラフの関係情報の一例を示す図である。図３は、実施例に係る探索処理の一例を示す図である。図４Ａは、実施例に係る学習処理の一例を示す図である。図４Ｂは、実施例に係る学習処理の一例を示す図である。図４Ｃは、実施例に係る学習処理の一例を示す図図５Ａは、実施例に係る予測処理の一例を示す図である。図５Ｂは、実施例に係る予測処理の一例を示す図である。図６は、学習された拡張ナレッジグラフのイメージの一例を示す図である。図７は、同じ単語が複数の特定の関係で予測される場合の一例を示す図である。図８は、生成されたオントロジーの一例を示す図である。図９は、実施例に係るオントロジー生成処理のフローチャートの一例を示す図である。図１０Ａは、複数の親がある場合のオントロジー生成処理のフローチャートの一例を示す図である。図１０Ｂは、複数の親がある場合のオントロジー生成処理のフローチャートの一例を示す図である。図１１は、オントロジー生成プログラムを実行するコンピュータの一例を示す図である。図１２は、単語ベクトルを利用してオントロジーを生成する参考例を示す図である。図１３は、単語ベクトルを利用してオントロジーを生成する参考例を示す図である。図１４は、単語ベクトルを利用してオントロジーを生成する参考例を示す図である。

以下に、本願の開示するオントロジー生成プログラム、オントロジー生成装置およびオントロジー生成方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

まず、単語ベクトルを利用してオントロジーを生成する参考例を、図１２～図１４を参照して説明する。図１２～図１４は、単語ベクトルを利用してオントロジーを生成する参考例を示す図である。オントロジーは、あるドメイン（特定の分野）をモデル化するために使われている語彙を提供する。提供される語彙は、ドメイン内に存在しているオブジェクト、概念、プロパティ、性質（コンテキスト）または関係を示す語彙である。オントロジーは、ナレッジグラフの構造を決めるので、ナレッジグラフにとって重要である。ナレッジグラフは、１つのドメインだけでなく、複数のドメインに関する様々な知識の関係をグラフ構造で表わしたものであり、オントロジーという語彙体系で定められたクラスとプロパティとを用いて記述される。クラスは、オブジェクトや概念に対応する。プロパティは、性質（コンテキスト）やクラス間の関係に対応する。なお、語彙には、単語が含まれる。

図１２に示すように、殺人の方法を定義するオントロジーを生成する場合を参考例として用いる。クラスは、丸、すなわちノードで示されている。プロパティは、矢印の側にラベルで示されている。一例として、「殺人」の「方法」には、「撲殺」と「絞殺」があることが示されている。「撲殺」の「武器」には、「素手」、「こん棒」、「鉄パイプ」があることが示されている。「絞殺」の「武器」には、「糸」、「ロープ」、「鞭」があることが示されている。

オントロジー生成装置は、単語ベクトルを用いて関連語を抽出し、オントロジーを生成する。ここでいう単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるかという共起関係に基づいた機械学習の処理によって単語をベクトル化したものである。オントロジー生成装置は、単語ベクトルを用いて、例えば、「王様」－「男」＋「女」＝「女王」のような関連語を得ることができる。

図１３に示すように、オントロジー生成装置は、単語ベクトルを用いて、「撲殺」＋「武器」を計算して、「撲殺」に用いられる「武器」の道具を得ることができる。オントロジー生成装置は、単語ベクトルを用いて、「絞殺」＋「武器」を計算して、「絞殺」に用いられる「武器」の道具を得ることができる。

図１４に示すように、「撲殺」に用いられる「武器」の道具として、例えば「素手」、「こん棒」、「鉄パイプ」、「サップ」、「日用品」、「鞭」、「騎士」が得られる。また、「絞殺」に用いられる「武器」の道具として、例えば「糸」、「ロープ」、「鞭」、「キャラクタ」、「糸使い」が得られる。

このように、オントロジー生成装置は、単語ベクトルを利用すると、「殺人の方法」を定義するオントロジーを生成することができる。しかしながら、単語ベクトルを利用すると、ノイズが多くなるという問題がある。すなわち、単語ベクトルを利用すると、武器ではない単語が多く得られてしまう。ここでは、「日用品」や「騎士」、「キャラクタ」や「糸使い」のような武器ではない単語が得られてしまう。

そこで、以降の実施例では、ノイズを抑制しつつ、オントロジーを生成するオントロジー生成装置について説明する。

図１は、実施例に係るオントロジー生成装置の構成を示す機能ブロック図である。オントロジー生成装置１は、単語ベクトルに加えて、ナレッジグラフから変換されるグラフベクトルを用いて、オントロジーを生成する。ここでいう単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるかという共起関係に基づいた機械学習の処理によって単語をベクトル化したものである。ここでいうグラフベクトルとは、３つのデータを関係情報としたナレッジグラフのエンティティとプロパティとをベクトル空間上に埋め込み、機械学習の処理を用いて得られたエンティティのベクトル表現をいう。なお、グラフベクトルは、例えば、ＴｒａｎｓＥの技術によって得られる。単語ベクトルとグラフベクトルとは、分散表現と称される場合もある。

オントロジー生成装置１は、ユーザ端末２と接続し、制御部１０と、記憶部２０とを有する。制御部１０は、ＣＰＵ（Central Processing Unit）などの電子回路により実現される。制御部１０は、探索部１１、機械学習部１２および予測部１３を有する。なお、予測部１３は、予測部および第２の生成部の一例である。記憶部２０は、各種データを記憶する。記憶部２０は、単語ベクトルデータ２１、ナレッジグラフ２２、学習結果データ２３およびオントロジー２４を有する。

単語ベクトルデータ２１は、様々な単語に対する単語ベクトルを示す。単語ベクトルデータ２１は、例えばインターネット上に存在する多くの文章を利用して、それぞれの文章に含まれるそれぞれの単語を、機械学習の処理を用いてベクトル化した単語ベクトルの群である。なお、単語ベクトルデータ２１は、一般の文章から生成されるので、語彙の分野（ドメイン）が広いが、ノイズが多いという特徴がある。

ナレッジグラフ２２は、様々な知識の関係をグラフ構造で表したものである。ナレッジグラフ２２は、３つのデータを組とした関係情報を用いた情報である。それぞれの関係情報の組は、クラス、プロパティ、クラスの３つ（トリプル）のデータを含む。なお、実施例では、関係情報の組の１個目のクラスを第１のクラス、２個目のクラスを第２のクラスと記述する場合がある。また、関係情報の具体例として、ＲＤＦ（Resource Description Framework）が挙げられる。一般的に、ナレッジグラフ２２は、単語ベクトルに比べて、１つのナレッジグラフが網羅する知識の範囲は狭いが、精緻にできているという特徴がある。

ここで、ナレッジグラフ２２の関係情報の一例を、図２を参照して説明する。図２は、ナレッジグラフの関係情報の一例を示す図である。図２に示すように、クラスとプロパティとクラスとの３つのデータを１組とした関係情報が表わされている。それぞれの組は、「（第１の）クラスの性質（プロパティ）は（第２の）クラスである」という関係性を持っている。ナレッジグラフ２２の関係情報では、この関係性を有向ラベル付きのグラフで表現できる。

一例として、関係情報には、（クラス、プロパティ、クラス）として（「こん棒」，「原料」，「木」）が記憶されている。すなわち、かかる関係情報は、「“こん棒”の“原料”は“木”である」という関係性を持つ。

図１に戻って、学習結果データ２３は、関係情報を学習した結果のデータである。例えば、学習結果データ２３には、関係情報に含まれるクラス、プロパティおよびクラスに含まれる文字列ごとの学習済みのベクトルの集合が含まれる。文字列には、単語が含まれる。なお、学習結果データ２３は、機械学習部１２によって生成される。

オントロジー２４は、あるドメインをモデル化するために当該ドメインで使われている語彙を提供する。オントロジー２４は、あるドメインについて、３つのデータを組とした関係情報を用いた情報である。それぞれの関係情報の組は、クラス、プロパティ、クラスの３つ（トリプル）のデータを含む。なお、オントロジー２４は、例えば、探索部１１および予測部１３によって追加される。

探索部１１は、単語ベクトルを用いて、オントロジーの知識としての単語を探索する。例えば、探索部１１は、単語ベクトルデータ２１を用いて、あるドメインにおける単語と特定の関係を有する単語を抽出する。一例として、あるドメインにおける単語Ａの特定の性質Ｂを持った単語Ｃが探索される場合について説明する。探索部１１は、単語ベクトルデータ２１を用いて、単語Ａの単語ベクトルに、特定の性質Ｂの単語ベクトルを加えたベクトルに近似する単語Ｃの単語ベクトルを取得する。探索部１１は、取得した単語ベクトルに対する単語Ｃを探索する。ここでいう単語Ａ，Ｃは、クラスに対応する。ここでいう性質Ｂは、プロパティに対応する。なお、単語Ａ，性質Ｂおよび単語Ｃは、単語で表される。

また、探索部１１は、取得した単語ベクトルのうち、スコアが予め定められたスコア以上となる単語ベクトルに対する単語を探索する。ここでいうスコアとは、近似の度合いが高い程高くなるような評価値のことをいい、以降、「第１のスコア」というものとする。そして、探索部１１は、探索した単語を、オントロジーの知識としてオントロジー２４に追加する。一例として、探索部１１は、単語Ａ，性質Ｂおよび単語Ｃの３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。これにより、探索部１１は、近似のスコアが予め定められたスコアより小さい単語ベクトルに対する単語をオントロジーの知識として適用しないこととなり、ノイズが少ないオントロジーの知識を追加できる。但し、探索部１１は、オントロジー２４における十分な量の語彙を集めることができない。

機械学習部１２は、オントロジー２４をナレッジグラフ２２に追加したナレッジグラフに基づいた機械学習によって機械学習モデルを生成する。オントロジー２４をナレッジグラフ２２に追加したナレッジグラフのことを「拡張ナレッジグラフ」というものとする。例えば、機械学習部１２は、オントロジー２４をナレッジグラフ２２に追加（接続）した拡張ナレッジグラフに含まれる単語に関し、第１のクラス，プロパティおよび第２のクラスから構成される関係情報を示す３つの単語を含む教師データを生成する。機械学習部１２は、生成した教師データの集合を用いて、それぞれの教師データについて、第１のクラスに対する単語のベクトルにプロパティに対する単語のベクトルを加えたベクトルが、第２のクラスに対する単語のベクトルに近づく条件に基づき機械学習を実行する。すなわち、機械学習部１２は、教師データの集合をもとに、それぞれの教師データに含まれるクラスおよびプロパティに対する単語のベクトル（分散表現）を学習する。

一例として、機械学習部１２は、教師データの集合のそれぞれの教師データに含まれる単語のベクトルを初期化し、初期化されたベクトルをベクトル空間上に配置する。そして、機械学習部１２は、教師データの集合に含まれる全ての教師データについて、第１のクラスに対する単語のベクトルに、プロパティに対する単語のベクトルを加えたベクトルが、第２のクラスに対する単語のベクトルに近づく条件に基づき機械学習を実行する。

また、機械学習部１２は、機械学習の結果を学習結果データ２３に保存する。機械学習の結果は、機械学習モデルを含む。そして、機械学習の結果には、関係情報に含まれるクラス、プロパティおよびクラスに含まれる単語の学習済みのグラフベクトルの集合が含まれる。

予測部１３は、機械学習モデルを用いて、オントロジー２４に含まれる単語と特定の関係（性質）を有する他の単語を予測する。

例えば、予測部１３は、オントロジー２４に含まれる関係情報であって第２のクラスを予測対象とする関係情報を、ユーザ端末２から取得する。一例として、予測部１３は、予測対象の単語を予測するために、予測対象以外の第１のクラスおよびプロパティに対するそれぞれの単語を、ユーザ端末２から取得する。そして、予測部１３は、学習結果データ２３の学習済みのグラフベクトルの集合を用いて、取得されたそれぞれの関係情報の予測対象を、以下のように予測する。予測部１３は、学習済みのグラフベクトルの集合から予測対象以外の第１のクラスおよびプロパティに対するそれぞれの単語のグラフベクトルを取得する。そして、予測部１３は、学習済みのグラフベクトルの集合から１つずつグラフベクトルを選択する。そして、予測部１３は、第１のクラスのグラフベクトルにプロパティのグラフベクトルを加えたベクトルから選択したグラフベクトルを引いて得られた差分ベクトルが予め定められた許容誤差より小さくなるような、選択したグラフベクトルを検索する。予測部１３は、検索により抽出されたグラフベクトルに対する単語を予測結果として決定する。

一例として、「“撲殺”の“武器”が何であるかを予測する場合には、（第１のクラス，プロパティ，第２のクラス）が（“撲殺”，“武器”，？ｐ）であり、第２のクラスが予測対象となる。そして、予測部１３は、“撲殺”のグラフベクトルＶ_ｈに“武器”のグラフベクトルＶ_ｒを加えたベクトルから選択したグラフベクトルＶ_ｐを引いた差分ベクトルが予め定められた許容誤差より小さくなるような、選択したグラフベクトルＶ_ｐを検索する。そして、予測部１３は、検索により抽出されたグラフベクトルＶ_ｐに対する単語ｐを予測結果として決定する。

そして、予測部１３は、予測結果として決定した単語をオントロジー２４に追加することによって新たなオントロジー２４を生成する。一例として、予測部１３は、単語Ａ、性質Ｂおよび探索した単語の３つのデータを組とした関係情報をオントロジー２４に追加する。

なお、予測部１３は、同じ単語が複数の特定の関係（性質）の予測結果となる場合には、当該単語を、スコアが最も高い特定の関係（性質）の予測結果としても良い。ここでいうスコアとは、差分ベクトルが小さい程高くなるような評価値のことをいい、以降、「第２のスコア」というものとする。

ここで、図３～図６を参照して、「殺人の方法」をドメインとするオントロジー２４を生成する場合について説明する。

図３は、実施例に係る探索処理の一例を示す図である。なお、図３では、「殺人の方法」をドメインとするオントロジーについて、「撲殺」の「武器」の道具または「絞殺」の「武器」の道具を探索する場合について説明する。

図３に示すように、探索部１１は、「撲殺」の単語ベクトルに、「武器」の単語ベクトルを加えたベクトルに近似する単語の単語ベクトルを取得する。そして、探索部１１は、取得した単語ベクトルのうち、第１のスコアが予め定められたスコア以上の単語ベクトルに対する単語を探索する。ここでは、「素手」、「こん棒」、「鉄パイプ」が探索されている。

また、探索部１１は、「絞殺」の単語ベクトルに、「武器」の単語ベクトルを加えたベクトルに近似する単語の単語ベクトルを取得する。そして、探索部１１は、取得した単語ベクトルのうち、第１のスコアが予め定められたスコア以上の単語ベクトルに対する単語を探索する。ここでは、「糸」、「ロープ」、「鞭」が探索されている。

そして、探索部１１は、「撲殺」，「武器」および「素手」の３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。探索部１１は、「撲殺」，「武器」および「こん棒」の３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。探索部１１は、「撲殺」，「武器」および「鉄パイプ」の３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。また、探索部１１は、「絞殺」，「武器」および「糸」の３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。探索部１１は、「絞殺」，「武器」および「ロープ」の３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。探索部１１は、「絞殺」，「ロープ」および「鞭」の３つのデータの組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。

図４Ａ～図４Ｃは、実施例に係る学習処理の一例を示す図である。なお、図４Ａ～図４Ｃでは、「殺人の方法」をドメインとするオントロジー２４を生成する場合に、ナレッジグラフ２２にオントロジー２４を追加した結果の拡張ナレッジグラフを学習する場合について説明する。

図４Ａに示すように、機械学習部１２は、図３で示したオントロジー２４をナレッジグラフ２２に接続する。ここでは、オントロジー２４に含まれる「素手」，「こん棒」，「鉄パイプ」，「糸」，「ロープ」，「鞭」とナレッジグラフ２２に含まれる同じ単語とが接続される。

図４Ｂに示すように、機械学習部１２は、オントロジー２４をナレッジグラフ２２に接続した結果の拡張ナレッジグラフに含まれる単語に関し、第１のクラス，プロパティおよび第２のクラスから構成される関係情報を示す３つの単語から成る教師データを生成する。ここでは、オントロジー２４側から、例えば、（“撲殺”，“武器”，“素手”）、（“撲殺”，“武器”，“こん棒”）、（“撲殺”，“武器”，“鉄パイプ”）の教師データが生成される。また、（“絞殺”，“武器”，“糸”）、（“絞殺”，“武器”，“ロープ”）（“絞殺”，“武器”，“鞭”）などの教師データが生成される。さらに、図示しないが、ナレッジグラフ２２側から、例えば、（“こん棒”，“原料”，“木”）、（“木刀”，“原料”，“木”）などの教師データが生成される。

機械学習部１２は、生成した教師データの集合を用いて、それぞれの教師データについて、第１のクラスに対する単語のベクトルにプロパティに対する単語のベクトルを加えたベクトルが、第２のクラスに対する単語のベクトルに近づく条件に基づき機械学習を実行する。すなわち、機械学習部１２は、教師データの集合をもとに、それぞれの教師データに含まれるクラスおよびプロパティに対する単語のベクトル（分散表現）を学習する。

一例として、教師データに含まれる（クラス，プロパティ，クラス）が（“撲殺”，“武器”，“素手”）、（“撲殺”，“武器”，“こん棒”）、・・・であるとする。機械学習部１２は、教師データの集合に含まれる全ての単語をｎ次元のベクトルで初期化する。なお、便宜上、ｎ次元を２次元として説明する。機械学習部１２は、初期化されたベクトルを２次元空間上に配置する。そして、機械学習部１２は、（“撲殺”，“武器”，“素手”）の教師データについて、第１のクラスに対する“撲殺”のベクトルに、プロパティに対する“武器”のベクトルを加えたベクトルと、第２のクラスに対する“素手”のベクトルとを近寄せる。機械学習部１２は、（“撲殺”，“武器”，“こん棒”）の教師データについて、第１のクラスに対する“撲殺”のベクトルに、プロパティに対する“武器”のベクトルを加えたベクトルと、第２のクラスに対する“こん棒”のベクトルとを近寄せる。このように、機械学習部１２は、教師データの集合に含まれる全ての教師データについて、第１のクラスに対する単語のベクトルに、プロパティに対する単語のベクトルを加えたベクトルが、第２のクラスに対する単語のベクトルに近づく条件に基づき機械学習を実行する。

この結果、図４Ｃに示すように、機械学習部１２は、それぞれの組の距離が十分縮まるまで繰り返す。そして、機械学習部１２は、学習結果としてそれぞれの組の距離が十分縮まったベクトルを生成する。機械学習部１２は、学習結果を学習結果データ２３に保存する。学習結果は、学習済みのグラフベクトルの集合である。

図４Ｂに戻って、つまり、ナレッジグラフ２２には「殺人の方法」としての道具という文脈は存在しない。しかしながら、機械学習部１２は、「殺人の方法」に関するオントロジー２４に含まれる「殺人の方法」としての道具をナレッジグラフ２２と接続して、拡張ナレッジグラフで「撲殺」という文脈や「絞殺」という文脈に基づき機械学習が実行される。

図５Ａ，図５Ｂは、実施例に係る予測処理の一例を示す図である。なお、図５Ａ，図５Ｂでは、図４Ｂの例に関する学習結果データ２３が利用されるものとする。

図５Ａに示すように、予測部１３は、「撲殺」の「武器」が何であるかを予測する。予測部１３は、学習結果データ２３の学習済みのグラフベクトルの集合から、予測対象以外の第１のクラスに対する「撲殺」およびプロパティに対する「武器」のそれぞれのグラフベクトルを取得する。そして、予測部１３は、学習結果データ２３の学習済みのグラフベクトルの集合から１つずつグラフベクトルを選択する。そして、予測部１３は、「撲殺」のグラフベクトルに「武器」のグラフベクトルを加えたベクトルから、選択したグラフベクトルを引いて得られる差分ベクトルが予め定められた許容誤差より小さくなるような、選択したグラフベクトルを検索する。予測部１３は、検索により抽出されたグラフベクトルに対する単語を予測結果として決定する。

図５Ｂに示すように、例えば、予測部１３は、「撲殺」の「武器」が何であるかの問い合わせ（撲殺，武器，？ｐ（０．１））を受け付ける。「？」は、予測対象を示す予測変数を意味する。予測変数の後の値「０．１」は、ベクトルの許容誤差を意味する。一例として、許容誤差は、図５Ｂで示す円内を示す情報のことをいう。すなわち、距離が近い程、第２のスコアは高くなる。

そして、予測部１３は、学習済みのグラフベクトルの集合から１つずつグラフベクトルを選択し、「撲殺」のグラフベクトルに「武器」のグラフベクトルを加えたベクトルから選択したグラフベクトルを引いて得られる差分ベクトルが「０．１」の許容誤差より小さくなるような、選択したグラフベクトルを検索する。ここでは、検索により単語「木刀」のグラフベクトルが抽出される。従って、「木刀」が予測結果として決定される。

図５Ａに戻って、同様に、予測部１３は、「絞殺」の「武器」が何であるかを予測する。予測部１３は、学習済みのグラフベクトルの集合から予測対象以外の第１のクラスに対する「絞殺」およびプロパティに対する「武器」のそれぞれのグラフベクトルを取得する。そして、予測部１３は、学習済みのグラフベクトルの集合から１つずつグラフベクトルを選択する。そして、予測部１３は、「絞殺」のグラフベクトルに「武器」のグラフベクトルを加えたベクトルから選択したグラフベクトルを引いて得られた差分ベクトルが予め定められた許容誤差より小さくなるような、選択したグラフベクトルを検索する。ここでは、検索により単語「ワイヤ」のグラフベクトルが抽出される。従って、「ワイヤ」が予測結果として決定される。

そして、予測部１３は、予測対象として予測された単語をオントロジー２４に追加することによって新たなオントロジー２４を生成する。

図６は、学習された拡張ナレッジグラフのイメージの一例を示す図である。図６に示すように、機械学習部１２が拡張ナレッジグラフで「撲殺」という文脈を学習したので、「木刀」のグラフベクトルが「撲殺」のグラフベクトルに「武器」のグラフベクトルを加えたものに近づく。同様に、機械学習部１２が拡張ナレッジグラフで「絞殺」という文脈を学習したので、「ワイヤ」のグラフベクトルが「絞殺」のグラフベクトルに「武器」のグラフベクトルを加えたものに近づく。一方、機械学習部１２が拡張ナレッジグラフで「撲殺」という文脈や「絞殺」という文脈を学習したので、「日用品」のグラフベクトルが「撲殺」のグラフベクトルに「武器」のグラフベクトルを加えたものから離れる。

ここで、同じ単語が複数の特定の関係（性質）の予測結果となる場合がある。図７は、同じ単語が複数の特定の関係で予測される場合の一例を示す図である。図７に示すように、予測部１３は、「撲殺」の「武器」が「鞭」であると予測する。また、予測部１３は、「絞殺」の「武器」が「鞭」であると予測する。すなわち、予測部１３は、「撲殺」の「武器」としての道具および「絞殺」の「武器」としての道具の両方で「鞭」という単語を予測している。

同じ単語が複数の特定の関係（性質）の予測結果となる場合には、予測部１３は、同じ単語「鞭」を、第２のスコアが最も高い特定の関係（性質）に紐付けるようにしても良い。すなわち、予測部１３は、同じ単語「鞭」のグラフベクトルとの距離が近い特定の関係（性質）に、単語「鞭」を予測結果として紐付けても良い。

図８は、生成されたオントロジーの一例を示す図である。図８に示すように、予測部１３によって予測された単語を含むオントロジー２４が示されている。生成されたオントロジー２４には、単語ベクトルを用いて計算された「素手」，「こん棒」，「鉄パイプ」に加えて、予測部１３によって予測された「木刀」が追加されている。また、生成されたオントロジー２４には、単語ベクトルを用いて計算された「糸」，「ロープ」，「鞭」に加えて、予測部１３によって予測された「ワイヤ」が追加されている。このようにして、予測部１３は、拡張ナレッジグラフを用いることで、豊富な語彙が含まれるオントロジー２４を生成することができる。

図９は、実施例に係るオントロジー生成処理のフローチャートの一例を示す図である。図９に示すように、探索部１１は、オントロジー２４の追加したい部分（Ｓ，ｐ）を受け付ける（ステップＳ１１）。ここでいう（Ｓ，ｐ）は、オントロジー２４に第１のクラスと特定の性質（プロパティ）を持つ第２のクラスを追加したい場合の第１のクラスおよびプロパティに対する単語を示す。Ｓは、第１のクラスに対する単語、ｐは、プロパティに対する単語である。

探索部１１は、Ｓの単語ベクトル＋ｐの単語ベクトルに近いベクトルをもつ単語をｎ個（Ｗ１，・・・，Ｗｎ）取得する（ステップＳ１２）。例えば、探索部１１は、単語ベクトルデータ２１からＳの単語ベクトル，ｐの単語ベクトルおよび他の単語ベクトルを取得する。そして、探索部１１は、Ｓの単語ベクトル＋ｐの単語ベクトルと他の単語ベクトルとの第１のスコアが予め定められたスコア以上の他の単語ベクトルをｎ個取得する。

そして、探索部１１は、（Ｓ，ｐ，Ｗ１），・・・，（Ｓ，ｐ，Ｗｎ）のｎ個の３つ組を、ナレッジグラフ２２に追加する（ステップＳ１３）。例えば、探索部１１は、Ｓに対する単語，ｐに対する単語およびＷ１～Ｗｎに対する単語の３つのデータの各組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。そして、機械学習部１２は、オントロジー２４をナレッジグラフ２２に追加（接続）する。オントロジー２４をナレッジグラフ２２に追加（接続）したナレッジグラフが拡張ナレッジグラフである。

そして、機械学習部１２は、追加されたナレッジグラフの埋め込みを計算する（ステップＳ１４）。例えば、機械学習部１２は、拡張ナレッジグラフに含まれる単語に関し、第１のクラス、プロパティおよび第２のクラスから構成される関係情報を示す３つの単語から成る教師データを生成する。機械学習部１２は、生成した教師データの集合を用いて、それぞれの教師データについて、第１のクラスに対する単語のベクトルにプロパティに対する単語のベクトルを加えたベクトルが、第２のクラスに対する単語のベクトルに近づく条件に基づき機械学習を実行する。すなわち、機械学習部１２は、教師データの集合をもとに、それぞれの教師データに含まれるクラスおよびプロパティに対する単語のベクトル（分散表現）を学習する。そして、機械学習部１２は、学習した結果（学習済みのグラフベクトルの集合）を学習結果データ２３に保存する。

そして、予測部１３は、計算された埋め込みを利用して、Ｓとｐから予測される単語をｍ個（Ｏ１，・・・，Ｏｍ）取得する（ステップＳ１５）。例えば、予測部１３は、学習した結果（学習済みのグラフベクトルの集合）から予測対象以外の第１のクラスＳおよびプロパティｐに対するそれぞれの単語のグラフベクトルを取得する。そして、予測部１３は、学習済みのグラフベクトルの集合から１つずつグラフベクトルを選択する。そして、予測部１３は、第１のクラスＳのグラフベクトルにプロパティｐのグラフベクトルを加えたベクトルから選択したグラフベクトルを引いて得られる差分ベクトルが予め定められた許容誤差より小さくなるような、選択したグラフベクトルを検索する。予測部１３は、検索できたグラフベクトルに対する単語を予測対象としてｍ個取得する。

そして、予測部１３は、取得した（Ｓ，ｐ，Ｗ１），・・・（Ｓ，ｐ，Ｗｎ）および（Ｓ，ｐ，Ｏ１），（Ｓ，ｐ，Ｏｍ）をオントロジー２４として出力する（ステップＳ１６）。

図１０Ａ，図１０Ｂは、複数の親がある場合のオントロジー生成処理のフローチャートの一例を示す図である。すなわち、図１０Ａ，図１０Ｂは、同じ単語が複数の特定の関係（性質）の予測対象となる場合のオントロジー生成処理のフローチャートの一例である。

図１０Ａに示すように、探索部１１は、オントロジー２４の追加したい部分（Ｓ１，ｐ），・・・（Ｓｋ，ｐ）を受け付ける（ステップＳ２１）。ここでいう（Ｓｋ，ｐ）は、オントロジー２４に第１のクラスと特定の性質（プロパティ）を持つ第２のクラスを追加したい場合の第１のクラスおよびプロパティに対する単語を示す。Ｓｋは、第１のクラスに対する単語、ｐは、プロパティに対する単語である。

探索部１１は、Ｓ１，・・・，Ｓｋのそれぞれの単語ベクトル＋ｐの単語ベクトルに近いベクトルをもつ単語をそれぞれｎ個（Ｗ１１，Ｗ１２，・・・，Ｗｋｎ）取得する（ステップＳ２２）。例えば、探索部１１は、単語ベクトルデータ２１からＳ１の単語ベクトル，ｐの単語ベクトルおよび他の単語ベクトルを取得する。そして、探索部１１は、Ｓ１の単語ベクトル＋ｐの単語ベクトルと他の単語ベクトルとの第１のスコアが予め定められたスコア以上の他の単語ベクトルをｎ個（Ｗ１１，Ｗ１２，・・・，Ｗ１ｎ）取得する。探索部１１は、単語ベクトルデータ２１からＳ２の単語ベクトル，ｐの単語ベクトルおよび他の単語ベクトルを取得する。そして、探索部１１は、Ｓ２の単語ベクトル＋ｐの単語ベクトルと他の単語ベクトルとの第１のスコアが予め定められたスコア以上の他の単語ベクトルをｎ個（Ｗ２１，Ｗ２２，・・・，Ｗ２ｎ）取得する。同様に、探索部１１は、単語ベクトルデータ２１からＳｋの単語ベクトル，ｐの単語ベクトルおよび他の単語ベクトルを取得する。そして、探索部１１は、Ｓｋの単語ベクトル＋ｐの単語ベクトルと他の単語ベクトルとの第１のスコアが予め定められたスコア以上の他の単語ベクトルをｎ個（Ｗｋ１，Ｗｋ２，・・・，Ｗｋｎ）取得する。

そして、探索部１１は、（Ｓ１，ｐ，Ｗ１１），・・・，（Ｓｋ，ｐ，Ｗｋｎ）のｋ×ｎ個の３つ組を、ナレッジグラフ２２に追加する（ステップＳ２３）。例えば、探索部１１は、Ｓ１に対する単語，ｐに対する単語およびＷ１１～Ｗ１ｎに対する単語の３つのデータの各組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。探索部１１は、Ｓ２に対する単語，ｐに対する単語およびＷ２１～Ｗ２ｎに対する単語の３つのデータの各組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。同様に、探索部１１は、Ｓｋに対する単語，ｐに対する単語およびＷｋ１～Ｗｋｎに対する単語の３つのデータの各組を（クラス、プロパティ、クラス）とした関係情報をオントロジー２４に追加する。そして、機械学習部１２は、オントロジー２４をナレッジグラフ２２に追加（接続）する。オントロジー２４をナレッジグラフ２２に追加（接続）したナレッジグラフが拡張ナレッジグラフである。

そして、機械学習部１２は、追加されたナレッジグラフの埋め込みを計算する（ステップＳ２４）。例えば、機械学習部１２は、拡張ナレッジグラフに含まれる単語に関し、第１のクラス、プロパティおよび第２のクラスから構成される関係情報を示す３つの単語から成る教師データを生成する。機械学習部１２は、生成した教師データの集合を用いて、それぞれの教師データについて、第１のクラスに対する単語のベクトルにプロパティに対する単語のベクトルを加えたベクトルが、第２のクラスに対する単語のベクトルに近づく条件に基づき機械学習を実行する。すなわち、機械学習部１２は、教師データの集合をもとに、それぞれの教師データに含まれるクラスおよびプロパティに対する単語のベクトルの埋め込みを学習する。そして、機械学習部１２は、学習した結果（学習済みのグラフベクトルの集合）を学習結果データ２３に保存する。

そして、予測部１３は、計算された埋め込みを利用して、Ｓ１，・・・Ｓｋそれぞれとｐから予測される単語をそれぞれｍ個とそれぞれのスコアを取得する（ステップＳ２５）。ここでいうスコアは、第２のスコアである。Ｓ１とｐとから予測されるｍ個の単語とスコアは、（Ｏ１１，ｓ１１），（Ｏ１２，ｓ１２），・・・，（Ｏ１ｍ，ｓ１ｍ）と取得される。Ｓ２とｐとから予測されるｍ個の単語とスコアは、（Ｏ２１，ｓ２１），（Ｏ２２，ｓ２２），・・・，（Ｏ２ｍ，ｓ２ｍ）と取得される。同様に、Ｓｋとｐとから予測されるｍ個の単語とスコアは、（Ｏｋ１，ｓｋ１），（Ｏｋ２，ｓｋ２），・・・，（Ｏｋｍ，ｓｋｍ）と取得される。

ここでは、（Ｏ１１，ｓ１１），（Ｏ１２，ｓ１２），・・・，（Ｏｋｍ，ｓｋｍ）をＡの集合とする。予測部１３は、Ａの集合の予測対象のＯをそれぞれ比較して、同じ場合には、スコアｓを比較して、スコアｓの小さい方を削除する（ステップＳ２６）。なお、予測対象のＯが同じ場合にスコアｓの大きい方を残し、スコアｓの小さい方を削除する処理のフローチャートは、後述する。

そして、予測部１３は、取得した（Ｓ１，ｐ，Ｗ１１），・・・（Ｓｋ，ｐ，Ｗｋｎ）および残ったＡの集合の要素（Ｓ１，ｐ，Ｏ１１），（Ｓｋ，ｐ，Ｏｋｍ）をオントロジー２４として出力する（ステップＳ２７）。

図１０Ｂは、予測対象のＯが同じ場合にスコアｓの大きい方を残し、スコアｓの小さい方を削除する処理のフローチャートの一例である。なお、ここでいうスコアは、第２のスコアのことをいう。図１０Ｂに示すように、予測部１３は、Ａの集合を入力する（ステップＳ３１）。予測部１３は、Ａの集合の要素を１つ取り出し、取り出した要素の中のそれぞれの要素（単語Ｏ，スコアｓ）をＳ、Ｋに入力する（ステップＳ３２）。

予測部１３は、Ａの集合からすべての要素を取り出したか否かを判定する（ステップＳ３３）。Ａの集合からすべての要素を取り出していないと判定した場合には（ステップＳ３３；Ｎｏ）、予測部１３は、Ａの集合の要素を１つ取り出し、取り出した要素の中のそれぞれの要素（単語Ｏ，スコアｓ）をＴ、Ｊに入力する（ステップＳ３５）。

予測部１３は、Ａの集合からすべての要素を取り出したか否かを判定する（ステップＳ３６）。Ａの集合からすべての要素を取り出していないと判定した場合には（ステップＳ３６；Ｎｏ）、予測部１３は、単語Ｓが単語Ｔと一致しているか否かを判定する（ステップＳ３８）。単語Ｓが単語Ｔと一致していないと判定した場合には（ステップＳ３８；Ｎｏ）、予測部１３は、次の要素の（Ｔ，Ｊ）を現在処理中の（Ｓ，Ｋ）と比較すべく、ステップＳ３５に移行する。

一方、単語Ｓが単語Ｔと一致したと判定した場合には（ステップＳ３８；Ｙｅｓ）、予測部１３は、スコアＪがスコアＫより大きいか否かを判定する（ステップＳ３９）。スコアＪがスコアＫ以下と判定した場合には（ステップＳ３９；Ｎｏ）、予測部１３は、次の要素の（Ｔ，Ｊ）を現在処理中の（Ｓ，Ｋ）と比較すべく、ステップＳ３５に移行する。すなわち、予測部１３は、現在処理中の単語Ｓが単語Ｔと一致している場合に、単語ＳのスコアＫより大きい単語Ｔを探索する。

そして、スコアＪがスコアＫより大きいと判定した場合には（ステップＳ３９；Ｙｅｓ）、予測部１３は、Ａの集合の次の要素を処理すべく、ステップＳ３２に移行する。すなわち、予測部１３は、現在処理中の（Ｓ，Ｋ）をＡの集合から削除する。

また、ステップＳ３６において、Ａの集合からすべての要素を取り出したと判定した場合には（ステップＳ３６；Ｙｅｓ）、予測部１３は、現在処理中の（Ｓ，Ｋ）をＢの集合に追加する（ステップＳ３７）。また、ステップＳ３３において、Ａの集合からすべての要素を取り出したと判定した場合には（ステップＳ３３；Ｙｅｓ）、予測部１３は、集合Ｂを集合Ａとして出力する（ステップＳ３４）。

なお、予測部１３は、同じ単語が複数の特定の関係（性質）の予測対象となる場合には、当該単語を第２のスコアが最も高い特定の関係（性質）の予測対象とすると説明した。しかしながら、予測部１３は、これに限定されず、予測部１３は、同じ単語が複数の特定の関係（性質）の予測対象となる場合であっても、そのまま当該単語をそれぞれの特定の関係（性質）の予測対象としても良い。

上記実施例によれば、オントロジー生成装置１は、複数の単語の特定の関係を示すオントロジー２４を追加したナレッジグラフに基づいた機械学習によって生成された機械学習モデルを用いて、複数の単語に含まれる単語と特定の関係を有する他の単語を予測する。オントロジー生成装置１は、オントロジー２４に、予測された他の単語を追加することによって新たなオントロジー２４を生成する。かかる構成によれば、オントロジー生成装置１は、ノイズができるだけ少なく、語彙が豊富なオントロジーを生成することができる。例えば、オントロジー生成装置１は、オントロジー２４を追加したナレッジグラフについて埋め込みを利用した予測を基にオントロジー２４を生成することで、不要な語（ノイズ）が少ないオントロジー２４を生成できる。加えて、オントロジー生成装置１は、オントロジー２４の中の単語だけで生成するよりも、数多くの語彙を持ったオントロジー２４を生成できる。

また、上記実施例によれば、オントロジー生成装置１は、オントロジー２４を追加したナレッジグラフに含まれる単語に関し、第１の単語と第２の単語と特定の関係とを有するトリプルを生成する。オントロジー生成装置１は、生成したトリプルについて、第１の単語のベクトルに第２の単語のベクトルを加えたベクトルが特定の関係のベクトルに近づく条件に基づき機械学習を実行することによって、機械学習モデルを生成する。かかる構成によれば、オントロジー生成装置１は、オントロジー２４にナレッジグラフの埋め込みを利用して機械学習モデルを生成することで、不要な語（ノイズ）が少ないオントロジー２４を生成することが可能になる。

また、上記実施例によれば、オントロジー生成装置１は、オントロジーに含まれる第１の単語と特定の関係とを機械学習モデルに入力する。オントロジー生成装置１は、機械学習モデルに含まれる学習済みのベクトルの中から特定のベクトルを選択する。オントロジー生成装置１は、選択された特定のベクトルと第１の単語のベクトルとを加えて得られたベクトルから特定の関係のベクトルを引いて得られる第１の差分ベクトルが閾値より小さいか否かを判定する。そして、オントロジー生成装置１は、第１の差分ベクトルが閾値より小さいと判定された場合、選択された特定のベクトルに対応する単語を他の単語として決定する。かかる構成によれば、オントロジー生成装置１は、オントロジー２４における単語の予測を、機械学習モデルに含まれる学習済みのベクトルを用いることで、単語の予測精度を向上させることができる。したがって、オントロジー生成装置１は、不要な語（ノイズ）が少ないオントロジー２４を生成できる。

また、上記実施例によれば、オントロジー生成装置１は、オントロジーに含まれる第２の単語と特定の関係との入力に応じて、特定のベクトルに対応する単語が他の単語として決定された場合、特定のベクトルと第２の単語のベクトルとを加えて得られたベクトルから特定の関係のベクトルを引いて得られる第２の差分ベクトルと第１の差分ベクトルとを比較する。そして、オントロジー生成装置１は、第１の差分ベクトルが第２の差分ベクトルより小さい場合、第１の単語と他の単語と特定の関係とを含むトリプルを示す情報をオントロジーに追加する。つまり、オントロジー生成装置１は、同じ単語が複数の特定の関係の予測結果となる場合には、当該単語を、スコアが最も高い特定の関係の予測結果とする。かかる構成によれば、オントロジー生成装置１は、予測精度が高い単語をオントロジー２４に追加することが可能となる。

また、上記実施例によれば、オントロジー生成装置１は、数の単語に含まれる単語と特定の関係を有する一又は複数の単語を、単語ベクトルを用いて探索する。そして、オントロジー生成装置１は、探索した一又は複数の単語のうちスコアが高い特定の数の単語をオントロジーに追加することによって新たなオントロジー２４を生成する。かかる構成によれば、オントロジー生成装置１は、単語ベクトルを用いて探索する単語の探索精度を向上させることができ、この後のオントロジー２４の生成において、不要な語（ノイズ）が少ないオントロジー２４を生成できる。

なお、実施例では、予測部１３が、オントロジー２４に含まれる関係情報であって第２のクラスを予測対象とする場合を説明した。しかしながら、予測部１３は、これに限定されず、第１のクラスを予測対象としても良いし、プロパティを予測対象としても良い。第１のクラスを予測対象とする場合には、予測部１３は、予測対象以外のプロパティおよび第２のクラスに対するそれぞれの単語を、ユーザ端末２から入力する。予測部１３は、学習済みのグラフベクトルの集合から予測対象以外のプロパティおよび第２のクラスに対するそれぞれの単語のグラフベクトルを取得する。予測部１３は、選択したグラフベクトルのグラフベクトルにプロパティのグラフベクトルを加えたベクトルから第２のクラスのグラフベクトルを引いて得られた差分ベクトルが予め定められた許容誤差より小さくなるような、選択したグラフベクトルを検索する。予測部１３は、検索により抽出したグラフベクトルに対する単語を予測結果として決定すれば良い。

また、図示したオントロジー生成装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、オントロジー生成装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、探索部１１を、単語ベクトルデータ２１を用いてあるドメインにおける単語と特定の関係を有する単語を探索する第１の探索部と、所定のスコア以上の単語ベクトルに対する単語を探索する第２の探索部とに分散しても良い。また、記憶部２０をオントロジー生成装置１の外部装置としてネットワーク経由で接続するようにしても良い。

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示したオントロジー生成装置１と同様の機能を実現するオントロジー生成プログラムを実行するコンピュータの一例を説明する。ここでは、オントロジー生成装置１と同様の機能を実現するオントロジー生成プログラムを一例として説明する。図１１は、オントロジー生成プログラムを実行するコンピュータの一例を示す図である。

図１１に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９を制御する表示制御部２０７とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、ドライブ装置２１３、入力装置２１５、通信制御部２１７は、バス２１９で接続されている。

ドライブ装置２１３は、例えばリムーバブルディスク２１０用の装置である。ＨＤＤ２０５は、オントロジー生成プログラム２０５ａおよびオントロジー生成処理関連情報２０５ｂを記憶する。

ＣＰＵ２０３は、オントロジー生成プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは、オントロジー生成装置１の各機能部に対応する。オントロジー生成処理関連情報２０５ｂは、単語ベクトルデータ２１、ナレッジグラフ２２、学習結果データ２３およびオントロジー２４に対応する。そして、例えばリムーバブルディスク２１０が、オントロジー生成プログラム２０５ａなどの各情報を記憶する。

なお、オントロジー生成プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらからオントロジー生成プログラム２０５ａを読み出して実行するようにしても良い。

１オントロジー生成装置
１０制御部
１１探索部
１２機械学習部
１３予測部
２０記憶部
２１単語ベクトルデータ
２２ナレッジグラフ
２３学習結果データ
２４オントロジー
２ユーザ端末

Claims

複数の単語の特定の関係を示すオントロジーを追加したナレッジグラフに含まれる単語に関し、第１の単語と第２の単語と前記特定の関係を示す第３の単語とを有するトリプルを１組とした教師データを生成し、
前記教師データの集合を入力して、前記教師データの集合に含まれる各教師データについて、前記第１の単語をベクトル表現したベクトルに前記第３の単語をベクトル表現したベクトルを加えたベクトルが、前記第２の単語をベクトル表現したベクトルに近づく条件に基づき機械学習を実行し、前記教師データの集合に含まれる単語ごとの学習済みのベクトルの集合を出力し、
前記学習済みのベクトルの集合を用いて、前記複数の単語に含まれる単語と前記特定の関係を有する他の単語を予測し、
前記オントロジーに、予測された前記他の単語を追加することによって新たなオントロジーを生成する、
ことをコンピュータに実行させるオントロジー生成プログラム。
前記予測する処理は、
前記オントロジーに含まれる第１の単語と前記特定の関係を示す第３の単語とを入力し、
前記学習済みのベクトルの集合の中から、前記第１の単語および前記第３の単語に対するそれぞれの単語をベクトル表現したベクトルを取得し、
前記学習済みのベクトルの中から一つずつベクトルを選択し、
前記第１の単語をベクトル表現したベクトルと前記第３の単語をベクトル表現したベクトルとを加えて得られたベクトルから、選択したベクトルを引いて得られる第１の差分ベクトルが閾値より小さいか否かを判定し、
前記第１の差分ベクトルが前記閾値より小さいと判定された場合、選択したベクトルに対応する単語を前記他の単語として予測する、
処理を含むことを特徴とする請求項１に記載のオントロジー生成プログラム。
前記他の単語を追加する処理は、前記オントロジーに含まれる第４の単語と前記特定の関係を示す第３の単語との入力に応じて予測される前記他の単語が、前記第１の単語と前記第３の単語との入力に応じて予測される前記他の単語と同じ場合、前記第４の単語をベクトル表現したベクトルと前記第３の単語をベクトル表現したベクトルとを加えて得られたベクトルから前記他の単語に対応するベクトルを引いて得られる第２の差分ベクトルと前記第１の差分ベクトルとを比較し、
前記第１の差分ベクトルが前記第２の差分ベクトルより小さい場合、前記第１の単語と前記他の単語と前記特定の関係を示す第３の単語とを含むトリプルを示す情報を前記オントロジーに追加する、
処理を含むことを特徴とする請求項２に記載のオントロジー生成プログラム。
前記オントロジーは、前記複数の単語に含まれる単語と特定の関係を有する一又は複数の単語を、単語ベクトルを用いて探索し、探索した前記一又は複数の単語のうちスコアが高い特定の数の単語を前記オントロジーに追加することによって生成される、
ことを特徴とする請求項１に記載のオントロジー生成プログラム。
複数の単語の特定の関係を示すオントロジーを追加したナレッジグラフに含まれる単語に関し、第１の単語と第２の単語と前記特定の関係を示す第３の単語とを有するトリプルを１組とした教師データを生成する生成部と、
前記教師データの集合を入力して、前記教師データの集合に含まれる各教師データについて、前記第１の単語をベクトル表現したベクトルに前記第３の単語をベクトル表現したベクトルを加えたベクトルが、前記第２の単語をベクトル表現したベクトルに近づく条件に基づき機械学習を実行し、前記教師データの集合に含まれる単語ごとの学習済みのベクトルの集合を出力する出力部と、
前記学習済みのベクトルの集合を用いて、前記複数の単語に含まれる単語と前記特定の関係を有する他の単語を予測する予測部と、
前記オントロジーに、予測された前記他の単語を追加することによって新たなオントロジーを生成する生成部と、
を有することを特徴とするオントロジー生成装置。
複数の単語の特定の関係を示すオントロジーを追加したナレッジグラフに含まれる単語に関し、第１の単語と第２の単語と前記特定の関係を示す第３の単語とを有するトリプルを１組とした教師データを生成し、
前記教師データの集合を入力して、前記教師データの集合に含まれる各教師データについて、前記第１の単語をベクトル表現したベクトルに前記第３の単語をベクトル表現したベクトルを加えたベクトルが、前記第２の単語をベクトル表現したベクトルに近づく条件に基づき機械学習を実行し、前記教師データの集合に含まれる単語ごとの学習済みのベクトルの集合を出力し、
前記学習済みのベクトルの集合を用いて、前記複数の単語に含まれる単語と前記特定の関係を有する他の単語を予測し、
前記オントロジーに、予測された前記他の単語を追加することによって新たなオントロジーを生成する、
ことをコンピュータが実行するオントロジー生成方法。