JP7189553B2

JP7189553B2 - 推論方法、推論装置及びプログラム

Info

Publication number: JP7189553B2
Application number: JP2019192988A
Authority: JP
Inventors: 正彬西野; 章博山本; 光新藤
Original assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Current assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-12-14
Anticipated expiration: 2039-10-23
Also published as: JP2021068186A

Description

本発明は、推論方法、推論装置及びプログラムに関する。

統計的な機械学習手法が従来から知られている。統計的な機械学習手法とは、与えられた訓練例を用いて確率モデルのパラメータを推定し、未知の課題に対する推論を行うための手法である。例えば、手書き文字の画像と正解となる文字の値とのペアを訓練例として与えて統計的な機械学習手法を用いることで、手書き文字の画像に書かれている文字を認識するシステムを構築することができる。

統計的な機械学習手法の一種として、確率論理プログラムと呼ばれる手法が知られている。確率論理プログラムとは、一階述語論理によって記述された論理プログラムに実数のパラメータを付与することによって、論理式上の確率分布を表現する確率モデルを構成する手法である。確率論理プログラムでは、一般の訓練例から実数のパラメータを推定することで通常の確率モデルとして利用できる。また、この他にも、確率論理プログラムでは、論理式でルールを記述して確率モデルに加えることで、問題領域における背景知識を踏まえた推論を行い、推論の性能を高めることが可能である。

確率論理プログラムの一種として、TensorLogと呼ばれる確率モデルが知られている（例えば、非特許文献１参照）。TensorLogは、入力が与えられた場合に、入力から推論結果を得るまでのプロセスを全て微分可能な計算式で表現できることを特徴としている。このため、TensorLogでは、訓練例からパラメータを推定する際に、目的関数の微分に基づく最急降下法が利用できるという特徴がある。また、微分可能な確率モデルはニューラルネットワークの一種であるため、TensorLogは、ニューラルネットワークの計算で利用されるハードウェアやツール等を用いて、効率的な実装が容易に実現できるという特徴もある。

William W. Cohen, "TensorLog: A Differentiable Deductive Database", Published in arXiv 2016 1605.06523

ところで、TensorLogでは一階述語論理の論理式にパラメータを付与することで確率モデルを表現するが、TensorLogで用いることが可能な論理式にはいくつかの制限がある。この制限の１つとして、TensorLogでは論理式に関数記号を用いることができないというものがある。論理式に関数記号を用いることができないと構造を持った対象を扱う推論（例えば、文字列の集合を扱うような推論）において、構造の情報を明示的に利用することができないため、表現できる関係性が限定されてしまう場合があった。

本発明の実施の形態は、上記の点に鑑みてなされたもので、構造を持った対象に対する推論を可能にすることを目的とする。

上記目的を達成するため、本発明の実施の形態における推論方法は、規則と学習済みのパラメータが付与された事実の集合と述語記号の集合と構造を持った項の集合とが含まれる確率モデルに対する問い合わせが与えられると、前記項の間の類似度を用いて、前記規則に対応する因子グラフに従って前記問い合わせに対応するベクトルを更新することで、前記問い合わせに対する回答を推論する推論手順と、前記推論手順で推論された回答を出力する出力手順と、をコンピュータが実行することを特徴とする。

構造を持った対象に対する推論を可能にすることができる。

因子グラフの一例を示す図である。本発明の実施の形態における推論装置の機能構成の一例を示す図である。本発明の実施の形態における学習処理の一例を示すフローチャートである。本発明の実施の形態における推論処理の一例を示すフローチャートである。本発明の実施の形態における推論装置のハードウェア構成の一例を示す図である。

以下、本発明の実施の形態について説明する。本発明の実施の形態では、TensorLogを拡張することで、構造を持った対象に対する推論が可能な推論装置１０について説明する。このとき、本発明の実施の形態では、構造を持った対象の類似度を計算する尺度を微分可能な形式に拡張して、この尺度をTensorLogに組み込むことでTensorLogを拡張する。これにより、微分可能というTensorLogの特徴を保持したまま、構造を持った対象に対する推論を行うようにTensorLogを拡張することができる。したがって、例えば、構造を持った対象を扱う認識問題や自動判別問題においてその認識精度や判別精度を向上させることが可能となる。なお、構造を持った対象としては、例えば、文字列等が挙げられる。

＜TensorLogの説明＞
まず、本発明の実施の形態における推論装置１０を説明する前に、TensorLogについて説明する。TensorLogは、一階述語論理によって記述された規則の集合と、非負実数のパラメータが付与された事実の集合｛ｆ_１，・・・，ｆ_ｎ｝とで構成される。事実は、述語記号ｐ，ｑ，・・・等と、定数ａ，ｂ，ｃ，・・・等とを用いて、例えば、ｐ（ａ，ｂ），ｑ（ｃ）等といった形で記述される。また、全ての定数で構成される集合Ｃは有限である。

規則は、Ａ←Ｂ_１，・・・，Ｂ_ｎの形をしているホーン節として表現される。Ａ，Ｂ_ｉはそれぞれリテラルと呼ばれる。リテラルは述語記号に対して変数、定数又はその両方を適用したものとして定義される。例えば、Ｘを変数として、ｐ（ａ，Ｘ）やｑ（ｂ，ｃ）等はリテラルである。また、Ａを規則の頭部、Ｂ_１，・・・，Ｂ_ｎを規則の本体と呼ぶ。

以降では、TensorLogの具体例について説明する。規則として
ｕｎｃｌｅ（Ｘ，Ｙ）←ｐａｒｅｎｔ（Ｘ，Ｗ），ｂｒｏｔｈｅｒ（Ｗ，Ｙ）
を含み、事実として
ｐａｒｅｎｔ（ｌｉａｍ，ｅｖｅ），０．９９
ｐａｒｅｎｔ（ｄａｖｅ，ｅｖｅ），０．９９
ｐａｒｅｎｔ（ｌｉａｍ，ｂｏｂ），０．７５
ｂｒｏｔｈｅｒ（ｅｖｅ，ｃｈｉｐ），０．９
を含むTensorLogの確率モデル（以降、確率モデルを単に「モデル」とも表す。）が与えられたものとする。このモデルでは、ｕｎｃｌｅ，ｐａｒｅｎｔ，ｂｒｏｔｈｅｒが述語記号であり、ｂｏｂ，ｃｈｉｐ，ｅｖｅ，ｌｉａｍが定数となる。また、事実に付与されている非負の実数（つまり、０．９９，０．９９，０．７５，０．９）がパラメータを表している。なお、これらのパラメータは「重み」とも称される。

なお、ｐａｒｅｎｔ（Ｘ，Ｗ）はＸの親がＷであることを表す述語、ｂｒｏｔｈｅｒ（Ｗ，Ｙ）はＷとＹが兄弟姉妹の関係にあることを表す述語、ｕｎｃｌｅ（Ｘ，Ｙ）はＸの叔父がＹであることを表す述語である。

上記のモデルを用いることで、述語ｕｎｃｌｅに対する問い合わせ（クエリ）に回答することが可能となる。ここで、クエリに回答することは、例えば、ｕｎｃｌｅ（ｄａｖｅ，Ｙ）という述語が与えられた場合に、Ｙに当てはまる確率が最も高い定数を選択する問題を解くことに相当する。この問題は、Ｙに定数を代入することで得られる述語の出現確率を計算することで解くことができる。TensorLogでは、このような確率の計算を以下の手順１～手順２により実行する。

手順１：規則の集合に対応する因子グラフを作成する。因子グラフは確率的グラフィカルモデルの一種であり、或る確率を計算するための計算の手続きが因子グラフによって定まる。

手順２：因子グラフに沿って行列計算を繰り返し実行して、問い合わせ（クエリ）に対応するベクトルの値を更新することで所望の確率の計算を行う。

ここで、上記のTensorLogの具体例で示した規則に対応する因子グラフを図１に示す。図１に示す因子グラフでは、ｕｎｃｌｅの因子をｐａｒｅｎｔ及びｂｒｏｔｈｅｒとして、これらの因子と変数Ｘ、Ｗ及びＹとの関係が表現されている。

因子グラフが得られると、この因子グラフに沿った行列計算を繰り返して、問い合わせに対応するベクトルの値を更新することで所望の確率を計算することができる。例えば、図４に示す因子グラフが得られた場合は、まず、行列計算に用いられる行列Ｍ_{ｐａｒｅｎｔ}と行列Ｍ_{ｂｒｏｔｈｅｒ}とを用意する。これらの行列は｜Ｃ｜行｜Ｃ｜列であり、そのｉ行ｊ列の要素は、当該要素に対応する事実の重み（つまり、当該事実に付与されているパラメータ）と一致する。なお、｜Ｃ｜は集合Ｃの要素数（つまり、全ての定数の総数）である。

例えば、上記のTensorLogの具体例では、行列Ｍ_{ｐａｒｅｎｔ}は以下で表される。

また、行列Ｍ_{ｂｒｏｔｈｅｒ}は以下で表される。

ここで、上記の行列Ｍ_{ｐａｒｅｎｔ}及び行列Ｍ_{ｂｒｏｔｈｅｒ}は１行目から４行目がそれぞれｂｏｂ，ｃｈｉｐ，ｄａｖｅ，ｅｖｅ，ｌｉａｍに対応し、１列目から４列がそれぞれｂｏｂ，ｃｈｉｐ，ｄａｖｅ，ｅｖｅ，ｌｉａｍに対応する。したがって、例えば、行列Ｍ_{ｐａｒｅｎｔ}の４行３列目の要素「０．９９」は事実ｐａｒｅｎｔ（ｄａｖｅ，ｅｖｅ）に付与されている重み（パラメータ）に対応する。同様に、例えば、行列Ｍ_{ｐａｒｅｎｔ}の１行４列目の要素「０．７５」はｐａｒｅｎｔ（ｌｉａｍ，ｂｏｂ）に付与されている重みに対応する。同様に、例えば、行列Ｍ_{ｐａｒｅｎｔ}の４行５列目の要素「０．９９」は事実ｐａｒｅｎｔ（ｌｉａｍ，ｅｖｅ）に付与されている重みに対応する。行列Ｍ_{ｂｒｏｔｈｅｒ}についても同様である。

次に、問い合わせ（クエリ）に対応するベクトルを用意する。このベクトルは｜Ｃ｜次元であり、その各要素が各定数に対応する。上記のTensorLogの具体例では、一例として、述語ｕｎｃｌｅ（ｄａｖｅ，Ｙ）のＹに当てはまる確率が最も高い定数を選択する問い合わせが与えられたものとする。この場合、当該問い合わせに対応するベクトルｖ_Ｘは５次元のベクトルであり、１番目～５番目の要素がそれぞれｂｏｂ，ｃｈｉｐ，ｄａｖｅ，ｅｖｅ，ｌｉａｍに対応する。したがって、当該問い合わせに対応するベクトルｖ_Ｘは、Ｘ＝ｄａｖｅであることを表すベクトルｖ_Ｘ＝（０，０，１，０，０）^ｔとなる。なお、ｔは転置を表す。

このベクトルｖ_Ｘと行列Ｍ_{ｐａｒｅｎｔ}及び行列Ｍ_{ｂｒｏｔｈｅｒ}とを用いて、
ｖ_Ｗ＝Ｍ_{ｐａｒｅｎｔ}ｖ_Ｘ
ｖ_Ｙ＝Ｍ_{ｂｒｏｔｈｅｒ}ｖ_Ｗ
により行列計算を繰り返し実行してベクトルｖ_Ｘを更新し、ベクトルｖ_Ｙを得る。具体的には、ｖ_Ｗ＝Ｍ_{ｐａｒｅｎｔ}ｖ_Ｘにより行列計算を実行してベクトルｖ_Ｘをｖ_Ｗに更新した後、ｖ_Ｙ＝Ｍ_{ｂｒｏｔｈｅｒ}ｖ_Ｗにより行列計算を実行してベクトルｖ_Ｗをｖ_Ｙに更新する。これにより、ｕｎｃｌｅ（ｄａｖｅ，Ｙ）のＹに対して５つの定数ｂｏｂ，ｃｈｉｐ，ｄａｖｅ，ｅｖｅ，ｌｉａｍをそれぞれ代入した場合におけるスコアがｖ_Ｙ＝（０，０．８９１，０，０，０）^ｔとして計算できる。この結果よりＹ＝ｃｈｉｐとするのが最も確率の高い答えとなる（つまり、クエリに対する回答はＹ＝ｃｈｉｐである。）。

ここで、TensorLogの事実に付与されている重み（パラメータ）は、訓練例から推定（学習）することもできる。例えば、上記のTensorLogの具体例の４つの事実にそれぞれ付与されている重みを未知のパラメータθ_１，・・・，θ_４として、これらのパラメータを要素とするパラメータベクトルをθ＝（θ_１，・・・，θ_４）^ｔとする。このとき、TensorLogでは、例えば、訓練例としてｕｎｃｌｅ（Ｘ，Ｙ）が真となる変数Ｘ，Ｙへの代入の組み合わせ（つまり、変数Ｘ及びＹのそれぞれに代入された場合に、ｕｎｃｌｅ（Ｘ，Ｙ）が真となる定数の組）が与えられると、その訓練例と推論結果との誤差を表現する目的関数が最小となるようにパラメータを更新することで学習を行うことができる。このような学習は、目的関数をパラメータベクトルθで微分した勾配ベクトルを求めて、この勾配ベクトルに沿ってパラメータベクトルθを更新する最急降下法によって実現することができる。なお、TensorLogでは上述したｖ_Ｙを計算する計算プロセス（つまり、手順２の行列計算）が微分可能であることから、目的関数もパラメータベクトルθで微分可能となる。

＜推論装置１０の機能構成＞
次に、本発明の実施の形態における推論装置１０の機能構成について、図２を参照しながら説明する。図２は、本発明の実施の形態における推論装置１０の機能構成の一例を示す図である。

図２に示すように、本発明の実施の形態における推論装置１０は、モデル入力部１０１と、訓練例入力部１０２と、パラメータ推定部１０３と、クエリ入力部１０４と、推論部１０５と、回答出力部１０６と、モデル記憶部１０７とを有する。

モデル入力部１０１は、TensorLogのモデル（例えば、規則の集合、未知のパラメータが付与された事実の集合、述語記号の集合、項の集合等）を受け取って、モデル記憶部１０７に格納する。ここで、項は、（１）定数、変数、（２）ｆをｎ項の関数記号、ｔ_１，・・・，ｔ_ｎを項とした場合のｆ（ｔ_１，・・・，ｔ_ｎ）と定義される。したがって、項には、文字が並んだ系列（文字列）が含まれる。本発明の実施の形態では、項の集合Ｃには、文字列（例えば、"cat", "dog"等）が含まれるものとする。なお、文字列は構造を持った対象の一例である。以降では、項の集合Ｃに含まれる文字列をｓ_１，ｓ_２，・・・等と表す。

なお、モデル入力部１０１は、例えば、推論装置１０と通信ネットワークを介して接続される他の装置からモデルを受け取ってもよいし、外部記録媒体等を介してモデルを受け取ってもよいし、推論装置１０を操作するユーザにより入力されたモデルを受け取ってもよい。

訓練例入力部１０２は、１以上の訓練例を受け取る。なお、訓練例入力部１０２は、例えば、推論装置１０と通信ネットワークを介して接続される他の装置から訓練例を受け取ってもよいし、外部記録媒体等を介して訓練例を受け取ってもよいし、推論装置１０を操作するユーザにより入力された訓練例を受け取ってもよい。

パラメータ推定部１０３は、訓練例入力部１０２が受け取った訓練例と、モデル記憶部１０７に記憶されているモデル（つまり、事実に付与されているパラメータが必ずしも学習済みでないモデル）とを用いて、パラメータを推定（学習）する。パラメータ推定部１０３により学習されたパラメータは、モデル記憶部１０７に格納される。

クエリ入力部１０４は、学習済みのモデル（つまり、事実に付与されているパラメータが学習済みであるモデル）に対する問い合わせ（クエリ）を受け取る。なお、クエリ入力部１０４は、推論装置１０と通信ネットワークを介して接続される他の装置から問い合わせを受け取ってもよいし、推論装置１０を操作するユーザにより入力された問い合わせを受け取ってもよい。

推論部１０５は、クエリ入力部１０４が受け取った問い合わせ（クエリ）に対する回答を推論する。

回答出力部１０６は、推論部１０５による推論結果を回答として出力する。なお、回答出力部１０６は、推論装置１０と通信ネットワークを介して接続される他の装置に対して回答を出力してもよいし、推論装置１０が備えるディスプレイ等に回答を出力してもよい。

＜学習処理の流れ＞
以降では、本発明の実施の形態における学習処理の流れについて、図３を参照しながら説明する。図３は、本発明の実施の形態における学習処理の一例を示すフローチャートである。

まず、訓練例入力部１０２は、１以上の訓練例を受け取る（ステップＳ１０１）。次に、パラメータ推定部１０３は、上記のステップＳ１０１で受け取った訓練例と、モデル記憶部１０７に記憶されているモデルとを用いて、このモデルのパラメータ（つまり、事実に付与されているパラメータ）を推定する（ステップＳ１０２）。なお、このステップＳ１０２のパラメータ推定処理の詳細については後述する。

最後に、パラメータ推定部１０３は、上記のステップＳ１０２で推定（学習）されたパラメータをモデル記憶部１０７に格納する（ステップＳ１０３）。これにより、学習済みのパラメータがモデル記憶部１０７に記憶される。

＜推論処理の流れ＞
以降では、本発明の実施の形態における推論処理の流れについて、図４を参照しながら説明する。図４は、本発明の実施の形態における推論処理の一例を示すフローチャートである。なお、図４では、モデル記憶部１０７に記憶されているモデルのパラメータは学習済みであるものとする。

まず、クエリ入力部１０４は、学習済みのモデルに対する問い合わせ（クエリ）を受け取る（ステップＳ２０１）。次に、推論部１０５は、上記のステップＳ２０１で受け取ったクエリに対して確率が最も高い項を推論することで、当該クエリに対する回答を推論する（ステップＳ２０２）。なお、このステップＳ２０２の確率推論処理の詳細については後述する。

最後に、回答出力部１０６は、上記のステップＳ２０２での推論結果を回答として出力する（ステップＳ２０３）。これにより、問い合わせ（クエリ）に対する回答が得られる。

＜ステップＳ２０２の確率推論処理の詳細＞
ここで、図４のステップＳ２０２で確率を推論する処理の詳細について説明する。上記の手順１～手順２で説明したように、TensorLogでは、因子グラフを作成した上で、この因子グラフに沿って行列計算を繰り返し実行して、問い合わせ（クエリ）に対応するベクトルの値を更新することで所望の確率の計算を行う。本発明の実施の形態では、このベクトルの値の更新方法が既存のTensorLogと異なる。具体的には、本発明の実施の形態では、TensorLogにて述語ｐに対応する｜Ｃ｜×｜Ｃ｜の行列Ｍ_ｐとの乗算によりベクトルの値を更新している箇所を以下の式（１）に置き換える。

ここで、ｖ_ｊは更新前のベクトルのｊ番目の要素、ｕ_ｉは更新後のベクトルのｉ番目の要素を表す。また、Ｄｉｓｔ_ｐ（ｓ_ｉ，ｓ_ｊ；θ）は、モデルのパラメータθが与えられた場合における文字列ｓ_ｉとｓ_ｊとの類似度を表すスコアである。

推論部１０５は、各ｉ＝１，・・・，｜Ｃ｜に対して、上記の式（１）を計算することによりベクトルｖ＝（ｖ_１，・・・，ｖ_｜Ｃ｜）^ｔをベクトルｕ＝（ｕ_１，・・・，ｕ_｜Ｃ｜）^ｔに更新する。問い合わせ（クエリ）に対するベクトルに対して、因子グラフに沿って当該更新を繰り返し実行することで、各項の確率を要素とするベクトルが得られる。これにより、推論部１０５は、得られたベクトルで確率が最も高い項を、当該クエリに対する回答として推論することができる。

ここで、長さｎの文字列ｘと長さｍの文字列ｙとが与えられたときに、ｒ_ｉ，ｊをｘの長さｉの接頭辞とｙの長さｊの接頭辞との間のＤｉｓｔ_ｐの値とする。すなわち、ｘの長さｉの接頭辞をｘ_ｉ、ｙの長さｊの接頭辞をｙ_ｊとすれば、ｒ_ｉ，ｊ＝Ｄｉｓｔ_ｐ（ｘ_ｉ，ｙ_ｊ；θ）である。なお、このｉ及びｊはそれぞれ文字列ｘ及びｙの接頭辞の長さを表す０以上の整数であり、上記の式（１）で文字列のインデックスを表すｉ及びｊとは無関係である。

上記のｒ_ｉｊは以下の式（２）により再帰的に計算することができる。

ここで、ｍｉｎ^γ｛ａ_１，・・・，ａ_ｎ｝は、

と定義される量である。

ｒ_ｉｊは再帰的な関係を用いた動的計画法で、ｒ_００からｒ_ｉｊまで順番に計算することで入力の文字列の長さの積に比例する時間で計算することが可能である。上記の式（２）に示す計算式は、文字列の編集距離を以下の参考文献に記載されている方法に基づいて微分可能な形に置き換えたものである。

［参考文献］
Marco Cuturi, Mathieu Blondel, "Soft-DTW: a Differentiable Loss Function for Time-Series", in Proceedings of ICML, 2017
また、γはパラメータであり、γ＞０であるものとする。γ＞０のときは、ｒ_ｉｊは微分可能な編集距離と一致する。なお、γ＝０のときは、ｒ_ｉｊは通常の編集距離である。

更に、

はそれぞれ述語ｐにおける文字列の操作に対する編集操作のコストを表しており、それぞれ、ｘ_ｉをｙ_ｊに置き換えるコスト、ｘ_ｉを削除するコスト、ｙ_ｊを挿入するコストを表している。これらのコストが、予め学習されたモデルのパラメータである。なお、ｘ_ｉは文字列ｘの長さｉの接頭辞、ｙ_ｊは文字列ｙの長さｊの接頭辞である。

TensorLogにて述語ｐに対応する｜Ｃ｜×｜Ｃ｜の行列Ｍ_ｐとの乗算によりベクトルの値を更新している箇所を上記の式（１）に置き換えることで、本発明の実施の形態でも、通常のTensorLogと同様に、各項の確率（スコア）を要素とするベクトルが得られる。これにより、当該ベクトルで確率（スコア）が最も高い項を、当該クエリに対する回答として推論することができる。

＜ステップＳ１０２のパラメータ推定処理の詳細＞
次に、図３のステップＳ１０２でパラメータを推定（学習）する処理の詳細について説明する。パラメータ推定処理では、通常のTensorLogと同様に、モデルのパラメータで目的関数を微分して勾配を求めた上で、この勾配に基づいてパラメータを更新する。具体的には、本発明の実施の形態では、TensorLogにて述語ｐに対応する｜Ｃ｜×｜Ｃ｜の行列Ｍ_ｐとの乗算によりベクトルの値を更新している箇所を上記の式（１）に置き換える。上記の式（１）はγ＞０であれば微分可能であるため、モデルのパラメータ

に関する目的関数の勾配を求めることができる。このため、パラメータ推定部１０３は、通常の最急降下法と同様に、目的関数の勾配に基づいて上記のモデルのパラメータを更新することで、パラメータを推定（学習）することができる。

＜推論装置１０のハードウェア構成＞
最後に、本発明の実施の形態における推論装置１０のハードウェア構成について、図５を参照しながら説明する。図５は、本発明の実施の形態における推論装置１０のハードウェア構成の一例を示す図である。

図５に示すように、本発明の実施の形態における推論装置１０は、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置２０２は、例えばディスプレイ等であり、推論装置１０の処理結果等を表示する。なお、推論装置１０は、入力装置２０１及び表示装置２０２の少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。推論装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、推論装置１０が有する各機能部（例えば、モデル入力部１０１、訓練例入力部１０２、パラメータ推定部１０３、クエリ入力部１０４、推論部１０５及び回答出力部１０６等）を実現する１以上のプログラム等が記録されていてもよい。

記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、推論装置１０を通信ネットワークに接続するためのインタフェースである。推論装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等であり、メモリ装置２０６等からプログラムやデータを読み出して処理を実行する演算装置である。推論装置１０が有する各機能部は、メモリ装置２０６等に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等であり、プログラムやデータが格納される記憶装置である。推論装置１０が有するモデル記憶部１０７は、メモリ装置２０６等により実現される。

本発明の実施の形態における推論装置１０は、図５に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図５に示すハードウェア構成は一例であって、推論装置１０は、他のハードウェア構成を有していてもよい。例えば、推論装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更等が可能である。

１０推論装置
１０１モデル入力部
１０２訓練例入力部
１０３パラメータ推定部
１０４クエリ入力部
１０５推論部
１０６回答出力部
１０７モデル記憶部

Claims

規則と学習済みのパラメータが付与された事実の集合と述語記号の集合と構造を持った項の集合とが含まれる確率モデルに対する問い合わせが与えられると、前記項の間の類似度を用いて、前記規則に対応する因子グラフに従って前記問い合わせに対応するベクトルを更新することで、前記問い合わせに対する回答を推論する推論手順と、
前記推論手順で推論された回答を出力する出力手順と、
をコンピュータが実行することを特徴とする推論方法。
前記確率モデルに対する訓練例が与えられると、前記項の間の類似度を用いて前記因子グラフに従って前記訓練例に対応するベクトルを更新し、該更新されたベクトルと前記訓練例との誤差に基づいて前記パラメータを学習するパラメータ推定手順、をコンピュータが実行することを特徴とする請求項１に記載の推論方法。
前記構造を持った項は文字列である、ことを特徴とする請求項１又は２に記載の推論方法。
第１の文字列と第２の文字列との間の前記類似度は、
前記第１の文字列の長さｉの接頭辞と前記第２の文字列の長さｊの接頭辞とを用いてｉ＝０及びｊ＝０から順に再帰的に計算される、微分可能な編集距離である、ことを特徴とする請求項３に記載の推論方法。
規則と学習済みのパラメータが付与された事実の集合と述語記号の集合と構造を持った項の集合とが含まれる確率モデルに対する問い合わせが与えられると、前記項の間の類似度を用いて、前記規則に対応する因子グラフに従って前記問い合わせに対応するベクトルを更新することで、前記問い合わせに対する回答を推論する推論手段と、
前記推論手段により推論された回答を出力する出力手段と、
を有することを特徴とする推論装置。
請求項１乃至４の何れか一項に記載の推論方法における各手順をコンピュータに実行させることを特徴とするプログラム。