JP7172616B2

JP7172616B2 - データ解析装置、方法、及びプログラム

Info

Publication number: JP7172616B2
Application number: JP2019003817A
Authority: JP
Inventors: 匡宏幸島; 達史松林; 浩之戸田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2022-11-16
Anticipated expiration: 2039-01-11
Also published as: JP2020113079A; US20220092455A1; WO2020145252A1

Description

本発明は、データ解析装置、方法、及びプログラムに関する。

入力変数ｘから出力変数ｙの値を予測する回帰問題において、参考文献１（CarlEdward Rasmussen and Christopher K.I. Williams. Gaussian Processes for Machine Learning. The MIT Press, 2005.）に記載されている、ガウス過程（Gaussian Processes, GP）と呼ばれる手法が広く利用されている。これは、カーネルと呼ばれる入力変数間の類似度に相当する値を計算する関数を定めることで、回帰を行うことができる手法であり、適切にカーネルを定めることでベクトルのみでなく、グラフや、画像、文書など様々なものを入力変数として利用することができる。

一方、近年のデータ分析における回帰問題では、出力変数として、正確な値ではなく、値がどの範囲にあるかを表す区間値で与えられるデータを扱う技術が必要とされている。一例として、人手やカメラを通して人や車の通過台数を計測する状況を考える。この際、例えば、人の不注意で正確な値が計測できなかった時刻が存在する場合、その時刻の通過台数は記憶から答えられる「３台以上１０台以下」のような範囲でしか分からない場合がある。同様に、カメラの要件で計測可能な人数に制限(例えば、１０人／秒) がある場合も、制限以上の人数が通過した時刻の通過人数は「１０人以上」としか分からない。

図７は、出力変数が区間値で与えられるデータの一例を示す図である。
図７において、縦軸は単位時間当たりの通過人数を示し、横軸は時刻を示す。

図７では、入力変数が実数値として与えられる状況を示しているが、上述したように、ガウス過程における入力変数は多種多様なものが可能であり、この例に限定されるものではない。また、入力変数が実数値の場合、入力変数も区間値として与えられる場合を考えることができるが、その場合も、例えば、非特許文献１に記載の方法等を用いて、区間値の真のスカラー値を推定しておくことで、出力変数のみが区間値で与えられるデータとすることができる。

従来のガウス過程による回帰では出力変数が区間値で表現されるデータに適用することができないが、例えば、区間値で表現される出力変数を用いて(ガウス過程ではなく)線形回帰を行う鹿島らの手法が存在する（例えば、非特許文献２を参照）。この手法では、区間値で与えられた出力変数の真の値を表す潜在的な変数を導入し、ＥＭ（Expectation Maximization）アルゴリズム、すなわち、潜在変数と線形回帰のパラメタの更新を繰り返すＥＭアルゴリズムによって推定を行う。

Masahiro Kohjima, Tatsushi Matsubayashi, and Hiroyuki Toda. Variational bayes for mixture models with censored data. In ECMLPKDD, 2018. Hisashi Kashima, Kazutaka Yamasaki, Akihiro Inokuchi, and Hiroto Saigo.Regression with interval output values. In Pattern Recognition, 2008. ICPR 2008. 19th International Conference on, pp. 1-4. IEEE, 2008.

しかしながら、上記の手法はカーネルを用いたガウス過程によるアプローチではないため、グラフや、画像、文書などを入力変数として利用できない。また、線形回帰の際に利用する特徴量の設計がなされていないと精度が低下する場合がある。

本発明は、上記の事情に鑑みてなされたものであり、出力変数の値が区間値として与えられた入出力データを利用可能とすることで、未知の入力変数に対する出力変数の予測の精度を向上させることができるデータ解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係るデータ解析装置は、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、前記第２入出力データの各々について、前記区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定する潜在変数推定部であって、前記第１入出力データの入力変数間の類似度を表すカーネル関数、前記第１入出力データの入力変数と前記第２入出力データの入力変数との間の類似度を表すカーネル関数、前記第２入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、前記潜在変数として、乱数を生成する潜在変数推定部と、を備え、前記予測部が、前記第１入出力データの各々の前記出力変数の値及び前記第２入出力データの各々の前記潜在変数が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する。

また、第２の発明に係るデータ解析装置は、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、前記第１入出力データの入力変数間の類似度を表すカーネル関数、前記第１入出力データの入力変数と前記第２入出力データの入力変数との間の類似度を表すカーネル関数、前記第２入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記第２入出力データの各々の前記区間値内の値の生成確率の切断正規分布に基づいて、前記第２入出力データの各々の前記出力変数の値の平均及び分散を推定する潜在変数推定部と、を備え、前記予測部が、前記第２入出力データの各々の前記出力変数の値の平均及び分散から得られる正規分布に基づいて、前記第２入出力データの各々の前記出力変数の値の正規分布を用いて表される、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する。

また、第３の発明に係るデータ解析装置は、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、を備え、前記予測部が、前記第２入出力データの入力変数間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第２入出力データの入力変数間の類似度を表す、前記区間値の下限値についてのカーネル関数とに基づいて、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値が与えられたもとでの前記未知の入力変数の潜在的な区間値の事後確率と、前記未知の入力変数の潜在的な区間値の事後確率が与えられたもとでの前記未知の入力変数に対する出力変数の値の事後確率とを用いて表される、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する。

また、第４の発明に係るデータ解析装置は、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、を備え、前記予測部が、前記第１入出力データの各々の出力変数の値を、前記第１入出力データの各々の出力変数の区間値の上限値及び下限値とし、前記未知の入力変数と、前記第１入出力データ及び前記第２入出力データの入力変数の各々との間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの入力変数間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの各々の出力変数の区間値の上限値と、を用いて表される平均、前記未知の入力変数と、前記第１入出力データ及び前記第２入出力データの入力変数の各々との間の類似度を表す、前記区間値の下限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの入力変数間の類似度を表す、前記区間値の下限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの各々の出力変数の区間値の下限値と、を用いて表される平均と、から求められる平均、及び前記第１入出力データ及び前記第２入出力データの入力変数間の類似度を表すカーネル関数を用いて表される分散を用いて表される正規分布で表される、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する。

一方、上記目的を達成するために、第５の発明に係るデータ解析装置は、出力変数の値が与えられた複数の第１入出力データと、前記出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、出力変数の値が未知の入力変数及び前記データに基づいて、線形回帰を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部であって、前記第１入出力データ及び前記第２入出力データに基づいて推定される、入力変数と出力変数の区間値の上限値との関係を表わす線形回帰のパラメタ、入力変数と出力変数の区間値の下限値との関係を表わす線形回帰のパラメタ、区間値の上限値と下限値との各々の重みパラメタ、及び分散パラメタに基づいて、前記未知の入力変数から、前記区間値の上限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、前記未知の入力変数から、前記区間値の下限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、前記重みパラメタとから求められる平均、及び前記重みパラメタと前記分散パラメタを用いて表される分散を用いて表される正規分布で表される、前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する予測部と、を備えている。

一方、上記目的を達成するために、第６の発明に係るデータ解析方法は、データ処理部が、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うステップと、予測部が、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測するステップと、潜在変数推定部が、前記第２入出力データの各々について、前記区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定するステップであって、前記第１入出力データの入力変数間の類似度を表すカーネル関数、前記第１入出力データの入力変数と前記第２入出力データの入力変数との間の類似度を表すカーネル関数、前記第２入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、前記潜在変数として、乱数を生成するステップと、を含み、前記予測するステップが、前記第１入出力データの各々の前記出力変数の値及び前記第２入出力データの各々の前記潜在変数が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する。

更に、上記目的を達成するために、第７の発明に係るプログラムは、コンピュータを、第１～第５のいずれか１の発明に係るデータ解析装置が備える各部として機能させる。

以上説明したように、本発明に係るデータ解析装置、方法、及びプログラムによれば、出力変数の値が区間値として与えられた入出力データを利用可能とすることで、未知の入力変数に対する出力変数の予測の精度を向上させることができる。
また、カーネルを用いたアプローチをとることにより、線形回帰よりも多様なデータを入力として扱うことができる。
さらに、線形回帰では必要となる特徴量の設計を行う必要がなく、精度の良い推定を行うことができる。

潜在変数を用いたガウス過程の一例を示す図である。はさみこみガウス過程の一例を示す図である。第１の実施形態に係るデータ解析装置の機能的な構成の一例を示すブロック図である。第１の実施形態に係るデータ解析処理プログラムによる処理の流れの一例を示すフローチャートである。第２の実施形態に係るデータ解析装置の機能的な構成の一例を示すブロック図である。第２の実施形態に係るデータ解析処理プログラムによる処理の流れの一例を示すフローチャートである。出力変数が区間値で与えられるデータの一例を示す図である。

以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。

本実施形態においては、区間値出力を用いたガウス過程に基づく２つのアルゴリズムを示す。１つ目の手法は、図１に示すように、鹿島らの手法（非特許文献２）と同様に、区間値で与えられた出力変数の真の値を表す潜在的な変数を導入するアプローチである。

図１は、潜在変数を用いたガウス過程の一例を示す図である。
図１において、縦軸は単位時間当たりの通過人数を示し、横軸は時刻を示す。

図１では、区間値出力変数の真の値の推定値を表す潜在変数Ｚ_４が推定され、未知の入力変数ｘ_ｎｅｗに対する出力変数の予測が行われる。

次に、２つ目の手法は、図２に示すように、２つのガウス過程の予測値を用いるアプローチである。つまり、この２つ目のアプローチでは、「区間値のデータの上界を用いたガウス過程」と「区間値のデータの下界を用いたガウス過程」とが用いられる。以下、２つのガウス過程を用いた方法を、「はさみこみガウス過程」という。

図２は、はさみこみガウス過程の一例を示す図である。
図２において、縦軸は単位時間当たりの通過人数を示し、横軸は時刻を示す。

図２では、区間が与えられたデータの上界ｒ_４ ^ｕを用いたガウス過程と、区間が与えられたデータの下界ｒ_４ ^ｌを用いたガウス過程とが用いられる。そして、これら２つのガウス過程の値を用いて、未知の入力変数ｘ_ｎｅｗに対する出力変数の予測が行われる。

これら２つのアルゴリズムには、それぞれ長所と短所がある。１つ目のアプローチを用いる場合、区間値のデータは非有界(例えば、１０以上なのは分かるが上界は分からず無限大より小さい、としか言えないデータ)であっても扱える。その代わりに予測を行う前に計算量の大きい潜在変数のサンプリングや、なんらかの近似を利用することが必要になる。一方、２つ目のアプローチを用いる場合は、１つ目のアプローチの場合と逆に、区間値のデータは有界(例えば、１０以上１５以下のように範囲が明確に分かる)でなければ扱えない。その代わりに予測を行う前の潜在変数のサンプリングや近似を行うことなく、予測値を出力することができる。

[データの定義]
出力変数として正確な値が分かるｓ個の入出力データと、出力変数の正確な値は分からず、値のとる範囲が分かるｔ個の入出力データの組として表されるデータＤ、つまり、

が与えられているとする。ｘ_ｉはデータｉの入力変数、ｙ_ｉはデータｉの(値が分かる) 出力変数を表す。ｘ_ｊはデータｊの入力変数、ｒ_ｊ ^ｌはデータｊの出力変数がとる値の下界、ｒ_ｊ ^ｕはデータｊの出力変数がとる値の上界を表す。出力変数として正確なデータが与えられているデータを添字ｉ∈Ω_ｓｖ、値の範囲を示す区間値として与えられているデータを添字ｊ∈Ω_ｉｖで表すこととする。データの総数をｎ（＝ｓ＋ｔ）と書き、上記２種類のどちらのデータかを区別しないときは添字ｄを用いる。また、以後スカラー値の出力変数をまとめて、

と書き、区間値の出力変数の範囲を示す変数を

と書く。

また、潜在変数として出力変数の値が分からないデータｊの出力変数の値を示す変数ｙ_ｊ ^ｔを導入する。すなわち、ｙ_ｊ ^ｔは、

を満たす。これもまとめて、

と書く。さらに、ｙ^ｓとｙ^ｔをまとめて、

と書く。

[１．潜在変数を用いたガウス過程]
ここでは、上述の１つ目のアルゴリズム、すなわち、潜在変数を用いたガウス過程による方法について述べる。この方法では、出力変数ｙの生成過程として、以下に示すようなモデルを考える。

まず、入出力関係を定める関数ｆがガウス過程に従うとする。ｆがガウス過程であるとき、任意の部分集合

は、次のガウス分布に従う。

ただし、Ｋ_ｎｎはｎ×ｎの分散共分散行列であり、その（ｄ、ｄ’）要素ｋ_ｄｄ’はカーネル関数

を用いて、ｋ（ｘ_ｄ、ｘ_ｄ’）で表される。

次に、出力変数が平均ｆの等方ガウス分布に従うとする。

ただし、Ｉ_ｎはｎ×ｎの単位行列を表す。ｆを積分消去すれば、ｙの生成確率が以下の式で与えられることが分かる。

ここで、Ｃ_ｎｎ＝Ｋ_ｎｎ＋σ^２Ｉ_ｎと定義した。ガウス分布の条件付き分布の性質から、ｙが与えられたもとでの未知の入力変数ｘ_＊の出力変数ｙ_＊の事後確率は、以下のガウス分布で与えられる。

ｋ_ｘは、

と定義されるｎ行ベクトルである。出力変数の値がすべて既知である通常の回帰問題であれば、上記式（２）を用いて予測ができる。しかし、今回の問題設定では区間値しか与えられていないデータの出力変数ｙ_ｔの値は分からないため、このままでは予測を行うことができない。そこで、Ｐ（ｙ）をより分解してより詳しくみる。

式（１）と同様に出力変数がスカラー値で与えられたデータのみに限定したＰ（ｙ^ｓ）の生成確率は、次の通りである。

ただし、Ｃ_ｓｓ＝Ｋ_ｓｓ＋σ^２Ｉ_ｎｓｖ、Ｋ_ｓｓは（ｉ、ｉ’）要素（ｉ、ｉ’∈Ω_ｓｖ）がｋ（ｘ_ｉ、ｘ_ｉ’）であるｓ×ｓ行列である。さらに、ｙ^ｓが与えられたもとでのｙ^ｔの確率は以下となる。

ただし、Ｋ_ｔｔはｔ×ｔの行列であり、（ｊ、ｊ’）要素（ｊ、ｊ’∈Ω_ｉｖ）がｋ（ｘ_ｊ、ｘ_ｊ’）で定義され、Ｋ_ｓｔはｓ×ｔの行列であり、（ｉ、ｊ’）要素（ｉ∈Ω_ｓｖ、ｊ∈Ω_ｉｖ）がｋ（ｘ_ｉ、ｘ_ｊ）で定義される。

従って、ｙ_ｉｖの各要素ｙ_ｊが区間

に値をとる確率

は、

であり、区間値で条件付けられた潜在変数ｙ^ｔの生成確率は、次の式で与えられる。

ただし、ＴＮは多次元の切断正規分布を表し、その確率密度関数は以下の式で与えられる。

上記の導出から、ｙ^ｔ∈（ｒ^ｌ、ｒ^ｕ）とｙ^ｓが与えられたもとでの未知入力変数ｘ_＊の出力変数ｙ_＊の事後確率は、上述の式（２）、（３）を用いて、

と与えられる。ｙ^ｔに関する積分の解析的な計算は困難であるため、予測分布を構成する際には以下に示す乱数生成することによって数値的に得る方法や正規分布による近似を用いる手法が必要となる。

[１－１．乱数を生成する方法]
この方法では、上述の式（３）の切断正規分布に従う乱数Ｑ個の乱数生成値

を生成し、定義した

を使って、式（４）の近似として、

を用いることで予測分布を構成できる。切断正規分布に従う乱数の生成方法は、一例として、参考文献２（Stefan Wilhelm and BGManjunath. tmvtnorm: A package for the truncated multivariate normal distribution. sigma, Vol.2, No.2, 2010.）に示されている。

[１－２．正規分布による近似を利用する方法]
この方法では、切断正規分布を正規分布で近似することで予測分布を構成する。例えば、変分近似とモーメントマッチングを用いる場合、まず変分近似によって式（３）の多次元の切断正規分布を近似することにより、各次元で独立な切断正規分布を得ることができる。

例えば、参考文献３（NL. Johnson, S.Kotz, and N.Balakrishnan. Continuous Univariate Probability Distributions,(Vol. 1). John Wiley & Sons Inc., NY, 1994.）に記載の手法のように、１次元の切断正規分布はその平均と分散が解析的に得られることが知られている。そこで、モーメントマッチングによりそれらを平均と分散にもつ正規分布を利用することで近似が可能となる。この近似分布を用いることで予測分布の式中の積分を解析的に解くことができ、予測分布を構成することができる。

[２．はさみこみガウス過程]
２つ目のアルゴリズムとして、２つの回帰分析を用いた方法について述べる。まず、２つのガウス過程を用いた方法の線形回帰版である、はさみこみ線形回帰手法について述べる。このはさみこみ線形回帰手法も本実施形態により新たに提案する方法である。

[２－１．はさみこみ線形回帰]
ある入力ｘ_ｄの区間値

の上界と下界、スカラー値ｙ_ｄが下記の正規分布に従って得られているとしてモデル化する。

ただし、

は推定対象のパラメタ、βは推定対象のパラメタ、φ（・）は特徴量を定める既知の関数、δ（・）はデルタ関数を表す。なお、上述のデータの定義で述べたようにｄ∈Ω_ｓｖならば、スカラー値ｙ_ｄは観測されているが区間値ｒ_ｄは観測されておらず、ｄ∈Ω_ｉｖならば、スカラー値は観測されていないが区間値は観測されていることになる。スカラー値のみ観測される場合の区間値ｒ_ｄは、正規分布の和が正規分布であるという性質を用いると次のように周辺化して消去することができる。

（６ａ）

この結果を使うと、パラメタが与えられたもとでのデータの生成確率は以下のようにまとめられる。

（６ｂ）

よって、対数をとった下記の目的関数をパラメタＷ、α、βに関して最大化することでパラメタが推定できる。

[２－２．はさみこみガウス回帰]
入力変数と区間値の上界の入出力関係を定める関数ｆ^ｕ、入力変数と区間値の下界の入出力関係を定める関数ｆ^ｌと書く。ｆ^ｕ、ｆ^ｌがそれぞれガウス過程に従うとする。よって任意の部分集合

は次のガウス分布に従う。

ただし、Ｋ^ｕ、Ｋ^ｌは分散共分散行列であり、その要素はそれぞれカーネル関数

で表される。さらに、区間値の上界と下界ｙ^ｕ、ｙ^ｌはそれぞれ平均がｆ^ｕとｆ^ｌの等方ガウス分布に従うとする。

ｆ^ｕとｆ^ｌを積分消去すれば、下記となる。

最後にスカラー値ｙが下記の正規分布に従うとする。

（６ｃ）

スカラー値のみが観測されたデータｉ∈Ω_ｓｖにおける潜在的な区間値データの集合をｚ^ｕ、ｚ^ｌ(これは観測されていない)と書けば、ｙ、ｒ^ｌ、ｒ^ｕの生成過程は、

と書ける。式中の積分は解析的に計算でき、

は正規分布となる。α、σ^２、γ^-１はこれを目的関数として最大化することで推定できる。未知変数の予測値ｙ_＊は通常のガウス過程における予測分布の構成方法と、上述の式（６ｃ）とを利用して、下記の式により導ける。

なお、ここでは式（６ｃ）を用いた単純な線形ガウスモデルを考えているが、これ自体をガウス過程にしてもよいし、より高次の項までみるモデルを考えてもよい。

[２－３．はさみこみガウス回帰（スカラー値を区間値として扱う場合）]
本手法は、上述の[２－２．はさみこみガウス回帰]の方法とほぼ同様であるが、スカラー値も長さゼロの区間値として扱うことでより単純に手法を構築することもできる。表記の簡単化のため、ここでは、出力変数のスカラー値と区間値の上界をまとめてｙ^ｕ、出力変数のスカラー値と区間値の下界をまとめてｙ^ｌと書く。すなわち、

である。

入力変数と区間値の上界の入出力関係を定める関数ｆ^ｕ、入力変数と区間値の下界の入出力関係を定める関数ｆ^ｌと書く。ｆ^ｕ、ｆ^ｌがそれぞれガウス過程に従うとする。よって任意の部分集合

は次のガウス分布に従う。

さらに、出力変数ｙ^ｕ、ｙ^ｌはそれぞれ平均がｆ^ｕとｆ^ｌの等方ガウス分布に従うとする。

ｆ^ｕとｆ^ｌを積分消去すれば、

となる。ただし、

よって未知の入力変数ｘ_＊の出力変数

の予測分布は以下のガウス分布で与えられる。

ただし、

と定義されるｎ行ベクトルである。よって、式（８）によって任意の入力変数における出力変数の上界と下界の予測分布が計算できるので、この２つの重み付き和によって、出力変数値が定まるとすることで予測が行える。

α、βは重みを表す変数である。ただし、上述の[２－２．はさみこみガウス回帰]の方法と異なり、スカラー値を区間値として扱う方法では、これらα、βの推定には、交差検証法などを利用する必要がある。値に事前知識がある場合、例えばスカラー値がおおむね上界と下界の平均である、という場合にはその知識に基づいてα＝β＝１／２と設定すればよい。なお、正規分布に従う変数の線形和も正規分布に従うため、ｙ_＊の事後分布も正規分布で与えられる。α＝β＝１／２とした時の事後分布は、以下となる。

上述の手法を用いることで、出力変数の値が、観測された値そのもの、あるいは、値がとる範囲を表す区間値で与えられたものどちらであってもデータとして利用することができるようになる。このため、従来のガウス過程よりも予測の精度を向上させることができる。

[第１の実施形態]
本実施形態では、潜在変数を導入した１つの目のアプローチを実施する場合におけるデータ解析装置について説明する。なお、潜在変数の推定には、上述の[１－１．乱数を生成する方法]、及び、[１－２．正規分布による近似を利用する方法]のいずれかの方法が適用される。

図３は、第１の実施形態に係るデータ解析装置１０Ａの機能的な構成の一例を示すブロック図である。
図３に示すように、本実施形態に係るデータ解析装置１０Ａは、データ処理部１２と、潜在変数推定部１４と、予測部１６と、記録部１８と、入出力部２０と、を備えている。

データ解析装置１０Ａは、電気的には、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を備えたコンピュータ装置として構成される。なお、ＲＯＭには、本実施形態に係るデータ解析処理プログラムが記憶されている。

上記のデータ解析処理プログラムは、例えば、データ解析装置１０Ａに予めインストールされていてもよい。このデータ解析処理プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、データ解析装置１０Ａに適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、光磁気ディスク、ＤＶＤ-ＲＯＭ（Digital Versatile Disc Read Only Memory）、フラッシュメモリ、メモリカード等が挙げられる。

記録部１８には、例えば、不揮発性の記憶装置が適用される。記録部１８には、データ記録部１８Ａ及び潜在変数記録部１８Ｂが設けられている。

入出力部２０は、外部装置３０とネットワークを介して接続されており、外部装置３０から解析対象とするデータの入力を受け付け、解析後のデータを外部装置３０に出力する。

ＣＰＵは、ＲＯＭに記憶されているデータ解析処理プログラムを読み込んで実行することにより、上記のデータ処理部１２、潜在変数推定部１４、及び予測部１６として機能する。

次に、図４を参照して、第１の実施形態に係るデータ解析装置１０Ａの作用について説明する。なお、図４は、第１の実施形態に係るデータ解析処理プログラムによる処理の流れの一例を示すフローチャートである。

図４のステップ１００では、データ処理部１２が、外部装置３０から入出力部２０を介して、上述のデータＤを取得し、データ記録部１８Ａに格納する。なお、データＤとは、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータとされる。

ステップ１０２では、潜在変数推定部１４が、データ記録部１８Ａに格納されたデータＤを入力として、複数の第２入出力データの各々について、区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定し、推定した潜在変数を潜在変数記録部１８Ｂに格納する。具体的には、上述の[１－１．乱数を生成する方法]で説明したように、上記（３）式に示す、区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、乱数が生成され、潜在変数の推定値となる。この切断正規分布は、第１入出力データの入力変数間の類似度を表すカーネル関数、第１入出力データの入力変数と第２入出力データの入力変数との間の類似度を表すカーネル関数、第２入出力データの入力変数間の類似度を表すカーネル関数、及び区間値を用いて表される。

ステップ１０４では、予測部１６が、外部装置３０から入出力部２０を介して、出力変数の値が未知の入力変数ｘ_＊を取得する。

ステップ１０６では、予測部１６が、未知の入力変数ｘ_＊、データ記録部１８Ａに格納されたデータＤ、潜在変数記録部１８Ｂに格納された潜在変数を入力として、ガウス過程を用いて、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。具体的には、第１入出力データの各々の出力変数の値及び第２入出力データの各々の潜在変数が与えられたもとでの未知の入力変数ｘ_＊の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値が予測される。この予測分布は、一例として、上述の式（５）を用いて導出される。そして、予測部１６は、得られた出力変数ｙ_＊の予測値を、入出力部２０を介して外部装置３０に出力し、本データ解析処理プログラムによる一連の処理を終了する。

上記の実施形態では、(潜在変数に関する積分を含む)出力変数の事後分布の近似計算のために、潜在変数を乱数生成する方法を用いているが、積分計算を近似するいかなる方法を用いてもよい。

なお、上述の[１－２．正規分布による近似を利用する方法]で説明したように、区間値で条件付けられた潜在変数の生成確率の切断正規分布を正規分布で近似して予測分布を得るようにしてもよい。この場合、潜在変数推定部１４は、第２入出力データの各々の区間値内の値の生成確率の切断正規分布に基づいて、第２入出力データの各々の出力変数の値の平均及び分散を推定する。この切断正規分布は、上述したように、第１入出力データの入力変数間の類似度を表すカーネル関数、第１入出力データの入力変数と第２入出力データの入力変数との間の類似度を表すカーネル関数、第２入出力データの入力変数間の類似度を表すカーネル関数、及び区間値を用いて表される。そして、予測部１６は、第２入出力データの各々の出力変数の値の平均及び分散から得られる正規分布に基づいて、第１入出力データの各々の出力変数の値及び第２入出力データの各々の区間値で条件付けられた値が与えられたもとでの未知の入力変数ｘ_＊の出力変数ｙ_＊の事後確率を表す予測分布に従って、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。この予測分布は、第２入出力データの各々の出力変数の値の正規分布を用いて表される、この予測分布は、一例として、上述の式（４）におけるＴＮ（切断正規分布）を、近似した正規分布で置き換えた式を用いて導出される。

[第２の実施形態]
本実施形態では、２つの回帰分析を用いた２つ目のアプローチを実施する場合におけるデータ解析装置について説明する。なお、出力変数の予測には、上述の[２－１．はさみこみ線形回帰]、[２－２．はさみこみガウス回帰]、及び[２－３．はさみこみガウス回帰（スカラー値を区間値として扱う場合）]のいずれかの方法が適用される。

図５は、第２の実施形態に係るデータ解析装置１０Ｂの機能的な構成の一例を示すブロック図である。
図５に示すように、本実施形態に係るデータ解析装置１０Ｂは、データ処理部１２と、予測部２２と、記録部２４と、入出力部２６と、を備えている。

データ解析装置１０Ｂは、上記第１の実施形態に係るデータ解析装置１０Ａと同様に、電気的には、ＣＰＵ、ＲＡＭ、及びＲＯＭ等を備えたコンピュータ装置として構成される。なお、ＲＯＭには、本実施形態に係るデータ解析処理プログラムが記憶されている。

記録部２４には、データ記録部２４Ａが設けられている。

入出力部２６は、外部装置３０とネットワークを介して接続されており、外部装置３０から解析対象とするデータの入力を受け付け、解析後のデータを外部装置３０に出力する。

ＣＰＵは、ＲＯＭに記憶されているデータ解析処理プログラムを読み込んで実行することにより、上記のデータ処理部１２及び予測部２２として機能する。

次に、図６を参照して、第２の実施形態に係るデータ解析装置１０Ｂの作用について説明する。なお、図６は、第２の実施形態に係るデータ解析処理プログラムによる処理の流れの一例を示すフローチャートである。

図６のステップ１１０では、データ処理部１２が、外部装置３０から入出力部２６を介して、上述のデータＤを取得し、データ記録部２４Ａに格納する。なお、データＤとは、上述したように、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータとされる。

ステップ１１２では、予測部２２が、外部装置３０から入出力部２０を介して、出力変数の値が未知の入力変数ｘ_＊を取得する。

ステップ１１４では、予測部２２が、未知の入力変数ｘ_＊、データ記録部１８Ａに格納されたデータＤを入力として、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。具体的には、例えば、上述の[２－３．はさみこみガウス回帰（スカラー値を区間値として扱う場合）]で説明したように、第１入出力データの各々の出力変数の値を、第１入出力データの各々の出力変数の区間値の上限値及び下限値とする。この場合、第１入出力データの各々の出力変数の値及び第２入出力データの各々の区間値で条件付けられた値が与えられたもとでの未知の入力変数ｘ_＊の出力変数の事後確率を表す予測分布に従って、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。この予測分布は、未知の入力変数ｘ_＊と、第１入出力データ及び第２入出力データの入力変数の各々との間の類似度を表す、区間値の上限値についてのカーネル関数と、第１入出力データ及び第２入出力データの入力変数間の類似度を表す、区間値の上限値についてのカーネル関数と、第１入出力データ及び第２入出力データの各々の出力変数の区間値の上限値と、を用いて表される平均、未知の入力変数ｘ_＊と、第１入出力データ及び第２入出力データの入力変数の各々との間の類似度を表す、区間値の下限値についてのカーネル関数と、第１入出力データ及び第２入出力データの入力変数間の類似度を表す、区間値の下限値についてのカーネル関数と、第１入出力データ及び第２入出力データの各々の出力変数の区間値の下限値と、を用いて表される平均と、から求められる平均、及び、第１入出力データ及び第２入出力データの入力変数間の類似度を表すカーネル関数を用いて表される分散を用いて表される正規分布で表される。この予測分布は、一例として、上述の式（１０）を用いて導出される。そして、予測部２２は、得られた出力変数ｙ_＊の予測値を、入出力部２６を介して外部装置３０に出力し、本データ解析処理プログラムによる一連の処理を終了する。

上記の実施形態では、２つのガウス過程の値の単純平均で予測する方法を用いているが、重み付き平均や、より複雑な関数を用いて予測する方法を用いてもよい。

なお、上述の[２－２．はさみこみガウス回帰]で説明した方法を用いてもよい。この場合、予測部２２は、第１入出力データの各々の出力変数の値及び第２入出力データの各々の区間値で条件付けられた値が与えられたもとでの未知の入力変数ｘ_＊の出力変数の事後確率を表す予測分布に従って、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。この予測分布は、第２入出力データの入力変数間の類似度を表す、区間値の上限値についてのカーネル関数と、第２入出力データの入力変数間の類似度を表す、区間値の下限値についてのカーネル関数とに基づいて、第１入出力データの各々の出力変数の値及び第２入出力データの各々の区間値が与えられたもとでの未知の入力変数ｘ_＊の潜在的な区間値の事後確率と、未知の入力変数ｘ_＊の潜在的な区間値の事後確率が与えられたもとでの未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値の事後確率とを用いて表される、この予測分布は、一例として、上述の式（７）を用いて導出される。

また、上述の[２－１．はさみこみ線形回帰]で説明した方法を用いてもよい。この場合、予測部２２は、未知の入力変数ｘ_＊及びデータＤに基づいて、線形回帰を用いて、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。具体的に、予測部２２は、未知の入力変数ｘ_＊の出力変数の事後確率を表す予測分布に従って、未知の入力変数ｘ_＊に対する出力変数ｙ_＊の値を予測する。この予測分布は、第１入出力データ及び第２入出力データに基づいて推定される、入力変数と出力変数の区間値の上限値との関係を表わす線形回帰のパラメタ（パラメタｗ_ｕ）、入力変数と出力変数の区間値の下限値との関係を表わす線形回帰のパラメタ（パラメタｗ_ｌ）、区間値の上限値と下限値との各々の重みパラメタ（パラメタα）、及び分散パラメタ（パラメタβ）に基づいて、未知の入力変数ｘ_＊から、区間値の上限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、未知の入力変数ｘ_＊から、区間値の下限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、重みパラメタとから求められる平均、及び、重みパラメタと分散パラメタを用いて表される分散を用いて表される正規分布で表される。この予測分布は、一例として、上述の式（６ａ）及び式（６ｂ）を用いて導出される。

以上、実施形態としてデータ解析装置を例示して説明した。実施形態は、コンピュータを、データ解析装置が備える各部として機能させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。

その他、上記実施形態で説明したデータ解析装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。

また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。

１０Ａ、１０Ｂデータ解析装置
１２データ処理部
１４潜在変数推定部
１６、２２予測部
１８、２４記録部
２０、２６入出力部
３０外部装置

Claims

出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
前記第２入出力データの各々について、前記区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定する潜在変数推定部であって、
前記第１入出力データの入力変数間の類似度を表すカーネル関数、前記第１入出力データの入力変数と前記第２入出力データの入力変数との間の類似度を表すカーネル関数、前記第２入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、前記潜在変数として、乱数を生成する潜在変数推定部と、
を備え、
前記予測部は、前記第１入出力データの各々の前記出力変数の値及び前記第２入出力データの各々の前記潜在変数が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。
出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
前記第１入出力データの入力変数間の類似度を表すカーネル関数、前記第１入出力データの入力変数と前記第２入出力データの入力変数との間の類似度を表すカーネル関数、前記第２入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記第２入出力データの各々の前記区間値内の値の生成確率の切断正規分布に基づいて、前記第２入出力データの各々の前記出力変数の値の平均及び分散を推定する潜在変数推定部と、
を備え、
前記予測部は、前記第２入出力データの各々の前記出力変数の値の平均及び分散から得られる正規分布に基づいて、前記第２入出力データの各々の前記出力変数の値の正規分布を用いて表される、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。
出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
を備え、
前記予測部は、
前記第２入出力データの入力変数間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第２入出力データの入力変数間の類似度を表す、前記区間値の下限値についてのカーネル関数とに基づいて、
前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値が与えられたもとでの前記未知の入力変数の潜在的な区間値の事後確率と、
前記未知の入力変数の潜在的な区間値の事後確率が与えられたもとでの前記未知の入力変数に対する出力変数の値の事後確率と
を用いて表される、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。
出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
を備え、
前記予測部は、
前記第１入出力データの各々の出力変数の値を、前記第１入出力データの各々の出力変数の区間値の上限値及び下限値とし、
前記未知の入力変数と、前記第１入出力データ及び前記第２入出力データの入力変数の各々との間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの入力変数間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの各々の出力変数の区間値の上限値と、を用いて表される平均、
前記未知の入力変数と、前記第１入出力データ及び前記第２入出力データの入力変数の各々との間の類似度を表す、前記区間値の下限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの入力変数間の類似度を表す、前記区間値の下限値についてのカーネル関数と、前記第１入出力データ及び前記第２入出力データの各々の出力変数の区間値の下限値と、を用いて表される平均と、から求められる平均、及び
前記第１入出力データ及び前記第２入出力データの入力変数間の類似度を表すカーネル関数を用いて表される分散
を用いて表される正規分布で表される、前記第１入出力データの各々の出力変数の値及び前記第２入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。
出力変数の値が与えられた複数の第１入出力データと、前記出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、線形回帰を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部であって、
前記第１入出力データ及び前記第２入出力データに基づいて推定される、入力変数と出力変数の区間値の上限値との関係を表わす線形回帰のパラメタ、入力変数と出力変数の区間値の下限値との関係を表わす線形回帰のパラメタ、区間値の上限値と下限値との各々の重みパラメタ、及び分散パラメタに基づいて、
前記未知の入力変数から、前記区間値の上限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、前記未知の入力変数から、前記区間値の下限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、前記重みパラメタとから求められる平均、及び
前記重みパラメタと前記分散パラメタを用いて表される分散
を用いて表される正規分布で表される、前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する予測部と、
を備えたデータ解析装置。
データ処理部が、出力変数の値が与えられた複数の第１入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第２入出力データとの組で表されるデータを取得する処理を行うステップと、
予測部が、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測するステップと、
潜在変数推定部が、前記第２入出力データの各々について、前記区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定するステップであって、
前記第１入出力データの入力変数間の類似度を表すカーネル関数、前記第１入出力データの入力変数と前記第２入出力データの入力変数との間の類似度を表すカーネル関数、前記第２入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、前記潜在変数として、乱数を生成するステップと、
を含み、
前記予測するステップは、前記第１入出力データの各々の前記出力変数の値及び前記第２入出力データの各々の前記潜在変数が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析方法。
コンピュータを、請求項１～５のいずれか１項に記載のデータ解析装置が備える各部として機能させるためのプログラム。