JP2020194414A

JP2020194414A - データ分析装置、データ分析方法、およびデータ分析プログラム

Info

Publication number: JP2020194414A
Application number: JP2019100316A
Authority: JP
Inventors: 鈴木　麻由美; Mayumi Suzuki; 麻由美鈴木; 泰穂山下; Yasuho Yamashita; 琢磨柴原; Takuma Shibahara
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-03
Anticipated expiration: 2039-05-29
Also published as: US20200380392A1; US11636358B2; JP7202973B2; EP3745325A1

Abstract

【課題】予測に寄与することが非自明な特徴量から重要な特徴量を抽出すること。【解決手段】データ分析装置は、特徴量の集合から、予測に寄与することが自明である第１特徴量群と第１特徴量群以外の第２特徴量群とを選定する選定処理と、特徴量の集合を予測モデルに入力した場合に出力される予測結果と特徴量に対応する正解データとの差に関する損失関数において、予測モデルを構成する重みパラメータ集合のうち、第１特徴量群に対応する第１重みパラメータ群に関する第１正則化係数を損失関数が大きくなるように操作し、第２特徴量群に対応する第２重みパラメータ群に関する第２正則化係数を損失関数が小さくなるように操作する操作処理と、操作処理によって第１正則化係数および第２正則化係数が操作された結果、損失関数が最小となるように、予測モデルの重みパラメータ集合を学習する学習処理と、を実行する。【選択図】図１

Description

本発明は、データを分析するデータ分析装置、データ分析方法、およびデータ分析プログラムに関する。

機械学習は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を実現する技術の１つである。機械学習技術は、学習のプロセスと予測のプロセスにより構成される。まず、学習のプロセスでは、入力となる特徴量ベクトルから得られた予測値と実際の値（真値）の誤差が最小となるように、学習パラメータを計算する。続いで、予測のプロセスでは、学習に用いなかったデータ（以降、テストデータと呼ぶ）から新しい予測値を計算する。

これまで、予測精度が最大となるような学習パラメータの算出方法や演算方法が考案されてきた。たとえば、パーセプトロンと呼ばれる手法では、入力となる特徴量ベクトルと、重みベクトルの線形結合の演算結果により予測値を出力する。ニューラルネットワークは、別名、マルチパーセプトロンとも呼ばれ、複数のパーセプトロンを多層的に重ねることで、線形分離不可能問題を解く能力をもつ。ｄｅｅｐｌｅａｒｎｉｎｇは、ニューラルネットワークにドロップアウト等の新しい技術を導入した手法であり、高い予測精度を達成できる手法として、脚光を浴びた。

このように、これまで、予測精度を向上させることを目的として機械学習技術の開発が行われてきた。機械学習技術の開発以外に、特許文献１のように、学習に用いるデータを予め選定することで、予測精度を向上させる手法もある。特許文献１では、重回帰分析において、学習パラメータのひとつである重みベクトルの各要素値の大きさを、予測に寄与した特徴量の重要度として用いることが可能であることを利用して、予測に重要な特徴量を選定している。

国際公開第２０１０／０１６１１０号

Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "Why should I trust you ?: Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016. Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81-102.

機械学習は、病気に罹患する確率や機械が故障する確率を予測する以外に、高い精度の予測結果が得られる条件下において、病気に罹患する確率や機械が故障する確率の予測に寄与した特徴量を特定する技術として使用されることもある。

たとえば、ヘルスケア情報の解析において、疾病Ｘの患者とそれ以外の人の血液検査のデータを用いて、患者か否かの予測を行い、予測に寄与した特徴量を重要特徴量として抽出し、患者の治療方針や生活指導の確立に活かされてきた。

特許文献１やパーセプトロンのように、線形結合の演算により予測を行う手法では、重みベクトルの各要素値の大きさを用いた重要特徴量の特定手法により、予測に寄与する特徴量が抽出される。また、非線形結合の演算により予測を行う手法では、決定木を用いた手法のひとつであるｒａｎｄｏｍｆｏｒｅｓｔにおけるｏｕｔ−ｏｆ−ｂａｇ誤り率を用いた重要特徴量の特定手法により、予測に寄与する特徴量が抽出される。

特許文献２のように、線形分離不可能問題を解く能力をもつｄｅｅｐｌｅａｒｎｉｎｇなどにおいても、重要特徴量を抽出する能力を持った手法が開発されている。これらの手法の開発により、新しい効果的な治療方針や生活指導が確立されてきた。

たとえば、特定の特徴量と真値がほぼ等価である場合、特定の特徴量のみで精度の高い予測が可能である。加えて、特定の特徴量以外の他の特徴量も真値の予測に寄与している場合などにおいては、相対的に特定の特徴量以外の他の特徴量における重要度が低下し、予測に寄与した特徴量として、当該他の特徴量を抽出できない可能性が考えられる。特に、特定の特徴量は、すでにこれまでの解析等により、疾病Ｘと関係があると自明の特徴量であると推定される。

また、特定の特徴量のうち予測に寄与する特徴量として自明な特徴量（以下、単に、「自明な特徴量」）以外の特徴量（以下、「非自明な特徴量」）が、予測に寄与することを明らかとするためには、非自明な特徴量のみを用いた予測を行う必要がある。この場合、自明な特徴量は使用されないため、予測精度が低下することが想像される。

本発明の目的は、予測に寄与することが非自明な特徴量を重要な特徴量として抽出することを可能にする、データ分析装置、データ分析方法、およびデータ分析プログラムを提供することにある。

本発明の一側面となるデータ分析装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有するデータ分析装置であって、前記プロセッサが、特徴量の集合から、予測に寄与することが自明である第１特徴量群と、前記第１特徴量群以外の第２特徴量群と、を選定する選定処理と、前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第１特徴量群に対応する第１重みパラメータ群に関する第１正則化係数を前記損失関数が大きくなるように操作し、前記第２特徴量群に対応する第２重みパラメータ群に関する第２正則化係数を前記損失関数が小さくなるように操作する操作処理と、前記操作処理によって前記第１正則化係数および前記第２正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する学習処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、予測に寄与することが非自明な特徴量のうち予測に寄与する特徴量を重要な特徴量として抽出することができる。前述した以外の課題、構成および効果は、以下の実施例の説明により明らかにされる。

図１は、自明な特徴量と非自明な特徴量とを示す説明図１である。図２は、自明な特徴量と非自明な特徴量とを示す説明図２である。図３は、実施例１のデータ分析装置のハードウェア構成例を示すブロック図である。図４は、実施例１のデータ分析装置の機能的構成の一例を示すブロック図である。図５は、実施例１にかかるデータ分析装置によるデータ分析処理手順例を示すフローチャートである。図６は、表示画面の表示例１を示す説明図である。図７は、表示画面の表示例２を示す説明図である。図８は、特徴量ベクトルＦｅａｔｕｒｅｓと正解データＴａｒｇｅｔとを示す説明図である。図９は、実験結果を示す説明図である。図１０は、実施例４にかかるデータ分析装置における画面表示の一例である。図１１は、特徴量ベクトルの再配置例を示す説明図である。図１２は、実施例５にかかるニューラルネットワークの構造例を示す説明図である。図１３は、実施例５のかかるデータ分析装置の機能的構成例を示すブロック図である。

まず、実施例１のデータ分析装置を説明する。実施例１のデータ分析装置は、自明な特徴量と非自明な特徴量とを選択し、学習プロセスにおいて非自明な特徴量の予測に対する寄与度をあげ、自明な特徴量の寄与度を抑圧した予測結果の表示を行う。

＜自明な特徴量と非自明な特徴量＞
図１は、自明な特徴量と非自明な特徴量とを示す説明図１である。図１では、高校生の卒業可否を予測するロジスティック回帰の例を示す。図１において、特徴量ｘ_１，ｎは年齢、特徴量ｘ_２，ｎは出席日数、特徴量ｘ_３，ｎは身長、予測値ｙ_ｎは卒業可否を示す。ｎはｎ番目（ｎは１以上の整数）の高校生を示す。特徴量ｘ_１，ｎ〜ｘ_３，ｎのうち、特徴量ｘ_１，ｎを、予測値ｙ_ｎの真値とほぼ等価な特定の特徴量とする。

（Ａ）は、特徴量ｘ_１，ｎ〜ｘ_３，ｎを用いて予測値ｙ_ｎを予測するロジスティック回帰式を示す。σはシグモイド関数、ｗ_１〜ｗ_３は予測値ｙ_ｎの予測に対する寄与度（重みパラメータともいう）、ＡＵＣは予測精度（０．００≦ＡＵＣ≦１．００）を示す。ＡＵＣの値が大きいほど予測精度が高いことを示す。特定の特徴量ｘ_１，ｎは、高校生の卒業可否の真値とほぼ等価であるため、自明な特徴量となる。

ＡＵＣ（ＡｒｅａｕｎｄｅｒａｎＲＯＣｃｕｒｖｅ）は、ＲＯＣ曲線の横軸と縦軸に囲まれた部分の面積であり、ＡＵＣが１に近いほど精度のよいモデルであることを意味する。ＲＯＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃＣｕｒｖｅ）は、偽陽性率を横軸に、真陽性率を縦軸としてプロットしたものである。つまり、ＡＵＣが１に近いことは、偽陽性率の値が小さい時点で、高い真陽性率を達成していることを指すため、偏りが少なく精度の良いモデルであると評価可能である。ここで、偽陽性率は、偽陽性のサンプル数を偽陽性と真陰性のサンプル数の和で除算した率であり、真陽性率は真陽性のサンプル数を真陽性と偽陰性のサンプル数の和で除算した率である。

実施例１では、たとえば、予測値ｙ_ｎが検査結果（陽性）で、正解ラベルｔ_ｎが疾患有りの場合、そのサンプル（特徴量ｘ_ｎ）は真陽性である。また、予測値ｙ_ｎが検査結果（陽性）で、正解ラベルｔ_ｎが疾患無しの場合、そのサンプル（特徴量ｘ_ｎ）は偽陽性である。また、予測値ｙ_ｎが検査結果（陰性）で、正解ラベルｔ_ｎが疾患有りの場合、そのサンプル（特徴量ｘ_ｎ）は偽陰性である。また、予測値ｙ_ｎが検査結果（陰性）で、正解ラベルｔ_ｎが疾患無しの場合、そのサンプル（特徴量ｘ_ｎ）は真陰性である。

特徴量ｘ_１，ｎの予測値ｙ_ｎの予測への寄与度ｗ_１が高い場合、他の特徴量ｘ_２，ｎの寄与度ｗ_２および特徴量ｘ_３，ｎの寄与度ｗ_３が相対的に低くなる。そのため、実際には予測に寄与する他の特徴量が含まれるにも関わらず、当該他の特徴量を予測に寄与した特徴量として抽出できない。

（Ｂ）は、特徴量ｘ_１，ｎ〜ｘ_３，ｎのうち、自明な特徴量ｘ_１，ｎを除外して、予測値ｙ_ｎを予測するロジスティック回帰式を示す。この場合、（Ａ）では特徴量ｘ_２，ｎの寄与度ｗ_２の値は低かった（ｗ_２＝０．１５）が、自明な特徴量ｘ_１，ｎを除外したことにより、（Ｂ）での特徴量ｘ_２，ｎの寄与度ｗ_２の値は上昇する（ｗ_２＝０．９５）。このように、特定の特徴量ｘ_２，ｎも予測に寄与するため、非自明な特徴量であるが予測に寄与する特徴量となる。

したがって、本実施例のデータ分析装置は、予測値ｙ_ｎの真値とほぼ等価である自明な特徴量を抑圧するように損失関数のパラメータを操作するとともに、非自明な特徴量が上昇するように損失関数のパラメータを操作し、かつ、予測値ｙ_ｎの予測精度が低下しないように維持する。

図２は、自明な特徴量と非自明な特徴量とを示す説明図２である。図２では、大学生の卒業可否を予測するロジスティック回帰の例を示す。図２において、特徴量ｘ_１，ｎは出席日数、特徴量ｘ_２，ｎはテストの点数、特徴量ｘ_３，ｎは身長、予測値ｙ_ｎは卒業可否を示す。ｎはｎ番目（ｎは１以上の整数）の大学生を示す。特徴量ｘ_１，ｎ〜特徴量ｘ_３，ｎのうち、特徴量ｘ_１，ｎを、真値との等価性は低いものの予測値ｙ_ｎの予測に寄与することが既知である特定の特徴量とする。

（Ａ）は、特徴量ｘ_１，ｎ〜特徴量ｘ_３，ｎを用いて予測値ｙ_ｎを予測するロジスティック回帰式を示す。特定の特徴量ｘ_１，ｎは、出席日数であるため、出席日数が多いと真面目な学生であり、優秀な学生であると評価されるものとする。特定の特徴量ｘ_１，ｎは、予測値ｙ_ｎの予測に寄与することが既知であるため、自明な特徴量となる。

特徴量ｘ_１，ｎの予測値ｙ_ｎの予測への寄与度ｗ_１が著しく高い場合、他の特徴量ｘ_２，ｎの寄与度ｗ_２および特徴量ｘ_３，ｎの寄与度ｗ_３が相対的に低くなる。そのため、実際には予測に寄与する他の特徴量が含まれるにも関わらず、当該他の特徴量を予測に寄与した特徴量として抽出できない。

（Ｂ）は、特徴量ｘ_１，ｎ〜ｘ_３，ｎのうち、自明な特徴量ｘ_１，ｎを除外して、予測値ｙ_ｎを予測するロジスティック回帰式を示す。この場合、（Ａ）では特徴量ｘ_２，ｎの寄与度ｗ_２の値は低かった（ｗ_２＝０．３５）が、機械学習により、（Ｂ）での特徴量ｘ_２，ｎの寄与度ｗ_２の値は上昇する（ｗ_２＝０．９５）。このように、特定の特徴量ｘ_２，ｎは予測に寄与する非自明な特徴量となる。

したがって、本実施例のデータ分析装置は、予測値ｙ_ｎの予測に寄与することが既知である自明な特徴量の重みを低下させるように損失関数のパラメータを操作するとともに、非自明な特徴量の重みを増加させるように損失関数のパラメータを操作し、かつ、予測値ｙ_ｎの予測精度が低下しないように維持する。

＜データ分析装置のハードウェア構成例＞
図３は、実施例１のデータ分析装置のハードウェア構成例を示すブロック図である。データ分析装置３００は、プロセッサ３０１と、記憶デバイス３０２と、入力デバイス３０３と、出力デバイス３０４と、通信インターフェース（通信ＩＦ）３０５と、を有する。プロセッサ３０１、記憶デバイス３０２、入力デバイス３０３、出力デバイス３０４、および通信ＩＦ３０５は、バス３０６により接続される。プロセッサ３０１は、データ分析装置３００を制御する。記憶デバイス３０２は、プロセッサ３０１の作業エリアとなる。また、記憶デバイス３０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス３０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス３０３は、データを入力する。入力デバイス３０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス３０４は、データを出力する。出力デバイス３０４としては、たとえば、ディスプレイ、プリンタがある。通信ＩＦ３０５は、ネットワークと接続し、データを送受信する。

＜データ分析装置３００の機能的構成例＞
図４は、実施例１のデータ分析装置３００の機能的構成の一例を示すブロック図である。データ分析装置３００は、データ格納部４０１と、モデル格納部４０２と、結果格納部４０３と、選定部４１１と、学習部４１２と、操作部４１３と、予測部４１４と、重要度算出部４１５と、出力部４１６と、を有する。データ格納部４０１、モデル格納部４０２、および結果格納部４０３は、具体的には、たとえば、図３に示した記憶デバイス３０２により実現される。また、選定部４１１、学習部４１２、操作部４１３、予測部４１４、重要度算出部４１５、および出力部４１６は、具体的には、たとえば、図３に示した記憶デバイス３０２に記憶されたプログラムをプロセッサ３０１に実行させることにより実現される。

データ格納部４０１は、学習部４１２における学習プロセスで用いる訓練データと、予測部４１４における予測プロセスで用いるテストデータと、を格納する。

訓練データは、たとえば、特徴量ｘ_d,nとその真値となる正解ラベルｔ_ｎとの組み合わせ｛ｘ_d,n，ｔ_ｎ｝により構成されるサンプルデータである（ｄ＝１，２，…，Ｄ、ｎ＝１，２，…，Ｎ。Ｄは特徴量の種類（次元）数、Ｎはサンプルの数）。特徴量ｘ_d,nは、たとえば、患者の検査データや画像データである。

テストデータは、訓練データとは異なる特徴量ｘ_d,nである。予測値ｙ_ｎが得られたテストデータとしての特徴量ｘ_d,nとその真値となる正解ラベルｔ_ｎとの組み合わせは、訓練データとして扱われる。

モデル格納部４０２は、学習部４１２からの出力データを格納する。出力データは、寄与度を示す特徴量ｘ_d,nの重みベクトルｗ_nを含む。

結果格納部４０３は、予測部４１４における予測処理で算出された予測値ｙ_ｎおよび学習パラメータである重みパラメータｗ_n、重要度算出部４１５によって抽出された予測に寄与した重要な特徴量を格納する。

選定部４１１は、訓練データである特徴量ｘ_d,nの集合から、自明な特徴量と非自明な特徴量とを選定する。選定部４１１は、開発者または技術者によるこれまでの知見の積み重ねや文献などにおいて学術的に重要であると示されている特徴量を、自明な特徴量として選定してもよい。

また、選定部４１１は、特徴量ｘ_d,nの集合のうち、自明な特徴量として選定されなかった残余の特徴量ｘ_d,nを、非自明な特徴量とする。たとえば、図１および図２では、特徴量ｘ_１，ｎが自明な特徴量として選定され、特徴量ｘ_２，ｎ，ｘ_３，ｎが非自明な特徴量として選定される。

学習部４１２は、下記式（１）に対し、入力となる特徴量ｘ_d,nから得られた予測値ｙ_ｎと、正解ラベルｔ_ｎと、の誤差が最小となるように、ハイパーパラメータおよび重みパラメータｗ_nを更新する。

上記式（１）は、予測値ｙ_ｎの算出において線形結合の演算を用いる機械学習手法の一つであるロジスティック回帰の予測式の一例である。予測値ｙ_ｎは、特徴量ｘ_d,nと重みパラメータｗ_n∈Ｒ^Ｄ（Ｄは１以上の整数。）とに基づいて算出される。ｗ^ｔは重みパラメータｗ_nを要素とする重みベクトルであり、重みベクトルｗ^ｔのｔは、転置を意味する。σは、シグモイド関数などの活性化関数である。ｘ_ｎは、特徴量ｘ_d,nを要素とする特徴量ベクトルである。

学習部４１２は、上記式（１）を用いて、入力となる特徴量ベクトルｘ_nから得られた予測値ｙ_ｎと実際の値（真値）である正解ラベルｔ_ｎとの誤差が最小となるように学習パラメータ（重みベクトルｗ^ｔ）を計算する損失関数Ｌ（ｗ_ｎ）を設定する。具体的には、たとえば、学習部４１２は、選定部４１１によって選定された自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎと、選定部４１１によって選定された非自明な特徴量ｘ_ｈ，ｎの重みパラメータｗ_ｈ，ｎと、を寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）に設定する。

損失関数Ｌ（ｗ_ｎ）は、下記式（２）および式（３）に示すように、誤差関数Ｅ（ｗ_ｎ）と寄与度操作項Ｒ_Ｐ（ｗ_ｎ）との和で表される。

ｗ_ｎは、ｎ番目のサンプルである特徴量ベクトルｘ_ｎの各特徴量ｘ_１，ｎ〜ｘ_Ｄ，ｎに対応する重みパラメータｗ_１〜ｗ_Ｄを要素とする重みベクトルである。誤差関数Ｅ（ｗ_ｎ）は、たとえば、予測値ｙ_ｎと正解ラベルｔ_ｎとの二乗和誤差でもよく、また、交差エントロピー誤差でもよい。

また、上記式（３）は、寄与度操作項Ｒ_Ｐ（ｗ_ｎ）である。寄与度操作項Ｒ_Ｐ（ｗ_ｎ）内のハイパーパラメータは、操作部４１３によって設定される。式（３）において、λ（０．０≦λ≦１．０）は損失係数である。λが大きいほど、損失関数Ｌ（ｗ_ｎ）の値が大きくなる。ｐはノルムの次元を示す。

また、機械学習手法によって、重みベクトルｗ_nが各特徴量ｘ_d,nに存在する場合の予測式は、たとえば、下記式（４）に表現される。

また、損失関数Ｌ（ｗ^ｔ _ｎ）は、下記式（５）および式（６）に示すように、誤差関数Ｅ（ｗ^ｔ _ｎ）と寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）との和で表される。

また、上記式（６）の寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）は、ノルムの次元ｐ＝１として、下記式（７）の寄与度操作項Ｒ_１（ｗ_ｎ）に置き換えてもよい。

式（７）の寄与度操作項Ｒ_１（ｗ_ｎ）において、λは上述した損失係数、μは自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎに関する第１正則化係数、νは非自明な特徴量ｘ_ｈ，ｎの重みパラメータｗ_ｈ，ｎに関する第２正則化係数である。第１正則化係数μと第２正則化係数νとの関係は、たとえば、μ＋ν＝１．０である。λ，μ，およびνは、ハイパーパラメータである。また、ｋは自明な特徴量ｘ_ｋ，ｎを示す番号、Ｔは自明な特徴量ｘ_ｋ，ｎの数、ｈは非自明な特徴量を示す番号、Ｕは非自明な特徴量の数を示す。

学習部４１２において、寄与度操作項Ｒ_１（ｗ_ｎ）を誤差関数Ｅ（ｗ_ｎ ^ｔ）に加算することで、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎが大きくなることを防ぎ、スパースなモデルを得る効果がある。

また、上記式（６）の寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）は、ノルムの次元ｐ＝２として、下記式（８）の寄与度操作項Ｒ_２（ｗ_ｎ）に置き換えてもよい。

学習部４１２において、寄与度操作項Ｒ_２（ｗ_ｎ）を誤差関数Ｅ（ｗ_ｎ）に加算することで、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎが大きくなることを防ぎ、過学習を抑えてなめらかな予測モデルを得る効果がある。

また、上記式（６）の寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）は、下記式（９）の寄与度操作項Ｒ_els（ｗ_ｎ）に置き換えてもよい。

上記式（９）は、各重みベクトルｗ_ｎのＬ１ノルムとＬ２ノルムとを線形結合したｅｌａｓｔｉｃｎｅｔの式であり、式（７）と式（８）を線形結合した寄与度操作項である。式（９）中、α（０．０≦α≦１．０）はエラスティック係数である。エラスティック係数αもハイパーパラメータである。

寄与度操作項Ｒ_els（ｗ_ｎ）を誤差関数Ｅ（ｗ_ｎ）に加算することで、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎが大きくなることを防ぎ、式（７）に示すようなスパースなモデルを得る効果と、式（８）に示すような過学習を抑えてなめらかなモデルを得る効果を得ることができる。

操作部４１３は、非自明な特徴量の予測に対する寄与度を増加させ、自明な特徴量の寄与度を低下させる寄与度操作項のハイパーパラメータを操作する。操作部４１３は、上述したハイパーパラメータである損失係数λ、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎに関する第１正則化係数μ、非自明な特徴量ｘ_ｈ，ｎの重みパラメータｗ_ｈ，ｎに関する第２正則化係数ν、エラスティック係数αを操作する。第１正則化係数μ，第２正則化係数νを、０．０〜１．０までの値としたため、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎの抑圧度合いの制御がわかりやすくなる。

また、操作部４１３は、第１正則化係数μと第２正則化係数νとの和が、たとえば、１．０となるように操作する。操作部４１３は、第１正則化係数μが第２正則化係数νよりも大きくなるように操作する。自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎに関する第１正則化係数μは０．５より大きいことを条件としてもよい。

これにより、第１正則化係数μを第２正則化係数νよりも大きくすると、寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）内で第１正則化項μがかかる項の値が大きくなる。このため、損失関数Ｌ（ｗ^ｔ _ｎ）を小さくするために第１重みパラメータ群の値を第２重みパラメータ群より小さくする方向に学習が行われることにより、寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）を用いない場合に比べて、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎを抑圧することが可能となる。また、第１正則化係数μの値の範囲を、たとえば、０．７以上としてもよい。

また、Ｌ１ノルム、Ｌ２ノルム、ｅｌａｓｔｉｃｎｅｔの例を示したが、ノルムの次元ｐをｐ＝０．５などとしてもよい。

予測部４１４は、式（１）や式（２）に重みベクトルｗ_nが適用された予測モデルにテストデータの特徴量ｘ_d,nを与えて予測処理を実行し、予測値ｙ_ｎを結果格納部４０３と出力部４１６に出力する。

また、予測部４１４は、上述した予測値ｙ_ｎに対するＡＵＣを算出する。ＡＵＣがしきい値以下の場合、予測が失敗したことを意味する。この場合、操作部４１３は、各ハイパーパラメータを再操作し、学習部４１２は、重みベクトルｗ_ｎを再学習してもよい。

重要度算出部４１５は、モデル格納部４０２に格納された重みベクトルｗ_nを用いて、特徴量ｘ_d,nを予測に寄与した順に並べ、予測に寄与した順に重要な特徴量とみなす計算を行う。予測に寄与した順とは、たとえば、重みベクトルｗ_nのノルムの大きい順である。重要度算出部４１５は、重みベクトルｗ_nのノルムを算出する。

重要度算出部４１５は、予測に寄与した順に、特徴量ｘ_d,nに重要度を付与する。重要度はノルムに比例し、ノルムが大きいほど大きな値となる。重要度算出部４１５は、自明な特徴量の重みベクトルｗ_nのノルムに０．０以上１．０未満の値を重み付けしてもよい。また、重要度算出部４１５は、特徴量ｘ_d,nを予測に寄与した順に並べる際に、自明な特徴量を除外してもよい。

また、重要度算出部４１５は、ノルムそのものを重要度として付与してもよい。重要度の計算には、使用した機械学習手法に応じて、重みベクトルｗ_nを用いず、ｏｕｔ−ｏｆ−ｂａｇ誤り率などを用いてもよい。

これにより、選定部４１１は、重要度算出部４１５によって算出された重要度を参照して、自明な特徴量と非自明な特徴量とをさらに選定してもよい。

なお、データ分析装置３００は複数台で構成されてもよい。たとえば、負荷分散のため、データ分析装置３００が複数存在してもよい。また、データ分析装置３００は、１以上の機能を含む複数台で構成されてもよい。

＜データ分析処理手順例＞
図５は、実施例１にかかるデータ分析装置３００によるデータ分析処理手順例を示すフローチャートである。データ分析装置３００は、選定部４１１によってデータ格納部から訓練データ集合を読み込む（ステップＳ５０１）、つぎに、データ分析装置３００は、選定部４１１によって、訓練データ集合を自明な特徴量と非自明な特徴量とを選定する（ステップＳ５０２）。

そして、データ分析装置３００は、式（２）または式（５）の損失関数Ｌを用いて、訓練データ集合の特徴量ｘ_ｄ，ｎを与えたことによって得られる予測値ｙ_ｎと正解ラベルｔ_ｎとの誤差が最小となるような重みパラメータｗ_ｎを生成する（ステップＳ５０３）。ステップＳ５０１〜Ｓ５０３が学習プロセスである。

データ分析装置３００は、予測部４１４によってデータ格納部４０１からテストデータ集合を読み込む（ステップＳ５０４）。データ分析装置３００は、式（１）または式（４）の予測式に重みパラメータｗ_ｎが設定された予測モデルに、テストデータ集合の特徴量ｘ_ｄ，ｎを与えることにより、予測値ｙ_ｎを算出する（ステップＳ５０５）。

データ分析装置３００は、重要度算出部４１５によって特徴量の重要度を抽出する（ステップＳ５０６）。そして、つぎに、データ分析装置３００は、予測値ｙ_ｎと重要度との組み合わせを結果格納部４０３に保存する（ステップＳ５０７）。そして、データ分析装置３００は、出力部４１６により予測値ｙ_ｎと重要度との組み合わせを出力する（ステップＳ５０８）。

そして、データ分析装置３００は、操作部４１３によって、ハイパーパラメータである損失係数λ、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎに関する第１正則化係数μ、非自明な特徴量ｘ_ｈ，ｎの重みパラメータｗ_ｈ，ｎに関する第２正則化係数ν、エラスティック係数αを操作する（ステップＳ５０９）。

＜表示画面例＞
図６は、表示画面の表示例１を示す説明図である。表示画面６００は、データ分析装置３００の出力デバイス３０４の一例であるディスプレイ、または、出力部４１６からの出力先のコンピュータのディスプレイに表示される。

表示画面６００は、Ｉｍｐｏｒｔｆｉｌｅボタン６０１と、ｆｅａｔｕｒｅｓｅｌｅｃｔボタン６０２と、ｔｒａｉｎボタン６０３と、ｐｒｅｄｉｃｔボタン６０４と、ｓａｖｅボタン６０５と、ｆｉｌｅｎａｍｅ欄６０６と、選択画面６１０と、を含む。

データ分析装置３００は、ユーザ操作によるＩｍｐｏｒｔｆｉｌｅボタン６０１の押下が検出されると、ユーザ操作で学習部４１２にて使用する訓練データや、予測部４１４にて使用するテストデータ、決定した最適なモデル、予測結果や重要度等を選択する。選択したデータの名前は、Ｉｍｐｏｒｔｆｉｌｅｎａｍｅ欄６０６に表示される。その後、ユーザ操作によるｆｅａｔｕｒｅｓｅｌｅｃｔボタン６０２が押下されると、選定部４１１による特徴量の選択画面６１０が表示される。

ユーザは、自明な特徴量としたい特徴量を、たとえば、チェックボックス６１１にチェックを付ける。選定部４１１は、チェックされた特徴量を自明な特徴量に選定する。特徴量の選定が終了し、学習を開始する際には、ユーザは、ｔｒａｉｎボタン６０３を押下する。これにより、学習部４１２は、学習プロセスを開始する。その後、ユーザは、テストデータを選択し、ｐｒｅｄｉｃｔボタン６０４を押下する。これにより、ことで、予測部４１４は、予測プロセスを開始する。

図７は、表示画面の表示例２を示す説明図である。表示画面６００は、予測プロセス終了後、予測値ｙ_ｎおよび重要度、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎの抑圧効果を表示する。精度表示エリア７１１に、予測値ｙ_ｎが表示される。また、抑圧効果表示エリア７１２に、通常の予測における各特徴量ｘ_ｄ，ｎの重みパラメータｗ_ｄ，ｎと、操作部４１３により自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎが抑圧された結果と、が並んで表示される。

図７では、通常の予測と抑圧された結果を比較して表示しているが、抑圧された結果のみであってもよい。また、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎとして表示する値は、実際の重みパラメータｗ_ｋ，ｎの値でも良いし、各サンプルｎにおいて正規化した値でもよいし、各サンプルｎにおいて正規化し、その後、全サンプル１〜Ｎや全クロスバリデーションにより合算した平均値としてもよい。

これらの分析結果を保存したい場合、ユーザはｓａｖｅボタン６０５を押下する。これにより、保存したいメモリ空間を指定可能な画面が表示される。ユーザがメモリ空間を指定し、実行ボタンを押下すると、指定したメモリ空間に解析結果が保存される。保存した先のメモリ空間は、Ｅｘｐｏｒｔｆｉｌｅｎａｍｅ欄７０１などに表示される。

このように、実施例１によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量に異なるペナルティを与える損失関数を用いることにより、自明な特徴量ｘ_ｋ，ｎの予測への寄与度（重みパラメータｗ_ｋ，ｎ）を抑圧し、その他の非自明な特徴量ｘ_ｈ，ｎを積極的に用いた予測を実現できる。これにより、予測に寄与する学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。

実施例２について説明する。実施例１では、特徴量群を、自明な特徴量のグループと非自明な特徴量のグループという２つのグループに選定した。実施例２は、実施例１よりもさらに、自明な特徴量、非自明な特徴量、予測に寄与しないことが自明な特徴量のように、寄与度を操作する特徴量のグループ数を増加させた例である。なお、実施例１と同一構成には同一符号を付し、その説明を省略する場合がある。

選定部４１１は、訓練データである特徴量ｘ_d,nの集合から、（予測に寄与することが）自明な特徴量と非自明な特徴量と予測に寄与しないことが自明な特徴量とを選定する。選定部４１１は、開発者または技術者によるこれまでの知見の積み重ねや文献などにおいて学術的に重要であると示されている特徴量を、自明な特徴量として選定してもよい。

また、選定部４１１は、開発者または技術者によるこれまでの知見の積み重ねや文献などにおいて学術的に重要でないと示されている特徴量を、予測に寄与しない自明な特徴量として選定してもよい。また、選定部４１１は、特徴量ｘ_d,nの集合のうち、自明な特徴量および予測に寄与しない自明な特徴量として選定されなかった残余の特徴量ｘ_d,nを、非自明な特徴としてもよい。たとえば、図１および図２では、特徴量ｘ_１，ｎが自明な特徴量として選定され、特徴量ｘ_２，ｎ，ｘ_３，ｎが非自明な特徴量として選定され、特徴量ｘ_３，ｎが予測に寄与しない自明な特徴量として選定される。

操作部４１３は、非自明な特徴量の予測に対する寄与度を増加させ、自明な特徴量および予測に寄与しないことが自明な特徴量の寄与度を低下させる寄与度操作項のハイパーパラメータを操作する。寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）は、ノルムの次元ｐ＝１として、下記式（１０）の寄与度操作項Ｒ_１（ｗ_ｎ）に置き換える。

上記式（１０）は、Ｌ１ノルムの寄与度操作項Ｒ_１（ｗ_ｎ）の一例である。τは予測に寄与しないことが自明な特徴量ｘ_ｌ，ｎの重みパラメータｗ_ｌ，ｎに関する第３正則化係数である。τもハイパーパラメータである。ｌは予測に寄与しないことが自明な特徴量を示す番号、Ｖは非自明な特徴量の数を示す。上記式（１０）の寄与度操作項Ｒ_１（ｗ_ｎ）は、上記式（６）に示すように、学習部４１２において誤差関数Ｅ（ｗ_ｎ ^ｔ）に加算される。これにより、学習部４１２は、損失関数Ｌ（ｗ_ｎ ^ｔ）を算出し、重みパラメータｗ_ｋ，ｎ，ｗ_ｈ，ｎ，ｗ_ｌ，ｎを更新する。

このようにして、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎおよび予測に寄与しないことが自明な特徴量ｘ_ｌ，ｎの重みパラメータｗ_ｌ，ｎが大きくなることを防ぎ、スパースなモデルを得る効果がある。

また、上記式（６）の寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）は、ノルムの次元ｐ＝２として、下記式（１１）の寄与度操作項Ｒ_２（ｗ_ｎ）に置き換えてもよい。

学習部４１２において、寄与度操作項Ｒ_２（ｗ_ｎ）を誤差関数Ｅ（ｗ_ｎ）に加算することで、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎおよび予測に寄与しないことが自明な特徴量ｘ_ｌ，ｎの重みパラメータｗ_ｌ，ｎが大きくなることを防ぎ、過学習を抑えてなめらかな予測モデルを得る効果がある。

また、上記式（６）の寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）は、下記式（１２）の寄与度操作項Ｒ_els（ｗ_ｎ）に置き換えてもよい。

上記式（１２）は、各重みベクトルｗ_ｎのＬ１ノルムとＬ２ノルムとを線形結合したｅｌａｓｔｉｃｎｅｔの式であり、式（１０）と式（１１）を線形結合した寄与度操作項である。式（１２）中、α（０．０≦α≦１．０）はエラスティック係数である。エラスティック係数αもハイパーパラメータである。

寄与度操作項Ｒ_els（ｗ_ｎ）を誤差関数Ｅ（ｗ_ｎ）に加算することで、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎおよび予測に寄与しないことが自明な特徴量ｘ_ｌ，ｎの重みパラメータｗ_ｌ，ｎが大きくなることを防ぎ、式（１０）に示すようなスパースなモデルを得る効果と、式（１１）に示すような過学習を抑えてなめらかなモデルを得る効果を得ることができる。

また、操作部４１３は、第１正則化係数μと第２正則化係数νと第３正則化係数τの和が、たとえば、１．０となるように操作する。操作部４１３は、第１正則化係数μ，第３正則化係数τが第２正則化係数νよりも大きくなるように操作する。第１正則化係数μ，τの一方は０．５より大きいことを条件としてもよい。

これにより、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎおよび予測に寄与しないことが自明な特徴量ｘ_ｌ，ｎの重みパラメータｗ_ｌ，ｎが大きくなると、第１正則化係数μ，第３正則化係数τの正則化項が増加することとなり、寄与度操作項Ｒ_Ｐ（ｗ^ｔ _ｎ）を用いない場合に比べて、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎおよび予測に寄与しないことが自明な特徴量ｘ_ｌ，ｎの重みパラメータｗ_ｌ，ｎを抑圧し、非自明な特徴量ｘ_h，ｎの重みパラメータｗ_h，ｎの値を増大させることが可能となる。また、第１正則化係数μ，第３正則化係数τの一方の値の範囲を、たとえば、０．７以上としてもよい。

また、選定部４１１は、自明な特徴量として指定する特徴量を網羅的に変更し、実施例１を実施した結果に基づいて、自明な特徴量を選定してもよい。具体的には、たとえば、選定部４１１は自明な特徴量を１つのみ選定し、実施例１を実施し予測精度（ＡＵＣや決定係数ｒ^２など）および重要度を得る。

続いて、データ分析装置３００は、１つのみ選定する特徴量を変更し、全特徴量の数だけ実施例１を実施する。さらに、データ分析装置３００は、指定する特徴量を２つとして、同様に全特徴量の組み合わせにて実施例１を実施し、指定する特徴量をさらに増加させ、自明な特徴量として選定できる全パターンにおいて実施する。その後、予測精度がしきい値以上となった場合に、選定部４１１は、自明な特徴量として選定した特徴量および特徴量の組み合わせを列挙し、その中から、自明な特徴量を選定する。

列挙された特徴量は、正確な予測を実現するために重要な特徴量であると解釈可能である。この際、データ分析装置３００は、列挙された特徴量および特徴量の組み合わせに出現する回数が多い特徴量から順に自明な特徴量としてもよい。これにより、選定部４１１は、自明な特徴量および非自明な特徴量を動的に選定することが可能となる。

また、データ分析装置３００が自明な特徴量として選定できる全パターンにおいて実施例１を実施した結果、選定部４１１は、得られた重要度を参照し、自明な特徴量として指定したにも関わらず、重要度が高い特徴量を自明な特徴量として選定してもよい。予測への寄与度を抑圧しているにもかかわらず、重要度が高い特徴量とは、正確な予測を実現するために重要な特徴量であると解釈可能である。この際、データ分析装置３００は、自明な特徴量として指定したにも関わらず、重要度がしきい値以上であった特徴量として列挙された特徴量および特徴量の組み合わせに出現する回数が多い特徴量から順に自明な特徴量としてもよい。これにより、選定部４１１は、自明な特徴量および非自明な特徴量を動的に選定することが可能となる。

このように、実施例２によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量と予測に寄与しないことが自明な特徴量に異なるペナルティを与える損失関数Ｌ（ｗ_ｎ ^ｔ）を用いることにより、自明な特徴量および予測に寄与しないことが自明な特徴量の予測への寄与度を抑圧し、非自明な特徴量を積極的に用いた予測を実現できる。これにより、予測に寄与するものの学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。

実施例３について説明する。実施例３は、選定部４１１における自明な特徴量と非自明な特徴量の選定方法に関する例である。なお、実施例１および実施例２と同一構成には同一符号を付し、その説明を省略する場合がある。

実施例１および実施例２では、選定部４１１にて、自明な特徴量の選定において、既に文献などにおいて学術的に重要であると示されている特徴量や、開発者や技術者がこれまでの知見の積み重ねの中から指定するなどとした。実施例３では、選定部４１１が、実際に予測に寄与した度合いから自明な特徴量を選定する。予測に寄与した度合いに基づいて選定する方法を示すために、ボストンの住宅価格を予測した場合の例として、上記非特許文献２で用いられたデータにより性能検証を実施した。

図８は、特徴量ベクトルＦｅａｔｕｒｅｓと正解データＴａｒｇｅｔとを示す説明図である。実験では、まず、１０−ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎを用いて、（１）〜（１３）の１３個の特徴量すべてを用いた場合で予測を適用し、予測に寄与した特徴量のうち、重要度が上位２０％にあたる２個の特徴量を自明な特徴量として選択し、実施例１を適用した。

図９は、実験結果を示す説明図である。操作部４１３による操作を行わなかった場合のデータ分析装置３００による予測結果がＮｏｒｍａｌのグラフであり、操作部４１３による操作を行った場合のデータ分析装置３００による予測結果がＳｕｐｐｒｅｓｓｉｏｎのグラフである。Ｎｏｒｍａｌにおける決定係数ｒ^２（＝０．７５）が０．７を超えていることから、データ分析装置３００は、正確な予測に寄与した寄与度について重要度を算出する。

選定部４１１は、重みベクトルｗ_nの大きさを各特徴量間で比較して、総じて上位２個である特徴量（６）および特徴量（１３）を自明な特徴量に選定する。操作部４１３は、式（７）を用いて、自明な特徴量ｘ_ｋ，ｎの重みパラメータｗ_ｋ，ｎに関する第１正則化係数μを０．５以上に操作する。学習部４１２は、学習プロセスにおいて学習パラメータ（重みベクトルｗ_n）を生成する。選定部４１１は、再度、重みベクトルｗ_nの大きさを各特徴量間で比較する。

決定係数ｒ^２（＝０．８２）が０．７を超えていることから、第１正則化係数μの操作後においても強い予測精度で予測されていることがわかる。Ｎｏｒｍａｌな予測における重みベクトルｗ_nの大きさと、Ｓｕｐｐｒｅｓｓｉｏｎな予測における重みベクトルｗ_nの大きさを比較すると、特徴量（６）および特徴量（１３）の重みベクトルｗ_nを抑圧できており、Ｎｏｒｍａｌな予測において値が小さかった重みベクトルｗ_nの大きさを増加させることができている。

なお、実施例３において、予測に寄与した特徴量のうち重要度の上位２０％を自明な特徴量としたが、５０％などとしてもよいし、予め数を決めておいてもよい。また、実施例３では、予測に寄与した度合いに基づいて選定する方法を示したが、選定部４１１は、予測結果に基づいて選定してもよい。選定部４１１は、予測結果が、たとえば決定係数ｒ^２やＡＵＣが０．８以下となるまで自明な特徴量を選定してもよい。

このように、実施例３によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量に異なるペナルティを与える損失関数を用いることにより、自明な特徴量ｘ_ｋ，ｎの予測への寄与度（重みパラメータｗ_ｋ，ｎ）を抑圧し、その他の非自明な特徴量ｘ_ｈ，ｎを積極的に用いた予測を実現できる。これにより、予測に寄与する学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。

実施例４について説明する。実施例４は、操作部４１３における自明な特徴量の第１正則化係数μと非自明な特徴量の第２正則化係数νの決定方法に関する例である。なお、実施例１と同一構成には同一符号を付し、その説明を省略する場合がある。

実施例１では、操作部４１３にて、自明な特徴量の正則化項と非自明な特徴量の正則化項を決定する際に、各第１正則化係数μ，νの値の範囲を、自明な特徴量の第１正則化係数μと非自明な特徴量の第２正則化係数νの和が１となるようにし、自明な特徴量の第１正則化係数μは０．５より大きいことを条件とした。実施例４では、上記条件のもと、指定した値の範囲の中で、学習部４１２において予測精度が最高となる学習パラメータを生成する例を示す。

図１０は、実施例４にかかるデータ分析装置３００における画面表示の一例である。第１正則化係数μ，第２正則化係数νの決定においては、図１０に示すように、ユーザインタフェースの一例である第１正則化係数μ，第２正則化係数νの値を調整するスライダ１００１により、自明な特徴量の第１正則化係数μと非自明な特徴量の第２正則化係数νの値を調整してもよい。また、その後、図７に示すような重みベクトルｗ_nの大きさを確認した後、再び自明な特徴量の第１正則化係数μと非自明な特徴量の第２正則化係数νの値を変更してもよい。

また、値の決定方法として、ユーザは、自明な特徴量の第１正則化係数μを０．９などと固定してもよいし、重みベクトルｗ_nの抑圧度合いと予測精度を基にして所望のバランスとなる値を選択してもよい。

このように、実施例４によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量に異なるペナルティを与える損失関数を用いることにより、自明な特徴量ｘ_ｋ，ｎの予測への寄与度（重みパラメータｗ_ｋ，ｎ）を抑圧し、その他の非自明な特徴量ｘ_ｈ，ｎを積極的に用いた予測を実現できる。これにより、予測に寄与する学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。

実施例５は、実施例１〜４で用いられる重要度の算出例を示す。なお、実施例１〜４と同一構成には同一符号を付し、その説明を省略する場合がある。

＜特徴量ベクトルの再配置例＞
ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、線形分離不可能問題を解く能力を持つが、ＡＩが、どうしてそのような判断をしたかが不明である。特に、ｄｅｅｐｌｅａｒｎｉｎｇなどの機械学習手法は、予測精度は高いが説明能力が低い。たとえば、ある患者に対して「風邪をひきやすい」という診断結果をＡＩが出力した場合、医師は、ＡＩがなぜそのような結果を得たかを答えることができない。もし、ＡＩがその原因まで判断できれば、医師は、患者に対して適切な治療をおこなうことがきる。

図１１は、特徴量ベクトルの再配置例を示す説明図である。（Ａ）特徴量空間ＳＰ１には、複数の特徴量ベクトルｘ_ｎ（ｎ＝１，２，…，Ｎ。Ｎは画像の枚数）が存在する。複数の特徴量ベクトルｘ_ｎは、たとえば、非線形の予測モデルＰＭ１により正解ラベルＬａ，Ｌｂに識別される。（Ｂ）特徴量空間ＳＰ２には、複数の特徴量ベクトルｘ_ｎが存在する。複数の特徴量ベクトルｘ_ｎは、たとえば、線形の予測モデルＰＭ２により正解ラベルＬａ，Ｌｂに識別される。

（Ａ）ｄｅｅｐｌｅａｒｎｉｎｇなどの機械学習手法は、識別結果である予測モデルＰＭ１を説明するため、新たに線形回帰を学習する。具体的には、たとえば、この機械学習手法は、予測モデルＰＭ１を求めた後に局所的に直線近似するという後付け的な処理を実行する。しかしながら、このような後付け的な処理では、直線近似された予測モデルＰＭ１の局所部分が、特徴量ベクトルｘ_ｎを正しく説明できるかが不明である。また、何より、直線近似というロジスティック回帰を実行するため、都合２回の機械学習を実行する必要がある。

（Ｂ）の予測モデルＰＭ２は線形であるため、その傾きを参照すれば、特徴量ベクトルｘ_ｎが特徴量空間ＳＰ２内のどのパラメータで重みづけされていることがわかり、特徴量ベクトルｘ_ｎを正しく説明することができる。実施例１では、複数の特徴量ベクトルｘ_ｎについて、（Ａ）のように非線形な予測モデルＰＭ１を求めることなく、特徴量空間ＳＰ１の複数の特徴量ベクトルｘ_ｎを、他の特徴量空間ＳＰ２に再配置する。これにより、線形な予測モデルＰＭ２が得られるため、特徴量ベクトルｘ_ｎが特徴量空間ＳＰ２内のどのパラメータで重みづけされていることがわかり、その重要度に応じて特徴量ベクトルｘ_ｎを正しく説明することができる。

すなわち、ユーザは特徴量ベクトルｘ_ｎのあるサンプルごとに（例えば、患者ごとに）、特徴量ｘ_ｎに内包されるどの因子（特徴）が予測結果に寄与しているかが分かるため、どうしてそのような予測結果になったのかという説明がしやすくなる。したがって、機械学習における説明能力の向上を図ることができる。上記の例でいえば、ある患者に対して「風邪をひきやすい」という診断結果をＡＩがなぜ出力したか（たとえば、痩せているなど）、が分かることになる。また、（Ａ）のように機械学習を２回も実行する必要がないため、機械学習の効率化も図ることができる。したがって、上記のような説明を迅速に提供することができる。

＜ニューラルネットワークの構造例＞
図１２は、実施例５にかかるニューラルネットワークの構造例を示す説明図である。ニューラルネットワーク１２００は、データユニット群ＤＵと、レポーティングユニット群ＲＵと、ハーモナイジングユニット群ＨＵと、リアロケーションユニットＲＡＵと、ユニファイユニットＵＵと、デシジョンユニットＤＣＵと、インポータンスユニットＩＵと、を有する。

データユニット群ＤＵは、複数のデータユニットＤＵｌ（ｌは、階層番号であり、１≦ｌ≦Ｌ。Ｌは最下層の階層番号であり、図１２では、Ｌ＝４）を直列に接続した構成である。最上段であるｌ＝１のデータユニットＤＵ１は、ニューラルネットワーク１２００の入力層１２０１であり、ｌ≦２のデータユニットＤＵｌは、ニューラルネットワーク１２００の中間層（隠れ層ともいう）に相当する。データユニットＤＵｌは、前段のデータユニットＤＵ（ｌ−１）からの出力データを入力して、自データユニットＤＵｌの学習パラメータを用いて計算して出力データを出力するパーセプトロンである。

ただし、データユニットＤＵ１は、学習部４１２による学習時に訓練データを保持する。ここで、訓練データは、たとえば、特徴量ベクトルｘ_ｎの一例である画像ｘ_ｎとその真値となる正解ラベルｔ_ｎとの組み合わせ｛ｘ_ｎ，ｔ_ｎ｝により構成されるサンプルデータである（ｎ＝１，２，…，Ｎ。Ｎは画像の枚数）。画像ｘ_ｎは、２次元のマトリックス構造を持つデータであり、以降、ラスタ走査したｄ（ｄ≧１を満たす整数）次元のベクトルとして取り扱う。説明の容易さのために、「ｘ」と表記した場合は、行列形式の画像ｘ_ｎをラスタ走査した１次元ベクトルとする。

正解ラベルｔ_ｎは、画像ｘ_ｎの種類数Ｋに対して、ｏｎｅｈｏｔ表現で種類（たとえば、犬や猫などの動物）を示すＫ次元のベクトルである。ｏｎｅｈｏｔ表現では、ベクトルのある要素が画像ｘ_ｎの種類に対応しており、ただ１つの要素だけに１．０が格納され、他の要素は全て０．０である。１．０の要素に対応する種類（たとえば、犬）が正解となる種類である。なお、Ｘ線、ＣＴ、ＭＲＩ、超音波等の医療用画像ｘ_ｎを入力とした場合、ラベルｔ_ｎは、疾病の種類や患者の予後（良いｏｒ悪い）を表す真値である。

画像ｘ_ｎ∈Ｒ^ｄ（Ｒ^ｄはｄ次元の実数）を、ｄ次元の実数Ｒ^ｄからなる特徴量ベクトルとする。データユニットＤＵ（ｌ＋１）を示す関数ｈ^ｌ＋１ _Ｄは、下記式（１３）で表現される。

式（１３）中、添え字ｌ（１≦ｌ≦Ｌを満たす整数。）は、階層番号を示す（以下の式も同様）。Ｌは１以上の整数であり、最深の階層番号を示す。右辺のｆ_Ｄ ^ｌは活性化関数である。活性化関数は、たとえば、シグモイド関数、双曲線正接関数（ｔａｎｈ関数）、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）関数など、様々な活性化関数を用いてよい。行列Ｗ^ｌ _Ｄは、データユニットＤＵｌの学習パラメータである。右辺のベクトルｈ^ｌ _Ｄは、データユニットＤＵｌに入力される入力ベクトル、すなわち、前段のデータユニットＤＵｌからの出力ベクトルである。なお、層数ｌ＝１である場合のデータユニットＤＵ１からの出力ベクトルｈ^１ _Ｄは、ｈ^１ _Ｄ＝ｘ_ｎとなる。

なお、データユニットＤＵ１は、予測部４１４におる予測時にテストデータとして、特徴量ベクトルである画像ｘ_ｎを保持する。

レポーティングユニットＲＵｌ（２≦ｌ≦Ｌ）は、同一階層のデータユニットＤＵｌからの出力ベクトルｈ^ｌ _Ｄを入力し、当該出力ベクトルｈ^ｌ _Ｄの次元数を縮約させる。レポーティングユニットＲＵｌを示す関数ｈ^ｌ _Ｒは、下記式（１４）で表現される。

式（１４）中、行列Ｗ^ｌ _Ｒは、レポーティングユニットＲＵｌの学習パラメータである。式（１４）により、データユニットＤＵｌからのｄ次元の出力ベクトルｈ^ｌ _Ｄは、ｍ次元の出力ベクトルｈ^ｌ _Ｒに縮約される。また、σは、シグモイド関数である。

ハーモナイジングユニットＨＵｌ（２≦ｌ≦Ｌ）は、中間層のデータユニットＤＵｌとリアロケーションユニットＲＡＵとの間に、中間層のデータユニットＤＵｌごとに設けられる。ハーモナイジングユニットＨＵｌは、中間層のデータユニットＤＵｌからの各出力データの次元数を同一のサイズに変換する。したがって、リアロケーションユニットＲＡＵには、ハーモナイジングユニットＨＵｌで同一の次元数に揃えられた出力データが入力される。

すなわち、ハーモナイジングユニットＨＵｌは、同一階層のデータユニットＤＵｌからの出力ベクトルｈ^ｌ _Ｄを入力し、出力ベクトルｈ^ｌ _Ｄの次元数を同一の次元数に変換する。ハーモナイジングユニットＨＵｌを示す関数ｈ^ｌ _Ｈは、下記式（１５）で表現される。

式（１５）中、行列Ｗ^ｌ _Ｈは、ハーモナイジングユニットＨＵｌの学習パラメータである。これにより、データユニットＤＵｌからのｄ次元の出力ベクトルｈ^ｌ _Ｄは、ｍ次元の出力ベクトルｈ^ｌ _Ｈに変換される。ｍは、次元数を決定するハイパーパラメータである。ｄおよびｍは、レポーティングユニットＲＵｌのｄおよびｍと異なる値でもよい。また、ｆ_Ｈは、活性化関数である。

アテンションユニットＡＵは、各レポーティングユニットＲＵｌからの出力ベクトルｈ^ｌ _Ｒを用いて、各データユニットＤＵｌの重みαを計算する。アテンションユニットＡＵを示す関数αは、下記式（１６）で表現される。

式（１６）中、行列Ｗ_Ａは、アテンションユニットＡＵの学習パラメータである。活性化関数の１つであるｓｏｆｔｍａｘ関数では、層数Ｌ（下記式（１７）の例ではＬ＝４）に等しい次元のベクトルｈ_Ｒが計算される。下記式（１７）に示すように、式（１６）の右辺のベクトルｈ_Ｒは、ｈ^ｌ _Ｒを垂直方向にスタックしたベクトルである。

したがって、行列Ｗ_Ａは、Ｌ行Ｍ列（Ｍは、ベクトルｈ_Ｒの要素数）の行列となる。アテンションユニットＡＵにｓｏｆｔｍａｘ関数を採用することにより、層数Ｌのベクトルｈ_Ｒの各要素（全要素の和は１）は、対応するデータユニットＤＵｌの重みをあらわすことになる。

リアロケーションユニットＲＡＵは、ある特徴量空間の特徴量ベクトル（画像ｘ_ｎ）を他の特徴量空間に再配置する。具体的には、たとえば、図１１に示したように、特徴量空間ＳＰ１上での特徴量ベクトル群により得られる予測モデルは非線形となり得るため、リアロケーションユニットＲＡＵは、特徴量空間ＳＰ２において線形な予測モデルが得られるように、特徴量ベクトル群を特徴量空間ＳＰ２に移し替える。リアロケーションユニットＲＡＵを示す関数ｈ^ｌ _Ｔは、下記式（１８）で表現される。

関数ｆ_Ｔは、ベクトル同士のアダマール積や、要素加算などを用いることができる。本実施例では、アダマール積とする（下記式（１９）を参照）。式（１９）では、ハーモナイジングユニットＨＵｌからの出力ベクトルｈ^ｌ _Ｈと特徴量ベクトルｘ_ｎとのアダマール積となる。

ユニファイユニットＵＵは、リアロケーションユニットＲＡＵからの出力ベクトルｈ^ｌ _Ｔと、アテンションユニットＡＵからの出力ベクトルαとを統合する。すなわち、ユニファイユニットＵＵは、リアロケーションユニットＲＡＵからの出力ベクトルｈ^ｌ _Ｔを、アテンションユニットＡＵからの出力ベクトルαで重み付けする。ユニファイユニットＵＵを示す関数ｈ_Ｕは、下記式（２０）で表現される。

式（２０）中、右辺のα［ｋ］は、式（１６）の出力ベクトルαのｋ次元目の要素（重み）を示す。

デシジョンユニットＤＣＵは、予測値ｙ_ｎを決定し、出力層１２０３に出力する。具体的には、たとえば、デシジョンユニットＤＣＵは、ユニファイユニットＵＵからの出力ベクトルｈ_Ｕに、学習パラメータの１つである重みベクトルｗ_ｏで重み付けして、シグモイド関数σに与えることにより、予測値ｙ_ｎを得る。デシジョンユニットＤＣＵを示す関数ｙ_ｎは、下記式（２１）で表現される。式（２１）中、ｗ_ｏ ^ｔのｔは、転置を意味する。

インポータンスユニットＩＵは、ニューラルネットワークの各層における特徴量の重要度を示す重要度ベクトルｓ^ｌ _ｎを算出し、出力層１２０３に出力する。インポータンスユニットＩＵを示す関数ｓ^ｌ _ｎは、下記式（２２）で表現される。

式（２２）中、右辺のα［ｌ］は、式（１２）の出力ベクトルαのｌ階層目の要素（重み）を示す。関数ｆ_Ｔは、式（１８）と同様、ベクトル同士のアダマール積や、要素加算などを用いることができる。実施例１では、アダマール積とする。式（２２）では、重要度ベクトルｓ^ｌ _ｎは、重みベクトルｗ_ｏとハーモナイジングユニットＨＵｌからの出力ベクトルｈ^ｌ _Ｈとのアダマール積となる。重要度ベクトルｓ^ｌ _ｎは、ｎ番目の特徴量ベクトル（画像）ｘ_ｎの階層ｌにおける重要度である。

＜データ分析装置３００の機能的構成例＞
図１３は、実施例５のかかるデータ分析装置３００の機能的構成例を示すブロック図である。データ分析装置３００は、入力層１２０１と、中間層１２０２と、出力層１２０３と、変換部１３０１と、再配置部１３０２と、予測データ算出部１３０３と、重要度算出部１３０４と、設定部１３０５と、統合部１３０６と、縮約部１３０７と、を有する。これらは、学習部４１２および予測部４１４の内部構成例である。

変換部１３０１は、式（１５）に示したように、各中間層ＤＵｌ（ｌ≧２）からの出力ベクトルｈ^ｌ _Ｄと行列Ｗ^ｌ _Ｈとに基づいて、出力ベクトルｈ^ｌ _Ｄの次元数ｄを縮約させて、変換後の出力ベクトルｈ^ｌ _Ｈを出力する。変換部１３０１は、上述したハーモナイジングユニット群ＨＵである。

再配置部１３０２は、式（１８）、（１９）に示したように、変換部１３０１からの変換後の出力ベクトルｈ^ｌ _Ｈと、入力層１２０１に与えられた特徴量空間ＳＰ１の特徴量ベクトルｘ_ｎと、に基づいて、特徴量空間ＳＰ１の特徴量ベクトルｘ_ｎを特徴量空間ＳＰ２に再配置する。再配置部１３０２は、上述したリアロケーションユニットＲＡＵである。

予測データ算出部１３０３は、式（２１）に示したように、再配置部１３０２による再配置結果ｈ_Ｔ ^ｌと重みベクトルｗ_ｏとに基づいて、特徴量空間ＳＰ１の特徴量ベクトルｘ_ｎに対する予測ベクトルｙ_ｎを算出する。予測データ算出部１３０３は、上述したデシジョンユニットＤＣＵである。

重要度算出部１３０４は、式（２２）に示したように、変換後の出力ベクトルｈ^ｌ _Ｈと重みベクトルｗ_ｏとに基づいて、中間層１２０２における階層ｌにおける特徴量ベクトルｘ_ｎの重要度ベクトルｓ^ｌ _ｎを算出する。重要度算出部１３０４は、上述したインポータンスユニットＩＵである。

たとえば、動物を表示する画像ｘ_ｎについて、ある階層ｌａの出力ベクトルｈ^ｌａ _Ｄが顔の輪郭が猫にふさわしいか否かを示す特徴量であり、ある階層ｌｂ（≠ｌａ）の出力ベクトルｈ^ｌｂ _Ｄが耳の形状が猫にふさわしいか否かを示す特徴量であるとする。この場合、対応する重要度ベクトルｓ^ｌａ _ｎ、ｓ^ｌｂ _ｎを参照することにより、データ分析装置３００が、当該画像ｘ_ｎが顔のどの特徴を考慮してその動物を猫であると判別したかを、ユーザは説明することができる。たとえば、重要度ベクトルｓ^ｌａ _ｎは低いが重要度ベクトルｓ^ｌｂ _ｎが高い場合、データ分析装置３００が、当該画像ｘ_ｎが耳の形状を考慮してその動物を猫であると判別していると、ユーザは説明することができる。なお、算出された重要度ベクトルｓ^ｌ _ｎは、重要度算出部４１５によって抽出される。

設定部１３０５は、式（１６）、（１７）に示したように、中間層１２０２からの出力ベクトルｈ^ｌ _Ｄと行列Ｗ_Ａとに基づいて、中間層１２０２の重みαを設定する。設定部１３０５は、上述したアテンションユニットＡＵである。

統合部１３０６は、式（２０）に示したように、再配置結果ｈ_Ｔ ^ｌと、設定部１３０５によって設定された重みαと、を統合する。統合部１３０６は、上述したユニファイユニットＵＵである。この場合、予測データ算出部１３０３は、統合部１３０６による統合結果ｈ_ｕと重みベクトルｗ_ｏとに基づいて、予測ベクトルｙ_ｎを算出する。また、重要度算出部１３０４は、設定部１３０５によって設定された重みαと、変換後の出力ベクトルｈ^ｌ _Ｈと、重みベクトルｗ_ｏと、に基づいて、重要度ベクトルｓ_ｎ ^ｌを算出する。

縮約部１３０７は、式（１４）に示したように、中間層１２０２からの出力ベクトルｈ^ｌ _Ｄと行列Ｗ^ｌ _Ｒとに基づいて、出力ベクトルｈ^ｌ _Ｄの次元数ｄを縮約させて、縮約後の出力ベクトルｈ^ｌ _Ｒを出力する。縮約部１３０７は、上述したレポーティングユニット群ＲＵである。この場合、設定部１３０５は、縮約部１３０７からの縮約後の出力ベクトルｈ^ｌ _Ｒと行列Ｗ_Ａとに基づいて、中間層１２０２の重みαを設定する。

学習部４１２は、特徴量空間ＳＰ１の特徴量ベクトルｘ_ｎと予測ベクトルｙ_ｎに対する正解ラベルｔ_ｎとを含む訓練データが与えられた場合に、予測ベクトルｙ_ｎと正解ラベルｔ_ｎとを用いて、第１学習パラメータである行列Ｗ^ｌ _Ｄ、第２学習パラメータである行列Ｗ^ｌ _Ｈ、第３学習パラメータである重みベクトルｗ_ｏ、第４学習パラメータである行列Ｗ_Ａ、および、第５学習パラメータである行列Ｗ^ｌ _Ｒを、たとえば、正解ラベルｔ_ｎと予測値ｙ_ｎとのクロスエントロピーが最小化するように、最適化する。

予測部４１４は、最適化された学習パラメータをニューラルネットワーク１２００に設定し、かつ、入力層１２０１にテストデータとして特徴量ベクトルｘ´_ｎを与えることにより、最終的に予測データ算出部１３０３に予測ベクトルｙ´_ｎを算出させる。

このように、実施例５では、サンプルデータである特徴量ベクトルｘ_ｎの事前再配置により、ニューラルネットワークを多層化しても各特徴量の重要度を算出可能となり、サンプル（特徴量ベクトルｘ_ｎ）ごとに、説明の容易化を高精度かつ効率的に実現することができる。また、サンプル（特徴量ベクトルｘ_ｎ）の事前再配置により、線形な予測モデルが得られるため、学習時および予測時において、高精度かつ低負荷で予測値を算出することができる。

また、実施例５のデータ分析装置３００は、変換部１３０１と、再配置部１３０２と、重要度算出部１３０４と、を有する。したがって、特徴量ベクトル（ｘ_ｎ、ｘ´_ｎ）の事前再配置により、線形な予測モデルが得られるため、学習時および予測時において、高精度かつ低負荷で予測値を算出することができる。また、特徴量ベクトル（ｘ_ｎ、ｘ´_ｎ）にどのような特徴があるかを、重要度算出部１３０４からの階層ｌごとの重要度により把握することができる。これにより、分析対象としてニューラルネットワークに与えられた特徴ベクトル（ｘ_ｎ、ｘ´_ｎ）についての説明の容易化を高精度かつ効率的に実現することができる。

また、データ分析装置３００は、予測データ算出部１３０３を有するため、特徴ベクトル（ｘ_ｎ、ｘ´_ｎ）に対し、分析対象としてニューラルネットワークからの予測結果（ｙ_ｎ、ｙ´_ｎ）が得られた理由についての説明の容易化を高精度かつ効率的に実現ができる。

また、データ分析装置３００は、設定部１３０５と統合部１３０６とを有することにより、予測データ算出部１３０３は、再配置結果に基づく予測結果を高精度に算出することができる。

また、データ分析装置３００は、縮約部１３０７を有することにより、次元縮約によりデータ分析の効率化を図ることができる。

また、データ分析装置３００は、学習パラメータの学習により、高精度な予測モデルを構築することができる。

このように特徴量毎に重要度が求められるため、選定部４１１は、重要度に基づいて非自明な特徴量を選定することができる。

以上説明したように、上述したデータ分析装置３００は、予測根拠を説明可能な機械学習において、非自明な特徴量の予測に対する寄与度を増加させ、自明な特徴量の寄与度を低下させ、かつ予測精度の低下を最小限にとどめることで、予測に寄与するものの学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

３００データ分析装置
４０１データ格納部
４０２モデル格納部
４０３結果格納部
４１１選定部
４１２学習部
４１３操作部
４１４予測部
４１５重要度算出部
４１６出力部

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有するデータ分析装置であって、
前記プロセッサが、
特徴量の集合から、予測に寄与することが自明である第１特徴量群と、前記第１特徴量群以外の第２特徴量群と、を選定する選定処理と、
前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第１特徴量群に対応する第１重みパラメータ群に関する第１正則化係数を前記損失関数が大きくなるように操作し、前記第２特徴量群に対応する第２重みパラメータ群に関する第２正則化係数を前記損失関数が小さくなるように操作する操作処理と、
前記操作処理によって前記第１正則化係数および前記第２正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する学習処理と、
を実行することを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置であって、
前記プロセッサは、
前記予測結果と、前記予測結果と前記正解データとに基づく前記予測結果の予測精度と、を算出する予測処理を実行し、
前記操作処理では、前記プロセッサは、前記予測精度が所定の予測精度以下である場合、前記第１正則化係数および前記第２正則化係数を再操作し、
前記学習処理では、前記プロセッサは、前記操作処理によって前記第１正則化係数および前記第２正則化係数が再操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を再学習する、
ことを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置であって、
前記プロセッサは、
前記重みパラメータ集合に基づいて、前記特徴量の重要度を算出する重要度算出処理を有し、
前記選定処理では、前記プロセッサは、前記重要度算出処理によって算出された重要度に基づいて、前記第１特徴量群と前記第２特徴量群とを選定する、
ことを特徴とするデータ分析装置。
請求項３に記載のデータ分析装置であって、
前記重要度算出処理では、前記プロセッサは、前記第１特徴量群の各第１特徴量の重要度が前記第２特徴量群の各第２特徴量の重要度よりも小さくなるように前記第１特徴量の重要度および前記第２特徴量の重要度を算出する、
ことを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置であって、
前記操作処理では、前記プロセッサは、前記第１正則化係数および前記第２正則化係数の範囲を、前記第１正則化係数および前記第２正則化係数の和の範囲内で操作する、
ことを特徴とするデータ分析装置。
請求項５に記載のデータ分析装置であって、
前記操作処理では、前記プロセッサは、前記データ分析装置または前記データ分析装置と通信可能に接続される他の装置に表示されたユーザインタフェースに対する操作入力に応じて、前記第１正則化係数および前記第２正則化係数の範囲を操作する、
ことを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置であって、
前記選定処理では、前記プロセッサは、前記特徴量の集合から、前記第１特徴量群と、予測に寄与しない第３特徴量群とを選定するとともに、前記第１特徴量群および前記第３特徴量群以外の特徴量を前記第２特徴量群に選定し、
前記操作処理では、前記プロセッサは、前記損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第１特徴量群に対応する第１重みパラメータ群に関する第１正則化係数を前記損失関数が大きくなるように操作し、前記第２特徴量群に対応する第２重みパラメータ群に関する第２正則化係数を前記損失関数が小さくなるように操作し、前記第３特徴量群に対応する第３重みパラメータ群に関する第３正則化係数を前記損失関数が大きくなるように操作し、
前記学習処理では、前記プロセッサは、前記操作処理によって前記第１正則化係数、前記第２正則化係数および前記第３正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する、
ことを特徴とするデータ分析装置。
請求項７に記載のデータ分析装置であって、
前記プロセッサは、
前記予測結果と、前記予測結果と前記正解データとに基づく前記予測結果の予測精度と、を算出する予測処理を実行し、
前記操作処理では、前記プロセッサは、前記予測精度が所定の予測精度以下である場合、前記第１正則化係数、前記第２正則化係数および前記第３正則化係数を再操作し、
前記学習処理では、前記プロセッサは、前記操作処理によって前記第１正則化係数、前記第２正則化係数および前記第３正則化係数が再操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を再学習する、
ことを特徴とするデータ分析装置。
請求項７に記載のデータ分析装置であって、
前記プロセッサは、
前記重みパラメータ集合に基づいて、前記特徴量の重要度を算出する重要度算出処理を有し、
前記選定処理では、前記プロセッサは、前記重要度算出処理によって算出された重要度に基づいて、前記第１特徴量群、前記第２特徴量群、および前記第３特徴量群を再選定する、
ことを特徴とするデータ分析装置。
請求項９に記載のデータ分析装置であって、
前記重要度算出処理では、前記プロセッサは、前記第１特徴量群の各第１特徴量の重要度および前記第３特徴量群の各第３特徴量の重要度が前記第２特徴量群の各第２特徴量の重要度よりも小さくなるように算出する、
ことを特徴とするデータ分析装置。
請求項３に記載のデータ分析装置であって、
前記プロセッサは、
入力層と、出力層と、前記入力層と前記出力層との間において前段の層からのデータと前記予測モデルの重みパラメータ集合である第１学習パラメータとを活性化関数に与えて計算して後段の層に計算結果を出力する２層以上の中間層と、により構成されるニューラルネットワークにおいて、前記各中間層からの出力データと第２学習パラメータとに基づいて、前記各出力データを同一サイズの次元数に変換させて、変換後の各出力データを出力する変換処理と、
前記変換処理からの変換後の出力データと、前記入力層に与えられた第１特徴量空間における前記特徴量と、に基づいて、前記第１特徴量空間における前記特徴量を第２特徴量空間に再配置する再配置処理と、を実行し、
前記重要度算出処理では、前記プロセッサは、前記変換後の各出力データと第３学習パラメータとに基づいて、前記各中間層における前記特徴量の重要度を算出する、
ことを特徴とするデータ分析装置。
請求項１１に記載のデータ分析装置であって、
前記学習処理では、前記プロセッサは、前記第１特徴量空間における前記特徴量と前記特徴量に対応する正解データとを含む訓練データが与えられた場合に、前記予測結果と前記正解データとを用いて、前記第１学習パラメータ、前記第２学習パラメータ、および前記第３学習パラメータを調整する、
ことを特徴とするデータ分析装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有するデータ分析装置が実行するデータ分析方法であって、
前記プロセッサが、
特徴量の集合から、予測に寄与することが自明である第１特徴量群と、前記第１特徴量群以外の第２特徴量群と、を選定する選定処理と、
前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第１特徴量群に対応する第１重みパラメータ群に関する第１正則化係数を前記損失関数が大きくなるように操作し、前記第２特徴量群に対応する第２重みパラメータ群に関する第２正則化係数を前記損失関数が小さくなるように操作する操作処理と、
前記操作処理によって前記第１正則化係数および前記第２正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する学習処理と、
を実行することを特徴とするデータ分析方法。
プロセッサに、
特徴量の集合から、予測に寄与することが自明である第１特徴量群と、前記第１特徴量群以外の第２特徴量群と、を選定する選定処理と、
前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第１特徴量群に対応する第１重みパラメータ群に関する第１正則化係数を前記損失関数が大きくなるように操作し、前記第２特徴量群に対応する第２重みパラメータ群に関する第２正則化係数を前記損失関数が小さくなるように操作する操作処理と、
前記操作処理によって前記第１正則化係数および前記第２正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習処理と、
を実行させることを特徴とするデータ分析プログラム。