JP2020194414A - データ分析装置、データ分析方法、およびデータ分析プログラム - Google Patents

データ分析装置、データ分析方法、およびデータ分析プログラム Download PDF

Info

Publication number
JP2020194414A
JP2020194414A JP2019100316A JP2019100316A JP2020194414A JP 2020194414 A JP2020194414 A JP 2020194414A JP 2019100316 A JP2019100316 A JP 2019100316A JP 2019100316 A JP2019100316 A JP 2019100316A JP 2020194414 A JP2020194414 A JP 2020194414A
Authority
JP
Japan
Prior art keywords
feature amount
feature
prediction
group
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019100316A
Other languages
English (en)
Other versions
JP7202973B2 (ja
Inventor
鈴木 麻由美
Mayumi Suzuki
麻由美 鈴木
泰穂 山下
Yasuho Yamashita
泰穂 山下
琢磨 柴原
Takuma Shibahara
琢磨 柴原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019100316A priority Critical patent/JP7202973B2/ja
Priority to US16/876,199 priority patent/US11636358B2/en
Priority to EP20176428.9A priority patent/EP3745325A1/en
Publication of JP2020194414A publication Critical patent/JP2020194414A/ja
Application granted granted Critical
Publication of JP7202973B2 publication Critical patent/JP7202973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予測に寄与することが非自明な特徴量から重要な特徴量を抽出すること。【解決手段】データ分析装置は、特徴量の集合から、予測に寄与することが自明である第1特徴量群と第1特徴量群以外の第2特徴量群とを選定する選定処理と、特徴量の集合を予測モデルに入力した場合に出力される予測結果と特徴量に対応する正解データとの差に関する損失関数において、予測モデルを構成する重みパラメータ集合のうち、第1特徴量群に対応する第1重みパラメータ群に関する第1正則化係数を損失関数が大きくなるように操作し、第2特徴量群に対応する第2重みパラメータ群に関する第2正則化係数を損失関数が小さくなるように操作する操作処理と、操作処理によって第1正則化係数および第2正則化係数が操作された結果、損失関数が最小となるように、予測モデルの重みパラメータ集合を学習する学習処理と、を実行する。【選択図】図1

Description

本発明は、データを分析するデータ分析装置、データ分析方法、およびデータ分析プログラムに関する。
機械学習は、AI(Artificial Intelligence)を実現する技術の1つである。機械学習技術は、学習のプロセスと予測のプロセスにより構成される。まず、学習のプロセスでは、入力となる特徴量ベクトルから得られた予測値と実際の値(真値)の誤差が最小となるように、学習パラメータを計算する。続いで、予測のプロセスでは、学習に用いなかったデータ(以降、テストデータと呼ぶ)から新しい予測値を計算する。
これまで、予測精度が最大となるような学習パラメータの算出方法や演算方法が考案されてきた。たとえば、パーセプトロンと呼ばれる手法では、入力となる特徴量ベクトルと、重みベクトルの線形結合の演算結果により予測値を出力する。ニューラルネットワークは、別名、マルチパーセプトロンとも呼ばれ、複数のパーセプトロンを多層的に重ねることで、線形分離不可能問題を解く能力をもつ。deep learningは、ニューラルネットワークにドロップアウト等の新しい技術を導入した手法であり、高い予測精度を達成できる手法として、脚光を浴びた。
このように、これまで、予測精度を向上させることを目的として機械学習技術の開発が行われてきた。機械学習技術の開発以外に、特許文献1のように、学習に用いるデータを予め選定することで、予測精度を向上させる手法もある。特許文献1では、重回帰分析において、学習パラメータのひとつである重みベクトルの各要素値の大きさを、予測に寄与した特徴量の重要度として用いることが可能であることを利用して、予測に重要な特徴量を選定している。
国際公開第2010/016110号
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "Why should I trust you ?: Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016. Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81-102.
機械学習は、病気に罹患する確率や機械が故障する確率を予測する以外に、高い精度の予測結果が得られる条件下において、病気に罹患する確率や機械が故障する確率の予測に寄与した特徴量を特定する技術として使用されることもある。
たとえば、ヘルスケア情報の解析において、疾病Xの患者とそれ以外の人の血液検査のデータを用いて、患者か否かの予測を行い、予測に寄与した特徴量を重要特徴量として抽出し、患者の治療方針や生活指導の確立に活かされてきた。
特許文献1やパーセプトロンのように、線形結合の演算により予測を行う手法では、重みベクトルの各要素値の大きさを用いた重要特徴量の特定手法により、予測に寄与する特徴量が抽出される。また、非線形結合の演算により予測を行う手法では、決定木を用いた手法のひとつであるrandom forestにおけるout−of−bag誤り率を用いた重要特徴量の特定手法により、予測に寄与する特徴量が抽出される。
特許文献2のように、線形分離不可能問題を解く能力をもつdeep learningなどにおいても、重要特徴量を抽出する能力を持った手法が開発されている。これらの手法の開発により、新しい効果的な治療方針や生活指導が確立されてきた。
たとえば、特定の特徴量と真値がほぼ等価である場合、特定の特徴量のみで精度の高い予測が可能である。加えて、特定の特徴量以外の他の特徴量も真値の予測に寄与している場合などにおいては、相対的に特定の特徴量以外の他の特徴量における重要度が低下し、予測に寄与した特徴量として、当該他の特徴量を抽出できない可能性が考えられる。特に、特定の特徴量は、すでにこれまでの解析等により、疾病Xと関係があると自明の特徴量であると推定される。
また、特定の特徴量のうち予測に寄与する特徴量として自明な特徴量(以下、単に、「自明な特徴量」)以外の特徴量(以下、「非自明な特徴量」)が、予測に寄与することを明らかとするためには、非自明な特徴量のみを用いた予測を行う必要がある。この場合、自明な特徴量は使用されないため、予測精度が低下することが想像される。
本発明の目的は、予測に寄与することが非自明な特徴量を重要な特徴量として抽出することを可能にする、データ分析装置、データ分析方法、およびデータ分析プログラムを提供することにある。
本発明の一側面となるデータ分析装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有するデータ分析装置であって、前記プロセッサが、特徴量の集合から、予測に寄与することが自明である第1特徴量群と、前記第1特徴量群以外の第2特徴量群と、を選定する選定処理と、前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第1特徴量群に対応する第1重みパラメータ群に関する第1正則化係数を前記損失関数が大きくなるように操作し、前記第2特徴量群に対応する第2重みパラメータ群に関する第2正則化係数を前記損失関数が小さくなるように操作する操作処理と、前記操作処理によって前記第1正則化係数および前記第2正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する学習処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、予測に寄与することが非自明な特徴量のうち予測に寄与する特徴量を重要な特徴量として抽出することができる。前述した以外の課題、構成および効果は、以下の実施例の説明により明らかにされる。
図1は、自明な特徴量と非自明な特徴量とを示す説明図1である。 図2は、自明な特徴量と非自明な特徴量とを示す説明図2である。 図3は、実施例1のデータ分析装置のハードウェア構成例を示すブロック図である。 図4は、実施例1のデータ分析装置の機能的構成の一例を示すブロック図である。 図5は、実施例1にかかるデータ分析装置によるデータ分析処理手順例を示すフローチャートである。 図6は、表示画面の表示例1を示す説明図である。 図7は、表示画面の表示例2を示す説明図である。 図8は、特徴量ベクトルFeaturesと正解データTargetとを示す説明図である。 図9は、実験結果を示す説明図である。 図10は、実施例4にかかるデータ分析装置における画面表示の一例である。 図11は、特徴量ベクトルの再配置例を示す説明図である。 図12は、実施例5にかかるニューラルネットワークの構造例を示す説明図である。 図13は、実施例5のかかるデータ分析装置の機能的構成例を示すブロック図である。
まず、実施例1のデータ分析装置を説明する。実施例1のデータ分析装置は、自明な特徴量と非自明な特徴量とを選択し、学習プロセスにおいて非自明な特徴量の予測に対する寄与度をあげ、自明な特徴量の寄与度を抑圧した予測結果の表示を行う。
<自明な特徴量と非自明な特徴量>
図1は、自明な特徴量と非自明な特徴量とを示す説明図1である。図1では、高校生の卒業可否を予測するロジスティック回帰の例を示す。図1において、特徴量x1,nは年齢、特徴量x2,nは出席日数、特徴量x3,nは身長、予測値yは卒業可否を示す。nはn番目(nは1以上の整数)の高校生を示す。特徴量x1,n〜x3,nのうち、特徴量x1,nを、予測値yの真値とほぼ等価な特定の特徴量とする。
(A)は、特徴量x1,n〜x3,nを用いて予測値yを予測するロジスティック回帰式を示す。σはシグモイド関数、w〜wは予測値yの予測に対する寄与度(重みパラメータともいう)、AUCは予測精度(0.00≦AUC≦1.00)を示す。AUCの値が大きいほど予測精度が高いことを示す。特定の特徴量x1,nは、高校生の卒業可否の真値とほぼ等価であるため、自明な特徴量となる。
AUC(Area under an ROC curve)は、ROC曲線の横軸と縦軸に囲まれた部分の面積であり、AUCが1に近いほど精度のよいモデルであることを意味する。ROC(Receiver Operating Characteristic Curve)は、偽陽性率を横軸に、真陽性率を縦軸としてプロットしたものである。つまり、AUCが1に近いことは、偽陽性率の値が小さい時点で、高い真陽性率を達成していることを指すため、偏りが少なく精度の良いモデルであると評価可能である。ここで、偽陽性率は、偽陽性のサンプル数を偽陽性と真陰性のサンプル数の和で除算した率であり、真陽性率は真陽性のサンプル数を真陽性と偽陰性のサンプル数の和で除算した率である。
実施例1では、たとえば、予測値yが検査結果(陽性)で、正解ラベルtが疾患有りの場合、そのサンプル(特徴量x)は真陽性である。また、予測値yが検査結果(陽性)で、正解ラベルtが疾患無しの場合、そのサンプル(特徴量x)は偽陽性である。また、予測値yが検査結果(陰性)で、正解ラベルtが疾患有りの場合、そのサンプル(特徴量x)は偽陰性である。また、予測値yが検査結果(陰性)で、正解ラベルtが疾患無しの場合、そのサンプル(特徴量x)は真陰性である。
特徴量x1,nの予測値yの予測への寄与度wが高い場合、他の特徴量x2,nの寄与度wおよび特徴量x3,nの寄与度wが相対的に低くなる。そのため、実際には予測に寄与する他の特徴量が含まれるにも関わらず、当該他の特徴量を予測に寄与した特徴量として抽出できない。
(B)は、特徴量x1,n〜x3,nのうち、自明な特徴量x1,nを除外して、予測値yを予測するロジスティック回帰式を示す。この場合、(A)では特徴量x2,nの寄与度wの値は低かった(w=0.15)が、自明な特徴量x1,nを除外したことにより、(B)での特徴量x2,nの寄与度wの値は上昇する(w=0.95)。このように、特定の特徴量x2,nも予測に寄与するため、非自明な特徴量であるが予測に寄与する特徴量となる。
したがって、本実施例のデータ分析装置は、予測値yの真値とほぼ等価である自明な特徴量を抑圧するように損失関数のパラメータを操作するとともに、非自明な特徴量が上昇するように損失関数のパラメータを操作し、かつ、予測値yの予測精度が低下しないように維持する。
図2は、自明な特徴量と非自明な特徴量とを示す説明図2である。図2では、大学生の卒業可否を予測するロジスティック回帰の例を示す。図2において、特徴量x1,nは出席日数、特徴量x2,nはテストの点数、特徴量x3,nは身長、予測値yは卒業可否を示す。nはn番目(nは1以上の整数)の大学生を示す。特徴量x1,n〜特徴量x3,nのうち、特徴量x1,nを、真値との等価性は低いものの予測値yの予測に寄与することが既知である特定の特徴量とする。
(A)は、特徴量x1,n〜特徴量x3,nを用いて予測値yを予測するロジスティック回帰式を示す。特定の特徴量x1,nは、出席日数であるため、出席日数が多いと真面目な学生であり、優秀な学生であると評価されるものとする。特定の特徴量x1,nは、予測値yの予測に寄与することが既知であるため、自明な特徴量となる。
特徴量x1,nの予測値yの予測への寄与度wが著しく高い場合、他の特徴量x2,nの寄与度wおよび特徴量x3,nの寄与度wが相対的に低くなる。そのため、実際には予測に寄与する他の特徴量が含まれるにも関わらず、当該他の特徴量を予測に寄与した特徴量として抽出できない。
(B)は、特徴量x1,n〜x3,nのうち、自明な特徴量x1,nを除外して、予測値yを予測するロジスティック回帰式を示す。この場合、(A)では特徴量x2,nの寄与度wの値は低かった(w=0.35)が、機械学習により、(B)での特徴量x2,nの寄与度wの値は上昇する(w=0.95)。このように、特定の特徴量x2,nは予測に寄与する非自明な特徴量となる。
したがって、本実施例のデータ分析装置は、予測値yの予測に寄与することが既知である自明な特徴量の重みを低下させるように損失関数のパラメータを操作するとともに、非自明な特徴量の重みを増加させるように損失関数のパラメータを操作し、かつ、予測値yの予測精度が低下しないように維持する。
<データ分析装置のハードウェア構成例>
図3は、実施例1のデータ分析装置のハードウェア構成例を示すブロック図である。データ分析装置300は、プロセッサ301と、記憶デバイス302と、入力デバイス303と、出力デバイス304と、通信インターフェース(通信IF)305と、を有する。プロセッサ301、記憶デバイス302、入力デバイス303、出力デバイス304、および通信IF305は、バス306により接続される。プロセッサ301は、データ分析装置300を制御する。記憶デバイス302は、プロセッサ301の作業エリアとなる。また、記憶デバイス302は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス302としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス303は、データを入力する。入力デバイス303としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス304は、データを出力する。出力デバイス304としては、たとえば、ディスプレイ、プリンタがある。通信IF305は、ネットワークと接続し、データを送受信する。
<データ分析装置300の機能的構成例>
図4は、実施例1のデータ分析装置300の機能的構成の一例を示すブロック図である。データ分析装置300は、データ格納部401と、モデル格納部402と、結果格納部403と、選定部411と、学習部412と、操作部413と、予測部414と、重要度算出部415と、出力部416と、を有する。データ格納部401、モデル格納部402、および結果格納部403は、具体的には、たとえば、図3に示した記憶デバイス302により実現される。また、選定部411、学習部412、操作部413、予測部414、重要度算出部415、および出力部416は、具体的には、たとえば、図3に示した記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
データ格納部401は、学習部412における学習プロセスで用いる訓練データと、予測部414における予測プロセスで用いるテストデータと、を格納する。
訓練データは、たとえば、特徴量xd,nとその真値となる正解ラベルtとの組み合わせ{xd,n,t}により構成されるサンプルデータである(d=1,2,…,D、n=1,2,…,N。Dは特徴量の種類(次元)数、Nはサンプルの数)。特徴量xd,nは、たとえば、患者の検査データや画像データである。
テストデータは、訓練データとは異なる特徴量xd,nである。予測値yが得られたテストデータとしての特徴量xd,nとその真値となる正解ラベルtとの組み合わせは、訓練データとして扱われる。
モデル格納部402は、学習部412からの出力データを格納する。出力データは、寄与度を示す特徴量xd,nの重みベクトルwnを含む。
結果格納部403は、予測部414における予測処理で算出された予測値yおよび学習パラメータである重みパラメータwn、重要度算出部415によって抽出された予測に寄与した重要な特徴量を格納する。
選定部411は、訓練データである特徴量xd,nの集合から、自明な特徴量と非自明な特徴量とを選定する。選定部411は、開発者または技術者によるこれまでの知見の積み重ねや文献などにおいて学術的に重要であると示されている特徴量を、自明な特徴量として選定してもよい。
また、選定部411は、特徴量xd,nの集合のうち、自明な特徴量として選定されなかった残余の特徴量xd,nを、非自明な特徴量とする。たとえば、図1および図2では、特徴量x1,nが自明な特徴量として選定され、特徴量x2,n,x3,nが非自明な特徴量として選定される。
学習部412は、下記式(1)に対し、入力となる特徴量xd,nから得られた予測値yと、正解ラベルtと、の誤差が最小となるように、ハイパーパラメータおよび重みパラメータwnを更新する。
上記式(1)は、予測値yの算出において線形結合の演算を用いる機械学習手法の一つであるロジスティック回帰の予測式の一例である。予測値yは、特徴量xd,nと重みパラメータwn∈R(Dは1以上の整数。)とに基づいて算出される。wは重みパラメータwnを要素とする重みベクトルであり、重みベクトルwのtは、転置を意味する。σは、シグモイド関数などの活性化関数である。xは、特徴量xd,nを要素とする特徴量ベクトルである。
学習部412は、上記式(1)を用いて、入力となる特徴量ベクトルxnから得られた予測値yと実際の値(真値)である正解ラベルtとの誤差が最小となるように学習パラメータ(重みベクトルw)を計算する損失関数L(w)を設定する。具体的には、たとえば、学習部412は、選定部411によって選定された自明な特徴量xk,nの重みパラメータwk,nと、選定部411によって選定された非自明な特徴量xh,nの重みパラメータwh,nと、を寄与度操作項R(w )に設定する。
損失関数L(w)は、下記式(2)および式(3)に示すように、誤差関数E(w)と寄与度操作項R(w)との和で表される。
は、n番目のサンプルである特徴量ベクトルxの各特徴量x1,n〜xD,nに対応する重みパラメータw〜wを要素とする重みベクトルである。誤差関数E(w)は、たとえば、予測値yと正解ラベルtとの二乗和誤差でもよく、また、交差エントロピー誤差でもよい。
また、上記式(3)は、寄与度操作項R(w)である。寄与度操作項R(w)内のハイパーパラメータは、操作部413によって設定される。式(3)において、λ(0.0≦λ≦1.0)は損失係数である。λが大きいほど、損失関数L(w)の値が大きくなる。pはノルムの次元を示す。
また、機械学習手法によって、重みベクトルwnが各特徴量xd,nに存在する場合の予測式は、たとえば、下記式(4)に表現される。
また、損失関数L(w )は、下記式(5)および式(6)に示すように、誤差関数E(w )と寄与度操作項R(w )との和で表される。
また、上記式(6)の寄与度操作項R(w )は、ノルムの次元p=1として、下記式(7)の寄与度操作項R(w)に置き換えてもよい。
式(7)の寄与度操作項R(w)において、λは上述した損失係数、μは自明な特徴量xk,nの重みパラメータwk,nに関する第1正則化係数、νは非自明な特徴量xh,nの重みパラメータwh,nに関する第2正則化係数である。第1正則化係数μと第2正則化係数νとの関係は、たとえば、μ+ν=1.0である。λ,μ,およびνは、ハイパーパラメータである。また、kは自明な特徴量xk,nを示す番号、Tは自明な特徴量xk,nの数、hは非自明な特徴量を示す番号、Uは非自明な特徴量の数を示す。
学習部412において、寄与度操作項R(w)を誤差関数E(w )に加算することで、自明な特徴量xk,nの重みパラメータwk,nが大きくなることを防ぎ、スパースなモデルを得る効果がある。
また、上記式(6)の寄与度操作項R(w )は、ノルムの次元p=2として、下記式(8)の寄与度操作項R(w)に置き換えてもよい。
学習部412において、寄与度操作項R(w)を誤差関数E(w)に加算することで、自明な特徴量xk,nの重みパラメータwk,nが大きくなることを防ぎ、過学習を抑えてなめらかな予測モデルを得る効果がある。
また、上記式(6)の寄与度操作項R(w )は、下記式(9)の寄与度操作項Rels(w)に置き換えてもよい。
上記式(9)は、各重みベクトルwのL1ノルムとL2ノルムとを線形結合したelastic netの式であり、式(7)と式(8)を線形結合した寄与度操作項である。式(9)中、α(0.0≦α≦1.0)はエラスティック係数である。エラスティック係数αもハイパーパラメータである。
寄与度操作項Rels(w)を誤差関数E(w)に加算することで、自明な特徴量xk,nの重みパラメータwk,nが大きくなることを防ぎ、式(7)に示すようなスパースなモデルを得る効果と、式(8)に示すような過学習を抑えてなめらかなモデルを得る効果を得ることができる。
操作部413は、非自明な特徴量の予測に対する寄与度を増加させ、自明な特徴量の寄与度を低下させる寄与度操作項のハイパーパラメータを操作する。操作部413は、上述したハイパーパラメータである損失係数λ、自明な特徴量xk,nの重みパラメータwk,nに関する第1正則化係数μ、非自明な特徴量xh,nの重みパラメータwh,nに関する第2正則化係数ν、エラスティック係数αを操作する。第1正則化係数μ,第2正則化係数νを、0.0〜1.0までの値としたため、自明な特徴量xk,nの重みパラメータwk,nの抑圧度合いの制御がわかりやすくなる。
また、操作部413は、第1正則化係数μと第2正則化係数νとの和が、たとえば、1.0となるように操作する。操作部413は、第1正則化係数μが第2正則化係数νよりも大きくなるように操作する。自明な特徴量xk,nの重みパラメータwk,nに関する第1正則化係数μは0.5より大きいことを条件としてもよい。
これにより、第1正則化係数μを第2正則化係数νよりも大きくすると、寄与度操作項R(w )内で第1正則化項μがかかる項の値が大きくなる。このため、損失関数L(w )を小さくするために第1重みパラメータ群の値を第2重みパラメータ群より小さくする方向に学習が行われることにより、寄与度操作項R(w )を用いない場合に比べて、自明な特徴量xk,nの重みパラメータwk,nを抑圧することが可能となる。また、第1正則化係数μの値の範囲を、たとえば、0.7以上としてもよい。
また、L1ノルム、L2ノルム、elastic netの例を示したが、ノルムの次元pをp=0.5などとしてもよい。
予測部414は、式(1)や式(2)に重みベクトルwnが適用された予測モデルにテストデータの特徴量xd,nを与えて予測処理を実行し、予測値yを結果格納部403と出力部416に出力する。
また、予測部414は、上述した予測値yに対するAUCを算出する。AUCがしきい値以下の場合、予測が失敗したことを意味する。この場合、操作部413は、各ハイパーパラメータを再操作し、学習部412は、重みベクトルwを再学習してもよい。
重要度算出部415は、モデル格納部402に格納された重みベクトルwnを用いて、特徴量xd,nを予測に寄与した順に並べ、予測に寄与した順に重要な特徴量とみなす計算を行う。予測に寄与した順とは、たとえば、重みベクトルwnのノルムの大きい順である。重要度算出部415は、重みベクトルwnのノルムを算出する。
重要度算出部415は、予測に寄与した順に、特徴量xd,nに重要度を付与する。重要度はノルムに比例し、ノルムが大きいほど大きな値となる。重要度算出部415は、自明な特徴量の重みベクトルwnのノルムに0.0以上1.0未満の値を重み付けしてもよい。また、重要度算出部415は、特徴量xd,nを予測に寄与した順に並べる際に、自明な特徴量を除外してもよい。
また、重要度算出部415は、ノルムそのものを重要度として付与してもよい。重要度の計算には、使用した機械学習手法に応じて、重みベクトルwnを用いず、out−of−bag誤り率などを用いてもよい。
これにより、選定部411は、重要度算出部415によって算出された重要度を参照して、自明な特徴量と非自明な特徴量とをさらに選定してもよい。
なお、データ分析装置300は複数台で構成されてもよい。たとえば、負荷分散のため、データ分析装置300が複数存在してもよい。また、データ分析装置300は、1以上の機能を含む複数台で構成されてもよい。
<データ分析処理手順例>
図5は、実施例1にかかるデータ分析装置300によるデータ分析処理手順例を示すフローチャートである。データ分析装置300は、選定部411によってデータ格納部から訓練データ集合を読み込む(ステップS501)、つぎに、データ分析装置300は、選定部411によって、訓練データ集合を自明な特徴量と非自明な特徴量とを選定する(ステップS502)。
そして、データ分析装置300は、式(2)または式(5)の損失関数Lを用いて、訓練データ集合の特徴量xd,nを与えたことによって得られる予測値yと正解ラベルtとの誤差が最小となるような重みパラメータwを生成する(ステップS503)。ステップS501〜S503が学習プロセスである。
データ分析装置300は、予測部414によってデータ格納部401からテストデータ集合を読み込む(ステップS504)。データ分析装置300は、式(1)または式(4)の予測式に重みパラメータwが設定された予測モデルに、テストデータ集合の特徴量xd,nを与えることにより、予測値yを算出する(ステップS505)。
データ分析装置300は、重要度算出部415によって特徴量の重要度を抽出する(ステップS506)。そして、つぎに、データ分析装置300は、予測値yと重要度との組み合わせを結果格納部403に保存する(ステップS507)。そして、データ分析装置300は、出力部416により予測値yと重要度との組み合わせを出力する(ステップS508)。
そして、データ分析装置300は、操作部413によって、ハイパーパラメータである損失係数λ、自明な特徴量xk,nの重みパラメータwk,nに関する第1正則化係数μ、非自明な特徴量xh,nの重みパラメータwh,nに関する第2正則化係数ν、エラスティック係数αを操作する(ステップS509)。
<表示画面例>
図6は、表示画面の表示例1を示す説明図である。表示画面600は、データ分析装置300の出力デバイス304の一例であるディスプレイ、または、出力部416からの出力先のコンピュータのディスプレイに表示される。
表示画面600は、Import fileボタン601と、feature selectボタン602と、trainボタン603と、predictボタン604と、saveボタン605と、file name欄606と、選択画面610と、を含む。
データ分析装置300は、ユーザ操作によるImport fileボタン601の押下が検出されると、ユーザ操作で学習部412にて使用する訓練データや、予測部414にて使用するテストデータ、決定した最適なモデル、予測結果や重要度等を選択する。選択したデータの名前は、Import file name欄606に表示される。その後、ユーザ操作によるfeature selectボタン602が押下されると、選定部411による特徴量の選択画面610が表示される。
ユーザは、自明な特徴量としたい特徴量を、たとえば、チェックボックス611にチェックを付ける。選定部411は、チェックされた特徴量を自明な特徴量に選定する。特徴量の選定が終了し、学習を開始する際には、ユーザは、trainボタン603を押下する。これにより、学習部412は、学習プロセスを開始する。その後、ユーザは、テストデータを選択し、predictボタン604を押下する。これにより、ことで、予測部414は、予測プロセスを開始する。
図7は、表示画面の表示例2を示す説明図である。表示画面600は、予測プロセス終了後、予測値yおよび重要度、自明な特徴量xk,nの重みパラメータwk,nの抑圧効果を表示する。精度表示エリア711に、予測値yが表示される。また、抑圧効果表示エリア712に、通常の予測における各特徴量xd,nの重みパラメータwd,nと、操作部413により自明な特徴量xk,nの重みパラメータwk,nが抑圧された結果と、が並んで表示される。
図7では、通常の予測と抑圧された結果を比較して表示しているが、抑圧された結果のみであってもよい。また、自明な特徴量xk,nの重みパラメータwk,nとして表示する値は、実際の重みパラメータwk,nの値でも良いし、各サンプルnにおいて正規化した値でもよいし、各サンプルnにおいて正規化し、その後、全サンプル1〜Nや全クロスバリデーションにより合算した平均値としてもよい。
これらの分析結果を保存したい場合、ユーザはsaveボタン605を押下する。これにより、保存したいメモリ空間を指定可能な画面が表示される。ユーザがメモリ空間を指定し、実行ボタンを押下すると、指定したメモリ空間に解析結果が保存される。保存した先のメモリ空間は、Export file name欄701などに表示される。
このように、実施例1によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量に異なるペナルティを与える損失関数を用いることにより、自明な特徴量xk,nの予測への寄与度(重みパラメータwk,n)を抑圧し、その他の非自明な特徴量xh,nを積極的に用いた予測を実現できる。これにより、予測に寄与する学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。
実施例2について説明する。実施例1では、特徴量群を、自明な特徴量のグループと非自明な特徴量のグループという2つのグループに選定した。実施例2は、実施例1よりもさらに、自明な特徴量、非自明な特徴量、予測に寄与しないことが自明な特徴量のように、寄与度を操作する特徴量のグループ数を増加させた例である。なお、実施例1と同一構成には同一符号を付し、その説明を省略する場合がある。
選定部411は、訓練データである特徴量xd,nの集合から、(予測に寄与することが)自明な特徴量と非自明な特徴量と予測に寄与しないことが自明な特徴量とを選定する。選定部411は、開発者または技術者によるこれまでの知見の積み重ねや文献などにおいて学術的に重要であると示されている特徴量を、自明な特徴量として選定してもよい。
また、選定部411は、開発者または技術者によるこれまでの知見の積み重ねや文献などにおいて学術的に重要でないと示されている特徴量を、予測に寄与しない自明な特徴量として選定してもよい。また、選定部411は、特徴量xd,nの集合のうち、自明な特徴量および予測に寄与しない自明な特徴量として選定されなかった残余の特徴量xd,nを、非自明な特徴としてもよい。たとえば、図1および図2では、特徴量x1,nが自明な特徴量として選定され、特徴量x2,n,x3,nが非自明な特徴量として選定され、特徴量x3,nが予測に寄与しない自明な特徴量として選定される。
操作部413は、非自明な特徴量の予測に対する寄与度を増加させ、自明な特徴量および予測に寄与しないことが自明な特徴量の寄与度を低下させる寄与度操作項のハイパーパラメータを操作する。寄与度操作項R(w )は、ノルムの次元p=1として、下記式(10)の寄与度操作項R(w)に置き換える。
上記式(10)は、L1ノルムの寄与度操作項R(w)の一例である。τは予測に寄与しないことが自明な特徴量xl,nの重みパラメータwl,nに関する第3正則化係数である。τもハイパーパラメータである。lは予測に寄与しないことが自明な特徴量を示す番号、Vは非自明な特徴量の数を示す。上記式(10)の寄与度操作項R(w)は、上記式(6)に示すように、学習部412において誤差関数E(w )に加算される。これにより、学習部412は、損失関数L(w )を算出し、重みパラメータwk,n,wh,n,wl,nを更新する。
このようにして、自明な特徴量xk,nの重みパラメータwk,nおよび予測に寄与しないことが自明な特徴量xl,nの重みパラメータwl,nが大きくなることを防ぎ、スパースなモデルを得る効果がある。
また、上記式(6)の寄与度操作項R(w )は、ノルムの次元p=2として、下記式(11)の寄与度操作項R(w)に置き換えてもよい。
学習部412において、寄与度操作項R(w)を誤差関数E(w)に加算することで、自明な特徴量xk,nの重みパラメータwk,nおよび予測に寄与しないことが自明な特徴量xl,nの重みパラメータwl,nが大きくなることを防ぎ、過学習を抑えてなめらかな予測モデルを得る効果がある。
また、上記式(6)の寄与度操作項R(w )は、下記式(12)の寄与度操作項Rels(w)に置き換えてもよい。
上記式(12)は、各重みベクトルwのL1ノルムとL2ノルムとを線形結合したelastic netの式であり、式(10)と式(11)を線形結合した寄与度操作項である。式(12)中、α(0.0≦α≦1.0)はエラスティック係数である。エラスティック係数αもハイパーパラメータである。
寄与度操作項Rels(w)を誤差関数E(w)に加算することで、自明な特徴量xk,nの重みパラメータwk,nおよび予測に寄与しないことが自明な特徴量xl,nの重みパラメータwl,nが大きくなることを防ぎ、式(10)に示すようなスパースなモデルを得る効果と、式(11)に示すような過学習を抑えてなめらかなモデルを得る効果を得ることができる。
また、操作部413は、第1正則化係数μと第2正則化係数νと第3正則化係数τの和が、たとえば、1.0となるように操作する。操作部413は、第1正則化係数μ,第3正則化係数τが第2正則化係数νよりも大きくなるように操作する。第1正則化係数μ,τの一方は0.5より大きいことを条件としてもよい。
これにより、自明な特徴量xk,nの重みパラメータwk,nおよび予測に寄与しないことが自明な特徴量xl,nの重みパラメータwl,nが大きくなると、第1正則化係数μ,第3正則化係数τの正則化項が増加することとなり、寄与度操作項R(w )を用いない場合に比べて、自明な特徴量xk,nの重みパラメータwk,nおよび予測に寄与しないことが自明な特徴量xl,nの重みパラメータwl,nを抑圧し、非自明な特徴量xh,nの重みパラメータwh,nの値を増大させることが可能となる。また、第1正則化係数μ,第3正則化係数τの一方の値の範囲を、たとえば、0.7以上としてもよい。
また、選定部411は、自明な特徴量として指定する特徴量を網羅的に変更し、実施例1を実施した結果に基づいて、自明な特徴量を選定してもよい。具体的には、たとえば、選定部411は自明な特徴量を1つのみ選定し、実施例1を実施し予測精度(AUCや決定係数rなど)および重要度を得る。
続いて、データ分析装置300は、1つのみ選定する特徴量を変更し、全特徴量の数だけ実施例1を実施する。さらに、データ分析装置300は、指定する特徴量を2つとして、同様に全特徴量の組み合わせにて実施例1を実施し、指定する特徴量をさらに増加させ、自明な特徴量として選定できる全パターンにおいて実施する。その後、予測精度がしきい値以上となった場合に、選定部411は、自明な特徴量として選定した特徴量および特徴量の組み合わせを列挙し、その中から、自明な特徴量を選定する。
列挙された特徴量は、正確な予測を実現するために重要な特徴量であると解釈可能である。この際、データ分析装置300は、列挙された特徴量および特徴量の組み合わせに出現する回数が多い特徴量から順に自明な特徴量としてもよい。これにより、選定部411は、自明な特徴量および非自明な特徴量を動的に選定することが可能となる。
また、データ分析装置300が自明な特徴量として選定できる全パターンにおいて実施例1を実施した結果、選定部411は、得られた重要度を参照し、自明な特徴量として指定したにも関わらず、重要度が高い特徴量を自明な特徴量として選定してもよい。予測への寄与度を抑圧しているにもかかわらず、重要度が高い特徴量とは、正確な予測を実現するために重要な特徴量であると解釈可能である。この際、データ分析装置300は、自明な特徴量として指定したにも関わらず、重要度がしきい値以上であった特徴量として列挙された特徴量および特徴量の組み合わせに出現する回数が多い特徴量から順に自明な特徴量としてもよい。これにより、選定部411は、自明な特徴量および非自明な特徴量を動的に選定することが可能となる。
このように、実施例2によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量と予測に寄与しないことが自明な特徴量に異なるペナルティを与える損失関数L(w )を用いることにより、自明な特徴量および予測に寄与しないことが自明な特徴量の予測への寄与度を抑圧し、非自明な特徴量を積極的に用いた予測を実現できる。これにより、予測に寄与するものの学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。
実施例3について説明する。実施例3は、選定部411における自明な特徴量と非自明な特徴量の選定方法に関する例である。なお、実施例1および実施例2と同一構成には同一符号を付し、その説明を省略する場合がある。
実施例1および実施例2では、選定部411にて、自明な特徴量の選定において、既に文献などにおいて学術的に重要であると示されている特徴量や、開発者や技術者がこれまでの知見の積み重ねの中から指定するなどとした。実施例3では、選定部411が、実際に予測に寄与した度合いから自明な特徴量を選定する。予測に寄与した度合いに基づいて選定する方法を示すために、ボストンの住宅価格を予測した場合の例として、上記非特許文献2で用いられたデータにより性能検証を実施した。
図8は、特徴量ベクトルFeaturesと正解データTargetとを示す説明図である。実験では、まず、10−fold cross validationを用いて、(1)〜(13)の13個の特徴量すべてを用いた場合で予測を適用し、予測に寄与した特徴量のうち、重要度が上位20%にあたる2個の特徴量を自明な特徴量として選択し、実施例1を適用した。
図9は、実験結果を示す説明図である。操作部413による操作を行わなかった場合のデータ分析装置300による予測結果がNormalのグラフであり、操作部413による操作を行った場合のデータ分析装置300による予測結果がSuppressionのグラフである。Normalにおける決定係数r(=0.75)が0.7を超えていることから、データ分析装置300は、正確な予測に寄与した寄与度について重要度を算出する。
選定部411は、重みベクトルwnの大きさを各特徴量間で比較して、総じて上位2個である特徴量(6)および特徴量(13)を自明な特徴量に選定する。操作部413は、式(7)を用いて、自明な特徴量xk,nの重みパラメータwk,nに関する第1正則化係数μを0.5以上に操作する。学習部412は、学習プロセスにおいて学習パラメータ(重みベクトルwn)を生成する。選定部411は、再度、重みベクトルwnの大きさを各特徴量間で比較する。
決定係数r(=0.82)が0.7を超えていることから、第1正則化係数μの操作後においても強い予測精度で予測されていることがわかる。Normalな予測における重みベクトルwnの大きさと、Suppressionな予測における重みベクトルwnの大きさを比較すると、特徴量(6)および特徴量(13)の重みベクトルwnを抑圧できており、Normalな予測において値が小さかった重みベクトルwnの大きさを増加させることができている。
なお、実施例3において、予測に寄与した特徴量のうち重要度の上位20%を自明な特徴量としたが、50%などとしてもよいし、予め数を決めておいてもよい。また、実施例3では、予測に寄与した度合いに基づいて選定する方法を示したが、選定部411は、予測結果に基づいて選定してもよい。選定部411は、予測結果が、たとえば決定係数rやAUCが0.8以下となるまで自明な特徴量を選定してもよい。
このように、実施例3によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量に異なるペナルティを与える損失関数を用いることにより、自明な特徴量xk,nの予測への寄与度(重みパラメータwk,n)を抑圧し、その他の非自明な特徴量xh,nを積極的に用いた予測を実現できる。これにより、予測に寄与する学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。
実施例4について説明する。実施例4は、操作部413における自明な特徴量の第1正則化係数μと非自明な特徴量の第2正則化係数νの決定方法に関する例である。なお、実施例1と同一構成には同一符号を付し、その説明を省略する場合がある。
実施例1では、操作部413にて、自明な特徴量の正則化項と非自明な特徴量の正則化項を決定する際に、各第1正則化係数μ,νの値の範囲を、自明な特徴量の第1正則化係数μと非自明な特徴量の第2正則化係数νの和が1となるようにし、自明な特徴量の第1正則化係数μは0.5より大きいことを条件とした。実施例4では、上記条件のもと、指定した値の範囲の中で、学習部412において予測精度が最高となる学習パラメータを生成する例を示す。
図10は、実施例4にかかるデータ分析装置300における画面表示の一例である。第1正則化係数μ,第2正則化係数νの決定においては、図10に示すように、ユーザインタフェースの一例である第1正則化係数μ,第2正則化係数νの値を調整するスライダ1001により、自明な特徴量の第1正則化係数μと非自明な特徴量の第2正則化係数νの値を調整してもよい。また、その後、図7に示すような重みベクトルwnの大きさを確認した後、再び自明な特徴量の第1正則化係数μと非自明な特徴量の第2正則化係数νの値を変更してもよい。
また、値の決定方法として、ユーザは、自明な特徴量の第1正則化係数μを0.9などと固定してもよいし、重みベクトルwnの抑圧度合いと予測精度を基にして所望のバランスとなる値を選択してもよい。
このように、実施例4によれば、予測根拠を説明可能な機械学習において、自明な特徴量と非自明な特徴量に異なるペナルティを与える損失関数を用いることにより、自明な特徴量xk,nの予測への寄与度(重みパラメータwk,n)を抑圧し、その他の非自明な特徴量xh,nを積極的に用いた予測を実現できる。これにより、予測に寄与する学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することを可能とすることができる。
実施例5は、実施例1〜4で用いられる重要度の算出例を示す。なお、実施例1〜4と同一構成には同一符号を付し、その説明を省略する場合がある。
<特徴量ベクトルの再配置例>
AI(Artificial Intelligence)は、線形分離不可能問題を解く能力を持つが、AIが、どうしてそのような判断をしたかが不明である。特に、deep learningなどの機械学習手法は、予測精度は高いが説明能力が低い。たとえば、ある患者に対して「風邪をひきやすい」という診断結果をAIが出力した場合、医師は、AIがなぜそのような結果を得たかを答えることができない。もし、AIがその原因まで判断できれば、医師は、患者に対して適切な治療をおこなうことがきる。
図11は、特徴量ベクトルの再配置例を示す説明図である。(A)特徴量空間SP1には、複数の特徴量ベクトルx(n=1,2,…,N。Nは画像の枚数)が存在する。複数の特徴量ベクトルxは、たとえば、非線形の予測モデルPM1により正解ラベルLa,Lbに識別される。(B)特徴量空間SP2には、複数の特徴量ベクトルxが存在する。複数の特徴量ベクトルxは、たとえば、線形の予測モデルPM2により正解ラベルLa,Lbに識別される。
(A)deep learningなどの機械学習手法は、識別結果である予測モデルPM1を説明するため、新たに線形回帰を学習する。具体的には、たとえば、この機械学習手法は、予測モデルPM1を求めた後に局所的に直線近似するという後付け的な処理を実行する。しかしながら、このような後付け的な処理では、直線近似された予測モデルPM1の局所部分が、特徴量ベクトルxを正しく説明できるかが不明である。また、何より、直線近似というロジスティック回帰を実行するため、都合2回の機械学習を実行する必要がある。
(B)の予測モデルPM2は線形であるため、その傾きを参照すれば、特徴量ベクトルxが特徴量空間SP2内のどのパラメータで重みづけされていることがわかり、特徴量ベクトルxを正しく説明することができる。実施例1では、複数の特徴量ベクトルxについて、(A)のように非線形な予測モデルPM1を求めることなく、特徴量空間SP1の複数の特徴量ベクトルxを、他の特徴量空間SP2に再配置する。これにより、線形な予測モデルPM2が得られるため、特徴量ベクトルxが特徴量空間SP2内のどのパラメータで重みづけされていることがわかり、その重要度に応じて特徴量ベクトルxを正しく説明することができる。
すなわち、ユーザは特徴量ベクトルxのあるサンプルごとに(例えば、患者ごとに)、特徴量xに内包されるどの因子(特徴)が予測結果に寄与しているかが分かるため、どうしてそのような予測結果になったのかという説明がしやすくなる。したがって、機械学習における説明能力の向上を図ることができる。上記の例でいえば、ある患者に対して「風邪をひきやすい」という診断結果をAIがなぜ出力したか(たとえば、痩せているなど)、が分かることになる。また、(A)のように機械学習を2回も実行する必要がないため、機械学習の効率化も図ることができる。したがって、上記のような説明を迅速に提供することができる。
<ニューラルネットワークの構造例>
図12は、実施例5にかかるニューラルネットワークの構造例を示す説明図である。ニューラルネットワーク1200は、データユニット群DUと、レポーティングユニット群RUと、ハーモナイジングユニット群HUと、リアロケーションユニットRAUと、ユニファイユニットUUと、デシジョンユニットDCUと、インポータンスユニットIUと、を有する。
データユニット群DUは、複数のデータユニットDUl(lは、階層番号であり、1≦l≦L。Lは最下層の階層番号であり、図12では、L=4)を直列に接続した構成である。最上段であるl=1のデータユニットDU1は、ニューラルネットワーク1200の入力層1201であり、l≦2のデータユニットDUlは、ニューラルネットワーク1200の中間層(隠れ層ともいう)に相当する。データユニットDUlは、前段のデータユニットDU(l−1)からの出力データを入力して、自データユニットDUlの学習パラメータを用いて計算して出力データを出力するパーセプトロンである。
ただし、データユニットDU1は、学習部412による学習時に訓練データを保持する。ここで、訓練データは、たとえば、特徴量ベクトルxの一例である画像xとその真値となる正解ラベルtとの組み合わせ{x,t}により構成されるサンプルデータである(n=1,2,…,N。Nは画像の枚数)。画像xは、2次元のマトリックス構造を持つデータであり、以降、ラスタ走査したd(d≧1を満たす整数)次元のベクトルとして取り扱う。説明の容易さのために、「x」と表記した場合は、行列形式の画像xをラスタ走査した1次元ベクトルとする。
正解ラベルtは、画像xの種類数Kに対して、onehot表現で種類(たとえば、犬や猫などの動物)を示すK次元のベクトルである。onehot表現では、ベクトルのある要素が画像xの種類に対応しており、ただ1つの要素だけに1.0が格納され、他の要素は全て0.0である。1.0の要素に対応する種類(たとえば、犬)が正解となる種類である。なお、X線、CT、MRI、超音波等の医療用画像xを入力とした場合、ラベルtは、疾病の種類や患者の予後(良いor悪い)を表す真値である。
画像x∈R(Rはd次元の実数)を、d次元の実数Rからなる特徴量ベクトルとする。データユニットDU(l+1)を示す関数hl+1 は、下記式(13)で表現される。
式(13)中、添え字l(1≦l≦Lを満たす整数。)は、階層番号を示す(以下の式も同様)。Lは1以上の整数であり、最深の階層番号を示す。右辺のf は活性化関数である。活性化関数は、たとえば、シグモイド関数、双曲線正接関数(tanh関数)、ReLU(Rectified Linear Unit)関数など、様々な活性化関数を用いてよい。行列W は、データユニットDUlの学習パラメータである。右辺のベクトルh は、データユニットDUlに入力される入力ベクトル、すなわち、前段のデータユニットDUlからの出力ベクトルである。なお、層数l=1である場合のデータユニットDU1からの出力ベクトルh は、h =xとなる。
なお、データユニットDU1は、予測部414におる予測時にテストデータとして、特徴量ベクトルである画像xを保持する。
レポーティングユニットRUl(2≦l≦L)は、同一階層のデータユニットDUlからの出力ベクトルh を入力し、当該出力ベクトルh の次元数を縮約させる。レポーティングユニットRUlを示す関数h は、下記式(14)で表現される。
式(14)中、行列W は、レポーティングユニットRUlの学習パラメータである。 式(14)により、データユニットDUlからのd次元の出力ベクトルh は、m次元の出力ベクトルh に縮約される。また、σは、シグモイド関数である。
ハーモナイジングユニットHUl(2≦l≦L)は、中間層のデータユニットDUlとリアロケーションユニットRAUとの間に、中間層のデータユニットDUlごとに設けられる。ハーモナイジングユニットHUlは、中間層のデータユニットDUlからの各出力データの次元数を同一のサイズに変換する。したがって、リアロケーションユニットRAUには、ハーモナイジングユニットHUlで同一の次元数に揃えられた出力データが入力される。
すなわち、ハーモナイジングユニットHUlは、同一階層のデータユニットDUlからの出力ベクトルh を入力し、出力ベクトルh の次元数を同一の次元数に変換する。ハーモナイジングユニットHUlを示す関数h は、下記式(15)で表現される。
式(15)中、行列W は、ハーモナイジングユニットHUlの学習パラメータである。これにより、データユニットDUlからのd次元の出力ベクトルh は、m次元の出力ベクトルh に変換される。mは、次元数を決定するハイパーパラメータである。dおよびmは、レポーティングユニットRUlのdおよびmと異なる値でもよい。また、fは、活性化関数である。
アテンションユニットAUは、各レポーティングユニットRUlからの出力ベクトルh を用いて、各データユニットDUlの重みαを計算する。アテンションユニットAUを示す関数αは、下記式(16)で表現される。
式(16)中、行列Wは、アテンションユニットAUの学習パラメータである。活性化関数の1つであるsoftmax関数では、層数L(下記式(17)の例ではL=4)に等しい次元のベクトルhが計算される。下記式(17)に示すように、式(16)の右辺のベクトルhは、h を垂直方向にスタックしたベクトルである。
したがって、行列Wは、L行M列(Mは、ベクトルhの要素数)の行列となる。アテンションユニットAUにsoftmax関数を採用することにより、層数Lのベクトルhの各要素(全要素の和は1)は、対応するデータユニットDUlの重みをあらわすことになる。
リアロケーションユニットRAUは、ある特徴量空間の特徴量ベクトル(画像x)を他の特徴量空間に再配置する。具体的には、たとえば、図11に示したように、特徴量空間SP1上での特徴量ベクトル群により得られる予測モデルは非線形となり得るため、リアロケーションユニットRAUは、特徴量空間SP2において線形な予測モデルが得られるように、特徴量ベクトル群を特徴量空間SP2に移し替える。リアロケーションユニットRAUを示す関数h は、下記式(18)で表現される。
関数fは、ベクトル同士のアダマール積や、要素加算などを用いることができる。本実施例では、アダマール積とする(下記式(19)を参照)。式(19)では、ハーモナイジングユニットHUlからの出力ベクトルh と特徴量ベクトルxとのアダマール積となる。
ユニファイユニットUUは、リアロケーションユニットRAUからの出力ベクトルh と、アテンションユニットAUからの出力ベクトルαとを統合する。すなわち、ユニファイユニットUUは、リアロケーションユニットRAUからの出力ベクトルh を、アテンションユニットAUからの出力ベクトルαで重み付けする。ユニファイユニットUUを示す関数hは、下記式(20)で表現される。
式(20)中、右辺のα[k]は、式(16)の出力ベクトルαのk次元目の要素(重み)を示す。
デシジョンユニットDCUは、予測値yを決定し、出力層1203に出力する。具体的には、たとえば、デシジョンユニットDCUは、ユニファイユニットUUからの出力ベクトルhに、学習パラメータの1つである重みベクトルwで重み付けして、シグモイド関数σに与えることにより、予測値yを得る。デシジョンユニットDCUを示す関数yは、下記式(21)で表現される。式(21)中、w のtは、転置を意味する。
インポータンスユニットIUは、ニューラルネットワークの各層における特徴量の重要度を示す重要度ベクトルs を算出し、出力層1203に出力する。インポータンスユニットIUを示す関数s は、下記式(22)で表現される。
式(22)中、右辺のα[l]は、式(12)の出力ベクトルαのl階層目の要素(重み)を示す。関数fは、式(18)と同様、ベクトル同士のアダマール積や、要素加算などを用いることができる。実施例1では、アダマール積とする。式(22)では、重要度ベクトルs は、重みベクトルwとハーモナイジングユニットHUlからの出力ベクトルh とのアダマール積となる。重要度ベクトルs は、n番目の特徴量ベクトル(画像)xの階層lにおける重要度である。
<データ分析装置300の機能的構成例>
図13は、実施例5のかかるデータ分析装置300の機能的構成例を示すブロック図である。データ分析装置300は、入力層1201と、中間層1202と、出力層1203と、変換部1301と、再配置部1302と、予測データ算出部1303と、重要度算出部1304と、設定部1305と、統合部1306と、縮約部1307と、を有する。これらは、学習部412および予測部414の内部構成例である。
変換部1301は、式(15)に示したように、各中間層DUl(l≧2)からの出力ベクトルh と行列W とに基づいて、出力ベクトルh の次元数dを縮約させて、変換後の出力ベクトルh を出力する。変換部1301は、上述したハーモナイジングユニット群HUである。
再配置部1302は、式(18)、(19)に示したように、変換部1301からの変換後の出力ベクトルh と、入力層1201に与えられた特徴量空間SP1の特徴量ベクトルxと、に基づいて、特徴量空間SP1の特徴量ベクトルxを特徴量空間SP2に再配置する。再配置部1302は、上述したリアロケーションユニットRAUである。
予測データ算出部1303は、式(21)に示したように、再配置部1302による再配置結果h と重みベクトルwとに基づいて、特徴量空間SP1の特徴量ベクトルxに対する予測ベクトルyを算出する。予測データ算出部1303は、上述したデシジョンユニットDCUである。
重要度算出部1304は、式(22)に示したように、変換後の出力ベクトルh と重みベクトルwとに基づいて、中間層1202における階層lにおける特徴量ベクトルxの重要度ベクトルs を算出する。重要度算出部1304は、上述したインポータンスユニットIUである。
たとえば、動物を表示する画像xについて、ある階層laの出力ベクトルhla が顔の輪郭が猫にふさわしいか否かを示す特徴量であり、ある階層lb(≠la)の出力ベクトルhlb が耳の形状が猫にふさわしいか否かを示す特徴量であるとする。この場合、対応する重要度ベクトルsla 、slb を参照することにより、データ分析装置300が、当該画像xが顔のどの特徴を考慮してその動物を猫であると判別したかを、ユーザは説明することができる。たとえば、重要度ベクトルsla は低いが重要度ベクトルslb が高い場合、データ分析装置300が、当該画像xが耳の形状を考慮してその動物を猫であると判別していると、ユーザは説明することができる。なお、算出された重要度ベクトルs は、重要度算出部415によって抽出される。
設定部1305は、式(16)、(17)に示したように、中間層1202からの出力ベクトルh と行列Wとに基づいて、中間層1202の重みαを設定する。設定部1305は、上述したアテンションユニットAUである。
統合部1306は、式(20)に示したように、再配置結果h と、設定部1305によって設定された重みαと、を統合する。統合部1306は、上述したユニファイユニットUUである。この場合、予測データ算出部1303は、統合部1306による統合結果hと重みベクトルwとに基づいて、予測ベクトルyを算出する。また、重要度算出部1304は、設定部1305によって設定された重みαと、変換後の出力ベクトルh と、重みベクトルwと、に基づいて、重要度ベクトルs を算出する。
縮約部1307は、式(14)に示したように、中間層1202からの出力ベクトルh と行列W とに基づいて、出力ベクトルh の次元数dを縮約させて、縮約後の出力ベクトルh を出力する。縮約部1307は、上述したレポーティングユニット群RUである。この場合、設定部1305は、縮約部1307からの縮約後の出力ベクトルh と行列Wとに基づいて、中間層1202の重みαを設定する。
学習部412は、特徴量空間SP1の特徴量ベクトルxと予測ベクトルyに対する正解ラベルtとを含む訓練データが与えられた場合に、予測ベクトルyと正解ラベルtとを用いて、第1学習パラメータである行列W 、第2学習パラメータである行列W 、第3学習パラメータである重みベクトルw、第4学習パラメータである行列W、および、第5学習パラメータである行列W を、たとえば、正解ラベルtと予測値yとのクロスエントロピーが最小化するように、最適化する。
予測部414は、最適化された学習パラメータをニューラルネットワーク1200に設定し、かつ、入力層1201にテストデータとして特徴量ベクトルx´を与えることにより、最終的に予測データ算出部1303に予測ベクトルy´を算出させる。
このように、実施例5では、サンプルデータである特徴量ベクトルxの事前再配置により、ニューラルネットワークを多層化しても各特徴量の重要度を算出可能となり、サンプル(特徴量ベクトルx)ごとに、説明の容易化を高精度かつ効率的に実現することができる。また、サンプル(特徴量ベクトルx)の事前再配置により、線形な予測モデルが得られるため、学習時および予測時において、高精度かつ低負荷で予測値を算出することができる。
また、実施例5のデータ分析装置300は、変換部1301と、再配置部1302と、重要度算出部1304と、を有する。したがって、特徴量ベクトル(x、x´)の事前再配置により、線形な予測モデルが得られるため、学習時および予測時において、高精度かつ低負荷で予測値を算出することができる。また、特徴量ベクトル(x、x´)にどのような特徴があるかを、重要度算出部1304からの階層lごとの重要度により把握することができる。これにより、分析対象としてニューラルネットワークに与えられた特徴ベクトル(x、x´)についての説明の容易化を高精度かつ効率的に実現することができる。
また、データ分析装置300は、予測データ算出部1303を有するため、特徴ベクトル(x、x´)に対し、分析対象としてニューラルネットワークからの予測結果(y、y´)が得られた理由についての説明の容易化を高精度かつ効率的に実現ができる。
また、データ分析装置300は、設定部1305と統合部1306とを有することにより、予測データ算出部1303は、再配置結果に基づく予測結果を高精度に算出することができる。
また、データ分析装置300は、縮約部1307を有することにより、次元縮約によりデータ分析の効率化を図ることができる。
また、データ分析装置300は、学習パラメータの学習により、高精度な予測モデルを構築することができる。
このように特徴量毎に重要度が求められるため、選定部411は、重要度に基づいて非自明な特徴量を選定することができる。
以上説明したように、上述したデータ分析装置300は、予測根拠を説明可能な機械学習において、非自明な特徴量の予測に対する寄与度を増加させ、自明な特徴量の寄与度を低下させ、かつ予測精度の低下を最小限にとどめることで、予測に寄与するものの学術的な知見等においては、未だ発見されていないような未知の特徴量を抽出することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
300 データ分析装置
401 データ格納部
402 モデル格納部
403 結果格納部
411 選定部
412 学習部
413 操作部
414 予測部
415 重要度算出部
416 出力部

Claims (14)

  1. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有するデータ分析装置であって、
    前記プロセッサが、
    特徴量の集合から、予測に寄与することが自明である第1特徴量群と、前記第1特徴量群以外の第2特徴量群と、を選定する選定処理と、
    前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第1特徴量群に対応する第1重みパラメータ群に関する第1正則化係数を前記損失関数が大きくなるように操作し、前記第2特徴量群に対応する第2重みパラメータ群に関する第2正則化係数を前記損失関数が小さくなるように操作する操作処理と、
    前記操作処理によって前記第1正則化係数および前記第2正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する学習処理と、
    を実行することを特徴とするデータ分析装置。
  2. 請求項1に記載のデータ分析装置であって、
    前記プロセッサは、
    前記予測結果と、前記予測結果と前記正解データとに基づく前記予測結果の予測精度と、を算出する予測処理を実行し、
    前記操作処理では、前記プロセッサは、前記予測精度が所定の予測精度以下である場合、前記第1正則化係数および前記第2正則化係数を再操作し、
    前記学習処理では、前記プロセッサは、前記操作処理によって前記第1正則化係数および前記第2正則化係数が再操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を再学習する、
    ことを特徴とするデータ分析装置。
  3. 請求項1に記載のデータ分析装置であって、
    前記プロセッサは、
    前記重みパラメータ集合に基づいて、前記特徴量の重要度を算出する重要度算出処理を有し、
    前記選定処理では、前記プロセッサは、前記重要度算出処理によって算出された重要度に基づいて、前記第1特徴量群と前記第2特徴量群とを選定する、
    ことを特徴とするデータ分析装置。
  4. 請求項3に記載のデータ分析装置であって、
    前記重要度算出処理では、前記プロセッサは、前記第1特徴量群の各第1特徴量の重要度が前記第2特徴量群の各第2特徴量の重要度よりも小さくなるように前記第1特徴量の重要度および前記第2特徴量の重要度を算出する、
    ことを特徴とするデータ分析装置。
  5. 請求項1に記載のデータ分析装置であって、
    前記操作処理では、前記プロセッサは、前記第1正則化係数および前記第2正則化係数の範囲を、前記第1正則化係数および前記第2正則化係数の和の範囲内で操作する、
    ことを特徴とするデータ分析装置。
  6. 請求項5に記載のデータ分析装置であって、
    前記操作処理では、前記プロセッサは、前記データ分析装置または前記データ分析装置と通信可能に接続される他の装置に表示されたユーザインタフェースに対する操作入力に応じて、前記第1正則化係数および前記第2正則化係数の範囲を操作する、
    ことを特徴とするデータ分析装置。
  7. 請求項1に記載のデータ分析装置であって、
    前記選定処理では、前記プロセッサは、前記特徴量の集合から、前記第1特徴量群と、予測に寄与しない第3特徴量群とを選定するとともに、前記第1特徴量群および前記第3特徴量群以外の特徴量を前記第2特徴量群に選定し、
    前記操作処理では、前記プロセッサは、前記損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第1特徴量群に対応する第1重みパラメータ群に関する第1正則化係数を前記損失関数が大きくなるように操作し、前記第2特徴量群に対応する第2重みパラメータ群に関する第2正則化係数を前記損失関数が小さくなるように操作し、前記第3特徴量群に対応する第3重みパラメータ群に関する第3正則化係数を前記損失関数が大きくなるように操作し、
    前記学習処理では、前記プロセッサは、前記操作処理によって前記第1正則化係数、前記第2正則化係数および前記第3正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する、
    ことを特徴とするデータ分析装置。
  8. 請求項7に記載のデータ分析装置であって、
    前記プロセッサは、
    前記予測結果と、前記予測結果と前記正解データとに基づく前記予測結果の予測精度と、を算出する予測処理を実行し、
    前記操作処理では、前記プロセッサは、前記予測精度が所定の予測精度以下である場合、前記第1正則化係数、前記第2正則化係数および前記第3正則化係数を再操作し、
    前記学習処理では、前記プロセッサは、前記操作処理によって前記第1正則化係数、前記第2正則化係数および前記第3正則化係数が再操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を再学習する、
    ことを特徴とするデータ分析装置。
  9. 請求項7に記載のデータ分析装置であって、
    前記プロセッサは、
    前記重みパラメータ集合に基づいて、前記特徴量の重要度を算出する重要度算出処理を有し、
    前記選定処理では、前記プロセッサは、前記重要度算出処理によって算出された重要度に基づいて、前記第1特徴量群、前記第2特徴量群、および前記第3特徴量群を再選定する、
    ことを特徴とするデータ分析装置。
  10. 請求項9に記載のデータ分析装置であって、
    前記重要度算出処理では、前記プロセッサは、前記第1特徴量群の各第1特徴量の重要度および前記第3特徴量群の各第3特徴量の重要度が前記第2特徴量群の各第2特徴量の重要度よりも小さくなるように算出する、
    ことを特徴とするデータ分析装置。
  11. 請求項3に記載のデータ分析装置であって、
    前記プロセッサは、
    入力層と、出力層と、前記入力層と前記出力層との間において前段の層からのデータと前記予測モデルの重みパラメータ集合である第1学習パラメータとを活性化関数に与えて計算して後段の層に計算結果を出力する2層以上の中間層と、により構成されるニューラルネットワークにおいて、前記各中間層からの出力データと第2学習パラメータとに基づいて、前記各出力データを同一サイズの次元数に変換させて、変換後の各出力データを出力する変換処理と、
    前記変換処理からの変換後の出力データと、前記入力層に与えられた第1特徴量空間における前記特徴量と、に基づいて、前記第1特徴量空間における前記特徴量を第2特徴量空間に再配置する再配置処理と、を実行し、
    前記重要度算出処理では、前記プロセッサは、前記変換後の各出力データと第3学習パラメータとに基づいて、前記各中間層における前記特徴量の重要度を算出する、
    ことを特徴とするデータ分析装置。
  12. 請求項11に記載のデータ分析装置であって、
    前記学習処理では、前記プロセッサは、前記第1特徴量空間における前記特徴量と前記特徴量に対応する正解データとを含む訓練データが与えられた場合に、前記予測結果と前記正解データとを用いて、前記第1学習パラメータ、前記第2学習パラメータ、および前記第3学習パラメータを調整する、
    ことを特徴とするデータ分析装置。
  13. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有するデータ分析装置が実行するデータ分析方法であって、
    前記プロセッサが、
    特徴量の集合から、予測に寄与することが自明である第1特徴量群と、前記第1特徴量群以外の第2特徴量群と、を選定する選定処理と、
    前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第1特徴量群に対応する第1重みパラメータ群に関する第1正則化係数を前記損失関数が大きくなるように操作し、前記第2特徴量群に対応する第2重みパラメータ群に関する第2正則化係数を前記損失関数が小さくなるように操作する操作処理と、
    前記操作処理によって前記第1正則化係数および前記第2正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習する学習処理と、
    を実行することを特徴とするデータ分析方法。
  14. プロセッサに、
    特徴量の集合から、予測に寄与することが自明である第1特徴量群と、前記第1特徴量群以外の第2特徴量群と、を選定する選定処理と、
    前記特徴量の集合を予測モデルに入力した場合に出力される予測結果と前記特徴量に対応する正解データとの差に関する損失関数において、前記予測モデルを構成する重みパラメータ集合のうち、前記第1特徴量群に対応する第1重みパラメータ群に関する第1正則化係数を前記損失関数が大きくなるように操作し、前記第2特徴量群に対応する第2重みパラメータ群に関する第2正則化係数を前記損失関数が小さくなるように操作する操作処理と、
    前記操作処理によって前記第1正則化係数および前記第2正則化係数が操作された結果、前記損失関数が最小となるように、前記予測モデルの重みパラメータ集合を学習処理と、
    を実行させることを特徴とするデータ分析プログラム。
JP2019100316A 2019-05-29 2019-05-29 データ分析装置、データ分析方法、およびデータ分析プログラム Active JP7202973B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019100316A JP7202973B2 (ja) 2019-05-29 2019-05-29 データ分析装置、データ分析方法、およびデータ分析プログラム
US16/876,199 US11636358B2 (en) 2019-05-29 2020-05-18 Data analysis apparatus, data analysis method, and data analysis program
EP20176428.9A EP3745325A1 (en) 2019-05-29 2020-05-26 Data analysis apparatus, data analysis method, and data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019100316A JP7202973B2 (ja) 2019-05-29 2019-05-29 データ分析装置、データ分析方法、およびデータ分析プログラム

Publications (2)

Publication Number Publication Date
JP2020194414A true JP2020194414A (ja) 2020-12-03
JP7202973B2 JP7202973B2 (ja) 2023-01-12

Family

ID=70857027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019100316A Active JP7202973B2 (ja) 2019-05-29 2019-05-29 データ分析装置、データ分析方法、およびデータ分析プログラム

Country Status (3)

Country Link
US (1) US11636358B2 (ja)
EP (1) EP3745325A1 (ja)
JP (1) JP7202973B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019007870T5 (de) 2019-10-31 2022-09-08 Mitsubishi Electric Corporation Klimaanlage
JPWO2023275976A1 (ja) * 2021-06-29 2023-01-05

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7332037B2 (ja) * 2020-03-31 2023-08-23 日本電気株式会社 表示制御装置、方法及びプログラム
CN113139447B (zh) * 2021-04-13 2024-01-30 超参数科技(深圳)有限公司 特征分析方法、装置、计算机设备和存储介质
CN113642708B (zh) * 2021-08-13 2024-05-14 北京赛目科技有限公司 一种车辆环境等级识别模型的训练方法、识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096010A1 (ja) * 2010-02-02 2011-08-11 株式会社 東芝 パターン認識装置
JP2017151904A (ja) * 2016-02-26 2017-08-31 日本電信電話株式会社 解析装置、方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2323081A1 (en) 2008-08-05 2011-05-18 Fujitsu Limited Method of creating estimation model by means of multiple regression analysis, creation system and creation program
JP6912998B2 (ja) * 2017-10-25 2021-08-04 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096010A1 (ja) * 2010-02-02 2011-08-11 株式会社 東芝 パターン認識装置
JP2017151904A (ja) * 2016-02-26 2017-08-31 日本電信電話株式会社 解析装置、方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHWINI RAHANGDALE: "Deep Neural Network Regularization for Feature Selection in Learning-to-Rank", IEEE ACCESS (VOLUME: 7), JPN6022052120, 26 April 2019 (2019-04-26), ISSN: 0004942444 *
神嶌 敏弘 TOSHIHIRO KAMISHIMA: "道徳判断の自動化をめぐる問題:規範の選択と協力の進化", 人工知能 第34巻 第2号 JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 第34巻, JPN6022052122, 1 March 2019 (2019-03-01), JP, ISSN: 0004942443 *
近藤 洋平 YOHEI KONDO: "ベイジアンマスキングを用いたスパース特徴選択 Bayesian Masking for Sparse Feature Selection", 電子情報通信学会技術研究報告 VOL.115 NO.323 IEICE TECHNICAL REPORT, vol. 第115巻, JPN6022052121, 19 November 2015 (2015-11-19), JP, ISSN: 0004942442 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019007870T5 (de) 2019-10-31 2022-09-08 Mitsubishi Electric Corporation Klimaanlage
JPWO2023275976A1 (ja) * 2021-06-29 2023-01-05
WO2023275976A1 (ja) * 2021-06-29 2023-01-05 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
JP7395066B2 (ja) 2021-06-29 2023-12-08 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法

Also Published As

Publication number Publication date
US20200380392A1 (en) 2020-12-03
US11636358B2 (en) 2023-04-25
JP7202973B2 (ja) 2023-01-12
EP3745325A1 (en) 2020-12-02

Similar Documents

Publication Publication Date Title
JP6912998B2 (ja) データ分析装置、データ分析方法、およびデータ分析プログラム
JP6832783B2 (ja) データ分析装置、データ分析方法、およびデータ分析プログラム
JP7202973B2 (ja) データ分析装置、データ分析方法、およびデータ分析プログラム
De Menezes et al. Data classification with binary response through the Boosting algorithm and logistic regression
US11144825B2 (en) Interpretable deep learning framework for mining and predictive modeling of health care data
EP3223183A1 (en) Case-based reasoning in the cloud using deep learning
EP3905257A1 (en) Risk prediction for covid-19 patient management
Anastasio et al. Optimization and FROC analysis of rule-based detection schemes using a multiobjective approach
Cevik et al. Using active learning for speeding up calibration in simulation models
Wang et al. Patient admission prediction using a pruned fuzzy min–max neural network with rule extraction
Hilbert et al. Using decision trees to manage hospital readmission risk for acute myocardial infarction, heart failure, and pneumonia
Chi et al. A novel lifelong machine learning-based method to eliminate calibration drift in clinical prediction models
Guo et al. A homogeneous ensemble classifier for breast cancer detection using parameters tuning of MLP neural network
JP2020042645A (ja) 時系列データ分析装置、時系列データ分析方法、および時系列データ分析プログラム
Jiang et al. Concave 1-norm group selection
Kulkarni et al. Predicting the inpatient hospital cost using a machine learning approach
Alharbi An automated computer system based on genetic algorithm and fuzzy systems for lung cancer diagnosis
Abbas et al. Particle Swarm Optimization for Penalize cox models in long-term prediction of breast cancer data
US20230253117A1 (en) Estimating patient risk of cytokine storm using knowledge graphs
Chamundeshwari et al. Adaptive Despeckling and Heart Disease Diagnosis by Echocardiogram using Optimized Deep Learning Model
Yaakob et al. A novel Euclidean quality threshold ARTMAP network and its application to pattern classification
Patil et al. An experimental approach toward type 2 diabetes diagnosis using cultural algorithm
Hodapp Unsupervised learning for computational phenotyping
Asha et al. Heart Block Recognition Using Image Processing and Back Propagation Neural Networks
Amutha et al. A Survey on Machine Learning Algorithms for Cardiovascular Diseases Predic-tion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R150 Certificate of patent or registration of utility model

Ref document number: 7202973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150