JP2020004126A

JP2020004126A - ヘルスケアデータ分析システム、ヘルスケアデータ分析方法、ヘルスケアデータ分析プログラム、学習済みモデル、情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP2020004126A
Application number: JP2018123615A
Authority: JP
Inventors: 村匠市; Takumi Ichimura; 田真鎌; Shin Kamada; 田俊英原; Toshihide Harada
Original assignee: Hiroshima Environment & Health Association; Prefectural University of Hiroshima
Current assignee: Hiroshima Environment & Health Association; Prefectural University of Hiroshima
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2020-01-09
Anticipated expiration: 2038-06-28
Also published as: JP7173482B2

Abstract

【課題】ヘルスケアデータの所定の対象項目の値に影響を与える項目を高い精度で抽出する。【解決手段】実施形態のヘルスケアデータ分析システム１は、複数のヘルスケアデータを含むデータセットを取得するデータセット取得部１１と、前記複数のヘルスケアデータを、複数の正常ヘルスケアデータおよび複数の異常ヘルスケアデータに分けるデータ分類部１２と、前記複数の正常ヘルスケアデータの各々から所定の対象項目に係るデータを除くことにより入力データセットを生成する入力データセット生成部１３と、前記入力データセットおよび前記複数の正常ヘルスケアデータの前記対象項目に係るデータに基づいて、前記対象項目の値を出力する学習済みモデルを構築する深層学習部１４と、前記学習済みモデルに基づいて前記複数の異常ヘルスケアデータの前記対象項目の値に影響を与えている項目を分析する分析部１５とを備える。【選択図】図２

Description

本発明は、ヘルスケアデータ分析システム、ヘルスケアデータ分析方法、ヘルスケアデータ分析プログラム、学習済みモデル、情報処理装置、情報処理方法および情報処理プログラムに関する。

従来技術として、計測装置により測定される測定値および操作者により入力される入力値を含む複数項目の元指標を取得し、取得した元指標の値に基づいて、評価対象者の健康状態を年齢に換算した指標である健康年齢を算出し、表示する健康状態判断装置が知られている（特許文献１）。この装置において、健康年齢は、複数のリスク因子の線形和として計算される。各リスク因子の係数は、疫学データを利用して、回帰分析等の統計的手法により算出される。

また、生命保険会社の中には、Ｗｅｂサイト上で、閲覧者が入力したデータ（年齢、性別、健診データ等）に基づいて健康年齢を算出し、提示しているところがある（例えば、https://neofirst.co.jp/sim/health.html, https://www.dai-ichi-life-special.jp/sim/health.html, http://www.resona-gr.co.jp/resonagr/women/neo/）。

ところで、近年、深層学習（ディープラーニング）に関する技術が活発に研究、開発されている。深層学習は、多層構造のニューラルネットワークを用いた機械学習の一種である。

深層学習の一手法として、構造適応型深層学習法が知られている（非特許文献１参照）。この構造適応型深層学習法によれば、制限付きボルツマンマシン（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ：ＲＢＭ）を多段に重ねてディープ・ビリーフ・ネットワーク（ＤｅｅｐＢｒｉｅｆＮｅｔｗｏｒｋ：ＤＢＮ）を構築する際に、最適な隠れニューロン数および層数を学習中に自動で求めることが可能である。すなわち、構造適応型深層学習法では、ニューラルネットワークが自己組織化的に構築される。

非特許文献２には、ＤＢＮの階層化条件等が記載されている。非特許文献３には、ニューラルネットワークにおける信号の伝播パターンの可視化等について記載されている。非特許文献４および５には、ＲＢＭにおけるニューロン生成・消滅アルゴリズムが記載されている。非特許文献６には、重みの変分ベクトルを用いて隠れニューロンの数を適応的に変更する手法が記載されている。

その他、深層学習の基本的な技術については、下記の非特許文献が知られている。

非特許文献７には、制限付きボルツマンマシン（ＲＢＭ）について記載されている。ＲＢＭは、可視層と隠れ層の２層から構成されるネットワーク構造を持っており、確率分布に基づいて入力データに含まれる特徴を隠れニューロン上で学習可能な学習モデルである。ＲＢＭでは、同じ層のニューロン間の結合が無いため、計算量を削減できるとともに、隠れ層のニューロンごとに独立した確率分布を学習することが可能である。

非特許文献８には、コントラスティブ・ダイバージェンス（ＣｏｎｔｒａｓｔｉｖｅＤｉｖｅｒｇｅｎｃｅ：ＣＤ）法について記載されている。このＣＤ法により、ＲＢＭのパラメータ（重み、バイアス等）を比較的少ない計算量で更新することが可能になる。

非特許文献９には、ディープ・ビリーフ・ネットワークについて記載されている。ＤＢＮは、学習済みのＲＢＭを複数積み重ねて層数を増やすことで構築される。本手法によれば、入力データの特徴を階層的に学習することが可能である。

特開２０１０−２６８５５号公報

鎌田真、市村匠、原章、"ニューロン生成／消滅アルゴリズムによる構造適応型ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ"、計測自動制御学会第８回コンピューテーショナル・インテリジェンス研究会、ｐｐ．９０−９６（２０１５） S.Kamada and T.Ichimura, An Adaptive Learning Method of Deep Belief Network by Layer Generation Algorithm, Proc. of IEEE TENCON 2016, pp.2971-2974 (2016) S.Kamada and T.Ichimura, Fine Tuning of Adaptive Learning of Deep Belief Network for Misclassification and its Knowledge Acquisition, International Journal Computational Intelligence Studies, vol.6, no.4, pp.333-348 (2017) S.Kamada and T.Ichimura, An Adaptive Learning Method of Restricted Boltzmann Machine by Neuron Generation and Annihilation Algorithm, Proc. of IEEE SMC 2016, pp.1273-1278, 2016. S.Kamada and T.Ichimura, A Structural Learning Method of Restricted Boltzmann Machine by Neuron Generation and Annihilation Algorithm, Neural Information Processing, vol.9950 of the series Lecture notes in Computer Science, pp.372-380, 2016. T.Ichimura and K.Yoshida Eds., Knowledge-Based Intelligent Systems for Health Care, Advanced Knowledge International, ISBN 0-9751004-4-0, 2004. G.E.Hinton, A Practical Guide to Training Restricted Boltzmann Machines, Neural Networks, Tricks of the Trade, Lecture notes in Computer Science, vol.7700, pp.599-619, 2012. G.E.Hinton, Training products of experts by minimizing contrastive divergence, Neural Computation, vol.14, pp.1771-1800, 2002. G.E.Hinton, S.Osindero and Y.Teh, A fast learning algorithm for deep belief nets, Neural Computation, vol.18, no.7, pp.1527-1554, 2006.

特許文献１の健康状態判断装置では、複数の影響因子の線形和モデルを用いて健康年齢が算出される。このため、健康年齢に影響を与える影響因子を予め定めておく必要がある。すなわち、健康年齢に影響を与える影響因子を抽出するものではない。

また、健康年齢に影響を与える影響因子は、地域性や社会性（食生活、車社会）等に応じて変化することが想定されるため、健康年齢を高精度に算出するための一般的なモデルを予め作成することはそもそも困難である。

年齢に限られず、ヘルスケアデータの所定の項目を他の項目の値に基づいて算出する場合にも、上記と同様の課題が存在する。

そこで、本発明は、ヘルスケアデータの所定の対象項目の値に影響を与える項目を高い精度で抽出することができるヘルスケアデータ分析システム、ヘルスケアデータ分析方法、ヘルスケアデータ分析プログラム、学習済みモデルを提供することを目的とする。

また、本発明は、学習済みモデルに基づいて推定された対象項目の値をユーザに提供することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

本発明に係るヘルスケアデータ分析システムは、
複数の正常ヘルスケアデータの各々から所定の対象項目に係るデータを除いて得られる入力データセットと、前記複数の正常ヘルスケアデータの前記対象項目に係るデータとに基づいて深層学習を行うことにより、前記対象項目の値を出力する学習済みモデルを構築する深層学習部と、
前記学習済みモデルに基づいて、複数の異常ヘルスケアデータの前記対象項目の値に影響を与えている項目を分析する分析部と、
を備えることを特徴とする。

本発明に係る学習済みモデルは、
複数の項目に係るデータを有するヘルスケアデータに基づいて、所定の対象項目の値を出力するよう、コンピュータを機能させるための学習済みモデルであって、
前記ヘルスケアデータから前記対象項目を除いたデータが与えられる入力層と、前記対象項目の推定値を出力する出力層と、前記入力層と前記出力層との間の少なくとも１層の中間層とを有し、前記出力層から出力される値が前記対象項目の値に等しくなるように深層学習によりパラメータが学習されたニューラルネットワークから構成され、
前記入力層に入力されたヘルスケアデータに対し、前記ニューラルネットワークにおける学習済みの前記パラメータに基づく演算を行い、前記出力層から前記対象項目の値を出力するよう、コンピュータを機能させる。

本発明に係る情報処理装置は、
複数の項目に係るデータを有するヘルスケアデータを取得するヘルスケアデータ取得部と、
所定の対象項目の推定値を取得する推定値取得部と、
前記対象項目の推定値を表示部に表示させる表示制御部と、
を備え、
前記推定値は、前記ヘルスケアデータから前記対象項目に係るデータを除いた入力データを、前記対象項目の値を出力する学習済みモデルの入力層に与え、前記学習済みモデルの出力層から出力される値であることを特徴とする。

本発明によれば、ヘルスケアデータの所定の対象項目の値に影響を与える項目を高い精度で抽出することができる。

また、本発明によれば、ユーザが、対象項目の推定値を指標として健康状態を容易に把握することができる。

第１の実施形態に係る情報処理システム１０００の概略的な構成を示す図である。第１の実施形態に係るサーバ１Ａの概略的な構成を示す図である。第１の実施形態に係る深層学習装置１Ｂの概略的な構成を示す図である。ヘルスケアデータのフォーマットの一例を示す図である。学習済みモデルに基づく分析方法を説明するための図である。第１の実施形態に係るヘルスケアデータ分析システム１の処理動作の一例を説明するためのフローチャートである。図６Ａに続く、ヘルスケアデータ分析システム１の処理動作の一例を説明するためのフローチャートである。実施例において用いたデータセットの概要を示す図である。実施例に係るヘルスケアデータのフォーマットを示す図である。実年齢と推定年齢との誤差（年齢差）をテストデータ（使用データ）ごとに示す図である。年齢差とエネルギー差との関係を示す図である。図１０の分布において、エネルギー差を所定の階級幅とした場合における異常ヘルスケアデータの分布等を示す図である。図１１の各階級について、分析部により抽出された項目を頻度の高い順に示す図である。異常ヘルスケアデータにおいて異常項目の値を正常値に変更した場合における、異常ヘルスケアデータの割合を年齢差ごとに示す図である。学習済みのニューラルネットワークを伝播する信号のパスを示す図であり、（ａ）は正常ヘルスケアデータを与えたときの信号パターンであり、（ｂ）は異常ヘルスケアデータを与えたときの信号パターンである。第２の実施形態に係る情報処理システム２０００の概略的な構成を示す図である。第２の実施形態に係るクライアント装置３の概略的な構成を示す図である。第２の実施形態に係るサーバ４の概略的な構成を示す図である。第２の実施形態に係る情報処理システム２０００の処理動作の一例を説明するためのフローチャートである。第２の実施形態に係るクライアント装置３の表示部に表示されるヘルスケアデータの入力画面の一例を示す図である。第２の実施形態に係るクライアント装置３の表示部に表示される出力画面の一例を示す図である。

以下、本発明に係る実施形態について図面を参照しながら説明する。

（第１の実施形態）
まず、図１を参照して、第１の実施形態に係る情報処理システム１０００の概略的な構成について説明する。なお、本実施形態に係る情報処理システム１０００の各構成の内部構成・処理等については、図２以降の図面を参照して説明する。

本実施形態に係る情報処理システム１０００は、複数のヘルスケアデータ（ヘルスケアデータに関するビッグデータ）を分析するための情報処理システムであり、図１に示すように、ヘルスケアデータ分析システム１と、クライアント装置２とを備える。

ヘルスケアデータ分析システム１およびクライアント装置２は、直接接続されてもよいし、あるいは、インターネット等の通信ネットワークを介して接続されてもよい。また、図１では１台のクライアント装置２のみがヘルスケアデータ分析システム１に接続されているが、複数のクライアント装置２がヘルスケアデータ分析システム１に接続されてもよい。

なお、ヘルスケアデータ分析システム１とクライアント装置２間のデータ送受信には、特願２０１７−９３２０５に記載された発明を適用してもよい。これにより、深層学習が完了するまでセッションを保持し続ける必要がなくなり、インターネットを通じてデータ（新規学習データ、学習結果データ等）の送受信をセキュアに行うことができる。

ヘルスケアデータ分析システム１は、クライアント装置２から提供されるヘルスケアデータを分析する装置であり、図１に示すように、サーバ１Ａと深層学習装置１Ｂとを有する。サーバ１Ａと深層学習装置１Ｂについては、後ほど詳しく説明する。

ヘルスケアデータは、健康診断データでもよいし、血圧計等から取得される測定データでもよいし、それらの任意の混合データであってもよい。

本実施形態では、図１に示すように、サーバ１Ａと深層学習装置１Ｂは直接接続されている。これに限らず、サーバ１Ａと深層学習装置１Ｂはインターネット等の通信ネットワークを介して接続されてもよいし、あるいは、サーバ１Ａと深層学習装置１Ｂが１つの情報処理装置として一体に構成されてもよい。

クライアント装置２は、新規学習データとしてのヘルスケアデータをヘルスケアデータ分析システム１に送信するように構成されている。クライアント装置２は、例えば、パソコン、タブレット端末、スマートフォン等の情報処理端末である。また、クライアント装置２は、ヘルスケアデータ（例えば、血圧、体重、血糖値、心拍数、歩数等）を測定するＩｏＴ機器であってもよい。クライアント装置２は、スマートウォッチ等のウェアラブル端末であってもよい。

クライアント装置２は、ヘルスケアデータを、ユーザ入力により取得してもよいし、ＣＤ−ＲＯＭやＳＤカード等の情報記録媒体から取得してもよいし、通信ネットワーク経由で取得してもよい。通信ネットワーク経由でヘルスケアデータを取得する場合、ヘルスケアデータを測定するＩｏＴ機器からデータを直接取得してもよい。

次に、ヘルスケアデータ分析システム１のサーバ１Ａと深層学習装置１Ｂについて詳しく説明する。

＜サーバ＞
サーバ１Ａは、図１に示すように、クライアント装置２に通信可能に接続され、クライアント装置２からヘルスケアデータを受信する。サーバ１Ａは、例えば、Ｗｅｂデータサーバで構成される。

サーバ１Ａは、図２に示すように、制御部１０Ａと、記憶部２０Ａと、通信部３０Ａとを有している。

制御部１０Ａは、データセット取得部１１と、データ分類部１２と、入力データセット生成部１３と、分析部１５と、学習済みモデル検証部１６とを有している。各部の詳細については後ほど説明する。本実施形態では、制御部１０Ａの各部は、ソフトウェアにより構成され、サーバ１Ａ内のプロセッサが所定のプログラムを実行することにより実現される。

なお、制御部１０Ａの各部のうち少なくとも一つが、専用処理回路等のハードウェアにより構成されてもよい。

また、制御部１０Ａのデータ分類部１２、入力データセット生成部１３、分析部１５および学習済みモデル検証部１６のうち少なくともいずれか一つが深層学習装置１Ｂに設けられてもよい。

また、制御部１０Ａの各部が、通信可能に接続された複数の情報処理装置に分散して設けられ、これら複数の情報処理装置が協働することにより制御部１０Ａの機能が実現されてもよい。

記憶部２０Ａは、学習データＤＢ２１Ａと、学習結果ＤＢ２２Ａとを有する。この記憶部２０Ａは、例えばハードディスク、半導体メモリ（ＳＳＤ等）から構成される。なお、学習データＤＢ２１Ａおよび学習結果ＤＢ２２Ａの少なくともいずれか一つが、サーバ１Ａに通信可能に接続された外部サーバの記憶部（図示せず）に記憶されてもよい。

学習データＤＢ２１Ａは、クライアント装置２から受信した新規学習データ（ヘルスケアデータ）が蓄積されるデータベースである。本実施形態では、学習データＤＢ２１Ａには、新規学習データのほか、深層学習装置１Ｂで既に深層学習に用いられたデータも格納される。なお、新規学習データのみが学習データＤＢ２１Ａに格納されてもよい。

学習結果ＤＢ２２Ａは、深層学習装置１Ｂから受信した学習結果データが蓄積されるデータベースである。ここで、学習結果データとは、深層学習により得られたデータであって、ニューラルネットワークを構成するために必要となるデータである。具体的には、学習結果データは、ニューラルネットワークの形状に係る値（層数、各層のニューロン数）、ニューロン間の重み、およびニューロンのバイアス等を含むパラメータである。その他、学習結果データには、深層学習により蓄積された知識（ＩＦ−ＴＨＥＮルールなど）が含まれてもよい。

通信部３０Ａは、サーバ１Ａがクライアント装置２との間で情報を送受信し、また、深層学習装置１Ｂとの間で情報を送受信するためのインターフェースである。通信部３０Ａは、複数の通信モジュールで構成されてもよい。

ここで、制御部１０Ａの各部の詳細について説明する。

データセット取得部１１は、複数のヘルスケアデータを含むデータセットを取得する。より詳しくは、データセット取得部１１は、記憶部２０Ａの学習データＤＢ２１Ａからヘルスケアデータを取得する。なお、データセット取得部１１は、通信部３０Ａを介してクライアント装置２から直接ヘルスケアデータを取得してもよい。

各ヘルスケアデータは、図４に示すように、複数の項目（項目１，項目２，・・・，項目ｎ）に係るデータを有する。各ヘルスケアデータに含まれる複数の項目は、例えば、健康診断項目に対応している。なお、図４では項目１が対象項目となっているが、これに限らず、項目２，・・・，項目ｎのうちいずれを対象項目としてもよい。また、項目には、検査項目だけでなく、名前、年齢、性別などが含まれてもよい。

項目に係るデータは、典型的には検査値であるが、問診等の文字情報であってもよいし、Ｘ線、ＣＴ、ＭＲＩ検査等で得られた画像データであってもよい。

データ分類部１２は、データセット取得部１１により取得された複数のヘルスケアデータを、異常項目が所定数未満である複数の正常ヘルスケアデータと、異常項目が当該所定数以上である複数の異常ヘルスケアデータとに分ける。ここで、異常項目とは、異常を示すデータを有する項目のことである。例えば、ＬＤＬコレステロールの項目の値が基準範囲（例えば６０〜１３９ｍｇ／ｄｌ）から外れている場合、当該項目が異常項目としてカウントされる。

入力データセット生成部１３は、深層学習に用いる入力データセットを生成する。より詳しくは、入力データセット生成部１３は、複数の正常ヘルスケアデータの各々から所定の対象項目に係るデータを除くことにより、ニューラルネットワークの入力層に与えるための入力データセットを生成する。対象項目は、ヘルスケアデータの複数の項目のいずれでもよく、例えば年齢である。なお、対象項目は年齢に限られず、任意の項目でよい。例えば、生活習慣病に関連する項目でもよい。

分析部１５は、後述の深層学習部１４により構築された学習済みモデルに基づいて、データ分類部１２により分けられた複数の異常ヘルスケアデータの対象項目の値に影響を与えている項目を分析する。より詳しくは、分析部１５は、複数の異常ヘルスケアデータの各々について以下の処理を行うことにより、対象項目の値に影響を与えている項目を分析する。

まず、図５（ａ）に示すように、分析部１５は、異常ヘルスケアデータから対象項目に係るデータを除いて得られた入力データ（第１のデータ）を学習済みモデルの入力層に与え、出力層から出力された推定データ（対象項目の推定値）を取得する。

具体的には、分析部１５は、入力層にセットされた入力データに対する隠れニューロンの発火確率を式（１）により計算する。そして、分析部１５は、計算された発火確率により、隠れニューロンの出力値（０または１）を求める。これを各層について順次行うことで、出力層の値（推定データ）を得る。

式（１）の左辺は、入力データ（ベクトルｖ）が与えられた場合にｊ番目の隠れニューロン（ｈ_ｊ）の出力値が１になる（すなわち発火する）確率を示している。式（１）の右辺の関数ｓｉｇｍはシグモイド関数である。なお、活性化関数は、シグモイド関数以外の関数（ランプ関数など）であってもよい。

入力層に与える第１のデータは、複数の異常ヘルスケアデータに基づいて生成されてもよい。すなわち、任意の数（１〜Ｎ：異常ヘルスケアデータの総数）の異常ヘルスケアデータに基づくデータ（すなわち、異常ヘルスケアデータから対象項目に係るデータを除いたデータ）を結合して一つの入力データとし、これを第１のデータとして入力層に与えてもよい。

推定データを取得した後、図５（ｂ）に示すように、分析部１５は、推定データを学習済みモデルの出力層に与え、後方に信号伝播させて入力層から出力された復元データ（第２のデータ）を取得する。

具体的には、分析部１５は、出力層にセットされた推定データに対する隠れニューロンの発火確率を式（２）により計算する。そして、分析部１５は、計算された発火確率により、隠れニューロンの出力値（０または１）を求める。これを各層で行うことで、復元データを得る。

式（２）の左辺は、隠れニューロンの出力データ（ベクトルｈ）が与えられた場合における、ｉ番目の可視ニューロン（ｖ_ｉ）の出力値が１になる確率である。分析部１５は、計算された確率により可視ニューロンの出力値（０または１）を求める。

詳しくは後述するが、深層学習装置１Ｂで構築される学習済みモデルは、正常ヘルスケアデータに基づいて学習される。したがって、異常ヘルスケアデータを学習済みモデルに与えた場合、復元データ（第２のデータ）は学習された正常ヘルスケアデータの特徴の影響を受けたものとなる。すなわち、復元データの特徴は、正常ヘルスケアデータの特徴に近づくようになる。その結果、入力データ（第１のデータ）と復元データ（第２のデータ）との間には誤差が生じることとなる。

次に、分析部１５は、第１のデータと第２のデータとを比較することによって、対象項目に影響を与えている項目を抽出する。具体的には、分析部１５は、項目ごとに第１のデータと第２のデータを比較し、各項目の誤差を計算する。誤差は、例えば、項目の値の差の二乗、あるいは項目の値の差の絶対値を計算することにより得られる。そして、分析部１５は、各項目について、誤差と、当該項目について予め定められた基準値との比較を行い、両者の差を求める。分析部１５は、このように求められた差が最も大きい項目を、対象項目に影響を与えている項目として抽出する。

なお、分析部１５は、全ての異常ヘルスケアデータについて第１のデータ（入力データ）と第２のデータ（復元データ）の比較を完了した後に、各項目について誤差の平均値を求め、求めた平均値と、項目ごとに予め定められた基準値との差が大きい項目を、対象項目に影響を与えている項目として抽出してもよい。

また、抽出する項目は１つに限られず、複数の項目を抽出してもよい。すなわち、差が最大の項目に加えて、差が２番目（さらには３番目・・・）に大きい項目を抽出してもよい。

分析部１５は、対象項目の値に係る所定の階級ごとに、抽出された項目を集計してもよい（図１２参照）。これにより、対象項目に影響を与えている項目を階級ごとに容易に把握することができる。

なお、分析部１５は、異常ヘルスケアデータに含まれる年齢と、学習済みモデルにより推定される年齢（推定年齢）との差である年齢差と、エネルギー差との関係を求めてもよい（図１０参照）。エネルギー差とは、２つのデータについてＲＢＭのエネルギー関数から求められるエネルギーの差のことである。エネルギー関数は、式（３）で与えられる。

ここで、ｂ_ｉ：可視ニューロンｖ_ｉのバイアス、ｃ_ｊ：隠れニューロンｈ_ｊのバイアス、Ｗ_ｉｊ：可視ニューロンｖ_ｉと隠れニューロンｈ_ｊ間の重みである。

学習済みモデル検証部１６は、深層学習装置１Ｂにより構築された学習済みモデルを検証する。具体的には、当該学習済みモデルの構築に用いられたものとは別の、複数の正常ヘルスケアデータから対象項目に係るデータを除いてテスト用データセットを生成する。そして、生成されたテスト用データセットを学習済みモデルの入力層に与える。学習済みモデル検証部１６は、学習済みモデルの出力層から出力される値（対象項目の予測値）と、教師データ（対象項目の値）との間の誤差を、各正常ヘルスケアデータについて求める。誤差が、所定範囲内であれば、学習済みモデル検証部１６は、学習済みモデルが正常に学習されていると判定する。

＜深層学習装置＞
次に、ヘルスケアデータ分析システム１の深層学習装置１Ｂについて詳しく説明する。

深層学習装置１Ｂは、サーバ１Ａから受信した入力データセットを用いて深層学習を行う。この深層学習装置１Ｂは、例えば、既述の構造適応型深層学習法により深層学習を行う。深層学習装置１Ｂは、例えば、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）計算機で構成される。

深層学習装置１Ｂは、図３に示すように、制御部１０Ｂと、記憶部２０Ｂと、通信部３０Ｂとを有している。

制御部１０Ｂは、深層学習部１４を有している。本実施形態では、深層学習部１４は、ソフトウェアにより構成され、深層学習装置１Ｂ内のプロセッサが所定のプログラムを実行することにより実現される。なお、深層学習部１４のうち少なくとも一部が、専用処理回路等のハードウェアにより構成されてもよい。

深層学習部１４は、学習データに基づいて深層学習を行い、対象項目の値を出力する学習済みモデルを構築する。学習済みモデルは、入力データセット生成部１３により生成された入力データセットと、複数の正常ヘルスケアデータの対象項目に係るデータとに基づいて深層学習を行うことにより構築される。入力データセットがニューラルネットワークの入力層に与えられ、対象項目に係るデータが教師データとして用いられる。

深層学習部１４は、好ましくは、構造適応型深層学習により学習済みモデルを構築する。これにより、最適な隠れニューロン数および層数を学習中に自動で求められるとともに、高い分類精度を有する学習済みモデルを構築することができる。

深層学習では、公知の手法を用いることが可能である。例えば、教師データ（対象項目に係るデータ）を用いない事前学習として、ディープ・ビリーフ・ネットワーク（ＤＢＮ）を構築する。ＤＢＮを構築した後、教師データを用いて出力層の信号を後方伝播（バックプロパゲーション）させて全体構造を学習させる（ｆｉｎｅ−ｔｕｎｉｎｇ）。これにより、対象項目の値を出力する学習済みモデルが構築される。

記憶部２０Ｂは、学習データＤＢ２１Ｂと、学習結果ＤＢ２２Ｂとを有する。この記憶部２０Ｂは、例えばハードディスク、半導体メモリ（ＳＳＤ等）から構成される。なお、学習データＤＢ２１Ｂおよび学習結果ＤＢ２２Ｂの少なくともいずれか一つが、深層学習装置１Ｂに通信可能に接続された外部サーバの記憶部（図示せず）に記憶されてもよい。

学習データＤＢ２１Ｂは、サーバ１Ａから受信した学習データ（入力データセットおよび対象項目の値）が蓄積されるデータベースである。本実施形態では、学習データＤＢ２１Ｂには、これから深層学習に用いられる学習データのほか、既に深層学習に用いられたデータも格納される。なお、これから深層学習に用いられる学習データのみが学習データＤＢ２１Ｂに格納されてもよい。

学習結果ＤＢ２２Ｂは、深層学習部１４による深層学習から得られた学習結果データが蓄積されるデータベースである。なお、学習結果データには、深層学習により蓄積された知識（ＩＦ−ＴＨＥＮルールなど）が含まれてもよい。

通信部３０Ｂは、深層学習装置１Ｂがサーバ１Ａとの間で情報を送受信するためのインターフェースである。

＜学習済みモデル＞
ここで、深層学習部１４により構築される学習済みモデルについて説明する。本実施形態に係る学習済みモデルは、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定される。

本実施形態に係る学習済みモデルは、複数の項目に係るデータを有するヘルスケアデータに基づいて、所定の対象項目の値を出力するよう、コンピュータを機能させるための学習済みモデルである。この学習済みモデルは、ヘルスケアデータから対象項目を除いたデータが与えられる入力層と、対象項目の推定値を出力する出力層と、入力層と前記出力層との間の少なくとも１層の中間層とを有し、出力層から出力される値が対象項目の値に等しくなるように深層学習によりパラメータが学習されたニューラルネットワークから構成されている。

本実施形態に係る学習済みモデルは、入力層に入力されたヘルスケアデータに対し、ニューラルネットワークにおける学習済みのパラメータに基づく演算を行い、出力層から対象項目の値（推定値）を出力するよう、コンピュータを機能させる。すなわち、コンピュータの演算装置（ＣＰＵ等）は、メモリに記憶された学習済みモデルからの指令に従って、ニューラルネットワークの入力層に入力されたヘルスケアデータに対し、ニューラルネットワークにおけるパラメータと活性化関数に基づく演算を行い、出力層から対象項目の推定値を出力するよう動作する。

なお、学習は、例えば構造適応型深層学習により行われる。構造適応型深層学習によれば、より高い精度で入力データの特徴を分類することができる。

＜ヘルスケアデータ分析システムの動作＞
次に、図６Ａおよび図６Ｂのフローチャートに沿って、上記の構成を有する情報処理システム１０００の処理動作の一例について説明する。

データセット取得部１１が、クライアント装置２から、複数のヘルスケアデータを含むデータセットを取得する（ステップＳ１１）。各ヘルスケアデータは、前述のように、複数の項目に係るデータを有する。

次に、データ分類部１２が、ステップＳ１１で取得された複数のヘルスケアデータを、複数の正常ヘルスケアデータと、複数の異常ヘルスケアデータとに分ける（ステップＳ１２）。なお、本ステップの処理は、所定数のヘルスケアデータが学習データＤＢ２１Ａに蓄積された場合に行うようにしてもよい。

次に、入力データセット生成部１３が、ステップＳ１２で分けられた複数の正常ヘルスケアデータから所定の対象項目に係るデータを除くことにより、ニューラルネットワークの入力層に与えるための入力データセットを生成する（ステップＳ１３）。

次に、深層学習部１４が、ステップＳ１３で生成された入力データセットと、複数の正常ヘルスケアデータの対象項目に係るデータとに基づいて構造適応型深層学習を行うことにより、対象項目の値を出力する学習済みモデルを構築する（ステップＳ１４）。なお、本ステップでは、構造適応型以外の深層学習により学習済みモデルを構築してもよい。

次に、ステップＳ１４で構築された学習済みモデルを検証する。具体的には、学習済みモデル検証部１６が、テスト用データセットに対する学習済みモデルの出力値の誤差が所定範囲内であるか否かを判定する（ステップＳ１５）。判定の結果、誤差が所定範囲内である場合（Ｓ１５：Ｙｅｓ）、ステップＳ１６に進む。一方、誤差が所定範囲内にない場合（Ｓ１５：Ｎｏ）、ステップＳ１１に戻って、新たな学習データに基づいて学習済みモデルを再構築する。

次に、分析部１５が、ステップＳ１４で構築された学習済みモデルに基づいて、ステップＳ１２で得られた複数の異常ヘルスケアデータの対象項目の値に影響を与えている項目を分析する。本分析は、以下のステップＳ１６〜ステップＳ２２により行われる。

まず、制御部１０Ａが、変数ｉを初期化する（ステップＳ１６）。ここでは、変数ｉを１とする。

次に、制御部１０Ａが、変数ｉが異常ヘルスケアデータの数Ｎよりも大きいか否かを判定する（ステップＳ１７）。判定の結果、変数ｉが異常ヘルスケアデータの数Ｎよりも大きくなければ（Ｓ１７：Ｎｏ）、ステップＳ１８に進み、変数ｉが異常ヘルスケアデータの数Ｎよりも大きければ（Ｓ１７：Ｙｅｓ）、ステップＳ２２に進む。

ステップＳ１８では、分析部１５が、図５（ａ）に示すように、ｉ番目の異常ヘルスケアデータから対象項目に係るデータを除いて得られた第１のデータ（入力データ）を学習済みモデルの入力層に与え、学習済みモデルの出力層から出力された推定データを取得する。

その後、分析部１５が、図５（ｂ）に示すように、ステップＳ１８で取得した推定データを学習済みモデルの出力層に与え、後方に信号伝播させて入力層から出力された第２のデータ（復元データ）を取得する（ステップＳ１９）。

ステップＳ１９の実行後、分析部１５が、第１のデータと第２のデータを比較することによって、対象項目に影響を与えている項目を抽出する（ステップＳ２０）。対象項目に影響を与えている項目の抽出は、例えば既述の方法により行う。その後、変数ｉをインクリメントし（ステップＳ２１）、ステップＳ１７に戻る。

全ての異常ヘルスケアデータについて、対象項目に影響を与えている項目を抽出した後（すなわち、Ｓ１７：Ｙｅｓの場合）、分析部１５が、対象項目の値に係る所定の階級ごとに、ステップＳ２０で抽出された項目を集計する（ステップＳ２２）。階級については、例えば、ヘルスケアデータに含まれる年齢（実年齢）と、推定データが示す年齢（推定年齢）との差（年齢差）を階級とする。なお、年齢差を階級とする場合に限られず、式（３）により求められるエネルギー差を階級としてもよい。

情報処理システム１０００の処理動作は上記フローチャートの例に限られない。例えば、上記の例ではニューラルネットワークの入力層に一つの異常ヘルスケアデータに基づくデータを与えた。これに限られず、任意の数の異常ヘルスケアデータに基づくデータ（すなわち、異常ヘルスケアデータから対象項目に係るデータを除いたデータ）を結合して一つの入力データとし、これを入力層に与えてもよい。

一般財団法人広島県環境保健協会の健康診断データをビッグデータとして用いて、ヘルスケアデータ分析システム１により、年齢に影響を与えている検査項目を分析した実施例について以下に説明する。

図７は、本実施例において用いたデータセットの概要（ヘルスケアデータの種類とサンプル数）を示している。ヘルスケアデータは２０１５年までのもの（サンプル数９０，４９８）と、２０１６年のもの（サンプル数２０，０２９）の２種類がある。２０１５年までのヘルスケアデータのうち、正常ヘルスケアデータ（２０１５−Ｎ）のサンプル数は６０，１１１であり、異常ヘルスケアデータ（２０１５−Ａ）のサンプル数は３０，３８７である。また、２０１６年のヘルスケアデータのうち、正常ヘルスケアデータ（２０１６−Ｎ）のサンプル数は１５，０２５であり、異常ヘルスケアデータ（２０１６−Ａ）のサンプル数は５，００４である。

なお、本実施例では、異常項目が１つ以上のヘルスケアデータを異常ヘルスケアデータとし、異常項目が全く無いヘルスケアデータを正常ヘルスケアデータとした。

図８は、ヘルスケアデータのフォーマットを示している。項目は全部で３４個ある。このうち、年齢を推定対象の項目（すなわち、対象項目）とした。

正常ヘルスケアデータ（２０１５−Ｎ）から年齢を除いたデータを入力データとし、除いた年齢は教師データとして用いた。ニューラルネットワークの出力層から出力される年齢（推定年齢）と、正常ヘルスケアデータの年齢（実年齢）との誤差が小さくなるように深層学習を行った。

学習済みモデルの構築後、正常ヘルスケアデータ（２０１６−Ｎ）をテストデータとして用いて学習済みモデルの検証を行った。その結果、図９に示すように、９５．５％のテストデータで実年齢と推定年齢との誤差が±０であった（すなわち、完全に一致した）。また、９９．７％のテストデータで誤差は±５以下であった。一方、３種類の異常ヘルスケアデータを学習済みモデルに与えた場合、９．７％〜１１．３％の異常ヘルスケアデータについては誤差が±０であり、半分弱（４６．０％〜４８．５％）の異常ヘルスケアデータについては誤差が±５以下であった。

このように、本実施例で構築された学習済みモデルは、正常ヘルスケアデータについては９５％以上の精度で年齢を±０で推定でき、一方、異常ヘルスケアデータについては推定誤差が大きい。これは、前述のように、学習済みモデルが正常ヘルスケアデータに基づいて形成されていることに起因する。

なお、図９中、かっこ内の値はエネルギー差を示している。エネルギー差は、一般的には、複数のヘルスケアデータの平均値を入力層に与えたときのエネルギーと、ある（対象の）ヘルスケアデータを与えたときのエネルギーの差のことである。

図１０は、年齢差とエネルギー差との関係を示している。ここでのエネルギー差は、複数の正常ヘルスケアデータの平均値を入力層に与えたときのエネルギーと、ある（対象の）異常ヘルスケアデータを与えたときのエネルギーとの差である。

図１０から、年齢差が大きくなるにつれてエネルギー差も大きくなる傾向が見られる。より詳しくは、年齢差が３０付近まで、エネルギー差は対数関数のような形状で増加する。それ以上の年齢差については、エネルギー差はほとんど変化しない。エネルギー差の最大値は２１０であり、年齢差の最大値は５２であった。

図１１は、図１０の分布において、所定の階級幅で区分されたエネルギー差ごとの、異常ヘルスケアデータの分布等を示している。より詳しくは、各階級に含まれる年齢差の範囲、異常ヘルスケアデータの割合、異常項目数の平均値を示している。この結果から、エネルギー差および年齢差が増加するにつれて、異常項目数も増加することが分かった。

図１２は、図１１と同じ階級ごとに、年齢差に影響を与えている項目（すなわち、分析部１５により抽出された項目）のうち上位１０項目を頻度の高い順に示したものである。この分析結果によれば、エネルギー差が０−４９の階級では、ＢＭＩ（ボディマス指数）が異常なヘルスケアデータが１０．２％存在した（すなわち、年齢に最も影響を与えている項目としてＢＭＩが抽出されたものの割合が１０．２％であった）。当該階級では、ＴＧ（中性脂肪）が異常なヘルスケアデータが１０．１％存在し、ＤＢＰ（拡張期血圧）が異常なヘルスケアデータが８．３％存在した。

生命保険会社による健康年齢の計算では、入力すべき検査項目として、ＢＭＩ、収縮期血圧（ＳＢＰ）、拡張期血圧（ＤＢＰ）、尿蛋白、ＨＤＬコレステロール、中性脂肪、ＧＯＴ、γ−ＧＴＰ、ＨｂＡ１ｃ等の項目が挙げられている。これに対し、図１２の分析結果では、各階級によって順位は異なるものの、これらの項目が全て含まれており、さらに赤血球数が含まれることが分かった。このように、本実施形態に係るヘルスケアデータ分析システムによれば、従来年齢に影響を与えると認識されていなかった項目を影響因子として抽出することができる。

また、赤血球数が年齢に影響を与えていることは、使用したデータの地域特有の傾向を示している可能性がある。

図１３は、異常ヘルスケアデータ（２０１５−Ａおよび２０１６−Ａ）について異常項目の値を正常値に変更した場合における、ヘルスケアデータの割合を年齢差ごとに示している。この結果から、正常値に変更する異常項目の数が多くなるにつれて、年齢差およびエネルギー差が小さくなることが分かった。

さらに、非特許文献３で提案されている知識獲得手法を用いて、正常ヘルスケアデータと異常ヘルスケアデータをそれぞれ学習済みモデルに与えたとき、入力層から出力層に至るニューラルネットワークの信号伝播パターンを調査した。

図１４は、学習済みのニューラルネットワークを伝播する信号のパスを示している。図１４（ａ）は正常ヘルスケアデータ（２０１６−Ｎ）を与えたときの信号パターンであり、図１４（ｂ）は異常ヘルスケアデータ（２０１６−Ａ）を与えたときの信号パターンである。ニューラルネットワークは、図１４（ａ），（ｂ）に示すように、入力層、出力層、および４つの中間層１〜中間層４から構成されている。図１４（ａ），（ｂ）中、ニューロンを示す丸印内の数字はニューロンの識別番号である。また、パスを示す線の太さは、パスを通過するデータ数が多くなるにつれて太くなるように示している。

図１４（ａ）に示すように、学習済みモデルに正常ヘルスケアデータを与えた場合は、中間層１の２２１番目および２８１番目のニューロンへのパスが太くなっている。一方、図１４（ｂ）に示すように、学習済みモデルに異常ヘルスケアデータを与えた場合は、中間層１の３０番目および４３２番目のニューロンへのパスが太くなっている。このように、正常ヘルスケアデータを与える場合と、異常ヘルスケアデータを与える場合とで、全く異なる信号パターンとなっている。中間層２以降も同様であり、出力層では、正常ヘルスケアデータを与えた場合は１２８番目のニューロンへのパスが太くなっており、異常ヘルスケアデータを与えた場合は４４番目のニューロンへのパスが太くなっている。このような信号パターンの違いに起因して、実年齢と推定年齢との差が生じたものと考えられる。

以上説明したように、第１の実施形態では、複数の正常ヘルスケアデータを学習データとして深層学習を行うことにより、対象項目の値を出力する学習済みモデルを構築し、構築された学習済みモデルに基づいて異常ヘルスケアデータにおいて対象項目の値に影響を与えている項目を分析する。

これにより、第１の実施形態によれば、対象項目の値に影響を与える項目を高い精度で抽出することができる。その結果、例えば、被験者や患者等のユーザ自身が健康管理に使用可能な、エビデンスに基づく新しい指標であって、健康状態を数値的に示す新しい指標（本実施形態では推定年齢）を提供することができるようになる。また、得られた分析結果をＥＢＭ（ＥｖｉｄｅｎｃｅＢａｓｅｄＭｅｄｉｃｉｎｅ）として利用することができる。

さらに、本実施形態では、単純な統計手法によるデータ分析ではなく、正常ヘルスケアデータに基づいて学習された学習済みモデルを用いてヘルスケアデータの分析を行うため、本実施形態によれば、医師が被験者や患者の健康状態を判断する際にも使用可能な新しい医学的知識の発見を促すこともできる。

（第２の実施形態）
次に、図１５を参照して、第２の実施形態に係る情報処理システム２０００の概略的な構成について説明する。

本実施形態に係る情報処理システム２０００は、ユーザが入力したヘルスケアデータに基づいて推定された対象項目の値を提示するための情報処理システムであり、図１５に示すように、少なくとも１台のクライアント装置（ユーザ端末）３と、サーバ４とを備える。

クライアント装置３は、インターネット等の通信ネットワークを介してサーバ４に接続されている。クライアント装置３は、例えば、パソコン、スマートフォン、タブレット端末等である。

サーバ４は、第１の実施形態で説明したヘルスケアデータ分析システム１により得られた学習済みモデルを有している。サーバ４は、クライアント装置３から受信したヘルスケアデータを当該学習済みモデルに与え、年齢等の対象項目に係る推定値をクライアント装置３に送信する。

図１６を参照して、クライアント装置３について詳しく説明する。

クライアント装置３は、図１６に示すように、制御部３０と、記憶部４０と、通信部５０と、操作入力部６０と、表示部７０とを備えている。

制御部３０は、ヘルスケアデータ取得部３１と、推定値取得部３２と、表示制御部３３とを有している。

ヘルスケアデータ取得部３１は、複数の項目に係るデータを有するヘルスケアデータを取得する。例えば、ヘルスケアデータ取得部３１は、クライアント装置３のユーザが操作入力部６０を介して入力したヘルスケアデータを取得する。

推定値取得部３２は、ヘルスケアデータ取得部３１により取得されたヘルスケアデータの所定の対象項目の推定値を取得する。この推定値は、ヘルスケアデータ取得部３１により取得されたヘルスケアデータから対象項目に係るデータを除いた入力データを、深層学習装置１Ｂにより構築された学習済みモデルの入力層に与え、当該学習済みモデルの出力層から出力される値である。

表示制御部３３は、推定値取得部３２により取得された、対象項目の推定値を表示部７０に表示させる。なお、表示制御部３３は、クライアント装置３に通信可能に接続された外部の表示部（図示せず）に推定値を表示させてもよい。

制御部３０の各部は、本実施形態ではソフトウェア（アプリ、Ｗｅｂアプリケーション等）により構成され、クライアント装置３内のプロセッサが所定のプログラムを実行することにより実現される。また、制御部３０の各部のうち少なくとも一つが、専用処理回路等のハードウェアにより構成されてもよい。

記憶部４０は、取得されたヘルスケアデータ、制御部３０で実行されるプログラム等が記憶される。この記憶部４０は、例えばハードディスク、半導体メモリ（ＳＳＤ等）から構成される。

通信部５０は、クライアント装置３がインターネットを介してサーバ４との間で情報を送受信するためのインターフェースである。

操作入力部６０は、ユーザがクライアント装置３に情報を入力するためのインターフェースであり、例えば、キーボード、マウス、タッチパネル、ボタン、マイク等である。

表示部７０は、例えば液晶ディスプレイ、有機ＥＬディスプレイである。表示部７０は、クライアント装置３のユーザからの操作を受け付けるためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）など、様々な情報を表示する。より具体的には、表示部７０は、ヘルスケアデータの入力画面や、対象項目の推定値を含む出力画面を表示する。なお、操作入力部６０がタッチパネルの場合には、操作入力部６０が表示部７０を兼ねてもよい。

次に、図１７を参照して、サーバ４について詳しく説明する。

サーバ４は、制御部８０と、記憶部９０と、通信部１００とを有している。

制御部８０は、再構築部８１と、推定部８２とを有している。再構築部８１は、記憶部９０に格納された学習結果データに基づいてニューラルネットワークを再構築する。推定部８２は、再構築されたニューラルネットワーク（学習済みモデル）の入力層に、クライアント装置３から受信したヘルスケアデータのうち対象項目に係るデータを除いたものを与え、対象項目の推定値を取得する。

制御部８０の各部は、本実施形態ではソフトウェアにより構成され、サーバ４内のプロセッサが所定のプログラムを実行することにより実現される。また、制御部８０の各部のうち少なくとも一つが、専用処理回路等のハードウェアにより構成されてもよい。

記憶部９０は、学習結果データが格納された学習結果ＤＢ９１を有する。この記憶部９０は、例えばハードディスク、半導体メモリ（ＳＳＤ等）から構成される
通信部１００は、サーバ４がインターネットを介して少なくとも１台のクライアント装置３との間で情報を送受信するためのインターフェースである。

なお、サーバ４は、第１の実施形態のサーバ１Ａで構成されてもよい。すなわち、サーバ１Ａは、クライアント装置３に接続され、サーバ４の処理動作を行ってもよい。

＜ヘルスケアデータ分析システムの動作＞
次に、図１８のフローチャートに沿って、上記の構成を有する情報処理システム２０００の処理動作の一例について説明する。

クライアント装置３の表示部７０が、ヘルスケアデータの入力画面を表示する（ステップＳ３１）。図１９は、入力画面の一例を示している。この入力画面には、各項目の値を入力するためのフィールドと、開始ボタンＢが含まれる。

次に、クライアント装置３のヘルスケアデータ取得部３１が、ヘルスケアデータを取得する（ステップＳ３２）。より詳しくは、ヘルスケアデータ取得部３１は、クライアント装置３のユーザが入力した各項目のデータを取得する。なお、このような形態に限られず、例えば、ユーザが健康診断結果等の電子ファイルを選択し、ヘルスケアデータ取得部３１は、当該電子ファイルからヘルスケアデータを読み込んでもよい。

次に、クライアント装置３の制御部３０が、開始ボタンＢが選択されたか否かを判定する（ステップＳ３３）。開始ボタンＢが選択された場合（Ｓ３３：Ｙｅｓ）、制御部３０は、通信部５０を介してヘルスケアデータをサーバ４に送信する。なお、未入力の項目がある場合、表示部７０はエラーメッセージを表示してもよい。

クライアント装置３からヘルスケアデータを受信すると、サーバ４の推定部８２が、受信したヘルスケアデータから所定の対象項目（ここでは年齢）を除いた入力データを学習済みモデルの入力層に与える（ステップＳ４１）。

次に、サーバ４の制御部８０が、学習済みモデルの出力層から出力される対象項目の推定値（ここでは、推定年齢）を、通信部１００を介してクライアント装置３に送信する（ステップＳ４２）。

その後、クライアント装置３の推定値取得部３２が、サーバ４から送信された対象項目の推定値を取得する（ステップＳ３４）。

次に、クライアント装置３の表示部７０が、対象項目の推定値を表示する（ステップＳ３５）。本ステップは、表示制御部３３が、表示部７０が対象項目の推定値を表示するように制御することにより実現される。

図２０は、出力画面の一例を示している。この例では、実年齢（あなたの年齢）および推定年齢が表示されている。図２０に示すように、コメント（異常項目名、アドバイス事項など）を表示してもよい。また、年齢差とエネルギー差との関係を示すグラフを表示してもよい。

以上説明した第２の実施形態によれば、学習済みモデルに基づいて対象項目の推定値をユーザに提供することができる。これにより、ユーザは、対象項目の推定値（推定年齢等）を指標として、健康状態を容易に把握することができる。その結果、例えば、専門的知識を持たない人（患者、専門医でないかかりつけ医等）でも容易に健康状態を把握することができるようになる。また、異常傾向にあることを早い段階で知ることができるようになる。

なお、第２の実施形態では、サーバ４が学習済みモデルを有していたが、クライアント装置３が学習済みモデルを有してもよい。この場合、例えば、学習結果データがクライアント装置３にダウンロードされ、ヘルスケアデータを学習済みモデルに与えることにより、対象項目の推定値が取得される。

上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。

第１および第２の実施形態で説明した情報処理システムの少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理システムの少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ−ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。

また、本発明に係る情報処理システムの少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

１０００，２０００情報処理システム
１ヘルスケアデータ分析システム
１Ａサーバ
１Ｂ深層学習装置
２，３クライアント装置
４サーバ
１０Ａ，１０Ｂ，３０，８０制御部
１１データセット取得部
１２データ分類部
１３入力データセット生成部
１４深層学習部
１５分析部
１６学習済みモデル検証部
２１Ａ，２１Ｂ学習データＤＢ
２２Ａ，２２Ｂ学習結果ＤＢ
３１ヘルスケアデータ取得部
３２推定値取得部
３３表示制御部
２０Ａ，２０Ｂ，４０，９０記憶部
３０Ａ，３０Ｂ，５０，１００通信部
６０操作入力部
７０表示部
８１再構築部
８２推定部
Ｂ開始ボタン

Claims

複数の正常ヘルスケアデータの各々から所定の対象項目に係るデータを除いて得られる入力データセットと、前記複数の正常ヘルスケアデータの前記対象項目に係るデータとに基づいて深層学習を行うことにより、前記対象項目の値を出力する学習済みモデルを構築する深層学習部と、
前記学習済みモデルに基づいて、複数の異常ヘルスケアデータの前記対象項目の値に影響を与えている項目を分析する分析部と、
を備えることを特徴とするヘルスケアデータ分析システム。
前記分析部は、
少なくとも一つの前記異常ヘルスケアデータから前記対象項目に係るデータを除いて得られた第１のデータを前記学習済みモデルの入力層に与え、前記学習済みモデルの出力層から出力された出力データを取得し、
前記出力データを前記出力層に与え、後方に信号伝播させて前記入力層から出力された第２のデータを取得し、
前記第１のデータと前記第２のデータとを比較することによって、前記対象項目に影響を与えている項目を抽出することを特徴とする請求項１に記載のヘルスケアデータ分析システム。
前記分析部は、前記対象項目の値に係る所定の階級ごとに、前記抽出された項目を集計することを特徴とする請求項２に記載のヘルスケアデータ分析システム。
前記対象項目は年齢であることを特徴とする請求項１〜３のいずれかに記載のヘルスケアデータ分析システム。
前記深層学習部は、構造適応型深層学習を行って前記学習済みモデルを構築することを特徴とする請求項１〜４のいずれかに記載のヘルスケアデータ分析システム。
深層学習部が、複数の正常ヘルスケアデータの各々から所定の対象項目に係るデータを除いて得られる入力データセットと、前記複数の正常ヘルスケアデータの前記対象項目に係るデータとに基づいて深層学習を行うことにより、前記対象項目の値を出力する学習済みモデルを構築するステップと、
分析部が、前記学習済みモデルに基づいて、複数の異常ヘルスケアデータの前記対象項目の値に影響を与えている項目を分析するステップと、
を備えることを特徴とするヘルスケアデータ分析方法。
コンピュータを、
複数の正常ヘルスケアデータの各々から所定の対象項目に係るデータを除いて得られる入力データセットと、前記複数の正常ヘルスケアデータの前記対象項目に係るデータとに基づいて深層学習を行うことにより、前記対象項目の値を出力する学習済みモデルを構築する深層学習手段、および
前記学習済みモデルに基づいて、複数の異常ヘルスケアデータの前記対象項目の値に影響を与えている項目を分析する分析手段
として機能させるためのヘルスケアデータ分析プログラム。
通信可能に接続された複数のコンピュータによって、請求項１〜５のいずれかに記載のヘルスケアデータ分析システムを機能させるために、
前記複数のコンピュータのうちの一つを請求項１〜５のいずれかに記載のヘルスケアデータ分析システムにおける各部の少なくとも１つとして機能させるための情報処理プログラム。
複数の項目に係るデータを有するヘルスケアデータに基づいて、所定の対象項目の値を出力するよう、コンピュータを機能させるための学習済みモデルであって、
前記ヘルスケアデータから前記対象項目を除いたデータが与えられる入力層と、前記対象項目の推定値を出力する出力層と、前記入力層と前記出力層との間の少なくとも１層の中間層とを有し、前記出力層から出力される値が前記対象項目の値に等しくなるように深層学習によりパラメータが学習されたニューラルネットワークから構成され、
前記入力層に入力されたヘルスケアデータに対し、前記ニューラルネットワークにおける学習済みの前記パラメータに基づく演算を行い、前記出力層から前記対象項目の値を出力するよう、コンピュータを機能させるための学習済みモデル。
複数の項目に係るデータを有するヘルスケアデータを取得するヘルスケアデータ取得部と、
所定の対象項目の推定値を取得する推定値取得部と、
前記対象項目の推定値を表示部に表示させる表示制御部と、
を備え、
前記推定値は、前記ヘルスケアデータから前記対象項目に係るデータを除いた入力データを、前記対象項目の値を出力する学習済みモデルの入力層に与え、前記学習済みモデルの出力層から出力される値であることを特徴とする情報処理装置。
前記対象項目は年齢であることを特徴とする請求項１０に記載の情報処理装置。
ヘルスケアデータ取得部が、複数の項目に係るデータを有するヘルスケアデータを取得するステップと、
推定値取得部が、所定の対象項目の推定値を取得するステップと、
表示制御部が、前記対象項目の推定値を表示部に表示させるステップと、
を備え、
前記推定値は、前記ヘルスケアデータから前記対象項目に係るデータを除いた入力データを、前記対象項目の値を出力する学習済みモデルの入力層に与え、前記学習済みモデルの出力層から出力される値であることを特徴とする情報処理方法。
コンピュータを、
複数の項目に係るデータを有するヘルスケアデータを取得するヘルスケアデータ取得手段、
所定の対象項目の推定値を取得する推定値取得手段、および
前記対象項目の推定値を表示部に表示させる表示制御手段、
として機能させる情報処理プログラムであって、
前記推定値は、前記ヘルスケアデータから前記対象項目に係るデータを除いた入力データを、前記対象項目の値を出力する学習済みモデルの入力層に与え、前記学習済みモデルの出力層から出力される値である、情報処理プログラム。