JP7027359B2

JP7027359B2 - ヘルスケアデータ分析装置及びヘルスケアデータ分析方法

Info

Publication number: JP7027359B2
Application number: JP2019028897A
Authority: JP
Inventors: 利昇三好; 泰隆長谷川; 俊太郎由井; 高伸大崎; 秀行伴
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2022-03-01
Anticipated expiration: 2039-02-20
Also published as: JP2020135489A

Description

本発明は、ヘルスケアデータを分析するヘルスケアデータ分析システムに関し、特に疾病の予防を支援する技術に関する。

疾病の予防を支援する方法として、特許文献１には、レセプト情報、健診情報、及び保健指導情報に基づいて、保健指導対象者を選択する保険事業支援システムであって、健康保険加入者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する健康保険加入者を保健指導対象者として選択する対象者選択部と、を備える保険事業支援システムが記載されている。

特開２０１２－１２８６７０号公報

将来の疾病リスクを低減するためには、将来の疾病リスクを分析し、リスク低減効果によって予防施策を比較し評価する必要がある。検査値の値や、年齢、身長、体重等の基本情報、生活習慣などの属性によって、疾病発症のリスクが変動することが知られており、診療行為の情報（例えばレセプト情報）や検査結果を含むヘルスケアデータを用いた機械学習によって予測モデルを構築する方法が考えられる。しかし、将来、検査値が大きく悪化する人や、実際に疾病を発症する人の割合は全体からみると少ない場合があり、大多数の人の傾向に合わせて予測モデルを学習する従来の機械学習技術では、低確率で発生する検査値の悪化や疾病のリスクを分析するためのモデル構築が難しいという問題があった。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、ヘルスケアデータ分析装置であって、所定の処理を実行する演算装置と、前記演算装置に接続された記憶デバイスとを有する計算機によって構成され、入力されたヘルスケアデータの少なくとも１項目のデータを用いて、各データに類似するＮ個のデータの集合を生成し、前記生成された集合内で、他の１項目のヘルスケアデータが大きい又は小さい方から所定割合に位置する値を目的変数とするリスク分析用データを生成する上位リスク値算出部と、前記入力されたヘルスケアデータの一部又は全部を説明変数とし、前記リスク分析用データに含まれる目的変数を予測するリスク予測モデルを、これらのデータの学習によって生成するリスク予測モデル生成部と、前記リスク予測モデルに前記ヘルスケアデータを入力して、前記目的変数によって表されるリスクを予測するリスク予測部とを備えることを特徴とする。

本発明の一態様によれば、低確率で発生する疾病リスクを分析できる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。

疾病予防支援装置の構成例を示すブロック図である。基本情報の構成例を示す図である。検査値情報の構成例を示す図である。受診情報の構成例を示す図である。分析用説明変数生成用データの構成例を示す図である。目的変数生成用データの構成例を示す図である。分析用目的変数データの構成例を示す図である。予測分析対象説明変数生成用データの構成例を示す図である。リスク分析用目的変数の構成例を示す図である。リスク分析処理の流れを示す図である。リスク分析処理における応用例を示す図である。リスク分析処理における応用例を示す図である。リスク分析処理における応用例を示す図である。リスク分析処理における応用例を示す図である。リスク分析処理における応用例を示す図である。リスク分析処理における応用例を示す図である。二次元空間上のデータ点の分類を示す図である。二次元空間上のデータ点の分類（単位変更後分類）を示す図である。二次元空間上のデータ点の分類（バランス分類）を示す図である。ユークリッド距離による類似尺度を示す図である。マハラノビス距離による類似尺度を示す図である。リスク予測モデル生成処理を説明するための模式図である。リスク予測モデル生成処理を説明するための模式図である。類似集合を算出する方法を示す図である。

本発明の実施例では、ヘルスケアデータを分析するヘルスケアデータ分析システムの一例である疾病予防支援装置を説明する。

将来の疾病リスクを低減するためには、将来の疾病リスクを分析し、リスク低減効果によって予防施策を比較し評価する必要がある。検査値の値や、年齢、身長、体重等の基本情報、生活習慣などの属性によって、疾病発症のリスクが変動することが知られており、診療行為の情報（例えばレセプト情報）や健診情報を含むヘルスケアデータを用いた機械学習によって予測モデルを構築する方法が考えられる。しかし、将来、検査値が大きく悪化する人や、実際に疾病を発症する人の割合は全体からみると少ない場合があり、大多数の人の傾向に合わせて予測モデルを学習する従来の機械学習技術では、低確率で発生する検査値の悪化や疾病のリスクを分析するためのモデル構築が難しい場合がある。

例えば、ＨｂＡ１ｃの値が糖尿病リスクに関連するという医学的知見を用いて、ＨｂＡ１ｃの経年変化量から糖尿病リスクを予測する方法が考えられる。しかし、大多数のデータはＨｂＡ１ｃの経年変化量が小さく、ＨｂＡ１ｃの経年変化量が大きいデータは少数である。機械学習では多くのデータに良く適合する予測モデルを学習するため、ＨｂＡ１ｃの経年変化量が大きい少数のデータの傾向に基づいた糖尿病のリスク予測が困難である。

しかし、いくら少数とはいえ、例えば、１０万人の母集団の数％である数千人のデータの傾向を分析し、母集団の平均的傾向とは異なるリスクモデルを人手で構築する作業は困難であり、機械学習のように大量のデータを処理するための手法を用いる必要がある。

そこで、本実施例では、母集団のうちリスクの高い少数のデータの特徴を学習することによって、低確率で発生する疾病のリスクを分析する疾病予防支援装置について説明する。

以下の実施例では、疾病リスクを分析し、疾病の予防を支援するシステムについて説明する。なお、本実施例で例示するデータは、実際の個人のデータではなく、本発明の方法を説明する目的で作成した仮想的なデータである。

図１は、本実施例の疾病予防支援装置１０１の構成例を示すブロック図である。

本実施例の疾病予防支援装置１０１は、入力装置１０２、表示装置１０３、通信装置１０４、演算装置１０５、メモリ１０６、及び補助記憶装置１０７を含む計算機によって構成される。

入力装置１０２は、ユーザからのコマンド等の入力を受け付ける、例えば、キーボードや、マウスや、タッチパネル等である。入力装置１０２は、演算装置１０５が実行するプログラムの制御、及び疾病予防支援装置１０１に接続された機器の制御のために実行されるコマンド等の入力を受け付ける。

表示装置１０３は、液晶表示装置やＣＲＴなどで構成されるディスプレイ装置である。通信装置１０４は、例えば、所定のプロトコルに従って、疾病予防支援装置１０１による処理内容を外部機器に送信したり、外部機器から情報を受信したりする。

演算装置１０５は、プロセッサを含み、メモリ１０６に格納されたプログラムを実行する。メモリ１０６は、不揮発性の記憶素子であるＲＯＭ及び不揮発性の記憶素子であるＲＡＭを含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ）などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、演算装置１０５が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置１０７は、例えば、磁気記憶装置（ＨＤＤ）、フラッシュメモリ（ＳＳＤ）等で構成される大容量かつ不揮発性の記憶装置であり、演算装置１０５が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。例えば、補助記憶装置１０７は、分析用データ１１０を保持する。すなわち、プログラムは、補助記憶装置１０７から読み出されて、メモリ１０６にロードされて、演算装置１０５によって実行される。

演算装置１０５が実行するプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワークを介して疾病予防支援装置１０１に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１０７に格納される。このため、疾病予防支援装置１０１は、リムーバブルメディアからデータを読み込むインタフェースを有するとよい。

疾病予防支援装置１０１は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで処理してもよく、複数の物理的計算機資源上に構築された仮想計算機上で処理してもよい。

なお、演算装置１０５がプログラムを実行して行う処理の一部を、他の演算装置（例えば、ＦＰＧＡ（Field Programable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェア）で実行してもよい。

演算装置１０５は、メモリ１０６にロードされたリスク分析処理プログラムに従って処理を実行することで、リスク分析処理部１０８として機能する。

次に、分析用データ１１０の例について説明する。まず、人の年齢、性別などの基本情報、各種検査値、および投薬情報などの受診情報等を予め収集する。図２Ａ、図２Ｂ、図２Ｃは、それぞれ、基本情報２０１、検査値情報２０２、受診情報２０３の構成例を示す図である。

図２Ａに示すように、基本情報２０１は、個人の性別、年齢、所属など、各人の属性を示すプロファイルデータを記録する。ＩＤは、個人に一意に割り当てられた数字等の文字列である。記録年は、当該情報が記録された年である。基本情報２０１は、例えば、年齢、性別ごとにリスクを分析したり、予防施策を策定したりするために用いられる。基本情報２０１に示すように、所属ごとにリスクを分析する場合や、所属ごとに予防施策を策定する場合などには、企業などの組織内での所属の情報を含んでもよい。また、目的に応じて他の属性情報を含んでもよい。さらに、既往歴など、問診等で得られる情報を含んでもよい。

図２Ｂに示すように、検査値情報２０２は、個人の身長、体重、血液検査の結果など、各種検査値を記録する。特に、本実施例では、脂質異常症、高血圧症、糖尿病など、分析対象となる疾病に関連する検査値などを記録するとよい。例えば、ＨｂＡ１ｃは、血糖状態を示す指標である。これらの検査値は、例えば、毎年実施される健康診断などで測定された値を用いるとよい。

図２Ｃに示すように、受診情報２０３は、個人の医療機関での受診状況などを記録する。受診情報２０３は、例えば、レセプトに含まれる情報から生成できる。レセプトは、各個人が医療機関を受診した傷病名、診療行為、処方された医薬品などの情報を含む。受診情報２０３に記録される値は、各人が当該記録年に、該当する傷病名の診断、医薬品の処方、診療行為を受けた場合には１、受けていない場合には０を記録している。例えば、図２Ｃに示す例では、ＩＤが１３８１２の人が２０１２年に糖尿病経口薬Ａの処方を受けたことを示している。なお、図２Ｃに示した糖尿病経口薬Ａ、糖尿病経口薬Ｂ、傷病名Ａ等の項目は、レセプト等に記載される特定の傷病名、医薬品、医療行為名でもよいし、複数の傷病名、医薬品、医療行為をまとめたものでもよい。例えば、糖尿病経口薬Ａは、２つの医薬品ＸとＹをまとめたものであるとすると、いずれかの医薬品の処方を受けた場合は１、いずれも受けていない場合には０を記録する。これらは、分析の目的に応じて分類を定義しておく。図２Ｃでは、０と１の二値で示すが、診断、処方、医療行為を受けた回数を記録してもよい。また、当該治療行為にかかる推定医療費等を記録してもよい。

基本情報２０１、検査値情報２０２及び受診情報２０３は、予め各人に割り当てられたＩＤで関連付けられる。また、図２Ａから図２Ｃに示す例では、２０１２年のデータのみを示したが、複数年分のデータが保持される。

これらのデータをＩＤで突合し、分析用データを作成する。図３Ａに例示する分析用説明変数生成用データ３０１は、基本情報２０１、検査値情報２０２及び受診情報２０３を突合して作成される。また、同様にして、図３Ｂに例示する目的変数生成用データ３０２に示すように、２０１６年のデータも作成できる。

本実施例の疾病予防支援装置１０１は、疾病リスクを分析するために、疾病リスクの指標となる値を目的変数として用いる。糖尿病の場合には、その指標としてＨｂＡ１ｃの変化量を用いる。図３Ｃに例示する分析用目的変数データ３０３は、ＨｂＡ１ｃの変化量として、２０１６年のＨｂＡ１ｃと２０１２年のＨｂＡ１ｃの差分を記録している。ＨｂＡ１ｃは、血糖状態を示す指標の一つであり、ＨｂＡ１ｃが大きく増加すれば、糖尿病リスクが増大していることが推定される。また、高血圧症の場合には収縮期血圧値や拡張期血圧値を用い、脂質異常症の場合にはＬＤＬコレステロール値やＨＤＬコレステロール値を用い、肝機能の場合にはγ－ＧＴＰなどを用いてもよい。

糖尿病リスクを測る指標としてＨｂＡ１ｃの変化量の他の指標を用いてもよい。例えば、ＨｂＡ１ｃの変化量ではなく、２０１６年のＨｂＡ１ｃ値そのものを用いてもよく、空腹時血糖を用いてもよい。また、糖尿病経口薬の処方量、インスリンの処方量、又は糖尿病に関係する医療費などを用いてもよい。また、高血圧症、脂質異常症、肝機能などの他の疾病の場合にも同様に、疾病や分析したいリスクに応じて適切な指標を設定するとよい。

分析用説明変数生成用データ３０１に示す変数と、目的変数生成用データ３０２と、分析用目的変数データ３０３に示す目的変数とを含む分析用データを作成して、分析用データ１１０に保存する。

本実施例では、分析用説明変数生成用データ３０１に示す２０１２年の基本情報２０１、検査値情報２０２及び受診情報２０３から、分析用目的変数データ３０３に示す将来のＨｂＡ１ｃの変化量を予測することによって、疾病のリスクを分析する方法を説明する。

以下、図５を参照しながら、本発明のリスク分析処理１０８の処理の流れを説明する。

まず、図５Ａに示すように、分析用データＡ５０１は、分析用説明変数生成用データ３０１、目的変数生成用データ３０２、分析用目的変数データ３０３の一部又は全部のＩＤのデータを抽出して生成される。例えば、特定の年齢層、性別、所属などに限定して分析したい場合には、該当するデータを抽出する。また、分析の目的に応じて、項目の一部のみを用いてもよい。例えば、特定の疾病（例えば、糖尿病）に関連する項目のみを用いる、所属が不要の場合には所属は削除するなどとしてもよい。

次に、予測モデル生成処理５０２によって、分析用データＡ５０１から予測モデル５０３を生成する。予測モデル５０３には、生成された予測モデル５０３のパラメータの情報を記録する。

予測モデル生成処理５０２では、分析用説明変数生成用データ３０１の基本情報２０１、検査値情報２０２及び受診情報２０３の一部又は全部を説明変数として、分析用目的変数データ３０３のＨｂＡ１ｃ変化量を予測するモデルを、これらのデータを用いて学習する。モデルの学習には、公知の機械学習技術を用いることができる。

例えば、線形回帰モデルの場合には、説明変数をｘ１、ｘ２、…、ｘｎとして、目的変数をｙとすると、モデルは、ｙ＝α１ｘ１＋α２ｘ２＋…＋αｍｘｍで表され、パラメータα１、α２、…、αｍが生成される。このパラメータを予測モデル５０３として保存する。なお、このモデルには、多項式、ＳＶＲ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎ）、ニューラルネットワークなど、公知の技術を用いることができる。このようにして、予測モデル生成処理５０２では、説明変数ｘに基づいて目的変数ｙを予測する関数ｆ（ｘ）が生成され、その関数のパラメータが予測モデル５０３として記録される。通常は、ＳＶＲを用いるとよい。

図７Ａ、図７Ｂを用いて、予測モデル５０３について説明する。図７Ａ、図７Ｂは、予測モデル生成処理５０２を説明するための模式図である。実際には、より多くのデータを用いるとよい。以下では、疾病として糖尿病を想定し、指標としてＨｂＡ１ｃを用いるが、他の疾病及び指標の場合にも同様の処理が適用できる。

図７Ａ、図７Ｂは、その横軸７０１が分析用説明変数生成用データ３０１の２０１２年のＨｂＡ１ｃを表し、縦軸７０２が分析用目的変数データ３０３のＨｂＡ１ｃ変化量を表しており、各人の値をプロットした様子を示す散布図である。図では簡単化のために、一つの変数（２０１２年のＨｂＡ１ｃ）を用いて説明をするが、他の変数でも同様である。

図７Ａに示す例では、ＨｂＡ１ｃ（横軸）の値が線７０４を超えたあたりから、ＨｂＡ１ｃ変化量の増大リスクが大きくなっている。すなわち、線７０４の左側と比較し、線７０４の右側には、ＨｂＡ１ｃ変化量が大きい領域（楕円７０５）にデータ点の数が多い。本実施例の疾病予防支援装置１０１は、このような状況において、リスクの変化（ＨｂＡ１ｃの増加量の変化）の分析を目的の一つとする。

予測線７０３は、予測モデル生成処理５０２において作成されるＨｂＡ１ｃからＨｂＡ１ｃ変化量を予測する回帰曲線について説明するための例である。これは、４年後の平均的なＨｂＡ１ｃ変化量を予測するモデルと考えられる。例えば、この予測モデル５０３の入力として、図４Ａに示す予測分析対象説明変数生成用データ４０１の２０１７年のデータ用いて、４年後（２０２１年）の平均的なＨｂＡ１ｃ変化量を予測できる。

図７Ａでは、ＨｂＡ１ｃ値が線７０４を超えたあたりから、楕円７０５に示すようにＨｂＡ１ｃの増大リスクが大きくなっている。しかし、予測線７０３は、線７０４の前後で、大きな変化が見られない。

これについて説明する。図７Ａでは、ＨｂＡ１ｃ値が線７０４を超えても、大多数のデータ点が、ＨｂＡ１ｃ変化量が小さい楕円７０６の領域にあり、楕円７０５の領域にあるデータ点は少数である。機械学習では、多くのデータに良く適合する予測モデル５０３を学習する。そのため、楕円７０５にあるデータ点の数が、楕円７０６にあるデータ点の数に比べて少ない場合には、楕円７０５にあるデータの影響は小さくなり、予測線７０３に示すように、楕円７０５内のデータ点に示すリスクの増大を予測することは難しい。

図７Ａに示すように、検査値の値や属性（生活習慣など）によって、疾病発症のリスクが増大することがある。しかし、検査値が大きく悪化する人や、実際に疾病を発症する人の割合は全体からみると少ないという状況が、疾病リスクの解析において生じることがある。このように、大多数の人に対する予測モデル５０３を学習する従来の機械学習技術では、低確率で発生する疾病のリスクを分析するモデルの構築が困難である。

そこで、本実施例では、このような低確率で発生する疾病のリスクを分析する方法を提供する。図５Ａを参照して、本実施例の方法を説明する。

予測モデル生成処理５０２では、目的変数として分析用目的変数データ３０３の例のように、各人のＨｂＡ１ｃの変化量など、人ごとに算出される値を用いている。これに対して、本実施例では、分析用データＡ５０１から上位リスク値算出処理５０４によって、リスク分析用の新たな目的変数を生成し、生成されたリスク分析用目的変数（図４Ｂ参照）を用いることによって、少数派に対するリスク分析を可能とする。

以下では、上位リスク値算出処理５０４とリスク分析用データＡ５０５について説明する。上位リスク値算出処理５０４では、各人に対して、類似したＮ人の集合を生成し、その集合内で、ＨｂＡ１ｃ変化量が大きい上位Ｘ％に位置する値を上位リスク値として、リスク分析用データＡ５０５に記録する。なお、上位リスク値算出処理５０４では、分析用説明変数生成用データ３０１の一部の変数のみを説明変数として用いてもよいし、全ての変数を用いてもよい。

例えば、Ｎ＝１００、Ｘ＝５とした場合を説明する。上位リスク値算出処理５０４では、分析用説明変数生成用データ３０１のＩＤが２２８１３のデータと、２０１２年のＨｂＡ１ｃ値が近い１００件（Ｎ＝１００）のＩＤを抽出する。抽出された各ＩＤについて、分析用目的変数データ３０３のＨｂＡ１ｃ変化量が大きい順に、ｃ１、ｃ２、…、ｃ１００とする。このとき、上位５％（Ｘ＝５）に位置する値は、ｃ５となるため、その値をＩＤが２２８１３のＨｂＡ１ｃ上位変化量（上位リスク値）として、リスク分析用目的変数データ４０２（図４Ｂ）に記録する。他のＩＤについても、同様の処理を行い、リスク分析用目的変数データ４０２を生成する。なお、リスク分析用目的変数データ４０２の表では、式（ｃ５）で示したが、実際には算出された数値が記録される。なお、上位５％に位置する値ｃ５ではなく、上位Ｘ％の値の平均値（ｃ１＋ｃ２＋ｃ３＋ｃ４＋ｃ５）／５を用いるなど、上位Ｘ％を特徴づける他の値（上位Ｘ％の値の集合に基づいて算出される値）を用いてもよい。

リスク分析用データＡ５０５は、分析用説明変数生成用データ３０１と、上位リスク値算出処理５０４で生成されたリスク分析用目的変数データ４０２とを含む。

次に、リスク予測モデル生成処理５０６では、分析用説明変数生成用データ３０１の基本情報２０１、検査値情報２０２及び受診情報２０３の一部又は全部を説明変数とし、リスク分析用目的変数データ４０２のＨｂＡ１ｃ上位変化量を目的変数として予測するモデルを、これらのデータを用いて学習する。モデルの学習には、公知の機械学習技術を用いることができる。なお、予測モデル生成処理５０２で用いる方法と同じ方法を用いても、異なる方法を用いてもよい。また、リスク予測モデル生成処理５０６で用いる説明変数の集合は、上位リスク値算出処理５０４で用いる説明変数の集合と同じでも、異なってもよい。

リスク予測モデル生成処理５０６で生成したモデルのパラメータが、リスク予測モデル５０７として記録される。

図７Ａに示すリスク予測線７０７は、リスク予測モデル生成処理５０６で生成されるリスク予測モデルについて説明するための例である。リスク予測線７０７は、ＨｂＡ１ｃ変化量が上位となる値を目的変数としているため、予測線７０３のように、全体の平均的な値を予測するのではなく、楕円７０５の領域にある高リスク群のデータ分布を反映する。これによって、大多数の平均的な予測値ではなく、低確率で発生する検査値の大きな悪化や疾病リスクを分析できる。例えば、リスク予測線７０７のように、線７０４を超えた辺りから、楕円７０５内のデータ点のようなリスクの上昇を予測するモデルを生成できる。

なお、上位リスク値算出処理５０４では、各ＩＤの類似集合を生成し、そのＨｂＡ１ｃ変化量の上位Ｘ％を算出した。このＸの値は、分析したいリスクの発生確率と同じか、それに近い値を設定することによって、分析対象となるリスクの発生率に沿ったリスク予測線を生成しやすい。また、分析対象となる母集団の人数が大きく、Ｎが十分大きく取れる場合には、Ｘはリスク発生確率よりも小さい値に設定してもよい。糖尿病の場合には、Ｎが十分大きくとれる場合（Ｎが１００以上程度）、Ｘ＝５程度にするとよい。リスク発生確率が比較的大きい母集団の場合には、Ｘは１５以下程度で設定するとよい。

Ｘの値の算出例を説明する。例えば、２０１２年のＨｂＡ１ｃが特定の基準値（例えば、６．５）を超えるＩＤの割合をリスク発生確率Ｒとして、例えば、Ｘ＝Ｒと設定してもよい。また、別の方法として、受診情報（例えば、レセプト）には、傷病名が含まれている。レセプトに記載されている傷病名を用いて、全ＩＤのうち傷病名が糖尿病に関係する受診情報を含むＩＤの割合をリスク発生確率Ｒとして、例えば、Ｘ＝Ｒと設定してもよい。なお、どの傷病名が糖尿病に関係するかは、国際疾病分類（ＩＣＤ１０）などの傷病名の分類情報を用いてもよいし、予め人手で分類を作成してもよい。これらの割合は、組織や年齢など、分析対象となる母集団によって変わる。そのため、分析対象である分析用データＡ５０１のデータに基づいてＸの値を算出するとよい。Ｘの値として、上記ではＸ＝Ｒとしたが、Ｘ≦２Ｒとなる範囲を目安に選択、調整するとよい。

なお、上記では、本実施例の方法を説明するために、比較として、従来方法による予測モデルの構築方法を説明したが、図５Ｅに示すように、本発明の方法のみを実施する場合には、予測モデル生成処理５０２や予測モデル５０３はなくてもよい。

なお、ＨｂＡ１ｃは、値が増加すると糖尿病リスクが高くなる指標であるため、上位Ｘ％を算出した。検査値によっては、値が低くなることでリスクが高くなる指標の場合には、下位Ｘ％を算出するとよい。

このように、分析対象となるリスクの発生率に基づいて設定したＸを用いてリスク分析用目的変数データ４０２を生成し、リスク予測モデルを構築することによって、低確率で発生するリスクの変化を予測するリスク予測線７０７を生成できる。

ここまで説明を簡単にするために、説明変数がＨｂＡ１ｃの一つである場合を説明した。この場合、上位リスク値算出処理５０４において、各人に類似するＮ人の集合を生成するためには、ＨｂＡ１ｃ値が近いＮ人を選定する。説明変数が二つ以上の場合も同様に、説明変数の数の次元を有する説明変数空間におけるユークリッド距離（各変数の差分の自乗和の平方根）を用いてもよい。

しかし、本実施例で扱う説明変数は種類が異なるのため、各変数の単位を変更することによってユークリッド距離が変わる。また、分析したい対象（目的変数）に応じて、類似尺度も変更した方が良い場合がある。

例えば、図６Ａに示す分類６０１では、体重、身長の二次元空間上に、四つのデータ点が存在する状況を示している。これを、ユークリッド距離により、二つの集合に分類した場合、分類６０１のように左右二つの点同士が類似することになる。次に、身長の単位をｃｍからｍに変更すると、図６Ｂに示す単位変更後分類６０２のように、上下二つの点同士が類似することになる。このように、変数の種類が異なる場合には、単位の変更によって、類似尺度が変わってくる。また、糖尿病リスクは、ＢＭＩのように、身長と体重のバランスが関係しているため、糖尿病リスクを分析する場合には、身長と体重のバランスを考慮して、図６Ｃに示すバランス分類６０３のような斜め方向の点同士が類似していると判定できる類似尺度を用いるとよい。

そこで、以下では、説明変数が二次元以上の場合に、図８を用いて、ユークリッド距離とは異なる、目的変数の分析に適した方法で、説明変数空間内の類似集合を算出する方法を説明する。

バランス分類６０３（図６Ｃ）を用いて説明したように、類似集合を算出するための類似尺度を決める際には、分析対象となる疾病の進行度の指標となるリスク絶対指標（本実施例の場合には、例えば、ＨｂＡ１ｃの値）との関連性を考慮するのが望ましい。本実施例では、類似尺度として、マハラノビス距離を用いる。

説明変数空間におけるマハラノビス距離について、図６Ｄ、図６Ｅを参照して説明する。図６Ｄに示すユークリッド距離６０４の場合には、原点から同じ距離にある点の集合は破線で示す円上に位置する。これに対して、図６Ｅに示すマハラノビス距離６０５の場合には、原点から同じ距離にある点の集合は破線で示す楕円上に位置する。また、楕円の軸は、実線で描かれた座標ではなく、破線で描かれた軸６０８と軸６０９となる。ユークリッド距離で測ると、データ点６０７は、データ点６０６よりも、原点からの距離が大きい位置にあるが、マハラノビス距離では、同一楕円上にあり、原点からの距離は同一である。

説明変数空間内で、リスク絶対指標の増減が小さい方向では、座標軸６０８のように、楕円軸の長さを大きくし、リスク絶対指標の増減が大きい方向では、座標軸６０９のように、楕円軸の長さを小さくする。すなわち、リスク絶対指標の増減が小さい方向では距離尺度を大きくし、リスク絶対指標の増減が大きい方向では距離尺度を小さくしたマハラノビス距離を用いて類似集合を生成できる。

図６Ｃに示す例のように、説明変数が身長と体重の場合に、糖尿病のリスク絶対指標ＨｂＡ１ｃとの関連が大きい方向として、例えば、ＢＭＩの変化量が大きい方向が考えられる。この場合には、例えば、平均的身長や体重を示す点で、ＢＭＩの等高線に沿った方向に近い方向が座標軸６０８、それに垂直なＢＭＩの変動が大きくなる軸が座標軸６０９となるマハラノビス距離をとることができれば、リスク絶対指標との関連性を考慮した類似尺度の例となる。

以下では、図８を参照し、このようなマハラノビス距離を算出し、類似集合を計算する方法について説明する。

まず、リスク絶対指標算出８０１において、分析対象となる疾病の進行度の指標となる値を取得または算出する。本実施例の場合には、分析用データＡ５０１より、２０１６年のＨｂＡ１ｃの値を取得し、それをリスク絶対指標として用いるとよい。なお、本実施例では、目的変数としてＨｂＡ１ｃの変化量を用いているが、これは、進行度の相対的な変化と考えられるため、この値の大小で疾病の進行度を推定するのは難しい。例えば、ＨｂＡ１ｃ変化量が小さくとも、ＨｂＡ１ｃの値そのものが大きい場合には、疾病は進行している可能性がある。一方で、ＨｂＡ１ｃ変化量が大きくとも、ＨｂＡ１ｃの値そのものが小さい場合には、進行度は低いと推定できる。この場合のように、ＨｂＡ１ｃ変化量よりも、ＨｂＡ１ｃの値そのもののほうが、疾病の進行度の指標として適切と考えられる場合には、リスク絶対指標としてＨｂＡ１ｃの値を用いるのがよい。

なお、疾病の進行度と相関のある他の指標をリスク絶対指標として用いることも考えられる。例えば、図２Ｃで示したように、糖尿病に関連する診断、処方、医療行為の有無や、診断、処方、医療行為を受けた回数など、診断、処方、医療行為の回数や内容から生成した値を用いてもよい。また、当該治療行為にかかる推定医療費等を用いてもよい。

次に、距離尺度算出８０２では、図６Ｅを用いて説明したように、リスク絶対指標の増減が大きい方向では、距離尺度を小さくなり、リスク絶対指標の増減が小さい方向では、距離尺度を大きくなるようなマハラノビス距離を算出する。すなわち、座標軸６０８、６０９、及び楕円軸長６１０、６１１を算出する。図６Ｅに示す例では、座標軸６０９が、リスク絶対指標の増減が大きい方向、座標軸６０８が、リスク絶対指標の増減が小さい方向である。この距離尺度では、リスク絶対指標の増減が小さい方向（座標軸６０８の方向）に分布する説明変数空間の点同士は、距離が小さくなる（類似度が大きくなる）。

この距離尺度を算出する方法として、リスク絶対指標と説明変数を用いた正準相関分析（Canonical Correlation Analysis）を用いるとよい。これにより、リスク絶対指標と説明変数が互いに相関が高くなるような距離尺度を求めることができる。また、正準相関分析の他に、ＭＬＫＲ（Metric Learning for Kernel Regression）、ＳＣＣＡ（Sparse Canonical Correlation Analysis）など、距離尺度を求める他の方法を用いてもよい。また、非線型正準相関分析など、それらの非線型版を用いてもよい。この場合には、距離尺度は、説明変数空間のマハラノビス距離ではなくなるが、処理は同様にして適用できる。

次に、説明変数変換８０３では、距離尺度８０２で算出した距離尺度に基づいて、説明変数を変換する。直感的には、図６Ｅのマハラノビス距離の楕円形の等高線を円形に変換し、楕円の軸である座標軸６０８、座標軸６０９を座標軸とするような変換である。説明変数をｘ、変換関数をｇとし、変換後のベクトルをｇ（ｘ）とおく。正準変換のような線形変換の場合には、ある行列Ａとベクトルｂを用いてｇ（ｘ）＝Ａｘ＋ｂと表すことができる。なお、楕円軸長６１０、６１１の短い順（距離尺度の大きい順）に座標軸を選択することでｇ（ｘ）の次元数ｎは、ｘの次元数ｍ以下に設定することができる。例えば、ｎ＝１とすれば、ｇ（ｘ）は１次元となる。この変換後の次元数は予め定めておく。なお、このときの変換関数ｇのパラメータは、距離変換モデル５０８に記録しておく。

次に、類似集合算出８０４では、変換後の説明変数空間において、ユークリッド距離を用いて各ＩＤに対するＮ人の類似集合を算出する。Ｎは予め定めておく。例えば、Ｎ＝１００やＮ＝２００などを用いるとよい。上位リスク値算出処理５０４と同様の処理を進め、リスク予測モデルを生成する。以上のようにして、リスク予測モデル５０７を生成できる。

なお、距離尺度算出８０２では、ＨｂＡ１ｃ変化量のような相対指標ではなく、リスク絶対指標算出８０１で求めたリスク絶対指標を用いる。これにより、疾病リスクと関連した距離尺度を選択することができる。例えば、説明変数のひとつである２０１２年のＨｂＡ１ｃは、糖尿病のリスク分析予測において重要な変数であるため、２０１２年のＨｂＡ１ｃの値の差が小さい人同士は距離が近く、大きい人同士は距離が遠くなるような距離尺度が望ましい。２０１２年のＨｂＡ１ｃとリスク絶対指標算出８０１で求めたリスク絶対指標（例えば、２０１６年のＨｂＡ１ｃ）は、相関が強いと想定できるため、距離尺度算出８０２では、このような距離尺度が算出できると期待される。一方で、ＨｂＡ１ｃの変化量（２０１６年のＨｂＡ１ｃ－２０１２年のＨｂＡ１ｃ）のような相対指標を用いた場合には、２０１２年のＨｂＡ１ｃとの相関が弱く、リスク絶対指標を用いる場合と比べて２０１２年のＨｂＡ１ｃが距離尺度として小さくなる。

以上のことから、ＨｂＡ１ｃ変化量のような相対指標は、リスク分析の際には、リスクの相対的な増減を分析できるため、分かりやすく、可視化して分析するのには有用であるが、類似集合を求めるための距離尺度の算出においては、リスク絶対指標を用いるのがよい。なお、目的変数をＨｂＡ１ｃ変化量ではなく、２０１６年のＨｂＡ１ｃの値そのものとした場合には、目的変数とリスク絶対指標は同一のものとしてもよい。このような処理を行うことで、可視化に有用な相対指標で分析しつつ、類似集合を求めるための適切な距離尺度を求めることができる。

前述したように、上位リスク値算出処理５０４で距離尺度生成に用いる説明変数は、リスク予測モデル生成処理５０６で用いる説明変数と異なっていてもよいし、距離尺度生成に用いる目的変数（リスク絶対指標）はリスク予測モデル生成処理５０６で用いる目的変数と異なっていてもよい。これにより、上位リスク値を算出するための適切な距離尺度、類似集合を求めることができる。

次に、図５Ｂを参照して、前述した方法を用いたリスク分析処理１０８における応用例を説明する。

予測対象データ５０９に、予測分析対象説明変数生成用データ４０１（図４Ａ）に示すデータを保持する。本実施例では、２０１２年のデータから、２０１６年（４年後）の状態を予測する例を用いて説明している。そこで、ここでは、２０１７年のデータである予測分析対象説明変数生成用データ４０１から４年後の状態を予測する問題を想定して説明する。リスク予測処理５１０では、リスク予測モデル５０７に、リスク予測モデル５０７の説明変数に対応する変数のデータを入力として適用することで、予測結果を得る。例えば、リスク予測モデル５０７が２０１２年のＨｂＡ１ｃ値を説明変数とするモデルの場合、２０１７年のＨｂＡ１ｃ値を入力として適用することで、２０２１年（４年後）の上位リスク値を予測する。予測結果出力処理５１１では、予測結果を表示装置１０３に表示する、補助記憶装置１０７に保存する、などによって予測結果を出力する。

また、図５Ｃを参照して、別の方法によりリスク予測結果を得る方法を説明する。

まず、予測対象データ５０９に、予測分析対象説明変数生成用データ４０１（図４Ａ）に示すデータを保持する。次に、上位リスク値算出処理５１２では、予測対象データ５０９の各ＩＤに対して、分析用データＡの中から類似集合を算出し、上位リスク値を算出する。予測結果出力処理５１１では、この上位リスク値を予測結果として出力する。

なお、この場合には、図５Ａの距離変換モデル５０８のみを用いるため、図５Ｇに示すように、予測モデル生成処理５０２、予測モデル５０３、リスク分析用データＡ５０５、リスク予測モデル生成処理５０６、リスク予測モデル５０７はなくてもよい。すなわち、図５Ｇの処理と図５Ｃの処理をセットで用いることができる。

ここでは、分析用データＡ５０１を学習データとみなし、予測対象データ５０９の将来の状態を予測している。図５Ａの上位リスク値算出処理５０４では、分析用データＡの各ＩＤに対して、分析用データＡの中から類似集合を算出したが、上位リスク値算出処理５１２では、予測対象データ５０９の各ＩＤに対して、予測対象データ５０９とは異なる分析用データＡ５０１から、類似集合を算出する。これは、過去のデータである分析用データＡ５０１のモデルに基づいて、２０１７年のデータである予測対象データ５０９の将来の状態を予測するためである。この方法では、過去データで類似した人のうちリスクが高い上位Ｘ％の人を特徴づける値をリスク予測結果としている。

上記、図５Ｂ，図５Ｃで目的変数がＨｂＡ１ｃ変化量の場合には、予測結果としてＨｂＡ１ｃ変化量の上位リスク値が得られる。それに現在のＨｂＡ１ｃの値を加えることで、将来のＨｂＡ１ｃ値の上位リスク値が得られる。これらのＨｂＡ１ｃ変化量や将来のＨｂＡ１ｃ値などの上位リスク値の予測値は、将来、ＨｂＡ１ｃ値が高くなるリスクが大きい人を抽出するなどに、用いてもよい。例えば、現在、ＨｂＡ１ｃが一定の基準値（例えば、５．５以上、６．０以下）の人の中から、予測値が高い人を順番に抽出するなどとして、将来のリスクを推定し、保健指導の優先度の高い人を推定するための参考にする、などの応用例が考えられる。

次に、リスクを可視化して分析する応用例について、説明する。

まず、すでに説明したように、従来方法による予測モデル生成処理５０２で生成される回帰曲線を可視化すると、図７Ａの予測線７０３のような曲線が得られる。これは、２０１２年のＨｂＡ１ｃを説明変数ｘとし、ＨｂＡ１ｃ変化量を目的変数とした回帰曲線ｈ（ｘ）である。

一方、本実施例の方法を用いたリスク予測モデル生成処理５０６で生成される回帰曲線も、すでに説明したように可視化すると、図７Ａのリスク予測線７０７のようになる。すなわち、ＨｂＡ１ｃ変化量の増加リスクが高いデータに敏感なリスク予測線が得られる。このようにして、二つのモデルの予測線７０３とリスク予測線７０７を表示装置１０３に表示して、全体の傾向（予測線７０３）と、リスク曲線（リスク予測線７０７）を比較可能に表示し、分析できる。

なお、従来方法による予測モデル生成処理５０２では、図７Ａのように、２０１２年のＨｂＡ１ｃとＨｂＡ１ｃ変化量を軸に可視化する場合、この二つの変数で回帰曲線を生成するため、分析用説明変数生成用データ３０１の他の変数の情報はモデル生成の際に、考慮されない。

それに対して、本実施例の方法では、リスク分析用データＡ５０５に２０１２年のＨｂＡ１ｃ以外の変数の情報も含まれるため、２０１２年のＨｂＡ１ｃ以外の変数の情報も考慮された回帰曲線が得られる。

このことについて説明する。本実施例の方法でも、図７Ａのように可視化する場合、リスク予測モデル生成処理５０６において、２０１２年のＨｂＡ１ｃを説明変数とする回帰曲線を生成するが、その回帰曲線の目的変数には、上位リスク値算出処理５０４で算出したリスク分析用データＡ５０５を用いる。

すでにリスク予測モデル生成処理５０６の処理の説明で述べたように、上位リスク値算出処理５０４で用いる説明変数とリスク予測モデル生成処理５０６で用いる説明変数は異なっていてもよい。上位リスク値算出処理５０４では、２０１２年のＨｂＡ１ｃ以外の変数も考慮して、類似集合をとり、上位リスク値を算出してもよく、このように処理することによって、他の説明変数の影響は、リスク分析用データＡ５０５に含まれることになる。これによって、２０１２年のＨｂＡ１ｃ以外の変数も考慮したリスクを可視化できる。

また、リスク予測線は、疾病リスクに影響のある因子を比較、分析するための利用できる。例えば、保健指導の有無や、ＢＭＩが高い場合と低い場合、でのリスクの高低を比較することができる。他にも、保健指導の種類による比較、年齢、投薬治療や薬の種類の比較により、リスク変化を分析することが考えられる。以下、図５Ｄを参照して説明する。

分析用データ１１０のうち、生活習慣改善のための保健指導を実施した人のデータを分析用データＸ５１３、保健指導を実施しなかった人のデータを分析用データＹ５１４とする。また、上位リスク値算出処理５０４及びリスク予測モデル生成処理５０６を実行し、分析用データＸ５１３及び各分析用データＹ５１４から、リスク予測モデルＸ５１５及びリスク予測モデルＹ５１６を生成する。可視化結果出力処理５１７では、例えば図７Ｂに示すように、保健指導を実施した場合のリスク予測線７０８と保健指導を実施しなかった場合のリスク予測線７０９を表示することによって、施策の有無によるリスク低減効果や施策の効果を分析できる。これによって、保健指導を実施する場合と実施しない場合のリスクの変化を比較、分析できる。

また、予測結果も分析したい場合には、リスク予測処理５１０において、二つのリスク予測モデル５１５、５１６に予測対象データ５０９を適用し、予測結果出力処理５１８において両方の予測結果を出力してもよい。なお、予測結果が必要ない場合には、図５Ｆに示すように、リスク予測処理５１０、予測対象データ５０９、予測結果出力処理５１８はなくてもよい。

なお、上位リスク値算出処理５０４において、上位Ｘ％に位置する値を取得したが、Ｘ＝５０として、中心値を算出する、または、類似集合全体の平均値を算出する、などとすれば、全体の平均的傾向の予測線が得られるので、リスク予測線７０７や、リスク予測線７０８、リスク予測線７０９の他に、これを同時に示してもよい。平均的傾向を示す予測線を表示することで、全体的な傾向とあわせて、リスクを比較、分析できる。

ＢＭＩの高低によって比較する場合には、例えば、ＢＭＩが高い（例えば、２５．０以上）の人のデータを分析用データＸ５１３、ＢＭＩが低い（例えば、２２．０以下）の人のデータを分析用データＹ５１４として、前述した処理を行う。

従来の方法を用いた予測方法による予測線７０３では、多数派データの影響が大きくなり、施策によるリスク低減の差異を表現しにくい。これに対し、本実施例の予測方法によるリスク予測線７０８では、リスク低減の差異を分析しやすくなる。

また、施策の有無や施策同士の比較ではなく、年齢層や組織によるリスクも比較できる。例えば、組織Ｘに所属する人のデータを分析用データＸとし、組織Ｙに所属する人のデータを分析用データＹとすることによって、組織ごとのリスクの違いを分析できる。また、他の様々な属性で比較してもよい。このように様々な属性で比較することにより、各々の因子がリスクに与える影響を分析したり、属性ごとのリスクの違いなどを分析したりすることができる。

なお、図５Ｂ、図５Ｃ、図５Ｄの構成において、リスクを予測することなく、リスク予測モデルを生成するためのデータ（図７Ａ、図７Ｂにおけるグラフ中の点）を表示してもよい。データと共に回帰曲線を表示してもよい。このように構成する際には、図５Ｂにおいて、リスク予測処理５１０が不要となる、又は、リスク予測処理５１０において出力処理を実行するとよい。また、図５Ｃにおいて、上位リスク値算出処理５１２が不要となる、又は、上位リスク値算出処理５１２において出力処理を実行するとよい。また、図５Ｄ及び図５Ｆにおいて、上位リスク値算出処理５０４及びリスク予測モデル生成処理５０６が不要となる、又は、上位リスク値算出処理５０４及びリスク予測モデル生成処理５０６において可視化結果出力処理５１７を実行するとよい。

なお、上記では、２０１２年のデータに基づいて、４年後の２０１６年の状態を分析する想定で説明した。また、２０１７年のデータを用いて、その４年後の状態を分析する応用例を示した。上記では、説明のために、これらの年を例示したが、この例とは異なる年でもよく、また、年の単位でなくてもよい。例えば、２０１１年のデータと２０１４年のデータを用いて、３年後の状態を分析するモデルを構築する、などとできる。

以上に説明したように、本発明の実施例によると、上位リスク値算出処理５０４が、入力されたヘルスケアデータの少なくとも１項目のデータを用いて、各データに類似するＮ個のデータの集合を生成し、生成された集合内で、他の１項目のヘルスケアデータ（分析用データＡ５０１）が大きい又は小さい方から所定割合（Ｘ％）に位置する値を目的変数とするリスク分析用データＡ５０５を生成しリスク予測モデル生成処理５０６が、入力されたヘルスケアデータの一部又は全部を説明変数とし、リスク分析用データＡ５０５に含まれる目的変数を予測するリスク予測モデル５０７を、これらのデータの学習によって生成し、リスク予測処理５１０が、リスク予測モデル５０７にヘルスケアデータ（予測対象データ５０９）を入力して、前記目的変数によって表されるリスクを予測するので、類似集合内の分布に基づいて分析対象者のヘルスケアデータの目的変数を分析する。そのため、大多数の平均的な傾向ではなく、低確率で発生する疾病リスクの変動を分析できる。

また、所定割合（Ｘ％）は、分析対象のリスクの発生確率と同じ（Ｘ＝Ｒ）又は２倍以下（Ｘ≦２Ｒ）の値とするので、分析対象となるリスクの発生確率に沿ったリスク予測線を生成できる。

また、目的変数は、糖尿病の発症リスクを分析するための、ＨｂＡ１ｃ値の変化量であり、リスク予測処理５１０では、リスク予測モデル５０７に前記ヘルスケアデータを入力して、将来のＨｂＡ１ｃ値の変化量の増大リスクを予測するので、低確率で発症する糖尿病のリスクに関する分析ができる。

また、リスク予測処理５１０は、ＨｂＡ１ｃが５．５以上かつ６．０以下である範囲内から、前記予測されたリスクが高い人を抽出するので、低確率で発症する糖尿病のリスクを的確に分析できる。

また、所定割合は１５％以下（望ましくは５％）とするので、ＨｂＡ１ｃ値の変化量を用いて低確率で発症する糖尿病のリスクに関する分析ができる。

また、上位リスク値算出処理５０４が、入力されたヘルスケアデータの一部又は全部の変数（リスク予測モデル生成処理５０６が用いる説明変数と異なってもよい）が配置される空間内において、分析対象となる疾病の進行度を示すリスク絶対指標の値の変化が少ない方向では距離尺度を大きくし、リスク絶対指標の値の変化が大きい方向では距離尺度を小さくしたマハラノビス距離を用いて、類似するデータの集合を生成するので、疾病の進行に関するリスクの分析に適した方法で説明変数空間内の類似集合を算出できる。

また、予測モデル生成処理５０２が、入力されたヘルスケアデータの一部又は全部を説明変数とし、リスク分析用データＡ５０５に含まれる目的変数と同一項目のデータを目的変数とする予測モデル５０３を、これらのデータの学習によって生成し、予測結果出力処理５１１が、リスク予測モデル５０７にヘルスケアデータ（予測対象データ５０９）を入力して予測された、目的変数によって表されるリスクを表すリスク予測線７０７と、予測モデル５０３にヘルスケアデータ（予測対象データ５０９）を入力して予測された、目的変数によって表されるリスクを表す予測線７０３と、を比較可能に出力するので、複数のモデルの予測結果を表示装置１０３に表示して、全体の傾向（予測線７０３）とリスク傾向（リスク予測線７０７）とを比較し、分析できる。

また、上位リスク値算出処理５０４、リスク予測モデル生成処理５０６が、複数のリスク予測モデル５１５、５１６を生成し、可視化結果出力処理５１７が、複数のリスク予測線７０８、７０９を比較可能に出力するので、異なる母集団（例えば、保健指導の実施の有無やＢＭＩ値の高低など）のリスクの違いを比較することができ、属性ごとのリスクの実態に関する分析や、リスク低減に対する各施策の効果に関する分析ができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウエアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１０１疾病予防支援装置
１０２入力装置
１０３表示装置
１０４通信装置
１０５演算装置
１０６メモリ
１０７補助記憶装置
１０８リスク分析処理部
１０８リスク分析処理
１１０分析用データ
２０１基本情報
２０２検査値情報
２０３受診情報
３０１分析用説明変数生成用データ
３０２目的変数生成用データ
３０３分析用目的変数データ
４０１予測分析対象説明変数生成用データ
４０２リスク分析用目的変数データ
５０２予測モデル生成処理
５０３予測モデル
５０４上位リスク値算出処理
５０６リスク予測モデル生成処理
５０７リスク予測モデル
５０８距離変換モデル
５０９予測対象データ
５１０リスク予測処理
５１１予測結果出力処理
５１２上位リスク値算出処理
５１５リスク予測モデル
５１６リスク予測モデル
５１７可視化結果出力処理
５１８予測結果出力処理
６０１、６０２、６０３体重、身長の二次元空間上のデータ点の分類を示す図
６０４ユークリッド距離による類似尺度を示す図
６０５マハラノビス距離による類似尺度を示す図
７０１横軸（ＨｂＡ１ｃ）
７０２縦軸（ＨｂＡ１ｃ変化量）
７０３予測線
７０４線
７０５ＨｂＡ１ｃ変化量が大きい領域（楕円）
７０６ＨｂＡ１ｃ変化量が小さい領域（楕円）
７０８、７０９リスク予測線
８０１リスク絶対指標算出処理
８０２距離尺度算出処理
８０３説明変数変換処理
８０４類似集合算出処理

Claims

ヘルスケアデータ分析装置であって、
所定の処理を実行する演算装置と、前記演算装置に接続された記憶デバイスとを有する計算機によって構成され、
入力されたヘルスケアデータの少なくとも１項目のデータを用いて、各データに類似するＮ個のデータの集合を生成し、前記生成された集合内で、他の１項目のヘルスケアデータが大きい又は小さい方から所定割合に位置する値を目的変数とするリスク分析用データを生成する上位リスク値算出部と、
前記入力されたヘルスケアデータの一部又は全部を説明変数とし、前記リスク分析用データに含まれる目的変数を予測するリスク予測モデルを、これらのデータの学習によって生成するリスク予測モデル生成部と、
前記リスク予測モデルに前記ヘルスケアデータを入力して、前記目的変数によって表されるリスクを予測するリスク予測部とを備えることを特徴とするヘルスケアデータ分析装置。
請求項１に記載のヘルスケアデータ分析装置であって、
前記所定割合は、分析対象のリスクの発生確率と同じ又は２倍以下の値とすることを特徴とするヘルスケアデータ分析装置。
請求項１に記載のヘルスケアデータ分析装置であって、
前記目的変数は、糖尿病の発症リスクを分析するための、ＨｂＡ１ｃ値の変化量であり、
前記リスク予測部は、前記リスク予測モデルに前記ヘルスケアデータを入力して、将来のＨｂＡ１ｃ値の変化量の増大リスクを予測することを特徴とするヘルスケアデータ分析装置。
請求項３に記載のヘルスケアデータ分析装置であって、
前記リスク予測部は、ＨｂＡ１ｃが５．５以上かつ６．０以下である範囲内から、前記予測されたリスクが高い人を抽出することを特徴とするヘルスケアデータ分析装置。
請求項３に記載のヘルスケアデータ分析装置であって、
前記所定割合は１５％以下とすることを特徴とするヘルスケアデータ分析装置。
請求項１に記載のヘルスケアデータ分析装置であって、
前記上位リスク値算出部は、前記入力されたヘルスケアデータの一部又は全部の変数が配置される空間内において、分析対象となる疾病の進行度を示す指標の値の変化が少ない方向では距離尺度を大きくし、前記指標の値の変化が大きい方向では距離尺度を小さくしたマハラノビス距離を用いて、類似するデータの集合を生成することを特徴とするヘルスケアデータ分析装置。
請求項１に記載のヘルスケアデータ分析装置であって、
前記入力されたヘルスケアデータの一部又は全部を説明変数とし、前記リスク分析用データに含まれる目的変数と同一項目のデータを目的変数とする予測モデルを、これらのデータの学習によって生成する予測モデル生成部と、
前記目的変数によって表されるリスクを表す回帰曲線を出力する出力部と、を有し、
前記出力部は、
前記リスク予測モデルに前記ヘルスケアデータを入力して予測された、前記目的変数によって表されるリスクを表すリスク回帰曲線と、
前記予測モデルに前記ヘルスケアデータを入力して予測された、前記目的変数によって表されるリスクを表す回帰曲線と、を比較可能に出力することを特徴とするヘルスケアデータ分析装置。
請求項１に記載のヘルスケアデータ分析装置であって、
前記目的変数によって表されるリスクを表す回帰曲線を出力する出力部を有し、
前記リスク予測部は、複数の母集団のヘルスケアデータから複数のリスク予測を生成し、
前記出力部は、前記複数のリスク予測を表す複数のリスク回帰曲線を比較可能に出力することを特徴とするヘルスケアデータ分析装置。
ヘルスケアデータ分析装置が実行するヘルスケアデータ分析方法であって、
ヘルスケアデータ分析装置は、所定の処理を実行する演算装置と、前記演算装置に接続された記憶デバイスとを有する計算機によって構成され、
前記ヘルスケアデータ分析方法は、
前記演算装置が、入力されたヘルスケアデータの少なくとも１項目のデータを用いて、各データに類似するＮ個のデータの集合を生成し、前記生成された集合内で、他の１項目のヘルスケアデータが大きい又は小さい方から所定割合に位置する値を目的変数とするリスク分析用データを生成する上位リスク値算出処理と、
前記演算装置が、前記入力されたヘルスケアデータの一部又は全部を説明変数とし、前記リスク分析用データに含まれる目的変数を予測するリスク予測モデルを、これらのデータの学習によって生成するリスク予測モデル生成処理と、
前記演算装置が、前記リスク予測モデルに前記ヘルスケアデータを入力して、前記目的変数によって表されるリスクを予測するリスク予測処理と、を含むことを特徴とするヘルスケアデータ分析方法。
請求項９に記載のヘルスケアデータ分析方法であって、
前記所定割合は、分析対象のリスクの発生確率と同じ又は２倍以下の値とすることを特徴とするヘルスケアデータ分析方法。
請求項９に記載のヘルスケアデータ分析方法であって、
前記目的変数は、糖尿病の発症リスクを分析するための、ＨｂＡ１ｃ値の変化量であり、
前記リスク予測処理では、前記演算装置が、前記リスク予測モデルに前記ヘルスケアデータを入力して、将来のＨｂＡ１ｃ値の変化量の増大リスクを予測することを特徴とするヘルスケアデータ分析方法。
請求項１１に記載のヘルスケアデータ分析方法であって、
前記所定割合は１５％以下とすることを特徴とするヘルスケアデータ分析方法。
請求項９に記載のヘルスケアデータ分析方法であって、
前記上位リスク値算出処理では、前記演算装置が、前記入力されたヘルスケアデータの一部又は全部の変数が配置される空間内において、分析対象となる疾病の進行度を示す指標の値の変化が少ない方向では距離尺度を大きくし、前記指標の値の変化が大きい方向では距離尺度を小さくしたマハラノビス距離を用いて、類似するデータの集合を生成することを特徴とするヘルスケアデータ分析方法。
請求項９に記載のヘルスケアデータ分析方法であって、
前記演算装置が、前記入力されたヘルスケアデータの一部又は全部を説明変数とし、前記リスク分析用データに含まれる目的変数と同一項目のデータを目的変数とする予測モデルを、これらのデータの学習によって生成する予測モデル生成処理と、
前記演算装置が、前記目的変数によって表されるリスクを表す回帰曲線を出力する出力処理と、を含み、
前記出力処理では、
前記演算装置が、
前記リスク予測モデルに前記ヘルスケアデータを入力して予測された、前記目的変数によって表されるリスクを表すリスク回帰曲線と、
前記予測モデルに前記ヘルスケアデータを入力して予測された、前記目的変数によって表されるリスクを表す回帰曲線と、を比較可能に出力することを特徴とするヘルスケアデータ分析方法。
請求項９に記載のヘルスケアデータ分析方法であって、
前記演算装置が、前記目的変数によって表されるリスクを表す回帰曲線を出力する出力処理を含み、
前記リスク予測処理では、前記演算装置が、複数の母集団のヘルスケアデータから複数のリスク予測を生成し、
前記出力処理では、前記演算装置が、前記複数のリスク予測を表す複数のリスク回帰曲線を比較可能に出力することを特徴とするヘルスケアデータ分析方法。