JP6159872B2

JP6159872B2 - 医療データ分析システム、医療データ分析方法及び記憶媒体

Info

Publication number: JP6159872B2
Application number: JP2016505998A
Authority: JP
Inventors: 利昇三好; 泰隆長谷川; 信二垂水; 伴　秀行; 伴　　秀行
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2017-07-05
Anticipated expiration: 2034-03-05
Also published as: JPWO2015132903A1; WO2015132903A1

Description

本発明は、将来の疾病の発症予測や医療費の予測に関する医療データを分析するシステム及び方法に関する。

近年、健康保険組合は、医療費の低減と、被組合員の健康増進を目的として、生活習慣病の予防及び重症化の予防のための保健指導等の保険事業を実施している。

しかし、保健指導のために確保できる保健師や医師、及び保健指導のための費用などのリソースは限られている。このため、費用対効果の大きい効果的・効率的な保険事業の運営を支援するシステムが望まれている。なお、保健事業は、各国の医療制度に応じて異なるが、国民保険サービスの対象者や医療機関等の組織に所属する人（加入者や参加者）に対して疾病予防や健康増進施策を含む医療サービスを提供する枠組みや制度を指す。

このような保険事業の運営を支援する技術として、例えば、特許文献１には、レセプト情報、健診情報、及び保健指導情報に基づいて、保健指導の対象者を選択する保険事業支援システムが開示されている。なお、レセプト情報は、傷病名や診療行為や処方などの記録を含む情報である。

より具体的には、上記特許文献１のシステムは、健康保険加入者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する健康保険加入者を保健指導対象者として選択する対象者選択部と、を備えている。

また、一方で、非特許文献１、非特許文献２には、映画などのコンテンツの過去の購入履歴に基づいて、利用者が好むであろう、コンテンツを推薦するなどのアプリケーションに適用できる推薦の技術（協調フィルタリング）に関する記述がある。

特開２０１２−１２８６７０号公報

Self-measuring Similarity for Multi-task Gaussian Process. Kohei Hayashi, Takashi Takenouchi, Ryota Tomioka, and Hisashi Kashima, 2012. Latent class models for collaborative filtering, Thomas Hofmann and Jan Puzieha, 1999.

ところで、健康保険組合のリソースの中で、効果的または効率的な保険事業を行うためには、保健指導を優先的に実施する対象者を選択することが必要である。また、保健指導の内容も、個々の対象者に適したものを選択することが必要である。

上述のように、特許文献１では、医療費を予測する際に、現在の重症度及び検査値に基づいて、将来の重症度を予測し、予測重症度に基づいて将来の医療費を予測する。例えば、現在の糖尿病の重症度及び血糖値に基づいて、将来の糖尿病の重症度を予測し、その重症度の平均の医療費を予測医療費とする。この従来例では、予測モデルは人手により作成される。

しかしながら、特許文献１の技術では、病状の重症度の定義や将来の重症度の予測方法などは、過去の疫学研究や経験、知識に基づいて、人手により作成する必要がある。そのため、疾病ごとに、基準を作成する必要があり、予測モデル作成のコストが高いことや、過去の経験、知識などが蓄積されている必要がある。

また、糖尿病だけのモデルなど、単一疾病のモデルの場合と異なり、糖尿病、高血圧症、脂質異常症など、複数の疾病が絡んで複合的な要因により病気が重症化する場合などには、モデルが複雑となり、人手によるモデル作成は困難である。

さらに、重症度の定義や、将来の重症度の予測に絡む因子としては、様々な因子（要因）が考えられる。例えば、糖尿病の場合、将来の重症度の予測には、現在の血糖値の情報が有用である。他にも、年齢、性別、コレステロール値、血圧値、などが関連している可能性もある。このように、様々な因子が将来の病態の予測に関連する可能性があり、また、現在の病態によっても、どのような因子が予測に必要であるか、異なってくる。そのため、人手によるモデル作成により、これらの因子をリストアップすることは困難である。

一方、単に予測するだけでなく、どのような生活習慣が、検査値の悪化や改善につながり、どのような検査値の悪化や改善、生活習慣が病態の変化に繋がるか、病態の遷移をモデル化することができれば、病気の重症化や改善の要因を知ることができる。これができれば、病態の予測や医療費の予測だけでなく、個々人に合わせて、保健指導の必要性の判定と、適切な保健指導内容の選定を行うことができ、効率的・効果的な保健事業を行う上で有用である。

以上から分かるように、人手による予測モデルの生成には限界がある。この点、健康保険組等のように被保険者や参加者の健康管理を行う組織では、大量のレセプト情報や、健診情報、及び問診情報が蓄積されており、これらの情報には人間の病態変化に関する緻密な情報が潜在的に含まれている。これらの情報を活用し、自動的に人間の病態変化をモデル化できれば有用である。

データに基づいて病態変化をモデル化する際、データの事例数が多いほど、統計的な信頼性が向上し、より正確なモデルを作成することができると想定できる。特に、人間の病態変化をモデル化する際には、病気を発症している事例数が、相当数必要となる。しかし、一般にデータの中で、特定の病気を発症している事例数は、少なく、このことが、発症予測の精度上の課題となる。また、重症度の高い疾病や複合疾病ほど、事例数は少ない傾向にあり、そのような疾病ほど、医療費がかかるため、これらの疾病の予測精度は、医療費の予測精度に大きな影響を与える。

本発明はこのような状況に鑑みてなされたものであり、データを用いて、少ない発症事例数の中から、精度良く発症予測、医療費予測をおこなうことができるモデルを構築する技術を提供するものである。

本発明は、プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する分析システムであって、前記分析システムは、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、前記分析システムは、前記プロセッサが、前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成するデータ定量化部と、前記プロセッサが、前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成するモデル生成部と、前記プロセッサが、前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する予測部と、を有する。

本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。

本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

本発明によれば、発症予測、医療費予測を精度よく実施することができる。

本発明の第１の実施例を示し、医療データ分析システムの一例を示すブロック図である。本発明の第１の実施例を示し、レセプト基本情報の構成の一例を示す図である。本発明の第１の実施例を示し、傷病名情報の構成の一例を示す図である。本発明の第１の実施例を示し、傷病名分類情報の構成の一例を示す図である。本発明の第１の実施例を示し、診療行為情報の構成の一例を示す図である。本発明の第１の実施例を示し、診療行為分類情報の構成の一例を示す図である。本発明の第１の実施例を示し、医薬品情報の構成の一例を示す図である。本発明の第１の実施例を示し、医薬品分類情報の構成の一例を示す図である。本発明の第１の実施例を示し、健診情報の構成の一例を示す図である。本発明の第１の実施例を示し、問診情報の構成の一例を示す図である。本発明の第１の実施例を示し、整形情報の構成の一例を示す図である。本発明の第１の実施例を示し、整形情報の傷病名コードと傷病名コードとを統合した整形情報の一例を示す図である。本発明の第１の実施例を示し、健診、問診及びレセプトの整形情報を一つにしたデータテーブルの一例を示す図である。本発明の第１の実施例を示し、図１３Ａを定量化したテーブルの一例を示す図である。本発明の第１の実施例を示し、定量化対象を特定するテーブルの一例を示す図である。本発明の第１の実施例を示し、データ定量化部で行われる疾病レコード定量化処理の一例を示すフローチャートである。本発明の第１の実施例を示し、健康保険事業者向け支援処理の一例を示すフローチャートである。本発明の第１の実施例を示し、医療データ分析システムの他の例を示すブロック図である。本発明の第１の実施例を示し、グラフの構造を学習する処理の一例を示すフローチャートである。本発明の第１の実施例を示し、定量化対象とした項目とデータの一例を示す図である。本発明の第１の実施例を示し、定量化した項目とデータの確率を示す一例を示す図である。本発明の第１の実施例を示し、定量化した項目とデータの確率を示す一例を示す図である。本発明の第１の実施例を示し、２つのノードから成る単純なモデルを示す図である。本発明の第１の実施例を示し、条件付確率テーブルの一例を示す図である。本発明の第１の実施例を示し、条件付確率テーブルの他の例を示す図である。本発明の第１の実施例を示し、確率変数の数を増やしたモデルの一例を示す図である。本発明の第１の実施例を示し、Ｘ年の項目とＸ＋Ｎ年の項目を表わすノードより構成されるグラフィカルモデルの一例を示す図である。本発明の第１の実施例を示し、現在とＮ年後の層の構造を用いて２Ｎ年後の層の状態を予測するグラフィカルモデルの一例を示す図である。本発明の第１の実施例を示し、傷病名コードの確率テーブルの一例を示す図である。本発明の第１の実施例を示し、傷病名コードの確率テーブルの一例を示す図である。本発明の第１の実施例を示し、疾病空間の一例を示すグラフである。本発明の第２の実施例を示し、データ定量化部で行われる処理の一例を示すフローチャートである。本発明の第２の実施例を示し、購入の履歴を示すテーブルである。本発明の第１の実施例を示し、Ｘ年と予測対象のデータを合わせたテーブルである。本発明の第１の実施例を示し、疾病空間の一例を示すグラフである。本発明の第１の実施例を示し、人物空間の一例を示すグラフである。

以下、本発明の一実施形態について添付図面を用いて説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

以下では、予測部等の各処理部を主語（処理の主体）として本発明の実施形態における各処理について説明を行うが、各処理部はプログラムによって実現可能であり、このようなプログラムはプロセッサ（演算装置）によって実行されることで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。

第１の実施例では、医療データ（例えば、レセプト情報、健診情報、問診情報）に基づいて、多数の因子からなる病態変化の因果や遷移をモデル化し、疾病の発症予測や医療費予測を行う。このモデルに基づいて、保健指導による改善効果を予測し、費用対効果の大きい保健指導の対象者の選定と、保健指導方法の選定を行う。レセプト情報は、健康保険の加入者が医療機関を受診した際の傷病名、処方された医薬品、実施された診療行為、及び医療費（点数）が記録された情報であり、その一例は図２を用いて後述する。なお、処方された医薬品、及び実施された診療行為を医療行為と総称する。

また、健診情報は、健康保険の加入者（被保険者）が健康診断を受診した場合の検査値が記憶された情報であり、その一例は図９を用いて後述する。問診情報は、健康保険の加入者が健康診断を受診した場合の生活習慣や既往歴、自覚症状などの問診の結果が記憶された情報であり、その一例は図１０を用いて後述する。なお、問診情報は健診情報の一部とみなし、健診情報と表示した場合には、問診情報を含む場合もある。問診情報はなくともよい。

第１の実施例では、医療データに基づいて、病気の因果関係及び病態の遷移構造をモデル化する。そして、このモデルに基づいて、保健指導対象者の選択、保健指導方法の提案、保健指導効果の予測などの各種機能を提供する。

なお、健康保険等の保健事業は、前述したように各国の医療制度に応じて異なるが、健康保険組合（保険者）の被保険者や、国民保険サービスの対象者や医療機関（例えば、総合診療医（General Practitioner））等の組織に所属する人（加入者や参加者）に対して、疾病予防や健康増進施策を含む医療サービスを提供する枠組みや制度を指す。また、健診は健康診断の略語であり、健康保険の保険者が被保険者の健康を管理するため、定期的に実施する検査である。また、保健指導は、保健師や医師が対象者に対して生活習慣などの改善を指導し、疾病予防や健康の増進を図る制度やサービスである。なお、保健指導の対象者は、健診の結果、疾病を予防する必要があると認定された人や、参加を希望した人などである。

また、レセプト情報は、傷病名や診療行為や処方などの記録を含む情報である。国民保険サービス等の対象者が医療機関で受診または投薬を受けた際に医療費を支払い、この支払いに対して、医療機関または薬局が発行するレセプトには、傷病名や診療行為や薬剤の処方などの詳細な情報が発行される。本実施例では、医療機関等が発行したレセプトを、健康保険組合等の保険者に通知する例を、以下に示す。

＜医療データ分析システムの構成＞
図１は、本発明の実施例による医療データ分析システム（「データ処理システム」とも言う）１００の構成の一例を示すブロック図である。

本発明の実施例の医療データ分析システム１００は、医療データ分析装置１０１と、データベース１１２と、有する。

医療データ分析装置１０１は、入力部１０２と、出力部１０３と、演算装置１０４と、メモリ１０５と、記憶媒体１０６と、を有する。

入力部１０２は、マウス、キーボードやタッチパネルなどのヒューマンインターフェースであり、医療データ分析装置１０１への入力を受け付ける。

出力部１０３は、医療データ分析システムによる演算結果を出力するディスプレイやプリンタである。

記憶媒体１０６は、医療データ分析システム１００による医療データ分析処理を実現する各種プログラム、及び医療データ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体（磁気ディスクドライブ、不揮発性メモリ等）である。メモリ１０５には、記憶媒体１０６に格納されているプログラムやデータがロードされる。

演算装置１０４は、メモリ１０５にロードされたプログラムを実行する装置（プロセッサ）であり、例えば、ＣＰＵ、ＧＰＵなどである。以下に説明する処理及び演算は、演算装置１０４が実行する。

医療データ分析システム１００は、１つの計算機で構成された計算機システムでも、サーバ及びクライアント端末で構成された計算機システムでもよい。

医療データ分析システム１００は、１つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで稼働してもよく、複数の物理的計算機資源上に構築された仮想計算機上で稼働してもよい。

演算装置１０４によって実行されるプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えるとよい。

データベース１１２は、医療データ記憶部（記憶領域）１１３、整形情報記憶部１１４（記憶領域）、定量化データ記憶部（記憶領域）１１５、予測モデル記憶部（記憶領域）１１６と、を有している。なお、データベース１１２は、医療データ分析装置１０１に接続された記憶装置に格納されても良いし、外部の計算機によって提供されても良い。

医療データ記憶部１１３は、入力部１０２に入力された医療データを格納する。医療データは、レセプト情報、健診情報、及び問診情報を含む。レセプト情報は、レセプト基本情報２０１（図２）、傷病名情報３０１（図３）、診療行為情報５０１（図５）、医薬品情報７０１（図７）、傷病名分類情報４０１（図４）、診療行為分類情報６０１（図６）、及び医薬品分類情報８０１（図８）を含む。

整形情報記憶部１１４は、データ整形部１０７によって医療データ記憶部１１３に記憶されているデータを整形したデータが保存されている。

定量化データ記憶部１１５は、整形情報記憶部１１４に保存されているデータを用いてデータ定量化部１０８によって生成される整形、定量化されたデータを含む。

予測モデル記憶部１１６は、定量化データ記憶部１１５に保存されているデータを用いてモデル学習部１０９によって生成される予測に用いるモデル（予測モデル）のデータを含む。なお、モデル学習部１０９は、モデル生成部として機能することができる。

医療データ分析装置１０１の記憶媒体１０６に格納された予測部１１０は、予測モデル記憶部１１６に保存されているモデルを用いて、発症予測、医療費予測を行う。保健指導支援部１１１では、予測部１１０が提供する予測機能を用いて、保健指導対象者の選定、保健指導サービスの定、などの各種機能を提供する。

データ整形部１０７と、データ定量化部１０８と、モデル学習部１０９と、予測部１１０と、保健指導支援部１１１の各機能部はプログラムとして記憶媒体１０６にロードされる。

演算装置１０４は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、演算装置１０４は、データ整形プログラムに従って処理することでデータ整形部１０７として機能する。他のプログラムについても同様である。さらに、演算装置１０４は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

以下、各種情報、及び各処理部１０７乃至１１１について詳細に説明する。

＜レセプト情報＞
図２は、レセプト基本情報２０１の構成の一例を示す図である。レセプト基本情報２０１は、レセプトと健康保険の加入者（被保険者）との対応関係を保持する情報である。

レセプト基本情報２０１は、検索番号２０２と、健保加入者ＩＤ２０３と、性別２０４と、年齢２０５と、診療年月２０６と、合計点数２０７と、をエントリの構成項目として含んでいる。

検索番号２０２は、レセプトを一意に識別するための識別子である。健保加入者ＩＤ２０３は、健康保険の加入者を一意に識別するための識別子である。性別２０４及び年齢２０５は、当該加入者の性別及び年齢である。

診療年月２０６は、加入者が医療機関で受診した年及び月である。合計点数２０７は、一件のレセプトの合計点数を示す情報である。なお、合計点数に「１０」を乗じると医療費（円）が算出される。すなわち、本実施例のレセプト基本情報２０１は、健康保険の加入者毎に毎月の医療費を集計したテーブルである。

＜傷病名情報＞
図３は、傷病名情報３０１の構成の一例を示す図である。傷病名情報３０１は、検索番号２０２と、傷病名コード３０２と、傷病名３０３と、をエントリの構成項目として含んでいる。

検索番号２０２は、レセプトを一意に識別するための識別子であり、レセプト基本情報２０１の検索番号（図２）と同じ番号を用いる。

傷病名コード３０２は、レセプトに記載される傷病名コードである。傷病名３０３は、当該傷病名コードに対応する傷病の名称である。

なお、一件のレセプトには、複数の傷病名が記載可能である。例えば、図３に示す傷病名情報３０１では、検索番号が「１１」のレセプトには糖尿病及び高血圧の傷病名が記載された２つのエントリが存在する。図３に示す傷病名情報３０１における複数の傷病名が、１つの検索番号に登録されている場合は、合計点数２０７に、複数の傷病に対する医療行為の合計点数が登録される。

＜傷病名分類情報＞
図４は、傷病名分類情報４０１の構成の一例を示す図である。傷病名分類情報４０１は、傷病分類と当該傷病分類に属する傷病名とを対応づける情報であり、傷病分類４０２と、傷病名コード３０２と、傷病名３０３と、合併症有無４０３と、をエントリの構成項目として含んでいる。

傷病分類４０２は、この傷病が属する分類である。傷病名コード３０２は、レセプトに記載される傷病名コードであり、傷病名情報３０１の傷病名コード３０２（図３）と同じ番号を用いる。傷病名３０３は、当該傷病名コードに対応する傷病の名称であり、傷病名情報３０１の傷病名３０３（図３）と同じ名称を用いる。合併症有無４０３は、この傷病が合併症の傷病名であるかを示す情報である。

＜診療行為情報＞
図５は、診療行為情報５０１の構成の一例を示す図である。診療行為情報５０１は、検索番号２０２と、診療行為コード５０２と、診療行為名５０３と、診療行為点数５０４と、をエントリの構成項目として含んでいる。

検索番号２０２は、レセプトを一意に識別するための識別子であり、レセプト基本情報２０１の検索番号２０２（図２）と同じ番号を用いる。

診療行為コード５０２は、レセプトに記載された診療行為を識別するための識別子である。診療行為名５０３は、当該診療行為コードに対応する診療行為の名称である。診療行為点数５０４は、当該診療行為の保険点数を示す情報である。

図５では、例えば、検索番号２０２が「１１」のレセプトには、「診療行為Ａ」と「診療行為Ｃ」の診療行為名５０３がそれぞれ記載されたエントリが対応付けられている。

＜診療行為分類情報＞
図６は、診療行為分類情報６０１の構成の一例を示す図である。診療行為分類情報６０１は、傷病分類４０２と、診療行為コード５０２と、診療行為名５０３と、をエントリの構成項目として含んでいる。

傷病分類４０２は、傷病名分類情報４０１の傷病分類４０２（図４）と同じ分類を用いる。診療行為コード５０２は、傷病分類４０２の傷病で行われる診療行為を識別する診療行為コードであり、診療行為情報５０１の診療行為コード５０２（図５）と同じコードを用いる。診療行為名５０３は、当該診療行為コードに対応する診療行為の名称であり、診療行為情報５０１の診療行為名５０３（図５）と同じコードを用いる。

＜医薬品情報＞
図７は、医薬品情報７０１の構成の一例を示す図である。医薬品情報７０１は、検索番号２０２と、医薬品コード７０２と、医薬品名７０３と、医薬品点数７０４と、をエントリの構成項目として含んでいる。

医薬品コード７０２は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名７０３は、レセプトに記載された医薬品の名称である。医薬品点数７０４は、医薬品の保険点数を示す情報である。

なお、１件のレセプトには、複数の医薬品名が記載可能である。図７では、例えば、検索番号２０２が「１１」のレセプトは、糖尿病経口薬Ａ及び高血圧経口薬Ａとの医薬品名がそれぞれ記載されたエントリに分けられている。

＜医薬品分類情報＞
図８は、医薬品分類情報８０１の構成の一例を示す図である。医薬品分類情報８０１は、傷病分類４０２と、医薬品コード７０２と、医薬品名７０３と、をエントリの構成項目として含んできる。

傷病分類４０２は、傷病名分類情報４０１の傷病分類４０２（図４）と同じ分類を用いる。医薬品コード７０２は、傷病分類４０２に登録された分類で処方される医薬品を識別する医薬品コードであり、医薬品情報７０１の医薬品コード７０２（図７）と同じコードが用いられる。医薬品名７０３は、当該医薬品コードに対応する医薬品の名称であり、医薬品情報７０１の医薬品名７０３（図７）と同じ名称が用いられる。

なお、図５に示す診療行為情報５０１及び図７に示す医薬品情報７０１を、医療行為情報と総称する。また、図６に示す診療行為分類情報６０１及び図８に示す医薬品分類情報８０１を、医療行為分類情報と総称する。

＜健診情報＞
図９は、健診情報９０１の構成の一例を示す図である。健診情報９０１は、複数の加入者の複数年分の健診情報を管理するための情報であり、健保加入者ＩＤ２０３と、健診受診日９０２と、健康診断における各種検査値（例えば、ＢＭＩ（Body Mass Index)等）９０３乃至９０７と、をエントリの構成項目として含んでいる。

健保加入者ＩＤ２０３は、健康診断を受診した健康保険の加入者の識別子であり、レセプト基本情報２０１の健保加入者ＩＤ２０３（図２）と同じ識別子を用いる。

健診受診日９０２は、健康診断を受診した年月日である。ＢＭＩ９０３から中性脂肪９０７は、健康診断の検査の結果を示す情報である。

特定の検査を受けなかった場合など、健診情報のデータが欠落することがある。例えば、図９では、健保加入者ＩＤ「Ｋ０００４」が２００４年に受診した検査項目のうち収縮期血圧９０６のデータが欠落している。データの欠落は、図示のように「−」で示される。

＜問診情報＞
図１０は、問診情報１００１の構成の一例を示す図である。問診情報１００１は、複数の加入者の複数年分の問診情報を管理するための情報であり、健保加入者ＩＤ２０３と、問診受診日１００２と、問診の回答（例えば、喫煙等）１００３乃至１００５と、をエントリの構成項目として含んでいる。なお、問診は、生活習慣、既往歴、アレルギー等の体質、自覚症状などを含んでもよい。

健保加入者ＩＤ２０３は、問診を受診した健康保険の加入者の識別子であり、レセプト基本情報２０１の健保加入者ＩＤ２０３（図２）と同じ識別子を用いる。

問診受診日１００２は、問診を受診した年月日である。タバコ１００３から歩行１００５は、問診の結果を表す情報である。タバコ１００３は、喫煙習慣がある場合は一日の平均喫煙本数であり、喫煙しない場合は「なし」である。飲酒１００４は、飲酒習慣がある場合は一日の平均飲酒量（単位＝ｍｌ）であり、飲酒習慣がない場合は「なし」である。歩行１００５は、一日の平均歩行時間（単位＝分）である。

なお、問診情報では、歩数、飲酒量、喫煙本数などの詳しい情報が得られない場合もある。具体的な飲酒量ではなく、予め問診表で区分けされた頻度のうち、該当するものを回答する場合がある。例えば、喫煙や飲酒の有無のみの情報が得られる場合、飲酒の頻度をいくつかの程度に分けて（例えば、（i）飲酒無し、（ii）週に１〜２回、（iii）週に３回以上）回答する場合などである。この場合、問診情報の値は、回答番号を示すもので、血圧などの検査値等と異なり、定量的な意味をもたない。

特定の項目に対する回答が無かった場合、問診情報のデータが欠落することがある。例えば、図１０では、健保加入者ＩＤ「Ｋ０００３」が２００４年に受診した問診項目のうち歩行８０５に対するデータが欠落している。

＜データ整形処理の詳細＞
次に、データ整形部１０７の処理について説明する。データ整形部１０７は、医療データ記憶部１１３に記憶されている医療データから、加入者毎かつ所定の期間毎のレセプト情報と、健診情報及び問診情報を集計及び統合し、表形式に整形する。以下では、１つの期間は１年であるとして説明するが、半年、２年、３年など、別の期間でもよい。

図１１は、整形情報１１０１の構成の一例を示す図である。図１１を用いて、データ整形部１０７の処理を説明する。

整形情報１１０１は、２００４年のレセプト情報を整形したレセプト整形情報を含むものである。整形情報１１０１の各行は、１つの健保加入者ＩＤに対応する１つの年のデータを集計したものである。

健保加入者ＩＤ２０３と、性別２０４、年齢２０５及び合計点数２０７は、それぞれ、レセプト基本情報２０１の健保加入者ＩＤ２０３、性別２０４、年齢２０５及び合計点数２０７（図２）と同じ情報である。データ年１１０２は、当該整形情報１１０１を生成する基となったデータの年を示している。

傷病名コード１０（１１０３）は、当該健保加入者ＩＤのレセプトのうち傷病名コードに１０の記載があるレセプトの数である。傷病名コード２０（１１０４）も同様に、当該健保加入者ＩＤのレセプトのうち傷病名コードに２０の記載があるレセプトの数である。診療行為コード１０００（１１０５）は、当該健保加入者ＩＤのレセプトのうち診療行為コードが１０００の診療行為が行われたレセプトの数である。医薬品コード１１０（１１０６）は、当該健保加入者ＩＤのレセプトのうち医薬品コードが１１０の医薬品が処方されたレセプトの数である。整形情報１１０１は、レセプトに記載されたコードの数に応じた列を有する。

以下、データ整形部１０７の処理について、２００４年のデータを整形する場合を具体的に説明する。

まず、データ整形部１０７は、１つの健保加入者ＩＤを選択する。データ整形部１０７は、入力部１０２で受け付けた健保加入者ＩＤまたはレセプト基本情報２０１の先頭のエントリから１つの健保加入者ＩＤを選択する。

データ整形部１０７は、診療年月２０６が「２００４年」である当該健保加入者ＩＤ２０３のレセプトの検索番号２０２を、レセプト基本情報２０１より取得する。次に、データ整形部１０７は、傷病名情報３０１（図３）を参照して、傷病名コード３０２毎に、当該傷病名コードが記載されているレセプトの数をカウントする。これによって、各傷病名コード３０２の記載があるレセプトの数が得られる。同様に、データ整形部１０７は、診療行為情報５０１（図５）を参照して、診療行為コード５０２毎のレセプトの数をカウントし、医薬品情報７０１（図７）を参照して、医薬品コード７０２毎のレセプトの数をカウントする。これにより、データ整形部１０７は、選択された健保加入者ＩＤの２００４年のデータ行が生成される。データ整形部１０７は、上記の処理を、分析対象となる全ての健保加入者ＩＤ及び年の組み合わせに対して行う。

例えば、図１１に示す整形情報１１０１において、１行目の健保加入者ＩＤ「Ｋ０００１」の２００４年のデータは、検索番号「１１」、「１２」、「１３」がレセプト基本情報２０１から取得できる。データ整形部１０７は、傷病名情報３０１を参照すると、上記取得した３つのレセプトのうち、傷病名コード３０２が「１０」であるレセプトは、検索番号「１１」及び「１３」の２つである。従って、整形情報１１０１の１行目の傷病名コード１０の欄（１１０３）には「２」が登録される。

図１１に示す整形情報１１０１は、健診情報９０１から整形された健診整形情報（１１０８〜１１１２）も含んでいる。各行は、１つの健保加入者ＩＤに対応するデータを集計したものである。

各項目（１１０８〜１１１２）の値は、健保加入者ＩＤ２０３及びデータ年１１０２に示される加入者及び年における健診データの値である。この健診データは健診情報９０１から取得できる。健診情報９０１が同一健保加入者ＩＤの同一年の複数の健診データを含む場合（１年に２回以上の健康診断を受診した場合など）、いずれか１つの受診日のデータを使ってもよいし、当該年の複数回の健診結果の平均を使ってもよい。１つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、データに欠損が少ない受診日を選択する方法もある。

また、図１１では欠損データは、「−１」で示している。例えば、健保加入者ＩＤ２０３が「Ｋ０００４」の加入者の収縮期血圧１１１１のデータは欠損しているため、「−１」が設定されている。なお、健診情報がない加入者の健診情報の値は、全て欠損データとする。

さらに、図１１に示す整形情報１１０１は、問診情報から整形された問診整形情報（１１１４〜１１１６）も含む。各行は、１つの健保加入者ＩＤに対応するデータを集計したものである。

各項目（１１１４〜１１１６）の値は、健保加入者ＩＤ２０３及びデータ年１１０２に示される加入者及び年における問診データの値である。この問診データは問診情報１００１から取得できる。問診情報１００１が同一健保加入者ＩＤの同一年の複数の問診データを含む場合（１年に２回以上の健康診断を受診した場合など）、いずれか１つの受診日のデータを使ってもよいし、当該年の複数回の問診結果の平均を使ってもよい。１つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、データに欠損が少ない受診日を選択する方法もある。

また、図１１では欠損データは、「−１」で示している。例えば、健保加入者ＩＤがＫ０００３の加入者の歩行１１１６のデータは欠損しているため、「−１」が記入されている。なお、問診情報がない加入者の問診情報の値は、全て欠損データとする。なお、問診情報１００１のタバコや飲酒のように「なし」や「少量」などの場合には、所定の数値に置き換える。例えば、「なし」の場合は０に、「少量」の場合には、少量であることを示す数値、例えば、１などとする。

以上の処理によって、データ整形部１０７は、レセプト整形情報（１１０３〜２０７）、健診整形情報（１１０８〜１１１２）及び問診整形情報（１１１４〜１１１６）を生成し、整形情報１１０１として統合することができる。なお、図１１には２００４年のデータのみを示したが、別の年の整形データも生成する。

ここで、データ整形部１０７が、レセプト整形情報（１１０３〜２０７）を生成する際に、類似の複数項目を統合してもよい。例えば、医薬品の項目のうち、糖尿病経口薬Ａの機能と糖尿病経口薬Ｂの機能とが類似している場合、これらを纏めて１つの項目として扱ってもよい。このとき、同一年の糖尿病経口薬Ａの処方回数と糖尿病経口薬Ｂの処方回数とを加算した値を、新しく纏めた項目の値とする。項目が類似するか否かを判断するための基準は、例えば、以下の方法がある。診療行為分類情報６０１で同一傷病分類４０２に属する診療行為名５０３を類似項目とする。また、医薬品分類情報８０１で同一傷病分類４０２に属する医薬品名７０３を類似項目とする。また、予め類似項目情報を人手により作成し、医療データ分析装置１０１に設定しておく。

図１２は、図１１で示したレセプト整形情報（１１０３〜２０７）の傷病名コード１０（１１０３）と傷病名コード２０（１１０４）とを統合した整形情報１２００の一例を示す図である。傷病名コード１０，３０（１２０１）の値は、図１１の傷病名コード１１０３の値と、傷病名コード１１０４の値とを加えた値であり、傷病名コードが「１０」であるレセプトの数と傷病名コードが「２０」であるレセプトの数と合計＝「３」である。

図１１及び１２に示したように、データ整形部１０７で生成されたレセプト整形情報、健診整形情報、及び問診整形情報を統合した整形情報１１０１、１２００は、データベース１１２の整形情報記憶部１１４に記憶される。

なお、レセプト整形情報（１１０３〜２０７）の値は、レセプトの数、すなわち処方回数で集計したが、処方の有無の情報でもよい。すなわち、処方回数が１以上の（処方がある）場合を１として纏め、処方回数が０の（処方がない）場合を０として、２値であらわしてもよい。また、処方回数が重症度を表すと考えて、レセプト整形情報の値は、処方回数を段階に分類した値でもよい。例えば、処方回数が０回の場合を０とし、処方回数が１〜４回の場合を１とし、処方回数が５回以上の場合を２とするなど、３段階で表してもよい。

また、整形情報１１０１の検査値（１１０８〜１１１２）などの連続値は、項目の状態数を減らすために離散化しておいてもよい。例えば、年齢は５年ごとに表示して、４０〜４４歳までを４２、４５〜４９歳までを４７などとして、その区間の数値を代表する値に変換しておいてもよい。また、血糖値も１０５〜１０９までを１０７とするなど、状態数を減らしておいてもよい。

前述した例では、１年毎の期間でレセプト情報、健診情報及び問診情報を纏めたが、例えば、２年毎、３年毎など異なる期間でもよい。なお、以下では、期間は１年毎に纏めた場合を例として説明する。

＜データ定量化処理の詳細＞
次に、データ定量化部１０８の処理について説明する。以下では、レセプト整形情報の値が０（処方がない）と１（処方がある）の２値であると仮定して説明し、２値でない場合の処理については、後に説明する。

図１３Ａは、健診、問診、レセプトの整形情報を一つの表にしたデータテーブルの一例を示す図である。整形情報１３０１は、健保加入者ＩＤ２０３、データ年１１０２、年齢２０５、ＢＭＩ１１０８等が図１１、図１２と同様であり、傷病名コード１０（１３０６）〜４０（１３０９）を２値化したデータテーブルである。

通常、ある疾病に罹患している人の数は、罹患していない人の数よりも、かなり小さい。そのため、医療データ数が多くとも、疾病に罹患している人のデータは少ない。例えば、１万人分の医療データがあったとしても、ある疾病の罹患率が３％とすると、３００人分のデータしかない。希少疾病や複数の疾病の罹患を考える場合などには、さらにデータ数が少なくなる。一般に、疾病の発症を精度よく予測するモデルを統計的に構築するためには、疾病に罹患している事例の数が相当数必要となるため、疾病を罹患している医療データ数が少ないと、疾病の発症予測を正確に行うことが困難となる。

例えば、疾病Ａ、疾病Ｂ，疾病Ｃを考えた時、疾病Ｃになる確率を疾病Ａと疾病Ｂの条件付き確率として算出することを考える。このとき、確率Ｐ１＝Ｐ（Ｃ＝１｜Ａ＝０、Ａ＝０）、Ｐ２＝Ｐ（Ｃ＝１｜Ａ＝０，Ｂ＝１），Ｐ３＝Ｐ（Ｃ＝１｜Ａ＝１，Ｂ＝１），Ｐ４＝Ｐ（Ｃ１｜Ａ＝０、Ｂ＝０）、を学習用の事例の中から計算する必要がある。Ｐ（Ｃ＝０）の条件付き確率は、例えば、Ｐ（Ｃ＝０｜Ａ＝１，Ｂ＝１）＝１−Ｐ（Ｃ＝０｜Ａ＝１，Ｂ＝１）などのように計算することができる。

疾病Ａと疾病Ｂをともに発症している場合の疾病Ｃの発症確率Ｐ（Ｃ＝１｜Ａ＝１，Ｂ＝１）となるが、これは、
Ｐ（Ｃ＝１｜Ａ＝１，Ｂ＝１）＝（Ａ，Ｂ，Ｃを発症している事例数）／（ＡとＢを発症している事例数）
となる。

しかし、通常、疾病を同時に発症している事例数はかなり少ないため、この値の信頼性が低くなる。また、ＡとＢを発症している事例数が一つも存在しない場合には、この値を計算することができない。このような場合には、
Ｐ（Ｃ＝１｜Ａ＝１，Ｂ＝１）＝０．５
などのように定数で置き換えたり、条件の部分を無視し、
Ｐ（Ｃ＝１｜Ａ＝１，Ｂ＝１）＝Ｐ（Ｃ＝１）＝（Ｃを発症している事例数）／（全事例数）
などとする。しかし、これらの方法では、本来考慮すべき、ＡとＢの発症状況などを考慮に入れることができない。

このことは、疾病Ｃになる確率を、疾病Ａの条件付き確率で算出する場合、あるいは、単に、疾病Ｃの発症確率を算出する場合においても、疾病Ａや疾病Ｃの事例数が少ない場合には、同様に、問題となる。

そこで、本発明では、元のデータを定量化することで、学習に用いることができる発症事例データを増やす。これにより、精度の良い発症予測を行うことができるモデルを構築する。図１３Ａに示すレセプトの整形情報１３２４〜１３２７には、病名の診断を受けた、処置を受けた、薬剤の処方を受けた、等の場合に、「１」が格納され、それ以外は「０」と格納される。

しかし、病名や処置、薬剤には類似のものや、似た効用のものがあるなど、その選択には任意性がある場合が想定される。また、疾病へのリスクがあるが、実際に病院で病名の診断や処置、薬剤の処方を受けるか否か、には任意性がある場合が想定される。そのため、値が「０」であっても、実際には、上記の任意性や疾病リスクがあることが考えられる。本発明では上記のことを考慮し、「０」と「１」で表現された値を、上記の任意性を疾病リスクとして定量化することにより、レセプトの各項目に関する情報量を増やし、学習に用いることができる事例の数を増加される。

図１３Ｂは、図１３Ａを定量化したデータテーブルの一例を示す図である。図１３Ｂの定量化データ１３１０は、健保加入者ＩＤ２０３、データ年１１０２、年齢２０５、ＢＭＩ１１０８等が図１１、図１２と同様であり、レセプトの情報に該当する傷病名コード１０（１３１５）〜傷病名コード４０（１３１８）の列が定量化されている。

直観的には、疾病が発生した人と、類似する疾病や、類似する処置を受けたり、類似する薬剤を受けている場合には、元のデータ（図１３Ａ）の疾病に関するコード（１３０６〜１３０９）の値が「０」であっても、疾病を発症する確率は「０」より大きい値となる可能性がある。また、疾病が発生した人と、似た人が疾病、処置、薬剤を受けている場合には、元のデータ（図１３Ａ）の疾病に関するコード（１３０６〜１３０９）の値が「０」であっても、疾病を発症する確率は「０」より大きい値となる可能性がある。この値は、ある人物がある疾病、処置、処方を受ける尤もらしさを表わしたものと解釈できる。

定量化の際には、項目間（検査値、疾病、処置、薬剤等）の類似度と人物間の類似度の双方を考慮する。項目間の類似度は、類似した病名、処置、薬剤の選択の任意性や、同時に病名、処置、薬剤の診断を受ける可能性の高さを示したものである。人物間の類似度は、類似した病態の人物は、同じような疾病にかかる可能性が高いことを示したものである。

ここで、整形情報１３０１の定量化では、項目間の類似性と人物間の類似性の両方を同時に考慮することが望ましい。項目間の類似度のみを考慮する場合には、通常、類似した、あるいは効用が似た病名、処置、薬剤は一方を受けると他方は受けない場合が多いことが想定されるため、これらの類似性をデータから統計的に導けない場合がある。

また、人物間の類似性のみを考慮する場合には、類似した人物そのものが少なくなるため、定量化のための情報が不足する場合がある。項目間と人物間の両方の類似性を同時に考慮することで、両方の類似性を手掛かりに、定量化することができ、疾病に関する事例数を増やすことができる。

データ定量化部１０８の処理例について図１４を用いて説明する。図１４は、データ定量化部１０８で行われる定量化処理の一例を示すフローチャートである。

まず、定量化対象データ選定１４０１では、データ整形部１０７の処理により生成された図１３Ａの整形情報１３０１のうち、定量化の対象とするデータを選定する。なお、整形情報１３０１としては、図１１の整形情報１１０１の他に、図１２の整形情報１２００や図１３Ａの整形情報１３０１を用いることができる。

図１３Ｃは、定量化対象を特定するデータテーブルの一例を示す図である。図１３Ｃの例では、整形情報１３１９に示した「＊」で表示された値が定量化対象として選定されている。これは、これは、図１３Ａのように、データ上では「０」となっているが、疾病、処置、処方のリスクがあると考えられる対象を定量化対象として選定する。あるいは、「１」と表示されているが、定量化を考えた場合には、より小さい値として設定したほうが適切であると考えられる対象を定量化対象として選定する。選定基準については、定量化対象選定基準１４０２に予め保存しておく。なお、定量化対象選定基準１４０２は、データ定量化部１０８で保持することができる。

次に、定量化対象の選定方法の例を示す。この例では、整形情報１３０１の値が「０」の値のみ定量化の候補とする。一方、整形情報１３０１において値「１」は病名、処置、処方を受けたことを示すため、定量化対象とせず、１として固定する。ある人物のデータに関して、検査値が所定の正常範囲の外にある場合、当該検査値に関係する疾病、処置、薬剤のデータに関して定量化対象とする。例えば、血糖値が正常範囲外の場合には、糖尿病関連のデータを定量化対象とする。このようなルールは、定量化対象選定基準１４０２に予め保存しておく。

もうひとつの例を示す。ある人物に関して、ある検査値が所定の正常範囲の外にある場合に、全てのレセプトのデータを定量化対象とする。これは、上記のように、検査値と疾病との対応関係に関するルールを設定することが困難な場合に用いる。

別の例では、検査値と関連するレセプトの項目の対を、所定のルールで設定しておき、関連するか否かが分からない対に対しては、当該検査値が正常範囲外の場合に、定量化対象とする。

他に、ユーザが選択する形にしても良いし、全レセプトデータを定量化対象としてもよい。しかし、全レセプトデータを定量化対象とする場合には、定量化処理にかかる時間が増大する。

次に、終了判定１４０３では、データ定量化部１０８が定量化を終了するか否かを判定する。所定の条件が成立して処理を終了する場合には、リスク定量化１４１１に移る。所定の条件が成立せず処理を終了しない場合には、疾病空間生成１４０４と、人物空間生成１４０６に進む。

最初に終了判定１４０３の処理を行う場合には、まだ定量化を行っていないため、データ定量化部１０８は処理を終了しないと判定する。終了判定の詳細な処理については定量化対象予測１４０９の処理を説明した後に述べる。

疾病空間生成１４０４と疾病間類似度計算１４０５及び人物空間生成１４０６と人物間類似度計算１４０７の処理は、並行して行うことができる。

疾病空間生成１４０４では、データ定量化部１０８が後述する疾病軸で設定される疾病空間に、疾病に対応する人物をプロットする。これは、整形情報１３０１の各行（人物）をベクトルと見て、項目（疾病等）を軸とした空間にプロットすることに相当する。

このとき、軸として検査値等を含めても良いし、検査値等は除外して、レセプトに関係する項目のみを軸としても良い。疾病空間の次元数は軸となる項目数と一致する。例えば、傷病名コード１０（１３０６）、傷病名コード２０（１３０７）、傷病名コード３０（１３０８）、傷病名コード４０（１３０９）を軸とする場合には、健保加入者ＩＤ１３０２＝Ｋ００１１のベクトルは、４次元空間上のベクトル（０，０，１，０）となる。

図２６Ａは、疾病空間２７０１の一例を示すグラフである。疾病等の項目を軸（疾病Ａ、疾病Ｂ、疾病Ｃ）とし、その空間に人物が人物ベクトルとしてプロットされている。同じ疾病にかかっている人物は近い場所に配置される。

次に図１４の、疾病間類似度計算１４０５では、疾病間の類似度を計算する。疾病間の類似度は疾病空間上の人物ベクトルの分布より計算することができる。

図２３は、疾病空間の考え方を説明するためのグラフである。変数Ｘ，Ｙの二次元空間上に二次元ベクトルを点として表わした図であるが、これより、ＸとＹには相関があると推測できる。これと同様の考え方で、図２６Ａで示したように、疾病を軸とする疾病空間上の人物ベクトルの分布より、疾病同士の類似度を計算する。

疾病数をＮとして、人物ベクトルをｐｉ＝（ｐｉ１、ｐｉ２、…、ｐｉＮ）とする。人物数をＭとすると、ｐｉ（ｉ＝１、…、Ｍ）が全人物ベクトルである。この要素ｉ（疾病ｉ）のみを並べて生成したベクトルをｘｉ＝（ｐ１ｉ、ｐ２ｉ、…、ｐＭｉ）としたとき、疾病ｉと疾病ｊの類似度をｘｉとｘｊの関数として疾病間類似度ｇ（ｘｉ、ｘｊ）により計算する。ｇはｘｉとｘｊの共分散でもよいし、ｘｉとｘｊの類似度を表わすどのようなカーネル関数でもよい。

例えば、共分散の他には、疾病間類似度ｇ（ｘｉ、ｘｊ）＝ｘｉ・ｘｊ
ただし、ｘｉ・ｘｊはｘｉとｘｊの内積を表わす。また、疾病間類似度ｇ（ｘｉ、ｘｊ）＝（ｘｉ・ｘｊ）＾２や、ＲＢＦカーネルなどを用いても良い。また、全人物ベクトルの平均ベクトルをμ１とする。

ここで、人物ベクトルの分布とは関係なく、疾病同士の類似性に関する事前知識などがある場合には、それらの情報を用いて疾病同士の類似度を予め定めて置いて、設定してもよい。

ここで、疾病間類似度ｇ（ｘｉ、ｘｊ）を（ｉ、ｊ）成分とする行列をＧとし、共分散行列がＧ、平均ベクトルがμ１の正規分布をＮ１とすると、Ｎ１は、疾病空間上での人物ベクトルの分布を正規分布により近似していると考えられる。この分布から生成される人物ベクトルの要素ｉと要素ｊの共分散は、要素ｉと要素ｊの疾病間類似度ｇ（ｘｉ、ｘｊ）となる。

次に、人物空間生成１４０６では、データ定量化部１０８が人物軸で張られる空間に疾病をプロットする。これは、整形情報１３０１の各列（検査値、疾病、処方、薬剤等）をベクトルと見て、人物を軸とした空間にプロットすることに相当する。空間の次元数は人物数（事例数）と一致する。例えば、整形情報１３０１の健保加入者ＩＤ１３０２に含まれるＫ００１１，Ｋ００１２，Ｋ００１３，Ｋ００１４，Ｋ００１５を軸とする場合には、傷病名コード１０（１３０６）のベクトルは（０，０，０，０，１）となる。

図２６Ｂは、人物空間２７０２の一例を示すグラフである。人物（Ａ、Ｂ、Ｃ）の識別子などを軸とし、その空間に疾病等の項目が疾病ベクトルとしてプロットされている。類似した疾病は近い場所に配置される。

次に、図１４の人物間類似度計算１４０７では、データ定量化部１０８が人物間の類似度を計算する。疾病間類似度計算１４０５の場合と同様にして、人物空間上での疾病ベクトルの分布より、人物間の類似度を計算する。

疾病ベクトルの要素ｉ（人物ｉ）の値を並べたベクトルをｙｉ＝（ｙ１ｉ、ｙ２ｉ、…、ｙＮｉ）とすると、人物ｉと人物ｊの類似度をｙｉとｙｊの関数として人物間類似度ｈ（ｙｉ、ｙｊ）により計算する。ｈはｙｉとｙｊの共分散でもよいし、どのようなカーネル関数でもよい。全疾病ベクトルの平均ベクトルをμ２とする。

疾病空間の場合と同様に、ｈ（ｙｉ、ｙｊ）を（ｉ、ｊ）成分とする行列をＨとし、共分散行列がＨ，平均ベクトルがμ２の正規分布をＮ２とすると、Ｎ２は、人物空間上での疾病ベクトルの分布を正規分布により近似していると考えられる。この分布から生成される疾病ベクトルの要素ｉと要素ｊの共分散は、要素ｉと要素ｊの人物間類似度ｈ（ｙｉ、ｙｊ）となる。

次に、合成空間類似度計算１４０８では、データ定量化部１０８が人物同士の類似度と疾病同士の類似度の双方を考慮するために、合成空間において、人物と疾病の双方を考慮した類似度を算出する。

合成空間は、疾病と人物の全ての対を軸とした組み合わせであり、疾病ｘｉと人物ｙｊの対と、疾病ｘｋと人物ｙｌの対の類似度ｓは、疾病間類似度ｇ（ｘｉ、ｘｋ）と、人物間類似度ｈ（ｙｊ、ｙｌ）の関数により表わされる。例えば、
ｓ（ｘｉ、ｙｊ、ｘｋ、ｙｌ）＝ｇ（ｘｉ、ｘｋ）・ｈ（ｙｊ、ｙｌ）
ｓ（ｘｉ、ｙｊ、ｘｋ、ｙｌ）＝ｇ（ｘｉ、ｘｋ）＋ｈ（ｙｊ、ｙｌ）
等の関数を用いることができる。

次に、定量化対象予測１４０９では、データ定量化部１０８が定量化対象となる値を上記類似度に基づいて予測する。ここで、人物ｉの疾病ｊの値をｚｉｊとし、Ｚ＝（ｚ１１、ｚ１２、ｚ１３、…、ｚ１Ｍ，ｚ２１、ｚ２２、…、ｚＮ１、…、ｚＮＭ）の分布を、上記類似度ｓを用いてモデル化する。類似度ｓは、ｓ（ｚｉｊ、ｚｋｌ）とすることができ、これを（Ｎ×Ｍ）×（Ｎ×Ｍ）行列とみたときの行列をＳとする。つまり、行列Ｓの第１行目はｓ（ｚ１１、ｚ１１）、ｓ（ｚ１１、ｚ１２）、…、ｓ（ｚ１１、ｚＮＭ），第２行目はｓ（ｚ１２、ｚ１１）、ｓ（ｚ１２、ｚ１２）、…、ｓ（ｚ１２、ｚＮＭ）、などとなる。

このとき、共分散行列をＳとし、平均を０（ゼロベクトル）とする正規分布を考えると、これは、Ｚの分布を近似していると考えられる。ここで、より予測を正確にするために、正規分布の平均ベクトルをゼロベクトルではなく、μ＝（μ１１、μ１２、…、μＮＭ）、ここで、μｉｊ＝｛（μ１の第ｉ成分）＋（μ２の第ｊ成分）｝／２としてもよい。

これは、人物ｉの全疾病に関する値の平均値と、疾病ｊの全人物に関する値の平均値、の平均を表わしている。これにより、生成された正規分布は、Ｚの分布をモデル化したものである。

定量化対象予測１４０９では、データ定量化部１０８が定量化対象データ選定１４０１で選定された対象となるデータの値を、上記正規分布に基づいて再設定する。具体的には、各定量化対象データｚｉｊに対して、ｚｉｊ以外の値が全て与えられた条件下で、この正規分布から推定されるｚｉｊの値の平均値によりｚｉｊを定める。正規分布において、変数の一部が与えられた条件下において、残りの変数の分布を計算する方法は、ガウス過程を用いた回帰予測と同様の方法を用いることができる。

次に、終了判定１４０３において、データ定量化部１０８は定量化処理を終了するか否かの判定を行う。データ定量化部１０８は、例えば、予め定めた回数、終了判定１４０３の処理を行った場合に終了する。また、別の方法では、データ定量化部１０８が今回の予測後のデータの総和と前回の予測後のデータ（または最初のデータ）の総和の差が予め定めた閾値以下であるなど、変化が小さくなったことを基準として、終了する。

２度目以降、人物間類似度計算１４０７、疾病間類似度計算１４０５の処理を行う場合には、元データではなく、定量化により予測された最新のデータ（定量化データ）を用いる。つまり、上記での疾病間類似度計算１４０５、人物間類似度計算１４０７の処理は、整形情報１３０１のデータを用いると説明したが、２回目以降は、値を最新の予測結果に置き換えたデータを用いる。

なお、上記において、定量化対象予測１４０９において、定量化対象となる全てのデータの値を修正したが、１回の終了判定１４０３から終了判定１４０３に戻るループの中で、修正するデータは、その一部でもよい。例えば、対象データをＤ１，Ｄ２，…、Ｄｋに分割し、１回目のループではＤ１を修正し、２回目のループではＤ２を修正する、などとする。この場合には、ｋ回のループにおけるＤ１、…、Ｄｋ全ての修正幅に基づいて終了条件を定める。

ここで、元データｐｉｊに対して、ｊを固定してｐｉｊの全てのｉに対して和を計算した値をＮｊとする。これは、ｊに対応する項目が疾病を表わす項目である場合には、その疾病の発症人数となる。同様に推定されたｚｉｊのｊを固定しｚｉｊの全てのｉに対して和を計算した値をＭｊとする。このとき、一般に、Ｎｊ≠Ｍｊとなる。

実際に計算すると、多くの場合には、ＭｊがＮｊと比べて小さくなるが、このようなデータｚｉｊを用いてモデルを構築すると、図１８Ａに示す表１９０１のデータと比較して、小さい値によって、将来の発症率、医療費を推定するモデルを構築することになるため、発症率、医療費を過大に予測するモデルが生成されてしまう。そのため、本発明では、リスク定量化１４１１によって、各項目の発生数が図１８Ａの表１９０１と同等となるように正規化を行う。

リスク定量化１４１１では、人物ｉ、項目ｊに対応する値として、
Ｑ（ｘｉ、ｙｊ）＝（Ｎｊ／Ｍｊ）ｚｉｊ
とする。この値を用いることにより、Ｑ（ｘｉ、ｙｊ）の全てのｘｉに対して和を計算した値はＮｊとなり、表１９０１の各項目の人数と一致する。

このとき、Ｑ（ｘｉ、ｙｊ）が１を超える場合には、Ｑ（ｘｉ、ｙｊ）＝１と設定する。この場合には、Ｑ（ｘｉ、ｙｊ）の全てのｘｉに対して和を計算した値はＮｊより小さくなるので、この値をＬｊとし、Ｑ（ｘｉ、ｙｊ）を（Ｍｊ／Ｌｊ）Ｑ（ｘｉ、ｙｊ）に再設定する。この場合も、１を超えるものは１と置き換える。この処理を繰り返すことにより、Ｑ（ｘｉ、ｙｊ）の全てのｘｉに対して和を計算した値がＮｊに近づくため、Ｎｊとの差が予め定めた閾値よりも小さくなった時点で終了し、その場合のＱ（ｘｉ、ｙｊ）の値を用いる。Ｑ（ｘｉ、ｙｊ）は定量化データ１４１０に記憶される。なお、定量化データ１４１０（または１３１０）はデータベース１１２の定量化データ記憶部１１５に格納される。

上記処理により、データ定量化部１０８は、疾病間の類似性と人物間の類似性から疾病の発症リスク（疾病リスク）を考慮して図１３Ａの整形情報１３０１を定量化することで、図１３Ｂに示す定量化データ１３１０を生成する。図１３Ｂの定量化データ１３１０は、健保加入者ＩＤ２０３毎に各傷病名コードについて発症確率が算出される。

例えば、図１３Ｂで健保加入者ＩＤ２０３＝Ｋ００１１の傷病名コード１０（１３１５）の値は「０．１」である。この定量化データは、モデルを構築する際には、発症有りが「０．１」、発症無しが「０．９」とカウントされる。疾病リスクを考慮することにより、元データ（図１３Ａの表１３０１）では値が「０」の項目であっても、疾病間の類似性と人物間の類似性から潜在的なリスクが存在する項目では、「０」より大きい値が設定される。

なお、データ定量化部１０８は、疾病が発生した場合には、値＝「１」を保持し、疾病がなく、検査値にも異常がない健康体の場合には、値＝「０」を保持する。

＜モデル学習部の詳細＞
続いて、モデル学習部１０９の処理について説明する。モデル学習部１０９は、整形情報１３０１（または１３１０）の各項目を確率変数とし、確率変数をノード、確率変数間の条件付依存関係をエッジ（またはリンク）として表現したグラフ（グラフィカルモデル）、および、条件付確率テーブルより成るモデルを生成する。ただし、エッジは有向、無向の２種類がある。また、ノードの集合をＶ、エッジの集合をＥ、グラフをＧ＝（Ｖ，Ｅ）と表記する。グラフィカルモデルの特殊な場合として、ベイジアンネットワークやマルコフネットワークなどがある。

モデル学習部１０９は、整形情報１３０１（または１３１０）に基づき、整形情報の各項目を確率変数とするベイジアンネットワークなどのグラフィカルモデルを生成する。グラフィカルモデルの項目としては、例えば、図１１の整形情報（表）１１０１の１行目に記載されている性別２０４、年齢２０５、傷病名コード１０（１１０３）、傷病名コード２０（１１０４）、ＢＭＩ１１０８、腹囲１１０９などが挙げられる。

＜グラフィカルモデルの例＞
以下では、生成されるグラフィカルモデルについて、例を挙げて説明する。

（ｉ）単純なモデル（基本的な考え方）
図１９Ａは、２つのノードから成る単純なモデルを示す図である。図１９Ａにおいて、Ｘ年経口薬処方回数をＸ年の糖尿病の経口薬処方回数を表す確率変数とし、Ｘ＋Ｎ年インスリン処方回数をＸ＋Ｎ年の糖尿病のインスリン処方回数を表す確率変数とする。それぞれの確率変数を表すノードを、ｖ１、ｖ２とすると、図１９Ａのグラフは、ｖ１、ｖ２の２つのノード、およびｖ１からｖ２への有向エッジｅ１より成る。また、Ｖ＝（ｖ１，ｖ２）、Ｅ＝（ｅ１）とすると、図１９Ａのグラフは、Ｇ＝（Ｖ，Ｅ）と表すことができる。

次に、図１９Ｂは、条件付確率テーブル２００１の一例を示す図である。図１９Ａにおいて、ノードｖ１、ｖ２が表す確率変数をそれぞれｘ１、ｘ２とすると、図１９Ａで示されるグラフＧは、ｘ１とｘ２の同時分布ｐ（ｘ１、ｘ２）がｐ（ｘ１、ｘ２）＝ｐ（ｘ２｜ｘ１）ｐ（ｘ１）により与えられることを示している。

つまり、ｘ２の確率分布は、ｘ１の値に依存し、ｘ１に関する条件付き確率ｐ（ｘ２｜ｘ１）により与えられる。確率変数ｘ１には親ノードがないため、ｘ１の確率分布はｐ（ｘ１）となる。これは、何も情報が無いときにｘ１の値を取る確率を表している。一方、条件付き確率ｐ（ｘ２｜ｘ１）は、ｘ１の値を取った時にｘ２の値となる確率を表している。

条件付確率テーブルは、ｐ（ｘ１）とｐ（ｘ２｜ｘ１）の値である。ｐ（ｘ１）の確率テーブルは、ｘ１の各値に対する確率値である。図１９Ｂの２００１にｐ（ｘ１）の例を示す。表２００１は、例えば、ｐ（ｘ１＝０）＝ａ１はｘ１＝０となる確率がａ１であることを示す。これは、モデル生成用のレセプト整形情報の事例（被保険者）のうち、Ｘ年に経口薬処方回数が０であった人の割合を計算することにより得ることができる。ａ２、ａ３、…、も同様にして計算できる。ｐ（ｘ１）は確率分布であるので、Σｐ（ｘ１）＝１となる。ここで、総和はｘ１の全ての値に対して算出される。

図１９Ｃは、条件付確率テーブル２００２の一例を示す図である。ｐ（ｘ２｜ｘ１）の条件付確率テーブル２００２は、ｘ１、ｘ２の各値に対して、ｐ（ｘ２｜ｘ１）を算出することで得られる。例えば、ｐ（ｘ２＝ｓ２｜ｘ１＝ｓ１）は、ｘ１＝ｓ１となる事例のうち、ｘ２＝ｓ２となっている事例の割合を計算することで得られる。この計算により、確率テーブルが得られる。

図１９Ａ及び図１９Ｂのような単純な例の場合には、図１９Ａに示すグラフＧと図１９Ｂに示す条件付確率テーブル２００１がグラフィカルモデルとなる。このグラフィカルモデルを用いることにより、例えば、ある被保険者のある年の経口薬処方回数が分かっている場合に、その被保険者がＮ年後、インスリンを処方される回数の確率分布を算出することができる。

例えば、今年、経口薬処方回数が１の場合に、Ｎ年後、インスリンを２回処方される確率は、Ｐ（ｘ２＝２｜ｘ１＝１）により与えられる。

（ii）より複雑なモデル
次に、図１９Ａの場合よりも確率変数の数を増やした場合のモデルについて、図２０で示される例を用いて説明する。図２０は、確率変数の数を増やしたモデルの一例を示す図である。

図１９Ａでは、Ｘ＋Ｎ年のインスリン処方回数を予測したいとき、確率変数としてＸ年の経口薬処方回数のみを用いている。

しかし、Ｘ＋Ｎ年のインスリンの処方回数は、血糖値が高い人のほうが大きいと予想できる。また、血糖値は年齢にも依存すると予想することもできる。

そこで、図２０に示されるように、例えば、Ｘ年経口薬処方回数、Ｘ年血糖値、及びＸ年年齢を用いてＸ＋Ｎ年インスリン処方回数を予測した方が、より正確な予測ができると想定される。

ここで、Ｘ年経口薬処方回数、Ｘ年血糖値、Ｘ年年齢、及びＸ＋Ｎ年インスリン処方回数を表す確率変数を、それぞれ、ｘ１、ｘ２、ｘ３、ｘ４、これらを表すノードをｖ１、ｖ２、ｖ３、ｖ４とする。この場合、グラフのノード集合は、Ｖ＝（ｖ１，ｖ２，ｖ３，ｖ４）と表すことができる。また、３つの有向エッジが定義されており、Ｘ１からＸ４，Ｘ２からＸ４，Ｘ３からＸ４への有向エッジを、それぞれｅ１、ｅ２、ｅ３とすると、エッジ集合は、Ｅ＝（ｅ１、ｅ２、ｅ３）と表すことができる。

そして、グラフはＧ＝（Ｖ，Ｅ）と表される。このグラフにより、確率変数ｘ１、…、ｘ４の同時分布は、ｐ（ｘ１、ｘ２、ｘ３、ｘ４）＝ｐ（ｘ４｜ｘ１、ｘ２、ｘ３）ｐ（ｘ１）ｐ（ｘ２）ｐ（ｘ３）となる。そして、条件付き確率テーブルは、ｐ（ｘ１）、ｐ（ｘ２）、ｐ（ｘ３）、ｐ（ｘ４｜ｘ１、ｘ２、ｘ３）を確率変数ｘ１、…、ｘ４の各値に対して計算することにより得られる。このモデルを用いることにより、Ｘ年経口薬処方回数だけでなく、Ｘ年血糖値が分かっている場合には、より正確にＸ＋Ｎ年インスリン処方回数が予測できるようになる。

上述した図１９Ａ〜図１９Ｃや図２０のような小規模なモデルの場合には、Ｘ＋Ｎ年インスリン処方回数の確率分布が何に依存しているか、経験や知識に基づいて定義することも可能である（つまり、従来方法を用いてもそれほど複雑ではない）。

しかしながら、モデルの規模が大きくなると困難となる。例えば、Ｘ＋Ｎ年インスリン処方回数は、性別やＢＭＩ値など、他の糖尿病関連の医科処方項目や薬剤、問診、健診の何らかの項目に依存する可能性がある。また、経口薬処方回数や血糖値自体も、他の項目に依存する。そのため、本発明では、レセプト整形情報（１２０１〜２０７）の項目のように確率変数が大規模になる場合には、その確率的依存関係（エッジ）をデータに基づいて自動的に生成する。

例えば、３年後の発症確率や医療費を予測したい場合には、Ｘ年とＸ＋３年のレセプト整形情報（１２０１〜２０７）の項目を確率変数としたグラフィカルモデルを生成すればよい。これらは過去の医療データから生成され、例えば、２００８年と２０１１年、２００９年と２０１２年のデータを用いるなど、３年分の過去データを用いる。

このとき、同一被保険者のデータであっても、２００８年と２０１１年の医療データと、２００９年と２０１２年の医療データは、別の事例として、学習に利用できる。医療費を予測する場合には、Ｘ＋Ｎ年医療費を確率変数とするノードを入れておく。

（iii）グラフィカルモデルの生成例
次に、図２１Ａを用いて、グラフィカルモデルの生成例について説明する。図２１Ａは、Ｘ年の項目とＸ＋Ｎ年の項目を表わすノードより構成されるグラフィカルモデルの一例を示す図である。

図２１Ａに示すグラフィカルモデルは、Ｘ年の項目とＸ＋Ｎ年の項目を表わすノード（図中丸印）より構成される。項目間のエッジは３種類となっている。１つ目は、Ｘ年のＢＭＩ値とＸ年のコレステロール値などのように、同一年の項目の間のエッジ（リンク）であり、図では細実線で示されている。２つ目は、Ｘ年の糖尿病経口薬処方有無とＸ＋Ｎ年の糖尿病経口薬処方有無のように、異なる年の項目名（年の部分を除く）が同じである項目の間のエッジであり、図では太実線で示されている。３つ目は、Ｘ年の血糖値とＸ＋Ｎ年の経口薬処方有無のように、異なる年の項目名（年の部分を除く）が異なる項目の間のエッジであり、図では破線で示されている。

これらの３種類のエッジの意味について説明する。まず、細実線で示した同一年の項目の間のエッジについて説明する。同一年の項目間エッジでは、同一年の項目間の確率的依存性を示す。例えば、ＢＭＩ値が高い場合には、コレステロール値も高い傾向があるため、これら２つの項目には確率的な依存性がある。このような傾向は、年が変わっても大きく変化するものではないため、Ｘ年のノード群とＸ+Ｎ年のノード群のエッジ構造は、同一にするという拘束条件をつけてもよい。このような条件の下、整形情報１１０１の事例データを用いて、同一年の項目の間のエッジを学習する。これには、ベイジアンネットワークやマルコフネットワークの既存の構造学習方法を用いることができる。このとき、整形情報１１０１の各行が１つの事例となり、データ年を除く項目が確率変数（ノード）となる。事例として、異なるデータ年の事例が混在していてもよい。

次に、太実線で示した異なる年の項目名（年の部分を除く）が同じである項目の間のエッジについて説明する。これは、項目の経年的な状態変化（遷移）を表わす。例えば、図に示すようなＸ年の糖尿病経口薬処方有無からＸ＋Ｎ年の糖尿病経口薬処方有無へのエッジである。これは、Ｘ＋Ｎ年の糖尿病経口薬処方の有無が、Ｘ年の糖尿病経口薬処方の有無の状態に依存していることを示している。例えば、Ｘ年に糖尿病経口薬の処方を受けた人はＸ＋Ｎ年にも糖尿病経口薬の処方を受ける可能性が高いと考えられる。

逆に、Ｘ年に糖尿病経口薬の処方を受けなかった人はＸ＋Ｎ年に糖尿病経口薬の処方を受ける可能性は低いと考えられる。同様にして、将来の各項目の状態は、現在の各項目の状態に依存していると考えられるため、このエッジは、すべてのＸ年とＸ＋Ｎ年の項目名が同じである項目の間に定義してもよい。

さらに、破線で示した異なる年の項目名（年の部分を除く）が同じでない項目の間のエッジについて説明する。これは、上述したＸ年とＸ＋Ｎ年の項目名（年の部分を除く）が同じ項目の間の経年的な遷移に影響を及ぼす因果を示している。図２１Ａでは、例えば、Ｘ年の血糖値からＸ＋Ｎ年の糖尿病経口薬処方有無にエッジがある。これは、Ｘ＋Ｎ年の糖尿病経口薬処方有無の状態が、Ｘ年の血糖値に依存していることを示している。Ｘ年に糖尿病経口薬の処方がない人が、Ｘ＋Ｎ年に糖尿病の経口薬の処方を受ける確率は、その人のＸ年の血糖値の値が高いほど、高いと想定される。

そのため、Ｘ＋Ｎ年の糖尿病経口薬処方の有無をより正確に予測するために、Ｘ年の血糖値の情報が有効であると想定される。このように、これらのエッジは、Ｘ年からＸ＋Ｎ年へのある項目の状態遷移が、他のＸ年の項目の状態に確率的に依存していることを示している。これらのエッジは、確率的依存性が一定以上となるようなＸ年とＸ＋Ｎ年の同一でない項目間に定義される。例えば、単純な方法では、相関係数を計算し、ある閾値以上の項目間に定義してもよい。また、同一の健保加入者のある年のデータとその年からＮ年後のデータを１つの事例として、多数の事例を用いてベイジアンネットワークやマルコフネットワークの構造学習法によってエッジを学習してもよい。例えば、Ｎ＝３の場合には、同一の健保加入者の２００４年と２００７年のデータを１つの事例として扱う。

以上のようにして３種類のエッジを定める。これらのエッジは、まとめて、ベイジアンネットワークやマルコフネットワークの構造学習法により、整形情報１１０１の事例を用いて生成してもよいし、各々の種類で独立に整形情報１１０１の事例を用いて生成してもよい。また、実細線の構造はＸ年とＸ＋Ｎ年で同一とする拘束条件を与えてもよい。さらに、太実線のエッジは、全てのＸ年とＸ＋Ｎ年の同一項目名の項目間に定めてもよい。なお、構造学習の際には、整形情報記憶部１１４に保存されている定量化前の医療データ（１３０１等）を用いても良い。

また、性別等の基本情報は、年によって変化する性質のものではないため、Ｘ＋Ｎ年のノードとリンクをもつ、という条件で学習する。また、Ｘ＋Ｎ年の医療費ノードは、そのノードから、Ｘ＋Ｎ年の他のノードに向かう有向リンクを学習するように拘束条件を与えても良い。これは、医療費は多くのノードと関連する傾向が強いため、それらのノードから医療費ノードに向かう有向リンクが張られると、医療費の親ノードが膨大となり、推論時の効率や確率テーブルの計算精度が落ちることを防ぐためである。

さらに、実際の予測の際に、Ｘ年のノードに現在の状態を設定し、Ｘ＋Ｎ年のノードの状態を推論するため、Ｘ年のノード同士の推論は必要がない。そのため、Ｘ＋Ｎ年のノードが未観測の状態で、Ｘ年のノード同士が独立になる、という拘束条件で学習してもよい。例えば、異なるＮ年のノード同士を結ぶ有向閉路と、異なるＮ年を共通の子ノードとしてもつＸ＋Ｎ年のノード、が存在しないように拘束条件を与えて学習してもよい。なお、エッジ構造の学習においては、定量化後のデータを用いても良い。

以上の方法により、項目間のエッジを定めることができる。項目はＸ年の項目とＸ＋Ｎ年の項目を含む。その際、定量化データの値ｖは、０の事例が１−ｖ個、１の事例がｖ個あるとして考える。図２２Ａは、傷病名コードと確率の関係を示すテーブルである。例えば、図２２Ａのデータについて、傷病名コード１０（１３１５）、傷病名コード２０（１３１６）、傷病名コード３０（１３１７）の３つのノードが関係する（例えば、傷病名コード１０と傷病名コード２０のノードが傷病名コード３０の親ノードである場合など）確率テーブルを生成する場合を検討する。図２２Ａに示す、健保加入者ＩＤ１３０２＝Ｋ００１１の事例２３０１は、図２２Ｂのテーブル２３０２に示すように４つの事例に分解し、上の行から、それぞれ０．８１人分、０．０９人分、０．０９人分、０．０１人分とカウントする。

図２２Ｂの最初の行の０．８１人分は、図２２Ａの傷病名コード１０の０．１より、傷病名コード１０が０である割合が０．９＝１−０．１、図２２Ａの傷病名コード２０の０．１より、傷病名コード２０が０である割合が０．９＝１−０．１、として、０．９×０．９＝０．８１として算出したものである。

このエッジに基づいて、条件付確率のテーブルを、定量化データを用いて生成する。定量化データの値ｖは、０の事例が１−ｖ個、１の事例がｖ個あるとして考える。例えば、図２２Ａのデータについて、傷病名コード１０、傷病名コード２０、傷病名コード３０の３つのノードが関係する（例えば、傷病名コード１０と傷病名コード２０のノードが傷病名コード３０の親ノードである場合など）確率テーブルを生成する場合、健保加入者ＩＤ１３０２＝Ｋ００１１の事例２３０１は、図２２Ｂのテーブル２３０２に示すように４つの事例に分解し、上の行から、それぞれ０．８１人分、０．０９人分、０．０９人分、０．０１人分とカウントする。図２２Ｂは、傷病名コードの確率テーブルの一例を示す図である。

最初の行の０．８１人分は、傷病名コード１０の０．１より、傷病名コード１０が０である割合が０．９＝１−０．１、傷病名コード２０の０．１より、傷病名コード１０が０である割合が０．９＝１−０．１、として、０．９×０．９＝０．８１として算出したものである。傷病名コード３０については、値が１であるため、分解の必要はない。このように、１人分の事例を分解し、それぞれに重みを付ける。これにより、例えば、Ｐ（Ｃ＝１｜Ａ＝１）は、
Ｐ（Ｃ＝１｜Ａ＝１）＝（Ａ＝１かつＣ＝１である重み付き事例数）／（Ａ＝１である重み付き事例数）
により計算する。Ａ＝１である重み付き事例数とは、テーブル２３０２のように展開した後の、Ａ＝１となる事例の重みの合計値である。

以上の方法により生成した図２１Ａ，図２１Ｂに示したグラフ（ノードとエッジ）と確率テーブル２３０２は、予測モデルとして予測モデル記憶部１１６に記憶される。なお、このようなグラフィカルモデルは、性別や年齢、国籍などによって大きく異なる場合がある。そのため、このようなグラフィカルモデルは、性別ごと、年齢ごと、国籍ごと、など、必要に応じて別々に生成してもよい。

なお、上記においては、グラフの構造（エッジ）を学習する際には、定量化前の整形情報１３０１（１１０１）を用いたが、定量化後の情報（定量化データ１３１０）を用いても良い。

定量化後の情報による学習処理の一例を図１７を用いて示す。図１７は、モデル学習部１０９がグラフの構造を学習する処理の一例を示すフローチャートである。

この例では、まず最初に、モデル学習部１０９は、エッジ構造を初期化し、学習データ（定量化データ１３１０）に基づくエッジ構造の適応性を測る指標を用いて、この指標が大きくなるようにエッジ構造を変形させる操作を繰り返すことにより、構造を学習する。適応性の指標には、例えば、ＢＤｅスコアなどを用いることができる。

まず、構造初期化２８０１では、モデル学習部１０９が定量化データ１３１０に基づくエッジ構造を初期化する。これは、事前に別の方法で生成したエッジ構造を用いても良いし、ランダムにエッジを生成してもよいし、エッジが全くなく、ノードが孤立したものを用いても良い。ただし、グラフがベイジアンネットワークになるようにする。

次に、収束判定２８０２では、モデル学習部１０９が学習の収束の判定を行い、所定の収束条件を満たした場合には処理を終了し、収束していないと判断された場合には、変形スコア算出２８０３の処理に移る。モデル学習部１０９は最初に収束判定２８０２を行う場合には、無条件に変形スコア算出２８０３に進む。２回目以降の収束の判定方法については、後に説明する。

変形スコア算出２８０３では、モデル学習部１０９が全てのノードのペアについて、エッジが無い場合にはエッジの追加、エッジがある場合にはエッジの削除、反転の各操作を行い、各操作を行った場合の指標の増減を計算する。ただし、操作を行った際に、ベイジアンネットワークの条件が崩れる場合には、その操作は対象から外す。このとき、指標値を計算する必要があるが、確率テーブルの場合と同様に、図２２Ｂのように、スコアの計算に関連するノードに関して、重み付きでデータを展開して計算する。

構造変形操作２８０４では、変形スコア算出２８０３において、モデル学習部１０９が最も指標値の増加が大きくなる操作を選択し、当該操作により、エッジ構造を変形する。モデル学習部１０９は、変形スコア算出２８０３において、いずれの操作においても指標値の増加が無い場合には、エッジ構造の変形は行わない。

収束判定２８０２では、構造変形操作２８０４でエッジ構造の変形が無かった場合には、モデル学習部１０９が収束したと判定し、処理を終了する。それ以外の場合には、モデル学習部１０９が収束しなかったと判定し、変形スコア算出２８０３に進んで上記処理を繰り返す。

上記処理によって、モデル学習部１０９は、定量化データ１３１０を用いてグラフの構造（エッジ）を学習し、グラフ（グラフィカルモデル）の更新と確率テーブルの更新を行うことができる。

＜発症確率・医療費予測処理の詳細＞
次に、予測部１１０の処理の詳細について説明する。予測部１１０は、予測モデル記憶部１１６に格納された予測モデル（グラフと確率テーブル）を用いて、健保加入者の将来の疾病の発症確率、および医療費を予測する。予測モデル記憶部１１６に格納されたグラフィカルモデル（ノードとエッジ）を用いると、一部の確率変数（項目）に既知の値が与えられたときの未知の確率変数（項目）の各状態を取る確率の分布を算出することができる。

例えば、個人の今年の健診、問診、レセプトのデータが与えられたとき、予測部１１０は、Ｘ年の確率変数（項目）の値を既知として、残りのＸ＋Ｎ年の確率変数（項目）の確率分布を算出することができる。また、例えば、個人の今年の健診、問診、レセプトのデータが与えられたとき、予測部１１０は、Ｎ年後にその人が糖尿病経口薬の処方を受ける確率、受けない確率を算出することができる。同様にして、Ｎ年後の他の項目の各値に対する確率分布も得られる。これにより、予測部１１０では、例えば、Ｘ＋Ｎ年の医療費の確率分布を算出することができ、よって医療費の期待値が得られる。同様にして、医科、薬剤の処方の確率分布を予測部１１０で算出することにより、ある病気の発症確率が計算できる。このような確率推論には、ＪｕｎｃｔｉｏｎＴｒｅｅＡｌｇｏｒｉｔｈｍなどを用いることができる。これにより、各被保険者の今年のデータに基づいて、Ｎ年後の発症確率、医療費を予測できる。

図２１Ａで示した例を用いて、予測部１１０が疾病の発症予測または医療費予測の例について説明する。まず、今年分の健診、問診、レセプトのデータが得られた場合、予測部１１０は図２１ＡのＸ年ノード群に、得られたデータを観測データとして設定する。このとき、Ｘ年の項目の未知項目があってもよい。たとえば、未検査項目や問診等の未回答項目などは未知となる。

予測部１１０は、まず、図２１Ａの実線で示したＸ年ノード間のエッジに基づいて、観測データから、Ｘ年の未知項目の状態を確率推論により推定する。これにより今年の既知項目の値と、今年の未知項目の各状態の推定確率が得られる。

次に、予測部１１０がＮ年後の各項目の状態の確率を、図２１Ａの太実線と点線で示されたエッジに基づいて確率推論により推定する。これにより、予測部１１０はＮ年後の各項目の各状態の推定確率を得ることができる。これに基づいて、例えば、検査値、医療費の期待値を予測部１１０が計算することにより、Ｎ年後の検査値、医療費などの予測値が得られる。

今、２Ｎ年後の状態を予測したいとする。この場合には、現在とＮ年後の層（ノード群）と同一の構造をＮ年後と２Ｎ年後の層（ノード群）にも用いることができる。図２１ＢのＮ年後と２Ｎ年後の層（ノード群）は、図２１ＡのＸ年とＸ＋Ｎ年の層（ノード群）の構造と同一だからである。

そして、Ｎ年後の各項目の各状態の推定確率に基づいて、予測部１１０は２Ｎ年後の各項目の各状態の推定確率を計算する。これにより、図２１Ｂで示すように２Ｎ年後の状態が予測できる。これを繰り返すことにより、３Ｎ年後、４Ｎ年後、のように将来の状態が予測できる。

以上により、予測部１１０は各健保加入者の今年の健診、問診、レセプトの結果などを用いて、Ｎ年後、２Ｎ年後、３Ｎ年後、など所望の未来の病気の発症確率や、医療費などを予測することができる。

＜保健指導支援処理の詳細＞
保健指導支援部１１１は、将来の病気の発症や重症化を予防するための指導を支援する機能を提供する。ここでは、健康保険事業者が保健指導計画を策定するための支援機能について説明する。

一般的に、健康保険事業者は、保健指導による予防効果が高い対象者を予算内で優先的に選び、各対象者に適した費用対効果の高い指導を行うことを望んでいる。また、通常、健康保険事業者が提供できる保健指導サービスは複数ある（保健指導サービス１、保健指導サービス２、…、など）。例えば、保健指導サービス１は、主にＢＭＩ値を減らすための指導、保健指導サービス２はコレステロール値を下げるための指導などである。

図１５は、本発明の実施例による健康保険事業者向け支援処理を説明するためのフローチャートである。この処理は、所定のタイミングで保健指導支援部１１１によって実行される。

（ｉ）対象疾病設定処理（ステップ１６０１）
保健指導支援部１１１は、保険事業者（ユーザ）の入力に従って、処理対象とする疾病を設定する。例えば、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象とする場合、レセプト整形情報（１１０３〜２０７）の項目のうち、糖尿病、脂質異常症及び高血圧症に該当する医療行為の項目、健康診断の項目、及び問診の項目を予測の対象とする。

（ii）保健指導サービス設定処理（ステップ１６０２）
保健指導支援部１１１は、保険事業者（ユーザ）の入力に従って、保健指導サービスの種類と各保健指導サービスの想定効果を設定する。例えば、保健指導サービス１の想定効果は、体重５ｋｇ減などである。

（iii）保健指導効果予測処理（ステップ１６０３）
予測部１１０は、全ての保健指導サービスと保健指導対象候補者の組み合わせについて、以下のようにして医療費の削減効果を予測する。ここでは、保健指導サービス１と保健指導対象候補者１との組み合わせについて医療費の削減効果を考える。

最初に、予測部１１０は、保健指導サービスを行わない場合の保健指導対象候補者１の翌年の医療費を予測する。具体的に、予測部１１０は、今年の保健指導対象候補者１のレセプト、健康診断、及び問診の値に基づいて、今年の項目に対応するノードの状態を設定し、医療費（Ｃ１）を予測する。

次に、予測部１１０は、保健指導サービスにより検査値が改善した値を、今年の保健指導対象候補者１の値に設定し、翌年の医療費（Ｃ２）を予測する。Ｃ１が保健指導を行わない場合の予測医療費、Ｃ２が保健指導を行った場合の予測医療費となるため、保健指導サービスの実施に必要な費用をＣ３とすると、医療費の削減費用対効果は、Ｅ＝Ｃ１−Ｃ２−Ｃ３により計算することができる。この処理を全ての保健指導サービスと保健指導対象候補者との組み合わせに対して行い、医療費の削減費用対効果Ｅを計算する。

（ｉｖ）保健指導内容策定処理（ステップ１６０４）
保健指導支援部１１１は、保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費の削減費用対効果が高い組み合わせを選択し、選択された保健指導対象候補者を選択済みとする。

次に、保健指導支援部１１１は、選ばれていない保健指導対象候補者に対する保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費の削減費用対効果が高い組み合わせを選び、選ばれた保健指導対象候補者は選択済みとする。このようにして、効果の高い順に保健指導サービスと保健指導対象候補者との組み合わせを選択することができる。

保健指導支援部１１１は、保健指導の予算の範囲で、効果が高い順に保健指導対象者と保健指導サービスの組み合わせを選択し、保健指導対象者及び保健指導内容を設定する。

（ｖ）効果予測処理（ステップ１６０５）
保健指導支援部１１１は、保健指導内容策定処理（ステップ１６０４）によって選択された組み合わせの医療費の削減費用対効果を合計し、医療費削減効果から保健指導コストを減じた値を効果として出力する。これにより、費用対効果の高い保健指導対象者と保健指導内容を選定できる。

なお、本実施例においては、定量化データをエッジ構造の構築、確率テーブルの計算に用いる例を示した。また、定量化データは発症確率や医療費予測時にも用いることができる。この場合には、定量化された予測対象に対して、すでに図２２Ａ、図２２Ｂに説明した方法によって、重み付きでデータを分解し、分解された各データの推論結果を重みによって重ね合わせた結果を用いれば良い。

具体的には、例えば、定量化データｘがｘ１、ｘ２、ｘ３に分解され、それぞれの重みがｗ１、ｗ２、ｗ３とした場合、ｘｉに対する予測結果をｐ（ｘｉ）とすると、ｗ１×ｐ（ｘ１）＋ｗ２×ｐ（ｘ２）＋ｗ３×ｐ（ｘ３）として計算できる。

また、別の方法として、推論を行う際に、ひとつひとつの確率テーブルを用いた計算において、確率テーブルが関連するノードに関して、図２２Ａ、図２２Ｂに説明した方法によって、重み付きでデータを分解し、分解された各データの確率テーブルを用いた重み付き計算を行うことでも計算できる。この方法では、分解を局所的に行うため、確率テーブルに関連するノードに関してのみ分解をするため、分解データが膨大になることを抑制できる。

ここで、予測時において定量化データを用いる場合には、注意を要する。今、Ｘ年の学習用データをＡ１、Ｘ＋Ｎ年の学習用データをＡ２、現在の予測対象データをＢ１、Ｎ年後の予測対象データをＢ２とすると、運用時にはＢ２は存在しない。ここで、Ｂ１のデータの項目をＸ年のデータの項目と考え、Ａ１、Ｂ１を用いて定量化を行う。

図２５Ｂは、Ｘ年と予測対象のデータを合わせたテーブルである。テーブル２６０２にはＸ年と予測対象のデータを合わせた例を示した。これを、定量化することで、学習データと予測対象を組み合わせた定量化が可能である。

なお、定量化データの使い方において、エッジ構造の構築、確率テーブルの計算、予測時、のそれぞれにおいて、算出した定量化データを使うか使わないか、の組み合わせにて、８通りの構成が可能である。さらに、これらの各々の構成について、学習用データに関して、Ｘ年のデータのみを定量化するか、Ｘ＋Ｎ年のデータのみを定量化するか、両方を定量化するか、の３通りの構成がある。

以上のように、本実施例１によれば、医療データ分析装置１０１は、傷病名や診療行為や薬品の処方などの記録を含む二値（離散値）の元データから定量化対象を選択し、定量化対象のデータについて疾病リスクを加味して定量化データを生成する。医療データ分析装置１０１は、定量化データを用いて疾病空間と人物空間を生成する。そして、医療データ分析装置１０１は、疾病空間と人物空間のテンソル空間を算出し、疾病空間と人物空間の類似性を同時に計算する。医療データ分析装置１０１は、テンソル空間上での確率分布から予測モデルを生成する。なお、予測モデルの生成は、ベイジアンネットワークやマルコフネットワーク、あるいは、多次元ガウス過程などの手法を用いることができる。そして、医療データ分析装置１０１は、定量化データに基づく予測モデルを用いて将来の疾病の発症確率や医療費の予測を高精度で行うことができる。

また、本発明では、疾病の発症事例が少ない場合でも高精度の予測ができるので、保健指導による予防効果が高い対象者を予算内で優先的に選択し、選択した対象者に適した費用対効果の高い指導を行うことが可能となる。また、本発明では、定量化データから算出した予測モデルには、個人を特定する情報を含まないため、匿名化を計ることができる。

また、元データから選択する定量化対象は、元データの全てを選択することができ、あるいは、図１３Ｃで示したように、元データのうち所定の条件を満たす一部であってもよい。

本実施例２では、データ定量化部１０８の別の実施例を示す。その他の部分の処理は、前記実施例１と同様の構成である。図２４を用いて、処理の流れを説明する。

まず、定量化対象データ抽出２５０１では、データ定量化部１０８が、定量化の対象とする項目とそのデータを選定する。選定するデータは、例えば、図１８Ａの表１９０１である。図１８Ａの表１９０１は、定量化の対象とした項目とそのデータ（元データ）の例である。この例では、疾病Ａ，疾病Ｂ，疾病Ｃ，疾病Ｄなどの項目が選定され、各人（表１９０１ではＩＤで示されている）のデータが表形式で示されている。

いま、選定された項目を値として設定する変数をｙとし、人（ＩＤ）を値として設定する変数をｘとする。このとき、変数ｘとｙの組（ｘ、ｙ）に対して、表１９０１に示すような離散値が与えられている。表１９０１において、例えば、ｙ＝疾病Ｂ，ｘ＝ＩＤ２のときには、値は１となっている。以下では、変数ｘに設定される値をｘ１、ｘ２、…、ｘｎとし、変数ｙに設定される値をｙ１、ｙ２、…、ｙｍとする。

ここで、ｚをＫ個の状態をとる潜在変数として、変数（ｘ、ｙ）の組に対して値が１である確率は、
Ｐ（ｘ、ｙ）＝ΣＰ（ｘ｜ｚｉ）Ｐ（ｙ｜ｚｉ）Ｐ（ｚｉ）
により与えられていると仮定する。

ここで、潜在変数の状態数Ｋは予め定めておく。Σは潜在変数の各状態ｚｉについて和を計算することを示す。ここで、Ｐ（ｘ｜ｚ），Ｐ（ｙ｜ｚ）はともに多項分布であり、０以上１以下のパラメータθｚｘｉ、θｚｙｉを用いて、
Ｐ（ｘ＝ｘi｜ｚ）＝θｚｘｉ
Ｐ（ｙ＝ｙｊ｜ｚ）＝θｚｙｉ
により表わされる。多項分布であるため、
Σθｚｘｉ＝１
Σθｚｙｉ＝１
である。ここで、Σは全てのｉに対して和を算出する。

このモデルのパラメータθｚｘｉ、θｚｙｉ、Ｐ（ｚｉ）を表１９０１に示すデータより推定することで、潜在変数ｚを通してｘとｙの共起性を学習することができる。パラメータはＥＭアルゴリズムにより推定する。この推定は、この確率モデルで図１８Ａの表１９０１に示すような元データが再現される確率に対数を算出して数尤度
ΣｌoｇP（ｘ、ｙ）
が大きくなるように、反復処理によりパラメータを推定する。ここで、Σは元データにおいて「１」の値をもつ全ての変数（ｘ、ｙ）の組について算出される。

以下では、ＥＭアルゴリズムによる上記パラメータの推定処理について説明する。

図２４のパラメータ初期化２５０２では、データ定量化部１０８がモデルのパラメータθｚｘｉ、θｚｙｉ、Ｐ（ｚｉ）を初期化する。パラメータθｚｘｉには０以上１以下の実数値をΣθｚｘｉ＝１となるように設定する。パラメータθｚｙｉも同様である。また、パラメータＰ（ｚｉ）も同様に０以上１以下の実数値をΣＰ（ｚｉ）＝１となるように設定する。設定する値はランダムに発生させたものを用いても良い。このとき、ここで定めたパラメータを用いて対数尤度も計算しておく。

収束判定２５０３では、データ定量化部１０８が前回の処理と比較して、対数尤度の変化が予め定めた閾値以下であるか否かを判定し、変化が閾値以下であれば、収束した徒判定して確率値計算２５０７に移り、そうでなければ、潜在変数分布推定２５０４の処理に移る。なお、データ定量化部１０８が初めて収束判定２５０３の処理を行う場合には、前回の処理がないため、潜在変数分布推定２５０４の処理に移る。

潜在変数分布推定２５０４では、データ定量化部１０８が現在のパラメータθｚｘｉ、θｚｙｉ、Ｐ（ｚｉ）を用いて、変数ｘ＝ｘｉ、変数ｙ＝ｙｊの条件付きでのｚｋ（ｋ＝１、２、…、K）の確率分布Ｐ（ｚｋ｜ｘｉ、ｙｊ）を計算する。具体的には、
Ｐ（ｚｋ｜ｘｉ、ｙｊ）＝Ｐ（ｚｋ）Ｐ（ｘｉ｜ｚｋ）Ｐ（ｙｊ｜ｚｋ）／［ΣＰ（ｚｋ）Ｐ（ｘｉ｜ｚｋ）Ｐ（ｙｊ｜ｚｋ）］
により計算できる。ここで、分母のΣは全てのｋに対して和を計算する。

次に、パラメータ推定２５０５では、データ定量化部１０８が潜在変数分布推定２５０４で計算したＰ（ｚｋ｜ｘｉ、ｙｊ）に基づいて、パラメータθｚｘｉ、θｚｙｉ、Ｐ（ｚｉ）を推定する。具体的には、
θｚｋｘｉ＝Ｐ（ｘｉ｜ｚｋ）＝ΣｊＩ（ｘｉ、ｙｊ）Ｐ（ｚｋ｜ｘｉ、ｙｊ）／ΣｉΣｊＩ（ｘｉ、ｙｊ）Ｐ（ｚｋ｜ｘｉ、ｙｊ）
θｚｋｙｊ＝Ｐ（ｙｊ｜ｚｋ）＝ΣｉＩ（ｘｉ、ｙｊ）Ｐ（ｚｋ｜ｘｉ、ｙｊ）／ΣｉΣｊＩ（ｘｉ、ｙｊ）Ｐ（ｚｋ｜ｘｉ、ｙｊ）
Ｐ（ｚｋ）＝ΣｉΣｊＩ（ｘｉ、ｙｊ）Ｐ（ｚｋ｜ｘｉ、ｙｊ）／ΣｉΣｊＩ（ｘｉ、ｙｊ）
により与えられる。ここで、Σｉは全てのｉについて、Σｊは全てのｊについて和を計算することを示し、Ｉ（ｘｉ、ｙｊ）は、変数の組（ｘｉ、ｙｊ）について、元データ（表１９０１）での値が１のときは「１」、「０」のときは０の値とする関数である。

尤度計算２５０６では、データ定量化部１０８がパラメータ推定２５０５で推定したパラメータθｚｘｉ、θｚｙｉ、Ｐ（ｚｉ）を用いて、対数尤度ΣｌｏｇＰ（ｘ、ｙ）を計算する。ここで、Σは元データにおいて１の値をもつ全ての変数（ｘ、ｙ）の組について和を算出する。

収束判定２５０３では、データ定量化部１０８が直前に尤度計算２５０６で計算した対数尤度と、パラメータ初期化２５０２または尤度計算２５０６で計算したもうひとつ前の対数尤度との計算結果を比較する。すなわち、データ定量化部１０８は、対数尤度の前回値と現在値の差分が予め定められた閾値以下であるときに、収束したと判定して確率値計算２５０７に処理を移す。そうでない場合には、データ定量化部１０８は対数尤度が収束していないと判定して潜在変数分布推定２５０４に戻る。なお、予め定められた回数を超えて収束判定２５０３の処理を行った場合には、データ定量化部１０８が対数尤度を収束していると判定して、確率値計算２５０７の処理に移っても良い。

確率値計算２５０７では、データ定量化部１０８が上記推定したパラメータθｚｘｉ、θｚｙｉ、Ｐ（ｚｉ）を用いて、各（ｘ、ｙ）の組に対して
Ｐ（ｘ、ｙ）＝ΣＰ（ｘ｜ｚｉ）Ｐ（ｙ｜ｚｉ）Ｐ（ｚｉ）
を計算する。図１８Ｂの表１９０２には、この演算の結果の例を示した。図１８Ｂは、疾病が発症する確率を健保加入者ＩＤごとに算出した表１９０２である。

ここで、項目ｙｊに対して、図１８Ａの表１９０１において、「１」の値をもつ人数をＮｊと設定する。表１９０１では、表に表示されているもののみ数えると、疾病Ａの発症人数は１人、疾病Ｂの発症人数は２人、…、などとなる。ｙｊが疾病を表わす項目の場合には、Ｎｊは発症人数となる。

同様に、図１８Ｂの表１９０２において、項目ｙｊに対してＰ（ｘ、ｙｊ）の全てのｘについて和を計算した値をＭｊとする。このとき、一般に上記の方法で表１９０２を生成すると、Ｎｊ≠Ｍｊとなる。Ｍｊの値は、例えば、ｙｊが疾病の場合には、確率値により見積もった発症人数の期待値と考えることができる。

実際に計算すると、多くの場合には、ＭｊがＮｊと比べて小さくなるが、このような表１９０２のデータを用いて予測モデルを構築すると、図１８Ａの表１９０１のデータと比較して、小さい値によって、将来の発症率、医療費を推定するモデルを構築することになるため、発症率、医療費を過大に予測するモデルが生成されてしまう。このため、本発明では、リスク定量化２５０８によって、各項目の発生数が表１９０１と同等となるように正規化を行う。

リスク定量化２５０８では、人物ｘｉ、項目ｙｊに対応する値として、
Ｑ（ｘｉ、ｙｊ）＝（Ｎｊ／Ｍｊ）Ｐ（ｘｉ、ｙｊ）
とする。この値を用いることにより、Ｑ（ｘｉ、ｙｊ）の全てのｘｉに対して和を計算した値はＮｊとなり、表１９０１の各項目の人数と一致する。このとき、Ｑ（ｘｉ、ｙｊ）が１を超える場合には、Ｑ（ｘｉ、ｙｊ）＝１と設定する。この場合には、Ｑ（ｘｉ、ｙｊ）の全てのｘｉに対して和を計算した値はＮｊより小さくなるので、この値をＬｊとし、Ｑ（ｘｉ、ｙｊ）を（Ｍｊ／Ｌｊ）Ｑ（ｘｉ、ｙｊ）に再設定する。この場合も、１を超えるものは１と置き換える。この処理を繰り返すことにより、Ｑ（ｘｉ、ｙｊ）の全てのｘｉに対して和を計算した値がＮｊに近づくため、Ｎｊとの差が予め定めた閾値よりも小さくなった時点で終了し、その場合のＱ（ｘｉ、ｙｊ）の値を用いる。図１８Ｃの表１９０３に、このようにして算出した値の例を示した。これを定量化データとして用いる。

本発明では、元データを項目間と人物間の類似度に基づいて定量化した。レセプト等に基づいて生成される元データ（表１９０１）は、処方や診断を受けたか否かの２値、あるいは、受けた回数などの離散値で表現されている。本発明では、このように医療機関での診療状況や問診での結果に表れてこない、潜在的な疾病リスクがあると考える。例えば、図１９Ａに示す表１９０１の元データでは、ある傷病名の診断を受けた場合に「１」、受けなかった場合に「０」と表現される。

しかし、これは、診断を受けたか否かの偶然にも左右される値でもあるため、本発明では、このような表面的なデータに表れない潜在的なリスクを項目間、人物間の類似度に基づいて、リスクとして定量化する。項目間、人物間の類似性を使うのは、類似した病気は異なる人に併発しやすいことや、類似した人物は同様の疾病を発症しやすいことなどを考慮したものである。

ここで、推薦に用いられる協調フィルタリングとの関連について説明しておく。例えば、複数の映画等のコンテンツの各人物の購入記録を用いて、ある人にあるコンテンツを推薦する例について説明する。購入の履歴は図２４Ａのように、映画１を人１が購入した場合に１というように表現できる。図２４Ａは、購入の履歴を示すテーブルである。この場合、購入履歴は少ないため、実際には図２４Ａに示すよりも、１の値が入る部分は少ない。この履歴より、映画の類似性と人物同士の類似性を考慮して、人ｉが映画ｊを好むであろう確率Ｐ（ｘｉ、ｙｊ）を未購入のペア（ｘｉ、ｙｊ）に対して推定する。

推薦の場合には、実際に購入した部分のみデータが存在し、それ以外ではデータは存在しない。本発明では、元データでは全て値が埋まっているが、これを敢えて未知として、疾病等の項目と人物の共起性を利用して推定する。推薦の場合には、Ｐ（ｘｉ、ｙｊ）の相対値が分かれば良い。つまり、人ｘｉに対して、最も確率Ｐ（ｘｉ、ｙｊ）の値が高くなる項目ｙｊを推薦すればよい。

しかし、本発明では、この値を用いて予測モデルを構築するため、発症期待値が元の発症人数と大きく離れていると、過大予測や過小予測をするモデルが構築され、精度の良い予測モデルを構築することができない。

そこで、本発明では、各項目ｙｊに対して、人数の期待値が元のデータの人数と大きく差が出ないように値を正規化する。推薦の技術には、確率Ｐ（ｘｉ、ｙｊ）を生成するための様々な確率モデルがあるが、本発明においても、それらを援用することができる。ただし、上記に述べたような推薦の場合と異なる処理、すなわち、正規化の処理と、値が埋まっているところを敢えて推定するための処理が必要である。実施例１、実施例２は、それぞれ非特許文献１、非特許文献２のモデルを参考にしている。

さらに、本発明では定量化データを関連ノードのデータについて分解することにより、グラフィカルモデルの構造学習、確率テーブルの計算、予測に用いる方法を提供している。

なお、上記実施例１、実施例２は、図１６に示すような構成も可能である。図１６は、医療データ分析システムの他の例を示すブロック図である。図１６の装置１７０３は、データ整形部１０７、データ定量化部１０８、モデル学習部１０９を備えており、医療データ記憶部１１３に格納された医療データを用いて、予測モデル記憶部１１６に記憶される予測モデルを生成する。

予測部１１０、保健指導支援部１１１では、モデル生成用に用いた医療データ記憶部１１３、整形情報記憶部１１４、定量化データ記憶部１１５は必要ない。このため、予測モデルを格納する予測モデル記憶部１１６のみ、ネットワークを介して別の装置１７０１に移し、予測部１１０は、この予測モデル記憶部１１６のモデルを用いて予測を行っても良い。

このとき、予測対象の人物のデータは、予測の際に装置１７０１の、入力部１０２より入力される。このような構成とすることで、モデル生成用に必要なデータを予測時にも保持しておく必要がなく、データ保護の観点から有用である。

以上のように、第２の実施例では、前記第１の実施例の効果に加え、人数の期待値が元のデータの人数と大きく差が出ないように値を正規化することができ、疾病の予測に加えて、物やサービスを推薦する技術にも適用することができる。

本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａの広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施例において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施例の考察から明らかになる。

Claims

プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する医療データ分析システムであって、
前記医療データ分析システムは、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、
前記医療データ分析システムは、
前記プロセッサが、前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成するデータ定量化部と、
前記プロセッサが、前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成するモデル生成部と、
前記プロセッサが、前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する予測部と、
を有することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記データ定量化部は、
前記定量化データを前記分析対象者の人物と疾病の両方の類似性に基づいて計算することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記データ定量化部は、
疾病の項目を軸とする疾病空間上に前記疾病に対応する人物を人物ベクトルとして配置し、前記人物ベクトルの関数として人物間の類似度を計算し、人物を軸とする人物空間上に疾病を疾病ベクトルとして配置し、疾病ベクトルの関数として疾病間の類似度を計算することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記データ定量化部は、
潜在変数を介して人物と疾病が共起することを表わすモデルを仮定して、前記定量化データを計算することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記モデル生成部は、
前記ノードとそのノードの親ノードに関する定量化データを離散値と定量値の差に基づく重み付きで離散値に分解し、前記定量化データを前記重み分の個数のデータとして確率テーブルを計算することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記モデル生成部は、
前記グラフィカルモデルの有向辺及び無向辺を学習し、前記ノードとそのノードの親ノードに関する定量化データを離散値と定量値の差に基づく重み付きで離散値に分解し、前記定量化データを重み分の個数のデータとし、当該データに基づいて、前記学習時の構造を評価することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記予測部は、
予測対象データを前記定量化データを入力として、ノードとそのノードの親ノードに関する定量化データを離散値と定量値の差に基づく重み付きで離散値に分解し、前記定量化データを重み分の個数のデータとし、当該データに基づいて推論することにより前記疾病の発症確率及び医療費の少なくとも一方を予測することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記モデル生成部は、
前記グラフィカルモデルの有向辺及び無向辺を学習し、予測対象となる医療費のノードが親ノードとなるように制限を設けて学習を行うことを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記データ定量化部は、
前記整形情報の項目の各々について、当該項目のデータを合計した値が、定量化前のデータと定量化後のデータにおいて、予め定めた閾値以下となるように、定量化することを特徴とする医療データ分析システム。
請求項１に記載の医療データ分析システムであって、
前記モデル生成部は、
前記有向辺の学習において、予測時に既知となるノード間で予測対象ノードが未観測の状態において、前記ノード同士が独立となるように学習を行うことを特徴とする医療データ分析システム。
プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有する計算機で医療データを分析する医療データ分析方法であって、
前記計算機は、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、
前記医療データ分析方法は、
前記計算機が、前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成する第１のステップと、
前記計算機が、前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成する第２のステップと、
前記計算機が、前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する第３のステップと、
を含むことを特徴とする医療データ分析方法。
プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有する計算機を制御するプログラムを格納した記憶媒体であって、
前記計算機は、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、
前記プログラムは、
前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成する第１の手順と、
前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成する第２の手順と、
前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する第３の手順と、
を前記計算機に実行させるプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。