JP6159872B2 - 医療データ分析システム、医療データ分析方法及び記憶媒体 - Google Patents

医療データ分析システム、医療データ分析方法及び記憶媒体 Download PDF

Info

Publication number
JP6159872B2
JP6159872B2 JP2016505998A JP2016505998A JP6159872B2 JP 6159872 B2 JP6159872 B2 JP 6159872B2 JP 2016505998 A JP2016505998 A JP 2016505998A JP 2016505998 A JP2016505998 A JP 2016505998A JP 6159872 B2 JP6159872 B2 JP 6159872B2
Authority
JP
Japan
Prior art keywords
data
medical
information
disease
quantification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016505998A
Other languages
English (en)
Other versions
JPWO2015132903A1 (ja
Inventor
利昇 三好
利昇 三好
泰隆 長谷川
泰隆 長谷川
信二 垂水
信二 垂水
伴 秀行
伴  秀行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015132903A1 publication Critical patent/JPWO2015132903A1/ja
Application granted granted Critical
Publication of JP6159872B2 publication Critical patent/JP6159872B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Description

本発明は、将来の疾病の発症予測や医療費の予測に関する医療データを分析するシステム及び方法に関する。
近年、健康保険組合は、医療費の低減と、被組合員の健康増進を目的として、生活習慣病の予防及び重症化の予防のための保健指導等の保険事業を実施している。
しかし、保健指導のために確保できる保健師や医師、及び保健指導のための費用などのリソースは限られている。このため、費用対効果の大きい効果的・効率的な保険事業の運営を支援するシステムが望まれている。なお、保健事業は、各国の医療制度に応じて異なるが、国民保険サービスの対象者や医療機関等の組織に所属する人(加入者や参加者)に対して疾病予防や健康増進施策を含む医療サービスを提供する枠組みや制度を指す。
このような保険事業の運営を支援する技術として、例えば、特許文献1には、レセプト情報、健診情報、及び保健指導情報に基づいて、保健指導の対象者を選択する保険事業支援システムが開示されている。なお、レセプト情報は、傷病名や診療行為や処方などの記録を含む情報である。
より具体的には、上記特許文献1のシステムは、健康保険加入者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する健康保険加入者を保健指導対象者として選択する対象者選択部と、を備えている。
また、一方で、非特許文献1、非特許文献2には、映画などのコンテンツの過去の購入履歴に基づいて、利用者が好むであろう、コンテンツを推薦するなどのアプリケーションに適用できる推薦の技術(協調フィルタリング)に関する記述がある。
特開2012−128670号公報
Self-measuring Similarity for Multi-task Gaussian Process. Kohei Hayashi, Takashi Takenouchi, Ryota Tomioka, and Hisashi Kashima, 2012. Latent class models for collaborative filtering, Thomas Hofmann and Jan Puzieha, 1999.
ところで、健康保険組合のリソースの中で、効果的または効率的な保険事業を行うためには、保健指導を優先的に実施する対象者を選択することが必要である。また、保健指導の内容も、個々の対象者に適したものを選択することが必要である。
上述のように、特許文献1では、医療費を予測する際に、現在の重症度及び検査値に基づいて、将来の重症度を予測し、予測重症度に基づいて将来の医療費を予測する。例えば、現在の糖尿病の重症度及び血糖値に基づいて、将来の糖尿病の重症度を予測し、その重症度の平均の医療費を予測医療費とする。この従来例では、予測モデルは人手により作成される。
しかしながら、特許文献1の技術では、病状の重症度の定義や将来の重症度の予測方法などは、過去の疫学研究や経験、知識に基づいて、人手により作成する必要がある。そのため、疾病ごとに、基準を作成する必要があり、予測モデル作成のコストが高いことや、過去の経験、知識などが蓄積されている必要がある。
また、糖尿病だけのモデルなど、単一疾病のモデルの場合と異なり、糖尿病、高血圧症、脂質異常症など、複数の疾病が絡んで複合的な要因により病気が重症化する場合などには、モデルが複雑となり、人手によるモデル作成は困難である。
さらに、重症度の定義や、将来の重症度の予測に絡む因子としては、様々な因子(要因)が考えられる。例えば、糖尿病の場合、将来の重症度の予測には、現在の血糖値の情報が有用である。他にも、年齢、性別、コレステロール値、血圧値、などが関連している可能性もある。このように、様々な因子が将来の病態の予測に関連する可能性があり、また、現在の病態によっても、どのような因子が予測に必要であるか、異なってくる。そのため、人手によるモデル作成により、これらの因子をリストアップすることは困難である。
一方、単に予測するだけでなく、どのような生活習慣が、検査値の悪化や改善につながり、どのような検査値の悪化や改善、生活習慣が病態の変化に繋がるか、病態の遷移をモデル化することができれば、病気の重症化や改善の要因を知ることができる。これができれば、病態の予測や医療費の予測だけでなく、個々人に合わせて、保健指導の必要性の判定と、適切な保健指導内容の選定を行うことができ、効率的・効果的な保健事業を行う上で有用である。
以上から分かるように、人手による予測モデルの生成には限界がある。この点、健康保険組等のように被保険者や参加者の健康管理を行う組織では、大量のレセプト情報や、健診情報、及び問診情報が蓄積されており、これらの情報には人間の病態変化に関する緻密な情報が潜在的に含まれている。これらの情報を活用し、自動的に人間の病態変化をモデル化できれば有用である。
データに基づいて病態変化をモデル化する際、データの事例数が多いほど、統計的な信頼性が向上し、より正確なモデルを作成することができると想定できる。特に、人間の病態変化をモデル化する際には、病気を発症している事例数が、相当数必要となる。しかし、一般にデータの中で、特定の病気を発症している事例数は、少なく、このことが、発症予測の精度上の課題となる。また、重症度の高い疾病や複合疾病ほど、事例数は少ない傾向にあり、そのような疾病ほど、医療費がかかるため、これらの疾病の予測精度は、医療費の予測精度に大きな影響を与える。
本発明はこのような状況に鑑みてなされたものであり、データを用いて、少ない発症事例数の中から、精度良く発症予測、医療費予測をおこなうことができるモデルを構築する技術を提供するものである。
本発明は、プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する分析システムであって、前記分析システムは、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、前記分析システムは、前記プロセッサが、前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成するデータ定量化部と、前記プロセッサが、前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成するモデル生成部と、前記プロセッサが、前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する予測部と、を有する。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、発症予測、医療費予測を精度よく実施することができる。
本発明の第1の実施例を示し、医療データ分析システムの一例を示すブロック図である。 本発明の第1の実施例を示し、レセプト基本情報の構成の一例を示す図である。 本発明の第1の実施例を示し、傷病名情報の構成の一例を示す図である。 本発明の第1の実施例を示し、傷病名分類情報の構成の一例を示す図である。 本発明の第1の実施例を示し、診療行為情報の構成の一例を示す図である。 本発明の第1の実施例を示し、診療行為分類情報の構成の一例を示す図である。 本発明の第1の実施例を示し、医薬品情報の構成の一例を示す図である。 本発明の第1の実施例を示し、医薬品分類情報の構成の一例を示す図である。 本発明の第1の実施例を示し、健診情報の構成の一例を示す図である。 本発明の第1の実施例を示し、問診情報の構成の一例を示す図である。 本発明の第1の実施例を示し、整形情報の構成の一例を示す図である。 本発明の第1の実施例を示し、整形情報の傷病名コードと傷病名コードとを統合した整形情報の一例を示す図である。 本発明の第1の実施例を示し、健診、問診及びレセプトの整形情報を一つにしたデータテーブルの一例を示す図である。 本発明の第1の実施例を示し、図13Aを定量化したテーブルの一例を示す図である。 本発明の第1の実施例を示し、定量化対象を特定するテーブルの一例を示す図である。 本発明の第1の実施例を示し、データ定量化部で行われる疾病レコード定量化処理の一例を示すフローチャートである。 本発明の第1の実施例を示し、健康保険事業者向け支援処理の一例を示すフローチャートである。 本発明の第1の実施例を示し、医療データ分析システムの他の例を示すブロック図である。 本発明の第1の実施例を示し、グラフの構造を学習する処理の一例を示すフローチャートである。 本発明の第1の実施例を示し、定量化対象とした項目とデータの一例を示す図である。 本発明の第1の実施例を示し、定量化した項目とデータの確率を示す一例を示す図である。 本発明の第1の実施例を示し、定量化した項目とデータの確率を示す一例を示す図である。 本発明の第1の実施例を示し、2つのノードから成る単純なモデルを示す図である。 本発明の第1の実施例を示し、条件付確率テーブルの一例を示す図である。 本発明の第1の実施例を示し、条件付確率テーブルの他の例を示す図である。 本発明の第1の実施例を示し、確率変数の数を増やしたモデルの一例を示す図である。 本発明の第1の実施例を示し、X年の項目とX+N年の項目を表わすノードより構成されるグラフィカルモデルの一例を示す図である。 本発明の第1の実施例を示し、現在とN年後の層の構造を用いて2N年後の層の状態を予測するグラフィカルモデルの一例を示す図である。 本発明の第1の実施例を示し、傷病名コードの確率テーブルの一例を示す図である。 本発明の第1の実施例を示し、傷病名コードの確率テーブルの一例を示す図である。 本発明の第1の実施例を示し、疾病空間の一例を示すグラフである。 本発明の第2の実施例を示し、データ定量化部で行われる処理の一例を示すフローチャートである。 本発明の第2の実施例を示し、購入の履歴を示すテーブルである。 本発明の第1の実施例を示し、X年と予測対象のデータを合わせたテーブルである。 本発明の第1の実施例を示し、疾病空間の一例を示すグラフである。 本発明の第1の実施例を示し、人物空間の一例を示すグラフである。
以下、本発明の一実施形態について添付図面を用いて説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下では、予測部等の各処理部を主語(処理の主体)として本発明の実施形態における各処理について説明を行うが、各処理部はプログラムによって実現可能であり、このようなプログラムはプロセッサ(演算装置)によって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
第1の実施例では、医療データ(例えば、レセプト情報、健診情報、問診情報)に基づいて、多数の因子からなる病態変化の因果や遷移をモデル化し、疾病の発症予測や医療費予測を行う。このモデルに基づいて、保健指導による改善効果を予測し、費用対効果の大きい保健指導の対象者の選定と、保健指導方法の選定を行う。レセプト情報は、健康保険の加入者が医療機関を受診した際の傷病名、処方された医薬品、実施された診療行為、及び医療費(点数)が記録された情報であり、その一例は図2を用いて後述する。なお、処方された医薬品、及び実施された診療行為を医療行為と総称する。
また、健診情報は、健康保険の加入者(被保険者)が健康診断を受診した場合の検査値が記憶された情報であり、その一例は図9を用いて後述する。問診情報は、健康保険の加入者が健康診断を受診した場合の生活習慣や既往歴、自覚症状などの問診の結果が記憶された情報であり、その一例は図10を用いて後述する。なお、問診情報は健診情報の一部とみなし、健診情報と表示した場合には、問診情報を含む場合もある。問診情報はなくともよい。
第1の実施例では、医療データに基づいて、病気の因果関係及び病態の遷移構造をモデル化する。そして、このモデルに基づいて、保健指導対象者の選択、保健指導方法の提案、保健指導効果の予測などの各種機能を提供する。
なお、健康保険等の保健事業は、前述したように各国の医療制度に応じて異なるが、健康保険組合(保険者)の被保険者や、国民保険サービスの対象者や医療機関(例えば、総合診療医(General Practitioner))等の組織に所属する人(加入者や参加者)に対して、疾病予防や健康増進施策を含む医療サービスを提供する枠組みや制度を指す。また、健診は健康診断の略語であり、健康保険の保険者が被保険者の健康を管理するため、定期的に実施する検査である。また、保健指導は、保健師や医師が対象者に対して生活習慣などの改善を指導し、疾病予防や健康の増進を図る制度やサービスである。なお、保健指導の対象者は、健診の結果、疾病を予防する必要があると認定された人や、参加を希望した人などである。
また、レセプト情報は、傷病名や診療行為や処方などの記録を含む情報である。国民保険サービス等の対象者が医療機関で受診または投薬を受けた際に医療費を支払い、この支払いに対して、医療機関または薬局が発行するレセプトには、傷病名や診療行為や薬剤の処方などの詳細な情報が発行される。本実施例では、医療機関等が発行したレセプトを、健康保険組合等の保険者に通知する例を、以下に示す。
<医療データ分析システムの構成>
図1は、本発明の実施例による医療データ分析システム(「データ処理システム」とも言う)100の構成の一例を示すブロック図である。
本発明の実施例の医療データ分析システム100は、医療データ分析装置101と、データベース112と、有する。
医療データ分析装置101は、入力部102と、出力部103と、演算装置104と、メモリ105と、記憶媒体106と、を有する。
入力部102は、マウス、キーボードやタッチパネルなどのヒューマンインターフェースであり、医療データ分析装置101への入力を受け付ける。
出力部103は、医療データ分析システムによる演算結果を出力するディスプレイやプリンタである。
記憶媒体106は、医療データ分析システム100による医療データ分析処理を実現する各種プログラム、及び医療データ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体(磁気ディスクドライブ、不揮発性メモリ等)である。メモリ105には、記憶媒体106に格納されているプログラムやデータがロードされる。
演算装置104は、メモリ105にロードされたプログラムを実行する装置(プロセッサ)であり、例えば、CPU、GPUなどである。以下に説明する処理及び演算は、演算装置104が実行する。
医療データ分析システム100は、1つの計算機で構成された計算機システムでも、サーバ及びクライアント端末で構成された計算機システムでもよい。
医療データ分析システム100は、1つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで稼働してもよく、複数の物理的計算機資源上に構築された仮想計算機上で稼働してもよい。
演算装置104によって実行されるプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えるとよい。
データベース112は、医療データ記憶部(記憶領域)113、整形情報記憶部114(記憶領域)、定量化データ記憶部(記憶領域)115、予測モデル記憶部(記憶領域)116と、を有している。なお、データベース112は、医療データ分析装置101に接続された記憶装置に格納されても良いし、外部の計算機によって提供されても良い。
医療データ記憶部113は、入力部102に入力された医療データを格納する。医療データは、レセプト情報、健診情報、及び問診情報を含む。レセプト情報は、レセプト基本情報201(図2)、傷病名情報301(図3)、診療行為情報501(図5)、医薬品情報701(図7)、傷病名分類情報401(図4)、診療行為分類情報601(図6)、及び医薬品分類情報801(図8)を含む。
整形情報記憶部114は、データ整形部107によって医療データ記憶部113に記憶されているデータを整形したデータが保存されている。
定量化データ記憶部115は、整形情報記憶部114に保存されているデータを用いてデータ定量化部108によって生成される整形、定量化されたデータを含む。
予測モデル記憶部116は、定量化データ記憶部115に保存されているデータを用いてモデル学習部109によって生成される予測に用いるモデル(予測モデル)のデータを含む。なお、モデル学習部109は、モデル生成部として機能することができる。
医療データ分析装置101の記憶媒体106に格納された予測部110は、予測モデル記憶部116に保存されているモデルを用いて、発症予測、医療費予測を行う。保健指導支援部111では、予測部110が提供する予測機能を用いて、保健指導対象者の選定、保健指導サービスの定、などの各種機能を提供する。
データ整形部107と、データ定量化部108と、モデル学習部109と、予測部110と、保健指導支援部111の各機能部はプログラムとして記憶媒体106にロードされる。
演算装置104は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、演算装置104は、データ整形プログラムに従って処理することでデータ整形部107として機能する。他のプログラムについても同様である。さらに、演算装置104は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
以下、各種情報、及び各処理部107乃至111について詳細に説明する。
<レセプト情報>
図2は、レセプト基本情報201の構成の一例を示す図である。レセプト基本情報201は、レセプトと健康保険の加入者(被保険者)との対応関係を保持する情報である。
レセプト基本情報201は、検索番号202と、健保加入者ID203と、性別204と、年齢205と、診療年月206と、合計点数207と、をエントリの構成項目として含んでいる。
検索番号202は、レセプトを一意に識別するための識別子である。健保加入者ID203は、健康保険の加入者を一意に識別するための識別子である。性別204及び年齢205は、当該加入者の性別及び年齢である。
診療年月206は、加入者が医療機関で受診した年及び月である。合計点数207は、一件のレセプトの合計点数を示す情報である。なお、合計点数に「10」を乗じると医療費(円)が算出される。すなわち、本実施例のレセプト基本情報201は、健康保険の加入者毎に毎月の医療費を集計したテーブルである。
<傷病名情報>
図3は、傷病名情報301の構成の一例を示す図である。傷病名情報301は、検索番号202と、傷病名コード302と、傷病名303と、をエントリの構成項目として含んでいる。
検索番号202は、レセプトを一意に識別するための識別子であり、レセプト基本情報201の検索番号(図2)と同じ番号を用いる。
傷病名コード302は、レセプトに記載される傷病名コードである。傷病名303は、当該傷病名コードに対応する傷病の名称である。
なお、一件のレセプトには、複数の傷病名が記載可能である。例えば、図3に示す傷病名情報301では、検索番号が「11」のレセプトには糖尿病及び高血圧の傷病名が記載された2つのエントリが存在する。図3に示す傷病名情報301における複数の傷病名が、1つの検索番号に登録されている場合は、合計点数207に、複数の傷病に対する医療行為の合計点数が登録される。
<傷病名分類情報>
図4は、傷病名分類情報401の構成の一例を示す図である。傷病名分類情報401は、傷病分類と当該傷病分類に属する傷病名とを対応づける情報であり、傷病分類402と、傷病名コード302と、傷病名303と、合併症有無403と、をエントリの構成項目として含んでいる。
傷病分類402は、この傷病が属する分類である。傷病名コード302は、レセプトに記載される傷病名コードであり、傷病名情報301の傷病名コード302(図3)と同じ番号を用いる。傷病名303は、当該傷病名コードに対応する傷病の名称であり、傷病名情報301の傷病名303(図3)と同じ名称を用いる。合併症有無403は、この傷病が合併症の傷病名であるかを示す情報である。
<診療行為情報>
図5は、診療行為情報501の構成の一例を示す図である。診療行為情報501は、検索番号202と、診療行為コード502と、診療行為名503と、診療行為点数504と、をエントリの構成項目として含んでいる。
検索番号202は、レセプトを一意に識別するための識別子であり、レセプト基本情報201の検索番号202(図2)と同じ番号を用いる。
診療行為コード502は、レセプトに記載された診療行為を識別するための識別子である。診療行為名503は、当該診療行為コードに対応する診療行為の名称である。診療行為点数504は、当該診療行為の保険点数を示す情報である。
図5では、例えば、検索番号202が「11」のレセプトには、「診療行為A」と「診療行為C」の診療行為名503がそれぞれ記載されたエントリが対応付けられている。
<診療行為分類情報>
図6は、診療行為分類情報601の構成の一例を示す図である。診療行為分類情報601は、傷病分類402と、診療行為コード502と、診療行為名503と、をエントリの構成項目として含んでいる。
傷病分類402は、傷病名分類情報401の傷病分類402(図4)と同じ分類を用いる。診療行為コード502は、傷病分類402の傷病で行われる診療行為を識別する診療行為コードであり、診療行為情報501の診療行為コード502(図5)と同じコードを用いる。診療行為名503は、当該診療行為コードに対応する診療行為の名称であり、診療行為情報501の診療行為名503(図5)と同じコードを用いる。
<医薬品情報>
図7は、医薬品情報701の構成の一例を示す図である。医薬品情報701は、検索番号202と、医薬品コード702と、医薬品名703と、医薬品点数704と、をエントリの構成項目として含んでいる。
検索番号202は、レセプトを一意に識別するための識別子であり、レセプト基本情報201の検索番号202(図2)と同じ番号を用いる。
医薬品コード702は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名703は、レセプトに記載された医薬品の名称である。医薬品点数704は、医薬品の保険点数を示す情報である。
なお、1件のレセプトには、複数の医薬品名が記載可能である。図7では、例えば、検索番号202が「11」のレセプトは、糖尿病経口薬A及び高血圧経口薬Aとの医薬品名がそれぞれ記載されたエントリに分けられている。
<医薬品分類情報>
図8は、医薬品分類情報801の構成の一例を示す図である。医薬品分類情報801は、傷病分類402と、医薬品コード702と、医薬品名703と、をエントリの構成項目として含んできる。
傷病分類402は、傷病名分類情報401の傷病分類402(図4)と同じ分類を用いる。医薬品コード702は、傷病分類402に登録された分類で処方される医薬品を識別する医薬品コードであり、医薬品情報701の医薬品コード702(図7)と同じコードが用いられる。医薬品名703は、当該医薬品コードに対応する医薬品の名称であり、医薬品情報701の医薬品名703(図7)と同じ名称が用いられる。
なお、図5に示す診療行為情報501及び図7に示す医薬品情報701を、医療行為情報と総称する。また、図6に示す診療行為分類情報601及び図8に示す医薬品分類情報801を、医療行為分類情報と総称する。
<健診情報>
図9は、健診情報901の構成の一例を示す図である。健診情報901は、複数の加入者の複数年分の健診情報を管理するための情報であり、健保加入者ID203と、健診受診日902と、健康診断における各種検査値(例えば、BMI(Body Mass Index)等)903乃至907と、をエントリの構成項目として含んでいる。
健保加入者ID203は、健康診断を受診した健康保険の加入者の識別子であり、レセプト基本情報201の健保加入者ID203(図2)と同じ識別子を用いる。
健診受診日902は、健康診断を受診した年月日である。BMI903から中性脂肪907は、健康診断の検査の結果を示す情報である。
特定の検査を受けなかった場合など、健診情報のデータが欠落することがある。例えば、図9では、健保加入者ID「K0004」が2004年に受診した検査項目のうち収縮期血圧906のデータが欠落している。データの欠落は、図示のように「−」で示される。
<問診情報>
図10は、問診情報1001の構成の一例を示す図である。問診情報1001は、複数の加入者の複数年分の問診情報を管理するための情報であり、健保加入者ID203と、問診受診日1002と、問診の回答(例えば、喫煙等)1003乃至1005と、をエントリの構成項目として含んでいる。なお、問診は、生活習慣、既往歴、アレルギー等の体質、自覚症状などを含んでもよい。
健保加入者ID203は、問診を受診した健康保険の加入者の識別子であり、レセプト基本情報201の健保加入者ID203(図2)と同じ識別子を用いる。
問診受診日1002は、問診を受診した年月日である。タバコ1003から歩行1005は、問診の結果を表す情報である。タバコ1003は、喫煙習慣がある場合は一日の平均喫煙本数であり、喫煙しない場合は「なし」である。飲酒1004は、飲酒習慣がある場合は一日の平均飲酒量(単位=ml)であり、飲酒習慣がない場合は「なし」である。歩行1005は、一日の平均歩行時間(単位=分)である。
なお、問診情報では、歩数、飲酒量、喫煙本数などの詳しい情報が得られない場合もある。具体的な飲酒量ではなく、予め問診表で区分けされた頻度のうち、該当するものを回答する場合がある。例えば、喫煙や飲酒の有無のみの情報が得られる場合、飲酒の頻度をいくつかの程度に分けて(例えば、(i)飲酒無し、(ii)週に1〜2回、(iii)週に3回以上)回答する場合などである。この場合、問診情報の値は、回答番号を示すもので、血圧などの検査値等と異なり、定量的な意味をもたない。
特定の項目に対する回答が無かった場合、問診情報のデータが欠落することがある。例えば、図10では、健保加入者ID「K0003」が2004年に受診した問診項目のうち歩行805に対するデータが欠落している。
<データ整形処理の詳細>
次に、データ整形部107の処理について説明する。データ整形部107は、医療データ記憶部113に記憶されている医療データから、加入者毎かつ所定の期間毎のレセプト情報と、健診情報及び問診情報を集計及び統合し、表形式に整形する。以下では、1つの期間は1年であるとして説明するが、半年、2年、3年など、別の期間でもよい。
図11は、整形情報1101の構成の一例を示す図である。図11を用いて、データ整形部107の処理を説明する。
整形情報1101は、2004年のレセプト情報を整形したレセプト整形情報を含むものである。整形情報1101の各行は、1つの健保加入者IDに対応する1つの年のデータを集計したものである。
健保加入者ID203と、性別204、年齢205及び合計点数207は、それぞれ、レセプト基本情報201の健保加入者ID203、性別204、年齢205及び合計点数207(図2)と同じ情報である。データ年1102は、当該整形情報1101を生成する基となったデータの年を示している。
傷病名コード10(1103)は、当該健保加入者IDのレセプトのうち傷病名コードに10の記載があるレセプトの数である。傷病名コード20(1104)も同様に、当該健保加入者IDのレセプトのうち傷病名コードに20の記載があるレセプトの数である。診療行為コード1000(1105)は、当該健保加入者IDのレセプトのうち診療行為コードが1000の診療行為が行われたレセプトの数である。医薬品コード110(1106)は、当該健保加入者IDのレセプトのうち医薬品コードが110の医薬品が処方されたレセプトの数である。整形情報1101は、レセプトに記載されたコードの数に応じた列を有する。
以下、データ整形部107の処理について、2004年のデータを整形する場合を具体的に説明する。
まず、データ整形部107は、1つの健保加入者IDを選択する。データ整形部107は、入力部102で受け付けた健保加入者IDまたはレセプト基本情報201の先頭のエントリから1つの健保加入者IDを選択する。
データ整形部107は、診療年月206が「2004年」である当該健保加入者ID203のレセプトの検索番号202を、レセプト基本情報201より取得する。次に、データ整形部107は、傷病名情報301(図3)を参照して、傷病名コード302毎に、当該傷病名コードが記載されているレセプトの数をカウントする。これによって、各傷病名コード302の記載があるレセプトの数が得られる。同様に、データ整形部107は、診療行為情報501(図5)を参照して、診療行為コード502毎のレセプトの数をカウントし、医薬品情報701(図7)を参照して、医薬品コード702毎のレセプトの数をカウントする。これにより、データ整形部107は、選択された健保加入者IDの2004年のデータ行が生成される。データ整形部107は、上記の処理を、分析対象となる全ての健保加入者ID及び年の組み合わせに対して行う。
例えば、図11に示す整形情報1101において、1行目の健保加入者ID「K0001」の2004年のデータは、検索番号「11」、「12」、「13」がレセプト基本情報201から取得できる。データ整形部107は、傷病名情報301を参照すると、上記取得した3つのレセプトのうち、傷病名コード302が「10」であるレセプトは、検索番号「11」及び「13」の2つである。従って、整形情報1101の1行目の傷病名コード10の欄(1103)には「2」が登録される。
図11に示す整形情報1101は、健診情報901から整形された健診整形情報(1108〜1112)も含んでいる。各行は、1つの健保加入者IDに対応するデータを集計したものである。
各項目(1108〜1112)の値は、健保加入者ID203及びデータ年1102に示される加入者及び年における健診データの値である。この健診データは健診情報901から取得できる。健診情報901が同一健保加入者IDの同一年の複数の健診データを含む場合(1年に2回以上の健康診断を受診した場合など)、いずれか1つの受診日のデータを使ってもよいし、当該年の複数回の健診結果の平均を使ってもよい。1つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、データに欠損が少ない受診日を選択する方法もある。
また、図11では欠損データは、「−1」で示している。例えば、健保加入者ID203が「K0004」の加入者の収縮期血圧1111のデータは欠損しているため、「−1」が設定されている。なお、健診情報がない加入者の健診情報の値は、全て欠損データとする。
さらに、図11に示す整形情報1101は、問診情報から整形された問診整形情報(1114〜1116)も含む。各行は、1つの健保加入者IDに対応するデータを集計したものである。
各項目(1114〜1116)の値は、健保加入者ID203及びデータ年1102に示される加入者及び年における問診データの値である。この問診データは問診情報1001から取得できる。問診情報1001が同一健保加入者IDの同一年の複数の問診データを含む場合(1年に2回以上の健康診断を受診した場合など)、いずれか1つの受診日のデータを使ってもよいし、当該年の複数回の問診結果の平均を使ってもよい。1つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、データに欠損が少ない受診日を選択する方法もある。
また、図11では欠損データは、「−1」で示している。例えば、健保加入者IDがK0003の加入者の歩行1116のデータは欠損しているため、「−1」が記入されている。なお、問診情報がない加入者の問診情報の値は、全て欠損データとする。なお、問診情報1001のタバコや飲酒のように「なし」や「少量」などの場合には、所定の数値に置き換える。例えば、「なし」の場合は0に、「少量」の場合には、少量であることを示す数値、例えば、1などとする。
以上の処理によって、データ整形部107は、レセプト整形情報(1103〜207)、健診整形情報(1108〜1112)及び問診整形情報(1114〜1116)を生成し、整形情報1101として統合することができる。なお、図11には2004年のデータのみを示したが、別の年の整形データも生成する。
ここで、データ整形部107が、レセプト整形情報(1103〜207)を生成する際に、類似の複数項目を統合してもよい。例えば、医薬品の項目のうち、糖尿病経口薬Aの機能と糖尿病経口薬Bの機能とが類似している場合、これらを纏めて1つの項目として扱ってもよい。このとき、同一年の糖尿病経口薬Aの処方回数と糖尿病経口薬Bの処方回数とを加算した値を、新しく纏めた項目の値とする。項目が類似するか否かを判断するための基準は、例えば、以下の方法がある。診療行為分類情報601で同一傷病分類402に属する診療行為名503を類似項目とする。また、医薬品分類情報801で同一傷病分類402に属する医薬品名703を類似項目とする。また、予め類似項目情報を人手により作成し、医療データ分析装置101に設定しておく。
図12は、図11で示したレセプト整形情報(1103〜207)の傷病名コード10(1103)と傷病名コード20(1104)とを統合した整形情報1200の一例を示す図である。傷病名コード10,30(1201)の値は、図11の傷病名コード1103の値と、傷病名コード1104の値とを加えた値であり、傷病名コードが「10」であるレセプトの数と傷病名コードが「20」であるレセプトの数と合計=「3」である。
図11及び12に示したように、データ整形部107で生成されたレセプト整形情報、健診整形情報、及び問診整形情報を統合した整形情報1101、1200は、データベース112の整形情報記憶部114に記憶される。
なお、レセプト整形情報(1103〜207)の値は、レセプトの数、すなわち処方回数で集計したが、処方の有無の情報でもよい。すなわち、処方回数が1以上の(処方がある)場合を1として纏め、処方回数が0の(処方がない)場合を0として、2値であらわしてもよい。また、処方回数が重症度を表すと考えて、レセプト整形情報の値は、処方回数を段階に分類した値でもよい。例えば、処方回数が0回の場合を0とし、処方回数が1〜4回の場合を1とし、処方回数が5回以上の場合を2とするなど、3段階で表してもよい。
また、整形情報1101の検査値(1108〜1112)などの連続値は、項目の状態数を減らすために離散化しておいてもよい。例えば、年齢は5年ごとに表示して、40〜44歳までを42、45〜49歳までを47などとして、その区間の数値を代表する値に変換しておいてもよい。また、血糖値も105〜109までを107とするなど、状態数を減らしておいてもよい。
前述した例では、1年毎の期間でレセプト情報、健診情報及び問診情報を纏めたが、例えば、2年毎、3年毎など異なる期間でもよい。なお、以下では、期間は1年毎に纏めた場合を例として説明する。
<データ定量化処理の詳細>
次に、データ定量化部108の処理について説明する。以下では、レセプト整形情報の値が0(処方がない)と1(処方がある)の2値であると仮定して説明し、2値でない場合の処理については、後に説明する。
図13Aは、健診、問診、レセプトの整形情報を一つの表にしたデータテーブルの一例を示す図である。整形情報1301は、健保加入者ID203、データ年1102、年齢205、BMI1108等が図11、図12と同様であり、傷病名コード10(1306)〜40(1309)を2値化したデータテーブルである。
通常、ある疾病に罹患している人の数は、罹患していない人の数よりも、かなり小さい。そのため、医療データ数が多くとも、疾病に罹患している人のデータは少ない。例えば、1万人分の医療データがあったとしても、ある疾病の罹患率が3%とすると、300人分のデータしかない。希少疾病や複数の疾病の罹患を考える場合などには、さらにデータ数が少なくなる。一般に、疾病の発症を精度よく予測するモデルを統計的に構築するためには、疾病に罹患している事例の数が相当数必要となるため、疾病を罹患している医療データ数が少ないと、疾病の発症予測を正確に行うことが困難となる。
例えば、疾病A、疾病B,疾病Cを考えた時、疾病Cになる確率を疾病Aと疾病Bの条件付き確率として算出することを考える。このとき、確率P1=P(C=1|A=0、A=0)、P2=P(C=1|A=0,B=1),P3=P(C=1|A=1,B=1),P4=P(C1|A=0、B=0)、を学習用の事例の中から計算する必要がある。P(C=0)の条件付き確率は、例えば、P(C=0|A=1,B=1)=1−P(C=0|A=1,B=1)などのように計算することができる。
疾病Aと疾病Bをともに発症している場合の疾病Cの発症確率P(C=1|A=1,B=1)となるが、これは、
P(C=1|A=1,B=1)=(A,B,Cを発症している事例数)/(AとBを発症している事例数)
となる。
しかし、通常、疾病を同時に発症している事例数はかなり少ないため、この値の信頼性が低くなる。また、AとBを発症している事例数が一つも存在しない場合には、この値を計算することができない。このような場合には、
P(C=1|A=1,B=1)=0.5
などのように定数で置き換えたり、条件の部分を無視し、
P(C=1|A=1,B=1)=P(C=1)=(Cを発症している事例数)/(全事例数)
などとする。しかし、これらの方法では、本来考慮すべき、AとBの発症状況などを考慮に入れることができない。
このことは、疾病Cになる確率を、疾病Aの条件付き確率で算出する場合、あるいは、単に、疾病Cの発症確率を算出する場合においても、疾病Aや疾病Cの事例数が少ない場合には、同様に、問題となる。
そこで、本発明では、元のデータを定量化することで、学習に用いることができる発症事例データを増やす。これにより、精度の良い発症予測を行うことができるモデルを構築する。図13Aに示すレセプトの整形情報1324〜1327には、病名の診断を受けた、処置を受けた、薬剤の処方を受けた、等の場合に、「1」が格納され、それ以外は「0」と格納される。
しかし、病名や処置、薬剤には類似のものや、似た効用のものがあるなど、その選択には任意性がある場合が想定される。また、疾病へのリスクがあるが、実際に病院で病名の診断や処置、薬剤の処方を受けるか否か、には任意性がある場合が想定される。そのため、値が「0」であっても、実際には、上記の任意性や疾病リスクがあることが考えられる。本発明では上記のことを考慮し、「0」と「1」で表現された値を、上記の任意性を疾病リスクとして定量化することにより、レセプトの各項目に関する情報量を増やし、学習に用いることができる事例の数を増加される。
図13Bは、図13Aを定量化したデータテーブルの一例を示す図である。図13Bの定量化データ1310は、健保加入者ID203、データ年1102、年齢205、BMI1108等が図11、図12と同様であり、レセプトの情報に該当する傷病名コード10(1315)〜傷病名コード40(1318)の列が定量化されている。
直観的には、疾病が発生した人と、類似する疾病や、類似する処置を受けたり、類似する薬剤を受けている場合には、元のデータ(図13A)の疾病に関するコード(1306〜1309)の値が「0」であっても、疾病を発症する確率は「0」より大きい値となる可能性がある。また、疾病が発生した人と、似た人が疾病、処置、薬剤を受けている場合には、元のデータ(図13A)の疾病に関するコード(1306〜1309)の値が「0」であっても、疾病を発症する確率は「0」より大きい値となる可能性がある。この値は、ある人物がある疾病、処置、処方を受ける尤もらしさを表わしたものと解釈できる。
定量化の際には、項目間(検査値、疾病、処置、薬剤等)の類似度と人物間の類似度の双方を考慮する。項目間の類似度は、類似した病名、処置、薬剤の選択の任意性や、同時に病名、処置、薬剤の診断を受ける可能性の高さを示したものである。人物間の類似度は、類似した病態の人物は、同じような疾病にかかる可能性が高いことを示したものである。
ここで、整形情報1301の定量化では、項目間の類似性と人物間の類似性の両方を同時に考慮することが望ましい。項目間の類似度のみを考慮する場合には、通常、類似した、あるいは効用が似た病名、処置、薬剤は一方を受けると他方は受けない場合が多いことが想定されるため、これらの類似性をデータから統計的に導けない場合がある。
また、人物間の類似性のみを考慮する場合には、類似した人物そのものが少なくなるため、定量化のための情報が不足する場合がある。項目間と人物間の両方の類似性を同時に考慮することで、両方の類似性を手掛かりに、定量化することができ、疾病に関する事例数を増やすことができる。
データ定量化部108の処理例について図14を用いて説明する。図14は、データ定量化部108で行われる定量化処理の一例を示すフローチャートである。
まず、定量化対象データ選定1401では、データ整形部107の処理により生成された図13Aの整形情報1301のうち、定量化の対象とするデータを選定する。なお、整形情報1301としては、図11の整形情報1101の他に、図12の整形情報1200や図13Aの整形情報1301を用いることができる。
図13Cは、定量化対象を特定するデータテーブルの一例を示す図である。図13Cの例では、整形情報1319に示した「*」で表示された値が定量化対象として選定されている。これは、これは、図13Aのように、データ上では「0」となっているが、疾病、処置、処方のリスクがあると考えられる対象を定量化対象として選定する。あるいは、「1」と表示されているが、定量化を考えた場合には、より小さい値として設定したほうが適切であると考えられる対象を定量化対象として選定する。選定基準については、定量化対象選定基準1402に予め保存しておく。なお、定量化対象選定基準1402は、データ定量化部108で保持することができる。
次に、定量化対象の選定方法の例を示す。この例では、整形情報1301の値が「0」の値のみ定量化の候補とする。一方、整形情報1301において値「1」は病名、処置、処方を受けたことを示すため、定量化対象とせず、1として固定する。ある人物のデータに関して、検査値が所定の正常範囲の外にある場合、当該検査値に関係する疾病、処置、薬剤のデータに関して定量化対象とする。例えば、血糖値が正常範囲外の場合には、糖尿病関連のデータを定量化対象とする。このようなルールは、定量化対象選定基準1402に予め保存しておく。
もうひとつの例を示す。ある人物に関して、ある検査値が所定の正常範囲の外にある場合に、全てのレセプトのデータを定量化対象とする。これは、上記のように、検査値と疾病との対応関係に関するルールを設定することが困難な場合に用いる。
別の例では、検査値と関連するレセプトの項目の対を、所定のルールで設定しておき、関連するか否かが分からない対に対しては、当該検査値が正常範囲外の場合に、定量化対象とする。
他に、ユーザが選択する形にしても良いし、全レセプトデータを定量化対象としてもよい。しかし、全レセプトデータを定量化対象とする場合には、定量化処理にかかる時間が増大する。
次に、終了判定1403では、データ定量化部108が定量化を終了するか否かを判定する。所定の条件が成立して処理を終了する場合には、リスク定量化1411に移る。所定の条件が成立せず処理を終了しない場合には、疾病空間生成1404と、人物空間生成1406に進む。
最初に終了判定1403の処理を行う場合には、まだ定量化を行っていないため、データ定量化部108は処理を終了しないと判定する。終了判定の詳細な処理については定量化対象予測1409の処理を説明した後に述べる。
疾病空間生成1404と疾病間類似度計算1405及び人物空間生成1406と人物間類似度計算1407の処理は、並行して行うことができる。
疾病空間生成1404では、データ定量化部108が後述する疾病軸で設定される疾病空間に、疾病に対応する人物をプロットする。これは、整形情報1301の各行(人物)をベクトルと見て、項目(疾病等)を軸とした空間にプロットすることに相当する。
このとき、軸として検査値等を含めても良いし、検査値等は除外して、レセプトに関係する項目のみを軸としても良い。疾病空間の次元数は軸となる項目数と一致する。例えば、傷病名コード10(1306)、傷病名コード20(1307)、傷病名コード30(1308)、傷病名コード40(1309)を軸とする場合には、健保加入者ID1302=K0011のベクトルは、4次元空間上のベクトル(0,0,1,0)となる。
図26Aは、疾病空間2701の一例を示すグラフである。疾病等の項目を軸(疾病A、疾病B、疾病C)とし、その空間に人物が人物ベクトルとしてプロットされている。同じ疾病にかかっている人物は近い場所に配置される。
次に図14の、疾病間類似度計算1405では、疾病間の類似度を計算する。疾病間の類似度は疾病空間上の人物ベクトルの分布より計算することができる。
図23は、疾病空間の考え方を説明するためのグラフである。変数X,Yの二次元空間上に二次元ベクトルを点として表わした図であるが、これより、XとYには相関があると推測できる。これと同様の考え方で、図26Aで示したように、疾病を軸とする疾病空間上の人物ベクトルの分布より、疾病同士の類似度を計算する。
疾病数をNとして、人物ベクトルをpi=(pi1、pi2、…、piN)とする。人物数をMとすると、pi(i=1、…、M)が全人物ベクトルである。この要素i(疾病i)のみを並べて生成したベクトルをxi=(p1i、p2i、…、pMi)としたとき、疾病iと疾病jの類似度をxiとxjの関数として疾病間類似度g(xi、xj)により計算する。gはxiとxjの共分散でもよいし、xiとxjの類似度を表わすどのようなカーネル関数でもよい。
例えば、共分散の他には、疾病間類似度g(xi、xj)=xi・xj
ただし、xi・xjはxiとxjの内積を表わす。また、疾病間類似度g(xi、xj)=(xi・xj)^2や、RBFカーネルなどを用いても良い。また、全人物ベクトルの平均ベクトルをμ1とする。
ここで、人物ベクトルの分布とは関係なく、疾病同士の類似性に関する事前知識などがある場合には、それらの情報を用いて疾病同士の類似度を予め定めて置いて、設定してもよい。
ここで、疾病間類似度g(xi、xj)を(i、j)成分とする行列をGとし、共分散行列がG、平均ベクトルがμ1の正規分布をN1とすると、N1は、疾病空間上での人物ベクトルの分布を正規分布により近似していると考えられる。この分布から生成される人物ベクトルの要素iと要素jの共分散は、要素iと要素jの疾病間類似度g(xi、xj)となる。
次に、人物空間生成1406では、データ定量化部108が人物軸で張られる空間に疾病をプロットする。これは、整形情報1301の各列(検査値、疾病、処方、薬剤等)をベクトルと見て、人物を軸とした空間にプロットすることに相当する。空間の次元数は人物数(事例数)と一致する。例えば、整形情報1301の健保加入者ID1302に含まれるK0011,K0012,K0013,K0014,K0015を軸とする場合には、傷病名コード10(1306)のベクトルは(0,0,0,0,1)となる。
図26Bは、人物空間2702の一例を示すグラフである。人物(A、B、C)の識別子などを軸とし、その空間に疾病等の項目が疾病ベクトルとしてプロットされている。類似した疾病は近い場所に配置される。
次に、図14の人物間類似度計算1407では、データ定量化部108が人物間の類似度を計算する。疾病間類似度計算1405の場合と同様にして、人物空間上での疾病ベクトルの分布より、人物間の類似度を計算する。
疾病ベクトルの要素i(人物i)の値を並べたベクトルをyi=(y1i、y2i、…、yNi)とすると、人物iと人物jの類似度をyiとyjの関数として人物間類似度h(yi、yj)により計算する。hはyiとyjの共分散でもよいし、どのようなカーネル関数でもよい。全疾病ベクトルの平均ベクトルをμ2とする。
疾病空間の場合と同様に、h(yi、yj)を(i、j)成分とする行列をHとし、共分散行列がH,平均ベクトルがμ2の正規分布をN2とすると、N2は、人物空間上での疾病ベクトルの分布を正規分布により近似していると考えられる。この分布から生成される疾病ベクトルの要素iと要素jの共分散は、要素iと要素jの人物間類似度h(yi、yj)となる。
次に、合成空間類似度計算1408では、データ定量化部108が人物同士の類似度と疾病同士の類似度の双方を考慮するために、合成空間において、人物と疾病の双方を考慮した類似度を算出する。
合成空間は、疾病と人物の全ての対を軸とした組み合わせであり、疾病xiと人物yjの対と、疾病xkと人物ylの対の類似度sは、疾病間類似度g(xi、xk)と、人物間類似度h(yj、yl)の関数により表わされる。例えば、
s(xi、yj、xk、yl)=g(xi、xk)・h(yj、yl)
s(xi、yj、xk、yl)=g(xi、xk)+h(yj、yl)
等の関数を用いることができる。
次に、定量化対象予測1409では、データ定量化部108が定量化対象となる値を上記類似度に基づいて予測する。ここで、人物iの疾病jの値をzijとし、Z=(z11、z12、z13、…、z1M,z21、z22、…、zN1、…、zNM)の分布を、上記類似度sを用いてモデル化する。類似度sは、s(zij、zkl)とすることができ、これを(N×M)×(N×M)行列とみたときの行列をSとする。つまり、行列Sの第1行目はs(z11、z11)、s(z11、z12)、…、s(z11、zNM),第2行目はs(z12、z11)、s(z12、z12)、…、s(z12、zNM)、などとなる。
このとき、共分散行列をSとし、平均を0(ゼロベクトル)とする正規分布を考えると、これは、Zの分布を近似していると考えられる。ここで、より予測を正確にするために、正規分布の平均ベクトルをゼロベクトルではなく、μ=(μ11、μ12、…、μNM)、ここで、μij={(μ1の第i成分)+(μ2の第j成分)}/2としてもよい。
これは、人物iの全疾病に関する値の平均値と、疾病jの全人物に関する値の平均値、の平均を表わしている。これにより、生成された正規分布は、Zの分布をモデル化したものである。
定量化対象予測1409では、データ定量化部108が定量化対象データ選定1401で選定された対象となるデータの値を、上記正規分布に基づいて再設定する。具体的には、各定量化対象データzijに対して、zij以外の値が全て与えられた条件下で、この正規分布から推定されるzijの値の平均値によりzijを定める。正規分布において、変数の一部が与えられた条件下において、残りの変数の分布を計算する方法は、ガウス過程を用いた回帰予測と同様の方法を用いることができる。
次に、終了判定1403において、データ定量化部108は定量化処理を終了するか否かの判定を行う。データ定量化部108は、例えば、予め定めた回数、終了判定1403の処理を行った場合に終了する。また、別の方法では、データ定量化部108が今回の予測後のデータの総和と前回の予測後のデータ(または最初のデータ)の総和の差が予め定めた閾値以下であるなど、変化が小さくなったことを基準として、終了する。
2度目以降、人物間類似度計算1407、疾病間類似度計算1405の処理を行う場合には、元データではなく、定量化により予測された最新のデータ(定量化データ)を用いる。つまり、上記での疾病間類似度計算1405、人物間類似度計算1407の処理は、整形情報1301のデータを用いると説明したが、2回目以降は、値を最新の予測結果に置き換えたデータを用いる。
なお、上記において、定量化対象予測1409において、定量化対象となる全てのデータの値を修正したが、1回の終了判定1403から終了判定1403に戻るループの中で、修正するデータは、その一部でもよい。例えば、対象データをD1,D2,…、Dkに分割し、1回目のループではD1を修正し、2回目のループではD2を修正する、などとする。この場合には、k回のループにおけるD1、…、Dk全ての修正幅に基づいて終了条件を定める。
ここで、元データpijに対して、jを固定してpijの全てのiに対して和を計算した値をNjとする。これは、jに対応する項目が疾病を表わす項目である場合には、その疾病の発症人数となる。同様に推定されたzijのjを固定しzijの全てのiに対して和を計算した値をMjとする。このとき、一般に、Nj≠Mjとなる。
実際に計算すると、多くの場合には、MjがNjと比べて小さくなるが、このようなデータzijを用いてモデルを構築すると、図18Aに示す表1901のデータと比較して、小さい値によって、将来の発症率、医療費を推定するモデルを構築することになるため、発症率、医療費を過大に予測するモデルが生成されてしまう。そのため、本発明では、リスク定量化1411によって、各項目の発生数が図18Aの表1901と同等となるように正規化を行う。
リスク定量化1411では、人物i、項目jに対応する値として、
Q(xi、yj)=(Nj/Mj)zij
とする。この値を用いることにより、Q(xi、yj)の全てのxiに対して和を計算した値はNjとなり、表1901の各項目の人数と一致する。
このとき、Q(xi、yj)が1を超える場合には、Q(xi、yj)=1と設定する。この場合には、Q(xi、yj)の全てのxiに対して和を計算した値はNjより小さくなるので、この値をLjとし、Q(xi、yj)を(Mj/Lj)Q(xi、yj)に再設定する。この場合も、1を超えるものは1と置き換える。この処理を繰り返すことにより、Q(xi、yj)の全てのxiに対して和を計算した値がNjに近づくため、Njとの差が予め定めた閾値よりも小さくなった時点で終了し、その場合のQ(xi、yj)の値を用いる。Q(xi、yj)は定量化データ1410に記憶される。なお、定量化データ1410(または1310)はデータベース112の定量化データ記憶部115に格納される。
上記処理により、データ定量化部108は、疾病間の類似性と人物間の類似性から疾病の発症リスク(疾病リスク)を考慮して図13Aの整形情報1301を定量化することで、図13Bに示す定量化データ1310を生成する。図13Bの定量化データ1310は、健保加入者ID203毎に各傷病名コードについて発症確率が算出される。
例えば、図13Bで健保加入者ID203=K0011の傷病名コード10(1315)の値は「0.1」である。この定量化データは、モデルを構築する際には、発症有りが「0.1」、発症無しが「0.9」とカウントされる。疾病リスクを考慮することにより、元データ(図13Aの表1301)では値が「0」の項目であっても、疾病間の類似性と人物間の類似性から潜在的なリスクが存在する項目では、「0」より大きい値が設定される。
なお、データ定量化部108は、疾病が発生した場合には、値=「1」を保持し、疾病がなく、検査値にも異常がない健康体の場合には、値=「0」を保持する。
<モデル学習部の詳細>
続いて、モデル学習部109の処理について説明する。モデル学習部109は、整形情報1301(または1310)の各項目を確率変数とし、確率変数をノード、確率変数間の条件付依存関係をエッジ(またはリンク)として表現したグラフ(グラフィカルモデル)、および、条件付確率テーブルより成るモデルを生成する。ただし、エッジは有向、無向の2種類がある。また、ノードの集合をV、エッジの集合をE、グラフをG=(V,E)と表記する。グラフィカルモデルの特殊な場合として、ベイジアンネットワークやマルコフネットワークなどがある。
モデル学習部109は、整形情報1301(または1310)に基づき、整形情報の各項目を確率変数とするベイジアンネットワークなどのグラフィカルモデルを生成する。グラフィカルモデルの項目としては、例えば、図11の整形情報(表)1101の1行目に記載されている性別204、年齢205、傷病名コード10(1103)、傷病名コード20(1104)、BMI1108、腹囲1109などが挙げられる。
<グラフィカルモデルの例>
以下では、生成されるグラフィカルモデルについて、例を挙げて説明する。
(i)単純なモデル(基本的な考え方)
図19Aは、2つのノードから成る単純なモデルを示す図である。図19Aにおいて、X年経口薬処方回数をX年の糖尿病の経口薬処方回数を表す確率変数とし、X+N年インスリン処方回数をX+N年の糖尿病のインスリン処方回数を表す確率変数とする。それぞれの確率変数を表すノードを、v1、v2とすると、図19Aのグラフは、v1、v2の2つのノード、およびv1からv2への有向エッジe1より成る。また、V=(v1,v2)、E=(e1)とすると、図19Aのグラフは、G=(V,E)と表すことができる。
次に、図19Bは、条件付確率テーブル2001の一例を示す図である。図19Aにおいて、ノードv1、v2が表す確率変数をそれぞれx1、x2とすると、図19Aで示されるグラフGは、x1とx2の同時分布p(x1、x2)がp(x1、x2)=p(x2|x1)p(x1)により与えられることを示している。
つまり、x2の確率分布は、x1の値に依存し、x1に関する条件付き確率p(x2|x1)により与えられる。確率変数x1には親ノードがないため、x1の確率分布はp(x1)となる。これは、何も情報が無いときにx1の値を取る確率を表している。一方、条件付き確率p(x2|x1)は、x1の値を取った時にx2の値となる確率を表している。
条件付確率テーブルは、p(x1)とp(x2|x1)の値である。p(x1)の確率テーブルは、x1の各値に対する確率値である。図19Bの2001にp(x1)の例を示す。表2001は、例えば、p(x1=0)=a1はx1=0となる確率がa1であることを示す。これは、モデル生成用のレセプト整形情報の事例(被保険者)のうち、X年に経口薬処方回数が0であった人の割合を計算することにより得ることができる。a2、a3、…、も同様にして計算できる。p(x1)は確率分布であるので、Σp(x1)=1となる。ここで、総和はx1の全ての値に対して算出される。
図19Cは、条件付確率テーブル2002の一例を示す図である。p(x2|x1)の条件付確率テーブル2002は、x1、x2の各値に対して、p(x2|x1)を算出することで得られる。例えば、p(x2=s2|x1=s1)は、x1=s1となる事例のうち、x2=s2となっている事例の割合を計算することで得られる。この計算により、確率テーブルが得られる。
図19A及び図19Bのような単純な例の場合には、図19Aに示すグラフGと図19Bに示す条件付確率テーブル2001がグラフィカルモデルとなる。このグラフィカルモデルを用いることにより、例えば、ある被保険者のある年の経口薬処方回数が分かっている場合に、その被保険者がN年後、インスリンを処方される回数の確率分布を算出することができる。
例えば、今年、経口薬処方回数が1の場合に、N年後、インスリンを2回処方される確率は、P(x2=2|x1=1)により与えられる。
(ii)より複雑なモデル
次に、図19Aの場合よりも確率変数の数を増やした場合のモデルについて、図20で示される例を用いて説明する。図20は、確率変数の数を増やしたモデルの一例を示す図である。
図19Aでは、X+N年のインスリン処方回数を予測したいとき、確率変数としてX年の経口薬処方回数のみを用いている。
しかし、X+N年のインスリンの処方回数は、血糖値が高い人のほうが大きいと予想できる。また、血糖値は年齢にも依存すると予想することもできる。
そこで、図20に示されるように、例えば、X年経口薬処方回数、X年血糖値、及びX年年齢を用いてX+N年インスリン処方回数を予測した方が、より正確な予測ができると想定される。
ここで、X年経口薬処方回数、X年血糖値、X年年齢、及びX+N年インスリン処方回数を表す確率変数を、それぞれ、x1、x2、x3、x4、これらを表すノードをv1、v2、v3、v4とする。この場合、グラフのノード集合は、V=(v1,v2,v3,v4)と表すことができる。また、3つの有向エッジが定義されており、X1からX4,X2からX4,X3からX4への有向エッジを、それぞれe1、e2、e3とすると、エッジ集合は、E=(e1、e2、e3)と表すことができる。
そして、グラフはG=(V,E)と表される。このグラフにより、確率変数x1、…、x4の同時分布は、p(x1、x2、x3、x4)=p(x4|x1、x2、x3)p(x1)p(x2)p(x3)となる。そして、条件付き確率テーブルは、p(x1)、p(x2)、p(x3)、p(x4|x1、x2、x3)を確率変数x1、…、x4の各値に対して計算することにより得られる。このモデルを用いることにより、X年経口薬処方回数だけでなく、X年血糖値が分かっている場合には、より正確にX+N年インスリン処方回数が予測できるようになる。
上述した図19A〜図19Cや図20のような小規模なモデルの場合には、X+N年インスリン処方回数の確率分布が何に依存しているか、経験や知識に基づいて定義することも可能である(つまり、従来方法を用いてもそれほど複雑ではない)。
しかしながら、モデルの規模が大きくなると困難となる。例えば、X+N年インスリン処方回数は、性別やBMI値など、他の糖尿病関連の医科処方項目や薬剤、問診、健診の何らかの項目に依存する可能性がある。また、経口薬処方回数や血糖値自体も、他の項目に依存する。そのため、本発明では、レセプト整形情報(1201〜207)の項目のように確率変数が大規模になる場合には、その確率的依存関係(エッジ)をデータに基づいて自動的に生成する。
例えば、3年後の発症確率や医療費を予測したい場合には、X年とX+3年のレセプト整形情報(1201〜207)の項目を確率変数としたグラフィカルモデルを生成すればよい。これらは過去の医療データから生成され、例えば、2008年と2011年、2009年と2012年のデータを用いるなど、3年分の過去データを用いる。
このとき、同一被保険者のデータであっても、2008年と2011年の医療データと、2009年と2012年の医療データは、別の事例として、学習に利用できる。医療費を予測する場合には、X+N年医療費を確率変数とするノードを入れておく。
(iii)グラフィカルモデルの生成例
次に、図21Aを用いて、グラフィカルモデルの生成例について説明する。図21Aは、X年の項目とX+N年の項目を表わすノードより構成されるグラフィカルモデルの一例を示す図である。
図21Aに示すグラフィカルモデルは、X年の項目とX+N年の項目を表わすノード(図中丸印)より構成される。項目間のエッジは3種類となっている。1つ目は、X年のBMI値とX年のコレステロール値などのように、同一年の項目の間のエッジ(リンク)であり、図では細実線で示されている。2つ目は、X年の糖尿病経口薬処方有無とX+N年の糖尿病経口薬処方有無のように、異なる年の項目名(年の部分を除く)が同じである項目の間のエッジであり、図では太実線で示されている。3つ目は、X年の血糖値とX+N年の経口薬処方有無のように、異なる年の項目名(年の部分を除く)が異なる項目の間のエッジであり、図では破線で示されている。
これらの3種類のエッジの意味について説明する。まず、細実線で示した同一年の項目の間のエッジについて説明する。同一年の項目間エッジでは、同一年の項目間の確率的依存性を示す。例えば、BMI値が高い場合には、コレステロール値も高い傾向があるため、これら2つの項目には確率的な依存性がある。このような傾向は、年が変わっても大きく変化するものではないため、X年のノード群とX+N年のノード群のエッジ構造は、同一にするという拘束条件をつけてもよい。このような条件の下、整形情報1101の事例データを用いて、同一年の項目の間のエッジを学習する。これには、ベイジアンネットワークやマルコフネットワークの既存の構造学習方法を用いることができる。このとき、整形情報1101の各行が1つの事例となり、データ年を除く項目が確率変数(ノード)となる。事例として、異なるデータ年の事例が混在していてもよい。
次に、太実線で示した異なる年の項目名(年の部分を除く)が同じである項目の間のエッジについて説明する。これは、項目の経年的な状態変化(遷移)を表わす。例えば、図に示すようなX年の糖尿病経口薬処方有無からX+N年の糖尿病経口薬処方有無へのエッジである。これは、X+N年の糖尿病経口薬処方の有無が、X年の糖尿病経口薬処方の有無の状態に依存していることを示している。例えば、X年に糖尿病経口薬の処方を受けた人はX+N年にも糖尿病経口薬の処方を受ける可能性が高いと考えられる。
逆に、X年に糖尿病経口薬の処方を受けなかった人はX+N年に糖尿病経口薬の処方を受ける可能性は低いと考えられる。同様にして、将来の各項目の状態は、現在の各項目の状態に依存していると考えられるため、このエッジは、すべてのX年とX+N年の項目名が同じである項目の間に定義してもよい。
さらに、破線で示した異なる年の項目名(年の部分を除く)が同じでない項目の間のエッジについて説明する。これは、上述したX年とX+N年の項目名(年の部分を除く)が同じ項目の間の経年的な遷移に影響を及ぼす因果を示している。図21Aでは、例えば、X年の血糖値からX+N年の糖尿病経口薬処方有無にエッジがある。これは、X+N年の糖尿病経口薬処方有無の状態が、X年の血糖値に依存していることを示している。X年に糖尿病経口薬の処方がない人が、X+N年に糖尿病の経口薬の処方を受ける確率は、その人のX年の血糖値の値が高いほど、高いと想定される。
そのため、X+N年の糖尿病経口薬処方の有無をより正確に予測するために、X年の血糖値の情報が有効であると想定される。このように、これらのエッジは、X年からX+N年へのある項目の状態遷移が、他のX年の項目の状態に確率的に依存していることを示している。これらのエッジは、確率的依存性が一定以上となるようなX年とX+N年の同一でない項目間に定義される。例えば、単純な方法では、相関係数を計算し、ある閾値以上の項目間に定義してもよい。また、同一の健保加入者のある年のデータとその年からN年後のデータを1つの事例として、多数の事例を用いてベイジアンネットワークやマルコフネットワークの構造学習法によってエッジを学習してもよい。例えば、N=3の場合には、同一の健保加入者の2004年と2007年のデータを1つの事例として扱う。
以上のようにして3種類のエッジを定める。これらのエッジは、まとめて、ベイジアンネットワークやマルコフネットワークの構造学習法により、整形情報1101の事例を用いて生成してもよいし、各々の種類で独立に整形情報1101の事例を用いて生成してもよい。また、実細線の構造はX年とX+N年で同一とする拘束条件を与えてもよい。さらに、太実線のエッジは、全てのX年とX+N年の同一項目名の項目間に定めてもよい。なお、構造学習の際には、整形情報記憶部114に保存されている定量化前の医療データ(1301等)を用いても良い。
また、性別等の基本情報は、年によって変化する性質のものではないため、X+N年のノードとリンクをもつ、という条件で学習する。また、X+N年の医療費ノードは、そのノードから、X+N年の他のノードに向かう有向リンクを学習するように拘束条件を与えても良い。これは、医療費は多くのノードと関連する傾向が強いため、それらのノードから医療費ノードに向かう有向リンクが張られると、医療費の親ノードが膨大となり、推論時の効率や確率テーブルの計算精度が落ちることを防ぐためである。
さらに、実際の予測の際に、X年のノードに現在の状態を設定し、X+N年のノードの状態を推論するため、X年のノード同士の推論は必要がない。そのため、X+N年のノードが未観測の状態で、X年のノード同士が独立になる、という拘束条件で学習してもよい。例えば、異なるN年のノード同士を結ぶ有向閉路と、異なるN年を共通の子ノードとしてもつX+N年のノード、が存在しないように拘束条件を与えて学習してもよい。なお、エッジ構造の学習においては、定量化後のデータを用いても良い。
以上の方法により、項目間のエッジを定めることができる。項目はX年の項目とX+N年の項目を含む。その際、定量化データの値vは、0の事例が1−v個、1の事例がv個あるとして考える。図22Aは、傷病名コードと確率の関係を示すテーブルである。例えば、図22Aのデータについて、傷病名コード10(1315)、傷病名コード20(1316)、傷病名コード30(1317)の3つのノードが関係する(例えば、傷病名コード10と傷病名コード20のノードが傷病名コード30の親ノードである場合など)確率テーブルを生成する場合を検討する。図22Aに示す、健保加入者ID1302=K0011の事例2301は、図22Bのテーブル2302に示すように4つの事例に分解し、上の行から、それぞれ0.81人分、0.09人分、0.09人分、0.01人分とカウントする。
図22Bの最初の行の0.81人分は、図22Aの傷病名コード10の0.1より、傷病名コード10が0である割合が0.9=1−0.1、図22Aの傷病名コード20の0.1より、傷病名コード20が0である割合が0.9=1−0.1、として、0.9×0.9=0.81として算出したものである。
このエッジに基づいて、条件付確率のテーブルを、定量化データを用いて生成する。定量化データの値vは、0の事例が1−v個、1の事例がv個あるとして考える。例えば、図22Aのデータについて、傷病名コード10、傷病名コード20、傷病名コード30の3つのノードが関係する(例えば、傷病名コード10と傷病名コード20のノードが傷病名コード30の親ノードである場合など)確率テーブルを生成する場合、健保加入者ID1302=K0011の事例2301は、図22Bのテーブル2302に示すように4つの事例に分解し、上の行から、それぞれ0.81人分、0.09人分、0.09人分、0.01人分とカウントする。図22Bは、傷病名コードの確率テーブルの一例を示す図である。
最初の行の0.81人分は、傷病名コード10の0.1より、傷病名コード10が0である割合が0.9=1−0.1、傷病名コード20の0.1より、傷病名コード10が0である割合が0.9=1−0.1、として、0.9×0.9=0.81として算出したものである。傷病名コード30については、値が1であるため、分解の必要はない。このように、1人分の事例を分解し、それぞれに重みを付ける。これにより、例えば、P(C=1|A=1)は、
P(C=1|A=1)=(A=1かつC=1である重み付き事例数)/(A=1である重み付き事例数)
により計算する。A=1である重み付き事例数とは、テーブル2302のように展開した後の、A=1となる事例の重みの合計値である。
以上の方法により生成した図21A,図21Bに示したグラフ(ノードとエッジ)と確率テーブル2302は、予測モデルとして予測モデル記憶部116に記憶される。なお、このようなグラフィカルモデルは、性別や年齢、国籍などによって大きく異なる場合がある。そのため、このようなグラフィカルモデルは、性別ごと、年齢ごと、国籍ごと、など、必要に応じて別々に生成してもよい。
なお、上記においては、グラフの構造(エッジ)を学習する際には、定量化前の整形情報1301(1101)を用いたが、定量化後の情報(定量化データ1310)を用いても良い。
定量化後の情報による学習処理の一例を図17を用いて示す。図17は、モデル学習部109がグラフの構造を学習する処理の一例を示すフローチャートである。
この例では、まず最初に、モデル学習部109は、エッジ構造を初期化し、学習データ(定量化データ1310)に基づくエッジ構造の適応性を測る指標を用いて、この指標が大きくなるようにエッジ構造を変形させる操作を繰り返すことにより、構造を学習する。適応性の指標には、例えば、BDeスコアなどを用いることができる。
まず、構造初期化2801では、モデル学習部109が定量化データ1310に基づくエッジ構造を初期化する。これは、事前に別の方法で生成したエッジ構造を用いても良いし、ランダムにエッジを生成してもよいし、エッジが全くなく、ノードが孤立したものを用いても良い。ただし、グラフがベイジアンネットワークになるようにする。
次に、収束判定2802では、モデル学習部109が学習の収束の判定を行い、所定の収束条件を満たした場合には処理を終了し、収束していないと判断された場合には、変形スコア算出2803の処理に移る。モデル学習部109は最初に収束判定2802を行う場合には、無条件に変形スコア算出2803に進む。2回目以降の収束の判定方法については、後に説明する。
変形スコア算出2803では、モデル学習部109が全てのノードのペアについて、エッジが無い場合にはエッジの追加、エッジがある場合にはエッジの削除、反転の各操作を行い、各操作を行った場合の指標の増減を計算する。ただし、操作を行った際に、ベイジアンネットワークの条件が崩れる場合には、その操作は対象から外す。このとき、指標値を計算する必要があるが、確率テーブルの場合と同様に、図22Bのように、スコアの計算に関連するノードに関して、重み付きでデータを展開して計算する。
構造変形操作2804では、変形スコア算出2803において、モデル学習部109が最も指標値の増加が大きくなる操作を選択し、当該操作により、エッジ構造を変形する。モデル学習部109は、変形スコア算出2803において、いずれの操作においても指標値の増加が無い場合には、エッジ構造の変形は行わない。
収束判定2802では、構造変形操作2804でエッジ構造の変形が無かった場合には、モデル学習部109が収束したと判定し、処理を終了する。それ以外の場合には、モデル学習部109が収束しなかったと判定し、変形スコア算出2803に進んで上記処理を繰り返す。
上記処理によって、モデル学習部109は、定量化データ1310を用いてグラフの構造(エッジ)を学習し、グラフ(グラフィカルモデル)の更新と確率テーブルの更新を行うことができる。
<発症確率・医療費予測処理の詳細>
次に、予測部110の処理の詳細について説明する。予測部110は、予測モデル記憶部116に格納された予測モデル(グラフと確率テーブル)を用いて、健保加入者の将来の疾病の発症確率、および医療費を予測する。予測モデル記憶部116に格納されたグラフィカルモデル(ノードとエッジ)を用いると、一部の確率変数(項目)に既知の値が与えられたときの未知の確率変数(項目)の各状態を取る確率の分布を算出することができる。
例えば、個人の今年の健診、問診、レセプトのデータが与えられたとき、予測部110は、X年の確率変数(項目)の値を既知として、残りのX+N年の確率変数(項目)の確率分布を算出することができる。また、例えば、個人の今年の健診、問診、レセプトのデータが与えられたとき、予測部110は、N年後にその人が糖尿病経口薬の処方を受ける確率、受けない確率を算出することができる。同様にして、N年後の他の項目の各値に対する確率分布も得られる。これにより、予測部110では、例えば、X+N年の医療費の確率分布を算出することができ、よって医療費の期待値が得られる。同様にして、医科、薬剤の処方の確率分布を予測部110で算出することにより、ある病気の発症確率が計算できる。このような確率推論には、Junction Tree Algorithmなどを用いることができる。これにより、各被保険者の今年のデータに基づいて、N年後の発症確率、医療費を予測できる。
図21Aで示した例を用いて、予測部110が疾病の発症予測または医療費予測の例について説明する。まず、今年分の健診、問診、レセプトのデータが得られた場合、予測部110は図21AのX年ノード群に、得られたデータを観測データとして設定する。このとき、X年の項目の未知項目があってもよい。たとえば、未検査項目や問診等の未回答項目などは未知となる。
予測部110は、まず、図21Aの実線で示したX年ノード間のエッジに基づいて、観測データから、X年の未知項目の状態を確率推論により推定する。これにより今年の既知項目の値と、今年の未知項目の各状態の推定確率が得られる。
次に、予測部110がN年後の各項目の状態の確率を、図21Aの太実線と点線で示されたエッジに基づいて確率推論により推定する。これにより、予測部110はN年後の各項目の各状態の推定確率を得ることができる。これに基づいて、例えば、検査値、医療費の期待値を予測部110が計算することにより、N年後の検査値、医療費などの予測値が得られる。
今、2N年後の状態を予測したいとする。この場合には、現在とN年後の層(ノード群)と同一の構造をN年後と2N年後の層(ノード群)にも用いることができる。図21BのN年後と2N年後の層(ノード群)は、図21AのX年とX+N年の層(ノード群)の構造と同一だからである。
そして、N年後の各項目の各状態の推定確率に基づいて、予測部110は2N年後の各項目の各状態の推定確率を計算する。これにより、図21Bで示すように2N年後の状態が予測できる。これを繰り返すことにより、3N年後、4N年後、のように将来の状態が予測できる。
以上により、予測部110は各健保加入者の今年の健診、問診、レセプトの結果などを用いて、N年後、2N年後、3N年後、など所望の未来の病気の発症確率や、医療費などを予測することができる。
<保健指導支援処理の詳細>
保健指導支援部111は、将来の病気の発症や重症化を予防するための指導を支援する機能を提供する。ここでは、健康保険事業者が保健指導計画を策定するための支援機能について説明する。
一般的に、健康保険事業者は、保健指導による予防効果が高い対象者を予算内で優先的に選び、各対象者に適した費用対効果の高い指導を行うことを望んでいる。また、通常、健康保険事業者が提供できる保健指導サービスは複数ある(保健指導サービス1、保健指導サービス2、…、など)。例えば、保健指導サービス1は、主にBMI値を減らすための指導、保健指導サービス2はコレステロール値を下げるための指導などである。
図15は、本発明の実施例による健康保険事業者向け支援処理を説明するためのフローチャートである。この処理は、所定のタイミングで保健指導支援部111によって実行される。
(i)対象疾病設定処理(ステップ1601)
保健指導支援部111は、保険事業者(ユーザ)の入力に従って、処理対象とする疾病を設定する。例えば、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象とする場合、レセプト整形情報(1103〜207)の項目のうち、糖尿病、脂質異常症及び高血圧症に該当する医療行為の項目、健康診断の項目、及び問診の項目を予測の対象とする。
(ii)保健指導サービス設定処理(ステップ1602)
保健指導支援部111は、保険事業者(ユーザ)の入力に従って、保健指導サービスの種類と各保健指導サービスの想定効果を設定する。例えば、保健指導サービス1の想定効果は、体重5kg減などである。
(iii)保健指導効果予測処理(ステップ1603)
予測部110は、全ての保健指導サービスと保健指導対象候補者の組み合わせについて、以下のようにして医療費の削減効果を予測する。ここでは、保健指導サービス1と保健指導対象候補者1との組み合わせについて医療費の削減効果を考える。
最初に、予測部110は、保健指導サービスを行わない場合の保健指導対象候補者1の翌年の医療費を予測する。具体的に、予測部110は、今年の保健指導対象候補者1のレセプト、健康診断、及び問診の値に基づいて、今年の項目に対応するノードの状態を設定し、医療費(C1)を予測する。
次に、予測部110は、保健指導サービスにより検査値が改善した値を、今年の保健指導対象候補者1の値に設定し、翌年の医療費(C2)を予測する。C1が保健指導を行わない場合の予測医療費、C2が保健指導を行った場合の予測医療費となるため、保健指導サービスの実施に必要な費用をC3とすると、医療費の削減費用対効果は、E=C1−C2−C3により計算することができる。この処理を全ての保健指導サービスと保健指導対象候補者との組み合わせに対して行い、医療費の削減費用対効果Eを計算する。
(iv)保健指導内容策定処理(ステップ1604)
保健指導支援部111は、保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費の削減費用対効果が高い組み合わせを選択し、選択された保健指導対象候補者を選択済みとする。
次に、保健指導支援部111は、選ばれていない保健指導対象候補者に対する保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費の削減費用対効果が高い組み合わせを選び、選ばれた保健指導対象候補者は選択済みとする。このようにして、効果の高い順に保健指導サービスと保健指導対象候補者との組み合わせを選択することができる。
保健指導支援部111は、保健指導の予算の範囲で、効果が高い順に保健指導対象者と保健指導サービスの組み合わせを選択し、保健指導対象者及び保健指導内容を設定する。
(v)効果予測処理(ステップ1605)
保健指導支援部111は、保健指導内容策定処理(ステップ1604)によって選択された組み合わせの医療費の削減費用対効果を合計し、医療費削減効果から保健指導コストを減じた値を効果として出力する。これにより、費用対効果の高い保健指導対象者と保健指導内容を選定できる。
なお、本実施例においては、定量化データをエッジ構造の構築、確率テーブルの計算に用いる例を示した。また、定量化データは発症確率や医療費予測時にも用いることができる。この場合には、定量化された予測対象に対して、すでに図22A、図22Bに説明した方法によって、重み付きでデータを分解し、分解された各データの推論結果を重みによって重ね合わせた結果を用いれば良い。
具体的には、例えば、定量化データxがx1、x2、x3に分解され、それぞれの重みがw1、w2、w3とした場合、xiに対する予測結果をp(xi)とすると、w1×p(x1)+w2×p(x2)+w3×p(x3)として計算できる。
また、別の方法として、推論を行う際に、ひとつひとつの確率テーブルを用いた計算において、確率テーブルが関連するノードに関して、図22A、図22Bに説明した方法によって、重み付きでデータを分解し、分解された各データの確率テーブルを用いた重み付き計算を行うことでも計算できる。この方法では、分解を局所的に行うため、確率テーブルに関連するノードに関してのみ分解をするため、分解データが膨大になることを抑制できる。
ここで、予測時において定量化データを用いる場合には、注意を要する。今、X年の学習用データをA1、X+N年の学習用データをA2、現在の予測対象データをB1、N年後の予測対象データをB2とすると、運用時にはB2は存在しない。ここで、B1のデータの項目をX年のデータの項目と考え、A1、B1を用いて定量化を行う。
図25Bは、X年と予測対象のデータを合わせたテーブルである。テーブル2602にはX年と予測対象のデータを合わせた例を示した。これを、定量化することで、学習データと予測対象を組み合わせた定量化が可能である。
なお、定量化データの使い方において、エッジ構造の構築、確率テーブルの計算、予測時、のそれぞれにおいて、算出した定量化データを使うか使わないか、の組み合わせにて、8通りの構成が可能である。さらに、これらの各々の構成について、学習用データに関して、X年のデータのみを定量化するか、X+N年のデータのみを定量化するか、両方を定量化するか、の3通りの構成がある。
以上のように、本実施例1によれば、医療データ分析装置101は、傷病名や診療行為や薬品の処方などの記録を含む二値(離散値)の元データから定量化対象を選択し、定量化対象のデータについて疾病リスクを加味して定量化データを生成する。医療データ分析装置101は、定量化データを用いて疾病空間と人物空間を生成する。そして、医療データ分析装置101は、疾病空間と人物空間のテンソル空間を算出し、疾病空間と人物空間の類似性を同時に計算する。医療データ分析装置101は、テンソル空間上での確率分布から予測モデルを生成する。なお、予測モデルの生成は、ベイジアンネットワークやマルコフネットワーク、あるいは、多次元ガウス過程などの手法を用いることができる。そして、医療データ分析装置101は、定量化データに基づく予測モデルを用いて将来の疾病の発症確率や医療費の予測を高精度で行うことができる。
また、本発明では、疾病の発症事例が少ない場合でも高精度の予測ができるので、保健指導による予防効果が高い対象者を予算内で優先的に選択し、選択した対象者に適した費用対効果の高い指導を行うことが可能となる。また、本発明では、定量化データから算出した予測モデルには、個人を特定する情報を含まないため、匿名化を計ることができる。
また、元データから選択する定量化対象は、元データの全てを選択することができ、あるいは、図13Cで示したように、元データのうち所定の条件を満たす一部であってもよい。
本実施例2では、データ定量化部108の別の実施例を示す。その他の部分の処理は、前記実施例1と同様の構成である。図24を用いて、処理の流れを説明する。
まず、定量化対象データ抽出2501では、データ定量化部108が、定量化の対象とする項目とそのデータを選定する。選定するデータは、例えば、図18Aの表1901である。図18Aの表1901は、定量化の対象とした項目とそのデータ(元データ)の例である。この例では、疾病A,疾病B,疾病C,疾病Dなどの項目が選定され、各人(表1901ではIDで示されている)のデータが表形式で示されている。
いま、選定された項目を値として設定する変数をyとし、人(ID)を値として設定する変数をxとする。このとき、変数xとyの組(x、y)に対して、表1901に示すような離散値が与えられている。表1901において、例えば、y=疾病B,x=ID2のときには、値は1となっている。以下では、変数xに設定される値をx1、x2、…、xnとし、変数yに設定される値をy1、y2、…、ymとする。
ここで、zをK個の状態をとる潜在変数として、変数(x、y)の組に対して値が1である確率は、
P(x、y)=ΣP(x|zi)P(y|zi)P(zi)
により与えられていると仮定する。
ここで、潜在変数の状態数Kは予め定めておく。Σは潜在変数の各状態ziについて和を計算することを示す。ここで、P(x|z),P(y|z)はともに多項分布であり、0以上1以下のパラメータθzxi、θzyiを用いて、
P(x=xi|z)=θzxi
P(y=yj|z)=θzyi
により表わされる。多項分布であるため、
Σθzxi=1
Σθzyi=1
である。ここで、Σは全てのiに対して和を算出する。
このモデルのパラメータθzxi、θzyi、P(zi)を表1901に示すデータより推定することで、潜在変数zを通してxとyの共起性を学習することができる。パラメータはEMアルゴリズムにより推定する。この推定は、この確率モデルで図18Aの表1901に示すような元データが再現される確率に対数を算出して数尤度
ΣlogP(x、y)
が大きくなるように、反復処理によりパラメータを推定する。ここで、Σは元データにおいて「1」の値をもつ全ての変数(x、y)の組について算出される。
以下では、EMアルゴリズムによる上記パラメータの推定処理について説明する。
図24のパラメータ初期化2502では、データ定量化部108がモデルのパラメータθzxi、θzyi、P(zi)を初期化する。パラメータθzxiには0以上1以下の実数値をΣθzxi=1となるように設定する。パラメータθzyiも同様である。また、パラメータP(zi)も同様に0以上1以下の実数値をΣP(zi)=1となるように設定する。設定する値はランダムに発生させたものを用いても良い。このとき、ここで定めたパラメータを用いて対数尤度も計算しておく。
収束判定2503では、データ定量化部108が前回の処理と比較して、対数尤度の変化が予め定めた閾値以下であるか否かを判定し、変化が閾値以下であれば、収束した徒判定して確率値計算2507に移り、そうでなければ、潜在変数分布推定2504の処理に移る。なお、データ定量化部108が初めて収束判定2503の処理を行う場合には、前回の処理がないため、潜在変数分布推定2504の処理に移る。
潜在変数分布推定2504では、データ定量化部108が現在のパラメータθzxi、θzyi、P(zi)を用いて、変数x=xi、変数y=yjの条件付きでのzk(k=1、2、…、K)の確率分布P(zk|xi、yj)を計算する。具体的には、
P(zk|xi、yj)=P(zk)P(xi|zk)P(yj|zk)/[ΣP(zk)P(xi|zk)P(yj|zk)]
により計算できる。ここで、分母のΣは全てのkに対して和を計算する。
次に、パラメータ推定2505では、データ定量化部108が潜在変数分布推定2504で計算したP(zk|xi、yj)に基づいて、パラメータθzxi、θzyi、P(zi)を推定する。具体的には、
θzkxi=P(xi|zk)=ΣjI(xi、yj)P(zk|xi、yj)/ΣiΣjI(xi、yj)P(zk|xi、yj)
θzkyj=P(yj|zk)=ΣiI(xi、yj)P(zk|xi、yj)/ΣiΣjI(xi、yj)P(zk|xi、yj)
P(zk)=ΣiΣjI(xi、yj)P(zk|xi、yj)/ΣiΣjI(xi、yj)
により与えられる。ここで、Σiは全てのiについて、Σjは全てのjについて和を計算することを示し、I(xi、yj)は、変数の組(xi、yj)について、元データ(表1901)での値が1のときは「1」、「0」のときは0の値とする関数である。
尤度計算2506では、データ定量化部108がパラメータ推定2505で推定したパラメータθzxi、θzyi、P(zi)を用いて、対数尤度ΣlogP(x、y)を計算する。ここで、Σは元データにおいて1の値をもつ全ての変数(x、y)の組について和を算出する。
収束判定2503では、データ定量化部108が直前に尤度計算2506で計算した対数尤度と、パラメータ初期化2502または尤度計算2506で計算したもうひとつ前の対数尤度との計算結果を比較する。すなわち、データ定量化部108は、対数尤度の前回値と現在値の差分が予め定められた閾値以下であるときに、収束したと判定して確率値計算2507に処理を移す。そうでない場合には、データ定量化部108は対数尤度が収束していないと判定して潜在変数分布推定2504に戻る。なお、予め定められた回数を超えて収束判定2503の処理を行った場合には、データ定量化部108が対数尤度を収束していると判定して、確率値計算2507の処理に移っても良い。
確率値計算2507では、データ定量化部108が上記推定したパラメータθzxi、θzyi、P(zi)を用いて、各(x、y)の組に対して
P(x、y)=ΣP(x|zi)P(y|zi)P(zi)
を計算する。図18Bの表1902には、この演算の結果の例を示した。図18Bは、疾病が発症する確率を健保加入者IDごとに算出した表1902である。
ここで、項目yjに対して、図18Aの表1901において、「1」の値をもつ人数をNjと設定する。表1901では、表に表示されているもののみ数えると、疾病Aの発症人数は1人、疾病Bの発症人数は2人、…、などとなる。yjが疾病を表わす項目の場合には、Njは発症人数となる。
同様に、図18Bの表1902において、項目yjに対してP(x、yj)の全てのxについて和を計算した値をMjとする。このとき、一般に上記の方法で表1902を生成すると、Nj≠Mjとなる。Mjの値は、例えば、yjが疾病の場合には、確率値により見積もった発症人数の期待値と考えることができる。
実際に計算すると、多くの場合には、MjがNjと比べて小さくなるが、このような表1902のデータを用いて予測モデルを構築すると、図18Aの表1901のデータと比較して、小さい値によって、将来の発症率、医療費を推定するモデルを構築することになるため、発症率、医療費を過大に予測するモデルが生成されてしまう。このため、本発明では、リスク定量化2508によって、各項目の発生数が表1901と同等となるように正規化を行う。
リスク定量化2508では、人物xi、項目yjに対応する値として、
Q(xi、yj)=(Nj/Mj)P(xi、yj)
とする。この値を用いることにより、Q(xi、yj)の全てのxiに対して和を計算した値はNjとなり、表1901の各項目の人数と一致する。このとき、Q(xi、yj)が1を超える場合には、Q(xi、yj)=1と設定する。この場合には、Q(xi、yj)の全てのxiに対して和を計算した値はNjより小さくなるので、この値をLjとし、Q(xi、yj)を(Mj/Lj)Q(xi、yj)に再設定する。この場合も、1を超えるものは1と置き換える。この処理を繰り返すことにより、Q(xi、yj)の全てのxiに対して和を計算した値がNjに近づくため、Njとの差が予め定めた閾値よりも小さくなった時点で終了し、その場合のQ(xi、yj)の値を用いる。図18Cの表1903に、このようにして算出した値の例を示した。これを定量化データとして用いる。
本発明では、元データを項目間と人物間の類似度に基づいて定量化した。レセプト等に基づいて生成される元データ(表1901)は、処方や診断を受けたか否かの2値、あるいは、受けた回数などの離散値で表現されている。本発明では、このように医療機関での診療状況や問診での結果に表れてこない、潜在的な疾病リスクがあると考える。例えば、図19Aに示す表1901の元データでは、ある傷病名の診断を受けた場合に「1」、受けなかった場合に「0」と表現される。
しかし、これは、診断を受けたか否かの偶然にも左右される値でもあるため、本発明では、このような表面的なデータに表れない潜在的なリスクを項目間、人物間の類似度に基づいて、リスクとして定量化する。項目間、人物間の類似性を使うのは、類似した病気は異なる人に併発しやすいことや、類似した人物は同様の疾病を発症しやすいことなどを考慮したものである。
ここで、推薦に用いられる協調フィルタリングとの関連について説明しておく。例えば、複数の映画等のコンテンツの各人物の購入記録を用いて、ある人にあるコンテンツを推薦する例について説明する。購入の履歴は図24Aのように、映画1を人1が購入した場合に1というように表現できる。図24Aは、購入の履歴を示すテーブルである。この場合、購入履歴は少ないため、実際には図24Aに示すよりも、1の値が入る部分は少ない。この履歴より、映画の類似性と人物同士の類似性を考慮して、人iが映画jを好むであろう確率P(xi、yj)を未購入のペア(xi、yj)に対して推定する。
推薦の場合には、実際に購入した部分のみデータが存在し、それ以外ではデータは存在しない。本発明では、元データでは全て値が埋まっているが、これを敢えて未知として、疾病等の項目と人物の共起性を利用して推定する。推薦の場合には、P(xi、yj)の相対値が分かれば良い。つまり、人xiに対して、最も確率P(xi、yj)の値が高くなる項目yjを推薦すればよい。
しかし、本発明では、この値を用いて予測モデルを構築するため、発症期待値が元の発症人数と大きく離れていると、過大予測や過小予測をするモデルが構築され、精度の良い予測モデルを構築することができない。
そこで、本発明では、各項目yjに対して、人数の期待値が元のデータの人数と大きく差が出ないように値を正規化する。推薦の技術には、確率P(xi、yj)を生成するための様々な確率モデルがあるが、本発明においても、それらを援用することができる。ただし、上記に述べたような推薦の場合と異なる処理、すなわち、正規化の処理と、値が埋まっているところを敢えて推定するための処理が必要である。実施例1、実施例2は、それぞれ非特許文献1、非特許文献2のモデルを参考にしている。
さらに、本発明では定量化データを関連ノードのデータについて分解することにより、グラフィカルモデルの構造学習、確率テーブルの計算、予測に用いる方法を提供している。
なお、上記実施例1、実施例2は、図16に示すような構成も可能である。図16は、医療データ分析システムの他の例を示すブロック図である。図16の装置1703は、データ整形部107、データ定量化部108、モデル学習部109を備えており、医療データ記憶部113に格納された医療データを用いて、予測モデル記憶部116に記憶される予測モデルを生成する。
予測部110、保健指導支援部111では、モデル生成用に用いた医療データ記憶部113、整形情報記憶部114、定量化データ記憶部115は必要ない。このため、予測モデルを格納する予測モデル記憶部116のみ、ネットワークを介して別の装置1701に移し、予測部110は、この予測モデル記憶部116のモデルを用いて予測を行っても良い。
このとき、予測対象の人物のデータは、予測の際に装置1701の、入力部102より入力される。このような構成とすることで、モデル生成用に必要なデータを予測時にも保持しておく必要がなく、データ保護の観点から有用である。
以上のように、第2の実施例では、前記第1の実施例の効果に加え、人数の期待値が元のデータの人数と大きく差が出ないように値を正規化することができ、疾病の予測に加えて、物やサービスを推薦する技術にも適用することができる。
本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Javaの広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施例において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施例の考察から明らかになる。

Claims (12)

  1. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する医療データ分析システムであって、
    前記医療データ分析システムは、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、
    前記医療データ分析システムは、
    前記プロセッサが、前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成するデータ定量化部と、
    前記プロセッサが、前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成するモデル生成部と、
    前記プロセッサが、前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する予測部と、
    を有することを特徴とする医療データ分析システム。
  2. 請求項1に記載の医療データ分析システムであって、
    前記データ定量化部は、
    前記定量化データを前記分析対象者の人物と疾病の両方の類似性に基づいて計算することを特徴とする医療データ分析システム。
  3. 請求項1に記載の医療データ分析システムであって、
    前記データ定量化部は、
    疾病の項目を軸とする疾病空間上に前記疾病に対応する人物を人物ベクトルとして配置し、前記人物ベクトルの関数として人物間の類似度を計算し、人物を軸とする人物空間上に疾病を疾病ベクトルとして配置し、疾病ベクトルの関数として疾病間の類似度を計算することを特徴とする医療データ分析システム。
  4. 請求項1に記載の医療データ分析システムであって、
    前記データ定量化部は、
    潜在変数を介して人物と疾病が共起することを表わすモデルを仮定して、前記定量化データを計算することを特徴とする医療データ分析システム。
  5. 請求項1に記載の医療データ分析システムであって、
    前記モデル生成部は、
    前記ノードとそのノードの親ノードに関する定量化データを離散値と定量値の差に基づく重み付きで離散値に分解し、前記定量化データを前記重み分の個数のデータとして確率テーブルを計算することを特徴とする医療データ分析システム。
  6. 請求項1に記載の医療データ分析システムであって、
    前記モデル生成部は、
    前記グラフィカルモデルの有向辺及び無向辺を学習し、前記ノードとそのノードの親ノードに関する定量化データを離散値と定量値の差に基づく重み付きで離散値に分解し、前記定量化データを重み分の個数のデータとし、当該データに基づいて、前記学習時の構造を評価することを特徴とする医療データ分析システム。
  7. 請求項1に記載の医療データ分析システムであって、
    前記予測部は、
    予測対象データを前記定量化データを入力として、ノードとそのノードの親ノードに関する定量化データを離散値と定量値の差に基づく重み付きで離散値に分解し、前記定量化データを重み分の個数のデータとし、当該データに基づいて推論することにより前記疾病の発症確率及び医療費の少なくとも一方を予測することを特徴とする医療データ分析システム。
  8. 請求項1に記載の医療データ分析システムであって、
    前記モデル生成部は、
    前記グラフィカルモデルの有向辺及び無向辺を学習し、予測対象となる医療費のノードが親ノードとなるように制限を設けて学習を行うことを特徴とする医療データ分析システム。
  9. 請求項1に記載の医療データ分析システムであって、
    前記データ定量化部は、
    前記整形情報の項目の各々について、当該項目のデータを合計した値が、定量化前のデータと定量化後のデータにおいて、予め定めた閾値以下となるように、定量化することを特徴とする医療データ分析システム。
  10. 請求項1に記載の医療データ分析システムであって、
    前記モデル生成部は、
    前記有向辺の学習において、予測時に既知となるノード間で予測対象ノードが未観測の状態において、前記ノード同士が独立となるように学習を行うことを特徴とする医療データ分析システム。
  11. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有する計算機で医療データを分析する医療データ分析方法であって、
    前記計算機は、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、
    前記医療データ分析方法は、
    前記計算機が、前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成する第1のステップと、
    前記計算機が、前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成する第2のステップと、
    前記計算機が、前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する第3のステップと、
    を含むことを特徴とする医療データ分析方法。
  12. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有する計算機を制御するプログラムを格納した記憶媒体であって、
    前記計算機は、分析対象者の傷病名、前記分析対象者に行われた医療行為及び前記医療行為の費用を含むレセプト情報と、前記分析対象者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記分析対象者毎かつ所定期間毎に纏めた整形情報とを格納するデータベースにアクセス可能であって、
    前記プログラムは、
    前記分析対象者のレセプト情報及び健診情報を、前記分析対象者毎にかつ所定期間毎に纏めた整形情報を前記データベースから取得して、前記整形情報の離散値の一部、または全部を定量化して定量化データを生成する第1の手順と、
    前記整形情報と前記定量化データに基づいて、前記整形情報の項目を表す確率変数に対応するノードの間の確率的依存性が、有向辺及び無向辺の一方によって定義されたグラフィカルモデルを生成する第2の手順と、
    前記生成されたグラフィカルモデルに基づいて、疾病の発症確率及び医療費の少なくとも一方を予測する第3の手順と、
    を前記計算機に実行させるプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。
JP2016505998A 2014-03-05 2014-03-05 医療データ分析システム、医療データ分析方法及び記憶媒体 Expired - Fee Related JP6159872B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/055626 WO2015132903A1 (ja) 2014-03-05 2014-03-05 医療データ分析システム、医療データ分析方法及び記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2015132903A1 JPWO2015132903A1 (ja) 2017-03-30
JP6159872B2 true JP6159872B2 (ja) 2017-07-05

Family

ID=54054740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016505998A Expired - Fee Related JP6159872B2 (ja) 2014-03-05 2014-03-05 医療データ分析システム、医療データ分析方法及び記憶媒体

Country Status (2)

Country Link
JP (1) JP6159872B2 (ja)
WO (1) WO2015132903A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018534697A (ja) * 2015-11-19 2018-11-22 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 個人化された予測モデルに基づいて健康モニタリングを容易化するシステム及び方法
KR101923654B1 (ko) * 2016-11-24 2018-11-29 주식회사 셀바스에이아이 질환 발병 확률 예측 모델 학습 방법 및 장치
JP6537121B1 (ja) * 2017-12-19 2019-07-03 学校法人産業医科大学 傷病別医療費推計装置および方法並びにプログラム
JP7109995B2 (ja) * 2018-05-29 2022-08-01 株式会社日立製作所 介護サービス分析システム、介護サービス分析方法、介護サービス分析処理装置
US20210249138A1 (en) * 2018-06-18 2021-08-12 Nec Corporation Disease risk prediction device, disease risk prediction method, and disease risk prediction program
WO2020045245A1 (ja) * 2018-08-31 2020-03-05 日本電信電話株式会社 状態遷移予測装置、予測モデル学習装置、方法およびプログラム
CN109559242A (zh) * 2018-12-13 2019-04-02 平安医疗健康管理股份有限公司 异常数据的处理方法、装置、设备及计算机可读存储介质
JP7300973B2 (ja) 2019-12-03 2023-06-30 株式会社日立製作所 保健医療データ分析システム及び保健医療データ分析方法
JP2021189557A (ja) * 2020-05-26 2021-12-13 みずほリサーチ&テクノロジーズ株式会社 診療明細検査装置、診療明細検査方法及びコンピュータプログラム
JP7048796B1 (ja) * 2021-05-31 2022-04-05 大塚製薬株式会社 生活者の健康状態を把握、健康予測モデルでの生活者の健康維持、増進をサポートする方法及び情報提供方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163489A (ja) * 2004-12-02 2006-06-22 Ntt Data Corp 発症確率算出装置、および、プログラム
JP4718250B2 (ja) * 2005-06-15 2011-07-06 株式会社創発システム研究所 画像処理装置
JP5050217B2 (ja) * 2010-03-25 2012-10-17 沖電気工業株式会社 ベイジアンネットワークによる推論を実行する推論装置、及び当該推論装置を実現するプログラム
JP2012064087A (ja) * 2010-09-17 2012-03-29 Keio Gijuku 生活習慣病の診断予測装置、生活習慣病の診断予測方法及びプログラム

Also Published As

Publication number Publication date
JPWO2015132903A1 (ja) 2017-03-30
WO2015132903A1 (ja) 2015-09-11

Similar Documents

Publication Publication Date Title
JP6159872B2 (ja) 医療データ分析システム、医療データ分析方法及び記憶媒体
US11664097B2 (en) Healthcare information technology system for predicting or preventing readmissions
US11316941B1 (en) Remotely managing and adapting monitoring programs using machine learning predictions
JP6182431B2 (ja) 医療データ分析システム、及び医療データを分析する方法
JP6066826B2 (ja) 分析システム及び保健事業支援方法
US8579784B2 (en) Personalized prognosis modeling in medical treatment planning
US7805385B2 (en) Prognosis modeling from literature and other sources
JP6066825B2 (ja) データ分析装置及び保健事業支援方法
JP5564708B2 (ja) 保健事業支援システム、保険事業支援装置、及び保険事業支援プログラム
Zhu et al. Emergency department length-of-stay for psychiatric visits was significantly longer than for nonpsychiatric visits, 2002–11
US20120065987A1 (en) Computer-Based Patient Management for Healthcare
US11244764B2 (en) Monitoring predictive models
US20160371453A1 (en) Analytical data processing for consumer health scores
US20210118557A1 (en) System and method for providing model-based predictions of beneficiaries receiving out-of-network care
Valmarska et al. Symptoms and medications change patterns for Parkinson's disease patients stratification
Zhou et al. How do tumor cytogenetics inform cancer treatments? dynamic risk stratification and precision medicine using multi-armed bandits
CN112908452A (zh) 事件数据建模
Pearce et al. Polar diversion: using general practice data to calculate risk of emergency department presentation at the time of consultation
Drouin et al. Cost-effectiveness of a smoking cessation intervention for parents in pediatric primary care
US20160117468A1 (en) Displaying Predictive Modeling and Psychographic Segmentation of Population for More Efficient Delivery of Healthcare
US11887027B1 (en) Value of future adherence
CN112189209A (zh) 用于量化客户参与度的系统和方法
Vest et al. Contribution of different data sources to the prediction of emergency department revisits in a safety-net population
US20230083562A1 (en) Ai based methods and systems for tracking chronic conditions
US11894127B1 (en) Decision support systems for determining conformity with medical care quality standards

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170612

R150 Certificate of patent or registration of utility model

Ref document number: 6159872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees