JP2014225175A - データ分析装置及び保健事業支援方法 - Google Patents

データ分析装置及び保健事業支援方法 Download PDF

Info

Publication number
JP2014225175A
JP2014225175A JP2013104659A JP2013104659A JP2014225175A JP 2014225175 A JP2014225175 A JP 2014225175A JP 2013104659 A JP2013104659 A JP 2013104659A JP 2013104659 A JP2013104659 A JP 2013104659A JP 2014225175 A JP2014225175 A JP 2014225175A
Authority
JP
Japan
Prior art keywords
subscriber
information
medical
data
analysis system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013104659A
Other languages
English (en)
Other versions
JP2014225175A5 (ja
JP6066825B2 (ja
Inventor
利昇 三好
Toshinori Miyoshi
利昇 三好
泰隆 長谷川
Yasutaka Hasegawa
泰隆 長谷川
伴 秀行
Hideyuki Ban
伴  秀行
永崎 健
Takeshi Nagasaki
健 永崎
新庄 広
Hiroshi Shinjo
広 新庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013104659A priority Critical patent/JP6066825B2/ja
Priority to EP20140168542 priority patent/EP2804121A3/en
Priority to US14/278,534 priority patent/US20140343966A1/en
Priority to CN201410208266.5A priority patent/CN104166881A/zh
Publication of JP2014225175A publication Critical patent/JP2014225175A/ja
Publication of JP2014225175A5 publication Critical patent/JP2014225175A5/ja
Application granted granted Critical
Publication of JP6066825B2 publication Critical patent/JP6066825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Abstract

【課題】適切な次元の空間にインスタンスを配置する。【解決手段】プロセッサとメモリとを有しデータを分析する分析システムであって、前記分析システムは、インスタンス間の類似度を含むデータ間類似度情報を格納する記憶装置にアクセス可能であって、前記分析システムは、前記プロセッサが、前記データ間類似度情報に基づいて前記インスタンス間に働く引力及び斥力を設定し、前記引力及び斥力によるエネルギーが小さくなるように、ある次元のベクトル空間に前記インスタンスを配置するデータマッピング部と、前記ベクトル空間に配置されたインスタンスを分類するクラスタリング部と、を備え、前記データマッピング部は、前記ベクトル空間に仮想的に一つの次元を追加し、前記追加された次元方向へ前記インスタンスの座標を微小変動させ、前記微小変動に対して安定となるベクトル空間の最小の次元数を計算する。【選択図】図2

Description

本発明は、データ分析技術に関し、特に、医療データを分析して保健事業を支援するシステムに関する。
健康保険組合は、医療費を低減するために、生活習慣病の予防及び重症化の予防のための保健指導を行う保険事業を行っている。しかし、保険指導のために確保できる保健師、及び保健指導のための費用などのリソースは限られている。このため、効果的・効率的な保険事業の運営を支援するシステムが望まれている。
保険事業の運営を支援する方法として、特許文献1には、レセプト情報、健診情報、及び保健指導情報に基づいて、保健指導対象者を選択する保健事業支援システムであって、健康保険加入者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する健康保険加入者を保健指導対象者として選択する対象者選択部と、を備える保健事業支援システムが記載されている。
特開2012−128670号公報
Y.F.Hu, Efficient and High Quality Force−Directed Graph Drawing,The Mathematica Journal,vol.10、no.1,pp.37−71,2006
健康保険組合のリソースの中で、効果的・効率的な保険事業を行うためには、保健指導を優先的に実施する対象者を選択することが必要である。また、保健指導の内容も、個々の対象者に適したものを選択することが必要である。
特許文献1では、医療費を予測する際に、現在の重症度及び検査値に基づいて、将来の医療費を予測する。例えば、現在の糖尿病の重症度及び血糖値に基づいて、将来の糖尿病の重症度を予測し、その重症度の平均の医療費を予測医療費とする。
しかし、将来の医療費及び重症度の予測のために有効な因子(糖尿病では血糖値)は、事前知識として人手による設定が必要である。また、重症度の定義も人手による設定が必要である。
将来の医療費の予測に有効な因子は、血糖値の他に、年齢、性別、他の検査値、医薬品の処方状況及び生活習慣など様々な因子が考えられ、これらを考慮することによって、より精度の高い予測が可能である。しかし、これらの因子を人手でリストアップすることは困難である。また、疾病ごとに、事前知識により、それらの因子を設定する必要がある。このため、全ての疾病について分析をすることは困難である。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによってデータを分析する分析システムであって、前記分析システムは、インスタンス間の類似度を含むデータ間類似度情報を格納する記憶装置にアクセス可能であって、前記分析システムは、前記プロセッサが、前記データ間類似度情報に基づいて前記インスタンス間に働く引力及び斥力を設定し、前記引力及び斥力によるエネルギーが小さくなるように、ある次元のベクトル空間に前記インスタンスを配置するデータマッピング部と、前記ベクトル空間に配置されたインスタンスを分類するクラスタリング部と、を備え、前記データマッピング部は、前記ベクトル空間に仮想的に一つの次元を追加し、前記追加された次元方向へ前記インスタンスの座標を微小変動させ、前記微小変動に対して安定となるベクトル空間の最小の次元数を計算する。
本発明の代表的な実施の形態によれば、適切な次元のベクトル空間に、インスタンス間の類似度に基づいてインスタンスを配置することができる。このため、従来のクラスタリング方法によって、インスタンスを適切に分類することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
第2の実施例の医療データ分析システムの構成を示すブロック図である。 第1の実施例のデータクラスタリング装置の構成を示すブロック図である。 第1の実施例のデータ間類似度情報を説明する図である。 本発明の関連技術を説明する図である。 第1の実施例のデータマッピング部の処理のフローチャートである。 第2の実施例のレセプト基本情報を説明する図である。 第2の実施例の健診情報を説明する図である。 第2の実施例の問診情報を説明する図である。 第2の実施例の傷病名情報を説明する図である。 第2の実施例の傷病名分類情報を説明する図である。 第2の実施例の診療行為情報を説明する図である。 第2の実施例の診療行為分類情報を説明する図である。 第2の実施例の医薬品情報を説明する図である。 第2の実施例の医薬品分類情報を説明する図である。 第2の実施例の整形情報の一例を説明する図である。 第2の実施例の整形情報の別な例を説明する図である。 第2の実施例の項目統合処理のフローチャートである。 第2の実施例の健康保険事業者向け支援機能の処理のフローチャートである。 第2の実施例の担当者・対象者向け支援機能の処理のフローチャートである。 第2の実施例のクラスタ特徴付処理のフローチャートである。 第2の実施例の選定された項目及び値の表示例を説明する図である。 第2の実施例の再構成処理のフローチャートである。
<実施例1>
第1の実施例では、データペア同士の類似度を記したデータ間類似度情報が与えられている場合に、類似度に基づいてデータをクラスタリングするデータクラスタリング装置の例を説明する。
図2は、第1の実施例のデータクラスタリング装置の構成を示すブロック図である。
データクラスタリング装置201は、入力部202、出力部203、演算装置204、メモリ205及び記憶媒体206を有する。
入力部202は、マウス、キーボードなどのヒューマンインターフェースであり、データクラスタリング装置201への入力を受け付ける。出力部203は、医療データ分析システムによる演算結果を出力するディスプレイやプリンタである。記憶媒体206は、データクラスタリング装置201によるデータ分析処理を実現する各種プログラム、及び医療データ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体(磁気ディスクドライブ、不揮発性メモリ等)である。演算装置204は、メモリ205にロードされたプログラムを実行する演算装置であり、例えば、CPU、GPUなどである。
第1の実施例のデータクラスタリング装置201は、一つの計算機で構成された計算機システムでも、サーバ及びクライアント端末で構成された計算機システムでもよい。また、データクラスタリング装置201の各部は、別の装置で構成してもよい。データクラスタリング装置201は、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
演算装置204によって実行されるプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えるとよい。
次に、第1の実施例におけるデータ分析装置201によって実施される処理について説明する。
まず、第1の実施例が扱うデータ間類似度情報について説明する。
図3は、データ間類似度情報を説明する図である。
データ間類似度情報301は、二つの異なるインスタンス間の類似度が記載されている。例えば、インスタンスD2とインスタンスD3の類似度は0.92であることを示す。インスタンスは、例えば、「人」である。この場合、データ間類似度情報301は、何らかの方法(例えば、メールの送受信頻度)によって定義されている2人の人の類似度を規定する。インスタンスの他の例は、「文書」である。この場合、データ間類似度情報301は、何らかの方法(例えば、二つの文書に出現する全単語のうち、両文書に現れる単語の割合)によって定義されている文書間の類似度を規定する。データ分析装置201は、類似したインスタンスを分類するクラスタリングを行う。
次に、図4を用いて本発明の関連技術、すなわち、非特許文献1に記載されている技術のうち本実施例に関連する部分を説明する。
非特許文献1に記載されている技術は、ネットワークを2次元又は3次元の空間上で可視化するための技術である。以下の説明では、ネットワークは、ノードの集合V及びエッジの集合Eからなる組で、グラフG=(V,E)によって表す。二つのi番目のノードとj番目のノードとが、Eで定義される辺で繋がっていることをi⇔jで表す。
以下に説明するForce−Directed Algorithmは、エッジの有無に基づいて、ノード間の引力及び斥力を定義する。そして、定義された引力及び斥力に基づいて、ノード間のエネルギーが小さくなるように、2次元又は3次元の空間上で、ノードの集合Vの配置を修正し、ノードの安定した配置を定める。
二つのノード間に働く引力及び斥力の定義を説明する。i番目のノードとj番目のノードに働く斥力fr(i,j)及び引力fa(i,j)は、式(1)(2)によって定義できる。
fr(i,j)=−CK2/|xi−xj| i≠j、i,j∈V …(1)
fa(i,j)=|xi−xj|2/K i⇔jである場合 …(2)
fa(i,j)=0 i⇔jでない場合
式(1)(2)において、xi、xjは、それぞれi番目、j番目のノードの2次元又は3次元の空間上での座標であり、|xi−xj|は、xiとxjとの間のユークリッド距離である。また、C、Kは正の定数であり、値Xとnに対して、Xnは、Xのn乗を表す。斥力frは、全てのノード間に働くように定義し、引力faは、辺(エッジ)で繋がっているノード間に働くように定義する。ノード間の斥力は、p>1として、式(3)によって定義してもよい。
fr(i,j)=−CK(1+p)/|xi−xj|p i≠j、i,j∈V …(3)
式(3)は、直観的には、斥力が有効に働く範囲を調整する意味があり、pの値が大きいほど、斥力が有効に働く範囲が狭くなる。
上記により定義される力の合計によって、ノードiに働く力f(i)は、式(4)によって表される。
f(i)=−Σfr(i,j)v(j、i)+Σfa(i,j)v(j,i) …(4)
式(4)において、和は、全てのi以外のノードjについて計算する。また、v(j,i)は、xiからxjに向かう単位ベクトルであり、式(5)によって定義できる。
v(j,i)=(xj−xi)/|xj−xi| …(5)
これを用いて、系全体のエネルギーEは、式(6)によって定義できる
E({xi},K,C)=Σ|f(i)|2 …(6)
式(6)において、和は、全てのノードiについて計算し、|f(i)|はベクトルf(i)の大きさである。また、{xi}={x1,x2,…}によって、ノード全体の座標配置を表す。
アルゴリズムは、エネルギーEが小さくなるように、反復的にノードの座標{xi}を修正する。これによって、最終的なノード全体の配置を定める。
式(6)において、定数K、Cは、理論上は、座標のスケールに関係する定数であり、本質的なノード間の配置には関係しない。いま、定数K、Cを用いたときのエネルギーEを最小にする最適配置が、{xi}であるとする。このとき、定数K’、C’を用いたときのエネルギーEを最小にする最適配置は、s=(K’/K)(C’/C)1/3 とおいたとき、ノード全体の座標配置{xi}は、式(7)によって定義できる。
{xi}={sx1,sx2,…} …(7)
式(7)において、sxiは、xiの各要素にsを乗じて生成されるベクトルである。このことは、式(8)の関係が成り立つことよって分かる。
E({xi},K,C)=(K/K’)2(C/C’)4/3 E({sxi},K’,C’) …(8)
ここで、図4を用いて、前述した引力及び斥力に計算しながら、ノードの座標位置を逐次修正し、ノードを2次元又は3次元の空間上に配置するアルゴリズムについて説明する。
まず、初期座標設定ステップ401では、2次元又は3次元の次元を設定し、設定した次元数のベクトル空間上に、各ノードの座標{xi}の初期配置を定める。ノードの座標{xi}の初期配置は、例えば、乱数などで設定してもよい。また、ノードを予め何らかの方法で分類し、同一分類に属するノードは近くに配置してもよい。さらに、他の簡便な可視化アルゴリズムを用いて定めた配置を初期配置としてもよい。
次に、引力斥力設定ステップ402では、前述したように、エッジがあるノード間に引力を設定し、全てのノード間に斥力を設定する。定数C、K、斥力frのパラメータpなどは、予め定めた値を用いる。
次に、座標配置ステップ409では、エネルギーEが小さくなるように、各ノードの座標配置{xi}を逐次修正する。すなわち、座標配置ステップ409は、グラフGからノードを順に選択してノードの座標を修正するサイクルである。ノード全体を一巡して1サイクルである。
座標修正ループ410では、データを順に選択してデータの座標を修正するサイクルであり、全てのノードを一巡して1サイクルの処理が終わる。
まず、サンプル選択ステップ403では、ノード全体から一つのノードiを選択する。次に、力の計算ステップ404では、選択されたノードiに働く力のベクトルの合計f(i)を計算する。f(i)は、前述した式(4)によって計算することができる。
次に、座標修正ステップ405では、式(9)を用いて、選択されたノードiに働く力の方向に座標xiを修正する。
xi←xi+t×f(i)/|f(i)| …(9)
式(9)において、|f(i)|は、f(i)の大きさで、tは修正の幅を調整するパラメータである。tは、最初は大きく座標を修正するために大きな値とし、最終的には微調整となるため、サイクルを経るに従って、少しずつ値を小さくするとよい。例えば、最初は適当な大きさの初期値を設定しておき、1サイクルの座標修正が終了した時点で、式(10)によって、tを更新してもよい。
t←0.9×t …(10)
次に、ステップ406では、全ノードの中で未だ選択されていないノードがあるかを判定する。判定の結果、全ノードの中で未だ選択されていないノードがある場合、サンプル選択ステップ403に戻り、次のサンプルを選択する。このとき、座標xiが修正されたことによって、ノードiから他のノードに働く力が変わっているため、力の計算ステップ404では、座標の修正を反映して、新たな座標配置による力ベクトルを計算する。一方、全ノードの中で全てのノードが選択された後に、収束判定ステップ407に進む。
収束判定ステップ407では、アルゴリズムの収束度合いを判定し、アルゴリズムを終了するかを判定する。例えば、前回の座標修正の1サイクル終了後のノードiの座標配置{yi}と、今回の座標修正の1サイクル終了後のノードiの座標配置{xi}とを比較し、修正量が所定の閾値より小さい場合、座標は十分に収束したと判定して、アルゴリズムを終了する。修正量は、例えば、Σ|xi−yi|によって計算できる。
その後、可視化ステップ408では、二次元又は三次元の各ノードの配置に基づいて、グラフGのノードを画面上に配置し、可視化する。
ここまで、図4を用いて説明した方法は可視化を目的としているため、最初に配置次元数を二次元、三次元などに設定する。しかし、多数のノードが存在する場合、二次元や三次元などの低次元の空間ではノードの位置関係を表現することが困難である。図4に示す方法は、ノードをより高い次元数の空間に配置し、ノードの配置を修正することによって、四次元以上の空間にも容易に拡張できる。しかし、図4に示す方法では、ノードを配置する前に空間の次元数を定めるため、データ間の位置関係を表現するために適切な次元数を選択することが困難である。例えば、予め定めた次元数が小さい場合、データの位置関係を十分に表現できない。一方、予め定めた次元数が大きい場合、データの表現が縮退し、後に行われるクラスタリングなどの精度が低下し、計算量が増大する。
第1の実施例では、データ間の類似度に基づいて、データ間の位置関係を表現するための適切な次元数を選択する方法を提供する。これによって、データ間の類似度に基づいて、データを適切な次元数をもつベクトル空間上に配置することができる。
図5は、第1の実施例のデータマッピング部207の処理のフローチャートである。
データマッピング部207は、データ間類似度情報209に基づいて、データを適切な次元数の空間上に配置する。
まず、初期次元数設定ステップ501では、座標の次元の初期値を設定する。座標の次元の初期値は、なるべく小さい値にするが、データの表現に明らかにn次元以上(nは正の整数)が必要であることが分かっている場合、nを設定する。特に、事前知識がない場合、2次元に設定してもよい。
次に、初期座標設定ステップ502では、初期次元数設定ステップ501で設定した次元数のベクトル空間上に、各データの座標{xi}の初期配置を定める。データの座標{xi}の初期配置は、例えば、乱数などで設定してもよい。また、データを予め何らかの方法で分類し、同一分類に属するノードは近くに配置してもよい。さらに、他の簡便な可視化アルゴリズムを用いて定めた配置を初期配置としてもよい。
引力斥力設定ステップ503では、データ間の引力及び斥力を定義する。データiとデータjの間の類似度をs(i,j)とすると、所定の閾値hを用いて、データiとデータjとの間の引力fa(i,j)は、式(11)によって定義できる。
fa(i,j)=s(i,j)|xi−xj|2 /K s(i,j)≧hの場合
fa(i,j)=0 s(i,j)<hの場合 …(11)
すなわち、引力は、データiとデータjとの類似度が所定の閾値h以上である場合に、類似度に比例する大きさで働く。また、斥力は、図4の場合と同様に数式(1)によって定義する。定数C及びKは予め定めておく。
次に、座標配置ステップ513では、エネルギーEが小さくなるように、各データの座標配置{xi}を逐次修正する。これによって、最終的なデータ全体の配置を定める。エネルギーEは、図4の場合と同様に定義できる。すなわち、データiに働く力は、図4の場合と同様に数式(4)によって定義できる。これを用いて、系全体のエネルギーは、図4の場合と同様に数式(6)によって定義できる。
アルゴリズムは、エネルギーEが小さくなるように、反復的にノードの座標{xi}を修正する。これによって、最終的なデータ全体の配置を定める。
座標修正ループ514では、データを順に選択してデータの座標を修正するサイクルであり、全てのノードを一巡して1サイクルの処理が終わる。
サンプル選択ステップ504では、データ全体から1つのデータiを選択する。力の計算ステップ505では、選択されたデータiに対して働く力ベクトルの合計f(i)を計算する。f(i)は、前述した式(4)によって計算することができる。
座標修正ステップ506では、前述した式(9)を用いて、選択されたデータiに働く力の方向に座標xiを修正する。
式(9)において、tは修正の幅を調整するパラメータである。tは、最初は大きく座標を修正するために大きな値とし、最終的には微調整となるため、サイクルを経るに従って、少しずつ値を小さくするとよい。例えば、最初は適当な大きさの初期値を設定しておき、1サイクルの座標修正が終了した時点で、式(10)によって、tを更新してもよい。
次に、ステップ507では、全ノードの中で未だ選択されていないデータがあるかを判定する。判定の結果、全データの中で未だ選択されていないデータがある場合、サンプル選択ステップ504に戻り、次のサンプルを選択する。このとき、座標xiが修正されたことによって、データiから他のデータに働く力が変わっているため、力の計算ステップ505では、座標の修正を反映して、新たな座標配置による力ベクトルを計算する。一方、全データの中で全てのデータが選択された後に、収束判定ステップ508に進む。
収束判定ステップ508では、アルゴリズムの収束度合いを判定し、アルゴリズムを終了するかを判定する。例えば、前回の座標修正の1サイクル終了後のデータiの座標配置{yi}と、今回の座標修正の1サイクル終了後のデータiの座標配置{xi}とを比較し、修正量が所定の閾値より小さい場合、座標は十分に収束したと判定して、アルゴリズムを終了する。修正量は、例えば、Σ|xi−yi|によって計算できる。
座標が収束したと判定された場合には、不安定性計算ステップ509に進む。
第1の実施例では、次元数を適切に選択するために、ステップ513で生成されたデータの配置の安定性を計算する。次元数が不足している場合、データの位置関係に無理が生じているため、力の歪みがあると想定される。この歪みの大きさを計算することによって、安定性を見積もる。データの配置が安定していれば、次元数が十分であると判断する。一方、データの配置が安定していなければ、次元数加算ステップ511で、次元数を1次元増やし、次元を増やした空間で、再度、データの座標を配置する。
不安定性計算ステップ509では、座標配置ステップ513で生成されたデータ配置の不安定性を、以下の方法によって計算する。現在設定されている次元数がNである場合、データはN次元空間に配置されている。この次元Nに仮想的に1次元を追加した際に、現在の配置が不安定になる度合いによって、不安定性を計算する。すなわち、追加次元方向にデータを微小変動させたときに、この変動を引き戻す方向に力が働く場合は安定である。一方、この変動の方向に力が働く場合は不安定である。
より具体的には、データiとデータjとの間の斥力は前述した式(1)で表され、引力は前述した式(11)で表される。
追加次元方向にデータiを微小変動δさせた場合に、データiに追加次元方向に働く引力は式(12)で表すことができ、斥力は式(13)で表すことができる。
fr(i,j)=−δCK2 /(|xi−xj|2+δ2
≒−δCK2 /|xi−xj|2 …(12)
fa(i,j)=δs(i,j)(|xi−xj|2+δ21/2 /K
≒δs(i,j)|xi−xj|/K s(i,j)≧hの場合
fa(i,j)=0 s(i,j)<hの場合 …(13)
ここで、fr、faの値が正であれば、追加次元方向への微小振動を引き戻す方向に力が働くため、データの配置は安定である。一方、fr、faの値が負であれば、追加次元方向への微小振動を大きくする方向に力が働くため、データの配置は不安定である。従って、全てのデータからデータiに働く追加次元方向の力を合計すると、式(14)で表すことができる。
u(i,{xi},K,C)=−Σfr(i,j)−Σfa(i,j) …(14)
ここで、和は、データi以外の全てのデータjについて計算する。ここで、座標のスケールに関係する定数K、C、及びデータ数Mに対するスケールを考慮して、δ=Kとすると、不安定性の度合いUは、式(15)で表すことができる。
U=Σu(i,{xi},K,C)/(KC1/3 M(M−1)) …(15)
ここで、和は、不安定なデータ、すなわちu(i,{xi},K,C)>0となるデータについて計算する。分母のM(M−1)は、サンプル数に起因する和の数で正規化するための項であり、KC1/3 は、座標スケールを正規化するための項である。
不安定性計算ステップ509では、以上の処理によって、不安定性を表す指標としてUを計算する。その後、終了判定ステップ510において、Uが所定の閾値以上であるかを判定する。判定の結果、Uが所定の閾値以上である場合、データの配置は不安定であると判定し、次元数追加ステップ511に進む。一方、Uが所定の閾値より小さい場合、データの配置は安定であると判定し、データ配置出力ステップ512に進み、データの座標を出力する。なお、前回のサイクルと比較してUが急激に減少した場合、データの配置が安定であると判定してもよい。
終了判定ステップ510において、データの配置が不安定であると判定された場合、次元数加算ステップ511に戻り、次元数を1増やす。追加次元におけるデータの座標は0に設定する。すなわち、座標配置ステップ513で、データiが座標xi=(xi1,xi2,…,xiN)に配置されている場合、データiのN+1次元空間での初期座標をxi=(xi1,xi2,…,xiN,0)と設定する。また、引力斥力設定ステップ503で、N+1次元空間における引力及び斥力を設定する。その後、座標配置ステップ513で、N+1次元空間での座標配置を定める。
以上の処理によって、データを適切な次元数の空間上に配置することができる。この次元をN次元として、データiの座標をxi=(xi1,xi2,…,xiN)とする。
なお、上記ではForce Directed Algorithmを用いる例を説明したが、この方法を改良したMultilevel Force Directed Algorithmを前述した方法に適用してもよい。
クラスタリング部208では、N次元空間に配置されたデータをクラスタリングする。データはN次元空間上の点として表されているため、クラスタリングには、K−means法、EM法などを用いることができる。
例えば、K−means法では、まず、クラスタ数Kを定める。次に、各データをいずれかのクラスタにランダムに割り当てる。次に、クラスタ毎に、そのクラスタに属するデータの平均ベクトルを求める。次に、各データを最も近い平均ベクトルに対応するクラスタに割り当てる。再割り当てによる変化がなければ、クラスタリングを終了する。一方、再割り当てによる変化があれば、クラスタ毎に、そのクラスタに属するデータの平均ベクトルを求める処理に戻り、処理を繰り返す。この処理によって、データをK個のクラスタに分類することができる。
以上に説明したように、本発明の第1の実施例のデータクラスタリング装置によると、適切な次元のベクトル空間に、データ間の類似度に基づいてデータを配置することができる。例えば、人物同士の類似度や文書同士の類似度が与えられている場合、近い人物や類似する文書を分類する場合に好適である。
また、適切な次元のベクトル空間にデータを配置するので、従来のクラスタリング方法によってインスタンスを適切に分類することができる。すなわち、従来、N次元空間において近い位置に配置されている点をクラスタリングする分類方法があるが、データが配置される空間の次元数によっては、従来のクラスタリング方法によって適切に分類ができない場合があった。そこで、第1の実施例では、データ間の類似度に基づいてベクトル空間の適切な次元数を定め、その次元の空間にデータを配置するので、従来のクラスタリング方法を適用することができる。
また、データの配置の不安定性を計算することによって、適切な次元数を決定するので、自動的にかつデータに関する事前の知識を必要とせず、適切な次元数を決定することができる。
<実施例2>
第2の実施例では、医療データ(例えば、レセプト情報、健診情報、問診情報)に基づいて、病気の発症予防及び重症化予防のために、保健指導対象者の選定、保健指導方法を提案し、保健指導効果を予測する医療データ分析システムの例を説明する。
レセプト情報は、健康保険の加入者が医療機関を受診した際の傷病名、処方された医薬品、実施された診療行為、及び医療費(点数)が記録された情報であり、その一例は図6を用いて説明する。なお、処方された医薬品、及び実施された診療行為を医療行為と総称する。
また、健診情報は、健康保険の加入者が健診機関で受けた検査の結果の情報であり、その一例は図7を用いて後述する。問診情報は、健康保険の加入者が健診機関で受けた問診(例えば、生活習慣、既往歴、自覚症状など)の結果の情報であり、その一例は図8を用いて後述する。
第2の実施例では、医療データに基づいて、似た状態の健康保険の加入者をクラスタリングする。クラスタが病気の状態(発症の有無、重症度、検査値など)を代表する。第2の実施例では、クラスタ間の状態遷移に基づくモデルを作成し、作成したモデルに基づいて、クラスタ内の加入者の統計から、加入者全体の傾向を分析し、将来の状態を予測し、医療費を予測する。
図1は、第2の実施例の医療データ分析システムの構成を示すブロック図である。
医療データ分析システムは、医療データ分析装置101、及びデータベース116を有する。
本実施例の医療データ分析装置101は、入力部102、出力部103、演算装置104、メモリ105、及び記憶媒体106を有する。
入力部102は、マウス、キーボードなどのヒューマンインターフェースであり、医療データ分析装置101への入力を受け付ける。出力部103は、医療データ分析システムによる演算結果を出力するディスプレイやプリンタである。記憶媒体106は、医療データ分析システムによる医療データ分析処理を実現する各種プログラム、及び医療データ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体(磁気ディスクドライブ、不揮発性メモリ等)である。メモリ105には、記憶媒体106に格納されているプログラムが展開される。演算装置104は、メモリ105にロードされたプログラムを実行する演算装置であり、例えば、CPU、GPUなどである。以下に説明する処理及び演算は、演算装置104が実行する。
本実施例の医療データ分析システムは、一つの計算機で構成された計算機システムでも、サーバ及びクライアント端末で構成された計算機システムでもよい。
保健事業効果分析システムは、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
プロセッサによって実行されるプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えるとよい。
まず、第2の実施例で扱う医療データについて説明する。
医療情報記憶部117は、入力部102に入力された医療データを格納する。医療データは、レセプト情報、健診情報、及び問診情報を含む。レセプト情報は、レセプト基本情報、傷病名情報、診療行為情報、医薬品情報、傷病名分類情報、診療行為分類情報、及び医薬品分類情報を含む。
次に、レセプト情報について説明する。
図6は、レセプト基本情報601を説明する図である。
レセプト基本情報601は、レセプトと加入者との対応関係を保持する情報である。レセプト基本情報601は、検索番号602、健保加入者ID603、性別604、年齢605、診療年月606、及び合計点数607を含む。
検索番号602には、レセプトを一意に識別するための識別子である。健保加入者ID603は、健保保険の加入者を一意に識別するための識別子である。性別604は、健康保険加入者の性別を示す情報である。年齢605には、健康保険加入者の年齢を示す情報である。
診療年月606は、健康保険加入者が医療機関を受診した年及び月である。合計点数607は、一件のレセプトの合計点数を示す情報である。なお、合計点数に「10」を乗じると医療費(円)が算出される。なお、合計点数607に、図9に示す傷病名情報901における複数の傷病名が、一つの検索番号に登録されている場合は、複数の傷病に対する医療行為の合計点数が登録される。
図9は、傷病名情報901を説明する図である。
傷病名情報901は、検索番号602、傷病名コード902、傷病名903を含む。
検索番号602は、レセプトを一意に識別するための識別子であり、レセプト基本情報601の検索番号(図6)と同じ番号を用いる。傷病名コード902は、レセプトに記載される傷病名コードである。傷病名903は、当該傷病名コードに対応する傷病名である。
なお、一件のレセプトには、複数の傷病名が記載可能である。例えば、図9に示す傷病名情報901では、検索番号201に「11」のエントリの傷病名903は「糖尿病」と「高血圧」であり、検索番号が「11」のレセプトには糖尿病及び高血圧の傷病名が記載されている。
図10は、傷病名分類情報を説明する図である。
傷病名分類情報1001は、傷病分類と当該傷病分類に属する傷病名とを対応づける情報である。また、合併症有無1003には、傷病名が合併症の傷病名であるかを示す情報である。
図11は、診療行為情報を説明する図である。
診療行為情報1101は、検索番号602、診療行為コード1102、診療行為名1103、及び診療行為点数1104を含む。
検索番号602は、レセプトを一意に識別するための識別子であり、レセプト基本情報601の検索番号(図6)と同じ番号を用いる。診療行為コード1102は、レセプトに記載された診療行為を識別するための識別子である。診療行為名1103は、レセプトに記載された診療行為の名称である。診療行為点数1104は、診療行為にかかる点数である。
図11では、例えば、検索番号602に「11」のレセプトには、「診療行為A」と「診療行為C」の診療行為名1103が記載されている。
図12は、診療行為分類情報を説明する図である。
診療行為分類情報1201は、傷病分類1002、診療行為コード1102、及び診療行為名1103を含む。
傷病分類1002は、傷病名分類情報1001の傷病分類1002(図10)と同じ分類を用いる。診療行為コード1102は、傷病分類1002の傷病で行われる診療行為を識別する診療行為コードであり、診療行為情報1101の診療行為コード1102(図11)と同じコードを用いる。診療行為名1103は、当該診療行為コードに対応する診療行為の名称であり、診療行為情報1101の診療行為名1103(図11)と同じコードを用いる。
図13は、医薬品情報を説明する図である。
医薬品情報1301は、検索番号602、医薬品コード1302、医薬品名1303、及び医薬品点数1304を含む。
検索番号602は、レセプトを一意に識別するための識別子であり、レセプト基本情報601の検索番号602(図6)と同じ番号を用いる。医薬品コード1302は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名1303は、レセプトに記載された医薬品の名称である。医薬品点数1304は、医薬品の保険点数である。
図13では、例えば、検索番号602が「11」のレセプトは、糖尿病経口薬A及び高血圧経口薬Aとの医薬品名が記載されている。
図14は、医薬品分類情報を説明する図である。
医薬品分類情報1401は、傷病分類1002、医薬品コード1302、及び医薬品名1303を含む。
傷病分類1002は、傷病名分類情報1001の傷病分類1002(図10)と同じ分類を用いる。医薬品コード1302は、傷病分類1002に登録された分類で処方される医薬品を識別する医薬品コードであり、医薬品情報1301の医薬品コード1302(図13)と同じコードが用いられる。医薬品名1303は、当該医薬品コードに対応する医薬品の名称であり、医薬品情報1301の医薬品名1303(図13)と同じ名称が用いられる。
なお、図11に示す医療行為情報1101及び図13に示す医薬品情報を、医療行為情報と総称する。また、図12に示す診療行為分類情報1201及び図14に示す医薬品分類情報を、医療行為分類情報と総称する。
次に、健診情報について説明する。
図7は、健診情報を説明する図である。
健診情報701は、複数の加入者の複数年分の健診情報を管理するための情報であり、健保加入者ID603、健診受診日702、及び健康診断における各種検査値(例えば、BMI703、腹囲704、空腹時血糖705、収縮期血圧706、中性脂肪707)を含む。
健保加入者ID603は、健康診断を受診した健康保険の加入者の識別子であり、レセプト基本情報601の健保加入者ID603(図6)と同じ識別子を用いる。健診受診日702は、健康診断を受診した年月日である。BMI703から中性脂肪707は、健康診断の検査の結果である。
特定の検査を受けなかった場合など、健診情報のデータが欠落することがある。例えば、図7では、健保加入者ID「K0004」が2004年に受診した検査項目のうち収縮期血圧706のデータが欠落している。
次に、問診情報について説明する。
図8は、問診情報を説明する図である。
問診情報801は、複数の加入者の複数年分の問診情報を管理するための情報であり、健保加入者ID603、問診受診日802、及び問診の回答(例えば、喫煙803、飲酒804、歩行805)を含む。なお、問診は、生活習慣、既往歴、アレルギー等の体質、自覚症状などを含んでもよい。
健保加入者ID603は、問診を受診した健康保険の加入者の識別子であり、レセプト基本情報601の健保加入者ID603(図6)と同じ識別子を用いる。問診受診日802は、問診を受診した年月日である。タバコ803から歩行805は、問診の結果である。タバコ803は、喫煙習慣がある場合は一日の平均喫煙本数であり、喫煙しない場合は「なし」である。飲酒804は、飲酒習慣がある場合は一日の平均飲酒量(単位=ml)であり、飲酒習慣がない場合は「なし」である。歩行805は、一日の平均歩行時間(単位=分)である。
なお、問診情報では、歩数、飲酒量、喫煙本数などの詳しい情報が得られない場合もある。具体的な飲酒量ではなく、予め問診表で区分けされた頻度のうち、該当するものを回答する場合がある。例えば、喫煙や飲酒の有無のみの情報が得られる場合、飲酒の頻度をいくつかの程度に分けて(例えば、(1)飲酒無し、(2)週に1〜2回、(3)週に3回以上)回答する場合などである。この場合、問診情報の値は、定量的な意味がない番号である。
特定の項目に対する回答が無かった場合、問診情報のデータが欠落することがある。例えば、図8では、健保加入者ID「K0003」が2004年に受診した問診項目のうち歩行805に対するデータが欠落している。
次に、データ整形部107の処理について説明する。データ整形部107は、医療情報記憶部117に記憶されている医療データから、加入者毎かつ期間毎のレセプト情報、健診情報及び問診情報を集計・統合し、表形式に整形する。以下では、一つの期間は1年であるとして説明するが、半年、2年、3年など、別の期間でもよい。
図15は、整形情報1501の一例を説明する図である。図15を用いて、データ整形部107の処理を説明する。
整形情報1501は、2004年のレセプト情報を整形したレセプト整形情報を含む。整形情報1501の各行は、一つの健保加入者IDに対応する一つの年のデータを集計したものである。
健保加入者ID603、性別604、年齢605及び合計点数607は、それぞれ、レセプト基本情報601の健保加入者ID603、性別604、年齢605及び合計点数607(図6)と同じである。データ年1502は、当該整形情報を作成する元となったデータの年である。
傷病名コード10(1503)は、当該健保加入者IDのレセプトのうち傷病名コードが10であるレセプトの数である。傷病名コード20(1504)も同様に、当該健保加入者IDのレセプトのうち傷病名コードが20であるレセプトの数である。診療行為コード1000(1505)は、当該健保加入者IDのレセプトのうち診療行為コードが1000の診療行為が行われたレセプトの数である。医薬品コード110(1506)は、当該健保加入者IDのレセプトのうち医薬品コードが110の医薬品が処方されたレセプトの数である。
データ整形部107の処理について、2004年のデータを整形する場合を具体的に説明する。
まず、一つの健保加入者IDを選択する。診療年月が2004年である当該健保加入者IDのレセプトの検索番号をレセプト基本情報601より取得する。次に、傷病名情報901を参照して、傷病名コード毎に、当該傷病名コードが記載されているレセプトの数をカウントする。これによって、各傷病名コードのレセプトの数が得られる。同様に、診療行為情報1101を参照して、診療行為コード毎のレセプトの数をカウントし、医薬品情報1301を参照して、医薬品コード毎のレセプトの数をカウントする。これにより、選択された健保加入者IDの2004年のデータ行が生成される。この処理を、分析対象となる全ての健保加入者ID及び年の組み合わせに対して行う。
例えば、図15に示す整形情報1501において、1行目の健保加入者ID「K0001」の2004年のデータは、検索番号「11」「12」「13」がレセプト基本情報601から取得できる。傷病名情報901を参照すると、この三つのレセプトのうち、傷病名コードが「10」であるレセプトは、検索番号「11」及び「13」の二つである。従って、整形情報1501の1行目の傷病名コード10の欄には2が登録される。
図15に示す整形情報1501は、健診情報から整形された健診整形情報も含む。各行は、一つの健保加入者IDに対応するデータを集計したものである。
各項目の値は、健保加入者ID603及びデータ年1502に示される加入者及び年における健診データの値である。この健診データは健診情報701から取得できる。健診情報701が同一健保加入者IDの同一年の健診データを含む場合、いずれか一つの受診日のデータを使っても、当該年の複数回の健診結果の平均を使ってもよい。一つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、欠損が少ないデータを選択してもよい。欠損データは、予め定められた欠損であることを示す数値を用いる。図15に示す例では、−1を用いた。なお、健診情報がない加入者の値は、全て欠損データとする。
図15に示す整形情報1501は、問診情報から整形された問診整形情報も含む。各行は、一つの健保加入者IDに対応するデータを集計したものである。
各項目の値は、健保加入者ID603及びデータ年1502に示される加入者及び年における問診データの値である。この問診データは問診情報801から取得できる。問診情報801が同一健保加入者IDの同一年の問診データを含む場合、いずれか一つの受診日のデータを使っても、当該年の複数回の問診結果を平均を使ってもよい。一つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。又は、欠損が少ないデータを選択してもよい。欠損データは、予め定められた欠損であることを示す数値を用いる。図15に示す例では、−1を用いた。なお、健診情報がない加入者の値は、全て欠損データとする。
以上の処理によって、レセプト整形情報、健診整形情報及び問診整形情報を生成することができる。なお、図15には2004年のデータのみを示したが、別の年の整形データも作成する。
ここで、レセプト整形情報を作成する際に、類似の項目を纏めて、複数の項目を統合してもよい。例えば、医薬品の項目のうち、糖尿病経口薬Aの機能と糖尿病経口薬Bの機能とが類似している場合、これらを纏めて一つの項目として扱ってもよい。このとき、同一年度の糖尿病経口薬Aの処方回数と糖尿病経口薬Bの処方回数とを加算した値を、新しく纏めた項目の値とする。項目が類似するかを判断するための基準は、以下の通りとするよい。診療行為分類情報1201で同一傷病分類に属する診療行為名を類似項目とする。また、医薬品分類情報1401で同一傷病分類に属する医薬品名を類似項目とする。また、予め類似項目情報を人手により作成しておく。
図16Aは、レセプト整形情報の傷病名コード10と傷病名コード20とを統合した整形情報1501の例を説明する図である。傷病名コード1601の値は、図15の傷病名コード1503の値と傷病名コード1504の値とを加えた値であり、傷病名コードが「10」であるレセプトの数と傷病名コードが「20」であるレセプトの数と合計である。
図16Bは、項目統合処理のフローチャートである。
まず、統合対象項目選定ステップ1602では、レセプト基本情報601の項目のうち統合対象となる項目を選定する。項目の選定の三つの例を説明する。第1の例は、診療行為分類情報1201及び医薬品分類情報1401などの診療行為及び医薬品が分類されている場合、同一傷病分類に属する項目を統合対象とする方法である。第2の例は、国際疾病分類10版(ICD10)などの基準を用いて、同一分類に属する項目を統合する方法である。第3の例は、後述するクラスタリング部110と同様の方法によって項目をクラスタリングして、同一クラスタに属する項目を統合する方法である。
次に、処方回数合算ステップ1603では、統合する項目の値を合算する。
図15、図16Aに示す、作成されたレセプト整形情報、健診整形情報及び問診整形情報は、データベース116の整形情報記憶部118が記憶する。整形情報1501は表形式の数値データである。
なお、レセプト整形情報の値は、レセプトの数、すなわち処方回数で集計したが、処方の有無の情報でもよい。すなわち、処方回数が1以上の(処方がある)場合を1として纏め、処方回数が0の(処方がない)場合を0として、2値であらわしてもよい。また、処方回数が重症度を表すと考えて、レセプト整形情報の値は、処方回数を段階に分類した値でもよい。例えば、処方回数が0回の場合を0とし、処方回数が1〜4回の場合を1とし、処方回数が5回以上の場合を2とするなど、3段階で表してもよい。
前述した例では、1年毎の期間でレセプト情報、健診情報及び問診情報を纏めたが、例えば、2年毎、3年毎など異なる期間でもよい。なお、以下では、期間は1年毎に纏めた場合を例にして説明する。
次に、状態遷移モデル作成部108について説明する。状態遷移モデル作成部108は、加入者配置座標生成部109、クラスタリング部110及び状態遷移確率算出部111を有する。
加入者配置座標生成部109は、整形情報を用いて加入者同士の類似度を計算し、類似度に基づいて、加入者を適切な次元数の空間に配置する。加入者配置座標生成部109は、加入者が配置された空間における座標を配置座標記憶部119に格納する。クラスタリング部110は、加入者の空間への配置に基づいて、加入者をクラスタリング(分類)する。類似度に基づく加入者の空間への配置、及びクラスタリングについては、前述した第1の実施例の方法を用いることができる。クラスタリング部110は、加入者をクラスタリングした結果をクラスタリング情報記憶部120に格納する。
以下、健康保険の加入者同士の類似度の計算方法について説明する。但し、年が異なる同一加入者は別人として処理する。すなわち、1万人の医療データが3年分ある場合、3万人についてクラスタリングを行う。2人の加入者同士の項目iの非類似度をd(i)とすると、2人の加入者の非類似度は、非類似度計算で用いる項目の非類似度を合計したD=Σd(i)によって計算する。ここで和は非類似度計算で用いる全ての同一年の項目iについて計算する。非類似度計算で用いる項目は、特定の疾病(例えば、糖尿病)に着目する場合、レセプト情報の当該疾病に対応する医療行為を選定することができる。
次に、項目iの非類似度d(i)の計算方法について説明する。項目iが、問診の回答番号など、定量的な意味をもたない項目である場合、2人の加入者の回答が同じときには、d(i)=0とし、2人の加入者の回答が異なるときには、d(i)=vとする。なお、vは予め定めた値を用いる。
次に、項目iが、処方回数及び検査値など、定量的な意味をもつ項目である場合について説明する。項目iが定量的な意味をもつ項目である場合、値の累積確率F(t)=P(X≦t)を求める。F(t)は、当該項目の値がt以下の加入者数の全加入者数に対する割合であり、F(t)の最大値は1である。次に、2人の加入者の当該項目の値をそれぞれt1、t2とした場合、d(i)=|F(t1)−F(t2)|とする。
2人の加入者のうち、いずれかで項目iの値が欠落している場合、d(i)=wとする。なお、wは予め定めた値を用いる。
以上により、非類似度D=Σd(i)を計算することができる。類似度は、例えば、−D+max{d(i)}によって計算することができる。以上のように、加入者をクラスタリングすることによって、加入者を分類することができる。
ところで、非類似度の計算では、図16Aに示すように、類似する疾病同士が統合されている整形情報を用いてもよい。疾病が統合されている整形情報を用いると、類似した効果をもつ診療行為が纏めてカウントされるため、実態に近い非類似度を得ることができる。診療行為の統合には、診療行為分類情報(図12)や医薬品分類情報(図14)を用いてもよい。また、以下に説明する別の統合方法を用いてもよい。
別の統合方法では、項目同士の類似度を計算し、第1の実施例の方法によって項目をクラスタリングし、クラスタリングされた項目同士を統合する。
項目同士の類似度の計算方法について説明する。二つの項目について、その値を健保加入者ID順に並べたものを、それぞれx1=(x11,x12,…,x1n)、x2=(x21,x22,…,x2n)とする。ベクトルx1とx2との相関係数をr(x1,x2)とする。ところが、x1、x2には欠損値を含むので、x1、x2のいずれかで欠損している要素を取り除く。例えば、x1iが欠損している場合には、x2iも取り除く。このようにして、x1、x2から欠損次元を取り除いたベクトルを、それぞれ、v1=(v11,v12,…,v1m)、v2=(v21,v22,…,v2m)とする。
v1とv2とが同程度の依存性をもっている場合でも、v1、v2の値の性質の違いによって、相関値r(v1,v2)の値にずれが生じる。従って、まず、v1、v2の要素をそれぞれ独立にランダムに並べ直したベクトルをw1、w2とすると、ベクトルw1とw2とには依存度がないことが想定できる。これを用いて、|r(v1,v2)|−|r(w1,w2)|を計算する。類似度は、|r(v1,v2)|<|r(w1,w2)|である場合、依存度はないと判断できる。このため、この場合の依存度を0とし、それ以外の場合の依存度を|r(v1,v2)|−|r(w1,w2)|とする。これによって、ランダムな場合(依存性がない場合)と比較した類似度を計算することができる。
以上のように、統合した項目を用いて、加入者をクラスタリングすることによって、加入者を分類することができる。
加入者はK個のクラスタC1、C2、…、CKに分類されている。第2の実施例では、各クラスタが病気の状態を示すクラスタであり、加入者は、いずれかのクラスタに分類される。ただし、既に述べたように、異なる年のデータは、同じ加入者であっても別人として扱う。
状態遷移確率算出部111は、クラスタ間の遷移確率を計算する。クラスタCiからCjへの遷移確率の計算方法を具体的に説明する。まず、クラスタCiに属する加入者のうち、次の年のデータが存在する加入者の数をM1とする。このうち、次の年にクラスタCjの状態にある加入者の数をM2とする。クラスタCiからCjへの遷移確率はM2/M1となる。状態遷移確率算出部111は、全てのクラスタCiからCjへの組み合わせの遷移確率の値を状態遷移確率記憶部121に記憶する。
次に、状態遷移予測部112について説明する。状態遷移予測部112は、状態特徴付け・再構成部113、状態遷移・医療費予測部114及び保健指導支援部115を有する。
状態特徴付け・再構成部113は、状態の意味付け(特徴付け)をし、モデルを再構成する。状態遷移モデル作成部108が作成したモデルでは、クラスタリングによって加入者を分類し、クラスタを構成している。構成されたクラスタ間の状態遷移確率を求めることによって、病気の状態の遷移をモデル化する。しかし、クラスタは加入者の集合であるため、このクラスタの特徴付けが必要である。クラスタを特徴付けて、クラスタが表す病気の状態を出力部に表示することによって、病気が発症又は重症化する様子を直観的に知ることができる。
まず、クラスタの特徴付けの方法を説明する。クラスタは、当該クラスタに所属する加入者によって特徴付けられる。
図18Aは、クラスタ特徴付処理のフローチャートである。
まず、クラスタ内統計量算出ステップ1802では、当該クラスタに所属する加入者の各項目の値の統計量を算出し、算出された統計量を用いて当該クラスタの状態を表す。例えば、当該クラスタに属する加入者の各項目の値の平均値で表現できる。例えば、クラスタの血糖値は、当該クラスタに属する加入者の血糖値の平均などである。
次に、異常項目算出ステップ1803では、当該クラスタの各項目について、平均的な値からの各加入者の逸脱率を計算する。逸脱率は以下に説明する方法によって計算できる。例えば、当該クラスタのある項目の値をkとする。全加入者のうち、この項目の値がk以下である者の割合をYとし、この項目の値がkより小さい者の割合をXとする。このとき、Z=(X+Y)/2として、Zが0.5に近いほど、この項目に関する当該クラスタの値は平均的な値であると考えられる。逆に、0.5より大きい又は小さいほど、逸脱率が高いと考えられる。そこで、|Z−0.5|で逸脱率を計算する。これは、ある項目について、全加入者の平均と比較して、そのクラスタの値が大きく異なる場合や、正常値より外れている場合に、逸脱率が大きいことを意味している。この逸脱率が高い項目ほど、このクラスタを特徴付けるために有用である。
特徴付け項目選定ステップ1804では、特徴付けに用いる項目を選定する。このとき、人手により予め特徴付けに用いる項目候補を定めてもよい。ここでは、特徴付けに用いる項目候補の中から、逸脱率が高い上位の項目を所定の数だけ選定し、選定された項目及び値を出力部103に表示するための画面データを作成してもよい。図18Bは、選定された項目及び値の表示例を説明する図である。表示例1801では、Pijがクラスタiからクラスタjへの遷移確率を示す。
次に、再構成の方法を説明する。状態遷移モデル作成部108において作成されたモデルは多数のクラスタを含むが、この状態では予測の計算量が大きく、モデルが複雑で表示が煩雑になり、理解が難しいという問題がある。そこで、作成されたモデルをコンパクトなモデルに再構成することによって、現在、着目している状態及び遷移について、モデル化する。
図19は、再構成処理のフローチャートである。
まず、クラスタ選定ステップ1901では、着目する対象として指定された項目に基づいて、その項目を特徴付けるクラスタを選定する。着目する対象の項目は、例えば、糖尿病に着目する場合、インスリンの処方回数、糖尿病経口薬の処方回数、血糖値などである。まず、これらの項目において、逸脱率が予め定めた値以上となっているクラスタを選定する。そして、このクラスタとの遷移確率が高い(遷移確率が予め定めた値以上の)クラスタを選択する。
次に、対象外クラスタ統合ステップ1902では、選択されなかったクラスタを一つに統合する。選択されたクラスタをR1、R2、…、RLとし、選択されなかったクラスタは一つのクラスタOに纏める。すなわち、R1、R2、…、RLに属しない加入者はクラスタOに属するとして、L+1個のクラスタによってモデルを構成する。
遷移確率算出ステップ1903では、モデルを構成するL+1個のクラスタ間の遷移確率を計算する。クラスタRiとRjとの間の遷移確率は、状態遷移モデル作成部108で作成されている元のクラスタ間の遷移確率pijと同一とする。クラスタR1からクラスタOへの遷移確率は、1−Σp1jとなる。和は、jが1からLまで計算する。逆に、クラスタOからクラスタR1への遷移確率は、1−Σpj1となる。和は、jが1からLまで計算する。以上によって、再構成モデルにおけるクラスタと、クラスタ間の遷移確率を作成する。また、既に説明した方法と同一の方法によって、クラスタを特徴付ける。
状態遷移・医療費予測部114は、状態遷移モデル作成部108が作成したモデル、又は、状態特徴付け・再構成部113が再構成したモデルを用いて、保健指導支援部115が指示した分析対象となる加入者の今年の情報から来年の病気の状態や医療費を予測する。状態遷移・医療費予測部114は、予測した病気の状態及び医療費を予測結果記憶部122に格納する。
まず、状態遷移予測、すなわち、保健指導支援部115によって指示された分析対象となる加入者の今年の情報から来年の状態を予測する方法を説明する。まず、分析対象となる加入者の今年の情報を、図15又は図16Aに示す形式の整形情報に変換する。次に、変換された整形情報に基づいて、クラスタC1、…、CKと全加入者との類似度を計算する。もっとも類似度が高いクラスタCiを、分析対象となる加入者の今年の状態とする。来年の各状態への遷移確率は、状態遷移確率記憶部121に記憶されている状態遷移確率を用いて計算できる。
次に、医療費予測の処理を説明する。まず、状態遷移予測と同様の方法によって、分析対象となる加入者の今年の情報に基づいて、所属するクラスタCiを特定する。また、各クラスタの医療費を計算する。クラスタCjの医療費は、Cjに属する加入者の平均医療費M(j)とする。クラスタCiからクラスタCjへの遷移確率をP(j|i)とすると、P(j|i)は分析対象の加入者が来年のクラスタCjの状態にある確率である。そのため、来年の医療費の期待値(予測医療費)は、ΣP(j|i)M(j)によって計算できる。
保健指導支援部115は、将来の病気の発症を予防し、医療費を削減するため支援をする機能を提供する。
健康保険事業者は、保健指導による予防効果が高い対象者を予算内で優先的に選び、各対象者に適した指導を行うことを望んでいる。健康保険事業者が提供できる保健指導サービスが複数ある(保健指導サービス1、保健指導サービス2、…、など)。例えば、保健指導サービス1は、主にBMI値を減らすための指導、保健指導サービス2はコレステロール値を下げるための指導などである。
健康保険事業者向け支援機能の処理を説明する。
図17Aは、健康保険事業者向け支援機能の処理のフローチャートである。
まず、対象疾病設定ステップ1701では、処理の対象とする疾病を設定する。例えば、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象とする場合、レセプト整形情報の項目のうち、糖尿病、脂質異常症及び高血圧症に該当する医療行為の項目、健康診断の項目、及び問診の項目を用いて、状態特徴付け・再構成部113がモデルを再構築する。全疾病を対象とする場合、状態遷移モデル作成部108が作成したモデルを用いる。
次に、保健指導サービス設定ステップ1702では、保健指導サービスの種類と、各保険指導サービスの想定効果を設定する。例えば、保健指導サービス1の想定効果は、体重5kg減などである。
次に、保険指導効果予測ステップ1703では、全ての保健指導サービスと保健指導対象候補者の組み合わせについて、医療費削減効果を予測する。まず、保健指導サービス1と保健指導対象候補者1との組み合わせについて、医療費削減効果の算出方法を説明する。
最初に、保健指導サービスを行わない場合の保健指導対象候補者1の翌年の医療費を予測する。これは、今年の保健指導対象候補者1のレセプト、健康診断及び問診の値に基づいて、今年の項目に対応するノードの状態を設定し、状態遷移・医療費予測部114が医療費(M1)を予測する。次に、保健指導サービスにより検査値が改善した値を、今年の保健指導対象候補者1の値に設定し、状態遷移・医療費予測部114が翌年の医療費(M2)を予測する。M1が保健指導を行わない場合の予測医療費、M2が保健指導を行った場合の予測医療費となるため、保健指導に必要な費用をM3とすると、医療費削減費用対効果は、E=M1−M2−M3により計算することができる。この処理を全ての保健指導サービスと保健指導対象候補者との組み合わせに対して行い、医療費削減費用対効果Eを計算する。
次に、保健指導内容策定ステップ1704では、保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費削減費用対効果が高い組み合わせを選ぶ。そして、選ばれた保険指導対象候補者を選択済みとする。次に、選ばれていない保健指導対象候補者に対する保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費削減費用対効果が高い組み合わせを選ぶ。そして、選ばれた保険指導対象候補者は選択済みとする。このようにして、効果の高い順に保健指導サービスと保健指導対象候補者との組み合わせを選択することができる。最後に、保健指導の予算の範囲で、効果が高い組み合わせを選択し、保健指導対象者及び保健指導内容を設定する。
効果予測ステップ1705では、保健指導内容策定ステップ1704において選択された組み合わせの医療費削減費用対効果を合計し、医療費削減効果から保健指導コストを減じた値を効果として出力する。
次に、担当者及び対象者向け支援機能の処理を説明する。
図17Bは、担当者・対象者向け支援機能の処理のフローチャートである。
まず、対象疾病設定ステップ1701では、処理の対象とする疾病を設定する。例えば、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象とする場合、レセプト整形情報の項目のうち、糖尿病、脂質異常症及び高血圧症に該当する医療行為の項目、健康診断の項目、及び問診の項目を用いて、状態特徴付け・再構成部113がモデルを再構築する。全疾病を対象とする場合、状態遷移モデル作成部108が作成したモデルを用いる。
対象疾病設定ステップ1701の処理の別の例を説明する。対象者又は担当者が処理を希望する疾病を選択する。すなわち、ある医療行為に対応する項目を選択する。次に、この項目と他の全ての項目との依存度を計算する。そして、当該選択された項目と依存度が一定以上の項目を抽出し、当該選択項目及び抽出された項目のリストに基づいて、状態特徴付け・再構成部113が再構築したモデルを用いる。ここで、依存度には、上述した項目同士の類似度を用いてもよい。
発症確率算出ステップ1706では、全てのノードの状態を未設定のまま、状態遷移・医療費予測部114が翌年の各疾病の病態遷移確率及び医療費を予測する。各疾病は、翌年の当該疾病に相当する医療行為に関するノードの処方回数が1以上である確率として求めることができる。これは、平均的な病気の発症確率と考えることができる。次に、対象者の今年のレセプト、健康診断及び問診の値に基づいて、今年の項目に対応するノードの状態を設定し、状態遷移・医療費予測部114が翌年の各疾病の病態遷移確率及び医療費を予測する。このときの各疾病の発症確率は、当該対象者の病気の発症確率である。そこで、各疾病に対して、対象者の病気の発症確率を平均的な病気の発症確率で除することによって、対象者の発症リスクが平均の何倍であるかを計算する。
高リスク疾病提示ステップ1707では、発症リスクが平均より予め定めた閾値以上高い疾病及びそのリスクを提示する。これによって、対象者又は保健指導担当者は、対象者の疾病リスクを知ることができる。
改善項目提示ステップ1708では、高リスク疾病提示ステップ1707において計算された高リスク疾病に対応する医療行為ノードと一定以上の依存度がある検査値を提示する。ここで、依存度には、上述した項目同士の類似度を用いてもよい。
次に、目標値ユーザ入力ステップ1709では、改善項目提示ステップ1708において提示された検査項目についての改善目標値(例えば、体重の目標値)の入力をユーザに促す。
最後に、効果予測ステップ1710では、目標値ユーザ入力ステップ1709で入力された検査項目を目標値で更新し、ステップ1706と同様の方法によって目標達成後の疾病の発症確率を予測して、発症リスクの変化を提示する。ユーザは、発症リスクの変化を見ることによって、改善目標を設定したり、自己管理に役立てることができる。
以上の処理によって、医療費削減に効果的な保健指導支援を行うことができる。
以上に説明したように、第2の実施例の医療データ分析システムでは、レセプト情報及び健診情報に基づいて加入者間の類似度を算出し、類似度に基づいて類似する病気の状態の人を分類するクラスタリングを行う。このため、類似した状態の加入者をクラスタリングして、加入者の状態をクラスタによって表すことができる。
また、クラスタに属する加入者の平均的な状態によって、クラスタの状態を特徴付ける。このため、クラスタによって病気の状態や重症度を表現することができる。例えば、BMI値、血糖値、診療行為の処方回数、医療費などの平均値によってクラスタの状態を表す。
また、母集団からの乖離が大きい項目を用いてクラスタを特徴付けるので、自動的にクラスタを特徴付けることができる。
そして、クラスタ間の遷移確率によって、状態間の遷移(病気の状態や重症化)をモデル化する。ある年の一人の加入者は、いずれかのクラスタに属し、病気の一つの状態が一つのクラスタに対応する。よって、当該クラスタに属する人が、来年に属するクラスタを遷移確率によって表現することができる。このため、将来の遷移の様子をクラスタ間の移動として直観的に分かりやすく表すことができる。
また、各クラスタに属する加入者の数によって、どの状態にある人が何人いるか、容易に把握することができる。また、別の集団とで、各クラスタに属する加入者の数の割合を比較することによって、集団の特徴の違いを知ることができる。例えば、血糖値が所定値以下の集団と、血糖値が所定値を超える集団とを比較することによって、糖尿病の罹患率、重症者の割合、重症化の様子の違いなどを知ることができる。
このモデルにより、多数の項目を含むレセプト情報及び健診情報を有効に活用することができ、多数の病気や、その状態を表現することができる。このモデルにより将来の病気の状態遷移や医療費を精緻に、かつ精度良く予測することができる。
そして、予測結果に基づいて保健指導対象者と保健指導内容を選定することによって、効果的かつ効率的な保健指導を支援することができる。
また、加入者間の類似度によって分析対象者が属するクラスタを決定するので、未知の対象者をクラスタリングすることができる。
また、レセプト情報の複数の項目を統合した項目を用いて、加入者間の類似度を計算するので、類似度を高精度に計算することができる。
また、母集団に対する加入者の位置の差を用いて、加入者間の類似度を計算するので、異なる項目間でも同一の尺度で類似度を計算することができる。
また、医療費削減費用対効果を、M1−M2−M3によって計算するので(M1=保健指導を行わない場合の予測医療費、M2=保健指導を行った場合の予測医療費、M3=保健指導に必要な費用)、医療費削減費用対効果を正確に見積もることができる。
また、クラスタ間の遷移確率を用いて、改善目標値に対する発症リスクを計算するので、改善によるリスク低減効果を分かりやすく表示することができる。
また、糖尿病、高血圧症及び脂質異常症の少なくとも一つの遷移確率を選択するので、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象として、保健指導を行うことができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
101 医療データ分析装置
102、202 入力部
103、203 出力部
104、204 演算装置
105、205 メモリ
106、206 記憶媒体
107 データ整形部
108 状態遷移モデル作成部
109 加入者配置座標生成部
110 クラスタリング部
111 状態遷移確率算出部
112 状態遷移予測部
113 状態特徴付け・再構成部
114 状態遷移・医療費予測部
115 保健指導支援部
116 データベース
117 医療情報記憶部
118 整形情報記憶部
119 配置座標記憶部
120 クラスタリング情報記憶部
121 状態遷移確率記憶部
122 予測結果記憶部
201 データクラスタリング装置
207 データマッピング部
208 クラスタリング部
209 データ間類似度情報

Claims (15)

  1. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによってデータを分析する分析システムであって、
    前記分析システムは、インスタンス間の類似度を含むデータ間類似度情報を格納する記憶装置にアクセス可能であって、
    前記分析システムは、
    前記プロセッサが、前記データ間類似度情報に基づいて前記インスタンス間に働く引力及び斥力を設定し、前記引力及び斥力によるエネルギーが小さくなるように、ある次元のベクトル空間に前記インスタンスを配置するデータマッピング部と、
    前記ベクトル空間に配置されたインスタンスを分類するクラスタリング部と、を備え、
    前記データマッピング部は、前記ベクトル空間に仮想的に一つの次元を追加し、前記追加された次元方向へ前記インスタンスの座標を微小変動させ、前記微小変動に対して安定となるベクトル空間の最小の次元数を計算することを特徴とする分析システム。
  2. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する分析システムであって、
    前記分析システムは、加入者の傷病名、前記加入者に行われた医療行為及び前記医療行為の費用を含むレセプト情報、前記加入者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記加入者毎かつ所定期間毎に纏めた整形情報を格納するデータベースにアクセス可能であって、
    前記分析システムは、
    前記プロセッサが、前記整形情報に基づいて前記加入者間の類似度を計算し、前記計算された類似度に基づいて前記加入者を同一の次元数のベクトル空間に配置する加入者配置座標生成部と、
    前記プロセッサが、前記加入者が配置された座標に基づいて、前記加入者が分類されたクラスタを作成し、前記作成されたクラスタよってモデルを構成するクラスタリング部と、
    前記プロセッサが、前記整形情報に基づいて、前記作成されたクラスタ間の遷移確率を算出する状態遷移確率算出部と、
    前記プロセッサが、前記クラスタに属する加入者の特徴によって前記クラスタを特徴付け、指定された項目で特徴付けられるクラスタによって構成されるモデルを再構成する状態特徴付け・再構成部と、
    前記プロセッサが、前記構成されたモデル又は前記再構成されたモデルに基づいて、将来の病気の状態及び医療費を予測する状態遷移・医療費予測部と、
    前記プロセッサが、前記予測された病態の状態及び医療費に基づいて、保健指導の対象者及び保健指導内容を選定する保健指導支援部と、を備えることを特徴とする分析システム。
  3. 請求項2に記載の分析システムであって、
    前記プロセッサが、医療行為が行われた回数、医療行為の費用及び前記健診情報を、前記レセプト情報及び前記健診情報から取得し、前記取得した情報を前記加入者毎かつ所定期間毎に纏めた整形情報を作成し、前記作成した整形情報を前記データベースに格納するデータ整形部を備えることを特徴とする分析システム。
  4. 請求項2又は3に記載の分析システムであって、
    前記クラスタリング部は、
    前記加入者間の類似度に基づいて、前記加入者間に働く引力及び斥力を設定し、
    前記引力及び斥力によるエネルギーが小さくなるように、ある次元のベクトル空間に前記加入者を配置し、
    前記ある次元のベクトル空間に仮想的に一つの次元を追加し、
    前記追加された次元方向へ前記加入者の座標を微小変動させ、
    前記微小変動に対して安定となるベクトル空間の最小の次元数を計算し、
    前記計算された次元数のベクトル空間に前記加入者を配置することを特徴とする分析システム。
  5. 請求項2又は3に記載の分析システムであって、
    前記保健指導支援部は、
    分析対象の加入者と類似度が高い加入者が属するクラスタを、前記分析対象の加入者の現在の状態として特定し、
    前記特定されたクラスタから他のクラスタへの遷移確率によって、前記分析対象の加入者が前記他のクラスタに属する確率を計算することを特徴とする分析システム。
  6. 請求項2又は3に記載の分析システムであって、
    前記保健指導支援部は、
    分析対象の加入者の健診情報を、保健指導を受けた後の予想値に置き換えた後、前記分析対象の加入者と類似度が高い加入者が属するクラスタを特定し、
    前記特定されたクラスタから他のクラスタへの遷移確率によって、保健指導を受けた後に前記分析対象の加入者が前記他のクラスタに属する確率を計算することを特徴とする分析システム。
  7. 請求項2又は3に記載の分析システムであって、
    前記状態特徴付け・再構成部は、
    前記クラスタに属する加入者の各項目の値を統計処理した値によって当該クラスタを特徴付け、
    前記統計処理した値が全加入者の平均値からの乖離が大きい項目について、当該クラスタを特徴付ける項目と前記統計処理した値とを表示するためのデータを作成することを特徴とする分析システム。
  8. 請求項2又は3に記載の分析システムであって、
    前記加入者配置座標生成部は、レセプト情報の複数の項目を統合した項目を用いて、前記加入者間の類似度を算出することを特徴とする分析システム。
  9. 請求項2又は3に記載の分析システムであって、
    前記加入者配置座標生成部は、前記整形情報のある項目について、第1の加入者の値以下の値である人の割合と、第2の加入者の値以下の値である人の割合との差を用いて、前記第1の加入者と前記第2の加入者との類似度を計算することを特徴とする分析システム。
  10. 請求項2又は3に記載の分析システムであって、
    前記保健指導支援部は、
    前記加入者の検査値を保険指導を受けた後の検査値に置き換えた第2の予測医療費及び前記保健指導サービスの費用を前記加入者の予測医療費から減じることによって予測効果を計算し、
    前記計算された予測効果が高い加入者と保健指導サービスとの組を、保健指導の対象者及び保健指導内容として選定することを特徴とする分析システム。
  11. 請求項2又は3に記載の分析システムであって、
    前記保健指導支援部は、
    前記加入者の病態の遷移確率と平均的な病態の遷移確率との比によって第1の発症リスクを算出し、
    ユーザが検査値改善目標値を入力することによって、前記加入者の検査値を前記改善目標値に置き換えた病態の遷移確率を用いて、第2の発症リスクを算出し、
    前記第1の発症リスクと前記第2の発症リスクとを比較することによって、改善によるリスク低減効果を表示するためのデータを生成することを特徴とする分析システム。
  12. 請求項11に記載の分析システムであって、糖尿病、高血圧症及び脂質異常症の少なくとも一つについてのモデルを構成することを特徴とする分析システム。
  13. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有する計算機を用いて保健指導を支援する保健事業支援方法であって、
    前記計算機は、加入者の傷病名、前記加入者に対して行われた医療行為及び前記医療行為の費用を含むレセプト情報、前記加入者の健康診断による検査値を含む健診情報、及び、前記レセプト情報及び前記健診情報を前記加入者毎かつ所定期間毎に纏めた整形情報を格納するデータベースにアクセス可能であって、
    前記方法は、
    前記プロセッサが、前記整形情報に基づいて前記加入者間の類似度を計算し、前記計算された類似度に基づいて前記加入者を同一の次元数のベクトル空間に配置する加入者配置座標生成ステップと、
    前記プロセッサが、前記加入者が配置された座標に基づいて、前記加入者が分類されたクラスタを作成し、前記作成されたクラスタよってモデルを構成するクラスタリングステップと、
    前記プロセッサが、前記整形情報に基づいて、前記作成されたクラスタ間の遷移確率を算出する状態遷移確率算出ステップと、
    前記プロセッサが、前記クラスタに属する加入者の特徴によって前記クラスタを特徴付け、指定された項目で特徴付けられるクラスタによって構成されるモデルを再構成する状態特徴付け・再構成ステップと、
    前記プロセッサが、前記構成されたモデル又は前記再構成されたモデルに基づいて、将来の病気の状態及び医療費を予測する状態遷移・医療費予測ステップと、
    前記プロセッサが、前記予測された病態の状態及び医療費に基づいて、保健指導の対象者及び保健指導内容を選定する保健指導支援ステップと、を含むことを特徴とする保健事業支援方法。
  14. 請求項13に記載の保健事業支援方法であって、
    前記プロセッサが、医療行為が行われた回数、医療行為の費用及び前記健診情報を、前記レセプト情報及び前記健診情報から取得し、前記取得した情報を前記加入者毎かつ所定期間毎に纏めた整形情報を作成し、前記作成した整形情報を前記データベースに格納するデータ整形ステップを含むことを特徴とする保健事業支援方法。
  15. 請求項13又は14に記載の保健事業支援方法であって、
    前記クラスタリングステップでは、
    前記加入者間の類似度に基づいて、前記加入者間に働く引力及び斥力を設定し、
    前記引力及び斥力によるエネルギーが小さくなるように、ある次元のベクトル空間に前記加入者を配置し、
    前記ある次元のベクトル空間に仮想的に一つの次元を追加し、
    前記追加された次元方向へ前記加入者の座標を微小変動させ、
    前記微小変動に対して安定となるベクトル空間の最小の次元数を計算し、
    前記計算された次元数のベクトル空間に前記加入者を配置することを特徴とする保健事業支援方法。
JP2013104659A 2013-05-17 2013-05-17 データ分析装置及び保健事業支援方法 Active JP6066825B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013104659A JP6066825B2 (ja) 2013-05-17 2013-05-17 データ分析装置及び保健事業支援方法
EP20140168542 EP2804121A3 (en) 2013-05-17 2014-05-15 Analysis system and health business support method
US14/278,534 US20140343966A1 (en) 2013-05-17 2014-05-15 Analysis system and health business support method
CN201410208266.5A CN104166881A (zh) 2013-05-17 2014-05-16 数据分析装置以及保健事业支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013104659A JP6066825B2 (ja) 2013-05-17 2013-05-17 データ分析装置及び保健事業支援方法

Publications (3)

Publication Number Publication Date
JP2014225175A true JP2014225175A (ja) 2014-12-04
JP2014225175A5 JP2014225175A5 (ja) 2016-03-17
JP6066825B2 JP6066825B2 (ja) 2017-01-25

Family

ID=50735920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013104659A Active JP6066825B2 (ja) 2013-05-17 2013-05-17 データ分析装置及び保健事業支援方法

Country Status (4)

Country Link
US (1) US20140343966A1 (ja)
EP (1) EP2804121A3 (ja)
JP (1) JP6066825B2 (ja)
CN (1) CN104166881A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173728A (ja) * 2015-03-17 2016-09-29 Kddi株式会社 予測モデル構築装置
JP2017027510A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 選別装置
JP2017027509A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 予測モデル構築装置
JP2017037406A (ja) * 2015-08-07 2017-02-16 Kddi株式会社 提示装置
WO2018008463A1 (ja) * 2016-07-06 2018-01-11 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
JP2018055728A (ja) * 2016-07-06 2018-04-05 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
JP2018077896A (ja) * 2018-01-10 2018-05-17 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
JP2018180993A (ja) * 2017-04-14 2018-11-15 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法
JP2019032591A (ja) * 2017-08-04 2019-02-28 株式会社日立製作所 計算機システム
JP2019109717A (ja) * 2017-12-19 2019-07-04 学校法人産業医科大学 傷病別医療費推計装置および方法並びにプログラム
JP2019109818A (ja) * 2017-12-20 2019-07-04 富士フイルム株式会社 健診結果出力装置とその作動方法および作動プログラム
WO2019187372A1 (ja) 2018-03-30 2019-10-03 Necソリューションイノベータ株式会社 予測システム、モデル生成システム、方法およびプログラム
JP2020017094A (ja) * 2018-07-26 2020-01-30 株式会社日立製作所 分析方法、分析装置及びプログラム
CN112428263A (zh) * 2020-10-16 2021-03-02 北京理工大学 机械臂控制方法、装置及聚类模型训练方法
WO2023079712A1 (ja) * 2021-11-05 2023-05-11 日本電信電話株式会社 処理装置、処理方法及び処理プログラム
JP7442247B1 (ja) 2022-11-30 2024-03-04 一般財団法人Lhs研究所 健康管理支援システム、健康管理支援方法、及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6555061B2 (ja) * 2015-10-01 2019-08-07 富士通株式会社 クラスタリングプログラム、クラスタリング方法、および情報処理装置
JP6652699B2 (ja) * 2015-10-05 2020-02-26 富士通株式会社 アノマリ評価プログラム、アノマリ評価方法、および情報処理装置
US10055435B2 (en) * 2016-05-04 2018-08-21 International Business Machines Corporation Interactive presentation of large scale graphs
JP7158175B2 (ja) * 2018-05-16 2022-10-21 日鉄ソリューションズ株式会社 情報処理装置、システム、情報処理方法及びプログラム
CN111179102B (zh) * 2019-12-25 2023-10-03 北京亚信数据有限公司 医疗保险核保风控方法、装置及存储介质
CN111767283B (zh) * 2020-06-19 2023-08-18 北京思特奇信息技术股份有限公司 一种数据系统监测方法和系统
CN113434937A (zh) * 2021-06-29 2021-09-24 广联达科技股份有限公司 设计模型转换为算量模型的方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009087057A (ja) * 2007-09-28 2009-04-23 Sharp Corp ベクトルデータをクラスタリングするクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体
JP2012128670A (ja) * 2010-12-15 2012-07-05 Hitachi Ltd 保健事業支援システム、保険事業支援装置、及び保険事業支援プログラム
US20130297342A1 (en) * 2012-05-07 2013-11-07 Healtheo360 Computer-based system for managing a patient support and information network

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040078228A1 (en) * 2002-05-31 2004-04-22 Fitzgerald David System for monitoring healthcare patient encounter related information
CN101410842A (zh) * 2003-05-21 2009-04-15 西门子医疗健康服务公司 用于健康护理及其他领域的服务订购系统与用户界面
US8684922B2 (en) * 2006-05-12 2014-04-01 Bao Tran Health monitoring system
GB2440562A (en) * 2006-08-03 2008-02-06 Sony Uk Ltd Apparatus and method of data organisation
US8200506B2 (en) * 2006-12-19 2012-06-12 Accenture Global Services Limited Integrated health management platform
JP4863908B2 (ja) * 2007-03-16 2012-01-25 株式会社ソニー・コンピュータエンタテインメント データ処理装置、データ処理方法、及びデータ処理プログラム
US8821418B2 (en) * 2007-05-02 2014-09-02 Earlysense Ltd. Monitoring, predicting and treating clinical episodes
US9015633B2 (en) * 2007-10-22 2015-04-21 Sony Corporation Data management apparatus and method for organizing data elements into multiple categories for display
CN102947857A (zh) * 2010-06-20 2013-02-27 尤尼维公司 决策支持系统(dss)和电子健康记录(ehr)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009087057A (ja) * 2007-09-28 2009-04-23 Sharp Corp ベクトルデータをクラスタリングするクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体
JP2012128670A (ja) * 2010-12-15 2012-07-05 Hitachi Ltd 保健事業支援システム、保険事業支援装置、及び保険事業支援プログラム
US20130297342A1 (en) * 2012-05-07 2013-11-07 Healtheo360 Computer-based system for managing a patient support and information network

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173728A (ja) * 2015-03-17 2016-09-29 Kddi株式会社 予測モデル構築装置
JP2017027510A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 選別装置
JP2017027509A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 予測モデル構築装置
JP2017037406A (ja) * 2015-08-07 2017-02-16 Kddi株式会社 提示装置
US11087406B2 (en) 2016-07-06 2021-08-10 Omron Healthcare Co., Ltd. Risk analysis system and risk analysis method
WO2018008463A1 (ja) * 2016-07-06 2018-01-11 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
JP2018055728A (ja) * 2016-07-06 2018-04-05 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
JP2018005726A (ja) * 2016-07-06 2018-01-11 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
JP2018180993A (ja) * 2017-04-14 2018-11-15 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法
US11315033B2 (en) 2017-08-04 2022-04-26 Hitachi, Ltd. Machine learning computer system to infer human internal states
JP2019032591A (ja) * 2017-08-04 2019-02-28 株式会社日立製作所 計算機システム
JP2019109717A (ja) * 2017-12-19 2019-07-04 学校法人産業医科大学 傷病別医療費推計装置および方法並びにプログラム
JP2019109818A (ja) * 2017-12-20 2019-07-04 富士フイルム株式会社 健診結果出力装置とその作動方法および作動プログラム
JP6999403B2 (ja) 2017-12-20 2022-01-18 富士フイルム株式会社 健診結果出力装置とその作動方法および作動プログラム
JP2018077896A (ja) * 2018-01-10 2018-05-17 オムロンヘルスケア株式会社 リスク分析システム及びリスク分析方法
WO2019187372A1 (ja) 2018-03-30 2019-10-03 Necソリューションイノベータ株式会社 予測システム、モデル生成システム、方法およびプログラム
JP2020017094A (ja) * 2018-07-26 2020-01-30 株式会社日立製作所 分析方法、分析装置及びプログラム
CN112428263A (zh) * 2020-10-16 2021-03-02 北京理工大学 机械臂控制方法、装置及聚类模型训练方法
WO2023079712A1 (ja) * 2021-11-05 2023-05-11 日本電信電話株式会社 処理装置、処理方法及び処理プログラム
JP7442247B1 (ja) 2022-11-30 2024-03-04 一般財団法人Lhs研究所 健康管理支援システム、健康管理支援方法、及びプログラム

Also Published As

Publication number Publication date
US20140343966A1 (en) 2014-11-20
EP2804121A2 (en) 2014-11-19
EP2804121A3 (en) 2015-04-08
CN104166881A (zh) 2014-11-26
JP6066825B2 (ja) 2017-01-25

Similar Documents

Publication Publication Date Title
JP6066825B2 (ja) データ分析装置及び保健事業支援方法
JP6182431B2 (ja) 医療データ分析システム、及び医療データを分析する方法
JP6066826B2 (ja) 分析システム及び保健事業支援方法
US9378531B2 (en) Clinical outcome tracking and analysis
JP2014225175A5 (ja)
US11488717B2 (en) Method and system for analysis of spine anatomy and spine disease
JP6901308B2 (ja) データ分析支援システム及びデータ分析支援方法
JP6159872B2 (ja) 医療データ分析システム、医療データ分析方法及び記憶媒体
US9646135B2 (en) Clinical outcome tracking and analysis
US20170147753A1 (en) Method for searching for similar case of multi-dimensional health data and apparatus for the same
US20110119207A1 (en) Healthcare Index
Xiao et al. An MCEM framework for drug safety signal detection and combination from heterogeneous real world evidence
JP6038727B2 (ja) 分析システム及び分析方法
Kostek et al. Automatic assessment of the motor state of the Parkinson's disease patient--a case study
WO2009153726A1 (en) A system method and computer program product for pedigree analysis
Boursalie et al. Evaluation methodology for deep learning imputation models
Guglielmi et al. Semiparametric Bayesian models for clustering and classification in the presence of unbalanced in-hospital survival
CN112189209A (zh) 用于量化客户参与度的系统和方法
US20150339602A1 (en) System and method for modeling health care costs
Goodman et al. Emergency department frequent user subgroups: Development of an empirical, theory-grounded definition using population health data and machine learning.
Debray et al. Methods for comparative effectiveness based on time to confirmed disability progression with irregular observations in multiple sclerosis
JP2020135489A (ja) ヘルスケアデータ分析装置及びヘルスケアデータ分析方法
Badolato et al. The limits of predicting individual-level longevity
US20240020576A1 (en) Methods, systems, and frameworks for federated learning while ensuring bi directional data security
US20240013093A1 (en) Methods, systems, and frameworks for debiasing data in drug discovery predictions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161220

R150 Certificate of patent or registration of utility model

Ref document number: 6066825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150