JP2011257816A - 受診者状態推定装置及びプログラム - Google Patents

受診者状態推定装置及びプログラム Download PDF

Info

Publication number
JP2011257816A
JP2011257816A JP2010129472A JP2010129472A JP2011257816A JP 2011257816 A JP2011257816 A JP 2011257816A JP 2010129472 A JP2010129472 A JP 2010129472A JP 2010129472 A JP2010129472 A JP 2010129472A JP 2011257816 A JP2011257816 A JP 2011257816A
Authority
JP
Japan
Prior art keywords
disease
probability
item
learning data
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010129472A
Other languages
English (en)
Inventor
Satoru Hayamizu
悟 速水
Keiko Yamamoto
けい子 山本
Yasuomi Kinosada
保臣 紀ノ定
Atsushi Kameyama
敦之 亀山
Hiroki Yamashita
広記 山下
Takayoshi Muto
隆義 武藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gifu University NUC
Tak Co Ltd
Original Assignee
Gifu University NUC
Tak Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gifu University NUC, Tak Co Ltd filed Critical Gifu University NUC
Priority to JP2010129472A priority Critical patent/JP2011257816A/ja
Publication of JP2011257816A publication Critical patent/JP2011257816A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】受診者の健診結果(受診者データ:年齢、BMI、最高・最低血圧、白血球数等)が、或る疾患名に該当する確率を、健診データベースが持つ当該疾患名に該当する健診データ群の特徴を参照して求める装置を提供する。
【解決手段】「疾患名」及び「特に無し」を前提としたとき、受診者データの各検査項目値が当該の「疾患名」と「特に無し」とで観測される確率を検査項目毎に求め、それらの確率に基づいて、当該対象者が当該或る疾患名に該当する確率を求める。ただし、相関の高い検査項目のペアについては、当該ペアの同時確率分布から求めた確率を採用する。演算には、ナイーブベイズ分類器を用いる。これにより演算量が低減され、精度も向上する。
【選択図】図1

Description

本発明は、年齢、BMI、最高血圧、最低血圧、白血球数等の複数の項目の値(検査結果等のデータ)から受診者の疾患を推定する機能を備えた受診者状態推定装置と、コンピュータを受診者状態推定装置として機能させるためのプログラムに関する。
近年、医療費抑制のため、特定健診等の政策が実施されており、健保組合の枠を超えた大規模な健診データを解析して、個人の健康を生涯に亘って支援することができる有用な情報を抽出する技術が求められている。
例えば、生活習慣の情報(血液検査などの検査結果、問診による喫煙や飲酒に関する情報等)を利用して、各個人の身体状態の維持・管理(健康増進や罹患の防止、罹患者の管理等)に役立つ情報を提供することが要望されている。
このことは、発症の可能性や発症後の進展の程度が生活習慣の違いによって異なる動脈硬化、心筋梗塞、脳梗塞等の疾患に関しても重要な課題である。
特開2008−191716号公報(特許文献1)には、対象者のデータから、遺伝因子リスクや、遺伝因子と環境因子を総合的に考慮した総合リスクを算出し、同世代の平均値とともにグラフィカルに提示したり、各リスクの数値が該当するランクをマークで提示したりする手法が開示されている。また、これらを用い、対象者が将来どのように身体を管理すべきか、医師等が、生活習慣の改善等を指導することができるとされている。
特開2008−191716号公報
特許文献1では、各検査項目を独立な説明変数として用いている。しかし、実際の健診データでは検査項目間が全て独立を保っている関係は見られず、機能別に相関が見受けられる。このことは、生化学的な知識からも裏付けられる。
例えば、高血圧症の疾患リスクの推定では、血圧系の相関情報だけでなく、肝機能系や血液系の相関情報も取り入れることで精度の改善がみられる。つまり、機能系を超えた情報が、疾患リスクの推定に影響を与えている可能性を指摘できる。
したがって、これらの相関を考慮に入れず、全ての検査項目を独立な変数として扱う特許文献1の手法では、所要の精度を得ることは困難と思われる。
本発明は、適宜に検査項目間の関連を考慮に入れることにより、従来よりも高い精度で疾患リスクを推定できるようにすることを目的とする。なお、疾患リスクの推定は、対象者(受診者)が、特定の疾患に罹患している確率で表現するものとする。
本発明の構成を、下記[1]〜[7]に記す。
本発明では、データベース上の大規模な健診データを解析して、或る疾患に罹患している場合や疾患に罹患していない場合の各検査値が持つ特徴を、予め求めておく。検査値としては、血液検査の結果や血圧等のように直接的に数値データとして得られる検査値に限らず、例えば、問診結果に数値を割り当てる等したものであってもよい。
このようにして得られた特徴を、リスク推定対象者(受診者)の検査結果と比較対照することにより、当該受診者が当該或る疾患に罹患している確率や、何らかの疾患に罹患していない確率を算出する。
[1]構成1
各レコードが、ラベル項目の疾患名/疾患名無しのデータと、複数の検査項目の検査結果データとから成り、所定の記憶装置に保持されている健診データベースと、
前記健診データベースから、所定の疾患名を持つレコードを抽出して所定の記憶装置にて疾患学習データとして保持するとともに、疾患名無しを持つレコードを抽出して所定の記憶装置にて健康学習データとして保持する、学習データ抽出手段と、
任意の2個の検査項目で構成される検査項目の組み合わせの中から偏相関係数が所定値以上となる組み合わせを前記疾患学習データ及び健康学習データから抽出して所定の記憶装置にて検査項目ペアとして保持する項目ペア抽出手段と、
前記検査項目ペアの各々についてノンパラメトリックな手法により前記疾患学習データに於ける同時確率分布及び前記健康学習データに於ける同時確率分布をそれぞれ求めるとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法により前記疾患学習データに於ける確率分布及び前記健康学習データに於ける確率分布をそれぞれ求める、確率分布演算手段と、
前記所定の疾患名に該当する確率を求めるべき受診者の各検査項目のデータである受診者データを取得する受診者データ取得手段と、
前記各検査項目ペアに属する受診者データのペアが前記疾患学習データに於いて観測されるペア別疾患確率及び前記健康学習データに於いて観測されるペア別健康確率を各学習データに於ける当該検査項目ペアの同時確率分布を参照して検査項目ペア毎にそれぞれ求めるとともに、前記検査項目ペアに含まれない各検査項目に属する受診者データが前記疾患学習データに於いて観測される項目別疾患確率及び前記健康学習データに於いて観測される項目別健康確率を各学習データに於ける当該検査項目の確率分布を参照して検査項目毎にそれぞれ求める、ペア別・項目別疾患/健康確率演算手段と、
前記受診者データのレコードがそのラベル項目に前記所定の疾患名を持つ受診者疾患確率を、前記各検査項目ペア間、前記検査項目ペアに含まれない各検査項目間、及び、前記各検査項目ペアと前記検査項目ペアに含まれない各検査項目との間に相関が無く相互に独立であるものとみなして、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率に基づいて、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率に基づいて、算出する受診者疾患確率演算手段と、
を有することを特徴とする受診者状態推定装置。
健診データベースは、統計処理可能な量のレコードを有する。
健診データベースでは、ラベル項目の疾患名として、種々の疾患名(高血圧,脂質異常症,糖尿病,特になし,等)が混在する。学習データ抽出手段により抽出された疾患学習データでは、指定された所定の疾患名のみが存する。指定は、例えば、キーボード等の入力装置からの操作入力によって行われ得る。
偏相関係数が所定値以上となる検査項目の組み合わせとは、他の検査項目の影響を除いたときに当該2つの検査項目間の相関が無視できない程度となる組み合わせである。所定値としては、例えば0.7を用いることができる。なお、ここでは「所定値以上」という語句を用いているが、これに代えて「所定値より大」としてもよい。本構成1は、このような場合をも含む。要は、他の影響を除いたときの相関が強い検査項目ペアを抽出するための閾値を与え得れば足りる。
また、ここでは、偏相関係数に基づいて抽出しているが、これに代えて、例えば、アソシエーション分析により抽出してもよい。その場合は、「偏相関係数が所定値以上となる組み合わせ」に代えて、「支持度及び信頼度が所定値以上となる相関ルールに基づいた検査項目ペア」を抽出することとなる。
ノンパラメトリックな手法としては、例えば、構成2のカーネル密度推定を挙げることができる。他に、例えば、ヒストグラム密度推定法や最近傍法を挙げることもできる。
受診者データの取得は、例えば、キーボードやマウス等の入力装置からの操作入力に応じて行う構成とすることができる。また、一覧表に入力されている複数の受診者の健診データを順に取り寄せて、順に処理する構成でもよい。
[2]構成2
構成1に於いて、
前記確率分布演算手段は、前記ノンパラメトリックな手法としてカーネル密度推定を用いる、
ことを特徴とする受診者状態推定装置。
[3]構成3
構成1又は構成2に於いて、
前記受診者疾患確率演算手段は、ナイーブベイズ分類器に、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率を代入し、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率を代入して前記受診者疾患確率を算出する、
ことを特徴とする受診者状態推定装置。
ナイーブベイズ分類器は、下記[数1]で与えられる。
Figure 2011257816

ここで、
P(C1):健診データベースに於いて所定の疾患名を持つレコードの確率
P(C2):健診データベースに於いて疾患名無しを持つレコードの確率
とする。なお、C1 (クラス)は、疾患名を代えて用いることができる。例えば、C1 として、「高血圧」「糖尿病」「脂質異常症」等を用いることができる。
[4]構成4
構成1〜構成3の何れかに於いて、
前記学習データ抽出手段に代えて、
前記健診データベースから抽出した所定の疾患名を持つレコードを疾患学習データとして、及び、疾患名無しを持つレコードを健康学習データとして、それぞれ所定の記憶装置にて保持している、学習データ保持手段、
を有することを特徴とする受診者状態推定装置。
つまり、学習データ抽出手段による抽出結果のデータを、予め、所定の記憶装置にて保持しているように構成された装置である。
[5]構成5
構成4に於いて、
前記項目ペア抽出手段に代えて、
前記疾患学習データ及び健康学習データから抽出した、任意の2個の検査項目で構成される検査項目の組み合わせの中で偏相関係数が所定値以上となる各組み合わせを、所定の記憶装置にて検査項目ペアとしてそれぞれ保持している項目ペア保持手段、
を有することを特徴とする受診者状態推定装置。
つまり、項目ペア抽出手段による抽出結果のデータを、予め、所定の記憶装置にて保持しているように構成された装置である。
[6]構成6
構成5に於いて、
前記確率分布演算手段に代えて、
前記検査項目ペアの各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける同時確率分布に相当するデータ及び前記健康学習データに於ける同時確率分布に相当するデータを所定の記憶装置にて保持しているとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける確率分布に相当するデータ及び前記健康学習データに於ける確率分布に相当するデータを所定の記憶装置にて保持している、確率分布保持手段、
を有することを特徴とする受診者状態推定装置。
つまり、確率分布演算手段による演算結果に相当するデータを、予め、所定の記憶装置にて保持しているように構成された装置である。
同時確率分布や確率分布に「相当する」データとは、受診者データ(各検査値)が連続値の中の一点の値であり、とり得る値が無限に存するため、それらの全てに対応できるように同時確率分布や確率分布の全データを保持しておくことが現実的ではないことに鑑みたものである。「相当する」データを保持しておく具体的な手法としては、例えば、各検査値を、それらがとり得る値の範囲内でそれぞれ所定数に分割し、各分割域に対応する確率(同時確率分布から求めた確率、確率分布から求めた確率)を保存しておく手法を挙げることができる。
[7]構成7
コンピュータを、構成1〜構成6の何れかの受診者状態推定装置として機能させるためのプログラム。
なお、構成1〜構成7に於いて、記憶装置等の各種の構成要素は、単一のコンピュータとして構成されていてもよいが、LAN等を介して接続された構成でもよい。要は、構成1〜構成6の機能を実現できるようにハードウェアが構成されていればよい。
構成1は、各レコードが、ラベル項目の疾患名/疾患名無しのデータと、複数の検査項目の検査結果データとから成り、所定の記憶装置に保持されている健診データベースと、前記健診データベースから、所定の疾患名を持つレコードを抽出して所定の記憶装置にて疾患学習データとして保持するとともに、疾患名無しを持つレコードを抽出して所定の記憶装置にて健康学習データとして保持する、学習データ抽出手段と、任意の2個の検査項目で構成される検査項目の組み合わせの中から偏相関係数が所定値以上となる組み合わせを前記疾患学習データ及び健康学習データから抽出して所定の記憶装置にて検査項目ペアとして保持する項目ペア抽出手段と、前記検査項目ペアの各々についてノンパラメトリックな手法により前記疾患学習データに於ける同時確率分布及び前記健康学習データに於ける同時確率分布をそれぞれ求めるとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法により前記疾患学習データに於ける確率分布及び前記健康学習データに於ける確率分布をそれぞれ求める、確率分布演算手段と、前記所定の疾患名に該当する確率を求めるべき受診者の各検査項目のデータである受診者データを取得する受診者データ取得手段と、前記各検査項目ペアに属する受診者データのペアが前記疾患学習データに於いて観測されるペア別疾患確率及び前記健康学習データに於いて観測されるペア別健康確率を各学習データに於ける当該検査項目ペアの同時確率分布を参照して検査項目ペア毎にそれぞれ求めるとともに、前記検査項目ペアに含まれない各検査項目に属する受診者データが前記疾患学習データに於いて観測される項目別疾患確率及び前記健康学習データに於いて観測される項目別健康確率を各学習データに於ける当該検査項目の確率分布を参照して検査項目毎にそれぞれ求める、ペア別・項目別疾患/健康確率演算手段と、前記受診者データのレコードがそのラベル項目に前記所定の疾患名を持つ受診者疾患確率を、前記各検査項目ペア間、前記検査項目ペアに含まれない各検査項目間、及び、前記各検査項目ペアと前記検査項目ペアに含まれない各検査項目との間に相関が無く相互に独立であるものとみなして、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率に基づいて、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率に基づいて、算出する受診者疾患確率演算手段とを有することを特徴とする受診者状態推定装置であるため、人体の状態を示す種々の検査結果等の総体を用いて疾患の特徴(疾患学習データに於ける検査項目ペア毎の同時確率分布及び検査項目毎の確率分布)を総合的に把握することができる。また、その特徴を用いているため、良好な精度で対象者(受診者)の疾患リスク(当該の疾患に罹患している確率;受診者疾患確率)を推定することができる。さらに、特に相関が特に強い検査項目に関しては同時確率分布を求め、それを参照してペア別疾患確率(又はペア別健康確率)を求めているため、よりいっそう良好な精度を得ることができる。
構成2は、構成1に於いて、前記確率分布演算手段は、前記ノンパラメトリックな手法としてカーネル密度推定を用いることを特徴とする受診者状態推定装置であるため、構成1の作用効果を奏する他、手法の具体例を与えることができる効果がある。
構成3は、構成1又は構成2に於いて、前記受診者疾患確率演算手段は、ナイーブベイズ分類器に、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率を代入し、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率を代入して前記受診者疾患確率を算出することを特徴とする受診者状態推定装置であるため、コンピュータの演算量を低減しつつ、構成1や2の所要の作用効果を得ることができる効果がある。
構成4は、構成1〜構成3の何れかに於いて、前記学習データ抽出手段に代えて、前記健診データベースから抽出した所定の疾患名を持つレコードを疾患学習データとして、及び、疾患名無しを持つレコードを健康学習データとして、それぞれ所定の記憶装置にて保持している、学習データ保持手段を有することを特徴とする受診者状態推定装置であるため、構成1〜構成3の作用効果を、学習データ抽出手段による抽出結果を予め所定の記憶装置に保持させた構成に於いて達成することができる。
構成5は、構成4に於いて、前記項目ペア抽出手段に代えて、前記疾患学習データ及び健康学習データから抽出した、任意の2個の検査項目で構成される検査項目の組み合わせの中で偏相関係数が所定値以上となる各組み合わせを、所定の記憶装置にて検査項目ペアとしてそれぞれ保持している項目ペア保持手段を有することを特徴とする受診者状態推定装置であるため、構成1〜構成4の作用効果を、項目ペア抽出手段による抽出結果を予め所定の記憶装置に保持させた構成に於いて達成することができる。
構成6は、構成5に於いて、前記確率分布演算手段に代えて、前記検査項目ペアの各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける同時確率分布に相当するデータ及び前記健康学習データに於ける同時確率分布に相当するデータを所定の記憶装置にて保持しているとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける確率分布及に相当するデータ及び前記健康学習データに於ける確率分布に相当するデータを所定の記憶装置にて保持している、確率分布保持手段を有することを特徴とする受診者状態推定装置であるため、構成1〜構成4の作用効果を、確率分布演算手段による演算結果に相当するデータを予め所定の記憶装置に保持させた構成に於いて達成することができる。
構成7は、コンピュータを、構成1〜構成6の何れかの受診者状態推定装置として機能させるためのプログラムであるため、コンピュータを構成1〜構成6の受診者状態推定装置として機能させるためのプログラムを提供できる効果がある。
実施の形態の受診者状態推定装置の処理手順を示すフローチャート。 実施の形態の受信者状態推定装置の構成を示すブロック図(a)と、ナイーブベイズ分類器の構成を示す説明図(b)。 健診データベースのデータ構成例の説明図(a)、疾患学習データの一例を示す説明図(b)、及び、健康学習データの一例を示す説明図(c)。 算出した偏相関係数の一例を示す説明図(a)と、カーネル密度推定の原理を示す説明図(b)。
図面を参照して、本発明の実施の形態を説明する。
実施の形態の受診者状態推定装置は、図2(a)に示すコンピュータシステムに於いて実現される。即ち、制御装置10がROM13や必要に応じて記憶装置11から所定のプログラムを読み出して、図1に示す手順を実行することにより、実現される。
ハードディスク或いはSSD等で構成される記憶装置11には、統計処理可能な量の健診データを有する健診データベースが格納されている。また、本願の受診者状態推定機能を実現するためのアプリケーション等の各種のアプリケーションを、必要に応じて格納させてもよい。
健診データベースの構成例を、図3(a)に示す。
本実施の形態では、健診毎に付与される一意の健診IDに対応付けて、16個の検査項目(年齢,BMI,最高血圧(SBP),最低血圧(DBP),白血球数,赤血球数,血色素量(Fb),ヘマトクリット(Ht),血小板,GOT,GPT,γGTP,総コレステロール,中性脂肪,HDLコレステロール(図ではHDLと略記),血糖)と、ラベル項目(「疾患名」又は「特に無し」が記録される)を有する。これらの検査項目は一例であり、他の検査項目を追加する等、適宜に増減してよい。また、検査項目としても生化学的な検査値に限らず、例えば、問診結果を用いてもよい。その場合、選択肢に番号を付して、その値を記録するようにしてもよい。ラベル項目に記録される疾患名は、医師が付与した病名でもよいが、簡易的には、健診者の自己申告(現病歴等)としてもよい。
また、健診IDに代えて、例えば、健診者(受診者)IDと健診日時(受診日時)とにより、各レコードを一意に特定するように構成してもよい。
制御装置10は、CPU等を有する公知の構成を有する。また、図2(b)に詳細を示すナイーブベイズ分類器(前記[数1]参照)を有し、さらに、同時確率分布や確率分布を演算する機能や、下記[数2]で与えられる偏相関係数を算出する機能を有する。ナイーブベイズ分類器の機能や、同時確率分布・確率分布演算機能、さらには、偏相関係数算出機能は、ソフトウェアで実現してもよく、ハードウェアで実現してもよい。
Figure 2011257816
図2(a)の例では記憶装置(ハードディスク)11は制御装置10に接続されているが、例えば、LAN等を介して接続されていてもよい。また、入力装置としても、図示のキーボード・マウスに限定されず、例えば、ICカードに記録された健診結果を読み取って健診データベースに蓄積する構成や、LAN(更にはインターネット)を介して入力される健診結果を健診データベースに蓄積する構成でもよい。受診者データの入力に関しても同様である。また、出力装置もディスプレイに限定されず、プリンタやスピーカでもよい。要は、図1の手順を実行できる構成であれば、ハードウェアの構成は任意である。
図1に即して、実施の形態の装置の手順を説明する。
まず、健診データベースから、指定された疾患名を持つレコードの集合である疾患学習データと、健康学習データを抽出する(S1)。図3(b)は疾患名として「高血圧」が指定された場合に抽出される疾患学習データの一例を示し、図3(c)は健康学習データの一例を示す。ここで、疾患名の指定は、受診者データの入力(後述のステップS4の処理参照)時に併せて指定するようにしてもよいが、所定の順序で各疾患を順に指定するように構成してもよい。後者の場合は、ステップS1〜S6の処理が、疾患名を代えて繰り返して実行されることとなる。抽出された疾患学習データと健康学習データは、RAM12に保持されて、後述の処理(S2,S3)に供される。
なお、予め健康学習データを抽出するとともに疾患名毎に疾患学習データを抽出しておき、それらをハードディスク等に保持し、ステップS1の処理を実行することなく、直ちにステップS2以降の処理を実行するように構成してもよい。その場合、健診データベースの更新の都度、疾患学習データや健康学習データを更新しておくものとする。
次に、偏相関係数が所定値(例:0.7)以上の検査項目ペアを抽出する(S2)。即ち、疾患学習データと健康学習データを用い、任意の検査項目の組み合わせについて、他の検査項目の影響を除いた場合の相関の強さを順に求め、その強さが所定値以上の組み合わせを、検査項目ペアとして抽出する。抽出された検査項目ペアはRAM12に保持されて、後述の処理(S3)に供される。
疾患名として「高血圧」が指定されている場合、実施の形態では、図4(a)に例示するように、最高血圧(SBP)と最低血圧(DBP)のペア、血色素量(Hb)とヘマトクリット(Ht)のペア、及び、GOTとGPTのペアが抽出された。なお、図4(a)に於いて、対角線より右上が男性健診者のデータ、左下が女性健診者のデータである。
なお、予め抽出した疾患学習データと健康学習データに基づいて予め偏相関係数が所定値以上のペアを求めておき、それらをハードディスク等に保持し、ステップS2の処理を実行することなく、直ちにステップS3以降の処理を実行するように構成してもよい。
また、本実施の形態では偏相関係数を用いているが、他の検査項目の影響を除いた場合に於いて相関の強さが所定の強さを持つ検査項目のペアを抽出する別の手法としては、例えば、アソシエーション分析を採用することもできる。その場合には、「偏相関係数が所定値以上となる組み合わせ」に代えて、「支持度及び信頼度が所定値以上となる相関ルールに基づいた検査項目ペア」を抽出することとなる。
次に、ノンパラメトリックな手法(例:カーネル密度推定法,ヒストグラム密度推定法,最近傍法)により、検査項目ペアの各々について疾患学習データに於ける同時確率分布と健康学習データに於ける同時確率分布をそれぞれ求め、検査項目ペアに含まれない検査項目の各々について疾患学習データに於ける確率分布と健康学習データに於ける確率分布をそれぞれ求める(S3)。求められた同時確率分布に相当するデータ及び確率分布に相当するデータはRAM12に保持され、後述の処理(S5)に供される。なお、予め抽出した疾患学習データと健康学習データに基づいて予め同時確率分布に相当するデータや確率分布に相当するデータを求めておき、それらをハードディスク11等に保持し、ステップS3の処理を実行することなく、直ちにステップS4以降の処理を実行するように構成してもよい。同時確率分布や確率分布に相当するデータとは、受診者データを構成する各検査値が連続値の中の一点の値であり、とり得る値が無限に存するため、それらの全てに対応できるように同時確率分布や確率分布の全データを保持しておくことが現実的ではないことに鑑みたものである。保持しておく具体的な手法としては、例えば、各検査値を、それらがとり得る値の範囲内でそれぞれ所定数に分割し、各分割域に対応する確率(同時確率分布から求めた当該分割域を代表する確率、確率分布から求めた当該分割域を代表する確率)を保存しておく手法を挙げることができる。
また、ノンパラメトリックな手法の一例であるカーネル密度推定とは、図4(b)に示すように、疾患学習データや健康学習データの各データに関し、その位置を中心とする所定の確率分布(例:正規分布)を設定し、それらを加算して得られる分布曲線である。本実施の形態では、カーネル密度推定を採用しているため、本来、連続値である検査値の分布を、滑らかな分布として近似できることとなり、その結果、より現実的な検査値の確率を得ることができる。
なお、同時確率分布(検査項目ペア)の場合、データ値は2次元であるため、確率分布は2次元平面の上方の曲面(3次元曲面)となる。例えば、SBP軸とDBP軸の平面の上方に、確率分布曲面が描かれることとなる。
次に、疾患リスクを推定する対象者(受診者;受診者疾患確率の演算対象者)の検査項目値(ラベル項目を除く各検査項目のデータ:受診者データ)を取得する(S4)。キーボードやマウス等から入力されてRAM12に保持されているデータを取得する構成でもよいが、ハードディスク11に記憶されている所定の受診者リストから順に取得するように構成してもよい。また、入力装置としても、キーボードやマウスに限定されず、ICカードからの入力や、LAN更にはインターネットを介する入力であってもよい。その場合の入力端末としても、携帯電話機等であってもよい。
次に、同時確率分布や確率分布を参照して、受診者の検査項目ペア別/検査項目別の疾患確率及び健康確率を求める(S5)。
ここで、受診者の或る検査項目ペアの疾患確率とは、当該受診者の当該或る検査項目ペアのペアデータが、当該疾患学習データで観測される確率であり、当該ペアデータで決まる2次元座標点から立てた垂線が当該或る検査項目ペアの確率分布曲面と交叉する座標点に相当するデータ値として求めることができる。健康確率についても同様である。
また、受診者の検査項目ペアに含まれない或る検査項目の疾患確率とは、当該受診者の当該或る検査項目のデータが、当該疾患学習データで観測される確率であり、当該データで決まる座標点から立てた垂線が当該或る検査項目の確率分布曲線と交叉する座標点に相当するデータ値として求めることができる。健康確率についても同様である。
こうして、
検査項目ペア毎のペア別疾患確率P(x(p)j|C1
検査項目ペア毎のペア別健康確率P(x(p)j|C2
検査項目ペアに含まれない検査項目毎の項目別疾患確率P(xi|C1
検査項目ペアに含まれない検査項目毎の項目別健康確率P(xi|C2
が求まると、次に、健診データベースのデータに基づいて
当該疾患の生起確率P(C1
疾患無しの生起確率P(C2)
を求め、それらを前記[数1]のナイーブベイズ分類器に代入して、当該受診者の受診データが当該疾患学習データで観測される確率(受診者疾患確率)を求める。即ち、当該受診者が当該疾患である確率を求める。これにより、当該受診者が当該の疾患であるリスクを推定できることとなる。
なお、本例では、検査項目の総数nが16、検査項目ペア数mが3であるから、
[数2]では、
j=1〜3
i=1〜10
となる。
また、求めた結果は、出力先の設定に応じてディスプレイやプリンタ或いはスピーカへ出力され、又は、LANやインターネットを介して問い合わせ元の端末(パソコン,携帯電話機等)へ送信される。
現実の受診データを多数抽出し、本受診者状態推定装置での処理に供して正解数−不正解数を評価したところ、良好な結果を得られた。
上記は、健診データの検査項目を対象にした疾患名の推定に関するものであるが、多変量データとそれらに起因する現象のリスク推定であれば、本発明で用いた生理学的な関係を、目的とするドメインの関係に置き換えて、同様の方法を利用可能である。
10 制御装置(CPU,ナイーブベイズ分類器,を備える)
11 記憶装置(ハードディスク等)
12 記憶装置(RAM)
13 記憶装置(ROM)
16 入力装置(キーボード,マウス等)
17 出力装置(ディスプレイ等)
18 LAN

Claims (7)

  1. 各レコードが、ラベル項目の疾患名/疾患名無しのデータと、複数の検査項目の検査結果データとから成り、所定の記憶装置に保持されている健診データベースと、
    前記健診データベースから、所定の疾患名を持つレコードを抽出して所定の記憶装置にて疾患学習データとして保持するとともに、疾患名無しを持つレコードを抽出して所定の記憶装置にて健康学習データとして保持する、学習データ抽出手段と、
    任意の2個の検査項目で構成される検査項目の組み合わせの中から偏相関係数が所定値以上となる組み合わせを前記疾患学習データ及び健康学習データから抽出して所定の記憶装置にて検査項目ペアとして保持する項目ペア抽出手段と、
    前記検査項目ペアの各々についてノンパラメトリックな手法により前記疾患学習データに於ける同時確率分布及び前記健康学習データに於ける同時確率分布をそれぞれ求めるとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法により前記疾患学習データに於ける確率分布及び前記健康学習データに於ける確率分布をそれぞれ求める、確率分布演算手段と、
    前記所定の疾患名に該当する確率を求めるべき受診者の各検査項目のデータである受診者データを取得する受診者データ取得手段と、
    前記各検査項目ペアに属する受診者データのペアが前記疾患学習データに於いて観測されるペア別疾患確率及び前記健康学習データに於いて観測されるペア別健康確率を各学習データに於ける当該検査項目ペアの同時確率分布を参照して検査項目ペア毎にそれぞれ求めるとともに、前記検査項目ペアに含まれない各検査項目に属する受診者データが前記疾患学習データに於いて観測される項目別疾患確率及び前記健康学習データに於いて観測される項目別健康確率を各学習データに於ける当該検査項目の確率分布を参照して検査項目毎にそれぞれ求める、ペア別・項目別疾患/健康確率演算手段と、
    前記受診者データのレコードがそのラベル項目に前記所定の疾患名を持つ受診者疾患確率を、前記各検査項目ペア間、前記検査項目ペアに含まれない各検査項目間、及び、前記各検査項目ペアと前記検査項目ペアに含まれない各検査項目との間に相関が無く相互に独立であるものとみなして、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率に基づいて、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率に基づいて、算出する受診者疾患確率演算手段と、
    を有することを特徴とする受診者状態推定装置。
  2. 請求項1に於いて、
    前記確率分布演算手段は、前記ノンパラメトリックな手法としてカーネル密度推定を用いる、
    ことを特徴とする受診者状態推定装置。
  3. 請求項1又は請求項2に於いて、
    前記受診者疾患確率演算手段は、ナイーブベイズ分類器に、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率を代入し、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率を代入して前記受診者疾患確率を算出する、
    ことを特徴とする受診者状態推定装置。
  4. 請求項1〜請求項3の何れかに於いて、
    前記学習データ抽出手段に代えて、
    前記健診データベースから抽出した所定の疾患名を持つレコードを疾患学習データとして、及び、疾患名無しを持つレコードを健康学習データとして、それぞれ所定の記憶装置にて保持している、学習データ保持手段、
    を有することを特徴とする受診者状態推定装置。
  5. 請求項4に於いて、
    前記項目ペア抽出手段に代えて、
    前記疾患学習データ及び健康学習データから抽出した、任意の2個の検査項目で構成される検査項目の組み合わせの中で偏相関係数が所定値以上となる各組み合わせを、所定の記憶装置にて検査項目ペアとしてそれぞれ保持している項目ペア保持手段、
    を有することを特徴とする受診者状態推定装置。
  6. 請求項5に於いて、
    前記確率分布演算手段に代えて、
    前記検査項目ペアの各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける同時確率分布に相当するデータ及び前記健康学習データに於ける同時確率分布に相当するデータを所定の記憶装置にて保持しているとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける確率分布に相当するデータ及び前記健康学習データに於ける確率分布に相当するデータを所定の記憶装置にて保持している、確率分布保持手段、
    を有することを特徴とする受診者状態推定装置。
  7. コンピュータを、請求項1〜請求項6の何れかの受診者状態推定装置として機能させるためのプログラム。
JP2010129472A 2010-06-04 2010-06-04 受診者状態推定装置及びプログラム Pending JP2011257816A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010129472A JP2011257816A (ja) 2010-06-04 2010-06-04 受診者状態推定装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010129472A JP2011257816A (ja) 2010-06-04 2010-06-04 受診者状態推定装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2011257816A true JP2011257816A (ja) 2011-12-22

Family

ID=45473969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010129472A Pending JP2011257816A (ja) 2010-06-04 2010-06-04 受診者状態推定装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2011257816A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016157430A (ja) * 2015-02-24 2016-09-01 ゼロックス コーポレイションXerox Corporation 被験者の健康状態を予測する方法およびシステム
JP2020201977A (ja) * 2018-02-09 2020-12-17 アクシオンリサーチ株式会社 検査対象の複雑系の状態を推定するシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016157430A (ja) * 2015-02-24 2016-09-01 ゼロックス コーポレイションXerox Corporation 被験者の健康状態を予測する方法およびシステム
JP2020201977A (ja) * 2018-02-09 2020-12-17 アクシオンリサーチ株式会社 検査対象の複雑系の状態を推定するシステム
JP7197200B2 (ja) 2018-02-09 2022-12-27 アクシオンリサーチ株式会社 人体の健康状態を推定するシステム

Similar Documents

Publication Publication Date Title
Duffy et al. High-throughput precision phenotyping of left ventricular hypertrophy with cardiovascular deep learning
Zou Confidence interval estimation for the Bland–Altman limits of agreement with multiple observations per individual
Wosiak et al. Integrating correlation-based feature selection and clustering for improved cardiovascular disease diagnosis
Kumar et al. Performance analysis of machine learning algorithms on diabetes dataset using big data analytics
Krop et al. A community-based study of explanatory factors for the excess risk for early renal function decline in blacks vs whites with diabetes: the Atherosclerosis Risk in Communities study
Rathmann et al. Performance of screening questionnaires and risk scores for undiagnosed diabetes: the KORA Survey 2000
Lenert et al. Validity and interpretation of preference-based measures of health-related quality of life
Jiménez et al. Simplification of the pulmonary embolism severity index for prognostication in patients with acute symptomatic pulmonary embolism
Fontecha et al. A mobile and ubiquitous approach for supporting frailty assessment in elderly people
EP2804119A2 (en) Analysis System and Health Business Support Method
US20090155754A1 (en) Cognitive function index
Shrivastava et al. A new machine learning method for predicting systolic and diastolic blood pressure using clinical characteristics
JP5164646B2 (ja) 臨床検査データ解析支援装置、臨床検査データ解析支援方法及びそのプログラム
Sander et al. Extent of cerebral white matter lesions is related to changes of circadian blood pressure rhythmicity
JP2019509101A (ja) 小児対象に関する血行力学的不安定性リスクスコアを決定するシステム及び方法
Monsalve et al. Macromorphoscopic trait expression in a cranial sample from Medellín, Colombia
KR20200113954A (ko) 사용자 맞춤형 건강 정보 서비스 제공 시스템 및 그 방법
Desai et al. Application of ensemble classifiers in accurate diagnosis of myocardial ischemia conditions
JP2009205464A (ja) 医療情報処理装置、医療情報処理方法、及び医療情報処理プログラム
JP7466914B2 (ja) 健康度ポジショニングマップおよび健康関数を作成する方法、システム、およびプログラム、ならびにそれらの使用方法
JP2015228202A (ja) 判断システム、判断方法、及び判断プログラム
JP2021163012A (ja) 健康管理支援システム、健康管理支援方法、及びプログラム
JP2011257816A (ja) 受診者状態推定装置及びプログラム
JP2013206085A (ja) 健診データ処理装置、及び、プログラム
Hamburger et al. Utility of the Diamond-Forrester classification in stratifying acute chest pain in an academic chest pain center