JP2011257816A

JP2011257816A - 受診者状態推定装置及びプログラム

Info

Publication number: JP2011257816A
Application number: JP2010129472A
Authority: JP
Inventors: Satoru Hayamizu; 悟速水; Keiko Yamamoto; けい子山本; Yasuomi Kinosada; 保臣紀ノ定; Atsushi Kameyama; 敦之亀山; Hiroki Yamashita; 広記山下; Takayoshi Muto; 隆義武藤
Original assignee: Gifu University NUC; Tak Co Ltd
Current assignee: Gifu University NUC; Tak Co Ltd
Priority date: 2010-06-04
Filing date: 2010-06-04
Publication date: 2011-12-22

Abstract

【課題】受診者の健診結果（受診者データ：年齢、ＢＭＩ、最高・最低血圧、白血球数等）が、或る疾患名に該当する確率を、健診データベースが持つ当該疾患名に該当する健診データ群の特徴を参照して求める装置を提供する。
【解決手段】「疾患名」及び「特に無し」を前提としたとき、受診者データの各検査項目値が当該の「疾患名」と「特に無し」とで観測される確率を検査項目毎に求め、それらの確率に基づいて、当該対象者が当該或る疾患名に該当する確率を求める。ただし、相関の高い検査項目のペアについては、当該ペアの同時確率分布から求めた確率を採用する。演算には、ナイーブベイズ分類器を用いる。これにより演算量が低減され、精度も向上する。
【選択図】図１

Description

本発明は、年齢、ＢＭＩ、最高血圧、最低血圧、白血球数等の複数の項目の値（検査結果等のデータ）から受診者の疾患を推定する機能を備えた受診者状態推定装置と、コンピュータを受診者状態推定装置として機能させるためのプログラムに関する。

近年、医療費抑制のため、特定健診等の政策が実施されており、健保組合の枠を超えた大規模な健診データを解析して、個人の健康を生涯に亘って支援することができる有用な情報を抽出する技術が求められている。
例えば、生活習慣の情報（血液検査などの検査結果、問診による喫煙や飲酒に関する情報等）を利用して、各個人の身体状態の維持・管理（健康増進や罹患の防止、罹患者の管理等）に役立つ情報を提供することが要望されている。
このことは、発症の可能性や発症後の進展の程度が生活習慣の違いによって異なる動脈硬化、心筋梗塞、脳梗塞等の疾患に関しても重要な課題である。

特開２００８−１９１７１６号公報（特許文献１）には、対象者のデータから、遺伝因子リスクや、遺伝因子と環境因子を総合的に考慮した総合リスクを算出し、同世代の平均値とともにグラフィカルに提示したり、各リスクの数値が該当するランクをマークで提示したりする手法が開示されている。また、これらを用い、対象者が将来どのように身体を管理すべきか、医師等が、生活習慣の改善等を指導することができるとされている。
特開２００８−１９１７１６号公報

特許文献１では、各検査項目を独立な説明変数として用いている。しかし、実際の健診データでは検査項目間が全て独立を保っている関係は見られず、機能別に相関が見受けられる。このことは、生化学的な知識からも裏付けられる。
例えば、高血圧症の疾患リスクの推定では、血圧系の相関情報だけでなく、肝機能系や血液系の相関情報も取り入れることで精度の改善がみられる。つまり、機能系を超えた情報が、疾患リスクの推定に影響を与えている可能性を指摘できる。
したがって、これらの相関を考慮に入れず、全ての検査項目を独立な変数として扱う特許文献１の手法では、所要の精度を得ることは困難と思われる。

本発明は、適宜に検査項目間の関連を考慮に入れることにより、従来よりも高い精度で疾患リスクを推定できるようにすることを目的とする。なお、疾患リスクの推定は、対象者（受診者）が、特定の疾患に罹患している確率で表現するものとする。

本発明の構成を、下記［１］〜［７］に記す。
本発明では、データベース上の大規模な健診データを解析して、或る疾患に罹患している場合や疾患に罹患していない場合の各検査値が持つ特徴を、予め求めておく。検査値としては、血液検査の結果や血圧等のように直接的に数値データとして得られる検査値に限らず、例えば、問診結果に数値を割り当てる等したものであってもよい。
このようにして得られた特徴を、リスク推定対象者（受診者）の検査結果と比較対照することにより、当該受診者が当該或る疾患に罹患している確率や、何らかの疾患に罹患していない確率を算出する。

［１］構成１
各レコードが、ラベル項目の疾患名／疾患名無しのデータと、複数の検査項目の検査結果データとから成り、所定の記憶装置に保持されている健診データベースと、
前記健診データベースから、所定の疾患名を持つレコードを抽出して所定の記憶装置にて疾患学習データとして保持するとともに、疾患名無しを持つレコードを抽出して所定の記憶装置にて健康学習データとして保持する、学習データ抽出手段と、
任意の２個の検査項目で構成される検査項目の組み合わせの中から偏相関係数が所定値以上となる組み合わせを前記疾患学習データ及び健康学習データから抽出して所定の記憶装置にて検査項目ペアとして保持する項目ペア抽出手段と、
前記検査項目ペアの各々についてノンパラメトリックな手法により前記疾患学習データに於ける同時確率分布及び前記健康学習データに於ける同時確率分布をそれぞれ求めるとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法により前記疾患学習データに於ける確率分布及び前記健康学習データに於ける確率分布をそれぞれ求める、確率分布演算手段と、
前記所定の疾患名に該当する確率を求めるべき受診者の各検査項目のデータである受診者データを取得する受診者データ取得手段と、
前記各検査項目ペアに属する受診者データのペアが前記疾患学習データに於いて観測されるペア別疾患確率及び前記健康学習データに於いて観測されるペア別健康確率を各学習データに於ける当該検査項目ペアの同時確率分布を参照して検査項目ペア毎にそれぞれ求めるとともに、前記検査項目ペアに含まれない各検査項目に属する受診者データが前記疾患学習データに於いて観測される項目別疾患確率及び前記健康学習データに於いて観測される項目別健康確率を各学習データに於ける当該検査項目の確率分布を参照して検査項目毎にそれぞれ求める、ペア別・項目別疾患／健康確率演算手段と、
前記受診者データのレコードがそのラベル項目に前記所定の疾患名を持つ受診者疾患確率を、前記各検査項目ペア間、前記検査項目ペアに含まれない各検査項目間、及び、前記各検査項目ペアと前記検査項目ペアに含まれない各検査項目との間に相関が無く相互に独立であるものとみなして、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率に基づいて、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率に基づいて、算出する受診者疾患確率演算手段と、
を有することを特徴とする受診者状態推定装置。

健診データベースは、統計処理可能な量のレコードを有する。
健診データベースでは、ラベル項目の疾患名として、種々の疾患名（高血圧，脂質異常症，糖尿病，特になし，等）が混在する。学習データ抽出手段により抽出された疾患学習データでは、指定された所定の疾患名のみが存する。指定は、例えば、キーボード等の入力装置からの操作入力によって行われ得る。
偏相関係数が所定値以上となる検査項目の組み合わせとは、他の検査項目の影響を除いたときに当該２つの検査項目間の相関が無視できない程度となる組み合わせである。所定値としては、例えば０．７を用いることができる。なお、ここでは「所定値以上」という語句を用いているが、これに代えて「所定値より大」としてもよい。本構成１は、このような場合をも含む。要は、他の影響を除いたときの相関が強い検査項目ペアを抽出するための閾値を与え得れば足りる。
また、ここでは、偏相関係数に基づいて抽出しているが、これに代えて、例えば、アソシエーション分析により抽出してもよい。その場合は、「偏相関係数が所定値以上となる組み合わせ」に代えて、「支持度及び信頼度が所定値以上となる相関ルールに基づいた検査項目ペア」を抽出することとなる。
ノンパラメトリックな手法としては、例えば、構成２のカーネル密度推定を挙げることができる。他に、例えば、ヒストグラム密度推定法や最近傍法を挙げることもできる。
受診者データの取得は、例えば、キーボードやマウス等の入力装置からの操作入力に応じて行う構成とすることができる。また、一覧表に入力されている複数の受診者の健診データを順に取り寄せて、順に処理する構成でもよい。

［２］構成２
構成１に於いて、
前記確率分布演算手段は、前記ノンパラメトリックな手法としてカーネル密度推定を用いる、
ことを特徴とする受診者状態推定装置。

［３］構成３
構成１又は構成２に於いて、
前記受診者疾患確率演算手段は、ナイーブベイズ分類器に、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率を代入し、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率を代入して前記受診者疾患確率を算出する、
ことを特徴とする受診者状態推定装置。
ナイーブベイズ分類器は、下記［数１］で与えられる。

ここで、
Ｐ（Ｃ₁）：健診データベースに於いて所定の疾患名を持つレコードの確率
Ｐ（Ｃ₂）：健診データベースに於いて疾患名無しを持つレコードの確率
とする。なお、Ｃ₁ （クラス）は、疾患名を代えて用いることができる。例えば、Ｃ₁ として、「高血圧」「糖尿病」「脂質異常症」等を用いることができる。

［４］構成４
構成１〜構成３の何れかに於いて、
前記学習データ抽出手段に代えて、
前記健診データベースから抽出した所定の疾患名を持つレコードを疾患学習データとして、及び、疾患名無しを持つレコードを健康学習データとして、それぞれ所定の記憶装置にて保持している、学習データ保持手段、
を有することを特徴とする受診者状態推定装置。
つまり、学習データ抽出手段による抽出結果のデータを、予め、所定の記憶装置にて保持しているように構成された装置である。
［５］構成５
構成４に於いて、
前記項目ペア抽出手段に代えて、
前記疾患学習データ及び健康学習データから抽出した、任意の２個の検査項目で構成される検査項目の組み合わせの中で偏相関係数が所定値以上となる各組み合わせを、所定の記憶装置にて検査項目ペアとしてそれぞれ保持している項目ペア保持手段、
を有することを特徴とする受診者状態推定装置。
つまり、項目ペア抽出手段による抽出結果のデータを、予め、所定の記憶装置にて保持しているように構成された装置である。
［６］構成６
構成５に於いて、
前記確率分布演算手段に代えて、
前記検査項目ペアの各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける同時確率分布に相当するデータ及び前記健康学習データに於ける同時確率分布に相当するデータを所定の記憶装置にて保持しているとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける確率分布に相当するデータ及び前記健康学習データに於ける確率分布に相当するデータを所定の記憶装置にて保持している、確率分布保持手段、
を有することを特徴とする受診者状態推定装置。
つまり、確率分布演算手段による演算結果に相当するデータを、予め、所定の記憶装置にて保持しているように構成された装置である。
同時確率分布や確率分布に「相当する」データとは、受診者データ（各検査値）が連続値の中の一点の値であり、とり得る値が無限に存するため、それらの全てに対応できるように同時確率分布や確率分布の全データを保持しておくことが現実的ではないことに鑑みたものである。「相当する」データを保持しておく具体的な手法としては、例えば、各検査値を、それらがとり得る値の範囲内でそれぞれ所定数に分割し、各分割域に対応する確率（同時確率分布から求めた確率、確率分布から求めた確率）を保存しておく手法を挙げることができる。

［７］構成７
コンピュータを、構成１〜構成６の何れかの受診者状態推定装置として機能させるためのプログラム。
なお、構成１〜構成７に於いて、記憶装置等の各種の構成要素は、単一のコンピュータとして構成されていてもよいが、ＬＡＮ等を介して接続された構成でもよい。要は、構成１〜構成６の機能を実現できるようにハードウェアが構成されていればよい。

構成１は、各レコードが、ラベル項目の疾患名／疾患名無しのデータと、複数の検査項目の検査結果データとから成り、所定の記憶装置に保持されている健診データベースと、前記健診データベースから、所定の疾患名を持つレコードを抽出して所定の記憶装置にて疾患学習データとして保持するとともに、疾患名無しを持つレコードを抽出して所定の記憶装置にて健康学習データとして保持する、学習データ抽出手段と、任意の２個の検査項目で構成される検査項目の組み合わせの中から偏相関係数が所定値以上となる組み合わせを前記疾患学習データ及び健康学習データから抽出して所定の記憶装置にて検査項目ペアとして保持する項目ペア抽出手段と、前記検査項目ペアの各々についてノンパラメトリックな手法により前記疾患学習データに於ける同時確率分布及び前記健康学習データに於ける同時確率分布をそれぞれ求めるとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法により前記疾患学習データに於ける確率分布及び前記健康学習データに於ける確率分布をそれぞれ求める、確率分布演算手段と、前記所定の疾患名に該当する確率を求めるべき受診者の各検査項目のデータである受診者データを取得する受診者データ取得手段と、前記各検査項目ペアに属する受診者データのペアが前記疾患学習データに於いて観測されるペア別疾患確率及び前記健康学習データに於いて観測されるペア別健康確率を各学習データに於ける当該検査項目ペアの同時確率分布を参照して検査項目ペア毎にそれぞれ求めるとともに、前記検査項目ペアに含まれない各検査項目に属する受診者データが前記疾患学習データに於いて観測される項目別疾患確率及び前記健康学習データに於いて観測される項目別健康確率を各学習データに於ける当該検査項目の確率分布を参照して検査項目毎にそれぞれ求める、ペア別・項目別疾患／健康確率演算手段と、前記受診者データのレコードがそのラベル項目に前記所定の疾患名を持つ受診者疾患確率を、前記各検査項目ペア間、前記検査項目ペアに含まれない各検査項目間、及び、前記各検査項目ペアと前記検査項目ペアに含まれない各検査項目との間に相関が無く相互に独立であるものとみなして、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率に基づいて、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率に基づいて、算出する受診者疾患確率演算手段とを有することを特徴とする受診者状態推定装置であるため、人体の状態を示す種々の検査結果等の総体を用いて疾患の特徴（疾患学習データに於ける検査項目ペア毎の同時確率分布及び検査項目毎の確率分布）を総合的に把握することができる。また、その特徴を用いているため、良好な精度で対象者（受診者）の疾患リスク（当該の疾患に罹患している確率；受診者疾患確率）を推定することができる。さらに、特に相関が特に強い検査項目に関しては同時確率分布を求め、それを参照してペア別疾患確率（又はペア別健康確率）を求めているため、よりいっそう良好な精度を得ることができる。
構成２は、構成１に於いて、前記確率分布演算手段は、前記ノンパラメトリックな手法としてカーネル密度推定を用いることを特徴とする受診者状態推定装置であるため、構成１の作用効果を奏する他、手法の具体例を与えることができる効果がある。
構成３は、構成１又は構成２に於いて、前記受診者疾患確率演算手段は、ナイーブベイズ分類器に、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率を代入し、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率を代入して前記受診者疾患確率を算出することを特徴とする受診者状態推定装置であるため、コンピュータの演算量を低減しつつ、構成１や２の所要の作用効果を得ることができる効果がある。

構成４は、構成１〜構成３の何れかに於いて、前記学習データ抽出手段に代えて、前記健診データベースから抽出した所定の疾患名を持つレコードを疾患学習データとして、及び、疾患名無しを持つレコードを健康学習データとして、それぞれ所定の記憶装置にて保持している、学習データ保持手段を有することを特徴とする受診者状態推定装置であるため、構成１〜構成３の作用効果を、学習データ抽出手段による抽出結果を予め所定の記憶装置に保持させた構成に於いて達成することができる。
構成５は、構成４に於いて、前記項目ペア抽出手段に代えて、前記疾患学習データ及び健康学習データから抽出した、任意の２個の検査項目で構成される検査項目の組み合わせの中で偏相関係数が所定値以上となる各組み合わせを、所定の記憶装置にて検査項目ペアとしてそれぞれ保持している項目ペア保持手段を有することを特徴とする受診者状態推定装置であるため、構成１〜構成４の作用効果を、項目ペア抽出手段による抽出結果を予め所定の記憶装置に保持させた構成に於いて達成することができる。
構成６は、構成５に於いて、前記確率分布演算手段に代えて、前記検査項目ペアの各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける同時確率分布に相当するデータ及び前記健康学習データに於ける同時確率分布に相当するデータを所定の記憶装置にて保持しているとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける確率分布及に相当するデータ及び前記健康学習データに於ける確率分布に相当するデータを所定の記憶装置にて保持している、確率分布保持手段を有することを特徴とする受診者状態推定装置であるため、構成１〜構成４の作用効果を、確率分布演算手段による演算結果に相当するデータを予め所定の記憶装置に保持させた構成に於いて達成することができる。
構成７は、コンピュータを、構成１〜構成６の何れかの受診者状態推定装置として機能させるためのプログラムであるため、コンピュータを構成１〜構成６の受診者状態推定装置として機能させるためのプログラムを提供できる効果がある。

実施の形態の受診者状態推定装置の処理手順を示すフローチャート。実施の形態の受信者状態推定装置の構成を示すブロック図（ａ）と、ナイーブベイズ分類器の構成を示す説明図（ｂ）。健診データベースのデータ構成例の説明図（ａ）、疾患学習データの一例を示す説明図（ｂ）、及び、健康学習データの一例を示す説明図（ｃ）。算出した偏相関係数の一例を示す説明図（ａ）と、カーネル密度推定の原理を示す説明図（ｂ）。

図面を参照して、本発明の実施の形態を説明する。
実施の形態の受診者状態推定装置は、図２（ａ）に示すコンピュータシステムに於いて実現される。即ち、制御装置１０がＲＯＭ１３や必要に応じて記憶装置１１から所定のプログラムを読み出して、図１に示す手順を実行することにより、実現される。

ハードディスク或いはＳＳＤ等で構成される記憶装置１１には、統計処理可能な量の健診データを有する健診データベースが格納されている。また、本願の受診者状態推定機能を実現するためのアプリケーション等の各種のアプリケーションを、必要に応じて格納させてもよい。
健診データベースの構成例を、図３（ａ）に示す。
本実施の形態では、健診毎に付与される一意の健診ＩＤに対応付けて、１６個の検査項目（年齢，ＢＭＩ，最高血圧（ＳＢＰ），最低血圧（ＤＢＰ），白血球数，赤血球数，血色素量（Ｆｂ），ヘマトクリット（Ｈｔ），血小板，ＧＯＴ，ＧＰＴ，γＧＴＰ，総コレステロール，中性脂肪，ＨＤＬコレステロール（図ではＨＤＬと略記），血糖）と、ラベル項目（「疾患名」又は「特に無し」が記録される）を有する。これらの検査項目は一例であり、他の検査項目を追加する等、適宜に増減してよい。また、検査項目としても生化学的な検査値に限らず、例えば、問診結果を用いてもよい。その場合、選択肢に番号を付して、その値を記録するようにしてもよい。ラベル項目に記録される疾患名は、医師が付与した病名でもよいが、簡易的には、健診者の自己申告（現病歴等）としてもよい。
また、健診ＩＤに代えて、例えば、健診者（受診者）ＩＤと健診日時（受診日時）とにより、各レコードを一意に特定するように構成してもよい。

制御装置１０は、ＣＰＵ等を有する公知の構成を有する。また、図２（ｂ）に詳細を示すナイーブベイズ分類器（前記［数１］参照）を有し、さらに、同時確率分布や確率分布を演算する機能や、下記［数２］で与えられる偏相関係数を算出する機能を有する。ナイーブベイズ分類器の機能や、同時確率分布・確率分布演算機能、さらには、偏相関係数算出機能は、ソフトウェアで実現してもよく、ハードウェアで実現してもよい。

図２（ａ）の例では記憶装置（ハードディスク）１１は制御装置１０に接続されているが、例えば、ＬＡＮ等を介して接続されていてもよい。また、入力装置としても、図示のキーボード・マウスに限定されず、例えば、ＩＣカードに記録された健診結果を読み取って健診データベースに蓄積する構成や、ＬＡＮ（更にはインターネット）を介して入力される健診結果を健診データベースに蓄積する構成でもよい。受診者データの入力に関しても同様である。また、出力装置もディスプレイに限定されず、プリンタやスピーカでもよい。要は、図１の手順を実行できる構成であれば、ハードウェアの構成は任意である。

図１に即して、実施の形態の装置の手順を説明する。
まず、健診データベースから、指定された疾患名を持つレコードの集合である疾患学習データと、健康学習データを抽出する（Ｓ１）。図３（ｂ）は疾患名として「高血圧」が指定された場合に抽出される疾患学習データの一例を示し、図３（ｃ）は健康学習データの一例を示す。ここで、疾患名の指定は、受診者データの入力（後述のステップＳ４の処理参照）時に併せて指定するようにしてもよいが、所定の順序で各疾患を順に指定するように構成してもよい。後者の場合は、ステップＳ１〜Ｓ６の処理が、疾患名を代えて繰り返して実行されることとなる。抽出された疾患学習データと健康学習データは、ＲＡＭ１２に保持されて、後述の処理（Ｓ２，Ｓ３）に供される。
なお、予め健康学習データを抽出するとともに疾患名毎に疾患学習データを抽出しておき、それらをハードディスク等に保持し、ステップＳ１の処理を実行することなく、直ちにステップＳ２以降の処理を実行するように構成してもよい。その場合、健診データベースの更新の都度、疾患学習データや健康学習データを更新しておくものとする。

次に、偏相関係数が所定値（例：０．７）以上の検査項目ペアを抽出する（Ｓ２）。即ち、疾患学習データと健康学習データを用い、任意の検査項目の組み合わせについて、他の検査項目の影響を除いた場合の相関の強さを順に求め、その強さが所定値以上の組み合わせを、検査項目ペアとして抽出する。抽出された検査項目ペアはＲＡＭ１２に保持されて、後述の処理（Ｓ３）に供される。
疾患名として「高血圧」が指定されている場合、実施の形態では、図４（ａ）に例示するように、最高血圧（ＳＢＰ）と最低血圧（ＤＢＰ）のペア、血色素量（Ｈｂ）とヘマトクリット（Ｈｔ）のペア、及び、ＧＯＴとＧＰＴのペアが抽出された。なお、図４（ａ）に於いて、対角線より右上が男性健診者のデータ、左下が女性健診者のデータである。
なお、予め抽出した疾患学習データと健康学習データに基づいて予め偏相関係数が所定値以上のペアを求めておき、それらをハードディスク等に保持し、ステップＳ２の処理を実行することなく、直ちにステップＳ３以降の処理を実行するように構成してもよい。
また、本実施の形態では偏相関係数を用いているが、他の検査項目の影響を除いた場合に於いて相関の強さが所定の強さを持つ検査項目のペアを抽出する別の手法としては、例えば、アソシエーション分析を採用することもできる。その場合には、「偏相関係数が所定値以上となる組み合わせ」に代えて、「支持度及び信頼度が所定値以上となる相関ルールに基づいた検査項目ペア」を抽出することとなる。

次に、ノンパラメトリックな手法（例：カーネル密度推定法，ヒストグラム密度推定法，最近傍法）により、検査項目ペアの各々について疾患学習データに於ける同時確率分布と健康学習データに於ける同時確率分布をそれぞれ求め、検査項目ペアに含まれない検査項目の各々について疾患学習データに於ける確率分布と健康学習データに於ける確率分布をそれぞれ求める（Ｓ３）。求められた同時確率分布に相当するデータ及び確率分布に相当するデータはＲＡＭ１２に保持され、後述の処理（Ｓ５）に供される。なお、予め抽出した疾患学習データと健康学習データに基づいて予め同時確率分布に相当するデータや確率分布に相当するデータを求めておき、それらをハードディスク１１等に保持し、ステップＳ３の処理を実行することなく、直ちにステップＳ４以降の処理を実行するように構成してもよい。同時確率分布や確率分布に相当するデータとは、受診者データを構成する各検査値が連続値の中の一点の値であり、とり得る値が無限に存するため、それらの全てに対応できるように同時確率分布や確率分布の全データを保持しておくことが現実的ではないことに鑑みたものである。保持しておく具体的な手法としては、例えば、各検査値を、それらがとり得る値の範囲内でそれぞれ所定数に分割し、各分割域に対応する確率（同時確率分布から求めた当該分割域を代表する確率、確率分布から求めた当該分割域を代表する確率）を保存しておく手法を挙げることができる。
また、ノンパラメトリックな手法の一例であるカーネル密度推定とは、図４（ｂ）に示すように、疾患学習データや健康学習データの各データに関し、その位置を中心とする所定の確率分布（例：正規分布）を設定し、それらを加算して得られる分布曲線である。本実施の形態では、カーネル密度推定を採用しているため、本来、連続値である検査値の分布を、滑らかな分布として近似できることとなり、その結果、より現実的な検査値の確率を得ることができる。
なお、同時確率分布（検査項目ペア）の場合、データ値は２次元であるため、確率分布は２次元平面の上方の曲面（３次元曲面）となる。例えば、ＳＢＰ軸とＤＢＰ軸の平面の上方に、確率分布曲面が描かれることとなる。

次に、疾患リスクを推定する対象者（受診者；受診者疾患確率の演算対象者）の検査項目値（ラベル項目を除く各検査項目のデータ：受診者データ）を取得する（Ｓ４）。キーボードやマウス等から入力されてＲＡＭ１２に保持されているデータを取得する構成でもよいが、ハードディスク１１に記憶されている所定の受診者リストから順に取得するように構成してもよい。また、入力装置としても、キーボードやマウスに限定されず、ＩＣカードからの入力や、ＬＡＮ更にはインターネットを介する入力であってもよい。その場合の入力端末としても、携帯電話機等であってもよい。

次に、同時確率分布や確率分布を参照して、受診者の検査項目ペア別／検査項目別の疾患確率及び健康確率を求める（Ｓ５）。
ここで、受診者の或る検査項目ペアの疾患確率とは、当該受診者の当該或る検査項目ペアのペアデータが、当該疾患学習データで観測される確率であり、当該ペアデータで決まる２次元座標点から立てた垂線が当該或る検査項目ペアの確率分布曲面と交叉する座標点に相当するデータ値として求めることができる。健康確率についても同様である。
また、受診者の検査項目ペアに含まれない或る検査項目の疾患確率とは、当該受診者の当該或る検査項目のデータが、当該疾患学習データで観測される確率であり、当該データで決まる座標点から立てた垂線が当該或る検査項目の確率分布曲線と交叉する座標点に相当するデータ値として求めることができる。健康確率についても同様である。

こうして、
検査項目ペア毎のペア別疾患確率Ｐ（ｘ_(p)j｜Ｃ₁）
検査項目ペア毎のペア別健康確率Ｐ（ｘ_(p)j｜Ｃ₂）
検査項目ペアに含まれない検査項目毎の項目別疾患確率Ｐ（ｘ_i｜Ｃ₁）
検査項目ペアに含まれない検査項目毎の項目別健康確率Ｐ（ｘ_i｜Ｃ₂）
が求まると、次に、健診データベースのデータに基づいて
当該疾患の生起確率Ｐ（Ｃ₁）
疾患無しの生起確率Ｐ（Ｃ2）
を求め、それらを前記［数１］のナイーブベイズ分類器に代入して、当該受診者の受診データが当該疾患学習データで観測される確率（受診者疾患確率）を求める。即ち、当該受診者が当該疾患である確率を求める。これにより、当該受診者が当該の疾患であるリスクを推定できることとなる。
なお、本例では、検査項目の総数ｎが１６、検査項目ペア数ｍが３であるから、
［数２］では、
ｊ＝１〜３
ｉ＝１〜１０
となる。

また、求めた結果は、出力先の設定に応じてディスプレイやプリンタ或いはスピーカへ出力され、又は、ＬＡＮやインターネットを介して問い合わせ元の端末（パソコン，携帯電話機等）へ送信される。
現実の受診データを多数抽出し、本受診者状態推定装置での処理に供して正解数−不正解数を評価したところ、良好な結果を得られた。

上記は、健診データの検査項目を対象にした疾患名の推定に関するものであるが、多変量データとそれらに起因する現象のリスク推定であれば、本発明で用いた生理学的な関係を、目的とするドメインの関係に置き換えて、同様の方法を利用可能である。

１０制御装置（ＣＰＵ，ナイーブベイズ分類器，を備える）
１１記憶装置（ハードディスク等）
１２記憶装置（ＲＡＭ）
１３記憶装置（ＲＯＭ）
１６入力装置（キーボード，マウス等）
１７出力装置（ディスプレイ等）
１８ＬＡＮ

Claims

各レコードが、ラベル項目の疾患名／疾患名無しのデータと、複数の検査項目の検査結果データとから成り、所定の記憶装置に保持されている健診データベースと、
前記健診データベースから、所定の疾患名を持つレコードを抽出して所定の記憶装置にて疾患学習データとして保持するとともに、疾患名無しを持つレコードを抽出して所定の記憶装置にて健康学習データとして保持する、学習データ抽出手段と、
任意の２個の検査項目で構成される検査項目の組み合わせの中から偏相関係数が所定値以上となる組み合わせを前記疾患学習データ及び健康学習データから抽出して所定の記憶装置にて検査項目ペアとして保持する項目ペア抽出手段と、
前記検査項目ペアの各々についてノンパラメトリックな手法により前記疾患学習データに於ける同時確率分布及び前記健康学習データに於ける同時確率分布をそれぞれ求めるとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法により前記疾患学習データに於ける確率分布及び前記健康学習データに於ける確率分布をそれぞれ求める、確率分布演算手段と、
前記所定の疾患名に該当する確率を求めるべき受診者の各検査項目のデータである受診者データを取得する受診者データ取得手段と、
前記各検査項目ペアに属する受診者データのペアが前記疾患学習データに於いて観測されるペア別疾患確率及び前記健康学習データに於いて観測されるペア別健康確率を各学習データに於ける当該検査項目ペアの同時確率分布を参照して検査項目ペア毎にそれぞれ求めるとともに、前記検査項目ペアに含まれない各検査項目に属する受診者データが前記疾患学習データに於いて観測される項目別疾患確率及び前記健康学習データに於いて観測される項目別健康確率を各学習データに於ける当該検査項目の確率分布を参照して検査項目毎にそれぞれ求める、ペア別・項目別疾患／健康確率演算手段と、
前記受診者データのレコードがそのラベル項目に前記所定の疾患名を持つ受診者疾患確率を、前記各検査項目ペア間、前記検査項目ペアに含まれない各検査項目間、及び、前記各検査項目ペアと前記検査項目ペアに含まれない各検査項目との間に相関が無く相互に独立であるものとみなして、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率に基づいて、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率に基づいて、算出する受診者疾患確率演算手段と、
を有することを特徴とする受診者状態推定装置。
請求項１に於いて、
前記確率分布演算手段は、前記ノンパラメトリックな手法としてカーネル密度推定を用いる、
ことを特徴とする受診者状態推定装置。
請求項１又は請求項２に於いて、
前記受診者疾患確率演算手段は、ナイーブベイズ分類器に、前記各ペア別疾患確率、各ペア別健康確率、各項目別疾患確率、及び、各項目別健康確率を代入し、及び、前記健診データベースに於ける前記所定の疾患名の出現確率及び疾患名無しの出現確率を代入して前記受診者疾患確率を算出する、
ことを特徴とする受診者状態推定装置。
請求項１〜請求項３の何れかに於いて、
前記学習データ抽出手段に代えて、
前記健診データベースから抽出した所定の疾患名を持つレコードを疾患学習データとして、及び、疾患名無しを持つレコードを健康学習データとして、それぞれ所定の記憶装置にて保持している、学習データ保持手段、
を有することを特徴とする受診者状態推定装置。
請求項４に於いて、
前記項目ペア抽出手段に代えて、
前記疾患学習データ及び健康学習データから抽出した、任意の２個の検査項目で構成される検査項目の組み合わせの中で偏相関係数が所定値以上となる各組み合わせを、所定の記憶装置にて検査項目ペアとしてそれぞれ保持している項目ペア保持手段、
を有することを特徴とする受診者状態推定装置。
請求項５に於いて、
前記確率分布演算手段に代えて、
前記検査項目ペアの各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける同時確率分布に相当するデータ及び前記健康学習データに於ける同時確率分布に相当するデータを所定の記憶装置にて保持しているとともに、前記検査項目ペアに含まれない検査項目の各々についてノンパラメトリックな手法によりそれぞれ求めた前記疾患学習データに於ける確率分布に相当するデータ及び前記健康学習データに於ける確率分布に相当するデータを所定の記憶装置にて保持している、確率分布保持手段、
を有することを特徴とする受診者状態推定装置。
コンピュータを、請求項１〜請求項６の何れかの受診者状態推定装置として機能させるためのプログラム。