JP2013008159A

JP2013008159A - 医療データ解析方法、医療データ解析装置およびプログラム

Info

Publication number: JP2013008159A
Application number: JP2011139811A
Authority: JP
Inventors: Toshio Kobayashi; 登史夫小林; Yasutaka Kobayashi; 康孝小林
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-06-23
Filing date: 2011-06-23
Publication date: 2013-01-10
Anticipated expiration: 2031-06-23
Also published as: JP5645761B2

Abstract

【課題】臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供する。
【解決手段】一般的に行われる健康診断や検査において得られる臨床的データと、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等や血液等の被検査物を基に基礎医学系の研究所等における検査および／または分析により生成される基礎医学的データと、を基に、データマイニングの手法によるデータ解析を行い、臨床的データと基礎医学的データとを有機的に対応付け、これらの関連性を容易に把握・分別可能な分別モデルを構築する。
【選択図】図３

Description

本発明は、コンピュータにより、医療データの解析を行う解析方法、医療データ解析装置およびプログラムに関する。

定期的な健康診断が一般的に行われている。
健康診断では、例えば、性別、年齢、身長、体重、肥満度（ＢＭＩ：Body Mass Index）等の身体的データ、喫煙・飲酒の習慣、食事の嗜好や内容、睡眠状況、運動の質と量等の生活習慣データ、血圧、服薬状況、既往病歴、自覚症状、医療関係者による疾病状況の診断等の生理学的データ、血液検査や尿検査等により得られる検査結果データ等、様々なデータが得られる。
これらのデータは、診断する医師に提供され、健康診断受診者の健康状態の評価や、健康の維持や疾患の予防・早期発見等に役立てられる。

市中で行われる健康診断とは別に、人体から得られた被検査物について、成分分析や微生物の分析等、詳細な検査・分析を行うことにより、より多くの医学関連情報を得ようとする試みが、基礎医学系の研究を行う研究所や大学等で行われている。
このような基礎医学系の研究所等では、例えば、血液のメタボローム解析（全成分解析）や、口腔粘液、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等に含まれる共生微生物の存在状態の解析を基に、患者の特性の詳細を特定することが行われている。

このような基礎医学系の検査・分析によって得られる基礎医学的データは、血液内の微少成分や共生微生物等が人体に与える影響を推測し、疾病状況の診断や疾病の予防・予測等を行う試みに使用されている。

ところで、一般的に行われる健康診断において得られる様々なデータ（患者から直接得られるデータであるので、以下臨床的データと称する）と、基礎医学的データとは、全く異なるデータであり、上述した基礎医学的データは、現状では基礎医学系の研究を行っている研究所や大学の研究室等でしか扱っていない。このため、臨床的データを扱う医師が基礎医学的データに触れる機会は極めて少ない。
従って、臨床的データと基礎医学的データとの関連性を抽出することや、臨床的データと基礎医学的データの両方を使用して医学的に有益な知見を得ようとする試みは、今までほとんど行われていなかった。

本発明はかかる事情に鑑みてなされたものであり、臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供することを目的とするものである。

第１の発明の医療データ解析方法は、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置の医療データ解析方法であって、医療データ解析装置が、同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第１のステップと、医療データ解析装置が、予め選択された前記臨床的データの一項目に対して、前記第１のステップにおいて対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第２のステップと、を有する。

第２の発明の医療データ解析装置は、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置であって、前記臨床的データおよび前記基礎医学的データを記憶する記憶部と、入力操作を受け付ける入力部と、制御部と、を有し、前記制御部は、同一患者に関する前記臨床的データと前記基礎医学的データを対応付け、前記入力部を介した入力操作により予め選択された前記臨床的データの一項目に対して、前記対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う。

第３の発明のプログラムは、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置が有するコンピュータの実行するプログラムであって、同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第１の手順と、予め選択された前記臨床的データの一項目に対して、前記第１の手順において対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第２の手順と、を前記コンピュータに実行させる。

本発明によれば、臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供することができる。

図１は、医療データ解析方法の事業モデルの一例を示す図である。図２は、医療データ解析装置１００の構成例を示す図である。図３は、データマイニングの手法を使用した医療データ解析方法の一例を示すフローチャートである。図４は、医療データ解析方法の対象となるデータの例を示した図である。図５は、Ｃ＆ＲＴ法でＨｂＡ_１ｃを特性として解析を行った結果得られた決定木の一例を示す図である。図６は、ＨｂＡ_１ｃについて、患者のカテゴリ分けを行う際のしきい値の一例を示す表である。図７は、Ｃ＆ＲＴ法で収縮期血圧を特性として解析を行った結果得られた決定木の一例を示す図である。図８は、収縮期血圧について、患者のカテゴリ分けを行う際のしきい値の一例を示す表である。図９は、Ｃ＆ＲＴ法でＬＤＬ−ＣおよびＨＤＬ−Ｃを特性として解析を行った結果得られた決定木の一例を示す図である。図１０は、ＬＤＬ−ＣおよびＨＤＬ−Ｃについて、患者のカテゴリ分けを行う際のしきい値の一例を示す表である。

以下、本発明の実施形態について説明する。
まず、本実施形態において扱うデータの種類について説明する。

（１）臨床的データ
本実施形態では、例えば健康診断や、市中の病院等の一般的な医療施設における検査等において、患者から得られる様々なデータを、総称して臨床的データと称する。
ここで一般的な医療施設とは、後述する基礎医学系の研究を行う研究所や大学等を含まない医療施設を意味している。
臨床的データは、例えば、医師の問診や患者に対するアンケート、身体的データの測定、採血や採尿後の血液検査及び尿検査等により得られるデータである。
臨床的データには、例えば、性別、年齢、身長、体重、肥満度等の身体的データ、喫煙・飲酒の習慣、食事の嗜好や内容、睡眠状況、運動の質と量等の生活習慣データ、血圧、服薬状況、既往病歴、自覚症状、医療関係者による疾病状況の検査や診断等の生理学的データ、血液検査や尿検査等により得られる検査・分析結果データ等が含まれる。

（２）基礎医学的データ
本実施形態では、例えば基礎医学系の研究を行う研究所や大学等において、患者から採取した血液に対するメタボローム解析（全成分の検査・分析）を実施して得られたデータや、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液等から得た共生微生物の存在状態に関するデータを基礎医学的データと称する。

本実施形態では、これら臨床的データと基礎医学的データとの両方を使用して、診断技術や医学的及び科学的に有益な知見を得るための医療データ解析方法について説明する。

・事業モデル
図１は、本実施形態の医療データ解析方法の事業モデルの一例を示す図である。
図１には、事業モデルの一例を示す。
図１に示すように、事業者１、患者２、病院３を含む。

事業者１は、患者２および病院３から臨床的データおよび被検査物を収集し、収集した被検査物を基に例えば図示しない基礎医学系の研究を行う研究所や大学等が生成した基礎医学的データを取得する。そして、収集した臨床的データと取得した基礎医学的データとを使用して、データマイニングの手法により、所定の目的に応じた解析を行い、解析結果を得る。
あるいは、事業者１自体が患者から収集した被検査物を基に、基礎医学的データを生成してもよい。
なお、データマイニングとは、蓄積されたデータを解析し、目的とする特性に関して、その中に潜む項目間の相関関係や特徴などを探し出して特性の動向を予測する手法である。
事業者１の行うデータマイニングの手法による解析の具体的方法については後に詳述する。
事業者１は、解析結果を基に、患者２の個体別に生活改善方法や生体内共生微生物の制御方法等を含む、健康のための具体的なアドバイス情報を作成することができる。そして、解析結果とともに、アドバイス情報を患者２および病院３に提供することができる。

患者２は、例えば事業者１により市民の中から抽出された複数人であり、事業者１の行う解析の対象となる。患者２の人数については本発明では特に限定しない。事業者１が行う解析の目的に合わせて適正な人数とすればよい。また、患者２を抽出する条件は、事業者１が行う解析の目的に応じて設定されればよい。
病院３は、例えば事業者１の要請に従い、患者２を診察し臨床的データを得る。病院３は１つである必要はなく、患者毎に異なる病院３を利用するようにしてもよい。

なお、図１に示した例では、事業者１の行う解析の対象となっているのは人間の患者２であるが、本実施形態における解析の対象は人間に限られず、例えば家畜等でもよい。この場合、病院３は動物病院や畜産業者ということになる。

・医療データ解析装置
事業者１は、医療データ解析装置１００を有し、上述した臨床的データおよび基礎医学的データを使用した解析処理を行う。
以下、医療データ解析装置１００の構成例について説明する。
図２は、医療データ解析装置１００の構成例を示す図である。
図２に示すように、医療データ解析装置１００は、記憶部１０１、表示部１０２、制御部１０３、入力部１０４の各要素を有するコンピュータである。

記憶部１０１は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、フラッシュメモリ等の記憶装置である。記憶部１０１には、各種データ（上述した臨床的データや基礎医学的データを含む）や、所定のプログラム、プログラムの実行に必要なデータ等が記憶される。
表示部１０２は、例えば液晶ディスプレイやＣＲＴ（Cathode Ray Tube）等の表示装置である。
制御部１０３は、例えばＣＰＵ（Central Processing Unit）等の主演算装置であり、記憶部１０１に記憶された所定のプログラムを実行して所定の処理を行う。
入力部１０４は、例えばキーボードやマウス、スキャナ等のデータ入力装置である。また、入力部１０４は、データ入力端子であって、オンラインでのデータ入力を受け付ける。

以下説明する解析方法は、このような記憶部１０１、表示部１０２、制御部１０３、入力部１０４を有するコンピュータである医療データ解析装置１００によって実行される。具体的には、このような解析方法を実行するプログラムが記憶部１０１に記憶されており、入力部１０４を介した操作に応じて制御部１０３がプログラムを実行させることにより、解析が行われる。
医療データ解析装置１００は上述した構成以外にも、例えば印刷等の出力を行う出力部を有していてもよい。

・解析方法
次に、事業者１の医療データ解析装置１００により行われる、臨床的データと基礎医学的データとの両方を使用したデータマイニングの手法による解析の具体的方法について説明する。
図３は、医療データ解析装置１００において行われる、データマイニングの手法を使用した解析方法の一例を示すフローチャートである。

ステップＳＴ１：
複数の患者２および病院３から取得した臨床的データのデータ入力を行う。
臨床的データは、予め複数の患者２および病院３から取得されたものを使用する。なお、臨床的データを患者２から採取する方法については、本発明では限定しない。臨床的データは、患者２が病院３まで出向いて生成されるのが一般的である。

ステップＳＴ２：
予め患者２から取得した被検査物を基に生成した基礎医学的データを入力する。
ここで、被検査物とは、患者２から採取された血液、糞便、尿、唾液、鼻孔粘液、皮膚、膣液等である。本実施形態では、特に、糞便を被検査物として、糞便内に存在する共生微生物である腸内常在菌を対象とした解析を行う場合について説明する。
なお、被検査物を患者２から採取する方法については、本発明では限定しない。被検査物は、患者２自身が採取してもよいし、病院３において採取されてもよい。
基礎医学的データの生成方法については後述する。
ステップＳＴ３：
ステップＳＴ１において入力した臨床的データおよび、ステップＳＴ２において入力した基礎医学的データを基に、データマイニングの手法による解析を好適に行うために、データ整理を行う。
まず、取得した臨床的データおよび基礎医学的データを、行（縦）方向に患者２（被験生体）を、列（横）方向にデータの各項目を配置し、２次元のデータ（表）を生成する。

図４（ａ）に、２次元のデータとしての臨床的データの例を示す。
また、図４（ｂ）に、２次元のデータとしての基礎医学的データの例を示す。
図４（ａ）では、列方向に患者名が示され、行方向にＨｂＡ_１ｃ、収縮期血圧、ＬＤＬ−Ｃ、ＨＤＬ−Ｃ・・・等、患者２毎の臨床的データの項目が示されている。
図４（ｂ）では、列方向に患者名が、行方向にＢ３３２、Ｂ４９４、Ｂ６４１、Ｂ６５７・・・等、患者毎の基礎医学的データの項目名（ここでは、腸内常在菌の種類と量的な構成を示す名称）が示されている。Ｂ３３２、Ｂ４９４等の項目名の詳細については、後述する。

臨床的データと基礎医学的データとをデータマイニングの手法によりデータ解析するために、これらのデータセットを単一の表で表すことが必要である。このため、本ステップにおいて、図４（ａ）に例示した臨床的データと図４（ｂ）に例示した基礎医学的データとを基にして、単一の表を作成する処理を行う。
具体的には、図４（ａ）に例示した臨床的データと図４（ｂ）に例示した基礎医学的データとを基に、同一患者に関する臨床的データと基礎医学的データを対応付ける。
図４（ｃ）に、図４（ａ）に示す臨床的データと図４（ｂ）に示す基礎医学的データを基に作成した単一の表の例を示す。
図４（ｃ）に示す表は、図４（ａ）に示す臨床的データと図４（ｂ）に示す基礎医学的データの両方のデータを、患者名毎に示した単一の表である。列方向には患者名が示され、行方向にはＨｂＡ_１ｃ、収縮期血圧、ＬＤＬ−Ｃ、ＨＤＬ−Ｃ・・・等の臨床的データの項目名の後、Ｂ３３２、Ｂ４９４、Ｂ６４１、Ｂ６５７・・・等の基礎医学的データの項目名が示される。
同一患者に関する臨床的データと基礎医学的データが対応付けられるため、図４（ａ）の表には存在し図４（ｂ）の表示は存在しない患者Ｃおよび、図４（ｂ）の表には存在し図４（ａ）の表示は存在しない患者Ｅは図４（ｃ）に示す単一の表からは削除されている。
このような処理により、患者毎の臨床的データと基礎医学的データとの対応関係が明瞭になる。

ステップＳＴ４：
本ステップでは、解析の目的となる「特性」の入力を医療データ解析装置１００の入力部１０４を介して受け付ける。
ここで、「特性」とは、例えば事業者１により予め決定される解析の目的に応じたデータの一項目を意味する。
「特性」は、例えば解析の目的となる疾病に対応する臨床的データの一項目から選択される。
例えば、上述した図４の例では、図４（ａ）に示すように、臨床的データは、ＨｂＡ_１ｃ、収縮期血圧、ＬＤＬ−Ｃ、ＨＤＬ−Ｃ・・・と様々な項目を有している。
ここで、ＨｂＡ_１ｃは、糖尿病に関連の深い項目であり、収縮期血圧は、高血圧に関連の高い項目であり、ＬＤＬ−Ｃ及びＨＤＬ−Ｃは、脂質異常症（高脂血症）に関連の高い項目である。

すなわち、事業者１は、例えば糖尿病に関して解析を行うことを目的とする場合には、「特性」としてＨｂＡ_１ｃを選択する。同様に、高血圧に関して解析を行うことを目的とする場合には、「特性」として収縮期血圧を、脂質異常症に関して解析を行うことを目的とする場合には、「特性」としてＬＤＬ−Ｃ及びＨＤＬ−Ｃを選択すればよい。
また、上述した例以外の疾病に関して解析を行うことを目的とする場合は、その疾病に関連が高い項目の臨床的データをステップ１において予め入力し、本ステップにおいてその項目を選択すればよい。
このように、事業者１は、解析の目的に合わせて、臨床的データの１項目を選択し、入力部１０４を介して選択した項目を入力する。そして、以降のステップでは、入力された選択された項目の値に応じて解析を行うことになる。

なお、本実施形態では、臨床的データとして、上述したように医師の診断内容や、患者２に対するアンケートの結果等、数値やカテゴリ値ではなく文章で記述されるデータも含まれる。本実施形態では、図４（ａ）には例示していないものの、数値データ以外の記述データも特性として設定することができる（詳しくは後述する）。

上述した「特性」の選択は、事業者１の入力部１０４を介した操作により行われる。
なお、事業者１は、例えば、解析の目的とする疾病に応じて、患者２および病院３から当該疾病に関連が高い項目の臨床的データを取得するようにしてもよいし、無作為に患者２および病院３から取得した臨床的データの中から、事業者１が任意に解析の目的とする「特性」を決定するようにしてもよい。

ステップＳＴ５：
ステップＳＴ３において生成した２次元データを基に、ステップＳＴ４において選択した「特性」に関して、データマイニングの手法によるデータ解析を行う。
データマイニングとは、蓄積されたデータを解析し、目的とする特性に関して、その中に潜む項目間の相関関係や特徴などを探し出して特性の動向を予測する手法である。

データマイニングの手法としては、例えば、Ｃ＆ＲＴ法、ＣＨＡＩＤ（Chi-square Automatic Interaction Detection）法、ＱＵＥＳＴ（Quick, Unbiased, Efficient, Statistical Tree）法、Ｃ５．０法等の決定木（ルールセット）の構築と分別モデルとを提供する演算方法や、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、ＳＶＭ（Support Vector Machine）法等の決定木を構築せず分別モデルを提供する演算方法がある。
決定木（Decision Tree）とは、木構造を利用して、入力パターンに対応する分別結果のアルゴリズムを表現したものである。
分別モデルとは、与えられた数値資料に含まれるデータの特徴をデータマイニングの演算方式によって、資料中の特定項目の動向に着目及び／または整理し、データを類似集団への帰属状況に基づき個別にまとめ分類して、資料全体の持つ構造特性を再現性よく分別すること、また、後続する別の数値資料を該モデルに適用することで、容易に類似の分別結果や予測確率が得られることを特徴とする演算数式群である。
分別モデルはデータマイニングの演算方式毎に構築可能である。また、同じ数値資料、同じ演算方式であっても目的とする特性が異なれば、異なる分別モデルが生成され、電子ファイル等に保存可能である、という特徴を有する。

・データマイニングによる解析方法
解析に使用するデータマイニングの手法は、例えば、Ｃ＆ＲＴ法、ＣＨＡＩＤ法、ＱＵＥＳＴ法、Ｃ５．０法、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、ＳＶＭ（Support Vector Machine）、等の手法のうち、解析の目的や性質に合わせて事業者１が任意に選択した手法を使用すればよい。
上記例示したデータマイニングの演算手法のうち、Ｃ＆ＲＴ法、ＣＨＡＩＤ法、ＱＵＥＳＴ法、Ｃ５．０法を使用した場合には、決定木と分別モデルとが提供され、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、ＳＶＭを使用した場合には、分別モデルのみが提供され決定木は提供されない。

以下、まず、決定木を提供する演算方式の一例として、Ｃ＆ＲＴ法を使用した場合について説明する。
（１）Ｃ＆ＲＴ法
Ｃ＆ＲＴ法は、目的変数に対してできるだけ等質なデータサブセットを作成すべく、対象を２つに分別することにより決定木を構築していくものである。
具体的には、データの不純度（Ｇｉｎｉ係数）を定義し、元のデータ（親ノードのデータ）を２つのサブセット（子ノードのデータ）に分割するとき、子ノードの不純度が親ノードの不純度に対してどの程度改善されたかを示す改善度を分別作業の評価基準として構築していく。
そして、改善度が最大となるような分別点（分別変数及びその値）を再帰的に探索する過程を、停止規則を満たすまで反復する。

不純度ｇ（ｔ）および改善度ｆ（ｔ）は、以下のように算出される。

ただし、数式１および数式２において、

である。

ここで、π（ｊ）は、カテゴリｊの事前確率、Ｎ_ｊ（ｔ）は、ノードｔにおけるカテゴリｊのケース数（本実施形態の場合は、患者数）、Ｎ_ｊは、ルートノードにおけるカテゴリｊのケース数である。また、Ｐ_Ｌは、ノードｔにおいて１つ目の子ノードに送られるケースの割合であり、Ｐ_Ｒは、ノードｔにおいて２つ目の子ノードに送られるケースの割合である。
Ｃ＆ＲＴ法においては、改善度ｆ（ｔ）が最大となるように分別する。すなわち、不純度が最も大きく減少するように分別する。
このようにして、決定木を構築し、出力する。
なお、Ｃ＆ＲＴ法による決定木の作出には、上述したようにＧｉｎｉ係数を使用する他に、Ｔｗｏｉｎｇ、最小２乗偏差（ＬＳＤ）等を使用する方法もあり、目的とする特性や被検査物の性格によって使い分けるようにしてもよい。

次に、決定木を提供しない演算方式の一例として、ロジスティック回帰法を使用した場合について説明する。
（２）ロジスティック回帰法
部分母集団ｉにおける応答カテゴリｊの確率π_ｉｊは以下のようになる。

ここで、Ｊは最後のカテゴリである。
ｘ’_ｉβ_ｊは、次のように表現される。

ただし、ｊ＝１、・・・Ｊである。

数式６はロジット変換の逆関数であり、Ｊ＝２のとき、このモデルは２項ロジスティック回帰モデルと同じである。このため、上記モデルは２項のレスポンスから多項名義レスポンスへの、２項ロジスティック回帰モデルの延長と考えられる。

このモデルの対数尤度は以下の式により得られる。

ここで、対数尤度を最大とするパラメータＢを求めるために、Newton-Raphson法を用いる。ただし、この方法は、パラメータＢに対する１の二次導関数の期待値が観測対象の期待値と同じため、このモデルのFisherのスコアリングアルゴリズムと同一となる。
∂ｌ／∂Ｂを、パラメータＢに関する１の一次導関数の（Ｊ−１）ｐ×１ベクトルとする。
さらに、［∂^２ｌ／∂Ｂ∂Ｂ］を、パラメータＢに関する二次導関数１の（Ｊ−１）ｐ×（Ｊ−１）ｐ行列とする。

ここで、［∂^２ｌ／∂Ｂ∂Ｂ］は、以下のように与えられる。

Δ_ｉは、次のような（Ｊ−１）×（Ｊ−１）行列である。

ここで、π_ｉ ^（−Ｊ）＝π_ｉ１，．．．，π_ｉＪ−１であり、Diag（π_ｉ ^（−Ｊ））はπ_ｉ ^（−Ｊ）のβ_ｊ＊対角行列である。

反復νにおけるパラメータ推定値をＢ^（ν）とすると、反復ν＋１におけるパラメータ推定値Ｂ^{（ν＋１）}は次の式のように与えられる。

ξ＞０はｌ（Ｂ^{（ν＋１）}）−ｌ（Ｂ^（ν））≧０となるようなステップ基準スカラーであり、Ｘ^＊は独立ベクトルの（Ｊ−１）ｐ×（Ｊ−１）行列となる。
ｌ（Ｂ^{（ν＋１）}）−ｌ（Ｂ^（ν））＜０の場合は、段階二分法を使用し、νがステップの最大数とすると、ξの値のセットは｛１／２^ν：ν＝０，．．．，ν−１｝となる。

２つの収束基準ε_ｋ＞０及びε_ｐ＞０が与えられると、次の何れかの基準が満たされた場合に反復が収束したものと見なされる。
（１）｜ｌ（Ｂ^{（ν＋１）}）−ｌ（Ｂ^（ν））｜＜ε_ｋ
（２）ｍａｘ_ｉ｜Ｂ_ｉ ^{（ν＋１）}−Ｂ_ｉ ^（ν）｜＜ε_ｐ
（３）∂ｌ／∂Ｂ^{（ν＋１）}中の上記要素の最大値がｍｉｎ（ε_ｋ，ε_ｐ）未満
このような演算方法により、分別モデルが生成される。

・基礎医学的データの生成方法
次に、基礎医学的データの生成方法について説明する。
本実施形態では、基礎医学的データとして患者から採取した糞便に含まれる腸内常在菌等の分析値を使用する場合について説明する。

まず、腸内常在菌の分析値を得る方法について詳述する。
腸内常在菌の分析値を得る方法には、例えばターミナル−ＲＦＬＰ（Terminal Restriction Fragment Length Polymorphism Analysis：Ｔ−ＲＦＬＰ）法がある。
Ｔ−ＲＦＬＰ法は、被検査物から微生物由来の１６ＳｒＤＮＡ遺伝子を抽出し、その鋳型ＤＮＡをＰＣＲ（ポリメラーゼ連鎖反応：Polymerase Chain Reaction）により増幅し、制限酵素（ＤＮＡの特定の塩基配列部位を切断する性質を持つ酵素）による消化後にフラグメント検査・分析を行い、制限酵素の切断部位が異なることを利用してそのピーク位置や強度の違いを計測する方法である。
Ｔ−ＲＦＬＰ法において、各ＤＮＡ断片は共生微生物由来のＯＴＵ（Operational Taxonomic Unit：操作上の分別単位）として分別・計測される。

このような分析により、例えば図４（ｂ）に示したような基礎医学的データが得られる。
ここで、「Ｂ３３２」や「Ｂ４９４」等の項目名は、使用した制限酵素と、その制限酵素を使用して得られたピーク位置とを示すものである。
すなわち、「Ｂ３３２」の場合、例えばＢｓｌIという制限酵素を用いて得られたピーク位置が「３３２」であるＯＴＵを意味している。すなわち、制限酵素の頭文字と、その制限酵素を用いて得られたピーク位置とを結びつけて項目名としている。
本実施形態では、制限酵素としてＢｓｌIを使用した例を示したが、本発明はこれには限定されない。他の制限酵素、例えば、ＭｓｐI、ＡｌｕI、ＨａｅIII等を使用してもよい。

各ＯＴＵに帰属する微生物種は極めて多く、また人の共生微生物はその大部分がその種名や生理機能について未解明であるため、どのＯＴＵがどの微生物由来のものであるかは現状では複数の制限酵素を使用する等により類推するしかない。しかし今後、安価で再現性のある画期的なＤＮＡ検査方法が開発されれば、基礎医学的データとして、現状のＯＴＵよりも正確な個別微生物群名、種名などを含む資料を得られると思われる。
このような事情により、本実施形態では、使用した制限酵素と、その制限酵素を使用して得られたピーク位置とを示すＯＴＵを項目名として採用している。

・データマイニングの手法によるデータ解析の具体例
以下では、データマイニングの手法によりデータ解析の具体例を示す。
一例として、図４（ａ）に示す各項目をそれぞれ特性とした場合のデータ解析結果を示す。
［１］ＨｂＡ_１ｃを特性とした場合
ＨｂＡ_１ｃ（ヘモグロビンＡ_１ｃ）を特性として選択した場合について説明する。
ＨｂＡ_１ｃはブドウ糖と結びついたヘモグロビン（血色素）であり、糖尿病と大きな関連性を有する項目である。
図５は、Ｃ＆ＲＴ法でＨｂＡ_１ｃを特性として解析を行った結果得られた決定木の一例である。図５は、定期健康診断で生活習慣病が懸念された男女１２１名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。

図５において、決定木は左側から右側へと伸長している。
最も左側のノードであるノード０をルートノードといい、データ解析の対象となった全ての患者がこのノードに含まれる。
ノード０に含まれる全ての患者は、予めＡ〜Ｄの４つのカテゴリに分別されている。
このカテゴリ分けは、例えば解析の目的や性格に合わせて、事業者１によって例えば事業者１の入力部１０４を介した操作により予め行われている。
図５に示す例では、ＨｂＡ_１ｃの値の多寡に応じてカテゴリ分けがなされている。カテゴリ分けは、例えばＨｂＡ_１ｃの値が所定のしきい値以下であるか、所定のしきい値より大であるか、に応じてなされればよい。

図６に、図５におけるＨｂＡ_１ｃのカテゴリ分けに使用したしきい値の一例を表として示す。
図６に示すように、カテゴリＡは最もＨｂＡ_１ｃ濃度の低い患者が属するカテゴリであり、カテゴリＤが最もＨｂＡ_１ｃ濃度の高い患者が属するカテゴリである。最もＨｂＡ_１ｃ濃度の高いカテゴリＤに属する患者群は、糖尿病の重篤な患者である。

図５及び図６に示す例では、ＨｂＡ_１ｃ濃度が正常である患者が属するカテゴリ（カテゴリＡ）と、要注意状態の患者が属するカテゴリ（カテゴリＢおよびＣ）、重篤な糖尿病である患者が属するカテゴリＤとにカテゴリ分けを行うことにより、共生微生物とＨｂＡ_１ｃ濃度との関連性、ひいては共生微生物と糖尿病との関連性についての知見を得ることを目的としている。

図５において、各ノードには類別された各カテゴリＡ〜ＤそれぞれのＨｂＡ_１ｃの値に対応する患者数を「ｎ」の欄に、患者数全体における各カテゴリの患者数の割合（パーセンテージ）を「％」の欄に示している。従って、ノード０において、「ｎ」欄の合計は患者数全体の１２１人であり、「％」欄の合計は「１００．０００」％である。
図５に示す例では、全患者数１２１人のうち、カテゴリＡに該当する患者数は４２人であり、割合は３４．７１１％である。カテゴリＢに該当する患者数は４６人であり、割合は３８．０１７％である。カテゴリＣに該当する患者数は１４人であり、割合は１１．５７０％である。カテゴリＤに該当する患者数は１９人であり、割合は１５．７０２％である。

図５において、ノード０は、ノード１およびノード２に分別されている。
この分別の条件が図５におけるノード０とノード１および２との間に記述されている。ノード０の右側に記述された「Ｂ４９４＿ｔｒ」が分別に寄与するＯＴＵを示し、ノード１の左側に記述された「＜＝２１．９２３」およびノード２の左側に記述された「＞２１．０２３」が分別の際の境界値を示している。
すなわち、図５では、ノード０からノード１および２に分別する際に、「Ｂ４９４＿ｔｒ」というＯＴＵの値が境界値２１．９２３以下であればノード１に、２１．９２３より大であればノード２に分別している。

ここで、分別に寄与するＯＴＵは、上述したようにＣ＆ＲＴ法による改善度の算出により、最も改善度の高くなるように選択されたものである。図５のノード０からノード１および２への分別の場合は、「Ｂ４９４＿ｔｒ」となる。
なお、「Ｂ４９４＿ｔｒ」とは、Ｂを頭文字とする制限酵素ＢｓlIによるピーク位置が４９４であるＯＴＵを意味しており、上述した基礎医学的データの項目の一つである。なお、「Ｂ４９４＿ｔｒ」の「＿ｔｒ」は上述したＣ＆ＲＴ法による演算の際、各項目毎に基準化した値を使用したことを示している。

図５に示した例では、ノード１には、カテゴリＡに４１人、カテゴリＢに１４人含まれカテゴリＣおよびＤの患者は０人である。一方、ノード２には、カテゴリＡが１人、カテゴリＢが３２人、カテゴリＣが１４人、カテゴリＤが１９人含まれる。

また、図５に示した例では、ノード３にはカテゴリＡの患者のみが含まれ、ノード１５もほぼカテゴリＡの患者のみが集まっている。また、ノード９にはカテゴリＢの患者のみが集まり、ノード７、ノード１６、ノード１８、ノード２６には、カテゴリＢの患者が多く集まっている。また、ノード１１および２５にはカテゴリＣの患者のみが集まっている。カテゴリＤの患者は、ノード１２にのみ全員集まっている。

以上のことから、ノード１１およびノード１２に、ＨｂＡ_１ｃ濃度が最も高い（糖尿病の重篤な患者である）カテゴリＤの全員と、その次にＨｂＡ_１ｃ濃度が高いＣグループの患者とが集まっていることがわかる。図５によれば、ノード１１および１２へと分別するＯＴＵは「Ｂ４９４」と「Ｂ３３２」であるため、これらのＯＴＵが糖尿病の発生に大きな関連性を有する、ということを上記解析から容易に推測することができる。

［２］収縮期血圧を特性とした場合
収縮期血圧を特性として選択した場合について説明する。
収縮期血圧は高血圧症と大きな関連性を有する特性である。
図７は、Ｃ＆ＲＴ法で収縮期血圧を特性として解析を行った結果得られた決定木の一例である。図７は、定期健康診断で生活習慣病が懸念された男女１２１名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。

図７に示す例では、図５に示した例と同様に、ノード０からＣ＆ＲＴ法による改善度が高くなるように分別を決定し、右側へ向かって決定木を伸長し、各ノードが単一カテゴリ或いはそれに近い状態になるまで分別処理を行っている。

図７に示す例では、全ての患者は予め、例えば事業者１によりＪ〜Ｍの４つのカテゴリに分別されている。各患者は収縮期血圧の値に応じて、カテゴリＪ〜Ｍのいずれかに分別される。図８に、収縮期血圧の値に応じたカテゴリ分けに使用したしきい値の一例を示す。
図８に示すしきい値によりカテゴリ分けされたカテゴリＪ〜Ｍにおいて、カテゴリＭが最も収縮期血圧が高い患者の属するカテゴリである。

最も収縮期血圧が高いカテゴリＭに属する患者は、図７によれば、ノード１０に全員が含まれ、次に収縮期血圧が高いカテゴリであるカテゴリＬに属する患者は、その多くがノード９に含まれる。
従って、図７に示す決定木からは、「Ｂ４６９」、「Ｂ１２４」、「Ｂ３６６」等のＯＴＵが高血圧症の発生に大きな関連性を有することを容易に推測することができる。
［３］ＬＤＬ−ＣおよびＨＤＬ−Ｃを特性とした場合
ＬＤＬ−ＣおよびＨＤＬ−Ｃ（コレステロール値）を特性として選択した場合について説明する。
ＬＤＬ−ＣおよびＨＤＬ−Ｃは脂質異常症（高脂血症）と大きな関連性を有する特性である。
図９は、Ｃ＆ＲＴ法でＬＤＬ−ＣおよびＨＤＬ−Ｃを特性として解析を行った結果得られた決定木の一例である。図９は、定期健康診断で生活習慣病が懸念された男女１２１名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。

図９に示す例では、図５および７に示した例と同様に、ノード０からＣ＆ＲＴ法による改善度が高くなるように分別を決定し、右側へ向かって決定木を伸長し、各ノードが単一カテゴリ或いはそれに近い状態になるまで分別処理を行っている。

図９に示す例では、全ての患者は予め、例えば事業者１によりＰ〜Ｓの４つのカテゴリに分別されている。各患者はＬＤＬ−ＣおよびＨＤＬ−Ｃの値に応じて、カテゴリＰ〜Ｓのいずれかに分別される。図１０にＬＤＬ−ＣおよびＨＤＬ−Ｃの値に応じたカテゴリ分けに使用したしきい値の一例を示す。
図１０に示すようなしきい値によりカテゴリ分けされたカテゴリＰ〜Ｓにおいて、カテゴリＳは最も重篤な脂質異常症の患者の属するカテゴリ、カテゴリＰは正常な患者の属するカテゴリである。カテゴリＱおよびＲは脂質異常症に関して要注意状態の患者の属するカテゴリである。

図９によれば、ノード１には、重篤な脂質異常症の患者が属するカテゴリＳの全ての患者が含まれており、ノード４には、要注意状態の患者が属するカテゴリＱおよびＲの全ての患者が含まれている。
そして、ノード５にはカテゴリＱの多くの患者が含まれ、ノード１２にはカテゴリＲの全員が含まれている。ノード４からノード５とノード１２への分別に関わるＯＴＵは「Ｂ９９０」である。すなわち、ノード１２からノード１３（全員が正常な患者の属するカテゴリＰに含まれる）とノード１４（要注意状態の患者の属するカテゴリＱおよびＲの患者が含まれる）への分別を考慮すると、「Ｂ９９０」の微妙な濃度差が脂質異常症の発症に大きく影響していることが推測できる。

以上説明したように、本実施形態の医療データ解析方法によれば、一般的に行われる健康診断や検査において得られる臨床的データと、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等や血液等の被検査物を基に基礎医学系の研究所等における検査および／または分析により生成される基礎医学的データと、を基に、データマイニングの手法によるデータ解析を行うので、臨床的データと基礎医学的データとを有機的に対応付け、これらの関連性を容易に把握可能な決定木を構築することができる。
また、臨床的データに含まれる複数の項目のうち、データ解析の目的に応じた項目を選択し、選択した項目（特性）と基礎医学的データの各項目の数値データを基にデータ解析を行うことができる。従って、同一のデータ（臨床的データおよび基礎医学的データ）から、目的とする項目を変更するだけで、目的に応じた決定木を構築することができる。

さらに、データ解析に使用するデータマイニングの手法として、決定木を構築可能である演算方法（例えば、Ｃ＆ＲＴ法、ＣＨＡＩＤ法、ＱＵＥＳＴ法、Ｃ５．０法等）を使用することにより、目的とする特性に対応した患者がどのノードに含まれているかを視覚的かつ容易に把握することが可能であり、目的とする特性に応じた疾病等に対応する基礎医学的データの項目を容易に理解することができる。

さらに、決定木および分別モデルの構築に使用した臨床的データと基礎医学的データの患者以外の新しい患者のデータに対して、予め構築した決定木および分別モデルを適用することにより、新しい患者に対する疾病状況の予測分別等が可能になる。
具体的には、例えば、新しい患者の基礎医学的データのみを取得した場合に、上述した実施形態において特性「ＨｂＡ_１ｃ」について構築した決定木（図５参照）を参照するならば、構築した決定木において、分別に対応するＯＴＵと分別境界値とが明らかになっているので、新しい患者のデータに対しては既に生成されている分別モデルを適用するだけで、新しい患者のそれぞれがどのノードに含まれるかを容易に推測することができ、これにより目的とする特性に対する新しい患者の疾病状況の予測分別等が可能となる。

本発明は上述した実施形態には限定されない。
すなわち、当業者は、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更、コンビネーション、サブコンビネーション、並びに代替を行ってもよい。

上述した実施形態では、図５、７、９に示す決定木を構築するデータ解析において、選択された特性の値に応じてそれぞれ４つのカテゴリに分割したが、これは一例であり、本発明はこれには限定されない。より多くのカテゴリ、例えば６〜８つのカテゴリに分割することにより、より重篤な患者が含まれるカテゴリを見いだし、特性の関連するＯＴＵをより好適に特定することが可能となる。

また、上述した実施形態では、図５、７、９に示す決定木を構築するデータ解析において、事業者１が予め目的とした特性の値に応じたカテゴリ分けを行う例について説明したが、本発明はこれには限定されない。臨床的データは必ずしも数値やカテゴリ・データとは限らず、例えば、患者２によるアンケートの回答結果や、医師の診断結果等、文章や語句の羅列により記述されている場合もある。例えば、事業者１がこのような文章や語句の羅列の項目を特性として選択し、記述の内容に応じてカテゴリ分けをするようにしてもよい。例えば、データとして「なし」、「腹部に痛みあり」、「脚部に痛みあり」・・・等が記述されている「自覚症状」という項目を選択し、「自覚症状のありなし」でカテゴリ分けをしてもよいし、「自覚症状のある部位」でカテゴリ分けをしてもよい。このように、カテゴリ分けは解析の目的に応じて事業者１が自由に設定することが可能である。

上述した実施形態では、データマイニングの手法の例としてＣ＆ＲＴ法及びロジスティック回帰法について説明したが、本発明にて使用するデータマイニングの演算方式はこれらには限定されない。例えば、ＣＨＡＩＤ法、ＱＵＥＳＴ法、Ｃ５．０法等、決定木（Decision Tree）の構築と分別モデルとを提供する演算方法や、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、ＳＶＭ等、決定木を構築せずに分別モデルを提供する演算方法、のうち、解析の目的に合わせた演算方法を例えば事業者１が任意に選択して使用すればよい。なお、決定木を構築しない演算方法の場合は、ノードの分別や関連性について視覚的に把握することは不可能となるが、いずれの演算方法でも分別モデルは構築されるので、目的とする特性に関するデータ解析と分別は可能である。

また、決定木を構築せずに分別モデルを生成する演算方式を採用した場合は、以下説明する数理的重要度をさらに算出し、目的とする特性に対して関係の深い項目を推定することが可能である。
数理的重要度は、例えば最近隣分析法等により算出する。
数理的重要度は、目的とする特性に対する類似性に基づいて各成分のデータパターンを識別し、その遠近距離を分類する非類似度の尺度として用いるものである。
具体的には、成分の重要度をＦＩ_（ｐ）とし、パターンを比較した際の誤差率または誤差平方和をｅとすると、生成された数値モデルにＸ_（１），Ｘ_（２），．．．，Ｘ_（ｍ）（１≦ｍ≦Ｐ^０）があれば、そのモデルＯＴＵＸ_（ｐ）の重要度を、次の式で算出する。

まず、モデルから当該成分Ｘ_（ｐ）を除き、残りの成分Ｘ_（１），Ｘ_（２），．．．，Ｘ_{（ｐ−１）}，Ｘ_{（ｐ＋１）}，．．．，Ｘ_（ｍ）に基づいて、誤差率または誤差平方和ｅ_（ｐ）を算出・比較する。
そして、ＦＩ_（ｐ）＝ｅ_（ｐ）＋１／ｍを算出し、最後に当該成分Ｘ_（ｐ）の重要度を得る。
ここで、Ｘは、要素Ｘ_ｐｎを持つ２次元のＰ×Ｎ行列で、ｐ＝１，〜，Ｐは成分を、ｎ＝１，〜，Ｎは被験生体の計測事例を指す。また、Ｐは、目的とする特性の次元数であって、連続型では成分の数、カテゴリ型の特性では成分全体のカテゴリ数である。

また、上述した実施形態では、基礎医学的データとして、患者２の糞便を被検査物とし、腸内常在菌についてのデータを使用する場合について説明したが、本発明はこれには限定されない。例えば、尿、唾液、鼻腔粘液、皮膚や膣液を被検査物としてこれらに含まれる共生微生物を解析の対象としてもよい。また、例えば、血液を被検査物としたメタボローム解析（全成分解析：代謝産物を網羅的に解析すること）の結果を基礎医学的データとして使用してもよい。

１・・・事業者、２・・・患者、３・・・病院、１００・・・医療データ解析装置、１０１・・・記憶部、１０２・・・表示部、１０３・・・制御部、１０４・・・入力部

Claims

複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置の医療データ解析方法であって、
医療データ解析装置が、同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第１のステップと、
医療データ解析装置が、予め選択された前記臨床的データの一項目に対して、前記第１のステップにおいて対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第２のステップと、
を有する医療データ解析方法。
前記第２のステップにおいて、前記データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成する
請求項１に記載の医療データ解析方法。
前記第２のステップにおいて、前記データマイニングの手法として、少なくともＣ＆ＲＴ法、ＣＨＡＩＤ法、ＱＵＥＳＴ法、Ｃ５．０法のいずれかを使用し、前記医療データ解析装置は、当該手法により決定木及び前記分別モデルを構築する
請求項２に記載の医療データ解析方法。
前記第２のステップにおいて、前記データマイニングの手法として、少なくともベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、ＳＶＭ（Support Vector Machine）のいずれかを使用し、前記医療データ解析装置は、当該手法により前記分別モデルを構築する
請求項２または３に記載の医療データ解析方法。
前記第２のステップにおいて、前記医療データ解析装置は、前記予め選択された前記臨床的データの一項目を目的変数として設定し、前記対応付けられた基礎医学的データの各項目を説明変数として、データマイニングの手法により前記分別モデルを構築する
請求項２から４のいずれか一項に記載の医療データ解析方法。
前記複数の患者に関する身体的データは、性別、年齢、身長、体重、肥満度の内、少なくともいずれかのデータを含み、
前記患者の生活習慣に関するデータは、喫煙習慣、晩酌習慣、食事の嗜好、食事の内容、睡眠状況、運動の質、運動の量の内、少なくともいずれかのデータを含み、
前記患者の疾病状態に関するデータは、血圧、服薬状況、既往病歴、自覚症状、医療関係者による診断結果の内、少なくともいずれかのデータを含み、
前記患者から得られる被検査物の検査結果に関するデータは、血液検査の結果および尿検査の結果の内、少なくともいずれかのデータを含む
請求項１から５のいずれか一項に記載の医療データ解析方法。
前記患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータは、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液の少なくともいずれかを検査及び／または分析して得られる共生微生物に関するデータである
請求項１から５のいずれか一項に記載の医療データ解析方法。
前記患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータは、患者の血液のメタボローム解析による解析結果データである
請求項１から５のいずれか一項に記載の医療データ解析方法。
複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置であって、
前記臨床的データおよび前記基礎医学的データを記憶する記憶部と、
入力操作を受け付ける入力部と、
制御部と、
を有し、
前記制御部は、同一患者に関する前記臨床的データと前記基礎医学的データを対応付け、前記入力部を介した入力操作により予め選択された前記臨床的データの一項目に対して、前記対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う
医療データ解析装置。
複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び／または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置が有するコンピュータの実行するプログラムであって、
同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第１の手順と、
予め選択された前記臨床的データの一項目に対して、前記第１の手順において対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第２の手順と、
を前記コンピュータに実行させるプログラム。