JP5645761B2 - Medical data analysis method, medical data analysis device, and program - Google Patents
Medical data analysis method, medical data analysis device, and program Download PDFInfo
- Publication number
- JP5645761B2 JP5645761B2 JP2011139811A JP2011139811A JP5645761B2 JP 5645761 B2 JP5645761 B2 JP 5645761B2 JP 2011139811 A JP2011139811 A JP 2011139811A JP 2011139811 A JP2011139811 A JP 2011139811A JP 5645761 B2 JP5645761 B2 JP 5645761B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- medical data
- analysis
- patient
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 134
- 238000007405 data analysis Methods 0.000 title claims description 66
- 238000004458 analytical method Methods 0.000 claims description 61
- 238000007418 data mining Methods 0.000 claims description 35
- 238000003066 decision tree Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 26
- 238000013145 classification model Methods 0.000 claims description 22
- 201000010099 disease Diseases 0.000 claims description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 22
- 244000005700 microbiome Species 0.000 claims description 19
- 210000003097 mucus Anatomy 0.000 claims description 12
- 210000002700 urine Anatomy 0.000 claims description 12
- 239000012530 fluid Substances 0.000 claims description 11
- 210000003296 saliva Anatomy 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 208000024891 symptom Diseases 0.000 claims description 5
- 238000009534 blood test Methods 0.000 claims description 4
- 239000003814 drug Substances 0.000 claims description 4
- 230000036772 blood pressure Effects 0.000 claims description 3
- 229940079593 drug Drugs 0.000 claims description 3
- 230000000391 smoking effect Effects 0.000 claims description 3
- 208000008589 Obesity Diseases 0.000 claims description 2
- 238000013398 bayesian method Methods 0.000 claims description 2
- 238000009535 clinical urine test Methods 0.000 claims description 2
- 235000020824 obesity Nutrition 0.000 claims description 2
- 239000006041 probiotic Substances 0.000 claims 3
- 230000000529 probiotic effect Effects 0.000 claims 3
- 235000018291 probiotics Nutrition 0.000 claims 3
- 235000012054 meals Nutrition 0.000 claims 2
- 230000035488 systolic blood pressure Effects 0.000 description 16
- 108010023302 HDL Cholesterol Proteins 0.000 description 13
- 108010028554 LDL Cholesterol Proteins 0.000 description 13
- 108091008146 restriction endonucleases Proteins 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 239000008280 blood Substances 0.000 description 10
- 210000004369 blood Anatomy 0.000 description 10
- 230000006872 improvement Effects 0.000 description 10
- 230000036541 health Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 9
- 206010012601 diabetes mellitus Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 210000003608 fece Anatomy 0.000 description 8
- 208000032928 Dyslipidaemia Diseases 0.000 description 6
- 208000017170 Lipid metabolism disease Diseases 0.000 description 6
- 241000894006 Bacteria Species 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 239000012535 impurity Substances 0.000 description 5
- 230000000968 intestinal effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000007894 restriction fragment length polymorphism technique Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 206010020772 Hypertension Diseases 0.000 description 4
- 241000566145 Otus Species 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000012631 diagnostic technique Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 208000031226 Hyperlipidaemia Diseases 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 244000144972 livestock Species 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002705 metabolomic analysis Methods 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000002562 urinalysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 208000034454 F12-related hereditary angioedema with normal C1Inh Diseases 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 102000007513 Hemoglobin A Human genes 0.000 description 1
- 108010085682 Hemoglobin A Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 235000020785 dietary preference Nutrition 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000001258 dyslipidemic effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000020803 food preference Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 208000016861 hereditary angioedema type 3 Diseases 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Description
本発明は、コンピュータにより、医療データの解析を行う解析方法、医療データ解析装置およびプログラムに関する。 The present invention relates to an analysis method, a medical data analysis apparatus, and a program for analyzing medical data by a computer.
定期的な健康診断が一般的に行われている。
健康診断では、例えば、性別、年齢、身長、体重、肥満度(BMI:Body Mass Index)等の身体的データ、喫煙・飲酒の習慣、食事の嗜好や内容、睡眠状況、運動の質と量等の生活習慣データ、血圧、服薬状況、既往病歴、自覚症状、医療関係者による疾病状況の診断等の生理学的データ、血液検査や尿検査等により得られる検査結果データ等、様々なデータが得られる。
これらのデータは、診断する医師に提供され、健康診断受診者の健康状態の評価や、健康の維持や疾患の予防・早期発見等に役立てられる。
Regular medical examinations are generally performed.
In a health checkup, for example, physical data such as sex, age, height, weight, body mass index (BMI), smoking / drinking habits, food preferences and content, sleep status, quality and quantity of exercise, etc. Various data such as lifestyle data, blood pressure, medication status, past medical history, subjective symptoms, physiological data such as diagnosis of disease status by medical personnel, test result data obtained by blood test, urine test, etc. .
These data are provided to a doctor who makes a diagnosis, and are used for evaluation of the health condition of a health check-up examinee, maintenance of health, prevention / early detection of diseases, and the like.
市中で行われる健康診断とは別に、人体から得られた被検査物について、成分分析や微生物の分析等、詳細な検査・分析を行うことにより、より多くの医学関連情報を得ようとする試みが、基礎医学系の研究を行う研究所や大学等で行われている。
このような基礎医学系の研究所等では、例えば、血液のメタボローム解析(全成分解析)や、口腔粘液、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等に含まれる共生微生物の存在状態の解析を基に、患者の特性の詳細を特定することが行われている。
Aside from health examinations conducted in the city, we try to obtain more medical-related information by conducting detailed inspections and analyzes such as component analysis and microbial analysis on the specimen obtained from the human body. Attempts are being made at laboratories and universities that conduct basic medical research.
In such basic medical laboratories, for example, metabolomic analysis of blood (all component analysis), presence of symbiotic microorganisms contained in oral mucus, feces, urine, saliva, nasal mucus, skin and vaginal fluid, etc. Based on this analysis, details of patient characteristics are specified.
このような基礎医学系の検査・分析によって得られる基礎医学的データは、血液内の微少成分や共生微生物等が人体に与える影響を推測し、疾病状況の診断や疾病の予防・予測等を行う試みに使用されている。 Basic medical data obtained by such basic medical examinations / analyses estimates the effects of minute components in blood and symbiotic microorganisms on the human body, and diagnoses disease conditions and prevents / predicts diseases It is used for an attempt.
ところで、一般的に行われる健康診断において得られる様々なデータ(患者から直接得られるデータであるので、以下臨床的データと称する)と、基礎医学的データとは、全く異なるデータであり、上述した基礎医学的データは、現状では基礎医学系の研究を行っている研究所や大学の研究室等でしか扱っていない。このため、臨床的データを扱う医師が基礎医学的データに触れる機会は極めて少ない。
従って、臨床的データと基礎医学的データとの関連性を抽出することや、臨床的データと基礎医学的データの両方を使用して医学的に有益な知見を得ようとする試みは、今までほとんど行われていなかった。
By the way, various data obtained in a general medical examination (data obtained directly from a patient, hereinafter referred to as clinical data) and basic medical data are completely different data. Basic medical data is currently handled only by laboratories and research laboratories conducting basic medical research. For this reason, there are very few opportunities for doctors who handle clinical data to access basic medical data.
Therefore, attempts to extract the relationship between clinical data and basic medical data, and to obtain medically useful findings using both clinical data and basic medical data have been made until now. It was hardly done.
本発明はかかる事情に鑑みてなされたものであり、臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供することを目的とするものである。 The present invention has been made in view of such circumstances, and a medical data analysis method capable of obtaining diagnostic techniques and medically and scientifically useful knowledge using both clinical data and basic medical data. An object of the present invention is to provide a medical data analysis apparatus and program.
第1の発明の医療データ解析方法は、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む、患者を実地に診察及び/または治療する際に得られるデータである臨床医学的データと、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液の少なくともいずれかに対して、基礎医学的な検査及び/または分析を行って得られる共生微生物に関するデータを含む、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置の医療データ解析方法であって、医療データ解析装置が、同一患者に関する前記臨床医学的データと前記基礎医学的データを対応付ける第1のステップと、医療データ解析装置が、予め選択された前記臨床医学的データの一項目に対して、前記第1のステップにおいて対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2のステップと、を有し、前記第2のステップは、前記データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成する第3のステップをさらに有する。
The medical data analysis method of the first invention includes at least one of physical data related to a plurality of patients, data related to a patient's lifestyle, data related to a patient's disease state, and data related to a test result obtained from a patient. containing either data, and clinical medical data is data obtained when the examination and / or treatment of the patient hands, the patient's feces, urine, saliva, nasal mucus, to at least one of skin and vaginal fluid On the other hand, basic medical data that is data on the results of basic medical examinations and / or analyzes on the specimens obtained from patients, including data on symbiotic microorganisms obtained by conducting basic medical examinations and / or analyses. Is a medical data analysis method for a medical data analysis device that performs data analysis based on data, and the medical data analysis device relates to the same patient. A first step of associating the clinical medical data with the basic medical data, and a medical data analysis device are associated with one item of the clinical medical data selected in advance in the first step. A second step of performing data analysis using a data mining method based on the basic medical data, and the second step includes a step in the basic medical data by the data mining method. The method further includes a third step of generating a classification model for extracting the similar population and for classifying the structural characteristics of the entire basic medical data.
第2の発明の医療データ解析装置は、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む、患者を実地に診察及び/または治療する際に得られるデータである臨床医学的データと、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液の少なくともいずれかに対して、基礎医学的な検査及び/または分析を行って得られる共生微生物に関するデータを含む、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置であって、前記臨床医学的データおよび前記基礎医学的データを記憶する記憶部と、入力操作を受け付ける入力部と、制御部と、を有し、前記制御部は、同一患者に関する前記臨床医学的データと前記基礎医学的データを対応付け、前記入力部を介した入力操作により予め選択された前記臨床医学的データの一項目に対して対応付けられた基礎医学的データを基に、データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成してデータ解析を行う。
The medical data analysis apparatus according to the second invention includes at least one of physical data related to a plurality of patients, data related to a patient's lifestyle, data related to a patient's disease state, and data related to a test result of a test object obtained from the patient. containing either data, and clinical medical data is data obtained when the examination and / or treatment of the patient hands, the patient's feces, urine, saliva, nasal mucus, to at least one of skin and vaginal fluid On the other hand, basic medical data that is data on the results of basic medical examinations and / or analyzes on the specimens obtained from patients, including data on symbiotic microorganisms obtained by conducting basic medical examinations and / or analyses. A medical data analysis device that performs data analysis based on data, and stores the clinical medical data and the basic medical data A memory unit, an input unit that receives an input operation, and a control unit, wherein the control unit associates the clinical medical data and the basic medical data related to the same patient, and inputs via the input unit Based on the basic medical data associated with one item of the clinical medical data preselected by the operation, a similar group in the basic medical data is extracted by the data mining technique, and the basic medical data is extracted. A classification model for classifying the structural characteristics of the entire target data is generated and data analysis is performed.
第3の発明のプログラムは、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む、患者を実地に診察及び/または治療する際に得られるデータである臨床医学的データと、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液の少なくともいずれかに対して、基礎医学的な検査及び/または分析を行って得られる共生微生物に関するデータを含む、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置が有するコンピュータの実行するプログラムであって、同一患者に関する前記臨床医学的データと前記基礎医学的データを対応付ける第1の手順と、予め選択された前記臨床医学的データの一項目に対して、前記第1の手順において対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2の手順と、前記第2の手順において、前記データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成する第3の手順と、を前記コンピュータに実行させる。
The program of the third invention is at least one of physical data related to a plurality of patients, data related to a patient's lifestyle, data related to a patient's disease state, and data related to a test result obtained from a patient. Including clinical data, including data, which is obtained when the patient is examined and / or treated in the field, and / or feces, urine, saliva, nasal mucus, skin and vaginal fluid . Basic medical data that is data relating to the results of basic medical examinations and / or analyzes on the specimen obtained from the patient, including data on symbiotic microorganisms obtained by conducting basic medical examinations and / or analyzes; Is a program executed by a computer included in a medical data analysis apparatus that performs data analysis, the clinical program relating to the same patient A first procedure for associating the medical data with the basic medical data, and the basic medical data associated in the first procedure with respect to one item of the clinical medical data selected in advance In the second procedure for performing data analysis using a data mining technique, and in the second procedure, a similar population in the basic medical data is extracted by the data mining technique, and the basic medical data as a whole is extracted. And causing the computer to execute a third procedure for generating a classification model for classifying the structural characteristics of the computer.
本発明によれば、臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供することができる。 According to the present invention, there is provided a medical data analysis method, a medical data analysis device, and a program capable of obtaining diagnostic techniques and medically and scientifically useful knowledge using both clinical data and basic medical data. Can be provided.
以下、本発明の実施形態について説明する。
まず、本実施形態において扱うデータの種類について説明する。
Hereinafter, embodiments of the present invention will be described.
First, the types of data handled in this embodiment will be described.
(1)臨床的データ
本実施形態では、例えば健康診断や、市中の病院等の一般的な医療施設における検査等において、患者から得られる様々なデータを、総称して臨床的データと称する。
ここで一般的な医療施設とは、後述する基礎医学系の研究を行う研究所や大学等を含まない医療施設を意味している。
臨床的データは、例えば、医師の問診や患者に対するアンケート、身体的データの測定、採血や採尿後の血液検査及び尿検査等により得られるデータである。
臨床的データには、例えば、性別、年齢、身長、体重、肥満度等の身体的データ、喫煙・飲酒の習慣、食事の嗜好や内容、睡眠状況、運動の質と量等の生活習慣データ、血圧、服薬状況、既往病歴、自覚症状、医療関係者による疾病状況の検査や診断等の生理学的データ、血液検査や尿検査等により得られる検査・分析結果データ等が含まれる。
(1) Clinical data In this embodiment, for example, various data obtained from patients in medical examinations and examinations at general medical facilities such as hospitals in the city are collectively referred to as clinical data.
Here, a general medical facility means a medical facility that does not include a research institute or university that conducts basic medical research described later.
The clinical data is data obtained by, for example, a doctor's inquiry, a questionnaire for patients, measurement of physical data, blood collection, blood tests after urine collection, urinalysis, and the like.
Clinical data includes, for example, physical data such as gender, age, height, weight, and obesity, smoking / drinking habits, dietary preferences and content, sleep status, quality and quantity of exercise, It includes blood pressure, medication status, past medical history, subjective symptoms, physiological data such as examination and diagnosis of disease status by medical personnel, test / analysis result data obtained by blood test, urinalysis, and the like.
(2)基礎医学的データ
本実施形態では、例えば基礎医学系の研究を行う研究所や大学等において、患者から採取した血液に対するメタボローム解析(全成分の検査・分析)を実施して得られたデータや、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液等から得た共生微生物の存在状態に関するデータを基礎医学的データと称する。
(2) Basic medical data In this embodiment, for example, obtained by performing metabolomic analysis (examination / analysis of all components) on blood collected from a patient at a research institute or university conducting basic medical research. Data and data on the presence of symbiotic microorganisms obtained from patient feces, urine, saliva, nasal mucus, skin, vaginal fluid, etc. are referred to as basic medical data.
本実施形態では、これら臨床的データと基礎医学的データとの両方を使用して、診断技術や医学的及び科学的に有益な知見を得るための医療データ解析方法について説明する。 In the present embodiment, a medical data analysis method for obtaining diagnostic techniques and medically and scientifically useful knowledge using both clinical data and basic medical data will be described.
・事業モデル
図1は、本実施形態の医療データ解析方法の事業モデルの一例を示す図である。
図1には、事業モデルの一例を示す。
図1に示すように、事業者1、患者2、病院3を含む。
Business Model FIG. 1 is a diagram illustrating an example of a business model of the medical data analysis method of the present embodiment.
FIG. 1 shows an example of a business model.
As shown in FIG. 1, the
事業者1は、患者2および病院3から臨床的データおよび被検査物を収集し、収集した被検査物を基に例えば図示しない基礎医学系の研究を行う研究所や大学等が生成した基礎医学的データを取得する。そして、収集した臨床的データと取得した基礎医学的データとを使用して、データマイニングの手法により、所定の目的に応じた解析を行い、解析結果を得る。
あるいは、事業者1自体が患者から収集した被検査物を基に、基礎医学的データを生成してもよい。
なお、データマイニングとは、蓄積されたデータを解析し、目的とする特性に関して、その中に潜む項目間の相関関係や特徴などを探し出して特性の動向を予測する手法である。
事業者1の行うデータマイニングの手法による解析の具体的方法については後に詳述する。
事業者1は、解析結果を基に、患者2の個体別に生活改善方法や生体内共生微生物の制御方法等を含む、健康のための具体的なアドバイス情報を作成することができる。そして、解析結果とともに、アドバイス情報を患者2および病院3に提供することができる。
The
Or you may produce | generate basic medical data based on the to-be-inspected thing which the
Data mining is a technique for analyzing the accumulated data and searching for correlations and features between items hidden in the target characteristics to predict characteristics trends.
A specific method of analysis by the data mining method performed by the
Based on the analysis result, the
患者2は、例えば事業者1により市民の中から抽出された複数人であり、事業者1の行う解析の対象となる。患者2の人数については本発明では特に限定しない。事業者1が行う解析の目的に合わせて適正な人数とすればよい。また、患者2を抽出する条件は、事業者1が行う解析の目的に応じて設定されればよい。
病院3は、例えば事業者1の要請に従い、患者2を診察し臨床的データを得る。病院3は1つである必要はなく、患者毎に異なる病院3を利用するようにしてもよい。
The
The
なお、図1に示した例では、事業者1の行う解析の対象となっているのは人間の患者2であるが、本実施形態における解析の対象は人間に限られず、例えば家畜等でもよい。この場合、病院3は動物病院や畜産業者ということになる。
In the example shown in FIG. 1, the subject of analysis performed by the
・医療データ解析装置
事業者1は、医療データ解析装置100を有し、上述した臨床的データおよび基礎医学的データを使用した解析処理を行う。
以下、医療データ解析装置100の構成例について説明する。
図2は、医療データ解析装置100の構成例を示す図である。
図2に示すように、医療データ解析装置100は、記憶部101、表示部102、制御部103、入力部104の各要素を有するコンピュータである。
The medical
Hereinafter, a configuration example of the medical
FIG. 2 is a diagram illustrating a configuration example of the medical
As illustrated in FIG. 2, the medical
記憶部101は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の記憶装置である。記憶部101には、各種データ(上述した臨床的データや基礎医学的データを含む)や、所定のプログラム、プログラムの実行に必要なデータ等が記憶される。
表示部102は、例えば液晶ディスプレイやCRT(Cathode Ray Tube)等の表示装置である。
制御部103は、例えばCPU(Central Processing Unit)等の主演算装置であり、記憶部101に記憶された所定のプログラムを実行して所定の処理を行う。
入力部104は、例えばキーボードやマウス、スキャナ等のデータ入力装置である。また、入力部104は、データ入力端子であって、オンラインでのデータ入力を受け付ける。
The
The
The
The
以下説明する解析方法は、このような記憶部101、表示部102、制御部103、入力部104を有するコンピュータである医療データ解析装置100によって実行される。具体的には、このような解析方法を実行するプログラムが記憶部101に記憶されており、入力部104を介した操作に応じて制御部103がプログラムを実行させることにより、解析が行われる。
医療データ解析装置100は上述した構成以外にも、例えば印刷等の出力を行う出力部を有していてもよい。
The analysis method described below is executed by the medical
In addition to the configuration described above, the medical
・解析方法
次に、事業者1の医療データ解析装置100により行われる、臨床的データと基礎医学的データとの両方を使用したデータマイニングの手法による解析の具体的方法について説明する。
図3は、医療データ解析装置100において行われる、データマイニングの手法を使用した解析方法の一例を示すフローチャートである。
Analysis Method Next, a specific method of analysis performed by the data mining method using both clinical data and basic medical data performed by the medical
FIG. 3 is a flowchart illustrating an example of an analysis method using a data mining technique performed in the medical
ステップST1:
複数の患者2および病院3から取得した臨床的データのデータ入力を行う。
臨床的データは、予め複数の患者2および病院3から取得されたものを使用する。なお、臨床的データを患者2から採取する方法については、本発明では限定しない。臨床的データは、患者2が病院3まで出向いて生成されるのが一般的である。
Step ST1:
Data of clinical data acquired from a plurality of
Clinical data obtained from a plurality of
ステップST2:
予め患者2から取得した被検査物を基に生成した基礎医学的データを入力する。
ここで、被検査物とは、患者2から採取された血液、糞便、尿、唾液、鼻孔粘液、皮膚、膣液等である。本実施形態では、特に、糞便を被検査物として、糞便内に存在する共生微生物である腸内常在菌を対象とした解析を行う場合について説明する。
なお、被検査物を患者2から採取する方法については、本発明では限定しない。被検査物は、患者2自身が採取してもよいし、病院3において採取されてもよい。
基礎医学的データの生成方法については後述する。
ステップST3:
ステップST1において入力した臨床的データおよび、ステップST2において入力した基礎医学的データを基に、データマイニングの手法による解析を好適に行うために、データ整理を行う。
まず、取得した臨床的データおよび基礎医学的データを、行(縦)方向に患者2(被験生体)を、列(横)方向にデータの各項目を配置し、2次元のデータ(表)を生成する。
Step ST2:
Basic medical data generated based on a test object acquired in advance from the
Here, the test object is blood, feces, urine, saliva, nostril mucus, skin, vaginal fluid, etc. collected from the
In addition, about the method of extract | collecting a test object from the
A method for generating basic medical data will be described later.
Step ST3:
Based on the clinical data input in step ST1 and the basic medical data input in step ST2, data arrangement is performed in order to suitably perform analysis by a data mining technique.
First, the acquired clinical data and basic medical data are arranged in the row (vertical) direction with the patient 2 (test subject) and the data items in the column (horizontal) direction, and the two-dimensional data (table). Generate.
図4(a)に、2次元のデータとしての臨床的データの例を示す。
また、図4(b)に、2次元のデータとしての基礎医学的データの例を示す。
図4(a)では、列方向に患者名が示され、行方向にHbA1c、収縮期血圧、LDL−C、HDL−C・・・等、患者2毎の臨床的データの項目が示されている。
図4(b)では、列方向に患者名が、行方向にB332、B494、B641、B657・・・等、患者毎の基礎医学的データの項目名(ここでは、腸内常在菌の種類と量的な構成を示す名称)が示されている。B332、B494等の項目名の詳細については、後述する。
FIG. 4A shows an example of clinical data as two-dimensional data.
FIG. 4B shows an example of basic medical data as two-dimensional data.
In FIG. 4A, patient names are shown in the column direction, and clinical data items for each
In FIG. 4 (b), the names of patients in the column direction and the item names of basic medical data for each patient such as B332, B494, B641, B657... And a name indicating a quantitative structure). Details of item names such as B332 and B494 will be described later.
臨床的データと基礎医学的データとをデータマイニングの手法によりデータ解析するために、これらのデータセットを単一の表で表すことが必要である。このため、本ステップにおいて、図4(a)に例示した臨床的データと図4(b)に例示した基礎医学的データとを基にして、単一の表を作成する処理を行う。
具体的には、図4(a)に例示した臨床的データと図4(b)に例示した基礎医学的データとを基に、同一患者に関する臨床的データと基礎医学的データを対応付ける。
図4(c)に、図4(a)に示す臨床的データと図4(b)に示す基礎医学的データを基に作成した単一の表の例を示す。
図4(c)に示す表は、図4(a)に示す臨床的データと図4(b)に示す基礎医学的データの両方のデータを、患者名毎に示した単一の表である。列方向には患者名が示され、行方向にはHbA1c、収縮期血圧、LDL−C、HDL−C・・・等の臨床的データの項目名の後、B332、B494、B641、B657・・・等の基礎医学的データの項目名が示される。
同一患者に関する臨床的データと基礎医学的データが対応付けられるため、図4(a)の表には存在し図4(b)の表示は存在しない患者Cおよび、図4(b)の表には存在し図4(a)の表示は存在しない患者Eは図4(c)に示す単一の表からは削除されている。
このような処理により、患者毎の臨床的データと基礎医学的データとの対応関係が明瞭になる。
In order to analyze clinical data and basic medical data by data mining techniques, it is necessary to represent these data sets in a single table. Therefore, in this step, a process for creating a single table is performed based on the clinical data illustrated in FIG. 4A and the basic medical data illustrated in FIG.
Specifically, based on the clinical data illustrated in FIG. 4A and the basic medical data illustrated in FIG. 4B, the clinical data and the basic medical data relating to the same patient are associated with each other.
FIG. 4 (c) shows an example of a single table created based on the clinical data shown in FIG. 4 (a) and the basic medical data shown in FIG. 4 (b).
The table shown in FIG. 4 (c) is a single table showing both clinical data shown in FIG. 4 (a) and basic medical data shown in FIG. 4 (b) for each patient name. . The patient name is shown in the column direction, and the clinical data item names such as HbA 1c , systolic blood pressure, LDL-C, HDL-C... Are shown in the row direction, and then B332, B494, B641, B657.・ Item names of basic medical data such as
Since clinical data and basic medical data related to the same patient are associated with each other, patient C exists in the table of FIG. 4A and does not have the display of FIG. 4B, and the table of FIG. Patient E, which does not exist in FIG. 4 (a), has been deleted from the single table shown in FIG. 4 (c).
By such processing, the correspondence between clinical data and basic medical data for each patient becomes clear.
ステップST4:
本ステップでは、解析の目的となる「特性」の入力を医療データ解析装置100の入力部104を介して受け付ける。
ここで、「特性」とは、例えば事業者1により予め決定される解析の目的に応じたデータの一項目を意味する。
「特性」は、例えば解析の目的となる疾病に対応する臨床的データの一項目から選択される。
例えば、上述した図4の例では、図4(a)に示すように、臨床的データは、HbA1c、収縮期血圧、LDL−C、HDL−C・・・と様々な項目を有している。
ここで、HbA1cは、糖尿病に関連の深い項目であり、収縮期血圧は、高血圧に関連の高い項目であり、LDL−C及びHDL−Cは、脂質異常症(高脂血症)に関連の高い項目である。
Step ST4:
In this step, an input of “characteristic” that is an object of analysis is received via the
Here, the “characteristic” means an item of data corresponding to the purpose of analysis determined in advance by the
The “characteristic” is selected from one item of clinical data corresponding to a disease to be analyzed, for example.
For example, in the example of FIG. 4 described above, as shown in FIG. 4A, clinical data includes various items such as HbA 1c , systolic blood pressure, LDL-C, HDL-C. Yes.
Here, HbA 1c is an item deeply related to diabetes, systolic blood pressure is a high item related to hypertension, and LDL-C and HDL-C are related to dyslipidemia (hyperlipidemia). It is a high item.
すなわち、事業者1は、例えば糖尿病に関して解析を行うことを目的とする場合には、「特性」としてHbA1cを選択する。同様に、高血圧に関して解析を行うことを目的とする場合には、「特性」として収縮期血圧を、脂質異常症に関して解析を行うことを目的とする場合には、「特性」としてLDL−C及びHDL−Cを選択すればよい。
また、上述した例以外の疾病に関して解析を行うことを目的とする場合は、その疾病に関連が高い項目の臨床的データをステップ1において予め入力し、本ステップにおいてその項目を選択すればよい。
このように、事業者1は、解析の目的に合わせて、臨床的データの1項目を選択し、入力部104を介して選択した項目を入力する。そして、以降のステップでは、入力された選択された項目の値に応じて解析を行うことになる。
That is, for example, the
In addition, when the purpose is to analyze a disease other than the above-described example, clinical data of an item highly related to the disease may be input in
As described above, the
なお、本実施形態では、臨床的データとして、上述したように医師の診断内容や、患者2に対するアンケートの結果等、数値やカテゴリ値ではなく文章で記述されるデータも含まれる。本実施形態では、図4(a)には例示していないものの、数値データ以外の記述データも特性として設定することができる(詳しくは後述する)。
In the present embodiment, as described above, the clinical data includes data described in sentences instead of numerical values or category values, such as doctor's diagnosis contents and results of a questionnaire for the
上述した「特性」の選択は、事業者1の入力部104を介した操作により行われる。
なお、事業者1は、例えば、解析の目的とする疾病に応じて、患者2および病院3から当該疾病に関連が高い項目の臨床的データを取得するようにしてもよいし、無作為に患者2および病院3から取得した臨床的データの中から、事業者1が任意に解析の目的とする「特性」を決定するようにしてもよい。
The above-mentioned “characteristic” is selected by an operation via the
For example, the
ステップST5:
ステップST3において生成した2次元データを基に、ステップST4において選択した「特性」に関して、データマイニングの手法によるデータ解析を行う。
データマイニングとは、蓄積されたデータを解析し、目的とする特性に関して、その中に潜む項目間の相関関係や特徴などを探し出して特性の動向を予測する手法である。
Step ST5:
Based on the two-dimensional data generated in step ST3, the “characteristic” selected in step ST4 is subjected to data analysis by a data mining technique.
Data mining is a technique for predicting the trend of characteristics by analyzing accumulated data and searching for correlations and features between items hidden in the target characteristics.
データマイニングの手法としては、例えば、C&RT法、CHAID(Chi-square Automatic Interaction Detection)法、QUEST(Quick, Unbiased, Efficient, Statistical Tree)法、C5.0法等の決定木(ルールセット)の構築と分別モデルとを提供する演算方法や、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM(Support Vector Machine)法等の決定木を構築せず分別モデルを提供する演算方法がある。
決定木(Decision Tree)とは、木構造を利用して、入力パターンに対応する分別結果のアルゴリズムを表現したものである。
分別モデルとは、与えられた数値資料に含まれるデータの特徴をデータマイニングの演算方式によって、資料中の特定項目の動向に着目及び/または整理し、データを類似集団への帰属状況に基づき個別にまとめ分類して、資料全体の持つ構造特性を再現性よく分別すること、また、後続する別の数値資料を該モデルに適用することで、容易に類似の分別結果や予測確率が得られることを特徴とする演算数式群である。
分別モデルはデータマイニングの演算方式毎に構築可能である。また、同じ数値資料、同じ演算方式であっても目的とする特性が異なれば、異なる分別モデルが生成され、電子ファイル等に保存可能である、という特徴を有する。
Data mining techniques include, for example, C & RT method, CHAID (Chi-square Automatic Interaction Detection) method, QUEST (Quick, Unbiased, Efficient, Statistical Tree) method, and C5.0 method decision tree (rule set) construction And a classification model, and a calculation method that provides a classification model without constructing a decision tree, such as a Bayesian method, a logistic regression method, a neural network algorithm, and an SVM (Support Vector Machine) method.
A decision tree represents a classification result algorithm corresponding to an input pattern using a tree structure.
A classification model is a data mining algorithm that focuses on and / or organizes the characteristics of data contained in a given numerical document, and the data is individually based on the status of belonging to a similar group. To classify and classify the structural characteristics of the entire document with good reproducibility, and to apply similar numerical results to the model to easily obtain similar classification results and prediction probabilities. Is an arithmetic expression group characterized by the following.
A classification model can be constructed for each calculation method of data mining. Further, even if the same numerical material and the same calculation method are used, if the target characteristics are different, different classification models can be generated and stored in an electronic file or the like.
・データマイニングによる解析方法
解析に使用するデータマイニングの手法は、例えば、C&RT法、CHAID法、QUEST法、C5.0法、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM(Support Vector Machine)、等の手法のうち、解析の目的や性質に合わせて事業者1が任意に選択した手法を使用すればよい。
上記例示したデータマイニングの演算手法のうち、C&RT法、CHAID法、QUEST法、C5.0法を使用した場合には、決定木と分別モデルとが提供され、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVMを使用した場合には、分別モデルのみが提供され決定木は提供されない。
Data mining techniques used by the data mining analysis method analysis, for example, C & RT method, CHAID method, QUEST method, C5.0 method, Bayes method, logistic regression, neural networks algorithm, SVM (Support Vector Machine), Of these methods, a method arbitrarily selected by the
Among the data mining calculation methods exemplified above, when the C & RT method, the CHAID method, the QUEST method, and the C5.0 method are used, a decision tree and a classification model are provided, and a Bayes method, a logistic regression method, a neural network are provided. When the algorithm, SVM is used, only the classification model is provided and the decision tree is not provided.
以下、まず、決定木を提供する演算方式の一例として、C&RT法を使用した場合について説明する。
(1)C&RT法
C&RT法は、目的変数に対してできるだけ等質なデータサブセットを作成すべく、対象を2つに分別することにより決定木を構築していくものである。
具体的には、データの不純度(Gini係数)を定義し、元のデータ(親ノードのデータ)を2つのサブセット(子ノードのデータ)に分割するとき、子ノードの不純度が親ノードの不純度に対してどの程度改善されたかを示す改善度を分別作業の評価基準として構築していく。
そして、改善度が最大となるような分別点(分別変数及びその値)を再帰的に探索する過程を、停止規則を満たすまで反復する。
Hereinafter, a case where the C & RT method is used will be described as an example of an arithmetic method for providing a decision tree.
(1) C & RT method The C & RT method constructs a decision tree by dividing the target into two in order to create as homogeneous a data subset as possible for the objective variable.
Specifically, when the impurity (Gini coefficient) of data is defined and the original data (parent node data) is divided into two subsets (child node data), the impurity of the child node is The degree of improvement indicating how much improvement has been made with respect to the impurity is established as an evaluation standard for the classification work.
Then, the process of recursively searching for the separation point (the classification variable and its value) that maximizes the improvement is repeated until the stop rule is satisfied.
不純度g(t)および改善度f(t)は、以下のように算出される。 The impurity g (t) and the improvement degree f (t) are calculated as follows.
ただし、数式1および数式2において、
However, in
である。
It is.
ここで、π(j)は、カテゴリjの事前確率、Nj(t)は、ノードtにおけるカテゴリjのケース数(本実施形態の場合は、患者数)、Njは、ルートノードにおけるカテゴリjのケース数である。また、PLは、ノードtにおいて1つ目の子ノードに送られるケースの割合であり、PRは、ノードtにおいて2つ目の子ノードに送られるケースの割合である。
C&RT法においては、改善度f(t)が最大となるように分別する。すなわち、不純度が最も大きく減少するように分別する。
このようにして、決定木を構築し、出力する。
なお、C&RT法による決定木の作出には、上述したようにGini係数を使用する他に、Twoing、最小2乗偏差(LSD)等を使用する方法もあり、目的とする特性や被検査物の性格によって使い分けるようにしてもよい。
Here, π (j) is the prior probability of category j, N j (t) is the number of cases of category j at node t (in this embodiment, the number of patients), and N j is the category at the root node. j is the number of cases. Also, P L is the percentage of cases that are sent to the first child node in node t, P R is the percentage of cases that are sent to the second child node in the node t.
In the C & RT method, separation is performed so that the improvement degree f (t) is maximized. That is, fractionation is performed so that the impurity is most greatly reduced.
In this way, a decision tree is constructed and output.
In addition to using the Gini coefficient as described above, there are other methods for creating decision trees by the C & RT method, such as using Twining, least square deviation (LSD), etc. You may make it use properly by personality.
次に、決定木を提供しない演算方式の一例として、ロジスティック回帰法を使用した場合について説明する。
(2)ロジスティック回帰法
部分母集団iにおける応答カテゴリjの確率πijは以下のようになる。
Next, a case where a logistic regression method is used will be described as an example of an arithmetic method that does not provide a decision tree.
(2) Logistic regression method The probability π ij of the response category j in the subpopulation i is as follows.
ここで、Jは最後のカテゴリである。
x’iβjは、次のように表現される。
Here, J is the last category.
x ′ i β j is expressed as follows.
ただし、j=1、・・・Jである。
However, j = 1,... J.
数式6はロジット変換の逆関数であり、J=2のとき、このモデルは2項ロジスティック回帰モデルと同じである。このため、上記モデルは2項のレスポンスから多項名義レスポンスへの、2項ロジスティック回帰モデルの延長と考えられる。
このモデルの対数尤度は以下の式により得られる。 The log likelihood of this model is obtained by the following equation.
ここで、対数尤度を最大とするパラメータBを求めるために、Newton-Raphson法を用いる。ただし、この方法は、パラメータBに対する1の二次導関数の期待値が観測対象の期待値と同じため、このモデルのFisherのスコアリングアルゴリズムと同一となる。
∂l/∂Bを、パラメータBに関する1の一次導関数の(J−1)p×1ベクトルとする。
さらに、[∂2l/∂B∂B]を、パラメータBに関する二次導関数1の(J−1)p×(J−1)p行列とする。
Here, the Newton-Raphson method is used to obtain the parameter B that maximizes the log likelihood. However, this method is the same as the Fisher scoring algorithm of this model because the expected value of the second derivative of 1 for the parameter B is the same as the expected value of the observation target.
Let ∂l / ∂B be the (J−1) p × 1 vector of the first derivative of 1 with respect to parameter B.
Further, let [∂ 2 l / ∂B∂B] be the (J−1) p × (J−1) p matrix of the
ここで、[∂2l/∂B∂B]は、以下のように与えられる。 Here, [∂ 2 l / ∂ B∂ B] is given as follows.
Δiは、次のような(J−1)×(J−1)行列である。
Δ i is the following (J−1) × (J−1) matrix.
ここで、πi (−J)=πi1,...,πiJ−1であり、Diag(πi (−J))はπi (−J)のβj*対角行列である。
Here, π i (−J) = π i1,. . . , Π iJ−1 and Diag (π i (−J) ) is a β j * diagonal matrix of π i (−J) .
反復νにおけるパラメータ推定値をB(ν)とすると、反復ν+1におけるパラメータ推定値B(ν+1)は次の式のように与えられる。 Assuming that the parameter estimation value at the iteration ν is B (ν) , the parameter estimation value B (ν + 1) at the iteration ν + 1 is given by the following equation.
ξ>0はl(B(ν+1))−l(B(ν))≧0となるようなステップ基準スカラーであり、X*は独立ベクトルの(J−1)p×(J−1)行列となる。
l(B(ν+1))−l(B(ν))<0の場合は、段階二分法を使用し、νがステップの最大数とすると、ξの値のセットは{1/2ν:ν=0,...,ν−1}となる。
ξ> 0 is a step reference scalar such that l (B (ν + 1) ) −l (B (ν) ) ≧ 0, and X * is a (J−1) p × (J−1) matrix of independent vectors. It becomes.
If l (B (ν + 1) ) −l (B (ν) ) <0, then using the step bisection method and ν being the maximum number of steps, the set of values of ξ is {1/2 ν : ν = 0,. . . , Ν−1}.
2つの収束基準εk>0及びεp>0が与えられると、次の何れかの基準が満たされた場合に反復が収束したものと見なされる。
(1)|l(B(ν+1))−l(B(ν))|<εk
(2)maxi|Bi (ν+1)−Bi (ν)|<εp
(3)∂l/∂B(ν+1)中の上記要素の最大値がmin(εk,εp)未満
このような演算方法により、分別モデルが生成される。
Given two convergence criteria ε k > 0 and ε p > 0, an iteration is considered converged if any of the following criteria is met:
(1) | l (B (ν + 1) ) −l (B (ν) ) | <ε k
(2) max i | B i (ν + 1) −B i (ν) | <ε p
(3) The maximum value of the above element in ∂l / ∂B (ν + 1) is less than min (ε k , ε p ) A classification model is generated by such a calculation method.
・基礎医学的データの生成方法
次に、基礎医学的データの生成方法について説明する。
本実施形態では、基礎医学的データとして患者から採取した糞便に含まれる腸内常在菌等の分析値を使用する場合について説明する。
-Method for generating basic medical data Next, a method for generating basic medical data will be described.
In the present embodiment, a case will be described in which analysis values of intestinal resident bacteria contained in feces collected from a patient are used as basic medical data.
まず、腸内常在菌の分析値を得る方法について詳述する。
腸内常在菌の分析値を得る方法には、例えばターミナル−RFLP(Terminal Restriction Fragment Length Polymorphism Analysis:T−RFLP)法がある。
T−RFLP法は、被検査物から微生物由来の16S rDNA遺伝子を抽出し、その鋳型DNAをPCR(ポリメラーゼ連鎖反応:Polymerase Chain Reaction)により増幅し、制限酵素(DNAの特定の塩基配列部位を切断する性質を持つ酵素)による消化後にフラグメント検査・分析を行い、制限酵素の切断部位が異なることを利用してそのピーク位置や強度の違いを計測する方法である。
T−RFLP法において、各DNA断片は共生微生物由来のOTU(Operational Taxonomic Unit:操作上の分別単位)として分別・計測される。
First, a method for obtaining an analysis value of intestinal resident bacteria will be described in detail.
For example, a terminal-RFLP (Terminal Restriction Fragment Length Polymorphism Analysis: T-RFLP) method is used as a method for obtaining an analysis value of intestinal resident bacteria.
The T-RFLP method extracts a 16S rDNA gene derived from a microorganism from an object to be examined, amplifies the template DNA by PCR (Polymerase Chain Reaction), and cleaves a restriction enzyme (specific base sequence site of DNA). In this method, fragment inspection / analysis is performed after digestion with an enzyme having a property of oxidization, and the difference in the cleavage site of the restriction enzyme is used to measure the difference in peak position and intensity.
In the T-RFLP method, each DNA fragment is classified and measured as an OTU (Operational Taxonomic Unit) derived from a symbiotic microorganism.
このような分析により、例えば図4(b)に示したような基礎医学的データが得られる。
ここで、「B332」や「B494」等の項目名は、使用した制限酵素と、その制限酵素を使用して得られたピーク位置とを示すものである。
すなわち、「B332」の場合、例えばBslIという制限酵素を用いて得られたピーク位置が「332」であるOTUを意味している。すなわち、制限酵素の頭文字と、その制限酵素を用いて得られたピーク位置とを結びつけて項目名としている。
本実施形態では、制限酵素としてBslIを使用した例を示したが、本発明はこれには限定されない。他の制限酵素、例えば、MspI、AluI、HaeIII等を使用してもよい。
By such an analysis, for example, basic medical data as shown in FIG. 4B is obtained.
Here, item names such as “B332” and “B494” indicate the restriction enzyme used and the peak position obtained using the restriction enzyme.
That is, in the case of “B332”, for example, it means an OTU whose peak position is “332” obtained using a restriction enzyme BslI. That is, the item name is formed by combining the initial letter of the restriction enzyme and the peak position obtained using the restriction enzyme.
In the present embodiment, an example in which BslI is used as a restriction enzyme has been shown, but the present invention is not limited to this. Other restriction enzymes such as MspI, AluI, HaeIII and the like may be used.
各OTUに帰属する微生物種は極めて多く、また人の共生微生物はその大部分がその種名や生理機能について未解明であるため、どのOTUがどの微生物由来のものであるかは現状では複数の制限酵素を使用する等により類推するしかない。しかし今後、安価で再現性のある画期的なDNA検査方法が開発されれば、基礎医学的データとして、現状のOTUよりも正確な個別微生物群名、種名などを含む資料を得られると思われる。
このような事情により、本実施形態では、使用した制限酵素と、その制限酵素を使用して得られたピーク位置とを示すOTUを項目名として採用している。
There are a large number of microbial species belonging to each OTU, and most of the human symbiotic microorganisms are unclear about their species names and physiological functions. It can only be inferred by using restriction enzymes. However, if an innovative and reproducible DNA testing method is developed in the future, it will be possible to obtain materials including the names of individual microorganisms and species that are more accurate than the current OTU as basic medical data. Seem.
Due to such circumstances, in this embodiment, OTU indicating the restriction enzyme used and the peak position obtained using the restriction enzyme is adopted as the item name.
・データマイニングの手法によるデータ解析の具体例
以下では、データマイニングの手法によりデータ解析の具体例を示す。
一例として、図4(a)に示す各項目をそれぞれ特性とした場合のデータ解析結果を示す。
[1]HbA1cを特性とした場合
HbA1c(ヘモグロビンA1c)を特性として選択した場合について説明する。
HbA1cはブドウ糖と結びついたヘモグロビン(血色素)であり、糖尿病と大きな関連性を有する項目である。
図5は、C&RT法でHbA1cを特性として解析を行った結果得られた決定木の一例である。図5は、定期健康診断で生活習慣病が懸念された男女121名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。
Specific example of data analysis by data mining method Hereinafter, a specific example of data analysis by the data mining method will be shown.
As an example, a data analysis result in the case where each item shown in FIG.
[1] When HbA 1c is used as a characteristic A case where HbA 1c (hemoglobin A 1c ) is selected as a characteristic will be described.
HbA 1c is hemoglobin (hemoglobin) associated with glucose and is an item having a great relevance to diabetes.
FIG. 5 is an example of a decision tree obtained as a result of analysis using HbA 1c as a characteristic by the C & RT method. Figure 5 is based on clinical data and basic medical data obtained from questionnaires, interviews, and various tests including blood, targeting 121 men and women who were concerned about lifestyle-related diseases in regular health examinations. is there.
図5において、決定木は左側から右側へと伸長している。
最も左側のノードであるノード0をルートノードといい、データ解析の対象となった全ての患者がこのノードに含まれる。
ノード0に含まれる全ての患者は、予めA〜Dの4つのカテゴリに分別されている。
このカテゴリ分けは、例えば解析の目的や性格に合わせて、事業者1によって例えば事業者1の入力部104を介した操作により予め行われている。
図5に示す例では、HbA1cの値の多寡に応じてカテゴリ分けがなされている。カテゴリ分けは、例えばHbA1cの値が所定のしきい値以下であるか、所定のしきい値より大であるか、に応じてなされればよい。
In FIG. 5, the decision tree extends from the left side to the right side.
The leftmost node,
All patients included in
This categorization is performed in advance by the
In the example shown in FIG. 5, categorization is performed according to the number of values of HbA 1c . The categorization may be performed according to, for example, whether the value of HbA 1c is equal to or less than a predetermined threshold value or greater than the predetermined threshold value.
図6に、図5におけるHbA1cのカテゴリ分けに使用したしきい値の一例を表として示す。
図6に示すように、カテゴリAは最もHbA1c濃度の低い患者が属するカテゴリであり、カテゴリDが最もHbA1c濃度の高い患者が属するカテゴリである。最もHbA1c濃度の高いカテゴリDに属する患者群は、糖尿病の重篤な患者である。
FIG. 6 is a table showing an example of threshold values used for categorizing HbA 1c in FIG.
As shown in FIG. 6, category A is the category to which the patient with the lowest HbA 1c concentration belongs, and category D is the category to which the patient with the highest HbA 1c concentration belongs. A patient group belonging to category D having the highest HbA 1c concentration is a severely diabetic patient.
図5及び図6に示す例では、HbA1c濃度が正常である患者が属するカテゴリ(カテゴリA)と、要注意状態の患者が属するカテゴリ(カテゴリBおよびC)、重篤な糖尿病である患者が属するカテゴリDとにカテゴリ分けを行うことにより、共生微生物とHbA1c濃度との関連性、ひいては共生微生物と糖尿病との関連性についての知見を得ることを目的としている。 In the examples shown in FIGS. 5 and 6, the category to which patients with normal HbA 1c concentration belong (category A), the category to which patients in need of attention (category B and C), and patients with severe diabetes are shown. The purpose is to obtain knowledge about the relationship between the symbiotic microorganisms and the HbA 1c concentration, and thus the relationship between the symbiotic microorganisms and diabetes by performing category classification to the category D to which it belongs.
図5において、各ノードには類別された各カテゴリA〜DそれぞれのHbA1cの値に対応する患者数を「n」の欄に、患者数全体における各カテゴリの患者数の割合(パーセンテージ)を「%」の欄に示している。従って、ノード0において、「n」欄の合計は患者数全体の121人であり、「%」欄の合計は「100.000」%である。
図5に示す例では、全患者数121人のうち、カテゴリAに該当する患者数は42人であり、割合は34.711%である。カテゴリBに該当する患者数は46人であり、割合は38.017%である。カテゴリCに該当する患者数は14人であり、割合は11.570%である。カテゴリDに該当する患者数は19人であり、割合は15.702%である。
In FIG. 5, each node indicates the number of patients corresponding to the value of HbA 1c in each category A to D in the “n” column, and the ratio of the number of patients in each category to the total number of patients. This is shown in the “%” column. Therefore, in
In the example shown in FIG. 5, the number of patients corresponding to category A out of the total number of patients 121 is 42, and the ratio is 34.711%. The number of patients corresponding to category B is 46, and the ratio is 38.017%. The number of patients corresponding to category C is 14, and the ratio is 11.570%. The number of patients corresponding to category D is 19, and the ratio is 15.702%.
図5において、ノード0は、ノード1およびノード2に分別されている。
この分別の条件が図5におけるノード0とノード1および2との間に記述されている。ノード0の右側に記述された「B494_tr」が分別に寄与するOTUを示し、ノード1の左側に記述された「<=21.923」およびノード2の左側に記述された「>21.923」が分別の際の境界値を示している。
すなわち、図5では、ノード0からノード1および2に分別する際に、「B494_tr」というOTUの値が境界値21.923以下であればノード1に、21.923より大であればノード2に分別している。
In FIG. 5,
This classification condition is described between
That is, in FIG. 5, when the
ここで、分別に寄与するOTUは、上述したようにC&RT法による改善度の算出により、最も改善度の高くなるように選択されたものである。図5のノード0からノード1および2への分別の場合は、「B494_tr」となる。
なお、「B494_tr」とは、Bを頭文字とする制限酵素BslIによるピーク位置が494であるOTUを意味しており、上述した基礎医学的データの項目の一つである。なお、「B494_tr」の「_tr」は上述したC&RT法による演算の際、各項目毎に基準化した値を使用したことを示している。
Here, the OTU that contributes to the classification is selected to have the highest degree of improvement by calculating the degree of improvement by the C & RT method as described above. In the case of classification from the
“B494_tr” means an OTU having a peak position of 494 due to the restriction enzyme BslI starting with B, and is one of the items of basic medical data described above. Note that “_tr” of “B494_tr” indicates that a value normalized for each item is used in the above-described calculation by the C & RT method.
図5に示した例では、ノード1には、カテゴリAに41人、カテゴリBに14人含まれカテゴリCおよびDの患者は0人である。一方、ノード2には、カテゴリAが1人、カテゴリBが32人、カテゴリCが14人、カテゴリDが19人含まれる。
In the example shown in FIG. 5,
また、図5に示した例では、ノード3にはカテゴリAの患者のみが含まれ、ノード15もほぼカテゴリAの患者のみが集まっている。また、ノード9にはカテゴリBの患者のみが集まり、ノード7、ノード16、ノード18、ノード26には、カテゴリBの患者が多く集まっている。また、ノード11および25にはカテゴリCの患者のみが集まっている。カテゴリDの患者は、ノード12にのみ全員集まっている。
In the example shown in FIG. 5, the
以上のことから、ノード11およびノード12に、HbA1c濃度が最も高い(糖尿病の重篤な患者である)カテゴリDの全員と、その次にHbA1c濃度が高いCグループの患者とが集まっていることがわかる。図5によれば、ノード11および12へと分別するOTUは「B494」と「B332」であるため、これらのOTUが糖尿病の発生に大きな関連性を有する、ということを上記解析から容易に推測することができる。
From the above, at node 11 and
[2]収縮期血圧を特性とした場合
収縮期血圧を特性として選択した場合について説明する。
収縮期血圧は高血圧症と大きな関連性を有する特性である。
図7は、C&RT法で収縮期血圧を特性として解析を行った結果得られた決定木の一例である。図7は、定期健康診断で生活習慣病が懸念された男女121名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。
[2] When systolic blood pressure is used as a characteristic A case where systolic blood pressure is selected as a characteristic will be described.
Systolic blood pressure is a characteristic that has great relevance to hypertension.
FIG. 7 is an example of a decision tree obtained as a result of analysis using systolic blood pressure as a characteristic by the C & RT method. Figure 7 is based on clinical data and basic medical data obtained from questionnaires, interviews, and various tests including blood, targeting 121 men and women who were concerned about lifestyle-related diseases in regular health examinations. is there.
図7に示す例では、図5に示した例と同様に、ノード0からC&RT法による改善度が高くなるように分別を決定し、右側へ向かって決定木を伸長し、各ノードが単一カテゴリ或いはそれに近い状態になるまで分別処理を行っている。
In the example illustrated in FIG. 7, as in the example illustrated in FIG. 5, the classification is determined from the
図7に示す例では、全ての患者は予め、例えば事業者1によりJ〜Mの4つのカテゴリに分別されている。各患者は収縮期血圧の値に応じて、カテゴリJ〜Mのいずれかに分別される。図8に、収縮期血圧の値に応じたカテゴリ分けに使用したしきい値の一例を示す。
図8に示すしきい値によりカテゴリ分けされたカテゴリJ〜Mにおいて、カテゴリMが最も収縮期血圧が高い患者の属するカテゴリである。
In the example illustrated in FIG. 7, all patients are classified in advance into four categories J to M by the
In the categories J to M classified by the threshold shown in FIG. 8, the category M is the category to which the patient with the highest systolic blood pressure belongs.
最も収縮期血圧が高いカテゴリMに属する患者は、図7によれば、ノード10に全員が含まれ、次に収縮期血圧が高いカテゴリであるカテゴリLに属する患者は、その多くがノード9に含まれる。
従って、図7に示す決定木からは、「B469」、「B124」、「B366」等のOTUが高血圧症の発生に大きな関連性を有することを容易に推測することができる。
[3]LDL−CおよびHDL−Cを特性とした場合
LDL−CおよびHDL−C(コレステロール値)を特性として選択した場合について説明する。
LDL−CおよびHDL−Cは脂質異常症(高脂血症)と大きな関連性を有する特性である。
図9は、C&RT法でLDL−CおよびHDL−Cを特性として解析を行った結果得られた決定木の一例である。図9は、定期健康診断で生活習慣病が懸念された男女121名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。
According to FIG. 7, all of the patients belonging to category M having the highest systolic blood pressure are included in
Therefore, it can be easily estimated from the decision tree shown in FIG. 7 that OTUs such as “B469”, “B124”, and “B366” have a great relevance to the occurrence of hypertension.
[3] When LDL-C and HDL-C are used as characteristics A case where LDL-C and HDL-C (cholesterol value) are selected as characteristics will be described.
LDL-C and HDL-C are properties that have great relevance to dyslipidemia (hyperlipidemia).
FIG. 9 is an example of a decision tree obtained as a result of analyzing the characteristics of LDL-C and HDL-C by the C & RT method. Figure 9 is based on clinical data and basic medical data obtained from questionnaires, interviews, and various tests including blood targeting 121 men and women who were concerned about lifestyle-related diseases in regular health examinations. is there.
図9に示す例では、図5および7に示した例と同様に、ノード0からC&RT法による改善度が高くなるように分別を決定し、右側へ向かって決定木を伸長し、各ノードが単一カテゴリ或いはそれに近い状態になるまで分別処理を行っている。
In the example shown in FIG. 9, as in the examples shown in FIGS. 5 and 7, the classification is determined from the
図9に示す例では、全ての患者は予め、例えば事業者1によりP〜Sの4つのカテゴリに分別されている。各患者はLDL−CおよびHDL−Cの値に応じて、カテゴリP〜Sのいずれかに分別される。図10にLDL−CおよびHDL−Cの値に応じたカテゴリ分けに使用したしきい値の一例を示す。
図10に示すようなしきい値によりカテゴリ分けされたカテゴリP〜Sにおいて、カテゴリSは最も重篤な脂質異常症の患者の属するカテゴリ、カテゴリPは正常な患者の属するカテゴリである。カテゴリQおよびRは脂質異常症に関して要注意状態の患者の属するカテゴリである。
In the example illustrated in FIG. 9, all patients are classified in advance into four categories P to S by the
In categories P to S categorized by threshold values as shown in FIG. 10, category S is a category to which the most severe dyslipidemic patient belongs, and category P is a category to which a normal patient belongs. Categories Q and R are categories to which patients who are in need of attention regarding dyslipidemia belong.
図9によれば、ノード1には、重篤な脂質異常症の患者が属するカテゴリSの全ての患者が含まれており、ノード4には、要注意状態の患者が属するカテゴリQおよびRの全ての患者が含まれている。
そして、ノード5にはカテゴリQの多くの患者が含まれ、ノード12にはカテゴリRの全員が含まれている。ノード4からノード5とノード12への分別に関わるOTUは「B990」である。すなわち、ノード12からノード13(全員が正常な患者の属するカテゴリPに含まれる)とノード14(要注意状態の患者の属するカテゴリQおよびRの患者が含まれる)への分別を考慮すると、「B990」の微妙な濃度差が脂質異常症の発症に大きく影響していることが推測できる。
According to FIG. 9,
以上説明したように、本実施形態の医療データ解析方法によれば、一般的に行われる健康診断や検査において得られる臨床的データと、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等や血液等の被検査物を基に基礎医学系の研究所等における検査および/または分析により生成される基礎医学的データと、を基に、データマイニングの手法によるデータ解析を行うので、臨床的データと基礎医学的データとを有機的に対応付け、これらの関連性を容易に把握可能な決定木を構築することができる。
また、臨床的データに含まれる複数の項目のうち、データ解析の目的に応じた項目を選択し、選択した項目(特性)と基礎医学的データの各項目の数値データを基にデータ解析を行うことができる。従って、同一のデータ(臨床的データおよび基礎医学的データ)から、目的とする項目を変更するだけで、目的に応じた決定木を構築することができる。
As described above, according to the medical data analysis method of the present embodiment, clinical data obtained in general medical examinations and examinations, feces, urine, saliva, nasal mucus, skin, vaginal fluid, etc. Because data analysis by data mining techniques is performed based on basic medical data generated by testing and / or analysis in basic medical laboratories based on test objects such as blood, clinical data And a basic medical data can be organically associated with each other, and a decision tree can be constructed in which these relationships can be easily grasped.
In addition, among the multiple items included in the clinical data, an item corresponding to the purpose of data analysis is selected, and data analysis is performed based on the selected item (characteristic) and the numerical data of each item of basic medical data. be able to. Therefore, it is possible to construct a decision tree according to the purpose simply by changing the target item from the same data (clinical data and basic medical data).
さらに、データ解析に使用するデータマイニングの手法として、決定木を構築可能である演算方法(例えば、C&RT法、CHAID法、QUEST法、C5.0法等)を使用することにより、目的とする特性に対応した患者がどのノードに含まれているかを視覚的かつ容易に把握することが可能であり、目的とする特性に応じた疾病等に対応する基礎医学的データの項目を容易に理解することができる。 Furthermore, as a data mining technique used for data analysis, a target characteristic can be obtained by using a calculation method (for example, C & RT method, CHAID method, QUEST method, C5.0 method, etc.) capable of constructing a decision tree. It is possible to visually and easily grasp which node contains a patient corresponding to, and to easily understand the items of basic medical data corresponding to diseases etc. according to the target characteristics Can do.
さらに、決定木および分別モデルの構築に使用した臨床的データと基礎医学的データの患者以外の新しい患者のデータに対して、予め構築した決定木および分別モデルを適用することにより、新しい患者に対する疾病状況の予測分別等が可能になる。
具体的には、例えば、新しい患者の基礎医学的データのみを取得した場合に、上述した実施形態において特性「HbA1c」について構築した決定木(図5参照)を参照するならば、構築した決定木において、分別に対応するOTUと分別境界値とが明らかになっているので、新しい患者のデータに対しては既に生成されている分別モデルを適用するだけで、新しい患者のそれぞれがどのノードに含まれるかを容易に推測することができ、これにより目的とする特性に対する新しい患者の疾病状況の予測分別等が可能となる。
In addition, by applying pre-built decision trees and classification models to new patient data other than the clinical and basic medical data patients used to build the decision trees and classification models, The situation can be predicted and sorted.
Specifically, for example, when only basic medical data of a new patient is acquired, if the decision tree (see FIG. 5) constructed for the characteristic “HbA 1c ” in the above-described embodiment is referred to, the constructed decision is made. In the tree, OTUs corresponding to classification and classification boundary values are made clear, so by applying the already generated classification model to new patient data, each new patient is assigned to which node. It is possible to easily infer whether it is included, thereby making it possible to predict and classify a new patient's disease state with respect to a target characteristic.
本発明は上述した実施形態には限定されない。
すなわち、当業者は、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更、コンビネーション、サブコンビネーション、並びに代替を行ってもよい。
The present invention is not limited to the embodiment described above.
That is, those skilled in the art may make various modifications, combinations, subcombinations, and alternatives regarding the components of the above-described embodiments within the technical scope of the present invention or an equivalent scope thereof.
上述した実施形態では、図5、7、9に示す決定木を構築するデータ解析において、選択された特性の値に応じてそれぞれ4つのカテゴリに分割したが、これは一例であり、本発明はこれには限定されない。より多くのカテゴリ、例えば6〜8つのカテゴリに分割することにより、より重篤な患者が含まれるカテゴリを見いだし、特性の関連するOTUをより好適に特定することが可能となる。 In the above-described embodiment, in the data analysis for constructing the decision trees shown in FIGS. 5, 7, and 9, each of the categories is divided into four categories according to the selected characteristic values. This is not a limitation. By dividing into more categories, for example, 6 to 8 categories, it is possible to find a category that includes a more serious patient, and to more appropriately identify an OTU related to characteristics.
また、上述した実施形態では、図5、7、9に示す決定木を構築するデータ解析において、事業者1が予め目的とした特性の値に応じたカテゴリ分けを行う例について説明したが、本発明はこれには限定されない。臨床的データは必ずしも数値やカテゴリ・データとは限らず、例えば、患者2によるアンケートの回答結果や、医師の診断結果等、文章や語句の羅列により記述されている場合もある。例えば、事業者1がこのような文章や語句の羅列の項目を特性として選択し、記述の内容に応じてカテゴリ分けをするようにしてもよい。例えば、データとして「なし」、「腹部に痛みあり」、「脚部に痛みあり」・・・等が記述されている「自覚症状」という項目を選択し、「自覚症状のありなし」でカテゴリ分けをしてもよいし、「自覚症状のある部位」でカテゴリ分けをしてもよい。このように、カテゴリ分けは解析の目的に応じて事業者1が自由に設定することが可能である。
In the above-described embodiment, the example in which the
上述した実施形態では、データマイニングの手法の例としてC&RT法及びロジスティック回帰法について説明したが、本発明にて使用するデータマイニングの演算方式はこれらには限定されない。例えば、CHAID法、QUEST法、C5.0法等、決定木(Decision Tree)の構築と分別モデルとを提供する演算方法や、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM等、決定木を構築せずに分別モデルを提供する演算方法、のうち、解析の目的に合わせた演算方法を例えば事業者1が任意に選択して使用すればよい。なお、決定木を構築しない演算方法の場合は、ノードの分別や関連性について視覚的に把握することは不可能となるが、いずれの演算方法でも分別モデルは構築されるので、目的とする特性に関するデータ解析と分別は可能である。
In the above-described embodiment, the C & RT method and the logistic regression method have been described as examples of the data mining method. However, the data mining calculation method used in the present invention is not limited thereto. For example, CHAID method, QUEST method, C5.0 method, etc., which provide decision tree construction and classification model, Bayes method, logistic regression method, neural network algorithm, SVM, etc. Of the calculation methods that provide the classification model without construction, for example, the
また、決定木を構築せずに分別モデルを生成する演算方式を採用した場合は、以下説明する数理的重要度をさらに算出し、目的とする特性に対して関係の深い項目を推定することが可能である。
数理的重要度は、例えば最近隣分析法等により算出する。
数理的重要度は、目的とする特性に対する類似性に基づいて各成分のデータパターンを識別し、その遠近距離を分類する非類似度の尺度として用いるものである。
具体的には、成分の重要度をFI(p)とし、パターンを比較した際の誤差率または誤差平方和をeとすると、生成された数値モデルにX(1),X(2),...,X(m)(1≦m≦P0)があれば、そのモデルOTU X(p)の重要度を、次の式で算出する。
In addition, when an arithmetic method that generates a classification model without constructing a decision tree is adopted, it is possible to further calculate the mathematical importance described below and estimate items closely related to the target characteristics. Is possible.
The mathematical importance is calculated by, for example, nearest neighbor analysis.
The mathematical importance is used as a measure of dissimilarity for identifying the data pattern of each component based on the similarity to the target characteristic and classifying the distance.
Specifically, if the importance of the component is FI (p) and the error rate or the error sum of squares when the patterns are compared is e, the generated numerical model is represented by X (1) , X (2) ,. . . , X (m) (1 ≦ m ≦ P 0 ) , the importance of the model OTU X (p) is calculated by the following equation.
まず、モデルから当該成分X(p)を除き、残りの成分X(1),X(2),...,X(p−1),X(p+1),...,X(m)に基づいて、誤差率または誤差平方和e(p)を算出・比較する。
そして、FI(p)=e(p)+1/mを算出し、最後に当該成分X(p)の重要度を得る。
ここで、Xは、要素Xpnを持つ2次元のP×N行列で、p=1,〜,Pは成分を、n=1,〜,Nは被験生体の計測事例を指す。また、Pは、目的とする特性の次元数であって、連続型では成分の数、カテゴリ型の特性では成分全体のカテゴリ数である。
First, the component X (p) is removed from the model, and the remaining components X (1) , X (2) ,. . . , X (p−1) , X (p + 1),. . . , X (m) , the error rate or error sum of squares e (p) is calculated and compared.
Then, FI (p) = e (p) + 1 / m is calculated, and finally the importance of the component X (p) is obtained.
Here, X is a two-dimensional P × N matrix having an element X pn , p = 1,..., P is a component, and n = 1,. Further, P is the number of dimensions of the target characteristic, which is the number of components in the continuous type, and the number of categories of the entire component in the category type characteristics.
また、上述した実施形態では、基礎医学的データとして、患者2の糞便を被検査物とし、腸内常在菌についてのデータを使用する場合について説明したが、本発明はこれには限定されない。例えば、尿、唾液、鼻腔粘液、皮膚や膣液を被検査物としてこれらに含まれる共生微生物を解析の対象としてもよい。また、例えば、血液を被検査物としたメタボローム解析(全成分解析:代謝産物を網羅的に解析すること)の結果を基礎医学的データとして使用してもよい。
Moreover, although embodiment mentioned above demonstrated the case where the stool of
1・・・事業者、2・・・患者、3・・・病院、100・・・医療データ解析装置、101・・・記憶部、102・・・表示部、103・・・制御部、104・・・入力部
DESCRIPTION OF
Claims (7)
前記医療データ解析装置が、同一患者に関する前記臨床医学的データと前記基礎医学的データを対応付ける第1のステップと、
前記医療データ解析装置が、予め選択された前記臨床医学的データの一項目に対して、前記第1のステップにおいて対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2のステップと、
を有し、
前記第2のステップは、前記データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成する第3のステップをさらに有する
医療データ解析方法。 Practical data on patients, including at least one of physical data on multiple patients, data on patient lifestyle, data on patient's disease status, and data on test results obtained from patients Clinical medical data, which is data obtained during examination and / or treatment, and / or basic medical examination and / or examination of stool, urine, saliva, nasal mucus, skin and vaginal fluid. contains data about probiotic microorganisms obtained by performing analysis, and basic medical data is data about the results of the basic medical examination and / or analysis of the object to be inspected obtained from a patient, a based on, performing data analysis A medical data analysis method for a medical data analyzer,
The medical data analysis device first associates the clinical medical data and the basic medical data for the same patient;
The medical data analysis device for preselected a component of the clinical medical data, based on the basic medical data associated in the first step, data analysis using data mining techniques A second step of performing
Have
The second step is a third step of extracting a similar group in the basic medical data by the data mining technique and generating a classification model for classifying structural characteristics of the entire basic medical data. A medical data analysis method further comprising:
請求項1に記載の医療データ解析方法。 In the second step, at least one of the C & RT method, the CHAID method, the QUEST method, and the C5.0 method is used as the data mining method, and the medical data analysis device uses the method to determine the decision tree and the classification The medical data analysis method according to claim 1, wherein a model is constructed.
請求項1に記載の医療データ解析方法。 In the second step, at least one of a Bayesian method, a logistic regression method, a neural network algorithm, and an SVM (Support Vector Machine) is used as the data mining method. The medical data analysis method according to claim 1, wherein a classification model is constructed.
請求項1から3のいずれか一項に記載の医療データ解析方法。 In the second step, the medical data analysis device sets one item of the pre-selected clinical medical data as an objective variable, and sets each item of the associated basic medical data as an explanatory variable. The medical data analysis method according to any one of claims 1 to 3, wherein the classification model is constructed by a data mining technique.
前記患者の生活習慣に関するデータは、喫煙習慣、晩酌習慣、食事の嗜好、食事の内容、睡眠状況、運動の質、運動の量の内、少なくともいずれかのデータを含み、
前記患者の疾病状態に関するデータは、血圧、服薬状況、既往病歴、自覚症状、医療関係者による診断結果の内、少なくともいずれかのデータを含み、
前記患者から得られる被検査物の検査結果に関するデータは、血液検査の結果および尿検査の結果の内、少なくともいずれかのデータを含む
請求項1から4のいずれか一項に記載の医療データ解析方法。 The physical data regarding the plurality of patients includes at least one of sex, age, height, weight, and obesity,
The data on the lifestyle of the patient includes at least one of smoking habit, supper habit, meal preference, meal content, sleep situation, exercise quality, exercise quantity,
The data regarding the disease state of the patient includes at least one of blood pressure, medication status, past medical history, subjective symptoms, and diagnostic results by medical personnel,
The medical data analysis according to any one of claims 1 to 4, wherein the data related to the test result of the test object obtained from the patient includes at least one of a blood test result and a urine test result. Method.
前記臨床医学的データおよび前記基礎医学的データを記憶する記憶部と、
入力操作を受け付ける入力部と、
制御部と、
を有し、
前記制御部は、同一患者に関する前記臨床医学的データと前記基礎医学的データを対応付け、前記入力部を介した入力操作により予め選択された前記臨床医学的データの一項目に対して対応付けられた基礎医学的データを基に、データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成してデータ解析を行う
医療データ解析装置。 Practical data on patients, including at least one of physical data on multiple patients, data on patient lifestyle, data on patient's disease status, and data on test results obtained from patients Clinical medical data, which is data obtained during examination and / or treatment, and / or basic medical examination and / or examination of stool, urine, saliva, nasal mucus, skin and vaginal fluid. contains data about probiotic microorganisms obtained by performing analysis, and basic medical data is data about the results of the basic medical examination and / or analysis of the object to be inspected obtained from a patient, a based on, performing data analysis A medical data analysis device,
A storage unit for storing the clinical medical data and the basic medical data;
An input unit that accepts input operations;
A control unit;
Have
The control unit associates the clinical medical data and the basic medical data related to the same patient, and is associated with one item of the clinical medical data selected in advance by an input operation via the input unit. Based on the basic medical data, a data mining technique is used to extract a similar group in the basic medical data and generate a classification model to separate the structural characteristics of the entire basic medical data. Medical data analysis device.
同一患者に関する前記臨床医学的データと前記基礎医学的データを対応付ける第1の手順と、
予め選択された前記臨床医学的データの一項目に対して、前記第1の手順において対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2の手順と、
前記第2の手順において、前記データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成する第3の手順と、
を前記コンピュータに実行させるプログラム。 Practical data on patients, including at least one of physical data on multiple patients, data on patient lifestyle, data on patient's disease status, and data on test results obtained from patients Clinical medical data, which is data obtained during examination and / or treatment, and / or basic medical examination and / or examination of stool, urine, saliva, nasal mucus, skin and vaginal fluid. contains data about probiotic microorganisms obtained by performing analysis, and basic medical data is data about the results of the basic medical examination and / or analysis of the object to be inspected obtained from a patient, a based on, performing data analysis A program executed by a computer included in the medical data analysis device,
A first procedure for associating the clinical medical data and the basic medical data for the same patient;
A second procedure for performing data analysis using a data mining method based on the basic medical data associated in the first procedure with respect to one item of the clinical medical data selected in advance; ,
In the second procedure, a third procedure for extracting a similar group in the basic medical data by the data mining technique and generating a classification model for classifying the structural characteristics of the entire basic medical data. When,
A program for causing the computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011139811A JP5645761B2 (en) | 2011-06-23 | 2011-06-23 | Medical data analysis method, medical data analysis device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011139811A JP5645761B2 (en) | 2011-06-23 | 2011-06-23 | Medical data analysis method, medical data analysis device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013008159A JP2013008159A (en) | 2013-01-10 |
JP5645761B2 true JP5645761B2 (en) | 2014-12-24 |
Family
ID=47675467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011139811A Expired - Fee Related JP5645761B2 (en) | 2011-06-23 | 2011-06-23 | Medical data analysis method, medical data analysis device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5645761B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2852909A4 (en) | 2012-05-23 | 2015-12-30 | Iphenotype Llc | Phenotypic integrated social search database and method |
CN106156067B (en) * | 2015-03-30 | 2019-11-01 | 日本电气株式会社 | For creating the method and system of data model for relation data |
JP6068715B1 (en) * | 2016-07-06 | 2017-01-25 | 原 正彦 | Intervention effect estimation system, intervention effect estimation method, and program used for intervention effect estimation system |
JP6280997B1 (en) * | 2016-10-31 | 2018-02-14 | 株式会社Preferred Networks | Disease onset determination device, disease onset determination method, disease feature extraction device, and disease feature extraction method |
KR102261474B1 (en) * | 2019-07-12 | 2021-06-07 | 주식회사 젠큐릭스 | Method and system for processing data using auto-thresholding |
JP7479604B2 (en) * | 2019-07-31 | 2024-05-09 | 都築電気株式会社 | Discharge date prediction method and device using machine learning |
CN110517787A (en) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | A kind of clinical data group classification method based on Chinese medical main suit's analysis |
WO2021199267A1 (en) * | 2020-03-31 | 2021-10-07 | 株式会社Peco | Animal patient diagnosis proposal system, animal patient diagnosis proposal termin al, and animal patient diagnosis proposal program |
KR102304402B1 (en) * | 2021-03-26 | 2021-09-24 | 주식회사 에이치이엠파마 | Method and diagnostic apparatus for determining obesity using machine learning model |
CN114334167A (en) * | 2021-12-31 | 2022-04-12 | 医渡云(北京)技术有限公司 | Medical data mining method and device, storage medium and electronic equipment |
CN116453641B (en) * | 2023-06-19 | 2023-09-05 | 潍坊医学院附属医院 | Data processing method and system for auxiliary analysis information of traditional Chinese medicine |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3823192B2 (en) * | 2002-04-19 | 2006-09-20 | 学校法人慶應義塾 | Medical support device, medical support method, and medical support program |
-
2011
- 2011-06-23 JP JP2011139811A patent/JP5645761B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013008159A (en) | 2013-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5645761B2 (en) | Medical data analysis method, medical data analysis device, and program | |
Kocher et al. | Clinical epidemiology and biostatistics: a primer for orthopaedic surgeons | |
JP6533930B1 (en) | Method of calculating disease evaluation index, apparatus, system, program, and model creation method for calculating disease evaluation index | |
US20220172841A1 (en) | Methods of identifying individuals at risk of developing a specific chronic disease | |
JP2018067303A (en) | Diagnosis support method, program and apparatus | |
JP2008532104A (en) | A method, system, and computer program product for generating and applying a prediction model capable of predicting a plurality of medical-related outcomes, evaluating an intervention plan, and simultaneously performing biomarker causality verification | |
JP2008077603A (en) | Examination item selection device, examination item selection method and examination item selection program | |
CN110603592B (en) | Biomarker detection method, disease judgment method, biomarker detection device, and biomarker detection program | |
Arostegui et al. | Analysis of the short form‐36 (SF‐36): the beta‐binomial distribution approach | |
Merom et al. | Measurement issues in quantitative research | |
JP2009205464A (en) | Medical information processor, medical information processing method, and medical information processing program | |
Bhattacharya et al. | Identifying patterns of associated-conditions through topic models of Electronic Medical Records | |
Imamura et al. | A technique for identifying three diagnostic findings using association analysis | |
Samet et al. | Predicting and staging chronic kidney disease using optimized random forest algorithm | |
Gill et al. | Chronic fatigue syndrome in adolescents: a follow-up study | |
JP2011138376A (en) | Diagnosis support system | |
Gump et al. | Exposure to arsenic and subclinical cardiovascular disease in 9-to 11-year-old children, Syracuse, New York | |
Josephson et al. | A systematic review of clinical decision rules for epilepsy | |
Navaz et al. | The use of data mining techniques to predict mortality and length of stay in an ICU | |
Bahuguna et al. | Statistical Analysis and Prediction of Heart Disease Using Machine Learning | |
Campero-Jurado et al. | Problems in pregnancy, modeling fetal mortality through the Naïve Bayes classifier. | |
Yang et al. | A robust phenotype-driven likelihood ratio analysis approach assisting interpretable clinical diagnosis of rare diseases | |
GB2548627A (en) | A system and a method for assessing patient treatment risk using open data and clinician input | |
Lakshmi et al. | A Review And Analysis Of The Role Of Machine Learning Techniques To Predict Health Risks Among Women During Menopause | |
Strayer et al. | Interoperability of phenome-wide multimorbidity patterns: a comparative study of two large-scale EHR systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140530 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140912 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20141010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5645761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |