JP6695431B2 - Analytical apparatus, analytical system and analytical method - Google Patents
Analytical apparatus, analytical system and analytical method Download PDFInfo
- Publication number
- JP6695431B2 JP6695431B2 JP2018536626A JP2018536626A JP6695431B2 JP 6695431 B2 JP6695431 B2 JP 6695431B2 JP 2018536626 A JP2018536626 A JP 2018536626A JP 2018536626 A JP2018536626 A JP 2018536626A JP 6695431 B2 JP6695431 B2 JP 6695431B2
- Authority
- JP
- Japan
- Prior art keywords
- factors
- occurrence
- factor
- clusters
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 125
- 238000000034 method Methods 0.000 claims description 104
- 238000009826 distribution Methods 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 69
- 239000003814 drug Substances 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 43
- 229940079593 drug Drugs 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 7
- 230000000857 drug effect Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 3
- 201000010099 disease Diseases 0.000 description 27
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 27
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 238000000342 Monte Carlo simulation Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Child & Adolescent Psychology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データを分析する分析装置、分析システムおよび分析方法に関する。 The present invention relates to an analysis device, an analysis system and an analysis method for analyzing data.
特許文献1は、患者属性と1つ以上の有害事象(Adverse Events;AE)との間の相関に関する情報を識別および提供する臨床意思決定支援システムとともに使用するコンピュータ実装方法、システム、およびコンピュータ可読記憶媒体を開示する。特許文献1のプロセスは、AEと患者属性との間の相関に対してAEおよび1つ以上の患者属性を含むデータベース情報を処理することと、1つ以上のAEと1つ以上の患者属性との間の少なくとも1つの相関を識別することとを含む。相関は、1つ以上の相関ルールを決定するための相関ルール発見プロセスを介して発見されてもよい。各相関ルールは、確信度、支持度、および/または他の閾値を満たす。当該プロセスは、識別または発見された相関に基づいて、ユーザに情報または警告をさらに提供する。 US Patent Application Publication No. 2004/011187 A1 is a computer-implemented method, system, and computer-readable storage for use with a clinical decision support system that identifies and provides information about a correlation between patient attributes and one or more adverse events (AEs). Disclose the medium. The process of U.S. Patent No. 6,096,981 processes database information including AEs and one or more patient attributes for correlation between AEs and patient attributes, one or more AEs and one or more patient attributes, Identifying at least one correlation between Correlations may be discovered via a correlation rule discovery process to determine one or more association rules. Each association rule meets certainty, support, and / or other thresholds. The process further provides the user with information or alerts based on the identified or discovered correlations.
特許文献2は、診療に対する適切な支援を行う診療支援プログラムを開示する。特許文献2の診療支援プログラムでは、診断された病気に対する患者の治療期間と前記診断された病気に対する基準治癒期間とを比較し、前記患者の治療期間が前記基準治癒期間を越えている場合に、類似する症状を発症させるそれぞれの病気を関連付けて記憶する記憶手段から前記診断された病気の症状に類似する症状を発症させる他の病気を検索し、検索した前記他の病気の病名情報を出力する、処理をコンピュータに実行させる。
しかしながら、上述した従来技術では、学習データから学習モデルを生成しても、どの因子が他のどの因子と関連するかがわからないという問題がある。たとえば、目的変数を疾病確率、因子を複数の薬の投与量とした場合、たとえば、薬Aと薬Bとを組み合わせて患者に投与することが効果的なのか、副作用が生じるのかがわからないという問題がある。 However, the above-mentioned conventional technique has a problem that even if a learning model is generated from learning data, it is not known which factor is associated with which other factor. For example, when the objective variable is the disease probability and the factor is the dose of a plurality of drugs, for example, it is not known whether it is effective to administer a combination of drug A and drug B to a patient or whether side effects occur. There is.
本発明は、因子の組み合わせの有効性を分析することを目的とする。 The present invention aims to analyze the effectiveness of a combination of factors.
本願において開示される発明の一側面となる分析装置、分析システムおよび分析方法は、記憶デバイスに、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しておき、前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、を実行することを特徴とする。 An analysis apparatus, an analysis system, and an analysis method according to one aspect of the invention disclosed in the present application, a storage device, a learning data set having a plurality of learning data including measured values of objective variables and measured values of a plurality of factors, A prediction data set having a plurality of prediction data derived from the learning data including prediction values of the plurality of factors, and a learning model indicating a relationship between the measured value of the objective variable and the measured values of the plurality of factors are stored. A first generation process of clustering the prediction data sets to generate a plurality of factor clusters so that the values of the plurality of factors are similar to each other, and using the prediction data set, A first calculation process for calculating a co-occurrence amount in which the plurality of factors co-occur by correlation, and clustering the plurality of factors based on the co-occurrence amount calculated in the first calculation process to obtain two or more factors. A second generation process for generating a plurality of co-occurrence clusters having one or more co-occurrence clusters including, and a specific factor cluster including two or more factors among the plurality of factor clusters generated by the first generation process. Of the predicted values of the two or more factors in the included specific prediction data group, the two or more specific factors indicated by the specific co-occurrence cluster among the plurality of co-occurrence clusters generated by the second generation processing are included. A second calculation process of calculating a predicted value of the objective variable in the specific factor cluster by giving the predicted value to the learning model.
本発明の代表的な実施の形態によれば、因子の組み合わせの有効性を分析することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to the exemplary embodiment of this invention, the effectiveness of the combination of factors can be analyzed. Problems, configurations and effects other than those described above will be clarified by the following description of the embodiments.
<データ分析例>
図1は、実施例1にかかるデータ分析例を示す説明図である。(1)〜(6)は、分析装置による分析方法の手順を示す。(1)分析装置は、学習データ集合10から学習モデルを生成する。学習データ集合10は、例として、目的変数を薬効、具体的には疾病確率とし、因子を複数の薬の患者への投与量とする。疾病確率は、0%〜100%で表現できるが、ここでは、疾病を1(=100%)、健康を0(=0%)とする。また、因子は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、数万から数億の薬である。また、各エントリは、患者を示す。患者は便宜的にA〜Fの6人であるが、実際には、たとえば、数万から数億の患者である。<Data analysis example>
FIG. 1 is an explanatory diagram of a data analysis example according to the first embodiment. (1) to (6) show the procedure of the analysis method by the analyzer. (1) The analysis device generates a learning model from the learning data set 10. In the learning data set 10, for example, the objective variable is the drug effect, specifically the disease probability, and the factor is the dose of a plurality of drugs to the patient. The disease probability can be expressed as 0% to 100%, but here, the disease is 1 (= 100%) and the health is 0 (= 0%). In addition, the factors are four explanatory variables of
(1)学習モデルの生成において、生成される学習モデルには、線形モデルと非線形モデルがある。線形モデルには、たとえば、線形分類(Linear Classification)とロジスティック回帰(Logistic Regression)とがある。非線形モデルには、たとえば、ニューラルネットワーク(Neural Network)、サポートベクターマシン(Support Vector Machine)、アダブースト(Adaboost)、ランダムフォレスト(Random Forests)がある。ユーザは、学習モデルの生成の際に、いずれかのモデルを選択することができる。たとえば、ユーザは、因子の組み合わせの有効性を高速に分析したい場合には、線形モデルを選択すればよく、高精度に分析したい場合には、非線形モデルを選択すればよい。 (1) In generating the learning model, the learning model generated includes a linear model and a non-linear model. Linear models include, for example, linear classification and logistic regression. Examples of the non-linear model include a neural network (Neural Network), a support vector machine (Support Vector Machine), an Adaboost, and a random forest (Random Forests). The user can select one of the models when generating the learning model. For example, the user may select a linear model when analyzing the effectiveness of a combination of factors at high speed, and may select a non-linear model when analyzing with high accuracy.
(2)分析装置は、(1)で生成された学習モデルから各因子の確率分布20を生成する。具体的には、たとえば、分析装置は、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布20を2組(それぞれd1、d2と称す)生成する。これにより、仮想的な因子データを大量に収集することができる。
(2) The analysis device generates the
(3)分析装置は、(2)で生成された因子の確率分布d1,d2が同一の確率分布に収束するか否かを判定する。収束判定には、具体的には、たとえば、Gelman−Rubin法が用いられる。収束するまで、分析装置は、(2)の因子の確率分布20を生成する。
(3) The analyzer determines whether the probability distributions d1 and d2 of the factors generated in (2) converge to the same probability distribution. Specifically, for example, the Gelman-Rubin method is used for the convergence determination. Until it converges, the analyzer generates the
(4)分析装置は、(3)で収束すると判定された因子の確率分布d1、d2を統合し、統合した因子の確率分布(統合確率分布D)について、因子クラスタリングを実行する。因子クラスタリングには、具体的には、たとえば、k−meansクラスタリングが用いられる。クラスタ数は、あらかじめ設定される。ここでは、クラスタ数は例として「3」とする。これにより、因子クラスタリング結果40において、統合確率分布Dのエントリは、3種類の患者タイプα、β、γに分類される。
(4) The analysis device integrates the probability distributions d1 and d2 of the factors determined to converge in (3), and performs factor clustering on the integrated probability distribution of the factors (integrated probability distribution D). For the factor clustering, specifically, for example, k-means clustering is used. The number of clusters is set in advance. Here, the number of clusters is “3” as an example. As a result, in the
(5)また、分析装置は、統合確率分布Dについて、共起クラスタリングを実行する。具体的には、たとえば、分析装置は、統合確率分布Dの因子同士の相関係数を共起量として算出する。そして、分析装置は、共起量に階層クラスタリング法を適用し、共起クラスタを生成する。ここでは、共起クラスタ1(薬1,薬2)と共起クラスタ2(薬3,薬4)が得られたものとする。なお、ここでは、共起クラスタは、2つの因子の組み合わせであるが、3以上の因子の組み合わせでもよい。
(5) Further, the analysis device executes co-occurrence clustering on the integrated probability distribution D. Specifically, for example, the analysis device calculates the correlation coefficient between the factors of the integrated probability distribution D as the co-occurrence amount. Then, the analysis device applies the hierarchical clustering method to the co-occurrence amount to generate a co-occurrence cluster. Here, it is assumed that the co-occurrence cluster 1 (
(6)分析装置は、患者タイプα、β、γごとに、共起クラスタに属する因子を学習モデルに与えることにより、患者タイプα、β、γごとの疾病確率の予測値を算出する。このように、分析装置は、因子の組み合わせの有効性を分析することができる。 (6) The analyzer calculates the predicted value of the disease probability for each of the patient types α, β, γ by giving the learning model a factor belonging to the co-occurrence cluster for each of the patient types α, β, γ. In this way, the analyzer can analyze the effectiveness of the combination of factors.
<分析装置のハードウェア構成例>
図2は、分析装置のハードウェア構成例を示すブロック図である。分析装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バスにより接続される。プロセッサ201は、分析装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワークと接続し、データを送受信する。<Example of hardware configuration of analyzer>
FIG. 2 is a block diagram showing a hardware configuration example of the analyzer. The
<学習データ例>
図3は、図1に示した学習データ集合10の詳細な内容を示す説明図である。学習データ集合10は、例として、テーブル形式のデータとする。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、患者IDフィールド301の値を、患者ID301と表記する。<Example of learning data>
FIG. 3 is an explanatory diagram showing the detailed contents of the learning
学習データ集合10は、患者IDフィールド301と、目的変数フィールド302と、因子フィールド303と、を有する。同一行における各フィールド301〜303の値が患者情報となるエントリを構成する。図3では、エントリ数は「6」であるが、実際には、たとえば、数万から数億の患者のエントリがある。
The learning
患者IDフィールド301は、患者IDを格納する記憶領域である。患者ID301は、患者を一意に特定する識別情報である。
The
目的変数フィールド302は、患者ID301ごとの目的変数を格納する記憶領域である。目的変数302は、疾病確率を示す。疾病確率は、0%〜100%で表現できるが、学習データ集合10は実測値であるため、疾病を1(=100%)、健康を0(=0%)とする。
The target
因子フィールド303は、複数の因子を格納する記憶領域である。因子303は、薬の投与量を示す説明変数である。本例では、因子303は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、数万から数億の薬である。なお、因子303である薬の投与量の単位は、薬ごとに定められる。
The
図3において、患者ID301が「患者A」のエントリは、患者Aに薬1を「20」、薬2を「13.0」、薬4を「22.0」を投与された結果、患者Aは疾病であることを示す。また、患者ID301が「患者B」のエントリは、患者Bに薬1を「10」、薬2を「23.0」、薬3を「1」、薬4を「31.0」を投与された結果、患者Bは疾病であることを示す。
In FIG. 3, for the entry with the
<初期設定画面例>
図4は、初期設定画面例を示す説明図である。初期設定画面400は、出力デバイス204の一例であるディスプレイに表示され、入力デバイス203により設定される。機械学習選択領域401は、機械学習方法を選択するプルダウン式のインタフェースである。因子クラスタリング設定領域402は、クラスタリング方法と、クラスタ数と、を設定する領域である。因子クラスタリング選択領域403は、因子クラスタリングの手法を選択するプルダウン式のインタフェースである。因子クラスタ数設定領域404は、因子クラスタリングで得たいクラスタの数を設定する入力欄である。<Example of initial setting screen>
FIG. 4 is an explanatory diagram showing an example of the initial setting screen. The
σ値設定領域405は、σ値を設定する入力欄である。σ値は、図1の(2)各因子の確率分布20の生成において、マルコフ連鎖モンテカルロ法の採択率αで用いられる固定のパラメータである。σ値は、0よりも大きく1以下の範囲の値である。
The σ
共起クラスタリング設定領域406は、共起方法と、クラスタリング方法と、クラスタ数と、しきい値とを設定する領域である。共起量選択領域407は、共起量の計算方法を選択するプルダウン式のインタフェースである。共起クラスタリング選択領域408は、共起クラスタリングの手法を選択するプルダウン式のインタフェースである。共起クラスタ数設定領域409は、因子クラスタリングで得たい共起クラスタの数を設定する入力欄である。しきい値設定領域410は、因子クラスタの関連度を示す相関値の予測値についてのしきい値を設定する入力欄である。決定ボタン411は、各項目401〜410の値を入力するボタンである。
The co-occurrence
<分析処理手順例>
図5は、分析装置200による分析処理手順例を示すフローチャートである。分析装置200は、記憶デバイス202に記憶された分析プログラムをプロセッサ201に実行させることにより、図5のフローチャートに示す処理を実行する。まず、分析装置200は、初期設定を実行する(ステップS501)。初期設定(ステップS501)では、図4に示した初期設定画面がディスプレイに表示される。ユーザは、初期設定画面の各項目401〜409について選択または入力をする。分析装置200は、入力ボタン410の押下を検出することで、各項目401〜409の値を読み込む。<Example of analysis processing procedure>
FIG. 5 is a flowchart showing an example of an analysis processing procedure by the
つぎに、分析装置200は、図1の(1)に示したように、学習データ集合10から学習モデルを生成する(ステップS502)。ロジスティック回帰の場合、学習モデルは下記式(1)で表現される。
Next, the
y=f(x)=σ(wtx+b)・・・(1)y = f (x) = σ (w t x + b) (1)
yは目的変数を示すスカラである。xはm次元の特徴量ベクトルである。mは因子の個数に相当する。図3の学習データ集合10では、因子303の数は4個(薬1〜薬4)であるため、m=4である。σ()はシグモイド関数である。ベクトルwとスカラbは、それぞれ、重みとバイアスのパラメータであり、学習パラメータと呼ばれる。非線形モデルの場合、シグモイド関数σ()内のwtxが、ベクトルwと因子xとに基づくwtxよりも複雑な関数に置き換わる。y is a scalar indicating an objective variable. x is an m-dimensional feature vector. m corresponds to the number of factors. In the learning
分析装置200は、図4の機械学習選択領域401で選択された機械学習方法に応じた学習モデルを選択して、学習モデルを表現する学習パラメータを求める。
The
つぎに、分析装置200は、図1の(2)に示したように、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布d1,d2を生成する(ステップS503)。
Next, the
図6は、因子の確率分布d1,d2を示す説明図である。因子の確率分布d1,d2は、仮想患者IDフィールド601と、目的変数フィールド602と、因子フィールド603と、を有する。同一行における各フィールド601〜603の値が仮想患者情報となるエントリを構成する。なお、エントリ数は、学習データ集合10のエントリ数と同数とする。
FIG. 6 is an explanatory diagram showing the probability distributions d1 and d2 of the factors. The factor probability distributions d1 and d2 have a virtual
仮想患者IDフィールド601は、仮想患者IDを格納する記憶領域である。仮想患者ID601は、仮想患者を一意に特定する識別情報である。
The virtual
目的変数フィールド602は、仮想患者ID601ごとの目的変数を格納する記憶領域である。目的変数602は、疾病確率を示す。疾病確率は、0%〜100%で表現される。
The target
因子フィールド603は、複数の因子を格納する記憶領域である。因子603は、薬の投与量を示す説明変数である。本例では、因子603の数は、学習データ集合10の因子303の数と同数となる。
The
因子の確率分布d1,d2のエントリである仮想患者情報の生成例について説明する。分析装置200は、学習データ集合10のエントリ群からいずれかのエントリの因子ベクトルを選択する。たとえば、患者ID301が「患者A」の因子ベクトルx=(20,13.0,0,22.0)が選択されたとする。分析装置200は、選択した因子ベクトルの各要素に乱数値rを加算して、仮想因子ベクトルx’=(20+r,13.0+r,0+r,22.0+r)とする。
An example of generation of virtual patient information that is entries of the factor probability distributions d1 and d2 will be described. The
分析装置200は、選択された因子ベクトルxと仮想因子ベクトルx’とをマルコフ連鎖モンテカルロ法の採択率αの式(2)に代入する。
The
関数qはガウス分布関数である。関数q(x’|x)は、因子ベクトルxが与えられた場合に仮想因子ベクトルx’を生成する確率を示すガウス分布関数である。関数q(x|x’)は、仮想因子ベクトルx’が与えられた場合に因子ベクトルxを生成する確率を示すガウス分布関数である。関数fは、たとえば、式(1)に示したような、ステップS502で生成された学習モデルである。σには、σ値設定領域405に入力されたσ値が代入される。σ値により、採択率αは、(1−σ)以上の疾病確率の患者情報を含むガウス分布となる。すなわち、(1−σ)以上の疾病確率となる仮想患者情報の仮想因子ベクトルx’を採択率αで採択することができる。
The function q is a Gaussian distribution function. The function q (x '| x) is a Gaussian distribution function indicating the probability of generating the virtual factor vector x'when the factor vector x is given. The function q (x | x ') is a Gaussian distribution function indicating the probability of generating the factor vector x when the virtual factor vector x'is given. The function f is, for example, the learning model generated in step S502 as shown in Expression (1). The σ value input to the σ
次に、0〜1の区間で一様な乱数βを発生させ、採択率αがしきい値β(たとえば、1)以上である場合、分析装置200は、仮想因子ベクトルx’を採択する。採択率αがしきい値以上でない場合、分析装置200は、因子ベクトルxを採択する。採択された因子ベクトルを採択因子ベクトル<x>と表記する。
Next, when a uniform random number β is generated in the interval of 0 to 1 and the adoption rate α is equal to or greater than the threshold value β (for example, 1), the
採択率αがしきい値β(たとえば、1)以上である場合、分析装置200は、採択因子ベクトル<x>と乱数ベクトルRとを比較する。具体的には、たとえば、分析装置200は、採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上であるか否かを判断する。採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上である場合、分析装置200は、採択因子ベクトル<x>を新規の仮想患者の仮想因子ベクトルに決定する。
When the adoption rate α is equal to or larger than the threshold value β (for example, 1), the
採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上でない場合、分析装置200は、因子ベクトルxを新規の仮想患者の仮想因子ベクトルに決定する。なお、採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上であることを判断の条件としたが、採択因子ベクトル<x>の一部の要素が、乱数ベクトルRの対応する要素以上であるとしてもよい。
When all the elements of the adopted factor vector <x> are not equal to or greater than the corresponding elements of the random number vector R, the
このあと、分析装置200は、各仮想患者情報のエントリにおいて、学習モデルに新規の仮想患者の仮想因子ベクトルである因子603を与えることで、目的変数602である疾病確率を算出する。このようにして、ステップS503において、仮想患者情報のエントリが設定され、因子の確率分布d1,d2が生成される。
After that, the
図5に戻り、分析装置200は、図1の(3)に示したように、因子の確率分布d1,d2が同一の確率分布に収束しているかを判定する(ステップS504)。具体的には、たとえば、分析装置200は、因子の確率分布d1,d2が同一の確率分布に収束しているかを検証するための収束値を、Gelman−Rubin法により計算する。より具体的には、分析装置200は、因子の確率分布d1の列データと、当該列データに対応する因子の確率分布d2の列データとを、Gelman−Rubinの収束判定式に与えて、収束値Rhatを算出する。
Returning to FIG. 5, the
たとえば、分析装置200は、因子の確率分布d1の目的変数602の列データと、因子の確率分布d2の目的変数602の列データとをGelman−Rubinの収束判定式に与えて、収束値Rhatを算出する。また、分析装置200は、因子の確率分布d1の因子603における薬1の列データと、因子の確率分布d2の因子603における薬1の列データとをGelman−Rubinの収束判定式に与えて、収束値Rhatを算出する。薬2以降の列データに付いても同様に、分析装置200は、収束値Rhatを算出する。
For example, the
収束値Rhatが1.1以下であれば、因子の確率分布d1,d2の列データは、同一の確率分布に収束すると判定する。分析装置200は、収束しないと判定された列データを削除する。残存列データの数がしきい値(たとえば、50%以上)以上であれば、因子の確率分布d1,d2が同一の確率分布に収束していることとなり(ステップS504:Yes)、ステップS505に移行する。残存列データの数がしきい値以上でなければ(ステップS504:No)、ステップS503に戻り、分析装置200は、学習データ集合10由来の因子の確率分布d1,d2を再生成する。また、因子の確率分布d1,d2の因子603の列データが1つでも削除された場合、分析装置200は、残存する因子603を学習モデルに与えて、目的変数602を再計算する。
If the convergence value Rhat is 1.1 or less, it is determined that the column data of the factor probability distributions d1 and d2 converge to the same probability distribution. The
収束しない列データを削除することにより、因子の確率分布d1,d2の信頼性の向上を図ることができ、分析精度が向上する。また、残存列データの数がしきい値以上であれば、分析装置200は、収束しないと判定された列データを削除せずに、ステップS504に移行してもよい。これにより、因子603を網羅した分析をおこなうことができる。また、ステップS504を実行しないこととしてもよい。これにより、分析速度の向上を図ることができる。
By deleting the column data that does not converge, it is possible to improve the reliability of the probability distributions d1 and d2 of the factors and improve the analysis accuracy. If the number of remaining column data is equal to or larger than the threshold value, the
つぎに、分析装置200は、ステップS504において収束判定された因子の確率分布d1,d2を統合する(ステップS505)。統合した因子の確率分布を統合確率分布Dとする。
Next, the
図7は、統合確率分布Dの一例を示す説明図である。図7では、説明の便宜上、図6に示した因子の確率分布d1,d2を連結した内容としたが、ステップS504において因子603におけるいずれかの列データが削除されている場合は、統合確率分布Dにおいても削除された状態となる。
FIG. 7 is an explanatory diagram showing an example of the integrated probability distribution D. In FIG. 7, the content of the probability distributions d1 and d2 of the factors shown in FIG. 6 is connected for convenience of description. However, if any column data in the
つぎに、分析装置200は、図1の(4)に示したように、統合確率分布Dを用いて、因子クラスタリングにより因子クラスタを生成する(ステップS506)。分析装置200は、初期設定(ステップS501)において、因子クラスタリング選択領域403で選択された因子クラスタリングを実行し、因子クラスタ数設定領域404で設定されたクラスタ数分の因子クラスタを生成する。
Next, as shown in (4) of FIG. 1, the
図8は、因子クラスタリング結果40を示す説明図である。因子クラスタリング結果40は、患者タイプIDフィールド801と、目的変数フィールド802と、因子フィールド803と、を有する。同一行における各フィールド801〜803の値が患者タイプ情報となるエントリを構成する。
FIG. 8 is an explanatory diagram showing the
患者タイプIDフィールド801は、患者タイプIDを格納する記憶領域である。患者タイプID801は、因子クラスタリングで分類された患者タイプを一意に特定する識別情報である。
The patient
目的変数フィールド802は、患者タイプID801ごとの目的変数を格納する記憶領域である。目的変数802は、疾病確率を示す。疾病確率は、0%〜100%で表現される。
The target
因子フィールド803は、複数の因子を格納する記憶領域である。因子803は、患者タイプへの薬の投与量を示す説明変数である。本例では、因子803は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、収束判定(ステップS504)後に残存する薬である。
The
図8では、因子クラスタリングとしてk−meansクラスタリングが用いられ、クラスタ数は例として「3」とする。これにより、統合確率分布Dのエントリは、3種類の患者タイプα、β、γの因子クラスタに分類される。 In FIG. 8, k-means clustering is used as the factor clustering, and the number of clusters is “3” as an example. As a result, the entries of the integrated probability distribution D are classified into the factor clusters of the three patient types α, β and γ.
図5に戻り、分析装置200は、各因子クラスタから各因子の統計値を算出する(ステップS507)。具体的には、たとえば、分析装置200は、因子フィールド803に、当該エントリの患者タイプに所属する統合確率分布D内の仮想患者情報における統計値を設定する。当該統計値は、たとえば、中央値である。中央値のほか、平均値、最大値、最小値、ランダムに選択された値でもよい。また、分析装置200は、因子803である統計値を学習モデルに与えることにより、目的変数802である疾病確率を算出する。このように、患者タイプの因子803および説明変数802は、統計値および統計値由来の疾病確率に集約される。
Returning to FIG. 5, the
また、分析装置200は、統合確率分布Dの因子同士の共起量を算出する(ステップS508)。共起量とは、2つの因子間の相関値である。具体的には、たとえば、分析装置200は、統合確率分布D内の全因子を総当たりで組み合わせ、因子間の相関値を算出する。相関値は、初期設定(ステップS501)において、共起量選択領域407で選択された計算方法により算出される。
In addition, the
つぎに、分析装置200は、図1の(5)に示したように、共起クラスタリングにより共起クラスタを生成する(ステップS509)。具体的には、たとえば、分析装置200は、共起量に階層クラスタリング法を適用し、共起クラスタを生成する。階層クラスタリングとは、個々のデータを1つの共起クラスタとして設定しておき、共起クラスタ間の類似度を計算し、最も類似する共起クラスタを併合し、すべての共起クラスタが1つのクラスタになるまで処理を繰り返し、デンドログラムを生成するすクラスタリングである。ここで、共起クラスタ間の類似度とは、たとえば、共起クラスタ間の距離の短さである。具体的には、たとえば、最近隣法、最遠隣法、または重心法により、共起クラスタ間の距離が定義される。
Next, the
図9は、共起クラスタリング(S508、S509)の処理例を示す説明図である。(A)は、ステップS508の処理を示す。共起量テーブル900は、因子間の相関値を保持するテーブルである。(B)は、ステップS509の処理を示す。(B)において、分析装置200は、同一因子の相関値を削除する。また、分析装置200は、階層クラスタリングのために相関値を1から相関値を減じた相関値に変換する。(B)では、相関値が小さいほどその因子同士は類似することを意味する。したがって、分析装置200は、相関値が最小となる因子の組み合わせを共起クラスタとして選択する。(B)の場合は、薬1と薬2の組み合わせ(共起クラスタ1)と、薬3と薬4の組み合わせ(共起クラスタ2)とが選択される。なお、ここでは、共起クラスタは、2つの因子の組み合わせであるが、3以上の因子の組み合わせでもよい。
FIG. 9 is an explanatory diagram showing a processing example of co-occurrence clustering (S508, S509). (A) shows the process of step S508. The co-occurrence amount table 900 is a table that holds correlation values between factors. (B) shows the process of step S509. In (B), the
なお、(B)の処理は、共起クラスタの数が共起クラスタ数設定領域409で設定された共起クラスタ数になるまで、または、これ以上クラスタを併合できない状態になるまで、実行される。
The process (B) is executed until the number of co-occurrence clusters reaches the number of co-occurrence clusters set in the co-occurrence cluster
図5に戻り、分析装置200は、図1の(6)に示したように、共起クラスタの予測値を算出する(ステップS510)。具体的には、たとえば、分析装置200は、患者タイプα、β、γごとに、共起クラスタに属する因子を学習モデルに与えることにより、患者タイプα、β、γごとの疾病確率の予測値を算出する。
Returning to FIG. 5, the
図10は、ステップS510による予測結果1000を示す説明図である。このように、分析装置200は、因子の組み合わせの有効性を分析することができる。
FIG. 10: is explanatory drawing which shows the
図5に戻り、分析装置200は、予測結果1000のしきい値処理を実行する(ステップS511)。具体的には、たとえば、分析装置200は、予測値がしきい値以上の患者タイプと因子クラスタの組み合わせを選択する。たとえば、しきい値設定領域410に設定されたしきい値が「0.8」である場合、分析装置200は、患者タイプαの因子クラスタ1、患者タイプβの因子クラスタ1、患者タイプγの因子クラスタ1を計算マーカとして選択する。
Returning to FIG. 5, the
分析装置200は、ステップS510またはS511の処理結果を出力する(ステップS512)。具体的には、たとえば、分析装置200は、出力デバイス204の一例であるディスプレイの表示画面を制御して処理結果を表示画面に表示したり、通信IF205を介して外部装置に処理結果を送信したり、記憶デバイス202に処理結果を書き込んだりする。また、ステップS504の収束判定結果も出力してもよい。
The
<表示画面例>
図11は、表示画面例を示す説明図である。表示画面1100は、出力デバイス204の一例であるディスプレイに表示される。表示画面1100は、スコア表示領域1101と、予測結果表示領域1102と、デンドログラム表示領域1103と、を有する。スコア表示領域1101には、収束判定(ステップS504)での収束値Rhatが表示される。予測結果表示領域1102には、図10に示した予測結果1000が表示される。図11に示すように、棒グラフで表示してもよい。デンドログラム表示領域1103には、階層クラスタリングにおけるデンドログラムが表示される。このように、図5に示した処理の途中結果や最終結果が表示画面1100に表示される。<Display screen example>
FIG. 11 is an explanatory diagram showing an example of a display screen. The
このように、実施例1によれば、分析装置200は、複数の因子の値どうしが類似するように予測データ集合(たとえば、統合確率分布D)をクラスタリングして、複数の因子クラスタを生成する第1生成処理を実行する(ステップS506)。分析装置200は、予測データ集合(たとえば、統合確率分布D)を用いて、複数の因子の相関により複数の因子が共起する共起量を算出する第1算出処理を実行する(ステップS508)。分析装置200は、第1算出処理によって算出された共起量に基づいて複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理を実行する(ステップS509)。分析装置200は、第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における2以上の因子の予測値のうち、第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、学習モデルに与える。そして、分析装置200は、特定の因子クラスタにおける目的変数の予測値を算出する第2算出処理を実行する(ステップS510)。
As described above, according to the first embodiment, the
これにより、分析装置200は、複数の因子が共起した特定の因子クラスタにおける目的変数の予測値により、因子の組み合わせの有効性を分析することができる。
Thereby, the
また、分析装置200は、特定の予測データ群における2以上の因子の予測値に基づいて、特定の因子クラスタにおける2以上の因子の予測値を代表する統計値を算出する第3算出処理を実行する(ステップS510)。これにより、分析装置200は、複数の因子が共起した特定の因子クラスタにおける目的変数の予測値の算出に際し、計算量の低減化を図ることができる。したがって、分析速度の向上を図ることができる。
Further, the
また、分析装置200は、学習モデルの種類を設定する設定処理を実行する(ステップS501)。また、分析装置200は、目的変数の実測値と複数の因子の実測値とを用いて、設定処理によって設定された種類の学習モデルを生成して、記憶デバイスに格納する第3生成処理を実行する(ステップS502)。これにより、ユーザは、目的に応じて学習モデルの種類を選択することができる。
The
また、分析装置200は、設定処理では、種類として、線形モデルまたは非線形モデルを設定する。これにより、分析装置200は、線形モデルが設定された場合、分析速度の向上を図ることができ、非線形モデルが設定された場合、分析精度の向上を図ることができる。換言すれば、ユーザは、分析結果がより早く得たい場合は、線形モデルを選択し、分析精度を上げたい場合は、非線形モデルを選択することができる。
In the setting process, the
また、予測データ集合(たとえば、統合確率分布D)は、学習モデルを用いた確率サンプリング法によって学習データ集合10から生成されたデータ集合としてもよい。これにより、予測データ集合(たとえば、統合確率分布D)は、学習モデルに依存したデータ集合となる。したがって、たとえば、非線形モデルが設定された場合、予測データ集合(たとえば、統合確率分布D)は、線形モデルが設定された場合に比べて、精度のよいデータ集合となる。
Further, the prediction data set (for example, integrated probability distribution D) may be a data set generated from the learning
また、分析装置200は、学習モデルを用いた確率サンプリング法(たとえば、マルコフ連鎖モンテカルロ法)によって予測データまたは予測データに類似するデータのいずれか一方を採択することにより、2つの予測データ群(たとえば、因子の確率分布d1,d2)を生成する第4生成処理を実行する(ステップS503)。予測データに類似するデータとは、上述したように、予測データである因子の各値にランダム値が加算されたデータである。分析装置200は、第4生成処理によって生成された2つの予測データ群(たとえば、因子の確率分布d1,d2)が同一の確率分布に収束するか否かを判定する判定処理を実行する(ステップS504)。分析装置200は、判定処理による判定結果に基づいて2つの予測データ群(たとえば、因子の確率分布d1,d2)を統合することにより、予測データ集合(たとえば、統合確率分布D)を生成する統合処理を実行する(ステップS505)。
In addition, the
判定処理により、2つの予測データ群(たとえば、因子の確率分布d1,d2)が同一の確率分布、たとえば、学習データ集合10の確率分布に収束するか否かが判定される。これにより、収束していれば、2つの予測データ群(たとえば、因子の確率分布d1,d2)が学習データ集合10に類似すると判明するため、2つの予測データ群(たとえば、因子の確率分布d1,d2)から予測データ集合(たとえば、統合確率分布D)が生成される。これにより、予測データ集合(たとえば、統合確率分布D)の予測値としての確からしさ、すなわち、生成精度の向上を図ることができる。
By the determination process, it is determined whether or not the two prediction data groups (for example, the probability distributions d1 and d2 of the factors) converge to the same probability distribution, for example, the probability distribution of the learning
また、分析装置200は、学習モデルを用いた確率サンプリング法(たとえば、マルコフ連鎖モンテカルロ法)によって予測データまたは予測データに類似するデータのいずれか一方を採択する採択率αを制御するパラメータの値(たとえば、σ値)を設定する設定処理を実行する(ステップS501)。これにより、(1−σ)以上の目的変数となる因子を採択率αで採択することができる。
In addition, the
また、分析装置200は、因子クラスタの生成数を設定する設定処理を実行する(ステップS501)。これにより、分析装置200は、ユーザが指定した数分の因子クラスタを生成することができる。具体的には、たとえば、因子クラスタの生成数が増加するほど、予測データ集合(たとえば、統合確率分布D)が細分化される。これにより、ユーザは、分析結果がより早く得たい場合は、因子クラスタの生成数を低めに設定し、分析精度を上げたい場合は、因子クラスタの生成数を高めに設定することができる。
In addition, the
また、分析装置200は、共起クラスタの生成数を設定する設定処理を実行する(ステップS501)。これにより、これにより、分析装置200は、ユーザが指定した数分の共起クラスタを生成することができる。具体的には、たとえば、共起クラスタの生成数が増加するほど、共起しあう因子の数や、共起しあう因子の組み合わせの数が増加する。したがって、ユーザは、分析結果がより早く得たい場合は、共起クラスタの生成数を低めに設定し、分析精度を上げたい場合は、共起クラスタの生成数を高めに設定することができる。
The
また、実施例1では、複数の因子303,603を複数の薬の患者への投与量とし、目的変数302,602を患者に複数の薬を投与量投与した場合の薬効を示す値(たとえば、疾病確率)とした。これにより、複数の薬の各々をどのタイプ(因子クラスタ)の患者にどの程度投与したら、どの程度の薬効があるかを予測することができる。
Further, in Example 1, a plurality of
なお、上述した実施例1では、薬効分析を例に挙げて説明したが、商品レコメンデーションにも適用可能である。この場合、図3に示した学習データ集合10において、患者ID301は、たとえば、患者ではなく顧客に替わる。因子303は、たとえば、商品またはサービス(商品またはサービスのジャンルでもよい)の購入数(商品の場合)や利用回数(サービスの場合)を示す。目的変数302は、たとえば、商品またはサービス(商品またはサービスのジャンルでもよい)の購入金額(商品の場合)や利用金額(サービスの場合)を示す。因子の確率分布d1,d2、統合確率分布Dも同様である。
In addition, in Example 1 described above, the drug efficacy analysis was described as an example, but it is also applicable to product recommendation. In this case, in the learning
また、ニュース記事の分析の場合、図3に示した学習データ集合10において、患者ID301は、たとえば、患者ではなく新聞や雑誌、webページに掲載されたニュース記事に替わる。因子303は、たとえば、単語の出現回数を示す。目的変数302は、たとえば、政治、社会、スポーツ、天気といったニュース記事のジャンルを示す。因子の確率分布d1,d2、統合確率分布Dも同様である。
Further, in the case of analysis of news articles, in the learning
実施例2について説明する。実施例1では、1台の計算機により図5に示した分析処理を実行したが、実施例2では、複数台の計算機により図5に示した分析処理を分散処理する。これにより、計算機の負荷低減と分析速度の高速化を図る。各計算機は、具体的には、たとえば、図2に示したハードウェア構成を有する。 Example 2 will be described. In the first embodiment, the analysis process shown in FIG. 5 is executed by one computer, but in the second embodiment, the analysis process shown in FIG. 5 is distributed by a plurality of computers. This will reduce the load on the computer and increase the analysis speed. Specifically, each computer has, for example, the hardware configuration shown in FIG.
図12は、分析システムのシステム構成例を示す説明図である。分析システム1200は、複数台の計算機(以下、単に、ノード)N0〜Nn(nは1以上の整数)と、1台以上のクライアント端末Cとを含む。複数台のノードN0〜Nn(nは2以上の整数)と、1台以上のクライアント端末Cとは、ネットワーク1201を介して通信可能に接続される。ノードN0は、マスターノードN0であり、ノードN1〜NnはワーカーノードN1〜Nnである。マスターノードN0は、ワーカーノードN1〜Nnを管理する。ワーカーノードN1〜Nnは、マスターノードN0の指示にしたがって処理を実行する。なお、マスターノードN0の機能をワーカーノードN1〜Nnのいずれかが担当してもよい。 FIG. 12 is an explanatory diagram showing a system configuration example of the analysis system. The analysis system 1200 includes a plurality of computers (hereinafter, simply nodes) N0 to Nn (n is an integer of 1 or more) and one or more client terminals C. A plurality of nodes N0 to Nn (n is an integer of 2 or more) and one or more client terminals C are communicably connected via a network 1201. The node N0 is the master node N0, and the nodes N1 to Nn are the worker nodes N1 to Nn. The master node N0 manages the worker nodes N1 to Nn. The worker nodes N1 to Nn execute processing according to the instruction from the master node N0. Note that any one of the worker nodes N1 to Nn may be responsible for the function of the master node N0.
<分散処理手順例>
図13〜図15は、分析システム1200による分散処理手順例を示すフローチャートである。なお、ここでは、一例として、n=2、すなわち、分析システム1200は、マスターノードN0、ワーカーノードN1、N2、クライアント端末Cとする。<Example of distributed processing procedure>
13 to 15 are flowcharts showing an example of distributed processing procedure by the analysis system 1200. Here, as an example, n = 2, that is, the analysis system 1200 is the master node N0, the worker nodes N1 and N2, and the client terminal C.
まず、クライアント端末Cが初期設定(ステップS501)を実行する(ステップS1301)。そして、クライアント端末Cは、初期設定(ステップS501)の設定内容である解析リクエストを、マスターノードN0に送信する(ステップS1302)。 First, the client terminal C executes initial setting (step S501) (step S1301). Then, the client terminal C transmits an analysis request, which is the setting content of the initial setting (step S501), to the master node N0 (step S1302).
マスターノードN0は、学習モデル生成リクエストをワーカーノードN1に送信する(ステップS1303)。ワーカーノードN1は、学習モデル生成リクエストを受信した場合、ステップS502と同様、学習モデルを生成する(ステップS1304)。ワーカーノードN1は、学習モデルを生成すると、マスターノードN0に学習モデルを送信する(ステップS1305)。マスターノードN0は、ワーカーノードN1から学習モデルを受信すると、他のワーカーノードN2に学習モデルを送信する(ステップS1306)。 The master node N0 transmits a learning model generation request to the worker node N1 (step S1303). When receiving the learning model generation request, the worker node N1 generates a learning model as in step S502 (step S1304). After generating the learning model, the worker node N1 transmits the learning model to the master node N0 (step S1305). Upon receiving the learning model from the worker node N1, the master node N0 transmits the learning model to another worker node N2 (step S1306).
つぎに、マスターノードN0は、因子の確率分布d1の生成リクエストをワーカーノードN1に送信し(ステップS1307)、因子の確率分布d2の生成リクエストをワーカーノードN2に送信する(ステップS1308)。これにより、因子の確率分布d1,d2を並列処理で生成することができる。 Next, the master node N0 transmits a generation request of the factor probability distribution d1 to the worker node N1 (step S1307), and transmits a generation request of the factor probability distribution d2 to the worker node N2 (step S1308). Thereby, the probability distributions d1 and d2 of the factors can be generated by parallel processing.
つぎに、ワーカーノードN1は、ステップS503と同様、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布d1を生成する(ステップS1309)。ワーカーノードN2も、ステップS503と同様、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布d2を生成する(ステップS1310)。ワーカーノードN1は、生成した因子の確率分布d1をマスターノードN0に送信する(ステップS1311)。ワーカーノードN2も、生成した因子の確率分布d2をマスターノードN0に送信する(ステップS1312)。
Next, the worker node N1 generates the probability distribution d1 of the factors derived from the learning
マスターノードN0は、ステップS504と同様、因子の確率分布d1,d2が同一の確率分布に収束しているかを判定する(ステップS1313)。マスターノードN0は、その判定結果をクライアント端末Cに送信する(ステップS1314)。クライアント端末Cは、図11に示したように、判定結果(たとえば、Gelman−Rubinスコア)を受信して表示する(ステップS1315)。 Similar to step S504, the master node N0 determines whether the probability distributions d1 and d2 of the factors converge to the same probability distribution (step S1313). The master node N0 transmits the determination result to the client terminal C (step S1314). As shown in FIG. 11, the client terminal C receives and displays the determination result (for example, Gelman-Rubin score) (step S1315).
図14において、マスターノードN0は、ステップS505と同様、因子の確率分布d1,d2を統合して統合確率分布Dを生成する(ステップS1401)。そして、マスターノードN0は、因子クラスタリングリクエストをワーカーノードN1に送信する(ステップS1402)。ワーカーノードN1は、因子クラスタリングリクエストを受信した場合、ステップS506と同様、統合確率分布Dを用いて、因子クラスタリングにより因子クラスタを生成する(ステップS1403)。また、ワーカーノードN1は、ステップS507と同様、各因子クラスタから各因子の統計値を算出する(ステップS1404)。ワーカーノードN1は、算出した統計値をマスターノードN0に送信する(ステップS1405)。マスターノードN0は、他のワーカーノードN2に、受信した統計値を送信する(ステップS1406)。 In FIG. 14, the master node N0 integrates the probability distributions d1 and d2 of the factors to generate the integrated probability distribution D, as in step S505 (step S1401). Then, the master node N0 transmits a factor clustering request to the worker node N1 (step S1402). When the worker node N1 receives the factor clustering request, similarly to step S506, the worker node N1 uses the integrated probability distribution D to generate a factor cluster by factor clustering (step S1403). Further, the worker node N1 calculates the statistical value of each factor from each factor cluster, similarly to step S507 (step S1404). The worker node N1 transmits the calculated statistical value to the master node N0 (step S1405). The master node N0 transmits the received statistical value to another worker node N2 (step S1406).
マスターノードN0は、共起量計算リクエストをワーカーノードN2に送信する(ステップS1407)。ワーカーノードN2は、ステップS508と同様、統合確率分布Dの因子同士の共起量を算出する(ステップS1408)。そして、ワーカーノードN2は、算出した共起量(図9の(A)を参照)をマスターノードN0に送信する(ステップS1409)。 The master node N0 transmits a co-occurrence amount calculation request to the worker node N2 (step S1407). The worker node N2 calculates the co-occurrence amount of the factors of the integrated probability distribution D, as in step S508 (step S1408). Then, the worker node N2 transmits the calculated co-occurrence amount (see (A) of FIG. 9) to the master node N0 (step S1409).
図15において、マスターノードN0は、ステップS509と同様、共起クラスタリングにより共起クラスタを生成し、共起クラスタのIDリストA,Bを生成する(ステップS1501)。共起クラスタのIDリストAとは、統合確率分布Dのエントリを分割した一方のエントリ群を一意に特定するIDリストである。共起クラスタのIDリストBとは、統合確率分布Dのエントリを分割した他方のエントリ群を一意に特定するIDリストである。 In FIG. 15, the master node N0 generates co-occurrence clusters by co-occurrence clustering, as in step S509, and generates co-occurrence cluster ID lists A and B (step S1501). The co-occurrence cluster ID list A is an ID list that uniquely identifies one of the entry groups obtained by dividing the entries of the integrated probability distribution D. The co-occurrence cluster ID list B is an ID list that uniquely identifies the other entry group obtained by dividing the entries of the integrated probability distribution D.
マスターノードN0は、共起クラスタのIDリストAをワーカーノードN1に送信し(ステップS1502)、共起クラスタのIDリストBをワーカーノードN2に送信する(ステップS1503)。ワーカーノードN1は、ステップS509と同様、IDリストAについて、共起クラスタリングにより共起クラスタを生成する(ステップS1504)。ワーカーノードN2も、ステップS509と同様、IDリストBについて、共起クラスタリングにより共起クラスタを生成する(ステップS1505)。 The master node N0 transmits the ID list A of the co-occurrence cluster to the worker node N1 (step S1502) and the ID list B of the co-occurrence cluster to the worker node N2 (step S1503). The worker node N1 generates a co-occurrence cluster for the ID list A by co-occurrence clustering, similarly to step S509 (step S1504). Similarly to step S509, the worker node N2 also generates a co-occurrence cluster for the ID list B by co-occurrence clustering (step S1505).
ワーカーノードN1は、ステップS510と同様、ステップS1504で得られた共起クラスタの予測値を算出する(ステップS1506)。ワーカーノードN2も、ステップS510と同様、ステップS1505で得られた共起クラスタの予測値を算出する(ステップS1507)。ワーカーノードN1は、ステップS1506で得られた予測値を記憶デバイス202に保存する(ステップS1508)。ワーカーノードN2も、ステップS1507で得られた予測値を記憶デバイス202に保存する(ステップS1509)。ワーカーノードN1は、ステップS1506で得られた予測値をマスターノードN0に送信する(ステップS1510)。ワーカーノードN2も、ステップS1507で得られた予測値をマスターノードN0に送信する(ステップS1511)。 The worker node N1 calculates the predicted value of the co-occurrence cluster obtained in step S1504, as in step S510 (step S1506). Similarly to step S510, the worker node N2 also calculates the predicted value of the co-occurrence cluster obtained in step S1505 (step S1507). The worker node N1 saves the predicted value obtained in step S1506 in the storage device 202 (step S1508). The worker node N2 also stores the predicted value obtained in step S1507 in the storage device 202 (step S1509). The worker node N1 transmits the predicted value obtained in step S1506 to the master node N0 (step S1510). The worker node N2 also transmits the predicted value obtained in step S1507 to the master node N0 (step S1511).
マスターノードN0は、ステップS511と同様、予測値のしきい値処理を実行する(ステップS1512)。そして、マスターノードN0は、その実行結果である計算マーカをクライアント端末Cに送信する(ステップS1513)。クライアント端末Cは、計算マーカを表示画面に表示する(ステップS1514)。 The master node N0 executes threshold value processing of the predicted value, similarly to step S511 (step S1512). Then, the master node N0 transmits the calculation marker which is the execution result to the client terminal C (step S1513). The client terminal C displays the calculation marker on the display screen (step S1514).
図16は、図15に示した分析システム1200による分散処理手順例を示すフローチャート3の変形例を示すフローチャートである。図15では、IDリストA,BごとにワーカーノードN1、N2が並列で共起クラスタリングを実行することで、処理の高速化を実現した。一方、図16では、IDリストA,Bの共起クラスタ計算は、ワーカーノードN1,N2ではなく、マスターノードN0が実行する。なお、図15と同一処理については同一ステップ番号を付し、その説明を省略する。 FIG. 16 is a flowchart showing a modification of the flowchart 3 showing an example of the distributed processing procedure by the analysis system 1200 shown in FIG. In FIG. 15, the worker nodes N1 and N2 execute co-occurrence clustering in parallel for each of the ID lists A and B, thereby realizing high-speed processing. On the other hand, in FIG. 16, the co-occurrence cluster calculation of the ID lists A and B is executed by the master node N0, not by the worker nodes N1 and N2. The same steps as those in FIG. 15 are designated by the same step numbers, and the description thereof will be omitted.
図16において、マスターノードN0は、ステップS509と同様、IDリストAについて、共起クラスタリングにより共起クラスタを生成する(ステップS1602)。マスターノードN0は、IDリストAの共起クラスタをワーカーノードN1に送信する(ステップS1603)。 In FIG. 16, the master node N0 generates a co-occurrence cluster by co-occurrence clustering for the ID list A, as in step S509 (step S1602). The master node N0 transmits the co-occurrence cluster of the ID list A to the worker node N1 (step S1603).
ワーカーノードN1は、ステップS510と同様、ステップS1602で得られた共起クラスタの予測値を算出する(ステップS1604)。ワーカーノードN1は、ステップS1604で得られた予測値を記憶デバイス202に保存する(ステップS1604)。ワーカーノードN1は、ステップS1604で得られた予測値をマスターノードN0に送信する(ステップS1606)。 The worker node N1 calculates the predicted value of the co-occurrence cluster obtained in step S1602, as in step S510 (step S1604). The worker node N1 stores the predicted value obtained in step S1604 in the storage device 202 (step S1604). The worker node N1 transmits the predicted value obtained in step S1604 to the master node N0 (step S1606).
マスターノードN0は、ステップS509と同様、IDリストBについて、共起クラスタリングにより共起クラスタを生成する(ステップS1607)。マスターノードN0は、IDリストBの共起クラスタをワーカーノードN2に送信する(ステップS1608)。 Similar to step S509, the master node N0 generates co-occurrence clusters for the ID list B by co-occurrence clustering (step S1607). The master node N0 transmits the co-occurrence cluster of the ID list B to the worker node N2 (step S1608).
ワーカーノードN2は、ステップS510と同様、ステップS1607で得られた共起クラスタの予測値を算出する(ステップS1609)。ワーカーノードN1は、ステップS1609で得られた予測値を記憶デバイス202に保存する(ステップS1610)。ワーカーノードN2は、ステップS1609で得られた予測値をマスターノードN0に送信する(ステップS1611)。 The worker node N2 calculates the predicted value of the co-occurrence cluster obtained in step S1607, as in step S510 (step S1609). The worker node N1 stores the predicted value obtained in step S1609 in the storage device 202 (step S1610). The worker node N2 transmits the predicted value obtained in step S1609 to the master node N0 (step S1611).
このように、実施例2によれば、実施例1と同様の効果を奏する。また、実施例2によれば、複数台の計算機により図5に示した分析処理を分散処理する。これにより、計算機の負荷低減と分析速度の高速化を図ることができる。なお、図13〜図16に示した分散処理は一例である。したがって、このほかにも、たとえば、図13〜図16に示したステップのうち少なくとも2以上のステップを異なる計算機で実行してもよい。 Thus, according to the second embodiment, the same effect as that of the first embodiment can be obtained. Further, according to the second embodiment, the analysis processing shown in FIG. 5 is distributed and processed by a plurality of computers. This makes it possible to reduce the load on the computer and increase the analysis speed. The distributed processing shown in FIGS. 13 to 16 is an example. Therefore, in addition to this, for example, at least two or more of the steps shown in FIGS. 13 to 16 may be executed by different computers.
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。 The present invention is not limited to the above-described embodiments, but includes various modifications and equivalent configurations within the spirit of the appended claims. For example, the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to those having all the configurations described. Further, part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Further, the configuration of another embodiment may be added to the configuration of one embodiment. Moreover, you may add, delete, or replace another structure with respect to a part of structure of each Example.
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。 Further, each of the above-mentioned configurations, functions, processing units, processing means, etc. may be realized by hardware, for example, by designing a part or all of them with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program.
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。 Information such as programs, tables, and files that implement each function can be stored in a storage device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。 Further, the control lines and information lines are shown to be necessary for explanation, and not all the control lines and information lines necessary for mounting are shown. In reality, it can be considered that almost all configurations are connected to each other.
Claims (12)
前記記憶デバイスは、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しており、
前記プロセッサは、
前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、
前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、
前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、
前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、
を実行することを特徴とする分析装置。An analysis apparatus comprising: a processor that executes a program; and a storage device that stores the program,
The storage device includes a learning data set including a plurality of learning data sets each including an actual measurement value of an objective variable and an actual measurement value of a plurality of factors, and a prediction including a plurality of prediction data-derived prediction data including prediction values of the plurality of factors. A data set, and a learning model showing a relationship between the measured values of the objective variable and the measured values of the plurality of factors are stored,
The processor is
A first generation process of clustering the prediction data set so that the values of the plurality of factors are similar to each other, and generating a plurality of factor clusters;
A first calculation process of calculating a co-occurrence amount in which the plurality of factors are co-occurring by the correlation of the plurality of factors using the prediction data set;
A second generation process for clustering the plurality of factors based on the co-occurrence amount calculated by the first calculation process to generate a plurality of co-occurrence clusters having one or more co-occurrence clusters including two or more factors; ,
Of the predicted values of the two or more factors in the specific prediction data group included in the specific factor cluster including the two or more factors among the plurality of factor clusters generated by the first generation processing, the second generation Prediction of the target variable in the specific factor cluster by giving the learning model prediction values of two or more specific factors indicated by a specific co-occurrence cluster among the plurality of co-occurrence clusters generated by the processing. A second calculation process for calculating a value,
An analyzer for performing the following.
前記プロセッサは、
前記特定の予測データ群における前記2以上の因子の予測値に基づいて、前記特定の因子クラスタにおける前記2以上の因子の予測値を代表する統計値を算出する第3算出処理を実行し、
前記第2算出処理では、前記プロセッサは、前記第3算出処理によって算出された前記2以上の因子の予測値を代表する統計値のうち、前記特定の共起クラスタが示す2以上の特定の因子の統計値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出することを特徴とする分析装置。The analysis device according to claim 1, wherein
The processor is
Executing a third calculation process for calculating a statistical value representative of the predicted values of the two or more factors in the specific factor cluster, based on the predicted values of the two or more factors in the specific predicted data group,
In the second calculation process, the processor includes two or more specific factors indicated by the specific co-occurrence cluster among the statistical values representing the predicted values of the two or more factors calculated by the third calculation process. The analysis device is characterized in that a predicted value of the objective variable in the specific factor cluster is calculated by giving the statistical value of the above to the learning model.
前記プロセッサは、
前記学習モデルの種類を設定する設定処理と、
前記目的変数の実測値と前記複数の因子の実測値とを用いて、前記設定処理によって設定された種類の学習モデルを生成して、前記記憶デバイスに格納する第3生成処理と、
を実行することを特徴とする分析装置。The analysis device according to claim 1, wherein
The processor is
Setting processing for setting the type of the learning model,
A third generation process of generating a learning model of the type set by the setting process using the measured values of the objective variable and the measured values of the plurality of factors and storing the learning model in the storage device;
An analyzer for performing the following.
前記設定処理では、前記プロセッサは、前記種類として、線形モデルまたは非線形モデルを設定することを特徴とする分析装置。The analysis device according to claim 3, wherein
In the setting process, the processor sets a linear model or a non-linear model as the type.
前記予測データ集合は、前記学習モデルを用いた確率サンプリング法によって前記学習データ集合から生成されたデータ集合であることを特徴とする分析装置。The analysis device according to claim 1, wherein
The predictive data set is a data set generated from the learning data set by a probability sampling method using the learning model.
前記プロセッサは、
前記学習モデルを用いた確率サンプリング法によって前記予測データまたは前記予測データに類似するデータのいずれか一方を採択することにより、2つの予測データ群を生成する第4生成処理と、
前記第4生成処理によって生成された2つの予測データ群が同一の確率分布に収束するか否かを判定する判定処理と、
前記判定処理による判定結果に基づいて前記2つの予測データ群を統合することにより、前記予測データ集合を生成する統合処理と、を実行し、
前記第1生成処理では、前記プロセッサは、前記複数の因子の値どうしが類似するように、前記統合処理によって得られた前記予測データ集合をクラスタリングして、前記複数の因子クラスタを生成し、
前記第1算出処理では、前記プロセッサは、前記統合処理によって得られた前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出することを特徴とする分析装置。The analysis device according to claim 1, wherein
The processor is
A fourth generation process for generating two prediction data groups by adopting one of the prediction data or data similar to the prediction data by a probability sampling method using the learning model;
Determination processing for determining whether or not the two prediction data groups generated by the fourth generation processing converge to the same probability distribution,
Performing an integration process of generating the prediction data set by integrating the two prediction data groups based on the determination result of the determination process,
In the first generation processing, the processor clusters the prediction data set obtained by the integration processing so that the values of the plurality of factors are similar to each other, and generates the plurality of factor clusters,
In the first calculation process, the processor calculates a co-occurrence amount in which the plurality of factors co-occur by correlation of the plurality of factors, using the prediction data set obtained by the integration process. Analyzer.
前記プロセッサは、
前記学習モデルを用いた確率サンプリング法によって前記予測データまたは前記予測データに類似するデータのいずれか一方を採択する採択率を制御するパラメータの値を設定する設定処理を実行し、
前記第4生成処理では、前記プロセッサは、前記採択率に基づいて前記予測データまたは前記予測データに類似するデータのいずれか一方を採択することにより、前記2つの予測データ群を生成することを特徴とする分析装置。The analysis device according to claim 6, wherein
The processor is
By performing a setting process for setting the value of a parameter that controls the adoption rate to adopt one of the prediction data or the data similar to the prediction data by the probability sampling method using the learning model,
In the fourth generation processing, the processor generates the two prediction data groups by adopting one of the prediction data or data similar to the prediction data based on the adoption rate. Analyzer.
前記プロセッサは、
前記因子クラスタの生成数を設定する設定処理を実行し、
前記第1生成処理では、前記プロセッサは、前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、前記設定処理によって設定された生成数の因子クラスタを生成することを特徴とする分析装置。The analysis device according to claim 1, wherein
The processor is
Execute the setting process to set the number of generation of the factor cluster,
In the first generation processing, the processor clusters the prediction data set so that the values of the plurality of factors are similar to each other, and generates the number of generation factor clusters set by the setting processing. Analyzer.
前記プロセッサは、
前記共起クラスタの生成数を設定する設定処理を実行し、
前記第2生成処理では、前記プロセッサは、前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する共起クラスタを、前記設定処理によって設定された生成数生成することを特徴とする分析装置。The analysis device according to claim 1, wherein
The processor is
Execute a setting process to set the number of co-occurrence clusters generated,
In the second generation process, the processor clusters the plurality of factors based on the co-occurrence amount calculated in the first calculation process, and has one or more co-occurrence clusters including two or more factors. An analyzing apparatus, wherein the number of generated clusters set by the setting process is generated.
前記複数の因子は複数の薬の患者への投与量であり、前記目的変数は前記患者に前記複数の薬を前記投与量投与した場合の薬効を示す値であることを特徴とする分析装置。The analysis device according to claim 1, wherein
The analyzer is characterized in that the plurality of factors are doses of a plurality of drugs to a patient, and the objective variable is a value indicating a drug effect when the plurality of drugs are administered to the patient in the doses.
前記複数の計算機のいずれかが、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しており、
前記複数の計算機のいずれかが、
前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、
前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、
前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、
前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、
を実行することを特徴とする分析システム。An analysis system in which a plurality of computers are communicably connected,
Any one of the plurality of computers, a learning data set having a plurality of learning data including the actual measurement value of the objective variable and the actual measurement value of the plurality of factors, and the prediction data derived from the learning data including the prediction values of the plurality of factors Storing a prediction data set having a plurality of, and a learning model showing the relationship between the actual measurement value of the objective variable and the actual measurement value of the plurality of factors,
One of the plurality of computers,
A first generation process of clustering the prediction data set so that the values of the plurality of factors are similar to each other, and generating a plurality of factor clusters;
A first calculation process of calculating a co-occurrence amount in which the plurality of factors are co-occurring by the correlation of the plurality of factors using the prediction data set;
A second generation process for clustering the plurality of factors based on the co-occurrence amount calculated by the first calculation process to generate a plurality of co-occurrence clusters having one or more co-occurrence clusters including two or more factors; ,
Of the predicted values of the two or more factors in the specific prediction data group included in the specific factor cluster including the two or more factors among the plurality of factor clusters generated by the first generation processing, the second generation Prediction of the target variable in the specific factor cluster by giving the learning model prediction values of two or more specific factors indicated by a specific co-occurrence cluster among the plurality of co-occurrence clusters generated by the processing. A second calculation process for calculating a value,
An analysis system characterized by executing.
前記記憶デバイスは、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しており、
前記プロセッサは、
前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、
前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、
前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、
前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、
を実行することを特徴とする分析方法。An analysis method by an analysis device having a processor that executes a program and a storage device that stores the program,
The storage device includes a learning data set having a plurality of learning data including measured values of objective variables and measured values of a plurality of factors, and prediction having a plurality of prediction data derived from the learning data including predicted values of the plurality of factors. A data set, and a learning model showing a relationship between the measured values of the objective variable and the measured values of the plurality of factors are stored,
The processor is
A first generation process of clustering the prediction data set so that the values of the plurality of factors are similar to each other, and generating a plurality of factor clusters;
A first calculation process of calculating a co-occurrence amount in which the plurality of factors are co-occurring by the correlation of the plurality of factors using the prediction data set;
A second generation process for clustering the plurality of factors based on the co-occurrence amount calculated by the first calculation process to generate a plurality of co-occurrence clusters having one or more co-occurrence clusters including two or more factors; ,
Of the predicted values of the two or more factors in the specific prediction data group included in the specific factor cluster including the two or more factors among the plurality of factor clusters generated by the first generation processing, the second generation Prediction of the target variable in the specific factor cluster by giving the learning model prediction values of two or more specific factors indicated by a specific co-occurrence cluster among the plurality of co-occurrence clusters generated by the processing. A second calculation process for calculating a value,
An analysis method characterized by executing.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/075726 WO2018042606A1 (en) | 2016-09-01 | 2016-09-01 | Analysis device, analysis system, and analysis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018042606A1 JPWO2018042606A1 (en) | 2019-06-24 |
JP6695431B2 true JP6695431B2 (en) | 2020-05-20 |
Family
ID=61301188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018536626A Expired - Fee Related JP6695431B2 (en) | 2016-09-01 | 2016-09-01 | Analytical apparatus, analytical system and analytical method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6695431B2 (en) |
WO (1) | WO2018042606A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102198322B1 (en) * | 2020-08-20 | 2021-01-04 | 플레인브레드 주식회사 | Intelligent data visualization system using machine learning |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021053775A1 (en) * | 2019-09-18 | 2021-03-25 | 日本電信電話株式会社 | Learning device, estimation device, learning method, estimation method, and program |
KR102151272B1 (en) * | 2020-01-07 | 2020-09-02 | 한국토지주택공사 | Method, apparatus and computer program for analyzing data using prediction model |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3226097B2 (en) * | 1999-07-21 | 2001-11-05 | 尚哉 宮野 | Treatment data estimation method and treatment data estimation system |
JP2006202235A (en) * | 2005-01-24 | 2006-08-03 | Nara Institute Of Science & Technology | Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method |
JP5090013B2 (en) * | 2007-02-23 | 2012-12-05 | 株式会社日立製作所 | Information management system and server |
SG175300A1 (en) * | 2009-04-22 | 2011-11-28 | Lead Horse Technologies Inc | Artificial intelligence-assisted medical reference system and method |
CN102792332B (en) * | 2010-01-22 | 2016-01-06 | 松下电器(美国)知识产权公司 | Image management apparatus, image management method and integrated circuit |
JP5603639B2 (en) * | 2010-04-23 | 2014-10-08 | 国立大学法人京都大学 | Learning device for prediction device and computer program therefor |
US9466024B2 (en) * | 2013-03-15 | 2016-10-11 | Northrop Grumman Systems Corporation | Learning health systems and methods |
JP6066826B2 (en) * | 2013-05-17 | 2017-01-25 | 株式会社日立製作所 | Analysis system and health business support method |
JP6324828B2 (en) * | 2014-07-07 | 2018-05-16 | 株式会社日立製作所 | Medicinal effect analysis system and medicinal effect analysis method |
-
2016
- 2016-09-01 JP JP2018536626A patent/JP6695431B2/en not_active Expired - Fee Related
- 2016-09-01 WO PCT/JP2016/075726 patent/WO2018042606A1/en active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102198322B1 (en) * | 2020-08-20 | 2021-01-04 | 플레인브레드 주식회사 | Intelligent data visualization system using machine learning |
KR102345753B1 (en) * | 2020-08-20 | 2022-01-03 | 플레인브레드 주식회사 | Method for intelligently visualizing data using a plurality of different artificial neural networks |
Also Published As
Publication number | Publication date |
---|---|
JPWO2018042606A1 (en) | 2019-06-24 |
WO2018042606A1 (en) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ang et al. | Filter bank common spatial pattern algorithm on BCI competition IV datasets 2a and 2b | |
Jaskowski et al. | Uplift modeling for clinical trial data | |
US7930156B2 (en) | Method and apparatus for supporting analysis of gene interaction network, and computer product | |
US20140343966A1 (en) | Analysis system and health business support method | |
JP2014225175A5 (en) | ||
JP6695431B2 (en) | Analytical apparatus, analytical system and analytical method | |
Luo et al. | Preference-based SF-6D scores derived from the SF-36 and SF-12 have different discriminative power in a population health survey | |
JP2016505973A (en) | User interface for predictive model generation | |
Wolcott et al. | Modeling time-dependent and-independent indicators to facilitate identification of breakthrough research papers | |
Doumard et al. | A comparative study of additive local explanation methods based on feature influences | |
WO2017203672A1 (en) | Item recommendation method, item recommendation program, and item recommendation apparatus | |
US20140343959A1 (en) | Analysis system and analysis method | |
KR20220157330A (en) | Method for predicting dementia by incubation period based on machine learning and apparatus implementing the same method | |
JP7481181B2 (en) | Computer system and contribution calculation method | |
JP7384705B2 (en) | Analytical equipment, analytical methods, and analytical programs | |
Zhang et al. | Identifying ‘associated-sleeping-beauties’ in ‘swan-groups’ based on small qualified datasets of physics and economics | |
US20230229937A1 (en) | Ai training data creation support system, ai training data creation support method, and ai training data creation support program | |
Ge et al. | A threshold linear mixed model for identification of treatment-sensitive subsets in a clinical trial based on longitudinal outcomes and a continuous covariate | |
JP6623774B2 (en) | Pathway analysis program, pathway analysis method, and information processing apparatus | |
Chen et al. | Projection subspace clustering | |
JP6211194B2 (en) | Simulation system and simulation method | |
JP2020102021A (en) | Document retrieval program, document retrieval method, and document retrieval system | |
JP2001117930A (en) | Device and method for sorting documents and recording medium | |
JP7458302B2 (en) | Comprehension difficulty level calculation device and comprehension difficulty level calculation method. | |
US20180253515A1 (en) | Characterizing model performance using hierarchical feature groups |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6695431 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |