JP2006202235A - Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method - Google Patents

Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method Download PDF

Info

Publication number
JP2006202235A
JP2006202235A JP2005016140A JP2005016140A JP2006202235A JP 2006202235 A JP2006202235 A JP 2006202235A JP 2005016140 A JP2005016140 A JP 2005016140A JP 2005016140 A JP2005016140 A JP 2005016140A JP 2006202235 A JP2006202235 A JP 2006202235A
Authority
JP
Japan
Prior art keywords
phenomenon
data
occurrence
time
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005016140A
Other languages
Japanese (ja)
Inventor
Shigemasa Oba
成征 大羽
Makoto Ishii
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nara Institute of Science and Technology NUC
Original Assignee
Nara Institute of Science and Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nara Institute of Science and Technology NUC filed Critical Nara Institute of Science and Technology NUC
Priority to JP2005016140A priority Critical patent/JP2006202235A/en
Priority to PCT/JP2006/300528 priority patent/WO2006077828A1/en
Publication of JP2006202235A publication Critical patent/JP2006202235A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

<P>PROBLEM TO BE SOLVED: To provide a new survival time analysis apparatus and survival time analysis method that can analyze the probability of the occurrence of a predetermined phenomenon in an analysis object (single sample) at a predetermined time point by associating and analyzing feature amount data on the analysis object and the occurrence of the predetermined phenomenon. <P>SOLUTION: The survival time analysis apparatus 100 comprises an input part 10 for inputting feature amount data acquired from an analysis object, and a probability calculation part 20 for calculating predetermined survival rates of the analysis object according to gene expression profile data input from the input part 10, and the probability calculation part 20 has a plurality of estimators 21 for respective predetermined time points. The associated analysis of the gene expression profile and survival rate of the analysis object can analyze the survival rates of the analysis object (single sample) at the predetermined time points. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、ヒト等の生物の生存期間や工業製品の寿命等を解析する経時的現象発生解析装置及び経時的現象発生解析方法に関するものであり、特に、疾病の治療予後における生存率や工業製品の故障の発生率等を推定し解析する経時的現象発生解析装置及び経時的現象発生解析方法に関するものである。   The present invention relates to a time-dependent phenomenon occurrence analysis apparatus and a time-related phenomenon occurrence analysis method for analyzing the lifespan of a living organism such as a human being or the life of an industrial product, and in particular, the survival rate and the industrial product in the treatment prognosis of a disease. The present invention relates to a temporal phenomenon occurrence analysis apparatus and a temporal phenomenon occurrence analysis method for estimating and analyzing an occurrence rate of a failure of the machine.

生物は特定の時間が経過すると必ず死に至るし、機械等の工業製品であれば故障する。このような生物の死や機械の故障などの不可逆的変化に関して、個体の寿命などと各種の要因との関連性について分析する方法として、生存時間解析(生存分析とも称される)が知られている。   Living organisms always die after a certain period of time, and they break down if they are industrial products such as machinery. Survival analysis (also known as survival analysis) is known as a method of analyzing the relationship between various factors such as the lifespan of an individual with respect to irreversible changes such as the death of a living organism or mechanical failure. Yes.

生存時間解析とは、時間を目的変数とする統計法である。生存時間解析といった場合、目的変数は死亡するまでの時間となるが、ある現象が発生するまでの時間と考えると他にも応用できる。例えば、生物の生存死亡のみならず、癌の転移、疾病の罹患の他、工業製品における故障の発生なども生存時間解析の対象となり得る。   Survival time analysis is a statistical method with time as an objective variable. In the case of survival time analysis, the objective variable is the time until death, but it can be applied to other cases when considered as the time until a certain phenomenon occurs. For example, not only survival and death of living organisms, but also metastasis of cancer, morbidity, occurrence of failures in industrial products, and the like can be objects of survival time analysis.

このような生物の生存死亡のみならず、癌の転移、疾病の罹患の他、工業製品における故障の発生なども含めて、所定の解析対象に所定の現象が発生するまでの時間を統計学的に解析する手法を、本明細書では特に「経時的現象発生解析」と称する。また、本明細書では、経時的現象発生解析において、生物の生死情報を解析する場合を、特に「生存時間解析」と区別して称する。以下、説明の便宜のため、生存時間解析を例に挙げて説明する。   In addition to survival and death of these organisms, in addition to cancer metastasis, disease morbidity, and the occurrence of failures in industrial products, the time until a given phenomenon occurs in a given analysis target is statistical In this specification, the analysis method is particularly referred to as “time-lapse phenomenon generation analysis”. Further, in this specification, in the analysis of occurrence of phenomena over time, the case of analyzing life / death information of a living organism is particularly distinguished and referred to as “survival time analysis”. Hereinafter, for convenience of explanation, a survival time analysis will be described as an example.

医療統計学における生存時間解析は、各症例に関して、死亡例については死亡までの生存期間、生存例については観察されている限りの生存期間が得られており、各症例の生存期間に関するデータの統計学と捉えることができる。   Survival analysis in medical statistics shows that for each case, the survival time to death is obtained for the death case, and as long as the observed survival time is obtained for the survival case. It can be understood as a study.

例えば、肺がんの手術を行った患者の予後に影響する要因は何か。また、新しい治療法による患者の延命効果はあるのだろうか。このような疑問に答えるためには、まず患者を長期に渡り追跡し、その後の変化(死亡、重篤化など)について、データを収集する必要がある。各症例の生死の状況が調べられ、患者の最終状態に対する、それぞれの変数の影響を検討する必要がある。このためには、生存時間解析のための適切な統計手法が不可欠となる。   For example, what are the factors that affect the prognosis of patients who have undergone surgery for lung cancer? Also, is there a long-lived effect on patients with new therapies? To answer these questions, it is first necessary to follow the patient for a long time and collect data on subsequent changes (death, severity, etc.). The life-and-death status of each case should be examined and the effect of each variable on the patient's final state should be examined. For this purpose, an appropriate statistical method for survival analysis is indispensable.

このような医療統計学における生存時間解析の代表的な手法として、例えば、「対象データを特徴量によって層別化した後、各層毎に生存曲線を描く」という手法、及び「連続値をなす特徴量と生存率との間の回帰関係を回帰係数によって表現する」という手法を標準的なものとして挙げることができる。ここで、“層別化”とは、各例を、その特徴量によって2つ又はそれ以上の群に分類しておくことである。“生存曲線”とは、横軸を時間、縦軸を各時点での生存例数の割合として、全症例のうち生存しているものの割合を時間軸に対して描いた曲線のことをいう。   As a representative method of survival time analysis in such medical statistics, for example, a method of “drawing a survival curve for each layer after stratifying the target data by feature amount” and “features that make continuous values” The technique of expressing the regression relationship between the quantity and the survival rate by the regression coefficient can be cited as a standard one. Here, “stratification” means that each example is classified into two or more groups according to the feature amount. The “survival curve” refers to a curve in which the horizontal axis represents time and the vertical axis represents the ratio of the number of surviving cases at each time point, and the ratio of all cases alive is plotted on the time axis.

前者の手法の代表的なものとしてカプラン・マイヤー(Kaplan-Meier)解析を挙げることができ、後者の手法の代表的なものとしてコックス(Cox)比例ハザード解析を挙げることができる(非特許文献1,2参照)。   A typical example of the former method is Kaplan-Meier analysis, and a typical example of the latter method is Cox proportional hazard analysis (Non-Patent Document 1). , 2).

また、上述したような医療統計学を利用して、ヒトの健康状態や寿命等を予測する技術が開発されている。例えば、特許文献1には、個人の健康状態を総合的に表す指標を用い、日常の健康状態の定量的な把握、健康管理指導を行ったときの効果及び指導内容の最適化に資するために、様々な健診結果に対する健康余命予測の基礎データである健康余命予測データを用いて、健診結果入力手順で入力された健康診断の健診結果から、健康余命の予測値を個人毎に算出し、表示手段で表示あるいは印刷手段で印刷する技術が開示されている。
特開2003−167959号公報(公開日:平成15(2003)年6月13日) 柳井晴夫,高木廣文 編著:多変量解析ハンドブック,現代数学社,1986. Cox, D.R.:Regression models and life-tables, Journal of the Royal Statistical Society, Ser.B 34:187-220, 1972.
In addition, techniques for predicting human health, lifespan, and the like using medical statistics as described above have been developed. For example, Patent Document 1 uses an index that comprehensively represents an individual's health status, and contributes to the quantitative grasp of daily health status, the effects of performing health management guidance, and optimization of guidance content. , Using life expectancy prediction data, which is the basic data for life expectancy prediction for various health checkup results, to calculate the predicted value of life expectancy for each individual from the health checkup results entered in the health check result input procedure However, a technique for displaying on a display unit or printing on a printing unit is disclosed.
JP 2003-167959 A (publication date: June 13, 2003) Haruo Yanai and Satoshi Takagi, edited by Handbook of Multivariate Analysis, Contemporary Mathematics Company, 1986. Cox, DR: Regression models and life-tables, Journal of the Royal Statistical Society, Ser. B 34: 187-220, 1972.

上述したように、生存時間解析の代表的な手法には、「カプラン・マイヤー解析」、「Cox比例ハザード解析」がある。   As described above, representative methods of survival time analysis include “Kaplan-Meier analysis” and “Cox proportional hazard analysis”.

しかしながら、より正確な生存時間解析を行うためには、特徴量が多種多様であり、細かい層別化が必要とされる場合を対象とすることが好ましいが、「カプラン・マイヤー解析」では、このような場合、各層の症例数が少なくなり、カプラン・マイヤー生存曲線の信頼性が低くなってしまうという問題点がある。   However, in order to perform a more accurate survival analysis, it is preferable to target the case where there are a wide variety of features and fine stratification is required, but in Kaplan-Meier analysis, In such a case, there is a problem that the number of cases in each layer is reduced and the reliability of the Kaplan-Meier survival curve is lowered.

また、信頼性の高い生存時間解析を行うためには、診断後早期における死亡リスクに関わる要因と、遅くなってからの死亡リスクに関わる要因など様々な時間スケールが混在する場合を対象とすることが好ましいが、「Cox比例ハザード解析」ではこれらを同時に扱うことはできないという問題点がある。   In addition, in order to perform a reliable survival time analysis, it is necessary to target cases where various time scales are mixed, such as factors related to mortality risk at an early stage after diagnosis and factors related to mortality risk after delay. However, there is a problem that these cannot be handled simultaneously in the “Cox proportional hazard analysis”.

さらに、上記特許文献1に開示の健康余命予測データ生成装置は、入力データとして、生活習慣や健康診断結果を対象としており、生活習慣等の入力量を層別化して与える必要があり、処理が煩雑になる。また、上記健康余命予測データ生成装置の出力結果は、あらかじめ各層で計算しておいた曲線をデータベースから選び出して出力するものである。このため、出力された曲線は「健康余命」の1パラメータに還元できる程度の単純な情報しか持たず、診断後の期間各々におけるリスク変化を反映していない。このため、今後さらなる発展が期待されているテーラーメイド(オーダーメード)医療への応用を考えると、このような従来の装置では十全とはいえない。   Furthermore, the life expectancy prediction data generation device disclosed in Patent Document 1 is intended for lifestyle habits and health checkup results as input data, and it is necessary to stratify and provide input amounts such as lifestyle habits. It becomes complicated. In addition, the output result of the health expectancy prediction data generation apparatus selects and outputs a curve calculated in advance for each layer from the database. For this reason, the output curve has only simple information that can be reduced to one parameter of “healthy life expectancy” and does not reflect the risk change in each period after diagnosis. For this reason, when considering application to tailor-made (custom-made) medicine, which is expected to be further developed in the future, such a conventional apparatus is not sufficient.

加えて、近年のライフサイエンス技術が著しく進歩しており、例えば、遺伝子発現解析技術等により、各症例の医療データについて大量の特徴量が得られるようになってきている。このため、こうした大量の情報と生存時間とを関連付けて解析する新しい生存時間解析の手法の開発が強く望まれている。   In addition, the life science technology in recent years has been remarkably advanced. For example, a large amount of feature amount can be obtained for the medical data of each case by a gene expression analysis technology or the like. For this reason, development of a new survival time analysis method for analyzing such a large amount of information in association with the survival time is strongly desired.

さらに、このように開発される生存時間解析の手法は、上述したように、生物の生存死亡のみならず、所定の時点における癌の転移、疾病の罹患、工業製品における故障の発生などの所定の現象の発生について解析する経時的現象発生解析にも応用可能である。   Furthermore, as described above, the survival time analysis method developed in this way is not limited to the survival and death of living organisms, but is also applied to predetermined methods such as cancer metastasis at a predetermined point in time, morbidity of disease, occurrence of failures in industrial products, etc. The present invention can also be applied to analysis of the occurrence of phenomena over time, which analyzes the occurrence of phenomena.

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、解析対象の特徴量データと所定の現象の発生とを関連付けて解析し、所定の時点において解析対象(単例)に所定の現象が発生する確率を解析できる新規な経時的現象発生解析装置及び経時的現象発生解析方法を提供することにある。   The present invention has been made in view of the above-described problems, and an object of the present invention is to analyze feature quantity data to be analyzed in association with occurrence of a predetermined phenomenon, and to analyze an object at a predetermined time (single example). It is an object of the present invention to provide a novel temporal phenomenon occurrence analysis apparatus and temporal phenomenon occurrence analysis method capable of analyzing the probability of occurrence of a predetermined phenomenon.

本発明者らは、上記課題を解決すべく鋭意検討を行った結果、癌治療後の患者の予後状態について、遺伝子発現プロファイルと治療後の所定の時点における生存期間とを学習用データとして用いた確率出力付き2値分類の教師付き機械学習によって、これらデータの相関関係を学習させたところ、患者単例について所定の時点毎に生存確率を解析できる生存時間解析装置(経時的現象発生解析装置)を作製できることを見出した。そして、この生存時間解析装置に対して、所定の時点についての遺伝子発現プロファイルを入力することにより、所定の時点において患者単例の生存率を算出することができ、単例生存率曲線を描けるという新技術を確立し、本願発明を完成させるに至った。本発明は、かかる新規知見に基づいて完成されたものであり、以下の発明を包含する。   As a result of intensive studies to solve the above problems, the present inventors used, as learning data, a gene expression profile and a survival time at a predetermined time point after treatment for the prognosis of a patient after cancer treatment. By learning the correlation of these data by supervised machine learning of binary classification with probability output, survival time analysis device (time-dependent phenomenon occurrence analysis device) that can analyze survival probability for each patient at a predetermined time point It was found that can be produced. And, by inputting a gene expression profile for a predetermined time point to this survival time analyzer, the survival rate of a single patient at a predetermined time point can be calculated, and a single case survival curve can be drawn New technology was established and the present invention was completed. The present invention has been completed based on such novel findings, and includes the following inventions.

(1)解析対象から得られる特徴量データを入力する入力手段と、上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出手段と、を備えており、上記確率算出手段は、学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を有しており、上記確率算出手段は、複数の所定の経過時点ごとに対応した複数の推定器を備えており、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出する経時的現象発生解析装置。   (1) input means for inputting feature quantity data obtained from the analysis target; probability calculation means for calculating an occurrence probability of a predetermined phenomenon for the analysis target based on the feature quantity data input by the input means; The probability calculation means includes, as learning data, whether or not the predetermined phenomenon has occurred at a predetermined elapsed time from the time when the feature amount data and the individual who acquired the feature amount data are earned. An estimator obtained by supervising the correlation between the feature data and the phenomenon information using a plurality of sets of phenomenon information regarding the learning data, and at any time other than the individual used for the learning data When the feature amount data of an arbitrary individual at is input, when the learning data has a correlation with the arbitrary feature amount data and the learning data from the time point The estimator that predicts whether or not the predetermined phenomenon occurs in the individual that acquired the feature amount data and outputs the probability, and the probability calculating means corresponds to each of a plurality of predetermined elapsed times. A temporal phenomenon occurrence analysis apparatus that includes a plurality of estimators and calculates the probability of occurrence of a predetermined phenomenon for the analysis target at a plurality of elapsed time points corresponding to the estimators.

(2)さらに、上記確率算出手段によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成手段を備えている(1)に記載の経時的現象発生解析装置。   (2) Further, by using the occurrence probability values at a plurality of elapsed time points calculated by the probability calculating means, a phenomenon occurrence probability curve with time from the time of acquiring feature amount data in an arbitrary analysis target is created. The temporal phenomenon occurrence analysis device according to (1), comprising a curve creation means.

(3)さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出手段を備える(1)又は(2)に記載の経時的現象発生解析装置。   (3) The temporal phenomenon according to (1) or (2), further comprising expected value calculation means for calculating an expected value of a time that elapses until the predetermined phenomenon occurs using the phenomenon occurrence probability curve. Generation analysis device.

(4)上記測定対象が生物であり、上記特徴量データが生物学的データであり、
上記所定の現象の発生が、解析対象の生物の死亡、疾病の罹患、又は細胞増殖性疾患の転移である(1)〜(3)のいずれかに記載の経時的現象発生解析装置。
(4) The measurement object is a living organism, and the feature data is biological data.
The temporal phenomenon occurrence analysis apparatus according to any one of (1) to (3), wherein the occurrence of the predetermined phenomenon is death of a living organism to be analyzed, morbidity of a disease, or metastasis of a cell proliferative disease.

(5)上記生物学的データは、生物の病理診断データである(4)に記載の経時的現象発生解析装置。   (5) The biological phenomenon generation analysis device according to (4), wherein the biological data is biological pathological diagnosis data.

(6)上記生物学的データは、生物の遺伝子発現プロファイルである(4)又は(5)に記載の経時的現象発生解析装置。   (6) The biological phenomenon generation analysis apparatus according to (4) or (5), wherein the biological data is a gene expression profile of an organism.

(7)上記生物学的データは、細胞増殖性疾患の予後診断に関するものである(4)〜(6)のいずれかに記載の経時的現象発生解析装置。   (7) The biological data generation analyzer according to any one of (4) to (6), wherein the biological data relates to a prognosis of a cell proliferative disease.

(8)上記推定器は、上記学習データによって推定精度が高められた判別関数であって、上記解析対象の特徴量データを入力とし実数値を出力する判別関数を用いて、所定の現象が起こるか否かを計算する判別関数処理部と、上記判別関数処理部からの出力値fをf−P変換処理して、所定の現象が起こる確率を算出するf−P変換処理部と、を備えるものである(1)〜(7)のいずれかに記載の経時的現象発生解析装置。   (8) The estimator is a discriminant function whose estimation accuracy is increased by the learning data, and a predetermined phenomenon occurs using a discriminant function that receives the feature quantity data to be analyzed and outputs a real value. A discriminant function processing unit that calculates whether or not, and an fP conversion processing unit that calculates the probability of occurrence of a predetermined phenomenon by performing fP conversion processing on the output value f from the discriminant function processing unit. The temporal phenomenon occurrence analysis device according to any one of (1) to (7).

(9)上記判別関数処理部における判別関数は、1次元線形判別分析及び重み付き投票法を用いるものであり、上記f−P変換処理部におけるf−P変換処理は、ロジスティック回帰を用いるものである(8)に記載の経時的現象発生解析装置。   (9) The discriminant function in the discriminant function processing unit uses one-dimensional linear discriminant analysis and a weighted voting method, and the fP conversion processing in the fP conversion processing unit uses logistic regression. The temporal phenomenon occurrence analysis device according to (8).

(10)解析対象から得られる特徴量データを入力する入力工程と、上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出工程と、を含んでおり、上記確率算出工程は、学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を用いる工程であって、上記確率算出工程は、複数の所定の経過時点ごとに対応した複数の上記推定器を用いて、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出する工程である経時的現象発生解析方法。   (10) An input step of inputting feature amount data obtained from the analysis target; a probability calculation step of calculating a probability of occurrence of a predetermined phenomenon for the analysis target based on the feature amount data input by the input unit; The probability calculation step includes, as learning data, whether or not the predetermined phenomenon has occurred at a predetermined elapsed time from the time when the characteristic amount data and the individual who acquired the characteristic amount data are earned. An estimator obtained by supervising the correlation between the feature data and the phenomenon information using a plurality of sets of phenomenon information regarding the learning data, and at any time other than the individual used for the learning data When the feature amount data of an arbitrary individual at is input, a predetermined progress in the learning data from the time point correlated with the arbitrary feature amount data A step of using an estimator that predicts whether or not the predetermined phenomenon occurs in the individual that acquired the feature amount data and outputs the probability, and the probability calculation step includes a plurality of predetermined elapsed time points. A temporal phenomenon occurrence analysis method, which is a step of calculating a probability of occurrence of a predetermined phenomenon with respect to the analysis target at a plurality of elapsed time points corresponding to the estimator using a plurality of corresponding estimators.

(11)さらに、上記確率算出工程によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成工程を含む(10)に記載の経時的現象発生解析方法。   (11) Further, by using the value of the occurrence probability of the phenomenon at a plurality of elapsed time points calculated by the probability calculation step, a time-dependent phenomenon occurrence probability curve from the time of acquiring the feature amount data in an arbitrary analysis target is created. The method of analyzing occurrence of a phenomenon with time according to (10), including a curve creation step.

(12)さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出工程を含む(10)又は(11)に記載の経時的現象発生解析方法。   (12) The temporal phenomenon according to (10) or (11), further including an expected value calculating step of calculating an expected value of a time elapsed until the predetermined phenomenon occurs using the phenomenon occurrence probability curve. Occurrence analysis method.

なお、上記経時的現象発生解析装置又は経時的現象発生解析方法は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記生存時間解析装置をコンピュータにて実現させる経時的現象発生解析装置の制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。   The temporal phenomenon occurrence analysis apparatus or the temporal phenomenon occurrence analysis method may be realized by a computer. In this case, the survival time analysis apparatus is operated by the computer by operating the computer as each means. The control program of the temporal phenomenon occurrence analysis apparatus to be realized and the computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.

本発明に係る経時的現象発生解析装置及び経時的現象発生解析方法によれば、所定の時点において、解析対象の特徴量データと所定の現象の発生とを関連付けて解析することができるため、所定の時点において、解析対象単例について所定の現象が発生する確率を解析することができるという効果を奏する。   According to the temporal phenomenon occurrence analysis apparatus and the temporal phenomenon occurrence analysis method according to the present invention, it is possible to analyze the feature quantity data to be analyzed and the occurrence of the predetermined phenomenon in association with each other at a predetermined time point. At this point, it is possible to analyze the probability of occurrence of a predetermined phenomenon for a single analysis target example.

例えば、特徴量データとしては病理診断データ等の寿命に関するデータを挙げることができ、所定の現象の発生として生物の生死、疾病の罹患(癌の転移を含む)、製品の故障等を挙げることができ、所定の現象が発生する確率として、生存率、疾病の罹患率(癌の転移率を含む)、製品の故障率等を例示することができる。   For example, the feature amount data can include life-related data such as pathological diagnosis data, and the occurrence of a predetermined phenomenon includes life and death of a living organism, disease (including cancer metastasis), product failure, and the like. Examples of the probability of occurrence of a predetermined phenomenon include survival rate, disease incidence (including cancer metastasis rate), product failure rate, and the like.

さらに、各時点で所定の現象が発生する確率を表す現象発生確率曲線(例えば、生存率曲線等)を描くこともできる。この場合、推定器が設けられていない時間(時点)においても所定の現象が発生する確率を正確かつ簡便に求めることができる。これにより、従来の生存時間解析を行う装置のように層別化することなく、解析対象毎(症例毎)について独自の現象発生確率曲線を得ることができる。   Furthermore, a phenomenon occurrence probability curve (for example, a survival rate curve or the like) representing the probability of occurrence of a predetermined phenomenon at each time point can be drawn. In this case, it is possible to accurately and easily determine the probability that a predetermined phenomenon will occur even when the estimator is not provided (time point). Thus, a unique phenomenon occurrence probability curve can be obtained for each analysis target (for each case) without stratification as in a conventional apparatus for performing survival time analysis.

本発明に係る経時的現象発生解析装置及び経時的現象発生解析方法について以下詳細に説明する。なお、経時的現象発生解析方法の説明は、経時的現象発生解析装置における処理工程の説明と重複するため、以下では、特に経時的現象発生解析装置を例に挙げて説明し、方法のみの説明は行わない。   The temporal phenomenon occurrence analysis apparatus and the temporal phenomenon occurrence analysis method according to the present invention will be described in detail below. Since the description of the temporal phenomenon occurrence analysis method overlaps with the explanation of the processing steps in the temporal phenomenon occurrence analysis apparatus, the following explanation will be given by taking the temporal phenomenon occurrence analysis apparatus as an example, and only the method. Do not do.

本発明に係る経時的現象発生解析装置は、教師付き機械学習により確率出力付き2値分類処理を行う推定器を用いて、所定の時点において、解析対象について所定の現象の発生確率を算出するものである。本明細書でいう文言「所定の現象の発生」には、生物の生存死亡のみならず、細胞増殖性疾患(癌、腫瘍)の転移、疾病の罹患の他、工業製品の故障等の発生が含まれる。   The temporal phenomenon occurrence analysis apparatus according to the present invention calculates an occurrence probability of a predetermined phenomenon for an analysis target at a predetermined time point using an estimator that performs binary classification processing with probability output by supervised machine learning. It is. The term “occurrence of a predetermined phenomenon” in this specification includes not only survival and death of living organisms, but also metastasis of cell proliferative diseases (cancer, tumor), morbidity, and failure of industrial products. included.

すなわち、本発明に係る経時的現象発生解析装置は、解析対象の種々の特徴量データに基づいて、所定の時点において、当該解析対象について所定の現象が発生する確率を算出するという経時的現象発生解析を実行することができるものである。特に、解析対象単例(1つのサンプル)について各時点における現象の発生率を算出できる点で、これまでにない経時的現象発生解析の新しい手法を提案するものである。   In other words, the temporal phenomenon occurrence analysis apparatus according to the present invention calculates the probability of occurrence of a predetermined phenomenon with respect to the analysis target at a predetermined time point based on various feature amount data of the analysis target. Analysis can be performed. In particular, the present invention proposes a new method for analyzing the occurrence of a phenomenon over time, which has not been seen so far, in that the occurrence rate of a phenomenon at each time point can be calculated for a single analysis target example (one sample).

さらに、本発明に係る経時的現象発生解析装置は、算出した複数の現象の発生率を用いて現象発生確率曲線を作成し、表示することができる。ここで文言「現象発生確率曲線」とは、各時点において所定の現象が発生する確率を、縦軸を現象の発生率、横軸を時間としてグラフの形で表示したものである。例えば、現象発生確率曲線として、生存率曲線を例に挙げることができる。特に、本発明に係る経時的現象発生解析装置によれば、単例についての現象発生確率曲線を描画することができる。   Furthermore, the temporal phenomenon occurrence analysis apparatus according to the present invention can create and display a phenomenon occurrence probability curve using the calculated occurrence rates of a plurality of phenomena. Here, the phrase “phenomenon occurrence probability curve” is a graph in which the probability of occurrence of a predetermined phenomenon at each time point is displayed in the form of a graph with the vertical axis representing the occurrence rate of the phenomenon and the horizontal axis representing time. For example, a survival rate curve can be given as an example of the phenomenon occurrence probability curve. In particular, according to the temporal phenomenon occurrence analysis apparatus according to the present invention, a phenomenon occurrence probability curve for a single example can be drawn.

本発明に係る経時的現象発生解析装置の処理方法の基本原理について簡単に説明する。まず、各例の特徴を多変量として表した特徴量データと、所定の時点において所定の現象が発生しているか否かに関する現象情報との相関関係を、教師付き機械学習により学習させ、確率出力付き2値分類処理が可能な推定器を作製する。そして、これらの推定器に解析対象の特徴量データを入力して、所定の時点において当該解析対象に所定の現象が発生する確率を算出する。このような推定器を、所定の時点ごとに複数個準備し、現象の発生率を算出する処理を、複数の時点で行う。そして、得られた結果から、単例の現象発生確率曲線を作成し表示する。   The basic principle of the processing method of the temporal phenomenon occurrence analysis apparatus according to the present invention will be briefly described. First, the correlation between the feature value data representing the features of each example as multivariate and the phenomenon information regarding whether or not a predetermined phenomenon has occurred at a predetermined time point is learned by supervised machine learning, and the probability output An estimator that can perform the binary classification process is created. Then, feature amount data to be analyzed is input to these estimators, and a probability that a predetermined phenomenon occurs in the analysis target at a predetermined time point is calculated. A plurality of such estimators are prepared for each predetermined time point, and the process of calculating the occurrence rate of the phenomenon is performed at a plurality of time points. Then, from the obtained result, a single phenomenon occurrence probability curve is created and displayed.

すなわち、本発明では、複数時間でのリスク評価のために、複数の推定器(予測器、分類器とも称する)を並列に並べる手法を開示する。各個推定器には、多変量の特徴量データを扱うことのできる機械学習手法を採用し、ある時点での現象発生率を出力できるように構成する。そして、複数の推定器の出力結果を単例生存率曲線の形で表現する。   That is, the present invention discloses a technique of arranging a plurality of estimators (also referred to as predictors and classifiers) in parallel for risk evaluation in a plurality of hours. Each individual estimator adopts a machine learning method capable of handling multivariate feature quantity data, and is configured to output a phenomenon occurrence rate at a certain point in time. And the output result of several estimators is expressed in the form of a single example survival rate curve.

このようにして得た単例の現象発生確率曲線は、生物の生存死亡のみならず、細胞増殖性疾患(癌、腫瘍等)の転移、疾病の罹患の他、工業製品の故障の発生等といった生存時間解析において、非常に有用である。例えば、特徴量データとして病理診断データや医療データを用いる場合、生物の生存率や疾病の罹患発症率を算出することができる。また、工業製品の寿命に関するデータを特徴量データとして用いた場合、工業製品の故障率を算出することもできる。このような解析結果は、特に、解析の現場(医療関係であれば臨床現場、工業製品であれば品質管理の現場等)において各例に対するきめ細かい判断(診断)を行うために必要となる、きめ細かい判断(診断)基準を与えることができる。   The single occurrence probability curve obtained in this way shows not only survival and death of living organisms, but also metastasis of cell proliferative diseases (cancer, tumor, etc.), morbidity, industrial product failures, etc. Very useful in survival analysis. For example, when pathological diagnosis data or medical data is used as the feature amount data, it is possible to calculate the survival rate of organisms and the incidence of disease. Moreover, when the data regarding the lifetime of an industrial product is used as feature-value data, the failure rate of an industrial product can also be calculated. Such analysis results are particularly necessary for making detailed judgments (diagnostics) for each example at the analysis site (clinical site for medical applications, quality control site for industrial products, etc.). Judgment (diagnosis) criteria can be given.

このような本発明に係る経時的現象発生解析装置について、特に生物の生存死亡を解析する場合を例に挙げて、以下に具体的に説明する。すなわち、生存時間解析装置を経時的現象発生解析装置の一実施形態として以下説明する。なお、本実施の形態では、説明の便宜及び理解の容易化のため、上記特徴量データとして、生物学的データ、特に遺伝子発現プロファイルデータを用い、解析対象として癌治療(癌手術)を行った患者(ヒト)を解析対象とし、所定の現象の発生率として、癌治療を行った患者の予後生存率を算出する場合を例に挙げて説明する。なお、本発明は本明細書で説明する趣旨に合致する範囲内で適宜変更可能であり、以下の実施の形態の例示に限定されるものではないことを念のため付言しておく。   Such a time-dependent phenomenon occurrence analyzing apparatus according to the present invention will be specifically described below by taking as an example the case of analyzing the survival and death of a living organism. That is, the survival time analysis apparatus will be described below as an embodiment of the temporal phenomenon occurrence analysis apparatus. In the present embodiment, for convenience of explanation and ease of understanding, biological data, particularly gene expression profile data is used as the feature amount data, and cancer treatment (cancer surgery) is performed as an analysis target. A case where a patient (human) is an analysis target and the prognostic survival rate of a patient who has been treated for cancer is calculated as an occurrence rate of a predetermined phenomenon will be described as an example. It should be noted that the present invention can be modified as appropriate within the scope of the present invention and is not limited to the following exemplary embodiments.

本実施の形態に係る生存時間解析装置について図1〜図7に基づいて、具体的に説明すると以下の通りである。   The survival time analysis apparatus according to the present embodiment will be specifically described below with reference to FIGS.

図1は、本実施の形態に係る生存時間解析装置100の機能ブロックの概略構成を示す図である。同図に示すように、生存時間解析装置100は、入力部10、確率算出部20、曲線作成部30、期待値算出部40、出力部50を備えている。   FIG. 1 is a diagram showing a schematic configuration of functional blocks of a survival time analysis apparatus 100 according to the present embodiment. As shown in the figure, the survival time analysis apparatus 100 includes an input unit 10, a probability calculation unit 20, a curve creation unit 30, an expected value calculation unit 40, and an output unit 50.

入力部10は、受診者の特徴量データとして遺伝子発現プロファイルデータを入力する入力手段として機能するものである。すなわち、入力部10は、生存時間の解析対象の受診者における遺伝子発現プロファイルを確率算出部20に対して入力するものであり、取り込まれたデータは電子データの形となる。具体的には、例えば、遺伝子発現プロファイルデータを電子データで管理している受診者自身、医療機関、研究機関、データ管理請負サービス機関等からネットワークや媒体を介して取り込む、あるいは紙に印刷された遺伝子発現プロファイルデータをイメージスキャナーで取り込んだ後、記載された文字や数値、図形等を認識した電子化データを取り込む、若しくは端末操作者が紙の遺伝子発現プロファイルデータが記された書面を見ながら記載内容をキーボード入力した結果を取り込むことで実現される。   The input unit 10 functions as input means for inputting gene expression profile data as feature amount data of the examinee. In other words, the input unit 10 inputs the gene expression profile of the examinee whose survival time is to be analyzed to the probability calculation unit 20, and the captured data is in the form of electronic data. Specifically, for example, it is taken in via a network or medium from a medical examinee who manages the gene expression profile data with electronic data, a medical institution, a research institution, a data management contract service organization, or printed on paper After importing the gene expression profile data with an image scanner, import the digitized data that recognizes the written characters, numerical values, figures, etc., or the terminal operator describes it while looking at the document on which the paper gene expression profile data is written Realized by capturing the result of keyboard input of the contents.

確率算出部20は、上記入力部10によって入力された遺伝子発現プロファイルデータに基づいて、上記受診者の生存情報について単例の生存率を算出する確率算出手段として機能するものである。確率算出部20には、教師付き機械学習によって確率出力付き2値分類処理が可能な推定器21が備えられている。推定器21は、後述するように、所定の時点ごとに、複数個設けられている。   The probability calculation unit 20 functions as a probability calculation unit that calculates the survival rate of a single example for the survival information of the examinee based on the gene expression profile data input by the input unit 10. The probability calculation unit 20 includes an estimator 21 that can perform binary classification processing with probability output by supervised machine learning. As will be described later, a plurality of estimators 21 are provided at predetermined time points.

ここで、文言「教師付き機械学習」とは、学習用データセット、すなわち学習用の入力とそれに対する出力(解答)の組、を複数利用して機械学習を行い、その学習結果を利用して未知の入力に対して適切な出力をさせる手法のことである。また、文言「確率出力付き2値分類処理」とは、ある特定の現象が発生した状態と発生していない状態とを2値に分類するとともに、その分類結果を確率出力するものである。例えば、分類結果が、“特定の現象が70%の確率で発生する”、“特定の現象が30%の確率で発生しない”といった具合になる処理のことをいう。   Here, the word “supervised machine learning” means that machine learning is performed using a plurality of learning data sets, that is, pairs of learning inputs and outputs (answers), and the learning results are used. It is a technique to make an appropriate output for an unknown input. The wording “binary classification process with probability output” classifies a state where a specific phenomenon has occurred and a state where it does not occur into binary values, and outputs the classification result as a probability. For example, the classification result may be a process in which “a specific phenomenon occurs with a probability of 70%” or “a specific phenomenon does not occur with a probability of 30%”.

この確率出力付き2値分類の教師付き機械学習の具体的な方法としては、従来公知の方法を好適に利用可能であり、特に限定されるものではない。例えば、後述する実施例に示すように、フィッシャー得点による遺伝子選択、一次元線形判別分析、及び重み付き投票法、並びにロジスティック回帰の組合せを用いることができる。この他にも、例えば、K最近傍法、多層パーセプトロン、ガウス過程回帰法、確率出力付きサポートベクトルマシン、等の従来公知の手法を用いることができる(例えば、Pattern Classification (2nd Edition), Richard O. Duda, Peter E. Hart, David G. Stork, Wiley-Interscience (October, 2000), ISBN: 0471056693参照)
本実施の形態における確率出力付き2値分類の教師付き機械学習の手法の基本概念について説明する。各例iについて、特徴ベクトルxiが与えられているとする。これは癌症例であれば、その手術時に取得した組織標本や臨床情報を様々な観点から調べて、その特徴をベクトルデータの形にまとめたものである。なお、本実施の形態では、重要な遺伝子の発現量(遺伝子発現プロファイル)を特徴量の典型例として利用している。
As a specific method of supervised machine learning of the binary classification with probability output, a conventionally known method can be suitably used and is not particularly limited. For example, as shown in the examples described later, a combination of gene selection based on Fisher scores, one-dimensional linear discriminant analysis, weighted voting, and logistic regression can be used. In addition to this, for example, a conventionally known method such as a K nearest neighbor method, a multilayer perceptron, a Gaussian process regression method, a support vector machine with a probability output, or the like can be used (for example, Pattern Classification (2nd Edition), Richard O Duda, Peter E. Hart, David G. Stork, Wiley-Interscience (October, 2000), ISBN: 0471056693)
The basic concept of the supervised machine learning technique of binary classification with probability output in the present embodiment will be described. Assume that a feature vector xi is given for each example i. If this is a cancer case, the tissue specimen and clinical information acquired at the time of surgery are examined from various viewpoints, and the features are summarized in the form of vector data. In the present embodiment, an expression level (gene expression profile) of an important gene is used as a typical example of a feature quantity.

まず、この特徴ベクトルから5年時点の生死を予測することを考える。全症例は、生存期間データから5年時点で「生存」、「死亡」、「不明」の3種類に分けられる。このうち「不明」を除いた生存・死亡の2値ラベルを学習用症例として用いる。教師付き機械学習の手法によれば、各例iの特徴ベクトルxiと2値的ラベルliの組を学習データとして、ラベルの判別関数f(x)を構成することができる。判別関数は特徴ベクトルを入力とし実数値を出力する関数であり、f(x)>0ならば生存と判別し、f(x)<0 ならば死亡と予測することに対応する。   First, let us consider the prediction of life and death at the time of 5 years from this feature vector. All cases are classified into 3 types of “survival”, “death”, and “unknown” at 5 years from the survival data. Of these, the binary label of survival / death excluding “unknown” is used as a learning case. According to the supervised machine learning method, the discriminant function f (x) of the label can be configured using the combination of the feature vector xi of each example i and the binary label li as learning data. The discriminant function is a function that takes a feature vector as an input and outputs a real value, and corresponds to predicting survival if f (x)> 0, and predicting death if f (x) <0.

また、判別関数の実数値は、その符号がラベルを表すだけでなく、その絶対値が予測の確からしさを表す。例えば、f(x)が0に近い値をとる場合には、符号による判別が正解する確率が低く、絶対値が大きいほど一般に符号による判別の正解率が高くなる。この性質を使って判別関数の実数値f(x)を、0以上1以下の確率値Pに変換することができる。特徴ベクトルxが観測された症例について、確率値Pは、その症例の5年時点予測生存率を意味する。   The real value of the discriminant function not only indicates the label, but also the absolute value indicates the probability of prediction. For example, when f (x) takes a value close to 0, the probability that the determination by the sign is correct is low, and the larger the absolute value, the higher the correct answer rate of the determination by the sign is generally. Using this property, the real value f (x) of the discriminant function can be converted into a probability value P of 0 or more and 1 or less. For a case in which the feature vector x is observed, the probability value P means the 5-year predicted survival rate of that case.

具体的には、本実施の形態における推定器21は、学習データとして、遺伝子発現プロファイルデータと、所定の時点における当該遺伝子発現プロファイルデータを取得した個体についての生存情報(生存しているか否かについての2値情報)と、のセットを複数用いて、当該遺伝子発現プロファイルデータと生存情報との相関関係を教師付き機械学習させて得られる。   Specifically, the estimator 21 according to the present embodiment uses, as learning data, gene expression profile data and survival information (whether or not it is alive about the individual who acquired the gene expression profile data at a predetermined time point). And the correlation between the gene expression profile data and the survival information is obtained by supervised machine learning.

この推定器21における機械学習の処理工程を模式的に説明すると、図2に示すようになる。まず、学習データとして複数(サンプルN個)の遺伝子発現プロファイルデータx(1)、x(2),…x(N)を準備する。上付きの括弧内の数字は、サンプルに対応する。また、複数の所定の時点における生存情報を準備する。ここで「所定の時点」とは、例えば、癌治療(手術)後、半年経過した時点や1年経過した時点といったように、適宜設定可能である。図2では、所定の時点として、0.5年時点、1年時点、1.5年時点、…5.0年時点といった具合に設定する。 A process of machine learning in the estimator 21 is schematically described as shown in FIG. First, plural (N samples) gene expression profile data x (1) , x (2) ,... X (N) are prepared as learning data. Numbers in superscript parentheses correspond to samples. In addition, survival information at a plurality of predetermined time points is prepared. Here, the “predetermined time point” can be set as appropriate, for example, at the time when half a year has passed or one year has passed after the cancer treatment (surgery). In FIG. 2, the predetermined time points are set such as 0.5 year point, 1 year point, 1.5 year point,...

0.5年時点の生存情報は、t0.5 (1)、t0.5 (2)、…t0.5 (N)と表し、5.0年時点の生存情報は、t5.0 (1)、t5.0 (2)、…t5.0 (N)と表す。また、x(1)の0.5年時点の生存情報はt0.5 (1)と対応し、x(1)の5.0年時点の生存情報はt5.0 (1)と対応する。また「生存情報」とは、生死についての情報であり、例えば、“生(生存している)状態”を“1”、“死(生存していない)状態”を“0”と設定する。 The survival information at 0.5 years is expressed as t 0.5 (1) , t 0.5 (2) ,... T 0.5 (N), and the survival information at 5.0 years is t 5. 0 (1) , t 5.0 (2) , ... t 5.0 (N) . Further, 0. Survival information 5 years time points x (1) corresponds with t 0.5 (1), the survival information 5. 0 years time of x (1) corresponding with t 5.0 (1) To do. The “survival information” is information about life and death, and for example, “1” is set for the “live (alive) state” and “0” is set for the “dead (not alive) state”.

そして、上記複数の所定の時点に対応した推定器21…を準備する。具体的には、図2に示すように、0.5年時点推定器、1年時点推定器、…5年時点推定器といったように準備し、各推定器21…に上述した遺伝子発現プロファイルデータと所定の時点における生存情報との相関関係を教師付き機械学習させる。   Then, estimators 21 corresponding to the plurality of predetermined time points are prepared. Specifically, as shown in FIG. 2, a 0.5-year time estimator, a 1-year time estimator,... 5 year time estimator, etc. are prepared, and the gene expression profile data described above in each estimator 21. And supervised machine learning with a correlation between the survival information at a predetermined time.

具体的には、図2に示すように、0.5年時点推定器に対して、遺伝子発現プロファイルデータx(1),x(2),…x(N)と、0.5年時点の生存情報は、t0.5 (1),t0.5 (2),…t0.5 (N)とを入力する。同様に、1年時点推定器にも遺伝子発現プロファイルデータx(1),x(2),…x(N)と、1年時点の生存情報は、t1.0 (1),t1.0 (2),…t1.0 (N)とを入力する。これをそれぞれの所定の時点に応じた推定器について行い、遺伝子発現プロファイルと生存情報との相関関係を教師付き機械学習させる。 Specifically, as shown in FIG. 2, 0. For the 5-year time estimator, the gene expression profile data x (1), x (2 ), ... and x (N), 0. 5 years time As survival information, t 0.5 (1) , t 0.5 (2) ,..., T 0.5 (N) are input. Similarly, the gene expression profile data x (1) , x (2) ,... X (N) and the survival information at one year are t 1.0 (1) , t 1. Enter 0 (2) ,... T 1.0 (N) . This is performed for each estimator corresponding to each predetermined point in time, and the correlation between the gene expression profile and the survival information is trained by machine learning.

教師付き機械学習手法としては、上述したように、従来公知の手法を好適に利用することができ、特に限定されるものではない。例えば、単変量線形判別関数の重み付き投票法を用いることができる。単変量線形判別関数の重み付き投票法の処理に関しては、後述する実施例において詳細に説明する。   As the supervised machine learning method, a conventionally known method can be suitably used as described above, and is not particularly limited. For example, a univariate linear discriminant function weighted voting method can be used. The processing of the weighted voting method of the univariate linear discriminant function will be described in detail in an embodiment described later.

上述のように機械学習した推定器21によれば、上述の学習データとして用いた個体以外の任意の個体の遺伝子発現プロファイルを入力した場合、当該任意の遺伝子発現プロファイルと相関関係のある、上記学習データにおける所定の時点と同時点において、当該遺伝子発現プロファイルを取得した個体の生存情報について確率出力することができる。   According to the estimator 21 that has been machine-learned as described above, when a gene expression profile of an arbitrary individual other than the individual used as the learning data is input, the learning has a correlation with the arbitrary gene expression profile. At the same time as the predetermined time point in the data, the probability information about the survival information of the individual who acquired the gene expression profile can be output.

この処理について、模式的に説明すると、図3に示すようになる。すなわち、解析対象(単例)の遺伝子発現プロファイルデータxを、上述の教師付き機械学習させた推定器21…のそれぞれに入力する。各推定器21…は、確率出力付き2値分類処理が可能に機械学習されているため、所定の時点において、解析対象の生存情報を確率値として出力できる(生存率が出力される)。具体的には、図3に示すように、遺伝子発現プロファイルデータxを、上述の教師付き機械学習させた推定器21…のそれぞれに入力した場合、0.5年時点推定器からは0.5年時点の生存率P0.5、1年時点推定器からは1年時点の生存率P1.0、…、5年時点推定器からは5年時点の生存率P5.0が出力される。 This process will be schematically shown in FIG. That is, the gene expression profile data x to be analyzed (single example) is input to each of the estimators 21 that have undergone supervised machine learning. Since each of the estimators 21 is machine-learned so that binary classification processing with probability output is possible, the survival information to be analyzed can be output as a probability value (a survival rate is output) at a predetermined time point. Specifically, as shown in FIG. 3, when the gene expression profile data x is input to each of the above-described supervised machine learning estimators 21. The survival rate P 0.5 at the year, the survival rate P 1.0 at the year 1 from the 1-year estimator, and the 5-year survival rate P 5.0 are output from the 5-year estimator. The

また、推定器21が、解析対象の遺伝子発現プロファイルデータxを用いて生存率Pを算出する処理手順を模式的に説明すると図4に示すようになる。すなわち、まず、解析対象の遺伝子発現プロファイルデータxは、判別関数処理部21aに入力される。判別関数処理部21aは、上記学習データによって推定精度が高められた判別関数を用いて、特徴ベクトルとして遺伝子発現プロファイルデータを入力とし実数値を出力する。出力結果がf(x)>0ならば生存と判別し、f(x)<0 ならば死亡と判別する。判別関数の具体的な手法は、特に限定されるものではない。例えば、後述する実施例では、「単変量線形判別」と「Fisher scoreによる重み付き投票法」とによる判別関数を用いている。   FIG. 4 schematically shows a processing procedure in which the estimator 21 calculates the survival rate P using the gene expression profile data x to be analyzed. That is, first, the gene expression profile data x to be analyzed is input to the discriminant function processing unit 21a. The discriminant function processing unit 21a receives the gene expression profile data as a feature vector and outputs a real value using the discriminant function whose estimation accuracy is increased by the learning data. If the output result is f (x)> 0, it is determined to be alive, and if f (x) <0, it is determined to be dead. The specific method of the discriminant function is not particularly limited. For example, in an example described later, a discrimination function based on “univariate linear discrimination” and “weighted voting method using Fisher score” is used.

単変量線形判別関数とは、特徴ベクトルの1つの成分だけを用いた判別関数である。ある1つの成分の値に符号をつけ、バイアス補正をするf(x)=Lx−bという最も単純な形になっている。ここでxはxの第j成分、Lは+1もしくは−1の符号、bはスカラー値のバイアス成分である。符号Lはf(x)>0ならば生存、f(x)<0ならば死亡と予測されるように決定される。重み付き投票ではその各々に重みをつけて和をとった形の下記数式(1)の判別関数を構成する。 A univariate linear discriminant function is a discriminant function using only one component of a feature vector. The simplest form of f j (x) = Lx j −b j for adding a sign to the value of a certain component and performing bias correction. Here, x j is a j-th component of x, L is a code of +1 or −1, and b j is a bias component of a scalar value. The code L is determined so that if f j (x)> 0, it is predicted to be live, and if f j (x) <0, it is predicted to be dead. In the weighted voting, a discriminant function of the following formula (1) is formed in a form in which each is weighted and summed.

Figure 2006202235
Figure 2006202235

ただし、wはj番目の単変量線形判別関数の重みを表す実数である。重みの具体的な値としては、「特徴ベクトル(遺伝子発現プロファイルデータ)の第j成分の、生存例・死亡例における平均値の差を分散で正規化したもの」を用いる。 Here, w j is a real number representing the weight of the jth univariate linear discriminant function. As the specific value of the weight, “the difference between the average values of the j-th component of the feature vector (gene expression profile data) in the living cases and the dead cases normalized by the variance” is used.

次に、判別関数処理部21aからの出力結果fは、f−P変換処理部21bに入力される。f−P変換処理部21bは、出力結果fをf−P変換処理し、0以上1以下の確率値Pに変換し出力する。遺伝子発現プロファイルデータxが観測された症例について、確率値Pはその症例の所定の時点における予測生存率を意味する。f−P変換処理の具体的な手法は特に限定されるものではないが、後述する本実施例では、ロジスティック回帰処理(logit変換)処理を行っている。   Next, the output result f from the discriminant function processing unit 21a is input to the fP conversion processing unit 21b. The fP conversion processing unit 21b performs fP conversion processing on the output result f, converts it to a probability value P of 0 or more and 1 or less, and outputs the result. For a case in which gene expression profile data x is observed, the probability value P means the predicted survival rate of the case at a predetermined time point. Although the specific method of the fP conversion process is not particularly limited, in this embodiment described later, a logistic regression process (logit conversion) process is performed.

判別関数の値fを確率値Pに変換するlogit変換処理では、下記数式(2)を用いる。   In the logit conversion process for converting the value f of the discriminant function into the probability value P, the following formula (2) is used.

Figure 2006202235
Figure 2006202235

ただしb、bはlogit変換のパラメータであり、データに基づいて最適な値を設定しておく。 However, b 0 and b 1 are parameters for logit conversion, and optimum values are set based on the data.

このように確率出力付き2値分類の教師付き機械学習を行い得られた推定器21…に、解析対象の遺伝子発現プロファイルデータxを入力すれば、当該解析対象の単例について、複数の所定の時点における生存情報を確率出力することができる。   If the gene expression profile data x to be analyzed is input to the estimators 21 obtained by performing supervised machine learning of binary classification with probability output in this way, a plurality of predetermined examples for the analysis target single example are input. Probability output of survival information at the time can be performed.

上述した推定器21としては、予め機械学習させた(学習済みの)推定器21…を用いることができる。また、その他にも、例えば、入力部10を介して推定器21…へ学習データの入力を行い、生存時間解析装置100内で推定器21を機械学習させた後、解析対象のデータを入力し生存時間の解析を行うこともできる。特に、推定器21・・・は、学習データを随時補充・追加・交換等して、適宜機械学習を繰り返すことにより、処理の信頼性が向上する。このため、推定器21・・・は、入力部10を介して学習データを入力し、適宜繰り返し機械学習できる構成がより好ましい。   As the estimator 21 described above, estimators 21 that have been machine-learned in advance (learned) can be used. In addition, for example, the learning data is input to the estimators 21 through the input unit 10, and after the estimator 21 is machine-learned in the lifetime analysis apparatus 100, the data to be analyzed is input. Survival analysis can also be performed. In particular, the estimators 21... Improve the reliability of processing by supplementing, adding, and exchanging learning data as needed and repeating machine learning as appropriate. For this reason, it is more preferable that the estimators 21... Input the learning data via the input unit 10 and repeatedly perform machine learning appropriately.

なお、本実施の形態でいう「特徴量データを取得した時点」とは、患者から生体試料を採取した時点をいい、この生体試料から遺伝子発現プロファイルデータを取得した時点ではない。つまり、本実施の形態において、特徴量データを取得した時点として重要なのは生体試料を採取した時点であって、遺伝子発現プロファイルデータを取得した時点ではない。これは、学習データ及び解析対象の特徴量データの両方についていえることである。   Note that the “time when feature data is acquired” in the present embodiment refers to a time when a biological sample is collected from a patient, and is not a time when gene expression profile data is acquired from the biological sample. That is, in the present embodiment, the time when the feature data is acquired is important when the biological sample is collected, not when the gene expression profile data is acquired. This is true for both learning data and feature quantity data to be analyzed.

本実施の形態に係る生存時間解析装置では、生体試料を採取した時点(特徴量データを取得した時点)から、死亡する(所定の現象が起こる)まで、及び/又は、死亡せず(現象が起こらず)観察を終了するまでの時間を“生存期間”としてとらえる構成である。このため、上記学習データとして患者から生体試料を採取する時点と、解析対象の患者から生体試料を採取する時点とは、それぞれ任意の時点でかまわない。つまり、解析対象の患者から生体試料を採取した、任意の時点から測定した各所定の時点での生存率を算出することができる。   In the survival time analysis apparatus according to the present embodiment, from the time when the biological sample is collected (when the feature amount data is acquired) until the death (predetermined phenomenon occurs) and / or without the death (the phenomenon is This is a configuration in which the time until the observation is finished is regarded as the “lifetime”. Therefore, the time point when the biological sample is collected from the patient as the learning data and the time point when the biological sample is collected from the patient to be analyzed may be arbitrary. That is, the survival rate at each predetermined time point measured from an arbitrary time point when a biological sample is collected from the patient to be analyzed can be calculated.

曲線作成部30は、確率算出部20によって算出された複数の時点における生存率の値を用いて、解析対象の受診者単例についての生存率曲線を作成する曲線作成手段として機能するものである。「単例の生存率曲線(生存曲線)」とは、サンプル1例(単例)についての生存率曲線のことであり、縦軸をそのサンプルの生存率やPosterior(事後確率)を、横軸を生存期間として表したグラフである。なお、本明細書における文言「曲線」の中には、単に複数の点をつないで表現した折れ線グラフも含まれる。   The curve creation unit 30 functions as a curve creation unit that creates a survival rate curve for a single patient to be analyzed using the survival rate values at a plurality of time points calculated by the probability calculation unit 20. . “Single case survival curve (survival curve)” is the survival curve for one sample (single case). The vertical axis shows the survival rate and posterior (posterior probability) of the sample. Is a graph representing the survival time. Note that the term “curve” in the present specification includes a line graph expressed by simply connecting a plurality of points.

具体的には、曲線作成部30は、例えば、確率算出部20によって算出された複数の時点の生存率について、縦軸を生存率、横軸を時間としてグラフ化する。かかる曲線を作成する手法は従来公知の方法を好適に利用でき、具体的な構成については特に限定されるものではない。例えば、各所定の時点における生存率の値をつないで曲線として表現することによりグラフ化することができる。   Specifically, for example, the curve creation unit 30 graphs the survival rate at a plurality of time points calculated by the probability calculation unit 20 with the vertical axis representing the survival rate and the horizontal axis representing time. As a method for creating such a curve, a conventionally known method can be suitably used, and the specific configuration is not particularly limited. For example, it can be graphed by connecting the survival rate values at each predetermined time point and expressing it as a curve.

期待値算出部40は、曲線作成部30が作成した生存率曲線を用いて、解析対象の患者各個体の生存時間の期待値を算出する。   The expected value calculation unit 40 uses the survival rate curve created by the curve creation unit 30 to calculate the expected value of the survival time of each individual patient to be analyzed.

本明細書でいう「期待値」とは、統計学や確率論における基本的な用語であり、特に限定されるものではないが、例えば、同じ条件の下での無限回試行の平均値として期待される値のことをいう。例えば、サイコロの出目の期待値は3.5である。   The “expected value” in this specification is a basic term in statistics and probability theory, and is not particularly limited. For example, it is expected as an average value of infinite trials under the same conditions. Refers to the value to be set. For example, the expected value of the dice roll is 3.5.

例えば、期待値算出部40は、生存時間の期待値を以下のように算出することができる。まず、観測値xが得られた患者について、生存確率の予測を行い、単例生存曲線を描画する。   For example, the expected value calculation unit 40 can calculate the expected value of the survival time as follows. First, a survival probability is predicted for a patient whose observation value x is obtained, and a single case survival curve is drawn.

次に、この生存曲線に基づいて、具体的な生存期間を予想することになるが、元々確率的な予想であるため、様々な生存期間が確率的に想定できる。例えば、同じ観測値xを得られた患者が複数人いた場合に、例えば、死亡時点までの生存期間が3,4,5,5,5,6,10,3,5,4,4,…年のようなものが想定できる。   Next, based on this survival curve, a specific survival period is predicted, but since it is originally a probabilistic prediction, various survival periods can be assumed probabilistically. For example, when there are a plurality of patients who have obtained the same observation value x, for example, the survival time up to the time of death is 3, 4, 5, 5, 5, 6, 10, 3, 5, 4, 4,. I can imagine something like a year.

続いて、上記想定した生存期間データに基づいて、生存期間(単例生存曲線ではなく、通常の複数例用の生存曲線)を描画すると、最初に作成した単例生存曲線と一致する。換言すると、上記単例生存曲線と一致するように、生存期間データを想定することになる。   Subsequently, when a survival period (a normal survival curve for a plurality of cases instead of a single case survival curve) is drawn based on the assumed survival period data, it coincides with the first case survival curve created. In other words, the lifetime data is assumed so as to coincide with the single case survival curve.

最後に、上記生存期間データを患者数が無限になるようにとった場合、その生存期間の平均値を生存期間の期待値として算出する。   Finally, when the survival time data is taken so that the number of patients becomes infinite, the average value of the survival time is calculated as the expected value of the survival time.

具体的には、期待値算出部40は、以下のようにして生存期間の期待値を算出することができる。例えば、ある症例xについて、経過時点 0.5,1.0,…,5.0年における推定生存確率がそれぞれ、P0.5,P1.0,…,P5.0であったとする。このとき、生存期間yが経過時点5.0年を超えた場合の生存確率をP5.0exp(−λ(y−5.0))で近似することにより、図5のような生存曲線が得られる。これを期間yの関数としてg(y)と表す。 Specifically, the expected value calculation unit 40 can calculate the expected value of the lifetime as follows. For example, for a case x, the estimated survival probabilities at the elapsed time points 0.5 , 1.0 ,..., 5.0 years are P 0.5 , P 1.0 ,. . At this time, by approximating the survival probability when the survival period y exceeds 5.0 years from the elapsed time by P 5.0 exp (−λ (y−5.0)), the survival curve as shown in FIG. Is obtained. This is expressed as g (y) as a function of the period y.

時刻yからy+dyまでに死亡イベント(現象)が起こる確率は、(g(y)−g(y+dy))/dyと表すことができるため、生存期間の期待値E〔y〕は下記数式(3)のように表すことができる。   Since the probability that a death event (phenomenon) occurs from time y to y + dy can be expressed as (g (y) −g (y + dy)) / dy, the expected value E [y] of the lifetime is expressed by the following formula (3) ).

Figure 2006202235
Figure 2006202235

なお、推定された生存曲線において g’(y)<0となる部分があるが、積分後にはその影響は無くなるので問題はない。また、上記の積分は、0<y<5.0における数値積分と、5.0<y<∞における指数関数の積分との和によって容易に計算できる。また、y>5.0における指数分布を決定するパラメータであるλは、λ=P5.0/5.0とする。これは、0<y<5.0の期間における平均死亡率と同様の死亡率が、y>5.0でも続くことを仮定している。 Although there is a portion where g ′ (y) <0 in the estimated survival curve, there is no problem because the influence disappears after integration. Further, the above integration can be easily calculated by the sum of numerical integration at 0 <y <5.0 and exponential integration at 5.0 <y <∞. Also, λ, which is a parameter for determining the exponential distribution when y> 5.0, is λ = P 5.0 /5.0. This assumes that mortality similar to the average mortality in the period of 0 <y <5.0 will continue with y> 5.0.

出力部50は、曲線作成部30によって作成された生存率曲線を表示する表示手段として機能するものである。表示手段としては、従来公知のCRTディスプレイや液晶ディスプレイ等を適宜利用可能である。また、出力部50は、確率算出部20によって算出された、複数の生存率、生存率曲線、期待値をそれぞれ単独で、または適宜組み合わせて表示するように構成されていてもよい。なお、データの表示の際、例えば、閲覧者がユーザ名とパスワードとを入力しなければ閲覧できないような従来公知のユーザ認証処理が加わっていてもよい。   The output unit 50 functions as a display unit that displays the survival rate curve created by the curve creating unit 30. As the display means, a conventionally known CRT display, liquid crystal display, or the like can be used as appropriate. The output unit 50 may be configured to display a plurality of survival rates, survival rate curves, and expected values calculated by the probability calculation unit 20 singly or in combination as appropriate. When displaying data, for example, a publicly known user authentication process may be added so that browsing is not possible unless the viewer inputs a user name and a password.

さらに、プリンタ等の従来公知の印刷手段を用いて、算出した受診者の各時点における生存率や生存率曲線等を紙に印刷することもできる。その際、受診者の各時点における生存率や生存率曲線等が印刷された紙に、例えば、はがき等の用紙に事務的な連絡に用いる所定の文面と受診者の住所・氏名を同時に印刷して、発送できるようにしてもよい。なお、この場合、受診者への配達の過程で、印刷された情報が第三者に見られることがないように、印字面を隠す紙を付加したり、封書で送るようにしたりしてもよい。また、この印刷処理においても、表示手順と同様にユーザ認証やアクセス権管理を導入し、印刷業務担当者等の特定の操作者のみ印刷が可能なように設定してもよい。   Furthermore, it is possible to print the calculated survival rate, survival rate curve, and the like of the examinee at each time point on paper using a conventionally known printing unit such as a printer. At that time, on the paper on which the survival rate and survival rate curves of the examinee at each time point are printed, for example, on a postcard, etc., the prescribed text used for administrative communication and the address and name of the examinee are printed at the same time. So that it can be shipped. In this case, in order to prevent the printed information from being viewed by a third party during the delivery process to the patient, it may be possible to add paper to conceal the printed surface or send it in a sealed letter. Good. Also in this printing process, user authentication and access right management may be introduced in the same way as the display procedure so that only a specific operator such as a person in charge of printing work can print.

曲線作成部30が作成した生存率曲線を出力部50が出力したものとして、例えば、後述する実施例の図8のような図表を挙げることができる。   Examples of the output of the survival rate curve created by the curve creation unit 30 by the output unit 50 include a chart as shown in FIG.

この図8は、後述する実施例に示すように、本実施の形態に係る生存時間解析装置100を用いて、神経芽細胞腫136症例のマイクロアレイ測定による各症例の予後予測を行った結果を示すものである。   FIG. 8 shows the results of prognosis prediction of each case by microarray measurement of 136 cases of neuroblastoma using the survival time analysis apparatus 100 according to this embodiment, as shown in the examples described later. Is.

図8の左側のパネルは各症例の症例情報を示したものである。特に実線の棒グラフ(カラーの場合は赤の棒グラフ)は死亡例、破線の棒グラフ(カラーの場合は青の棒グラフ)は生存例について、それぞれ生存期間を示したものである。左側の2行は2年時点と5年時点の生存(黒丸(カラーの場合は青))、死亡(白丸(カラーの場合は赤))の情報を示したものである。また右側の6行は癌の予後マーカー(詳細は後述する実施例参照)であり、白(カラーの場合は赤)の丸点は“予後マーカーが不良(良好でない)であること”を示し、黒(カラーの場合は青)の丸点は“予後マーカーが良好である”ことを示している。   The left panel of FIG. 8 shows the case information of each case. In particular, a solid bar graph (red bar graph in the case of color) indicates a death example, and a broken line bar graph (blue bar graph in the case of color) indicates a survival period. The two lines on the left show information on survival (black circle (blue for color)) and death (white circle (red for color)) at 2 years and 5 years. The 6 lines on the right side are cancer prognostic markers (see Examples below for details), and white (red in the case of color) circles indicate that the prognostic marker is poor (not good), A black dot (blue in the case of color) indicates that “the prognostic marker is good”.

また、図8の右側のパネルは各症例の単例生存率曲線を示す折れ線グラフである。具体的には、生存率を0.5年刻みで計算し折線グラフで示したものであり、生存(黒丸(カラーの場合は青))、死亡(白丸(カラーの場合は赤))の情報をも併せて示してある。   Further, the right panel in FIG. 8 is a line graph showing a single case survival curve of each case. Specifically, the survival rate is calculated in 0.5-year increments and shown as a line graph. Information on survival (black circle (blue for color)) and death (white circle (red for color)) Is also shown.

同図に示すように、本生存時間解析装置100による予後予測の結果と実際の生存情報とが良好に一致することがわかる。   As shown in the figure, it can be seen that the results of prognosis prediction by the survival time analysis apparatus 100 and the actual survival information are in good agreement.

例えば、サンプルS001,S022は、左側のパネルより、現実に予後が良好で長期間生存しているのがわかる。これに対して、生存時間解析装置による予後予測を示す右側のパネルでは、S001,S022ともに5年間にわたって死亡リスクがほぼゼロという結果が得られており、実情と予測とがほぼ一致していることがわかる。   For example, it can be seen from the left panel that samples S001 and S022 have a good prognosis and survive for a long time. On the other hand, in the right panel showing the prognosis prediction by the survival time analysis device, the result that the risk of death is almost zero for 5 years is obtained for both S001 and S022, and the actual situation and the prediction are almost the same. I understand.

また、サンプルS014は現在のところ予後が良好であるが、生存時間解析装置による予後予測では4年目頃から死亡率が少し高まると予測されている。   In addition, sample S014 has a good prognosis at present, but in the prognosis prediction by the survival time analyzer, it is predicted that the mortality rate slightly increases from around the 4th year.

また、サンプルS057,S078は現在のところ予後が良好であるが、生存時間解析装置による予後予測では、死亡リスクが一定のペースで増加すると予測されている。   In addition, samples S057 and S078 have a good prognosis at present, but in the prognosis prediction by the survival time analyzer, it is predicted that the risk of death will increase at a constant pace.

また、サンプルS108,S109はそれぞれ2〜3年で死亡しており、予後が良好とはいえない。これに対して、本生存時間解析装置による予後予測では、確かに死亡リスクが一定のペースで増加している。この結果より、実情と予測とがほぼ一致していることがわかる。   Samples S108 and S109 have died in 2 to 3 years, respectively, and the prognosis is not good. On the other hand, in the prognosis prediction by this survival time analyzer, the risk of death is certainly increasing at a constant pace. From this result, it can be seen that the actual situation and the prediction almost coincide.

また、サンプルS114,S133は予後が非常に悪く、術後かなり初期の段階で死亡している。これに対して、本生存時間解析装置による予後予測では、確かにごく初期に高い死亡リスクがあると予測されている。この結果より、実情と予測とがほぼ一致していることがわかる。   Samples S114 and S133 have a very poor prognosis and die at a very early stage after the operation. On the other hand, in the prognosis prediction by this survival time analyzer, it is predicted that there is indeed a high risk of death at the very beginning. From this result, it can be seen that the actual situation and the prediction almost coincide.

また、サンプルS199,S122はともに予後がやはり良好ではなく、術後6ヶ月〜1年で死亡している。これに対して、生存時間解析装置による予後予測では、確かに、6ヶ月を超えたところで高い死亡リスクがあると予測されている。この結果より、実情と予測とがほぼ一致していることがわかる。   In addition, both samples S199 and S122 have a poor prognosis and die within 6 months to 1 year after the operation. On the other hand, in the prognosis prediction by the survival time analyzer, it is certainly predicted that there is a high risk of death after 6 months. From this result, it can be seen that the actual situation and the prediction almost coincide.

また、サンプルS118は、現時点では予後がそれほど悪くなく、生存している。しかし、生存時間解析装置による予後予測では、最初の6ヶ月に高い死亡リスクがあるが、その時点を超えるとリスクが低いまま推移している。これも実情と予測とがほぼ一致していることがわかる。   In addition, the sample S118 is alive at the present time with a poor prognosis. However, according to the prognosis prediction by the survival time analyzer, there is a high risk of death in the first 6 months, but the risk remains low after that point. This also shows that the actual situation and the prediction are almost the same.

次に、本実施の形態に係る生存時間解析装置100の具体的な処理フローの一例について図6、図7に基づいて説明する。まず、推定器21における教師付き機械学習について説明し、次いで、生存時間解析装置100における生存時間解析の処理について説明する。   Next, an example of a specific processing flow of the survival time analysis apparatus 100 according to the present embodiment will be described with reference to FIGS. First, supervised machine learning in the estimator 21 will be described, and then survival time analysis processing in the survival time analysis apparatus 100 will be described.

図6に教師付き機械学習の処理フローの一例を示す。まず、同図に示すように、推定器21に対して、複数の遺伝子発現サンプルデータ(遺伝子発現プロファイルデータ)と、症例生存期間データ(生存情報)が入力される。   FIG. 6 shows an example of a processing flow of supervised machine learning. First, as shown in the figure, a plurality of gene expression sample data (gene expression profile data) and case survival data (survival information) are input to the estimator 21.

続いて、推定器21において、遺伝子発現プロファイルデータと生存期間との相関関係について、教師付き機械学習(確率出力付き2値分類)処理が行われる。なお、教師付き機械学習の具体的な内容については上述のとおりである。   Subsequently, in the estimator 21, supervised machine learning (binary classification with probability output) processing is performed on the correlation between the gene expression profile data and the lifetime. The specific content of supervised machine learning is as described above.

このようにして、確率出力付き2値分類の教師付き機械学習が行われた推定器21が取得できる。   In this way, the estimator 21 that has undergone supervised machine learning of binary classification with probability output can be acquired.

また、図7に生存時間解析装置100における生存時間解析の処理フローの一例を示す。まず、同図に示すように、入力部10が、確率算出部20に対して、診断対象者(解析対象)の遺伝子発現プロファイルデータを入力する(S1)。上述したように、この処理は、ユーザが入力部10を介して行うことができる。   FIG. 7 shows an example of a processing flow of survival time analysis in the survival time analysis apparatus 100. First, as shown in the figure, the input unit 10 inputs the gene expression profile data of the diagnosis subject (analysis target) to the probability calculation unit 20 (S1). As described above, this process can be performed by the user via the input unit 10.

次いで、確率算出部20は、所定の時点ごとに設けられた推定器21…に対して、診断対象(解析対象)の遺伝子発現プロファイルデータを入力し処理させる(S2)。つまり、所定の時点ごとの推定器21は、それぞれ学習した時点に対応して、所定の時点において、診断対象者の生存率を算出する。なお、生存率算出の具体的な内容は、上述したとおりである。   Next, the probability calculation unit 20 inputs and processes the gene expression profile data of the diagnosis target (analysis target) to the estimators 21 provided at predetermined time points (S2). That is, the estimator 21 for each predetermined time point calculates the survival rate of the person to be diagnosed at a predetermined time point corresponding to each learned time point. The specific content of the survival rate calculation is as described above.

続いて、確率算出部20は、曲線作成部30に対して複数の推定器21が算出した生存率を出力する(S3)。   Subsequently, the probability calculation unit 20 outputs the survival rate calculated by the plurality of estimators 21 to the curve creation unit 30 (S3).

次に、曲線作成部30は、複数の生存率について生存率曲線を作成する(S4)。なお、生存率曲線を作成する具体的な内容は、上述したとおりである。   Next, the curve creation unit 30 creates a survival rate curve for a plurality of survival rates (S4). The specific content for creating the survival rate curve is as described above.

そして、期待値算出部40は、生存率曲線を用いて、任意の経過時点において解析対象の患者の生存時間(生存率)の期待値を算出する(S5)。なお、期待値を算出する具体的な内容は、上述したとおりである。   Then, the expected value calculation unit 40 calculates the expected value of the survival time (survival rate) of the patient to be analyzed at an arbitrary time point using the survival rate curve (S5). The specific content for calculating the expected value is as described above.

最後に、曲線作成部30は、作成した生存率曲線、及び/又は、期待値を出力部に出力し(S6)、処理を終了する。   Finally, the curve creation unit 30 outputs the created survival rate curve and / or the expected value to the output unit (S6), and ends the process.

以上のように、本実施の形態に係る生存時間解析装置100によれば、各症例について独自の生存率を算出し、さらに生存率曲線を作成することができる。従来の生存時間解析装置・方法では、あらかじめ各層で計算しておいた生存率曲線をデータベースから選び出して出力する手法を採用していた。このため、各受診者(各症例)について、リスクが高い/低いという点のみに基づき、生存時間に関する評価がなされており、きめ細かいリスク解析、特に時間軸に対してのリスク解析を十分に行うことができなかった。   As described above, according to the survival time analysis apparatus 100 according to the present embodiment, it is possible to calculate a unique survival rate for each case and further create a survival rate curve. The conventional survival time analysis apparatus / method employs a method of selecting and outputting a survival rate curve calculated in advance for each layer from a database. For this reason, for each patient (each case), the survival time is evaluated based only on the high / low risk, and a thorough risk analysis, especially on the time axis, should be performed. I could not.

一方、本生存時間解析装置は、各症例について独自の(単例の)生存率曲線を作成する。この各症例について作成された単例生存率曲線は、疾病診断後の期間各々におけるリスク変化を反映するものである。このため、より一層きめ細かい時系列上のリスク予測が得られ、臨床判断の新しい基準となり得る。すなわち、各受診者のリスクがどの時期に大きく変動するかについて解析することが可能となり、非常に有益である。   On the other hand, this survival time analyzer creates a unique (single case) survival rate curve for each case. The single case survival curve created for each case reflects the risk change in each period after diagnosis of the disease. For this reason, more detailed time series risk prediction can be obtained, which can be a new standard for clinical judgment. In other words, it is possible to analyze when the risk of each examinee fluctuates greatly, which is very useful.

このような単例生存率曲線は、例えば、オーダーメード医療に利用することができる。すなわち、オーダーメード医療を臨床応用する際には、各症例について、より細かいリスク解析が必要となるが、本生存時間解析装置によれば、このようなリスクが生じる細かいプロセスを各症例について的確に解析することができる。特に、本生存時間解析装置は、時間軸についてリスクを解析できるという時間解像度が高いという特徴がある。このように時間解像度が高いと、リスクタイプの違いについてより正確に解析でき、各症例の相違を的確に把握することができる。   Such a single case survival rate curve can be used for, for example, customized medicine. In other words, when custom-made medical treatment is applied clinically, more detailed risk analysis is required for each case. However, according to this survival time analysis device, a detailed process for generating such risks can be accurately performed for each case. Can be analyzed. In particular, this survival time analysis apparatus is characterized by high time resolution that can analyze a risk on a time axis. Thus, when the time resolution is high, the difference between the risk types can be analyzed more accurately, and the difference between the cases can be accurately grasped.

また、本実施の形態では、遺伝子発現プロファイルデータとして、所定の遺伝子の発現量を数値化したものを特徴量データとして用いている。この際、用いる遺伝子の種類・数、遺伝子発現量の解析手法、解析結果の数値化処理等については従来公知の方法や技術常識に基づいて、合理的な範囲で適宜設定することができ、特に限定されるものではない。例えば、後述する実施例では、5340遺伝子について、マイクロアレイを用いて遺伝子発現プロファイルを解析し、コントロール細胞と解析対象者の細胞との間における遺伝子発現量の対数比を測定した結果得られたデータを遺伝子発現プロファイルデータとして用いている。   Further, in the present embodiment, as the gene expression profile data, data obtained by quantifying the expression level of a predetermined gene is used as feature data. At this time, the type and number of genes to be used, the method for analyzing the gene expression level, the numerical processing of the analysis results, etc. can be appropriately set within a reasonable range based on conventionally known methods and technical common sense. It is not limited. For example, in the examples described later, for 5340 genes, the gene expression profile was analyzed using a microarray, and the data obtained as a result of measuring the logarithmic ratio of the gene expression level between the control cells and the cells of the analysis target was obtained. Used as gene expression profile data.

また、本実施の形態では癌患者の予後生存率を解析対象としているが、具体的な癌の種類等は特に限定されるものではなく、従来公知の癌・腫瘍等の細胞増殖性疾患について同様に行うことができる。「細胞増殖性疾患」とは、細胞周期の異常等により、細胞が制御不能状態で増殖した結果生じる各種疾患のことであり、例えば、扁平上皮癌、肺癌(肺小細胞癌を含む)、胃癌、肝癌、乳癌、食道癌、膀胱癌、前立腺癌、大腸癌、腎臓癌、脳腫瘍、網膜芽細胞腫、骨肉腫、神経繊維腫症、悪性黒色腫、白血病等の多様な癌や腫瘍を挙げることができる。腫瘍には特に悪性のものを解析の対象とすることが好ましいが、これに限られず、良性腫瘍について解析することもできる。   Further, in this embodiment, the prognostic survival rate of cancer patients is analyzed, but the specific types of cancer are not particularly limited, and the same applies to cell proliferative diseases such as conventionally known cancers and tumors. Can be done. “Cell proliferative diseases” are various diseases resulting from the proliferation of cells in an uncontrollable state due to abnormal cell cycle, such as squamous cell carcinoma, lung cancer (including small cell lung cancer), gastric cancer, etc. List various cancers and tumors such as liver cancer, breast cancer, esophageal cancer, bladder cancer, prostate cancer, colon cancer, kidney cancer, brain tumor, retinoblastoma, osteosarcoma, neurofibromatosis, malignant melanoma, leukemia Can do. In particular, it is preferable to analyze malignant tumors, but the present invention is not limited to this, and benign tumors can also be analyzed.

また、上述の説明では、ヒト(人間)を対象として説明しているが、これに限定されるものではなく、ラット、マウス、ウサギ、サル、ヤギ、ヒツジ、ブタ、ウマ、及びウシ等の各種哺乳動物に対しても同様に解析することができる。特に、ラット、マウス、ウサギ、サル等は実験動物として用いられるため、これらについての生存時間解析は医薬の開発等の分野において非常に有用である。   In the above description, human (human) is described as an object. However, the present invention is not limited to this, and various types such as rat, mouse, rabbit, monkey, goat, sheep, pig, horse, and cow are used. The same analysis can be performed for mammals. In particular, since rats, mice, rabbits, monkeys and the like are used as experimental animals, survival time analysis of these is very useful in the field of drug development and the like.

また、本生存時間解析装置には、特徴量データとして上述の遺伝子発現プロファイルデータのみならず、その他の生物学的データや病理診断データを用いることができる。ここでいう文言「生物学的データ」とは、遺伝データ、病理診断データ等の受診者から取得可能な生物学的・生理学的なデータであればよく、特に限定されるものではない。「遺伝情報」としては、ゲノム解析の結果得られる染色体情報(疾病の遺伝性素因に関する情報)、遺伝子多型、SNPs(single nucleotide polymorphisms)情報等、トランスクリプトーム解析の結果得られる遺伝子発現プロファイルや遺伝子間相互作用(転写促進・転写抑制に関するもの)等、プロテオーム解析によって得られるタンパク質構造、タンパク質相互作用等の情報、タンパク質への糖鎖修飾等の翻訳後修飾に関連する情報等の種々の情報を挙げることができる。   In addition, the present survival time analysis apparatus can use not only the above-described gene expression profile data but also other biological data and pathological diagnosis data as feature data. The term “biological data” here is not particularly limited as long as it is biological / physiological data that can be acquired from the examinee, such as genetic data and pathological diagnosis data. “Genetic information” includes gene expression profiles obtained as a result of transcriptome analysis, such as chromosome information (information on genetic predisposition to disease), gene polymorphisms, SNPs (single nucleotide polymorphisms) information, etc. Various information such as information on protein structure obtained by proteome analysis, such as inter-gene interactions (related to transcription promotion and transcription repression), information on protein interactions, information related to post-translational modifications such as sugar chain modifications to proteins Can be mentioned.

また、文言「病理診断データ」としては、医師による問診結果や病院での検査結果から得られるデータのことである。問診結果とは,主に受診者の問診票記入や医師から患者への質問により得られる受診者の健康状態に関する情報であって、既往症、治療中の疾病、自覚症状(動悸、むくみ、疲れやすい等)の他、食事(種類、摂取量、規則性等)、運動(種類、強度、頻度等)、喫煙(有無、喫煙量、喫煙年数、過去の喫煙歴、禁煙期間等)、飲酒(頻度、種類、アルコール量等)、仕事(仕事内容、勤務時間、帰宅時間等)等の日常生活習慣を含むものである。検査結果とは、主に検査機器や医師の診察で得られる判断であって、身体計測(身長、体重、肥満度等)、視力、血圧、脈拍、尿検査、血液検査(白血球数、赤血球数、肝機能検査、脂質代謝、痛風検査、糖代謝等)、胸部X線検査、消化器X線検査、心電図、腹部エコー検査、歯科検診等の結果の他、手術時に採取した病理試料について分子生物学的手法、細胞生物学的手法、免疫学的手法を用いて得られる各種病理データ(遺伝子発現解析、免疫染色結果等)を挙げることができる。   Further, the term “pathological diagnosis data” refers to data obtained from the results of an inquiry by a doctor or a test result at a hospital. Interview results are information on the health status of the patient, mainly obtained by filling out the patient's questionnaire and questions from the doctor to the patient. The patient's medical condition, illness being treated, and subjective symptoms (palpitations, swelling, and fatigue) Etc.), diet (type, intake, regularity, etc.), exercise (type, intensity, frequency, etc.), smoking (presence / absence, amount of smoking, years of smoking, past smoking history, smoking cessation period, etc.), alcohol consumption (frequency) , Type, amount of alcohol, etc.) and daily life habits such as work (work contents, working hours, return time, etc.). Test results are judgments obtained mainly by examination equipment and doctors, such as body measurements (height, weight, obesity, etc.), visual acuity, blood pressure, pulse, urinalysis, blood tests (white blood cell count, red blood cell count) , Liver function test, lipid metabolism, gout test, sugar metabolism, etc.), chest X-ray examination, digestive organ X-ray examination, electrocardiogram, abdominal echo examination, dental examination, and other pathological samples collected during surgery And various pathological data (gene expression analysis, immunostaining results, etc.) obtained by using a biological method, a cell biological method, and an immunological method.

また、上述した生物学的データや病理診断データは、従来公知の方法により取得することができ、具体的な取得手段については特に限定されるものではない。例えば、遺伝子発現プロファイルであれば、Affimetrix社製のGeneChip(登録商標)等のオリゴDNAを保持したマイクロアレイ、cDNA(ORF)マイクロアレイ、オリゴマクロアレイ、マクロアレイ等の従来公知の解析手法を用いて容易に取得することができる。さらに、従来公知のゲノムデータベース、SNPsデータベース、発現プロファイルデータベース等を利用して必要な情報を取得することもできる。このような技術は当業者であれば、容易に実行可能である。   The biological data and pathological diagnosis data described above can be acquired by a conventionally known method, and the specific acquisition means is not particularly limited. For example, a gene expression profile can be easily obtained by using a conventionally known analysis method such as a microarray holding oligo DNA such as GeneChip (registered trademark) manufactured by Affimetrix, cDNA (ORF) microarray, oligo macroarray, macroarray, etc. Can be obtained. Furthermore, necessary information can be acquired using a conventionally known genome database, SNPs database, expression profile database, or the like. Such a technique can be easily executed by those skilled in the art.

さらに、本発明に係る経時的現象発生解析装置による経時的現象発生解析は、生物の生存死亡のみならず、細胞増殖性疾患の転移、疾病の罹患の他、工業製品の故障等の発生についても同様に行うことができる。   Further, the temporal phenomenon occurrence analysis by the temporal phenomenon occurrence analysis apparatus according to the present invention is not only about the survival and death of living organisms, but also about the occurrence of cell proliferative disease metastasis, disease morbidity, industrial product failure, etc. The same can be done.

「細胞増殖性疾患の転移」についての経時的現象発生解析によれば、例えば、癌や腫瘍の転移がどの時点に起きるかといったリスクについて解析することができる。また、「疾病の罹患」についての経時的現象発生解析によれば、疾病がどの時期に発症するか等について解析することができ、特に予防医学の面で非常に有益である。なお、解析対象の「疾病」の種類については、特に限定されるものではないが、例えば、糖尿病、脳梗塞、心筋梗塞、動脈硬化、高脂血症、骨粗しょう症(及びこれに伴う骨折)、間接リウマチ等の従来公知の疾患について発症危険性を予測することができる。   According to the temporal phenomenon occurrence analysis of “metastasis of cell proliferative disease”, for example, it is possible to analyze the risk of when cancer or tumor metastasis occurs. In addition, according to the analysis of occurrence of a phenomenon with respect to “morbidity” over time, it is possible to analyze at what time the disease develops and the like, which is very useful particularly in terms of preventive medicine. The type of “disease” to be analyzed is not particularly limited. For example, diabetes, cerebral infarction, myocardial infarction, arteriosclerosis, hyperlipidemia, osteoporosis (and fracture associated therewith). The risk of onset can be predicted for conventionally known diseases such as indirect rheumatism.

なお、「細胞増殖性疾患の転移」及び「疾病の罹患」についての経時的現象発生解析には、特徴量データとして、上述した生物学的データ、病理診断データ、遺伝子発現プロファイル等のデータを好適に用いることができる。   In addition, in the analysis of the occurrence of phenomena over time regarding “metastasis of cell proliferative disease” and “morbidity of disease”, data such as the above-described biological data, pathological diagnosis data, gene expression profile, etc. are suitable as feature data. Can be used.

また、「工業製品の故障」についての経時的現象発生解析によれば、工業製品の故障がどの時点で起こるか、またどの時点で製品寿命が尽きるか等について解析することができる。工業製品の具体的な種類については特に限定されるものではなく、例えば、簡単な日用雑貨をはじめとして、テレビ、冷蔵庫、電子レンジ等の電気製品の他、自動車、時計、コンピュータ等の各種機器等、従来公知の工業製品の寿命について経時的現象発生解析を行うことができる。   Further, according to the analysis of the occurrence of a phenomenon with respect to “failure of an industrial product”, it is possible to analyze at which point the failure of the industrial product occurs and at which point the product life is exhausted. The specific types of industrial products are not particularly limited. For example, in addition to simple daily miscellaneous goods, electric appliances such as TVs, refrigerators, and microwave ovens, and various devices such as automobiles, watches, and computers. Thus, it is possible to analyze the occurrence of phenomena over time for the lifetime of conventionally known industrial products.

「工業製品の故障」の経時的現象発生解析において使用される特徴量データとしては、工業製品の寿命に関連する各種データを好適に用いることができ、具体的には限定されるものではない。例えば、部品数、形状、大きさ、材質、使用状況、使用年数等の情報に加え、製造年月日、製造国、メーカー名、製造工場等の情報を用いることもできる。   As the feature amount data used in the analysis of occurrence of the phenomenon of “industrial product failure” over time, various data relating to the lifetime of the industrial product can be suitably used, and is not specifically limited. For example, in addition to information such as the number of parts, shape, size, material, usage status, and years of use, information such as date of manufacture, country of manufacture, manufacturer name, and factory can be used.

また、本発明に係る経時的現象発生解析装置を用いることにより、例えば、通信ネットワークを介した経時的現象発生解析システム(例えば、生存時間解析システム)を開発することができるし、このような経時的現象発生解析システムを用いた経時的現象発生解析サービス(例えば、生存時間解析サービス)も実施可能である。   Further, by using the temporal phenomenon occurrence analysis device according to the present invention, for example, a temporal phenomenon occurrence analysis system (for example, a survival time analysis system) via a communication network can be developed. A temporal phenomenon occurrence analysis service (for example, a survival time analysis service) using a dynamic phenomenon occurrence analysis system can also be implemented.

経時的現象発生解析システムや経時的現象発生解析サービスのうち、生存時間解析システムを用いた生存時間解析サービスの一例について説明する。まず、医療機関において、癌の手術時に採取した生体試料から特徴量データ(例えば、遺伝子発現プロファイル)を取得する。その後、取得した特徴量データを医療機関とは別の場所に設置された生存時間解析センターに、通信ネットワークを介してデータ送信する。生存時間解析センターには本発明に係る生存時間解析装置が複数備えられており、医療機関からの送信された特徴量データを用いて、解析対象者の生存時間解析を行う。その結果を、医療機関または直接解析対象者宛に通信ネットワークを介して送信する。このようなサービスの際には、例えば、情報の漏洩等を回避するために、従来公知の各種セキュリティ措置を講じることが好ましい。   Of the temporal phenomenon occurrence analysis system and the temporal phenomenon occurrence analysis service, an example of the survival time analysis service using the survival time analysis system will be described. First, in a medical institution, feature amount data (for example, gene expression profile) is acquired from a biological sample collected at the time of cancer surgery. Thereafter, the acquired feature amount data is transmitted to a survival time analysis center installed at a location different from the medical institution via a communication network. The survival time analysis center is provided with a plurality of survival time analysis apparatuses according to the present invention, and analyzes the survival time of the person to be analyzed using the feature data transmitted from the medical institution. The result is transmitted to a medical institution or a direct analysis target person via a communication network. In the case of such a service, it is preferable to take various known security measures in order to avoid, for example, information leakage.

このような生存時間解析システムや生存時間解析サービスは、本発明に係る経時的現象発生解析装置(生存時間解析装置)と、インターネット等の通信ネットワークに接続可能な演算装置や端末(例えば、パソコン、サーバ、ルータ等)とがあれば、容易に構築することができる。したがって、本発明には、かかる生存時間解析システムや生存時間解析サービス、つまり経時的現象発生解析システムや経時的現象発生解析サービスが含まれる。   Such a survival time analysis system or survival time analysis service includes a temporal phenomenon occurrence analysis device (survival time analysis device) according to the present invention and an arithmetic device or terminal (for example, a personal computer, Servers, routers, etc.) can be easily constructed. Therefore, the present invention includes such a survival time analysis system and survival time analysis service, that is, a temporal phenomenon occurrence analysis system and a temporal phenomenon occurrence analysis service.

最後に、上述の生存時間解析装置100の各ブロック、特に確率算出部20、曲線作成部30、期待値算出部40は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。   Finally, each block of the above-described survival time analysis apparatus 100, in particular, the probability calculation unit 20, the curve creation unit 30, and the expected value calculation unit 40 may be configured by hardware logic, and uses a CPU as follows. It may be realized by software.

すなわち、生存時間解析装置100は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラム及び各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである生存時間解析装置100の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記生存時間解析装置100に供給し、そのコンピュータ(又はCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。   That is, the survival time analysis apparatus 100 includes a CPU (central processing unit) that executes instructions of a control program that realizes each function, a ROM (read only memory) that stores the program, and a RAM (random access memory) that expands the program. ), A storage device (recording medium) such as a memory for storing the program and various data. An object of the present invention is a recording medium in which the program code (execution format program, intermediate code program, source program) of the control program of the lifetime analysis apparatus 100, which is software that realizes the functions described above, is recorded so as to be readable by a computer. Can also be achieved by reading the program code recorded on the recording medium and executing it by the computer (or CPU or MPU).

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。   Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, and disks including optical disks such as CD-ROM / MO / MD / DVD / CD-R. Card system such as IC card, IC card (including memory card) / optical card, or semiconductor memory system such as mask ROM / EPROM / EEPROM / flash ROM.

また、生存時間解析装置100を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。   Further, the lifetime analysis apparatus 100 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited. For example, the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication. A net or the like is available. Also, the transmission medium constituting the communication network is not particularly limited. For example, even in the case of wired such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, ADSL line, etc., infrared rays such as IrDA and remote control, Bluetooth ( (Registered trademark), 802.11 wireless, HDR, mobile phone network, satellite line, terrestrial digital network, and the like can also be used. The present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.

以下実施例を示し、本発明の実施の形態についてさらに詳しく説明する。もちろん、本発明は以下の実施例に限定されるものではなく、細部については様々な態様が可能であることはいうまでもない。さらに、本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、それぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   Hereinafter, examples will be shown, and the embodiment of the present invention will be described in more detail. Of course, the present invention is not limited to the following examples, and it goes without saying that various aspects are possible in detail. Furthermore, the present invention is not limited to the above-described embodiments, and various modifications can be made within the scope shown in the claims, and the embodiments obtained by appropriately combining the respective technical means disclosed are also included in the present invention. It is included in the technical scope of the invention.

本実施例では、神経芽細胞腫136症例について、その生存期間データとマイクロアレイによる遺伝子発現量データを用意した。   In this example, survival time data and microarray gene expression level data were prepared for 136 cases of neuroblastoma.

生存期間データは、各症例についてその生存期間(1ヶ月単位)と、その症例の死亡が確認されているか否かの情報を集めたものである。   Survival data is a collection of information on the survival period (in units of one month) for each case and whether or not the death of the case has been confirmed.

マイクロアレイによる遺伝子発現量データは各症例について5340遺伝子について、コントロール細胞と対象細胞の間の発現量対数比を測定したものである。   The gene expression data by the microarray is obtained by measuring the log ratio of the expression level between the control cell and the target cell for 5340 genes in each case.

以後、第j症例における第i遺伝子の発現量をXijとする。   Hereinafter, the expression level of the i-th gene in the j-th case is assumed to be Xij.

また、n年間生存確率推定器は特定症例が n年間生存する確率を出力する。具体的には、データベースに基づいて、n年間生存確率推定器を、n=0.5,1.0,…,5.0の計10時点の各々に対して構成する。   The n-year survival probability estimator outputs the probability that a specific case will survive for n years. Specifically, an n-year survival probability estimator is configured for each of a total of 10 time points of n = 0.5, 1.0,..., 5.0 based on the database.

すなわち、新規の症例についてマイクロアレイによる遺伝子発現量データが得られたとき、n年間生存確率推定器の出力を、n=0.5,1.0,…,5.0の計10時点の各々に対して得ることによって、単例生存率曲線を描くことである。   That is, when gene expression data by a microarray is obtained for a new case, the output of the n-year survival probability estimator is set to each of a total of 10 time points of n = 0.5, 1.0,. To obtain a single case survival curve.

n年生存確率推定を構成するには、機械学習による確率出力付き2値分類の手法を用いる。そのための方法として本実施例では特に、フィッシャー得点による遺伝子選択、及び一次元線形判別分析、及び重み付き投票法、及びロジスティック回帰の組合せを用いる。   To construct the n-year survival probability estimation, a binary classification method with a probability output by machine learning is used. As a method for this, in this embodiment, a combination of gene selection based on Fisher scores, one-dimensional linear discriminant analysis, weighted voting, and logistic regression is used.

n年時点で、生存もしくは死亡が確定している症例について、生存=(1)、死亡=(0)というラベルをつける。D0を死亡例の集合、D1を生存例の集合とする。   For cases where survival or death is confirmed at n years, label survival = (1), death = (0). Let D0 be a set of death cases and D1 be a set of survival cases.

〔A〕フィッシャー得点による遺伝子選択
第i遺伝子のフィッシャー得点ciは以下数式(4)で定義される。
[A] Gene selection by Fisher score The Fisher score ci of the i-th gene is defined by the following equation (4).

Figure 2006202235
Figure 2006202235

ただし、下記数式(5)は死亡例と生存例それぞれの平均発現量。   However, the following mathematical formula (5) is the average expression level of each of the death cases and survival cases.

Figure 2006202235
Figure 2006202235

また、下記数式(6)はノイズの大きさ(標準偏差)を表す。なお、#D0、#D1はそれぞれ D0、D1の要素の個数を表す。また、ciを別名でS/N比(signal to noise ratio)とも称する。   The following formula (6) represents the magnitude (standard deviation) of noise. Note that # D0 and # D1 represent the number of elements of D0 and D1, respectively. Moreover, ci is also called an S / N ratio (signal to noise ratio) with another name.

Figure 2006202235
Figure 2006202235

フィッシャー得点の絶対値の大きい遺伝子ほど、死亡例と生存例を分離するのに強い意味を持ち、フィッシャー得点の絶対値の小さい遺伝子は生存と死亡を決定するのには、無関係であると考えられる。そこでフィッシャー得点の絶対値の上位から Ntop個の遺伝子を以下の解析に用いることにする。これを遺伝子選択と呼ぶ。ここで選択された遺伝子の集合をGと書く。   A gene with a higher Fisher score has a stronger meaning in separating death and survival cases, and a gene with a lower Fisher score is considered irrelevant in determining survival and death. . Therefore, Ntop genes from the top of the absolute value of the Fisher score are used for the following analysis. This is called gene selection. A set of genes selected here is written as G.

〔B〕一次元線形判別分析
この新規症例から得られた遺伝子発現量データのベクトルをxとする。またその第i遺伝子成分をxiとする。このとき遺伝子iの発現量に関する一次元線形判別関数 fi(x)を以下の数式(7)で定義する。
[B] One-dimensional linear discriminant analysis Let x be the vector of gene expression level data obtained from this new case. The i-th gene component is xi. At this time, the one-dimensional linear discriminant function fi (x) relating to the expression level of the gene i is defined by the following formula (7).

Figure 2006202235
Figure 2006202235

症例xは、fi(x)>0のとき生存、fi(x)<0のとき死亡と推定する。この推定は遺伝子iのみに基づいた推定である。複数の遺伝子に基づく推定を行うことで精度を高めることができる。そのための方法が次に述べる重み付き投票法である。   Case x is estimated to be alive when fi (x)> 0, and dead when fi (x) <0. This estimation is based on only gene i. Accuracy can be improved by performing estimation based on a plurality of genes. The method for that is the weighted voting method described below.

〔C〕重み付き投票法
重み付き投票による判別関数F(x)を下記数式(8)のように定義する。
[C] Weighted voting method A discriminant function F (x) by weighted voting is defined as the following formula (8).

Figure 2006202235
Figure 2006202235

これは一次元線形判別分析による判断に関して意図的に一票の格差(重み)を持たせた投票である。   This is a vote that intentionally has one vote of disparity (weight) with respect to judgment by one-dimensional linear discriminant analysis.

〔D〕ロジスティック回帰(logit変換)
症例xがn年生存する確率p(x)をF(x)の値を用いて下記数式(9)のように推定する。
[D] Logistic regression (logit conversion)
The probability p (x) that the case x will survive for n years is estimated using the value of F (x) as in the following formula (9).

Figure 2006202235
Figure 2006202235

これをロジスティックモデルと呼ぶ。   This is called a logistic model.

なお、βとαは以下のようにして決定される。
(i)データベースXijとn年時点生存死亡ラベルを用意する
(ii)データベースに基づいて重み付き投票による判別関数F(x)を構成する
(iii)異なるデータベースXikと対応するn年時点生存死亡ラベルを用意する。そして、生存症例をD1’、死亡症例をD0’とする
(iv)XikをF(x)に入力した結果の出力Fkを計算する
(v)下記数式(10)を用いた勾配法により、Lをβ、αによって最大化することによって、β、αを求める
Β and α are determined as follows.
(I) Prepare database Xij and n-year survival death label (ii) Configure discriminant function F (x) by weighted voting based on the database (iii) n-year survival death label corresponding to different database Xik Prepare. Then, the survival case is D1 ′ and the death case is D0 ′. (Iv) The output Fk as a result of inputting Xik to F (x) is calculated. (V) The gradient method using the following formula (10) is used. Is obtained by maximizing by β and α.

Figure 2006202235
Figure 2006202235

〔E〕Leave One Out によるデモンストレーション
以上の手続きに基づくn年生存確率推定器の性能を評価するために、136症例に対して Leave One Out (LOO)解析を行った。具体的には以下の手順で行った。
(i)136症例から1症例をテスト用に抜き出し、残りの135症例を学習用症例とする
(ii)学習用135症例に基づいてn年生存確率推定器を構成する
(iii)テスト用1症例を、n年生存確率推定器に入力して、確率p(x)を計算し出力する
(iv)上記(i)〜(iii)までを、136症例各々をテスト用に抜き出して繰り返す
(v)全出力を評価する
(vi)上記(i)〜(v)までを、n=0.5,1.0,…,5.0について行う
(vii)各症例について単例生存率曲線を描く
なお、LOO解析が必要とされる理由は、推定対象の症例を学習対象に入れてしまうことによって、不当に良い予測性能が得られてしまうという情報漏洩の問題を防ぐためである。
[E] Demonstration by Leave One Out In order to evaluate the performance of the n-year survival probability estimator based on the above procedure, Leave One Out (LOO) analysis was performed on 136 cases. Specifically, the procedure was as follows.
(I) One case is extracted from 136 cases for testing, and the remaining 135 cases are used as learning cases. (Ii) An n-year survival probability estimator is configured based on the 135 learning cases. (Iii) One test case. Is input to the n-year survival probability estimator, and the probability p (x) is calculated and output. (Iv) The above (i) to (iii) are repeated for each of 136 cases extracted for testing (v). (Vi) Perform (i) to (v) above for n = 0.5, 1.0,..., 5.0 (vii) Draw a single case survival curve for each case The reason why the LOO analysis is required is to prevent an information leakage problem that an unpredictably good prediction performance is obtained by putting a case to be estimated into a learning target.

また、本実施例で行った実験については、詳細は示さないが、現在論文投稿中であり、その精度については極めて信頼性が高いことを念のため付言しておく。   Although the details of the experiment conducted in this example are not shown, it should be noted that the paper is currently being submitted and that its accuracy is extremely reliable.

以上のように、本発明に係る生存時間解析装置によれば、ヒト等の生物について疾病の治療予後における生存期間や工業製品の故障の時期を推定し品質管理に利用可能である。このため、本発明は、医療分野全般、及び工業製品の品質管理等の広範な産業上の利用可能性がある。   As described above, the survival time analysis apparatus according to the present invention can be used for quality control by estimating the survival time and the time of failure of industrial products in disease treatment prognosis for living organisms such as humans. For this reason, this invention has wide industrial applicability, such as quality control of the whole medical field and industrial products.

本実施の形態に係る生存時間解析装置の機能ブロックを示す図である。It is a figure which shows the functional block of the survival time analyzer which concerns on this Embodiment. 本実施の形態の推定器における機械学習の処理の基本概念を模式的に表す図である。It is a figure which represents typically the basic concept of the process of machine learning in the estimator of this Embodiment. 本実施の形態の推定器において、生存率を算出する処理の一例を模式的に表す図である。It is a figure which represents typically an example of the process which calculates a survival rate in the estimator of this Embodiment. 本実施の形態の推定器が解析対象の遺伝子発現プロファイルデータを用いて生存率を算出する処理手順を模式的に説明する図である。It is a figure which illustrates typically the process sequence which the estimator of this Embodiment calculates a survival rate using the gene expression profile data of analysis object. 本実施の形態における生存曲線の一例を示す図である。It is a figure which shows an example of the survival curve in this Embodiment. 本実施の形態に係る生存時間解析装置に用いる推定器の機械学習の処理フローの一例について模式的に示す図である。It is a figure which shows typically about an example of the processing flow of the machine learning of the estimator used for the lifetime analysis apparatus which concerns on this Embodiment. 本実施の形態に係る生存時間解析装置の処理フローの一例について模式的に示す図である。It is a figure which shows typically about an example of the processing flow of the lifetime analysis apparatus which concerns on this Embodiment. 本実施例において、生存時間解析装置によって作成した単例生存率曲線を示す図である。In a present Example, it is a figure which shows the single example survival rate curve created with the survival time analyzer.

符号の説明Explanation of symbols

10 入力部(入力手段)
20 確率算出部(確率算出手段)
21 推定器
21a 判別関数処理部
21b f−P変換処理部
30 曲線作成部(曲線作成手段)
40 期待値算出部(期待値算出手段)
100 生存時間解析装置(経時的現象発生解析装置)
10 Input section (input means)
20 Probability calculator (probability calculator)
21 Estimator 21a Discriminant Function Processing Unit 21b f-P Conversion Processing Unit 30 Curve Creation Unit (Curve Creation Unit)
40 Expected value calculation unit (expected value calculation means)
100 Survival time analysis device

Claims (12)

解析対象から得られる特徴量データを入力する入力手段と、
上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出手段と、を備えており、
上記確率算出手段は、
学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、
上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を有しており、
上記確率算出手段は、複数の所定の経過時点ごとに対応した複数の推定器を備えており、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出するものであることを特徴とする経時的現象発生解析装置。
An input means for inputting feature data obtained from the analysis target;
Probability calculation means for calculating the occurrence probability of a predetermined phenomenon for the analysis target based on the feature amount data input by the input means,
The probability calculation means is:
As learning data, a plurality of sets of feature amount data and phenomenon information on whether or not the predetermined phenomenon has occurred at a predetermined elapsed time from the time when the individual who acquired the feature amount data is earned are used. , An estimator obtained by supervised machine learning of the correlation between the feature data and the phenomenon information,
When feature amount data of an arbitrary individual at any time other than the individual used for the learning data is input, a predetermined elapsed time in the learning data from the time point correlated with the arbitrary feature amount data And an estimator that predicts whether or not the predetermined phenomenon occurs in the individual that acquired the feature amount data, and outputs the probability.
The probability calculation means includes a plurality of estimators corresponding to a plurality of predetermined elapsed time points, and calculates a probability that a predetermined phenomenon occurs for the analysis target at a plurality of time points corresponding to the estimator. An apparatus for analyzing the occurrence of a phenomenon over time.
さらに、上記確率算出手段によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成手段を備えていることを特徴とする請求項1に記載の経時的現象発生解析装置。   Further, a curve creation means for creating a phenomenon occurrence probability curve over time from the time of acquisition of feature amount data in an arbitrary analysis target, using the occurrence probability values at a plurality of elapsed times calculated by the probability calculation means. The temporal phenomenon occurrence analysis apparatus according to claim 1, comprising: さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出手段を備えることを特徴とする請求項1又は2に記載の経時的現象発生解析装置。   The temporal phenomenon according to claim 1 or 2, further comprising an expected value calculation means for calculating an expected value of a time that elapses until the predetermined phenomenon occurs using the phenomenon occurrence probability curve. Generation analysis device. 上記測定対象が生物であり、上記特徴量データが生物学的データであり、
上記所定の現象の発生が、解析対象の生物の死亡、疾病の罹患、又は細胞増殖性疾患の転移であることを特徴とする請求項1〜3のいずれか1項に記載の経時的現象発生解析装置。
The measurement object is a living organism, the feature amount data is biological data,
The occurrence of the predetermined phenomenon is the death of the organism to be analyzed, the morbidity of the disease, or the metastasis of the cell proliferative disease, or the occurrence of the temporal phenomenon according to any one of claims 1 to 3. Analysis device.
上記生物学的データは、生物の病理診断データであることを特徴とする請求項4に記載の経時的現象発生解析装置。   5. The temporal phenomenon occurrence analysis apparatus according to claim 4, wherein the biological data is pathological diagnosis data of an organism. 上記生物学的データは、生物の遺伝子発現プロファイルであることを特徴とする請求項4又は5に記載の経時的現象発生解析装置。   6. The temporal phenomenon occurrence analysis apparatus according to claim 4, wherein the biological data is a gene expression profile of an organism. 上記生物学的データは、細胞増殖性疾患の予後診断に関するものであることを特徴とする請求項4〜6のいずれか1項に記載の経時的現象発生解析装置。   7. The temporal phenomenon occurrence analysis apparatus according to any one of claims 4 to 6, wherein the biological data relates to a prognosis of a cell proliferative disease. 上記推定器は、上記学習データによって推定精度が高められた判別関数であって、上記解析対象の特徴量データを入力とし実数値を出力する判別関数を用いて、所定の現象が起こるか否かを計算する判別関数処理部と、
上記判別関数処理部からの出力値fをf−P変換処理して、所定の現象が起こる確率を算出するf−P変換処理部と、を備えるものであることを特徴とする請求項1〜7のいずれか1項に記載の経時的現象発生解析装置。
The estimator is a discriminant function whose estimation accuracy is increased by the learning data, and whether or not a predetermined phenomenon occurs using a discriminant function that receives the feature quantity data to be analyzed and outputs a real value. A discriminant function processing unit for calculating
2. An f-P conversion processing unit that performs an f-P conversion process on an output value f from the discriminant function processing unit to calculate a probability of occurrence of a predetermined phenomenon. 8. The temporal phenomenon occurrence analysis device according to any one of items 7 to 9.
上記判別関数処理部における判別関数は、1次元線形判別分析及び重み付き投票法を用いるものであり、
上記f−P変換処理部におけるf−P変換処理は、ロジスティック回帰を用いるものであることを特徴とする請求項8に記載の経時的現象発生解析装置。
The discriminant function in the discriminant function processor uses one-dimensional linear discriminant analysis and a weighted voting method,
9. The temporal phenomenon occurrence analysis apparatus according to claim 8, wherein the fP conversion processing in the fP conversion processing section uses logistic regression.
解析対象から得られる特徴量データを入力する入力工程と、
上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出工程と、を含んでおり、
上記確率算出工程は、
学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、
上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を用いる工程であって、
上記確率算出工程は、複数の所定の経過時点ごとに対応した複数の上記推定器を用いて、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出する工程であることを特徴とする経時的現象発生解析方法。
An input process for inputting feature data obtained from the analysis target;
A probability calculating step of calculating a probability of occurrence of a predetermined phenomenon for the analysis target based on the feature amount data input by the input means,
The probability calculation step is
As learning data, a plurality of sets of feature amount data and phenomenon information on whether or not the predetermined phenomenon has occurred at a predetermined elapsed time from the time when the individual who acquired the feature amount data is earned are used. , An estimator obtained by supervised machine learning of the correlation between the feature data and the phenomenon information,
When feature amount data of an arbitrary individual at any time other than the individual used for the learning data is input, a predetermined elapsed time in the learning data from the time point correlated with the arbitrary feature amount data A step of using an estimator that predicts and outputs a probability as to whether or not the predetermined phenomenon occurs in the individual that acquired the feature data,
The probability calculating step calculates a probability of occurrence of a predetermined phenomenon for the analysis target at a plurality of elapsed time points corresponding to the estimator using a plurality of the estimators corresponding to a plurality of predetermined elapsed time points. A method for analyzing the occurrence of a phenomenon over time, characterized in that:
さらに、上記確率算出工程によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成工程を含むことを特徴とする請求項10に記載の経時的現象発生解析方法。   Furthermore, a curve creation step of creating a phenomenon occurrence probability curve over time from the time of acquiring feature amount data in an arbitrary analysis target using the occurrence probability values at a plurality of elapsed times calculated by the probability calculation step The method for analyzing the occurrence of a phenomenon over time according to claim 10. さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出工程を含むことを特徴とする請求項10又は11に記載の経時的現象発生解析方法。   12. The temporal phenomenon according to claim 10 or 11, further comprising an expected value calculation step of calculating an expected value of a time elapsed until the predetermined phenomenon occurs using the phenomenon occurrence probability curve. Occurrence analysis method.
JP2005016140A 2005-01-24 2005-01-24 Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method Pending JP2006202235A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005016140A JP2006202235A (en) 2005-01-24 2005-01-24 Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method
PCT/JP2006/300528 WO2006077828A1 (en) 2005-01-24 2006-01-17 Phenomenon-over-time occurrence analyzing device and phenomenon-over-time occurrence analyzing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005016140A JP2006202235A (en) 2005-01-24 2005-01-24 Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method

Publications (1)

Publication Number Publication Date
JP2006202235A true JP2006202235A (en) 2006-08-03

Family

ID=36692217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005016140A Pending JP2006202235A (en) 2005-01-24 2005-01-24 Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method

Country Status (2)

Country Link
JP (1) JP2006202235A (en)
WO (1) WO2006077828A1 (en)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102406A (en) * 2006-10-20 2008-05-01 Sony Corp Signal processing device and method, program, and recording medium
JP2008102405A (en) * 2006-10-20 2008-05-01 Sony Corp Signal processing device and method, program, and recording medium
WO2008111349A1 (en) * 2007-03-09 2008-09-18 Nec Corporation Subsistence analyzing system, subsistence analyzing method, and subsistence analyzing program
JP2011520206A (en) * 2008-05-12 2011-07-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Medical analysis system
JP2012506061A (en) * 2008-10-15 2012-03-08 ムゼーカ ソシエテ アノニム Analysis method of digital music sound signal
JP2013061785A (en) * 2011-09-13 2013-04-04 Kurume Univ Life-or-death prediction device and method thereof, life-or-death prediction program and storage medium
JP2013096741A (en) * 2011-10-28 2013-05-20 West Nippon Expressway Engineering Shikoku Co Ltd Infrared survey method of structure and infrared survey arithmetic device
JP2016118515A (en) * 2014-12-24 2016-06-30 理研ビタミン株式会社 Method for determining seaweed growth sea area
JP2016197330A (en) * 2015-04-03 2016-11-24 日本電気株式会社 Analysis system, and rehabilitation support system, method, and program
JP6068615B1 (en) * 2015-09-08 2017-01-25 株式会社Compass Learning support system, electronic device, server device, information processing device, and program
JP2017129891A (en) * 2015-12-25 2017-07-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Information processing apparatus, information processing method, and program
JP2017194986A (en) * 2011-07-13 2017-10-26 ザ マルチプル ミエローマ リサーチ ファウンデーション, インコーポレイテッド Method for data collection and delivery
WO2018042606A1 (en) * 2016-09-01 2018-03-08 株式会社日立製作所 Analysis device, analysis system, and analysis method
WO2018201083A1 (en) * 2017-04-28 2018-11-01 University Of Southern California System and method for predicting survival time
JP2019145057A (en) * 2018-02-19 2019-08-29 セルバス エーアイ インコーポレイテッド Method for predicting health age
JP2019175497A (en) * 2019-06-12 2019-10-10 日本電気株式会社 System, method, and program for supporting rehabilitation
JP2021077226A (en) * 2019-11-12 2021-05-20 泉 永井 Survival rate estimation system, method for estimating survival rate, and survival rate estimation program
US11069431B2 (en) 2017-11-13 2021-07-20 The Multiple Myeloma Research Foundation, Inc. Integrated, molecular, omics, immunotherapy, metabolic, epigenetic, and clinical database

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5486380B2 (en) * 2010-03-31 2014-05-07 キヤノン株式会社 Information processing apparatus, control method therefor, and computer program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860917A (en) * 1997-01-15 1999-01-19 Chiron Corporation Method and apparatus for predicting therapeutic outcomes

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102406A (en) * 2006-10-20 2008-05-01 Sony Corp Signal processing device and method, program, and recording medium
US7601907B2 (en) 2006-10-20 2009-10-13 Sony Corporation Signal processing apparatus and method, program, and recording medium
JP2008102405A (en) * 2006-10-20 2008-05-01 Sony Corp Signal processing device and method, program, and recording medium
US7649137B2 (en) 2006-10-20 2010-01-19 Sony Corporation Signal processing apparatus and method, program, and recording medium
WO2008111349A1 (en) * 2007-03-09 2008-09-18 Nec Corporation Subsistence analyzing system, subsistence analyzing method, and subsistence analyzing program
JP2011520206A (en) * 2008-05-12 2011-07-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Medical analysis system
JP2012506061A (en) * 2008-10-15 2012-03-08 ムゼーカ ソシエテ アノニム Analysis method of digital music sound signal
US10559048B2 (en) 2011-07-13 2020-02-11 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
JP2018129065A (en) * 2011-07-13 2018-08-16 ザ マルチプル ミエローマ リサーチ ファウンデーション, インコーポレイテッド Method for collecting and distributing data
JP2020035463A (en) * 2011-07-13 2020-03-05 ザ マルチプル ミエローマ リサーチ ファウンデーション, インコーポレイテッド Methods of collecting and distributing data
JP2017194986A (en) * 2011-07-13 2017-10-26 ザ マルチプル ミエローマ リサーチ ファウンデーション, インコーポレイテッド Method for data collection and delivery
JP2013061785A (en) * 2011-09-13 2013-04-04 Kurume Univ Life-or-death prediction device and method thereof, life-or-death prediction program and storage medium
JP2013096741A (en) * 2011-10-28 2013-05-20 West Nippon Expressway Engineering Shikoku Co Ltd Infrared survey method of structure and infrared survey arithmetic device
JP2016118515A (en) * 2014-12-24 2016-06-30 理研ビタミン株式会社 Method for determining seaweed growth sea area
JP2016197330A (en) * 2015-04-03 2016-11-24 日本電気株式会社 Analysis system, and rehabilitation support system, method, and program
JP6068615B1 (en) * 2015-09-08 2017-01-25 株式会社Compass Learning support system, electronic device, server device, information processing device, and program
JP2017129891A (en) * 2015-12-25 2017-07-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Information processing apparatus, information processing method, and program
WO2018042606A1 (en) * 2016-09-01 2018-03-08 株式会社日立製作所 Analysis device, analysis system, and analysis method
WO2018201083A1 (en) * 2017-04-28 2018-11-01 University Of Southern California System and method for predicting survival time
US11515039B2 (en) 2017-04-28 2022-11-29 University Of Southern California System and method for predicting survival time
US11069431B2 (en) 2017-11-13 2021-07-20 The Multiple Myeloma Research Foundation, Inc. Integrated, molecular, omics, immunotherapy, metabolic, epigenetic, and clinical database
JP2019145057A (en) * 2018-02-19 2019-08-29 セルバス エーアイ インコーポレイテッド Method for predicting health age
JP2019175497A (en) * 2019-06-12 2019-10-10 日本電気株式会社 System, method, and program for supporting rehabilitation
JP2021077226A (en) * 2019-11-12 2021-05-20 泉 永井 Survival rate estimation system, method for estimating survival rate, and survival rate estimation program

Also Published As

Publication number Publication date
WO2006077828A1 (en) 2006-07-27

Similar Documents

Publication Publication Date Title
JP2006202235A (en) Time-based phenomenon occurrence analysis apparatus and time-based phenomenon occurrence analysis method
Andrinopoulou et al. Improved dynamic predictions from joint models of longitudinal and survival data with time-varying effects using P-splines
Falcoz et al. The Thoracic Surgery Scoring System (Thoracoscore): risk model for in-hospital death in 15,183 patients requiring thoracic surgery
Yu et al. Joint modeling for cognitive trajectory and risk of dementia in the presence of death
Cho et al. An empirical comparative study on biological age estimation algorithms with an application of Work Ability Index (WAI)
JP2010231308A (en) Lifestyle disease prevention device and lifestyle disease prevention program
Sloan et al. Lessons from large-scale collection of patient-reported outcomes: Implications for Big data aggregation and analytics
JP2020030662A (en) Disease evaluation index calculation method, device, system and program, and model creation method for calculating disease evaluation index
Clavelle et al. Breast cancer risk in sexual minority women during routine screening at an urban LGBT health center
JP2022514826A (en) Methods and systems for identifying sample concentrations in body fluid samples, as well as methods and systems for generating software-mounted modules.
Beckstead et al. How much information can metabolic syndrome provide? An application of information theory
Phillips et al. “What goes around comes around”: lessons learned from economic evaluations of personalized medicine applied to digital medicine
Gu et al. Estimating the capacity for improvement in risk prediction with a marker
JP2020030800A (en) Disease evaluation index calculation method, device, system and program, and model creation method for calculating disease evaluation index
JP5547639B2 (en) Estimating diagnostic markers
Štotl et al. Individualised screening of diabetic foot: creation of a prediction model based on penalised regression and assessment of theoretical efficacy
KR20210145539A (en) Providing method for health information based on microbiome and analysis apparatus
JP2009268680A (en) Apparatus, method and program for predicting prognosis of patient treated with peg
Shen et al. Cohort research in “Omics” and preventive medicine
Khashayar et al. Protocol for a multicentre, prospective cohort study of clinical, proteomic and genomic patterns associated with osteoporosis to develop a multidimensional fracture assessment tool: the PoCOsteo Study
EP3806107A1 (en) Diagnostic tool
JP2021135618A (en) Age learning device, age estimation device, age learning method, and age learning program
Curtom et al. Creating an Artificial Intelligence (AI) Model for Healthcare Diagnostics
Gauthier et al. Challenges to building a platform for a breast cancer risk score
Duggan et al. Gamified Crowdsourcing as a Novel Approach to Lung Ultrasound Dataset Labeling