JP2020028278A

JP2020028278A - 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

Info

Publication number: JP2020028278A
Application number: JP2018157870A
Authority: JP
Inventors: 敬一中山; Keiichi Nakayama; 秀幸清水; Hideyuki Shimizu
Original assignee: Kyushu University NUC
Current assignee: Kyushu University NUC
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2020-02-27
Also published as: EP3842540A4; WO2020040300A1; EP3842540A1

Abstract

【課題】被検体を、被検体の体に生じるイベントに応じて層別化する方法。【解決手段】被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第１の亜集団として抽出する工程１と、第１の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第２の亜集団として抽出する工程２と、第２の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程３と、を含む、判別器の生成方法。前記判別器は、第２の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程３で算出された各バイオマーカーの重みを用いて、第２の亜集団に属するバイオマーカーのスコアの重み付け和を算出する。【選択図】図１８

Description

本開示は、被検体に生じるイベントを予測するための判別器の生成方法、前記判別器を用いた被検体の層別化方法、前記判別器を備えた被検体を層別化するための装置、及びがん患者の生存率の予測方法に関する。

がんは先進国における死因の主要原因であり、死亡率の高い患者や抗がん治療が有効な患者を層別化する方法は、１０年以上にわたって研究の対象となっている。

例えば、特許文献１には、９５遺伝子の発現から手術後１０年間の乳がんの再発リスクを予測する方法が開示されている。非特許文献１には、２１遺伝子の発現から、浸潤性乳がん（ステージＩ，ＩＩ，ＩＩＩ［Ｔ３Ｎ１まで］）であって、かつエストロゲン受容体（ＥＲ）陽性の乳がんにおける手術後１０年間の再発リスクを予測する方法が開示されている。非特許文献１に開示されている方法は、ＯｎｃｏｔｙｐｅＤＸという名称で、検査サービスが提供されている。非特許文献２には、７０遺伝子の発現から１０年後の再発リスクを予測する方法が開示されている。非特許文献２に開示されている方法は、ＭａｍｍａＰｒｉｎｔという名称で検査サービスが提供されている。非特許文献３には、ＰＡＭ５０遺伝子の発現に基づいて若い乳がん患者における１０年後の遠隔再発リスクを予測する方法が開示されている。非特許文献３に開示されている方法は、Ｐｒｏｓｉｇｎａという名称で検査サービスが提供されている。非特許文献４には、ｅｘｔｅｎｄｅｄｅｎｄｏｃｒｉｎｅｔｈｅｒａｐｙを適用するＥＲ陽性早期乳がん患者を選択するための方法が開示されている。非特許文献４に記載の方法は、ＢｒｅａｓｔＣａｎｃｅｒＩｎｄｅｘという名称で検査サービスが提供されている。非特許文献５には、ＥＲ陽性及びＨＥＲ２陰性早期乳がんの遠隔再発リスクを予測する方法が開示されている。非特許文献５に開示されている方法は、ＥｎｄｏＰｒｅｄｉｃｔという名称で検査サービスが提供されている。

特許第５７２５２７４号公報

Sparano, J. A. et al. Prospective Validation of a 21-Gene Expression Assay in Breast Cancer. N. Engl. J. Med. 373, 2005-2014, doi:10.1056/NEJMoa1510764 (2015). van 't Veer, L. J. et al. Nature 415, 530-536, doi:10.1038/415530a (2002). Parker, J. S. et al. J. Clin. Oncol. 27, 1160-1167, doi:10.1200/jco.2008.18.1370 (2009). Ma, X. J. et al. Cancer Cell 5, 607-616, doi:10.1016/j.ccr.2004.05.015 (2004). Filipits, M. et al. Clin. Cancer Res. 17, 6012-6020,doi:10.1158/1078-0432.ccr-11-0926 (2011).

がんを告知された者がはじめに医師に尋ねる質問は、多くの場合、自分があと何年生きられるのかということである。

特許文献１、及び非特許文献１〜５に開示されている方法は、再発リスクや治療効果を予測することには有用であるが、上記患者の質問の答えを提供するものではない。

また、特許文献１、及び非特許文献１〜５に開示されている方法は、ER陽性である（すなわちホルモン療法が有効な可能性がある）乳がんであって、かつリンパ節転移が少ない乳がんに限って適用されている。

つまり、現段階ではがん全体や疾患全体にわたって被検体の生死等の被検体の体に生じるイベントを予測する方法は、確立されていない。

本明細書に開示される発明においては、被検体の体に生じるイベントについて、被検体を層別化する方法を提供することを一課題とする。

本発明者は、鋭意研究を重ねたところ、後述する方法によって生成された判別器によって、被検体の体に生じるイベントについて被検体を層別化できることを見出した。
本開示は、以下の態様を含む。
項１．
被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第１の亜集団として抽出する工程１と、
第１の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第２の亜集団として抽出する工程２と、
第２の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程３と、
を含む、判別器の生成方法であって、
前記判別器は、第２の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程３で算出された各バイオマーカーの重みを用いて、第２の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、
前記判別器の生成方法。
項２．
被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第１の亜集団として抽出する工程Ａと、
第１の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第２の亜集団として抽出する工程Ｂと、
第２の亜集団に属するバイオマーカーから、機械学習法により、前記体に生じるイベントとの関連性がさらに強いと統計学的に予測されるバイオマーカー群を第３の亜集団として抽出する工程Ｃと、
第３の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程Ｄと、
を含む、判別器の生成方法であって、
前記判別器は、第３の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程Ｄで算出された各バイオマーカーの重みを用いて、第３の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、
前記判別器の生成方法。
項３．
前記機械学習法がランダムフォレストである、項１又は２に記載の判別器の生成方法。
項４．
前記深層学習法が勾配降下法である、項１〜３のいずれか一項に記載の判別器の生成方法。
項５．
前記検証がメタアナリシスである、項１〜４のいずれか一項に記載の判別器の生成方法。
項６．
前記体に生じるイベントが患者における所定期間内、又は所定期間後の生存率である、項１〜５のいずれか一項に記載の判別器の生成方法。
項７．
前記患者が罹患している疾患ががんである、項６に記載の判別器の生成方法。
項８．
前記バイオマーカーが遺伝子であり、前記バイオマーカーの測定値が、遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量である、項１〜７のいずれか一項に記載の判別器の生成方法。
項９．
処理部を備え、前記処理部が、項１〜８のいずれか一項に記載の判別器の生成方法を実行する、判別器生成装置。
項１０．
項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を、患者の所定期間内、又は所定期間後の生存率の予測のために使用する、使用方法。
項１１．
前記患者ががん患者である、項１０に記載の使用方法。
項１２．
がんが乳がんである、項１１に記載の使用方法。
項１３．
患者について、項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値以下であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。
項１４．
患者について、項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値よりも大きいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。
項１５．
患者について、項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値以上であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。
項１６．
患者について、項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値よりも小さいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。
項１７．
前記患者ががん患者である、項１３〜１６のいずれか一項に記載の予測方法。
項１８．
がんが乳がんである、項１７に記載の予測方法。
項１９．
判別器を生成する際に第２の亜集団として抽出されるバイオマーカーが、下記表１−１、及び表１−２に示される遺伝子を含み、前記バイオマーカーの測定値が遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量である、項１８に記載の予測方法。
項２０．
判別器を生成する際に第３の亜集団として抽出されるバイオマーカーが、ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３を含み、前記バイオマーカーの測定値が遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量である、項１８に記載の予測方法。
項２１．
処理部を備え、前記処理部が、項１３〜２０のいずれか一項に記載の予測方法を実行するための、患者の生存率予測装置。
項２２．
患者について、項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を、対応する基準範囲と比較する工程と、
前記患者の重み付け和が属する基準範囲の分位を決定する工程と、
を含む、患者を生存率に応じて層別化することを補助する方法。
項２３．
前記患者ががん患者である、項２２に記載の方法。
項２４．
前記基準範囲が、がんの臨床ステージクラス分類、がんの組織型、臨床ステージ毎、病理組織グレード毎、又は年齢層毎のカテゴリーに応じて決定されており、
前記方法が、さらに、前記カテゴリーに応じて、被検体のがんの臨床ステージクラス分類、がんの組織型、臨床ステージ、病理組織グレード、及び年齢層の情報を取得する工程を含む、項２２又は２３に記載の方法。
項２５．
下記表１−１、及び表１−２に示される遺伝子から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用。
項２６．
ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３よりなる遺伝子群から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用。
項２７．
下記表１−１、及び表１−２に示される遺伝子から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）に由来するｍＲＮＡ、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬。
項２８．
ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３よりなる遺伝子群から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）に由来するｍＲＮＡ、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬。
項２９．
項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器。
項３０．
項２９に記載の判別器を記憶した記憶媒体。
項３１．
コンピュータに実行させたときに、項１〜８のいずれか一項に記載の判別器の生成方法を実行する、判別器を生成するためのコンピュータプログラム。
項３２．
コンピュータに実行させたときに、項１３〜２０のいずれか一項に記載の予測方法を実行する、患者の生存率を予測するためのコンピュータプログラム。

被検体の体にイベントが生じるか否かを予測することができる。また、公知のデータベース情報をもとに、被検体の体にイベントが生じるか否かを予測する、汎用性の高い判別器の生成方法を提供できる。

判別器の生成方法の流れを示すフローチャートである。図１のステップＳ３の流れを示すフローチャートである。判別器生成装置、予測装置、及び層別化装置の概念図である。判別器生成装置、予測装置、及び層別化装置のブロック図である。予測方法の流れを示すフローチャートである。層別化方法の流れを示すフローチャートである。判別器の生成方法の典型例を示す。 aはPGK1の発現が高い群と低い群のKaplan-Meier Plotである。bは、TMEM65の発現が高い群と低い群のKaplan-Meier Plotである。cはBEND5の発現が高い群と低い群のKaplan-Meier Plotである。dはENOSF1の発現が高い群と低い群のKaplan-Meier Plotである。eはメタアナリシスの結果を示す。 aは発現が高い場合に生存率が不良となる遺伝子の信頼区間を示す。bは発現が低い場合に生存率が不良となる遺伝子の信頼区間を示す。 cはTMEM65^highかつDCTPP1^highの群とそうでない群のKaplan-Meier Plotである。dはUBA7^lowかつENOSF1^lowの群とそうでない群のKaplan-Meier Plotである。表１−１〜表１−２に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。表１−１〜表１−２に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。表１−１〜表１−２に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。表１−１〜表１−２に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。 aは23遺伝子のGene_ScoreとGene_Weightとを示す。 bはMETABRICコホートにおけるmPSの分布を示す。cは各ステージにおけるmPSの分布を示す。 dはMETABRICコホートのmPSの分位毎のKaplan-Meier Plotである。eはTCGAコホートのmPSの分位毎のKaplan-Meier Plotである。本開示の生存率の予測方法の概要を示す。 aはMETABRICコホート・HER2高発現乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bはMETABRICコホート・Claudin低発現乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。 cはMETABRICコホート・Normal-like乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。dはMETABRICコホート・50歳未満の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。 eはMETABRICコホート・ILC 乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。FはMETABRICコホート・グレード2 乳がん患者(n=740)におけるmPSの分位毎のKaplan-Meier Plotである。ａはMETABRICコホート・50代及び60代の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｂはMETABRICコホート・70歳以上の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｃはMETABRICコホート・50歳未満の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ａはMETABRICコホート・IDC乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｂはMETABRICコホート・MDLC乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｃはMETABRICコホート・grade 1乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｄはMETABRICコホート・grade 3乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ａは、METABRICコホート・Nottingham Prognostic Index (NPI) Excellent群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｂは、METABRICコホート・Nottingham Prognostic Index (NPI) Good群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｃはMETABRICコホート・Nottingham Prognostic Index (NPI) Moderate群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。ｄはMETABRICコホート・Nottingham Prognostic Index (NPI) Poor群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。 aはMETABRICコホート・Stage Iに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bはMETABRICコホート・Stage I Iに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。 cはMETABRICコホート・Stage IIIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。dはTCGAコホート・Stage IIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。 eはTCGAコホート・Stage IからIIIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。fはMETABRICコホート・Moderate IIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。 aは臨床ステージとmPSを統合したクラスの関係を示す図である。bはMETABRICコホート及びTCGAコホート全体のステージとmPSを統合したクラスの分位毎のKaplan-Meier Plotである。

１．判別器の生成方法
判別器は、複数のバイオマーカーの測定値に基づいて生成される。はじめに、バイオマーカーの母集団について、バイオマーカーの測定値に基づいて、被検体の体に生じるイベントと関連して変動しうる複数のバイオマーカーを決定する。判別器は、抽出された複数のバイオマーカーについて、各バイオマーカーの測定値に基づいて決定されるスコアと統計学的手法により算出された各バイオマーカーの重みから生成される。
より具体的には、判別器は、後述する判別器の生成装置の処理部１０１が、例えば、図１に示す各ステップを実行することにより生成される。

はじめに、ステップＳ１において、処理部１０１は、ユーザによる処理開始の指示を入力部１１１から受け取ることにより、バイオマーカーの母集団から被検体の体に生じるイベントと関連して変動するバイオマーカー群を第１の亜集団として抽出する。

次に、ステップＳ２において、処理部１０１は、第１の亜集団に属する各バイオマーカーを検証し、体内で生じるイベントに関連性がより強いと予測される第２の亜集団を抽出する。

次に、ステップＳ３において、処理部１０１は、第２の亜集団に属するバイオマーカーから機械学習法により、体に生じるイベントとの関連性がさらに強いと予測される第３の亜集団を抽出する。

次に、ステップＳ４において、処理部１０１は、第３の亜集団に属する各バイオマーカーの重みを深層学習法により算出する。処理部１０１は、ステップＳ４において算出された重みと、第３の亜集団に属する各バイオマーカーの測定値に基づいて決定されたスコアとから、下記判別器を生成する；

［式中、ｍＰＳは、分子予後予測スコア（ｍｏｌｅｃｕｌａｒｐｒｏｇｎｏｓｔｉｃｓｃｏｒｅ）を示し、ｗは各バイオマーカーの重みを示し、ＧＳは各バイオマーカーのスコアを示し、ｉは各バイオマーカーを示し、ｎはバイオマーカーの総数を表す。ｗｉ＊Ｓｉは各バイオマーカーの重みと対応するバイオマーカーのスコアの積を表す］。

最後に、処理部１０１は、ステップＳ５において、生成した判別器の汎化性能、及び／又は適用可能性等を検証してもよい。
各ステップについてより詳細に説明する。
また、各ステップの典型例を、図７に示すが、本開示は、図７に限定して解釈されるものではない。

（１）ステップ１
ステップ１は、被検体の体に生じるイベントと関連して変動しうるバイオマーカー群を決定する工程である。

被検体は、哺乳類である限り制限されない。例えば、ヒト、サル、イヌ、ネコ、マウス、ラット、及びウサギ等を例示することができる。好ましくはヒトである。前記被検体は、疾患に罹患している、又は疾患に罹患していると診断された被検体であることが好ましい。被検体として好ましくは患者である。

疾患は、特に制限されない。好ましくは、疾患は悪性腫瘍である。より好ましくは、疾患は悪性上皮性腫瘍（がん）である。悪性腫瘍としては、例えば、気管、気管支又は肺等から発生する呼吸器系悪性腫瘍；上咽頭、食道、胃、十二指腸、空腸、回腸、盲腸、虫垂、上行結腸、横行結腸、Ｓ状結腸、直腸又は肛門部等から発生する消化管系悪性腫瘍；肝臓がん；膵臓がん；膀胱、尿管又は腎臓から発生する泌尿器系悪性腫瘍；卵巣、卵管及び子宮等から発生する女性生殖器系悪性腫瘍；乳がん；前立腺がん；皮膚がん；視床下部、下垂体、甲状腺、副甲状腺、副腎等の内分泌系悪性腫瘍；中枢神経系悪性腫瘍；骨軟部組織から発生する悪性腫瘍等の固形腫瘍が挙げられる。より好ましくは、肺がん（扁平上皮がん、小細胞がん、大細胞がん、腺がん）等の呼吸器系上皮性悪性腫瘍；胃がん、十二指腸がん、大腸がん（Ｓ状結腸がん、直腸がん等）等の消化管系上皮性悪性腫瘍；肝臓がん；膵臓がん；膀胱がん；甲状腺がん；卵巣がん；乳がん；前立腺がんを挙げることができる。最も好ましくは、乳がんである。
疾患が悪性腫瘍である場合、被検体において悪性腫瘍の転移が認められないことが好ましい。

被検体の体で生じるイベントは、制限されない。例えば、疾患の発症（例えば、初発及び再発を含む）、疾患の治療に対する生体応答、疾患の帰趨（例えば、治癒、及び寛解を含む）、及び被検体自身の帰趨（例えば、死亡及び生存を含む）等を挙げることができる。好ましくは、疾患の発症、疾患の帰趨、及び被検体自身の帰趨等である。より好ましくは、所定期間内又は所定期間後における被検体自身の帰趨であり、さらに好ましくは、所定期間後における被検体自身の生存又は死亡である。

被検体の体に生じるイベントは、そのイベントが生じるか生じないか、あるいは確率で評価することができる。確率は、疾患の発症率、疾患の重症化率、疾患の治療成功率、疾患の治療不成功率、疾患の治癒率、疾患の寛解率、被検体の生存率、及び被検体の死亡率等である。イベントが起こるか起こらないか、あるいはイベントが起こる確率に応じて被検体を分類することを被検体を層別化するともいう。

所定期間は、１年、２年、３年、５年、６年、７年、８年、９年、１０年、１５年、２０年、及び３０年から体に生じるイベントに応じて適宜選択することができる。
本開示において、被検体の体に生じるイベントの最も典型的な例は、１０年後又は２０年後の乳がん患者の生存である。

バイオマーカーは、生体内物質である限り制限されない。生体内物質は、核酸（遺伝子を含む）；糖質；脂質；糖タンパク質；糖脂質；リポタンパク質；アミノ酸、ペプチド；タンパク質；ポリフェノール類；ケモカイン；前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質；又は金属イオン等であり、より好ましくは、遺伝子である。

バイオマーカーの測定値は、公知の方法により測定可能であり、上記バイオマーカーの量、又は濃度を反映する値である限り、制限されない。測定値は、定量的な値として表されても、「増加」、「変化なし」及び「減少」等の半定量的に表されてもよい。例えば、バイオマーカーが遺伝子であって、遺伝子に由来するタンパク質の存在量を反映する値を測定する場合には、免疫学的測定法（ＥＬＩＳＡ法、ウエスタンブロッティング法等）を採用することができる。バイオマーカーが遺伝子であって、遺伝子に由来するｍＲＮＡの発現量（コピー数等）を反映する値を測定する場合には、定量的ＲＴ−ＰＣＲ法又はＲＮＡ−Ｓｅｑ法等を採用することができる。

例えば、バイオマーカーとして遺伝子を用いる場合には、遺伝子に由来するタンパク質の存在量、又はｍＲＮＡの発現量（コピー数等）を反映する値を、バイオマーカーの測定値として使用することができる。図７において、バイオマーカーの母集団は、HUGO Gene Nomenclature Committee (HGNC)に登録されている全てのコーディング遺伝子である。

バイオマーカーの測定値は、疾患の病変部位の組織又は細胞を含む検体における測定値であり得る。また、血液試料（全血、血漿、及び血清等を含む）、尿、髄液、腹水、及び胸水等の疾患の状態を反映する生体内物質が含まれる検体中の測定値であり得る。疾患ががんである場合、検体はがん組織又はがん細胞であることが好ましい。

バイオマーカーの測定値として、公知のデータベースに登録されている情報を使用してもよい。公知のデータベースとしては、cBioPortal [Cerami, E. et al. Cancer Discov. 2, 401-404, doi:10.1158/2159-8290.cd-12-0095 (2012)]、multicenter combined breast cancer cohorts [Abdel-Fatah, T. M. A. et al. The Lancet. Oncology 17, 1004-1018, doi:10.1016/s1470-2045(16)00174-1 (2016)]、Whole METABRIC cohort [n=1904; Pereira, B. et al. Nature communications 7, 11479, doi:10.1038/ncomms11479 (2016)及びCurtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012)]等を挙げることができる。図７に示す例では、cBioPortalから、TCGA breast cancer datasetのmRNA expression (RNA-seq) を、被検体の体に生じるイベントと関連して測定値が変動しうるバイオマーカー群を決定するための最初のコホート（「ディスカバリコホート」ともいう）として使用している。

各バイオマーカーの測定値が前記被検体の体に生じるイベントと関連して変動するか否かは、統計学的な手法により判定することができる。

統計学的な手法は、各バイオマーカーが目的とするイベントと関連するか否かを判定できる限り制限されない。例えば、各バイオマーカーについて、測定値が高い群と低い群に群分けし、各群に属する各バイオマーカーについて、体にイベントが生じたか否かとのと関連性を評価する。体に生じるイベントと関連性について有意差検定により検証し、有意検定により「差がある」と判定されたバイオマーカーを、体に生じるイベントと関連する候補バイオマーカーとして決定することができる。

各バイオマーカーについて、測定値が高いか低いかの判定は、例えば、中央値、平均値、及び四分位範囲等を基準として行うことができる。図７の典型例では、バイオマーカーの測定値が高いと判定するか低いと判定するかについて、集団におけるバイオマーカーの測定値の中央値を境界として、中央値以上の測定値を「高い」と判定し、中央値よりも低い測定値を「低い」と判定し２群に群分けする。中央値は、群分け後に各群に属するバイオマーカーの数がほぼ同数となることから、各群に属するバイオマーカーの数に偏りがないという特徴がある。このため、群分けには、中央値を使用することが好ましい。このような統計解析は、公知の統計解析ソフト（例えば、統計分析フリーソフト「Ｒ」）等を使用して行うことができる。

有意差検定は、各バイオマーカーについて、標的とするイベントに応じて変動が生ずる確率を表す情報に応じて選択することができる。例えば、体に生じるイベントが生存率で表されるものであれば、各バイオマーカーについて変動が生ずる確率を表す情報は、Ｋａｐｌａｎ−ＭｅｉｅｒＰｌｏｔである。

ステップＳ１は、候補バイオマーカーを減らすことを目的としているため、有意差検定において算出された有意水準ｐ値について、カットオフ値を設定し、ｐ値がカットオフ値より小さいバイオマーカーを「差がある」バイオマーカーと決定することができ、ｐ値がカットオフ値より大きいバイオマーカーを「差がない」バイオマーカーとして分けることができる。

有意差検定は、例えば、バイオマーカーの測定値の分布に応じて、ｔ検定、カイ二乗検定、一元配置分散分析（クラスカル−ウォリス検定及びマン−ホイットニー検定等の検定を含んでいてもよい）、フリードマン検定、コクランのＱ検定、及びＬｏｇ−ｒａｎｋ検定等から選択することができる。

カットオフ値は、例えば０．０５、０．０１、０．００５、及び０．００１等から選択することができる。

各バイオマーカーについて前記確率を表す情報がＫａｐｌａｎ−ＭｅｉｅｒＰｌｏｔである場合には、有意差検定の方法として、例えばＬｏｇ−ｒａｎｋ検定を採用することができる。図７に示す典型例では、カットオフ値は０．０１とした。つまり、Ｌｏｇ−ｒａｎｋ検定でｐ値が０．０１未満となる遺伝子を、体に生じるイベントと関連がある第１の亜種団に属するバイオマーカーとして抽出した。

Ｋａｐｌａｎ−Ｍｅｉｅｒｐｌｏｔｓは総計分析ソフト「Ｒ（ｓｕｒｖｉｖａｌｐａｃｋａｇｅ）」等を使用して生成することができる。また、Ｌｏｇ−ｒａｎｋ検定は、Ｒのｓｕｒｖｉｖａｌｐａｃｋａｇｅ、Ｐｙｔｈｏｎ（ｌｉｆｅｌｉｎｅｓｐａｃｋａｇｅ）等を使用して行うことができる。

斯くして、処理部１０１は、有意差検定により「差がある」と決定されたバイオマーカー群を第１の亜集団と決定することができる。

（２）ステップ２
ステップＳ２において、処理部１０１は、ステップＳ１において、有意差検定により「差がある」と決定された第１の亜集団に対して、バリデーションコホートを使用し候補バイオマーカーとしての正しさを検証する。検証は、第１の亜集団として抽出した全てのバイオマーカーに対して網羅的に行い、候補バイオマーカーとしての正しいと判定されたバイオマーカーを第２の亜集団として抽出する。

バリデーションコホートは、ディスカバリコホートとは異なるコホートから選択することが好ましい。コホートが１つである場合には、このコホートを２群に分け、一方をディスカバリコホート、もう一方をバリデーションコホートとしてもよい。最終的に生成される判別器の汎化性能、及び／又は適用可能性を向上させるためには、バリデーションコホートは、ディスカバリコホートとは異なるコホートから選択されることが好ましい。

検証の方法は、候補バイオマーカーとしての正しさを検証できる限り制限されない。検証の方法として、例えば、メタアナリシス（ｍｅｔａ−ａｎａｌｙｓｉｓ）、Ｌｏｇ−ｒａｎｋ検定等を採用することができる。好ましくは、ディスカバリコホートとは異なるバリデーションコホートを用い、ｍｅｔａ−ａｎａｌｙｓｉｓを行う。ｍｅｔａ−ａｎａｌｙｓｉｓは、Ｃｏｘ回帰分析によるハザード比と９５％信頼区間から検証を行う。これらの解析は、Ｐｙｔｈｏｎ（３．６．２）等のソフトウェアを使用して行うことができる。

図７に示す典型例では、バリデーションコホートとして、ディスカバリコホートとは異なるmulticenter combined breast cancer cohorts [ Abdel-Fatah, T. M. A. et al. The Lancet. Oncology 17, 1004-1018, doi:10.1016/s1470-2045(16)00174-1 (2016)]を使用しメタアナリシスにより検証を行う。

斯くして、処理部１０１は、候補バイオマーカーとしての正しさが検証されたバイオマーカーを、体に生じるイベントとより関連性の強い第２の亜集団として抽出することができる。

図７に示す典型例の第２の亜集団は、表１−１及び表１−２に示す通りである。

（３）ステップ３
処理部１０１は、機械学習と検証により第２の亜集団から第３の亜集団を抽出する。
機械学習法は、特徴量を抽出できる限り制限されない。機械学習法として例えば、ランダムフォレスト、決定木、サポートベクターリグレッション、サポートベクターマシーン、ロジスティック解析、スパースロジスティック解析、深層学習等を挙げることができる。好ましくは、ランダムフォレストである。機械学習は、例えばＰｙｔｈｏｎベースのｓｃｉｋｉｔ−ｌｅａｒｎライブラリ等を使用して行うことができる。

機械学習法は、図２に示すように、図１のステップＳ２において抽出された第２の亜集団に属するバイオマーカーについて、例えば、訓練データから特徴量を抽出することにより、その特徴量に応じて、第２の亜集団から体に生じるイベントとの関連がより強いバイオマーカーを特徴量として抽出する（ステップＳ３１）。特徴量は、各バイオマーカーの測定値の変動と体に生じるイベントとの関連の強さを表す値である。例えば機械学習がランダムフォレストである場合、検証で算出されるｆｅａｔｕｒｅｉｍｐｏｒｔａｎｃｅｖａｌｕｅｓに基づいて特徴量を抽出する。つまりｆｅａｔｕｒｅｉｍｐｏｒｔａｎｃｅｖａｌｕｅｓの高い順に複数のバイオマーカーを抽出することにより、体に生じるイベントとの関連がより強いバイオマーカーを抽出することができる。ここで複数とは、２以上である限り制限されない。例えば、複数は、３、５、１０、１５、２０、２３、２５、３０、４０、５０、１００等を意図する。

訓練データは、ディスカバリコホートとして使用したコホートや、ステップＳ２でバリデーションコホートとして使用したコホートであってもよいが、異なるコホートであってもよい。最終的に生成される判別器の汎化性能、及び／又は適用可能性を向上させるためには、ディスカバリコホートやステップＳ２で使用したバリデーションコホートと異なるコホートを訓練データとして使用することが好ましい。

図７に示す典型例では、訓練データとしてWhole METABRIC cohort [Pereira, B. et al. Nature communications 7, 11479, doi:10.1038/ncomms11479 (2016)及びCurtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012)を使用する。

検証に用いるコホートは、訓練データとは異なるコホートから選択することが好ましい。コホートが１つである場合には、このコホートを２群に分け、一方を訓練データ、もう一方を検証用のコホートとしてもよい。また異なるコホートから選択してもよい。好ましくは、検証に用いるコホートは、訓練データと異なるコホートから選択される。

次に、処理部１０１は、ステップＳ３２において、図２に示すように、ステップＳ３１で抽出された特徴量について検証を行う。検証は、体に生じるイベントとの関連性が最も強い特徴量が見つかるまで繰り返される（ステップＳ３３）。このようにして、体に生じるイベントとの関連性がさらに強い特徴量（バイオマーカー群）を第２の亜集団から抽出する（ステップＳ３４）。

検証に訓練データと同じコホートから選択されたコホートを使用する場合、検証の方法として、ホールドアウト法、１個抜き交差検証（ｌｅａｖｅ−ｏｎｅ−ｏｕｔｃｒｏｓｓ−ｖａｌｉｄａｔｉｏｎ：ＬＯＯＣＶ）等のクロスバリデーション及び混合行列等を採用することができる。好ましくは、クロスバリデーションである。クロスバリデーションは、例えば１０分割交差検証等を採用することができる。これらの解析は、Ｐｙｔｈｏｎ（３．６．２）等を使用して行うことができる。

図７に示す典型例では、検証には１０分割交差検証を使用する。

斯くして、処理部１０１は、体に生じるイベントとさらに関連性の強い第３の亜集団を抽出することができる。
図７に示す典型例で抽出された遺伝子は、図１１−１ａに示す２３遺伝子である。

（４）ステップ４
ステップ４では、第３の亜集団に属するバイオマーカーについて、訓練データをニューラルネットワークに入力し、深層学習法により第３の亜集団に属する各バイオマーカーの重み（「Ｗｅｉｇｈｔ」又は「ｗ_ｉ」で表すことがある。ｉは各バイオマーカーを示す。）を算出する。

深層学習法は、各バイオマーカーの重みを算出できる限り制限されない。例えば、勾配降下法、確率的勾配法、順伝播型ニューラルネットワーク、自己符号化器、誤差伝播法、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、及びボルツマンマシン等を挙げることができる。好ましくは、勾配降下法である。深層学習は、ＰｙｔｈｏｎベースのＴｅｎｓｏｒＦｌｏｗライブラリ等を使用して行うことができる。

図７に示す典型例では、各遺伝子の交差エントロピーによる損失関数を規定し、各遺伝子の重み“Ｇｅｎｅ＿Ｗｅｉｇｈｔ”を勾配降下法により算出する[Kourou, K., et al. Computational and structural biotechnology journal 13, 8-17,doi:10.1016/j.csbj.2014.11.005 (2015)]。

ステップ４で使用する訓練データは、ステップ３で使用した訓練データと同じであっても異なっていてもよい。また、ステップ４で使用する訓練データは、ディスカバリコホートとして使用したコホートや、ステップＳ２でバリデーションコホートとして使用したコホートであってもよい。

判別器は、前記数１に示すように、第３の亜集団に属する各バイオマーカーのスコアに深層学習で算出した重みを乗じ、乗算値の総和を求める関数である。

各バイオマーカーのスコアは、第３の亜集団に属する各バイオマーカーの測定値と、体に生じるイベントとを紐付けする値である。前記紐付けする値は、例えば「０」と「１」のような二値化データである。例えば、体に生じるイベントが生存率で表される場合、バイオマーカーの測定値が中央値より高い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より高い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“１”が付与され、各バイオマーカーの測定値が中央値より低い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“０”が付与される。バイオマーカーの測定値が中央値より低い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より低い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“１”が付与され、各バイオマーカーの測定値が中央値より高い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“０”が付与される。この態様を以下においてスコアパターン１と呼ぶ。

このスコアを、判別器に入力することにより、重み付け和を算出することができる。
前記判別器を使用した重み付け和を分子予後予測スコア（ｍｏｌｅｃｕｌａｒｐｒｏｇｎｏｓｔｉｃｓｃｏｒｅ：ｍＰＳ）とよぶ。

図７に示す典型例では、判別器は、各患者の乳がん組織における図１１−１ａに示す２３遺伝子の“Ｇｅｎｅ＿Ｓｃｏｒｅ”の重み付け和とした。すなわち、下式で表される。

（式中、ｗは“Ｇｅｎｅ＿Ｗｅｉｇｈｔ”を表し、ＧＳは、“Ｇｅｎｅ＿Ｓｃｏｒｅ”を示し、ｎは２３であり、ｉは各バイオマーカーを示し、ｗｉ＊ＧＳｉは各バイオマーカーの重みとスコアの積を表す。２３は、図１１−１ａに示す２３遺伝子を示す。）

スコアパターン１に基づくスコアを用いた場合、生存率が良好なほどｍＰＳ値は小さな値を示す。また、スコアパターン１に基づくスコアを用いた場合、生存率が不良なほどｍＰＳ値は大きな値を示す。

また、別の態様として、例えば、体に生じるイベントが生存率で表される場合、バイオマーカーの測定値が中央値より高い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より高い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“０”が付与され、各バイオマーカーの測定値が中央値より低い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“１”が付与される。バイオマーカーの測定値が中央値より低い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より低い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“０”が付与され、各バイオマーカーの測定値が中央値より高い場合に“Ｇｅｎｅ＿Ｓｃｏｒｅ”として“１”が付与される。この態様を以下においてスコアパターン２と呼ぶ。

スコアパターン２に基づくスコアを用いた場合、生存率が良好なほどｍＰＳ値は大きな値を示す。また、スコアパターン２に基づくスコアを用いた場合、生存率が不良なほどｍＰＳ値は小さな値を示す。

ここで判別器は、図１に記載するステップＳ３を経ずに、第２の亜集団のバイオマーカーの測定値に対して、ステップＳ４を行って生成してもよい。

生成された判別器は、後述する各装置の記憶部に記憶されてもよく、各出力部から出力されてもよい。また、後述する記憶媒体に記憶されてもよく、通信Ｉ／Ｆ１０５を介してネットワーク送信されてもよい。

（５）ステップ５
ステップ５は、任意のステップである。ステップ５では、ステップ４で生成した判別器が、コホートの種類、疾患のサブタイプ、被検体の年齢等によって群分けされたコホートを問わず適用可能であるか、検証するステップである。

疾患のサブタイプは、例えば、がんの臨床ステージクラス分類（図１８ａに示すＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ−Ｉ、及びＦ−ＩＩ）、臨床ステージ（がんであればＴＮＭ分類；乳がんであれば、ステージＩ、ＩＩ、ＩＩＩ等）、病理組織学的なグレード（低分化型、中分化型、高分化型等）、組織型［乳がんであれば、浸潤性腺管がん（ｉｎｖａｓｉｖｅｄｕｃｔａｌｃａｒｃｉｎｏｍａ：ＩＤＣ）、浸潤性小葉がん（ｉｎｖａｓｉｖｅｌｏｂｕｌａｒｃａｒｃｉｎｏｍａ：ＩＬＣ）、及びＩＤＣとＩＬＣが混合したＭＤＬＣ等］である。

また年齢等による群分けは、例えば、若年層（５０歳未満）、熟年層（５０歳以上、７０歳未満）及び高齢層（７０歳以上）のように群分けすることができる。

群分けされた各コホートについて、各バイオマーカーの測定値と、体に生じるイベントとの相関を統計学的に検証することにより、判別器の汎化性能、及び／又は適用可能性等を検証することができる。相関を求める方法は、公知である。

生成された判別器は、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶されてもよい。前記記憶媒体へのプログラムの記憶形式は、処理部１０１、処理部２０１、又は処理部３０１が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

生成された判別器は、被検体の体に生じるイベントを評価するために使用することができる。

２．判別器を生成するための装置
本開示は、判別器を生成するための装置１０（判別器生成装置１０とも呼ぶ）に関する。判別器生成装置１０は、少なくとも処理部１０１を備え、前記処理部１０１は、上記１．、図１又は図２に記載のステップにしたがって、上記１．で述べた判別器を生成する。

図３に、判別器生成装置１０のハードウェアの構成を示す。また、図４に判別器生成装置１０のブロック図を示す。判別器生成装置１０は、入力部１１１と、出力部１１２と、記憶媒体１１３とに接続されていてもよい。

判別器生成装置１０において、処理部１０１と、主記憶部１０２と、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）１０３と、補助記憶部１０４と、通信インタフェース（Ｉ／Ｆ）１０５と、入力インタフェース（Ｉ／Ｆ）１０６と、出力インタフェース（Ｉ／Ｆ）１０７と、メディアインターフェース（Ｉ／Ｆ）１０８は、バス１０９によって互いにデータ通信可能に接続されている。主記憶部１０２と補助記憶部１０４とを合わせて、単に記憶部と呼ぶこともある。記憶部は、生成された判別器、ｍＰＳの基準値又は基準範囲、各患者のバイオマーカーの測定値、及び各患者のｍＰＳを揮発性に、又は不揮発性に記憶する。

処理部１０１は、判別器生成装置１０のＣＰＵである。処理部１０１は、ＧＰＵであってもよい。処理部１０１が、補助記憶部１０４又はＲＯＭ１０３に記憶されているコンピュータプログラムを実行し、取得されるデータの処理を行うことにより、判別器生成装置１０が機能する。

ＲＯＭ１０３は、マスクＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどによって構成され、処理部１０１により実行されるコンピュータプログラム及びこれに用いるデータが記録されている。処理部１０１はＭＰＵ１０１としてもよい。ＲＯＭ１０３は、判別器生成装置１０の起動時に、処理部１０１によって実行されるブートプログラムや判別器生成装置１０のハードウェアの動作に関連するプログラムや設定を記憶する。

主記憶部１０２は、ＳＲＡＭ又はＤＲＡＭなどのＲＡＭ（Ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）によって構成される。主記憶部１０２は、ＲＯＭ１０３及び補助記憶部１０４に記録されているコンピュータプログラムの読み出しに用いられる。また、主記憶部１０２は、処理部１０１がこれらのコンピュータプログラムを実行するときの作業領域として利用される。

補助記憶部１０４は、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等によって構成される。補助記憶部１０４には、オペレーティングシステム及びアプリケーションプログラムなどの、処理部１０１に実行させるための種々のコンピュータプログラム及びコンピュータプログラムの実行に用いる各種設定データが記憶されている。具体的には、基準値等を不揮発性に記憶する。

通信Ｉ／Ｆ１０５は、ＵＳＢ、ＩＥＥＥ１３９４、ＲＳ−２３２Ｃなどのシリアルインタフェース、ＳＣＳＩ、ＩＤＥ、ＩＥＥＥ１２８４などのパラレルインタフェース、及びＤ／Ａ変換器、Ａ／Ｄ変換器などからなるアナログインタフェース、ネットワークインタフェースコントローラ（Ｎｅｔｗｏｒｋｉｎｔｅｒｆａｃｅｃｏｎｔｒｏｌｌｅｒ：ＮＩＣ）等から構成される。通信Ｉ／Ｆ１０５は、処理部１０１の制御下で、測定部３０又は他の外部機器からのデータを受信し、必要に応じて判別器生成装置１０が保存又は生成する情報を、測定部３０又は外部に送信又は表示する。通信Ｉ／Ｆ１０５は、ネットワークを介して測定部３０又は他の外部機器と通信を行ってもよい。

入力Ｉ／Ｆ１０６は、例えばＵＳＢ、ＩＥＥＥ１３９４、ＲＳ−２３２Ｃなどのシリアルインタフェース、ＳＣＳＩ、ＩＤＥ、ＩＥＥＥ１２８４などのパラレルインタフェース、及びＤ／Ａ変換器、Ａ／Ｄ変換器などからなるアナログインタフェースなどから構成される。入力Ｉ／Ｆ１０６は、入力部１１１から文字入力、クリック、音声入力等を受け付ける。受け付けた入力内容は、主記憶部１０２又は補助記憶部１０４に記憶される。

入力部１１１は、タッチパネル、キーボード、マウス、ペンタブレット、マイク等から構成され、判別器生成装置１０に文字入力又は音声入力を行う。入力部１１１は、判別器生成装置１０の外部から接続されても、判別器生成装置１０と一体となっていてもよい。

出力Ｉ／Ｆ１０７は、例えば入力Ｉ／Ｆ１０６と同様のインタフェースから構成される。出力Ｉ／Ｆ１０７は、処理部１０１が生成した情報を出力部１１２に出力する。出力Ｉ／Ｆ１０７は、処理部１０１が生成し、補助記憶部１０４に記憶した情報を、出力部１１２に出力する。

出力部１１２は、例えばディスプレイ、プリンター等で構成され、測定部３０から送信される測定結果及び判別器生成装置１０における各種操作ウインドウ、分析結果等を表示する。

メディアＩ／Ｆ１０８は、記憶媒体１１３に記憶された例えばアプリケーションソフト等を読み出す。読み出されたアプリケーションソフト等は、主記憶部１０２又は補助記憶部１０４に記憶される。また、メディアＩ／Ｆ１０８は、処理部１０１が生成した情報を記憶媒体１１３に書き込む。メディアＩ／Ｆ１０８は、処理部１０１が生成し、補助記憶部１０４に記憶した情報を、記憶媒体１１３に書き込む。

記憶媒体１１３は、フレキシブルディスク、ＣＤ−ＲＯＭ、又はＤＶＤ−ＲＯＭ等で構成される。記憶媒体１１３は、フレキシブルディスクドライブ、ＣＤ−ＲＯＭドライブ、又はＤＶＤ−ＲＯＭドライブ等によってメディアＩ／Ｆ１０８と接続される。記憶媒体１１３には、コンピュータがオペレーションを実行するためのアプリケーションプログラム等が格納されていてもよい。

処理部１０１は、判別器生成装置１０の制御に必要なアプリケーションソフトや各種設定をＲＯＭ１０３又は補助記憶部１０４からの読み出しに代えて、ネットワークを介して取得してもよい。前記アプリケーションプログラムがネットワーク上のサーバコンピュータの補助記憶部内に格納されており、このサーバコンピュータに判別器生成装置１０がアクセスして、コンピュータプログラムをダウンロードし、これをＲＯＭ１０３又は補助記憶部１０４に記憶することも可能である。

また、ＲＯＭ１０３又は補助記憶部１０４には、例えば米国マイクロソフト社が製造販売するＷｉｎｄｏｗｓ（登録商標）などのグラフィカルユーザインタフェース環境を提供するオペレーションシステムがインストールされている。第２の実施形態に係るアプリケーションプログラムは、前記オペレーティングシステム上で動作するものとする。すなわち、判別器生成装置１０は、パーソナルコンピュータ等であり得る。

３．判別器を生成するためのコンピュータプログラム
本開示のある実施形態は、判別器を生成するためのコンピュータプログラムに関する。
前記コンピュータプログラムは、図１に記載のステップＳ１、ステップＳ２及びステップＳ４、好ましくはステップＳ１〜Ｓ５及び図２に記載のステップＳ３１〜Ｓ３４を処理部１０１に実行させる。

さらに、本開示のある実施形態は、前記コンピュータプログラムを記憶した、記憶媒体に関する。すなわち、前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。前記記憶媒体へのプログラムの記憶形式は、処理部１０１が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

４．患者の生存率の予測方法
本開示のある実施形態は、患者の生存率の予測方法に関する。本実施形態においては、上記１．の方法にて生成された判別器を用いて、患者の所定期間後の生存率を予測する。患者が罹患している疾患は、特に制限されないが、好ましくは、がんであり、より好ましくは、乳がんである。

患者の所定期間後の生存率の予測は、患者のｍＰＳ値を基準値と比較することにより行うことができる。判別器に入力されるスコアがスコアパターン１である場合、具体的には、判別器により求められた各患者のｍＰＳの値をその基準値と比較して、患者のｍＰＳが基準値よりも大きい場合には、患者の所定期間後、好ましくは１０年後、又は２０年後の生存率が不良であると決定することができる。また、患者のｍＰＳが基準値以下である場合には、患者の所定期間後、好ましくは１０年後、又は２０年後の生存率が良好であるであると決定することができる。また、判別器に入力されるスコアがスコアパターン２である場合、具体的には、判別器により求められた各患者のｍＰＳの値をその基準値と比較して、患者のｍＰＳが基準値よりも小さい場合には、患者の所定期間後、好ましくは１０年後、又は２０年後の生存率が不良であると決定することができる。また、患者のｍＰＳが基準値以上である場合には、患者の所定期間後、好ましくは１０年後、又は２０年後の生存率が良好であるであると決定することができる。

本実施形態は、患者における疾患の病変部位から採取された組織又は細胞を含む検体、又は、血液試料（全血、血漿、及び血清等を含む）、尿、髄液、腹水、及び胸水等の疾患の状態を反映する生体内物質が含まれる検体から、バイオマーカーの測定値を取得する工程を含んでいてもよい。バイオマーカーの測定値の取得は、公知の方法により行うことができる。バイオマーカーが遺伝子である場合、バイオマーカーの測定値は、例えば、定量的ＲＴ−ＰＣＲ法又はＲＮＡ−Ｓｅｑ法等により取得することができる。

本実施形態は、判別器を用いて各患者のｍＰＳの値を算出する工程を含んでいていてもよい。各患者について取得した、第２の亜種団、又は第３の亜集団に含まれる遺伝子群のバイオマーカーの測定値を上記１．に記載の方法に従って二値化し各遺伝子のスコアを決定する。処理部２０１は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のｍＰＳを算出する。

基準値は、患者の所定期間後の生存率が良好であること、及び／又は不良であることを判定できる値である限り制限されない。例えば、基準値は、所定期間後の生存率が良好である患者のｍＰＳや、所定期間後の生存率が不良である患者のｍＰＳから求めることができる。また別の態様として、基準値は、所定期間後の生存率が良好である患者群のｍＰＳの上限値、所定期間後の生存率が不良である患者群の下限値としてもよい。また別の態様として、所定期間後の生存率が良好である患者群のｍＰＳ及び所定期間後の生存率が不良である患者群を合わせた集団の複数のｍＰＳの中央値、平均値、最頻値等とすることができる。あるいは、基準値は、ＲＯＣ曲線（Receiver Operatorating Characteristic curve、受信者動作特性曲線）、判別分析法、モード法、Ｋｉｔｔｌｅｒ法、３σ法、ｐ‐ｔｉｌｅ法等により算出してもよい。基準値は、あらかじめ決定されていることが好ましい。
本実施形態において、判別器、患者、がん、生存率、所定期間、ｍＰＳ等、上記１．において使用されている用語については、上記１．の説明をここに援用する。

５．患者の生存率を予測するための装置
本開示は、患者の生存率を予測するための装置２０（生存率予測装置２０とも呼ぶ）に関する。生存率予測装置２０は、少なくとも処理部２０１を備える。生存率予測装置２０の構成は、判別器生成装置１０と同じであるため、上記２．の説明、図３及び図４は、ここに援用する。

図３、又は図４において、判別器生成装置１０、処理部１０１と、主記憶部１０２、ＲＯＭ１０３と、補助記憶部１０４、通信インタフェース（Ｉ／Ｆ）１０５、入力インタフェース（Ｉ／Ｆ）１０６、出力インタフェース（Ｉ／Ｆ）１０７、メディアインターフェース（Ｉ／Ｆ）１０８、バス１０９、入力部１１１、出力部１１２、記憶媒体１１３は、それぞれ、処理部２０１と、主記憶部２０２、ＲＯＭ２０３と、補助記憶部２０４、通信インタフェース（Ｉ／Ｆ）２０５、入力インタフェース（Ｉ／Ｆ）２０６、出力インタフェース（Ｉ／Ｆ）２０７、メディアインターフェース（Ｉ／Ｆ）２０８、バス２０９、入力部２１１、出力部２１２、記憶媒体２１３と読み替える。図５を用いて、生存率予測装置２０の動作について説明する。ここでは、判別器に入力されるスコアがスコアパターン１である場合を例として説明する。

はじめに、ステップＳ４１において、処理部２０１は、入力部２１１からユーザによって入力された、第２の亜種団、又は第３の亜集団に含まれるバイオマーカーの測定値を各がん患者について取得する。あるいは入力部２１１からユーザによって入力された、処理開始の指示により、処理部２０１は、通信Ｉ／Ｆ２０５を介して、ネットワークから第２の亜種団、又は第３の亜集団に含まれるバイオマーカーの測定値を各患者について取得する。処理部２０１は、取得した各バイオマーカーの測定値を上記１．に記載の方法に従って二値化し各バイオマーカーのスコアを決定する。処理部２０１は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のｍＰＳを算出する。

次に処理部２０１は、ステップＳ４２において、記憶部に記憶されているｍＰＳの基準値と、各がん患者のｍＰＳを比較する。ステップＳ４３において、各患者のｍＰＳが基準値よりも大きいか否かを判定する。

ステップＳ４３の判定がＹＥＳの場合には、患者の所定期間後の生存率は不良であると決定する（ステップＳ４４）。また、ステップＳ４３の判定がＮＯの場合には、患者の所定期間後の生存率は良好であると決定する（ステップＳ４５）。

判別器に入力されるスコアがスコアパターン２である場合には、ステップＳ４３の判定がＹＥＳの場合には、ステップＳ４４において患者の所定期間内、又は所定期間後の生存率は良好であると決定する。また、ステップＳ４３の判定がＮＯの場合には、ステップＳ４５において患者の所定期間内、又は所定期間後の生存率は不良であると決定する。

次に処理部２０１は、ステップＳ４６において、判定結果を出力部２１２に出力する。また、図示しないが、判定結果を補助記憶部２０４に記憶してもよい。

本実施形態において、上記１．、２．及び４．と共通する用語の説明は、上記１．、２．及び４．に記載をここに援用する。

６．がん患者の生存率を予測するためのコンピュータプログラム
本開示のある実施形態は、がん患者の生存率を予測するためのコンピュータプログラムに関する。

前記コンピュータプログラムは、図５に記載のステップＳ４１〜Ｓ４６を処理部２０１に実行させる。

さらに、本開示のある実施形態は、前記コンピュータプログラムを記憶した、記憶媒体に関する。すなわち、前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。前記記憶媒体へのプログラムの記憶形式は、処理部２０１が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

７．がん患者の層別化を補助する方法
本開示のある実施形態は、生存率に基づいて、がん患者の層別化を補助する方法に関する。

本実施形態においては、上記１．で生成された判別器を用いて算出されたｍＰＳを使って、がん患者の所定期間後の生存率に基づいてがん患者を層別化することを補助する。具体的には、判別器により求められた各がん患者のｍＰＳの値をその基準範囲と比較して、各がん患者のｍＰＳの値がどの分位に分類されるかを決定することにより、がん患者を層別化する。

本実施形態は、具体的には、がん患者における疾患の病変部位から採取された組織又は細胞を含む検体、又は、血液試料（全血、血漿、及び血清等を含む）、尿、髄液、腹水、及び胸水等の疾患の状態を反映する生体内物質が含まれる検体から、バイオマーカーの測定値を取得する工程を含んでいてもよい。バイオマーカーの測定値の取得は、公知の方法により行うことができる。バイオマーカーが遺伝子である場合、バイオマーカーの測定値は、例えば、定量的ＲＴ−ＰＣＲ法又はＲＮＡ−Ｓｅｑ法等により取得することができる。また、判別器を用いて各患者のｍＰＳの値を算出する工程を含んでいてもよい。各患者について取得した、第２の亜種団、又は第３の亜集団に含まれるバイオマーカーの測定値を上記１．に記載の方法に従って二値化し各遺伝子のスコアを決定する。処理部３０１は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のｍＰＳを算出する。

基準範囲は、例えば、第１分位がｍＰＳ＝０〜５、第２分位がｍＰＳ＝５〜１１、第３分位がｍＰＳ＝１１〜２５、第４分位がｍＰＳ＝２５〜３６、第５分位がｍＰＳ＝３６〜４５、第６分位がｍＰＳ＝４５〜５０のように設定することができる。スコアパターン１の場合、第１分位から第６分位に向かって所定期間後の生存率は不良となるため、各患者の生存率を段階的に予測することが可能である。スコアパターン２の場合、第１分位から第６分位に向かって所定期間後の生存率は良好となるため、各患者の生存率を段階的に予測することが可能である。

また、基準範囲は、疾患ががんの場合、がんの組織型、臨床ステージ毎、病理組織グレード毎、又は年齢層毎等のカテゴリーに応じて決定されていてもよい。この場合、層別化を補助する方法には、さらに、前記カテゴリーに応じて、がんの組織型、臨床ステージ、病理組織グレード、及び年齢層の情報を取得することが含まれる。これらの情報は、入力部３１１からのユーザによる入力、電子カルテとの紐付け等により処理部３０１が取得することができる。基準範囲は、あらかじめ決定されていることが好ましい。

本実施形態において、判別器、がん、生存率、所定期間、ｍＰＳ、組織型、がんのサブタイプ、臨床ステージ、病理組織グレード、及び年齢層等、上記１．において使用されている用語については、上記１．の説明をここに援用する。

８．患者を層別化するための装置
本開示は、患者を層別化するための装置３０（層別化装置３０とも呼ぶ）に関する。層別化装置３０は、少なくとも処理部３０１を備える。層別化装置３０の構成は、判別器生成装置１０と同じであるため、上記２．の説明、図３及び図４は、ここに援用する。

図３、又は図４において、判別器生成装置１０、処理部１０１と、主記憶部１０２、ＲＯＭ１０３と、補助記憶部１０４、通信インタフェース（Ｉ／Ｆ）１０５、入力インタフェース（Ｉ／Ｆ）１０６、出力インタフェース（Ｉ／Ｆ）１０７、メディアインターフェース（Ｉ／Ｆ）１０８、バス１０９、入力部１１１、出力部１１２、記憶媒体１１３は、それぞれ、処理部３０１、主記憶部３０２、ＲＯＭ３０３と、補助記憶部３０４、通信インタフェース（Ｉ／Ｆ）３０５、入力インタフェース（Ｉ／Ｆ）３０６、出力インタフェース（Ｉ／Ｆ）３０７、メディアインターフェース（Ｉ／Ｆ）３０８、バス３０９、入力部３１１、出力部３１２、記憶媒体３１３と読み替える。
図６を用いて、層別化装置３０の動作について説明する。

はじめに、ステップＳ５１において、処理部３０１は、入力部３１１からユーザによって入力された、第２の亜集団、又は第３の亜集団に含まれるバイオマーカーの測定値を各患者について取得する。あるいは入力部３１１からユーザによって入力された、処理開始の指示により、処理部３０１は、通信Ｉ／Ｆ３０５を介して、ネットワークから第２の亜種団、又は第３の亜集団に含まれるバイオマーカーの測定値を各患者について取得する。処理部３０１は、取得した各バイオマーカーの測定値を上記１．に記載の方法に従って二値化し各バイオマーカーのスコアを決定する。処理部３０１は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のｍＰＳを算出する。

次に処理部３０１は、ステップＳ５２において、記憶部に記憶されているｍＰＳの基準範囲と、各患者のｍＰＳを比較する。ステップＳ５３において、患者が、その患者のｍＰＳが属する分位の生存率であると決定する。

次に処理部３０１は、ステップＳ５４において、判定結果を出力部３１２に出力する。また、図示しないが、判定結果を補助記憶部３０４に記憶してもよい。

本実施形態において、上記１．、２．及び７．と共通する用語の説明は、上記１．、２．及び７．に記載をここに援用する。

９．患者を層別化するためのコンピュータプログラム
本開示のある実施形態は、がん患者を層別化するためのコンピュータプログラムに関する。

前記コンピュータプログラムは、図６に記載のステップＳ５１〜Ｓ５４を処理部３０１に実行させる。

さらに、本開示のある実施形態は、前記コンピュータプログラムを記憶した、記憶媒体に関する。すなわち、前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。前記記憶媒体へのプログラムの記憶形式は、処理部３０１が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

１０．バイオマーカー
本開示のある実施形態は、表１−１及び表１−２に記載の遺伝子から選択される少なくとも一種の遺伝子を、乳がん患者における生存率を予測するためのバイオマーカーとして使用することに関する。好ましくは、前記バイオマーカーには、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない。より好ましくは、ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３よりなる群から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）を、乳がんの生存率を予測するためのバイオマーカーとして使用する。前記遺伝子群から選択される少なくとも一種の遺伝子に由来するｍＲＮＡ及び／又はタンパク質の発現量をバイオマーカーとして使用する。

１１．検査試薬
本開示のある実施形態は、表１−１及び表１−２に記載の遺伝子から選択される少なくとも一種の遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬に関する。好ましくは、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない。より好ましくは、ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３よりなる群から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）である。本検査試薬は、ＲＴ−ＰＣＲ法、マイクロアレイ法、ＲＮＡ−Ｓｅｑ法、ＥＬＩＳＡ法、ウエスタンブロッティング法等に使用できる限り制限されない。

検査試薬は、検査試薬と、前記検査試薬を反応させるための酵素、ハイブリダイゼーション若しくは抗原抗体反応を行うための反応液、取扱説明書、又は取扱説明書の掲載されたＷｅｂページのＵＲＬあるいはＱＲコード（登録商標）を示した紙媒体とを含む乳がん患者の生存率を予測するために使用される検査キットを構成してもよい。

以下に実施例を示して、本開示についてより詳しく説明する。しかし、本開示は実施例に限定して解釈されるものではない。

Ｉ．判別器の生成
＜コホート＞
判別器を生成するため、複数の公知の乳がんコホートを使用した。今回の検討に使用するコホートからは転移のある患者はほとんどいなかった。

ディスカバリコホートとしてTCGAコホートを使用した。TCGAコホートは、cBioPortal [Cerami, E. et al. Cancer Discov. 2, 401-404, doi:10.1158/2159-8290.cd-12-0095 (2012)]から、TCGA breast cancer datasetのGISTEC-based copy number alterrarions (CNAs) cohort [n=958; Curtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012);以下、「TCGAコホート」と呼ぶ]をダウンロードした。GISTECは、Mermel, C. H. et al. Genome Biol. 12, R41, doi:10.1186/gb-2011-12-4-r41(2011)を参照することができる。cBioPortalには、乳がん組織における各遺伝子に由来するmRNAの発現量（RNA-seqによる解析結果）が登録されている。

ステップ２で使用するバリデーションコホートとして、multicenter combined breast cancer cohorts [n=5844; Abdel-Fatah, T. M. A. et al. The Lancet. Oncology 17, 1004-1018, doi:10.1016/s1470-2045(16)00174-1 (2016);以下、「multicenterコホート」と呼ぶ]を使用した。

ステップ３で使用する訓練データとして、Whole METABRIC cohort [n=1904; Pereira, B. et al. Nature communications 7, 11479, doi:10.1038/ncomms11479 (2016)及びCurtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012);以下、「METABRICコホート」と呼ぶ]を使用した。METABRICコホートは、TCGAコホートからは、独立している。

各コホートの内訳を表２に示す。

＜遺伝子リスト＞
ヒト遺伝子のリストは、HUGO Gene Nomenclature Committee (HGNC)から取得した。

＜解析方法＞
cBioPortalからのデータのダウンロードには、cBioPortalが提供するCGDS-R package及びWeb APIsを使用した。機械学習のランダムフォレストアプローチには、n_estimators（= 500）、max_depth（= 10）を除いて、パラメータをデフォルトとしたPythonベースのscikit-learnライブラリを使用した。ニューラルネットワーク解析にも、PythonベースのTensorFlowライブラリを使用した。他の解析は、Anaconda distributionにおいて構築された、カスタムスクリプトで書かれたPython（3.6.2）を使用した。

＜統計解析＞
Kaplan-Meier plotsはR (survival package)を使用して作成し、Python (lifelines package)を使用してバリデーションを行った。各遺伝子の低発現群と高発現群を分けるカットオフ値には中央値を使用した。本実施例において、低発現を上付文字 “low”、高発現を上付文字 “high”で表すことがある。分子予測スコア[molecular prognostic score (mPS)]のバリデーションは、特に断りのない限り、10年後まででデータを打ち切った。図８eに示すmeta-analysisを除き、いずれの場合も、生存期間は、診断日から死亡日までとした。生存率の比較はLog-rank検定で行った。meta-analysis は、R survival package を使用し、Cox回帰を用いたハザード比（HR）とその95％信頼区間（CIs）を推定した。
有意差の有無は、ディスカバリコホート（図８）を除いて両側検定のp値0.05で決定され、候補遺伝子数を減らすためのカットオフは0.01とした。

＜判別器生成ステップ＞
図７に、複数のコホートから、がんの予後を予測するための判別器を生成するまでの概要を示す。

判別器の生成方法は、大きく分けて以下の５つのステップを含む。
ステップ１：候補遺伝子の抽出
ステップ２：候補遺伝子の検証
ステップ３：機械学習による特徴量抽出
ステップ４：深層学習による判別器の構築
ステップ５：判別器の検証
各ステップについて説明する。

１．ステップ１
ステップ１では、TCGAコホートをダウンロードし、このRNAのリード数（発現量）に基づいて、乳がん患者における10年後の生存率と関連する遺伝子の候補の探索を行った。このディスカバリコホートの年齢の中央値は、59歳(IQR 49-68)であった。

各遺伝子について、コホートをRNAのリード数の中央値で2つのグループ（低発現群および高発現群）に分けた。そして、全遺伝子について低発現群及び高発現群のKaplan-Meier Plotによる10年間の生存曲線を生成した。

次に、この生存曲線について、Log-rank検定による有意差を求め、p値に基づいて生存率の不良と関連する可能性のある候補遺伝子を抽出した。その結果、286遺伝子が候補として抽出された。候補の遺伝子の例として、図８のａ、ｂ、ｃ及びｄにそれぞれPGK1、TMEM65、BEND5、及びENOSF1のKaplan-Meier Plotを示す。PGK1、及びTMEM65は、低発現群よりも高発現群において乳がんの生存率が悪かった例である。BEND5、及びENOSF1は、高発現群よりも低発現群において乳がんの生存率が悪かった例である。図８のa、b、c及びdにおいて符号Hは高発現群を、符号Lは低発現群を示す。

２．ステップ２
ステップ２では、Log-rank検定によりピックアップされた286遺伝子について、バリデーションコホートとして、multicenterコホートを使用してmeta-analysisによるバリデーションを行い、184遺伝子をさらに候補遺伝子として抽出した（図８ｅ）。抽出された遺伝子の中で、TMEM65、及び RILPL2は、multicenterコホートの中で、それぞれの発現量が最も高いHR（図９−１ａ）と、最も低いHR（図９−１ｂ）を示し、乳がんの予後と最も関連性が強いと考えられる遺伝子であった。これらの遺伝子は、これまで、基礎的ながん研究でも臨床的ながん研究でも取り上げられていない遺伝子であった。

次に乳がんの予後と関連性が強いと考えられる遺伝子の組み合わせは、TCGA コホートの中で244名に認められたTMEM65^highかつDCTPP1^highであった。この組み合わせの発現パターンを有するコホートでは、生存率が不良であった（図９−２ｃ：HR=2.971）。

また、TCGA コホートの中で272名に認められたUBA7^lowかつENOSF1^lowの組み合わせの発現パターンを有するコホートも、生存率が不良であった（図９−２ｄ：HR=3.109）。他の遺伝子のHR は、図１０−１〜図１０−４に示す。

３．ステップ３
ステップ３では、ランダムフォレストにより、ステップ２で抽出された184遺伝子について特徴量抽出を行い、さらに乳がんの生存率と関連性の高い遺伝子を抽出した。訓練データとして、METABRIC コホートからランダムに抽出したn=952のコホートを使用した。ランダムフォレストによって得られた結果をクロスバリデーションにより検証した。このようにして、乳がんの10年後の生存率を予測するための予測遺伝子として、図１１−１ａに示す23遺伝子を選別した。23遺伝子のうちの13遺伝子は、発現が中央値より高い場合に予後が不良となる可能性があり、10遺伝子は、発現が中央値より低い場合に予後が不良となる可能性がある。

４．ステップ４
ステップ４では、ニューラルネットワークを使って、ステップ３で抽出された23遺伝子の重みを算出した。訓練データとして、ステップ３でも使用した、METABRIC コホートからランダムに抽出したn=952のコホートを使用した。前記訓練データを使ったニューラルネットワークによる深層学習により、各遺伝子の交差エントロピーによる損失関数を規定し、各遺伝子の重み“Gene_Weight”を勾配降下法により算出した[図１２: Kourou, K., et al.Computational and structural biotechnology journal 13, 8-17,doi:10.1016/j.csbj.2014.11.005 (2015)]。

図１１−１ａに示す23遺伝子の発現量を予後と結びつけスコアリングするために “Gene Score”を設定した。具体的には、発現が中央値より高い場合に予後が不良となる可能性がある遺伝子に関しては、患者の乳がん組織における各遺伝子の発現が中央値より高い場合に“Gene_Score”として“１”が付与され、患者の乳がん組織における各遺伝子の発現が中央値より低い場合に“Gene_Score”として“0”が付与される。発現が中央値より低い場合に予後が不良となる可能性がある遺伝子に関しては、患者の乳がん組織における各遺伝子の発現が中央値より低い場合に“Gene_Score”として“１”が付与され、患者の乳がん組織における各遺伝子の発現が中央値より高い場合に“Gene_Score”として“0”が付与される。

次に、図１１−１ａに示す23遺伝子の発現量に基づいて各患者の乳がんの予後をスコアリングするための判別器を構築した。本明細書において、前記判別器を使用したスコアを分子予後予測スコア(molecular prognostic score：mPS)と呼ぶ。

判別器は、各患者の乳がん組織における図１１-1aに示す23遺伝子の“Gene_Score”の重み付け和とした。すなわち、下式で表される。

（式中、wは“Gene_Weight”を表し、GSは、“Gene_Score”を示し、nは23であり、iは各遺伝子を示し、wi*GSiは各バイオマーカーの重みとスコアの積を表す。23は、図１１−１ａに示す23遺伝子を示す。）

この重み付け和において、mPSが０〜50の範囲に入るように“Gene_Weight”を設定した（図１１−１ａ）。図１１−２ｂに、METABRICコホートにおけるmPSの分布を示す。mPSの平均は24.973であり、四分位範囲は15.915-34.030であり、標準偏差は、11.297であった。

＜判別器の検証＞
図１１−２ｃに、乳がんのステージ分類と、mPS＝0〜50までの範囲を６段階で分位した各分位におけるコホートの分布を示す。分位は第１分位がmPS＝0〜５（以下、図面において符号「1st」で表す）、第2分位がmPS＝5〜11（以下、図面において符号「2nd」で表す）、第3分位がmPS＝11〜25（以下、図面において符号「3rd」で表す）、第4分位がmPS＝25〜36（以下、図面において符号「4th」で表す）、第５分位がmPS＝36〜45（以下、図面において符号「5th」で表す）、第６分位がmPS＝45〜50（以下、図面において符号「6th」で表す）である。また、図１１−２ｃにおいて、符号S1は乳がんステージIを、符号S2は乳がんステージIIを、符号S3は乳がんステージIIIを示す。
図１１−２ｃに示すように、mPSは、臨床ステージと良好な相関を示した。

図１１−３ｄにMETABRICコホートのmPSの第１分位から第6分位の各分位に属するコホートの生存率を示す。また、図１１−３ｅにTCGAコホートのmPSの第１分位から第6分位の各分位に属するコホートの生存率を示す。どちらのコホートにおいても、mPSは生存率を層別化することが可能であった。mPSは、臨床的な情報がなくても乳がんコホートを生存率で層別化できることが示された。また、コホート種別を問わずコホートを層別化できたことから、前記判別器は、汎化性能が高いことが示された。

また、数３に示す判別器は、全て公知データベースの情報を用いて生成していることから、データベースが存在しているがんであれば今回と同様の方法により、判別器を生成できると考えられた。

ＩＩ．mPS適用可能性の評価
前記判別器（数３）が、どのような乳がんのサブセットに適用可能であるか検証するため、以下の検討を行った。

乳がんは、PAM50内因性サブタイプに基づいてLuminal A (LumA)、Luminal B(LumB)、HER2-enriched, Claudin-low, Normal-like, and Basal-likeのサブタイプに分類される。そこで、乳がんの各サブタイプで分類されたコホートの各群において、前記判別器が生存率でコホートを層別化できるか検討した。その結果を図１３-1a: METABRICコホート・HER2-enriched (n=220)、図１３−１ｂ: METABRICコホート・Claudin-low (n=199)、図１３−２ｃ: METABRICコホート・Normal-like (n=140)に示す。HER2-enriched、Claudin-low、及びNormal-like においても、mPSは生存率と良好な相関を示した。このことから、前記判別器は、様々な乳がんのサブタイプに適用できる可能性が示された。

また、乳がんの治療において、閉経前の、例えば50歳未満のコホートに対する治療選択と、高齢、例えば70歳を超えるコホートに対する治療選択とが異なる場合がある。そこでコホートを年齢層で分類し、前記判別器が生存率でコホートを層別化できるかMETABRICコホートを用いて検討した。図１３−２ｄ：METABRICコホート・< 50 years old、図１４ａ：METABRICコホート・50s and 60s、図１４ｂ : METABRICコホート・older than 70 yearsに示すように、50歳未満のコホート、50歳代及び60歳代のコホート、及び高齢（70歳以上）のコホートにおいてもmPSは生存率と相関を示した。また、さらに、50歳未満のコホートについては、20年後の生存率についても追跡し、前記判別器が生存率でコホートを層別化できるか検討した。図１４ｃ: METABRIC,younger than 50 years (n=411)に示すように、mPSが高値のコホートでは、20年後の生存率においてmPSが低値のコホートよりも予後が不良であることが示された。このことから、前記判別器は、様々な年齢層において、またフォローアップ期間を長くしても、コホートを正確に層別化できることが示された。

組織学的な乳がんのサブタイプの分類において、ほとんどの乳がん組織は、浸潤性腺管がん(invasive ductal carcinoma:IDC)に分類される。図１５ａ: METABRIC, IDC (n=1,500)に示すように浸潤性腺管がんのコホートにおいてもmPSは生存率と良好な相関を示した。２番目に頻度が高い組織学的な乳がんのサブタイプは、浸潤性小葉がん(invasive lobular carcinoma:ILC)及びIDCとILCが混合したMDLCである。そして、ILC及びMDLCは、病理組織学的には、IDCと全く異なる。そこでこれらのサブタイプのコホートについても前記判別器の適用可能性を検討した。図１３−３ｅ: METABRIC, ILC (n=141)及び図１５ｂ: METABRIC, MDLC (n=87)に示すように、ILCコホート及びMDLCコホートにおいても、mPSは生存率と良好な相関を示した。このことから、前記判別器は、様々な乳がんの病理組織学的なサブタイプに適用できる可能性が示された。

乳がんの組織学的なサブタイプは、組織所見から診断される悪性度によっても分類される。悪性度は、がん組織を構成する細胞の分化度に応じて、G1（Gread 1：高分化型）、G2（Gread 2：中分化型）、及びG3（Grade 3：低分化型）の３つのグレードに分類される。そこで、これらのグレードに応じてコホートを分類し、分類後の各グレードのコホートについて、mPSと生存率の相関を検討した。その結果を、図１５−２ｃ: METABRIC, Grade 1 (n=165)、図１３−３ｆ: METABRIC, Grade 2 (n=740)及び図１５−２ｄ: METABRIC, Grade 3 (n=927)に示す。mPSは、いずれのグレードにおいても、生存率とよく相関していた。このことから、前記判別器は、様々なグレードの乳がんに適用できる可能性が示された。

一般的にがんの進行度（ステージ）を示す分類には、乳がんに限らずTNM分類が適用される。しかし、TNM分類は上述した様々ながんのサブタイプに関わらずがんの進行度を組織学的所見やリンパ節への転移等の情報から分類する手法である。TNM分類は、学術的に決定された手法により、乳がん組織をステージＩ〜ＶＩに分類する。例えば、TNM分類において進行度が最も軽いとされるステージＩの患者であっても、上述した各サブタイプとは独立して、TNM分類の基準に基づいて進行度が判断されるため、グレードがん組織の悪性度とは異なる結果になる可能性もある。
そこで、TNM分類とmPSがどのような関係になるか検討した。

METABRICコホートにおいて、ステージＩに分類されたコホートはn=475であり、ステージＩに属する患者において、生存率10年を超えた各患者において、mPSは、約90％にあたる患者が11未満（10年後の生存率が良好）を示した。しかし、残る患者については、TNM分類ではステージＩと分類されるにもかかわらずmPSが25を超え、10年後の生存率が低いという結果となった[図１７−１ａ: METABRIC, Stage I]。

METABRICコホートにおいて、ステージIIに分類されたコホートはn=800であり、ステージIIに属する患者において、mPSが５を下回った患者は非常に良好な生存率を示した。一方で、mPSが45を上回った患者において生存率は不良となった [図１７-1b: METABRIC, Stage II]。

METABRICコホートにおいて、ステージIIIに分類されたコホートはn=115であり、ステージIIIに属する患者において、mPSが25を下回った患者は比較的良好な生存率を示した。一方で、mPSが25を上回った患者は、生存率は不良となった [図１７−２ｃ: METABRIC, Stage III]。

TCGAコホートについても同様に検討した。TCGAコホートのステージIIに分類されたコホートはn=545であり、METABRICコホートと同様の傾向を示した[図１７−２ｄ: TCGA, Stage II]。

TCGAコホートについて、ステージI-IIIを全て含むコホートをmPSで3つに分位（第１分位：mPS 0-11、第２分位：mPS 11-36、及び第３分位：mPS 36-50）し、各ステージとの関係を検討した。図１７−３ｅ: TCGA, Stage I-III に示すように、ステージが上がるに従いmPSも上がり、生存率も不良となることが示された。
したがって、mPSは、ステージとも相関を示すことが証明された。

次に、乳がんの予後予測因子であるNottingham Prognostic Index（NPI）とmPSとの関係を検証した。NPIは、原発腫瘍の大きさ、関与するリンパ節の数および腫瘍のグレードに基づいて計算される。METABRICコホートをNPIの5つのグループ[Excellent (NPI <2.41)、Good (2.41-3.4)、Moderate I (3.41-4.4)、Moderate II (4.41-5.4)、Poor(NPI>5.4)]に分類し、mPSとの関係を検討した。その結果、NPIは生存率においてヘテロジーナス（不均一）な群分けであることが明らかとなった。NPIのModerate II に分類されたコホートを図１７−３ｆに示すが、Moderate II (n=408)だけみても、mPSは様々であり、生存率も様々であった。他のグループの結果を図１６−１ａ: METABRIC, Excellent、図１６−１ｂ: METABRIC, Good、図１６−２ｃ: METABRIC, Moderate I及び図１６−２ｄ: METABRIC, Poorに示す。

最後に、mPSに基づいて、新たなintegrated score（統合スコア）による乳がんの臨床ステージクラス分類を作成した。図１８ａに、がんの臨床ステージI〜IVをmPSの第１分位（mPS 0−5）〜第６分位（mPS 45−50）に基づき、A、B、C、D、E、F-I、及びF-IIの7つのクラスに分けた結果を示す。mPSの第１分位〜第６分位の分布は、臨床ステージクラス分類と非常によく一致していた。また、図１８ｂにTCGAコホートとMETABRICコホートを合わせたn=2340のコホートにおける生存率を示す。臨床ステージクラス分類は、生存率とも良好な相関を示していた。

以上のことから、mPSは、がん患者の所定期間内及び所定期間後の生存率を正確に反映していると結論づけられた。

さらに、mPSは、integrated scoreによるがんの臨床ステージクラス分類、臨床ステージ、病理学的グレードとも良好な相関を示したことから、汎化性能も備えていることが示された。

Claims

被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第１の亜集団として抽出する工程１と、
第１の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第２の亜集団として抽出する工程２と、
第２の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程３と、
を含む、判別器の生成方法であって、
前記判別器は、第２の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程３で算出された各バイオマーカーの重みを用いて、第２の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、
前記判別器の生成方法。
被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第１の亜集団として抽出する工程Ａと、
第１の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第２の亜集団として抽出する工程Ｂと、
第２の亜集団に属するバイオマーカーから、機械学習法により、前記体に生じるイベントとの関連性がさらに強いと統計学的に予測されるバイオマーカー群を第３の亜集団として抽出する工程Ｃと、
第３の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程Ｄと、
を含む、判別器の生成方法であって、
前記判別器は、第３の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程Ｄで算出された各バイオマーカーの重みを用いて、第３の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、
前記判別器の生成方法。
前記機械学習法がランダムフォレストである、請求項１又は２に記載の判別器の生成方法。
前記深層学習法が勾配降下法である、請求項１〜３のいずれか一項に記載の判別器の生成方法。
前記検証がメタアナリシスである、請求項１〜４のいずれか一項に記載の判別器の生成方法。
前記体に生じるイベントが患者における所定期間内、又は所定期間後の生存率である、請求項１〜５のいずれか一項に記載の判別器の生成方法。
前記患者が罹患している疾患ががんである、請求項６に記載の判別器の生成方法。
前記バイオマーカーが遺伝子であり、前記バイオマーカーの測定値が、遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量である、請求項１〜７のいずれか一項に記載の判別器の生成方法。
処理部を備え、前記処理部が、請求項１〜８のいずれか一項に記載の判別器の生成方法を実行する、判別器生成装置。
請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を、患者の所定期間内、又は所定期間後の生存率の予測のために使用する、使用方法。
前記患者ががん患者である、請求項１０に記載の使用方法。
がんが乳がんである、請求項１１に記載の使用方法。
患者について、請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値以下であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。
患者について、請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値よりも大きいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。
患者について、請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値以上であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。
患者について、請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値よりも小さいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。
前記患者ががん患者である、請求項１３〜１６のいずれか一項に記載の予測方法。
がんが乳がんである、請求項１７に記載の予測方法。
判別器を生成する際に第２の亜集団として抽出されるバイオマーカーが、下記表１−１、及び表１−２に示される遺伝子を含み、前記バイオマーカーの測定値が遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量である、請求項１８に記載の予測方法；
。
判別器を生成する際に第３の亜集団として抽出されるバイオマーカーが、ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３を含み、前記バイオマーカーの測定値が遺伝子に由来するｍＲＮＡ、又はタンパク質の発現量である、請求項１８に記載の予測方法。
処理部を備え、前記処理部が、請求項１３〜２０のいずれか一項に記載の予測方法を実行するための、患者の生存率予測装置。
患者について、請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を、対応する基準範囲と比較する工程と、
前記患者の重み付け和が属する基準範囲の分位を決定する工程と、
を含む、患者を生存率に応じて層別化することを補助する方法。
前記患者ががん患者である、請求項２２に記載の方法。
前記基準範囲が、がんの臨床ステージクラス分類、がんの組織型、臨床ステージ毎、病理組織グレード毎、又は年齢層毎のカテゴリーに応じて決定されており、
前記方法が、さらに、前記カテゴリーに応じて、被検体のがんの臨床ステージクラス分類、がんの組織型、臨床ステージ、病理組織グレード、及び年齢層の情報を取得する工程を含む、請求項２２又は２３に記載の方法。
下記表２−１、及び表２−２に示される遺伝子から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用；

。
ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３よりなる遺伝子群から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用。
下記表３−１、及び表３−２に示される遺伝子から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）に由来するｍＲＮＡ、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬；

。
ＦＯＸＭ１、ＣＰＴ１Ａ、ＧＡＲＳ、ＭＡＲＳ、ＵＴＰ２３、ＡＮＬＮ、ＨＭＧＢ３、ＡＴＰ５Ｂ、ＡＰＯＯＬ、ＣＹＢ５６１、ＧＲＨＬ２、ＥＳＲＰ１、ＥＺＲ、ＲＢＢＰ８、ＣＩＲＢＰ、ＰＴＧＥＲ３、ＬＡＭＡ３、ＯＡＲＤ１、ＡＮＫＲＤ２９、ＥＧＲ３、ＤＩＲＡＳ３、ＭＩＴＤ１及びＬＡＭＢ３よりなる遺伝子群から選択される少なくとも一種（ただし、ＡＮＬＮ、ＦＯＸＭ１、ＲＢＢＰ８又はこれらの遺伝子の組み合わせのみの態様は含まない）に由来するｍＲＮＡ、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬。
請求項１〜８のいずれか一項に記載の判別器の生成方法により生成された判別器。
請求項２９に記載の判別器を記憶した記憶媒体。
コンピュータに実行させたときに、請求項１〜８のいずれか一項に記載の判別器の生成方法を実行する、判別器を生成するためのコンピュータプログラム。
コンピュータに実行させたときに、請求項１３〜２０のいずれか一項に記載の予測方法を実行する、患者の生存率を予測するためのコンピュータプログラム。