下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测
方法及预测系统
技术领域
以下说明书的技术是涉及利用基因表达数据来对乳腺癌预后进行预测的方法。
背景技术
用于对肿瘤的预后进行预测的多种研究在不断进行。例如,乳腺癌(breastcancer)领域中,在开发通过基因分析来对乳腺癌预后进行预测的技术。代表性地作为乳腺癌预后预测工具的标准所使用的Oncotype DX、Mammaprint等均为基于RT-PCR(Real-timePCR)的检查。
发明内容
要解决的技术问题
基于RT-PCR的检查在费用及效率方面存在无法同时分析多个基因的极限。以下说明的技术提供一种能够通过下一代测序(next-generation sequencing,简称为NGS)方法来分析基因表达量而对乳腺癌预后进行推定的方法。
用于解决技术问题的手段
下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测方法包括:由计算机装置利用受试者组织(tissue)的RNA测序数据来测定靶基因的表达量;由所述计算机装置向预先设定的人工神经网络(Artificial Neural Network)输入所述靶基因的表达量;及由所述计算机装置基于所述人工神经网络的输出值来对所述受试者推定乳腺癌预后。
下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测系统包括:客户端装置,存储受试者组织(tissue)的RNA基因数据;及分析服务器,利用基于NGS(next-generation sequencing)对所述基因数据执行测序而得到的RNA测序数据,来测定靶基因的表达量,并基于向预先设定的人工神经网络(neural network)输入所述靶基因的表达量而输出的输出值,来推定所述受试者的乳腺癌预后。
所述人工神经网络预先设定为,将多个样品的靶基因表达量作为输入值,输出基于所述多个样品的致癌类型(Oncotype DX)的复发分数(recurrence score)的结果。
技术效果
以下说明的技术利用NGS方法,与基于RT-PCR的方法相比,能够以低成本且快速地对靶基因序列进行分析。以下说明的技术利用以靶基因的表达量和Oncotype DX的复发分数(recurrence score)进行学的机器学习(machine learning)模型,能够进行快速且准确的乳腺癌预后预测。
附图说明
图1是下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测方法的流程图的一例。
图2是靶基因的一例。
图3是基于NGS的靶基因的数据质量的一例。
图4是利用了规定靶外显子区域的基因表达数据的一例。
图5是检验利用了规定靶外显子区域的方式的稳定性的一例。
图6是将RNA序列数据归一化的过程的一例。
图7是机器学习的人工神经网络构成的一例。
图8是下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测系统的一例。
具体实施方式
以下说明的技术是涉及利用基因表达数据来对乳腺癌预后进行预测的方法。作为对乳腺癌预后进行预测的工具,使用机器学习模型。机器学习模型利用基因表达量及致癌类型DX(以下,称为“Oncotype DX”)的复发分数(recurrence score,以下称为“RS”)来进行学习。首先,对Oncotype DX,简略地进行说明。
Oncotype DX是由美国Genomic Health公司开发的分析工具。Oncotype DX作为一种检查:在乳腺癌组织中,对21个不同基因的活性进行测定并分析,而得知乳腺癌复发的可能性及化疗效果的有效性。Oncotype DX基于16个基因和5个参考(reference)基因来计算RS。计算RS的数学式如下。
RS=+0.47×HER2Group Score-0.34×ER(Estrogen)Group Score+1.04×Proliferation Group Score+0.10×Invasion Group Score+0.05×CD68-0.08×GSTM1-0.07×BAG1
其中,各项表示基于功能而区分的基因组。HER2Group(2个基因)、ER Group(4个基因)、Proliferation Group(5个基因)及Invasion Group(2个基因)包含多个基因。CD68、GSTM1及BAG1分别为一个单独基因。RS分数具有0~100分的范围的值。例如,在RS分数低的情况下,复发率低且化疗的效果低的可能性较高。相反,在RS分数高的情况下,复发率高且化疗比较有效的可能性较高。
如上所述,Oncotype DX基于RT-PCR来检测基因活性,但以下说明的技术使用NGS方法。以下说明的技术基于NGS方法来对RNA进行测序并确定基因表达量。对于NGS方法,也简略地进行说明。.
NGS技术具有同时执行几十万个反应的多路复用(multiplexing)能力,以少量的样品也能够进行测序。NGS根据商用化的技术而其具体应用方法多少有些不同,但一般使用作用机制与克隆扩增(clonal amplification)、大规模平行测序及Sanger方法不同的新的碱基序列决定法。对商用化的技术,简略地进行介绍。Roche公司于2007年对454Cooperation公司推出了454GS改进型FLX model sequencer。Illumina公司于2006年推出了Genome Analyzer HiSeq,Applied Biosystems公司于2007年依次推出了SOLiD。三种平台均放弃了复杂的文库构件及克隆过程而选择了克隆扩增技术,采用了一次能够进行大量处理的大规模平行测序方式(massively parallel sequencing)技术,以通过循环测序(cyclic sequencing)的合成信号读取(sequencing by synthesis)来确定碱基序列,从而排除了复杂的电泳过程。另外,采用如下算法:由计算机将利用shotgun方式读取的短接头(read)进行排列而找出重复的部分来完成整体。
以下说明的技术对于在规定组织(乳房组织)中提取的样品,基于基因表达量(RNA表达量)来对乳腺癌预后进行预测。以下,先说明从规定组织准备样品并提取RNA的过程的一例。
选定乳腺癌患者对象及准备检查组织
1)选定激素受体为良性且淋巴结转移为阴性的1-2期乳腺癌的手术组织中代表性的福尔马林固定石蜡包埋(formalin-fixed paraffin-embedded,FFPE)块。
-由病理学专家确认H&E染色载玻片后选定块。此时,需要选择作为对象的肿瘤确实存在的块,且尽可能优选为在一截面内的肿瘤的面积最大,肿瘤组织内的坏死部分较少或不存在。
2)准备10张10μm厚度的非染色载玻片。
从FFPE组织提取RNA的实验方法(protocol)
1)RNA提取试剂盒:可以使用以下商用化的两种试剂盒中的一种。
①Ambion RecoverAllTM Total Nucleic Acid Isolation Kit for FFPE
②QIAGEN RNeasy FFPE Kit
2)准备洗涤(Wash)液
-Wash1中混合42mL的100%乙醇->Wash1
-Wash2/3中混合48mL的100%乙醇->Wash2/3
3)脱蜡(准备:组织、100%的二甲苯、100%的乙醇、50℃的加热块、吸管、涡旋搅拌器、离心机)
①准备组织:准备4~8张从石蜡块切下的10um厚度的石蜡切片,共计40~80um。此时,若切片内的肿瘤的尺寸小于40mm2,8张切片可全部使用。注意尽可能仅保留切片中肿瘤部分而准备切片并浸泡于1.5mL的管中。
②将1mL的100%的二甲苯加入到组织,并利用涡旋搅拌器进行短暂的离心分离。之后在50℃下放置3分钟,而使石蜡溶解(如果未溶解,则反复进行该过程)。
③以最大速度进行2分钟的离心分离而形成为团。如果形成得不牢固,则追加2分钟的离心分离。在不损坏团的状态下去除二甲苯。
④清洗二甲苯
a.将1mL的100%的乙醇加入到试料并利用涡旋搅拌器进行搅拌(变得浑浊)。
b.在常温下以最大速度进行1分钟的离心分离而形成为团。
c.在不损坏团的情况下去除乙醇。
d.重复一遍a-c过程。
e.在进行短暂的离心分离后尽可能不触碰团并最大限度地去除剩余的乙醇。
⑤在常温下进行15~45分钟的干燥。
4)分解蛋白质(准备:50℃&80℃的加热块、蛋白酶(Protease)从冷冻室放置于常温进行解冻)
①Digestion Buffer 200μl和Protease 4μl加入到各试料。此时,轻微摇晃使得充分混合。
②将试料在50℃(protease活化温度)的加热块中放置15分钟以上,直至变得完全透明。
③之后,在80℃(protease非活化温度)的加热块中放置15分钟。此时准确把握时间。
④如果未解冻,则仅追加4μl的protease并反复执行上述过程(②&③)。
5)核酸分离(准备:Isolation Additive/乙醇混合物、其他全部试剂)
①制备隔离添加剂(Isolation Additive)/乙醇混合物
-Isolation Additive240μl+100%的乙醇500μl=共790μl
-制备后保存于50mL的管。
(以多个试料为对象时,比规定数量多准备5%。)
②将制备的Isolation Additive/乙醇混合物以790μl分注于装有各试料的管中,并利用吸管进行搅拌。
③混合物过滤
a.将滤芯置于从试剂盒提供的管中。
b.在2过程中制成的700μl的混合物放置于过滤器上并盖上盖。
c.在10,000rpm下进行30秒的离心分离。
d.废弃过滤出的溶液,并将过滤器置于相同的管中。
e.根据需要(混合物未充分过滤的情况),再执行一次离心分离而使过滤器过滤混合物。
④Wash 1
a.将700μl的Wash 1置于滤芯。
b.在10,000rpm下进行30秒的离心分离。
c.废弃过滤出的溶液并将过滤器置于相同的管中。
⑤Wash 2/3
a.将500μl的Wash 1置于滤芯。
b.在10,000rpm下进行30秒的离心分离。
c.废弃过滤出的溶液并将过滤器置于相同的管中。
d.以10,000rpm再进行一次离心分离而去除剩余的溶液。
6)RNA分离及提纯(准备:DNase(DNA降解酶)和Nuclease(核酸降解酶)从冷冻室拿出而使其解冻)
①RNA分离
a.DNase混合物的制备:10X DNase Buffer 6μl+DNase 4μl+Nuclease freewater 50μl=共计60μl
b.将60μl的DNase混合物置于各个滤芯中央。
c.盖上盖并在22-25℃的常温下放置30分钟。
②Wash 1
a.将700μl的Wash 1置于滤芯,并在常温下放置30-60秒。
b.在10,000rpm下进行30秒的离心分离。
c.废弃过滤出的溶液并将过滤器置于相同的管中。
③Wash 2/3
a.将500μl的Wash 2/3置于滤芯。
b.在10,000rpm下进行30秒的离心分离。
c.废弃过滤出的溶液并将过滤器置于相同的管中。
d.再反复进行一次a-c。
e.在10,000rpm下进行1分钟的离心分离。
④Elution solution追加及保存
a.将滤芯置于新的管中。
b.将60μl的Elution Solution置于过滤器的中央。
c.盖上盖并放置1分钟。
d.以最大速度进行1分钟的离心分离之后,去除过滤器,并将过滤出的溶液在-20℃以下进行保存。
以下,说明利用从样品组织提取的RNA来对乳腺癌预后进行预测的过程。图1是下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测方法的流程图的一例。首先,步骤110,执行对RNA样品的测序。可通过多种方式来执行RNA测序。可使用多种商用试剂盒(kit)及商用液来对RNA进行测序。举一例进行说明。
靶RNA测序(TargetedRNA-sequencing)
1)使用KAPA Stranded RNA-Seq kit with RiboErase(KK8483,KAPABIOSYSTEMS)试剂盒,从全体RNA中去除核糖体(ribosomal)RNA。
2)从mRNA制备cDNA,并通过追加的过程而生成cDNA NGS文库(Library)。利用cDNALibrary及Hybridization solution、Target Capture Probe,执行液态混合化基因捕获方法(Solution-based hybridization capture)。
3)对所获得的产物进行一部分扩增而执行文库扩增(Library amplification)。
4)能够基于对最终产品进行测序(使用Illumina公司的试剂盒)而生成的靶区域的测序深度(depth)数据,来对RNA的表达量进行预测。
若执行基于NGS的RNA测序,则在商用程序(program)中将RNA序列生成为一定的数字数据。另外,商用程序能够利用测序结果而算出各RNA基因的表达量。因此,分析RNA样品的过程及分析结果由计算机装置执行。因此,以下以计算机装置执行利用了RNA表达量的乳腺癌预后预测为前提。步骤120,计算机装置生成样品RNA的表达量数据。
另一方面,不对样品RNA的全体基因执行分析,而是筛选与乳腺癌预后存在关联性的基因(以下,称为“靶基因”)并执行分析。为了确定靶基因,利用了公开的基因数据。利用了雌激素(Estrogen)受体为良性且淋巴结未转移的受试者的基因数据。利用的公开数据为GSE2034、GSE2990、GSE3494、GSE4922、GSE6532、GSE7390及GSE12093。
基于公开数据,分析了各基因与Oncotype DX RS(复发分数)的相关关系(correlation)。利用了作为代表性的相关关系分析方法的皮尔森(Pearson)和斯皮尔曼(Spearman)方法。在各公开数据中筛选了与Oncotype DX RS(复发分数)的相关系数在平均0.5以上的基因。如下表所示,筛选了共计135个基因。
【表1】
另外,额外地追加筛选了用于Oncotype DX RS计算的16个基因。其结果是,靶基因利用了149个基因。当然,实验上,靶基因也可以选择其他的基因组合。但是,靶基因确定为与Oncotype DX RS的相关度较大的基因。
图2是靶基因的一例。图2表示共计149个基因。在图2中用阴影表示的基因是与调节细胞分裂的细胞周期(Cell Cycle)相关的基因。在图2中用实线圆形表示的基因是与关于p53信号通路调节细胞分离的细胞周期相关的基因。在图2中用虚线圆形表示的基因是调节DNA复制过程的基因。在图2中用实线方形表示的基因是关于Cell cycle及p53signalingpathway的基因。在图2中用虚线方形表示的基因是关于Cell cycle及DNA复制的基因。
如上所述,计算机装置基于NGS来测定靶基因的表达量。图3是基于NGS的靶基因的数据质量的一例。图3是表示靶RNA测序的数据的质量的图表的一例。为了检验数据质量,确认了所测定的基因表达量值与通过全体-转录物测序测定的值之间的偏差。以共84个面(panel)基因为对象,对10个RNA样品,利用目标测序和全体-转录物测序而分别算出表达量,并测定了皮尔森相关系数。其结果是,确认了0.85以上的较高的相关关系。因此,由于靶RNA测序和全体-转录物RNA测序结果示出了较高的相关关系,因此可以解释为在实验中使用的靶RNA测序的结果具有与全体-转录物RNA测序类似程度的数据质量。
可以不对样品算出全体基因表达量,而使用在各样品中共通表达的规定外显子(exon)部位。在该情况下,能够较快地执行基因表达量运算过程。即,利用对于样品共通守恒外显子(conserved exon)面(以下,称为“CE方式”)。
图4是利用了规定靶外显子区域的基因表达数据的一例。图4表示多个样品(A至D)的基因外显子的表达状态。确定对多个样品共通表达的区域(靶区域),从而基于相应区域来可以确定基因表达量。利用基因全体区域的方式(以下,称为“WG方式”)未考虑每个人的基因亚型转录物表达量差异,因此各患者的亚型转录物表达比率差异导致了基因表达量测定可能产生偏差。CE方式由于仅使用亚型转录物所共有的区域,因此不会产生在WG方式中产生的测定偏差,能够相对稳定地测定表达量。稳定性是指在反复测定时测定值发生变化的程度。
进一步,利用样品数据来检验CE方式的稳定性。图5是检验利用了规定靶外显子区域的方式的稳定性的一例。图5(A)是说明用于检验CE方式的稳定性的过程的一例。重复(Replicate)数据是对单一样品反复测定所得到的值。因此,反复测定的数据之间的误差相当于测定误差。对从肿瘤细胞系提取的9个RNA样品各执行两次反复实验,生成共18个目标RNA样品测序数据(靶RNA测序I及靶RNA测序II)。图5(B)是表示WG方式的测定值与CE方式的测定值之间的稳定性的实验结果。共9个样品中8个样品示出,比较重复数据时CE方式比WG方式更稳定(皮尔森系数更高)。CE方式的9个样品的平均皮尔森系数也比WG方式高,样品间的标准偏差也小。因此,解释为CE方式比WG方式更稳定。
返回对图1的说明,步骤130,计算机装置可以对所生成的靶基因的表达量数据进行一定的后处理及归一化。首先,说明可应用的后处理过程的一例。后处理及归一化相当于对数字数据(文件)进行一定的处理的过程。
Targeted RNA-sequencing结果后处理
1)去除接头(read)
去除不满足接头质量基准的接头(例如,处理成平均质量为20以上、平均质量为2以下且碱基(base)小于5%)。
利用Trimmomatic(0.33)程序去除在测序过程中插入的索引序列。
2)将测序的接头与参考基因组整齐排列(Align sequenced reads to thereference genome)
利用STAR aligner程序,寻找以测序的接头的参考基因组(hg19)为基准的位置,赋予Sorted By Coordinate选项(option)而同时整齐排列。
3)基因表达量运算
利用cufflinks程序,从整齐排列的接头信息计算各基因表达量和各转录物表达量。表达量可以以FPKM(Fragments Per Kilobase of exon per Million fragmentsmapped)值来计算。对应各基因计算的表达量可以生成为genes.fpkm_tracking文件,对应各转录物计算的表达量可以生成为isoforms.fpkm_tracking文件。
另一方面,为了准确的序列排列及表达量测定,可以通过分析前处理过程,去除作为测序结果得到的接头中碱基质量差的接头,并去除各接头的末端部可能残留的(测序过程中插入的)索引序列。对于经过了前处理过程的接头,利用STAR程序来确认各接头的参考基因组上的位置。所确认的信息生成为BAM文件格式;对于该BAM文件,可以利用Cufflinks程序来计算各基因及各转录物表达量。
步骤130,计算机装置可以将所生成的数据归一化。
Targeted RNA-sequencing表达信息归一化(normalization)
已知以往归一化方法中的R package edgeR(Robinson et al.Bioinformatics2010)中使用的“M值的修剪均值(Trimmed Mean of M-value,简称为TMM)”方法的稳定性最高。计算机装置可以设计如下传递途径(Pipeline):搭载作为商用包的edgeR package而从所生成的目标RNA测序数据自动地提取归一化的基因表达信息。
利用NGS技术生成的测序数据利用商用排列软件(例如,RNA-STAR)而映射(Mapping)于参考基因。通过映射结果,可以统计从各个基因得出的序列的数量,这是对基因的表达量的直接的推定值。
归一化传递途径接受完成映射(Mapping)而加工成BAM文件形式的数据的输入。映射的数据可以通过内置于传递途径的一系列软件包、即HTseq-count及edgeR而被计算成能够进行样品间比较的归一化的表达量值。
图6是将RNA序列数据归一化的过程的一例。图6是将两个不同样品的数据归一化的过程的一例。首先,样品数据接受表示基因表达量的匹配(Mapping)的数据的输入。计算机装置应用HTseq-count来计算基因表达量。各个样品的文库(library)大小不同(样品1的序列为100,样品2的序列为300)。之后,计算机装置应用edgeR将表达量归一化。图6是基于文库大小为100而将样品的表达量归一化的一例。
步骤140,计算机装置向预先设定的机器学习模型输入基因表达量数据。向机器学习模型输入的基因表达量数据是归一化的数据。机器学习模型是预先利用靶基因的表达量和Oncotype DX RS进行学习的模型。例如,机器学习模型在学习过程中,在Oncotype DX RS为25以上的情况下可以判断为高危(复发可能性高),在Oncotype DX RS小于25的情况下可以判断为低危。
图7是机器学习的人工神经网络构造的一例。图7是机器学习模块中人工神经网络(Artificial Neural Network)的一例。人工神经网络可以利用多个种类中的一种。图7的人工神经网络为全连接构造(fully connected network)。对应每一阶段使用隐藏节点(hidden node)。另外,为了避免对于学习数据的过度拟合(over-fitting),可以对应每一层应用批量归一化(batch normalization)。批量归一化是对于通过层的结果适当强制性地分布激活值的过程。
如在机器学习模型中的说明,人工神经网络也利用多个样品的数据来预先学习。即,利用多个样品的靶基因表达量作为输入值,利用相应靶基因(样品)的Oncotype DX RS而生成人工神经网络模型。
接着,可以向神经网络输入规定受试者的数据而对相应受试者的乳腺癌预后进行预测。向预先学习的人工神经网络输入的值是受试者的靶基因的表达量。人工神经网络的输出值也可以是基于Oncotype DX RS的乳腺癌预后预测结果。作为人工神经网络的输出值,可以输出如规定的分数的定量结果。另外,作为人工神经网络的输出值,也可以直接为高危或低危这样的定性评价结果。
在图7中以人工神经网络为中心进行了说明,但可以利用多种不同的机器学习模型来推定乳腺癌预后。例如,机器学习模型也可以利用如遗传算法、支持向量机、贝叶斯网络等这样的多种方式。
步骤150,计算机装置基于机器学习模型的结果值,对于当前输入的样品(受试者)预测乳腺癌预后。例如,计算机装置的机器学习模型的结果值可以是规定的分数。在该情况下,计算机装置将人工神经网络的输出值与预先设定的基准值进行比较,在输出值为规定值以上的情况下,对于当前样品(受试者),可以判断为高危。相反,在人工神经网络的输出值小于基准值的情况下,计算机装置可以判断为低危。
图8是下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测系统的一例。图8(A)是在网络中实现的系统200的一例。乳腺癌预后预测系统200包括客户端装置210及分析服务器220。而且,乳腺癌预后预测系统200也可以包括模块DB230。分析服务器220相当于上述的计算机装置。
客户端装置210是提供对受试者的数据的装置。客户端装置210向分析服务器220传送受试者的基因表达的数据(基因数据)。客户端装置210所传送的数据可以是表示基因序列的数据。
分析服务器220利用基于NGS(next-generation sequencing)对基因数据执行测序而得到的RNA测序数据,来测定靶基因的表达量;基于向预先设定的机器学习模型输入所述靶基因的表达量而输出的输出值,对所述受试者推定乳腺癌预后。分析服务器220也可以执行上述数据后处理及归一化过程。分析服务器220利用预先设定的机器学习模型。机器学习模型也可以存储于另行的模块DB230。分析服务器220分析数据并对乳腺癌预后进行预测的过程如上所述。
图8(B)是对乳腺癌预后进行预测的计算机装置300的一例。图8(B)所示的计算机装置300可以是上述的分析服务器220。计算机装置300是指如PC、笔记本电脑、智能设备或服务器等这样的装置。计算机装置300包括输入装置310、运算装置320、存储装置330及输出装置340。
输入装置310接受受试者的基因数据的输入。基因数据表示与靶基因的表达相关的数据以及基因序列。输入装置310是通过通信或额外的存储装置而向计算机装置300输入受试者的数据的装置。而且,输入装置310也可以是通过计算机装置300直接接受受试者的临床数据的输入的接口装置(键盘、鼠标、触摸屏等)。
存储装置330是存储上述机器学习模型的装置。存储装置330可以存储从输入装置310接收到的受试者的基因数据。存储装置330可以是安装有分析基因数据而对乳腺癌预后进行预测的软件的装置。
运算装置320对所输入的基因数据测定基因表达量,并将基因表达量输入至机器学习模型,以机器学习模型的输出值为基准来推定受试者的乳腺癌预后。
输出装置340是以一定的形态输出预后信息的装置。输出装置340包含下述装置中的至少一种:显示装置、输出文件的装置、及将预后信息传送给其他装置的通信装置。
另外,如上所述的下一代利用碱基序列分析的基于机器学习的乳腺癌预后预测方法可以由在计算机上可执行的、包括可执行算法的程序(或应用)来实现。所述程序可以存储于非临时性可读介质(non-transitory computer readable medium)。
非临时性可读介质并非指如寄存器注册、缓存、内存存储等这样的短时间内存储数据的介质,而是半永久地存储数据且通过基于机器可以读取(reading)的介质。具体而言,上述的多种应用或程序可以存储于如CD、DVD、硬盘、蓝光光盘、USB、存储卡、ROM等这样的非临时性可读介质而提供。
应当理解,本实施例及本说明书中附加的附图仅用于明确示出上述技术中包含的技术思想的一部分;在上述技术的说明书及附图中包含的技术思想的范围内,本领域技术人员容易导出的变形例和具体实施例均包含于权利范围内。