CN112687330A

CN112687330A - 一种乳腺癌患者携带胚系致病变异的风险预测系统

Info

Publication number: CN112687330A
Application number: CN202011589218.7A
Authority: CN
Inventors: 刘嘉琦; 郑羽; 吴南; 苏建忠; 杨永鑫; 赵恒强; 吴志宏; 范燃; 郑思思; 陈泽根
Original assignee: Beijing Yiqi Technology Co ltd
Current assignee: Beijing Yiqi Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20

Abstract

本发明公开了一种乳腺癌患者携带胚系致病变异的风险预测系统，所述系统嵌入了利用深层神经网络使用乳腺癌患者的临床特征开发出来的评分模型，根据评分模型给出的评分，判断乳腺癌患者携带胚系致病变异的高低。与以前的评估模型相比，本发明的风险预测系统诊断效能高，可适于临床推广。

Description

一种乳腺癌患者携带胚系致病变异的风险预测系统

技术领域

本发明属于医学诊断领域，涉及一种乳腺癌患者携带胚系致病变异的风险预测系统。

背景技术

乳腺癌是目前世界上最常见的女性癌症。大约10％乳腺癌患者携带遗传性(胚系)致病变异，而在目前的临床实践中，所有这些携带者中只有不到10％被鉴定出来。BRCA1/2以及同源重组DNA修复所需的PALB2是遗传性乳腺癌和/或卵巢癌中最常见的突变基因。识别具有胚系致病变异(GPVs，germline pathogenic variants)的乳腺癌患者对于系统治疗策略和降低风险的干预措施非常重要。

长期以来，根据家族病史和临床特征(如发病年龄和肿瘤病理信息)对乳腺癌患者携带致病胚系变异的风险进行了评估。然而，突变状态的预测指标表现不佳。目前，使用它们限制了其在进行遗传癌症风险评估中的临床应用。有几项以胚系基因检测为重点的研究，这些研究按照NCCN标准进行，或者按照美国乳腺外科医师协会(ASBrS)的建议对所有乳腺癌患者进行。两项研究表明，目前的NCCN标准(2019年，v3)会遗漏相当一部分(近一半)的乳腺癌患者，这些患者具有可临床操作的致病变异。因此，2019年圣加伦国际共识指南指出，寻求识别具有较高危险的有害突变患者的基因检测算法可能会遗漏大量具有此类突变的患者。此外，与基于家族史或英国和美国卫生系统临床标准的检测相比，对所有乳腺癌患者的检测证明具有成本效益。最近一项基于医院的研究表明，将NCCN标准扩展到所有被诊断患有≤65岁的乳腺癌的女性，可使9种易感基因的敏感性从70％提高到90％，BRCA1/2的敏感性从87％提高到98％。然而，这种替代选择标准需要对79％的乳腺癌妇女进行检测，并且将特异性从53％降低到22％。妇女健康倡议(WHI)的另一项研究表明，即使在没有早期诊断、年龄或家族史的情况下，绝经后乳腺癌患者中致病胚系变异的患病率也可能高到足以保证检测的程度。

无论是为所有还是胃绝大多数乳癌患者进行检测，基因检测服务数量的增加以及对遗传咨询和管理的需求可能不是现有资源所能轻易满足的。在亚洲国家，这种情况会更加复杂。虽然有许多预测模型可用，但它们在亚洲人群中的适用性尚不确定。迫切需要一种对临床可操作基因中的GPVs进行高精度预测的模型。在阐明疾病的遗传因素和临床表型的分子病因学方面的最新进展为进一步根据遗传病因对人类疾病特征进行细分提供了机会。基因和表型之间精确的相关性将进一步提高分子诊断的特异性以及基因检测和临床基因组的临床应用。人工智能，特别是深度学习算法的进步，已经被用于处理庞大而复杂的基因组数据集，并导致近年来对医学研究和临床应用的兴趣迅速增加。本申请评估了3041名接受多基因检测的中国女性乳腺癌患者的多种癌症类型的家族史。通过深度学习，建立了基于表型的亚洲女性乳腺癌预测模型。

发明内容

为了解决现有技术存在的问题，本发明的目的在于提供一种乳腺癌患者携带胚系致病变异的风险预测系统。

为了实现上述目的，本发明采用如下技术方案：

根据本发明的一个方面，本发明提供了一种乳腺癌患者携带胚系致病变异的风险预测指标，所述指标包括以下指标的组合：年龄、个人癌症史、癌症家族史、病理特征。

进一步，所述年龄包括发病年龄、评估年龄。评估年龄指的是接受风险预测时的年龄。

进一步，所述个人癌症史包括所有癌症史、乳腺癌史、卵巢癌史、双边乳腺癌史。

进一步，所述癌症家族史包括所有癌症家族史、乳腺癌家族史、卵巢癌家族史、胰腺癌家族史、男性乳腺癌家族史。

进一步，病理特征包括肿瘤最大直径、组织学分级、多病灶乳腺癌、AR水平、ER水平、PR水平、Ki67、CK5/6强度、EGFR强度、淋巴结水平、HER2阳性、HER2阴性、P53阴性、P53阳性(大于70％)。

根据本发明的另一个方面，本发明提供了一种评分模型的构建方法，所述方法包括利用深层神经网络使用前面所述的指标开发所述评分模型。

进一步，所述深层神经网络包括1个输入层、2个隐藏层和1个输出层。

在本发明的具体实施方案中，所述输入层包括21个神经元(对应21维特征)。

进一步，所述隐藏层包括Dropout算法和非线性激活函数。优选地，所述非线性激活函数如下所示：h₁＝1.0507*(max(0,z₁)+min(0,1.6733*(exp(z₁)-1)))；

进一步，2个隐藏层分别包括16个神经元(对应16维特征)、8个神经元(对应8维特征)；

进一步，所述输出层包括S型激活函数；

进一步，所述输出层包括2个神经元(对应2维特征)。

具体地，本发明的评分模型的构建方法如下：

利用深层神经网络输入21维特征(对应21维向量x)

首先计算16维中间特征

z₁＝W₁x+b₁

加入非线性变换函数

h₁＝1.0507*(max(0,z₁)+min(0,1.6733*(exp(z₁)-1)))

然后计算8维中间特征

z₂＝W₂z₁+b₂

加入相同的非线性变换

h₂＝1.0507*(max(0,z₂)+min(0,1.6733*(exp(z₂)-1)))

最后输出2个数值

z₃＝W₃z₂+b₃

此处z₃为2维向量，将其两个元素分别记为z_3,1和z_3,2

将z_3,1和z_3,2输入S形激活函数，得到两个评分

p₁＝1/(1+exp(-z_3,1))

p₂＝1/(1+exp(-z_3,2))

其中p₁对应没有基因突变的评分，p₂对应有BRCA1或BRCA2突变的评分，根据这两个评分，进一步得到

p_a＝p¹

p^b＝p¹p²

p_c＝p₁(1-p₂)

这里p_a对应没有基因突变的评分，p_b对应有基因突变且突变为BRCA1或BRCA2的评分，p_c对应有基因突变但突变不是BRCA1或BRCA2的评分。

模型参数一共有6组W₁、W₂、W₃、b₁、b₂、b₃，参数优化通过在最小化学习集上的交叉熵损失函数来实现。

本发明的深层神经网络将前面所述的指标形成输入层的21维特征，中间经过进一步运算逐步形成隐藏层的16维特征和8维特征，输入层的2维特征。

根据本发明的又一个方面，本发明提供了根据前面所述的方法构建而成的评分模型。

根据本发明的又一个方面，本发明提供了一种乳腺癌患者携带胚系致病变异的风险预测模型，所述风险预测包括前面所述的评分模型。

根据本发明的又一个方面，本发明提供了一种乳腺癌患者携带胚系致病变异的风险预测系统，所述系统包括信息采集模块，风险预测模块；信息采集模块用于采集前面所述的指标；风险预测模块嵌入了前面所述的评分模型，根据评分模型的结果判断乳腺癌患者携带胚系致病变异的风险高低。

进一步，所述系统还包括模型构建模块，所述模型构建模块用于构建前面3所述的评分模型。

进一步，风险预测模块判断乳腺癌患者携带胚系致病变异的风险高低的标准如下：当评分模型获得的评分大于0.738时，则判断该乳腺癌患者携带胚系致病变异风险高，当评分模型获得的评分小于0.738时，则判断该乳腺癌患者携带胚系致病变异风险低。

进一步，所述系统还包括机器可读存储器；优选地，机器可读存储器包括计算机和/或计算器。

根据本发明的又一个方面，本发明提供了一种乳腺癌患者携带胚系致病变异的风险预测装置，所述装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时运行前面所述的评分模型。

根据本发明的又一个方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在装置执行前面所述的评分模型。

根据本发明的又一个方面，本发明提供了前面所述的指标在构建前面所述的评分模型中的应用。

根据本发明的又一个方面，本发明提供了前面所述的指标在构建乳腺癌患者携带胚系致病变异的风险预测模型中的应用。

根据本发明的又一个方面，本发明提供了前面所述的指标在构建乳腺癌患者携带胚系致病变异的风险预测系统中的应用。

根据本发明的又一个方面，本发明提供了前面所述的指标在构建乳腺癌患者携带胚系致病变异的风险预测装置中的应用。

根据本发明的又一个方面，本发明提供了前面所述的指标在构建前面所述的计算机可读存储介质中的应用。

根据本发明的又一个方面，本发明提供了前面所述的评分模型在构建乳腺癌患者携带胚系致病变异的风险预测系统中的应用。

根据本发明的又一个方面，本发明提供了前面所述的评分模型在构建乳腺癌患者携带胚系致病变异的风险预测装置中的应用。

根据本发明的又一个方面，本发明提供了前面所述的评分模型在构建前面所述的计算机可读存储介质中的应用。

本发明的优点和有益效果：

本发明基于乳腺癌患者的临床信息构建了乳腺癌患者携带胚系致病变异的风险预测系统，该系统的诊断效能优于传统的风险预测模型。

本发明的风险预测系统可做成软件，也可同其他硬件配套装置同时使用，操作简单，结果明晰。

附图说明

图1显示本发明的深层神经网络结构示意图；

图2显示本发明的评分模型的诊断效能结果图，其中A：所有癌症易感基因；B：BRCA1/2。

具体实施方式

下面通过实施例对本发明进行具体的描述，有必要在此指出的是以下实施例只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限制，该领域的技术人员可以根据上述本发明内容对本发明作出一些非本质的改进和调整。除非另行定义，文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外，任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。

实施例本发明的评分模型构建及诊断性能研究

一、实验方法

1、研究对象和方案设计

从2017年10月1日至2019年8月31日，在中国医学科学院肿瘤医院和北京协和医学院(主要队列)以及中国另外6家医院连续招募了3041例女性乳腺癌患者进行该项多中心队列研究，排除111例不能获得研究样本的乳腺癌患者，共有2930例患者最终纳入该研究。患者和样本由GIFTS研究(遗传性和家族性肿瘤综合征的遗传学调查，中国临床试验注册编号ChiCTR1900024050)驱动。这项研究得到了每个参与医院的伦理委员会的审查和批准。从每个参与者处都获得了书面知情同意。这项研究遵循了《加强流行病学观察性研究报告》(STROBE)报告指南。

本研究对发病年龄、家族史、癌症史、病理特征、分子亚型和临床分期进行了表型分析。每个患者诊断都是基于切除标本的病理结果。激素受体(HR)阳性，包括雌激素受体(ER)和孕激素受体(PR)，定义为1％以上的肿瘤细胞雌激素受体或孕激素受体蛋白染色阳性。ERBB2/HER2阳性定义为肿瘤细胞对ERBB2蛋白呈强(3+)染色，或在肿瘤细胞中扩增出ERBB2基因。三阴性的定义是肿瘤不符合雌激素受体、孕激素受体或ERBB2/HER2阳性的任何病理标准。根据2017年St.Gallen标准，通过激素受体和HER2的状态定义分子亚型的临床分组。利用美国癌症联合委员会(AJCC)第八版乳腺癌分类标准，根据原发肿瘤(T)、淋巴结(N)和转移(M)的状态来确定分期。

2、基因组DNA提取

从外周血或唾液中提取基因组DNA。方法如下：从所有参与者处收集唾液样本或2毫升外周血样本。根据制造商说明，使用QIAamp DNA迷你试剂盒(QIAGEN，Germany)从全血中提取基因组DNA，使用TGuide自动核酸制备仪器(天根生物技术公司，北京，中国)通过TGuide基因组DNA一步试剂盒从唾液样品中提取基因组DNA。使用Qubit 2.0荧光计(ThermoFisher Scientific,CA,USA)通过dsDNA健康检测试剂盒测定DNA样品的质量和浓度。基因组DNA保存在-20℃。

3、基于panel的测序分析

使用Covaris M220超声仪(Covaris Inc.，Woburn，MA，USA)将200ng的基因组DNA片段化。之后，按照制造商推荐的Agilent SureSelect-XT低输入目标浓缩试剂盒(AgilentTechnologies，USA)的方案，进行末端修复、A-加尾、接头连接、PCR反应和靶浓缩。分子条形码DNA文库与商业ClearSeq遗传病多基因panel杂交，该panel覆盖了以下癌症易感基因的全部外显子以及至少±20个碱基内的内含子边界：ATM,BARD1,BRIP1,BCAL,BRCA2,CDH1,PALB2,RAD5IC,RAD51D,CHEK2,NBN,TP53,PTEN,STKI1,APC,MUTYH,EPCAM,MLH1,MSH2,MSH6,PMS2,BMPR1A,SMAD4,GREM1,KIT,PDGFA,HOXB13,RBI,PTCH1,CDK4,CDKN2A,PALLD,WRN,MENI,RECQL,RET,SDHA,SDHB,SDHC,SDHD,SDHAF2,TMEM127,MAX,VHL,MET,FH,FLCN,TSC1,TSC2,PRKAR1A,SMARCA4,SMARCB1,BRAF,GNAS1。使用Qubit高灵敏度试剂盒(Thermo FisherScience)对最终文库进行量化，并使用生物分析仪高灵敏度DNA芯片(AgilentTechnologies，USA)对文库的质量进行评估。使用Illumina HiSeq 2500仪器(Illumina，US)对DNA文库进行测序。

4、变异的调用和注释

通过自行开发的PUMP(北京协和医院管道)进行变异的调用和注释(Wang K,ZhaoS,Liu B,et al.Perturbations of BMP/TGF-beta and VEGF/VEGFR signallingpathways in non-syndromic sporadic brain arteriovenous malformations(BAVM).JMed Genet.2018；55(10):675-684)。使用Burrow-Wheeler Aligner(BWA)软件将有效reads数与参考人类基因组GRCh37/hg19进行比对。使用Genome Analysis Toolkit(GATK)3.4.0版本的HaplotypeCaller来调用单核苷酸变异、内部重复和/或缺失(即indels)。SAMtools套件(http://samtools.sourceforge.net)用于调用单核苷酸变异和短的插入/删除(<30个碱基对)。用Gemini(版本0.19.1)计算新的、复合杂合的和隐性遗传变异的注释，以用于以电子方式从先证者的变异中减去双亲变体，并考虑从BAM文件中提取读数信息。计算预测工具(GERP++，CADD，SIFT，Polyphen-2和VariantTaster)用于预测候选变异的保守性和致病性。所有变异都与公开的数据库进行了比较，如千人基因组计划(http://www.international genome.org/)、外显子组变异服务器、NHLBI GO外显子组测序计划(ESP)(http://EVS.GS.Washington.edu/EVS/)和外显子组聚合联盟(ExAChttp://exac.broadinstitute.org/)。

使用ANNOVAR来标注ExAC数据库中每个等位基因的频率、变异在基因中的位置(包括外显子、剪接点、邻近的内含子和基因内)，并预测所有变异的后果。然后，候选变异被限制在能改变编码序列(错义、无义、剪接位点、移码和非移码内含子)的罕见变异(Exac_MAF<＝0.01)。使用定制的perl脚本，使用ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/)11)和在线孟德尔人类遗传数据库(OMIM)提供的最新信息进一步注释了生成的变异。使用内部AlamutVisual软件对所有变异进行复核，该软件是基因组变异临床解释的集成平台。在整合基因组学查看器V2.3(IGV)中检查了所选变体的测序质量，以排除假阳性，并通过Sanger测序确认了可能的偶然候选。

5、单核苷酸变异(SNV)/INDELS解释

SNV和INDELS的解释方案改编自美国医学遗传学和基因组学学会(ACMG)指南。根据千人基因组计划(2013年10月)、ExAC和基因组聚合数据库(gnomAD，http://gnomad.broadinstitute.org/)，首次对由7号泵管道注释的变异进行了0.1％的群体频率过滤。根据变异类型、报道的证据、从头起源和是否存在反式等位基因来评估保留的变异的致病性。预测会导致蛋白质截断的变异，包括终止-增益、移码、剪接受体/供体变异，被归类为致病变异。参考胚系突变等位基因解读实证联盟(ENIGMA)对BRCA1/2中的变异进行了进一步分析。注释之后，将结果与ClinVar中的分类进行比较，以确定附加信息并确定每个变异的最终分类，该分类系统从5级到3级，分别具有致病、良性和不确定意义。在这项研究中，被归类为致病或可能致病的变异被认为是致病的。

6、模型开发

本研究设计了一个用于预测的深度学习模型，如图1所示。它从包含21个神经元的输入层开始，对应于正在使用的21个特征。然后是两个隐藏层，分别有16个、13个和8个神经元。将Dropout算法应用于隐藏层，有25％的机会禁用随机神经元，以防止模型过拟合。此外，在隐含层的输出上附加了一个非线性激活函数，即扩展型指数线性单元(SELU，ScaledExponential Linear Unit)，它有助于保持表示分布接近单位高斯分布。最后，该模型包括一个含有两个神经元的输出层，输出层带有S型激活函数，所以能产生两个有效评分p1和p2(例如，[0,1]这一范围)。

其中p₁对应没有基因突变的评分，p₂对应有BRCA1或BRCA2基因突变的评分，根据这两个评分，进一步得到：

p_a＝p¹

p^b＝p¹p²

p_c＝p₁(1-p₂)

利用成对的输入特征和[p_a,p_b,p_c]的基本事实注释(以独热编码的形式)，本研究使用通过梯度下降的交叉熵损失来训练深度学习模型。

具体地，深度学习模型的运行过程如下：

输入21维特征(对应21维向量x)

首先计算16维中间特征

z₁＝W₁x+b₁

加入非线性变换函数

h₁＝1.0507*(max(0,z₁)+min(0,1.6733*(exp(z₁)-1)))

然后计算8维中间特征

z₂＝W₂z₁+b₂

加入相同的非线性变换

h₂＝1.0507*(max(0,z₂)+min(0,1.6733*(exp(z₂)-1)))

最后输出2个数值

z₃＝W₃z₂+b₃

此处z₃为2维向量，将其两个元素分别记为z_3,1和z_3,2

将z_3,1和z_3,2输入S形激活函数，得到两个评分

p₁＝1/(1+exp(-z_3,1))

p₂＝1/(1+exp(-z_3,2))

p_a＝p¹

p^b＝p¹p²

p_c＝p₁(1-p₂)

模型参数一共有6组W1、W2、W3、b1、b2、b3，参数优化通过在最小化学习集上的交叉熵损失函数来实现。

7、统计学分析方法

学生t检验被用来分析入组时和发病时的年龄，使用Pearsonχ2检验或Fisher精确检验比较癌症史，家族癌症史，肿瘤大小，组织学分级，ER/PR/AR/HER2状态和淋巴结转移的患病率。使用NCCN准则，BRCAPRO，Myriad，PENN II和BOADICEA算法来估计个体携带BRCA1/2致病变异的可能性。使用ER、PR、HER2和CK5/6状态的IHC数据运行BOADICEA风险计算器模型。通过计算受试者工作特征(ROC)的敏感度、特异性、准确性和曲线下面积(AUC)，分别评价深度学习模型和之前模型的预测性能。双边p<0.05为差异具有统计学意义。采用SPSS15.0版本(SPSS,USA)和R统计软件3.5.1版本进行统计分析。

二、结果

1、病人特征

在本研究中，患者确诊乳腺癌的年龄为(42.9±9.1)岁，其中1168例(39.9％，1168/2930)为早发病例(诊断年龄为≤40岁)。有乳腺癌家族史者400例(13.7％)，双侧乳腺癌86例(2.9％)，乳腺癌以外的其他原发癌96例(3.3％)。

2、胚系基因检测结果

总共有332例患者(11.3％，332/2930)被发现在癌症易感基因(CPGs，cancerpredisposition genes)中携带GPVs。BRCA2基因是中国乳腺癌患者中最常见的突变基因，在134例(4.6％)患者中发现有病原性改变；在131例(4.5％)患者中发现BRCA1致病变异；在33例(1.1％)患者中发现PALB2致病变异；在9例(0.3％)患者中CHEK2致病变异；在6例(0.2％)患者中发现RAD51D致病变异；在3例(0.1％)患者中发现TP53致病变异；在3例(0.1％)患者中发现ATM致病变异；在3例(0.1％)患者中发现BARD1致病变异；在3例(0.1％)患者中发现WRN致病变异；在2例(0.1％)患者中发现PTEN致病变异；RAD51C、BRIP1、MLH1、MSH6、PMS2、SDHA、MUTYH或RECQL的致病变异各在一个患者中发现。

此外，在249例(8.5％)患者中发现297个具有不确定意义的(VUS)变异，其中BRCA2基因上73个VUS变异，BRCA1基因上46个VUS变异，PALB2基因上42个VUS变异，CHEK2基因上53个VUS变异，RECQL基因上38个VUS变异，ATM基因上7个VUS变异，BRIP1基因上6个VUS变异，RAD51D基因上4个VUS变异。22例患者中发现CHEK c.1240T>C，12例患者中发现RECQL c.2T>C。

3、胚系变异与临床特征的关系

患者分为三组，即有致病变异者(n＝332)、有VUS变异者(n＝249)和无变异者(n＝2347)。含有VUS变异的参与者被排除在下面描述的深入系统表型和临床内表型数据分析之外，因为这些变异的功能效应还不确定。根据突变基因将含有致病变异的患者进一步分为4个亚组，即亚组1：BRCA1(n＝131)，亚组2：BRCA2(n＝132)，亚组3：其他BRCA1/2相关基因包括PALB2、RAD51C、RAD51D、BARD1和BRIP1(n＝43)；亚组4：其他癌症易感基因，包括CHEK2、TP53、ATM、PTEN、MLH1、MSH6、PMS2、SDHA、MUTYH、WRN和RECQL(n＝26)。

与无GPVs的患者相比，携带GPVs的患者被诊断出乳腺癌的年龄更小(分别为43.43±9.08和40.15±8.29，p＝5.7×10^-10)，尤其是携带BRCA1/2基因GPVs的患者。

在四个亚组中，早发性乳腺癌患者较多。相比其他癌症易感基因亚组，BRCA1/2亚组的所有癌症、乳腺癌和卵巢癌的患病率更高。BRCA1/2亚组中有各种癌症或乳腺癌家族史的患者也多于无GPVs的患者。然而，只有BRCA1亚组中具有卵巢癌家族史的患者比例更高。除BRCA1/2外，其他BRCA相关基因亚组患者的胰腺癌家族史更为显著。携带GPVs患者的家族成员中未发现前列腺癌。而喉癌在携带GPVs的患者家族中的比例较高。白血病和男性乳腺癌家族史与BRCA2基因上的GPVs显著相关。

在病理特征方面，肿瘤大小与GPVs状态无关。携带BRCA1/2基因GPVs的患者中浸润性导管癌的比例较高，而携带BRCA1基因GPVs的患者中原位癌的比例较低。

携带BRCA1基因GPVs的患者中组织学I级和II级的患者比例低于无GPVs的患者(I级为0％vs 5.92％，II级为19.85％vs 42.78％，p＝6.8×10^-4和8.4×10^-8)，而III级患者比例较高(64.89％vs 25.01％，p＝1.5×10^-20)。携带BRCA2基因GPVs的患者中组织学I级的患者比例低于无GPVs的患者(5.92％vs 1.52％，p＝0.03)，携带其他BRCA相关基因GPVs的患者中组织学II级的患者比例高于无GPVs的患者(42.78％比60.47％，p＝0.03)。

携带BRCA1基因GPVs的患者中ER、PR、AR阴性者比例分别为71.76％、70.99％、38.17％，明显高于无GPVs患者的26.08％、70.99％、7.46％(p＝4.1×10-²⁵、2.6×10^-23、4.6×10^-21)。携带BRCA2基因GPVs的患者中ER、PR阳性率分别为81.06％和81.06％，明显高于无GPVs患者的67.83％和66.94％(p＝7.8×10^-3和2.3×10^-3)。携带其他BRCA相关基因GPVs的患者中AR阴性率高于无GPVs的患者(18.6％vs 7.46％，p＝0.02)。相比其他CPGs亚组，所有与BRCA相关的亚组中，HER2阴性比例较高而HER2阳性比例明显较低。携带BRCA1基因GPVs的患者中三阴乳腺癌的发生率高于无GPVs的患者(62.6％vs 12.9％，p＝6.8×10^-37)。与无GPVs的患者相比，携带GPVs的患者中Ki67>30％的比例更高(36.3％vs74.8％，p＝1.0×10^-19)，EGFR阳性比例更高(19.9％vs55.0％，p＝2.4×10^-17)，CK5/6阳性的比例更高(13.2％vs 46.6％，p＝1.1×10^-17)，p53无义变异的比例更高(25.8％vs 35.1％，p＝2.4×10^-2)，p53错义变异的比例更高(9.7％vs 46.6％，p＝1.1×10^-17)，p53无义变异的比例更高(25.8％vs 35.1％，p＝2.4×10^-2)，p53错义变异的比例更高(9.7％vs 46.6％，p＝2.4×10^-2)。P53错义变异体在其他CPG亚组患者中也更为常见(23.08％vs 9.7％(无GPVs组)，p＝0.04)。BRCA2亚组和其他BRCA相关基因亚组患者中野生型p53阳性患者较多(41.7％和46.5％vs 26.8％(无GPVs患者)，p＝4.1×10^-4和8.3×10^-3)。

BRCA1亚组和BRCA2亚组患者中双侧乳腺癌的发生率分别为11.45％和8.33％，明显高于无GPVs的患者的2.22％和2.22％(p＝1.0×10^-6和3.6×10^-4)。BRCA2亚组和其他CPGs亚组患者中淋巴结转移率分别为56.82％和53.85％，明显高于无GPVs的患者的38.01％和38.01％(p＝4.0×10^-5和4.5×10^-2)。

4、利用深度学习预测DNA修复基因的胚系变异

为了建立乳腺癌患者携带GPVs可能性的预测模型，排除了249例携带VUS变异的患者和没有完整临床信息或没有详细家族史的可用数据以供进一步分析的247例患者，将排除后的患者随机分成两组：发现队列1701例，验证队列731例。发现队列和验证队列中患者携带GPVs情况见表1。

表1发现队列和验证队列的患者携带GPVs情况

通过深层神经网络使用发现队列中的临床特征开发本发明的评分模型。

用于模型开发的临床特征列表如表2所示。

表2临床特征列表

本发明的模型能预测具有某些临床特征和家族癌症史的乳腺癌患者携带BRCA1/2基因GPVs、其他癌症易感基因GPVs或所有癌症易感基因GPVs风险高低。使用验证队列预测BRCA1/2基因GPVs时，本发明模型的AUC为0.80(95％CI，0.74–0.85)，优于以前的模型(BRCAPRO模型的AUC＝0.71[95％CI，0.64–0.77]，Myiad模型的AUC＝0.59[95％CI，0.52–0.66]，PENNII模型的AUC＝0.63[95％CI，0.56–0.70]，NCCN标准的AUC＝0.58[95％CI，0.52–0.65])。使用验证队列预测所有癌症易感基因GPVs时，本发明模型的AUC为0.74(95％CI，0.69-0.79)，也优于以往的模型(BRCAPRO模型的AUC＝0.65[95％CI，0.59-0.71]，Boadicea模型的AUC＝0.56[95％CI，0.50-0.62]，Myiad模型的AUC＝0.56[95％CI，0.50-0.62]。NCCN标准的AUC＝0.56[95％CI，0.50-0.62]。然而，在预测BRCA1/2以外的癌症易感基因GPVs时，本发明的模型性能受到限制，AUC为0.58(95％CI，0.46-0.70)，但仍高于其他模型(BRCAPRO模型的AUC＝0.49[95％CI，0.32-0.57]，Myiad模型的AUC＝0.44[95％CI，0.31-0.56]，PENNII的AUC＝0.51[95％CI，0.38-0.63]。NCCN标准为0.33-0.59](表3和图2)。

在来自验证队列的731名患者中，513名(70.2％)患者符合NCCN的基因检测标准指南，218名患者(29.8％)不符合。那些符合NCCN标准的人比不符合标准的妇女更有可能携带致病性变异(15.2％[78/513]vs9.6％[21/218]；p＝0.045；OR，1.7；95％CI，1.0-2.8)。结果，NCCN标准的敏感性为78.8％，特异性为31.2％，准确性为37.6％。然而，扩大NCCN标准以包括所有在≤65岁时被诊断为乳腺癌的妇女时并没有改善其表现(预测BRCA1/2基因GPVs时AUC＝0.51[95％置信区间，0.44–0.58]，预测其他癌症易感基因GPVs时AUC＝0.51[95％置信区间，0.39–0.63]，预测所有癌症易感基因GPVs时AUC＝0.51[95％置信区间，0.45–0.57])。扩大NCCN标准将预测GPVs的敏感性提高到100％，但特异性降低到2.5％，准确度降低到15.7％。预测BRCA1/2基因GPVs时，本发明模型的敏感性达到82.4％，特异性为63.1％，对所有癌症易感基因的敏感性为82.1％，特异性为53.2％。与以前的模型相比，本发明模型的诊断性能最为均衡。

表3本发明模型的诊断效能

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种乳腺癌患者携带胚系致病变异的风险预测指标，其特征在于，所述指标包括以下指标的组合：年龄、个人癌症史、癌症家族史、病理特征；优选地，所述年龄包括发病年龄、评估年龄；优选地，所述个人癌症史包括所有癌症史、乳腺癌史、卵巢癌史、双边乳腺癌史；优选地，所述癌症家族史包括所有癌症家族史、乳腺癌家族史、卵巢癌家族史、胰腺癌家族史、男性乳腺癌家族史；病理特征包括肿瘤最大直径、组织学分级、多病灶乳腺癌、AR水平、ER水平、PR水平、Ki67、CK5/6强度、EGFR强度、淋巴结水平、HER2阳性、HER2阴性、P53阴性、P53阳性。

2.一种评分模型的构建方法，其特征在于，所述方法包括利用深层神经网络使用权利要求1所述的指标开发所述评分模型；

优选地，所述深层神经网络包括1个输入层、2个隐藏层和1个输出层；

更优选地，所述输入层包括21个神经元；

更优选地，所述隐藏层包括Dropout算法和非线性激活函数；更优选地，所述非线性激活函数如下所示：h₁＝1.0507*(max(0,z₁)+min(0,1.6733*(exp(z₁)-1)))；

更优选地，2个隐藏层分别包括16个神经元、8个神经元；

更优选地，所述输出层包括S型激活函数；

更优选地，所述输出层包括2个神经元。

3.根据权利要求2所述的方法构建而成的评分模型。

4.一种乳腺癌患者携带胚系致病变异的风险预测模型，其特征在于，所述风险预测包括权利要求3所述的评分模型。

5.一种乳腺癌患者携带胚系致病变异的风险预测系统，其特征在于，所述系统包括信息采集模块，风险预测模块；信息采集模块用于采集权利要求1所述的指标；风险预测模块嵌入了权利要求3所述的评分模型，根据评分模型的结果判断乳腺癌患者携带胚系致病变异的风险高低；

优选地，所述系统还包括模型构建模块，所述模型构建模块用于构建权利要求3所述的评分模型。

6.根据权利要求5所述的系统，其特征在于，风险预测模块判断乳腺癌患者携带胚系致病变异的风险高低的标准如下：当评分模型获得的评分大于0.738时，则判断该乳腺癌患者携带胚系致病变异风险高，当评分模型获得的评分小于0.738时，则判断该乳腺癌患者携带胚系致病变异风险低。

7.根据权利要求5或6所述的系统，其特征在于，所述系统还包括机器可读存储器；优选地，机器可读存储器包括计算机和/或计算器。

8.一种乳腺癌患者携带胚系致病变异的风险预测装置，所述装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时运行权利要求3所述的评分模型或权利要求4所述的风险预测模型。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在装置执行权利要求3所述的评分模型或权利要求4所述的风险预测模型。

10.一种应用，其特征在于，所述应用包括以下任一项所述的应用：

1)权利要求1所述的指标在构建权利要求3所述的评分模型中的应用；

2)权利要求1所述的指标在构建乳腺癌患者携带胚系致病变异的风险预测模型中的应用；

3)权利要求1所述的指标在构建乳腺癌患者携带胚系致病变异的风险预测系统中的应用；

4)权利要求1所述的指标在构建乳腺癌患者携带胚系致病变异的风险预测装置中的应用；

5)权利要求1所述的指标在构建权利要求9所述的计算机可读存储介质中的应用；

6)权利要求3所述的评分模型在构建乳腺癌患者携带胚系致病变异的风险预测系统中的应用；

7)权利要求3所述的评分模型在构建乳腺癌患者携带胚系致病变异的风险预测装置中的应用；

8)权利要求3所述的评分模型在构建权利要求9所述的计算机可读存储介质中的应用。