CN116469552A - 一种用于乳腺癌多基因遗传风险评估的方法和系统 - Google Patents

一种用于乳腺癌多基因遗传风险评估的方法和系统 Download PDF

Info

Publication number
CN116469552A
CN116469552A CN202210896748.9A CN202210896748A CN116469552A CN 116469552 A CN116469552 A CN 116469552A CN 202210896748 A CN202210896748 A CN 202210896748A CN 116469552 A CN116469552 A CN 116469552A
Authority
CN
China
Prior art keywords
breast cancer
risk
snp
prs
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210896748.9A
Other languages
English (en)
Inventor
邵志敏
黄荷凤
陆思嘉
邹央云
包衎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xukang Medical Science & Technology Suzhou Co ltd
Fudan University Shanghai Cancer Center
Obstetrics and Gynecology Hospital of Fudan University
Original Assignee
Xukang Medical Science & Technology Suzhou Co ltd
Fudan University Shanghai Cancer Center
Obstetrics and Gynecology Hospital of Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xukang Medical Science & Technology Suzhou Co ltd, Fudan University Shanghai Cancer Center, Obstetrics and Gynecology Hospital of Fudan University filed Critical Xukang Medical Science & Technology Suzhou Co ltd
Priority to CN202210896748.9A priority Critical patent/CN116469552A/zh
Publication of CN116469552A publication Critical patent/CN116469552A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物技术及医学领域,具体涉及用于筛选乳腺癌风险关联的基因突变位点、构建乳腺癌多基因遗传风险评级模型、和预测发病风险的方法和系统。

Description

一种用于乳腺癌多基因遗传风险评估的方法和系统
技术领域
本发明涉及生物技术及医学领域,具体涉及用于筛选乳腺癌风险关联的基因突变位点、构建乳腺癌多基因遗传风险评级模型、和预测乳腺癌发病风险的方法和系统。
背景技术
世界卫生组织国际癌症研究机构(IARC)发布全球最新癌症数据显示,在癌症分布类型上,2020年乳腺癌新发病例数达226万人,首次超过肺癌(220万人),成为“全球第一大癌”。在中国,乳腺癌以21.6/10万的发病率高居妇科肿瘤第一位,并且呈现出三大特征:一是发病年龄早;二是确诊时临床分期相对较晚,中晚期患者较多;三是因为发现晚等原因,导致生存期低。因此亟需要一种乳腺癌的早期筛查方法来辅助乳腺癌的早发现、早诊断。
乳腺癌可分为散发性、家族性和遗传性,其中约10%-20%的乳腺癌表现为家族性或遗传性肿瘤。家族性或遗传性乳腺癌往往由单基因水平的高外显率胚系突变导致,或者由多个低外显率胚系突变与环境相互作用导致。因此,通过对多个低外显率的突变位点或基因的信息整合,可以解释更多遗传性乳腺癌的遗传变异。为此提出利用基因型数据计算多基因风险评分,并基于此构建多基因风险模型,用于对人群进行风险分层和筛选,以促进遗传性乳腺癌阳性病例的早期发现和治疗。
多基因风险评分(Polygenic Risk Score)是一种利用个人的基因测序数据计算的、用于衡量个体患某种病的风险大小的评分。通常,PRS是跨多个基因位点的性状相关等位基因的加权和,其中通常使用全基因组关联分析确定的各相关等位基因的效应值进行加权。目前可以使用的PRS计算方法有:LDpred、PRSice等。LDpred软件中的coord方法将标准化后的汇总统计量与LD(连锁不平衡)参考文件进行整合,得到整合后的HDF5文件;之后LDpred软件可以将整合后的文件作为输入,计算出各个SNP(单核苷酸多态性)的权重值;并根据权重值对需要预测风险的个体的基因型数据进行加权计算,由此得到个体的多基因风险评分。PRSice软件则使用一系列P值阈值进行分析,针对不同的阈值计算PRS值,然后根据PRS值和表型关联分析的结果来挑选最佳的阈值用于筛选SNP位点和PRS模型构建。参见doi:10.1093/bioinformatics/btu848,“PRSice:Polygenic Risk Score software”。
目前对于乳腺癌多基因遗传风险的研究大多聚焦欧美人群。Nasim Mavaddat等人报道了PRS在欧洲血统人群中预测乳腺癌和乳腺癌亚型的应用,其中基于313个SNP建立的最佳PRS模型能准确地预测在PRS人群分布两端的个体的乳腺癌风险,模型的AUC值达到0.630(95%CI:0.628-0.651)。然而,由于不同种族的女性在遗传组成上存在的差异,这就使得主要基于欧洲裔女性开发的多基因风险评分模型在跨种族人群中应用的有效性受到限制。此外,在多基因风险位点的发现过程中,合适的计算生物学算法开发与创新非常关键,直接关系着最终多基因风险评分模型的人群风险分层效果。
因此,本领域仍然需要新的PRS模型建立方法,尤其是有助于识别中国人群的乳腺癌相关风险的PRS模型建立方法,和由此建立的PRS模型,以促进尤其是中国人群的乳腺癌多基因遗传风险筛查和人群分层。
发明概述
本发明人通过锐意研究提出了一种基于全外显子组或全基因组关联研究及多层次位点筛选策略,结合机器学习算法,来构建乳腺癌的多基因疾病风险评级模型的新方法。如实施例所显示,采用本发明方法构建的乳腺癌风险评级模型,人群分层效果明显,且模型的AUC值达到0.68。应用本发明方法构建的乳腺癌PRS模型,可以出具风险评估报告,改善乳腺癌的早期筛查,尤其是中国女性人群的乳腺癌早期筛查,从而有效提醒风险人群规避或降低乳腺癌风险,避免患者错过乳腺癌的最佳治疗时机和相应地增加患者的生存率;同时也有助于减少在健康人群中的无效筛查和过度诊断和治疗。在此基础上,本发明人完成了本发明。
因此,在第一个方面,本发明提供了用于构建乳腺癌多基因疾病风险评级(PRS)模型的方法、和用于执行所述方法的装置、系统和计算机程序产品。在一个实施方案中,根据本发明的方法包括:
(1)在获取的训练数据集上,进行SNP位点与疾病表型的全外显子组或全基因组关联性分析,并基于PT阈值,选择相关性p值小于该阈值的SNP位点;
(2)对步骤(1)选择的SNP位点,按常染色体分组,并分别应用逐步逻辑回归分析法进行细筛;
(3)整合细筛获得的22组SNP位点,应用逐步逻辑回归分析法,进行SNP位点复筛;
(4)由复筛得到的风险SNP位点,构建逻辑回归模型,由回归模型中各SNP位点的对应系数确定各风险SNP位点的效应值,和
(5)建立乳腺癌多基因疾病风险评级(PRS)模型,
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
snpi为样本中第i个SNP位点的基因型,分别用0,1,2表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为由步骤(4)确定的该i个SNP位点的效应值;
n为风险SNP位点总数。
在一个优选实施方案中,步骤(2)和(3)采用最优模型选择准则作为SNP位点的筛选评价标准。在再一优选实施方案中,在步骤(2)和(3)的逐步逻辑回归分析中,当变量SNP位点的剔除和加入不再导致更优模型产生时,逐步逻辑回归分析终止。
在一些优选实施方案中,所述最优模型选择准则为AIC准则。在这样的实施方案中,优选地,步骤(2)和(3)的逐步回归分析,以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到剔除或增加变量,以获得SNP最优解释变量集合的目的。
在再一方面,本发明提供了包含表1所列的风险SNP位点的乳腺癌PRS模型、及其用于在中国人群中进行乳腺癌风险分层或用于预测中国女性个体的乳腺癌易感性的用途。
对于乳腺癌,疾病易患性的高低受遗传基础和环境因素的双重影响。多基因风险评分的疾病预测能力取决于,也反映了遗传基础在疾病发病中所起的作用大小,即,疾病的遗传力大小,但PRS评分单独并不能构成对疾病的诊断。对于基于PRS模型预测为具有高的疾病易感性的个体,一方面,可以考虑进一步结合个体的遗传背景和环境因素进行疾病患病预测;同时可以通过给与相应的医学建议和措施,例如,健康的生活方式以及定期检测等,来降低疾病的发生风险。
因此,在再一方面,本发明提供了乳腺癌风险管理方法,包括以下步骤:
(1)应用根据本发明的方法建立的PRS模型,获得个体的PRS评分;
(2)结合个体所在群体的疾病发病风险分层基线,预测个体的乳腺癌遗传易感性(即,患病的遗传倾向);
(3)任选地,结合个体的家族遗传背景和/或环境与生活方式调查,预测个体在一段时期中的乳腺癌发病风险;
(4)给高风险个体提供医学建议,以管理个体的乳腺癌发病风险。
在再一方面,本发明也提供了一种多基因位点联合疾病风险分析评估平台及其在个体疾病风险管理中的用途,所述平台包括:样本预处理模块;多基因风险评估模块;疾病风险评估模块;报告呈现及用户反馈模块;和数据分管处理模块。
本发明的风险评估方法并不适用于诊断,因为由评估的结论并不能确诊受试者是否患有疾病、或者指示患者未来是否肯定会患有疾病。但本发明的风险评估可以提升风险人群区分,有利于实现较精准的人群乳腺癌风险规避。
附图说明
图1显示,乳腺癌多基因风险评估方法建立流程图。
图2显示,应用546位点模型计算的PRS得分在测试集的病例和对照群体中的人群分布密度图。
图3显示,在测试集上绘制的546位点模型的ROC曲线。
图4显示,应用546位点逻辑回归模型在测试集上获得的乳腺癌发病率和PRS人群百分位分布。
图5显示,应用372位点模型计算的PRS得分在测试集的病例和对照群体中的人群分布密度图。
图6显示,在测试集上绘制的372位点模型的ROC曲线。
图7显示,应用372位点逻辑回归模型在测试集上获得的乳腺癌发病率和PRS人群百分位分布。
图8显示,在测试集上绘制的PRsice2模型的ROC曲线。
发明内容
定义
涉及特定数值时,术语“大约”是指,本领域技术人员所知的该数值的通常误差范围。在本文中,应理解,该表述涵盖了对所述具体数值本身的述及。因此,例如,当提及“大约X”时,也涵盖了对具体数值X本身的具体提及。
多基因风险评级、多基因风险评分或PRS在本文中可互换使用,是指在来自个体(例如,患病个体或疾病风险个体)的样本中确定的、与疾病风险相关的多数个单核苷酸多态性(SNP)的加权和,其中,(例如根据全基因组或全外显子组关联性分析或已构建的PRS模型确定的)所述疾病风险相关SNP的对应疾病效应值,作为该SNP的权重。PRS可以例如在全基因组上或在预定的一组基因座(例如,预定的SNP集合)上进行。在一些实施方案中,预定的基因座集合包含多数个基因座,位于该基因座的一个或多个等位基因与增加的疾病(如乳腺癌)风险相关,例如所述的基因座具有一个或多个疾病风险相关SNP。在一些实施方案中,PRS在预定的SNP集合上计算,其中所述预定的SNP集合优选地包含选自表1的至少50个、150个、200个、250个、300个、350个、或所有的SNP。
在本文中,术语“参照多基因风险分值”或“参照PRS”是指,与测试样本的PRS进行比较,以例如对所述样本的来源个体作出疾病风险预测和/或治疗决策的PRS值。例如,参照PRS可以是在参照样本或参照群体中测定的PRS,和/或是一个预定值。在一些实施方案中,参照PRS是,在一个参照群体中,基于疾病(例如乳腺癌)发病率和PRS分值的群体分布,能够显著区分开患病个体和未患病个体的PRS截断值(在本文中也称作人群疾病风险分层基线)。在一些实施方案中,具有等于或大于所述的截断值的PRS的个体,相对于具有低于该截断值的PRS的个体,具有更高的乳腺癌发病遗传倾向。在另一些实施方案中,具有等于或小于所述的截断值的PRS的个体,相对于具有高于该截断值的PRS的个体,具有更低的乳腺癌发病遗传倾向。在一些实施方案中,参照PRS确定为,例如,参照群体的第1至10个百分位的PRS值,例如第5个百分位的PRS值。在一个实施方案中,参照PRS确定为,例如,参照群体的第95至100个百分位的PRS值,例如第95个百分位的PRS值。在另一些实施方案中,参照PRS确定为,例如,参照群体的第25个百分位、第26个百分位、第27个百分位、第28个百分位、第29个百分位、第30个百分位、第31个百分位、第32个百分位、第33个百分位、第34个百分位、第35个百分位、第36个百分位、第37个百分位、第38个百分位、第39个百分位、第40个百分位、第41个百分位、第42个百分位、第43个百分位、第44个百分位、第45个百分位、第46个百分位、第47个百分位、第48个百分位、第49个百分位、第50个百分位、第51个百分位、第52个百分位、第53个百分位、第54个百分位、第55个百分位、第56个百分位、第57个百分位、第58个百分位、第59个百分位、第60个百分位、第61个百分位、第62个百分位、第63个百分位、第64个百分位、第65个百分位、第66个百分位、第67个百分位、第68个百分位、第69个百分位、第70个百分位、第71个百分位、第72个百分位、第73个百分位、第74个百分位、第75个百分位、第76个百分位、第77个百分位、第78个百分位、第79个百分位、第80个百分位、第81个百分位、第82个百分位、第83个百分位、第84个百分位、第85个百分位、第86个百分位、第87个百分位、第88个百分位、第89个百分位、第90个百分位、第91个百分位、第92个百分位、第93个百分位、第94个百分位、第95个百分位、第96个百分位、第97个百分位、第98个百分位、或第99个百分位的PRS值。在一些实施方案中,参照PRS确定为,参照群体的第50个百分位的PRS值,或参照群体的中位/平均PRS值。
在本文中,术语“外显率”是指某一基因型个体显示其预期表型的比率。
在本文中,术语“易患性”(liability)是指,在多基因遗传病中,由遗传基础和环境因素的共同作用来决定的个体患某种疾病的风险。
在本文中,术语“易感性(susceptibility)”或“遗传易感性”是指,在多基因遗传病中,若干作用微小但有累积效应的致病基因构成了个体患某种病的遗传因素,由这些遗传因素决定的个体患病的风险称为个体的易感性。
在本文中,术语“SNP(单核苷酸多态性)”是指染色体DNA序列中的某个位点由于单个核苷酸的变化而引起的多态性,在群体中SNP的频率一般为>1%。在人类全基因组上平均300-1000bp有一个SNP。目前可以从多个公开数据库获得SNP数据库,包括例如,http://cgap.ncbi.nih.gov/GAI;http://www.ncbi.nlm.nih.gov/SNP;人类SNP数据库http://hgbas.cgr.ki.sei或http://hgbase.interactiva.de/。
在本文中,术语“SNP基因型”是指,通过SNP基因型分型技术,从样本提取的SNP位点的基因型分型结果,包括SNP位点的位置以及位于相应位置的等位基因。在一个实施方案中,为构建RPS模型,应用全基因组SNP阵列在个体样本上提取全基因组范围的SNP基因型数据。在另一实施方案中,应用全外显子组SNP阵列在个体样本上提取全外显子组范围的SNP基因型数据。
在本文中,术语“阵列”或“微阵列”指可杂交阵列元件,优选多核苷酸探针(例如寡核苷酸),在基质上的有序排列。基质可以是固体基质例如玻璃载玻片或半固体基质例如硝酸纤维素膜。作为阵列的一个实例可以提及的是SNP芯片,利用所述芯片杂交后获得的信号(通常为荧光信号)能够判断所检测芯片上的SNP位点的基因型。
在本文中,术语“临床患病风险评分”或“临床风险评分”是指,采用除本文所述的PRS评估之外的任何适宜的临床风险评估程序,获得的风险评估结果。优选地,临床风险评估不涉及在一个或多个基因座位的基因分型。在一些实施方案中,临床风险评估程序可以包括,从个体获得以下之一项或多项信息:乳腺癌、导管癌或小叶癌的病史、年龄、月经史,例如第一次月经的年龄、第一次分娩的年龄、乳腺癌或其他癌症的家族史,包括第一直系亲属的患病年龄,既往乳房活检结果,口服避孕药的使用,体重指数,饮酒史,吸烟史,运动史,饮食和民族。在一些实施方案中,临床风险评估程序至少考虑年龄、疾病相关组织活检次数、和第一直系亲属的相关疾病病史。
在本文中,术语“样本”是指来自或衍生自人类个体,例如体液(血液、唾液、尿液等)、组织活检物、组织,包含核酸,尤其是DNA的任何样本。因此,组织活检物、粪便、痰液、唾液、血液、淋巴等可以容易地用于SNP检测的样本均可以适用于本发明中。在样本用于SNP分析前,优选地进行基因组DNA提取和纯化。
术语“连锁不平衡”(LD)用于描述两个相邻多态基因型之间的统计学相关性。典型地,LD是指,在推定两个配子之间存在哈代温伯格平衡(统计学独立性)的情况下,随机配子的两个基因座的等位基因之间的关联性。可以使用相关系数(correlation coefficient)r2来衡量LD。具有1的LD值的两个基因座之间被认为是完全LD。具有0的LD值的两个基因座被称作连锁平衡。本领域技术人员可以容易地确定与本发明的SNP连锁不平衡的SNP,例如,通过确定两个基因座的LOD得分(logarithm of the odds)。因此,在一个实施方案中,就本发明的PRS模型而言,也考虑与本发明具体的SNP位点(例如表1所列的SNP位点)连锁不平衡的SNP位点作为替代。
发明详述
研究已经揭示,乳腺癌具有高度多基因的遗传基础,可囊括数百或数千种各自对遗传性状或疾病的形成作用微小的遗传变异(或多态性),这些微效基因的效应可以累加以形成明显的疾病表型效应。因此,为了获得足以识别疾病高风险人群的信息,需要考虑由个体的疾病风险基因变异组合所赋予的遗传负荷。一种适宜的方法是通过多基因风险评分(PRS)评估个体的疾病遗传风险。
在之前乳腺癌PRS风险研究中,通常采用全基因组范围的GWAS发现与疾病相关的单核苷酸多态性(SNP)。然而,研究表明,在人类的许多疾病中,对疾病遗传表型起关键作用的往往是编码区。尽管通过设置宽松PT阈值来筛选GWAS相关性SNP位点,在一方面可以在一定程度上避免低外显率的信息SNP位点(即,可以提供有关疾病易感性信息的SNP位点)因P值不达标而被过滤掉,但另一个方面宽松阈值的设置会导致纳入过多的非信息SNP位点,影响最终PRS模型的复杂度和/或准确度。参见,例如,Polygenic Risk Scores forPrediction of Breast Cancer and Breast Cancer Subtypes,The American Journalof Human Genetics 104,21–34,January 3,2019。在该文献中,Nasim Mavaddat等应用全基因组范围的SNP基因分型数据,分别采用1M区域逐步回归和严格PT阈值(p<10-5)、或采用套索回归和宽松阈值(p<10-3),建立了分别包含305个SNP位点和3820个SNP位点的PRS模型,两个模型的ROC-AUC值分别达到0.637和0.647,尽管相较于之前授权美国专利US10,683,549B2中构建的77个SNP位点模型具有更好的模型预测性能(AUC值0.612),但模型的预测能力仍有待提升。
经过锐意研究,本发明人发现,应用多层次SNP风险位点筛选策略,尤其是在全外显子组水平上应用宽松PT值(p值阈值)初筛风险SNP位点,之后结合特定的两阶段(即,常染色体单体水平、和跨常染色体整合水平的)逐步逻辑回归分析和最优模型选择准则,可以有效地获得用于乳腺癌风险预测的性能优异的SNP位点集合和乳腺癌风险评估模型。如实施例中所示,应用本发明方法构建的乳腺癌风险预测模型,具有良好的模型预测准确性(ROC-AUC值达到大约0.68),群体的乳腺癌风险分层效果明显,适用于个体的乳腺癌风险预测。
因此,本发明提供了一种乳腺癌PRS模型建立方法,包括如下步骤:
(1)获取用于PRS模型构建的训练集样本,并提取样本的SNP基因型特征;
(2)实施多层次SNP风险位点筛选;
(3)应用选择的SNP风险位点,通过机器学习,构建PRS模型。
在一些实施方案中,本发明方法还包括:
(4)在独立于训练集的验证集上,对构建的PRS模型进行验证;和
(5)任选地,应用经验证的PRS模型,实施人群疾病风险分层。
适用于本发明的乳腺癌也可以是某种亚型,例如雌激素受体阳性乳腺癌,或雌激素受体阴性乳腺癌、转移性乳腺癌。
在再一方面,本发明也提供了中国女性的乳腺癌多基因风险评估模型,其包括:表1所列的SNP位点。在再一方面,本发明也提供了用于构建PRS模型、人群风险分层和乳腺癌风险评级的装置或系统。
以下就本发明方法的各个方面,进一步详细描述。
I.乳腺癌PRS模型建立方法
用于模型构建的训练数据集
在机器学习建模过程中,模型的预测力不仅取决于模型算法,也取决于用于模型建立的输入数据,以及由输入数据提取的特征数据(即,自变量,例如纳入模型建立的SNP位点;和因变量:疾病表型分类特征,例如,是否患有乳腺癌或特定乳腺癌亚型的情况)。
在本发明的乳腺癌PRS模型建立方法中,可以选择由多数个已知的乳腺癌患者及健康个体组成的训练集,并从训练集的每个个体提取SNP位点基因型特征和乳腺癌分类特征作为输入数据。因此,在根据本发明方法的一个实施方案中,用于乳腺癌PRS模型构建的训练数据集包含:自训练集的每个个体样本提取的SNP基因型特征数据和相应的疾病分类特征数据,其中,所述训练集由多数个乳腺癌患病个体样本和多数个健康对照个体样本组成。在一些实施方案中,所述SNP基因型特征为提取自个体样本的全基因组或全外显子组范围的SNP基因型特征。优选地,提取的疾病分类特征为个体是否罹患乳腺癌或乳腺癌亚型的患病情况。
由于不同族裔之间在SNP位点的次等位基因频率(MAF)和局部LD等等方面存在差异,因此,PRS模型在不同族裔之间的泛用性较差。为此,在PRS模型构建中,用于模型训练的训练集样本,优选与目标人群或目标个体具有相同的种族特征,更优选地,具有相同地理区域来源。
在一个实施方案中,训练集由乳腺癌患者个体和健康对照个体组成,其中所述乳腺癌患者是经病理学确诊的、且优选地未接受过化疗或放疗、无既往肿瘤病史的乳腺癌女性患者;且其中所述健康对照为经临床确定的健康女性,且优选地无乳腺癌及乳腺癌家族史、并与乳腺癌患者属于相同族裔且优选地来自地理区域的健康女性。优选地,组成训练集的患者群体和健康对照群体在年龄分布上匹配。在一个实施方案中,组成训练集的所述乳腺癌患者和对照个体均为中国女性,例如,自述的汉族女性。
在关联性分析中,大的样本量有助于减少采样误差、效应值估计和发现低效遗传变异位点。因此,在一个实施方案中,组成训练集的样本数为至少4000例。优选地,训练集由来自至少3000、4000、5000、6000、7000、8000、9000、10000、11000、12000、15000、20000、25000、30000个或更多个体的样本组成。再优选地,训练集中,乳腺癌患者个体数量与健康对照个体数量的比值为1:1至1:100,例如,大约1:1、大约1:5、大约1:10、大约1:20、大约1:30、大约1:40、大约1:50、大约1:60、大约1:70、大约1:80、大约1:90、或大约1:100。在一个实施方案中,在所述训练集中,乳腺癌患者个体数量与健康对照个体数量的比值大约等于目标群体的乳腺癌发病率,例如,在中国群体中,大约7%。
SNP基因型分型
为了提取SNP基因型特征,可以采取本领域已知的任何SNP基因型分型方法,对来自个体的样本进行SNP基因型分型。在一些实施方案中,所述样本选自血液、血清、血浆、或组织活检物。
在一些实施方案中,SNP基因型分析包括:在选择的多个已知乳腺癌患者及健康个体上(例如,训练集个体上),提取外周血基因组DNA进行测序,以及检测并比较各基因型在病例与健康对照中的基因型差异。
在一个实施方案中,测序为全基因组范围的测序或全外显子组的测序;或者可以根据需要,在指定的一条或多条染色体或指定的染色体区域或SNP风险位点,进行测序。
在一个优选的实施方案中,测序为全外显子组测序。在深入的研究中,本发明人发现,通过应用全外显子组水平SNP位点-乳腺癌相关分析,并设置较为宽松的PT阈值来筛选进入模型的SNP位点,将有助于模型纳入低外显率的信息SNP位点并降低模型中非信息性SNP位点的数量,有利于平衡模型的复杂度和提升模型的预测性能。为此,在一个优选的实施方案中,本发明的模型建立方法涉及提取训练集和/或测试集样本的全外显子组的SNP基因型。外显子是蛋白质的编码区域,因此,外显子SNP在本文中也指编码区变异(codingvariant)。外显子SNP基因型分型方法是本领域已知的,包括,但不限于,外显子测序和外显子SNP芯片检测。SNP基因分型可以在任何适用的样本上进行,例如,采集自个体的血液、血浆、血清、组织活检物、体液等。在一个实施方案中,样本是全血、咽拭子、血浆、血清、组织活检物、或其组合。在一些实施方案中,样本是新鲜样本或冷冻样本。可以按常规方法操作,从样本中提取外周血基因组DNA,并进行全外显子组测序,例如应用全外显子芯片,如Illumina Human Exome Asian BeadChip,测序。根据测序结果,比较受试群体(例如,训练集或测试集)中病例与健康对照在全外显子组上的基因型差异,以寻找可能的疾病相关SNP位点。
在一个实施方案中,用于基因型的分析采用SNP芯片确定。在一个实施方案中,SNP分型芯片为Illumina Human Exome Asian BeadChip。在一个实施方案中,SNP分型芯片包含大约200,000-250,000个SNP位点。
在将SNP基因分型结果应用模型构建之前,需要对原始SNP基因型数据分析处理,以将其转化为模型可用的特征。在一个实施方案中,由确定的实际SNP基因型以及由OR值判断的风险相关SNP等位基因,提取个体在该特定SNP位点的基因型特征值,表示为0,1和2,以分别描述个体在所述的SNP位点具有纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因)。
多层次SNP风险位点筛选
在本发明的方法中,多层次SNP风险位点筛选包括至少如下三步,初筛、细筛和复筛。在所述的初筛、细筛和复筛过程中,可以通过本领域技术人员已知的适宜统计量,作为SNP位点的筛选标准,包括,但不限于,卡方检验p值、pearson相关系数、和/或信息增益(KLIC)。或者,可以通过迭代训练模型,通过每次选择部分特征迭代训练模型,根据模型预测效果,评分选择特征的去留;或可以通过所得模型中各个SNP位点的权值系数,根据权值系数的排序,来选择特征的去留。
1)初筛
关联性分析(association study)是对群体的遗传变异多态性进行检测,获得基因型,进而将基因型与表型进行的群体水平统计学分析。由关联性分析,可以获知遗传变异多态性与表型相关性的评估结果及其显著性p值。因此,可以根据关联分析的统计量(例如,遗传变异的OR值和/或显著性P值),筛选出可能影响所述表型的SNP位点。
因此,在一个实施方案中,本发明的乳腺癌PRS模型建立方法包括:在来自大量已知乳腺癌患者(case)和健康个体(control)的训练数据集上,进行遗传变异与乳腺癌的关联分析,和根据关联分析的统计量,初筛疾病相关风险SNP位点。
在一个实施方案中,根据基因分型获得的SNP位点特征及其对应的疾病分类特征(例如,患病vs.未患病),通过全外显子组范围的关联性分析(association study),进行乳腺癌相关风险SNP位点的初筛。
在一些实施方案中,所述关联性分析包括:
-输入训练集样本的SNP位点特征及其对应的乳腺癌分类特征,进行群体水平的关联性统计学分析,确定各SNP位点与所述疾病发病的相关性;
-根据相关性分析获得的统计量(例如,OR值、显著性P值),筛选出最有可能影响该表型的SNP位点,由此得到候选的乳腺癌相关风险SNP位点。
许多用于确定表型与诸如SNP的生物学标志物之间的相关性/关联性的统计学方法是已知的,并可以适用于本发明中。这些关联性分析大多数是计算机可执行的,包括,但不限于PLINK,MAGMA,和GEMMA。
在一个实施方案中,用于关联性分析的群体包含至少5000个样本。在一些实施方案中,所述群体包含大约1:1至1:100的患病个体和健康个体;或符合人群疾病发病比率的患病个体和健康个体。在一个实施方案中,所述群体包含至少大约3000个、4000个、5000个、6000个、7000个、8000个或9000个乳腺癌患者样本。在一个实施方案中,所述群体包含至少大约3000个、4000个、5000个、6000个、7000个、8000个或9000个健康个体样本。
在一个实施方案中,设置用于筛选SNP位点的显著性P值阈值(PT)。可以根据关联性分析得到的候选风险SNP位点的分布,选择PT值。在一个实施方案中,PT阈值选自:1-9×10-3、1-9×10-4、1-9×10-5和1-9×10-6。在一个实施方案中,使用全基因组关联性分析获取候选风险SNP位点,且PT值设定为1-9×10-5,优选地,PT值设定为1×10-5。在一个实施方案中,使用全外显子组关联性分析获取候选风险SNP位点,且PT值设定为大于0.0001,优选地,PT值设定为0.001。在一个优选实施方案中,在本发明的乳腺癌PRS建模方法中,选择根据关联性分析获得的乳腺癌相关性p值小于0.001的SNP位点,用于后续的模型建立步骤。
2)细筛
在本发明的方法中,初筛的乳腺癌相关风险SNP位点,将根据常染色体分成22组;每组采用逻辑回归模型以及逐步回归分析法,进行SNP位点细筛。
在一个实施方案中,逐步回归分析法为逐步回归向后分析。在另一个实施方案中,逐步回归分析法为逐步回归向前分析。
在一个实施方案中,所述细筛包括:
(i)按染色体分组SNP位点,拟合包含单体染色体上的所有候选风险SNP位点的逻辑回归模型,
(ii)在逐步回归向后分析中,按SNP位点对因变量(即,乳腺癌发生)的贡献大小,从小到大进行SNP位点的依次剔除和统计检验,直到根据给定标准,没有SNP位点可被剔除为止。在整个过程中只考虑剔除SNP位点,SNP位点一旦被剔除,则不再考虑引入回归模型。
在一个优选实施方案中,在逐步回归后退分析中,根据最优模型选择准则,确定在每一步回归后退分析所涉及的所有候选SNP位点中,对因变量贡献最小的SNP位点;并根据最优模型选择准则,决定是否剔除对模型贡献最小的该SNP位点;
其中,若与剔除SNP位点前的模型比较,剔除该SNP位点后的模型性能更优,则实施该剔除,并重复该逐步回归后退分析;否则终止该逐步回归后退分析,并返回剔除前模型的所有SNP位点作为经细筛确定的该第条染色体上的乳腺癌相关风险SNP位点。
3)复筛
为了进一步优化用于乳腺癌模型构建的SNP位点集合,可以将22组细筛获得的乳腺癌相关风险SNP位点整合,构建逻辑回归模型,应用逐步回归分析法,进行再次SNP位点筛选。
在一个实施方案中,所述逐步回归分析法为逐步回归向后分析。在另一个实施方案中,所述逐步回归分析法为逐步回归向前分析。
在一个实施方案中,所述复筛包括:
(i)针对细筛获得的所有候选风险SNP位点,分别拟合各SNP位点与因变量(即,乳腺癌发生)的逻辑回归模型,从中选择性能最优的模型,用于后续逐步回归向前分析;
(ii)在逐步回归向前分析中,按SNP位点对因变量(即,乳腺癌发生)的贡献大小,从大到小向模型中依次加入SNP位点并进行统计检验,直到基于给定标准,没有SNP位点可被加入为止。
在一个优选实施方案中,在逐步回归向前分析中,根据最优模型选择准则,确定在每一步回归向前分析所涉及的所有候选SNP位点中对因变量贡献最大的SNP位点,即,相对于其余候选SNP位点之任一的加入,该SNP位点在模型中的加入导致了最优的模型性能。
在再一优选实施方案中,在逐步回归向前分析中,根据最优模型选择准则,决定是否向模型中引入SNP位点。优选地,若与加入SNP位点前的模型比较,加入该SNP位点后的模型性能更优,则实施该加入,并重复该逐步回归向前分析;否则终止该逐步回归向前分析。
在本发明的方法中,在逐步回归分析终止时保留在模型中的所有SNP位点,为经复筛确定的性能最优SNP风险位点集合。
4)SNP位点筛选的AIC评价标准
美国数学家S.Kullback和R.Leibler在1950年代提出,以波茨曼熵相对于真实模型概率函数的期望值来衡量任何一个备选模型与“真实模型”之间的差别/距离,也就是所谓的K-L距离。在1970年前后,日本统计学家Hirotugu Akaike(赤池弘次)以K-L distance为基础推导出了Akaike Information Criterion(AIC)。经过时间的检验,对于以最大拟然估计值法(MLE=Maximum Likelihood Estimation)进行模型参数估计的统计模型家族,AIC已经被认为是用于比较和确定‘最佳’模型的判别准则。虽然无法确定任何一个备选模型与“真实模型”之间的绝对差别,但当对两个以上的备选模型进行比较时,AIC可以比较出各备选模型与“真实模型”的相对差别,AIC值越小代表备选模型与“真实模型”的距离越短(换言之,信息损失越小)。
因此,在本发明的一些优选实施方案中,细筛和复筛步骤中的逐步回归分析,根据AIC准则,通过选择最小的AIC值,来达到自模型中剔除或增加变量以获得SNP最优集合的目的。
在根据本发明方法的一个实施方案中,最优模型选择准则为AIC准则,且逐步逻辑回归向后分析包括如下步骤:
(i)针对候选SNP位点集合(例如,在细筛时,单条染色体上的候选SNP位点集合;或在复筛时,整合22组细筛SNP位点获得的候选SNP位点集合),拟合包含该集合中的所有候选SNP位点的逻辑回归模型,作为用于后续分析的候选模型,确定该模型的AIC值;
(ii)通过自候选模型中删除一个SNP位点并计算删除位点后得到的模型的AIC值,确定在构成候选模型的所有SNP位点中对因变量(即,乳腺癌发生)具有最小贡献的SNP位点,即,相对于其余位点之任一位点的删除,该位点的删除导致了最小的模型AIC值,
(iii)比较由步骤(ii)得到的最小模型AIC值与步骤(i)的候选模型的AIC值,其中:
若AIC值减小,则由候选模型中删除该最小贡献SNP位点,得到新的候选模型,并重复步骤(ii)至(iii);或者
若AIC值不再减少,则终止该逐步回归向后分析,并输出构成当前候选模型的SNP位点集合作为筛选获得的乳腺癌相关风险SNP位点。
在根据本发明方法的再一个实施方案中,最优模型选择准则为AIC准则,且逐步逻辑回归向前分析包括如下步骤:
(i)针对候选SNP位点集合(例如,在细筛时,单条染色体上的候选SNP位点集合;或在复筛时,整合22组细筛SNP位点获得的候选SNP位点集合),拟合所述集合中每个SNP位点分别与因变量(即,乳腺癌发生)的逻辑回归模型,计算并比较各模型的AIC值,选取具有最小AIC值的SNP位点建立逻辑回归模型,作为用于后续分析的候选模型;
(ii)通过在候选模型中引入一个新的SNP位点并计算增加位点后得到的模型的AIC值,从剩余的SNP位点中挑取出对因变量(即,乳腺癌发生)具有最大贡献的一个SNP位点,即,相比于加入其余SNP位点之任一位点,在候选模型中加入该SNP位点后导致了最小的AIC值,
(iii)比较该最小AIC值与增加新SNP位点前的候选模型的AIC值,其中:
若AIC值减小,则在候选回归模型中加入该最大贡献SNP位点,得到新的候选回归模型,并重复步骤(ii)至(iii);或者
若AIC值不再减小,则终止该逐步回归向前分析,并输出当前候选模型以及构成该模型的SNP位点集合作为筛选确定的乳腺癌相关风险SNP位点。
可以使用R语言中用于逐步回归分析的算法,执行上述的迭代模型训练和SNP位点筛选。然而,如本领域技术人员明了的,在本发明的PRS模型建立方法中,也可以使用本领域已知的其它逐步回归算法和最优模型选择准则执行本发明的细筛和复筛步骤。
如实施例所示,通过以最优模型选择准则为基础的两阶段逐步逻辑回归建模,本发明的方法有效地降低了纳入模型的SNP位点的多重共线性程度,获得了对因变量(即,乳腺癌表型)解释性能最优的解释变量集(即,最优SNP集合)。
乳腺癌的多基因遗传风险评估模型建立
在获得最优SNP集合后,可以通过机器学习算法,构建PRS模型。可以适用于的机器学习算法包括但不限于,逻辑回归、、支持向量机(Support Vector Machine)、随机森林、决策树和K-近邻算法。
在一个实施方案中,乳腺癌PRS模型构建包括:
(c1)由复筛获得的风险SNP位点集合,构建逻辑回归模型,并由回归模型中各SNP位点的对应系数确定各风险SNP位点对乳腺癌的效应值,
(c2)建立疾病的多基因疾病风险评级(PRS)模型,
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
n为纳入模型的风险SNP位点总数;
snpi为第i个SNP位点的基因型,分别为0,1,2的整数,以表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为由步骤(c1)确定的该i个SNP位点的效应值。
乳腺癌PRS模型验证
在一个实施方案中,本发明的PRS模型建立方法还包括在测试数据集上验证建立的模型。
如实施例所示,通过本发明的PRS建模方法构建的PRS模型,在独立的测试数据集上,也表现出了具有良好的疾病分类性能;并且在将测试集中正样本(乳腺癌患者样本)与负样本(健康对照样本)的比例降低到7%后,PRS模型的AUC仍然保持,达到大约0.68。而且,如对比例所示,本发明方法构建的PRS模型性能好于现有软件构建的PRS模型的性能。由本发明的方法在中国女性群体中建立的乳腺癌PRS模型,显示在表1中。
因此,在一个方面,本发明也提供了一种PRS评级模型
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
n为表1所列的风险SNP位点总数;
snpi为表1所列的第i个SNP位点的基因型,分别为0,1,2的整数,以表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为该i个SNP位点的效应值。采用本发明表1的风险SNP位点集合,本领域技术人员可以容易地确定适用于目标群体的PRS模型以及各风险SNP位点在所述群体中的疾病效应值。
优选地,本发明的该PRS模型适用于中国女性群体的乳腺癌筛查和乳腺癌风险分层。
II.人群乳腺癌风险分层方法
在再一方面,本发明提供了一种人群乳腺癌风险分层方法,其包括:
(i)构建由目标人群的乳腺癌患者和健康对照组成的训练集,并根据本发明的PRS模型构建方法,建立所述目标人群的乳腺癌风险评级(PRS)模型;
(ii)在独立于所述训练集的测试集上,应用步骤(i)的PRS模型,计算测试集所有样本的PRS值;
(iii)确定人群的PRS百分位分布以及各PRS百分位上的乳腺癌发病率,由此得到该群体的乳腺癌风险分层基线。
III.乳腺癌风险预测方法
在再一方面,本发明提供了一种用于鉴定具有增加的乳腺癌患病风险(或增加的乳腺癌遗传易感性)的个体的方法,所述方法包括:应用本发明PRS风险评级模型,在来自个体的样本上确定乳腺癌的多基因风险评分(PRS),其中,当个体的PRS高于参照PRS时,个体被确定为可能具有增加的乳腺癌患病风险。
在一些实施方案中,参照PRS是预先指定的PRS。在一些实施方案中,参照PRS是参照人群的乳腺癌风险分层基线。在一个实施方案中,所述基线根据参照人群的PRS百分位和乳腺癌发病率的对应关系来确定。在一个实施方案中,基线确定为参照人群的第90%、95%、或98%百分位的PRS值;或确定为参照人群10%、5%、或2%百分位的PRS值。在一些实施方案中,基线确定为参照人群的中位PRS值。
在一些实施方案中,参照人群是由乳腺癌患病个体组成的群体;或是由乳腺癌个体和健康个体组成的群体,群体中的乳腺癌个体与健康个体的比例可以根据待测个体的来源种族和/地区人群的患病率来确定。在一些实施方案中,所述方法为乳腺癌风险预测方法。在一些这样的实施方案中,个体是亚裔女性,例如,个体是具有中国血统的女性,并优选地自述为汉族。具有中国血统的女性可以例如具有至少75%的中国血统,例如,但不限于,所述女性具有至少3个中国血统的祖父母和/或外祖父母。
在一个实施方案中,按PRS百分位数,预测个体患乳腺癌的风险。在一个实施方案中,当个体的PRS值等于或小于参照人群的5%百分位的PRS值时,个体被确定具有较小的乳腺癌遗传易感性或具有较低的乳腺癌发病可能性。
在再一方面,本发明也提供了中国女性的乳腺癌多基因风险评估方法,包括以下步骤:
1)对多个已知乳腺癌患者(case)和健康个体(control)进行基因组或外显子组关联分析,结合多层次位点筛选策略,发现跟乳腺癌相关的风险SNP位点;
2)利用机器学习算法构建乳腺癌疾病多基因风险评估模型;
3)在独立的已知乳腺癌患者样本及健康个体样本上验证模型,并构建中国人群乳腺癌发病风险的人群分层基线;
4)对来自待测个体的目标样本进行芯片测序并对测序数据进行预处理,获取乳腺癌关联风险位点的基因型数据;
5)针对目标样本进行乳腺癌风险位点定位,应用上述乳腺癌疾病多基因风险评估模型进行评估;
6)根据用户填写的基本信息,将步骤5)的评估结果结合步骤3)的人群分层基线,进行个体的风险分层,并结合用户反馈对初步评估结果进行优化。
在一个优选的实施方案中,所述乳腺癌疾病多基因风险评估模型包含表1所列的372个SNP风险位点或其连锁不平衡SNP位点。
IV.用于乳腺癌风险模型建立和风险评估的本发明产品
在一些方面,本发明提供了用于实施本发明前述任一乳腺癌PRS模型建立和风险评估方法的产品。本发明产品的形式包括但不限于,装置、设备和系统。本发明的装置、设备和/或系统可以由实现本发明任一方法的多数个模块或部件组成。在一些实施方案中,“模块”为可以集中在单个计算系统(例如,计算机程序、平板电脑(PAD)、一个或者多个处理器)上执行的软件对象或例程(例如,作为独立的线程)。在另一些实施方案中,实现本发明方法的程序可以存储在非暂态计算机可读介质上,构成本发明装置、设备和/或系统的一部分,其中所述计算机可读介质上包含用于实现本发明方法的计算机程序逻辑或代码部分。在一个实施方案中,用于本发明乳腺癌PRS模型构建或乳腺癌PRS评分的数据集存储在非暂态计算机可读介质中,例如,硬盘或CD-ROM等,其可以独立于本发明装置、设备和/或系统存在,或构成其一部分。在一个实施方案中,本发明装置、设备和/或系统可以配置以与至少一个远程设备或服务器通讯,例如通过通讯网络从服务器接受信息以及通过网络将信息传递给服务器。
虽然在一些实施方案中优选地以软件来实现本文中所描述的模块和方法,但是以硬件或者软件和硬件组合的方式来实现也是可以的,并且是本领域技术人员可以设想的。
除了上述模块/部件外,本发明的装置、设备和/或系统还可以包括其他部件,例如,用于获取核酸样本的部件(如基因组DNA提取试剂盒)和用于提取SNP信息的部件(如SNP芯片或测序装置)。在一个方面,本发明提供了一种用于构建乳腺癌多基因疾病风险(PRS)评级模型的装置或系统,其包括:
一个或多个数据集,其中存储训练数据集,所述训练数据集包含自训练集每个个体样本提取的SNP基因型特征数据和相应的疾病分类特征数据,其中所述训练集由多数个患病个体和多数个健康对照个体组成,
一个或多个计算机可执行的处理器,所述处理器被配置为能够执行本发明的方法步骤,优选地,所述处理器被配置为能够执行以下操作:
(a)访问所述数据集;
(b)在所述数据集上,进行SNP位点与疾病的关联性分析;
(c)对符合PT阈值的SNP位点,按常染色体分组,分别应用逐步逻辑回归分析,筛选对模型贡献显著的SNP位点;
(d)整合由步骤(c)筛选获得的22组SNP位点,应用逐步逻辑回归分析,确定性能最优SNP位点集合;
(e)由步骤(d)的最优SNP位点集合,构建逻辑回归模型,确定模型中各SNP位点的β系数;
(f)按照以下PRS公式,建立疾病PRS评级模型,
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
n为纳入模型的风险SNP位点总数;
snpi为第i个SNP位点的基因型,分别为0,1,2的整数,以表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为由步骤(e)确定的该i个SNP位点的β系数。
在一个方面,本发明提供了一种用于预测个体患乳腺癌风险的装置或系统,所述系统包括:
-至少一个计算机可执行的处理器,所述处理器与电子存储工具偶联,所述存储工具包含预测器的电子表现形式,其中所述预测器为根据本发明的PRS构建方法或应用根据本发明的PRS构建系统生成的疾病多基因疾病风险评级(PRS)模型;
其中所述处理器被配置为接收测试数据,所述测试数据包含在待测个体的样本上提取的所述PRS模型的风险SNP位点的基因型特征,
其中所述处理器进一步被配置为使用所述预测器的电子表现形式评价所述测试数据和基于所述评价来输出有关该测试数据来源个体的疾病PRS风险评分,
优选地,其中所述处理器进一步被配置为将预测器输出的个体PRS评分与个体的临床患病风险评分结合,确定个体的乳腺癌易患性。
在一个方面,本发明提供了一种非暂态计算机可读介质,所述计算机可读介质上存储有计算机程序指令,所述计算机程序指令被计算机或计算机系统执行以实现根据前述任一个所述的本发明模型建立方法、或人群乳腺癌风险分层方法、或乳腺癌多基因疾病风险评级方法的步骤。
在再一方面,本发明提供了一种多基因位点联合乳腺癌风险分析评估平台,包括:
(a)样本预处理模块:用于对来自个体的样本进行测序(例如SNP芯片测序)并对测序数据进行预处理以获取乳腺癌风险SNP位点的基因型数据;
(b)多基因风险评估模块:用于执行本发明的方法步骤以获得个体的乳腺癌风险初步评估报告,并传送给乳腺癌风险评估模块;
(c)乳腺癌风险评估模块:根据乳腺癌风险评估模块传送的个体乳腺癌风险初步评估报告,结合数据分管处理模块反馈的数据,对初步评估结果进行后期的数据学习和优化评估;
(c)报告呈现及用户反馈模块:用于呈现评估报告、收集用户反馈并传送给数据分管处理模块;
(d)数据分管处理模块:用于管理用户数据并反馈给乳腺癌风险评估模块。
优选地,所述预处理包括对测序数据进行质控。例如,在采用芯片测序的情况下,可以根据芯片厂商设置的默认值,进行质控以保证产出有效基因型分型数据。对合格样本进行后续处理,提取疾病风险位点。或者,若数据不合格,则重新测序。
优选地,所述初步评估是根据本发明方法构建的乳腺癌多基因疾病风险评级(PRS)模型,计算个体的PRS评分。
更优选地,所述用户的基本信息包括用户的族裔、地理区域、性别、年龄和生活习惯,和/或用户的临床乳腺癌患病风险评分。
优选地,所述多基因风险评估模块通过初步评估得到初步评估报告并在报告呈现及用户反馈模块中呈现;所述乳腺癌风险评估模块通过后期优化评估得到后期优化评估报告并在报告呈现及用户反馈模块中呈现。
应用本发明装置或系统可以进行个体的乳腺癌风险管理。因此,在一个方面,本发明也提供了一种乳腺癌风险管理方法,包括以下步骤:
(1)应用根据本发明的PRS构建和评分装置或系统,获得个体的PRS评分;
(2)结合个体所在群体的疾病发病风险分层基线,预测个体的疾病遗传易感性(即,患病的遗传倾向);
(3)任选地,结合个体的家族遗传背景和/或环境与生活方式调查,预测个体在一段时期中的疾病发病风险;
(4)任选地,给高风险个体提供医学建议,以管理个体的疾病发病风险。
在再一个方面,本发明也提供了适用于乳腺癌PRS评级的组合物,其中所述组合物包含(或者其组成为)用于在来自个体的样品上对表1所列的372个SNP风险位点中至少85%、90%、95%或100%的位点或其连锁不平衡位点进行基因型分型的试剂或试剂组合。优选地,所述组合物以微阵列芯片的形式存在。再优选地,所述组合物包含用于检测所述SNP位点基因型的引物和/或探针组。例如适用于扩增所述SNP位点的引物对可以按照本领域已知的方法进行设计,例如,采用公众可获得的引物设计软件“Oligo”设计。类似地,适用于检测包含SNP的核酸(例如,包含SNP的扩增子)的探针可以按照本领域已知的方法进行设计。引物和/或探针可以根据需要进行标记,例如放射性标记,或以其它合适方式(例如,使用荧光标记物)标记,以允许快速识别不同的扩增子。
在一个实施方案中,本发明也提供了根据本发明的组合物在制备用于中国人群乳腺癌风险分层或用于预测中国女性个体的乳腺癌易感性的产品中的用途。所述产品可以为试剂盒的形式,其可以单独使用;或与本发明的装置或系统或计算机程序产品组合使用。
表1:372个SNP风险位点的染色体位置、ID编号以及参考等位基因(REF)和变异等位基因(ALT)
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
具体实施方案
1.一种用于构建多基因乳腺癌风险评级(PRS)模型的方法,所述方法包括:
(a)获取用于PRS模型构建的训练数据集,其中,所述训练数据集包含自训练集的每个个体样本提取的SNP基因型特征数据和相应的乳腺癌分类特征数据,其中,其中所述训练集由多数个患病个体样本和多数个健康对照个体样本组成,
优选地,其中所述SNP基因型特征为提取自个体样本的全基因组或全外显子组范围的SNP基因型特征;
优选地,乳腺癌分类特征为个体是否罹患疾病的患病情况;
(b)实施多层次SNP风险位点筛选;
(c)应用步骤(b)选择的SNP风险位点集合,通过机器学习算法,构建PRS模型,
其中,所述步骤(b)的多层次SNP风险位点筛选包括:
(b1)在训练数据集上进行SNP位点与乳腺癌的关联性分析,确定每个SNP位点的风险等位基因以及与乳腺癌的相关性和显著性p值;
(b2)对p值符合PT阈值的SNP位点,按常染色体分组,分别应用逻辑回归建模和逐步回归分析法,选择对模型贡献显著的SNP位点;
(b3)整合由步骤(b2)筛选获得的22组SNP位点,建立逻辑回归模型,并应用逐步回归分析法,确定用于步骤(c)的性能最优SNP风险位点集合。
2.根据实施方案1的方法,其中,步骤(c)包括:
(c1)由步骤(b)得到的风险SNP位点集合,构建逻辑回归模型,并由回归模型中各SNP位点的对应系数确定各SNP位点对乳腺癌的效应值,
(c2)建立乳腺癌的多基因乳腺癌风险评级(PRS)模型,
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
n为纳入模型的风险SNP位点总数;
snpi为第i个SNP位点的基因型,分别为0,1,2的整数,以表示纯合非风险位点(包含0个风险等位
基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为由步骤(c1)确定的该i个SNP位点的效应值。
3.根据实施方案1-2的方法,其中,PT阈值选自:1-9×10-3、1-9×10-4、1-9×10-5和1-9×10-6
优选地,在全外显子组范围提取样本的SNP基因型,且PT阈值选自1-5×10-3,优选1×10-3
4.根据实施方案1-3的方法,其中,步骤(b1)采用卡方检验,进行SNP位点与乳腺癌的关联性分析。
5.根据实施方案1-4的方法,其中,步骤(b2)和(b3)的逐步回归分析彼此独立地选自:逐步回归向前分析和逐步回归向后分析。
6.根据实施方案1-5的方法,其中,步骤(b2)和(b3)采用最优模型选择准则,作为SNP位点的筛选标准和/或逐步回归的终止条件。
7.根据实施方案1-6的方法,其中,采用AIC最优模型选择准则,实施步骤(b2)和(b3)的逐步回归分析。
8.根据实施方案1-7的方法,其中,步骤(b2)应用逐步回归向后分析。
9.根据实施方案1-8的方法,其中,步骤(b3)应用逐步回归向前分析。
10.根据实施方案1-9的方法,其中,训练集中,乳腺癌患者个体数量与健康对照个体数量的比值为1:1至1:100,或大约等于目标群体的乳腺癌发病率,例如,在疾病为乳腺癌时,7%,
优选地,训练集由来自至少3000、4000、5000、6000、7000、8000、9000、10000、11000、12000、15000、20000、25000、30000个或更多个体的样本组成;优选地,样本为来自个体的血液、血清、血浆、或组织活检物。
11.根据实施方案1-10的方法,其中,所述方法还包括:在独立于训练集的验证集上验证步骤(c)建立的模型。
12.根据实施方案1-11的方法,其中,步骤(c)模型的ROC-AUC值达到大约0.65以上,例如为大约0.68,
优选地,模型为包含大约300-600个风险SNP位点的逻辑回归模型,优选地,模型包含350-400个SNP位点。
13.一种人群乳腺癌风险分层方法,包括:
(i)根据实施方案1-12的方法,构建由目标人群的乳腺癌患者和健康对照组成的训练集,建立所述目标人群的乳腺癌风险评级(PRS)模型;
(ii)在独立于所述训练集的测试集上,应用步骤(i)的PRS模型,计算测试集所有样本的PRS值;
(iii)确定人群的PRS百分位分布以及各PRS百分位上的乳腺癌发病率,由此得到该群体的乳腺癌风险分层基线。
14.根据实施方案13的方法,其中,所述人群为中国女性,尤其是汉族女性。
15.一种用于乳腺癌多基因疾病风险评级的方法,包括:
(i)对与待测个体属于相同族裔且优选地来自相同地理区域的目标人群,应用实施方案13的方法建立PRS模型和该群体的乳腺癌风险分层基线;
(ii)确定个体的风险SPN位点基因型,并计算待测个体的PRS值,比较个体的PRS值与群体的乳腺癌风险分层基线,对个体的乳腺癌易感性作出预测。
16.根据实施方案15的方法,其中,按PRS百分位数,预测个体的患病风险,
优选地,其中,若个体的PRS低于群体5%PRS百分位,则指示相对于群体的平均乳腺癌易感性,该个体具有相对低的乳腺癌易感性;或
其中,若个体的PRS高于群体95%PRS百分位,指示相对于群体的平均乳腺癌易感性,该个体具有相对高的乳腺癌易感性。
17.根据实施方案15-16的方法,其中,所述个体为中国女性,所述PRS模型包含表1所列的372个SNP风险位点。
18.根据实施方案15-17的方法,其中,所述方法还包括:结合个体的临床患病风险评分,确定个体的乳腺癌易患性。
19.根据实施方案15-18的方法,其中个体为尚未表现出乳腺癌病征的个体。
20.根据实施方案15-18的方法,其中,对预测为乳腺癌高易感性的个体,给与医学建议,例如,更频繁的乳腺癌筛查和/或预防性治疗。
21.一种用于构建乳腺癌多基因疾病风险(PRS)评级模型的装置或系统,其包括:
一个或多个数据集,其中存储训练数据集,所述训练数据集包含自训练集每个个体样本提取的SNP基因型特征数据和相应的乳腺癌分类特征数据,其中所述训练集由多数个患病个体和多数个健康对照个体组成,
一个或多个计算机可执行的处理器,所述处理器被配置为能够执行实施方案1-12任一项的方法步骤,优选地,所述处理器被配置为能够执行以下操作:
(a)访问所述数据集;
(b)在所述数据集上,进行SNP位点与乳腺癌的关联性分析;
(c)对符合PT阈值的SNP位点,按常染色体分组,分别应用逐步逻辑回归分析,筛选对模型贡献显著的SNP位点;
(d)整合由步骤(c)筛选获得的22组SNP位点,应用逐步逻辑回归分析,确定性能最优SNP位点集合;
(e)由步骤(d)的最优SNP位点集合,构建逻辑回归模型,确定模型中各SNP位点的β系数;
(f)按照以下PRS公式,建立乳腺癌PRS评级模型,
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
n为纳入模型的风险SNP位点总数;
snpi为第i个SNP位点的基因型,分别为0,1,2的整数,以表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为由步骤(e)确定的该i个SNP位点的β系数。
22.根据实施方案21的装置或系统,其中,所述SNP基因型特征数据为训练集个体的全基因组或全外显子组范围的SNP基因型特征;且所述乳腺癌分类特征为个体是否罹患所述乳腺癌的患病情况。
23.一种用于预测个体患乳腺癌风险的装置或系统,所述系统包括:
-至少一个计算机可执行的处理器,所述处理器与电子存储工具偶联,所述存储工具包含预测器的电子表现形式,其中所述预测器为根据实施方案1-10的方法或应用根据实施方案21的系统生成的乳腺癌多基因疾病风险评级(PRS)模型;
其中所述处理器被配置为接收测试数据,所述测试数据包含在待测个体的样本上提取的所述PRS模型的风险SNP位点的基因型特征,
其中所述处理器进一步被配置为使用所述预测器的电子表现形式评价所述测试数据和基于所述评价来输出有关该测试数据来源个体的乳腺癌PRS风险评分,
优选地,其中所述处理器进一步被配置为将预测器输出的个体PRS评分与个体的临床患病风险评分结合,确定个体的乳腺癌易患性。
24.根据实施方案23的装置或系统,其中所述个体为中国女性,所述PRS模型包含表1所列的372个SNP位点。
25.一种非暂态计算机可读介质,所述计算机可读介质上存储有计算机程序指令,所述计算机程序指令被计算机或计算机系统执行以实现根据前述实施方案任一个所述的模型建立方法、或人群乳腺癌风险分层方法、或乳腺癌多基因疾病风险评级方法的步骤。
26.一种多基因位点联合乳腺癌风险分析评估系统,包括:
(a)样本预处理模块:用于对来自个体的样本进行测序(例如SNP芯片测序)并对测序数据进行预处理以获取乳腺癌风险SNP位点的基因型数据;
(b)多基因风险评估模块:用于执行实施方案15-20任一项的方法步骤以获得个体的乳腺癌风险初步评估报告,并传送给乳腺癌风险评估模块;
(c)乳腺癌风险评估模块:根据多基因风险评估模块传送的个体乳腺癌风险初步评估报告,结合数据分管处理模块反馈的数据,对初步评估结果进行后期的数据学习和优化评估;
(d)报告呈现及用户反馈模块:用于呈现评估报告、收集用户反馈并传送给数据分管处理模块;
(e)数据分管处理模块:用于管理用户数据并反馈给乳腺癌风险评估模块。
27.根据实施方案26的评估系统,其中所述用户的基本信息包括用户的族裔、地理区域、性别、年龄和生活习惯,和/或用户的临床患病风险评分。
28.一种乳腺癌风险管理方法,包括以下步骤:
(1)应用根据实施方案23的装置或系统,获得个体的PRS评分;
(2)结合个体所在群体的乳腺癌发病风险分层基线,预测个体的乳腺癌遗传易感性(即,患病的遗传倾向);
(3)任选地,结合个体的家族遗传背景和/或环境与生活方式调查,预测个体在一段时期中的乳腺癌发病风险;
(4)任选地,给高风险个体提供医学建议,以管理个体的乳腺癌发病风险。
29.用于乳腺癌多基因风险评级的组合物,其中所述组合物包含用于在来自个体的样品上对表1所列的372个SNP风险位点进行基因型分型的试剂或试剂组合,
优选地,所述组合物以微阵列芯片的形式存在。
30.根据实施方案29的组合物在制备用于中国人群乳腺癌风险分层或用于预测中国女性个体的乳腺癌易感性的产品中的用途。
实施例
实施例1多层次SNP风险位点筛选
训练集样本选择
选取6026个乳腺癌患者(case),要求为经病理学明确诊断及采血前未接受过放疗或化疗、无既往肿瘤病史的乳腺癌病例。同时选取与病例年龄匹配的、经临床确定为无乳腺癌、且无乳腺癌家族史的5974个健康女性作为对照(control)。所有病例和对照均为中国女性,并自述为汉族。所有参与者签署知情同意书。本研究获得机构伦理委员会批准,并按照赫尔辛基宣言的准则进行。
全外显组基因型分型
按常规方法操作,提取受试者的外周血基因组DNA。使用Illumina Human ExomeAsian BeadChip芯片,在受试者全基因组DNA样本上进行全外显子组基因型分型。该芯片平台包括自大于12,000个外显组和基因组测序数据中挑选的242,102个SNP位点、以及在中国人群的全外显组测序中鉴定的30,642个中国群体特异的编码区变异(coding variant)。关于所述芯片的SNP构成信息,参见DOI:10.1158/0008-5472.CAN-17-1721,A Large-ScaleExome-Wide Association Study of Han Chinese Women Identifies Three Novel LociPredisposing to Breast Cancer。
对芯片测序数据进行质控处理,过滤去除所有HLA SNP和非常染色上的SNP,并排除如下SNP位点:(1)基因分型检出率(genotyping call rate)小于99%的SNP位点;(2)次等位基因(minor allele frequency,MAF)小于0.01的SNP位点;和(3)在对照群体中显著偏离哈代-温伯格(HWE)平衡的SNP位点。
SNP位点初筛
应用PLINK软件,选择assoc卡方检验,使用默认参数,在来自上述训练集12000个样本的基因型和表型数据上,进行SNP与乳腺癌相关性的群体水平分析。由该分析获得各SNP位点的风险等位基因和相应的卡方检验p值。以p值<0.001为界限,筛选到752个候选风险SNP位点。
SNP位点细筛
对于初筛得到的752个SNP位点,以常染色体为单位分成22组。应用R语言中的逐步回归向后分析,针对每组SNP位点,进行SNP位点筛选。
简言之,逐步回归向后分析包括如下步骤:
(i)针对单条染色体c上的候选SNP位点集合,拟合包含该集合中的所有候选SNP位点的逻辑回归模型,作为用于后续分析的候选模型,确定该模型的AIC值;
(ii)通过自候选模型中删除一个SNP位点并计算删除位点后得到的模型的AIC值,确定在构成候选模型的所有SNP位点中对因变量(乳腺癌发生)具有最小贡献的SNP位点,即,相对于其余位点之任一位点的删除,该位点的删除导致了最小的模型AIC值,
(iii)比较由步骤(ii)得到的最小模型AIC值与步骤(i)的候选模型的AIC值,其中:
若AIC值减小,则由候选模型中删除该最小贡献SNP位点,得到新的候选模型,并重复步骤(ii)至(iii);或者
若AIC值不再减少,则终止该逐步回归向后分析,并输出构成当前候选模型的SNP位点集合作为经细筛确定的该第c号染色体的乳腺癌相关风险SNP位点。
整合由细筛确定的22条染色体的乳腺癌相关风险SNP位点,得到一共546个风险SNP位点。
SNP位点复筛
以细筛获得的546个SNP位点构建逻辑回归模型,应用R语言中的逐步回归向前分析,进行SNP位点筛选。
简言之,逐步回归向前分析包括如下步骤:
(i)546个候选SNP位点分别与因变量(乳腺癌发生)建立逻辑回归模型,计算并比较各模型的AIC值,选取具有最小AIC值的SNP位点建立逻辑回归模型,作为用于后续分析的候选模型;
(ii)通过在候选模型中引入一个新的SNP位点并计算增加位点后得到的模型的AIC值,从剩余的SNP位点中挑取出对因变量(乳腺癌发生)具有最大贡献的一个SNP位点,即,相比于加入其余SNP位点之任一位点,在候选模型中加入该SNP位点后导致了最小的AIC值,
(iii)比较该最小AIC值与增加新SNP位点前的候选模型的AIC值,其中:
若AIC值减小,则在候选回归模型中加入该最大贡献SNP位点,得到新的候选回归模型,并重复步骤(ii)至(iii);或者
若AIC值不再减小,则终止该逐步回归向前分析,并输出当前候选模型以及构成该模型的SNP位点集合作为复筛确定的乳腺癌相关风险SNP位点。
经复筛,在本实施例中筛选得到了372个风险SNP位点。表1显示了372个风险SNP位点的染色体位置和风险等位基因型。
实施例2乳腺癌多基因遗传风险评估模型构建
应用细筛获得的546个风险SNP位点和复筛获得的372个风险SNP位点,通过机器学习建模,构建546位点和372位点逻辑回归模型。基于构建的逻辑回归模型,按照如下公式,分别建立546位点和372位点乳腺癌多基因遗传风险评估模型:
PRS(GPS)=β1×snp12×snp2+...βn×snpn
其中:snpn为样本中该n个SNP位点的基因型,分别用0,1,2表示纯合非风险位点、杂合位点及纯合风险位点。β为该SNP位点对于乳腺癌的效应值,即546位点和372位点逻辑回归模型中对应于该SNP位点的β系数。
实施例3:546位点模型验证
按照与训练集样本筛选相同的标准,构建独立的测试集,其中入选了2005个乳腺癌患者与2061个健康个体;并按照实施例1相同的描述,对组成测试集的个体分别进行基因型分型,获得其在546个风险SNP位点的基因型。
以实施例2建立的546位点乳腺癌多基因遗传风险评估模型,计算所有测试集样本的乳腺癌多基因遗传风险(PRS)值。根据测试集PRS值,绘制case和control对比密度图(图2)。红色代表2005个乳腺癌样本,蓝色代表2061个健康样本。乳腺癌样本平均风险值为0.386,健康样本平均风险值为-0.557。从图2可以看到,乳腺癌患者和健康个体的乳腺癌多基因遗传风险值可以显著区分开。绘制模型的受试者工作特征曲线(receiver operatingcharacteristic curve,ROC曲线),计算曲线下面积(Area Under Curve)AUC为0.68(图3)。之后,采用bootstrap放回抽样方法从测试集中抽样4066个样本,形成2000个模拟测试集,获得AUC值的95%CI为0.66-0.69。
对于人群乳腺癌风险分层,按计算的PRS评分,从低到高对4066个测试集个体进行排序,获得每个个体的PRS百分位排序。然后将PRS百分位分为20组,每5%百分位为一组,计算每组发病率,并绘制乳腺癌发病率和PRS关系图(图4)。从图中可以看到,落在前5%PRS百分位的个体,其乳腺癌患者只占10%左右,而落在95%PRS百分位的个体,其乳腺癌患者占比达到了80%左右,人群乳腺癌风险分层效果非常明显。
实施例4:372位点模型验证
应用实施例3相同的测试集样本,验证372位点模型。具体而言,以实施例2建立的372位点乳腺癌多基因遗传风险评估模型,计算所有测试集样本的乳腺癌多基因遗传风险(PRS)值。根据测试集的PRS值,绘制case和control对比密度图,见图5。红色代表2005个乳腺癌样本,蓝色代表2061个健康样本。乳腺癌样本平均风险值为0.389,健康样本平均风险值为-0.528。在该测试集上绘制372位点模型的ROC曲线,计算AUC值也为0.68,见图6。
实施例5:372位点模型验证
构建模拟中国人群乳腺癌7%发病率的测试集样本。简言之,自上述4066个测试集样本中的2005个乳腺癌患者中随机抽样156个样本,与该测试集的2061个健康样本混合,共2217个样本,形成模拟中国人群乳腺癌7%发病率的模拟测试集。如此重复抽样100次,形成100个模拟测试集。应用372位点模型,计算模拟测试集每个个体的PRS评分;并按计算的PRS评分从低到高对模拟测试集个体进行排序,获得每个个体的PRS百分位排序。基于PRS百分位分为20组,每5%百分位为一组,计算每组发病率,绘制乳腺癌发病率和PRS关系的箱状图(图7)。落在前95%PRS百分位的个体,其乳腺癌患病率达到18%左右,而落在50%PRS百分位的个体,其乳腺癌患患病率达到了6%左右,乳腺癌发病率相差3倍左右;并且落在95%PRS百分位上个体的乳腺癌患病风险较5%PRS百分位上个体提高20倍或以上,人群乳腺癌风险分层效果相当明显。绘制受试者工作特征曲线(receiver operating characteristiccurve,ROC曲线),计算曲线下面积(Area Under Curve)AUC为0.68。
实施例6:乳腺癌风险预测
应用372位点模型,计算待测样本的PRS值和PRS百分位,预测样本的乳腺癌患病风险。
乳腺癌患者样本201209DBC01650的PRS值为1.17,PRS百分位90%。健康样本UC9466的PRS值为-2.72,PRS百分位10%。两者乳腺癌风险分层效果非常明显。
待测样本201304DBC02137,计算多基因遗传风险评估分值为1.62,人群百分位达96%,属于乳腺癌遗传高风险,后证实是乳腺癌患者;另一待测本UC9466,计算多基因遗传风险评估分值为-2.72,人群百分位为10%,属于乳腺癌低风险,后证实已72岁,到目前为止还未患乳腺癌。
对比例
1.样本选择:采用实施例1的训练集(6026个乳腺癌患者(case),与病例年龄匹配的无乳腺癌家族史的5974个健康女性作为对照(control))。采用实施例2的测试集样本(2005个乳腺癌患者与2061个健康个体)。
2.对上述训练集12000个样本进行全外显组的SNP检测,获得各个样本的基因型。按实施例1所述,将基因型与乳腺癌进行群体水平的相关分析,对33348个SNP位点进行卡方检验,计算P值和OR值。
3.应用PRSice(最常用的多基因风险评分软件之一),识别并选择每个LD block中相关性最显著的SNP(即P值最低),保留29911个SNP以进行下一步分析。
4.设定P值阈值参数0.001,0.05,0.1,0.2,0.3,0.4,0.5,1,根据阈值筛选29911个SNP,分别构建不同的PRS模型,计算PRS和拟合优度(R-square).拟合优度最高的PRS模型为阈值0.5筛选的12643个SNP构建的模型。输出最优PRS模型预测的4066个测试样本的PRS。
5.PRSice计算的受试者风险值工作特征曲线(receiver operatingcharacteristic curve,ROC曲线)见图8,计算曲线下面积(Area Under Curve)AUC为0.63。
无论372位点逻辑回归模型还是546位点逻辑回归模型,ROC曲线下面积(AreaUnder Curve)AUC值都为0.68,高于PRSice软件计算的风险预测模型的AUC值0.63。说明前两者的逻辑回归模型预测乳腺癌风险的效果,优于PRSice计算的预测模型。

Claims (10)

1.一种用于构建多基因乳腺癌风险评级(PRS)模型的方法,所述方法包括:
(a)获取用于PRS模型构建的训练数据集,其中,所述训练数据集包含自训练集的每个个体样本提取的SNP基因型特征数据和相应的乳腺癌分类特征数据,其中,其中所述训练集由多数个患病个体样本和多数个健康对照个体样本组成,
优选地,其中所述SNP基因型特征为提取自个体样本的全基因组或全外显子组范围的SNP基因型特征;
优选地,乳腺癌分类特征为个体是否罹患疾病的患病情况;
(b)实施多层次SNP风险位点筛选;
(c)应用步骤(b)选择的SNP风险位点集合,通过机器学习算法,构建PRS模型,
其中,所述步骤(b)的多层次SNP风险位点筛选包括:
(b1)在训练数据集上进行SNP位点与乳腺癌的关联性分析,确定每个SNP位点的风险等位基因以及与乳腺癌的相关性和显著性p值;
(b2)对p值符合PT阈值的SNP位点,按常染色体分组,分别应用逻辑回归建模和逐步回归分析法,选择对模型贡献显著的SNP位点;
(b3)整合由步骤(b2)筛选获得的22组SNP位点,建立逻辑回归模型,并应用逐步回归分析法,确定用于步骤(c)的性能最优SNP风险位点集合。
2.一种人群乳腺癌风险分层方法,包括:
(i)根据权利要求1的方法,构建由目标人群的乳腺癌患者和健康对照组成的训练集,建立所述目标人群的乳腺癌风险评级(PRS)模型;
(ii)在独立于所述训练集的测试集上,应用步骤(i)的PRS模型,计算测试集所有样本的PRS值;
(iii)确定人群的PRS百分位分布以及各PRS百分位上的乳腺癌发病率,由此得到该群体的乳腺癌风险分层基线。
3.一种用于乳腺癌多基因疾病风险评级的方法,包括:
(i)对与待测个体属于相同族裔且优选地来自相同地理区域的目标人群,应用权利要求2的方法建立PRS模型和该群体的乳腺癌风险分层基线;
(ii)确定个体的风险SPN位点基因型,并计算待测个体的PRS值,比较个体的PRS值与群体的乳腺癌风险分层基线,对个体的乳腺癌易感性作出预测。
4.一种用于构建乳腺癌多基因疾病风险(PRS)评级模型的装置或系统,其包括:
一个或多个数据集,其中存储训练数据集,所述训练数据集包含自训练集每个个体样本提取的SNP基因型特征数据和相应的乳腺癌分类特征数据,其中所述训练集由多数个患病个体和多数个健康对照个体组成,
一个或多个计算机可执行的处理器,所述处理器被配置为能够执行权利要求1的方法步骤,优选地,所述处理器被配置为能够执行以下操作:
(a)访问所述数据集;
(b)在所述数据集上,进行SNP位点与乳腺癌的关联性分析;
(c)对符合PT阈值的SNP位点,按常染色体分组,分别应用逐步逻辑回归分析,筛选对模型贡献显著的SNP位点;
(d)整合由步骤(c)筛选获得的22组SNP位点,应用逐步逻辑回归分析,确定性能最优SNP位点集合;
(e)由步骤(d)的最优SNP位点集合,构建逻辑回归模型,确定模型中各SNP位点的β系数;
(f)按照以下PRS公式,建立乳腺癌PRS评级模型,
PRS=β1×snp12×snp2+…+βi×snpi+…+βn×snpn
其中,
n为纳入模型的风险SNP位点总数;
snpi为第i个SNP位点的基因型,分别为0,1,2的整数,以表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
βi为由步骤(e)确定的该i个SNP位点的β系数。
5.一种用于预测个体患乳腺癌风险的装置或系统,所述系统包括:
-至少一个计算机可执行的处理器,所述处理器与电子存储工具偶联,所述存储工具包含预测器的电子表现形式,其中所述预测器为根据权利要求1的方法或应用根据权利要求4的系统生成的乳腺癌多基因疾病风险评级(PRS)模型;
其中所述处理器被配置为接收测试数据,所述测试数据包含在待测个体的样本上提取的所述PRS模型的风险SNP位点的基因型特征,
其中所述处理器进一步被配置为使用所述预测器的电子表现形式评价所述测试数据和基于所述评价来输出有关该测试数据来源个体的乳腺癌PRS风险评分,
优选地,其中所述处理器进一步被配置为将预测器输出的个体PRS评分与个体的临床患病风险评分结合,确定个体的乳腺癌易患性。
6.一种非暂态计算机可读介质,所述计算机可读介质上存储有计算机程序指令,所述计算机程序指令被计算机或计算机系统执行以实现根据前述权利要求任一个所述的模型建立方法、或人群乳腺癌风险分层方法、或乳腺癌多基因疾病风险评级方法的步骤。
7.一种多基因位点联合乳腺癌风险分析评估系统,包括:
(a)样本预处理模块:用于对来自个体的样本进行测序(例如SNP芯片测序)并对测序数据进行预处理以获取乳腺癌风险SNP位点的基因型数据;
(b)多基因风险评估模块:用于执行权利要求3的方法步骤以获得个体的乳腺癌风险初步评估报告,并传送给乳腺癌风险评估模块;
(c)乳腺癌风险评估模块:根据多基因风险评估模块传送的个体乳腺癌风险初步评估报告,结合数据分管处理模块反馈的数据,对初步评估结果进行后期的数据学习和优化评估;
(d)报告呈现及用户反馈模块:用于呈现评估报告、收集用户反馈并传送给数据分管处理模块;
(e)数据分管处理模块:用于管理用户数据并反馈给乳腺癌风险评估模块。
8.一种乳腺癌风险管理方法,包括以下步骤:
(1)应用根据权利要求7的装置或系统,获得个体的PRS评分;
(2)结合个体所在群体的乳腺癌发病风险分层基线,预测个体的乳腺癌遗传易感性(即,患病的遗传倾向);
(3)任选地,结合个体的家族遗传背景和/或环境与生活方式调查,预测个体在一段时期中的乳腺癌发病风险;
(4)任选地,给高风险个体提供医学建议,以管理个体的乳腺癌发病风险。
9.用于乳腺癌多基因风险评级的组合物,其中所述组合物包含用于在来自个体的样品上对表1所列的372个SNP风险位点进行基因型分型的试剂或试剂组合,
优选地,所述组合物以微阵列芯片的形式存在。
10.根据权利要求9的组合物在制备用于中国人群乳腺癌风险分层或用于预测中国女性个体的乳腺癌易感性的产品中的用途。
CN202210896748.9A 2022-07-28 2022-07-28 一种用于乳腺癌多基因遗传风险评估的方法和系统 Pending CN116469552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210896748.9A CN116469552A (zh) 2022-07-28 2022-07-28 一种用于乳腺癌多基因遗传风险评估的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210896748.9A CN116469552A (zh) 2022-07-28 2022-07-28 一种用于乳腺癌多基因遗传风险评估的方法和系统

Publications (1)

Publication Number Publication Date
CN116469552A true CN116469552A (zh) 2023-07-21

Family

ID=87172319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210896748.9A Pending CN116469552A (zh) 2022-07-28 2022-07-28 一种用于乳腺癌多基因遗传风险评估的方法和系统

Country Status (1)

Country Link
CN (1) CN116469552A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789819A (zh) * 2024-02-27 2024-03-29 北京携云启源科技有限公司 Vte风险评估模型的构建方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789819A (zh) * 2024-02-27 2024-03-29 北京携云启源科技有限公司 Vte风险评估模型的构建方法

Similar Documents

Publication Publication Date Title
US20210172024A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN111278993A (zh) 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
US11773448B2 (en) Methods for assessing risk of developing colorectal cancer
Halperin et al. A method to reduce ancestry related germline false positives in tumor only somatic variant calling
CN107002138A (zh) 用于评估发展乳腺癌风险的方法
US20220367063A1 (en) Polygenic risk score for in vitro fertilization
CN110382712A (zh) 用于评估发展乳腺癌的风险的改进方法
WO2023071877A1 (zh) 泌尿系统结石术后复发风险预测模型、评估系统及方法
JP2023071770A (ja) 体細胞構造変異の検出のための方法、及び、システム
JP2020536585A (ja) 乳癌発症リスクの評価法
Hanson et al. Management of individuals with germline pathogenic/likely pathogenic variants in CHEK2: A clinical practice resource of the American College of Medical Genetics and Genomics (ACMG)
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
WO2021078794A1 (en) In vitro method for determining the risk of developing breast cancer in a subject
Xu et al. The interplay between host genetics and the gut microbiome reveals common and distinct microbiome features for human complex diseases
CN116343902A (zh) 一种用于复杂疾病多基因遗传风险评估的方法和系统
Meisner et al. Disease risk models
US20030170638A1 (en) Methods to determine genetic risk through analysis of very large families
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
Yang et al. Minimum description length and empirical Bayes methods of identifying SNPs associated with disease
Xi et al. Noninvasive prenatal detection of trisomy 21 by targeted semiconductor sequencing: a technical feasibility study
Vince Jr et al. Assessing the Clinical Utility of Published Prostate Cancer Polygenic Risk Scores in a Large Biobank Data Set
AU2022407711A1 (en) Breast cancer risk assessment
WO2023102601A1 (en) Breast cancer risk assessment
Suhonen et al. Calculating polygenic risk scores using down-sampled low-coverage whole-genome sequencing data in a Finnish cohort
CN115074446A (zh) 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination