CN106295241A - 基于brca1和brca2突变的乳腺癌患病风险评估算法 - Google Patents
基于brca1和brca2突变的乳腺癌患病风险评估算法 Download PDFInfo
- Publication number
- CN106295241A CN106295241A CN201510364732.3A CN201510364732A CN106295241A CN 106295241 A CN106295241 A CN 106295241A CN 201510364732 A CN201510364732 A CN 201510364732A CN 106295241 A CN106295241 A CN 106295241A
- Authority
- CN
- China
- Prior art keywords
- beta
- risk
- lambda
- breast cancer
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 63
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 63
- 238000012502 risk assessment Methods 0.000 title claims abstract description 12
- 102000036365 BRCA1 Human genes 0.000 title claims description 29
- 101150072950 BRCA1 gene Proteins 0.000 title claims description 25
- 101150008921 Brca2 gene Proteins 0.000 title claims description 25
- 108700020463 BRCA1 Proteins 0.000 title claims description 24
- 108700020462 BRCA2 Proteins 0.000 title claims description 24
- 102000052609 BRCA2 Human genes 0.000 title claims description 24
- 201000008275 breast carcinoma Diseases 0.000 title abstract 5
- 230000035772 mutation Effects 0.000 claims abstract description 93
- 201000010099 disease Diseases 0.000 claims abstract description 37
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 37
- 238000007476 Maximum Likelihood Methods 0.000 claims description 12
- 230000004083 survival effect Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 8
- 108700040618 BRCA1 Genes Proteins 0.000 claims description 7
- 108700010154 BRCA2 Genes Proteins 0.000 claims description 7
- 230000001717 pathogenic effect Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 208000033640 Hereditary breast cancer Diseases 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 208000025581 hereditary breast carcinoma Diseases 0.000 claims description 5
- 206010033128 Ovarian cancer Diseases 0.000 claims description 4
- 206010061535 Ovarian neoplasm Diseases 0.000 claims description 4
- 201000011510 cancer Diseases 0.000 claims description 4
- 208000007848 Alcoholism Diseases 0.000 claims description 3
- 206010028980 Neoplasm Diseases 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 206010001584 alcohol abuse Diseases 0.000 claims description 3
- 208000025746 alcohol use disease Diseases 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000001794 hormone therapy Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 230000009245 menopause Effects 0.000 claims description 3
- 230000008506 pathogenesis Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000391 smoking effect Effects 0.000 claims description 3
- 239000012855 volatile organic compound Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 238000009806 oophorectomy Methods 0.000 claims description 2
- 210000003101 oviduct Anatomy 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000001018 virulence Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 1
- 239000003471 mutagenic agent Substances 0.000 abstract 1
- 231100000707 mutagenic chemical Toxicity 0.000 abstract 1
- 230000003505 mutagenic effect Effects 0.000 abstract 1
- 210000005075 mammary gland Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- KRKNYBCHXYNGOX-UHFFFAOYSA-N citric acid Natural products OC(=O)CC(O)(C(O)=O)CC(O)=O KRKNYBCHXYNGOX-UHFFFAOYSA-N 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- PXRKCOCTEMYUEG-UHFFFAOYSA-N 5-aminoisoindole-1,3-dione Chemical compound NC1=CC=C2C(=O)NC(=O)C2=C1 PXRKCOCTEMYUEG-UHFFFAOYSA-N 0.000 description 1
- 108091007743 BRCA1/2 Proteins 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- ZOKXTWBITQBERF-UHFFFAOYSA-N Molybdenum Chemical compound [Mo] ZOKXTWBITQBERF-UHFFFAOYSA-N 0.000 description 1
- 230000010100 anticoagulation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 229910052750 molybdenum Inorganic materials 0.000 description 1
- 239000011733 molybdenum Substances 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009808 unilateral salpingo-oophorectomy Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及疾病风险评估算法领域,尤其是—乳腺癌患病风险评估算法。本发明公开了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:1)高通量测序得到BRCA 1和BRCA 2序列;2)筛选出BRCA 1和BRCA 2序列中的高危突变位置;3)建立COX比例风险模型,剔除不显著因素;4)分析各个高危突变因素对个体患病风险的影响;5)重新建立最佳模型,估计模型参数;6)计算个体患乳腺癌的概率;7)预测未来n年内患乳腺癌的概率;考虑样本其他高危风险因素,计算家族相对风险,对上述预测的患病概率进行修正。本发明是根据中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA 2高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。
Description
技术领域
本发明涉及疾病风险评估算法领域,尤其是-乳腺癌患病风险评估算法。
背景技术
乳腺癌发病率在我国女性恶性肿瘤发病率中排在第一位。BRCA 1和BRCA 2基因突变存在于80%的乳腺癌高发家族的患者中。目前医院对于乳腺癌的诊断主要靠检查双侧乳腺、乳腺X线摄影(乳腺钼靶照相)、乳腺磁共振检查(MRI)等。这样诊断发现的乳腺癌一般已到晚期,很难治愈。因此,研究BRCA 1和BRCA 2基因突变位置与乳腺癌患病风险之间的关系,设计乳腺癌风险评估算法就成为一项迫切且很有临床意义的工作。
本发明的主要目的是建立中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA2基因高危突变位置;设计乳腺癌患病风险评估算法,计算样本个体乳腺癌患病的绝对风险,预测个体未来几年内患乳腺癌的概率;最后就是根据家族病史信息,对上述个体的患病概率进行修正,并预测突变样本的亲属(一级亲属)未来几年内患乳腺癌的概率。
发明内容
为了解决现有技术存在的不足,本发明提供了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法。
本发明中的一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:
i)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变;
j)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;
k)建立COX比例风险回归模型,剔除不显著因素:
i.截尾值,对样本结局的处理:患乳腺癌样本为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;
ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;
iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;
iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量
(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。
l)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。
在某一年龄段ti,样本i患病的条件概率:
在某一年龄段ti,所有样本均患病的概率:
d表示患病样本数。
参数的
进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设
H0:所有的βk为0,
H1:至少有一个βk不为0
假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布;
m)进行COX比例风险回归模型性能评估:
i.ROC曲线对应95%的AUC,与其他模型的结果做比较;
ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ2最优拟合;
iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;
n)BRCA1和BRCA2突变位置分析:
i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;
ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;
突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
对于个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。
o)个体患病风险:基准风险率λ0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA1/2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
p)个体患病风险的累积概率
n年内的乳腺癌发病率
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),eβ k=HR;
n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
其中,
作为优选,所述一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法还包括家族性乳腺癌的相对风险FRR,考虑样本的家族病对预测的样本患病风险进行修正,
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)
=FRR·P(女儿t年龄患病)。
作为优选,所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄,风险因素与赋值见下表:
作为优选,所述拟合样本采用条件逻辑回归拟合。假设Pi表示第i层在一组危险作用下发病的概率,则
Xit=(Xit1,Xit1,...,Xitm)表示第i层第t个观察对象危险因素的观察值。
作为优选,所述参数估计方法为构造条件似然函数,
将Pi带入,
综合n个匹配组的条件似然概率为
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值
作为优选,所述高危突变列表如下:
其中常见的BRCA 1和BRCA 2突变有
| SNPs | MAF | OR | 95%CI1 | 95%CI2 |
| rs8170 | 17 | 1.26 | 1.17 | 1.35 |
| rs2046210 | 34.7 | 1.17 | 1.11 | 1.23 |
| rs9397435 | 7.1 | 1.28 | 1.18 | 1.4 |
| rs3803662 | 28 | 1.09 | 1.03 | 1.16 |
| rs13387042 | 52.2 | 1.11 | 1.01 | 1.21 |
| rs2981582 | 38.7 | 1.3 | 1.2 | 1.4 |
| rs3803662 | 28 | 1.17 | 1.07 | 1.27 |
| rs889312 | 29 | 1.1 | 1.01 | 1.19 |
| rs3817198 | 32.8 | 1.14 | 1.06 | 1.23 |
| rs13387042 | 51.2 | 1.15 | 1.02 | 1.29 |
| rs4973768 | 49.2 | 1.1 | 1.03 | 1.18 |
| rs10941679 | 23.4 | 1.09 | 1.01 | 1.19 |
| rs9397534 | 8.2 | 1.14 | 1.01 | 1.28 |
| rs11249433 | 39.7 | 1.09 | 1.02 | 1.17 |
本发明的有益效果:是根据中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA 2基因高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。
FRR表示与正常样本先比,乳腺癌高发人群患病的相对风险。
以家族病史为例,说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA 1和BRCA 2突变,我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。
如果不考虑母亲患病,直接分析检测到的突变位点,预测得到她在年龄t的患病概率为P(女儿t年龄患病);P(母亲t年龄患病)=1。则
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)
=FRR·P(女儿t年龄患病)。
具体实施方式
下面对本发明作进一步详细说明,但不应将此理解为本发明的上述主题的范围仅限于上述实施例。
1.受检人血液样本收集。静脉血抽取3-5ml,EDTA/柠檬酸抗凝管,抽血后混匀,短时间(3天内)2-8度保存运输,长时间冻存(-20度)保存运输。
2.易感基因BRCA 1和BRCA 2捕获。采用life公司的Ampliseq BRCA 1和BRCA 2捕获试剂盒通过PCR的方法对乳腺癌易感基因BRCA 1和BRCA 2进行全外显子区域的捕获。
3.高通量测序获得样本外显子序列。
4.中国人特异的乳腺癌致病相关突变库的构建。对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变。部分高危突变列表如下表1。
表1.部分高危突变
其中常见的BRCA 1和BRCA 2突变有
| SNPs | MAF | OR | 95%CI1 | 95%CI2 |
| rs8170 | 17 | 1.26 | 1.17 | 1.35 |
| rs2046210 | 34.7 | 1.17 | 1.11 | 1.23 |
| rs9397435 | 7.1 | 1.28 | 1.18 | 1.4 |
| rs3803662 | 28 | 1.09 | 1.03 | 1.16 |
| rs13387042 | 52.2 | 1.11 | 1.01 | 1.21 |
| rs2981582 | 38.7 | 1.3 | 1.2 | 1.4 |
| rs3803662 | 28 | 1.17 | 1.07 | 1.27 |
| rs889312 | 29 | 1.1 | 1.01 | 1.19 |
| rs3817198 | 32.8 | 1.14 | 1.06 | 1.23 |
| rs13387042 | 51.2 | 1.15 | 1.02 | 1.29 |
| rs4973768 | 49.2 | 1.1 | 1.03 | 1.18 |
| rs10941679 | 23.4 | 1.09 | 1.01 | 1.19 |
| rs9397534 | 8.2 | 1.14 | 1.01 | 1.28 |
| rs11249433 | 39.7 | 1.09 | 1.02 | 1.17 |
5.定义BRCA 1和BRCA 2突变。将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变。
6.COX比例风险回归模型的建立
1)截尾值(censored value)
对于样本结局的处理:患病样本赋值为“0”;截尾值为“1”。
以下情况也认为是截尾数据:
a)卵巢癌;
b)降低风险性输卵管卵巢切除术;
c)降低风险性乳房切除术;
d)死亡;
e)截止随访时间都不患癌症。
2)样本对应的生存曲线
由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型。首先需要进行比例风险假定。检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图。若生存曲线交叉,提示不满足PH假定。
3)突变位置
根据步骤6中确立的高危突变位置,建立乳腺癌的突变位置与赋值表。
4)建立评估模型
COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量
(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。
7.参数估计
模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的。
在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。
在某一年龄段ti,样本i患病的条件概率:
在某一年龄段ti,所有样本均患病的概率:
d表示患病样本数。
参数的95%CI:
8.模型的参数检验
本发明采用最大似然比检验,假设
H0:所有的βi为0,
H1:至少有一个βi不为0
假设一个包含p个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布。
9.模型性能评估
1)ROC曲线对应95%的AUC,与其他模型的结果做比较;
2)对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
3)对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearsonχ2最优拟合;
4)对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异。
10.BRCA 1和BRCA 2突变位置分析
1)参数对应的P值
参数对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量。
2)相对风险HRk
通过步骤8的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍。
3)突变位置的叠加影响
对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
同理,对于p个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。
11.个体患病风险
基准风险率0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
12.个体患病风险的累积概率
a)n年内的乳腺癌发病率
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),eβ k=HR;
b)n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
其中,
13.家族性乳腺癌的相对风险FRR
FRR表示家族性相对风险,即考虑样本的家族病史(一级亲属)时,对预测的样本患病风险进行修正。
在本发明中,我们主要考虑样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄等风险因素信息,详见表2。
表2.乳腺癌风险因素与赋值
1)建立模型
在本发明中,我们使用条件逻辑回归拟合样本的所有危险因素信息。假设Pi表示第i层在一组危险作用下发病的概率,则
Xit=(Xit1,Xit1,...,Xitm)表示第i层第t个观察对象危险因素的观察值。
2)参数估计
构造条件似然函数,
将Pi带入,
综合n个匹配组的条件似然概率为
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值
3)优势比估计OR
当Xj=c1与c0时,
一般地,若取c1=1,c0=0,则
4)FRR
FRR表示与正常样本先比,乳腺癌高发人群患病的相对风险。
以家族病史为例,说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA 1和BRCA 2突变,我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。
如果不考虑母亲患病,直接分析检测到的突变位点,预测得到她在年龄t的患病概率为P(女儿t年龄患病);P(母亲t年龄患病)=1。则
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)
=FRR·P(女儿t年龄患病)。
Claims (6)
1.一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:
a)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度进行注释,通过筛查其中是否含有已发现的,较公认的高危突变;
b)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;
c)建立COX比例风险回归模型,剔除不显著因素:
i.截尾值,对样本结局的处理:患乳腺癌样本赋值为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;
ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;
iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;
iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示BRCA 1和BRCA 2中与乳腺癌患病相关的突变位置;
d)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,
在队列研究中,样本i(i=1,2…n)具有相同的特征(年龄,患病等);
在某一年龄段ti,样本i患病的条件概率:
在某一年龄段ti,所有样本均患病的概率:
d表示患病样本数。
参数的95%CI:
进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设
H0:所有的βi为0,
H1:至少有一个βi不为0
假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布;
e)进行Cox比例风险回归模型性能评估:
i.ROC曲线对应95%的AUC,与其他模型的结果做比较;
ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ3最优拟合;
iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;
f)BRCA 1和BRCA 2突变位置分析:
i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;
ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;
突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为o时的比值:
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
对于p个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍
g)个体患病风险:基准风险率h0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
h)个体患病风险的累积概率
n年内的乳腺癌发病率
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),
n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
其中,
2.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:还包括家族性乳腺癌的相对风险FRR,考虑样本的家族病对预测的样本患病风险进行修正,
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)=FRR·P(女儿t年龄患病)。
3.如权利要求2所述的一种乳腺癌患病风险评估算法,其特征在于:所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄,风险因素与赋值见下表:
4.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述拟合样本采用条件逻辑回归拟合。
5.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述参数估计方法为构造条件似然函数,
将Pi带入,
综合n个匹配组的条件似然概率为
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值
6.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述高危突变列表如下:
其中BRCA 1和BRCA 2突变有
。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510364732.3A CN106295241A (zh) | 2015-06-25 | 2015-06-25 | 基于brca1和brca2突变的乳腺癌患病风险评估算法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510364732.3A CN106295241A (zh) | 2015-06-25 | 2015-06-25 | 基于brca1和brca2突变的乳腺癌患病风险评估算法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN106295241A true CN106295241A (zh) | 2017-01-04 |
Family
ID=57651105
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510364732.3A Pending CN106295241A (zh) | 2015-06-25 | 2015-06-25 | 基于brca1和brca2突变的乳腺癌患病风险评估算法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106295241A (zh) |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107201401A (zh) * | 2017-05-23 | 2017-09-26 | 深圳市第二人民医院 | 一种用于乳腺癌发病风险预测的多因素模型及其建立方法 |
| CN107229841A (zh) * | 2017-05-24 | 2017-10-03 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
| CN107341347A (zh) * | 2017-06-27 | 2017-11-10 | 天方创新(北京)信息技术有限公司 | 基于评分模型对乳腺癌进行风险评分的方法及装置 |
| CN107423560A (zh) * | 2017-06-27 | 2017-12-01 | 天方创新(北京)信息技术有限公司 | 基于评分模型对二型糖尿病进行风险评分的方法及装置 |
| CN108624686A (zh) * | 2018-03-30 | 2018-10-09 | 南京世和基因生物技术有限公司 | 一种检测brca1/2突变的探针库、检测方法和试剂盒 |
| CN108922628A (zh) * | 2018-04-23 | 2018-11-30 | 华北电力大学 | 一种基于动态Cox模型的乳腺癌预后生存率预测方法 |
| CN109063418A (zh) * | 2018-07-19 | 2018-12-21 | 东软集团股份有限公司 | 疾病预测分类器的确定方法、装置、设备及可读存储介质 |
| WO2020124585A1 (zh) * | 2018-12-21 | 2020-06-25 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法、电子设备及存储介质 |
| CN112375815A (zh) * | 2020-11-11 | 2021-02-19 | 上海市儿童医院 | 基于核心家系的遗传病高通量测序致病突变筛选方法 |
| CN113345525A (zh) * | 2021-06-03 | 2021-09-03 | 谱天(天津)生物科技有限公司 | 一种用于高通量检测中减少协变量对检测结果影响的分析方法 |
| CN113707222A (zh) * | 2021-07-28 | 2021-11-26 | 邢传华 | 用于预测预定疾病风险的方法、计算设备和存储介质 |
| CN114219594A (zh) * | 2021-11-30 | 2022-03-22 | 江苏税软软件科技有限公司 | 基于回归分析的税务稽查选案方法 |
| CN114596964A (zh) * | 2022-05-09 | 2022-06-07 | 北京肿瘤医院(北京大学肿瘤医院) | 预测brca突变患者对侧乳腺癌发病风险的模型及应用 |
| CN114937473A (zh) * | 2022-07-20 | 2022-08-23 | 中日友好医院(中日友好临床医学研究所) | 基于多基因突变特征的vte风险评估模型、构建方法及应用 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101772578A (zh) * | 2007-05-25 | 2010-07-07 | 解码遗传学私营有限责任公司 | 作为标记物用在乳腺癌风险评估、诊断、预后和治疗中的在CHR 5p12和10q26上的遗传变异体 |
-
2015
- 2015-06-25 CN CN201510364732.3A patent/CN106295241A/zh active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101772578A (zh) * | 2007-05-25 | 2010-07-07 | 解码遗传学私营有限责任公司 | 作为标记物用在乳腺癌风险评估、诊断、预后和治疗中的在CHR 5p12和10q26上的遗传变异体 |
Non-Patent Citations (4)
| Title |
|---|
| HANNE MEIJERS-HEIJBOER, M.D,ET AL.: "Breast cancer after prophylactic bilateral mastectomy in women with a Brca1 or Brca2 mutation", 《THE NEW ENGLAND JOURNAL OF MEDICINE》 * |
| REN HONG,ET AL.: "Clinical study on the impact of long-term survival quality in 188 postoperative patients with breast cancer by cox proportional hazard models", 《现在肿瘤医学》 * |
| ROGER L . MILNE,ET AL.: "The Average Cumulative Risks of Breast and Ovarian Cancer for Carriers of Mutations in BRCA1 and BRCA2 Attending Genetic Counseling Units in Spain", 《CANCER PREVENTION AND SUSCEPTIBILITY》 * |
| 黄波.: "COX比例风险模型分析乳腺癌的预后", 《当代医学》 * |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107201401A (zh) * | 2017-05-23 | 2017-09-26 | 深圳市第二人民医院 | 一种用于乳腺癌发病风险预测的多因素模型及其建立方法 |
| CN107229841A (zh) * | 2017-05-24 | 2017-10-03 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
| CN107229841B (zh) * | 2017-05-24 | 2018-07-06 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
| CN107341347A (zh) * | 2017-06-27 | 2017-11-10 | 天方创新(北京)信息技术有限公司 | 基于评分模型对乳腺癌进行风险评分的方法及装置 |
| CN107423560A (zh) * | 2017-06-27 | 2017-12-01 | 天方创新(北京)信息技术有限公司 | 基于评分模型对二型糖尿病进行风险评分的方法及装置 |
| CN108624686A (zh) * | 2018-03-30 | 2018-10-09 | 南京世和基因生物技术有限公司 | 一种检测brca1/2突变的探针库、检测方法和试剂盒 |
| CN108624686B (zh) * | 2018-03-30 | 2019-06-04 | 南京世和基因生物技术有限公司 | 一种检测brca1/2突变的探针库、检测方法和试剂盒 |
| CN108922628A (zh) * | 2018-04-23 | 2018-11-30 | 华北电力大学 | 一种基于动态Cox模型的乳腺癌预后生存率预测方法 |
| CN109063418A (zh) * | 2018-07-19 | 2018-12-21 | 东软集团股份有限公司 | 疾病预测分类器的确定方法、装置、设备及可读存储介质 |
| CN111602201A (zh) * | 2018-12-21 | 2020-08-28 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法、电子设备及存储介质 |
| WO2020124585A1 (zh) * | 2018-12-21 | 2020-06-25 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法、电子设备及存储介质 |
| US20220076785A1 (en) * | 2018-12-21 | 2022-03-10 | Phil Rivers Technology, Ltd. | Method for acquiring intracellular deterministic event, electronic device and storage medium |
| CN111602201B (zh) * | 2018-12-21 | 2023-08-01 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法、电子设备及存储介质 |
| CN112375815A (zh) * | 2020-11-11 | 2021-02-19 | 上海市儿童医院 | 基于核心家系的遗传病高通量测序致病突变筛选方法 |
| CN113345525A (zh) * | 2021-06-03 | 2021-09-03 | 谱天(天津)生物科技有限公司 | 一种用于高通量检测中减少协变量对检测结果影响的分析方法 |
| CN113707222A (zh) * | 2021-07-28 | 2021-11-26 | 邢传华 | 用于预测预定疾病风险的方法、计算设备和存储介质 |
| CN113707222B (zh) * | 2021-07-28 | 2024-12-06 | 邢传华 | 用于预测预定疾病风险的方法、计算设备和存储介质 |
| CN114219594A (zh) * | 2021-11-30 | 2022-03-22 | 江苏税软软件科技有限公司 | 基于回归分析的税务稽查选案方法 |
| CN114596964A (zh) * | 2022-05-09 | 2022-06-07 | 北京肿瘤医院(北京大学肿瘤医院) | 预测brca突变患者对侧乳腺癌发病风险的模型及应用 |
| CN114937473A (zh) * | 2022-07-20 | 2022-08-23 | 中日友好医院(中日友好临床医学研究所) | 基于多基因突变特征的vte风险评估模型、构建方法及应用 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106295241A (zh) | 基于brca1和brca2突变的乳腺癌患病风险评估算法 | |
| CN109036571B (zh) | 用于预测患有癌症的可能性或风险的方法和机器学习系统 | |
| Zhou et al. | The cold-inducible RNA-binding protein (CIRP) level in peripheral blood predicts sepsis outcome | |
| Chetty et al. | Role of attributes selection in classification of Chronic Kidney Disease patients | |
| CN110958853A (zh) | 用于鉴定或监测肺病的方法和系统 | |
| Kjærgaard et al. | Monocyte expression and soluble levels of the haemoglobin receptor (CD163/sCD163) and the mannose receptor (MR/sMR) in septic and critically ill non-septic ICU patients | |
| US20190228836A1 (en) | Systems and methods for predicting genetic diseases | |
| CN108778287B (zh) | 用于早产结果的早期风险评估的方法和系统 | |
| KR102044094B1 (ko) | 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치 | |
| US20210118526A1 (en) | Calculating cell-type rna profiles for diagnosis and treatment | |
| CN106202988A (zh) | 一种预测疾病生存期的逐步多元回归模型及应用 | |
| JP2025518236A (ja) | 治療応答に関する機械学習予測モデル | |
| Huang et al. | Perihematomal edema-based CT-radiomics model to predict functional outcome in patients with intracerebral hemorrhage | |
| Khosrotehrani et al. | Nomograms to predict recurrence and survival in stage IIIB and IIIC melanoma after therapeutic lymphadenectomy | |
| US20250022571A1 (en) | Methods and apparatus for identifying alternative splicing events | |
| Urban et al. | Identifying post-menopausal women at elevated risk for epithelial ovarian cancer | |
| EP4533461A1 (en) | Systems and methods for identification of structural variants based on an autoencoder | |
| Chen et al. | Establish a new diagnosis of sarcopenia based on extracted radiomic features to predict prognosis of patients with gastric cancer | |
| CN113707222B (zh) | 用于预测预定疾病风险的方法、计算设备和存储介质 | |
| Tournoud et al. | A strategy to build and validate a prognostic biomarker model based on RT-qPCR gene expression and clinical covariates | |
| Zerka et al. | A CT-based radiomics approach for CD8+ lymphocytes infiltration stratification in patients with non-small cell lung cancer | |
| Krajc et al. | Screening strategy modification based on personalized breast cancer risk stratification and its implementation in the national guidelines–pilot study | |
| Lee et al. | Risk-based screening mammography for women aged< 40: outcomes from the national mammography database | |
| CN110689962B (zh) | 模拟肿瘤的演变 | |
| Carmo et al. | Automatic segmentation of lung findings in CT and application to Long COVID |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |
|
| RJ01 | Rejection of invention patent application after publication |