CN106295241A - 基于brca1和brca2突变的乳腺癌患病风险评估算法 - Google Patents

基于brca1和brca2突变的乳腺癌患病风险评估算法 Download PDF

Info

Publication number
CN106295241A
CN106295241A CN201510364732.3A CN201510364732A CN106295241A CN 106295241 A CN106295241 A CN 106295241A CN 201510364732 A CN201510364732 A CN 201510364732A CN 106295241 A CN106295241 A CN 106295241A
Authority
CN
China
Prior art keywords
beta
risk
lambda
breast cancer
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510364732.3A
Other languages
English (en)
Inventor
马婷婷
刘明明
张鹤
柳泽亮
蔡乐靖
徐飞
陈帼婧
屠勇军
陈贤丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou San Sheng Biotechnology Co Ltd
Original Assignee
Hangzhou San Sheng Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou San Sheng Biotechnology Co Ltd filed Critical Hangzhou San Sheng Biotechnology Co Ltd
Priority to CN201510364732.3A priority Critical patent/CN106295241A/zh
Publication of CN106295241A publication Critical patent/CN106295241A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及疾病风险评估算法领域,尤其是—乳腺癌患病风险评估算法。本发明公开了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:1)高通量测序得到BRCA 1和BRCA 2序列;2)筛选出BRCA 1和BRCA 2序列中的高危突变位置;3)建立COX比例风险模型,剔除不显著因素;4)分析各个高危突变因素对个体患病风险的影响;5)重新建立最佳模型,估计模型参数;6)计算个体患乳腺癌的概率;7)预测未来n年内患乳腺癌的概率;考虑样本其他高危风险因素,计算家族相对风险,对上述预测的患病概率进行修正。本发明是根据中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA 2高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。

Description

基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法
技术领域
本发明涉及疾病风险评估算法领域,尤其是-乳腺癌患病风险评估算法。
背景技术
乳腺癌发病率在我国女性恶性肿瘤发病率中排在第一位。BRCA 1和BRCA 2基因突变存在于80%的乳腺癌高发家族的患者中。目前医院对于乳腺癌的诊断主要靠检查双侧乳腺、乳腺X线摄影(乳腺钼靶照相)、乳腺磁共振检查(MRI)等。这样诊断发现的乳腺癌一般已到晚期,很难治愈。因此,研究BRCA 1和BRCA 2基因突变位置与乳腺癌患病风险之间的关系,设计乳腺癌风险评估算法就成为一项迫切且很有临床意义的工作。
本发明的主要目的是建立中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA2基因高危突变位置;设计乳腺癌患病风险评估算法,计算样本个体乳腺癌患病的绝对风险,预测个体未来几年内患乳腺癌的概率;最后就是根据家族病史信息,对上述个体的患病概率进行修正,并预测突变样本的亲属(一级亲属)未来几年内患乳腺癌的概率。
发明内容
为了解决现有技术存在的不足,本发明提供了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法。
本发明中的一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:
i)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变;
j)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;
k)建立COX比例风险回归模型,剔除不显著因素:
i.截尾值,对样本结局的处理:患乳腺癌样本为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;
ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;
iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;
iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量
λ ( t , x ) = λ 0 ( t ) e β 1 X 1 + β 2 X 2 + ... + β p X P ,
(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。
l)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。
在某一年龄段ti,样本i患病的条件概率:
q i = λ i ( t , x ) Σ j = 1 n λ j ( t , x ) = λ 0 ( t ) e β 1 X i , 1 + β 2 X i , 2 + ... + β p X i , p Σ j = 1 n λ 0 ( t ) e β 1 X j , 1 + β 2 X j , 2 + ... + β p X i , p = e β 1 X i , 1 + β 2 X i , 2 + ... + β p X i , p Σ j = 1 n e β 1 X j , 1 + β 2 X j , 2 + ... + β p X j , p
在某一年龄段ti,所有样本均患病的概率:
L = Π i = 1 n q i = Π i = 1 d ( e β 1 X i , 1 + β 2 X i , 2 + ... + β p X i , p Σ j = 1 n e β 1 X j , 1 + β 2 X j , 2 + ... + β p X j , p ) δ i
d表示患病样本数。
ln L = Σ i = 1 d ( β 1 X i , 1 + β 2 X i , 2 + ... + β p X i , p ) - Σ i = 1 d ln ( Σ jR i β 1 X i , 1 + β 2 X i , 2 + ... + β p X i , p ) ∂ ( ln L ) ∂ β j = 0 , j = 1 , 2 , 3
⇒ β k ( k = 1 , 2 , 3 ) 的估计值
参数
进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设
H0:所有的βk为0,
H1:至少有一个βk不为0
假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布;
m)进行COX比例风险回归模型性能评估:
i.ROC曲线对应95%的AUC,与其他模型的结果做比较;
ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ2最优拟合;
iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;
n)BRCA1和BRCA2突变位置分析:
i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;
ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;
突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:
HR j = λ ( t , X j ) λ 0 ( t ) = λ 0 ( t ) e β j × 1 λ 0 ( t ) e β j × 0 = e β j
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
H R = λ ( t , X i ) λ ′ ( t , X 1 ) = λ 0 ( t ) e β 1 × 1 + β 2 × 1 λ 0 ( t ) e β 1 × 0 + β 2 × 0 = HR 1 × HR 2
对于个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。
o)个体患病风险:基准风险率λ0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA1/2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
p)个体患病风险的累积概率
n年内的乳腺癌发病率
Λ ( t ) = Σ k = 1 n i k t k e β k
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),eβ k=HR;
n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
1 - e - Λ ( t ) ± 1.96 var ( A ( t ) )
其中,
var ( &Lambda; ( t ) ) = &Sigma; k = 1 n i k 2 t k 2 var ( &beta; k ) e 2 &beta; k + 2 &Sigma; j < k k = 1 n i k i j t k t j &lsqb; var ( &beta; k ) var ( &beta; j ) &rsqb; 1 / 2 e &beta; k + &beta; j c o r r ( &beta; k , &beta; j )
作为优选,所述一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法还包括家族性乳腺癌的相对风险FRR,考虑样本的家族病对预测的样本患病风险进行修正,
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)
=FRR·P(女儿t年龄患病)。
作为优选,所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄,风险因素与赋值见下表:
作为优选,所述拟合样本采用条件逻辑回归拟合。假设Pi表示第i层在一组危险作用下发病的概率,则
P i = 1 1 + e - ( &beta; 0 i + &beta; 1 X 1 + ... + &beta; m X m )
Xit=(Xit1,Xit1,...,Xitm)表示第i层第t个观察对象危险因素的观察值。
作为优选,所述参数估计方法为构造条件似然函数,
将Pi带入,
L i = 1 1 + &Sigma; t = 1 M e &Sigma; j = 1 m &beta; j ( x i t j - x i 0 j )
综合n个匹配组的条件似然概率为
L = &Pi; i = 1 n 1 1 + &Sigma; t = 1 M e &Sigma; j = 1 m &beta; j ( x i t j - x i 0 j )
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值 &beta; ^ j ( j = 1 , 2 , ... , m ) .
作为优选,所述高危突变列表如下:
其中常见的BRCA 1和BRCA 2突变有
SNPs MAF OR 95%CI1 95%CI2
rs8170 17 1.26 1.17 1.35
rs2046210 34.7 1.17 1.11 1.23
rs9397435 7.1 1.28 1.18 1.4
rs3803662 28 1.09 1.03 1.16
rs13387042 52.2 1.11 1.01 1.21
rs2981582 38.7 1.3 1.2 1.4
rs3803662 28 1.17 1.07 1.27
rs889312 29 1.1 1.01 1.19
rs3817198 32.8 1.14 1.06 1.23
rs13387042 51.2 1.15 1.02 1.29
rs4973768 49.2 1.1 1.03 1.18
rs10941679 23.4 1.09 1.01 1.19
rs9397534 8.2 1.14 1.01 1.28
rs11249433 39.7 1.09 1.02 1.17
本发明的有益效果:是根据中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA 2基因高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。
FRR表示与正常样本先比,乳腺癌高发人群患病的相对风险。
以家族病史为例,说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA 1和BRCA 2突变,我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。
如果不考虑母亲患病,直接分析检测到的突变位点,预测得到她在年龄t的患病概率为P(女儿t年龄患病);P(母亲t年龄患病)=1。则
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)
=FRR·P(女儿t年龄患病)。
具体实施方式
下面对本发明作进一步详细说明,但不应将此理解为本发明的上述主题的范围仅限于上述实施例。
1.受检人血液样本收集。静脉血抽取3-5ml,EDTA/柠檬酸抗凝管,抽血后混匀,短时间(3天内)2-8度保存运输,长时间冻存(-20度)保存运输。
2.易感基因BRCA 1和BRCA 2捕获。采用life公司的Ampliseq BRCA 1和BRCA 2捕获试剂盒通过PCR的方法对乳腺癌易感基因BRCA 1和BRCA 2进行全外显子区域的捕获。
3.高通量测序获得样本外显子序列。
4.中国人特异的乳腺癌致病相关突变库的构建。对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变。部分高危突变列表如下表1。
表1.部分高危突变
其中常见的BRCA 1和BRCA 2突变有
SNPs MAF OR 95%CI1 95%CI2
rs8170 17 1.26 1.17 1.35
rs2046210 34.7 1.17 1.11 1.23
rs9397435 7.1 1.28 1.18 1.4
rs3803662 28 1.09 1.03 1.16
rs13387042 52.2 1.11 1.01 1.21
rs2981582 38.7 1.3 1.2 1.4
rs3803662 28 1.17 1.07 1.27
rs889312 29 1.1 1.01 1.19
rs3817198 32.8 1.14 1.06 1.23
rs13387042 51.2 1.15 1.02 1.29
rs4973768 49.2 1.1 1.03 1.18
rs10941679 23.4 1.09 1.01 1.19
rs9397534 8.2 1.14 1.01 1.28
rs11249433 39.7 1.09 1.02 1.17
5.定义BRCA 1和BRCA 2突变。将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变。
6.COX比例风险回归模型的建立
1)截尾值(censored value)
对于样本结局的处理:患病样本赋值为“0”;截尾值为“1”。
以下情况也认为是截尾数据:
a)卵巢癌;
b)降低风险性输卵管卵巢切除术;
c)降低风险性乳房切除术;
d)死亡;
e)截止随访时间都不患癌症。
2)样本对应的生存曲线
由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型。首先需要进行比例风险假定。检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图。若生存曲线交叉,提示不满足PH假定。
3)突变位置
根据步骤6中确立的高危突变位置,建立乳腺癌的突变位置与赋值表。
4)建立评估模型
COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量
&lambda; ( t , x ) = &lambda; 0 ( t ) e &beta; 1 X 1 + &beta; 2 X 2 + ... + &beta; p X p
(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。
7.参数估计
模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的。
在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。
在某一年龄段ti,样本i患病的条件概率:
q i = &lambda; i ( t , x ) &Sigma; j = 1 n &lambda; j ( t , x ) = &lambda; 0 ( t ) e &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p &Sigma; j = 1 n &lambda; 0 ( t ) e &beta; 1 X j , 1 + &beta; 2 X j , 2 + ... + &beta; p X i , p = e &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p &Sigma; j = 1 n e &beta; 1 X j , 1 + &beta; 2 X j , 2 + ... + &beta; p X j , p
在某一年龄段ti,所有样本均患病的概率:
L = &Pi; i = 1 n q i = &Pi; i = 1 d ( e &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p &Sigma; j = 1 n e &beta; 1 X j , 1 + &beta; 2 X j , 2 &beta; p X j , p ) &delta; i
d表示患病样本数。
ln L = &Sigma; i = 1 d ( &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p ) - &Sigma; i = 1 d ln ( &Sigma; jR i &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p ) &part; ( ln L ) &part; &beta; j = 0 , j = 1 , 2 , 3
&DoubleRightArrow; &beta; k ( k = 1 , 2 , 3 ) 的估计值
参数的95%CI:
e &beta; ^ k &PlusMinus; 1.96 S e ( &beta; ^ k )
8.模型的参数检验
本发明采用最大似然比检验,假设
H0:所有的βi为0,
H1:至少有一个βi不为0
假设一个包含p个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布。
9.模型性能评估
1)ROC曲线对应95%的AUC,与其他模型的结果做比较;
2)对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
3)对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearsonχ2最优拟合;
4)对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异。
10.BRCA 1和BRCA 2突变位置分析
1)参数对应的P值
参数对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量。
2)相对风险HRk
通过步骤8的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍。
3)突变位置的叠加影响
对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:
HR j = &lambda; ( t , X 1 ) &lambda; 0 ( t ) = &lambda; 0 ( t ) e &beta; j &times; 1 &lambda; 0 ( t ) e &beta; j &times; 0 = e &beta; j
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
H R = &lambda; ( t , X i ) &lambda; &prime; ( t , X i ) = &lambda; 0 ( t ) e &beta; 1 &times; 1 + &beta; 2 &times; 1 &lambda; 0 ( t ) e &beta; 1 &times; 0 + &beta; 2 &times; 0 = HR 1 &times; HR 2
同理,对于p个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。
11.个体患病风险
基准风险率0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
12.个体患病风险的累积概率
a)n年内的乳腺癌发病率
&Lambda; ( t ) = &Sigma; k = 1 n i k t k e &beta; k
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),eβ k=HR;
b)n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
1 - e - &Lambda; ( t ) &PlusMinus; 1.96 var ( &Lambda; ( t ) )
其中,
var ( &Lambda; ( t ) ) = &Sigma; k = 1 n i k 2 t k 2 var ( &beta; k ) e 2 &beta; k + 2 &Sigma; j < k k = 1 n i k i j t k t j &lsqb; var ( &beta; k ) var ( &beta; j ) &rsqb; 1 / 2 e &beta; k + &beta; j c o r r ( &beta; k , &beta; j ) .
13.家族性乳腺癌的相对风险FRR
FRR表示家族性相对风险,即考虑样本的家族病史(一级亲属)时,对预测的样本患病风险进行修正。
在本发明中,我们主要考虑样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄等风险因素信息,详见表2。
表2.乳腺癌风险因素与赋值
1)建立模型
在本发明中,我们使用条件逻辑回归拟合样本的所有危险因素信息。假设Pi表示第i层在一组危险作用下发病的概率,则
P i = 1 1 + e - ( &beta; 0 i + &beta; 1 X 1 + ... + &beta; m X m )
Xit=(Xit1,Xit1,...,Xitm)表示第i层第t个观察对象危险因素的观察值。
2)参数估计
构造条件似然函数,
L i = P ( X 10 | Y = 1 ) &Pi; t = 1 M P ( X i t | Y = 0 ) &Sigma; t = 0 M &lsqb; P ( X i t | Y = 1 ) &Pi; t = 1 , t &NotEqual; t M P ( X i t | Y = 0 ) &rsqb;
将Pi带入,
L i = 1 1 + &Sigma; t = 1 M e &Sigma; j = 1 m &beta; j ( x i t j - x i 0 j )
综合n个匹配组的条件似然概率为
L = &Pi; i = 1 n 1 1 + &Sigma; t = 1 M e &Sigma; j = 1 m &beta; j ( x i t j - x i 0 j )
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值 &beta; ^ j ( j = 1 , 2 , ... , m ) .
3)优势比估计OR
l n ( P 1 - P ) = &beta; 0 i + &beta; 1 X 1 + ... + &beta; m X m
当Xj=c1与c0时,
lnOR j = l n &lsqb; P 1 / ( 1 - P 1 ) P 0 / ( 1 - P 0 ) &rsqb; = &beta; 1 ( c 1 - c 0 )
一般地,若取c1=1,c0=0,则
OR j = e &beta; j
4)FRR
FRR表示与正常样本先比,乳腺癌高发人群患病的相对风险。
以家族病史为例,说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA 1和BRCA 2突变,我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。
如果不考虑母亲患病,直接分析检测到的突变位点,预测得到她在年龄t的患病概率为P(女儿t年龄患病);P(母亲t年龄患病)=1。则
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)
=FRR·P(女儿t年龄患病)。

Claims (6)

1.一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:
a)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度进行注释,通过筛查其中是否含有已发现的,较公认的高危突变;
b)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;
c)建立COX比例风险回归模型,剔除不显著因素:
i.截尾值,对样本结局的处理:患乳腺癌样本赋值为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;
ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;
iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;
iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示BRCA 1和BRCA 2中与乳腺癌患病相关的突变位置;
d)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,
在队列研究中,样本i(i=1,2…n)具有相同的特征(年龄,患病等);
在某一年龄段ti,样本i患病的条件概率:
q i = &lambda; i ( t , x ) &Sigma; j = i n &lambda; j ( t , x ) = &lambda; 0 ( t ) e &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p &Sigma; j = i n &lambda; 0 ( t ) e &beta; 1 X j , 1 + &beta; 2 X j , 2 + &beta; p X i , p = e &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p &Sigma; j = i n e &beta; 1 X j , 1 + &beta; 2 X j , 2 + &beta; p X j , p
在某一年龄段ti,所有样本均患病的概率:
L = &Pi; i = 1 n q i = &Pi; i = 1 d ( e &beta; 1 X i .1 + &beta; 2 X i .2 + ... + &beta; p X i . p &Sigma; j = 1 n e &beta; 1 X j .1 + &beta; 2 X j .2 + &beta; p X i . p ) &delta; i
d表示患病样本数。
ln L = &Sigma; i = 1 d ( &beta; 1 X i , 1 + &beta; 2 X i , 2 + ... + &beta; p X i , p ) - &Sigma; i = 1 d ln ( &Sigma; jR i &beta; 1 X j , 1 + &beta; 2 X j , 2 + &beta; p X j , p )
&part; ( ln L ) &part; &beta; j = 0 , j = 1 , 2 , 3
&DoubleRightArrow; &beta; k ( k = 1 , 2 , 3 ) 的估计值
参数的95%CI:
进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设
H0:所有的βi为0,
H1:至少有一个βi不为0
假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布;
e)进行Cox比例风险回归模型性能评估:
i.ROC曲线对应95%的AUC,与其他模型的结果做比较;
ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ3最优拟合;
iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;
f)BRCA 1和BRCA 2突变位置分析:
i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;
ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;
突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为o时的比值:
HR j = &lambda; ( t , X j ) &lambda; 0 ( t ) = &lambda; 0 ( t ) e &beta; j &times; 1 &lambda; 0 ( t ) e &beta; j &times; 0 = e &beta; j
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
H R = &lambda; &prime; ( t , X i ) &OverBar; &lambda; ( t , X i ) = &lambda; 0 ( t ) e &beta; 1 &times; 1 + &beta; 2 &times; 1 &lambda; 0 ( t ) e &beta; 1 &times; 0 + &beta; 2 &times; 0 = HR 1 &times; HR 2
对于p个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍
g)个体患病风险:基准风险率h0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
h)个体患病风险的累积概率
n年内的乳腺癌发病率
&Lambda; ( t ) = &Sigma; k = 1 n i k t k e &beta; k
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),
n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
1 - e - &Lambda; ( t ) &PlusMinus; 1.96 var ( &Lambda; ( t ) )
其中,
var ( &Lambda; ( t ) ) = &Sigma; k = 1 n i k 2 t k 2 var ( &beta; k ) e 2 &beta; k
+ 2 &Sigma; j < k , k = 1 n i k i j t k t j &lsqb; var ( &beta; k ) var ( &beta; j ) &rsqb; 1 / 2 e &beta; k + &beta; j c o r r ( &beta; k , &beta; j ) .
2.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:还包括家族性乳腺癌的相对风险FRR,考虑样本的家族病对预测的样本患病风险进行修正,
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)=FRR·P(女儿t年龄患病)。
3.如权利要求2所述的一种乳腺癌患病风险评估算法,其特征在于:所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄,风险因素与赋值见下表:
4.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述拟合样本采用条件逻辑回归拟合。
5.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述参数估计方法为构造条件似然函数,
L i = P ( X i 0 | Y = 1 ) &Pi; t = 1 M P ( X i t | Y = 0 ) &Sigma; t = 0 M &lsqb; P ( X i t | Y = 1 ) &Pi; t = 1 , t &NotEqual; t M P ( X i t | Y = 0 ) &rsqb;
将Pi带入,
L i = 1 1 + &Sigma; t = 1 M e &Sigma; j = 1 m &beta; j ( x i t j - x i 0 j )
综合n个匹配组的条件似然概率为
L = &Pi; i = 1 n 1 1 + &Sigma; t = 1 M e &Sigma; j = 1 m &beta; j ( X i t j - x i 0 j )
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值 &beta; ^ j ( j = 1 , 2 , ... , m ) .
6.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述高危突变列表如下:
其中BRCA 1和BRCA 2突变有
SNPs MAF OR 95%CI1 95%CI2 rs8170 17 1.26 1.17 1.35 rs2046210 34.7 1.17 1.11 1.23 rs9397435 7.1 1.28 1.18 1.4 rs3803662 28 1.09 1.03 1.16
rs13387042 52.2 1.11 1.01 1.21 rs2981582 38.7 1.3 1.2 1.4 rs3803662 28 1.17 1.07 1.27 rs889312 29 1.1 1.01 1.19 rs3817198 32.8 1.14 1.06 1.23 rs13387042 51.2 1.15 1.02 1.29 rs4973768 49.2 1.1 1.03 1.18 rs10941679 23.4 1.09 1.01 1.19 rs9397534 8.2 1.14 1.01 1.28 rs11249433 39.7 1.09 1.02 1.17
CN201510364732.3A 2015-06-25 2015-06-25 基于brca1和brca2突变的乳腺癌患病风险评估算法 Pending CN106295241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510364732.3A CN106295241A (zh) 2015-06-25 2015-06-25 基于brca1和brca2突变的乳腺癌患病风险评估算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510364732.3A CN106295241A (zh) 2015-06-25 2015-06-25 基于brca1和brca2突变的乳腺癌患病风险评估算法

Publications (1)

Publication Number Publication Date
CN106295241A true CN106295241A (zh) 2017-01-04

Family

ID=57651105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510364732.3A Pending CN106295241A (zh) 2015-06-25 2015-06-25 基于brca1和brca2突变的乳腺癌患病风险评估算法

Country Status (1)

Country Link
CN (1) CN106295241A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107201401A (zh) * 2017-05-23 2017-09-26 深圳市第二人民医院 一种用于乳腺癌发病风险预测的多因素模型及其建立方法
CN107229841A (zh) * 2017-05-24 2017-10-03 重庆金域医学检验所有限公司 一种基因变异评估方法及系统
CN107341347A (zh) * 2017-06-27 2017-11-10 天方创新(北京)信息技术有限公司 基于评分模型对乳腺癌进行风险评分的方法及装置
CN107423560A (zh) * 2017-06-27 2017-12-01 天方创新(北京)信息技术有限公司 基于评分模型对二型糖尿病进行风险评分的方法及装置
CN108624686A (zh) * 2018-03-30 2018-10-09 南京世和基因生物技术有限公司 一种检测brca1/2突变的探针库、检测方法和试剂盒
CN108922628A (zh) * 2018-04-23 2018-11-30 华北电力大学 一种基于动态Cox模型的乳腺癌预后生存率预测方法
CN109063418A (zh) * 2018-07-19 2018-12-21 东软集团股份有限公司 疾病预测分类器的确定方法、装置、设备及可读存储介质
WO2020124585A1 (zh) * 2018-12-21 2020-06-25 北京哲源科技有限责任公司 获得细胞内确定性事件的方法、电子设备及存储介质
CN112375815A (zh) * 2020-11-11 2021-02-19 上海市儿童医院 基于核心家系的遗传病高通量测序致病突变筛选方法
CN113345525A (zh) * 2021-06-03 2021-09-03 谱天(天津)生物科技有限公司 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN113707222A (zh) * 2021-07-28 2021-11-26 邢传华 用于预测预定疾病风险的方法、计算设备和存储介质
CN114219594A (zh) * 2021-11-30 2022-03-22 江苏税软软件科技有限公司 基于回归分析的税务稽查选案方法
CN114596964A (zh) * 2022-05-09 2022-06-07 北京肿瘤医院(北京大学肿瘤医院) 预测brca突变患者对侧乳腺癌发病风险的模型及应用
CN114937473A (zh) * 2022-07-20 2022-08-23 中日友好医院(中日友好临床医学研究所) 基于多基因突变特征的vte风险评估模型、构建方法及应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101772578A (zh) * 2007-05-25 2010-07-07 解码遗传学私营有限责任公司 作为标记物用在乳腺癌风险评估、诊断、预后和治疗中的在CHR 5p12和10q26上的遗传变异体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101772578A (zh) * 2007-05-25 2010-07-07 解码遗传学私营有限责任公司 作为标记物用在乳腺癌风险评估、诊断、预后和治疗中的在CHR 5p12和10q26上的遗传变异体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HANNE MEIJERS-HEIJBOER, M.D,ET AL.: "Breast cancer after prophylactic bilateral mastectomy in women with a Brca1 or Brca2 mutation", 《THE NEW ENGLAND JOURNAL OF MEDICINE》 *
REN HONG,ET AL.: "Clinical study on the impact of long-term survival quality in 188 postoperative patients with breast cancer by cox proportional hazard models", 《现在肿瘤医学》 *
ROGER L . MILNE,ET AL.: "The Average Cumulative Risks of Breast and Ovarian Cancer for Carriers of Mutations in BRCA1 and BRCA2 Attending Genetic Counseling Units in Spain", 《CANCER PREVENTION AND SUSCEPTIBILITY》 *
黄波.: "COX比例风险模型分析乳腺癌的预后", 《当代医学》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107201401A (zh) * 2017-05-23 2017-09-26 深圳市第二人民医院 一种用于乳腺癌发病风险预测的多因素模型及其建立方法
CN107229841A (zh) * 2017-05-24 2017-10-03 重庆金域医学检验所有限公司 一种基因变异评估方法及系统
CN107229841B (zh) * 2017-05-24 2018-07-06 重庆金域医学检验所有限公司 一种基因变异评估方法及系统
CN107341347A (zh) * 2017-06-27 2017-11-10 天方创新(北京)信息技术有限公司 基于评分模型对乳腺癌进行风险评分的方法及装置
CN107423560A (zh) * 2017-06-27 2017-12-01 天方创新(北京)信息技术有限公司 基于评分模型对二型糖尿病进行风险评分的方法及装置
CN108624686A (zh) * 2018-03-30 2018-10-09 南京世和基因生物技术有限公司 一种检测brca1/2突变的探针库、检测方法和试剂盒
CN108624686B (zh) * 2018-03-30 2019-06-04 南京世和基因生物技术有限公司 一种检测brca1/2突变的探针库、检测方法和试剂盒
CN108922628A (zh) * 2018-04-23 2018-11-30 华北电力大学 一种基于动态Cox模型的乳腺癌预后生存率预测方法
CN109063418A (zh) * 2018-07-19 2018-12-21 东软集团股份有限公司 疾病预测分类器的确定方法、装置、设备及可读存储介质
CN111602201A (zh) * 2018-12-21 2020-08-28 北京哲源科技有限责任公司 获得细胞内确定性事件的方法、电子设备及存储介质
WO2020124585A1 (zh) * 2018-12-21 2020-06-25 北京哲源科技有限责任公司 获得细胞内确定性事件的方法、电子设备及存储介质
US20220076785A1 (en) * 2018-12-21 2022-03-10 Phil Rivers Technology, Ltd. Method for acquiring intracellular deterministic event, electronic device and storage medium
CN111602201B (zh) * 2018-12-21 2023-08-01 北京哲源科技有限责任公司 获得细胞内确定性事件的方法、电子设备及存储介质
CN112375815A (zh) * 2020-11-11 2021-02-19 上海市儿童医院 基于核心家系的遗传病高通量测序致病突变筛选方法
CN113345525A (zh) * 2021-06-03 2021-09-03 谱天(天津)生物科技有限公司 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN113707222A (zh) * 2021-07-28 2021-11-26 邢传华 用于预测预定疾病风险的方法、计算设备和存储介质
CN113707222B (zh) * 2021-07-28 2024-12-06 邢传华 用于预测预定疾病风险的方法、计算设备和存储介质
CN114219594A (zh) * 2021-11-30 2022-03-22 江苏税软软件科技有限公司 基于回归分析的税务稽查选案方法
CN114596964A (zh) * 2022-05-09 2022-06-07 北京肿瘤医院(北京大学肿瘤医院) 预测brca突变患者对侧乳腺癌发病风险的模型及应用
CN114937473A (zh) * 2022-07-20 2022-08-23 中日友好医院(中日友好临床医学研究所) 基于多基因突变特征的vte风险评估模型、构建方法及应用

Similar Documents

Publication Publication Date Title
CN106295241A (zh) 基于brca1和brca2突变的乳腺癌患病风险评估算法
CN109036571B (zh) 用于预测患有癌症的可能性或风险的方法和机器学习系统
Zhou et al. The cold-inducible RNA-binding protein (CIRP) level in peripheral blood predicts sepsis outcome
Chetty et al. Role of attributes selection in classification of Chronic Kidney Disease patients
CN110958853A (zh) 用于鉴定或监测肺病的方法和系统
Kjærgaard et al. Monocyte expression and soluble levels of the haemoglobin receptor (CD163/sCD163) and the mannose receptor (MR/sMR) in septic and critically ill non-septic ICU patients
US20190228836A1 (en) Systems and methods for predicting genetic diseases
CN108778287B (zh) 用于早产结果的早期风险评估的方法和系统
KR102044094B1 (ko) 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치
US20210118526A1 (en) Calculating cell-type rna profiles for diagnosis and treatment
CN106202988A (zh) 一种预测疾病生存期的逐步多元回归模型及应用
JP2025518236A (ja) 治療応答に関する機械学習予測モデル
Huang et al. Perihematomal edema-based CT-radiomics model to predict functional outcome in patients with intracerebral hemorrhage
Khosrotehrani et al. Nomograms to predict recurrence and survival in stage IIIB and IIIC melanoma after therapeutic lymphadenectomy
US20250022571A1 (en) Methods and apparatus for identifying alternative splicing events
Urban et al. Identifying post-menopausal women at elevated risk for epithelial ovarian cancer
EP4533461A1 (en) Systems and methods for identification of structural variants based on an autoencoder
Chen et al. Establish a new diagnosis of sarcopenia based on extracted radiomic features to predict prognosis of patients with gastric cancer
CN113707222B (zh) 用于预测预定疾病风险的方法、计算设备和存储介质
Tournoud et al. A strategy to build and validate a prognostic biomarker model based on RT-qPCR gene expression and clinical covariates
Zerka et al. A CT-based radiomics approach for CD8+ lymphocytes infiltration stratification in patients with non-small cell lung cancer
Krajc et al. Screening strategy modification based on personalized breast cancer risk stratification and its implementation in the national guidelines–pilot study
Lee et al. Risk-based screening mammography for women aged< 40: outcomes from the national mammography database
CN110689962B (zh) 模拟肿瘤的演变
Carmo et al. Automatic segmentation of lung findings in CT and application to Long COVID

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication