CN106295241A

CN106295241A - 基于brca1和brca2突变的乳腺癌患病风险评估算法

Info

Publication number: CN106295241A
Application number: CN201510364732.3A
Authority: CN
Inventors: 马婷婷; 刘明明; 张鹤; 柳泽亮; 蔡乐靖; 徐飞; 陈帼婧; 屠勇军; 陈贤丰
Original assignee: Hangzhou San Sheng Biotechnology Co Ltd
Current assignee: Hangzhou San Sheng Biotechnology Co Ltd
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2017-01-04

Abstract

本发明涉及疾病风险评估算法领域，尤其是—乳腺癌患病风险评估算法。本发明公开了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法，包括以下步骤：1）高通量测序得到BRCA 1和BRCA 2序列；2）筛选出BRCA 1和BRCA 2序列中的高危突变位置；3）建立COX比例风险模型，剔除不显著因素；4）分析各个高危突变因素对个体患病风险的影响；5）重新建立最佳模型，估计模型参数；6）计算个体患乳腺癌的概率；7）预测未来n年内患乳腺癌的概率；考虑样本其他高危风险因素，计算家族相对风险，对上述预测的患病概率进行修正。本发明是根据中国人特异的乳腺癌致病相关突变库，定义BRCA 1和BRCA 2高危突变位置，设计算法，计算样本个体乳腺癌患病的绝对风险，并预测个体未来几年内患乳腺癌的概率。

Description

基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法

技术领域

本发明涉及疾病风险评估算法领域，尤其是-乳腺癌患病风险评估算法。

背景技术

乳腺癌发病率在我国女性恶性肿瘤发病率中排在第一位。BRCA 1和BRCA 2基因突变存在于80％的乳腺癌高发家族的患者中。目前医院对于乳腺癌的诊断主要靠检查双侧乳腺、乳腺X线摄影(乳腺钼靶照相)、乳腺磁共振检查(MRI)等。这样诊断发现的乳腺癌一般已到晚期，很难治愈。因此，研究BRCA 1和BRCA 2基因突变位置与乳腺癌患病风险之间的关系，设计乳腺癌风险评估算法就成为一项迫切且很有临床意义的工作。

本发明的主要目的是建立中国人特异的乳腺癌致病相关突变库，定义BRCA 1和BRCA2基因高危突变位置；设计乳腺癌患病风险评估算法，计算样本个体乳腺癌患病的绝对风险，预测个体未来几年内患乳腺癌的概率；最后就是根据家族病史信息，对上述个体的患病概率进行修正，并预测突变样本的亲属(一级亲属)未来几年内患乳腺癌的概率。

发明内容

为了解决现有技术存在的不足，本发明提供了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法。

本发明中的一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法，包括以下步骤：

i)中国人特异的乳腺癌致病相关突变库的构建：对检测到的突变的致病和有害程度的注释，主要通过筛查其中是否含有已发现的，较公认的高危突变；

j)将样本中BRCA 1和BRCA 2基因平均分为30个区域，与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对，设定阈值，超过阈值的区域定义为该区域突变；

k)建立COX比例风险回归模型，剔除不显著因素：

i.截尾值，对样本结局的处理：患乳腺癌样本为“0”，截尾值为“1”，卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据；

ii样本对应的生存曲线：由于样本数据寻在截尾数据，可以考虑使用半参数模型-COX比例风险回归模型；首先需要进行比例风险假定，检查某协变量是否满足PH假定，最简单的方法是观察按该变量分组的生存曲线，即log(-log)图；若生存曲线交叉，提示不满足PH假定；

iii.根据步骤b中的确定的高危突变位置，建立乳腺癌的突变位置与赋值表；

iv.建立评估模型，COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系，而是用风险函数作为因变量

λ (t, x) = λ_{0} (t) e^{β_{1} X_{1} + β_{2} X_{2} + ... + β_{p} X_{P}},

(t，x)是具有突变位置X的个体在年龄段t时的风险函数；λ₀(t)是年龄段t对应的基准风险率；X＝(X₁，X₂，...，X_p)′表示与乳腺癌患病相关的突变位置。

l)进行COX比例风险回归模型参数估计，模型右侧分为两部分：非参数部分λ₀(t)，以及参数部分β_j(j＝1，2，...，p)。COX模型中的参数是采用最大似然估计法估计的，在队列研究中，样本i(i＝1，2...n)具有相同的特征(年龄，患病等)。

在某一年龄段t_i，样本i患病的条件概率：

q_{i} = \frac{λ_{i} (t, x)}{Σ_{j = 1}^{n} λ_{j} (t, x)} = \frac{λ_{0} (t) e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = 1}^{n} λ_{0} (t) e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + ... + β_{p} X_{i, p}}} = \frac{e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = 1}^{n} e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + ... + β_{p} X_{j, p}}}

在某一年龄段t_i，所有样本均患病的概率：

L = Π_{i = 1}^{n} q_{i} = Π_{i = 1}^{d} {(\frac{e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = 1}^{n} e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + ... + β_{p} X_{j, p}}})}^{δ_{i}}

d表示患病样本数。

\begin{matrix} \ln L = Σ_{i = 1}^{d} (β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}) - Σ_{i = 1}^{d} \ln (Σ_{{jR}_{i}} β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}) \\ \frac{\partial (\ln L)}{\partial β_{j}} = 0, j = 1, 2, 3 \end{matrix}

&DoubleRightArrow; β_{k} (k = 1, 2, 3)

的估计值

参数的

进行COX比例风险回归模型参数检验，本发明采用最大似然比检验，假设

H0：所有的β_k为0，

H1：至少有一个β_k不为0

假设一个包含个协变量的模型，根据最大似然函数估计得到的似然函数值为ln(p)，在上述模型中在增加一个协变量，建立一个新的模型，根据最大似然函数估计得到的似然函数值为ln(p+1)，检验新增加协变量是否有统计学意义的统计量为

χ²＝2[lnL(p+1)-lnL(p)]

服从自由度为1的χ²分布；

m)进行COX比例风险回归模型性能评估：

i.ROC曲线对应95％的AUC，与其他模型的结果做比较；

ii.对于BRCA突变与无BRCA突变的样本，用T检验，比较两组样本的均值差异；P-value值；

iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异，用Pearson χ²最优拟合；

iv.对于BRCA突变的分类(小样本)，用Fish检验每种突变的显著性差异；

n)BRCA1和BRCA2突变位置分析：

i.对乳腺癌患病是否有显著作用就是同过P值来判断；然后使用逐步回归决定是否剔除该变量；

ii.通过步骤d的参数估计，可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HR_k倍；

突变位置的叠加影响，对于一元COX模型输出的相对危险度HR_j，指的是每一个协变量X_j为1与为0时的比值：

{HR}_{j} = \frac{λ (t, X_{j})}{λ_{0} (t)} = \frac{λ_{0} (t) e^{β_{j} \times 1}}{λ_{0} (t) e^{β_{j} \times 0}} = e^{β_{j}}

同时考虑2个协变量，2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为

H R = \frac{λ (t, X_{i})}{λ^{'} (t, X_{1})} = \frac{λ_{0} (t) e^{β_{1} \times 1 + β_{2} \times 1}}{λ_{0} (t) e^{β_{1} \times 0 + β_{2} \times 0}} = {HR}_{1} \times {HR}_{2}

对于个致病突变位置X_i(i＝1，2，...，p)

HR＝HR₁×HR₂×…×HR_p

表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。

o)个体患病风险：基准风险率λ₀(t)为步骤11中所有位置均不突变时，各个年龄段对应的风险率。则对于BRCA1/2突变样本来说，对应的风险率函数如下：

λ(t，x)＝λ₀(t)·HR

p)个体患病风险的累积概率

n年内的乳腺癌发病率

Λ (t) = Σ_{k = 1}^{n} i_{k} t_{k} e^{β_{k}}

t_k：第k个年龄段的长度；

i_k：第k个年龄段的发病率；

β_k：第k个年龄段的β_k＝ln(HR)，e^β _k＝HR；

n年后的累计患病风险

F(t)＝1-e^-Λ(t)

95％CI为：

1 - e^{- Λ (t) &PlusMinus; 1.96 \sqrt{var (A (t))}}

其中，

\begin{matrix} var (Λ (t)) = Σ_{k = 1}^{n} i_{k}^{2} t_{k}^{2} var (β_{k}) e^{2 β_{k}} \\ + 2 Σ_{\begin{matrix} j < k \\ k = 1 \end{matrix}}^{n} i_{k} i_{j} t_{k} t_{j} {[var (β_{k}) var (β_{j})]}^{1 / 2} e^{β_{k} + β_{j}} c o r r (β_{k}, β_{j}) \end{matrix}

作为优选，所述一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法还包括家族性乳腺癌的相对风险FRR，考虑样本的家族病对预测的样本患病风险进行修正，

女儿患病风险修正值

P(女儿t年龄患病|母亲t年龄患病)

＝FRR·P(女儿t年龄患病)。

作为优选，所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄，风险因素与赋值见下表：

作为优选，所述拟合样本采用条件逻辑回归拟合。假设P_i表示第i层在一组危险作用下发病的概率，则

P_{i} = \frac{1}{1 + e^{- (β_{0 i} + β_{1} X_{1} + ... + β_{m} X_{m})}}

X_it＝(X_it1，X_it1，...，X_itm)表示第i层第t个观察对象危险因素的观察值。

作为优选，所述参数估计方法为构造条件似然函数，

将P_i带入，

L_{i} = \frac{1}{1 + Σ_{t = 1}^{M} e^{Σ_{j = 1}^{m} β_{j} (x_{i t j} - x_{i 0 j})}}

综合n个匹配组的条件似然概率为

L = Π_{i = 1}^{n} \frac{1}{1 + Σ_{t = 1}^{M} e^{Σ_{j = 1}^{m} β_{j} (x_{i t j} - x_{i 0 j})}}

对上述条件似然函数取对数，然后使用Newton-Raphson迭代方法求得参数对应的估计值

{\hat{β}}_{j} (j = 1, 2, ..., m) .

作为优选，所述高危突变列表如下：

其中常见的BRCA 1和BRCA 2突变有

SNPs	MAF	OR	95％CI1	95％CI2
					rs8170	17	1.26	1.17	1.35
rs2046210	34.7	1.17	1.11	1.23
					rs9397435	7.1	1.28	1.18	1.4
rs3803662	28	1.09	1.03	1.16
					rs13387042	52.2	1.11	1.01	1.21
rs2981582	38.7	1.3	1.2	1.4
					rs3803662	28	1.17	1.07	1.27
rs889312	29	1.1	1.01	1.19
					rs3817198	32.8	1.14	1.06	1.23
rs13387042	51.2	1.15	1.02	1.29
					rs4973768	49.2	1.1	1.03	1.18
rs10941679	23.4	1.09	1.01	1.19
					rs9397534	8.2	1.14	1.01	1.28
rs11249433	39.7	1.09	1.02	1.17

本发明的有益效果：是根据中国人特异的乳腺癌致病相关突变库，定义BRCA 1和BRCA 2基因高危突变位置，设计算法，计算样本个体乳腺癌患病的绝对风险，并预测个体未来几年内患乳腺癌的概率。

FRR表示与正常样本先比，乳腺癌高发人群患病的相对风险。

以家族病史为例，说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA 1和BRCA 2突变，我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。

如果不考虑母亲患病，直接分析检测到的突变位点，预测得到她在年龄t的患病概率为P(女儿t年龄患病)；P(母亲t年龄患病)＝1。则

女儿患病风险修正值

P(女儿t年龄患病|母亲t年龄患病)

＝FRR·P(女儿t年龄患病)。

具体实施方式

下面对本发明作进一步详细说明，但不应将此理解为本发明的上述主题的范围仅限于上述实施例。

1.受检人血液样本收集。静脉血抽取3-5ml，EDTA/柠檬酸抗凝管，抽血后混匀，短时间(3天内)2-8度保存运输，长时间冻存(-20度)保存运输。

2.易感基因BRCA 1和BRCA 2捕获。采用life公司的Ampliseq BRCA 1和BRCA 2捕获试剂盒通过PCR的方法对乳腺癌易感基因BRCA 1和BRCA 2进行全外显子区域的捕获。

3.高通量测序获得样本外显子序列。

4.中国人特异的乳腺癌致病相关突变库的构建。对检测到的突变的致病和有害程度的注释，主要通过筛查其中是否含有已发现的，较公认的高危突变。部分高危突变列表如下表1。

表1.部分高危突变

其中常见的BRCA 1和BRCA 2突变有

5.定义BRCA 1和BRCA 2突变。将样本中BRCA 1和BRCA 2基因平均分为30个区域，与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对，设定阈值，超过阈值的区域定义为该区域突变。

6.COX比例风险回归模型的建立

1)截尾值(censored value)

对于样本结局的处理：患病样本赋值为“0”；截尾值为“1”。

以下情况也认为是截尾数据：

a)卵巢癌；

b)降低风险性输卵管卵巢切除术；

c)降低风险性乳房切除术；

d)死亡；

e)截止随访时间都不患癌症。

2)样本对应的生存曲线

由于样本数据寻在截尾数据，可以考虑使用半参数模型-COX比例风险回归模型。首先需要进行比例风险假定。检查某协变量是否满足PH假定，最简单的方法是观察按该变量分组的生存曲线，即log(-log)图。若生存曲线交叉，提示不满足PH假定。

3)突变位置

根据步骤6中确立的高危突变位置，建立乳腺癌的突变位置与赋值表。

4)建立评估模型

COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系，而是用风险函数作为因变量

λ (t, x) = λ_{0} (t) e^{β_{1} X_{1} + β_{2} X_{2} + ... + β_{p} X_{p}}

7.参数估计

模型右侧分为两部分：非参数部分λ₀(t)，以及参数部分β_j(j＝1，2，...，p)。COX模型中的参数是采用最大似然估计法估计的。

在队列研究中，样本i(i＝1，2...n)具有相同的特征(年龄，患病等)。

在某一年龄段t_i，样本i患病的条件概率：

q_{i} = \frac{λ_{i} (t, x)}{Σ_{j = 1}^{n} λ_{j} (t, x)} = \frac{λ_{0} (t) e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = 1}^{n} λ_{0} (t) e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + ... + β_{p} X_{i, p}}} = \frac{e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = 1}^{n} e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + ... + β_{p} X_{j, p}}}

在某一年龄段t_i，所有样本均患病的概率：

L = Π_{i = 1}^{n} q_{i} = Π_{i = 1}^{d} {(\frac{e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = 1}^{n} e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} β_{p} X_{j, p}}})}^{δ_{i}}

d表示患病样本数。

\begin{matrix} \ln L = Σ_{i = 1}^{d} (β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}) - Σ_{i = 1}^{d} \ln (Σ_{{jR}_{i}} β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}) \\ \frac{\partial (\ln L)}{\partial β_{j}} = 0, j = 1, 2, 3 \end{matrix}

&DoubleRightArrow; β_{k} (k = 1, 2, 3)

的估计值

参数的95％CI：

e^{{\hat{β}}_{k}} &PlusMinus; 1.96 S e (\hat{β} k)

8.模型的参数检验

本发明采用最大似然比检验，假设

H₀：所有的β_i为0，

H₁：至少有一个β_i不为0

假设一个包含p个协变量的模型，根据最大似然函数估计得到的似然函数值为ln(p)，在上述模型中在增加一个协变量，建立一个新的模型，根据最大似然函数估计得到的似然函数值为ln(p+1)，检验新增加协变量是否有统计学意义的统计量为

χ²＝2[lnL(p+1)-lnL(p)]

服从自由度为1的χ²分布。

9.模型性能评估

1)ROC曲线对应95％的AUC，与其他模型的结果做比较；

2)对于BRCA突变与无BRCA突变的样本，用T检验，比较两组样本的均值差异；P-value值；

3)对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异，用Pearsonχ²最优拟合；

4)对于BRCA突变的分类(小样本)，用Fish检验每种突变的显著性差异。

10.BRCA 1和BRCA 2突变位置分析

1)参数对应的P值

参数对乳腺癌患病是否有显著作用就是同过P值来判断；然后使用逐步回归决定是否剔除该变量。

2)相对风险HR_k

通过步骤8的参数估计，可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HR_k倍。

3)突变位置的叠加影响

对于一元COX模型输出的相对危险度HR_j，指的是每一个协变量X_j为1与为0时的比值：

{HR}_{j} = \frac{λ (t, X_{1})}{λ_{0} (t)} = \frac{λ_{0} (t) e^{β_{j} \times 1}}{λ_{0} (t) e^{β_{j} \times 0}} = e^{β_{j}}

H R = \frac{λ (t, X_{i})}{λ^{'} (t, X_{i})} = \frac{λ_{0} (t) e^{β_{1} \times 1 + β_{2} \times 1}}{λ_{0} (t) e^{β_{1} \times 0 + β_{2} \times 0}} = {HR}_{1} \times {HR}_{2}

同理，对于p个致病突变位置X_i(i＝1，2，...，p)

HR＝HR₁×HR₂×…×HR_p

11.个体患病风险

基准风险率₀(t)为步骤11中所有位置均不突变时，各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说，对应的风险率函数如下：

λ(t，x)＝λ₀(t)·HR

12.个体患病风险的累积概率

a)n年内的乳腺癌发病率

Λ (t) = Σ_{k = 1}^{n} i_{k} t_{k} e^{β_{k}}

t_k：第k个年龄段的长度；

i_k：第k个年龄段的发病率；

β_k：第k个年龄段的β_k＝ln(HR)，e^β _k＝HR；

b)n年后的累计患病风险

F(t)＝1-e^-Λ(t)

95％CI为：

1 - e^{- Λ (t) &PlusMinus; 1.96 \sqrt{var (Λ (t))}}

其中，

\begin{matrix} var (Λ (t)) = Σ_{k = 1}^{n} i_{k}^{2} t_{k}^{2} var (β_{k}) e^{2 β_{k}} \\ + 2 Σ_{\begin{matrix} j < k \\ k = 1 \end{matrix}}^{n} i_{k} i_{j} t_{k} t_{j} {[var (β_{k}) var (β_{j})]}^{1 / 2} e^{β_{k} + β_{j}} c o r r (β_{k}, β_{j}) \end{matrix} .

13.家族性乳腺癌的相对风险FRR

FRR表示家族性相对风险，即考虑样本的家族病史(一级亲属)时，对预测的样本患病风险进行修正。

在本发明中，我们主要考虑样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄等风险因素信息，详见表2。

表2.乳腺癌风险因素与赋值

1)建立模型

在本发明中，我们使用条件逻辑回归拟合样本的所有危险因素信息。假设P_i表示第i层在一组危险作用下发病的概率，则

P_{i} = \frac{1}{1 + e^{- (β_{0 i} + β_{1} X_{1} + ... + β_{m} X_{m})}}

2)参数估计

构造条件似然函数，

L_{i} = \frac{P (X_{10} | Y = 1) Π_{t = 1}^{M} P (X_{i t} | Y = 0)}{Σ_{t = 0}^{M} [P (X_{i t} | Y = 1) Π_{t = 1, t &NotEqual; t}^{M} P (X_{i t} | Y = 0)]}

将P_i带入，

L_{i} = \frac{1}{1 + Σ_{t = 1}^{M} e^{Σ_{j = 1}^{m} β_{j} (x_{i t j} - x_{i 0 j})}}

综合n个匹配组的条件似然概率为

L = Π_{i = 1}^{n} \frac{1}{1 + Σ_{t = 1}^{M} e^{Σ_{j = 1}^{m} β_{j} (x_{i t j} - x_{i 0 j})}}

{\hat{β}}_{j} (j = 1, 2, ..., m) .

3)优势比估计OR

l n (\frac{P}{1 - P}) = β_{0 i} + β_{1} X_{1} + ... + β_{m} X_{m}

当X_j＝c₁与c₀时，

{lnOR}_{j} = l n [\frac{P_{1} / (1 - P_{1})}{P_{0} / (1 - P_{0})}] = β_{1} (c_{1} - c_{0})

一般地，若取c₁＝1，c₀＝0，则

{OR}_{j} = e^{β j}

4)FRR

FRR表示与正常样本先比，乳腺癌高发人群患病的相对风险。

女儿患病风险修正值

P(女儿t年龄患病|母亲t年龄患病)

＝FRR·P(女儿t年龄患病)。

Claims

1.一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法，包括以下步骤：

a)中国人特异的乳腺癌致病相关突变库的构建：对检测到的突变的致病和有害程度进行注释，通过筛查其中是否含有已发现的，较公认的高危突变；

b)将样本中BRCA 1和BRCA 2基因平均分为30个区域，与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对，设定阈值，超过阈值的区域定义为该区域突变；

c)建立COX比例风险回归模型，剔除不显著因素：

i.截尾值，对样本结局的处理：患乳腺癌样本赋值为“0”，截尾值为“1”，卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据；

iv.建立评估模型，COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系，而是用风险函数作为因变量λ(t，x)是具有突变位置X的个体在年龄段t时的风险函数；λ₀(t)是年龄段t对应的基准风险率；X＝(X₁，X₂，...，X_p)′表示BRCA 1和BRCA 2中与乳腺癌患病相关的突变位置；

d)进行COX比例风险回归模型参数估计，模型右侧分为两部分：非参数部分λ₀(t)，以及参数部分β_j(j＝1，2，...，p)。COX模型中的参数是采用最大似然估计法估计的，

在队列研究中，样本i(i＝1，2…n)具有相同的特征(年龄，患病等)；

在某一年龄段t_i，样本i患病的条件概率：

q_{i} = \frac{λ_{i} (t, x)}{Σ_{j = i}^{n} λ_{j} (t, x)} = \frac{λ_{0} (t) e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = i}^{n} λ_{0} (t) e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + β_{p} X_{i, p}}} = \frac{e^{β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}}}{Σ_{j = i}^{n} e^{β_{1} X_{j, 1} + β_{2} X_{j, 2} + β_{p} X_{j, p}}}

在某一年龄段t_i，所有样本均患病的概率：

L = Π_{i = 1}^{n} q_{i} = Π_{i = 1}^{d} {(\frac{e^{β_{1} X_{i .1} + β_{2} X_{i .2} + ... + β_{p} X_{i . p}}}{Σ_{j = 1}^{n} e^{β_{1} X_{j .1} + β_{2} X_{j .2} + β_{p} X_{i . p}}})}^{δ_{i}}

d表示患病样本数。

\ln L = Σ_{i = 1}^{d} (β_{1} X_{i, 1} + β_{2} X_{i, 2} + ... + β_{p} X_{i, p}) - Σ_{i = 1}^{d} \ln (Σ_{{jR}_{i}} β_{1} X_{j, 1} + β_{2} X_{j, 2} + β_{p} X_{j, p})

\frac{\partial (\ln L)}{\partial β_{j}} = 0, j = 1, 2, 3

&DoubleRightArrow; β_{k} (k = 1, 2, 3)

的估计值

参数的95％CI：

H0：所有的β_i为0，

H1：至少有一个β_i不为0

χ²＝2[lnL(p+1)-lnL(p)]

服从自由度为1的χ²分布；

e)进行Cox比例风险回归模型性能评估：

i.ROC曲线对应95％的AUC，与其他模型的结果做比较；

iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异，用Pearson χ³最优拟合；

f)BRCA 1和BRCA 2突变位置分析：

突变位置的叠加影响，对于一元COX模型输出的相对危险度HR_j，指的是每一个协变量X_j为1与为o时的比值：

{HR}_{j} = \frac{λ (t, X_{j})}{λ_{0} (t)} = \frac{λ_{0} (t) e^{β_{j} \times 1}}{λ_{0} (t) {e^{β_{j}}}^{\times 0}} = e^{β_{j}}

H R =_{\overset{&OverBar;}{λ^{'} (t, X_{i})}}^{λ (t, X_{i})} = \frac{λ_{0} (t) e^{β_{1}} {^{\times 1 + β_{2}}}^{\times 1}}{λ_{0} (t) e^{β_{1} \times 0 + β_{2} \times 0}} = {HR}_{1} \times {HR}_{2}

对于p个致病突变位置X_i(i＝1，2，...，p)

HR＝HR₁×HR₂×…×HR_p

表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍

g)个体患病风险：基准风险率h₀(t)为步骤11中所有位置均不突变时，各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说，对应的风险率函数如下：

λ(t，x)＝λ₀(t)·HR

h)个体患病风险的累积概率

n年内的乳腺癌发病率

Λ (t) = Σ_{k = 1}^{n} i_{k} t_{k} e^{β_{k}}

t_k：第k个年龄段的长度；

i_k：第k个年龄段的发病率；

β_k：第k个年龄段的β_k＝ln(HR)，

n年后的累计患病风险

F(t)＝1-e^-Λ(t)

95％CI为：

1 - e^{- Λ (t) &PlusMinus; 1.96} \sqrt{var (Λ (t))}

其中，

var (Λ (t)) = Σ_{k = 1}^{n} i_{k}^{2} t_{k}^{2} var (β_{k}) e^{2 β_{k}}

+ 2 Σ_{\begin{matrix} j < k, \\ k = 1 \end{matrix}}^{n} i_{k} i_{j} t_{k} t_{j} {[var (β_{k}) var (β_{j})]}^{1 / 2} e^{β_{k} + β_{j}} c o r r (β_{k}, β_{j}) .

2.如权利要求1所述的一种乳腺癌患病风险评估算法，其特征在于：还包括家族性乳腺癌的相对风险FRR，考虑样本的家族病对预测的样本患病风险进行修正，

女儿患病风险修正值

P(女儿t年龄患病|母亲t年龄患病)＝FRR·P(女儿t年龄患病)。

3.如权利要求2所述的一种乳腺癌患病风险评估算法，其特征在于：所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄，风险因素与赋值见下表：

4.如权利要求1所述的一种乳腺癌患病风险评估算法，其特征在于：所述拟合样本采用条件逻辑回归拟合。

5.如权利要求1所述的一种乳腺癌患病风险评估算法，其特征在于：所述参数估计方法为构造条件似然函数，

L_{i} = \frac{P (X_{i 0} | Y = 1) Π_{t = 1}^{M} P (X_{i t} | Y = 0)}{Σ_{t = 0}^{M} [P (X_{i t} | Y = 1) Π_{t = 1, t &NotEqual; t}^{M} P (X_{i t} | Y = 0)]}

将P_i带入，

L_{i} = \frac{1}{1 + Σ_{t = 1}^{M} e^{Σ_{j = 1}^{m} β_{j} (x_{i t j -} x_{i 0 j})}}

综合n个匹配组的条件似然概率为

L = Π_{i = 1}^{n} \frac{1}{1 + Σ_{t = 1}^{M} e^{Σ_{j = 1}^{m} β_{j} (X_{i t j} - x_{i 0 j})}}

{\hat{β}}_{j} (j = 1, 2, ..., m) .

6.如权利要求1所述的一种乳腺癌患病风险评估算法，其特征在于：所述高危突变列表如下：

其中BRCA 1和BRCA 2突变有

SNPs MAF OR 95％CI1 95％CI2 rs8170 17 1.26 1.17 1.35 rs2046210 34.7 1.17 1.11 1.23 rs9397435 7.1 1.28 1.18 1.4 rs3803662 28 1.09 1.03 1.16

rs13387042 52.2 1.11 1.01 1.21 rs2981582 38.7 1.3 1.2 1.4 rs3803662 28 1.17 1.07 1.27 rs889312 29 1.1 1.01 1.19 rs3817198 32.8 1.14 1.06 1.23 rs13387042 51.2 1.15 1.02 1.29 rs4973768 49.2 1.1 1.03 1.18 rs10941679 23.4 1.09 1.01 1.19 rs9397534 8.2 1.14 1.01 1.28 rs11249433 39.7 1.09 1.02 1.17

。