CN108913776B

CN108913776B - 放化疗损伤相关的dna分子标记的筛选方法和试剂盒

Info

Publication number: CN108913776B
Application number: CN201810925183.6A
Authority: CN
Inventors: 杜乐辉; 马娜; 曲宝林; 俞伟; 郑晖; 刘湘涛; 贾洪涛; 冯亚平; 王乾; 谢剑邦; 蒋才; 杨洁
Original assignee: Tianjia Giri Gene Technology Co ltd
Current assignee: Tianjia Giri Gene Technology Co ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2023-03-17
Anticipated expiration: 2038-08-14
Also published as: CN108913776A

Abstract

本发明提供了一种放化疗损伤相关的DNA分子标记的筛选方法和试剂盒，涉及生物技术领域。该方法通过先提供一组放化疗损伤样品；然后检测所述样品的候选DNA分子标记的位点信息；再建立以DNA分子标记位点信息为自变量，放化疗损伤的程度为因变量的多元线性回归数学模型；然后计算所述多元线性回归数学模型的有效变量和有效变量的相关系数；其中，所述有效变量为放化疗损伤相关的DNA分子标记；所述有效变量的相关系数为筛选出的放化疗损伤相关的DNA分子标记的权重系数，缓解了现有技术中存在的缺少一种能够有效筛选与放化疗损伤相关的DNA分子标记的方法的技术问题。

Description

放化疗损伤相关的DNA分子标记的筛选方法和试剂盒

技术领域

本发明涉及生物技术领域，尤其是涉及一种放化疗损伤相关的DNA分子标记的筛选方法和试剂盒。

背景技术

放、化疗是双刃剑，杀灭癌细胞的同时，不可避免地也要对机体造成损伤。肺癌在我国是男性第一高发女性第二高发肿瘤，同时也是我国致死人数最多的肿瘤。放射性治疗是肿瘤治疗的一种重要技术手段，随着技术的进步，对于肺癌的治疗，放疗的治疗效果已经可以比拟手术治疗的效果，同时放疗对患者身体的损伤小，治疗后患者的生活质量好，而且平均治疗所需的成本也比手术治疗要低。伴随着国民经济的发展，可以预见将会有更多的医疗机构会引入先进的放疗设备，同时人民对生活质量需求的提高，放疗将会逐渐在肿瘤治疗的领域将会起到越来越重要的作用。

参与放射性损伤的各种细胞因子、酶等均离不开基因的调控，不同的基因型可影响正常组织对射线的敏感性，因此从基因水平上研究放化疗损伤可以更本质的了解放化疗损伤的发病机理。DNA分子标记是以个体间遗传物质内核苷酸序列变异为基础的遗传标记，是直接在DNA分子上检测生物间的差异，是DNA水平变异的直接反应，DNA分子标记不受环境基因表达与否的限制，数量极多，遍及整个基因组，多态性高，遗传稳定，但是由于DNA分子标记数量过大，很难筛选出与研究目的相关的DNA分子标记。

因此，一种筛选与放化疗损伤相关的DNA分子标记方法，使放化疗损伤的程度与基因水平的表现相关联，是目前有待解决的问题。

有鉴于此，特提出本发明。

发明内容

本发明的第一目的在于提供一种放化疗损伤相关的DNA分子标记的筛选方法，缓解了现有技术中存在的缺少一种能够有效筛选与放化疗损伤相关的DNA分子标记的方法的技术问题。

本发明的第二目的在于提供一种用于预测放化疗损伤的试剂盒，缓解了现有技术中存在缺少一种能够有效预测放化疗损伤的产品的技术问题。

为解决上述技术问题，本发明特采用如下技术方案：

一种放化疗损伤相关的DNA分子标记的筛选方法，先提供一组放化疗损伤样品，然后检测所述样品的候选DNA分子标记的位点信息；

再建立以DNA分子标记位点信息为自变量，放化疗损伤的程度为因变量的多元线性回归数学模型；然后计算所述多元线性回归数学模型的有效变量和有效变量的相关系数；

其中，所述有效变量为放化疗损伤相关的DNA分子标记；所述有效变量的相关系数为筛选出的放化疗损伤相关的DNA分子标记的权重系数。

优选地，所述DNA分子标记包括SNP标记；

优选地，候选SNP标记的个数为1×10⁵-10×10⁵个；优选5×10⁵-8×10⁵个；更优选6.5×10⁵-7.5×10⁵个。

优选地，计算所述多元线性回归数学模型的有效变量和有效变量的相关系数基于Lasso和弹性网络正则化的广义线性模型的算法。

优选地，使用基因测序法、基因芯片分型法或Q-PCR的方法检测放化疗损伤样品的DNA分子标记的位点信息；

优选地，所述放化疗损伤样品为临床患者的血液DNA样品。

优选地，所述放化疗损伤为放射性肺炎；

优选地，提供放射性肺炎样品的数量至少为50个，优选为50-200个，更优选为100-150个；

优选地，零级或一级放射性肺炎样品的数量至少为样本总数量的20％，二级或二级以上放射性肺炎样品的数量至少为样本总数量的20％。

优选地，所述筛选方法包括如下步骤：

(a)提供已知放射性肺炎等级的样品N_j，j为1～n₂的整数，n₂为已知放射性肺炎等级样品的数量；

(b)检测待测样品中候选的DNA分子标记P_i的基因型，i为1～n₁的整数，n₁为候选的DNA分子标记的数量；

(c)为N_j在DNA分子标记P_i处的表型赋值：表型为野生纯合型赋值A₁，表型为杂合型赋值A₂，表型为变异纯合型赋值A₃；A₁、A₂和A₃互不相同；

(d)提供输入文件X，所述输入文件X为P×N阶矩阵；所述P×N阶矩阵中，列的元素为样品N_j在DNA分子标记P_i处的表型赋值A_k，k＝1、2或3；

(e)提供输入文件Y，所述输入文件Y为1×N阶矩阵；所述1×N阶矩阵的元素为样品N_j的放射性肺炎等级的数值；

(f)将所述输入文件X作为自变量，所述输入文件Y作为因变量，用基于Lasso和弹性网络正则化的广义线性模型的算法，计算出有效变量和有效变量的相关系数；

其中，有效变量为与放射性肺炎等级相关的DNA分子标记；

有效变量的相关系数为放射性肺炎等级相关的DNA分子标记的权重系数。

优选地，所述DNA分子标记为SNP；

然后以人参考基因组版本号37号为野生型，判断待测样品N_j在SNP标记P_i处的表型；表型为野生纯合型赋值0，表型为杂合型赋值1，表型为变异纯合型赋值2。

优选地，所述基于Lasso和弹性网络正则化的广义线性模型的算法使用GLMNET R程序包实现。

一种用于预测放化疗损伤的试剂盒，所述试剂盒包含检测上述放化疗损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片。

优选地，所述试剂盒还包括记载有所述放化疗损伤相关的DNA分子标记的权重系数的载体。

与现有技术相比，本发明具有如下有益效果：

本发明提供的放化疗损伤相关的DNA分子标记的筛选方法，建立了以DNA分子标记位点信息为自变量，放化疗损伤的程度为因变量的多元线性回归数学模型，通过给自变量和因变量赋值计算出了有效变量和有效变量的相关系数，计算出的有效变量即为放化疗损伤相关的DNA分子标记，有效变量的相关系数即为DNA分子标记的权重系数。该方法可以从大量的DNA分子标记中筛选出和放化疗损伤相关的DNA分子标记；该筛选方法可以适用于多种DNA分子标记的筛选，并且在筛选DNA分子标记的同时还可以计算出每个DNA分子标记的权重系数，因此可以对DNA分子标记对放化疗损伤的影响的重要程度进行估值，使人们更深入的了解不同的DNA分子标记对放化疗损伤的影响程度，以便进一步的指导这些DNA分子标记在后续对放化疗损伤研究中的应用。该方法可以用于任意组织的损伤和敏感性的预测评估，包括放射性治疗和化学药物治疗的损伤和敏感性。

本发明还提供了一种用于预测放化疗损伤的试剂盒，该试剂盒包含检测上述放化疗损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片，以进一步的应用于放化疗损伤的研究中。

附图说明

图1为本发明效果例中用本发明提供的筛选方法筛选的与放射性肺炎相关的SNP位点对72例肺癌患者放射性治疗前进行预判得到的放射性肺炎风险分值结果统计图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

本发明提供了一种放化疗损伤相关的DNA分子标记的筛选方法，该方法通过先提供一组放化疗损伤样品；然后检测所述样品的候选DNA分子标记的位点信息；再建立以DNA分子标记位点信息为自变量，放化疗损伤的程度为因变量的多元线性回归数学模型；然后计算所述多元线性回归数学模型的有效变量和有效变量的相关系数；

本发明提供的放化疗损伤相关的DNA分子标记的筛选方法筛选效率高，可以从大量的DNA分子标记中筛选出和放化疗损伤相关的DNA分子标记；该筛选方法可以适用于多种DNA分子标记的筛选。

在数学上，为了显示若干量数在总量中所具有的重要程度，分别给予不同的比例系数，这就是加权。加权的指派系数就是权重系数，又称权重、权值。本发明中放化疗损伤相关的DNA分子标记的筛选方法不仅可以筛选出放化疗损伤相关的DNA分子标记，还可以对DNA分子标记对放化疗损伤的影响的重要程度进行估值，使人们更深入的了解不同的DNA分子标记对放化疗损伤的影响程度，以便进一步的指导这些DNA分子标记在后续对放化疗损伤研究中的应用。

在一些可选的实施方式中，放化疗损伤例如可以为但不限于为皮肤损伤、全身损伤、骨髓抑制、免疫抑制、放射性食道癌、放射性肺炎、肺纤维化、放射性肝损伤或放射性肾损伤，本发明不限制放化疗损伤的环患病种类，可以理解的是，只要将放化疗损伤的程度划分等级，以便计算时作为因变量赋值即可。

以放射性肺炎为例，放射性肺炎(radiation pneumonitis，RP)是放射治疗时肺组织出现异常的病理表现，是肺癌放疗的常见并发症之一，由此造成的呼吸衰竭是放射性肺损伤的主要致死原因之一，而放射性肺炎一旦发生，目前临床上尚没有令人满意的治疗措施，疗后肺功能状态直接关系到患者的治疗效果和生活质量。目前放射性肺炎评分主要根据根据Common Terminology Criteria for Adverse Events(CTCAE)version3.0分级标准：1级：无临床症状，仅有轻微影像学表现；2级：有轻度临床症状，不影响日常活动；3级：有明显临床症状，影响活动，需支持治疗；4级：可能危及患者生命，需辅助通气；5级：死亡。

在一些优选的实施方式中，提供放射性肺炎样品的数量至少为50个，优选为50-200个，更优选为100-150个；并且更优选的，零级或一级放射性肺炎样品的数量至少为样本总数量的20％，二级或二级以上放射性肺炎样品的数量至少为样本总数量的20％。样本数量过大会增加实验成本，样本数量过小会导致样本容易不具有代表性而增大误差，并且样本中各等级的放射性肺炎均匀分布将有利于DNA分子标记的筛选。

DNA分子标记是以个体间遗传物质内核苷酸序列变异为基础的遗传标记，是直接在DNA分子上检测生物间的差异。是DNA水平遗传变异的直接反应。本发明所述的DNA分子标记例如可以为但不限于为SNP、SSR、ISSR、CAPS、SCAR等DNA分子标记。需要说明的是，本发明不限制DNA分子标记的种类，只要能体现个体间遗传物质内核苷酸序列的多态性即可。

下面以筛选与放射性肺炎相关的SNP为例进一步说明本发明。

单核苷酸多态性(Single Nucleotide Polymorphisms，SNP)是指同一位点的不同等位基因间只有一个核苷酸的差异或只有小的插入、缺失。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90％以上。SNP在人类基因组中广泛存在，平均每500-1000个碱基对中就有1个，估计其总数可达300万个甚至更多。因此在大量的人类SNP标记中只有一部分与放射性肺炎等级相关，并且各SNP位点对放射性肺炎等级的影响程度也不相同，筛选起来十分困难，并且难以全面。

一元线性回归是一个主要影响因素作为自变量来解释因变量的变化，在现实问题研究中，因变量的变化往往受几个重要因素的影响，在本实施方式中就表现为放射性肺炎等级被众多SNP位点信息，即各位点SNP的基因信息以及表型所影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，这就是多元回归，亦称多重回归。当多个自变量与因变量之间是线性关系时，所进行的回归分析就是多元性回归。

在大量的SNP标记中只有一部分与放射性肺炎等级相关，在多元线性回归数学模型中这一部分与放射性肺炎等级相关的SNP标记就反应为多元线性回归数学模型的有效变量，同时，这些有效变量的相关系数即为放射性肺炎等级相关的SNP标记的权重系数。

多元线性回归数学模型的有效变量和有效变量的相关系数通过如下方法计算：表示为：y＝β₀+β₁x₁+…+β_px_p+e，或者用矩阵的形式表示为Y＝Xβ+e；

其中，Y为因变量，β为回归系数，X为自变量。其算法为求解回归系数，使得：(Y-Xβ)²最小。

该筛选方法主要包括如下步骤：

(a)提供已知肺炎等级的样品N_j，j为1～n₂的整数，n₂为已知放射性肺炎等级样品的数量；零级或一级放射性肺炎样品的数量至少为样本总数量的20％，二级或二级以上放射性肺炎样品的数量至少为样本总数量的20％，以达到样本选择更具有随机性和普遍性，使筛选出的SNP标记更精确。

(b)检测待测样品中候选的SNP标记P_i的基因型；在一些可选的实施方式中，候选SNP标记的个数为1×10⁵-10×10⁵个；优选5×10⁵-8×10⁵个；更优选6.5×10⁵-7.5×10⁵个。通过优化候选SNP标记的个数和标准可以在避免遗漏和肺炎等级相关的SNP标记的同时提高筛选效率。

该步骤即检测每个已知肺炎等级的样品N_j的全部候选SNP标记的基因型，该步骤可以使用基因测序法(可以用1代、2代和3代测序中的任意一种方式，只需要测序的范围覆盖了候选的SNP标记)、基因芯片技术(可以用市售的任意一款基因芯片，只要该芯片的位点覆盖了候选的SNP标记)或Q-PCR的方法(可以用市售的任意一款荧光PCR仪，只要检测的探针覆盖了候选的SNP标记)检测待测样品中候选的SNP标记P_i的基因型，本发明对此不做限制。通过这一步可以得到样品N_j的每个SNP标记的表型和该样品的肺炎等级。

通过步骤(a)和步骤(b)可以得到一组样品，该组样品中的每一个样品的候选SNP标记的基因型已知，并且每一个样品的肺炎等级也已知。

(c)为N_j在SNP标记P_i处的表型赋值，i为1～n₁的整数，n₁为候选的SNP的数量。表型为野生纯合型赋值A₁，表型为杂合型赋值A₂，表型为变异纯合型赋值A₃；A₁、A₂和A₃互不相同。多元线性回归数学模型Y＝Xβ+e中Y为放射性肺炎等级信息，由于样本是已知放射性肺炎等级信息的样本，因此该模型中的因变量数值已知，本步骤的目的是为多元线性回归数学模型的自变量赋值，以达到进一步计算出相关系数β的目的。可以理解的是，该原始赋值具有任意性，该数值不代表任何生物学意义，但赋值的总体原则是原始赋值可以将野生纯合型、野生杂合型和变异纯合型区分开。其中，野生纯合型为在该位点(即DNA分子标记处，在本实施方式中为需要赋值的SNP位点处)所有等位基因均与野生型相同的基因型；野生杂合型为在该位点的等位基因既有与野生型相同，又存在与野生型不同的基因型；变异纯合型为在该位点处所有等位基因相同，但均和野生型不同的基因型。例如，在SNP标记P_w处，野生型基因为A，变异型为G，则野生纯合型为AA，野生杂合型为AG，变异纯合型为GG。需要说明的是，由于该数值不代表任何生物学意义，因此还可以采用符合计算要求的其他赋值规则。

在一些可选的实施方式中，选择一个参考基因作为野生型，该野生型并不是指生物学意义上的野生型，只是作为一个区分野生纯合型、杂合型和变异纯合型的标准，优选使用数据库中的基因作为参考基因；更优选使用人类参考基因组版本37号(GRCh37)作为参考基因。需要说明的是，本发明不限制参考基因的选择，可以随着人类参考基因版本的更新参考基因的标准。在一个优选地实施方式中，表型为纯合型赋值0，表型为杂合型赋值1，表型为变异纯合型赋值2，这样赋值计算较为简便。

理论上讲，SNP既可能是二等位多态性，也可能是3个或4个等位多态性，但实际上，后两者非常少见，几乎可以忽略。因此，通常所说的SNP都是二等位多态性的。因此当SNP位点与参考基因比对时，通常其变异型也只有一个常见类型。因此在一些优选的实施方式中，只对常见的变异性进行赋值，例如一个SNP位点参考基因是A，其常见的变异性是G，因此当一个样本该位点是AA时赋值为0，AG时赋值为1，GG时赋值为2，如若出现AC基因型的SNP则也赋值为0，以减少小概率的突变对计算结果的干扰。

(d)提供输入文件X，所述输入文件X为P×N阶矩阵；所述P×N阶矩阵中，列的元素为样品N_j在SNP标记P_i处的表型赋值A_k，k＝1、2或3；

(e)提供输入文件Y，所述输入文件Y为1×N阶矩阵；所述1×N阶矩阵的元素为样品N_j的肺炎等级，即0-5之间任意的整数。

步骤(d)和步骤(e)为将上述步骤(a)-(c)得到的数据整理成矩阵文件，便于后续的计算。

(f)将所述输入文件X作为自变量；将所述输入文件Y作为因变量，用基于Lasso和弹性网络正则化的广义线性模型的算法，筛选出有效变量和有效变量的相关系数；

如果响应变量(因变量)和预测变量(自变量)之间有比较明显的线性关系，最小二乘回归会有很小的偏倚，特别是如果观测数量Y(因变量)远大于预测变量X(自变量)时，最小二乘回归也会有较小的方差。但是如果Y和X比较接近，则容易产生过拟合；如果Y<X，最小二乘回归得不到有意义的结果。另外，多元线性回归模型里的很多变量可能是和响应变量(因变量)无关的；也有可能产生多重共线性的现象：即多个预测变量(自变量)之间明显相关。这些情况都会增加模型的复杂程度，削弱模型的解释能力。这时候需要进行变量选择(特征选择，feature selection)。

在给定的数据中，自变量的总数为X＝1×10⁵-10×10⁵，因变量的数目Y≤100，显然，Y<<X。

针对上面的问题，本发明应用了Rob Tibshirani等提出收缩方法(shrinkagemethod)，来建立多元线性回归模型。收缩方法又称为正则化。主要是岭回归(ridgeregression)和Lasso回归。通过对最小二乘估计加入罚约束，使某些系数的估计为0。本发明应用了弹性网络(elastic net)来处理上述问题，其方式融合了岭回归和Lasso回归两种正则化的方法，表示为：

elastic net对于p远大于n，或者严重的多重共线性情况有明显的效果。对于elastic net，当alpha接近1时，elastic net表现很接近Lasso，但去掉了由极端相关引起的退化化或者奇怪的表现。一般来说，elastic net是岭回归和Lasso的很好的折中，当alpha从0变化到1，目标函数的稀疏解(系数为0的情况)也从0单调增加到Lasso的稀疏解。

坐标下降法是关于Lasso的一种快速计算方法(是目前关于Lasso最快的计算方法)，其基本要点为：对每一个参数在保持其它参数固定的情况下进行优化，循环，直到系数稳定为止。这个计算是在lambda的格点值上进行的。在一个优选的实施方式中，所述基于Lasso和弹性网络正则化的广义线性模型的算法使用GLMNET R程序包实现。

通过上述计算，筛选出的有效变量即为与放射性肺炎等级相关的SNP标记；有效变量的相关系数即为放射性肺炎等级相关的SNP标记的权重系数。

可以理解的是，在一些可选的实施方式中，当筛选的DNA分子标记为SSR时也可以使用上述方法。微卫星DNA标记(Simple Sequence Repeat，SSR)，微卫星是仅由及个核苷酸(1-6)组成的重复单位，重复次数10-50。同一类微卫星DNA可分布在整个基因组不同位置上，由于重复次数不同，或重复程度不同，而形成每个座位的多态性。因此可以通过比对已知放射性肺炎等级样品的SSR和参考基因SSR的重复单元个数，判断野生纯合型、杂合型和变异纯合型，然后赋值，其余步骤皆和筛选SNP标记相同，在此不再赘述。

因此可以理解的是，筛选不同DNA分子标记时，只需根据不同DNA分子标记的特点调整样品的DNA分子标记与参考基因分子标记的比对策略，以达到确定野生纯合型、杂合型和变异纯合型的目的，然后赋值进行后续计算，因此无论筛选何种DNA分子标记，都是基于统一发明构思，因此筛选各种放化疗损伤相关的DNA分子标记的方法再次不再赘述。

可以理解的是，当筛选其他种类的放化疗损伤疾病的相关的DNA分子标记时，例如放射性肝损伤，只需先各程度的放射性肝损伤赋值，再将赋值作为因变量的值带入模型中，其余步骤皆和筛选放射性肺炎等级相关的DNA分子标记的步骤相同，因此再次也不在赘述。

本发明还提供了一种用于预测放化疗损伤的试剂盒，该试剂盒包括检测上述放化疗损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片。在一些可选的实施方式中，所述试剂盒还包括记载有所述放化疗损伤相关的DNA分子标记的权重系数的载体。以进一步的应用于放化疗损伤的研究中。

下面结合优选实施例进一步说明本发明的有益效果。

实施例

本实施例提供了一种放射性肺炎SNP位点的筛选方法，首先提供一组放化疗损伤样本共100例，其中无症状36例、1级症状25例、2级症状28例、3级症状9例、4级症状2例。候选SNP位点的数量约为700000个，侯选SNP位点的标准是能够覆盖到人类基因组的全部区间，所有SNP中，常见的SNP位点数量在所有SNP的数量中占比大于90％，常见的定义为该SNP位点的发生频率大于5％。样本检测SNP的方法为使用美国Illumina公司的Global ScreenAssay芯片(GSA芯片)检测，检测方法和步骤完全按照厂家的标准操作执行。

单个样本所涉及的所有多态性位点做原始赋值，赋值的算法为：将该位点的基因型同人类参考基因组版本37号(GRCh37)做比对，当该位点为野生纯合型时(即两个拷贝均为野生型)，原始赋值为0；当该位点为野生杂合型或者变异杂合型时(即一个拷贝为野生型，另外一个位点为变异型)，原始赋值为1；当该位点为变异纯合型时(即两个拷贝均为杂合型)，原始赋值为2。该原始赋值具有任意性，该数值不代表任何生物学意义，但赋值的总体原则是原始赋值可以将野生纯合型、野生杂合型或者变异杂合型和变异纯合型区分开。

该赋值过程可以用计算机辅助实现。示例如下：

1.)下载人类人类参考基因组版本37号，并按照如下格式建立数据库，并命名位ref_data：

共4列(TAB键分开)，其中:第1例为位点编号；第2列为染色体号；第3列为染色体位置；第4列为参考碱基；

2.)然后将前述约700000个位点的基因型数据按照如下格式建立输入文件并命名为input_data：

共2列(TAB键分开),其中第1例为位点编号；第2列为可变基因型，中括号“[]”内，“/”分隔。

3.)在计算机上运行以下perl脚本(需要perl运行环境)：

输出文件名为：“treated_result”，

共2列，第1例为位点编号；第2列为该位点的原始赋值。

该原始赋值也可以通过其它不同的计算机语言实现，只需要最终效果同示例一致即可。

所有的样本都进行上述操作，最终得到一个P×N阶的矩阵，其中P为每个样本所统计的多态性位点的总体数量，N为总体的样本数量。该矩阵将作为一个输入文件。将所有样本的放射性肺炎的等级建立第二个矩阵文件，该矩阵为1×N阶，其中N为总体的样本数量。将上述两个矩阵文件分别作为自变量和因变量带入到GLMNET R程序包中进行运算，运算的结果为共得到31个与放射性肺炎等级相关的SNP标记，其SNP信息与权重系数如下表所示：

效果例

临床血液样本来源于北京某医院，以上样本均获得本人的知情同意，获取的72例样本均来自放疗前的肺癌患者。血液采集按照临床常规操作，收集1ml的静脉血，血液冷藏保存于常规的EDTA抗凝管中，保存时间不超过一周。将采集的血液样本用DNA提取试剂盒提取基因组DNA。采用基因测序法对72例样本提取的72份基因组DNA进行测序，得到实施例筛选出的31个SNP位点的基因型。

将样本在实施例中筛选出的31个位点的基因型与人类参考基因组版本37号(GRCh37)做比对，当该位点比对的结果为两个拷贝都一致时，该位点的原始赋值为0；当该位点比对的结果为一个拷贝一致时，该位点的原始赋值为1；当该位点比对的结果为两个拷贝均变异型时，该位点的原始赋值为2。然后将每个位点的原始赋值与该位点的权重系数相乘，所得数值为该位点的计算分值。将一个样本的31个位点的计算分值相加，得到的总和即为该样本对应的风险值。当总和数值大于0.5时，判定为该患者会发生2级或2级以上的放射性肺炎。将该风险值乘以100％，即为该患者发生2级或者2级以上放射性肺炎的风险概率。

对72个样本患放射性肺炎的风险分值进行统计，结果如图1所示，预判出共有17例肺癌患者术后会患有2级或2级以上的放射性肺炎。

随后对这72例患者做了术后实际随访，对患者是否患有放射性肺炎及等级做了调查，结果如下表所示：

从上述表格中可以看出72例患者中17例得了2级或2级以上的放射性肺炎，并且患者的样本编号与本发明预判的结果也一致，说明本发明提供的筛选方法筛选出的与放射性肺炎相关的SNP位点可以作为预测或辅助预测肺部辐射后患放射性肺炎风险的遗传生物标记物，并且可以有效的对放射性肺炎的风险进行预判。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于预测放射性肺炎损伤的试剂盒，其特征在于，所述试剂盒包含检测放射性肺炎损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片；

所述试剂盒还包括记载有所述放射性肺炎损伤相关的DNA分子标记的权重系数的载体；

以人类参考基因组版本37号GRCh37为参考，所述DNA分子标记及其权重系数如下表所示：