CN108913776B - 放化疗损伤相关的dna分子标记的筛选方法和试剂盒 - Google Patents

放化疗损伤相关的dna分子标记的筛选方法和试剂盒 Download PDF

Info

Publication number
CN108913776B
CN108913776B CN201810925183.6A CN201810925183A CN108913776B CN 108913776 B CN108913776 B CN 108913776B CN 201810925183 A CN201810925183 A CN 201810925183A CN 108913776 B CN108913776 B CN 108913776B
Authority
CN
China
Prior art keywords
dna molecular
radiotherapy
damage
chemoradiotherapy
injury
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810925183.6A
Other languages
English (en)
Other versions
CN108913776A (zh
Inventor
杜乐辉
马娜
曲宝林
俞伟
郑晖
刘湘涛
贾洪涛
冯亚平
王乾
谢剑邦
蒋才
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjia Giri Gene Technology Co ltd
Original Assignee
Tianjia Giri Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjia Giri Gene Technology Co ltd filed Critical Tianjia Giri Gene Technology Co ltd
Priority to CN201810925183.6A priority Critical patent/CN108913776B/zh
Publication of CN108913776A publication Critical patent/CN108913776A/zh
Application granted granted Critical
Publication of CN108913776B publication Critical patent/CN108913776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种放化疗损伤相关的DNA分子标记的筛选方法和试剂盒,涉及生物技术领域。该方法通过先提供一组放化疗损伤样品;然后检测所述样品的候选DNA分子标记的位点信息;再建立以DNA分子标记位点信息为自变量,放化疗损伤的程度为因变量的多元线性回归数学模型;然后计算所述多元线性回归数学模型的有效变量和有效变量的相关系数;其中,所述有效变量为放化疗损伤相关的DNA分子标记;所述有效变量的相关系数为筛选出的放化疗损伤相关的DNA分子标记的权重系数,缓解了现有技术中存在的缺少一种能够有效筛选与放化疗损伤相关的DNA分子标记的方法的技术问题。

Description

放化疗损伤相关的DNA分子标记的筛选方法和试剂盒
技术领域
本发明涉及生物技术领域,尤其是涉及一种放化疗损伤相关的DNA分子标记的筛选方法和试剂盒。
背景技术
放、化疗是双刃剑,杀灭癌细胞的同时,不可避免地也要对机体造成损伤。肺癌在我国是男性第一高发女性第二高发肿瘤,同时也是我国致死人数最多的肿瘤。放射性治疗是肿瘤治疗的一种重要技术手段,随着技术的进步,对于肺癌的治疗,放疗的治疗效果已经可以比拟手术治疗的效果,同时放疗对患者身体的损伤小,治疗后患者的生活质量好,而且平均治疗所需的成本也比手术治疗要低。伴随着国民经济的发展,可以预见将会有更多的医疗机构会引入先进的放疗设备,同时人民对生活质量需求的提高,放疗将会逐渐在肿瘤治疗的领域将会起到越来越重要的作用。
参与放射性损伤的各种细胞因子、酶等均离不开基因的调控,不同的基因型可影响正常组织对射线的敏感性,因此从基因水平上研究放化疗损伤可以更本质的了解放化疗损伤的发病机理。DNA分子标记是以个体间遗传物质内核苷酸序列变异为基础的遗传标记,是直接在DNA分子上检测生物间的差异,是DNA水平变异的直接反应,DNA分子标记不受环境基因表达与否的限制,数量极多,遍及整个基因组,多态性高,遗传稳定,但是由于DNA分子标记数量过大,很难筛选出与研究目的相关的DNA分子标记。
因此,一种筛选与放化疗损伤相关的DNA分子标记方法,使放化疗损伤的程度与基因水平的表现相关联,是目前有待解决的问题。
有鉴于此,特提出本发明。
发明内容
本发明的第一目的在于提供一种放化疗损伤相关的DNA分子标记的筛选方法,缓解了现有技术中存在的缺少一种能够有效筛选与放化疗损伤相关的DNA分子标记的方法的技术问题。
本发明的第二目的在于提供一种用于预测放化疗损伤的试剂盒,缓解了现有技术中存在缺少一种能够有效预测放化疗损伤的产品的技术问题。
为解决上述技术问题,本发明特采用如下技术方案:
一种放化疗损伤相关的DNA分子标记的筛选方法,先提供一组放化疗损伤样品,然后检测所述样品的候选DNA分子标记的位点信息;
再建立以DNA分子标记位点信息为自变量,放化疗损伤的程度为因变量的多元线性回归数学模型;然后计算所述多元线性回归数学模型的有效变量和有效变量的相关系数;
其中,所述有效变量为放化疗损伤相关的DNA分子标记;所述有效变量的相关系数为筛选出的放化疗损伤相关的DNA分子标记的权重系数。
优选地,所述DNA分子标记包括SNP标记;
优选地,候选SNP标记的个数为1×105-10×105个;优选5×105-8×105个;更优选6.5×105-7.5×105个。
优选地,计算所述多元线性回归数学模型的有效变量和有效变量的相关系数基于Lasso和弹性网络正则化的广义线性模型的算法。
优选地,使用基因测序法、基因芯片分型法或Q-PCR的方法检测放化疗损伤样品的DNA分子标记的位点信息;
优选地,所述放化疗损伤样品为临床患者的血液DNA样品。
优选地,所述放化疗损伤为放射性肺炎;
优选地,提供放射性肺炎样品的数量至少为50个,优选为50-200个,更优选为100-150个;
优选地,零级或一级放射性肺炎样品的数量至少为样本总数量的20%,二级或二级以上放射性肺炎样品的数量至少为样本总数量的20%。
优选地,所述筛选方法包括如下步骤:
(a)提供已知放射性肺炎等级的样品Nj,j为1~n2的整数,n2为已知放射性肺炎等级样品的数量;
(b)检测待测样品中候选的DNA分子标记Pi的基因型,i为1~n1的整数,n1为候选的DNA分子标记的数量;
(c)为Nj在DNA分子标记Pi处的表型赋值:表型为野生纯合型赋值A1,表型为杂合型赋值A2,表型为变异纯合型赋值A3;A1、A2和A3互不相同;
(d)提供输入文件X,所述输入文件X为P×N阶矩阵;所述P×N阶矩阵中,列的元素为样品Nj在DNA分子标记Pi处的表型赋值Ak,k=1、2或3;
(e)提供输入文件Y,所述输入文件Y为1×N阶矩阵;所述1×N阶矩阵的元素为样品Nj的放射性肺炎等级的数值;
(f)将所述输入文件X作为自变量,所述输入文件Y作为因变量,用基于Lasso和弹性网络正则化的广义线性模型的算法,计算出有效变量和有效变量的相关系数;
其中,有效变量为与放射性肺炎等级相关的DNA分子标记;
有效变量的相关系数为放射性肺炎等级相关的DNA分子标记的权重系数。
优选地,所述DNA分子标记为SNP;
然后以人参考基因组版本号37号为野生型,判断待测样品Nj在SNP标记Pi处的表型;表型为野生纯合型赋值0,表型为杂合型赋值1,表型为变异纯合型赋值2。
优选地,所述基于Lasso和弹性网络正则化的广义线性模型的算法使用GLMNET R程序包实现。
一种用于预测放化疗损伤的试剂盒,所述试剂盒包含检测上述放化疗损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片。
优选地,所述试剂盒还包括记载有所述放化疗损伤相关的DNA分子标记的权重系数的载体。
与现有技术相比,本发明具有如下有益效果:
本发明提供的放化疗损伤相关的DNA分子标记的筛选方法,建立了以DNA分子标记位点信息为自变量,放化疗损伤的程度为因变量的多元线性回归数学模型,通过给自变量和因变量赋值计算出了有效变量和有效变量的相关系数,计算出的有效变量即为放化疗损伤相关的DNA分子标记,有效变量的相关系数即为DNA分子标记的权重系数。该方法可以从大量的DNA分子标记中筛选出和放化疗损伤相关的DNA分子标记;该筛选方法可以适用于多种DNA分子标记的筛选,并且在筛选DNA分子标记的同时还可以计算出每个DNA分子标记的权重系数,因此可以对DNA分子标记对放化疗损伤的影响的重要程度进行估值,使人们更深入的了解不同的DNA分子标记对放化疗损伤的影响程度,以便进一步的指导这些DNA分子标记在后续对放化疗损伤研究中的应用。该方法可以用于任意组织的损伤和敏感性的预测评估,包括放射性治疗和化学药物治疗的损伤和敏感性。
本发明还提供了一种用于预测放化疗损伤的试剂盒,该试剂盒包含检测上述放化疗损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片,以进一步的应用于放化疗损伤的研究中。
附图说明
图1为本发明效果例中用本发明提供的筛选方法筛选的与放射性肺炎相关的SNP位点对72例肺癌患者放射性治疗前进行预判得到的放射性肺炎风险分值结果统计图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
本发明提供了一种放化疗损伤相关的DNA分子标记的筛选方法,该方法通过先提供一组放化疗损伤样品;然后检测所述样品的候选DNA分子标记的位点信息;再建立以DNA分子标记位点信息为自变量,放化疗损伤的程度为因变量的多元线性回归数学模型;然后计算所述多元线性回归数学模型的有效变量和有效变量的相关系数;
其中,所述有效变量为放化疗损伤相关的DNA分子标记;所述有效变量的相关系数为筛选出的放化疗损伤相关的DNA分子标记的权重系数。
本发明提供的放化疗损伤相关的DNA分子标记的筛选方法筛选效率高,可以从大量的DNA分子标记中筛选出和放化疗损伤相关的DNA分子标记;该筛选方法可以适用于多种DNA分子标记的筛选。
在数学上,为了显示若干量数在总量中所具有的重要程度,分别给予不同的比例系数,这就是加权。加权的指派系数就是权重系数,又称权重、权值。本发明中放化疗损伤相关的DNA分子标记的筛选方法不仅可以筛选出放化疗损伤相关的DNA分子标记,还可以对DNA分子标记对放化疗损伤的影响的重要程度进行估值,使人们更深入的了解不同的DNA分子标记对放化疗损伤的影响程度,以便进一步的指导这些DNA分子标记在后续对放化疗损伤研究中的应用。
在一些可选的实施方式中,放化疗损伤例如可以为但不限于为皮肤损伤、全身损伤、骨髓抑制、免疫抑制、放射性食道癌、放射性肺炎、肺纤维化、放射性肝损伤或放射性肾损伤,本发明不限制放化疗损伤的环患病种类,可以理解的是,只要将放化疗损伤的程度划分等级,以便计算时作为因变量赋值即可。
以放射性肺炎为例,放射性肺炎(radiation pneumonitis,RP)是放射治疗时肺组织出现异常的病理表现,是肺癌放疗的常见并发症之一,由此造成的呼吸衰竭是放射性肺损伤的主要致死原因之一,而放射性肺炎一旦发生,目前临床上尚没有令人满意的治疗措施,疗后肺功能状态直接关系到患者的治疗效果和生活质量。目前放射性肺炎评分主要根据根据Common Terminology Criteria for Adverse Events(CTCAE)version3.0分级标准:1级:无临床症状,仅有轻微影像学表现;2级:有轻度临床症状,不影响日常活动;3级:有明显临床症状,影响活动,需支持治疗;4级:可能危及患者生命,需辅助通气;5级:死亡。
在一些优选的实施方式中,提供放射性肺炎样品的数量至少为50个,优选为50-200个,更优选为100-150个;并且更优选的,零级或一级放射性肺炎样品的数量至少为样本总数量的20%,二级或二级以上放射性肺炎样品的数量至少为样本总数量的20%。样本数量过大会增加实验成本,样本数量过小会导致样本容易不具有代表性而增大误差,并且样本中各等级的放射性肺炎均匀分布将有利于DNA分子标记的筛选。
DNA分子标记是以个体间遗传物质内核苷酸序列变异为基础的遗传标记,是直接在DNA分子上检测生物间的差异。是DNA水平遗传变异的直接反应。本发明所述的DNA分子标记例如可以为但不限于为SNP、SSR、ISSR、CAPS、SCAR等DNA分子标记。需要说明的是,本发明不限制DNA分子标记的种类,只要能体现个体间遗传物质内核苷酸序列的多态性即可。
下面以筛选与放射性肺炎相关的SNP为例进一步说明本发明。
单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)是指同一位点的不同等位基因间只有一个核苷酸的差异或只有小的插入、缺失。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500-1000个碱基对中就有1个,估计其总数可达300万个甚至更多。因此在大量的人类SNP标记中只有一部分与放射性肺炎等级相关,并且各SNP位点对放射性肺炎等级的影响程度也不相同,筛选起来十分困难,并且难以全面。
一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,在本实施方式中就表现为放射性肺炎等级被众多SNP位点信息,即各位点SNP的基因信息以及表型所影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归,亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。
在大量的SNP标记中只有一部分与放射性肺炎等级相关,在多元线性回归数学模型中这一部分与放射性肺炎等级相关的SNP标记就反应为多元线性回归数学模型的有效变量,同时,这些有效变量的相关系数即为放射性肺炎等级相关的SNP标记的权重系数。
多元线性回归数学模型的有效变量和有效变量的相关系数通过如下方法计算:表示为:y=β01x1+…+βpxp+e,或者用矩阵的形式表示为Y=Xβ+e;
其中,Y为因变量,β为回归系数,X为自变量。其算法为求解回归系数,使得:(Y-Xβ)2最小。
该筛选方法主要包括如下步骤:
(a)提供已知肺炎等级的样品Nj,j为1~n2的整数,n2为已知放射性肺炎等级样品的数量;零级或一级放射性肺炎样品的数量至少为样本总数量的20%,二级或二级以上放射性肺炎样品的数量至少为样本总数量的20%,以达到样本选择更具有随机性和普遍性,使筛选出的SNP标记更精确。
(b)检测待测样品中候选的SNP标记Pi的基因型;在一些可选的实施方式中,候选SNP标记的个数为1×105-10×105个;优选5×105-8×105个;更优选6.5×105-7.5×105个。通过优化候选SNP标记的个数和标准可以在避免遗漏和肺炎等级相关的SNP标记的同时提高筛选效率。
该步骤即检测每个已知肺炎等级的样品Nj的全部候选SNP标记的基因型,该步骤可以使用基因测序法(可以用1代、2代和3代测序中的任意一种方式,只需要测序的范围覆盖了候选的SNP标记)、基因芯片技术(可以用市售的任意一款基因芯片,只要该芯片的位点覆盖了候选的SNP标记)或Q-PCR的方法(可以用市售的任意一款荧光PCR仪,只要检测的探针覆盖了候选的SNP标记)检测待测样品中候选的SNP标记Pi的基因型,本发明对此不做限制。通过这一步可以得到样品Nj的每个SNP标记的表型和该样品的肺炎等级。
通过步骤(a)和步骤(b)可以得到一组样品,该组样品中的每一个样品的候选SNP标记的基因型已知,并且每一个样品的肺炎等级也已知。
(c)为Nj在SNP标记Pi处的表型赋值,i为1~n1的整数,n1为候选的SNP的数量。表型为野生纯合型赋值A1,表型为杂合型赋值A2,表型为变异纯合型赋值A3;A1、A2和A3互不相同。多元线性回归数学模型Y=Xβ+e中Y为放射性肺炎等级信息,由于样本是已知放射性肺炎等级信息的样本,因此该模型中的因变量数值已知,本步骤的目的是为多元线性回归数学模型的自变量赋值,以达到进一步计算出相关系数β的目的。可以理解的是,该原始赋值具有任意性,该数值不代表任何生物学意义,但赋值的总体原则是原始赋值可以将野生纯合型、野生杂合型和变异纯合型区分开。其中,野生纯合型为在该位点(即DNA分子标记处,在本实施方式中为需要赋值的SNP位点处)所有等位基因均与野生型相同的基因型;野生杂合型为在该位点的等位基因既有与野生型相同,又存在与野生型不同的基因型;变异纯合型为在该位点处所有等位基因相同,但均和野生型不同的基因型。例如,在SNP标记Pw处,野生型基因为A,变异型为G,则野生纯合型为AA,野生杂合型为AG,变异纯合型为GG。需要说明的是,由于该数值不代表任何生物学意义,因此还可以采用符合计算要求的其他赋值规则。
在一些可选的实施方式中,选择一个参考基因作为野生型,该野生型并不是指生物学意义上的野生型,只是作为一个区分野生纯合型、杂合型和变异纯合型的标准,优选使用数据库中的基因作为参考基因;更优选使用人类参考基因组版本37号(GRCh37)作为参考基因。需要说明的是,本发明不限制参考基因的选择,可以随着人类参考基因版本的更新参考基因的标准。在一个优选地实施方式中,表型为纯合型赋值0,表型为杂合型赋值1,表型为变异纯合型赋值2,这样赋值计算较为简便。
理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的。因此当SNP位点与参考基因比对时,通常其变异型也只有一个常见类型。因此在一些优选的实施方式中,只对常见的变异性进行赋值,例如一个SNP位点参考基因是A,其常见的变异性是G,因此当一个样本该位点是AA时赋值为0,AG时赋值为1,GG时赋值为2,如若出现AC基因型的SNP则也赋值为0,以减少小概率的突变对计算结果的干扰。
(d)提供输入文件X,所述输入文件X为P×N阶矩阵;所述P×N阶矩阵中,列的元素为样品Nj在SNP标记Pi处的表型赋值Ak,k=1、2或3;
(e)提供输入文件Y,所述输入文件Y为1×N阶矩阵;所述1×N阶矩阵的元素为样品Nj的肺炎等级,即0-5之间任意的整数。
步骤(d)和步骤(e)为将上述步骤(a)-(c)得到的数据整理成矩阵文件,便于后续的计算。
(f)将所述输入文件X作为自变量;将所述输入文件Y作为因变量,用基于Lasso和弹性网络正则化的广义线性模型的算法,筛选出有效变量和有效变量的相关系数;
如果响应变量(因变量)和预测变量(自变量)之间有比较明显的线性关系,最小二乘回归会有很小的偏倚,特别是如果观测数量Y(因变量)远大于预测变量X(自变量)时,最小二乘回归也会有较小的方差。但是如果Y和X比较接近,则容易产生过拟合;如果Y<X,最小二乘回归得不到有意义的结果。另外,多元线性回归模型里的很多变量可能是和响应变量(因变量)无关的;也有可能产生多重共线性的现象:即多个预测变量(自变量)之间明显相关。这些情况都会增加模型的复杂程度,削弱模型的解释能力。这时候需要进行变量选择(特征选择,feature selection)。
在给定的数据中,自变量的总数为X=1×105-10×105,因变量的数目Y≤100,显然,Y<<X。
针对上面的问题,本发明应用了Rob Tibshirani等提出收缩方法(shrinkagemethod),来建立多元线性回归模型。收缩方法又称为正则化。主要是岭回归(ridgeregression)和Lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。本发明应用了弹性网络(elastic net)来处理上述问题,其方式融合了岭回归和Lasso回归两种正则化的方法,表示为:
Figure BDA0001765182130000111
elastic net对于p远大于n,或者严重的多重共线性情况有明显的效果。对于elastic net,当alpha接近1时,elastic net表现很接近Lasso,但去掉了由极端相关引起的退化化或者奇怪的表现。一般来说,elastic net是岭回归和Lasso的很好的折中,当alpha从0变化到1,目标函数的稀疏解(系数为0的情况)也从0单调增加到Lasso的稀疏解。
坐标下降法是关于Lasso的一种快速计算方法(是目前关于Lasso最快的计算方法),其基本要点为:对每一个参数在保持其它参数固定的情况下进行优化,循环,直到系数稳定为止。这个计算是在lambda的格点值上进行的。在一个优选的实施方式中,所述基于Lasso和弹性网络正则化的广义线性模型的算法使用GLMNET R程序包实现。
通过上述计算,筛选出的有效变量即为与放射性肺炎等级相关的SNP标记;有效变量的相关系数即为放射性肺炎等级相关的SNP标记的权重系数。
可以理解的是,在一些可选的实施方式中,当筛选的DNA分子标记为SSR时也可以使用上述方法。微卫星DNA标记(Simple Sequence Repeat,SSR),微卫星是仅由及个核苷酸(1-6)组成的重复单位,重复次数10-50。同一类微卫星DNA可分布在整个基因组不同位置上,由于重复次数不同,或重复程度不同,而形成每个座位的多态性。因此可以通过比对已知放射性肺炎等级样品的SSR和参考基因SSR的重复单元个数,判断野生纯合型、杂合型和变异纯合型,然后赋值,其余步骤皆和筛选SNP标记相同,在此不再赘述。
因此可以理解的是,筛选不同DNA分子标记时,只需根据不同DNA分子标记的特点调整样品的DNA分子标记与参考基因分子标记的比对策略,以达到确定野生纯合型、杂合型和变异纯合型的目的,然后赋值进行后续计算,因此无论筛选何种DNA分子标记,都是基于统一发明构思,因此筛选各种放化疗损伤相关的DNA分子标记的方法再次不再赘述。
可以理解的是,当筛选其他种类的放化疗损伤疾病的相关的DNA分子标记时,例如放射性肝损伤,只需先各程度的放射性肝损伤赋值,再将赋值作为因变量的值带入模型中,其余步骤皆和筛选放射性肺炎等级相关的DNA分子标记的步骤相同,因此再次也不在赘述。
本发明还提供了一种用于预测放化疗损伤的试剂盒,该试剂盒包括检测上述放化疗损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片。在一些可选的实施方式中,所述试剂盒还包括记载有所述放化疗损伤相关的DNA分子标记的权重系数的载体。以进一步的应用于放化疗损伤的研究中。
下面结合优选实施例进一步说明本发明的有益效果。
实施例
本实施例提供了一种放射性肺炎SNP位点的筛选方法,首先提供一组放化疗损伤样本共100例,其中无症状36例、1级症状25例、2级症状28例、3级症状9例、4级症状2例。候选SNP位点的数量约为700000个,侯选SNP位点的标准是能够覆盖到人类基因组的全部区间,所有SNP中,常见的SNP位点数量在所有SNP的数量中占比大于90%,常见的定义为该SNP位点的发生频率大于5%。样本检测SNP的方法为使用美国Illumina公司的Global ScreenAssay芯片(GSA芯片)检测,检测方法和步骤完全按照厂家的标准操作执行。
单个样本所涉及的所有多态性位点做原始赋值,赋值的算法为:将该位点的基因型同人类参考基因组版本37号(GRCh37)做比对,当该位点为野生纯合型时(即两个拷贝均为野生型),原始赋值为0;当该位点为野生杂合型或者变异杂合型时(即一个拷贝为野生型,另外一个位点为变异型),原始赋值为1;当该位点为变异纯合型时(即两个拷贝均为杂合型),原始赋值为2。该原始赋值具有任意性,该数值不代表任何生物学意义,但赋值的总体原则是原始赋值可以将野生纯合型、野生杂合型或者变异杂合型和变异纯合型区分开。
该赋值过程可以用计算机辅助实现。示例如下:
1.)下载人类人类参考基因组版本37号,并按照如下格式建立数据库,并命名位ref_data:
Figure BDA0001765182130000131
共4列(TAB键分开),其中:第1例为位点编号;第2列为染色体号;第3列为染色体位置;第4列为参考碱基;
2.)然后将前述约700000个位点的基因型数据按照如下格式建立输入文件并命名为input_data:
Figure BDA0001765182130000132
共2列(TAB键分开),其中第1例为位点编号;第2列为可变基因型,中括号“[]”内,“/”分隔。
3.)在计算机上运行以下perl脚本(需要perl运行环境):
Figure BDA0001765182130000133
Figure BDA0001765182130000141
Figure BDA0001765182130000151
Figure BDA0001765182130000161
输出文件名为:“treated_result”,
Figure BDA0001765182130000162
共2列,第1例为位点编号;第2列为该位点的原始赋值。
该原始赋值也可以通过其它不同的计算机语言实现,只需要最终效果同示例一致即可。
所有的样本都进行上述操作,最终得到一个P×N阶的矩阵,其中P为每个样本所统计的多态性位点的总体数量,N为总体的样本数量。该矩阵将作为一个输入文件。将所有样本的放射性肺炎的等级建立第二个矩阵文件,该矩阵为1×N阶,其中N为总体的样本数量。将上述两个矩阵文件分别作为自变量和因变量带入到GLMNET R程序包中进行运算,运算的结果为共得到31个与放射性肺炎等级相关的SNP标记,其SNP信息与权重系数如下表所示:
Figure BDA0001765182130000171
Figure BDA0001765182130000181
效果例
临床血液样本来源于北京某医院,以上样本均获得本人的知情同意,获取的72例样本均来自放疗前的肺癌患者。血液采集按照临床常规操作,收集1ml的静脉血,血液冷藏保存于常规的EDTA抗凝管中,保存时间不超过一周。将采集的血液样本用DNA提取试剂盒提取基因组DNA。采用基因测序法对72例样本提取的72份基因组DNA进行测序,得到实施例筛选出的31个SNP位点的基因型。
将样本在实施例中筛选出的31个位点的基因型与人类参考基因组版本37号(GRCh37)做比对,当该位点比对的结果为两个拷贝都一致时,该位点的原始赋值为0;当该位点比对的结果为一个拷贝一致时,该位点的原始赋值为1;当该位点比对的结果为两个拷贝均变异型时,该位点的原始赋值为2。然后将每个位点的原始赋值与该位点的权重系数相乘,所得数值为该位点的计算分值。将一个样本的31个位点的计算分值相加,得到的总和即为该样本对应的风险值。当总和数值大于0.5时,判定为该患者会发生2级或2级以上的放射性肺炎。将该风险值乘以100%,即为该患者发生2级或者2级以上放射性肺炎的风险概率。
对72个样本患放射性肺炎的风险分值进行统计,结果如图1所示,预判出共有17例肺癌患者术后会患有2级或2级以上的放射性肺炎。
随后对这72例患者做了术后实际随访,对患者是否患有放射性肺炎及等级做了调查,结果如下表所示:
Figure BDA0001765182130000182
Figure BDA0001765182130000191
从上述表格中可以看出72例患者中17例得了2级或2级以上的放射性肺炎,并且患者的样本编号与本发明预判的结果也一致,说明本发明提供的筛选方法筛选出的与放射性肺炎相关的SNP位点可以作为预测或辅助预测肺部辐射后患放射性肺炎风险的遗传生物标记物,并且可以有效的对放射性肺炎的风险进行预判。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (1)

1.一种用于预测放射性肺炎损伤的试剂盒,其特征在于,所述试剂盒包含检测放射性肺炎损伤相关的DNA分子标记的基因型的成套引物、捕获探针或基因芯片;
所述试剂盒还包括记载有所述放射性肺炎损伤相关的DNA分子标记的权重系数的载体;
以人类参考基因组版本37号GRCh37为参考,所述DNA分子标记及其权重系数如下表所示:
Figure FDA0003969828880000011
CN201810925183.6A 2018-08-14 2018-08-14 放化疗损伤相关的dna分子标记的筛选方法和试剂盒 Active CN108913776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810925183.6A CN108913776B (zh) 2018-08-14 2018-08-14 放化疗损伤相关的dna分子标记的筛选方法和试剂盒

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810925183.6A CN108913776B (zh) 2018-08-14 2018-08-14 放化疗损伤相关的dna分子标记的筛选方法和试剂盒

Publications (2)

Publication Number Publication Date
CN108913776A CN108913776A (zh) 2018-11-30
CN108913776B true CN108913776B (zh) 2023-03-17

Family

ID=64404665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810925183.6A Active CN108913776B (zh) 2018-08-14 2018-08-14 放化疗损伤相关的dna分子标记的筛选方法和试剂盒

Country Status (1)

Country Link
CN (1) CN108913776B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109628571A (zh) * 2018-12-10 2019-04-16 浙江省肿瘤医院 放射性肺炎潜伏期敏感基因定量检测方法
CN109825568B (zh) * 2019-01-09 2022-07-19 中国人民解放军军事科学院军事医学研究院 辐射敏感基因标记物及在鉴别低let射线辐射中的应用
CN112195247B (zh) * 2020-11-06 2024-02-23 南京普恩瑞生物科技有限公司 一种folfox药物方案有效性检测方法及试剂盒
CN112280863B (zh) * 2020-11-06 2024-01-12 南京普恩瑞生物科技有限公司 一种靶向药阿帕替尼有效性的方法及试剂盒
CN113436741B (zh) * 2021-07-16 2023-02-28 四川大学华西医院 基于组织特异增强子区域dna甲基化的肺癌复发预测方法
CN114678067B (zh) * 2022-03-21 2023-03-14 纳昂达(南京)生物科技有限公司 构建多人群非外显子区snp探针集合的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106636398A (zh) * 2016-12-21 2017-05-10 哈尔滨工业大学 一种改进的阿尔茨海默病发病风险预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106636398A (zh) * 2016-12-21 2017-05-10 哈尔滨工业大学 一种改进的阿尔茨海默病发病风险预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Glmnet Vignette (for python);Trevor Has等;《Glmnet Vignette》;20170712;全文 *
NOS基因遗传变异与肺癌放化疗敏感性及放射性肺损伤的相关性研究;张健;《中国博士学位论文全文数据库 医药卫生科技辑》;20150315(第3期);"一、NOS单核苷酸多态性在预测放射性肺损伤中的价值" *

Also Published As

Publication number Publication date
CN108913776A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108913776B (zh) 放化疗损伤相关的dna分子标记的筛选方法和试剂盒
Padmanabhan et al. Towards precision medicine for hypertension: a review of genomic, epigenomic, and microbiomic effects on blood pressure in experimental rat models and humans
Borevitz et al. Large-scale identification of single-feature polymorphisms in complex genomes
Foll et al. A genome-scan method to identify selected loci appropriate for both dominant and codominant markers: a Bayesian perspective
EP2399214B1 (en) Method for selecting statistically validated candidate genes
Turner et al. Genomic islands of speciation in Anopheles gambiae
CN107423534B (zh) 基因组拷贝数变异的检测方法和系统
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
Franke et al. eQTL analysis in humans
US20140170660A1 (en) Methods and compositions for predicting unobserved phenotypes (pup)
KR102080120B1 (ko) 전복 고수온 내성 형질 예측용 바이오마커 조성물
Hartfield et al. Selective sweeps under dominance and inbreeding
Beal et al. Whole genome sequencing for quantifying germline mutation frequency in humans and model species: cautious optimism
US20020119451A1 (en) System and method for predicting chromosomal regions that control phenotypic traits
Pool Genetic mapping by bulk segregant analysis in Drosophila: experimental design and simulation-based inference
Lian et al. inGAP-family: accurate detection of meiotic recombination loci and causal mutations by filtering out artificial variants due to genome complexities
Yu et al. Detecting natural selection by empirical comparison to random regions of the genome
Marsjan et al. Molecular markers, a tool for exploring genetic diversity
Smith et al. Genome-wide association study in humans
Wang et al. Estimating allele frequency from next-generation sequencing of pooled mitochondrial DNA samples
Nsengimana et al. Design considerations for genetic linkage and association studies
Dueker et al. Analysis of genetic linkage data for Mendelian traits
CN108893533B (zh) 用于预测或辅助预测肺部辐射后患放射性肺炎风险的试剂盒
Goldin et al. Sampling strategies for linkage studies
Xu et al. Analysis of population-genetic properties of copy number variations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230000 floor 3, building C, No. 6, Longquan Road, Chaohu Economic Development Zone, Hefei City, Anhui Province

Applicant after: Tianjia giri Gene Technology Co.,Ltd.

Address before: 238000 Anhui Hefei Chaohu Hefei Chaohu Economic Development Zone Management Committee North third floor 307 room

Applicant before: ANHUI WEIMING TIANJIA GENE TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant