CN108875311B - 基于高通量测序和高斯混合模型的拷贝数变异检测方法 - Google Patents

基于高通量测序和高斯混合模型的拷贝数变异检测方法 Download PDF

Info

Publication number
CN108875311B
CN108875311B CN201810654434.1A CN201810654434A CN108875311B CN 108875311 B CN108875311 B CN 108875311B CN 201810654434 A CN201810654434 A CN 201810654434A CN 108875311 B CN108875311 B CN 108875311B
Authority
CN
China
Prior art keywords
copy number
window
model
number variation
gaussian mixture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810654434.1A
Other languages
English (en)
Other versions
CN108875311A (zh
Inventor
孙良丹
甄琪
王文俊
李报
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Anhui Medical University
Original Assignee
First Affiliated Hospital of Anhui Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Anhui Medical University filed Critical First Affiliated Hospital of Anhui Medical University
Priority to CN201810654434.1A priority Critical patent/CN108875311B/zh
Publication of CN108875311A publication Critical patent/CN108875311A/zh
Application granted granted Critical
Publication of CN108875311B publication Critical patent/CN108875311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基因工程技术领域,具体涉及一种基于高通量测序和高斯混合模型的拷贝数变异检测方法,包括以下步骤:数据的生产与预处理,利用最大期望算法估计高斯混合模型的参数,窗口的拷贝数估计,合并拷贝数一致率高的相邻窗口,确定最终的拷贝数和过滤。本发明方法通过高通量测序和按窗口的检测方法,提高了分辨率,即可以检测到长度更短的CNV;通过GMM的方法,不引入参考样本,可以检测常见的拷贝数变异;通过GMM的概率过滤,提高了准确率;通过确定拷贝数变异区域后再最终确定每个实验样本的拷贝数,使群体样本的结果保持一致性。

Description

基于高通量测序和高斯混合模型的拷贝数变异检测方法
技术领域
本发明涉及基因工程技术领域,具体涉及一种基于高通量测序和高斯混合模型的拷贝数变异检测方法。
背景技术
拷贝数变异(Copy Number Variations,CNVs)是指与基因组参考序列相比,基因组中长度大于等于1000碱基(1kb)且以不同拷贝数存在的DNA片段,其形式包括插入、缺失、扩增,及其相互组合衍生出的复杂变异。Redon等根据拷贝数变异的遗传和组成形式将拷贝数变异分为5类:(a)缺失;(b)扩增;(c)同一位点并发的缺失与扩增;(d)多等位基因位点(multiple alleles);(e)复杂难以描述的位点。通常,扩增比缺失更为常见,且覆盖更大的范围。具体来说,拷贝数变化可以通过破坏基因编码蛋白的活性部分、改变基因的表达、或者破坏基因组控制基因活性的调节区域等影响基因的活性。寻找拷贝数变异有助于在有遗传可能性的区域里寻找关键基因。
目前已实现检测拷贝数变异的方法主要有通过在一张芯片上用标记不同荧光素的样品(病例样品和对照样品)进行共杂交来检测样本基因组相对于对照基因组的拷贝数变异的比较基因组杂交芯片,通过芯片上荧光信号的强弱检测拷贝数变异(荧光信号强度与拷贝数成正相关)的单核苷酸多态检测芯片,通过测序读段深度、双端测序的插入片段长度或劈开的测序读段检测拷贝数变异的高通量测序等。
但是,比较基因组杂交芯片的分辨率较低,无法检测长度较短的拷贝数变异,同时由于需要对照样本,因此不适合检测常见的拷贝数变异。单核苷酸多态检测芯片依赖于单核苷酸多态性位点在基因组的分布,若位点较少,则分辨率低;若分布不均,则会在分布稀疏的基因组区域遗漏拷贝数变异,另外该技术通常需要对照样本,因此不适合检测常见的拷贝数变异。基于高通量测序的拷贝数变异检测技术在处理外显子组等目标区域捕获测序数据时,由于捕获效率波动带来的测序深度偏向性,其准确率较低,另外通常需要对照样本,因此不适合检测常见的拷贝数变异。现有技术多基于单个样本得到拷贝数变异,使得群体的拷贝数变异缺乏一致性。
发明内容
本发明的目的是解决检测拷贝数变异时分辨率低、准确率低、群体缺乏一致性、不适合检测常见的拷贝数变异的问题,提供一种基于高通量测序和高斯混合模型的拷贝数变异检测方法。
本发明是通过以下技术方案实现的:
基于高通量测序和高斯混合模型的拷贝数变异检测方法,包括以下步骤:
S1、数据的生产与预处理:对实验样本的基因组DNA进行高通量测序,比对测序读段至参考基因组,计算实验样本的平均测序深度,且将参考基因组按预设的长度划分为窗口,计算窗口的平均测序深度和窗口的归一化的平均测序深度;
S2、利用最大期望算法估计高斯混合模型的参数:高斯混合模型是指具有如下形式的概率分布模型:
Figure BDA0001705106530000021
其中,K是分模型的数目,k是第k个分模型的代号,θ是所有分模型的参数,θk是第k个分模型的参数且
Figure BDA0001705106530000022
μk是第k个分模型的期望,
Figure BDA0001705106530000023
是第k个分模型的方差,αk是第k个分模型的系数,αk≥0且
Figure BDA0001705106530000024
Figure BDA0001705106530000025
是高斯分布密度,
Figure BDA0001705106530000026
Figure BDA0001705106530000027
称为第k个分模型;
S3、窗口的拷贝数估计:将所有实验样本的某窗口的归一化的平均测序深度作为观测数据,带入最大期望算法,估计高斯混合模型的参数,利用朴素贝叶斯的方法计算每个实验样本在该窗口属于各分模型的概率;
S4、合并拷贝数一致率高的相邻窗口:若相邻窗口拷贝数一致的实验样本数超过90%,则认为这两个窗口属于同一个拷贝数变异,合并为一个窗口;循环合并窗口的过程,直到不再有相邻窗口可以合并;合并后的窗口即为最终的拷贝数变异区域;
S5、确定最终的拷贝数和过滤:对步骤S4得到的拷贝数变异区域,按步骤S3的方法得到最终的拷贝数,利用高斯混合模型的概率过滤,若某拷贝数变异区域内90%以上的实验样本属于所属分模型的概率大于90%,则保留此拷贝数变异区域,否则去除此拷贝数变异区域。
优选地,步骤S1中所述实验样本的平均测序深度=比对上的测序读段数目*测序读段长度/参考基因组长度。
优选地,步骤S1中所述窗口的平均测序深度=窗口内比对上的测序读段数目*测序读段长度/窗口的长度。
优选地,步骤S1中所述窗口的归一化的平均测序深度=窗口的平均测序深度/实验样本的平均测序深度。
优选地,步骤S2中所述最大期望算法的步骤包括:
S21、对高斯混合模型的参数(μkkk)取初始值;
S22、E步:依据当前模型参数,计算分模型k对观测数据yj的响应度
Figure BDA0001705106530000031
S23、M步:计算新一轮迭代的高斯混合模型参数,包括
Figure BDA0001705106530000032
Figure BDA0001705106530000033
Figure BDA0001705106530000034
S24、判断是否收敛:若是,停止;若否,重复步骤S22~S24。
优选地,步骤S3中所述利用朴素贝叶斯的方法是使用如下公式:
Figure BDA0001705106530000035
其中,取使得P(k|yj)最大的k作为j样本在该窗口的所属分模型。
本发明的有益效果在于:
(1)通过高通量测序和按窗口的检测方法,提高了分辨率,即可以检测到长度更短的CNV。
(2)通过GMM的方法,不引入参考样本,可以检测常见的拷贝数变异。
(3)通过GMM的概率过滤,提高了准确率。
(4)通过确定拷贝数变异区域后再最终确定每个实验样本的拷贝数,使群体样本的结果保持一致性。
附图说明
图1为本发明最大期望算法求解高斯混合模型参数的流程图;
图2为本发明实施例中188个样本的归一化的平均测序深度分布图。
具体实施方式
为更好理解本发明,下面结合实施例及附图对本发明作进一步描述,以下实施例仅是对本发明进行说明而非对其加以限定。
实施例HLA-DRB5基因拷贝数变异在188个实验样本的检测
1.取188份来自不同人的血液样品,提取DNA。使用MHC芯片捕获,然后基于Illumina Hiseq2000平台进行高通量测序。使用针对HLA-DRB3/4/5基因的特异性引物进行PCR,对PCR产物做Sanger测序。
2.对高通量测序数据,按本发明的方法,检测拷贝数变异,即包括以下步骤:
(1)数据的生产与预处理。对实验样本的基因组DNA进行高通量测序。比对测序读段至参考基因组。计算实验样本的平均测序深度(实验样本的平均测序深度=比对上的测序读段数目*测序读段长度/参考基因组长度)。将参考基因组按预设的长度划分为窗口。计算窗口的平均测序深度(窗口的平均测序深度=窗口内比对上的测序读段数目*测序读段长度/窗口的长度)。计算窗口的归一化的平均测序深度(窗口的归一化的平均测序深度=窗口的平均测序深度/实验样本的平均测序深度)。
(2)高斯混合模型(GMM)与最大期望算法(EM算法)。GMM是指具有如下形式的概率分布模型:
Figure BDA0001705106530000041
其中,αk是系数,αk≥0,
Figure BDA0001705106530000042
Figure BDA0001705106530000043
是高斯分布密度,
Figure BDA0001705106530000044
Figure BDA0001705106530000045
称为第k个分模型。EM算法可以用于依据观测数据y1,y2,…,yN估计GMM的参数。EM算法的步骤和公式见附图1。
(3)窗口的拷贝数估计。将所有实验样本的某窗口的归一化的平均测序深度作为观测数据,带入EM算法,可以估计GMM的参数。利用朴素贝叶斯的方法可以计算每个实验样本在该窗口属于各分模型的概率,公式如下:
Figure BDA0001705106530000046
取使得P(k|yj)最大的k作为j样本在该窗口的所属分模型。在使用EM算法时,GMM的分模型数目K的取值和参数(μkkk)的初始取值至关重要,这些值与真实值越接近,拷贝数估计越准确。我们取K=2,3,4或5,分别带入EM算法,最后计算有效性指标S_Dbw(Halkidi,M.andM.Vazirgiannis.Clustering validity assessment:Finding the optimalpartitioning of a data set.in Data Mining,2001.ICDM 2001,Proceedings IEEEInternational Conference on.2001.IEEE.),选取使得指标取得最大值的K。参数(μkkk)的初始取值如下:
Figure BDA0001705106530000051
Figure BDA0001705106530000052
αk=1/K
GMM的每个分模型代表一个拷贝数状态,但还需要其他信息确定具体的拷贝数。我们使用分模型的参数μk来确定具体的拷贝数:
Figure BDA0001705106530000053
(4)合并拷贝数一致率高的相邻窗口。若相邻窗口拷贝数一致的实验样本数超过90%,则认为这两个窗口属于同一个拷贝数变异,合并为一个窗口。循环合并窗口的过程,直到不再有相邻窗口可以合并。合并后的窗口即为最终的拷贝数变异区域。
(5)确定最终的拷贝数和过滤。对第(4)步得到的拷贝数变异区域,按第(3)步的方法得到最终的拷贝数。利用GMM的概率过滤,若某拷贝数变异区域内90%以上的实验样本属于所属分模型的概率大于90%,则保留此拷贝数变异区域,否则去除此拷贝数变异区域。
3.最终,188个样本的归一化的平均测序深度分布如图2所示。
对比例HLA-DRB5基因拷贝数变异在188个实验样本的检测(金标准)
使用实施例步骤1中的Sanger测序数据,人工判断HLA-DRB5基因的型别和拷贝数。
比较本发明方法在HLA-DRB5基因检测到的拷贝数变异和Sanger测序得到的金标准,一致率为97.14%。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (3)

1.基于高通量测序和高斯混合模型的拷贝数变异检测方法,其特征在于,包括以下步骤:
S1、数据的生产与预处理:对实验样本的基因组DNA进行高通量测序,比对测序读段至参考基因组,计算实验样本的平均测序深度,且将参考基因组按预设的长度划分为窗口,计算窗口的平均测序深度和窗口的归一化的平均测序深度;
所述实验样本的平均测序深度=比对上的测序读段数目*测序读段长度/参考基因组长度;
所述窗口的平均测序深度=窗口内比对上的测序读段数目*测序读段长度/窗口的长度;
所述窗口的归一化的平均测序深度=窗口的平均测序深度/实验样本的平均测序深度;
S2、利用最大期望算法估计高斯混合模型的参数:高斯混合模型是指具有如下形式的概率分布模型:
Figure FDA0002818074290000011
其中,K是分模型的数目,k是第k个分模型的代号,θ是所有分模型的参数,θk是第k个分模型的参数且
Figure FDA0002818074290000012
μk是第k个分模型的期望,
Figure FDA0002818074290000013
是第k个分模型的方差,αk是第k个分模型的系数,αk≥0且
Figure FDA0002818074290000014
是高斯分布密度,
Figure FDA0002818074290000015
称为第k个分模型;
S3、窗口的拷贝数估计:将所有实验样本的某窗口的归一化的平均测序深度作为观测数据,带入最大期望算法,估计高斯混合模型的参数,利用朴素贝叶斯的方法计算每个实验样本在该窗口属于各分模型的概率;
S4、合并拷贝数一致率高的相邻窗口:若相邻窗口拷贝数一致的实验样本数超过90%,则认为这两个窗口属于同一个拷贝数变异,合并为一个窗口;循环合并窗口的过程,直到不再有相邻窗口可以合并;合并后的窗口即为最终的拷贝数变异区域;
S5、确定最终的拷贝数和过滤:对步骤S4得到的拷贝数变异区域,按步骤S3的方法得到最终的拷贝数,利用高斯混合模型的概率过滤,若某拷贝数变异区域内90%以上的实验样本属于所属分模型的概率大于90%,则保留此拷贝数变异区域,否则去除此拷贝数变异区域。
2.根据权利要求1所述的基于高通量测序和高斯混合模型的拷贝数变异检测方法,其特征在于,步骤S2中所述最大期望算法的步骤包括:
S21、对高斯混合模型的参数(μkkk)取初始值;
S22、E步:依据当前模型参数,计算分模型k对观测数据yj的响应度
Figure FDA0002818074290000021
S23、M步:计算新一轮迭代的高斯混合模型参数,包括
Figure FDA0002818074290000022
Figure FDA0002818074290000023
Figure FDA0002818074290000024
S24、判断是否收敛:若是,停止;若否,重复步骤S22~S24。
3.根据权利要求1所述的基于高通量测序和高斯混合模型的拷贝数变异检测方法,其特征在于,步骤S3中所述利用朴素贝叶斯的方法是使用如下公式:
Figure FDA0002818074290000025
其中,取使得P(k|yj)最大的k作为j样本在该窗口的所属分模型。
CN201810654434.1A 2018-06-22 2018-06-22 基于高通量测序和高斯混合模型的拷贝数变异检测方法 Active CN108875311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810654434.1A CN108875311B (zh) 2018-06-22 2018-06-22 基于高通量测序和高斯混合模型的拷贝数变异检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810654434.1A CN108875311B (zh) 2018-06-22 2018-06-22 基于高通量测序和高斯混合模型的拷贝数变异检测方法

Publications (2)

Publication Number Publication Date
CN108875311A CN108875311A (zh) 2018-11-23
CN108875311B true CN108875311B (zh) 2021-02-12

Family

ID=64294324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810654434.1A Active CN108875311B (zh) 2018-06-22 2018-06-22 基于高通量测序和高斯混合模型的拷贝数变异检测方法

Country Status (1)

Country Link
CN (1) CN108875311B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887546B (zh) * 2019-01-15 2019-12-27 明码(上海)生物科技有限公司 基于二代测序的单基因或多基因拷贝数检测系统及方法
CN112216344A (zh) * 2020-09-05 2021-01-12 西安翻译学院 肿瘤纯度和平均倍体信息的预测方法、系统、存储介质
CN113270141B (zh) * 2021-06-10 2023-02-21 哈尔滨因极科技有限公司 一种基因组拷贝数变异检测整合算法
CN113436678A (zh) * 2021-07-07 2021-09-24 哈尔滨因极科技有限公司 一种基于滤波降噪的基因组结构变异检测方法
WO2024010812A2 (en) * 2022-07-07 2024-01-11 Illumina Software, Inc. Methods and systems for determining copy number variant genotypes
CN118016150A (zh) * 2023-11-30 2024-05-10 东莞博奥木华基因科技有限公司 一种检测遗传序列拷贝数变异的模型构建及其应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1636601A (zh) * 2003-08-28 2005-07-13 华中科技大学同济医学院 一种早老性痴呆大鼠动物模型的构建方法
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN104182655A (zh) * 2014-09-01 2014-12-03 上海美吉生物医药科技有限公司 一种判断胎儿基因型的方法
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN106372459A (zh) * 2016-08-30 2017-02-01 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
CN107423534A (zh) * 2016-05-24 2017-12-01 郝柯 基因组拷贝数变异的检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1636601A (zh) * 2003-08-28 2005-07-13 华中科技大学同济医学院 一种早老性痴呆大鼠动物模型的构建方法
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN104182655A (zh) * 2014-09-01 2014-12-03 上海美吉生物医药科技有限公司 一种判断胎儿基因型的方法
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN107423534A (zh) * 2016-05-24 2017-12-01 郝柯 基因组拷贝数变异的检测方法和系统
CN106372459A (zh) * 2016-08-30 2017-02-01 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Genotype Copy Number Varations using Gaussian Mixture Models: Theory and Algorithm;Chang-Yun Lin等;《Statistical Application in Genetics Molecular Biology》;20121012;第11卷(第5期);全文 *
Identification and Validation of copy number variants using SNP genotyping arrays from a large clinical cohort;Armand Valsesia等;《BMC Genomics》;20120615;全文 *
PlatinumCNV: a bayesian gaussian mixture model for genotyping copy number;Natsuhiko Kumasaka等;《Genetic Epidemiology》;20111128;全文 *

Also Published As

Publication number Publication date
CN108875311A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875311B (zh) 基于高通量测序和高斯混合模型的拷贝数变异检测方法
NZ759659A (en) Deep learning-based variant classifier
CN108256289B (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN111599407B (zh) 拷贝数变异的检测方法和装置
CN108504749A (zh) 29个微单倍型位点、筛选方法、复合扩增体系及应用
WO2019213811A1 (zh) 检测染色体非整倍性的方法、装置及系统
WO2016063059A1 (en) Improved nucleic acid re-sequencing using a reduced number of identified bases
US20190287646A1 (en) Identifying copy number aberrations
EP3794145A1 (en) Inferring selection in white blood cell matched cell-free dna variants and/or in rna variants
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN113823356B (zh) 一种甲基化位点识别方法及装置
JP2015519662A (ja) 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法
KR101506916B1 (ko) miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법
CN107885972B (zh) 一种基于单端测序的融合基因检测方法及其应用
CN115948521B (zh) 一种检测非整倍体缺失染色体信息的方法
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
US20190139627A1 (en) System for Increasing the Accuracy of Non Invasive Prenatal Diagnostics and Liquid Biopsy by Observed Loci Bias Correction at Single Base Resolution
CN105787296A (zh) 一种宏基因组和宏转录组样本相异度的比较方法
CN110232951A (zh) 判断测序数据饱和的方法、计算机可读介质和应用
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
El-Badawy et al. Correlation between different DNA period-3 signals: An analytical study for exons prediction
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN111370063A (zh) 一种基于Pacbio数据的MSI微卫星不稳定性检测方法和系统
CN114703263B (zh) 一种群组染色体拷贝数变异检测方法及装置
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant