CN114974415A - 一种检测染色体拷贝数异常的方法和装置 - Google Patents

一种检测染色体拷贝数异常的方法和装置 Download PDF

Info

Publication number
CN114974415A
CN114974415A CN202210819038.6A CN202210819038A CN114974415A CN 114974415 A CN114974415 A CN 114974415A CN 202210819038 A CN202210819038 A CN 202210819038A CN 114974415 A CN114974415 A CN 114974415A
Authority
CN
China
Prior art keywords
window
frequency
cnv
snp
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210819038.6A
Other languages
English (en)
Inventor
单光宇
高司航
姬晓勇
伍启熹
王建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youxun Medical Devices Co ltd
Original Assignee
Beijing Youxun Medical Devices Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youxun Medical Devices Co ltd filed Critical Beijing Youxun Medical Devices Co ltd
Priority to CN202210819038.6A priority Critical patent/CN114974415A/zh
Publication of CN114974415A publication Critical patent/CN114974415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息技术领域,尤其涉及一种检测染色体拷贝数异常的方法和装置。所述方法包括:针对染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个人群高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。本发明基于隐马尔科夫模型及EM算法检测染色体拷贝数异常的片段,后针对潜在CNV片段的检测结果利用片段上携带的人群高频SNP位点的频率进行校正,有效提高了检测染色体拷贝数异常的准确性和灵敏度。

Description

一种检测染色体拷贝数异常的方法和装置
技术领域
本发明涉及生物信息技术领域,尤其涉及一种检测染色体拷贝数异常的方法和装置。
背景技术
染色体拷贝数异常是属于基因组结构变异,根据大小可分为两个层次:显微水平和亚显微水平。显微水平的基因组结构变异主要是指显微镜下可见的染色体畸变,包括整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变异。亚显微水平的基因组结构变异是指DNA片段长度在1Kb-3Mb的基因组结构变异,包括缺失、插入、重复、重排、倒位、DNA拷贝数目变化等,这些统称为拷贝数异常(Copy number variations,CNV)。
目前,检测拷贝数变异的技术中主要分为2大类,第一类基于序列数,即将待检测区域按照一定的长度划分窗口,统计每个窗口比对到的序列数,将比对到每个窗口的序列数进行GC含量等偏差的校正,进而通过循环二元分割、隐马尔可夫链等算法检测拷贝数变异;第二类基于SNP的频率,通过统计样本杂合位点离50:50比例的偏差来检测拷贝数的变异。
然而,样本质量、或者实验、测序的过程中的一些操作会产生无法校正的数据波动,或者杂合位点的频率在没有发生CNV的情况下也会产生频率偏差,这些情况会让这两种检测拷贝数变异的方法在计算时造成数据失真,干扰检测的准确性。
发明内容
为了解决现有技术存在的问题,本发明提供一种检测染色体拷贝数异常的方法和装置。在基于序列数检测拷贝数异常的基础上,采用SNP频率进行校正的方法,有效避免假阳性,提高检测的准确性和灵敏度。
第一方面,本发明提供一种检测染色体拷贝数异常的方法,包括:
针对染色体拷贝数异常的检测结果进行SNP频率校正;
所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:
检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。
进一步地,所述根据所述频率分布确定每个人群高频SNP位点是否支持所述窗口携带CNV为:
判断每个高频SNP位点的频率分布符合正态分布f~N((cn-1)/cn,σri),还是N(0.5,σri)的分布,符合正态分布f~N((cn-1)/cn,σri)的概率更高的高频SNP位点即为支持所述窗口携带CNV;
其中,cn为所述窗口的cn值。
进一步地,所述窗口的cn值通过如下方式计算得到:计算所述染色体拷贝数异常的检测结果中CNV片段每个窗口含量的平均值x,则cn值=2+2*x。
本发明中将千人基因组计划中,变异频率位于5%-95%之间的SNP位点定义为人群高频SNP位点。进一步地,将CNV片段包含的人群高频的SNP位点,变异频率在10%~90%的SNP位点挑选出来,用于下一步的校正。
进一步地,所述根据判断结果确定所述窗口是否携带CNV为:
当所述窗口内支持所述窗口携带CNV的人群高频SNP位点数量超过人群高频SNP位点总数的一半时,判断所述窗口携带CNV。
进一步地,在进行SNP频率校正之前,还包括:
通过基于序列数的CNV检测方法对待测样本进行检测得到所述染色体拷贝数异常的检测结果。
进一步地,所述基于序列数的CNV检测方法包括:
将待检测样本的所有窗口的序列分别进行数据量校正、GC含量校正和局部加权线性回归,得到每个窗口的经过校正的窗口含量;
基于每个窗口的经过校正的窗口含量,以参考数据集中每个窗口的原始含量作为观测序列,通过隐马尔科夫模型计算每个窗口携带CNV的概率。
进一步地,采用大于30个样本的核苷酸序列检测数据,进行原始序列过滤、去除重复序列和提取唯一比对碱基序列;采用数据量校正、GC含量校正和基线覆盖度校正进行校正。
进一步地,所述隐马尔科夫模型为:用染色体一系列窗口的原始含量作为模型的观测序列,如果一个窗口含有CNV,和不含CNV的窗口相比,窗口的含量变化大于50%;每个窗口的隐含状态有3个状态:拷贝数缺失、阴性和拷贝数增加,利用每条染色体的隐含状态构成一条马尔科夫链,并用EM算法拟合模型到最佳参数,最终计算出每个窗口携带CNV的后验概率。
本发明进一步提供所述方法在提高染色体拷贝数检测的准确率中的应用。
第二方面,本发明提供一种检测染色体拷贝数异常的装置,包括:
CNV检测模块,所述CNV检测模块用于通过基于序列数的CNV检测方法对待测样本进行检测得到染色体拷贝数异常的检测结果;
校正模块,所述校正模块用于针对所述染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:
检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个人群高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。
本发明具备如下有益效果:
本发明基于序列数和SNP的频率进行CNV的检测,利用窗口比对上的序列数检测染色体的拷贝数变异,利用SNP的频率校正检出的拷贝数变异,有效解决了单一方法引起的假阳性检测结果等问题,显著提高了检测染色体拷贝数异常的准确性,具有重要意义。
附图说明
图1为本发明实施例1提供的CNV流程检测说明图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
本实施例提供一种检测染色体拷贝数异常的方法,如图1所示,具体流程如下:
1、原始序列过滤。
使用质控工具(Trimmomatic-0.39 软件)处理来自MGI-2000平台原始下机数据,将原始测得的碱基序列中的接头序列、含N的碱基、和测序质量小于15的碱基切除掉,生成新的fastq文件。
2、比对、去重复序列、提取唯一比对碱基序列。
使用比对软件(BWA v0.7.17)将经过过滤的碱基序列比对到人体参考基因组序列(版本hg19);使用去重复序列软件(Picard v2.20.3)对比对结果BAM文件的重复测序读段进行移除,并生产新的BAM文件;使用软件(Samtools v1.2)将去重复后的比对文件中唯一比对碱基序列提取出来并生成最终的BAM文件。统计最终的BAM文件,获得样本的有效数据量和GC含量。
3、参考数据集的构建。
用大于30例样本构建参考数据库。
(1)对窗口的序列数目进行基础校正。
测序过程中存在一定的GC偏好性,染色体上不同区域的基线覆盖度也存在差异,首先需要对样本GC含量偏差、不同区域的基线覆盖度进行基础校正;
A.数据量校正:计算每个窗口比对到的原始序列数目占总序列数目的比例,这个比例称为每个窗口经数据量校正后的窗口含量;
B.GC含量校正:使用平滑样条法(smooth spline)的方法,将每个窗口按照GC含量排序,使用平滑样条法对排序后的窗口经数据量校正后的窗口含量作平滑处理,用每个窗口经过数据量校正的窗口含量减去平滑值,再将窗口恢复到原来的顺序,称为GC校正后的窗口的含量;
C.基线覆盖度校正:使用局部加权线性回归,利用参考集的样本在每个窗口GC校正后的含量平均值做为基线,方差作为权重,拟合出一条基线,每个窗口GC校正后的含量减去基线对应的数目,加上所有窗口GC校正后的含量的中位数,称为经过基础校正后的窗口含量。
(2)构建参考集。
A.基线覆盖度基线构建:每个窗口所有参考集样本GC校正后的含量的平均值和方差存入覆盖度基线文件中;
B.经过基础校正后的窗口序列含量基线构建:将每个窗口所有参考集样本经过基础校正后的参考集,窗口含量的平均值和方差存入覆盖度基线文件中。
4、样本检测。
(1)用待检测样本的窗口序列分别进行数据量校正、GC含量校正、局部加权线性回归,得到每个窗口的经过校正的窗口含量;
(2)隐马尔科夫模型检测CNV。
用染色体一系列窗口的原始含量作为模型的观测序列,如果一个窗口含有CNV,和不含CNV的窗口相比,窗口的含量变化大约是50%;每个窗口的隐含状态有3个状态:拷贝数缺失、阴性和拷贝数增加,利用每条染色体的隐含状态构成一条马尔科夫链,并用EM算法拟合模型到最佳参数,最终计算出每个窗口携带CNV的后验概率。
隐马尔可夫的发射函数(从隐含状态即CNV类型,到可见状态即窗口的含量函数关系):
Figure 526486DEST_PATH_IMAGE001
隐马尔可夫的隐藏状态转移矩阵(从一个状态到下一个状态的转换):
Figure 229606DEST_PATH_IMAGE002
迭代10次,拟合模型的最佳参数,并得到最终每个窗口携带CNV的概率,当窗口携带CNV的概率大于0.01,则将窗口保留下来作为潜在的携带CNV的潜在窗口;
(3)cn值计算。计算CNV片段每个窗口含量的平均值x,则cn值=2x
5、利用SNP频率进行CNV的校正。
(1)收集CNV片段上携带的人群高频位点(千人基因组计划5%-95%),提取其中变异频率位于10%-90%之间的位点,作为下游进行CNV校正的待用位点;
(2)假设cn为待检测CNV片段的cn值,则变异位点的频率符合正态分布f~N((cn-1)/cn,σri),如该窗口不携带CNV,则变异位点的频率应符合N(0.5,σri)的分布。
对于每个待用位点,在携带CNV的情况下计算的概率值大于不携带CNV情况下计算的概率值,则认为该位点支持CNV,最后统计支持携带CNV的位点比例是否大于50%,如果大于50%,则该CNV保留下来。
实施例2
本发明采用1例非小细胞肺癌样本,该样本经过FISH实验验证,EGFR、FGFR1基因扩增为阴性,MET扩增为阳性。以该样本进行优迅肺单的panel(同时覆盖EGFR、FGFR1、MET等多个基因)杂交捕获,随后进行高通量测序。该样本的下机数据,经过步骤1-2处理后,有效平均深度5735,随后进行100次数据降采样至有效平均深度1500进行分析。将100次数据进行步骤3-4的CNV检测,统计三个基因扩增的正确检出率;随后进行步骤5的校正,再次统计三个基因扩增的正确检出率,将两次结果前后进行对比分析,结果如下表所示:
表1 SNP频率校正前后的检出率
Figure 645544DEST_PATH_IMAGE003
该实施例可证明SNP频率校正有助于CNV正确检出。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种检测染色体拷贝数异常的方法,其特征在于,包括:
针对染色体拷贝数异常的检测结果进行SNP频率校正;
所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:
检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。
2.根据权利要求1所述的方法,其特征在于,所述根据所述频率分布确定每个人群高频SNP位点是否支持所述窗口携带CNV为:
判断每个人群高频SNP位点的频率分布符合正态分布f~N((cn-1)/cn,σri),还是N(0.5,σri)的分布,符合正态分布f~N((cn-1)/cn,σri)的概率更高的人群高频SNP位点即为支持所述窗口携带CNV;
其中,cn为所述窗口的cn值。
3.根据权利要求1或2所述的方法,其特征在于,所述人群高频SNP位点为所述窗口中包含的千人组计划中人群变异频率在5%-95%的SNP位点。
4.根据权利要求1所述的方法,其特征在于,所述根据判断结果确定所述窗口是否携带CNV为:
当所述窗口内支持所述窗口携带CNV的人群高频SNP位点数量超过人群高频SNP位点总数的一半时,判断所述窗口携带CNV。
5.根据权利要求1所述的方法,其特征在于,在进行SNP频率校正之前,还包括:
通过基于序列数的CNV检测方法对待测样本进行检测得到所述染色体拷贝数异常的检测结果。
6.根据权利要求5所述的方法,其特征在于,所述基于序列数的CNV检测方法包括:
将待检测样本的所有窗口的序列分别进行数据量校正、GC含量校正和局部加权线性回归,得到每个窗口的经过校正的窗口含量;
以参考数据集中每个窗口的经过校正的窗口含量作为观测序列,每个窗口的CNV状态作为隐含状态,通过隐马尔科夫模型计算每个窗口携带CNV的概率。
7.根据权利要求6所述的方法,其特征在于,所述参考数据集通过如下方式获得:
采用大于30个样本的核苷酸序列检测数据,进行原始序列过滤、去除重复序列和提取唯一比对碱基序列;采用数据量校正、GC含量校正和基线覆盖度校正进行校正。
8.权利要求1-7任一项所述的方法在提高染色体拷贝数检测的准确率中的应用。
9.一种检测染色体拷贝数异常的装置,其特征在于,包括:
CNV检测模块,所述CNV检测模块用于通过基于序列数的CNV检测方法对待测样本进行检测得到染色体拷贝数异常的检测结果;
校正模块,所述校正模块用于针对所述染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:
检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个人群高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。
CN202210819038.6A 2022-07-13 2022-07-13 一种检测染色体拷贝数异常的方法和装置 Pending CN114974415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210819038.6A CN114974415A (zh) 2022-07-13 2022-07-13 一种检测染色体拷贝数异常的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210819038.6A CN114974415A (zh) 2022-07-13 2022-07-13 一种检测染色体拷贝数异常的方法和装置

Publications (1)

Publication Number Publication Date
CN114974415A true CN114974415A (zh) 2022-08-30

Family

ID=82970389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210819038.6A Pending CN114974415A (zh) 2022-07-13 2022-07-13 一种检测染色体拷贝数异常的方法和装置

Country Status (1)

Country Link
CN (1) CN114974415A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117594122A (zh) * 2024-01-19 2024-02-23 苏州贝康医疗器械有限公司 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANLI XU 等: "Informative priors on fetal fraction increase power of the noninvasive prenatal screen", 《GENETICS IN MEDICINE》 *
上海财经大学数学学院: "《概率论与数理统计》", 30 April 2020, 上海财经大学出版社 *
张延芳 等: "《实用临床医学检验技术 下 第2版》", 31 March 2019, 吉林科学技术出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117594122A (zh) * 2024-01-19 2024-02-23 苏州贝康医疗器械有限公司 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置
CN117594122B (zh) * 2024-01-19 2024-04-09 苏州贝康医疗器械有限公司 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置

Similar Documents

Publication Publication Date Title
EP3298523B1 (en) Methods and systems for copy number variant detection
Hasan et al. Performance evaluation of indel calling tools using real short-read data
CN109658983B (zh) 一种识别和消除核酸变异检测中假阳性的方法和装置
Bzikadze et al. Automated assembly of centromeres from ultra-long error-prone reads
EP2835752A1 (en) Method and system for detecting copy number variation
CN109949861B (zh) 肿瘤突变负荷检测方法、装置和存储介质
CN110029157B (zh) 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN111462823B (zh) 一种基于dna测序数据的同源重组缺陷判定方法
CN114999573B (zh) 一种基因组变异检测方法及检测系统
WO2018201805A1 (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
CN111599407A (zh) 拷贝数变异的检测方法和装置
CN115064209B (zh) 一种恶性细胞鉴定方法及系统
CN111968701A (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN111091869A (zh) 以snp为遗传标记物的亲缘关系鉴定方法
CN110648721A (zh) 针对外显子捕获技术检测拷贝数变异的方法及装置
CN106845152A (zh) 一种基因组胞嘧啶位点表观基因型分型方法
CN114974415A (zh) 一种检测染色体拷贝数异常的方法和装置
CN111696622B (zh) 一种校正和评估变异检测软件检测结果的方法
CN115394359B (zh) 一种通过转录组检测单细胞染色体拷贝数变异方法
CN114566214B (zh) 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
EP3971902B1 (en) Base mutation detection method and apparatus based on sequencing data, and storage medium
CN114703263B (zh) 一种群组染色体拷贝数变异检测方法及装置
CN117711487B (zh) 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220830

RJ01 Rejection of invention patent application after publication