CN116994656A - 一种用于提高二代测序检测准确度的方法 - Google Patents

一种用于提高二代测序检测准确度的方法 Download PDF

Info

Publication number
CN116994656A
CN116994656A CN202311238189.3A CN202311238189A CN116994656A CN 116994656 A CN116994656 A CN 116994656A CN 202311238189 A CN202311238189 A CN 202311238189A CN 116994656 A CN116994656 A CN 116994656A
Authority
CN
China
Prior art keywords
ivs
blacklist
sequences
generation sequencing
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311238189.3A
Other languages
English (en)
Other versions
CN116994656B (zh
Inventor
王冰
陈慧娟
张怡然
商宇红
舒迎霜
蔡丽丽
周启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiuzhen Medical Laboratory Co ltd
Original Assignee
Beijing Qiuzhen Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiuzhen Medical Laboratory Co ltd filed Critical Beijing Qiuzhen Medical Laboratory Co ltd
Priority to CN202311238189.3A priority Critical patent/CN116994656B/zh
Publication of CN116994656A publication Critical patent/CN116994656A/zh
Application granted granted Critical
Publication of CN116994656B publication Critical patent/CN116994656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及医学分子生物学技术领域,特别涉及一种用于提高二代测序检测准确度的方法,本发明所提供的一种用于提高二代测序检测准确度的方法,利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变,提高检测的灵敏度和准确度。

Description

一种用于提高二代测序检测准确度的方法
技术领域
本发明涉及医学分子生物学技术领域,特别涉及一种用于提高二代测序检测准确度的方法。
背景技术
二代测序基于短读长、高通量测序平台,对于肿瘤DNA检测来说,先要进行DNA的片段化,片段化最经典的方法是基于超声破碎的机械打断法。但由于超声条件较为剧烈,会引起DNA损伤,一些DNA会形成局部单链,在修复酶和聚合酶的综合作用下,生成嵌合reads。一些嵌合reads在生成过程中会引入由于不配对而产生的人为突变。在常规生信过滤过程中,由于考虑到嵌合reads会引入人为突变,会将嵌合reads整体剔除,不再进行后续分析。现有的数据过滤方法,存在以不足:(1)笼统将嵌合reads全部去除,会丢到真实发生突变,造成灵敏度下降及检测频率不准确;(2)低质量样本中存在大量嵌合reads,全部删除会造成检测深度低,假阴性风险。
发明内容
针对上述背景技术的不足,本发明提供了一种用于提高二代测序检测准确度的方法,通过建立黑名单的方式,过滤二代测序文库中人为引入的突变,提高检测准确度。
一种用于提高二代测序检测准确度的方法,包括以下步骤:
S1. 对样品进行基因靶向测序,获取原始fastq文件;
S2. 对原始fastq文件进行数据控制,筛除低质量数据;
S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;
S4. 基于黑名单进行数据过滤,将样本中嵌合read上的阳性突变检出;过滤条件为:当黑名单中的位点若突变频率小于等于10%将被过滤,大于10%则保留。
进一步地,S2中数据控制具体为:去除接头序列、去除低质量数据、去除过短reads。
进一步地,S3中所述参考基因组序列为hg19。
进一步地,S3中采用Picard软件进行重复序列去除,然后用Vardict软件去识别SNV变异。
进一步地,S3中黑名单采用以下方法确定:
S41.比对参考基因组获得bam文件,向上下游各延伸50bp,作为寻找IVS的参考序列;
S42.将这些参考序列进行分割,得到n=∑[(L-K) + 1]个子序列,其中,L是延伸后的参考序列长度,K是IVS区域一半的长度,范围是2~L/2;
S43.用reverseq函数生成这些子序列的反向互补序列;
S44.将子序列在相邻200 bp内随机与反向互补序列比对,将比对上的序列包括中间的间隔序列生成IVS列表;
S45.使用mergeLong函数,将重叠的IVS区域进行合并,并且在IVS区域中判断是否存在不匹配位点。
进一步地,所述S41中参考基因组序列为hg19。
进一步地,所述S44中IVS区域≥8bp。
进一步地,S45中判断条件为:若不存在不匹配位点则丢弃该IVS区域,若存在不匹配位点且该位点距离IVS两端的距离均≥2bp,则将该IVS区域加入到黑名单区域。
进一步地,生成的黑名单区域进一步限定如下:反向互补序列之间的核酸的数量≤50 bp;单个倒置重复序列≥8bp;不匹配位点距离倒置重复两个端点距离分别≥2bp。
有益效果:本发明所提供的一种用于提高二代测序检测准确度的方法,利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变,提高检测的灵敏度和准确度。
附图说明
图1为本发明的黑名单建立流程图;
图2为嵌合reads与突变IGV展示图;
图3为两种反向互补配对方式图;
图4为链内反向互补引入突变机制图;
图5为链间反向互补引入突变图;
图6为黑名单过滤前后检出突变数量对比图;
图7为黑名单位点突变频率统计图;
图8为嵌合read检出阳性突变统计图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合具体实施方式及附图对本发明作详细说明。下列实施例中未注明具体条件的实验方法,通常按照常规条件或按照制造厂商所建议的条件。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。除非另外说明,否则百分比和份数按重量计算。除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。
发明人通过7000余例样本总结嵌合reads发生规律,发现嵌合reads发生概率随样本降解程度的升高而升高,并且嵌合reads附近常有规律性突变发生。总结这些位点特征,发现这类位点是位于相隔不远的两个可部分反向互补配对的序列中的不配对序列(如图2所示),推测为打断过程中形成了局部单链,由于存在两个间隔不远的反向配对序列,所以可以形成链内反向互补配对(如图3A所示),或者链间配对(如图3B所示);
经过修复过程产生了嵌合reads,机制如图4-5所示,由于配对区存在不匹配,所以在复制过程中,会以分别以1条链做模板,形成携带突变或者不携带突变的嵌合reads;
发明人将这种含有不完全匹配的可链内互补的区域命名为间隔反向重复序列(inverted repeat sequences,IVS),故生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变。
实施例1 黑名单的建立
根据IVS的特征,以1123个基因大panel(约2 Mb区域)为例,生成黑名单位点。首先将给定的panel的bed区间参考人基因组序列,向上下游各延伸50bp,作为寻找IVS的参考序列;然后人为将这些序列进行分割,得到n=∑[(L-K) + 1]个子序列(Kmer),其中,L是延伸后的参考序列长度,K是IVS区域一半的长度,范围是2~L/2;然后用reverseq函数生成这些Kmer序列的反向互补序列;将Kmer序列在相邻200 bp内随机与反向互补序列比对,将比对上的序列包括中间的间隔序列生成IVS列表,IVS区域需要≥8bp。使用mergeLong函数,将重叠的IVS区域进行合并,并且在IVS区域中判断是否存在不匹配位点。若不存在不匹配位点则丢弃该IVS区域,若存在不匹配位点且该位点距离IVS两端的距离均大于等于2bp,则加入到黑名单中,对生成后的黑名单又做了如下限定:反向互补序列之间的核酸的数量≤50bp;单个倒置重复序列≥8bp;不匹配位点距离倒置重复两个端点距离分别≥2bp,形成最终的黑名单。
实施例2 单个样本数据提取及检测
使用KAPA机械打断法试剂盒进行DNA NGS文库构建、杂交捕获上机、测序。对原始结果进行质控、去除接头序列、去除低质量数据、去除过短reads;然后将数据与人基因组进行比对,用Picard软件进行重复序列去除,然后用Vardict软件去识别SNV变异,将SNV变异与黑名单进行比对,若变异存在于黑名单中,则突变频率要大于10%才保留,如果小于等于10%则被过滤掉;对比过滤前后突变检出结果,单个样本检出突变数量明显降低(图6A),整体检出数量也明显降低(图6B),说明黑名单能过滤掉大量嵌合read引起的突变。
实施例3性能验证:
统计7000余例肿瘤样本黑名单位点发生频率(见图7),发现黑名单位点发生突变频率远高于临近位点及一般位点,说明筛选到的黑明单位点确实应该被过滤掉。通过IGV图可以看出,位于嵌合reads上的阳性突变被有效检出,提高了检测的准确度(见图8)。
统计100例低质量样本检出情况,保留soft-clipedreads,并且使用黑名单进行过滤,可捞回43个真阳性突变,占比6.6%;并且可以提升68个真阳性位点的检测频率,平均提高约20%左右。
最后需要说明,上述描述仅为本发明的优选实施例,本领域的技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。

Claims (9)

1.一种用于提高二代测序检测准确度的方法,其特征在于包括以下步骤:
S1. 对样品进行基因靶向测序,获取原始fastq文件;
S2. 对原始fastq文件进行数据控制,筛除低质量数据;
S3. 将质控后的fastq文件与参考基因组比对获得bam文件,对bam文件进行数据过滤,去除重复序列;
S4. 基于黑名单进行数据过滤,将样本中嵌合read上的阳性突变检出;过滤条件为:当黑名单中的位点若突变频率小于等于10%将被过滤,大于10%则保留。
2.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于:S2中数据控制具体为:去除接头序列、去除低质量数据、去除过短reads。
3.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于,S3中所述参考基因组的序列为hg19。
4.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于,S3中采用Picard软件进行重复序列去除,然后用Vardict软件去识别SNV变异。
5.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于S4中黑名单采用以下方法确定:
S41.将质控后的fastq文件与参考基因组比对获得bam文件,向上下游各延伸50bp,作为寻找IVS的参考序列;
S42.将这些参考序列进行分割,得到n=∑[(L-K) + 1]个子序列,其中,L是延伸后的参考序列长度,K是IVS区域一半的长度,范围是2~L/2;
S43.用reverseq函数生成这些子序列的反向互补序列;
S44.将子序列在相邻200 bp内随机与反向互补序列比对,将比对上的序列包括中间的间隔序列生成IVS列表;
S45.使用mergeLong函数,将重叠的IVS区域进行合并,并且在IVS区域中判断是否存在不匹配位点。
6.根据权利要求5所述的一种用于提高二代测序检测准确度的方法,其特征在于,所述S41中参考基因组的序列为hg19。
7.根据权利要求5所述的一种用于提高二代测序检测准确度的方法,其特征在于,所述S44中IVS列表≥8bp。
8.根据权利要求5所述的一种用于提高二代测序检测准确度的方法,其特征在于,S45中判断条件为:若不存在不匹配位点则丢弃该IVS区域,若存在不匹配位点且该位点距离IVS两端的距离均≥2bp,则将该IVS区域加入到黑名单区域。
9.根据权利要求3-6任一项所述的一种用于提高二代测序检测准确度的方法,其特征在于,生成的黑名单区域进一步限定如下:反向互补序列之间的核酸的数量≤50 bp;单个倒置重复序列≥8bp;不匹配位点距离倒置重复两个端点距离分别≥2bp。
CN202311238189.3A 2023-09-25 2023-09-25 一种用于提高二代测序检测准确度的方法 Active CN116994656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311238189.3A CN116994656B (zh) 2023-09-25 2023-09-25 一种用于提高二代测序检测准确度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311238189.3A CN116994656B (zh) 2023-09-25 2023-09-25 一种用于提高二代测序检测准确度的方法

Publications (2)

Publication Number Publication Date
CN116994656A true CN116994656A (zh) 2023-11-03
CN116994656B CN116994656B (zh) 2024-01-02

Family

ID=88532324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311238189.3A Active CN116994656B (zh) 2023-09-25 2023-09-25 一种用于提高二代测序检测准确度的方法

Country Status (1)

Country Link
CN (1) CN116994656B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
CN113257350A (zh) * 2021-06-10 2021-08-13 臻和(北京)生物科技有限公司 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
WO2021163592A1 (en) * 2020-02-14 2021-08-19 Guardant Health, Inc. Methods and systems for determining fusion events
CN114023381A (zh) * 2021-12-31 2022-02-08 臻和(北京)生物科技有限公司 一种肺癌mrd融合基因判定方法、装置、存储介质及设备
WO2022089033A1 (zh) * 2020-10-29 2022-05-05 无锡臻和生物科技有限公司 检测基因突变及表达量的方法及装置
CN115831234A (zh) * 2023-01-06 2023-03-21 北京求臻医学检验实验室有限公司 基于染色体不稳定性的癌症早期筛查诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
WO2021163592A1 (en) * 2020-02-14 2021-08-19 Guardant Health, Inc. Methods and systems for determining fusion events
WO2022089033A1 (zh) * 2020-10-29 2022-05-05 无锡臻和生物科技有限公司 检测基因突变及表达量的方法及装置
CN113257350A (zh) * 2021-06-10 2021-08-13 臻和(北京)生物科技有限公司 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
CN114023381A (zh) * 2021-12-31 2022-02-08 臻和(北京)生物科技有限公司 一种肺癌mrd融合基因判定方法、装置、存储介质及设备
CN115831234A (zh) * 2023-01-06 2023-03-21 北京求臻医学检验实验室有限公司 基于染色体不稳定性的癌症早期筛查诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李剑峰;严天奇;崔博文;孔杰;王舒;陈冰;黄金艳;: "基于基因Panel测序数据的分析方法", 上海交通大学学报(医学版), no. 11 *

Also Published As

Publication number Publication date
CN116994656B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
US11371074B2 (en) Method and system for determining copy number variation
CN110600078B (zh) 一种基于纳米孔测序检测基因组结构变异的方法
CN110029157B (zh) 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
CN109767810B (zh) 高通量测序数据分析方法及装置
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
CN107229841A (zh) 一种基因变异评估方法及系统
CN110648722B (zh) 新生儿遗传病患病风险评估的装置
JP2023523002A (ja) 染色体近接実験における構造的変異検出
CN113930492B (zh) 对被污染样品进行亲子鉴定的生物信息处理方法
CN112687341B (zh) 一种以断点为中心的染色体结构变异鉴定方法
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN111292803A (zh) 基因组断裂点识别方法及应用
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN116994656B (zh) 一种用于提高二代测序检测准确度的方法
WO2024140368A1 (zh) 一种样本交叉污染的检测方法和装置
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
CN116469462B (zh) 一种基于双重测序的超低频dna突变识别方法和装置
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN115954052A (zh) 一种实体瘤微小残留病灶监控位点筛选方法及系统
CN114420213B (zh) 一种生物信息分析方法及装置、电子设备及存储介质
CN112251512B (zh) 用于非小细胞肺癌患者基因检测的目标基因组以及相关的评估方法、用途和试剂盒
CN113496761B (zh) 确定核酸样本中cnv的方法、装置及应用
CN114974415A (zh) 一种检测染色体拷贝数异常的方法和装置
CN111798926A (zh) 致病基因位点数据库及其建立方法
CN116959579B (zh) 一种用于降低二代测序系统错误的系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant