CN107451428A - 下一代测序中末端短串联序列的优化处理方法 - Google Patents

下一代测序中末端短串联序列的优化处理方法 Download PDF

Info

Publication number
CN107451428A
CN107451428A CN201710650049.5A CN201710650049A CN107451428A CN 107451428 A CN107451428 A CN 107451428A CN 201710650049 A CN201710650049 A CN 201710650049A CN 107451428 A CN107451428 A CN 107451428A
Authority
CN
China
Prior art keywords
sequence
sequencing
noise
short tandem
treatment method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710650049.5A
Other languages
English (en)
Other versions
CN107451428B (zh
Inventor
郑灏
邓杏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guosheng Medical Technology Co Ltd
Original Assignee
Guangdong Guosheng Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guosheng Medical Technology Co Ltd filed Critical Guangdong Guosheng Medical Technology Co Ltd
Priority to CN201710650049.5A priority Critical patent/CN107451428B/zh
Publication of CN107451428A publication Critical patent/CN107451428A/zh
Application granted granted Critical
Publication of CN107451428B publication Critical patent/CN107451428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种下一代测序中末端短串联序列的优化处理方法,属于基因测序技术领域,其包括机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对等步骤进行优化,利用先进的生物信息算法进行运算,可以有效地合并相同的下一代测序读序列,以减少变异检测的假阳性和假阴性。

Description

下一代测序中末端短串联序列的优化处理方法
技术领域
本发明属于基因测序技术领域,尤其涉及一种下一代测序中末端短串联序列的优化处理方法。
背景技术
近年来,基于下一代测序技术的基因组学技术及其在肿瘤检测中的应用备受关注。 如果有效地分析测序结果进而检测出突变成为生物信息算法领域的一大研究方向。高敏感度和特异性的算法直接决定了下一代测序能否在临床上广泛的使用。下一代测序原始数据有很多的噪音信号,末端短串联序列是其中之一,其产生原因有很多种,比如PCR口吃(PCR Stutter)。有效地预处理末端短串联序列不仅可以增强序列比对质量,防止错误比对,同时可以进一步提高检测的敏感度和特异性。
发明内容
基于现有技术存在上述问题,本发明提供一种下一代测序中末端短串联序列的优化处理方法,其包括机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、 序列比对等步骤进行优化,利用先进的生物信息算法进行运算,可以有效地合并相同的下一代测序读序列,以减少变异检测的假阳性和假阴性。
本发明通过以下技术方案达到目的:
下一代测序中末端短串联序列的优化处理方法,其包括以下步骤:机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对四个步骤;详细步骤如下:
步骤S10机器学习及辨别噪声序列:通过illumina nextseq 和 high seq序列测试集,训练神经网络,通过交叉验证,建立模型,利用模型通过BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分;
步骤S20同聚物处理:判断噪声序列中的同聚物是否处于测序高质量区,若处于高质量区,则对于A/T采取+2/-2的混沌序列比对方式,对于G/C采取+1/-1的混沌序列比对方式;若处于测序低质量区,则标记该区域,并进行序列裁剪;
步骤S30二核苷酸和三核苷酸处理:判断噪声序列中的二核苷酸和三核苷酸是否处于测序高质量区,若处于高质量区,则生成其紧缩核心形式;若处于测序低质量区,则标记该区域,并进行序列裁剪;
步骤S40序列比对,对降噪后的末端短串联序列进行序列比对,若多个读序列吻合,则予以合并,并记录其重复数用以后续的变异检测。
其中,所述的步骤S10,利用BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分后使用人工审查(IGV)来确认区分噪声序列与非噪声序列。
其中,步骤S30中的紧缩核心形式是核苷酸重复序列的最小重复单元。
其中,步骤S40中的比对算法采用BWA MEM算法进行比对。
本发明具有的有益效果:
1、对于PCR口吃效应或者测序错误产生的读(read)末端短序列进行优化,避免了PCR口吃效应或者测序错误产生的读(read)末端短序列产生的噪音序列对测序的影响。
2、有效地合并相同的下一代测序读序列,以减少变异检测的假阳性和假阴性,通过该优化算法,成功地消除了90%的由末端短串联序列造成的SNP和Indel的假阳性和假阴性。
具体实施方式
下面结合具体实施例对本发明作进一步的描述。
采用本发明提供的下一代测序中末端短串联序列的优化处理方法对EndStutter数据集进行优化,详细包括以下步骤:
步骤S10机器学习及辨别噪声序列:通过illumina nextseq 和 high seq序列测试集,训练神经网络,通过交叉验证,建立模型,利用模型通过BLAST比对方法对EndStutter数据集进行噪声末端短串联序列与非噪声末端短串联序列的区分,再使用人工审查(IGV)来确认区分噪声序列与非噪声序列;
步骤S20同聚物处理:判断噪声序列中的同聚物是否处于测序高质量区,若处于高质量区,则对于A/T采取+2/-2的混沌序列比对方式,对于G/C采取+1/-1的混沌序列比对方式;若处于测序低质量区,则标记该区域,并进行序列裁剪;
步骤S30二核苷酸和三核苷酸处理:判断噪声序列中的二核苷酸和三核苷酸是否处于测序高质量区,若处于高质量区,则生成其紧缩核心形式,紧缩核心形式是核苷酸重复序列的最小重复单元;若处于测序低质量区,则标记该区域,并进行序列裁剪;
步骤S40序列比对,对降噪后的末端短串联序列采用BWA MEM算法进行序列比对,若多个读序列吻合,则予以合并,并记录其重复数用以后续的变异检测。
通过本发明提供的优化算法,成功地消除了90%的由末端短串联序列造成的SNP和Indel的假阳性和假阴性。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.下一代测序中末端短串联序列的优化处理方法,其特征在于,其包括以下步骤:机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对四个步骤;详细步骤如下:
步骤S10机器学习及辨别噪声序列:通过illumina nextseq 和 high seq序列测试集,训练神经网络,通过交叉验证,建立模型,利用模型通过BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分;
步骤S20同聚物处理:判断噪声序列中的同聚物是否处于测序高质量区,若处于高质量区,则对于A/T采取+2/-2的混沌序列比对方式,对于G/C采取+1/-1的混沌序列比对方式;若处于测序低质量区,则标记该区域,并进行序列裁剪;
步骤S30二核苷酸和三核苷酸处理:判断噪声序列中的二核苷酸和三核苷酸是否处于测序高质量区,若处于高质量区,则生成其紧缩核心形式;若处于测序低质量区,则标记该区域,并进行序列裁剪;
步骤S40序列比对,对降噪后的末端短串联序列进行序列比对,若多个读序列吻合,则予以合并,并记录其重复数用以后续的变异检测。
2.根据权利要求1所述的下一代测序中末端短串联序列的优化处理方法,其特征在于,所述的步骤S10,利用BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分后使用人工审查(IGV)来确认区分噪声序列与非噪声序列。
3.根据权利要求1所述的下一代测序中末端短串联序列的优化处理方法,其特征在于,步骤S30中的紧缩核心形式是核苷酸重复序列的最小重复单元。
4.根据权利要求1所述的下一代测序中末端短串联序列的优化处理方法,其特征在于,步骤S40中的比对算法采用BWA MEM算法进行比对。
CN201710650049.5A 2017-08-02 2017-08-02 下一代测序中末端短串联序列的优化处理方法 Active CN107451428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710650049.5A CN107451428B (zh) 2017-08-02 2017-08-02 下一代测序中末端短串联序列的优化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710650049.5A CN107451428B (zh) 2017-08-02 2017-08-02 下一代测序中末端短串联序列的优化处理方法

Publications (2)

Publication Number Publication Date
CN107451428A true CN107451428A (zh) 2017-12-08
CN107451428B CN107451428B (zh) 2020-05-22

Family

ID=60490716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710650049.5A Active CN107451428B (zh) 2017-08-02 2017-08-02 下一代测序中末端短串联序列的优化处理方法

Country Status (1)

Country Link
CN (1) CN107451428B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
CN103975329A (zh) * 2011-12-08 2014-08-06 皇家飞利浦有限公司 鲁棒的变异识别和验证
CN104615911A (zh) * 2015-01-12 2015-05-13 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法
CN105980578A (zh) * 2013-12-16 2016-09-28 考利达基因组股份有限公司 用于使用机器学习进行dna测序的碱基判定器
CN105989246A (zh) * 2015-01-28 2016-10-05 深圳华大基因研究院 一种基于基因组组装的变异检测方法和装置
CN106599614A (zh) * 2016-11-07 2017-04-26 为朔医学数据科技(北京)有限公司 一种高通量测序数据处理及分析流程控制方法及系统
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
CN103975329A (zh) * 2011-12-08 2014-08-06 皇家飞利浦有限公司 鲁棒的变异识别和验证
CN105980578A (zh) * 2013-12-16 2016-09-28 考利达基因组股份有限公司 用于使用机器学习进行dna测序的碱基判定器
CN104615911A (zh) * 2015-01-12 2015-05-13 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法
CN105989246A (zh) * 2015-01-28 2016-10-05 深圳华大基因研究院 一种基于基因组组装的变异检测方法和装置
CN106599614A (zh) * 2016-11-07 2017-04-26 为朔医学数据科技(北京)有限公司 一种高通量测序数据处理及分析流程控制方法及系统
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KEVIN VERVIER 等: "Large-scale machine learning for metagenomics sequence classification", 《BIOINFORMATICS》 *
刘圣 等: "下一代测序数据的质量控制研究", 《军事医学》 *
毛成光: "两核昔酸实时合成测序信息分析", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Also Published As

Publication number Publication date
CN107451428B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
Dueholm et al. Generation of comprehensive ecosystem-specific reference databases with species-level resolution by high-throughput full-length 16S rRNA gene sequencing and automated taxonomy assignment (AutoTax)
Sha et al. Effect of low-expression gene filtering on detection of differentially expressed genes in RNA-seq data
CN107403074B (zh) 一种突变蛋白的检测方法及装置
US10127351B2 (en) Accurate and fast mapping of reads to genome
CN104657628A (zh) 基于Proton的转录组测序数据的比较分析方法和系统
CN102682224B (zh) 检测拷贝数变异的方法和装置
CN103993074B (zh) 水稻黄单胞杆菌的分子标记及其应用
CN104630206A (zh) 转录组文库的构建方法
CN107267646A (zh) 一种基于下一代测序的多基因融合检测方法
CN114121160B (zh) 一种检测样本中宏病毒组的方法和系统
Sánchez‐Vallet et al. Nature's genetic screens: using genome‐wide association studies for effector discovery
CN105950707A (zh) 一种确定核酸序列的方法及系统
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN107451428A (zh) 下一代测序中末端短串联序列的优化处理方法
CN105063210A (zh) 一种环状rna的鉴定方法
CN103184275A (zh) 一种水稻基因组基因标识的新方法
Warwick-Dugdale et al. Long-read powered viral metagenomics in the oligotrophic Sargasso Sea
CN101024851A (zh) 基于梯状回收的基因拷贝数鉴定和各拷贝序列获得的方法
CN113311168A (zh) 金黄色葡萄球菌耐药表型蛋白质指纹图谱库的构建方法
Gülay et al. An improved method to set significance thresholds for β diversity testing in microbial community comparisons
CN113971986B (zh) 一种通过序列相似性排查测序样本交叉污染的方法
CN115410649B (zh) 一种同时检测甲基化和突变信息的方法及装置
CN113699222A (zh) 一种基于dna甲基化位点基因型的全基因组分型方法
CN117935927A (zh) 一种黏连蛋白介导的细胞特异性染色质环的预测方法
CN110660452B (zh) 检测细菌基因水平转移dna片段及转移供体菌株的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Optimization of terminal short tandem sequences in next generation sequencing

Effective date of registration: 20211214

Granted publication date: 20200522

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Panyu branch

Pledgor: GUANGDONG ARDENT BIOMED TECHNOLOGY CO.,LTD.

Registration number: Y2021980014989

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20200522

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Panyu branch

Pledgor: GUANGDONG ARDENT BIOMED TECHNOLOGY CO.,LTD.

Registration number: Y2021980014989

PC01 Cancellation of the registration of the contract for pledge of patent right