CN113178231B - 一种基于二代测序技术的consensus序列统计分析、可视化方法 - Google Patents

一种基于二代测序技术的consensus序列统计分析、可视化方法 Download PDF

Info

Publication number
CN113178231B
CN113178231B CN202110456786.8A CN202110456786A CN113178231B CN 113178231 B CN113178231 B CN 113178231B CN 202110456786 A CN202110456786 A CN 202110456786A CN 113178231 B CN113178231 B CN 113178231B
Authority
CN
China
Prior art keywords
sequence
gaps
base
degenerate
bases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110456786.8A
Other languages
English (en)
Other versions
CN113178231A (zh
Inventor
司昊睿
周鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Virology of CAS
Original Assignee
Wuhan Institute of Virology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Virology of CAS filed Critical Wuhan Institute of Virology of CAS
Priority to CN202110456786.8A priority Critical patent/CN113178231B/zh
Publication of CN113178231A publication Critical patent/CN113178231A/zh
Application granted granted Critical
Publication of CN113178231B publication Critical patent/CN113178231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于二代测序技术的consensus序列统计分析、可视化方法,通过对consensus序列中的gaps及简并碱基的位置、数量、大小和分散程度进行自动化统计分析,确定每条序列中的gaps及简并碱基的具体信息,从而能更高效的剔除这些gaps和简并碱基的片段,完成整个基因组的测序工作。

Description

一种基于二代测序技术的consensus序列统计分析、可视化 方法
技术领域
本发明属于二代测序技术领域,具体涉及一种基于二代测序技术的consensus序列统计分析、可视化方法。
背景技术
长期以来,测序技术一直是分子生物学相关研究中最常用的技术手段之一。基于测序技术的人类基因组计划、转录组分析、微生物基因组重测序,单核苷酸多态性等方面的分析也同时促进了生物学其他领域研究的进步和发展。DNA测序技术的发展为人类探索自身和其他生命的奥秘提供了可能,同时,基因组学时代的来临对DNA测序技术也提出了更高的要求,推动了DNA测序技术的不断进步。目前科学研究已经进入高通量测序时代,从单一、局部的基因或基因片段的研究转变成了对整个基因组的研究,在基因组从头测序和转录组测序中应用较广,继第一代测序技术之后,随着第二代、第三代测序技术的兴起和发展,测序技术逐步朝着高通量、低成本、高安全性和商业化的方向发展。近几年来,尤其是以单分子实时测序为代表的第三代测序技术开始进入人们的视野,该测序技术跨越了第一代、第二代较短读长而直接对DNA单个分子进行测序的新一代测序平台应用日益广泛。
通过结合二代测序技术及下游生信分析来获得微生物尤其是病毒的全长基因组序列已成为新物种发现,进化分析,溯源研究,流行病学调查等领域的常用方法。但是在低含量样品中的微生物尤其是病毒全长基因组获取时,常常伴随有少量或者没有二代测序reads覆盖的区域(gaps)产生,造成无法直接通过二代测序及下游生信分析获得全长基因组,需要结合一代Sanger测序的方法来验证和补充这些区域。当进行批量生物样品的第二代测序分析时,会产生大量的consensus序列,同时伴随着大量的gaps和简并碱基,给后续一代测序的引物设计步骤带来繁重的工作。
发明内容
针对上述现有技术中存在的问题,本发明的目的是提供一种基于二代测序技术的consensus序列统计分析、可视化方法,解决当前进行批量生物样品的第二代测序分析时,会产生大量的consensus序列,同时伴随着大量的gaps和简并碱基,给后续一代测序的引物设计步骤带来繁重的工作等问题。
本发明的一个目的在于提供一种基于二代测序技术的consensus序列统计分析方法。
所述统计分析方法,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度;
S4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析。
通过对二代测序分析过程中产生的consensus序列中的gaps及简并碱基的位置、数量、大小和分散程度进行自动化统计分析,确定每条序列中的gaps及简并碱基的具体信息,从而能更快、更高效的剔除这些gaps和简并碱基的片段,完成整个基因组的测序工作。
进一步地,步骤S1中,所述consensus序列的文本格式为fasta格式。
进一步地,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
本发明的另外一个目的在于提供一种基于二代测序技术的consensus序列可视化方法。
所述可视化方法,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、设置两个初始变量,用于对所述gaps和/或简并碱基的位置以及所述每条序列的位置进行标定;
S4、将所述标定的gaps和/或简并碱基的位置信息以及每条序列的位置信息载入ggplot2画图包,进行可视化分析结果的展示。
进一步地,步骤S1中,所述consensus序列的文本格式为fasta格式。
进一步地,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
与现有技术相比,本发明具有如下优点:
1)通过对二代测序分析过程中产生的consensus序列中的gaps及简并碱基的位置、数量、大小和分散程度进行自动化统计分析,确定每条序列中的gaps及简并碱基的具体信息,从而能更快、更高效的剔除这些gaps和简并碱基的片段,完成整个基因组的测序工作;
2)将得到的consensus序列中的gaps及简并碱基的位置、数量、大小进行可视化展示,便于后续补gaps时,节省大量人力和时间来进行引物设计工作。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明consensus序列统计分析、可视化方法原理图;
图2为本发明实施例1中consensus序列统计分析结果图;
图3为本发明实施例1中consensus序列进一步统计分析结果图;
图4为本发明实施例2中consensus序列可视化结果图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于二代测序技术的consensus序列统计分析、可视化方法,具体原理图见图1。
实施例1一种基于二代测序技术的consensus序列统计分析方法
首先设计一个gaps_degenerate_bases_statistics.sh脚本,之后按照如下步骤进行consensus序列统计分析:
S1、准备由二代测序数据分析产生的fasta格式的consensus序列文件;
S2、gaps_degenerate_bases_statistics.sh脚本对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
进一步地,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,都赋值为“0”作为初始值或者不连续判定值,随后脚本通过将序列名字和序列内容分别进行提取,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断,对于是gaps和简并碱基的位置,进行位置统计和碱基提取,同时通过对预先设置的两个gaps和简并碱基位置连续性判定变量是否为“0”进行判断,来确定gaps和简并碱基的位置是否连续,如果为“0”则,将其修改为“1”,表示从该位置起出现了gaps或者简并碱基,如果不为“0”,则不对变量的值进行修改。对于不是gaps和简并碱基的位置同样会用if函数进行位置连续性判定变量是否为“0”的判断,如果为“0”,则不对变量值进行修改,如果不为零,则将其赋值为“0”,表示位置连续性在此中断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基;
S3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度,结果见图2;
图2为gaps_degenerate_bases_statistics_outcome.txt结果文件,从左到右每列依次代表“所分析的consensus序列名”,“gap或者简并碱基位置”,“gap或者简并碱基类型”。
S4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析,结果见图3。
图3为gaps_degenerate_bases_statistics_outcome.tsv结果文件(可用excel软件打开),每行从左到右依次表示的是“序列名”,“consensus序列长度”,“未确定的碱基个数”,“consensus序列的覆盖度”,“gaps位置个数”,“简并碱基位置个数”,“未确定的碱基的标准差(用于表示gaps和简并碱基的分散程度,越小越集中,越容易设计引物补gaps)”。
实施例2一种基于二代测序技术的consensus序列可视化方法
设计gaps_degenerate_bases_display.sh,gaps_degenerate_bases_display.R脚本,之后按照如下步骤进行consensus序列可视化展示:
S1、准备由二代测序数据分析产生的fasta格式的consensus序列文件;
S2、gaps_degenerate_bases_display.sh脚本对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
进一步地,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并都赋值为“0”作为初始值或者不连续判定值,随后脚本对序列名字和序列内容分别进行提取,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数分别对序列中每个位置的碱基进行提取并进行是否为gaps或者简并碱基的判断,对于判断为“是”的碱基,进行位置统计和碱基提取,同时通过对gaps和简并碱基位置连续判性定变量是否为“0”进行判断,来确定gaps和简并碱基的位置是否连续,如果为“0”则,将其修改为“1”,表示从该位置起出现了gaps或者简并碱基,如果不为“0”,则不对变量的值进行修改;对于不是gaps和简并碱基的位置,同样会用if函数进行gaps和简并碱基位置连续判性定变量是否为“0”的判断,如果为“0”,则不对变量值进行修改,如果不为零,则将其赋值为“0”,表示位置连续性在此中断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
S3、设置两个初始变量,用于对所述gaps和/或简并碱基的位置以及所述每条序列的位置进行标定;
S4、利用gaps_degenerate_bases_display.R脚本,将所述标定的gaps和/或简并碱基的位置信息以及每条序列的位置信息载入ggplot2画图包,进行可视化分析结果的展示,结果见图4。
图4为gaps_degenerate_bases_display.R脚本运行后的可视化结果,每一列表示一条consensus序列,黑色部分表示gaps区域,浅灰色部分表示简并碱基区域,图中最下面的黑线表示的是序列位置坐标;另外,每个gaps和简并碱基的位置和数量也表示在了黑色或浅灰色区域的中心,可用pdf编辑器打开放大查看。
以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于二代测序技术的consensus序列统计分析方法,其特征在于,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度;
S4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析;
步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
2.如权利要求1所述的基于二代测序技术的consensus序列统计分析方法,其特征在于,步骤S1中,所述consensus序列的文本格式为fasta格式。
3.一种基于二代测序技术的consensus序列可视化方法,其特征在于,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、设置两个初始变量,用于对所述gaps和/或简并碱基的位置以及所述每条序列的位置进行标定;
S4、将所述标定的gaps和/或简并碱基的位置信息以及每条序列的位置信息载入ggplot2画图包,进行可视化分析结果的展示;
步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
4.如权利要求3所述的基于二代测序技术的consensus序列可视化方法,其特征在于,步骤S1中,所述consensus序列的文本格式为fasta格式。
CN202110456786.8A 2021-04-26 2021-04-26 一种基于二代测序技术的consensus序列统计分析、可视化方法 Active CN113178231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110456786.8A CN113178231B (zh) 2021-04-26 2021-04-26 一种基于二代测序技术的consensus序列统计分析、可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110456786.8A CN113178231B (zh) 2021-04-26 2021-04-26 一种基于二代测序技术的consensus序列统计分析、可视化方法

Publications (2)

Publication Number Publication Date
CN113178231A CN113178231A (zh) 2021-07-27
CN113178231B true CN113178231B (zh) 2024-01-05

Family

ID=76926355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110456786.8A Active CN113178231B (zh) 2021-04-26 2021-04-26 一种基于二代测序技术的consensus序列统计分析、可视化方法

Country Status (1)

Country Link
CN (1) CN113178231B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
WO2016090585A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 测序数据处理装置和方法
CN107665290A (zh) * 2016-07-27 2018-02-06 华为技术有限公司 一种数据处理的方法和装置
KR20180083706A (ko) * 2017-01-13 2018-07-23 주식회사 클리노믹스 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법
CN112102883A (zh) * 2020-08-20 2020-12-18 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
WO2016090585A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 测序数据处理装置和方法
CN107665290A (zh) * 2016-07-27 2018-02-06 华为技术有限公司 一种数据处理的方法和装置
KR20180083706A (ko) * 2017-01-13 2018-07-23 주식회사 클리노믹스 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법
CN112102883A (zh) * 2020-08-20 2020-12-18 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EMBOSS软件包序列分析程序应用实例;罗静初;《生物信息学》;第19卷(第1期);第1-25页 *
Statistical learning and data mining in biological databases;Hyunjae Ryan Kim等;《Stevens Institute of Technology》;第84页 *

Also Published As

Publication number Publication date
CN113178231A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
Liu et al. Hi-TOM: a platform for high-throughput tracking of mutations induced by CRISPR/Cas systems
CN109767810B (zh) 高通量测序数据分析方法及装置
CN107944228B (zh) 一种基因测序变异位点的可视化方法
US20140129201A1 (en) Validation of genetic tests
CN108197434B (zh) 去除宏基因组测序数据中人源基因序列的方法
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
US20180018422A1 (en) Systems and methods for nucleic acid-based identification
Olson et al. Variant calling and benchmarking in an era of complete human genome sequences
Sun et al. Multi-InDel analysis for ancestry inference of sub-populations in China
Gleason et al. Machine learning predicts translation initiation sites in neurologic diseases with nucleotide repeat expansions
CN113066532A (zh) 基于高通量测序技术的宿主中病毒来源sRNA数据分析方法
CN115458052A (zh) 基于一代测序的基因突变分析方法、设备和存储介质
CN109524060B (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
Beier et al. Panakeia-a universal tool for bacterial pangenome analysis
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
CN113178231B (zh) 一种基于二代测序技术的consensus序列统计分析、可视化方法
US7912652B2 (en) System and method for mutation detection and identification using mixed-base frequencies
CN113981070B (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
Huang et al. CRISPR-detector: fast and accurate detection, visualization, and annotation of genome-wide mutations induced by genome editing events
D’Agaro New advances in NGS technologies
CN114822697A (zh) 一种利用宏基因组分析溯源土壤耐药基因污染的方法
Deo et al. Oral microbiome research–A Beginner's glossary
CN114420205A (zh) 基于二代测序的高通量微单倍型检测分型系统和方法
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant