CN111445955A - 新型冠状病毒变异分析方法及应用 - Google Patents

新型冠状病毒变异分析方法及应用 Download PDF

Info

Publication number
CN111445955A
CN111445955A CN202010280808.5A CN202010280808A CN111445955A CN 111445955 A CN111445955 A CN 111445955A CN 202010280808 A CN202010280808 A CN 202010280808A CN 111445955 A CN111445955 A CN 111445955A
Authority
CN
China
Prior art keywords
site
variation
mutation
gene
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010280808.5A
Other languages
English (en)
Other versions
CN111445955B (zh
Inventor
许腾
陈文景
曾伟奇
刘足
李永军
王小锐
苏杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Vision Gene Technology Co ltd
Guangzhou Weiyuan Medical Equipment Co ltd
Guangzhou Weiyuan Medical Laboratory Co ltd
Shenzhen Weiyuan Medical Technology Co ltd
Original Assignee
Guangzhou Weiyuan Medical Equipment Co Ltd
Guangzhou Weiyuan Medical Laboratory Co Ltd
Shenzhen Weiyuan Medical Technology Co Ltd
Guangzhou Vision Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weiyuan Medical Equipment Co Ltd, Guangzhou Weiyuan Medical Laboratory Co Ltd, Shenzhen Weiyuan Medical Technology Co Ltd, Guangzhou Vision Gene Technology Co ltd filed Critical Guangzhou Weiyuan Medical Equipment Co Ltd
Priority to CN202010280808.5A priority Critical patent/CN111445955B/zh
Publication of CN111445955A publication Critical patent/CN111445955A/zh
Application granted granted Critical
Publication of CN111445955B publication Critical patent/CN111445955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种新型冠状病毒变异分析方法及应用,属于基因测序分析技术领域。该方法包括数据获取、数据过滤、数据比对、变异检测、坐标分析、坐标校正和变异注释步骤。该方法不仅可以对纯病毒培养物测序数据进行变异检测,还可以对宏基因组测序数据进行变异检测,使用范围更广。同时还能准确对核糖体移码进行注释,以及对联合突变进行准确注释,提高了变异检测的准确率。此外还可以对病毒变异进行动态监测。

Description

新型冠状病毒变异分析方法及应用
技术领域
本发明涉及基因测序分析技术领域,特别是涉及一种新型冠状病毒变异分析方法及应用。
背景技术
新型冠状病毒(2019-nCoV)是一种单股正链RNA病毒,容易发生变异。在临床上,新冠病毒感染者的症状差异较大,从无症状到危重症都有可能发生。除了个体因素的差异外,病毒变异也可能是导致感染患者症状差异大的重要因素。
研究表明,新型冠状病毒突变速率约为每月2~4个突变,目前在已知的株系发现了超过25个突变的变异株。病毒的变异会显著影响其传播能力和致病能力,甚至出现耐药问题而加大治疗难度。所以对病毒变异的监测极为重要,可以为防控疫情和治疗患者提供科学依据,以及为疫苗开发和药物靶点筛选等科学研究提供支持。
然而,目前尚未有针对新型冠状病毒的变异检测方法,若直接使用第三方通用软件会造成变异检测不准确、注释错误等问题。病毒的变异是一个动态的过程,及时地监测病毒变异是非常重要的,所以需要从患者采集样本后直接测序,这样才能真正监测到病毒在患者身上发生的变异。如果从患者采集样本后经过分离培养再测序进行变异检测,此时检测的变异可能并不是患者当时携带的病毒的变异信息了,因为在培养过程中病毒也会发生变异。
从患者身上采集样本后直接测序需要用到宏基因组学的方法,但目前的第三方通用变异检测方法是不支持宏基因组学测序的,直接使用会带来很多检测错误。
综上所述,目前缺乏针对新型冠状病毒开发的变异检测软件,第三方通用软件无法直接处理宏基因组测序数据,变异检测错误率高。
发明内容
基于此,有必要针对上述问题,提供一种新型冠状病毒变异分析方法,采用该检测分析系统对2019-nCoV进行检测,不仅支持纯培养病毒测序,还能够支持宏基因组学测序、支持糖体移码注释,且变异检测准确率高,同时还可监测同一患者体内病毒的动态变异。
一种新型冠状病毒变异分析方法,包括以下步骤:
数据获取:获取高通量测序得到的基因测序数据;
数据过滤:将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对:将上述过滤后序列与2019-nCoV参考基因组进行比对,并将比对上序列进行排序,生成位点一致性文件;
变异检测:对上述位点一致性文件进行分析,分别识别并统计snp、insertion、deletion 三种变异类型,并统计每个位点的基因组坐标P、总覆盖深度D、snp深度Ds、insertion深度 Di、deletion深度Dd,用Dv表示Ds或Di或Dd,当Dv≥阈值N时,则判定该变异为可信的,该位点为变异位点,其中N为自然数;
坐标分析:分析变异位点坐标,当变异位点的基因组坐标P满足G_start≤P≤G_end,则该变异位点所在基因为G,其中G_start表示基因G的起始位点,G_end表示基因G的终止位点,G表示2019-nCoV的任意一个基因;
坐标校正:根据核糖体移码信息对CDS原始坐标Pc’进行校正,先从注释数据库中读取变异位点所在基因的核糖体移码信息,当该基因被标记为有核糖体移码,发生移码位点的基因组坐标记为Pr,移码数记为K,则当Pc’≥Pr时,CDS坐标Pc更正为Pc=Pc’+K,当Pc< Pr时,CDS坐标无需更正,Pc=Pc’;
变异注释:对上述变异位点进行注释,所述注释内容包括:变异位点所在基因、CDS改变、密码子改变、氨基酸改变、蛋白质改变和变异类型。
上述新型冠状病毒变异分析方法,针对新型冠状病毒(2019-nCoV)的特点,如存在核糖体移码等问题,本方法通过对宿主序列的过滤、坐标的校正、精准的注释等手段,不仅可以对纯病毒培养物测序数据进行变异检测,还可以对宏基因组测序数据进行变异检测。同时还能准确对核糖体移码进行注释,以及对联合突变进行准确注释,提高了变异检测的准确率。
可以理解的,所述基因G包括:orf1ab基因、S基因、ORF3a基因、E基因、M基因、 ORF6基因、ORF7a基因、ORF7b基因、ORF8基因、N基因和ORF10基因等。
可以理解的,所述2019-nCoV参考基因组可提前从NCBI网站下载新型冠状病毒参考基因组和及其gtf格式的注释文件,并使用bwa index构建新型冠状病毒参考基因组索引文件,备用。
在其中一个实施例中,所述变异注释步骤中,所述变异位点所在基因根据变异位点的基因组坐标P注释;
所述CDS改变注释为G:c.PcRef>Alt,其中Ref表示参考碱基,Alt表示变异碱基,Pc表示CDS坐标;
所述密码子改变注释按照以下方法进行:采用mod求余函数分析CDS坐标Pc,按照mod (Pc,3)进行计算,若mod(Pc,3)=0,则原始密码子为突变位点参考碱基及其前两位碱基,突变密码子为突变位点突变碱基及其前两位碱基;
若mod(Pc,3)=1,则原始密码子为突变位点参考碱基及其后两位碱基,突变密码子为突变位点突变碱基及其后两位碱基;
若mod(Pc,3)=2,则原始密码子为突变位点参考碱基及其前一位和后一位碱基,突变密码子为突变位点突变碱基及其前一位后一位碱基;
所述氨基酸改变注释根据密码子改变注释进行;
所述蛋白质改变注释为G:p.RefPPpAltP,其中RefP表示参考氨基酸,AltP表示突变氨基酸,Pp表示氨基酸坐标;
所述变异类型的注释按照以下规则:对于snp类型的变异,若突变后氨基酸未发生改变则注释为synonymous_variant(同义突变),发生改变则注释为missense_variant(错义突变);
对于insertion类型的变异,若CDS移码框发生改变则注释为frameshift_variant(移码框改变),未发生改变则注释为inframe_insertion(移码框未改变的插入);
对于deletion变异,若CDS移码框发生改变则注释为frameshift_variant(移码框改变),未发生改变则注释为inframe_deletion(移码框未改变的缺失)。
在其中一个实施例中,所述氨基酸改变注释中,还对密码子内联合突变进行注释,具体为:
若mod(Pc,3)=1,则判断Pc+1、Pc+2是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点,例如:若Pc+1发生突变,则突变密码子第二位碱基替换为Pc+1位的突变碱基,若Pc+2发生突变,则突变密码子第三位碱基替换为Pc+2位的突变碱基;
若mod(Pc,3)=0,则判断Pc-1、Pc-2是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点,例如:若Pc-1发生突变,则突变密码子第二位碱基替换为Pc-1位的突变碱基,若Pc-2发生突变,则突变密码子第一位碱基替换为Pc-2位的突变碱基;
若mod(Pc,3)=2,则判断Pc-1、Pc+1是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点,例如:若Pc-1发生突变,则突变密码子第一位碱基替换为Pc-1位的突变碱基,若Pc+1发生突变,则突变密码子第三位碱基替换为Pc+1位的突变碱基。
在其中一个实施例中,所述变异检测模块中,所述snp的识别方法为:当出现位点单个字母的变异,则识别为snp;所述insertion的识别方法为:当出现位点至少一个字母的插入,则识别为insertion;所述deletion的识别方法为:当出现位点至少一个字母的缺失,则识别为 deletion;所述insertion或deletion中插入或缺失的字母数≤20。
在其中一个实施例中,所述宿主序列过滤为,将序列与预先建立的宿主数据库进行比对,过滤比对上宿主序列的数据;
所述注释数据库通过以下方法建立:获取2019-nCoV参考基因组序列信息及注释文件,提取注释文件的基因坐标和CDS(编码区)区域坐标及核糖体移码信息,构建注释数据库。
可以理解的,如样本为人类样本,可从NCBI网站下载人类参考基因组(如hg38.p13)作为宿主库,使用bwa index构建宿主库索引文件,即得宿主数据库。而宿主库可根据样本的采集来源进行更换调整,如样本是从小鼠、猴等宿主采集,则下载相应的小鼠或猴等的参考基因组构建宿主数据库。
在其中一个实施例中,所述N≥3。可以理解的,该阈值N可根据测序深度或其它分析要求进行调整,目前认为,将阈值N设为3,具有较好的准确率。
在其中一个实施例中,所述变异检测步骤中,按照以下公式计算突变的变异率R,R=Dv/D。
在其中一个实施例中,该新型冠状病毒变异分析方法在变异注释步骤之后,还包括病毒变异动态监测步骤,所述病毒变异动态监测步骤为:
1)对同一生物体连续采样,获得S个样本,S表示采样的个数,用Si表示第i个采样的样本,并记录相应的采样时间Ti,然后进行测序;
2)对每个样本进行上述分析,得到每个变异检测结果;
3)根据采样时间对检测结果进行排序,绘制变异信息的时间变化曲线,所述变异信息包括变异的新增、变异的减少和变异率中的至少一个。
上述新型冠状病毒变异分析方法,还可以对病毒变异进行动态监测,得到病毒变异动态监测结果。
本发明还公开了上述的新型冠状病毒变异分析方法在用于制备2019-nCoV诊断试剂和/ 或设备中的应用。
本发明还公开了一种新型冠状病毒变异分析系统,包括:
数据获取模块:用于获取高通量测序得到的基因测序数据;
数据过滤模块:用于将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对模块:用于将上述过滤后序列与2019-nCoV参考基因组进行比对,并将比对上序列进行排序,生成位点一致性文件;
变异检测模块:用于对上述位点一致性文件进行分析,分别识别并统计snp、insertion、 deletion三种变异类型,并统计每个位点的基因组坐标P、总覆盖深度D、snp深度Ds、insertion 深度Di、deletion深度Dd,用Dv表示Ds或Di或Dd,当Dv≥阈值N时,则判定该变异为可信的,该位点为变异位点,其中N为自然数;
坐标分析模块:用于分析变异位点坐标,当变异位点的基因组坐标P满足G_start≤P≤ G_end,则该变异位点所在基因为G,其中G_start表示基因G的起始位点,G_end表示基因 G的终止位点,G表示2019-nCoV的任意一个基因;
坐标校正模块:用于根据核糖体移码信息对CDS原始坐标Pc’进行校正,先从注释数据库中读取变异位点所在基因的核糖体移码信息,当该基因被标记为有核糖体移码,发生移码位点的基因组坐标记为Pr,移码数记为K,则当Pc’≥Pr时,CDS坐标Pc更正为Pc=Pc’+K,当Pc<Pr时,CDS坐标无需更正,Pc=Pc’;
变异注释模块:用于对上述变异位点进行注释;所述注释内容包括:变异位点所在基因、 CDS改变、密码子改变、氨基酸改变、蛋白质改变和变异类型。
与现有技术相比,本发明具有以下有益效果:
本发明的一种新型冠状病毒变异分析方法,不仅可以对纯病毒培养物测序数据进行变异检测,还可以对宏基因组测序数据进行变异检测,使用范围更广。同时还能准确对核糖体移码进行注释,以及对联合突变进行准确注释,提高了变异检测的准确率。此外还可以对病毒变异进行动态监测。
附图说明
图1为实施例1中新型冠状病毒变异分析流程示意图;
图2为实施例3中新型冠状病毒变异动态监测图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
一种新型冠状病毒(2019-nCoV)变异分析方法,包括以下步骤:
一、数据库构建
1、宿主数据库构建
在NCBI网站(https://ftp.ncbi.nlm.nih.gov/genomes)下载人类参考基因组(登录号: GCF_000001405.39),并使用bwa index软件构建索引文件,得到宿主数据库。
2、新型冠状病毒参考基因组数据库构建
在NCBI网站下载新型冠状病毒(2019-nCoV)参考基因组,登录号为GCF_009858895.2,同时下载相应的gtf格式注释文件。使用bwa index构建新型冠状病毒参考基因组数据库。
此新型冠状病毒参考基因组种基因坐标如下表所示。
表1.新型冠状病毒基因坐标信息
Figure RE-GDA0002520532590000051
提取gtf文件基因坐标、编码区(CDS)区域坐标、核糖体移码信息构建变异注释数据库,如下表所示。
表2.新型冠状病毒注释数据库
Figure RE-GDA0002520532590000061
可以理解的,当选取的参考基因组改变时,相应的基因坐标也会随着改变,需根据具体选取参考基因组调整。
二、新型冠状病毒变异分析
本病毒变异检测方法支持纯病毒培养物测序数据,也支持宏基因组测序数据,原始的测序FASTQ文件作为本发明分析方法的输入,最后的检测结果,包括相关图表,作为输出,分析流程见图1。
1、数据获取
从一位患者采集了咽喉拭子样本,进行测序后得到FASTQ文件。
2、数据过滤
2.1低质量序列过滤。
原始测序FASTQ文件序列数为12,141,564,使用fastp软件,按照默认参数进行过滤,最后得到10,956,300条干净的序列用于后续分析。
2.2宿主序列过滤。
使用bwa软件mem模块将上述干净序列与已构建好的宿主数据库比对,得到比对结果文件,使用samtools view-f 4处理比对结果文件,过滤比对上宿主的序列,提取未比对上序列,得到非宿主序列10,497,030条。
3、数据比对
使用bwa软件mem模块将上述过滤后的非宿主序列与2019-nCoV参考基因组进行比对,得到比对结果文件。
使用samtools view-F 4-h命令提取比对上新型冠状病毒的序列,使用samtoolssort命令对比对结果文件进行排序,使用samtools index命令对排序文件构建索引文件,使用samtools mpileup命令处理排序文件,生成位点一致性文件。
位点一致性文件格式是标准的Pileup格式,如下表所示。
表3.位点一致性文件格式示例
Figure RE-GDA0002520532590000071
注:上述“.”表示一条序列正向比对上该位置的碱基与参考碱基一致,若为“,”则是反向比对一致;上述“^”表示每条序列的开始,“^”后面跟的符号“]”表示其ASCII十进制值减去33就是这条序列的比对质量值;上述碱基质量中,每个字符与一致性碱基对应,字符的 ASCII十进制值减去33就是对应碱基的质量值。
4、变异检测
对上述一致性文件进行变异位点的识别和统计。
按照如下方法检测snp(点突变)、insertion(插入)、deletion(缺失)等所有可能存在的变异类型。
1)每一个位点单个字母的变异,如大写字母A、T、C、G或小写字符a、t、c、g的变异识别为snp;
2)符合-[ATCGatcg]n规则的识别为deletion,其中,“-”是deletion的标识,“[ATCGatcg]”表示中括号里面的任意一个字符,“n”表示碱基的个数,即deletion的长度。
3)符合+[ATCGatcg]n规则的识别为insertion,其中“+”是insertion的标识,“[ATCGatcg]”表示中括号里面的任意一个字符,“n”表示碱基的个数,即insertion的长度。
4)分别统计每个位点的基因组坐标P、总覆盖深度D、snp深度Ds、insertion深度Di、 deletion深度Dd,用Dv表示Ds或Di或Dd,当Dv≥N时,则判定该突变是可信的,其中N 为自然数,本实施例中,N≥3,同时计算该突变的变异率R=Dv/D。
最后得到位点变异结果,如下表所示。
表4.新型冠状病毒变异位点检测结果
Figure RE-GDA0002520532590000072
Figure RE-GDA0002520532590000081
注:上述基因组位点11082的参考碱基为TG,变异后碱基为T,或计为缺失了G,即为(-G)。
共检出该样本中感染的新型冠状病毒存在11个变异位点,其中10个为snp变异,1个为 deletion变异。变异位点深度在14×~121×之间,变异率在0.21~1.00之间。9个变异为纯合突变(突变率为0.99-1),2个为杂合突变,杂合突变说明变异可能还在患者体内变异中。
5、坐标分析
分析上述变异位点坐标,当变异位点的基因组坐标P满足G_start≤P≤G_end,则该变异位点所在基因为G,其中G_start表示基因G的起始位点,G_end表示基因G的终止位点,G 表示2019-nCoV的任意一个基因。
6、坐标校正
根据核糖体移码信息对CDS原始坐标Pc’进行校正,先从注释数据库中读取变异位点所在基因的核糖体移码信息,当该基因被标记为有核糖体移码,发生移码位点的基因组坐标记为Pr,移码数记为K,则当Pc’≥Pr时,CDS坐标Pc更正为Pc=Pc’+K,当Pc<Pr时, CDS坐标无需更正,Pc=Pc’。
7、变异注释
对上述变异位点进行注释;所述注释内容包括:变异位点所在基因、CDS改变、密码子改变、氨基酸改变、蛋白质改变和变异类型等。
具体注释方法如下:
1)变异位点所在基因。
根据变异位点的基因组坐标P注释。
2)CDS改变。
注释为G:c.PcRef>Alt,其中Ref表示参考碱基,Alt表示变异碱基;CDS坐标Pc根据坐标校正后得到。
例如S:c.358G>A,表示为S基因的CDS区域的第358位碱基G突变为了A。
3)密码子改变。
注释按照以下方法进行:
采用mod求余函数分析CDS坐标Pc,按照mod(Pc,3)进行计算,若mod(Pc,3)=0,则原始密码子为突变位点参考碱基及其前两位碱基,突变密码子为突变位点突变碱基及其前两位碱基;
若mod(Pc,3)=1,则原始密码子为突变位点参考碱基及其后两位碱基,突变密码子为突变位点突变碱基及其后两位碱基;
若mod(Pc,3)=2原始密码子为突变位点参考碱基及其前一位和后一位碱基,突变密码子为突变位点突变碱基及其前一位后一位碱基。
并且还需对密码子内联合突变进行注释,具体为:
若mod(Pc,3)=1,则判断Pc+1、Pc+2是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点,例如:若Pc+1发生突变,则突变密码子第二位碱基替换为Pc+1位的突变碱基,若Pc+2发生突变,则突变密码子第三位碱基替换为Pc+2位的突变碱基;
若mod(Pc,3)=0,则判断Pc-1、Pc-2是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点,例如:若Pc-1发生突变,则突变密码子第二位碱基替换为Pc-1位的突变碱基,若Pc-2发生突变,则突变密码子第一位碱基替换为Pc-2位的突变碱基;
若mod(Pc,3)=2,则判断Pc-1、Pc+1是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点,例如:若Pc-1发生突变,则突变密码子第一位碱基替换为Pc-1位的突变碱基,若Pc+1发生突变,则突变密码子第三位碱基替换为Pc+1位的突变碱基。
4)氨基酸改变。
根据密码子改变注释为相应匹配的氨基酸。
5)蛋白质改变。
注释为G:p.RefPPpAltP,其中RefP表示参考氨基酸,AltP表示突变氨基酸,Pp表示氨基 酸坐标,该氨基酸坐标
Figure RE-GDA0002538935550000091
Figure RE-GDA0002538935550000092
符号表示向上取整。
例如,S:p.V120I表示S基因的氨基酸序列第120位由V突变成了I。
6)变异类型。
注释按照以下规则:
对于snp类型的变异,若突变后氨基酸未发生改变则注释为synonymous_variant(同义突变),发生改变则注释为missense_variant(错义突变);
对于insertion类型的变异,若CDS移码框发生改变则注释为frameshift_variant(移码框改变),未发生改变则注释为inframe_insertion(移码框未改变的插入);
对于deletion变异,若CDS移码框发生改变则注释为frameshift_variant(移码框改变),未发生改变则注释为inframe_deletion(移码框未改变的缺失)。
按照上述方法进行注释,得到下表所示注释结果。
表5.新型冠状病毒变异位点注释结果
Figure RE-GDA0002520532590000092
Figure RE-GDA0002520532590000101
上述结果中,11个变异中7个发生在orf1ab基因,3个发生在N基因,1个发生在3'UTR 区域。7个变异的变异类型为missense_variant,2个为synonymous_variant,1个为frameshift_variant,1个为3'UTR_variant。
实施例2
新型冠状病毒变异检测准确性评估。
GATK和snpEff软件的组合是微生物变异检测和注释领域最常用、准确率高的方法,被业界称为经典方法。
为了评估本发明方法检测新型冠状病毒变异的准确率,对已知变异信息的病毒进行分析是最合理的,因此,本实施例将通过对比经典方法和本发明方法的变异检测结果来评估本发明方法的准确性。
使用上述经典方法和本发明方法分别对同一份已知病毒变异信息的测序数据进行分析。
该病毒的变异信息见下表6,共有8个变异位点,均为snp的变异,其中N基因有3个连续位点的突变,其CDS区域的第608和609位突变属于同一密码子,即密码子内的联合突变。orf1ab基因2个变异位点,其中1个位点发生-1核糖体移码。
表6.用于评价的样本已知的新型冠状病毒变异信息
Figure RE-GDA0002520532590000102
两种方法最终检测结果见下表7。
表7.经典方法和本发明方法病毒变异检出和注释结果对比
Figure RE-GDA0002520532590000111
上述结果表示,经典方法检测出7个变异位点,漏检了1个位点。检出的7个位点中有 1个位点CDS改变注释错误,原因为无法识别核糖体移码;3个位点蛋白质序列改变注释错误,1个为无法识别核糖体移码,2个为无法识别密码子内的联合突变。
本发明方法检出了所有8个变异位点,CDS改变和蛋白质序列改变的注释结果均全部正确。
综上,经典方法变异位点检出率为87.5%(7/8),CDS改变注释准确率为75.0%(6/8),蛋白质序列改变注释准确率为50.0%(4/8),本发明方法经典方法变异位点检出率为100%(8/8), CDS改变注释准确率为100%(8/8),蛋白质序列改变注释准确率为100%(8/8)。结果表示,本发明方法变异检测准确率显著优于经典方法,且在已检测的样本中准确率达100%。
实施例3
新型冠状病毒变异动态监测。
本实施例将通过模拟数据来说明本发明在新型冠状病毒变异动态监测的应用。
新型冠状病毒感染的患者病程一般为14天,模拟对一个新冠肺炎患者连续采样14天,获得14份样本,按照时间采集顺序依次命名为day1~day14,进行宏基因组测序检测新型冠状病毒变异,按照实施例1的方法分析变异的动态过程。
检测结果如图2所示。结果表示,连续采用的14份样本共检测出3种变异,分别为orf1a:p.L1579R、N:p.G243V、S:p.C480Y。
在day1和day2只有orf1a:p.L1579R一种突变,比例接近1,从day3开始出现了新变异 N:p.G243V,从day8开始出现了新变异S:p.C480Y。从day2开始,orf1a:p.L1579R变异的比例逐渐降低,并在day8时加速下降,在day14时消失。从day3开始出现N:p.G243V后其变异比例经历缓慢升高,在day8和day9出现下降,从day10开始加速升高,在day14时比例已达1。day8开始出现S:p.C480Y后其比例迅速升高,在day14时比例接近1。从day9开始, N:p.G243V和S:p.C480Y具有相似的增长曲线,说明可能某些N:p.G243V变异的毒株也拥有了S:p.C480Y变异,最后拥有这两种变异的毒株成为了绝对的优势毒株。
如果在这14天的监测过程的,患者病情发生变化,特别是从day8开始,若患者病情突然恶化,N:p.G243V和S:p.C480Y的变异很可能是高毒力的,在对其他患者的检测中如果发现这两种变异需要及时干预治疗。反之,如果患者病情明显好转,那么N:p.G243V和S:p.C480Y 的变异可能就是低毒力的。
本实施例说明了结合新冠病毒的变异动态监测结果和患者的病情变化进行联合分析,可以分析出病毒的变异是否会改变其毒力或传播能力,建立“变异-毒力-传播-耐药”关系数据库,为后续通过检测变异来判断病毒毒力、传播能力或耐药情况等提供参考。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种新型冠状病毒变异分析方法,其特征在于,包括以下步骤:
数据获取:获取高通量测序得到的基因测序数据;
数据过滤:将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对:将上述过滤后序列与2019-nCoV参考基因组进行比对,并将比对上序列进行排序,生成位点一致性文件;
变异检测:对上述位点一致性文件进行分析,分别识别并统计snp、insertion、deletion三种变异类型,并统计每个位点的基因组坐标P、总覆盖深度D、snp深度Ds、insertion深度Di、deletion深度Dd,用Dv表示Ds或Di或Dd,当Dv≥阈值N时,则判定该变异为可信的,该位点为变异位点,其中N为自然数;
坐标分析:分析变异位点坐标,当变异位点的基因组坐标P满足G_start≤P≤G_end,则该变异位点所在基因为G,其中G_start表示基因G的起始位点,G_end表示基因G的终止位点,G表示2019-nCoV的任意一个基因;
坐标校正:根据核糖体移码信息对CDS原始坐标Pc’进行校正,先从注释数据库中读取变异位点所在基因的核糖体移码信息,当该基因被标记为有核糖体移码,发生移码位点的基因组坐标记为Pr,移码数记为K,则当Pc’≥Pr时,CDS坐标Pc更正为Pc=Pc’+K,当Pc<Pr时,CDS坐标无需更正,Pc=Pc’;
变异注释:对上述变异位点进行注释,所述注释内容包括:变异位点所在基因、CDS改变、密码子改变、氨基酸改变、蛋白质改变和变异类型。
2.根据权利要求1所述的新型冠状病毒变异分析方法,其特征在于,所述变异注释步骤中,所述变异位点所在基因根据变异位点的基因组坐标P注释;
所述CDS改变注释为G:c.PcRef>Alt,其中Ref表示参考碱基,Alt表示变异碱基,Pc表示CDS坐标;
所述密码子改变注释按照以下方法进行:采用mod求余函数分析CDS坐标Pc,按照mod(Pc,3)进行计算,若mod(Pc,3)=0,则原始密码子为突变位点参考碱基及其前两位碱基,突变密码子为突变位点突变碱基及其前两位碱基;
若mod(Pc,3)=1,则原始密码子为突变位点参考碱基及其后两位碱基,突变密码子为突变位点突变碱基及其后两位碱基;
若mod(Pc,3)=2,则原始密码子为突变位点参考碱基及其前一位和后一位碱基,突变密码子为突变位点突变碱基及其前一位后一位碱基;
所述氨基酸改变注释根据密码子改变注释进行;
所述蛋白质改变注释为G:p.RefPPpAltP,其中RefP表示参考氨基酸,AltP表示突变氨基酸,Pp表示氨基酸坐标;
根据氨基酸改变注释进行;
所述变异类型的注释按照以下规则:对于snp类型的变异,若突变后氨基酸未发生改变则注释为synonymous_variant,发生改变则注释为missense_variant;
对于insertion类型的变异,若CDS移码框发生改变则注释为frameshift_variant,未发生改变则注释为inframe_insertion;
对于deletion变异,若CDS移码框发生改变则注释为frameshift_variant,未发生改变则注释为inframe_deletion。
3.根据权利要求2所述的新型冠状病毒变异分析方法,其特征在于,所述氨基酸改变注释中,还对密码子内联合突变进行注释,具体为:
若mod(Pc,3)=1,则判断Pc+1、Pc+2是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点;
若mod(Pc,3)=0,则判断Pc-1、Pc-2是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点;
若mod(Pc,3)=2,则判断Pc-1、Pc+1是否发生突变,如存在突变,则突变密码子内相应位点的碱基替换为突变后的位点。
4.根据权利要求1所述的新型冠状病毒变异分析方法,其特征在于,所述变异检测模块中,所述snp的识别方法为:当出现位点单个字母的变异,则识别为snp;所述insertion的识别方法为:当出现位点至少一个字母的插入,则识别为insertion;所述deletion的识别方法为:当出现位点至少一个字母的缺失,则识别为deletion;所述insertion或deletion中插入或缺失的字母数≤20。
5.根据权利要求1所述的新型冠状病毒变异分析方法,其特征在于,所述宿主序列过滤为,将序列与预先建立的宿主数据库进行比对,过滤比对上宿主序列的数据;
所述注释数据库通过以下方法建立:获取2019-nCoV参考基因组序列信息及注释文件,提取注释文件的基因坐标和CDS区域坐标及核糖体移码信息,构建注释数据库。
6.根据权利要求1所述的新型冠状病毒变异分析方法,其特征在于,所述N≥3。
7.根据权利要求1所述的新型冠状病毒变异分析方法,其特征在于,所述变异检测步骤中,按照以下公式计算突变的变异率R,R=Dv/D。
8.根据权利要求1-7任一项所述的新型冠状病毒变异分析方法,其特征在于,在变异注释步骤之后,还包括病毒变异动态监测步骤,所述病毒变异动态监测步骤为:
1)对同一生物体连续采样,获得S个样本,S表示采样的个数,用Si表示第i个采样的样本,并记录相应的采样时间Ti,然后进行测序;
2)对每个样本进行上述分析,得到每个变异检测结果;
3)根据采样时间对检测结果进行排序,绘制变异信息的时间变化曲线,所述变异信息包括变异的新增、变异的减少和变异率中的至少一个。
9.权利要求1-8任一项所述的新型冠状病毒变异分析方法在用于制备2019-nCoV诊断试剂和/或设备中的应用。
10.一种新型冠状病毒变异分析系统,其特征在于,包括:
数据获取模块:用于获取高通量测序得到的基因测序数据;
数据过滤模块:用于将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对模块:用于将上述过滤后序列与2019-nCoV参考基因组进行比对,并将比对上序列进行排序,生成位点一致性文件;
变异检测模块:用于对上述位点一致性文件进行分析,分别识别并统计snp、insertion、deletion三种变异类型,并统计每个位点的基因组坐标P、总覆盖深度D、snp深度Ds、insertion深度Di、deletion深度Dd,用Dv表示Ds或Di或Dd,当Dv≥阈值N时,则判定该变异为可信的,该位点为变异位点,其中N为自然数;
坐标分析模块:用于分析变异位点坐标,当变异位点的基因组坐标P满足G_start≤P≤G_end,则该变异位点所在基因为G,其中G_start表示基因G的起始位点,G_end表示基因G的终止位点,G表示2019-nCoV的任意一个基因;
坐标校正模块:用于根据核糖体移码信息对CDS原始坐标Pc’进行校正,先从注释数据库中读取变异位点所在基因的核糖体移码信息,当该基因被标记为有核糖体移码,发生移码位点的基因组坐标记为Pr,移码数记为K,则当Pc’≥Pr时,CDS坐标Pc更正为Pc=Pc’+K,当Pc<Pr时,CDS坐标无需更正,Pc=Pc’;
变异注释模块:用于对上述变异位点进行注释,所述注释内容包括:变异位点所在基因、CDS改变、密码子改变、氨基酸改变、蛋白质改变和变异类型。
CN202010280808.5A 2020-04-10 2020-04-10 新型冠状病毒变异分析方法及应用 Active CN111445955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010280808.5A CN111445955B (zh) 2020-04-10 2020-04-10 新型冠状病毒变异分析方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010280808.5A CN111445955B (zh) 2020-04-10 2020-04-10 新型冠状病毒变异分析方法及应用

Publications (2)

Publication Number Publication Date
CN111445955A true CN111445955A (zh) 2020-07-24
CN111445955B CN111445955B (zh) 2021-09-10

Family

ID=71650385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010280808.5A Active CN111445955B (zh) 2020-04-10 2020-04-10 新型冠状病毒变异分析方法及应用

Country Status (1)

Country Link
CN (1) CN111445955B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112029906A (zh) * 2020-08-27 2020-12-04 中国检验检疫科学研究院 一种基于SNP区分SARS-CoV和SARS-CoV2病毒的二维码检测方法
CN113073150A (zh) * 2021-04-28 2021-07-06 领航基因科技(杭州)有限公司 一种用于新型冠状病毒及其变异株的数字pcr检测试剂盒
CN113223618A (zh) * 2021-05-26 2021-08-06 予果生物科技(北京)有限公司 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统
CN113584232A (zh) * 2021-09-29 2021-11-02 北京吉检医疗科技有限公司 一种新型冠状病毒及其德尔塔突变株检测试剂盒及其检测方法
CN113593639A (zh) * 2021-08-05 2021-11-02 湖南大学 一种用于病毒基因组变异分析、监测方法和系统
CN113936739A (zh) * 2021-05-28 2022-01-14 四川大学 新型冠状病毒样本碱基突变自动评估方法
CN114574565A (zh) * 2020-12-02 2022-06-03 深圳华大因源医药科技有限公司 通过宏基因组测序确定环境样本中存在预定物种的方法
CN114686620A (zh) * 2022-01-21 2022-07-01 生物岛实验室 新型冠状病毒多种变异株核酸质谱检测的引物组合、试剂盒及检测方法
WO2022186677A1 (en) * 2021-03-05 2022-09-09 Seegene, Inc. METHOD FOR DETECTION OF SARS-CoV-2 MUTATIONS
CN117727368A (zh) * 2023-12-13 2024-03-19 广州凯普医学检验所有限公司 一种自动化新型冠状病毒基因组快速分型报告系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529171A (zh) * 2016-11-09 2017-03-22 上海派森诺医学检验所有限公司 乳腺癌易感基因遗传变异位点的检测分析方法
CN107180166A (zh) * 2017-04-21 2017-09-19 北京希望组生物科技有限公司 一种基于三代测序的全基因组结构变异分析方法和系统
CN107391965A (zh) * 2017-08-15 2017-11-24 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的肺癌体细胞突变检测分析方法
CN109423522A (zh) * 2017-08-31 2019-03-05 华中农业大学 猪cd4基因功能突变位点分子育种标记的鉴定及应用
CN107974490B (zh) * 2017-12-08 2019-05-14 东莞博奥木华基因科技有限公司 基于半导体测序的pku致病基因突变检测方法及装置
CN112322783A (zh) * 2020-10-19 2021-02-05 郑州大学 一种用于乙肝病毒基因检测的捕获探针组

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529171A (zh) * 2016-11-09 2017-03-22 上海派森诺医学检验所有限公司 乳腺癌易感基因遗传变异位点的检测分析方法
CN107180166A (zh) * 2017-04-21 2017-09-19 北京希望组生物科技有限公司 一种基于三代测序的全基因组结构变异分析方法和系统
CN107391965A (zh) * 2017-08-15 2017-11-24 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的肺癌体细胞突变检测分析方法
CN109423522A (zh) * 2017-08-31 2019-03-05 华中农业大学 猪cd4基因功能突变位点分子育种标记的鉴定及应用
CN107974490B (zh) * 2017-12-08 2019-05-14 东莞博奥木华基因科技有限公司 基于半导体测序的pku致病基因突变检测方法及装置
CN112322783A (zh) * 2020-10-19 2021-02-05 郑州大学 一种用于乙肝病毒基因检测的捕获探针组

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIBO JIANG 等: "《A novel coronavirus (2019-nCoV) causing pneumonia-associated respiratory syndrome》", 《CELLULAR & MOLECULAR IMMUNOLOGY》 *
熊子军 等: "《新型冠状病毒基因组变异与诊断》", 《西安交通大学学报(医学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112029906B (zh) * 2020-08-27 2021-06-11 中国检验检疫科学研究院 一种基于SNP区分SARS-CoV和SARS-CoV2病毒的二维码检测方法
CN112029906A (zh) * 2020-08-27 2020-12-04 中国检验检疫科学研究院 一种基于SNP区分SARS-CoV和SARS-CoV2病毒的二维码检测方法
CN114574565A (zh) * 2020-12-02 2022-06-03 深圳华大因源医药科技有限公司 通过宏基因组测序确定环境样本中存在预定物种的方法
WO2022186677A1 (en) * 2021-03-05 2022-09-09 Seegene, Inc. METHOD FOR DETECTION OF SARS-CoV-2 MUTATIONS
CN113073150A (zh) * 2021-04-28 2021-07-06 领航基因科技(杭州)有限公司 一种用于新型冠状病毒及其变异株的数字pcr检测试剂盒
CN113073150B (zh) * 2021-04-28 2023-01-10 领航医学科技(深圳)有限公司 一种用于新型冠状病毒及其变异株的数字pcr检测试剂盒
CN113223618A (zh) * 2021-05-26 2021-08-06 予果生物科技(北京)有限公司 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统
CN113936739A (zh) * 2021-05-28 2022-01-14 四川大学 新型冠状病毒样本碱基突变自动评估方法
CN113593639A (zh) * 2021-08-05 2021-11-02 湖南大学 一种用于病毒基因组变异分析、监测方法和系统
CN113593639B (zh) * 2021-08-05 2023-08-25 湖南大学 一种用于病毒基因组变异分析、监测方法和系统
CN113584232A (zh) * 2021-09-29 2021-11-02 北京吉检医疗科技有限公司 一种新型冠状病毒及其德尔塔突变株检测试剂盒及其检测方法
CN114686620A (zh) * 2022-01-21 2022-07-01 生物岛实验室 新型冠状病毒多种变异株核酸质谱检测的引物组合、试剂盒及检测方法
CN114686620B (zh) * 2022-01-21 2024-05-07 生物岛实验室 新型冠状病毒多种变异株核酸质谱检测的引物组合、试剂盒及检测方法
CN117727368A (zh) * 2023-12-13 2024-03-19 广州凯普医学检验所有限公司 一种自动化新型冠状病毒基因组快速分型报告系统

Also Published As

Publication number Publication date
CN111445955B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN111445955B (zh) 新型冠状病毒变异分析方法及应用
De Coster et al. Towards population-scale long-read sequencing
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
Sun et al. SHOREmap v3. 0: fast and accurate identification of causal mutations from forward genetic screens
Lin et al. Inferring bacterial recombination rates from large-scale sequencing datasets
CN108319813B (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
Giorgi et al. Estimating time since infection in early homogeneous HIV-1 samples using a poisson model
CN107391965A (zh) 一种基于高通量测序技术的肺癌体细胞突变检测分析方法
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN103186716B (zh) 基于元基因组学的未知病原快速鉴定系统及分析方法
CN107194208A (zh) 一种基因分析注释方法和装置
Dumbrell et al. Microbial community analysis by single-amplicon high-throughput next generation sequencing: data analysis–from raw output to ecology
CN110993023B (zh) 复杂突变的检测方法及检测装置
CN110808084B (zh) 一种基于单样本二代测序数据的拷贝数变异检测方法
CN110060733B (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
CN113035272B (zh) 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
Ma et al. The analysis of ChIP-Seq data
CN111081315A (zh) 一种同源假基因变异检测的方法
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN115631789B (zh) 一种基于泛基因组的群体联合变异检测方法
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
CN113035273A (zh) 一种快速、超高灵敏度的dna融合基因检测方法
Odom et al. Metagenomic profiling pipelines improve taxonomic classification for 16S amplicon sequencing data
CN108154007B (zh) 一种基于单肿瘤样本拷贝数变异及缺失类型检测方法
Edsall et al. Evaluating chromatin accessibility differences across multiple primate species using a joint modeling approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201016

Address after: 510130 No. 301, building G10, South China new material innovation park, self compiled building 3, No. 31, Kefeng Road, Guangzhou high tech Industrial Development Zone, Guangdong Province

Applicant after: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Applicant after: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Applicant after: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Applicant after: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Applicant after: Weiyuan (Shenzhen) Medical Research Center Co.,Ltd.

Address before: 510130 Three South China New Materials Innovation Park G10 Building 303, No. 31 Kefeng Road, Guangzhou High-tech Industrial Development Zone, Guangdong Province

Applicant before: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Applicant before: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Applicant before: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Applicant before: Shenzhen Weiyuan Medical Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230901

Address after: Room 301, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee after: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee after: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee after: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee after: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Address before: Room 301, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee before: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee before: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee before: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee before: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Patentee before: Weiyuan (Shenzhen) Medical Research Center Co.,Ltd.