CN113593639A

CN113593639A - 一种用于病毒基因组变异分析、监测方法和系统

Info

Publication number: CN113593639A
Application number: CN202110896978.0A
Authority: CN
Inventors: 葛行义; 周秩建; 邱烨; 叶生宝
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113593639B

Abstract

本发明属于生物信息学和生物医药领域，具体涉及一种用于病毒基因组变异分析、监测方法和系统。该方法通过序列比对后进行全基因注释获得编码基因信息，再进行翻译比对并根据遗传密码子表分析突变类型，获得基因组的突变位点、类型及频率，统计高频率突变位点，通过采集不同时间和区域的病毒株，分析高频率突变位点在时间和地区上的分布特征，并筛选位于免疫表位及其附近的高频率突变位点，以实现病毒基因组变异分析及监测。

Description

一种用于病毒基因组变异分析、监测方法和系统

技术领域

本发明属于生物信息学和生物医药领域，具体涉及一种用于病毒基因组变异分析、监测方法和系统。

背景技术

2019年底，由SARS-CoV-2引起的新冠疫情爆发，给世界公共卫生、经济、社会可持续发展带来了巨大危害及挑战。随着SARS-CoV-2在人群中的广泛流行，其基因组不断进化和变异。一些突变会赋予病毒新的遗传特征，如影响感染性和疫苗疗效等。前期相关研究表明，一些突变位点会影响病毒的感染特性以及对中和抗体甚至疫苗的免疫保护作用。

然而，疫苗的开发周期较长，从SARS-CoV-2出现到第一批在疫苗投入使用，大约历经了一年。目前，即将投入使用的疫苗是基于疫情初期的毒株开发的。在SARS-CoV-2大流行的这一年内，SARS-CoV-2基因组上经历了较多的变异，其中一些突变位点如S蛋白上的可导致感染性增强的D614G成为了优势变异且在全世界大范围流行。

因此，在病毒性疫情大流行期间，基于大尺度基因组序列数据来对病毒进行变异研究和监测，筛选并评估具有潜在功能的突变，对疫情的防控是至关重要的。

发明内容

基于此，本发明通过序列比对后进行全基因注释获得编码基因信息，再进行翻译比对并根据遗传密码子表分析突变类型，获得基因组的突变位点、类型及频率，统计高频率突变位点，通过采集不同时间和区域的病毒株，分析高频率突变位点在时间和空间上的分布特征，并筛选位于免疫表位及其附近的高频率突变位点，以实现病毒基因组变异分析及监测。

本发明提供了一种用于病毒基因组变异分析方法，所述分析方法具体包括：

获取参考基因序列和待分析基因组序列，将所述待分析基因组序列进行质量控制后获得测序质量良好的全基因组序列集；

将所述测序质量良好的序列集进行多序列比对，获得alignment序列文件；

将所述alignment序列文件以字符串完全匹配方法匹配编码基因的起始字符串，并返回编码基因在全基因组序列中的位置下标，并以alignment序列文件中每个基因对应的位置下标，生成基因位置表；

根据所述基因位置表，循环遍历每条序列，截取每条序列对应的编码基因片段并存储；

根据所述编码基因序列进行翻译成氨基酸序列，并对氨基酸序列进行多序列比对，获得对齐的氨基酸序列文件，与对齐前的编码基因序列进行匹配，采用“密码子出现的顺序”作为映射关系进而进行“回译”，将对齐的氨基酸序列“回译”成对齐的核苷酸；

将所述对齐的核苷酸序列以每三个碱基扫描方式遍历序列的每个密码子位点，识别和记录序列中存在连续三个碱基插入位点的位置“---”，标记为“插入位点”，并删除“插入位点”，获取不含插入位点的突变分析序列；

将参考序列对应的密码子和/或其对应的氨基酸与所述突变分析序列的密码子和/或翻译氨基酸按照预设突变分析方法进行分析获得待分析基因组序列突变位点以及变异类型。

进一步的，所述质量控制具体包括：

循环扫描每条序列，统计位置碱基的数量，当序列中含有10个以上的连续未知碱基，则将对应的序列进行删除。

进一步的，所述预设突变分析方法具体包括：

将参考序列对应密码子变量名记作qury_seq_conding，突变分析序列的密码子变量名记作s；

如果s和qury_seq_conding相同，当二者均不为字符串“---”，不变位点数加1，当二者都为字符串“---”，则忽略；

如果s和qury_seq_conding不同，其中有一个为字符串“---”，当qury_seq_conding为字符串“---”，标记为碱基插入位点并计数，当s为第字符串“---”，标记为碱基删除位点并计数；

如果s和qury_seq_conding不同，且都不为字符串“---”，将二者翻译成氨基酸translate_s和translate_qury_seq，当氨基酸相同，则标记为同义突变并计数，当translate_s为字符“？”，标记为未知突变并计数，当translate_s为字符“*”，标记为提前终止并计数，其他属于非同义突变位点并计数；

所述非同义突变位点，比较并记录氨基酸性质的变化。

本发明实施例还提供了一种用于病毒基因组变异的监测方法，所述监测方法具体包括：

采集不同时间和区域的待分析病毒基因组，按照上述的突变分析方法进行分析获得所有的突变位点和突变类型；统计各突变位点的突变频率，将所述突变频率高于预设频率阈值对应的突变位点记为高频突变位点；

获取所述高频突变位点对应的基因组序列的采集时间计算高频突变在所有基因组中的占比，获得折线图，并进行拟合，从而获得具有增长趋势的突变位点和突变毒株；

获取所述高频突变位点对应的区域，构建聚类热图，用于不同地区疫苗设计提供参考；

针对所述高频突变位点进行免疫表位筛选，所述免疫表位筛选具体包括：B细胞表位预测和T细胞表位预测。

进一步的，所述预设频率阈值大于等于0.5。

进一步的，所述B细胞表位预测具体包括：

连续B细胞表位预测：预测氨基酸序列的线性B细胞表位，将存在6-25个氨基酸的线性表位肽进行抗原评估，获得评分超过0.5对应的表位肽序列为连续B细胞表位；

离散B细胞表位预测：获取氨基酸序列的三级结构，并预测所述三级结构中的不连续B细胞表位，获得倾向性评分超过-3.7的为离散B细胞表位。

进一步的，所述T细胞表位预测具体包括：

MHC-I(CD8 T细胞)结合表位预测：根据人类HLAI类等位基因预测MHC-I结合表位，获取评分超过0.85且VaxiJen得分超过0.5的表位；所述人类HLAI类等位基因为HLA-A01:01，HLA-A02:01，HLA-A03:01，HLA-A11:01，HLA-A24:02，HLA-B07:02,HLA-B08:01,HLA-B40:01；

MHC-Ⅱ(CD4 T细胞)结合表位预测：根据7个人类DRB类等位基因预测MHC-Ⅱ结合表位，获得adjustedrank值低于1且VaxiJen评分超过0.5的结合表位，所述人类DRB类等位基因为DRB103:01，DRB107:01，DRB115:01，DRB301:01，DRB302:02，DRB401:01和DRB501:01。

基于同一发明构思的，本发明实施例还提供了一种用于病毒基因组变异分析、检测系统，所述系统具体包括：

筛选模块，用于筛选待分析基因组序列，将所述待分析基因组序列进行质量控制获得测序质量良好的全基因组序列集；

序列比对模块，用于将所述测序质量良好的基因组序列集进行多序列比对，获得alignment序列文件；

基因组注释模块，用于将所述alignment序列文件以字符串完全匹配方法匹配编码基因的起始字符串，并返回编码基因在全基因组序列中的位置下标，并以alignment序列文件中每个基因对应的位置下标，生成基因位置表；根据所述基因位置表，循环遍历每条序列，截取每条序列对应的编码基因片段并存储；

翻译比对模块，用于根据所述编码基因序列进行翻译成氨基酸序列，并对氨基酸序列进行多序列比对，获得对齐的氨基酸序列文件，与对齐前的编码基因序列进行匹配，采用“密码子出现的顺序”作为映射关系进而进行“回译”，将对齐的氨基酸序列“回译”成对齐的核苷酸；

插入位点标记模块；将所述对齐的核苷酸序列以每三个碱基扫描方式遍历序列的每个密码子位点，识别和记录序列中存在连续三个碱基插入位点“---”的位置，标记为“插入位点”，获得并删除“插入位点”，获取不含插入位点的突变分析序列；

编码基因突变分析模块，用于将参考序列对应的密码子和/或其对应的氨基酸与所述突变分析序列的密码子和/或翻译氨基酸按照预设突变分析方法进行分析获得待分析基因组序列突变位点以及变异类型；

监测模块，用于获取不同采集时间和区域的突变分析结果，统计高频率突变位点，并分析所述高频率突变位点在时间和区域上的规律以及免疫表位情况。

进一步的，所述监测模块具体包括：

高频率突变位点分析子模块，用于统计各突变位点的突变频率，将所述突变频率高于预设频率阈值对应的突变位点记为高频突变位点；

增长趋势监测子模块，用于获取所述高频突变位点对应的基因组序列的采集时间计算高频突变在所有基因组中的占比，获得折线图，并进行拟合，从而获得具有增长趋势的突变位点和突变毒株；

地域监测子模块，获取所述高频突变位点对应的区域，构建聚类热图，用于不同地区疫苗设计提供参考；

免疫表位筛选子模块，针对所述高频突变位点进行免疫表位筛选，所述免疫表位筛选具体包括：B细胞表位预测和T细胞表位预测。

有益效果：

该方法通过序列比对后以字符串完全匹配方式匹配编码基因的启示字符串并返回编码基因在全基因组序列中的位置下标，获得基因位置表，可以实现大量全基因组序列的快速批量注释，并采用编码基因翻译比对方法保留对齐后编码基因对应的核苷酸序列中的遗传信息，进行多种突变类型的分析，实现了病毒基因组变异的全面分析，并经过数据统计和免疫表位筛选进行突变监测，为疫苗设置提供了数据参考。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于病毒基因组突变分析、监测方法的流程图；

图2为本发明实施例提供的新冠病毒的S基因序列(S_codon.fasta)示例的碱基位点突变频率分布图；

图3为本发明实施例提供的D614G+A222V，D614G+L18F+A222V突变位点在种群中的突变频率趋势图；

图4为本发明实施例提供的40种高频突变位点的地区差异分布图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，在本发明实施例中，提出了一种用于病毒基因组突变分析、监测方法的流程图，针对于突变分析过程具体包括以下步骤：

步骤S101，获取参考基因序列和待分析基因组序列，将所述待分析基因组序列进行质量控制后获得测序质量良好的全基因组序列集。在本发明实施例中，对获取的基因组序列循环扫描，统计未知碱基(N字符串)的数量，如果序列中含有10个及以上连续的未知碱基(N)，则将该条序列剔除掉，不纳入后续的分析。过滤掉一些测序质量不好的序列。

步骤S102，将所述测序质量良好的基因组序列集进行多序列比对，获得alignment序列文件；在本发明实施例中，采用MAFFT程序进行多序列比对，获得alignment序列文件。

步骤S103，将所述alignment序列文件以字符串完全匹配方法匹配编码基因的起始字符串，并返回编码基因在全基因组序列中的位置下标，并以alignment序列文件中每个基因对应的位置下标，生成基因位置表，根据所述基因位置表，循环遍历每条序列，截取每条序列对应的编码基因片段并存储。

在本发明实施例中，以字符串完全匹配的方式匹配编码基因的起始字符串，返回编码基因在全基因组序列中的位置下标，进而对基因组进行序列注释。在进行注释前，需要先运行检查机制，判断用于识别的字符串是否在序列中存在。判断模式为：如果字符串存在，则继续运行下一步，否则输出提示信息，提示更换字符串。基于用户提供的参考序列的每个编码基因的信息文件，该文件包含基因名称，起始字符串，结束字符串，分别以逗号隔开。使用find函数，基于完全匹配(两个字符串相等)的方式，获得alignment序列文件中每个基因的对应的下标值(在序列中的坐标)，生成基因位置表。再循环遍历每条序列，基于基因位置表，截取出每条序列对应的编码基因片段，分别储存以每个编码基因名称命名的文件里。同时，对于每条序列，都输出一个*.gb格式的注释文件，里面包含了该全基因组序列的字符串信息，每个基因的基因名称和起始位置。该步骤可以实现大量全基因组序列数据的快速注释。

步骤S104，根据所述编码基因序列进行翻译比对，先将核苷酸序列翻译成氨基酸序列，并对氨基酸序列进行多序列比对，获得对齐的氨基酸序列文件，再“回译”成对齐的核苷酸序列。该比对过程可采用MAFFT程序。

步骤S105，根据所述的对齐的核苷酸序列。编码基因进行翻译比对后，对齐的序列文件中可能存在的“插入位点”(作为突变的一种)，会在参考序列中引入gap(-)，因为gap的位置不确定性，在不同次分析中会影响后续对突变位置的统一标记，因此，需要将“插入位点”单独进行统计和记录，并删除插入位点再用于后续分析。

将所述对齐的核苷酸序列以每三个碱基扫描方式遍历序列的每个密码子位点，识别和记录序列中存在连续三个碱基插入位点gap(---)的位置，标记为“插入位点”，并返回插入位点处其他非参考序列的密码子和翻译后的氨基酸，同时返回不含插入位点的突变分析序列。

步骤S106，将参考序列对应的密码子和/或其对应的氨基酸与所述突变分析序列密码子和/或翻译氨基酸按照预设突变分析方法进行分析获得待分析基因组序列突变位点以及变异类型。

在本发明实施例中，使用两个嵌套的循环，外循环的迭代数为密码子位点数量(总碱基数量除以3)，内循环迭代数为序列的条数。对于每个内循环，每条序列都与序列集中的第一条序列(参考序列)进行比较，从而识别5种不同的突变类型，包括同义替换、非同义替换、提前终止、碱基插入和删除。具体识别模式和比较方法为：

1)将参考序列对应密码子变量名记作qury_seq_conding，用于突变分析的序列的密码子变量名记作s；

2)如果s和qury_seq_conding相同。a.如果qury_seq_conding和s都不为“---”，不变位点数加1；b.如果s和qury_seq_conding都为“---”，则忽略；

3)如果s和qury_seq_conding不相同，其中有一个为“---”。a.如果qury_seq_conding为“---”，标记为碱基插入位点并计数；b.如果s为"---"，标记为碱基删除位点并计数；

4)如果s和qury_seq_conding不相同，且两个都不为“---”。将s和qury_seq_conding分别翻译成氨基酸，记作translate_s和translate_qury_seq。a.如果translate_s和translate_qury_seq相同，标记为同义突变并计数；b.如果translate_s为字符“？”，标记为未知突变并计数；c.如果translate_s为字符“*”，标记为提前终止并计数；d.如果都不符合上述条件，则标记为非同义突变并计数。

5)对于非同义突变位点，调用BioAider里内置的氨基酸性质表，判断并记录氨基酸的性质是否改变，包括极性和带电性。

6)对于上述突变分析步骤，写入生成详细的日志文件(log文件)以及汇总文件(summary文件)。log文件记录每条序列每个位点上的变异，汇总文件记录突变的密码子位点，突变的碱基，突变类型，突变频率，突变氨基酸是否改变等汇总信息。

7)根据用户指定的突变频数分布表，生成同义或非同义非同义突变位点对应的频数分布图，以便了解序列数据集整体的变异情况，并以位图*.jpg和矢量图.pdf的格式输出。

对于关联突变分析，可逐一扫描所有核苷酸位点与参考序列进行对比，汇总每条序列所有的突变位点信息，生成汇总报告(summary文件)，包括突变位点及突变频率、突变热点(高于指定的突变频率阈值)，并生成详细的日志记录文件(log文件)，详细记录每条序列每个位点上的变异，便于查询。

将上述编码基因进行关联突变分析，以每条序列作为一个整体标记所有的突变位点，如“L18F+D614G+A222V”，每条序列生成一个记录，并对它们进行统计得到这些关联突变位点的突变频率，最后根据指定的突变频率阈值输出高于阈值的突变热点。

所述监测方法具体包括：

采集不同时间和区域的待分析病毒基因组，按照上述突变分析方法进行分析获得所有的突变位点和突变类型；统计各突变位点的突变频率，将所述突变频率高于预设频率阈值对应的突变位点记为高频突变位点。如图2所示，上述基于密码子方式比对后的新冠病毒的S基因序列(S_codon.fasta)示例的碱基位点突变频率分布图。经关联突变分析获得40中突变频率大于0.1％的关联突变位点，如表1所示。

表1突变频率大于0.1％的关联突变位点

读取summary文件中突变位点汇总信息，默认选取突变频率(突变序列的数量占比)高于0.5％的突变位点作为用于时间分析的高频率突变位点。根据序列的采样时间，默认按月份为时间间隔，计算在每个时间间隔内这些高频率突变在群体中的占比，绘制折线图。此外，采用线性回归的方法进行拟合，计算回归系数，从而识别出具有增长趋势的突变位点和突变毒株。如图3示例中D614G+A222V，D614G+L18F+A222V突变位点在种群中的突变频率趋势图。

读取summary文件中突变位点汇总信息，默认选取突变频率(突变序列的数量占比)高于0.1％的突变位点作为用于地区分布分析的高频率突变位点。构建高频率突变位点及其在每个地区的数量矩阵，行为地区，列为突变位点，构建聚类热图。聚类热图采用欧式距离对行和列进行聚类，聚集在一起的行表示这些地区具有相似流行的突变毒株，聚集在一起的列表示这些突变位点具有相似地区分布。因为疫苗设计需要充分考虑现有毒株的流行情况，因此，对毒株基于高频率突变位点进行地理聚类，能为不同地区的疫苗设计提供参考，上述示例中的40种高频突变位点的地区差异分布图如图4所示。

对所述突变频率高于0.5％的高频突变位点进行免疫表位筛选，所述免疫表位筛选具体包括：B细胞表位预测和T细胞表位预测。

在本发明实施例中，连续B细胞表位预测：使用IEDB(http://www.iedb.org/)中的BepiPred 2.0程序来预测特定蛋白氨基酸序列的线性B细胞表位，使用默认阈值0.5。对于超过6个但小于25个氨基酸的线性表位肽，使用VaxiJen2.0在线服务器进行抗原评估，仅考虑使用VaxiJen预测得分超过0.5的表位肽。如果表位肽的长度超过25，则只考虑VaxiJen评分超过0.5的子片段序列。离散B细胞表位预测：对于特定蛋白的氨基酸序列，如果存在该蛋白质序列的三级结构，则直接使用。如果不存在，通过同源建模(SWISS-MODEL)或者从头预测(AlphaFold或RoseTTAFold)方式获得其三级结构。再通过IEDB中的DiscoTope 2.0程序预测特定蛋白三级结构中的不连续B细胞表位，并且只考虑倾向性评分(propensity)和discotope超过默认阈值-3.7的氨基酸残基。

在本发明实施例中，所述T细胞表位预测具体包括：MHC-I(CD8 T细胞)结合表位预测：使用IEDB中的NetMHCpan4.1方法基于8个最常见的人类HLAI类等位基因(HLA-A01:01，HLA-A02:01，HLA-A03:01，HLA-A11:01，HLA-A24:02，HLA-B07:02,HLA-B08:01,HLA-B40:01)预测了MHC-I结合表位,并且只考虑了评分超过0.85且VaxiJen得分超过0.5的表位。MHC-Ⅱ(CD4 T细胞)结合表位预测：基于常见的7个人类等位基因(包括DRB103:01，DRB107:01，DRB115:01，DRB301:01，DRB302:02，DRB401:01和DRB5*01:01)和IEDB推荐的2.22算法，表位肽的长度设置为15。类似地，MHC-Ⅱ的表位预测仅考虑adjusted rank值低于1且VaxiJen评分超过0.5的结合表位。以新冠病毒S蛋白氨基酸序列为例，采用上述方法进行B细胞表位，其结果如表2、3所示。

区域	开始	终止	免疫表位(BepiPred)	长度	VaxiJen得分
						NTD	13	37	SQCVNLTTRTQLPPAYTNSFTRGVY	25	0.6860
NTD	59	81	FSNVTWFHAIHVSGTNGTKRFDN	23	0.6767
						NTD	138	154	DPFLGVYYHKNNKSWME	17	0.5821
NTD	177	189	MDLEGKQGNFKNL	13	1.2592
						NTD	206	221	KHTPINLVRDLPQGFS	16	0.6403
NTD	253	259	DSSSGWT	7	0.6067
						S1	304	322	KSFTVEKGIYQTSNFRVQP	19	0.5729
RBD	351	360	YAWNRKRISN	10	0.5855
						RBD	369	393	YNSASFSTFKCYGVSPTKLNDLCFT	25	1.4031
RBD	404	426	GDEVRQIAPGQTGKIADYNYKLP	23	1.1017
						RBD	441	448	LDSKVGGN	8	0.8773
RBD	459	464	SNLKPF	6	0.5943
						RBD	473	478	YQAGST	6	0.5812
RBD	487	492	NCYFPL	6	0.996
						RBD	528	535	KKSTNLVK	8	0.658
S1	555	562	SNKKFLPF	8	1.3952
						S1	627	632	DQLTPT	6	0.7329
S1	656	666	VNNSYECDIPI	11	0.6124
						S1,S2	680	687	SPRRARSV	8	0.6844
S2	695	710	YTMSLGAENSVAYSNN	16	0.6434
						S2	809	814	PSKPSK	6	1.1271
S2	1035	1043	GQSKRVDFC	9	1.779
						S2	1110	1118	YEPQIITTD	9	0.8297
S2	1154	1169	KYFKNHTSPDVDLGDI	16	0.7333
						CP	1255	1267	KFDEDDSEPVLKG	13	0.5066

表2连续B细胞表位

由表2可知，突变频率高于0.5％的高频率突变位点中，突变位点L18F、L18F和S477N突变热点位于连续B细胞免疫表位上，A222V突变热点位于连续B细胞免疫表位附近。L18F，A222V，S477N这3个高频率突变，值得后续进一步研究其突变对中和抗体及疫苗保护效果的影响。

表3离散的B细胞表位

由表3可知，突变频率高于0.5％的高频率突变位点中，突变位点N439K，S477N位于离散B细胞免疫表位上。N439K，S477N这2个高频率突变，值得后续进一步研究其突变对中和抗体及疫苗保护效果的影响。

本发明实施例还提供了一种用于病毒基因组变异分析、检测系统，所述系统具体包括：

筛选模块，用于筛选待分析基因组序列，将所述待分析基因组序列进行质量控制获得测序质量良好的全基因组序列集。

所述监测模块具体包括：高频率突变位点分析子模块，用于统计各突变位点的突变频率，将所述突变频率高于预设频率阈值对应的突变位点记为高频突变位点；增长趋势监测子模块，用于获取所述高频突变位点对应的基因组序列的采集时间计算高频突变在所有基因组中的占比，获得折线图，并进行拟合，从而获得具有增长趋势的突变位点和突变毒株；地域监测子模块，获取所述高频突变位点对应的区域，构建聚类热图，用于不同地区疫苗设计提供参考；免疫表位筛选子模块，对所述高频突变位点进行免疫表位筛选，所述免疫表位筛选具体包括：B细胞表位预测和T细胞表位预测。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种用于病毒基因组变异分析方法，其特征在于，所述分析方法具体包括：

2.根据权利要求1所述的用于病毒基因组变异分析方法，其特征在于，所述质量控制具体包括：

3.根据权利要求1所述的用于病毒基因组变异分析方法，其特征在于，所述预设突变分析方法具体包括：

所述非同义突变位点，比较并记录氨基酸性质的变化。

4.一种用于病毒基因组变异的监测方法，其特征在于，所述监测方法具体包括：

采集不同时间和区域的待分析病毒基因组，按照权利要求1-3任意所述的突变分析方法进行分析获得所有的突变位点和突变类型；统计各突变位点的突变频率，将所述突变频率高于预设频率阈值对应的突变位点记为高频突变位点；

5.根据权利要求4所述的用于病毒基因组变异的监测方法，其特征在于，所述预设频率阈值大于等于0.5。

6.根据权利要求4所述的用于病毒基因组变异的监测方法，其特征在于，所述B细胞表位预测具体包括：

7.根据权利要求4所述的用于病毒基因组变异的监测方法，其特征在于，所述T细胞表位预测具体包括：

MHC-Ⅱ(CD4 T细胞)结合表位预测：根据7个人类DRB类等位基因预测MHC-Ⅱ结合表位，获得adjusted rank值低于1且VaxiJen评分超过0.5的结合表位，所述人类DRB类等位基因为DRB103:01，DRB107:01，DRB115:01，DRB301:01，DRB302:02，DRB401:01和DRB501:01。

8.一种用于病毒基因组变异分析、检测系统，其特征在于，所述系统具体包括：

9.根据权利要求8所述的用于病毒基因组变异分析、监测系统，其特征在于，所述监测模块具体包括：