CN114464246A - 基于CovMutt框架检测与遗传性增加相关的突变的方法 - Google Patents

基于CovMutt框架检测与遗传性增加相关的突变的方法 Download PDF

Info

Publication number
CN114464246A
CN114464246A CN202210060914.1A CN202210060914A CN114464246A CN 114464246 A CN114464246 A CN 114464246A CN 202210060914 A CN202210060914 A CN 202210060914A CN 114464246 A CN114464246 A CN 114464246A
Authority
CN
China
Prior art keywords
mutation
prevalence
mutations
virus
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210060914.1A
Other languages
English (en)
Other versions
CN114464246B (zh
Inventor
黄恺
李滟泽
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji Medical College of Huazhong University of Science and Technology
Original Assignee
Tongji Medical College of Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji Medical College of Huazhong University of Science and Technology filed Critical Tongji Medical College of Huazhong University of Science and Technology
Priority to CN202210060914.1A priority Critical patent/CN114464246B/zh
Publication of CN114464246A publication Critical patent/CN114464246A/zh
Application granted granted Critical
Publication of CN114464246B publication Critical patent/CN114464246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明属于病毒等传播预测技术领域,公开了病毒传播时变异流行率的变化情况评估方法,包括下述步骤:获取病毒在人群中突变流行率:将携带特定突变的病毒基因组组件的数量除以给定地理区域内可用的组件总数;基于Balding‑Nichols模型,获取参数F:针对任一组Pa和Pb值,根据式I中公式,对Fab每次进行迭代增加i,最终选择等位基因频率大于预设值的突变的联合概率密度分布最大化时的Fab作为参数F,其中,0≤F<1,Pa和Pb为连续两个时间区间的突变频率,argmax是一个查找F参数的操作,该参数给出目标的最大值,dbeta是beta分布的概率密度函数;利用式II,获取β分布下任一突变位点的遗传漂变p值。本发明提供了一种新的病毒、疾病传播预测方法,并且提高了预测精度。

Description

基于CovMutt框架检测与遗传性增加相关的突变的方法
技术领域
本发明属于病毒等传播预测技术领域,尤其涉及基于CovMutt框架检测与遗传性增加相关的突变的方法。
背景技术
SARS-CoV-2是冠状病毒家族的成员,冠状病毒家族是一个高度多样化的包膜阳性单链RNA病毒家族。其序列与SARS冠状病毒有79.6%的同源性, SARS冠状病毒是一种传染性病毒,导致了2003年SARS的流行。另一种著名的冠状病毒是MERS-CoV,它在2012年导致了中东呼吸综合征(MERS) 的流行。然而,同样明显的是,SARS-CoV-2比SARS-CoV和MERS-CoV7更具传染性。
SARS-CoV-2基因组大小约为30kb,其基因组结构符合已知冠状病毒的特定基因特征。基因组中超过三分之二的5'由ORF1ab编码的ORF1ab多蛋白组成,而3'的三分之一由编码结构蛋白的基因组成,包括表面蛋白(S)、包膜蛋白(E)、膜蛋白(M)和核衣壳蛋白(N)。此外,SARS-CoV-2包含6 种辅助蛋白,由ORF3a、ORF6、ORF7a、ORF7b和ORF8基因编码。
在2019冠状病毒疾病基因的遗传贡献中,全球遗传社区一直在积极调查,成千上万的SARS COV-2样本已经被测序并每月上传到GISAID[图1中A]。监测病毒传播率潜在增加的最大挑战是确定突变流行率的增加是否具有统计学意义,还是仅仅由于随机漂移。已经发现一些突变在某些地区的流行程度累积到相对较高的水平,但观察结果并不总是在其他地区重现。也有一些突变,其频率在达到相对较高的水平后下降,没有出现更具传染性的竞争变体。在这些情况下,突变不能被认为与遗传性增加有关。为了消除这些干扰,引入了covmuti框架。在特定地区传播的多个相互竞争的SARS-CoV-2变种暴露在极其相似的外部环境中,传播速度越快的变种越能适应自然选择的压力,并在人群中获得更高的频率,最终实现固定。首先,突变流行率变化的总结模式描述了一个确定的模型,即新出现的突变流行率增加并发生固定。然而,在现实中,任何特定谱系的流行率都会随着时间的推移而波动,中性和有害突变也可能在有限的人群中达到固定。这些波动,即“遗传漂变”,很可能导致有益谱系在流行率较低时灭绝,需要随机治疗。在这种情况下,Balding-Nichols 模型被用来检验遗传漂变的显著性,并且经历极强漂变以获得频率增加的变异可以被认为是正选择的。此外,如果类似情况在多个地区重复出现,我们更有信心,增加的频率不是偶然的。这些证据共同有助于确定冠状病毒的一种变体是否能更有效地在人与人之间传播。
发明内容
针对上述问题,本发明提供基于CovMutt框架检测与遗传性增加相关的突变的方法,主要解决了现有技术对一些病毒等传播过程中的变异、传播规律预测精度差等问题。
为了解决上述问题,本发明采用如下技术方案:
病毒传播时变异流行率的变化情况评估方法,包括下述步骤:
获取病毒在人群中突变流行率:
将携带特定突变的病毒基因组组件的数量除以给定地理区域内可用的组件总数;
基于Balding-Nichols模型,获取参数F:
针对任一组Pa和Pb值,根据式I中公式,对Fab每次进行迭代增加i,最终选择等位基因频率大于预设值的突变的联合概率密度分布最大化时的Fab作为参数F,
Figure BDA0003478149570000031
其中,0≤F<1,Pa和Pb为连续两个时间区间的突变频率,argmax是一个查找F参数的操作,该参数给出目标的最大值,dbeta是beta分布的概率密度函数;
利用式II,获取β分布下任一突变位点的遗传漂变p值,
Figure BDA0003478149570000032
在一些方式中,获取任一时间区间的突变流行率方式为:特定位置该时间区间包含给定突变的序列计数除以同一位置该时间区间的总序列数。
在一些方式中,获取任一时间区间的突变流行率,至少为下述之一获取每月的突变流行率:
任一月的突变患病率获取方式为:特定位置当月包含给定突变的序列计数除以同一位置当月的总序列数;及
获取每天的突变流行率:
任一天的突变患病率获取方式为:特定位置当天包含给定突变的序列计数除以同一位置当天的总序列数。
在一些方式中,任一月的突变患病率获取中:
突变流行率的95%置信区间计算为Jeffrey区间:β的2.5分位数至97.5 分位数(n+0.5,N–n+0.5)。
在一些方式中,基于Balding-Nichols模型,获取参数F步骤中:对Fab每次进行迭代增加1e-5。
在一些方式中,根据遗传漂变p值分析研判:
显著的基因漂移可能导致突变占主导地位或从人群中消失;
强烈的遗传漂变反映了自然选择的方向和压力。
在一些方式中,基于Balding-Nichols模型,获取参数F中:预设值为梯度型预设值。
在一些方式中,基于Balding-Nichols模型,获取参数F中:设定的预设值为0.5‰。
本发明的有益效果是:
提供了一种新的病毒、疾病传播预测方法,并且提高了预测精度。
附图说明
图1为部分样品基因测序数据;
图2为总结了理想情况下竞争性突变的流行轨迹情况;
图3为从整个SARS-CoV-2基因组鉴定出的一些结果;
图4-5为显著突变在发病率中累积的过程,
图6为不同δ亚谱系的特征性突变。
具体实施方式
下面对结合一实例进行说明:
为了解决上述问题,本发明采用如下技术方案:
病毒传播时变异流行率的变化情况评估方法,至少包括下述步骤:
S1:获取病毒在人群中突变流行率:
将携带特定突变的病毒基因组组件的数量除以给定地理区域内可用的组件总数;
S2:基于Balding-Nichols模型,获取参数F:
针对任一组Pa和Pb值,根据式I中公式,对Fab每次进行迭代增加i,最终选择等位基因频率大0.5‰的突变的联合概率密度分布最大化时的Fab作为参数F,
Figure BDA0003478149570000051
其中,0≤F<1,Pa和Pb为连续两个时间区间的突变频率,argmax是一个查找F参数的操作,该参数给出目标的最大值,dbeta是beta分布的概率密度函数;
S3:利用式II,获取β分布下任一突变位点的遗传漂变p值,
Figure BDA0003478149570000052
在一些方式中,部分步骤的具体实施方式彩霞用如下:
其中之一,获取任一时间区间的突变流行率方式为:特定位置该时间区间包含给定突变的序列计数除以同一位置该时间区间的总序列数。
其中之二,获取任一时间区间的突变流行率,至少为下述之一
获取每月的突变流行率:
任一月的突变患病率获取方式为:特定位置当月包含给定突变的序列计数除以同一位置当月的总序列数;及
获取每天的突变流行率:
任一天的突变患病率获取方式为:特定位置n当天包含给定突变的序列计数除以同一位置N当天的总序列数。
其中之三,任一月的突变患病率获取中:
突变流行率的95%置信区间计算为Jeffrey区间:β的2.5分位数至97.5 分位数(n+0.5,N–n+0.5)。
其中之四,基于Balding-Nichols模型,获取参数F步骤中:对Fab每次进行迭代增加1e-5。
其中之五,根据遗传漂变p值分析研判:
显著的基因漂移可能导致突变占主导地位或从人群中消失;
强烈的遗传漂变反映了自然选择的方向和压力。
其具体的分析研判的比对参考标准可采用现有的标准,比如图5中所示内容。
其中之六,基于Balding-Nichols模型,获取参数F中:预设值为梯度型预设值。其中一种设定的预设值为0.5‰,0.5‰为阶梯型起始值,起一种设计方式可采用等差数列形式,具体数值可根据需要调整设定。
下面结合一具体研究项目进行说明:
2021年10月8日从GISAID17收集了3505104个SARS-CoV-2全基因组组件。到目前为止,只有长度>29000bps的完整基因组用于下游分析。下载 FASTA格式和MAF格式(多重比对文件)的基因组组件,然后使用MAFFT 软件19创建结果比对。此外,所有重复和低质量的程序集(>5%NNNNs)都已删除,没有相应元数据的程序集也已丢弃。本研究项目收集并分析GISAID (2021年10月8日N=3505104)的所有可用基因组测序数据[图1中B]。 GISAID中的SARS-CoV-2基因组序列来自不同大陆的100多个国家,为追踪全球冠状病毒爆发和突变频率累积提供了极好的数据来源。
每个SARS-CoV-2样本的突变均已使用内部脚本检测到,多个比对文件作为输入数据,然后使用CorGAT对已识别的突变进行功能注释。为了跟踪突变积累和传播的进展,只需将携带特定突变的病毒基因组组件的数量除以给定地理区域内可用的组件总数,即可估计人群中的突变流行率。计算每个地理区域的每月平均突变流行率,以构建冠状病毒传播和突变累积的完整时间线。随后,为了构建系统发育树,使用nextstrain ncov管道对基因组组件进行二次采样和处理(https://github.com/nextstrain/ncov),然后生成系统发育树并用Auspice可视化。
每月突变患病率的计算方法是:特定位置(表示为n)当月包含给定突变的序列计数除以同一位置(表示为N)当月的总序列数。患病率的95%置信区间计算为Jeffrey区间:β的2.5分位数至97.5分位数(n+0.5,N–n+0.5)。以类似的方式计算每日突变患病率,并在此基础上取7天的移动平均值。
突变对(MA和MB)的并发比率计算为含有MA的样本与含有MB的样本的比例。在此基础上,我们构建了每个国家和每个月流行率超过5%的所有突变的并发矩阵。此外,我们将一组并发突变定义为一组突变,每个突变对的并发比率大于75%。
来自同一地理区域的连续两个月的冠状病毒样本被视为两个不同的亚群体,变异流行率的变化将用于估计冠状病毒传播时的遗传漂变。Balding Nichols模型用于估计F统计,它代表两个亚群体之间的平均遗传漂变,然后使用β分布测试来估计亚群体之间每个突变位点的确切遗传漂变强度。
我们研究中采用的Balding-Nichols模型可用以下分布描述(公式1)。
Figure BDA0003478149570000071
其中,Pa和Pb为连续两个月的突变频率,Fab为两个月之间的背景平均遗传漂变。忽略确诊病例的迁移,每个突变位点的患病率符合上述独立的β分布。
为了估计连续两个月各亚群之间的平均遗传漂变,我们采用 Balding-Nichols模型,所有可能的F参数值在0到1之间,每次迭代增加1e-5。选择最终F值以最大化等位基因频率大于0.5‰的突变(公式2)的联合概率密度分布。一旦估计出F参数,我们计算β分布下每个突变位点的遗传漂变p 值。显著的基因漂移可能导致突变占主导地位或从人群中消失。强烈的遗传漂变反映了自然选择的方向和压力。
Figure BDA0003478149570000072
其中,argmax是一个查找F参数的操作,该参数给出目标的最大值,dbeta是beta分布的概率密度函数。
CoVMutIT框架概述了三个定义原则:1)更具传染性的常见突变决定性地增加了固定的流行率,流行率变化的轨迹可归纳为几种不同的诱导模式;2) 突变率的增加具有统计学意义;3)该观察结果在多个地理区域可重复,以发现广泛的突变。我们通过位置和日期跟踪SARS-CoV-2突变,然后为每个已识别的并发突变构建时间依赖性流行轨迹。总之,图2总结了理想情况下竞争性突变的流行轨迹。任何时候在当地人群中流行率超过10%的突变都将被检测,以确定流行率轨迹是否符合总结的模式。对于那些流行轨迹符合总结模式且在多个地理区域中显示重复模式的突变,将被视为候选突变。然后,使用Balding-Nichols模型对每个地理区域突变流行率增加的统计显著性进行检验。总之,符合上述所有标准的突变将被确定为与遗传性增加相关。
2019冠状病毒疾病的病例和死亡2019冠状病毒疾病由约翰霍普金斯大学科学研中心数据系统库(CCSE)下载。 https://github.com/CSSEGISandData/COVID-19)2021年10月8日。为了描述新冠病毒的传播性和病死率,估计了几种常用的定量指标。在这些指标中,各国每日确诊病例和人均死亡人数大致反映了每个区域的流行病学趋势。因此,我们计算了自2020年3月以来每个国家每10000人的每日确诊病例和死亡人数。此外,病死率(CFR)定义为确诊病例中的死亡比例,代表疾病严重程度的衡量标准。为了估计CFR的月平均值,每月确诊病例总数除以在同一估计诊断日期感染的死亡人数,从诊断到死亡的时间延迟设定为14天。
在这项工作中,我们于2021年10月8日从GISAID下载了3505104个 SARS-CoV-2装配[图1中A-B],并从收集的装配中鉴定了99551个突变,其中18893个(18.98%)突变在100多个SARS-CoV-2装配中复发,4336个(4.36%) 突变在1000多个装配中复发。在病毒在人与人之间传播期间,SARS-CoV2 通常每月在整个基因组中累积约1.8个新突变,在Spike基因中累积约0.4个突变[图1中C]。这些数据表明,SARS-CoV-2基因组正在以相对较低的突变率持续进化,这比许多其他RNA病毒要低24。Spike蛋白基因突变在2020 年9月至2021年6月期间迅速增加,然后增长速度减慢,最终与原始 NC_045512.2参考基因组相比,突变的平均数量保持在10左右。[图1中C]。在2020年11月至2021年4月的几个月中,SARS-CoV-2累积突变率略有上升,然后又回落到以前的水平。由于世界各地的SARS-CoV-2菌株正在适应不同的环境,病毒谱系显示出不同的地理分布和遗传多样性。这些 SARS-CoV-2基因组组件的全球遗传多样性以系统发育树的形式呈现[图1中 D]。自从新冠病毒大流行爆发以来,世界许多国家都面临着多波感染。为了说明世界各国的流行病学趋势,计算了每个国家人均每日确诊病例(DCC)、人均每日确诊死亡(DCD)和病死率(CFR)的月平均值,然后,选择对GISAID 贡献最多的前10个国家,并在图中进行总结[图1中E-G]。多波疫情继续对大多数国家构成重大公共卫生威胁,结果表明,在2020年3月至4月、2020 年8月至10月和2021年2月至3月的大流行期间,DCC的月平均值急剧上升。同期DCD的月平均值也显著上升[图1中E]。2019 冠状病毒疾病的早期诊断,治疗手段、疫苗、控制措施等方面的进展,与 CFVID-19流感大流行初期相比,每月CFR平均下降了不同程度。
SARS-CoV-2变异携带加速传播的突变,将更容易传播并逐渐增加流行率,我们总结了与传播率增加相关的谱系流行率变化的典型模式[图2]。作为一个相对简单的案例,(a)当一个更具传染性的新突变出现时,该变体将在一段时间后超越并取代原始循环谱系[图2中A]。然而,当考虑多个突变之间的完成和合作时,情况变得更加复杂。例如,La是一种具有更高传染性的变体, Lb和Lc是比La更具传染性的另外两种变体。此外,Lb携带La的竞争突变,Lc携带La的额外突变。换句话说,Lb是La的一个竞争谱系,Lc是La的一个更具传染性的亚谱系。(b)如果Lb的突变发生在La实现固定后,两个谱系将相互竞争,最终Lb将超越并取代La[图2中A];(c)如果Lb发生在 La固定之前,则Lb将减缓La的扩散,并最终消除La[图2中B];(d)如果Lc发生在La实现固定后,Lc将在不影响La患病率的情况下累积患病率,并且Lc在遗传漂变和自然选择的共同作用下也有一定的概率达到固定[图2中 C];(e)如果Lc发生在La固定之前,则Lc将加速La的增加,最终La将实现固定,Lc在人群中也将达到很大比例,甚至实现固定[图2中D]。
所有与遗传性增加相关的突变都是通过CovMutt框架从历史数据中识别出来的,关于这些突变的完整信息可以在补充材料和在线数据库中找到。总的来说,我们已经从整个SARS-CoV-2基因组中鉴定出238个非同义突变[图 3中A],其中56个位于Spike基因[图3中B],最小秃顶Nichols p值的截止阈值小于1e-10。大多数突变位于ORF1ab(114/238)和Spike(56/238)基因 [图3中C],但ORF8基因每单位基因组长度携带的突变最多(43.8muts/Kb) [图3中D]。在棘突蛋白的RBD区域存在多个突变,包括K417T、K417N、 N440K、L452R、T478K、E484K、E484Q和N501Y[图3中B]。这些突变可能直接改变与受体的亲和力,并导致传播能力、疾病严重程度、免疫和疫苗逃逸的显著变化。
SARS-CoV-2病毒基因组的进化大致可分为三个主要阶段。在COVID2019 冠状病毒疾病的早期阶段,SARS COV-2基因组获得D614G突变,614G谱系逐渐超过原始614D谱系并获得固定。在第二阶段,世界各地不同国家出现了携带不同的、更易传播的突变的多种SARS-CoV-2变种。值得注意的突变包括K417T、K417N、N440K、L452R、T478K、E484K、E484Q和N501Y位于Spike基因的蛋白结合域。同时,携带这些显著突变的最普遍谱系是B.1.177(20A.EU1)、B.1.1.7(α)、B.1.351(β)、P.1(γ)、B.1.616.2(δ)等。在最近阶段,携带L452R/T478K/P681R作为特征突变的δ谱系在全球传播过程中逐渐获得优势,在累积突变流行率的过程中,不断出现更多的突变以产生新的亚谱系。图4和图5显示了这些显著突变在发病率中累积的过程。
21年的中下旬发现了发病率显著增加的突变,这些突变将是我们现在和短期内面临的主要威胁。因此,我们在[表1]中列出了在过去三个月内在任何国家发病率显著增加的S基因突变。这些突变中的大多数是不同δ亚谱系的特征性突变[图6]。从这个角度来看,我们目前面临的新冠病毒变异的主要威胁仍然是δ及其亚谱系。
Figure BDA0003478149570000111
本领域的技术人员可以明确,在不脱离本发明的总体精神以及构思的情形下,可以做出对于以上实施例的各种变型。其均落入本发明的保护范围之内。本发明的保护方案以本发明所附的权利要求书为准。

Claims (8)

1.病毒传播时变异流行率的变化情况评估方法,其特征在于,包括下述步骤:
获取病毒在人群中突变流行率:
将携带特定突变的病毒基因组组件的数量除以给定地理区域内可用的组件总数;
基于Balding-Nichols模型,获取参数F:
针对任一组Pa和Pb值,根据式I中公式,对Fab每次进行迭代增加i,最终选择等位基因频率大于预设值的突变的联合概率密度分布最大化时的Fab作为参数F,
Figure FDA0003478149560000011
其中,0≤F<1,Pa和Pb为连续两个时间区间的突变频率,argmax是一个查找F参数的操作,该参数给出目标的最大值,dbeta是beta分布的概率密度函数;
利用式II,获取β分布下任一突变位点的遗传漂变p值,
Figure FDA0003478149560000012
2.根据权利要求1所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,
获取任一时间区间的突变流行率方式为:特定位置该时间区间包含给定突变的序列计数除以同一位置该时间区间的总序列数。
3.根据权利要求2所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,
获取任一时间区间的突变流行率,至少为下述之一
获取每月的突变流行率:
任一月的突变患病率获取方式为:特定位置当月包含给定突变的序列计数除以同一位置当月的总序列数;及
获取每天的突变流行率:
任一天的突变患病率获取方式为:特定位置n当天包含给定突变的序列计数除以同一位置N当天的总序列数。
4.根据权利要求3所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,
任一月的突变患病率获取中:
突变流行率的95%置信区间计算为Jeffrey区间:β的2.5分位数至97.5分位数(n+0.5,N–n+0.5)。
5.根据权利要求1所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,
基于Balding-Nichols模型,获取参数F步骤中:对Fab每次进行迭代增加1e-5。
6.根据权利要求1所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,
根据遗传漂变p值分析研判:
显著的基因漂移可能导致突变占主导地位或从人群中消失;
强烈的遗传漂变反映了自然选择的方向和压力。
7.根据权利要求1所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,基于Balding-Nichols模型,获取参数F中:预设值为梯度型预设值。
8.根据权利要求7所述的病毒传播时变异流行率的变化情况评估方法,其特征在于,
基于Balding-Nichols模型,获取参数F中:设定的预设值为0.5‰。
CN202210060914.1A 2022-01-19 2022-01-19 基于CovMutt框架检测与遗传性增加相关的突变的方法 Active CN114464246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210060914.1A CN114464246B (zh) 2022-01-19 2022-01-19 基于CovMutt框架检测与遗传性增加相关的突变的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210060914.1A CN114464246B (zh) 2022-01-19 2022-01-19 基于CovMutt框架检测与遗传性增加相关的突变的方法

Publications (2)

Publication Number Publication Date
CN114464246A true CN114464246A (zh) 2022-05-10
CN114464246B CN114464246B (zh) 2023-05-30

Family

ID=81408798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210060914.1A Active CN114464246B (zh) 2022-01-19 2022-01-19 基于CovMutt框架检测与遗传性增加相关的突变的方法

Country Status (1)

Country Link
CN (1) CN114464246B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798578A (zh) * 2022-12-06 2023-03-14 中国人民解放军军事科学院军事医学研究院 一种分析与检测病毒新流行变异株的装置及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101421418A (zh) * 2006-04-10 2009-04-29 杜克大学 检测遗传突变的方法
KR20170091050A (ko) * 2016-01-29 2017-08-08 이화여자대학교 산학협력단 표적 돌연변이 유전자 검출용 미세 유동 장치, 및 표적 유전자 검출용 미세 유동 장치의 검출 효율을 개선하는 방법
CN107636170A (zh) * 2015-02-04 2018-01-26 健泰科生物技术公司 突变型Smoothened及其使用方法
CN108509767A (zh) * 2018-03-30 2018-09-07 北京恒华永力电力工程有限公司 一种遗传突变的处理方法及装置
US20190316209A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-Assay Prediction Model for Cancer Detection
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN111440896A (zh) * 2020-02-25 2020-07-24 广西识远医学检验实验室有限公司 一种新型β冠状病毒变异检测方法、探针和试剂盒
CN112342275A (zh) * 2020-11-26 2021-02-09 厦门大学 一种检测目的核酸是否含有突变的方法和试剂盒
CN113201051A (zh) * 2021-04-27 2021-08-03 复旦大学 一种乙肝病毒表面蛋白突变体及其在抗乙肝病毒中的应用
WO2021195137A1 (en) * 2020-03-23 2021-09-30 Loyola University Of Chicago Coronavirus vaccine compositions and methods of using same
CN113470745A (zh) * 2021-08-25 2021-10-01 南京立顶医疗科技有限公司 SARS-CoV2潜在突变位点的筛选方法及其应用
CN113614246A (zh) * 2019-03-12 2021-11-05 冠科生物技术(苏州)有限公司 用于鉴别肿瘤模型的方法和组合物
CN113755456A (zh) * 2021-09-08 2021-12-07 北京大学 一种复制缺陷型耐药流感病毒及其核酸节段重组率检测方法
CN114286865A (zh) * 2019-05-13 2022-04-05 潘塔贝斯公司 检测变体核酸的解链温度方法、试剂盒和报告寡核苷酸

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101421418A (zh) * 2006-04-10 2009-04-29 杜克大学 检测遗传突变的方法
CN107636170A (zh) * 2015-02-04 2018-01-26 健泰科生物技术公司 突变型Smoothened及其使用方法
KR20170091050A (ko) * 2016-01-29 2017-08-08 이화여자대학교 산학협력단 표적 돌연변이 유전자 검출용 미세 유동 장치, 및 표적 유전자 검출용 미세 유동 장치의 검출 효율을 개선하는 방법
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN108509767A (zh) * 2018-03-30 2018-09-07 北京恒华永力电力工程有限公司 一种遗传突变的处理方法及装置
US20190316209A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-Assay Prediction Model for Cancer Detection
CN113614246A (zh) * 2019-03-12 2021-11-05 冠科生物技术(苏州)有限公司 用于鉴别肿瘤模型的方法和组合物
CN114286865A (zh) * 2019-05-13 2022-04-05 潘塔贝斯公司 检测变体核酸的解链温度方法、试剂盒和报告寡核苷酸
CN111440896A (zh) * 2020-02-25 2020-07-24 广西识远医学检验实验室有限公司 一种新型β冠状病毒变异检测方法、探针和试剂盒
WO2021195137A1 (en) * 2020-03-23 2021-09-30 Loyola University Of Chicago Coronavirus vaccine compositions and methods of using same
CN112342275A (zh) * 2020-11-26 2021-02-09 厦门大学 一种检测目的核酸是否含有突变的方法和试剂盒
CN113201051A (zh) * 2021-04-27 2021-08-03 复旦大学 一种乙肝病毒表面蛋白突变体及其在抗乙肝病毒中的应用
CN113470745A (zh) * 2021-08-25 2021-10-01 南京立顶医疗科技有限公司 SARS-CoV2潜在突变位点的筛选方法及其应用
CN113755456A (zh) * 2021-09-08 2021-12-07 北京大学 一种复制缺陷型耐药流感病毒及其核酸节段重组率检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEXANDRA POPA 等: "Genomic epidemiology of superspreading events in Austria reveals mutational dynamics and transmission properties of SARS-CoV-2", 《SCIENCE TRANSLATIONAL MEDICINE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798578A (zh) * 2022-12-06 2023-03-14 中国人民解放军军事科学院军事医学研究院 一种分析与检测病毒新流行变异株的装置及方法

Also Published As

Publication number Publication date
CN114464246B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Viana et al. Rapid epidemic expansion of the SARS-CoV-2 Omicron variant in southern Africa
Staples et al. Profiling and leveraging relatedness in a precision medicine cohort of 92,455 exomes
US20070065832A1 (en) Computer-implemented biological sequence identifier system and method
CN110241221B (zh) 用于转移性结直肠癌预后预测的试剂盒以及系统
Han et al. Genomic epidemiology of coxsackievirus A16 in mainland of China, 2000–18
Ge et al. Computational analysis of RNA structures with chemical probing data
Nduva et al. HIV-1 transmission patterns within and between risk groups in coastal Kenya
CN114464246A (zh) 基于CovMutt框架检测与遗传性增加相关的突变的方法
Kim et al. Towards realistic benchmarks for multiple alignments of non-coding sequences
Wu et al. MEC: Misassembly error correction in contigs based on distribution of paired-end reads and statistics of GC-contents
Yuan et al. Evolutionary characteristics and genetic transmission patterns of predominant HIV-1 subtypes among men who have sex with men in China
Verhey et al. Antigenic variation in the Lyme spirochete: insights into recombinational switching with a suggested role for error-prone repair
CN109979532B (zh) 甲状腺乳头状癌远处转移分子突变预测模型、方法及系统
Yan et al. Evolution of coronavirus frameshifting elements: Competing stem networks explain conservation and variability
CN110046501B (zh) 一种受生物基因启发的恶意代码检测方法
Franceschi et al. Mutation hotspots, geographical and temporal distribution of SARS-CoV-2 lineages in Brazil, February 2020 to February 2021: insights and limitations from uneven sequencing efforts
Ortiz et al. Within-host diversity improves phylogenetic and transmission reconstruction of SARS-CoV-2 outbreaks
Vrancken et al. Accounting for population structure reveals ambiguity in the Zaire Ebolavirus reservoir dynamics
Wang et al. New framework for recombination and adaptive evolution analysis with application to the novel coronavirus SARS-CoV-2
Mir et al. Inferring population dynamics of HIV-1 subtype C epidemics in Eastern Africa and Southern Brazil applying different Bayesian phylodynamics approaches
Li et al. The emergence and transmission dynamics of HIV-1 CRF07_BC in Mainland China
Trovão et al. Reconstruction of the origin and dispersal of the worldwide dominant Hepatitis B Virus subgenotype D1
Huang et al. Global spread of the B5 subgenotype EV-A71 and the Phylogeographical analysis of Chinese migration events
Lemay et al. k‐mer‐based GWAS enhances the discovery of causal variants and candidate genes in soybean
Molina et al. Utility of secondary structure in phylogenetic reconstructions using nrDNA ITS sequences-An example from Potalieae (Gentianaceae: Asteridae)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant