CN106096276B - 一种基于动态网络标志物的甲流疫情早期预警模型 - Google Patents

一种基于动态网络标志物的甲流疫情早期预警模型 Download PDF

Info

Publication number
CN106096276B
CN106096276B CN201610415107.1A CN201610415107A CN106096276B CN 106096276 B CN106096276 B CN 106096276B CN 201610415107 A CN201610415107 A CN 201610415107A CN 106096276 B CN106096276 B CN 106096276B
Authority
CN
China
Prior art keywords
protein
amino acid
virus
influenza
swin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610415107.1A
Other languages
English (en)
Other versions
CN106096276A (zh
Inventor
高洁
汪康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201610415107.1A priority Critical patent/CN106096276B/zh
Publication of CN106096276A publication Critical patent/CN106096276A/zh
Application granted granted Critical
Publication of CN106096276B publication Critical patent/CN106096276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于动态网络标志物的甲流疫情早期预警模型,属于生物信息学领域。本发明通过利用生物大数据,确定了甲流病毒蛋白质中的关键因子,提取关键网络,利用它的动态性质得到一个复合指标,作为识别甲流爆发过程中的预警信号。本发明可以有效的预测出甲流爆发前的临界点,以提前加强预防措施,防止甲型流感病毒快速的传播,从而有效遏制甲型流感在人群中爆发。

Description

一种基于动态网络标志物的甲流疫情早期预警模型
技术领域
本发明涉及一种基于动态网络标志物的甲流疫情早期预警模型,属于生物信息学领域。
背景技术
研究表明,许多复杂生物过程存在一种普遍临界现象,即由一个相对稳定状态,经过一个临界点后在很短的时间内快速地进入另一个稳定状态。例如甲型流感就存在这样的一种普遍现象,即在很短的时间内从相对稳定状态,经过一个临界点快速进入爆发状态。因此,及时有效地早期预防和控制甲流的爆发,关键在于预测甲流爆发前的临界点。
目前,人们从各个方面对甲型流感进行了研究。Pan等采用实证分析和建模研究方法分析了人类新型流感病例发病模式并观察其时间和空间的属性。Chang等对流感疫苗进行深入研究,从而达到预防流感的效果。Banerjee等对H1N1中的所有HA基因序列的结构特征和全球氨基酸的组成进行全面的比较,描绘出将来H1N1流感进一步发展的可能性。He等是对禽流感病毒HA蛋白质抗原表位的识别进行深入的研究。
网络标志物的概念是随着基因组高通量技术的发展和对分子表达谱的系统化和多维化的研究而建立起来的。它是指一系列标志物以及其相互关系,被提议作为一项新的标志物类型。与传统的生物标志物相比,网络标志物由于考虑了分子间的联系,能够准确地区分疾病状态。但是,它是用于诊断疾病状态,而不是用于预警疾病前的临界状态。
动态网络标志物是在疾病的发展过程中,从疾病的不同阶段进行检测和评估,表现为时间依赖性改变的网络标志物。它研究网络中标志物的位置变化随时间的变化,以及标志物间相互关系随时间的变化,从而构建标志物间相互作用的三维图像。因此,网络标志物的研究侧重于分子间的相互作用,主要用于区分正常和疾病状态,而动态网络标志物注重于标志物的的动态改变,这有助于准确全面地挖掘标志物,能够进一步区分疾病前状态。它不但不依赖于模式方法从小样本中发掘标志物,而且临床应用更容易。同时它将来可用于研究发现在任一生物过程中,例如分化过程、衰老过程和细胞周期中各相改变,关键转变相关的早期预警信号。
发明内容
本发明的目的首先在于提供一种基于动态网络标志物的甲流疫情早期预警模型。甲型流感病毒含有十种不同蛋白质,分别是血凝素(HA),基质蛋白(M),M2蛋白,神经氨酸酶(NA),999,非结构蛋白质2,核衣壳蛋白,PA的RNA聚合酶,PB1的RNA聚合酶和PB2的RNA聚合酶。
所述动态网络标志物是十种蛋白质中CVs值最大的三个为核心蛋白质SDk
其中
其中,f(s,i)表示Es,i中出现1的频数;Es,i的获得过程以甲型流感病毒HA蛋白为例,包括如下步骤:
(1)设定甲型流感病毒HA蛋白质是由u个氨基酸依次链接而成,它的氨基酸序列表示为y=x1x2···xu,其中xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H};i=1,2,···,u;
(2)设定s-1年全世界各地报道了m个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys-1,1,ys-1,2,···,ys-1,m;s年报道了n个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys,1,ys,2,···,ys,n;i年第j个甲型流感病毒HA蛋白质yi,j的氨基酸个数记为ci,j,其中i=s-1,s;j=1,2,···,q;q=max{m,n};
(3)依次取出ys-1,1,ys-1,2,···,ys-1,m中的第h个氨基酸,重新组成一条新的氨基酸序列Zs-1,h,取出Zs-1,h中的出现次数最多的一个氨基酸记为xh,如果出现次数最多的氨基酸有两个或者两个以上,取它们中的首个氨基酸为xh,其中h=1,2,···,k;k=max{cs-1,1,cs-1,2,···,cs-1,m};
(4)把xh依次连接得到一条新的氨基酸序列US-1=x1x2···xk,并分别与ys,1,ys,2,···,ys,n对应的氨基酸进行一一比较,当k>csi时,取US-1中前cs,l个氨基酸与其比较,氨基酸种类不同就赋值为1,反之为0;当k≤cs,l时,取ys,l中前k个氨基酸与US-1进行比较,其中l=1,2,···,n;如此,s年得到n条新的序列,记为Es,1,Es,2,···,Es,n
通过上述公式依次计算得到十种甲型流感病毒蛋白质的CVs,选择其中CVs值最大的三个为核心蛋白质SDk
本发明还提供一种基于所述动态网络标志物的甲流疫情早期预警模型,所述模型是I,是将各核心蛋白质的CVs的算术平均值与核心蛋白质之间特征距离的算术平均值相乘,然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值。具体的,所述I是:
其中,表示核心蛋白质的CVs的算术平均值;是核心蛋白质之间特征距离的算术平均值;是核心蛋白质与非核心蛋白质之间特征距离的算术平均值,
其中,蛋白质之间的特征距离的计算公式是:
其中,v,w分别表示第v和第w种蛋白质,Mvs表示第v种蛋白质的Ms,Mws表示第w种蛋白质的Ms,σvs表示第v种蛋白质的σs,σws表示第w种蛋白质的σs,fvxi(s)表示第v种蛋白质的氨基酸xi(xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H})在s年中的频率,fwxi(s)表示第w种蛋白质的氨基酸xi(i=1,...,20)在s年中的频率;
其中,某一蛋白质中的某一氨基酸xi在s年中的频率的计算公式如下:
其中,表示s年某个蛋白质中的氨基酸xi的频数。
当Is-Is-1≥0.08,并且Is-1<1、Is<1和Is+1≥1时,认定s年为爆发前的临界状态,s+1年为爆发状态。
本发明还提供一种基于早期预警甲流疫情的方法,包括以下步骤:
分别计算甲型流感病毒的十种蛋白质的CVs值,选择十种蛋白质中CVs值最大的三个为核心蛋白质SDk,组成动态网络标志物;
将各核心蛋白质的CVs的算术平均值与核心蛋白质之间特征距离的算术平均值相乘,然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值,得到甲流疫情早期预警模型;
当Is-Is-1≥0.08,并且Is-1<1、Is<1和Is+1≥1时,认定s年为爆发前的临界状态,s+1年为爆发状态。其中,s表示年份。
本发明通过利用生物大数据,确定了甲流病毒蛋白质中的关键因子,提取关键网络,利用它的动态性质得到一个复合指标,作为识别甲流爆发过程中的预警信号。本发明可以有效的预测出甲流爆发前的临界点,以提前加强预防措施,防止甲型流感病毒快速的传播,从而有效遏制甲型流感在人群中爆发。
附图说明
图1 1965~1972年甲流蛋白质I值趋势图
图2 1973~1977年甲流蛋白质I值趋势图
图3 1983~1986年甲流蛋白质I值趋势图
图4 2003~2009年甲流蛋白质I值趋势图
图5 2012~2015年甲流蛋白质I值趋势图
具体实施方式
甲型流感病毒含有十种不同蛋白质,分别是血凝素(HA),基质蛋白(M),M2蛋白,神经氨酸酶(NA),非结构蛋白质1,非结构蛋白质2,核衣壳蛋白,PA的RNA聚合酶,PB1的RNA聚合酶和PB2的RNA聚合酶。它们都是由20种不同的氨基酸链接形成的多聚体。本发明实施例选了1933年到2015年甲流病毒蛋白质氨基酸序列,数据来源于NCBI网站(www.ncbi.nlm.nih.gov/),其中1937、1938、1939、1940、1941、1942、1944、1951、1952、1953、1954和1955年数据丢失。
实施例1定义动态网络标志物及构建模型
定义动态网络标志物
首先,以HA蛋白质为例,假设某个HA蛋白质y是由u个氨基酸依次链接而成,它的氨基酸序列表示为y=x1x2···xu,其中xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H};i=1,2,···,u。假设s-1年全世界各地报道了m个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys-1,1,ys-1,2,···,ys-1,m;s年报道了n个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys,1,ys,2,···,ys,n。i年第j个甲型流感病毒HA蛋白质yi,j的氨基酸个数记为ci,j,其中i=s-1,s;j=1,2,···,q;q=max{m,n}。依次取出ys-1,1,ys-1,2,···,ys-1,m中的第h个氨基酸,重新组成一条新的氨基酸序列Zs-1,h,取出Zs-1,h中的出现次数最多的一个氨基酸记为xh。如果出现次数最多的氨基酸有两个或则两个以上,不失一般性我们取它们中的首个氨基酸为xh,其中h=1,2,···,k;k=max{cs-1,1,cs-1,2,···,cs-1,m}。把xh依次链接得到一条新的氨基酸序列US-1=x1x2···xk,并分别与ys,1,ys,2,···,ys,n对应的氨基酸进行一一比较。当k>csi时,取US-1中前cs,l个氨基酸与其比较,氨基酸种类不同就赋值为1,反之为0;当k≤cs,l时,取ys,l中前k个氨基酸与US-1进行比较,其中l=1,2,···,n。则,s年得到n条新的序列,记为Es,1,Es,2,···,Es,n,i=1,2,3…,n。可以求出它们的平均值Ms、标准差σs和变异系数CVs,公式如下:
其中,f(s,i)表示Es,i中出现1的频数。同理,依次算出其它九种蛋白质的平均值、标准差和变异系数。我们把十种蛋白质中CVs值最大的三个定义为核心蛋白质SDk,其它的为非核心蛋白质SDo。SDk是一组置信度高的相互作用的蛋白质,把它们组成一个子网络,称为甲流病毒蛋白质的动态网络标志物。
甲流疫情早期预警模型
分别求出HA蛋白的20种氨基酸在s年中的频率,公式如下:
其中,其中表示s年某个蛋白质中的氨基酸xi的频数,由此,可以得到一条23维的HA蛋白质特征值向量V(s)。
同理,依次算出其它九种蛋白质氨基酸频率,即得到一个特征矩阵X=[V1(s),V2(s),···,V10(s)];其中Vt(s)表示第t种甲型流感蛋白质特征向量,且t=1,2,···,10。定义蛋白质之间的特征距离:
其中,v,w分别表示第v和第w种蛋白质,Mvs表示第v种蛋白质的Ms,Mws表示第w种蛋白质的Ms,σvs表示第v种蛋白质的σs,σws表示第w种蛋白质的σs,fvxi(s)表示第v种蛋白质的氨基酸xi(xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H})在s年中的频率,fwxi(s)表示第w种蛋白质的氨基酸xi(i=1,...,20)在s年中的频率。
核心蛋白质SDk不仅是探测复杂甲流爆发信号的普遍性指标,也是整个甲流蛋白质系统在发展、变异和爆发临界阶段的主导或驱动网络。实际上,正是核心蛋白质组成的主导网络首先突破了变异的极限,先行进入到变异状态,并进而影响其它蛋白质并导致整个系统的状态转移。因此,确定甲流病毒蛋白质的主导网络,不仅可以探测系统在爆发的前期状态,使早期预警成为可能,也将有助于从网络和动态的层面为进一步揭示甲流病毒蛋白质的潜在机制、寻找甲流爆发的原因。我们通过结合核心蛋白质的以上性质,得到如下一个复合指标:
其中表示核心蛋白质的CVs的算术平均值;是核心蛋白质之间特征距离的算数平均值;是核心蛋白质与非核心蛋白质之间特征距离的算数平均值。
当Is-Is-1≥0.08,并且Is-1<1、Is<1和Is+1≥1时,认定s年处于爆发前的临界状态,s+1年处于爆发状态。
在甲流病毒蛋白质的任何采样区间中,尽管每种蛋白质氨基酸序列会随机波动,但是当甲流病毒接近爆发前的临界状态或者爆发状态,复合指标I能够提供一种可靠的、显著的预警信息。
实施例2甲流病毒爆发预警
甲流病毒从相对稳定状态转变到爆发前的临界状态,再转变到爆发状态的整个过程中它们的动态网络标志物也会随着变化,从而导致整个网络的状态转移,最终导致综合指数的波动。我们可以通过观察I的变换,来预测甲流爆发前的临界状态和爆发状态。
表1选取了1933年到2015年全世界各地报道的甲流病毒蛋白质氨基酸序列,通过实施例1的方法计算出每年的复合指标。但是由于1937、1938、1939、1940、1941、1942、1944、1951、1952、1953、1954和1955年的甲流病毒蛋白质氨基酸序列数据缺失,所以无法算出相对应年份的I值。表1 1934~2015年复合指标值
表1 1934~2015年复合指标值
如图1所示,1965年复合指标I值是0.527201,1966年是0.580452,1967年是0.666783,1968年是2.31271,1969年是1.081257,1970年是0.405805,1971年是0.728516,1972年是2.379322。可以观察到在1965和1966年的I值处在比较低水平,但是1967年有小幅度的上升,并在1968年急剧上升达到最高点。因为I1967-I1966=0.086331>0.08,并且I1966<1、I1967<1、I1968≥1和I1969≥1,所以1967年甲流处于爆发前的临界状态,最终在1968年进入爆发期并持续到1969年。同理,I1971-I1972=0.101088>0.08,并且I1970<1、I1971<1和I1972≥1,因此可以分析出1971年甲流处在爆发前的临界状态,最终在1972年进入爆发状态。实际上,1968年爆发了香港流感并一直持续到1969年,其中有75万人死亡;1972年在中国河南省爆发了流行性感冒,并快速蔓延到全省。
如图2所示,1973年I值是0.79888,1974年是0.527835,1975年是0.801294,1976年是2.275519,1977年是2.182157。可以观察到I值在1973和1974年相对比较稳定,1975年有明显的增大,1976和1977年急剧增加达到最高值。因为I1975-I1974=0.273459>0.08,并且I1974<1、I1975<1、I1976≥1和I1977≥1。所以可以判定1975年甲流处于爆发前的临界状态,1976年进入爆发状态并持续到1977年。实际上,1976至1977年在美国、俄罗斯和日本等地爆发了流感,尽管此次流行为典型的爆发流行,但成年人均为轻微感染,而在青少年发病率很高。
如图3所示,1983年I值是0.449789,1984年是0.354632,1985年是0.939702,1986年是1.166947,1987年是0.655971。可以观察到I值在1983和1984年相对比较稳定,1985年有明显的增大,1986年达到峰值。通过I1985-I1984=0.58507>0.08,并且I1984<1、I1985<1和I1986≥1,可以分析出1985年甲流处在爆发前的临界状态,1986年最终进入爆发状态。实际上,1986年在美国和日本爆发甲型流感,同时亚洲和欧洲的其它许多国家有较多的局部流感爆发。
如图4所示,可以观察到2006和2009年I值达到了了两个高峰值,2005和2008年都比前一年略有提高。可以计算出I2005-I2004=0.318385>0.08,并且I2004<1、I2005<1和I2006<1;I2008-I2007=0.322081>0.08,并且I2007<1、I2008<1和I2009≥1。因此,可以推测出2005和2008年是甲流爆发前的临界状态,2006和2009年是爆发期状态。2006年中国杭州市爆发了甲型流感;2009年由一次新型变体甲型H1N1流感病毒所引发的全球性流感,全世界大约有20﹪的人感染,大约有30万人死亡。
如图5所示,2012年I值是0.635735,2013年是0.606009,2014年是0.806321,2015年是2.516147。可以观察到2014年比2013和2012年略有提高,2015年达到峰值。因为I2014-I2013=0.273459>0.08,并且I2013<1、I2014<1和I2015≥1,所以可以推测出2014年甲流处在爆发前的临界状态,2015年是爆发状态。2015年印度爆发了甲型流感,有1500多人死亡。
综上可知,甲流病毒从相对稳定状态转变到爆发前的临界状态再转变到爆发状态时,复合指标也会随之变动。当I一直处于低值平稳状态,甲流病毒往往一直处在相对稳定状态;当I相对与上一年略有提高时,往往处在甲流爆发前的临界状态;当I急剧增高达到峰值时,往往处在爆发状态。因此,我们就可以通过观察I的变换,就可以预测到甲流爆发前的临界状态和爆发状态。如果I略有升高甚至急剧升高时,这就预警我们这一年甲流处在爆发前的临界状态或爆发状态。因此,要尤为注意此流感病毒,加强预防措施,防止病情扩散,有效的抑制甲型流感的传播。
网络标志物等传统标志物与动态网络标志物相比,做不到甲流爆发前的临界状态提供早期预警信号。这是因为甲流处在正常状态和爆发前状态之间在状态上并无明显的区别。这也充分的说明,在网络层面上考虑系统动态网络标志物,可以更稳定、更准确地判断出甲流病毒所处的状态,尤其是甲流爆发前期状态。这样就可以提前加强预防措施,从而达到早期预警作用。这对甲流病毒的研究和预警有着重要的意义。
虽然本发明已以较佳实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可做各种的改动与修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

Claims (7)

1.一种用于构建甲流疫情早期预警的动态网络标志物的方法,其特征在于,所述动态网络标志物是甲型流感病毒的十种蛋白质中CVs值最大的三个核心蛋白质SDk
式(Ⅰ)中:
式(Ⅱ)、(Ⅲ)中,n表示自然数;f(s,i)表示Es,i中出现1的频数;Es,i的获得过程以甲型流感病毒HA蛋白为例,包括如下步骤:
(1)设定甲型流感病毒HA蛋白质是由u个氨基酸依次链接而成,它的氨基酸序列表示为y=x1x2…xu,其中xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H};i=1,2,…,u;
(2)设定s-1年全世界各地报道了m个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys-1,1,ys-1,2,…,ys-1,m;s年报道了n个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys,1,ys,2,…,ys,n;i年第j个甲型流感病毒HA蛋白质yi,j的氨基酸个数记为ci,j,其中i=s-1,s;j=1,2,…,q;q=max{m,n};
(3)依次取出ys-1,1,ys-1,2,…,ys-1,m中的第h个氨基酸,重新组成一条新的氨基酸序列Zs-1,h,取出Zs-1,h中的出现次数最多的一个氨基酸记为xh,如果出现次数最多的氨基酸有两个或者两个以上,取它们中的首个氨基酸为xh,其中h=1,2,…,k;k=max{cs-1,1,cs-1,2,…,cs-1,m};
(4)把xh依次连接得到一条新的氨基酸序列US-1=x1x2…xk,并分别与ys,1,ys,2,…,ys,n对应的氨基酸进行一一比较,当k>cs,l时,取US-1中前cs,l个氨基酸与其比较,氨基酸种类不同就赋值为1,反之为0;当k≤cs,l时,取ys,l中前k个氨基酸与US-1进行比较,其中l=1,2,…,n;如此,s年得到n条新的序列,记为Es,1,Es,2,…,Es,n
2.根据权利要求1所述的方法,其特征在于,构建的甲流疫情早期预警模型I,是将各核心蛋白质SDk的CVs的算术平均值与核心蛋白质之间特征距离的算术平均值相乘,然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值。
3.根据权利要求2所述的方法,其特征在于,所述的甲流疫情早期预警模型I是:
其中,表示核心蛋白质的CVs的算术平均值;是核心蛋白质之间特征距离的算术平均值;是核心蛋白质与非核心蛋白质之间特征距离的算术平均值。
4.根据权利要求3所述的方法,
其中,蛋白质之间的特征距离的计算公式是:
其中,v,w分别表示第v和第w种蛋白质,Mvs表示第v种蛋白质的Ms,Mws表示第w种蛋白质的Ms,σvs表示第v种蛋白质的σs,σws表示第w种蛋白质的σs,fvxi(s)表示第v种蛋白质的氨基酸xi,其中xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H},在s年中的频率,fwxi(s)表示第w种蛋白质的氨基酸xi,其中i=1,...,20,在s年中的频率。
5.根据权利要求4所述的方法,其特征在于,某一蛋白质中的某一氨基酸xi在s年中的频率的计算公式如下:
其中,表示s年某个蛋白质中的氨基酸xi的频数。
6.根据权利要求2所述的方法,其特征在于,当Is-Is-1≥0.08,并且Is-1<1、Is<1和Is+1≥1时,认定s年为爆发前的临界状态,s+1年为爆发状态。
7.一种基于早期预警甲流疫情的方法,其特征在于,包括以下步骤:
(1)分别计算甲型流感病毒的十种蛋白质的CVs值,选择十种蛋白质中CVs值最大的三个为核心蛋白质SDk,组成动态网络标志物;
式(IV)中:
式(V)、(VI)中,n表示自然数;f(s,i)表示Es,i中出现1的频数;Es,i的获得过程以甲型流感病毒HA蛋白为例,包括如下步骤:
a)设定甲型流感病毒HA蛋白质是由u个氨基酸依次链接而成,它的氨基酸序列表示为y=x1x2…xu,其中xi∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H};i=1,2,…,u;
b)设定s-1年全世界各地报道了m个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys-1,1,ys-1,2,…,ys-1,m;s年报道了n个甲型流感病毒HA蛋白质,它们的氨基酸序列分别是ys,1,ys,2,…,ys,n;i年第j个甲型流感病毒HA蛋白质yi,j的氨基酸个数记为ci,j,其中i=s-1,s;j=1,2,…,q;q=max{m,n};
c)依次取出ys-1,1,ys-1,2,…,ys-1,m中的第h个氨基酸,重新组成一条新的氨基酸序列Zs-1,h,取出Zs-1,h中的出现次数最多的一个氨基酸记为xh,如果出现次数最多的氨基酸有两个或者两个以上,取它们中的首个氨基酸为xh,其中h=1,2,…,k;k=max{cs-1,1,cs-1,2,…,cs-1,m};
d)把xh依次连接得到一条新的氨基酸序列US-1=x1x2…xk,并分别与ys,1,ys,2,…,ys,n对应的氨基酸进行一一比较,当k>cs,l时,取US-1中前cs,l个氨基酸与其比较,氨基酸种类不同就赋值为1,反之为0;当k≤cs,l时,取ys,l中前k个氨基酸与US-1进行比较,其中l=1,2,…,n;如此,s年得到n条新的序列,记为Es,1,Es,2,…,Es,n
(2)将各核心蛋白质的CVs的算术平均值与核心蛋白质之间特征距离的算术平均值相乘,然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值,得到甲流疫情早期预警模型;
(3)当Is-Is-1≥0.08,并且Is-1<1、Is<1和Is+1≥1时,认定s年为爆发前的临界状态,s+1年为爆发状态,其中,s表示年份。
CN201610415107.1A 2016-06-13 2016-06-13 一种基于动态网络标志物的甲流疫情早期预警模型 Active CN106096276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610415107.1A CN106096276B (zh) 2016-06-13 2016-06-13 一种基于动态网络标志物的甲流疫情早期预警模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610415107.1A CN106096276B (zh) 2016-06-13 2016-06-13 一种基于动态网络标志物的甲流疫情早期预警模型

Publications (2)

Publication Number Publication Date
CN106096276A CN106096276A (zh) 2016-11-09
CN106096276B true CN106096276B (zh) 2018-12-04

Family

ID=57847036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610415107.1A Active CN106096276B (zh) 2016-06-13 2016-06-13 一种基于动态网络标志物的甲流疫情早期预警模型

Country Status (1)

Country Link
CN (1) CN106096276B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291991B (zh) * 2017-05-25 2020-08-07 华侨大学 一种基于动态网络标志的风电机组早期缺陷预警方法
CN108172301B (zh) * 2018-01-31 2021-02-02 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
CN108461155B (zh) * 2018-02-26 2021-09-17 云南省疾病预防控制中心 一种关于伤寒与副伤寒肠道传染病疫情的精准控制方法
CN111063451B (zh) * 2020-03-17 2020-07-17 广州地理研究所 基于输入-扩散函数的传染病疫情早期风险态势分析方法
CN111968752B (zh) * 2020-07-27 2022-10-21 华南理工大学 基于最小生成树动态网络标志物的城市流感爆发预测方法
CN111968757A (zh) * 2020-07-27 2020-11-20 华南理工大学 一种基于动态网络标志物的区域性传染病疫情预警方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847179A (zh) * 2010-04-13 2010-09-29 中国疾病预防控制中心病毒病预防控制所 通过模型预测流感抗原的方法及应用
CN104794321A (zh) * 2014-01-21 2015-07-22 中国科学院上海生命科学研究院 用于对前疾病状态进行检测的检测装置及检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847179A (zh) * 2010-04-13 2010-09-29 中国疾病预防控制中心病毒病预防控制所 通过模型预测流感抗原的方法及应用
CN104794321A (zh) * 2014-01-21 2015-07-22 中国科学院上海生命科学研究院 用于对前疾病状态进行检测的检测装置及检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
甲型流感病毒DNA序列的长记忆ARFIMA模型;刘娟等;《物理学报》;20110415;第1-6页 *

Also Published As

Publication number Publication date
CN106096276A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106096276B (zh) 一种基于动态网络标志物的甲流疫情早期预警模型
Zhou et al. Examining the determinants and the spatial nexus of city-level CO2 emissions in China: a dynamic spatial panel analysis of China's cities
WO2013022878A3 (en) Quantitative analysis and visualization of spatial points
Lee et al. Diagnostic testing for pandemic influenza in Singapore: a novel dual-gene quantitative real-time RT-PCR for the detection of influenza A/H1N1/2009
Ma et al. Extracting stage-specific and dynamic modules through analyzing multiple networks associated with cancer progression
Shaffer et al. SCNIC: Sparse correlation network investigation for compositional data
Lamb et al. PconsFam: an interactive database of structure predictions of Pfam families
CN103530229A (zh) 一种考虑测试效用的软件可靠性检测方法
Roy et al. A new approach for root-causing attacks on digital microfluidic devices
CN103744776B (zh) 一种基于符号化函数摘要的静态分析方法及系统
CN109933040A (zh) 基于层次密度峰值聚类和最相似模态的故障监测方法
CN103678709B (zh) 一种基于时序数据的推荐系统攻击检测方法
CN104598302A (zh) 基于资源竞争模型的aadl模型可调度性验证方法
CN103439441A (zh) 一种基于子集错误率估计的肽鉴定方法
CN103218542B (zh) 一种构建蛋白网络的功能指纹图谱的方法
CN105316431A (zh) 同时鉴别感染人的三种H5亚型禽流感病毒组合的GeXP快速检测引物组、试剂盒及其应用
Rasool et al. Inference of genetic regulatory networks using regularized likelihood with covariance estimation
CN101880733A (zh) 一种基于流式微球技术分型检测禽流感病毒方法
CN106342305B (zh) 一种面向多任务要求的测试性指标确定方法
Endo et al. Capturing the transmission dynamics of the 2009 Japanese pandemic influenza H1N1 in the presence of heterogeneous immunity
Lopez-Rincon et al. Specific primer Design for Accurate Detection of SARS-CoV-2 using deep learning
WO2016143337A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
Ma et al. Gene networks in Arabidopsis thaliana for metabolic and environmental functions
Ma et al. FluClass: A novel algorithm and approach to score and visualize the phylogeny of the influenza virus using mass spectrometry
CN105243392A (zh) 一种基于灵敏度分析的非线性支持向量回归特征提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant