CN106096276B

CN106096276B - 一种基于动态网络标志物的甲流疫情早期预警模型

Info

Publication number: CN106096276B
Application number: CN201610415107.1A
Authority: CN
Inventors: 高洁; 汪康
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2018-12-04
Anticipated expiration: 2036-06-13
Also published as: CN106096276A

Abstract

本发明公开了一种基于动态网络标志物的甲流疫情早期预警模型，属于生物信息学领域。本发明通过利用生物大数据，确定了甲流病毒蛋白质中的关键因子，提取关键网络，利用它的动态性质得到一个复合指标，作为识别甲流爆发过程中的预警信号。本发明可以有效的预测出甲流爆发前的临界点，以提前加强预防措施，防止甲型流感病毒快速的传播，从而有效遏制甲型流感在人群中爆发。

Description

一种基于动态网络标志物的甲流疫情早期预警模型

技术领域

本发明涉及一种基于动态网络标志物的甲流疫情早期预警模型，属于生物信息学领域。

背景技术

研究表明，许多复杂生物过程存在一种普遍临界现象，即由一个相对稳定状态，经过一个临界点后在很短的时间内快速地进入另一个稳定状态。例如甲型流感就存在这样的一种普遍现象，即在很短的时间内从相对稳定状态，经过一个临界点快速进入爆发状态。因此，及时有效地早期预防和控制甲流的爆发，关键在于预测甲流爆发前的临界点。

目前，人们从各个方面对甲型流感进行了研究。Pan等采用实证分析和建模研究方法分析了人类新型流感病例发病模式并观察其时间和空间的属性。Chang等对流感疫苗进行深入研究，从而达到预防流感的效果。Banerjee等对H1N1中的所有HA基因序列的结构特征和全球氨基酸的组成进行全面的比较，描绘出将来H1N1流感进一步发展的可能性。He等是对禽流感病毒HA蛋白质抗原表位的识别进行深入的研究。

网络标志物的概念是随着基因组高通量技术的发展和对分子表达谱的系统化和多维化的研究而建立起来的。它是指一系列标志物以及其相互关系，被提议作为一项新的标志物类型。与传统的生物标志物相比，网络标志物由于考虑了分子间的联系，能够准确地区分疾病状态。但是，它是用于诊断疾病状态，而不是用于预警疾病前的临界状态。

动态网络标志物是在疾病的发展过程中，从疾病的不同阶段进行检测和评估，表现为时间依赖性改变的网络标志物。它研究网络中标志物的位置变化随时间的变化，以及标志物间相互关系随时间的变化，从而构建标志物间相互作用的三维图像。因此，网络标志物的研究侧重于分子间的相互作用，主要用于区分正常和疾病状态，而动态网络标志物注重于标志物的的动态改变，这有助于准确全面地挖掘标志物，能够进一步区分疾病前状态。它不但不依赖于模式方法从小样本中发掘标志物，而且临床应用更容易。同时它将来可用于研究发现在任一生物过程中，例如分化过程、衰老过程和细胞周期中各相改变，关键转变相关的早期预警信号。

发明内容

本发明的目的首先在于提供一种基于动态网络标志物的甲流疫情早期预警模型。甲型流感病毒含有十种不同蛋白质，分别是血凝素(HA)，基质蛋白(M)，M2蛋白，神经氨酸酶(NA)，999，非结构蛋白质2，核衣壳蛋白，PA的RNA聚合酶，PB1的RNA聚合酶和PB2的RNA聚合酶。

所述动态网络标志物是十种蛋白质中CV_s值最大的三个为核心蛋白质SD_k：

其中

其中，f(s,i)表示E_s,i中出现1的频数；E_s,i的获得过程以甲型流感病毒HA蛋白为例，包括如下步骤：

(1)设定甲型流感病毒HA蛋白质是由u个氨基酸依次链接而成，它的氨基酸序列表示为y＝x₁x₂···x_u，其中x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H}；i＝1,2,···,u；

(2)设定s-1年全世界各地报道了m个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s-1,1,y_s-1,2,···,y_s-1,m；s年报道了n个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s,1,y_s,2,···,y_s,n；i年第j个甲型流感病毒HA蛋白质y_i,j的氨基酸个数记为c_i,j，其中i＝s-1，s；j＝1,2,···,q；q＝max{m,n}；

(3)依次取出y_s-1,1,y_s-1,2,···,y_s-1,m中的第h个氨基酸，重新组成一条新的氨基酸序列Z_s-1,h，取出Z_s-1,h中的出现次数最多的一个氨基酸记为x_h，如果出现次数最多的氨基酸有两个或者两个以上，取它们中的首个氨基酸为x_h，其中h＝1,2,···,k；k＝max{c_s-1,1,c_s-1,2,···,c_s-1,m}；

(4)把x_h依次连接得到一条新的氨基酸序列U_S-1＝x₁x₂···x_k，并分别与y_s,1,y_s,2,···,y_s,n对应的氨基酸进行一一比较，当k＞c_si时，取U_S-1中前c_s,l个氨基酸与其比较，氨基酸种类不同就赋值为1，反之为0；当k≤c_s,l时，取y_s,l中前k个氨基酸与U_S-1进行比较，其中l＝1,2,···,n；如此，s年得到n条新的序列，记为E_s,1,E_s,2,···,E_s,n；

通过上述公式依次计算得到十种甲型流感病毒蛋白质的CV_s，选择其中CV_s值最大的三个为核心蛋白质SD_k。

本发明还提供一种基于所述动态网络标志物的甲流疫情早期预警模型，所述模型是I，是将各核心蛋白质的CV_s的算术平均值与核心蛋白质之间特征距离的算术平均值相乘，然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值。具体的，所述I是：

其中，表示核心蛋白质的CV_s的算术平均值；是核心蛋白质之间特征距离的算术平均值；是核心蛋白质与非核心蛋白质之间特征距离的算术平均值，

其中，蛋白质之间的特征距离的计算公式是：

其中，v,w分别表示第v和第w种蛋白质，M_vs表示第v种蛋白质的M_s，M_ws表示第w种蛋白质的M_s，σ_vs表示第v种蛋白质的σ_s，σ_ws表示第w种蛋白质的σ_s，f_vxi(s)表示第v种蛋白质的氨基酸x_i(x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H})在s年中的频率，f_wxi(s)表示第w种蛋白质的氨基酸x_i(i＝1,...,20)在s年中的频率；

其中，某一蛋白质中的某一氨基酸x_i在s年中的频率的计算公式如下：

其中，表示s年某个蛋白质中的氨基酸x_i的频数。

当I_s-I_s-1≥0.08，并且I_s-1＜1、I_s＜1和I_s+1≥1时，认定s年为爆发前的临界状态，s+1年为爆发状态。

本发明还提供一种基于早期预警甲流疫情的方法，包括以下步骤：

分别计算甲型流感病毒的十种蛋白质的CV_s值，选择十种蛋白质中CV_s值最大的三个为核心蛋白质SD_k，组成动态网络标志物；

将各核心蛋白质的CV_s的算术平均值与核心蛋白质之间特征距离的算术平均值相乘，然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值，得到甲流疫情早期预警模型；

当I_s-I_s-1≥0.08，并且I_s-1＜1、I_s＜1和I_s+1≥1时，认定s年为爆发前的临界状态，s+1年为爆发状态。其中，s表示年份。

本发明通过利用生物大数据，确定了甲流病毒蛋白质中的关键因子，提取关键网络，利用它的动态性质得到一个复合指标，作为识别甲流爆发过程中的预警信号。本发明可以有效的预测出甲流爆发前的临界点，以提前加强预防措施，防止甲型流感病毒快速的传播，从而有效遏制甲型流感在人群中爆发。

附图说明

图1 1965～1972年甲流蛋白质I值趋势图

图2 1973～1977年甲流蛋白质I值趋势图

图3 1983～1986年甲流蛋白质I值趋势图

图4 2003～2009年甲流蛋白质I值趋势图

图5 2012～2015年甲流蛋白质I值趋势图

具体实施方式

甲型流感病毒含有十种不同蛋白质，分别是血凝素(HA)，基质蛋白(M)，M2蛋白，神经氨酸酶(NA)，非结构蛋白质1，非结构蛋白质2，核衣壳蛋白，PA的RNA聚合酶，PB1的RNA聚合酶和PB2的RNA聚合酶。它们都是由20种不同的氨基酸链接形成的多聚体。本发明实施例选了1933年到2015年甲流病毒蛋白质氨基酸序列，数据来源于NCBI网站(www.ncbi.nlm.nih.gov/)，其中1937、1938、1939、1940、1941、1942、1944、1951、1952、1953、1954和1955年数据丢失。

实施例1定义动态网络标志物及构建模型

定义动态网络标志物

首先，以HA蛋白质为例，假设某个HA蛋白质y是由u个氨基酸依次链接而成，它的氨基酸序列表示为y＝x₁x₂···x_u，其中x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H}；i＝1,2,···,u。假设s-1年全世界各地报道了m个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s-1,1,y_s-1,2,···,y_s-1,m；s年报道了n个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s,1,y_s,2,···,y_s,n。i年第j个甲型流感病毒HA蛋白质y_i,j的氨基酸个数记为c_i,j，其中i＝s-1，s；j＝1,2,···,q；q＝max{m,n}。依次取出y_s-1,1,y_s-1,2,···,y_s-1,m中的第h个氨基酸，重新组成一条新的氨基酸序列Z_s-1,h，取出Z_s-1,h中的出现次数最多的一个氨基酸记为x_h。如果出现次数最多的氨基酸有两个或则两个以上，不失一般性我们取它们中的首个氨基酸为x_h，其中h＝1,2,···,k；k＝max{c_s-1,1,c_s-1,2,···,c_s-1,m}。把x_h依次链接得到一条新的氨基酸序列U_S-1＝x₁x₂···x_k，并分别与y_s,1,y_s,2,···,y_s,n对应的氨基酸进行一一比较。当k＞c_si时，取U_S-1中前c_s,l个氨基酸与其比较，氨基酸种类不同就赋值为1，反之为0；当k≤c_s,l时，取y_s,l中前k个氨基酸与U_S-1进行比较，其中l＝1,2,···,n。则，s年得到n条新的序列，记为E_s,1,E_s,2,···,E_s,n，i＝1,2,3…,n。可以求出它们的平均值M_s、标准差σ_s和变异系数CV_s，公式如下：

其中，f(s,i)表示E_s,i中出现1的频数。同理，依次算出其它九种蛋白质的平均值、标准差和变异系数。我们把十种蛋白质中CV_s值最大的三个定义为核心蛋白质SD_k，其它的为非核心蛋白质SD_o。SD_k是一组置信度高的相互作用的蛋白质，把它们组成一个子网络，称为甲流病毒蛋白质的动态网络标志物。

甲流疫情早期预警模型

分别求出HA蛋白的20种氨基酸在s年中的频率，公式如下：

其中，其中表示s年某个蛋白质中的氨基酸x_i的频数，由此，可以得到一条23维的HA蛋白质特征值向量V(s)。

同理，依次算出其它九种蛋白质氨基酸频率，即得到一个特征矩阵X＝[V₁(s),V₂(s),···,V₁₀(s)]；其中V_t(s)表示第t种甲型流感蛋白质特征向量，且t＝1,2,···,10。定义蛋白质之间的特征距离：

其中，v,w分别表示第v和第w种蛋白质，M_vs表示第v种蛋白质的M_s，M_ws表示第w种蛋白质的M_s，σ_vs表示第v种蛋白质的σ_s，σ_ws表示第w种蛋白质的σ_s，f_vxi(s)表示第v种蛋白质的氨基酸x_i(x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H})在s年中的频率，f_wxi(s)表示第w种蛋白质的氨基酸x_i(i＝1,...,20)在s年中的频率。

核心蛋白质SD_k不仅是探测复杂甲流爆发信号的普遍性指标，也是整个甲流蛋白质系统在发展、变异和爆发临界阶段的主导或驱动网络。实际上，正是核心蛋白质组成的主导网络首先突破了变异的极限，先行进入到变异状态，并进而影响其它蛋白质并导致整个系统的状态转移。因此，确定甲流病毒蛋白质的主导网络，不仅可以探测系统在爆发的前期状态，使早期预警成为可能，也将有助于从网络和动态的层面为进一步揭示甲流病毒蛋白质的潜在机制、寻找甲流爆发的原因。我们通过结合核心蛋白质的以上性质，得到如下一个复合指标：

其中表示核心蛋白质的CV_s的算术平均值；是核心蛋白质之间特征距离的算数平均值；是核心蛋白质与非核心蛋白质之间特征距离的算数平均值。

当I_s-I_s-1≥0.08，并且I_s-1＜1、I_s＜1和I_s+1≥1时，认定s年处于爆发前的临界状态，s+1年处于爆发状态。

在甲流病毒蛋白质的任何采样区间中，尽管每种蛋白质氨基酸序列会随机波动，但是当甲流病毒接近爆发前的临界状态或者爆发状态，复合指标I能够提供一种可靠的、显著的预警信息。

实施例2甲流病毒爆发预警

甲流病毒从相对稳定状态转变到爆发前的临界状态，再转变到爆发状态的整个过程中它们的动态网络标志物也会随着变化，从而导致整个网络的状态转移，最终导致综合指数的波动。我们可以通过观察I的变换，来预测甲流爆发前的临界状态和爆发状态。

表1选取了1933年到2015年全世界各地报道的甲流病毒蛋白质氨基酸序列，通过实施例1的方法计算出每年的复合指标。但是由于1937、1938、1939、1940、1941、1942、1944、1951、1952、1953、1954和1955年的甲流病毒蛋白质氨基酸序列数据缺失，所以无法算出相对应年份的I值。表1 1934～2015年复合指标值

表1 1934～2015年复合指标值

如图1所示，1965年复合指标I值是0.527201，1966年是0.580452，1967年是0.666783，1968年是2.31271，1969年是1.081257，1970年是0.405805，1971年是0.728516，1972年是2.379322。可以观察到在1965和1966年的I值处在比较低水平，但是1967年有小幅度的上升，并在1968年急剧上升达到最高点。因为I₁₉₆₇-I₁₉₆₆＝0.086331＞0.08，并且I₁₉₆₆＜1、I₁₉₆₇＜1、I₁₉₆₈≥1和I₁₉₆₉≥1，所以1967年甲流处于爆发前的临界状态，最终在1968年进入爆发期并持续到1969年。同理，I₁₉₇₁-I₁₉₇₂＝0.101088＞0.08，并且I₁₉₇₀＜1、I₁₉₇₁＜1和I₁₉₇₂≥1，因此可以分析出1971年甲流处在爆发前的临界状态，最终在1972年进入爆发状态。实际上，1968年爆发了香港流感并一直持续到1969年，其中有75万人死亡；1972年在中国河南省爆发了流行性感冒，并快速蔓延到全省。

如图2所示，1973年I值是0.79888，1974年是0.527835，1975年是0.801294，1976年是2.275519，1977年是2.182157。可以观察到I值在1973和1974年相对比较稳定，1975年有明显的增大，1976和1977年急剧增加达到最高值。因为I₁₉₇₅-I₁₉₇₄＝0.273459＞0.08，并且I₁₉₇₄＜1、I₁₉₇₅＜1、I₁₉₇₆≥1和I₁₉₇₇≥1。所以可以判定1975年甲流处于爆发前的临界状态，1976年进入爆发状态并持续到1977年。实际上，1976至1977年在美国、俄罗斯和日本等地爆发了流感，尽管此次流行为典型的爆发流行，但成年人均为轻微感染，而在青少年发病率很高。

如图3所示，1983年I值是0.449789，1984年是0.354632，1985年是0.939702，1986年是1.166947，1987年是0.655971。可以观察到I值在1983和1984年相对比较稳定，1985年有明显的增大，1986年达到峰值。通过I₁₉₈₅-I₁₉₈₄＝0.58507＞0.08，并且I₁₉₈₄＜1、I₁₉₈₅＜1和I₁₉₈₆≥1，可以分析出1985年甲流处在爆发前的临界状态，1986年最终进入爆发状态。实际上，1986年在美国和日本爆发甲型流感，同时亚洲和欧洲的其它许多国家有较多的局部流感爆发。

如图4所示，可以观察到2006和2009年I值达到了了两个高峰值，2005和2008年都比前一年略有提高。可以计算出I₂₀₀₅-I₂₀₀₄＝0.318385＞0.08，并且I₂₀₀₄＜1、I₂₀₀₅＜1和I₂₀₀₆＜1；I₂₀₀₈-I₂₀₀₇＝0.322081>0.08,并且I₂₀₀₇＜1、I₂₀₀₈＜1和I₂₀₀₉≥1。因此，可以推测出2005和2008年是甲流爆发前的临界状态，2006和2009年是爆发期状态。2006年中国杭州市爆发了甲型流感；2009年由一次新型变体甲型H1N1流感病毒所引发的全球性流感，全世界大约有20﹪的人感染，大约有30万人死亡。

如图5所示，2012年I值是0.635735，2013年是0.606009，2014年是0.806321，2015年是2.516147。可以观察到2014年比2013和2012年略有提高，2015年达到峰值。因为I₂₀₁₄-I₂₀₁₃＝0.273459＞0.08，并且I₂₀₁₃＜1、I₂₀₁₄＜1和I₂₀₁₅≥1，所以可以推测出2014年甲流处在爆发前的临界状态，2015年是爆发状态。2015年印度爆发了甲型流感，有1500多人死亡。

综上可知，甲流病毒从相对稳定状态转变到爆发前的临界状态再转变到爆发状态时，复合指标也会随之变动。当I一直处于低值平稳状态，甲流病毒往往一直处在相对稳定状态；当I相对与上一年略有提高时，往往处在甲流爆发前的临界状态；当I急剧增高达到峰值时，往往处在爆发状态。因此，我们就可以通过观察I的变换，就可以预测到甲流爆发前的临界状态和爆发状态。如果I略有升高甚至急剧升高时，这就预警我们这一年甲流处在爆发前的临界状态或爆发状态。因此，要尤为注意此流感病毒，加强预防措施，防止病情扩散，有效的抑制甲型流感的传播。

网络标志物等传统标志物与动态网络标志物相比，做不到甲流爆发前的临界状态提供早期预警信号。这是因为甲流处在正常状态和爆发前状态之间在状态上并无明显的区别。这也充分的说明，在网络层面上考虑系统动态网络标志物，可以更稳定、更准确地判断出甲流病毒所处的状态，尤其是甲流爆发前期状态。这样就可以提前加强预防措施，从而达到早期预警作用。这对甲流病毒的研究和预警有着重要的意义。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种用于构建甲流疫情早期预警的动态网络标志物的方法，其特征在于，所述动态网络标志物是甲型流感病毒的十种蛋白质中CV_s值最大的三个核心蛋白质SD_k：

式(Ⅰ)中：

式(Ⅱ)、(Ⅲ)中，n表示自然数；f(s,i)表示E_s,i中出现1的频数；E_s,i的获得过程以甲型流感病毒HA蛋白为例，包括如下步骤：

(1)设定甲型流感病毒HA蛋白质是由u个氨基酸依次链接而成，它的氨基酸序列表示为y＝x₁x₂…x_u，其中x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H}；i＝1,2,…,u；

(2)设定s-1年全世界各地报道了m个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s-1,1,y_s-1,2,…,y_s-1,m；s年报道了n个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s,1,y_s,2,…,y_s,n；i年第j个甲型流感病毒HA蛋白质y_i,j的氨基酸个数记为c_i,j，其中i＝s-1，s；j＝1,2,…,q；q＝max{m,n}；

(3)依次取出y_s-1,1,y_s-1,2,…,y_s-1,m中的第h个氨基酸，重新组成一条新的氨基酸序列Z_s-1,h，取出Z_s-1,h中的出现次数最多的一个氨基酸记为x_h，如果出现次数最多的氨基酸有两个或者两个以上，取它们中的首个氨基酸为x_h，其中h＝1,2,…,k；k＝max{c_s-1,1,c_s-1,2,…,c_s-1,m}；

(4)把x_h依次连接得到一条新的氨基酸序列U_S-1＝x₁x₂…x_k，并分别与y_s,1,y_s,2,…,y_s,n对应的氨基酸进行一一比较，当k＞c_s,l时，取U_S-1中前c_s,l个氨基酸与其比较，氨基酸种类不同就赋值为1，反之为0；当k≤c_s,l时，取y_s,l中前k个氨基酸与U_S-1进行比较，其中l＝1,2,…,n；如此，s年得到n条新的序列，记为E_s,1,E_s,2,…,E_s,n。

2.根据权利要求1所述的方法，其特征在于，构建的甲流疫情早期预警模型I，是将各核心蛋白质SD_k的CV_s的算术平均值与核心蛋白质之间特征距离的算术平均值相乘，然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值。

3.根据权利要求2所述的方法，其特征在于，所述的甲流疫情早期预警模型I是：

其中，表示核心蛋白质的CV_s的算术平均值；是核心蛋白质之间特征距离的算术平均值；是核心蛋白质与非核心蛋白质之间特征距离的算术平均值。

4.根据权利要求3所述的方法，

其中，蛋白质之间的特征距离的计算公式是：

其中，v,w分别表示第v和第w种蛋白质，M_vs表示第v种蛋白质的M_s，M_ws表示第w种蛋白质的M_s，σ_vs表示第v种蛋白质的σ_s，σ_ws表示第w种蛋白质的σ_s，f_vxi(s)表示第v种蛋白质的氨基酸x_i，其中x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H}，在s年中的频率，f_wxi(s)表示第w种蛋白质的氨基酸x_i，其中i＝1,...,20，在s年中的频率。

5.根据权利要求4所述的方法，其特征在于，某一蛋白质中的某一氨基酸x_i在s年中的频率的计算公式如下：

其中，表示s年某个蛋白质中的氨基酸x_i的频数。

6.根据权利要求2所述的方法，其特征在于，当I_s-I_s-1≥0.08，并且I_s-1＜1、I_s＜1和I_s+1≥1时，认定s年为爆发前的临界状态，s+1年为爆发状态。

7.一种基于早期预警甲流疫情的方法，其特征在于，包括以下步骤：

(1)分别计算甲型流感病毒的十种蛋白质的CV_s值，选择十种蛋白质中CV_s值最大的三个为核心蛋白质SD_k，组成动态网络标志物；

式(IV)中：

式(V)、(VI)中，n表示自然数；f(s,i)表示E_s,i中出现1的频数；E_s,i的获得过程以甲型流感病毒HA蛋白为例，包括如下步骤：

a)设定甲型流感病毒HA蛋白质是由u个氨基酸依次链接而成，它的氨基酸序列表示为y＝x₁x₂…x_u，其中x_i∈{A,V,L,I,P,F,W,M,D,E,G,S,T,C,Y,N,Q,K,R,H}；i＝1,2,…,u；

b)设定s-1年全世界各地报道了m个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s-1,1,y_s-1,2,…,y_s-1,m；s年报道了n个甲型流感病毒HA蛋白质，它们的氨基酸序列分别是y_s,1,y_s,2,…,y_s,n；i年第j个甲型流感病毒HA蛋白质y_i,j的氨基酸个数记为c_i,j，其中i＝s-1，s；j＝1,2,…,q；q＝max{m,n}；

c)依次取出y_s-1,1,y_s-1,2,…,y_s-1,m中的第h个氨基酸，重新组成一条新的氨基酸序列Z_s-1,h，取出Z_s-1,h中的出现次数最多的一个氨基酸记为x_h，如果出现次数最多的氨基酸有两个或者两个以上，取它们中的首个氨基酸为x_h，其中h＝1,2,…,k；k＝max{c_s-1,1,c_s-1,2,…,c_s-1,m}；

d)把x_h依次连接得到一条新的氨基酸序列U_S-1＝x₁x₂…x_k，并分别与y_s,1,y_s,2,…,y_s,n对应的氨基酸进行一一比较，当k＞c_s,l时，取U_S-1中前c_s,l个氨基酸与其比较，氨基酸种类不同就赋值为1，反之为0；当k≤c_s,l时，取y_s,l中前k个氨基酸与U_S-1进行比较，其中l＝1,2,…,n；如此，s年得到n条新的序列，记为E_s,1,E_s,2,…,E_s,n；

(2)将各核心蛋白质的CV_s的算术平均值与核心蛋白质之间特征距离的算术平均值相乘，然后除以核心蛋白质与非核心蛋白质之间特征距离的算术平均值，得到甲流疫情早期预警模型；

(3)当I_s-I_s-1≥0.08，并且I_s-1＜1、I_s＜1和I_s+1≥1时，认定s年为爆发前的临界状态，s+1年为爆发状态，其中，s表示年份。