CN111914516B - 一种网络数据预测序列生成方法、装置、设备及存储介质 - Google Patents
一种网络数据预测序列生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111914516B CN111914516B CN202010843566.6A CN202010843566A CN111914516B CN 111914516 B CN111914516 B CN 111914516B CN 202010843566 A CN202010843566 A CN 202010843566A CN 111914516 B CN111914516 B CN 111914516B
- Authority
- CN
- China
- Prior art keywords
- sequence
- network data
- entropy
- prediction
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005429 filling process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000728173 Sarima Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种网络数据预测序列生成方法、装置、设备及计算机可读存储介质,该方法包括:获取网络数据序列,并分别基于多种预测序列生成算法,生成网络数据序列对应的多个初始预测序列;分别计算各个初始预测序列与网络数据序列之间的熵差值;在各个熵差值中确定最小熵差值,并将最小熵差值对应的目标初始预测序列确定为网络数据预测序列;通过计算熵差值的方式,可以在多个初始预测序列中选择与网络数据序列最相似的一个作为网络数据预测序列,提高了网络数据预测序列的准确度。
Description
技术领域
本申请涉及网络安全技术领域,特别涉及一种网络数据预测序列生成方法、网络数据预测序列生成装置、网络数据预测序列生成设备及计算机可读存储介质。
背景技术
时间序列是按时间顺序排列的一组数字序列,许多行业或场景的数据都具有自相似性,因此当其以时间序列的形式给出时,则根据历史数据对未来进行预测。如在网络安全领域,通过将历史数据之后的真实的流量时序和基于历史数据得到的预测时间序列进行比较,确定二者之间的偏离程度,可以判断流量是否存在异常情况。相关技术在生成预测序列时,常用以下几种方法:通过传统时序建模方法预测,如ARMA、ARIMA、STL分解等线性模型,指数平滑、多项式回归等非线性模型;通过数据集标签,进行有监督学习预测,如XBGBOOT、LSTM模型、时间卷积网等;通过深度学习网络预测,如CNN、RNN、ATTENTION等结合。但是,不同种类的预测序列生成方法适用于不用的场景,而在很多场景下无法确定应该使用哪种方法,若采用了不合适的方法,则生成的预测序列不准确,进而导致根据其进行网络安全检测无法得到准确地结果。
因此,如何解决预测序列不准确的问题,是本领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种网络数据预测序列生成方法、网络数据预测序列生成装置、网络数据预测序列生成设备及计算机可读存储介质,提高了网络数据预测序列的准确度。
为解决上述技术问题,本申请提供了一种网络数据预测序列生成方法,包括:
获取网络数据序列,并分别基于多种预测序列生成算法,生成所述网络数据序列对应的多个初始预测序列;
分别计算各个所述初始预测序列与所述网络数据序列之间的熵差值;
在各个所述熵差值中确定最小熵差值,并将所述最小熵差值对应的目标初始预测序列确定为网络数据预测序列。
可选地,所述分别计算各个所述初始预测序列与所述网络数据序列之间的熵差值,包括:
计算所述网络数据序列的第一样本熵,以及各个所述初始预测序列分别对应的第二样本熵;
利用所述第一样本熵分别和所述第二样本熵做差,得到所述熵差值。
可选地,所述计算所述网络数据序列的第一样本熵,以及各个所述初始预测序列分别对应的第二样本熵,包括:
利用样本熵算法计算所述网络数据序列的所述第一样本熵;
利用网络数据序列分别和各个所述初始预测序列进行组合,得到多个中间序列;
利用所述样本熵算法计算各个所述中间序列对应的样本熵,并将所述中间序列对应的样本熵确定为对应的初始预测序列的所述第二样本熵。
可选地,所述计算所述网络数据序列的第一样本熵,包括:
利用所述网络数据序列生成多个第一向量和多个第二向量;
确定各个所述第一向量之间的第一最大距离和各个所述第二向量之间的第二最大距离;
利用所述第一最大距离计算第一均值,并利用所述第二最大距离计算第二均值;
利用所述第一均值和所述第二均值得到所述第一样本熵。
可选地,所述获取网络数据序列,包括:
获取初始数据序列,并对所述初始数据序列进行缺失值填充处理和/或异常值替换处理,得到所述网络数据序列。
可选地,还包括:
将所述目标初始预测序列对应的目标预测序列生成算法确定为默认预测算法。
可选地,在得到所述网络数据预测序列后,还包括:
利用所述网络数据预测序列进行网络安全检测。
本申请还提供了一种网络数据预测序列生成装置,包括:
生成模块,用于获取网络数据序列,并分别基于多种预测序列生成算法,生成所述网络数据序列对应的多个初始预测序列;
熵差值计算模块,用于分别计算各个所述初始预测序列与所述网络数据序列之间的熵差值;
确定模块,用于在各个所述熵差值中确定最小熵差值,并将所述最小熵差值对应的目标初始预测序列确定为网络数据预测序列。
本申请还提供了一种网络数据预测序列生成设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现上述的网络数据预测序列生成方法。
本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的网络数据预测序列生成方法。
本申请提供的网络数据预测序列生成方法,获取网络数据序列,并分别基于多种预测序列生成算法,生成网络数据序列对应的多个初始预测序列;分别计算各个初始预测序列与网络数据序列之间的熵差值;在各个熵差值中确定最小熵差值,并将最小熵差值对应的目标初始预测序列确定为网络数据预测序列。
可见,该方法在获取网络数据序列后,基于多种不同的预测序列生成算法分别生成网络数据序列对应的初始预测序列。熵差值可以用于表示初始预测序列和网络数据序列的相似程度,熵差值越大,二者相似程度越低,熵差值越小,二者相似程度越高。通过计算各个初始预测序列与网络数据序列之间的熵差值,可以确定网络数据序列分别与各个初始预测序列的相似程度的高低。在得到熵差值后,在各个熵差值中确定对应的的最小熵差值,最小熵差值对应的目标初始预测序列与网络数据预测序列最为相似。由于网络数据序列本身具有自相似性,基于网络数据序列得到的网络数据预测序列应当与网络数据序列非常相似,因此将目标初始预测序列确定为网络数据预测序列。通过计算熵差值的方式,可以在多个初始预测序列中选择与网络数据序列最相似的一个作为网络数据预测序列,提高了网络数据预测序列的准确度,解决了相关技术在生成预测序列时,预测序列不准确的问题。
此外,本申请还提供了一种网络数据预测序列生成装置、网络数据预测序列生成设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种网络数据预测序列生成方法流程图;
图2为本申请实施例提供的一种网络数据预测序列生成装置的结构示意图;
图3为本申请实施例提供的一种网络数据预测序列生成设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在一种可能的实施方式中,请参考图1,图1为本申请实施例提供的一种网络数据预测序列生成方法流程图。该方法包括:
S101:获取网络数据序列,并分别基于多种预测序列生成算法,生成网络数据序列对应的多个初始预测序列。
网络数据序列为具有自相关性的网络数据时间序列,即网络数据按照时间先后排列为序列后,具有自相关性的序列即可作为网络数据序列。网络数据序列的具体内容不做限定,例如可以为访问用户数量、入字节流量、出字节流量等。自相关性是指若随机误差项的各期望值之间存在着相关关系,称随机误差项之间存在自相关性(autocorrelation)或序列相关。网络数据序列的具体获取方式本实施例不做限定,例如可以由用户或其它设备输入,例如通过目标端口或接口输入;或者可以从预设路径获取文件(例如日志文件),从文件中获取网络数据序列。网络数据序列可以按照预设周期获取,或者可以在检测到获取指令时获取,对此不做限定。在得到网络数据序列后,可以将其分别输入到各种预测序列生成算法中,以便利用其生成对应的初始预测序列。
预测序列生成算法众多,例如通过传统时序建模方法预测的算法,如ARMA(Auto-Regressive and Moving Average Model)、ARIMA(Autoregressive Integrated MovingAverage Model,自回归移动平均模型)、STL(Seasonal-Trend decomposition procedurebased on Loess)分解等线性模型,指数平滑、多项式回归等非线性模型。或者为通过数据集标签,进行有监督学习预测的算法,如XBGBOOT、LSTM(Long Short-Term Memory,长短期记忆网络)模型、时间卷积网等。或者为通过深度学习网络预测的算法,如CNN、RNN、ATTENTION(Attention Mechanism,注意力机制)等结合。本实施例并不限定采用的预测序列生成算法,例如可以包括指数平滑、多项式回归、ARIMA、STL分解、小波分解、卡尔曼滤波模型、灰色模型、SARIMA模型、Box-Cox变换模型、LSTM等算法。基于各种预测序列生成算法,利用相同的网络数据序列可以得到对应的多个初始预测序列。
在一种实施方式中,从网络中或日志文件等文件中无法直接获取到网络数据序列,需要对获取到的初始数据序列进行处理,以便在处理后得到满足要求的网络数据序列。获取网络数据序列的步骤可以包括:
步骤11:获取初始数据序列,并对初始数据序列进行缺失值填充处理和/或异常值替换处理,得到网络数据序列。
初始数据序列即为直接获取到的数据序列,为了提高网络数据预测序列的准确性,需要得到无缺失值和/或无异常值的网络数据序列。因此在获取初始数据序列后对其进行缺失值填充处理和/或异常值替换处理,具体的,可以对初始数据序列进行缺失值检测,判断序列中的各个相邻元素之间的时间间隔是否相同或相近。若存在明显大于其他时间间隔的特殊时间间隔,则可以确定该特殊时间间隔内缺失了元素,需要进行缺失值填充处理。或者可以判断各个元素中是否存在异常元素,例如明显大于或小于其他元素的元素可以被确定为异常元素,若存在异常元素,则需要进行异常值替换处理。需要说明的是,本实施例并不限定缺失值填充处理或异常值替换处理的具体处理方式,例如可以选择滑动平均法,即在存在缺失值时,利用根据滑动平均法得到的平均值填补缺失值;在确定异常值时,利用根据滑动平均法得到的平均值替换异常值。
在一种具体的实施方式中,初始数据序列从网络日志中得到,初始数据序列的长度为N,可以用u(1),u(2),...,u(N)表示。具体的,网络日志为表1所示:
时间 | 网站登录用户数量 |
2020-03-01 | 123 |
2020-03-02 | 145 |
2020-03-03 | 137 |
2020-03-04 | 119 |
2020-03-05 | |
2020-03-06 | 140 |
2020-03-07 | 168 |
2020-03-08 | 126 |
2020-03-09 | 134 |
2020-03-10 | 7 |
...... | ...... |
表1
可以确定u(1)=123,u(2)=145,u(3)=137......。在得到初始数据序列后,2020-03-04与2020-03-06之间的事件间隔大于其他元素间的事件间隔,则确定2020-03-05缺失了对应的元素,即出现了缺失值,需要进行缺失值填充处理。本实施例中采用滑动平均法进行缺失值填充处理。若时序中的第i个位置数据为缺失数据,则取前后w个数据的平均值作为插补数据。w的具体大小不做限定,如取w=3,则
u(i)=[u(i-3)+u(i-2)+u(i-1)+u(i+1)+u(i+2)+u(i+3)]/6
在表1示例中,时间2020-03-05所对应的网站登录用户数量缺失,以滑动平均法插补,则u(5)=[u(5-3)+u(5-2)+u(5-1)+u(5+1)+u(5+2)+u(5+3)]/6=139。
在对缺失值进行填充后,可以计算初始数据序列的均值v和标准差σ,根据均值和标准差确定合理的序列幅值范围,将序列幅值范围外的数据确定为异常值。去除合理范围之外的数值,补入合理数值,完成异常值替换处理。
本实施例中,可以以均值加减三个标准差确定序列幅值范围,若时序中的某个值u(j)>v+3*σ或u(j)<v-3*σ,则u(j)为异常值,补入合理u(j)为
u(j)=[u(j-3)+u(j-2)+u(j-1)+u(j+1)+u(j+2)+u(j+3)]/6
在表1示例中,时间2020-03-10所对应的网站登录用户数量异常,可以按照上述方式完成异常值替换处理。在完成对初始数据序列的处理后即可得到网络数据序列。
进一步,各种预测序列生成算法的计算方式不同,因此利用同一个网络数据序列进行计算直接得到的初始序列的长度可能不同。在这种情况下,可以对初始序列进行等长处理,以便保证网络数据预测序列的准确性。分别基于多种预测序列生成算法,生成网络数据序列对应的多个初始预测序列的步骤可以包括:
步骤21:分别基于各个预测序列生成算法,生成对应的多个初始序列。
步骤22:对各个初始序列进行等长处理,得到初始预测序列。
等长处理的具体处理方式不做限定,例如可以按照最短的初始序列的长度进行最短对齐,即可完成等长处理。
在另一种实施方式中,可以对各个预测序列生成算法进行设置,指定各个预测序列生成算法生成的初始序列的长度,例如为L。在这种情况下,可以不对初始序列进行等长处理,直接将其确定为初始预测序列。
S102:分别计算各个初始预测序列与网络数据序列之间的熵差值。
熵差值可以用于表示初始预测序列与网络数据序列之间的相似程度,由于网络数据序列具有自相似性,而熵差值表示了网络数据序列和初始预测序列的相似程度,因此可以根据熵差值判断初始预测序列的准确性。具体的,利用相同的熵值计算方式计算各个初始预测序列和网络数据序列对应的熵值,并分别利用各个初始预测序列对应的熵值与和网络数据序列的熵值做差,得到各个初始预测序列与网络数据序列之间的熵差值。需要说明的是,本实施例并不限定熵值的具体计算方式,例如可以为模糊熵计算方式,或者可以为样本熵计算方式,或者可以为近似熵计算方式。
在一种实施方式中,可以计算网络数据序列和初始预测序列的样本熵,并利用样本熵计算熵差值。具体的,S102步骤可以包括:
步骤31:计算网络数据序列的第一样本熵,以及各个初始预测序列分别对应的第二样本熵。
步骤32:利用第一样本熵分别和第二样本熵做差,得到熵差值。
样本熵(Sample Entropy,SampEn)通过度量信号中产生新模式的概率大小来衡量时间序列复杂性,新模式产生的概率越大,序列的复杂性就越大。样本熵的计算不依赖数据长度,且具有更好的一致性,即参数M和r的变化对样本熵的影响程度是相同的。样本熵的值越低,序列自我相似性就越高;样本熵的值越大,样本序列就越复杂。在网络安全领域中,网络数据序列具有自相似性,因此预测产生的网络数据预测序列和网络数据序列应当属于同一模式。需要说明的是,第二样本熵并不是由各个初始预测序列单独计算得到的,而是利用网络数据序列分别和各个初始预测序列进行组合,得到中间序列,并将中间序列的样本熵确定为初始徐策序列的第二样本熵。
具体的,计算网络数据序列的第一样本熵,以及各个初始预测序列分别对应的第二样本熵的步骤包括:
步骤41:利用样本熵算法计算网络数据序列的第一样本熵。
步骤42:利用网络数据序列分别和各个初始预测序列进行组合,得到多个中间序列。
步骤43:利用样本熵算法计算各个中间序列对应的样本熵,并将中间序列对应的样本熵确定为对应的初始预测序列的第二样本熵。
在一种实施方式中,网络数据序列的长度为N,初始预测序列的长度为L,则中间序列即为N+L长的的序列,需要说明的是,由于初始预测序列为基于网络数据序列进行预测的序列,因此应当以网络数据序列在前,初始预测序列在后的顺序对其进行组合,得到中间序列。
具体的,计算网络数据序列的第一样本熵的步骤可以包括:
步骤51:利用网络数据序列生成多个第一向量和多个第二向量。
步骤52:确定各个第一向量之间的第一最大距离和各个第二向量之间的第二最大距离。
步骤53:利用第一最大距离计算第一均值,并利用第二最大距离计算第二均值。
步骤54:利用第一均值和第二均值得到第一样本熵。
具体的,若网络数据序列为长度为N的时间序列u(1),u(2),u(3),…u(N),构造一组M维空间的向量X(1),X(2),X(3),…X(N-M+1)。
X(i)={u(i),u(i+1),…u(i+M-1)};1≤i≤N-M+1;
此时,得到的X(i)即为第一向量。对维数M增加1,重复上述步骤,得到X(i)’,此时得到的即为第二向量。
对于第一向量,定义向量X(i)和X(j)之间的距离为d[X(i),X(j)]。其中,d[X(i),X(j)]为两向量中对应元素中差值最大的一个,即:
因此d[X(i),X(j)]即为第一最大距离。相应的,对于第二向量重复上述步骤,即可得到对应的第二最大距离。
对于第一最大距离,对于每一个i:1≤i≤N-M+1,在容许偏差为r的情形下,统计d[X(i),X(j)]<r的数目NM(t),并计算NM(t)与距离总数的比值即:
对所有的i对应的比值求平均值,即可得到第一均值φM(r),即:
对于第二最大距离,重复上述步骤,即可得到第二最大距离对应的比值和第二均值φM+1(r):
其中,NM+1(i)为在容许偏差为r的情形下,第二最大距离小于r的数目。
在确定第一均值和第二均值后,按照:
计算得到第一样本熵SampEn(N,M,r),实际情况中,N不可能取无限大,因此当N取有限值时:
SampEn(M,r)=-ln[φM+1(r)/φM(r)];
实际情况中,当r取网络数据序列的标准偏差的0.1-0.25倍,并且M=1或M=2时,第一样本熵的值对序列长度N的依赖性最好,此时计算所得的第一样本熵具有较为合理的统计特性。
相应的,根据上述方法对各个初始预测序列进行计算,得到对应的第二样本熵。利用第一样本熵分别和各个第二样本熵做差,得到对应的熵差值。做差的具体方式不做限定,例如可以用第一样本熵减去第二样本熵,或者可以利用第二样本熵减去第一样本熵。
S103:在各个熵差值中确定最小熵差值,并将最小熵差值对应的目标初始预测序列确定为网络数据预测序列。
由于网络数据序列具有自相似性,因此预测产生的网络数据预测序列和网络数据序列应当属于同一模式。熵可以表征时间序列的复杂度,因此当初始预测序列与网络数据序列的熵差值越小,说明两者之间的自我相似性就越高;当初始预测序列与网络数据序列的熵差值越大,初始预测序列就越复杂,产生新模式的概率就越大,即说明二者越不相似。因此,选择熵差值最小的初始预测序列作为网络数据预测序列,该初始预测序列最能代表网络数据序列的内在特性,预测最准确。因此在得到熵差值后,在其中确定最小熵差值,并将最小熵差值对应的目标初始预测序列确定为网络数据预测序列,提高了网络数据预测序列的准确性。
进一步,在一种可能的实施方式中,在确定目标初始预测序列后,可以将目标初始预测序列对应的目标预测序列生成算法确定为默认预测算法。由于同一种网络数据序列的情况基本固定,因此可以将目标初始预测序列对应的目标预测序列生成算法确定为默认预测算法,在后续对同类的网络数据序列时直接采用默认预测算法即可,无需重复确定,提高了效率。
进一步,在另一种可能的实施方式中,在得到网络数据预测序列后可以利用其进行网络安全检测。网络安全检测的具体方式本实施例不做限定。
应用本申请实施例提供的网络数据预测序列生成方法,在获取网络数据序列后,基于多种不同的预测序列生成算法分别生成网络数据序列对应的初始预测序列。熵差值可以用于表示初始预测序列和网络数据序列的相似程度,熵差值越大,二者相似程度越低,熵差值越小,二者相似程度越高。通过计算各个初始预测序列与网络数据序列之间的熵差值,可以确定网络数据序列分别与各个初始预测序列的相似程度的高低。在得到熵差值后,在各个熵差值中确定对应的的最小熵差值,最小熵差值对应的目标初始预测序列与网络数据预测序列最为相似。由于网络数据序列本身具有自相似性,基于网络数据序列得到的网络数据预测序列应当与网络数据序列非常相似,因此将目标初始预测序列确定为网络数据预测序列。通过计算熵差值的方式,可以在多个初始预测序列中选择与网络数据序列最相似的一个作为网络数据预测序列,提高了网络数据预测序列的准确度,解决了相关技术在生成预测序列时,预测序列不准确的问题。
下面对本申请实施例提供的网络数据预测序列生成装置进行介绍,下文描述的网络数据预测序列生成装置与上文描述的网络数据预测序列生成方法可相互对应参照。
请参考图2,图2为本申请实施例提供的一种网络数据预测序列生成装置的结构示意图,包括:
生成模块110,用于获取网络数据序列,并分别基于多种预测序列生成算法,生成网络数据序列对应的多个初始预测序列;
熵差值计算模块120,用于分别计算各个初始预测序列与网络数据序列之间的熵差值;
确定模块130,用于在各个熵差值中确定最小熵差值,并将最小熵差值对应的目标初始预测序列确定为网络数据预测序列。
可选地,熵差值计算模块120,包括:
样本熵计算单元,用于计算网络数据序列的第一样本熵,以及各个初始预测序列分别对应的第二样本熵;
差值计算单元,用于利用第一样本熵分别和第二样本熵做差,得到熵差值。
可选地,样本熵计算单元,包括:
第一计算子单元,用于利用样本熵算法计算网络数据序列的第一样本熵;
组合子单元,用于利用网络数据序列分别和各个初始预测序列进行组合,得到多个中间序列;
第二计算子单元,用于利用样本熵算法计算各个中间序列对应的样本熵,并将中间序列对应的样本熵确定为对应的初始预测序列的第二样本熵。
可选地,样本熵计算单元,包括:
向量生成子单元,用于利用网络数据序列生成多个第一向量和多个第二向量;
距离计算子单元,用于确定各个第一向量之间的第一最大距离和各个第二向量之间的第二最大距离;
均值计算子单元,用于利用第一最大距离计算第一均值,并利用第二最大距离计算第二均值;
样本熵计算子单元,用于利用第一均值和第二均值得到第一样本熵。
可选地,生成模块110,包括:
预处理单元,用于获取初始数据序列,并对初始数据序列进行缺失值填充处理和/或异常值替换处理,得到网络数据序列。
可选地,还包括:
默认算法确定模块,用于将目标初始预测序列对应的目标预测序列生成算法确定为默认预测算法。
可选地,还包括:
网络安全检测模块,用于利用网络数据预测序列进行网络安全检测。
下面对本申请实施例提供的网络数据预测序列生成设备进行介绍,下文描述的网络数据预测序列生成设备与上文描述的网络数据预测序列生成方法可相互对应参照。
请参考图3,图3为本申请实施例提供的一种网络数据预测序列生成设备的结构示意图。其中网络数据预测序列生成设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。
其中,处理器101用于控制网络数据预测序列生成设备100的整体操作,以完成上述的网络数据预测序列生成方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在网络数据预测序列生成设备100的操作,这些数据例如可以包括用于在该网络数据预测序列生成设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-Only Memory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。
多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于网络数据预测序列生成设备100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:Wi-Fi部件,蓝牙部件,NFC部件。
网络数据预测序列生成设备100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例给出的网络数据预测序列生成方法。
下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的网络数据预测序列生成方法可相互对应参照。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的网络数据预测序列生成方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种网络数据预测序列生成方法,其特征在于,包括:
获取网络数据序列,并分别基于多种预测序列生成算法,生成所述网络数据序列对应的多个初始预测序列;
分别计算各个所述初始预测序列与所述网络数据序列之间的熵差值;
在各个所述熵差值中确定最小熵差值,并将所述最小熵差值对应的目标初始预测序列确定为网络数据预测序列;
所述分别计算各个所述初始预测序列与所述网络数据序列之间的熵差值,包括:
计算所述网络数据序列的第一样本熵,以及各个所述初始预测序列分别对应的第二样本熵;
利用所述第一样本熵分别和所述第二样本熵做差,得到所述熵差值;
所述计算所述网络数据序列的第一样本熵,以及各个所述初始预测序列分别对应的第二样本熵,包括:
利用样本熵算法计算所述网络数据序列的所述第一样本熵;
利用网络数据序列分别和各个所述初始预测序列进行组合,得到多个中间序列;
利用所述样本熵算法计算各个所述中间序列对应的样本熵,并将所述中间序列对应的样本熵确定为对应的初始预测序列的所述第二样本熵。
2.根据权利要求1所述的网络数据预测序列生成方法,其特征在于,所述计算所述网络数据序列的第一样本熵,包括:
利用所述网络数据序列生成多个第一向量和多个第二向量;
确定各个所述第一向量之间的第一最大距离和各个所述第二向量之间的第二最大距离;
利用所述第一最大距离计算第一均值,并利用所述第二最大距离计算第二均值;
利用所述第一均值和所述第二均值得到所述第一样本熵。
3.根据权利要求1所述的网络数据预测序列生成方法,其特征在于,所述获取网络数据序列,包括:
获取初始数据序列,并对所述初始数据序列进行缺失值填充处理和/或异常值替换处理,得到所述网络数据序列。
4.根据权利要求1所述的网络数据预测序列生成方法,其特征在于,还包括:
将所述目标初始预测序列对应的目标预测序列生成算法确定为默认预测算法。
5.根据权利要求1至4任一项所述的网络数据预测序列生成方法,其特征在于,在得到所述网络数据预测序列后,还包括:
利用所述网络数据预测序列进行网络安全检测。
6.一种网络数据预测序列生成装置,其特征在于,包括:
生成模块,用于获取网络数据序列,并分别基于多种预测序列生成算法,生成所述网络数据序列对应的多个初始预测序列;
熵差值计算模块,用于分别计算各个所述初始预测序列与所述网络数据序列之间的熵差值;
确定模块,用于在各个所述熵差值中确定最小熵差值,并将所述最小熵差值对应的目标初始预测序列确定为网络数据预测序列;
所述熵差值计算模块包括:
样本熵计算单元,用于计算网络数据序列的第一样本熵,以及各个初始预测序列分别对应的第二样本熵;
差值计算单元,用于利用第一样本熵分别和第二样本熵做差,得到熵差值;
所述样本熵计算单元包括:
第一计算子单元,用于利用样本熵算法计算网络数据序列的第一样本熵;
组合子单元,用于利用网络数据序列分别和各个初始预测序列进行组合,得到多个中间序列;
第二计算子单元,用于利用样本熵算法计算各个中间序列对应的样本熵,并将中间序列对应的样本熵确定为对应的初始预测序列的第二样本熵。
7.一种网络数据预测序列生成设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至5任一项所述的网络数据预测序列生成方法。
8.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的网络数据预测序列生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010843566.6A CN111914516B (zh) | 2020-08-20 | 2020-08-20 | 一种网络数据预测序列生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010843566.6A CN111914516B (zh) | 2020-08-20 | 2020-08-20 | 一种网络数据预测序列生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914516A CN111914516A (zh) | 2020-11-10 |
CN111914516B true CN111914516B (zh) | 2024-03-22 |
Family
ID=73278470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010843566.6A Active CN111914516B (zh) | 2020-08-20 | 2020-08-20 | 一种网络数据预测序列生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914516B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112468326B (zh) * | 2020-11-11 | 2022-11-04 | 北京工业大学 | 基于时间卷积神经网络的访问流量预测方法 |
CN112530594B (zh) * | 2021-02-08 | 2021-05-11 | 之江实验室 | 一种基于卷积生存网络的血透并发症长期风险预测系统 |
CN113671381B (zh) * | 2021-08-30 | 2022-09-06 | 武汉理工大学 | 一种基于时间卷积网络的锂离子动力电池估算方法 |
CN113660147B (zh) * | 2021-10-21 | 2022-01-11 | 成都数默科技有限公司 | 一种基于模糊熵的ip会话序列周期性评估方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101232304A (zh) * | 2008-02-29 | 2008-07-30 | 北京邮电大学 | 一种通信系统中发送和接收信道信息的方法和设备 |
CN107409075A (zh) * | 2015-03-24 | 2017-11-28 | 华为技术有限公司 | 用于网络时间序列数据的自适应的基于异常检测的预测器 |
CN110955789A (zh) * | 2019-12-31 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法以及设备 |
CN111277434A (zh) * | 2020-01-16 | 2020-06-12 | 北京工业大学 | 一种基于vmd和lstm的网络流量多步预测方法 |
-
2020
- 2020-08-20 CN CN202010843566.6A patent/CN111914516B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101232304A (zh) * | 2008-02-29 | 2008-07-30 | 北京邮电大学 | 一种通信系统中发送和接收信道信息的方法和设备 |
CN107409075A (zh) * | 2015-03-24 | 2017-11-28 | 华为技术有限公司 | 用于网络时间序列数据的自适应的基于异常检测的预测器 |
CN110955789A (zh) * | 2019-12-31 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法以及设备 |
CN111277434A (zh) * | 2020-01-16 | 2020-06-12 | 北京工业大学 | 一种基于vmd和lstm的网络流量多步预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111914516A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914516B (zh) | 一种网络数据预测序列生成方法、装置、设备及存储介质 | |
CN107808122B (zh) | 目标跟踪方法及装置 | |
CN112380098A (zh) | 一种时序异常检测方法、装置、计算机设备及存储介质 | |
Yin | Asymptotically efficient parameter estimation using quantized output observations | |
JP2018124937A (ja) | 異常検出装置、異常検出方法およびプログラム | |
KR102031123B1 (ko) | 이상패턴 감지 시스템 및 방법 | |
CN114285728B (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
CN107357764B (zh) | 数据分析方法、电子设备及计算机存储介质 | |
CN110121171B (zh) | 基于指数平滑法和灰色模型的信任预测方法 | |
CN112732738B (zh) | 基于多目标优化的自适应网络数据采集方法及相关设备 | |
CN111461445B (zh) | 短期风速预测方法、装置、计算机设备及存储介质 | |
WO2021139335A1 (zh) | 物理机销售数据预测方法、装置、计算机设备及存储介质 | |
Jabeen et al. | An improved software reliability prediction model by using high precision error iterative analysis method | |
Bianchi et al. | A randomised approach for NARX model identification based on a multivariate Bernoulli distribution | |
CN112131274B (zh) | 时间序列异常点的检测方法、装置、设备及可读存储介质 | |
US20210342691A1 (en) | System and method for neural time series preprocessing | |
CN114581119A (zh) | 流量预测方法以及装置 | |
CN111930602A (zh) | 性能指标预测方法及装置 | |
CN109343952B (zh) | 贝叶斯网络确定方法、装置、存储介质和电子设备 | |
CN116306030A (zh) | 考虑预测误差和波动分布的新能源预测动态场景生成方法 | |
Franke et al. | Adaptive quantile computation for brownian bridge in change-point analysis | |
CN110597807A (zh) | 基于数据分析的数据扩充方法、装置、终端及介质 | |
CN115952916A (zh) | 基于人工智能的风电功率预测误差修正方法、装置及设备 | |
Branisavljević et al. | Uncertainty reduction in water distribution network modelling using system inflow data | |
Capizzi et al. | Bootstrap-based design of residual control charts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |