CN115333957B - 基于用户行为和企业业务特征的业务流量预测方法及系统 - Google Patents
基于用户行为和企业业务特征的业务流量预测方法及系统 Download PDFInfo
- Publication number
- CN115333957B CN115333957B CN202210938425.1A CN202210938425A CN115333957B CN 115333957 B CN115333957 B CN 115333957B CN 202210938425 A CN202210938425 A CN 202210938425A CN 115333957 B CN115333957 B CN 115333957B
- Authority
- CN
- China
- Prior art keywords
- user
- time
- space
- period
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006399 behavior Effects 0.000 claims abstract description 68
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000005055 memory storage Effects 0.000 claims description 11
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 3
- 238000012549 training Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于用户行为和企业业务特征的业务流量预测方法及系统。将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,并构建时空特征矩阵序列;将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小。本发明充分考虑了用户行为数据存在的时空特性,并将企业用户的行为和业务特征反映到流量趋势预测中,提高了网络流量预测的准确性。
Description
技术领域
本发明涉及一种基于用户行为和企业业务特征的业务流量预测方法及系统,属于网络流量预测领域。
背景技术
当前,大型企业往往建设运行众多微服务架构下的业务应用管理系统,例如企业电子商务系统、招投标系统、网上商城、办公系统、内外网邮件系统,这些业务应用系统通常部署在企业自建的云数据中心或者租用的云数据中心,企业必须要租用电信网络运营商带宽服务实现广域分布的大规模用户对企业业务的可靠稳定访问,因此企业定期要向电信运营商支付巨额的网络租赁费用。为实现企业不同业务系统对网络运营商带宽租赁费用的精准测算,企业需要精确掌握这些业务服务的出口流量情况,降低服务的运营成本,实现业务运营服务的提质增效。
大型企业的业务系统网站的网络流量特征与企业用户行为、企业业务具有强关联性。企业用户的网络访问行为往往受到地理分布、行业特征、业务特征和用户角色等属性的综合约束,导致用户自身访问网站的规律不明显。在地理空间分布层面:大型企业网站的用户一般分布全国,跨区跨域,网络流量数据会呈现一定的时空特色,如西北地区用户的网络流量数据分布和其他地区具有明细时空差异。同时,网络流量的分布在空间上存在一定的相关性,周围区域的流量信息可以有效提高目标区域流量预测的准确性。在行业属性层面:各行业均具有不同特点,如电力企业的网站会受到重大保电活动影响,导致网站或微服务的可用时间受限等。在业务属性层面:网络流量的大小与企业业务流程中业务事件属性存在较大的相关性,网络可能存在突发的网络流量变化。以企业的招投标业务平台为例,在招投标报名和标书上传截至日期等特定时点,网络流量会突发式增长。同时,数据交互要求对网络流量影响很大,以企业科技类项目和设备集采类招投标为例,科技项目需提供详细的技术方案,一般上传文件有大小要求,如2M-50M;而设备集采招标上传文件大小一般是几k到十几k左右。
现有的流量预测技术没有同时深度挖掘用户的行为特征和企业业务特征对流量的影响,对于大型企业网站而言,企业用户的网络行为往往受到企业、行业和企业内部角色等的约束,用户自身访问网站的规律不明显,并且网络流量与业务流程中业务事件属性特征存在很大的关系,不同类型业务事件产生的流量大小不同。因此,传统的基于流量数据序列的预测方法难以准确预测不同微服务业务流量的变化趋势。
此外,现有的流量预测技术很少考虑到流量地区分布的差异性导致预测准确度不够,对于企业用户而言,多个地区的企业用户可能会同时访问网站进行某一业务事件,同时现有的采用深度学习模型来进行预测时,存在参数较多、训练时间较长的缺点。
发明内容
本发明的目的在于提供一种基于用户访问行为和企业业务特征的业务流量预测方法及系统,以解决现有技术未充分考虑所有企业用户的历史访问行为和业务特征属性以及流量地区分布的差异性对网络流量的影响,导致流量预测准确度不够的问题。
为实现上述目的,本发明采用如下技术方案:
一方面,一种基于用户行为和企业业务特征的业务流量预测方法,包括:
将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,每个时段内各子用户群的不同分类用户数量构建为时空矩阵At、不同用户类型行为的数量构建为时空矩阵Bt、用户进行的不同业务所属业务类型的数量构建为时空矩阵Ct,每个时段的At,Bt,Ct构成一个时空特征矩阵,多个时段的时空特征矩阵构成时空特征矩阵序列;
将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小;其中,所述网络流量预测模型由CNN模块和LSTM模块融合而成。
进一步地,根据以下方法获取每个子用户群在每个时段的不同分类用户数量:
获取每个子用户群的用户特征样本数据;
分别对每个子用户群的用户特征样本数据进行聚类,每个子用户群获得多个不同的用户分类;
根据每个子用户群的用户分类,获取每个子用户群在每个时段内的不同分类用户数量。
进一步地,所述用户特征样本数据,包括:用户在固定周期内产生的网络流量大小;用户在固定周期内进行业务事件的次数;用户每次业务事件持续的平均时长;以1小时为一个时间段,每日24个小时中用户产生过流量的时间段的个数;用户产生较多流量的时段;用户的产生流量时段信息熵。
进一步地,所述用户的产生流量时段信息熵根据以下公式计算得到:
式中,TrafficEntropy(x)为用户的产生流量时段信息熵,n为每日24个小时中用户产生过流量的时间段的个数,g1,g2…gn分别为第1,2…n个产生过流量时段用户产生的流量大小,g为第1,2…n个产生过流量时段用户产生的流量大小总和。
进一步地,所述CNN模块包括若干卷积层、展平层和全连接层;
通过卷积层捕获每个时间段下时空特征矩阵的局部空间特征;
通过展平层将每个时间段下时空特征矩阵的局部空间特征展平为一维向量;
通过全连接层将每个时间段下的各局部空间特征一维向量整合压缩到一起,得到每个时间段下时空特征矩阵的全局空间特征向量;
将经过全连接层得到的全局空间特征向量按时间顺序拼接到一起,作为LSTM模块的输入。
进一步地,所述CNN模块包括2个卷积层,卷积层的卷积核大小均为3×3,第一卷积层和第二卷积层的卷积核数目分别为16和1,全连接层中激活函数为tanh,全连接层神经元数目为1000。
进一步地,所述LSTM模块包括2个LSTM层和全连接层,其中LSTM隐藏层单元包括更新门和输出门;
更新门通过上一时间步的隐状态输出ht-1和当前时间步的输入获取更新门的参数ft以及记忆存储单元/>将上一时间步的记忆存储单元Ct-1与更新门参数ft进行相乘后输出,将更新门的参数ft与记忆存储单元/>相乘再与更新门的输出相加得到下一时间步的记忆存储单元Ct;
输出门通过上一时间步的隐状态输出ht-1和当前时间步的输入获取输出门的参数ot,根据下一时间步的记忆存储单元Ct和输出门的参数ot得到隐状态输出ht,所述隐状态输出ht再由全连接层进行升维,得到最后的预测输出。
进一步地,更新门和输出门的参数ft和ot以及记忆存储单元根据下式计算:
式中,σ为sigmoid函数;Wxf,Wxo,Wxc分别为输入层到更新门、输出门和记忆存储单元的权重,Whf,Who,Whc分别为上一时间步隐藏层状态到更新门、输出门和当前时间步输入的记忆存储单元状态的权重,bf,bo,bc分别为更新门、输出门和当前时间步输入的记忆存储单元状态的偏置;
下一时间步的记忆存储单元Ct根据下式计算:
进一步地,LSTM隐藏层单元数目为128。
另一方面,一种基于用户行为和企业业务特征的业务流量预测系统,包括:
时空特征获取模块,将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,每个时段内各子用户群的不同分类用户数量构建为时空矩阵At、不同用户类型行为的数量构建为时空矩阵Bt、用户进行的不同业务所属业务类型的数量构建为时空矩阵Ct,每个时段的At,Bt,Ct构成一个时空特征矩阵,多个时段的时空特征矩阵构成时空特征矩阵序列;
流量预测模块,将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小;其中,所述网络流量预测模型由CNN模块和LSTM模块融合而成。
与现有技术相比,本发明所达到的有益技术效果:
1)本发明充分考虑了网络流量的空间特征和时间特征,结合了网络用户行为和不同类型业务事件对象特征,避免了企业用户的历史访问行为和业务特征属性以及流量地区分布的差异性对网络流量的影响,提高了流量预测的准确性,在用户历史行为数据和业务事件特征的约束下,能够应对企业业务网站网络流量的突发性;
2)在构建用户特征时,加入用户产生流量时段信息熵的特征,若用户在某一时段进行业务事件并且该用户流量时段信息熵值较小,则在下一个周期该用户有很大几率会再次进行业务事件,将基于用户流量熵构建特征并进行聚类的结果反应到流量变化中去,有利于提高流量长序列预测的准确性;
3)本发明采用基于CNN和LSTM的混合模型对模型输入数据的空间特征和时间特征分别进行提取并进行预测,提高了预测的准确性;同时,通过改变传统LSTM隐藏层单元结构,将传统LSTM中隐藏单元中的输入门与遗忘门合并为更新门,调整当前记忆单元在下一记忆单元更新的比例,与传统的LSTM相比,该变体网络结构具有更简单的存储单元和更少的学习参数,减少了模型训练的时间。
附图说明
图1为本发明的一种基于用户行为和企业业务特征的业务流量预测方法流程图;
图2为将总的用户群按区域划分为m×n个子用户群的图示;
图3为网络流量预测模型训练流程图;
图4为利用手肘法选取最佳聚类数k值时画出的k和SSE的关系图;
图5为网络流量预测模型结构图;
图6为LSTM隐藏层单元示意图。
具体实施方式
下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于用户行为和企业业务特征的业务流量预测方法,包括:
步骤1,将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,每个时段内各子用户群的不同分类用户数量构建为时空矩阵At、不同用户类型行为的数量构建为时空矩阵Bt、用户进行的不同业务所属业务类型的数量构建为时空矩阵Ct,每个时段的At,Bt,Ct构成一个时空特征矩阵,多个时段的时空特征矩阵构成时空特征矩阵序列;
其中,根据以下方法获取每个子用户群在每个时段的不同分类用户数量:
获取每个子用户群的用户特征样本数据;
分别对每个子用户群的用户特征样本数据进行聚类,每个子用户群获得多个不同的用户分类;
根据每个子用户群的用户分类,获取每个子用户群在每个时段内的不同分类用户数量。
其中,用户特征样本数据,包括:用户在固定周期内产生的网络流量大小;用户在固定周期内进行业务事件的次数;用户每次业务事件持续的平均时长;以1小时为一个时间段,每日24个小时中用户产生过流量的时间段的个数;用户产生较多流量的时段;用户的产生流量时段信息熵。
步骤2,将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小。
其中,网络流量预测模型由CNN模块和LSTM模块融合而成。
在进行流量预测前,需要先对网络流量预测模型进行构建和训练。如图2所示,具体过程如下:
步骤s1:以行政区域划分用户群。
将总的用户群按照行政区域划分为m×n个子用户群,形成m×n的网格数据,实现对系统用户进行分组,目的是获取用户行为数据、业务特征数据在空间上的特征,通过以区域为颗粒度的预测提高预测准确性,区域划分结果如图3所示。
步骤s2:构建用户访问行为特征。
获取网站用户历史行为数据(用户行为指用户对业务进行的操作)和流量大小,包括用户的行为类型、行为发生时间、产生的流量大小,并引入信息熵构建用户特征。对于每个用户构建如下特征:
用户在固定周期内产生的网络流量大小;用户在固定周期内进行业务事件的次数;用户每次业务事件持续的平均时长;以1小时为一个时间段,每日24个小时中用户产生过流量的时间段的个数;用户产生较多流量的时段;用户的产生流量时段信息熵。
其中,产生流量时段信息熵这一特征的构建,引入了信息论中信息熵(Entropy)。在信息论中,熵用于度量信息的不确定性,熵越大,则信息的不确定性越大,即信息越发散。若该用户在n个时段产生过流量行为,n为每日24个小时中用户产生过流量的时间段的个数,产生的流量大小分别为g1,g2…gn,则该用户的产生流量时段信息熵计算如式(1):
式中,g为第1,2…n个产生过流量时段用户产生的流量大小总和。
用户的流量时段信息熵越大,意味着该用户在特定时间段产生流量行为的可能性较低,换言之,该用户产生流量行为的时间段不确定。
步骤s3:用户群行为聚类。
采用k-means++聚类算法对步骤s2中获取的用户特征样本进行分类,以实现对相似用户流量行为群体的聚类。根据用户特征对用户进行聚类的目的是为了实现对具有相似网络行为用户群的聚类,聚类结果一定程度上反应了流量在用户群之间分布的特点,将其反映到流量变化中,有利于提高预测的准确性。
首先,采用手肘法选取最佳聚类数k,得到k个用户类。
手肘法确定k值算法如下:
让k从1开始取值直到取到合适的上限,对每一个k值进行聚类并且记下对应的误差平方和SSE,然后画出k和SSE的关系图(手肘形),如图4所示,最后选取肘部对应的k,如图4横坐标为4的点作为最佳聚类数。
k-means++聚类算法如下:
1)从用户特征样本中随机选取一个样本作为初始聚类中心;
2)计算每个特征样本与当前已有聚类中心间的最短距离D(x);对所有特征样本标记一个序号,接着计算每个样本被选为下一个聚类中心的概率对于每一个序号,每次计算概率P(x)的累加和,最后随机产生出一个0~1之间的随机数,判断它属于哪两个概率累加和所在的区间,那么该区间对应的序号所标记的特征样本就是被选择出来的下一个聚类中心;
3)重复第二步直到选择出k个聚类中心;
4)针对数据集中的样本,计算它到每个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
5)针对每个类别,重新计算聚类中心,重复第4)步和本步骤直到聚类中心不再变化,得到最后的分类结果。
步骤s4:样本数据获取与预处理。
基于步骤s3的分类结果以每个网格为单元获取若干时间段每个时间段t内不同分类用户数at并构建时空矩阵At,如式(2);以每个网格为单元获取时间段t内对应区域用户不同类型行为数量bt并构建时空矩阵Bt,如式(3);以每个网格为单元获取时间段t内用户进行的不同的业务所属业务类型的数量ct并构建时空矩阵Ct,如式(4);将At、Bt、Ct构建为流量预测模型输入时空特征矩阵[At,Bt,Ct],并统计对应时间段t内所有网格网络用户产生的总流量的大小。
其中,为时间段t内第m行第n列网格区域的不同分类用户数,若该网格分为k个用户类,则该网格的at包括k个数值;/> 与/>类似。
对得到的用于模型输入的时空特征矩阵样本数据和对应的网络流量数据进行预处理,剔除异常数据,保留反应变化规律的典型数据,按时间顺序形成序列。
其中,业务类型举例如下:
如电子商务平台(招投标网站),根据业务类型可分为科技类项目、设备集采类、工程类项目和设计类项目。对科技类项目、设备集采类、工程类项目、设计类项目,需要上传的文件大小是不一样的。一般是会限制一个大小比如50M。但设备集采类,就是一个几十k的文件。科技项目,不同单位应答可能文件大小有很大差异。而设计类,一般图纸大小为几M,且差异不大。
步骤s5:构建和训练CNN-LSTM模型。
如图5所示,CNN-LSTM模型分为CNN和LSTM两个模块,CNN用于数据空间特征提取,LSTM用于学习CNN提取的特征的时序特征。
其中,CNN模块中卷积层数k为2,卷积核大小为3×3,第一卷积层和第二卷积层的卷积核数目分别为16和1,全连接层中激活函数为tanh,LSTM模型层数为2。
因为LSTM的输入维度取决于CNN全连接层的输出维度,这控制着LSTM的初始信息量,而LSTM隐藏层单元数目代表隐状态的维度,控制着最后传递的信息量,这两个参数需要进行实验来确定,根据数据维度和网络架构复杂度,选择预测精度最高的一组参数。
利用步骤s4中获得的时空特征矩阵样本数据和相对应的流量值作为标签值对CNN-LSTM模型进行训练。具体的,将连续s个时间段t的时空特征矩阵数据按时间顺序作为输入项,第s+1个时间段t的网络流量值作为标签值,依次送入到CNN-LSTM模型中进行训练,CNN用于对输入数据的空间特征提取,LSTM接收CNN模块的输出,学习数据的时序特征,前向传播计算模型各网络层神经元的输出数据,将上一层的输出作为下一层的输入,并计算下一层的输出,一直运算到输出层为止。选择均方误差函数作为模型的损失函数,通过反向传播算法找到模型最优的参数,当训练后模型的精度满足要求时,保存得到最终的CNN-LSTM流量预测模型。
训练具体过程如下:
1)将时间段t的网络状态时空特征矩阵按时间顺序作为输入项p依次送入到CNN模块的k个卷积层中,利用卷积层捕获该时间段下用户行为数据的空间特征,第k层卷积层的计算如式(5):
式中,表示卷积运算,g(*)为激活函数ReLu,W(k)和b(k)为可以学习的参数,为第k层卷积层的输入,也是第k-1层的输出。
2)在k个卷积层之后,将展平为一维向量输入全连接层,全连接层将卷积层捕获的用户行为数据各局部空间特征整合压缩到一起,得到时间段t下网络状态特征时空矩阵的全局空间特征向量,全连接层的计算如式(6):
式中,Wfc和bfc为CNN全连接层中可学习的参数,f(*)为激活函数,为k层卷积层输出/>展平后的一维向量,/>为经过CNN全连接层得到的全局空间特征向量。
将经过全连接层得到的全局空间特征向量按时间顺序拼接到一起,得到LSTM模块的输入
3)将输入送到LSTM模块中,如图6所示,在LSTM模块的隐藏单元中,将传统LSTM模型中隐藏单元的遗忘门和输入门合并为了一个更新门,通过上一时间步的隐状态输出ht-1和经过CNN的当前时间步的输入/>来决定更新门和输出门的参数ft和ot,并创建候选记忆存储单元/>计算如式(7):
式中,σ为sigmoid函数;Wxf,Wxo,Wxc分别为输入层到更新门、输出门和记忆存储单元的权重,Whf,Who,Whc分别为上一时间步隐藏层状态到更新门、输出门和当前时间步输入的记忆存储单元状态的权重,bf,bo,bc分别为更新门、输出门和当前时间步输入的记忆存储单元状态的偏置。
下一时间步的记忆存储单元Ct,计算如式(8):
这里改变了传统LSTM隐藏单元中当前记忆存储状态在下一记忆存储状态中更新的比例,如果在前一时刻保留了更多的信息,则当前时刻应该有更多的重要信息,应该保留更大比例的信息,以防止关键信息的丢失。如果前一时刻保留的信息非常少,则意味着当前时刻的重要信息也非常少,因此应保留比例较小的信息,以防止信息冗余。
最后,利用输出门Ot得到模型的预测输出ht,如式(9):
ht=Ot*tanh(Ct) (9)输出ht再由全连接层进行升维,得到最后的预测输出如式(10):
式中,W权重和b偏置均为学习的参数。
CNN-LSTM模型训练好后,获取待预测时段前s个时段的由不同分类用户数时空矩阵、不同用户行为类型时空矩阵和不同的业务类型矩阵所构成的时空矩阵序列,将其输入到训练好的模型中,模型输出得到第s+1个时段的总用户群的网络流量预测值。
实施例
下面以大型招投标平台业务系统为例,对本发明的具体技术实施步骤进行说明。
步骤s1,按行政区域划分用户群,共34个省级行政区,形成6×6的网格数据,缺省值用0替代。
步骤s2,构建用户特征。
获取网站历史用户行为和业务事件数据,包括用户的行为类型、发生时间和产生的流量,并引入信息熵构建用户特征。招投标网站用户行为主要是招标行为和投标行为,用户特征构建如下:
(1)用户三周内产生的网络流量大小;(2)用户在三周内产生业务事件的次数;(3)用户每次业务事件持续的平均时长;(4)每日24个小时时段中用户产生过流量的时间段的个数;(5)用户产生较多流量的时段;(6)产生流量时段信息熵。
步骤s3,采用k-means++聚类算法对每个网格内用户进行分类。
首先,利用手肘法选取最佳聚类数k。
接着,基于步骤s2得到的用户特征样本数据采用k-means++算法对每个网格进行用户分类。
步骤s4,样本数据获取与预处理。
基于步骤s3的分类结果,以每个网格为单元获取时间段t内不同分类用户数at并构建时空矩阵At;获取时间段t下不同的用户行为类型的数量bt并构建时空矩阵Bt;以每个网格为单元获取时间段t内不同的业务类型的数量ct并构建时空矩阵Ct。
其中,招投标网站根据业务类型分为科技类项目、设备集采类项目、工程类项目和设计类项目,则分别统计区域内用户进行不同类型业务项目的数量,也就是说有多少个科技类项目,多少个工程类项目等,从而获得ct。
将At、Bt、Ct构建为流量预测模型输入特征[At,Bt,Ct],统计整个网站产生的网络流量大小,对得到的原始输入特征样本数据和对应的流量数据进行预处理,剔除异常数据,保留反应变化规律的典型数据,按时间顺序形成序列。
步骤s5,构建和训练CNN-LSTM模型。
根据数据维度和网络架构复杂度,设置CNN全连接层神经元数目为1000,LSTM隐藏层单元数目为128。
将步骤s4中处理好的时空特征样本数据序列按时间顺序作为输入项依次送入到CNN模块的k个卷积层中,网络流量值作为标签数据,利用卷积层捕获该时间段下时空特征矩阵数据的空间特征,最终得到时间段下输入数据的全局空间特征向量,将得到的空间特征向量按时间顺序拼接到一起,得到LSTM模块的输入,前向传播计算模型各网络层神经元的输出数据,选择均方误差函数作为模型的损失函数,通过反向传播算法找到模型最优的参数,训练周期设置100次,当损失值在连续10个周期没有改善时训练结束,模型训练后得到较优的CNN-LSTM网络流量预测模型。
在另一实施例中,一种基于用户行为和企业业务特征的业务流量预测系统,包括:
时空特征获取模块,将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,每个时段内各子用户群的不同分类用户数量构建为时空矩阵At、不同用户类型行为的数量构建为时空矩阵Bt、用户进行的不同业务所属业务类型的数量构建为时空矩阵Ct,每个时段的At,Bt,Ct构成一个时空特征矩阵,多个时段的时空特征矩阵构成时空特征矩阵序列;
流量预测模块,将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小;其中,所述网络流量预测模型由CNN模块和LSTM模块融合而成。
本发明根据用户的历史行为数据对具有相似网络行为的用户进行分类,然后基于分类结果统计实时网络状态中各类用户的数量以及每个时段不同的业务特征,反映到流量的变化趋势中,提高了模型预测的准确性。
本发明结合企业用户的行为和业务特征并且充分考虑用户行为数据存在的时空特性及传统LSTM模型存在的不足,在区域划分的基础上,针对时空数据的预测提出了一种基于CNN-LSTM网络流量预测模型,通过改变传统LSTM隐藏层单元结构,将传统LSTM中隐藏单元中的输入门与遗忘门合并为更新门,调整当前记忆单元在下一记忆单元更新的比例,该模型能够提高对网络流量长序列数据的预测能力,进一步提高了预测的准确性,改善了传统LSTM模型存在参数较多、训练时间较长的缺点。
以上已以较佳实施例公布了本发明,然其并非用以限制本发明,凡采取等同替换或等效变换的方案所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,包括:
将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,每个时段内各子用户群的不同分类用户数量构建为时空矩阵At、不同用户类型行为的数量构建为时空矩阵Bt、用户进行的不同业务所属业务类型的数量构建为时空矩阵Ct,每个时段的At,Bt,Ct构成一个时空特征矩阵,多个时段的时空特征矩阵构成时空特征矩阵序列;
将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小;其中,所述网络流量预测模型由CNN模块和LSTM模块融合而成。
2.根据权利要求1所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,根据以下方法获取每个子用户群在每个时段的不同分类用户数量:
获取每个子用户群的用户特征样本数据;
分别对每个子用户群的用户特征样本数据进行聚类,每个子用户群获得多个不同的用户分类;
根据每个子用户群的用户分类,获取每个子用户群在每个时段内的不同分类用户数量。
3.根据权利要求2所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,所述用户特征样本数据,包括:用户在固定周期内产生的网络流量大小;用户在固定周期内进行业务事件的次数;用户每次业务事件持续的平均时长;以1小时为一个时间段,每日24个小时中用户产生过流量的时间段的个数;用户产生较多流量的时段;用户的产生流量时段信息熵。
4.根据权利要求3所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,所述用户的产生流量时段信息熵根据以下公式计算得到:
式中,TrafficEntropy(x)为用户的产生流量时段信息熵,n为每日24个小时中用户产生过流量的时间段的个数,g1,g2…gn分别为第1,2…n个产生过流量时段用户产生的流量大小,g为第1,2…n个产生过流量时段用户产生的流量大小总和。
5.根据权利要求1所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,所述CNN模块包括若干卷积层、展平层和全连接层;
通过卷积层捕获每个时间段下时空特征矩阵的局部空间特征;
通过展平层将每个时间段下时空特征矩阵的局部空间特征展平为一维向量;
通过全连接层将每个时间段下的各局部空间特征一维向量整合压缩到一起,得到每个时间段下时空特征矩阵的全局空间特征向量;
将经过全连接层得到的全局空间特征向量按时间顺序拼接到一起,作为LSTM模块的输入。
6.根据权利要求5所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,所述CNN模块包括2个卷积层,卷积层的卷积核大小均为3×3,第一卷积层和第二卷积层的卷积核数目分别为16和1,全连接层中激活函数为tanh,全连接层神经元数目为1000。
7.根据权利要求1所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,所述LSTM模块包括2个LSTM层和全连接层,其中LSTM隐藏层单元包括更新门和输出门;
更新门通过上一时间步的隐状态输出ht-1和当前时间步的输入获取更新门的参数ft以及记忆存储单元/>将上一时间步的记忆存储单元ct-1与更新门参数ft进行相乘后输出,将更新门的参数ft与记忆存储单元/>相乘再与更新门的输出相加得到下一时间步的记忆存储单元Ct;
输出门通过上一时间步的隐状态输出ht-1和当前时间步的输入获取输出门的参数ot,根据下一时间步的记忆存储单元Ct和输出门的参数ot得到隐状态输出ht,所述隐状态输出ht再由全连接层进行升维,得到最后的预测输出。
8.根据权利要求7所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,更新门和输出门的参数ft和ot以及记忆存储单元根据下式计算:
式中,σ为sigmoid函数;Wxf,Wxo,Wxc分别为输入层到更新门、输出门和记忆存储单元的权重,Whf,Who,Whc分别为上一时间步隐藏层状态到更新门、输出门和当前时间步输入的记忆存储单元状态的权重,bf,bo,bc分别为更新门、输出门和当前时间步输入的记忆存储单元状态的偏置;
下一时间步的记忆存储单元Ct根据下式计算:
9.根据权利要求7所述的一种基于用户行为和企业业务特征的业务流量预测方法,其特征在于,LSTM隐藏层单元数目为128。
10.一种基于用户行为和企业业务特征的业务流量预测系统,其特征在于,包括:
时空特征获取模块,将总用户群按区域划分为若干子用户群,获取待预测时段之前连续多个时段的每个子用户群在每个时段的不同分类用户数量、不同用户类型行为的数量以及用户进行的不同业务所属业务类型的数量,每个时段内各子用户群的不同分类用户数量构建为时空矩阵At、不同用户类型行为的数量构建为时空矩阵Bt、用户进行的不同业务所属业务类型的数量构建为时空矩阵Ct,每个时段的At,Bt,Ct构成一个时空特征矩阵,多个时段的时空特征矩阵构成时空特征矩阵序列;
流量预测模块,将所述时空特征矩阵序列按时间顺序输入预先训练好的网络流量预测模型,输出待预测时段内所有用户产生的网络总流量大小;其中,所述网络流量预测模型由CNN模块和LSTM模块融合而成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210938425.1A CN115333957B (zh) | 2022-08-05 | 2022-08-05 | 基于用户行为和企业业务特征的业务流量预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210938425.1A CN115333957B (zh) | 2022-08-05 | 2022-08-05 | 基于用户行为和企业业务特征的业务流量预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115333957A CN115333957A (zh) | 2022-11-11 |
CN115333957B true CN115333957B (zh) | 2023-09-05 |
Family
ID=83921917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210938425.1A Active CN115333957B (zh) | 2022-08-05 | 2022-08-05 | 基于用户行为和企业业务特征的业务流量预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115333957B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116146190B (zh) * | 2023-02-24 | 2024-07-19 | 西南石油大学 | 一种基于双向流量测量的井下漏失或溢流预警装置及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113271297A (zh) * | 2021-04-28 | 2021-08-17 | 国家计算机网络与信息安全管理中心 | 基于相对信息熵和半监督聚类的多层流量入侵检测方法 |
CN113610265A (zh) * | 2021-06-24 | 2021-11-05 | 清华大学 | 一种基于超图卷积网络的时空行为预测方法及系统 |
CN114124447A (zh) * | 2021-10-12 | 2022-03-01 | 杭州电子科技大学 | 一种基于Modbus数据包重组的入侵检测方法及装置 |
CN114819253A (zh) * | 2022-03-02 | 2022-07-29 | 湖北大学 | 城市人群聚集热点区域预测方法、系统、介质及终端 |
-
2022
- 2022-08-05 CN CN202210938425.1A patent/CN115333957B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113271297A (zh) * | 2021-04-28 | 2021-08-17 | 国家计算机网络与信息安全管理中心 | 基于相对信息熵和半监督聚类的多层流量入侵检测方法 |
CN113610265A (zh) * | 2021-06-24 | 2021-11-05 | 清华大学 | 一种基于超图卷积网络的时空行为预测方法及系统 |
CN114124447A (zh) * | 2021-10-12 | 2022-03-01 | 杭州电子科技大学 | 一种基于Modbus数据包重组的入侵检测方法及装置 |
CN114819253A (zh) * | 2022-03-02 | 2022-07-29 | 湖北大学 | 城市人群聚集热点区域预测方法、系统、介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN115333957A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Electric load forecasting by hybrid self-recurrent support vector regression model with variational mode decomposition and improved cuckoo search algorithm | |
CN112308288A (zh) | 一种基于粒子群优化lssvm的违约用户概率预测方法 | |
Afrasiabi et al. | Deep learning architecture for direct probability density prediction of small‐scale solar generation | |
CN113111930A (zh) | 一种端到端的以太坊钓鱼账户检测方法和系统 | |
CN114817663A (zh) | 一种基于类别感知图神经网络的服务建模与推荐方法 | |
CN111368911B (zh) | 一种图像分类方法、装置和计算机可读存储介质 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN115333957B (zh) | 基于用户行为和企业业务特征的业务流量预测方法及系统 | |
Jiang et al. | Bi‐GRCN: A Spatio‐Temporal Traffic Flow Prediction Model Based on Graph Neural Network | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
Qian et al. | Forecasting short-term taxi demand using boosting-GCRF | |
Bento et al. | Ocean wave power forecasting using convolutional neural networks | |
CN109657725B (zh) | 一种基于复杂时空情境感知的服务质量预测方法及系统 | |
Jia et al. | Urban road traffic condition forecasting based on sparse ride‐hailing service data | |
Liao et al. | MFGCN: a multimodal fusion graph convolutional network for online car-hailing demand prediction | |
CN111402028A (zh) | 一种信息处理方法、装置及设备 | |
CN116227738B (zh) | 一种电网客服话务量区间预测方法及系统 | |
Li et al. | Choose A Table: Tensor Dirichlet Process Multinomial Mixture Model with Graphs for Passenger Trajectory Clustering | |
Kong et al. | A novel ConvLSTM with multifeature fusion for financial intelligent trading | |
CN116051963A (zh) | 流量数据的异常检测方法、装置、设备及存储介质 | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
CN115510948A (zh) | 一种基于鲁棒图分类的区块链钓鱼检测方法 | |
Krishna et al. | Identifying demand forecasting using machine learning for business intelligence | |
CN114925294B (zh) | 基于图增强时间-空间模型的位置预测系统及方法 | |
CN117971511B (zh) | 一种协作式可视化仿真平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |