CN115081752B - 黑灰产众包流量预测装置及方法 - Google Patents
黑灰产众包流量预测装置及方法 Download PDFInfo
- Publication number
- CN115081752B CN115081752B CN202210963224.7A CN202210963224A CN115081752B CN 115081752 B CN115081752 B CN 115081752B CN 202210963224 A CN202210963224 A CN 202210963224A CN 115081752 B CN115081752 B CN 115081752B
- Authority
- CN
- China
- Prior art keywords
- vector
- sparse
- query
- key
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000004519 manufacturing process Methods 0.000 title description 3
- 230000007246 mechanism Effects 0.000 claims abstract description 97
- 230000007774 longterm Effects 0.000 claims abstract description 27
- 238000004821 distillation Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 303
- 238000009826 distribution Methods 0.000 claims description 108
- 239000011159 matrix material Substances 0.000 claims description 96
- 230000003993 interaction Effects 0.000 claims description 37
- 238000005259 measurement Methods 0.000 claims description 22
- 239000000654 additive Substances 0.000 claims description 19
- 230000000996 additive effect Effects 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 14
- 230000009977 dual effect Effects 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 13
- 238000009827 uniform distribution Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 241000565357 Fraxinus nigra Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Game Theory and Decision Science (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种黑灰产众包流量预测装置,包括基于Informer的长时预测模型,基于Informer的长时预测模型包括:编码器,包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块;解码器,包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块;全连接层,与解码器连接;采集黑灰产众包流量历史数据,将黑灰产众包流量历史数据作为编码器输入,截取黑灰产众包流量历史数据中的至少部分作为解码器输入;编码器输入通过编码器生成特征映射图;解码器接收特征映射图和解码器输入,并通过改进的多头主动稀疏自我注意机制模块和多头注意力机制模块获得解码器输出;全连接层接收解码器输出,并最终输出黑灰产众包流量预测结果。
Description
技术领域
本申请属于数据处理技术领域,特别涉及黑灰产众包流量预测装置及方法。
背景技术
近年来,随着数字化产业的发展,利用互联网新技术产生的各类网络犯罪形式层出不穷。在巨额利益的驱动下,网络黑灰产已达到规模化发展的产业形态。为了在黑灰产对企业产生实际利益损失前预判黑灰产众包用户,需要设计一种黑灰产众包流量预测算法,精准地预测网络流量变化趋势,以此提前判定并阻止黑灰产众包用户行为,减少企业损失。
目前,常见的流量异常预测算法有基于RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)和GRU(Gate Recurrent Unit)的预测算法,这些算法仅仅依赖于网络过去的隐藏状态来捕获先前序列的知识,容易欠拟合,且循环网络固有的顺序属性阻碍了训练样本间的并行化,对于长序列,内存限制将阻碍对训练样本的批量处理,拖慢了训练速度。
黑灰产的众包流量数据属于长时监测数据,因此采用上述算法预测黑灰产异常流量模型能力不足。基于Transformer的预测算法避免了上述算法的循环模型结构,完全依赖于注意力机制对输入输出的全局依赖关系进行建模,提高了模型对长时序列的预测能力,但其自注意力机制的二次计算,导致每层的时间复杂度和内存使用量均较大,在数据量较大时,模型的训练速度仍然不理想。
因此,为了实现大量复杂长时黑灰产众包流量的及时预测,需要设计一个预测能力强且训练速度快的预测模型。
发明内容
本申请目的是提供一种黑灰产众包流量预测方法及装置,解决现有技术中流量异常预测模型时间复杂度和空间复杂度高引起的模型训练速度慢的问题。
本申请提供一种黑灰产众包流量预测装置,所述装置包括基于Informer的长时预测模型,所述基于Informer的长时预测模型包括:
编码器,所述编码器包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块;
解码器,与所述编码器连接,所述解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块;
全连接层,与所述解码器连接;
采集黑灰产众包流量历史数据,将所述黑灰产众包流量历史数据作为编码器输入,截取所述黑灰产众包流量历史数据中的至少部分作为解码器输入;
所述编码器输入通过所述编码器生成特征映射图;
所述解码器接收所述特征映射图和所述解码器输入,并通过所述改进的多头主动稀疏自我注意机制模块和所述多头注意力机制模块获得解码器输出;
所述全连接层接收所述解码器输出,并最终输出黑灰产众包流量预测结果。
进一步的,所述改进的多头主动稀疏自我注意机制模块基于多头主动稀疏自我注意机制,根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量,并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵,所述改进的多头主动稀疏自我注意机制模块包括基于对称性指标的多角度度量稀疏单元和多头双重全局注意力机制单元;
所述基于对称性指标的多角度度量稀疏单元包括:
多分布融合差异评分标准组件,通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异;
基于对称性度量指标的稀疏偏差矫正组件,用于在度量Query向量的注意系数概率分布与各个种类分布的KL散度时引入对称性度量指标PSI,矫正KL散度,获得优化的稀疏标准,并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵,稀疏Query矩阵包括稀疏Query向量;
所述多头双重全局注意力机制单元包括:
注意力全局参数设定组件,统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息,以及,所述Key向量与所述Value向量之间的交互信息;
双重加性注意组件,用于将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量,将所述Key向量与所述全局稀疏Query向量相结合,并通过加性注意转换为全局Key向量;
将所述Value矩阵与所述全局Key向量相结合,并结合所述稀疏Query矩阵,最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。
进一步的,所述多分布融合差异评分标准组件通过KL散度度量所述Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异,所述差异表示如下:
其中, p表示Query向量的注意系数概率分布,i表示Query向量的项数,t表示均匀分布,KL(t||p)表示Query向量的注意系数概率分布与均匀分布的差异,m表示均匀分布,KL(m||p)表示Query向量的注意系数概率分布与正态分布的差异,n表示均匀分布,KL(n||p)表示Query向量的注意系数概率分布与指数分布的差异。
进一步的,所述基于对称性度量指标的稀疏偏差矫正组件分别对各个KL散度进行矫正,矫正KL散度表示如下:
其中, p表示Query向量的注意系数概率分布,i表示Query向量的项数,t表示均匀分布,(t||p)表示Query向量的注意系数概率分布与均匀分布矫正后的差异,m表示均匀分布, (m||p)表示Query向量的注意系数概率分布与正态分布矫正后的差异,n表示均匀分布,(n||p)表示Query向量的注意系数概率分布与指数分布矫正后的差异。
进一步的,所述优化的稀疏标准表示如下:
其中,a、b、c代表各矫正KL散度的权重,通过训练获得,q i 表示第i个Query向量。
进一步的,根据所述优化的稀疏标准,选择至少部分Query向量作为稀疏Query向量,各个所述稀疏Query向量组合构成所述稀疏Query矩阵。
进一步的,所述全局稀疏Query向量表示如下:
其中, q i 表示稀疏Query矩阵中第i个稀疏Query向量,α i 表示第i个稀疏Query向量的注意权值,
对全局稀疏Query向量与Key向量之间的交互进行建模,在全局稀疏Query向量和每个Key向量之间执行元素级乘积,计算全局稀疏Query向量与Key向量之间的交互向量,并将全局稀疏Query向量与Key向量之间的交互向量组合成Key矩阵,
Key矩阵中的第i个向量表示如下:
其中,d i 表示Key矩阵中的第i个向量,∗表示元素级乘积,q表示全局稀疏Query向量,k i 表示第i个Key向量;
所述全局Key向量表示如下:
其中,d i 表示Key矩阵中的第i个Key向量,β i 代表第i个Key向量的注意权值;
最后,对Value矩阵与全局Key向量之间的交互作用进行了建模,在全局Key向量和每个Value向量之间执行元素乘积,计算全局Key向量与Value向量之间的交互向量u i ,全局Key向量与Value向量之间的交互向量表示如下:
其中,u i 表示全局Key向量与Value向量之间的交互向量,k表示全局Key向量,v i 表示第i个Value向量;
然后对每个全局Key向量与Value向量之间的交互向量应用一个线性变换层来学习其隐藏表示,所述线性变换层的输出矩阵表示如下:
将所述线性变换层的输出矩阵与稀疏Query矩阵相加,形成多头双重全局注意力机制的最终输出。
进一步的,第i个稀疏Query向量的注意权值α i 表示如下:
其中,w q 表示训练的参数向量,T表示转置,d表示矩阵的维度。
进一步的,第i个Key向量的注意权值β i 表示如下:
其中,β i 代表第i个Key向量的注意权值,w k 表示训练的参数向量,T表示转置,d表示矩阵的维度。
进一步的,所述蒸馏机制模块对具有主导注意力的优势特征赋予更高的权重,最终生成特征映射图。
进一步的,所述解码器采用一步解码机制,根据所述特征映射图和所述解码器输入批量生成式预测,直接输出多步预测结果。
本申请还提供一种黑灰产众包流预测方法,所述方法包括:
构建基于Informer的长时预测模型;
采集黑灰产众包流量历史数据,所述黑灰产众包流量历史数据经过所述基于Informer的长时预测模型处理,输出黑灰产众包流量预测结果;
其中,所述基于Informer的长时预测模型包括预处理步骤:
根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量,并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵;
所述基于Informer的长时预测模型还包括改进的多头主动稀疏自我注意机制,所述改进的多头主动稀疏自我注意机制包括如下处理步骤:
通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异;
引入对称性度量指标PSI,度量Query向量的注意系数概率分布与各个种类分布的KL散度,矫正KL散度,获得优化的稀疏标准,并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵,稀疏Query矩阵包括稀疏Query向量;
统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息,以及,所述Key向量与所述Value向量之间的交互信息;
将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量,将所述Key向量与所述全局稀疏Query向量相结合,并通过加性注意转换为全局Key向量,将所述Value矩阵与所述全局Key向量相结合,并结合所述稀疏Query矩阵,最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。
本申请采用改进的主动稀疏自我注意机制,稀疏化Query向量,降低每层的时间复杂度和内存使用量。基于卷积蒸馏思想的编码机制来缩短每一层的输入序列长度,显著降低总空间复杂度,提高接收长时间序列输入速度。采用Informer模型的一步解码机制,批量生成式预测直接输出多步预测结果,降低预测时间复杂度,避免累计误差传播,以此实现黑灰产众包流量的快速有效预测。
附图说明
图1为本申请提供的黑灰产众包流量预测装置示意图;
图2为本申请提供的改进的多头主动稀疏自我注意机制模块的示意图;
图3为本申请提供的基于对称性指标的多角度度量稀疏单元示意图;
图4为本申请提供的多头双重全局注意力机制单元示意图;
图5为本申请提供的黑灰产众包流量的预测方法流程图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述,但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,其示出了本申请实施例提供的黑灰产众包流量预测装置示意图。本申请提供的黑灰产众包流量预测装置包括基于Informer的长时预测模型,基于Informer的长时预测模型包括:编码器、解码器、线性层和全连接层。
其中,编码器包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块。解码器与编码器连接,解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块。全连接层与所述解码器连接。
作为一种可选的实现方式,本申请实施例提供的黑灰产众包流量预测装置可以通过以下使用方式实现对黑灰产众包流量预测,具体的:
采集黑灰产众包流量历史数据,将黑灰产众包流量历史数据作为编码器输入。
编码器接收编码器输入,并经过编码器的内部数据处理生成特征映射图。
截取黑灰产众包流量历史数据中的至少部分作为解码器输入。
解码器接收特征映射图和解码器输入,并通过改进的多头主动稀疏自我注意机制模块和多头注意力机制模块获得解码器输出。
全连接层接收解码器输出,并最终输出黑灰产众包流量预测结果。
在此进行说明,本申请实施例提供的黑灰产众包流量预测装置包括基于Informer的长时预测模型。Informer模型主要用于长序列时间序列预测(以下简称长时预测)。在传统的Informer模型中,提出了多头主动稀疏自我注意机制,并提出了蒸馏操作缩短输入的时间维度,并提出一种生成式的推理过程来提高解码器的效率。
如图1所示,本申请设计了改进的多头主动稀疏自我注意机制模块,并基于Informer模型的思想,在本申请实施例提供的基于Informer的长时预测模型中,设计了由蒸馏层和改进的多头主动稀疏自我注意机制模块堆叠而成的编码器。以及,包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块的解码器。
在编码器中,黑灰产众包流量历史数据作为编码器输入,黑灰产众包流量历史数据包括众包历史流量时间序列、局部时间戳、全局时间戳。黑灰产众包流量历史数据经过改进的多头主动稀疏自我注意机制模块的处理,降低了编码器中每层的时间复杂度和内存使用量,并利用蒸馏操作对具有主导注意力的优势特征赋予更高的权重,最终生成特征映射图。
在解码器内,截取黑灰产众包流量历史数据中的至少部分作为解码器输入,具体的,选取需要预测的目标的前一段时间内的黑灰产众包流量历史数据解码器输入。解码器输入先经过改进的多头主动稀疏自我注意机制模块的处理,在与编码器输出的特征映射图进行多头注意力机制操作获得解码器输出。最终,解码器输出经过全连接层调整数据输出的维度,得到黑灰产众包流量预测结果。解码器采用一步解码机制,根据特征映射图和解码器输入批量生成式预测,直接输出多步预测结果。
根据以上说明,本申请提供的黑灰产众包流量预测装置基于Informer的思想,通过改进的多头主动稀疏自我注意机制模块降低编码器中每层的时间复杂度和内存使用量。并且,采用蒸馏机制缩短编码器中每一层的输入序列长度,降低总空间的复杂度,提高接收长时间序列输入速度。同时,还采用一步解码机制来获得长时间序列输出,在进行黑灰产众包流量预测时,能够一步得到预测结果,降低预测时间复杂度,避免累计误差传播。
以下,将对本申请实施例提供的改进的多头主动稀疏自我注意机制模块进行说明。
如图2所示,其示出了本申请实施例提供的改进的多头主动稀疏自我注意机制模块的示意图。改进的多头主动稀疏自我注意机制模块包括基于对称性指标的多角度度量稀疏单元和多头双重全局注意力机制单元。
作为一种可选的实现方式,在本申请实施例中,改进的多头主动稀疏自我注意机制模块基于传统的多头主动稀疏自我注意机制,根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量,并可以通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵。
如图3所示,其示出了本申请实施例提供的基于对称性指标的多角度度量稀疏单元示意图。基于对称性指标的多角度度量稀疏单元包括:多分布融合差异评分标准组件和基于对称性度量指标的稀疏偏差矫正组件。
其中,多分布融合差异评分标准组件通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异。
具体的,在本申请实施例中,p(k j |q i )表示第i个Query向量对采样部分的Key向量的注意系数概率分布,均匀分布表示为、正态分布表示为、指数分布表示为,则通过KL散度度量Query向量的注意系数概率分布与以上各个分布类型的差异,具体表示如下:
其中, p表示Query向量的注意系数概率分布,i表示Query向量的项数,t表示均匀分布,KL(t||p)表示Query向量的注意系数概率分布与均匀分布的差异,m表示均匀分布,KL(m||p)表示Query向量的注意系数概率分布与正态分布的差异,n表示均匀分布,KL(n||p)表示Query向量的注意系数概率分布与指数分布的差异。
基于对称性度量指标的稀疏偏差矫正组件,用于在度量Query向量的注意系数概率分布与各个种类分布的KL散度时引入对称性度量指标PSI,矫正KL散度,获得优化的稀疏标准,并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵。为了便于说明,在本申请实施例中,将稀疏Query矩阵中的向量称为稀疏Query向量。
具体的,基于对称性度量指标的稀疏偏差矫正组件分别对各个KL散度进行矫正,矫正KL散度表示如下:
其中,, p表示Query向量的注意系数概率分布,i表示Query向量的项数,t表示均匀分布,(t||p)表示Query向量的注意系数概率分布与均匀分布矫正后的差异,m表示均匀分布, (m||p)表示Query向量的注意系数概率分布与正态分布矫正后的差异,n表示均匀分布,(n||p)表示Query向量的注意系数概率分布与指数分布矫正后的差异。
则优化的稀疏标准表示如下:
其中,a、b、c代表各矫正KL散度的权重,通过训练获得,q i 表示第i个Query向量。
在获得优化的稀疏标准后,按照该优化的稀疏标准计算各个Query向量的稀疏性得分,并按照稀疏性得分选取其中排名最前的若干个Query向量组合成稀疏Query矩阵。
根据以上说明,本申请实施例提供的改进的多头主动稀疏自我注意机制模块中,设计了多分布融合差异评分标准组件,该组件考虑了Query向量的注意系数概率分布和多种常见分布的差异,融合差异结果,多角度快速分析Query向量的重要性,提高稀疏方法的全面性。此外,还设计了基于对称性度量指标的稀疏偏差矫正组件,在度量Query向量的注意系数概率分布与其它分布的差异时,通过引入对称性度量指标PSI矫正差异度量偏差,提高稀疏方法的有效性和稳定性。
如图4所示,多头双重全局注意力机制单元包括:
注意力全局参数设定组件,统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息,以及,所述Key向量与所述Value向量之间的交互信息;
双重加性注意组件,用于将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量,将所述Key向量与所述全局稀疏Query向量相结合,并通过加性注意转换为全局Key向量;
将所述Value矩阵与所述全局Key向量相结合,并结合所述稀疏Query矩阵,最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。
具体的,所述全局稀疏Query向量表示如下:
其中, q i 表示第i个稀疏Query向量,α i 表示第i个稀疏Query向量的注意权值,α i 表示如下:
其中,w q 表示训练的参数向量,T表示转置,d表示矩阵的维度;
对全局稀疏Query向量与Key向量之间的交互进行建模,在全局稀疏Query向量和每个Key向量之间执行元素级乘积,计算全局稀疏Query向量与Key向量之间的交互向量,并将全局稀疏Query向量与Key向量之间的交互向量组合成Key矩阵。
Key矩阵中的第i个向量表示如下:
其中,d i 表示Key矩阵中的第i个向量,∗表示元素级乘积,q表示全局稀疏Query向量,k i 表示第i个Key向量。
全局Key向量表示如下:
其中,d i 表示Key矩阵中的第i个Key向量,β i 代表第i个Key向量的注意权值,β i 表示如下:
其中,β i 代表第i个Key向量的注意权值,w k 表示训练的参数向量,T表示转置,d表示矩阵的维度。
最后,对Value矩阵与全局Key向量之间的交互作用进行了建模,在全局Key向量和每个Value向量之间执行元素乘积,计算全局Key向量与Value向量之间的交互向量u i ,全局Key向量与Value向量之间的交互向量表示如下:
其中,u i 表示全局Key向量与Value向量之间的交互向量,k表示全局Key向量,v i 表示第i个Value向量;
然后对每个全局Key向量与Value向量之间的交互向量应用一个线性变换层来学习其隐藏表示,所述线性变换层的输出矩阵表示如下:
将线性变换层的输出矩阵与稀疏Query矩阵相加,形成多头双重全局注意力机制的最终输出。
如图4所示,多头双重全局注意力机制的最终输出还包括Key矩阵。
根据以上说明,本申请实施例提供的改进的多头主动稀疏自我注意机制模块中,设计了注意力全局参数设定组件,统筹全局信息稀疏Query向量与所述Key向量之间的交互信息以及,所述Key向量与所述Value向量之间的交互信息,提高流量宽跨度预测的有效性。并且,还设计了双重加性注意组件,加性操作进一步降低了时间复杂度,提高预测的及时性。
如图5所示,本申请还提供一种黑灰产众包流量的预测方法,包括以下步骤:
构建基于Informer的长时预测模型;
采集黑灰产众包流量历史数据,所述黑灰产众包流量历史数据经过所述基于Informer的长时预测模型处理,输出黑灰产众包流量预测结果。
其中,所述基于Informer的长时预测模型包括预处理步骤:
根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量,并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵。
具体的,基于Informer的长时预测模型还包括改进的多头主动稀疏自我注意机制。黑灰产众包流量历史数据经过基于Informer的长时预测模型的处理,具体包括如下步骤:
黑灰产众包流量历史数据经过改进的多头主动稀疏自我注意机制的处理,降低了编码器中每层的时间复杂度和内存使用量,并利用蒸馏操作对具有主导注意力的优势特征赋予更高的权重,最终生成特征映射图。
截取黑灰产众包流量历史数据中的至少部分作为解码器输入,解码器输入先经过改进的多头主动稀疏自我注意机制的处理,再与编码器输出的特征映射图进行多头注意力机制操作获得解码器输出。最终,解码器输出经过全连接层调整数据输出的维度,得到黑灰产众包流量预测结果。
其中,改进的多头主动稀疏自我注意机制包括如下处理步骤:
通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异;
引入对称性度量指标PSI,度量Query向量的注意系数概率分布与各个种类分布的KL散度,矫正KL散度,获得优化的稀疏标准,并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵,稀疏Query矩阵包括稀疏Query向量;
统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息,以及,所述Key向量与所述Value向量之间的交互信息;
将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量,将所述Key向量与所述全局稀疏Query向量相结合,并通过加性注意转换为全局Key向量,将所述Value矩阵与所述全局Key向量相结合,并结合所述稀疏Query矩阵,最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。
为了更进一步说明本申请实施例提供的黑灰产众包流量预测装置,下面将结合具体的使用情景进行说明。
具体的,本申请的目的在于对黑灰产流量提供预测,为此,本申请采集黑灰产众包流量历史数据,并通过基于Informer的长时预测模型预测黑灰产众包流量在一个设置的未来时间段里的变化趋势是否正常。
对于基于Informer的长时预测模型,编码器的输入可以表示如下:
另外,编码器的特征映射存在值Value的冗余组合,因此,基于卷积蒸馏思想的编码机制利用卷积蒸馏操作对具有主导注意力的优势特征赋予更高权重,并在下一层生成特征映射。“蒸馏”过程如下所示:
其中, Conv1d(Value)使用ELU激活函数在时间维度上执行一维卷积滤波过程,MaxPool表示最大池化过程,最后将获取到的Valuenew和Keynew作为解码器的特征映射图输入至解码器的多头注意力机制中。
对于解码器,一步解码机制采用的是批量生成式预测直接输出多步预测结果,Informer长时预测模型框架的解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块。解码器的输入可以表示为:
其中,xtoken表示需要预测的众包历史流量,包含众包历史流量时间序列、局部时间戳和全局时间戳,x0表示需要预测的众包流量的占位符。
通过解码器中改进的多头主动稀疏自我注意机制模块获得query,输入至解码器的多头注意力机制中,最终通过全连接层获得预测的流量,即x0部分。
对于解码器的输出x0,其表示的是黑灰产众包流量在一个设置的未来时间段里的流量值(变化趋势),最终对这个变化趋势进行判断,是否异常。
综上所述,本申请采用改进的主动稀疏自我注意机制,稀疏化Query向量,降低每层的时间复杂度和内存使用量。基于卷积蒸馏思想的编码机制来缩短每一层的输入序列长度,显著降低总空间复杂度,提高接收长时间序列输入速度。采用Informer模型的一步解码机制,批量生成式预测直接输出多步预测结果,降低预测时间复杂度,避免累计误差传播,以此实现黑灰产众包流量的快速有效预测。
此外,在改进的主动稀疏自我注意机制模块中,通过基于对称性指标的多角度度量稀疏方法优化主动稀疏的自我注意机制,设计多分布融合差异评分标准组件,融合注意力机制的Query向量的注意系数概率分布和多种常见分布的差异结果,多角度快速分析Query的重要性。并且,通过基于对称性度量指标的稀疏偏差矫正组件矫正稀疏评分,在度量Query向量的注意系数概率分布与其它分布的差异时,引入对称性度量指标PSI,矫正差异度量偏差,提高稀疏方法的有效性和稳定性。
注意力全局参数设定组件统筹全局信息获得Query与Key之间的交互信息和Key与Value之间的交互信息,提高流量宽跨度预测的有效性。
双重加性注意组件将原本的点积操作改为加法操作,进一步降低时间复杂度,提高预测的及时性。
本申请能够在保证模型对黑灰产流量预测能力的同时提高预测速度,具有较高的应用价值。
以上所揭露的仅为本发明的较佳实施例而已,然其并非用以限定本发明之权利范围,本领域普通技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,改变、修饰、替代、组合、简化,均应为等效的置换方式,仍属于发明所涵盖的范围。
Claims (10)
1.一种黑灰产众包流量预测装置,其特征在于,所述装置包括基于Informer的长时预测模型,所述基于Informer的长时预测模型包括:
编码器,所述编码器包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块;
解码器,与所述编码器连接,所述解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块;
全连接层,与所述解码器连接;
采集黑灰产众包流量历史数据,将所述黑灰产众包流量历史数据作为编码器输入,截取所述黑灰产众包流量历史数据中的至少部分作为解码器输入;
所述编码器输入通过所述编码器生成特征映射图;
所述解码器接收所述特征映射图和所述解码器输入,并通过所述改进的多头主动稀疏自我注意机制模块和所述多头注意力机制模块获得解码器输出;
所述全连接层接收所述解码器输出,并最终输出黑灰产众包流量预测结果;
其中,所述改进的多头主动稀疏自我注意机制模块基于多头主动稀疏自我注意机制,根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量,并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵,所述改进的多头主动稀疏自我注意机制模块包括基于对称性指标的多角度度量稀疏单元和多头双重全局注意力机制单元;
所述基于对称性指标的多角度度量稀疏单元包括:
多分布融合差异评分标准组件,通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异;
基于对称性度量指标的稀疏偏差矫正组件,用于在度量Query向量的注意系数概率分布与各个种类分布的KL散度时引入对称性度量指标PSI,矫正KL散度,获得优化的稀疏标准,并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵,稀疏Query矩阵包括稀疏Query向量;
所述多头双重全局注意力机制单元包括:
注意力全局参数设定组件,统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息,以及,所述Key向量与所述Value向量之间的交互信息;
双重加性注意组件,用于将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量,将所述Key向量与所述全局稀疏Query向量相结合,并通过加性注意转换为全局Key向量;
将所述Value矩阵与所述全局Key向量相结合,并结合所述稀疏Query矩阵,最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。
5.根据权利要求4所述的黑灰产众包流量预测装置,其特征在于,根据所述优化的稀疏标准,选择至少部分Query向量作为稀疏Query向量,各个所述稀疏Query向量组合构成所述稀疏Query矩阵。
6.根据权利要求5所述的黑灰产众包流量预测装置,其特征在于,
所述全局稀疏Query向量表示如下:
其中, q i 表示稀疏Query矩阵中第i个稀疏Query向量,α i 表示第i个稀疏Query向量的注意权值;
对全局稀疏Query向量与Key向量之间的交互进行建模,在全局稀疏Query向量和每个Key向量之间执行元素级乘积,计算全局稀疏Query向量与Key向量之间的交互向量,并将全局稀疏Query向量与Key向量之间的交互向量组合成Key矩阵;
Key矩阵中的第i个向量表示如下:
d i =q*k i ,
其中,d i 表示Key矩阵中的第i个Key向量,∗表示元素级乘积,q表示全局稀疏Query向量,k i 表示第i个Key向量;
所述全局Key向量表示如下:
其中,d i 表示Key矩阵中的第i个Key向量,β i 代表第i个Key向量的注意权值;
最后,对Value矩阵与全局Key向量之间的交互作用进行了建模,在全局Key向量和每个Value向量之间执行元素乘积,计算全局Key向量与Value向量之间的交互向量u i ,全局Key向量与Value向量之间的交互向量表示如下:
u
i
=k*v
i
其中,u i 表示全局Key向量与Value向量之间的交互向量,k表示全局Key向量,v i 表示第i个Value向量;
然后对每个全局Key向量与Value向量之间的交互向量应用一个线性变换层来学习其隐藏表示,所述线性变换层的输出矩阵表示如下:
R=[r
1
,r
2,
…,r
N
]
将所述线性变换层的输出矩阵与稀疏Query矩阵相加,形成多头双重全局注意力机制单元的最终输出。
9.根据权利要求1所述的黑灰产众包流量预测装置,其特征在于,
所述蒸馏机制模块对具有主导注意力的优势特征赋予更高的权重,最终生成特征映射图;
所述解码器采用一步解码机制,根据所述特征映射图和所述解码器输入批量生成式预测,直接输出多步预测结果。
10.一种黑灰产众包流量 预测方法,其特征在于,所述方法包括:
构建基于Informer的长时预测模型;
采集黑灰产众包流量历史数据,所述黑灰产众包流量历史数据经过所述基于Informer的长时预测模型处理,输出黑灰产众包流量预测结果;
其中,所述基于Informer的长时预测模型包括预处理步骤:
根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量,并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵;
所述基于Informer的长时预测模型还包括改进的多头主动稀疏自我注意机制,所述改进的多头主动稀疏自我注意机制包括如下处理步骤:
通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异;
引入对称性度量指标PSI,度量Query向量的注意系数概率分布与各个种类分布的KL散度,矫正KL散度,获得优化的稀疏标准,并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵,稀疏Query矩阵包括稀疏Query向量;
统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息,以及,所述Key向量与所述Value向量之间的交互信息;
将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量,将所述Key向量与所述全局稀疏Query向量相结合,并通过加性注意转换为全局Key向量,将所述Value矩阵与所述全局Key向量相结合,并结合所述稀疏Query矩阵,最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963224.7A CN115081752B (zh) | 2022-08-11 | 2022-08-11 | 黑灰产众包流量预测装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963224.7A CN115081752B (zh) | 2022-08-11 | 2022-08-11 | 黑灰产众包流量预测装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115081752A CN115081752A (zh) | 2022-09-20 |
CN115081752B true CN115081752B (zh) | 2022-11-22 |
Family
ID=83244927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210963224.7A Active CN115081752B (zh) | 2022-08-11 | 2022-08-11 | 黑灰产众包流量预测装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081752B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866113A (zh) * | 2019-09-30 | 2020-03-06 | 浙江大学 | 基于稀疏自注意力机制微调伯特模型的文本分类方法 |
CN113487061A (zh) * | 2021-05-28 | 2021-10-08 | 山西云时代智慧城市技术发展有限公司 | 一种基于图卷积-Informer模型的长时序交通流量预测方法 |
CN114626499A (zh) * | 2022-05-11 | 2022-06-14 | 之江实验室 | 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023529801A (ja) * | 2020-06-05 | 2023-07-12 | グーグル エルエルシー | スパースアテンションメカニズムを備えたアテンションニューラルネットワーク |
CN112653142B (zh) * | 2020-12-18 | 2022-09-02 | 武汉大学 | 优化深度Transformer网络的风电功率预测方法及系统 |
CN113392214B (zh) * | 2021-06-03 | 2022-09-06 | 齐鲁工业大学 | 基于k选择策略稀疏自注意力的文本分类方法及系统 |
CN113269115B (zh) * | 2021-06-04 | 2024-02-09 | 北京易航远智科技有限公司 | 一种基于Informer的行人轨迹预测方法 |
CN113342655B (zh) * | 2021-06-08 | 2023-09-29 | 浙江工商大学 | 一种面向众包系统的仿真测试用例生成方法及装置 |
CN113361611B (zh) * | 2021-06-11 | 2023-12-12 | 南京大学 | 一种众包任务下的鲁棒分类器训练方法 |
CN113723669B (zh) * | 2021-08-09 | 2023-01-06 | 贵州电网有限责任公司 | 一种基于Informer模型的输电线路覆冰预测方法 |
CN114444584A (zh) * | 2022-01-10 | 2022-05-06 | 中国地质大学(武汉) | Informer模型改进方法及长序列时序的预测方法及系统 |
CN114613004B (zh) * | 2022-02-28 | 2023-08-01 | 电子科技大学 | 一种人体动作的轻量化在线检测方法 |
CN114662659B (zh) * | 2022-03-11 | 2022-09-16 | 南京信息工程大学 | 一种基于多阶段迁移学习策略综合的众包文本集成方法 |
CN114640695B (zh) * | 2022-04-24 | 2023-04-07 | 上海交通大学 | 一种智能工厂基于长序列双预测和informer的高频时序数据有效传输方法 |
CN114783418B (zh) * | 2022-06-20 | 2022-08-23 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
CN114881775B (zh) * | 2022-07-12 | 2022-09-30 | 浙江君同智能科技有限责任公司 | 一种基于半监督集成学习的欺诈检测方法及系统 |
-
2022
- 2022-08-11 CN CN202210963224.7A patent/CN115081752B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866113A (zh) * | 2019-09-30 | 2020-03-06 | 浙江大学 | 基于稀疏自注意力机制微调伯特模型的文本分类方法 |
CN113487061A (zh) * | 2021-05-28 | 2021-10-08 | 山西云时代智慧城市技术发展有限公司 | 一种基于图卷积-Informer模型的长时序交通流量预测方法 |
CN114626499A (zh) * | 2022-05-11 | 2022-06-14 | 之江实验室 | 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115081752A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107886161A (zh) | 一种提高复杂信息系统效能的全局敏感性分析方法 | |
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN114239718B (zh) | 基于多元时序数据分析的高精度长期时间序列预测方法 | |
CN114841072A (zh) | 一种基于差分融合Transformer的时序预测方法 | |
CN116128158A (zh) | 混合采样注意力机制的油井效率预测方法 | |
CN115034496A (zh) | 基于GCN-Transformer的城市轨道交通节假日短时客流预测方法 | |
CN113328755A (zh) | 一种面向边缘计算的压缩数据传输方法 | |
CN116596033A (zh) | 一种基于窗口注意力和生成器的Transformer臭氧浓度预测方法 | |
CN111178604A (zh) | 一种95598故障工单数预测方法 | |
CN117153294B (zh) | 一种单一体系的分子生成方法 | |
CN115081752B (zh) | 黑灰产众包流量预测装置及方法 | |
CN116522912B (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN114282658B (zh) | 一种针对流量序列分析及预测的方法、设备和介质 | |
CN116702976A (zh) | 基于建模动态企业关系的企业资源预测方法以及装置 | |
CN116662925A (zh) | 一种基于加权稀疏神经网络工业过程软测量方法 | |
CN114511767B (zh) | 一种面向时序图数据的快速的状态预测方法 | |
CN115169426B (zh) | 一种基于相似性学习融合模型的异常检测方法及系统 | |
CN112667394B (zh) | 一种计算机资源利用率优化方法 | |
CN107316101A (zh) | 一种基于小波分解和分量超前选择的风速预测方法 | |
Zou et al. | An improved grey Markov chain model with ANN error correction and its application in gross domestic product forecasting | |
CN116894097B (zh) | 一种基于超图建模的知识图谱标签预测方法 | |
Deshpande et al. | Long Range Probabilistic Forecasting in Time-Series using High Order Statistics | |
Wang et al. | Dual Cross-Attention Transformer Networks for Temporal Predictive Modeling of Industrial Process | |
CN117709550A (zh) | 基于ardl与卷积神经网络模型的能耗预测方法 | |
CN117635238A (zh) | 一种商品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |