CN115081752B

CN115081752B - 黑灰产众包流量预测装置及方法

Info

Publication number: CN115081752B
Application number: CN202210963224.7A
Authority: CN
Inventors: 韩蒙; 陈唯; 林昶廷; 戴强; 乔通; 黄步添; 王滨
Original assignee: Zhejiang Juntong Intelligent Technology Co ltd
Current assignee: Zhejiang Juntong Intelligent Technology Co ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-22
Anticipated expiration: 2042-08-11
Also published as: CN115081752A

Abstract

本申请公开了一种黑灰产众包流量预测装置，包括基于Informer的长时预测模型，基于Informer的长时预测模型包括：编码器，包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块；解码器，包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块；全连接层，与解码器连接；采集黑灰产众包流量历史数据，将黑灰产众包流量历史数据作为编码器输入，截取黑灰产众包流量历史数据中的至少部分作为解码器输入；编码器输入通过编码器生成特征映射图；解码器接收特征映射图和解码器输入，并通过改进的多头主动稀疏自我注意机制模块和多头注意力机制模块获得解码器输出；全连接层接收解码器输出，并最终输出黑灰产众包流量预测结果。

Description

黑灰产众包流量预测装置及方法

技术领域

本申请属于数据处理技术领域，特别涉及黑灰产众包流量预测装置及方法。

背景技术

近年来，随着数字化产业的发展，利用互联网新技术产生的各类网络犯罪形式层出不穷。在巨额利益的驱动下，网络黑灰产已达到规模化发展的产业形态。为了在黑灰产对企业产生实际利益损失前预判黑灰产众包用户，需要设计一种黑灰产众包流量预测算法，精准地预测网络流量变化趋势，以此提前判定并阻止黑灰产众包用户行为，减少企业损失。

目前，常见的流量异常预测算法有基于RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)和GRU(Gate Recurrent Unit)的预测算法，这些算法仅仅依赖于网络过去的隐藏状态来捕获先前序列的知识，容易欠拟合，且循环网络固有的顺序属性阻碍了训练样本间的并行化，对于长序列，内存限制将阻碍对训练样本的批量处理，拖慢了训练速度。

黑灰产的众包流量数据属于长时监测数据，因此采用上述算法预测黑灰产异常流量模型能力不足。基于Transformer的预测算法避免了上述算法的循环模型结构，完全依赖于注意力机制对输入输出的全局依赖关系进行建模，提高了模型对长时序列的预测能力，但其自注意力机制的二次计算，导致每层的时间复杂度和内存使用量均较大，在数据量较大时，模型的训练速度仍然不理想。

因此，为了实现大量复杂长时黑灰产众包流量的及时预测，需要设计一个预测能力强且训练速度快的预测模型。

发明内容

本申请目的是提供一种黑灰产众包流量预测方法及装置，解决现有技术中流量异常预测模型时间复杂度和空间复杂度高引起的模型训练速度慢的问题。

本申请提供一种黑灰产众包流量预测装置，所述装置包括基于Informer的长时预测模型，所述基于Informer的长时预测模型包括：

编码器，所述编码器包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块；

解码器，与所述编码器连接，所述解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块；

全连接层，与所述解码器连接；

采集黑灰产众包流量历史数据，将所述黑灰产众包流量历史数据作为编码器输入，截取所述黑灰产众包流量历史数据中的至少部分作为解码器输入；

所述编码器输入通过所述编码器生成特征映射图；

所述解码器接收所述特征映射图和所述解码器输入，并通过所述改进的多头主动稀疏自我注意机制模块和所述多头注意力机制模块获得解码器输出；

所述全连接层接收所述解码器输出，并最终输出黑灰产众包流量预测结果。

进一步的，所述改进的多头主动稀疏自我注意机制模块基于多头主动稀疏自我注意机制，根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量，并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵，所述改进的多头主动稀疏自我注意机制模块包括基于对称性指标的多角度度量稀疏单元和多头双重全局注意力机制单元；

所述基于对称性指标的多角度度量稀疏单元包括：

多分布融合差异评分标准组件，通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异；

基于对称性度量指标的稀疏偏差矫正组件，用于在度量Query向量的注意系数概率分布与各个种类分布的KL散度时引入对称性度量指标PSI，矫正KL散度，获得优化的稀疏标准，并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵，稀疏Query矩阵包括稀疏Query向量；

所述多头双重全局注意力机制单元包括：

注意力全局参数设定组件，统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息，以及，所述Key向量与所述Value向量之间的交互信息；

双重加性注意组件，用于将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量，将所述Key向量与所述全局稀疏Query向量相结合，并通过加性注意转换为全局Key向量；

将所述Value矩阵与所述全局Key向量相结合，并结合所述稀疏Query矩阵，最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。

进一步的，所述多分布融合差异评分标准组件通过KL散度度量所述Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异，所述差异表示如下：

其中, p表示Query向量的注意系数概率分布，i表示Query向量的项数,t表示均匀分布，KL(t||p)表示Query向量的注意系数概率分布与均匀分布的差异，m表示均匀分布，KL(m||p)表示Query向量的注意系数概率分布与正态分布的差异，n表示均匀分布，KL(n||p)表示Query向量的注意系数概率分布与指数分布的差异。

进一步的，所述基于对称性度量指标的稀疏偏差矫正组件分别对各个KL散度进行矫正，矫正KL散度表示如下：

其中， p表示Query向量的注意系数概率分布，i表示Query向量的项数,t表示均匀分布，

(t||p)表示Query向量的注意系数概率分布与均匀分布矫正后的差异，m表示均匀分布，

(m||p)表示Query向量的注意系数概率分布与正态分布矫正后的差异，n表示均匀分布，

(n||p)表示Query向量的注意系数概率分布与指数分布矫正后的差异。

进一步的，所述优化的稀疏标准表示如下：

其中，a、b、c代表各矫正KL散度的权重，通过训练获得，q _i表示第i个Query向量。

进一步的，根据所述优化的稀疏标准，选择至少部分Query向量作为稀疏Query向量，各个所述稀疏Query向量组合构成所述稀疏Query矩阵。

进一步的，所述全局稀疏Query向量表示如下：

其中， q _i表示稀疏Query矩阵中第i个稀疏Query向量，α _i表示第i个稀疏Query向量的注意权值，

对全局稀疏Query向量与Key向量之间的交互进行建模，在全局稀疏Query向量和每个Key向量之间执行元素级乘积，计算全局稀疏Query向量与Key向量之间的交互向量，并将全局稀疏Query向量与Key向量之间的交互向量组合成Key矩阵，

Key矩阵中的第i个向量表示如下：

，

其中，d _i表示Key矩阵中的第i个向量，∗表示元素级乘积，q表示全局稀疏Query向量，k _i表示第i个Key向量；

所述全局Key向量表示如下：

其中，d _i表示Key矩阵中的第i个Key向量，β _i代表第i个Key向量的注意权值；

最后，对Value矩阵与全局Key向量之间的交互作用进行了建模，在全局Key向量和每个Value向量之间执行元素乘积，计算全局Key向量与Value向量之间的交互向量u _i，全局Key向量与Value向量之间的交互向量表示如下：

其中，u _i表示全局Key向量与Value向量之间的交互向量，k表示全局Key向量，v _i表示第i个Value向量；

然后对每个全局Key向量与Value向量之间的交互向量应用一个线性变换层来学习其隐藏表示，所述线性变换层的输出矩阵表示如下：

将所述线性变换层的输出矩阵与稀疏Query矩阵相加，形成多头双重全局注意力机制的最终输出。

进一步的，第i个稀疏Query向量的注意权值α _i表示如下：

其中，w _q表示训练的参数向量，T表示转置，d表示矩阵的维度。

进一步的，第i个Key向量的注意权值β _i表示如下：

其中，β _i代表第i个Key向量的注意权值，w _k表示训练的参数向量，T表示转置，d表示矩阵的维度。

进一步的，所述蒸馏机制模块对具有主导注意力的优势特征赋予更高的权重，最终生成特征映射图。

进一步的，所述解码器采用一步解码机制，根据所述特征映射图和所述解码器输入批量生成式预测，直接输出多步预测结果。

本申请还提供一种黑灰产众包流预测方法，所述方法包括：

构建基于Informer的长时预测模型；

采集黑灰产众包流量历史数据，所述黑灰产众包流量历史数据经过所述基于Informer的长时预测模型处理，输出黑灰产众包流量预测结果；

其中，所述基于Informer的长时预测模型包括预处理步骤：

根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量，并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵；

所述基于Informer的长时预测模型还包括改进的多头主动稀疏自我注意机制，所述改进的多头主动稀疏自我注意机制包括如下处理步骤：

通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异；

引入对称性度量指标PSI，度量Query向量的注意系数概率分布与各个种类分布的KL散度，矫正KL散度，获得优化的稀疏标准，并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵，稀疏Query矩阵包括稀疏Query向量；

统筹全局信息获得所述稀疏Query向量与所述Key向量之间的交互信息，以及，所述Key向量与所述Value向量之间的交互信息；

将所述稀疏Query矩阵通过加性注意转换为全局稀疏Query向量，将所述Key向量与所述全局稀疏Query向量相结合，并通过加性注意转换为全局Key向量，将所述Value矩阵与所述全局Key向量相结合，并结合所述稀疏Query矩阵，最终获得所述改进的多头主动稀疏自我注意机制模块的输出矩阵。

本申请采用改进的主动稀疏自我注意机制，稀疏化Query向量，降低每层的时间复杂度和内存使用量。基于卷积蒸馏思想的编码机制来缩短每一层的输入序列长度，显著降低总空间复杂度，提高接收长时间序列输入速度。采用Informer模型的一步解码机制，批量生成式预测直接输出多步预测结果，降低预测时间复杂度，避免累计误差传播，以此实现黑灰产众包流量的快速有效预测。

附图说明

图1为本申请提供的黑灰产众包流量预测装置示意图；

图2为本申请提供的改进的多头主动稀疏自我注意机制模块的示意图；

图3为本申请提供的基于对称性指标的多角度度量稀疏单元示意图；

图4为本申请提供的多头双重全局注意力机制单元示意图；

图5为本申请提供的黑灰产众包流量的预测方法流程图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述，但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，其示出了本申请实施例提供的黑灰产众包流量预测装置示意图。本申请提供的黑灰产众包流量预测装置包括基于Informer的长时预测模型，基于Informer的长时预测模型包括：编码器、解码器、线性层和全连接层。

其中，编码器包括改进的多头主动稀疏自我注意机制模块和蒸馏机制模块。解码器与编码器连接，解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块。全连接层与所述解码器连接。

作为一种可选的实现方式，本申请实施例提供的黑灰产众包流量预测装置可以通过以下使用方式实现对黑灰产众包流量预测，具体的：

采集黑灰产众包流量历史数据，将黑灰产众包流量历史数据作为编码器输入。

编码器接收编码器输入，并经过编码器的内部数据处理生成特征映射图。

截取黑灰产众包流量历史数据中的至少部分作为解码器输入。

解码器接收特征映射图和解码器输入，并通过改进的多头主动稀疏自我注意机制模块和多头注意力机制模块获得解码器输出。

全连接层接收解码器输出，并最终输出黑灰产众包流量预测结果。

在此进行说明，本申请实施例提供的黑灰产众包流量预测装置包括基于Informer的长时预测模型。Informer模型主要用于长序列时间序列预测（以下简称长时预测）。在传统的Informer模型中，提出了多头主动稀疏自我注意机制，并提出了蒸馏操作缩短输入的时间维度，并提出一种生成式的推理过程来提高解码器的效率。

如图1所示，本申请设计了改进的多头主动稀疏自我注意机制模块，并基于Informer模型的思想，在本申请实施例提供的基于Informer的长时预测模型中，设计了由蒸馏层和改进的多头主动稀疏自我注意机制模块堆叠而成的编码器。以及，包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块的解码器。

在编码器中，黑灰产众包流量历史数据作为编码器输入，黑灰产众包流量历史数据包括众包历史流量时间序列、局部时间戳、全局时间戳。黑灰产众包流量历史数据经过改进的多头主动稀疏自我注意机制模块的处理，降低了编码器中每层的时间复杂度和内存使用量，并利用蒸馏操作对具有主导注意力的优势特征赋予更高的权重，最终生成特征映射图。

在解码器内，截取黑灰产众包流量历史数据中的至少部分作为解码器输入，具体的，选取需要预测的目标的前一段时间内的黑灰产众包流量历史数据解码器输入。解码器输入先经过改进的多头主动稀疏自我注意机制模块的处理，在与编码器输出的特征映射图进行多头注意力机制操作获得解码器输出。最终，解码器输出经过全连接层调整数据输出的维度，得到黑灰产众包流量预测结果。解码器采用一步解码机制，根据特征映射图和解码器输入批量生成式预测，直接输出多步预测结果。

根据以上说明，本申请提供的黑灰产众包流量预测装置基于Informer的思想，通过改进的多头主动稀疏自我注意机制模块降低编码器中每层的时间复杂度和内存使用量。并且，采用蒸馏机制缩短编码器中每一层的输入序列长度，降低总空间的复杂度，提高接收长时间序列输入速度。同时，还采用一步解码机制来获得长时间序列输出，在进行黑灰产众包流量预测时，能够一步得到预测结果，降低预测时间复杂度，避免累计误差传播。

以下，将对本申请实施例提供的改进的多头主动稀疏自我注意机制模块进行说明。

如图2所示，其示出了本申请实施例提供的改进的多头主动稀疏自我注意机制模块的示意图。改进的多头主动稀疏自我注意机制模块包括基于对称性指标的多角度度量稀疏单元和多头双重全局注意力机制单元。

作为一种可选的实现方式，在本申请实施例中，改进的多头主动稀疏自我注意机制模块基于传统的多头主动稀疏自我注意机制，根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量，并可以通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵。

如图3所示，其示出了本申请实施例提供的基于对称性指标的多角度度量稀疏单元示意图。基于对称性指标的多角度度量稀疏单元包括：多分布融合差异评分标准组件和基于对称性度量指标的稀疏偏差矫正组件。

其中，多分布融合差异评分标准组件通过KL散度度量Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异。

具体的，在本申请实施例中，p(k _j|q _i)表示第i个Query向量对采样部分的Key向量的注意系数概率分布，均匀分布表示为

、正态分布表示为

、指数分布表示为

，则通过KL散度度量Query向量的注意系数概率分布与以上各个分布类型的差异，具体表示如下：

基于对称性度量指标的稀疏偏差矫正组件，用于在度量Query向量的注意系数概率分布与各个种类分布的KL散度时引入对称性度量指标PSI，矫正KL散度，获得优化的稀疏标准，并根据优化的稀疏标准将Query矩阵转换为稀疏Query矩阵。为了便于说明，在本申请实施例中，将稀疏Query矩阵中的向量称为稀疏Query向量。

具体的，基于对称性度量指标的稀疏偏差矫正组件分别对各个KL散度进行矫正，矫正KL散度表示如下：

其中，, p表示Query向量的注意系数概率分布，i表示Query向量的项数,t表示均匀分布，

则优化的稀疏标准表示如下：

在获得优化的稀疏标准后，按照该优化的稀疏标准计算各个Query向量的稀疏性得分，并按照稀疏性得分选取其中排名最前的若干个Query向量组合成稀疏Query矩阵。

根据以上说明，本申请实施例提供的改进的多头主动稀疏自我注意机制模块中，设计了多分布融合差异评分标准组件，该组件考虑了Query向量的注意系数概率分布和多种常见分布的差异，融合差异结果，多角度快速分析Query向量的重要性，提高稀疏方法的全面性。此外，还设计了基于对称性度量指标的稀疏偏差矫正组件，在度量Query向量的注意系数概率分布与其它分布的差异时，通过引入对称性度量指标PSI矫正差异度量偏差，提高稀疏方法的有效性和稳定性。

如图4所示，多头双重全局注意力机制单元包括：

具体的，所述全局稀疏Query向量表示如下：

其中， q _i表示第i个稀疏Query向量，α _i表示第i个稀疏Query向量的注意权值，α _i表示如下：

其中，w _q表示训练的参数向量，T表示转置，d表示矩阵的维度；

对全局稀疏Query向量与Key向量之间的交互进行建模，在全局稀疏Query向量和每个Key向量之间执行元素级乘积，计算全局稀疏Query向量与Key向量之间的交互向量，并将全局稀疏Query向量与Key向量之间的交互向量组合成Key矩阵。

Key矩阵中的第i个向量表示如下：

，

其中，d _i表示Key矩阵中的第i个向量，∗表示元素级乘积，q表示全局稀疏Query向量，k _i表示第i个Key向量。

全局Key向量表示如下：

其中，d _i表示Key矩阵中的第i个Key向量，β _i代表第i个Key向量的注意权值，β _i表示如下：

将线性变换层的输出矩阵与稀疏Query矩阵相加，形成多头双重全局注意力机制的最终输出。

如图4所示，多头双重全局注意力机制的最终输出还包括Key矩阵。

根据以上说明，本申请实施例提供的改进的多头主动稀疏自我注意机制模块中，设计了注意力全局参数设定组件，统筹全局信息稀疏Query向量与所述Key向量之间的交互信息以及，所述Key向量与所述Value向量之间的交互信息，提高流量宽跨度预测的有效性。并且，还设计了双重加性注意组件，加性操作进一步降低了时间复杂度，提高预测的及时性。

如图5所示，本申请还提供一种黑灰产众包流量的预测方法，包括以下步骤：

构建基于Informer的长时预测模型；

采集黑灰产众包流量历史数据，所述黑灰产众包流量历史数据经过所述基于Informer的长时预测模型处理，输出黑灰产众包流量预测结果。

其中，所述基于Informer的长时预测模型包括预处理步骤：

根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量，并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵。

具体的，基于Informer的长时预测模型还包括改进的多头主动稀疏自我注意机制。黑灰产众包流量历史数据经过基于Informer的长时预测模型的处理，具体包括如下步骤：

黑灰产众包流量历史数据经过改进的多头主动稀疏自我注意机制的处理，降低了编码器中每层的时间复杂度和内存使用量，并利用蒸馏操作对具有主导注意力的优势特征赋予更高的权重，最终生成特征映射图。

截取黑灰产众包流量历史数据中的至少部分作为解码器输入，解码器输入先经过改进的多头主动稀疏自我注意机制的处理，再与编码器输出的特征映射图进行多头注意力机制操作获得解码器输出。最终，解码器输出经过全连接层调整数据输出的维度，得到黑灰产众包流量预测结果。

其中，改进的多头主动稀疏自我注意机制包括如下处理步骤：

为了更进一步说明本申请实施例提供的黑灰产众包流量预测装置，下面将结合具体的使用情景进行说明。

具体的，本申请的目的在于对黑灰产流量提供预测，为此，本申请采集黑灰产众包流量历史数据，并通过基于Informer的长时预测模型预测黑灰产众包流量在一个设置的未来时间段里的变化趋势是否正常。

对于基于Informer的长时预测模型，编码器的输入可以表示如下：

其中，x表示众包历史流量时间序列，PE表示局部时间戳、SE表示全局时间戳，

表示平衡众包历史流量时间序列x和局部/全局时间戳之间幅度的因子，当序列输入已经标准化，

则= 1。

另外，编码器的特征映射存在值Value的冗余组合，因此，基于卷积蒸馏思想的编码机制利用卷积蒸馏操作对具有主导注意力的优势特征赋予更高权重，并在下一层生成特征映射。“蒸馏”过程如下所示：

其中， Conv1d(Value)使用ELU激活函数在时间维度上执行一维卷积滤波过程，MaxPool表示最大池化过程，最后将获取到的Value_new和Key_new作为解码器的特征映射图输入至解码器的多头注意力机制中。

对于解码器，一步解码机制采用的是批量生成式预测直接输出多步预测结果，Informer长时预测模型框架的解码器包括改进的多头主动稀疏自我注意机制模块和多头注意力机制模块。解码器的输入可以表示为：

其中，xtoken表示需要预测的众包历史流量，包含众包历史流量时间序列、局部时间戳和全局时间戳，x₀表示需要预测的众包流量的占位符。

通过解码器中改进的多头主动稀疏自我注意机制模块获得query，输入至解码器的多头注意力机制中，最终通过全连接层获得预测的流量，即x₀部分。

对于解码器的输出x₀，其表示的是黑灰产众包流量在一个设置的未来时间段里的流量值（变化趋势），最终对这个变化趋势进行判断，是否异常。

综上所述，本申请采用改进的主动稀疏自我注意机制，稀疏化Query向量，降低每层的时间复杂度和内存使用量。基于卷积蒸馏思想的编码机制来缩短每一层的输入序列长度，显著降低总空间复杂度，提高接收长时间序列输入速度。采用Informer模型的一步解码机制，批量生成式预测直接输出多步预测结果，降低预测时间复杂度，避免累计误差传播，以此实现黑灰产众包流量的快速有效预测。

此外，在改进的主动稀疏自我注意机制模块中，通过基于对称性指标的多角度度量稀疏方法优化主动稀疏的自我注意机制，设计多分布融合差异评分标准组件，融合注意力机制的Query向量的注意系数概率分布和多种常见分布的差异结果，多角度快速分析Query的重要性。并且，通过基于对称性度量指标的稀疏偏差矫正组件矫正稀疏评分，在度量Query向量的注意系数概率分布与其它分布的差异时，引入对称性度量指标PSI，矫正差异度量偏差，提高稀疏方法的有效性和稳定性。

注意力全局参数设定组件统筹全局信息获得Query与Key之间的交互信息和Key与Value之间的交互信息，提高流量宽跨度预测的有效性。

双重加性注意组件将原本的点积操作改为加法操作，进一步降低时间复杂度，提高预测的及时性。

本申请能够在保证模型对黑灰产流量预测能力的同时提高预测速度，具有较高的应用价值。

以上所揭露的仅为本发明的较佳实施例而已，然其并非用以限定本发明之权利范围，本领域普通技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，改变、修饰、替代、组合、简化，均应为等效的置换方式，仍属于发明所涵盖的范围。

Claims

1.一种黑灰产众包流量预测装置，其特征在于，所述装置包括基于Informer的长时预测模型，所述基于Informer的长时预测模型包括：

全连接层，与所述解码器连接；

所述编码器输入通过所述编码器生成特征映射图；

所述全连接层接收所述解码器输出，并最终输出黑灰产众包流量预测结果；

其中，所述改进的多头主动稀疏自我注意机制模块基于多头主动稀疏自我注意机制，根据所述黑灰产众包流量历史数据生成Query向量、Key向量和Value向量，并通过线性层分别转换为Query矩阵、Key矩阵和Value矩阵，所述改进的多头主动稀疏自我注意机制模块包括基于对称性指标的多角度度量稀疏单元和多头双重全局注意力机制单元；

所述基于对称性指标的多角度度量稀疏单元包括：

所述多头双重全局注意力机制单元包括：

2.根据权利要求1所述的黑灰产众包流量预测装置，其特征在于，所述多分布融合差异评分标准组件通过KL散度度量所述Query向量的注意系数概率分布分别与均匀分布、正态分布、指数分布的差异，所述差异表示如下：