CN116070106B

CN116070106B - 基于行为序列的数据交互异常检测特征抽取方法及装置

Info

Publication number: CN116070106B
Application number: CN202310333558.0A
Authority: CN
Inventors: 樊涛; 罗晨; 梅文明; 魏思佳; 孙炜; 石聪聪; 高先周; 张小建; 姚启桂
Original assignee: State Grid Smart Grid Research Institute of SGCC
Current assignee: State Grid Smart Grid Research Institute of SGCC
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-02
Anticipated expiration: 2043-03-31
Also published as: CN116070106A

Abstract

本发明实施例涉及一种基于行为序列的数据交互异常检测特征抽取方法及装置，包括：从行为序列数据中构造样本，得到数据交互样本集合；将所述数据交互样本集合输入至基于编码器‑解码器结构的模型中进行训练，其中，所述模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加；将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。由此，改进模型目标函数，拟合每一步状态时，考虑当前及后续状态，模型信息损失小，特征质量高，适用于高精度要求的异常检测场景。

Description

基于行为序列的数据交互异常检测特征抽取方法及装置

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种基于行为序列的数据交互异常检测特征抽取方法及装置。

背景技术

电力、银行等传统基础行业数字化转型工作取得重大进展的同时，也面临新技术、新业务带来的各式安全挑战。其中“数据交互方式多样，隐藏在复杂交互过程的风险难以识别”是突出问题之一。数据交互过程中一类重要信息载体是行为序列，该数据按时序记录了实体在交互过程中的各个行为。例如，用户使用网上国网app进行缴费时会留下形如“登陆-搜索-缴费-退出”的页面访问序列。目前主流思路是从行为序列中提取特征，训练机器学习模型判断交互过程是否异常。其中，如何从行为序列中提取特征是直接决定异常检测效果的因素之一。

现有技术中，基于行为序列的特征提取方法可分为两类：一类是人工方式。业务人员利用领域知识从行为序列中提取统计特征。虽然该方式有一定效果，但难以对行为序列中的完整结构关系进行特征构建。以用户app页面访问序列为例，人工特征无法完整表达访问页面先后顺序信息，最终影响异常检测效果。另一类是利用表征学习进行特征抽取。该方式主流思路是利用编码器-解码器框架，将行为序列转化为指定长度向量作为特征。相较于人工方法，该方法能更好地表达序列中的结构信息。然而，现有技术中，解码器中目标函数拟合每一步状态时，仅考虑了当前状态，忽视了后续状态的存在事实，因此，目标函数存在信息损失，影响了抽取特征质量，进而影响了最终异常检测效果。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种基于行为序列的数据交互异常检测特征抽取方法及装置。

第一方面，本发明实施例提供一种基于行为序列的数据交互异常检测特征抽取方法，包括：

从行为序列数据中构造样本，得到数据交互样本集合；

将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练，其中，所述模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加；

将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。

在一个可能的实施方式中，所述方法还包括：

收集目标实体在交互过程中所有行为，按时序组织成一组序列数据，一组序列数据对应一个样本；

将所述一组序列数据分成训练序列样本和预估序列样本。

在一个可能的实施方式中，所述方法还包括：

将所述数据交互样本集合中出现的每个行为进行词嵌入编码；

基于每个行为对应的词嵌入编码，将所述训练序列样本作为所述模型中编码器的输入，提取训练序列特征；

将所述预估序列样本作为解码器的真实标签，用来计算模型的目标函数。

在一个可能的实施方式中，所述方法还包括：

所述每步状态的目标函数满足第一公式，所述第一公式为：

；

其中，

表示第i个样本在解码器中第j个状态下的目标函数，/>

，

为预估序列样本长度，真实标签/>

采用独热编码方式进行表示，/>

为预测标签，/>

为不同行为数量；在解码器第j个状态中拟合多个状态的同时，根据预设分布为每个状态分配权重

，状态t离状态j越远，权重值越小。

在一个可能的实施方式中，所述方法还包括：

所述模型的目标函数满足第二公式，所述第二公式为：

；

其中，N为样本数量。

在一个可能的实施方式中，所述方法还包括：

提取所述模型中编码器的每个状态输出的隐藏向量，并按预设方法融合，融合方法为第三公式：

；

其中，q为预设方法，

为编码器第/>

个状态输出的隐藏状态向量；

将融合后的向量

作为行为序列的特征。

在一个可能的实施方式中，所述方法还包括：

使用正态分布为每个状态分配权重，权重为第四公式：

。

第二方面，本发明实施例提供一种基于行为序列的数据交互异常检测特征抽取装置，包括：

构造模块，用于从行为序列数据中构造样本，得到数据交互样本集合；

抽取模块，用于将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练，其中，所述模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加；

融合模块，用于将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。

第三方面，本发明实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的基于行为序列的数据交互异常检测特征抽取程序，以实现上述第一方面中所述的基于行为序列的数据交互异常检测特征抽取方法。

第四方面，本发明实施例提供一种存储介质，包括：所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面中所述的基于行为序列的数据交互异常检测特征抽取方法。

本发明实施例提供的基于行为序列的数据交互异常检测特征抽取方案，通过从行为序列数据中构造样本，得到数据交互样本集合；将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练，其中，所述模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加；将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。现有技术中基于行为序列的特征提取方法中，解码器的目标函数拟合每一步状态时，仅考虑当前状态，忽视后续状态的存在事实，目标函数存在信息损失，影响抽取特征质量，进而影响最终异常检测效果的问题，由本方案，改进模型目标函数，拟合每一步状态时，考虑当前及后续状态，模型信息损失小，特征质量高，适用于高精度要求的异常检测场景。

附图说明

图1为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取方法的流程示意图；

图2为本发明实施例提供的一种对行为序列数据进行描述的示意图；

图3为本发明实施例提供的一种基于编码器-解码器结构的模型结构示意图；

图4为本发明实施例提供的一种基于共享底座的网络结构示意图；

图5为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

交互过程异常监测中，为了更好的抽取行为序列特征，本发明实施例提出一种基于行为序列的数据交互异常检测特征抽取方法。该方法基于编码器-解码器（Encoder-Decoder）结构，本发明实施例中，编码器与解码器均以业界主流的时间序列模型“长短期记忆网络”(Long Short-Term Memory, LSTM)为例进行说明。在其他实施例中，还可以是循环神经网络（Recurrent Neural Network, RNN）等其他时间序列模型来实现，本发明实施例并不限于此。

本发明实施例通过自动抽取行为序列的特征，可以构造丰富的用户操作行为信息，以便开展后续的异常交互检测，及时有效的采取相关措施，避免异常操作行为对业务数据造成破坏。另外，需要说明的是，本发明实施例提供的基于行为序列的数据交互异常检测特征抽取方法，具体还可以应用于智能营销、电商平台推荐系统、社交网络和商场购物等场景中，本发明实施例不限于此，行为序列数据的特征可以通过下述实施例计算得到。

图1为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取方法的流程示意图，如图1所示，该方法具体包括：

S11、从行为序列数据中构造样本，得到数据交互样本集合。

本发明实施例优先适用于高精度要求的数据交互异常检测场景，首先，收集实体在交互过程中所有行为，按时序组织成一组序列数据。一组序列数据对应一个样本，如图2所示，将长度为

的序列数据分为训练序列样本/>

和预估序列样本/>

两个部分，其中

。训练序列样本作为编码器部分的输入，最终由模型提取其特征，编码器长度为/>

。预估序列样本作为解码器的真实标签，用来计算整个模型的目标函数，解码器长度为/>

。

一次交互过程可以由多种方法定义，具体方式可按业务逻辑分，按时间间隔来分等。例如，用户在五分钟之内先后有若干操作行为，其行为序列形如“登陆-进入首页-查询表单-申请表单-填表-下载表格-退出”。

S12、将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练。

模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加。

具体的，基于编码器-解码器结构的模型如图3所示，其中编码器和解码器中的每个状态均使用LSTM模型，可选的，编码器和解码器的每个状态还可以使用门控循环单元(Gate Recurrent Unit， GRU)等循环神经网络模型。将S11中生成的行为序列训练特征作为LSTM模型的输入，对下一时刻的特征进行预测。LSTM的核心是细胞状态，通过输入门、遗忘门和输出门来改变细胞状态。输入门用于控制输入细胞单元中的信息，遗忘门决定上一时刻单元状态中哪些信息应该保留、哪些信息应该丢弃，输出门用于控制细胞单元传输给下一时刻的信息。LSTM的描述方程如下：

其中，

为当前时刻的输入，/>

，/>

，/>

分别为LSTM细胞单元中输入门、输出门和遗忘门的输出，/>

为上一时刻的状态向量，/>

为上一时刻网络信息的载体，/>

，/>

，/>

分别为相应门的权值矩阵，/>

，/>

，/>

分别是相应门的偏置矩阵。网络的最终输出下一时刻的隐藏状态/>

由输出门/>

和单元状态/>

共同确定。

将样本集中出现的每个行为进行词嵌入编码。将训练序列

作为编码器的输入，编码器的每个状态/>

会输出隐藏向量/>

。

解码器中，每个状态

的输入由两个部分组成，一部分是/>

，另一部分是上一个状态的输出层/>

。经过LSTM处理后得到该状态的输出/>

。/>

输入至全连接层(Full Connect， FC)，采用共享底座（Share Bottom）的形式输出当前及后续状态的预测值。如图4所示，输出层/>

为长度为/>

的向量/>

，将其输入全连接层后输出长度为/>

的向量/>

作为当前及后续状态的预测值，并计算状态j的目标函数，目标函数满足第一公式：

其中，

表示第i个样本在解码器中第j个状态下的目标函数，/>

，

为预估序列样本长度，真实标签/>

采用独热编码方式进行表示，/>

为预测标签，/>

，状态t离状态j越远，权重值越小。

本发明实施例中，可以使用正态分布为每个状态分配权重，权重为第四公式：

。

进一步的，得到解码器中所有状态的目标函数后，以累加和的形式得到模型目标函数，模型的目标函数满足第二公式：

其中，N为样本数量。

S13、将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。

模型训练结束后，将行为序列转化为样本后输入到编码器，提取编码器中每一步得到的隐含层，提取所述模型中编码器的每个状态输出的隐藏向量，并按预设方法融合，融合方法为第三公式：

；

其中，q为预设方法，

为编码器第/>

个状态输出的隐藏状态向量；融合后的向量

作为行为序列的特征。预设得融合方法可以是加权平均等。

为评估该方法的有效性，本发明实施例在CERT内部威胁数据集和LANL网络安全数据集上验证了抽取特征性能的实际效果。在CERT数据集中，从某企业1000多名员工日志中，将用户每天的行为序列作为样本，并按本发明实施例提供的方法提取行为序列特征。在LANL数据集中，获取包含身份验证、进程、网络流和DNS日志源的95万行日志，日志中记录了正常的网络活动以及一系列异常活动，并对包含不同活动频率和分布的节假日活动进行了单独训练。实验结果表明，使用本发明实施例提供的方法所抽取的特征对比现有的特征抽取方法在各个数据集上的异常检测准确率均有提升。

为验证本实施方案在电力业务生产环境中的有效性，对电力营销2.0场景中连续一周时间获取的日志数据进行了实验。将用户访问API接口记录作为行为序列，共构造300万条样本。实验发现，在电力营销日志数据集上使用本例中模型提取的特征向量异常检测准确率提升了11%。

需要声明的是，以上所述是本发明实施例的优选实施方式，应当指出，对于本领域技术人员在本发明的精神和原理启发下，可作各种修改，等同替换、或改进。但这些变更或修改均在申请待批的保护范围内。

本发明实施例提供的基于行为序列的数据交互异常检测特征抽取方法，通过从行为序列数据中构造样本，得到数据交互样本集合；将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练，其中，所述模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加；将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。现有技术中基于行为序列的特征提取方法中，解码器的目标函数拟合每一步状态时，仅考虑当前状态，忽视后续状态的存在事实，目标函数存在信息损失，影响抽取特征质量，进而影响最终异常检测效果的问题。由本方法，改进模型目标函数，拟合每一步状态时，考虑当前及后续状态，模型信息损失小，特征质量高，适用于高精度要求的异常检测场景。

图5为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取装置的结构示意图，如图5所示，具体包括：

构造模块501，用于从行为序列数据中构造样本，得到数据交互样本集合。详细说明参见上述方法实施例对应的相关描述，此处不再赘述。

抽取模块502，用于将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练，其中，所述模型的解码器存在多步状态，每步状态的目标函数拟合当前及后续所有状态的真实值，拟合每步状态目标函数中的当前及后续状态时，通过预设分布为当前及后续状态赋予不同权重，模型的目标函数为每步状态目标函数累加。详细说明参见上述方法实施例对应的相关描述，此处不再赘述。

融合模块503，用于将所述模型中编码器的各状态输出的隐藏向量按预设方法融合，得到行为序列的特征。详细说明参见上述方法实施例对应的相关描述，此处不再赘述。

本实施例提供的基于行为序列的数据交互异常检测特征抽取装置可以是如图5中所示的基于行为序列的数据交互异常检测特征抽取装置，可执行如图1中基于行为序列的数据交互异常检测特征抽取方法的所有步骤，进而实现图1所示基于行为序列的数据交互异常检测特征抽取方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

图6示出了本发明实施例的一种电子设备，如图6所示，该电子设备可以包括处理器601和存储器602，其中处理器601和存储器602可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器601可以为中央处理器（Central Processing Unit，CPU）。处理器601还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器602作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中所提供方法所对应的程序指令/模块。处理器601通过运行存储在存储器602中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器601所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至处理器601。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器602中，当被处理器601执行时，执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。