CN116070106B - 基于行为序列的数据交互异常检测特征抽取方法及装置 - Google Patents

基于行为序列的数据交互异常检测特征抽取方法及装置 Download PDF

Info

Publication number
CN116070106B
CN116070106B CN202310333558.0A CN202310333558A CN116070106B CN 116070106 B CN116070106 B CN 116070106B CN 202310333558 A CN202310333558 A CN 202310333558A CN 116070106 B CN116070106 B CN 116070106B
Authority
CN
China
Prior art keywords
states
model
objective function
state
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310333558.0A
Other languages
English (en)
Other versions
CN116070106A (zh
Inventor
樊涛
罗晨
梅文明
魏思佳
孙炜
石聪聪
高先周
张小建
姚启桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Smart Grid Research Institute Co ltd
Original Assignee
State Grid Smart Grid Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Smart Grid Research Institute Co ltd filed Critical State Grid Smart Grid Research Institute Co ltd
Priority to CN202310333558.0A priority Critical patent/CN116070106B/zh
Publication of CN116070106A publication Critical patent/CN116070106A/zh
Application granted granted Critical
Publication of CN116070106B publication Critical patent/CN116070106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及一种基于行为序列的数据交互异常检测特征抽取方法及装置,包括:从行为序列数据中构造样本,得到数据交互样本集合;将所述数据交互样本集合输入至基于编码器‑解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。由此,改进模型目标函数,拟合每一步状态时,考虑当前及后续状态,模型信息损失小,特征质量高,适用于高精度要求的异常检测场景。

Description

基于行为序列的数据交互异常检测特征抽取方法及装置
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种基于行为序列的数据交互异常检测特征抽取方法及装置。
背景技术
电力、银行等传统基础行业数字化转型工作取得重大进展的同时,也面临新技术、新业务带来的各式安全挑战。其中“数据交互方式多样,隐藏在复杂交互过程的风险难以识别”是突出问题之一。数据交互过程中一类重要信息载体是行为序列,该数据按时序记录了实体在交互过程中的各个行为。例如,用户使用网上国网app进行缴费时会留下形如“登陆-搜索-缴费-退出”的页面访问序列。目前主流思路是从行为序列中提取特征,训练机器学习模型判断交互过程是否异常。其中,如何从行为序列中提取特征是直接决定异常检测效果的因素之一。
现有技术中,基于行为序列的特征提取方法可分为两类:一类是人工方式。业务人员利用领域知识从行为序列中提取统计特征。虽然该方式有一定效果,但难以对行为序列中的完整结构关系进行特征构建。以用户app页面访问序列为例,人工特征无法完整表达访问页面先后顺序信息,最终影响异常检测效果。另一类是利用表征学习进行特征抽取。该方式主流思路是利用编码器-解码器框架,将行为序列转化为指定长度向量作为特征。相较于人工方法,该方法能更好地表达序列中的结构信息。然而,现有技术中,解码器中目标函数拟合每一步状态时,仅考虑了当前状态,忽视了后续状态的存在事实,因此,目标函数存在信息损失,影响了抽取特征质量,进而影响了最终异常检测效果。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种基于行为序列的数据交互异常检测特征抽取方法及装置。
第一方面,本发明实施例提供一种基于行为序列的数据交互异常检测特征抽取方法,包括:
从行为序列数据中构造样本,得到数据交互样本集合;
将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;
将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。
在一个可能的实施方式中,所述方法还包括:
收集目标实体在交互过程中所有行为,按时序组织成一组序列数据,一组序列数据对应一个样本;
将所述一组序列数据分成训练序列样本和预估序列样本。
在一个可能的实施方式中,所述方法还包括:
将所述数据交互样本集合中出现的每个行为进行词嵌入编码;
基于每个行为对应的词嵌入编码,将所述训练序列样本作为所述模型中编码器的输入,提取训练序列特征;
将所述预估序列样本作为解码器的真实标签,用来计算模型的目标函数。
在一个可能的实施方式中,所述方法还包括:
所述每步状态的目标函数满足第一公式,所述第一公式为:
Figure SMS_1
其中,
Figure SMS_2
表示第i个样本在解码器中第j个状态下的目标函数,/>
Figure SMS_3
Figure SMS_4
为预估序列样本长度,真实标签/>
Figure SMS_5
采用独热编码方式进行表示,/>
Figure SMS_6
为预测标签,/>
Figure SMS_7
为不同行为数量;在解码器第j个状态中拟合多个状态的同时,根据预设分布为每个状态分配权重
Figure SMS_8
,状态t离状态j越远,权重值越小。
在一个可能的实施方式中,所述方法还包括:
所述模型的目标函数满足第二公式,所述第二公式为:
Figure SMS_9
其中,N为样本数量。
在一个可能的实施方式中,所述方法还包括:
提取所述模型中编码器的每个状态输出的隐藏向量,并按预设方法融合,融合方法为第三公式:
Figure SMS_10
其中,q为预设方法,
Figure SMS_11
为编码器第/>
Figure SMS_12
个状态输出的隐藏状态向量;
将融合后的向量
Figure SMS_13
作为行为序列的特征。
在一个可能的实施方式中,所述方法还包括:
使用正态分布为每个状态分配权重,权重为第四公式:
Figure SMS_14
第二方面,本发明实施例提供一种基于行为序列的数据交互异常检测特征抽取装置,包括:
构造模块,用于从行为序列数据中构造样本,得到数据交互样本集合;
抽取模块,用于将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;
融合模块,用于将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的基于行为序列的数据交互异常检测特征抽取程序,以实现上述第一方面中所述的基于行为序列的数据交互异常检测特征抽取方法。
第四方面,本发明实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中所述的基于行为序列的数据交互异常检测特征抽取方法。
本发明实施例提供的基于行为序列的数据交互异常检测特征抽取方案,通过从行为序列数据中构造样本,得到数据交互样本集合;将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。现有技术中基于行为序列的特征提取方法中,解码器的目标函数拟合每一步状态时,仅考虑当前状态,忽视后续状态的存在事实,目标函数存在信息损失,影响抽取特征质量,进而影响最终异常检测效果的问题,由本方案,改进模型目标函数,拟合每一步状态时,考虑当前及后续状态,模型信息损失小,特征质量高,适用于高精度要求的异常检测场景。
附图说明
图1为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取方法的流程示意图;
图2为本发明实施例提供的一种对行为序列数据进行描述的示意图;
图3为本发明实施例提供的一种基于编码器-解码器结构的模型结构示意图;
图4为本发明实施例提供的一种基于共享底座的网络结构示意图;
图5为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
交互过程异常监测中,为了更好的抽取行为序列特征,本发明实施例提出一种基于行为序列的数据交互异常检测特征抽取方法。该方法基于编码器-解码器(Encoder-Decoder)结构,本发明实施例中,编码器与解码器均以业界主流的时间序列模型“长短期记忆网络”(Long Short-Term Memory, LSTM)为例进行说明。在其他实施例中,还可以是循环神经网络(Recurrent Neural Network, RNN)等其他时间序列模型来实现,本发明实施例并不限于此。
本发明实施例通过自动抽取行为序列的特征,可以构造丰富的用户操作行为信息,以便开展后续的异常交互检测,及时有效的采取相关措施,避免异常操作行为对业务数据造成破坏。另外,需要说明的是,本发明实施例提供的基于行为序列的数据交互异常检测特征抽取方法,具体还可以应用于智能营销、电商平台推荐系统、社交网络和商场购物等场景中,本发明实施例不限于此,行为序列数据的特征可以通过下述实施例计算得到。
图1为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取方法的流程示意图,如图1所示,该方法具体包括:
S11、从行为序列数据中构造样本,得到数据交互样本集合。
本发明实施例优先适用于高精度要求的数据交互异常检测场景,首先,收集实体在交互过程中所有行为,按时序组织成一组序列数据。一组序列数据对应一个样本,如图2所示,将长度为
Figure SMS_15
的序列数据分为训练序列样本/>
Figure SMS_16
和预估序列样本/>
Figure SMS_17
两个部分,其中
Figure SMS_18
。训练序列样本作为编码器部分的输入,最终由模型提取其特征,编码器长度为/>
Figure SMS_19
。预估序列样本作为解码器的真实标签,用来计算整个模型的目标函数,解码器长度为/>
Figure SMS_20
一次交互过程可以由多种方法定义,具体方式可按业务逻辑分,按时间间隔来分等。例如,用户在五分钟之内先后有若干操作行为,其行为序列形如“登陆-进入首页-查询表单-申请表单-填表-下载表格-退出”。
S12、将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练。
模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加。
具体的,基于编码器-解码器结构的模型如图3所示,其中编码器和解码器中的每个状态均使用LSTM模型,可选的,编码器和解码器的每个状态还可以使用门控循环单元(Gate Recurrent Unit, GRU)等循环神经网络模型。将S11中生成的行为序列训练特征作为LSTM模型的输入,对下一时刻的特征进行预测。LSTM的核心是细胞状态,通过输入门、遗忘门和输出门来改变细胞状态。输入门用于控制输入细胞单元中的信息,遗忘门决定上一时刻单元状态中哪些信息应该保留、哪些信息应该丢弃,输出门用于控制细胞单元传输给下一时刻的信息。LSTM的描述方程如下:
Figure SMS_21
其中,
Figure SMS_25
为当前时刻的输入,/>
Figure SMS_28
,/>
Figure SMS_33
,/>
Figure SMS_24
分别为LSTM细胞单元中输入门、输出门和遗忘门的输出,/>
Figure SMS_29
为上一时刻的状态向量,/>
Figure SMS_31
为上一时刻网络信息的载体,/>
Figure SMS_35
,/>
Figure SMS_22
,/>
Figure SMS_26
分别为相应门的权值矩阵,/>
Figure SMS_30
,/>
Figure SMS_34
,/>
Figure SMS_23
分别是相应门的偏置矩阵。网络的最终输出下一时刻的隐藏状态/>
Figure SMS_27
由输出门/>
Figure SMS_32
和单元状态/>
Figure SMS_36
共同确定。
将样本集中出现的每个行为进行词嵌入编码。将训练序列
Figure SMS_37
作为编码器的输入,编码器的每个状态/>
Figure SMS_38
会输出隐藏向量/>
Figure SMS_39
解码器中,每个状态
Figure SMS_41
的输入由两个部分组成,一部分是/>
Figure SMS_45
,另一部分是上一个状态的输出层/>
Figure SMS_48
。经过LSTM处理后得到该状态的输出/>
Figure SMS_42
。/>
Figure SMS_44
输入至全连接层(Full Connect, FC),采用共享底座(Share Bottom)的形式输出当前及后续状态的预测值。如图4所示,输出层/>
Figure SMS_47
为长度为/>
Figure SMS_49
的向量/>
Figure SMS_40
,将其输入全连接层后输出长度为/>
Figure SMS_43
的向量/>
Figure SMS_46
作为当前及后续状态的预测值,并计算状态j的目标函数,目标函数满足第一公式:
Figure SMS_50
其中,
Figure SMS_51
表示第i个样本在解码器中第j个状态下的目标函数,/>
Figure SMS_52
Figure SMS_53
为预估序列样本长度,真实标签/>
Figure SMS_54
采用独热编码方式进行表示,/>
Figure SMS_55
为预测标签,/>
Figure SMS_56
为不同行为数量;在解码器第j个状态中拟合多个状态的同时,根据预设分布为每个状态分配权重
Figure SMS_57
,状态t离状态j越远,权重值越小。
本发明实施例中,可以使用正态分布为每个状态分配权重,权重为第四公式:
Figure SMS_58
进一步的,得到解码器中所有状态的目标函数后,以累加和的形式得到模型目标函数,模型的目标函数满足第二公式:
Figure SMS_59
其中,N为样本数量。
S13、将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。
模型训练结束后,将行为序列转化为样本后输入到编码器,提取编码器中每一步得到的隐含层,提取所述模型中编码器的每个状态输出的隐藏向量,并按预设方法融合,融合方法为第三公式:
Figure SMS_60
其中,q为预设方法,
Figure SMS_61
为编码器第/>
Figure SMS_62
个状态输出的隐藏状态向量;融合后的向量
Figure SMS_63
作为行为序列的特征。预设得融合方法可以是加权平均等。
为评估该方法的有效性,本发明实施例在CERT内部威胁数据集和LANL网络安全数据集上验证了抽取特征性能的实际效果。在CERT数据集中,从某企业1000多名员工日志中,将用户每天的行为序列作为样本,并按本发明实施例提供的方法提取行为序列特征。在LANL数据集中,获取包含身份验证、进程、网络流和DNS日志源的95万行日志,日志中记录了正常的网络活动以及一系列异常活动,并对包含不同活动频率和分布的节假日活动进行了单独训练。实验结果表明,使用本发明实施例提供的方法所抽取的特征对比现有的特征抽取方法在各个数据集上的异常检测准确率均有提升。
为验证本实施方案在电力业务生产环境中的有效性,对电力营销2.0场景中连续一周时间获取的日志数据进行了实验。将用户访问API接口记录作为行为序列,共构造300万条样本。实验发现,在电力营销日志数据集上使用本例中模型提取的特征向量异常检测准确率提升了11%。
需要声明的是,以上所述是本发明实施例的优选实施方式,应当指出,对于本领域技术人员在本发明的精神和原理启发下,可作各种修改,等同替换、或改进。但这些变更或修改均在申请待批的保护范围内。
本发明实施例提供的基于行为序列的数据交互异常检测特征抽取方法,通过从行为序列数据中构造样本,得到数据交互样本集合;将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。现有技术中基于行为序列的特征提取方法中,解码器的目标函数拟合每一步状态时,仅考虑当前状态,忽视后续状态的存在事实,目标函数存在信息损失,影响抽取特征质量,进而影响最终异常检测效果的问题。由本方法,改进模型目标函数,拟合每一步状态时,考虑当前及后续状态,模型信息损失小,特征质量高,适用于高精度要求的异常检测场景。
图5为本发明实施例提供的一种基于行为序列的数据交互异常检测特征抽取装置的结构示意图,如图5所示,具体包括:
构造模块501,用于从行为序列数据中构造样本,得到数据交互样本集合。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
抽取模块502,用于将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
融合模块503,用于将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的基于行为序列的数据交互异常检测特征抽取装置可以是如图5中所示的基于行为序列的数据交互异常检测特征抽取装置,可执行如图1中基于行为序列的数据交互异常检测特征抽取方法的所有步骤,进而实现图1所示基于行为序列的数据交互异常检测特征抽取方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
图6示出了本发明实施例的一种电子设备,如图6所示,该电子设备可以包括处理器601和存储器602,其中处理器601和存储器602可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器601可以为中央处理器(Central Processing Unit,CPU)。处理器601还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器602作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中所提供方法所对应的程序指令/模块。处理器601通过运行存储在存储器602中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器601所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至处理器601。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器602中,当被处理器601执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于行为序列的数据交互异常检测特征抽取方法,其特征在于,包括:
从行为序列数据中构造样本,得到数据交互样本集合;
将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;
将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。
2.根据权利要求1所述的方法,其特征在于,所述从行为序列数据中构造样本,得到数据交互样本集合,包括:
收集目标实体在交互过程中所有行为,按时序组织成一组序列数据,一组序列数据对应一个样本;
将所述一组序列数据分成训练序列样本和预估序列样本。
3.根据权利要求2所述的方法,其特征在于,所述将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,包括:
将所述数据交互样本集合中出现的每个行为进行词嵌入编码;
基于每个行为对应的词嵌入编码,将所述训练序列样本作为所述模型中编码器的输入,提取训练序列特征;
将所述预估序列样本作为解码器的真实标签,用来计算模型的目标函数。
4.根据权利要求3所述的方法,其特征在于,所述每步状态的目标函数满足第一公式,所述第一公式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示第i个样本在解码器中第j个状态下的目标函数,/>
Figure QLYQS_3
,/>
Figure QLYQS_4
为预估序列样本长度,真实标签/>
Figure QLYQS_5
采用独热编码方式进行表示,/>
Figure QLYQS_6
为预测标签,/>
Figure QLYQS_7
为不同行为数量;在解码器第j个状态中拟合多个状态的同时,根据预设分布为每个状态分配权重
Figure QLYQS_8
,状态t离状态j越远,权重值越小。
5.根据权利要求4所述的方法,其特征在于,所述模型的目标函数满足第二公式,所述第二公式为:
Figure QLYQS_9
其中,N为样本数量。
6.根据权利要求1所述的方法,其特征在于,所述将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征,包括:
提取所述模型中编码器的每个状态输出的隐藏向量,并按预设方法融合,融合方法为第三公式:
Figure QLYQS_10
其中,q为预设方法,
Figure QLYQS_11
为编码器第/>
Figure QLYQS_12
个状态输出的隐藏状态向量;
将融合后的向量
Figure QLYQS_13
作为行为序列的特征。
7.根据权利要求4所述的方法,其特征在于,所述根据预设分布为每个状态分配权重
Figure QLYQS_14
,包括:
使用正态分布为每个状态分配权重,权重为第四公式:
Figure QLYQS_15
8.一种基于行为序列的数据交互异常检测特征抽取装置,其特征在于,包括:
构造模块,用于从行为序列数据中构造样本,得到数据交互样本集合;
抽取模块,用于将所述数据交互样本集合输入至基于编码器-解码器结构的模型中进行训练,其中,所述模型的解码器存在多步状态,每步状态的目标函数拟合当前及后续所有状态的真实值,拟合每步状态目标函数中的当前及后续状态时,通过预设分布为当前及后续状态赋予不同权重,模型的目标函数为每步状态目标函数累加;
融合模块,用于将所述模型中编码器的各状态输出的隐藏向量按预设方法融合,得到行为序列的特征。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的基于行为序列的数据交互异常检测特征抽取程序,以实现权利要求1~7中任一项所述的基于行为序列的数据交互异常检测特征抽取方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的基于行为序列的数据交互异常检测特征抽取方法。
CN202310333558.0A 2023-03-31 2023-03-31 基于行为序列的数据交互异常检测特征抽取方法及装置 Active CN116070106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310333558.0A CN116070106B (zh) 2023-03-31 2023-03-31 基于行为序列的数据交互异常检测特征抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310333558.0A CN116070106B (zh) 2023-03-31 2023-03-31 基于行为序列的数据交互异常检测特征抽取方法及装置

Publications (2)

Publication Number Publication Date
CN116070106A CN116070106A (zh) 2023-05-05
CN116070106B true CN116070106B (zh) 2023-06-02

Family

ID=86183985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310333558.0A Active CN116070106B (zh) 2023-03-31 2023-03-31 基于行为序列的数据交互异常检测特征抽取方法及装置

Country Status (1)

Country Link
CN (1) CN116070106B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495767B (zh) * 2020-03-20 2023-08-22 北京轻舟智航智能技术有限公司 一种交互场景生成的方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399201B (zh) * 2018-01-30 2020-05-12 武汉大学 一种基于循环神经网络的Web用户访问路径预测方法
CN110430183A (zh) * 2019-07-31 2019-11-08 福建师范大学 基于会话特征相似性的mh-lstm异常检测方法
CN111275098A (zh) * 2020-01-17 2020-06-12 同济大学 应用于信用卡欺诈检测的Encoder-LSTM深度学习模型及其方法
CN112035347B (zh) * 2020-08-26 2022-03-01 北京航空航天大学 一种源代码的自动异常处理方法
WO2022101515A1 (en) * 2020-11-16 2022-05-19 UMNAI Limited Method for an explainable autoencoder and an explainable generative adversarial network
CN112784965B (zh) * 2021-01-28 2022-07-29 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Also Published As

Publication number Publication date
CN116070106A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US11521221B2 (en) Predictive modeling with entity representations computed from neural network models simultaneously trained on multiple tasks
CN109936582B (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
CN112231275B (zh) 多媒体文件分类、信息处理与模型训练方法、系统及设备
Tang et al. A semi-supervised assessor of neural architectures
CN110348580B (zh) 构建gbdt模型的方法、装置及预测方法、装置
CN110751224B (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN108537119B (zh) 一种小样本视频识别方法
Ji et al. Learning temporal action proposals with fewer labels
CN111259720B (zh) 基于自监督代理特征学习的无监督行人重识别方法
CN112434178B (zh) 图像分类方法、装置、电子设备和存储介质
Wang et al. Learning efficient binarized object detectors with information compression
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN113688665A (zh) 一种基于半监督迭代学习的遥感影像目标检测方法及系统
CN116070106B (zh) 基于行为序列的数据交互异常检测特征抽取方法及装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
US11074043B2 (en) Automated script review utilizing crowdsourced inputs
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
CN110110372B (zh) 一种用户时序行为自动切分预测方法
CN114584406B (zh) 一种联邦学习的工业大数据隐私保护系统及方法
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及系统
CN111160959A (zh) 一种用户点击转化预估方法及装置
Mehta et al. Tackling fake news detection by interactively learning representations using graph neural networks
Ding et al. Automated crack segmentation on 3D asphalt surfaces with richer attention and hybrid pyramid structures
WO2022022059A1 (en) Context aware anomaly detection
KR102282328B1 (ko) Lstm을 이용한 국가별 선호도 예측 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant