CN107609589A - 一种复杂行为序列数据的特征学习方法 - Google Patents

一种复杂行为序列数据的特征学习方法 Download PDF

Info

Publication number
CN107609589A
CN107609589A CN201710816615.5A CN201710816615A CN107609589A CN 107609589 A CN107609589 A CN 107609589A CN 201710816615 A CN201710816615 A CN 201710816615A CN 107609589 A CN107609589 A CN 107609589A
Authority
CN
China
Prior art keywords
event
field
matrix
neural network
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710816615.5A
Other languages
English (en)
Inventor
熊贇
张尧
朱扬勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201710816615.5A priority Critical patent/CN107609589A/zh
Publication of CN107609589A publication Critical patent/CN107609589A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据技术领域,具体为一种复杂行为序列数据的特征学习方法。本发明核心是定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此,假设一个事件发生的概率大小取决于其字段之间是否相容,首先将复杂行为事件中每一个字段都通过嵌入转换为欧式空间中的多维向量表示,对字段的向量两两进行内积运算,作为其相容程度的度量,然后进行加权求和,进一步通过指数运算与归一化,作为单个事件的概率。本发明方法通过分析复杂行为序列数据集,以无监督的方式自动生成指定实体的特征向量,得到较低维度的特征向量,作为后续机器学习、数据挖掘任务的特征,无需专家手工设计特征。

Description

一种复杂行为序列数据的特征学习方法
技术领域
本发明属于大数据技术领域,具体涉及复杂行为序列数据的特征学习方法。
背景技术
许多现实应用中都会产生大量的行为事件,随着信息化的普及,许多行为事件已经被存储在计算机中。每一次行为事件都涉及到多种属性,这些事件一起构成了复杂行为序列数据。例如,在证券市场中,每一笔交易行为都是一次行为事件,其包含有多个属性,如投资人、股票、金额、数量、买或卖等,所有的交易行为构成了复杂行为序列数据;在计算机进程监控系统中,每一次进程间通信都是一次行为事件,其可能的属性有源进程名、目标进程名、源端口号、目标端口号、访问位置等,所有的进程间通信构成了复杂行为序列数据。表1为复杂行为序列数据示例。
通过对这些复杂行为序列数据的挖掘分析,能发现有意义的模式,指导实际应用场景的决策,例如:分析用户、投资人之间是否相似,某进程是否为异常进程等。这些分析任务都需要利用实体的特征。传统的方法通常需要借助领域知识,由专家选择特征、相似性函数等。
本发明针对复杂行为序列数据,提出一种基于神经网络的特征学习方法。首先,收集数据将其处理为事件序列格式(一个事件序列的字段可以根据用户需求被指定为实体与属性两种,例如,进程监控系统中,进程间通信这一行为事件涉及的字段有:用户名、端口、ip地址、时间和登陆时长等,其中,用户名、端口、ip地址通常可被指定为实体;时间和时长作为属性);然后,建立神经网络,利用神经网络来描述单一事件的概率;再通过对数据集进行极大似然估计,求解神经网络参数;最后,针对指定实体,从神经网络中抽取对应参数,作为特征向量,提供给后续的数据挖掘任务。该方法与以往方法相比,无须人工设计特征。
发明内容
本发明的目的在于提供一种高效率的基于人工神经网络的复杂行为序列数据特征学习方法。
本发明提供的基于人工神经网络的复杂行为序列数据特征学习方法,是通过分析数据间的内在联系,学习出复杂行为序列数据中指定实体的特征向量,优点在于不需要领域专家去手工设计特征。
本发明首先提供一种基于人工神经网络的复杂行为序列数据特征学习模型。本发明的核心是如何定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此,假设一个事件发生的概率大小取决于其字段之间是否相容,具体来说,我们首先将复杂行为事件中每一个字段都通过嵌入(Embedding)转换为欧式空间中的多维向量表示,对字段的向量两两进行内积运算,作为其相容程度的度量,然后进行加权求和,进一步通过指数运算与归一化,作为单个事件的概率。
本发明提供的复杂行为序列数据特征学习方法,是基于人工神经网络学习模型的,具体步骤为:
(1)复杂行为序列数据预处理:从应用系统中收集复杂行为序列数据,假设每条行为事件event有K个字段:其中,Ak为第k个字段可能的取值构成的集合,其大小为mk=|Ak|。通过对各个字段的每个取值重新编号,建立一一映射:
fk:Ak→{1,2,…,mk}, (1)
即对都有唯一的正整数与之对应,这样便可以将事件重新表示为event=(a1,a2,…,aK)。如果有字段为连续型,可以划分为若干区间,对数据进行离散化,再进行重新编号。
(2)初始化人工神经网络:采用的神经网络结构如图1所示(Chen,Ting,et al."Entity embedding-based anomaly detection for heterogeneous categoricalevents."International Joint Conference on Artificial Intelligence(2016):1396-1403.)。包含输入层、隐藏层、输出层。输入为事件,首先经过隐藏层嵌入得到各个字段的嵌入向量,然后向量两两计算内积再加权求和,最后经过标准化输出该事件的概率。训练人工神经网络通常需要迭代求解,为此需要对模型参数随机赋值作为初始值。该网络主要有两组参数需要求解:每个字段Ak的mk×d维的嵌入矩阵E(k)∈Rmk×d及字段间的K维对称权重矩阵W∈SK。嵌入矩阵E(k)的第i行即为字段集合Ak的第i个取值的d维特征向量,其中d为要学习的特征向量的维数,为模型超参,由用户指定。通常嵌入矩阵的初始值可取均匀分布权重矩阵的初始值可取正态分布Wij~N(0,0.01)。
(3)迭代优化参数:通过随机梯度下降算法,对网络参数进行优化。具体流程为:
(3.0)首先定义单个行为事件的概率表达式:对于一个事件event=(a1,a2,…,aK),首先经过神经网络的嵌入层,得到各个字段的d维特征向量(e1,e2,…,eK),其中ek为嵌入矩阵E(k)的第ak行。对于第i和第j个字段,计算其对应向量的内积作为字段间的相容度:
然后对两两字段间相容度加权求和,得到该事件的分数,权重由权重矩阵给出:
s(event)=∑1≤i<j≤K wij·sij, (3)
进一步便可计算该事件的概率:
其中,Ω为所有可能的事件构成的集合,即样本空间,考虑到样本空间的规模,通常采用抽样估计来计算该概率。
(3.1)从数据集中抽取若干条数据作为一个批次:
batch={event1,…,eventl},
输入到神经网络中,利用步骤(3.0)中公式,计算该批次上的负对数似然,即损失函数值Lbatch=-∑event∈batchlog P(event), (5)
(3.2)对K个嵌入矩阵E(1),E(1),…,E(K)及权重矩阵W分别计算Lbatch上的梯度,得到ΔE(1),ΔE(2),…ΔE(K)与ΔW。
(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新:
E(k):=E(k)-α·ΔE(k),W:=W-α·ΔW, (6)
其中α>0为学习速率,为模型超参,由用户指定。
(3.4)重复步骤(3.1)~(3.3),直至参数收敛或达到最大迭代次数。
(4)取出特征向量:如步骤(2)中所述,抽取指定实体的嵌入矩阵即为对应字段的特征向量矩阵,矩阵的第i行即为该字段第i个取值的特征向量。
本发明方法可通过分析复杂行为序列数据集,以无监督的方式自动生成指定实体的特征向量,得到较低维度的特征向量,该向量可直接作为后续机器学习、数据挖掘任务的特征,无需专家手工设计特征。
附图说明
图1为人工神经网络架构。
具体实施方式
下面以含有4条行为数据的示例数据(见表2)展示该方法的具体实施方式:
(1)复杂行为序列数据预处理:该数据集共有3个字段(即K=3),字段“投资者”可能的取值有Mike与John,可重新编号为{Mike:1,John:2};类似的,可对字段“股票”重新编号为{600001:1,600015:2,600042:3};字段“金额”为连续型变量,可将其离散化为大于10、小于或等于10两类,再进行编号。此时,整个数据集可重新表示为表3所示。
(2)初始化人工神经网络:首先初始化3个嵌入矩阵:E(1)=[1,0;0,-1],E(2)=[1,-1;-1,0;0,1],E(3)=[0,1;1,1],为简化,这里我们给定特征向量维度d=2。之后初始化权重矩阵,因权重矩阵为对称阵,只需给定3个值:w12=0.5,w13=1,w23=-0.8。
(3)迭代优化参数:这里仅针对迭代中的第一轮进行分析。假定批次大小为1,我们抽取batch={Event3},即只考虑第3条数据,其3个字段对应的特征向量分别为(1,0),(0,1),(1,1)。按照步骤(3.0)中公式,计算可得s12=0,s13=1,s23=1,该事件的分数为s(Event3)=0.5×0+1×1+(-0.8)×1=0.2,概率为P(Event3)=0.07,则该批次上的损失为Lbatch=2.66。之后便可计算该批次上的梯度ΔE(1),ΔE(2),ΔE(3)与ΔW,并按负梯度方向进行更新:
E(k):=E(k)-α·ΔE(k),W:=W-α·ΔW。
(4)取出特征向量:虽然我们在模型中对3个字段都进行了嵌入,但在实际应用中,可能只关心投资者的特征向量,为此,只需取出其对应嵌入矩阵E(1)即可。
通过本发明方法,自动生成了投资者们的低维特征向量表示,而无需手工设计,之后可将这组特征用于后续的数据挖掘任务中(如对投资者进行聚类、分类等),这组特征可以真实的反映复杂行为对象的特征,实现复杂行为数据挖掘,在分类任务上,相较于传统方法准确率提高近10%;并且,减少了对专家手工选取特征的依赖,并且对于复杂行为序列数据,手工选取特征也是很困难的。
表1复杂行为序列数据示例
表2实施例中数据集示例
投资者 股票 金额
Event1 Mike 600001 14.5
Event2 John 600015 5.5
Event3 Mike 600042 7.1
Event4 John 600042 7.2
表3预处理后的示例数据集

Claims (1)

1.复杂行为序列数据特征学习方法,是基于人工神经网络学习模型的,其特征在于,具体步骤为:
(1)复杂行为序列数据预处理:从应用系统中收集复杂行为序列数据,假设每条行为事件event有K个字段:其中,Ak为第k个字段可能的取值构成的集合,其大小为mk=|Ak|;通过对各个字段的每个取值重新编号,建立一一映射:
fk:Ak→{1,2,…,mk}, (1)
即对都有唯一的正整数与之对应,这样便将事件重新表示为event=(a1,a2,…,aK);
(2)初始化人工神经网络:神经网络结构包含输入层、隐藏层、输出层;输入为事件,首先经过隐藏层嵌入得到各个字段的嵌入向量,然后向量两两计算内积再加权求和,最后经过标准化输出该事件的概率;训练人工神经网络通常需要迭代求解,为此对模型参数随机赋值作为初始值;该网络主要有两组参数需要求解:每个字段Ak的mk×d维的嵌入矩阵及字段间的K维对称权重矩阵W∈SK;嵌入矩阵E(k)的第i行即为字段集合Ak的第i个取值的d维特征向量,其中d为要学习的特征向量的维数,为模型超参,由用户指定;嵌入矩阵的初始值取均匀分布权重矩阵的初始值取正态分布Wij~N(0,0.01);
(3)迭代优化参数:通过随机梯度下降算法,对网络参数进行优化;具体流程为:
(3.0)首先定义单个行为事件的概率表达式:对于一个事件event=(a1,a2,…,aK),首先经过神经网络的嵌入层,得到各个字段的d维特征向量(e1,e2,…,eK),其中ek为嵌入矩阵E(k)的第ak行;对于第i和第j个字段,计算其对应向量的内积作为字段间的相容度:
<mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>e</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
然后对两两字段间相容度加权求和,得到该事件的分数,权重由权重矩阵给出:
s(event)=∑1≤i<j≤Kwij·sij, (3)
进一步计算该事件的概率:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>(</mo> <mrow> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <msup> <mi>event</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <mi>&amp;Omega;</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>(</mo> <mrow> <msup> <mi>event</mi> <mo>&amp;prime;</mo> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,Ω为所有可能的事件构成的集合,即样本空间;
(3.1)从数据集中抽取若干条数据作为一个批次:
batch={event1,…,eventl},
输入到神经网络中,利用步骤(3.0)中公式,计算该批次上的负对数似然,即损失函数值
Lbatch=-∑event∈batchlog P(event), (5)
(3.2)对K个嵌入矩阵E(1),E(1),…,E(K)及权重矩阵W分别计算Lbatch上的梯度,得到ΔE(1),ΔE(2),…ΔE(K)与ΔW;
(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新:
E(k):=E(k)-α·ΔE(k),W:=W-α·ΔW, (6)
其中α>0为学习速率,为模型超参,由用户指定;
(3.4)重复步骤(3.1)~(3.3),直至参数收敛或达到最大迭代次数;
(4)取出特征向量:如步骤(2)中所述,抽取指定实体的嵌入矩阵即为对应字段的特征向量矩阵,矩阵的第i行即为该字段第i个取值的特征向量。
CN201710816615.5A 2017-09-12 2017-09-12 一种复杂行为序列数据的特征学习方法 Pending CN107609589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710816615.5A CN107609589A (zh) 2017-09-12 2017-09-12 一种复杂行为序列数据的特征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710816615.5A CN107609589A (zh) 2017-09-12 2017-09-12 一种复杂行为序列数据的特征学习方法

Publications (1)

Publication Number Publication Date
CN107609589A true CN107609589A (zh) 2018-01-19

Family

ID=61063262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710816615.5A Pending CN107609589A (zh) 2017-09-12 2017-09-12 一种复杂行为序列数据的特征学习方法

Country Status (1)

Country Link
CN (1) CN107609589A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543668A (zh) * 2018-11-29 2019-03-29 税友软件集团股份有限公司 一种工资条项目识别方法、装置、设备及可读存储介质
WO2019205544A1 (zh) * 2018-04-25 2019-10-31 苏州大学张家港工业技术研究院 兼顾公平性的上下文感知学习的结果预测分类器
CN110751285A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN111242312A (zh) * 2020-01-06 2020-06-05 支付宝(杭州)信息技术有限公司 事件序列数据的处理方法、装置、电子设备
CN111259917A (zh) * 2020-02-20 2020-06-09 西北工业大学 一种基于局部近邻成分分析的图像特征提取方法
US11514354B2 (en) 2018-04-20 2022-11-29 Accenture Global Solutions Limited Artificial intelligence based performance prediction system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514354B2 (en) 2018-04-20 2022-11-29 Accenture Global Solutions Limited Artificial intelligence based performance prediction system
WO2019205544A1 (zh) * 2018-04-25 2019-10-31 苏州大学张家港工业技术研究院 兼顾公平性的上下文感知学习的结果预测分类器
CN110751285A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN110751285B (zh) * 2018-07-23 2024-01-23 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN109543668A (zh) * 2018-11-29 2019-03-29 税友软件集团股份有限公司 一种工资条项目识别方法、装置、设备及可读存储介质
CN111242312A (zh) * 2020-01-06 2020-06-05 支付宝(杭州)信息技术有限公司 事件序列数据的处理方法、装置、电子设备
CN111242312B (zh) * 2020-01-06 2021-08-17 支付宝(杭州)信息技术有限公司 事件序列数据的处理方法、装置、电子设备
CN111259917A (zh) * 2020-02-20 2020-06-09 西北工业大学 一种基于局部近邻成分分析的图像特征提取方法

Similar Documents

Publication Publication Date Title
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN107609589A (zh) 一种复杂行为序列数据的特征学习方法
Luo et al. An inherently nonnegative latent factor model for high-dimensional and sparse matrices from industrial applications
Jaware et al. Crop disease detection using image segmentation
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN105740912B (zh) 基于核范数正则化的低秩图像特征提取的识别方法及系统
CN112541458B (zh) 基于元学习的域自适应的人脸识别方法、系统、装置
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
CN109063757A (zh) 基于块对角表示和视图多样性的多视图子空间聚类方法
CN110580510B (zh) 一种聚类结果评价方法和系统
CN111431849A (zh) 一种网络入侵检测方法及装置
Masood et al. Differential evolution based advised SVM for histopathalogical image analysis for skin cancer detection
CN111062428A (zh) 一种高光谱图像的聚类方法、系统及设备
CN113591962A (zh) 一种网络攻击样本生成方法及装置
CN115952067A (zh) 一种数据库操作异常行为检测方法及可读存储介质
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
CN114118370A (zh) 模型训练方法、电子设备和计算机可读存储介质
Wang et al. Research on feature selection method of intrusion detection based on deep belief network
CN110941542A (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
CN107563287B (zh) 人脸识别方法和装置
Vishwakarma et al. Lifting weak supervision to structured prediction
CN112951320B (zh) 一种基于集成学习的生物医学网络关联预测方法
CN113191134B (zh) 基于注意力机制的文档质量验证方法、装置、设备及介质
Billah et al. Adaptive neuro fuzzy inference system based tea leaf disease recognition using color wavelet
CN114021637A (zh) 一种基于度量空间下去中心化应用加密流量分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180119