CN107609589A

CN107609589A - 一种复杂行为序列数据的特征学习方法

Info

Publication number: CN107609589A
Application number: CN201710816615.5A
Authority: CN
Inventors: 熊贇; 张尧; 朱扬勇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-01-19

Abstract

本发明属于大数据技术领域，具体为一种复杂行为序列数据的特征学习方法。本发明核心是定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此，假设一个事件发生的概率大小取决于其字段之间是否相容，首先将复杂行为事件中每一个字段都通过嵌入转换为欧式空间中的多维向量表示，对字段的向量两两进行内积运算，作为其相容程度的度量，然后进行加权求和，进一步通过指数运算与归一化，作为单个事件的概率。本发明方法通过分析复杂行为序列数据集，以无监督的方式自动生成指定实体的特征向量，得到较低维度的特征向量，作为后续机器学习、数据挖掘任务的特征，无需专家手工设计特征。

Description

一种复杂行为序列数据的特征学习方法

技术领域

本发明属于大数据技术领域，具体涉及复杂行为序列数据的特征学习方法。

背景技术

许多现实应用中都会产生大量的行为事件，随着信息化的普及，许多行为事件已经被存储在计算机中。每一次行为事件都涉及到多种属性，这些事件一起构成了复杂行为序列数据。例如，在证券市场中，每一笔交易行为都是一次行为事件，其包含有多个属性，如投资人、股票、金额、数量、买或卖等，所有的交易行为构成了复杂行为序列数据；在计算机进程监控系统中，每一次进程间通信都是一次行为事件，其可能的属性有源进程名、目标进程名、源端口号、目标端口号、访问位置等，所有的进程间通信构成了复杂行为序列数据。表1为复杂行为序列数据示例。

通过对这些复杂行为序列数据的挖掘分析，能发现有意义的模式，指导实际应用场景的决策，例如：分析用户、投资人之间是否相似，某进程是否为异常进程等。这些分析任务都需要利用实体的特征。传统的方法通常需要借助领域知识，由专家选择特征、相似性函数等。

本发明针对复杂行为序列数据，提出一种基于神经网络的特征学习方法。首先，收集数据将其处理为事件序列格式(一个事件序列的字段可以根据用户需求被指定为实体与属性两种，例如，进程监控系统中，进程间通信这一行为事件涉及的字段有：用户名、端口、ip地址、时间和登陆时长等，其中，用户名、端口、ip地址通常可被指定为实体；时间和时长作为属性)；然后，建立神经网络，利用神经网络来描述单一事件的概率；再通过对数据集进行极大似然估计，求解神经网络参数；最后，针对指定实体，从神经网络中抽取对应参数，作为特征向量，提供给后续的数据挖掘任务。该方法与以往方法相比，无须人工设计特征。

发明内容

本发明的目的在于提供一种高效率的基于人工神经网络的复杂行为序列数据特征学习方法。

本发明提供的基于人工神经网络的复杂行为序列数据特征学习方法，是通过分析数据间的内在联系，学习出复杂行为序列数据中指定实体的特征向量，优点在于不需要领域专家去手工设计特征。

本发明首先提供一种基于人工神经网络的复杂行为序列数据特征学习模型。本发明的核心是如何定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此，假设一个事件发生的概率大小取决于其字段之间是否相容，具体来说，我们首先将复杂行为事件中每一个字段都通过嵌入(Embedding)转换为欧式空间中的多维向量表示，对字段的向量两两进行内积运算，作为其相容程度的度量，然后进行加权求和，进一步通过指数运算与归一化，作为单个事件的概率。

本发明提供的复杂行为序列数据特征学习方法，是基于人工神经网络学习模型的，具体步骤为：

(1)复杂行为序列数据预处理：从应用系统中收集复杂行为序列数据，假设每条行为事件event有K个字段：其中，A_k为第k个字段可能的取值构成的集合，其大小为m_k＝|A_k|。通过对各个字段的每个取值重新编号，建立一一映射：

f_k:A_k→{1,2,…,m_k}， (1)

即对都有唯一的正整数与之对应，这样便可以将事件重新表示为event＝(a₁,a₂,…,a_K)。如果有字段为连续型，可以划分为若干区间，对数据进行离散化，再进行重新编号。

(2)初始化人工神经网络：采用的神经网络结构如图1所示(Chen,Ting,et al."Entity embedding-based anomaly detection for heterogeneous categoricalevents."International Joint Conference on Artificial Intelligence(2016):1396-1403.)。包含输入层、隐藏层、输出层。输入为事件，首先经过隐藏层嵌入得到各个字段的嵌入向量，然后向量两两计算内积再加权求和，最后经过标准化输出该事件的概率。训练人工神经网络通常需要迭代求解，为此需要对模型参数随机赋值作为初始值。该网络主要有两组参数需要求解：每个字段A_k的m_k×d维的嵌入矩阵E^(k)∈Rm_k×d及字段间的K维对称权重矩阵W∈S^K。嵌入矩阵E^(k)的第i行即为字段集合A_k的第i个取值的d维特征向量，其中d为要学习的特征向量的维数，为模型超参，由用户指定。通常嵌入矩阵的初始值可取均匀分布权重矩阵的初始值可取正态分布W_ij～N(0,0.01)。

(3)迭代优化参数：通过随机梯度下降算法，对网络参数进行优化。具体流程为：

(3.0)首先定义单个行为事件的概率表达式：对于一个事件event＝(a₁,a₂,…,a_K)，首先经过神经网络的嵌入层，得到各个字段的d维特征向量(e₁,e₂,…,e_K)，其中e_k为嵌入矩阵E^(k)的第a_k行。对于第i和第j个字段，计算其对应向量的内积作为字段间的相容度：

然后对两两字段间相容度加权求和，得到该事件的分数，权重由权重矩阵给出：

s(event)＝∑_{1≤i＜j≤K} w_ij·s_ij， (3)

进一步便可计算该事件的概率：

其中，Ω为所有可能的事件构成的集合，即样本空间，考虑到样本空间的规模，通常采用抽样估计来计算该概率。

(3.1)从数据集中抽取若干条数据作为一个批次：

batch＝{event₁,…,event_l}，

输入到神经网络中，利用步骤(3.0)中公式，计算该批次上的负对数似然，即损失函数值L_batch＝-∑_{event∈batch}log P(event)， (5)

(3.2)对K个嵌入矩阵E⁽¹⁾,E⁽¹⁾,…,E^(K)及权重矩阵W分别计算L_batch上的梯度，得到ΔE⁽¹⁾,ΔE⁽²⁾,…ΔE^(K)与ΔW。

(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新：

E^(k)：＝E^(k)-α·ΔE^(k),W：＝W-α·ΔW， (6)

其中α>0为学习速率，为模型超参，由用户指定。

(3.4)重复步骤(3.1)～(3.3)，直至参数收敛或达到最大迭代次数。

(4)取出特征向量：如步骤(2)中所述，抽取指定实体的嵌入矩阵即为对应字段的特征向量矩阵，矩阵的第i行即为该字段第i个取值的特征向量。

本发明方法可通过分析复杂行为序列数据集，以无监督的方式自动生成指定实体的特征向量，得到较低维度的特征向量，该向量可直接作为后续机器学习、数据挖掘任务的特征，无需专家手工设计特征。

附图说明

图1为人工神经网络架构。

具体实施方式

下面以含有4条行为数据的示例数据(见表2)展示该方法的具体实施方式：

(1)复杂行为序列数据预处理：该数据集共有3个字段(即K＝3)，字段“投资者”可能的取值有Mike与John，可重新编号为{Mike:1,John:2}；类似的，可对字段“股票”重新编号为{600001:1,600015:2,600042:3}；字段“金额”为连续型变量，可将其离散化为大于10、小于或等于10两类，再进行编号。此时，整个数据集可重新表示为表3所示。

(2)初始化人工神经网络：首先初始化3个嵌入矩阵：E⁽¹⁾＝[1,0；0,-1],E⁽²⁾＝[1,-1；-1,0；0,1],E⁽³⁾＝[0,1；1,1]，为简化，这里我们给定特征向量维度d＝2。之后初始化权重矩阵，因权重矩阵为对称阵，只需给定3个值：w₁₂＝0.5,w₁₃＝1,w₂₃＝-0.8。

(3)迭代优化参数：这里仅针对迭代中的第一轮进行分析。假定批次大小为1，我们抽取batch＝{Event3}，即只考虑第3条数据，其3个字段对应的特征向量分别为(1,0),(0,1),(1,1)。按照步骤(3.0)中公式，计算可得s₁₂＝0,s₁₃＝1,s₂₃＝1,该事件的分数为s(Event3)＝0.5×0+1×1+(-0.8)×1＝0.2，概率为P(Event3)＝0.07,则该批次上的损失为L_batch＝2.66。之后便可计算该批次上的梯度ΔE⁽¹⁾,ΔE⁽²⁾,ΔE⁽³⁾与ΔW，并按负梯度方向进行更新：

E^(k)：＝E^(k)-α·ΔE^(k),W：＝W-α·ΔW。

(4)取出特征向量：虽然我们在模型中对3个字段都进行了嵌入，但在实际应用中，可能只关心投资者的特征向量，为此，只需取出其对应嵌入矩阵E⁽¹⁾即可。

通过本发明方法，自动生成了投资者们的低维特征向量表示，而无需手工设计，之后可将这组特征用于后续的数据挖掘任务中(如对投资者进行聚类、分类等)，这组特征可以真实的反映复杂行为对象的特征，实现复杂行为数据挖掘，在分类任务上，相较于传统方法准确率提高近10％；并且，减少了对专家手工选取特征的依赖，并且对于复杂行为序列数据，手工选取特征也是很困难的。

表1复杂行为序列数据示例

表2实施例中数据集示例

	投资者	股票	金额
				Event1	Mike	600001	14.5
Event2	John	600015	5.5
				Event3	Mike	600042	7.1
Event4	John	600042	7.2

表3预处理后的示例数据集

Claims

1.复杂行为序列数据特征学习方法，是基于人工神经网络学习模型的，其特征在于，具体步骤为：

(1)复杂行为序列数据预处理：从应用系统中收集复杂行为序列数据，假设每条行为事件event有K个字段：其中，A_k为第k个字段可能的取值构成的集合，其大小为m_k＝|A_k|；通过对各个字段的每个取值重新编号，建立一一映射：

f_k:A_k→{1,2,…,m_k}， (1)

即对都有唯一的正整数与之对应，这样便将事件重新表示为event＝(a₁,a₂,…,a_K)；

(2)初始化人工神经网络：神经网络结构包含输入层、隐藏层、输出层；输入为事件，首先经过隐藏层嵌入得到各个字段的嵌入向量，然后向量两两计算内积再加权求和，最后经过标准化输出该事件的概率；训练人工神经网络通常需要迭代求解，为此对模型参数随机赋值作为初始值；该网络主要有两组参数需要求解：每个字段A_k的m_k×d维的嵌入矩阵及字段间的K维对称权重矩阵W∈S^K；嵌入矩阵E^(k)的第i行即为字段集合A_k的第i个取值的d维特征向量，其中d为要学习的特征向量的维数，为模型超参，由用户指定；嵌入矩阵的初始值取均匀分布权重矩阵的初始值取正态分布W_ij～N(0,0.01)；

(3)迭代优化参数：通过随机梯度下降算法，对网络参数进行优化；具体流程为：

(3.0)首先定义单个行为事件的概率表达式：对于一个事件event＝(a₁,a₂,…,a_K)，首先经过神经网络的嵌入层，得到各个字段的d维特征向量(e₁,e₂,…,e_K)，其中e_k为嵌入矩阵E^(k)的第a_k行；对于第i和第j个字段，计算其对应向量的内积作为字段间的相容度：

s(event)＝∑_{1≤i＜j≤K}w_ij·s_ij， (3)

进一步计算该事件的概率：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>(</mo> <mrow> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msup> <mi>event</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>&Omega;</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>(</mo> <mrow> <msup> <mi>event</mi> <mo>&prime;</mo> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，Ω为所有可能的事件构成的集合，即样本空间；

(3.1)从数据集中抽取若干条数据作为一个批次：

batch＝{event₁,…,event_l}，

输入到神经网络中，利用步骤(3.0)中公式，计算该批次上的负对数似然，即损失函数值

L_batch＝-∑_{event∈batch}log P(event)， (5)

(3.2)对K个嵌入矩阵E⁽¹⁾,E⁽¹⁾,…,E^(K)及权重矩阵W分别计算L_batch上的梯度，得到ΔE⁽¹⁾,ΔE⁽²⁾,…ΔE^(K)与ΔW；

(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新：

E^(k)：＝E^(k)-α·ΔE^(k),W：＝W-α·ΔW， (6)

其中α>0为学习速率，为模型超参，由用户指定；

(3.4)重复步骤(3.1)～(3.3)，直至参数收敛或达到最大迭代次数；