CN107609589A - 一种复杂行为序列数据的特征学习方法 - Google Patents
一种复杂行为序列数据的特征学习方法 Download PDFInfo
- Publication number
- CN107609589A CN107609589A CN201710816615.5A CN201710816615A CN107609589A CN 107609589 A CN107609589 A CN 107609589A CN 201710816615 A CN201710816615 A CN 201710816615A CN 107609589 A CN107609589 A CN 107609589A
- Authority
- CN
- China
- Prior art keywords
- event
- field
- matrix
- neural network
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000003542 behavioural effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000007418 data mining Methods 0.000 abstract description 5
- 238000007476 Maximum Likelihood Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010606 normalization Methods 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 abstract 1
- 238000005259 measurement Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于大数据技术领域,具体为一种复杂行为序列数据的特征学习方法。本发明核心是定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此,假设一个事件发生的概率大小取决于其字段之间是否相容,首先将复杂行为事件中每一个字段都通过嵌入转换为欧式空间中的多维向量表示,对字段的向量两两进行内积运算,作为其相容程度的度量,然后进行加权求和,进一步通过指数运算与归一化,作为单个事件的概率。本发明方法通过分析复杂行为序列数据集,以无监督的方式自动生成指定实体的特征向量,得到较低维度的特征向量,作为后续机器学习、数据挖掘任务的特征,无需专家手工设计特征。
Description
技术领域
本发明属于大数据技术领域,具体涉及复杂行为序列数据的特征学习方法。
背景技术
许多现实应用中都会产生大量的行为事件,随着信息化的普及,许多行为事件已经被存储在计算机中。每一次行为事件都涉及到多种属性,这些事件一起构成了复杂行为序列数据。例如,在证券市场中,每一笔交易行为都是一次行为事件,其包含有多个属性,如投资人、股票、金额、数量、买或卖等,所有的交易行为构成了复杂行为序列数据;在计算机进程监控系统中,每一次进程间通信都是一次行为事件,其可能的属性有源进程名、目标进程名、源端口号、目标端口号、访问位置等,所有的进程间通信构成了复杂行为序列数据。表1为复杂行为序列数据示例。
通过对这些复杂行为序列数据的挖掘分析,能发现有意义的模式,指导实际应用场景的决策,例如:分析用户、投资人之间是否相似,某进程是否为异常进程等。这些分析任务都需要利用实体的特征。传统的方法通常需要借助领域知识,由专家选择特征、相似性函数等。
本发明针对复杂行为序列数据,提出一种基于神经网络的特征学习方法。首先,收集数据将其处理为事件序列格式(一个事件序列的字段可以根据用户需求被指定为实体与属性两种,例如,进程监控系统中,进程间通信这一行为事件涉及的字段有:用户名、端口、ip地址、时间和登陆时长等,其中,用户名、端口、ip地址通常可被指定为实体;时间和时长作为属性);然后,建立神经网络,利用神经网络来描述单一事件的概率;再通过对数据集进行极大似然估计,求解神经网络参数;最后,针对指定实体,从神经网络中抽取对应参数,作为特征向量,提供给后续的数据挖掘任务。该方法与以往方法相比,无须人工设计特征。
发明内容
本发明的目的在于提供一种高效率的基于人工神经网络的复杂行为序列数据特征学习方法。
本发明提供的基于人工神经网络的复杂行为序列数据特征学习方法,是通过分析数据间的内在联系,学习出复杂行为序列数据中指定实体的特征向量,优点在于不需要领域专家去手工设计特征。
本发明首先提供一种基于人工神经网络的复杂行为序列数据特征学习模型。本发明的核心是如何定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此,假设一个事件发生的概率大小取决于其字段之间是否相容,具体来说,我们首先将复杂行为事件中每一个字段都通过嵌入(Embedding)转换为欧式空间中的多维向量表示,对字段的向量两两进行内积运算,作为其相容程度的度量,然后进行加权求和,进一步通过指数运算与归一化,作为单个事件的概率。
本发明提供的复杂行为序列数据特征学习方法,是基于人工神经网络学习模型的,具体步骤为:
(1)复杂行为序列数据预处理:从应用系统中收集复杂行为序列数据,假设每条行为事件event有K个字段:其中,Ak为第k个字段可能的取值构成的集合,其大小为mk=|Ak|。通过对各个字段的每个取值重新编号,建立一一映射:
fk:Ak→{1,2,…,mk}, (1)
即对都有唯一的正整数与之对应,这样便可以将事件重新表示为event=(a1,a2,…,aK)。如果有字段为连续型,可以划分为若干区间,对数据进行离散化,再进行重新编号。
(2)初始化人工神经网络:采用的神经网络结构如图1所示(Chen,Ting,et al."Entity embedding-based anomaly detection for heterogeneous categoricalevents."International Joint Conference on Artificial Intelligence(2016):1396-1403.)。包含输入层、隐藏层、输出层。输入为事件,首先经过隐藏层嵌入得到各个字段的嵌入向量,然后向量两两计算内积再加权求和,最后经过标准化输出该事件的概率。训练人工神经网络通常需要迭代求解,为此需要对模型参数随机赋值作为初始值。该网络主要有两组参数需要求解:每个字段Ak的mk×d维的嵌入矩阵E(k)∈Rmk×d及字段间的K维对称权重矩阵W∈SK。嵌入矩阵E(k)的第i行即为字段集合Ak的第i个取值的d维特征向量,其中d为要学习的特征向量的维数,为模型超参,由用户指定。通常嵌入矩阵的初始值可取均匀分布权重矩阵的初始值可取正态分布Wij~N(0,0.01)。
(3)迭代优化参数:通过随机梯度下降算法,对网络参数进行优化。具体流程为:
(3.0)首先定义单个行为事件的概率表达式:对于一个事件event=(a1,a2,…,aK),首先经过神经网络的嵌入层,得到各个字段的d维特征向量(e1,e2,…,eK),其中ek为嵌入矩阵E(k)的第ak行。对于第i和第j个字段,计算其对应向量的内积作为字段间的相容度:
然后对两两字段间相容度加权求和,得到该事件的分数,权重由权重矩阵给出:
s(event)=∑1≤i<j≤K wij·sij, (3)
进一步便可计算该事件的概率:
其中,Ω为所有可能的事件构成的集合,即样本空间,考虑到样本空间的规模,通常采用抽样估计来计算该概率。
(3.1)从数据集中抽取若干条数据作为一个批次:
batch={event1,…,eventl},
输入到神经网络中,利用步骤(3.0)中公式,计算该批次上的负对数似然,即损失函数值Lbatch=-∑event∈batchlog P(event), (5)
(3.2)对K个嵌入矩阵E(1),E(1),…,E(K)及权重矩阵W分别计算Lbatch上的梯度,得到ΔE(1),ΔE(2),…ΔE(K)与ΔW。
(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新:
E(k):=E(k)-α·ΔE(k),W:=W-α·ΔW, (6)
其中α>0为学习速率,为模型超参,由用户指定。
(3.4)重复步骤(3.1)~(3.3),直至参数收敛或达到最大迭代次数。
(4)取出特征向量:如步骤(2)中所述,抽取指定实体的嵌入矩阵即为对应字段的特征向量矩阵,矩阵的第i行即为该字段第i个取值的特征向量。
本发明方法可通过分析复杂行为序列数据集,以无监督的方式自动生成指定实体的特征向量,得到较低维度的特征向量,该向量可直接作为后续机器学习、数据挖掘任务的特征,无需专家手工设计特征。
附图说明
图1为人工神经网络架构。
具体实施方式
下面以含有4条行为数据的示例数据(见表2)展示该方法的具体实施方式:
(1)复杂行为序列数据预处理:该数据集共有3个字段(即K=3),字段“投资者”可能的取值有Mike与John,可重新编号为{Mike:1,John:2};类似的,可对字段“股票”重新编号为{600001:1,600015:2,600042:3};字段“金额”为连续型变量,可将其离散化为大于10、小于或等于10两类,再进行编号。此时,整个数据集可重新表示为表3所示。
(2)初始化人工神经网络:首先初始化3个嵌入矩阵:E(1)=[1,0;0,-1],E(2)=[1,-1;-1,0;0,1],E(3)=[0,1;1,1],为简化,这里我们给定特征向量维度d=2。之后初始化权重矩阵,因权重矩阵为对称阵,只需给定3个值:w12=0.5,w13=1,w23=-0.8。
(3)迭代优化参数:这里仅针对迭代中的第一轮进行分析。假定批次大小为1,我们抽取batch={Event3},即只考虑第3条数据,其3个字段对应的特征向量分别为(1,0),(0,1),(1,1)。按照步骤(3.0)中公式,计算可得s12=0,s13=1,s23=1,该事件的分数为s(Event3)=0.5×0+1×1+(-0.8)×1=0.2,概率为P(Event3)=0.07,则该批次上的损失为Lbatch=2.66。之后便可计算该批次上的梯度ΔE(1),ΔE(2),ΔE(3)与ΔW,并按负梯度方向进行更新:
E(k):=E(k)-α·ΔE(k),W:=W-α·ΔW。
(4)取出特征向量:虽然我们在模型中对3个字段都进行了嵌入,但在实际应用中,可能只关心投资者的特征向量,为此,只需取出其对应嵌入矩阵E(1)即可。
通过本发明方法,自动生成了投资者们的低维特征向量表示,而无需手工设计,之后可将这组特征用于后续的数据挖掘任务中(如对投资者进行聚类、分类等),这组特征可以真实的反映复杂行为对象的特征,实现复杂行为数据挖掘,在分类任务上,相较于传统方法准确率提高近10%;并且,减少了对专家手工选取特征的依赖,并且对于复杂行为序列数据,手工选取特征也是很困难的。
表1复杂行为序列数据示例
表2实施例中数据集示例
投资者 | 股票 | 金额 | |
Event1 | Mike | 600001 | 14.5 |
Event2 | John | 600015 | 5.5 |
Event3 | Mike | 600042 | 7.1 |
Event4 | John | 600042 | 7.2 |
表3预处理后的示例数据集
Claims (1)
1.复杂行为序列数据特征学习方法,是基于人工神经网络学习模型的,其特征在于,具体步骤为:
(1)复杂行为序列数据预处理:从应用系统中收集复杂行为序列数据,假设每条行为事件event有K个字段:其中,Ak为第k个字段可能的取值构成的集合,其大小为mk=|Ak|;通过对各个字段的每个取值重新编号,建立一一映射:
fk:Ak→{1,2,…,mk}, (1)
即对都有唯一的正整数与之对应,这样便将事件重新表示为event=(a1,a2,…,aK);
(2)初始化人工神经网络:神经网络结构包含输入层、隐藏层、输出层;输入为事件,首先经过隐藏层嵌入得到各个字段的嵌入向量,然后向量两两计算内积再加权求和,最后经过标准化输出该事件的概率;训练人工神经网络通常需要迭代求解,为此对模型参数随机赋值作为初始值;该网络主要有两组参数需要求解:每个字段Ak的mk×d维的嵌入矩阵及字段间的K维对称权重矩阵W∈SK;嵌入矩阵E(k)的第i行即为字段集合Ak的第i个取值的d维特征向量,其中d为要学习的特征向量的维数,为模型超参,由用户指定;嵌入矩阵的初始值取均匀分布权重矩阵的初始值取正态分布Wij~N(0,0.01);
(3)迭代优化参数:通过随机梯度下降算法,对网络参数进行优化;具体流程为:
(3.0)首先定义单个行为事件的概率表达式:对于一个事件event=(a1,a2,…,aK),首先经过神经网络的嵌入层,得到各个字段的d维特征向量(e1,e2,…,eK),其中ek为嵌入矩阵E(k)的第ak行;对于第i和第j个字段,计算其对应向量的内积作为字段间的相容度:
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>e</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
然后对两两字段间相容度加权求和,得到该事件的分数,权重由权重矩阵给出:
s(event)=∑1≤i<j≤Kwij·sij, (3)
进一步计算该事件的概率:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>e</mi>
<mi>v</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>(</mo>
<mrow>
<mi>e</mi>
<mi>v</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<msup>
<mi>event</mi>
<mo>&prime;</mo>
</msup>
<mo>&Element;</mo>
<mi>&Omega;</mi>
</mrow>
</msub>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msup>
<mi>event</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Ω为所有可能的事件构成的集合,即样本空间;
(3.1)从数据集中抽取若干条数据作为一个批次:
batch={event1,…,eventl},
输入到神经网络中,利用步骤(3.0)中公式,计算该批次上的负对数似然,即损失函数值
Lbatch=-∑event∈batchlog P(event), (5)
(3.2)对K个嵌入矩阵E(1),E(1),…,E(K)及权重矩阵W分别计算Lbatch上的梯度,得到ΔE(1),ΔE(2),…ΔE(K)与ΔW;
(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新:
E(k):=E(k)-α·ΔE(k),W:=W-α·ΔW, (6)
其中α>0为学习速率,为模型超参,由用户指定;
(3.4)重复步骤(3.1)~(3.3),直至参数收敛或达到最大迭代次数;
(4)取出特征向量:如步骤(2)中所述,抽取指定实体的嵌入矩阵即为对应字段的特征向量矩阵,矩阵的第i行即为该字段第i个取值的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710816615.5A CN107609589A (zh) | 2017-09-12 | 2017-09-12 | 一种复杂行为序列数据的特征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710816615.5A CN107609589A (zh) | 2017-09-12 | 2017-09-12 | 一种复杂行为序列数据的特征学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107609589A true CN107609589A (zh) | 2018-01-19 |
Family
ID=61063262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710816615.5A Pending CN107609589A (zh) | 2017-09-12 | 2017-09-12 | 一种复杂行为序列数据的特征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609589A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543668A (zh) * | 2018-11-29 | 2019-03-29 | 税友软件集团股份有限公司 | 一种工资条项目识别方法、装置、设备及可读存储介质 |
WO2019205544A1 (zh) * | 2018-04-25 | 2019-10-31 | 苏州大学张家港工业技术研究院 | 兼顾公平性的上下文感知学习的结果预测分类器 |
CN110751285A (zh) * | 2018-07-23 | 2020-02-04 | 第四范式(北京)技术有限公司 | 神经网络模型的训练方法和系统以及预测方法和系统 |
CN111242312A (zh) * | 2020-01-06 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 事件序列数据的处理方法、装置、电子设备 |
CN111259917A (zh) * | 2020-02-20 | 2020-06-09 | 西北工业大学 | 一种基于局部近邻成分分析的图像特征提取方法 |
US11514354B2 (en) | 2018-04-20 | 2022-11-29 | Accenture Global Solutions Limited | Artificial intelligence based performance prediction system |
-
2017
- 2017-09-12 CN CN201710816615.5A patent/CN107609589A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514354B2 (en) | 2018-04-20 | 2022-11-29 | Accenture Global Solutions Limited | Artificial intelligence based performance prediction system |
WO2019205544A1 (zh) * | 2018-04-25 | 2019-10-31 | 苏州大学张家港工业技术研究院 | 兼顾公平性的上下文感知学习的结果预测分类器 |
CN110751285A (zh) * | 2018-07-23 | 2020-02-04 | 第四范式(北京)技术有限公司 | 神经网络模型的训练方法和系统以及预测方法和系统 |
CN110751285B (zh) * | 2018-07-23 | 2024-01-23 | 第四范式(北京)技术有限公司 | 神经网络模型的训练方法和系统以及预测方法和系统 |
CN109543668A (zh) * | 2018-11-29 | 2019-03-29 | 税友软件集团股份有限公司 | 一种工资条项目识别方法、装置、设备及可读存储介质 |
CN111242312A (zh) * | 2020-01-06 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 事件序列数据的处理方法、装置、电子设备 |
CN111242312B (zh) * | 2020-01-06 | 2021-08-17 | 支付宝(杭州)信息技术有限公司 | 事件序列数据的处理方法、装置、电子设备 |
CN111259917A (zh) * | 2020-02-20 | 2020-06-09 | 西北工业大学 | 一种基于局部近邻成分分析的图像特征提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960833B (zh) | 一种基于异构金融特征的异常交易识别方法,设备及存储介质 | |
CN107609589A (zh) | 一种复杂行为序列数据的特征学习方法 | |
Luo et al. | An inherently nonnegative latent factor model for high-dimensional and sparse matrices from industrial applications | |
Jaware et al. | Crop disease detection using image segmentation | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN105740912B (zh) | 基于核范数正则化的低秩图像特征提取的识别方法及系统 | |
CN112541458B (zh) | 基于元学习的域自适应的人脸识别方法、系统、装置 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN109063757A (zh) | 基于块对角表示和视图多样性的多视图子空间聚类方法 | |
CN110580510B (zh) | 一种聚类结果评价方法和系统 | |
CN111431849A (zh) | 一种网络入侵检测方法及装置 | |
Masood et al. | Differential evolution based advised SVM for histopathalogical image analysis for skin cancer detection | |
CN111062428A (zh) | 一种高光谱图像的聚类方法、系统及设备 | |
CN113591962A (zh) | 一种网络攻击样本生成方法及装置 | |
CN115952067A (zh) | 一种数据库操作异常行为检测方法及可读存储介质 | |
CN112541530B (zh) | 针对聚类模型的数据预处理方法及装置 | |
CN114118370A (zh) | 模型训练方法、电子设备和计算机可读存储介质 | |
Wang et al. | Research on feature selection method of intrusion detection based on deep belief network | |
CN110941542A (zh) | 基于弹性网络的序列集成高维数据异常检测系统及方法 | |
CN107563287B (zh) | 人脸识别方法和装置 | |
Vishwakarma et al. | Lifting weak supervision to structured prediction | |
CN112951320B (zh) | 一种基于集成学习的生物医学网络关联预测方法 | |
CN113191134B (zh) | 基于注意力机制的文档质量验证方法、装置、设备及介质 | |
Billah et al. | Adaptive neuro fuzzy inference system based tea leaf disease recognition using color wavelet | |
CN114021637A (zh) | 一种基于度量空间下去中心化应用加密流量分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180119 |