CN109948649A

CN109948649A - 面向数据开放共享的软件访问行为数据特征表示方法

Info

Publication number: CN109948649A
Application number: CN201910109178.2A
Authority: CN
Inventors: 熊贇; 张尧; 朱扬勇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-02-04
Filing date: 2019-02-04
Publication date: 2019-06-28
Anticipated expiration: 2039-02-04
Also published as: CN109948649B

Abstract

本发明属于大数据技术领域，具体为一种面向数据开放共享的软件访问行为数据特征表示方法。本发明方法直接接收使用者的软件访问行为数据序列，输出该行为数据序列的特征表示向量。本发明设计了单时刻的行为数据编码器，用于对单个时间点中的多组行为数据进行汇总，并利用自注意力机制抽取重要的行为事件；汇总后的单时间点数据输入到循环神经网络中，对行为序列进行表示，最后从中提取整个序列的特征表示。本发明利用预测编码对单时间点编码器与循环神经网络的参数进行训练，并加入生成对抗网络提升模型效果，有助于对使用者访问行为进行分析，了解使用者的使用需求，及时对软件访问行为进行监管，为推动数据自治开放提供安全保障。

Description

面向数据开放共享的软件访问行为数据特征表示方法

技术领域

本发明属于大数据技术领域，具体涉及软件访问行为序列数据的特征学习方法。

背景技术

随着数据资源的战略性和商业价值逐渐显现，数据资源的开放共享越来越受到研究者、业界人士的广泛关注。以数据盒为数据开放共享的基本单元的数据自治开放模式的推动和实施过程中，如何保证数据使用者按规定使用数据盒内的数据，及时监管数据使用者的行为，防止如记录篡改、二次分发等恶意操作导致的数据价值丧失、隐私泄露等问题，是我们目前需要解决的一个难点。

通常，针对软件访问行为的分析监测工作可由专家手工设计特征，例如某用户通过某软件是否访问了未公开的端口等。然而，随着如今的软件功能愈发复杂，手工设计的指标存在滞后性与局限性：滞后性是指专家通常需要对软件功能、使用场景有一定分析、理解后，才能根据业务设计出合适的指标；局限性是指指标的设计依赖于专家的经验，可能存在遗漏。

本发明针对上述问题，设计了面向数据开放共享的软件访问行为数据的特征表示方法。首先，从具体数据使用应用中收集数据使用者使用数据时的访问行为记录，根据业务要求对记录按时间进行分组，转换为访问行为序列数据作为模型的输入。模型将序列数据按时间点逐一输入至编码网络中，并将编码后的单时刻访问行为数据的特征表示向量输入到循环神经网络中。在训练阶段，通过预测编码与生成对抗网络对模型参数进行优化；在预测阶段，可直接从训练好的循环神经网络中提取该组软件访问行为的特征表示向量。该组软件访问行为特征表示可用于后续一系列的分析挖掘工作中，如数据使用者的异常行为检测、数据使用者分类等。

发明内容

本发明的目的在于提供一种有效的面向数据开放共享的基于深度学习的软件访问行为数据的特征表示方法。

本发明提供的软件访问行为数据特征学习方法，是通过分析数据间的内在联系，学习出软件访问行为数据序列的特征向量表示，优点在于不需要领域专家去手工设计特征，有助于及时发现恶意操作行为。

本发明提供的软件访问行为数据的特征表示方法，包括训练阶段和预测阶段；通过历史数据进行训练，然后在应用场景中部署并实时进行预测分析。总体架构如图1所示。

(一)训练阶段的具体步骤为：

(1)软件访问行为数据预处理：从数据集中抽取某名用户，从应用系统的历史数据中收集该名用户的软件访问行为数据，即该用户所访问的数据及其访问发生的时间、数据的相关属性、所使用的软件、访问方式等形成的行为数据，假设每条软件访问行为事件可表示为三元组(s_id,cat_attrs,num_attrs)，其中，s_id∈C用于标识访问的数据，C表示数据全体；cat_attrs为若干个类别型属性，如客户端ip、服务端ip、端口号、权限级别等；num_attrs为若干个数值型的属性，如使用时长、使用次数、文件大小等。进一步，根据业务的实时性要求，将行为数据进行分组，如可按每小时、每日、每次登陆将访问事件分为若干组，其可以表示为序列s＝<e₁,…,e_T>，其中，e_t表示了在t时刻发生的所有事件构成的集合。

(2)单时刻行为数据编码：给定某名用户在某时刻的行为数据记录集合将其编码为一个固定长度的向量，作为模型的输入。编码用的编码器架构为人工神经网络(网络参数为随机初始化，下同)，如图2所示。编码器架构为：对于软件访问行为事件三元组的每个元组，编码器相应地有：若干嵌入层Emb.，若干全连接层FC；最后为自注意力模块；

第一步，对单条访问事件(s_id_i,cat_attrs_i,num_attrs_i)进行特征表示。其中，数据代码id通过嵌入层Emb.映射为其向量表示；类别型属性也逐一通过嵌入层Emb.得到各个字段的向量表示；数值型属性向量经过全连接层FC也得到一个向量，以上向量进行拼接后再经过一个全连接层FC，获得该条事件的特征表示z_i；

如此，按上述操作，将每条单条访问事件都进行特征表示；

第二步，对上述z_i汇总到自注意力模块；自注意力模块的自注意力机制^[1]如下：

s_i＝attention(z_i,z_c),

a_i＝softmax(s_i),

x＝∑_i a_i·z_i；

其中，attention函数采用内积注意力z_c为自注意力模块的参数；最后得到的向量x即作为该时刻软件访问记录集编码后的特征向量，记为x＝encoder(e)。

(3)预测编码：预测编码的思想是：如果序列e₁…e_t-1的特征表示可以对未来进行有效的预测，则说明该组特征表示是有效的。如图1所示，给定序列e₁…e_t-1，先通过上一步的编码器得到每时刻的特征向量表示x₁…x_t-1，输入循环神经网络；循环神经网络采用GRU架构^[2]：

h₀＝0,

h_i＝GRU(x_i,h_i-1),

其中，h_i为第i时刻的隐状态。接下来我们将对未来信息进行预测。记真实的下一时刻的输入为e_t，再从数据集中随机抽取k个交易记录，作为负样本将编码后的x_t与一同输入到分类器中，希望分类器能够正确判别下一时刻的样本为x_t。即训练目标为最小化交叉熵损失函数^[3,4]：

min L₁＝-E_s[logP(x_t|h_t-1)]

此外，该模型不仅仅能够对下一时刻进行预测，还能够对之后的Δt步进行预测，这样更能捕捉到行为数据中平稳的特征。因此，实际的损失函数为：

(3.1)生成对抗网络：在预测编码器中需要从数据中抽取负样本，不难发现，如果负样本太“简单”，即分类器可以很容易的将正确样本与负样本分辨开来，模型将不能得到有效的训练。而软件访问行为数据本身具有较强的时间依赖性，例如，本应预测第10天的数据，而采样自第100天(即远期，而非近期，例如第12天)的负样本自然很好识别；此外，数据使用者访问数据也有自身的使用偏好，如果一个数据库开发者的负样本采样自某机器学习算法工程师的历史记录，也自然很好分辨。在此，本发明利用生成对抗网络的思想，额外构建生成器，用来动态构建负样本。判别器则为预测编码中的分类器。在训练中，判别器能够对正负样本进行有效区分，而生成器则通过训练，生成高质量的负样本，能够欺骗判别器。在这样的一个对抗训练的过程中，生成器与判别器不断提升，这样模型便有了高质量的负样本来源。

具体来说，生成器为一个多层全连接网络其中z为噪声，用于保证生成的多样性，输入h_t-1则是为了生成有时间依赖性的样本。如图1所示，模型将生成器的生成样本与采样得来的负样本一同输入到判别器(分类器)中。这里额外引入了生成器的训练目标：

注意本发明中，模型没有完全用生成样本取代采样得到的负样本(如图1中“2”，“3”是抽样出来的负样本记录，“4”是生成器生成的负样本记录)，这是因为仅仅用生成样本会导致训练初期不稳定。此外，从图1中可以注意到生成器的梯度信息不会回传到循环神经网络，这也是出于训练稳定性的考虑。

(4)迭代优化参数：根据上一步计算出的损失函数L与L^(G)，通过随机梯度下降算法^[5,6]，对神经网络中的参数进行优化。

参数优化的具体流程为：

(4.1)优化编码器、GRU、判别器：计算损失函数L关于编码器、GRU、判别器中参数θ的梯度根据给定步长α对参数进行更新：

(4.2)优化生成器：计算损失函数L^(G)关于生成器中参数η的梯度根据给定步长α对参数进行更新：

(二)预测阶段的具体步骤为：

(1)软件访问行为数据预处理：同训练阶段，构建给定用户的软件访问行为序列数据s＝<e₁…e_T>；

(2)单时刻行为数据编码：类似训练阶段，利用训练好的编码器，构建各个时刻的行为数据的特征表示x_i＝encoder(e_i),i＝1,…,T；

(3)用户软件访问行为特征表示：利用训练好的循环神经网络GRU，计算各个时刻的隐状态：

h₀＝0,

h_i＝GRU(x_i,h_i-1),i＝1,…,T；

并用如下方式构建该名用户的特征表示：

其中，表示向量拼接，max与mean表示按元素求最大、均值，取最大后的向量反映了访问记录中最突出的特征，均值向量与最后一时刻的隐状态向量h_T则反映了全局的特征。

(4)后续分析工作：利用上一步得到的用户的特征表示φ(s)，可在其上进行一系列的分析工作，如数据使用者行为异常检测、数据使用者分类等。

本发明通过分析软件访问行为序列数据，以无监督的方式自动生成该序列(即该使用者)的特征向量，得到较低维度的特征向量，该向量可直接作为后续机器学习、数据挖掘任务的特征，无需专家手工设计特征，且特征捕捉更及时、更全面。

本发明利用预测编码对单时间点编码器与循环神经网络的参数进行训练，并加入生成对抗网络提升模型效果，有助于对使用者访问行为进行分析，了解使用者的使用需求，及时对软件访问行为进行监管，为推动数据自治开放提供安全保障。

附图说明

图1为本发明中的模型架构。

图2为本发明中的编码器架构。

具体实施方式

下面以含有1名用户的5条访问记录的示例数据(见表1)展示该方法的具体实施方式。

训练阶段：

(1)软件访问行为数据预处理：该组软件访问行为数据包含1个类别型属性：端口，2个数值型属性：访问时长与文件大小。根据时间信息，以日为单位进行划分，可以得到该名用户的软件访问行为序列数据s＝<e₁,e₂,e₃>。其中，e₁＝{(1,80,0.3,3.21),(2,80,0.5,0.15)}包含了1、2两条事件，e₂包含了3、4两条事件、e₃包含了第5条事件；

(2)单时刻行为数据编码：以e₁为例，对日行为数据进行编码。首先，对第一条事件(1,80,0.3,3.21)进行特征表示：(a)对访问的数据ID通过嵌入层进行映射，得到其嵌入向量(0.1,-0.3)；(b)对类别型属性逐一通过嵌入层进行映射，此例中仅有端口，将其映射为嵌入向量(0.6,0.1)；(c)对数值型属性通过全连接层进行映射，得到向量(-0.4,0.7)。将上述向量进行拼接得到(0.1,0.3,0.6,0.1,-0.4,0.7)，再经过一个全连接层，得到该事件的特征表示z₁＝(-0.8,1.2)。同理，可将第二条事件也进行转换，得到z₂＝(0.3,-0.2)。当前网络中参数z_c＝(-0.3,0.5)，通过softmax函数可计算得到权重a₁＝0.74,a₂＝0.26。最后，进行加权平均得到x＝a₁z₁+a₂z₂＝(-0.51,0.83)，该向量即为第一天的行为数据e₁编码后的特征向量表示；

(3)预测编码：本示例中设定负样本数k＝1，预测编码步数Δt＝1。以第一时刻为例，此时得到了x₁＝encoder(e₁)＝(-0.51,0.83)，及隐状态h₁＝GRU(x₁,h₀)＝(-0.77,1.12)。生成器接收x₁与随机噪声z＝(0.2,-0.1)，拼接后经过一个全连接层(本示例中假设生成器仅有一个线性层)得到生成负样本其中生成器的参数真实的下一时刻的特征表示为x₂＝encoder(e₂)＝(-0.33,0.28)，而随机抽取的负样本为x^-＝(1.78,-0.35)。判别器采用双线性函数，其参数为则通过softmax函数可得判别器选择x₂、x^-与的概率分别为0.32、0.28与0.40。则损失函数L＝-log0.32＝1.14；生成器的损失函数L^(G)＝-log0.40＝0.91。

(4)迭代优化参数：

(4.1)优化编码器、GRU、判别器：以判别器的参数W_D为例，计算梯度为

根据步长α＝0.1，可更新编码器中嵌入层、全连接层，GRU单元中的权重矩阵也可类似的进行更新；

(4.2)优化生成器：计算梯度

根据步长α＝0.1，可更新

预测阶段(在此假定模型参数与上述训练阶段的参数相同)：

(1)软件访问行为数据预处理：同训练阶段，构建给定用户的软件访问行为序列数据s＝＜e₁，e₂，e₃＞；

(2)单时刻行为数据编码：类似训练阶段，通过训练好的编码器计算得到各个时刻的行为数据特征表示x₁，x₂，x₃；

(3)软件访问行为特征表示：通过循环神经网络计算得到h₁＝(-0.77，1.12)，h₂＝(0.21，0.77)，h₃＝(0.39，0.48)。则均值向量为(-0.09，1.19)，最大值向量为(0.39，1.12)。均值向量、最大值向量与h₃进行拼接，最终得到该名用户的特征表示φ(s)＝(-0.09，1.19，0.39，1.12，0.39，0.48)；

(4)后续分析工作：根据该用户的特征表示φ(s)进而开展一系列分析工作，如分类结果指出该名用户为数据库开发人员；异常检测结果指出该名用户为异常的概率为5％。

表1示例数据

事件编号	数据ID	端口	访问时长	文件大小	日期
						1	1	80	0.3	3.21	April.1
2	2	80	0.5	0.15	April.1
						3	2	443	0.7	0.23	April.2
4	3	80	0.9	1.05	April.2
						5	1	80	0.2	2.78	April.3

。

参考文献：

[1]Zichao Yang，Diyi Yang，Chris Dyer，Xiaodong He，Alex Smola，EduardHovy.Hierarchical attention networks for document classification.Proceedingsof the 2016Conference of the North American Chapter of the Association forComputational Linguistics：Human Language Technologies.(NAACL)2016.

[2]ChoKyunghyun，van Merrienboer Bart，GulcehreCaglar，BahdanauDzmitry，BougaresFethi，Schwenk Holger，BengioYoshua.Learning Phrase Representationsusing RNN Encoder-Decoder for Statistical Machine Translation.arXiv：1406.1078.2014.

[3]Ian Goodfellow，YoshuaBengio，Aaron Courville.Deep Learning.MITPress.2016.

[4]Murphy，Kevin(2012).Machine Learning：A ProbabilisticPerspective.MIT.ISBN 978-0262018029.

[5]J.Kiefer and J.Wolfowitz.Stochastic Estimation of the Maximum ofaRegression Function Ann.Math.Statist.Volume 23，Number 3(1952)，462-466

[6]Robbins H，Monro S.AStochastic Approximation Method.The Annals ofMathematical Statistics.22(3)：400.1951.。

Claims

1.一种面向数据开放共享的软件访问行为数据特征表示方法，包括训练阶段和预测阶段；通过历史数据进行训练，然后在应用场景中部署并实时进行预测分析；其中：

(一)训练阶段：

(1)软件访问行为数据预处理：从数据集中抽取某名用户，从应用系统的历史数据中收集该名用户的软件访问行为数据，即该用户所访问的数据及其访问发生的时间、数据的相关属性、所使用的软件、访问方式等形成的行为数据，假设每条软件访问行为事件可表示为三元组(s_id,cat_attrs,num_attrs)；其中，s_id∈C用于标识访问的数据，C表示数据全体；cat_attrs为若干个类别型属性；num_attrs为若干个数值型的属性；进一步，根据业务的实时性要求，将行为事件分为若干组，表示为序列s＝<e₁,…,e_T>，其中，e_t表示在t时刻发生的所有事件构成的集合；

(2)单时刻行为数据编码：给定某名用户在某时刻的行为数据记录集合将其编码为一个固定长度的向量，作为模型的输入；编码用的编码器架构为人工神经网络，对于软件访问行为事件三元组的每个元组，编码器相应地有：若干嵌入层Emb.，若干全连接层FC；最后为自注意力模块；

第一步，对单条访问事件(s_id_i,cat_attrs_i,num_attrs_i)进行特征表示；其中，数据代码id通过嵌入层Emb.映射为其向量表示；类别型属性也逐一通过嵌入层Emb.得到各个字段的向量表示；数值型属性向量经过全连接层FC也得到一个向量，以上向量进行拼接后再经过一个全连接层FC，获得该条事件的特征表示z_i；

如此，按上述操作，将每条单条访问事件都进行特征表示；

第二步，对上述z_i汇总到自注意力模块；自注意力模块的自注意力机制如下：

s_i＝attention(z_i,z_c),

a_i＝softmax(s_i),

x＝∑_i a_i·z_i；

其中，attention函数采用内积注意力z_c为自注意力模块的参数；最后得到的向量x即作为该时刻软件访问记录集编码后的特征向量，记为x＝encoder(e)；

(3)预测编码：给定序列e₁…e_t-1，先通过上一步的编码器得到每时刻的特征向量表示x₁…x_t-1，输入到循环神经网络中，循环神经网络采用GRU架构：

h₀＝0,

h_i＝GRU(x_i,h_i-1),

其中，h_i为第i时刻的隐状态；

接下来对未来信息进行预测，记真实的下一时刻的输入为e_t，再从数据集中随机抽取k个交易记录，作为负样本将编码后的x_t与一同输入到分类器中，分类器能够正确判别下一时刻的样本为x_t；即训练目标为最小化交叉熵损失函数：

minL₁＝-E_s[logP(x_t|h_t-1)]；

该模型能够对下一时刻进行预测，还能够对之后的Δt步进行预测，于是，实际的损失函数为：

(3.1)生成对抗网络：利用生成对抗网络的思想，额外构建生成器，用来动态构建负样本；判别器为预测编码中的分类器；在训练中，判别器能够对正负样本进行有效区分，而生成器则通过训练，生成高质量的负样本，能够欺骗判别器；在这样对抗训练过程中，生成器与判别器不断提升，使模型有高质量的负样本来源；

(4)迭代优化参数：根据上一步计算出的损失函数L与L^(G)，通过随机梯度下降算法，对神经网络中的参数进行优化；

(二)预测阶段：

(2)单时刻行为数据编码：同训练阶段，利用训练好的编码器，构建各个时刻的行为数据的特征表示x_i＝encoder(e_i),i＝1,…,T；

h₀＝0,

h_i＝GRU(x_i,h_i-1),i＝1,…,T；

并用如下方式构建该名用户的特征表示：

φ(s)＝max_t(h_t)⊕mean_t(h_t)⊕h_T；

其中，⊕表示向量拼接，max与mean表示按元素求最大、均值，取最大后的向量反映了访问记录中最突出的特征，均值向量与最后一时刻的隐状态向量h_T则反映了全局的特征；

(4)后续分析工作：利用上一步得到的用户的特征表示φ(s)，在其上进行一系列的分析工作，包括数据使用者行为异常检测、数据使用者分类等。

2.根据权利要求1所述的面向数据开放共享的软件访问行为数据特征表示方法，其特征在于，训练阶段步骤(3.1)中，生成器采用一个多层全连接网络其中，z为噪声，用于保证生成的多样性，输入h_t-1是为了生成有时间依赖性的样本；将生成器的生成样本与采样得来的负样本一同输入到判别器中；这里引入生成器的训练目标：

3.根据权利要求1所述的面向数据开放共享的软件访问行为数据特征表示方法，其特征在于，训练阶段步骤(4)中所述对神经网络中的参数进行优化的具体流程为：