CN109101997A

CN109101997A - 一种采样受限主动学习的溯源方法

Info

Publication number: CN109101997A
Application number: CN201810754056.4A
Authority: CN
Inventors: 洪榛; 郑德华; 王瑞
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-28
Anticipated expiration: 2038-07-11
Also published as: CN109101997B

Abstract

本发明提供一种采样受限主动学习的溯源方法，来评估信息物理系统中虚假源机制下的SLP强度；考虑到溯源代理的系统认知有限，使得数据标记能力受限，建立了采样受限的溯源方法；考虑到无约束的随机游走会导致溯源周期过长的现象，采用了网络流量识别模型来优化溯源策略；考虑到虚假源机制所产生的虚假流量可能远高于或远低于正常流量的数量，为解决这一类别不均衡以及潜在的离群点问题，采用了不确定性、样本双重代表性和多样性相结合的主动学习策略。该方法比随机游走的溯源方法具有更优的源节点捕获能力，提出的主动学习策略比其他主动学习能更有效地平衡正负样本，具有较优的采样性能。

Description

一种采样受限主动学习的溯源方法

技术领域

本发明涉及主动学习技术领域，具体是指一种采样受限主动学习的溯源方法。

背景技术

目前，已有的源位置隐私(Source location privacy，SLP)研究主要采用随机游走的溯源，其随机的方式不符合实际的溯源模型。为解决由于溯源代理的系统认知有限，无约束的随机游走，不均衡以及潜在的离群点问题，亟需一种智能主动学习的溯源方法。

发明内容

为实现采样受限主动学习的溯源方法，本发明提出了一种采样受限主动学习的溯源模型来评估信息物理系统中虚假源机制下的SLP强度，该方法包含了智能化的溯源模型的建立，采用网络流量识别模型来优化溯源策略，采用了不确定性、样本双重代表性和多样性相结合的主动学习策略3个部分。

为了实现上述目的，本发明具有如下构成：

该采样受限主动学习的溯源方法，包括如下步骤：

S100：使用多个人为给定已经标记了的数据作为初始训练集，学习一个初始的分类器；

S200：溯源代理在当前位置使用分类器预测各个动作的概率分布，进而随机游走，直至达到源节点位置，移动期间接收到的网络流量被存储下来作为下一次学习的未标记样本集；

S300：在下一次随机游走的开始阶段，溯源代理使用双层采样算法对无标记的数据集进行采样，选择出k个价值最大的样本；

S400：溯源代理对系统的认知对样本进行有效标记，并将其加入训练集，并重新学习得到一个新的分类器；重复该过程，直至溯源代理随机游走的次数到达迭代次数上限。

可选地，所述步骤S200中，溯源代理对节点的状态信息是未知的，准确标定标签需要消耗溯源代理大量资源；目标是利用网络的流量数据、通过随机游走的方式来实现从初始位置到达目标位置的步长最小化，其形式化定义为：

式1中，D()表示初始位置到目标位置的期望步长，f和X分别为流量数据的分类器和网络流量的样本集,X′表示X的某一种特殊情况，具体为分类器在每次迭代过程中所能采集到的训练样本，argmin_X′表示达到最小值的X，I_max和k分别表示随机游走的迭代次数和每次迭代标记的数据量。

可选地，所述步骤S300采样主动学习的第一层将样本的不确定性和代表性作为样本价值的估计标准，其中样本的不确定性采用样本信息熵计算得到，样本的代表性采用样本密度进行评估；第二层采样对第一层采样的候选样本进行聚类，然后以簇为单位，对样本的不确定性进行重新排序，从而选择出k个价值最大的预测集样本。

可选地，所述溯源代理的随机游走行为采用ε-贪心策略；在算法对参数ε的设置上，首先从较大值开始，并逐渐减少它，使溯源代理最终能以较大的概率充分利用流量判别分类器对网络流量的判定结果。

可选地，采用基于不确定性权重和代表性相结合的加权方法解决主动学习可能选出离群点的问题，其样本权重形式化定义为：

w(x)＝α×H(x)+β×R(x)+(1-α-β)×C(x) (式2)

式2中，H(x)为样本x的信息总量，R(x)为样本x的代表性，反映该样本与样本集合中的其他样本的相似度，C(x)为样本对整体空间的覆盖率，w(x)表示样本的信息度，α,β为经验值。

可选地，α∈[0,1],β∈[0,1],β+α≤1，当α＝1时，未标记样本的权重评估仅考虑样本的代表性，当β＝1时，算法为基于代表性的采样算法；

样本代表性反映该样本与样本集合中的其他样本的相似度，样本密度衡量样本的代表性，其样本代表性形式化定义为：

Sim(x,s_i)＝0.5+0.5×r_p(x_i,x_j) (式4)

式4中，r_p(x_i,x_j)表示样本x_i和x_j的皮尔逊相关系数，Sim(x，s_iA表示标准化到[0,1]的样本相似度，表示与样本x相似度最高的K个样本；样本对样本整体空间的覆盖率反应了该样本与其整体样本集合中其他样本的差异性，采用余弦相似度用来评估样本间的差异性；针对样本x_i和x_j，首先计算两个样本与训练集的皮尔逊相关系数，再对两者的系数向量计算其余弦相似度，则样本差异性形式化定义为：

式5中，

式6中，L为样本训练集，Sim(x_i,L)表示样本x_i与训练集L的相似度，表示与样本x余弦相似度最低的k个样本。

可选地，为解决信息冗余的问题，采用基于多样性和代表性的双层采样的方法；在第一层采样的基础上，根据w(x)的数值大小对为标记的样本进行排序，从中选择权重最大的N个未标记样本作为第二层采样的候选样本，如下列公式：

式7中，w(x)表示样本信息度，argmax表示寻找具有最大评分的参量，U_candidate1为符合条件的样本的最大x值。

可选地，得到N个候选样本之后，为确保样本的信息度，第二层采样算法依次采用样本多样性聚类和不确定性权重排序两个步骤，步骤具体如下：

(1)多样性聚类，使用k-means聚类算法对候选样本集合进行聚类，得到K个不同的簇XC＝{xc₁,xc₂,…,xc_k}；

(2)不确定性权重排序：根据多样性聚类获得K个不同的簇，以簇为单位，对每一个簇中的样本按照不确定性进行排序，从每个簇中选择不确定性最大的一个样本形成最终的被选样本集合ΔL，如式所示：

ΔL＝∪_xc∈XCargmaxH(x_i)，x_i∈xc (式8)

式8中，样本的不确定性H(x_i)采用信息熵的估计方法，ΔL为被选样本集合。

该发明中的采样受限主动学习的溯源方法的有益效果在于：本方法基于主动学习实现，主动学习是指溯源代理通过专业领域认知筛选并标定无标签的数据，从而强化学习能力；溯源代理作为自学习模型，具备虚假网络流量辨别的能力，并通过采样受限的主动学习模式不断强化学习能力；基于随机游走的方式不符合实际溯源模型，采用智能化溯源模型，网络流量识别模型来优化溯源策略解决溯源周期过长的现象；采用了不确定性、样本双重代表性和多样性相结合的主动学习策略解决类别不均衡以及潜在的离群点问题；从而使得本主动学习策略比其他主动学习能更有效地平衡正负样本，具有较优的采样性能。

附图说明

图1是本发明一实施例的采样受限主动学习的溯源方法的流程图；

图2是本发明一实施例的基于双层采样的主动学习的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明涉及一种采样受限主动学习的溯源方法来评估信息物理系统中虚假源机制下的SLP强度。考虑到溯源代理的系统认知有限，使得数据标记能力受限，建立了采样受限的溯源方法；考虑到无约束的随机游走会导致溯源周期过长的现象，采用了网络流量识别模型来优化溯源策略；考虑到虚假源机制所产生的虚假流量可能远高于或远低于正常流量的数量，为解决这一类别不均衡以及潜在的离群点问题，采用了不确定性、样本双重代表性和多样性相结合的主动学习策略。双重代表性的采样方法是基于未标记样本间的平均距离和与标记样本间的相似度的加权策略，多样性的采样方法是基于聚类的采样策略。该方法比随机游走的溯源方法具有更优的源节点捕获能力，提出的主动学习策略比其他主动学习能更有效地平衡正负样本，具有较优的采样性能。

如图1所示，本发明一实施例提供了一种基于主动学习的随机游走溯源模型，包括如下步骤：

(1.1)数据准备

首先使用大于2个且少于10个的人为给定已经标记了的数据作为训练集，在该实施例中，使用4个样本作为初始训练集，学习一个初始的分类器；

(1.2)随机游走

使用当前的分类器预测任意位置的随机游走的概率分布，进而移动，直至达到源节点位置，将移动期间接收到的网络流量被存储下来作为下一次学习的未标记样本集。利用网络的流量数据、通过随机游走的方式来实现从初始位置到达目标位置的步长最小化，其形式化定义为：

式1中，D()表示初始位置到目标位置的期望步长，f和X分别为流量数据的分类器和网络流量的样本集，X′表示X的某一种特殊情况，argmin_X′表示达到最小值的X，I_max和k分别表示随机游走的迭代次数和每次迭代标记的数据量；

(1.3)采样

在下一次随机游走的开始阶段，溯源代理使用“双层采样算法”对无标记的数据集进行采样，选择出k个“价值”最大的样本。首先用基于不确定性权重和代表性相结合的加权方法解决主动学习可能选出离群点的问题，其形式化定义为：

w(x)＝α×H(x)+β×R(x)+(1-α-β)×C(x) (式2)

式2中，H(x)为样本x的信息总量，R(x)为样本x的代表性，反映该样本与样本集合中的其他样本的相似度，C(x)为样本对整体空间的覆盖率，w(x)表示样本的信息度，α,β为经验值，α∈[0,1],β∈[0,1],β+α≤1，当α＝1时，未标记样本的权重评估仅考虑样本的代表性，当β＝1时，算法为基于代表性的采样算法；

将其样本代表性形式化定义为：

Sim(x,s_i)＝0.5+0.5×r_p(x_i,x_j) (式4)

式4中，r_p(x_i,x_j)表示样本x_i和x_j的皮尔逊相关系数，Sim(x,s_i)表示标准化到[0,1]的样本相似度，表示与样本x相似度最高的K个样本。

采用余弦相似度用来评估样本间的差异性。针对样本x_i和x_j，首先计算两个样本与训练集的皮尔逊相关系数，再对两者的系数向量计算其余弦相似度，则样本差异性形式化定义为：

式5中，

然后在第一层根据w(x)的数值大小对为标记的样本进行排序，从中选择权重最大的N个未标记样本作为第二层采样的候选样本，如式子：

式7中，w(x)表示样本信息度，U_candidates为符合条件的样本的最大x值，argmax表示寻找具有最大评分的参量。

为保证样本的信息度，使用k-means聚类算法对候选样本集合进行聚类，得到K个不同的簇XC＝{xc₁,xc₂,…,xc_k}，接着根据多样性聚类获得K个不同的簇，以簇为单位，对每一个簇中的样本按照不确定性进行排序，从每个簇中选择不确定性最大的一个样本形成最终的被选样本集合ΔL，如式所示：

ΔL＝∪_xc∈XCargmaxH(x_i)x_i∈xc (式8)

(1.4)学习

凭借自身的专业知识和对系统的认知对样本进行标记，并将其加入训练集，重新学习得到一个新的分类器。之后，继续从同一起始位置开始以随机游走的方式再次寻找源节点，最后重复直至溯源代理随机游走的次数到达迭代次数上限。

该发明中的采样受限主动学习的溯源方法的有益效果在于：此方法是基于一种采样受限主动学习提出的，克服了现有源位置隐私研究主要采用随机游走的方式，不符合实际溯源模型的问题；双层采样算法可以在一定程度上避免选择样本中的离群点，因此在第一层的采样过程中采用了样本代表性的样本权重估计方法；如果该样本是离群点，则其样本权重较低，即便不确定性较大，也难以使之成为权重较高的候选样本；此外，双层采样算法的第二层采样过程中采用了聚类方法，以确保被选样本集合整体的多样性，并选择出数量较为均衡的不同类别的样本集合；因此，在第二层采样中，经聚类后的候选样本，不同簇之间的样本相似度距离较大，使得被选样本的整体平均距离也较大，从而在一定程度上减少训练样本的相似度，以降低信息冗余，提高样本信息度。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种采样受限主动学习的溯源方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的采样受限主动学习的溯源方法，其特征在于，所述步骤S200中，溯源代理对节点的状态信息是未知的，准确标定标签需要消耗溯源代理大量资源；目标是利用网络的流量数据、通过随机游走的方式来实现从初始位置到达目标位置的步长最小化，其形式化定义为：

式1中，D()表示初始位置到目标位置的期望步长，f和X分别为流量数据的分类器和网络流量的样本集，X′表示X的分类器在每次迭代过程中所能采集到的训练样本，argmin_X′表示达到最小值的X，I_max和k分别表示随机游走的迭代次数和每次迭代标记的数据量。

3.根据权利要求1所述的采样受限主动学习的溯源方法，其特征在于，所述步骤S300采样主动学习的第一层将样本的不确定性和代表性作为样本价值的估计标准，其中样本的不确定性采用样本信息熵计算得到，样本的代表性采用样本密度进行评估；第二层采样对第一层采样的候选样本进行聚类，然后以簇为单位，对样本的不确定性进行重新排序，从而选择出k个价值最大的预测集样本。

4.根据权利要求2所述的采样受限主动学习的溯源方法，其特征在于，所述溯源代理的随机游走行为采用ε-贪心策略；在算法对参数ε的设置上，首先从较大值开始，并逐渐减少它，使溯源代理最终能以较大的概率充分利用流量判别分类器对网络流量的判定结果。

5.根据权利要求1所述的采样受限主动学习的溯源方法，其特征在于，采用基于不确定性权重和代表性相结合的加权方法解决主动学习可能选出离群点的问题，其样本权重形式化定义为：

w(x)＝α×H(x)+β×R(x)+(1-α-β)×C(x) (式2)

式2中，H(x)为样本x的信息总量，R(x)为样本x的代表性，反映该样本与样本集合中的其他样本的相似度，C(x)为样本对整体空间的覆盖率，w(x)表示样本的信息度，α，β为经验值。

6.根据权利要求5所述的采样受限主动学习的溯源方法，其特征在于，α∈[0，1]，β∈[0，1]，β+α≤1，当α＝1时，未标记样本的权重评估仅考虑样本的代表性，当β＝1时，算法为基于代表性的采样算法；

Sim(x，s_i)＝0.5+0.5×r_p(x_i，x_j) (式4)

式4中，r_p(x_i，x_j)表示样本x_i和x_j的皮尔逊相关系数，Sim(x，s_i)表示标准化到[0，1]的样本相似度，表示与样本x相似度最高的K个样本；样本对样本整体空间的覆盖率反应了该样本与其整体样本集合中其他样本的差异性，采用余弦相似度用来评估样本间的差异性；针对样本x_i和x_j，首先计算两个样本与训练集的皮尔逊相关系数，再对两者的系数向量计算其余弦相似度，则样本差异性形式化定义为：

式5中，

式6中，L为样本训练集，Sim(x_i，L)表示样本x_i与训练集L的相似度，表示与样本x余弦相似度最低的k个样本。

7.根据权利要求6所述的采样受限主动学习的溯源方法，其特征在于，为解决信息冗余的问题，采用基于多样性和代表性的双层采样的方法；在第一层采样的基础上，根据w(x)的数值大小对为标记的样本进行排序，从中选择权重最大的N个未标记样本作为第二层采样的候选样本，如下列公式：

式7中，w(x)表示样本信息度，argmax表示寻找具有最大评分的参量，U_candidates为符合条件的样本的最大x值。

8.根据权利要求7所述的采样受限主动学习的溯源方法，其特征在于，得到N个候选样本之后，为确保样本的信息度，第二层采样算法依次采用样本多样性聚类和不确定性权重排序两个步骤，步骤具体如下：

(1)多样性聚类，使用k-means聚类算法对候选样本集合进行聚类，得到K个不同的簇XC＝{xc₁，xc₂，…，xc_k}；

ΔL＝U_xc∈XCargmaxH(x_i)，x_i∈xc (式8)