CN108573147B

CN108573147B - 一种恶意样本的筛选装置及方法

Info

Publication number: CN108573147B
Application number: CN201710139820.2A
Authority: CN
Inventors: 孙岩; 肖迪; 潘宣辰
Original assignee: Wuhan Antiy Information Technology Co ltd
Current assignee: Wuhan Antiy Information Technology Co ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2020-10-13
Anticipated expiration: 2037-03-10
Also published as: CN108573147A

Abstract

本发明提供一种恶意样本的筛选装置，包括：特征提取模块，用于从事件日记中提取预设特征作为卷入度的特征；卷入度计算模块，用于利用卷入度的特征，计算每个恶意样本对每个终端的卷入度；所述的卷入度为终端用户被恶意样本卷入的概率；指数计算模块，用于将同一个恶意样本下对每个终端的卷入度根据终端用户的重要程度进行加权平均，得到每个恶意样本的指数；恶意样本提取模块，用于将一段时间内所有恶意样本的指数进行比较，提取指数高于指数阈值的恶意样本。本发明将广告学中的卷入度引入到移动安全领域，能够从海量的恶意样本中提取威胁最大的恶意样本。

Description

一种恶意样本的筛选装置及方法

技术领域

本发明属于计算机网络安全技术领域，具体涉及一种恶意样本的筛选装置及方法。

背景技术

移动安全行业面临着前所未有的挑战，事实证明，传统的安全防护手段已经无法有效应对移动黑色产业链攻击。全行业正在试图找出一系列更有效的方法，基于大数据和大数据分析技术的威胁情报的应用是这些方法中比较有效且非常关键的一种，基于威胁情报的安全防御已经成为网络安全行业未来发展的方向。

利用数据能力和数据技术建立看见威胁的能力，将成为移动安全行业最重要的能力，也是保障国家移动网络安全的核心能力。这已经成为移动安全行业的新法则。

基于情报的移动威胁感知平台的设立初衷，就是致力于建立一个完整成熟的大数据驱动的威胁情报分析体系，在这个体系的基础上，做到移动威胁精准控制平台。通过这个平台，在整个移动安全生态圈中，发挥重大积极的作用。

但是不可否认，目前很多威胁情报需要人工分析，这样就导致人工成本过高，随着移动威胁情报越来越多，合理的评估人工成本越来越重要。

发明内容

本发明要解决的技术问题是：提供一种恶意样本的筛选装置及方法，能够从海量的恶意样本中提取威胁最大的恶意样本。

本发明为解决上述技术问题所采取的技术方案为：恶意样本的筛选装置，其特征在于：它包括：

特征提取模块，用于从事件日记中提取预设特征作为卷入度的特征；

卷入度计算模块，用于利用卷入度的特征，计算每个恶意样本对每个终端的卷入度；所述的卷入度为终端用户被恶意样本卷入的概率；

指数计算模块，用于将同一个恶意样本下对每个终端的卷入度根据终端用户的重要程度进行加权平均，得到每个恶意样本的指数；

恶意样本提取模块，用于将一段时间内所有恶意样本的指数进行比较，提取指数高于指数阈值的恶意样本。

按上述装置，所述的卷入度计算模块具体用于建立二元选择模型，对卷入度的特征进行训练，计算每个恶意样本对每个终端的卷入度。

按上述装置，所述的二元选择模型为Probit模型或Logit模型。

按上述装置，所述的预设特征包括恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量。

恶意样本的筛选方法，其特征在于：它包括以下步骤：

特征提取：从事件日记中提取预设特征作为卷入度的特征；

卷入度计算：利用卷入度的特征，计算每个恶意样本对每个终端的卷入度；所述的卷入度为终端用户被恶意样本卷入的概率；

指数计算：将同一个恶意样本下对每个终端的卷入度根据终端用户的重要程度进行加权平均，得到每个恶意样本的指数；

恶意样本提取：将一段时间内所有恶意样本的指数进行比较，提取指数高于指数阈值的恶意样本。

按上述方法，所述的卷入度计算步骤具体为：建立二元选择模型，对卷入度的特征进行训练，计算每个恶意样本对每个终端的卷入度。

按上述方法，所述的二元选择模型为Probit模型或Logit模型。

按上述方法，所述的预设特征包括恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量。

本发明的有益效果为：将广告学中的卷入度引入到移动安全领域，通过卷入度和指数的计算，筛选出符合要求的恶意样本，再进行其它的操作，例如人工分析等，从而能够从海量的恶意样本中提取威胁最大的恶意样本，减少人工成本，人工分析更为高效。

附图说明

图1为本发明一实施例的方法流程示意图。

图2为本发明一实施例的装置结构示意图。

具体实施方式

卷入即吸引进去，卷入度是吸引进去的程度。卷入可以理解为对某个活动、某个事物、某个产品与自己的关系或重要性的主观体验状态。卷入模型属于广告学模型，低卷入度传播指消费者在购买商品时，不会花费大量时间和金钱，不要经过细心挑选分析，不需要收集相关信息，只是凭感觉等因素做出购买选择。反之，则为高卷入传播。

本发明将卷入度模型应用于威胁情报中事件，卷入度模型研究内容分为两类，即恶意样本和指定用户，但不论是针对恶意样本还是指定用户，研究的最细颗粒均为恶意样本。在本申请中，卷入度用于衡量用户被恶意样本或者指定恶意样本卷入的概率，由于用户被卷入到某一事件的概率受到诸多因素影响，譬如是否受该恶意样本影响范围、用户自身的安全属性、该恶意样本通过介质恰好曝光给该用户的概率等，为了排除干扰因素，在这里假设用户终端出现了该事件的恶意样本，即为用户被卷入。卷入度越高说明用户受恶意样本威胁越大。下面结合具体实例和附图对本发明做进一步说明。

在一些实施例中，如图1所示，需要从移动威胁感知平台中的威胁情报事件中，对所有手机威胁的恶意样本进行筛选，该恶意样本的筛选方法包括以下步骤：

S1、特征提取：从事件日记中提取预设特征作为卷入度的特征。

事件日记为恶意代码影响终端事件，例如终端扫描日志的威胁情报事件。预设特征即卷入度特征，包括但不限于恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量等。其中恶意样本名称、恶意类型遵照国家互联网应急响应中心标准，按照恶意性从高到底以此是10分，9分，8分等等。表1分别示出了样本XXXXXX和样本YYYYYY的卷入度特征情况。当然，实际应用中，样本的需求量远高于表1所示情况。

表1

样本hash	恶意类型	恶意得分	受威胁国家数量	受威胁用户数量	受威胁事件数量
						XXXXXX	Email.a	8	29	29873	32203
YYYYYY	sandrorat.a	7	3	2221	2431

S2、卷入度计算：利用卷入度的特征，计算每个恶意样本对每个终端的卷入度；所述的卷入度为终端用户被恶意样本卷入的概率。

卷入度计算步骤具体为：建立二元选择模型，对卷入度的特征进行训练，计算每个恶意样本对每个终端的卷入度。

二元选择模型是模型中因变量只有两种选择的因变量模型，比如因变量为某一事件发生与否的虚拟变量，发生用1表示，不发生用0表示，需要注意的是因变量的这两种选择没有序列关系，也即是说因变量只能是分类变量而不是有序变量。

直接将这种分类变量作为因变量进行线性回归是不正确的，因为一方面模型残差项的部分假定条件不满足，另一方面因变量的拟合值也不能限定在0和1之间，因此采用如下定义：假设一个与解释变量x(即卷入度的特征)有关的指标变量y^*，用y^*是否超过一个临界值来决定y取1或者0，一般的，该临界值取0，也即是说y^*>0时y＝1，否则y＝0，建立二元选择模型如下：

上式中，y_i为卷入度，x_i为特征参数向量，β为特征参数向量权重，比如，

为某参数向量对应的权重，

为任意一个参数组合值，x′_i为某参数向量，F为假设的残差项的分布函数，该模型可以使用极大似然估计法估计模型参数，对数似然函数为：

在式(2)中，l(β)为β的对数似然函数，L(β)为似然函数。根据分布函数F的不同，二元选择模型会有不同的类型，当F函数为标准正态分布函数时，相应的二元选择模型为Probit模型，当F函数为Logistic分布函数时，相应的二元选择模型为Logit模型。一般情况下，可以直接用Probit模型对卷入度的特征进行训练。在本实施例中，设定某用户的卷入度为因变量，将该用户的恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量作为因变量定值的指标，将用户属性指标作为自变量进行分析，利用二元选择模型来训练。在一些实施例中，为了提高效率，可以直接利用SPSS等软件的二元选择模型来训练。

计算某样本的卷入度时，将样本的各卷入度特征带入到该训练模型内即可。例如，计算出样本XXXXXX的卷入度为0.77，样本YYYYYY的卷入度为0.87。

S3、指数计算：将同一个恶意样本下对每个终端的卷入度根据终端用户的重要程度进行加权平均，得到每个恶意样本的指数。

例如，对当天所有受威胁设备的手机型号进行打分(即权重值)：iphone为10分、三星为9分、华为为8分、金立为7分、oppo和vivo为6分、小米为5分、其他为4分；对S2计算出来的某一个恶意样本所有的受威胁设备卷入度数值按照受威胁用户权重加权取均值，得到每个恶意样本的指数。

比如样本XXXXXX按照设备数量占比分别为(10％，10％，10％，10％，10％，10％，10％，30％)，计算得到的指数为0.77*(10％*10+10％*9+10％*8+10％*7+10％*6，10％*6，10％*5，30％*4)＝0.68，同理，YYYYYY按照设备数量占比，计算得到的指数为0.88。

S4、恶意样本提取：将一段时间内所有恶意样本的指数进行比较，提取指数高于指数阈值的恶意样本。

计算当天出现的所有恶意样本的指数，选择指数大于指数阈值的恶意样本进行人工分析。本实施例中指数阈值为0.8，那么样本YYYYYY需要进行人工分析。

需要说明的是，上述对手机型号的打分仅为举例，实际操作过程中可根据不同的领域和要求、使用手机的人员划分等重新打分。

本发明将广告学中的卷入度引入到移动安全领域，通过卷入度和指数的计算，筛选出符合要求的恶意样本，再进行其它的操作，例如人工分析等，从而能够从海量的恶意样本中提取威胁最大的恶意样本，减少人工成本，人工分析更为高效。

相应的，本发明还提供了恶意样本的筛选装置，如图2所示，它包括：

特征提取模块01，用于从事件日记中提取预设特征作为卷入度的特征；所述的预设特征包括恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量。

卷入度计算模块02，用于利用卷入度的特征，计算每个恶意样本对每个终端的卷入度；所述的卷入度为终端用户被恶意样本卷入的概率。卷入度计算模块02具体用于建立二元选择模型，对卷入度的特征进行训练，计算每个恶意样本对每个终端的卷入度。所述的二元选择模型为Probit模型或Logit模型。

指数计算模块03，用于将同一个恶意样本下对每个终端的卷入度根据终端用户的重要程度进行加权平均，得到每个恶意样本的指数。终端用户的重要程度根据实际情况预设。

恶意样本提取模块04，用于将一段时间内所有恶意样本的指数进行比较，提取指数高于指数阈值的恶意样本。

进一步强调的，本发明将领域跨度较大的广告学中的卷入度，引入到移动安全领域中来，对恶意样本进行筛选，从而尽快的筛选出符合要求的恶意样本，再进行其它操作，例如人工分析等，能够减少人工成本。而本发明的核心并不在于卷入度的计算过程。一切基于本发明思想的装置和方法均落入本发明的保护范围，包括在本领域的应用当中对卷入度进行了其它方式的计算。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种恶意样本的筛选装置，其特征在于：它包括：

2.根据权利要求1所述的恶意样本的筛选装置，其特征在于：所述的卷入度计算模块具体用于建立二元选择模型，对卷入度的特征进行训练，计算每个恶意样本对每个终端的卷入度。

3.根据权利要求2所述的恶意样本的筛选装置，其特征在于：所述的二元选择模型为Probit模型或Logit模型。

4.根据权利要求1至3中任意一项所述的恶意样本的筛选装置，其特征在于：所述的预设特征包括恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量。

5.一种恶意样本的筛选方法，其特征在于：它包括以下步骤：

特征提取：从事件日记中提取预设特征作为卷入度的特征；

6.根据权利要求5所述的恶意样本的筛选方法，其特征在于：所述的卷入度计算步骤具体为：建立二元选择模型，对卷入度的特征进行训练，计算每个恶意样本对每个终端的卷入度。

7.根据权利要求6所述的恶意样本的筛选方法，其特征在于：所述的二元选择模型为Probit模型或Logit模型。

8.根据权利要求5至7中任意一项所述的恶意样本的筛选方法，其特征在于：所述的预设特征包括恶意样本名称、恶意类型、恶意得分、受威胁国家数量、受威胁用户数量和受威胁事件数量。