CN115511015B

CN115511015B - 一种样本筛选方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115511015B
Application number: CN202211471064.0A
Authority: CN
Inventors: 王剑; 陈炯峄; 黄恺杰; 苏云飞; 胡鸿略; 李瑞林; 冯超
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-04-07
Anticipated expiration: 2042-11-23
Also published as: CN115511015A

Abstract

本发明公开了一种样本筛选方法、装置、设备及计算机可读存储介质，应用于网络安全领域，包括：获取待筛选样本对应的待筛选恶意代码特征；计算待筛选恶意代码特征对应的待筛选特征向量；调用恶意代码检测基础模型计算待筛选特征向量对应的置信度和伪标签；计算待筛选特征向量对应的汉明距离值；调用收益风险评估模型计算待筛选特征向量对应的收益风险评估值；收益风险评估模型中包括置信度参数和汉明距离值参数；根据收益风险评估值对待筛选特征向量进行筛选，得到带伪标签的目标样本。本发明通过收益风险模型从收益与风险角度进行样本筛选，通过恶意代码检测基础模型对样本伪标签进行标注，提高了样本的筛选速度，减少伪标签标记错误情况的发生。

Description

一种样本筛选方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及网络安全技术领域，特别涉及一种样本筛选方法、装置、设备及计算机可读存储介质。

背景技术

现有技术利用已有的分类模型对新恶意代码样本进行预测，并根据预测结果对新恶意代码样本进行标记，再将其加入训练集，通过训练得到新的恶意代码分类模型，但由于当前伪标签标记方法较为单一，使得模型迭代次数越多，性能越差。现有技术利用人工对恶意代码检测训练模型所需样本进行样本筛选，以及人工对样本进行伪标签标注的样本筛选方法，存在样本筛选速度过慢，以及存在伪标签标注错误率较大的技术问题。因此，如何解决伪标签标注错误，以及现有样本筛选方法速度过慢的缺点，是本领域技术人员要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供样本筛选方法、装置、设备及计算机可读存储介质，解决了现有技术中样本的伪标签出现错误、样本筛选较慢的技术问题。

为解决上述技术问题，本发明提供了一种样本筛选方法，包括：

获取待筛选样本对应的待筛选恶意代码特征；

计算所述待筛选恶意代码特征对应的待筛选特征向量；

调用恶意代码检测基础模型，计算所述待筛选特征向量对应的置信度和伪标签；其中，所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得；

计算所述待筛选特征向量对应的汉明距离值；

调用收益风险评估模型，计算所述待筛选特征向量对应的收益风险评估值；其中，所述收益风险评估模型中包括置信度参数和汉明距离值参数；

根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本。

可选的，在所述调用恶意代码检测基础模型之前，还包括：

获取基础模型训练集；

计算所述基础模型训练集对应的训练特征向量集；

利用所述贝叶斯深度学习模型对所述训练特征向量集进行训练，

得到所述恶意代码检测基础模型。

可选的，所述根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本之后，还包括：

将所述带伪标签的目标样本发送给所述恶意代码检测基础模型，以训练所述恶意代码检测基础模型。

可选的，在所述调用收益风险评估模型之前，还包括：

获取待训练收益风险评估模型；其中，所述待训练收益风险评估模型为；其中，表示置信度，表示汉明距离值，、和为初始化值；

获取收益风险模型训练集，并根据所述收益风险模型训练集和所述待训练收益风险评估模型对进行训练，得到所述、和对应的和，确定所述收益风险评估模型为；其中，为差异函数，所述差异函数，g(x,y)为恶意代码检测基础模型的损失函数。

可选的，所述的计算方式，包括：

根据所述恶意代码检测基础模型计算所述；其中，所述的计算公式为，c表示类别,表示根据所述恶意代码检测基础模型第t次计算得到的预测结果，，其中,y表示为该次预测的类别。

可选的，所述根据所述收益风险模型训练集和所述待训练收益风险评估模型对进行训练，包括：

根据所述收益风险模型训练集和所述待训练收益风险评估模型，使用梯度下降算法对所述进行训练，得到所述收益风险评估模型。

可选的，所述获取待筛选样本对应的待筛选恶意代码特征，包括：

按预设时间周期获取所述待筛选样本对应的待筛选恶意代码特征集。

本发明还提供了一种样本筛选装置，包括：

待筛选恶意代码特征获取模块，用于获取待筛选样本对应的待筛选恶意代码特征；

待筛选特征向量计算模块，用于计算所述待筛选恶意代码特征对应的待筛选特征向量；

置信度和伪标签计算模块，用于调用恶意代码检测基础模型，计算所述待筛选特征向量对应的置信度和伪标签；其中，所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得；

汉明距离值计算模块，用于计算所述待筛选特征向量对应的汉明距离值；

收益风险评估值计算模块，用于调用收益风险评估模型计算所述待筛选特征向量对应的收益风险评估值；其中，所述收益风险评估模型中包括置信度参数和汉明距离值参数；

样本筛选模块，用于根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本。

本发明还提供一种样本筛选设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的样本筛选方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的样本筛选方法的步骤。

可见，本发明通过获取待筛选样本对应的待筛选恶意代码特征；计算所述待筛选恶意代码特征对应的待筛选特征向量；调用恶意代码检测基础模型，计算所述待筛选特征向量对应的置信度和伪标签；其中，所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得；计算所述待筛选特征向量对应的汉明距离值；调用收益风险评估模型，计算所述待筛选特征向量对应的收益风险评估值；其中，所述收益风险评估模型中包括置信度参数和汉明距离值参数；根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本。很显然，和现有技术由人工进行样本筛选，以及进行伪标签的标注的方法相比，本发明通过收益风险模型可以从收益与风险角度对样本进行筛选，以及通过恶意代码检测基础模型对样本伪标签进行标注，提高了样本的筛选速度，以及避免了伪标签标记错误。

此外，本发明还提供了一种样本筛选装置、设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种样本筛选方法的流程图；

图2为本发明实施例提供的一种收益风险评估模型训练的流程示例图；

图3为本发明实施例提供的一种样本筛选方法的流程示例图；

图4为本发明实施例提供的一种样本筛选装置的结构示意图；

图5为本发明实施例提供的一种样本筛选设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的一种样本筛选方法的流程图。该方法可以包括：

S100，获取待筛选样本对应的待筛选恶意代码特征。

该实施例并不限定待筛选样本的具体数量。例如，待筛选样本的数量可以是10个；或者待筛选样本的数量可以是20个；或者待筛选样本的数量可以是100个。该实施例并不限定待筛选样本的具体来源，只要待筛选样本来自智能家居设备上传的数据即可。例如，待筛选样本可以是智能电视上传的数据；或者待筛选样本可以是智能机器人上传的数据。该实施例并不限定待筛选恶意代码特征的类型。例如，该待筛选恶意代码特征可以是待筛选API（Application Program Interface，应用程序接口）调用序列，或者该待筛选恶意代码特征可以是待筛选文件访问特征，或者该待筛选恶意代码特征可以是待筛选网络访问特征。

S101，计算待筛选恶意代码特征对应的待筛选特征向量。

该实施例需要对待筛选恶意代码特征去重，经分词处理，最后采用编码进行特征向量化。该实施例可以通过Multi-Hot（对于某个属性对应的分类特征，该特征下可能有多个取值）对待筛选恶意代码特征进行处理，得到待筛选特征向量，Multi-Hot对编码特征将多个属性同时编码到一个特征中。该实施例并不限定具体的待筛选特征向量，只要该待筛选特征向量与待筛选恶意代码特征对应即可。例如，待筛选特征向量可以是[1,1,0,0]，或者待筛选特征向量可以是[1, 0, 0, 1]；待筛选特征向量也可以是[1,0,1,1]。

S102，调用恶意代码检测基础模型，计算待筛选特征向量对应的置信度和伪标签；其中，恶意代码检测基础模型由贝叶斯深度学习模型训练而得。

该实施例使用恶意代码检测基础模型的计算待筛选特征向量对应的置信度和伪标签。该实施例中的恶意代码检测基础模型不仅具有样本筛选的功能，还能根据筛选后的样本进行迭代训练，进而不断优化恶意代码检测基础模型。

S103，计算待筛选特征向量对应的汉明距离值。

该实施例可以根据待筛选特征向量计算其对应的汉明距离值。该实施例求出待筛选恶意代码特征的SimHash（用来网页去重最常用的hash方法）值；将前边计算得到的SimHash值与SimHash数据库中的每个SimHash值（SimHash数据库由若干SimHash值构成）求汉明距离，然后只取最小的汉明距离，作为每个待筛选特征向量对应的汉明距离值。其中，SimHash数据库里边的数据是已经参与过恶意代码检测基础模型训练的恶意代码特征的SimHash，并且是不断更新的。该实施例并不限定SimHash数据库中SimHash数据的具体来源。例如，在应用基础模型训练集训练恶意代码检测基础模型后，将基础模型训练集中的所有条目的SimHash值加入SimHash数据库。或者，在完成待筛选样本的筛选后，可以应用筛选出的样本对恶意代码检测基础模型进行迭代训练，在迭代训练完成后，同样需要将这些筛选出的样本的SimHash加入SimHash数据库。

S104，调用收益风险评估模型，计算待筛选特征向量对应的收益风险评估值；其中，收益风险评估模型中包括置信度参数和汉明距离值参数。

该实施例调用收益风险评估模型来计算待筛选特征向量对应的收益风险评估值。该实施例中的收益风险评估模型中包括置信度参数和汉明距离值参数。

S105，根据收益风险评估值对待筛选特征向量进行筛选，得到带伪标签的目标样本。

该实施例并不限定根据收益风险评估值对待筛选特征向量进行筛选的具体方式。例如，当得到每个待筛选样本对应的收益风险评估值时，可以将收益风险评估值前20%每个待筛选样本对应的特征向量作为目标样本。或者，当得到每个待筛选样本对应的收益风险评估值时，可以将收益风险评估值达到预设阈值的特征向量作为目标样本。

进一步，为了提高对恶意代码检测基础模型进行训练的准确性，在上述调用恶意代码检测基础模型之前，还可以包括：

获取基础模型训练集；

计算基础模型训练集对应的训练特征向量集；

利用贝叶斯深度学习模型对训练特征向量集进行训练，

得到恶意代码检测基础模型。

该实施例应用贝叶斯深度学习模型对恶意代码检测基础模型训练集中的基础模型训练集进行训练。贝叶斯深度学习的目标是找到模型参数的后验分布，给定一个x实例，其输出为：。由于使用这种方法需要表示出所有模型可能的权重，实际中不可行，需要利用分布近似代替，利用MCDropout （Monte-Carlo Dropout，蒙特卡罗 dropout）方法对模型进行T次Dropout（Dropout 是指在深度学习网络的训练过程中，按照一定的概率将一部分神经网络单元暂时从网络中丢弃，相当于从原始的网络中找到一个更瘦的网络）可以近似模拟这种分布，输出结果可以表示为：。进而将基础模型训练集中的样本输入到贝叶斯深度学习模型进行训练，得到恶意代码检测基础模型。该实施例中的贝叶斯深度学习模型结构如表1所示，其中全连接层1、2、3采用Relu（RectifiedLinear Units，线性修正单元激活函数）激活函数，Dropout（随机失活）层随机失活比率为0.6，全连接层4激活函数为Sigmoid（神经元的非线性作用函数）。该实施例通过沙箱进行恶意代码和非恶意代码样本的收集，得到基础模型训练集。该实施例并不限定基础模型训练集中样本的具体数量，例如，基础模型训练集中样本的数量可以为3000，或者基础模型训练集中样本的数量可以为4000。该实施例并不限定构建贝叶斯深度学习模型中MC Dropout（Monte-Carlo Dropout，高斯过程的贝叶斯近似）的次数的具体数值，例如，MC Dropout的次数可以设置为9；或者MC Dropout的次数可以设置为10。

表1 贝叶斯深度学习模型结构示例表

进一步，为了提高对恶意代码检测基础模型训练的效率，上述根据收益风险评估值对待筛选特征向量进行筛选，得到带伪标签的目标样本之后，还可以包括：

将带伪标签的目标样本发送给恶意代码检测基础模型，以训练恶意代码检测基础模型。

该实施例中的恶意代码检测基础模型是不断迭代训练优化的。该恶意检测基础模型可以利用筛选得到的包括伪标签的目标样本进行迭代训练，不断动态优化恶意代码检测基础模型。

进一步，为了获取收益风险评估模型，在上述调用收益风险评估模型之前，还可以包括：

获取待训练收益风险评估模型；其中，待训练收益风险评估模型为；其中，表示置信度，表示汉明距离值，、和为初始化值；

获取收益风险模型训练集，并根据收益风险模型训练集和待训练收益风险评估模型对进行训练，得到、和对应的和，确定收益风险评估模型为；其中，为差异函数，差异函数，g(x,y)为恶意代码检测基础模型的损失函数。

该实施例中的收益风险评估模型用于量化恶意代码样本对恶意代码检测基础模型性能提升的收益与风险，筛选出对恶意代码检测基础模型性能提升大的样本。该实施例的待训练收益风险评估模型是还未使用收益风险模型训练集训练前的模型。该实施例并不限定、和初始化值的具体数值。例如，、和的初始值可以是0，或者、和的初始值也可以是1。该实施例可以根据收益风险模型训练集和待训练收益风险评估模型对进行训练，得到和。进而更新待训练收益风险评估模型中的参数、和，得到收益风险评估模型。为了便于理解，具体请参考图2，图2是本发明实施例所提供的一种收益风险评估模型训练的流程示例图，具体可以包括：获取模型训练集中的收益风险模型训练集，获取待训练收益风险评估模型，其中，待训练收益风险评估模型参数的初始化值是0，进而利用梯度下降算法、收益风险模型训练集和待训练收益风险评估模型对参数模型进行训练，获取对参数模型进行训练后得到的参数，得到带参数的收益风险评估模型。

进一步，为了提高使用收益风险评估模型进行评估的准确度，上述的计算方式，可以包括：

根据恶意代码检测基础模型计算；其中，的计算公式为，c表示类别,表示根据所述恶意代码检测基础模型第t次计算得到的预测结果，，其中,y表示为该次预测的类别。

该实施例中置信度的计算公式为，置信度越大，表示模型对此标签的困惑程度越大，同时对模型的帮助也越大。该实施例并不限定c的具体类别。例如，c的类别可以是正常，或者c的类别可以是恶意。表示根据所述恶意代码检测基础模型第t次计算得到的预测结果，其中,y表示为该次预测的类别。

进一步，为了提高训练收益风险评估模型的速度，上述根据收益风险模型训练集和待训练收益风险评估模型对进行训练，可以包括：

根据收益风险模型训练集和待训练收益风险评估模型，使用梯度下降算法对进行训练，得到收益风险评估模型。

该实施例中采用梯度下降算法迭代训练，进而得到收益风险评估模型所需要参数的值。由于梯度下降算法需要较小的迭代就可以收敛，所以使用梯度下降算法的速度更快。该实施例并不限定收益风险模型训练集的具体获取过程。例如，将5500个正常样本与5000个恶意样本在沙箱中运行，得到API调用序列如[brk,mmap2,access,openat,openat,stat,…]，采用bi-gram（二元语法模型）方法处理以及Multi-Hot编码，将该样本API调用序列处理为一个特征向量，并随机分成两部分：80%数量的基础模型训练集、20%数量的收益风险评估模型训练集。或者，将4000个正常样本与5000个恶意样本在沙箱中运行，得到API（Application Program Interface，应用程序接口）调用序列如[brk,mmap2,access,openat,stat,…]，采用bi-gram方法处理以及Multi-Hot编码，将该样本API调用序列处理为一个特征向量，并随机分成两部分：70%数量的基础模型训练集、30%数量的收益风险评估模型训练集。

进一步，为了提高样本筛选的速度，上述获取待筛选样本对应的待筛选恶意代码特征，包括：

按预设时间周期获取待筛选样本对应的待筛选恶意代码特征集。

该实施例并不限定预设时间周期的具体周期。例如，预设时间周期可以是5分钟，或者预设时间周期可以是10分钟，或者预设时间周期还可以是20分钟。该实施例按预设时间周期获取待筛选样本对应的待筛选恶意代码特征集。

本发明实施例提供的样本筛选方法，包括获取待筛选样本对应的待筛选恶意代码特征；计算所述待筛选恶意代码特征对应的待筛选特征向量；调用恶意代码检测基础模型，计算待筛选特征向量对应的置信度和伪标签；其中，恶意代码检测基础模型由贝叶斯深度学习模型训练而得；计算待筛选特征向量对应的汉明距离值；调用收益风险评估模型，计算待筛选特征向量对应的收益风险评估值；其中，收益风险评估模型中包括置信度参数和汉明距离值参数；根据收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本。可见，和现有技术由人工进行样本筛选，以及进行伪标签的标注的方法相比，本发明通过收益风险模型可以从收益与风险角度对样本进行筛选，以及通过恶意代码检测基础模型对样本伪标签进行标注，提高了样本的筛选速度，以及避免了伪标签标记错误。并且，该实施例还可以直接将筛选得到的带伪标签的目标样本发送给恶意代码检测基础模型进行迭代训练，使用恶意代码检测基础模型中相关参数的变化，实现对恶意代码检测基础模型的动态训练。并且，使用梯度下降算法对进行快速训练，得到收益风险评估模型所需要的参数。

为了使本发明更便于理解，具体请参考图3，图3为本发明实施例提供的一种样本筛选方法的流程示例图，具体可以包括：

云平台下的智能家居设备以预先定义的格式[Device_name,Pid,Api_Sequence]按照设定的时间周期进行数据上报，其中字段Device_name表示当前上报数据的设备名；字段Pid表示当前设备中正在运行进程的Pid号，具体为[pid_1,pid_2,...]；字段Api_Sequence表示每一进程下的API调用序列，具体为[[api_1,api_2,...],[api_1,api_2,...],...]；设定的时间周期为10分钟。获取智能家居设备上报的数据作为待筛选样本进行数据解析，得到待筛选API调用序列，再对API调用序列去重，经bi-gram处理，最后采用Multi-Hot编码得到待筛选特征向量。利用待筛选特征向量应用恶意代码检测基础模型进行计算，得到伪标签、预测值（范围为0-1的数组）以及置信度，并且计算待筛选样本对应的汉明距离值，同时将该待筛选样本对应的特征向量以及置信度保存至样本池中。采用收益风险评估模型计算每个待筛选样本对应的收益风险评估值，取出收益风险评估值前20%样本的特征向量作为迭代训练的目标样本，将该目标样本发送给恶意检测基础模型，应用梯度下降算法迭代训练恶意代码基础检测模型，为了让恶意代码基础检测模型在训练时将重心放在方差更小的样本上，还会根据预测值为每个目标样本分配权重，每个样本以该权重更新模型参数，每个样本训练1轮。并将筛选出的目标样本对应的API调用序列的SimHash值加入SimHash数据库中。

下面对本发明实施例提供的样本筛选装置进行介绍，下文描述的样本筛选装置与上文描述的样本筛选方法可相互对应参照。

具体请参考图4，图4为本发明实施例提供的一种样本筛选装置的结构示意图，可以包括：

待筛选恶意代码特征获取模块100，用于获取待筛选样本对应的待筛选恶意代码特征；

待筛选特征向量计算模块200，用于计算所述待筛选恶意代码特征对应的待筛选特征向量；

置信度和伪标签计算模块300，用于调用恶意代码检测基础模型，计算所述待筛选特征向量对应的置信度和伪标签；其中，所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得；

汉明距离值计算模块400，用于计算所述待筛选特征向量对应的汉明距离值；

收益风险评估值计算模块500，用于调用收益风险评估模型计算所述待筛选特征向量对应的收益风险评估值；其中，所述收益风险评估模型中包括置信度参数和汉明距离值参数；

样本筛选模块600，用于根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本。

进一步，基于上述实施例，所述样本筛选装置，还可以包括：

基础模型训练集获取模块，用于获取基础模型训练集；

训练特征向量获取模块，用于计算所述基础模型训练集对应的训练特征向量集；

恶意代码检测基础模型训练模块，用于利用所述贝叶斯深度学习模型对所述训练特征向量集进行训练，

恶意代码检测基础模型获取模块，用于得到所述恶意代码检测基础模型。

进一步，基于上述任意实施例，所述样本筛选装置，还可以包括：

带伪标签的目标样本使用模块，用于将所述带伪标签的目标样本发送给所述恶意代码检测基础模型，以训练所述恶意代码检测基础模型。

待训练收益风险评估模型获取模块，用于获取待训练收益风险评估模型；其中，所述待训练收益风险评估模型为；其中，表示置信度，表示汉明距离值，、和为初始化值；

收益风险评估模型确定模块，用于获取收益风险模型训练集，并根据所述收益风险模型训练集和所述待训练收益风险评估模型对进行训练，得到所述、和对应的和，确定所述收益风险评估模型为；其中，为差异函数，所述差异函数 ,g(x,y)为恶意代码检测基础模型的损失函数。

进一步，基于上述任意实施例，所述样本筛选装置，可以包括：

计算单元，用于根据所述恶意代码检测基础模型计算所述；其中，所述的计算公式为，c表示类别,表示根据所述恶意代码检测基础模型第t次计算得到的预测结果，，其中,y表示为该次预测的类别。

训练单元，用于根据所述收益风险模型训练集和所述待训练收益风险评估模型，使用梯度下降算法对所述进行训练，得到所述收益风险评估模型。

进一步，基于上述任意实施例，所述待筛选恶意代码特征获取模块100，可以包括：

待筛选恶意代码特征获取单元，用于按预设时间周期获取所述待筛选样本对应的待筛选恶意代码特征集。

需要说明的是，上述样本筛选装置中的模块以及单元在不影响逻辑的情况下，其顺序可以前后进行更改。

本发明实施例提供的样本筛选装置，包括待筛选恶意代码特征获取模块100，用于获取待筛选样本对应的待筛选恶意代码特征；待筛选特征向量计算模块200，用于计算所述待筛选恶意代码特征对应的待筛选特征向量；置信度和伪标签计算模块300，用于调用恶意代码检测基础模型，计算所述待筛选特征向量对应的置信度和伪标签；其中，所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得；汉明距离值计算模块400，用于计算所述待筛选特征向量对应的汉明距离值；收益风险评估值计算模块500，用于调用收益风险评估模型计算所述待筛选特征向量对应的收益风险评估值；其中，所述收益风险评估模型中包括置信度参数和汉明距离值参数；样本筛选模块600，用于根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本。可见，和现有技术由人工进行样本筛选，以及进行伪标签的标注的方法相比，本发明通过收益风险模型可以从收益与风险角度对样本进行筛选，以及通过恶意代码检测基础模型对样本伪标签进行标注，提高了样本的筛选速度，以及避免了伪标签标记错误。并且，该实施例还可以直接将筛选得到的带伪标签的目标样本发送给恶意代码检测基础模型进行迭代训练，使用恶意代码检测基础模型中相关参数的变化，实现对恶意代码检测基础模型的动态训练。并且，使用梯度下降算法对进行快速训练，得到收益风险评估模型所需要的参数。

下面对本发明实施例提供的样本筛选设备进行介绍，下文描述的样本筛选设备与上文描述的样本筛选方法可相互对应参照。

请参考图5，图5为本发明实施例提供的一种样本筛选设备的结构示意图，可以包括：

存储器10，用于存储计算机程序；

处理器20，用于执行计算机程序，以实现上述的样本筛选方法的步骤。

存储器10、处理器20、通信接口31均通过通信总线32完成相互间的通信。

在本发明实施例中，存储器10中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器10中可以存储有用于实现以下功能的程序：

获取待筛选样本对应的待筛选恶意代码特征；

计算待筛选恶意代码特征对应的待筛选特征向量；

调用恶意代码检测基础模型，计算待筛选特征向量对应的置信度和伪标签；其中，恶意代码检测基础模型由贝叶斯深度学习模型训练而得；

计算待筛选特征向量对应的汉明距离值；

调用收益风险评估模型，计算待筛选特征向量对应的收益风险评估值；其中，收益风险评估模型中包括置信度参数和汉明距离值参数；

根据收益风险评估值对待筛选特征向量进行筛选，得到带伪标签的目标样本。

在一种可能的实现方式中，存储器10可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能所需的应用程序等；存储数据区可存储使用过程中所创建的数据。

此外，存储器10可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可以包括各种系统程序，用于实现各种基础任务以及处理基于硬件的任务。

处理器20可以为中央处理器（Central Processing Unit，CPU）、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件，处理器20可以是微处理器或者也可以是任何常规的处理器等。处理器20可以调用存储器10中存储的程序。

通信接口31可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图5所示的结构并不构成对本申请实施例中样本筛选设备的限定，在实际应用中样本筛选设备可以包括比图5所示的更多或更少的部件，或者组合某些部件。

下面对本发明实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的样本筛选方法可相互对应参照。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的样本筛选方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本发明的范围。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上对本发明所提供的样本筛选方法、装置、设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种样本筛选方法，其特征在于，包括：

获取待筛选样本对应的待筛选恶意代码特征；

计算所述待筛选恶意代码特征对应的待筛选特征向量；

计算所述待筛选特征向量对应的汉明距离值；

2.根据权利要求1所述的样本筛选方法，其特征在于，在所述调用恶意代码检测基础模型之前，还包括：

获取基础模型训练集；

计算所述基础模型训练集对应的训练特征向量集；

得到所述恶意代码检测基础模型。

3.根据权利要求1所述的样本筛选方法，其特征在于，所述根据所述收益风险评估值对所述待筛选特征向量进行筛选，得到带伪标签的目标样本之后，还包括：

4.根据权利要求1至3任一项所述的样本筛选方法，其特征在于，在所述调用收益风险评估模型之前，还包括：

获取收益风险模型训练集，并根据所述收益风险模型训练集和所述待训练收益风险评估模型对进行训练，得到所述、和对应的、和，确定所述收益风险评估模型为；其中，为差异函数，所述差异函数，为恶意代码检测基础模型的损失函数。

5.根据权利要求4所述的样本筛选方法，其特征在于，所述的计算方式，包括：

根据所述恶意代码检测基础模型计算所述；其中，所述的计算公式为，表示共进行次Dropout，表示类别，表示根据所述恶意代码检测基础模型第次计算得到的预测结果；其中，,表示该次预测的类别,表示第次时所述恶意代码检测基础模型的模型参数，表示在输入实例的情况下，模型参数为时的输出值。

6.根据权利要求4所述的样本筛选方法，其特征在于，所述根据所述收益风险模型训练集和所述待训练收益风险评估模型对进行训练，包括：

7.根据权利要求1所述的样本筛选方法，其特征在于，所述获取待筛选样本对应的待筛选恶意代码特征，包括：

8.一种样本筛选装置，其特征在于，包括：

9.一种样本筛选设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的样本筛选方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的样本筛选方法的步骤。