CN109756494A

CN109756494A - 一种负样本变换方法及装置

Info

Publication number: CN109756494A
Application number: CN201811635760.4A
Authority: CN
Inventors: 黄自力; 杨阳; 陈舟; 胡景秀; 熊璐
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-14
Anticipated expiration: 2038-12-29
Also published as: CN109756494B

Abstract

本发明公开了一种负样本变换方法及装置，该方法包括：通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值；通过所述行为选择神经网络，根据所述行为集合中每个行为被选择的概率值，确定所述行为集合中的第一行为；通过所述第一行为中的变换规则，对所述第一负样本进行特征变换，并将所述第一负样本变换后的样本作为第二负样本；将所述第二负样本输入预设的检测系统进行样本判别，若通过所述检测系统的样本判别，则将所述第二负样本添加到样本库。

Description

一种负样本变换方法及装置

技术领域

本发明涉及网络安全领域，尤其涉及一种负样本变换方法及装置。

背景技术

在网络安全领域，通常通过人工智能(artificial intelligence，AI)检测系统来判断数据流是否为恶意，若为恶意数据流，则禁止该数据流通过，以达到防御目的。AI检测系统的判断规则是通过AI模型自学习形成并更新的，AI检测系统通过对流量与日志的特征抽取后，会获取正常数据流的状态特征向量，称为正样本，以及恶意数据流的状态特征向量，称为负样本。将大量的正样本与负样本输入至AI模型进行分析后，从而学习到负样本的潜在特征，用于以后检测出具有这些特征的攻击行为。但是，现有技术中，能提供给AI模型的负样本数量较少。因此，如何对负样本进行变换，以获得更多的负样本，是一个亟待解决的问题。

发明内容

本申请实施例提供了一种负样本变换方法及装置，解决了现有技术中能提供给AI模型的负样本数量较少的问题。

本发明实施例提供一种负样本变换方法，该方法包括：

通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值；所述第一负样本为所述数据流经过特征抽取形成的n维向量，n为正整数；所述行为集合中每个行为是一套对样本进行变换的规则；

通过所述行为选择神经网络，根据所述行为集合中每个行为被选择的概率值，确定所述行为集合中的第一行为；

通过所述第一行为中的变换规则，对所述第一负样本进行特征变换，并将所述第一负样本变换后的样本作为第二负样本；

将所述第二负样本输入预设的检测系统进行样本判别，若通过所述检测系统的样本判别，则将所述第二负样本添加到样本库。

可选的，所述通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值，包括：

将所述行为集合中每个行为输入所述行为选择神经网络的行为训练模型，确定出该行为的奖励值；该行为的奖励值与所述第一负样本经过该行为变化后的样本通过所述检测系统的样本判别的概率呈正相关；

将所述行为集合中每个行为的奖励值，与所述行为集合的所有行为的奖励值之和的比值，作为该行为被选择的概率值。

可选的，所述通过所述行为选择神经网络，根据所述行为集合中每个行为被选择的概率值，确定所述行为集合中的第一行为，包括：

按照所述行为集合中每个行为被选择的概率值，将通过所述行为选择神经网络在所述行为集合中，进行随机选择的一个行为，作为第一行为。

可选的，所述行为集合中每个行为被选择的概率值是根据所述行为选择神经网络的第一参数值确定的；

通过所述行为选择神经网络，确定所述第一行为的第一奖励值；

通过行为评价神经网络，确定所述第一行为的第二奖励值；

根据所述第一奖励值和所述第二奖励值，更新所述第一参数值。

可选的，更新所述第一参数值之前，还包括：

所述第二奖励值是根据所述行为评价神经网络的第二参数值确定的；

根据所述行为选择神经网络输出的第二行为的第三奖励值，通过所述行为评价神经网络，确定所述第二行为的奖励现实值；所述第二行为是所述行为集合中任一行为；

根据所述行为评价神经网络输出的所述第二行为的第四奖励值，通过所述行为评价神经网络，确定所述第二行为的奖励估计值；

根据所述奖励现实值和所述奖励估计值，更新所述第二参数值。

可选的，若所述第二负样本未通过所述预设检测系统的样本判别，且对所述第一负样本变换的次数未达到K次，则从所述行为集合中确定出第三行为；K为正整数；

通过所述第三行为，将所述第一负样本变换为第三负样本。

本发明实施例根据通过行为选择神经网络，确定行为集合中每个行为被选择的概率值，并根据所述行为集合中每个行为被选择的概率值，确定出一个将第一负样本进行变换的行为，在这种变换方式下，可通过第一负样本变换出多个样本，并将能通过所述检测系统的样本判别的负样本添加到样本库，从而扩充了样本库中的负样本。

本发明实施例提供一种负样本变换装置，该装置包括：

确定模块，用于通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值；所述第一负样本为所述数据流经过特征抽取形成的n维向量，n为正整数；所述行为集合中每个行为是一套对样本进行变换的规则；

以及用于通过所述行为选择神经网络，根据所述行为集合中每个行为被选择的概率值，确定所述行为集合中的第一行为；

变换模块，用于通过所述第一行为中的变换规则，对所述第一负样本进行特征变换，并将所述第一负样本变换后的样本作为第二负样本；

处理模块，用于将所述第二负样本输入预设的检测系统进行样本判别，若通过所述检测系统的样本判别，则将所述第二负样本添加到样本库。

可选的，所述确定模块，具体用于：

所述确定模块，还用于通过所述行为选择神经网络，确定所述第一行为的第一奖励值；

通过行为评价神经网络，确定所述第一行为的第二奖励值；

可选的，所述第二奖励值是根据所述行为评价神经网络的第二参数值确定的；

所述确定模块，还用于根据所述行为选择神经网络输出的第二行为的第三奖励值，通过所述行为评价神经网络，确定所述第二行为的奖励现实值；所述第二行为是所述行为集合中任一行为；

可选的，所述处理模块，还用于若所述第二负样本未通过所述预设检测系统的样本判别，且对所述第一负样本变换的次数未达到K次，则从所述行为集合中确定出第三行为；K为正整数；

通过所述第三行为，将所述第一负样本变换为第三负样本。

附图说明

图1为本发明实施例提出的一种负样本变换方法对应的交互示意图；

图2为本发明实施例提出的一种负样本变换方法对应的具体交互示意图；

图3为本发明实施例提出的一种负样本变换方法对应的行为选择神经网络的具体架构图；

图4为本发明实施例提出的一种负样本变换方法对应的行为评价神经网络更新参数的示意图；

图5为本发明实施例提出的一种负样本变换方法对应的步骤流程图；

图6为本发明实施例提出的一种基于跨站脚本攻击(Cross Site Scripting，XSS)的负样本变换方法对应的深度学习神经网络的建模示意图；

图7为本发明实施例提出的一种基于XSS攻击的负样本变换方法对应的数据流图；

图8为本发明实施例提出的一种基于XSS攻击的负样本变换方法对应的整体架构图；

图9为本发明实施例提出的一种负样本变换装置对应的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互结合。

如图1所示，为本发明实施例提出的一种负样本变换方法对应的交互示意图。本发明实施例建立了2个深度学习神经网络，一个是行为选择神经网络，一个是行为评价神经网络。

行为选择神经网络μ0，用于选择一种行为，对输入的负样本进行变换，得到变换后的负样本。其中，行为是预先在行为集合中定义的有限个动作。

行为评价神经网络Q0，用于对变换后的负样本，通过预先设定的目标，对变换后的负样本进行评价，Q0将对负样本的评价结果反馈给μ0。其中，举例来说，目标是变换后的负样本通过检测系统，用一个奖励值作为评价结果区衡量该次变换。变换后的负样本能否通过检测系统的一种判断方式为，判断该负样本输入检测系统的正则表达式的结果是否为第一预设值，若是，则能通过，否则不能通过。举例来说，第一预设值为1。

Q0是基于价值的深度强化学习的神经网络，会对一个负样本的一个行为通过训练来进行参数更新。根据该负样本和该行为的现实值与估计值的误差函数，来进行参数更新，以便下次获取更准确的评价结果。其中，现实值为一个负样本的一个行为在输入Q0训练之前的奖励值的函数，估计值一个负样本的一个行为在输入Q0训练之后的奖励值的函数。

因此，每次参数更新后，μ0能根据Q0反馈而来的负样本的评价结果，选择更好的变换来达到目标；行为评价神经网络Q0能给出更准确的判断，来告知行为选择神经网络μ0当前为负样本选择的行为是否能通过检测系统，如果能通过，则将变换后的负样本作为合格的负样本，并添加到样本库。

如图2所示，为本发明实施例提出的一种负样本变换方法对应的训练模型的各部分交互示意图，下面结合图1，详细说明。

为了降低训练模型对每次变换后负样本顺序的依赖性，建立经验回放池。将一条负样本每次变换后的样本与对应奖励值作为一条记录，把这些记录组成一个序列，存入一个经验回放池，每次在对一个负样本的行为进行评价时，从经验回放池中随机提取一个序列。

为了保证训练模型的收敛性与稳定性，建立2个行为选择神经网络μ1与μ2，2个行为评价神经网络Q1与Q2。即μ0包括μ1与μ2，Q0包括Q1与Q2。其中，主网络的μ1与Q1是实时更新参数，即每一条数据输入，训练后的参数会立即更新；目标网络的μ2和Q2是缓慢更新参数，即对于每一次更新的μ1与Q1的参数，仅更新一小部分给μ2与Q2。

行为选择神经网络μ1与μ2是结构相同参数不同的2个深度学习神经网络，输入是负样本s，输出是一个变换行为a，参数更新的原则是，该行为的奖励值升高，则在下次输出时，该行为被选择的概率升高，反之，则该行为被选择的概率降低。

行为评价神经网络Q1与Q2是结构相同参数不同的2个深度神经网络，输入是负样本s，输出是一个变换行为a’的奖励值，根据之前的行为a，找到对应的奖励值，奖励值越高，说明这个行为通过检测系统的概率就越高，计算损失函数的误差，进行反向传递更新参数。

具体地，本发明实施例提出的一种负样本变换方法对应的伪代码如下：

初始化主网络中基于概率的行为选择神经网络μ1与基于奖励值的行为评价神经网络Q1的参数，这两个参数的可以用随机选择的方式初始化。

对应地，初始化两个目标网络μ2和Q2的参数，与原网络参数相等。

初始化经验回放池为空。

For 1～M：

对经验回放池中，N条序列的顺序随机化，获取负样本s的一条初始序列。

For 1～T步：

μ1根据当前策略，对s，选择一个变换行为a。

执行行为a，获得单步的奖励值r，得到变换后的负样本s’。

将一个序列(s,a,r,s’)存入经验回放池。

从经验回放池中提取一个序列(s,a,r,s’)。

计算Q2现实值y2＝r+γmaxQ2(s’)；γ为参数。

计算Q1估计值y1＝Q1(s)。

求损失函数梯度，更新主网络的Q1的参数，其中，损失函数Loss＝1/N∑[y1-y2]²。

根据梯度策略，更新主网络的μ1的参数，其中梯度函数▽J＝1/N∑[μ参数梯度*Q奖励值]。

更新目标网络的参数：

q2＝τ*q1+(1-τ)q2，τ为小于1大于0的实数。

w2＝τ*w1+(1-τ)w2；

其中，q1为Q1的参数，q2为Q2的参数，w1为μ1的参数，w2为μ2的参数。

如图3所示，为本发明实施例提出的一种负样本变换方法对应的行为选择神经网络的具体架构图。需要说明的是，图3仅以行为选择神经网络μ1为例，μ2同样也具有此架构。

行为选择神经网络μ1是基于概率的深度强化学习，其核心思想是更新参数时有两个原则：第一，如果这个回合选择了某一行为，则下一回合选择该行为的概率提高；第二，如果该行为的奖励值为正，那么会增加该行为被选择的概率，如果该行为的奖励值为负，则会降低该行为被选择的概率。其中，选择行为的概率每次增加或减少的步幅，是根据μ1的参数负梯度来获取的。

行为选择神经网络μ1包含三层：输入层、隐藏层和输出层。其中，输入层用于输入负样本即一个状态特征向量，其中输入层的节点数，也就是状态特征向量的维数，负样本中每个元素都要输入至隐藏层的每个节点一次。隐藏层用于为负样本选择每一个行为a-i，假设共有n个行为，隐藏层的层数与每一层的节点个数均要根据实际场景来定义。输出层用于确定隐藏层选择的每个行为对应的奖励值μ1(a-i)，节点数与选择的行为数n相同。输出层还将奖励值通过激励函数转化为概率值，举例来说，激励函数为softmax。再用概率选择函数，最后选择一个行为。上述i,n均为正整数，且i小于或等于n。

如图4所示，为本发明实施例提出的一种负样本变换方法对应的行为评价神经网络更新参数的示意图。

步骤401：输入负样本s。

具体地，从外部环境中，获取负样本s，输入到行为评价神经网络Q1。举例来说，外部环境为样本库。

步骤402：从Q1输出最大的奖励值对应的行为a。

具体地，Q1输出多个奖励值，其中每个奖励值对应一个行为，选择最大的奖励值对应的行为a，即argmaxQ1(s,a；θ)，作为最终输出，并确定出变换后的样本s’,其中θ为参数。

步骤403：将(s，a，r，s’)作为一个序列，存储到经验回放池。

上述3个步骤是仅基于奖励值的深度强化学习步骤，而在本发明实施例中，该部分是由基于概率的深度神经网络提供的。

步骤404：提取序列。

具体地，从经验回放池提取一个序列，将s和a输入Q1，将s’输入Q2。

步骤405：计算误差函数。

具体地，从Q1的所有输出中找到a对应的奖励值Q1(s,a；θ)，从Q2的所有输出中找到最大奖励值，即maxQ1(s’,a’；θ’)，以及将该步骤中的奖励值r一并输入到误差函数计算。

步骤406：进行梯度更新。

具体地，计算Q2现实值y2＝r+γmaxQ2(s’)；γ为参数。

计算Q1估计值y1＝Q1(s)。

求损失函数梯度，更新主网络的Q1的参数，其中，损失函数Loss＝1/N∑[y1-y2]²，用梯度下降来更新Q1参数。

步骤407：每一次Q1的参数更新后，Q2也随着Q1的参数进行参数更新。

负样本的变换流程为，首先检测是否有更多的负样本，如果没有，则所有流程结束，如果有，则抽取该负样本作为数据源。从行为变换集中，选择其中一种变换方式，变换数据源得到新的样本，对新样本进行检测，如果可以通过系统，则将该负样本存入样本库，如果没有通过系统，则检测其是否到达最大变换次数，如果到达，则所有流程结束，如果没到达，则继续进行下一次变换。

如图5所示，为本发明实施例提出的一种负样本变换方法对应的步骤流程图。

步骤501：通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值。

所述第一负样本为一个n维向量，n为正整数；所述行为集合中每个行为是一套对样本进行变换的规则。

步骤502：通过所述行为选择神经网络，根据所述行为集合中每个行为被选择的概率值，确定所述行为集合中的第一行为。

步骤503：通过所述第一行为中的变换规则，对所述第一负样本进行特征变换，并将所述第一负样本变换后的样本作为第二负样本。

步骤504：将所述第二负样本输入预设的检测系统进行样本判别，若通过所述检测系统的样本判别，则将所述第二负样本添加到样本库。

步骤501中，第一负样本既可以为初始输入至行为选择神经网络未经过变换的负样本，也可以是经过变换后的负样本，n维向量每一维的元素为所述数据流在该维度对应的特征值。具体地，一种可选的实施方式为，将所述行为集合中每个行为输入所述行为选择神经网络的行为训练模型，确定出该行为的奖励值；该行为的奖励值与所述第一负样本经过该行为变化后的样本通过所述检测系统的样本判别的概率呈正相关；将所述行为集合中每个行为的奖励值，与所述行为集合的所有行为的奖励值之和的比值，作为该行为被选择的概率值。

步骤502中，一种可选的实施方式为，按照所述行为集合中每个行为被选择的概率值，将通过所述行为选择神经网络在所述行为集合中，进行随机选择的一个行为，作为第一行为。

步骤503中，一种可选的实施方式为，一个行为是一个定义在第一负样本的每个维度的函数，将第一负样本的每个维度的元素都按照对应函数的映射，得到第二负样本。

步骤504中，一种可选的实施方式为，若所述第二负样本未通过所述预设检测系统的样本判别，且对所述第一负样本变换的次数未达到K次，则从所述行为集合中确定出第二行为；K为正整数；通过所述第二行为，将所述第一负样本变换为第三负样本。需要说明的是，对一个负样本的最大变换次数K可以根据需要设定。

步骤501～步骤504中，一种可选的实施方式为，所述行为集合中每个行为被选择的概率值是根据所述行为选择神经网络的第一参数值确定的；根据第三行为的初始输入的奖励值，获取所述第三行为通过行为评价神经网络确定后的奖励值；所述第三行为是所述行为集合中任一行为；通过所述行为评价神经网络，根据所述初始输入的奖励值和所述确定后的奖励值，更新所述第一参数值。

如图6所示，为本发明实施例提出的一种基于跨站脚本攻击(Cross SiteScripting，XSS)的负样本变换方法对应的深度学习神经网络的建模示意图。

步骤601：输入数据源。

其中，数据源包括正样本与XSS攻击的负样本。

步骤602：对数据源进行预处理。

预处理具体包括数据范化，数据分词，数据的词向量表示等。

步骤603：建立模型。

其中，模型为深度学习神经网络，包括多层感知机(Multi-Layer Perceptron，MLP)、卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(RecurrentNeural Network，RNN)等。

步骤604：调整参数。

具体地，通过步骤603中建立的深度学习神经网络，根据处理后的数据源，确定输入的是正样本还是XSS攻击的负样本，调整参数。

如图7所示，为本发明实施例提出的一种基于XSS攻击的负样本变换方法对应的数据流图。

对于XSS攻击的负样本，可直接使用本发明实施例的方法进行变换。而对于普通的正样本，可以先批量加入XSS攻击语句，然后再用本发明实施例中的负样本变换方法，通过行为选择网络进行变换，从而得到变换后的负样本。如表1所示，为针对XSS攻击行为变换表(部分)。

表1针对XSS攻击行为变换表(部分)

如图8所示，为本发明实施例提出的一种基于XSS攻击的负样本变换方法对应的整体架构图。

步骤801：选择行为。

行为选择网络根据具有XSS攻击特征的负样本s，从行为变换集选择合适的方法进行变换。

步骤802：变换样本。

通过深度强化学习模型，将负样本s变换为一个新的XSS攻击样本。

步骤803：特征工程。

将XSS攻击样本，根据深度学习建模的特征抽取方式，进行特征工程，转换为词向量。

步骤804：词向量输入。

将进行特征工程之后的词向量，输入到检测系统中检测。

步骤805：反馈结果。

将检测结果返回给深度强化学习模型。

步骤806：确定奖励值。

深度强化学习模型根据检测系统的检测结果，进行梯度更新学习，并确定该行为的奖励值。举例来说，若经过该行为变换后的样本通过检测系统，则奖励值为999，否则奖励值为0。

步骤807：返回样本。

深度强化学习模型将变换后的负样本返回行为选择神经网络。

本发明实施例中提出的一种负样本变换方法具有以下优势：

1、生成可绕过检测系统的负样本。本发明实施例可根据有限个的自定义改造方法，将少量的已知负样本，改造成多批次不同的负样本。改造后的负样本，可以绕过现有的AI防御系统与传统防御套件。经过拓展后，该方法还可用于普通样本变换为负样本。

2、自动化改造，无人工分析。技术人员只需要预先定义好常见的负样本伪装方法，无需对规则库与正则表达式深入分析，便可自动化生成，节省大量的人力成本。

3、强拓展性，可面向所有样本。在本模型训练完成后，输入任意已知可被检测的负样本，可大概率变换成可通过检测系统的负样本。无需对于每一个负样本单独分析，而手动设计改造。

4、解释性，变换方式可知。对于本发明实施例，每一个样本在进行梯度更新，选择变换方式时，由于所有的行为选择都是基于行为模式集中的，是有限个选择方法。在变换时，可以将行为选择的方法保存下来，因此，在变换完成后，可以查询变换记录，从而反向了解该样本的变换过程，有助于分析原有系统的漏洞与缺陷。

如图9所示，为本发明实施例提出的一种负样本变换装置对应的结构示意图。

本发明实施例提供一种负样本变换装置，该装置包括：

确定模块901，用于通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值；所述第一负样本为所述数据流经过特征抽取形成的n维向量，n为正整数；所述行为集合中每个行为是一套对样本进行变换的规则；

变换模块902，用于通过所述第一行为中的变换规则，对所述第一负样本进行特征变换，并将所述第一负样本变换后的样本作为第二负样本；

处理模块903，用于将所述第二负样本输入预设的检测系统进行样本判别，若通过所述检测系统的样本判别，则将所述第二负样本添加到样本库。

可选的，所述确定模块901，具体用于：

所述确定模块901，还用于通过所述行为选择神经网络，确定所述第一行为的第一奖励值；

通过行为评价神经网络，确定所述第一行为的第二奖励值；

所述确定模块901，还用于根据所述行为选择神经网络输出的第二行为的第三奖励值，通过所述行为评价神经网络，确定所述第二行为的奖励现实值；所述第二行为是所述行为集合中任一行为；

可选的，所述处理模块903，还用于若所述第二负样本未通过所述预设检测系统的样本判别，且对所述第一负样本变换的次数未达到K次，则从所述行为集合中确定出第三行为；K为正整数；

通过所述第三行为，将所述第一负样本变换为第三负样本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种负样本变换方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述通过行为选择神经网络，确定数据流的第一负样本在行为集合中每个行为被选择的概率值，包括：

3.如权利要求1所述的方法，其特征在于，所述通过所述行为选择神经网络，根据所述行为集合中每个行为被选择的概率值，确定所述行为集合中的第一行为，包括：

4.如权利要求1所述的方法，其特征在于，还包括：

所述行为集合中每个行为被选择的概率值是根据所述行为选择神经网络的第一参数值确定的；

通过行为评价神经网络，确定所述第一行为的第二奖励值；

5.如权利要求4所述的方法，其特征在于，更新所述第一参数值之前，还包括：

6.如权利要求1-5任一所述的方法，其特征在于，还包括：

若所述第二负样本未通过所述预设检测系统的样本判别，且对所述第一负样本变换的次数未达到K次，则从所述行为集合中确定出第三行为；K为正整数；

通过所述第三行为，将所述第一负样本变换为第三负样本。

7.一种负样本变换装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述确定模块，具体用于：

9.如权利要求7所述的装置，其特征在于，所述确定模块，具体用于：

10.如权利要求7所述的装置，其特征在于，

通过行为评价神经网络，确定所述第一行为的第二奖励值；

11.如权利要求10所述的装置，其特征在于，

12.如权利要求7-11任一所述的装置，其特征在于，

所述处理模块，还用于若所述第二负样本未通过所述预设检测系统的样本判别，且对所述第一负样本变换的次数未达到K次，则从所述行为集合中确定出第三行为；K为正整数；

通过所述第三行为，将所述第一负样本变换为第三负样本。