CN112733140B

CN112733140B - 一种针对模型倾斜攻击的检测方法及系统

Info

Publication number: CN112733140B
Application number: CN202011605328.8A
Authority: CN
Inventors: 刘胜; 梁淑云; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-12-22
Anticipated expiration: 2040-12-28
Also published as: CN112733140A

Abstract

本发明一种针对模型倾斜攻击的检测方法及系统，包括以下步骤：步骤S1，获取被篡改的训练数据集data11,测试数据集data22；步骤S2，对数据集样本进行分词处理，得到N维的样本数据特征向量V；步骤S3，对N维的样本数据特征向量V进行编码，生成样本指纹；步骤S4，对所得到的指纹进行相似度匹配，得到相似度高的样本集即为篡改数据。本发明所提供的一种针对存在大量相似文本的训练数据导致模型分类产生倾斜的攻击方式的检测方法，通过人为修改样本数据，保证样本数据存在大量重复，样本数据更准确，基于指纹相似度匹配可快速识别。另外，本发明所提供的检测方法还可应用在模型反馈机制武器化的检测上，通过对海量反馈信息进行相似度匹配从而找出恶意反馈内容。

Description

一种针对模型倾斜攻击的检测方法及系统

技术领域

本发明涉及数据安全技术领域，具体来说是一种针对模型倾斜攻击的检测方法及系统。

背景技术

随着网络、超级计算、大数据、云服务等技术的快速发展，人工智能进入了崛起并迅猛发展的新阶段。而由人工智能引领的新一轮的科技变革，正在对社会进步、经济发展等方面产生重大且深远的影响。

然而，科技往往是一把“双刃剑”，随着人工智能的应用发展，其安全问题也渐渐凸显出来。其中，数据安全是基础，也是人工智能安全问题的重中之重。

训练数据污染又被称为数据投毒攻击，通过在训练数据里加入伪装数据、恶意样本、修改训练数据的分布等手段来破坏训练数据的完整性，从而导致训练的模型出现决策上的偏差。一般数据投毒有两种方式：一种是模型倾斜，通过污染训练数据来改变模型的分类边界，如通过模型倾斜攻击来欺骗分类器将特定的恶意邮件标记为善意的。另一种是反馈武器化，攻击者通过滥用反馈机制来操纵系统使其将善意的内容错分类为恶意内容，或者将恶意内容错分为善意内容。

同行之间为了市场竞争或打击报复，常采用恶意评价的方式降低对手商店的排名。如果采用存在恶意评价的数据进行模型训练，训练后的模型则无法正确分类。

在用户评价数据中，如果是真实评价，数据之间差异较大，相似度低。反之，恶意评价，由于采用机器操作，存在恶意评价相似度高的情况。针对该问题，申请号为202010419722.6公开的了一种样本识别模型训练方法、恶意样本提取方法及装置，包括：获取训练文本数据；根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到第二词汇对应的词向量和字符向量；将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，进而得到所述目标训练语句的序列表示向量；将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型，使得样本识别模型可以较为全面地、准确地检测恶意样本。虽然该模型一定程度能够识别恶意样本，但是该方法计算量大，耗时长，不适用海量数据。

发明内容

本发明所要解决的技术问题在于提供一种计算量小且适合大数据量的针对模型倾斜攻击的检测方法。

本发明通过以下技术手段实现解决上述技术问题的：

一种针对模型倾斜攻击的检测方法，包括以下步骤：

步骤S1，获取被篡改的训练数据集data11,测试数据集data22；

步骤S2，对数据集样本进行分词处理，得到N维的样本数据特征向量V；

步骤S3，对N维的样本数据特征向量V进行编码，生成样本指纹；

步骤S4，对所得到的指纹进行相似度匹配，得到相似度高的样本集即为篡改数据。

本发明所提供的一种针对存在大量相似文本的训练数据导致模型分类产生倾斜的攻击方式的检测方法，通过人为修改样本数据，保证样本数据存在大量重复，样本数据更准确，基于指纹相似度匹配可快速识别。另外，本发明所提供的检测方法还可应用在模型反馈机制武器化的检测上，通过对海量反馈信息进行相似度匹配从而找出恶意反馈内容。

进一步的，所述步骤S1中训练数据集data11,测试数据集data22具体获取方式为：

步骤S11，获取正常数据样本，并按3：1的比例划分出训练集data1、测试集 data2；

步骤S12，扰乱数据划分，取一定量的训练样本，进行复制、替换测试样本对应数量的样本。

进一步的，所述步骤S3中编码的具体方法：

使用SimHash算法对数据集样本进行编码：

1)一个N维的样本特征向量V，对每个特征加权，输出一个C位的二进制签名S；

2)初始化一个C维的特征向量Q，初始值为0，C位二进制签名S为0；

3)向量V的每个特征，使用hash算法计算出一个C位的散列值H；

4)对任意i∈[1,C]，若H的第i位为1，则Q的第i维加盖特征的权重，否则减；

5)若最终Q的第i维元素大于0，则S的第i维为1，否则为0；

6)最终C维的二进制签名S就是该样本数据的二进制签名，即样本指纹。

进一步的，所述步骤S4中样本指纹相似度计算的具体方法为：采用分桶的方法计算样本指纹的相似度：

1)将所得到样本指纹二进制串A划分4个部分A₁,A₂,A₃,A₄，每个部分标记为 K-V格式，其中，K是其中一个部分，V是剩下3个部分；对每一个部分都做一次 K；

2)对每一个输入的二进制串，划分成4个部分，与相应部分的K进行精确匹配，如果有一个相等，则该两个二进制串相似。

本发明还提供一种针对模型倾斜攻击的检测系统，包括以下步骤：

数据获取模块，获取被篡改的训练数据集data11,测试数据集data22；

分词处理模块，对数据集样本进行分词处理，得到N维的样本数据特征向量V；

编码模块，对N维的样本数据特征向量V进行编码，生成样本指纹；

相似度匹配模块，对所得到的指纹进行相似度匹配，得到相似度高的样本集即为篡改数据。

进一步的，所述数据获取模块中训练数据集data11,测试数据集data22具体获取方式为：

进一步的，所述编码模块编码的具体方法：

使用SimHash算法对数据集样本进行编码：

3)向量V的每个特征，使用hash算法计算出一个C位的散列值H；

5)若最终Q的第i维元素大于0，则S的第i维为1，否则为0；

进一步的，所述相似度匹配模块中样本指纹相似度计算的具体方法为：采用分桶的方法计算样本指纹的相似度：

本发明还提供一种处理设备，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的方法。

本发明的优点在于：

本发明基于minhash算法能够极大程度的降低计算成本，分桶方法能更加普适于海量样本的相似度计算。

附图说明

图1为本发明实施例中检测方法的流程图；

图2为本发明实施例中检测方法步骤1的样本数据获取方法流程图；

图3为本发明实施例中检测方法步骤3中simhash算法流程图；

图4为本发明实施例中检测方法步骤4中simhash算法示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供一种针对模型倾斜攻击的检测方法，包括以下步骤：

步骤S1，获取被篡改的训练数据集data11,测试数据集data22；

为了便于说明及理解，这里使用的篡改方式如下：

步骤S11，获取正常数据样本，并按3：1的划分比例划分出训练集、测试集 data1,data2。

步骤S12，扰乱数据划分。取一定量的训练样本，进行复制、替换测试样本种对应数量的样本。其过程如下图2所示。

步骤S2，对数据集样本进行分词处理，得到N维的样本数据特征向量V；如采用jieba之类的分词器。

SimHash算法是Google在2007发表的一种生成指纹的算法，一般被应用在亿级的网页去重中，是局部敏感哈希算法的一种。其主要思想是降维，j将一个网页映射成64 或32位，再通过计算两个向量的Hamming Distance来确定两个网页是否重复或者高度相似。

其中，Hamming Distance称为汉明距离，在信息论中，两个等长字符串之间的汉明距离对应位置的不同字符的个数。也就是说，它就是将一个字符串变成另外一个字符串所需要替换的字符个数。例如：11001101与11000001之间的汉明距离是2。所以，通过比较多个文本的SimHash值的汉明距离，可以获取它们的相似度。

本实施例中使用SimHash算法对数据集样本进行编码的具体过程为，如图3所示：

3)向量V的每个特征，使用hash算法计算出一个C位的散列值H；

5)若最终Q的第i维元素大于0，则S的第i维为1，否则为0；

在计算得到签名S之后，再计算两个签名的汉明距离，汉明距离是这俩个签名异或后1的个数。一般地，对于64位的simhash，汉明距离在3及3以内的都可以认为相似度比较高。

为了能更加普适于海量样本的相似度计算，这里使用分桶的思路来计算签名相似性。具体过程如下，如图4所示：

1)将所得到的64位的二进制串A划分4个部分A₁,A₂,A₃,A₄，每个部分16位，标记为K-V格式，其中，K是其中一个部分，V是剩下3个部分。对每一个部分都做一次K；

2)对每一个输入的二进制串，划分成4个部分，与相应部分的16位K进行精确匹配，如果有一个相等，则这两个二进制串相似。

如以下两段文本数据，使用simhash计算过程如下：

文本1：这是一条恶意评论，注意！

文本2：这是一条恶意评论，请注意！

1)对文本进行分词，得到分词后的结果及权重如下：

文本1：这是，一条，恶意，评论，,，,注意，！

文本2：这是，一条，恶意，评论，请，,，,注意，！

2)计算hash值，通过hash算法将分词后的特征进行hash值计算，如”这是” 的hash值是(010001，3)；

3)加权，对2)中的结果进行加权计算，(010001，3)经过计算之后的结果为(-3 3 -3 -3 -3 3)；

4)合并，把上述过程得到的序列按位置进行累加，变成一个序列串，得到的结果分别为-1 -15 -3 7 -3 17和1 -13 -5 5 -1 19；

5)降维，序列串上对应位置的数字为正，标记为1，否则标记为0.得到的结果为000101和100101，通过计算其hamming distance可知，两个文本的相似度为1，属于高度相似样本。

剩下3个部分；对每一个部分都做一次K；

为了便于说明及理解，这里使用的篡改方式如下：

分词处理模块，对数据集样本进行分词处理，得到N维的样本数据特征向量V；如采用jieba之类的分词器。

3)向量V的每个特征，使用hash算法计算出一个C位的散列值H；

5)若最终Q的第i维元素大于0，则S的第i维为1，否则为0；

3)将所得到的64位的二进制串A划分4个部分A₁,A₂,A₃,A₄，每个部分16位，标记为K-V格式，其中，K是其中一个部分，V是剩下3个部分。对每一个部分都做一次K；

4)对每一个输入的二进制串，划分成4个部分，与相应部分的16位K进行精确匹配，如果有一个相等，则这两个二进制串相似。

如以下两段文本数据，使用simhash计算过程如下：

文本1：这是一条恶意评论，注意！

文本2：这是一条恶意评论，请注意！

6)对文本进行分词，得到分词后的结果及权重如下：

文本1：这是，一条，恶意，评论，,，,注意，！

文本2：这是，一条，恶意，评论，请，,，,注意，！

7)计算hash值，通过hash算法将分词后的特征进行hash值计算，如”这是” 的hash值是(010001，3)；

8)加权，对2)中的结果进行加权计算，(010001，3)经过计算之后的结果为(-3 3 -3 -3 -3 3)；

9)合并，把上述过程得到的序列按位置进行累加，变成一个序列串，得到的结果分别为-1 -15 -3 7 -3 17和1 -13 -5 5 -1 19；

10)降维，序列串上对应位置的数字为正，标记为1，否则标记为0.得到的结果为000101和100101，通过计算其hamming distance可知，两个文本的相似度为1，属于高度相似样本。

剩下3个部分；对每一个部分都做一次K；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种针对模型倾斜攻击的检测方法，其特征在于：包括以下步骤：

步骤S1，获取被篡改的训练数据集data11,测试数据集data22；

步骤S2，对数据集样本进行分词处理，得到维的样本数据特征向量/>；

步骤S3，对维的样本数据特征向量/>进行编码，生成样本指纹；

步骤S4，对所得到的指纹进行相似度匹配，得到相似度高的样本集即为篡改数据；

所述步骤S4中样本指纹相似度计算的具体方法为：采用分桶的方法计算样本指纹的相似度：

1）将所得到样本指纹二进制串划分4个部分/>，每个部分标记为/>格式，其中，/>是其中一个部分，/>是剩下3个部分；对每一个部分都做一次/>；

2）对每一个输入的二进制串，划分成4个部分，与相应部分的进行精确匹配，如果有一个相等，则该两个二进制串相似。

2.根据权利要求1所述的一种针对模型倾斜攻击的检测方法，其特征在于：所述步骤S1中训练数据集data11,测试数据集data22具体获取方式为：

步骤S11，获取正常数据样本，并按3：1的比例划分出训练集data1、测试集data2；

3.根据权利要求1所述的一种针对模型倾斜攻击的检测方法，其特征在于：所述步骤S3中编码的具体方法：

使用SimHash算法对数据集样本进行编码：

1）一个维的样本特征向量/>，对每个特征加权，输出一个/>位的二进制签名/>；

2）初始化一个维的特征向量/>，初始值为0，/>位二进制签名/>为0；

3）向量的每个特征，使用hash算法计算出一个/>位的散列值/>；

4）对任意，若/>的第/>位为1，则/>的第/>维加盖特征的权重，否则减；

5）若最终的第/>维元素大于0，则/>的第/>维为1，否则为0；

6）最终维的二进制签名/>就是该样本数据的二进制签名，即样本指纹。

4.一种针对模型倾斜攻击的检测系统，其特征在于：包括以下步骤：

分词处理模块，对数据集样本进行分词处理，得到维的样本数据特征向量/>；

编码模块，对维的样本数据特征向量/>进行编码，生成样本指纹；

相似度匹配模块，对所得到的指纹进行相似度匹配，得到相似度高的样本集即为篡改数据；

所述相似度匹配模块中样本指纹相似度计算的具体方法为：采用分桶的方法计算样本指纹的相似度：

5.根据权利要求4所述的一种针对模型倾斜攻击的检测系统，其特征在于：所述数据获取模块中训练数据集data11,测试数据集data22具体获取方式为：

6.根据权利要求4所述的一种针对模型倾斜攻击的检测系统，其特征在于：所述编码模块编码的具体方法：

使用SimHash算法对数据集样本进行编码：

5）若最终的第/>维元素大于0，则/>的第/>维为1，否则为0；

7.一种处理设备，其特征在于，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。