CN113468524A

CN113468524A - 基于rasp的机器学习模型安全检测方法

Info

Publication number: CN113468524A
Application number: CN202110557257.7A
Authority: CN
Inventors: 王劲松; 张锐钊; 张洪豪; 卜超
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-10-01
Anticipated expiration: 2041-05-21
Also published as: CN113468524B

Abstract

一种基于RASP的机器学习模型安全检测方法。其包括构建规则库；将规则表达式与待检测的机器学习模型文件进行匹配；构建监测环境；运行待检测的机器学习模型文件并检测；得到特征数据；建立恶意代码检测模型并输出预测结果；更新恶意代码样本和更新规则库等步骤。本发明效果：能够提供安全可信的机器学习模型运行环境，解决在运行机器学习模型文件时的数据安全问题，并能够在攻击发生前拦截，本方法适用性更广，实用性更强，效率更高，资源消耗小。

Description

基于RASP的机器学习模型安全检测方法

技术领域

本发明属于恶意代码检测技术领域，特别是涉及一种基于RASP的机器学习模型安全检测方法。

背景技术

随着时代的不断发展，越来越多的新技术融入了我们的日期生活，因此已经进入了大数据时代。目前大数据已在许多决策和预测领域中发挥了关键作用，例如推荐系统、业务分析等。收集、挖掘大数据以获取重要信息可以为世界经济和社会创造巨大价值，因此相关部门都对大数据的巨大潜力产生了兴趣。同时大数据也推动人工智能的逐渐成熟，因为大数据的一个最大应用就是用于人工智能，现在人工智能在应用上有很多突破。而在人工智能中最重要的是机器学习，但是至今尚未发现针对机器学习模型执行的安全防御研究。

目前的安全检测方法主要包括以下几种：

签名检测方法：目前大多数检测主要是基于特征码的检测技术、基于基因码的检测技术、启发式检测等，但它们都属于基于签名的检测。这类检测一般使用预先建立的数据库去扫描检测文件。

形式化验证检测方法：基于严格的数学基础，对计算机硬件和软件系统进行描述，开发和验证以证明程序是安全的。

机器学习的检测方法：主要分为动态和静态，静态的检测集中在从可移植的可执行文件(PE)的各种字段、段内容中获取特征。动态的检测依靠第三方的虚拟机沙箱的报告，即从报告中获取程序动态运行的信息，进而得到相关特征。

但这些传统的检测方法难以跟上时代的发展。攻击者可以很容易利用现有工具和框架躲避检测。

形式化验证检测方法过程过于复杂繁琐，且效率较低。

机器学习的检测方法很少有针对一些场景和使用环境。静态检测在实际使用中效果一般。动态的检测往往又依靠第三方的虚拟机沙箱，资源消耗极大。

发明内容

为了解决上述问题，本发明的目的在于提供了一种基于RASP的机器学习模型安全检测方法。

为了达到上述目的，本发明提供的基于RASP的机器学习模型安全检测方法包括按顺序进行的下列步骤：

1)收集已有的多个恶意代码样本，对所有恶意代码样本进行分类、对比并查找出相同的字符和数字，然后根据字符和数字出现的规律按照规则转换为规则表达式，之后将规则表达式进行存储而构建成用于静态检测机器学习模型文件的规则库；

2)将上述规则库中的规则表达式与待检测的机器学习模型文件的内容进行匹配，如果匹配成功，则判定该机器学习模型文件为恶意文件并结束运行，否则进入下一步骤；设置本步骤的目的是过滤掉一部分恶意文件，以避免浪费更多资源，由此完成静态检测过程；

3)建立监听集合，从上述多个恶意代码样本中提取出敏感函数和敏感类作为监听对象并记录到监听集合中；设置处理中心，选择检测方法以及各个危险等级的处理策略，并配置白名单或黑名单，建立参数规则库；创建监听函数，在监听集合中插入监听函数而形成监听点，设置执行虚拟机的跟踪功能而对待检测的机器学习模型文件进行跟踪，获得的跟踪数据由处理中心记录到日志文件中，由此构建成监测环境；

4)运行待检测的机器学习模型文件并检测，如果待检测的机器学习模型文件中调用了上述监听集合中插入有监听函数的敏感函数或敏感类，监听函数将收集监听数据并转发至处理中心，由处理中心进行处理；

5)待检测的机器学习模型文件F运行结束后，对由步骤3)获得的跟踪数据和步骤4)获得的监听数据进行处理，得到特征数据；

6)建立恶意代码检测模型，然后将上述特征数据输入恶意代码检测模型中进行预测，最后由恶意代码检测模型输出预测结果；

7)如果恶意代码检测模型输出的预测结果是待检测的机器学习模型文件为恶意文件，更新恶意代码样本，同时更新规则库，结束运行。

在步骤1)中，所述收集已有的多个恶意代码样本，对所有恶意代码样本进行分类、对比并查找出相同的字符和数字，然后根据字符和数字出现的规律按照规则转换为规则表达式，之后将规则表达式进行存储而构建成用于静态检测机器学习模型文件的规则库的具体步骤如下：

101)收集已有的多个恶意代码样本S_m；

102)将上述多个恶意代码样本S_m按代码相似或功能相似的原则进行分类，然后对比同一类中的恶意代码样本S_m，寻找出该类每个恶意代码样本S_m中都存在的一些字符和数字L_m或者在同一位置出现的有限的字符和数字L_m并记录；

103)根据字符和数字L_m出现的规律按照规则转换为程序可解析的规则表达式L_Exp；

104)将所有规则表达式L_Exp进行存储而构建成规则库D_L。

在步骤2)中，所述将上述规则库中的规则表达式与待检测的机器学习模型文件的内容进行匹配的具体步骤如下：

201)加载待检测的机器学习模型文件F；

202)从上述规则库D_L中顺序加载一个规则表达式L_Exp；

203)使用该规则表达式L_Exp不回溯地搜索匹配待检测的机器学习模型文件F的整个内容；

204)如果待检测的机器学习模型文件F中存在符合该规则表达式L_Exp的逻辑内容，则结束匹配过程，否则重复步骤202)—步骤204)，直到所有规则表达式L_Exp匹配一遍。

在步骤3)中，所述建立监听集合，从上述多个恶意代码样本中提取出敏感函数和敏感类作为监听对象并记录到监听集合中；设置处理中心，选择检测方法以及各个危险等级的处理策略，并配置白名单或黑名单，建立参数规则库；创建监听函数，在监听集合中插入监听函数而形成监听点，设置执行虚拟机的跟踪功能而对待检测的机器学习模型文件进行跟踪，获得的跟踪数据由处理中心记录到日志文件中，由此构建成监测环境的具体步骤如下：

301)建立监听集合，从多个恶意代码样本S_m中提取出涉及网络、操作系统调用、操作系统命令执行和操作系统进程的所需监听的敏感函数和敏感类作为监听对象，然后找到监听对象所在的代码文件，逐条记录监听对象及对应的代码文件到监听集合中；

302)根据系统部署场景和安全要求等级，选择处理中心Server的检测方法以及各个危险等级的处理策略；如果选择名单检测方法，需配置白名单或黑名单，然后在上述监听集合中选择所需监听的敏感函数或敏感类，之后将敏感函数或敏感类名称放入白名单或黑名单中，并设置对应的危险等级和默认危险等级；如果选择规则检测方法，需建立参数规则库D_P，然后通过对多个恶意代码样本S_m的分类和对比，将恶意代码样本S_m的参数出现的规律按照规则转换为参数规则表达式，之后将参数规则表达式存储到参数规则库D_P中，并设置对应的危险等级；

303)创建监听函数L_f；

304)在监听集合中插入监听函数L_f而形成监听点；

305)设置执行虚拟机的跟踪功能而对待检测的机器学习模型文件F进行跟踪，并将跟踪数据转发给处理中心Server，然后由处理中心Server记录到日志文件中。

在步骤304)中，所述在监听集合中插入监听函数L_f而形成监听点的具体步骤如下：

30401)从监听集合中获取一条记录；

30402)根据记录找到对应的代码文件，并判断该记录是敏感函数还是敏感类；

30403)如果是敏感函数，则在对应的代码文件中敏感函数的入口处和结束前插入监听函数L_f，然后将函数输入值或函数返回值、敏感函数和监听点名称、数据类型一起设置为监听函数L_f的输入；

30404)如果是敏感类，则在对应的代码文件的敏感类中具有最高优先级的函数中插入监听函数L_f，或在对应的代码文件的敏感类中各个函数入口处和结束前插入监听函数L_f，然后将函数输入值或函数返回值、敏感类和监听点名称、数据类型一起设置为监听函数L_f的输入；

30405)重复步骤30401)-步骤30404)，直至将监听集合中所有记录都判断一遍。

在步骤4)中，所述运行待检测的机器学习模型文件并检测，如果待检测的机器学习模型文件F中调用了上述监听集合中插入有监听函数L_f的敏感函数或敏感类，监听函数L_f将收集监听数据并转发至处理中心，由处理中心进行处理的具体步骤如下：

401)当待检测的机器学习模型文件F运行中调用了监听集合中插入有监听函数L_f的敏感函数或敏感类时，监听函数L_f将收集监听数据；

402)监听函数L_f将收集到的监听数据发送给处理中心Server；

403)处理中心Server收到监听数据后，根据步骤3)中已选择的检测方法进行名单检测和规则检测；

404)在进行名单检测时，将监听数据中的敏感函数或敏感类名称与白名单或黑名单进行对比；在使用黑名单的情况下，如果敏感函数或敏感类名称出现在黑名单中，判定该机器学习模型文件F为恶意，返回对应的危险等级作为检测结果，否则返回默认危险等级，之后进行下一步骤；在使用白名单的情况下，如果敏感函数或敏感类名称出现在白名单中，判定该机器学习模型文件F为非恶意，直接进行下一步骤；

405)在进行规则检测时，从参数规则库D_P中顺序加载一条参数规则表达式，然后将监听数据中敏感函数或敏感类的输入数据与参数规则表达式进行匹配，如果匹配成功，判定该机器学习模型文件F为恶意文件，返回对应的危险等级作为检测结果；否则加载下一条参数规则表达式，直至所有参数规则表达式匹配一遍；

406)根据上述检测结果及302)配置的各危险等级的处理策略进行处理；如危险等级为低危，则显示警告信息，如为高危，则发起中断程序请求；

407)处理中心Server记录此次收到的监听数据、检测过程、检测结果和处理结果到日志文件中；

408)如果收到中断程序请求，则保存当前信息，并结束运行。

在步骤5)中，所述待检测的机器学习模型文件运行结束后，对由步骤3)获得的跟踪数据和步骤4)获得的监听数据进行处理，得到特征数据的具体步骤如下：

501)读取处理中心Server日志文件中由步骤3)获得的跟踪数据和步骤4)获得的监听数据；

502)利用上述跟踪数据和监听数据计算出运行中所调用的各类敏感函数和敏感类的次数、运行时操作码集合的信息熵以及统计量、运行时操作码的所有参数的信息熵，得到特征数据X_P。

在步骤6)中，所述建立恶意代码检测模型的具体步骤如下：

601)收集多个良性代码样本S_b，并与多个恶意代码样本S_m共同组成样本集S；

602)利用样本集S创建数据集DS；

603)将数据集DS按比例随机分成训练集和测试集，利用训练集对多个机器学习模型进行训练，然后使用测试集测试各机器学习模型的效果，取测试结果最好即准确率最高的机器学习模型作为恶意代码检测模型Model_D并保存。

在步骤602)中，所述的利用样本集S创建数据集DS的具体步骤如下：

60201)从样本集S中选取一个样本并运行，记录运行时的跟踪数据和监听数据；

60202)利用上述跟踪数据和监听数据计算出运行中所调用的各类敏感函数和敏感类的次数、运行时操作码集合的信息熵以及统计量、运行时操作码的所有参数的信息熵，得到特征数据X_P；

60203)根据样本是属于恶意代码样本S_m还是属于良性代码样本S_b，对其特征数据X_P添加标签，1为恶意，0为非恶意，由此获得一条训练数据X_T；

60204)重复步骤60201)—步骤60203)，获得多条训练数据X_T；由所有训练数据X_T构成数据集DS。

本发明提供的基于RASP的机器学习模型安全检测方法具有如下有益效果：能够提供安全可信的机器学习模型运行环境，解决在运行机器学习模型文件时的数据安全问题，并能够在攻击发生前拦截，本方法适用性更广，实用性更强，效率更高，资源消耗小。

附图说明

图1为本发明提供的基于RASP的机器学习模型安全检测方法流程图。

图2为本发明中静态检测过程流程图。

图3为本发明中运行中检测过程流程图。

图4为本发明中创建数据集过程流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1-图3所示，本发明提供的基于RASP的机器学习模型安全检测方法包括按顺序进行的下列步骤：

具体步骤如下：

101)收集已有的多个恶意代码样本S_m；

103)根据字符和数字L_m出现的规律按照规则转换为程序可解析的规则表达式L_Exp；；

104)将所有规则表达式L_Exp进行存储而构建成规则库D_L。

如图2所示，具体步骤如下：

201)加载待检测的机器学习模型文件F；

202)从上述规则库D_L中顺序加载一个规则表达式L_Exp；

具体步骤如下：

303)创建监听函数L_f；

304)在监听集合中插入监听函数L_f而形成监听点；

在步骤304)中，所述的在监听集合中插入监听函数L_f而形成监听点的具体步骤如下：

30401)从监听集合中获取一条记录；

4)运行待检测的机器学习模型文件F并检测，如图3所示，如果待检测的机器学习模型文件F中调用了上述监听集合中插入有监听函数L_f的敏感函数或敏感类，监听函数L_f将收集监听数据并转发至处理中心Server，由处理中心Server进行处理；

具体步骤如下：

402)监听函数L_f将收集到的监听数据发送给处理中心Server；

408)如果收到中断程序请求，则保存当前信息，并结束运行；

具体步骤如下：

6)建立恶意代码检测模型Model_D，然后将上述特征数据X_P输入恶意代码检测模型Model_D中进行预测，最后由恶意代码检测模型Model_D输出预测结果；

所述的建立恶意代码检测模型Model_D的具体步骤如下：

602)利用样本集S创建数据集DS；

7)如果恶意代码检测模型Model_D输出的预测结果是待检测的机器学习模型文件F为恶意文件，更新恶意代码样本S_m，同时更新规则库D_L，结束运行。

Claims

1.一种基于RASP的机器学习模型安全检测方法，其特征在于：所述的基于RASP的机器学习模型安全检测方法包括按顺序进行的下列步骤：

2)将上述规则库中的规则表达式与待检测的机器学习模型文件的内容进行匹配，如果匹配成功，则判定该机器学习模型文件为恶意文件并结束运行，否则进入下一步骤；

5)待检测的机器学习模型文件运行结束后，对由步骤3)获得的跟踪数据和步骤4)获得的监听数据进行处理，得到特征数据；

2.根据权利要求1所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤1)中，所述收集已有的多个恶意代码样本，对所有恶意代码样本进行分类、对比并查找出相同的字符和数字，然后根据字符和数字出现的规律按照规则转换为规则表达式，之后将规则表达式进行存储而构建成用于静态检测机器学习模型文件的规则库的具体步骤如下：

101)收集已有的多个恶意代码样本S_m；

104)将所有规则表达式L_Exp进行存储而构建成规则库D_L。

3.根据权利要求1所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤2)中，所述将上述规则库中的规则表达式与待检测的机器学习模型文件的内容进行匹配的具体步骤如下：

201)加载待检测的机器学习模型文件F；

202)从上述规则库D_L中顺序加载一个规则表达式L_Exp；

4.根据权利要求1所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤3)中，所述建立监听集合，从上述多个恶意代码样本中提取出敏感函数和敏感类作为监听对象并记录到监听集合中；设置处理中心，选择检测方法以及各个危险等级的处理策略，并配置白名单或黑名单，建立参数规则库；创建监听函数，在监听集合中插入监听函数而形成监听点，设置执行虚拟机的跟踪功能而对待检测的机器学习模型文件进行跟踪，获得的跟踪数据由处理中心记录到日志文件中，由此构建成监测环境的具体步骤如下：

303)创建监听函数L_f；

304)在监听集合中插入监听函数L_f而形成监听点；

5.根据权利要求4所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤304)中，所述在监听集合中插入监听函数L_f而形成监听点的具体步骤如下：

30401)从监听集合中获取一条记录；

6.根据权利要求1所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤4)中，所述运行待检测的机器学习模型文件并检测，如果待检测的机器学习模型文件F中调用了上述监听集合中插入有监听函数L_f的敏感函数或敏感类，监听函数L_f将收集监听数据并转发至处理中心，由处理中心进行处理的具体步骤如下：

402)监听函数L_f将收集到的监听数据发送给处理中心Server；

408)如果收到中断程序请求，则保存当前信息，并结束运行。

7.根据权利要求1所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤5)中，所述待检测的机器学习模型文件运行结束后，对由步骤3)获得的跟踪数据和步骤4)获得的监听数据进行处理，得到特征数据的具体步骤如下：

8.根据权利要求1所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤6)中，所述建立恶意代码检测模型的具体步骤如下：

602)利用样本集S创建数据集DS；

9.根据权利要求8所述的基于RASP的机器学习模型安全检测方法，其特征在于：在步骤602)中，所述的利用样本集S创建数据集DS的具体步骤如下：