CN117668237B

CN117668237B - 用于智能模型训练的样本数据处理方法、系统及智能模型

Info

Publication number: CN117668237B
Application number: CN202410115570.9A
Authority: CN
Inventors: 万振华
Original assignee: Seczone Technology Co Ltd
Current assignee: Seczone Technology Co Ltd
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-05-03
Anticipated expiration: 2044-01-29
Also published as: CN117668237A

Abstract

本发明公开一种用于智能模型训练的样本数据处理方法、系统及智能模型，其中该方法包括：提取样本数据集中的特征词，以生成特征词库；基于特征词库扫描样本数据集，并提取出所有的第一特征语句；从每一第一特征语句中提取与特征词相匹配的关键变量，以获得特征变量库；基于特征变量库再次扫描样本数据集，并提取出所有的第二特征语句；对第一特征语句和第二特征语句取并集，以获得包括若干特征语句的特征语句集；生成与每一特征语句相对应的文本向量。本发明样本数据处理方法，能更准确地捕捉到与目标样本相关的关键信息，这种方式提高了数据处理的针对性和效率，从而提高智能模型预测的准确性和效率，并能提升智能模型的跨数据集的泛化性。

Description

用于智能模型训练的样本数据处理方法、系统及智能模型

技术领域

本发明涉及智能模型构建技术领域，尤其涉及一种用于智能模型训练的样本数据处理方法及智能模型。

背景技术

在当今的软件工程领域，软件质量的检测与保证是一个核心议题。随着软件系统变得越来越复杂，传统的软件测试方法逐渐显得力不从心。为了提高测试效率和准确性，智能模型的引入成为了一种流行趋势。这些模型利用机器学习和人工智能技术，对软件代码、文档和用户数据进行深入分析，以识别潜在的漏洞。

当前的软件检测中，智能模型的应用面临着几个关键问题。其中最重要的是，直接将样本数据转换为数值后导入智能模型，而对于模型来说，理解和处理软件代码和相关文档中的专业术语和上下文信息是一个挑战，因为这些信息通常包含大量专业性强且复杂的技术术语。因此，目前的智能模型检测软件代码的准确率和跨数据集的泛化性一直不够理想，这就导致通常还要人工辅助参与。

发明内容

本发明的目的是提供一种可有效提升智能模型预测准确性的用于智能模型训练的样本数据处理方法及智能模型。

为了实现上述目的，本发明公开了一种用于智能模型训练的样本数据处理方法，其包括：

根据标注信息提取样本数据集中的特征词，以生成包括若干所述特征词的特征词库；

基于所述特征词库扫描所述样本数据集，并提取出所有的第一特征语句，每一所述第一特征语句包含有至少一个所述特征词；

从每一所述第一特征语句中提取与所述特征词相匹配的关键变量，以获得包括所有所述关键变量的特征变量库；

基于所述特征变量库再次扫描所述样本数据集，并提取出所有的第二特征语句，每一所述第二特征语句包含有至少一个所述关键变量；

对所述第一特征语句和所述第二特征语句取并集，以获得包括若干特征语句的特征语句集；

根据预设转换规则将所述特征语句集中的每一特征语句转换成数字序列，以生成与每一所述特征语句相对应的文本向量，所述文本向量用于导入所述智能模型，以对所述智能模型进行训练。

较佳地，所述特征词库的生成方式包括：

根据标注信息对提取到的所述特征词进行分类统计；

计算每一所述特征词与所述样本数据集中所有所述特征词的比值，以获得每一所述特征词在所述样本数据集中出现的第一频率PA；

计算每一所述特征词与其所在类别中的所有所述特征词的比值，以获得每一所述特征词在其所在类别出现的第二频率PB；

通过下述公式一计算每一所述特征词的特征权重W；

W=|PA-PB|/PA（公式一）

将不同类别中相同的所述特征词的特征权重合并，以获得特征权重集；

将所述特征权重集中数值较大的若干所述特征权重所对应的特征词加入所述特征词库。

较佳地，所述样本数据集为代码段，基于所述特征词库扫描所述代码段前，还对所述代码段中的语句以行为标准进行分割，并去除每行代码中的注释信息和空行信息。

较佳地，所述智能模型为双向长短期记忆网络模型。

较佳地，生成所述文本向量的方法包括：

将所有的所述特征语句分成单词序列；

为每一所述单词分配一数值标识符，以生成包括有所有的所述数值标识符的字典；

基于所述字典，将每一所述特征语句转换为数字序列，以生成所述文本向量。

较佳地，所述样本数据集为包含有已知类型漏洞的代码段，所述智能模型用于对应用程序中的漏洞进行检查。

较佳地，所述智能模型中设置有若干并行运行的子模型，若干所述子模型分别用于检测不同类型的代码漏洞，检测当将所述文本向量导入所述智能模型时，每一所述子模型分别独立对所述文本向量进行处理。

本发明还公开一种智能模型，该智能模型基于如上所述的样本数据处理方法生成的所述文本向量训练而成。

本发明还公开一种样本数据处理系统，其包括：

一个或多个处理器；

存储器；

以及一个或多个程序，其中一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的样本数据处理方法的指令。

本发明还公开一种计算机可读存储介质，其包括计算机程序，所述计算机程序可被处理器执行以完成如上所述的样本数据处理方法。

与现有技术相比，本发明上述技术方案公开的样本数据处理方法，通过提取样本数据集的特征词生成特征词库，并通过基于特征词库和特征变量库的两轮扫描和特征语句提取，能更准确地捕捉到与目标样本相关的关键信息，这种方式提高了数据处理的针对性和效率。此外，通过将特征语句转换为数字序列生成文本向量，解决了将专业文本信息转换为智能模型可理解格式的问题。由此可知，上述样本数据处理方法可使得智能模型能够更有效地学习和理解样本数据的关键特征，从而提高智能模型预测的准确性和效率，并能提升智能模型的跨数据集的泛化性。

附图说明

图1为本发明实施例中样本数据处理框架图。

图2为本发明实施例中LSTM模型的框架结构图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

本实施例公开一种用于智能模型训练的样本数据处理方法，以用于对输入智能模型的训练样本数据进行处理，以达到提升智能模型的准确性和训练效率的目的。

如图1，本实施例中的样本数据处理方法包括如下步骤：

S1：根据标注信息提取样本数据集中的特征词，以生成包括若干特征词的特征词库。需要说明的是，对于样本数据集的标注，可通过标注程序进行自动化标注，或人工标注。

S2：基于特征词库扫描样本数据集，并提取出所有的第一特征语句，每一第一特征语句包含有至少一个特征词，也即，在扫描过程中，当某一语句中含有特征词库中的特征词时，将该语句作为第一特征语句提取。

S3：然后，从每一第一特征语句中提取与特征词相匹配的关键变量，以获得包括所有关键变量的特征变量库。样本数据集以软件代码为例，关键变量就是代表具有关键漏洞线索的变量，也可以称之为代码的污点。另外，对于某个代码样本，基于特征变量库逐行扫描时，如果某一语句中存储特征词，且特征词前面存在“=”，那么获取“=”前面的词作为关键变量。

S4：基于特征变量库再次扫描样本数据集，并提取出所有的第二特征语句，每一第二特征语句包含有至少一个关键变量。

S5：对第一特征语句和第二特征语句取并集，以获得包括若干特征语句的特征语句集；

S6：根据预设转换规则将特征语句集中的每一特征语句转换成数字序列，以生成与每一特征语句相对应的文本向量，文本向量用于导入智能模型，以对智能模型进行训练。也即，将文本向量导入智能模型，开始对智能模型进行训练。

在本实施例中，通过从标注信息中提取样本数据集的特征词并生成特征词库，接着，通过基于特征词库和特征变量库的两轮扫描和特征语句提取，能更准确地捕捉到与目标样本（例如软件代码）相关的关键信息。这种策略提高了数据处理的针对性和效率。

此外，通过将特征语句转换为数字序列生成文本向量，该方案解决了将专业文本信息转换为智能模型可理解格式的问题。这使得智能模型能够更有效地学习和理解样本数据的关键特征，从而提高智能模型预测的准确性和效率。

另一方面，以将智能模型用于软件检测为例，在恶意软件漏洞检测中，对操作码进行特征提取是一个关键步骤，分析人员可以通过分析操作码中与正常软件不同模式的特征片段与来识别恶意代码。常见的操作码特征提取方法包括N-gram方法、TFIDF方法、主成分分析（PCA）等。而使用N-gram方法提取特征图时，由于生成的矩阵数据大小不一且体量庞大，从而导致用CNN对特征图进行学习时，检测准确率低；

另外，软件的ASM文件内有汇编指令序列，汇编指令包含操作码、源操作数和目的操作数等参数，使用操作码频率提取方法对ASM文件进行提取时，可以获得较好的分类效果，但是特征提取阶段时间开销大，且样本数量的平衡性影响到了分类权重，少数类别的分类错误率较高。

针对这些问题，本实施例提出了一种基于特征权重的提取方法。该方法将样本数据集中的标注信息引入权重公式，得到了有监督的特征权重提取算法，以优化智能模型的准确率并提高智能模型在样本不均衡情况下的表现。

对此，本实施例中的特征词库的生成方式包括：

S10：根据标注信息对提取到的特征词进行分类统计。

S11：计算每一特征词与样本数据集中所有特征词的比值，以获得每一特征词在样本数据集中出现的第一频率PA。

S12：计算每一特征词与其所在类别中的所有特征词的比值，以获得每一特征词在其所在类别出现的第二频率PB。

S13：通过下述公式一计算每一特征词的特征权重W，某一特征词的特征权重越大，那么使用该特征词对样本数据集进行划分得到的纯度提升就越大。

W=|PA-PB|/PA（公式一）

S14：将不同类别中相同的特征词的特征权重合并，以获得特征权重集。例如，比如在类别A中，特征词m的权重为1，类别B中，特征词m的权重为2，则合并后，特征词m权重就是3。

S15：按照降序或升序对特征权重集中的特征权重进行排序，将特征权重集中数值较大的若干特征权重所对应的特征词加入特征词库。

另一方面，生成文本向量的方法包括：

S60：将所有的特征语句分成单词序列；

S61：为每一单词分配一数值标识符，以生成包括有所有的数值标识符的字典；

S62：基于字典，将每一特征语句转换为数字序列，以生成文本向量。

另一方面，当样本数据集为代码段时，基于特征词库扫描代码段前，还对代码段中的语句以行为标准进行分割，并去除每行代码中的注释信息和空行信息，以便于逐行扫描对特征词的提取。

下面以一用于软件漏洞检测的双向长短期记忆网络模型LSTM的构建为例，详细说明上述样本数据处理方法的具体执行过程。

1.获取样本数据集

样本数据集为NVD（NATIONAL VULNERABILITY DATABASE，NVD）发布的Java漏洞数据：Juliet，在此基础上还融合了一个漏洞数据集：benchmark，这两个数据集作为标准集进行训练和测试。在泛化性测试上，本实施例选用了经过自动标注的Java样本，来模拟真实代码场景，Juliet和benchmark作为标准集的样本分布如表1所示：

表1

2.漏洞特征提取

首先，对Java样本进行逐行扫描，去除注释和空行，然后对Java样本的语句进行识别，从而将Java样本表示为多个语句。

基于特征权重的筛选方法生成特征词库，针对多种典型的高危漏洞进行分析，并总结每种漏洞的特征词库。具体地，通过公式一计算每个特征词的PA和PB，然后计算特征权重W，得到权重高的特征词。这种筛选方法能够提高智能模型的鲁棒性，使得提取的特征词更加具有代表性和区分性。

根据以上原则生成的特征词库，部分特征词的特征权重从高到低如下表2、3、4所示，表2表示cwe89样本部分特征词的特征权重，表3表示cwe78样本部分特征词的特征权重，表4表示cwe327样本部分特征词的特征权重。

表2

表3

表4

以cwe89（SQL注入漏洞）为例，在得到特征词库后，特征语句的提取过程如下：

原始Java样本为：

1. response.setContentType("text/html;charset=UTF-8");

2. java.util.Map<String, String[]>map = request.getParameterMap();

3. String param = "";

4. String[] values = map.get("BenchmarkTest00538");

5. String bar = foo.doSomething(param);

6. String bar = thing.doSomething(param);

7. String sql = "INSERT INTO users (username, password) VALUES ('foo', '" + bar + "')";

8. int count = statement.executeUpdate(sql, new int[] {1, 2});

...

由于request、insert、into、statement、executeupdate等词均为cwe89中的特征词，因此编号2、7、8的Java语句被提取为第一特征语句。

然后，从编号2、7、8的Java语句中提取到的关键变量为map、sql、count，然后根据这些变量再次搜索原始Java样本，因此，编号2、4、7、8的Java语句被提取为第二特征语句。

对第一特征语句和第二特征语句取并集，获得的特征语句为编号2、4、7、8的Java语句：

“2. java.util.Map<String, String[]>map = request.getParameterMap();

4. String[] values = map.get("BenchmarkTest00538");

8. int count = statement.executeUpdate(sql, new int[] {1, 2});”

接着，对特征语句进行字典编码，采用截取补零的原则，标准化长度到1024，便得到了文本向量，如：23，167，9，167，876，13，……，21。

最后，将获得的文本向量导入LSTM，以对LSTM进行训练。

另一方面，当样本数据集为包含有已知类型漏洞的代码段时，由于待测的软件代码中往往存在多种漏洞，因此，样本数据集中一般也会含有多种类型的漏洞，这样，为提升智能模型检测的准确性，在智能模型中设置结合注意力机制的网络参数。也即，智能模型中设置有若干并行运行的子模型，若干子模型分别用于检测不同类型的代码漏洞，检测当将文本向量导入智能模型时，每一子模型分别独立对文本向量进行处理。

以上述LSTM的构建为例，其内设置有三个子模型，如图2，分别为cwe89、cwe78、cwe327，每个子模型专注检测一个漏洞，它们分别训练、协同工作，比传统规则引擎的训练要快出一个数量级。

对此，加入注意力机制的LSTM共包含四个主要的神经网络层：词嵌入层、LSTM层、注意力机制层和全连接层。在完成对样本数据集中的特征语句提取并获得文本向量后，在词嵌入层将每个文本向量映射到一个60维的实数向量，LSTM层将这些向量序列作为输入，通过两层双向LSTM单元处理，得到60维的输出向量。接下来，使用基于内容的注意力机制，对LSTM层的输出向量进行加权求和，得到一个固定长度的向量表示。最后，将这个向量传入全连接层进行分类。

综上，本发明公开了一种的用于智能模型训练的样本数据处理方法，使用了特征权重方法来提取特征词，突出了使用特征词对代码样本进行筛选的过程，因而增加了智能模型检测的准确率和跨数据集的泛化性。其次，使用多个子模型代替一个综合模型，因而使智能模型进行多标签的检测成为可能。

另外，该方法不仅提高了智能模型在软件检测中的应用效果，同时也为软件质量保证的自动化和智能化提供了有力支持。通过这种创新方法，可以有效解决目前软件检测中遇到的数据处理和模型训练的挑战，从而推动整个软件工程领域向更高效、更智能的方向发展。

本发明还公开一种样本数据处理系统，其包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的样本数据处理方法的指令。处理器可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的样本数据处理系统中的模块所需执行的功能，或者执行本申请方法实施例的样本数据处理方法。

本发明还公开一种计算机可读存储介质，其包括计算机程序，所述计算机程序可被处理器执行以完成如上所述的样本数据处理方法。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory，ROM)，或随机存取存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solidstate disk，SSD)等。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述样本数据处理方法。

以上所揭露的仅为本发明的优选实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种用于智能模型训练的样本数据处理方法，其特征在于，包括：

根据预设转换规则将所述特征语句集中的每一特征语句转换成数字序列，以生成与每一所述特征语句相对应的文本向量，所述文本向量用于导入所述智能模型，以对所述智能模型进行训练；所述特征词库的生成方式包括：

根据标注信息对提取到的所述特征词进行分类统计；

通过下述公式一计算每一所述特征词的特征权重W；

W=|PA-PB|/PA（公式一）

将所述特征权重集中数值较大的若干所述特征权重所对应的特征词加入所述特征词库；

所述样本数据集为包含有已知类型漏洞的代码段，所述智能模型用于对应用程序中的漏洞进行检查；

所述智能模型中设置有若干并行运行的子模型，若干所述子模型分别用于检测不同类型的代码漏洞，检测当将所述文本向量导入所述智能模型时，每一所述子模型分别独立对所述文本向量进行处理。

2.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述样本数据集为代码段，基于所述特征词库扫描所述代码段前，还对所述代码段中的语句以行为标准进行分割，并去除每行代码中的注释信息和空行信息。

3.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述智能模型为双向长短期记忆网络模型。

4.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，生成所述文本向量的方法包括：

将所有的所述特征语句分成单词序列；

5.一种智能模型，其特征在于，该智能模型基于权利要求1至4任一项所述的样本数据处理方法生成的所述文本向量训练而成。

6.一种样本数据处理系统，其特征在于，包括：

一个或多个处理器；

存储器；

以及一个或多个程序，其中一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1至4任一项所述的样本数据处理方法的指令。

7.一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序可被处理器执行以完成如权利要求1至4任一项所述的样本数据处理方法。