CN115455407A

CN115455407A - 一种基于机器学习的GitHub敏感信息泄露监控方法

Info

Publication number: CN115455407A
Application number: CN202210991690.6A
Authority: CN
Inventors: 王庆阳; 尹正航; 李玲; 张源
Original assignee: Beijing Bite Yipai Information Technology Co ltd
Current assignee: Beijing Bite Yipai Information Technology Co ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-09

Abstract

本申请公开了一种基于机器学习的GitHub敏感信息泄露监控方法，所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：样本信息处理，将输入的样本信息与数据库内部的信息进行比对，通过比对结果对输入的样本信息进行进行降噪、分词处理，同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来；文本算法分类；HMM概率预测；模型预测判定。HMM隐马尔科夫模型的随机生成观测序列的过程，进而生成模型，降低了无关信息的干扰，提高了泄露代码数据的检测的准确率；通过提取泄露代码数据的相关特征信息来分析是否为敏感信息，可以规避不符合相关特征的数据；可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露，大大增加检测准确率。

Description

一种基于机器学习的GitHub敏感信息泄露监控方法

技术领域

本申请涉及信息泄露监控领域，尤其是一种基于机器学习的GitHub敏感信息泄露监控方法。

背景技术

随着互联网的发展，开放源代码成为了一种主流，给大家带来了很多可以学习的机会，但是风险也伴随着而来，开放的源代码中有的就会包含公司内部敏感信息，如：核心技术代码、服务器的相关信息、数据库的账号和密码、接口的私钥相关信息等等，这些敏感信息泄露可能会给公司带来很大的危害。

现有的代码敏感信息扫描工具，使用模糊搜索，存在较多的误报，扫描出来的敏感信息需要人为再去鉴定一遍，这样就会存在消耗大量的人力，人力成本较高，同时长时间的验证会让人脑疲劳，就有可能会漏掉真正的敏感内容，造成漏报。最为关键的一点是人工审核较慢，如果攻击者在人为审核之前就发现了此敏感信息，可能会给公司带来损失，造成一些核心数据资产的流失。因此，针对上述问题提出一种基于机器学习的GitHub敏感信息泄露监控方法。

发明内容

在本实施例中提供了一种基于机器学习的GitHub敏感信息泄露监控方法用于解决现有技术中数据采集处理工作量大、精度较差，计算线损时，准确程度不高，未采用分级监测，影响线损数据处理的精准程度的问题。

根据本申请的一个方面，提供了一种基于机器学习的GitHub敏感信息泄露监控方法，所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：

(1)样本信息处理，将输入的样本信息与数据库内部的信息进行比对，通过比对结果对输入的样本信息进行进行降噪、分词处理，同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来；

(2)文本算法分类，利用SVM文本分类算法分类，主要是利用SVM支持向量机对敏感信息的数据集进行分类，同时对输入的样本数据进行分类；

(3)HMM概率预测，利用HMM隐马尔可夫模型对敏感信息数据库内部的不同敏感样本的的数据集信息进行处理，实现敏感样本的概率预测；

(4)模型预测判定，将SVM文本分类模型分类结果和HMM概率预测模型结果进行融合判定，并输出最终的预测结果。

进一步地，所述步骤(1)中在样本信息处理前，要获取原始的泄露数据，将数据作为输入样本进行处理。

进一步地，所述步骤(2)中在进行SVM线性分类时，设置最大进化代数，初始化粒子群，设定初始化速度和位置。编码计算，基于混沌理论算法生成种群，根据当前的初始种群利用SVM模型队训练集进行训练。模型训练结果作为下一步的参考值，根据结果计算适应度函数值，更新当前个体最优解和全局最优解，更新粒子速度和位置，此步骤粒子的速度和位置的结果作为下一步的终止条件。

进一步地，所述步骤(2)中根据步骤上述的结果决定判断是否满足终止条件，若是满足，则停止循环，继续往下走，若是不满足，则回到第一步继续循环计算。根据上述步骤得到最优的算法结果调试参数，作为下一步的输入结果，将参数输入SVM模型进行最后的模型训练，使用测试集对SVM模型进行测试训练，同时查看对应的测试结果。

进一步地，所述步骤(3)中将样本信息进行分类，分为N种样本信息，分别对应HMM算法模型的λi～λn，根据判断条件判断是否已经所有的分配信息读取完成，如果没有读取完就继续读取，读取完成就继续进入训练样本，采集第i种样本信息的特征，提取相关的特征信息，用户HMM算法模型的训练。

进一步地，所述步骤(3)中初始化HMM算法模型，设置对应的初始的参数，采集的第i种样本信息，进行参数学习，根据分类的N种样本信息训练处的N种模型，输出最优的HMM算法模型参数，进行样本训练。

进一步地，所述步骤(3)中根据训练的样本结果，输出训练样本的概率集合，找出概率最大值和最小值。

进一步地，所述步骤(4)中将抓取到的泄露的代码数据，输入系统，将上述输入的数据进行相关特征的提取，对上述的特征提取结果，使用HMM预测算法模型进行概率预测，若在概率范围内就进入下一步骤，若未在概率范围内就直接结束。

进一步地，所述步骤(4)中对上述的数据特征提取结果，使用HMM预测算法模型进行概率预测，若在概率范围内就进入下一步骤，若未在概率范围内就直接结束。

进一步地，所述步骤(4)中将数据的特征提取结果，使用SVM文本分类算法模型再次进行文本分类，若满足目标文本的特征信息，进入下一步骤，若不满足就直接结束，输出结果。

通过本申请上述实施例，HMM隐马尔科夫模型的随机生成观测序列的过程，进而生成模型，降低了无关信息的干扰，提高了泄露代码数据的检测的准确率；通过提取泄露代码数据的相关特征信息来分析是否为敏感信息，由此可以规避不符合相关特征的数据带来的影响；可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露，大大增加检测准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请整体流程图；

图2为本申请SVM文本分类算法分类流程图；

图3为本申请HMM文本预测算法流程图；

图4为本申请多模型预测信息判定流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

请参阅图1所示，一种基于机器学习的GitHub敏感信息泄露监控方法，所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：

进一步地，所述步骤(1)中在样本信息处理前，要获取原始的泄露数据，将数据作为输入样本进行处理，通过将抓取的样本信息进行人为的分类，找出符合敏感信息特征的样本信息。将上述的敏感样本信息进行降噪处理，降噪处理主要是过滤掉非本公司的敏感代码信息片段，包括域名、ip、端口号、相关关键词等，使用ntlk库样本信息进行分词处理，过滤停用词和自定义字符，将每个样本文件的分词结果进行集中存储，将上述的结果进行再次处理主要是提取域名、端口号和关键词，同时计算域名、端口号和关键词的逆向文件频率。将上述的域名、端口号和关键词的逆向文件频率和样本的数量进行对比，若域名和端口号各自至少出现在两个样本文件，则将域名和端口都敏感关键域名和端口，少于两个样本数据则是直接丢弃。

上述方法适用于处理样本信息内部数据较少、敏感信息数据较少的基于机器学习的GitHub敏感信息泄露监控方法。

实施例2

请参阅图1-4所示，一种基于机器学习的GitHub敏感信息泄露监控方法，所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：

进一步地，所述步骤(1)中在样本信息处理前，要获取原始的泄露数据，将数据作为输入样本进行处理，通过将抓取的样本信息进行人为的分类，找出符合敏感信息特征的样本信息。将上述的敏感样本信息进行降噪处理，降噪处理主要是过滤掉非本公司的敏感代码信息片段，包括域名、ip、端口号、相关关键词等，使用ntlk库样本信息进行分词处理，过滤停用词和自定义字符，将每个样本文件的分词结果进行集中存储，将上述的结果进行再次处理主要是提取域名、端口号和关键词，同时计算域名、端口号和关键词的逆向文件频率。将上述的域名、端口号和关键词的逆向文件频率和样本的数量进行对比，若域名和端口号各自至少出现在两个样本文件，则将域名和端口都敏感关键域名和端口，关键词至少出现在三个样本文件中，则将该关键词作为敏感关键词，接着下一步骤，将上述步骤的结果：域名、端口号和关键词等样本信息进行存储。

上述方法适用于处理样本信息内部数据较多、敏感信息数据较多的基于机器学习的GitHub敏感信息泄露监控方法。

本申请的有益之处在于：

该方法充分利用HMM隐马尔科夫模型的随机生成观测序列的过程，进而生成模型，降低了无关信息的干扰，提高了泄露代码数据的检测的准确率；通过提取泄露代码数据的相关特征信息来分析是否为敏感信息，由此可以规避不符合相关特征的数据带来的影响；可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露，大大增加检测准确率。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：

2.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(1)中在样本信息处理前，要获取原始的泄露数据，将数据作为输入样本进行处理。

3.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(2)中在进行SVM线性分类时，设置最大进化代数，初始化粒子群，设定初始化速度和位置。编码计算，基于混沌理论算法生成种群，根据当前的初始种群利用SVM模型队训练集进行训练。模型训练结果作为下一步的参考值，根据结果计算适应度函数值，更新当前个体最优解和全局最优解，更新粒子速度和位置，此步骤粒子的速度和位置的结果作为下一步的终止条件。

4.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(2)中根据步骤上述的结果决定判断是否满足终止条件，若是满足，则停止循环，继续往下走，若是不满足，则回到第一步继续循环计算。根据上述步骤得到最优的算法结果调试参数，作为下一步的输入结果，将参数输入SVM模型进行最后的模型训练，使用测试集对SVM模型进行测试训练，同时查看对应的测试结果。

5.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(3)中将样本信息进行分类，分为N种样本信息，分别对应HMM算法模型的λi～λn，根据判断条件判断是否已经所有的分配信息读取完成，如果没有读取完就继续读取，读取完成就继续进入训练样本，采集第i种样本信息的特征，提取相关的特征信息，用户HMM算法模型的训练。

6.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(3)中初始化HMM算法模型，设置对应的初始的参数，采集的第i种样本信息，进行参数学习，根据分类的N种样本信息训练处的N种模型，输出最优的HMM算法模型参数，进行样本训练。

7.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(3)中根据训练的样本结果，输出训练样本的概率集合，找出概率最大值和最小值。

8.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(4)中将抓取到的泄露的代码数据，输入系统，将上述输入的数据进行相关特征的提取。

9.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(4)中对上述的数据特征提取结果，使用HMM预测算法模型进行概率预测，若在概率范围内就进入下一步骤，若未在概率范围内就直接结束。

10.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(4)中将数据的特征提取结果，使用SVM文本分类算法模型再次进行文本分类，若满足目标文本的特征信息，进入下一步骤，若不满足就直接结束，输出结果。