CN110399485B

CN110399485B - 基于词向量和机器学习的数据溯源方法和系统

Info

Publication number: CN110399485B
Application number: CN201910584814.7A
Authority: CN
Inventors: 丁疏横; 范磊
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2022-04-08
Anticipated expiration: 2039-07-01
Also published as: CN110399485A

Abstract

本发明提供了一种基于词向量和机器学习的数据溯源方法和系统，通过网络采集流量数据，基于流量数据进行文件特征提取，得到文本特征向量；使用机器学习对流量数据进行聚类，得到多个聚类种类，将待溯源文件与多个聚类种类进行匹配，得到待溯源文件的所属种类；在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定。本发明可扩展性强，不依赖于特定系统，不需要进行数据库改造，对数据格式没有要求，溯源稳定可靠，效率高；从网络中抓包，通过词向量提取特征向量，通过机器学习进行聚类，再通过计算余弦值进行溯源，脱离对数据库的依赖，避免了高昂的系统管理成本。

Description

基于词向量和机器学习的数据溯源方法和系统

技术领域

本发明涉及信息安全技术领域，具体地，涉及一种基于词向量和机器学习的数据溯源方法和系统。

背景技术

近年来，由于互联网的普及以及上网人数的增长，人们网络活动产生的数据量也呈现了爆发性地增长。大数据在为各行各业的发展提供帮助和价值的同时，也给信息安全带来了新的挑战。特别是在一些企业和各类机构中，对于大量流入流出的数据，如何确保流量都是安全的，是一个非常重要的问题。而数据溯源技术，就是这样一个追溯数据的来龙去脉的技术，这对于各类组织的数据保护和机密信息流通控制也是非常有帮助的。

数据溯源是一个相对较新的研究领域，主要是记录特定数据的传播途径，并在事后做到可追溯的一种服务功能。传统的数据溯源方法通常都与管理系统挂钩，因此一直以来都面临着与高昂的管理成本冲突的尴尬。

现有的溯源方法中，主要采用文档标记法、反向查询法、API Hook，文档标记法是通过对关键文档进行标记改造，比如在文档中添加水印，或者每次打开修改文件都做一定的标签标注。此方法通过在数据传输过程中增加标签信息增加文档的信息熵，从而来进行溯源标记。反向查询法也被称为逆置函数法，这种方法起源于对数据库数据的溯源，由于数据库所有的操作都是通过标准的查询语句来进行，因此可以通过构造逆向查询语句，就是说对于正向查询数据库的逆操作来从结果反推到输入，并通过反推的结果来复现数据的流通方向。API Hook通过主动挂钩应用层协议的方式来记录文件的传输。这种方法与之前的两种方法相比，并不依赖于某一特定的操作系统或者数据库，而是对端口进行监控并在所有的应用层协议中安装挂钩，当某种被监控的协议产生流量的时候，会主动记录流量和文件。以上方法大多需要对系统或者数据库进行改造，在使用性和可扩展性上面都有较大的缺陷。例如，文档标记法需要对系统内的所有的数据库或者操作系统进行改造，工程量巨大，而且或产生额外的储存负担，并且一旦攻击者知道标注信息的格式，标签信息也容易被篡改；反向查询法只局限于数据库的数据溯源，以及构造逆向查询函数的困难性也很大，所以并不适用与企业环境中的数据溯源；API Hook的问题在于会产生大量冗余而无用的数据，由于是在应用层层面的监控，所以对文件的内容并没有办法进行解析，导致了并不能完全可靠地还原出某一特定文件的传播路径和修改记录。

与本申请相关的现有技术是专利文献CN109614776A，公开了一种基于数字水印技术的数据溯源方法及系统，该方法包括：利用第一水印算法，在原始数据集中嵌入初始水印，得到初始数据集；利用第二水印算法，在待交付的初始数据集中嵌入交易水印，得到交付数据集并交付给交付对象；判断待溯源数据集中是否存在初始水印，若是则分别判断待溯源数据集中是否存在待验证候选人身份信息对应的交易水印，根据判断结果确认待溯源数据集所指向的待验证候选人。对数据权利人流通出去的数据嵌入初始水印和交易水印，在数据维权阶段，通过初始水印来对数据权利人进行维权审核，实现属权的声明，然后再进一步的数据溯源阶段，通过交易水印来确认待溯源数据集所指向的交付对象，从而实现对泄漏源的追溯。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于词向量和机器学习的数据溯源方法和系统。

根据本发明提供的一种基于词向量和机器学习的数据溯源方法，包括:

流量采集步骤：通过网络采集流量数据，基于流量数据进行文件特征提取，得到文本特征向量；

聚类步骤：使用机器学习对流量数据进行聚类，得到多个聚类种类，将待溯源文件与多个聚类种类进行匹配，得到待溯源文件的所属种类；

匹配源步骤：在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定。

优选地，所述流量采集步骤包括：

抓包步骤：在网络中心上设置抓包节点，得到数据流量包；

还原步骤：基于不同协议，对数据流量包进行还原，得到还原二进制文件；

提取步骤：基于词袋模型，对还原二进制文件进行特征提取，得到文本特征向量。

优选地，所述聚类步骤包括：

分组聚类步骤：使用无监督的机器学习的聚类算法对流量数据进行聚类，确定聚类个数K以及聚类中心；

对象划分步骤：计算所有流量数据与各个聚类中心的距离，按照距离对所有流量数据进行划分，完成对流量数据的划分之后，计算新的各个聚类中心点，并判断是否满足设定条件，所有流量数据通过判定之后得出聚类结果。其中，流量数据通过网络流量抓包获取的数据集。

优选地，所述匹配源步骤包括：

抓包排序步骤：提取待溯源文件的所属种类中所有流量数据的网络抓包时间，根据抓包时间获取文本文件的发布时间，依据发布时间进行排序；

计算相似度步骤：根据排序，依次计算待溯源文件与相邻文档的向量余弦值，依据所述向量余弦值进行余弦相似度判定，得到溯源判定。

根据本发明提供的一种基于词向量和机器学习的数据溯源系统，包括：

流量采集模块：通过网络采集流量数据，基于流量数据进行文件特征提取，得到文本特征向量；

聚类模块：使用机器学习对流量数据进行聚类，得到多个聚类种类，将待溯源文件与多个聚类种类进行匹配，得到待溯源文件的所属种类；

匹配源模块：在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定。

优选地，所述流量采集模块包括：

抓包模块：在网络中心上设置抓包节点，得到数据流量包；

还原模块：基于不同协议，对数据流量包进行还原，得到还原二进制文件；

提取模块：基于词袋模型，对还原二进制文件进行特征提取，得到文本特征向量。

优选地，所述聚类模块包括：

分组聚类模块：使用无监督的机器学习的聚类算法对流量数据进行聚类，确定聚类个数K以及聚类中心；

对象划分模块：计算所有流量数据与各个聚类中心的距离，按照距离对所有流量数据进行划分，完成对流量数据的划分之后，计算新的各个聚类中心点，并判断是否满足设定条件，所有流量数据通过判定之后得出聚类结果。

优选地，所述聚类结果依据的设定条件是梯度下降最小，簇内距离最小，簇间距离最大。

优选地，所述匹配源模块包括：

抓包排序模块：提取待溯源文件的所属种类中所有流量数据的网络抓包时间，根据抓包时间获取文本文件的发布时间，依据发布时间进行排序；

计算相似度模块：根据排序，依次计算待溯源文件与相邻文档的向量余弦值，依据所述向量余弦值进行余弦相似度判定，得到溯源判定。

优选地，所述余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。

与现有技术相比，本发明具有如下的有益效果：

1、本发明可扩展性强，不依赖于特定系统，不需要进行数据库改造，对数据格式没有要求，溯源稳定可靠，效率高；

2、本发明是从网络中抓包，通过词向量提取特征向量，通过机器学习进行聚类，再通过计算余弦值进行溯源，脱离对数据库的依赖，避免了高昂的系统管理成本。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的方法流程示意图；

图2为本发明的提取文本词向量流程示意图；

图3为本发明的文本聚类流程示意图；

图4为本发明的加窗取词示例图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提出了一种全新的数据溯源算法，尝试通过主动监听企业内部流量数据的方式，并通过协议还原算法还原出文档内容，通过词向量和机器学习计算相似度归档后根据结果来记录传播路径，从而破除传统的数据溯源技术所具有的瓶颈。具有极高的可扩展性，不依赖于特定系统，不需要对数据库进行改造，可扩展性很强，对数据格式没有要求，同时最终的实验也证明了该算法的稳定性和可靠性，在大数据流处理平台下该算法表现依然稳定，而且效率很高。避免了高昂的管理成本，仅仅使用从网络中抓包信息，通过词向量提取特征向量后，通过机器学习的方法进行聚类，然后通过计算余弦值来进行溯源。因为使用了聚类的方法，脱离的数据库的依赖，使本系统从资源和时间上都要优于一般的传统管理式溯源方法。

本发明通过公司子网设置关键节点，比如路由器上设置抓包点，然后通过数据流量包的还原算法还原出传输的文件，再通过分析文件的二进制序列，从而提取该文件的特征。通过该特征与聚好类的中心点匹配，找出该文件属于哪一类文件组。最后只需要与特征库中的文件进行匹配，就可以找到该流量中包含的文件。具体包括以下两个方面，一方面是对二进制文件加窗取词，特征提取算法负责将接收到的新文档进行处理，对文档进行二进制压缩。取词算法采用加窗的方式对二进制进行获取以保证二进制的上下文是关联的。如图4所示，对于一段序列0x4fff20da002f，取窗长window size为4，步长step为2，那么词汇会被切割为0x4fff，0xff20，0x20da，0xda00，0x002f。窗长不宜过长，由于词向量是基于词袋模型的词频统计，窗长太长会直接词汇量过大，这个极其影响性能；另一方面，通过机器学习进行特征聚类和关联，采用机器学习的方式先通过对原始数据集进行聚类操作，把所有的原始文件集分到不同的种类里面，然后对要溯源的文件先进行类的匹配，找出它属于哪一个类，最后再在这个类中寻找它的源文件。

如图1所示，首先在网络中心设置抓包节点，基于不同协议进行文件还原，基于词袋的特征提取方式进行文件二进制特征提取，再使用机器学习的方法进行聚类，最后基于余弦距离进行精确匹配。其中，流量采集程序在关键节点采集流量，通常为原生的pcap的二进制描述文件。文件还原负责将抓到的流量数据通过算法还原到应用层文件。

如图2所示，获取网络数据包之后，先检查文件格式，将符合文件格式的数据包还原成二进制文件，在还原中根据词袋模型的步长和窗口大小进行取词，并计算词频和逆向文本频率，之后输出文本特征向量。特征提取负责将接收到的新文档进行处理，一方面可以对文档进行二进制压缩，另一方面，如果某一份文档被做了小幅更改，算法在一定程度上会保证这两篇更改的文章被归到同一篇。

如图3所示，首先计算原始数据的文本特征向量，将原始数据转化成词向量，通过聚类的机器学习方式对转化之后的数据集进行聚类，确定聚类个数K以及聚类中心，计算所有对象与聚类中心点的距离，按照距离对所有对象进行划分，之后更新各类的聚类中心，并判断是否满足设定条件，所有对象通过判定之后得出聚类结果。得到原始数据基于词向量的分类结果，得到多个分类好的数据集。

然后将分类的结果打好标签，之后对新增加的需要溯源的文件计算其文本特征向量，如果是原先的已经提取好特征的文本向量则直接进行判断，判断该文本的特征向量与原有的各个聚类中心之间的距离，判断出该溯源文件属于哪一类数据，匹配方法就是下文所讲的匹配源文件，接着再在这个类中寻找它的源文件。

最终进行匹配源文件，进行比对溯源，针对已落地的已经生产文本特征向量并且打好分类标签的文本数据的处理模块，该模块接收需要比对的文件二进制，或者是以归类的文件id和日期，模块根据输入，输出在分类好的文本数据集内部搜索到的对应的文件。通过提取抓取的网络包的发送时间可以提取出文本文件的发送时间，根据时间将文件进行排序，接着按照已经排序好的文本文件，计算两两文档的向量余弦值，可以知道文本在传输过程中是否有过修改以及是否存在归类错误的情况，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，或通过相似度排序的方法得到匹配的文档列表。

在具体实施过程中，当遇到某一私密文件在网络中出现，通过在网络中针对这篇文章的网络包进行抓包，对抓取到的文件提取文本特征向量，通过对比发布的时间和各个文本之间的文本相似度，就可以找到这份泄密文件是最先从哪一平台泄露，以此将文件溯源应用于安全等领域。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于词向量和机器学习的数据溯源方法，其特征在于，包括:

匹配源步骤：在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定；

所述流量采集步骤包括：

抓包步骤：在网络中心上设置抓包节点，得到数据流量包；

提取步骤：基于词袋模型，对还原二进制文件进行特征提取，得到文本特征向量；

所述聚类步骤包括：

对象划分步骤：计算所有流量数据与各个聚类中心的距离，按照距离对所有流量数据进行划分，完成对流量数据的划分之后，计算新的各个聚类中心点，并判断是否满足设定条件，所有流量数据通过判定之后得出聚类结果；

所述匹配源步骤包括：

2.一种基于词向量和机器学习的数据溯源系统，其特征在于，包括:

匹配源模块：在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定；

所述流量采集模块包括：

抓包模块：在网络中心上设置抓包节点，得到数据流量包；

提取模块：基于词袋模型，对还原二进制文件进行特征提取，得到文本特征向量；

所述聚类模块包括：

对象划分模块：计算所有流量数据与各个聚类中心的距离，按照距离对所有流量数据进行划分，完成对流量数据的划分之后，计算新的各个聚类中心点，并判断是否满足设定条件，所有流量数据通过判定之后得出聚类结果；

所述匹配源模块包括：

3.根据权利要求1所述的基于词向量和机器学习的数据溯源方法或者权利要求2所述的基于词向量和机器学习的数据溯源系统，其特征在于，所述聚类结果依据的设定条件是梯度下降最小，簇内距离最小，簇间距离最大。

4.根据权利要求1所述的基于词向量和机器学习的数据溯源方法或者权利要求2所述的基于词向量和机器学习的数据溯源系统，其特征在于，所述余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。