CN113239383A

CN113239383A - 文件流转的处理方法、装置、设备及存储介质

Info

Publication number: CN113239383A
Application number: CN202110607072.2A
Authority: CN
Inventors: 邓如林; 王鹏翩; 李晔; 朱建炜; 罗克振; 陆立业
Original assignee: Beijing Huasai Online Technology Co ltd
Current assignee: Beijing Huasai Online Technology Co ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-10

Abstract

本发明提供一种文件流转的处理方法、装置、设备及存储介质，该方法包括：获取还原出的原始文件；针对每个原始文件，基于预设判断规则判断所述原始文件是否为敏感文件；若确定所述原始文件为敏感文件，则生成所述原始文件对应的基础事件；根据各所述基础事件生成文件流转数据。本发明通过对网络流量数据中的敏感文件生成基础事件，并进一步基于基础事件生成文件流转数据，从而可以有效获得文件流转的具体流程，因此对于泄露的数据可以方便地进行溯源取证，解决了现有技术对已泄露数据无法溯源取证的问题。

Description

文件流转的处理方法、装置、设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种文件流转的处理方法、装置、设备及存储介质。

背景技术

随着计算机和互联网技术的飞速发展，人们已经可以简单、便捷地接入互联网，共享丰富的网络资源。然而，丰富多彩的网络生活在给人们生活带来便利的同时，也给各行各业尤其是涉密企业的规范化管理带来了更大的挑战。近年来，计算机及网络泄密案件逐年增加，网络安全现状变得越来越严峻，网络安全归根结底是企业数据的安全，一旦企业的核心数据被泄露或者被盗取，将给企业带来灾难，因此如何保证企业核心数据的安全已成为信息安全建设的核心问题。

现有技术中，就数据安全来说，目前主流的产品包括数据防泄漏(DLP)、数据透明加密(DSM)以及数据审计等产品，这些产品通过分权分域、数据加密、数据审计等技术，严格控制数据的访问权限，在数据安全的保障中发挥着重要作用。

但是，现有的产品主要是通过加密、权限控制等方式防止数据泄露或非法访问，即重点在于防止数据的越权访问，而对已泄露出去的数据却无法溯源取证。

发明内容

本发明实施例提供一种文件流转的处理方法、装置、设备及存储介质，以解决现有技术对泄露的数据无法溯源取证的问题。

第一个方面，本发明实施例提供一种文件流转的处理方法，包括：

获取还原出的原始文件；

针对每个原始文件，基于预设判断规则判断所述原始文件是否为敏感文件；

若确定所述原始文件为敏感文件，则生成所述原始文件对应的基础事件；

根据各所述基础事件生成文件流转数据。

第二个方面，本发明实施例提供一种文件流转的处理的模型训练方法，包括：

获取模块，用于获取还原出的原始文件；

确定模块，用于针对每个原始文件，基于预设判断规则判断所述原始文件是否为敏感文件；

生成模块，用于若确定所述原始文件为敏感文件，则生成所述原始文件对应的基础事件；

处理模块，用于根据各所述基础事件生成文件流转数据。

第三个方面，本发明实施例提供一种电子设备，包括：存储器、收发器及至少一个处理器；

所述处理器、所述存储器与所述收发器通过电路互联；

所述存储器存储计算机执行指令；所述收发器，用于接收报文；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。

第四个方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一个方面以及第一个方面各种可能的设计所述的方法。

本发明实施例提供的文件流转的处理方法、装置、设备及存储介质，通过对网络流量数据中的敏感文件生成基础事件，并进一步基于基础事件生成文件流转数据，从而可以有效获得文件流转的具体流程，因此对于泄露的数据可以方便地进行溯源取证，解决了现有技术对已泄露数据无法溯源取证的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的文件流转的处理方法的流程示意图；

图2为本发明一实施例提供的文件流转拓扑图的一种示例性示意图；

图3为本发明一实施例提供的一种关联分析的展示示意图；

图4为本发明一实施例提供的另一种关联分析的展示示意图；

图5为本发明一实施例提供的再一种关联分析的展示示意图；

图6为本发明一实施例提供的又一种关联分析的展示示意图；

图7为本发明一实施例提供的文件流转的处理装置的结构示意图；

图8为本发明一实施例提供的文件流转的处理装置的一种示例性结构示意图；

图9为本发明一实施例提供的电子设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明所涉及的名词进行解释：

MD5：也称MD5信息摘要算法(MD5 Message-Digest Algorithm)，是一种密码散列函数，可以产生出一个128位(16字节)的散列值(hash value，也称哈希值)，用于确保信息传输完整一致。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个及两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明一实施例提供一种文件流转的处理方法，用于网络系统中文件流转的处理，为用户提供精准的、有价值的文件泄露溯源信息。本实施例的执行主体为文件流转的处理装置，该装置可以设置在电子设备中，该电子设备可以是服务器或者其他可实现的计算机设备。

如图1所示，为本实施例提供的文件流转的处理方法的流程示意图，该方法包括：

步骤101，获取还原出的原始文件。

具体的，原始文件是从网络流量数据中还原出的文件，网络流量数据是指网络传输中的数据流，数据流是指具有相同五元组(包括源IP、目的IP、源端口、目的端口及协议)的报文的集合。在网络传输中，对于有文件传输的数据流，每条数据流可以还原出一个或多个文件，还原出的文件被存储到一定的存储空间中，比如写入磁盘中，具体存储方式可以根据实际需求设置，本发明实施例不做限定。

在需要了解文件流转情况时，可以从相应的存储区域获取还原出的原始文件，也可以是在进行文件还原时实时获取还原出的原始文件。

步骤102，针对每个原始文件，基于预设判断规则判断原始文件是否为敏感文件。

具体的，预设判断规则可以根据实际需求设置，比如可以是模11算法、模10算法等识别身份证号码、银行卡号的规则，也可以是基于关键字模板的预设匹配规则，还可以基于预设特定对象的判断规则；具体比如根据行业特殊性，收集相应的关键字形成关键字模板，将文件内容中命中该关键字模板中关键字规则的文件作为敏感文件；再比如对于重点观测、怀疑的对象，或者从第三方安全系统对接的有过可疑行为的IP等特殊对象，将其传输或下载的文件作为敏感文件，等等；还可以根据实际需求设置其他相关的规则作为预设判断规则；预设判断规则还可以是多种规则的结合。

步骤103，若确定原始文件为敏感文件，则生成原始文件对应的基础事件。

具体的，若确定某原始文件为敏感文件，则可以生成该原始文件对应的基础事件，基础事件包括文件标识、五元组信息、传输时间、下载时间、敏感命中规则信息及其他相关信息中的至少一种，具体可以根据实际需求设置；其中，文件标识可以是文件名或文件ID，五元组信息包括源IP、目的IP、源端口、目的端口及协议。

步骤104，根据各基础事件生成文件流转数据。

具体的，在生成各基础事件后，可以根据各基础事件，生成相应的文件流转数据；文件流转数据包括文件的流转过程信息，比如一个文件不同时间点传输的源IP、目的IP、IP归属地、协议类型等信息，具体流转过程信息可以根据实际需求设置，本发明实施例不做限定。

文件流转数据的具体生成方式可以通过将各基础事件按照文件标识、文件哈希值(比如MD5值)等不同维度将文件进行关联，结合时间、源IP、目的IP等还原文件流转的完整流程。

本实施例提供的文件流转的处理方法，通过对网络流量数据中的敏感文件生成基础事件，并进一步基于基础事件生成文件流转数据，从而可以有效获得文件流转的具体流程，因此对于泄露的数据可以方便地进行溯源取证，解决了现有技术对已泄露数据无法溯源取证的问题。

为了使本发明的技术方案更加清楚，本发明另一实施例对上述实施例提供的方法做进一步补充说明。

作为一种可实施的方式，为了提高文件流转数据的有效性和准确性，在上述实施例的基础上，可选地，根据各基础事件生成文件流转数据，包括：对基础事件进行去重及降噪处理，获得第一事件；根据预设关联规则将各第一事件进行关联，获得文件流转数据。

具体的，由于基础事件是针对还原出的每一个原始文件所生成的，可能会存在重复的基础事件，因此，在获得基础事件后，可以对基础事件进行去重降噪处理，比如通过设置时间窗口，对同一五元组如果在该时间窗口内有类似事件，则进行去重处理，经去重降噪后的基础事件可以称为第一事件，并进一步根据预设关联规则将各第一事件进行关联来获得文件流转数据。

具体的预设关联规则可以根据实际需求设置，比如通过文件名、文件MD5值等不同维度进行关联，并结合时间、源IP、目的IP等信息还原文件流转的完整流程。

示例性的，如表1所示，为本实施例提供的第一事件列表的一简单示例，其中,事件1和事件3为同一文件，将两者关联可知文件1.txt在时间T1从IP1传输到了IP2，又在时间T3从IP2传输到了IP5，如此可知文件1.txt的流转过程，可以理解地，这里只是一个简单的示例，用于对文件流转数据进行说明，并非对本发明的限定。

表1

事件号	文件名	MD5	源IP	目的IP	时间
						1	1.txt	H1	IP1	IP2	T1
2	2.dox	H2	IP3	IP4	T2
						3	1.txt	H1	IP2	IP5	T3
4	3.dox	H3	IP4	IP2	T4

作为另一种可实施的方式，为了能够方便用户查看文件流转情况，该方法可以包括：根据文件流转数据生成文件流转拓扑图，并进行展示。

具体的，用户需要查看文件流转情况时，或者用户登录文件流转处理系统进入展示页面时，可以根据文件流转数据生成文件流转拓扑图，并进行展示；或者也可以是预先生成文件流转拓扑图数据进行存储，当用户需要查看时，可直接根据文件流转拓扑图数据进行展示，具体可以根据实际需求设置。

示例性的，如图2所示，为本实施例提供的文件流转拓扑图的一种示例性示意图，该文件流转拓扑图展示了文件在不同时间点的源IP和目的IP，以及传输的协议类型，当然，这里只是一种示例性展示，具体可展示的内容还可以包括其他任何相关信息，具体可以根据实际需求设置。

作为另一种可实施的方式，为了能够有效地判断原始文件是否为敏感文件，基于预设判断规则判断原始文件是否为敏感文件，包括：

基于预设算法识别原始文件中是否包括预设类型的敏感信息；和/或，基于预设关键字模板，判断原始文件是否为敏感文件；和/或，基于预设特定对象，判断原始文件是否为敏感文件。

具体的，预设判断规则可以根据实际需求设置一种规则或多种规则，其中预设算法比如模11算法、模10算法等，通过模11算法可以识别身份证号码，通过LUHN(模10算法)可以识别银行卡号，对于原始文件中涉及身份证号和/或银行卡号等敏感信息的文件可认为是敏感文件；预设关键字模块可以根据各行业的特殊性，通过收集各行业不同的关键字形成关键字模板，并可以由用户自定义模板，增加系统灵活性和可扩展性，并基于关键字模板设置相应的匹配规则，对于原始文件中内容若根据匹配规则命中了相应的关键字，可认为该文件为敏感文件；预设特定对象可以是重点观测、怀疑对象，或者从第三方安全系统对接的有可疑行为的IP等特殊对象，可以将这些预设特定对象加入观察组进行“钓鱼”，即将这些预设特定对象的所有文件流转事件均进行记录生成基础事件。

通过各种判断规则的结合使用，可以提高敏感文件的覆盖率，实现对敏感文件的全面有效记录，便于后续溯源取证。

作为另一种可实施的方式，为了保证变异敏感文件能够被有效的识别，基于预设判断规则判断原始文件是否为敏感文件，包括：

基于预设分割规则将原始文件分割为至少两个第一子文件；获取每个第一子文件的第一哈希值；基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断原始文件是否为敏感文件。

具体的，对于一些敏感文件，若采用加密传输或者对文件进行变异后再传输，现有技术则无法检测到，比如对于即时通讯类协议如WECHAT，采用加密传输的情况，再比如将文本拆分成小文件或者进行简单改动再进行传输的情况，都有可能避过检测，导致数据泄露无法溯源取证，针对这类问题，本发明提出了相应的解决方法，即可以预先收集敏感文件(称为预设敏感文件)，比如从网络流量中收集网内所有主机交互的文件，针对每个文件可以计算该文件的哈希值，比如MD5值，然后基于预设判断规则判断出敏感文件即可作为预设敏感文件，针对每个预设敏感文件，按照预设分割规则将该预设敏感文件分割成多个子文件(即第二子文件)，并计算每个子文件的哈希值(称为第二哈希值)，比如MD5值，将各预设敏感文件及其哈希值、各预设敏感文件对应的多个第二子文件以及每个第二子文件对应的第二哈希值进行存储，然后，对于还原出的原始文件，为了确定是否为敏感文件，可以同样基于上述预设分割规则进行分割，将原始文件分割为至少两个子文件(称为第一子文件)，并计算每个第一子文件的哈希值(即第一哈希值)，这里第一哈希值的计算方式需与上述第二哈希值的计算方式相同，比如均计算MD5值；在获得每个第一子文件的第一哈希值后，则可以基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断原始文件是否为敏感文件；预设分割规则可以根据实际需求设置，比如按照预设大小值来分割，比如预设大小值为10KB，则将文件分割成多个10KB大小的子文件，具体可以根据实际需求设置。

进一步地，基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断原始文件是否为敏感文件，包括：

针对每个第一子文件，将第一子文件的第一哈希值与各第二哈希值进行对比；若第一子文件中第一哈希值与第二哈希值匹配的比例超过预设阈值，则确定原始文件为敏感文件。

具体的，对于将文件分割或简单修改后进行传输的文件，其与变异前的文件具有大部分的相同内容，因此，通过将还原获得的原始文件按照预设分割规则分割成多个第一子文件，其中可能大部分第一子文件的内容是与变异前的文件相同的，因此通过将各第一子文件的第一哈希值与各预设敏感文件的各第二子文件的第二哈希值进行一一匹配，即可判断第一子文件是否与某个第二子文件相同，或该原始文件的第一子文件中有相当比例的第一子文件是与某预设敏感文件的第二子文件相同，则表示该原始文件可能是经过变异的敏感文件，具体比例的预设阈值可以根据实际需求设置，比如设置为0.6、0.8等。

示例性的，预设阈值为0.7，原始文件被分割成了10个第一子文件，其中有8个第一子文件与某预设敏感文件A的8个第二子文件相同，则表示该原始文件中有至少80％的内容与该预设敏感文件A相同，可以认为该原始文件为该预设敏感文件A的变异文件。

作为另一种可实施的方式，若确定原始文件为敏感文件，则生成原始文件对应的基础事件，包括：

若确定原始文件为敏感文件，则基于原始文件的文件标识、五元组信息、时间信息、敏感命中规则信息及其他相关信息中的至少一种信息，生成原始文件对应的基础事件。

具体的，文件标识可以指文件ID或文件名称，五元组信息包括源IP、目的IP、源端口、目的端口及协议，敏感命中规则信息可以是该文件涉及的敏感信息内容及对应的敏感判断规则，具体可以根据实际需求设置。

基础事件的记录方式可以根据实际需求设置，比如以表格方式记录，具体不做限定。

作为另一种可实施的方式，获取还原出的原始文件，包括：

获取原流量数据，原流量数据包括至少一条数据流；针对每条数据流，将数据流进行重组，获得对应的原数据；对原数据进行上层协议解析，确定原数据对应的协议类型；基于原数据对应的协议类型，对原数据进行文件还原，获得还原出的原始文件；相应的，该方法还包括：获取各原始文件对应的元数据；将各原始文件及对应的元数据进行持久化处理。

具体的，原流量数据可以是实时接收的流量数据，也可以是历史流量数据，原流量数据包括一条或多条数据流，数据流是指具有相同五元组的报文的集合，对于原流量数据，需要将属于同一数据流的报文进行重组来获得原始需要传输的原数据，对原数据进行上层协议解析，确定原数据对应的协议类型；不同协议类型的文件还原方式不同，因此，基于原数据对应的协议类型，采用相应的还原方式对原数据进行文件还原，获得还原出的原始文件；文件还原包括基于HTTP协议的文件还原、基于FTP数据流和控制流关联的文件还原、基于邮件的MIME格式的文件还原、基于UDP的TFTP文件还原、基于文件共享的文件还原等，具体可以根据实际需求设置。

在还原出原始文件后，需要将还原出的原始文件及对应的元数据进行持久化处理，比如持久化的磁盘；文件的元数据主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件纪录等功能。

进一步地，为了提高系统处理性能，在针对每条数据流，将数据流进行重组，获得对应的原数据之前，该方法还包括：

针对每条数据流，基于数据流的四元组信息确定数据流的第三哈希值；根据第三哈希值，确定数据流对应的目标线程，以使目标线程将数据流进行重组，获得对应的原数据。

具体的，为了提高系统处理性能，可以采用多线程进行并行处理，具体来说，在获取到原流量数据后，可以通过哈希值映射将不同的数据流分发到不同的线程执行后续的处理，可以基于数据流的四元组信息来确定数据流的第三哈希值(HASH值)，根据第三哈希值确定处理该数据流的目标线程，从而通过该目标线程将数据流进行重组获得对应的原数据，以及进行后续相关处理，即对原数据进行上层协议解析，确定原数据对应的协议类型，基于原数据对应的协议类型，对原数据进行文件还原，获得还原出的原始文件等处理，从而对于不同数据流通过不同的线程进行相应的数据处理，可实现并行处理，有效提高数据处理速度，从而提高系统处理性能。

在一些实施方式中，还可以对基础事件或泄露事件进行聚合，便于用户统计分析，具体来说，可以通过文件名、源IP、目的IP、泄露方IP、组织部门等不同维度对基础事件进行聚合。

在一些实施方式中，该方法还可以包括：基于基础事件进行关联分析并展示。

具体的，比如将基础事件、文件流转数据、基础事件聚合结果、统计结果等进行关联分析并图形化展示；用户还可以输入查看条件，根据用户查看条件筛选对应的查看内容进行展示。

示例性的，如图3所示，为本实施例提供的一种关联分析的展示示意图，该示例中对文件的基础事件进行聚合展示，并展示取证结果，具体来说，用户可以输入文件名称“技术原理.xlsx”及选择想要查看的时间段，点击“关联分析”即可展示在该时间段内该文件流转的拓扑图，具体包括源IP及目的IP，取证结果涉及统计去重后的5个IP。

还可以对文件敏感度进行分级，比如高敏感度、中敏感度、低敏感度等，具体分级规则可以根据实际需求设置。

示例性的，如图4所示，为本实施例提供的另一种关联分析的展示示意图，该示例中，用户可以针对特定对象IP结合时间段查看该特定对象IP在各时间点与其他IP传输的文件情况；此外，还可以对涉及到的文件进行列表展示，如图5所示，为本实施例提供的再一种关联分析的展示示意图，该图中对图4所涉及的文件进行列表展示，其中序号可表示总共涉及到的不重复的文件数量；在实际应用中该展示内容可以与图4中内容展示在不同页面，比如可以在图4所示的页面设置“文件列表”入口，通过点击该按钮进入文件列表展示页面，具体可以根据实际需求设置。

示例性的，如图6所示，为本实施例提供的又一种关联分析的展示示意图，该示例中，将文件传输事件敏感度进行了分级，也即涉及全部敏感度的文件流转情况，灰色的深浅表示敏感度不同，越深表示敏感度越高。

在实际应用中，对于各种数据的展示方式不限于上述几种，可以根据实际需求设置更多其他方便用户查看的展示内容。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施，本发明不做限定。

本实施例提供的文件流转的处理方法，通过对生成的基础事件进行去重降噪并关联生成文件流转数据，提高了文件流转数据的有效性和准确性；还通过生成并展示文件流转拓扑图，方便用户快速查看文件流转情况；还通过分割子文件的方式来检测敏感文件，实现了变异文件的敏感性识别，解决了敏感文件因变异泄露而无法溯源取证的问题。

本发明再一实施例提供一种文件流转的处理装置，用于执行上述实施例的方法。

如图7所示，为本实施例提供的文件流转的处理装置的结构示意图。该装置30包括：获取模块31、确定模块32、生成模块33和处理模块34。

其中，获取模块，用于获取还原出的原始文件；确定模块，用于针对每个原始文件，基于预设判断规则判断原始文件是否为敏感文件；生成模块，用于若确定原始文件为敏感文件，则生成原始文件对应的基础事件；处理模块，用于根据各基础事件生成文件流转数据。

具体的，获取模块可以从预设存储区域获取还原出的原始文件，也可以是在文件还原时实时获取还原出的原始文件，具体可以根据实际需求设置；获取模块将获取到的原始文件发送给确定模块，确定模块针对每个原始文件，基于预设判断规则判断原始文件是否为敏感文件，并将判断结果发送给生成模块，或者将判断出的敏感文件发送给生成模块；生成模块将确定为敏感文件的原始文件生成对应的基础事件，并发送给处理模块；处理模块则根据各基础事件生成文件流转数据。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，且能够达到相同的技术效果，此处将不做详细阐述说明。

为了使本发明的装置更加清楚，本发明又一实施例对上述实施例提供的装置做进一步补充说明。

作为一种可实施的方式，为了提高文件流转数据的有效性和准确性，在上述实施例的基础上，可选地，处理模块，具体用于：

对基础事件进行去重及降噪处理，获得第一事件；根据预设关联规则将各第一事件进行关联，获得文件流转数据。

作为另一种可实施的方式，为了能够方便用户查看文件流转情况，在上述实施例的基础上，可选地，处理模块，还用于根据文件流转数据生成文件流转拓扑图。

作为另一种可实施的方式，为了能够有效地判断原始文件是否为敏感文件，在上述实施例的基础上，可选地，确定模块，具体用于：

作为另一种可实施的方式，为了保证变异敏感文件能够被有效的识别，在上述实施例的基础上，可选地，确定模块包括：分割子模块、确定子模块和判断子模块。

其中，分割子模块，用于基于预设分割规则将原始文件分割为至少两个第一子文件；确定子模块，用于获取每个第一子文件的第一哈希值；判断子模块，用于基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断原始文件是否为敏感文件。

具体的，确定模块的分割子模块接收获取模块发送的原始文件，基于预设分割规则将原始文件分割为至少两个第一子文件，并发送给确定子模块；确定子模块获取每个第一子文件的第一哈希值，并发送给判断子模块；判断子模块基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断原始文件是否为敏感文件，并将判断结果发送给生成模块。

进一步地，判断子模块，具体用于：

作为另一种可实施的方式，在上述实施例的基础上，可选地，生成模块，具体用于：

作为另一种可实施的方式，在上述实施例的基础上，可选地，获取模块包括：获取子模块、重组子模块、解析子模块、还原子模块和处理子模块。

其中，获取子模块，用于获取原流量数据，原流量数据包括至少一条数据流；重组子模块，用于针对每条数据流，将数据流进行重组，获得对应的原数据；解析子模块，用于对原数据进行上层协议解析，确定原数据对应的协议类型；还原子模块，用于基于原数据对应的协议类型，对原数据进行文件还原，获得还原出的原始文件；还原子模块，还用于获取各原始文件对应的元数据；处理子模块，用于将各原始文件及对应的元数据进行持久化处理。

具体的，获取子模块可以从原流量数据的相应存储区域获取该原流量数据，也可以是网络实时传输接收到的原流量数据，具体可以根据实际需求设置；获取子模块将原流量数据发送给重组子模块；重组子模块针对每条数据流，将数据流进行重组，获得对应的原数据，并发送给解析子模块；解析子模块对原数据进行上层协议解析，确定原数据对应的协议类型，并发送给还原子模块；还原子模块基于原数据对应的协议类型，对原数据进行文件还原，获得还原出的原始文件；还原子模块还可以获取各原始文件对应的元数据，还原子模块将原始文件及对应的元数据发送给处理子模块，处理子模块将各原始文件及对应的元数据进行持久化处理。

进一步地，为了提高系统处理性能，重组子模块，还用于：

可选地，文件流转的处理装置还可以按照其他方式进行模块划分，具体可以根据实际需求设置。

在一示例性实施例中，如图8所示，为本实施例提供的文件流转的处理装置的一种示例性结构示意图，该装置可以包括文件还原子系统、事件生成子系统、关联聚合子系统和应用展示子系统，首先，通过ip、文件等不同的维度还原整个文件泄露流程，用于对文件泄露者的深度定位取证；同时，对于不同的行业，支持定义不同的敏感关键字模板，使泄露事件更加具有针对性；最后，变被动为主动，通过设置观察组IP模块，以“钓鱼”的方式对特殊对象进行重点排查，从而能够更及时、有效的应对泄露事件。

各子系统的具体结构如下：

1、文件还原子系统

文件还原子系统可以包括数据采集模块、数据分发模块、报文重组模块、DPI(DeepPacket Inspection，深度报文解析)模块、文件还原模块和文件留存模块。

其中，数据采集模块则主要是实时或定时获取网络全流量发送给数据分发模块，比如对核心、骨干节点的流量进行镜像或者分光来实时获得网络全流量，还可以支持通过回放pcap文件等方式对历史的文件进行还原；数据分发模块则主要是对上述数据采集模块采集的数据进行分发，比如通过源IP、目的IP、源端口、目的端口生成HASH值，将不同的数据分发到不同的处理线程进行后续处理，从而提升程序的处理性能；报文重组模块主要是对报文进行重组，包括IP层的IP分片处理；传输层的TCP分段、重传处理等，为上层协议解析提供支撑，将重组获得的原数据发送给DPI模块；DPI模块对原数据进行上层协议解析，确定对应的协议类型，协议类型包括HTTP、FTP、SMTP、IMAP、POP、SMB、TFTP等主流的文件传输协议，以及WECHAT、OICQ等即时通讯类协议；文件还原模块则用于对文件进行还原，并记录文件的元数据，文件还原包括基于HTTP协议的文件还原，基于FTP数据流和控制流关联的文件还原、基于邮件的MIME格式的文件还原，基于UDP的TFTP文件还原、基于文件共享的文件还原等；文件留存模块则将还原的原始文件及对应的元数据进行持久化处理。

2、事件生成子系统

事件生成子系统包括文件输入模块、内置算法模块、规则匹配模块和观察组IP模块。

其中，文件输入模块主要是接收文件还原子系统还原出的原始文件及对应的元数据，并发送给内置算法模块、规则匹配模块和观察组IP模块；内置算法模块通过内置的算法识别各原始文件中通用的敏感信息，比如通过模11算法识别身份证号码、通过LUHN(模10算法)识别银行卡号等，将识别出的敏感文件生成基础事件；规则匹配模块主要是针对各行业的特殊性，可以收集各行业不同的关键字模块，对原始文件中命中该模板中关键字规则的文件生成基础事件，并且用户可以自定义模板，从而增加系统的灵活性和可扩展性；观察组IP模块则是一类特殊的规则，即对于重点观测、怀疑的对象,或者从第三方安全系统对接有过可疑行为的IP，将其加入观察组进行“钓鱼”，对组内对象的所有文件流转事件均进行记录，生成基础事件。事件生成子系统将生成的基础事件加入到消息队列，以使关联聚合子系统进行后续处理。

3、关联聚合子系统

关联聚合子系统包括事件输入模块、二次处理模块和事件存储模块。

其中，事件输入模块主要是从消息队列中获取事件生成子系统产生的基础事件发生给二次处理模块；二次处理模块对基础事件进行去重、降噪处理，比如通过设置时间窗口，对于同一五元组如果在该时间窗口内有类似的事件，则进行去重处理；同时通过文件名，文件MD5值等不同维度将文件进行关联，结合时间、源IP、目的IP等还原文件泄露的完整流程，获得精准文件泄露事件，并将精准文件泄露事件发送给事件存储模块；事件存储模块对二次处理后的精准文件泄露事件进行存储，以备展示。

4、应用展示子系统

应用展示子系统包括基础事件模块、聚合事件模块、流转可视化模块、全局视角模块、观察组视角模块和风险预警模块。

其中，基础事件模块主要是对二次处理后的精准文件泄露事件进行展示，展示内容可以包括文件泄露事件、五元组、泄露方、原始文件下载、命中规则信息等，具体可以根据实际需求设置；聚合事件模块主要是对二次处理后的精准文件泄露事件进行聚合统计后进行展示，便于用户查看，具体可以通过文件名、源IP、目的IP、泄露方IP、组织部门等不同的维度对事件进行聚合；流转可视化模块主要是从流转角度将单个的泄露事件串起来，还原完整的泄露过程，比如可以通过IP、文件、IP+文件等不同的维度对整个文件泄露过程进行图形化展示，便于溯源定位；全局视角模块主要是展示命中敏感关键字规则(即基于预设关键字模板确定的敏感文件)的文件对应的泄露事件；观察组视角模块主要用于展示基于预设特定对象所确定的敏感文件的泄露事件；风险预警模块主要是对文件泄露事件进行更精细化的处理，以进行风险预警，比如高危时段事件预警以及用户自定义风险预警等，具体可以根据实际需求设置，可以在相应区域展示风险预警信息。

示例性的，可以为应用展示子系统的不同模块设置相应的展示区域，以展示各部分的内容，具体的展示界面可以根据实际需求设置，本发明实施例不做限定。

本实施例中，文件还原子系统监听目标网络核心或骨干节点的上下行全流量，网络中的用户访问网络资源，通过上传或下载的方式发起文件交互，文件还原子系统获取镜像流量，基于配置的协议还原文件、并记录和该文件相关的元数据，如五元组信息、文件上传/下载时间等，将文件和元数据持久化到磁盘；事件生成子系统遍历文件，通过内置的算法模型、关键字规则模板、观察组IP规则等从不同维度对文件进行判定，生成敏感文件流转事件(即基础事件)；关联聚合子系统获取初步的敏感事件，通过大数据技术，对事件进行去重、降噪、关联、聚合处理，生成精准度较高的敏感文件流转事件，应用展示子系统则从不同角度展示敏感事件，并可以从IP、文件、IP+文件等不同维度对整个文件流转事件进行溯源，定位文件泄露完整流程。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。

本发明再一实施例提供一种电子设备，用于执行上述实施例提供的方法。该电子设备可以是服务器或其他可实现的计算机设备。

如图9所示，为本实施例提供的电子设备的结构示意图。该电子设备50包括：存储器51、收发器52及至少一个处理器53。

其中，处理器、存储器与收发器通过电路互联；存储器存储计算机执行指令；收发器，用于接收报文；至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上任一实施例提供的方法。

具体的，该电子设备接收网络传输的报文并存储，作为原流量数据发送给处理器，处理器可以将原流量数据进行存储，读取并执行存储器存储的计算机执行指令，以实现如上任一实施例提供的方法。

该电子设备可以应用于任意网络系统的网络安全场景，为用户提供精准的、有价值的文件泄露溯源取证信息，该电子设备可以为实体机、虚拟机或云主机部署，具体可以根据实际需求设置，该电子设备通过旁路部署在网络系统中，通过镜像流量来获取网络的流量数据，无需改变网络结构不影响现有的网络环境，部署实施简单，且占用资源较少，不占用客户端或内网业务服务资源，对用户无感知，无需像DLP等产品一样需要部署客户端，本发明只需要核心或者汇聚节点镜像流量即可，且本发明电子设备升级维护简单；并且本发明功能聚焦，只关注数据安全的核心—文件安全，从根本上避免了用户面对海量数据安全事件而无从排查的尴尬局面，达到文件分布可视、文件流转可知、文件泄露可查的目的，且本发明溯源定位简单、清洗，支持从IP、文件、IP+文件等不同的维度还原文件泄露的完整途径；且本发明高度可定制化，可以根据不同的行业定制不同的敏感关键字规则模板，即可以只关注用户关注的敏感文件泄露事件，提高用户体验。本发明解决了现有数据安全产品功能配置复杂、存在大量误报、溯源定位困难、不利于用户使用等根本问题。

需要说明的是，本实施例的电子设备能够实现上述任一实施例提供的方法，且能够达到相同的技术效果，在此不再赘述。

本发明又一实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上任一实施例提供的方法。

需要说明的是，本实施例的计算机可读存储介质能够实现上述任一实施例提供的方法，且能够达到相同的技术效果，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种文件流转的处理方法，其特征在于，包括：

获取还原出的原始文件；

根据各所述基础事件生成文件流转数据。

2.根据权利要求1所述的方法，其特征在于，所述根据各所述基础事件生成文件流转数据，包括：

对基础事件进行去重及降噪处理，获得第一事件；

根据预设关联规则将各第一事件进行关联，获得所述文件流转数据。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述文件流转数据生成文件流转拓扑图。

4.根据权利要求1所述的方法，其特征在于，基于预设判断规则判断所述原始文件是否为敏感文件，包括：

基于预设算法识别所述原始文件中是否包括预设类型的敏感信息；和/或，

基于预设关键字模板，判断所述原始文件是否为敏感文件；和/或，

基于预设特定对象，判断所述原始文件是否为敏感文件。

5.根据权利要求1所述的方法，其特征在于，所述基于预设判断规则判断所述原始文件是否为敏感文件，包括：

基于预设分割规则将所述原始文件分割为至少两个第一子文件；

获取每个第一子文件的第一哈希值；

基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断所述原始文件是否为敏感文件。

6.根据权利要求5所述的方法，其特征在于，所述基于各第一子文件的第一哈希值及预设敏感文件的各第二子文件的第二哈希值判断所述原始文件是否为敏感文件，包括：

针对每个所述第一子文件，将所述第一子文件的第一哈希值与各第二哈希值进行对比；

若所述第一子文件中第一哈希值与第二哈希值匹配的比例超过预设阈值，则确定所述原始文件为敏感文件。

7.根据权利要求1所述的方法，其特征在于，所述若确定所述原始文件为敏感文件，则生成所述原始文件对应的基础事件，包括：

若确定所述原始文件为敏感文件，则基于所述原始文件的文件标识、五元组信息、时间信息、敏感命中规则信息及其他相关信息中的至少一种信息，生成所述原始文件对应的基础事件。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取还原出的原始文件，包括：

获取原流量数据，所述原流量数据包括至少一条数据流；

针对每条数据流，将所述数据流进行重组，获得对应的原数据；

对所述原数据进行上层协议解析，确定所述原数据对应的协议类型；

基于所述原数据对应的协议类型，对所述原数据进行文件还原，获得还原出的原始文件；

所述方法还包括：

获取各原始文件对应的元数据；

将各原始文件及对应的元数据进行持久化处理。

9.根据权利要求8所述的方法，其特征在于，在所述针对每条数据流，将所述数据流进行重组，获得对应的原数据之前，所述方法还包括：

针对每条数据流，基于所述数据流的四元组信息确定所述数据流的第三哈希值；

根据所述第三哈希值，确定所述数据流对应的目标线程，以使所述目标线程将所述数据流进行重组，获得对应的原数据。

10.一种文件流转的处理装置，其特征在于，包括：

获取模块，用于获取还原出的原始文件；

处理模块，用于根据各所述基础事件生成文件流转数据。

11.一种电子设备，其特征在于，包括：存储器、收发器及至少一个处理器；

所述处理器、所述存储器与所述收发器通过电路互联；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-9任一项所述的方法。