CN114579961A

CN114579961A - 基于多行业检测规则的敏感数据识别方法及相关装置

Info

Publication number: CN114579961A
Application number: CN202111572287.1A
Authority: CN
Inventors: 杨光; 都婧; 宋璟; 白云波; 王立松; 佟鑫
Original assignee: China Information Technology Security Evaluation Center
Current assignee: China Information Technology Security Evaluation Center
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-06-03

Abstract

本发明公开了一种基于多行业检测规则的敏感数据识别方法及装置，包括：接收预先选定的敏感数据识别关键项，敏感数据识别关键项至少为一个；将敏感数据识别关键项转换为多行业敏感数据识别规则；获取待识别网络流量，确定待识别网络流量的流入地址和流出地址；对待识别网络流量进行恢复和拆解，得到临时文件；基于多行业敏感数据识别规则对临时文件进行识别，在待识别网络流量中的存在敏感数据的情况下，基于流入地址和流出地址对待识别网络流量中的敏感数据进行溯源。上述过程，在进行敏感数据识别过程中，确定了待识别网络流量中敏感数据的流入地址和流出地址，实现了对待识别网络流量中敏感数据的溯源，保证了敏感数据在网络流量中的安全性。

Description

基于多行业检测规则的敏感数据识别方法及相关装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于多行业检测规则的敏感数据识别方法及相关装置。

背景技术

我国作为全球数据资源大国，也是数据资源流出大国，随着国际合作的不断加深，我国重要行业、优秀的信息服务企业(如跨境金融、跨境电商等)及境内外大型跨国公司的数据出境活动日益频繁，其中可能存在涉及我国公民个人隐私甚至涉及我国国家安全、经济发展和社会公共利益相关的重要数据。

目前数据监测功能集成在多类产品中，如网络流量监控设备、终端安全管理系统等，现有产品大多只能进行简单的网络流量中的敏感数据进行识别，但不能保证敏感数据在网络流量中的安全性。

发明内容

有鉴于此，本发明提供了一种基于多行业检测规则的敏感数据识别方法及相关装置，用以解决目前数据监测功能集成在多类产品中，如网络流量监控设备、终端安全管理系统等，现有产品大多只能进行简单的网络流量中的敏感数据进行识别，但不能保证敏感数据在网络流量中安全性的问题。具体方案如下：

一种基于多行业检测规则的敏感数据识别方法，包括：

接收预先选定的敏感数据识别关键项，其中，所述敏感数据识别关键项至少为一个；

将所述敏感数据识别关键项转换为多行业敏感数据识别规则；

获取待识别网络流量，确定所述待识别网络流量的流入地址和流出地址；

对所述待识别网络流量进行恢复和拆解，得到临时文件；

基于所述多行业敏感数据识别规则对所述临时文件进行识别，在识别结果为所述待识别网络流量中存在敏感数据的情况下，基于所述流入地址和所述流出地址对所述待识别网络流量中的敏感数据进行溯源。

上述的方法，可选的，确定所述待识别网络流量的流入地址和流出地址，包括：

获取所述待识别网络流量，以及所述待识别网络流量中的目的地址和源地址；

基于所述源地址确定所述待识别网络流量的流出地址；

基于所述目的地址确定所述待识别网络流量的流入地址。

上述的方法，可选的，对所述待识别网络流量进行恢复和拆解，得到临时文件，包括：

确定所述待识别网络流量的应用层协议和各个报文；

基于所述应用层协议对所述各个报文进行恢复，得到源文件；

确定所述源文件的文件格式，基于所述文件格式将所述源文件拆解成临时文件。

上述的方法，可选的，基于所述多行业敏感数据识别规则对所述临时文件进行识别，包括：

遍历所述多行业敏感数据识别规则中的每个敏感数据识别关键项，针对每个敏感数据识别关键项与所述临时文件中的各个对应项进行比对；

当所述临时文件中的各个对应项与敏感数据识别关键项相匹配的目标对应项达到指定告警权重时，判定所述待识别网络流量中存在敏感数据，反之，判定所述待识别网络流量中不存在敏感数据。

上述的方法，可选的，确定所述待识别网络流量的流入地址和流出地址之前还包括:

对所述待识别网络流量的外观进行标识，其中，所述外观包括：所述待识别网络流量的字节数、所述待识别网络流量的文件指纹和所述待识别网络流量的流入地址。

一种基于多行业检测规则的敏感数据识别装置，包括：

接收模块，用于接收预先选定的敏感数据识别关键项，其中，所述敏感数据识别关键项至少为一个；

转换模块，用于将所述敏感数据识别关键项转换为多行业敏感数据识别规则；

网络流量获取模块，用于获取待识别网络流量，确定所述待识别网络流量的流入地址和流出地址；

恢复和拆解模块，用于对所述待识别网络流量进行恢复和拆解，得到临时文件；

识别和溯源模块，用于基于所述多行业敏感数据识别规则对所述临时文件进行识别，在识别结果为所述待识别网络流量中存在敏感数据的情况下，基于所述流入地址和所述流出地址对所述待识别网络流量中的敏感数据进行溯源。

上述的装置，可选的，所述网络流量获取模块包括：

获取单元，用于获取所述待识别网络流量，以及所述待识别网络流量中的目的地址和源地址；

第一确定单元，用于基于所述源地址确定所述待识别网络流量的流出地址；

第二确定单元，用于基于所述目的地址确定所述待识别网络流量的流入地址。

上述的装置，可选的，所述恢复和拆解模块包括：

第三确定单元，用于确定所述待识别网络流量的应用层协议和各个报文；

恢复单元，用于基于所述应用层协议对所述各个报文进行恢复，得到源文件；

拆解单元，用于确定所述源文件的文件格式，基于所述文件格式将所述源文件拆解成临时文件。

上述的装置，可选的，所述识别和溯源模块包括：

比对单元，用于遍历所述多行业敏感数据识别规则中的每个敏感数据识别关键项，针对每个敏感数据识别关键项与所述临时文件中的各个对应项进行比对；

判定单元，用于当所述临时文件中的各个对应项与敏感数据识别关键项相匹配的目标对应项达到指定告警权重时，判定所述待识别网络流量中存在敏感数据，反之，判定所述待识别网络流量中不存在敏感数据。

一种基于多行业检测规则的敏感数据识别设备，至少包括权利要求6-9中任意一项所述装置。

与现有技术相比，本发明包括以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于多行业检测规则的敏感数据识别方法流程图；

图2为本发明实施例公开的一种基于多行业检测规则的敏感数据识别方法逻辑构造示意图；

图3为本发明实施例公开的一种基于多行业检测规则的敏感数据识别方法又一流程图；

图4为本发明实施例公开的一种基于多行业检测规则的敏感数据识别装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于多行业检测规则的敏感数据识别方法及装置，应用于网络流量中敏感数据的识别过程中，目前数据监测功能集成在多类产品中，如网络流量监控设备、终端安全管理系统等，但本装置在事件溯源和追踪、检测规则集和追踪以及产品形态方面与现有产品均存在差异。在事件溯源和追踪方面，现有产品大多只能进行简单的网络流量追踪，并且在数据流向上不会区分是流向境内还是境外；在检测规则集方面，现有产品网络流量监控设备、终端安全管理系统仅集成通用或是适合本企业的数据检测规则；基于上述的问题，一种基于多行业检测规则的敏感数据识别方法，对通过网络流向境外的个人信息或企业的敏感信息等重要数据进行检测、溯源和追踪，以确保敏感数据在网络流量中的安全性，所述方法的执行流程如图1所示，包括步骤：

S101、接收预先选定的敏感数据识别关键项，其中，所述敏感数据识别关键项至少为一个；

本发明实施例中，根据多年服务国家关键信息基础设施重要行业的测评经验积累，针对多个重要行业定义的行业重要数据，提取个人信息以及金融、电信、电力等多个行业敏感数据识别，基于经验或者具体的应用场景预先限定敏感数据识别关键项，其中，所述敏感数据识别关键项至少为一个，所述敏感数据识别关键项涵盖关键信息基础设施多行业(如银行业、电信行业、电力行业等)，可以为某类的银行卡号、是否检查中国身份证号、是否符合某行业重要数据特征、是否达到敏感字典权重等，其中，敏感字典权重可针对不同规则，根据测评经验自行设定，本发明实施例中不进行具体限定。

S102、将所述敏感数据识别关键项转换为多行业敏感数据识别规则；

本发明实施例中，针对所述敏感数据识别关键项的外观信息，如：大小、格式(office、wps、压缩包等等)、目的(是否境外)、途径(网页、邮件、FTP、云盘等等)组成多行业敏感数据识别规则，进一步的，将所述多行业敏感数据识别规则转换成检测设备可以理解的json格式的指令文件。

S103、获取待识别网络流量，确定所述待识别网络流量的流入地址和流出地址；

本发明实施例中，获取待识别网络流量，其中，所述待识别网络流量可以为直接采集到的网络流量也可以为间接采集到的监听包文件或者两者的组合，例如，所述待识别的网络流量可以为通过POST/PUT动作上传的内容和文件，通过GET方式下载的内容和文件，通过网页邮箱外发邮件(含附件)，向论坛、贴吧、文库等公共平台的外发数据，通过SMTP协议发送的邮件(含附件)，通过邮件客户端从邮件服务器中下载的邮件(含附件)，QQ离线文件外发、群共享方式文件外发等，采用FTP协议进行下载/上传的文件内容，各种云盘网页上传文件和通过SAMBA共享外传的文件等。

获取所述待识别网络流量中的IP地址中的目标地址和源地址，基于所述源地址确定所述待识别网络流量的流出地址，基于所述目的地址确定所述待识别网络流量的流入地址。其中，所述流入地址和所述流出地址的确定过程可以通过遍历溯源信息库、动态境外地址库和追踪信息库的方式实现，所述溯源信息库中存储有每个源地址对应的流出地址，所述动态境外地址库中存储有每个境外目的地址，所述追踪信息库中存储有待识别网络流量的数据流向，其中，所述溯源信息库、所述动态境外地址库和所述追踪信息库是不断更新的，本发明实施例中对具体的更新方式不进行限定。

进一步的，所述流入地址和所述流出地址可以为外网地址或者境外地址，其中，外网地址：IPV4将A\B\C每类子网网址，挖出一块叫内网地址，如C类的192.168.X.X、B类的172、A类的10等，其他的叫外网地址，外网地址在公网上不重复，可以直接互相访问。内网地址，不同单位可能相同，不能直接与外网通信，需要将负载转移到外网地址。境外地址：单独维护一个对应表，说明IP哪个/些地址/段分配给了中国，哪些地址段分配给了其它国家等等。地址段不连续、也没有国籍规律，只能人为维护。现有的大多数网址已经分配完毕，这种方式在绝大多数情况下可以得知某个IP属于哪个国家、地区。极少数新分配、有变化的IP，在这个库更新的时候予以更新。

S104、对所述待识别网络流量进行恢复和拆解，得到临时文件；

本发明实施例中，解析所述待识别网络流量，获取所述待识别网络流量中的协议标识，其中，每一个协议标识对应一个应用层协议，基于所述协议标识确定所述待识别网络流量的应用层协议，进一步的，所述待识别网络流量中包含多个IP报文，单个IP报文大小受限制，传送一个文件的过程常常被分解到多个IP包中，获取所述待识别流量中包含的各个报文。读取标志位、链接串号、数据包头等信息，分析其使用的应用层协议，其中，每一个应用层协议，会对应一个一种IP报文的分解和恢复方法，针对不同的应用层协议，将分解在多个报文中文件数据拼接成源文件，获取所述源文件的文件格式标识，基于所述文件格式标识，确定所述源文件的文件格式，每一种文件格式对应一个文件拆解引擎，选取与所述文件格式对应的文件拆解引擎，基于所述文件拆解引擎将所述源文件拆解转换成UTF-8的编码，得到所述零时临时文件。

S105、基于所述多行业敏感数据识别规则对所述临时文件进行识别，在识别结果为所述待识别网络流量中存在敏感数据的情况下，基于所述流入地址和所述流出地址对所述待识别网络流量中的敏感数据进行溯源。

本发明实施例中，基于所述多行业敏感数据识别规则对所述临时文件进行识别，遍历所述多行业敏感数据识别规则中的每个敏感数据识别关键项，针对每个敏感数据识别关键项与所述临时文件中的各个对应项进行比对，当所述临时文件中的各个对应项与敏感数据识别关键项相匹配的目标对应项达到指定告警权重(自行设定，≥1)时，判定所述待识别网络流量中存在敏感数据，判定所述待识别网络流量中存在敏感数据，

基于所述流入地址和所述流出地址对所述待识别网络流量中的敏感数据进行溯源，确定所述待识别网络流量的数据流向。

本发明公开了一种基于多行业检测规则的敏感数据识别方法，包括：接收预先选定的敏感数据识别关键项，敏感数据识别关键项至少为一个；将敏感数据识别关键项转换为多行业敏感数据识别规则；获取待识别网络流量，确定待识别网络流量的流入地址和流出地址；对待识别网络流量进行恢复和拆解，得到临时文件；基于多行业敏感数据识别规则对临时文件进行识别，在待识别网络流量中的存在敏感数据的情况下，基于流入地址和流出地址对待识别网络流量中的敏感数据进行溯源。上述过程，在进行敏感数据识别过程中，确定了待识别网络流量中敏感数据的流入地址和流出地址，实现了对待识别网络流量中敏感数据的溯源，保证了敏感数据在网络流量中的安全性，实现了敏感数据在网络流量中的追踪定位。

本发明实施例中，所述识别方法内置于敏感数据识别系统网络监控平台&管理平台，该平台可以存在于终端服务器中也可以作为便携式工具箱存在，所述平台的顶层逻辑构造如图2所示，包括：

底层基础包括：数据采集层和恢复拆解层，其中，数据采集层用于将直接采集到的网络流量和间接采集到的监听包文件上传到恢复与拆解层，所述恢复与拆解层用于通过网络共享文件将待拆解的本地文件拆解成敏感内容扫描的临时文件，将所述临时文件上传到检测层。

上层人机接口包括：操作界面和表示层，其中，所述操作界面包括：人员管理、系统配置、规则管理，时间展示、分析报表和对外接口，所述表示层用于将所述操作界面定义好的规则翻译成计算机语言并存储，并将所述检测层反馈的事件规范成可展示的数据并存储，将事件翻译成人类理解的图、表、文字展示给检查人员。之后通过所述操作界面中的事件展示、分析报表和对外接口进行展示。

中间是完成内容扫描的核心检测层，所述检测层用于提取规则中包含的算法，如：关键字、正则、标识符、字典、IDM/EDM索引等等，形成扫描可用的特征，并将拆解成的可扫描文件按照所述表示层下发的多行业敏感数据识别规则，调用不同的扫描算法代码，将他们应用到目标文件上。检查出那些目标文件是否符合检查策略所表述的内容。符合的形成敏感事件回传到所述表示层，其中，所述敏感事件以时间，特征和文件等形式存在。

本发明实施例中，针对文件恢复过程主要包括：从网络流量中恢复出文件：文档、网页、邮件和压缩包等。主要工作是处理各种网络协议:HTTP、FTP和SMTP等；针对文件拆解过程：将文件拆解成可以扫描的文字、图片格式：UTF8等，主要工作是处理各种文件格式：OFFICE、WPS和压缩等。内容扫描过程的主要工作包括找出符合规则描述的特征部分，主要工作是使用各种算法：关键字、正则、字典、标识符、IDM/EDM等，事件处理过程将扫描结果按照预先定义的相应规则进行处理，主要工作是执行规则对应的代码：上传事件，处理敏感数据等。

本发明实施例中，敏感数据以多种分散的、集中的格式存储在文件中，文件通过网页、邮件、云盘等多种程序向外发送。这些数据形成网络流量，汇聚到网络出口设备。本发明所述识别方法利用流量镜像等方式，将数据传输至自身的检测网卡。识别分析子系统，对镜像的流量进行恢复还原，并同步分析出发送者IP(互联网协议)地址、发送时间、发送方式、发送内容、接受方IP等关键信息。恢复出的文件，排队等待敏感内容扫描模块的检查。扫描模块会判断出这些文件发送的内容，是否违反了由应用管理子系统制定的安全策略。系统还内置了溯源信息库等对事件的源IP、相应的组织及人员信息进行溯源，同时通过内置的动态地址库和追踪信息库对事件目标进行追踪定位，精确区分境内和境外流量，系统在关注个人信息和重要数据的检测基础之上，还注重关注敏感数据的目标流向和其出境行为，将敏感数据识别发现与目标流向分析相结合，实现对数据外泄行为、泄露事件源头和外发目标地址的监测。

本发明实施例中，在对所述待识别网络流量进行恢复和拆解过程中利用以太网的特性，把网络适配卡置为混杂(promiscuous)模式状态，以接收通过网络镜像来的每一个数据帧，由于它接收任何一个在同一网段上传输的数据包，所以也就可捕获任何没有加密的信息。它把包抓取下来，然后打开并查看其中的结构和内容。通过对IP首部目的地址的分析，得到是否外发到境外。通过对IP报数据部分的分析，得到其是否包含应用层数据，以及数据的种类，进而得到其使用的应用层协议，如HTTP、FTP、SMTP等等。

本发明实施例中，分析应用层协议的处理过程基于基础组件、内容处理和DPI处理模块完成，其中，所述基础组件包括：事件驱动线程模块、日志模块、调试模块和配置信息模块，所述内容处理部分包括：HTTPS、FTP和Telnet，其中，所述Telnet包括：数据流恢复，所述FTP包括：文件恢复、文件上传和控制流解析，所述HTTP包括：HTTP Parser、POST内容文件恢复，邮箱正文恢复、邮箱附件恢复、云上传件恢复和IM上传件恢复。所述DPI处理模块包括：数据包抓取模块、网络数据预处理模块、DPI处理器、连接会话管理和协议识别，其中，所述协议识别包括：HTTPS、FTP和Telnet，所述连接会话管理包括：CACHE1、CACHE2、CACHE3…CACHEN，所述DPI处理器包括：线程1、线程2、线程3…线程N。

以所述应用层协议为FTP协议为例进行说明，FTP是运行在TCP协议之上的，使用两个并行的TCP连接来传输文件，一个是控制连接，另外一个是数据连接。控制连接用于传输控制信息。数据连接仅用于实际传输一个文件，不传输其他信息。控制连接存在于整个会话周期，用于传输客户端与服务器端的命令信息以及反馈信息。其中包括用户名，密码，文件传输方式(Binary——>TYPE I或ASCII——>TYPE A)，文件名等，通过明文方式传输。数据链接存在于需要数据传输时，只用于传输通过FTP上传或下载的数据。其负载部分还原后仅仅为传输的文件或内容，不包含其他信息。在经历三次握手后建立链接，当数据传输完成后在TCP包头标志位标志数据传输完毕，客户端和服务器断开链接。

协议的不同工作模式：如果用错误的模式传输文件，将得到乱码。大多数FTP客户端支持自动识别文件类型并选择合适的传输格式。检测箱除了能够识别出FTP协议外，也要做到自动识别各种FTP模式(IP包头中有此包的负载使用了何种协议的内容)。其他协议也有类似情况。

FTP主动模式(PORT)：

通常客户端从一个任意的非特权端口(N>＝1024)连接到FTP服务器的命令端口，也就是21端口(有的FTP服务器并非如此，根据实际情况)。然后客户端开始监听端口N+1，并发送类似命令“PORT 192.168.9.140.231.34”到FTP服务器，前一部分为客户端IP地址，后一部分通过231*256+34来计算端口号。接着服务器会从它自己的数据端口(20，有的FTP服务器并非如此，根据实际情况)连接到客户端指定的IP和数据端口(N+1)。

FTP被动模式(PASV)：

前期控制链接的建立情况与主动模式相同，不同的是客户端会向服务器发送PASV命令，服务器会返回给客户端类似Entering Passive Mode(192,168,28,28,214,125)这样的命令，接着监听相关端口，客户端收到反馈后从自己的数据端口连接到指定IP的端口。当数据链接建立后，接下来会从服务器端通过控制链接返回Opening data channel forXXXXX的信息(PORT与PASV都是这样)，进行数据传输。传输完成后，服务器会返回Successfully transferred XXXXX的信息，标志数据传输完成。当文件在FTP上传输时，其格式是有可能发生变化的。FTP可用多种格式传输文件，通常由系统决定，大多数系统(包括UNIX系统)只有两种模式：文本模式和二进制模式。文本传输器使用ASCII字符，并由回车键和换行符分开，而二进制不用转换或格式化就可传字符，二进制模式比文本模式更快，并且可以传输所有ASCII值，所以系统管理员一般将FTP设置成二进制模式。

本发明实施例中，基于所述方法的处理流程示意图如图3所示，管理员基于权限管理模块登录检测管理图形化接口，基于策略管理模块、各项策略表、各项事件表、文件拆解模块。敏感内容扫描模块和事件查看报表生成模块生成文件检查队列，将该队列传递给应用流量检测和恢复模块，网关、交换机、路由等边缘设备基于内网和外网获取镜像流量，从镜像流量中取出应用层数据，判断应用层是出境应用层数据吗？若是，记录目的和文件对应的表，将文件提交到扫描模块前排队等待，若否，非出境处理，传递给文件检查队列，其中，互联网中存在境外地址智能学习字典，基于所述境外地址智能学习字典轮询境外IP字典库变动进程，更新本地境外IP字典，本发明实施例中，抓取网络数据包模块得到了所有待检测流量中包含的网络数据，分析应用协议模块恢复了不同协议、不同工作模式的真实文件。在对文件进行进一步拆解、分析扫描之前，需要对其进行外观标识。外观包括但不限于：文件大小、指纹、目的。

大小：就是刚刚恢复后的原始大小，检查策略可以根据大小做不同基本的处理。比如，太大的就不要使用过于复杂的策略；太小要考虑不要写硬盘，而是直接在内存中操作。

指纹：是对文件使用某种散列算法得到的固定长度的识别字串，检测工具箱要保留一段时期内的文件指纹，如果又一次发现相同的指纹，就需要对这个文件的内重复扫描。

目的：是通过其IP地址判断其目的是哪里？如常用的网站、云盘，是否是境外地址。其中判断是否境外地址，并没有协议级别的明确判断依据。就是说给定一个随意的IP并不能判断它是否属于中国，需要首先根据地址规则判断其属于哪类网址，是否属于互联网第四版的外网地址。

通过互联网地址分类规则，A\B\C各类地址段中一部分保留给内网，其他属于外网地址。但这些地址是否属于中国地址？还是境外地址？这在互联网地址分配时没有统一规则。各类地址分配给中国使用的并不连续，而是分散的，且没有固定的规律。这给通过地址判断境内外带来麻烦。

检测工具箱需要通过查地址字典的方式进行目的地址的境内外判断(工具箱内置了地址字典，字典包含公网IP地址和实际国家、地区等地理信息，并可以在线更新。从IP包头中获得目的IP地址后，用IP此地址查找该字典，就找到了国家和地区信息)。工具箱带有的地址字典可进行自学习。检测设备不通互联网时，可以手工通过人机交互界面更新地址字典。在检测设备联通互联网时可以访问云端自建的地址服务更新地址。这个服务存在云端，通过人工智能的方式，自行学习更新地址字典，并对特定的IP地址提供相应新地址字典更新。

还记录其他一些外观属性，如：使用的协议、传送的模式、发送时间等。

综合起来，检测工具箱做到了，可以检测到检测时段内，是否有预定义的敏感信息被发往了境外。若信息或渠道被加密，无法判断内容，也可以通过记录外泄文件的外观达到部分检测目的。如事件可能是：检测到某某事件，使用某某协议，向某某境外地址，发送了大小为某某的加密文件，其指纹为某某。而后，将事件提供其它工具，配合其他检测流程做进一步检查核实。

本发明实施例中，所述方法中将对境外互联网地址的研判，和敏感信息识别技术相结合，检测人员可通过任务管理子系统实时查看跟踪个人信息和行业重要数据外泄至境外的行为，并进一步对事件发起者溯源。通过事件详情查看可明确得知某一IP在某一时间点外发的具体文件和流向的境外IP，精准定位。内置溯源信息库、境外地址库和追踪信息库，并定时进行库更新，确保匹配精准。内置个人信息以及金融、电信、电力等多个关键信息基础设施重要行业数据检测规则，具有良好的应用广泛性。

基于上述的一种基于多行业检测规则的敏感数据识别方法，本发明实施例中还提供了一种基于多行业检测规则的敏感数据识别装置，所述装置的结构框图如图4所示，包括：

接收模块201、转换模块202、网络流量获取模块203、恢复和拆解模204和识别和溯源模块205。

其中，

所述接收模块201，用于接收预先选定的敏感数据识别关键项，其中，所述敏感数据识别关键项至少为一个；

所述转换模块202，用于将所述敏感数据识别关键项转换为多行业敏感数据识别规则；

所述网络流量获取模块203，用于获取待识别网络流量，确定所述待识别网络流量的流入地址和流出地址；

所述恢复和拆解模块204，用于对所述待识别网络流量进行恢复和拆解，得到临时文件；

所述识别和溯源模块205，用于基于所述多行业敏感数据识别规则对所述临时文件进行识别，在识别结果为所述待识别网络流量中的存在敏感数据的情况下，基于所述流入地址和所述流出地址对所述待识别网络流量中的敏感数据进行溯源。

本发明公开了一种基于多行业检测规则的敏感数据识别装置，包括：接收预先选定的敏感数据识别关键项，敏感数据识别关键项至少为一个；将敏感数据识别关键项转换为多行业敏感数据识别规则；获取待识别网络流量，确定待识别网络流量的流入地址和流出地址；对待识别网络流量进行恢复和拆解，得到临时文件；基于多行业敏感数据识别规则对临时文件进行识别，在待识别网络流量中的存在敏感数据的情况下，基于流入地址和流出地址对待识别网络流量中的敏感数据进行溯源。上述过程，在进行敏感数据识别过程中，确定了待识别网络流量中敏感数据的流入地址和流出地址，实现了对待识别网络流量中敏感数据的溯源，保证了敏感数据在网络流量中的安全性，实现了敏感数据在网络流量中的追踪定位。

本发明实施例中，所述网络流量获取模块203包括：

获取单元206、第一确定单元207和第二确定单元208。

其中，

本发明实施例中，所述恢复和拆解模块204包括：

第三确定单元209、恢复单元210和拆解单元211。

其中，

所述第三确定单元209，用于确定所述待识别网络流量的应用层协议和各个报文；

所述恢复单元210，用于基于所述应用层协议对所述各个报文进行恢复，得到源文件；

所述拆解单元211，用于确定所述源文件的文件格式，基于所述文件格式将所述源文件拆解成临时文件。

本发明实施例中，所述识别和溯源模块205包括：

比对单元212和判定单元213。

其中，

所述比对单元212，用于遍历所述多行业敏感数据识别规则中的每个敏感数据识别关键项，针对每个敏感数据识别关键项与所述临时文件中的各个对应项进行比对；

所述判定单元213，用于当所述临时文件中的各个对应项与敏感数据识别关键项相匹配的目标对应项达到指定告警权重时，判定所述待识别网络流量中存在敏感数据，反之，判定所述待识别网络流量中不存在敏感数据。

本发明实施例还提供了一种基于多行业检测规则的敏感数据识别设备，至少包括上述任意一项所述装置。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种基于多行业检测规则的敏感数据识别方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多行业检测规则的敏感数据识别方法，其特征在于，包括：

对所述待识别网络流量进行恢复和拆解，得到临时文件；

2.根据权利要求1所述的方法，其特征在于，确定所述待识别网络流量的流入地址和流出地址，包括：

基于所述源地址确定所述待识别网络流量的流出地址；

基于所述目的地址确定所述待识别网络流量的流入地址。

3.根据权利要求1所述的方法，其特征在于，对所述待识别网络流量进行恢复和拆解，得到临时文件，包括：

确定所述待识别网络流量的应用层协议和各个报文；

4.根据权利要求1所述的方法，其特征在于，基于所述多行业敏感数据识别规则对所述临时文件进行识别，包括：

5.根据权利要求1所述的方法，其特征在于，确定所述待识别网络流量的流入地址和流出地址之前还包括:

6.一种基于多行业检测规则的敏感数据识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述网络流量获取模块包括：

8.根据权利要求6所述的装置，其特征在于，所述恢复和拆解模块包括：

9.根据权利要求6所述的装置，其特征在于，所述识别和溯源模块包括：

10.一种基于多行业检测规则的敏感数据识别设备，其特征在于，至少包括权利要求6-9中任意一项所述装置。