CN109918921A

CN109918921A - 一种网络通信数据涉密检测方法

Info

Publication number: CN109918921A
Application number: CN201811550256.4A
Authority: CN
Inventors: 徐劲榕; 徐宏; 刘书涵; 胡遨洋; 张振威; 金海松; 花志伟; 杨泰
Original assignee: Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-06-21
Anticipated expiration: 2038-12-18
Also published as: CN109918921B

Abstract

本发明涉及涉密数据检测技术领域，具体涉及一种网络通信数据涉密检测方法，包括以下步骤：A）通用解密方式解密数据，解密成功进入C；B）验证数据发送源资质，若有则回到A，若无则发出告警；C）导入明文，形成明文特征向量，形成每份涉密资料的涉密特征向量，明文特征向量与涉密特征向量的相似度高于设定阈值，则发出告警；D）列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，回到步骤A重新执行。本发明的实质性效果是：通过明文特征向量与涉密特征向量的相似度对比，可以快速发现资料的外泄，对噪音的敏感度低，提高了故意添加有干扰字符的泄密资料的识别率。

Description

一种网络通信数据涉密检测方法

技术领域

本发明涉及涉密数据检测技术领域，具体涉及一种网络通信数据涉密检测方法。

背景技术

随着无纸化办公政策的持续推进，以及数字化办公高效率的优势越来越明显，目前将企业数据以数字化的形式存储在计算机中的办公形式越来越普遍。这就导致了企业数据存在泄密的风险。数据资料已经成为了企业的重要资产，这些资料一旦泄漏，将会对企业造成难以估量的损失。对数据进行加密，是放置资料外泄的基本方法。但加密存在加密等级越高，资料越安全，但资料读取保存以及正常传输效率越低的矛盾。为了保持日常办公的效率，企业数据的加密不可能全部采用复杂加密方法进行加密。目前企业多采用两级加密，即普通密级资料使用简单加密，高密级资料使用复杂加密方法，用于缓解加密可靠性与效率的矛盾。但单纯依靠数据加密，只要窃密方获取到秘钥，就能够获得原文，因而不能有效保护企业的数据资产。而对企业的对外网关数据进行监控，能够起到补漏的作用，及时发现正在外泄的数据，通常能够避免损失。因而需要研发出一种网络通信数据涉密检测方法。

中国专利CN108156135A，公开日2018年6月12日，一种涉密网信息泄密风险监测方法，通过在客户端实时记录用户操作，以文件流出该客户端为出发点，还原出该用户本次文件流出客户端的完整行为，然后依据涉密网中密级管理规定，在客户端分析判断出单个行为是否存在泄密隐患，并实时将涉密网中各客户端的行为上传至服务器的行为库中，回溯分析出与之相关的所有泄密隐患行为，从而有效阻止涉密文件流出涉密网，避免泄密事件的发生。本发明解决了当前涉密网安全防护手段对于恶意泄密者使用正常打印、刻录途径泄密无能为力的困境。弥补了当前监测方法的不足。本发明监测覆盖面更广、判断准确率更高，并且便于安全保密人员审计管理。但其不能解决通过网络传输的泄密资料的快速识别监测问题。

发明内容

本发明要解决的技术问题是：目前缺乏对网络传输的泄密资料的快速识别监测的技术问题。提出了一种采用多种识别验证方法的能够快速识别泄密资料以及风险通信活动的网络通信数据涉密检测方法。

为解决上述技术问题，本发明所采取的技术方案为：一种网络通信数据涉密检测方法，包括以下步骤：A）读取网关通信数据，使用通用解密方式解密数据，若解密成功则进入步骤C，若解密失败则进入步骤B；B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A重新执行，若无资质则发出告警，而后回到步骤A重新执行，所述发送非通用加解密方式资料的资质为按次限时发放；C）导入解密得到的明文，制定常用单字序列表，统计明文中每个单字的出现此次数，按常用单字序列表排列所述单字出现次数形成明文特征向量，统计每份涉密资料的单字出现次数，按常用单字序列表排列所述单字出现次数形成每份涉密资料的涉密特征向量，计算明文特征向量与涉密特征向量的相似度，若相似度高于设定阈值，则发出告警，反之，则进入步骤D；D）列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，回到步骤A重新执行。通用加密资料解密后，进行涉密关键词匹配能够识别通过普通加密方式进行的资料传输，此时发出告警能够及时发现涉密资料的外泄，若短语与涉密关键词均不匹配，则进行语义识别，若无法识别出语义，则列为风险数据传输，发出告警并由人工标注语义或发现泄密活动。涉密特征向量与明文特征向量的生成快速简单，二者相似度的计算也很快，对于添加有少量干扰字符的泄密通信而言，关键词匹配的识别率很低，但对于干扰字符对明文特征向量的影响却不大，因而通过明显特征向量与涉密特征向量的对比，可以快速的发现涉密资料，对添加有干扰字符的涉密通信数据而言，本发明方法具有比关键词匹配明显的优越性。

作为优选，所述列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤：D1）统计明文中每个单字出现的数量，并按升序排列形成排列E；D2）从排列E的第一个单字开始，将单字依次与后续的单字组成词e，在明文中搜索词e出现的次数，若词e在明文中出现次数超过设定阈值N，则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e，而后在明文中搜索，若向前扩展词e在明文中出现次数仍超过设定阈值N，则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展，直到向前扩展词e在明文中出现次数仍低于设定阈值N，而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e，并统计向后扩展词e在明文中出现的次数，若出现次数仍超过设定阈值N，则继续向后扩展，直到向后扩展词e在明文中出现次数低于设定阈值N，将向后扩展词e列入出现次数超过设定阈值N的短语；D3）重复步骤D2，直到遍历排列E，形成最终的出现次数超过设定阈值N的短语。

作为优选，所述对短语进行语义识别的方法包括以下步骤：D101）将短语在网关历史明文数据中搜索，若出现次数少于设定阈值Nt，则进入步骤D102，反之进入步骤D103；D102）将短语与人工标定表比对，若人工标定表中不存在与所述短语匹配的记录时，发出告警，并由人工标定，若所述短语不涉密则加入人工标定表，若所述短语涉密则进入涉密流程。

作为优选，所述计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。

作为优选，所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。

作为优选，所述短语与涉密关键词匹配的方法为：依次计算短语与涉密关键词的相似度，将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。

本发明的实质性效果是：通过明文特征向量与涉密特征向量的相似度对比，可以快速发现资料的外泄，对噪音的敏感度低，提高了故意添加有干扰字符的泄密资料的识别率。

附图说明

图1为实施例一涉密检测方法流程框图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的具体实施方式作进一步具体说明。

实施例一：

一种网络通信数据涉密检测方法，如图1所示，为实施例一涉密检测方法流程框图，本实施例包括以下步骤：A）读取网关通信数据，使用通用解密方式解密数据，若解密成功则进入步骤C，若解密失败则进入步骤B；B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A重新执行，若无资质则发出告警，而后回到步骤A重新执行，发送非通用加解密方式资料的资质为按次限时发放；C）导入解密得到的明文，制定常用单字序列表，统计明文中每个单字的出现此次数，按常用单字序列表排列单字出现次数形成明文特征向量，统计每份涉密资料的单字出现次数，按常用单字序列表排列单字出现次数形成每份涉密资料的涉密特征向量，计算明文特征向量与涉密特征向量的相似度，若相似度高于设定阈值，则发出告警，反之，则进入步骤D；D）列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，回到步骤A重新执行。

列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤：D1）统计明文中每个单字出现的数量，并按升序排列形成排列E；D2）从排列E的第一个单字开始，将单字依次与后续的单字组成词e，在明文中搜索词e出现的次数，若词e在明文中出现次数超过设定阈值N，则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e，而后在明文中搜索，若向前扩展词e在明文中出现次数仍超过设定阈值N，则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展，直到向前扩展词e在明文中出现次数仍低于设定阈值N，而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e，并统计向后扩展词e在明文中出现的次数，若出现次数仍超过设定阈值N，则继续向后扩展，直到向后扩展词e在明文中出现次数低于设定阈值N，将向后扩展词e列入出现次数超过设定阈值N的短语；D3）重复步骤D2，直到遍历排列E，形成最终的出现次数超过设定阈值N的短语。

对短语进行语义识别的方法包括以下步骤：D101）将短语在网关历史明文数据中搜索，若出现次数少于设定阈值Nt，则进入步骤D102，反之进入步骤D103；D102）将短语与人工标定表比对，若人工标定表中不存在与短语匹配的记录时，发出告警，并由人工标定，若短语不涉密则加入人工标定表，若短语涉密则进入涉密流程。

计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。

短语与涉密关键词匹配的方法为：依次计算短语与涉密关键词的相似度，将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。

通用加密资料解密后，进行涉密关键词匹配能够识别通过普通加密方式进行的资料传输，此时发出告警能够及时发现涉密资料的外泄，若短语与涉密关键词均不匹配，则进行语义识别，若无法识别出语义，则列为风险数据传输，发出告警并由人工标注语义或发现泄密活动。涉密特征向量与明文特征向量的生成快速简单，二者相似度的计算也很快，对于添加有少量干扰字符的泄密通信而言，关键词匹配的识别率很低，但对于干扰字符对明文特征向量的影响却不大，因而通过明显特征向量与涉密特征向量的对比，可以快速的发现涉密资料，对添加有干扰字符的涉密通信数据而言，本发明方法具有比关键词匹配明显的优越性。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种网络通信数据涉密检测方法，其特征在于，

包括以下步骤：

A）读取网关通信数据，使用通用解密方式解密数据，若解密成功则进入步骤C，若解密失败则进入步骤B；

B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A重新执行，若无资质则发出告警，而后回到步骤A重新执行，所述发送非通用加解密方式资料的资质为按次限时发放；

C）导入解密得到的明文，制定常用单字序列表，统计明文中每个单字的出现此次数，按常用单字序列表排列所述单字出现次数形成明文特征向量，统计每份涉密资料的单字出现次数，按常用单字序列表排列所述单字出现次数形成每份涉密资料的涉密特征向量，计算明文特征向量与涉密特征向量的相似度，若相似度高于设定阈值，则发出告警，反之，则进入步骤D；

D）列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，回到步骤A重新执行。

2.根据权利要求1所述的一种网络通信数据涉密检测方法，其特征在于，

所述列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤：

D1）统计明文中每个单字出现的数量，并按升序排列形成排列E；

D2）从排列E的第一个单字开始，将单字依次与后续的单字组成词e，在明文中搜索词e出现的次数，若词e在明文中出现次数超过设定阈值N，则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e，而后在明文中搜索，若向前扩展词e在明文中出现次数仍超过设定阈值N，则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展，直到向前扩展词e在明文中出现次数仍低于设定阈值N，而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e，并统计向后扩展词e在明文中出现的次数，若出现次数仍超过设定阈值N，则继续向后扩展，直到向后扩展词e在明文中出现次数低于设定阈值N，将向后扩展词e列入出现次数超过设定阈值N的短语；

D3）重复步骤D2，直到遍历排列E，形成最终的出现次数超过设定阈值N的短语。

3.根据权利要求1或2所述的一种网络通信数据涉密检测方法，其特征在于，

所述对短语进行语义识别的方法包括以下步骤：

D101）将短语在网关历史明文数据中搜索，若出现次数少于设定阈值Nt，则进入步骤D102，反之进入步骤D103；

D102）将短语与人工标定表比对，若人工标定表中不存在与所述短语匹配的记录时，发出告警，并由人工标定，若所述短语不涉密则加入人工标定表，若所述短语涉密则进入涉密流程。

4.根据权利要求1或2所述的一种网络通信数据涉密检测方法，其特征在于，

所述计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。

5.根据权利要求3所述的一种网络通信数据涉密检测方法，其特征在于，

6.根据权利要求1或2所述的一种网络通信数据涉密检测方法，其特征在于，

所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。

7.根据权利要求3所述的一种网络通信数据涉密检测方法，其特征在于，

8.根据权利要求1或2所述的一种网络通信数据涉密检测方法，其特征在于，

所述短语与涉密关键词匹配的方法为：依次计算短语与涉密关键词的相似度，将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。