CN109918921A - 一种网络通信数据涉密检测方法 - Google Patents

一种网络通信数据涉密检测方法 Download PDF

Info

Publication number
CN109918921A
CN109918921A CN201811550256.4A CN201811550256A CN109918921A CN 109918921 A CN109918921 A CN 109918921A CN 201811550256 A CN201811550256 A CN 201811550256A CN 109918921 A CN109918921 A CN 109918921A
Authority
CN
China
Prior art keywords
concerning security
security matters
plaintext
phrase
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811550256.4A
Other languages
English (en)
Other versions
CN109918921B (zh
Inventor
徐劲榕
徐宏
刘书涵
胡遨洋
张振威
金海松
花志伟
杨泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority to CN201811550256.4A priority Critical patent/CN109918921B/zh
Publication of CN109918921A publication Critical patent/CN109918921A/zh
Application granted granted Critical
Publication of CN109918921B publication Critical patent/CN109918921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及涉密数据检测技术领域,具体涉及一种网络通信数据涉密检测方法,包括以下步骤:A)通用解密方式解密数据,解密成功进入C;B)验证数据发送源资质,若有则回到A,若无则发出告警;C)导入明文,形成明文特征向量,形成每份涉密资料的涉密特征向量,明文特征向量与涉密特征向量的相似度高于设定阈值,则发出告警;D)列举明文中出现次数超过设定阈值N的短语,将所列举的短语与涉密关键词比对,若短语与涉密关键词匹配则发出告警,回到步骤A重新执行。本发明的实质性效果是:通过明文特征向量与涉密特征向量的相似度对比,可以快速发现资料的外泄,对噪音的敏感度低,提高了故意添加有干扰字符的泄密资料的识别率。

Description

一种网络通信数据涉密检测方法
技术领域
本发明涉及涉密数据检测技术领域,具体涉及一种网络通信数据涉密检测方法。
背景技术
随着无纸化办公政策的持续推进,以及数字化办公高效率的优势越来越明显,目前将企业数据以数字化的形式存储在计算机中的办公形式越来越普遍。这就导致了企业数据存在泄密的风险。数据资料已经成为了企业的重要资产,这些资料一旦泄漏,将会对企业造成难以估量的损失。对数据进行加密,是放置资料外泄的基本方法。但加密存在加密等级越高,资料越安全,但资料读取保存以及正常传输效率越低的矛盾。为了保持日常办公的效率,企业数据的加密不可能全部采用复杂加密方法进行加密。目前企业多采用两级加密,即普通密级资料使用简单加密,高密级资料使用复杂加密方法,用于缓解加密可靠性与效率的矛盾。但单纯依靠数据加密,只要窃密方获取到秘钥,就能够获得原文,因而不能有效保护企业的数据资产。而对企业的对外网关数据进行监控,能够起到补漏的作用,及时发现正在外泄的数据,通常能够避免损失。因而需要研发出一种网络通信数据涉密检测方法。
中国专利CN108156135A,公开日2018年6月12日,一种涉密网信息泄密风险监测方法,通过在客户端实时记录用户操作,以文件流出该客户端为出发点,还原出该用户本次文件流出客户端的完整行为,然后依据涉密网中密级管理规定,在客户端分析判断出单个行为是否存在泄密隐患,并实时将涉密网中各客户端的行为上传至服务器的行为库中,回溯分析出与之相关的所有泄密隐患行为,从而有效阻止涉密文件流出涉密网,避免泄密事件的发生。本发明解决了当前涉密网安全防护手段对于恶意泄密者使用正常打印、刻录途径泄密无能为力的困境。弥补了当前监测方法的不足。本发明监测覆盖面更广、判断准确率更高,并且便于安全保密人员审计管理。但其不能解决通过网络传输的泄密资料的快速识别监测问题。
发明内容
本发明要解决的技术问题是:目前缺乏对网络传输的泄密资料的快速识别监测的技术问题。提出了一种采用多种识别验证方法的能够快速识别泄密资料以及风险通信活动的网络通信数据涉密检测方法。
为解决上述技术问题,本发明所采取的技术方案为:一种网络通信数据涉密检测方法,包括以下步骤:A)读取网关通信数据,使用通用解密方式解密数据,若解密成功则进入步骤C,若解密失败则进入步骤B;B)验证数据发送源是否有资质发送非通用加解密方式资料,若有则回到步骤A重新执行,若无资质则发出告警,而后回到步骤A重新执行,所述发送非通用加解密方式资料的资质为按次限时发放;C)导入解密得到的明文,制定常用单字序列表,统计明文中每个单字的出现此次数,按常用单字序列表排列所述单字出现次数形成明文特征向量,统计每份涉密资料的单字出现次数,按常用单字序列表排列所述单字出现次数形成每份涉密资料的涉密特征向量,计算明文特征向量与涉密特征向量的相似度,若相似度高于设定阈值,则发出告警,反之,则进入步骤D;D)列举明文中出现次数超过设定阈值N的短语,将所列举的短语与涉密关键词比对,若短语与涉密关键词匹配则发出告警,回到步骤A重新执行。通用加密资料解密后,进行涉密关键词匹配能够识别通过普通加密方式进行的资料传输,此时发出告警能够及时发现涉密资料的外泄,若短语与涉密关键词均不匹配,则进行语义识别,若无法识别出语义,则列为风险数据传输,发出告警并由人工标注语义或发现泄密活动。涉密特征向量与明文特征向量的生成快速简单,二者相似度的计算也很快,对于添加有少量干扰字符的泄密通信而言,关键词匹配的识别率很低,但对于干扰字符对明文特征向量的影响却不大,因而通过明显特征向量与涉密特征向量的对比,可以快速的发现涉密资料,对添加有干扰字符的涉密通信数据而言,本发明方法具有比关键词匹配明显的优越性。
作为优选,所述列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤:D1)统计明文中每个单字出现的数量,并按升序排列形成排列E;D2)从排列E的第一个单字开始,将单字依次与后续的单字组成词e,在明文中搜索词e出现的次数,若词e在明文中出现次数超过设定阈值N,则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e,而后在明文中搜索,若向前扩展词e在明文中出现次数仍超过设定阈值N,则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展,直到向前扩展词e在明文中出现次数仍低于设定阈值N,而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e,并统计向后扩展词e在明文中出现的次数,若出现次数仍超过设定阈值N,则继续向后扩展,直到向后扩展词e在明文中出现次数低于设定阈值N,将向后扩展词e列入出现次数超过设定阈值N的短语;D3)重复步骤D2,直到遍历排列E,形成最终的出现次数超过设定阈值N的短语。
作为优选,所述对短语进行语义识别的方法包括以下步骤:D101)将短语在网关历史明文数据中搜索,若出现次数少于设定阈值Nt,则进入步骤D102,反之进入步骤D103;D102)将短语与人工标定表比对,若人工标定表中不存在与所述短语匹配的记录时,发出告警,并由人工标定,若所述短语不涉密则加入人工标定表,若所述短语涉密则进入涉密流程。
作为优选,所述计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。
作为优选,所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。
作为优选,所述短语与涉密关键词匹配的方法为:依次计算短语与涉密关键词的相似度,将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。
本发明的实质性效果是:通过明文特征向量与涉密特征向量的相似度对比,可以快速发现资料的外泄,对噪音的敏感度低,提高了故意添加有干扰字符的泄密资料的识别率。
附图说明
图1为实施例一涉密检测方法流程框图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的具体实施方式作进一步具体说明。
实施例一:
一种网络通信数据涉密检测方法,如图1所示,为实施例一涉密检测方法流程框图,本实施例包括以下步骤:A)读取网关通信数据,使用通用解密方式解密数据,若解密成功则进入步骤C,若解密失败则进入步骤B;B)验证数据发送源是否有资质发送非通用加解密方式资料,若有则回到步骤A重新执行,若无资质则发出告警,而后回到步骤A重新执行,发送非通用加解密方式资料的资质为按次限时发放;C)导入解密得到的明文,制定常用单字序列表,统计明文中每个单字的出现此次数,按常用单字序列表排列单字出现次数形成明文特征向量,统计每份涉密资料的单字出现次数,按常用单字序列表排列单字出现次数形成每份涉密资料的涉密特征向量,计算明文特征向量与涉密特征向量的相似度,若相似度高于设定阈值,则发出告警,反之,则进入步骤D;D)列举明文中出现次数超过设定阈值N的短语,将所列举的短语与涉密关键词比对,若短语与涉密关键词匹配则发出告警,回到步骤A重新执行。
列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤:D1)统计明文中每个单字出现的数量,并按升序排列形成排列E;D2)从排列E的第一个单字开始,将单字依次与后续的单字组成词e,在明文中搜索词e出现的次数,若词e在明文中出现次数超过设定阈值N,则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e,而后在明文中搜索,若向前扩展词e在明文中出现次数仍超过设定阈值N,则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展,直到向前扩展词e在明文中出现次数仍低于设定阈值N,而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e,并统计向后扩展词e在明文中出现的次数,若出现次数仍超过设定阈值N,则继续向后扩展,直到向后扩展词e在明文中出现次数低于设定阈值N,将向后扩展词e列入出现次数超过设定阈值N的短语;D3)重复步骤D2,直到遍历排列E,形成最终的出现次数超过设定阈值N的短语。
对短语进行语义识别的方法包括以下步骤:D101)将短语在网关历史明文数据中搜索,若出现次数少于设定阈值Nt,则进入步骤D102,反之进入步骤D103;D102)将短语与人工标定表比对,若人工标定表中不存在与短语匹配的记录时,发出告警,并由人工标定,若短语不涉密则加入人工标定表,若短语涉密则进入涉密流程。
计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。
短语与涉密关键词匹配的方法为:依次计算短语与涉密关键词的相似度,将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。
通用加密资料解密后,进行涉密关键词匹配能够识别通过普通加密方式进行的资料传输,此时发出告警能够及时发现涉密资料的外泄,若短语与涉密关键词均不匹配,则进行语义识别,若无法识别出语义,则列为风险数据传输,发出告警并由人工标注语义或发现泄密活动。涉密特征向量与明文特征向量的生成快速简单,二者相似度的计算也很快,对于添加有少量干扰字符的泄密通信而言,关键词匹配的识别率很低,但对于干扰字符对明文特征向量的影响却不大,因而通过明显特征向量与涉密特征向量的对比,可以快速的发现涉密资料,对添加有干扰字符的涉密通信数据而言,本发明方法具有比关键词匹配明显的优越性。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (8)

1.一种网络通信数据涉密检测方法,其特征在于,
包括以下步骤:
A)读取网关通信数据,使用通用解密方式解密数据,若解密成功则进入步骤C,若解密失败则进入步骤B;
B)验证数据发送源是否有资质发送非通用加解密方式资料,若有则回到步骤A重新执行,若无资质则发出告警,而后回到步骤A重新执行,所述发送非通用加解密方式资料的资质为按次限时发放;
C)导入解密得到的明文,制定常用单字序列表,统计明文中每个单字的出现此次数,按常用单字序列表排列所述单字出现次数形成明文特征向量,统计每份涉密资料的单字出现次数,按常用单字序列表排列所述单字出现次数形成每份涉密资料的涉密特征向量,计算明文特征向量与涉密特征向量的相似度,若相似度高于设定阈值,则发出告警,反之,则进入步骤D;
D)列举明文中出现次数超过设定阈值N的短语,将所列举的短语与涉密关键词比对,若短语与涉密关键词匹配则发出告警,回到步骤A重新执行。
2.根据权利要求1所述的一种网络通信数据涉密检测方法,其特征在于,
所述列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤:
D1)统计明文中每个单字出现的数量,并按升序排列形成排列E;
D2)从排列E的第一个单字开始,将单字依次与后续的单字组成词e,在明文中搜索词e出现的次数,若词e在明文中出现次数超过设定阈值N,则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e,而后在明文中搜索,若向前扩展词e在明文中出现次数仍超过设定阈值N,则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展,直到向前扩展词e在明文中出现次数仍低于设定阈值N,而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e,并统计向后扩展词e在明文中出现的次数,若出现次数仍超过设定阈值N,则继续向后扩展,直到向后扩展词e在明文中出现次数低于设定阈值N,将向后扩展词e列入出现次数超过设定阈值N的短语;
D3)重复步骤D2,直到遍历排列E,形成最终的出现次数超过设定阈值N的短语。
3.根据权利要求1或2所述的一种网络通信数据涉密检测方法,其特征在于,
所述对短语进行语义识别的方法包括以下步骤:
D101)将短语在网关历史明文数据中搜索,若出现次数少于设定阈值Nt,则进入步骤D102,反之进入步骤D103;
D102)将短语与人工标定表比对,若人工标定表中不存在与所述短语匹配的记录时,发出告警,并由人工标定,若所述短语不涉密则加入人工标定表,若所述短语涉密则进入涉密流程。
4.根据权利要求1或2所述的一种网络通信数据涉密检测方法,其特征在于,
所述计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。
5.根据权利要求3所述的一种网络通信数据涉密检测方法,其特征在于,
所述计算明文特征向量与涉密特征向量的相似度的方法为计算明文特征向量与涉密特征向量的欧式距离。
6.根据权利要求1或2所述的一种网络通信数据涉密检测方法,其特征在于,
所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。
7.根据权利要求3所述的一种网络通信数据涉密检测方法,其特征在于,
所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。
8.根据权利要求1或2所述的一种网络通信数据涉密检测方法,其特征在于,
所述短语与涉密关键词匹配的方法为:依次计算短语与涉密关键词的相似度,将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。
CN201811550256.4A 2018-12-18 2018-12-18 一种网络通信数据涉密检测方法 Active CN109918921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811550256.4A CN109918921B (zh) 2018-12-18 2018-12-18 一种网络通信数据涉密检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811550256.4A CN109918921B (zh) 2018-12-18 2018-12-18 一种网络通信数据涉密检测方法

Publications (2)

Publication Number Publication Date
CN109918921A true CN109918921A (zh) 2019-06-21
CN109918921B CN109918921B (zh) 2023-02-17

Family

ID=66959872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811550256.4A Active CN109918921B (zh) 2018-12-18 2018-12-18 一种网络通信数据涉密检测方法

Country Status (1)

Country Link
CN (1) CN109918921B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287493A (zh) * 2019-06-28 2019-09-27 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110933076A (zh) * 2019-11-28 2020-03-27 广州市百果园信息技术有限公司 客户端上传监控方法、装置、设备及计算机存储介质
CN113949576A (zh) * 2021-10-19 2022-01-18 中国电子科技集团公司第三十研究所 一种基于混合泄露信息的零网通信流量的检测方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160182226A1 (en) * 2014-12-22 2016-06-23 Fujitsu Limited Information processing method, recording medium, and information processing apparatus
US20160350552A1 (en) * 2015-05-29 2016-12-01 Panasonic Intellectual Property Corporation Of America Method for performing similar-information search while keeping content confidential by encryption
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN106845265A (zh) * 2016-12-01 2017-06-13 北京计算机技术及应用研究所 一种文档密级自动识别方法
CN108123933A (zh) * 2017-12-05 2018-06-05 南京南邮信息产业技术研究院有限公司 基于互联网大数据的信息泄露自动监测方法和系统
CN108156135A (zh) * 2017-12-05 2018-06-12 北京控制与电子技术研究所 一种涉密网信息泄密风险监测方法
WO2018122238A1 (en) * 2016-12-30 2018-07-05 Robert Bosch Gmbh Method and system for fuzzy keyword search over encrypted data
CN108399164A (zh) * 2018-03-27 2018-08-14 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160182226A1 (en) * 2014-12-22 2016-06-23 Fujitsu Limited Information processing method, recording medium, and information processing apparatus
US20160350552A1 (en) * 2015-05-29 2016-12-01 Panasonic Intellectual Property Corporation Of America Method for performing similar-information search while keeping content confidential by encryption
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN106845265A (zh) * 2016-12-01 2017-06-13 北京计算机技术及应用研究所 一种文档密级自动识别方法
WO2018122238A1 (en) * 2016-12-30 2018-07-05 Robert Bosch Gmbh Method and system for fuzzy keyword search over encrypted data
CN108123933A (zh) * 2017-12-05 2018-06-05 南京南邮信息产业技术研究院有限公司 基于互联网大数据的信息泄露自动监测方法和系统
CN108156135A (zh) * 2017-12-05 2018-06-12 北京控制与电子技术研究所 一种涉密网信息泄密风险监测方法
CN108399164A (zh) * 2018-03-27 2018-08-14 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴鸿钟等: "基于大数据技术的结构化数据库保密检查系统设计", 《保密科学技术》 *
王传林等: "网络可疑行为检测技术研究", 《保密科学技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287493A (zh) * 2019-06-28 2019-09-27 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110287493B (zh) * 2019-06-28 2023-04-18 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110933076A (zh) * 2019-11-28 2020-03-27 广州市百果园信息技术有限公司 客户端上传监控方法、装置、设备及计算机存储介质
CN113949576A (zh) * 2021-10-19 2022-01-18 中国电子科技集团公司第三十研究所 一种基于混合泄露信息的零网通信流量的检测方法及装置
CN113949576B (zh) * 2021-10-19 2023-05-12 中国电子科技集团公司第三十研究所 一种基于混合泄露信息的零网通信流量的检测方法及装置

Also Published As

Publication number Publication date
CN109918921B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
CN108428141B (zh) 一种基于erp系统与区块链的食品溯源信息管理系统
CN110457957B (zh) 电子票据的信息处理方法、装置、电子设备及介质
Buhan et al. Fuzzy extractors for continuous distributions
US7540021B2 (en) System and methods for an identity theft protection bot
CN107169361A (zh) 一种数据泄露的检测方法及系统
CN109918921A (zh) 一种网络通信数据涉密检测方法
US20040210763A1 (en) Confidential data sharing and anonymous entity resolution
CN108304725A (zh) 一种对政务数据资源脱敏的方法及系统
CN115618326B (zh) 基于限制访问的计算机安全防护系统
CN111639355B (zh) 一种数据安全管理方法和系统
CN109359481A (zh) 一种基于bk树的反碰撞搜索约减方法
CN110874490A (zh) 一种用于达梦数据库的弱密码检测方法、系统及存储介质
CN108090364B (zh) 一种数据泄漏源的定位方法及系统
CN109871426A (zh) 一种涉密数据的监测识别方法
CN117332391A (zh) 计及权限分级管控的配电网数据资产安全访问方法及系统
CN110532805B (zh) 数据脱敏方法及装置
CN109918638B (zh) 一种网络数据监测方法
JP6342748B2 (ja) セキュリティ設計支援装置およびセキュリティ設計支援方法
CN116185296A (zh) 一种基于多媒体远程会议信息的分布式安全储存系统
US11586766B1 (en) Apparatuses and methods for revealing user identifiers on an immutable sequential listing
CN115563656A (zh) 一种电子会计档案安全管理系统
CN115471258A (zh) 一种违规行为检测方法、装置、电子设备及存储介质
Polikarpova et al. Development information system of cryptographic protection for enterprise local network
Mosquera et al. On detecting messaging abuse in short text messages using linguistic and behavioral patterns
CN105956482A (zh) 用于数据泄露防护的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant