CN114363016A - 一种基于关键词的隐私保护流量检测方法 - Google Patents
一种基于关键词的隐私保护流量检测方法 Download PDFInfo
- Publication number
- CN114363016A CN114363016A CN202111564710.3A CN202111564710A CN114363016A CN 114363016 A CN114363016 A CN 114363016A CN 202111564710 A CN202111564710 A CN 202111564710A CN 114363016 A CN114363016 A CN 114363016A
- Authority
- CN
- China
- Prior art keywords
- keywords
- flow
- keyword
- characters
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于关键词的隐私保护流量检测方法。该方法主要包括如下步骤:1)关键词提取:基于正则表达式,提取出关键词集合;2)流量处理:找出流量中匹配到关键词的位置,将未匹配的部分替换为脱敏信息;3)流量检测:使用正则表达式检测处理后的流量并记录检测结果4)数据校验:校验数据完整性,确保检测系统正常工作。本发明首次提出了基于关键词的中间盒隐私保护流量检测技术,在保护用户流量隐私的同时达到与明文检测相似的精准度,适用于当前以高频率短连接为主的网络环境,效果优于现有方法,且具有效率高、延迟低、方便部署等特点。
Description
技术领域
本发明属于计算机网络安全领域,尤其涉及一种基于关键词的隐私保护流量检测方法。
背景技术
深度包检测(Deep Packet Inspection)是一种针对于网络流量的模式匹配,被广泛应用于内容感知网络应用,如网络入侵检测系统、流量计费、负载平衡、垃圾邮件拦截过滤和政府监视系统。深度包检测检查每个数据包的内容,识别具有某些特征的流量,如携带病毒或含有攻击指令。为了精准地分析流量的特征,最常见的方法是使用正则表达式,首先使用正则表达式定义特征模式,之后使用已有的正则表达式尝试匹配网络流量,若匹配成功,则说明该流量具有对应正则表达式的特征。正则表达式具有远超于关键词匹配的灵活性和表达能力,可以轻松地描述复杂的字符串特征。
为了更好地部署网络流量检测服务,便于后期的维护和更新,一般将检测系统部署在一种称为“中间盒”的网络设备上(Justine Sherry,Shaddi Hasan,Colin Scott,Arvind Krishnamurthy,Sylvia Ratnasamy,and Vyas Sekar.Making MiddleboxesSomeone Else’s Problem:Network Processing as a Cloud Service.In Proceedingsof the ACM SIGCOMM 2012Conference on Applications,Technologies,Architectures,and Protocols for Computer Communication,SIGCOMM’12,page 13–24,New York,NY,USA,2012.Association for Computing Machinery.)。中间盒位于通信双方的路由链路上,负责检测流经的网络流量,并根据检测结果执行相应的策略,比如放行正常流量、遇到恶意流量时发出警报并丢弃该数据包。
随着人们对个人隐私的重视性不断提高,可以保护用户网络通信隐私的HTTPS协议正在广泛地被采纳,加密流量所占比重飞速增加,根据NetMarkShare的调查报告,在2019年10月,网络中超过90%的流量使用TLS、SSL加密。
近几年提出了许多隐私保护流量检测技术,在保护用户隐私安全的条件下进行流量分析。其中一个著名的解决方案BlindBox(Justine Sherry,Chang Lan,Raluca AdaPopa,and Sylvia Ratnasamy.BlindBox:Deep Packet Inspection over EncryptedTraffic.In Proceedings of the 2015ACM Conference on Special Interest Group onData Communication,SIGCOMM’15,page 213–226,New York,NY,USA,2015.Associationfor Computing Machinery.)通过一系列密码学工具,实现了隐私保护的关键词匹配流量检测,但对于正则表达式,BlindBox仍然需要对加密流量进行解密,得到其明文再用正则表达式进行分析。
为了支持正则表达式,SPABox(Hassan Jameel Asghar,Luca Melis,CyrilSoldani,Emiliano De Cristofaro,Mohamed Ali Kaafar,and Laurent Mathy.Splitbox:Toward efficient private network function virtualization.In Proceedings ofthe 2016Workshop on Hot Topics in Middleboxes and Network FunctionVirtualization,HotMIddlebox’16,page 7–13,New York,NY,USA,2016.Association forComputing Machinery.)使用了Oblivious DFA(Payman Mohassel,Salman Niksefat,Saeed Sadeghian,and Babak Sadeghiyan.An Efficient Protocol for Oblivious DFAEvaluation and Applications.In Topics in Cryptology–CT-RSA 2012,pages 398–415,Berlin,Heidelberg,2012.Springer Berlin Heidelberg.)可以在保护流量隐私的条件下进行正则表达式匹配分析,隐私保护程度较高,由于其使用了繁重的密码学工具,不可避免地带来了巨大的额外通信开销和计算开销,不能应用于实际场景。
另外一种解决方法是使用可信执行硬件技术,比如Intel公司提供的SGX。理论上可信执行环境提供了理想的安全隐私保障和高效的运行效率,但是在实际中,可信执行环境面临着多种侧信道攻击威胁,而且其编程复杂,可开发性差。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于关键词的隐私保护流量检测方法。
本发明的目的是通过以下技术方案来实现的:一种基于关键词的隐私保护流量检测方法,包括如下步骤:
(1)关键词提取:中间盒从正则表达式中提取出关键词。
(2)流量处理:客户端使用步骤(1)得到的关键词,找出流量中这些关键词匹配的位置,将未匹配的部分替换为脱敏信息。
(3)流量检测:中间盒使用正则表达式匹配步骤(2)得到的脱敏流量,记录每个正则表达式的匹配结果。
进一步地,所述步骤(1)包括如下子步骤:
(1.1)根据正则表达式,将‘*’‘+’前面的连续字符看作关键词。
(1.2)根据正则表达式,将‘?’前的连续字符看作一个关键词,并去掉其最后一个字符作为另一个关键词。
(1.3)根据正则表达式,将‘|’前后的连续字符分别看作两个关键词。
(1.4)基于步骤(1.1)~(1.3)得到的关键词,去除其中重复的关键词,得到关键词集合KW。
进一步地,所述步骤(2)包括如下子步骤:
(2.1)对于步骤(1)得到的关键词集合KW,遍历其中所有的关键词kw,在流量S中找到其出现的所有位置并做标记。
(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置,将流量中被标记字符保留不变。对于未被标记的字符,将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符替换为‘a’,将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符替换为‘z’,将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符替换为‘A’,将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符替换为‘Z’,将其中的数字字符替换为‘0’,将其中的空白字符替换为换行符,将其他在ASCII128范围中的字符替换为‘\X00’,将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量S′。
进一步地,所述空白字符包括空格、水平制表符、垂直制表符、换行符、换页符、回车符等。
进一步地,所述步骤(3)具体为:基于步骤(2.2)得到的处理后的流量S′,使用正则表达式进行匹配,记录每条正则表达式与之匹配的结果。
进一步地,还包括数据校验:服务端使用步骤(1)得到的关键词,重新执行步骤(2),对比两次流量处理的结果,确保系统正常运行。
进一步地,所述数据校验,包括如下子步骤:
(4.1)服务端基于步骤(1)得到的关键词集合KW和接收到的流量T,执行步骤(2)得到T′。
(4.2)对比S和T是否一致,对比S′和T′是否一致,若S和T一致并且S′和T′一致,说明系统正常工作。否则,说明客户端或中间盒工作执行错误,服务端拒绝接受流量T。
本发明的有益效果是:本发明通过提取关键词和流量处理,可以在保护用户流量数据隐私安全的条件下进行正则表达式匹配流量检测,与传统的密码学解决方案相比效率较高,同时达到了与明文检测相似的精准度。本发明首次提出了基于关键词的隐私保护流量检测技术,在保护用户流量隐私的同时可以达到与明文检测相似的精准度,适用于当前高频短连接的网络环境,对流量进行实时检测,效果优于现有方法,且具有效率高、延迟低、方便部署等特点。
附图说明
图1是本发明的网络拓扑结构;其中,(a)为客户端,(b)中间盒,(c)为服务端。
具体实施方式
如图1所示,本发明一种基于关键词的隐私保护流量检测方法,从正则表达式中提取关键词,根据关键词集合对流量进行数据脱敏,中间盒使用正则表达式检测脱敏后的流量,以实现在保护用户数据隐私安全的条件下进行流量检测。具体包括以下步骤:
(1)关键词提取:中间盒从现有的正则表达式中,提取出关键词,具体包括以下子步骤:
(1.1)根据正则表达式,将‘*’‘+’前面的连续字符看作关键词。
(1.2)根据正则表达式,根据‘?’前的连续字符,生成两个不同的关键词,一个关键词是‘?’前的连续字符,另一个是去掉最后一个字符的‘?’前的连续字符。如“https?”,将生成“https”和“http”两个关键词。
(1.3)根据正则表达式,将‘|’前后的连续字符分别看作两个关键词。
(1.4)基于步骤(1.1)~(1.3)得到的关键词,去除其中重复的关键词,得到关键词集合KW。
(2)流量处理:客户端使用步骤(1)得到的关键词,找出流量中这些关键词匹配的位置,将未匹配的部分替换为脱敏信息。本步骤根据关键词集合,保留流量中正则表达式检测需要的重要信息,将敏感信息替换为其他字符,实现数据脱敏,同时保持流量特征不变。具体包括以下子步骤:
(2.1)对于步骤(1.4)得到的关键词集合KW,遍历其中所有的关键词kw,在流量S中找到其出现的所有位置并做标记。
(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置,将流量中被标记字符保留不变。对于未被标记的字符,将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符(这些字符既有可能是小写字母,也有可能是十六进制的数字)替换为‘a’,将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符(这些字符确定是小写字母)替换为‘z’,将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符(这些字符既有可能是大写字母,也有可能是十六进制的数字)替换为‘A’,将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符(这些字符确定是大写字母)替换为‘Z’,将其中的数字字符(与正则表达式中的‘\d’对应)替换为‘0’,将其中的空白字符(如空格、水平制表符、垂直制表符、换行符、换页符、回车符)(与正则表达式中的‘\s’对应)替换为换行符,将其他在ASCII128范围中的字符替换为‘\X00’,将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量S′。
(3)流量检测:基于步骤(2.2)得到的处理后的脱敏流量S′,中间盒使用正则表达式进行匹配,记录每个正则表达式与之匹配的匹配结果,即本发明流量检测的结果。本步骤根据流量和正则表达式规则集合检测出流量的相关特性。
(4)数据校验:服务端使用步骤(1)得到的关键词,重新执行步骤(2),对比两次流量处理的结果,确保系统正常运行,具体包括以下子步骤:
(4.1)服务端基于步骤(1.4)得到的关键词集合KW,和接收到的流量T,执行步骤(2)得到处理后的流量T′。包括以下子步骤:
(4.1.1)对于步骤(1.4)得到的关键词集合KW,遍历其中所有的关键词kw,在流量T中找到其出现的所有位置并做标记。
(4.1.2)基于步骤(4.1.1)得到的关键词在流量T中出现的位置,将流量中被标记字符保留不变。对于未被标记的字符,将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符替换为‘a’,将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符替换为‘z’,将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符替换为‘A’,将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符替换为‘Z’,将其中的数字字符替换为‘0’,将其中的空白字符(如空格、水平制表符、垂直制表符、换行符、换页符、回车符)替换为换行符,将其他在ASCII128范围中的字符替换为‘\X00’,将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量T′。
(4.2)对比S和T是否一致,对比S′和T′是否一致,若S和T一致并且S′和T′一致,说明系统正常工作。若S和T不一致,或S′和T′不一致,说明客户端或中间盒工作执行错误,服务端拒绝接受该条流量T。
实施例
在三台配备2核2.4GHz Intel Xeon Skylake处理器,4GB内存,1Mbps宽带的云主机上实现本发明的实施例。为了模拟实际的网络延迟,三台服务器分别位于三个不同的国家。为了更准确地展现本发明的相关性能,每个独立的实验均重复5次,最终结果取平均值。
实验使用了来自于真实网络环境下保存的流量数据和当前热门的Snort规则库,实验表明,本发明实例达到了99.97%的准确率。
当使用6738条正则表达式规则时,共提取出关键词6585个,运行时间为635毫秒。使用这些6585个关键词处理流量:处理长度为200字节的流量用时25.4毫秒,处理长度为2000字节的流量用时253.8毫秒,处理流量所用时间与流量长度呈线性关系。使用6738条正则表达式匹配处理后的流量,检测长度为200字节的流量用时5毫秒,检测长度为2000字节的流量用时23.3毫秒。发送长度200字节的流量总延迟为596毫秒,发送长度2000字节的流量总延迟为812毫秒。
Claims (7)
1.一种基于关键词的隐私保护流量检测方法,其特征在于,包括如下步骤:
(1)关键词提取:中间盒从正则表达式中提取出关键词。
(2)流量处理:客户端使用步骤(1)得到的关键词,找出流量中这些关键词匹配的位置,将未匹配的部分替换为脱敏信息。
(3)流量检测:中间盒使用正则表达式匹配步骤(2)得到的脱敏流量,记录每个正则表达式的匹配结果。
2.根据权利要求1所述基于关键词的隐私保护流量检测方法,其特征在于,所述步骤(1)包括如下子步骤:
(1.1)根据正则表达式,将‘*’‘+’前面的连续字符看作关键词。
(1.2)根据正则表达式,将‘?’前的连续字符看作一个关键词,并去掉其最后一个字符作为另一个关键词。
(1.3)根据正则表达式,将‘|’前后的连续字符分别看作两个关键词。
(1.4)基于步骤(1.1)~(1.3)得到的关键词,去除其中重复的关键词,得到关键词集合KW。
3.根据权利要求1所述基于关键词的隐私保护流量检测方法,其特征在于,所述步骤(2)包括如下子步骤:
(2.1)对于步骤(1)得到的关键词集合KW,遍历其中所有的关键词kw,在流量S中找到其出现的所有位置并做标记。
(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置,将流量中被标记字符保留不变。对于未被标记的字符,将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符替换为‘a’,将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符替换为‘z’,将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符替换为‘A’,将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符替换为‘Z’,将其中的数字字符替换为‘0’,将其中的空白字符替换为换行符,将其他在ASCII128范围中的字符替换为‘\X00’,将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量S′。
4.根据权利要求3所述基于关键词的隐私保护流量检测方法,其特征在于,所述空白字符包括空格、水平制表符、垂直制表符、换行符、换页符、回车符等。
5.根据权利要求3所述基于关键词的隐私保护流量检测方法,其特征在于,所述步骤(3)具体为:基于步骤(2.2)得到的处理后的流量S′,使用正则表达式进行匹配,记录每条正则表达式与之匹配的结果。
6.根据权利要求1所述基于关键词的隐私保护流量检测方法,其特征在于,还包括数据校验:服务端使用步骤(1)得到的关键词,重新执行步骤(2),对比两次流量处理的结果,确保系统正常运行。
7.根据权利要求6所述的基于关键词的隐私保护流量检测方法,其特征在于,所述数据校验,包括如下子步骤:
(4.1)服务端基于步骤(1)得到的关键词集合KW和接收到的流量T,执行步骤(2)得到T′。
(4.2)对比S和T是否一致,对比S′和T′是否一致,若S和T一致并且S′和T′一致,说明系统正常工作。否则,说明客户端或中间盒工作执行错误,服务端拒绝接受流量T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564710.3A CN114363016B (zh) | 2021-12-20 | 2021-12-20 | 一种基于关键词的隐私保护流量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564710.3A CN114363016B (zh) | 2021-12-20 | 2021-12-20 | 一种基于关键词的隐私保护流量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114363016A true CN114363016A (zh) | 2022-04-15 |
CN114363016B CN114363016B (zh) | 2023-05-23 |
Family
ID=81102043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564710.3A Active CN114363016B (zh) | 2021-12-20 | 2021-12-20 | 一种基于关键词的隐私保护流量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114363016B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110262365A1 (en) * | 2008-11-13 | 2011-10-27 | Alek Itsekson | Methods of diagnosing hypersensitivity to a female reproductive hormone and treating medical conditions associated with same |
CN106951796A (zh) * | 2016-01-07 | 2017-07-14 | 阿里巴巴集团控股有限公司 | 一种数据隐私保护的脱敏方法及其装置 |
CN110489997A (zh) * | 2019-08-16 | 2019-11-22 | 北京计算机技术及应用研究所 | 一种基于模式匹配算法的敏感信息脱敏方法 |
US20200167484A1 (en) * | 2018-11-28 | 2020-05-28 | International Business Machines Corporation | Private analytics using multi-party computation |
CN112149180A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种裁判文书的文本信息脱敏方法 |
-
2021
- 2021-12-20 CN CN202111564710.3A patent/CN114363016B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110262365A1 (en) * | 2008-11-13 | 2011-10-27 | Alek Itsekson | Methods of diagnosing hypersensitivity to a female reproductive hormone and treating medical conditions associated with same |
CN106951796A (zh) * | 2016-01-07 | 2017-07-14 | 阿里巴巴集团控股有限公司 | 一种数据隐私保护的脱敏方法及其装置 |
US20200167484A1 (en) * | 2018-11-28 | 2020-05-28 | International Business Machines Corporation | Private analytics using multi-party computation |
CN110489997A (zh) * | 2019-08-16 | 2019-11-22 | 北京计算机技术及应用研究所 | 一种基于模式匹配算法的敏感信息脱敏方法 |
CN112149180A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种裁判文书的文本信息脱敏方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114363016B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112910851B (zh) | 基于知识图谱的数据包标记溯源装置 | |
Igbe et al. | Deterministic dendritic cell algorithm application to smart grid cyber-attack detection | |
Steadman et al. | Dnsxd: Detecting data exfiltration over dns | |
Deorankar et al. | Survey on anomaly detection of (iot)-internet of things cyberattacks using machine learning | |
ALEKSIEVA et al. | An approach for host based botnet detection system | |
CN110572380A (zh) | 一种tcp回注封堵的方法及装置 | |
Huang et al. | An authentication scheme to defend against UDP DrDoS attacks in 5G networks | |
CN113904819A (zh) | 一种应用于工控网络的安全系统 | |
CN106973051B (zh) | 建立检测网络威胁模型的方法、装置和存储介质 | |
Zeebaree et al. | Application layer distributed denial of service attacks defense techniques: A review | |
Nkongolo et al. | Network policy enforcement: An intrusion prevention approach for critical infrastructures | |
Munther et al. | Scalable and secure SDN based ethernet architecture by suppressing broadcast traffic | |
Kang et al. | Whitelists based multiple filtering techniques in SCADA sensor networks | |
Keshri et al. | DoS attacks prevention using IDS and data mining | |
CN114363016A (zh) | 一种基于关键词的隐私保护流量检测方法 | |
Blaise et al. | Split-and-Merge: detecting unknown botnets | |
Seo et al. | Abnormal behavior detection to identify infected systems using the APChain algorithm and behavioral profiling | |
Haghighat et al. | Edmund: Entropy based attack detection and mitigation engine using netflow data | |
Mohammed et al. | Accurate signature generation for polymorphic worms using principal component analysis | |
Panimalar et al. | A review on taxonomy of botnet detection | |
Berei et al. | Machine Learning Algorithms for DoS and DDoS Cyberattacks Detection in Real-Time Environment | |
CN113923021A (zh) | 基于沙箱的加密流量处理方法、系统、设备及介质 | |
Sivabalan et al. | Detecting IoT zombie attacks on web servers | |
Gore et al. | Improvised Ensemble Model for Fast Prediction of DoS/DDoS Attacks in Various Networks | |
Jayan et al. | Sys-log classifier for complex event processing system in network security |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |