CN114363016A

CN114363016A - 一种基于关键词的隐私保护流量检测方法

Info

Publication number: CN114363016A
Application number: CN202111564710.3A
Authority: CN
Inventors: 刘健; 侯潇扬; 张睿; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-15
Anticipated expiration: 2041-12-20
Also published as: CN114363016B

Abstract

本发明公开了一种基于关键词的隐私保护流量检测方法。该方法主要包括如下步骤：1)关键词提取：基于正则表达式，提取出关键词集合；2)流量处理：找出流量中匹配到关键词的位置，将未匹配的部分替换为脱敏信息；3)流量检测：使用正则表达式检测处理后的流量并记录检测结果4)数据校验：校验数据完整性，确保检测系统正常工作。本发明首次提出了基于关键词的中间盒隐私保护流量检测技术，在保护用户流量隐私的同时达到与明文检测相似的精准度，适用于当前以高频率短连接为主的网络环境，效果优于现有方法，且具有效率高、延迟低、方便部署等特点。

Description

一种基于关键词的隐私保护流量检测方法

技术领域

本发明属于计算机网络安全领域，尤其涉及一种基于关键词的隐私保护流量检测方法。

背景技术

深度包检测(Deep Packet Inspection)是一种针对于网络流量的模式匹配，被广泛应用于内容感知网络应用，如网络入侵检测系统、流量计费、负载平衡、垃圾邮件拦截过滤和政府监视系统。深度包检测检查每个数据包的内容，识别具有某些特征的流量，如携带病毒或含有攻击指令。为了精准地分析流量的特征，最常见的方法是使用正则表达式，首先使用正则表达式定义特征模式，之后使用已有的正则表达式尝试匹配网络流量，若匹配成功，则说明该流量具有对应正则表达式的特征。正则表达式具有远超于关键词匹配的灵活性和表达能力，可以轻松地描述复杂的字符串特征。

为了更好地部署网络流量检测服务，便于后期的维护和更新，一般将检测系统部署在一种称为“中间盒”的网络设备上(Justine Sherry,Shaddi Hasan,Colin Scott,Arvind Krishnamurthy,Sylvia Ratnasamy,and Vyas Sekar.Making MiddleboxesSomeone Else’s Problem:Network Processing as a Cloud Service.In Proceedingsof the ACM SIGCOMM 2012Conference on Applications,Technologies,Architectures,and Protocols for Computer Communication,SIGCOMM’12,page 13–24,New York,NY,USA,2012.Association for Computing Machinery.)。中间盒位于通信双方的路由链路上，负责检测流经的网络流量，并根据检测结果执行相应的策略，比如放行正常流量、遇到恶意流量时发出警报并丢弃该数据包。

随着人们对个人隐私的重视性不断提高，可以保护用户网络通信隐私的HTTPS协议正在广泛地被采纳，加密流量所占比重飞速增加，根据NetMarkShare的调查报告，在2019年10月，网络中超过90％的流量使用TLS、SSL加密。

近几年提出了许多隐私保护流量检测技术，在保护用户隐私安全的条件下进行流量分析。其中一个著名的解决方案BlindBox(Justine Sherry,Chang Lan,Raluca AdaPopa,and Sylvia Ratnasamy.BlindBox:Deep Packet Inspection over EncryptedTraffic.In Proceedings of the 2015ACM Conference on Special Interest Group onData Communication,SIGCOMM’15,page 213–226,New York,NY,USA,2015.Associationfor Computing Machinery.)通过一系列密码学工具，实现了隐私保护的关键词匹配流量检测，但对于正则表达式，BlindBox仍然需要对加密流量进行解密，得到其明文再用正则表达式进行分析。

为了支持正则表达式，SPABox(Hassan Jameel Asghar,Luca Melis,CyrilSoldani,Emiliano De Cristofaro,Mohamed Ali Kaafar,and Laurent Mathy.Splitbox:Toward efficient private network function virtualization.In Proceedings ofthe 2016Workshop on Hot Topics in Middleboxes and Network FunctionVirtualization,HotMIddlebox’16,page 7–13,New York,NY,USA,2016.Association forComputing Machinery.)使用了Oblivious DFA(Payman Mohassel,Salman Niksefat,Saeed Sadeghian,and Babak Sadeghiyan.An Efficient Protocol for Oblivious DFAEvaluation and Applications.In Topics in Cryptology–CT-RSA 2012,pages 398–415,Berlin,Heidelberg,2012.Springer Berlin Heidelberg.)可以在保护流量隐私的条件下进行正则表达式匹配分析，隐私保护程度较高，由于其使用了繁重的密码学工具，不可避免地带来了巨大的额外通信开销和计算开销，不能应用于实际场景。

另外一种解决方法是使用可信执行硬件技术，比如Intel公司提供的SGX。理论上可信执行环境提供了理想的安全隐私保障和高效的运行效率，但是在实际中，可信执行环境面临着多种侧信道攻击威胁，而且其编程复杂，可开发性差。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于关键词的隐私保护流量检测方法。

本发明的目的是通过以下技术方案来实现的：一种基于关键词的隐私保护流量检测方法，包括如下步骤：

(1)关键词提取：中间盒从正则表达式中提取出关键词。

(2)流量处理：客户端使用步骤(1)得到的关键词，找出流量中这些关键词匹配的位置，将未匹配的部分替换为脱敏信息。

(3)流量检测：中间盒使用正则表达式匹配步骤(2)得到的脱敏流量，记录每个正则表达式的匹配结果。

进一步地，所述步骤(1)包括如下子步骤：

(1.1)根据正则表达式，将‘*’‘+’前面的连续字符看作关键词。

(1.2)根据正则表达式，将‘？’前的连续字符看作一个关键词，并去掉其最后一个字符作为另一个关键词。

(1.3)根据正则表达式，将‘|’前后的连续字符分别看作两个关键词。

(1.4)基于步骤(1.1)～(1.3)得到的关键词，去除其中重复的关键词，得到关键词集合KW。

进一步地，所述步骤(2)包括如下子步骤：

(2.1)对于步骤(1)得到的关键词集合KW，遍历其中所有的关键词kw，在流量S中找到其出现的所有位置并做标记。

(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置，将流量中被标记字符保留不变。对于未被标记的字符，将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符替换为‘a’，将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符替换为‘z’，将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符替换为‘A’，将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符替换为‘Z’，将其中的数字字符替换为‘0’，将其中的空白字符替换为换行符，将其他在ASCII128范围中的字符替换为‘\X00’，将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量S^′。

进一步地，所述空白字符包括空格、水平制表符、垂直制表符、换行符、换页符、回车符等。

进一步地，所述步骤(3)具体为：基于步骤(2.2)得到的处理后的流量S′，使用正则表达式进行匹配，记录每条正则表达式与之匹配的结果。

进一步地，还包括数据校验：服务端使用步骤(1)得到的关键词，重新执行步骤(2)，对比两次流量处理的结果，确保系统正常运行。

进一步地，所述数据校验，包括如下子步骤：

(4.1)服务端基于步骤(1)得到的关键词集合KW和接收到的流量T，执行步骤(2)得到T′。

(4.2)对比S和T是否一致，对比S′和T′是否一致，若S和T一致并且S′和T′一致，说明系统正常工作。否则，说明客户端或中间盒工作执行错误，服务端拒绝接受流量T。

本发明的有益效果是：本发明通过提取关键词和流量处理，可以在保护用户流量数据隐私安全的条件下进行正则表达式匹配流量检测，与传统的密码学解决方案相比效率较高，同时达到了与明文检测相似的精准度。本发明首次提出了基于关键词的隐私保护流量检测技术，在保护用户流量隐私的同时可以达到与明文检测相似的精准度，适用于当前高频短连接的网络环境，对流量进行实时检测，效果优于现有方法，且具有效率高、延迟低、方便部署等特点。

附图说明

图1是本发明的网络拓扑结构；其中，(a)为客户端，(b)中间盒，(c)为服务端。

具体实施方式

如图1所示，本发明一种基于关键词的隐私保护流量检测方法，从正则表达式中提取关键词，根据关键词集合对流量进行数据脱敏，中间盒使用正则表达式检测脱敏后的流量，以实现在保护用户数据隐私安全的条件下进行流量检测。具体包括以下步骤：

(1)关键词提取：中间盒从现有的正则表达式中，提取出关键词，具体包括以下子步骤：

(1.2)根据正则表达式，根据‘？’前的连续字符，生成两个不同的关键词，一个关键词是‘？’前的连续字符，另一个是去掉最后一个字符的‘？’前的连续字符。如“https？”，将生成“https”和“http”两个关键词。

(2)流量处理：客户端使用步骤(1)得到的关键词，找出流量中这些关键词匹配的位置，将未匹配的部分替换为脱敏信息。本步骤根据关键词集合，保留流量中正则表达式检测需要的重要信息，将敏感信息替换为其他字符，实现数据脱敏，同时保持流量特征不变。具体包括以下子步骤：

(2.1)对于步骤(1.4)得到的关键词集合KW，遍历其中所有的关键词kw，在流量S中找到其出现的所有位置并做标记。

(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置，将流量中被标记字符保留不变。对于未被标记的字符，将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符(这些字符既有可能是小写字母，也有可能是十六进制的数字)替换为‘a’，将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符(这些字符确定是小写字母)替换为‘z’，将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符(这些字符既有可能是大写字母，也有可能是十六进制的数字)替换为‘A’，将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符(这些字符确定是大写字母)替换为‘Z’，将其中的数字字符(与正则表达式中的‘\d’对应)替换为‘0’，将其中的空白字符(如空格、水平制表符、垂直制表符、换行符、换页符、回车符)(与正则表达式中的‘\s’对应)替换为换行符，将其他在ASCII128范围中的字符替换为‘\X00’，将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量S^′。

(3)流量检测：基于步骤(2.2)得到的处理后的脱敏流量S′，中间盒使用正则表达式进行匹配，记录每个正则表达式与之匹配的匹配结果，即本发明流量检测的结果。本步骤根据流量和正则表达式规则集合检测出流量的相关特性。

(4)数据校验：服务端使用步骤(1)得到的关键词，重新执行步骤(2)，对比两次流量处理的结果，确保系统正常运行，具体包括以下子步骤：

(4.1)服务端基于步骤(1.4)得到的关键词集合KW，和接收到的流量T，执行步骤(2)得到处理后的流量T′。包括以下子步骤：

(4.1.1)对于步骤(1.4)得到的关键词集合KW，遍历其中所有的关键词kw，在流量T中找到其出现的所有位置并做标记。

(4.1.2)基于步骤(4.1.1)得到的关键词在流量T中出现的位置，将流量中被标记字符保留不变。对于未被标记的字符，将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符替换为‘a’，将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符替换为‘z’，将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符替换为‘A’，将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符替换为‘Z’，将其中的数字字符替换为‘0’，将其中的空白字符(如空格、水平制表符、垂直制表符、换行符、换页符、回车符)替换为换行符，将其他在ASCII128范围中的字符替换为‘\X00’，将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量T′。

(4.2)对比S和T是否一致，对比S′和T′是否一致，若S和T一致并且S′和T′一致，说明系统正常工作。若S和T不一致，或S′和T′不一致，说明客户端或中间盒工作执行错误，服务端拒绝接受该条流量T。

实施例

在三台配备2核2.4GHz Intel Xeon Skylake处理器，4GB内存，1Mbps宽带的云主机上实现本发明的实施例。为了模拟实际的网络延迟，三台服务器分别位于三个不同的国家。为了更准确地展现本发明的相关性能，每个独立的实验均重复5次，最终结果取平均值。

实验使用了来自于真实网络环境下保存的流量数据和当前热门的Snort规则库，实验表明，本发明实例达到了99.97％的准确率。

当使用6738条正则表达式规则时，共提取出关键词6585个，运行时间为635毫秒。使用这些6585个关键词处理流量：处理长度为200字节的流量用时25.4毫秒，处理长度为2000字节的流量用时253.8毫秒，处理流量所用时间与流量长度呈线性关系。使用6738条正则表达式匹配处理后的流量，检测长度为200字节的流量用时5毫秒，检测长度为2000字节的流量用时23.3毫秒。发送长度200字节的流量总延迟为596毫秒，发送长度2000字节的流量总延迟为812毫秒。

Claims

1.一种基于关键词的隐私保护流量检测方法，其特征在于，包括如下步骤：

(1)关键词提取：中间盒从正则表达式中提取出关键词。

2.根据权利要求1所述基于关键词的隐私保护流量检测方法，其特征在于，所述步骤(1)包括如下子步骤：

3.根据权利要求1所述基于关键词的隐私保护流量检测方法，其特征在于，所述步骤(2)包括如下子步骤：

(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置，将流量中被标记字符保留不变。对于未被标记的字符，将其中在‘a’和‘f’之间(包括‘a’和‘f’)的字符替换为‘a’，将其中在‘g’和‘z’之间(包含‘g’和‘z’)的字符替换为‘z’，将其中在‘A’和‘F’之间(包括‘A’和‘F’)的字符替换为‘A’，将其中在‘G’和‘Z’之间(包含‘G’和‘Z’)的字符替换为‘Z’，将其中的数字字符替换为‘0’，将其中的空白字符替换为换行符，将其他在ASCII128范围中的字符替换为‘\X00’，将其他在extend ASCII范围中的字符替换为‘\XF0’。得到处理后的流量S′。

4.根据权利要求3所述基于关键词的隐私保护流量检测方法，其特征在于，所述空白字符包括空格、水平制表符、垂直制表符、换行符、换页符、回车符等。

5.根据权利要求3所述基于关键词的隐私保护流量检测方法，其特征在于，所述步骤(3)具体为：基于步骤(2.2)得到的处理后的流量S′，使用正则表达式进行匹配，记录每条正则表达式与之匹配的结果。

6.根据权利要求1所述基于关键词的隐私保护流量检测方法，其特征在于，还包括数据校验：服务端使用步骤(1)得到的关键词，重新执行步骤(2)，对比两次流量处理的结果，确保系统正常运行。

7.根据权利要求6所述的基于关键词的隐私保护流量检测方法，其特征在于，所述数据校验，包括如下子步骤：