CN110247819B - 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 - Google Patents
一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 Download PDFInfo
- Publication number
- CN110247819B CN110247819B CN201910435681.7A CN201910435681A CN110247819B CN 110247819 B CN110247819 B CN 110247819B CN 201910435681 A CN201910435681 A CN 201910435681A CN 110247819 B CN110247819 B CN 110247819B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- samples
- flow
- video acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 54
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 36
- 238000004891 communication Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 description 30
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012795 verification Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005336 cracking Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于加密流识别的Wi‑Fi视频采集设备检测方法及系统,用于在加密Wi‑Fi环境中通过识别设备的流量检测视频采集设备,该方法包括以下步骤:持续嗅探环境中的所有Wi‑Fi数据包,提取数据帧并按设备分组;按照滑动时间窗口将每个设备的流量划分为多个样本,提取每个样本内的数据帧的统计特征;通过训练后的分类模型预测每个样本的分类标签,将统计特征符合视频采集活动流量的样本预测为正样本,否则为负样本;累计每个设备中所有样本的预测结果,当预测结果满足判别规则时,判定该设备为视频采集设备;本发明通过识别设备的流量统计特征是否符合视频采集活动的流量统计特征,在不破解加密的情况下即可检测出视频采集设备。
Description
技术领域
本发明属于信息保护与隐私防护技术领域,更具体地,涉及一种基于加密流识别的Wi-Fi视频采集设备的检测方法及系统。
背景技术
如今Wi-Fi在人们的生活和工作中几乎无处不在,且基于802.11协议衍生出的加密技术(如WEP、WPA、WPA2等)为通信传输的安全性和可靠性提供了保障。但是现实中存在利用隐藏的视频采集设备,通过加密Wi-Fi实时传输拍摄内容到外界的现象。比如在出租房屋、酒店会所等地方利用预先安装的隐藏摄像头,对私人场所内的活动进行偷拍并利用Wi-Fi传输到外界,导致个人隐私信息泄露;或者在保密会议室、商务谈判等场所中,利用未授权的摄像头、智能手机等设备将重要的环境信息、机密信息等通过Wi-Fi实时泄露到外界。这些未授权的设备在“无形”中传输个人私密信息或企业机构机密信息等,且由于通信加密,传输信息不易被正常用户和网络管理员察觉,从而导致重要信息的泄露。
在加密Wi-Fi环境中,视频采集设备往往通过Wi-Fi将实时拍摄的内容传输给外界,比如外界人员通过与摄像头绑定的手机app、网址等实时观看拍摄内容,或者有人利用智能手机上的一些视频直播软件将拍摄画面实时分享给外界。若能够识别该环境中某未授权设备的加密Wi-Fi流量特征符合视频采集活动的流量特征,则也能说明该设备很有可能为视频采集设备。
对于环境中的加密Wi-Fi流量,虽然可以采取破解加密获取通信内容的手段来识别未授权的视频采集设备,但是由于网络环境复杂,过程中也需要破解其他正常授权设备的通信内容;这种方法不仅会消耗大量的计算资源,不能保证检测的实时性,也违背了通信内容加密传输的初衷。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于加密流识别的Wi-Fi视频采集设备的检测方法及系统,在不破解加密的情况下,通过嗅探所有Wi-Fi通信设备的数据包,识别加密Wi-Fi网络中各通信设备的流量统计特征是否符合视频采集活动的流量统计特征,来判断这些设备是否为视频采集设备,其目的在于解决破解加密获取通信内容的方法存在的消耗大量的计算资源、无法保证检测的实时性,以及违背了通信内容加密传输的初衷的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于加密流识别的Wi-Fi视频采集设备检测方法,用于在加密Wi-Fi环境中通过识别各设备的流量检测视频采集设备,该方法包括以下步骤:
S1:持续嗅探环境中的所有Wi-Fi数据包并提取数据帧,根据每个所述数据帧的MAC地址将其按设备分组,得到各设备的流量数据;
S2:按照预置的滑动时间窗口将每个设备的流量数据划分为多个样本,提取每个所述样本内的所有数据帧的统计特征,并将所述统计特征与其对应的MAC地址加入消息队列;
S3:通过预先训练的分类模型预测所述消息队列中每个样本的分类标签,将统计特征符合视频采集活动流量的样本预测为正样本,不符合视频采集活动流量的样本预测为负样本;
S4:累计每个设备中所有样本的预测结果,当所述预测结果满足预设的判别规则时,判定该预测结果对应的设备为视频采集设备。
优选的,上述Wi-Fi视频采集设备检测方法,其步骤S3中所述的分类模型的训练过程包括以下步骤:
S31:在加密Wi-Fi环境中采集Wi-Fi通信设备的流量数据,所述流量数据包括视频采集活动的流量和非视频采集活动的流量;
S32:利用预置的滑动时间窗口将采集的流量数据划分为多个样本,将其中视频采集活动的流量数据标记为正样本,其他通信活动的流量数据标记为负样本,提取所述正样本、负样本中的所有数据帧的统计特征;
S33:以正样本、负样本中的所述统计特征作为训练样本对构建的分类模型进行训练。
优选的,上述Wi-Fi视频采集设备检测方法中将流量数据划分为多个样本具体包括:
将流量数据表示为一个时间序列{T1,T2,…,TW,TW+1,…,TN},采用预置的固定时域描述滑动时间窗口大小W,将所述流量数据划分为(N-W+1)个样本{T1,T2,…,TW},{T2,T3,…,TW+1},…{TN-W+1,TN-W,…,TN};其中,N为大于1的自然数。
优选的,上述Wi-Fi视频采集设备检测方法中提取所有数据帧的统计特征具体包括:
将每个样本中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度和帧长分布,并计算上行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有上行数据帧的百分比,以及下行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有下行数据帧的百分比。
优选的,上述Wi-Fi视频采集设备检测方法,其步骤S4中包括以下子步骤:
S41:将每个设备的初始统计分数置零;
S42:对分类模型预测的正样本赋予第一标签值,对分类模型预测的负样本赋予第二标签值;
S43:分别设置所述第一标签值和第二标签值的权重,根据每个设备中所有样本的标签值及其对应的权重计算各设备的统计分数;
S44:当任一设备的所述统计分数大于预设值时,判定该设备为视频采集设备。
优选的,上述Wi-Fi视频采集设备检测方法,其步骤S1中持续嗅探环境中的所有Wi-Fi数据包具体包括:将无线网卡设置成混杂模式,扫描Wi-Fi的发射频段下的所有信道以识别出正在进行Wi-Fi通信的设备,捕获每个所述设备发送和接收的数据包。
按照本发明的另一个方面,还提供了一种基于加密流识别的Wi-Fi视频采集设备检测系统,包括流量嗅探单元、特征提取单元、流量识别单元和结果处理单元;
所述流量嗅探单元用于持续嗅探环境中的所有Wi-Fi数据包并提取数据帧,根据每个所述数据帧的MAC地址将其按设备分组,得到各设备的流量数据;
所述特征提取单元用于按照预置的滑动时间窗口将每个设备的流量数据划分为多个样本,提取每个所述样本内的所有数据帧的统计特征,并将所述统计特征与其对应的MAC地址加入消息队列;
所述流量识别单元用于通过预先训练的分类模型预测所述消息队列中每个样本的分类标签,将统计特征符合视频采集活动流量的样本预测为正样本,不符合视频采集活动流量的样本预测为负样本;
所述结果处理单元用于累计每个设备中所有样本的预测结果,当所述预测结果满足预设的判别规则时,判定该预测结果对应的设备为视频采集设备。
优选的,上述Wi-Fi视频采集设备检测系统还包括模型训练单元;所述模型训练单元用于采集训练样本以对构建的分类模型进行训练,包括数据采集模块和数据标记模块;
所述数据采集模块用于在加密Wi-Fi环境中采集Wi-Fi通信设备的流量数据,所述流量数据包括视频采集活动的流量和非视频采集活动的流量;所述流量数据被提供给特征提取单元,特征提取单元按照预置的滑动时间窗口将采集的流量数据划分为多个样本;
所述数据标记模块用于将特征提取单元划分后的多个样本中的视频采集活动流量数据标记为正样本,其他通信活动流量数据标记为负样本;通过特征提取单元提取出所述正样本、负样本中的所有数据帧的统计特征后,该数据标记模块将所述统计特征作为训练样本对构建的分类模型进行训练。
优选的,上述Wi-Fi视频采集设备检测系统,其特征提取单元将流量数据划分为多个样本具体包括:
将流量数据表示为一个时间序列{T1,T2,…,TW,TW+1,…,TN},采用预置的固定时域描述滑动时间窗口大小W,将所述流量数据划分为(N-W+1)个样本{T1,T2,…,TW},{T2,T3,…,TW+1},…,{TN-W+1,TN-W,…,TN};其中,N为大于1的自然数;
特征提取单元提取所有数据帧的统计特征具体包括:
将每个样本中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度和帧长分布,并计算上行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有上行数据帧的百分比,以及下行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有下行数据帧的百分比。
优选的,上述Wi-Fi视频采集设备检测系统,其结果处理单元包括初始化模块、赋值模块、统计模块和判定模块;
所述初始化模块用于将每个设备的初始统计分数置零;
所述赋值模块用于对分类模型预测的正样本赋予第一标签值,对分类模型预测的负样本赋予第二标签值;
所述统计模块用于分别设置所述第一标签值和第二标签值的权重,根据每个设备中所有样本的标签值及其对应的权重计算各设备的统计分数;
所述判定模块用于当任一设备的所述统计分数大于预设值时,判定该设备为视频采集设备。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的基于加密流识别的Wi-Fi视频采集设备检测方法及系统,通过在加密Wi-Fi环境中嗅探所有Wi-Fi通信设备的数据包,识别各设备的流量统计特征是否符合视频采集活动的流量统计特征,从而检测出视频采集设备;从数据帧的MAC首部和其他的流量统计信息中来提取特征进行识别,不需要破解Wi-Fi加密;基于流量统计特征分析,采用机器学习技术,通过自身的训练和学习能力实现分类任务,计算量小,能够满足实时检测的需求。
(2)本发明提供的基于加密流识别的Wi-Fi视频采集设备检测方法及系统,从加密Wi-Fi流量中提取出上行方向的所有数据帧的平均长度和多个不同帧长范围内的帧数量占所有上行数据帧的百分比,以及下行方向的所有数据帧的平均长度和多个帧长范围内的帧数量占所有下行数据帧的百分比作为视频采集流量的代表性统计特征,去除了不相关和冗余的特征,采用上述统计特征对分类模型进行训练,提高了模型的分类精度。
附图说明
图1为本发明实施例提供的基于加密流识别的Wi-Fi视频采集设备检测的场景示意图;
图2为本发明实施例提供的基于加密流识别的Wi-Fi视频采集设备检测方法的流程图;
图3为本发明实施例提供的用于训练SVM模型的流量样本采集的场景示意图;
图4为本发明实施例提供的判别规则实现流程图;
图5为本发明实施例提供的基于加密流识别的Wi-Fi视频采集设备检测系统的逻辑框图;
图6为本发明实施例提供的流量嗅探单元的逻辑框图;
图7为本发明实施例提供的特征提取单元的逻辑框图;
图8为本发明实施例提供的流量识别单元的逻辑框图;
图9为本发明实施例提供的结果处理单元的逻辑框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统,能够在加密Wi-Fi环境中,通过嗅探所有Wi-Fi通信设备的数据包,识别各设备的流量统计特征是否符合视频采集活动的流量统计特征,从而检测出视频采集设备。
图1是本发明的一种实施例的应用场景拓扑图;该环境中存在多个无线接入点,并有多台终端设备正在使用加密Wi-Fi通信,其中可能存在未知的摄像头等视频采集设备,本实施例提供的Wi-Fi视频采集设备检测方法和系统需要在短时间内快速检测出该环境中是否存在未授权的视频采集设备。
图2是本实施例提供的一种基于加密流识别的Wi-Fi视频采集设备检测方法的流程图,如图2所示,该方法包括如下步骤:
(1)持续嗅探环境中的所有Wi-Fi数据包,过滤留下数据帧,并根据每个数据帧的MAC地址将其按设备分组;
在一个优选的实施方式中,步骤(1)具体包括:首先将无线网卡设置成混杂模式,接着快速扫描Wi-Fi的2.4G频段下的所有信道,在每个信道停留5秒,识别出有哪些设备(MAC地址)正在进行Wi-Fi通信,重点监听这些设备所在的信道;然后利用python2.7的scapy工具包,捕获每个设备发送和接收的数据包,并过滤留下数据帧;最后根据每个数据帧的MAC地址将其按设备对应分组保存。
(2)对于每个设备的流量,按照滑动时间窗口将其划分为多个样本,提取每个样本内所有数据帧的统计特征,并转换成符合SVM模型输入的特征向量格式,与其对应的设备MAC地址一起加入先进先出队列,等待分类器主动从队列中读取并预测;在加密Wi-Fi环境中,所有Wi-Fi通信设备的流量都被加密处理,即所有链路层以上的数据都无法被读取。本实施例从数据帧的MAC首部和其他的流量统计信息中来提取特征进行识别,是因为Wi-Fi加密技术只是对数据包的载荷信息进行加密,而流量的统计特征不会受到影响。
其中,将每个设备的流量按滑动时间窗口划分样本具体包括:将流量表示成一个时间序列{T1,T2,…,TW,TW+1,…,TN},使用一个固定的时域来描述滑动时间窗口大小W,流量可被划分为{T1,T2,…,TW},{T2,T3,…,TW+1},…,{TN-W+1,TN-W,…,TN};其中,N为大于1的自然数;N的大小取决于嗅探时长,嗅探时间越长,N越大;例如将时间窗口大小W设为5秒时,即将流量滑动型地每5秒划分为一段作为样本,起始时间从0秒开始,则第0~5秒内的流量为第1个样本,第1~6秒内的流量为第2个样本,以此往下类推;滑动时间窗口大小W可根据实际情况来确定,一般不大于60秒。
提取特征的步骤为:对于每个样本,将其中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度和帧长分布,计算上、下行方向的帧平均长度和四个帧长范围内的帧数量百分比,将得到的数据按顺序输出。本实施例中,从每个样本内提取的统计特征分别是:(A1)样本对应流量段内所有发送数据帧的平均长度;(A2)样本对应流量段内所有接收数据帧的平均长度;(A3)样本对应流量段内长度在0~319字节的发送数据帧数量占所有发送数据帧数量的百分比;(A4)样本对应流量段内长度在320~639字节的发送数据帧数量占所有发送数据帧数量的百分比;(A5)样本对应流量段内长度在640~1279字节的发送数据帧数量占所有发送数据帧数量的百分比;(A6)样本对应流量段内长度在1280字节以上的发送数据帧数量占所有发送数据帧数量的百分比;(A7)样本对应流量段内长度在0~319字节的接收数据帧数量占所有接收数据帧数量的百分比;(A8)样本对应流量段内长度在320~639字节的接收数据帧数量占所有接收数据帧数量的百分比;(A9)样本对应流量段内长度在640~1279字节的接收数据帧数量占所有接收数据帧数量的百分比;(A10)样本对应流量段内长度在1280字节以上的接收数据帧数量占所有接收数据帧数量的百分比;本实施例优选将上、下行方向上的数据帧划分为0~319字节、320~639字节、640~1279、1280字节以上四个帧长范围,当然用户也可以根据自身需求自行划分为其他帧长范围;但是若划分间隔太少,则不同帧长的帧分布数量的差异不明显,不利于后续分类器的预测;若划分间隔太多,则特征向量元素的数量增多,计算量会加大,导致训练和预测时间都过长。
在一个优选的实施方式中,步骤(2)利用python2.7语言来设计实现,并且依赖于scapy库,具体包括:首先利用scapy读取每个设备的持续流量,根据设定的滑动时间窗口大小W,按照时间戳将流量每5秒划分为一个样本;接着对于每个样本,将其中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度、帧长分布,按照选择的10个统计特征来计算上下行方向的帧平均长度和四个帧长范围内的帧数量百分比;最后将每个样本对应的统计特征按顺序输出并保存成SVM模型指定的特征向量格式,与其对应的设备MAC地址一起加入先进先出队列。
(3)载入事先训练好的SVM分类器,预测先进先出队列中每个样本的分类标签,即正样本(视频采集活动流量)或负样本(除视频采集活动之外的其他通信活动流量);
在一个优选的实施方式中,训练SVM分类器的具体步骤包括:
(B1)在加密Wi-Fi环境中利用工具Tcpdump采集Wi-Fi通信设备的持续流量,如图3所示,包括视频采集活动的流量和其他通信活动的流量,将嗅探到的混杂数据包按照MAC地址过滤,保存成按设备分类的离线pcap文件;
其中,对于视频采集活动流量的来源,主要使用摄像头来拍摄周围环境,并通过Wi-Fi实时上传至对应手机app,在手机app上可实时观看拍摄画面,并且采集时也抓取了不同码率下摄像头拍摄画面的传输数据包;对于其他通信活动流量的来源,则采用智能手机、笔记本电脑、平板电脑等进行其他多种Wi-Fi通信活动,包括浏览网页、上传文件、下载文件、在线观看视频、软件聊天、语音通话、双向视频通话等;
(B2)利用滑动时间窗口将采集的流量每5秒划分为一个样本;
(B3)提取每个样本内多个数据帧的统计特征,并转换成符合SVM模型输入的特征向量格式,将其中视频采集活动流量的样本作为正样本,其他通信活动流量的样本作为负样本;
(B4)将正负样本分为训练集、验证集和测试集,利用LIBSVM工具建立SVM模型,利用训练集和验证集通过交叉验证选择最佳超参数以达到最佳的识别准确率,然后将训练集和验证集一起输入SVM模型进行训练得到SVM分类器,最后利用测试集评估分类器的识别效果,一般来说,当SVM分类器的识别准确率大于95%,即表明SVM模型训练完成,SVM分类器可以有效执行预测分类工作。
在SVM模型的训练中,特征属性对分类效果起着决定性的作用;从加密Wi-Fi流量中可以提取多种特征,且这些流量特征对于区分不同通信活动的重要程度不同,而本发明选择的10个统计特征对于识别视频采集活动的流量具有代表性,且去除了不相关和冗余的特征,有利于提高SVM模型的分类精度。
需要指出的是,也可以采用决策树、随机森林、朴素贝叶斯、K-近邻算法、神经网络、隐马尔可夫模型等来替代本实施例中的SVM模型,但是由于视频采集活动流量的链路层数据帧之间的特征关系相对比较模糊,如K-近邻算法、决策树、朴素贝叶斯等传统的分类方法难以充分描述,导致无法产生较高的分类精度。HMM是一种基于马尔可夫假设的强大统计技术,但是在HMM中需要设置的参数数量非常大,因此训练HMM所需的数据量也非常大;同样神经网络训练也需要很大的数据量,训练时间也较长。因此本实施例优选使用SVM模型来构建分类器,它可以对输入和输出之间的复杂关系建模,在训练集较小的情况下依然可以取得较好的分类性能。
(4)累计每个设备的流量样本预测结果,当其预测结果统计满足判别规则时,会报告该设备被判断为视频采集设备;
其中,步骤(4)中判别规则的实现流程图如图4所示,具体包括:
(C1)将每个设备的初始统计分数设为0;
(C2)对SVM分类器预测的正样本赋予第一标签值,对分类模型预测的负样本赋予第二标签值;SVM分类器会依次预测先进先出队列中的每个样本,预测为正样本则赋予其第一标签值+1,预测为负样本则赋予其第二标签值-1;
(C3)分别设置所述第一标签值和第二标签值的权重;由于视频采集活动流量的特征往往比较稳定,因此其出现负样本的比重对判断的影响要大于正样本,这里将正负样本的权重分别设为0.3和0.7;
(C4)根据每个设备中所有样本的标签值及其对应的权重计算各设备的统计分数;对每个设备流量样本的预测结果进行打分统计:若一个样本被预测为正样本,则它对应的设备的统计分数会加1*0.3;若一个样本被预测为负样本,则它对应的设备的统计分数会加-1*0.7;
(C5)当任一设备的统计分数大于预设的最大分数值时,判定该设备为视频采集设备;本实施例中最大分数值设为3,当某个设备的统计分数大于3时,则判断该设备为视频采集设备。
(5)当超过设置的嗅探时间时,结束此次检测任务。
本发明还提供了一种基于加密流识别的Wi-Fi视频采集设备检测系统,如图5所示,包括流量嗅探单元、特征提取单元、流量识别单元和结果处理单元;
图6为本实施例提供的流量嗅探单元的逻辑框图;流量嗅探单元用于实时嗅探环境中的所有Wi-Fi数据包,将其捕捉并过滤后传递给特征提取单元。首先将无线网卡设置成混杂模式,接着流量嗅探单元快速扫描Wi-Fi的2.4G频段下的所有信道,识别出有哪些设备(MAC地址)正在进行无线通信,重点监听这些设备所在的信道;然后使用python2.7的scapy工具包,捕获每个设备发送和接收的数据包,并过滤留下数据帧,将每个设备的MAC地址与其传输的流量对应分组保存,传递给特征提取单元。
图7为实施例提供的特征提取单元的逻辑框图;特征提取单元用于将每个设备对应传输的流量按照滑动时间窗口划分样本并提取出个样本的统计特征,将样本的对应统计特征信息转换成SVM模型能处理的输入向量;首先将每个设备发送和接收的流量按滑动窗口划分为多个样本;将流量表示成一个时间序列{T1,T2,…,TW,TW+1,…,TN},使用一个固定的时域来描述滑动时间窗口大小W,流量可被划分为{T1,T2,…,TW},{T2,T3,…,TW+1},…,{TN-W+1,TN-W,…,TN};其中,N为大于1的自然数;N的大小取决于嗅探时长,嗅探时间越长,N越大;接着提取每个样本内的统计特征,转换为数据向量的形式;对于每个样本,将其中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度和帧长分布,计算上、下行方向的帧平均长度和四个帧长范围内的帧数量百分比;本实施例优选将上、下行方向上的数据帧划分为0~319字节、320~639字节、640~1279、1280字节以上四个帧长范围。
得到各样本的统计特征之后,特征提取单元将每个样本的对应统计特征信息转换成SVM模型能处理的特征向量,将该特征向量及其对应的设备MAC地址放入先进先出队列中,等待流量识别单元主动从队列中读取输入。
图8为本实施例提供的流量识别单元的逻辑框图;流量识别单元利用事先训练好的SVM分类器,对输入样本特征向量进行实时预测,给出每个样本的预测标签。在离线训练部分,利用LIBSVM将训练好的SVM模型保存为MODEL文件;在在线识别部分,流量识别单元异步从特征提取单元的待预测样本队列中读取输入,将预测结果传递给结果处理单元。
图9为本实施例提供的结果处理单元的逻辑框图;结果处理单元将流量识别结果作为输入,通过对每个设备的流量样本预测统计信息来判断设备是否为视频采集设备。流量识别单元的输出为某一设备流量单个样本的预测标签,即正样本(+1)或负样本(-1),按照对应设备MAC地址进行统计,当一个设备的预测结果统计满足判别规则时,即判断该设备为视频采集设备;该结果处理单元包括初始化模块、赋值模块、统计模块和判定模块;
初始化模块用于将每个设备的初始统计分数置零;
赋值模块用于对分类模型预测的正样本赋予第一标签值,对分类模型预测的负样本赋予第二标签值;SVM分类器预测为正样本则赋予其第一标签值+1,预测为负样本则赋予其第二标签值-1;
统计模块用于分别设置第一标签值和第二标签值的权重,根据每个设备中所有样本的标签值及其对应的权重计算各设备的统计分数;由于视频采集活动流量的特征往往比较稳定,因此其出现负样本的比重对判断的影响要大于正样本,这里将正负样本的权重分别设为0.3和0.7;对每个设备流量样本的预测结果进行打分统计:若一个样本被预测为正样本,则它对应的设备的统计分数会加1*0.3;若一个样本被预测为负样本,则它对应的设备的统计分数会加-1*0.7;
判定模块用于监测各设备的统计分数,当任一设备的所述统计分数大于预设的最大分数值时判定该设备为视频采集设备;本实施例中最大分数值设为3,当某个设备的统计分数大于3时,判定模块即判断该设备为视频采集设备。
进一步的,本实施例提供的Wi-Fi视频采集设备检测系统还包括模型训练单元,该模型训练单元用于采集训练样本以对构建的SVM模型进行训练,得到SVM分类器;模型训练单元包括数据采集模块和数据标记模块;
数据采集模块用于在加密Wi-Fi环境中利用工具Tcpdump采集Wi-Fi通信设备的流量数据,包括视频采集活动的流量和非视频采集活动的流量;数据采集模块采集的流量数据被提供给特征提取单元,特征提取单元首先按照滑动时间窗口将采集的流量每5秒划分为一个样本;然后提取出每个样本中的所有数据帧的统计特征并转换成符合SVM模型输入的特征向量格式;
数据标记模块用于将视频采集活动流量的样本标记为正样本,其他通信活动流量的样本标记为负样本;然后将标记后的各样本的统计特征作为训练样本对构建的SVM模型进行训练;将正负样本分为训练集、验证集和测试集,利用训练集和验证集通过交叉验证选择最佳超参数以达到最佳的识别准确率,然后将训练集和验证集一起输入SVM模型进行训练得到SVM分类器,最后利用测试集评估分类器的识别效果。
相比于采取破解加密获取通信内容来识别未授权的视频采集设备的方式,本发明提供的基于加密流识别的Wi-Fi视频采集设备检测方法及系统,通过在加密Wi-Fi环境中嗅探所有Wi-Fi通信设备的数据包,识别各设备的流量统计特征是否符合视频采集活动的流量统计特征,从而检测出视频采集设备;从数据帧的MAC首部和其他的流量统计信息中来提取特征进行识别,不需要破解Wi-Fi加密;基于流量统计特征分析,采用支持向量机技术,通过自身的训练和学习能力实现分类任务,计算量小,能够满足实时检测的需求。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于加密流识别的Wi-Fi视频采集设备检测方法,用于在加密Wi-Fi环境中通过识别各设备的流量检测视频采集设备,其特征在于,包括以下步骤:
S1:持续嗅探环境中的所有Wi-Fi数据包并提取数据帧,根据每个所述数据帧的MAC地址将其按设备分组,得到各设备的流量数据;
S2:按照预置的滑动时间窗口将每个设备的流量数据划分为多个样本,提取每个所述样本内的所有数据帧的统计特征;将每个设备的流量数据划分为多个样本具体为:
将流量数据表示为一个时间序列{T 1 ,T 2 ,⋯,T W ,T W+1 ,⋯,T N },采用预置的固定时域描述滑动时间窗口大小W,将所述流量数据划分为(N-W+1)个样本{T 1 ,T 2 ,⋯,T W }, {T 2 ,T 3 ,⋯, T W+1 },…{T N-W+1 ,T N-W+2 ,⋯,T N };其中,N为大于1的自然数;
S3:通过预先训练的分类模型预测每个样本的分类标签,将统计特征符合视频采集活动流量的样本预测为正样本,不符合视频采集活动流量的样本预测为负样本;所述分类模型的训练过程包括以下步骤:
S31:在加密Wi-Fi环境中采集Wi-Fi通信设备的流量数据,所述流量数据包括视频采集活动的流量和非视频采集活动的流量;
S32:利用预置的滑动时间窗口将采集的流量数据划分为多个样本,将其中视频采集活动的流量数据标记为正样本,非视频采集活动的流量数据标记为负样本,提取所述正样本、负样本中的所有数据帧的统计特征;
S33:以正、负样本中的所述统计特征作为训练样本对构建的分类模型进行训练;
S4:累计每个设备中所有样本的预测结果,当所述预测结果满足预设的判别规则时,判定该预测结果对应的设备为视频采集设备。
2.如权利要求1所述的Wi-Fi视频采集设备检测方法,其特征在于,提取数据帧的统计特征具体包括:
将每个样本中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度和帧长分布,并计算上行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有上行数据帧的百分比,以及下行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有下行数据帧的百分比。
3.如权利要求1所述的Wi-Fi视频采集设备检测方法,其特征在于,步骤S4中包括以下子步骤:
S41:对分类模型预测的正样本赋予第一标签值,对分类模型预测的负样本赋予第二标签值;
S42:分别设置所述第一标签值和第二标签值的权重,根据每个设备中所有样本的标签值及其对应的权重计算各设备的统计分数;
S43:当任一设备的所述统计分数大于预设值时,判定该设备为视频采集设备。
4.如权利要求3所述的Wi-Fi视频采集设备检测方法,其特征在于,步骤S1中持续嗅探环境中的所有Wi-Fi数据包具体包括:将无线网卡设置成混杂模式,扫描Wi-Fi的发射频段下的所有信道以识别出正在进行Wi-Fi通信的设备,捕获每个所述设备发送和接收的数据包。
5.一种基于加密流识别的Wi-Fi视频采集设备检测系统,其特征在于,包括流量嗅探单元、特征提取单元、模型训练单元、流量识别单元和结果处理单元;
所述流量嗅探单元用于持续嗅探环境中的所有Wi-Fi数据包并提取数据帧,根据每个所述数据帧的MAC地址将其按设备分组,得到各设备的流量数据;
所述特征提取单元用于按照预置的滑动时间窗口将每个设备的流量数据划分为多个样本,提取每个所述样本内的所有数据帧的统计特征;将每个设备的流量数据划分为多个样本具体为:
将流量数据表示为一个时间序列{T 1 ,T 2 ,⋯,T W ,T W+1 ,⋯,T N },采用预置的固定时域描述滑动时间窗口大小W,将所述流量数据划分为(N-W+1)个样本{T 1 ,T 2 ,⋯,T W }, {T 2 ,T 3 ,⋯, T W+1 },…{T N-W+1 ,T N-W+2 ,⋯,T N };其中,N为大于1的自然数;
所述模型训练单元用于采集训练样本以对构建的分类模型进行训练,包括数据采集模块和数据标记模块;
所述数据采集模块用于在加密Wi-Fi环境中采集Wi-Fi通信设备的流量数据,所述流量数据包括视频采集活动的流量和非视频采集活动的流量;所述流量数据被提供给特征提取单元,特征提取单元按照预置的滑动时间窗口将采集的流量数据划分为多个样本并提取每个样本中的所有数据帧的统计特征;
所述数据标记模块用于将视频采集活动流量的样本标记为正样本,非视频采集活动流量的样本标记为负样本;将标记后的各样本的统计特征作为训练样本输入构建的分类模型中;
所述流量识别单元用于通过预先训练的分类模型预测每个样本的分类标签,将统计特征符合视频采集活动流量的样本预测为正样本,不符合视频采集活动流量的样本预测为负样本;
所述结果处理单元用于累计每个设备中所有样本的预测结果,当所述预测结果满足预设的判别规则时,判定该预测结果对应的设备为视频采集设备。
6.如权利要求5所述的Wi-Fi视频采集设备检测系统,其特征在于,
所述特征提取单元提取所有数据帧的统计特征具体包括:
将每个样本中的所有数据帧按照上行和下行方向进行分组,分别统计上行和下行方向上的帧数量、帧总长度和帧长分布,并计算上行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有上行数据帧的百分比,以及下行方向的所有数据帧的平均长度和多个预置的帧长范围内的帧数量占所有下行数据帧的百分比。
7.如权利要求5或6所述的Wi-Fi视频采集设备检测系统,其特征在于,所述结果处理单元包括赋值模块、统计模块和判定模块;
所述赋值模块用于对分类模型预测的正样本赋予第一标签值,对分类模型预测的负样本赋予第二标签值;
所述统计模块用于分别设置所述第一标签值和第二标签值的权重,根据每个设备中所有样本的标签值及其对应的权重计算各设备的统计分数;
所述判定模块用于将所述统计分数大于预设值的设备判定为视频采集设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435681.7A CN110247819B (zh) | 2019-05-23 | 2019-05-23 | 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435681.7A CN110247819B (zh) | 2019-05-23 | 2019-05-23 | 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110247819A CN110247819A (zh) | 2019-09-17 |
CN110247819B true CN110247819B (zh) | 2021-07-06 |
Family
ID=67884921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910435681.7A Active CN110247819B (zh) | 2019-05-23 | 2019-05-23 | 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110247819B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111132120B (zh) * | 2020-04-01 | 2020-10-16 | 北京三快在线科技有限公司 | 识别房间局域网中的摄像装置的方法、系统及设备 |
CN111708049B (zh) * | 2020-06-29 | 2023-07-25 | 河南天安润信信息技术有限公司 | 一种利用伪卫星进行无人机导航欺骗的方法 |
CN111970509B (zh) * | 2020-08-10 | 2022-12-23 | 杭州海康威视数字技术股份有限公司 | 一种视频图像的处理方法、装置与系统 |
CN112422589B (zh) * | 2021-01-25 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 域名系统请求的识别方法、存储介质及电子设备 |
CN114827990A (zh) * | 2022-04-06 | 2022-07-29 | 安天科技集团股份有限公司 | 探测隐匿物联网设备的方法、装置、服务器、电子设备及存储介质 |
CN114697139B (zh) * | 2022-05-25 | 2022-09-02 | 杭州海康威视数字技术股份有限公司 | 基于特征迁移的设备异常检测、训练方法、系统和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954365A (zh) * | 2015-05-27 | 2015-09-30 | 北京亿赛通网络安全技术有限公司 | 一种快速自动识别加密网络行为的方法 |
CN108805211A (zh) * | 2018-06-15 | 2018-11-13 | 电子科技大学 | 基于机器学习的智能业务类型感知方法 |
-
2019
- 2019-05-23 CN CN201910435681.7A patent/CN110247819B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954365A (zh) * | 2015-05-27 | 2015-09-30 | 北京亿赛通网络安全技术有限公司 | 一种快速自动识别加密网络行为的方法 |
CN108805211A (zh) * | 2018-06-15 | 2018-11-13 | 电子科技大学 | 基于机器学习的智能业务类型感知方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110247819A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110247819B (zh) | 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 | |
Schuster et al. | Beauty and the burst: Remote identification of encrypted video streams | |
CN107623754B (zh) | 基于真伪MAC识别的WiFi采集系统及其方法 | |
CN107302520B (zh) | 一种数据动态防泄漏与预警方法及系统 | |
CN108337652B (zh) | 一种检测流量欺诈的方法及装置 | |
US20130183951A1 (en) | Dynamic mobile application classification | |
CN109861957A (zh) | 一种移动应用私有加密协议的用户行为精细化分类方法及系统 | |
Yan et al. | Identifying wechat red packets and fund transfers via analyzing encrypted network traffic | |
Wu et al. | Do you see what i see?< subtitle> detecting hidden streaming cameras through similarity of simultaneous observation | |
KR102204338B1 (ko) | 무선 ip 카메라 탐지 시스템 | |
CN113283498A (zh) | 一种面向高速网络的vpn流量快速识别方法 | |
US20190356571A1 (en) | Determining attributes using captured network probe data in a wireless communications system | |
Li et al. | Packet-level open-world app fingerprinting on wireless traffic | |
CN114554185A (zh) | 一种基于无线网络流量的偷拍摄像头检测及防护方法 | |
CN117676501A (zh) | 一站式物联网消防柜机械保护装置远程无线通信方法 | |
Gijón et al. | Encrypted traffic classification based on unsupervised learning in cellular radio access networks | |
CN101321097A (zh) | 基于净荷深度检测的腾讯网络直播业务识别方法 | |
Redondi et al. | Passive classification of Wi-Fi enabled devices | |
CN110858837A (zh) | 一种网络管控方法、装置以及电子设备 | |
US9025833B2 (en) | System and method for video-assisted identification of mobile phone users | |
KR102411209B1 (ko) | 엣지 디바이스에서 생성한 객체 탐지 이벤트 기반의 영상 분류 시스템 | |
KR100900946B1 (ko) | 무선 인터넷 데이터 서비스의 데이터 트래픽 패턴을수집하는 방법 및 서버 | |
CN109429296B (zh) | 用于终端与上网信息关联的方法、装置及存储介质 | |
Pathmaperuma et al. | In-app activity recognition from Wi-Fi encrypted traffic | |
CN114513681A (zh) | 一种视频处理系统、方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |