CN109275045A - 基于dfi的移动端加密视频广告流量识别方法 - Google Patents

基于dfi的移动端加密视频广告流量识别方法 Download PDF

Info

Publication number
CN109275045A
CN109275045A CN201811042205.0A CN201811042205A CN109275045A CN 109275045 A CN109275045 A CN 109275045A CN 201811042205 A CN201811042205 A CN 201811042205A CN 109275045 A CN109275045 A CN 109275045A
Authority
CN
China
Prior art keywords
stream
highrate
value
data
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811042205.0A
Other languages
English (en)
Other versions
CN109275045B (zh
Inventor
程光
蒋山青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201811042205.0A priority Critical patent/CN109275045B/zh
Publication of CN109275045A publication Critical patent/CN109275045A/zh
Application granted granted Critical
Publication of CN109275045B publication Critical patent/CN109275045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4408Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video stream encryption, e.g. re-encrypting a decrypted video stream for redistribution in a home network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于DFI的移动端加密视频广告流量识别方法,将相同IP源宿地址的数据包组成IP流,找出传输数据量最大的IP流largest_stream,将传输速率大于40的时刻值记入highrate,当首次出现主体流量时间序列的序列值之差大于10时,将之前主体流量时间序列序列值存highrate_before;之后的存入highrate_later,将长度大于highrate长度的一半的highrate_before赋值highrate,否则将highrate_later赋值highrate,将主体流量时间序列的最小值与被比较的IP流播放时长之和小于largest_stream的主体流量开始时刻的IP流加到广告流序列;将主体流量时间序列的最小值与largest_stream的播放时长之和小于被比较的IP流的主体流量开始时刻的largest_stream加到广告流序列,将广告流序列中数据量最大的IP流作为广告流。

Description

基于DFI的移动端加密视频广告流量识别方法
技术领域
本发明涉及视频广告流量识别领域,尤其是一种基于DFI的移动端加密视频广告流量识别方法。
背景技术
广告流量识别是指从互联网上的正常流量中识别并定位出广告流量的一种技术,用户在访问互联网资源(如访问网页、观看视频)的过程中往往被强制性的推荐观看广告,如何准确地从互联网流量中识别出广告流量是实现精准广告投放、广告屏蔽与反屏蔽等课题的基础工作,已经成为一个较为热门的研究方向。
目前针对互联网广告流量常见的识别方法有:基于音视频处理的广告流量识别方法,基于DPI(Deep Packet Inspection,深度包检测)的广告URL字段匹配方法,基于DFI(Deep Flow Inspection,深度流检测)的广告流量行为特征识别方法等。
(1)基于音视频处理的广告识别方法
Kaushik等人基于对音视频的处理,发现了广告最后一帧的特点,提出了一种音视频相结合的广告检测方法。针对音频使用了语音识别算法,将广告的音频内容转化成单词,作为机器学习的输入量。针对视频使用了基于视频边缘和灰度的梯度检测算法进行分析。这种方法能较为准确地识别广告的前后边界,但数据处理较为耗时,分类结果的准确率较低,而且不易学习图像特征复杂的互联网原生广告。
聂淼采用了基于广告拷贝检测和机器学习相结合的广告检测算法。首先通过提取视频关键帧的特征向量,与离线广告特征向量数据库进行相似性匹配,再采用机器学习的方法,训练广告特征,减少人工干预,保证了较高的查准率。但是该广告检测算法比较依赖离线的数据库,需要不断的更新数据库以保证识别的准确率。
(2)基于DPI的广告URL字段匹配方法
基于DPI的广告URL字段匹配方法是通过过滤请求广告的URL字段来识别广告流量,AdBlock Plus是目前较为强大的开源的浏览器广告过滤插件,它具有丰富的广告URL规则库,并由使用者共同更新广告过滤规则,目前较多的研究都是基于AdBlock Plus开展进一步的工作。
Huang Jun等人通过实验对比了AdBlock和AdBlock Plus两种广告过滤工具的性能。AdBlock Plus和AdBlock通过一系列过滤规则筛选浏览器请求的URL,过滤规则包括地址过滤、域名过滤和异常规则过滤。以视频和游戏过滤为例,探讨了如何在广告过滤原则和规则语法的基础上,利用广告过滤工具实现具有特定需求的流量过滤。
方橙提出了一种适用于大规模互联网实时广告流量检测系统,该系统以AdBlock规则列表作为基本规则库,结合HashTable和Aho-Corasick两种快速匹配算法,对需要检测的URL请求字符串进行规则匹配,实现对网页广告流量的快速实时匹配。还将匹配算法部署在并行流式工作框架Spark Streaming之上,以处理大规模流式网络数据,该检测系统具有较高的准确率和检测效率。但是该系统只能识别非加密环境下的互联网广告流量。
(3)基于DFI的广告流量行为特征识别方法
基于DFI的广告流量行为特征识别方法是根据广告的流量行为特征(如流长分布、报文时间间隔分布、流数据量大小、流持续时间等)来识别不同类型的流量,其不需解析数据包应用层信息,因此可以处理加密流量。但目前尚没有针对YouTube加密流量使用基于DFI算法进行广告流量识别的研究。
程志通过分析互联网广告流量,识别了广告流量特征,分别研究了基于DPI的HTTP流关联算法和基于DFI的HTTP流关联算法。前一种算法是通过对HTTP中的GET、Host、Referer等字段进行匹配,确定不同HTTP流之间的关联关系。后一种算法是对输入的pcap报文数据进行组流和特征提取,识别报文中的主流和辅流以及二者之间的关联性。但是该研究只能应用于非加密HTTP流量,尚未研究对加密流量的广告识别。
与传统的DPI算法相比,DFI算法具有如下的优势:
1)从处理速度来看:DFI算法对数据包的处理速度较快,而采用DPI算法需要对数据包逐包进行拆包操作,并与后台数据库进行匹配对比,处理速度较慢,而且对服务器的处理能力和存储空间有较高的要求。
2)从维护成本来看:DFI算法的维护成本相对较低。DPI算法需要紧跟新协议和新应用的产生而不断升级后台数据库,否则将无法有效识别新技术下的流量。DFI算法是基于流量特征的识别,而同一种类型的新应用与旧应用的流量特征不会出现太大的变化,因此不需要频繁升级流量行为模型。
3)从处理加密流量的能力来看:DPI算法无法解析被加密的网络数据包,则不能识别其具体应用。而DFI算法不需要解析应用层信息,只需获得传输层以下的信息,因此可以很好地识别加密流量。
随着网络视频行业的蓬勃发展和网络服务的快速升级,传统的文字、图片信息已经不能满足广大用户对信息的需求。移动端的视频流量日益增长,随之也产生了海量的视频广告流量。如何从移动客户端播放视频产生的流量中识别出广告流量,已经成为一个较热的研究课题。国外的YouTube平台对大部分的视频内容均采用了基于TLS协议或QUIC协议的加密流量传输方式。已有的研究可以很好地识别非加密传输下的广告流量,但随着网络安全技术的增强,网络流媒体数据的加密必将成为未来的发展趋势。准确地从移动客户端播放视频产生的加密流量中识别出广告流量,具有十分重要的现实意义。
发明内容
本发明提供一种能够提高广告识别效率的基于DFI的移动端加密视频广告流量识别方法。
本发明采用如下技术方案:
一种基于DFI的移动端加密视频广告流量识别方法,包括:移动端加密广告和视频流量的采集步骤和广告流与视频流行为特征关联匹配步骤,通过所述移动端加密广告和视频流量的采集步骤从移动端加密视频广告中获取pcap或pcapng文件,所述的广告流与视频流行为特征关联匹配步骤为:
步骤201遍历pcap或pcapng文件中的所有数据包,将相同IP源地址和IP宿地址的数据包组成IP流,统计每条IP流的传输数据量、开始时间、结束时间和持续时间,
步骤202遍历pcap或pcapng文件中的所有数据包,并统计传输层协议信息,将传输层协议信息为TCP的数据包总数计入变量tcp_count,将传输层协议信息为UDP的数据包总数计入变量udp_count,如果tcp_count>udp_count,将pcap或pcapng文件标记为由TLS协议传输,如果tcp_count<udp_count,则将pcap或pcapng文件标记为由QUIC协议传输,
步骤203过滤掉步骤201中数据量小于阈值ip_bytes_threshold的IP流,
步骤204从过滤后的IP流中查找出传输数据量最大的IP流,记为largest_stream,
步骤205分别对每条IP流进行如下操作:遍历每条IP流中的数据包,记录每个整数秒内数据包的数量,得到该IP流每秒的数据包传输速率packets_ps,将数据包传输速率大于40个每秒的时刻值记录在主体流量时间序列数组highrate中,再对主体流量时间序列数组highrate的断流情况进行标记,从头遍历数组highrate,当首次出现相邻两个主体流量时间序列的序列值之差大于10时,将当前相邻序列值中前一个序列值及其之前的所有主体流量时间序列的序列值存入新建的数组highrate_before,记为第一段流量时间序列;将当前相邻序列值中后一个序列值及其之后的所有主体流量时间序列的序列值存入新建的数组highrate_later,记为第二段流量时间序列,然后对IP流的主体流量时间序列highrate进行重新赋值,如果数组highrae_before的长度大于数组highrate长度的一半,则先清空数组highrate,再将数组highrate_before赋值给数组highrate,否则,先清空数组highrate,再将数组highrate_later赋值给数组highrate,
步骤206将数据量最大的largest_stream与largest_stream以外的过滤后的各个IP流依次比较,如果被比较的IP流的主体流量时间序列的最小值与被比较的IP流的数据量所对应的播放时长之和小于largest_stream的主体流量开始时刻,则将被比较的IP流加入到广告流序列中;如果largest_stream的主体流量时间序列的最小值与largest_stream的数据量所对应的播放时长之和小于被比较的IP流的主体流量开始时刻,则将largest_stream加入到广告流序列中,
步骤207将广告流序列中数据量最大的IP流作为广告流;如果广告流序列为空,则在数据量最大的largest_stream中查询可能与视频流同IP的广告流,当第一段IP流量所对应的播放时长小于第二段IP流量的开始时刻与第一段IP流量的开始时刻的差值,则第一段IP流量为真正的广告流。
与现有技术相比,本发明具有如下优点:
(1)本发明采用DFI的思想,结合YouTube客户端的广告视频的播放特征,创新地建立了前置广告流和视频流相关联的流量行为特征模型。其具体特征在于:
1)视频前置广告出现在视频播放之前,通常也称之为前置插屏广告;
2)在不限制网速的情况下,广告或者视频的下载速度会快于播放进度;
3)广告的播放时长和数据量大小一般都小于视频;
4)YouTube视频在广告播放结束后才开始下载,因此从广告下载结束到视频开始下载之间会有明显的数据量停止下载的时间间隔。
(2)本发明无需解析数据报文的应用层信息,可以同时识别非加密和加密环境下的视频广告流量。本发明解决了传统的DPI方法的无法识别加密环境下的视频广告识别问题,本发明结合DFI算法,通过对广告和视频流量行为特征建模分析,解决了加密环境下的广告识别问题。因为传统的基于DPI的流量识别方法是通过解析数据包应用层信息,获取请求报文的URL等字段来确定具体的请求流量类型,但在流量加密的网络环境下,是无法获取数据包应用层信息的,因此基于DPI的方法将不再适用于识别加密传输的数据流量。
(3)本发明的创新之处在于挖掘出了流量传输过程中的时间特性,以宏观的角度解决了流量传输特征不明显的问题。同一种应用流量会在较为集中的时间段内连续地传输,持续的流量停止传输代表一次流量行为的暂停或结束。本发明首先通过过滤流量数据量大小、IP二元组组流的方法对数据报文进行初步预处理,然后统计每条IP流的断流情况和主体流量时间序列,进而对广告流量和视频流量进行定位和关联。
(4)本发明的广告识别速度较快,因为识别过程中无需检索数据量庞大的数据库,省去了DPI方法中数据查找和匹配的时间。解决了传统基于DPI方法需要建立庞大的数据库的问题,本方法只需对流量传输行为特征进行建模,大大加快了广告的识别效率。
附图说明
图1是网络环境配置图。
图2是广告和视频流量采集流程图。
图3是数据量最大流为视频流时的广告流量判断模型图。
图4是数据量最大流为广告流时的广告流量判断模型图。
图5是广告码率参数的统计结果图。
图6是广告流量识别方法总体流程图。
图7是广告流与视频流来自不同IP时的广告识别流程图。
图8是广告流与视频流来自同IP时的广告识别流程图。
具体实施方式
为了更清楚的说明本发明实施实例的技术方案,下面对实施实例或现有技术描述中所使用的附图做简单介绍。
本发明提供一种能够实现从客户端播放视频产生的流量数据中识别广告流量的方法,本方法基于流量行为特征的识别和广告视频流量特征关联,包括但不限于对YouTube移动端视频广告流量的识别。
本发明采用如下技术方案:
一种基于DFI的移动端加密视频广告流量识别方法,其特征在于,包括:移动端加密广告和视频流量的采集步骤和广告流与视频流行为特征关联匹配步骤,所述移动端加密广告和视频流量的采集方法为:
步骤101配置数据采集环境,准备一台通过SSR代理可访问YouTube网站的路由器,一台笔记本电脑,安卓和苹果测试手机各一台,360随身WiFi硬件一支,
步骤102测试网络环境,将笔记本电脑连接上指定的路由器,然后通过360随身WiFi从笔记本电脑创建出一个无线网络,将测试手机接入该无线网络。在测试手机上打开YouTube客户端,测试能否正常播放视频,若可以,继续后续步骤,若不可以,检查网络环境后再次测试,
步骤103在电脑端打开Wireshark,监听360随身WiFi对应的网卡,即可抓取流经该360随身WiFi的上下行数据,
步骤104准备开始采集数据,点击Wireshark开始捕获数据按钮,再点击测试手机YouTube客户端上的某个视频,播放的同时采集下载的广告和视频数据,
步骤105待视频播放到需要采集的时间,暂停播放,Wireshark停止抓取数据,保存抓取的pcap或pcapng文件;
步骤106返回步骤104,直至抓取足够数量的pcap或pcapng文件,
步骤107统计视频信息和有无广告信息,将pcap或pcapng文件按照统一的格式命名;
本采集方法的网络环境配置图如图1所示,数据采集过程的流程图如图2所示。
通过所述移动端加密广告和视频流量的采集步骤从移动端加密视频广告中获取pcap或pcapng文件,所述的广告流与视频流行为特征关联匹配步骤为:
步骤201遍历pcap或pcapng文件中的所有数据包,将相同IP源地址和IP宿地址的数据包组成IP流,统计每条IP流的传输数据量、开始时间、结束时间和持续时间,
步骤202遍历pcap或pcapng文件中的所有数据包,并统计传输层协议信息,将传输层协议信息为TCP的数据包总数计入变量tcp_count,将传输层协议信息为UDP的数据包总数计入变量udp_count,如果tcp_count>udp_count,将pcap或pcapng文件标记为由TLS协议传输,如果tcp_count<udp_count,则将pcap或pcapng文件标记为由QUIC协议传输,
步骤203由于广告和视频都属于流媒体数据,一条广告流或者视频流传输的数据量一定大于普通的文字和图片数据,因此过滤掉步骤201中数据量小于阈值ip_bytes_threshold的IP流,
步骤204从过滤后的IP流中查找出传输数据量最大的IP流,记为largest_stream,实际中该流为视频流或广告流,取决于具体的广告数据量与视频数据量的大小,
步骤205分别对每条IP流进行如下操作:遍历每条IP流中的数据包,记录每个整数秒内数据包的数量,得到该IP流每秒的数据包传输速率packets_ps,将数据包传输速率大于40个每秒的时刻值记录在主体流量时间序列数组highrate中,即报文交换速率快的时间段序列,再对主体流量时间序列数组highrate的断流情况进行标记,从头遍历数组highrate,当首次出现相邻两个主体流量时间序列的序列值之差大于10时,将当前相邻序列值中前一个序列值及其之前的所有主体流量时间序列的序列值存入新建的数组highrate_before,记为第一段流量时间序列;将当前相邻序列值中后一个序列值及其之后的所有主体流量时间序列的序列值存入新建的数组highrate_later,记为第二段流量时间序列,然后对IP流的主体流量时间序列highrate进行重新赋值,如果highrate_later为空,highrate没有发生长时间的断流,则highrate数组值不变;当highrate_later不为空时,如果数组highrae_before的长度大于数组highrate长度的一半,则先清空数组highrate,再将数组highrate_before赋值给数组highrate,否则,先清空数组highrate,再将数组highrate_later赋值给数组highrate,
步骤206将数据量最大的largest_stream与largest_stream以外的过滤后的各个IP流依次比较,如果被比较的IP流(记为ip_stream1)的主体流量时间序列的最小值与被比较的IP流的数据量所对应的播放时长之和小于largest_stream的主体流量开始时刻,则将被比较的IP流加入到广告流序列中,ip_stream1与largest_stream流的数据量时间分布如图3所示;如果largest_stream的主体流量时间序列的最小值与largest_stream的数据量所对应的播放时长之和小于被比较的IP流(记为ip_stream2)的主体流量开始时刻,则将largest_stream加入到广告流序列中,ip_stream2与largest_stream流的数据量时间分布如图4所示,
步骤207将广告流序列中数据量最大的IP流作为广告流;如果广告流序列为空,则在数据量最大的largest_stream中查询可能与视频流同IP的广告流,当第一段IP流量所对应的播放时长小于第二段IP流量的开始时刻与第一段IP流量的开始时刻的差值,则第一段IP流量为真正的广告流。
步骤202中统计传输协议时每个100个数据包进行一次传输协议的判断并记录,这种均匀抽样的方法可以提高程序处理的效率;步骤203所述的IP流数据量阈值ip_bytes_threshold的取值单位为字节数,取值为400000;步骤205中将数据包传输速率大于40个每秒的时刻值记录在主体流量时间序列数组highrate中,具体的算法为:
步骤301创建一维数组rate_packets,统计从0s开始每个1秒内的传输的数据包数量,该值即为数据包传输速率,
步骤302依次遍历该IP流的数据包,取得数据包的时刻值t,T=int(t),int(t)为浮点型数t的整数部分并记为T,将没有传输数据包的时间段上的rate_packets[T]数据值赋值为0;将有数据包传输的时间段上的rate_packets[T]数据值赋值为[T,T+1]时段内数据包的个数,得到该IP流在传输过程中每秒的数据包传输速率,记录在数组rate_packets中,
步骤303遍历数组rate_packets,当rate_packets[T]>40时,将T值存放在数组highrate中,即为该IP流的数据包传输速率大于40个每秒的时刻值序列;
步骤206中被比较的IP流的数据量所对应的播放时长等于被比较的IP流的数据量与广告码率参数ad_bps的比值,largest_stream的数据量所对应的播放时长等于largest_stream的数据量与广告码率参数ad_bps的比值,步骤207中第一段IP流量所对应的播放时长等于largest_stream第一段流量时间序列内传输的数据包的数据量大小之和与广告码率参数ad_bps的比值;广告码率参数ad_bps的单位为字节数每秒,ad_bps的值为93696。

Claims (6)

1.一种基于DFI的移动端加密视频广告流量识别方法,其特征在于,包括:移动端加密广告和视频流量的采集步骤和广告流与视频流行为特征关联匹配步骤,通过所述移动端加密广告和视频流量的采集步骤从移动端加密视频广告中获取pcap或pcapng文件,所述的广告流与视频流行为特征关联匹配步骤为:
步骤201遍历pcap或pcapng文件中的所有数据包,将相同IP源地址和IP宿地址的数据包组成IP流,统计每条IP流的传输数据量、开始时间、结束时间和持续时间,
步骤202遍历pcap或pcapng文件中的所有数据包,并统计传输层协议信息,将传输层协议信息为TCP的数据包总数计入变量tcp_count,将传输层协议信息为UDP的数据包总数计入变量udp_count,如果tcp_count>udp_count,将pcap或pcapng文件标记为由TLS协议传输,如果tcp_count<udp_count,则将pcap或pcapng文件标记为由QUIC协议传输,
步骤203过滤掉步骤201中数据量小于阈值ip_bytes_threshold的IP流,
步骤204从过滤后的IP流中查找出传输数据量最大的IP流,记为largest_stream,
步骤205分别对每条IP流进行如下操作:遍历每条IP流中的数据包,记录每个整数秒内数据包的数量,得到该IP流每秒的数据包传输速率packets_ps,将数据包传输速率大于40个每秒的时刻值记录在主体流量时间序列数组highrate中,再对主体流量时间序列数组highrate的断流情况进行标记,从头遍历数组highrate,当首次出现相邻两个主体流量时间序列的序列值之差大于10时,将当前相邻序列值中前一个序列值及其之前的所有主体流量时间序列的序列值存入新建的数组highrate_before,记为第一段流量时间序列;将当前相邻序列值中后一个序列值及其之后的所有主体流量时间序列的序列值存入新建的数组highrate_later,记为第二段流量时间序列,然后对IP流的主体流量时间序列highrate进行重新赋值,如果数组highrae_before的长度大于数组highrate长度的一半,则先清空数组highrate,再将数组highrate_before赋值给数组highrate,否则,先清空数组highrate,再将数组highrate_later赋值给数组highrate,
步骤206将数据量最大的largest_stream与largest_stream以外的过滤后的各个IP流依次比较,如果被比较的IP流的主体流量时间序列的最小值与被比较的IP流的数据量所对应的播放时长之和小于largest_stream的主体流量开始时刻,则将被比较的IP流加入到广告流序列中;如果largest_stream的主体流量时间序列的最小值与largest_stream的数据量所对应的播放时长之和小于被比较的IP流的主体流量开始时刻,则将largest_stream加入到广告流序列中,
步骤207将广告流序列中数据量最大的IP流作为广告流;如果广告流序列为空,则在数据量最大的largest_stream中查询可能与视频流同IP的广告流,当第一段IP流量所对应的播放时长小于第二段IP流量的开始时刻与第一段IP流量的开始时刻的差值,则第一段IP流量为真正的广告流。
2.根据权利要求1所述的一种基于DFI方法的移动端加密视频广告流量识别方法,其特征在于,步骤202中统计传输协议时每个100个数据包进行一次传输协议的判断并记录,这种均匀抽样的方法可以提高程序处理的效率。
3.根据权利要求1所述的一种基于DFI方法的移动端加密视频广告流量识别方法,其特征在于,步骤203所述的IP流数据量阈值ip_bytes_threshold的取值单位为字节数,取值为400000。
4.根据权利要求1所述的一种基于DFI方法的移动端加密视频广告流量识别方法,其特征在于,步骤205中将数据包传输速率大于40个每秒的时刻值记录在主体流量时间序列数组highrate中,具体的算法为:
步骤301创建一维数组rate_packets,统计从0s开始每个1秒内的传输的数据包数量,该值即为数据包传输速率,
步骤302依次遍历该IP流的数据包,取得数据包的时刻值t,T=int(t),int(t)为浮点型数t的整数部分并记为T,将没有传输数据包的时间段上的rate_packets[T]数据值赋值为0;将有数据包传输的时间段上的rate_packets[T]数据值赋值为[T,T+1]时段内数据包的个数,得到该IP流在传输过程中每秒的数据包传输速率,记录在数组rate_packets中,
步骤303遍历数组rate_packets,当rate_packets[T]>40时,将T值存放在数组highrate中,即为该IP流的数据包传输速率大于40个每秒的时刻值序列。
5.根据权利要求1所述的一种基于DFI方法的移动端加密视频广告流量识别方法,其特征在于,步骤206中被比较的IP流的数据量所对应的播放时长等于被比较的IP流的数据量与广告码率参数ad_bps的比值,largest_stream的数据量所对应的播放时长等于largest_stream的数据量与广告码率参数ad_bps的比值,步骤207中第一段IP流量所对应的播放时长等于largest_stream第一段流量时间序列内传输的数据包的数据量大小之和与广告码率参数ad_bps的比值。
6.根据权利要求5所述的一种基于DFI方法的移动端加密视频广告流量识别方法,其特征在于,广告码率参数ad_bps的单位为字节数每秒,ad_bps的值为93696。
CN201811042205.0A 2018-09-06 2018-09-06 基于dfi的移动端加密视频广告流量识别方法 Active CN109275045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811042205.0A CN109275045B (zh) 2018-09-06 2018-09-06 基于dfi的移动端加密视频广告流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811042205.0A CN109275045B (zh) 2018-09-06 2018-09-06 基于dfi的移动端加密视频广告流量识别方法

Publications (2)

Publication Number Publication Date
CN109275045A true CN109275045A (zh) 2019-01-25
CN109275045B CN109275045B (zh) 2020-12-25

Family

ID=65187942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811042205.0A Active CN109275045B (zh) 2018-09-06 2018-09-06 基于dfi的移动端加密视频广告流量识别方法

Country Status (1)

Country Link
CN (1) CN109275045B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110620766A (zh) * 2019-09-05 2019-12-27 东南大学 一种提取加密网络流量中tls数据块的方法
CN111885093A (zh) * 2020-09-27 2020-11-03 腾讯科技(深圳)有限公司 事件请求的传输方法和装置、存储介质及电子设备
CN114025203A (zh) * 2021-11-04 2022-02-08 中国人民解放军国防科技大学 一种基于序列相似度的加密视频流量内容分析方法
CN115988558A (zh) * 2023-03-21 2023-04-18 中汽研软件测评(天津)有限公司 智能车辆数据出境检测装置、方法、设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313100B1 (en) * 2002-08-26 2007-12-25 Juniper Networks, Inc. Network device having accounting service card
CN101442541A (zh) * 2008-12-30 2009-05-27 北京畅讯信通科技有限公司 P2p应用加密流量的识别方法
WO2009089701A1 (fr) * 2008-01-16 2009-07-23 Huawei Technologies Co., Ltd. Procédé et système d'inspection de paquet
CN101517967A (zh) * 2005-09-19 2009-08-26 谷歌公司 网站的流量预测
CN101772921A (zh) * 2007-08-10 2010-07-07 阿尔卡特朗讯公司 用于分类ip网中的业务的方法和设备
CN102164049A (zh) * 2011-04-28 2011-08-24 中国人民解放军信息工程大学 加密流量的普适识别方法
CN103873320A (zh) * 2013-12-27 2014-06-18 北京天融信科技有限公司 加密流量识别方法及装置
CN106294706A (zh) * 2016-08-08 2017-01-04 苏州云杉世纪网络科技有限公司 基于dfi的云平台用户业务统计分析系统及方法
CN106533832A (zh) * 2016-11-14 2017-03-22 中国电子科技集团公司第二十八研究所 一种基于分布式部署的网络流量探测系统
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类系统和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313100B1 (en) * 2002-08-26 2007-12-25 Juniper Networks, Inc. Network device having accounting service card
CN101517967A (zh) * 2005-09-19 2009-08-26 谷歌公司 网站的流量预测
CN101772921A (zh) * 2007-08-10 2010-07-07 阿尔卡特朗讯公司 用于分类ip网中的业务的方法和设备
WO2009089701A1 (fr) * 2008-01-16 2009-07-23 Huawei Technologies Co., Ltd. Procédé et système d'inspection de paquet
CN101442541A (zh) * 2008-12-30 2009-05-27 北京畅讯信通科技有限公司 P2p应用加密流量的识别方法
CN102164049A (zh) * 2011-04-28 2011-08-24 中国人民解放军信息工程大学 加密流量的普适识别方法
CN103873320A (zh) * 2013-12-27 2014-06-18 北京天融信科技有限公司 加密流量识别方法及装置
CN106294706A (zh) * 2016-08-08 2017-01-04 苏州云杉世纪网络科技有限公司 基于dfi的云平台用户业务统计分析系统及方法
CN106533832A (zh) * 2016-11-14 2017-03-22 中国电子科技集团公司第二十八研究所 一种基于分布式部署的网络流量探测系统
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类系统和方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIA TIANMING: "A Method of P2P Traffic Identification on Internet Based on the Deep Flow Inspection", 《2009 INTERNATIONAL CONFERENCE ON COMMUNICATION SOFTWARE AND NETWORKS》 *
侯艳: "基于深度包和流的流量识别系统设计", 《电子设计工程》 *
程志: "基于DFI的HTTP流关联方法的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高长喜等: "基于抽样分组长度分布的加密流量应用识别", 《通信学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110620766A (zh) * 2019-09-05 2019-12-27 东南大学 一种提取加密网络流量中tls数据块的方法
CN110620766B (zh) * 2019-09-05 2021-12-14 东南大学 一种提取加密网络流量中tls数据块的方法
CN111885093A (zh) * 2020-09-27 2020-11-03 腾讯科技(深圳)有限公司 事件请求的传输方法和装置、存储介质及电子设备
CN114025203A (zh) * 2021-11-04 2022-02-08 中国人民解放军国防科技大学 一种基于序列相似度的加密视频流量内容分析方法
CN114025203B (zh) * 2021-11-04 2024-01-23 中国人民解放军国防科技大学 一种基于序列相似度的加密视频流量内容分析方法
CN115988558A (zh) * 2023-03-21 2023-04-18 中汽研软件测评(天津)有限公司 智能车辆数据出境检测装置、方法、设备和存储介质
CN115988558B (zh) * 2023-03-21 2023-11-24 中汽研软件测评(天津)有限公司 智能车辆数据出境检测装置、方法、设备和存储介质

Also Published As

Publication number Publication date
CN109275045B (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN109275045A (zh) 基于dfi的移动端加密视频广告流量识别方法
KR100523486B1 (ko) 트래픽 측정 시스템 및 그의 트래픽 분석 방법
CN106330584B (zh) 一种业务流的识别方法及识别装置
CN110868409A (zh) 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统
CN108881305B (zh) 一种面向加密流量识别的样本自动标定方法
CN108289125A (zh) 基于流式处理的tcp会话重组与统计数据提取方法
CN109361575A (zh) 一种获取分析dns流量数据的方法及其系统
CN111277598A (zh) 一种基于流量的应用攻击识别方法及系统
CN109309587A (zh) 一种日志采集方法及系统
CN104657747A (zh) 一种基于统计特征的网络游戏流分类方法
CN111131070B (zh) 一种基于端口时间序列的网络流量分类方法、装置及存储介质
CN113283498A (zh) 一种面向高速网络的vpn流量快速识别方法
CN104021348B (zh) 一种隐匿p2p程序实时检测方法及系统
Xie et al. Accurate identification of internet video traffic using byte code distribution features
Ren et al. App identification based on encrypted multi-smartphone sources traffic fingerprints
CN101572633A (zh) 网络取证方法及系统
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法
Altschaffel et al. Statistical pattern recognition based content analysis on encrypted network: Traffic for the teamviewer application
CN107517237A (zh) 一种视频识别方法和装置
CN108881119A (zh) 一种视频浓缩的方法、装置和系统
CN104376027B (zh) 基于社会化媒体的信息采集分析系统及其方法
CN113765738B (zh) 基于多任务学习和层次分类的加密流量QoE检测方法及系统
CN116401479A (zh) 一种基于加密流量双向突发序列的网站内容行为识别方法和系统
CN115174961A (zh) 一种面向高速网络的多平台视频流量早期识别方法
CN109474598A (zh) 一种基于数据包时序的恶意加密流量分析特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant