CN112203136A

CN112203136A - 一种对加密流量视频进行清晰度预测的方法和装置

Info

Publication number: CN112203136A
Application number: CN202011397431.8A
Authority: CN
Inventors: 王赟; 侯贺明; 曾伟
Original assignee: Wuhan Greenet Information Service Co Ltd
Current assignee: Wuhan Greenet Information Service Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-01-08
Anticipated expiration: 2040-12-04
Also published as: WO2022116811A1; CN112203136B

Abstract

本发明公开了一种对加密流量视频进行清晰度预测的方法和装置，方法包括：捕获带有加密流量网络视频播放的TCP流数据包和播放日志；依据所述播放日志中的视频编码编号，给捕获到的加密流量网络视频标注清晰度；从所述TCP流数据包中检测数据块；提取所述数据块中与清晰度相对应的特征以及特征平均值，构成已知数据包清晰度的特征集；利用已知视频文件标注的清晰度与数据块特征集的对应关系建立模型，并且训练模型，对待测加密流量视频的TCP流数据包进行特征提取，根据模型中特征集与清晰度的对应关系预测出待测加密流量视频文件的清晰度。在视频传输加密无法获取视频文件内容的前提下，通过构建模型预测待测加密流量视频文件的清晰度。

Description

一种对加密流量视频进行清晰度预测的方法和装置

技术领域

本发明属于计算机服务器领域，更具体地，涉及一种对加密流量视频进行清晰度预测的方法和装置。

背景技术

视频网站使用HTTP传输视频的时候，DPI（Deep Packet Inspection，深度报文检测）厂商可以从网络流量中提取到传输的视频文件，视频文件的头部信息中，包含了视频的编码，清晰度，视频码率，视频画面大小等信息；近几年几乎所有的大型网站都部署了数字证书，在和客户端交互时，使用HTTPS传输协议，视频网站也不例外。到2020年，中国的主流视频平台在使用浏览器观看视频时，都采用了HTTPS加密传输。

在视频传输加密的情况下，DPI厂商无法获取视频文件内容，导致无法对视频清晰度进行分析。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种对加密流量视频进行清晰度预测的方法和装置，其目的在于依据数据包的特征集与视频清晰度存在对应的关系，使用已知数据包清晰度的特征集训练模型，再使用模型对未知清晰度的加密视频文件进行清晰度预测，由此解决DPI厂商在视频传输加密的情况下无法对视频清晰度进行分析的技术问题。

为实现上述目的，第一方面，本发明提供了一种对加密流量视频进行清晰度预测的方法，对视频清晰度的预测方法包括：

捕获带有HTTPS加密流量网络视频播放的TCP流数据包和播放日志；

依据所述播放日志中的视频编码编号，给捕获到的加密流量网络视频标注清晰度；

从所述TCP流数据包中检测数据块；

提取所述数据块中与清晰度相对应的特征以及特征平均值，构成已知数据包清晰度的特征集；

利用已知视频文件标注的清晰度与数据块特征集的对应关系建立模型，并且训练模型，模型训练完成后，对待测加密流量视频的TCP流数据包进行特征提取，根据模型中特征集与清晰度的对应关系预测出待测加密流量视频文件的清晰度。

作为对上述方案进一步的完善和补充，本发明还包括以下附加技术特征。

优选地，所述收集带有HTTPS加密流量网络视频播放的数据包括方法：

在浏览器上向存储有视频信息的数据库请求播放带有HTTPS加密流量的视频，至少选择两种清晰度且视频内容有区别的视频文件。

优选地，每种编码方式对应所述播放日志中唯一的视频清晰度编号，浏览器播放视频时，加密流量网络视频播放日志中的视频编码编号和对应的清晰度同时被记录和收集。

优选地，所述数据块根据TCP报文ACK字段检测，具体包括：

对一条TCP流的所有报文进行判断是否是HLS视频流；

解析TLS消息，去除TLS握手报文，保留传输数据的报文；

判断上行和下行报文，对下行报文进行处理；

对下行报文的ACK值进行分类处理；

相同ACK值的报文，记做一个数据块；

把ACK值发生变化的报文，记做一个新的数据块。

优选地，所述TCP流文件在视频传输中提取所述数据块中与清晰度相对应的特征以及特征平均值，其中：

所述特征包括：数据块大小、数据包个数、首字节到达时间、数据块下载时间、数据块空闲时间、数据块传输时间和数据传输速率中的一项或者多项；

所述特征平均值包括：平均数据块大小、平均数据包个数、平均首字节到达时间、平均数据块下载时间、平均数据块空闲时间、平均数据块传输时间和平均数据传输速率中的一项或者多项。

优选地，所述数据块中特征、特征平均值和本次TCP流文件的数据块，组合成一个已知数据包清晰度的特征集样本，模型接收至少一个特征集样本的训练，使用已知清晰度视频播放日志中的视频编码编号验证模型的预测清晰度结果，若模型的预测结果的正确率高于预设值，所述模型训练成功。

优选地，所述模型进行预测未知清晰度的加密流量视频时，在移动通信网络中，使用Android平台训练出来的模型预测，在传统固网环境中，使用PC平台训练出来的模型预测。

优选地，对所述样本集合使用随机过采样方法进行清晰度类别平衡处理。

优选地，从网络流量中筛选出来带有HTTPS加密流量网络视频的目标流量时，通过比较域名中的SNI字段和字符串，若与预设SNI字段和预设字符串完全匹配则说明流量是HLS传输模式的视频流量，且能够成为需要预测清晰度加密流量视频文件。

第二方面，本发明还提供了一种对加密流量视频进行清晰度预测的装置，装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行第一方面所述的对加密流量视频进行清晰度预测方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

DPI厂商可以在视频传输加密无法获取视频文件内容的前提下，可以通过构建模型，利用已知清晰度的视频文件中的特征集预测待测加密流量视频文件的清晰度。

附图说明

图1是本发明实施例一中训练模型的过程；

图2是本发明实施例一中利用播放日志中的视频编码编号标注对应的清晰度；

图3是本发明实施例一中TCP报文ACK字段检测数据块的过程；

图4是本发明实施例一中比较域名中的SNI字段和字符串，筛选出来待测的加密流量网络视频；

图5是本发明实施例提供的一种对加密流量视频进行清晰度预测的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

实施例一：

视频网站使用HTTP传输视频的时候，DPI厂商可以从网络流量中提取到传输的视频文件，视频文件的头部信息中，包含了视频的编码，清晰度，视频码率，视频画面大小等信息；近几年几乎所有的大型网站都部署了数字证书，在和客户端交互时，使用HTTPS传输协议，视频网站也不例外。到2020年，中国的主流视频平台是腾讯视频，爱奇艺视频，优酷视频；三个视频平台在使用浏览器观看视频时，都采用了HTTPS加密传输。

在视频传输加密的情况下，DPI厂商无法获取视频文件内容，导致无法对视频质量进行分析，为了解决这个问题，本实施例一提供一种对加密流量视频进行清晰度预测的方法，针对腾讯视频的平台举例，如图1和图3所示，对视频清晰度的预测方法包括以下步骤：

在步骤101中，捕获带有HTTPS加密流量网络视频播放的传输控制协议（TransmissionControl Protocol，简写为：TCP）流数据包和播放日志。

在WEB端，即浏览器观看腾讯视频，使用HTTPS加密传输；WEB端也有P2P（Peer-to-Peer，简写为：对等网络）传输机制，P2P部分使用用户数据报协议（UserDatagramProtocol，简写为：UDP）传输，此部分流量未加密；

PC端和手机端，使用HTTP和UDP传输，都是明文传输，未加密；其中UDP传输占比在95%以上；

本实施例一是针对HTTPS加密的流量视频做清晰度的识别。

腾讯视频会根据客户端类型和不同的视频类型，使用不同的传输模式；如对电视剧和电影等长视频，使用动态码率自适应技术（HTTP Live Streaming，简写为：HLS）分块传输或者使用MP4分块传输；对用户上传的视频和短视频，使用MP4整文件传输；对广告类视频，使用MP4分块传输。

另外，腾讯视频的编码方式和传输模式也是在一直演进的，就目前来说，最主流的传输模式就是HLS传输模式；本实施例一中，只对HLS传输模式进行介绍，不再对其它传输模式进行介绍。

在步骤102中，依据所述播放日志中的视频编码编号，给捕获到的加密流量网络视频标注清晰度。

腾讯视频对视频分为4个清晰度，分别为270p，480p，720p和1080p，针对每种清晰度具体视频编码的时候，有多种编码方式，但是每一种编码方式都有一个唯一的编号，编号可以对应到具体的清晰度上。

在步骤103中，从所述TCP流数据包中检测数据块。

腾讯视频传输过程中有以下步骤：

在步骤1031中，一个TCP流里面，下载多个视频数据块，依据HTTP协议的keep-alive机制，经过统计，一个TCP流传输的数据块数量个数为1个或多个，最多可以达到几十个；同一个TCP流里面，下载的视频数据块的清晰度都是一样的；如果要切换清晰度，那么会中断此TCP连接，重新使用另一个TCP连接去下载。

在步骤104中，并提取数据块中与清晰度相对应的特征，构成已知数据包清晰度的特征集。提取特征时，首先提取每个数据块的相关特征，然后把同一个TCP连接里面的所有数据块的特征计算一个平均值，最后把第一步从数据块提取的特征，和第二步同一条TCP流所有数据块的特征平均值，综合在一起作为一个数据块的特征集。

在步骤105中，利用已知视频文件标注的清晰度与数据块特征集的对应关系建立且训练模型，模型训练完成后，再对待测加密流量视频的TCP流数据包进行特征提取，根据模型中特征集与清晰度的对应关系预测出待测加密流量视频文件的清晰度。

腾讯视频会把一个视频编码分为不同清晰度的多个文件，然后针对每个文件进行分段和分块处理，把这些视频分块信息记录在一个索引文件当中，腾讯视频在HLS传输模式下，首先会下载对应视频清晰度的索引文件，索引文件中把视频按照一定的时间长度进行了分割，对每个视频片段都有一个唯一的URL，客户端按照索引文件中的URL，逐个下载视频片段。

腾讯视频进行HLS传输时，对视频进行了分段和分块两级处理，首先腾讯视频服务器把一个完整视频进行分段处理，按照每5分钟左右划分为一个数据段，每一段的命名为1.ts，2.ts，3.ts等；腾讯视频服务器再针对每个数据段进行分块处理，每10秒钟左右划分为一个数据块，每一块命名是从0开始计数。

一个典型的视频片段URL格式如下：

其中第一个字段为下载的视频片段文件名称00_b0033m9le2c.321002.1.ts，各字段解释如下：

00表示数据块索引号；

b0033m9le2c表示视频ID；

321002表示视频编码标签；

1.ts表示分段索引；

URL的参数解释如下：

index=0:数据块索引号；

start=0&end=7000：起始和结束时间；

brs=0&bre=222967：数据量起始和结束，这个偏移是针对本段视频的，1.ts切换到2.ts这个值就会从0开始。

浏览器观看腾讯视频时，浏览器首先下载一个的索引文件，然后按照索引文件内容中的各个视频数据块的URL来下载各个视频数据块。腾讯视频使用HLS传输模式，此种传输模式本质上是把视频分为许多视频数据块，客户端逐个请求数据块。

虽然视频传输过程中，使用了传输层安全性协议（Transport Layer Security，简称为：TLS）协议加密，DPI厂商不能够获取视频文件本身的内容，无法从视频内容上识别视频清晰度，但是由于TLS加密是不会改变数据的长度的，所以在TCP层一些基于长度的特征是不会改变的，根据请求和响应的长度，仍然是可以识别出每一个视频数据块的，也可以计算出来每一个视频数据块的大小以及相关特征。由于视频文件的分块是按照时间长度来划分的，依据数据块的长度信息以及与数据块长度相关的信息，可以构建模型预测视频的清晰度。

本实施例一中，使用随机森林分类算法构建模型，先对已知清晰度视频数据块的特征集进行收集，再用特征集训练和测试模型，同时和已知视频的清晰度对比结果，如正确率超过预设值，比如80%或70%即可认为模型被训练好，固化模型后，把训练好的模型应用到待测加密视频流量的清晰度预测上。

在经过试验数据测试，此数据块模型的预测准确率至少可以达到70%以上，较大程度上解决了DPI厂商在未知清晰度加密流量视频文件的问题。

对于实施例一中的所述收集带有HTTPS加密流量网络视频播放的数据包括方法：

在浏览器上向存储有视频信息的数据库请求播放带有HTTPS加密流量的视频，至少选择两种清晰度且视频内容有区别的视频文件。视频文件越多收集到的样本数量就会越多。

对于实施例一中的所述每种编码方式对应播放日志中唯一的视频清晰度编号，浏览器播放视频时，加密流量网络视频播放日志中的视频编码编号和对应的清晰度同时被记录和收集。而且腾讯视频对视频分为4个清晰度，分别为270p，480p，720p和1080p，针对每种清晰度都需要至少一个视频文件做样本，如图2所示，清晰度与对应的视频编码编号的关系列出，参照播放日志中的视频编码编号即可对应出相关的清晰度。

对于实施例一中的所述对加密流量数据预处理得到TCP流文件根据TCP报文确认字符（Acknowledge Character，简称为：ACK）字段检测数据块，本实施例一中，视频是单方向从服务器传给客户端，而且是分块传输的，客户端在视频传输的过程中，并不向服务器发送任何消息；直到一个数据块传输完毕，客户端才会向服务器发送请求消息，请求下一个数据块。在数据块传输的过程中，服务器发往客户端TCP报文的ACK字段是保持不变的，一直到客户端发送了一个HTTP请求之后，ACK值发生数值上增加的变化，增加的数值就是客户端发出的HTTP请求的消息长度。

如图3所示，检测数据块的步骤如下：

步骤201中，首先对一条TCP流进行判断，是否是腾讯视频的HLS视频流；方法是TLS消息的Client Hello报文中的SNI字段是否是腾讯视频的特定域名；这些域名包括ltsbsy.qq.com，ltscsy.qq.com，ltssjy.qq.com，ltsws.qq.com，stsbsy.qq.com；

步骤202中，解析TLS消息，去除TLS握手报文，提取传输数据报文；

TLS传输时，先握手，然后传输数据；根据TLS规范协议解析可以知道哪些是握手报文，哪些是传输数据的报文；

步骤203中，判断上行和下行报文；

步骤204中，对下行报文的ACK值进行处理，检测ACK值是否发生变化；

上述步骤204具体可以实现为以下步骤2041和步骤2042。

步骤2041中，相同ACK值的报文，记做一个数据块；

步骤2042中，把ACK值发生变化的报文，重新记做一个新的数据块。

把具有相同ACK值的数据报文，记做数据块1，即数据块1是一个集合，里面是许多单个的数据报文，所有的数据报文有相同的ACK值；按照数据报文的时间来依次处理数据报文的，依次把接下来的数据块依次记做数据块2,3,4…N。属于同一条TCP流的所有视频数据块，都是同一个视频清晰度。在模型预测清晰度时，数据块全部属于同一条TCP流。

本实施例一中，所述TCP流文件在视频传输中提取所述数据块中与清晰度相对应的特征及其特征平均值，其中：

提取特征时，分为三个步骤，首先提取每个数据块的相关特征，然后把同一个TCP连接里面的所有数据块的特征计算一个平均值，最后把第一步从数据块提取的特征，和第二步同一条TCP流所有数据块的特征平均值，综合在一起作为一个数据块的特征集。

第一步，针对每个数据块，提取7个特征，分别是：

1.数据块大小；

Chunk_size，数据块的字节个数；

2.数据包个数；

Packet_number，数据块的数据包个数；

3.首字节到达时间；

Time to first byte，简称TTFB，从发出GET后，到响应的第一个字节到达的时间；

GET是指从客户端发出HTTP请求报文后的时间。响应是指服务器端回复客户端的第一个报文，客户端和服务器使用TCP协议进行报文交互，客户端发出一个HTTP请求报文后，服务器会回复一个TCP ACK报文，TTFB时间是指客户端发出了HTTP请求，到服务器返回的第一个报文的时间。

4.下载时间；

Download_time，数据块从第一个包到最后一个包之间的时间；

5.空闲时间；

Slack_time，从数据块最后一个报文，到下一个GET请求发出的时间；

6.数据块传输时间；

Duration_time，从GET请求，到下一个GET请求的时间；

数据块传输时间等于首字节到达时间加下载时间加空闲时间；

7.传输速率；

Download_speed，数据块字节除以下载时间；

高清晰度的数据块在字节数和数据包个数上要明显大于低清晰度的数据块，这两个特征的重要性最高，含义也最明显，比较容易理解。其它的几个时间相关的特征，经过统计分析也可以起到区分清晰度的作用。

第二步，针对每个腾讯视频的TCP连接，计算特征平均值，分别是：

1.平均数据块大小；

ave_chunk_size，所有数据块大小的平均值；

2.平均包个数；

ave_packet_number，所有包个数的平均值；

3.平均首字节到达时间；

ave_ttfb，所有首字节到达时间的平均值；

4.平均下载时间；

ave_download_time，所有下载时间的平均值；

5.平均空闲时间；

ave_slack，所有空闲时间的平均值；

6.平均传输时间；

ave_duration_time，所有传输时间的平均值；

7.平均下载速率；

ave_download_speed，平均数据块大小，除以平均下载时间；

第三步，我们针对每一个数据块，把从数据块提取7个特征，再加上整体TCP流的7个平均值特征，一共是14个特征，再加上本数据块的清晰度，算是一个样本。

示例数据如下：

chunk_size,packet_number,ttfb,download_time,slack,duration_time,download_speed,ave_chunk_size,ave_packet_number,ave_ttfb,ave_download_time,ave_slack,ave_duration_time,ave_download_speed,resolution

2480000,1750,0.012,4.2,3.0,7.212,590476.1904761905,2338589.1333333333,1801.2666666666667,0.019322029749552407,3.6202432473500568,3.8155619303385415,7.455127207438151,645975.6910105784,720p

虽然视频传输过程中，使用了加密协议，不能够直接获取视频文件本身的内容，无法从视频内容上识别视频清晰度，但是在TCP层上可以识别出每一个视频数据块的，技术人员可以计算出来每一个视频数据块的大小，以及特征参数。由于视频文件的分块是按照时间长度来划分的，高清晰度的视频块长度一般会大于低清晰度的视频块长度视频数据块的长度，这样就导致受到很多因素影响，比如，一个静态画面多的视频，编码后的数据块的长度要小于动作画面多的视频；比如，同一个清晰度的视频，在手机平台和浏览器平台对应的是不同的视频编码，所以数据块的长度也不一样。

本实施例一中的步骤105中需要模型训练，所述数据块中特征、特征平均值和本次TCP流文件的数据块，组合成一个已知数据包清晰度的特征集样本，模型接收至少一个特征集样本的训练，使用已知清晰度视频播放日志中的视频编码编号验证模型的预测清晰度结果，若模型的预测结果的正确率高于预设值，所述模型训练成功。

经过多次的特征收集、数据验证和调校特征权重，当模型预测结果的正确率达到预设值以上，所述模型训练成功。

属于同一条TCP流的所有视频数据块，都是同一个视频清晰度，所以计算整条流所有数据块的特征参数的平均值，就是把整条TCP流抽象为一个数据块，获的所有数据块的清晰度之后，再实施一个“训练结果优化”的步骤，过程如下：统计一条TCP流中的所有数据块被预测的清晰度类别，找到其中占比最大的预测类别，然后把其它数据块的预测结果全部改为这个清晰度类别，即统计一条TCP流的所有预测结果，使用少数服从多数的机制，强制修正预测结果。

本实施例一中，所述模型进行预测未知清晰度的加密流量视频时，在移动通信网络中，使用Android平台训练出来的模型预测，在传统固网环境中，使用PC平台训练出来的模型预测。

Android手机平台的腾讯视频客户端产生的视频数据块大小平均要小于PC平台上的腾讯视频客户端产生的视频数据块大小；因此把Android平台和PC平台在做训练和预测时需要区别开。在训练模型时，可以做到针对不同平台分别进行采集流量；在使用模型进行预测时，同样地可以筛选目标流量，例如在4G的移动通信网络中，使用基于Android平台训练出来的模型去预测，在传统固网环境中，使用基于PC平台训练出来的模型去预测，由此提高模型预测的准确率。

本实施例一中，对所述样本集合使用随机过采样方法进行清晰度类别平衡处理，基于机器学习的模型使用随机森林算法，所有参数保持默认；另外采集数据集的时候，各种清晰度的分布并不均匀，所以这里需要对样本集合进行类别平衡处理，本实施例一中使用Random Oversampler随机过采样方法来进行类别平衡处理，随机过采样是一个标准过程，具体是指随机的复制、重复少数类样本，最终使得少数类与多数类的个数相同从而得到一个新的均衡的数据集。

本实施例一中，从网络流量中筛选出来带有HTTPS加密流量网络视频的目标流量时，通过比较域名中的SNI字段和字符串，若与预设SNI字段和预设字符串完全匹配则说明流量是HLS传输模式的视频流量，且能够成为需要预测清晰度加密流量视频文件。

如图4所示，在实际使用中，技术人员只有TLS加密后的流量，是不知道明文的URL的，所以首先需要从网络流量中筛选出来目标流量，即腾讯视频流量中采用HLS传输模式的加密流量。

HTTPS是承载在TLS协议之上的HTTP协议，TLS协议的握手消息中，在ClientHello消息中有一个叫做SNI的扩展字段，此字段表示要连接的服务器的域名，可以比较SNI字段和腾讯视频服务器的域名，来匹配到对应的流量。对于HLS传输模式的腾讯视频服务器，域名都满足以下格式”lts***.qq.com”，或者是”sts***.qq.com”，只需要比较SNI字段和lts或sts字符串，如果完全匹配则说明是HLS传输模式的腾讯视频流量，能够成为待预测清晰度的加密流量视频文件。

虽然有各种因素的影响，经过实际测试发现，通过视频数据块信息来识别清晰度的方法依然有着较高的准确率，不失为一种实用的方法。使用机器学习的方法，对视频数据块的信息进行收集，训练，然后把训练的模型应用到待测加密流量视频的清晰度预测上。

实施例二：

如图5所示，是本发明实施例的对加密流量视频进行清晰度预测的装置的架构示意图。本实施例的对加密流量视频进行清晰度预测的装置包括一个或多个处理器21以及存储器22。其中，图5中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的对加密流量视频进行清晰度预测的方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行对加密流量视频进行清晰度预测的方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的对加密流量视频进行清晰度预测的方法，例如，执行以上描述的图1和图3所示的各个步骤。

值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对加密流量视频进行清晰度预测的方法，其特征在于，对视频清晰度的预测方法包括：

从所述TCP流数据包中检测数据块；

2.如权利要求1所述的对加密流量视频进行清晰度预测的方法，其特征在于，所述收集带有HTTPS加密流量网络视频播放的数据包括方法：

3.如权利要求1所述的对加密流量视频进行清晰度预测的方法，其特征在于，每种编码方式对应所述播放日志中唯一的视频清晰度编号，浏览器播放视频时，加密流量网络视频播放日志中的视频编码编号和对应的清晰度同时被记录和收集。

4.如权利要求1所述的对加密流量视频进行清晰度预测的方法，其特征在于，所述数据块根据TCP报文ACK字段检测，具体包括：

对一条TCP流的所有报文进行判断是否是HLS视频流；

解析TLS消息，去除TLS握手报文，保留传输数据的报文；

判断上行和下行报文，对下行报文进行处理；

对下行报文的ACK值进行分类处理；

相同ACK值的报文，记做一个数据块；

把ACK值发生变化的报文，记做一个新的数据块。

5.如权利要求4所述的对加密流量视频进行清晰度预测的方法，其特征在于，所述TCP流文件在视频传输中提取所述数据块中与清晰度相对应的特征以及特征平均值，其中：

6.如权利要求5所述的对加密流量视频进行清晰度预测的方法，其特征在于，所述数据块中特征、特征平均值和本次TCP流文件的数据块，组合成一个已知数据包清晰度的特征集样本，模型接收至少一个特征集样本的训练，使用已知清晰度视频播放日志中的视频编码编号验证模型的预测清晰度结果，若模型的预测结果的正确率高于预设值，所述模型训练成功。

7.如权利要求1所述的对加密流量视频进行清晰度预测的方法，其特征在于，所述模型进行预测未知清晰度的加密流量视频时，在移动通信网络中，使用Android平台训练出来的模型预测，在传统固网环境中，使用PC平台训练出来的模型预测。

8.如权利要求6所述的对加密流量视频进行清晰度预测的方法，其特征在于，对所述样本集合使用随机过采样方法进行清晰度类别平衡处理。

9.如权利要求1所述的对加密流量视频进行清晰度预测的方法，其特征在于，从网络流量中筛选出来带有HTTPS加密流量网络视频的目标流量时，通过比较域名中的SNI字段和字符串，若与预设SNI字段和预设字符串完全匹配则说明流量是HLS传输模式的视频流量，且能够成为需要预测清晰度加密流量视频文件。

10.一种对加密流量视频进行清晰度预测的装置，其特征在于，装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行权利要求1-9任一所述的对加密流量视频进行清晰度预测方法。