CN110072119B

CN110072119B - 一种基于深度学习网络的内容感知视频自适应传输方法

Info

Publication number: CN110072119B
Application number: CN201910290831.XA
Authority: CN
Inventors: 王志文; 何浩; 郑庆华; 王迎春; 李姝洁; 何智超; 黄寿钦; 王轩宇; 王敬祎; 冯立楷; 栾佳锡; 柳俊全; 张未展; 赵敏; 李国斌; 高祥玉; 王雪松; 周新运
Original assignee: Beijing Open Distance Education Center Co ltd; Xian Jiaotong University
Current assignee: Beijing Open Distance Education Center Co ltd; Xian Jiaotong University
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2020-04-10
Anticipated expiration: 2039-04-11
Also published as: CN110072119A

Abstract

本发明为一种基于深度学习网络的内容感知视频自适应传输方法。该发明是一种新的视频传输框架，可以有效利用客户端的计算能力。可根据视频的类型，在服务端进行特定的内容感知处理，提取核心有效信息进行编码处理，在客户端，对服务器中所下载视频进行清晰度重构，从而可以对较低质量的视频经过深度学习网络的处理达到一个较好的视频质量，该方法能够有效减少视频流对带宽的依赖性并提高用户的观看体验。

Description

一种基于深度学习网络的内容感知视频自适应传输方法

技术领域

本发明属于移动网络传输技术领域，涉及到网络传输过程中的服务器端视频部署方式和处理方法，以及请求视频的超分辨率重构处理过程，特别涉及一种基于深度学习网络的内容感知视频自适应传输方法。

背景技术

随着移动互联网技术的不断发展以及智能终端设备的普及，视频服务逐渐在互联网业务中越来越起到了举足轻重的作用。不过，传统的视频传输机制很大程度上依赖网络带宽的状态。所以用户的观看体验会受到网络带宽状态的极大的影响。然而，HTTP自适应流媒体技术(HAS,HTTP Adaptive Streaming)等技术的提出，能够有效的减少视频播放等待时间和充分利用链路带宽等优点，也渐渐成为当前主流的流媒体技术，在智能终端的视频应用中得到了广泛应用。不过，带宽限制始终会成为内容分发网络工作效率低下的主要原因。

在中国专利201711407905中提出了一种基于强化学习的自适应码率视频传输方法以及系统。该方法及系统利用深度神经网络的优化求解和泛化能力，实现了在真实网络环境下最优化视频服务质量体验指标，其中Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标，而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益，避免了人工特征选择和规则设置带来的效率问题，让本发明的方法更加适用于多样复杂的现实环境，在节省配置调试时间的同时也大大的提高了视频质量体验。。

在中国专利201810195620中提出基于超分辨率重建技术的视频传输系统及传输方法。所述方法包含如下步骤法包括以下步骤：(1)视频接收步骤，网关设备接收视频服务器发送的视频数据；(2)超分辨率重建步骤，网关设备对视频数据进行超分辨率重建；(3)视频发送步骤，网关设备将超分辨率重建后的视频传输给客户端。通过在视频服务器与客户端之间设置网关设备，并使用网关设备作为传递数据的中间部件，并且在转发视频服务器的视频数据之间，对视频数据进行超分辨率重建，然后转发给客户端，客户端既可以是用户的视频播放终端，如电视盒子、手机、电脑等，也可以是下一级的其他网络设备，如交换机、路由器等。视频服务器到网关设备之间通常使用公网传输数据，视频服务器和网关设备之间依旧可以采用现有的传输方式。网关设备可以输出高分辨率的视频数据给客户端，由客户端播放或传输，从而为用户提供更好的视频播放体验。

上述相关发明专利都通过应用了深度学习网络，但它们的侧重点都有所不同，专利1主要强调了在客户端进行视频多切片版本选择时采用深度强化学习网络来预测将要下载的下载块。而专利2主要是在网关设备上接收视频，并将接收到的视频进行超分辨率重建，并将超分辨率重建后的视频传输给客户端。本发明与上述发明专利的区别在于是在服务端进行视频分类和编码再处理，之后在客户端对请求视频进行超分辨率重构，从服务端和客户端两个层面进行处理视频，来达到更好传输效果。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于深度学习网络的内容感知视频自适应传输方法，利用深度学习网络的相关应用，通过卷积神经网络对服务端视频进行处理，采取有效信息；在客户端对视频进行清晰度的再次处理，提升视频应用在移动网络中的用户体验；最终通过在客户端和服务端进行不同的操作，解决带宽资源较差条件下用户观看体验的问题。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度学习网络的内容感知视频自适应传输方法，包括如下步骤：

步骤1，根据视频特征将视频分类；

步骤2，在服务端通过卷积神经网络对视频进行有效信息感知，保留同类视频图像的有效核心信息，模糊非核心区域，在视频传输过程中使用非核心区域的低清视频进行传输；

步骤3，在客户端通过深度学习网络对请求视频进行分辨率重构。

所述步骤1中，采用商业视频平台对不同视频划分种类的方法进行分类，对于无法按照商业视频平台方法划分的视频，通过深度神经网络的方法进行分类，在此过程中，分别计算新视频图像和已有各类视频图像的相似性距离L，当某一类取得min{L}，认为两类视频同属一类，放置入已有视频集合。

在视频分类之后，可将视频类型信息写入视频的描述文件。

所述步骤2中，对于不同种类的视频，为每一类视频训练一种内容感知的语义分割网络，达到泛化的内容感知处理。例如，可采用Yolo-v2对象检测算法对各类视频进行内容感知。

所述语义分割网络为卷积深度神经网络，用其提取视频中的核心信息，并采用自适应视频编码的方式，对卷积深度神经网络中输出的核心信息进行高码率编码，对非核心区域进行较低码率编码。

所述较低码率编码方式可为双三线性插值的方式降采样。

所述步骤3中，因为不同终端的计算能力有一定差异，所以在客户端预先准备不同种类的超分辨率重构神经网络，用来适应不同的客户端，客户端根据自适应码率请求算法，来请求服务端预置的视频文件；接收到服务器的视频数据后，对视频数据进行解码，重建视频的图像；将解码数据通过客户端预置好的超分辨率重建模块，对图像进行超分辨率重构，最终生成超分辨率的视频图像。其中，超分辨率重构神经网络是根据不同类型视频训练出的神经网络，网络模型可用SRCNN等。

所述客户端从所请求视频文件中发现视频类型的描述信息，从而在客户端选择与之对应且合理的超分辨率图像清晰度重构神经网络，对服务端响应视频内容进行处理。

所述步骤3中，客户端通过如下方式对请求视频进行分辨率重构：

S1：获取视频数据中一帧视频的数据；

S2：对该帧视频图像解码并重建图像；

S3：对该重建后的图像进行超分辨率重建。

与现有技术相比，本发明通过深度神经网络，可以在尽可能提高视频质量的前提下，降低网络流量和带宽占用资源，有效地降低服务器吞吐压力，降低视频内容提供商的运营成本，同时降低广大普通用户的网络流量消耗，在客户端利用超分辨率重构的思想，能够有效提取特征，利用终端计算能力，实际减少代价，最终有效减少视频卡顿，提高图像质量，带给用户更好的使用体验。

附图说明

图1为本发明整体框架原理示意图。

图2为本发明流程图。

图3为采用的基于深度学习的视频重建技术示意图。

具体实施方式

为了增加对本发明的理解，下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明在服务端和客户端会对视频进行一系列操作，视频传输过程中使用非核心区域的低清视频进行传输，用户终端再将接收视频采用基于深度学习的超分辨图像重建技术重构，最终可以高清地播放，从而能够有效的减少带宽成本。

如图2所示，下面对本发明的技术方案进行详细说明：

Step1：根据视频特征将视频分类。

首先可以将各种不同的视频进行分类成几种大类，可参照优酷，腾讯等商业视频平台对不同视频划分种类的方法；对于无法按照商业视频平台划分的视频，可通过深度神经网络的方法对视频图像进行分类，在此过程中，分别计算新视频图像和已有各类视频图像的相似性距离L，当某一类取得min{L}，可认为两类视频同属一类，放置入已有视频集合；其中L可以有很多种定义，可参考感知哈希算法等。

利用感知哈希算法计算视频图像间的相似性的方法如下：

a)缩小尺寸：去除高频和细节的最快方法是缩小图片，将图片缩小到一定的尺寸。不要保持纵横比，只需将其变成一致的正方形。这样就可以比较任意大小的图片，摒弃不同尺寸、比例带来的图片差异；

b)简化色彩：将图片转换成灰度图像；

c)计算平均值：计算所有像素点的灰度平均值；

d)比较像素灰度：将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0；

e)计算hash值：将上一步的比较结果，组合在一起，就构成了一个整数，这就是这张图片的指纹；

f)计算相似性：计算这两张图片的hash指纹，然后计算不同位的个数(汉明距离)。如果这个值为一定的阈值，则表示这两张图片非常相似，否则，汉明距离大于一定的阈值，则表明完全不同的图片。欧式距离也可以参考；

f()-----表示映射欧式空间的嵌入函数；

D()----表示欧式平方距离；

P，Q----平方欧式距离。

在视频分类之后，为了方便进一步对视频进行处理，可将视频类型信息写入视频的描述文件。

Step2：在服务端通过卷积神经网络对视频进行有效信息感知，保留同类视频图像的有效核心信息，模糊非核心区域，在视频传输过程中使用非核心区域的低清视频进行传输。

具体地，对于不同种类的视频，为每一类视频训练一种内容感知的语义分割网络，达到泛化的内容感知处理，例如可采用Yolo-v2对象检测算法对各类视频进行内容感知，基于卷积深度神经网络提取视频中的核心信息。

Step3：采用自适应视频编码的方式，对卷积深度神经网络中输出的核心信息进行高码率编码，对非核心区域进行较低码率编码，例如双三线性插值的方式降采样。新处理的图像可以在核心区域达到较高的清晰度，而在非核心区域成为较低清晰度，从而减低网络带宽资源消耗。

Step4：采用编码技术将视频压缩，进一步减少传输的视频大小；现有的编码技术包括H.264、H.265、AVS2等。

Step5：在客户端通过深度学习网络对请求视频进行分辨率重构，参考图3，具体包括：

Step51：在客户端预先准备不同种类视频对应的适合其计算能力的超分辨率图像清晰度重构神经网络，超分辨率重构神经网络是根据不同类型视频训练出的神经网络，网络模型可用SRCNN等；

Step52：客户端根据自适应码率请求算法，来请求服务端预置的视频文件；该方法有多种模型，如剩余残差网络，srcnn等。具体地，客户端可从所请求视频文件中发现视频类型的描述信息，从而在客户端选择与之对应且合理的超分辨率图像清晰度重构神经网络，对服务端响应视频内容进行处理。其中自适应码率请求算法可采用多种客户端HTTPadaptive streaming算法，本发明可参考infocom的BOLA算法。

Step53：接收到服务器的视频数据后，对视频数据进行解码，重建视频的图像；

Step54：将解码数据通过客户端预置好的超分辨率重建模块，对图像进行超分辨率重构，最终生成超分辨率的视频图像，达到一个较好的视频观看体验。

在本发明的一个具体实施例中，采用了如下训练方法：

a)先将低分辨率图像使用双三次差值放大至目标尺寸(如放大至2倍、3倍等)，此时仍然称放大至目标尺寸后的图像为低分辨率图像(Low-resolution image)，即图中的输入(input)，损失函数可用均方误差函数：

其中，y′_i表示神经网络的预测值，y_i表示标签值，n表示参与训练的图像个数；

b)将低分辨率图像输入三层卷积神经网络，(举例：对YCrCb颜色空间中的Y通道进行重建，网络形式为(conv1+relu1)—(conv2+relu2)—(conv3+relu3))第一层卷积：卷积核尺寸9×9(f1×f1)，卷积核数目64(n1)，输出64张特征图；第二层卷积：卷积核尺寸1×1(f2×f2)，卷积核数目32(n2)，输出32张特征图；第三层卷积：卷积核尺寸5×5(f3×f3)，卷积核数目1(n3)，输出1张特征图即为最终重建高分辨率图像。

则超分辨率重建步骤包括以下步骤：

S1：获取视频数据中一帧视频的数据；

S2：对该帧视频图像解码并重建图像；

S3：对该重建后的图像进行超分辨率重建。

本发明采用以上技术方案，在视频源端把原始视频经过内容提取，得到感知视频，然后进行视频压缩编码，再传输压缩后视频。由于一定程度的减少高码率信息，视频编码数据会极大地减小，所需传输的视频流量也会减小，从而达到减少带宽消耗。在用户接收端，当用户只能接受到视频，选择合适的重构网络进行深度学习的超分辨图像重建方法把传输视频重建并还原成高分辨率视频，从而有效提高了观看体验。SRCNN该重构网络提出轻量的端到端网络SRCNN来解决超分问题，有比传统方法性能更强、速度更快的优点，而且将基于SC(稀疏编码)的超分方法理解为卷积神经网络的一种形式，也是一种进步。

Claims

1.一种基于深度学习网络的内容感知视频自适应传输方法，其特征在于，包括如下步骤：

步骤1，根据视频特征将视频分类；

步骤2，在服务端通过卷积神经网络对视频进行有效信息感知，保留同类视频图像的有效核心信息，模糊非核心区域，在视频传输过程中使用非核心区域的低清视频进行传输，对于不同种类的视频，为每一类视频训练一种内容感知的语义分割网络，达到泛化的内容感知处理；

所述语义分割网络为卷积神经网络，用其提取视频中的核心信息，并采用自适应视频编码的方式，对卷积神经网络中输出的核心信息进行高码率编码，对非核心区域进行较低码率编码，所述较低码率编码为双三线性插值的方式降采样；

步骤3，在客户端预先准备不同种类视频对应的适合其计算能力的超分辨率图像清晰度重构神经网络，超分辨率重构神经网络是根据不同类型视频训练出的神经网络，客户端根据视频文件的类型，选择与之对应的且适合客户端计算能力的超分辨率图像清晰度重构神经网络，对请求视频进行超分辨率重构。

2.根据权利要求1所述基于深度学习网络的内容感知视频自适应传输方法，其特征在于，所述步骤1中，采用商业视频平台对不同视频划分种类的方法进行分类，对于无法按照商业视频平台方法划分的视频，通过深度学习网络的方法进行分类，在此过程中，分别计算新视频图像和已有各类视频图像的相似性距离L，当某一类取得min{L}，认为两类视频同属一类，放置入已有视频集合。

3.根据权利要求1所述基于深度学习网络的内容感知视频自适应传输方法，其特征在于，在视频分类之后，将视频类型信息写入视频的描述文件。

4.根据权利要求1所述基于深度学习网络的内容感知视频自适应传输方法，其特征在于，所述步骤2中，采用Yolo-v2对象检测算法对各类视频进行内容感知。

5.根据权利要求1所述基于深度学习网络的内容感知视频自适应传输方法，其特征在于，客户端从所请求视频文件中发现视频类型的描述信息，从而在客户端选择与之对应且适合客户端计算能力的超分辨率图像清晰度重构神经网络，对服务端响应视频内容进行处理。

6.根据权利要求1所述基于深度学习网络的内容感知视频自适应传输方法，其特征在于，所述步骤3中，客户端通过如下方式对请求视频进行分辨率重构：

S1：获取视频数据中一帧视频的数据；

S2：对该帧视频图像解码并重建图像；

S3：对该重建后的图像进行超分辨率重建。