CN112565777B

CN112565777B - 基于深度学习模型视频数据传输方法、系统、介质及设备

Info

Publication number: CN112565777B
Application number: CN202011373854.6A
Authority: CN
Inventors: 罗静; 张赛; 张培; 刘锋
Original assignee: CRSC Institute of Smart City Research and Design Co Ltd
Current assignee: Communication Information Industry Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-04-07
Anticipated expiration: 2040-11-30
Also published as: CN112565777A

Abstract

本发明涉及一种基于深度学习模型的视频数据传输方法、系统、介质及设备，包括：利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者。本发明利用深度学习神经网络模型，对传输图像进行压缩和反向重构，保证视频传输速度的同时，更多的还原保留原图像的画质及信息。本发明可以广泛在通讯数据传输技术领域中应用。

Description

基于深度学习模型视频数据传输方法、系统、介质及设备

技术领域

本发明涉及一种通讯数据传输技术领域，特别是关于一种基于深度学习模型的视频数据传输方法、系统、介质及设备。

背景技术

随着科技的发展，当今人们的通讯方式多采用基于因特网的在线传输方式，因其打破地域限制的优势，让其成为了通信领域研究的热点。目前的视频通信系统在传输高质量视频图像信息的同时，接受方会出现很大的延迟问题，大多数的视频在线传输都以牺牲图像质量换取更好的传输效率。

目前的网络视频数据传输的主流方式有以下三种：视频基带传输、光纤传输、基于互联网传输。视频基带传输，其优点是：短距离传输图像信号损失小，造价低廉，系统稳定，不足是传输距离较短，300米以上的高频分量衰减较大，无法保证传输图像的质量；布线量大、维护困难、可扩展性差，适合小系统。光纤传输，通过把视频及控制信号转换为激光信号在借助光纤媒介进行传输，优势为传输距离远、衰减小，抗干扰性能好，适合远距离传输，缺点是：对于几公里内监控信号传输不够经济，光熔接及维护需大量专业技术人员，及设备操作处理，维护技术要求高，不易升级扩容。目前最为流行的传播方式为基于互联网的数据传输，这种传播方式解决了地域间距离较远的问题，方便快捷有很好的实用性，只要在有网络信号覆盖的地方就可以实现视频数据的在线传输，但是目前基于因特网的视频在线传输，在进行高质量的画面图像的实时传输时，因视频信息较大的原因，会加长数据的传播时间，导致有较大的延迟，无法满足数据传输的实效性，若获得延迟较小的视频画面时，多为以损失图像质量为代价，换取传输数据的效率；即受网络带宽和速度的限制，在传输高质量图像时，会有明显的延迟，无法保证视频数据传输的实效性。

其中图像压缩是指减少表示数字图像时需要的数据量，目的是减少图像数据中的冗余信息从而用更加高效的格式存储和传输数据。在图像压缩方向，可根据对编码信息的恢复程度分为无损压缩和有损压缩两大类，基于深度学习的图片压缩处理一般为有损压缩。最基础的基于卷积神经网络(CNN)的压缩方法一般采用端到端的模式，在传统的编码器两端加入CNN，但是CNN网络模型的超参数较多，当同时让两端进行优化时过程较为繁琐，会消耗很多时间，而且无法进行定量尺寸的压缩。基于循环神经网络(RNN)的图像压缩技术相对于最初的基于CNN的压缩技术有了明显的提高，利用RNN网络的局部记忆的优势，去寻找像素之间的关联性与非关联性，实现了多部重构的效果，很大程度上减小了模型需要训练的超参数，但是RNN在重构图像时，最佳的重构效果图仅限于32×32尺寸的图像，其它尺寸下的重构效果就会逊色许多。

发明内容

针对上述问题，本发明的目的是提供一种基于深度学习模型的视频数据传输方法、系统、介质及设备，其利用深度学习神经网络模型，对传输图像进行压缩和反向重构，保证视频传输速度的同时，更多的还原保留原图像的画质及信息。

为实现上述目的，本发明采取以下技术方案：一种基于深度学习模型的视频数据传输方法，其包括以下步骤：利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者。

进一步，所述深度学习的网络模型采用基于对抗生成网络的深度学习模型。

进一步，在对抗生成网络中，采用选择性生成压缩方法对视频数据进行压缩。

进一步，采用选择性生成压缩方法对对抗生成网络在视频压缩和复原包括以下步骤：

将训练图片传输至图像编码器，经图像编码器进行压缩；

将训练图片的不同区域用不同灰度值表示得到灰度图片，将灰度图片传输至图像编码器和判别器；

将压缩后的图像ω经量化器q进行量化处理；

将量化处理后的图像数据与从灰度图片中提取的下采样特征相结合，结合后传输至判别器；

判别器根据接收到的数据进行逆序还原，生成解压缩重构图片。

进一步，以生成器、辨别器和编码器为一个整体，其目标函数为：

式中，目标函数包含了三部分，前两个式子是对抗生成网络的目标函数

第二个式子λE[d(x,G(z))]是控制生成图片相对于原始图片的失真程度，最后一个式子

可以通过调整β的大小来调整压缩率。

进一步，所述对抗生成网络深度学习模型的训练包括以下步骤：

S11、建立初始判别神经网络和初始生成神经网络，并将初始判别神经网络和初始生成的神经网络组成为初始的对抗生成神经网络；

S12、初始化初始对抗生成神经网络的参数和初始判别神经网络的边界向量；

S13、获取真实样本集合和随机变量集合，并将随机变量集合输入到初始生成神经网络中，依次生成需要的假样本集合；

S14、将真实样本集合和假样本集合输入到初始判别的神经网络，以得到与真实样本集合的第一判别输出和与假样本集合对应的第二判别输出；

S15、根据预设的判别损失函数对第一判别输出和第二判别输出进行计算以得到判别损失值；

S16、根据预设的生成损失函数对第二判别输出进行计算以得到生成损失值；

S17、根据判别损失值和损失值对初始对抗生成神经网络的参数进行更新以得到目标对抗生成神经网络。

进一步，所述接收端对接收到的视频进行反向图像恢复还原的方法为：将压缩图像作为一个噪声，该噪声满足正态分布、均匀分布或任意分布；将压缩的图像输入到训练好的深度学习的网络模型，深度学习的网络模型将输入图片的分布以预先设定的形式与真实分布进行损失训练，即最小化生成分布和真实分布的距离，减小生成分布与真实分布之间的JS散度，通过JS散度度量两个概率分布的相似度，进而还原恢复低分辨率的图像。

一种基于深度学习模型的视频数据传输系统，其包括：压缩模块、传输模块和还原模块；所述压缩模块利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；所述传输模块将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；所述还原模块在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：1、本发明能实现高效的图像压缩。通过生成对抗网络的深度学习模型，对发出端的图像进行高效的压缩，尤其对于人与人的视频在线通话时，提取出人物部分，进行选择性的压缩，放弃冗余信息，达到精准压缩。2、本发明能实现更快的视频传输效率。对每一帧的压缩图像进行分割处理，筛选出有用部分，并对有用部分进行压缩，在很大程度上，减小了传输信息，以此有了更快的在线传输效率。3、本发明能实现高质量的传输图像。在接收端，对接受到的信息进行解码和复原，在对抗生成网络中，具有图像超分辨的功能，可以对图像的细节进行修复和提升，当发送端画质略低时，网络模型可以对传输画面的清晰度进一步提高。

附图说明

图1是本发明传输方法的流程示意图。

图2是对抗生成网络对视频压缩和复原的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的第一实施方式中，如图1所示，提供一种基于深度学习模型的视频数据传输方法，发出端的图像进行数据压缩，将压缩后的文件通过因特网的方式进行数据传输，其中因特网为数据传输的外界条件，网速的快慢会在一定程度上影响数据的传输速度。文件传输后，由接收端对压缩文件进行接收，并对压缩图像进行还原和修复，最终将重构的图像信息反馈到接受者。该方法具体包括以下步骤：

S1、利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；

S2、将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；

S3、在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者，以最小程度上牺牲原图像质量和信息作为代价，获取更高的传输效率与传输质量。

上述步骤S1中，深度学习的网络模型采用基于对抗生成网络(GAN)的深度学习模型。在本实施例中，采用基于生成对抗网络的深度学习模型对视频流中的图像进行压缩处理，并在接受端进行图像数据信息的还原，能在很大程度上还原图像信息，保证视频在线传输数据的准确性，在针对某些原视频图像像素较低的情况时，还原后图像的清晰度会有明显的提升。

其中，在对抗生成网络中，有两种压缩方法：全局性生成压缩(GC)和选择性生成压缩(SC)。其中全局性生成压缩能保留整体图像内容，同时生成不同尺度的结构，例如建筑立面上的树叶或窗户的树叶；选择性生成压缩能保留语义标签映射中完全生成图像的某些部分，同时高度保留用户定义区域的细节。

在本实施例中，优选选择性生成压缩方法对视频数据进行压缩。

采用选择性生成压缩方法时，如图2所示，对对抗生成网络在视频压缩和复原的步骤为：

将训练图片x传输至图像编码器E，经图像编码器E进行压缩；

将训练图片x的不同区域用不同灰度值表示得到灰度图片s，进而将图像不同部分用不同标签进行区分，并将灰度图片s传输至图像编码器E和判别器D；

将压缩后的图像ω经量化器q进行量化处理，即对压缩后的图像ω做进一步压缩处理，除去图像信息中的部分冗余信息，采用预先设定灰度阈值的量化，使局部的区分的对比度更高，从而得到最终量化后带有随机噪声的图像

利用结合模块m将量化处理后的图像数据与从灰度图片s中提取的下采样特征F相结合，结合后传输至判别器D；

判别器D根据接收到的数据进行逆序还原，生成解压缩重构图片

通过判别器D配合生成器G的训练，使恢复的图片与原图片的差的损失值达到最小。

以生成器G、辨别器D和编码器E为一个整体，其目标函数为：

式中，z为生成器的图像训练集，函数f(·)＝log(·),函数g(·)＝log(1-·),d(·)为二范数(欧几里得度量),λ为控制生成器生成图像与原训练图片x的失真率，β为控制压缩程度的参数，

为压缩函数熵的可微模型。目标函数包含了三部分，前两个式子是对抗生成网络的目标函数

可以通过调整β的大小来调整压缩率。

选择性生成压缩的方式可以应用在一个视频语音的场景中，在视频语音对话中，更多的注重的是通话对象而不是通话对象的场景，在解压时尽可能的多的保证通话对象的人物图像信息，背景则是生成一个符合人物的场景，这样省去了许多场景的信息，进一步提高了压缩的程度，加快了视频数据的传输效率。从而，实现了在保证传输效率实时性的同时，又满足视了高清晰图像的视频在线传输的功能。

上述步骤S1中，对对抗生成网络深度学习模型的训练包括以下步骤：

S11、建立初始判别神经网络和初始生成神经网络，并将初始判别神经网络和初始生成的神经网络组成为初始的对抗生成神经网络。

S12、初始化初始对抗生成神经网络的参数和初始判别神经网络的边界向量。

S13、获取真实样本集合和随机变量集合，并将随机变量集合输入到初始生成神经网络中，依次生成需要的假样本集合。

S14、将真实样本集合和假样本集合输入到初始判别的神经网络，以得到与真实样本集合的第一判别输出和与假样本集合对应的第二判别输出。

S15、根据预设的判别损失函数对第一判别输出和第二判别输出进行计算以得到判别损失值。

S16、根据预设的生成损失函数对第二判别输出进行计算以得到生成损失值。

上述步骤S3中，接收端对接收到的视频进行反向图像恢复还原的方法为：将压缩图像作为一个噪声，该噪声可以是满足正态分布、均匀分布或任意分布。将压缩的图像输入到训练好的深度学习的网络模型，深度学习的网络模型将输入图片的分布以预先设定的形式与真实分布进行损失训练，即最小化生成分布和真实分布的距离，从而减小生成分布与真实分布之间的JS散度，通过JS散度度量两个概率分布的相似度，以此来还原恢复低分辨率的图像。

在本发明的第二实施方式中，提供一种基于深度学习模型的视频数据传输系统，其包括：压缩模块、传输模块和还原模块；

压缩模块利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；

传输模块将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；

还原模块在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者。

上述实施例中，压缩模块内的深度学习的网络模型采用基于对抗生成网络的深度学习模型。

在本发明的第三实施方式中，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行上述第一实施方式中的任一方法。

在本发明的第四实施方式中，提供一种计算设备，其包括一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为一个或多个处理器执行，一个或多个程序包括用于执行上述第一实施方式中的任一方法的指令。

综上，本发明在使用时，发起者和接受者均从云端下载好已训练好的对抗生成网络的模型；对应发起者使用的是压缩图像数据的模型，接受者运用的是解压数据模型；建立接受者与发起者的网络连接，保证传输信息的安全性和稳定性；将发起端的视频图像数据通过已训练好的神经网络模型进行压缩处理，并通过因特网传输给接收端；接收端对压缩文件进行接收，并利用已有的网络模型进行解压和回复处理，将重构后的图像信息传输给接受者。

本发明在数据传输的收发端，均运用深度学习的神经网络模型，在发送端对视频传输前的图像进行一种高效的压缩处理，在接收端进行一个图像反向重构。从而使得在传输时降低传输数据量，提高传输效率，满足传输的实效性，在接收时对图像进行多次重构，恢复图像的原始信息，从而保证图像数据的真实性。

进一步，本发明解决了因传输图像质量过高而导致视频在线传输延迟的问题，目前已有的视频在线传输系统，在进行两地或者多地的视频在线通话时，往往不能做到实时的视频传输，多多少少会有一些延迟，不能满足传输信息的时效性；视频通话延迟较小的传输系统，所传输的视频图像往往质量较差，在通话对象进行快速晃动或移动时，经常会出现明显的画面卡顿，导致视频传输信息的缺失。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于深度学习模型的视频数据传输方法，其特征在于，包括以下步骤：

利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；

将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；

在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者；

所述深度学习的网络模型采用基于对抗生成网络的深度学习模型；

在对抗生成网络中，采用选择性生成压缩方法对视频数据进行压缩；

采用选择性生成压缩方法对对抗生成网络在视频压缩和复原包括以下步骤：

将训练图片传输至图像编码器，经图像编码器进行压缩；

将压缩后的图像ω经量化器q进行量化处理；

2.如权利要求1所述传输方法，其特征在于，以生成器、辨别器和编码器为一个整体，其目标函数为：

第三个式子λE[d(x,G(z))]是控制生成图片相对于原始图片的失真程度，最后一个式子

可以通过调整β的大小来调整压缩率；E为图像编码器；D为判别器；z为生成器的图像训练集，函数f(·)＝log(·),函数g(·)＝log(1-·),d(·)为二范数,λ为控制生成器生成图像与原训练图片x的失真率，β为控制压缩程度的参数，

为压缩函数熵的可微模型，G为生成器。

3.如权利要求1所述传输方法，其特征在于，所述对抗生成网络深度学习模型的训练包括以下步骤：

4.如权利要求1所述传输方法，其特征在于，所述接收端对接收到的视频进行反向图像恢复还原的方法为：将压缩图像作为一个噪声，该噪声满足正态分布、均匀分布或任意分布；将压缩的图像输入到训练好的深度学习的网络模型，深度学习的网络模型将输入图片的分布以预先设定的形式与真实分布进行损失训练，即最小化生成分布和真实分布的距离，减小生成分布与真实分布之间的JS散度，通过JS散度度量两个概率分布的相似度，进而还原恢复低分辨率的图像。

5.一种基于深度学习模型的视频数据传输系统，其特征在于，包括：压缩模块、传输模块和还原模块；

所述压缩模块利用训练好的深度学习的网络模型对视频流的图像数据进行压缩；

所述传输模块将压缩后的每一帧图像进行实时网络传输，发送至视频数据接收端；

所述还原模块在接收端进行反向图像恢复还原，并将还原后的图像数据发送给接受者；

将训练图片传输至图像编码器，经图像编码器进行压缩；

将压缩后的图像ω经量化器q进行量化处理；

6.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至4所述方法中的任一方法。

7.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至4所述的方法中的任一方法的指令。