CN114827617A

CN114827617A - 一种基于感知模型的视频编解码方法及系统

Info

Publication number: CN114827617A
Application number: CN202210732354.XA
Authority: CN
Inventors: 宋奇蔚; 秦良山
Original assignee: Getinfo Technology Tianjin Co ltd
Current assignee: Getinfo Technology Tianjin Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-07-29
Anticipated expiration: 2042-06-27
Also published as: CN114827617B

Abstract

本申请提供了一种基于感知模型的视频编解码方法及系统，涉及视频处理技术领域，具体为：摄像头采集直播图像，将原始视频帧流发送至采集服务器；采集服务器根据终端设备反馈的主观评测结果对编码目标参数进行更新；基于对抗网络结构化编码模型和更新的编码目标参数对原始视频帧流进行压缩编码，将压缩编码后的数据发送至控制中心；控制中心基于对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧流发送至终端设备；终端设备播放视频流，采集观看用户的主观评测结果，将主观评测结果上传至控制中心；控制中心基于感知模型对主观评测结果进行合理性校验。本申请能够显著降低编码复杂度，提升用户体验感。

Description

一种基于感知模型的视频编解码方法及系统

技术领域

本申请涉及视频处理技术领域，尤其是涉及一种基于感知模型的视频编解码方法及系统。

背景技术

近年来，随着智能终端的发展以及在线视频等新型业务的普及，网络中传输的视频数据量呈爆炸式增长态势。超高清视频和全景视频的快速发展进一步激化了带宽的供需矛盾。伴随着5G等新兴通信技术的变革，以及4K、8K视频需求增长趋势，沉浸式通信成为了未来无线多媒体通信的重要发展方向，可提供身临其境的沉浸式用户体验，为未来5G网络提供全新的多媒体业务。近年来以全景视频为代表的新型沉浸式通信业务已经开始逐步普及；全景视频覆盖区域为360×180度，需超高分辨率像素的支持，将激增未来通信系统传输数据量。

与观看普通视频不同，用户观看全景视频的视场约110×60度，因此360×180度覆盖范围下的全景视频大部分区域不会被看到、存在极大的感知冗余，可通过大幅减少全景视频压缩的感知冗余，显著提升其传输效率与用户体验，目前缺乏一种解决该问题的有效的技术方案。

发明内容

有鉴于此，本申请提供了一种基于感知模型的视频编解码方法及系统，以解决现有技术存在的沉浸式用户体验需求与无线通信带宽受限之间的矛盾。

第一方面，本申请实施例提供了一种基于感知模型的视频编解码方法，应用于摄像头、采集服务器、控制中心和终端设备，包括：

所述摄像头采集直播图像，将原始视频帧流发送至采集服务器；

所述采集服务器确定编码目标参数，根据终端设备反馈的主观评测结果对编码目标参数进行更新；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对原始视频帧流进行压缩编码，将压缩编码后的数据发送至控制中心；

所述控制中心基于预先训练完成的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧流发送至终端设备；

所述终端设备播放视频流，采集观看用户的主观评测结果，将主观评测结果上传至控制中心；所述控制中心基于预先训练完成的感知模型对主观评测结果进行合理性校验，将校验通过的主观评测结果发送至所述采集服务器。

进一步的，所述采集服务器确定编码目标参数，包括：

所述采集服务器获取视频帧固有参数、网络参数和终端设备参数，所述视频帧固有参数包括：分辨率、帧率、比特率和画面元素特征；所述网络参数包括：视频传输速率、网络延迟和卡顿时间；终端设备参数包括：屏幕尺寸、CPU以及GPU的内存、频率和型号；

根据网络参数和终端设备参数对视频帧固有参数进行更新，确定编码目标参数；所述编码目标参数包括：分辨率、帧率、比特率和画面元素特征。

进一步的，所述主观评测结果为主观评测分数；根据终端设备反馈的主观评测结果对编码目标参数进行更新，包括：

判断主观评测分数是否小于设定的阈值，若为是，则依次对分辨率、帧率、比特率和画面元素特征进行调整；否则，不更新编码目标参数。

进一步的，所述对抗网络结构化编码模型为TCN模型；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对摄像头采集的视频帧进行压缩编码；包括：

根据预设时间间隔或帧数间隔，从摄像头采集的原始视频帧流中选取关键帧；

将更新的编码目标参数作为每个关键帧的特征信息；

对于一个关键帧之后的每个非关键帧，提取与关键帧相比发生变化区域的特征轮廓；形成非关键帧的“素描图”；

将每个关键帧和其对应的多个“素描图”与传输到控制中心。

进一步的，所述控制中心基于预先建立的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，包括：

所述控制中心接收采集服务器发送的压缩编码后的数据包；

以关键帧为模板，基于AI算法利用“素描图”还原出每个非关键帧，并结合特征轮廓还原上色，生成动态视频帧；

对动态视频帧按照终端设备能识别的编码格式进行编码。

进一步的，所述主观评测结果为主观评测分数；

所述控制中心基于预先训练完成的感知模型对主观评测结果进行合理性校验，包括：

接收终端设备发送的主观评测分数；

获取动态视频帧的分辨率、比特率、帧率、画面特征、初始缓冲时延、卡顿次数和卡顿时长；

将动态视频帧的分辨率、比特率、帧率、画面元素特征、初始缓冲时延、卡顿次数和卡顿时长，输入预先训练完成的感知模型，得到动态视频帧的视频质量评分；

若主观评测分数和视频质量评分差的绝对值大于阈值，则主观评测分数未通过合理性检验，否则，通过合理性检验；

将通过合理性检验的主观评测分数发送至采集服务器。

进一步的，所述感知模型的训练步骤包括：

获取包括多个视频的视频集；

获取多个被试观看视频的人工打分和脑电响应测试实验结果；

对脑电响应测试实验结果进行预处理，得到预处理后的脑电响应测试实验结果；所述预处理包括：去伪迹成分、去眼电成分、去心电成分和去肌电成分；

利用预处理后的脑电响应测试实验结果对人工打分进行筛选和修正，得到视频质量评分标签；

将播放视频的分辨率、比特率、帧率、画面元素特征、初始缓冲时延、卡顿次数和卡顿时长，输入感知模型，得到预测视频质量评分；

利用预测视频质量评分和视频质量评分标签，确定损失函数值；

基于损失函数值，对感知模型的参数进行调整。

进一步的，所述方法还包括：训练对抗网络结构化编码模型的步骤。

进一步的，所述方法还包括：训练对抗网络结构化解码模型的步骤。

第二方面，本申请实施例提供了一种基于感知模型的视频编解码系统，包括：摄像头、采集服务器、控制中心和终端设备；

所述摄像头：用于采集直播图像，将原始视频帧流发送至采集服务器；

所述采集服务器，用于确定编码目标参数，根据终端设备反馈的主观评测结果对编码目标参数进行更新；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对原始视频帧流进行压缩编码，将压缩编码后的数据发送至控制中心；

所述控制中心，用于基于预先建立的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧发送至终端设备；还用于基于预先训练完成的感知模型对主观评测结果进行合理性校验，将校验通过的主观评测结果发送至所述采集服务器；

所述终端设备，用于对视频帧进行播放，在播放过程中，采集观看用户的主观评测结果，将主观评测结果上传至所述控制中心。

本申请利用终端用户对视频质量的主观评测结果对视频编码参数进行动态调整，而且通过感知模型对主观评测结果进行合理性校验，提高了主观评测结果的可靠性，由此提升压缩图像/视频的主、客观质量，显著降低编码复杂度，提升用户体验感。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于感知模型的视频编解码方法整体设计示意图；

图2为本申请实施例提供的基于感知模型的视频编解码方法的流程图；

图3为本申请实施例提供的基于感知模型的视频编解码系统的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

为解决上述技术问题，如图1所示，本申请提供了一种基于感知模型的视频编解码方法，应用于摄像头、采集服务器、控制中心和终端设备，包括：所述摄像头采集直播图像，将原始视频帧流发送至采集服务器；所述采集服务器确定编码目标参数，根据终端设备反馈的主观评测结果对编码目标参数进行更新；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对原始视频帧流进行压缩编码，将压缩编码后的数据发送至控制中心；所述控制中心基于预先训练完成的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧流发送至终端设备；所述终端设备播放视频流，采集观看用户的主观评测结果，将主观评测结果上传至控制中心；所述控制中心基于预先训练完成的感知模型对主观评测结果进行合理性校验，将校验通过的主观评测结果发送至所述采集服务器。

在维持视频主观质量不变的前提下，该视频转码解决方案可节省视频传输码率40%、感知质量提升6%、编码时间降低60%。此外，本申请既可满足互联网视频及物联网行业的海量视频转码需求，同时也能服务于城市安防和超高清视频需求等领域。

本申请能够提升多媒体通信效率，降低多媒体通信复杂度，将人工智能技术应用于计算机视觉，深度结合大脑和视觉特性，极大提升压缩图像/视频的主、客观质量，显著降低编码复杂度。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图2所示，本申请实施例提供了一种基于感知模型的视频编解码方法，应用于摄像头、采集服务器、控制中心和终端设备，包括如下步骤：

步骤101：所述摄像头采集直播图像，将原始视频帧流发送至采集服务器；

其中，摄像头需提供ONVIF/RTSP等网络协议，通过ONVIF协议发现设备及获取设备信息，采集大量摄像头直播视频，包括各种常用的分辨率、帧率、采光、环境、声学条件、常见场景等条件，由于因子较多且条件较多，因此需要采集大量的数据进行存贮，并筛选掉异常的、不完整的视频资源。

步骤102：所述采集服务器确定编码目标参数，根据终端设备反馈的主观评测结果对编码目标参数进行更新；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对原始视频帧流进行压缩编码，将压缩编码后的数据发送至控制中心；

在本实施例中，所述采集服务器确定编码目标参数，包括：

所述主观评测结果为主观评测分数；根据终端设备反馈的主观评测结果对编码目标参数进行更新，包括：

其中，当观看用户的主观评测分数较低时，则根据当前编码目标参数的取值，判断可能是其中的哪个参数影响了视频质量，然后对编码目标参数进行相应的调整。

所述对抗网络结构化编码模型为TCN模型；TCN（Temporal ConvolutionalNetwork，时序卷积网络）是一个卷积模型，可以用来处理时间序列，适合作为视频传输和处理的模型。TCN使用编码时空信息的CNN计算低级特征；使用RNN将这些低级特征输入到一个获取高级时间信息的分类器中。这种方法的主要缺点是它需要两个独立的模型。

TCN提供了一种统一的方法来以层次的方式捕获所有两个级别的信息，TCN可以接受任意长度的序列，并将其输出为相同长度。因果卷积在使用一维全卷积网络结构时使用。一个关键的特征是t时刻的输出只与t之前的元素进行卷积。

在本实施例中，基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对摄像头采集的视频帧进行压缩编码；包括：

将更新的编码目标参数作为每个关键帧的特征信息；

此外，还需要对所述对抗网络结构化编码模型进行训练。

步骤103：所述控制中心基于预先训练完成的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧流发送至终端设备；

在本实施例中，所述控制中心基于预先训练完成的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，包括：

所述控制中心接收采集服务器发送的压缩编码后的数据包；

对动态视频帧按照终端设备能识别的编码格式进行编码。

控制中心将动态视频帧封装为普通H264/H265编码，建立RTMP/HLS等通道，提供直播服务，数据解码后还原为标准H264/H265等通用视频格式；考虑到终端设备能力以及网络能力，解码为相应的视频格式，并且可以动态进行调整，达到系统闭环。

此外，还需要对所述对抗网络结构化解码模型进行训练。

步骤104：所述终端设备播放视频流，采集观看用户的主观评测结果，将主观评测结果上传至控制中心；所述控制中心基于预先训练完成的感知模型对主观评测结果进行合理性校验，将校验通过的主观评测结果发送至所述采集服务器。

依据认证机制，准许相关用户可以观看视频流，同时支持视频截屏、储存、历史回放等功能。视频资源在不同的终端设备进行播放，并且考虑到不同的终端因素、网络因素、环境因素、客户群体、需求场景等因子，结合用户感知模型，动态调整相关参数，提供良好的用户体验。

首先，需要对感知模型进行训练，包括：

获取包括多个视频的视频集；

播放视频，获取多个被试的人工打分和脑电响应测试实验结果；

利用预处理后的脑电响应测试实验结果对人工打分进行修正和筛选，得到视频质量评分标签；

基于损失函数值，对感知模型的参数进行调整。

在本实施例中，在感知模型的训练中，引入脑电实验，能够通过预处理后的脑电响应测试实验结果得到被试对视频的真实反映，从而对被试的人工打分进行筛选和修正，提高视频质量评分标签的准确性，从而提高感知模型的可靠性。

由于终端设备反馈的主观评测结果有可能存在随意评测和恶意评测的情况，导致主观评测结果不客观准确，那么利用主观评测结果调整编码目标参数则会产生越调越偏的情况发生，使利用主观评测结果调整编码目标参数无法正确实施。针对这种情况，需要对主观评测结果进行合理性校验，只把检验通过的主观评测结果发送至采集服务器。

在本实施例中，当所述主观评测结果为主观评测分数；所述控制中心基于预先训练完成的感知模型对主观评测结果进行合理性校验，包括：

接收终端设备发送的主观评测分数；

将动态视频帧的分辨率、比特率、帧率、画面元素特征、初始缓冲时延、卡顿次数和卡顿时长，输入感知模型，得到动态视频帧的视频质量评分；

将通过合理性检验的主观评测分数发送至采集服务器。

基于上述实施例，本申请实施例提供了一种基于感知模型的视频编解码系统，参阅图3所示，本申请实施例提供的基于感知模型的视频编解码系统200至少包括：摄像头201、采集服务器202、控制中心203和终端设备204；

摄像头201：用于采集直播图像，将原始视频帧流发送至采集服务器202；

所述采集服务器202，用于确定编码目标参数，根据终端设备反馈的主观评测结果对编码目标参数进行更新；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对原始视频帧流进行压缩编码，将压缩编码后的数据发送至控制中心203；

所述控制中心203，用于基于预先建立的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧流发送至终端设备204；还用于基于预先训练完成的感知模型对主观评测结果进行合理性校验，将校验通过的主观评测结果发送至所述采集服务器202；

所述终端设备204，用于播放视频流，采集观看用户的主观评测结果，将主观评测结果上传至控制中心203。

需要说明的是，本申请实施例提供的基于感知模型的视频编解码系统200解决技术问题的原理与本申请实施例提供的于感知模型的视频编解码方法相似，因此，本申请实施例提供的基于感知模型的视频编解码系统200的实施可以参见本申请实施例提供的基于感知模型的视频编解码方法的实施，重复之处不再赘述。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种基于感知模型的视频编解码方法，其特征在于，应用于摄像头、采集服务器、控制中心和终端设备，包括：

2.根据权利要求1所述的基于感知模型的视频编解码方法，其特征在于，所述采集服务器确定编码目标参数，包括：

3.根据权利要求2所述的基于感知模型的视频编解码方法，其特征在于，所述主观评测结果为主观评测分数；根据终端设备反馈的主观评测结果对编码目标参数进行更新，包括：

4.根据权利要求2所述的基于感知模型的视频编解码方法，其特征在于，所述对抗网络结构化编码模型为TCN模型；基于预先训练完成的对抗网络结构化编码模型和更新的编码目标参数对摄像头采集的视频帧进行压缩编码；包括：

将更新的编码目标参数作为每个关键帧的特征信息；

5.根据权利要求4所述的基于感知模型的视频编解码方法，其特征在于，所述控制中心基于预先建立的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，包括：

所述控制中心接收采集服务器发送的压缩编码后的数据包；

对动态视频帧按照终端设备能识别的编码格式进行编码。

6.根据权利要求5所述的基于感知模型的视频编解码方法，其特征在于，所述主观评测结果为主观评测分数；

接收终端设备发送的主观评测分数；

将通过合理性检验的主观评测分数发送至采集服务器。

7.根据权利要求6所述的基于感知模型的视频编解码方法，其特征在于，所述感知模型的训练步骤包括：

获取包括多个视频的视频集；

对脑电响应测试实验结果进行预处理，得到预处理后的脑电响应测试实验结果；预处理包括：去伪迹成分、去眼电成分、去心电成分和去肌电成分；

基于损失函数值，对感知模型的参数进行调整。

8.根据权利要求1所述的基于感知模型的视频编解码方法，其特征在于，所述方法还包括：训练对抗网络结构化编码模型的步骤。

9.根据权利要求1所述的基于感知模型的视频编解码方法，其特征在于，所述方法还包括：训练对抗网络结构化解码模型的步骤。

10.一种基于感知模型的视频编解码系统，其特征在于，包括：

摄像头、采集服务器、控制中心和终端设备；

所述控制中心，用于基于预先建立的对抗网络结构化解码模型对压缩编码后的数据进行还原解码，将还原解码得到的视频帧流发送至终端设备；还用于基于预先训练完成的感知模型对主观评测结果进行合理性校验，将校验通过的主观评测结果发送至所述采集服务器；

所述终端设备，用于播放视频流，采集观看用户的主观评测结果，将主观评测结果上传至控制中心。