CN116437102B

CN116437102B - 可学习通用视频编码方法、系统、设备及存储介质

Info

Publication number: CN116437102B
Application number: CN202310701644.2A
Authority: CN
Inventors: 李礼; 盛锡华; 刘�东; 李厚强
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-20
Anticipated expiration: 2043-06-14
Also published as: CN116437102A

Abstract

本发明公开了一种可学习通用视频编码方法、系统、设备及存储介质，它们是一一对应的方案，方案中：运动编码时使用上一帧的重建特征作为参考特征，直接进行运动预测，无需获得像素域的参考视频，也即无需额外的运动估计模块，而是直接利用当前视频帧和参考特征进行进行联合运动预测和编码；并且，解码出的视频帧的重建特征可以直接应用于人类视觉任务和机器视觉任务；此外，还可以根据指定任务的类型使用相关的任务网络来进行后续任务处理，无需改变基于特征的视频编码部分。总体而言，本发明实现了高效的视频编码，可以同时取得高人类视觉任务性能和高机器视觉任务性能，不仅节省了编码时间，还节省了面向人类和机器视觉任务时的解码时间。

Description

可学习通用视频编码方法、系统、设备及存储介质

技术领域

本发明涉及视频编码技术领域，尤其涉及一种可学习通用视频编码方法、系统、设备及存储介质。

背景技术

视频作为一种多媒体数据形式，在广播电视、网络直播、安防监控、自动驾驶等传统与新兴领域被广泛应用。视频的数据量庞大，对于一个分辨率为1080p（1080逐行扫描）、每秒30帧的视频，其数据量可以达到每秒180 Mbytes（兆字节），传输与存储代价巨大。因此，在传输与存储前，常需要压缩视频的大小，将视频编码为更紧凑的码流，以减小其传输与存储代价。

传统视频编码标准，如H.264/AVC（Advanced Video Coding，先进视频编码）、H.265/HEVC（High Efficiency Video Coding，高效视频编码）、H.266/VVC（VersatileVideo Coding，通用视频编码），大都采用基于块的混合编码框架，包含基于块的运动预测、运动补偿、变换、量化、熵编码等模块。尽管传统视频编码标准已取得了巨大的成功，但其编码性能也陷入瓶颈，想要取得更大的编码性能也愈加困难。近年来，基于神经网络的可学习视频编码方法开启了一个新的方向，为取得更大的编码性能带来了希望。可学习的视频编码方法利用神经网络实现了传统混合编码框架中的各个编码模块，利用RDO（RateDistortion Optimization，率失真）函数，联合训练所有编码模块。

已有的可学习视频编码方法主要可以分为两类，包括基于残差编码的方法和基于条件编码的方法。

对于面向人类视觉任务的视频编码而言，无论是传统视频编码方法还是现有的可学习视频编码方法，在解码端都是获得像素域的解码视频供人类观看。如何用更少的传输与存储代价，获得更高质量的重建视频，让人类获得更好的视觉体验，是视频编码最基本的目的。因此，获得高质量的重建视频是视频编码面向的最基本的人类视觉任务。由于相机传感器或环境的影响，编码的视频往往包含噪声，解码的视频也会包含噪声，因此，在解码端需要进行去噪处理，以提高人类视觉体验。由于拍摄设备的限制或者带宽的限制，编码的视频可能分辨率较低，解码的视频分辨率也较低，因此，在解码端需要进行超分辨率处理，以提高人类视觉体验。如何将视频编码为更紧凑的形式，以减小其传输与存储代价，并且让解码视频更有利于人类观看，能提高人类视觉体验，就是面向人类视觉任务的视频编码需要解决的核心问题。举例来说，视频重建、视频去噪、视频超分辨率等均为人类视觉任务。

对于面向机器视觉任务的视频编码而言，随着智慧城市、智慧交通、智慧安防等人工智能应用的普及，解码器不再只面向人类，还需要面向机器分析。例如高速公路上的摄像头需要拍摄司机的行为视频，视频被编码后传输至云端，接收到的码流需要由计算机进行分析，识别司机是否有危险动作，如打电话等。再例如城市摄像头监控，摄像头采集某个场景的视频，视频被编码后传输至云端，接收到的码流需要被计算机分析，检测场景中是否有目标物体出现，如行人、车辆。如何将视频编码为更紧凑的形式，以减小其传输与存储代价，并且让接收到的码流更有利于机器分析，能让机器分析取得更高的准确率，就是面向机器视觉任务的视频编码需要解决的核心问题。举例来说，视频动作识别、视频目标检测等均为机器视觉任务。

现有的面向人类和机器视觉任务的视频编码方法可以分为三类。

第一类关注于特征压缩。Duan等人（Duan, L., Liu, J., Yang, W., Huang, T.,& Gao, W. (2020). Video coding for machines: A paradigm of collaborativecompression and intelligent analytics. IEEE Transactions on Image Processing,29, 8680-8695.）提出压缩神经网络的深度特征。具体的，视频被送入视觉任务网络的前端部分得到深度特征，深度特征被编码为码流，然后解码为重建特征，重建特征被用于视觉任务网络的服务端部分。这类方法可以把视觉任务网络的部分计算复杂度从服务端转移至前端，减少服务端的计算复杂度。但是，这类方法的编码器无法做到与后续视觉任务无关，对于不同的视觉任务，需要压缩不同的深度特征，很难让压缩的深度特征适用于不同的任务。另外，当面向视频重建任务时，该类方法需要传输额外的视频码流。尽管可以使用生成模型从解码的深度特征生成重建视频，但生成的视频质量差，无法满足人类高质量视觉体验。

第二类方法使用可伸缩码流实现面向人类和机器视觉任务的视频编码。Jin等人（Jin, X., Feng, R., Sun, S., Feng, R., He, T., & Chen, Z. (2022).Semantically Video Coding: Instill Static-Dynamic Clues into StructuredBitstream for AI Tasks. arXiv preprint arXiv:2201.10162.）提出将视频的高级特征（视觉任务网络的输出，如被分类物体的类别号、被检测物体的位置边界框）和低级特征（如物体的运动信息、内容信息）分别压缩为码流，然后拼接在一起形成可伸缩码流。根据用户需求的不同，发送不同长度的码流。例如解码端只需要做动作视频任务，编码端（发送端）只需要将被识别动作的种类特征发送到解码端（接收端）。这类方法的编码器依然无法独立于视觉任务，对于不同的视觉任务，编码器需要做出改变。

第三类方法是使用传统视频编码方法如H.264/AVC、H.265/HEVC、H.266/VVC，将视频编码为码流，然后解码为像素域的重建视频，然后再进行相应的人类或机器视觉任务。MPEG标准组织正在研发的VCM标准的锚点模型（Zhang, Y., Rafie, M., & Liu, S.(2021). Use cases and requirements for video coding for machines. ISO/IECJTC, 1.）就是采用这种方法。这类方法可以获得高质量的重建视频，但面向人类或机器视觉任务时并不高效。在面向人类视觉任务时，重建视频的质量可能较差，如包含噪声或分辨率低，重建视频不会被人类观看，而是处理后（去噪、超分辨率）的视频被人类观看，因此重建视频是冗余的。在面向机器分析时，重建视频不会被人类观看，而是被机器分析（识别动作、检测目标物体），因此重建视频是冗余的。

总体来说，现有各类方案主要存在如下技术问题：

（1）编码器需要获得像素域得重建帧才能和当前视频帧进行运动估计；编码器需要先使用光流估计网络得到估计的光流（像素级的运动矢量），然后再编码光流；解码器需要先获得像素域的重建视频，再进行人类和机器视觉任务。

（2）编码器无法做到与后续视觉任务无关，对于不同的视觉任务，需要压缩不同的深度特征，很难让压缩的深度特征适用于不同的任务；并且当面向视频重建任务时，编码器需要传输额外的视频码流，尽管可以使用生成模型从解码的深度特征生成重建视频，但生成的视频质量差，无法满足人类高质量视觉体验。

发明内容

本发明的目的是提供一种可学习通用视频编码方法、系统、设备及存储介质，能够使用上一帧的重建特征作为参考特征，直接进行运动预测，无需进行额外的运动估计，而且，可以直接利用重建特征执行面向人类和机器的视觉任务，因此，本发明不仅节省了编码时间，还节省了面向人类和机器视觉任务时的解码时间。

本发明的目的是通过以下技术方案实现的：

一种可学习通用视频编码方法，包括：

基于特征的视频编码部分：对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，并经过量化与熵编码获得运动码流，通过对所述运动码流进行熵解码与解码，获得重建运动矢量；结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息，并结合所述多尺度时域上下文信息对当前视频帧进行编码，并经过量化与熵编码获得视频码流，通过对所述视频码流进行熵解码与解码，获得当前视频帧的重建特征；

任务处理部分：由所述任务网络利用输入的各视频帧的重建特征执行指定类型的任务处理；其中，指定类型的任务包括：人类视觉任务和机器视觉任务中的任一种或多种任务。

一种可学习通用视频编码系统，包括：

基于特征的视频编码回路，用于执行基于特征的视频编码部分，包括：对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，并经过量化与熵编码获得运动码流，通过对所述运动码流进行熵解码与解码，获得重建运动矢量；结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息，并结合所述多尺度时域上下文信息对当前视频帧进行编码，并经过量化与熵编码获得视频码流，通过对所述视频码流进行熵解码与解码，获得当前视频帧的重建特征；

任务网络，用于执行任务处理部分，包括：由所述任务网络利用输入的各视频帧的重建特征执行指定类型的任务处理；其中，指定类型的任务包括：人类视觉任务和机器视觉任务中的任一种或多种任务。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，（1）运动编码时可以使用上一帧的重建特征作为参考特征，直接进行运动预测，无需获得像素域的参考视频，也即在运动编码前无需额外的运动估计模块，而是直接利用当前视频帧和参考特征进行进行联合运动预测和编码；（2）在解码时，解码出的视频帧的重建特征可以直接应用于人类视觉任务和机器视觉任务；（3）可以根据指定任务的类型使用相关的任务网络来进行后续任务处理，无需改变基于特征的视频编码部分。总体而言，本发明实现了高效的视频编码，可以同时取得高人类视觉任务性能和高机器视觉任务性能，不仅节省了编码时间，还节省了面向人类和机器视觉任务时的解码时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种可学习通用视频编码方法的示意图；

图2为本发明实施例提供的基于特征的视频编码回路的示意图；

图3为本发明实施例提供的跨域运动编解码器的示意图；

图4为本发明实施例提供的时域上下文挖掘模块的示意图；

图5为本发明实施例提供的上下文编解码器的示意图；

图6为本发明实施例提供的视频重建网络的示意图；

图7为本发明实施例提供的视频去噪网络与视频超分辨率网络的示意图；

图8为本发明实施例提供的视频动作识别的示意图；

图9为本发明实施例提供的视频目标检测的示意图；

图10为本发明实施例提供的一种可学习通用视频编码系统的示意图；

图11为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种可学习通用视频编码方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种可学习通用视频编码方法，如图1所示，其主要包括如下两个部分：

基于特征的视频编码部分（由图1所示的基于特征的视频编码回路执行）：对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，并经过量化与熵编码获得运动码流，通过对所述运动码流进行熵解码与解码，获得重建运动矢量；结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息，并结合所述多尺度时域上下文信息对当前视频帧进行编码，并经过量化与熵编码获得视频码流，通过对所述视频码流进行熵解码与解码，获得当前视频帧的重建特征。

任务处理部分（由图1所示的任务网络执行）：由所述任务网络利用输入的各视频帧的重建特征执行指定类型的任务处理；其中，指定类型的任务包括：人类视觉任务和机器视觉任务中的任一种或多种任务。

本发明实施例中，人类视觉任务可以包括：视频重建、视频去噪、视频超分辨率等，当然还可以包含其他任务，本发明不对具体的任务作出限制。以视频重建任务为例，可以有两种做法。第一种是可以先获得重建视频，再对重建视频进行处理。第二种是可以不产生中间的重建视频，而是直接从码流解码出处理后的视频。第二种的好处在于，当重建视频的质量较差时，如包含噪声或分辨率低，重建视频不会被人类观看，而是处理后的视频被人类观看，因此重建视频是冗余的，直接从码流解码出处理后的视频，就可以节省用于视频重建的计算复杂度。本发明采用的是第二种方式。

本发明实施例中，机器视觉任务包括：视频动作识别、视频目标检测等，当然还可以包含其他任务，本发明不对具体的任务作出限制。在面向机器视觉任务时，可以有两种做法。一种是可以先获得重建视频，再对重建视频进行机器分析。第二种是可以不产生中间的重建视频，而是直接对重建特征进行分析。第二种的好处在于，在面向机器分析时，重建视频不会被人类观看，而是被机器分析，因此重建视频是冗余的，直接分析重建特征，可以节省用于视频重建的计算复杂度。本发明采用的也是第二种方式。

需要说明的是，图1右侧所示的任务网络中仅提供了三种类型的任务（视频重建、视频超分辨率、视频目标检测）示例，在实际应用中，可根据实际的任务需要使用相应的任务网络对各视频帧的重建特征进行处理，获得任务结果。

为了直观的体现本发明解决各类技术问题所采用的手段，下面逐一做对照进行说明。

1、在现有方法的编码部分，需要获得像素域的参考帧，以及需要用额外的运动估计模块（例如，如光流估计网络），先估计当前待编码帧和参考帧之间的运动矢量（例如，如光流），再编码运动矢量为码流，最后解码码流获得重建运动矢量。相比于现有技术，本发明可以直接用上一帧的重建特征作为参考特征，无需获得像素域的参考帧，同时本发明无需额外的运动估计模块，直接利用当前视频帧和参考特征（即上一帧的重建特征）进行运动编码。

2、在面向人类和机器视觉任务时，现有方法需要将码流解码为像素域的重建视频，然后再做人类和机器视觉任务。相比于现有技术，本发明可以将码流解码为中间特征（也即重建特征），直接使用中间特征进行人类和机器视觉任务。

3、在面向人类和机器视觉任务时，现有方法的编码器无法独立于后续的人类和机器视觉任务，任务改变后，编码器也需要改变。相比于现有技术，本发明在面向不同任务时，编解码器（也即基于特征的视频编码部分）都可以保持不变，只需根据不同的任务，改变任务网络即可。

4、当同时面向人类和机器视觉任务和视频重建任务时，现有方法会人类和机器视觉任务而影响视频重建的性能，无法在取得高人类和机器视觉任务性能的同时，取得和单独面向视频重建任务时的视频重建性能。本发明可以同时取得高人类和机器视觉任务性能和高视频重建性能，不会因为面向人类和机器视觉任务而影响视频重建的性能。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、可学习通用视频编码方法的整体框架。

请参见图1，整体框架主要包括：基于特征的视频编码回路和任务网络。主要工作流程包括：将输入视频编码为码流，再将码流解码为重建特征，该重建特征可以被送入视频重建网络中输出重建视频，也可以被送入人类和机器视觉任务网络，完成各种人类和机器视觉任务，如视频去噪、视频超分辨率、视频动作识别、视频目标检测等。

1、基于特征的视频编码回路。

如图2所示，基于特征的视频编码回路主要包括：跨域运动编码器、跨域运动解码器、运动熵模型、时域上下文挖掘模块、上下文编码器、上下文解码器、上下文熵模型、特征缓存器。

本发明实施例中，编码器部分设有基于特征的视频编码回路中的所有模块，负责将输入视频编码为码流（包括后文提及的两部分码流），解码器部分设有基于特征的视频编码回路中的除去跨域运动编码器与上下文编码器之外的模块，负责将码流解码为重建特征。

（1）跨域运动编码器。

本发明实施例中，跨域运动编码器主要负责对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，获得运动隐变量，再经过量化模块处理后获得量化后的运动隐变量。如果当前视频帧为第一帧，则从当前视频帧的重建帧提取深度特征作为上一视频帧的重建特征。如图2所示，跨域运动编码器的输入是当前视频帧和上一帧的重建特征（参考特征）/>，输出经过量化模块（图2中的模块Q）处理后得到量化后的运动隐变量，下标为视频帧的序号，每一视频帧对应一个时刻。

（2）运动熵模型。

本发明实施例中，在编码器部分中运动熵模型主要负责估计量化后的运动隐变量的概率分布参数，结合估计的量化后的运动隐变量/>的概率分布参数对量化后的运动隐变量/>进行熵编码，获得运动码流。在解码器部分中结合估计的量化后的运动隐变量/>的概率分布参数对运动码流进行熵解码，获得量化后的运动隐变量/>。此处的熵编码、熵解码可对应的通过算术编码器（AE）、算术解码器（AD）实现。

（3）跨域运动解码器。

本发明实施例中，跨域运动解码器主要负责对所述量化后的运动隐变量进行解码，获得重建运动矢量。如图2所示，跨域运动编解码器的输入是量化后的运动隐变量/>，输出是重建运动矢量/>。跨域运动解码器主要负责是将包含当前视频帧/>和上一帧的重建特征/>之间的量化后的运动隐变量解码为重建运动矢量/>。

本发明实施例中，所述跨域运动编码器与跨域运动解码器（简称为跨域运动编解码器）采用自编码器结构，如图3所示，提供了跨域运动编解码器的结构示例，其中，标记31指代卷积层，标记32指代残差连接块，标记33指代亚像素上采样层。需要说明的是，跨域运动编解码器的具体结构可以采用现有网络结构实现，也可以自行设计网络结构，本发明主要强调的是跨域运动编解码器可以使用上一帧的重建特征作为参考特征，直接进行运动预测，无需获得像素域的参考视频，且在运动编码器前无需额外的运动估计模块，而是直接将当前待编码帧和参考特征送入运动编码器。

（4）时域上下文挖掘模块。

本发明实施例中，时域上下文挖掘模块主要负责结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息。如图2所示，时域上下文挖掘模块的输入是重建运动矢量和上一帧的重建特征（参考特征）/>，输出是多尺度时域上下文信息/>，，/>，此处提供的是三种尺度的时域上下文信息的示例，在实际应用中尺度数目可根据实际情况进行调整。

本发明实施例中，所述时域上下文挖掘模块包括：N个卷积模块、N个反卷积模块、以及N-1个下采样（双线性下采样）模块，其中，N为设定的正整数。

N个卷积模块依次连接，N个反卷积模块依次连接，N-1个下采样模块依次连接；第一个卷积模块与第N个反卷积模块连接，第2个卷积模块与第N-1个反卷积模块连接，依次类推，第N个卷积模块与第1个反卷积模块连接；第1个下采样模块与第2个卷积模块连接，第2个下采样模块与第3个卷积模块连接，依次类推，第N-1个下采样模块与第N个卷积模块连接；第1个下采样模块的输入为重建运动矢量，第1个卷积模块的输入为重建运动矢量与上一视频帧的重建特征，第1个反卷积模块的输入为第N个卷积模块的输出；

每一卷积模块包括依次设置的卷积层、残差连接块与扭曲操作层；第1个反卷积模块包括依次设置的卷积层与残差连接块，第2个至第N个反卷积模块包括依次设置的上采样层（亚像素上采样层）、残差连接块、卷积层与残差连接块；每一个反卷积模块均分别输出一个尺度的时域上下文信息，最终输出N尺度时域上下文信息。

示例性的，图4展示了N=3时的时域上下文挖掘模块的结构示例，虚线箭头表示特征相加操作，标记41指代卷积模块、标记42指代反卷积模块、标记43指代下采样模块。

（5）上下文编码器。

本发明实施例中，上下文编码器主要负责结合所述多尺度时域上下文信息将当前视频帧编码为上下文隐变量，再经过量化模块处理后获得量化后的上下文隐变量。如图2所示，上下文编码器的输入是当前视频帧和多尺度时域上下文信息/>，/>，/>，输出经过量化模块（图2中的模块Q）处理后得到是量化后的上下文隐变量/>。

（6）上下文熵模型。

本发明实施例中，在编码器部分中上下文熵模型主要负责结合多尺度时域上下文信息估计量化后的上下文隐变量的概率分布参数，结合估计的量化后的上下文隐变量/>的概率分布参数对量化后的上下文隐变量/>进行熵编码，获得视频码流。在解码器部分中，结合估计的量化后的上下文隐变量/>的概率分布参数对视频码流进行熵解码，获得量化后的上下文隐变量/>。此处的熵编码、熵解码可对应的通过算术编码器（AE）、算术解码器（AD）实现。

（7）上下文解码器。

本发明实施例中，上下文解码器主要负责对所述量化后的上下文隐变量进行解码，获得重建特征。如图2所示，上下文解码器的输入是量化后的上下文隐变量/>和多尺度时域上下文信息/>，/>，/>，输出是重建特征/>。

本发明实施例中，所述上下文编码器与上下文解码器（简称为上下文编解码器）采用自编码器结构。如图5所示，为上下文编解码器结构示例，其中，标记51指代卷积层，标记52指代残差连接块，标记53指代亚像素上采样层。需要说明的是，上下文编解码器的具体结构可以采用现有网络结构实现，也可以自行设计网络结构，本发明着重强调的是，上下文解码器直接输出的是重建特征。

（8）特征缓存器。

本发明实施例中，特征缓存器用于缓存当前视频帧的解码重建特征/>，作为下一视频帧/>编码的参考特征，以及提供给任务网络。

2、任务网络。

任务网络模块的输入是基于特征的视频编码回路的重建特征，输出是任务网络执行指定类型的任务处理结果。任务网络可以让用户根据需求，自由地选择完成人类和机器视觉任务。例如：（1）当用户需要获得重建视频时，任务网络为视频重建网络，输出是像素域的重建视频帧；（2）当用户需要进行视频去噪与视频超分辨率时，任务网络对应为视频去噪网络与视频超分辨率网络，通过视频处理，输出处理后的去噪视频与超分辨率视频；（3）当用户需要进行目标检测或动作识别时，任务网络为目标检测网络、动作识别网络，通过视频理解，输出目标检测结果、动作识别结果。

（1）视频重建网络。

视频重建网络的输入是当前视频帧的解码的重建特征/>，输出是像素域的重建视频帧/>。视频重建网络主要任务是将解码的重建特征/>变换为像素域的重建视频帧。图6展示了视频重建网络的结构示例，其中：标记61指代具有注意力机制的残差连接块，标记62指代最大池化层，标记63指代残差连接块，标记64指代亚像素上采样层，标记65指代卷积层。

（2）视频去噪网络与视频超分辨率网络。

视频去噪网络与视频超分辨率网络的输入是当前视频帧的解码的重建特征/>，输出是像素域的处理后的视频（即去噪视频与超分辨率视频）。图7展示了视频去噪网络和视频超分辨率网络结构示例，其中，标记71指代卷积层，标记72指代残差连接块、标记73指代亚像素上采样层。

需要说明的是，用户可以根据需求，自主选择需要进行的人类视觉任务，可以自主设计人类视觉任务的网络结构，本发明强调的是使用当前视频帧的解码的重建特征/>直接执行人类视觉任务。

（3）目标检测网络与动作识别网络。

目标检测网络与动作识别网络的输入是当前视频帧的解码的重建特征/>，输出是目标检测结果、动作识别结果。相关任务网络的功能是直接分析解码的重建特征/>，得到分析结果。图8展示了视频动作识别的示例，/>、/>、/>均为相应视频帧的重建特征，下标为视频帧的序号，s₁、s₂、s_K为识别出的动作，ResNet-50 with TSM这是一种做视频动作识别的方法，它是将TSM（Temporal Shift Module，时间位移模块）加入到ResNet-50（它是一种深度为 50 层的卷积神经网络）中。图9展示了视频目标检测的示例，/>与/>为相邻两个视频帧的重建特征，Faster-RCNN是一种图像目标检测的方法，SELAS（Sequence LevelSemantics Aggregation for Video Object Detection）是一种视频目标检测方法。

需要说明的是，用户可以根据需求，自主选择需要进行的机器视觉任务，可以自主设计机器视觉任务的网络结构，本发明强调的是使用当前视频帧的解码的重建特征/>直接做机器视觉任务，而无需先把/>变为像素域的重建视频，再做机器视觉任务。

二、网络训练。

前述整体框架中的基于特征的视频编码回路与任务网络都需要单独进行训练训练方式包括：

（1）获取训练数据。

本发明实施例中，可以从公开数据集中获取训练数据。

（2）利用所述训练数据单独训练基于特征的视频编码回路，基于特征的视频编码回路训练完毕后，获得各视频帧的重建特征。

本发明实施例中，训练基于特征的视频编码回路的方式可参照常规技术实现，例如，采用RDO（Rate Distortion Optimization，率失真）函数对基于特征的视频编码回路中的各个部分进行联合训练。

训练完毕后，固定基于特征的视频编码回路的参数，获得各视频帧的重建特征。

（3）利用各视频帧的重建特征单独训练任务网络。

本发明实施例中，训练任务网络时根据任务网络的具体形式采用相应的损失函数进行训练，具体可参照常规技术，本发明不做赘述。

训练完毕之后，可以结合基于特征的视频编码回路与任务网络执行相关的人类机器视觉任务或机器视觉任务。并且，当视觉任务发生改变时，只需要重新调整任务网络并采用上述步骤（3）的方式重新训练任务网络即可，无需重新训练基于特征的视频编码回路。

三、性能对比介绍。

为了更直观的体现本发明的性能，下面通过对比实验的方式进行进行说明。

1、面向人类视觉任务的对比实验。

（1）在面向视频重建任务时，相比于现在的视频编码方法，本发明取得了最好的编码性能。具体的，在帧内间距为12和32的条件下，在RGB（红绿蓝）颜色空间使用BD-rate（用于评价不同的视频编码方案的率失真性能）衡量编码增益，以H.266/VVC编码标准的参考软件VTM-13.2在单参考帧、无QP（量化参数）变化的配置下的性能（VTM-IPP）为基线，负值表示编码性能提升的百分比，正值表示编码性能下降的百分比，结果如表1、表2、表3、表4所示。表中：HM为H.265/HEVC编码标准的参考软件，配置为encoder_lowdelay_main_rext（HM的配置文件名称），x265为H.265/HEVC编码标准的商业软件，具有更快的编码速度，但是编码性能下降，配置为veryslow。HEVC Class B/C/D/E、以及MCL-JCV指的是可学习视频编码方案的通用测试视频，用于比较不同方案在这些测试视频上的编码性能；Ours为本发明，DVC-Pro、DCVC、CANF-VC、TCMVC均为现有的可学习视频编码方法的名称。

表1：帧内间距为12的条件下，相对于VTM-IPP的性能增益，重建视频和原始视频的差异用PSNR衡量

表2：帧内间距为12的条件下，相对于VTM-IPP的性能增益，重建视频和原始视频的差异用MS-SSIM衡量

表3：帧内间距为32的条件下，相对于VTM-IPP的性能增益，重建视频和原始视频的差异用PSNR衡量

表4：帧内间距为32的条件下，相对于VTM-IPP的性能增益，重建视频和原始视频的差异用MS-SSIM衡量

（2）在面向其他人类视觉任务时，此处以视频去噪和视频超分辨率为例。对于视频去噪，本发明在DAVIS数据集和Set8数据集上进行了测试。同时测试了20和40两个噪声等级，去噪视频和干净视频的差异用PNSR（峰值信噪比）衡量，实验结果如表5和表6所示，结果表明，相比于先获得像素域的重建视频，再做视频去噪，本发明直接使用解码的中间特征，可以取得相当的去噪性能，且减少了解码器的参数量和解码时间。对于视频超分辨率，本发明在REDS4数据集和Vid4数据集上进行了测试，超分变率后的视频和原始高分辨率的差异用PNSR衡量，实验结果如表7和表8所示，实验结果表明，相比于先获得像素域的重建视频，再做视频超分辨率，本发明直接使用解码的中间特征，可以取得相当的超分辨率性能，且减少了解码器的参数量和解码时间。表中的Ours（feature）就是本发明所提出方案。Ours（image）是先用本发明提出的基于特征的编码回路和视频重建网络得到像素域的重建视频，再做视频去噪和视频超分辨率。表中的/>对应4个不同的码率（码率反映了传输视频所需的码流大小）。

表中：Methods为方法，Params(M)为参数量，以M （百万）为单位，Runtime（s/frame）为运行时间，以s/frame（每帧多少秒）为单位。Dec+Task是解码和执行任务的时间；DVDNet、FastDVDnet与PaCnet均为现有的视频降噪方法的名称，TDAN、MuCAN与EDVR均为现有的视频超分辨率方法的名称。

表5：在DAVIS数据集上的视频去噪性能

表6：在Set8数据集上的视频去噪性能

表7：在REDS4数据集上的视频超分辨率性能

表8：在Vid4数据集上的视频超分辨率性能

2、在机器视觉任务时，本发明以视频动作识别和视频目标检测为例子。对于视频动作识别，本发明在UCF101数据集上进行了测试，准确率用top-1 accuracy(%)衡量，top-1accuracy(%)是指视频动作识别的排序结果中排名第1的动作（即top-1）为正确动作的准确率，结果如表9所示。结果表明，相比于先获得像素域的重建视频，再做视频动作识别，本发明直接使用解码的中间特征，可以取得相当的准确率，且减少了解码器的参数量和解码时间。对于视频目标检测，本发明在ImageNet VID数据集上进行了测试，准确率用AP@50(%)衡量，结果如表10所示，表中：I3D、Slowonly、C3D是现有的视频动作识别方法，DFF、FGFA、SELAS是现有的视频目标检测的方法名称。结果表明，相比于先获得像素域的重建视频，再做视频目标检测，本发明直接使用解码的中间特征，可以取得相当的准确率，且减少了解码器的参数量和解码时间。表中的Ours(feature)就是本发明所提出的方案。Ours（image）是先用本发明提出的基于特征的编码回路和视频重建网络得到像素域的重建视频，再做视频动作识别和视频目标检测。表中的对应4个不同的码率（码率反映了传输视频所需的码流大小）。

表9：在UCF101数据集上的视频动作识别性能

表10：在ImageNet VID数据集上的视频目标检测性能

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种系统，其主要用于实现前述实施例提供的方法，如图10所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图11所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种可学习通用视频编码方法，其特征在于，包括：

基于特征的视频编码部分：对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，并经过量化与熵编码获得运动码流，通过对所述运动码流进行熵解码与解码，获得重建运动矢量；结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息，并结合所述多尺度时域上下文信息对当前视频帧进行编码，并经过量化与熵编码获得视频码流，通过对所述视频码流进行熵解码与解码，获得当前视频帧的重建特征；缓存当前视频帧的重建特征，作为下一视频帧编码的参考特征，以及提供给任务网络；

任务处理部分：由任务网络利用输入的各视频帧的重建特征执行指定类型的任务处理；其中，指定类型的任务包括：人类视觉任务和机器视觉任务中的任一种或多种任务。

2.根据权利要求1所述的一种可学习通用视频编码方法，其特征在于，所述对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，并经过量化与熵编码获得运动码流，通过对所述运动码流进行熵解码与解码，获得重建运动矢量包括：

通过跨域运动编码器对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，获得运动隐变量；经量化模块处理后获得量化后的运动隐变量，再通过运动熵模型进行熵编码，获得运动码流；

通过运动熵模型对运动码流进行熵解码，获得量化后的运动隐变量，再通过跨域运动解码器进行解码，获得重建运动矢量；

其中，所述跨域运动编码器与跨域运动解码器采用自编码器结构。

3.根据权利要求2所述的一种可学习通用视频编码方法，其特征在于，

所述通过运动熵模型进行熵编码，获得运动码流包括：估计量化后的运动隐变量的概率分布参数，结合估计的量化后的运动隐变量的概率分布参数对量化后的运动隐变量进行熵编码，获得运动码流；

所述通过运动熵模型对运动码流进行熵解码，获得量化后的运动隐变量包括：结合估计的量化后的运动隐变量的概率分布参数对运动码流进行熵解码，获得量化后的运动隐变量。

4.根据权利要求1所述的一种可学习通用视频编码方法，其特征在于，结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息的过程通过时域上下文挖掘模块实现，所述时域上下文挖掘模块包括：N个卷积模块、N个反卷积模块、以及N-1个下采样模块，其中，N为设定的正整数；

每一卷积模块包括依次设置的卷积层、残差连接块与扭曲操作层；第1个反卷积模块包括依次设置的卷积层与残差连接块，第2个至第N个反卷积模块包括依次设置的上采样层、残差连接块、卷积层与残差连接块；每一个反卷积模块均分别输出一个尺度的时域上下文信息，最终输出N尺度时域上下文信息。

5.根据权利要求1所述的一种可学习通用视频编码方法，其特征在于，结合所述多尺度时域上下文信息对当前视频帧进行编码，并经过量化与熵编码获得视频码流，通过对所述视频码流进行熵解码与解码，获得当前视频帧的重建特征包括：

通过上下文编码器结合所述多尺度时域上下文信息对当前视频帧进行编码，获得上下文隐变量，经过量化模块处理后获得量化后的上下文隐变量；再通过上下文熵模型进行熵编码，获得视频码流；

通过上下文熵模型对视频码流进行熵解码，获得量化后的上下文隐变量，再通过上下文解码器对量化后的上下文隐变量进行解码，获得当前视频帧的重建特征；

其中，所述上下文编码器与上下文解码器采用自编码器结构。

6.根据权利要求5所述的一种可学习通用视频编码方法，其特征在于，

所述通过上下文熵模型进行熵编码，获得视频码流包括：结合多尺度时域上下文信息，估计量化后的上下文隐变量的概率分布参数，结合估计的量化后的上下文隐变量的概率分布参数对量化后的上下文隐变量进行熵编码，获得视频码流；

所述通过上下文熵模型对视频码流进行熵解码，获得量化后的上下文隐变量包括：结合估计的量化后的上下文隐变量的概率分布参数对运动码流进行熵解码，获得量化后的运动隐变量。

7.根据权利要求1所述的一种可学习通用视频编码方法，其特征在于，该方法还包括：通过基于特征的视频编码回路执行基于特征的视频编码部分，通过任务网络执行任务处理部分，并对基于特征的视频编码回路与指定类型的任务网络进行训练，训练方式包括：

获取训练数据，利用所述训练数据单独训练基于特征的视频编码回路，基于特征的视频编码回路训练完毕后，获得各视频帧的重建特征；

利用各视频帧的重建特征单独训练任务网络。

8.一种可学习通用视频编码系统，其特征在于，用于实现权利要求1~7任一项所述的方法，该系统包括：

基于特征的视频编码回路，用于执行基于特征的视频编码部分，包括：对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码，并经过量化与熵编码获得运动码流，通过对所述运动码流进行熵解码与解码，获得重建运动矢量；结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息，并结合所述多尺度时域上下文信息对当前视频帧进行编码，并经过量化与熵编码获得视频码流，通过对所述视频码流进行熵解码与解码，获得当前视频帧的重建特征；缓存当前视频帧的重建特征，作为下一视频帧编码的参考特征，以及提供给任务网络；

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。