CN109120935A

CN109120935A - 一种视频图像的编码方法和装置

Info

Publication number: CN109120935A
Application number: CN201811133818.5A
Authority: CN
Inventors: 贺禄元
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-01-01
Also published as: CN109120936A

Abstract

本申请提供了一种视频图像的编码方法和装置，涉及图像视频领域。所述方法包括：检测所述视频图像的兴趣区域；根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔；对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列；对所述保留帧序列进行编码，生成背景视频包。所述方法和装置，一方面可以降低视频中背景图像的帧率，减少对传输带宽的占用，另一方面有利于提高解码侧的插帧效率，缩短整体的解码时间。

Description

一种视频图像的编码方法和装置

技术领域

本申请涉及视频图像领域，尤其涉及一种视频图像的编码方法和装置。

背景技术

随着网络通信的发展，尤其是互联网通信的发展，视频电话和视频会议成为人们日常生活和工作的一部分，极大地丰富和便利了人们之间的信息交互。

在有限的网络带宽限制下，为了传输实时视频内容，人们一般通过对视频文件进行压缩，从而减少对带宽的占用。并且，人们发现视频文件中，变化较大的往往是包括人们头像的前景部分，而背景部分的变化往往较小。因此，一种可行的压缩方法是对背景部分通过丢帧处理降低编码帧率，从而可以在尽量不影响视频质量的情况下，缩小视频文件的尺寸。

但是，按照现有的丢帧处理方案，丢帧后的视频帧之间的时间间隔均匀，解码侧进行插帧处理时，需要较多的处理时间，不利于视频文件的实时播放，影响用户体验。

发明内容

本申请的目的是：提供一种视频图像的编码方法和装置，以解决上述问题中的至少一个。

为解决上述技术问题，第一方面，本申请提供了一种编码方法，所述方法包括：

检测所述视频图像的兴趣区域；

根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔；

对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，

如果两个相邻保留帧之间未被丢弃背景帧，则所述两个相邻保留帧之间的时间间隔保持为所述初始时间间隔；

对所述保留帧序列进行编码，生成背景视频包。

第二方面，本申请提供了一种编码装置，所述装置包括：

一检测模块，用于检测所述视频图像的兴趣区域；

一背景提取模块，用于根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔；

一丢帧模块，用于对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，

一背景编码模块，用于对所述保留帧序列进行编码，生成背景视频包。

第三方面，本申请提供了一种编码装置，所述装置包括：

一存储器，用于存储指令；

一处理器，用于执行所述存储器存储的指令，所述指令使得所述处理器执行以下操作：

检测所述视频图像的兴趣区域；

对所述保留帧序列进行编码，生成背景视频包。

第四方面，本申请提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序使计算机执行下述方法：

检测所述视频图像的兴趣区域；

对所述保留帧序列进行编码，生成背景视频包。

所述方法和装置通过提取视频图像中的背景帧，并对背景帧进行不均匀地丢帧处理，从而一方面可以降低视频中背景图像的帧率，减少对传输带宽的占用，另一方面有利于提高解码侧的插帧效率，缩短整体的解码时间。

附图说明

图1是本发明一个实施例中视频会议的应用场景示意图；

图2是本发明一个实施例中所述编码方法的流程图；

图3是本发明一个实施例中所述丢帧处理的示意图；

图4是本发明一个实施例中对视频图像进行编码的处理过程示意图；

图5是本发明一个实施例中所述编码方法的流程图；

图6是本发明一个实施例中所述解码方法的流程图；

图7是本发明另一个实施例所述解码方法的流程图；

图8是本发明另一个实施例所述解码方法的流程图；

图9是本发明另一个实施例所述解码方法的流程图；

图10是本发明一个实施例对视频文件进行解码处理的过程示意图；

图11是本发明一个实施例所述编码装置的模块结构示意图；

图12是本发明另一个实施例所述编码装置的模块结构示意图；

图13是本发明另一个实施例所述编码装置的模块结构示意图；

图14是本发明一个实施例所述解码装置的模块结构示意图；

图15是本发明一个实施例所述插帧模块的模块结构示意图；

图16是本发明一个实施例所述解码装置的模块结构示意图；

图17是本发明另一个实施例所述解码装置的模块结构示意图；

图18是本发明另一个实施例所述解码装置的模块结构示意图；

图19是本发明另一个实施例所述解码装置的模块结构示意图；

图20是本发明一个实施例所述编码装置的硬件结构示意图；

图21是本发明一个实施例所述解码装置的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员理解，在本发明的实施例中，下述各步骤的序号的大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，本发明中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

视频会议和视频电话是目前两种最主要的需要实时视频传输和播放的应用场景。简单起见，本申请主要以视频会议为例进行说明。

图1是视频会议的场景示意图。如在图1所示的视频会议中，至少包括参加会议的两方，即甲方110和乙方120。甲方110包括：用户甲111，互相连接的甲方显示设备112和甲方图像采集设备113。相应的，乙方120包括：用户乙121，互相连接的乙方显示设备122和乙方图像采集设备123。甲方显示设备112和乙方显示设备122通过网络130互相连接，以便将甲方图像采集设备113采集的图像发送给乙方显示设备122，以及将乙方图像采集设备123采集的图像发送给甲方显示设备112。简单起见，我们仅以将甲方图像采集设备113采集的图像发送给乙方显示设备122为例进行说明。也就是说，我们的关注重点为，甲方110为视频图像的采集侧，乙方120为视频图像的接收侧。

在视频会议过程中，视频会议的背景，比如用户甲111后方的白墙、会议室的陈设等，往往是固定不变的。即使有变化，也仅仅是偶尔的微小改变，比如偶尔有人进出会议室等。并且，一般而言，无论用户甲111的背景是否改变，其都不是视频会议另一方即用户乙121的关注重点。用户乙121关注的重点主要是用户甲111的身体所在的区域，比如用户甲111的面部表情、手部动作等。用户甲111的身体所在的区域也就是ROI(region ofinterest)区域，即兴趣区域。兴趣区域的图像一般被称为前景图像，兴趣区域之外的图像一般被称为背景图像。

对前景图像和背景图像采用相同的帧率进行编码，显然是没有必要的。而通过合理地降低背景图像的编码帧率，则可以在保证图像质量的情况下，显著降低视频图像的整体大小。从而，可以减少对带宽的占用。

因此，本发明提供一种视频图像的编码方法，如图2所示，所述方法包括：

S220：检测所述视频图像的兴趣区域；

S240：根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔；

S260：对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，

S280：对所述保留帧序列进行编码，生成背景视频包。

所述方法通过提取视频图像中的背景帧，并对背景帧进行不均匀地丢帧处理，从而一方面可以降低视频中背景图像的帧率，减少对传输带宽的占用，另一方面有利于提高解码侧的插帧效率，缩短整体的解码时间。

以下将结合附图和具体实施方式详细说明所述方法每个步骤的功能。

S220：检测所述视频图像的兴趣区域。

如前文所述，所述兴趣区域即ROI区域，是视频内容的接收方所感兴趣的区域。一般地，一段视频图像中的兴趣区域是图像中部的人像所在区域。当然，某些情况下，所述兴趣区域也可能是图像中被展示的一个物体或者文件等。

该步骤中，可以结合视频的主题内容，进而通过图像识别技术检测所述兴趣区域。比如，仍以视频会议为例，可以通过检测图像中的人物以确定所述兴趣区域。以图1为例，对于乙方120而言，用户甲111的图像区域就是所述视频图像的兴趣区域。这种情况下，可以以用户甲111的身体轮廓所包围的区域作为所述兴趣区域。

在一种实施方式中，也可从用户甲111的身体轮廓线向外延伸预定距离(比如5个像素)对应的区域作为所述兴趣区域，这样做的好处是，解码侧便于将分别接收到的兴趣区域的图像和背景图像进行融合。

当然，在另一实施方式中，并不一定以用户的全身像对应的区域作为兴趣区域，还可能只是以用户的头像或者上身像对应的区域作为兴趣区域，这些均可以根据实际应用场景而确定。

在一个实施方式中，所述方法还包括：

S231：根据所述检测结果从所述视频图像中提取前景帧并生成前景帧序列；

S232：对所述前景帧进行编码，生成前景视频包。

如前文所述，所述步骤S220中通过检测确定的所述兴趣区域是用户所感兴趣的区域，同时也往往是变化较多、较大的区域，因此，在本发明方案中，要与背景区域分离编码。因此，在该实施方式中，可以将所述兴趣区域的图像内容作为所述前景帧的内容。也就是说，对所述视频图像的每一帧分别提取兴趣区域，并生成对应的前景帧。然后对这些前景帧进行编码，得到对应前景图像的前景视频包。

S240：根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔。

在一种实施方式中，可以将每一帧视频图像中除去上述兴趣区域或前景帧之外的区域直接提取以作为所述背景帧的图像，进而得到整段视频的背景帧序列。

在另一种实施方式中，所述前景帧和相应的背景帧之间会有一部分图像重合，也就是说，在所述前景帧和对应的背景帧结合的区域，两者的图像会少量重合。如前文所述，虽然人像区域是兴趣区域，但是我们可能会从人物轮廓线向外延伸预定距离，并将延伸后对应的区域作为最终的兴趣区域或者前景帧的图像内容。类似的，当生成背景帧时，可以只是从最初的视频图像中去除人物轮廓线所包围的区域，将剩余的图像区域作为背景帧的图像内容。这样，从人物轮廓线向外延伸预定距离对应的区域就同时出现在前景帧和背景帧上。通过这种处理，可以便于解码侧对前景帧和背景帧的融合，避免出现图像失真或变形。

S260：对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，如果两个相邻保留帧之间未被丢弃背景帧，则所述两个相邻保留帧之间的时间间隔保持为所述初始时间间隔。

现有技术中，当对视频图像进行压缩编码时，也经常会对视频帧进行丢帧处理。但是，现有的丢帧处理，处理后的视频帧序列中，相邻视频帧之间的时间间隔是相同的。换句话说，当被丢弃的视频帧从原有视频帧序列中被移除后，剩余的视频帧序列中的视频帧的时间间隔被调整，以保证每两帧之间的时间间隔相同。解码侧面对这种被压缩的视频内容时，必须借助辅助信息才能确定要插帧的位置，并且插帧后，需要重新调整视频帧之间的时间间隔，从而使待播放的视频帧序列中相邻视频帧的时间间隔再次相等。这无疑增加了解码侧的运算量和处理时间。

图3是本申请一个实施例所述丢帧处理的示意图。如图3所示，初始的背景帧序列包括沿时间轴排列的16个背景帧301～316。在丢帧处理过程中，每隔两帧丢弃1帧，从而编号为303、306、309、312和315的背景帧被丢弃，得到的保留帧序列包括编号为301、302、304、305、307、308、310、311、313、314、316的背景帧(或保留帧)。假设初始的背景帧之间的时间间隔是10ms，也就是背景帧301～316中相邻两帧之间的时间间隔均为10ms，也就是所述初始时间间隔是10ms。

丢帧处理后，保留帧301和302之间的没有被丢弃背景帧，从而该两帧之间的时间间隔保持为10ms。保留帧302和304之间被丢弃了1个背景帧，从而该两帧之间的时间间隔为20ms，也就是所述初始时间间隔的2倍。类似的，保留帧304和305之间的时间间隔，保留帧307和308之间的时间间隔，保留帧310和311之间的时间间隔、保留帧313和314之间的时间间隔，均保持为10ms。同时，保留帧305和307之间的时间间隔，保留帧308和310之间的时间间隔，保留帧311和313之间的时间间隔，保留帧314和316之间的时间间隔，都是20ms。

可以看到，经过本发明的丢帧处理后的保留帧序列中相邻保留帧之间的时间间隔是不均匀的，以图3为例，有的间隔10ms，有的间隔20ms。本领域技术人员理解，如果图3中每隔两帧丢弃更多帧，则丢弃帧两侧的两个保留帧之间的时间间隔会更长，比如每隔两帧丢弃2帧，则时间间隔为初始时间间隔的3倍，即30ms。

采用本发明的丢帧处理方式，由于丢帧后不调整保留帧之间的时间间隔，显然也减少了编码侧的整体处理时间。

S280：对所述保留帧序列进行编码，生成背景视频包。

如前文所述，所述保留帧序列是所述背景帧序列丢帧处理后的结果，其中的多个保留帧是需要被编码的帧，以便被传输或存储。换句话说，所述背景视频包就是对所述保留帧序列进行编码的结果，该背景视频包可以被传输或存储。

在一个实施方式中，所述方法还包括：

S300：发送所述前景视频包、所述背景视频包和一辅助信息，所述辅助信息至少包括所述前景帧在所述背景帧中的位置信息。

本实施方式中，对所述视频图像的处理过程大致如图4所示。初始的视频图像，经过兴趣区域检测后，分别得到背景帧序列和前景帧序列，以及所述辅助信息。所述前景帧序列和所述辅助信息分别编码得到两个数据包，即所述前景视频包和辅助信息包。所述背景帧序列经过丢帧处理后，得到保留帧序列，对所述保留帧序列进行编码得到所述背景视频包。对上述三个数据包进行整合处理，可以得到一个综合数据包。然后可以将所述综合数据包发送给接收方。

当然，本领域技术人员理解，对所述三个数据包的整合处理是可选的。显然，也可以直接对上述三个数据包分别进行发送。另外，在一些应用中，发送也不是必须的，可以直接对上述三个数据包进行存储。

在一个实施方式中，所述辅助信息还包括一丢帧信息，所述丢帧信息包括丢帧率和/或被丢弃的背景帧的位置信息。解码侧装置根据所述丢帧信息，可以更加快捷地对接收到的保留帧序列进行插帧处理，以便恢复得到所述背景帧序列。

当然，本领域技术人员理解，所述丢帧信息并不是必须的。所述解码侧装置可以通过对接收到的保留帧序列进行分析处理，也能够确定所述丢帧率，以及确定被丢弃的背景帧的位置信息。但是，显然这种处理方式会增加解码侧装置的处理时间。

在一个实施方式中，所述辅助信息还包括一指示信息，用于指示一解码器类型。

本申请中，解码侧的解码器基于深度学习模型对所述保留帧序列进行插帧处理，以恢复得到所述背景帧序列。所述深度学习模型的处理效率和训练数据相关。具体来说，训练视频帧的帧率如果比较高，则训练得到的解码器处理较高帧率的保留帧序列的效率就比较高；反之，训练视频帧的帧率如果比较低，则训练得到的解码器处理较低帧率的保留帧序列的效率就比较高。

在本实施方式中，所述指示信息可以基于保留帧序列的帧率指示推荐的解码器类型。比如，可以基于训练视频帧的帧率将解码器划分为高帧率解码器、中帧率解码器和低帧率解码器三种类型。每种解码器对应一个帧率区间。所述指示信息基于保留帧的帧率，确定对应的帧率区间，进而指示相应的解码器类型。

如前文所述，正是因为视频图像中背景图像的变化较小，所以可以通过对背景图像进行丢帧处理，以对视频图像进行压缩。如图5所示，在一个实施方式中，所述方法还包括：

S250：根据所述视频图像中背景图像的移动速度确定一丢帧率。

具体而言，所述背景图像移动速度越高，则所述丢帧率越低；反之，如果所述背景图像的移动速度越低，则所述丢帧率越高。比如，可以选择所述背景图像上一个固定物体作为参考点，然后检测所述背景图像上的其他运动区域和该参考点的相对速度作为所述背景图像的移动速度。当存在多个运动区域时，可以分别计算多个运动区域与所述参考点的相对速度，显然取平均值或者最大值作为所述背景图像的移动速度。一般地，可以选择墙壁作为所述参考点，当比如有人物从墙壁边走过时，可以计算人物和墙壁的相对速度作为所述背景图像的移动速度。

在一个实施方式中，可以设置一个背景图像的移动速度和丢帧率的对应表，比如可以如下面表1所示，从而可以通过比如查表的方式根据所述背景图像的移动速度确定所述丢帧率。表1中的数据只是一种示例数据，本领域技术人员可以根据实际应用进行调整。

表1

移动速度V(米/秒)	丢帧率R
		V≥1	1/10
1＞V≥0.5	1/5
		0.5＞V≥0.1	1/3
0.1＞V	1/2

本实施方式中，所述对所述背景帧序列进行丢帧处理进一步包括：

根据所述丢帧率对所述背景帧序列进行丢帧处理。

所述丢帧率也就是被丢弃的帧占总帧数的比例，假设所述丢帧率是1/3，则表示平均每3帧中丢1帧，或者说每隔两帧丢弃1帧。

本领域技术人员理解，一段较长的时间内，所述背景图像的移动速度也可能改变。比如，在会议临近开始时，参会人员陆续进入会议室，所述背景图像的移动速度相对较大；而当会议开始后，参会人员都已经落座，则背景图像的移动速度会相对较小；会议结束后，参会人员离场，背景图像的移动速度又相对较大。

因此，如图5所示，在一个实施方式中，所述方法还包括：

S290：根据所述背景图像的移动速度的改变，调整所述丢帧率。

在一个实施方式中，可以每隔预定时间(比如1分钟)检测一次所述背景图像的移动速度，并根据检测结果调整所述丢帧率，然后返回所述步骤S260，按照调整后的丢帧率对后续的背景帧序列进行相应的丢帧处理。

在另一个实施方式中，也是每隔预定时间检测一次所述背景图像的移动速度，并将最新的检测结果和之前的检测结果进行比较，如果差值超个一个阈值，则调整所述丢帧率，并基于新的丢帧率返回所述步骤S260，对后续的背景帧进行相应的丢帧处理；如果所述差值没有超过所述阈值，则不做调整，基于之前的丢帧率进行丢帧处理。

本申请还提供一种对应上述编码方法的解码方法。如图6所示，所述方法包括：

S620：从一视频文件中提取背景视频包；

S640：对所述背景视频包进行解码处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间曾被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是初始时间间隔的N倍，N为整数，且N大于或等于2，

如果两个相邻保留帧之间未曾被丢弃背景帧，则所述两个相邻保留帧之间的时间间隔保持为所述初始时间间隔，

所述初始时间间隔是对所述视频图像进行采集时相邻视频帧之间的时间间隔；

S660：基于深度学习在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理，得到包括多个背景帧的背景帧序列。

该解码方法，由于采用的保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，插帧后得到的背景帧序列无需特别地调整帧间距，从而可以减少插帧处理的时间，提高解码效率。

S620：从一视频文件中提取背景视频包。

所述视频文件可以是通过网络通信接收到的视频流文件，也可以是存储在一固定位置的视频文件。所述方法可以根据所述视频文件中的标记信息提取其中的背景视频包。

S640：对所述背景视频包进行解码处理，得到包括多个保留帧的保留帧序列。

本申请中所述保留帧序列由于采用了前述编码方法中的丢帧处理，所以所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，如果两个相邻保留帧之间未被丢弃背景帧，则所述两个相邻保留帧之间的时间间隔保持为所述初始时间间隔。

所述插帧处理，一般都是基于被插帧位置周围的帧生成预测帧，然后将预测帧插入到被插帧位置。

相比传统的基于运动补偿的方式进行插帧处理，本申请中，通过深度学习模型，可以根据输入的保留帧序列，更加快捷地得到背景帧序列。所述深度学习模型需要预先进行训练，比如通过一些已知被丢弃的帧的保留帧对相应的深度学习模型进行训练。该步骤中采用已经训练好的深度学习模型对所述保留帧序列进行插帧处理，得到所述背景帧序列。

具体的，在一个实施方式中，所述步骤S660可以包括：

S661：基于预定的深度学习模型，根据两个相邻的第一保留帧和第二保留帧，生成预测帧；

S662：将所述预测帧插入到所述第一保留帧和所述第二保留帧之间。

所述视频文件中除了包括所述背景视频包，一般还包括相应的前景视频包。在一个实施方式中，如图7所示，所述方法还包括：

S631：从所述视频文件中提取前景视频包；

S632：对所述前景视频包进行解码处理，得到包括多个前景帧的前景帧序列。

该实施方式中，对所述前景视频包的解码处理，可以采用现有的解码处理方法。

在一个实施方式中，如图8所示，所述方法还可以包括：

S633：从所述视频文件中提取一辅助信息，所述辅助信息至少包括所述前景帧在所述背景帧中的位置信息；以及

S670：根据所述辅助信息对所述前景帧序列和所述背景帧序列进行融合处理，得到视频帧序列。

本领域技术人员理解，所述步骤S620、S631和S632并不一定要分别执行，可以同时一次同时完成。

所述位置信息比如可以是所述前景帧上每个像素或部分像素在所述背景帧上的坐标位置，从而根据所述坐标位置可以快捷地的将相应的前景帧和背景帧进行融合，得到完整的视频帧。

本领域技术人员理解，所述位置信息并不必须从所述视频文件中获取，所述方法也可以通过对所述前景帧和背景帧进行图像分析，根据分析结果确定所述位置信息。

在一个实施方式中，所述辅助信息还包括一丢帧信息，所述丢帧信息包括丢帧率和/或被丢弃的背景帧的位置信息。

所述丢帧信息有利于所述深度学习模型对所述保留帧序列进行插帧处理，因此，所述步骤S660中，可以基于深度学习和上述丢帧信息在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理。

但是，本领域技术人员理解，所述丢帧信息并不必须通过从所述视频文件中提取获得，所述方法显然也可以通过对所述保留帧序列中不同的相邻保留帧之间的时间间隔进行分析确定所述丢帧信息。比如，可以首先通过比较不同的相邻保留帧之间的时间间隔确定所述初始时间间隔；然后找出时间间隔大于所述初始时间间隔的相邻保留帧，作为目标相邻保留帧；进而根据目标保留帧之间的时间间隔和初始时间间隔之间的倍数关系可以确定所述丢帧信息。

在一个实施方式中，如图9所示，所述辅助信息还包括一指示信息，所述方法还包括：

S650：根据所述指示信息从多个备选深度学习模型中选择一目标深度学习模型。

所述基于深度学习在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理进一步包括：

S660’：基于所述目标深度学习模型在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理。

如前文所述，用于解码的深度学习模型的处理效率和训练数据相关。具体来说，训练视频帧的帧率如果比较高，则训练得到的解码器处理较高帧率的保留帧序列的效率就比较高；反之，训练视频帧的帧率如果比较低，则训练得到的解码器处理较低帧率的保留帧序列的效率就比较高。

本实施方式中，所述多个备选深度学习模型分别对应不同帧率的保留帧序列。所述指示信息基于保留帧序列的帧率指示目标深度学习模型，从而可以进一步提高解码效率。

图10是本申请一个实施例中所述解码方法的处理过程示意图，如图10所示，首先从视频文件中提取3个数据包，分别进行解码，得到保留帧序列、前景帧序列和辅助信息。然后基于深度学习对保留帧序列进行插帧处理，生成背景帧序列。最后利于辅助信息，对背景帧序列和前景帧序列进行融合处理，生成可供播放的视频帧序列。

图11是本申请一个实施方式中一种视频图像的编码装置的模块结构示意图。如图11所示，所示编码装置1100包括：

一检测模块1120，用于检测所述视频图像的兴趣区域；

一背景提取模块1140，用于根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔；

一丢帧模块1160，用于对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，

一背景编码模块1180，用于对所述保留帧序列进行编码，生成背景视频包。

以下结合附图详细说明所示编码装置1100的各个模块的功能。

所示检测模块1120，用于检测所述视频图像的兴趣区域。

所述兴趣区域即ROI区域，是视频内容的接收方所感兴趣的区域。一般地，一段视频图像中的兴趣区域是图像中部的人像所在区域。当然，某些情况下，所述兴趣区域也可能是图像中被展示的一个物体或者文件等。

该模块中，可以结合视频的主题内容，进而通过图像识别技术检测所述兴趣区域。比如，仍以视频会议为例，可以通过检测图像中的人物以确定所述兴趣区域。以图1为例，对于乙方120而言，用户甲111的图像区域就是所述视频图像的兴趣区域。这种情况下，可以以用户甲111的身体轮廓所包围的区域作为所述兴趣区域。

如图12所示，在一个实施方式中，所述装置1100还包括：

一前景提取模块1131，用于根据所述检测结果从所述视频图像中提取前景帧并生成前景帧序列；

一前景编码模块1132，用于对所述前景帧进行编码，生成前景视频包。

如前文所述，所述检测模块1120中通过检测确定的所述兴趣区域是用户所感兴趣的区域，同时也往往是变化较多、较大的区域，因此，在本发明方案中，要与背景区域分离编码。因此，在该实施方式中，可以将所述兴趣区域的图像内容作为所述前景帧的内容。也就是说，对所述视频图像的每一帧分别提取兴趣区域，并生成对应的前景帧。然后对这些前景帧进行编码，得到对应前景图像的前景视频包。

所示背景提取模块1140，用于根据检测结果从所述视频图像中提取背景帧并生成背景帧序列，所述背景帧序列的相邻背景帧之间具有初始时间间隔。

在一种实施方式中，可以将每一帧视频图像中除去上述兴趣区域或前景帧之外的区域直接提前以作为所述背景帧的图像，进而得到整段视频的背景帧序列。

在另一种实施方式中，所述前景帧和相应的背景帧之间会有一部分图像重合，也就是说，在所述前景帧和对应的背景帧结合的区域，两者的图像会少量重合。如前文所述，虽然人像区域是兴趣区域，但是我们可能会从人物轮廓线向外延伸预定距离，并将延伸后对应的区域作为最终的兴趣区域或者前景帧的图像内容。类似的，当生成背景帧时，可以只是从最初的视频图像中去除人物轮廓线所包围的区域，将剩余的图像区域作为背景帧的图像内容。这样，从人物轮廓线向外延伸预定距离对应的区域就好同时出现在前景帧和背景帧上。通过这种处理，可以便于解码侧对前景帧和背景帧的融合，避免出现图像失真或变形。

所示丢帧模块1160，用于对所述背景帧序列进行丢帧处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是所述初始时间间隔的N倍，N为整数，且N大于或等于2，如果两个相邻保留帧之间未被丢弃背景帧，则所述两个相邻保留帧之间的时间间隔保持为所述初始时间间隔。

图3是本申请一个实施例所述丢帧处理的示意图。如图3所示，初始的背景帧序列包括沿时间轴排列的16个背景帧301～316。在丢帧处理过程中，每隔两帧丢弃1帧，从而编号为303、306、309、312和315的背景帧被丢弃，得到的保留帧序列包括编号为301、302、304、305、307、308、310、311、313、314、316的背景帧(或保留帧)。假设初始的背景帧之间的时间间隔是10ms，也就是背景帧301～316中相邻两帧之间的时间间隔均为10ms，也就是所述初始时间间隔。

可以看到，经过本发明的丢帧处理后的保留帧序列中相邻保留帧之间的时间间隔是不均匀的，以图3为例，有的间隔10ms，有的间隔20ms。本领域技术人员理解，如果图3中每隔两帧丢弃更多帧，则丢弃帧两次的两个保留帧之间的时间间隔会更长，比如每隔两帧丢弃2帧，则时间间隔为初始时间间隔的3倍，即30ms。

所示背景编码模块1180，用于对所述保留帧序列进行编码，生成背景视频包。

如图12所示，在一个实施方式中，所述装置1100还包括：

一发送模块1190，用于发送所述前景视频包、所述背景视频包和一辅助信息，所述辅助信息至少包括所述前景帧在所述背景帧中的位置信息。

本实施方式中，对所述视频图像的处理过程大致如图4所示。初始的视频图像，经过兴趣区域检测后，分别得到背景帧序列和前景帧序列，以及所述辅助信息。所述前景帧序列和所述辅助信息分别编码得到生成两个数据包，即所述前景视频包和辅助信息包。所述背景帧序列经过丢帧处理后，得到保留帧序列，对所述保留帧序列进行编码得到所述背景视频包。对上述三个数据包进行整合处理，可以得到一个综合数据包。然后可以将所述综合数据包发送给接收方。

当然，本领域技术人员理解，对所述三个数据包的整合处理是可选的。显然，也可以直接对上述三个数据包分别进行发送。

如前文所述，正是因为视频图像中背景图像的变化较小，所以可以通过对背景图像进行丢帧处理，以对视频图像进行压缩。在一个实施方式中，如图13所示，所述装置1100还包括：

一确定模块1150，用于根据所述视频图像中背景图像的移动速度确定一丢帧率；

所述丢帧模块1160，用于根据所述丢帧率对所述背景帧序列进行丢帧处理。

在一个实施方式中，可以设置一个背景图像的移动速度和丢帧率的对应表，比如可以如下面表1所示，从而可以通过比如查表的方式根据所述背景图像的移动速度确定所述丢帧率。

因此，如图13所示，在一个实施方式中，所述装置1100还包括：

一调整模块1170，用于根据所述背景图像的移动速度的改变，调整所述丢帧率。

在一个实施方式中，可以每隔预定时间(比如1分钟)检测一次所述背景图像的移动速度，并根据检测结果调整所述丢帧率，然后所述丢帧模块1160按照调整后的丢帧率对后续的背景帧序列进行相应的丢帧处理。

在另一个实施方式中，也是每隔预定时间检测一次所述背景图像的移动速度，并将最新的检测结果和之前的检测结果进行比较，如果差值超个一个阈值，则调整所述丢帧率，并基于新的丢帧率对后续的背景帧进行相应的丢帧处理；如果所述差值没有超过所述阈值，则不做调整，基于之前的丢帧率进行丢帧处理。

图14是本申请一个实施方式中提供的一种对应上述编码装置1100的解码装置1400的模块结构示意图。如图14所示，所示解码装置1400包括：

一背景提取模块1420，用于从一视频文件中提取背景视频包；

一背景解码模块1440，用于对所述背景视频包进行解码处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间曾被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是初始时间间隔的N倍，N为整数，且N大于或等于2，

一插帧模块1460，用于基于深度学习在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理，得到包括多个背景帧的背景帧序列。

以下结合附图和具体实施方式详细各个模块的功能。

所述背景提取模块1420，用于从一视频文件中提取背景视频包。

所述背景解码模块1440，用于对所述背景视频包进行解码处理，得到包括多个保留帧的保留帧序列。

所述插帧模块1460，用于基于深度学习在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理，得到包括多个背景帧的背景帧序列。

相比传统的基于运动补偿的方式进行插帧处理。本申请中，通过深度学习模型，可以根据输入的保留帧序列，更加快捷地得到背景帧序列。所述深度学习模型需要预先进行训练，比如通过一些已知被丢弃的帧的保留帧对相应的深度学习模型进行训练。该步骤中采用已经训练好的深度学习模型对所述保留帧序列进行插帧处理，得到所述背景帧序列。

参见图15，在一个实施方式中，所述插帧模块1460包括：

一预测单元1462，用于基于预定的深度学习模型，根据两个相邻的第一保留帧和第二保留帧，生成预测帧；

一插帧单元1464，用于将所述预测帧插入到所述第一保留帧和所述第二保留帧之间。

所述视频文件中除了包括所述背景视频包，一般还包括相应的前景视频包。在一个实施方式中，参见图16所述装置1400还包括：

一前景提取模块1431，用于从所述视频文件中提取前景视频包；

一前景解码模块1432，用于对所述前景视频包进行解码处理，得到包括多个前景帧的前景帧序列。

在一个实施方式中，参见图17,所述装置1400还包括：

一信息提取模块1433，用于从所述视频文件中提取一辅助信息，所述辅助信息至少包括所述前景帧在所述背景帧中的位置信息；

一融合模块1470，用于根据所述辅助信息对所述前景帧序列和所述背景帧序列进行融合处理，得到视频帧序列。

本领域技术人员理解，所述背景提取模块1420、前景提取模块1431和信息提取模块1433可以集成设置。

本领域技术人员理解，所述位置信息并不必须从所述视频文件中获取，也可以通过对前景帧和背景帧进行图像识别而确定。

所述丢帧信息有利于所述深度学习模型对所述保留帧序列进行插帧处理，因此，可以基于深度学习和上述丢帧信息在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理。

但是，本领域技术人员理解，所述丢帧信息并不必须通过从所述视频文件中提取获得，显然也可以通过对所述保留帧序列中不同的相邻保留帧之间的时间间隔进行分析确定所述丢帧信息。

在一个实施方式中，参见图18，所述装置1400可以包括：

一丢帧确定模块1434，用于根据所述保留帧序列中不同的相邻保留帧之间的时间间隔确定丢帧率和/或被丢弃的背景帧的位置信息。

比如，可以首先通过比较不同的相邻保留帧之间的时间间隔确定所述初始时间间隔；然后找出时间间隔大于所述初始时间间隔的相邻保留帧，作为目标相邻保留帧；进而根据目标保留帧之间的时间间隔和初始时间间隔之间的倍数关系可以确定所述丢帧信息。

参见图19，在一个实施方式中，所述辅助信息还包括一指示信息，所述装置1400还包括：

一选择模块1450，用于根据所述指示信息从多个备选深度学习模型中选择一目标深度学习模型；

所述插帧模块1460，用于基于所述目标深度学习模型在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理。

本发明实施例所述编码装置的一种结构如图20所示。本发明具体实施例并不对所述编码装置的具体实现做限定，参见图20，所述装置2000可以包括：

处理器(processor)2010、通信接口(Communications Interface)2020、存储器(memory)2030，以及通信总线2040。其中：

处理器2010、通信接口2020，以及存储器2030通过通信总线2040完成相互间的通信。

通信接口2020，用于与其他网元通信。

处理器2010，用于执行程序2032，具体可以执行上述图2所示的方法实施例中的相关步骤。

具体地，程序2032可以包括程序代码，所述程序代码包括计算机操作指令。

处理器2010可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器2030，用于存放程序2032。存储器2030可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序2032具体可以执行以下步骤：

检测所述视频图像的兴趣区域；

对所述保留帧序列进行编码，生成背景视频包。

程序2032中各步骤的具体实现可以参见上述实施例中的相应步骤或模块，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本发明实施例所述编码装置的一种结构如图21所示。本发明具体实施例并不对所述编码装置的具体实现做限定，参见图21，所述装置2100可以包括：

处理器(processor)2110、通信接口(Communications Interface)2120、存储器(memory)2130，以及通信总线2140。其中：

处理器2110、通信接口2120，以及存储器2130通过通信总线2140完成相互间的通信。

通信接口2120，用于与其他网元通信。

处理器2110，用于执行程序2132，具体可以执行上述图6所示的方法实施例中的相关步骤。

具体地，程序2132可以包括程序代码，所述程序代码包括计算机操作指令。

处理器2110可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器2130，用于存放程序2132。存储器2130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序2132具体可以执行以下步骤：

从一视频文件中提取背景视频包；

对所述背景视频包进行解码处理，得到包括多个保留帧的保留帧序列，所述保留帧序列中不同的相邻保留帧之间的时间间隔不均匀，并且如果两个相邻保留帧之间曾被丢弃至少一个背景帧，则所述两个相邻保留帧之间的时间间隔是初始时间间隔的N倍，N为整数，且N大于或等于2，

基于深度学习在所述保留帧序列中曾被丢弃背景帧的位置处进行插帧处理，得到包括多个背景帧的背景帧序列。

程序2132中各步骤的具体实现可以参见上述实施例中的相应步骤或模块，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，控制器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种视频图像的编码方法，其特征在于，所述方法包括：

检测所述视频图像的兴趣区域；

对所述保留帧序列进行编码，生成背景视频包。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述检测结果从所述视频图像中提取前景帧并生成前景帧序列；

对所述前景帧进行编码，生成前景视频包。

3.如权利要求2所述的方法，其特征在于，所述前景帧中包括所述兴趣区域。

4.如权利要求2所述的方法，其特征在于，所述方法还包括：

发送所述前景视频包、所述背景视频包和一辅助信息，所述辅助信息至少包括所述前景帧在所述背景帧中的位置信息。

5.如权利要求4所述的方法，其特征在于，所述辅助信息还包括一丢帧信息，所述丢帧信息包括丢帧率和/或被丢弃的背景帧的位置信息。

6.如权利要求4所述的方法，其特征在于，所述辅助信息还包括一指示信息，用于指示一解码器类型。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述视频图像中背景图像的移动速度确定一丢帧率；

所述对所述背景帧序列进行丢帧处理进一步包括：

根据所述丢帧率对所述背景帧序列进行丢帧处理。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述背景图像的移动速度的改变，调整所述丢帧率。

9.一种视频图像的编码装置，其特征在于，所述装置包括：

一检测模块，用于检测所述视频图像的兴趣区域；

10.如权利要求9所述的装置，其特征在于，所述装置还包括：

一前景提取模块，用于根据所述检测结果从所述视频图像中提取前景帧并生成前景帧序列；

一前景编码模块，用于对所述前景帧进行编码，生成前景视频包。

11.如权利要求10所述的装置，其特征在于，所述前景帧中包括所述兴趣区域。

12.如权利要求10所述的装置，其特征在于，所述装置还包括：

一发送模块，用于发送所述前景视频包、所述背景视频包和一辅助信息，所述辅助信息至少包括所述前景帧在所述背景帧中的位置信息。

13.如权利要求12所述的装置，其特征在于，所述辅助信息还包括一丢帧信息，所述丢帧信息包括丢帧率和/或被丢弃的背景帧的位置信息。

14.如权利要求12所述的装置，其特征在于，所述辅助信息还包括一指示信息，用于指示一解码器类型。

15.如权利要求9所述的装置，其特征在于，所述装置还包括：

一确定模块，用于根据所述视频图像中背景图像的移动速度确定一丢帧率；

所述丢帧模块，用于根据所述丢帧率对所述背景帧序列进行丢帧处理。

16.如权利要求15所述的装置，其特征在于，所述装置还包括：

一调整模块，用于根据所述背景图像的移动速度的改变，调整所述丢帧率。

17.一种视频图像的编码装置，其特征在于，所述装置包括：

一存储器，用于存储指令；

检测所述视频图像的兴趣区域；

对所述保留帧序列进行编码，生成背景视频包。

18.一种计算机可读存储介质，其存储有计算机程序，其特征在于，所述计算机程序使计算机执行下述方法：

检测所述视频图像的兴趣区域；

对所述保留帧序列进行编码，生成背景视频包。