CN112672151A

CN112672151A - 视频处理方法、装置、服务器及存储介质

Info

Publication number: CN112672151A
Application number: CN202011433544.9A
Authority: CN
Inventors: 黄博
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-16
Anticipated expiration: 2040-12-09
Also published as: CN112672151B

Abstract

本公开关于一种视频处理方法、装置、服务器及存储介质。其中，该视频处理方法包括：获取待处理视频；在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。采用本公开提供的视频处理方法、装置、服务器及存储介质，能够解决编码后的视频的显示效果较差的问题。

Description

视频处理方法、装置、服务器及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种视频处理方法、装置、服务器及存储介质。

背景技术

随着技术的发展和人们对视频质量要求的不断提高，视频编码技术成为业界关注的焦点。所谓视频编码技术，是指通过压缩技术，将原始视频格式的文件转换成另一种视频格式文件的方式。

目前，在相关的技术中，现有的视频编码方案，在实现视频占用更小存储空间和更快传输速度时，有时会导致视频的画质较差，进而导致视频的显示效果较差。

发明内容

本公开提供一种视频处理方法、装置、服务器及存储介质，以至少解决相关技术中编码后的视频的显示效果较差的问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：

获取待处理视频；

在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；

对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

可选地，确定与预定音频信号特征对应的目标视频帧，包括：

识别待处理视频中包括预定音频信号特征的声事件，预定音频信号特征区别于与声事件相邻的第一视频帧对应的音频信号特征；

将声事件对应的至少一个视频帧确定为目标视频帧。

确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域；

将包括目标发声对象所在区域的视频帧确定为目标视频帧。

可选地，确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域，包括：

利用预定识别模型识别待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象；

确定目标发声对象在每个视频帧中所在的区域；其中，预定识别模型包括下述项中的任意一项：人物识别模型、动物识别模型、发声物体识别模型。

可选地，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频，包括：

对每个目标视频帧的至少部分区域进行预定编码处理，得到第二视频帧，第二视频帧的图像质量损失参数小于目标视频帧的图像质量损失参数；

对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，编码后的第四视频帧的码率小于第三视频帧的码率；其中，第三视频帧包括待处理视频中，除目标视频帧以外的视频帧；

根据第二视频帧和第四视频帧，得到编码后的视频。

可选地，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频，包括如下项中的至少一种：

根据目标视频帧对应的音视频信号特征降低第一量化编码参数；根据降低后的第一量化编码参数对目标视频帧的至少部分区域进行编码处理，得到编码后的视频；

对目标视频帧的至少部分区域进行修复处理，得到编码后的视频；修复处理包括下述项中的任意一项：滤波处理、提升对比度处理和图像修复处理；

计算目标视频帧对应的增强层的视频数据；根据增强层的视频数据对目标视频帧的至少部分区域进行可伸缩视频编码处理，得到编码后的视频；

扩大目标视频帧的运动估计搜索范围；基于扩大后的运动估计搜索范围对目标视频帧的至少部分区域进行帧内预测处理，得到编码后的视频。

可选地，对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，包括如下项中的至少一种：

根据第三视频帧对应的音视频信号特征提升第二量化编码参数；根据提升后的第二量化编码参数对第三视频帧的至少部分区域进行编码处理，得到第四视频帧；

计算第三视频帧对应的增强层的视频数据；根据增强层的视频数据对第三视频帧的至少部分区域进行可伸缩视频编码处理，得到第四视频帧；

减小第三视频帧的运动估计搜索范围；基于减小后的运动估计搜索范围对第三视频帧的至少部分区域进行帧内预测处理，得到第四视频帧。

可选地，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，包括：

根据声事件的类型，确定声事件对应的观看注意力参数；

根据观看注意力参数对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：

获取模块，被配置为执行获取待处理视频；

确定模块，被配置为执行在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；

编码模块，被配置为执行对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

可选地，确定模块包括第一识别模块；

第一识别模块，被配置为执行识别待处理视频中包括预定音频信号特征的声事件，预定音频信号特征区别于与声事件相邻的第一视频帧对应的音频信号特征；

确定模块，被进一步配置为执行将声事件对应的至少一个视频帧确定为目标视频帧。

可选地，确定模块，被进一步配置为执行确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域；

确定模块，被进一步配置为将包括目标发声对象所在区域的视频帧确定为目标视频帧。

可选地，确定模块包括第二识别模块；

第二识别模块，被配置为执行利用预定识别模型识别待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象；

确定模块，被进一步配置为执行确定目标发声对象在每个视频帧中所在的区域；其中，预定识别模型包括下述项中的任意一项：人物识别模型、动物识别模型、发声物体识别模型。

可选地，编码模块，被进一步配置为执行对每个目标视频帧的至少部分区域进行预定编码处理，得到第二视频帧，第二视频帧的图像质量损失参数小于目标视频帧的图像质量损失参数；

编码模块，被进一步配置为执行对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，编码后的第四视频帧的码率小于第三视频帧的码率；其中，第三视频帧包括待处理视频中，除目标视频帧以外的视频帧；

确定模块，还被配置为执行根据第二视频帧和第四视频帧，得到编码后的视频。

可选地，编码模块包括：降低模块、修复模块、计算模块和扩大模块；

降低模块，被配置为执行根据目标视频帧对应的音视频信号特征降低第一量化编码参数；

编码模块，被进一步配置为执行根据降低后的第一量化编码参数对目标视频帧的至少部分区域进行编码处理，得到编码后的视频；

修复模块，被配置为执行对目标视频帧的至少部分区域进行修复处理，得到编码后的视频；修复处理包括下述项中的任意一项：滤波处理、提升对比度处理和图像修复处理；

计算模块，被配置为执行计算目标视频帧对应的增强层的视频数据；

编码模块，被进一步配置为执行根据增强层的视频数据对目标视频帧的至少部分区域进行可伸缩视频编码处理，得到编码后的视频；

扩大模块，被配置为执行扩大目标视频帧的运动估计搜索范围；

编码模块，被进一步配置为执行基于扩大后的运动估计搜索范围对目标视频帧的至少部分区域进行帧内预测处理，得到编码后的视频。

可选地，编码模块包括：提升模块、修复模块、计算模块和减小模块；

提升模块，被配置为执行根据第三视频帧对应的音视频信号特征提升第二量化编码参数；

编码模块，被进一步配置为执行根据提升后的第二量化编码参数对第三视频帧的至少部分区域进行编码处理，得到第四视频帧；

计算模块，被配置为执行计算第三视频帧对应的增强层的视频数据；

编码模块，被进一步配置为执行根据增强层的视频数据对第三视频帧的至少部分区域进行可伸缩视频编码处理，得到第四视频帧；

减小模块，被配置为执行减小第三视频帧的运动估计搜索范围；

编码模块，被进一步配置为执行基于减小后的运动估计搜索范围对第三视频帧的至少部分区域进行帧内预测处理，得到第四视频帧。

可选地，编码模块包括参数确定模块；

参数确定模块，被配置为执行根据声事件的类型，确定声事件对应的观看注意力参数；

编码模块，被进一步配置为执行根据观看注意力参数对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所述的视频处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如第一方面所述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行如第一方面所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例中，通过在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，其中，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；然后，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。由此，能够对目标视频帧进行针对性的编码处理，对观看者来说，能够提升编码后的视频的显示效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的视频处理方法、装置、电子设备及存储介质应用场景示意图。

图2是根据一示例性实施例示出的视频处理方法、装置、电子设备及存储介质应用环境示意图。

图3是根据一示例性实施例示出的一种视频处理方法的流程图。

图4是根据一示例性实施例示出的一种用于显示目标视频帧的示意图。

图5是根据一示例性实施例示出的一种用于显示声事件的示意图。

图6是根据一示例性实施例示出的一种用于显示发声对象的示意图。

图7是根据一示例性实施例示出的一种视频处理装置的框图。

图8是根据一示例性实施例示出的一种服务器的框图。

图9是根据一示例性实施例示出的用于数据处理的设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面，以图1为例说明相关技术中的应用场景。图1是本公开说明书一个或多个实施例提供的视频处理方法、装置、电子设备及存储介质的应用场景示意图。

如图1所示，一个视频包括多张视频帧，在时间维度上，每帧视频帧和音频信号特征在时间轴上是一一对应的。在视频中，一个视频帧就是指一幅静止的画面。帧率，就是指视频每秒钟包括的画面数量。有了视频之后，就涉及视频的传输和存储。为了便于对视频进行更快的传输、以及尽可能减小视频的存储空间，需要对视频进行编码。

其中，视频编码是指通过压缩技术，将原始视频格式的文件转换成另一种视频格式文件的方式。视频是连续的图像序列，由连续的视频帧构成，一视频帧即为一幅图像。由于人眼的视觉暂留效应，当视频帧序列以一定的速率播放时，观看者看到的就是动作连续的视频。

由于连续的帧之间相似性极高，为便于储存传输，需要对原始的视频进行编码压缩，以去除空间、时间维度的冗余。视频图像数据有很强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。

其中，视频编码的主要目的是在保证高质量视觉效果的前提下最大限度地降低码率，即实现压缩。传统的视频编码技术主要针对空间域冗余、时间域冗余以及统计冗余进行压缩编码，这一类编码技术以增加编码端计算复杂度为代价来获取编码性能的提高。

目前，面对有限的传输带宽和存储容量，必须对海量的高清视频数据采用更为高效的压缩编码。

由于人类视觉系统还有许多重要的感知特性可以进一步挖掘。多媒体内容通常伴随着视频信号和音频信号，在人们观看视频时，听觉和视觉往往同时参与感知并相互影响关注点。例如，声音提示处的视频内容往往会更吸引人，观看者在观看该声音提示处的视频内容时，视觉处理能力会增强，这被称为跨模式促进效应(cross-modal facilitatoryeffect)。基于此，本公开将观看者的人体感知效应应用到视频编码中，例如可以利用音频信号特征等其他感官的信息辅助视频编码，以实现编码后的视频的显示效果不明显下降的前提下，进一步提高视频编码效率，或者，在码率不变的情况下，实现更好的显示效果。

为了解决上述相关技术中存在的编码后的视频的显示效果较差的问题。本公开提供了一种视频处理方法、装置、电子设备及存储介质。该视频处理方法、装置、电子设备及存储介质，可通过在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，其中，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；然后，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。由此，能够对目标视频帧进行针对性的编码处理，对观看者来说，能够提升编码后的视频的显示效果。

如图2所示，是本公开说明书一个或多个实施例提供的视频处理方法、装置、电子设备及存储介质的应用环境示意图。如图2所示，服务器100通过网络300与一个或多个用户端200通信连接，以进行数据通信或交互。所述服务器100以是网络服务器、数据库服务器等。所述用户端200可以是，但不限于个人电脑(personal computer，PC)、智能手机、平板电脑、个人数字助理(personal digital assistant，PDA)等。所述网络300可以是有线或无线网络。

下面将对本公开实施例提供的视频处理方法进行详细说明。

本公开实施例提供的视频处理方法可以应用于用户端200，为了便于描述，除特别说明外，本公开实施例均以用户端200为执行主体进行说明。可以理解的是，所述的执行主体并不构成对本公开的限定。

下面，首先对本公开提供的视频处理方法进行说明。

如图3所示，该视频处理方法可以包括以下步骤。

S310，获取待处理视频。

S320，在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征。

S330，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

上述各步骤的具体实现方式将在下文中进行详细描述。

下面介绍上述各个步骤的具体实现方式。

首先介绍S310。

获取待处理视频。待处理视频包括多个视频帧。视频都是由静止的画面组成的，这些静止的画面被称为帧。

然后介绍S320。

预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音频信号特征。如图4所示，在待处理视频的多个视频帧中，目标视频帧对应的预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征。

音频信号特征可以包括：声音频率、声音响度和声音音色等。

对于声音频率，比如是10秒的男声合唱里出现2秒女高音的演唱，2秒的女高音的演唱对应的音频信号特就是预定音频信号特征。可以理解的是，男声和女声的声音频率是不同的，女声声音频率普遍高于男声的声音频率。

对于声音响度，比如是10秒的背景音乐里，有出现2秒声音响度增大的背景音乐，这2秒背景音乐对应的音频信号特就是预定音频信号特征。

对于声音音色，比如是10秒的人声里出现2秒唢呐，这里因为人声的声音音色和唢呐的音色是不相同的，所以2秒的唢呐对应的音频信号特征就是预定音频信号特征。

示例性地，对对待处理视频的背景音乐变化进行识别，以识别出一些较为明显的声学信号特征，即预定音频信号特征。

在本公开一些实施例中，识别待处理视频中包括预定音频信号特征的声事件，预定音频信号特征区别于与声事件相邻的第一视频帧对应的音频信号特征；将声事件对应的至少一个视频帧确定为目标视频帧。

其中，可以通过采用基于深度学习的声事件识别模型来识别待处理视频中包括预定音频信号特征的声事件。声事件，可以为在视频播放的过程，使观看者的注意力增强的声音事件。

如图5所示，声事件包括的预定音频信号特征区别于与声事件相邻的第一视频帧对应的音频信号特征。声事件，例如在乐器演奏的音乐中，突然插入了人类的大笑，可以将“人类的大笑”作为一次声事件；或者是某乐曲播放至乐曲高潮部分，可以将“乐曲高潮部分”作为一次声事件。

另外，考虑到用户在制作视频时，可能经常会采用目前流行的背景音乐，或者应用程序的推荐榜单上的音乐，因此也可以针对特定的背景音乐预先标记出声事件。比如，一段十秒钟的待处理视频中的背景音乐，从第三秒开始进入副歌部分，到第八秒副歌结束。这里就可以预先将该待处理视频中的3-8秒预先标记出来。将3-8秒的背景音乐确定为声事件。这里待处理视频中的3-8秒对应的至少一个视频帧确定为目标视频帧。

这里，通过识别待处理视频中包括预定音频信号特征的声事件，进而将声事件对应的至少一个视频帧确定为目标视频帧，能够快速准确地在待处理视频中定位到多个目标视频帧。

在本公开一些实施例中，确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域；将包括目标发声对象所在区域的视频帧确定为目标视频帧。

其中，上述涉及到的确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域，可以通过以下几种方式实现：

在确定待处理视频的目标发声对象所在的区域时，可以采取主动识别和被动识别的方式。其中，主动识别可以将用户指定的显示区域确定为目标发声对象所在的区域。比如，接收用户对待处理视频的触控输入，触控输入由用于指示目标发声对象所在的区域。

其中，被动识别可以通过电子设备自动识别出待处理视频中的目标发声对象所在的区域。

这里，通过将包括目标发声对象所在区域的视频帧确定为目标视频帧，能够快速准确地在待处理视频中定位到目标视频帧，方便后续对目标视频帧进行针对性的预定编码。

在本公开一些实施例中，上述涉及到确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域的步骤中，具体可以包括以下步骤：

利用预定识别模型识别待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象；确定目标发声对象在每个视频帧中所在的区域；其中，预定识别模型包括下述项中的任意一项：人物识别模型、动物识别模型、发声物体识别模型。

其中，人物识别模型可以识别出视频帧中的人物；动物识别模型可以识别出视频帧中的动物；发声物体识别模型可以识别出视频帧中的发声物体，例如：唢呐、鼓和钢琴等。

这里，因为视频中的发声对象一般可以包括人物、动物和发声物体，所以利用预定识别模型能够快速准确地识别出待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象。

如图6所示，待处理视频的视频帧中包括：唱歌的小朋友，包括太阳和云彩等的背景区域。利用上述涉及到的人物识别模型能够快速从视频帧中定位到目标发声对象“唱歌的小朋友”所在的区域。

由于目标发声对象在每个视频帧中所在的区域会更加吸引观看者的注意力，所以识别出目标发声对象所在的区域能够在后续的视频编码中，更有针对性的对该区域进行编码，以保证目标发声对象所在的区域的质量。

最后介绍S330。

在本公开一些实施例中，S330中，具体可以包括以下步骤：对每个目标视频帧的至少部分区域进行预定编码处理，得到第二视频帧，第二视频帧的图像质量损失参数小于目标视频帧的图像质量损失参数；对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，编码后的第四视频帧的码率小于第三视频帧的码率；其中，第三视频帧包括待处理视频中，除目标视频帧以外的视频帧；根据第二视频帧和第四视频帧，得到编码后的视频。

具体地，首先，对每个目标视频帧的至少部分区域进行预定编码处理，得到第二视频帧，第二视频帧的图像质量损失参数小于目标视频帧的图像质量损失参数。这里，第二视频帧的图像质量损失参数小于目标视频帧的图像质量损失参数，即第二视频帧由于编码导致的客观损失小，则相应第二视频帧的图像质量好。由此，对于观看注意力强的目标视频帧，在编码时可以更注重保证视频帧的质量。

然后，对待处理视频中，除目标视频帧以外的第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，编码后的第四视频帧的码率小于第三视频帧的码率。由此，对于观看注意力弱的第三视频帧，在编码时可以更注重降低第三视频帧的码率。

其中，上述涉及到的目标视频帧的至少部分区域可以为目标发声对象所在区域。

最后，根据第二视频帧和第四视频帧，得到编码后的视频。

在本公开一些实施例中，可以根据如下项中的至少一种处理方式，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，下面分别进行说明：

在本公开一些实施例中，根据目标视频帧对应的音视频信号特征降低第一量化编码参数；根据降低后的第一量化编码参数对目标视频帧的至少部分区域进行编码处理，得到编码后的视频。

其中，量化参数(Quantizer Parameter，QP)，反映了视频帧的空间细节压缩的情况。即量化参数的值越小，量化越精细，视频帧的质量越高，产生的视频码流也越长。因为在量化参数的值越小的情况下，视频帧中大部分的细节都会被保留；在量化参数的值越大的情况下，视频帧中的一些细节会丢失，待处理视频的码率降低，但是会导致视频帧失真，以及质量下降。其中，上述涉及到的第一量化编码参数与量化参数的物理意义一致。

这里，通过根据降低后的第一量化编码参数对目标视频帧的至少部分区域进行编码处理，在降低编码后的视频帧的质量，能够提升编码后的视频的画质。

在本公开一些实施例中，对目标视频帧的至少部分区域进行修复处理，得到编码后的视频；修复处理包括下述项中的任意一项：滤波处理、提升对比度处理和图像修复处理。

其中，上述涉及到的滤波处理是将信号中特定波段频率滤除的操作，是抑制和防止干扰的一项重要措施。在图像处理领域，滤波处理可以将信号中特定的波段频率滤除，从而保留所需要的波段频率信号。由于噪声在图像中一般是高频信号，所以可以通过对目标视频帧的至少部分区域进行滤波处理，将高频波段频率的信号滤除，以消除图像中混入的噪声。

其中，上述涉及到的图像对比度，指一幅图像灰度反差的大小。差异范围越大代表对比越大，差异范围越小代表对比越小，好的对比率就可容易地显示生动、丰富的色彩。提升对比度处理可以提升目标视频帧的画质。

其中，上述涉及到的图像修复处理，是指对图像和视频中丢失或损坏的部分进行重建修复的过程。图像修复又称图像插值或视频插值，指利用复杂的算法来替换已丢失、损坏的图像数据，主要替换一些小区域和瑕疵。图像修复处理可以提升目标视频帧的画质。

需要提示的是，上述涉及到的对目标视频帧的至少部分区域进行修复处理。可以对目标视频帧整个画面进行修复处理，也可以对目标视频帧的部分区域(例如：目标发声对象所在的区域)进行修复处理。

在本公开一些实施例中，计算目标视频帧对应的增强层的视频数据；根据增强层的视频数据对目标视频帧的至少部分区域进行可伸缩视频编码处理，得到编码后的视频。

可伸缩视频编码(Scalable Video Coding，SVC)是视频编码的一种，也称分层编码。

所谓分层编码，就是在时间、空间和质量上进行划分，输出包括基本层的视频数据和增强层的视频数据的多层码流。其中基本层的数据可以使解码器完全正常的解码出基本视频内容，但是基本层的视频数据获得的视频帧可能帧率较低，即质量较低。

在信道受限或信道环境复杂的情况下，基本层的视频数据可以保证解码端能够接收到可以观看的视频。当信道环境良好或信道资源丰富时，可以传递增强层的视频数据，以提高帧率，即提高视频质量。可伸缩视频编码有效的解决了输出码流的不灵活性，能够通过一次编码来适应多种不同信道的数据传输。

这里，通过计算目标视频帧对应的增强层的视频数据，并根据增强层的视频数据对目标视频帧的至少部分区域进行可伸缩视频编码处理，得到的编码后的视频，与现有编码方案进行编码后的视频相比，能在相同的码率下，展现更优质的画质。

在本公开一些实施例中，扩大目标视频帧的运动估计搜索范围；基于扩大后的运动估计搜索范围对目标视频帧的至少部分区域进行帧内预测处理，得到编码后的视频。

其中，上述涉及到的扩大目标视频帧的运动估计搜索范围，可以通过以下方式实现：在图像编码结构中引入了大尺寸块以及灵活的子块划分机制，支持更大尺寸、不对称的运动分割；或者，采用了任意方向帧内预测算法(Arbitrary Direction Intra，ADI)，引入了更多的预测模式和方向；或者，在帧间预测中引入了运动矢量竞争机制，以提高帧间预测的精度。

在本公开一些实施例中，上述涉及到的对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧的步骤中，可以根据如下项中的至少一种处理方式实现，下面分别进行说明：

第一，根据第三视频帧对应的音视频信号特征提升第二量化编码参数；根据提升后的第二量化编码参数对第三视频帧的至少部分区域进行编码处理，得到第四视频帧。

量化编码参数反映了视频帧的空间细节压缩的情况。即量化参数的值越小，量化越精细，视频帧的质量越高，产生的视频码流也越长；量化参数的值越小，产生的视频码流也越小。这里，通过根据提升后的第一量化编码参数对第三视频帧的至少部分区域进行编码处理，得到第四视频帧，能够降低码率。

第二，计算第三视频帧对应的增强层的视频数据；根据增强层的视频数据对第三视频帧的至少部分区域进行可伸缩视频编码处理，得到第四视频帧。这里，通过根据第三视频帧对应的增强层的视频数据对第三视频帧的至少部分区域进行可伸缩视频编码处理，得到第四视频帧，能够降低码率。

第三，减小第三视频帧的运动估计搜索范围；基于减小后的运动估计搜索范围对第三视频帧的至少部分区域进行帧内预测处理，得到第四视频帧。

在本公开一些实施例中，根据声事件的类型，确定声事件对应的观看注意力参数；根据观看注意力参数对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理。

这里，可以通过根据声事件的类型，确定声事件对应的观看注意力参数。这里，可以通过深度学习训练或者统计拟合等方法实现。

示例性地，可以对声事件进行分类并将每类声事件对应一个等级，根据声事件等级的高低来确定声事件对应的观看注意力参数，观看注意力参数能够体现观看者在观看视频时的注意力集中程度。

因此，根据观看注意力参数对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，能够比传统编码方案编码后的视频，在相同的码率下，达到更好的显示效果。

综上，本公开实施例通过在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，其中，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；然后，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。由此，能够对目标视频帧进行针对性的编码处理，对观看者来说，能够提升编码后的视频的显示效果。

基于上述视频处理方法，本公开还提供了一种视频处理装置。具体结合图7进行说明。

图7是根据一示例性实施例示出的一种视频处理装置的框图。参照图7，该视频处理装置700可以包括获取模块710、确定模块720和编码模块730。

获取模块710，被配置为执行获取待处理视频。

确定模块720，被配置为执行在所述待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，所述预定音频信号特征区别于与所述目标视频帧相邻的第一视频帧对应的音视频信号特征。

编码模块730，被配置为执行对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

在本公开实施例中，该视频处理装置700能够通过在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，其中，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；然后，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。由此，能够对目标视频帧进行针对性的编码处理，对观看者来说，能够提升编码后的视频的显示效果。

在本公开一些实施例中，确定模块720包括第一识别模块。

该第一识别模块，被配置为执行识别待处理视频中包括预定音频信号特征的声事件，预定音频信号特征区别于与声事件相邻的第一视频帧对应的音频信号特征。

确定模块720，被进一步配置为执行将声事件对应的至少一个视频帧确定为目标视频帧。

在本公开一些实施例中，确定模块720，被进一步配置为执行确定待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象所在的区域。

确定模块720，被进一步配置为将包括目标发声对象所在区域的视频帧确定为目标视频帧。

在本公开一些实施例中，确定模块720，包括第二识别模块。

该第二识别模块，被配置为执行利用预定识别模型识别待处理视频的每个视频帧中与预定音频信号特征对应的目标发声对象。

确定模块720，被进一步配置为执行确定目标发声对象在每个视频帧中所在的区域；其中，预定识别模型包括下述项中的任意一项：人物识别模型、动物识别模型、发声物体识别模型。

在本公开一些实施例中，编码模块，被进一步配置为执行对每个目标视频帧的至少部分区域进行预定编码处理，得到第二视频帧，第二视频帧的图像质量损失参数小于目标视频帧的图像质量损失参数。

编码模块，被进一步配置为执行对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，编码后的第四视频帧的码率小于第三视频帧的码率；其中，第三视频帧包括待处理视频中，除目标视频帧以外的视频帧。

在本公开一些实施例中，编码模块730包括：降低模块、修复模块、计算模块和扩大模块。

该降低模块，被配置为执行根据目标视频帧对应的音视频信号特征降低第一量化编码参数。

编码模块730，被进一步配置为执行根据降低后的第一量化编码参数对目标视频帧的至少部分区域进行编码处理，得到编码后的视频。

该修复模块，被配置为执行对目标视频帧的至少部分区域进行修复处理，得到编码后的视频；修复处理包括下述项中的任意一项：滤波处理、提升对比度处理和图像修复处理；

该计算模块，被配置为执行计算目标视频帧对应的增强层的视频数据。

编码模块730，被进一步配置为执行根据增强层的视频数据对目标视频帧的至少部分区域进行可伸缩视频编码处理，得到编码后的视频。

该扩大模块，被配置为执行扩大目标视频帧的运动估计搜索范围。

编码模块730，被进一步配置为执行基于扩大后的运动估计搜索范围对目标视频帧的至少部分区域进行帧内预测处理，得到编码后的视频。

在本公开一些实施例中，编码模块730包括：提升模块、修复模块、计算模块和减小模块。

提升模块，被配置为执行根据第三视频帧对应的音视频信号特征提升第一量化编码参数。

编码模块，被进一步配置为执行根据提升后的第一量化编码参数对第三视频帧的至少部分区域进行编码处理，得到第四视频帧。

计算模块，被配置为执行计算第三视频帧对应的增强层的视频数据。

编码模块，被进一步配置为执行根据增强层的视频数据对第三视频帧的至少部分区域进行可伸缩视频编码处理，得到第四视频帧。

减小模块，被配置为执行减小第三视频帧的运动估计搜索范围。

在本公开一些实施例中，编码模块730包括参数确定模块。

该参数确定模块，被配置为执行根据声事件的类型，确定声事件对应的观看注意力参数。

编码模块730，被进一步配置为执行根据观看注意力参数对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种服务器的框图。参照图8，本公开实施例还提供了一种服务器，包括处理器810、通信接口820、存储器830和通信总线840，其中，处理器810、通信接口820和存储器830通过通信总线840完成相互间的通信。

该存储器830，用于存放处理器810可执行的指令。

该处理器810，用于执行存储器830上所存放的指令时，实现如下步骤：

获取待处理视频；在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

可见，应用本公开实施例，通过在待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，其中，预定音频信号特征区别于与目标视频帧相邻的第一视频帧对应的音视频信号特征；然后，对目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。由此，能够对目标视频帧进行针对性的编码处理，对观看者来说，能够提升编码后的视频的显示效果。

图9是根据一示例性实施例示出的用于数据处理的设备的框图。例如，该设备900可以被提供为一服务器。参照图9，服务器900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述任一实施例所述的视频处理方法。

该设备900还可以包括一个电源组件926被配置为执行设备900的电源管理，一个有线或无线网络接口950被配置为将设备900连接到网络，和一个输入输出(I/O)接口958。设备900可以操作基于存储在存储器932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在本公开一些实施例中，还提供了一种存储介质，当该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述任一实施例所述的视频处理方法。

可选地，该存储介质可以是非临时性计算机可读存储介质，示例性的，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开一些实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述任一实施例所述的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频；

在所述待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，所述预定音频信号特征区别于与所述目标视频帧相邻的第一视频帧对应的音视频信号特征；

对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

2.根据权利要求1所述的方法，其特征在于，所述确定与预定音频信号特征对应的目标视频帧，包括：

识别所述待处理视频中包括所述预定音频信号特征的声事件，所述预定音频信号特征区别于与所述声事件相邻的所述第一视频帧对应的音频信号特征；

将所述声事件对应的至少一个所述视频帧确定为所述目标视频帧。

3.根据权利要求1所述的方法，其特征在于，所述确定与预定音频信号特征对应的目标视频帧，包括：

确定所述待处理视频的每个视频帧中与所述预定音频信号特征对应的目标发声对象所在的区域；

将包括所述目标发声对象所在区域的视频帧确定为所述目标视频帧。

4.根据权利要求3所述的方法，其特征在于，所述确定所述待处理视频的每个视频帧中与所述预定音频信号特征对应的目标发声对象所在的区域，包括：

利用预定识别模型识别所述待处理视频的每个视频帧中与所述预定音频信号特征对应的所述目标发声对象；

确定所述目标发声对象在所述每个视频帧中所在的区域；其中，所述预定识别模型包括下述项中的任意一项：人物识别模型、动物识别模型、发声物体识别模型。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频，包括：

对所述每个目标视频帧的至少部分区域进行预定编码处理，得到第二视频帧，所述第二视频帧的图像质量损失参数小于所述目标视频帧的图像质量损失参数；

对每个第三视频帧中的至少部分区域进行预定编码处理，得到第四视频帧，所述编码后的第四视频帧的码率小于所述第三视频帧的码率；其中，所述第三视频帧包括所述待处理视频中，除所述目标视频帧以外的视频帧；

根据所述第二视频帧和所述第四视频帧，得到所述编码后的视频。

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频，包括如下项中的至少一种：

根据所述目标视频帧对应的音视频信号特征降低第一量化编码参数；根据降低后的所述第一量化编码参数对所述目标视频帧的至少部分区域进行编码处理，得到所述编码后的视频；

对所述目标视频帧的至少部分区域进行修复处理，得到所述编码后的视频；所述修复处理包括下述项中的任意一项：滤波处理、提升对比度处理和图像修复处理；

计算所述目标视频帧对应的增强层的视频数据；根据所述增强层的视频数据对所述目标视频帧的至少部分区域进行可伸缩视频编码处理，得到所述编码后的视频；

扩大所述目标视频帧的运动估计搜索范围；基于扩大后的运动估计搜索范围对所述目标视频帧的至少部分区域进行帧内预测处理，得到所述编码后的视频。

7.根据权利要求2所述的方法，其特征在于，所述对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，包括：

根据所述声事件的类型，确定所述声事件对应的观看注意力参数；

根据所述观看注意力参数对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理。

8.一种视频处理装置，其特征在于，包括：

获取模块，被配置为执行获取待处理视频；

确定模块，被配置为执行在所述待处理视频的多个视频帧中，确定与预定音频信号特征对应的目标视频帧，所述预定音频信号特征区别于与所述目标视频帧相邻的第一视频帧对应的音视频信号特征；

编码模块，被配置为执行对所述目标视频帧中的每个目标视频帧的至少部分区域进行预定编码处理，得到编码后的视频。

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频处理方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的视频处理方法。