CN114339306A

CN114339306A - 直播视频图像处理方法、装置及服务器

Info

Publication number: CN114339306A
Application number: CN202111621565.8A
Authority: CN
Inventors: 李亮
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-12
Anticipated expiration: 2041-12-28
Also published as: CN114339306B

Abstract

本申请实施例提供的直播视频图像处理方法、装置及服务器，涉及视频图像处理技术领域。首先，对原始视频序列图像进行图像分割，在每一帧图像中定位并分割出目标物体所对应的目标区域；接着，对每一帧图像中的目标区域进行图像修复处理得到修复后的视频序列帧图像；最后，基于修复后的视频序列帧图像计算画面状态修复评价指标值，并根据画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向客户端发送修复后的视频序列帧图像。如此，可以在将修复后的视频序列帧图像发送给客户端之前，对修复后的视频序列帧图像的画面状态进行评估确认，避免修复质量不佳的视频序列帧图像发送给客户端而导致的直播画面整体劣化。

Description

直播视频图像处理方法、装置及服务器

技术领域

本申请涉及视频图像处理技术领域，具体而言，涉及一种直播视频图像处理方法、装置及服务器。

背景技术

在互联网直播场景中，因特定目标物体(比如，麦克风)的遮挡会导致直播效果不佳，为此对目标物体进行抹除并对抹除区域进行修复以降低目标物体对直播效果的影响，是本领域的研究热点。然而，在将直播场景画面进行修复时，可能存在修复质量不佳的情形，直接将修复质量不佳的视频画面发送给客户端进行显示会导致直播画面的整体劣化。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的在于提供一种直播视频图像处理方法、装置及服务器。

第一方面，本申请实施例提供一种直播视频图像处理方法，应用于服务器，所述服务器与客户端通信连接，所述方法包括：

获取直播间的原始视频序列帧图像；

对所述原始视频序列帧图像进行图像分割处理，在每一帧图像中定位并分割出目标物体所对应的目标区域；

对所述每一帧图像中的目标区域进行图像修复处理，得到修复后的视频序列帧图像；

计算所述修复后的视频序列帧图像的画面状态修复评价指标值，基于所述画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向所述客户端发送所述修复后的视频序列帧图像。

在一种可能的实现方式中，所述对所述原始视频序列帧图像进行图像分割处理，在每一帧图像中定位并分割出目标物体所对应的目标区域的步骤，包括：

采用DeepLabv3+模型在每一帧图像中定位并分割出目标物体所对应的目标区域；

采用Encoder-Decoder模型在每个帧图像中定位并分割出人像及人体关键部位对应的图像区域，其中，所述人体关键部位包括人脸、五官以及手部。

在一种可能的实现方式中，所述对所述每一帧图像中的目标区域进行图像修复处理，得到修复后的视频序列帧图像的步骤，包括：

将所述原始视频序列帧图像划分多个包括预设帧数的视频序列片段，其中，所述预设帧数的帧数范围为48～120帧；

针对每个所述视频序列片段，确定所述视频序列片段的待修复区域，采用所述视频序列片段中的第一帧图像、片段中间帧图像及最后一帧图像作为参考帧图像，基于所述参考帧图像进行交叉信息融合以对所述待修复区域进行修复，得到图像修复后的视频序列片段，由所述图像修复后的视频序列片段组成所述修复后的视频序列帧图像。

在一种可能的实现方式中，所述确定所述视频序列片段的待修复区域的步骤，包括：

计算所述视频序列片段中各帧图像中目标区域的尺寸；

将所述视频序列片段中尺寸最大的目标区域作为所述视频序列片段的待修复区域。

在一种可能的实现方式中，所述计算所述修复后的视频序列帧图像的画面状态修复评价指标值，基于所述画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向所述客户端发送所述修复后的视频序列帧图像的步骤，包括：

计算所述修复后的视频序列帧图像的画面状态修复评价指标值；

将所述画面状态修复评价指标值与所述预设的画面状态修复评价指标阈值进行比较，在所述画面状态修复评价指标值与所述预设的画面状态修复评价指标阈值满足预设条件时，向所述客户端发送所述修复后的视频序列帧图像；在所述画面状态修复评价指标值与所述预设的画面状态修复评价指标阈值不满足所述预设条件时，向所述客户端发送所述原始视频序列帧图像。

在一种可能的实现方式中，所述画面状态修复评价指标包括单帧状态指标及多帧稳定性指标，其中，所述单帧状态指标包括人像遮挡比例、人脸遮挡比例、五官遮挡状态；目标物体手持状态、目标物体分割掩膜的置信度、修复后人像分割掩膜的置信度；所述多帧稳定性指标包括修复后人像分割掩膜的抖动率，目标区域内的图像的抖动率；

所述人像遮挡比例BodyBlock Ratio的计算公式如下：

所述人脸遮挡比例FaceBlock Ratio的计算公式如下：

所述五官遮挡状态FeatureBlock Flag表示为：

所述目标物体手持状态HandheldTag Flag表示为：

所述目标物体分割掩膜的置信度a的计算公式如下：

所述修复后人像分割掩膜的置信度b的计算公式如下：

所述修复后人像分割掩膜的抖动率segMask Diff Rate的计算公式如下：

所述目标物体分割掩膜内的图像抖动率Inpaint Diff Rate的计算公式如下：

其中，Mask_tag表示目标物体的分割掩膜区域、Mask_body表示图像修复后人像的分割掩膜区域，Dilate(Mask_tag)表示膨胀处理后目标物体的分割掩膜区域、Dilate(Mask_face)表示膨胀处理后人脸的分割掩膜区域、Dilate(Mask_feature)表示膨胀处理后人脸五官的分割掩膜区域；Dilate(Mask_hand)表示膨胀处理后手部的分割掩膜区域；A1表示目标物体分割掩膜中置信度大于第一预设置信度的像素点的数量；A表示目标物体分割掩膜中像素点的总数量；B1表示修复后人像分割掩膜中置信度大于第二预设置信度的像素点的数量；B表示修复后人像分割掩膜中像素点的总数量；Diff1表示位于目标区域内的人像分割掩膜区域在前后帧中的差异，bodymask_∪inROI表示位于目标区域内的人像分割掩膜区域在前后帧中的并集；Diff2表示修复后的图像在前后帧的目标物体分割掩膜内的差异。

在一种可能的实现方式中，所述将所述画面状态修复评价指标值与所述预设的画面状态修复评价指标阈值进行比较，在所述画面状态修复评价指标值满足所述预设的画面状态修复评价指标阈值时，向所述客户端发送所述修复后的视频序列帧图像；在所述画面状态修复评价指标值不满足预设的画面状态修复评价指标阈值时，向所述客户端发送所述原始视频序列帧图像的步骤，包括：

基于所述修复后的视频序列帧图像计算所述单帧状态指标及所述多帧稳定性指标中的各项指标值；

将计算得到的各项指标值与对应的各项指标的预设指标阈值进行比较；

在所述各项指标值与该对应指标的预设指标阈值均满足各项指标对应的预设条件时，向所述客户端发送所述修复后的视频序列帧图像，反之，则向所述客户端发送所述原始视频序列帧图像。

在一种可能的实现方式中，在向所述客户端发送所述原始视频序列帧图像的步骤之前，所述方法还包括：

在所述原始视频序列帧图像中添加所述修复后的视频序列帧图像的指标值不满足预设指标阈值的指标的指标信息。

第二方面，本申请实施例还提供直播视频图像处理装置，应用于服务器，所述服务器与客户端通信连接，所述装置包括：

获取模块，用于获取直播间的原始视频序列帧图像；

分割模块，用于对所述原始视频序列帧图像进行图像分割处理，在每一帧图像中定位并分割出目标物体所对应的目标区域；

修复模块，用于对所述每一帧图像中的目标区域进行图像修复处理，得到修复后的视频序列帧图像；

确定模块，用于计算所述修复后的视频序列帧图像的画面状态修复评价指标值，基于所述画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向所述客户端发送所述修复后的视频序列帧图像。

第三方面，本申请实施例还提供一种服务器，所述服务器包括处理器、通信单元及计算机可读存储介质，所述处理器、所述通信单元及所述计算机可读存储介质之间通过总线系统连接，所述通信单元用于连接客户端以实现所述服务器与所述客户端之间的数据交互，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现第一方面中任意一个可能的实现方式中的直播视频图像处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其被执行时，使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的直播视频图像处理方法。

基于上述任意一个方面，本申请实施例提供的直播视频图像处理方法、装置及服务器，首先，对原始视频序列图像进行图像分割，在每一帧图像中定位并分割出目标物体所对应的目标区域；接着，对每一帧图像中的目标区域进行图像修复处理得到修复后的视频序列帧图像；最后，基于修复后的视频序列帧图像计算画面状态修复评价指标值，并根据画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向客户端发送修复后的视频序列帧图像。如此，可以在将修复后的视频序列帧图像发送给客户端之前，对修复后的视频序列帧图像的画面状态进行评估确认，避免修复质量不佳的视频序列帧图像发送给客户端而导致的直播画面整体劣化。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要调用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的直播视频图像处理系统的交互场景示意图；

图2为本申请实施例提供的直播视频图像处理方法的一种流程示意图；

图3为图2中步骤S13的子步骤流程示意图；

图4为图2中步骤S14的子步骤流程示意图；

图5为本申请实施例提供的直播视频图像处理装置的功能模块示意图；

图6为本申请实施例提供的服务器的可能结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参照图1，图1示出了本申请实施例提供的直播视频图像处理系统10的交互场景示意图。例如，直播视频图像处理系统10可以是用于诸如网络直播场景的直播平台。直播视频图像处理系统10可以包括通信连接的服务器100及客户端300，服务器100可以为客户端300提供视频图像处理支持，如由服务器100进行直播视频的图像分割处理与图像修复处理。

在本申请实施例中，客户端300可以是，但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。在具体实施过程中，可能有多个客户端300接入该服务器100，图1中仅示出两个。其中，客户端300可以包括主播端的客户端300以及观众端的客户端300，客户端300中可以安装直播类的服务程序，例如，服务程序可以是计算机或智能手机中使用的与互联网直播相关的应用程序APP或小程序等。

在本申请实施例中，服务器100可以是单个物理服务器，也可以是一个由多个用于执行不同数据处理功能的物理服务器构成的服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器100可以是分布式系统)。在一些可能的实施方式中，如服务器100采用单个物理服务器，可以基于不同业务功能为该物理服务器分配不同的逻辑服务器组件。

可以理解，图1所示的直播视频图像处理系统10仅为一种可行的示例，在其它可行的实施例中，该直播视频图像处理系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

下面结合图1所示的应用场景对本申请实施例提供的直播视频图像处理方法进行示例性说明。请参阅图2，本申请实施例提供的直播视频图像处理方法可以由前述的服务器100执行，在其它实施例中，本申请实施例的直播视频图像处理方法中的部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除，该服务器100执行的直播视频图像处理方法的详细步骤介绍如下。

步骤S11，获取直播间的原始视频序列帧图像。

本实施例中，可以由主播端的客户端300采集得到当前直播间的原始视频序列帧图像，并将原始视频序列帧图像发送给服务器100。

步骤S12，对原始视频序列帧图像进行图像分割处理，在每一帧图像中定位并分割出目标物体所对应的目标区域。

本实施例中，图像分割可以是指在一帧图像中将特定目标物体从背景中分离出来的技术，在本步骤中，可以采用基于语义的图像分割技术对目标物体进行分割，在分割之前需要创建目标物体分割掩膜，比如，在目标物体为麦克风时，需要预先创建麦克风分割掩膜，以便在图像分割过程中对麦克风进行识别和解构。具体地，以目标物体为麦克风为例，在分割之前需要创建麦克风对应的麦克风分割掩膜，在进行麦克风分割时，通过麦克风分割掩膜在帧图像中定位出麦克风位置，并通过麦克风分割掩膜在帧图像中将麦克风抹除，得到麦克风对应的目标区域，其中，麦克风对应的目标区域与麦克风分割掩膜区域对应。

在本申请实施例中，在本步骤中除了分割出目标物体所对应的目标区域之外，还可以分割出人像及人体关键部位对应的图像区域，其中，人体关键部位可以包括，但不限于，人脸、五官以及手部等部位。

步骤S13，对每一帧图像中的目标区域进行图像修复处理，得到修复后的视频序列帧图像。

视频图像修复相比基于单帧图像的图像修复，需要进一步编码时间信息，以实现修复结果在时间维度上的连贯性。在本实施例中，可以采用基于时空联合Transformer网络(STTN)对目标区域进行图像修复处理。

步骤S14，计算修复后的视频序列帧图像的画面状态修复评价指标值，基于画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向客户端发送所述修复后的视频序列帧图像。

在本步骤中，采用修复后的视频序列帧图像计算画面状态修复评价指标值，画面状态修复评价指标可以基于多维度的图像语义信息进行设计以用于综合判断画面状态的评价指标，通过画面状态修复评价指标值与预设的画面状态修复评价指标阈值可以正确识别有利于目标物体修复的环境条件(比如，目标物体不遮挡人脸)，避免因修复质量不佳的视频序列帧图像发送给观众端的客户端，导致的直播画面整体劣化。

本申请实施例提供的上述方案，首先，对原始视频序列图像进行图像分割，在每一帧图像中定位并分割出目标物体所对应的目标区域；接着，对每一帧图像中的目标区域进行图像修复处理得到修复后的视频序列帧图像；最后，基于修复后的视频序列帧图像计算画面状态修复评价指标值，并根据画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向客户端发送修复后的视频序列帧图像。如此，可以在将修复后的视频序列帧图像发送给客户端之前，对修复后的视频序列帧图像的画面状态进行评估，避免修复质量不佳的视频序列帧图像发送给客户端而导致的直播画面整体劣化。

进一步地，在本申请实施例中，步骤S12可以通过以下方式实现。

具体地，采用DeepLabv3+模型在每一帧图像中定位并分割出目标物体所对应的目标区域；并采用Encoder-Decoder模型在每个帧图像中定位并分割出人像及人体关键部位对应的图像区域，其中，所述人体关键部位包括人脸、五官以及手部。

其中，DeepLabv3+模型包括带有空洞卷积的DCNN模块以及带有空洞卷积的空间金字塔池化模块(Atrous Spatial Pyramid Pooling，ASPP)，DeepLabv3+模型引入多尺度信息，并通过将底层特征与顶层特征进一步融合以提升分割边界的精度。Encoder-Decoder模型采用MobileNet-V3-Small作为主干网络，通过分离卷积、通道映射压缩以及插空卷积等方式可以平衡模型性能和计算量。在步骤S12中采用DeepLabv3+模型和Encoder-Decoder模型组合成的图像语义分割处理方案，可以很好的平衡分割精度与计算量。

进一步地，请参照图3，图3示例了图2中步骤S13的子步骤流程示意图，在本申请实施例中，步骤S13可以通过以下子步骤实现。

子步骤S131，将原始视频序列帧图像划分多个包括预设帧数的视频序列片段。

在该子步骤中，视频序列片段的长度可变，具体地，视频序列片段包含的帧数可以在48帧～120帧的范围之内。

子步骤S132，针对每个视频序列片段，确定视频序列片段的待修复区域，采用视频序列片段中的第一帧图像、片段中间帧图像及最后一帧图像作为参考帧图像，基于参考帧图像进行交叉信息融合以对待修复区域进行修复，得到图像修复后的视频序列片段，由图像修复后的视频序列片段组成修复后的视频序列帧图像。

其中，片段中间帧图像是指除视频序列片段中的第一帧图像及最后一帧图像之外的任意一帧图像，优选地，片段中间帧图像是指视频序列片段中帧图像的总数除以2之后取整得到的帧数所对应的帧图像，比如，视频序列片段总共有48帧，片段中间帧图像指第24帧图像。

在本申请实施例中，因目标物体(比如，麦克风)只占画面中的一小块区域，且短时间内移动幅度有限，根据该特点，采用基于目标物体分割掩膜提取的目标区域进行修复，以规避全图修复所带来的高计算量。由于目标区域会随着目标物体分割掩膜的变化而改变，为保持修复网络的输入尺度一致性，采取视频序列片段中最大的目标区域作为视频序列片段对应的待修复区域。

具体地，在本子步骤中，可以通过以下方式来确定视频序列片段的待修复区域，首先，计算视频序列片段中各帧图像中目标区域的尺寸，接着，将视频序列片段中尺寸最大的目标区域作为视频序列片段的待修复区域。

相对于原始的STTN网络对整个原始视频序列帧图像进行离线处理的方式，本步骤是对的视频序列片段进行处理不需要等待整个原始视频序列帧图像录制完就可以处理，可以满足高效快速的近实时处理需求。另外，只采样视频序列片段中的第一帧图像、片段中间帧图像及最后一帧图像作为参考帧图像相对于原始的STTN网络的采样数量更少，可以在提升处理效率的同时兼顾修复效果。

进一步地，请参照图4，图4示例了图2中步骤S14的子步骤流程示意图，在本申请实施例中，步骤S14可以通过以下子步骤实现。

子步骤S141，计算修复后的视频序列帧图像的画面状态修复评价指标值。

在本申请实施例中，画面状态修复评价指标包括单帧状态指标及多帧稳定性指标。单帧状态指标包括人像遮挡比例、人脸遮挡比例、五官遮挡状态、目标物体手持状态、目标物体分割掩膜的置信度、修复后人像分割掩膜的置信度；多帧稳定性指标包括修复后人像分割掩膜的抖动率，目标区域内的图像的抖动率，下面对上述各项指标的含义以及计算方式进行解释。

人像遮挡比例BodyBlock Ratio的计算公式如下：

其中，Mask_tag表示目标物体的分割掩膜区域，Mask_body表示图像修复后人像的分割掩膜区域，采用图像修复后的人像分割掩膜区域可以避免图像修复前人像因被目标物体遮挡而导致人像分割掩膜区域不完整的问题。

人脸遮挡比例FaceBlock Ratio的计算公式如下：

五官遮挡状态FeatureBlock Flag表示为：

其中，Dilate(Mask_tag)表示膨胀处理后目标物体的分割掩膜区域，Dilate(Mask_face)表示膨胀处理后人脸的分割掩膜区域，Dilate(Mask_feature)表示膨胀处理后人脸五官的分割掩膜区域，由于人脸的语义相对与人像的语义更加精细，因此不适用人像遮挡比例BodyBlock Ratio的计算方式，在本申请实施例中，人脸分割掩膜为将全脸和五官的分类结果归为二分类的掩膜，分别提取全脸和五官并做膨胀处理，然后与经过同样膨胀处理的目标物体分割掩膜分别计算重叠部分，其中，对于五官遮挡状态可以以布尔值输出重叠状态(比如，1表示遮挡(公式中的Ture)，0表示不遮挡(公式中的False))。对于人脸遮挡比例，根据人脸与目标物体重叠区域的最大连通域及目标物体的分割掩膜区域估算人脸被目标物体遮挡的比例。

目标物体手持状态HandheldTag Flag表示为：

其中，Dilate(Mask_hand)表示膨胀处理后手部的分割掩膜区域，采用与计算五官遮挡状态FeatureBlock Flag相同的方式计算目标物体手持状态HandheldTag Flag。

目标物体分割掩膜的置信度a的计算公式如下：

修复后人像分割掩膜的置信度b的计算公式如下：

其中，A1表示目标物体分割掩膜中置信度大于第一预设置信度的像素点的数量；A表示目标物体分割掩膜中像素点的总数量；B1表示修复后人像分割掩膜中置信度大于第二预设置信度的像素点的数量；B表示修复后人像分割掩膜中像素点的总数量。在计算目标物体分割掩膜的置信度a和修复后人像分割掩膜的置信度b时，先对目标物体的分割结果以及图像修复后的人像分割结果进行归一化处理，使得它们的像素点的像素值在0～1之间；然后，以像素值作为置信度，统计置信度大于预设置信度阈值(比如，0.5)的像素点占分割掩膜中全像素点的比例，得到分割掩膜的置信度。

修复后人像分割掩膜的抖动率segMask Diff Rate的计算公式如下：

其中，Diff1表示位于目标区域(ROI)内的人像分割掩膜区域在前后帧中的差异，bodymask_∪inROI表示位于目标区域内的人像分割掩膜区域在相邻帧中的并集。

目标物体分割掩膜内的图像抖动率Inpaint Diff Rate的计算公式如下：

其中，Diff2表示修复后的图像在前后帧的目标物体分割掩膜内的差异，tagMask_∪表示在前后帧中目标物体分割掩膜的并集。

子步骤S142，将画面状态修复评价指标值与预设的画面状态修复评价指标阈值进行比较，在画面状态修复评价指标值与预设的画面状态修复评价指标阈值满足预设条件时，向客户端发送所述修复后的视频序列帧图像；在画面状态修复评价指标值与预设的画面状态修复评价指标阈值不满足预设条件时，向客户端发送原始视频序列帧图像。

具体地，子步骤S142可以通过以下方式实现。

首先，将计算得到的各项指标值与对应的各项指标的预设指标阈值进行比较。

在本申请实施例中，根据指标为定性指标还定量指标设定指标阈值，对于定性指标，比如五官遮挡状态FeatureBlock Flag，可以采用1或0表示指标阈值，其中，1可以表示遮挡，0可以表示不遮挡；对于定量指标，比如人像遮挡比例BodyBlock Ratio，可以根据先验经验设置为0.4。

然后，在各项指标值与该对应指标的预设指标阈值均满足各项指标对应的预设条件时，向客户端发送修复后的视频序列帧图像，反之，则向客户端发送所述原始视频序列帧图像。

为了清楚向客户端发送修复后的视频序列帧图像或原始视频序列帧图像的条件，现在以示例的方式列举向客户端发送原始视频序列帧图像的条件：

a.人像遮挡比例>0.4；

b.发生五官遮挡；

c.视频序列片段内最大脸部遮挡比例>0.1或平均脸部遮挡比例>0.02；

d.发生手持麦克风；

e.麦克风分割掩膜置信度<0.955；

f.修复后人像分割掩膜置信度<0.965；

g.视频序列片段内，目标物体分割掩膜内的图像平均抖动率>0.02或帧间抖动率>0.04的前后帧对大于5对；

h.视频序列片段内，修复后人像分割掩膜抖动率>0.5或帧间抖动率>1.0的前后帧对大于5对。

即在上述任意一个条件满足时，表示画面状态修复评价指标值与预设的画面状态修复评价指标阈值不满足预设条件，服务器100则会向客户端300发送原始视频序列帧图像。反之，在上述全部条件均不满足时，表示画面状态修复评价指标值与预设的画面状态修复评价指标阈值满足预设条件，服务器100会向客户端300发送修复后的视频序列帧图像。可以理解的是，上述预设条件仅仅是为了说明技术方案的举例，在本申请实施例的其他实施方式中，各项指标的取值可以做相应的调整。上述方案可以根据各项指标精确筛选出修复效果良好的直播视频帧图像发送到客户端，在保障直播的沉浸性需求的前提下对高质量的目标物体消除效果进行呈现。

进一步地，在本申请实施例中，还可以在向客户端300发送原始视频序列帧图像的步骤之前，在原始视频序列帧图像中添加所述修复后的视频序列帧图像的指标值不满足预设指标阈值的指标的指标信息。如此设计可以在客户端300显示时输出原始视频序列帧图像中呈现具有良好解释性的修复建议，以便可以通过状态提示针对性地改善修复条件。

进一步地，请参照图5，图5为本申请实施例提供的直播视频图像处理装置200的一种功能模块示意图，本申请实施例可以根据服务器执行的方法实施例对直播视频图像处理装置200进行功能模块的划分，也即该直播视频图像处理装置200所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中，该基于直播视频图像处理装置200可以包括获取模块210、分割模块220、修复模块230及确定模块240，下面分别对该直播视频图像处理装置200的各个功能模块的功能进行详细阐述。

获取模块210，用于获取直播间的原始视频序列帧图像。

本实施例中，可以由主播端的客户端300采集得到当前直播间的原始视频序列帧图像，并将原始视频序列帧图像发送给获取模块210。

本实施例中，获取模块210可以用于执行上述的步骤S11，关于获取模块210的详细实现方式可以参照上述针对步骤S11的详细描述。

分割模块220，用于对所述原始视频序列帧图像进行图像分割处理，在每一帧图像中定位并分割出目标物体所对应的目标区域。

在本申请实施例中，分割模块220除了分割出目标物体所对应的目标区域之外，还可以分割出人像及人体关键部位对应的图像区域，其中，人体关键部位可以包括，但不限于，人脸、五官以及手部等部位。

本实施例中分割模块220可以用于执行上述的步骤S12，关于分割模块220的详细实现方式可以参照上述针对步骤S12的详细描述。

修复模块230，用于对所述每一帧图像中的目标区域进行图像修复处理，得到修复后的视频序列帧图像。

视频图像修复相比基于单帧图像的图像修复，需要进一步编码时间信息，以实现修复结果在时间维度上的连贯性。在本实施例中，修复模块230，可以采用基于时空联合Transformer网络(STTN)对目标区域进行图像修复处理。

本实施例中修复模块230可以用于执行上述的步骤S13，关于修复模块230的详细实现方式可以参照上述针对步骤S13的详细描述。

确定模块240，用于计算所述修复后的视频序列帧图像的画面状态修复评价指标值，基于所述画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向所述客户端发送所述修复后的视频序列帧图像。

确定模块240采用修复后的视频序列帧图像计算画面状态修复评价指标值，画面状态修复评价指标可以基于多维度的图像语义信息进行设计以用于综合判断画面状态的评价指标，通过画面状态修复评价指标值与预设的画面状态修复评价指标阈值可以正确识别有利于目标物体修复的环境条件(比如，目标物体不遮挡人脸)，避免因修复质量不佳的视频序列帧图像发送给观众端的客户端，导致的直播画面整体劣化。

本实施例中确定模块240可以用于执行上述的步骤S14，关于确定模块240的详细实现方式可以参照上述针对步骤S14的详细描述。

需要说明的是，应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以在物理上分开。且这些模块可以全部以软件(比如，开源软件)可以通过处理器调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理器调用软件的形式实现，部分模块通过硬件的形式实现。作为一种示例，确定模块240可以由单独处理器运行实现，可以以程序代码的形式存储于上述装置或系统的存储器中，由上述装置或系统的某一个处理器调用并执行以上确定模块240的功能，其它模块的实现与之类似，在此就不再赘述。此外这些模块可以全部或部分集成在一起，也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路，在实现过程中，上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。

请参照图6，图6示出了本公开实施例提供的用于实现上述的直播视频图像处理方法的服务器100的硬件结构示意图。如图6所示，服务器100可包括处理器110、计算机可读存储介质120、总线130及通信单元140。

在具体实现过程中，处理器110执行计算机可读存储介质120存储的计算机执行指令(例如图5中所示的直播视频图像处理装置200中的各个模块)，使得处理器110可以执行如上方法实施例的视频编码参数组合确定方法，其中，处理器110、计算机可读存储介质120以及通信单元140可以通过总线130连接。

处理器110的具体实现过程可参见上述服务器100执行的各个方法实施例，其实现原理和技术效果类似，本申请实施例此处不再赘述。

计算机可读存储介质120可以是，但不限于，随机存取存储器(RandomAccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序或者数据。

总线130可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

通信单元140用于与客户端300通信，以实现服务器100与客户端300之间的数据交互。

此外，本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的直播视频图像处理方法。

综上所述，本申请实施例提供的直播视频图像处理方法、装置及服务器，首先，对原始视频序列图像进行图像分割，在每一帧图像中定位并分割出目标物体所对应的目标区域；接着，对每一帧图像中的目标区域进行图像修复处理得到修复后的视频序列帧图像；最后，基于修复后的视频序列帧图像计算画面状态修复评价指标值，并根据画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向客户端发送修复后的视频序列帧图像。如此，可以在将修复后的视频序列帧图像发送给客户端之前，对修复后的视频序列帧图像的画面状态进行评估确认，避免修复质量不佳的视频序列帧图像发送给客户端而导致的直播画面整体劣化。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。基于此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种直播视频图像处理方法，其特征在于，应用于服务器，所述服务器与客户端通信连接，所述方法包括：

获取直播间的原始视频序列帧图像；

2.如权利要求1所述的直播视频图像处理方法，其特征在于，所述对所述原始视频序列帧图像进行图像分割处理，在每一帧图像中定位并分割出目标物体所对应的目标区域的步骤，包括：

3.如权利要求2所述的直播视频图像处理方法，其特征在于，所述对所述每一帧图像中的目标区域进行图像修复处理，得到修复后的视频序列帧图像的步骤，包括：

4.如权利要求3所述的直播视频图像处理方法，其特征在于，所述确定所述视频序列片段的待修复区域的步骤，包括：

计算所述视频序列片段中各帧图像中目标区域的尺寸；

5.如权利要求3或4所述的直播视频图像处理方法，其特征在于，所述计算所述修复后的视频序列帧图像的画面状态修复评价指标值，基于所述画面状态修复评价指标值与预设的画面状态修复评价指标阈值确定是否向所述客户端发送所述修复后的视频序列帧图像的步骤，包括：

6.如权利要求5所述的直播视频图像处理方法，其特征在于，所述画面状态修复评价指标包括单帧状态指标及多帧稳定性指标，其中，所述单帧状态指标包括人像遮挡比例、人脸遮挡比例、五官遮挡状态、目标物体手持状态、目标物体分割掩膜的置信度、修复后人像分割掩膜的置信度；所述多帧稳定性指标包括修复后人像分割掩膜的抖动率，目标区域内的图像的抖动率。

7.如权利要求6所述的直播视频图像处理方法，其特征在于，所述将所述画面状态修复评价指标值与所述预设的画面状态修复评价指标阈值进行比较，在所述画面状态修复评价指标值满足所述预设的画面状态修复评价指标阈值时，向所述客户端发送所述修复后的视频序列帧图像；在所述画面状态修复评价指标值不满足预设的画面状态修复评价指标阈值时，向所述客户端发送所述原始视频序列帧图像的步骤，包括：

8.如权利要求7所述的直播视频图像处理方法，其特征在于，在向所述客户端发送所述原始视频序列帧图像的步骤之前，所述方法还包括：

9.一种直播视频图像处理装置，其特征在于，应用于服务器，所述服务器与客户端通信连接，所述装置包括：

获取模块，用于获取直播间的原始视频序列帧图像；

10.一种服务器，其特征在于，所述服务器包括处理器、通信单元及计算机可读存储介质，所述处理器、所述通信单元及所述计算机可读存储介质之间通过总线系统连接，所述通信单元用于连接客户端以实现所述服务器与所述客户端之间的数据交互，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现权利要求1-8中任意一项所述的直播视频图像处理方法。