CN117078564A

CN117078564A - 视频会议画面的智能生成方法及其系统

Info

Publication number: CN117078564A
Application number: CN202311336444.8A
Authority: CN
Inventors: 周磊; 朱云
Original assignee: Beijing Iactive Network Co ltd
Current assignee: Beijing Iactive Network Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-17
Anticipated expiration: 2043-10-16
Also published as: CN117078564B

Abstract

本发明提供一种视频会议画面的智能生成方法及其系统。本发明针对视频会议中由于网络传输导致的画面残缺、模糊和色彩失真、畸变、纹理劣化等问题，通过深度学习模型对损坏的画面进行分析和修复，提高视频会议画面的质量和稳定性，所述深度学习模型引入自注意力机制判断损坏画面的损坏模式类型，并采用与损坏模式类型相匹配的预测生成方式，生成修复画面，并将修复画面与原始画面进行融合，得到最终的修复结果。

Description

视频会议画面的智能生成方法及其系统

技术领域

本发明涉及网络视频技术领域，特别涉及一种视频会议画面的智能生成方法及其系统。

背景技术

目前，随着视频会议的广泛应用，画面质量和稳定性成为用户关注的重点。然而，由于网络问题，视频会议中经常出现画面残缺、模糊和色彩失真、畸变、纹理劣化等问题，影响了用户的使用体验。

现有的视频会议画面修复方法主要基于传统的图像处理技术，例如针对视频会议的一帧低分辨率画面进行超分辨率处理，得到对应的高分辨率视频会议画面。但这些方法往往无法准确地恢复损坏的画面，并且需要耗费大量的计算资源。

因此，需要提出一种新的视频会议画面修复的方法，能够更准确地恢复损坏的画面，并提高修复效率。

发明内容

本发明提供一种视频会议画面的智能生成方法及其系统。本发明针对视频会议中由于网络传输导致的画面残缺、模糊和色彩失真、畸变、纹理劣化等问题，提出一种基于深度学习的视频会议画面智能生成方法和系统，旨在通过深度学习模型对损坏的画面进行分析和修复，提高视频会议画面的质量和稳定性。其中，所述深度学习模型引入自注意力机制（self-attention）来提取损坏画面的全局性图像特征，基于全局性图像特征判断损坏画面的损坏模式类型，并采用与损坏模式类型相匹配的预测生成方式，生成修复画面，并将修复画面与原始画面进行融合，得到最终的修复结果。

本发明提供的视频会议画面的智能生成方法，其特征在于，包括：

收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理；

利用所述训练数据训练用于损坏画面模式识别的深度学习模型；所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征，基于全局性图像特征判断损坏画面的损坏模式类型；

将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型，获得该视频会议损坏画面的损坏模式类型；

采用与损坏模式类型相匹配的预测生成方式，对所述视频会议损坏画面生成修复画面；将修复画面与原始的视频会议损坏画面进行融合，得到最终的视频会议画面。

优选的是，所述对训练数据进行预处理包括：对于训练数据，以标签的形式，对其损坏区域以及损坏模式类型执行标注，从而建立视频会议损坏画面和损坏标签的训练数据集合。

优选的是，所述损坏标签表示了视频会议损坏画面中包含的多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框。

优选的是，所述损坏模式类型包括：画面残缺、模糊和色彩失真、畸变、纹理劣化；所述区域位置框是一个以该区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。

优选的是，所述深度学习模型包括：ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。

优选的是，利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括：每一轮迭代训练中，将训练样本的损坏画面输入后，ResNet-50网络卷积层单元得到低分辨率特征图；全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图，进而，将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作，输入所述Transformer多头自注意力编码器单元；所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征；所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中，与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互，并行地输出对损坏区域的解码特征；所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征，得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签。

优选的是，在每一轮的训练迭代中，利用代入深度学习模型的训练样本中的损坏标签以及所述预测标签，构造损失预测函数。

优选的是，将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型，识别该实际的视频会议损坏画面中的每个损坏区域，并根据深度学习模型预测的预测标签，获得该每个损坏区域所对应的损坏模式类型，以及每个损坏区域对应的区域位置框。

优选的是，采用与损坏模式类型相匹配的预测生成方式，对所述视频会议损坏画面生成修复画面具体包括：损坏模式类型为画面残缺以及模糊和色彩失真时，从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面；损坏模式类型为畸变时，对损坏画面进行边缘检测，使用Sobel算子提取边缘信息，然后，根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对，获得修复画面；损坏模式类型为纹理劣化时，对损坏画面进行纹理分析，提取纹理信息，然后根据纹理信息，使用纹理填充算法对损坏的纹理部分进行填充。

本发明进而提供的一种视频会议画面的智能生成系统，其特征在于，包括：

视频会议损坏画面收集单元，收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理；

损坏画面模式识别单元，包括用于损坏画面模式识别的深度学习模型；所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征，基于全局性图像特征判断损坏画面的损坏模式类型；所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型，然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型，获得该视频会议损坏画面的损坏模式类型；

画面修复单元，用于采用与损坏模式类型相匹配的预测生成方式，对所述视频会议损坏画面生成修复画面；将修复画面与原始的视频会议损坏画面进行融合，得到最终的视频会议画面。

本发明方法通过引入深度学习模型和自注意力机制，能够准确地恢复损坏的视频会议画面，并提高画面质量和稳定性。相比传统的图像处理方法，本方法具有更高的修复准确性和效率，能够有效解决视频会议中画面质量问题。该方法对于提升视频会议用户体验，推动视频会议技术的发展具有重要意义。

附图说明

下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视频会议画面的智能生成方法的流程图；

图2是本发明提供的深度学习模型的结构图；

图3是本发明提供的视频会议画面的智能生成系统结构图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。

需要说明的是：在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参考图1，本发明提供的视频会议画面的智能生成方法，其特征在于，包括：

S1：收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理；

S2：利用所述训练数据训练用于损坏画面模式识别的深度学习模型；所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征，基于全局性图像特征判断损坏画面的损坏模式类型；

S3：将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型，获得该视频会议损坏画面的损坏模式类型；

S4：采用与损坏模式类型相匹配的预测生成方式，对所述视频会议损坏画面生成修复画面；将修复画面与原始的视频会议损坏画面进行融合，得到最终的视频会议画面。

具体来说，步骤S1中，从真实的视频会议画面中，收集具备画面残缺、模糊和色彩失真、畸变、纹理劣化等问题的视频会议损坏画面，作为训练数据。具体来说，在真实的视频会议场景中，可以利用视频会议软件的质量反馈插件，在获得用户授权的前提下收集以上视频会议损坏画面的数据。

步骤S1中，对训练数据进行预处理。对收集到的训练数据进行去噪处理，去除画面中的噪声；同时，进行对比度增强操作，以提高训练数据的质量。

进而，预处理还包括：对于训练数据，以标签的形式，对其损坏区域以及损坏模式类型执行标注，从而建立视频会议损坏画面和损坏标签的训练数据集合，表示为: ;

其中，表示训练数据集合的第张视频会议损坏画面，3是该损坏画面的颜色通道数，是损坏画面的图像高度像素值，是损坏画面的图像宽度像素值；表示该第张视频会议损坏画面的损坏标签，该标签表示了该第张视频会议损坏画面中包含的最多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框，每个损坏区域对应的标签，其中表示该第张视频会议损坏画面的第个损坏区域的损坏模式类型，损坏模式类型包括但不限于画面残缺、模糊和色彩失真、畸变、纹理劣化等；表示该第张视频会议损坏画面的第个损坏区域的区域位置框，其是一个以区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。

步骤S2中，利用所述训练数据的集合训练用于损坏画面模式识别的深度学习模型，将集合的每一组视频会议损坏画面和损坏标签，在各轮训练迭代中，依次作为代入该深度学习模型的训练样本，其中表示在本轮训练迭代中代入的训练样本中视频会议损坏画面，该训练样本的损坏标签，且,；，其中表示本轮训练迭代中代入的视频会议损坏画面中的第个损坏区域对应的损坏模式类型，表示该第个损坏区域对应的区域位置框。

所述深度学习模型如图2所示，包括ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。

所述ResNet-50网络卷积层单元的神经网络模型表示为，其中是每一轮迭代训练中ResNet-50网络卷积层单元的神经网络所有参数在本轮取值构成的参数张量；在首轮训练中ResNet-50网络卷积层单元的神经网络模型为，其中是 ResNet-50网络卷积层单元的神经网络所有参数的初始值所构成的参数张量。每一轮迭代训练中，将训练样本的损坏画面输入后，ResNet-50网络卷积层单元得到低分辨率特征图：。

全卷积层单元的模型表示为，其中是每一轮迭代该全卷积层单元的所有参数在本轮取值构成的参数张量；使用个的卷积核拼接成；在首轮训练中初始化。每一轮迭代中，通过将特征图降维成通道数为的新的高水平特征图，即：。进而，全卷积层单元将特征图和位置编码参数相加, 然后执行形状更改(reshape)操作，将两者之和求出的张量中的的平面形状拉直为，并转置成为的张量，记为，即：；

作为Transformer多头自注意力编码器单元的输入。

所述Transformer多头自注意力编码器单元基于多头自注意力机制，针对视频会议损坏画面提取的特征图，学习该损坏画面的全局性图像特征，为下面的解码器即出预测框铺垫。该Transformer多头自注意力编码器单元的模型表示为，其中是该编码器所有参数在本轮迭代中的取值构成的参数张量，可见该编码器将特征图基于多头自注意力机制全局编码为同样形状的特征编码。

所述Transformer交叉注意力解码器在对给定N个损坏区域执行目标查询（object query）的过程中，与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互，从而可以并行地输出对N个损坏区域的解码特征。所述Transformer交叉注意力解码器的模型为：，其中是该解码器所有参数在本轮迭代中的取值构成的参数张量。该解码器将特征编码和目标查询(object queries)的参数张量通过交叉注意力(cross-attention) 机制解码，得到对N个损坏区域的预测解码特征，为N个损坏区域的预测解码特征组成的张量。

所述损坏模式分类器的模型为，是该分类器所有参数在本轮迭代中的参数值构成的参数张量。以及，所述损坏区域位置框输出器的模型表示为，是该输出器所有参数在本轮迭代中的参数值构成的参数张量；二者均可以采用FFN前馈神经网络。二者输入所述Transformer交叉注意力解码器对第1,2…N个损坏区域的预测解码特征，得到含有N个损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签，即：；

可表示为：；

其中:。

在每一轮的训练迭代中，利用代入该深度学习模型的训练样本中的标签以及上述预测标签，构造损失预测函数：；

其中表示预测标签的集合中第个损坏区域对应的第个损坏模式类型符合训练样本标签中的第个损坏模式类型的概率值，则表示训练样本标签中的第个损坏区域对应的区域位置框和预测标签中的区域位置框的二者的偏移量化值，与二者偏移面积成正比。

在本步骤中，利用所述训练数据的集合执行各轮迭代训练，对ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器等各个模型的参数量在初始值基础上持续调参赋值，直至损失函数达到预期，则完成对实施损坏画面模式识别的深度学习模型的训练。

步骤S3中，将当前实际的视频会议损坏画面，输入经过步骤S1至S2训练优化模型参数后的所述深度学习模型，识别该实际的视频会议损坏画面中的每个损坏区域，并根据深度学习模型预测的预测标签，获得该每个损坏区域所对应的损坏模式类型，以及每个损坏区域对应的区域位置框。具体来说，根据预测标签中的第个损坏区域对应的第个损坏模式类型概率值，取其中最大的概率值对应的损坏模式类型，以及确定对应的区域位置框。

步骤S4中，根据损坏模式类型，选择相应的预测生成方式，对所述视频会议损坏画面生成修复画面。损坏模式类型为画面残缺以及模糊和色彩失真时，则可以从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面；损坏模式类型为畸变时，对损坏画面进行边缘检测，使用Sobel算子提取边缘信息，然后，根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对，获得修复画面；损坏模式类型为纹理劣化时，对损坏画面进行纹理分析，提取纹理信息，然后根据纹理信息，使用纹理填充算法对损坏的纹理部分进行填充。进而，将修复画面与原始的视频会议损坏画面进行融合，得到最终的视频会议画面。修复画面与原始的视频会议损坏画面融合过程可以通过像素级的加权平均、图像融合算法等方法实现，以保留原始画面的细节和特征。

参考图3，本发明进而提供的一种视频会议画面的智能生成系统，包括：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频会议画面的智能生成方法，其特征在于，包括：

2.根据权利要求1所述的视频会议画面的智能生成方法，其特征在于，所述对训练数据进行预处理包括：对于训练数据，以标签的形式，对其损坏区域以及损坏模式类型执行标注，从而建立视频会议损坏画面和损坏标签的训练数据集合。

3.根据权利要求2所述的视频会议画面的智能生成方法，其特征在于，所述损坏标签表示了视频会议损坏画面中包含的多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框。

4.根据权利要求3所述的视频会议画面的智能生成方法，其特征在于，所述损坏模式类型包括：画面残缺、模糊和色彩失真、畸变、纹理劣化；所述区域位置框是一个以该区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。

5.根据权利要求4所述的视频会议画面的智能生成方法，其特征在于，所述深度学习模型包括：ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。

6.根据权利要求5所述的视频会议画面的智能生成方法，其特征在于，利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括：每一轮迭代训练中，将训练样本的损坏画面输入后，ResNet-50网络卷积层单元得到低分辨率特征图；全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图，进而，将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作，输入所述Transformer多头自注意力编码器单元；所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征；所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中，与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互，并行地输出对损坏区域的解码特征；所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征，得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签。

7.根据权利要求6所述的视频会议画面的智能生成方法，其特征在于，在每一轮的训练迭代中，利用代入深度学习模型的训练样本中的损坏标签以及所述预测标签，构造损失预测函数。

8.根据权利要求7所述的视频会议画面的智能生成方法，其特征在于，将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型，识别该实际的视频会议损坏画面中的每个损坏区域，并根据深度学习模型预测的预测标签，获得该每个损坏区域所对应的损坏模式类型，以及每个损坏区域对应的区域位置框。

9.根据权利要求8所述的视频会议画面的智能生成方法，其特征在于，采用与损坏模式类型相匹配的预测生成方式，对所述视频会议损坏画面生成修复画面具体包括：损坏模式类型为画面残缺以及模糊和色彩失真时，从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面；损坏模式类型为畸变时，对损坏画面进行边缘检测，使用Sobel算子提取边缘信息，然后，根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对，获得修复画面；损坏模式类型为纹理劣化时，对损坏画面进行纹理分析，提取纹理信息，然后根据纹理信息，使用纹理填充算法对损坏的纹理部分进行填充。

10.一种视频会议画面的智能生成系统，其特征在于，包括：