CN117714697A

CN117714697A - 数字人视频显示方法及设备

Info

Publication number: CN117714697A
Application number: CN202410164673.4A
Authority: CN
Inventors: 王亚; 赵策; 屠静; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
Original assignee: Zhuo Shi Future Chengdu Technology Co ltd
Current assignee: Zhuo Shi Future Chengdu Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-03-15
Anticipated expiration: 2044-02-05
Also published as: CN117714697B

Abstract

本发明涉及视频显示技术领域，具体涉及数字人视频显示方法及设备，该方法包括：获取数字人视频图像，将各关键帧数字人视频图像划分为各编码树单元，获取各编码树单元的纹理复杂度，根据编码树单元的纹理复杂度得到相邻帧数字人视频图像中对应编码树单元间的相似性，进而获取各编码树单元的人眼综合感知指数，根据人眼综合感知指数得到自适应拉格朗日乘子，改进VVC标准码率控制算法，完成数字人视频显示。本发明旨在降低数字人视频显示的失真率，提高视频显示的逼真度，实现数字人视频显示。

Description

数字人视频显示方法及设备

技术领域

本发明涉及视频显示技术领域，具体涉及数字人视频显示方法及设备。

背景技术

对于音视频合成之后的数字人视频通常需要进行视频编码。视频编码是指将未压缩的视频信号转换为特定编码格式的过程，其中包括压缩视频数据以减小传输文件大小，提高传输效率。视频编码通常包括选择合适的视频编解码器（例如H.264、H.265等），设置视频比特率、分辨率、帧率等参数，以及选择合适的音频编解码器和设置音频参数。通过视频编码，可以将合成的视频数据转换为特定格式，并且可以根据需要进行压缩，以便在传输或存储过程中节省带宽和存储空间。

因此，在音视频合成之后，通常会对合成的视频进行编码，以生成最终的可用于存储或传输的视频文件。然而，现有的多功能视频编码在率失真优化中，仍然采用均方误差（Mean SquareError，MSE）等客观指标作为失真度量，未充分考虑人眼视觉感知特性，使得视频压缩编码客观质量与人眼主观视觉感受并不完全一致，影响视频的视觉观看体验。

发明内容

为了解决上述技术问题，本发明的目的在于提供数字人视频显示方法及设备，所采用的技术方案具体如下：

第一方面，本发明实施例提供了数字人视频显示方法，该方法包括以下步骤：

利用关键帧提取算法获取各关键帧数字人视频图像；

将各关键帧数字人视频图像均等划分为各编码树单元；对各编码树单元进行灰度分阶获取各编码树单元的灰阶个数；根据各编码树单元的灰阶个数得到各编码树单元的纹理复杂程度；根据纹理复杂程度的差异得到各关键帧数字人视频图像中各编码树单元的相似性；根据纹理复杂程度得到各编码树单元的纹理复杂区域、纹理平坦区域；根据各编码树单元间的相似性得到各编码树单元的剧烈变化区域、微小运动变化区域；结合纹理复杂区域、纹理平坦区域、剧烈变化区域及微小运动变化区域得到各编码树单元间的人眼综合感知指数；根据人眼综合感知指数得到各编码树单元的自适应拉格朗日乘子；结合自适应拉格朗日乘子与VVC标准码率控制算法完成数字人视频显示。

优选的，所述对各编码树单元进行灰度分阶获取各编码树单元的灰阶个数，包括：

针对各编码树单元，将各像素点的灰度值作为聚类算法的输入，输出的聚类簇的个数作为各编码树单元的灰阶个数，计算各聚类簇的灰度均值，将所有灰度均值降序排序，从1开始进行标记，作为各聚类簇内各像素点的标记值，将各像素点的灰度值映射至标记值的最大、最小值之间，将各像素点映射后的灰度值作为各像素点的映射值。

优选的，所述根据各编码树单元的灰阶个数得到各编码树单元的纹理复杂程度，包括：

针对各编码树单元的各聚类簇，计算各聚类簇的像素点个数与编码树单元总像素点个数的比值，作为各聚类簇标记值的出现概率，计算各聚类簇中各像素点的映射值与标记值的差值绝对值，计算各聚类簇中所有像素点的所述差值绝对值的和值，计算所述和值与所述出现概率的乘积，将编码树单元中所有聚类簇的所述乘积的和值的倒数与编码树单元中所有像素点灰度值的方差的乘积作为各编码树单元的纹理复杂程度。

优选的，所述根据纹理复杂程度的差异得到各关键帧数字人视频图像中各编码树单元的相似性，表达式为：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的相似性，/>表示第j关键帧数字人视频图像中第i个编码树单元的纹理复杂程度，/>表示第j-1关键帧数字人视频图像中相同位置的第i个编码树单元的纹理复杂程度，/>表示第j关键帧数字人视频图像中第i个编码树单元中所有像素点的灰度值标准差，/>表示第j-1关键帧数字人视频图像中相同位置的第i个编码树单元中所有像素点的灰度值标准差，/>表示第j关键帧数字人视频图像中第i个编码树单元中所有像素点的灰度值均值，/>表示第j-1关键帧数字人视频图像中相同位置的第i个编码树单元中所有像素点的灰度值均值，/>表示以自然常数为底数的指数函数。

优选的，所述根据纹理复杂程度得到各编码树单元的纹理复杂区域、纹理平坦区域，包括：

针对各关键帧数字人视频图像，计算所有编码树单元的纹理复杂程度的均值，作为复杂阈值，将纹理复杂程度大于等于复杂阈值的编码树单元作为纹理复杂区域；将纹理复杂程度小于复杂阈值的编码树单元作为纹理平坦区域。

优选的，所述根据各编码树单元间的相似性得到各编码树单元的剧烈变化区域、微小运动变化区域，包括：

针对各关键帧数字人视频图像，计算所有编码树单元的相似性的均值，作为变化阈值，将相似性大于等于变化阈值的编码树单元作为剧烈变化区域；将相似性小于变化阈值的编码树单元作为微小运动变化区域。

优选的，所述结合纹理复杂区域、纹理平坦区域、剧烈变化区域及微小运动变化区域得到各编码树单元间的人眼综合感知指数，包括：

当编码树单元属于纹理平坦区域与剧烈变化区域的交集区域时：

当编码树单元属于纹理平坦区域，但不属于剧烈变化区域时：

当编码树单元属于剧烈变化区域，但不属于纹理平坦区域时：

当编码树单元为其他情况时：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的人眼综合感知指数，/>表示第j关键帧数字人视频图像中第i个编码树单元的纹理复杂程度，/>表示第j关键帧数字人视频图像中纹理复杂程度的最小值，/>表示第j关键帧数字人视频图像中纹理复杂程度的最大值，/>表示第j关键帧数字人视频图像中第i个编码树单元的相似性，表示第j关键帧数字人视频图像中相似性的最小值，/>表示第j关键帧数字人视频图像中相似性的最大值。

优选的，所述根据人眼综合感知指数得到各编码树单元的自适应拉格朗日乘子，表达式为：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的自适应拉格朗日乘子，/>表示第j关键帧数字人视频图像中所有纹理平坦区域内的像素点总个数，/>表示第j关键帧数字人视频图像中所有剧烈变化区域内的像素点总个数，/>表示第j关键帧数字人视频图像中所有纹理平坦区域与剧烈变化区域内的像素点总个数，/>表示第j关键帧数字人视频图像中第i个编码树单元的人眼综合感知指数，/>表示归一化函数，/>表示以自然常数为底数的指数函数，/>表示取最大值函数，/>表示已知参数。

优选的，所述结合自适应拉格朗日乘子与VVC标准码率控制算法完成数字人视频显示，包括：

针对各关键帧数字人视频图像，利用各编码树单元的自适应拉格朗日乘子改进VVC标准码率控制算法，获取视频失真率最小情况下视频编码的码率，分别统计微小运动变化区域与剧烈变化区域的个数；

若微小运动变化区域的个数大于剧烈变化区域的个数，基于所述码率采用帧内编码，若微小运动变化区域的个数小于等于剧烈变化区域的个数，基于所述码率采用帧间编码，编码后采用量化、压缩、解码、重构步骤进行数字人视频显示。

第二方面，本发明实施例还提供了数字人视频显示设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明至少具有如下有益效果：

考虑到人眼对纹理以及变化的感知，对数字人视频中的纹理区域以及纹理变化进行分析，构建纹理复杂程度以及相邻帧数字人视频图像之间的相似性，结合两者特征对人眼综合感知指数进行构建，对VVC中率失真参数进行优化，对各帧数字人视频图像在保持视频质量不变的情况下，更高效的节省码率，提高VVC编码器的率失真性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的数字人视频显示方法的步骤流程图；

图2为数字人视频显示指标获取流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的数字人视频显示方法及设备，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的数字人视频显示方法及设备的具体方案。

请参阅图1，其示出了本发明一个实施例提供的数字人视频显示方法的步骤流程图，该方法包括以下步骤：

步骤S001，获取数字人视频图像，并进行预处理。

本实施例采用SadTalker数字人视频制作工具，获取数字人视频，实施者可采用其他数字人视频制作工具，本实施例对此不做限制。考虑到对各帧数字人视频图像进行分析，数据量过大，故本实施例采用关键帧提取算法提取数字人视频中的关键帧，其中关键帧提取算法为现有公知技术，本实施例在此不做详细赘述，针对各关键帧数字人视频图像，采用平均值法将关键帧数字人视频图像转换为灰度图像，并采样高斯滤波算法对灰度图像进行去噪，得到去噪后的数字人视频灰度图像，以便于后续分析。其中平均值法与高斯滤波算法均为现有公知技术，本实施例在此不做详细赘述。

步骤S002，将数字人视频图像划分为各编码树单元，获取各编码树单元的纹理复杂程度，根据纹理复杂程度得到各编码树单元的相似性，进而得到各编码树单元的人眼综合感知指数，根据人眼综合感知指数得到各编码树单元的自适应拉格朗日乘子。

具体的，本实施例将各关键帧数字人视频图像划分为各编码树单元，获取各编码树单元的纹理复杂度，根据编码树单元的纹理复杂度得到相邻帧数字人视频图像中对应编码树单元间的相似性，进而获取各编码树单元的人眼综合感知指数，根据人眼综合感知指数得到自适应拉格朗日乘子，改进VVC标准码率控制算法，完成数字人视频显示，具体数字人视频显示指标获取流程图如图2所示。各关键帧数字人视频图像中各编码树单元的自适应拉格朗日乘子的构建过程具体为：

视频编码的主要目标是在保证一定视频质量的前提下尽量减少编码速率，或在限定编码速率条件下尽量减小编码失真。为使得视频编码失真率最小，通过引入拉格朗日乘子将视频编码转化为无约束的优化问题，但传统引入的拉格朗日乘子为固定值，未结合人眼感知因素，使得获取的编码速率并未展示较好的视频显示效果，故本实施例对引入的拉格朗日乘子进行分析。

首先本实施例基于VVC（Versatile Video Codin，多功能视频编码）标准将各帧数字人视频图像划分为各编码树单元（Coding Tree Units，CTU），具体为现有公知技术，本实施例在此不做详细赘述。由于码率分配的基本单元是编码树单元，为了保持一致性，本实施例的基本单元也为编码树单元，分析每个编码树单元在视觉处理中的重要性，包括：纹理特征以及运动特征。

基于各关键帧的数字人视频图像中的编码单元进行分析，本实施例以64×64的编码树单元为例进行分析，编码树单元的尺寸实施者可根据实际情况自行设定，本实施例对此不做限制。

具体的，首先对各帧数字人视频图像的编码树单元进行灰度分阶，本实施例采用DBSCAN密度聚类算法，将各编码树单元中各像素点的灰度值作为DBSCAN聚类算法的输入，输出的聚类簇的个数作为各编码树单元的灰阶个数，计算各编码树单元中各聚类簇的灰度均值，将所有灰度均值降序排序，从1开始进行标记，作为各聚类簇内各像素点的标记值，即将灰度均值最大的聚类簇中各像素点标记为1，将灰度均值第二大的聚类簇中各像素点标记为2，以此类推，完成所有聚类簇的标记，然后将各像素点的灰度值映射至标记值的最大、最小值之间，例如标记值的取值为[1,5]，则将各像素点的灰度值均映射到[1,5]区间内，将各像素点映射后的灰度值作为各像素点的映射值，以此完成灰度分阶，其中DBSCAN密度聚类算法为现有公知技术，本实施例在此不做详细赘述，获取各帧数字人视频图像中各编码树单元的纹理复杂程度，表达式为：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的纹理复杂程度，/>表示第i个编码树单元的灰阶个数，/>表示第i个编码树单元中标记值k的出现概率，/>表示第i个编码树单元中标记值k的差异因子，/>表示第i个编码树单元中标记值为k的像素点个数，/>表示第i个编码树单元中标记值为k聚类簇中第j个像素点的映射值，/>表示第i个编码树单元中所有像素点的灰度值方差。

本实施例通过提取各关键帧数字人视频图像的编码树单元的灰度差绝对值的加权平均以及灰度方差值表征纹理复杂程度。值越小，说明在该关键帧数字人视频图像中，灰阶对应像素与其周围像素之间的差异越小，编码树单元中的空间变化也就越小，编码树单元的纹理就更为复杂；通常来讲，灰度方差值越大，表明当前编码树单元纹理越复杂，反之则表明当前编码树单元纹理越平坦。

由此得到各关键帧数字人视频图像中所有编码树单元的纹理复杂程度。针对各编码树单元，在视频显示时应给予信息量最大的编码树单元高的权重以及优先级，因为该编码树单元通常包含数字人场景的主要视觉信息，对于理解和分析视频图像内容较为重要。

故根据相邻关键帧数字人视频图像之间相同位置编码树单元的纹理复杂程度的差异，计算各关键帧数字人视频图像中各编码树单元的相似性，表达式为：

当相邻两关键帧数字人视频图像中同一编码树单元之间的纹理复杂程度差异越大，说明该编码树单元在相邻两关键帧数字人视频图像中的变化越大，相似性就越小；用标准差与均值的比值衡量编码树单元内灰度值的离散程度，当相邻两关键帧数字人视频图像中同一编码树单元之间的离散程度的差异越大，说明视频图像的变化越大，进而相似性就越小。

在视频处理中，视觉掩蔽效应通常表现在空间域和时间域。在空间域表现为人眼对纹理复杂区域的失真敏感度较低，而对纹理较平坦区域的失真敏感度较高；在时间域表现为人眼对于微小运动变化区域的失真敏感度较低，而对剧烈变化区域的失真敏感度较高。即是纹理较平坦区域和剧烈变化区域的失真更容易被人眼所察觉。

根据同一关键帧数字人视频图像的纹理复杂程度进行筛选，计算各关键帧数字人视频图像中所有编码树单元的纹理复杂程度的均值，将该均值设置为复杂阈值，将纹理复杂程度大于等于复杂阈值的编码树单元标记为纹理复杂区域；将纹理复杂程度小于复杂阈值的编码树单元标记为纹理平坦区域。

然后根据各关键帧数字人视频图像的相似性进行筛选，将各关键帧数字人视频图像中所有编码树单元的相似性均值作为变化阈值，将相似性大于等于变化阈值的编码树单元标记为剧烈变化区域；将相似性小于变化阈值的编码树单元标记为微小运动变化区域。

人眼对于纹理复杂程度不同的区域具有不同的感知度，对纹理平坦区域、剧烈变化区域比纹理复杂区域、微小运动变化区域的失真更为敏感，能够容忍的失真更小。据此，可获取各编码树单元的人眼综合感知指数，包括：

当编码树单元为其他情况时：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的人眼综合感知指数，/>表示第j关键帧数字人视频图像中第i个编码树单元的纹理复杂程度，/>表示第j关键帧数字人视频图像中纹理复杂程度的最小值，/>表示第j关键帧数字人视频图像中纹理复杂程度的最大值，/>表示第j关键帧数字人视频图像中第i个编码树单元的相似性，表示第j关键帧数字人视频图像中相似性的最小值，/>表示第j关键帧数字人视频图像中相似性的最大值，/>表示调节系数。本实施例中/>，实施者可根据实际情况自行设定，本实施例对此不做限制。

当编码树单元对应区域为纹理平坦区域，并且也为剧烈变化区域时，此时人眼感知程度是最大的；当编码树单元对应区域为纹理平坦区域或者剧烈变化区域时，人眼感知程度较大，但是由于在纹理复杂背景时，产生剧烈变化，这时纹理复杂程度反而会影响人眼对于视频动态的捕捉；同理当编码树单元处于纹理平坦区域和微小运动变化区域时，由于纹理过于平坦，发生微小运动但是人眼对于微小变化的捕捉不够灵敏，故此时的人眼感知程度会有一定程度的下降；当编码树单元对应区域为纹理复杂区域，并且也为微小运动变化区域时，人眼很难在复杂纹理环境中感知到微小变化，故本实施例中将此时的人眼综合感知程度设置为0。

在VVC标准码率控制算法中，关键参数拉格朗日乘子的确定是基于量化参数之间相对固定的映射关系模式，而人眼对于视频图像内容特征的感知并未得到充分考虑，因此本实施例结合人眼综合感知指数，构建自适应拉格朗日乘子，具体表达式为：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的自适应拉格朗日乘子，/>表示第j关键帧数字人视频图像中所有纹理平坦区域内的像素点总个数，/>表示第j关键帧数字人视频图像中所有剧烈变化区域内的像素点总个数，/>表示第j关键帧数字人视频图像中所有纹理平坦区域与剧烈变化区域内的像素点总个数，/>表示第j关键帧数字人视频图像中第i个编码树单元的人眼综合感知指数，/>表示归一化函数，/>表示以自然常数为底数的指数函数，/>表示取最大值函数，/>表示已知参数，为VVC标准码率控制算法中的各编码树单元的原始拉格朗日乘子。

利用进行归一化操作是考虑到若自适应拉格朗日乘子的值过大，将造成编码性能下降，采取归一化方法进行放缩到/>区间内，获得最终的自适应拉格朗日乘子。

步骤S003，根据优化后的自适应拉格朗日乘子对数字人视频进行视频编码。

针对各关键帧数字人视频图像，利用各编码树单元的自适应拉格朗日乘子改进VVC标准码率控制算法，获取视频失真率最小情况下视频编码的码率，然后选择适当的编码模式，具体为对于各编码树单元，分别统计微小运动变化区域与剧烈变化区域的个数，若微小运动变化区域的个数大于剧烈变化区域的个数，基于视频编码的码率采用帧内编码，若微小运动变化区域的个数小于等于剧烈变化区域的个数，基于视频编码的码率采用帧间编码，其中帧内编码与帧间编码均为现有公知技术，本实施例在此不做赘述。

然后对各编码树单元进行量化，生成最终的压缩数据。接收端对压缩数据进行解码和重构，还原为可播放的视频，完成数字人视频显示。具体量化、解码和重构过程均为现有公知技术，本实施例在此不做详细赘述。

基于与上述方法相同的发明构思，本发明实施例还提供了数字人视频显示设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数字人视频显示方法中任意一项所述方法的步骤。

综上所述，本发明实施例解决了数字人视频编码时由于其中的关键参数拉格朗日乘子未结合人眼感知特点，造成视频显示逼真度低的问题，通过结合VVC标准码率控制算法，获取视频失真率最小情况下视频编码的码率，降低了数字人视频显示的失真率，提高了数字人视频显示的逼真度。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.数字人视频显示方法，其特征在于，该方法包括以下步骤：

利用关键帧提取算法获取各关键帧数字人视频图像；

2.根据权利要求1所述的数字人视频显示方法，其特征在于，所述对各编码树单元进行灰度分阶获取各编码树单元的灰阶个数，包括：

3.根据权利要求2所述的数字人视频显示方法，其特征在于，所述根据各编码树单元的灰阶个数得到各编码树单元的纹理复杂程度，包括：

4.根据权利要求1所述的数字人视频显示方法，其特征在于，所述根据纹理复杂程度的差异得到各关键帧数字人视频图像中各编码树单元的相似性，表达式为：

5.根据权利要求1所述的数字人视频显示方法，其特征在于，所述根据纹理复杂程度得到各编码树单元的纹理复杂区域、纹理平坦区域，包括：

6.根据权利要求1所述的数字人视频显示方法，其特征在于，所述根据各编码树单元间的相似性得到各编码树单元的剧烈变化区域、微小运动变化区域，包括：

7.根据权利要求1所述的数字人视频显示方法，其特征在于，所述结合纹理复杂区域、纹理平坦区域、剧烈变化区域及微小运动变化区域得到各编码树单元间的人眼综合感知指数，包括：

当编码树单元为其他情况时：

式中，表示第j关键帧数字人视频图像中第i个编码树单元的人眼综合感知指数，表示第j关键帧数字人视频图像中第i个编码树单元的纹理复杂程度，/>表示第j关键帧数字人视频图像中纹理复杂程度的最小值，/>表示第j关键帧数字人视频图像中纹理复杂程度的最大值，/>表示第j关键帧数字人视频图像中第i个编码树单元的相似性，/>表示第j关键帧数字人视频图像中相似性的最小值，/>表示第j关键帧数字人视频图像中相似性的最大值，/>表示调节系数。

8.根据权利要求1所述的数字人视频显示方法，其特征在于，所述根据人眼综合感知指数得到各编码树单元的自适应拉格朗日乘子，表达式为：

9.根据权利要求1所述的数字人视频显示方法，其特征在于，所述结合自适应拉格朗日乘子与VVC标准码率控制算法完成数字人视频显示，包括：

10.数字人视频显示设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。