CN117197308A

CN117197308A - 数字人驱动方法、数字人驱动设备及存储介质

Info

Publication number: CN117197308A
Application number: CN202210599184.2A
Authority: CN
Inventors: 陆建国; 石挺干; 申光; 李军; 郑清芳
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-12-08
Also published as: WO2023231712A1

Abstract

本发明公开了一种数字人驱动方法、数字人驱动设备及存储介质，其中，数字人驱动方法包括：采集目标对象的图像信息和音频信息；对图像信息和音频信息进行识别判断，得到判断结果；根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征；将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器；通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。根据本申请实施例的方案，能够根据图像信息和音频信息的采集情况，对所采用的用于驱动数字人的运动特征进行灵活地选用，以得到表示效果更好的数字人。

Description

数字人驱动方法、数字人驱动设备及存储介质

技术领域

本发明涉及数字人技术领域，尤其是一种数字人驱动方法、数字人驱动设备及存储介质。

背景技术

随着元宇宙概念的兴起，作为元宇宙重要的载体，数字人技术备受关注。整个数字人行业也在飞速发展。虚拟数字人指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(例如：外貌特征、人类表演能力、交互能力等)的综合产物。根据任务形象的维度，数字人可分为2D卡通数字人、2D真人数字人、3D卡通数字人以及3D超写实数字人。其中，2D真人数字人具有逼真性高、动作表情自然的特定，因此在影视、传媒、教育、金融等领域得到了广泛的应用。

相关技术中，仅支持基于图像、语音或文字的单一模态数据驱动数字人，即使存在多种模态数据，现有技术中也只能选择其中一种模态数据进行驱动数字人。其中，基于图像驱动数字人时，对于对象人物的姿态要求严格，时常会因对象人物离开摄像头画面、或者因人物姿态过大面部情况不清晰，而导致无法有效地对数字人进行驱动；基于文字驱动数字人时，时常会将文字转换为语音后再基于语音驱动数字人，而基于语音驱动数字人虽然实现起来较为可靠，但生成的数字人会存在交互性弱的问题，在虚拟数字人与真人需要交互的场景中，使用传统的语音驱动数字人很难满足互动要求；无法灵活地使用多种模态数据进行数字人驱动处理，在实际应用中在一些突发情况的影响下，模态数据被破坏，在显示数字人时会出现画面跳变的情况，导致合成的数字人的真实性下降，降低用户体验。如何更有效地驱动数字人得到表示效果更好的数字人，是一个亟待解决的问题。

发明内容

本发明实施例提供了一种数字人驱动方法、数字人驱动设备及存储介质，能够根据图像信息和音频信息的采集情况，对所采用的用于驱动数字人的运动特征进行灵活地选用，以得到表示效果更好的数字人。

第一方面，本发明实施例提供了一种数字人驱动方法，所述方法包括：

采集目标对象的图像信息和音频信息；

对所述图像信息和所述音频信息进行识别判断，得到判断结果；

根据所述判断结果对所述图像信息和/或所述音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征；

将所述第一运动特征和/或所述第二运动特征、数字人基础图像输入至人物生成器；

通过所述人物生成器对所述数字人基础图像进行驱动处理，输出第一数字人驱动图像。

第二方面，本发明实施例还提供了一种数字人驱动设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的数字人驱动方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上所述的数字人驱动方法。

本发明实施例包括：采集目标对象的图像信息和音频信息；对图像信息和音频信息进行识别判断，得到判断结果；根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征；将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器；通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。本发明实施例的方案，能够通过采集目标对象的图像信息和音频信息，对图像信息和音频信息进行识别判断，得到判断结果，根据不同的判断结果，对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，通过人物生成器对得到第一运动特征和/或第二运动特征、数字人基础图像进行驱动处理，输出驱动后的数字人图像，能够根据图像信息和音频信息的采集情况，对所采用的用于驱动数字人的运动特征进行灵活地选用，基于不同采集情况下选用的运动特征进行对应的数字人驱动处理，以得到表示效果更好的数字人。

附图说明

图1是本发明一个实施例提供的数字人驱动方法的流程示意图；

图2是图1中步骤S130的具体方法的流程示意图；

图3是图1中步骤S140的具体方法的流程示意图；

图4是图1中步骤S130的具体方法的另一个流程示意图；

图5是图1中步骤S130的具体方法的另一个流程示意图；

图6是本发明另一个实施例提供的数字人驱动方法的流程示意图；

图7是本发明另一个实施例提供的数字人驱动方法的流程示意图；

图8是本发明另一个实施例提供的数字人驱动方法的流程示意图

图9是本发明一个实施例提供的应用于虚拟主播场景中的数字人驱动工作示意图；

图10是本发明一个实施例提供的数字人驱动设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数。此外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种数字人驱动方法、数字人驱动设备及计算机可读存储介质。通过本发明实施例的方案，能够通过采集目标对象的图像信息和音频信息，对图像信息和音频信息进行识别判断，得到判断结果，根据不同的判断结果，对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，通过人物生成器对得到第一运动特征和/或第二运动特征、数字人基础图像进行驱动处理，输出驱动后的数字人图像，能够根据图像信息和音频信息的采集情况，对所采用的用于驱动数字人的运动特征进行灵活地选用，基于不同采集情况下选用的运动特征进行对应的数字人驱动处理，以得到表示效果更好的数字人。

下面结合附图，对本发明实施例作进一步阐述。

参照图1，图1是本发明一个实施例提供的数字人驱动方法的流程示意图，该数字人驱动方法包括但不限于有步骤S110、步骤S120、步骤S130、步骤S140和步骤S150。

步骤S110：采集目标对象的图像信息和音频信息。

本步骤中，通过信息采集设备采集目标对象的图像信息和音频信息。具体地，利用摄像头和麦克风采集目标对象的图像信息和音频信息。当该数字人驱动方法应用于虚拟主播场景中，则目标对象为后台真人主播。本申请对采集图像信息和音频信息所使用的设备不做具体的限制。

步骤S120：对图像信息和音频信息进行识别判断，得到判断结果。

本步骤中，对图像信息和音频信息进行识别判断，得到判断结果。可以理解的是，实际的应用场景较为复杂，而目标对象的行为动作也存在一定的变动，这意味着信息采集设备采集可能会采集到质量不佳的图像信息和/或音频信息，难以从质量不佳的图像信息和/或音频信息中获取到有效的关于目标对象的运动特征。例如，当采集的图像信息中的头部姿态超过一定的范围，会导致生成图像出现一定的变形，难以从图像信息中获取到有效的运动特征；或者真实场景中出现较大的噪声，使得音频信息被噪声污染，难以从采集的音频信息中获取到运动特征。具体地，可以使用姿态判断网络检测驱动人物的头部姿态，当头部姿态超过一定的范围，会导致生成图像出现一定的变形，此时采集到的图像信息质量不高，是无效的。对图像信息和音频信息进行识别判断，得到关于图像信息和/或音频信息是否有效的判断结果，以便于后续选取有效的驱动模态进行相应的数字人驱动处理。

可以理解的是，对图像信息和音频信息进行识别判断之前，还可以对采集到的图像信息和音频信息进行预处理，以便于提高识别判断的准确性。

本申请对针对图像信息和音频信息进行的识别判断过程中所采用的方法不做具体的限制，只要其能对图像信息和音频信息进行识别判断，得到关于图像信息和/或音频信息是否有效的判断结果即可。

步骤S130：根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征。

本步骤中，根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征。具体地，第一运动特征表示第一人脸运动特征，第二运动特征表示第二人脸运动特征。可行的实施方式中，在根据判断结果对图像信息和/或音频信息进行特征提取处理前还包括：获取图像驱动数字人网络和语音驱动数字人网络。而后，通过图像驱动数字人网络对图像信息进行特征提取处理得到第一运动特征，通过语音驱动数字人网络对音频信息进行特征提取处理得到第二运动特征。在一实施例中，经过图像驱动数字人网络和语音驱动数字人网络提取到的第一运动特征和第二运动特征位于同一特征空间，即是说，这两个运动特征表示对人脸的运动描述方法是相同的。例如，当目标对象说“啊”字时，对此时采集的图像信息和语音信息进行特征提取，得到的第一运动特征和第二运动特征都可以表征目标对象说“啊”字的这一运动状态。

具体地，图像驱动数字人网络可以为一阶运动模型，在使用图像信息进行数字人驱动处理的过程时，使用一阶运动模型从图像信息中提取人脸运动特征。在使用语音信息进行数字人驱动处理的过程时，可以使用自行设计的语音驱动数字人网络从音频信息中提取人脸运动特征。

本申请对图像驱动数字人网络和语音驱动数字人网络的生成方式不做具体的限制，只要其能完成特征提取处理即可。

步骤S140：将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器。

本步骤中，将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器。由于第一运动特征和第二运动特征位于同一特征空间，两者所描述的运动状态是一致的，因此可以采用同一生成器根据第一运动特征和/或第二运动特征进行后续的合成图像处理。

在一实施例中，数字人基础图像表示的是待驱动的基准图像，数字人基础图像可以是人物证件照或是人物画像等图像。根据本申请可行的实施例，进行特征提取处理中所使用的网络和根据运动特征进行合成图像处理的生成器必须是配套的。当图像驱动数字人网络可以为一阶运动模型的关键点检测器，则采用的生成器应当是一阶运动模型的生成器，本申请对图像驱动数字人网络以及与其配套的生成器所采用的模型不做具体的限制。此外，例如，进行特征提取处理时可采用人脸关键点检测器(Practical Facial LandmarkDetector，PFLD)，而解码器中的生成器可采用人脸动画生成器(Neural Talking Heads)。

步骤S150：通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。

本步骤中，通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。其中，在虚拟主播应用场景中，数字人基础图像为虚拟的主播形象图。步骤S110至步骤S150处理得到的是单帧的第一数字人驱动图像。经过多个如步骤S110至步骤S150的处理可以得到多个帧图像，即得到关于数字人驱动图像的帧序列。

根据本申请图1所示的方法，能够通过采集目标对象的图像信息和音频信息，对图像信息和音频信息进行识别判断，得到判断结果，根据不同的判断结果，对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，通过人物生成器对得到第一运动特征和/或第二运动特征、数字人基础图像进行驱动处理，输出驱动后的第一数字人图像，能够根据图像信息和音频信息的采集情况，对所采用的用于驱动数字人的运动特征进行灵活地选用，基于不同采集情况下选用的运动特征进行对应的数字人驱动处理，以得到表示效果更好的数字人。

在一实施例中，参照图2，图2是图1中步骤S130的具体方法的流程示意图。步骤S130：根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，包括但不限于有步骤S210：

步骤S210：在判断结果为图像信息和音频信息均有效的情况下，分别对图像信息和音频信息进行特征提取处理，得到第一运动特征和与第一运动特征位于同一特征空间的第二运动特征。

本步骤中，在判断结果为图像信息和音频信息均有效的情况下，通过图像驱动数字人网络和语音驱动数字人网络分别对图像信息和音频信息进行特征提取处理，得到第一运动特征和与第一运动特征位于同一特征空间的第二运动特征。

在一实施例中，参照图3，图3是图1中步骤S140的具体方法的流程示意图。在判断结果为图像信息和音频信息均有效的情况下，步骤S140：将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器，包括但不限于有步骤S310和步骤S320。

步骤S310：根据预设加权融合系数、第一运动特征、第二运动特征进行融合特征处理得到融合运动特征。

本步骤中，根据预设加权融合系数、第一运动特征、第二运动特征进行融合特征处理得到融合运动特征。由于将从图像信息中提取的第一运动特征和从音频信息中提取的第二运动特征位于同一特征空间，因此可以对两个运动特征进行加权处理得到融合运动特征，融合运动特征对于人物运动特征的表示更加准确。例如，后台真人主播的嘴部被手遮挡时，生成图像中人物的嘴型不能准确生成，这时从语音信息中提取的第二运动特征可以有效弥补口型的不准确。融合过程可以表示为：F＝a*F1+(1-a)*F2。其中，F为融合运动特征，a为预设加权融合系数，F1为，第一运动特征，F2为第二运动特征，预设加权融合系数a的取值范围应当在0至1之间。可以理解的是，预设加权融合系数的具体数值可以根据实际的合成要求来进行设定，本申请对此不作具体的限制。

步骤S320：将融合运动特征与数字人基础图像输入至人物生成器。

本步骤中，得到融合运动特征后，将融合运动特征与数字人基础图像输入至人物生成器。人物生成器根据融合运动特征和数字人基础图像能够合成更准确地表示真人形象的第一数字人驱动图像。在多种模态数据并存，即存在图像信息和语音信息的情况下，对多种模态数据进行特征融合处理得到融合运动特征，利用融合运动特征生成更加精确的表示。

在一些场景中，视频信息可能由于人物遮挡等问题，导致部分区域数据缺失，难以生成精准的数字人。例如，用于驱动的图像信息中人物的嘴巴被遮挡，图像驱动数字人网络无法估计出嘴部的运动，这时可以对音频信息进行特征提取处理补充所缺失的嘴部的运动特征，可以提高生成的数字人的准确性。

在一实施例中，参照图4，图4是图1中步骤S130的具体方法的另一个流程示意图。步骤S130：根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，包括但不限于有步骤S410：

步骤S410：在判断结果为图像信息有效且音频信息无效的情况下，对图像信息进行特征提取处理，得到第一运动特征。

本步骤中，在判断结果为图像信息有效且音频信息无效的情况下，通过图像驱动数字人网络对图像信息进行特征提取处理，得到第一运动特征。在一实施例中，得到第一运动特征后，将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器，即步骤S130还包括：将第一运动特征和数字人基础图像输入至人物生成器。人物生成器根据第一运动特征和数字人基础图像进行后续的合成图像处理。在音频信息无效、无法使用的情况下，本申请的方案仍能基于图像信息进行数字人驱动处理，能够应对数字人实际应用场景中的一些突发情况，保证实际应用场景中的数字人的工作的正常进行。

在一实施例中，参照图5，图5是图1中步骤S130的具体方法的另一个流程示意图。步骤S130：根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，包括但不限于有步骤S510。

步骤S510：在判断结果为图像信息无效且音频信息有效的情况下，对音频信息进行特征提取处理，得到第二运动特征。

本步骤中，在判断结果为图像信息无效且音频信息有效的情况下，通过音频驱动数字人网络对音频信息进行特征提取处理，得到第二运动特征。在一实施例中，得到第二运动特征之后，将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器，即步骤S130还包括：将第二运动特征和数字人基础图像输入至人物生成器。人物生成器根据第二运动特征和数字人基础图像进行后续的合成图像处理。在图像信息无效、无法使用的情况下，本申请的方案仍能基于语音信息进行数字人驱动处理，能够应对数字人实际应用场景中的一些突发情况，保证实际应用场景中的数字人的工作的正常进行。

在一实施例中，参照图6，图6是本发明另一个实施例提供的数字人驱动方法的流程示意图，该数字人驱动方法还包括步骤S610和步骤S620：

步骤S610：在未采集到目标对象的图像信息和音频信息，或者判断结果为图像信息和音频信息均无效的情况下，获取预设动作序列进行特征提取，得到第三运动特征。

本步骤中，在未采集到目标对象的图像信息和音频信息，或者判断结果为图像信息和音频信息均无效的情况下，获取预设动作序列进行特征提取，得到第三运动特征。真实的应用场景中，可能存在信息采集设备部分故障或全部故障，而导致无法从信息采集设备中读取到关于目标对象的图像信息和音频信息的情况、或是采集得到的关于目标对象的图像信息和音频信息均无效，无法对其进行有效的特征提取处理时，则获取预设动作序列对其进行特征提取得到第三运动特征。预设动作序列可以是一个或多个表情状态，例如微笑、嘴巴开合等等，能够在图像信息和音频信息都无法使用的情况下，保证数字人图像序列能够正常驱动显示。

步骤S620：将第三运动特征和数字人基础图像输入至人物生成器，通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。

本步骤中，在得到第三运动特征后，将第三运动特征和数字人基础图像输入至人物生成器，通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。人物生成器根据第三运动特征和数字人基础图像进行后续的合成图像处理。在图像信息和语音信息都无效、无法使用的情况下，本申请的方案仍能基于预设动作序列进行数字人驱动处理，能够应对数字人实际应用场景中的一些突发情况，保证实际应用场景中的数字人的工作的正常进行。

在一实施例中，参照图7，图7是本发明另一个实施例提供的数字人驱动方法的流程示意图，该数字人驱动方法还包括步骤S710、步骤S720和步骤S730。

步骤S710：根据第一数字人驱动图像确定第一驱动模态信息。

本步骤中，根据第一数字人驱动图像确定第一驱动模态信息，第一驱动模态信息为融合运动特征或者第一运动特征或者第二运动特征或者第三运动特征所对应的模态信息。

步骤S720：根据第二数字人驱动图像确定第二驱动模态信息，第二数字人驱动图像为第一数字人驱动图像的上一帧图像。

本步骤中，根据第二数字人驱动图像确定第二驱动模态信息，第二数字人驱动图像为第一数字人驱动图像的上一帧图像，第二驱动模态信息为融合运动特征或者第一运动特征或者第二运动特征或者第三运动特征所对应的模态信息。

步骤S730：在第一驱动模态信息与第二驱动模态信息不同的情况下，根据第一数字人驱动图像的运动特征和第二数字人驱动图像的运动特征进行插值处理，得到数字人过渡驱动图像。

本步骤中，对第一驱动模态信息与第二驱动模态信息进行对比判断，根据第一数字人驱动图像的运动特征和第二数字人驱动图像的运动特征进行插值处理，得到数字人过渡驱动图像。可以理解的是，对目标对象进行采集时，采集的图像信息是连续多帧的，采集的音频信息则为音频流。在多种模态数据存在的情况下，可能有连续多帧的图像信息不可用或是丢失的情况发生，此时，需要基于可用的音频信息进行数字人驱动处理生成下一帧数字人图像，以确保数字人驱动的正常进行。在当前帧数字人图像和前一帧数字人图像所使用的驱动模态不一样的情况下，在实际场景中进行数字人显示时，会出现图像跳变的情况，使得数字人显示不流畅，影响客户体验。因此，当第一驱动模态信息与第二驱动模态信息不相同时，需要进行模态切换处理，有利于使前一帧数字人图像平滑过渡至当前帧数字人图像，提高显示的数字人的真实度。

在一实施例中，具体地，根据第一数字人驱动图像的运动特征和第二数字人驱动图像的运动特征进行插值处理得到过渡运动特征；根据过渡运动特征生成数字人过渡驱动图像之后，在预设过渡时间内显示数字人过渡驱动图像使得上一帧的第二数字人图像平滑过渡至第一数字人图像。

本申请中涉及的驱动模态包括：图像信息、语音信息、预设动作序列、图像信息和语音信息，而模态切换处理可以在任意两种驱动模态中进行，例如从基于图像信息驱动平滑切换至基于语音信息驱动，或是从基于预设动作序列平滑切换至基于图像信息驱动等等。

可以理解的是，文字信息可以语音转换器转换为语音信息，本申请的驱动模态也可以包括文字信息。

具体地，预设过渡时间可以设置为0.5秒到1秒左右；可以采用拟合插值和神经网络插值方法进行插值处理，本申请对插值处理过程中所采用的方式不做具体的限制。

本申请的实施例能够在多种模态数据并存，即存在图像信息和语音信息的情况下，能够根据图像信息和音频信息的采集情况，对所采用的用于驱动数字人的驱动模态(图像信息、或语音信息、或预设动作序列、或图像信息和语音信息)进行灵活地选用，基于不同采集情况下选用的驱动模态进行对应的数字人驱动处理，以得到表示效果更好的数字人。当出现音频信息或者图像信息不可用或者不适宜采用的情况，本申请实施例可以切换到其他可用的驱动模态进行数字人驱动，能够使驱动数字人显示连贯。基于本申请实施例生成的数字人既拥有基于图像信息驱动的较强的互动感，也拥有基于语音驱动的生成图像稳定的优点。

在一实施例中，当应用于主播场景中，可以进行如图8所示的处理流程使虚拟主播和真人主播一起同台播出。参照图8，图8是本发明另一个实施例提供的数字人驱动方法的流程示意图，还包括有步骤S810、步骤S820和步骤S830。

步骤S810：将第一数字人驱动图像进行音视频同步处理，得到虚拟主播视频；

步骤S820：将虚拟主播视频和真人主播视频进行拼接处理，输出目标视频；

步骤S830：将目标视频推流至客户端。

通过步骤S810至步骤S830的处理，在得到第一数字人驱动图像后，对第一数字人驱动图像进行音视频同步处理，得到虚拟主播视频；而后将虚拟主播视频和真人主播视频进行拼接处理，得到目标视频；将目标视频推流至客户端，用户可以在客户端看到基于真人形象而驱动的2D数字人。在实际操作中，可以将虚拟主播图像进行人像分割，并将人物融合到真人主播的视频中，以使数字人呈现的状态更接近与真人主播，提高数字人的真实感。

参照图9，图9是本发明一个实施例提供的应用于虚拟主播场景中的数字人驱动工作示意图。图9示意的是单帧数字人驱动图像的处理流程，在虚拟主播场景中，经过多次的处理就可以得到数字人驱动图像的帧序列。具体地，信息采集设备对后台真人主播进行图像信息和音频信息的采集，在图像信息和音频信息均有效的情况下，图像驱动数字人网络音频驱动和数字人网分别对图像信息和音频信息进行特征提取处理，得到第一运动特征和第二运动特征，对第一运动特征和第二运动特征进行加权处理得到融合运动特征，将融合运动特征和虚拟主播形象输入人物生成器中，人物生成器进行数字人驱动处理，输出驱动后的虚拟主播，而后将驱动后的虚拟主播与真人主播融合后推流到客户端。

在一实施例中，本申请实施例的数字人驱动方法除了可以应用于虚拟主播场景，还可以应用于视频会议场景中、以及虚拟客应用场景中。在实际的部署中，可以将用于图像特征提取的图像驱动数字人网络和用于语音特征提取的音频驱动数字人网络部署在视频会议的发送端作为视频的编码器，将生成器部署在接收端作为视频的解码器，由于提取的运动特征表示是一个实时紧凑的运动表示，可以大幅降低视频会议通讯的带宽，改善弱网环境下用户的使用体验。

参照图10，图10是本发明一个实施例提供的数字人驱动设备的示意图。本发明实施例的数字人驱动设备1000，包括一个或多个控制处理器1010和存储器1020，图10中以一个控制处理器1010及一个存储器1020为例。控制处理器1010和存储器1020可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1020作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1020可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器1020可选包括相对于控制处理器1010远程设置的存储器1020，这些远程存储器1020可以通过网络连接至该数字人驱动设备1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解，图10中示出的装置结构并不构成对数字人驱动设备1000的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

实现上述实施例中应用于数字人驱动设备1000的数字人驱动方法所需的非暂态软件程序以及指令存储在存储器1020中，当被控制处理器1010执行时，执行上述实施例中应用于数字人驱动设备1000的数字人驱动方法，例如，执行以上描述的图1中的方法步骤S110至步骤S150、图2中的方法步骤S210、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410、图5中的方法步骤S510、图6中的方法步骤S610至步骤S620、图7中的方法步骤S710至步骤S730及图8中的方法步骤S810至步骤S830。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被图10中的一个控制处理器1010执行，可使得上述一个或多个控制处理器1010执行上述方法实施例中的控制方法，例如，执行以上描述的图1中的方法步骤S110至步骤S150、图2中的方法步骤S210、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410、图5中的方法步骤S510、图6中的方法步骤S610至步骤S620、图7中的方法步骤S710至步骤S730及图8中的方法步骤S810至步骤S830。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种数字人驱动方法，所述方法包括：

采集目标对象的图像信息和音频信息；

2.根据权利要求1所述的数字人驱动方法，其特征在于，所述根据所述判断结果对所述图像信息和/或所述音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，包括：

在所述判断结果为所述图像信息和所述音频信息均有效的情况下，分别对所述图像信息和所述音频信息进行特征提取处理，得到所述第一运动特征和与所述第一运动特征位于同一特征空间的所述第二运动特征。

3.根据权利要求2所述的数字人驱动方法，其特征在于，所述将所述第一运动特征和/或所述第二运动特征、数字人基础图像输入至人物生成器，还包括：

根据预设加权融合系数、所述第一运动特征、所述第二运动特征进行融合特征处理得到融合运动特征；

将所述融合运动特征与所述数字人基础图像输入至所述人物生成器。

4.根据权利要求1所述的数字人驱动方法，其特征在于，所述根据所述判断结果对所述图像信息和/或所述音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，包括：

在所述判断结果为所述图像信息有效且所述音频信息无效的情况下，对所述图像信息进行特征提取处理，得到所述第一运动特征。

5.根据权利要求4所述的数字人驱动方法，其特征在于，所述将所述第一运动特征和/或所述第二运动特征、数字人基础图像输入至人物生成器，还包括：

将所述第一运动特征和所述数字人基础图像输入至所述人物生成器。

6.根据权利要求1所述的数字人驱动方法，其特征在于，所述根据所述判断结果对所述图像信息和/或所述音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征，包括：

在所述判断结果为所述图像信息无效且所述音频信息有效的情况下，对所述音频信息进行特征提取处理，得到所述第二运动特征。

7.根据权利要求6所述的数字人驱动方法，其特征在于，所述将所述第一运动特征和/或所述第二运动特征、数字人基础图像输入至人物生成器，还包括：

将所述第二运动特征和所述数字人基础图像输入至所述人物生成器。

8.根据权利要求1所述的数字人驱动方法，其特征在于，所述方法还包括：

在未采集到所述目标对象的所述图像信息和所述音频信息，或者所述判断结果为所述图像信息和所述音频信息均无效的情况下，获取预设动作序列进行特征提取，得到第三运动特征；

将所述第三运动特征和所述数字人基础图像输入至所述人物生成器，通过所述人物生成器对所述数字人基础图像进行驱动处理，输出所述第一数字人驱动图像。

9.根据权利要求1或者3或者5或者7或者8所述的数字人驱动方法，其特征在于，所述方法还包括：

根据所述第一数字人驱动图像确定第一驱动模态信息；

根据第二数字人驱动图像确定第二驱动模态信息，所述第二数字人驱动图像为所述第一数字人驱动图像的上一帧图像；

在所述第一驱动模态信息与所述第二驱动模态信息不同的情况下，根据所述第一数字人驱动图像的运动特征和所述第二数字人驱动图像的运动特征进行插值处理，得到数字人过渡驱动图像。

10.一种数字人驱动设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任意一项所述的数字人驱动方法。

11.一种计算机存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至9任意一项所述的数字人驱动方法。