CN117830478A

CN117830478A - 数字人视频生成方法、装置、设备及介质

Info

Publication number: CN117830478A
Application number: CN202311767382.6A
Authority: CN
Inventors: 施振磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-05

Abstract

本公开提供了一种数字人视频生成方法、装置、设备及介质，涉及人工智能技术中的计算机视觉、深度学习、虚拟现实、增强现实等技术领域，可应用于元宇宙、数字人等场景。该方法包括：响应于接收到的渲染指令，基于渲染模块，对渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，剧本参数信息用于指示视频中需要输出的内容；渲染结果包括：待显示的图像信息和/或待输出的音频信息；根据至少一个时间帧下的渲染结果，生成数字人视频。进而，通过调用渲染模块进行数据渲染以获取数字人视频，提高了数字人视频的生成效率。

Description

数字人视频生成方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、深度学习、虚拟现实、增强现实等技术领域，可应用于元宇宙、数字人等场景；尤其涉及一种数字人视频生成方法、装置、设备及介质。

背景技术

目前，随着人工智能技术的不断发展，数字人视频技术在视频直播、产品推广等信息传播过程中受到了广泛的应用。

如何生成数字人视频，以提高数字人视频的生成效率是一个亟需解决的问题。

发明内容

本公开提供了一种数字人视频生成方法、装置、设备及介质，以提高数字人视频的生成效率。

根据本公开的第一方面，提供了一种数字人视频生成方法，所述方法包括：

响应于接收到的渲染指令，基于渲染模块，对所述渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，所述剧本参数信息用于指示视频中需要输出的内容；所述渲染结果包括：待显示的图像信息和/或待输出的音频信息；

根据所述至少一个时间帧下的渲染结果，生成数字人视频。

根据本公开的第二方面，提供了一种数字人视频生成装置，所述装置包括：

处理单元，用于响应于接收到的渲染指令，基于所述渲染模块，对所述渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，所述剧本参数信息用于指示视频中需要输出的内容；所述渲染结果包括：待显示的图像信息和/或待输出的音频信息；

生成单元，用于根据所述至少一个时间帧下的渲染结果，生成数字人视频。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种数字人视频生成方法的流程示意图；

图2为本公开实施例提供的第二种数字人视频生成方法的流程示意图；

图3为本公开实施例提供的一种数字人视频生成装置的结构示意图；

图4为本公开实施例提供的一种数字人视频生成装置的结构示意图；

图5为本公开实施例提供的一种电子设备的结构示意图；

图6是用来实现本公开实施例的数字人视频生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，在数字人视频生成过程中，通常需要由电子设备将需要渲染的数据发送至远程渲染服务节点，并由远程渲染服务节点对需要渲染的数据进行处理，以得到渲染数据所对应的视频信息。之后，再由远程渲染服务节点所得到的数字人视频信息反馈至电子设备端。

然而，上述数字人视频生成方式需要部署多个渲染服务节点以供大量的用户使用，进而导致服务器端需要消耗较多的处理资源，成本较高。并且，受用户量波动的影响，各个渲染服务节点还需要动态调整各节点所分配的算力，进而增加了服务器端的处理复杂度。

此外，渲染服务节点采用视频流的方式向电子设备推送生成的视频的方式对电子设备网络带宽的要求较高，当电子设备网络不佳时，容易导致数字人视频播放出现卡顿，影响用户的使用体验。

为了避免上述技术问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：在接收到渲染指令时，通过所安装的渲染模块，对需要渲染的剧本参数信息进行渲染处理，以便得到各个时间帧下的渲染结果，根据各个时间帧下的渲染结果，得到相应的数字人视频。进而，通过设备中所设置的渲染模块，完成相应的数据渲染处理，以提高数字人视频生成效率。

本公开提供一种数字人视频生成方法、装置、设备及介质，应用于人工智能技术中的计算机视觉、深度学习、虚拟现实、增强现实等技术领域，以提高数字人视频的生成效率。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1为本公开实施例提供的一种数字人视频生成方法的流程示意图，如图1所示，该方法包括以下步骤：

S101、响应于接收到的渲染指令，基于渲染模块，对渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，剧本参数信息用于指示视频中需要输出的内容；渲染结果包括：待显示的图像信息和/或待输出的音频信息。

示例性地，本实施例所提供的方法可以应用于终端设备，终端设备设置有渲染模块。此外，也可以应用于除终端设备以外的其余设备，例如，远程服务器等设备，此处不做具体限制。本实施例中的执行主体以终端设备为例进行说明。其中，渲染模块可以用于进行数字人视频的渲染。本实施例中的渲染指令可以理解为指示终端设备进行渲染处理的指令，并且，该渲染指令中还携带有当前需要渲染的剧本参数信息。其中，剧本参数信息可以指示出最终渲染得到的数字人视频中需要输出的内容。需要说明的是，数字人视频中需要输出的内容可以包括需要显示的图像内容和/或需要播放的视频内容。当终端设备接收到上述渲染指令之后，终端设备可以调用终端设备本身所携带的渲染模块，对渲染指令所指示的剧本参数信息进行渲染处理，进而得到最终所得到的视频中的至少一个时间帧所对应渲染结果。需要说明的是，渲染结果可以理解为与其所对应的时间帧下所对应的待显示的图像信息和/或待输出的音频信息。

一个示例中，剧本参数信息包括有图像信显示时所对应的时间信息以及音频信息播放时所对应的时间信息，之后，可以根据时间信息，确定各个时间帧下所对应的参数信息，并由渲染模块对各个时间帧下的参数信息进行渲染得到各个时间帧下的渲染结果。

S102、根据至少一个时间帧下的渲染结果，生成数字人视频。

示例性地，在得到各个时间帧下的渲染结果之后，可以根据各个时间帧下的渲染结果，生成数字人视频。

一个示例中，在生成数字人视频时，可以通过对各个时间帧下所对应的渲染结果进行编码处理，以将各个时间帧下的渲染结果编码为数字人视频。

可以理解的是，本实施例中，在设备接收到渲染指令之后，可以通过调用设备自身所携带的渲染模块生成数字人视频，进而避免设备还需要通过调用远程服务器等其余设备的方式来获取数字人视频流所导致的需要占用较大的网络传输带宽的问题，并且也可以避免数字人视频远程传输所造成的时延。

图2为本公开实施例提供的第二种数字人视频生成方法的流程示意图，如图2所示，该方法包括以下步骤：

S201、响应于接收到的渲染指令，基于渲染模块，对渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，剧本参数信息用于指示视频中需要输出的内容；渲染结果包括：待显示的图像信息和/或待输出的音频信息。

示例性地，步骤S201的具体原理可以参见步骤S101，此处不再赘述。本实施例中的执行主体以终端设备为例进行说明。

一个示例中，剧本参数信息中包括：数字人参数信息、场景参数信息以及音频参数信息中的至少一项；其中，数字人参数信息用于指示数字人视频中所包含的数字人的形态信息；场景参数信息用于指示数字人视频中除数字人以外的背景图像信息；音频信息用于指示数字人视频中所携带的音频内容。

示例性地，本实施例中，剧本参数信息中可以包括有数字人参数信息、场景参数信息以及音频参数信息。

其中，数字人参数信息具体用于指示最终显示在视频中的数字人所对应的形态信息，具体地，形态信息中可以包括数字人的动作信息、数字人的位置信息等，本实施例中不做具体限制。

此外，剧本参数信息中的场景参数信息具体用于指示数字人视频中除数字人以下的背景图像信息，举例来说，背景图像信息中可以包括背景中的静态图像也可以包括数字人说话时所对应的字幕信息等，本实施例中对于背景图像信息不做具体限制。进一步地，场景参数信息可以包括数字人视频中除数字人以外的图像、文字等内容。

剧本参数信息中的音频信息可以理解为数字人视频中所对应的音频内容。具体地，上述音频信息可以为数字人视频中数字人所发出的音频，也可以为数字人视频中场景中的背景声音。

可以理解的是，本实施例中可以允许设置视频中的场景参数、数字人参数以及音频参数中的至少一项，以便用户可以灵活的编辑得到自身所需要的数字人视频。

一个示例中，数字人参数信息包括：数字人外貌信息以及数字人动作信息；数字人外貌信息用于表征数字人的外貌，且数字人外貌信息为通过用户图像中的人脸骨骼信息所得到的；数字人动作信息用于表征数字人视频中数字人所对应执行的动作。

示例性地，本实施中的数字人参数信息具体可以包括数字人外貌信息和数字人动作信息。其中，数字人外貌信息可以理解为指示数字人基本外貌信息的参数，例如，生成的静态数字人所对应的参数信息。而数字人动作信息用于指示数字人在视频中显示时数字人所进行的动作，例如，面部动作、肢体动作等。并且，本实施例中的数字人外貌信息可以通过获取当前用户所对应的人脸图像，并通过识别当前用户所对应的人脸骨骼信息所生成的，以便数字人视频中所显示的数字人可以更加真实的显示出当前用户的人脸特征。

可以理解的是，本实施例中的数字人的外貌特征，可以通过对用户的人脸图像中的人脸骨骼信息进行识别，并根据人脸骨骼信息来构建数字人。以便后续在数字人进行面部动作时，更加符合用户的人脸特征。

S202、响应于接收到的预览请求，显示提示信息；其中，提示信息用于指示是否允许调用录制功能；预览请求用于指示输出预览请求指示的渲染结果。

示例性地，本实施例中，在得到渲染结果之后，不会立即将渲染结果进行编码后转换为数字人视频，而是在接收到数字人视频的预览请求时，首先向用户显示提示信息，以便提示用户当前是否需要允许终端设备对即将预览输出的内容进行录制。

一个示例中，提示信息包括：第一选择框、第二选择框以及第三选择框；第一选择框用于指示允许本次录制功能的调用；第二选择框用于指示不允许调用录制功能；第三选择框用于指示允许在预设时段内调用录制功能。

示例性地，本实施例中，在终端设备接收到预览请求后，可以由用户主动选择确定当前是否允许终端设备启动录制功能。具体地，本实施例中，提示信息中可以设置有三个选择框，当用户选中第一选择框时，则表征允许终端设备调用录制功能进行录制。当用户选中第二选择框时，则表征当前用户不允许终端设备进行录制功能调用。若用户选中第三选择框，则表征在预设时段内允许调用终端设备的录制功能。其中，预设时段可以支持用户自身选择。

可以理解的是，本实施例中，可以通过设置多个选择框的方式，以便用户可以选择自身所接收的录制功能调用方式，进而提高用户的使用体验。

一个示例中，渲染模块为目标应用的安装包中携带的；在显示提示信息之前，方法包括：获取目标应用所对应的权限信息；其中，权限信息用于指示目标应用对应的可调用功能；若确定可调用功能不包括录制功能，则执行显示提示信息的步骤。

示例性地，本实施例中的渲染模块为通过安装目标应用的安装包而配置在设备中的。在终端设备接收到预览请求之后，首先可以获取终端设备中所安装的目标应用所对应的权限信息，即，获取目标应用在终端设备中可以调用的功能(即上述可调用功能)。进而，通过获取目标应用所对应的可调用功能以确定当前目标应用是否具有调用终端设备的录制功能的权限。

若确定当前目标应用无权限调用上述录制功能时，即可调用功能中不包括终端设备的录制功能时，则表征当前渲染模块也无法调用录制功能，此时，可以通过向用户发送提示信息的方式来获取相应的录制功能调用权限。

可以理解的是，本实施例中通过获取目标应用所对应的权限信息来确定是否支持调用上述录制功能，以便在确定无法调用录制功能时，及时提示用户开启相应的录制功能权限，以便后续可以通过启用录制功能以获取数字人视频。

S203、响应于接收到的确认结果，根据时间帧的顺序，依次输出各时间帧下的渲染结果。

示例性地，本实施例中，当终端设备确定接收到允许在当前时刻下调用录制功能的确认结果后，终端设备可以及时输出各个时间帧所对应的渲染结果(即，播放渲染结果所对应的图像信息以及音频信息)，以便用户及时进行渲染结果预览。

S204、在渲染结果输出过程中，对输出内容进行录制，以获取数字人视频；确认结果表征同意当前时刻下调用录制功能；输出内容包括显示屏幕上的显示内容和扬声器所播放的音频信息。

示例性地，在渲染结果预览过程中，还可以通过调用终端设备所对应的录制功能，对预览过程中终端设备所输出的内容进行录制，以便录制得到终端设备所显示以及所播放的内容，进而将录制所得到的结果作为本次渲染所得到的数字人视频。

可选的是，在实际应用中，在预览结束时，终端设备可以自动控制录制功能停止调用，并且，终端设备所录制得到的数字人视频可以在用户指示保存时，存储在终端设备中，或者，也可以自动存储在预先设置好的默认路径下。

一个示例中，当终端设备确定当前不允许调用录制功能时，则用户可以通过选择视频保持功能，以使得终端设备采用视频编码处理方式，对各个时间帧下的渲染结果进行编码处理，以得到相应的数字人视频。

可以理解的是，本实施例中，可以通过在用户预览的过程中对设备所输出的内容进行录制，以得到相应的数字人视频，进而可以避免设备需要进行编码处理生成数字人视频所导致的占用处理资源的问题。

S205、在渲染结果输出过程中，响应于接收到的预览暂停请求，则停止录制；预览暂停请求用于指示暂停输出渲染结果。

示例性地，本实施例中，在终端设备对预览输出的内容进行录制过程中，若终端设备接收到了指示暂停预览渲染结果的预览暂停请求时，终端设备也会进一步停止调用录制功能，即，暂停录制终端设备所显示和播放的内容。

可以理解的是，本实施例中，在接收到预览暂停请求时，不仅停止播放了预览结果，还主动暂停调用了设备的录制功能，以避免最终所获取到的数字人视频中存在暂停过程中设备所显示或者播放的内容，进而导致数字人视频不准确的问题。

S206、响应于接收到的预览继续请求，若确定当前时刻下需要输出的渲染结果未被输出过，则开启录制；预览继续请求用于指示继续输出渲染结果，以及需要输出的渲染结果。

示例性地，本实施例中，在预览暂停过程中，用户可以通过调节屏幕上的进度条，来调整下一次继续预览时所对应的渲染结果播放起点。当终端设备接收到继续预览渲染结果的预览继续请求时，还需要判断即将输出的渲染结果是否为终端设备曾经已经输出播放过的，即，该渲染结果是否在预览请求停止前已被录制。若即将输出的渲染结果之前未被输出过，则表征终端设备在前一次预览暂停请求触发时，还未播放上述渲染结果，且当前录制的内容中还未录制上述内容，则可以在控制终端设备继续进行渲染结果输出的同时，也开启录制功能对终端设备输出的内容进行录制。

可以理解的是，本实施例中，在接收到预览继续请求时，进一步的也可以结合当前需要继续输出的渲染内容是否已被录制过(即，是否被输出过)，来确定是否开启录制，进而，在确定曾经未录制过上述内容时，设备自动继续开启录制，以确保最终录制得到的数字人视频的准确性。

一种可能的实现方式中，若终端设备确定预览继续请求所指示播放的渲染结果所对应的时间帧与终端设备接收到预览暂停请求时已经播放的渲染结果的时间帧之间不连续时，还可以进一步的提示用户是否进一步进行数字人视频录制，或者提示用户是否跳转至前一次暂停播放的时间帧处开启预览。

S207、响应于接收到的预览继续请求，若确定当前时刻下需要输出的渲染结果已被输出过，则停止录制，直至满足预设条件；预览继续请求用于指示继续输出渲染结果，以及需要输出的渲染结果。

示例性地，本实施例中，当终端设备确定当前需要继续预览渲染结果，且预览继续请求所指示输出的渲染结果中已存在之前曾输出过的渲染结果时，则终端设备可以仍然停止调用录制功能。进一步地，若终端设备确定当前符合预设条件，则开启录制功能继续对终端设备所输出的内容进行录制。一种可能的实现方式中，上述预设条件可以为用户主动开启了录制功能。

可以理解的是，本实施例中，当确定预览继续请求所指示输出的渲染结果为已经输出过的渲染结果(即，已经被录制过)，则停止调用录制功能，以避免录制得到的数字人视频中存在重复内容。

一个示例中，预设条件为需要输出的渲染结果未被输出过。

示例性地，本实施例中，当终端设备确定接收到需要继续预览渲染结果的预览继续请求，且确定当前预览继续请求指示输出的渲染结果中存在已播放的渲染结果，则进一步的终端设备在预览过程中，当确定其所输出的渲染结果未被输出过时，将录制功能从停止使用转换为开启使用的状态，以确保最终得到的数字人视频的连续性，且避免了需要用户手动开启录制功能的复杂操作。

S208、确定录制得到的内容为数字人视频。

示例性地，在预览结束之后，即最后一个时间帧所对应的渲染结果输出结束之后，停止本次录制，并将本次录制所得到的视频作为数字人视频。

一个示例中，目标应用的操作界面上设置有音频转换按钮；目标应用的安装包中设置有渲染模块；该方法还包括：

响应于针对音频转换按钮的第一操作，获取音频转换按钮所对应的预设区域中所包含的文字信息；并对文字信息进行音频转换处理，得到文字信息对应的音频信息；第一操作用于指示进行文字转音频处理。

示例性地，本实施例中，终端设备可以通过其所安装的目标应用中所携带的渲染模块生成相应的渲染结果，并得到数字人视频。并且，本实施例中，目标应用中可以设置音频转换按钮。用户可以通过在目标应用所对应的显示界面中进行数字人视频的编辑等操作。具体地，本实施例中，可以通过对目标应用所对应的操作界面中的音频按钮进行相应的第一控制操作，以使得终端设备可以将与音频转换按钮所关联的显示区域中所包含的文字信息转换为音频信息，进而便于将所得到的音频信息作为后续数字人视频中所包含的音频信息。

可以理解的是，本实施例中，目标应用的显示界面中设置有音频转换按钮，以便于用户可以通过触发音频转换按钮实现从文字转音频的处理。以提高数字人视频编辑过程的便捷性。

一个示例中，目标应用的操作界面上设置有场景选择按钮；目标应用的安装包中设置有渲染模块；方法还包括：响应于针对场景选择按钮的第二操作，显示目标应用所对应的地图信息；地图信息中包括至少一个地点，且地点具有场景信息；场景信息用于指示地点所对应的环境信息；第二操作用于指示进行场景选择；确定用户所选择的地点所对应的环境信息，为剧本参数信息中的场景参数信息；场景参数信息用于指示数字人视频中除数字人以外的背景图像信息。

示例性地，本实施例中，终端设备可以通过其所安装的目标应用中所携带的渲染模块生成相应的渲染结果，并得到数字人视频。并且，本实施例中，目标应用中可以设置场景选择按钮。用户可以通过在目标应用所对应的显示界面中进行数字人视频的编辑等操作。具体地，本实施例中所提供的目标应用中可以提供多个地点所对应的场景信息，其中，场景信息可以理解为该地点所对应的环境信息，例如，环境信息中可以包括有虚拟建筑信息、虚拟道路信息等。举例来说，本实施例中的目标应用可以为元宇宙应用软件，其中，可以包括多个地点，并且针对每一地点都构建有对应的三维虚拟空间。此外，目标应用还支持数字人的创建，以生成符合用户形象的数字人。

在数字人视频编辑过程中(即，剧本参数信息生成过程中)，可以通过对场景选择按钮进行第二操作之后，得到目标应用中可提供的多个地点所组成的地图信息。通过在地图信息中进行地点的选择，以便将所选地点所对应的场景信息作为剧本参数信息中所对应的场景参数信息。也就是说，将目标应用可提供的多个场景信息中的任一场景信息作为数字人视频中的背景，以减少需要构建尝尽的复杂操作。

举例来说，在实际剧本参数信息生成过程中，用户可以通过在时间轴所对应的各个时间帧下设置各个时间帧所对应的场景参数信息、音频信息、数字人参数信息等，以便后续渲染模块可以上述参数信息，生成相应的渲染结果，并调用设备的录制功能，在预览过程中通过录制得到最终的数字人视频。

图3为本公开实施例提供的一种数字人视频生成装置的结构示意图，其中，数字人视频生成装置300，包括：

处理单元301，用于响应于接收到的渲染指令，基于渲染模块，对渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，剧本参数信息用于指示视频中需要输出的内容；渲染结果包括：待显示的图像信息和/或待输出的音频信息；

生成单元302，用于根据至少一个时间帧下的渲染结果，生成数字人视频。

本实施例提供的装置，用于实现上述方法提供的技术方案，其实现原理和技术效果类似，不再赘述。

图4为本公开实施例提供的一种数字人视频生成装置的结构示意图，其中，数字人视频生成装置400，包括：

处理单元401，用于响应于接收到的渲染指令，基于渲染模块，对渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，剧本参数信息用于指示视频中需要输出的内容；渲染结果包括：待显示的图像信息和/或待输出的音频信息；

生成单元402，用于根据至少一个时间帧下的渲染结果，生成数字人视频。

一个示例中，生成单元402，包括：

第一显示模块4021，用于响应于接收到的预览请求，显示提示信息；其中，提示信息用于指示是否允许调用录制功能；预览请求用于指示输出预览请求指示的渲染结果；

第二显示模块4022，用于响应于接收到的确认结果，根据时间帧的顺序，依次输出各时间帧下的渲染结果；

录制模块4023，用于在渲染结果输出过程中，对输出内容进行录制，以获取数字人视频；确认结果表征同意当前时刻下调用录制功能；输出内容包括显示屏幕上的显示内容和扬声器所播放的音频信息。

一个示例中，渲染模块为目标应用的安装包中携带的；装置还包括：

获取模块4024，用于响应于接收到的预览请求，在第一显示模块显示提示信息之前，获取目标应用所对应的权限信息；其中，权限信息用于指示目标应用对应的可调用功能；

第一显示模块4021，具体用于若确定可调用功能不包括录制功能，则执行显示提示信息的步骤。

一个示例中，装置还包括：

第一控制模块4025，用于在渲染结果输出过程中，响应于接收到的预览暂停请求，控制停止录制；预览暂停请求用于指示暂停输出渲染结果。

一个示例中，装置还包括：

第二控制模块4026，用于响应于接收到的预览继续请求，若确定当前时刻下需要输出的渲染结果未被输出过，则开启录制；预览继续请求用于指示继续输出渲染结果，以及需要输出的渲染结果。

一个示例中，装置还包括：

第三控制模块4027，用于响应于接收到的预览继续请求，若确定当前时刻下需要输出的渲染结果已被输出过，则停止录制，直至满足预设条件；预览继续请求用于指示继续输出渲染结果，以及需要输出的渲染结果。

一个示例中，预设条件为需要输出的渲染结果未被输出过。

一个示例中，剧本参数信息中包括：数字人参数信息、场景参数信息以及音频参数信息中的至少一项；

其中，数字人参数信息用于指示数字人视频中所包含的数字人的形态信息；场景参数信息用于指示数字人视频中除数字人以外的背景图像信息；音频信息用于指示数字人视频中所携带的音频内容。

一个示例中，目标应用的操作界面上设置有音频转换按钮；目标应用的安装包中设置有渲染模块；装置还包括：

获取单元403，用于响应于针对音频转换按钮的第一操作，获取音频转换按钮所对应的预设区域中所包含的文字信息；

转换单元404，用于对文字信息进行音频转换处理，得到文字信息对应的音频信息；第一操作用于指示进行文字转音频处理。

一个示例中，目标应用的操作界面设置有场景选择按钮；目标应用的安装包中设置有渲染模块；装置还包括：

显示单元405，用于响应于针对场景选择按钮的第二操作，显示目标应用所对应的地图信息；地图信息中包括至少一个地点，且地点具有场景信息；场景信息用于指示地点所对应的环境信息；第二操作用于指示进行场景选择；

确定单元406，用于确定用户所选择的地点所对应的环境信息，为剧本参数信息中的场景参数信息；场景参数信息用于指示数字人视频中除数字人以外的背景图像信息。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一实施例所提供的方法。

图5为本公开实施例提供的一种电子设备的结构示意图，如图5所示，本公开中的电子设备500可以包括：处理器501和存储器502。

存储器502，用于存储程序；存储器502，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器502用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器502中。并且上述的计算机程序、计算机指令、数据等可以被处理器501调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器502中。并且上述的计算机程序、计算机指据等可以被处理器501调用。

处理器501，用于执行存储器502存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器501和存储器502可以是独立结构，也可以是集成在一起的集成结构。当处理器501和存储器502是独立结构时，存储器502、处理器501可以通过总线503耦合连接。

本实施例的电子设备可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

本公开提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一实施例所提供的方法。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组间。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如数字人视频生成方法。例如，在一些实施例中，数字人视频生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的数字人视频生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数字人视频生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数字人视频生成方法，所述方法包括：

根据所述至少一个时间帧下的渲染结果，生成数字人视频。

2.根据权利要求1所述的方法，其中，根据所述至少一个时间帧下的渲染结果，生成数字人视频，包括：

响应于接收到的预览请求，显示提示信息；其中，所述提示信息用于指示是否允许调用录制功能；所述预览请求用于指示输出预览请求指示的渲染结果；

响应于接收到的确认结果，根据时间帧的顺序，依次输出各时间帧下的渲染结果，并在渲染结果输出过程中，对输出内容进行录制，以获取数字人视频；所述确认结果表征同意当前时刻下调用所述录制功能；所述输出内容包括屏幕上的显示内容和扬声器所播放的音频信息。

3.根据权利要求2所述的方法，其中，所述提示信息包括：第一选择框、第二选择框以及第三选择框；所述第一选择框用于指示允许本次录制功能的调用；所述第二选择框用于指示不允许调用录制功能；所述第三选择框用于指示允许在预设时段内调用录制功能。

4.根据权利要求2或3所述的方法，其中，所述渲染模块为目标应用的安装包中携带的；在显示提示信息之前，所述方法还包括：

获取所述目标应用所对应的权限信息；其中，所述权限信息用于指示所述目标应用对应的可调用功能；

若确定所述可调用功能不包括录制功能，则执行显示提示信息的步骤。

5.根据权利要求2-4中任一项所述的方法，所述方法还包括：

在渲染结果输出过程中，响应于接收到的预览暂停请求，则停止录制；所述预览暂停请求用于指示暂停输出渲染结果。

6.根据权利要求5所述的方法，所述方法还包括：

响应于接收到的预览继续请求，若确定当前时刻下需要输出的渲染结果未被输出过，则开启录制；所述预览继续请求用于指示继续输出渲染结果，以及需要输出的渲染结果。

7.根据权利要求5或6所述的方法，所述方法还包括：

响应于接收到的预览继续请求，若确定当前时刻下需要输出的渲染结果已被输出过，则停止录制，直至满足预设条件；所述预览继续请求用于指示继续输出渲染结果，以及需要输出的渲染结果。

8.根据权利要求7所述的方法，其中，所述预设条件为需要输出的渲染结果未被输出过。

9.根据权利要求1-8中任一项所述的方法，所述剧本参数信息包括：数字人参数信息、场景参数信息以及音频参数信息中的至少一项；

其中，所述数字人参数信息用于指示数字人视频中所包含的数字人的形态信息；所述场景参数信息用于指示数字人视频中除数字人以外的背景图像信息；所述音频信息用于指示数字人视频中所携带的音频内容。

10.根据权利要求9所述的方法，其中，所述数字人参数信息包括：数字人外貌信息以及数字人动作信息；所述数字人外貌信息用于表征数字人的外貌，且所述数字人外貌信息为通过用户图像中的人脸骨骼信息所得到的；所述数字人动作信息用于表征数字人视频中数字人所对应执行的动作。

11.根据权利要求1-10中任一项所述的方法，目标应用的操作界面上设置有音频转换按钮；所述目标应用的安装包中设置有所述渲染模块；所述方法还包括：

响应于针对所述音频转换按钮的第一操作，获取所述音频转换按钮所对应的预设区域中所包含的文字信息；并对所述文字信息进行音频转换处理，得到所述文字信息对应的音频信息；所述第一操作用于指示进行文字转音频处理。

12.根据权利要求1-11中任一项所述的方法，目标应用的操作界面上设置有场景选择按钮；所述目标应用的安装包中设置有所述渲染模块；所述方法还包括：

响应于针对所述场景选择按钮的第二操作，显示所述目标应用所对应的地图信息；所述地图信息中包括至少一个地点，且所述地点具有场景信息；所述场景信息用于指示地点所对应的环境信息；所述第二操作用于指示进行场景选择；

确定用户所选择的地点所对应的环境信息，为剧本参数信息中的场景参数信息；所述场景参数信息用于指示数字人视频中除数字人以外的背景图像信息。

13.一种数字人视频生成装置，所述装置包括：

处理单元，用于响应于接收到的渲染指令，基于渲染模块，对所述渲染指令所指示的剧本参数信息进行渲染处理，生成至少一个时间帧下的渲染结果；其中，所述剧本参数信息用于指示视频中需要输出的内容；所述渲染结果包括：待显示的图像信息和/或待输出的音频信息；

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-12中任一项所述方法的步骤。