CN114170335B

CN114170335B - 数字人视频的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN114170335B
Application number: CN202111212152.4A
Authority: CN
Inventors: 杨国基; 刘致远; 穆少垒; 王鑫宇; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-10-04
Anticipated expiration: 2041-10-18
Also published as: CN114170335A

Abstract

本申请公开了一种数字人视频的生成方法、装置、计算机设备及存储介质，涉及人机交互技术领域。该方法包括：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，处理中用户为已开始针对回复文本生成数字人图像的用户；若处理中用户的用户数量小于第一数量，从用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对目标用户的回复文本所对应的处理时长满足预设时长条件，待处理用户为未开始针对回复文本生成数字人图像的用户；基于图像生成模型生成目标用户的回复文本所对应的数字人图像，数字人图像用于生成数字人视频。如此，减少用户队列中除目标用户之外的其他待处理用户的等待时长，保证了交互响应速度，提高了用户体验。

Description

数字人视频的生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及人机交互技术领域，更具体地，涉及一种数字人视频的生成方法、装置、计算机设备及存储介质。

背景技术

近些年来，随着互联网技术的不断发展，智能化的人机交互方式已逐渐成为国内外研究的热点，智能电子设备中设置有图像生成模块，基于图像生成模块生成用于交互的虚拟数字人，以通过虚拟数字人实现与用户的可视化交互，从而提高用户的人机交互体验。

但是，生成虚拟数字人的图像生成模块对计算机资源消耗较多，因此，当同时存在数量庞大的虚拟数字人需要生成时，超过了图像生成模块的并发量，导致部分虚拟数字人无法及时生成，影响了人机交互，降低了用户体验。

发明内容

有鉴于此，本申请提出了一种数字人视频的生成方法、装置、计算机设备及存储介质。

第一方面，本申请实施例提供了一种数字人视频的生成方法，所述方法包括：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户；若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对所述目标用户的回复文本所对应的处理时长满足预设时长条件，所述待处理用户为未开始针对回复文本生成数字人图像的用户；基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

第二方面，本申请实施例提供了一种数字人视频的生成装置，所述装置包括：用户数量获取模块、目标用户确定模块以及图像生成模块。用户数量获取模块，用于在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户；目标用户确定模块，用于若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对所述目标用户的回复文本所对应的处理时长满足预设时长条件，所述待处理用户为未开始针对回复文本生成数字人图像的用户；图像生成模块，用于基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

第三方面，本申请实施例提供了一种计算机设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行第一方面提供的数字人视频的生成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行第一方面提供的数字人视频的生成方法。

本申请提供的方案中，在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，其中，处理中用户为已开始针对回复文本生成数字人图像的用户；若处理中用户的用户数量小于第一数量，从用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对目标用户的回复文本所对应的处理时长满足预设时长条件，其中，待处理用户为未开始针对回复文本生成数字人图像的用户；基于图像生成模型生成目标用户的回复文本所对应的数字人图像，该数字人图像用于生成数字人视频。如此，可以从待处理用户中确定出处理时长满足预设时长条件的目标用户，优先生成用于回复该目标用户的数字人视频，以便在针对目标用户的数字人视频进行生成的同时，减少用户队列中除目标用户之外的其他待处理用户的等待时长，保证了交互响应速度，提高了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的应用场景的示意图。

图2示出了本申请一实施例提供的数字人视频的生成方法的流程示意图。

图3示出了本申请一实施例提供的处理时间轴的示意图。

图4示出了本申请另一实施例提供的数字人视频的生成方法的流程示意图。

图5示出了图4中步骤S240的子步骤流程示意图。

图6示出了本申请又一实施例提供的数字人视频的生成方法的流程示意图。

图7示出了本申请再一实施例提供的数字人视频的生成方法的流程示意图。

图8示出了本申请再又一实施例提供的数字人视频的生成方法的流程示意图。

图9示出了本申请又再一实施例提供的数字人视频的生成方法的流程示意图。

图10示出了本申请一实施例提供的数字人视频的界面示意图。

图11示出了本申请又另一实施例提供的数字人视频的生成方法的流程示意图。

图12是根据本申请一实施例提供的一种数字人视频的生成装置的框图。

图13是本申请实施例的用于执行根据本申请实施例的数字人视频的生成方法的计算机设备的框图。

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的数字人视频的生成方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

针对上述问题，发明人提出一种数字人视频的生成方法、装置、计算机设备及存储介质，可以当存在多个待处理用户时，从中确定出处理时长满足预设时长条件的目标用户，优先生成针对目标用户的数字人图像。下面对该内容进行详细描述。

下面对本申请实施例提供的数字人视频的生成方法的应用环境进行介绍。

请参照图1，图1示出了为本申请一实施例提供的应用环境的示意图，本申请实施例提供的数字人视频的生成方法可以应用于如图1所示的交互系统10。交互系统10可以包括电子终端101和计算机设备102，计算机设备102与电子终端101之间通过无线或者有线网络连接，以基于该网络连接实现电子终端101与计算机设备102之间的数据传输，传输的数据包括但不限于音频、视频、文字、图像等。

其中，电子终端101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。计算机设备102可以是服务器，如单独的服务器、服务器集群、本地服务器、云服务器等，本实施例对此不作限制；还可以是其他具有存储及处理数据的电子设备，如台式电脑、便携式电脑等，本实施例对此不作限制。

在一些实施方式中，电子终端101上可以安装由计算机设备102所运营的应用程序(例如具有机器人客服功能的软件)。基于此，用户可以基于自身所使用的电子终端101上的应用程序输入信息，与计算机设备102进行交互操作。其中，输入信息可以是基于电子终端101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像、视频输入模块输入视频、手势输入模块输入手势等，本实施例对此不作限制。

例如，用户基于电子终端101上的应用程序输入待查询信息，计算机设备102接收到该待查询信息，确定针对待查询信息的回复文本，并基于回复文本生成数字人视频，将生成的数字人视频反馈至电子终端101，实现基于虚拟数字人的人机交互。

请参照图2，图2为本申请一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图2对本申请实施例提供的数字人视频的生成方法进行详细阐述。该数字人视频的生成方法可以包括以下步骤：

步骤S110：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户。

在本实施例中，一般情况下，数字人图像是由计算机设备中的图像模块生成，当计算机设备接收到用户的输入信息后，确定针对该输入信息对应的回复文本，并于图像生成模块中生成与该回复文本对应的数字人图像。但是，由于生成数字人图像的过程耗费的计算资源较多，针对每个用户的所有恢复文本都需要通过图像生成模块进行数字人图像的生成，会持续占用较多的计算资源；以及当同时输入信息的用户数量过多时，图像生成模块需要调用的计算资源极可能超过计算机设备中的计算资源限制，即，图像生成模块的并发量有限，仅能在同一时刻处理预设数量的用户的回复文本。

在一些实施方式中，可以将预设回复文本以及预设回复文本所对应的数字人图像，存储于计算机设备中的高速缓冲(Cache)存储器，在确定针对用户的输入信息所对应的回复文本后，先判断预设回复文本中是否存在与确定的回复文本相匹配的预设回复文本，即判断确定的回复文本是否命中Cache；若存在，则代表回复文本命中Cache，获取相匹配的预设回复文本对应的数字人图像，作为目标数字人图像，并基于该数字人图像生成用于反馈给用户的数字人视频；若不存在，则代表回复文本未命中Cache，需要通过图像生成模块，推理生成与回复文本对应的数字人图像，作为目标数字人图像，再基于图像生成模块，生成数字人视频。

但是，仍可能会存在针对多个用户的回复文本均未命中Cache，当未命中Cache的回复文本所对应的用户数量超过图像生成模块的并发量时，仍会导致针对一些用户的回复文本对应的数字人视频迟迟未生成，进而导致用户的等待时间边长，降低用户体验。

基于此，在生成数字人图像的过程中，可以通过获取用户队列中处理中用户的用户数量，以便在并发量有限的情况下，根据处理中用户的用户数量，对其他待处理用户的生成顺序进行调整，以实现在计算资源有限的情况下，可以及时响应高于并发量的用户的请求，即服务更多的用户。其中，处理中用户为已开始针对回复文本生成数字人图像的用户。

步骤S120：若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对所述目标用户的回复文本所对应的处理时长满足预设时长条件，所述待处理用户为未开始针对回复文本生成数字人图像的用户。

在本实施例中，第一数量可以理解为图像生成模块的并发量，即最大处理用户量，即预先设置的数值(如100、200等)，图像生成模块中可以包括预先训练的图像生成模型；待处理用户为当前时刻未开始针对回复文本生成数字人图像的用户。

在获取到处理中用户的用户数量后，可以判断处理中用户的用户数量是否小于第一数量，若判定处理中用户的用户数量小于第一数量，表征处理中用户的用户数量并未达到图像生成模块的最大处理用户量，还可以同时生成一部分待处理用户的回复文本对应的数字人图像。

基于此，若待处理用户的数量仅为1个，则可以将该待处理用户作为上述目标用户；若待处理用户的数量为多个，此时，可以从多个待处理用户中筛选出符合预设时长条件的待处理用户，作为目标用户。其中，预设时长条件为在预设时长内，完成回复文本对应的数字人图像的生成，预设时长可以是预先设置的最大响应时长(如2秒或3秒)，当然，也可以根据不同的应用场景对预设时长数值进行调整，本实施例对此不作限制。可以理解地，在用户输入待查询信息后，若在最大响应时长内，未生成用于反馈给用户的数字人视频，则会给用户带来服务卡顿的感觉，降低用户体验。因此，生成筛选出的目标用户的回复文本的数字人图像的处理时长要在预设时长内，以便在完成对目标用户的处理后，可以在预设时长内，及时针对待处理用户中除目标用户之外的其他用户的回复文本，进行对应的数字人图像的生成，进而提高了数字人视频生成的效率，保证了交互响应速度，提高了用户体验。

其中，计算机设备可以为用户队列中的处理中用户和待处理用户分配处理时间轴，请参阅图3，用户1和用户2为处理中用户，当前时刻为T0，用户1的处理结束时间为T1，用户2的处理结束时间为T2，用户3和用户4为新加入的用户，即为待处理用户，用户3的处理开始时间为T0，处理结束时间为T3，用户4的处理开始时间为T0，处理结束时间为T4，预设时长为t。若第一数量为3，此时可以确定处理中用户的用户数量小于第一数量，由图3可知，仅能对用户3或者用户4中的一个用户的回复文本进行处理。由于用户3的处理时长为T3-T0，该处理时长大于预设时长t，也就是说，针对用户3的回复文本的处理时长不满足预设时长条件，若将用户3作为目标用户，则会导致在预设时长t内，无法生成针对用户4的回复文本的数字人视频，降低了用户4的交互体验。再看用户4的处理时长为T4-T0，该处理时长小于预设时长t，因此，用户4的处理时长满足预设时长条件，将用户4作为目标用户；在T0时刻，对用户4的回复文本进行数字人图像的生成，在T4时刻即可完成对用户4的数字人图像的生成，同时于T4时刻开始对用户3的回复文本的数字人图像的生成。如此，在最大响应时长内，均可以生成针对待处理用户3和待处理用户4的数字人图像，及时反馈数字人视频给用户3和用户4。

由此可见，即使在同一时刻有超过最大用户处理量的用户需要通过图像生成模块生成数字人图像，也可以通过确定目标用户的方式，在预设时长内，处理大于最大用户处理量的用户的回复文本，及时生成并反馈针对待处理用户的数字人视频，提高了数字人视频生成的效率，进而提高了用户的交互体验。

步骤S130：基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

在本实施例中，从待处理用户中确定出目标用户后，即可基于图像生成模型，生成与目标用户的回复文本所对应的数字人图像；其中，数字人图像的数量为多张，将多张数字人图像中的每张数字人图像实时传输至用户的电子终端，电子终端依次接收并显示多张数字人图像。可选地，多张数字人图像可以理解为构成数字人视频的多张视频帧。

在一些实施方式中，还可以基于回复文本实时生成字幕图片，并将字幕图片与数字人图像进行布局、叠加及渲染，得到最终视频帧，再依次将每帧最终视频帧传输至用户的电子终端进行显示，此时，数字人视频是由多帧上述最终视频帧构成。

在一些实施方式中，若所述处理中用户的用户数量等于所述第一数量，在处理中用户存在任一用户的回复文本于预设时长之内被所述图像生成模型处理完成时，执行所述从所述用户队列中的待处理用户中确定出目标用户至所述基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像的步骤。可以理解地，当处理中用户的用户数量等于第一数量时，代表此时处理中用户的用户数量已达到图像生成模块的最大处理用户量，无法对新加入的待处理用户的回复文本进行处理。此时，若监测到处理中用户中存在任一用户的回复文本在预设时长内，被图像生成模型处理完成，则可以立即从所述用户队列中的待处理用户中确定出目标用户，并基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像。如此，针对每一个时刻的预设时长内，实时监测图像生成模块中处理中用户的用户数量是否达到最大处理用户量，可以实现在未达到最大处理用户量的情况下，及时从待处理用户中筛选出目标用户，并对目标用户的回复文本进行数字人图像的生成，提高了在最大响应时长内，数字人视频生成的效率，保证了交互响应速度，提高了用户体验。

在一些实施方式中，若在生成数字人图像的过程中，接收到新用户发送的加入至用户队列的加入请求，可以根据预设并发数量，确定是否允许新用户加入至用户队列中。具体地，若在当前时刻接收新用户发送的加入至用户队列的加入请求，获取待处理用户的用户数量与处理中用户的用户数量的和值。判断所述和值是否达到第四数量，其中，第四数量大于第一数量。若和值达到第四数量，则输出提示信息，所述提示信息用于提示当前时刻无法实时生成用于反馈针对新用户的输入信息所对应的数字人视频。若和值未达到所述第四数量，则响应新用户中的部分用户的访问请求，将部分用户加入至用户队列中，其中，部分用户的用户数量与用户队列中已有用户的用户数量的和值不大于预设用户数量。如此，在生成数字人图像的过程中，通过控制用户的并发量，保证了生成数字人图像过程的顺利推进，进而保证对用户队列中用户的响应速度，提升了用户的交互体验。

例如，若第四数量(预设并发数量)为300，用户队列中待处理用户的用户数量为50，处理中用户的用户数量为200，新用户的数量为100；由此可见，还可以允许50个用户加入至用户队列中，此时可以任取100个新用户中的50个用户加入至用户队列中。

在本实施例中，在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量；若处理中用户的用户数量小于第一数量，从用户队列中的待处理用户中确定出处理时长满足预设时长条件的目标用户；最后，再基于图像生成模型生成目标用户的回复文本所对应的数字人图像，该数字人图像用于生成数字人视频。如此，在针对目标用户的数字人视频进行生成的同时，减少用户队列中除目标用户之外的其他待处理用户的等待时长；在当前时刻的预设时长内，可以处理大于图像处理模块的最大处理用户量的用户数量，即实现了超卖，服务比系统资源数量更多的用户，保证了针对每个用户的交互响应速度，提高了用户体验。

请参照图4，图4为本申请另一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图4对本申请实施例提供的数字人视频的生成方法进行详细阐述。该数字人视频的生成方法可以包括以下步骤：

步骤S210：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户。

在本实施例中，步骤S210中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

步骤S220：若所述处理中用户的用户数量小于第一数量，获取所述处理中用户的用户数量与所述第一数量的差值，作为目标数量。

在本实施例中，在获取处理中用户的用户数量后，且处理中用户的用户数量小于第一数量时，可以获取处理中用户的用户数量与第一数量的差值，作为目标数量。进而可以从多个待处理用户中筛选出目标数量的待处理用户作为目标用户，例如，当目标数量为1时，可以从多个待处理用户中筛选出1个待处理用户作为目标用户；当目标数量为3个时，可以从多个待处理用户中筛选出3个待处理用户作为目标用户。由此可见，目标用户的数量可以是1个，也可以是多个，本实施例对此不作限制。

步骤S230：基于目标数量，对多个待处理用户进行多次分组，得到多个用户组，其中，所述多个用户组中的每个用户组所包括待处理用户的数量不大于所述目标数量。

在本实施例中，多个用户组可以理解为从多个待处理用户依次遍历每个待处理用户，得到多种用户组合，即多个用户组。其中，多个用户组中的每个用户组所包括待处理用户的数量不大于所述目标数量。

示例性地，若多个待处理用户包括用户1、用户2以及用户3，目标数量为2，基于目标数量对三个用户进行多次分组，得到多个用户组，用户组1[用户1]，用户组2[用户2]，用户组3[用户3]，用户组4[用户1，用户2]，用户组5[用户1，用户3]，用户组6[用户2，用户3]。其中，每个用户组中包括用户的用户数量不大于目标数量。多个用户组的数量可以理解为多个待处理用户中筛选目标用户的筛选方案的方案数量。例如，上述例子中确定了6个用户组，代表筛选目标用户的筛选方案的方案数量为6。

在一些实施方式中，可以判断待处理用户的用户数量是否大于第一指定数量，若待处理用户的用户数量未大于第一指定数量，则直接对多个待处理用户进行分组，得到多个用户组；若待处理用户的用户数量大于第一指定数量，则从多个待处理用户中任取第一指定数量的待处理用户，作为多个待分组用户，并对多个待分组用户进行多次分组，得到上述多个用户组。如此，可以在待处理用户的数量较多时，优先从部分待处理用户中确定目标用户，减小了计算量，提高了计算机设备的处理效率，即提高了确定目标用户的效率，进而提高了后续生成目标用户的数字人图像的效率。

步骤S240：针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组等待处理的损失总值，得到所述每个用户组对应的损失值。

基于此，在得到多个用户组，即在得到多个筛选方案后，可以通过获取在每个筛选方案下，其他用户组对应的损失值。其中，损失值越小，代表该筛选方案越优。

在一些实施方式中，请参阅图5，步骤S240可以包括以下步骤：

步骤S241：针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组增加的等待时长，得到所述每个用户组对应的等待增加时长。

在本实施例中，针对每个用户组，即在每种筛选方案下，获取其他用户组增加的等待时长，得到所述每个用户组对应的等待增加时长。其中，等待增加时长越小，代表该筛选方案越优。

示例性地，仍以上述6个用户组为例，针对用户组1，获取利用图像生成模型根据每个用户组的回复文本生成数字人图像时，其他5个用户组增加的等待时长，并获取其他5个用户组增加的等待时长的和值，作为针对用户组1的等待增加时长。同理，依次获取针对其他用户组时的等待增加时长，在此不再赘述。最终，可以得到针对6个用户组，即在6种筛选方案下的6个等待增加时长。

在一些实施方式中，可以选择多个等待增加时长中，最小的等待增加时长对应的筛选方案下的用户组中的待处理用户，作为目标用户。如此，在对目标用户的回复文本进行数字人图像生成时，其他用户的等待时间最短，减少用户的等待时间，提高了用户的交互体验。

步骤S242：针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，与所述每个用户组对应的待处理用户的用户新增数量。

在本实施例中，针对每个用户组，即在每种筛选方案下，此时新增的待处理用户的数量，即为用户新增数量，得到多个用户新增数量。其中，用户新增数量越小，代表该筛选方案越优。

在一些实施方式中，可以选择多个用户新增数量中，最小的用户新增数量对应的筛选方案下的用户组中的待处理用户，作为目标用户。如此，在对目标用户的回复文本进行数字人图像生成时，新增的待处理用户的数量变少，即减少待处理用户的等待数量，保证了大部分用户的交互体验。

步骤S243：针对每个用户组，对所述每个用户组的等待增加时长与所述用户新增数量进行加权求和，得到所述每个用户组对应的损失值。

在一些实施方式中，针对每个用户组，可以获取对每个用户组的等待增加时长与用户新增数量的和值，得到与每个用户组对应的损失值，该损失值可以通过如下公式计算得到：

Loss＝Loss1+Loss2

其中，Loss表征上述损失值，Loss1为等待增加时长，Loss2为用户新增数量。

在另一些实施方式中，针对每个用户组，可以结合时长权重以及新增数量权重，对所述每个用户组的等待增加时长与用户新增数量进行加权求和，得到每个用户组对应的损失值，该损失值可以通过如下公式计算得到：

Loss＝k1×Loss1+k2×Loss2

其中，Loss表征上述损失值，Loss1为等待增加时长，Loss2为用户新增数量，k1为预先设置的时长权重，k2为预先设置的新增数量权重。如此，可以根据不同的应用场景，对k1、k2的数值进行调整，以更有针对性地获取到在不同的应用场景下，每种筛选方案下的损失值；进而可以根据该损失值，确定出在不同的应用场景下最优的筛选方案，即确定出最适配的用户组中的待处理用户作为目标用户。

步骤S250：基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户。

具体地，获取所述多个损失值中最小的损失值，作为目标损失值；获取与所述目标损失值对应的用户组，作为所述目标用户组；获取所述目标用户组中的待处理用户，作为所述目标用户。其中，损失值越小，代表筛选方案越优，即将损失值最小的用户组中的待处理用户确定为目标用户，为最优的办法，此时，新增用户数量和等待增加时长是最小的。也就是说，在对目标用户的回复文本进行数字人图像生成时，减少待处理用户的等待数量，同时减少待处理用户的等待增加时长，尽可能地保证大部分用户的交互体验。

在一些实施方式中，当遍历超过第二指定数量的待处理用户后，仍未确定除目标用户，此时，计算机设备可以输出指定提示信息，以提示用户当前网络繁忙，无法及时生成数字人视频。其中，第二指定数量大于上述第一指定数量。

步骤S260：基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

在本实施例中，步骤S260中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，当处理中用户的用户数量小于第一数量时，通过依次遍历所有待处理用户，得到多种针对目标用户的筛选方案，并且获取每种筛选方案下的损失值，获取损失值最小的筛选方案中的待处理用户作为目标用户，优先生成目标用户的回复文本对应的数字人图像。如此，确定的目标用户，可以保证待处理用户的用户新增数量最少，且其他待处理用户的等待增加时长也最少，可以理解为，尽可能地保证大部分用户的交互体验。

请参照图6，图6为本申请另一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图6对本申请实施例提供的数字人视频的生成方法进行详细阐述。该数字人视频的生成方法可以包括以下步骤：

步骤S310：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户。

在本实施例中，步骤S310中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

步骤S320：若所述处理中用户的用户数量小于第一数量，获取多个待处理用户中不包含可调序标识的待处理用户的用户数量，作为第二数量。

在本实施例中，若回复文本的播报顺序可以进行调序，则会在该回复文本上添加可调序标识。其中，携带有可调序标识的回复文本可以是命中了Cache的回复文本，即不用调用图像生成模块临时生成与回复文本对应的数字人图像。因此，在确定处理中用户的用户数量小于第一数量时，可以先判断多个待处理用户中是否有包含可调序标识的待处理用户，即若待处理用户当前的回复文本之后存在携带有可调序标识的回复文本，则可以将当前的回复文本与之后携带有可调序标识的回复文本进行调序。

可选地，优先播报携带有可调序标识的回复文本对应的数字人视频，将需要图像生成模块生成数字人图像的回复文本的处理时间往后延迟，如此，可以减小当前时刻图像生成模块的并发量，留出计算资源，使图像生成模块可以优先处理无法记性回复文本调序的用户。在一些情况下，可能通过将携带有可调序标识的用户的回复文本进行调序后，使得图像生成模块刚好可以处理当前的其他待处理用户的回复文本，如此，在待处理用户的数量超过计算资源的情况下，通过对回复文本的播报顺序进行调序的方式，仍能及时生成针对每个待处理用户的数字人视频，保证了针对每个用户的交互响应速度，提高了用户体验。

在一些实施方式中，若未能通过调序的方式解决当前待处理用户的用户数量超过计算资源的冲突的情况下，可以获取多个待处理用户中不包含可调序标识的待处理用户的用户数量，作为第二数量。

步骤S330：获取所述处理中用户的用户数量与所述第一数量的差值，作为第三数量。

步骤S340：判断所述第二数量是否小于或等于所述第三数量。

步骤S350：若是，则获取不包含可调序标识的待处理用户，作为所述目标用户。

基于此，在获取到第二数量后，可以进一步获取处理中用户的用户数量与所述第一数量的差值，作为第三数量；并判断第二数量是否小于或等于第三数量。若是，则判定当前还有空闲计算资源生成待处理用户的回复文本对应的数字人图像，并且空闲计算资源足够用于生成所有不包含可调序标识的待处理用户的回复文本对应的数字人图像。因此，可以获取不包含可调序标识的待处理用户，作为目标用户。

步骤S360：若否，则针对不包含可调序标识的待处理用户，执行所述基于目标数量，对多个待处理用户进行多次分组，得到多个用户组至所述基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户的步骤。

步骤S370：基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

在本实施例中，步骤S360至步骤S370中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，可以先通过对待处理用户的可调序的回复文本的播报顺序进行调整，在通过调整回复文本的播报顺序也无法实现对所有待处理用户进行数字人图像生成的情况下，再通过依次遍历所有待处理用户，得到多种针对目标用户的筛选方案，并基于每种筛选方案对应的损失值来确定目标用户。如此，可以提高了对待处理用户的回复文本的处理效率，在待处理用户的数量超过计算资源的情况下，结合对回复文本的播报顺序进行调序的方式，及时生成针对每个待处理用户的数字人视频，保证了针对每个用户的交互响应速度，提高了用户体验。

请参照图7，图7为本申请另一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图7对本申请实施例提供的数字人视频的生成方法进行详细阐述。该数字人视频的生成方法可以包括以下步骤：

步骤S410：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户。

在本实施例中，步骤S410中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

步骤S420：若所述处理中用户的用户数量等于所述第一数量，且在处理中用户存在任一用户的回复文本被所述图像生成模型处理完成的时长均大于预设时长，根据待处理用户的回复文本，生成字幕图片和/或浮层图片。

在本实施例中，若处理中用户的用户数量等于所述第一数量，且在处理中用户存在任一用户的回复文本被图像生成模型处理完成的时长均大于预设时长，代表在最大响应时长内处理中用户的回复文本对应的数字人图像无法处理完成，也就是说，无法确定出目标用户。基于此，为了保证用户的交互体验，可以不生成数字人图像，仅根据待处理用户的回复文本，生成字幕图片；或者，生成浮层图片；又或者，同时生成字幕图片和浮层图片，本实施例对此不作限制。

步骤S430：根据所述字幕图片和/或所浮层图片，生成用于答复所述待处理用户的回复视频。

基于此，当根据待处理用户的回复文本仅生成字幕图片时，则根据字幕图片，生成用于答复待处理用户的回复视频；当根据待处理用户的回复文本仅生成浮层图片时，则根据浮层图片，生成用于答复待处理用户的回复视频；当根据待处理用户的回复文本同时生成浮层图片以及字幕图片时，则根据浮层图片以及字幕图片，生成用于答复待处理用户的回复视频。

在本实施例中，当计算资源不足时，可以通过不生成数字人图像，仅生成包含字幕和/或浮层的回复视频，如此，在计算资源不足时，仍能保证及时将回复文本通过视频的方式反馈给用户，保证了人机智能交互的及时性，提高了用户体验。

请参照图8，图8为本申请另一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图8对本申请实施例提供的数字人视频的生成方法进行详细阐述。该数字人视频的生成方法可以包括以下步骤：

步骤S510：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户。

在本实施例中，步骤S510中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

步骤S520：若所述处理中用户的用户数量小于第一数量，且未能从所述待处理用户中确定出目标用户，调整所述图像生成模型中的生成参数由原始参数至目标参数，基于所述目标参数生成的数字人图像的尺寸小于基于所述原始参数生成的数字人图像的尺寸。

在本实施例中，若所述处理中用户的用户数量小于第一数量，且未能通过调整回复文本的播报顺序或者基于遍历所有待处理用户获取损失值的方式，从所述待处理用户中确定出目标用户，可以通过调整所述图像生成模型中的生成参数由原始参数至目标参数，其中，基于目标参数生成的数字人图像的尺寸小于基于原始参数生成的数字人图像的尺寸。

可以理解地，通过调整图像生成模型中的原始参数，以使生成的数字人图想的尺寸变小，进而来减少在生成数字人图像时对计算资源的占用，进而可以在有限的计算资源的情况下，提高可以最大处理用户量，即扩大了第一数量。例如，在原始参数的情况下，当前时刻图像生成模块仅能同时对100个用户的回复文本进行数字人图像的生成；在将生成参数调整至目标参数后，当前时刻图像生成模块可以同时对200个用户的回复文本进行数字人图像的生成。

步骤S530：基于调整至目标参数的图像生成模型，生成所述待处理用户的回复文本对应的数字人图像。

在本实施例中，步骤S530中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，在无法通过调整回复文本的播报顺序或者基于遍历所有待处理用户获取损失值的方式，从所述待处理用户中确定出目标用户的情况下，可以通过调整图像生成模型中的生成参数，以使生成的数字人图像的尺寸变小，进而减少在生成数字人图像时对计算资源的占用，进而可以在有限的计算资源的情况下，提高可以最大处理用户量，提高了数字人图像生成的效率，保证了针对每个用户的交互响应速度，提高了用户体验。

请参照图9，图9为本申请另一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图9对本申请实施例提供的数字人视频的生成方法进行详细阐述。该数字人视频的生成方法可以包括以下步骤：

步骤S610：在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户，所述回复文本包括字幕文本。

步骤S620：若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对所述目标用户的回复文本所对应的处理时长满足预设时长条件，所述待处理用户为未开始针对回复文本生成数字人图像的用户。

步骤S630：基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像。

在本实施例中，步骤S610至步骤S630中的具体内容可以参阅前述实施例中的内容，在此不再赘述。

步骤S640：提取所述字幕文本中的至少一个关键词。

在本实施例中，当回复文本中仅包括字幕文本时，可以通过意图分析以及分词的方式，从字幕文本中提取至少一个关键词。例如，当字幕文本是“例会的召开时间为星期五，会议内容与股票、债券以及投资相关”，通过意图分析以及分词的方式，可以将字幕文本中可以表征其意图的，较为重要的关键词提取出来，例如“例会”、“股票”、“债券”以及“投资”。

步骤S650：基于所述至少一个关键词，生成浮层图片，以及根据字幕文本生成字幕图片。

基于此，在获取到至少一个关键词后，可以基于至少一个关键词生成浮层图片；同时，根据字幕文本生成对应的字幕图片。

在一些实施方式中，当回复文本中同时包括字幕文本以及浮层文本时，可以直接根据浮层文本生成浮层图片，以及根据字幕文本生成字幕图片。

步骤S660：基于所述字幕图片、所述浮层图片以及所述数字人图像，生成所述数字人视频。

在本实施例中，可以通过对字幕图片、浮层图片以及数字人图像进行排版、叠加以及渲染等操作，生成用于构成该数字人视频的视频帧。请参阅图10，图10示出了生成的数字人视频中的一帧视频帧，其中，视频帧中包括数字人图像11、浮层图片12以及字幕图片13。

在一些实施方式中，浮层图片12中的显示的关键词可以用于智能交互，即用户可以点击显示的关键词中的任一个关键词，计算机设备响应于用户的操作，输出与关键词相关的信息。例如，当用户点击图10中的关键词“股票”，计算机设备可以输出“股票”的定义信息、热门股票等信息。如此，增加了智能交互的多样性，提高了用户体验。

在本实施例中，生成的数字人视频中，不仅包括数字人图像以及字幕，同时还包括浮层图片，并且浮层图片中显示又可以用于交互的关键词，增加了智能交互的多样性，提高了用户体验；以及，方便用户在观看数字人视频的同时，可以点击浮层中的关键词，以了解更多更详细的信息，提高了数字人视频中所包含信息的全面性。

请参照图11，图11为本申请另一实施例提供的一种数字人视频的生成方法、装置、计算机设备及存储介质。下面将结合图11对本申请实施例提供的数字人视频的生成方法进行详细阐述。

在本实施例中，当存在用户请求接入交互系统10中时，数字人服务器中的会话管理系统首先会判断此时用户量是否超过并发数量，若超过，则会拒绝用户接入；若未超过，则与智能对话系统中建立一个新会话。再根据用户在会话中输入的待查询信息，获取针对待查询信息的回复文本；并判断回复文本是否命中Cache，若命中Cache，则直接输出Cache中预存的与回复文本对应的数字人图像；若未命中，在判断当前时刻处理中用户是否达到第一数量，若未达到第一数量，则通过调序或遍历每个待处理用户获取损失值的方式，确定出目标用户，优先基于图像生成模块对目标用户进行数字人图像生成，具体实施方式可以参阅前述实施例中的内容，在此不再赘述。其中，图像生成模块包括从文本到语音(Text ToSpeech，TTS)、预先训练的嘴型参数模型以及预先训练的图片生成模型。同时，将回复文本转换为超文本标记语言(Hyper Text Markup Language，HTML)，并基于浮层渲染系统中的魔板系统、背景半透明图片系统、、字幕长度匹配系统以及辅助动画视频系统，进行渲染，得到最终的字幕图片以及浮层图片。再基于成像布局系统，对字幕图片、浮层图片以及数字人图像进行布局排布以及叠加渲染，得到最终的视频帧；最终通过视频编码器对视频帧进行编码后，输出至用户的电子终端；对应地，电子终端对接收到的已编码的视频帧进行解码播放，即完成智能人机交互。

在本实施例中，可以处理大于图像处理模块的最大处理用户量的用户数量，即实现了超卖，服务比系统资源数量更多的用户，保证了针对每个用户的交互响应速度，提高了用户体验。

请参照图12，其中示出了本申请一实施例提供的一种数字人视频的生成装置800的结构框图。该装置800可以包括：用户数量获取模块810、目标用户确定模块820和图像生成模块830。

用户数量获取模块810用于在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户。

目标用户确定模块820用于若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对所述目标用户的回复文本所对应的处理时长满足预设时长条件，所述待处理用户为未开始针对回复文本生成数字人图像的用户。

图像生成模块830用于基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像830所述数字人图像用于生成数字人视频。

在一些实施方式中，所述待处理用户的数量为多个，目标用户确定模块820可以包括：目标数量获取单元、分组单元、损失值获取单元以及目标用户确定单元。其中，目标数量获取单元可以用于获取所述处理中用户的用户数量与所述第一数量的差值，作为目标数量。分组单元可以用于基于目标数量，对多个待处理用户进行多次分组，得到多个用户组，其中，所述多个用户组中的每个用户组所包括待处理用户的数量不大于所述目标数量。损失值获取单元可以用于针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组等待处理的损失总值，得到所述每个用户组对应的损失值。目标用户确定单元可以用于基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户。

在该方式下，目标用户确定单元可以包括：目标损失值获取子单元、用户组确定子单元以及目标用户确定子单元。其中，目标损失值获取子单元可以用于获取所述多个损失值中最小的损失值，作为目标损失值。用户组确定子单元可以用于获取与所述目标损失值对应的用户组，作为所述目标用户组。目标用户确定子单元可以用于获取所述目标用户组中的待处理用户，作为所述目标用户。

在一些实施方式中，损失值获取单元可以包括：时长获取子单元、数量获取子单元以及损失值确定子单元。其中，时长获取子单元可以用于针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组增加的等待时长，得到所述每个用户组对应的等待增加时长。数量获取子单元可以用于针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，与所述每个用户组对应的待处理用户的用户新增数量。损失值确定子单元可以用于针对每个用户组，对所述每个用户组的等待增加时长与所述用户新增数量进行加权求和，得到所述每个用户组对应的损失值。

在一些实施方式中，所述待处理用户的数量为多个，目标用户确定模块820还可以包括：第二数量获取单元、第三数量获取单元以及判断单元。其中，第二数量获取单元可以用于获取多个待处理用户中不包含可调序标识的待处理用户的用户数量，作为第二数量。第三数量获取单元可以用于获取所述处理中用户的用户数量与所述第一数量的差值，作为第三数量。判断单元可以具体用于：判断所述第二数量是否小于或等于所述第三数量；若是，则获取不包含可调序标识的待处理用户，作为所述目标用户；若否，则针对不包含可调序标识的待处理用户，执行所述基于目标数量，对多个待处理用户进行多次分组，得到多个用户组至所述基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户的步骤。

在一些实施方式中，目标用户确定模块820还可以用于在所述获取用户队列中的处理中用户的用户数量之后，若所述处理中用户的用户数量等于所述第一数量，在处理中用户存在任一用户的回复文本于预设时长之内被所述图像生成模型处理完成时，执行所述从所述用户队列中的待处理用户中确定出目标用户至所述基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像的步骤。

在一些实施方式中，数字人视频的生成装置800还可以包括：图片生成模块以及视频生成模块。其中，图片生成模块可以用于在所述获取用户队列中的处理中用户的用户数量之后，若所述处理中用户的用户数量等于所述第一数量，且在处理中用户存在任一用户的回复文本被所述图像生成模型处理完成的时长均大于预设时长，根据待处理用户的回复文本，生成字幕图片和/或浮层图片。视频生成模块可以用于根据所述字幕图片和/或所浮层图片，生成用于答复所述待处理用户的回复视频。

在一些实施方式中，图像生成模块830还可以包括：参数调整单元以及图像生成单元。其中，参数调整单元可以用于在所述获取用户队列中的处理中用户的用户数量之后，若所述处理中用户的用户数量小于第一数量，且未能从所述待处理用户中确定出目标用户，调整所述图像生成模型中的生成参数由原始参数至目标参数，基于所述目标参数生成的数字人图像的尺寸小于基于所述原始参数生成的数字人图像的尺寸。图像生成单元可以用于基于调整至目标参数的图像生成模型，生成所述待处理用户的回复文本对应的数字人图像。

在一些实施方式中，所述回复文本包括字幕文本，数字人视频的生成装置800还可以包括：关键词提取模块。其中，关键词提取模块可以用于提取所述字幕文本中的至少一个关键词。图像生成模块830可以具体用于：基于所述至少一个关键词，生成浮层图片，以及根据字幕文本生成字幕图片；基于所述字幕图片、所述浮层图片以及所述数字人图像，生成所述数字人视频。

在一些实施方式中，数字人视频的生成装置800还可以包括：并发量控制模块。其中，并发量控制模块可以具体用于在所述获取用户队列中的处理中用户的用户数量之后，若在当前时刻接收新用户发送的加入至所述用户队列的加入请求，获取所述待处理用户的用户数量与所述处理中用户的用户数量的和值；判断所述和值是否达到第四数量，所述第四数量大于所述第一数量；若所述和值达到所述第四数量，则输出提示信息，所述提示信息用于提示当前时刻无法实时生成用于反馈针对新用户的输入信息所对应的数字人视频；若所述和值未达到所述第四数量，则响应所述新用户中的部分用户的访问请求，将所述部分用户加入至所述用户队列中，所述部分用户的用户数量与所述用户队列中已有用户的用户数量的和值不大于所述预设用户数量。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的方案中，在本实施例中，在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量；若处理中用户的用户数量小于第一数量，从用户队列中的待处理用户中确定出处理时长满足预设时长条件的目标用户；最后，再基于图像生成模型生成目标用户的回复文本所对应的数字人图像，该数字人图像用于生成数字人视频。如此，在当前时刻的预设时长内，可以处理大于图像处理模块的最大处理用户量的用户数量，提高了数字人视频生成的效率；即实现了超卖，服务比系统资源数量更多的用户，保证了针对每个用户的交互响应速度，提高了用户体验。

下面将结合图对本申请提供的一种计算机设备进行说明。

参照图13，图13示出了本申请实施例提供的一种计算机设备900的结构框图，本申请实施例提供的数字人视频的生成方法可以由该计算机设备900执行。其中，计算机设备900可以是等能够运行应用程序的设备。

本申请实施例中的计算机设备900可以包括一个或多个如下部件：处理器901、存储器902、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器902中并被配置为由一个或多个处理器901执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器901可以包括一个或者多个处理核。处理器901利用各种接口和线路连接整个计算机设备900内的各个部分，通过运行或执行存储在存储器902内的指令、程序、代码集或指令集，以及调用存储在存储器902内的数据，执行计算机设备900的各种功能和处理数据。可选地，处理器901可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器901可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器901中，单独通过一块通信芯片进行实现。

存储器902可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器902可用于存储指令、程序、代码、代码集或指令集。存储器902可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备900在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1000中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1000包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数字人视频的生成方法，其特征在于，所述方法包括：

在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户；

若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，所述目标用户为符合预设时长条件的待处理用户，所述预设时长条件为预先训练的图像生成模型在预设时长内，完成对所述目标用户的回复文本所对应的数字人图像的生成，所述待处理用户为未开始针对回复文本生成数字人图像的用户；

基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

2.根据权利要求1所述的方法，其特征在于，所述待处理用户的数量为多个，所述从所述用户队列中的待处理用户中确定出目标用户，包括：

获取所述处理中用户的用户数量与所述第一数量的差值，作为目标数量；

基于目标数量，对多个待处理用户进行多次分组，得到多个用户组，其中，所述多个用户组中的每个用户组所包括待处理用户的数量不大于所述目标数量；

针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组等待处理的损失总值，得到所述每个用户组对应的损失值；

基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户。

3.根据权利要求2所述的方法，其特征在于，所述基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户，包括

获取所述多个损失值中最小的损失值，作为目标损失值；

获取与所述目标损失值对应的用户组，作为所述目标用户组；

获取所述目标用户组中的待处理用户，作为所述目标用户。

4.根据权利要求2所述的方法，其特征在于，所述针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组等待处理的损失总值，得到所述每个用户组对应的损失值，包括：

针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组增加的等待时长，得到所述每个用户组对应的等待增加时长；

针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，与所述每个用户组对应的待处理用户的用户新增数量；

针对每个用户组，对所述每个用户组的等待增加时长与所述用户新增数量进行加权求和，得到所述每个用户组对应的损失值。

5.根据权利要求1所述的方法，其特征在于，所述待处理用户的数量为多个，所述从所述用户队列中的待处理用户中确定出目标用户，包括：

获取多个待处理用户中不包含可调序标识的待处理用户的用户数量，作为第二数量；

获取所述处理中用户的用户数量与所述第一数量的差值，作为第三数量；

判断所述第二数量是否小于或等于所述第三数量；

若是，则获取不包含可调序标识的待处理用户，作为所述目标用户；

若否，则针对不包含可调序标识的待处理用户，基于目标数量，对多个待处理用户进行多次分组，得到多个用户组，其中，所述多个用户组中的每个用户组所包括待处理用户的数量不大于所述目标数量；针对每个用户组，获取利用所述图像生成模型根据所述每个用户组的回复文本生成数字人图像时，其他用户组等待处理的损失总值，得到所述每个用户组对应的损失值；基于多个损失值，从所述多个用户组中获取出目标用户组中的待处理用户，作为所述目标用户。

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述获取用户队列中的处理中用户的用户数量之后，所述方法还包括：

若所述处理中用户的用户数量等于所述第一数量，在处理中用户存在任一用户的回复文本于预设时长之内被所述图像生成模型处理完成时，从所述用户队列中的待处理用户中确定出目标用户，其中，预先训练的图像生成模型针对所述目标用户的回复文本所对应的处理时长满足预设时长条件，所述待处理用户为未开始针对回复文本生成数字人图像的用户；基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

7.根据权利要求1-5任一项所述的方法，其特征在于，在所述获取用户队列中的处理中用户的用户数量之后，所述方法还包括：

若所述处理中用户的用户数量等于所述第一数量，且在处理中用户存在任一用户的回复文本被所述图像生成模型处理完成的时长均大于预设时长，根据待处理用户的回复文本，生成字幕图片和/或浮层图片；

根据所述字幕图片和/或所浮层图片，生成用于答复所述待处理用户的回复视频。

8.根据权利要求1-5任一项所述的方法，其特征在于，在所述获取用户队列中的处理中用户的用户数量之后，所述方法还包括：

若所述处理中用户的用户数量小于第一数量，且未能从所述待处理用户中确定出目标用户，调整所述图像生成模型中的生成参数由原始参数至目标参数，基于所述目标参数生成的数字人图像的尺寸小于基于所述原始参数生成的数字人图像的尺寸；

基于调整至目标参数的图像生成模型，生成所述待处理用户的回复文本对应的数字人图像。

9.根据权利要求1-5任一项所述的方法，所述回复文本包括字幕文本，在所述从所述用户队列中的待处理用户中确定出目标用户之后，所述方法还包括：

提取所述字幕文本中的至少一个关键词；

基于所述至少一个关键词，生成浮层图片，以及根据字幕文本生成字幕图片；

在所述基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像之后，所述方法还包括：

基于所述字幕图片、所述浮层图片以及所述数字人图像，生成所述数字人视频。

10.根据权利要求1-5任一项所述的方法，其特征在于，在所述获取用户队列中的处理中用户的用户数量之后，所述方法还包括：

若在当前时刻接收新用户发送的加入至所述用户队列的加入请求，获取所述待处理用户的用户数量与所述处理中用户的用户数量的和值；

判断所述和值是否达到第四数量，所述第四数量大于所述第一数量；

若所述和值达到所述第四数量，则输出提示信息，所述提示信息用于提示当前时刻无法实时生成用于反馈针对新用户的输入信息所对应的数字人视频；

若所述和值未达到所述第四数量，则响应所述新用户中的部分用户的访问请求，将所述部分用户加入至所述用户队列中，所述部分用户的用户数量与所述用户队列中已有用户的用户数量的和值不大于所述第四数量。

11.一种数字人视频的生成装置，其特征在于，所述装置包括：

用户数量获取模块，用于在生成数字人图像的过程中，获取用户队列中的处理中用户的用户数量，所述处理中用户为已开始针对回复文本生成数字人图像的用户；

目标用户确定模块，用于若所述处理中用户的用户数量小于第一数量，从所述用户队列中的待处理用户中确定出目标用户，其中，所述目标用户为符合预设时长条件的待处理用户，所述预设时长条件为预先训练的图像生成模型在预设时长内，完成对所述目标用户的回复文本所对应的数字人图像的生成，所述待处理用户为未开始针对回复文本生成数字人图像的用户；

图像生成模块，用于基于所述图像生成模型生成所述目标用户的回复文本所对应的数字人图像，所述数字人图像用于生成数字人视频。

12.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-10中任意一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-10中任意一项所述的方法。