CN117201706A

CN117201706A - 基于控制策略的数字人合成方法、系统、设备及介质

Info

Publication number: CN117201706A
Application number: CN202311177787.4A
Authority: CN
Inventors: 黄元忠; 卢庆华; 陈高博
Original assignee: Shenzhen Muyu Technology Co ltd
Current assignee: Shenzhen Muyu Technology Co ltd
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-08
Anticipated expiration: 2043-09-12
Also published as: CN117201706B

Abstract

本发明公开了基于控制策略的数字人合成方法、系统、设备及介质，该方法包括获取到用户输入信息，并根据用户输入信息获得关键特征信息；根据关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项；根据索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材；根据人像控制编辑选项对人像视频素材进行处理，得到人像视频编辑素材；基于语音素材和人像视频编辑素材生成数字人视频，并将数字人视频传输至用户端。本发明能够促进大规模生成符合特定质量需求的数字人，能够更高效提升数字人合成的质量与制作效率。

Description

基于控制策略的数字人合成方法、系统、设备及介质

技术领域

本发明涉及数字人技术领域，尤其涉及一种基于控制策略的数字人合成方法、系统、计算机设备及存储介质。

背景技术

当前的网络平台中各类数字人长短视频成为了一种新颖的互联网内容输出的主要形式，一般而言，合成的素材包括了文本库、音频库和视频库。然而，随着提供此类数字人合成视频的提供商之间竞争日趋激烈，对于制作效率、产品质量的要求越来越高。然而，同样一段文字合成的语音结合不同人像素材所合成的数字人视频的质量也会参差不齐，差距具体表现为音画匹配率低、面部的自然度差、画质低下等，这些缺陷的成因往往比较复杂，既与原始素材本身的质量不一有关系，也与不同合成算法间的差异性有关。因此，目前难以促进大规模生成符合特定质量需求的数字人，且数字人合成的制作效率低。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，本发明实施例提供了一种基于控制策略的数字人合成方法、系统、计算机设备及存储介质，能够促进大规模生成符合特定质量需求的数字人，能够更高效提升数字人合成的质量与制作效率。

第一方面，本发明实施例提供了一种基于控制策略的数字人合成方法，其包括：

获取到用户输入信息，并根据所述用户输入信息获得关键特征信息；

根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项；

根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材；

根据所述人像控制编辑选项对所述人像视频素材进行处理，得到人像视频编辑素材；

基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端。

第二方面，本发明实施例提供了一种基于控制策略的数字人合成系统，其包括：人机交互感知模块、决策器、人像素材编辑模块和语音驱动合成模块；

所述人机交互感知模块，用于获取到用户输入信息，并根据所述用户输入信息获得关键特征信息；

所述决策器，用于根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项；

所述决策器，还用于根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材；

所述人像素材编辑模块，用于根据所述人像控制编辑选项对所述人像视频素材进行处理，得到人像视频编辑素材；

所述语音驱动合成模块，用于基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面的基于控制策略的数字人合成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行上述第一方面的基于控制策略的数字人合成方法。

本发明实施例提供了基于控制策略的数字人合成方法、系统、设备及介质，该方法包括获取到用户输入信息，并根据用户输入信息获得关键特征信息；根据关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项；根据索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材；根据人像控制编辑选项对人像视频素材进行处理，得到人像视频编辑素材；基于语音素材和人像视频编辑素材生成数字人视频，并将数字人视频传输至用户端。本发明能够促进大规模生成符合特定质量需求的数字人，能够更高效提升数字人合成的质量与制作效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的基于控制策略的数字人合成方法的流程示意图；

图2为本发明一实施例提供的基于控制策略的数字人合成系统的示意性框图；

图3为本发明另一实施例提供的基于控制策略的数字人合成系统的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明一实施例提供的基于控制策略的数字人合成方法的流程示意图。本发明实施例提供的基于控制策略的数字人合成方法应用于服务器中，本发明实施例提供的基于控制策略的数字人合成方法包括步骤S101～S105。

S101、获取到用户输入信息，并根据所述用户输入信息获得关键特征信息。

在本实施例中，获取用户输入信息，并从用户输入信息中获得关键特征信息，其中，可以通过将用户输入信息输入至预先训练的自然语言理解模型来提取关键特征信息，从而理解到用户的会话重点。例如，关键特征信息可以包括用户的问题核心信息、知识分类信息和会话的人物图像信息。

在一实施例中，所述获取到用户输入信息，包括：

响应于交互指令，获取与所述交互指令对应的指令起始时间点，并获取预设时长；

根据所述指令起始时间点和所述预设时长确定当前目标时间段；

若在所述当前目标时间段内获取到用户输入的第一文字信息，则将所述第一文字信息作为所述用户输入信息；

若在所述当前目标时间段内获取到用户输入的语音信息，则将所述语音信息转换为第二文字信息，并以所述第二文字信息作为所述用户输入信息；

若在所述当前目标时间段内未获取到所述第一文字信息和所述语音信息，则向所述用户端发送预设的初始会话信息，以获取到与所述初始会话信息对应的所述用户输入信息。

在本实施例中，交互指令由用户触发，根据与交互指令对应的指令起始时间点和预设时长可以确定到当前目标时间段，即当前目标时间段以指令起始时间点为起点，并以指令起始时间点和预设时长之和为终点。进一步的，判断当前目标时间段内是否有用户输入的会话信息，其中，如果在当前目标时间段内获取到用户输入的第一文字信息，即用户是通过文字进行输入的，则直接以第一文字信息作为用户输入信息；如果在当前目标时间段内获取到用户输入的语音信息，则需要先将该语音信息转换为第二文字信息，再以第二文字信息作为用户输入信息。另外，如果在当前目标时间段内未获取到第一文字信息和语音信息，说明用户在当前目标时间段内并没有输入会话信息，则向用户端发送预设的初始会话信息，初始会话信息用于提示用户输入第一文字信息或语音信息，从而获取到与初始会话信息对应的用户输入信息。具体的，获取到与初始会话信息对应的用户输入信息可以理解为：获取与所述初始会话信息对应的发送时间点，以所述发送时间点作为所述指令起始时间点，并返回执行所述根据所述指令起始时间点和所述预设时长确定当前目标时间段的步骤。

S102、根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项。

在本实施例中，根据关键特征信息和规则策略得到索引标签列表和人像控制编辑选项，即获得了符合用户期望的控制策略。其中，索引标签列表作为选择策略，使得系统可以通过索引标签列表从预设的人像语音素材库中索引出所需的人像视频素材和语音素材；人像控制编辑选项作为编辑策略，使得系统可以通过人像控制编辑选项对获得的人像视频素材进行处理。例如，从用户输入信息中获得的关键特征信息为“天文学知识”，规则策略包括组合查表策略、拟合函数策略和神经网络策略，具体的，可以结合关键特征信息、应用场景及运算的复杂程度从组合查表策略、拟合函数策略和神经网络策略中选择其中一个作为目标策略。当以组合查表策略作为目标策略时，根据关键特征信息“天文学知识”可以确定“人物形象”包括“开普勒”、“祖冲之”和“爱因斯坦”，“语音”包括“外国男性”、“外国女性”、“国内男性”和“国内女性”，“语气”包括“普通语气”和“严肃语气”，“人像编辑”包括“增强图像”和“增强表情”，并根据组合查表策略查询到“开普勒”+“外国男性”+“普通语气”+“增强图像”组合的优先程度高于其它组合，则以该优先程度最高的组合作为目标组合，从目标组合中确定索引标签列表包括“人物形象标签：开普勒”、“语音标签：外国男性”和“语气标签：普通语气”，以及人像控制编辑选项可以为“画面增强”编辑指令。当以拟合函数策略作为目标策略时，可以根据拟合函数策略计算出各组合的置信得分，并以置信得分最高的组合作为目标组合。当以神经网络策略作为目标策略时，以“人物形象”、“语音”、“语气”和“人像编辑”分别包含的数据作为神经网络策略中预先训练好的策略神经网络模型的输入数据，然后通过该策略神经网络模型输出目标组合。另外，索引标签列表中的标签为离散可枚举型，这意味着索引标签列表中的标签分类需要和人像语音素材库的标签分类集合中的标签分类对应。

S103、根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材。

在本实施例中，人像语音素材库包括一个标签化的人像视频素材库和一个标签化的包含不同人物不同语气的语音素材库，因此可以根据索引标签列表从人像语音素材库中索引出人像视频素材和语音素材。

在一实施例中，步骤S103包括：

获取所述索引标签列表中的人像索引标签列表，并根据所述人像索引标签列表从所述人像语音素材库中获得人像视频素材；

获取所述索引标签列表中的语音标签列表，并根据所述语音标签列表从所述人像语音素材库中获得所述语音素材。

在本实施例中，索引标签列表包括人像索引标签列表和语音标签列表，从而可以快速的根据人像索引标签列表和语音标签列表分别从人像语音素材库中索引出人像视频素材和语音素材。例如，索引标签列表包括“人物形象标签：开普勒”、“语音标签：外国男性”和“语气标签：普通语气”，其中，人像索引标签列表包括“人物形象标签：开普勒”，语音标签列表包括“语音标签：外国男性”和“语气标签：普通语气”。

S104、根据所述人像控制编辑选项对所述人像视频素材进行处理，得到人像视频编辑素材。

在本实施例中，根据人像控制编辑选项对人像视频素材进行处理，以获得处理后的人像视频编辑素材，以增强或者修正人像视频素材的视频，提高人像视频素材的质量。其中，人像控制编辑选项可以为“增强图像”编辑指令或“增强表情”编辑指令。例如，当人像控制编辑选项为“增强图像”编辑指令时，可以根据“增强图像”编辑指令调用深度学习领域的人像增强功能提高人像视频素材的画质清晰度。当人像控制编辑选项为“增强表情”编辑指令时，可以根据“增强表情”编辑指令增强人像视频素材中人物形象的开心、严肃等表情效果。

S105、基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端。

在本实施例中，当获得语音素材和人像视频编辑素材后，则开始将语音素材和人像视频编辑素材进行合成以生成数字人视频，然后将数字人视频传输至用户端，以该数字人视频作为用户当前会话的输出信息，从而快速生成符合用户需求的数字人，且能够更高效提升数字人合成的质量与制作效率。其中，数字人视频的长度取决于获得的人像视频编辑素材的视频长度和语音素材的语音长度，如果视频长度大于语音长度，则将后面超出语音长度的多余视频长度对应的人像视频编辑素材除去；如果语音长度大于视频长度，则可以将人像视频编辑素材中的视频帧循环播放直至达到语音长度。

在一实施例中，在步骤S105之后，还包括：

获取用户感受反馈数据，并获取所述数字人视频的人像特征；

若获取到当前用户输入信息，则获取历史会话信息；

根据所述历史会话信息、所述当前用户输入信息、所述人像特征和所述用户感受反馈数据获得当前关键特征信息，并以所述当前关键特征信息作为所述关键特征信息，返回执行步骤S102。

在本实施例中，获取用户感受反馈数据和数字人视频的人像特征，以感知用户在视觉听觉上对合成后的数字人视频的感受反馈，能够影响到用户进行下一步会话的数字人的生成。其中，可以通过人脸识别获取到数字人视频的人像特征。当用户输入下一步会话的会话信息时，由会话信息获取到当前用户输入信息，然后获取历史会话信息，其中，历史会话信息包括在用户已完成的历史会话中所存储的历史用户输入信息和历史数字人视频。然后，根据历史会话信息、当前用户输入信息、人像特征和用户感受反馈数据获得当前关键特征信息，并以当前关键特征信息作为关键特征信息，返回执行步骤S102，从而生成下一步会话的数字人视频。例如，用户会话得到的数字人视频谈到了“祖冲之是中国观测月球第一人”，且用户在观看该数字人视频后说了“不要不要，太粗犷了”的感受反馈，则与该数字人视频的人像特征对应的用户感受反馈数据为“粗犷”，并且在用户进行下一步会话时，用户冷不丁问“嫦娥呢？”，结合历史会话信息中包含“祖冲之、第一人”等信息，则会通过当前关键特征信息选择人像特征“柔和”一点的数字人，并得到对应的输出信息“嫦娥是神话人物”。通过感知用户的感受反馈和合成的数字人视频，能够兼容用户与机器的交互效果，以生成符合用户需求的数字人。

在一实施例中，所述获取用户感受反馈数据，包括：

若获取到用户输入的文本感受反馈信息，则根据所述文本感受反馈信息和预先训练的文本情绪识别模型获得所述用户感受反馈数据；

若获取到用户输入的语音感受反馈信息，则根据所述语音感受反馈信息和预先训练的语音情绪识别模型获得所述用户感受反馈数据。

在本实施例中，用户可以通过输入文字或语音来反馈感受，如果用户通过输入文字来反馈感受，在获取到由用户输入的文字组成的文本感受反馈信息后，通过将文本感受反馈信息输入至预先训练的文本情绪识别模型中，由文本情绪识别模型输出感受反馈数据。如果用户通过输入语音来反馈感受，则通过将获取到的语音感受反馈信息输入至预先训练的语音情绪识别模型中，由语音情绪识别模型输出感受反馈数据。通过文本情绪识别模型和语音情绪识别模型分别对用户输入的文本感受反馈信息和语音感受反馈信息进行情绪识别，能够识别到用户针对数字人视频的情绪。

在一实施例中，在步骤S105之后，还包括：

若接收到用户反馈评分，且确定所述人像语音素材库完成更新，则基于所述数字人视频和所述用户反馈评分得到置信评分；

根据所述置信评分更新所述规则策略。

在本实施例中，为了提升规则策略的决策准确性，生成符合用户需求的数字人，可以依赖用户反馈评分和合成后的数字人视频对规则策略进行更新。具体的，当接收到用户反馈评分并确定人像语音素材库完成更新，则基于数字人视频和用户反馈评分得到置信评分，根据置信评分更新规则策略。其中，可以针对合成的数字人视频的音画质量的评分和用户反馈评分得到置信评分，置信评分通过强化学习原理反馈至规则策略中的函数或者神经网络里面，如组合查表策略中的组合查表函数、拟合函数策略中的拟合函数和神经网络策略中的策略神经网络，通过更新后的规则策略能够选出符合用户期待且音画质量优异的数字人视频的原始素材。例如，还是考虑前述从用户输入信息中获得的关键特征信息为“天文学知识”的问答情形时，对于一般成年用户，从基础认知上而言，根据更新前的规则策略中的组合查表策略查询到“开普勒”+“外国男性”+“普通语气”+“增强图像”组合的优先程度高于其它组合，从而确定到索引标签列表包括“人物形象标签：开普勒”、“语音标签：外国男性”和“语气标签：普通语气”，以及人像控制编辑选项可以为“画面增强”编辑指令。然而，在用户群体年龄、性别分布等发生较大变化的情况下，例如当面对基础教育阶段的学生，卡通的人物形象和柔和的语音所占的评分权重会更高，所以当面对的用户群体发生较大变化时，基于更新前的规则策略所确定的索引标签列表和人像控制编辑选项不一定能得到能符合新用户的期待的数字人的语音素材和人像视频素材，此时新用户通过降低用户反馈评分反馈其不满意所生成的数字人视频，因此需要对规则策略进行更新。

在一实施例中，所述基于所述数字人视频和所述用户反馈评分得到置信评分，包括：

基于所述数字人视频获得像素峰值信噪比、图形结构相似度和图像感知相似度；

获取与所述像素峰值信噪比对应的第一权重系数、与所述图形结构相似度对应的第二权重系数、与所述图像感知相似度对应的第三权重系数，以及与所述用户反馈评分对应的第四权重系数；

根据所述像素峰值信噪比、所述第一权重系数、所述图形结构相似度、所述第二权重系数、所述图像感知相似度、所述第三权重系数、所述用户反馈评分、所述第四权重系数和预设的加权求和策略，得到所述置信评分。

在本实施例中，通过合成后的数字人视频获得像素峰值信噪比、图形结构相似度和图像感知相似度，以通过像素峰值信噪比、图形结构相似度和图像感知相似度体现合成后的数字人视频的音画质量，具体的，获取数字人视频的视频长度，根据视频长度和预设的抽取比例得到抽取数量，从数字人视频中随机抽取N(N等于抽取数量)帧数字人视频帧，例如，N＝3时，从数字人视频中随机抽取3帧数字人视频帧，分别为第一数字人视频帧、第二数字人视频帧和第三数字人视频帧，当获取像素峰值信噪比时，计算第一数字人视频帧的峰值信噪比(PSNR，Peak signal-to-noise ratio)得到第一信噪比，计算第二数字人视频帧的峰值信噪比得到第二信噪比，计算第三数字人视频帧的峰值信噪比得到第三信噪比，通过计算第一信噪比、第二信噪比和第三信噪比的平均值得到像素峰值信噪比；当获取图形结构相似度时，计算第一数字人视频帧分别与第二数字人视频帧和第三数字人视频帧的结构相似性(SSIM，Structural Similarity)得到第一结构相似性和第二结构相似性，计算第二数字人视频帧与第三数字人视频帧的结构相似性得到第三结构相似性，通过计算第一结构相似性、第二结构相似性和第三结构相似性的平均值得到图形结构相似度；当获取图像感知相似度时，计算第一数字人视频帧分别与第二数字人视频帧和第三数字人视频帧的学习感知图像块相似度(LPIPS，Learned Perceptual Image Patch Similarity)得到第一感知相似度和第二感知相似度，计算第二数字人视频帧与第三数字人视频帧的结构相似性得到第三感知相似度，通过计算第一感知相似度、第二感知相似度和第三感知相似度的平均值得到图像感知相似度。加权求和策略对应的公式为S＝K₁×V _PSNR+K₂×V _SSIM+K₃×V _LPIPS+K₄×V_user，其中，S为置信评分，K₁、V _PSNR、K₂、V _SSIM、K₃、V _LPIPS、K₄、V_user分别为第一权重系数、像素峰值信噪比、第二权重系数、图形结构相似度、第三权重系数、图像感知相似度、第四权重系数和用户反馈评分，K₁、K₂、K₃和K₄可以由相关工作人员进行设置，如开发人员等，使得通过置信评分对规则策略进行更新，可以偏向于用户的喜好，也可以偏向于数字人视频的音画质量。

本发明公开的基于控制策略的数字人合成方法利用预设的人像语音素材库，通过关键特征信息和预设的规则策略能够快速得到语音素材和人像视频编辑素材，从而快速生成符合用户质量需求的数字人，能够促进大规模生成符合特定质量需求的数字人，能够更高效提升数字人合成的质量与制作效率。

本发明实施例还提供了一种基于控制策略的数字人合成系统，该基于控制策略的数字人合成系统用于执行前述基于控制策略的数字人合成方法的任一实施例，具体地，请参阅图2，图2为本发明一实施例提供的基于控制策略的数字人合成系统的示意性框图，本发明实施例提供了一种基于控制策略的数字人合成系统100包括人机交互感知模块101、决策器102、人像素材编辑模块103和语音驱动合成模块104。

所述人机交互感知模块101，用于获取到用户输入信息，并根据所述用户输入信息获得关键特征信息。

在一实施例中，所述获取到用户输入信息，包括：

在本实施例中，交互指令由用户触发，根据与交互指令对应的指令起始时间点和预设时长可以确定到当前目标时间段，即当前目标时间段以指令起始时间点为起点，并以指令起始时间点和预设时长之和为终点。进一步的，判断当前目标时间段内是否有用户输入的会话信息，其中，如果在当前目标时间段内获取到用户输入的第一文字信息，即用户是通过文字进行输入的，则直接以第一文字信息作为用户输入信息；如果在当前目标时间段内获取到用户输入的语音信息，则需要先将该语音信息转换为第二文字信息，再以第二文字信息作为用户输入信息。另外，如果在当前目标时间段内未获取到第一文字信息和语音信息，说明用户在当前目标时间段内并没有输入会话信息，则向用户端发送预设的初始会话信息，初始会话信息用于提示用户输入第一文字信息或语音信息，从而获取到与初始会话信息对应的用户输入信息。具体的，获取到与初始会话信息对应的用户输入信息可以理解为：获取与所述初始会话信息对应的所述发送时间点，以所述发送时间点作为所述指令起始时间点，并返回执行所述根据所述指令起始时间点和所述预设时长确定当前目标时间段的步骤。

所述决策器102，用于根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项。

所述决策器102，还用于根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材。

在一实施例中，所述根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材包括：

所述人像素材编辑模块103，用于根据所述人像控制编辑选项对所述人像视频素材进行处理，得到人像视频编辑素材。

所述语音驱动合成模块104，用于基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端。

在一实施例中，所述语音驱动合成模块104用于执行所述基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端的步骤之后，所述人机交互感知模块101还用于：

若获取到当前用户输入信息，则获取历史会话信息；

根据所述历史会话信息、所述当前用户输入信息、所述人像特征和所述用户感受反馈数据获得当前关键特征信息，并以所述当前关键特征信息作为所述关键特征信息，将所述关键特征信息传输至所述决策器102，使得所述决策器102执行所述根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项的步骤。

在本实施例中，所述语音驱动合成模块104获取用户感受反馈数据和数字人视频的人像特征，以感知用户在视觉听觉上对合成后的数字人视频的感受反馈，能够影响到用户进行下一步会话的数字人的生成。其中，可以通过人脸识别获取到数字人视频的人像特征。当用户输入下一步会话的会话信息时，由会话信息获取到当前用户输入信息，然后获取历史会话信息，其中，历史会话信息包括在用户已完成的历史会话中所存储的历史用户输入信息和历史数字人视频。然后，根据历史会话信息、当前用户输入信息、人像特征和用户感受反馈数据获得当前关键特征信息，并以当前关键特征信息作为关键特征信息，将所述关键特征信息传输至所述决策器102，从而生成下一步会话的数字人视频。例如，用户会话得到的数字人视频谈到了“祖冲之是中国观测月球第一人”，且用户在观看该数字人视频后说了“不要不要，太粗犷了”的感受反馈，则与该数字人视频的人像特征对应的用户感受反馈数据为“粗犷”，并且在用户进行下一步会话时，用户冷不丁问“嫦娥呢？”，结合历史会话信息中包含“祖冲之、第一人”等信息，则会通过当前关键特征信息选择人像特征“柔和”一点的数字人，并得到对应的输出信息“嫦娥是神话人物”。通过感知用户的感受反馈和合成的数字人视频，能够兼容用户与机器的交互效果，以生成符合用户需求的数字人。

在一实施例中，所述获取用户感受反馈数据，包括：

在一实施例中，参阅图3，本发明实施例提供的基于控制策略的数字人合成系统100还包括评分模块105，所述语音驱动合成模块104用于执行所述基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端的步骤之后，所述评分模块105具体用于：

根据所述置信评分更新所述规则策略。

本发明公开的基于控制策略的数字人合成系统，利用预设的人像语音素材库，通过关键特征信息和预设的规则策略能够快速得到语音素材和人像视频编辑素材，从而快速生成符合用户质量需求的数字人，能够促进大规模生成符合特定质量需求的数字人，能够更高效提升数字人合成的质量与制作效率。

上述基于控制策略的数字人合成方法可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于控制策略的数字人合成方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于控制策略的数字人合成方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于控制策略的数字人合成方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，其中程序指令被处理器执行时实现本发明实施例公开的基于控制策略的数字人合成方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、系统和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、系统或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，后台服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于控制策略的数字人合成方法，其特征在于，包括：

2.根据权利要求1所述的基于控制策略的数字人合成方法，其特征在于，在所述基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端的步骤之后，包括：

若获取到当前用户输入信息，则获取历史会话信息；

根据所述历史会话信息、所述当前用户输入信息、所述人像特征和所述用户感受反馈数据获得当前关键特征信息，并以所述当前关键特征信息作为所述关键特征信息，返回执行所述根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项的步骤。

3.根据权利要求2所述的基于控制策略的数字人合成方法，其特征在于，所述获取用户感受反馈数据，包括：

4.根据权利要求1所述的基于控制策略的数字人合成方法，其特征在于，在所述基于所述语音素材和所述人像视频编辑素材生成数字人视频，并将所述数字人视频传输至用户端的步骤之后，还包括：

根据所述置信评分更新所述规则策略。

5.根据权利要求4所述的基于控制策略的数字人合成方法，其特征在于，所述基于所述数字人视频和所述用户反馈评分得到置信评分，包括：

6.根据权利要求1所述的基于控制策略的数字人合成方法，其特征在于，所述获取到用户输入信息，包括：

7.根据权利要求1所述的基于控制策略的数字人合成方法，其特征在于，所述根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材，包括：

8.一种基于控制策略的数字人合成系统，其特征在于，包括：人机交互感知模块、决策器、人像素材编辑模块和语音驱动合成模块；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于控制策略的数字人合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于控制策略的数字人合成方法。