CN117011435B

CN117011435B - 数字人形象ai生成方法及装置

Info

Publication number: CN117011435B
Application number: CN202311264000.8A
Authority: CN
Inventors: 王新国
Original assignee: 4u Beijing Technology Co ltd
Current assignee: Shiyou Beijing Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-09
Anticipated expiration: 2043-09-28
Also published as: CN117011435A

Abstract

本申请提供了一种数字人形象AI生成方法及装置，该方法包括：响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度为所述每个词赋予不同的注意力权重；基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象。本申请解决了现有技术中数字人生成工具存在缺乏个性化、以及生成效率较低的技术问题。

Description

数字人形象AI生成方法及装置

技术领域

本申请涉及数字人生成技术领域，具体而言，涉及一种数字人形象AI生成方法及装置。

背景技术

目前存在两种主要的数字人生成方法。

第一种方法是提供一系列预先生成的数字人形象供用户选择。这些数字人形象通常经过精心设计和渲染，以确保它们看起来吸引人且适用于各种应用场景。用户可以从这些选项中选择一个或多个数字人形象，用作他们的虚拟代表或角色。然而，这种方法的主要问题是缺乏个性化和定制性。每个用户都有独特的外貌特征和风格偏好，但他们只能从有限的选项中进行选择，从而限制了他们的自由度。

另一种实现方式是允许用户通过所谓的“捏脸”操作来创建个性化的数字人。在这种情况下，用户可以在数字人形象的基础上进行调整，包括调整头发、眼睛、鼻子、嘴巴等特征，以满足他们的个性化需求。尽管这种方法允许一定程度的个性化，但通常需要用户花费大量时间和精力来微调数字人形象。这对于那些希望快速创建数字人形象的用户来说可能不是最佳选择，并且对于不熟悉数字建模工具的用户来说可能会感到困难。

总体而言，现有的数字人生成工具仍然存在缺乏个性化、定制性差以及效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数字人形象AI生成方法及装置，以至少解决现有技术中数字人生成工具存在缺乏个性化、以及生成效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种数字人形象AI生成方法，包括：响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度为所述每个词赋予不同的注意力权重；基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象。

根据本申请实施例的另一方面，还提供了一种数字人形象AI生成装置，包括：文本生成模块，被配置为响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；权重确定模块，被配置为利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度，为所述每个词赋予不同的注意力权重；数字人生成模块，被配置为基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象。

在本申请实施例中，响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度为所述每个词赋予不同的注意力权重；基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象。通过上述方法解决了现有技术中数字人生成工具存在缺乏个性化、以及生成效率较低的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种数字人形象AI生成方法的流程图；

图2是根据本申请实施例的另一种数字人形象AI生成方法的流程图；

图3是根据本申请实施例的一种从图像数据中识别目标对象的方法的流程图；

图4是根据本申请实施例的一种提取文本描述信息的方法的流程图；

图5是根据本申请实施例的一种基于文本描述信息生成数字人形象的方法的流程图；

图6是根据本申请实施例的一种数字人形象AI生成装置的结构示意图；

图7是根据本申请实施例的又一种数字人形象AI生成方法的流程图；

图8示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种数字人形象AI生成方法，如图1所示，该方法包括以下步骤：

步骤S102，响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息。

在所述用户输入数据为图像数据的情况下，对所述图像数据进行目标检测，识别所述图像数据中的目标对象，从所述目标对象中提取图像特征，并基于所述图像特征得到所述文本描述信息。

例如，可以采用以下方法识别目标对象。确定所述图像数据中包含所述目标对象的边界框；确定所述边界框的各个边所在的直线，将所述直线对应的直线方程参数转换为参数矩阵，其中，所述参数矩阵用于描述所述边界框内各个像素点的位置；基于所述参数矩阵来检测所述图像数据中是否存在所述目标对象。本实施例将边界框的各个边表示为直线方程参数，有助于更详细地描述目标对象的形状和位置。最重要的是，利用参数矩阵，可以高效地对图像中是否存在目标对象进行检测，提高了图像处理的速度和准确性。

再例如，还可以采用以下方法识别目标对象。识别所述图像数据中的多个候选边线，并识别所述图像数据中的包含目标对象的边界框；从所述多个候选边线中筛选出符合预设条件的目标边线，并基于所述目标边线来修正所述边界框，得到目标对象，其中，所述预设条件为能够连通形成多边形且所述多边形与所述边界框的相似度大于预设相似阈值。本实施例通过多次识别候选边线和筛选目标边线，能够更精确地确定目标对象的位置和形状，从而提高了目标对象的检测准确性。其次，引入了预设条件和相似阈值，能够更严格地筛选目标对象，确保所识别的对象是符合要求的目标。本实施例的上述方法提高了目标检测的鲁棒性和精度，有助于生成更准确的文本描述信息，进一步提升了数字人形象生成的质量和个性化程度。

在所述用户输入数据为语音数据的情况下，从所述语音数据中提取音频特征，并基于所述音频特征得到所述文本描述信息；在所述用户输入数据为文本数据的情况下，将所述文本数据作为所述文本描述信息。

本实施例允许处理多种不同类型的用户输入数据，包括图像数据、语音数据和文本数据。这种多模态数据处理的能力可以增加方法的适用性，使其能够应对各种不同的用户需求和数据来源。此外，对于图像数据，通过目标检测和特征提取，可以从图像中识别目标对象并提取有关这些对象的关键信息。这有助于将视觉信息转化为文本形式，便于后续的处理和理解。对于语音数据，通过音频特征提取，系统可以将声音转化为文本描述，使得语音信息能够与文本数据一起处理。对于文本数据，系统直接使用原始文本，无需进行额外的处理。这种信息提取和转换有益于多模态数据的融合和统一处理。总体而言，本实施例能够处理多样性的用户输入数据，并将其转化为文本描述信息，从而为后续的处理和应用提供了更多的可能性和灵活性。

步骤S104，利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度为所述每个词赋予不同的注意力权重。

首先，计算关联性强度。将所述文本描述信息划分为多个词，并将所述多个词嵌入到多维向量空间中；在所述多维向量空间中，针对所述多个词中的每个词添加相应的位置编码；利用所述自注意力机制计算所述每个词的位置编码与所述其他词的位置编码之间的所述关联性强度。

本实施例通过将文本描述信息划分为多个词并将它们嵌入到多维向量空间中，可以更好地捕捉词之间的语义关系。自注意力机制计算词之间的关联性强度时，可以识别词汇之间的相关性和重要性，从而提升了对文本的语义理解。这有助于生成更准确和富有表现力的文本描述信息。此外，通过添加位置编码并计算位置编码之间的关联性强度，考虑了词在文本中的位置和上下文。这有助于系统更好地理解词汇在文本中的语境，确保生成的文本描述信息在语法和语义上都是连贯的。这也提高了生成文本的自然度和可读性。

接着，赋予注意力权重。基于所述每个词的嵌入向量与所述其他词的嵌入向量，来计算所述每个词与所述其他词之间的嵌入维度的平方根；利用所述嵌入维度的平方根，对所述关联性强度进行缩放，并将缩放后的所述关联性强度进行归一化处理，得到所述每个词的所述注意力权重。

本实施例通过计算每个词与其他词之间的嵌入维度的平方根，可以评估每个词在文本中的相对重要性。这样，在生成文本描述时，系统可以更加关注在嵌入空间中具有更大差异性的词汇，从而确保关键信息得到更高的权重。这有助于生成更准确和有针对性的文本描述。此外，通过对关联性强度进行缩放和归一化处理，系统可以调整词汇之间的关注度。这允许系统根据文本中的语境和关联性自动调整注意力权重，以便更好地适应不同的输入数据和生成任务。这提高了系统的适应性和灵活性。此外，通过归一化处理，可以减少文本描述信息中的信息冗余。这确保了生成的文本描述更加简洁和清晰，避免了在文本中重复使用相似的词汇或信息。这对于提高文本描述的可读性和信息量很有帮助。此外，通过调整嵌入维度的平方根和关联性强度的缩放，可以控制生成多样性。通过增加或减少注意力权重的差异性，可以生成不同程度的多样性文本描述。

步骤S106，基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象。

首先，识别关键词。基于计算得到的注意力权重，可以确定哪些词是关键词。通常，词语的注意力权重越高，说明它在文本描述信息中越重要。可以设定一个阈值或者选择权重排名前几的词语作为关键词。

接着，生成数字人形象。将所述关键词的词嵌入向量串联在一起，形成关键词嵌入向量；生成服从正态分布的随机噪声向量，并基于所述随机噪声向量和所述关键词嵌入向量生成条件输入向量；基于所述条件输入向量，利用所述对抗生成网络生成与所述关键词相应的所述多个数字人形象。例如，在所述对抗生成网络的生成器网络的每一层中，引入条件生成器层，所述条件生成器层将所述条件输入向量与中间特征图相融合，得到多个初始形象；基于对抗损失、内容损失和风格损失，来分别不断修正所述多个初始形象，直至得到所述多个数字人形象。

通过这种方案，能够根据用户提供的文本描述信息，自动识别关键词并生成与这些关键词相关的数字人形象。这种方法具有高度的可扩展性和灵活性，可以适应不同用户的需求，生成个性化和有针对性的数字人形象。

实施例2

本申请实施例提供了另一种数字人形象AI生成方法，如图2所示，该方法包括以下步骤：

步骤S202，获取用户输入数据。

本实施例以用户输入数据（第一用户输入数据）为图像数据为例。首先，需要从图像数据中识别出目标对象。如图3所示，从图像数据中识别目标对象的方法包括以下步骤：

步骤S2022，识别所述图像数据中的多个候选边线。

通常可以调用线段检测模型来提取图像数据的特征信息，并基于这些特征信息识别图像中的线段。这些特征信息可以包括图像数据中各个像素点的灰度值、位置信息、像素值等。线段检测方法可以采用不同的技术，其中包括基于霍夫变换的传统方法和基于神经网络的方法。

基于神经网络的线段检测模型的网络结构可以包括四个主要模块：主干模块、连接点预测模块、线段采样模块和线段校正模块。主干模块负责特征提取，它将输入的图像作为输入，并为后续的模块提供共享的卷积特征图。这些特征图包含了图像的高级表示，有助于后续模块更好地理解图像内容。连接点预测模块的任务是输出候选连接点，这些连接点是可以包含线段的图像位置。连接点预测模块使用主干模块提取的特征信息来预测连接点的位置。线段采样模块接收连接点预测模块输出的连接点信息，并从中预测出候选线段。线段采样模块的任务是将连接点组合成候选线段。线段校正模块负责对候选线段进行分类，以确定哪些候选线段实际上是图像中的直线线段。这个模块包括池化层，用于提取每个候选线段的线段特征。通过结合主干模块提取的卷积特征图，线段校正模块可以确定哪些候选线段是有效的，并输出直线线段的信息，例如端点坐标。本实施例通过神经网络的模块化结构，有效地识别图像中的线段，这有助于提高线段检测的准确性和效率。

步骤S2024，识别所述图像数据中的包含目标对象的边界框。

准备数据集，其中包括目标对象的图像以及每个图像中目标对象的准确边界框标注。这些标注通常以矩形框的形式提供，包括左上角和右下角的坐标信息。接下来，选择适合任务的目标检测模型。目标检测领域有许多模型可供选择，如YOLO、Faster R-CNN和SSD等。随后，进行模型训练。使用标注数据对选定的目标检测模型进行训练。在训练过程中，模型将学会如何从图像中定位目标对象并生成相应的边界框。一旦模型训练完成，就可以将其应用于图像数据。将图像数据输入模型，让模型执行推断操作。模型会分析图像，并输出检测到的目标对象的边界框，以及与每个边界框相关的其他信息，例如置信度分数。在一些情况下，对模型输出的边界框进行后处理可以提高准确性。后处理操作可能包括去除重叠的边界框，筛选置信度低的边界框，或者使用非极大值抑制（NMS）来合并相似的边界框。本实施例后中的处理操作提高了检测结果的准确性和可用性，确保只有最相关的边界框被保留。

步骤S2026，从所述多个候选边线中筛选出符合预设条件的目标边线，并基于所述目标边线来修正所述边界框，得到目标对象，其中，所述预设条件为能够连通形成多边形且所述多边形与所述边界框的相似度大于预设相似阈值。

首先，筛选出目标边线。具体地，检测所述多个候选边线之间的连通性，筛选出能够连通形成多边形的边线；计算所述多边形与所述边界框的相似度，在所述相似度大于所述预设相似阈值的情况下，将所述多边形的边线作为所述目标边线。这样，有助于减少误检并提高植入位置的准确性，特别是在复杂场景中。

在一些实施例中，可以采用以下方法计算相似度：基于所述多边形和所述边界框的轮廓函数，计算所述重叠面积；基于所述多边形和所述边界框的中心点之间的距离和所述重叠面积，计算所述叠加度；计算所述多边形和所述边界框之间的面积差，并对所述面积差进行归一化处理，得到所述相对尺寸值；基于所述多边形和所述边界框的深度值以及所述多边形和所述边界框的中心点之间的距离，计算所述空间关系值。在计算出所述多边形和所述边界框的重叠面积、叠加度、相对尺寸值和空间关系值后，基于所述重叠面积、叠加度、相对尺寸值和空间关系值，来计算所述多边形与所述边界框的相似度。

例如，可以采用下述公式计算相似度：相似度 = w1 * IoU + w2 * (1 - 相对尺寸值) + w3 * 空间关系值，其中，IoU 表示叠加度（Intersection over Union），它测量重叠面积与多边形和边界框轮廓函数并集的比例。相对尺寸值是多边形和边界框的面积差的归一化值，1 减去相对尺寸值用于测量尺寸的相似性。空间关系值是多边形和边界框的深度值以及它们的中心点之间的距离等信息。其中，w1、w2、w3是预先设置的权重。

在一些实施例中，可以采用以下方法计算叠加度：通过计算多边形的边界点与边界框的边界点的相交，找到多边形内部的交点。将这些交点连接起来，形成一个新的多边形，这个新多边形代表了多边形与边界框的交集。接下来，通过采用多边形面积计算算法计算交集多边形的面积。然后，分别计算多边形和边界框的面积，最后计算并集面积，即多边形的面积加上边界框的面积减去交集多边形的面积。这样得到交集面积和并集面积，可以用来计算 IoU，即交集面积除以并集面积。这种IoU 计算方法更准确地考虑了多边形和边界框之间的复杂交互，特别适用于需要处理复杂形状匹配和重叠度量的场景。

在一些实施例中，相对尺寸值计算公式可以为：相对尺寸值 = (|多边形的面积 -边界框的面积| / max(多边形的面积, 边界框的面积))²。本实施例将相对尺寸值的计算结果平方，增加了相对尺寸值的权重，使其对相似度的贡献更显著。

在一些实施例中，空间关系值计算公式可以为：空间关系值 = (1 - 距离 / 最大距离) * (1 - 叠加度) * (1 - 深度值)，其中，距离表示多边形与边界框的中心点之间的距离，最大距离表示多边形和边界框之间的最远的空间分离。最大距离通常是多边形的某个点到边界框的最远距离，或者边界框的某个点到多边形的最远距离。本实施例引入了深度值，以更全面地考虑多边形和边界框之间的空间关系。这样，可以根据深度信息来度量多边形与边界框的相对位置，进一步提高了空间关系值的准确性。此外，本实施例更全面地考虑多边形与边界框之间的多个方面，包括距离、叠加度和深度，从而更准确地衡量它们之间的空间关系。

然后，基于所述目标边线来修正所述边界框。例如，识别所述目标边线的几何特征，所述几何特征包括所述目标边线的长度、角度和曲率；基于所述几何特征，分析所述目标边线与所述边界框之间的相对位置；基于所述相对位置，调整所述边界框的位置和形状，以修正所述边界框。本实施例通过识别目标边线的长度、角度和曲率等几何特征，系统能够更全面地了解目标的形状和位置信息。这有助于准确捕捉目标对象的外观特征，尤其在复杂场景或不规则形状的情况下表现出色。其次，基于这些几何特征的分析，能够深入研究目标边线与现有边界框之间的相对位置关系。最后，本实施例根据相对位置的分析结果，可以智能地调整边界框的位置和形状，从而更好地囊括目标对象，减少了边界框可能存在的偏差和误差。这一精细的边界框调整过程使得目标检测更加准确。

具体地，在所述相对位置指示所述目标边线与所述边界框相交的情况下，检测所述目标边线与所述边界框的相交角度，在所述相交角度大于预设角度阈值的情况下，缩小所述边界框，以避免所述目标边线与所述边界框相交。在所述相交角度小于预设角度阈值的情况下，通过计算边界框的中心点和目标边线的交点，重新设置边界框的位置。这种处理方式有助于减少边界框的冗余部分，确保它们更好地贴合目标对象的形状，从而提高了边界框的精确性。此外，在所述相对位置指示所述目标边线与所述边界框未相交的情况下，检测所述目标边线与所述边界框的间隙距离，在所述间隙距离小于预设间隙阈值的情况下，向所述目标边线的方向平移所述边界框的边线，使所述边界框更接近目标边线。在所述间隙距离大于预设间隙阈值的情况下，增大边界框的宽度和高度可以确保它更好地覆盖目标对象，同时减小了间隙距离。这样，有助于减小目标边线与边界框之间的空隙，确保边界框更好地包围目标对象，提高了边界框的适应性。

步骤S204，提取文本描述信息。

提取文本描述信息的方法如图4所示，包括以下步骤：

步骤S2042，提取特征。

首先，选择一个预训练的CNN模型，例如，VGG、ResNet、Inception等。这些模型在大规模图像数据上进行了训练，并可以有效地提取各种特征。

接着，进行预处理。在将目标对象对应的图像输入CNN之前，需要对图像进行预处理。例如，将图像调整为模型的输入尺寸，通常是224x224像素，同时进行归一化，确保图像像素值在一定范围内，以提高模型的稳定性。

然后，使用预训练的CNN模型，通过前向传播将图像传递到模型中。在CNN的卷积层和池化层中，图像将被转化为一系列的特征图（feature maps）。这些特征图捕获了图像的不同抽象级别的特征，例如边缘、纹理、颜色等。

最后，从CNN生成的特征图中选择与目标特征（如头发颜色、眼睛大小、性别等）相关的特征通道或区域。将所选特征图或通道的内容表示为向量或其他数据结构，以便进一步处理。这可以通过全局平均池化、展平等操作来完成。对提取的特征进行归一化，确保它们在相同的尺度上，以便后续的特征融合或分类任务。

步骤S2044，生成文本描述信息。

使用前面提到的卷积神经网络（CNN）或其他图像特征提取方法来处理图像，提取有关图像内容的特征。这些特征将用作文本生成模型的输入。

对文本数据进行预处理，包括分词、去停用词、将文本转换为小写等。确保文本数据与图像特征对齐，以便输入模型。建立文本生成模型。本实施例选择使用RNN，可以建立一个序列到序列（Seq2Seq）模型。这种模型包括编码器和解码器两个部分。编码器将图像特征作为输入，并将其编码为一个固定长度的向量，然后解码器将该向量转化为自然语言描述。常用的RNN单元包括LSTM和GRU。还可以选择使用变换器模型，如GPT（生成式预训练变换器），可以使用预训练的GPT模型作为基础。将图像特征与一些特殊标记结合，然后将其输入到GPT中，以生成与图像相关的自然语言描述。之后，使用数据集中的图像特征和文本描述对模型进行训练。训练过程中，模型将尝试最小化生成描述的损失函数，使生成的文本与实际文本尽可能接近。训练可以使用梯度下降等优化算法进行。一旦模型训练完成，可以将新的图像特征输入到模型中，并让模型生成与图像内容相关的文本描述信息。

步骤S206，基于文本描述信息生成数字人形象。

如图5所示，基于文本描述信息生成数字人形象的方法包括以下步骤：

步骤S2062，词嵌入处理。

文本描述信息需要进行分词（Tokenization），将文本描述信息拆分成单词或子词（token）。这是因为Transformer模型处理的是离散的标记，而不是整个文本。对于每个标记，嵌入层会查找嵌入矩阵，该矩阵包含了所有词汇的向量表示。这个嵌入矩阵通常是一个可训练的参数，可以在模型训练过程中进行学习。

对于每个标记，嵌入层会根据其在嵌入矩阵中的索引，检索相应的词嵌入向量。这个向量是该标记的表示，通常是一个多维的实数向量。

步骤S2064，计算关联性强度。

使用自注意力机制（如BERT或Transformer模型）来计算文本中每个词与其他词之间的关联性强度。例如，通过自注意力机制（如BERT或Transformer模型）来计算文本中每个词与其他词之间的注意力权重，生成一个注意力矩阵，其中包含了每个词对其他词的关注程度。

自注意力机制允许模型根据上下文信息动态地为每个词分配不同的关注度。在计算词之间的关联性强度时，可以根据句子或段落中其他词的内容来调整关注度。此外，自注意力机制还有助于捕捉词汇之间的语义关系。它不仅考虑了词汇的相对距离，还关注了词汇之间的语义相似性。这使得模型能够更好地理解同义词、上下语义关系等语言现象。

步骤S2066，关键词识别。

基于计算得到的注意力权重，可以确定哪些词是文本描述信息中的关键词。例如，选择一个阈值或根据注意力权重对词汇进行排名。词汇的注意力权重高于某一阈值或排名在前几位的词被认为是关键词。

在阈值方法中，可以选择一个适当的注意力权重阈值，将注意力权重高于该阈值的词汇定义为关键词。这个阈值通常需要根据特定任务和数据集进行调整，以确保获得最佳结果。在排名方法中，可以按照注意力权重的大小对词汇进行排序，然后选择排名在前几位的词作为关键词。通常，排名越靠前的词汇在文本中的重要性越高。还可以使用多重条件来确定关键词，例如，结合阈值和排名。这种方法可以提高确定关键词的准确性。

步骤S2068，生成条件输入向量。

首先，将关键词表示为词嵌入向量。这些向量通常是高维的，捕捉了每个关键词的语义信息。将这些词嵌入向量串联在一起，形成一个关键词嵌入向量，这个向量可以看作是文本描述信息的抽象表示。它包含了与生成数字人形象相关的文本信息。

接着，生成随机噪声向量作为第一随机噪声向量。为了增加生成的数字人形象的多样性，通常会引入随机性。这是通过生成服从正态分布或其他分布的随机噪声向量来实现的。随机噪声向量是一个具有随机值的向量，其维度通常与关键词嵌入向量的维度相匹配。

最后，生成条件输入向量。生成数字人形象的条件输入向量是通过将关键词嵌入向量和随机噪声向量进行合并而创建的。这个过程可以是简单的向量串联，也可以采用更复杂的方式，如拼接、加权求和等。合并后的向量被称为条件输入向量，它包含了两个关键部分的信息：关键词嵌入用于传达文本描述信息，而随机噪声用于引入个性化和多样性。

步骤S2069，生成数字人形象。

在生成器网络的每一层中，引入条件生成器层，将关键词嵌入向量与中间特征图相融合，以生成多个初始形象。然后，通过对抗损失、内容损失和风格损失来不断修正这些初始形象，直至得到最终的数字人形象。具体步骤如下：

首先，将条件输入向量与生成器网络的中间层或特征图连接在一起。通过将这两个数据源进行拼接或合并来实现。这样，生成器网络能够考虑文本描述信息和随机噪声同时作用于每一层的生成过程中。

通过引入条件生成器层，可以在每一层产生多个初始形象，每个初始形象都反映了文本描述和噪声的不同组合。这样，增加了多样性，使生成的数字人形象更加个性化和富有表现力。

接着，使用损失函数来修正初始形象。生成的初始形象需要进一步优化，以确保它们质量高、与文本描述相匹配和富有表现力。这是通过不同类型的损失函数来实现的。本实施例主要采用了对抗损失、内容损失和风格损失。

对抗损失是通过鉴别器（判别网络）来度量生成的数字人形象与真实图像之间的差异。生成器的目标是使鉴别器无法区分生成的图像和真实图像，这使得生成的数字人形象变得逼真。内容损失用于度量生成的数字人形象与文本描述信息之间的相似性。通常，通过计算生成的数字人形象与真实图像之间的特征差异来实现内容损失。这有助于确保生成的数字人形象与文本描述信息保持一致性。风格损失用于捕捉数字人形象的艺术风格和纹理。这可以通过比较数字人形象的纹理特征与真实图像或样式参考图像之间的差异来实现。风格损失有助于确保生成的数字人形象在外观上与文本描述一致。

生成的多个初始形象会通过以上提到的损失函数进行评估，并进行不断的修正和优化。生成器网络会在每次迭代中尝试生成更逼真、一致性更高且富有创造性的数字人形象，以满足文本描述信息的要求。这个过程通常需要多次迭代，直至得到满意的数字人形象。

综上所述，本实施例引入条件生成器层和使用多个损失函数，特别是对抗损失、内容损失和风格损失，从而有助于生成高质量、多样性和富有表现力的数字人形象，能够满足不同文本描述信息的需求。

步骤S208，对所选数字人形象进行修正。

首先，用户在生成的多个数字人形象中选择一个最符合其预期的数字人形象。这个选择过程允许用户从多个备选项中挑选出他们认为最符合其需求和期望的数字人形象，增加了用户参与和选择的权利。选择后，用户可以再次提供用户输入数据，以指示对所选的数字人形象进行修正。

一旦用户选择了一个数字人形象，系统将等待用户再次提供用户输入数据即第二用户输入数据，以指示对所选数字人形象进行修正。这个用户输入数据通常包括文本数据或语音数据，然后通过深度语义分析来提取关键信息，例如用户期望的外貌、姿势、情感状态等等。这一语义分析的结果将转化为约束条件，这些约束条件将用于引导数字人形象的修正过程。

在生成数字人形象时，系统会依据这些约束条件来调整多个生成参数，包括姿势和动作参数、外貌特征参数、服饰参数以及情感表现参数。根据用户的约束条件，系统将逐步地调整这些生成参数，以提高数字人形象的逼真度并满足用户的期望。这种调整过程不是线性的，而是包含了一定的随机性，以确保生成的数字人形象保持一定程度的多样性。

例如，如果用户希望数字人形象采取特定的姿势或动作，系统将相应地调整生成参数，以实现用户的要求。同样，如果用户要求数字人形象的外貌与输入数据中的描述相符，系统将通过调整外貌特征参数来实现这一目标。这种精细的个性化修正确保了生成的数字人形象能够更好地满足用户的期望，提高了用户的满意度。

本实施例通过深度的语义分析、精确的约束条件调整和适度的随机性控制，提供了生成数字人形象的高度个性化、逼真度和多样性，以满足用户的不同需求和提升用户体验。同时，这也确保了用户在多个选择中能够找到最符合其需求和期望的数字人形象。

实施例3

本申请实施例提供了一种数字人形象AI生成装置，如图6所示，包括：文本生成模块62、权重确定模块64和数字人生成模块66。

文本生成模块62被配置为响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；权重确定模块64被配置为利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度，为所述每个词赋予不同的注意力权重；数字人生成模块66被配置为基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象。

需要说明的是：上述实施例提供的数字人形象AI生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数字人形象AI生成装置与数字人形象AI生成方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例4

本申请实施例提供了一种生成数字人形象的方法，如图7所示，该方法包括以下步骤：

步骤S702，响应于接收到第一用户输入数据，对所述第一用户输入数据进行预处理，其中，所述第一用户输入数据用于描述待生成的数字人形象的特征。

在所述第一用户输入数据为图像数据的情况下，对所述图像数据进行目标检测，识别所述图像数据中的目标对象，从所述目标对象中提取图像特征，并基于所述图像特征得到所述文本描述信息；在所述第一用户输入数据为语音数据的情况下，从所述语音数据中提取音频特征，并基于所述音频特征得到所述文本描述信息；在所述第一用户输入数据为文本数据的情况下，将所述文本数据作为所述文本描述信息。

步骤S704，基于预处理后的所述第一用户输入数据和第一随机噪声向量，利用深度学习方法生成多个数字人形象，并呈现所述多个数字人形象供用户选择。

首先，确定条件输入向量。基于预处理后的所述第一用户输入数据得到文本描述信息，并将所述文本描述信息和所述第一随机噪声向量进行融合，得到条件输入向量。例如，确定插值系数；基于所述插值系数，融合所述文本描述信息和所述第一随机噪声向量，得到所述条件输入向量。其中，所述第一随机噪声向量的维度小于预设维度阈值，所述插值系数用于指示所述文本描述信息和所述第一随机噪声向量之间的混合程度。

本实施例将文本描述信息与随机噪声向量相结合，从而在生成过程中引入了语义信息和随机性。这种信息的融合对于生成数字人形象至关重要，因为它可以增加图像的多样性和逼真度。当文本描述信息描述数字人形象的特征时，将其与随机噪声相结合可以创建不同的变体，这些变体可以代表不同的特征、外貌、或行为。其次，插值系数的引入允许控制文本描述信息和随机噪声向量之间的权衡。这个系数可以被调整，以便更加依赖于文本描述信息或噪声向量。例如，如果希望生成更加符合文本描述的数字人形象，可以增加文本描述信息的权重，反之亦然。这种控制权使生成过程更加可定制化，有助于满足用户的个性化需求。最后，通过将第一随机噪声向量的维度设置为小于预设维度阈值，有助于控制生成的多样性。较低维度的噪声向量可能会引入更少的随机性，从而生成更加可控的数字人形象。这对于确保生成的图像符合用户的期望和需求非常有用，因为它可以限制生成的变化范围，从而使图像更具可预测性。综上所述，本实施例不仅提供了生成数字人形象所需的关键信息，还允许在生成过程中对多样性、逼真度和个性化进行精细调控，从而增强了生成的数字人形象的质量和多样性。

接着，基于所述条件输入向量，利用所述深度学习方法生成所述多个数字人形象。

步骤S706，响应于接收到第二用户输入数据，基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象，得到多个修正后的数字人形象，其中，所述第二随机噪声向量的维度小于所述第一随机噪声向量的维度。

对所述第二用户输入数据进行语义分析，并基于所述语义分析的结果确定约束条件，其中，所述第二用户输入数据包括图像数据或语音数据；基于所述约束条件和所述第二随机噪声向量，来修正所选数字人形象，得到多个修正后的数字人形象。本实施例根据第二用户输入数据的语义内容进行修正，这样生成的数字人形象更加符合用户的特定需求和期望。此外，通过对第二用户输入数据进行语义分析，系统能够理解用户对数字人形象的要求，例如期望的外貌、姿势、情感状态等。这意味着生成的数字人形象可以更好地满足用户的个性化需求，提高了用户满意度。

具体地，基于所述约束条件，调整所选数字人形象的多个生成参数，其中，所述约束条件包括姿势和动作条件、外貌条件、服饰条件和情感条件；基于所述第二随机噪声向量，以小于预设阈值的步进，随机调整所述多个生成参数中的至少一个生成参数；基于随机调整后的生成参数，来修正所选数字人形象，得到所述多个修正后的数字人形象。本实施例通过引入第二随机噪声向量以小于预设阈值的步进进行随机调整，系统在生成过程中保留了一定程度的随机性，从而增加了数字人形象的多样性。这确保了不同的数字人形象之间仍然存在一些差异，而不会变得过于单一或可预测。

例如，基于所述姿势和动作条件，调整所述生成参数中的姿势和动作参数，以符合所述第二用户输入数据中用户要求的姿势和动作；基于所述外貌条件，调整所述生成参数中的外貌特征参数，以符合所述第二用户输入数据中用户要求的外观；基于所述服饰条件，调整所述生成参数中的服饰参数，以符合所述第二用户输入数据中用户要求的服装和饰品；基于所述情感条件，调整所述生成参数中的情感表现参数，以符合所述第二用户输入数据中用户要求的情感状态或性格特点。本实施例考虑到约束条件的多样性，系统可以根据不同用户输入数据的语义分析结果生成多个修正后的数字人形象。这使得用户可以在多个选择中挑选出最符合他们需求的数字人形象，提供了更多的选择和灵活性。

本实施例，通过语义分析、约束条件调整和随机性控制等方式，提高了生成数字人形象的个性化程度、逼真度和多样性，从而提升了用户体验和满意度。

实施例5

图8示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图8示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数字人形象AI生成方法，其特征在于，包括：

响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；

利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度为所述每个词赋予不同的注意力权重；

基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象；

其中，利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，包括：将所述文本描述信息划分为多个词，并将所述多个词嵌入到多维向量空间中；在所述多维向量空间中，针对所述多个词中的每个词添加相应的位置编码；利用所述自注意力机制计算所述每个词的位置编码与所述其他词的位置编码之间的所述关联性强度；

其中，基于所述关联性强度，为所述每个词赋予不同的注意力权重，包括：基于所述每个词的嵌入向量与所述其他词的嵌入向量，来计算所述每个词与所述其他词之间的嵌入维度的平方根；利用所述嵌入维度的平方根，对所述关联性强度进行缩放，并将缩放后的所述关联性强度进行归一化处理，得到所述每个词的所述注意力权重。

2.根据权利要求1所述的方法，其特征在于，基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象，包括：

将所述关键词的词嵌入向量串联在一起，形成关键词嵌入向量；

生成服从正态分布的随机噪声向量，并基于所述随机噪声向量和所述关键词嵌入向量生成条件输入向量；

基于所述条件输入向量，利用所述对抗生成网络生成与所述关键词相应的所述多个数字人形象。

3.根据权利要求2所述的方法，其特征在于，基于所述条件输入向量，利用所述对抗生成网络生成与所述关键词相应的所述多个数字人形象，包括：

在所述对抗生成网络的生成器网络的每一层中，引入条件生成器层，所述条件生成器层将所述条件输入向量与中间特征图相融合，得到多个初始形象；

基于对抗损失、内容损失和风格损失，来分别不断修正所述多个初始形象，直至得到所述多个数字人形象。

4.根据权利要求1所述的方法，其特征在于，生成与所述用户输入数据相应的文本描述信息，包括：

在所述用户输入数据为图像数据的情况下，对所述图像数据进行目标检测，识别所述图像数据中的目标对象，从所述目标对象中提取图像特征，并基于所述图像特征得到所述文本描述信息；

在所述用户输入数据为语音数据的情况下，从所述语音数据中提取音频特征，并基于所述音频特征得到所述文本描述信息；

在所述用户输入数据为文本数据的情况下，将所述文本数据作为所述文本描述信息。

5.根据权利要求4所述的方法，其特征在于，对所述图像数据进行目标检测，识别所述图像数据中的目标对象，包括：

识别所述图像数据中的多个候选边线，并识别所述图像数据中的包含目标对象的边界框；

从所述多个候选边线中筛选出符合预设条件的目标边线，并基于所述目标边线来修正所述边界框，得到目标对象，其中，所述预设条件为能够连通形成多边形且所述多边形与所述边界框的相似度大于预设相似阈值。

6.一种数字人形象AI生成装置，其特征在于，包括：

文本生成模块，被配置为响应于接收到用户输入数据，生成与所述用户输入数据相应的文本描述信息；

权重确定模块，被配置为利用自注意力机制计算所述文本描述信息中的每个词与所述文本描述信息中的其他词的关联性强度，并基于所述关联性强度，为所述每个词赋予不同的注意力权重；

数字人生成模块，被配置为基于所述注意力权重，识别所述文本描述信息中的关键词，并基于所述关键词，利用对抗生成网络生成与所述关键词相应的多个数字人形象；

其中，所述生成装置还被配置为：将所述文本描述信息划分为多个词，并将所述多个词嵌入到多维向量空间中；在所述多维向量空间中，针对所述多个词中的每个词添加相应的位置编码；利用所述自注意力机制计算所述每个词的位置编码与所述其他词的位置编码之间的所述关联性强度；

其中，所述生成装置还被配置为：基于所述每个词的嵌入向量与所述其他词的嵌入向量，来计算所述每个词与所述其他词之间的嵌入维度的平方根；利用所述嵌入维度的平方根，对所述关联性强度进行缩放，并将缩放后的所述关联性强度进行归一化处理，得到所述每个词的所述注意力权重。

7.一种电子设备，其特征在于，包括：

存储器，被配置为存储计算机程序；

处理器，被配置为在所述程序运行时，使得计算机执行如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至5中任一项所述的方法。