CN116932798B

CN116932798B - 一种虚拟代言人生成方法、装置、设备及存储介质

Info

Publication number: CN116932798B
Application number: CN202311189196.9A
Authority: CN
Inventors: 刘祖渊; 杨白云
Original assignee: Star River Vision Technology Beijing Co ltd
Current assignee: Star River Vision Technology Beijing Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-11-21
Anticipated expiration: 2043-09-15
Also published as: CN116932798A

Abstract

本发明公开了一种虚拟代言人生成方法、装置、设备及存储介质，涉及广告代言领域，本发明采用两个数据库，确立了产品名称与代言人角色描述向量的紧密关联，并进一步将角色描述与具体外观图像相联系。通过这种方式，当用户输入特定的产品名称时，经过机器学习模型预测出的角色描述向量可以为条件生成对抗网络提供精确的指引，从而生成与产品特性和市场定位相匹配的逼真虚拟代言人图像。鉴别器的设计确保了图像的真实性和与角色描述的匹配度，保障了生成图像的质量和准确性。本发明可为不同的产品生成合适且具有针对性的虚拟代言人图像，从而满足市场营销和品牌推广的需求，具有广泛的应用价值和良好的商业前景。

Description

一种虚拟代言人生成方法、装置、设备及存储介质

技术领域

本发明涉及广告代言领域，更具体地说，涉及一种虚拟代言人生成方法、装置、设备及存储介质。

背景技术

在早期的品牌推广中，选择一个代言人常常是一个费时、费钱的过程。品牌需要经过多轮筛选，最后与某位明星或公众人物签订合同，并且往往需要针对产品的属性，对明星的年龄、性别以及后续的服装设计等进行详细的筛选。这样的方式不仅涉及高昂的经济成本，而且带有很高的风险。一旦代言人涉及负面事件，可能会对品牌造成损害，反过来影响销售和公众形象。此外，对于小型或新兴品牌来说，找到与其定位完美匹配的代言人是一大挑战。

而随着虚拟现实技术的发展，采用生成虚拟数字人的方法生成虚拟代言人的技术变为了可能，但是如何利用先进的算法来创建与品牌和产品紧密相关的虚拟代言人仍然是一个存在的问题。

发明内容

本发明提供一种虚拟代言人生成方法、装置、设备及存储介质，以解决背景技术中提到的问题。

为了达到上述目的，本发明采取以下技术方案：

本发明的第一个方面公开了一种虚拟代言人生成方法，包括如下步骤：

S1: 构建第一数据库，其中每个产品名称与其对应的代言人角色描述向量关联；

S2: 构建第二数据库，为每个角色描述向量中的每个维度区间提供一组图像，所述图像表示该维度区间的对应外观；

S3: 设计并训练一个机器学习模型，其中输入为产品名称，输出为代言人角色描述向量，所述机器学习模型使用第一数据库进行训练；

S4: 设计并训练一个条件生成对抗网络，其中生成器的输入为随机噪声和角色描述向量，输出为虚拟代言人图像，鉴别器的输入为虚拟代言人图像和角色描述向量，输出为一个判断，表示该图像是否真实并且是否与给定的角色描述向量匹配；条件生成对抗网络使用第二数据库进行训练；

S5: 根据用户输入的产品名称，使用在S3中训练的机器学习模型预测角色描述向量；

S6: 将在S5中获得的角色描述向量输入到在S4中训练的条件生成对抗网络的生成器中，得到虚拟代言人的图像。

在一些实施例中，所述角色描述向量的维度包括：年龄、职业、性别、文化背景、风格和情绪状态。

优选的，S3中，选择RNN或Transformer结构作为机器学习模型。

在一些实施例中，S3中，训练过程中，对产品名称进行向量化表示，使用词嵌入技术将产品名称转换为固定大小的向量，代言人角色描述向量作为结构化数据用于输出。

在一些实施例中，S3中，使用第一数据库中的数据进行模型的训练，具体地，划分第一数据库中的数据为训练集和验证集；

在每个训练周期中，将训练集产品名称输入到模型中，并计算模型预测的代言人角色描述向量与真实向量之间的均方误差；使用反向传播算法更新模型的权重和偏置；

在每个训练周期结束后，利用验证集评估模型的性能。

本发明的第二个方面公开了一种虚拟代言人生成装置，包括如下模块：

数据构建模块，配置为构建第一数据库，其中每个产品名称与其对应的代言人角色描述向量关联，以及构建第二数据库，为每个角色描述向量中的每个维度区间提供一组图像，所述图像表示该维度区间的对应外观；

机器学习模型训练模块，配置为接受产品名称为输入，输出代言人角色描述向量，并利用第一数据库进行训练机器学习模型；

条件生成对抗网络训练模块，其中包括：生成器，用于接受随机噪声和角色描述向量作为输入，输出虚拟代言人图像；鉴别器，用于接受虚拟代言人图像和角色描述向量作为输入，输出一个判断，表示该图像是否真实并且是否与给定的角色描述向量匹配；条件生成对抗网络训练模块使用第二数据库进行训练；

角色描述预测模块，配置为根据用户输入的产品名称，使用已训练的机器学习模型预测角色描述向量；

代言人图像生成模块，配置为接受由角色描述预测模块获得的角色描述向量，并利用已训练的条件生成对抗网络的生成器产生虚拟代言人的图像。

本发明的第三个方面公开了一种处理设备，包括：

存储器；

处理器；以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一个方面所述方法。

本发明的第四个方面公开了一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器执行时实现如第一个方面所述方法。

本发明巧妙地结合了与产品名称关联的角色描述向量和图像数据库，提供了一个系统化的方法和装置来生成与特定产品紧密相关的虚拟代言人。通过采用先进的机器学习模型，如RNN或Transformer，本发明可以准确地预测虚拟代言人的角色描述向量。进一步结合条件生成对抗网络，不仅确保了生成的虚拟代言人图像具有极高的真实感，而且与给定的角色描述向量高度匹配。这种综合的方法旨在为品牌推广提供一个高度个性化、真实感强并且经济高效的代言人选择，具有显著的实用价值和广泛的应用潜力。

附图说明

图1是本发明方法的流程示意图；

图2是本发明装置的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作描述。

本发明第一个实施例如图1所示，公开了一种虚拟代言人生成方法，包括如下步骤：

上述第一个实施例，S1中，示例性的，角色描述向量可以有以下分量：年龄、职业、性别、文化背景、风格（如现代、复古、未来风等）、情绪状态（如快乐、严肃、愤怒等）。

对于具体的分量取值，在机器学习和深度学习中，可以优先选择0-1的范围作为特征向量值，根据具体情况可以细分小数点位数。示例性的，如下：

年龄分量：取值范围为0-1，其中0表示最年轻，1表示最年长，可以是年龄的岁数除以10（因为很少有代言人的年龄超过百岁，因此可以不考虑超过百岁的情况）。例如，0.05可能表示儿童，0.25可能表示青年，0.45可能表示中年，0.8可能表示老年人。

职业属性：取值范围为0-1，其中不同的值代表不同的职业。例如，0.20可能代表白领，0.30可能表示医生，0.60表示工程师，0.90表示艺术家；这可以根据具体情况设计，根据职业数量，可以选择小数点位数。

性别分量：取值范围为0-1，0表示男性，1表示女性。

风格属性：取值范围为0-1，0表示正式，0.5表示休闲，1表示古怪。

可以对各种市面上的产品进行调查或研究，确定与之相关的代言人的常见特征。例如，护肤品可能对应一个年轻、女性、休闲风格的代言人，其角色描述向量可能是[0.25，0.20, 1, 0.5]。

将上述的产品名称与其对应的角色描述向量录入数据库，形成结构化的产品-角色向量数据集。

上述第一个实施例，S2中，示例性的，可以采用如下方式：

S2中角色描述向量中的所有维度与S1中对应的特征向量的维度相同，例如：年龄、职业、性别、文化背景、风格（如现代、复古、未来风等）、情绪状态（如快乐、严肃、愤怒等）。

对于每一个维度的一定区间，准备一组图像来表示该属性的不同可能性。

年龄：

儿童（比如0～0.1，后面的其他区间可具体设定）：提供一系列儿童的图像。

青年：提供一系列青年的图像。

中年：提供一系列中年的图像。

老年：提供一系列老年人的图像。

职业：

医生：提供穿着白大褂的图像、或带着医疗器械的图像。

工程师：提供穿着工装、带头盔或者在工地上的图像。

艺术家：提供创作时的图像、或展示作品的图像。

性别：

男性：提供一系列男性形象的图像。

女性：提供一系列女性形象的图像。

文化背景：

东方：提供穿着传统服装如汉服、和服的图像。

西方：提供穿着西装、礼服的图像。

风格：

现代：提供现代都市风格的图像。

复古：提供上世纪中叶的风格图像。

未来：提供赛博朋克、太空探险风格的图像。

其中，需要确保图像的质量足够高，且与维度区间的描述相符。例如，如果描述的是“未来风格的医生”，则图像应该结合了未来风格的元素（如高科技医疗设备）与医生的形象。

将这些图像按属性分类并存储，确保它们能够方便地与角色描述向量进行匹配。

上述第一个实施例，S3中，示例性的，可以进一步包括如下步骤：

S3.1：选择适合处理序列到序列映射的模型。在此应用中，可以选择深度学习的RNN(RecurrentNeuralNetwork)或者Transformer结构。这些结构在自然语言处理任务中表现出色，特别是在序列到序列的映射任务中，如机器翻译。

S3.2：将产品名称进行向量化表示，如使用词嵌入技术将每个产品名称转换为固定大小的向量。代言人角色描述向量已经是结构化数据，可以直接用作输出。

S3.3：模型结构设计可以包括如下：

输入层：接受产品名称的向量化表示。

多个隐藏层：可以使用LSTM单元、GRU单元或Transformer结构来捕捉输入序列的信息。

输出层：输出代言人角色描述向量。

其中，可以选择适合回归任务的损失函数，例如均方误差(MSE)。

S3.4：使用第一数据库中的数据进行训练；训练过程包括：

将第一数据库中的数据分为训练集和验证集。通常，可以按照80%-20%的比例进行划分。

输入：产品名称的向量化表示。可以使用词嵌入技术，例如Word2Vec或GloVe，将每个产品名称转换为固定大小的向量。

标签（输出）：与输入产品名称对应的代言人角色描述向量。

在每个训练周期（epoch）中，使用训练集中的数据逐批（batch）将产品名称输入到模型中。模型会预测出代言人角色描述向量。使用损失函数（例如均方误差）计算模型预测的代言人角色描述向量与真实向量之间的差异。通过反向传播算法，基于这个差异来更新模型的权重和偏置。在每个训练周期结束后，使用验证集评估模型的性能。如果验证损失在连续几个周期内没有明显下降，为了防止过拟合，可以停止训练。这就是所谓的“早停”策略。

经过训练的模型可以接受产品名称作为输入，并输出对应的代言人角色描述向量。

上述第一个实施例，S4中，条件生成对抗网络（cGAN）的核心作用是根据提前定义的角色描述向量生成与之匹配的虚拟代言人图像。通过结合产品名称与其对应的角色描述向量，该网络能够确保生成的代言人图像不仅看起来真实，还能与预期的角色特征相匹配。在训练过程中，生成器努力产生符合角色描述向量的图像，而鉴别器则判断图像的真实性及其与描述向量的一致性。随着训练的进行，生成器逐渐掌握如何根据角色描述向量产生合适的代言人图像。这样，当用户输入一个产品名称时，系统可以首先预测其角色描述向量，然后基于这个向量生成专属的虚拟代言人图像。

示例性的，条件生成对抗网络可以进一步设计如下：

生成器采用深度卷积神经网络，它接受两个输入：随机噪声和角色描述向量。角色描述向量首先通过全连接层转换为一个有适当维度的张量，然后与噪声向量结合，进入卷积层。多个上采样层被用于逐步增加图像的分辨率，直至生成完整的虚拟代言人图像。

鉴别器同样采用深度卷积神经网络，它接受来自生成器的虚拟代言人图像和一个角色描述向量作为输入。角色描述向量经过全连接层后，空间上复制以与图像的维度匹配，然后与原始图像在深度方向上堆叠。这样的组合然后进入多个下采样层，以确定图像是否真实，并且是否与输入的角色描述向量匹配。

训练策略中，使用标准的GAN损失，增加一个条件损失部分，以确保生成的图像与给定的条件向量相符。使用Adam作为优化器，它在训练GANs时表现良好。在每次迭代中，首先固定生成器，训练鉴别器一或多次；然后固定鉴别器，训练生成器。这种交替策略有助于保持生成器和鉴别器之间的平衡。

以上使用第二数据库作为训练数据，其中图像与角色描述向量配对，用于训练鉴别器识别真实与虚假图像。

本发明第二个实施例如图2所示，为一种虚拟代言人生成装置，包括如下模块：

示例性的，上述模块可采用如下实施例：

数据构建模块：这是整个装置的基础模块，主要负责数据库的创建和维护。它是由高速存储硬盘和专门的数据库管理系统(DBMS)软件，例如MySQL, MongoDB或Oracle等实现。该模块中的数据结构和索引设计使得从数据库中检索产品名称和相关的角色描述向量变得高效。另外，为了处理大量的图像数据，该模块也可配备图像处理工具和软件，以便进行图像的压缩、格式转换和存储。

机器学习模型训练模块：这个模块是由高性能的计算机处理器（例如，多核心CPU和GPU）和专用的深度学习框架（如TensorFlow, PyTorch或Keras等）构建的。这些硬件和软件工具允许模块处理大量数据，并在合理的时间内完成模型的训练。为了更好地进行批处理和数据并行处理，该模块还可包含RAM的大量内存。

条件生成对抗网络训练模块：此模块与机器学习模型训练模块类似，它更专注于条件生成对抗网络的训练。生成器和鉴别器部分均使用专用的深度学习框架来实现。高性能的GPU是此模块的核心，因为CGAN模型需要大量的计算资源来进行前向和反向传播。

角色描述预测模块：由专门的机器学习预测引擎支持，是基于云的或者是一个内部部署的服务。该模块需要快速访问数据构建模块中的第一数据库，以便实时为用户提供角色描述向量。

代言人图像生成模块：此模块主要依赖于高速的图形处理单元(GPU)来生成高分辨率的代言人图像。它与条件生成对抗网络训练模块紧密协作，以利用已经训练好的生成器模型。此外，为了实时渲染和展示图像，该模块还可包括一个图像处理和渲染引擎。

上述模块可通过高速的数据总线和网络连接在一起，以确保数据流的连续性和低延迟。软件部分通常会部署在一个分布式的环境中，例如容器化的微服务或者云基础设施上，以提供高可用性和伸缩性。

基于上述模块，本发明实际上还公开了一种处理设备，包括：

存储器；

处理器；以及计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现第一个实施例中的方法。

本发明实际上还公开了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行时实现第一个实施例中的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种虚拟代言人生成方法，其特征在于，包括如下步骤：

其中，选择RNN或Transformer结构作为机器学习模型；

训练过程中，对产品名称进行向量化表示，使用词嵌入技术将产品名称转换为固定大小的向量，代言人角色描述向量作为结构化数据用于输出；

划分第一数据库中的数据为训练集和验证集；

在每个训练周期结束后，利用验证集评估模型的性能；

2.根据权利要求1所述虚拟代言人生成方法，其特征在于，所述角色描述向量的维度包括：年龄、职业、性别、文化背景、风格和情绪状态。

3.一种虚拟代言人生成装置，其特征在于，包括如下模块：

条件生成对抗网络训练模块，其中包括：生成器，用于接受随机噪声和角色描述向量作为输入，输出虚拟代言人图像；鉴别器，用于接受虚拟代言人图像和角色描述向量作为输入，输出一个判断，表示该图像是否真实并且是否与给定的角色描述向量匹配；条件生成对抗网络训练模块使用第二数据库进行训练；其中，选择RNN或Transformer结构作为机器学习模型；训练过程中，对产品名称进行向量化表示，使用词嵌入技术将产品名称转换为固定大小的向量，代言人角色描述向量作为结构化数据用于输出；划分第一数据库中的数据为训练集和验证集；在每个训练周期中，将训练集产品名称输入到模型中，并计算模型预测的代言人角色描述向量与真实向量之间的均方误差；使用反向传播算法更新模型的权重和偏置；在每个训练周期结束后，利用验证集评估模型的性能；

4.一种处理设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-2中任一项所述方法。

5.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述方法。