CN117274450B - 基于人工智能的动画形象生成系统及方法 - Google Patents
基于人工智能的动画形象生成系统及方法 Download PDFInfo
- Publication number
- CN117274450B CN117274450B CN202311553906.1A CN202311553906A CN117274450B CN 117274450 B CN117274450 B CN 117274450B CN 202311553906 A CN202311553906 A CN 202311553906A CN 117274450 B CN117274450 B CN 117274450B
- Authority
- CN
- China
- Prior art keywords
- image
- generated
- text
- feature vector
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 198
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于人工智能的动画形象生成系统及方法,涉及动画形象生成领域,其首先获取由用户输入的待生成动画形象的文本描述,接着,获取由所述用户选择的待生成动画形象的基础形象特征,然后,对所述基础形象特征进行编码以得到基础形象编码特征向量,接着,对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列,然后,对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征,最后,基于所述形象嵌入文本描述语义特征,生成动画形象图像。这样,可以使动画形象生成更加高效、灵活和创新。
Description
技术领域
本申请涉及动画形象生成领域,具体涉及一种基于人工智能的动画形象生成系统及方法。
背景技术
动画形象生成是计算机图形学和计算机视觉领域的一个重要研究方向,它可以为动画制作、游戏开发、虚拟现实等应用提供丰富的视觉素材。然而,传统的动画形象生成需要艺术家进行手工绘制或动画师进行骨骼动画的制作,这需要大量的人工设计和编辑,因而需要大量的时间和人力成本。尤其是对于复杂的动画形象或大规模的动画制作项目,成本更是非常高昂。此外,传统的动画形象生成系统通常依赖于艺术家的创造力和绘画技巧,这限制了形象的多样性和个性化程度,因为每个艺术家的风格和能力都有所不同,导致传统的动画形象生成系统难以满足用户的个性化需求。
因此,期望一种基于人工智能的动画形象生成系统。
发明内容
有鉴于此,本申请提出了一种基于人工智能的动画形象生成系统及方法,其可以根据用户的输入和选择来自动生成动画形象,减少了时间和人力成本,提供了更多样化和个性化的形象选项,并且具备实时交互和智能化的能力,这使得动画形象生成更加高效、灵活和创新。
根据本申请的一方面,提供了一种基于人工智能的动画形象生成系统,其包括:
动画形象文本描述采集模块,用于获取由用户输入的待生成动画形象的文本描述;
动画形象基础形象特征采集模块,用于获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型;
基础形象特征编码模块,用于对所述基础形象特征进行编码以得到基础形象编码特征向量;
动画形象文本语义编码模块,用于对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列;
动画形象嵌入文本描述语义分析模块,用于对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征;以及
动画形象图像生成模块,用于基于所述形象嵌入文本描述语义特征,生成动画形象图像。
根据本申请的另一方面,提供了一种基于人工智能的动画形象生成方法,其包括:
获取由用户输入的待生成动画形象的文本描述;
获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型;
对所述基础形象特征进行编码以得到基础形象编码特征向量;
对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列;
对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征;以及
基于所述形象嵌入文本描述语义特征,生成动画形象图像。
本发明的有益效果:
本申请首先获取由用户输入的待生成动画形象的文本描述,接着,获取由所述用户选择的待生成动画形象的基础形象特征,然后,对所述基础形象特征进行编码以得到基础形象编码特征向量,接着,对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列,然后,对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征,最后,基于所述形象嵌入文本描述语义特征,生成动画形象图像。这样,可以使动画形象生成更加高效、灵活和创新。
根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出根据本申请的实施例的基于人工智能的动画形象生成系统的框图。
图2示出根据本申请的实施例的基于人工智能的动画形象生成系统中所述动画形象嵌入文本描述语义分析模块的框图。
图3示出根据本申请的实施例的基于人工智能的动画形象生成系统中所述动画形象图像生成模块的框图。
图4示出根据本申请的实施例的基于人工智能的动画形象生成系统中所述特征优化单元的框图。
图5示出根据本申请的实施例的基于人工智能的动画形象生成方法的流程图。
图6示出根据本申请的实施例的基于人工智能的动画形象生成方法的架构示意图。
图7示出根据本申请的实施例的基于人工智能的动画形象生成系统的应用场景图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
针对上述技术问题,本申请的技术构思为通过采集用户输入的待生成动画形象的文本描述,以及,用户所选择的待生成动画形象的基础形象特征,例如性别、年龄和发型等,并在后端引入语义理解技术来进行所述待生成动画形象的文本描述和基础形象特征的语义分析和理解,以此来生成相应的动画形象图像。这样,能够根据用户的输入和选择来自动生成动画形象,减少了时间和人力成本,提供了更多样化和个性化的形象选项,并且具备实时交互和智能化的能力,这使得动画形象生成更加高效、灵活和创新。
图1示出根据本申请的实施例的基于人工智能的动画形象生成系统的框图示意图。如图1所示,根据本申请实施例的基于人工智能的动画形象生成系统100,包括:动画形象文本描述采集模块110,用于获取由用户输入的待生成动画形象的文本描述;动画形象基础形象特征采集模块120,用于获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型;基础形象特征编码模块130,用于对所述基础形象特征进行编码以得到基础形象编码特征向量;动画形象文本语义编码模块140,用于对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列;动画形象嵌入文本描述语义分析模块150,用于对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征;以及,动画形象图像生成模块160,用于基于所述形象嵌入文本描述语义特征,生成动画形象图像。
具体地,在本申请的技术方案中,首先,获取由用户输入的待生成动画形象的文本描述,并且,获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型。接着,考虑到所述待生成动画形象的基础形象特征可能是多样化的,如性别、年龄、发型等,并且,这些动画形象的基础形象特征之间具有着相互的关联语义,共同决定了该待生成的动画形象。因此,在本申请的技术方案中,进一步对所述基础形象特征进行编码,以提取出所述基础形象特征中的各个特征数据关于动画形象的整体关联语义特征信息,从而得到基础形象编码特征向量。
应可以理解,所述待生成动画形象的文本描述包含了对该待生成动画形象的描述和要求,其中蕴含着丰富的语义信息。并且,还考虑到所述待生成动画形象的文本描述会包含多个词语和句子,其中的上下文信息对于正确理解和生成形象至关重要。因此,在本申请的技术方案中,进一步将所述待生成动画形象的文本描述通过动画形象上下文语义编码器进行编码,以提取出所述待生成动画形象的文本描述全局上下文语义关联特征信息,从而得到待生成动画形象文本上下文语义特征向量的序列。通过所述动画形象上下文语义编码器,可以将所述文本描述转换为语义特征向量的序列,并捕捉其中的语义特征信息。这有助于形象生成系统更好地理解和解释用户的意图和要求。
相应地,所述动画形象文本语义编码模块140,用于:将所述待生成动画形象的文本描述通过动画形象上下文语义编码器以得到所述待生成动画形象文本上下文语义特征向量的序列。值得一提的是,动画形象上下文语义编码器的作用是对文本描述进行语义编码,将其转换为表示语义信息的向量序列,这个向量序列可以作为输入传递给其他模块,如生成器或者计算机图形学模块,用于生成相应的动画形象。动画形象上下文语义编码器的具体实现可以使用一种或多种自然语言处理技术,如词嵌入、循环神经网络(RNN)或者Transformer模型等,这些技术可以捕捉文本描述中的语义信息,并将其编码为向量表示。通过使用动画形象上下文语义编码器,系统可以将文本描述转换为机器能够理解和处理的语义特征向量序列,从而更好地生成符合描述的动画形象。这种语义编码的过程有助于提高系统对文本描述的理解和生成的准确性。
然后,考虑到所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列分别代表了动画形象的基本特征语义和用户的文本描述语义特征信息。通过将它们进行融合,可以综合不同特征的信息,得到更全面和准确的形象描述。基于此,在本申请的技术方案中,进一步将所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块以得到形象嵌入文本描述语义特征向量。通过所述语义特征嵌入模块进行处理,可以将所述待生成动画形象的基本特征语义和用户文本描述语义进行合并和转换,得到所述形象嵌入文本描述语义特征向量,从而提供更丰富和一致的特征表示。
相应地,所述动画形象嵌入文本描述语义分析模块150,用于:将所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块以得到形象嵌入文本描述语义特征向量,作为所述形象嵌入文本描述语义特征。值得一提的是,语义特征嵌入模块是动画形象嵌入文本描述语义分析模块中的一个组成部分。它的作用是将基础形象编码特征向量和待生成动画形象文本上下文语义特征向量序列进行嵌入,以得到形象嵌入文本描述语义特征向量。语义特征嵌入模块的目的是将基础形象编码特征和文本描述语义特征进行融合,以获得更全面和丰富的语义信息。这些嵌入后的特征向量可以用于后续的任务,如动画形象生成、描述生成或其他相关的应用。通过融合视觉和语义信息,系统可以更好地理解和生成与文本描述相对应的动画形象。
更具体地,如图2所示,所述动画形象嵌入文本描述语义分析模块150,包括:特征提取单元151,用于将所述基础形象编码特征向量通过基于全卷积网络模型的特征提取器以得到基础形象特征向量;向量线性处理单元152,用于将所述基础形象特征向量进行线性处理以得到线性处理后基础形象特征向量;向量序列线性处理单元153,用于将所述待生成动画形象文本上下文语义特征向量的序列进行线性处理以得到线性处理后待生成动画形象文本上下文语义特征向量的序列;初融合单元154,用于融合所述线性处理后基础形象特征向量和所述线性处理后待生成动画形象文本上下文语义特征向量的序列以得到线性初融合向量;一维卷积处理单元155,用于对所述待生成动画形象文本上下文语义特征向量的序列进行一维卷积处理以得到待生成动画形象文本上下文语义邻域关联特征向量的序列;以及,拼接融合单元156,用于将所述待生成动画形象文本上下文语义邻域关联特征向量的序列和所述线性初融合向量进行基于拼接方式的融合以得到所述形象嵌入文本描述语义特征向量。
应可以理解,线性处理是一种对向量或矩阵进行线性变换的操作,它可以通过矩阵乘法和向量加法来实现。线性处理被用于对基础形象特征向量和待生成动画形象文本上下文语义特征向量序列进行变换,以得到经过线性变换后的特征向量或特征向量序列。线性处理的作用可以有多种:1.特征提取:线性处理可以通过矩阵乘法和向量加法,将输入的特征向量转换为更具有表达能力的特征向量。这可以帮助系统更好地捕捉输入数据中的关键信息。2.维度变换:线性处理可以改变特征向量的维度。通过选择适当的线性变换矩阵,可以将高维特征向量投影到低维空间,或者将低维特征向量映射到高维空间。这有助于减少特征的冗余性或增加特征的表达能力。3.特征融合:线性处理可以将多个特征向量进行线性组合,从而融合它们的信息。通过调整线性变换矩阵的权重,可以控制每个特征向量对最终结果的贡献程度。4.特征归一化:线性处理可以对特征向量进行归一化操作,使其具有统一的尺度和范围。这有助于消除不同特征之间的量纲差异,提高模型的鲁棒性和稳定性。总之,线性处理可以对特征向量进行变换和组合,以提取关键信息、调整维度、融合特征以及归一化特征等,从而为后续任务提供更好的输入数据。
进一步地,再将所述形象嵌入文本描述语义特征向量通过基于对抗生成网络的动画形象生成器以得到生成动画形象图像。特别地,基于所述形象嵌入文本描述语义特征向量,所述动画形象生成器可以更好地理解和利用形象基本特征语义与用户文本描述语义之间的关联关系。这有助于所述动画形象生成器根据用户的需求和描述以及动画形象的基本特征生成更符合预期的动画形象图像。这样,能够根据用户的输入和选择来自动生成动画形象,减少了时间和人力成本,提供了更多样化和个性化的形象选项,并且具备实时交互和智能化的能力,使得动画形象生成更加高效、灵活和创新。
相应地,所述动画形象图像生成模块160,用于:将所述形象嵌入文本描述语义特征向量通过基于对抗生成网络的动画形象生成器以得到所述生成动画形象图像。
值得一的是,对抗生成网络(Generative Adversarial Network,简称GAN)是一种机器学习模型,由生成器(Generator)和判别器(Discriminator)两个部分组成。GAN的目标是通过让生成器和判别器相互博弈的方式,使得生成器能够生成逼真的样本。生成器的任务是将随机噪声或其他输入转化为与训练数据相似的样本。它通过学习训练数据的分布特征,生成新的样本。生成器的目标是欺骗判别器,使得判别器无法区分生成的样本和真实的样本。判别器的任务是判断输入样本是真实样本还是生成样本。它学习区分生成器生成的样本和真实样本,并给出一个概率值来表示样本的真实性。判别器的目标是准确地判别样本的真实性,并与生成器竞争。GAN的训练过程是通过生成器和判别器的对抗来进行的。生成器试图生成逼真的样本来欺骗判别器,而判别器则试图准确地判别样本的真实性。通过不断迭代训练,生成器和判别器逐渐提升自己的能力,最终达到一个平衡点,生成器可以生成逼真的样本。在动画形象生成中,对抗生成网络可以通过学习真实动画形象的分布特征,生成新的逼真动画形象。生成器接收形象嵌入文本描述语义特征向量作为输入,并生成相应的动画形象图像。通过对抗生成网络的训练,可以生成与文本描述相符合的动画形象图像,从而实现动画形象的生成任务。
具体地,如图3所示,所述动画形象图像生成模块160,包括:特征优化单元161,用于对所述形象嵌入文本描述语义特征向量进行优化以得到优化形象嵌入文本描述语义特征向量;以及,动画形象生成单元162,用于将所述优化形象嵌入文本描述语义特征向量通过所述基于对抗生成网络的动画形象生成器以得到所述生成动画形象图像。应可以理解,特征优化单元161和动画形象生成单元162是动画形象图像生成模块中的两个子模块,各自具有不同的功能和作用。1.特征优化单元161的主要作用是通过一系列优化算法或神经网络模型,对输入的特征向量进行调整和改进,以提高特征的表达能力和适应性,优化后的特征向量可以更好地捕捉文本描述的语义信息,并为后续的动画形象生成提供更准确的输入。2.动画形象生成单元162的任务是通过学习真实动画形象的分布特征,生成逼真的动画形象,它通常由生成器和判别器两个部分组成,通过对抗训练的方式不断提升生成器的能力,生成器接收优化后的特征向量作为输入,并生成与文本描述相符的动画形象图像。总结起来,特征优化单元用于对形象嵌入文本描述语义特征向量进行优化,以提高特征的表达能力和适应性;而动画形象生成单元则利用优化后的特征向量通过对抗生成网络生成逼真的动画形象图像。这两个单元相互配合,完成了从特征优化到动画形象生成的过程,使得生成的动画形象更符合文本描述的语义特征。
具体地,在一个示例中,如图4所示,所述特征优化单元161,包括:融合优化子单元1611,用于对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行融合优化以得到优化后待生成动画形象文本上下文语义特征向量的序列;以及,语义嵌入子单元1612,用于将所述基础形象编码特征向量和所述优化后待生成动画形象文本上下文语义特征向量的序列通过所述语义特征嵌入模块得到所述优化形象嵌入文本描述语义特征向量。应可以理解,特征优化单元161包括两个子单元:融合优化子单元1611和语义嵌入子单元1612。1.融合优化子单元1611的主要作用是将两个不同来源的特征向量进行融合和优化,以提高特征的表达能力和适应性,通过融合优化的过程,可以更好地捕捉动画形象生成所需的语义信息,并为后续的处理步骤提供更准确的特征输入。2.语义嵌入子单元1612的任务是将优化后的特征向量通过一个语义特征嵌入模块进行转换和映射,以得到最终的形象嵌入文本描述语义特征向量,语义特征嵌入模块可以是一个神经网络模型或其他的转换函数,它将特征向量映射到一个高维语义空间中,以更好地表示形象和文本描述之间的语义关系。综合来说,融合优化子单元用于融合和优化基础形象编码特征向量和待生成动画形象文本上下文语义特征向量的序列,以得到优化后的特征向量序列;而语义嵌入子单元则将优化后的特征向量通过语义特征嵌入模块转换为最终的形象嵌入文本描述语义特征向量。这两个子单元的配合使得特征优化单元能够提供更准确和表达能力更强的形象嵌入文本描述语义特征向量,用于后续的动画形象生成过程。
特别地,在本申请的技术方案中,这里,所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列分别表达所述基础形象特征的编码语义特征和所述待生成动画形象的文本描述的源语义上下文关联的文本语义特征,由此,将所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块后,可以基于所述基础形象特征的编码语义特征的动态分布来对所述待生成动画形象的文本描述的文本语义特征进行针对生成目标的插值式嵌入特征混合。
因此,为了提升所述形象嵌入文本描述语义特征向量在所述待生成动画形象的文本描述的文本语义特征的表达一致性基础上的特征嵌入式分布融合强化效果,本申请的申请人进一步对于所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行融合优化。
相应地,在一个示例中,所述融合优化子单元1611,进一步用于:以如下优化公式对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行融合优化以得到所述优化后待生成动画形象文本上下文语义特征向量的序列;其中,所述优化公式为:
;
;
其中,是通过线性插值后转换为与所述待生成动画形象文本上下文语义特征向量的序列的级联向量相同长度的基础形象编码特征向量,/>是待生成动画形象文本上下文语义特征向量的序列的级联向量,/>和/>分别表示特征向量/>和的全局最大值的倒数,/>是单位向量,且/>表示对特征向量/>的逐位置特征值取倒数,/>表示按位置点乘,/>表示向量减法,/>表示向量加法,/>是所述优化后待生成动画形象文本上下文语义特征向量的序列的级联向量。
具体地,针对在特征提取过程中对于生成目标的插值式嵌入特征混合,基于插值正则化的思想,通过将离群特征的特征映射解除混合,使得高维特征流形基于归纳偏差而恢复到以弱增强为基础的流形几何形状,实现基于特征提取的插值样本和插值预测的一致性特征增强映射,以在保持所述形象嵌入文本描述语义特征向量对所述待生成动画形象的文本描述的文本语义特征的表达一致性的同时获得插值式嵌入特征强化效果。然后,再将所述基础形象编码特征向量和优化后的待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块得到所述形象嵌入文本描述语义特征向量,就可以提升所述形象嵌入文本描述语义特征向量的表达效果,进而提升其通过基于对抗生成网络的动画形象生成器得到的所述生成动画形象图像的图像质量。这样,能够基于用户输入的动画形象文本描述以及选择的一些动画形象的基础形象特征,如性别、年龄、发型等,自动生成相应的动画形象,从而减少了时间和人力成本,提供了更多样化和个性化的形象选项,使得动画形象生成更加高效、灵活和创新。
综上,基于本申请实施例的基于人工智能的动画形象生成系统100被阐明,其可以根据用户的输入和选择来自动生成动画形象,减少了时间和人力成本,提供了更多样化和个性化的形象选项,并且具备实时交互和智能化的能力,这使得动画形象生成更加高效、灵活和创新。
如上所述,根据本申请实施例的所述基于人工智能的动画形象生成系统100可以实现在各种终端设备中,例如具有基于人工智能的动画形象生成算法的服务器等。在一个示例中,基于人工智能的动画形象生成系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于人工智能的动画形象生成系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于人工智能的动画形象生成系统100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于人工智能的动画形象生成系统100与该终端设备也可以是分立的设备,并且该基于人工智能的动画形象生成系统100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图5示出根据本申请的实施例的基于人工智能的动画形象生成方法的流程图。图6示出根据本申请的实施例的基于人工智能的动画形象生成方法的系统架构的示意图。如图5和图6所示,根据本申请实施例的基于人工智能的动画形象生成方法,其包括:S110,获取由用户输入的待生成动画形象的文本描述;S120,获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型;S130,对所述基础形象特征进行编码以得到基础形象编码特征向量;S140,对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列;S150,对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征;以及,S160,基于所述形象嵌入文本描述语义特征,生成动画形象图像。
在一种可能的实现方式中,对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列,包括:将所述待生成动画形象的文本描述通过动画形象上下文语义编码器以得到所述待生成动画形象文本上下文语义特征向量的序列。
在一种可能的实现方式中,对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征,包括:将所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块以得到形象嵌入文本描述语义特征向量,作为所述形象嵌入文本描述语义特征。
这里,本领域技术人员可以理解,上述基于人工智能的动画形象生成方法中的各个步骤的具体操作已经在上面参考图1到图4的基于人工智能的动画形象生成系统的描述中得到了详细介绍,并因此,将省略其重复描述。
图7示出根据本申请的实施例的基于人工智能的动画形象生成系统的应用场景图。如图7所示,在该应用场景中,首先,获取由用户输入的待生成动画形象的文本描述(例如,图7中所示意的D1),以及,由所述用户选择的待生成动画形象的基础形象特征(例如,图7中所示意的D2),其中,所述基础形象特征包括性别、年龄和发型,然后,将所述待生成动画形象的文本描述和所述基础形象特征输入至部署有基于人工智能的动画形象生成算法的服务器(例如,图7中所示意的S)中,其中,所述服务器能够使用所述基于人工智能的动画形象生成算法对所述待生成动画形象的文本描述和所述基础形象特征进行处理以得到生成动画形象图像。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (6)
1.一种基于人工智能的动画形象生成系统,其特征在于,包括:
动画形象文本描述采集模块,用于获取由用户输入的待生成动画形象的文本描述;
动画形象基础形象特征采集模块,用于获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型;
基础形象特征编码模块,用于对所述基础形象特征进行编码以得到基础形象编码特征向量;
动画形象文本语义编码模块,用于对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列;
动画形象嵌入文本描述语义分析模块,用于对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征;
动画形象图像生成模块,用于基于所述形象嵌入文本描述语义特征,生成动画形象图像;
其中,所述动画形象嵌入文本描述语义分析模块,用于:将所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块以得到形象嵌入文本描述语义特征向量,作为所述形象嵌入文本描述语义特征;
其中,所述动画形象嵌入文本描述语义分析模块,包括:
特征提取单元,用于将所述基础形象编码特征向量通过基于全卷积网络模型的特征提取器以得到基础形象特征向量;
向量线性处理单元,用于将所述基础形象特征向量进行线性处理以得到线性处理后基础形象特征向量;
向量序列线性处理单元,用于将所述待生成动画形象文本上下文语义特征向量的序列进行线性处理以得到线性处理后待生成动画形象文本上下文语义特征向量的序列;
初融合单元,用于融合所述线性处理后基础形象特征向量和所述线性处理后待生成动画形象文本上下文语义特征向量的序列以得到线性初融合向量;
一维卷积处理单元,用于对所述待生成动画形象文本上下文语义特征向量的序列进行一维卷积处理以得到待生成动画形象文本上下文语义邻域关联特征向量的序列;
拼接融合单元,用于将所述待生成动画形象文本上下文语义邻域关联特征向量的序列和所述线性初融合向量进行基于拼接方式的融合以得到所述形象嵌入文本描述语义特征向量;
其中,所述动画形象图像生成模块,用于:将所述形象嵌入文本描述语义特征向量通过基于对抗生成网络的动画形象生成器以得到所述生成动画形象图像。
2.根据权利要求1所述的基于人工智能的动画形象生成系统,其特征在于,所述动画形象文本语义编码模块,用于:将所述待生成动画形象的文本描述通过动画形象上下文语义编码器以得到所述待生成动画形象文本上下文语义特征向量的序列。
3.根据权利要求2所述的基于人工智能的动画形象生成系统,其特征在于,所述动画形象图像生成模块,包括:
特征优化单元,用于对所述形象嵌入文本描述语义特征向量进行优化以得到优化形象嵌入文本描述语义特征向量;
动画形象生成单元,用于将所述优化形象嵌入文本描述语义特征向量通过所述基于对抗生成网络的动画形象生成器以得到所述生成动画形象图像。
4.根据权利要求3所述的基于人工智能的动画形象生成系统,其特征在于,所述特征优化单元,包括:
融合优化子单元,用于对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行融合优化以得到优化后待生成动画形象文本上下文语义特征向量的序列;
语义嵌入子单元,用于将所述基础形象编码特征向量和所述优化后待生成动画形象文本上下文语义特征向量的序列通过所述语义特征嵌入模块得到所述优化形象嵌入文本描述语义特征向量。
5.一种基于人工智能的动画形象生成方法,其特征在于,包括:
获取由用户输入的待生成动画形象的文本描述;
获取由所述用户选择的待生成动画形象的基础形象特征,其中,所述基础形象特征包括性别、年龄和发型;
对所述基础形象特征进行编码以得到基础形象编码特征向量;
对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列;
对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征;
基于所述形象嵌入文本描述语义特征,生成动画形象图像;
其中,对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征,包括:将所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列通过语义特征嵌入模块以得到形象嵌入文本描述语义特征向量,作为所述形象嵌入文本描述语义特征;
其中,对所述基础形象编码特征向量和所述待生成动画形象文本上下文语义特征向量的序列进行特征嵌入分析以得到形象嵌入文本描述语义特征,包括:
将所述基础形象编码特征向量通过基于全卷积网络模型的特征提取器以得到基础形象特征向量;
将所述基础形象特征向量进行线性处理以得到线性处理后基础形象特征向量;
将所述待生成动画形象文本上下文语义特征向量的序列进行线性处理以得到线性处理后待生成动画形象文本上下文语义特征向量的序列;
融合所述线性处理后基础形象特征向量和所述线性处理后待生成动画形象文本上下文语义特征向量的序列以得到线性初融合向量;
对所述待生成动画形象文本上下文语义特征向量的序列进行一维卷积处理以得到待生成动画形象文本上下文语义邻域关联特征向量的序列;
将所述待生成动画形象文本上下文语义邻域关联特征向量的序列和所述线性初融合向量进行基于拼接方式的融合以得到所述形象嵌入文本描述语义特征向量;
其中,基于所述形象嵌入文本描述语义特征,生成动画形象图像,包括:将所述形象嵌入文本描述语义特征向量通过基于对抗生成网络的动画形象生成器以得到所述生成动画形象图像。
6.根据权利要求5所述的基于人工智能的动画形象生成方法,其特征在于,对所述待生成动画形象的文本描述进行动画形象上下文语义特征分析以得到待生成动画形象文本上下文语义特征向量的序列,包括:将所述待生成动画形象的文本描述通过动画形象上下文语义编码器以得到所述待生成动画形象文本上下文语义特征向量的序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553906.1A CN117274450B (zh) | 2023-11-21 | 2023-11-21 | 基于人工智能的动画形象生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553906.1A CN117274450B (zh) | 2023-11-21 | 2023-11-21 | 基于人工智能的动画形象生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274450A CN117274450A (zh) | 2023-12-22 |
CN117274450B true CN117274450B (zh) | 2024-01-26 |
Family
ID=89204889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311553906.1A Active CN117274450B (zh) | 2023-11-21 | 2023-11-21 | 基于人工智能的动画形象生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274450B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556220B (zh) * | 2024-01-09 | 2024-03-22 | 吉林大学 | 用于康复护理的智能辅助系统及方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065576A (zh) * | 2021-02-26 | 2021-07-02 | 华为技术有限公司 | 一种特征提取的方法以及装置 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN113407766A (zh) * | 2020-11-09 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 视觉动画显示方法及相关设备 |
CN115222566A (zh) * | 2022-08-02 | 2022-10-21 | 吴若涵 | 国际金融与金融计量学教学用学习方法及其系统 |
US11532179B1 (en) * | 2022-06-03 | 2022-12-20 | Prof Jim Inc. | Systems for and methods of creating a library of facial expressions |
CN115908657A (zh) * | 2022-11-16 | 2023-04-04 | 科大讯飞股份有限公司 | 虚拟形象的生成方法、装置、设备及存储介质 |
CN116363245A (zh) * | 2023-03-24 | 2023-06-30 | 广州方硅信息技术有限公司 | 虚拟人脸生成方法、虚拟人脸直播方法以及装置 |
CN116468826A (zh) * | 2023-06-16 | 2023-07-21 | 北京百度网讯科技有限公司 | 表情生成模型的训练方法、表情生成的方法及装置 |
CN116485962A (zh) * | 2023-05-06 | 2023-07-25 | 北京信息科技大学 | 一种基于对比学习的动画生成方法及系统 |
CN116681810A (zh) * | 2023-08-03 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 虚拟对象动作生成方法、装置、计算机设备和存储介质 |
CN116863038A (zh) * | 2023-07-07 | 2023-10-10 | 东博未来人工智能研究院(厦门)有限公司 | 一种文本生成数字人语音及面部动画的方法 |
CN116932723A (zh) * | 2023-07-28 | 2023-10-24 | 世优(北京)科技有限公司 | 基于自然语言处理的人机交互系统及其方法 |
CN116993876A (zh) * | 2023-09-28 | 2023-11-03 | 世优(北京)科技有限公司 | 生成数字人形象的方法、装置、电子设备及存储介质 |
CN117078816A (zh) * | 2023-08-22 | 2023-11-17 | 阿维塔科技(重庆)有限公司 | 一种虚拟形象的生成方法、装置、终端设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11574142B2 (en) * | 2020-07-30 | 2023-02-07 | Adobe Inc. | Semantic image manipulation using visual-semantic joint embeddings |
-
2023
- 2023-11-21 CN CN202311553906.1A patent/CN117274450B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407766A (zh) * | 2020-11-09 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 视觉动画显示方法及相关设备 |
CN113065576A (zh) * | 2021-02-26 | 2021-07-02 | 华为技术有限公司 | 一种特征提取的方法以及装置 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
US11532179B1 (en) * | 2022-06-03 | 2022-12-20 | Prof Jim Inc. | Systems for and methods of creating a library of facial expressions |
CN115222566A (zh) * | 2022-08-02 | 2022-10-21 | 吴若涵 | 国际金融与金融计量学教学用学习方法及其系统 |
CN115908657A (zh) * | 2022-11-16 | 2023-04-04 | 科大讯飞股份有限公司 | 虚拟形象的生成方法、装置、设备及存储介质 |
CN116363245A (zh) * | 2023-03-24 | 2023-06-30 | 广州方硅信息技术有限公司 | 虚拟人脸生成方法、虚拟人脸直播方法以及装置 |
CN116485962A (zh) * | 2023-05-06 | 2023-07-25 | 北京信息科技大学 | 一种基于对比学习的动画生成方法及系统 |
CN116468826A (zh) * | 2023-06-16 | 2023-07-21 | 北京百度网讯科技有限公司 | 表情生成模型的训练方法、表情生成的方法及装置 |
CN116863038A (zh) * | 2023-07-07 | 2023-10-10 | 东博未来人工智能研究院(厦门)有限公司 | 一种文本生成数字人语音及面部动画的方法 |
CN116932723A (zh) * | 2023-07-28 | 2023-10-24 | 世优(北京)科技有限公司 | 基于自然语言处理的人机交互系统及其方法 |
CN116681810A (zh) * | 2023-08-03 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 虚拟对象动作生成方法、装置、计算机设备和存储介质 |
CN117078816A (zh) * | 2023-08-22 | 2023-11-17 | 阿维塔科技(重庆)有限公司 | 一种虚拟形象的生成方法、装置、终端设备和存储介质 |
CN116993876A (zh) * | 2023-09-28 | 2023-11-03 | 世优(北京)科技有限公司 | 生成数字人形象的方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于生成对抗网络的文本引导人物图像编辑方法;黄韬;贾西平;林智勇;马震远;;广东技术师范大学学报(03);全文 * |
面向交互式快速动画制作的素材标注与检索系统;谢毓湘;栾悉道;魏迎梅;张芯;吴玲达;邓莉琼;;小型微型计算机系统(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117274450A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong et al. | Learning to generate time-lapse videos using multi-stage dynamic generative adversarial networks | |
CN117274450B (zh) | 基于人工智能的动画形象生成系统及方法 | |
CN111508048B (zh) | 一种可交互任意形变风格人脸漫画自动生成方法 | |
Lu et al. | Attention-based dense point cloud reconstruction from a single image | |
CN113051420B (zh) | 一种基于文本生成视频机器人视觉人机交互方法及系统 | |
Guo et al. | Sparsectrl: Adding sparse controls to text-to-video diffusion models | |
CN116392812A (zh) | 动作生成方法及虚拟人物动画生成方法 | |
CN114581992A (zh) | 一种基于预训练StyleGAN的人脸表情合成方法及系统 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
Shen et al. | Clipgen: A deep generative model for clipart vectorization and synthesis | |
CN118153129B (zh) | 基于微调大模型的工件三维模型生成方法、设备及介质 | |
CN117496072A (zh) | 一种三维数字人生成和交互方法及系统 | |
Jo et al. | Generative artificial intelligence and building design: early photorealistic render visualization of façades using local identity-trained models | |
CN117252791A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN118212687A (zh) | 人体姿势图像生成方法、装置、设备及介质 | |
CN117689996A (zh) | 模型的生成方法、装置、电子设备以及存储介质 | |
Chae et al. | Semantic image synthesis with unconditional generator | |
CN116485962A (zh) | 一种基于对比学习的动画生成方法及系统 | |
CN117808934A (zh) | 一种数据处理方法及相关设备 | |
Li et al. | A Comprehensive Survey of Image Generation Models Based on Deep Learning | |
WO2022173814A1 (en) | System and method for photorealistic image synthesis using unsupervised semantic feature disentanglement | |
Lee et al. | Light-weighted Network based Human Pose Estimation for Mobile AR Service | |
Huynh et al. | Light-weight Sketch Recognition with Knowledge Distillation | |
Li et al. | A Survey of Multimodal Composite Editing and Retrieval | |
CN118172449B (zh) | 一种视频生成方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |