CN116796196A - 基于多模态联合嵌入的共语姿势生成方法 - Google Patents

基于多模态联合嵌入的共语姿势生成方法 Download PDF

Info

Publication number
CN116796196A
CN116796196A CN202311046499.5A CN202311046499A CN116796196A CN 116796196 A CN116796196 A CN 116796196A CN 202311046499 A CN202311046499 A CN 202311046499A CN 116796196 A CN116796196 A CN 116796196A
Authority
CN
China
Prior art keywords
gesture
style
loss
encoder
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311046499.5A
Other languages
English (en)
Other versions
CN116796196B (zh
Inventor
杜小勤
文吾琦
周佳爽
刘咏琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202311046499.5A priority Critical patent/CN116796196B/zh
Publication of CN116796196A publication Critical patent/CN116796196A/zh
Application granted granted Critical
Publication of CN116796196B publication Critical patent/CN116796196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于多模态联合嵌入的共语姿势生成方法,通过层次化的姿势编码器从姿态数据中提取两个代表不同含义的层次化特征嵌入,将其与音频与文本编码器从语音的原始音频和相应的转录文本提取的特征进行多模态联合嵌入,并使用嵌入对齐四元组损失对联合嵌入空间进行解耦,同时使用WGANs方法改进了原有的生成对抗网络方法,使网络的训练更加稳定。本发明通过充分利用姿势数据,并且使用嵌入对齐方法,从而使得能够只使用的音频和对应文本的情况下能够生成生动且真实的共语姿势。

Description

基于多模态联合嵌入的共语姿势生成方法
技术领域
本发明涉及多模态嵌入编码和人体骨架动画生成的技术领域,并且更具体地,属于一种多模态人体骨架共语姿势的生成方法。
背景技术
共语姿势是人类在日常的对话时,所做出的与语言节奏相协调的身体姿势。它们提供了与对话信息相辅相成的视觉线索,有助于说话者的表达和听者的理解。为此,研究人员已经在共语姿势合成的任务上进行了一定的探索,研究旨在根据语音音频和文本转录作为输入生成一系列人类姿势。
最近的研究利用深度学习来解决这个问题,这些方法使用共语姿势(可作为视频或运动捕捉的数据集)作为训练目标,使用原始的语音波形和相应的文本记录,以及个别说话人的风格作为模型的输入来训练深度神经网络。
虽然这些方法可以生成不同的节奏、标志性和隐喻性的共语姿势,并适应说话人的特定风格,但是这些方法依旧存在一些尚未解决的问题。首先,姿势相对于文本和音频而言是一种非常不同的模态,它同时包括了空间和时间两种属性,这导致模型难以学习其与文本和音频之间的映射关系。第二,文本和音频的不同含义并没有被充分挖掘,文本数据中容易发掘标志性和隐喻性相关的特征;节奏、音量等特征则只能从音频数据中发掘。第三,姿势数据并没有被充分的利用,仅仅是简单的将姿势数据作为任务的训练目标不足以让模型学习到其中丰富的多模态信息。
由此可见,如何充分利用相互关联的多模态数据,并建立一个跨模态的联合空间使模型能够从这个嵌入空间解码动画,是急需解决的关键问题。
发明内容
本发明涉及一种基于多模态联合嵌入的共语姿势生成方法,该方法能够根据输入的文本和音频信息,生成与之匹配的共语姿势。
本发明的技术方案如下:基于多模态联合嵌入的共语姿势生成方法,包括如下步骤:
步骤S1,准备数据集,包括音频数据、文本数据/>、姿势数据/>和风格id,并将前几帧的姿势数据作为种子姿势/>
步骤S2,利用编码器对数据集中对应的数据进行特征编码,编码器包括音频编码器,层次化姿势编码器,文本编码器和风格编码器,最终获得音频特征,浅层的姿态特征和深层的姿态特征/>,文本特征/>,以及风格特征/>
步骤S3,对步骤S2得到的特征进行拼接,训练阶段,将所述种子姿势、浅层的姿态特征/>、深层的姿态特征/>和风格特征/>拼接为,将所述种子姿势/>、音频特征/>、文本特征/>和风格特征/>拼接为/>,推断阶段,则只对种子姿势/>、音频特征/>、文本特征/>和风格特征/>进行特征拼接;
步骤S4,构建姿势解码器,即生成器,在训练阶段,通过使用Fat和Fp两个特征作为姿势解码器的两个输入,生成两个姿势,其中G ()表示生成器;使用生成的姿势进行对抗学习,并进行损失函数计算;在推断阶段,不使用姿势数据和层次化姿势编码器,仅准备音频数据和对应的文本数据,然后输入希望的风格id、使用默认的初始静态姿势,重复步骤S2-步骤S4即可进行姿势生成。
进一步的,步骤S1中,音频数据、文本数据/>、姿势数据/>和风格id的时间步长相同;
文本数据是一个单词序列,通过插入填充记号使得单词与姿势数据的时间步长相匹配,间隔时间从音频数据中获取;
将说话人的id作为风格id,风格id表示为one-hot编码的向量。
进一步的,音频编码器为级联的一维卷积层,用于将原始音频数据编码为音频特征
进一步的,层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理,然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征/>,将浅层的姿态特征/>通过另一个四层一维卷积神经网络提取为深层的姿态特征
进一步的,文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量,然后,这些词向量被一个四层的时序卷积网络TCN编码为文本特征
进一步的,风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间,并使用变分推理技术中的概率抽样的方法,得到风格特征,具体方法步骤为:首先使用全连接层将风格id映射为表示风格分布的参数,然后从这些参数中采样,最终得到风格特征/>
进一步的,文本编码器中使用FastText提供的预训练的词嵌入。
进一步的,所述姿势解码采用一个四层双向GRU,对抗学习中使用四个级联的一维卷积层和两个全连接层作为判别器,判别器使用生成姿势和真实姿势进行对抗性学习,其中生成姿势只使用由音频和文本生成的姿势,真实姿势与层次化姿势编码器的输入姿势相同,生成器同时使用/>和/>计算损失函数。
进一步的,训练阶段,姿势解码器使用多个损失函数进行约束,最终损失函数如下:
重构损失:计算生成的样本和/>与真实姿势/>之间的重构损失,具体公式为:
其中重构损失中的G表示该损失是生成器的损失,huber为损失项的名称,/>表示计算期望,N表示姿势的长度,下标i表示取每个姿势帧,HL()表示计算Huber损失,Huber损失是一种经典的损失函数,为L1损失和L2损失的一次可微的组合;
对抗损失的具体公式如下:
其中表示生成器的对抗损失,/>是判别器的损失,用于判别器的对抗性学习,λ是一个用于控制梯度惩罚的超参数,D()表示判别器,/>表示真假样本的随机插值,表示计算梯度的L2范数;
风格发散损失:为了避免风格特征fstyle的后验崩溃,引导生成器合成具有不同风格输入的不同姿势,损失计算为:
其中G ()表示生成器,其中fstyle(1)表示文本和语音对应的说话人的风格编码,fstyle(2),fstyle(3)表示随机得到的两个不同说话人的风格,是数值裁剪参数;
嵌入重构损失:对生成姿势使用层次化姿势编码器/>重新得到层次化的姿势特性:/>,并将其与从输入解码器的嵌入进行比较,具体公式为:
其中表示光滑L1损失;
KLD损失:用于风格编码中变分推理的学习,具体公式为:
其中表示表示风格编码器输出的均值和方差;
嵌入对齐四元组损失:使用嵌入对齐四元组损失来促进多模态之间的学习,具体公式为:
其中,d()表示计算两项输入之间的欧几里得距离,是用于控制输入特征之间最小间隔的超参数,/>是一个距离缩放的超参数,其中/>用于调整各项损失的权重。
与现有技术相比,本发明的有点和有益效果如下:本发明公开的基于多模态联合嵌入的共语手势生成方法,在建模上融合文本、语音、风格和姿势生成方法,具体来说还引入了层次化姿势解码器以及联合空间对齐的思想,解决了现有技术中信息利用不充分导致的生成能力不足等问题。实现步骤包括:数据处理;特征提取;特征拼接;姿势生成;损失计算。本发明采用层次化结构以及约束不同模态特征在嵌入空间中的距离,使提取的特征更适合做姿势生成,在实际任务中证明了其指标性能更好,可实际应用于共语手势生成任务。本发明有效地缓解了GANs在训练过程中出现的模式崩溃的问题,提高了生成姿势的真实性。
附图说明
图1是本发明的系统框架图;
图2是本发明的流程图;
图3是本发明实施例中通过音频和文本生成共语姿势的结果实例图。
具体实施方式
下面结合附图和具体实施例,对本发明进行进一步说明。
如图1和2所示,本发明提供的一种基于多模态联合嵌入的姿势生成方法的流程,包括如下步骤:
数据集准备步骤S1:需要准备的数据包括音频数据、文本数据/>、姿势数据/>和风格id。首先确保所有输入数据与输出姿势具有相同的时间分辨率,因此所有模态必须共享相同的时间步长,即所有数据必须在时间上是同步的,以下将分别进行说明。
音频数据和姿势数据/>在时间上是天然同步的,只需调整音频编码器的卷积层的大小、步幅和填充,以获得和姿势数据相同长度的特征即可。
文本数据是一个单词序列,单词的数量随着语速的变化而变化。本发明通过插入填充记号使得单词与姿势的时间步长相匹配,准确间隔时间从音频数据中获取。具体而言,将填充记号(/>)插入到单词序列中以生成与姿势的长度相同的单词序列(word1,word2,…,wordt)。这里,t是合成中的姿势数量,即34。例如,当t为5时,对于语音文本“”,如果音频中的对应片段的语速均匀,填充后的单词序列将是“”;而如果在音频中“I”和“love”之间有一个额外的短暂停顿,填充后的单词序列将是“/>”。
手势的风格在每一个手势片段内不会改变,因此对于每个手势的合成过程中,本发明实施例使用相同的风格id来学习风格的嵌入空间,本发明将不同的说话人视为不同的风格,将说话人的id作为风格id。风格id表示为one-hot编码的向量,其中只有一个元素是非零的。例如,当说话人的总数为100,第24位说话人的风格id将会表示为一个长度为100的一维张量,其中第24个数字为1,其他数字均为0,以此类推。
此外,本发明实施例对前几个帧使用种子姿势,以便在连续合成之间保持连续性,具体参数将在后续进行详细说明。
特征编码步骤S2:本发明包括音频编码器,文本编码器,风格编码器和层次化姿势编码器以下将分别进行说明。
对于音频编码器,原始音频波形通过级联的一维卷积层来生成一系列 32维的特征向量。音频频率通常是固定的,因此本发明实施例调整了卷积层中的大小、步幅和填充,以获得与输出运动帧一样多的音频特征向量。
文本编码器首先通过预训练的词嵌入层将文本数据中的所有词转换为300维的词向量,本实例使用FastText提供的预训练的词嵌入,并在训练期间更新这些嵌入。然后,这些词向量被一个四层的时序卷积网络(TCN)编码为文本特征/>
风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间,在本实例中样式空间的维度大小为16。并使用变分推理技术中的概率抽样的方法,得到风格特征。具体方法步骤为:首先使用全连接层将风格id映射为表示风格分布的均值和方差,然后从这些参数中采样,最终得到风格特征/>
层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理,然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征/>,将浅层的姿态特征/>通过另一个四层一维卷积神经网络提取为深层的姿态特征/>。此处和/>的各个维度大小需要与/>和/>完全相同。
特征拼接步骤S3:在训练阶段,生成器将通过34帧32维的语音特征或/>、34帧32维语义特征/>或/>和34帧16维风格特征/>和4帧27维的种子姿势/>,生成34帧的姿势。其中,语音、语义和风格特征的通道维度的大小是人为指定的,而种子姿势的27维,则表示原始姿势数据中的9个关节xyz三个坐标,如果原始姿势数据的骨架维度不为27,此处的维度大小也要相应的修改。
具体而言,将所述种子姿势、浅层的姿态特征/>、深层的姿态特征/>和风格特征/>拼接为/>,将所述种子姿势/>、音频特征/>、文本特征/>和风格特征/>拼接为/>。在推断阶段,则只需要拼接/>该部分的特征。
对抗训练步骤S4:本实例通过将不同模态的特征进行拼接,并使用一个四层双向GRU作为生成器生成姿势,所述生成器即为姿势解码器。这需要不同模态的特征需要有相同的时间分辨率,本实例设置的时间分辨率和基线相同,为34帧。
在训练阶段,通过使用和/>两个特征作为解码器两个输入,生成两个姿态和/>,并使用生成的姿势进行损失计算,其中G ()表示生成器。
对于对抗性学习,本实例使用四个级联的一维卷积层和两个全连接层作为判别器,判别器使用生成姿势和真实姿势进行对抗性学习,其中生成姿势只使用由音频和文本生成的姿势,而生成器则同时使用/>和/>计算损失。
这意味着在训练期间,本实例将使用所有数据进行充分的学习,而在推断期间,对于模块,本实例不需要姿势数据和层次化姿势编码器和判别器,只使用需使用编码器和姿势解码器即可;对于数据,仅需准备音频数据和对应的文本数据,然后输入希望的风格的id、使用默认的静态姿势即可进行姿势生成。
进一步的,本实例使用多个损失对模型进行约束,生成器的最终损失如下:
重构损失:计算生成的姿势和/>与真实姿势/>之间的重构损失,具体公式为:
其中中的G表示该损失是生成器的损失,huber为损失项的名称,/>表示计算期望,N表示姿势的长度,下标i表示姿势帧索引,HL()表示计算Huber损失,Huber损失是一种经典的损失函数,它可以解释为L1损失和L2损失的一次可微的组合。
对抗损失:本实例只使用一个生成姿势输出来训练判别器,具体公式如下:
其中表示生成器的对抗损失,/>是判别器的损失,用于判别器的对抗性学习,λ是一个用于控制梯度惩罚的超参数,D()表示判别器,/>表示真假样本的随机插值,表示计算梯度的L2范数。
风格发散损失:为了避免风格特征fstyle的后验崩溃,引导生成器合成具有不同风格输入的不同姿势,损失计算为:
其中G ()表示生成器,其中fstyle(1)表示文本和语音对应的说话人的风格编码,fstyle(2),fstyle(3)表示随机得到的两个不同说话人的风格,是数值裁剪参数。
嵌入重构损失:本发明实施例对生成姿势使用层次化姿势编码器/>重新得到层次化的姿势特性:/>,并将其与从输入解码器的嵌入进行比较。具体公式为:
其中表示光滑L1损失。
KLD损失:用于风格编码中变分推理的学习,具体公式为:
其中表示表示风格编码器输出的均值和方差。
嵌入对齐四元组损失:本发明实施例使用嵌入对齐四元组损失来促进多模态之间的学习,具体公式为:
其中,d()表示计算两项输入之间的欧几里得距离,具体公式为;/>是一个超参数,用于控制输入特征之间的最小间隔,以便模型更好地区分它们;/>是一个用于控制不同模态之间最小间隔距离缩放的超参数;/>则用于调整各项损失的权重。
最终,本实例可以通过音频和文本生成共语姿势,具体效果如图3所示,其中,第一行表示输入的文本,输入音频并未在图中表示,左下部分表示来源于视频的原始姿势数据,右下表示生成的姿势。
以上所述仅为本发明的具体实施例,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于多模态联合嵌入的共语姿势生成方法,其特征在于,包括如下步骤:
步骤S1,准备数据集,包括音频数据、文本数据/>、姿势数据/>和风格id,并将前几帧的姿势数据作为种子姿势/>
步骤S2,利用编码器对数据集中对应的数据进行特征编码,编码器包括音频编码器,层次化姿势编码器,文本编码器和风格编码器,最终获得音频特征,浅层的姿态特征/>和深层的姿态特征/>,文本特征/>,以及风格特征/>
步骤S3,对步骤S2得到的特征进行拼接,训练阶段,将所述种子姿势、浅层的姿态特征/>、深层的姿态特征/>和风格特征/>拼接为/>,将所述种子姿势/>、音频特征/>、文本特征/>和风格特征/>拼接为,推断阶段,则只对种子姿势/>、音频特征/>、文本特征/>和风格特征/>进行特征拼接;
步骤S4,构建姿势解码器,即生成器,在训练阶段,通过使用Fat和Fp两个特征作为姿势解码器的两个输入,生成两个姿势和/>,其中G ()表示生成器;使用生成的姿势进行对抗学习,并进行损失函数计算;在推断阶段,不使用姿势数据和层次化姿势编码器,仅准备音频数据和对应的文本数据,然后输入希望的风格id、使用默认的初始静态姿势,重复步骤S2-步骤S4即可进行姿势生成。
2.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:步骤S1中,音频数据、文本数据/>、姿势数据/>和风格id的时间步长相同;
文本数据是一个单词序列,通过插入填充记号使得单词与姿势数据的时间步长相匹配,间隔时间从音频数据中获取;
将说话人的id作为风格id,风格id表示为one-hot编码的向量。
3.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:音频编码器为级联的一维卷积层,用于将原始音频数据编码为音频特征
4.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理,然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征/>,将浅层的姿态特征通过另一个四层一维卷积神经网络提取为深层的姿态特征/>
5.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量,然后,这些词向量被一个四层的时序卷积网络TCN编码为文本特征
6.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间,并使用变分推理技术中的概率抽样的方法,得到风格特征,具体方法步骤为:首先使用全连接层将风格id映射为表示风格分布的参数,然后从这些参数中采样,最终得到风格特征/>
7.如权利要求5所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:文本编码器中使用FastText提供的预训练的词嵌入。
8.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:所述姿势解码采用一个四层双向GRU,对抗学习中使用四个级联的一维卷积层和两个全连接层作为判别器,判别器使用生成姿势和真实姿势进行对抗性学习,其中生成姿势只使用由音频和文本生成的姿势,真实姿势与层次化姿势编码器的输入姿势相同,生成器同时使用/>和/>计算损失函数。
9.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:训练阶段,姿势解码器使用多个损失函数进行约束,最终损失函数如下:
重构损失:计算生成的样本和/>与真实姿势/>之间的重构损失,具体公式为:
其中重构损失中的G表示该损失是生成器的损失,huber为损失项的名称,/>表示计算期望,N表示姿势的长度,下标i表示取每个姿势帧,HL()表示计算Huber损失,Huber损失是一种经典的损失函数,为L1损失和L2损失的一次可微的组合;
对抗损失的具体公式如下:
其中表示生成器的对抗损失,/>是判别器的损失,用于判别器的对抗性学习,λ是一个用于控制梯度惩罚的超参数,D()表示判别器,/>表示真假样本的随机插值,表示计算梯度的L2范数;
风格发散损失:为了避免风格特征fstyle的后验崩溃,引导生成器合成具有不同风格输入的不同姿势,损失计算为:
其中G ()表示生成器,其中fstyle(1)表示文本和语音对应的说话人的风格编码,fstyle(2),fstyle(3)表示随机得到的两个不同说话人的风格,是数值裁剪参数;
嵌入重构损失:对生成姿势使用层次化姿势编码器/>重新得到层次化的姿势特性:,并将其与从输入解码器的嵌入进行比较,具体公式为:
其中表示光滑L1损失;
KLD损失:用于风格编码中变分推理的学习,具体公式为:
其中表示表示风格编码器输出的均值和方差;
嵌入对齐四元组损失:使用嵌入对齐四元组损失来促进多模态之间的学习,具体公式为:
其中,d()表示计算两项输入之间的欧几里得距离,是用于控制输入特征之间最小间隔的超参数,/>是一个距离缩放的超参数,其中/>用于调整各项损失的权重。
CN202311046499.5A 2023-08-18 2023-08-18 基于多模态联合嵌入的共语姿势生成方法 Active CN116796196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311046499.5A CN116796196B (zh) 2023-08-18 2023-08-18 基于多模态联合嵌入的共语姿势生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311046499.5A CN116796196B (zh) 2023-08-18 2023-08-18 基于多模态联合嵌入的共语姿势生成方法

Publications (2)

Publication Number Publication Date
CN116796196A true CN116796196A (zh) 2023-09-22
CN116796196B CN116796196B (zh) 2023-11-21

Family

ID=88039936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311046499.5A Active CN116796196B (zh) 2023-08-18 2023-08-18 基于多模态联合嵌入的共语姿势生成方法

Country Status (1)

Country Link
CN (1) CN116796196B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190348026A1 (en) * 2018-05-08 2019-11-14 Ctrl-Labs Corporation Systems and methods for improved speech recognition using neuromuscular information
WO2020205296A1 (en) * 2019-03-21 2020-10-08 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
CN112329593A (zh) * 2020-11-03 2021-02-05 北京中科深智科技有限公司 一种基于风格化的手势生成方法及生成系统
WO2021096192A1 (en) * 2019-11-12 2021-05-20 Samsung Electronics Co., Ltd. Neural facial expressions and head poses reenactment with latent pose descriptors
WO2021234151A1 (en) * 2020-05-22 2021-11-25 Motorica Ab Speech-driven gesture synthesis
CN114998984A (zh) * 2022-04-27 2022-09-02 西南科技大学 一种基于多特征融合策略的音乐生成舞蹈姿势方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190348026A1 (en) * 2018-05-08 2019-11-14 Ctrl-Labs Corporation Systems and methods for improved speech recognition using neuromuscular information
WO2020205296A1 (en) * 2019-03-21 2020-10-08 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
WO2021096192A1 (en) * 2019-11-12 2021-05-20 Samsung Electronics Co., Ltd. Neural facial expressions and head poses reenactment with latent pose descriptors
WO2021234151A1 (en) * 2020-05-22 2021-11-25 Motorica Ab Speech-driven gesture synthesis
CN112329593A (zh) * 2020-11-03 2021-02-05 北京中科深智科技有限公司 一种基于风格化的手势生成方法及生成系统
CN114998984A (zh) * 2022-04-27 2022-09-02 西南科技大学 一种基于多特征融合策略的音乐生成舞蹈姿势方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAN LIU: ""Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation"", 《ARXIV》, pages 1 - 11 *
YOON Y: ""Speech gesture generation from the trimodal context of text, audio, and speaker identity"", 《ARXIV》, pages 1 - 16 *

Also Published As

Publication number Publication date
CN116796196B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN111754976B (zh) 一种韵律控制语音合成方法、系统及电子装置
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112489635A (zh) 一种基于增强注意力机制的多模态情感识别方法
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN108231062A (zh) 一种语音翻译方法及装置
CN116863038A (zh) 一种文本生成数字人语音及面部动画的方法
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN111967334B (zh) 一种人体意图识别方法、系统以及存储介质
Liz-Lopez et al. Generation and detection of manipulated multimodal audiovisual content: Advances, trends and open challenges
CN117219050A (zh) 一种基于深度生成对抗网络的文本生成视频系统
CN116796196B (zh) 基于多模态联合嵌入的共语姿势生成方法
CN115311731B (zh) 一种手语数字人的表情生成方法和装置
CN113990295A (zh) 一种视频生成方法和装置
Zainkó et al. Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging
Zhang et al. Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model
CN113808570B (zh) 基于激活指导和内卷积的跨语种语音转换方法
Yang et al. Integrated visual transformer and flash attention for lip-to-speech generation GAN
KR102426020B1 (ko) 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant