CN113674184A - 虚拟说话人肢体手势生成方法、装置、设备及存储介质 - Google Patents
虚拟说话人肢体手势生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113674184A CN113674184A CN202110814936.8A CN202110814936A CN113674184A CN 113674184 A CN113674184 A CN 113674184A CN 202110814936 A CN202110814936 A CN 202110814936A CN 113674184 A CN113674184 A CN 113674184A
- Authority
- CN
- China
- Prior art keywords
- gesture
- features
- audio
- text
- speaking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 238000007499 fusion processing Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000002864 sequence alignment Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 210000003414 extremity Anatomy 0.000 description 82
- 239000013598 vector Substances 0.000 description 40
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000000323 shoulder joint Anatomy 0.000 description 1
- 210000003857 wrist joint Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例涉及数据处理技术领域,具体涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质,旨在增加虚拟说话人肢体手势合成结果的自然度,提升虚拟形象的信息传达效果。所述方法包括:将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质。
背景技术
虚拟说话人合成技术是人工智能领域研究的热点方向,主要是通过音频驱动虚拟的说话人进行动作,有着广泛的应用前景。说话人的肢体手势的合成在虚拟说话人合成技术中是一个较为重要的任务,如何为说话人合成具有表现力、和说话内容相匹配、具有情感的肢体手势,以提升虚拟说话人的表达效果,是一个研究的重点。现有技术中,通常把说话音频和说话文本输入一个循环神经网络(RNN)或者卷积神经网络(CNN)中,输出一段虚拟人物的关节关键点序列,这个关键节点序列可以用来驱动虚拟人物做出相应的手势。
现有技术中,使用循环神经网络(RNN)或者卷积神经网络(CNN)作为算法模型的基本结构,然而受到自身结构特性的限制,这两种神经网络主要对说话人肢体手势的短时模式进行建模,无法对肢体手势序列中广泛存在的长时依赖关系以及更加复杂的时序模式进行建模,导致生成的肢体手势自然度受限,表现力不足,和真人的手势差别较大,虚拟说话人的自然度较低。
发明内容
本申请实施例提供一种虚拟说话人肢体手势生成方法、装置、设备及存储介质,旨在增加虚拟说话人肢体手势合成结果的自然度,提升虚拟形象的信息传达效果。
本申请实施例第一方面提供一种虚拟说话人肢体手势生成方法,所述方法包括:
将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
可选地,所述自注意力肢体手势生成网络的训练步骤包括:
收集说话人视频;
对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;
将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
可选地,通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括:
对所述说话音频进行计算,得到该段音频的梅尔频谱;
将所述梅尔频谱输入音频编码器中,得到所述音频特征。
可选地,通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括:
使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;
将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;
将所述对齐后的语义特征输入语义编码器,得到所述文本特征。
可选地,通过所述自注意力肢体手势生成网络对所述初始化手势序列进行特征提取的步骤包括:
将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
可选地,通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列,包括:
将所述音频特征和所述文本特征进行加和,得到加和后的特征;
将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
本申请实施例第二方面提供一种虚拟说话人肢体手势生成装置,所述装置包括:
数据输入模块,用于将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
特征提取模块,用于通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
手势合成模块,用于通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
可选地,所述装置还包括:
视频收集模块,用于收集说话人视频;
视频处理模块,用于对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;
模型训练模块,用于将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
可选地,所述特征提取模块包括:
音频计算子模块,用于对所述说话音频进行计算,得到该段音频的梅尔频谱;
音频特征提取子模块们勇于将所述梅尔频谱输入音频编码器中,得到所述音频特征。
可选地,所述特征提取模块还包括:
语义特征提取子模块,用于使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;
语义特征对其子模块,用于将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;
文本特征提取子模块,用于将所述对齐后的语义特征输入语义编码器,得到所述文本特征。
可选地,所述特征提取模块还包括:
初始化手势序列特征提取子模块,用于将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
可选地,所述手势合成模块包括:
特征加和子模块,用于将所述音频特征和所述文本特征进行加和,得到加和后的特征;
手势合成子模块,用于将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的虚拟说话人肢体手势生成方法,将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。本申请中将说话音频、说话文本以及初始化手势特征输入自注意力肢体手势生成网络进行处理,使用了深度自注意力网络处理多模态输入,深度自注意力网络有效的建模了输入内容的长时依赖关系和复杂的时序模式,生成了具有高表现力和语义相关度的虚拟说话人肢体手势。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的虚拟说话人肢体手势生成方法的流程图;
图2是本申请一实施例提出的自注意力肢体手势生成网络基本模块示意图;
图3是本申请一实施例提出的虚拟说话人肢体手势生成方法的流程概览图;
图4是本申请一实施例提出的虚拟说话人肢体手势生成装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的虚拟说话人肢体手势生成方法的流程图。如图1所示,该方法包括以下步骤:
S11:将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中。
本实施例中,说话音频是一段包含了单个说话人的任意音频,说话文本是说话音频中说话的内容,初始化手势序列是虚拟说话人肢体上关键点的初始坐标,自注意力肢体手势生成网络是采用了自注意力机制的深度神经网络,用于根据说话音频、说话文本以及初始化手势序列生成手势序列。
示例地,说话音频可以是一个人物发表讲话的视频,说话文本就是说话音频中的人物讲话的文字内容,初始化手势序列是预先设定好的初始的虚拟说话人肢体上关键点的初始序列,例如可以设置为抱拳,鼓掌等初始肢体动作,最好可以呈现说话音频中讲话内容表达的感情。
本实施例中,自注意力机制在建模肢体手势序列中广泛存在的长时依赖关系以复杂的时序关系中有很好的表现,采用自注意力机制的深度神经网络可以对多模态的数据进行处理,合成具有高表现力和语义相关性的说话人肢体手势。
S12:通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征。
本实施例中,通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括:
S12-1-1:对所述说话音频进行计算,得到该段音频的梅尔频谱。
本实施例中,将说话音频输入自注意力肢体手势生成网络中后,该网络会自动计算说话音频的梅尔频谱,得到该段音频的梅尔频谱。
S12-1-2:将所述梅尔频谱输入音频编码器中,得到所述音频特征。
本实施例中,将梅尔频谱输入音频编码器,音频编码器对梅尔频谱进行编码,得到音频特征。
通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括:
S12-2-1:使用预训练好的语言模型对所述说话文本进行处理,得到语义特征。
本实施例中,在自注意力肢体手势生成网络中设置了预训练好的语言模型,预训练好的语言模型会对所述说话文本进行语义识别,得到初始的语义特征序列,即语义特征。
示例地,语言模型可以使用常用的语言识别模型,在此不做限制,预训练的语言模型是集成在自注意力肢体手势生成网络中的,不需要预先对文本进行处理,提取语义特征,直接将文本输入网络中即可进行处理。
S12-2-2:将所述初始文本特征与所述音频特征进行时序对齐,得到对齐后的语义特征。
本实施例中,语义特征需要与音频特征进行时序对齐,就是将音频中的说话内容与文本中的文字一一对应起来,按时序进行排列,得到对齐后的语义特征。
S12-2-3:将所述对齐后的语义特征输入语义编码器,得到所述语义特征。
本实施例中,将对齐后的语义特征输入语义编码器,通过语义编码器对对齐后的语义特征进行编码,得到了文本特征。
本实施例中,过所述自注意力肢体手势生成网络对所述初始化手势序列进行特征提取的步骤包括:
S12-3-1:将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
本实施例中,初始化手势序列就是肢体上关键点的坐标,通过这些坐标就可以确定具体的手势,例如肘关节,腕关节,肩关节的坐标。将初始化手势序输入初始化手势序列编码器中,得到初始化手势序列特征。初始化手势序列可以根据输入的说话音频和说话文本的内容自行设置。
S13:通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
本实施例中,合成手势序列就是每一帧图像上合成的虚拟说话人的肢体上关键节点的坐标。合成手势序列是根据音频特征、文本特征结合了初始化手势序列特征而得到的。对音频特征、文本特征以及初始化手势序列特征进行融合处理的具体步骤为:
S13:将所述音频特征和所述文本特征进行加和,得到加和后的特征。
本实施例中,将音频特征和文本特征进行加和之后,可以得到一个特征向量,该特征向量就是加和后的特征。
S14:将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
本实施例中,将加和后的特征和初始化手势序列特征输入解码器中,解码器将加和后的特征和初始化手势序列进行结合,得到合成手势序列。该合成手势序列用于确定虚拟说话人的肢体手势动作。
示例地,将一段说评书的音频和对应的文本以及对应的初始化手势序列输入自注意力肢体手势生成网络中,自注意力肢体手势生成网络会生成合成手势序列,该合成手势序列和评书的音频和文本对应,可以表达出对应的情感,例如评书中有一句话是“预知后事如何,请听下回分解”,则对应的合成手势序列可以是右手高高举起然后放下,对应的是说书人拍醒木的动作。
在本实施例中,提取了说话音频的梅尔频谱,再使用音频编码器得到音频特征;对于说话文本,首先使用预训练的语言模型对说话文本进行语义识别,得到了语义特征,再将语义特征与音频特征进行时序对齐,得到对齐后的语义特征,通过语义编码器对对齐后的语义特征进行编码,得到文本特征;对于初始化手势序列,通过初始化手势序列编码器进行编码,得到初始化手势序列特征;在进行特征融合时,首先将音频特征和文本特征进行加和,得到一个加和后的向量,将该向量与初始化手势特征输入解码器中,得到合成手势序列。在肢体手势生成网络中设置了预训练好的语言模型,可以更加方便有效的提取出文本特征,进而生成和语义相关度高的虚拟说话人的肢体手势。同时肢体手势生成网络是基于自注意力机制构建的,当多模态数据输入网络中时,可以更加关注数据中的重点部分,有利于合成更加具有高表现力和语义相关度的虚拟说话人肢体手势,进而增加虚拟说话人肢体手势合成结果的自然度,提升虚拟形象的信息传达效果。
在本申请另一个实施例中,所述自注意力肢体手势生成网络的训练步骤包括:
S21:收集说话人视频。
本实施例中,需要对自注意力肢体手势生成网络进行训练,首先收集说话人视频,说话人视频中的说话人为单个,并且该说话人在说话时需要有肢体手势的变化,方便神经网络进行学习以及训练。
示例地,说话人视频可以是一段演讲视频、朗诵视频等。
S22:对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列。
本实施例中,首先提取说话人视频中的音频,提取音频可以用现有的音频提取工具,在此不做限制,再提取出说话人说话的文本,说话人的文本可以用现有的语音识别工具进行提取,在此不做限制。
初始化手势序列的获取方式为截取视频中说话人说话的头几帧的图像,根据截取的图像中的说话人的肢体位置,确定说话人肢体上的关键点的位置,得到说话人肢体上关键点的位置坐标。
S23:将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
本实施例中,将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中后,该网络根据输入的内容得到合成手势序列,该网络通过对比合成手势序列与原说话人视频中的说话人的手势序列,得到损失值,进而对网络的参数进行调整,当参数调整至最优时,得到训练好的自注意力肢体手势生成网络。
在本申请另一个实施例中,将结合肢体手势生成网络的基本模块对本申请进行进一步说明:
本实施例中,如图2所示,图2是本申请一实施例提出的自注意力肢体手势生成网络基本模块示意图,如图2所述,该网络模型的基本模块包括了编码器和解码器,其中编码器包括四个单元,每个单元包括一个多头注意力层和一个一维卷积层,在多头注意力层和一维卷积层后均包括求和与正则化操作。解码器同样包括4个单元,每个单元包括两个多头注意力层和一个一维卷积层,其中第二个注意力层的输入包括解码器内部数据流和初始化手势编码器的输入。音频编码器、语义编码器和初始化手势序列编码器的结构都是相同的,但如图2所示,初始化手势序列编码器的输出连接到解码器的第二个多头注意力层中。对于音频编码器和语义编码器,其输出首先进行加和,加和后的结果作为解码器的输入,输入第一个多头注意力层中。多头注意力层中连接了多个自注意力层,通过自注意力机制对输入的特征向量进行处理。
对于音频编码器和语义编码器,当特征向量输入编码器中后,进入多头注意力层,经过多头注意力层处理后的特征向量与原特征向量进行求和与正则化,将得到的向量输入一维卷积层,经过一维卷积层处理后,与第一次求和与正则化之后的向量再次进行求和与正则化计算。将处理后的特征向量进行输出。
对于初始化手势序列编码器,特征向量的处理步骤与音频编码器和语义编码器相同,在此不再做叙述,但输出连接至解码器的第二个多头注意力层。
在解码器中,音频特征和文本特征的加和后的特征输入编码器中,先进入第一个多头注意力层,经过多头注意力层的处理后,将原特征向量与处理后的向量进行求和与正则化处理,将处理后的向量输出,再将处理后的向量与初始化手势序列特征向量一起输入第二个多头注意力层中,经过第二个多头注意力层处理之后,得到融合后的向量,将融合后的向量与第一个求和与正则化层输出的向量再次进行求和与正则化处理,得到第二次求和与正则化处理后的向量,在将第二次求和与正则化处理后的向量输入一维卷积层中,经过一维卷积层处理后,将一维卷积层处理后的向量与第二次求和与正则化处理后的向量再次进行求和与正则化计算,经过计算后,输出合成手势序列。
本实施例中,模块中的多头注意力层可以给输入数据中的序列分配权重,权重较大的部分就是序列中更加重要的部分,并且对数据内部之间的关系捕捉的十分到位,更加有利于建模序列中的长时依赖关系和复杂的时序关系。
在本申请另一个实施例中,结合虚拟说话人肢体手势生成方法的流程概览图对本申请进行进说明。
如图3所示,图3是本申请一实施例提出的虚拟说话人肢体手势生成方法的流程概览图。
如图3所述,图3中将说话音频,说话文本,初始化手势序列输入自注意力肢体手势生成网中。
对于说话音频,该网络提取出该段音频的梅尔频谱,对梅尔频谱进行位置编码,位置编码的作用是编码输入的特征向量的时序关系,就是对向量的位置序列进行编码。音频编码器输出音频特征向量,即音频特征。
对于说话文本,使用预训练的语言模型对该文本进行语义识别,得到语义特征向量,即语义特征,进行语义识别前也要对文本序列进行位置编码。之后将语义特征向量与音频特征向量进行对齐,将对齐后的语义特征向量,即对齐后的语义特征进行位置编码后输入语义编码器中,得到文本向量,即文本特征。
对于初始化手势序列,从图3中可见,初始化手势序列是设置好的虚拟说话人的初始的肢体动作的肢体关键点的坐标,对初始化手势序列进行位置编码后输入初始化手势序列编码器,得到初始化手势序列特征向量,即初始化手势序列特征。
在特征向量融合时,首先将音频特征向量和文本特征向量进行加和,作为一个解码器的输入,之后将初始化手势序列特征向量输和加和后的特征向量一起输入解码器中,就可得到合成手势序列,进而合成虚拟说话人后续的肢体动作。
基于同一发明构思,本申请一实施例提供一种虚拟说话人肢体手势生成装置。参考图4,图4是本申请一实施例提出的虚拟说话人肢体手势生成装置400的示意图。如图4所示,该装置包括:
数据输入模块401,用于将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
特征提取模块402,用于通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
手势合成模块403,用于通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
可选地,所述装置还包括:
视频收集模块,用于收集说话人视频;
视频处理模块,用于对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;
模型训练模块,用于将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
可选地,所述特征提取模块包括:
音频计算子模块,用于对所述说话音频进行计算,得到该段音频的梅尔频谱;
音频特征提取子模块们勇于将所述梅尔频谱输入音频编码器中,得到所述音频特征。
可选地,所述特征提取模块还包括:
语义特征提取子模块,用于使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;
语义特征对其子模块,用于将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;
文本特征提取子模块,用于将所述对齐后的语义特征输入语义编码器,得到所述文本特征。
可选地,所述特征提取模块还包括:
初始化手势序列特征提取子模块,用于将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
可选地,所述手势合成模块包括:
特征加和子模块,用于将所述音频特征和所述文本特征进行加和,得到加和后的特征;
手势合成子模块,用于将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的虚拟说话人肢体手势生成方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的虚拟说话人肢体手势生成方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的虚拟说话人肢体手势生成方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种虚拟说话人肢体手势生成方法,所述方法包括:
将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
2.根据权利要求1所述的方法,其特征在于,所述自注意力肢体手势生成网络的训练步骤包括:
收集说话人视频;
对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;
将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
3.根据权利要求1所述的方法,其特征在于,通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括:
对所述说话音频进行计算,得到该段音频的梅尔频谱;
将所述梅尔频谱输入音频编码器中,得到所述音频特征。
4.根据权利要求1所述的方法,其特征在于,通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括:
使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;
将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;
将所述对齐后的语义特征输入语义编码器,得到所述文本特征。
5.根据权利要求1所述的方法,其特征在于,通过所述自注意力肢体手势生成网络对所述初始化手势序列进行特征提取的步骤包括:
将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
6.根据权利要求1所述的方法,其特征在于,通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列,包括:
将所述音频特征和所述文本特征进行加和,得到加和后的特征;
将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
7.一种虚拟说话人肢体手势生成装置,其特征在于,所述装置包括:
数据输入模块,用于将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
特征提取模块,用于通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
手势合成模块,用于通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至6任一所述的方法中的步骤。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至6任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814936.8A CN113674184A (zh) | 2021-07-19 | 2021-07-19 | 虚拟说话人肢体手势生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814936.8A CN113674184A (zh) | 2021-07-19 | 2021-07-19 | 虚拟说话人肢体手势生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113674184A true CN113674184A (zh) | 2021-11-19 |
Family
ID=78539513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814936.8A Pending CN113674184A (zh) | 2021-07-19 | 2021-07-19 | 虚拟说话人肢体手势生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674184A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100030532A1 (en) * | 2008-06-12 | 2010-02-04 | Jasbir Arora | System and methods for digital human model prediction and simulation |
JP6796762B1 (ja) * | 2019-11-28 | 2020-12-09 | 有限会社クロマニヨン | 仮想人物対話システム、映像生成方法、映像生成プログラム |
CN112162628A (zh) * | 2020-09-01 | 2021-01-01 | 魔珐(上海)信息科技有限公司 | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN112560622A (zh) * | 2020-12-08 | 2021-03-26 | 中国联合网络通信集团有限公司 | 虚拟对象动作控制方法、装置及电子设备 |
-
2021
- 2021-07-19 CN CN202110814936.8A patent/CN113674184A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100030532A1 (en) * | 2008-06-12 | 2010-02-04 | Jasbir Arora | System and methods for digital human model prediction and simulation |
JP6796762B1 (ja) * | 2019-11-28 | 2020-12-09 | 有限会社クロマニヨン | 仮想人物対話システム、映像生成方法、映像生成プログラム |
CN112162628A (zh) * | 2020-09-01 | 2021-01-01 | 魔珐(上海)信息科技有限公司 | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN112560622A (zh) * | 2020-12-08 | 2021-03-26 | 中国联合网络通信集团有限公司 | 虚拟对象动作控制方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Talking with hands 16.2 m: A large-scale dataset of synchronized body-finger motion and audio for conversational motion analysis and synthesis | |
Bhattacharya et al. | Speech2affectivegestures: Synthesizing co-speech gestures with generative adversarial affective expression learning | |
CN112599122B (zh) | 基于自注意力机制和记忆网络的语音识别方法及装置 | |
Ng et al. | Body2hands: Learning to infer 3d hands from conversational gesture body dynamics | |
Zhang et al. | M 3 f: Multi-modal continuous valence-arousal estimation in the wild | |
Abebe et al. | A long short-term memory convolutional neural network for first-person vision activity recognition | |
CN113903067A (zh) | 虚拟对象视频的生成方法、装置、设备及介质 | |
Karthick et al. | Transforming Indian sign language into text using leap motion | |
Rebol et al. | Real-time gesture animation generation from speech for virtual human interaction | |
Fan et al. | Joint audio-text model for expressive speech-driven 3d facial animation | |
Gao | A two-channel attention mechanism-based MobileNetV2 and bidirectional long short memory network for multi-modal dimension dance emotion recognition | |
Yu et al. | Srg 3: Speech-driven robot gesture generation with gan | |
Tuyen et al. | Conditional generative adversarial network for generating communicative robot gestures | |
Lu et al. | Co-speech gesture synthesis using discrete gesture token learning | |
Gao et al. | Gesgpt: Speech gesture synthesis with text parsing from gpt | |
CN116561533B (zh) | 一种教育元宇宙中虚拟化身的情感演化方法及终端 | |
Wang et al. | Speech Driven Talking Head Generation via Attentional Landmarks Based Representation. | |
CN113674184A (zh) | 虚拟说话人肢体手势生成方法、装置、设备及存储介质 | |
CN116110378A (zh) | 模型训练方法、语音识别方法、装置和电子设备 | |
CN116417008A (zh) | 一种跨模态音视频融合语音分离方法 | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
JP7426917B2 (ja) | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN114630190A (zh) | 关节姿态参数的确定方法、模型训练方法及装置 | |
Pham et al. | Learning continuous facial actions from speech for real-time animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |