CN113077535B - 模型训练、嘴部动作参数获取方法、装置、设备及介质 - Google Patents

模型训练、嘴部动作参数获取方法、装置、设备及介质 Download PDF

Info

Publication number
CN113077535B
CN113077535B CN202110411264.6A CN202110411264A CN113077535B CN 113077535 B CN113077535 B CN 113077535B CN 202110411264 A CN202110411264 A CN 202110411264A CN 113077535 B CN113077535 B CN 113077535B
Authority
CN
China
Prior art keywords
model
training
driving model
mouth motion
initial driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110411264.6A
Other languages
English (en)
Other versions
CN113077535A (zh
Inventor
陈泷翔
刘炫鹏
王鑫宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN202110411264.6A priority Critical patent/CN113077535B/zh
Publication of CN113077535A publication Critical patent/CN113077535A/zh
Application granted granted Critical
Publication of CN113077535B publication Critical patent/CN113077535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了一种嘴部动作驱动模型训练方法、装置、嘴部动作参数获取方法、装置、电子设备及计算机可读存储介质,该训练方法包括:获取训练声学特征;将训练声学特征分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一输出结果和目标模型对应的第二输出结果;基于梯度上升原则,根据第一输出结果和第二输出结果更新目标模型;若目标模型的本轮更新次数达到第一阈值,则基于目标模型和初始驱动模型的性能比对结果更新初始驱动模型;若满足训练完成条件,则将初始驱动模型确定为嘴部动作驱动模型;得到的嘴部动作驱动模型具有较强的识别能力,将待处理音频输入利用上述方式训练得到的嘴部动作驱动模型,可以得到准确率高的嘴部动作参数。

Description

模型训练、嘴部动作参数获取方法、装置、设备及介质
技术领域
本申请涉及动作识别技术领域,特别涉及嘴部动作驱动模型训练方法、嘴部动作参数获取方法、嘴部动作驱动模型训练装置、嘴部动作参数获取装置、电子设备及计算机可读存储介质。
背景技术
在人物影像生成、电子动画中的类人类角色动作渲染等领域,为了使得影像中的人物更加真实、自然,嘴部动作与语音的匹配是十分重要的,如何准确地完成声音到动作的映射是解决这一问题的关键。相关技术可以分为基于规则的方法与基于深度学习的方法,其中,基于规则的方法利用类似字典的结构记录音素与动作的对应关系,通过查表的方式完成声音到动作参数的映射。得到的动作参数通过像素渲染最终得到嘴部动作与声音匹配的人物视频动画,然而字典的方法需要得到准确且覆盖全面的字典,字典构建难度较大。
基于深度学习的方法,不需要构建字典,解决了字典构建难度大的问题。其利用训练数据训练得到神经网络,并将声音对应的特征序列输入到神经网络后,得到相关的嘴部动作参数。基于深度学习的方法中神经网络的识别能力直接决定了嘴部动作参数的可靠性,而相关技术中神经网络的识别能力都较差,使得嘴部动作参数的准确率较低。
因此,相关技术存在的嘴部动作参数的准确率较低的问题,是本领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种嘴部动作驱动模型训练方法、嘴部动作驱动模型训练装置、嘴部动作参数获取方法、嘴部动作参数获取装置、电子设备及计算机可读存储介质,提高了得到的嘴部动作参数的准确率。
为解决上述技术问题,本申请提供了一种嘴部动作驱动模型训练方法,包括:
获取训练声学特征;
将所述训练声学特征分别输入初始驱动模型和目标模型,得到所述初始驱动模型对应的第一输出结果和所述目标模型对应的第二输出结果;
基于梯度上升原则,根据所述第一输出结果和所述第二输出结果更新所述目标模型;
若所述目标模型的本轮更新次数达到第一阈值,则基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型;
若满足训练完成条件,则将所述初始驱动模型确定为嘴部动作驱动模型。
可选地,所述基于梯度上升原则,根据所述第一输出结果和所述第二输出结果更新所述目标模型,包括:
基于所述训练声学特征对应的训练标签,利用评分网络分别对所述第一输出结果和所述第二输出结果进行处理,得到所述第一输出结果对应的第一评分和所述第二输出结果对应的第二评分;
利用所述第一评分和所述第二评分计算梯度值,并利用所述梯度值更新所述目标模型。
可选地,在基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型之后,还包括:
若所述目标模型的性能优于所述初始驱动模型,则利用所述第一输出结果和对应的所述第一评分,和/或,所述第二输出结果和对应的所述第二评分,组成评分训练数据,并利用所述评分训练数据训练所述评分网络。
可选地,所述基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型,包括:
将检验数据分别输入所述初始驱动模型和所述目标模型,得到所述初始驱动模型对应的第一检验结果和所述目标模型对应的第二检验结果;
基于所述检验数据对应的检验标签,利用评分网络分别对所述第一检验结果和所述第二检验结果进行处理,得到所述第一检验结果对应的第三评分和所述第二检验结果对应的第四评分;
若所述第三评分不小于所述第四评分,则不更新所述初始驱动模型;
若所述第三评分小于所述第四评分,则利用所述目标模型的目标模型参数更新所述初始驱动模型。
可选地,所述利用所述目标模型的目标模型参数更新所述初始驱动模型,包括:
利用所述目标模型参数替换所述初始驱动模型的初始模型参数;
或,
利用所述目标模型参数和所述初始模型参数进行滑动平均计算,得到平均模型参数;
利用所述平均模型参数替换所述初始模型参数。
可选地,所述当满足训练完成条件时,包括:
当所述目标模型的更新次数达到第二阈值时,确定满足所述训练完成条件;
或,
当所述初始驱动模型的更新次数达到第三阈值时,确定满足所述训练完成条件。
可选地,所述获取训练声学特征,包括:
获取视频数据;所述视频数据包括音频文件和图像文件;
对所述音频文件进行声学特征提取,得到初始训练声学特征;
对所述图像文件进行动作参数提取,得到训练动作参数,并将所述训练动作参数确定为所述初始训练声学特征的训练标签,得到所述训练声学特征。
可选地,所述目标模型和所述初始驱动模型采用单向循环神经网络,和/或,感受野小于预设范围的卷积神经网络。
本申请还提供了一种嘴部动作参数获取方法,包括:
获取待处理音频;
将所述待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数;其中,所述嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。
可选地,还包括:
获取追加训练数据;所述追加训练数据包括所述嘴部动作驱动模型处理错误的错误音频;
基于所述嘴部动作驱动模型构建新初始驱动模型和新目标模型,并利用所述追加训练数据、所述新初始驱动模型和所述新目标模型得到新嘴部动作驱动模型;
利用所述新嘴部动作驱动模型替换所述嘴部动作驱动模型;所述新嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。
本申请还提供了一种嘴部动作驱动模型训练装置,包括:
训练数据获取模块,用于获取训练声学特征;
输入模块,用于将所述训练声学特征分别输入初始驱动模型和目标模型,得到所述初始驱动模型对应的第一输出结果和所述目标模型对应的第二输出结果;
目标更新模块,用于基于梯度上升原则,根据所述第一输出结果和所述第二输出结果更新所述目标模型;
初始更新模块,用于若所述目标模型的本轮更新次数达到第一阈值,则基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型;
确定模块,用于若满足训练完成条件,则将所述初始驱动模型确定为嘴部动作驱动模型。
可选地,目标更新模块,包括:
第一评分单元,用于基于训练声学特征对应的训练标签,利用评分网络分别对第一输出结果和第二输出结果进行处理,得到第一输出结果对应的第一评分和第二输出结果对应的第二评分;
梯度更新单元,用于利用第一评分和第二评分计算梯度值,并利用梯度值更新目标模型。
可选地,还包括:
评分网络更新模块,用于若目标模型的性能优于初始驱动模型,则利用第一输出结果和对应的第一评分,和/或,第二输出结果和对应的第二评分,组成评分训练数据,并利用评分训练数据训练评分网络。
可选地,初始更新模块,包括:
检验输入单元,用于将检验数据分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一检验结果和目标模型对应的第二检验结果;
第二评分单元,用于基于检验数据对应的检验标签,利用评分网络分别对第一检验结果和第二检验结果进行处理,得到第一检验结果对应的第三评分和第二检验结果对应的第四评分;
暂停更新单元,用于若第三评分不小于第四评分,则不更新初始驱动模型;
更新单元,用于若第三评分小于第四评分,则利用目标模型的目标模型参数更新初始驱动模型。
可选地,更新单元,包括:
参数替换子单元,用于利用目标模型参数替换初始驱动模型的初始模型参数;
或,
平均计算子单元,用于利用目标模型参数和初始模型参数进行滑动平均计算,得到平均模型参数;
滑动更新子单元,用于利用平均模型参数替换初始模型参数。
可选地,确定模块,包括:
第一确定单元,用于当目标模型的更新次数达到第二阈值时,确定满足训练完成条件;
或,
第二确定单元,用于当初始驱动模型的更新次数达到第三阈值时,确定满足训练完成条件。
可选地,训练数据获取模块,包括:
视频获取单元,用于获取视频数据;视频数据包括音频文件和图像文件;
声学特征提取单元,用于对音频文件进行声学特征提取,得到初始训练声学特征;
训练标签提取单元,用于对图像文件进行动作参数提取,得到训练动作参数,并将训练动作参数确定为初始训练声学特征的训练标签,得到训练声学特征。
本申请还提供了一种嘴部动作参数获取装置,包括:
待处理音频获取模块,用于获取待处理音频;
动作参数获取模块,用于将所述待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数;其中,所述嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。
可选地,还包括:
追加训练数据获取模块,用于获取追加训练数据;追加训练数据包括嘴部动作驱动模型处理错误的错误音频;
追加训练模块,用于基于嘴部动作驱动模型构建新初始驱动模型和新目标模型,并利用追加训练数据、新初始驱动模型和新目标模型得到新嘴部动作驱动模型;
模型替换模块,用于利用新嘴部动作驱动模型替换嘴部动作驱动模型;新嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。
本申请还提供了一种电子设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现上述的嘴部动作驱动模型训练方法,和/或,上述的嘴部动作参数获取方法。
本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的嘴部动作驱动模型训练方法,和/或,上述的嘴部动作参数获取方法。
本申请提供的嘴部动作驱动模型训练方法,获取训练声学特征;将训练声学特征分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一输出结果和目标模型对应的第二输出结果;基于梯度上升原则,根据第一输出结果和第二输出结果更新目标模型;若目标模型的本轮更新次数达到第一阈值,则基于目标模型和初始驱动模型的性能比对结果更新初始驱动模型;若满足训练完成条件,则将初始驱动模型确定为嘴部动作驱动模型。
相应的,本申请提供的嘴部动作参数获取方法,获取待处理音频;将待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数;其中,嘴部动作驱动模型基于如上述的嘴部动作驱动模型训练方法训练得到。
可见,该方法采用了强化学习的训练方式,在训练初始驱动模型时,还引入一个与其结构相同的目标模型,以便为模型更新过程提供多种选择。通过将训练声学特征输入初始驱动模型和目标模型,可以得到对应的第一输出结果和第二输出结果。基于梯度上升原则对目标模型进行更新,可以使得目标模型的参数向着性能更佳的方向更新。在多次更新目标模型后,将目标模型与初始驱动模型的性能(即准确率)进行比较,并根据二者之间的性能比对结果更新初始驱动模型。即,选择目标模型与初始驱动模型中性能更好的一组参数更新初始驱动模型,并在初始驱动模型满足训练完成条件时确定训练完毕,得到嘴部动作驱动模型。通过引入目标模型,可以利用目标模型预先进行训练,并且在目标模型和初始驱动模型中选择性能更好的一组参数更新初始驱动模型。因此当满足训练完成条件时,得到的嘴部动作驱动模型具有较强的识别能力,通过将待处理音频输入利用上述方式训练得到的嘴部动作驱动模型,可以得到准确率高的嘴部动作参数。解决了相关技术存在的嘴部动作参数的准确率较低的问题。
此外,本申请还提供了嘴部动作驱动模型训练装置、嘴部动作参数获取装置、电子设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种嘴部动作驱动模型训练方法流程图;
图2为本申请实施例提供的一种应用场景示意图;
图3为本申请实施例提供的一种嘴部动作参数获取方法流程图;
图4为本申请实施例提供的一种具体的嘴部动作参数获取过程流程图;
图5为本申请实施例提供的一种嘴部动作驱动模型训练装置的结构示意图;
图6为本申请实施例提供的一种嘴部动作参数获取装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例提供的一种嘴部动作驱动模型训练方法流程图。该方法包括:
S101:获取训练声学特征。
训练声学特征是指用于生成嘴部动作驱动模型的训练数据,其具体内容不做限定。可以理解的是,训练声学特征包括数据和标签两个部分,数据部分为具体的声学特征数据,其具体为对音频文件或音频信号进行处理得到的声学特征;标签部分为该声学特征对应的动作参数数据,其具体为能够表征上述音频文件或音频信号对应的人脸嘴部动作状态的参数数据。训练声学特征的数量为多个,各个训练声学特征对应的音频文件、音频信号以及对应的人脸嘴部动作状态不同。
对于训练声学特征的获取方式,可以采用一种方式获取,或者可以才采用多种方式来获取,获取的具体方式不做限定。例如在一种实施方式中,可以从预设路径下获取训练声学特征,该预设路径可以为本地路径,即电子设备内的存储介质对应的存储路径,或者可以为外部路径,即云端、可移动存储介质等对应的存储路径。在另一种实施方式中,可以将某个或某些指定的电子设备发送的数据确定为训练声学特征,或者将从某个端口获取到的数据确定为训练声学特征。在另一种实施方式中,训练声学特征可以在本地生成,例如可以获取训练声学信号和对应的训练图像,分别对其进行特征提取,即可得到训练声学特征包括的数据部分和标签部分。进一步的,本实施例并不限定获取训练声学特征的频率,在一种实施方式中,可以实时获取训练声学特征并在本地存储;在另一种实施方式中,可以在检测到需要训练得到嘴部动作驱动模型时获取训练声学特征。
S102:将训练声学特征分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一输出结果和目标模型对应的第二输出结果。
初始驱动模型是指没有收敛的嘴部动作驱动模型,其经过多轮训练达到收敛或满足训练完成条件后即转变为嘴部动作驱动模型。本申请采用了强化学习的方法,在训练初始驱动模型的过程中,同时引入了目标模型。目标模型是指与初始驱动模型结构相同的另一网络模型,其用于与梯度上升法配合,使得初始驱动模型沿着性能比目标网络更佳的方向更新。在训练时,将训练声学特征分别输入初始驱动模型和目标模型,初始驱动模型和目标模型分别基于当前的模型参数对其训练声学特征进行处理,得到对应的第一输出结果和第二输出结果。本实施例并不限定初始驱动模型和目标模型的具体结构和类型,可以根据需要进行设置。
可以理解的是,初始驱动模型得到第一输出结果的过程和目标模型得到第二输出结果的过程是相互独立的,因此在一种实施方式中,可以将同一个训练声学特征同时输入初始驱动模型和目标模型,并行地利用两个模型对训练声学特征进行处理,得到对应的第一输出结果和第二输出结果;在另一种实施方式中,可以串行地分别得到第一输出结果和第二输出结果,即先将训练声学特征输入初始驱动模型或目标模型并得到对应的输出结果后,再将该训练声学特征输入另一个模型,得到另一个输出结果。
需要说明的是,第一输出结果和第二输出结果相对应,且二者均对应于同一个训练声学特征。第一输出结果为初始驱动模型对训练声学特征中的数据部分进行处理后识别到的参数数据,相应的,第二输出结果为目标模型对训练声学特征中的数据部分进行处理后识别到的参数数据。二者的具体内容不做限定。
S103:基于梯度上升原则,根据第一输出结果和第二输出结果更新目标模型。
在得到第一输出结果和第二输出结果后,可以根据其确定初始驱动模型和目标模型对训练声学特征进行识别的准确度,该准确度可以表征初始驱动模型和目标模型的当前性能优劣。第一输出结果、第二输出结果与训练声学特征越匹配,则说明初始驱动模型或目标模型对训练声学特征识别的准确度越高,进而表征初始驱动模型或目标模型的性能越优。
此外,根据第一输出结果和第二输出结果,可以确定在当前情况下初始驱动模型和目标模型哪一个性能更优,以便确定后续对目标模型进行更新的更新方向。具体的,可以利用第一输出结果和第二输出结果确定梯度上升的方向,进而沿着该梯度上升的方向对目标模型进行更新。通过沿梯度上升的方向对目标模型进行更新,可以使得目标模型验证性能更佳的方向更新,进而使得后续对初始驱动模型进行更新时使得初始驱动模型验证性能更佳的方向更新。
对于目标模型的具体更新方式,本实施例不做限定,例如可以确定第一输出结果和第二输出结果分别与训练声学特征的标签之间的第一距离和第二距离,并利用第一距离和第二距离确定初始驱动模型和目标模型之间的性能优劣。当初始驱动模型性能更佳时,则将目标模型沿着初始驱动模型的方向更新;当目标模型性能更佳时时,则将目标模型沿着初始驱动模型的反方向更新。本实施例并不限定目标模型的具体更新方式,可以参考相关技术。
S104:若目标模型的本轮更新次数达到第一阈值,则基于目标模型和初始驱动模型的性能比对结果更新初始驱动模型。
本轮更新次数是指目标模型的单轮训练次数。每个训练声学特征都会更新一次目标模型,在目标模型被更新一次后,对应更新本轮更新次数。当目标模型的本轮更新次数达到第一阈值时,则可以利用目标模型和初始驱动模型进行性能比对,得到对应的性能比对结果。性能比对结果可以表示目标模型和初始驱动模型的性能优劣,因此当性能比对结果表示目标模型的性能更好时,则基于目标模型的模型参数对初始驱动模型进行更新,以便初始从驱动模型的性能更好。当性能比对结果表示初始驱动模型的性能更好时,则初始驱动模型仍保持自身的模型参数,可以视为利用初始驱动模型本身的参数对自身进行更新。需要说明的是,在更新初始驱动模型后,目标模型则进入了新一轮的训练阶段,因此本轮更新次数则被清零。
对于如何进行性能比对,本实施例不限定具体的比对方式。例如在一种实施方式中,可以利用验证声学特征作为验证数据输入初始驱动模型和目标模型,得到对应的第一验证结果和第二验证结果,并分别利用第一验证结果、第二验证结果和验证声学特征的标签计算第一验证距离和第二验证距离,并根据第一验证距离和第二验证距离的大小关系确定比对结果。例如第一验证距离小于第二验证距离,则说明初始驱动模型性能较优。在另一种实施方式中,可以将第一验证结果、第二验证结果以及验证声学特征的标签输入平稳网络,得到第一验证结果对应的第一评分和第二验证结果对应的第二评分,并根据第一评分和第二评分的大小关系确定比对结果,例如当第二评分大于第一评分时,则说明目标模型的性能较优。
S105:若满足训练完成条件,则将初始驱动模型确定为嘴部动作驱动模型。
训练完成条件是指用于规定嘴部动作驱动模型训练完毕的条件,其具体内容不做限定,例如可以为初始驱动模型的更新轮数阈值,或者可以为目标模型的训练轮数阈值,或者可以为初始驱动模型的识别准确率阈值。当训练完成条件被触发时,则说明对初始驱动模型的训练结束,因此将初始驱动模型确定为嘴部动作驱动模型。
应用本申请实施例提供的嘴部动作驱动模型训练方法,采用了强化学习的训练方式,在训练初始驱动模型时,还引入一个与其结构相同的目标模型,以便为模型更新过程提供多种选择。通过将训练声学特征输入初始驱动模型和目标模型,可以得到对应的第一输出结果和第二输出结果。基于梯度上升原则对目标模型进行更新,可以使得目标模型的参数向着性能更佳的方向更新。在多次更新目标模型后,将目标模型与初始驱动模型的性能(即准确率)进行比较,并根据二者之间的性能比对结果更新初始驱动模型。即,选择目标模型与初始驱动模型中性能更好的一组参数更新初始驱动模型,并在初始驱动模型满足训练完成条件时确定训练完毕,得到嘴部动作驱动模型。通过引入目标模型,可以利用目标模型预先进行训练,并且在目标模型和初始驱动模型中选择性能更好的一组参数更新初始驱动模型。因此当满足训练完成条件时,得到的嘴部动作驱动模型具有较强的识别能力,通过将待处理音频输入利用上述方式训练得到的嘴部动作驱动模型,可以得到准确率高的嘴部动作参数。解决了相关技术存在的嘴部动作参数的准确率较低的问题。
基于上述实施例,本实施例将对上述实施例中的若干步骤进行具体的阐述。其中,为了准确地确定目标模型的更新方向,基于梯度上升原则,根据第一输出结果和第二输出结果更新目标模型的过程具体可以包括如下步骤:
步骤11:基于训练声学特征对应的训练标签,利用评分网络分别对第一输出结果和第二输出结果进行处理,得到第一输出结果对应的第一评分和第二输出结果对应的第二评分。
训练标签即训练声学特征的标签部分,在本实施例中,其具体为训练声学特征的数据部分对应的嘴部动作参数。初始驱动模型和目标模型分别基于自身的模型参数,基于训练声学特征的数据部分对其对应的嘴部动作参数进行预测,得到对应的第一输出结果和第二输出结果,而模型参数是否合适决定了第一输出结果和第二输出结果的质量,具体表现为第一输出结果和第二输出结果分别与训练标签的差距是否较小。
为了准确评价第一输出结果或第二输出结果与训练标签的差距,准确地确定初始驱动模型和目标模型的性能优劣,进而准确地确定目标模型的更新方向,本实施例采用评分网络对第一输出结果和第二输出结果进行处理,得到对应的第一评分和第二评分。具体的,第一评分是指用于评价第一输出结果与训练标签相似程度的评分,第二评分是指用于评价第二输出结果与训练标签相似程度的评分。评分网络被预先训练好,用于以训练标签为基准判断第一输出结果和第二输出结果的质量,本实施例并不限定其结构和类型。在一种具体的实施方式中,第一输出结果或第二输出结果与训练标签越匹配(例如二者之间的欧氏距离越近),则说明第一输出结果与第二输出结果质量越好,其对应的第一评分或第二评分越高。具体的,可以预先设置欧氏距离范围和评分的映射表,通过该映射表确定第一评分和第二评分;或者确定预设计算方式,利用欧氏距离按照该预设计算方式计算得到第一评分和第二评分。
本实施例并不限定评分网络得到第一评分和第二评分的具体方式,在一种实施方式中,可以将训练标签、第一输出结果和第二输出结果同时输入评分网络,得到第一评分和第二评分。在另一种实施方式中,可以将训练标签和第一输出结果的组合以及训练标签和第二输出结果的组合分别输入评分网络,分别得到对应的第一评分和第二评分。
步骤12:利用第一评分和第二评分计算梯度值,并利用梯度值更新目标模型。
第一评分和第二评分能够分别表示第一输出结果和第二输出结果的质量,而输出结果的质量与模型参数相关,因此输出结果的质量高低同样能够表征模型的性能优劣。所以,第一评分和第二评分可以分别表示初始驱动模型和目标模型的性能优劣。为了使得目标模型沿着性能更好的方向更新,可以利用第一评分和第二评分计算梯度值,梯度值可以指示目标模型的更新方向,还可以指示本次更新的幅度。梯度值的具体计算方式不做限定,可以参考相关技术。通过利用评分网络得到第一评分和第二评分,能够利用第一评分和第二评分得到准确指示更新方向和幅度的梯度值,进而利用该梯度值更新目标模型。
进一步,由于第一评分和第二评分的准确程度同样影响到了目标模型的更新,因此为了提高评分的准确程度,可以对评分网络进行补充训练,以便尽可能的提升评分网络的性能。具体的,在基于目标模型和初始驱动模型的性能比对结果更新初始驱动模型之后,还可以包括如下步骤:
步骤21:若目标模型的性能优于初始驱动模型,则利用第一输出结果和对应的第一评分,和/或,第二输出结果和对应的第二评分,组成评分训练数据,并利用评分训练数据训练评分网络。
在利用目标模型和初始驱动模型的性能比对结果更新初始驱动模型后,则必然已经确定目标模型和初始驱动模型的性能差异。若目标模型的性能优于初始驱动模型,则说明目标模型的更新是有效的,而有效的更新必然基于准确的梯度值,准确的梯度值则基于准确的第一评分和第二评分。因此可以确定,第一评分和/或第二评分是相对准确的,其能够分别与第一输出结果和/或第二输出结果组成对应的评分训练数据,并利用评分训练数据对评分网络进行训练,以便进一步提高评分网络的评分准确性。
基于上述实施例,在一种实施方式中,可以利用评分网络对初始驱动模型和目标模型生成的数据进行评分,进而利用评分作为性能比对结果。基于目标模型和初始驱动模型的性能比对结果更新初始驱动模型的过程具体可以包括如下步骤:
步骤31:将检验数据分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一检验结果和目标模型对应的第二检验结果。
检验数据是指用于对初始驱动模型和目标模型的性能进行检验的数据,其具体可以为没有用于更新目标模型的训练数据,或者可以为专门用于进行性能检验的数据。在对初始驱动模型和目标模型进行性能比对时,可以分别利用初始驱动模型和目标模型对检验数据进行处理,得到对应的第一检验结果和第二检验结果,具体的生成过程与第一输出结果和第二输出结果的生成过程相同,区别仅在于输入模型的数据不同。
步骤32:基于检验数据对应的检验标签,利用评分网络分别对第一检验结果和第二检验结果进行处理,得到第一检验结果对应的第三评分和第二检验结果对应的第四评分。
在得到第一检验结果和第二检验结果后,可以利用评分网络基于检验数据对应的检验标签进行评分,得到对应的第三评分和第四评分。具体的,评分网络生成评分的具体过程不做赘述,可以参考上述实施例中对评分网络的描述。
步骤33:若第三评分不小于第四评分,则不更新初始驱动模型。
若第三评分不小于第四评分,则说明在当前情况下,初始驱动模型的性能比目标模型的性能更优。此时,则不对初始驱动模型进行更新,避免造成初始驱动模型的性能下降。
步骤34:若第三评分小于第四评分,则利用目标模型的目标模型参数更新初始驱动模型。
若第三评分小于第四评分,则说明在当前情况下,目标模型的性能比初始驱动模型的性能更优。此时可以利用目标模型的目标模型参数更新初始驱动模型,以便对初始驱动模型的性能进行优化。通过利用评分模型对初始驱动模型和目标模型的性能进行评估,可以快速且准确地得到性能比对结果,进而提高初始驱动模型的更新速度和训练效率。
进一步的,在一种可行的实施方式中,在对初始驱动模型的模型参数进行更新时,可以根据需要选择合适的更新方式。利用目标模型的目标模型参数更新初始驱动模型的步骤具体可以包括如下步骤:
步骤41:利用目标模型参数替换初始驱动模型的初始模型参数。
在一种实施方式中,为了提高模型训练的速度,可以对初始驱动模型对应的初始模型参数进行较大幅度的更新,即直接利用目标模型参数对初始模型参数进行替换,使得更新后的初始驱动模型与目标模型的状态相同。
或,
步骤42:利用目标模型参数和初始模型参数进行滑动平均计算,得到平均模型参数。
步骤43:利用平均模型参数替换初始模型参数。
在另一种实施方式中,为了保证模型训练的有效性,防止出现过拟合等问题,可以采用滑动平均的更新方式。具体的,在对初始驱动模型进行更新时,利用其原有的初始模型参数和目标模型参数进行滑动计算,即加权平均计算。滑动平均计算的结果为平均模型参数,平均模型参数在目标模型参数和初始模型参数中取得了平衡,利用平均模型参数替换初始模型参数,可以采用相对平缓的方式更新初始驱动模型,避免出现过拟合等问题。
基于上述实施例,在一种可行的实施方式中,为了避免训练完成条件复杂或难以达到导致对初始驱动模型进行持续不断地寻乱,进而导致的计算资源消耗较大的问题,可以将训练完成条件设置为与模型更新次数相关。因此对满足训练完成条件的判断过程具体可以包括如下步骤:
步骤51:当目标模型的更新次数达到第二阈值时,确定满足训练完成条件。
或,
步骤52:当初始驱动模型的更新次数达到第三阈值时,确定满足训练完成条件。
在本实施例中,训练完成条件可以被设置为目标模型的更新次数达到第二阈值,或者被设置为初始驱动模型的更新次数达到第三阈值。目标模型的更新次数可以反映目标模型的更新情况,而目标模型又被用于更新初始驱动模型,因此其同样可以反映初始驱动模型的更新情况。当目标模型的训练次数达到第二阈值时,说明目标模型已经得到了充分的训练,而目标模型的训练情况同样表征了初始驱动模型的训练情况,因此可以认为满足训练完成条件。或者,当初始驱动模型的更新次数达到第三阈值时,同样说明初始驱动模型已经被更新足够多次,即便继续进行更新,其性能提升也有限,因此可以认为满足训练完成条件,进而结束训练,避免对计算资源造成较大消耗。
基于上述实施例,由于训练声学特征中数据部分与标签部分相对应,这就要求得到数据部分的声学信号与得到标签部分的图像信号严格匹配。为了保证训练声学特征的准确性,获取训练声学特征的过程具体可以包括如下步骤:
步骤61:获取视频数据。
在本实施例中,视频数据包括音频文件和图像文件。
步骤62:对音频文件进行声学特征提取,得到初始训练声学特征。
通过对音频文件进行声学特征提取,得到对应的初始训练声学特征,其具体为没有标签部分的训练生血特征。本实施例并不限定获取初始训练声学特征的具体方式,根据初始训练声学特征的类型的不同,声学特征提取的方式可以不同。初始训练声学特征可以为振幅谱、梅尔频谱、梅尔倒谱系数,或者可以为音素特征,即ASR(Automatic SpeechRecognition,自动语音识别)处理的中间特征,其具体过程为将语音转换为音素特征,再将音素特征转换为文本特征。
步骤63:对图像文件进行动作参数提取,得到训练动作参数,并将训练动作参数确定为初始训练声学特征的训练标签,得到训练声学特征。
通过对图像文件进行动作参数提取,具体为对图像文件进行嘴部动作参数提取,可以得到对应的训练动作参数。动作参数提取的具体方式不做限定,例如可以利用关键点检测当时得到landmarks(即地标)数据,并将其确定为训练动作参数,其可以表征人脸的状态。在另一种实施方式中,可以利用三维建模的方式得到类blendshape(即混合形状)参数,具体生成过程可以参考相关技术,在此不做赘述。
本实施例并不限定训练动作参数和初始训练声学特征的生成先后顺序,例如可以串行生成,或者可以并行同时生成。在得到训练动作参数和初始训练声学特征之后,将训练动作参数作为初始训练声学特征的训练标签,实现对初始训练声学特征的标记,得到对应的训练声学特征。通过利用视频数据在本地生成训练声学特征,可以保证训练声学特征的可靠性和质量,保证模型训练的效果。
基于上述实施例,在一种实施方式中,对于初始驱动模型和目标模型的具体结构和类型,本实施例不做限定,二者结构相同即可。在另一种实施方式中,为了提高模型对音频信号的识别速度,以便在后续引用过程中满足流式需求,即能在检测到语音信号后快速输出对应的嘴部动作参数,实现实时交互的功能,可以对目标模型和初始驱动模型的结构进行限制具体的:
目标模型和初始驱动模型采用单向循环神经网络,和/或,感受野小于预设范围的卷积神经网络。
其中,单向循环神经网络与双向循环神经网络相比,其在工作时采用的时间维度的信息较少,时间维度的信息也就是当前信息的上下文信息。若采用的时间维度的信息较多,则对当前信息进行处理时,需要较长时间等待获取该当前信息的后续信息,以便对其进行处理,而这样就导致无法及时对当前信息进行处理,无法实现实时交互的功能。而采用单向循环神经网络可以减少所需的时间维度的信息,在对当前信息进行处理时无需等待较长时间来获取后续的信息,实现实时交互的效果。
类似的,当卷积神经网络的感受野较大时,其需同样需要较多的时间维度的信息,因此为了实现实时交互的效果,可以将卷积神经网路的感受野限制在预设范围内,以便提高信息处理速度,进而实现实时交互。
本申请还提供了一种嘴部动作参数获取方法。请参考图2,图2为本申请实施例提供的一种应用场景示意图。本申请实施例提供的嘴部动作参数获取方法可以应该用于如图2所示的交互系统100。交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不做具体限定。
其中,终端设备101可以是具有显示屏、具有数据处理模块、具有拍摄相机、具有音频输入/输出等功能,且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的,数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。
其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP,微信小程序等)传输数据,其中,本实施例中,可以在终端设备101配置一个客户端应用程序用于获取待处理音频。用户可以基于客户端应用程序在服务器102注册一个用户账号,并基于该用户账号与服务器102进行通信,例如用户在客户端应用程序登录用户账号,并基于该用户账号通过客户端应用程序进行输入,可以输入文字信息用于选择待处理音频,或者可以直接输入待处理音频。客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行后续处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
在一些实施方式中,对待处理音频进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖于服务器102建立通信即可实现与用户的交互,此时交互系统100可以只包括终端设备101。
请参考图3,图3为本申请实施例提供的一种嘴部动作驱动模型训练方法流程图。该方法包括:
S201:获取待处理音频。
本实施例并不限定待处理音频的具体获取方式,在一种可行的实施方式中,可以直接获取音频信号,并将获取到的音频信号确定为待处理音频。在另一种实施方式中,可以预存或临时获取多个候选音频,并根据接收到的选择指令从中选择一个作为待处理音频。
S202:将待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数。
需要说明的是,嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。由于该模型采用了强化学习的训练方式,在训练初始驱动模型时,还引入一个与其结构相同的目标模型,以便为模型更新过程提供多种选择。通过将训练声学特征输入初始驱动模型和目标模型,可以得到对应的第一输出结果和第二输出结果。基于梯度上升原则对目标模型进行更新,可以使得目标模型的参数向着性能更佳的方向更新。在多次更新目标模型后,将目标模型与初始驱动模型的性能(即准确率)进行比较,并根据二者之间的性能比对结果更新初始驱动模型。即,选择目标模型与初始驱动模型中性能更好的一组参数更新初始驱动模型,并在初始驱动模型满足训练完成条件时确定训练完毕,得到嘴部动作驱动模型。通过引入目标模型,可以利用目标模型预先进行训练,并且在目标模型和初始驱动模型中选择性能更好的一组参数更新初始驱动模型。因此当满足训练完成条件时,得到的嘴部动作驱动模型具有较强的识别能力,通过将待处理音频输入利用上述方式训练得到的嘴部动作驱动模型,可以得到准确率高的嘴部动作参数。
基于上述实施例,在一种可行的实施方式中,为了实现对嘴部动作驱动模型对某些特定语句识别能力欠缺问题的快速修正,可以采用线上更新的方式对嘴部动作驱动模型进行更新。具体的,还可以包括如下步骤:
步骤71:获取追加训练数据。
需要说明的是,本实施例中的追加训练数据包括嘴部动作驱动模型处理错误的错误音频,即利用嘴部动作驱动模型无法处理的错误音频作为训练数据对其进行训练,使其具有对该类音频的识别能力,快速弥补其存在的识别能力欠缺。可以理解的是,追加训练数据同样包括错误音频对应的标签,该标签的生成方式不做限定,例如可以为人工打标。本实施例也不限定错误音频的具体确定方式,例如可以由人工确定。
步骤72:基于嘴部动作驱动模型构建新初始驱动模型和新目标模型,并利用追加训练数据、新初始驱动模型和新目标模型得到新嘴部动作驱动模型;
其中,新嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。即将嘴部动作驱动模型作为新的初始驱动模型和新的目标模型,将追加训练数据作为新的训练声学特征进行追加训练。
步骤73:利用新嘴部动作驱动模型替换嘴部动作驱动模型。
通过利用嘴部动作驱动模型处理错误的错误音频作为追加训练数据,对嘴部动作驱动模型进行再次训练,可以使得新的嘴部动作驱动模型具备对该类音频的识别能力,解决原本嘴部动作驱动模型存在的识别能力欠缺的问题。
请参考图4,图4为本申请实施例提供的一种具体的嘴部动作参数获取过程流程图。其中,数据录制的过程即为录制视频数据的过程,得到视频数据后利用其进行数据处理,其中包括语音特征提取(即声学特征提取)和嘴部动作参数提取(即动作参数提取),得到训练声学特征。利用训练声学特征进行模型训练,并在模型训练完毕后利用其获取嘴部动作参数。在获取嘴部动作参数的过程中,还可以生成追加训练数据,并利用其进行模型的线上更新。
下面对本申请实施例提供的嘴部动作驱动模型训练装置进行介绍,下文描述的嘴部动作驱动模型训练装置与上文描述的嘴部动作驱动模型训练方法可相互对应参照。
请参考图5,图5为本申请实施例提供的一种嘴部动作驱动模型训练装置的结构示意图,包括:
训练数据获取模块110,用于获取训练声学特征;
输入模块120,用于将训练声学特征分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一输出结果和目标模型对应的第二输出结果;
目标更新模块130,用于基于梯度上升原则,根据第一输出结果和第二输出结果更新目标模型;
初始更新模块140,用于若目标模型的本轮更新次数达到第一阈值,则基于目标模型和初始驱动模型的性能比对结果更新初始驱动模型;
确定模块150,用于若满足训练完成条件,则将初始驱动模型确定为嘴部动作驱动模型。
可选地,目标更新模块130,包括:
第一评分单元,用于基于训练声学特征对应的训练标签,利用评分网络分别对第一输出结果和第二输出结果进行处理,得到第一输出结果对应的第一评分和第二输出结果对应的第二评分;
梯度更新单元,用于利用第一评分和第二评分计算梯度值,并利用梯度值更新目标模型。
可选地,还包括:
评分网络更新模块,用于若目标模型的性能优于初始驱动模型,则利用第一输出结果和对应的第一评分,和/或,第二输出结果和对应的第二评分,组成评分训练数据,并利用评分训练数据训练评分网络。
可选地,初始更新模块140,包括:
检验输入单元,用于将检验数据分别输入初始驱动模型和目标模型,得到初始驱动模型对应的第一检验结果和目标模型对应的第二检验结果;
第二评分单元,用于基于检验数据对应的检验标签,利用评分网络分别对第一检验结果和第二检验结果进行处理,得到第一检验结果对应的第三评分和第二检验结果对应的第四评分;
暂停更新单元,用于若第三评分不小于第四评分,则不更新初始驱动模型;
更新单元,用于若第三评分小于第四评分,则利用目标模型的目标模型参数更新初始驱动模型。
可选地,更新单元,包括:
参数替换子单元,用于利用目标模型参数替换初始驱动模型的初始模型参数;
或,
平均计算子单元,用于利用目标模型参数和初始模型参数进行滑动平均计算,得到平均模型参数;
滑动更新子单元,用于利用平均模型参数替换初始模型参数。
可选地,确定模块150,包括:
第一确定单元,用于当目标模型的更新次数达到第二阈值时,确定满足训练完成条件;
或,
第二确定单元,用于当初始驱动模型的更新次数达到第三阈值时,确定满足训练完成条件。
可选地,训练数据获取模块110,包括:
视频获取单元,用于获取视频数据;视频数据包括音频文件和图像文件;
声学特征提取单元,用于对音频文件进行声学特征提取,得到初始训练声学特征;
训练标签提取单元,用于对图像文件进行动作参数提取,得到训练动作参数,并将训练动作参数确定为初始训练声学特征的训练标签,得到训练声学特征。
下面对本申请实施例提供的嘴部动作参数获取装置进行介绍,下文描述的嘴部动作参数获取装置与上文描述的嘴部动作参数获取方法可相互对应参照。
请参考图6,图6为本申请实施例提供的一种嘴部动作参数获取装置的结构示意图,包括:
待处理音频获取模块,用于获取待处理音频;
动作参数获取模块,用于将待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数;其中,嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。
可选地,还包括:
追加训练数据获取模块,用于获取追加训练数据;追加训练数据包括嘴部动作驱动模型处理错误的错误音频;
追加训练模块,用于基于嘴部动作驱动模型构建新初始驱动模型和新目标模型,并利用追加训练数据、新初始驱动模型和新目标模型得到新嘴部动作驱动模型;
模型替换模块,用于利用新嘴部动作驱动模型替换嘴部动作驱动模型;新嘴部动作驱动模型基于上述的嘴部动作驱动模型训练方法训练得到。
下面对本申请实施例提供的电子设备进行介绍,下文描述的电子设备与上文描述的嘴部动作驱动模型训练方法可相互对应参照。
请参考图7,图7为本申请实施例提供的一种电子设备的结构示意图。其中电子设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。
其中,处理器101用于控制电子设备100的整体操作,以完成上述的嘴部动作驱动模型训练方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在电子设备100的操作,这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-Only Memory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。
多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:Wi-Fi部件,蓝牙部件,NFC部件。
电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例给出的嘴部动作驱动模型训练方法。
下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的嘴部动作驱动模型训练方法可相互对应参照。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的嘴部动作驱动模型训练方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种嘴部动作驱动模型训练方法,其特征在于,包括:
获取训练声学特征;
将所述训练声学特征分别输入初始驱动模型和目标模型,得到所述初始驱动模型对应的第一输出结果和所述目标模型对应的第二输出结果;
基于梯度上升原则,根据所述第一输出结果和所述第二输出结果更新所述目标模型;
若所述目标模型的本轮更新次数达到第一阈值,则基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型;
若满足训练完成条件,则将所述初始驱动模型确定为嘴部动作驱动模型;
其中,所述基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型,包括:
将检验数据分别输入所述初始驱动模型和所述目标模型,得到所述初始驱动模型对应的第一检验结果和所述目标模型对应的第二检验结果;
基于所述检验数据对应的检验标签,利用评分网络分别对所述第一检验结果和所述第二检验结果进行处理,得到所述第一检验结果对应的第三评分和所述第二检验结果对应的第四评分;
若所述第三评分不小于所述第四评分,则不更新所述初始驱动模型;
若所述第三评分小于所述第四评分,则利用所述目标模型的目标模型参数更新所述初始驱动模型。
2.根据权利要求1所述的嘴部动作驱动模型训练方法,其特征在于,所述基于梯度上升原则,根据所述第一输出结果和所述第二输出结果更新所述目标模型,包括:
基于所述训练声学特征对应的训练标签,利用评分网络分别对所述第一输出结果和所述第二输出结果进行处理,得到所述第一输出结果对应的第一评分和所述第二输出结果对应的第二评分;
利用所述第一评分和所述第二评分计算梯度值,并利用所述梯度值更新所述目标模型。
3.根据权利要求2所述的嘴部动作驱动模型训练方法,其特征在于,在基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型之后,还包括:
若所述目标模型的性能优于所述初始驱动模型,则利用所述第一输出结果和对应的所述第一评分,和/或,所述第二输出结果和对应的所述第二评分,组成评分训练数据,并利用所述评分训练数据训练所述评分网络。
4.根据权利要求1所述的嘴部动作驱动模型训练方法,其特征在于,所述利用所述目标模型的目标模型参数更新所述初始驱动模型,包括:
利用所述目标模型参数替换所述初始驱动模型的初始模型参数;
或,
利用所述目标模型参数和所述初始模型参数进行滑动平均计算,得到平均模型参数;
利用所述平均模型参数替换所述初始模型参数。
5.根据权利要求1所述的嘴部动作驱动模型训练方法,其特征在于,当满足训练完成条件时,包括:
当所述目标模型的更新次数达到第二阈值时,确定满足所述训练完成条件;
当所述初始驱动模型的更新次数达到第三阈值时,确定满足所述训练完成条件。
6.根据权利要求1所述的嘴部动作驱动模型训练方法,其特征在于,所述获取训练声学特征,包括:
获取视频数据;所述视频数据包括音频文件和图像文件;
对所述音频文件进行声学特征提取,得到初始训练声学特征;
对所述图像文件进行动作参数提取,得到训练动作参数,并将所述训练动作参数确定为所述初始训练声学特征的训练标签,得到所述训练声学特征。
7.根据权利要求1所述的嘴部动作驱动模型训练方法,其特征在于,所述目标模型和所述初始驱动模型采用单向循环神经网络,和/或,感受野小于预设范围的卷积神经网络。
8.一种嘴部动作参数获取方法,其特征在于,包括:
获取待处理音频;
将所述待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数;其中,所述嘴部动作驱动模型基于如权利要求1至7任一项所述的嘴部动作驱动模型训练方法训练得到。
9.根据权利要求8所述的嘴部动作参数获取方法,其特征在于,还包括:
获取追加训练数据;所述追加训练数据包括所述嘴部动作驱动模型处理错误的错误音频;
基于所述嘴部动作驱动模型构建新初始驱动模型和新目标模型,并利用所述追加训练数据、所述新初始驱动模型和所述新目标模型得到新嘴部动作驱动模型;
利用所述新嘴部动作驱动模型替换所述嘴部动作驱动模型;所述新嘴部动作驱动模型基于如权利要求1至7任一项所述的嘴部动作驱动模型训练方法训练得到。
10.一种嘴部动作驱动模型训练装置,其特征在于,包括:
训练数据获取模块,用于获取训练声学特征;
输入模块,用于将所述训练声学特征分别输入初始驱动模型和目标模型,得到所述初始驱动模型对应的第一输出结果和所述目标模型对应的第二输出结果;
目标更新模块,用于基于梯度上升原则,根据所述第一输出结果和所述第二输出结果更新所述目标模型;
初始更新模块,用于若所述目标模型的本轮更新次数达到第一阈值,则基于所述目标模型和所述初始驱动模型的性能比对结果更新所述初始驱动模型;
确定模块,用于若满足训练完成条件,则将所述初始驱动模型确定为嘴部动作驱动模型;
其中,所述初始更新模块具体用于将检验数据分别输入所述初始驱动模型和所述目标模型,得到所述初始驱动模型对应的第一检验结果和所述目标模型对应的第二检验结果;基于所述检验数据对应的检验标签,利用评分网络分别对所述第一检验结果和所述第二检验结果进行处理,得到所述第一检验结果对应的第三评分和所述第二检验结果对应的第四评分;若所述第三评分不小于所述第四评分,则不更新所述初始驱动模型;若所述第三评分小于所述第四评分,则利用所述目标模型的目标模型参数更新所述初始驱动模型。
11.一种嘴部动作参数获取装置,其特征在于,包括:
待处理音频获取模块,用于获取待处理音频;
动作参数获取模块,用于将所述待处理音频输入嘴部动作驱动模型,得到对应的嘴部动作参数;其中,所述嘴部动作驱动模型基于如权利要求1至7任一项所述的嘴部动作驱动模型训练方法训练得到。
12.一种电子设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的嘴部动作驱动模型训练方法,和/或,如权利要求8至9任一项所述的嘴部动作参数获取方法。
13.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的嘴部动作驱动模型训练方法,和/或,如权利要求8至9任一项所述的嘴部动作参数获取方法。
CN202110411264.6A 2021-04-16 2021-04-16 模型训练、嘴部动作参数获取方法、装置、设备及介质 Active CN113077535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110411264.6A CN113077535B (zh) 2021-04-16 2021-04-16 模型训练、嘴部动作参数获取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110411264.6A CN113077535B (zh) 2021-04-16 2021-04-16 模型训练、嘴部动作参数获取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113077535A CN113077535A (zh) 2021-07-06
CN113077535B true CN113077535B (zh) 2023-06-06

Family

ID=76617724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110411264.6A Active CN113077535B (zh) 2021-04-16 2021-04-16 模型训练、嘴部动作参数获取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113077535B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985335A (zh) * 2020-07-20 2020-11-24 中国人民解放军军事科学院国防科技创新研究院 一种基于面部生理信息的唇语识别方法及装置
WO2021068325A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 面部动作识别模型训练方法、面部动作识别方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541570A (zh) * 2020-11-24 2021-03-23 北京三快在线科技有限公司 一种多模型训练方法、装置、电子设备及存储介质
CN112632262A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 一种对话方法、装置、计算机设备及存储介质
CN112396182B (zh) * 2021-01-19 2021-04-16 腾讯科技(深圳)有限公司 脸部驱动模型的训练和脸部口型动画的生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068325A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 面部动作识别模型训练方法、面部动作识别方法、装置、计算机设备和存储介质
CN111985335A (zh) * 2020-07-20 2020-11-24 中国人民解放军军事科学院国防科技创新研究院 一种基于面部生理信息的唇语识别方法及装置

Also Published As

Publication number Publication date
CN113077535A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110275939B (zh) 对话生成模型的确定方法及装置、存储介质、电子设备
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
CN110837548A (zh) 答案匹配方法、装置、电子设备及存储介质
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN112562723B (zh) 发音准确度确定方法、装置、存储介质和电子设备
CN112257437A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN114223029A (zh) 支持装置进行语音识别的服务器及服务器的操作方法
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN113111812A (zh) 一种嘴部动作驱动模型训练方法及组件
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN110955818A (zh) 搜索方法、装置、终端设备及存储介质
CN112837669A (zh) 语音合成方法、装置及服务器
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN114547244A (zh) 用于确定信息的方法和装置
CN112910761B (zh) 即时通讯方法、装置、设备、存储介质以及程序产品
CN113889092A (zh) 语音识别结果的后处理模型的训练方法、处理方法及装置
CN112434953A (zh) 一种基于计算机数据处理的客服人员考核方法和装置
CN113192530B (zh) 模型训练、嘴部动作参数获取方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant