CN112580669A - 一种对语音信息的训练方法及装置 - Google Patents

一种对语音信息的训练方法及装置 Download PDF

Info

Publication number
CN112580669A
CN112580669A CN202011577644.9A CN202011577644A CN112580669A CN 112580669 A CN112580669 A CN 112580669A CN 202011577644 A CN202011577644 A CN 202011577644A CN 112580669 A CN112580669 A CN 112580669A
Authority
CN
China
Prior art keywords
information
sequence
key point
voice information
face key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011577644.9A
Other languages
English (en)
Other versions
CN112580669B (zh
Inventor
张旭
殷昊
陈云琳
江明奇
杨喜鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Wuhan Information Technology Co ltd
Original Assignee
Go Out And Ask Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Suzhou Information Technology Co ltd filed Critical Go Out And Ask Suzhou Information Technology Co ltd
Priority to CN202011577644.9A priority Critical patent/CN112580669B/zh
Publication of CN112580669A publication Critical patent/CN112580669A/zh
Application granted granted Critical
Publication of CN112580669B publication Critical patent/CN112580669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对语音信息的训练方法及装置,本发明实施例首先获取语音信息数据;并针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;之后对多个所述时序特征信息进行模型训练,得到面部关键点模型。由此,通过对语音信息进行语义特征提取的学习,以及时序特征提取的学习,从而提升面部关键点模型的性能,使得面部关键点模型能够准确合成面部关键点序列,进而提高说话人视频的合成效果,从而解决现有技术中模型输出说话人画面出现的抖动问题。

Description

一种对语音信息的训练方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种对语音信息的训练方法及装置。
背景技术
现有的说话人视频通常是基于语音信息生成的说话人视频,也就是将语音信息输入训练好的模型中生成说话人视频。对于合成的说话人视频,通常要求在视觉上说话内容要与说话姿态保持一致,目前主流的方法主要关注说话时面部姿态,对身体姿态和人物表情姿态等方向工作做的比较少。
近年来,随着深度神经网络的成功应用,语音数据驱动的语音视频合成方法被提出。现有的方法利用三维人脸模型对语音信息进行处理,得到三维人脸图像,再将三维人脸图像经过三维人脸模型转换成面部关键点二维图像,最后将二维图像输入视频合成模型,从而生成与语音信息对应的说话人视频。由于训练三维人脸模型时仅使用几层循环神经网络作为编解码,因此网络特征学习能力比较弱。而且整个过程还使用三维人脸模型作为中间状态进行转换,从而导致生成的面部关键点二维图像误差较大。由此可知,上述方法不仅整体制作流程复杂,训练周期长,成本较高;而且不合理的网络结构还会导致语音信息转换的嘴形、姿态匹配效果不理想,从而使得最后合成的说话人视频存在模糊抖动的问题。
发明内容
本发明实施例提供一种对语音信息的训练方法及装置,能够使得生成的说话人视频更加自然逼真,提高了说话人视频的合成效果。
根据本发明实施例第一方面,提供一种对语音信息的训练方法,该方法包括:获取语音信息数据;针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;对多个所述时序特征信息进行模型训练,得到面部关键点模型。
在可选的实施例中,所述对多个所述时序特征信息进行模型训练,得到面部关键点模型,包括:针对任一所述时序特征信息:对所述时序特征信息进行解码处理,得到合成面部关键序列;获取与所述合成面部关键点序列对应的真实面部关键点序列,并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本;利用损失函数对多个所述对比样本进行模型训练,得到面部关键点模型。
在可选的实施例中,所述对所述语义特征信息进行时序特征提取,得到时序特征信息,包括:对所述语义特征信息施加权重,得到具有权重的语义特征信息;对具有权重的语义特征信息进行时序特征提取,得到时序特征信息。
在可选的实施例中,所述对语音信息进行处理,得到梅尔频谱图序列,包括:对所述语音信息进行标准化处理,得到准语音信息;利用快速傅里叶变换将所述准语音信息进行处理,得到梅尔频谱图序列。
在可选的实施例中,所述获取语音信息数据包括:获取多个原始语音信息;针对每个所述原始语音信息进行数据扩充处理,得到多个扩充的语音信息;将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。
在可选的实施例中,所述的训练方法还包括:获取待处理语音信息;利用所述面部关键点模型对所述待处理语音信息进行处理,得到面部关键点序列;对所述面部关键点序列进行图像处理,生成与所述待处理语音信息对应的面部图像;对所述面部图像和所述待处理语音信息进行拼接处理,生成说话人视频。
根据本发明实施例第二方面,还提供一种对语音信息训练的装置,该装置包括:获取模块,用于获取语音信息数据;提取梅尔频谱模块,用于针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;模型训练模块,用于对多个所述时序特征信息进行模型训练,得到面部关键点模型。
在可选的实施例中,所述模型训练模块包括:样本单元,用于针对任一所述时序特征信息:对所述时序特征信息进行解码处理,得到合成面部关键序列;获取与所述合成面部关键点序列对应的真实面部关键点序列,并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本;模型训练单元,用于利用损失函数对多个所述对比样本进行模型训练,得到面部关键点模型。
在可选的实施例中,所述模型训练模块包括:权重单元,用于对所述语义特征信息施加权重,得到具有权重的语义特征信息;时序单元,用于对具有权重的语义特征信息进行时序特征提取,得到时序特征信息。
在可选的实施例中,所述的训练装置还包括:所述获取模块,还用于获取待处理语音信息;面部关键点模块,用于利用所述面部关键点模型对所述待处理语音信息进行处理,得到面部关键点序列;图像处理模块,用于对所述面部关键点序列进行图像处理,生成与所述待处理语音信息对应的面部图像;拼接模块,用于对所述面部图像和所述待处理语音信息进行拼接处理,生成说话人视频。
根据本发明实施例第三方面,还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行如第一方面所述对语音信息的训练方法。
本发明实施例对语音信息的训练方法及装置,首先获取语音信息数据;并针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;之后对多个所述时序特征信息进行模型训练,得到面部关键点模型。由此能够对语音信息对应的语义内容以及语义内容的时序特征提取进行学习,从而提升面部关键点模型的性能,使得面部关键点模型能够准确合成面部关键点序列,进而提高说话人视频的合成效果,从而解决现有技术中模型输出说话人画面出现的抖动问题。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明一实施例对语音信息的训练方法的流程示意图;
图2示出了本发明另一实施例对语音信息的训练方法的流程示意图;
图3示出了本发明再一实施例对语音信息的训练方法的流程示意图;
图4示出了本发明一实施例对语音信息的训练装置的结构示意图;
图5示出了本发明再一实施例中面部关键点序列的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
如图1所示,本发明一实施例对语音信息的训练方法的流程示意图。
一种对语音信息的训练方法,该方法至少包括如下操作流程:S101,获取语音信息数据;S102,针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;S103,对多个所述时序特征信息进行模型训练,得到面部关键点模型。
在S101中,获取多个原始语音信息;针对每个所述原始语音信息进行数据扩充处理,得到多个扩充的语音信息;将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。在这里,语音信息是指音频信息。由于一个原始语音信息对应多个扩充语音信息,那么多个原始语音信息对应多个扩充语音信息。由此,通过对同一段语音信息中的特征进行随机采样的策略,进行数据扩充处理,从未实现在不增加语音信息录制时长的情况下有效增加语音信息的数据,从而能够实现对面部关键点模型进行高效训练。
在S102中,对所述语音信息进行标准化处理,得到准语音信息;利用快速傅里叶变换将所述准语音信息进行处理,得到梅尔频谱图序列。例如,将不同采样率的语音信息通过16KHz单通道音频转换成相同采样率。之后再对语音信息进行音量规范化处理,得到准语音信息。也就是说,标准化处理后的语音信息具有相同采样率和相同音量大小。利用残差网络算法对所述语音信息进行语义特征提取,生成语义特征信息。利用GRU算法对语义特征信息进行时序特征提取,生成时序特征信息。
在S103中,针对任一所述时序特征信息,利用全连接网络层和激活网络层对所述时序特征信息进行解码处理,生成面部关键点序列,基于生成的面部关键点序列调节上述网络参数,从而得到面部关键点模型。
本发明实施例通过对语音信息数据先进行语义内容特征提取的学习,然后再进行时序特征提取的学习,从而能够提升面部关键点模型的性能,使得面部关键点模型能够准确合成面部关键点序列,进而提高说话人视频的合成效果,从而解决现有技术中模型输出说话人画面出现的抖动问题。
应理解,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如图2所示,本发明另一实施例对语音信息的训练方法的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。一种对语音信息的训练方法,该方法至少包括如下操作流程:S201,获取语音信息数据;S202,针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息施加权重,得到具有权重的语义特征信息;对具有权重的语义特征信息进行时序特征提取,得到时序特征信息;S203,针对任一所述时序特征信息:对所述时序特征信息进行解码处理,得到合成面部关键序列;获取与所述合成面部关键点序列对应的真实面部关键点序列,并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本;S204,利用损失函数对多个所述对比样本进行模型训练,得到面部关键点模型。
其中,S201的具体实现过程与图1所示实施例中S101的具体实现过程相类似,这里不再赘述。
在S202中,对语义特征信息中表示指定部位的数据施加对应的特征权重,从而对语音信息中重要的内容施加更高的关注度,进而使得面部关键点模型针对指定部位的合成效果更加接近真实图像。
在S203中,解码处理是将时序样本数据从一种形式转化成另一种形式。例如将时序特征信息转换成面部关键点序列。
在S204中,先使用L2范数损失函数对合成面部关键点序列与真实面部关键点序列进行平方差后计算梯度从而进行跌迭代优化。之后将优化后的面部关键点序列使用一阶差分损失函数进行平滑约束。由此通过L2范数损失函数对对比样本进行处理,从而能够确保语音信息有效转化为面部关键点序列;通过使用一阶差分损失函数对输出的面部关键点序列进行平滑约束,从而使得输出面部关键点序列能够保持连续性,进而解决了现有技术中模型输出说话人画面出现的抖动问题。
应理解,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如图3所示,本发明再一实施例对语音信息的训练方法的流程示意图。本实施例是在图2实施例的基础上进一步优化得到的。该训练方法主要是基于前述实施例2生成的面部关键点模型和关键点合成图像模型等一系列模型合成说话人视频,具体包括如下操作流程:S301,获取待处理语音信息;S302,利用所述面部关键点模型对所述待处理语音信息进行处理,得到面部关键点序列;S303,对所述面部关键点序列进行图像处理,生成与所述待处理语音信息对应的面部图像;S304,对所述面部图像和所述待处理语音信息进行拼接处理,生成说话人视频。
在S304中,例如按照时间段,将面部图像和语音信息进行合成处理,生成说话人视频。
如图5所示,示出了图3所述面部关键点序列的结构示意图。
应理解,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
评判本发明实施例的方法指标为用户平均意见分(Mean Opinion Score,缩写MOS),通过对比已有方法和本实施例的方法生成的说话人视频进行用户评分,可以发现本实施例的方法在数据量更少的情况下,合成的说话人视频更加逼真,说话内容与嘴形更加匹配,MOS也高于现有技术说话人视频合成系统。
如图4所示,本发明一实施例对语音信息的训练装置的结构示意图。一种对语音信息的训练装置,该训练装置400包括:获取模块401,用于获取语音信息数据;提取梅尔频谱模块402,用于针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;模型训练模块403,用于对多个所述时序特征信息进行模型训练,得到面部关键点模型。
在可选的实施例中,所述模型训练模块包括:样本单元,用于针对任一所述时序特征信息:对所述时序特征信息进行解码处理,得到合成面部关键序列;获取与所述合成面部关键点序列对应的真实面部关键点序列,并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本;模型训练单元,用于利用损失函数对多个所述对比样本进行模型训练,得到面部关键点模型。
在可选的实施例中,所述模型训练模块包括:权重单元,用于对所述语义特征信息施加权重,得到具有权重的语义特征信息;时序单元,用于对具有权重的语义特征信息进行时序特征提取,得到时序特征信息。
在可选的实施例中,所述提取梅尔频谱模块包括:标准化单元,用于对所述语音信息进行标准化处理,得到准语音信息;处理单元,用于利用快速傅里叶变换将所述准语音信息进行处理,得到梅尔频谱图序列。
在可选的实施例中,所述获取模块包括:获取单元,用于获取多个原始语音信息;扩充处理单元,用于针对每个所述原始语音信息进行数据扩充处理,得到多个扩充的语音信息;确定单元,用于将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。
在可选的实施例中,所述的训练装置还包括:所述获取模块,还用于获取待处理语音信息;面部关键点模块,用于利用所述面部关键点模型对所述待处理语音信息进行处理,得到面部关键点序列;图像处理模块,用于对所述面部关键点序列进行图像处理,生成与所述待处理语音信息对应的面部图像;拼接模块,用于对所述面部图像和所述待处理语音信息进行拼接处理,生成说话人视频。
这里需要指出的是:以上对语音信息的训练装置实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对语音信息的训练装置中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于运算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个运算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该运算机软件产品存储在一个存储介质中,包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种对语音信息的训练方法,其特征在于,包括:
获取语音信息数据;
针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;
对多个所述时序特征信息进行模型训练,得到面部关键点模型。
2.根据权利要求1所述的训练方法,其特征在于,所述对多个所述时序特征信息进行模型训练,得到面部关键点模型,包括:
针对任一所述时序特征信息:对所述时序特征信息进行解码处理,得到合成面部关键序列;获取与所述合成面部关键点序列对应的真实面部关键点序列,并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本;
利用损失函数对多个所述对比样本进行模型训练,得到面部关键点模型。
3.根据权利要求1所述的训练方法,其特征在于,所述对所述语义特征信息进行时序特征提取,得到时序特征信息,包括:
对所述语义特征信息施加权重,得到具有权重的语义特征信息;
对具有权重的语义特征信息进行时序特征提取,得到时序特征信息。
4.根据权利要求1所述的训练方法,其特征在于,所述对语音信息进行处理,得到梅尔频谱图序列,包括:
对所述语音信息进行标准化处理,得到准语音信息;
利用快速傅里叶变换将所述准语音信息进行处理,得到梅尔频谱图序列。
5.根据权利要求1所述的训练方法,其特征在于,所述获取语音信息数据包括:
获取多个原始语音信息;
针对每个所述原始语音信息进行数据扩充处理,得到多个扩充的语音信息;
将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。
6.根据权利要求1所述的训练方法,其特征在于,还包括:
获取待处理语音信息;
利用所述面部关键点模型对所述待处理语音信息进行处理,得到面部关键点序列;
对所述面部关键点序列进行图像处理,生成与所述待处理语音信息对应的面部图像;
对所述面部图像和所述待处理语音信息进行拼接处理,生成说话人视频。
7.一种对语音信息的训练装置,其特征在于,包括:
获取模块,用于获取语音信息数据;
提取梅尔频谱模块,用于针对所述语音信息数据中的任一语音信息:对所述语音信息进行处理,得到梅尔频谱图序列;对所述梅尔频谱图序列进行语义特征提取,得到语义特征信息;对所述语义特征信息进行时序特征提取,得到时序特征信息;
模型训练模块,用于对多个所述时序特征信息进行模型训练,得到面部关键点模型。
8.根据权利要求7所述的训练装置,其特征在于,所述模型训练模块包括:
样本单元,用于针对任一所述时序特征信息:对所述时序特征信息进行解码处理,得到合成面部关键序列;获取与所述合成面部关键点序列对应的真实面部关键点序列,并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本;
模型训练单元,用于利用损失函数对多个所述对比样本进行模型训练,得到面部关键点模型。
9.根据权利要求7所述的训练装置,其特征在于,所述模型训练模块包括:
权重单元,用于对所述语义特征信息施加权重,得到具有权重的语义特征信息;
时序单元,用于对具有权重的语义特征信息进行时序特征提取,得到时序特征信息。
10.根据权利要求7所述的训练装置,其特征在于,还包括:
所述获取模块,还用于获取待处理语音信息;
面部关键点模块,用于利用所述面部关键点模型对所述待处理语音信息进行处理,得到面部关键点序列;
图像处理模块,用于对所述面部关键点序列进行图像处理,生成与所述待处理语音信息对应的面部图像;
拼接模块,用于对所述面部图像和所述待处理语音信息进行拼接处理,生成说话人视频。
CN202011577644.9A 2020-12-28 2020-12-28 一种对语音信息的训练方法及装置 Active CN112580669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011577644.9A CN112580669B (zh) 2020-12-28 2020-12-28 一种对语音信息的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011577644.9A CN112580669B (zh) 2020-12-28 2020-12-28 一种对语音信息的训练方法及装置

Publications (2)

Publication Number Publication Date
CN112580669A true CN112580669A (zh) 2021-03-30
CN112580669B CN112580669B (zh) 2023-08-01

Family

ID=75140107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011577644.9A Active CN112580669B (zh) 2020-12-28 2020-12-28 一种对语音信息的训练方法及装置

Country Status (1)

Country Link
CN (1) CN112580669B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN114419702A (zh) * 2021-12-31 2022-04-29 南京硅基智能科技有限公司 数字人生成模型、模型的训练方法以及数字人生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0992933A2 (en) * 1998-10-09 2000-04-12 Mitsubishi Denki Kabushiki Kaisha Method for generating realistic facial animation directly from speech utilizing hidden markov models
CN108847234A (zh) * 2018-06-28 2018-11-20 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN111370020A (zh) * 2020-02-04 2020-07-03 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
CN111429885A (zh) * 2020-03-02 2020-07-17 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0992933A2 (en) * 1998-10-09 2000-04-12 Mitsubishi Denki Kabushiki Kaisha Method for generating realistic facial animation directly from speech utilizing hidden markov models
CN108847234A (zh) * 2018-06-28 2018-11-20 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN111370020A (zh) * 2020-02-04 2020-07-03 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
CN111429885A (zh) * 2020-03-02 2020-07-17 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN114419702A (zh) * 2021-12-31 2022-04-29 南京硅基智能科技有限公司 数字人生成模型、模型的训练方法以及数字人生成方法
CN114419702B (zh) * 2021-12-31 2023-12-01 南京硅基智能科技有限公司 数字人生成模型、模型的训练方法以及数字人生成方法

Also Published As

Publication number Publication date
CN112580669B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN105976812B (zh) 一种语音识别方法及其设备
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN108615525B (zh) 一种语音识别方法及装置
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
CN112837669B (zh) 语音合成方法、装置及服务器
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN109119069B (zh) 特定人群识别方法、电子装置及计算机可读存储介质
CN113314119B (zh) 语音识别智能家居控制方法及装置
WO2023137922A1 (zh) 语音消息生成方法和装置、计算机设备、存储介质
CN112580669A (zh) 一种对语音信息的训练方法及装置
CN111916054B (zh) 基于唇形的语音生成方法、装置和系统及存储介质
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN113178200B (zh) 语音转换方法、装置、服务器及存储介质
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
CN113591472A (zh) 歌词生成方法、歌词生成模型训练方法、装置及电子设备
WO2020260797A1 (fr) Procede et dispositif d'obtention d'une reponse a partir d'une question orale posee a une interface homme-machine
CN111863026B (zh) 键盘乐器弹奏音乐的处理方法、装置、电子装置
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230704

Address after: 430223 floor 30, building a, block K18, poly times, No. 332, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Applicant after: Go out and ask (Wuhan) Information Technology Co.,Ltd.

Address before: 215000 unit 4-b404, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: Go out and ask (Suzhou) Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant