CN112331184A - 语音口型同步方法、装置、电子设备及存储介质 - Google Patents

语音口型同步方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112331184A
CN112331184A CN202011177863.8A CN202011177863A CN112331184A CN 112331184 A CN112331184 A CN 112331184A CN 202011177863 A CN202011177863 A CN 202011177863A CN 112331184 A CN112331184 A CN 112331184A
Authority
CN
China
Prior art keywords
mouth shape
voice
animation data
basic
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011177863.8A
Other languages
English (en)
Other versions
CN112331184B (zh
Inventor
童能仕
卢德辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011177863.8A priority Critical patent/CN112331184B/zh
Publication of CN112331184A publication Critical patent/CN112331184A/zh
Application granted granted Critical
Publication of CN112331184B publication Critical patent/CN112331184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供一种语音口型同步方法、装置、存储介质及电子设备;涉及计算机技术领域。所述方法包括:获取基础口型动作图像并提取其指定特征点,基于指定特征点利用网格变形器调整得到基础口型动作模型,得到其在网格变形器中对应的顶点信息。基于所述基础口型动作模型的顶点信息,利用由解析目标语音生成的第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。本公开在制作2D角色语音口型同步动画时资源占用小、制作时间成本低而且动画效果更逼真。

Description

语音口型同步方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种语音口型同步方法、语音口型同步装置、计算机可读存储介质以及电子设备。
背景技术
现如今,随着动画制作水平的提高,越来越多的游戏增加了剧情对话动画。而且,为了提升用户的游戏体验,使得游戏角色的口型动画效果更逼真,就需要实现游戏角色的语音口型同步。
现有技术中,为了达到语音口型同步效果,需要美术制作所有的语音对应的口型动画,不仅资源占用大,而且制作时间成本高。
因此,提供一种资源占用小、制作时间成本低而且动画效果更逼真的角色语音口型同步方法是非常必要的。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音口型同步方法、语音口型同步装置、计算机可读存储介质以及电子设备。该方法在制作2D角色语音口型同步动画时资源占用小、制作时间成本低而且动画效果更逼真。
根据本公开的第一方面,提供一种语音口型同步方法,包括:
获取基础口型动作图像并提取所述基础口型动作图像的指定特征点;
基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型;
获取所述基础口型动作模型在所述网格变形器中对应的顶点信息;
解析目标语音生成第一口型动画数据;
基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
在本公开的一种示例性实施例中,所述指定特征点为口型关键槽位点。
在本公开的一种示例性实施例中,所述基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型,包括:
设置网格变形器中的网格权重;
基于所述指定特征点添加网格顶点;
根据所述网格权重调整所述网格顶点得到所述基础口型动作模型。
在本公开的一种示例性实施例中,所述解析目标语音生成第一口型动画数据,包括:
利用机器学习算法分析所述目标语音得到语音分析文件;
解析所述语音分析文件生成第一口型动画数据。
在本公开的一种示例性实施例中,所述语音分析文件为所述目标语音对应的音素文件,所述利用机器学习算法分析所述目标语音得到语音分析文件,包括:
对所述目标语音和样本语音进行特征参数提取;
将所述样本语音的特征参数作为输入层数据和所述特征参数对应的音素作为输出层数据,提供神经网络训练数据,通过迭代训练,得到神经网络模型;
将所述目标语音的特征参数输入到所述神经网络模型中,得到所述目标语音对应的音素文件。
在本公开的一种示例性实施例中,所述第一口型动画数据为口型关键帧的时间序列和权重序列,所述解析所述语音分析文件生成第一口型动画数据,包括:
将所述语音分析文件解析为对应时间线上口型关键帧的权重数据。
在本公开的一种示例性实施例中,所述基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,包括:
基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行加权计算。
在本公开的一种示例性实施例中,所述得到与目标语音同步的第二口型动画数据后,所述方法还包括:
通过线性插值算法生成与所述第二口型动画数据对应的过渡数据;
融合所述第二口型动画数据与所述过渡数据。
根据本公开的第二方面,提供一种语音口型同步装置,包括:
特征点提取模块,用于获取基础口型动作图像并提取所述基础口型动作图像的指定特征点;
调整模块,用于基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型;
信息获取模块,用于获取所述基础口型动作模型在所述网格变形器中对应的顶点信息;
语音解析模块,用于解析目标语音生成第一口型动画数据;
计算模块,用于基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开示例实施方式所提供的语音口型同步方法中,获取基础口型动作图像并提取其指定特征点,基于指定特征点利用网格变形器调整得到基础口型动作模型,得到其在网格变形器中对应的顶点信息。基于所述基础口型动作模型的顶点信息,利用由解析目标语音生成的第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。本公开在制作2D角色语音口型同步动画时资源占用小、制作时间成本低而且动画效果更逼真。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了可以应用本公开实施例的一种语音口型同步方法及装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的语音口型同步方法的流程图;
图4示意性示出了根据本公开的一个实施例的基础口型动作图像的效果图;
图5示意性示出了根据本公开的一个实施例的由网格变形器得到的基础口型动作模型的效果图;
图6示意性示出了根据本公开的一个实施例的语音口型同步方法的步骤的流程图;
图7示意性示出了根据本公开的一个实施例的语音口型同步装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种语音口型同步方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的语音口型同步方法一般由服务器105执行,相应地,语音口型同步装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的语音口型同步方法也可以由终端设备101、102、103执行,相应的,语音口型同步装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3和图6所示的各个步骤等。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以下对本公开实施例的技术方案进行详细阐述:
2D游戏角色动画的实现一般分为两类:序列帧动画和骨骼动画。其中,序列帧动画是将每一张图片按照一定的帧率进行播放,实现简单,运行效率高。骨骼动画是只保存各部分切图组成的纹理集和动画数据,只需要很少的原画,便可完成很多不同的动作动画。在动画制作时,只需要完成对关键帧的编辑,通过动画补间,便可自动生成流畅的动画动作。
传统的2D游戏角色动画每帧都需要一张图片,而每新增一个动画都会增加游戏的磁盘空间和内存要求。这不仅增加了美工的工作量,如果通过缩减动画数量以符合资源大小限制时,也会对最终动画成品产生影响。
基于上述一个或多个问题,本示例实施方式提供了一种语音口型同步方法,该方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该语音口型同步方法可以包括以下步骤S310至步骤S350:
步骤S310.获取基础口型动作图像并提取所述基础口型动作图像的指定特征点。
步骤S320.基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型。
步骤S330.获取所述基础口型动作模型在所述网格变形器中对应的顶点信息。
步骤S340.解析目标语音生成第一口型动画数据。
步骤S350.基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
在本公开示例实施方式所提供的语音口型同步方法中,获取基础口型动作图像并提取其指定特征点,基于指定特征点利用网格变形器调整得到基础口型动作模型,得到其在网格变形器中对应的顶点信息。基于所述基础口型动作模型的顶点信息,利用由解析目标语音生成的第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。本公开在制作2D角色语音口型同步动画时资源占用小、制作时间成本低而且动画效果更逼真。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,获取基础口型动作图像并提取所述基础口型动作图像的指定特征点。
本示例实施方式中,首先,参考图4所示,获取角色的a、e、i、o、u 5种元音口型效果图,作为基础口型动作图像,所述5种元音口型效果图可以由原画图片输出。例如,可以使用PS(Photoshop,图像处理软件)制作和输出原画,即输出角色完整的PNG格式图片,包括嘴巴及其它身体部位,将所述PNG格式图片分层导出并输入到Spine软件中保存。然后,利用Spine软件加载所述PNG格式图片以得到对应的Json文件。
Spine软件是一款2D动画软件。其中,Slots为Spine软件中的插槽,用于放置附件图片的容器。Bones为Spine软件中的骨骼,用于绑定插槽和调节动画。Animatons为Spine软件中通过调整位移、旋转和缩放等数据制作的动画。另外,Spine软件在导出数据时可以支持Json数据格式的输出,具体包括Json数据格式、Atlas格式、PNG格式三种文件格式。
然后,在Spine软件的装配模式下,激活骨骼创建工具进行骨骼创建。创建口型骨骼完成后,选取所述5种元音口型效果图的PNG文件作为切片素材。在Spine软件中,所述切片素材不是直接附加在骨骼上,而是附加在插槽上,插槽则附加在骨骼上。接着提取所述切片素材中的5种元音口型效果图的指定特征点,所述指定特征点可以为5种元音口型分别对应的口型关键槽位点。其中,不同角色的口型需要设置的口型关键槽位点的数目不同。例如,A角色的口型对应的关键槽位点数目为3个,而对于表情更丰富的B角色,其口型对应的关键槽位点数目为6个。此时,可以将A角色口型的3个口型关键槽位点分别命名为Bone1、Bone2、Bone3,也意味着A角色口型由所述3个槽位点组成。
在步骤S320中,基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型。
本示例实施方式中,口型骨骼创建完成后,在所述切片素材上利用网格变形器新建网格。首先,可以设置网格变形器中的网格权重。其中,权重用于将网格顶点绑定到一个或多个骨骼。变换骨骼时,网格顶点也会随之变换,因此,权重可以使网格通过操纵骨骼而自动变形。
其次,基于所述口型关键槽位点添加网格顶点。每个顶点会为每个骨骼设定权重,以决定骨骼的影响。要改变所选顶点的权重,首先要选中需要增加或减少权重的骨骼。
最后,根据所述网格权重移动所述网格顶点,得到5种基础口型动作模型。参考图5所示,为由网格变形器基于所述口型关键槽位点拉扯得到的元音a口型的效果图。
在步骤S330中,获取所述基础口型动作模型在所述网格变形器中对应的顶点信息。
本示例实施方式中,根据所述网格权重移动所述网格顶点得到所述5种基础口型动作模型,并将其作为模板。可以通过程序脚本选取并输出所述5种基础口型动作模型对应的Json格式的顶点信息模板数据。
在步骤S340中,解析目标语音生成第一口型动画数据。
本示例实施方式中,利用机器学习算法分析所述目标语音得到语音分析文件,所述语音分析文件为所述目标语音对应的音素文件。
机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。神经网络就是一种机器学习方法,可以通过预先提供的一批相互对应的输入-输出数据,分析掌握两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果。参考图6所示,所述利用机器学习算法分析所述目标语音得到语音分析文件可以包括以下步骤S610至步骤S630:
步骤S610.对所述目标语音和样本语音进行特征参数提取。
步骤S620.将所述样本语音的特征参数作为输入层数据和所述特征参数对应的音素作为输出层数据,提供神经网络训练数据,通过迭代训练,得到神经网络模型。
步骤S630.将所述目标语音的特征参数输入到所述神经网络模型中,得到所述目标语音对应的音素文件。
本示例实施方式中,把目标语音进行分帧分成若干小段,把每一帧识别为一个状态,再把状态组合成音素,即声母和韵母,并且一个音素通常会包含三个状态。通过声学模型利用语言的声学特性将一系列语音帧转化为音素序列,序列中的音素会被映射到一个口型动作单元上,所述口型动作单元称为视素。音素和视素将各个口型用一帧图像表示,并对应于一个特定的语音。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S610中,对所述目标语音和样本语音进行特征参数提取。
本示例实施方式中,对所述目标语音和样本语音进行特征参数提取,所述特征参数可以是语音识别领域内常用的MFCCs(梅尔频率倒谱系数)。例如,对所述目标语音和样本语音进行预加重、分帧及加窗等预处理,获得分布在时间轴上不同时间窗内的频谱,将所述频谱转换为梅尔频谱,对所述梅尔频谱进行倒谱分析获得MFCCs。也可以将所述目标语音和样本语音进行码本化,码本中的每一个代码对应着一个语音分类和相对应的口型。通过LPC(Linear Prediction Coefficients,线性预测系数)分析将码本转化为LPC对数倒谱系数,用一个三层的神经网络进行训练。还可以利用BP神经网络实现从语音到可视化参数的映射转换,本示例性实施例中对此不做特殊限定。
在步骤S620中,将所述样本语音的特征参数作为输入层数据和所述特征参数对应的音素作为输出层数据,提供神经网络训练数据,通过迭代训练,得到神经网络模型。
本示例实施方式中,声学模型将提取的所有帧的特征参数MFCCs转化为有序的音素输出,所述声学模型可以为DNN-HMM(深度神经网络-马尔可夫)模型,在利用DNN-HMM模型得到每一帧语音在DNN模型上的标准值时,需要通过事先训练好的GMM-HMM模型识别系统在训练语料上进行强制对齐。所述声学模型也可以为GMM-HMM(高斯混合-马尔可夫)模型,但识别的精度低于DNN-HMM模型,本示例性实施例中对此不做限定。
本示例实施方式中,在事先训练的GMM-HMM模型中,HMM模型可以采用三音素模型,以样本语音的特征参数MFCCs为输入来训练HMM模型,并通过EM算法进行迭代,具体可以通过EM算法对所述样本语音进行分帧并对齐。例如,通过E步求出每一帧位于哪个音素,M步是对于每个音素,找到它对应的所有帧,从这些帧的特征中估计音素模型的参数。对齐之后对每个状态进行GMM训练,之后循环E步和M步。然后,采用GMM模型来计算HMM中隐藏状态的似然值。
本示例实施方式中,在事先训练的GMM-HMM模型中,还可以通过基于Viterbi(一种动态规划算法)算法的强制对齐方法给每个语音帧提供一个HMM状态标签,以此状态标签,训练一个基于DNN训练算法的DNN模型。用DNN模型替换HMM模型中计算观察概率的GMM部分,但保留转移概率和初始概率等其他部分。
在步骤S630中,将所述目标语音的特征参数输入到所述神经网络模型中,得到所述目标语音对应的音素文件。
本示例实施方式中,将所述样本语音的特征参数和所述特征参数对应的音素作为所述神经网络的训练数据,将所述训练数据通过迭代训练得到所述DNN-HMM模型后,将所述目标语音的特征参数输入到所述DNN-HMM模型中,得到所述目标语音对应的音素文件。
本示例实施方式中,解析所述语音分析文件生成第一口型动画数据。
所述语音分析文件为所述目标语音对应的音素文件,所述第一口型动画数据为口型关键帧的时间序列和权重序列。基于协同发音问题解析所述音素文件。协同发音是指除当前正在发音的音素外,该音素之前或之后的一些音素也会对当前口型动作产生影响。例如,一个口型由两个音素决定,一个是正在发音的音素,一个是后继音素。分析所述音素文件中各个音素量的占比,通过占比决定各个音素对应的口型权重,得到所述目标语音在对应时间线上口型关键帧的权重数据。
在步骤S350中,基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
本示例实施方式中,所述第一口型动画数据为口型关键帧对应的时间序列和权重序列。将所述时间序列和权重序列输入Spine软件中,根据当前口型关键帧的权重数据以及各基础口型模型的顶点信息计算出新的网格顶点坐标。
例如,如果第t1s的关键帧口型为权重为a的i口型,且a=1,其对应的第一口型动画数据为(t1,a,0,0,0,0)。其中,数据集合中的0分别表述其余4种口型的权重大小,则选取所述基础口型模型中的i口型对应的顶点信息作为第1s的第二口型动画数据。如果第t2s的关键帧口型为权重为b的i口型,还包含权重为c的o口型,且b+c=1,其对应的第一口型动画数据为(t2,b,c,0,0,0)。同样,数据集合中的0分别表述其余3种口型的权重大小,则根据所述第一口型动画数据中的权重大小对基础口型模型中两种口型的顶点信息可以进行加权计算:
(c1、c2…cn)=(a1、a2…an)*b+(b1、b2…bn)*c
其中,(a1、a2…an)为基础口型模型中的i口型对应的顶点信息,(b1、b2…bn)为基础口型模型中的o口型对应的顶点信息,(c1、c2…cn)为经过权重融合计算得到的当前口型对应的顶点信息,将其作为第t2s处第二口型动画数据。从第t1s到第t2s的过程中将网格顶点从原来位置变换至当前口型对应的顶点位置,得到与目标语音同步的第二口型动画数据,所述第二口型动画数据包含时间序列数据和顶点信息数据。
本示例实施方式中,得到与目标语音同步的第二口型动画数据后,可以通过线性插值算法生成与所述第二口型动画数据对应的过渡数据。首先,插值是指在两个已知值之间填充未知数据的过程。在动画中,插值是指在两个关键帧之间生成新值。由于插值在两个关键帧之间生成所有帧,因此插值也称为内插。其次,两个口型关键帧之间的过渡方式可以是线性插值,即时间轴位置从第一个关键帧移到第二个关键帧时,值以恒定速率变化。另外,过渡方式也可以是贝塞尔插值,还可以是步进式插值,本实施例对此不做限定。
例如,对于一个时长为10秒的动画,可以沿着时间线指定关键帧,在每个整数秒处都设有一个关键帧,那么整数秒之间的骨架状态通过帧间插值获得。在选定两个关键帧后,计算出两个关键帧上的对应点间的直线距离,从而计算出中间的插值点,生成过渡数据。然后,将所述第二口型动画数据与所述过渡数据进行融合,使最终口型动画效果更逼真。
本示例实施方式中,可以将所述融合后的口型动画数据保存为Spine软件支持的Json数据格式文件。将所述Json数据格式文件输出并嵌入到游戏应用程序中,得到与目标语音对应的口型动画,从而实现语音口型动画同步。也可以将所述融合后的口型动画数据保存为二进制数据格式文件,本示例性实施例中对此不做限定。
本示例实施方式中,一方面,只需要5种基础元音口型资源,其余口型动画由脚本输出的动画数据制作得到,不需要美术单独制作动画。同时,通过本示例所述方法可以动态插入不同语音对应的模型动画,也不需要美术针对不同的语音去制作不同的口型动画。因此,不仅可以降低美术制作的时间和成本,而且更加方便和快捷。另一方面,所述口型动画数据文件资源占用小,应用到游戏程序中时,能提高游戏加载速率和减小游戏包体大小。又一方面,本示例所述方法提出的口型关键帧的融合过渡方案达到的口型动画效果更逼真。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了一种语音口型同步装置。该装置可以应用于一服务器或终端设备。参考图7所示,该语音口型同步装置700可以包括特征点提取模块710、调整模块720、信息获取模块730、语音解析模块740以及计算模块750。其中:
特征点提取模块710,用于获取基础口型动作图像并提取所述基础口型动作图像的指定特征点;
调整模块720,用于基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型;
信息获取模块730,用于获取所述基础口型动作模型在所述网格变形器中对应的顶点信息;
语音解析模块740,用于解析目标语音生成第一口型动画数据;
计算模块750,用于基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
上述语音口型同步装置中各模块的具体细节已经在对应的语音口型同步方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种语音口型同步方法,其特征在于,包括:
获取基础口型动作图像并提取所述基础口型动作图像的指定特征点;
基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型;
获取所述基础口型动作模型在所述网格变形器中对应的顶点信息;
解析目标语音生成第一口型动画数据;
基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
2.根据权利要求1所述的语音口型同步方法,其特征在于,所述指定特征点为口型关键槽位点。
3.根据权利要求1所述的语音口型同步方法,其特征在于,所述基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型,包括:
设置网格变形器中的网格权重;
基于所述指定特征点添加网格顶点;
根据所述网格权重调整所述网格顶点得到所述基础口型动作模型。
4.根据权利要求1所述的语音口型同步方法,其特征在于,所述解析目标语音生成第一口型动画数据,包括:
利用机器学习算法分析所述目标语音得到语音分析文件;
解析所述语音分析文件生成第一口型动画数据。
5.根据权利要求4所述的语音口型同步方法,其特征在于,所述语音分析文件为所述目标语音对应的音素文件,所述利用机器学习算法分析所述目标语音得到语音分析文件,包括:
对所述目标语音和样本语音进行特征参数提取;
将所述样本语音的特征参数作为输入层数据和所述特征参数对应的音素作为输出层数据,提供神经网络训练数据,通过迭代训练,得到神经网络模型;
将所述目标语音的特征参数输入到所述神经网络模型中,得到所述目标语音对应的音素文件。
6.根据权利要求4所述的语音口型同步方法,其特征在于,所述第一口型动画数据为口型关键帧的时间序列和权重序列,所述解析所述语音分析文件生成第一口型动画数据,包括:
将所述语音分析文件解析为对应时间线上口型关键帧的权重数据。
7.根据权利要求1所述的语音口型同步方法,其特征在于,所述基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,包括:
基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行加权计算。
8.根据权利要求1所述的语音口型同步方法,其特征在于,所述得到与所述目标语音同步的第二口型动画数据后,所述方法还包括:
通过线性插值算法生成与所述第二口型动画数据对应的过渡数据;
融合所述第二口型动画数据与所述过渡数据。
9.一种语音口型同步装置,其特征在于,包括:
特征点提取模块,用于获取基础口型动作图像并提取所述基础口型动作图像的指定特征点;
调整模块,用于基于所述指定特征点利用网格变形器调整得到所述基础口型动作模型;
信息获取模块,用于获取所述基础口型动作模型在所述网格变形器中对应的顶点信息;
语音解析模块,用于解析目标语音生成第一口型动画数据;
计算模块,用于基于所述基础口型动作模型的顶点信息利用所述第一口型动画数据进行计算,得到与目标语音同步的第二口型动画数据。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的方法。
CN202011177863.8A 2020-10-29 2020-10-29 语音口型同步方法、装置、电子设备及存储介质 Active CN112331184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011177863.8A CN112331184B (zh) 2020-10-29 2020-10-29 语音口型同步方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011177863.8A CN112331184B (zh) 2020-10-29 2020-10-29 语音口型同步方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112331184A true CN112331184A (zh) 2021-02-05
CN112331184B CN112331184B (zh) 2024-03-15

Family

ID=74297771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011177863.8A Active CN112331184B (zh) 2020-10-29 2020-10-29 语音口型同步方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112331184B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132815A (zh) * 2021-04-22 2021-07-16 北京房江湖科技有限公司 视频生成方法和装置、计算机可读存储介质、电子设备
CN118212934A (zh) * 2024-05-21 2024-06-18 江苏物润船联网络股份有限公司 基于语音识别的数字人嘴型智能驱动方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB420361A (en) * 1933-03-28 1934-11-28 Lucas Barrett Combined sound reproducing apparatus and animated doll or other figures
KR20060031449A (ko) * 2004-10-08 2006-04-12 비쥬텍쓰리디(주) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
JP2014146340A (ja) * 2013-01-29 2014-08-14 Toshiba Corp コンピュータ生成ヘッド
KR20140133056A (ko) * 2013-05-09 2014-11-19 중앙대학교기술지주 주식회사 애니메이션 립싱크 자동화 장치 및 방법
CN104361620A (zh) * 2014-11-27 2015-02-18 韩慧健 一种基于综合加权算法的口型动画合成方法
CA2959862A1 (en) * 2017-03-03 2018-09-03 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
CN108763190A (zh) * 2018-04-12 2018-11-06 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质
CN109064532A (zh) * 2018-06-11 2018-12-21 上海咔咖文化传播有限公司 动画角色自动口型生成方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB420361A (en) * 1933-03-28 1934-11-28 Lucas Barrett Combined sound reproducing apparatus and animated doll or other figures
KR20060031449A (ko) * 2004-10-08 2006-04-12 비쥬텍쓰리디(주) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
JP2014146340A (ja) * 2013-01-29 2014-08-14 Toshiba Corp コンピュータ生成ヘッド
KR20140133056A (ko) * 2013-05-09 2014-11-19 중앙대학교기술지주 주식회사 애니메이션 립싱크 자동화 장치 및 방법
CN104361620A (zh) * 2014-11-27 2015-02-18 韩慧健 一种基于综合加权算法的口型动画合成方法
CA2959862A1 (en) * 2017-03-03 2018-09-03 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
CN108763190A (zh) * 2018-04-12 2018-11-06 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质
CN109064532A (zh) * 2018-06-11 2018-12-21 上海咔咖文化传播有限公司 动画角色自动口型生成方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132815A (zh) * 2021-04-22 2021-07-16 北京房江湖科技有限公司 视频生成方法和装置、计算机可读存储介质、电子设备
CN118212934A (zh) * 2024-05-21 2024-06-18 江苏物润船联网络股份有限公司 基于语音识别的数字人嘴型智能驱动方法
CN118212934B (zh) * 2024-05-21 2024-09-06 江苏物润船联网络股份有限公司 基于语音识别的数字人嘴型智能驱动方法

Also Published As

Publication number Publication date
CN112331184B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
US11049308B2 (en) Generating facial position data based on audio data
US9361722B2 (en) Synthetic audiovisual storyteller
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
Cosatto et al. Lifelike talking faces for interactive services
US11836837B2 (en) Video generation method, device and storage medium
CN113256821B (zh) 一种三维虚拟形象唇形生成方法、装置及电子设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN113538641A (zh) 动画生成方法及装置、存储介质、电子设备
CN109801349B (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
JP2003530654A (ja) キャラクタのアニメ化
CN112330779A (zh) 一种生成角色模型舞蹈动画的方法和系统
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN112331184B (zh) 语音口型同步方法、装置、电子设备及存储介质
CN114663556A (zh) 数据交互方法、装置、设备、存储介质以及程序产品
CN113111812A (zh) 一种嘴部动作驱动模型训练方法及组件
CN114255737B (zh) 语音生成方法、装置、电子设备
CN115497448A (zh) 语音动画的合成方法、装置、电子设备及存储介质
CN114219880A (zh) 一种生成表情动画的方法和装置
CN113706669A (zh) 动画合成方法、装置、电子设备及存储介质
KR20240131944A (ko) 입모양을 기반으로 하는 얼굴 이미지 생성 방법, 모델의 트레이닝 방법 및 기기
CN114882151A (zh) 虚拟形象视频的生成方法及装置、设备、介质和产品
CN117635784A (zh) 三维数字人脸部动画自动生成系统
EP4152269A1 (en) Method and apparatus of generating 3d video, method and apparatus of training model, device, and medium
CN116957669A (zh) 广告生成方法、装置、计算机可读介质及电子设备
CN115083371A (zh) 驱动虚拟数字形象唱歌的方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant