CN116580721B - 表情动画的生成方法、装置和数字人平台 - Google Patents

表情动画的生成方法、装置和数字人平台 Download PDF

Info

Publication number
CN116580721B
CN116580721B CN202310861185.4A CN202310861185A CN116580721B CN 116580721 B CN116580721 B CN 116580721B CN 202310861185 A CN202310861185 A CN 202310861185A CN 116580721 B CN116580721 B CN 116580721B
Authority
CN
China
Prior art keywords
information
word
voice
sentence
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310861185.4A
Other languages
English (en)
Other versions
CN116580721A (zh
Inventor
林悦
曾然然
王磊
赵德欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202310861185.4A priority Critical patent/CN116580721B/zh
Publication of CN116580721A publication Critical patent/CN116580721A/zh
Application granted granted Critical
Publication of CN116580721B publication Critical patent/CN116580721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种表情动画的生成方法、装置和数字人平台,涉及人工智能领域,所述方法包括:获取语音中每个文字的信息,其中,所述信息包括第一信息和第二信息,所述第一信息包括每个文字对应的发音类型,所述第二信息包括所述语音中每个文字的音量的振幅;根据所述第一信息和所述第二信息,确定所述语音中每个文字的口型特征;根据所述口型特征生成所述语音中每个文字对应的表情动画。本公开能够提高表情动画与真人表情的相似度。

Description

表情动画的生成方法、装置和数字人平台
技术领域
本公开涉及人工智能领域,尤其涉及一种表情动画的生成方法、装置和数字人平台。
背景技术
数字人是指具有仿真人外形的虚拟人物,在社交媒体平台、视频平台、营销平台中得到广泛的应用。例如,通过数字人进行语音播报、利用数字人的形象进行虚拟交互等。数字人主要通过面部的表情传达情感,而根据语音生成数字人面部的表情动画是目前的驱动数字人的主流方式。
发明内容
相关技术中,由语音驱动数字人的表情动画中口型并不随语音中文字的音量变化而变化,导致表情动画与真人表情相似度较低,使得数字人的表情动画不够真实,无法准确传达情感。
为了解决上述问题,本公开实施例提供了如下技术方案。
根据本公开实施例的一方面,提供一种表情动画的生成方法,包括:获取语音中每个文字的信息,其中,所述信息包括第一信息和第二信息,所述第一信息包括每个文字对应的发音类型,所述第二信息包括所述语音中每个文字的音量的振幅;根据所述第一信息和所述第二信息,确定所述语音中每个文字的口型特征;根据所述口型特征生成所述语音中每个文字对应的表情动画。
在一些实施例中,所述信息还包括第三信息,所述第三信息包括所述语音中每个文字相对于预定时刻的时间偏移量,所述表情动画的播放时间根据所述第三信息确定。
在一些实施例中,所述信息还包括第四信息,所述第四信息包括第一子信息,所述第一子信息包括每个文字所属语句的音量的平均振幅,所述方法还包括:根据所述第四信息确定所述语音中每个文字所属语句的情感特征,其中,所述表情动画根据所述口型特征和所述情感特征生成。
在一些实施例中,所述第四信息还包括第二子信息和第三子信息中的至少一项,其中,第二子信息包括所述语音中每个文字所属语句的语义,第三子信息包括所述语音中每个文字所属语句的语速。
在一些实施例中,所述根据所述第四信息确定所述语音中每个文字所属语句的情感特征包括:根据所述情感信息中的每一项子信息以及所述每一项子信息对应的权值,计算所述语音中每个文字所属语句的情感分类值;根据所述情感分类值确定所述语音中每个文字所属语句的情感特征。
在一些实施例中,所述第四信息包括第一子信息、第二子信息和第三子信息,在所述语音中的第一文字所属语句的长度大于预设长度的情况下,所述第一文字的第二子信息对应的权值大于所述第一文字的第三子信息对应的权值,所述第一文字是所述语音中的任意一个文字;在所述第一文字所属语句的长度小于或者等于所述预设长度的情况下,所述第一文字的第二子信息对应的权值小于所述第一文字的第一子信息对应的权值和所述第一文字第三子信息对应的权值。
在一些实施例中,所述第三信息包括所述语音中每个文字在所属语句中相对于前一个文字的时间偏移量。
根据本公开实施例的再一方面,提供一种表情动画的生成方法,包括:获取语音中每个文字的信息,其中,所述信息包括第一信息和第三信息,所述第一信息包括每个文字对应的发音类型,所述第三信息包括所述语音中每个文字相对于预定时刻的时间偏移量;根据所述第一信息,确定所述语音中每个文字的口型特征;根据所述口型特征生成所述语音中每个文字对应的表情动画,其中,所述表情动画的播放时间根据所述第三信息确定。
根据本公开实施例的又一方面,提供一种表情动画的生成方法,包括:获取语音中每个文字的信息,其中,所述信息包括第一信息和第四信息,所述第一信息包括每个文字对应的发音类型,所述第四信息包括第一子信息,所述第一子信息包括每个文字所属语句的音量的平均振幅;根据所述第一信息,确定所述语音中每个文字的口型特征;根据所述第四信息,确定所述语音中每个文字所属语句的情感特征;根据所述口型特征和所述情感特征,生成所述语音中每个文字对应的表情动画。
根据本公开实施例的还一方面,提供一种表情动画的生成装置,包括用于执行上述任意一个实施例所述的方法的模块。
根据本公开实施例的还一方面,提供一种表情动画的生成装置,包括:存储器;以及耦接至所述存储器的处理器,被配置为基于存储在所述存储器中的指令,执行时实现上述任意一个实施例所述的方法。
根据本公开实施例的还一方面,提供一种数字人平台,包括上述任意一个实施例所述的装置。
根据本公开实施例的还一方面,提供一种计算机可读存储介质,包括计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述任意一个实施例所述的方法。
根据本公开实施例的还一方面,提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现上述任意一个实施例所述的方法。
本公开实施例中,根据发音类型和振幅确定每个文字的口型特征可以使生成的表情动画的口型随语音的音量大小变化产生相应变化,从而使表情动画更生动形象,更能准确复现语音的发音力度,提高了表情动画与真人表情的相似度,使表情动画可以更真实、更准确地传达情感。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施例的表情动画的生成方法的流程示意图。
图2是根据本公开又一些实施例的表情动画的生成方法的流程示意图。
图3是根据本公开再一些实施例的表情动画的生成方法的流程示意图。
图4是根据本公开一些实施例的表情动画的生成装置的结构示意图。
图5是根据本公开又一些实施例的表情动画的生成装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1是根据本公开一些实施例的表情动画的生成方法的流程示意图。
如图1所示,表情动画的生成方法包括步骤102至步骤106。
在步骤102中,获取语音中每个文字的信息。每个文字的信息包括第一信息和第二信息,每个文字的第一信息包括每个文字(即该文字)对应的发音类型,每个文字的第二信息包括语音中每个文字的音量的振幅。振幅体现的是每个文字的发音的音量大小,文字的发音的音量越大,文字对应的口型的大小也越大。例如,文字1的第一信息包括文字1对应的发音类型,文字2的第一信息包括文字2对应的发音类型;文字1和文字2的第二信息类似。
在一些实施例中,若语音是中文语音,则语音中每个文字对应的发音类型包括声母和韵母中的至少一个。例如,一个中文语音中的一个文字是“他”,则文字“他”的发音类型包括声母“t”和韵母“a”。再例如,一个中文语音中包括一个文字“啊”,则文字“啊”的发音类型仅包括韵母“a”。
在另一些实施例中,若语音是英文语音,则语音中的一个文字代表一个英文单词。语音中每个单词对应的发音类型包括用于表征这个单词的读音的音标中的元音和辅音。发音类型中包括的元音和辅音可以有一个或者多个。例如,单词“bad”的发音类型包括一个元音“æ”和两个辅音“b”和“d”。
在一些实施例中,语音为中文语音,在通过语音识别算法获取语音的语义文本后,通过拼音识别算法,利用语义文本获取语音中每个文字的拼音用于确定每个文字的发音类型。在一些实施例中,拼音识别算法可以是lazy-pinyin算法、simple-pinyin算法等。
在另一些实施例中,语音为英文语音,在通过语音识别算法获取语音的语义文本后,通过音标识别算法,利用语义文本获取语音中每个单词的音标用于确定每个单词的发音类型。
在步骤104中,根据第一信息和第二信息,确定语音中每个文字的口型特征。口型特征是用于表征文字在发音时对应的口型的一组特征数据。
在一些实施例中,对于中文语音,针对发音类型中的声母和韵母预先设置有对应的口型特征库。口型特征库中存储有与每个声母以及每个韵母在单独发音时对应的标准口型的特征数据。在获取到第一信息后,通过口型特征库查找与第一信息对应的特征数据作为每个文字的口型特征。
在一些实施例中,在建立口型特征数据库时,仅采集声母、韵母的口型特征,无需为每一个文字对应采集一组口型特征。上述方式减轻了建立口型特征库的工作量,降低了口型特征库的复杂度,减少了口型特征库的占用资源。
例如,对于语音中的“她”字,其第一信息包括声母“t”和韵母“a”,则从口型特征库中分别查找到声母“t”对应的特征数据和韵母“a”对应的特征数据,根据“她”字的拼音“ta”合成一组针对字“她”的口型特征。对于发音相同的文字,其口型特征也相同。
在一些实施例中,对应不同音调但拼音相同的文字对应的口型特征相同。音调不影响表情动画的口型。例如,“一”、“疑”、“以”和“意”四个字对应口型特征库中的同一组特征数据。
在一些实施例中,建立口型特征库时,通过采集真人在无表情状态时的表情图像以及真人在发出对应声母或者韵母时的表情图像,将表情图像转换为特征数据进行保存,形成口型特征库。在一些实施例中,在采集真人的表情图像时,采用人脸识别算法,自动圈出人脸轮廓,然后人工对自动识别的人脸轮廓不合适处进行调整,将人脸轮廓转换为特征数据进行保存。
在一些实施例中,口型特征是融合形变变形器(blendshapes)特征。它能够使基础网格通过顶点插值运算的方式变形为目标形状。基础网络为数字人在无表情状态时的表情动画,目标形状为数字人在发音时的口型改变后的表情动画。
在一些实施例中,口型特征是一组动态特征。通过这一组动态特征,可以控制表情动画从无表情动画转换为发出口型特征对应文字的口型,再转换为无表情状态。
在步骤106中,根据口型特征生成语音中每个文字对应的表情动画。语音中每个字的表情动画连续播放就形成了整段语音的表情动画。
在上述实施例中,根据发音类型和振幅确定每个文字的口型特征可以使生成的表情动画的口型随语音的音量大小变化产生相应变化,从而使表情动画更生动形象,更能准确复现语音的发音力度,提高了表情动画与真人表情的相似度,使表情动画更真实、能更准确地传达情感。
在一些实施例中,语音中每个文字的信息还包括第三信息。第三信息包括语音中每个文字相对于预定时刻的时间偏移量。这种情况下,表情动画的播放时间根据第三信息确定。
通过上述方式生成的表情动画既可以体现每个文字的口型,又根据时间偏移量确定了每个文字的表情动画的播放时间。表情动画随语音中每个文字的发音而产生相应的变化,使得表情动画的口型和语音中对应文字的发音同步对齐,进一步提高了表情动画与真人表情的相似度。
在一些实施例中,通过语音识别算法获取语音中每个文字的第三信息。例如,通过自动语音识别(ASR,Automatic Speech Recognition)算法将语音转换成文字,并获取语音中每个文字相对于预设时刻的时间偏移量。
在一些实施例中,每个文字的第三信息包括语音中每个文字在所属语句中相对于前一个文字的时间偏移量。例如,语音包括多个句子,通过自动语音识别算法对语音进行处理,以获取语音中每一句话的语义文本、以每一句话为单位对语音进行裁剪得到的语音片段、任意一个语句中每一个文字相对于前一个文字的时间偏移量以及每个语音片段在整段语音中所处的时刻。通过第三信息可以定位文字在语音中的发声时刻,并进一步定位文字在所属语句中的发音时刻,通过该信息可以使表情动画的口型和语音中对应文字的发音同步对齐,有助于提高表情动画和真人表情的相似度。
在一些实施例中,每个文字相对于预定时刻的时间偏移量是指每个文字与前一个文字的发声时刻的之间的时间间隔。
在一些实施例中,发声时刻例如可以是前一个文字的发声开始时刻、结束时刻、中间时刻和音量的振幅峰值对应的时刻中的一个。
在另一些实施例中,每个文字相对于预定时刻的时间偏移量是语音开始时刻、语音中第一个文字的发声时刻、每个文字所属语句的语音片段的开始时刻、每个文字所属语句中第一个文字的发声时刻中的一个与每个文字的发声时刻之间的时间间隔。
语音开始时刻和语音中第一个文字的发声时刻可能相同,也可能不同。例如,在语音或者语音片段的开始时刻,语音中的第一个文字可能并未发声。例如,一段语音最开始播放的是一段背景音乐,在背景音乐结束后第一个文字才开始发声,此时语音开始时刻和语音中第一个文字的发声时刻不同。
每个文字所属语句的语音片段的开始时刻和每个文字所属语句中第一个文字的发声时刻可能相同,也可能不同。例如,文字所属语句的语音片段最开始播放一段白噪声,开始播放5秒后第一个文字才发声。
在一些实施例中,使用音频工具读取语音片段,根据时间偏移量确定每个文字在语音中的发声时间,获取每个文字对应的发声波形,进而确定每个文字的音量的振幅。
在一些实施例中,信息还包括第四信息,第四信息包括第一子信息,第一子信息包括每个文字所属语句的音量的平均振幅。表情动画的生成方法还包括根据第四信息确定语音中每个文字所属语句的情感特征,表情动画根据口型特征和情感特征生成。真人在强调某个文字内容时,通常会提高该文字的发音音量,并且配合例如睁大双眼、挑高眉毛等表情引起对话者的注意。通过口型特征和利用平均振幅确定的情感特征综合生成表情动画,可以进一步提高表情动画与真人表情的相似度,使表情动画更真实、能更准确地传达情感。
在一些实施例中,确定口型特征的过程包括:先根据第一信息在口信特征库中查找到语音中每个文字对应的口型特征,再根据第二信息调整查找到的口型特征的大小。
在另一些实施例中,口型特征库中还预先存储有同一发音类型(例如同一个声母或者韵母)在多个不同振幅下的口型的多组特征数据。根据发音类型在口型特征库中查找到和语音中的一个文字对应的多组的不同振幅下的口型特征,再根据第二信息确定多组口型特征中符合文字的音量的振幅的口型特征。
在一些实施例中,第四信息还包括第二子信息和第三子信息中的至少一项。第二子信息包括语音中每个文字所属语句的语义。第三子信息包括语音中每个文字所属语句的语速。真人在进行对话时的面部的表情变化除与振幅有关外还与语速和对话的语义表达的感情有关。在确定情感特征时,考虑语音中每个文字所属语句的语义和语速中的一项可以使确定的情感特征更准确,从而进一步提高表情动画与真人表情的相似度,使表情动画更真实、能更准确地传达情感。
在一些实施例中,第二子信息包括的语义是通过将语音中每一个文字所属的语句的语义文本输入语音分析算法获得的语音文本的语义情感分类。该语义情感分类与语义文本的内容有关。
在一些实施例中,在进行语义分析时,除文字所属的语句外,还综合考虑了该文字所属语句的上下文的文本信息,上述方式可以使该文字所属语句的语义分析结果更准确,从而使确定的情感特征更准确,更进一步提高表情动画与真人表情的相似度。
在一些实施例中,语音中每个文字所属的语句的语速是通过下述步骤获取的:通过语音识别算法将整段语音进行断句,将整段语音截取为每个语句对应的语音片段;通过语音识别算法获取每个语句对应的语音文本;根据每个语句对应的字数和语音片段的时长的比值确定每个语句的语速。
在一些实施例中,根据第四信息确定语音中每个文字所属语句的情感特征包括:根据情感信息中的每一项子信息以及每一项子信息对应的权值,计算语音中每个文字所属语句的情感分类值;根据情感分类值确定语音中每个文字所属语句的情感特征。利用权值调整每一项子信息对于确定文字所属语句的情感特征的贡献,可以使确定的情感特征更准确。
在一些实施例中,不同的情感分类值范围对应不同的情感分类。例如,若情感分类值落在第一取值范围内,则对应的情感分类为悲伤;若情感分类值落在第二取值范围内,则对应的情感分类为开心。再根据情感分类确定不同情感分类对应的情感特征。
在一些实施例中,第一子信息用A表示,第一子信息对应的权值为μ1;第二子信息用E表示,第二子信息对应的权值为μ2;第三子信息用V表示,第三子信息对应的权值为μ3
例如,在第四信息包括第一子信息、第二子信息和第三子信息的情况下,语音中每个文字所属语句的情感分类值Y11A+μ2V+μ3E。每一项子信息的权值的和为1,即μ123=1。
再例如,在第四信息包括第一子信息和第二子信息的情况下,语音中每个文字所属语句的情感分类值Y21A+μ2V。每一项子信息权值的和为1,即μ12=1。
还例如,在第四信息包括第一子信息和第三子信息的情况下,语音中每个文字所属语句的情感分类值Y31A+μ3E。每一项子信息权值的和为1,即μ13=1。
在一些实施例中,第四信息包括第一子信息、第二子信息和第三子信息。综合考虑三项子信息可以更进一步提高情感特征的准确性,再进一步提高表情动画与真人表情的相似度。
在一些实施例中,第四信息包括第一子信息、第二子信息和第三子信息。在语音中的第一文字所属语句的长度大于预设长度的情况下,第一文字的第二子信息E对应的权值μ2大于第一文字的第三子信息V对应的权值μ3。第一文字是语音中的任意一个文字。
在语音中的第一文字所属语句的长度小于或者等于预设长度的情况下,第一文字的第二子信息E对应的权值μ2小于第一文字的第一子信息A对应的权值μ1和第一文字的第三子信息V对应的权值μ3
在语音中任意一个文字所属的语句较长(长度大于预设长度)时,语义对文字的情感特征的影响大于语速对文字的情感特征的影响。将第二子信息即语义对应的权值设置为大于第三子信息即语速对应的权值,可以提高在长句中的文字的情感特征的准确性。
在语音中任意一个文字所属的语句较短(长度小于或者等于预设长度)时,语义对文字的情感特征的影响最小。将第二子信息即语义对应的权值设置为小于其他两项子信息对应的权值,可以提高在短句中的文字的情感特征的准确性。
在一些实施例中,预设长度是预设时长,第一文字所属语句的长度大于预设长度是指第一文字所属语句的语音片段的时长大于预设时长。
在一些实施例中,预设时长为5秒。
在一些实施例中,预设长度是预设文本长度,即字数,第一文字所属语句的长度大于预设长度是指第一文字所属语句的语义文本字数大于预设文本长度。
在一些实施例中,情感特征是一组静态的特征数据,用于表征静态的表情图像。
在一些实施例中,通过采集真人的面部在表现不同情感时的表情图像,建立情感特征库,在情感特征库中查找语音中任意一个文字对应的情感特征。例如,采集真人微笑时的表情图像,转化成表达开心的情感的特征数据进行保存。再例如,采集真人在哭泣时的表情图像,转化成表达悲伤的情感的特征数据进行保存。
在一些实施例中,情感特征是blendshapes特征。
在一些实施例中,根据口型特征和情感特征生成语音中每个文字的表情动画的过程包括将口型特征对应的动态的特征数据和情感特征对应的静态的特征数据进行同步渲染以生成语音中每个文字对应的表情动画。
除上述表情动画的生成方法外,本公开还提供一种表情动画的生成方法。下面结合图2进行介绍。
图2是根据本公开又一些实施例的表情动画的生成方法的流程示意图。
如图2所示,表情动画的生成方法包括步骤202至步骤206。
在步骤202中,获取语音中每个文字的信息。每个文字的信息包括第一信息和第三信息。第一信息包括每个文字对应的发音类型,第三信息包括语音中每个文字相对于预定时刻的时间偏移量。
在步骤204中,根据第一信息,确定语音中每个文字的口型特征。
在步骤206中,根据口型特征生成语音中每个文字对应的表情动画,表情动画的播放时间根据第三信息确定。
在上述实施例中,生成的表情动画既可以体现每个文字的口型,又根据时间偏移量确定了每个表情动画的播放时间。表情动画随每个文字的发音而产生相应的变化,提高了表情动画与真人动画的相似度。
除上述表情动画的生成方法外,本公开还提供一种表情动画的生成方法。下面结合图3进行介绍。
图3是根据本公开再一些实施例的表情动画的生成方法的流程示意图。
如图3所示,表情动画的生成方法包括步骤302至步骤308。
在步骤302中,获取语音中每个文字的信息。每个文字的信息包括第一信息和第四信息。第一信息包括每个文字对应的发音类型,第四信息包括第一子信息,第一子信息包括每个文字所属语句的音量的平均振幅。
在步骤304中,根据第一信息,确定语音中每个文字的口型特征。
在步骤306中,根据第四信息,确定语音中每个文字所属语句的情感特征。
在步骤308中,根据口型特征和情感特征,生成语音中每个文字对应的表情动画。
通过口型特征和利用平均振幅确定的情感特征综合生成表情动画,可以进一步提高表情动画与真人表情的相似度,使表情动画更真实、能更准确地传达情感。
除上述表情动画的生成方法外,本公开还提供一种表情动画的生成装置,下面将结合图4进行介绍。
图4是根据本公开一些实施例的表情动画的生成装置的结构示意图。如图4所示,表情动画的生成装置包括:获取模块401、确定模块402和生成模块403。
在一些实施例中,获取模块401被配置为获取语音中每个文字的信息。每个文字的信息包括第一信息和第二信息。第一信息包括每个文字对应的发音类型,第二信息包括语音中每个文字的音量的振幅。
确定模块402被配置为根据第一信息和第二信息,确定语音中每个文字的口型特征。
生成模块403被配置为根据口型特征生成语音中每个文字对应的表情动画。
在另一些实施例中,获取模块401被配置为获取语音中每个文字的信息。每个文字的信息包括第一信息和第三信息。第一信息包括每个文字对应的发音类型,第三信息包括语音中每个文字相对于预定时刻的时间偏移量。
确定模块402被配置为根据第一信息,确定语音中每个文字的口型特征。
生成模块403被配置为根据口型特征生成语音中每个文字对应的表情动画,表情动画的播放时间根据第三信息确定。
在还一些实施例中,获取模块401被配置为获取语音中每个文字的信息。每个文字的信息包括第一信息和第四信息。第一信息包括每个文字对应的发音类型,第四信息包括第一子信息,第一子信息包括每个文字所属语句的音量的平均振幅。
确定模块402被配置为根据第一信息,确定语音中每个文字的口型特征,并根据第四信息,确定语音中每个文字所属语句的情感特征。
生成模块403被配置为根据口型特征和情感特征,生成语音中每个文字对应的表情动画。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
应理解,上述表情动画的生成装置还可以包括其他模块以执行上述任意一个实施例的表情动画的生成方法。
图5是根据本公开又一些实施例的表情动画的生成装置的结构示意图。
如图5所示,表情动画的生成装置500包括存储器501以及耦接至该存储器501的处理器502,处理器502被配置为基于存储在存储器501中的指令,执行前述任意一个实施例的方法。
存储器501例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如可以存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
表情动画的生成装置500还可以包括输入输出接口503、网络接口504、存储接口505等。输入输出接口503、网络接口504、存储接口505之间、以及存储器501与处理器502之间例如可以通过总线506连接。输入输出接口503为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口504为各种联网设备提供连接接口。存储接口505为SD卡、U盘等外置存储设备提供连接接口。
本公开实施例还提供了一种数字人平台,包括上述任意一个实施例的表情动画的生成装置。
本公开实施例还提供了一种计算机可读存储介质,包括计算机程序指令,该计算机程序指令被处理器执行时实现上述任意一个实施例的方法。
本公开实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意一个实施例的方法。
至此,已经详细描述了本公开的各实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解,可由计算机程序指令实现流程图中一个流程或多个流程和/或方框图中一个方框或多个方框中指定的功能。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims (10)

1.一种表情动画的生成方法,包括:
获取语音中每个文字的信息,其中,所述信息包括第一信息、第二信息和第四信息,所述第一信息包括每个文字对应的发音类型,所述第二信息包括所述语音中每个文字的音量的振幅,所述第四信息包括:
第一子信息,包括每个文字所属语句的音量的平均振幅,
第二子信息,包括所述语音中每个文字所属语句的语义,
第三子信息,包括所述语音中每个文字所属语句的语速;
根据所述第一信息和所述第二信息,确定所述语音中每个文字的口型特征;
根据所述第四信息中的每一项子信息以及所述每一项子信息对应的权值,计算所述语音中每个文字所属语句的情感分类值;
根据所述情感分类值确定所述语音中每个文字所属语句的情感特征;
根据所述口型特征和所述情感特征生成所述语音中每个文字对应的表情动画;
其中,在所述语音中的第一文字所属语句的长度大于预设长度的情况下,所述第一文字的第二子信息对应的权值大于所述第一文字的第三子信息对应的权值,所述第一文字是所述语音中的任意一个文字;
在所述第一文字所属语句的长度小于或者等于所述预设长度的情况下,所述第一文字的第二子信息对应的权值小于所述第一文字的第一子信息对应的权值和所述第一文字的第三子信息对应的权值。
2.根据权利要求1所述的方法,其中,所述信息还包括第三信息,所述第三信息包括所述语音中每个文字相对于预定时刻的时间偏移量,所述表情动画的播放时间根据所述第三信息确定。
3.根据权利要求2所述的方法,其中,所述预定时刻包括所述语音的开始时刻、所述语音中第一个文字的发声时刻、所述每个文字所属语句的语音片段的开始时刻、所述每个文字所属语句中第一个文字的发声时刻中的一个。
4.根据权利要求1所述的方法,其中,所述预设长度为预设时长,所述第一文字所属语句的长度大于预设长度包括:所述第一文字所属语句的语音片段的时长大于所述预设时长。
5.根据权利要求1所述的方法,其中,所述预设长度为预设文本长度,所述第一文字所属语句的长度大于预设长度包括:所述第一文字所属语句的语义文本长度大于所述预设文本长度。
6.根据权利要求2所述的方法,其中,所述第三信息包括所述语音中每个文字在所属语句中相对于前一个文字的时间偏移量。
7.一种表情动画的生成装置,包括用于执行权利要求1-6任意一项所述的方法的模块。
8.一种表情动画的生成装置,包括:
存储器;以及
耦接至所述存储器的处理器,被配置为基于存储在所述存储器中的指令,执行权利要求1-6任意一项所述的方法。
9.一种数字人平台,包括如权利要求7或8所述的装置。
10.一种计算机可读存储介质,包括计算机程序指令,其中,所述计算机程序指令被处理器执行时实现权利要求1-6任意一项所述的方法。
CN202310861185.4A 2023-07-13 2023-07-13 表情动画的生成方法、装置和数字人平台 Active CN116580721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310861185.4A CN116580721B (zh) 2023-07-13 2023-07-13 表情动画的生成方法、装置和数字人平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310861185.4A CN116580721B (zh) 2023-07-13 2023-07-13 表情动画的生成方法、装置和数字人平台

Publications (2)

Publication Number Publication Date
CN116580721A CN116580721A (zh) 2023-08-11
CN116580721B true CN116580721B (zh) 2023-09-22

Family

ID=87536454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310861185.4A Active CN116580721B (zh) 2023-07-13 2023-07-13 表情动画的生成方法、装置和数字人平台

Country Status (1)

Country Link
CN (1) CN116580721B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN105744090A (zh) * 2014-12-09 2016-07-06 阿里巴巴集团控股有限公司 语音信息处理方法及装置
CN109087671A (zh) * 2018-09-20 2018-12-25 重庆先特服务外包产业有限公司 政府综合热线服务平台
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质
CN113099043A (zh) * 2019-12-23 2021-07-09 中国电信股份有限公司 客户服务的控制方法、装置和计算机可读存储介质
CN113609255A (zh) * 2021-08-04 2021-11-05 元梦人文智能国际有限公司 一种面部动画的生成方法、系统及存储介质
CN115147521A (zh) * 2022-06-17 2022-10-04 北京中科视维文化科技有限公司 一种基于人工智能语义分析的角色表情动画的生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN105744090A (zh) * 2014-12-09 2016-07-06 阿里巴巴集团控股有限公司 语音信息处理方法及装置
CN109087671A (zh) * 2018-09-20 2018-12-25 重庆先特服务外包产业有限公司 政府综合热线服务平台
CN113099043A (zh) * 2019-12-23 2021-07-09 中国电信股份有限公司 客户服务的控制方法、装置和计算机可读存储介质
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质
CN113609255A (zh) * 2021-08-04 2021-11-05 元梦人文智能国际有限公司 一种面部动画的生成方法、系统及存储介质
CN115147521A (zh) * 2022-06-17 2022-10-04 北京中科视维文化科技有限公司 一种基于人工智能语义分析的角色表情动画的生成方法

Also Published As

Publication number Publication date
CN116580721A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN108962219B (zh) 用于处理文本的方法和装置
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
KR102035596B1 (ko) 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
KR101594057B1 (ko) 텍스트 데이터의 처리 방법 및 장치
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
CN111260761B (zh) 一种生成动画人物口型的方法及装置
CN109801349B (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
CN116863038A (zh) 一种文本生成数字人语音及面部动画的方法
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN115700772A (zh) 人脸动画生成方法及装置
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
Wang et al. Comic-guided speech synthesis
WO2022242706A1 (zh) 基于多模态的反应式响应生成
CN113538636B (zh) 一种虚拟对象的控制方法、装置、电子设备及介质
KR102363324B1 (ko) 멜-스펙트로그램의 무음 부분을 결정하는 방법 및 음성 합성 시스템
KR20210059586A (ko) 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
Pravena et al. Development of simulated emotion speech database for excitation source analysis
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
CN116580721B (zh) 表情动画的生成方法、装置和数字人平台
JP6222465B2 (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
CN115529500A (zh) 动态影像的生成方法和装置
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant