CN116741177A - 嘴型生成方法、装置、设备及存储介质 - Google Patents
嘴型生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116741177A CN116741177A CN202310631552.1A CN202310631552A CN116741177A CN 116741177 A CN116741177 A CN 116741177A CN 202310631552 A CN202310631552 A CN 202310631552A CN 116741177 A CN116741177 A CN 116741177A
- Authority
- CN
- China
- Prior art keywords
- mouth
- preset
- original audio
- original
- mouth shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008451 emotion Effects 0.000 claims abstract description 96
- 238000010586 diagram Methods 0.000 claims abstract description 90
- 230000015654 memory Effects 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 33
- 238000013473 artificial intelligence Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 20
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种嘴型生成方法、装置、设备及存储介质,其中,嘴型生成方法包括:获取数字人的原始音频;根据原始音频,确定原始音频对应的预设情绪嘴型图和预设原始嘴型图;根据预设原始嘴型图和预设情绪嘴型图,确定原始音频对应的目标嘴型图。该方法可以先根据数字人的原始音频,确定其对应的预设情绪嘴型图以及预设原始嘴型图,然后再基于上述预设情绪嘴型图和预设原始嘴型图,得到原始音频对应的目标嘴型图,以使得目标嘴型图可以带有情绪,从而更好地保证目标嘴型图与原始音频之间的匹配度,提升使用体验。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种嘴型生成方法、装置、设备及存储介质。
背景技术
当前,AI(人工智能)合成虚拟人物视频是人工智能技术应用的全新领域,包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项先进技术,实现了定制化的虚拟人物解决方案。通过AI生成的虚拟人物可用于许多与人交互的场景,如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化的生成不同人物形象,使视频交互内容更加生动有趣。
虚拟数字人,即采用计算机视觉或计算机图形学的技术手段,生成真人风格或卡通形象的人物模型。用户可以通过语音、文本等形式与数字人进行交互,虚拟数字人通过算法驱动面部的表情、嘴型和肢体动作的变化,配合声音,与用户进行互动,给予应答。目前,数字人已广泛应用于政务、金融、景区、电商等场景,例如在景区提供讲解服务、在电商网站上提供客户咨询服务等。
但是,现有技术在制作虚拟数字人时,容易存在虚拟数字人的嘴型和语音不对应,以及虚拟数字人的嘴型和虚拟数字人情绪不协调的技术问题,难以满足用户的需求。
发明内容
本申请的目的之一在于提供一种嘴型生成方法,其可以使得数字人的嘴型与语音以及情绪更加匹配;本申请的目的之二在于提供一种嘴型生成装置;本申请的目的之三在于提供一种电子设备;本申请的目标之四在于提供一种存储介质。
为了实现上述目的,第一方面,本申请提供了一种嘴型生成方法,所述嘴型生成方法包括:
获取数字人的原始音频;
根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;
根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。
进一步地,所述根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图,包括:
根据所述原始音频,确定所述原始音频对应的音素数据;其中,所述音素数据包括带有时间序列的多个音素;
根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图。
进一步地,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:
获取嘴型数据库;其中,所述嘴型数据库包括多个音素与嘴型关键参数的对应关系;
根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设嘴型关键参数;其中,多个所述预设嘴型关键参数与所述音素数据中的多个音素一一对应;
根据多个所述预设嘴型关键参数以及所述音素数据,确定所述预设原始嘴型图。
进一步地,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:
当确定需要对所述原始音频进行情绪化处理时,根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设情绪动作参数;其中,所述嘴型数据库包括多个音素与情绪动作参数的对应关系,多个所述预设情绪动作参数与所述音素数据中的多个音素一一对应;
根据多个所述预设情绪动作参数以及所述音素数据,确定所述预设情绪嘴型图。
进一步地,所述嘴型数据库通过以下方式确定:
获取真人录像;其中,所述真人录像包括嘴型信息和语音信息,所述嘴型信息包括,相应的语音信息对应的情绪嘴型信息和原始嘴型信息;
根据所述真人录像,确定多个音素与嘴型关键参数的对应关系,以及多个音素与情绪动作参数的对应关系,以得到所述嘴型数据库。
进一步地,所述根据所述原始音频,确定所述原始音频对应的音素数据,包括:
确定所述原始音频对应的初始文本;
根据所述初始文本,确定拼音文档;
根据所述拼音文档,确定所述原始音频对应的多个音素;
将所述原始音频对应的多个音素与所述原始音频进行对其处理,以确定所述音素数据。
进一步地,所述根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图,包括:
基于人工智能引擎,对所述原始音频、所述预设原始嘴型图和所述预设情绪嘴型图进行处理,以确定所述目标嘴型图。
为了实现上述目的,第二方面,本申请还提供了一种嘴型生成装置,所述嘴型生成装置包括:
获取模块,用于获取原始音频;
确定模块,用于根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;
还用于根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。
为实现上述目的,第三方面,本申请还提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的控制程序,以实现如上所述的嘴型生成方法。
为实现上述目的,第四方面,本申请还提供一种存储介质,该存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的嘴型生成方法。
本申请的有益效果:
本发明中,可以先根据数字人的原始音频,确定其对应的预设情绪嘴型图以及预设原始嘴型图,然后再基于上述预设情绪嘴型图和预设原始嘴型图,得到原始音频对应的目标嘴型图,以使得目标嘴型图可以带有情绪,从而更好地保证目标嘴型图与原始音频之间的匹配度,提升使用体验。
附图说明
图1示出本申请实施例提供的一种嘴型生成方法的流程示意图;
图2示出本申请实施例提供的一种嘴型生成装置的结构示意图;
图3示出本申请实施例提供的一种电子设备的结构示意图;
其中:
10、获取模块;20、确定模块;
100、电子设备;101、处理器;102、存储器;1021、操作系统;1022、应用程序;103、用户接口;104、网络接口;105、总线系统。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
为便于对本申请实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本申请实施例的限定。
本实施例提供了一种嘴型生成方法,可应用于电子设备。参考图1所示,该方法可包括:
S110、获取数字人的原始音频;
S120、根据原始音频,确定原始音频对应的预设情绪嘴型图和预设原始嘴型图;
S130、根据预设原始嘴型图和预设情绪嘴型图,确定原始音频对应的目标嘴型图。
在步骤S110中,原始音频指数字人的语音输出过程中的音频。此原始音频可以是一段不带有嘴型的数字人对应的音频。在生成数字人的嘴型之前,需要先得到该原始音频。
在步骤S120中,电子设备得到了原始音频后,便可对原始音频进行处理,以得到原始音频对应的预设情绪嘴型图和预设原始嘴型图。
其中,预设情绪嘴型图指原始音频对应的带有情绪的嘴型图。预设原始嘴型图指原始音频对应的不带有情绪的嘴型图。
需要说明的是,本方法中的嘴型图可以包括嘴部的图像,也可以包括嘴部周围的面部图像,甚至可以包括带有嘴部的整个面部的图像,对此不作限定。
在步骤S130中,电子设备得到了原始音频对应的预设情绪嘴型图和预设原始嘴型图后,便可基于人工智能引擎,对原始音频、预设原始嘴型图和预设情绪嘴型图进行处理,模拟人脸肌肉组织,以算法驱动人像模型的唇形,得到原始音频对应的目标嘴型图。
人工智能引擎可主要包含人像、语义、语音、对话等多种AI能力引擎,结合AI和计算机图形学自主研发的超写实、高精度3D数字员工驱动方案,能够同时支持合成语音和真人语音输入,生成音唇精准同步。上述算法驱动人像模型的唇形,还可包括表情和动作的模拟。
其中,人工智能引擎可根据实际需求设置,其可以是电子设备出厂前设置的,也可以是电子设备出厂后设置的,对此不作限定。并且,人工智能引擎设置完成后,后续可对其进行修改,以更好地保证人工智能引擎的可靠性,并且可更好地满足不同需求。
该方法中,可以先根据数字人的原始音频,确定其对应的预设情绪嘴型图以及预设原始嘴型图,然后再基于上述预设情绪嘴型图和预设原始嘴型图,得到原始音频对应的目标嘴型图,以使得目标嘴型图可以带有情绪,从而更好地保证目标嘴型图与原始音频之间的匹配度,提升使用体验。
其中,通过人工智能引擎将原始音频、预设原始嘴型图以及预设情绪嘴型图结合,模拟人脸肌肉组织,以算法驱动人像模型的唇形,生成音唇精准同步、表情丰富逼真的人像动画,具有高泛化、低延迟的特点,避免了虚拟数字人的嘴型和虚拟数字人面部表情不协调的技术问题。
本实施例提供了一种嘴型生成方法,可应用于电子设备。该方法可包括:
S210、获取数字人的原始音频;
S220、根据原始音频,确定原始音频对应的音素数据;其中,音素数据包括带有时间序列的多个音素;
S230、根据音素数据,确定预设原始嘴型图和预设情绪嘴型图;
S240、根据预设原始嘴型图和预设情绪嘴型图,确定原始音频对应的目标嘴型图。
其中,步骤S210可参考其他实施例中的步骤S110,步骤S240可参考其他实施例中的步骤S130,对此不作赘述。
在步骤S220中,电子设备得到了原始音频后,便可对原始音频进行处理,以得到原始音频对应的带有时间序列的多个音素。其中,带有时间序列的多个音素可记为音素数据。
也就是说,该步骤中,将原始音频以音素进行拆分,从而得到原始音频对应的全部音素,并且得到上述全部音素对应的时间戳,从而得到带有时间序列的全部音素。
例如,可通过设定神经网络模型对原始音频进行处理,以得到其对应的音素数据。其中,设定神经网络模型可基于多个训练样本对训练得到。训练样本对可包括原始音频样本以及原始音频样本对应的音素数据样本。
设定神经网络模型的具体结构可根据实际需求设置,对此不作限定。设定神经网络模型可以是电子设备出厂前设置的,也可以是电子设备出厂后设置的,对此不作限定。设定神经网络模型设置完成后,后续可以对其进行修改,以更好地满足不同需求。
需要说明的是,除了可通过上述方式得到原始音频对应的音素数据外,也可通过其他方式得到原始音频对应的音素数据,对此不作限定。
在步骤S230中,电子设备得到了原始音频对应的音素数据后,便可基于音素数据中的音素,确定每个音素对应的子原始嘴型图以及子情绪嘴型图。然后再基于时间序列对全部音素对应的子原始嘴型图进行整合,从而得到音素数据对应的预设原始嘴型图。同理,基于时间序列对应全部音素对应的子情绪嘴型图进行整合,从而得到音素数据对应的预设情绪嘴型图。
需要说明的是,除了可通过上述方式得到音素数据对应的预设原始嘴型图以及预设情绪嘴型图外,也可通过其他方式得到音素数据对应的预设原始嘴型图以及预设情绪嘴型图,对此不作限定。
该方法中,可先确定原始音频对应的带有时间序列的多个音素,然后基于带有时间序列的多个音素,得到原始音频对应的预设原始嘴型图和预设情绪嘴型图,使得预设原始嘴型图与原始音频的匹配度更好,并且使得预设情绪嘴型图与原始音频的匹配度更好,从而可以进一步提升目标嘴型图与原始音频的匹配度,进一步提升用户的使用体验。
本实施例提供了一种嘴型生成方法,可应用于电子设备。该方法中,根据原始音频,确定原始音频对应的音素数据,可包括:
S310、确定原始音频对应的初始文本;
S320、根据初始文本,确定拼音文档;
S330、根据拼音文档,确定原始音频对应的多个音素;
S340、将原始音频对应的多个音素与原始音频进行对其处理,以确定音素数据。
在步骤S310中,电子设备得到原始音频后,便可对原始音频进行文本转换,从而得到原始音频对应的文本,该文本可记为初始文本。
在步骤S320中,拼音文档至,初始文本中的文字内容发音过程中的拼音所构成的的文档。
其中,电子设备得到初始文本后,便可将初始文本的标点符号取出,然后将剩余的文本内容转换成其发音过程中的拼音文档。
在步骤S330中,电子设备得到了拼音文档后,可将拼音文档中的各个拼音进行声母与韵母的拆分,然后利用预设的音标规则,标记拼音文档中每个字母所对应的音素,从而得到原始音频对应的多个音素。
需要说明的是,除了可通过上述确定多个音素外,也可通过其他方式确定原始音频对应的多个音素,对此不作限定。
在步骤S340中,电子设备得到了原始音频对应的多个音素后,便可将原始音频与其对应的多个音素进行对其处理,以确定带有时间序列的多个音素,也就是确定音素数据。
其中,可基于原始音频中的时间戳将将原始音频与其对应的多个音素进行对其处理,从而得到音素数据。
需要说明的是,除了可通过上述方式确定音素数据外,也可通过其他方式确定音素数据,对此不作限定。
该方法中,基于对原始音频对应的拼音文档进行声母、韵母的拆分,来确定原始音频对应的多个音素,然后再将原始音频与其对应的多个音素进行对其处理,从而得到带有时间序列的多个音素,可以高效且准确地得到原始音频对应的音素数据,从而为后续目标嘴型图的确定提供了可靠的数据支持,进而可以进一步提升整个方法的可靠性,更好地保证目标嘴型图与原始音频之间的匹配度,提升用户的使用体验。
本实施例提供了一种嘴型生成方法,可应用于电子设备。该方法中,根据音素数据,确定预设原始嘴型图和预设情绪嘴型图,可包括:
S410、获取嘴型数据库;其中,嘴型数据库包括多个音素与嘴型关键参数的对应关系;
S420、根据嘴型数据库和音素数据,确定原始音频对应的多个预设嘴型关键参数;其中,多个预设嘴型关键参数与音素数据中的多个音素一一对应;
S430、根据多个预设嘴型关键参数以及音素数据,确定预设原始嘴型图。
在步骤S410中,嘴型数据库可基于真人录像得到,从而更好地保证嘴型数据库中的数据的真实性。
其中,真人录像可包括嘴型信息和语音信息。嘴型信息可以是嘴型图,也可以是嘴型对应的参数,对此不作限定。语音信息可以音频,也可以是音素等于语音相关的信息,对此不作限定。
在获得了真人录像后,便可对真人录像进行处理,从而得到多个音素与嘴型关键参数的对应关系,以便于后续基于音素确定对应的嘴型关键参数。
其中,嘴型数据库可以电子设备出厂前设置的,也可以是电子设备出厂后设置的,对此不作限定。嘴型数据库设置完成后,后续可对其进行修改,以更好地满足不同需求。
在步骤S420中,电子设备得到了嘴型数据库以及音素数据后,便可从嘴型数据库中,选取音素数据的多个音素对应的多个嘴型关键参数,并将选取到的多个嘴型关键参数确定为多个预设嘴型关键参数。多个预设嘴型关键参数与多个音素可一一对应。
在步骤S430中,电子设备得到了音素数据中的多个音素对应的多个预设嘴型关键参数后,便可基于音素数据中多个音素的时间序列,对多个预设嘴型关键参数进行整合,从而得到音素数据对应的预设原始嘴型图。
该方法中,基于真人录像得到的嘴型数据库,来确定音素数据中多个音素对应的嘴型关键参数,从而可以更好的保证所确定的嘴型关键参数的真实感,可更好地保证预化原始嘴型图与原始音频的匹配度,进而可以进一步提升整个方法的可靠性,更好地保证目标嘴型图与原始音频之间的匹配度,提升用户的使用体验。
本实施例提供了一种嘴型生成方法,可应用于电子设备。该方法中,根据音素数据,确定预设原始嘴型图和预设情绪嘴型图,可包括:
S510、当确定需要对原始音频进行情绪化处理时,根据嘴型数据库和音素数据,确定原始音频对应的多个预设情绪动作参数;其中,嘴型数据库包括多个音素与情绪动作参数的对应关系,多个预设情绪动作参数与音素数据中的多个音素一一对应;
S520、根据多个预设情绪动作参数以及音素数据,确定预设情绪嘴型图。
在步骤S510中,可基于对话场景或者其他信息来判断是否需要对原始音频进行情绪化处理,对此不作赘述。
需要说明的是,该方法中,嘴型数据库不仅仅可以包括多个音素与嘴型关键参数之间的对应关系,也可包括多个音素与情绪动作参数之间的对应关系。
其中,在构建嘴型数据库时,可先获取真人录像。真人录像可包括嘴型信息和语音信息。另外,嘴型信息可包括,相应的语音信息对应的情绪嘴型信息和原始嘴型信息。
其中,可通过面部语音采集驱动直接采集真人的嘴型信息(可包括面部表情)和语音信息,然后将其真人的嘴型信息和语音信息综合到嘴型数据库。真人录像的数据采集,可通过对多种视频进行相关信息采集,包括视频、录像、影视等。
其中,可对真人录像中情绪嘴型信息以及语音信息进行处理,从而得到多个音素与情绪动作参数之间的对应关系。可对真人录像中原始嘴型信息以及语音信息进行处理,从而得到多个音素与嘴型关键参数之间的对应关系。由此,便可得到所需要的基于真人录像的嘴型数据库。
需要说明的是,除了可通过上述方式确定嘴型数据库外,也可通过其他方式确定嘴型数据库,对此不作限定。
该步骤中,当确定需要对原始音频进行情绪化处理时,便可基于嘴型数据库以及音素数据,从嘴型数据库中选取多个音素对应的多个情绪动作参数,并将其选取的多个情绪动作参数确定为多个预设情绪动作参数。多个预设情绪动作参数与多个音素可一一对应。
在步骤S520、电子设备得到了音素数据中的多个音素对应的多个预设情绪动作参数后,便可基于音素数据中多个音素的时间序列,对多个预设情绪动作参数进行整合,从而得到音素数据对应的预设情绪嘴型图。
该方法中,基于真人录像得到的嘴型数据库,来确定音素数据中多个音素对应的情绪动作参数,从而可以更好的保证所确定的情绪动作参数的真实感,可更好地保证预化情绪嘴型图与原始音频的匹配度,进而可以进一步提升整个方法的可靠性,更好地保证目标嘴型图与原始音频之间的匹配度,提升用户的使用体验。
本实施例提供了一种嘴型生成系统,可应用于电子设备。该嘴型生成系统可用于实施上述的嘴型生成方法。其中,嘴型生成系统可包括:
录像模块:用于采集真人的嘴型信息和语音信息,进行嘴型数据的提取;
数据存储模块:用于对提取到的嘴型信息和语音信息进行多组嘴型形态和声音数据的存储;
原始音频处理模块:对数字人的原始音频进行处理,以获得带有时间序列的多个音素构成的音素数据;
原始嘴型生成模块:用于预设原始嘴型图的确定;
情绪嘴型生成模块:用于预设情绪嘴型图的确定;
嘴型输出模块:根据获取的预设原始嘴型图与预设情绪嘴型图,通过AI引擎进行整合,并模拟人脸肌肉组织,以算法驱动人像模型的唇形,生成目标嘴型图。
本实施例提供了一种嘴型生成装置,可应用于电子设备。该装置可用于实施上述的嘴型生成方法。示例地,参考图2所示,该装置可包括获取模块10和确定模块20。该装置在实施上述方法的过程中,
获取模块10,用于获取原始音频;
确定模块20,用于根据原始音频,确定原始音频对应的预设情绪嘴型图和预设原始嘴型图;
还用于根据预设原始嘴型图和预设情绪嘴型图,确定原始音频对应的目标嘴型图。
本实施例提供了一种嘴型生成装置,可应用于电子设备。参考图2所示,该装置中,确定模块20,可用于:
根据所述原始音频,确定所述原始音频对应的音素数据;其中,所述音素数据包括带有时间序列的多个音素;
根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图。
本实施例提供了一种嘴型生成装置,可应用于电子设备。参考图2所示,该装置中,
获取模块10,可用于获取嘴型数据库;其中,所述嘴型数据库包括多个音素与嘴型关键参数的对应关系;
确定模块20,可用于根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设嘴型关键参数;其中,多个所述预设嘴型关键参数与所述音素数据中的多个音素一一对应;
还可用于根据多个所述预设嘴型关键参数以及所述音素数据,确定所述预设原始嘴型图。
本实施例提供了一种嘴型生成装置,可应用于电子设备。参考图2所示,该装置中,确定模块20,可用于:
当确定需要对所述原始音频进行情绪化处理时,根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设情绪动作参数;其中,所述嘴型数据库包括多个音素与情绪动作参数的对应关系,多个所述预设情绪动作参数与所述音素数据中的多个音素一一对应;
根据多个所述预设情绪动作参数以及所述音素数据,确定所述预设情绪嘴型图。
本实施例提供了一种嘴型生成装置,可应用于电子设备。参考图2所示,该装置中,确定模块20,可用于:
确定所述原始音频对应的初始文本;
根据所述初始文本,确定拼音文档;
根据所述拼音文档,确定所述原始音频对应的多个音素;
将所述原始音频对应的多个音素与所述原始音频进行对其处理,以确定所述音素数据。
本实施例提供了一种嘴型生成装置,可应用于电子设备。参考图2所示,该装置中,确定模块20,可用于:
基于人工智能引擎,对所述原始音频、所述预设原始嘴型图和所述预设情绪嘴型图进行处理,以确定所述目标嘴型图。
本实施例提供了一种电子设备。电子设备可以是各个领域的电子设备。例如,智慧家居领域的大屏设备、人工智能(artificial intelligence,AI)音箱、高保真(highfidelity,HiFi)音箱、温度传感器、湿度传感器等。以及,智能终端领域的手机、平板电脑、可穿戴设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等。以及,智能制造领域的机械臂、摄像头、操纵杆、监控器、传感器、物流车、智能货架等。本申请实施例对电子设备的具体类型可不作任何限制。
参考图3所示,该电子设备100包括:至少一个处理器101、存储器102、至少一个网络接口104和其他用户接口103。电子设备100中的各个组件通过总线系统105耦合在一起。可理解,总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,将各种总线都标为总线系统105。
其中,用户接口103可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本申请实施例中的存储器102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器102旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统1021和应用程序1022。
其中,操作系统1021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序1022中。
在本申请实施例中,通过调用存储器102存储的程序或指令,具体的,可以是应用程序1022中存储的程序或指令,处理器101用于执行各方法实施例所提供的方法。
上述本申请实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成上述方法。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本申请实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备执行的嘴型生成方法。
所述处理器用于执行存储器中存储的电子设备的控制程序,以实现上述在电子设备的执行的嘴型生成方法。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
应当指出,在说明书中提到的“一个实施方式”、“实施例”、“示例性实施例”、“一些实施例”等表示所述的实施例可以包括特定特征、结构或特性,但未必每个实施例都包括该特定特征、结构或特性。此外,这样的短语未必是指同一实施例。此外,在结合实施例描述特定特征、结构或特性时,结合明确或未明确描述的其他实施例实现这样的特征、结构或特性处于本领域技术人员的知识范围之内。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。
Claims (10)
1.一种嘴型生成方法,其特征在于,所述嘴型生成方法包括:
获取数字人的原始音频;
根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;
根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。
2.根据权利要求1所述的嘴型生成方法,其特征在于,所述根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图,包括:
根据所述原始音频,确定所述原始音频对应的音素数据;其中,所述音素数据包括带有时间序列的多个音素;
根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图。
3.根据权利要求2所述的嘴型生成方法,其特征在于,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:
获取嘴型数据库;其中,所述嘴型数据库包括多个音素与嘴型关键参数的对应关系;
根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设嘴型关键参数;其中,多个所述预设嘴型关键参数与所述音素数据中的多个音素一一对应;
根据多个所述预设嘴型关键参数以及所述音素数据,确定所述预设原始嘴型图。
4.根据权利要求3所述的嘴型生成方法,其特征在于,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:
当确定需要对所述原始音频进行情绪化处理时,根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设情绪动作参数;其中,所述嘴型数据库包括多个音素与情绪动作参数的对应关系,多个所述预设情绪动作参数与所述音素数据中的多个音素一一对应;
根据多个所述预设情绪动作参数以及所述音素数据,确定所述预设情绪嘴型图。
5.根据权利要求3所述的嘴型生成方法,其特征在于,所述嘴型数据库通过以下方式确定:
获取真人录像;其中,所述真人录像包括嘴型信息和语音信息,所述嘴型信息包括,相应的语音信息对应的情绪嘴型信息和原始嘴型信息;
根据所述真人录像,确定多个音素与嘴型关键参数的对应关系,以及多个音素与情绪动作参数的对应关系,以得到所述嘴型数据库。
6.根据权利要求2所述的嘴型生成方法,其特征在于,所述根据所述原始音频,确定所述原始音频对应的音素数据,包括:
确定所述原始音频对应的初始文本;
根据所述初始文本,确定拼音文档;
根据所述拼音文档,确定所述原始音频对应的多个音素;
将所述原始音频对应的多个音素与所述原始音频进行对其处理,以确定所述音素数据。
7.根据权利要求1-6任一项所述的嘴型生成方法,其特征在于,所述根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图,包括:
基于人工智能引擎,对所述原始音频、所述预设原始嘴型图和所述预设情绪嘴型图进行处理,以确定所述目标嘴型图。
8.一种嘴型生成装置,其特征在于,所述嘴型生成装置包括:
获取模块,用于获取原始音频;
确定模块,用于根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;
还用于根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的控制程序,以实现权利要求1~7中任一项所述的嘴型生成方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的嘴型生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631552.1A CN116741177A (zh) | 2023-05-30 | 2023-05-30 | 嘴型生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631552.1A CN116741177A (zh) | 2023-05-30 | 2023-05-30 | 嘴型生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116741177A true CN116741177A (zh) | 2023-09-12 |
Family
ID=87900431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310631552.1A Pending CN116741177A (zh) | 2023-05-30 | 2023-05-30 | 嘴型生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741177A (zh) |
-
2023
- 2023-05-30 CN CN202310631552.1A patent/CN116741177A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
Wang et al. | Mead: A large-scale audio-visual dataset for emotional talking-face generation | |
US20230042654A1 (en) | Action synchronization for target object | |
Liu et al. | Beat: A large-scale semantic and emotional multi-modal dataset for conversational gestures synthesis | |
CN114401438B (zh) | 虚拟数字人的视频生成方法及装置、存储介质、终端 | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
JP2023552854A (ja) | ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム | |
US20230082830A1 (en) | Method and apparatus for driving digital human, and electronic device | |
CN114495927A (zh) | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 | |
CN115953521B (zh) | 远程数字人渲染方法、装置及系统 | |
CN112750187A (zh) | 一种动画生成方法、装置、设备及计算机可读存储介质 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN114694224A (zh) | 客服问答方法、装置、设备、存储介质和计算机程序产品 | |
Kacorri | TR-2015001: A survey and critique of facial expression synthesis in sign language animation | |
CN111222854B (zh) | 基于面试机器人的面试方法、装置、设备及存储介质 | |
Gjaci et al. | Towards culture-aware co-speech gestures for social robots | |
CN115529500A (zh) | 动态影像的生成方法和装置 | |
CN116741177A (zh) | 嘴型生成方法、装置、设备及存储介质 | |
CN116561294A (zh) | 手语视频的生成方法、装置、计算机设备及存储介质 | |
Qi et al. | Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
CN113838445B (zh) | 歌曲创作方法及相关设备 | |
Yang et al. | Emotional head motion predicting from prosodic and linguistic features | |
Yang et al. | A multimodal approach of generating 3D human-like talking agent | |
JPWO2019044534A1 (ja) | 情報処理装置、及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |