CN117372577A

CN117372577A - 虚拟对象的口型图像生成方法及装置

Info

Publication number: CN117372577A
Application number: CN202210772099.1A
Authority: CN
Inventors: 吴贺康
Original assignee: Perfect World Beijing Software Technology Development Co Ltd
Current assignee: Perfect World Beijing Software Technology Development Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-01-09

Abstract

本发明实施例提供一种虚拟对象的口型图像生成方法及装置。该方法包括：获取待处理的配音素材，配音素材包括虚拟对象对应的音频数据和/或文本数据；从预先设置的变形器模板中获取与虚拟对象匹配的变形器，变形器包括发音口型与骨骼模型的映射关系；基于配音素材生成发音口型对应的振幅曲线；将配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过振幅曲线将该面部口型图像调整为虚拟对象的口型图像。该方法通过虚拟对象匹配的变形器以及振幅曲线将配音素材转换为既符合汉语拼音规则又符合虚拟对象风格的口型图像，大大提升口型图像的生成效率，优化口型图像的视听效果。

Description

虚拟对象的口型图像生成方法及装置

技术领域

本发明涉及图像技术领域，尤其涉及一种虚拟对象的口型图像生成方法及装置。

背景技术

在游戏、影视、网络直播等场景中，需要为虚拟角色适配与角色音频相应的口型动画，从而使口型动画中的口型动作匹配于角色音频中的发音，提升虚拟角色的真实性。虚拟角色比如是游戏角色、影视作品中的人物角色、网络直播中主播的虚拟形象等。

相关技术中多数不支持中文发音规则，导致虚拟角色的口型动画效果较差，因而，目前仍是以相关技术人员手工制作虚拟角色的口型动画的方案为主。在口型动画制作方案中，相关技术人员通过面部捕捉技术采集演员的面部数据，进而在面部数据的基础上结合虚拟角色的设定制作口型动画。这种口型动画生成方式自动化程度低，动画制作效率差，难以应对大规模的虚拟角色口型动画生成场景。综上，如何自动化生成虚拟角色的口型动画，成为亟待解决的技术问题。

发明内容

本发明实施例提供一种虚拟对象的口型图像生成方法及装置，用以实现口型图像的自动化生成，大大提升口型图像的生成效率，提高口型图像与配音素材的同步性以及准确程度，优化口型图像的视听效果。

第一方面，本发明实施例提供一种虚拟对象的口型图像生成方法，该方法包括：

获取待处理的配音素材，配音素材包括虚拟对象对应的音频数据和/或文本数据；

从预先设置的变形器模板中获取与虚拟对象匹配的变形器，变形器包括发音口型与骨骼模型的映射关系，发音口型包括基于汉语拼音规则组合构建的声母口型和/或韵母口型；

基于配音素材生成发音口型对应的振幅曲线，振幅曲线用于指示配音素材中各个音素对应的音频振幅，配音素材中各个音素与发音口型中的声母口型和/或韵母口型一一对应；

将配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过振幅曲线将面部口型图像调整为虚拟对象的口型图像。

在一种可能的实施例中，获取待处理的配音素材，包括：

接收用户输入的音频数据和/或文本数据；从音频数据和/或文本数据中识别出多个虚拟对象，并从音频数据和/或文本数据中划分出多个虚拟对象各自对应的数据片段作为配音素材。

在一种可能的实施例中，从预先设置的变形器模板中获取与虚拟对象匹配的变形器，包括：

在变形器面板中展示预先设置的至少一个变形器模板，变形器模板包括变形器以及对应的映射池，映射池用于存储至少一个发音口型与至少一个骨骼模型的映射关系；响应于对变形器的选取指令，确定虚拟对象对应的骨骼模型，并从至少一个变形器模板中选取与虚拟对象对应骨骼模型相匹配的变形器。

在一种可能的实施例中，还包括：为变形器模板中的变形器设置对应的骨骼模型，其中对应的骨骼模型复用于多个虚拟对象。

在一种可能的实施例中，将所述配音素材通过所述变形器映射到所述虚拟对象的骨骼模型中，生成与所述配音素材同步的面部口型图像，并通过所述振幅曲线将所述面部口型图像调整为所述虚拟对象的口型图像，包括：

通过变形器对配音素材中的各个音素进行识别；将识别出的各个音素映射到虚拟对象的骨骼模型中，以得到对应的骨骼模型参数；基于骨骼模型参数计算得到面部口型图像；在振幅面板中展示振幅曲线；响应于对振幅曲线的编辑指令，调整振幅曲线的变化幅度，以改变口型图像中口型尺寸的变化幅度。

在一种可能的实施例中，基于配音素材生成对应的振幅曲线，包括：从配音素材中各个音素选取出关键帧，关键帧包括配音素材中声母和/或韵母所对应的音频数据帧。

在振幅面板中展示振幅曲线，包括：在振幅面板中展示关键帧对应的振幅曲线。

在一种可能的实施例中，还包括：响应于对变形器模板的编辑指令，调整变形器的映射参数，以修改发音口型与骨骼模型的映射关系。

在一种可能的实施例中，还包括：响应于对动画预设参数的编辑指令，调整动画预设参数，以修改口型图像的视觉效果；其中动画预设参数包括至少一个下述参数：口型动画风格、帧率、采样参数、额外时长、淡入淡出。

在一种可能的实施例中，还包括：对配音素材进行语义识别；基于识别结果判断配音素材是否符合预设条件；若配音素材符合预设条件，则在与面部口型图像中添加与虚拟对象关联的特定视觉元素，特定视觉元素包括与骨骼模型绑定的面部表情和/或动作。

在一种可能的实施例中，虚拟对象与特定视觉元素的关联关系，包括：虚拟对象与特定视觉元素的关联关系；和/或虚拟对象的预设语句与特定视觉元素的关联关系；和/或配音素材中的预设剧情与特定视觉元素的关联关系。

第二方面，本发明实施例提供一种虚拟对象的口型图像生成装置，该口型图像生成装置包括：

获取模块，用于获取待处理的配音素材，配音素材包括虚拟对象对应的音频数据和/或文本数据；从预先设置的变形器模板中获取与虚拟对象匹配的变形器，变形器包括发音口型与骨骼模型的映射关系，发音口型包括基于汉语拼音规则组合构建的声母口型和/或韵母口型；

生成模块，用于基于所述配音素材生成所述发音口型对应的振幅曲线，所述振幅曲线用于指示所述配音素材中各个音素对应的音频振幅，所述配音素材中各个音素与所述发音口型中的声母口型和/或韵母口型一一对应；将配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过所述振幅曲线将所述面部口型图像调整为虚拟对象的口型图像。

本发明实施例又提供了一种系统，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现上面描述的虚拟对象的口型图像生成方法。

本发明实施例提供了一种计算机可读介质，其上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上面描述的虚拟对象的口型图像生成方法。

在本发明实施例中，首先会获取待处理的配音素材，该配音素材包括虚拟对象对应的音频数据和/或文本数据。进而，基于配音素材生成发音口型对应的振幅曲线，该振幅曲线用于指示配音素材中各个音素对应的音频振幅，配音素材中各个音素与发音口型中的声母口型和/或韵母口型一一对应。从预先设置的变形器模板中获取与虚拟对象匹配的变形器。由于该变形器包括发音口型与骨骼模型的映射关系，此处，发音口型包括基于汉语拼音规则组合构建的声母口型和/或韵母口型，因而，可以将配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过振幅曲线将该面部口型图像调整为虚拟对象的口型图像。本发明实施例，通过虚拟对象匹配的变形器以及振幅曲线创建出既符合汉语拼音规则又符合虚拟对象风格的口型图像，实现了基于配音素材的口型图像自动化生成过程，避免了相关技术中手工制作口型图像带来的动画制作效率较差的问题，大大提升了口型图像的生成效率，有助于满足实际应用中对口型图像的批量生产需求。并且，相较于相关技术中的手工制作方案，本发明实施例通过变形器以及振幅曲线的应用还可提高最终生成的口型图像与配音素材的同步性以及准确程度，使得口型图像更为自然流畅，大大提升口型图像的视听效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种虚拟对象的口型图像生成方法的流程示意图；

图2为本发明一实施例提供的一种文本面板的示意图；

图3为本发明一实施例提供的一种变形器面板的示意图；

图4为本发明一实施例提供的一种振幅面板的示意图；

图5为本发明一实施例提供的再一种振幅面板的示意图；

图6为本发明一实施例提供的一种高级设置面板的示意图；

图7为本发明一实施例提供的一种导出界面的示意图；

图8为本发明一实施例提供的一种导出文件的示意图；

图9为本发明一实施例提供的一种导出确认界面的示意图；

图10为本发明一实施例提供的一种Debug面板的示意图；

图11为本发明实施例提供的一种虚拟对象的口型图像生成装置的结构示意图；

图12为与图11所示实施例提供的虚拟对象的口型图像生成装置对应的电子设备的结构示意图。

具体实施方式

现在将参照若干示例性实施例来论述本发明的内容。应当理解，论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

目前，在游戏、影视、网络直播等场景中，需要为虚拟角色适配与角色音频相应的口型动画，从而使口型动画中的口型动作匹配于角色音频中的发音，提升虚拟角色的真实性。虚拟角色比如是游戏角色、影视作品中的人物角色、网络直播中主播的虚拟形象等。

申请人发现，相关技术中多数不支持中文发音规则，导致虚拟角色的口型动画效果较差，因而，目前仍是以相关技术人员手工制作虚拟角色的口型动画的方案为主。在口型动画制作方案中，相关技术人员通过面部捕捉技术采集演员的面部数据，进而在面部数据的基础上结合虚拟角色的设定制作口型动画。

申请人发现，这种口型动画生成方式自动化程度低，动画制作效率差，难以应对大规模的虚拟角色口型动画生成场景。例如，在游戏开发项目中，不同游戏角色的面部表情变化存在风格差异，因而不同游戏角色的口型动画无法复用，相关技术人员需要为游戏中的不同游戏角色分别制作口型动画，动画制作效率差，大大降低游戏开发效率。

综上，如何自动化生成虚拟角色的口型动画，成为亟待解决的技术问题。

本发明实施例提供的口型图像生成方案可以由一电子设备来执行，该电子设备可以是诸如智能手机、平板电脑、PC机、笔记本电脑等终端设备。在一可选实施例中，该电子设备上可以安装有用于执行口型图像生成方案的应用程序。或者，另一可选实施例中，口型图像生成方案也可以由服务端设备和终端设备配合执行。

举例来说，假设第一服务程序加载有虚拟场景。上述电子设备可以实现为用于展示虚拟场景中虚拟角色(即虚拟对象)的第二服务程序。该第二服务程序可以连接到第一服务程序，基于第二服务程序可以制作并调整第一服务程序所加载的虚拟角色的口型动画，并对第一服务程序所加载的虚拟对象进行实时展示。这里实时展示可以理解为，对虚拟角色中的每一帧口型图像进行实时展示。

实际应用中，第一服务程序比如是虚拟场景编辑器、游戏编辑器，第二服务程序比如是挂载到上述第一服务程序的插件。当然，除插件之外，第二服务程序也可以是独立于第一服务程序的应用程序，本发明并不限定。

本发明实施例提供的方案适用于各种口型图像制作场景，比如虚拟对象口型图像的生成场景、修改场景、优化场景。例如，游戏、影视作品、网络直播等领域中的口型图像制作场景。

针对上述技术问题，在本发明一些实施例中，提供了一种解决方案，以下结合附图，详细说明本发明各实施例提供的技术方案。

下面结合以下实施例对该虚拟对象的口型图像生成方法的执行过程进行说明。图1为本发明实施例提供的一种虚拟对象的口型图像生成方法的流程图。

如图1所示，该虚拟对象的口型图像生成方法包括如下步骤：

101、获取待处理的配音素材；

102、从预先设置的变形器(Morph)模板中获取与虚拟对象匹配的变形器；

103、基于配音素材生成发音口型对应的振幅曲线；

104、将配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过振幅曲线将该面部口型图像调整为虚拟对象的口型图像。

本发明实施例中的口型图像生成方法应用于应用程序，该应用程序可以设置于终端设备。该应用程序加载有虚拟场景中的虚拟对象。虚拟对象比如实现为游戏中的游戏角色、影视作品中的人物角色、网络直播中主播的虚拟形象等。

101中，获取待处理的配音素材。本发明实施例中，配音素材包括但不限于虚拟对象对应的音频数据和/或文本数据。以游戏中的虚拟角色为例，配音素材可以是虚拟角色对应的配音文件，也可以是虚拟角色对应的对白文本。

在一可选实施例中，接收用户输入的音频数据，并通过云计算从输入的音频数据中提取对应的文本数据作为配音素材。例如，在音频面板中，展示用户输入的音频数据，包括但不限于音频文件的名称、路径、时长、音量大小等信息，从而在该面板中可对上述信息进行查看、编辑。实际应用中，音频数据可以是一个虚拟对象的音频文件，也可以是多个虚拟对象的音频文件，例如某一游戏或影视作品中的各个虚拟角色的音频文件。

具体来说，上述实施例中，可以导入单个角色的配音文件，通过语音识别处理得到对应的配音文本。或者，也可以导入多个角色的配音文件，比如某一关卡中多个角色的对话音频，或是同一关卡下不同角色触发的引导语音；进而，通过云计算按照角色从上述配音文件中提取出对应的配音文本。通过上述素材获取方式能够从音频数据中提取出对应的文本数据，从而降低后续素材处理的难度，进一步提高虚拟角色口型动画的生成效率。可选地，还可以在图2所示的文本面板中，调整自动获取的文本数据与时间轴的对应关系，使两者对齐，进一步优化口型动画的同步效果。

另一可选实施例中，接收用户编辑输入的文本数据作为配音素材。例如，在图2所示的文本面板中，接收用户编辑输入的文本内容，并将文本内容与时间轴进行对齐处理。可选地，接收用户输入的文本内容的起始时间、结束时间或者对应的口型动画时长，并基于上述时间信息调整文本内容与时间轴的对应关系。

无论是音频数据还是文本数据，本发明实施例中可选地，接收用户输入的音频数据和/或文本数据之后，还可以从音频数据和/或文本数据中识别出多个虚拟对象，并从音频数据和/或文本数据中划分出多个虚拟对象各自对应的数据片段作为配音素材。例如，通过云计算识别上述配音文本中包含的多个角色，按照不同角色从上述配音文件中提取出各自对应的配音文本。进一步可选地，不同角色对应于不同类型的骨骼模型参数，或者为不同角色绑定不同骨骼模型，从而通过骨骼模型参数或者骨骼模型使得角色的口型动画具有不同类型角色的动作风格。

102中，从预先设置的变形器模板中获取与虚拟对象匹配的变形器。

本发明实施例中，变形器包括发音口型与骨骼模型的映射关系。此处的变形器与虚拟对象的匹配，可以是视觉风格上的匹配，比如虚拟对象的口型动画风格与变形器中设置的映射关系匹配，从而通过变形器可以获取与虚拟对象在口型动画风格上统一的口型图像。也就是，通过设置发音口型与骨骼模型的映射关系相关的参数，能够使变形器具有不同虚拟对象所需的口型动画风格，从而使得变形器能够复用于不同虚拟对象。实际应用中，假设虚拟对象是游戏角色，变形器中骨骼模型与游戏角色进行绑定。其中，游戏角色的口型动画的风格差异，主要用于表现不同角色或同一角色在不同状态下的表情差异、动作差异，用以增强角色在视觉上的真实性。具体来说，口型动画风格例如是为角色设定的动作风格，从角色性格来划分包括但不限于温柔、粗暴、利落，从角色职业来划分包括但不限于杀手、法师、战士、匠人，从角色等级来划分包括但不限于初学者、高手。基于上述分类，可以为不同角色配置与动作风格相匹配的骨骼模型或者骨骼模型参数，从而通过骨骼模型或骨骼模型参数来提升角色口型动画的真实性。

可选地，在102之前，还可以为变形器模板中的变形器设置对应的骨骼模型。具体来说，就是对应的骨骼模型与虚拟对象的应用场景相关，对应的骨骼模型与虚拟对象相关。例如，在变形器模板中将骨骼模型与游戏角色相关联。具体来说，可以为不同游戏角色配置不同的骨骼模型，或者为不同游戏角色在同一骨骼模型中配置不同的骨骼模型参数，以便通过骨骼模型来实现不同游戏角色的口型图像在动作风格上的差异。其中，骨骼模型参数比如是平滑度、变形幅度、变形曲线等。

实际上，为了适应大规模开发需求，还可以为变形器批量设置多个虚拟对象所使用的骨骼模型，从而使得变形器对应的骨骼模型可以复用于多个虚拟对象。例如，虚拟对象的应用场景假设为游戏开发场景，虚拟对象为游戏中的虚拟角色，那么，可以为游戏中多个虚拟角色设置共同的骨骼模型，也就是，将变形器模板中的变形器与该游戏中多个虚拟角色所绑定的基础骨骼模型进行绑定，从而以基础骨骼模型作为变形器对应的骨骼模型。可选地，多个变形器可以使用同一骨骼模型，实现游戏中多个虚拟角色对变形器模板的复用。例如，某一游戏中不同虚拟角色的骨骼模型，可以根据角色风格分别绑定到变形器模板的变形器中，从而进一步提高口型图像的制作效率，降低虚拟对象的动画开发效率。当然，为了保证不同虚拟角色的口型动画风格能够体现在口型图像中，可选地，响应于对变形器模板的编辑指令，调整变形器的映射参数，以修改发音口型与骨骼模型的映射关系。也就是，通过编辑变形器模板中不同变形器的参数，比如上文提到的发音口型与骨骼模型的映射关系相关的参数，使变形器适用于不同虚拟对象所需的口型动画风格。

具体来说，102中，可以在变形器面板中展示预先设置的至少一个变形器模板，变形器模板包括变形器以及对应的映射池，该映射池用于存储至少一个发音口型与至少一个骨骼模型的映射关系。此处映射池所存储的映射关系，与上文介绍的发音口型与骨骼模型的映射关系类似，此处不再展开赘述。

进而，102中，响应于对变形器的选取指令，确定虚拟对象对应的骨骼模型，并从至少一个变形器模板中选取与虚拟对象对应骨骼模型相匹配的变形器。在一些实施例中，对变形器的选取指令可以是用户触发的。例如，在图3所示的变形器面板中，从展示变形器模板的下拉菜单中选取对应的变形器，或者也可以在变形器面板中导入与虚拟对象对应骨骼模型相匹配的变形器。当然，实际应用中，若变形器数量较多，也可以通过搜索或模糊匹配的方式，辅助用户选取与虚拟对象匹配的变形器，本实施例不做限制。可选地，在102之前，在变形器模板中绑定虚拟对象与骨骼模型之间的对应关系，或者绑定角色与骨骼模型参数之间的映射关系。这样，通过变形器可以将不同虚拟对象绑定到对应的骨骼模型中，从而通过骨骼模型在骨骼参数上的差异来使最终生成的口型动画在动作风格上体现出虚拟对象的个性化特征。例如，为女性角色和男性角色绑定不同骨骼模型，从而在口型动画的动作风格上体现出女性角色和男性角色之间的区别特征。

另一些实施例中，对变形器的选取指令可以是根据配音素材和/或虚拟对象自动触发的。以游戏开发场景为例，自动触发变形器选取指令的流程，对101中获取的配音素材进行解析，获取对应的发音风格特征，比如年轻或是年长，男性或是女性，沙哑或是清亮等，从而选取与发音风格特征匹配的变形器作为虚拟对象匹配的变形器。也可以是解析需要生成的虚拟对象的属性参数，确定虚拟对象的发音风格特征，同样地可以选取与发音风格特征匹配的变形器作为虚拟对象匹配的变形器。当然，分析发音风格特征时也可以结合配音素材以及需要生成的虚拟对象，以便提高变形器与虚拟对象的适配程度，提升最终生成的口型图像的视觉效果。

相关技术中，以游戏开发项目为例，不同游戏角色的面部表情变化存在风格差异，因而不同游戏角色的口型动画无法复用，相关技术人员需要为游戏中的不同游戏角色分别制作口型动画，动画制作效率差，大大降低游戏开发效率。

针对上述技术问题，103中，基于配音素材生成对应的振幅曲线。104中，由于变形器包含发音口型与骨骼模型的映射关系，因而，可以将待处理的配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过振幅曲线将该面部口型图像调整为虚拟对象的口型图像。

其中，振幅曲线用于指示配音素材中各个音素对应的音频振幅，配音素材中各个音素与发音口型中的声母口型和/或韵母口型一一对应。由于配音素材中各个音素是基于汉语拼音规则构建的，因而，发音口型中的声母口型和/或韵母口型也需基于汉语拼音规则构建，以使发音口型与配音素材中的音素同步，增强口型图像与配音素材的同步性。

具体来说，本发明实施例中涉及的振幅也就是音频对应的振幅。例如，在图4所示的振幅面板中，振幅曲线所处坐标系中，x轴表示音频对应的时间，y轴表示音频对应的振幅强度。

上述步骤的一个可选实施例中，103中，从配音素材中各个音素选取出关键帧，关键帧包括配音素材中声母和/或韵母所对应的音频数据帧。

104中，通过变形器对配音素材中的各个音素进行识别，进而将识别出的各个音素映射到虚拟对象的骨骼模型中，以得到对应的骨骼模型参数；基于骨骼模型参数计算得到面部口型图像。其中骨骼模型参数比如是顶点参数等。

进而，104中，在振幅面板中展示振幅曲线；响应于对振幅曲线的编辑指令，调整振幅曲线的变化幅度，以改变口型图像中口型尺寸的变化幅度。进而，选取出关键帧之后，在振幅面板中展示关键帧对应的振幅曲线，例如，图5所示的振幅面板中展示的振幅曲线。通过上述步骤能够调整关键帧对应的口型图像的视觉效果，进一步提升调试效率。通过上述步骤可以自动获取配音素材对应的振幅曲线，以便通过振幅曲线来调整优化口型图像中口型尺寸的变化幅度，从而为后续调整口型图像的视觉效果提供基础，适应虚拟对象的面部变化差异，使得口型图像能够复用到不同虚拟对象中，进一步提高口型图像的制作效率，降低虚拟对象的动画开发效率。

在上述或下述实施例中，可选地，为虚拟对象关联特定视觉元素，包括但不限于与骨骼模型绑定的面部表情和/或动作，从而建立虚拟对象与特定视觉元素的关联关系。具体来说，虚拟对象与特定视觉元素的关联关系，包括但不限于以下关联关系中的一种或多种：虚拟对象与特定视觉元素的关联关系，虚拟对象的预设语句与特定视觉元素的关联关系，配音素材中的预设剧情与特定视觉元素的关联关系。其中特定视觉元素(比如面部表情和/或动作)可以通过设置骨骼模型中的骨骼模型参数实现。以游戏开发项目为例，对于游戏项目中的不同游戏角色，可以分别为这些游戏角色建立与这些游戏角色各自的骨骼模型所绑定的面部表情之间的关联关系，以得到这些游戏角色所关联的面部表情列表。

可以理解是，上述与骨骼模型绑定的面部表情和/或动作，可以是针对不同虚拟对象针对性设置的。当然，除了为虚拟对象针对性设置专属的面部表情和/或动作，若游戏角色符合设定条件，此处设定条件例如是多个游戏角色属于同一系列，或者是多个游戏角色属于同一剧情支线，那么，可以在这些游戏角色的骨骼模型之间复用各自绑定的面部表情和/或动作，从而便于面部表情和/或动作在多个游戏角色之间的迁移，进一步提高口型图像的制作效率。实际应用中，同一面部表情和/或动作在绑定到不同虚拟对象(如游戏角色)的骨骼模型之后，可以与不同虚拟对象配音材料中的不同语句相关联。比如，假设挑眉毛的面部表情与多个虚拟对象的预设语句建立有关联关系，那么，该面部表情可以分别与不同虚拟对象的不同语句相关联，例如，挑眉毛的面部表情可以分别与虚拟对象a的配音材料中的“真的吗？”，以及虚拟对象b的配音材料中的“不见得吧？”相关联。当然，同一面部表情和/或动作也可以与多个虚拟对象中的相同语句或相同剧情相关联。例如，挑眉毛的面部表情可以与多个虚拟对象的“真的吗”相关联。例如，挑眉毛的面部表情也可以与多个虚拟对象在关卡1中遇到怪兽1的剧情相关联，即若检测到上述任一虚拟对象在关卡1中遇到怪兽1，则触发该面部表情的展示。

实际应用中，特定的面部表情比如是为游戏角色设定的招牌表情，或者是针对游戏角色的属性参数调整得到的面部表情，当然还可以是玩家针对该游戏角色的个性化设置，如捏脸操作得到的面部表情。具体地，针对游戏角色的属性参数调整得到的面部表情，包括但不限于挑眉毛、微笑、眨眼、噘嘴，等等。类似地，特定的动作也比如是为游戏角色设定的招牌动作，或者是针对游戏角色的属性参数调整得到的动作。当然，特定的动作也可以是玩家针对该游戏角色的个性化设置，如通过与玩家的交互或者解析玩家偏好数据而得到的玩家专属动作。

可选地，对配音素材进行语义识别，基于识别结果判断配音素材是否符合预设条件。若配音素材符合预设条件，则在与面部口型图像中添加与虚拟对象关联的特定视觉元素，该特定视觉元素包括面部表情和/或动作。具体而言，可以是基于虚拟对象与面部表情和/或动作的关联关系，在与配音素材同步的面部口型图像中添加与虚拟对象关联的面部表情和/或动作。实际应用中，预设条件包括但不限于：配音素材中包含预设语句，配音素材属于预设的虚拟对象，配音素材属于预设的游戏开发项目或游戏角色系列。通过上述步骤可以实现对虚拟对象的面部口型图像的个性化设置，为面部口型图像增加更多与虚拟对象自身设定或属性参数相关联的视觉元素，从而进一步提升虚拟对象的面部口型图像的视觉效果以及制作效率。

举例来说，假设预设条件为配音素材属于预设的虚拟对象，并且配音素材中包含预设语句。假设虚拟对象a的预设语句“为什么呢”与挑眉毛(面部表情)相关联。基于上述假设，首先，检测配音素材是否属于预设的虚拟对象a，以及配音素材中是否包含“为什么呢”(即预设语句)。若检测到配音素材属于预设的虚拟对象a，并且配音素材中包含“为什么呢”，则基于虚拟对象a的预设语句与挑眉毛(即面部表情)的关联关系，在与配音素材中预设语句即“为什么呢”同步的面部口型图像中添加与虚拟对象a关联的挑眉毛表情。

或者，上述步骤还可以是：假设虚拟对象b与微笑(即面部表情)相关联。基于此，检测配音素材是否属于预设的虚拟对象b，进而若检测到配音素材属于预设的虚拟对象b，则基于虚拟对象b与微笑的关联关系，在与该配音素材同步的面部口型图像中添加与虚拟对象b关联的微笑表情。该微笑表情可以是添加在虚拟对象b的面部口型图像中的任意位置，例如，每一句对话结尾处或起始处。

上述或下述实施例中，可选地，104之后，还可以展示虚拟对象的口型图像，以便用户根据口型图像的视觉效果进行参数调整。例如，若口型图像中口型变化过快，可以删除口型图像对应的配音素材中的非关键字，以减少最终生成的口型图像帧。或者，也可以触发在配音素材中预先检测并自动删减非关键字的功能，同样可以减少最终生成的口型图像帧。非关键字比如是语气助词等。可选地，在展示口型图像的情景下，还可以对摄像机进行切换，以及摄像机参数的调整。具体地，可以在展示界面中选取摄影机切换的下拉菜单，进而通过该下拉菜单在口型动画播放时切换摄影机，该下拉菜单能够自动获取当前场景中已设置的摄影机，便于用户在当前的展示界面中完成摄影机的切换操作，从而避免因摄像机切换离开当前界面带来的操作复杂度。当然，用户也可以关闭此摄像机切换的功能，在虚拟场景中手动完成摄像机的切换和调整。

或者，另一些实施例中，还可以在高级设置面板中调整动画预设参数，通过调整这些参数来优化口型图像的视觉效果。可选地，响应于对动画预设参数的编辑指令，调整动画预设参数，以修改口型图像的视觉效果。其中，动画预设参数包括至少一个下述参数：口型动画风格、帧率、采样参数、额外时长、淡入淡出、停顿间隔、平滑度、字尾闭合、简化曲线、声音振幅权重。例如，在图6所示的高级设置面板中，设置上述动画预设参数时，可以选中每行参数旁的下拉菜单，通过下拉菜单切换成系统预设的不同参数值。也可以点击面板中的“还原”按钮，还原成当前设置的参数值。还可以手动在输入框中对上述参数值进行输入。实际应用中，还可以使用其他参数例如平滑特征参数等，用以修改口型图像的视觉效果，其他参数可以通过面板中的“更多设置”按钮来开启。

可选地，104之后，还可以导出虚拟对象的口型图像，以便后续将口型图像应用到具体场景中。具体来说，以图7所示的导出界面为例，假设口型图像为口型动画，那么，可以从应用程序内置的多种动画导出方案中，选取符合该口型动画的导出方案。本实施例中，通常将输出成虚幻引擎(UE)支持的AnimSequence格式文件的导出模式作为默认的动画导出方案。可选地，在动画导出模式列表栏中，还可以查看到当前设备支持或失效的动画导出方案，在模式说明栏中，可以查看动画导出方案的详细解释说明。

如图8所示展示的导出文件所示，AnimSequence格式文件中包括口型图像以及对应的振幅曲线。可选地，导出口型图像时，可以单独设置导出上述动画预设参数的具体设置情况。如图9所示的导出确认界面中，还可以对动画预设参数、与虚拟对象绑定的骨骼模型、骨骼模型参数、导出文件名、路径等信息进行单独确认。

可选地，本发明实施例还提供了Debug面板，该面板主要用于排查口型图像播放时的异常情况，或调整口型图像的播放效果。通过该面板可以在口型图像播放过程中，实时展示当前口型所用到的变形器数量以及其对应的振幅曲线，从而能够直观看出振幅曲线对应的问题。例如，在图10所示的Debug面板中，用户可以查看变形器所映射的振幅曲线，以便快速完成对振幅曲线的调试。

图1示出的虚拟对象的口型图像生成方法的执行过程中，通过虚拟对象匹配的变形器以及振幅曲线创建出既符合汉语拼音规则又符合虚拟对象风格的口型图像，实现了基于配音素材的口型图像自动化生成过程，避免了相关技术中手工制作口型图像带来的动画制作效率较差的问题，大大提升了口型图像的生成效率，有助于满足实际应用中对口型图像的批量生产需求。并且，相较于相关技术中的手工制作方案，本发明实施例通过变形器以及振幅曲线的应用还可提高最终生成的口型图像与配音素材的同步性以及准确程度，使得口型图像更为自然流畅，大大提升口型图像的视听效果。

以下将详细描述本发明的一个或多个实施例的口型图像生成装置。本领域技术人员可以理解，这些口型图像生成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图11为本发明实施例提供的一种虚拟对象的口型图像生成装置的结构示意图。该口型图像生成装置应用于服务端，如图11所示，该口型图像生成装置包括：获取模块11、生成模块12。可选地，该口型图像生成装置应用于加载虚拟对象的应用程序中。

获取模块11，用于获取待处理的配音素材，配音素材包括虚拟对象对应的音频数据和/或文本数据；从预先设置的变形器模板中获取与虚拟对象匹配的变形器，变形器包括发音口型与骨骼模型的映射关系，发音口型包括基于汉语拼音规则组合构建的声母口型和/或韵母口型；

生成模块12，用于基于所述配音素材生成所述发音口型对应的振幅曲线，所述振幅曲线用于指示所述配音素材中各个音素对应的音频振幅，所述配音素材中各个音素与所述发音口型中的声母口型和/或韵母口型一一对应；将配音素材通过变形器映射到虚拟对象的骨骼模型中，生成与配音素材同步的面部口型图像，并通过振幅曲线将该面部口型图像调整为虚拟对象的口型图像。

可选地，获取模块11获取待处理的配音素材时，具体用于：

接收用户输入的音频数据，并通过云计算从输入的音频数据中提取对应的文本数据作为配音素材；或者接收用户编辑输入的文本数据作为配音素材。

可选地，获取模块11获取待处理的配音素材时，具体用于：

可选地，获取模块11从预先设置的变形器模板中获取与虚拟对象匹配的变形器时，具体用于：

可选地，还包括设置模块，用于为变形器模板中的变形器设置对应的骨骼模型，其中对应的骨骼模型复用于多个虚拟对象。

可选地，生成模块12将所述配音素材通过所述变形器映射到所述虚拟对象的骨骼模型中，生成与所述配音素材同步的面部口型图像，并通过所述振幅曲线将所述面部口型图像调整为所述虚拟对象的口型图像时，具体用于：通过变形器对配音素材中的各个音素进行识别；将识别出的各个音素映射到虚拟对象的骨骼模型中，以得到对应的骨骼模型参数；基于骨骼模型参数计算得到面部口型图像；在振幅面板中展示振幅曲线；响应于对振幅曲线的编辑指令，调整振幅曲线的变化幅度，以改变口型图像中口型尺寸的变化幅度。

可选地，生成模块12基于配音素材生成对应的振幅曲线时，具体用于：从配音素材中各个音素选取出关键帧，关键帧包括配音素材中声母和/或韵母所对应的音频数据帧。

生成模块12在振幅面板中展示振幅曲线时，具体用于：在振幅面板中展示关键帧对应的振幅曲线。

可选地，还包括映射参数调整模块，用于：响应于对变形器模板的编辑指令，调整变形器的映射参数，以修改发音口型与骨骼模型的映射关系。

可选地，还包括预设参数调整模块，还用于：响应于对动画预设参数的编辑指令，调整动画预设参数，以修改口型图像的视觉效果；其中动画预设参数包括至少一个下述参数：口型动画风格、帧率、采样参数、额外时长、淡入淡出。

可选地，还包括语义识别模块，用于：对配音素材进行语义识别；基于识别结果判断配音素材是否符合预设条件；若配音素材符合预设条件，则在与面部口型图像中添加与虚拟对象关联的特定视觉元素，特定视觉元素包括与骨骼模型绑定的面部表情和/或动作。

可选地，虚拟对象与特定视觉元素的关联关系，包括：虚拟对象与特定视觉元素的关联关系；和/或虚拟对象的预设语句与特定视觉元素的关联关系；和/或配音素材中的预设剧情与特定视觉元素的关联关系。

图11所示虚拟对象的口型图像生成装置可以执行前述各实施例中提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图11所示的口型图像生成装置的结构可实现为一电子设备。

如图12所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，至少使所述处理器21可以实现如前述实施例中提供的虚拟对象的口型图像生成方法。其中，该电子设备的结构中还可以包括通信接口23，用于与其他设备或通信网络通信。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

根据需要，本发明各实施例的系统、方法和装置可以实现为纯粹的软件(例如用Java来编写的软件程序)，也可以根据需要实现为纯粹的硬件(例如专用ASIC芯片或FPGA芯片)，还可以实现为结合了软件和硬件的系统(例如存储有固定代码的固件系统或者带有通用存储器和处理器的系统)。

本发明的另一个方面是一种计算机可读介质，其上存储有计算机可读指令，所述指令被执行时可实施本发明各实施例的虚拟对象的口型图像生成方法。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。要求保护的主题的范围仅由所附的权利要求进行限定。

Claims

1.一种虚拟对象的口型图像生成方法，其特征在于，包括：

获取待处理的配音素材，所述配音素材包括虚拟对象对应的音频数据和/或文本数据；

从预先设置的变形器模板中获取与所述虚拟对象匹配的变形器，所述变形器包括发音口型与骨骼模型的映射关系，所述发音口型包括基于汉语拼音规则组合构建的声母口型和/或韵母口型；

基于所述配音素材生成所述发音口型对应的振幅曲线，所述振幅曲线用于指示所述配音素材中各个音素对应的音频振幅，所述配音素材中各个音素与所述发音口型中的声母口型和/或韵母口型一一对应；

将所述配音素材通过所述变形器映射到所述虚拟对象的骨骼模型中，生成与所述配音素材同步的面部口型图像，并通过所述振幅曲线将所述面部口型图像调整为所述虚拟对象的口型图像。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理的配音素材，包括：

接收用户输入的音频数据和/或文本数据；

从音频数据和/或文本数据中识别出多个所述虚拟对象，并从音频数据和/或文本数据中划分出多个所述虚拟对象各自对应的数据片段作为所述配音素材。

3.根据权利要求1所述的方法，其特征在于，所述从预先设置的变形器模板中获取与所述虚拟对象匹配的变形器，包括：

在变形器面板中展示预先设置的至少一个变形器模板，所述变形器模板包括变形器以及对应的映射池，所述映射池用于存储至少一个发音口型与至少一个骨骼模型的映射关系；

响应于对变形器的选取指令，确定所述虚拟对象对应的骨骼模型，并从所述至少一个变形器模板中选取与所述虚拟对象对应骨骼模型相匹配的变形器。

4.根据权利要求1所述的方法，其特征在于，还包括：

为所述变形器模板中的变形器设置对应的骨骼模型，其中对应的骨骼模型复用于多个所述虚拟对象。

5.根据权利要求1所述的方法，其特征在于，将所述配音素材通过所述变形器映射到所述虚拟对象的骨骼模型中，生成与所述配音素材同步的面部口型图像，并通过所述振幅曲线将所述面部口型图像调整为所述虚拟对象的口型图像，包括：

通过所述变形器对所述配音素材中的各个音素进行识别；

将识别出的各个音素映射到所述虚拟对象的骨骼模型中，以得到对应的骨骼模型参数；

基于所述骨骼模型参数计算得到所述面部口型图像；

在振幅面板中展示所述振幅曲线；

响应于对所述振幅曲线的编辑指令，调整所述振幅曲线的变化幅度，以改变所述口型图像中口型尺寸的变化幅度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述配音素材生成对应的振幅曲线，包括：

从所述配音素材中各个音素选取出关键帧，所述关键帧包括所述配音素材中声母和/或韵母所对应的音频数据帧；

所述在振幅面板中展示所述振幅曲线，包括：

在所述振幅面板中展示所述关键帧对应的振幅曲线。

7.根据权利要求1所述的方法，其特征在于，还包括：

响应于对所述变形器模板的编辑指令，调整所述变形器的映射参数，以修改所述发音口型与所述骨骼模型的映射关系。

8.根据权利要求1所述的方法，其特征在于，还包括：

响应于对动画预设参数的编辑指令，调整所述动画预设参数，以修改所述口型图像的视觉效果；

其中所述动画预设参数包括至少一个下述参数：口型动画风格、帧率、采样参数、额外时长、淡入淡出。

9.根据权利要求1所述的方法，其特征在于，还包括：

对所述配音素材进行语义识别；

基于所述识别结果判断所述配音素材是否符合预设条件；

若所述配音素材符合所述预设条件，则在与所述面部口型图像中添加与所述虚拟对象关联的特定视觉元素，所述特定视觉元素包括与骨骼模型绑定的面部表情和/或动作。

10.一种虚拟对象的口型图像生成装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的配音素材，所述配音素材包括虚拟对象对应的音频数据和/或文本数据；从预先设置的变形器模板中获取与所述虚拟对象匹配的变形器，所述变形器包括发音口型与骨骼模型的映射关系，所述发音口型包括基于汉语拼音规则组合构建的声母口型和/或韵母口型；

生成模块，用于基于所述配音素材生成所述发音口型对应的振幅曲线，所述振幅曲线用于指示所述配音素材中各个音素对应的音频振幅，所述配音素材中各个音素与所述发音口型中的声母口型和/或韵母口型一一对应；将所述配音素材通过所述变形器映射到所述虚拟对象的骨骼模型中，生成与所述配音素材同步的面部口型图像，并通过所述振幅曲线将所述面部口型图像调整为所述虚拟对象的口型图像。