CN109558853B

CN109558853B - 一种音频合成方法及终端设备

Info

Publication number: CN109558853B
Application number: CN201811478894.XA
Authority: CN
Inventors: 邢健飞
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2021-05-25
Anticipated expiration: 2038-12-05
Also published as: CN109558853A

Abstract

本发明实施例提供一种音频合成方法及终端设备，该方法包括：获取第一人脸图像；获取与第一人脸图像相匹配的目标音素；根据所述目标音素，生成目标音频。本发明实施例根据与第一人脸图像相匹配的目标音素生成目标音频，简化了音频合成过程，并充分考虑了用户特征，提高了合成得到的音频的保真度。

Description

一种音频合成方法及终端设备

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种音频合成方法及终端设备。

背景技术

目前，用户在使用终端设备进行声音模拟主要有两种方法。一种是变声法，即用户根据自己的需求选择适当的变声基调，如男音、女音、高音、低音，从而实现对自己的原声进行适当的修饰。另一种方法是音素合成法，该方法需要用户录制大量包含所有音素的音频，通过利用一定的算法将音频解析成单独的音素，当需要读出新语句时，将音素按照一定的频率、时长组合起新的音频。

然而，以上的两种声音模拟方法虽然可以实现模拟发声，但都有着各自的局限性，变声法变声的基础是以用户本来的声音为蓝本进行声音模拟，不同的人模拟发出的声音较为相似，因此声音模拟不够真实，应用范围较窄。而音素合成法则需要用户录制较多的音频，并且对录制的音频质量也有较大的要求，增大了用户的操作难度，不利于大量地推广应用。

发明内容

本发明实施例提供一种音频合成的方法及终端设备，以解决在终端设备对音频合成的过程过于复杂，以及声音模拟效果真实度不高的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种音频合成方法，应用于终端设备，该方法包括：获取第一人脸图像；获取与第一人脸图像相匹配的目标音素；根据该目标音素，生成目标音频。

优选地，获取与第一人脸图像相匹配的目标音素，具体包括:

根据所述第一人脸图像的人脸相似度和/或人脸属性,获取所述目标音素，其中，所述第一人脸图像的人脸相似度为所述第一人脸图像与数据库中的一张或多张人脸图像之间的相似度。

优选地，所述人脸属性包括年龄、性别、表情、肤色、种族、健康状况中的一种或多种属性。

优选地，根据所述第一人脸图像的人脸相似度和/或人脸属性,获取所述目标音素，具体包括：

获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素；

或者，

获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素；

或者，

获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素。

优选地，获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素，具体包括：

获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；

当所述人脸图像的数目为多个，且所述人脸属性包括一种属性时，对所述属性对应的多个音素集进行求平均，得到所述目标音素；

当所述人脸图像的数目为多个，且所述人脸属性包括多种属性时，每个所述人脸图像对应一个音素集，每个所述人脸图像对应一种所述属性，则对多个所述音素集进行求平均，将处理得到的音素集作为所述目标音素，或者，对多种所述属性进行量化，得到与每种所述属性对应的音素集的权重因子，根据所述权重因子，对多个所述音素集进行加权平均，得到所述目标音素。

优选地，获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素，具体包括：

获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；

当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行求平均，得到目标音素；

或者，

当所述人脸图像的数目为多个，且每个所述人脸图像分别对应一个音素集，所述人脸图像与所述人脸相似度对应时，对每个所述人脸相似度进行量化，得到与每个所述人脸相似度对应的音素集的权重因子，根据所述权重因子，对多个所述音素集进行加权平均，得到所述目标音素。

优选地，获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素，具体包括：

获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；

当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行求平均，得到所述目标音素，或者，对所述人脸相似度和所述人脸属性包括的多种属性进行量化，得到与所述人脸相似度和所述人脸属性包括的多种属性对应的音素集的权重因子，根据所述权重因子对与所述人脸相似度和所述人脸属性包括的多种属性对应的多个音素集进行加权平均，得到所述目标音素。

优选地，在根据所述目标音素生成所述目标音频时，具体包括：

获取目标文字；

对所述目标文字进行文字分解，得到所述目标文字的发音对应的音素组合、音素频率和时长；

根据所述的音素组合、音素频率、音素时长和所述目标音素，生成与所述目标文字对应的目标音频。

第二方面，本发明还提供了一种终端设备，该终端设备包括：第一获取模块、第二获取模块和生成模块；该第一获取模块，用于获取第一人脸图像；该第二获取模块，用于获取与该第一人脸图像相匹配的目标音素；该生成模块，用于根据该目标音素，生成目标音频。

优选地，所述第二获取模块具体用于：

优选地，所述第二获取模块包括：

第一获取子模块，用于获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素；

第二获取子模块，用于获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素；

第三获取子模块，用于获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素。

优选地，所述第一获取子模块，具体用于：

优选地，所述第二获取子模块，具体用于：

或者，

优选地，所述第三获取子模块，具体用于：

当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行求平均，得到所述目标音素，或者，对所述人脸相似度和所述人脸属性包括的多种属性进行量化，得到与所述人脸相似度和所述人脸属性包括的多种属性对应的音素集的权重因子，根据所述权重因子，对与所述人脸相似度和所述人脸属性包括的多种属性对应的多个音素集进行加权平均，得到所述目标音素。

优选地，所述生成模块具体用于：

获取目标文字；

第三方面，本发明实施例提供了一种终端设备，包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面所述的音频合成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面所述的音频合成方法的步骤。

在本发明实施例中，终端设备根据第一人脸图像获取与第一人脸图像相匹配的目标音素，生成目标音频，简化了用户进行音频合成的过程，并充分考虑了用户的个体特征，提高音频合成的声音的保真度。因此，采用本发明实施例提供的音频合成方法，终端设备对声音模拟并合成音频的过程比较简单，用户的操作难度更低，应用范围更广。

附图说明

图1为本发明实施例提供的一种音频合成方法的流程示意图；

图2为本发明实施例提供的一种获取目标音素的具体实施方式的流程示意图；

图3为本发明实施例提供的另一种获取目标音素的具体实施方式的流程示意图

图4为本发明实施例提供的又一种获取目标音素的具体实施方式的流程示意图；

图5为本发明实施例提供的一种根据目标音素合成音频的方法的流程示意图；

图6为本发明实施例提供的一种终端设备可能的结构示意图；

图7为图6中的第二获取模块的一种可能的结构示意图；

图8为本发明各个实施例的一种终端设备的硬件结构示意图。

具体实施方式

为了便于理解本发明实施例提供的图像处理方法，下面先介绍与本发明实施例相关的技术：

深度学习(deep learning)：深度学习是机器学习研究中的一个领域，是为了建立、模拟人脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据，例如图像，声音和文本。

本发明实施例中，深度学习被用于进行人脸属性和人脸相似度的处理以及对音频进行分段。工作人员可以采集大量人脸数据样本，通过对大量的照片进行训练，识别每一个人脸中的人脸相似度以及人脸属性，例如年龄、性别、表情、肤色、种族、健康状况等。此外，工作人员可以采集大量的声音样本，通过对大量不同年龄、性别、表情、肤色、种族、健康状况的人录制的包含所有音素的音频进行分段，得到每个人对应的音素集，同时将人群按照年龄、性别、表情、肤色、种族、健康状况等进行分类。

人脸相似度：本发明实施例中的人脸相似度用于描述两个人脸图像之间的相似情况。在实施过程中，首先利用MTCNN检测出人脸并定位出人脸上五个特征点(双眼中心、嘴角点、鼻尖点)坐标进行人脸对齐，然后利用mobilenet-v2与triplet loss训练出人脸识别网络和深度学习，进行人脸相似度判断。

需要说明的是，本发明实施例中，终端设备中使用的多个音素集可以根据深度学习得到。例如，终端设备确定用户的人脸属性，根据深度学习可以确定不同人脸属性如年龄、性别等对应的多个音素集。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“多个”是指两个或多于两个。

本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一图像和第二图像等是用于区别不同的图像，而不是用于描述图像的特定顺序。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本发明实施例中的终端设备可以为具有操作系统的终端设备。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，可以为windows phone操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

下面结合图1对本发明实施例的音频合成方法进行说明。图1为本发明实施例提供的一种音频合成方法的流程示意图，该音频合成方法包括步骤S101-S103：

S101、终端设备获取第一人脸图像。

本实施例中，该第一人脸图像可以为预览图像，也可以为终端设备中存储的图像，还可以为终端设备从其他设备中读取的图像，本实施例不作具体限定。

S102、终端设备获取与第一人脸图像相匹配的目标音素。

需要说明的是，本实施例中的目标音素为与第一人脸图像相匹配的音素集。该音素集包含合成音频的所有必需的音素，使得通过该音素集可以合成不同语句的音频。

S103、终端设备根据所述目标音素，生成目标音频。

可选的，终端设备生成目标音频后，可以编辑、保存或分享该目标音频，本实施例不作具体限定。

本实施例提供的音频合成方法，根据第一人脸图像，获取与该第一人脸图像相匹配的目标音素，生成目标音频。由于该目标音频为对第一人脸图像进行匹配然后生成的音频，因此充分考虑了用户特征，并且简化了音频合成过程，达到了快速获取真实度高的模拟音频的目的。因此，采用本发明实施例提供的音频合成方法，充分考虑到了用户特征，终端设备对音频模拟合成的过程更简单，操作更容易，声音模拟更真实，有利于大量地应用推广。

一种可能的实现方式，如图2所示，该获取目标音素的流程包括以下步骤：

S201、终端设备获取第一人脸图像。

S202、终端设备根据第一人脸图像，得到该第一人脸图像的人脸属性。

本实施例中，第一人脸图像的人脸属性，包括但不限于年龄、性别、表情、肤色、种族、健康状况中的一种或多种属性。终端设备可以根据学习用户经常选择的一种或多种属性，确定用户偏向于哪一种或多种属性，对属性进行自动选择，也可以由用户选择一种或多种属性，也可以随机选择属性，也可以根据其他参数选择一种或多种属性，本实施例不作具体限定。

S203、终端设备获取与所述人脸属性对应的人脸图像。

本发明实施例中，终端设备根据人脸属性匹配条件在数据库中获取与第一人脸图像匹配的一个或多个人脸图像。其中，该人脸属性匹配条件可以为终端设备根据用户的选择习惯进行设定，也可以由用户进行设定，也可以根据其他参数进行设定，也可以由系统或应用程序进行预先设定，本实施例不作具体限定。

S204、终端设备对人脸图像的数目进行判断，若人脸图像的数目为一个，则执行步骤S205；若人脸图像的数目为多个，则执行步骤S206。

S205、终端设备获取与所述人脸图像对应的音素集作为所述目标音素。

本实施例中，当该人脸图像的数目为一个时，终端设备直接将该人脸图像对应的音素集作为目标音素集，无需进行任何处理操作，处理过程更为简单。

S206、终端设备获取与所述人脸属性对应的人脸图像以及所述人脸图像对应的音素集。

本实施例中，当该人脸图像的数目为多个时，终端设备根据该人脸属性从数据库中获取与人脸属性对应的多个人脸图像，以及与多个该人脸图像对应的多个音素集。

需要说明的是，该数据库中存储有多个人脸图像，每个人脸图像对应的一个音素集，并根据人脸图像的人脸属性以及人脸相似度对音素集进行分类。因此，终端设备可以从该数据库中快速获取人脸图像和该人脸图像对应的音素集。

S207、终端设备对人脸属性包括的属性的数量进行判断，若人脸属性包括一种属性，则执行步骤S208；若人脸属性包括多种属性，则执行步骤S210。

S208、终端设备对多个所述音素集进行求平均。

本实施例中，当只存在一种人脸属性，则多个人脸图像均是在数据库中与该人脸属性对应的人脸图像，因此，只需直接对多个人脸图像对应的音素集进行求平均，可以快速地获得匹配该人脸属性的目标音素，使过程更为高效简便。

S209、终端设备将得到的音素作为所述目标音素。

S210、终端设备获取与所述人脸属性对应的人脸图像以及与所述人脸图像对应的音素集。

可选的，本发明的其他实施例中，在步骤S210之后，还可以执行步骤S211-212或步骤S213-S215：

S211、终端设备对与所述人脸属性对应的多个音素集进行求平均。

S212、终端设备获取所述平均后的音素集作为目标音素。

本实施例中，通过对与所述人脸属性对应的多个音素集进行求平均，得到平均后的音素集，并将该平均后的音素集作为目标音素，既充分考虑了用户特征，又避免处理过程过于复杂，因此能够快速地得到较好的目标音素。

S213、终端设备对所述的人脸属性包括的多种属性进行量化，得到与每种所述属性对应的音素集的权重因子。

本实施例中，与每种所述属性对应的音素集的权重因子，可以是根据用户的使用习惯进行设定，可以由用户进行设定，可以通过系统或应用程序进行预先设定，可以根据其他参数进行设定，可以随机设定，本实施例不作具体限定。

S214、终端设备根据所述权重因子，对多个所述音素集加权平均。

示例性地，用户可以选择年龄、性别、种族、健康状况和表情这5种属性，并通过设定与年龄属性对应的音素集的权重因子为0.3，与性别属性对应的音素集的权重因子为0.3，与种族属性对应的音素集的权重因子为0.2，与健康状况属性对应的音素集的权重因子为0.1，与表情属性对应的音素集的权重因子为0.1，得到第一人脸图像对应的目标音素S为：

S＝0.3*S1+0.3*S2+0.2*S3+0.1*S4+0.1*S5

其中，S1是与年龄属性对应的多个音素集的平均音素，S2是与性别属性对应的多个音素集的平均音素，S3是与种族属性对应的多个音素集的平均音素，S4是与健康状况属性对应的多个音素集的平均音素，S5是与表情属性对应的多个音素集的平均音素。

S215、终端设备获取所述加权平均后的音素集作为目标音素。

本实施例中，在对多个音素集进行加权平均后，可以通过对得到的音素集进行预播放，判断是否选择该音素集作为目标音素集，若用户不选择该音素集作为目标音素集，可以返回至加权平均前的步骤，通过重新设定权重因子再进行加权平均，也可以通过让终端设备不断学习用户的选择规律，按照用户修改习惯自动返回加权平均步骤前对权重因子进行修改，也可以通过返回加权平均步骤前对权重因子进行随机设定或修改，也可以根据其他参数返回加权平均步骤前对权重因子进行设定或修改，再重新加权平均，从而获得用户满意的目标音素，本实施例不作具体限定。

本实施例中，当与人脸属性对应的人脸图像数目为一个时，直接获取该人脸图像对应的音素集作为目标音素，使得音频模拟过程较为简单。当该人脸图像数目为多个时，分别考虑该人脸属性包括的属性为一种和多种的情况，若人脸属性只包括一种属性，则对多个该人脸图像对应的音素集进行求平均，得到目标音素，使处理过程更加简单；若人脸属性包括多种属性，则对多个该人脸图像对应的音素集进行求平均，得到目标音素，或者，对与人脸属性包括的多种不同属性进行量化，得到与人脸属性包括的多种不同属性对应的音素集的权重因子，根据该权重因子，对多个与人脸属性包括的多种不同属性对应的音素集进行加权平均，得到目标音素，使得音素处理过程中充分考虑用户特征，得到的目标音素保真度更高。

一种可能的实现方式，如图3所示，获取目标音素的流程包括：

S301、终端设备获取第一人脸图像。

S302、终端设备根据第一人脸图像，得到该第一人脸图像的人脸相似度。

本实施例中，第一人脸图像的人脸相似度为该第一人脸图像与数据库中的一张或多张人脸图像之间的相似度。

可选的，数据库可以存储在终端设备，也可以存储在其他设备，也可以通过网络进行远程获取，本实施例不作限定。

S303、终端设备获取与所述人脸相似度对应的人脸图像。

本实施例中，通过对相似度条件在数据库中获取与第一人脸图像相似度对应的人脸图像。其中，该相似度条件可以为终端设备根据用户的选择习惯进行设定，可以由用户进行设定，可以根据其他参数设定，可以通过系统或应用程序预先进行设定，本实施例不作具体限定。

S304、终端设备对所述人脸图像的数目进行判断，若人脸图像的数目为一个，则执行步骤S305；若人脸图像的数目为多个，则执行步骤S306。

S305、终端设备获取与所述人脸图像对应的音素集作为所述目标音素。

本实施例中，当人脸图像数目为一个时，终端设备直接将该人脸图像对应的音素集作为目标音素集，无需进行任何处理操作，处理过程更为简单。

S306、终端设备获取与所述人脸相似度对应的人脸图像以及所述人脸图像对应的音素集。

本实施例中，当人脸图像的数目为多个时，终端设备根据人脸相似度从数据库中获取与人脸相似度对应的人脸图像，以及与该人脸图像对应的音素集，其中，该数据库存储有多个人脸图像，以及与各个人脸图像对应的各个音素集，并根据人脸图像的人脸属性以及人脸相似度对音素集进行分类。因此，终端设备可以从数据库中快速获取人脸图像和与该人脸图像对应的音素集。

可选的，本发明的其他实施例中，在步骤S306之后，还可以执行步骤S307-S308或步骤S309-S312：

S307、终端设备对与所述人脸相似度对应的多个音素集进行求平均。

S308、终端设备获取所述平均后的音素集作为目标音素。

本实施例中，通过对与所述人脸相似度对应的多个音素集进行求平均，得到平均后的音素集，并将该平均后的音素集作为目标音素，既充分考虑了用户特征，又避免处理过程过于复杂，能够快速地得到保真度较高的目标音素。

S309、终端设备对每个所述人脸相似度进行量化，得到与每个所述人脸相似度对应的音素集的权重因子。

本实施例中，终端设备对每个人脸相似度进行量化，可以是根据用户的使用习惯进行设定，可以是用户进行设定，可以通过系统或应用程序进行预先设定，可以根据其他参数进行设定，可以随机设定，本实施例不作具体限定。

S310、终端设备根据所述权重因子对多个所述音素集进行加权平均。

本实施例中，通过对人脸相似度进行量化得到与每个人脸相似度对应的音素集的权重因子，根据该权重因子，对与人脸相似度对应的多个音素集进行加权平均，其中，人脸图像的人脸相似度越高，对应的音素集所占的权重越大，因此加权平均后得到的音素集更能体现用户特征。

S311、终端设备获取所述加权平均后的音素集作为目标音素。

本实施例中，用户在对音素集进行加权平均后，可以通过对该音素集进行预播放，判断是否选择该音素集作为目标音素集，若用户不选择该音素集作为目标音素集，可以返回至加权平均前的步骤，通过重新设定权重因子再进行加权平均，也可以通过让终端设备不断学习用户的选择规律，按照用户修改习惯自动返回加权平均步骤前对权重因子进行修改，也可以通过返回加权平均步骤前对权重因子进行随机设定或修改，也可以根据其他参数返回加权平均步骤前对权重因子进行设定或修改，再重新加权平均，从而获得用户满意的目标音素，本实施例不作具体限定。

在本实施例中，当与人脸相似度对应的人脸图像数目为一个时，直接获取该人脸图像对应的音素集作为目标音素，使得音频合成过程较为简单。当该人脸图像数目为多个时，可以对多个人脸图像对应的多个音素集进行求平均，得到目标音素，或者，根据多个人脸图像对应的人脸相似度定义权重因子，对多个人脸图像对应的多个音素集进行加权平均，得到目标音素，使得音素处理过程中充分考虑用户的个体特征，得到的目标音素保真度更高。

一种可能的实现方式，如图4所示，该获取目标音素的流程包括：

S401、终端设备获取第一人脸图像。

本实施例中，第一人脸图像可以为预览图像，也可以为终端设备中存储的图像，还可以为终端设备读取其他设备中图像，本实施例不作具体限定。

S402、终端设备根据第一人脸图像，得到该第一人脸图像的人脸相似度和人脸属性。

本实施例中，第一人脸图像的人脸属性，包括但并不限于年龄、性别、表情、肤色、种族、健康状况中的一种或多种属性。终端设备可以根据学习用户经常选择的一种或多种属性，确定用户偏向于哪一种或多种属性，对属性进行自动选择，可以由用户进行选择，可以随机进行选择，可以根据其他参数进行选择，本实施例不作具体限定。

S403、终端设备获取与所述人脸属性和人脸相似度对应的人脸图像。

本实施例中，通过人脸属性匹配条件以及人脸相似度匹配条件在数据库中获取与人脸相似度和人脸属性对应的人脸图像。其中，该人脸相似度匹配条件和人脸属性匹配条件可以为终端设备根据用户的使用习惯进行选择设定，可以由用户进行选择设定，可以根据其他参数进行设定，可以由系统或应用程序进行预先设定，本实施例不作具体限定。

S404、终端设备对所述人脸图像的数目进行判断，若人脸图像的数目为一个，则执行步骤S405；若人脸图像的数目为多个，则执行步骤S406。

S405、终端设备获取所述人脸图像对应音素集作为所述目标音素集。

本实施例中，当人脸图像数目为一个时，终端设备直接将该人脸图像对应的音素集作为目标音素集，无需进行任何处理操作，使过程更为简化。

S406、终端设备获取与所述人脸图像对应的音素集。

可选的，本发明的其他实施例中，在步骤S406之后，还可以执行步骤S407-S408或步骤S409-S411：

S407、终端设备对与所述人脸相似度和所述人脸属性对应的多个音素集进行求平均。

S408、终端设备获取所述平均后的音素集作为目标音素。

本实施例中，终端设备通过对与所述人脸相似度和所述人脸属性对应的多个音素集进行求平均，得到平均后的音素集，并将该平均后的音素集作为目标音素，既充分考虑了用户特征，又避免处理过程过于复杂，因此能够快速地得到保真度较高的目标音素。

S409、终端设备对所述人脸相似度和所述人脸属性包括的属性进行量化，得到与所述人脸相似度和所述人脸属性包括的属性对应的音素集的权重因子。

本实施例中，与人脸相似度和人脸属性包括的属性对应的音素集的权重因子，可以是根据用户的使用习惯进行设定，可以是由用户进行设定，可以通过系统或应用程序进行预先设定，可以根据其他参数进行设定，可以随机设定，本实施例不作具体限定。

S410、终端设备根据所述权重因子对多个所述音素集进行加权平均。

示例性地，可以选择人脸相似度以及年龄、性别和表情这3种属性，并通过设定与人脸相似度对应的音素集的权重因子为0.5，与年龄属性对应的音素集的权重因子为0.2，与性别属性对应的音素集的权重因子为0.2，与表情属性对应的音素集的权重因子为0.1，得到第一人脸图像对应的目标音素S为：

S＝0.5*S1+0.2*S2+0.2*S3+0.1*S4

其中，S1为符合人脸相似度的N个人脸图像对应的N个音素集的平均音素，N为正整数，S2是与年龄属性对应的多个音素集的平均音素，S3是与性别属性对应的多个音素集的平均音素，S4是与表情属性对应的多个音素集的平均音素。

本实施例中，终端设备通过对人脸相似度和人脸属性进行量化，得到与所述人脸相似度和所述人脸属性包括的属性对应的音素集的权重因子，利用该权重因子，对多个音素集进行加权平均。其中，人脸图像的人脸相似度越高以及人脸属性匹配度越高，对应的音素集所占的权重越大，因此得到的音素集更能体现用户特征。

S411、终端设备获取所述加权平均后的音素集作为目标音素。

本实施例中，用户在对多个音素集进行加权平均后，可以通过对该音素集进行预播放，判断是否选择该音素集作为目标音素集，若用户不选择该音素集作为目标音素集，可以返回至加权平均前的步骤，通过重新设定权重因子再进行加权平均，也可以通过让终端设备根据用户的修改习惯自动返回加权平均步骤前对权重因子进行修改，也可以通过返回加权平均步骤前对权重因子进行随机设定或修改，也可以根据其他参数返回加权平均步骤前对权重因子进行设定或修改，再重新加权平均，从而获得用户满意的目标音素，本实施例不作具体限定。

本实施例中，当与人脸相似度和人脸属性对应的人脸图像数目为一个时，直接获取该人脸图像对应的音素集作为目标音素，使得音频模拟过程较为简单。当该人脸图像数目为多个时，对与多个人脸图像对应的多个音素集进行求平均，得到目标音素，或者，对人脸相似度以及人脸属性包括的属性进行量化，得到与人脸相似度和人脸属性包括的属性对应的音素集的权重因子，其中，人脸图像的人脸相似度越高以及人脸属性匹配度越高，对应的音素集所占的权重越大。根据该权重因子，对多个与人脸相似度和人脸属性包括的属性对应的音素集进行加权平均，得到目标音素，使得音素处理过程中充分考虑用户特征，得到的目标音素保真度更高。

在根据上述本实施例的三种实施方式获得目标音素后，利用该目标音素进行音频合成，结合图1如图5所示，该音频合成方法包括步骤S501-S503：

S501、获取目标文字

本实施例中的目标文字，可以为用户在终端设备输入的文字、也可以是终端设备通过网络获得的文字、也可以是终端设备存储的文字、也可以是终端设备读取其他设备中的文字，也可以是终端设备通过其他方式获得的文字，本实施例不作具体限定。

S502、终端设备对所述目标文字进行分解，得到所述目标文字的发音对应的音素组合、音素频率和时长。

本实施例中，对目标文字进行分解可以通过终端设备进行，可以利用其它设备进行文字分解，可以利用现有的应用程序进行文字分解，本实施例不作具体限定。

需要说明的是，本实施例中，对目标文字分解后得到对应的音素组合、音素频率和时长等参数，可以通过终端设备显示给用户查看，用户可以对相关参数进行修改调节，也可以是终端设备对相关参数根据用户习惯进行自动调节、还可以通过其他方式对相关参数进行调节，使得该音素组合、音素频率和时长更符合用户的喜好，本实施例不作具体限定。

S503、终端设备根据所述的音素组合、音素频率和时长以及所述目标音素，生成与所述目标文字对应的目标音频。

本实施例中，在生成与目标文字对应的目标音频后，用户可以预播放该目标音频，若目标音频不符合用户喜好，可以返回音素模拟步骤，对目标音素进行重新模拟，重新获取目标音频，终端设备也可以对目标音频进行自动修正或进一步优化。此外，用户也可以对该目标音频进行编辑、保存、上传或分享，本实施例不作具体限定。

本实施例通过根据所述的音素组合、音素频率和时长以及所述目标音素，生成与所述目标文字对应的目标音频，合成过程更简单，生成的目标音频保真度更高。

图6为本发明实施例提供的一种终端设备可能的结构示意图，终端设备600包括：第一获取模块601，用于获取第一人脸图像；第二获取模块602，用于获取与第一人脸图像相匹配的目标音素；生成模块603，用于根据该目标音素，生成目标音频。

本实施例中，第二获取模块602具体用于根据该第一人脸图像的人脸相似度和/或人脸属性,获取目标音素，其中，该第一人脸图像的人脸相似度为所述第一人脸图像与数据库中的一张或多张人脸图像之间的相似度。

可选的，该人脸属性包括年龄、性别、表情、肤色、种族、健康状况中的一种或多种属性。

本实施例中，生成模块603具体用于获取目标文字；对该目标文字进行文字分解，得到所述目标文字的发音对应的音素组合、音素频率和时长；根据该音素组合、音素频率、音素时长和所述目标音素，生成与该目标文字对应的目标音频。

可选的，结合图6，如图7所示，第二获取模块602包括：

第一获取子模块6021，用于获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素；

本实施例中，第一获取模块6021具体用于获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个，且所述人脸属性包括一种属性时，对所述属性对应的多个音素集进行求平均，得到所述目标音素；当所述人脸图像的数目为多个，且所述人脸属性包括多种属性时，每个所述人脸图像对应一个音素集，每个所述人脸图像对应一种所述属性，则对多个所述音素集进行求平均，将处理得到的音素集作为所述目标音素，或者，对多种所述属性进行量化，得到与每种所述属性对应的音素集的权重因子，根据所述权重因子，对多个所述音素集进行加权平均，得到所述目标音素。

第二获取子模块6022，用于获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素；

本实施例中，第二获取子模块6022具体用于获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行求平均，得到目标音素；或者，当所述人脸图像的数目为多个，且每个所述人脸图像分别对应一个音素集，所述人脸图像与所述人脸相似度对应时，对每个所述人脸相似度进行量化，得到与每个所述人脸相似度对应的音素集的权重因子，根据所述权重因子，对多个所述音素集进行加权平均，得到所述目标音素。

第三获取子模块6023，用于获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素。

本实施例中，第三获取子模块6023具体用于获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行求平均，得到所述目标音素，或者，对所述人脸相似度和所述人脸属性包括的多种属性进行量化，得到与所述人脸相似度和所述人脸属性包括的多种属性对应的音素集的权重因子，根据所述权重因子，对与所述人脸相似度和所述人脸属性包括的多种属性对应的多个音素集进行加权平均，得到所述目标音素。

本发实施例提供的终端设备600能够实现上述方法实施例中终端设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供的终端设备，通过获取第一人脸图像，根据第一人脸图像，获取与第一人脸图像相匹配的目标音素，根据该目标音素，生成目标音频。由于终端设备根据第一人脸图像生成目标音频，因此，采用本发明实施例提供的音频合成终端设备，充分考虑到了用户特征，并且音频合成的过程更简单，操作更容易，声音模拟更真实。

图8为实现本发明各个实施例的一种终端设备的硬件结构示意图，该终端设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、处理器810、以及电源811等部件。本领域技术人员可以理解，图8中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本、电脑、掌上电脑、车载终端设备、可穿戴设备、以及计步器等。

其中，处理器810，用于获取第一人脸图像；获取与第一人脸图像相匹配的目标音素；根据目标音素，生成目标音频；音频输出单元803，用于输出目标音频，该音频为根据目标音素和目标文字生成的音频。

应理解的是，本发明实施例中，射频单元801可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器810处理；另外，将上行的数据发送给基站。通常，射频单元801包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元801还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块802为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元803可以将射频单元801或网络模块802接收的或者在存储器809中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元803还可以提供与终端设备800执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元803包括扬声器、蜂鸣器以及受话器等。

输入单元804用于接收音频或视频信号。输入单元804可以包括图形处理器(Graphics Processing Unit，GPU)8041和麦克风8042，图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元806上。经图形处理器8041处理后的图像帧可以存储在存储器809(或其它存储介质)中或者经由射频单元801或网络模块802进行发送。麦克风8042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元801发送到移动通信基站的格式输出。

终端设备800还包括至少一种传感器805，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板8061的亮度，接近传感器可在终端设备800移动到耳边时，关闭显示面板8061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器805还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元806用于显示由用户输入的信息或提供给用户的信息。显示单元806可包括显示面板8061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板8061。

用户输入单元807可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元807包括触控面板8071以及其他输入设备8072。触控面板8071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板8071上或在触控面板8071附近的操作)。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器810，接收处理器810发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板8071。除了触控面板8071，用户输入单元807还可以包括其他输入设备8072。具体地，其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板8071可覆盖在显示面板8061上，当触控面板8071检测到在其上或附近的触摸操作后，传送给处理器810以确定触摸事件的类型，随后处理器810根据触摸事件的类型在显示面板8061上提供相应的视觉输出。虽然在图8中，触控面板8071与显示面板8061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板8071与显示面板8061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元808为外部装置与终端设备800连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元808可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备800内的一个或多个元件或者可以用于在终端设备800和外部装置之间传输数据。

存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器809可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器810是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器809内的软件程序和/或模块，以及调用存储在存储器809内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器810可包括一个或多个处理单元；优选的，处理器810可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

终端设备800还可以包括给各个部件供电的电源811(比如电池)，优选的，电源811可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备800包括一些未示出的功能模块，在此不再赘述。

可选的，本发明实施例还提供一种终端设备，结合图8，包括处理器810，存储器809，存储在存储器809上并可在所述处理器810上运行的计算机程序，该计算机程序被处理器810执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的图像处理方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频合成方法，应用于终端设备，其特征在于，所述方法包括：

获取第一人脸图像；

获取与第一人脸图像相匹配的目标音素；

根据所述目标音素，生成目标音频；

获取与第一人脸图像相匹配的目标音素，具体包括:

2.根据权利要求1所述的方法，其特征在于，所述人脸属性包括年龄、性别、表情、肤色、种族、健康状况中的一种或多种属性。

3.根据权利要求1所述的方法，其特征在于，根据所述第一人脸图像的人脸相似度和/或人脸属性,获取所述目标音素，具体包括：

或者，

4.根据权利要求3所述的方法，其特征在于，获取与所述人脸属性对应的人脸图像，当所述人脸图像数目为一个时，将与所述人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素，具体包括：

5.根据权利要求3所述的方法，其特征在于，获取与所述人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述的人脸图像对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素，具体包括：

或者，

6.根据权利要求3所述的方法，其特征在于，获取与所述人脸属性和人脸相似度对应的人脸图像，当所述人脸图像的数目为一个时，将与所述人脸图像的对应的音素集作为所述目标音素；当所述人脸图像的数目为多个时，对与多个所述人脸图像对应的多个音素集进行处理，得到所述目标音素，具体包括：

7.根据权利要求1所述的方法，其特征在于，在根据所述目标音素生成所述目标音频时，具体包括：

获取目标文字；

对所述目标文字进行文字分解，得到所述目标文字的发音对应的音素组合、

音素频率和时长；

8.一种终端设备，其特征在于，所述终端设备包括：

第一获取模块，用于获取第一人脸图像；

第二获取模块，用于获取与第一人脸图像相匹配的目标音素；

生成模块，用于根据所述目标音素，生成目标音频；

所述第二获取模块具体用于：