CN111916052B

CN111916052B - 一种语音合成方法及装置

Info

Publication number: CN111916052B
Application number: CN202010749702.5A
Authority: CN
Inventors: 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2021-04-27
Anticipated expiration: 2040-07-30
Also published as: CN111916052A

Abstract

本申请公开了一种语音合成方法及装置。该方法在获取至少一个用户的语音；对至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定每个用户的声纹特征；若确定的语种中存在当前地区的通用语种，则将通用语种确定为目标语种；当前地区为用户当前所处的地区；若确定的语种中不存在通用语种，则将语种占比大于预设占比的语种确定为目标语种；基于每个用户的声纹特征，以目标语种，输出目标合成语音。该方法将确定的目标语种和通过相似度获取的目标声纹特征，得到的合成语音，提高了语音交互系统中语音合成的质量和用户体验。

Description

一种语音合成方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种语音合成方法及装置。

背景技术

语音合成是通过机器将文字转换为声音的技术，又被称为文语转换(Test-To-Speech，TTS)，目前，语音合成技术在国际上已经取得了普遍发展，各种语言都有各自的语音合成系统，为了让系统具有更好的重用性、通用性和扩展性，多语种的语音合成便成为了国内外研究的热点，多语种的语音合成是指能够用一个语音合成系统取得不同说话人、不同语种的合成语音。目前，智能终端的语音交互系统应用了语音合成技术，以实现与用户的沟通交流。

然而，在智能终端的语音交互系统中，若用户语音采用的语种与语音交互系统默认输出的语种不同，使用户不理解语音交互系统输出的语音的语义，出现对话障碍的问题，且语音交互系统输出的语音的音色一般为默认音色，导致与用户的亲和力不足，降低用户体验。

发明内容

本申请实施例提供一种语音合成方法及装置，解决了现有技术存在的上述问题，以提高语音交互系统中语音合成的质量和用户体验。

第一方面，提供了一种语音合成方法，该方法可以包括：

获取至少一个用户的语音；

对所述至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；

若确定的语种中存在当前地区的通用语种，则将所述通用语种确定为目标语种；所述当前地区为所述用户当前所处的地区；

若确定的语种中不存在所述通用语种，则将语种占比大于预设占比的语种确定为目标语种；

基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音。

在一种可选的实现中，基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音，包括：

根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

以所述目标语种和所述目标声纹特征，输出目标合成语音。

在一种可选的实现中，根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征，包括：

计算所述每个用户的声纹特征与存储的样本声纹特征的相似度；

若所述相似度中存在至少一个相似度大于第一阈值，则将所述至少一个相似度中最大相似度对应的样本声纹特征确定为所述目标合成语音的目标声纹特征；

若所述相似度中存在至少两个相似度不大于所述第一阈值，且大于第二阈值，则根据所述至少两个相似度对应的样本声纹特征，确定所述目标合成语音的目标声纹特征。

在一种可选的实现中，根据所述至少两个相似度对应的样本声纹特征，确定所述目标合成语音的目标声纹特征，包括：

按照相似度从大到小的顺序，将所述至少两个相似度进行排序；

获取排序后的所述至少两个相似度中在前的预设数量的相似度；

将所述预设数量的相似度对应的样本声纹特征进行加权运算，得到加权声纹特征；

若所述加权声纹特征与所述用户的声纹特征的相似度大于所述第一阈值，则将所述加权声纹特征确定为所述目标合成语音的目标声纹特征。

在一种可选的实现中，所述方法还包括：

若所述至少一个用户的用户数量为一个，或者所述用户数量为多个，且所述多个用户的声纹特征包括相同的声纹类型，则执行步骤：根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

若所述至少一个用户的用户数量为多个，且所述多个用户的声纹特征包括不同的声纹类型，则将预设声纹特征确定为所述目标合成语音的目标声纹特征。

在一种可选的实现中，所述方法应用在安装语音交互系统的电梯中。

第二方面，提供了一种语音合成装置，该装置可以包括：获取单元、识别单元、确定单元和输出单元；

所述获取单元，用于获取至少一个用户的语音；

所述识别单元，用于对所述至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；

所述确定单元，用于若确定的语种中存在当前地区的通用语种，则将所述通用语种确定为目标语种；所述当前地区为所述用户当前所处的地区；

以及，若确定的语种中不存在所述通用语种，则将语种占比大于预设占比的语种确定为目标语种；

所述输出单元，用于基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音。

在一种可选的实现中，所述确定单元，还用于根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

所述输出单元，具体用于以所述目标语种和所述目标声纹特征，输出目标合成语音。

在一种可选的实现中，所述装置还包括计算单元；

所述计算单元，用于计算所述每个用户的声纹特征与存储的样本声纹特征的相似度；

所述确定单元，具体用于若所述相似度中存在至少一个相似度大于第一阈值，则将所述至少一个相似度中最大相似度对应的样本声纹特征确定为所述目标合成语音的目标声纹特征；

以及，若所述相似度中存在至少两个相似度不大于所述第一阈值，且大于第二阈值，则根据所述至少两个相似度对应的样本声纹特征，确定所述目标合成语音的目标声纹特征。

在一种可选的实现中，所述确定单元，还具体用于：

若所述加权声纹特征与所述用户的声纹特征的相似度大于所述第一阈值，则将所述加权声纹特征确定为所述语音的目标声纹特征。

在一种可选的实现中，所述确定单元，还用于若所述至少一个用户的用户数量为一个，或者所述用户数量为多个，且所述多个用户的声纹特征包括相同的声纹类型，则根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

在一种可选的实现中，所述装置方法应用在安装语音交互系统的电梯中。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的语音合成方法在获取至少一个用户的语音；对至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定每个用户的声纹特征；若确定的语种中存在当前地区的通用语种，则将通用语种确定为目标语种；当前地区为用户当前所处的地区；若确定的语种中不存在通用语种，则将语种占比大于预设占比的语种确定为目标语种；基于每个用户的声纹特征，以目标语种，输出目标合成语音。该方法提高了语音交互系统中语音合成的质量和用户体验。

附图说明

图1为提供的一种语音合成框架；

图2为本发明实施例提供的一种语音合成方法的流程示意图；

图3为本发明实施例提供的一种语种识别的网络架构示意图；

图4为本发明实施例提供的一种语音合成装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的语音合成方法应用在包括用户和安装语音交互系统终端的场景中，该语音交互系统具有语音合成功能与语音识别功能。安装语音交互系统终端是智能音箱、智能电梯(或称“电梯”)、智能机器人等，还可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备等。语音交互系统中带有声纹特征的语音合成框架，可以如图1所示，其中：

1，前端特征是指回复文本转为音素序列，再经过音素嵌入(embedding)和CBHG模型，得到文本序列信息。

2，声纹特征x-vector，是经过7层基于声纹识别技术的神经网络，即声纹识别网络计算得到的说话人声纹特征。

图1中声纹特征x-vector，输入到3个地方：

(1)输入到基于位置信息的注意力模块Location Sensitive Attention，和前端向量拼接在一起；

(2)输入到Pre-Net，和Decoder_RNN(t-1)结果拼接在一起；

(3)输入到Post-Net，和Decoder_RNN(t)结果拼接在一起。

3，Location Sensitive Attention是指加入位置信息的注意力机制Attention。

计算公式如下：e_i，j＝w^Ttanh(Ws_i-1+Vh_j+Uf_i，j+b)；

其中，w^T，W，V，U，b是待训练参数。U*f_i,j就是位置信息，U是位置信息权重，f_i,j是经过卷积，累加的之前步的对齐信息alignment。s_i是第i层的当前解码步上RNN的隐层状态。

4，Pre-Net是2层dnn网络，输入是：声纹特征x-vector和Decoder_RNN(t-1)的输出。

5，Attention RNN是一层GRU(Gated Recurrent Unit)网络，隐层节点为Pre-Net输出节点。

6，Decoder RNN是2层双向的GRU网络，输入是：Attention RNN的输出和LocationSensitive Attention向量。Decoder_RNN每次输出3帧-5帧，用于加速解码。

7，Post-Net是3层1维卷积网络，输入是：Decoder RNN的输出和x-vector特征。

8，声码器采用WaveNet Vocoder。输入是：Post-Net的输入和Post-Net的输出构成的残差和。

需要说明的是，终端可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobilestation，MS)、移动终端(Mobile Terminal)等。

服务器可以是云服务器或应用服务器。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2为本发明实施例提供的一种语音合成方法的流程示意图。如图2所示，该方法可以包括：

步骤S210、获取至少一个用户的语音。

针对每个用户，对该用户的语音进行语音识别，获取该语音的音素序列，以及该音素序列对应的文本信息，从而采用现有的在线翻译技术，获取该文本信息的语义，并根据该语音的语义，获取相应的回复文本。

可选地，对该回复文本进行文本分析，即文本归一化、分词、词性标注、韵律、重音、多音字预测等分析，得到回复文本的文本序列信息，文本序列信息可以包括回复文本对应的音素序列和该音素序列对应的韵律特征(prosodicfeature)。其中，韵律特征可以包括音素的音高、音长、音强、停顿等特征。

步骤S220、对至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定每个用户的声纹特征。

首先，对每个用户的语音进行语种识别，可以得到每个用户的语音对应的语种。

对每个用户的语音对应的语种进行检测，确定目标语种，至少包括以下确定方式：

若确定的语种中存在当前地区的通用语种，则将通用语种确定为目标语种；该当前地区为用户当前所处的地区；通用语种可以是预先设定的，如用户当前所处的地区为中国，且设定的通用语种为汉语，则如果确定的语种中存在中文，则将中文确定为目标语种；如果设定的通用语种为汉语和英语，则如果将中文、英语均确定为目标语种，此时，输出的目标合成语音有汉语、英语先后两种形式。

若确定的语种中不存在通用语种，则将语种占比大于预设占比的语种确定为目标语种。语种占比是指每个语种与总语种的比值。所述将语种占比大于预设占比的语种确定为目标语种，可以是将语种占比最大的语种作为目标语种。

其次，将每个用户的语音输入声纹识别模型，如预先训练的神经网络，以实现对语音进行声纹识别，得到该用户的声纹特征。其中，声纹(Voiceprint)是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带言语信息的声波频谱。声纹识别(VoiceprintRecognition，VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。

步骤S230、基于每个用户的声纹特征，以目标语种，输出目标合成语音。

为了增加与当前用户的亲和力、交互体验，可以根据声纹特征的声纹类别，确定出目标合成语音的目标声纹特征。声纹类型可以包括男性青年类型、女性青年类型、男性老人类型、女性老人类型、男性儿童类型和女性儿童类型。

若至少一个用户的用户数量为多个，且多个用户的声纹特征包括不同的声纹类型，则将预设声纹特征确定为目标合成语音的目标声纹特征。

例如，用户数量为3个，3个用户的声纹特征包括1个男性青年类型、1个男性老人类型和1个女性儿童类型，或者，2个男性青年类型和1个女性老人类型等不同的声纹类型，此时将预先设置的默认声纹特征确定为目标合成语音的目标声纹特征。

若至少一个用户的用户数量为一个，或者用户数量为多个，且多个用户的声纹特征包括相同的声纹类型，则获取与当前用户或与当前多个用户相同声纹类型的相似声纹特征，即得到与当前用户或与当前多个用户同一年龄段的音色，具体可以包括：

采用预设相似度算法，计算每个用户的声纹特征与存储的样本声纹特征的相似度。

其中，存储的样本声纹特征可以包括6种声纹类别的声纹特征，且由于每个用户的声纹特征均不同，故存储的样本声纹特征中每种声纹类型可以包括至少一种声纹特征，如男性青年类型的声纹特征可以包括至少一个男性青年的声纹特征；女性老人类型的声纹特征可以包括至少一个女性老人的声纹特征，由此针对每个用户，可以计算得到每种声纹类别的至少一个相似度。

预设相似度算法可以为余弦相似度算法、切比雪夫相似度算法、欧式距离相似度算法等，本发明实施例在此不做限定。

若计算得到的相似度中存在至少一个相似度大于第一阈值(如0.9)，则将至少一个相似度中最大相似度对应的样本声纹特征确定为该目标合成语音的目标声纹特征；

可以理解的是，在大于第一阈值的相似度中存在两个样本声纹特征的相似度相同，且为最大相似度时，可以将任一声纹特征确定为该目标合成语音的目标声纹特征。

若计算得到的相似度中存在至少两个相似度不大于第一阈值，且大于第二阈值(如0.8)，则根据至少两个相似度对应的样本声纹特征，确定该目标合成语音的目标声纹特征。

具体的，根据至少两个相似度对应的样本声纹特征，确定该目标合成语音的目标声纹特征，包括：

按照相似度从大到小的顺序，将至少两个相似度进行排序；

获取排序后的至少两个相似度中在前的预设数量的相似度；

将预设数量的相似度对应的样本声纹特征进行加权运算，得到加权声纹特征；

例如，当预设数量可以为2，且2个声纹特征为X-Vector(B)和X-Vector(C)时，加权声纹特征可以表示为：

加权声纹特征x-vector＝W1*X-Vector(B)+W2*X-Vector(C)；

其中，W1与W2为加权系数。

其中，若加权声纹特征与用户的声纹特征的相似度大于第一阈值，则将加权声纹特征确定为目标合成语音的目标声纹特征；若加权声纹特征与用户的声纹特征的相似度不大于第一阈值，则结束本次语音合成流程。

若计算得到的相似度中的相似度均不大于第二阈值，则通过训练样本扩充方式，如速度扰动、加噪、加混响等方式，对用户的语音进行样本扩充，生成该用户的多个语音训练样本；根据生成的多个语音训练样本和相应标注信息，对神经网络进行训练，训练得到具有该用户声纹特征的语音合成模型，以实现输出该用户声纹特征的语音，完成与该用户对话。

需要说明的是，大于第一阈值的相似度对应的样本声纹特征为优质声纹特征；该优质声纹特征与用户的声纹特征相似，即同一年龄域，如用户为男性儿童，其声纹特征为男性儿童音色，那么优质声纹特征为男性儿童的音色；

不大于第一阈值且大于第二阈值的相似度对应的样本声纹特征为可用声纹特征；预设数量的可用声纹特征进行加权后的声纹特征与用户的声纹特征相似，如用户为男性儿童，且预设数量为2，用户的声纹特征为男性儿童音色，那么可用声纹特征可以是1个女性儿童和1个男性青少年的音色；

不大于第二阈值的相似度对应的样本声纹特征为不可用声纹特征。

进一步的，以目标语种和目标声纹特征，输出目标合成语音。

具体的，获取回复文本的文本序列信息对应的具有目标声纹特征和目标语种的声谱信息，并采用预设转换算法，将声谱信息按目标声纹特征和目标语种合成目标合成语音。其中，声码器可以将声谱信息变换为语音波形。

在一种实现的实施例中，对于目标语种识别还可以包括：

将语音输入语音识别模型中的音素识别模型，可以得到该语音的音素序列。音素识别模型可以包括时延神经网络(Time Delay Neural Networks，TDNN)模型、带有矩阵因子分解的时延神经网络(Factorization for Time Delay Deep Neural Networks，TDNN-F)模型、深前馈顺序存储器网络(deep feedforward sequential memory networks，DFSMN)模型、长短期记忆(long-short term memory，lstm)模型等，lstm模型可以包括2层卷积神经网络(Convolutional Neural Network，CNN)、7层深度神经网络(Deep NeuralNetworks，DNN)和2层LSTM网络，即lstm模型可以包括2CNN+7DNN+2LSTM。

同时，根据该语音的音素序列与存储的各语种对应的语种信息进行模型打分的分值，确定语音的语种；每个语种对应的语种信息可以包括相应语种的音素和语言规则。其中，语言规则存储在语言模型中，该语言模型可以是基于音素建模的n-gram语言模型。

具体的，为了提高语种识别的准确性，可以将语音的音素序列中每个音素与存储的各语种对应的音素进行模型打分，得到每个语种对应的第一分值；同时，将语音的音素序列与存储的各语种对应的语言规则进行模型打分，得到每个语种对应的第二分值；获取每个语种对应的第一分值和相应第二分值的总分值，如，将每个语种对应的第一分值与相应第二分值加和或乘积，并根据每个语种对应的总分值，获取最大总份值对应的语种，可以将最大总分值对应的语种确定为该语音的语种。例如，可以采用语音识别音子模型，对语音的音素序列中每个音素与存储的各语种对应的音素进行基于音素的语言模型打分；语音识别语言规则模型，对语音的音素序列与存储的各语种对应的语言规则进行模型打分基于音素的语言模型打分。

上述的模型打分过程可以表示为图3所示的语种识别网络架构，语音的音素序列，分别与存储的中文音素、英文音素、…、法文音素进行模型打分，计算得到相应的第一分值之后，语音的音素序列分别与存储的中文语言规则、英文语言规则、…、法文语言规则进行模型打分，计算得到相应的第二分值，此时综合得到中文语种的总分值、英文语种的总分值、法文语种的总分值，选取最大总分值对应的语种为语音的语种。

进一步的，对于同一用户，由于不同语种的语音在信号形式上的特征也可以从该用户的声纹特征和语言特征上体现。故为了进一步提高语种识别的准确性，对语音进行语音识别过程中还可以采用预设的语言特征提取模型，得到该语音的语言特征，其中，语言特征可以为语音在信号形式上的fbank特征，基频f₀相关的发声概率(probability ofvoicing，pov)特征，基音周期pitch特征(pitch，delta-pitch)，线性预测编码(LinearPredictive Coding，lpc)特征等。语言特征提取模型可以是用2层lstm网络进行建模，并进行特征分类。

具体为，将该用户的声纹特征、该语音的语言特征和最大总分值对应的语种输入预设分类模型，得到该语音的目标语种。其中，预设分类模型可以是支持向量机(SupportVector Machine，SVM)、softmax分类器等。

进一步的，根据该用户的声纹特征、该语音的语言特征和最大总分值对应的语种，确定该语音的目标语种。

具体的，获取该用户的声纹特征对应的各语种的声纹特征分值，以及该语音的语言特征对应的各语种的语言特征分值；

将该用户的声纹特征对应的各语种的声纹特征分值、该语音的语言特征对应的各语种的语言特征分值，以及计算出的最大总分值对应的语种中相同语种的分值进行加权，将最大加权值对应的语种确定为目标语种。

在n-gram语言模型中：

k个音素的条件概率为：

n-gram语言模型的概率：(当前词与前面n个词有关，n＝2-8)

其中，K表示音素个数；w表示一个音素；P(w)表示：当前音素在w₁...w_k-1音素后边出现的概率。这里的P(w)就可以表示w₁...w_k-1，w_k构成一个音素序列的匹配概率，即分值。

本发明实施例提供的语音合成方法获取至少一个用户的语音；对至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定每个用户的声纹特征；若确定的语种中存在当前地区的通用语种，则将通用语种确定为目标语种；当前地区为用户当前所处的地区；若确定的语种中不存在通用语种，则将语种占比大于预设占比的语种确定为目标语种；基于每个用户的声纹特征，以目标语种，输出目标合成语音。该方法将确定的目标语种和通过相似度获取的目标声纹特征，得到的合成语音，提高了语音交互系统中语音合成的质量和用户体验。

与上述方法对应的，本发明实施例还提供一种语音合成装置，如图4所示，该语音合成装置包括：获取单元410、识别单元420、确定单元430和输出单元440；

获取单元410，用于获取至少一个用户的语音；

识别单元420，用于对所述至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；

确定单元430，用于若确定的语种中存在当前地区的通用语种，则将所述通用语种确定为目标语种；所述当前地区为所述用户当前所处的地区；

输出单元440，用于基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音。

在一种可选的实现中，确定单元430，还用于根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

输出单元440，具体用于以所述目标语种和所述目标声纹特征，输出目标合成语音。

在一种可选的实现中，所述装置还包括计算单元450；

计算单元450，用于计算所述每个用户的声纹特征与存储的样本声纹特征的相似度；

确定单元430，具体用于若所述相似度中存在至少一个相似度大于第一阈值，则将所述至少一个相似度中最大相似度对应的样本声纹特征确定为所述目标合成语音的目标声纹特征；

在一种可选的实现中，确定单元430，还具体用于：

在一种可选的实现中，确定单元430，还用于若所述至少一个用户的用户数量为一个，或者所述用户数量为多个，且所述多个用户的声纹特征包括相同的声纹类型，则执行步骤：根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

在一种可选的实现中，所述装置应用在安装语音交互系统的电梯中。

本发明上述实施例提供的语音合成装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的语音合成装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器510、通信接口520、存储器530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。

存储器530，用于存放计算机程序；

处理器510，用于执行存储器530上所存放的程序时，实现如下步骤：

获取至少一个用户的语音；

以所述目标语种和所述目标声纹特征，输出目标合成语音。

在一种可选的实现中，所述方法还包括：

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取多个用户的语音；

对所述多个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；

若所述相似度中存在至少两个相似度不大于第一阈值，且大于第二阈值，则按照相似度从大到小的顺序，将所述至少两个相似度进行排序；获取排序后的所述至少两个相似度中在前的预设数量的相似度；将所述预设数量的相似度对应的样本声纹特征进行加权运算，得到加权声纹特征；若所述加权声纹特征与所述用户的声纹特征的相似度大于所述第一阈值，则将所述加权声纹特征确定为所述目标合成语音的目标声纹特征；

以所述目标语种和所述目标声纹特征，输出目标合成语音。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

若所述多个用户的声纹特征包括相同的声纹类型，则执行步骤：根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

若所述多个用户的声纹特征包括不同的声纹类型，则将预设声纹特征确定为所述目标合成语音的目标声纹特征。

3.如权利要求1所述的方法，其特征在于，所述方法应用在安装语音交互系统的电梯中。

4.一种语音合成装置，其特征在于，所述装置包括：获取单元、识别单元、确定单元、计算单元和输出单元；

所述获取单元，用于获取多个用户的语音；

所述识别单元，用于对所述多个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；

所述确定单元，还用于若所述相似度中存在至少两个相似度不大于第一阈值，且大于第二阈值，则按照相似度从大到小的顺序，将所述至少两个相似度进行排序；获取排序后的所述至少两个相似度中在前的预设数量的相似度；将所述预设数量的相似度对应的样本声纹特征进行加权运算，得到加权声纹特征；若所述加权声纹特征与所述用户的声纹特征的相似度大于所述第一阈值，则将所述加权声纹特征确定为所述语音的目标声纹特征；

所述输出单元，用于以所述目标语种和所述目标声纹特征，输出目标合成语音。

5.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-3任一所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法步骤。