CN112466294A

CN112466294A - 声学模型的生成方法、装置及电子设备

Info

Publication number: CN112466294A
Application number: CN202011329549.7A
Authority: CN
Inventors: 高占杰; 陈昌滨; 刘龙飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-09
Anticipated expiration: 2040-11-24
Also published as: CN112466294B

Abstract

本申请公开了一种声学模型的生成方法、装置及电子设备，涉及语音处理、深度学习等人工智能技术领域。该方案为：获取样本发音者的第一训练数据，并利用多个样本发音者的第一训练数据训练出基础声学模型；获取目标发音者的第二训练数据；从多个第一训练数据中筛选出陪练第一训练数据；利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。本申请不再依赖目标发音者的海量训练数据的积累即可准确地生成适用于目标发音者的目标，提高了声学模型的生成过程中的效率和可靠性。同时，基于体量极小的第二训练数据，即可生成针对目标发音者的个性化定制的声学模型，训练耗时短、成本低、通用性高。

Description

声学模型的生成方法、装置及电子设备

技术领域

本申请的实施例总体上涉及数据处理技术领域，并且更具体地涉及语音处理、深度学习等人工智能技术领域。

背景技术

近年来，AI(Artificial Intelligence，人工智能)技术正在蓬勃发展，随之而来，基于AI技术的语音识别处理，更是受到了越来越多的关注。其中，一个性能优良的声学模型是高效进行语音识别处理的基础。

然而，在根据现有声学模型的生成方法进行模型训练时，为了确保模型性能，往往需要依赖目标发音者的海量训练数据的积累，这样一来，势必导致声学模型的生成过程中存在的耗时久、成本高等问题，导致声学模型的生成过程效率低、可靠性差。因此，如何提高声学模型的生成过程中的效率和可靠性，已成为了重要的研究方向之一。

发明内容

本申请提供了一种声学模型的生成方法、装置及电子设备。

根据第一方面，提供了一种声学模型的生成方法，包括：

获取样本发音者的第一训练数据，并利用多个所述样本发音者的第一训练数据训练出基础声学模型；

获取目标发音者的第二训练数据；

从多个所述第一训练数据中筛选出陪练第一训练数据；以及

利用所述第二训练数据和所述陪练第一训练数据，重新对所述基础声学模型进行训练，生成适用于所述目标发音者的目标声学模型。

根据第二方面，提供了一种声学模型的生成装置，包括：

第一获取模块，用于获取样本发音者的第一训练数据，并利用多个所述样本发音者的第一训练数据训练出基础声学模型；

第二获取模块，用于获取目标发音者的第二训练数据；

筛选获取模块，用于从多个所述第一训练数据中筛选出陪练第一训练数据；以及

第一生成获取模块，用于利用所述第二训练数据和所述陪练第一训练数据，重新对所述基础声学模型进行训练，生成适用于所述目标发音者的目标声学模型。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面所述的声学模型的生成方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的声学模型的生成方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是一种基础声学模型训练过程的示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是根据本申请第五实施例的示意图；

图7是根据本申请第六实施例的示意图；

图8是用来实现本申请实施例的声学模型的生成方法的声学模型的生成装置的框图；

图9是用来实现本申请实施例的声学模型的生成方法的声学模型的生成装置的框图；

图10是用来实现本申请实施例的声学模型的生成方法的声学模型的生成装置的框图；

图11是用来实现本申请实施例的声学模型的生成方法的声学模型的生成装置的框图；

图12是用来实现本申请实施例的声学模型的生成方法的声学模型的生成装置的框图；

图13是用来实现本申请实施例的声学模型的生成的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本申请的方案涉及的技术领域进行简要说明：

数据处理(DataProcessing)，包括对数据的采集、存储、检索、加工、变化和传输等处理，旨从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的用户来说有价值、有意义的数据。

AI(Artificial Intelligence，人工智能)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

DL(Deep Learning，深度学习)，是ML机器学习(Machine Learning，机器学习)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

语音识别(Voice recognition)，是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

下面参考附图描述本申请实施例的声学模型的生成方法、装置及电子设备。

图1是根据本申请第一实施例的示意图。其中，需要说明的是，本实施例的声学模型的生成方法的执行主体为声学模型的生成装置，声学模型的生成装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。如图1所示，本实施例提出的声学模型的生成方法，包括如下步骤：

S101、获取样本发音者的第一训练数据，并利用多个样本发音者的第一训练数据训练出基础声学模型。

其中，第一训练数据，包括样本发音者的文本序列(或者因素序列)和样本发音者的表征向量。

本申请实施例中，可以在获取样本发音者的第一训练数据后，基于神经网络，根据多个样本发音者的第一训练数据，生成第一用户文本序列隐向量。进一步地，可以通过解码器转化为梅尔频谱(Mel Spectrogram)，并通过声码器将梅尔频谱转化为声音，以生成基础声学模型。

举例而言，如图2所示，可以在获取样本发音者的第一训练数据后，基于n个卷积网络构成的神经网络，将多个样本发音者的第一训练数据中的文本序列转化为第一文本隐向量，并将得到的第一文本隐向量和发音人的表征向量进行拼接，以生成第一用户文本序列隐向量。进一步地，可以并将第一用户文本序列隐向量通过Tacotron解码器转成梅尔频谱，并通过Melgan声码器将梅尔频谱转化为声音，以生成基础声学模型。

S102、获取目标发音者的第二训练数据。

其中，第二训练数据，包括目标发音者的文本序列(或者因素序列)和目标发音者的表征向量。

需要说明的是，现有技术中，针对目标发音者，往往需要获取高达几十、甚至上百小时的目标发音者的录音等第二训练数据，这样一来，势必导致声学模型的生成过程中存在效率低、成本高的问题。由此，本申请中，仅需获取体量极小的第二训练数据，例如仅需获取20句或者更少的第二训练数据，即可实现针对目标发音者的声学模型。

需要说明的是，本申请对于获取目标发音者的第二训练数据的具体方法不作限定，可以根据实际情况进行选取。例如，可以通过采用现场录制的方式获取第二训练数据，或者使用目标发音者预先存储的第二训练数据。

举例而言，以采用现场录制的方式获取第二训练数据为例，可选地，可以根据音子覆盖以及韵律覆盖等指标，预先设计录音文本，并提供给目标发音者进行朗读，以获得目标发音者的第二训练数据。其中，在设计录音文本时，例如针对汉语文本，可以设置录音文本包含全部的声韵母，以提高后续模型训练的准确性。

需要说明的是，在试图采用现场录制的方式获取第二训练数据时，可以由用户设备录制目标发音者的语音数据，并执行后续操作，也可以由用户设备录制目标发音者的语音数据后，发送至网络设备，由网络设备执行后续操作。其中，上述用户设备可以是计算机、智能手机和平板电脑等具有各种操作系统的硬件设备，上述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或给予云计算的由大量计算机或网络服务器构成的云。

S103、从多个第一训练数据中筛选出陪练第一训练数据。

本申请实施例中，可以根据获取到的多个样本发音者的第一训练数据，从中筛选出至少一个第一训练数据，作为陪练第一训练数据。

需要说明的是，本申请中对于陪练第一训练数据的个数不作限定，可以根据实际情况进行设定。例如，可以从多个第一训练数据中筛选任一第一训练数据，作为陪练第一训练数据；又例如，可以从多个第一训练数据中筛选任意五个第一训练数据，作为陪练第一训练数据。

S104、利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。

本申请实施例中，在获取到第二训练数据和陪练第一训练数据后，可以将第二训练数据和陪练第一训练数据作为新的训练数据，对基础声学模型进行训练。可选地，可以基于神经网络，根据第二训练数据和陪练第一训练数据，生成第二用户文本序列隐向量。进一步地，可以通过解码器转化为梅尔频谱，并通过声码器将梅尔频谱转化为声音，以生成一个新的、能够体现目标发音者音色的声学模型，即适用于目标发音者的目标声学模型。

根据本申请实施例的声学模型的生成方法，可以通过获取样本发音者的第一训练数据，并利用多个样本发音者的第一训练数据训练出基础声学模型，并获取目标发音者的第二训练数据，从多个第一训练数据中筛选出陪练第一训练数据，进而利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。由此，本申请不再依赖目标发音者的海量训练数据的积累即可准确、高效地生成适用于目标发音者的目标，提高了声学模型的生成过程中的效率和可靠性。同时，基于体量极小的第二训练数据，即可生成针对目标发音者的个性化定制的声学模型，具有训练耗时短、成本低以及通用性高等特点。

需要说明的是，本申请中，在试图从多个第一训练数据中筛选出陪练第一训练数据时，可以基于相似度处理，确定陪练第一训练数据。

图3是根据本申请第二实施例的示意图。如图3所示，在上一实施例的基础上，本实施例提出的声学模型的生成方法，包括如下步骤：

S301、获取样本发音者的第一训练数据，并利用多个样本发音者的第一训练数据训练出基础声学模型。

S302、获取目标发音者的第二训练数据。

该步骤S301～S302与上一实施例中的步骤S101～S102相同，此处不再赘述。

上一实施例中的步骤S103具体可包括以下步骤S303～S306。

S303、从第一训练数据中获取样本发音者的第一表征向量。

其中，第一表征向量，指的是样本发音者的隐向量，可以用于区分不同的样本发音者。

需要说明的是，本申请中对于从第一训练数据中获取样本发音者的第一表征向量的具体方法不作限定，可以根据实际情况进行设定。可选地，可以基于预先训练好的声纹(Voiceprint)模型，得到样本发音者的声纹隐向量，并将该声纹隐向量作为第一表征向量；可选地，可以通过聚类处理获取样本发音者的声纹隐向量，并将该声纹隐向量作为第一表征向量。

S304、从第二训练数据中获取目标发音者的第二表征向量。

其中，第二表征向量，指的是目标发音者的隐向量，可以用于区分不同的目标发音者。

需要说明的是，本申请中对于从第二训练数据中获取目标发音者的第二表征向量的具体方法不作限定，可以根据实际情况进行设定。可选地，可以基于预先训练好的声纹模型，得到目标发音者的声纹隐向量，并将该声纹隐向量作为第二表征向量；可选地，可以通过聚类处理获取目标发音者的声纹隐向量，并将该声纹隐向量作为第二表征向量。

S305、根据第一表征向量和第二表征向量，从多个样本发音者中筛选目标发音者的相似发音者。

需要说明的是，本申请中对于从多个样本发音者中筛选目标发音者的相似发音者的具体方法不作限定，可以根据实际情况进行设定。可选地，可以通过计算余弦距离或者欧式距离，筛选目标发音者的相似发音者；可选地，可以通过聚类方式，筛选目标发音者的相似发音者。

S306、将相似发音者的第一训练数据，作为陪练第一训练数据。

本申请实施例中，在确定了目标发音者的相似发音者之后，可以将相似发音者的第一训练数据，作为陪练第一训练数据。其中，陪练第一训练数据，包括相似发音者的文本序列(或者因素序列)和相似发音者的表征向量。

S307、利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。

该步骤S307与上一实施例中的步骤S104相同，此处不再赘述。

根据本申请实施例的声学模型的生成方法，可以通过从第一训练数据中获取样本发音者的第一表征向量，并从第二训练数据中获取目标发音者的第二表征向量，然后根据第一表征向量和第二表征向量，从多个样本发音者中筛选目标发音者的相似发音者，进而将相似发音者的第一训练数据，作为陪练第一训练数据。由此，本申请可以从第一训练数据中，筛选出与目标发音者音色相似的发音者作为相似发音者，进而将相似发音者的第一训练数据和目标发音者的第二训练数据构成新的训练数据训练声学模型，实现了针对目标发音者的个性化定制的声学模型的生成，提高了声学模型的生成过程中的效率、准确性和可靠性。

需要说明的是，本申请中，在试图获取第一训练数据和第二训练数据之前，可以对发音者的多个音频数据进行聚类处理，以确定发音者的表征向量。

图4是根据本申请第三实施例的示意图。如图4所示，在上一实施例的基础上，本实施例提出的声学模型的生成方法，包括如下步骤：

S401、获取发音者的多个音频数据，对多个音频数据进行声学特征提取，其中，发音者为样本发音者和目标发音者中的任意一个。

需要说明的是，本申请对于对多个音频数据进行声学特征进行提取的具体方式不作限定，可以根据实际情况进行选取。

作为一种可能的实现方式，在利用ML方法进行上述声学特征进行提取任务时，常用到梅尔频谱。可选地，可以对获取到的发音者的多个音频数据对应的音频信号进行预加重、分帧和加窗处理，然后对处理后的每帧信号进行STFT(Short Time FourierTransform，或者Short Term Fourier Transform，短时傅立叶变换)，得到短时幅度谱。进一步地，可以将短时幅度谱通过梅尔滤波器组得到梅尔频谱。

S402、对属于同一发音者的声学特征进行聚类处理，以生成发音者的声纹向量，其中，声纹向量用作发音者的表征向量。

举例而言，获取到目标发音者共20条音频数据，通过进行声学特征提取后，可以得到对应的20条梅尔频谱。此种情况下，可以按照预设聚类策略对20条梅尔频谱进行聚类处理，以形成3个类簇。进一步地，可以对每个类簇的中心进行平均处理，以生成发音者的一个声纹向量，并将该声纹向量作为目标发音者的表征向量。

需要说明的是，本申请中，在试图获取第一训练数据和第二训练数据之前，可以通过预先进行指定的方式，确定发音者的表征向量。

可选地，可以预先配置第一表征向量和第二表征向量。

举例而言，针对样本发言人A和目标发言人B，可以预先配置样本发言人A对应的第一表征向量为隐向量A，、配置目标发言人B对应的第二表征向量为隐向量B。

根据本申请实施例的声学模型的生成方法，可以通过对发音者的多个音频数据进行聚类处理，以确定发音者的表征向量，也可以通过预先配置的方式，确定发音者的表征向量，确保了第一表征向量和第二表征向量的准确性，进一步提高了声学模型的生成过程中的效率、准确性和可靠性。

需要说明的是，本申请中，在试图根据第一表征向量和第二表征向量，从多个样本发音者中筛选目标发音者的相似发音者时，可以基于相似度处理，筛选目标发音者的相似发音者。

图5是根据本申请第二实施例的示意图。如图5所示，在上一实施例的基础上，本实施例提出的声学模型的生成方法，包括如下步骤：

S501、获取样本发音者的第一训练数据，并利用多个样本发音者的第

S502、获取目标发音者的第二训练数据。

S503、从第一训练数据中获取样本发音者的第一表征向量。

S504、从第二训练数据中获取目标发音者的第二表征向量。

该步骤S501～S504与上一实施例中的步骤S301～S304相同，此处不再赘述。

上一实施例中的步骤S305具体可包括以下步骤S505～S506。

S505、获取第一表征向量与第二表征向量的相似度。

需要说明的是，本申请中对于获取第一表征向量与第二表征向量的相似度的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以通过对第一表征向量和第二表征向量进行余弦距离或者欧式距离(Euclidean Distance，欧几里得距离)等计算，获取第一表征向量与第二表征向量的相似度。

S506、根据相似度，从多个样本发音者中筛选与目标发音者的相似度大于预设相似阈值的样本发音者，作为相似发音者。

其中，预设相似阈值可以根据实际情况进行设定。

本申请实施例中，可以根据相似度，从多个样本发音者中筛选与目标发音者的相似度大于预设相似阈值的样本发音者，即筛选出与目标发音者的音色最接近的陪练样本发音者，作为相似发音者。

需要说明的是，本申请中对于相似发音者的个数不作限定，例如可以将所有相似度大于预设相似阈值的样本发音者作为相似发音者，也可以在获取到初始相似发音者之后，根据其他预设条件对初始相似发音者进行进一步筛选。

S507、将相似发音者的第一训练数据，作为陪练第一训练数据。

S508、利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。

该步骤S507～S508与上一实施例中的步骤S306～S307相同，此处不再赘述。

需要说明的是，本申请中，在试图根据第一表征向量和第二表征向量，从多个样本发音者中筛选目标发音者的相似发音者时，可以基于聚类处理，筛选目标发音者的相似发音者。

图6是根据本申请第六实施例的示意图。如图6所示，在上一实施例的基础上，本实施例提出的声学模型的生成方法，包括如下步骤：

S601、获取样本发音者的第一训练数据，并利用多个样本发音者的第

S602、获取目标发音者的第二训练数据。

S603、从第一训练数据中获取样本发音者的第一表征向量。

S604、从第二训练数据中获取目标发音者的第二表征向量。

该步骤S601～S604与上一实施例中的步骤S301～S304相同，此处不再赘述。

上一实施例中的步骤S305具体可包括以下步骤S605～S607。

S605、对第一表征向量与第二表征向量进行聚类处理。

本申请实施例中，可以按照预设聚类策略对第一表征向量与第二表征向量进行聚类处理，以形成多个类簇。

S606、获取第二表征向量所在的目标类簇。

需要说明的是，第二表征向量所在的目标类簇中的第一表征向量，为与目标发音人的音色更加接近的陪练样本发音人。

S607、将属于目标类簇的第一表征向量对应的样本发音者作为相似发音者。

需要说明的是，由于属于目标类簇的第一表征向量对应的样本发音者为与目标发音人的音色更加接近的发音人，因此，可以将属于目标类簇的第一表征向量对应的样本发音者作为相似发音者。

S608、将相似发音者的第一训练数据，作为陪练第一训练数据。

S609、利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。

该步骤S608～S609与上一实施例中的步骤S307～S308相同，此处不再赘述。

根据本申请实施例的声学模型的生成方法，可以通过基于余弦距离或者欧式距离等的相似度处理，或者基于聚类处理，以从多个样本发音者中筛选目标发音者的相似发音者，确保了目标发音者的相似发音者的准确性，进一步提高了声学模型的生成过程中的效率、准确性和可靠性。

图7是根据本申请第七实施例的示意图。如图7所示，在上述实施例的基础上，本实施例提出的声学模型的生成方法，包括如下步骤：

S701、获取样本发音者的第一训练数据，并利用多个样本发音者的第一训练数据训练出基础声学模型。

其中，基础声学模型为中英混合声学模型。

S702、获取目标发音者的第二训练数据。

其中，第二训练数据为纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种。

其中，第二训练数据的数据量小于任一第一训练数据。

S703、从第一训练数据中获取样本发音者的第一表征向量。

S704、从第二训练数据中获取目标发音者的第二表征向量。

S705、根据第一表征向量和第二表征向量，从多个样本发音者中筛选目标发音者的相似发音者。

S706、将相似发音者的第一训练数据，作为陪练第一训练数据。

S707、利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于目标发音者的目标声学模型。

需要说明的是，关于步骤S701～S707的介绍可参见上述实施例中的相关记载，此处不再赘述。

需要说明的是，本申请提出的声学模型的生成方法，可以运用于多种场景中。

针对个性化定制语音导航服务应用场景，目标发音人为用户甲，在用户甲试图定制由自己的音色进行导航播报的语音导航服务时，可以于智能手机等用户设备对预先设置的20条录音文本进行朗读并录制。

需要说明的是，录音文本可以为纯中文文本、纯英文文本或者中英混合文本中的任意一种。相应地，获取到的用户甲对应的第二训练数据也为对应的纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种。

此种情况下，可以基于语音识别、DL、ML等AI技术，获取用户甲录制的音频，并将其作为第二训练数据，并获取样本发音者的第一训练数据，利用多个样本发音者的第一训练数据训练出中英混合的基础声学模型。进一步地，可以通过聚类方式，从多个第一训练数据中筛选出与用户甲的音色最为接近的两个陪练第一训练数据，进而利用第二训练数据和陪练第一训练数据，重新对基础声学模型进行训练，生成适用于用户甲的目标声学模型，进而结合导航系统实现针对用户甲个性化定制语音导航服务。其中，目标声学模型为中英混合声学模型。

根据本申请实施例的声学模型的生成方法，不再依赖目标发音者的海量训练数据的积累即可准确、高效地生成适用于目标发音者的目标，提高了声学模型的生成过程中的效率和可靠性。同时，基于体量极小的第二训练数据，即可生成针对目标发音者的个性化定制的声学模型，具有训练耗时短、成本低以及通用性高等特点。进一步地，由于基础声学模型为中英混合声学模型，第二训练数据为纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种，进而使得生成的目标声学模型为中英混合声学模型。由此，本申请提出的声学模型的生成方法能够仅利用纯中文训练数据，生成支持纯中文、纯英文和中英混合的多语言音库。

与上述几种实施例提供的声学模型的生成方法相对应，本申请的一个实施例还提供一种声学模型的生成装置，由于本申请实施例提供的声学模型的生成装置与上述几种实施例提供的声学模型的生成方法相对应，因此在声学模型的生成方法的实施方式也适用于本实施例提供的声学模型的生成装置，在本实施例中不再详细描述。

图8是根据本申请一个实施例的声学模型的生成装置的结构示意图。

如图8所示，该声学模型的生成装置800，包括：第一获取模块810、第二获取模块820、筛选模块830和第一生成模块840。其中：

第一获取模块810，用于获取样本发音者的第一训练数据，并利用多个所述样本发音者的第一训练数据训练出基础声学模型；

第二获取模块820，用于获取目标发音者的第二训练数据；

筛选模块830，用于从多个所述第一训练数据中筛选出陪练第一训练数据；以及

第一生成获取模块840，用于利用所述第二训练数据和所述陪练第一训练数据，重新对所述基础声学模型进行训练，生成适用于所述目标发音者的目标声学模型。

图9是根据本申请另一个实施例的声学模型的生成装置的结构示意图。

如图9所示，该声学模型的生成装置900，包括：第一获取模块910、第二获取模块920、筛选模块930和第一生成模块940。其中：

筛选模块930，包括：

第一获取子模块931，用于从所述第一训练数据中获取所述样本发音者的第一表征向量；

第二获取子模块932，用于从所述第二训练数据中获取所述目标发音者的第二表征向量；

筛选子模块933，用于根据所述第一表征向量和所述第二表征向量，从所述多个样本发音者中筛选所述目标发音者的相似发音者；以及

确定子模块934，用于将所述相似发音者的所述第一训练数据，作为所述陪练第一训练数据。

需要说明的是，第一获取模块910、第二获取模块920和第一生成模块940与第一获取模块810、第二获取模块820和第一生成模块840具有相同功能和结构。

图10是根据本申请另一个实施例的声学模型的生成装置的结构示意图。

如图10所示，该声学模型的生成装置1000，包括：第一获取模块1010、第二获取模块1020、筛选模块1030和第一生成模块1040。其中：

筛选模块1030包括的筛选子模块1033，包括：

第一获取单元10331，用于获取所述第一表征向量与所述第二表征向量的相似度；以及

第一确定单元10332，用于根据所述相似度，从所述多个样本发音者中筛选与所述目标发音者的相似度大于预设相似阈值的样本发音者，作为所述相似发音者。

需要说明的是，第一获取模块1010、第二获取模块1020和第一生成模块1040与第一获取模块810、第二获取模块820和第一生成模块840具有相同功能和结构。

图11是根据本申请另一个实施例的声学模型的生成装置的结构示意图。

如图11所示，该声学模型的生成装置1100，包括：第一获取模块1110、第二获取模块1120、筛选模块1130和第一生成模块1140。其中：

筛选模块1130包括的筛选子模块1133，包括：

聚类单元11333，用于对所述第一表征向量与所述第二表征向量进行聚类处理；

第二获取单元11334，用于获取所述第二表征向量所在的目标类簇；以及

第二确定单元11335，用于将属于所述目标类簇的所述第一表征向量对应的样本发音者作为所述相似发音者。

需要说明的是，第一获取模块1110、第二获取模块1120和第一生成模块1140与第一获取模块810、第二获取模块820和第一生成模块840具有相同功能和结构。

图12是根据本申请另一个实施例的声学模型的生成装置的结构示意图。

如图12所示，该声学模型的生成装置1200，包括：第一获取模块1210、第二获取模块1220、筛选模块1230和第一生成模块1240，还包括：提取模块1250、第二生成模块1260和配置模块1270。其中，

提取模块1250，用于获取发音者的多个音频数据，对所述多个音频数据进行声学特征进行提取，其中，所述发音者为所述样本发音者和所述目标发音者中的任意一个；以及

第二生成模块1260，用于对属于同一发音者的所述声学特征进行聚类处理，以生成所述发音者的声纹向量，其中，所述声纹向量用作所述发音者的表征向量。

配置模块1270，用于预先配置所述第一表征向量和所述第二表征向量。

根据本申请实施例的声学模型的生成装置，不再依赖目标发音者的海量训练数据的积累即可准确、高效地生成适用于目标发音者的目标，提高了声学模型的生成过程中的效率和可靠性。同时，基于体量极小的第二训练数据，即可生成针对目标发音者的个性化定制的声学模型，具有训练耗时短、成本低以及通用性高等特点。进一步地，由于基础声学模型为中英混合声学模型，第二训练数据为纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种，进而使得生成的目标声学模型为中英混合声学模型。由此，本申请提出的声学模型的生成方法能够仅利用纯中文训练数据，生成支持纯中文、纯英文和中英混合的多语言音库。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是根据本申请实施例的声学模型的生成的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1310、存储器1320，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1310为例。

存储器1320即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的声学模型的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的声学模型的生成方法。

存储器1320作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的声学模型的生成方法对应的程序指令/模块(例如，附图8所示的第一获取模块810、第二获取模块820、筛选模块830和第一生成模块840)。处理器1310通过运行存储在存储器1320中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的声学模型的生成方法。

存储器1320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据定位电子设备的使用所创建的数据等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1320可选包括相对于处理器1310远程设置的存储器，这些远程存储器可以通过网络连接至定位电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

声学模型的生成的电子设备还可以包括：输入装置1330和输出装置1340。处理器1310、存储器1320、输入装置1330和输出装置1340可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1330可接收输入的数字或字符信息，以及产生与定位电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1340可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的声学模型的生成方法，可以不再依赖目标发音者的海量训练数据的积累即可准确、高效地生成适用于目标发音者的目标，提高了声学模型的生成过程中的效率和可靠性。同时，基于体量极小的第二训练数据，即可生成针对目标发音者的个性化定制的声学模型，具有训练耗时短、成本低以及通用性高等特点。进一步地，由于基础声学模型为中英混合声学模型，第二训练数据为纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种，进而使得生成的目标声学模型为中英混合声学模型。由此，本申请提出的声学模型的生成方法能够仅利用纯中文训练数据，生成支持纯中文、纯英文和中英混合的多语言音库。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种声学模型的生成方法，包括：

获取目标发音者的第二训练数据；

从多个所述第一训练数据中筛选出陪练第一训练数据；以及

2.根据权利要求1所述的声学模型的生成方法，其中，所述从多个所述第一训练数据中筛选出陪练第一训练数据，包括：

从所述第一训练数据中获取所述样本发音者的第一表征向量；

从所述第二训练数据中获取所述目标发音者的第二表征向量；

根据所述第一表征向量和所述第二表征向量，从所述多个样本发音者中筛选所述目标发音者的相似发音者；以及

将所述相似发音者的所述第一训练数据，作为所述陪练第一训练数据。

3.根据权利要求2所述的声学模型的生成方法，其中，在获取所述第一训练数据和所述第二训练数据之前，还包括：

获取发音者的多个音频数据，对所述多个音频数据进行声学特征提取，其中，所述发音者为所述样本发音者和所述目标发音者中的任意一个；以及

对属于同一发音者的所述声学特征进行聚类处理，以生成所述发音者的声纹向量，其中，所述声纹向量用作所述发音者的表征向量。

4.根据权利要求2所述的声学模型的生成方法，其中，在获取所述第一训练数据和所述第二训练数据之前，还包括：

预先配置所述第一表征向量和所述第二表征向量。

5.根据权利要求2-4任一项所述的声学模型的生成方法，其中，所述根据所述第一表征向量和所述第二表征向量，从所述多个样本发音者中筛选所述目标发音者的相似发音者，包括：

获取所述第一表征向量与所述第二表征向量的相似度；以及

根据所述相似度，从所述多个样本发音者中筛选与所述目标发音者的相似度大于预设相似阈值的样本发音者，作为所述相似发音者。

6.根据权利要求2-4任一项所述的声学模型的生成方法，其中，所述根据所述第一表征向量和所述第二表征向量，从所述多个样本发音者中筛选所述目标发音者的相似发音者，包括：

对所述第一表征向量与所述第二表征向量进行聚类处理；

获取所述第二表征向量所在的目标类簇；以及

将属于所述目标类簇的所述第一表征向量对应的样本发音者作为所述相似发音者。

7.根据权利要求1-4任一项所述的声学模型的生成方法，其中，所述基础声学模型为中英混合声学模型，所述第二训练数据为纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种。

8.根据权利要求7所述的声学模型的生成方法，其中，所述第二训练数据的数据量小于任一所述第一训练数据。

9.一种声学模型的生成装置，包括：

第二获取模块，用于获取目标发音者的第二训练数据；

筛选模块，用于从多个所述第一训练数据中筛选出陪练第一训练数据；以及

10.根据权利要求9所述的声学模型的生成装置，其中，所述筛选模块，包括：

第一获取子模块，用于从所述第一训练数据中获取所述样本发音者的第一表征向量；

第二获取子模块，用于从所述第二训练数据中获取所述目标发音者的第二表征向量；

筛选子模块，用于根据所述第一表征向量和所述第二表征向量，从所述多个样本发音者中筛选所述目标发音者的相似发音者；以及

确定子模块，用于将所述相似发音者的所述第一训练数据，作为所述陪练第一训练数据。

11.根据权利要求10所述的声学模型的生成装置，其中，还包括：

提取模块，用于获取发音者的多个音频数据，对所述多个音频数据进行声学特征进行提取，其中，所述发音者为所述样本发音者和所述目标发音者中的任意一个；以及

第二生成模块，用于对属于同一发音者的所述声学特征进行聚类处理，以生成所述发音者的声纹向量，其中，所述声纹向量用作所述发音者的表征向量。

12.根据权利要求10所述的声学模型的生成装置，其中，还包括：

配置模块，用于预先配置所述第一表征向量和所述第二表征向量。

13.根据权利要求10-12任一项所述的声学模型的生成装置，其中，所述筛选子模块，包括：

第一获取单元，用于获取所述第一表征向量与所述第二表征向量的相似度；以及

第一确定单元，用于根据所述相似度，从所述多个样本发音者中筛选与所述目标发音者的相似度大于预设相似阈值的样本发音者，作为所述相似发音者。

14.根据权利要求10-12任一项所述的声学模型的生成装置，其中，所述筛选子模块，包括：

聚类单元，用于对所述第一表征向量与所述第二表征向量进行聚类处理；

第二获取单元，用于获取所述第二表征向量所在的目标类簇；以及

第二确定单元，用于将属于所述目标类簇的所述第一表征向量对应的样本发音者作为所述相似发音者。

15.根据权利要求9-12任一项所述的声学模型的生成装置，其中，所述基础声学模型为中英混合声学模型，所述第二训练数据为纯中文训练数据、纯英文训练数据或者中英混合训练数据中的一种。

16.根据权利要求15所述的声学模型的生成装置，其中，所述第二训练数据的数据量小于任一所述第一训练数据。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的声学模型的生成。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的声学模型的生成方法。