CN113421554A

CN113421554A - 语音关键词检测模型处理方法、装置及计算机设备

Info

Publication number: CN113421554A
Application number: CN202110758671.4A
Authority: CN
Inventors: 李泽远; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-09-21
Anticipated expiration: 2041-07-05
Also published as: CN113421554B

Abstract

本申请实施例属于人工智能领域，涉及一种语音关键词检测模型处理方法、装置、计算机设备及存储介质，方法包括：获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音；根据所述语音声纹表征和所述初始文本，合成与所述初始文本相对应的合成语音；将所述真实语音和所述合成语音设置为初始待混合语音，并对所述初始待混合语音进行声学特征调整，得到待混合语音；对所述待混合语音进行混合增强，得到训练语音；根据所述训练语音对初始语音关键词建模型进行训练，得到语音关键词检测模型。此外，本申请还涉及区块链技术，语音声纹表征可存储于区块链中。本申请提高了语音关键词检测模型的训练效率。

Description

语音关键词检测模型处理方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音关键词检测模型处理方法、装置、计算机设备及存储介质。

背景技术

语音关键词检测是语音识别的一个分支领域，主要用于识别语音信号中是否出现特定词汇以及特定词汇出现的位置。语音关键词检测的应用场景包括唤醒系统、命令词控制系统以及语音敏感词检测等。

语音关键词检测可以通过语音关键词检测模型实现，在此之前需要先通过机器学习得到可用的语音关键词检测模型。机器学习对训练数据具有较高的依赖性，大量且丰富的训练数据可以保证语音关键词检测模型的准确性。因此，在训练之前需要准备大量包含关键词的语音数据，当出现新的关键词检测需求时，还需要随时更新语音数据，这些都需要花费大量的时间和人力成本，导致模型训练的成本较高，语音关键词检测模型训练效率较低。

发明内容

本申请实施例的目的在于提出一种语音关键词建模型处理方法、装置、计算机设备及存储介质，以解决语音关键词检测模型训练效率较低的问题。

为了解决上述技术问题，本申请实施例提供一种语音关键词检测模型处理方法，采用了如下所述的技术方案：

获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音；

根据所述语音声纹表征和所述初始文本，合成与所述初始文本相对应的合成语音；

将所述真实语音和所述合成语音设置为初始待混合语音，并对所述初始待混合语音进行声学特征调整，得到待混合语音；

对所述待混合语音进行混合增强，得到训练语音；

根据所述训练语音对初始语音关键词建模型进行训练，得到语音关键词检测模型。

为了解决上述技术问题，本申请实施例还提供一种语音关键词检测模型处理装置，采用了如下所述的技术方案：

获取模块，用于获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音；

语音合成模块，用于根据所述语音声纹表征和所述初始文本，合成与所述初始文本相对应的合成语音；

声学调整模块，用于将所述真实语音和所述合成语音设置为初始待混合语音，并对所述初始待混合语音进行声学特征调整，得到待混合语音；

混合增强模块，用于对所述待混合语音进行混合增强，得到训练语音；

模型训练模块，用于根据所述训练语音对初始语音关键词建模型进行训练，得到语音关键词检测模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

对所述待混合语音进行混合增强，得到训练语音；

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

对所述待混合语音进行混合增强，得到训练语音；

与现有技术相比，本申请实施例主要有以下有益效果：获取包含关键词的初始文本、语音声纹表征；语音声纹表征从真人语音中提取得到，根据语音声纹表征和初始文本进行语音克隆，得到既包含初始文本内容、又具有真人声纹特性的合成语音，避免了依靠真人录制大量训练样本，提高了获取语音的速度；同时，还获取包含关键词的真实语音，真实语音是对真人录制得到，真实语音的加入可以保证模型对真实数据的拟合程度；将真实语音和合成语音设置为初始待混合语音，对初始待混合语音进行声学特征调整，再进行混合增强，大大增加了得到的训练语音的数据量，并且保证了训练完毕后模型的鲁棒性；本申请通过语音克隆、声学特征调整和混合增强，只需要录制少量真实语音，即可快速得到大量的训练语音，从而大大提高了语音关键词检测模型的训练效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语音关键词检测模型处理方法的一个实施例的流程图；

图3是根据本申请的语音关键词检测模型处理装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的语音关键词检测模型处理方法一般由服务器执行，相应地，语音关键词检测模型处理装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的语音关键词检测模型处理方法的一个实施例的流程图。所述的语音关键词检测模型处理方法，包括以下步骤：

步骤S201，获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音。

在本实施例中，语音关键词检测模型处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，初始文本是数字化的文本数据，例如，初始文本可以是TXT格式的文件。初始文本的文本内容中包含并标记了特定的关键词。语音声纹表征是从说话人的语音中提取到的特征数据，可以表征特定说话人的声纹特性，能够对不同的说话人进行区分。真实语音是对说话人讲话进行录制得到的语音，真实语音中也包含特定的关键词，具有关键词标签。初始文本的文本内容以及其中的关键词，和真实语音的语音内容以及其中的关键词，可以是相关的，也可以是不不相关的。

具体地，服务器首先获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音。初始文本、语音声纹表征和真实语音可以从终端获取，也可以从数据库获取。

需要强调的是，为进一步保证上述语音声纹表征的私密和安全性，上述语音声纹表征还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，根据语音声纹表征和初始文本，合成与初始文本相对应的合成语音。

具体地，可以根据语音声纹表征和初始文本进行语音合成，得到合成语音，合成语音的语音内容与初始文本相同，由于语音声纹表征的影响，合成语音带有特定说话人的声纹特性，从而提高了合成语音的真实性。基于语音声纹表征和初始文本进行语音合成，实现了语音克隆，可以快速地得到大量的合成语音。

在一个实施例中，语音声纹表征可以包括多个说话人的声纹表征，进一步提高合成语音的真实性，减小过拟合。

在一个实施例中，可以将语音声纹表征和初始文本输入预先训练好的语音合成模型，语音合成模型可以基于DNN(深度神经网络，Deep Neural Networks,简称DNN)搭建。训练好的语音合成模型可以将语音声纹表征和初始文本映射为合成语音，并根据初始文本中的关键词生成合成语音的关键词标签。

步骤S203，将真实语音和合成语音设置为初始待混合语音，并对初始待混合语音进行声学特征调整，得到待混合语音。

具体地，本申请在实际应用中，可以对说话人的语音进行关键词检测。由于不同说话人的讲话习惯不同，不同说话人发出语音的语速和音调等声学特征会有较大差异。为了使语音关键词检测模型更加具有鲁棒性、以及为了扩大训练样本的数量，可以对真实语音和合成语音进行声学特征调整。

真实语音和合成语音在声学特征调整时没有差异，服务器将真实语音和合成语音标记为初始待混合语音，然后进行声学特征调整，得到待混合语音。待混合语音中还可以包括未进行声学特征调整的真实语音和合成语音。

进一步的，上述步骤S203可以包括：将真实语音和合成语音设置为初始待混合语音；对于每条初始待混合语音，随机确定初始待混合语音的声学特征调整方式，声学特征调整方式包括特征调整维度和特征调整幅度；根据确定的声学特征调整方式对初始待混合语音进行声学特征调整，得到待混合语音。

具体地，服务器首先将真实语音和合成语音统一标记为初始待混合语音。对于每一条初始待混合语音，服务器可以单独确定其声学特征调整方式。声学特征调整方式包括特征调整维度和特征调整幅度。

语音具有多种声学特征，例如语音的语速、强度和音调等，服务器可以随机选取要对一条初始待混合语音的哪些声学特征进行调整，被选取到的特征就构成了特征调整维度。同时，声学特征可以以数值进行量化，比如，音调的计量单位是赫兹。对于被选取到的声学特征，服务器可以以随机的方式确定对声学特征调整的程度，即特征调整幅度。

服务器按照确定的声学特征调整方式对初始待混合语音进行声学特征调整，得到待混合语音。

在一个实施例中，一条初始待混合语音可以有一种声学特征调整方式，也可以有多种不同的声学特征调整方式，使得声学特征调整后得到的待混合语音具有更高的多样性。

本实施例中，每条待混合语音都具有声学特征调整方式，声学特征调整方式包括特征调整维度和特征调整幅度，声学特征调整方式可以随机确定，从而丰富了得到的待混合语音的多样性。

步骤S204，对待混合语音进行混合增强，得到训练语音。

具体地，为提高训练样本的数量，使得语音关键词检测模型具有更高的鲁棒性，可以进一步对待混合语音进行数据增广，数据增广的方式可以是混合增强。混合增强需要选取两段待混合语音，然后将两段待混合语音进行融合(即加权求和)，得到训练语音。同时，两段待混合语音的关键词标签也需要进行同样的融合，从而生成训练语音的关键词标签。融合时的权重可以预先设置。

在一个实施例中，训练语音还包括未经过混合增强的待混合语音。

步骤S205，根据训练语音对初始语音关键词建模型进行训练，得到语音关键词检测模型。

其中，初始语音关键词建模型可以是尚未完成训练的语音关键词建模型。

具体地，在得到训练语音后，即可根据训练语音对初始语音关键词建模型进行训练。由于训练语音具有关键词标签，因此可以进行有监督训练。服务器将训练语音输入初始语音关键词建模型，得到初始语音关键词建模型输出的预测结果，根据预测结果和关键词标签计算模型损失，通过随机梯度下降算法在模型中将模型损失进行传播，从而对模型进行迭代更新，训练结束后得到语音关键词建模型。

初始语音关键词建模型是一个神经网络，例如，可以是DNN(深度神经网络，DeepNeural Networks,简称DNN)网络。

本实施例中，获取包含关键词的初始文本、语音声纹表征；语音声纹表征从真人语音中提取得到，根据语音声纹表征和初始文本进行语音克隆，得到既包含初始文本内容、又具有真人声纹特性的合成语音，避免了依靠真人录制大量训练样本，提高了获取语音的速度；同时，还获取包含关键词的真实语音，真实语音是对真人录制得到，真实语音的加入可以保证模型对真实数据的拟合程度；将真实语音和合成语音设置为初始待混合语音，对初始待混合语音进行声学特征调整，再进行混合增强，大大增加了得到的训练语音的数据量，并且保证了训练完毕后模型的鲁棒性；本申请通过语音克隆、声学特征调整和混合增强，只需要录制少量真实语音，即可快速得到大量的训练语音，从而大大提高了语音关键词检测模型的训练效率。

进一步的，上述步骤S201之前，还可以包括：获取真实录制语音；从真实录制语音中提取语音声纹表征，语音声纹表征包括基频、非周期性特征和梅尔频率倒谱系数。

其中，真实录制语音也是对说话人讲话进行录制得到的语音。

具体地，服务器需要预先准备号语音声纹表征。服务器可以先获取真实录制语音，然后从真实录制语音中提取语音声纹表征。语音声纹表征可以包括多种特征数据，在本申请中，可以从真实录制语音中提取基频、非周期性特征和梅尔频率倒谱系数作为语音声纹表征。

说话人的语音可以由不同频率的音频信号构成，其中频率最低的正弦波信号即为基频(fundamental frequency)；非周期性特征AP(aperiodicity)是指音频的非周期信号参数。

在音频处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以使声音信号有更好的表示。

在一个实施例中，一个说话人具有多条真实录制语音，此时可以对每条真实录制语音都提取语音声纹表征，然后将提取到的语音声纹表征取均值后作为该说话人的语音声纹表征。

本实施例中，从真实录制语音中提取基频、非周期性特征和梅尔频率倒谱系数作为语音声纹表征，保留了说话人的声纹特性，保证了后续语音克隆的实现。

进一步的，上述步骤S202可以包括：将初始文本输入编码器，得到初始文本的文本嵌入数据；将语音声纹表征与文本嵌入数据进行合并，得到合成输入参数；将合成输入参数输入经过训练的语音合成模型，以通过语音合成模型合成与初始文本相对应的合成语音。

具体地，服务器首先将初始文本输入编码器，编码器可以是训练完毕的语音合成模型中的编码器，编码器将初始文本中的字符转换为固定维度的数组，例如，可以将字符转化为128维的数组进行表示，从而得到初始文本的文本嵌入数据。

服务器将语音声纹表征中的基频、非周期性特征和梅尔频率倒谱系数进行拼接，从而得到语音嵌入数据。服务器将语音嵌入数据和文本嵌入数据进行合并得到新的张量，新的张量被定义为合成输入参数。合成输入参数被输入语音合成模型进行语音合成，得到与初始文本相对应的合成语音。

本申请中的语音合成模型经过预先训练，可以实现从合成输入参数到合成语音的映射，语音合成模型是一个神经网络，例如，可以是DNN(深度神经网络，Deep NeuralNetworks,简称DNN)网络，或者是谷歌发布的Tacotron或其改良版的Tacotron2，它们是基于深度学习的端到端语音合成模型。

本实施例中，通过编码器对初始文本进行处理得到文本嵌入数据，然后将文本嵌入数据和语音声纹表征输入语音合成模型进行语音合成，实现了语音克隆，能够快速生成带有真实说话人声纹特征的语音数据。

进一步的，上述步骤S204可以包括：对得到的待混合语音进行组合，得到待混合语音对；对于每组待混合语音对，从预设的贝塔分布中获取待混合语音对的融合比例；根据融合比例对待混合语音对中的待混合语音进行线性插值混合，得到训练语音。

具体地，对待混合语音进行组合得到待混合语音对，待混合语音对中有两条待混合语音。混合增强可以是在频域对两条待混合语音进行线性插值混合，得到训练语音。对于每个待混合语音对，从贝塔分布中抽取融合比例，融合比例决定了两条待混合语音在线性运算中所占的比例；并基于同样的计算方式，对两条待混合语音的关键词标签进行线性插值混合，得到训练语音的关键词标签。

假设待混合语音对中的待混合语音分别为x₁、x₂，其关键词标签分别为y₁、y₂，线性插值混合后的训练语音为mixed_x，其关键词标签为mixed_y，从贝塔分布中获取的融合比例为λ，则线性插值混合运算如下：

mixed_x＝λ×x₁+(1-λ)×x₂ (1)

mixed_y＝λ×y₁+(1-λ)×y₂ (2)

本申请从贝塔分布获取融合比例，可以使得决策边界模糊化，提供更平滑的预测。贝塔分布(Beta Distribution)是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。在概率论中，贝塔分布，也称B分布，是指一组定义在(0,1)区间的连续概率分布。贝塔分布具有两个参数α和β。在本申请的一个实施例中，可以令α和β取值相同。

本实施例中，从贝塔分布中获取融合比例，根据融合比例对待混合语音对进行线性插值混合，扩充了训练样本的数量。

进一步的，上述对得到的待混合语音进行组合，得到待混合语音对的步骤可以包括：对得到的待混合语音进行随机组合，得到初始待混合语音对；对于每组初始待混合语音对，获取待混合语音对中各待混合语音的内容标签；当获取到的内容标签相同时，将初始待混合语音对确定为待混合语音对。

具体地，服务器可以对待混合语音对进行随机组合，得到初始待混合语音对。在一个实施例中，服务器对待混合语音对进行两两组合，假设有N(N为正整数)条待混合语音，最多可以得到

个待混合语音对，假设存在待混合语音A以及待混合语音B，则初始待混合语音AB和初始待混合语音BA在混合增强时并不相同。

每条待混合语音还具有内容标签，内容标签从内容上对待混合语音进行了分类。初始文本具有内容标签，真实语音也具有内容标签，初始文本和真实语音的内容标签在本申请的一系列处理中可以进行传承，因此每条待混合语音都具有传承自初始文本或者真实语音的内容标签。

对于每组初始待混合语音对，服务器获取两条待混合语音的内容标签，并对内容标签进行比较。当内容标签相同时，表明两条待混合语音的内容属于同一种大类，具有相同或相似的内容，融合后不会出现较大的偏差，此时可以对两条待混合语音进行融合，服务器将初始待混合语音对确定为待混合语音对，准备进行混合增强。

本实施例中，根据内容标签对初始待混合语音对进行筛选，内容标签相同的两条待混合语音将组成待混合语音对，避免混合增强引入较大的误差，保证了模型训练的准确性。

进一步的，上述步骤S205之后，还可以包括：获取终端发送的待检测语音；将待检测语音输入语音关键词建模型，得到待检测语音中的关键词信息；生成与关键词信息对应的响应指令；将响应指令发送至终端，以指示终端根据响应指令对待检测语音进行响应。

具体地，训练完成后，服务器即可进行语音关键词的检测。服务器可以从终端获取待检测语音，待检测语音可以由用户语音输入，或者由终端进行语音监测、语音采集得到。

服务器将待检测语音输入训练完毕的语音关键词检测模型，由语音关键词检测模型进行关键词检测，得到关键词信息，关键词信息可以包括具体的关键词，以及关键词的位置。

对于不同的关键词，可以具有不同的处理方式。服务器根据关键词信息查询对应的处理方式，根据查询到的处理方式生成响应指令，并将响应指令返回至终端。终端根据响应指令对待检测语音进行响应。例如，在语音唤醒场景中，当待检测语音中包括特定的唤醒词语时，终端根据响应指令进入开机状态或工作状态；在敏感词监测场景中，当待检测语音中包含特定的敏感词时，终端根据响应指令，对语音片段进行消声处理。

本实施例中，语音关键词检测模型基于大量的训练语音训练得到，具有较高的准确性，从而提高了语音关键词检测模型在检测中的准确性，从而提高了终端基于检测到的关键词信息进行响应的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种语音关键词检测模型处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的语音关键词检测模型处理装置300包括：获取模块301、语音合成模块302、声学调整模块303、混合增强模块304以及模型训练模块305，其中：

获取模块301，用于获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音。

语音合成模块302，用于根据语音声纹表征和初始文本，合成与初始文本相对应的合成语音。

声学调整模块303，用于将真实语音和合成语音设置为初始待混合语音，并对初始待混合语音进行声学特征调整，得到待混合语音。

混合增强模块304，用于对待混合语音进行混合增强，得到训练语音。

模型训练模块305，用于根据训练语音对初始语音关键词建模型进行训练，得到语音关键词检测模型。

在本实施例的一些可选的实现方式中，语音关键词检测模型处理装置300还包括：录制获取模块以及表征提取模块，其中：

录制获取模块，用于获取真实录制语音。

表征提取模块，用于从真实录制语音中提取语音声纹表征，语音声纹表征包括基频、非周期性特征和梅尔频率倒谱系数。

在本实施例的一些可选的实现方式中，语音合成模块302可以包括：文本输入子模块、合并子模块以及参数输入子模块，其中：

文本输入子模块，用于将初始文本输入编码器，得到初始文本的文本嵌入数据。

合并子模块，用于将语音声纹表征与文本嵌入数据进行合并，得到合成输入参数。

参数输入子模块，用于将合成输入参数输入经过训练的语音合成模型，以通过语音合成模型合成与初始文本相对应的合成语音。

在本实施例的一些可选的实现方式中，声学调整模块303可以包括：语音设置子模块、调整确定子模块以及声学调整子模块，其中：

语音设置子模块，用于将真实语音和合成语音设置为初始待混合语音。

调整确定子模块，用于对于每条初始待混合语音，随机确定初始待混合语音的声学特征调整方式，声学特征调整方式包括特征调整维度和特征调整幅度。

声学调整子模块，用于根据确定的声学特征调整方式对初始待混合语音进行声学特征调整，得到待混合语音。

在本实施例的一些可选的实现方式中，混合增强模块304可以包括：语音组合子模块、比例获取子模块以及插值混合子模块，其中：

语音组合子模块，用于对得到的待混合语音进行组合，得到待混合语音对。

比例获取子模块，用于对于每组待混合语音对，从预设的贝塔分布中获取待混合语音对的融合比例。

插值混合子模块，用于根据融合比例对待混合语音对中的待混合语音进行线性插值混合，得到训练语音。

在本实施例的一些可选的实现方式中，语音组合子模块可以包括：随机组合单元、标签获取单元以及确定单元，其中：

随机组合单元，用于对得到的待混合语音进行随机组合，得到初始待混合语音对。

标签获取单元，用于对于每组初始待混合语音对，获取待混合语音对中各待混合语音的内容标签。

确定单元，用于当获取到的内容标签相同时，将初始待混合语音对确定为待混合语音对。

在本实施例的一些可选的实现方式中，语音关键词检测模型处理装置300还包括：检测获取模块、检测输入模块、指令生成模块以及指令发送模块，其中：

检测获取模块，用于获取终端发送的待检测语音。

检测输入模块，用于将待检测语音输入语音关键词建模型，得到待检测语音中的关键词信息。

指令生成模块，用于生成与关键词信息对应的响应指令。

指令发送模块，用于将响应指令发送至终端，以指示终端根据响应指令对待检测语音进行响应。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如语音关键词检测模型处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述语音关键词检测模型处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述语音关键词检测模型处理方法。此处语音关键词检测模型处理方法可以是上述各个实施例的语音关键词检测模型处理方法。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的语音关键词检测模型处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种语音关键词检测模型处理方法，其特征在于，包括下述步骤：

对所述待混合语音进行混合增强，得到训练语音；

2.根据权利要求1所述的语音关键词检测模型处理方法，其特征在于，在所述获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音的步骤之前，还包括：

获取真实录制语音；

从所述真实录制语音中提取语音声纹表征，所述语音声纹表征包括基频、非周期性特征和梅尔频率倒谱系数。

3.根据权利要求1所述的语音关键词检测模型处理方法，其特征在于，所述根据所述语音声纹表征和所述初始文本，合成与所述初始文本相对应的合成语音的步骤包括：

将所述初始文本输入编码器，得到所述初始文本的文本嵌入数据；

将所述语音声纹表征与所述文本嵌入数据进行合并，得到合成输入参数；

将所述合成输入参数输入经过训练的语音合成模型，以通过所述语音合成模型合成与所述初始文本相对应的合成语音。

4.根据权利要求1所述的语音关键词检测模型处理方法，其特征在于，所述将所述真实语音和所述合成语音设置为初始待混合语音，并对所述初始待混合语音进行声学特征调整，得到待混合语音的步骤包括：

将所述真实语音和所述合成语音设置为初始待混合语音；

对于每条初始待混合语音，随机确定初始待混合语音的声学特征调整方式，所述声学特征调整方式包括特征调整维度和特征调整幅度；

根据确定的声学特征调整方式对所述初始待混合语音进行声学特征调整，得到待混合语音。

5.根据权利要求1所述的语音关键词检测模型处理方法，其特征在于，所述对所述待混合语音进行混合增强，得到训练语音的步骤包括：

对得到的待混合语音进行组合，得到待混合语音对；

对于每组待混合语音对，从预设的贝塔分布中获取待混合语音对的融合比例；

根据所述融合比例对所述待混合语音对中的待混合语音进行线性插值混合，得到训练语音。

6.根据权利要求5所述的语音关键词检测模型处理方法，其特征在于，所述对得到的待混合语音进行组合，得到待混合语音对的步骤包括：

对得到的待混合语音进行随机组合，得到初始待混合语音对；

对于每组初始待混合语音对，获取待混合语音对中各待混合语音的内容标签；

当获取到的内容标签相同时，将所述初始待混合语音对确定为待混合语音对。

7.根据权利要求1所述的语音关键词检测模型处理方法，其特征在于，在所述根据所述训练语音对初始语音关键词建模型进行训练，得到语音关键词检测模型的步骤之后，还包括：

获取终端发送的待检测语音；

将所述待检测语音输入所述语音关键词建模型，得到所述待检测语音中的关键词信息；

生成与所述关键词信息对应的响应指令；

将所述响应指令发送至所述终端，以指示所述终端根据所述响应指令对所述待检测语音进行响应。

8.一种语音关键词检测模型处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音关键词检测模型处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音关键词检测模型处理方法的步骤。