CN112634860A

CN112634860A - 儿童语音识别模型训练语料筛选方法

Info

Publication number: CN112634860A
Application number: CN202011595683.1A
Authority: CN
Inventors: 钱彦旻; 王巍; 周之恺; 卢怡宙; 王鸿基; 杜晨鹏
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-09
Anticipated expiration: 2040-12-29
Also published as: CN112634860B

Abstract

本发明公开一种儿童语音识别模型训练语料筛选方法，包括：将音素序列和儿童参考音频输入至TTS合成器得到多个合成音频；获取所述儿童参考音频的参考特征信息和所述多个合成音频的多个合成特征信息；根据所述参考特征信息和所述多个合成特征信息筛选所述多个合成音频。本发明所提供的儿童语音识别模型训练语料筛选方法通过采用TTS合成器生成合成音频，并根据生成合成音频所使用的儿童参考音频来对合成音频进行筛选获得高质量的合成音频，扩充了用于训练儿童语音识别模型的语料。不仅解决了儿童语料库难收集的问题，而且确保了儿童语料库中语料的质量，有助于训练出性能良好的儿童语音识别模型。

Description

儿童语音识别模型训练语料筛选方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种儿童语音识别模型训练语料筛选方法、电子设备及存储介质。

背景技术

自引入深度神经网络以来，自动语音识别(ASR)系统的性能已得到显着改善。有了大量的训练数据和先进的模型结构，ASR模型现在已经能够实现人的均等表现。然而，据我们所知，尽管已经做出了许多努力，但是儿童的语音识别仍然是一项艰巨的任务。

儿童语音识别的一项挑战是缺乏数据，因为儿童语料库很难收集。此外，儿童的身体和发音特征和表情具有内在的高变异性。为了克服这些困难，提出了声道长度归一化以减少扬声器之间的声音可变性。进行了音高和共振峰修改，以减少儿童和成人语音之间的声学失配。但是，以上方法并未从根本上解决儿童语音数据的不足。

近年来，基于文本到语音(TTS)的ASR数据增强已得到广泛应用并取得了良好的性能。然而，由于儿童语音涉及不合标准或不清楚的发音，因此使用在儿童语音数据上训练的TTS系统生成的合成语音存在问题。结果，在这种情况下，合成语音的质量是不一致的。

发明内容

本发明实施例提供一种儿童语音识别模型训练语料筛选方法、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种儿童语音识别模型训练语料筛选方法，包括：

将音素序列和儿童参考音频输入至TTS合成器得到多个合成音频；

获取所述儿童参考音频的参考特征信息和所述多个合成音频的多个合成特征信息；

根据所述参考特征信息和所述多个合成特征信息筛选所述多个合成音频。

第二方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项儿童语音识别模型训练语料筛选方法。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项儿童语音识别模型训练语料筛选方法。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项儿童语音识别模型训练语料筛选方法。

本发明实施例的有益效果在于：本发明所提供的儿童语音识别模型训练语料筛选方法通过采用TTS合成器生成合成音频，并根据生成合成音频所使用的儿童参考音频来对合成音频进行筛选获得高质量的合成音频，扩充了用于训练儿童语音识别模型的语料。不仅解决了儿童语料库难收集的问题，而且确保了儿童语料库中语料的质量，有助于训练出性能良好的儿童语音识别模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的儿童语音识别模型训练语料筛选方法的一实施例的流程图；

图2为本发明的儿童语音识别模型训练语料筛选方法的另一实施例的流程图；

图3为本发明的儿童语音识别模型训练语料筛选方法的另一实施例的流程图；

图4为本发明的儿童语音识别模型训练语料筛选方法的另一实施例的流程图；

图5为本发明的儿童语音识别模型训练语料筛选方法的一实施例的原理框图；

图6为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的实施例提供一种儿童语音识别模型训练语料筛选方法，包括：

S10、将音素序列和儿童参考音频输入至TTS合成器得到多个合成音频。

S20、获取所述儿童参考音频的参考特征信息和所述多个合成音频的多个合成特征信息；示例性地，参考特征信息和合成特征信息为i-vector特征信息。

S30、根据所述参考特征信息和所述多个合成特征信息筛选所述多个合成音频。

本发明实施例所提供的儿童语音识别模型训练语料筛选方法通过采用TTS合成器生成合成音频，并根据生成合成音频所使用的儿童参考音频来对合成音频进行筛选获得高质量的合成音频，扩充了用于训练儿童语音识别模型的语料。不仅解决了儿童语料库难收集的问题，而且确保了儿童语料库中语料的质量，有助于训练出性能良好的儿童语音识别模型。

如图2所示，为本发明的儿童语音识别模型训练语料筛选方法的另一实施例的流程图，在该实施例中：根据参考特征信息和多个合成特征信息筛选所述多个合成音频包括：

S31、计算所述多个合成音频的多个i-vector特征信息分别与所述儿童参考音频的i-vector特征信息之间的相似度得到多个相似度值。

S32、选出所述多个相似度值中的较大值所对应的至少一个合成音频，以用于训练儿童语音识别模型。

示例性地，在得到多个相似度值之后，将该多个相似度值按照从小到大的先后顺序排列。多个相似度值中的较大值可以是最大值或者从最大值开始相邻的多个相似度值。合成音频的i-vector特征信息儿童参考音频的i-vector特征信息之间的相似度值越大，表明合成音频与儿童参考音频越接近，质量越高。

如图3所示，为本发明的儿童语音识别模型训练语料筛选方法的另一实施例的流程图，在该实施例中：TTS合成器包括顺序连接的编码器、差异适配器、解码器和声码器；

所述将音素序列和儿童参考音频输入至TTS合成器得到多个合成音频包括：

S11、将音素序列输入至所述编码器以得到隐藏序列；

S12、将儿童参考音频输入至所述差异适配器得到差异信息；示例性地，差异信息可以是儿童参考音频中的基音和能量信息。

S13、差异适配器根据所述隐藏序列和所述差异信息确定合成序列；示例性地，差异适配器将所述差异信息增加至所述隐藏序列中以得到合成序列。

S14、解码器根据所述合成序列预测梅尔频谱图；

S15、声码器根据所述梅尔频谱图生成多个合成音频。

在本实施例中，为数据扩充进行了一些修改。为了在训练或推理中产生来自孩子语音，我们将从用户指定模板提取的真实性的基音和能量作为隐藏序列的输入，以预测目标语音。

在一些实施例中，本发明的儿童语音识别模型训练语料筛选方法还包括：将所述多个合成音频输入至初始儿童语音识别模型得到多个合成语句以及对应于每一个合成语句的字符错误率；选取字符错误率较低的多个合成语句所对应的多个合成音频。

在一些实施例中，本发明的儿童语音识别模型训练语料筛选方法还包括：对所述多个合成语句的字符错误率按相应的参考语句进行分组；

确定每个组中所包含的合成语句的字符错误率的平均字符错误率为每个组所对应的参考语句的得分；

将多个平均字符错误率较高的得分所对应的多个参考语句进一步送入所述TTS合成器。

在一些实施例中，将多个平均字符错误率较高的得分所对应的多个参考语句进一步送入所述TTS合成器包括：

将多个平均字符错误率较高的得分所对应的多个参考语句进一步送入所述差异适配器。

在一些实施例中，本发明的儿童语音识别模型训练语料筛选方法还包括：将所述多个合成音频输入至初始儿童语音识别模型得到多个合成语句以及对应于每一个合成语句的字符错误率；示例性地，初始儿童语音识别模型是采用未扩充之前的训练语料训练得到的。采用GMM-HMM声学模型来计算字符错误率较低的多个合成语句的逐帧后验概率。采用合成鉴频器根据逐帧后验概率为字符错误率较低的多个合成语句赋予真实分数以筛选至少一个合成语句所对应的合成音频。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

为更加清楚的介绍本发明的技术方案，也为更直接地证明本发明的可实时性以及相对于现有技术的有益性，以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。

摘要

尽管自动语音识别(ASR)系统上已经取得了很大的进步，但儿童的语音识别仍然是一个困难的任务。传统童声语音识别系统因缺少语料库,儿童与成人语音之间的差异而难以提高准确率。现有方法通过归一化修改的成人语音模拟童声进行ASR训练试图消除这种差异,但经过修改的成人数据只能在非常有限的程度上反映儿童语音的特征。在本发明中，我们使用语音合成的增强数据来提高儿童语音识别系统的性能。我们发现，由于儿童的音素发音不合标准，儿童的语音合成模型生成的语音质量良莠不齐，使用这些附加的合成数据训练后，甚至会对ASR系统产生反效果。为了解决这个问题，我们提出了在合成语音扩充数据上的数据选择策略，该策略可以大大提高合成数据的有效性，使其可以用于童声ASR模型建模。我们实验发现，基于说话人嵌入相似度的数据选择策略达到最好的效果：与在真实数据上训练的基线模型相比，儿童对语句音和儿童阅读语音测试集的字错误率分别降低了14.7％和14.0％。

1、引言

在本发明中，我们介绍了Fast-Speech2合成儿童语音的数据选择。将经过TTS数据训练的ASR模型与VTLN归一化和音高修改进行比较，以进行儿童语音识别。我们提出了以下数据选择方法：

1.经过实际数据训练的ASR系统的字符错误率(CER)。

2.标准化的框架式GMM-HMM后部。

3.合成语音检测系统的真实分数。

4.说话人嵌入合成语音与其参考语音的余弦相似度。

我们在SLT2021 CSRC数据集上进行实验，并通过基于说话者嵌入相似度的选择获得最佳结果：与使用原始数据训练的基线模型相比，儿童会话和儿童阅读测试集的CER分别降低了14.7％和14.0％。

2、系统说明

2.1、用于ASR的基于转换器的端到端(E2E)

转换器是由编码器和解码器网络构成的序列到序列网络。编码器网络是几个转换器模块的堆栈。每个转换器模块都包含一个多头自注意层和几个完全连接的前馈层。编码器将声学特征作为输入并将其映射为高阶表示。对于ASR任务，通常会采用前端CNN网络来应用时间尺度下采样。

解码器网络使用注意力机制处理来自编码器的表示，并以自回归方式输出预测的令牌(tokens)。对于每个解码步骤，解码器在给定先前的输出令牌的情况下发出下一个令牌的后验。

使用联合CTC注意框架来训练转换器模型，以提高鲁棒性并实现快速收敛。将Lctc和Ls2s表示为CTC和S2S客观损失，联合CTC注意网络的损失函数定义为：

可调系数λ∈[0，1]用于控制每个损失的贡献。采用联合CTC/注意解码来预测输出序列，其中将S2S分数与CTC前缀分数结合在一起做出决策。

我们将汉字和英文BPE子词组合为建模单位作为最终单位。在整个实验过程中，SpecAugment应用于所有数据。

图4：针对增强的TTS数据提出的数据选择方法，根据语句的分数过滤语句：(i)：合成语句从在原始数据上训练的ASR模型获得CER分数。(ii)：对合成语句的CER分数按其参考语句进行分组，每个参考语句都获得其合成语句的平均分数。前N个参考语句进一步送入TTS合成器以生成K个合成语句。(iii)：采用GMM-HMM声学模型来计算每个语句的逐帧后验概率。后验概率通过不发声帧的数量进行归一化，以对每个语句给出分数。(iv)：应用合成鉴频器为每个合成语句赋予真实分数。(v)：如图5所示，通过合成语句的i向量和与其相应的参考语句的i向量的余弦相似度为其评分。对于所有上述方法，将具有最高K分数的合成语句用于训练。

2.2、用于TTS的FastSpeech 2

Fastspeech 2中采用了前馈Transformer(FFT)块，它是一堆自注意力和1D卷积。引入了一些方差信息来缓解一对多映射问题。除了语音Mel频谱图之外，该模型还经过训练，可以预测音频的持续时间，音调和能量。

在本发明中，为数据扩充进行了一些修改。为了在训练或推理中产生来自孩子语音，我们将从用户指定模板提取的真实性的基音和能量作为隐藏序列的输入，以预测目标语音。如图4左侧所示，基于FFT的编码器将音素序列转换为隐藏序列，然后差异适配器将差异信息(例如音高)添加到序列中。之后，解码器预测梅尔频谱图。输出的梅尔频谱图由Griffin-lim重构以快速翻转。

3、TTS数据选择

儿童的某些音素的发音不合标准，不同的儿童说话者说的音素听起来可能大不相同。在这种情况下，很难训练生成具有一致质量的语音的TTS模型，并且使用这些未经过滤的TTS数据训练ASR模型可能会受到影响。因此，我们提出了数据选择策略来选择对ASR模型训练有益的高质量语音。

3.1、字符错误率(CER)选择

一个简单的想法就是根据字符错误率(CER)选择数据，该错误率是由在原始语音上训练的基线ASR模型测得的。具有较低CER的语音意味着它们没有严重失真，并且对于ASR模型是有效的语音。CER标准可以帮助过滤掉质量很差的合成语音，这对ASR训练有害。

但是，由于这些语句已被基线ASR模型很好地识别，因此对CER过滤语句训练的改进可能会受到限制。

3.2、归一化逐帧声学后验概率

传统的GMM-HMM声学模型可以很好地建模语音特征。GMM-HMM模型校准的后验直接表示合成语音与其副本匹配的可能性。我们基于GMM-HMM模型的校准计算得分：逐帧的后验概率通过语句中的发声语音的长度进行归一化。在计算中忽略了静音(“sil”)和非语音噪声(“spn”)帧的后验概率。

其中，N是一个语句的帧的总数，k是无声帧和非语音噪声帧的数量，P(O_i|W_i)是基于电话序列的观察概率(声音特征)。

3.3、参考语音选择和重新合成

FastSpeech2模型根据儿童语音模板和给定的音素序列生成语音。通过CER选择，我们发现具有较低CER的合成语音倾向于从相同的参考语句中合成。即，训练有素的TTS系统更擅长从特定参考语句合成有效语音。因此，我们进一步使用这些选定的参考语句来合成具有更多副本的语音，并将其用于训练而无需进一步过滤。

图5：基于相似度的说话人嵌入数据选择流水线，其中不同线型框的儿童参考语音与相应线型框的合成语音相对应。合成语句和其参考语句的i-vector之间的余弦相似度被计算为其得分。TTS合成器的结构如图4所示。

通过采用过滤后的参考语句进行合成，可以避免使用可能对ASR训练有害的低质量或无效的合成语音。但是，由于所有语句都是从同一组所选参考语句中生成的，因此合成语音的种类可能会受到限制。

3.4、合成检测真实分数

语音合成技术的发展意味着训练有素的合成语音几乎可以与真实语音在听觉上无法区分。对TTS语音鉴别器(通常具有二进制输出)进行训练，以检测是从人类录制的声音(纯正的)还是由计算机合成的(合成的)。来自鉴别器的具有较高真实分数的合成语句意味着它更成功地欺骗了鉴别器。从神经辨别器的角度来看，具有较高真实分数的语句与自然说话具有更高的相似性，并从用于ASR训练的合成数据中过滤掉。

3.5、说话人嵌入相似度

FastSpeech2可以根据参考语音和任意笔录合成语音。期望合成的语句具有它们的参考特征，并且可以通过说话人嵌入来测量这种相似性。

在这里，我们采用i-vector作为说话人嵌入，并通过其i-vector与参考语句的i-vector之间的余弦相似度来测量合成语音的得分。更高的相似度可能意味着合成的语句具有更高的质量。

其中，i是句子的i-vector嵌入。

4、实验

4.1、数据集

我们对来自SLT2021 CSRC(儿童语音识别挑战)的儿童语音数据集进行了实验，该数据集包含成人阅读集，儿童阅读集和儿童会话集。这三套语言都是普通话。所有语音数据均采用16kHz，16bit和单通道格式。我们的测试集包含来自儿童阅读集和儿童会话集的1500种语音。训练集是除测试集以外的所有数据。

表1-CSRC数据集的细节表

4.2、实验设置

4.2.1、ASR设定

模型的输入是一个80维对数梅尔滤波器组，每10ms计算出25ms的窗口长度，并具有3维的音高特征。规范[15]是针对语音特征进行的。我们采用20层编码器和6层解码器以及2048个隐藏单元。每层都是一个带有8个头的64维度自关注层的Transformer块。每个程序段和位置前馈的丢失设置为0.1。对于多任务学习(MTL)，将CTC和注意力的权重设置为0.3和0.7。建模单位是3669个汉字单位和100个英文BPE单位。

4.2.2、TTS设置

文字转语音系统是在ESPNet上实现的Transformer。编码器包含6个前馈转换器块。每个块都有2个具有384维注意隐藏大小和音素嵌入的头部。解码器具有6个前馈Transformer块，其具有与编码器相同的超参数。对于TTS目标，提取具有16000个采样频率，1024个FFT点，800个窗口长度和200个点偏移的320D Mel滤波器组。卡尔迪(Kaldi)计算的3维音高特征的窗口大小为50ms，偏移12.5ms，采样频率为16000。

4.2.3、合成语音鉴别器设置

我们采用Light CNN架构作为区分标准，这是ASVspoof 2017 Challenge中最好的系统。在ASVspoof 2019挑战赛中，它在重放和合成语音检测子任务中也表现出色。详细的模型结构与我们先前的工作相同。

前端功能是257维对数功率谱图，它是通过每10ms计算512点短时傅立叶变换(STFT)和25ms窗口大小来提取的。我们采用交叉熵损失准则以及SGD优化器，其学习率为0.001，动量为0.9。

4.3、评价结果

4.3.1、与现有方法的比较

VTLN和韵律修改规范化方法与在其他TTS未过滤数据(REAL 400小时+TTS 300小时)上训练的ASR模型进行了比较。我们遵循[4]中的韵律修改方法。采用了基于WSOLA的SoX工具来修改音频信号的速度，同时保持原始音高和频谱不变。将该系数设置为1.1可以调整成人语句的韵律。对于VTLN，从基于LDA+MLLT GMM-HMM的现有系统开始，训练Kaldi中的线性VTLN模型。然后，为每个扬声器计算VTLN翘曲因子。之后，将使用VTLN翘曲因子重新生成Mel-filterbank功能以进行标准化。

结果表明，与其他两种方法相比，附加的TTS未过滤数据导致儿童会话集的轻微降级，并且儿童阅读集的改善不佳。

表2-与现有方法相比的结果(CER％)

4.3.2、建议的数据选择器之间的比较

表3-数据选择方法的结果(CER％)

对于表3中的所有实验，TTS模型首先生成1500小时的合成数据。然后进行每种选择方法以过滤数据。数据选择方法之间的比较是对20％(约300小时)的过滤发音进行的。对于未过滤的条件，还随机选择20％的数据以进行公平比较。所有提出的数据选择方法均比真实数据和未过滤的数据实现更低的CER。

在我们提出的方法中，使用过滤后的参考进行重新合成会使子阅读集表现最差。这可以归因于两个原因：(i)重新合成的语音尚未使用任何选择器进行过滤，并且包含无效或严重失真的语音。(ii)所有重新合成的语音对应于同一组参考(1小时)，从而限制了合成数据的多样性。

在我们提出的方法中，基于合成检测的选择对儿童阅读集的表现最差。过滤后的语句可能包含较长的静默帧，无法提供足够的信息以供我们的检测模型检测为合成。

基于i向量相似度的选择在两个测试集上均表现最佳。合成语句与其参考之间的相似性可以有效地衡量其质量。高度相似意味着发声很好地反映了说话者参考语言的特征，可以被视为ASR模型的有效训练数据。

4.3.3、数据选择阈值的影响

表4显示了TTS选择的数据量如何影响ASR性能。使用稀缺的合成语音(5％)进行的训练带来的改进有限，而过于宽松的阈值(40％)可能会引入失真的数据，这对ASR模型的训练有害。

表4：所选数据量(CER％)的影响。该表中的实验是对具有不同阈值的REAL数据+i矢量相似度选择的数据(来自1500hrs TTS语音)进行的。

5、结论

本文介绍了用于语音识别的文本到语音数据增强的数据选择。实验表明，针对增强的TTS数据的适当数据选择方法可以显着提高ASR系统的性能。此外，基于说话者嵌入(i-vector)相似度的选择方法进行的数据选择获得了最佳位置，在儿童会话和儿童语音测试集上，相对于基准分别有14.7％和14.0％的相对改进。本文仅关注通过提出的数据选择方法改进的TTS数据使用情况，还有许多工作有待探索。例如，尚未执行其他方法(例如VTLN和韵律修改)与我们的TTS数据选择方法的组合。在未来的工作中，我们将尝试通过各种方法的组合来进一步提高儿童语音识别的性能。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项儿童语音识别模型训练语料筛选方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项儿童语音识别模型训练语料筛选方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行儿童语音识别模型训练语料筛选方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现儿童语音识别模型训练语料筛选方法。

图6是本申请另一实施例提供的执行儿童语音识别模型训练语料筛选方法的电子设备的硬件结构示意图，如图6所示，该设备包括：

一个或多个处理器610以及存储器620，图6中以一个处理器610为例。

执行儿童语音识别模型训练语料筛选方法的设备还可以包括：输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的儿童语音识别模型训练语料筛选方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例儿童语音识别模型训练语料筛选方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据儿童语音识别模型训练语料筛选装置的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至儿童语音识别模型训练语料筛选装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息，以及产生与儿童语音识别模型训练语料筛选装置的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的儿童语音识别模型训练语料筛选方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种儿童语音识别模型训练语料筛选方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述参考特征信息和所述合成特征信息为i-vector特征信息；

根据所述参考特征信息和所述多个合成特征信息筛选所述多个合成音频包括：

计算所述多个合成音频的多个i-vector特征信息分别与所述儿童参考音频的i-vector特征信息之间的相似度得到多个相似度值；

选出所述多个相似度值中的较大值所对应的至少一个合成音频，以用于训练儿童语音识别模型。

3.根据权利要求1所述的方法，其特征在于，所述TTS合成器包括顺序连接的编码器、差异适配器、解码器和声码器；

将所述音素序列输入至所述编码器以得到隐藏序列；

将所述儿童参考音频输入至所述差异适配器得到差异信息；

所述差异适配器根据所述隐藏序列和所述差异信息确定合成序列；

所述解码器根据所述合成序列预测梅尔频谱图；

所述声码器根据所述梅尔频谱图生成多个合成音频。

4.根据权利要求3所述的方法，其特征在于，所述差异适配器根据所述隐藏序列和所述差异信息确定合成序列包括：

所述差异适配器将所述差异信息增加至所述隐藏序列中以得到合成序列。

5.根据权利要求3所述的方法，其特征在于，还包括：

将所述多个合成音频输入至初始儿童语音识别模型得到多个合成语句以及对应于每一个合成语句的字符错误率；

选取字符错误率较低的多个合成语句所对应的多个合成音频。

6.根据权利要求5所述的方法，其特征在于，还包括：

对所述多个合成语句的字符错误率按相应的参考语句进行分组；

7.根据权利要求6所述的方法，其特征在于，将多个平均字符错误率较高的得分所对应的多个参考语句进一步送入所述TTS合成器包括：

8.根据权利要求3所述的方法，其特征在于，还包括：

采用GMM-HMM声学模型来计算字符错误率较低的多个合成语句的逐帧后验概率；

采用合成鉴频器根据逐帧后验概率为字符错误率较低的多个合成语句赋予真实分数以筛选至少一个合成语句所对应的合成音频。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任意一项所述方法的步骤。