CN111145730B

CN111145730B - 语音识别模型的优化方法及系统

Info

Publication number: CN111145730B
Application number: CN201911396717.1A
Authority: CN
Inventors: 李旭
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-05-06
Anticipated expiration: 2039-12-30
Also published as: CN111145730A

Abstract

本发明实施例提供一种语音识别模型的优化方法。该方法包括：对原始音频训练集中的原始音频按照语音属性进行划分，确定不同维度的多个音频训练子集；按照对应于各个维度的数据模拟算法，对各个维度的音频训练子集进行数据增强，生成不同维度的多个增强音频训练集；基于原始音频训练集以及多个增强音频训练集对语音识别模型进行训练，以优化语音识别模型。本发明实施例还提供一种语音识别模型的优化系统。本发明实施例训练的语音识别模型可以匹配不同场景下的语音识别系统的需求，提高语音识别效果。

Description

语音识别模型的优化方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种语音识别模型的优化方法及系统。

背景技术

为了提高语音识别模型的识别效果，需要提供一定量的音频数据进行进一步训练，在给定有限音频数据条件下，利用数据模拟算法，生成与现有音频相似但不相同的模拟数据，通过扩充更多的音频数据，来对语音识别系统进行训练，从而提高语音识别模型的识别效果。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

对于给定原始音频，往往全部采用一种数据扩充方法，没有针对语音识别系统不同应用场景的优化，生成的模拟数据和应用场景下的真实数据偏差较大，且缺乏多样性。采用这种类型数据训练的语音识别模型效果较差。

发明内容

为了至少解决现有技术中数据增强生成的数据没有考虑到不同场景，使用与真实数据偏差大的数据训练的语音识别模型效果较差的问题。

第一方面，本发明实施例提供一种语音识别模型的优化方法，包括：

对原始音频训练集中的原始音频按照语音属性进行划分，确定不同维度的多个音频训练子集，其中，所述语音属性至少包括：信噪比和/或语速和/或音调和/或响度；

按照对应于各个维度的数据模拟算法，对各个维度的音频训练子集进行数据增强，生成不同维度的多个增强音频训练集，其中，所述数据模拟算法至少包括：加噪处理和/或语速调节和/或音调调节和/或响度调节；

基于所述原始音频训练集以及所述多个增强音频训练集对所述语音识别模型进行训练，以优化所述语音识别模型。

第二方面，本发明实施例提供一种语音识别模型的优化系统，包括：

音频训练子集确定程序模块，用于对原始音频训练集中的原始音频按照语音属性进行划分，确定不同维度的多个音频训练子集，其中，所述语音属性至少包括：信噪比和/或语速和/或音调和/或响度；

音频增强程序模块，用于按照对应于各个维度的数据模拟算法，对各个维度的音频训练子集进行数据增强，生成不同维度的多个增强音频训练集，其中，所述数据模拟算法至少包括：加噪处理和/或语速调节和/或音调调节和/或响度调节；

模型优化程序模块，用于基于所述原始音频训练集以及所述多个增强音频训练集对所述语音识别模型进行训练，以优化所述语音识别模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别模型的优化方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的语音识别模型的优化方法的步骤。

本发明实施例的有益效果在于：对每条音频数据先进行属性判别，针对不同的判断结果，采用相应的模拟算法。并且属性判别条件可以适当调整，以便于匹配不同场景下的语音识别系统的需求。按照这种数据扩充方法生成的数据，既具备了多样性又符合真实场景，训练的语音识别模型对应于各种不同的场景识别效果更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音识别模型的优化方法的流程图；

图2是本发明一实施例提供的一种语音识别模型的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音识别模型的优化方法的流程图，包括如下步骤：

S11：对原始音频训练集中的原始音频按照语音属性进行划分，确定不同维度的多个音频训练子集，其中，所述语音属性至少包括：信噪比和/或语速和/或音调和/或响度；

S12：按照对应于各个维度的数据模拟算法，对各个维度的音频训练子集进行数据增强，生成不同维度的多个增强音频训练集，其中，所述数据模拟算法至少包括：加噪处理和/或语速调节和/或音调调节和/或响度调节；

S13：基于所述原始音频训练集以及所述多个增强音频训练集对所述语音识别模型进行训练，以优化所述语音识别模型。

在本实施方式中，训练语音识别模型需要一定量的音频数据，而由于某种需求的语音数据获取较为困难，只能获得有限的原始音频数据。

对于步骤S11，接收原始音频数据，所述原始音频数据既用于训练语音识别系统，又用于进行数据扩充处理。在进行数据扩充处理时，首先需要对原始音频数据按照语音属性进行划分，划分多个音频训练子集，其中每个语音属性的音频训练子集分别对应各自的维度。其中，语音属性至少包括：信噪比、语速、音调、响度。用户可以根据实际需求，选择部分或者全部属性进行判别。

对于步骤S12，按照对应于各个维度的数据模拟算法，对各个维度的音频训练子集进行数据增强。

作为一种实施方式，当所述语音属性至少包括信噪比时，对原始音频训练集中各原始音频进行语音对齐，确定每一帧音频数据对应的alignment属性，基于所述alignment属性中的静音帧数以及非静音帧数确定所述各原始音频的信噪比，以确定信噪比维度的音频训练子集；

所述对各个维度的音频训练子集进行数据增强包括：当所述信噪比大于预设阈值时，对所述信噪比维度的音频训练子集中各音频进行加噪处理。

信噪比(SNR)计算：利用GMM-HMM模型对音频做对齐，生成每一帧数据的alignment。统计alignment中SIL(静音)的帧数n_SIL和非_SIL的帧数n_NOSIL，根据公式SNR＝10_log(n_NOSIL/n_SIL)计算SNR。

信噪比越大，音频效果越好，越清晰。对这些清晰的音频进行加噪处理，在本实施方式中，所述对所述信噪比维度的音频训练子集中各音频进行加噪处理包括：

对所述信噪比维度的音频训练子集中各音频的每个采样点进行随机扰动，确定第一音频；

基于冲击响应库中随机选取的冲激响应与所述第一音频进行混响计算，获得第二音频；

基于冲击响应库中随机选取的冲激响应、点源噪声库中随机选取的点源噪声对所述第二音频进行混响处理，获得带有点源噪声的第三音频；

基于加性噪声库中随机选取的加性噪声对所述第三音频进行叠加，确定加噪处理后的信噪比维度的音频训练子集。

在本实施方式中，用户可根据语音识别系统的应用场景，自定义信噪比的判断阈值。比如设定阈值为n，由上述步骤计算的SNR>n时，对音频进行加噪处理生成模拟数据，否则对这条音频不执行加噪处理。

step1：首先对输入音频的每个采样点做随机扰动，扰动因子α可以为0.8～1.2，获得扰动后的音频。

step2：从冲激响应库里随机抽取一条冲激响应，与音频进行混响计算。冲激响应库里包括真实冲击响应和模拟冲激响应，可以通过目标场景实录获得，也可以从开源数据集获得。

step3：接着从冲激响应库里随机抽取一条冲激响应，并从点源噪声库里随机抽取一条点源噪声，做混响计算，获得混响后的点源噪声，与step2的音频叠加运算，获得加点源噪声后的音频。

step4：最后从加性噪声库里随机抽取一条加性噪声，与step3的音频叠加运算，从而获得最终的加噪模拟数据。这样就生成了信噪比维度的音频训练子集。

作为一种实施方式，当所述语音属性至少包括语速时，对原始音频训练集中各原始音频进行语音对齐，确定每一帧音频数据对应的alignment属性，基于所述alignment属性中非静音帧数以及原始音频中的文本字数，确定所述各原始音频的语速，以确定语速维度的音频训练子集；

所述对各个维度的音频训练子集进行数据增强包括：接收用户输入的基准语速，将所述语速维度的音频训练子集中各音频的语速调整至所述基准语速。

在本实施方式中，语速的计算是利用GMM-HMM模型对输入音频做对齐，生成每一帧数据的alignment。统计alignment中非SIL的帧数n_NOSIL，并统计该音频对应标注文本的字数n_C。该音频的tempo＝n/n_NOSIL，tempo与说话速度正相关。

根据用户事先设定语速(tempo)的调节阈值。比如阈值为n，当tempo>n时将tempo降低以降低语速。或当tempo<n时将tempo调高以加快语速，这样就生成了语速维度的音频训练子集。

作为一种实施方式，当所述语音属性至少包括音调时，确定所述原始音频训练集中各原始音频每一帧的pitch特征的均值，通过所述pitch特征的均值确定所述各原始音频的音调，以确定音调维度的音频训练子集；

所述对各个维度的音频训练子集进行数据增强包括：调整所述音调维度的音频训练子集中各音频的音调，以将所述音调维度的音频训练子集中各音频男女音调互换。

在本实施方式中，音调(pitch)的计算是提取输入音频每一帧的pitch特征，并求均值，即为该音频的pitch。pitch特征提取可利用开源工具kaldi实现。

音调主要反映了男女性别差异，通常女性音调比男性音调高。故通过调节音调，可以模拟对立性别的语音数据。将计算的pitch值与阈值n比较，pitch<n时，调高音频pitch，或pitch>n时，调低pitch，这样就生成了音调维度的音频训练子集。

作为一种实施方式，当所述语音属性至少包括响度时，确定所述原始音频训练集中各原始音频的响度，以确定响度维度的音频训练子集；

所述对各个维度的音频训练子集进行数据增强包括：基于预设的响度阈值，对所述响度维度的音频训练子集中各音频的响度进行调节。

在本实施方式中，可以利用开源工具(例如sox工具)可直接计算输入音频的响度，通过比较音频的响度和设定阈值，可将响度大的音频调低，或将响度低的音频增强，来获取不同响度的模拟音频数据，这样就生成了响度维度的音频训练子集。

对于步骤S13，基于步骤S12中确定的多个维度的音频训练子集以及原始音频训练集对语音识别模型进行训练，通过更多语音属性的音频训练子集提高训练数据集的维度，从而优化语音识别模型。

通过该实施方式可以看出，对每条音频数据先进行属性判别，针对不同的判断结果，采用相应的模拟算法。并且属性判别条件可以适当调整，以便于匹配不同场景下的语音识别系统的需求。按照这种数据扩充方法生成的数据，既具备了多样性又符合真实场景，训练的语音识别模型对应于各种不同的场景识别效果更好。

如图2所示为本发明一实施例提供的一种语音识别模型的优化系统的结构示意图，该系统可执行上述任意实施例所述的语音识别模型的优化方法，并配置在终端中。

本实施例提供的一种语音识别模型的优化系统包括：音频训练子集确定程序模块11，音频增强程序模块12和模型优化程序模块13。

其中，音频训练子集确定程序模块11用于对原始音频训练集中的原始音频按照语音属性进行划分，确定不同维度的多个音频训练子集，其中，所述语音属性至少包括：信噪比和/或语速和/或音调和/或响度；音频增强程序模块12用于按照对应于各个维度的数据模拟算法，对各个维度的音频训练子集进行数据增强，生成不同维度的多个增强音频训练集，其中，所述数据模拟算法至少包括：加噪处理和/或语速调节和/或音调调节和/或响度调节；模型优化程序模块13用于基于所述原始音频训练集以及所述多个增强音频训练集对所述语音识别模型进行训练，以优化所述语音识别模型。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别模型的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音识别模型的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别模型的优化方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别模型的优化方法，包括：

2.根据权利要求1所述的方法，其中，当所述语音属性至少包括信噪比时，对原始音频训练集中各原始音频进行语音对齐，确定每一帧音频数据对应的alignment属性，基于所述alignment属性中的静音帧数以及非静音帧数确定所述各原始音频的信噪比，以确定信噪比维度的音频训练子集；

3.根据权利要求1所述的方法，其中，当所述语音属性至少包括语速时，对原始音频训练集中各原始音频进行语音对齐，确定每一帧音频数据对应的alignment属性，基于所述alignment属性中非静音帧数以及原始音频中的文本字数，确定所述各原始音频的语速，以确定语速维度的音频训练子集；

4.根据权利要求1所述的方法，其中，当所述语音属性至少包括音调时，确定所述原始音频训练集中各原始音频每一帧的pitch特征的均值，通过所述pitch特征的均值确定所述各原始音频的音调，以确定音调维度的音频训练子集；

5.根据权利要求1所述的方法，其中，当所述语音属性至少包括响度时，确定所述原始音频训练集中各原始音频的响度，以确定响度维度的音频训练子集；

6.根据权利要求2所述的方法，其中，所述对所述信噪比维度的音频训练子集中各音频进行加噪处理包括：

7.根据权利要求1所述的方法，其中，所述语音属性还包括：音频声道长度。

8.一种语音识别模型的优化系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。