CN112786051A

CN112786051A - 一种语音数据的识别方法及装置

Info

Publication number: CN112786051A
Application number: CN202011578798.XA
Authority: CN
Inventors: 杨超; 陈晓宇; 张彬彬; 曾晨晨
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Wenwen Intelligent Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-05-11
Anticipated expiration: 2040-12-28
Also published as: CN112786051B

Abstract

本发明公开一种语音数据的识别方法及装置，该方法包括：采集第一语音训练集，根据第一语音训练集得到一级语音识别模型；采集第一语音评估集，对应第一文本数据集；对第一语音评估集分别从预设的多个维度进行变换处理，得到多个语音评估集；使用一级语音识别模型分别对多个语音评估集进行识别，得到多个文本数据集；将多个文本数据集与第一文本数据集进行比对，得到多个语音文本识别错误率；根据多个语音文本识别错误率确定使用对应维度对第一语音训练集进行变换处理的占比；根据多个占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集；使用第二语音训练集对所述一级语音识别模型进行训练，得到二级语音识别模型。

Description

一种语音数据的识别方法及装置

技术领域

本发明涉及语音识别领域，尤其涉及一种语音数据的识别方法及装置。

背景技术

在语音识别领域，随着深度学习的发展，语音识别模型的建模能力更强，对语音样本数据进行更多维度的增广，经过这些语音样本数据训练后所获取的语音识别模型往往更具鲁棒性和泛化性。然而，和图像领域相比，语音识别领域用于语音样本数据的增广方法仍比较保守。目前的主流语音样本数据增广方法包括音频叠噪声，语速增减，混响效果和SpecAug对时频信息进行掩蔽。这些语音样本数据增广方法都太过保守，训练出的模型识别语音数据获得的文本数据的错误率过高。

发明内容

本发明提供一种语音数据的识别方法及装置，以至少解决现有技术中存在的以上技术问题。

本发明一方面提供一种语音数据的识别方法，包括：

采集第一语音训练集，所述第一语音训练集包含多个语音样本数据，根据第一语音训练集得到一级语音识别模型；

采集第一语音评估集，对应第一文本数据集，所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据；

对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，得到每个维度对应的语音评估集，所述多个维度包括：强度和频率；

使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别，得到每个维度对应的文本数据集；

将所述每个维度对应的文本数据集与所述第一文本数据集进行比对，得到每个维度对应的语音文本识别错误率；

根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比；

根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理第二语音训练集；

根据所述第二语音训练集得到二级语音识别模型；

使用所述二级语音识别模型将待识别的语音数据识别为文本数据。

其中，所述维度为强度时，所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，包括：

使用函数对所述第一语音评估集中的语音数据的强度进行变换，所述函数为线性函数、非线性函数和分段函数。

其中，所述维度为频率时，所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，包括：

将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据，所述特定语音数据的频率在所述预设频率范围内；

所述预设频率范围为：大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一。

其中，所述根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比，包括：

根据所述每个维度对应的语音文本识别错误率的比例确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比。

其中，所述根据第一语音训练集得到一级语音识别模型，包括：

使用所述第一语音训练集训练原始语音识别模型，获得一级语音识别模型；

其中，所述根据所述第二语音训练集得到二级语音识别模型，包括：

使用所述第二语音训练集对所述原始语音识别模型或者所述一级语音识别模型进行训练，得到二级语音识别模型；

本发明另一方面提供一种语音数据的识别装置，包括：

采集模块，用于采集第一语音训练集和第一语音评估集；

训练模块，用于训练原始语音识别模型或者一级语音识别模型；

处理模块，用于将所述第一语音训练集和所述第一语音评估集中的语音数据进行分别从预设的多个维度进行变换处理；

计算模块，用于计算每个维度对应的语音文本识别错误率，计算使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比；

识别模块，用于识别每个维度对应的语音评估集。

其中，所述处理模块，还用于使用函数对所述第一语音评估集中的语音的强度进行变换，所述函数为线性函数、非线性函数和分段函数。

其中，所述处理模块，还用于将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据，所述特定语音数据的频率在所述预设频率范围内；

其中，所述计算模块，还用于根据所述每个维度对应的语音文本识别错误率的比例确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比。

上述方案中，将语音的强度进行变换，加强了语音数据在强度方面的变化，将语音满足预设条件的频率进行替换，加强了语音数据在频率方面的变化，根据一级语音识别模型对经过这两种处理方法增广后的语音数据进行识别后的到的文本，得到该文本比对后的错误率的比例，确定这两种处理方法在一级语音识别模型训练方法中语音样本数据的占比，用通过处理后的第二语音训练集对一级语音识别模型进行训练，得到的二级语音识别模型识别强度和频率维度变化丰富的语音数据时错误率更低。

附图说明

图1示出了本发明一实施例提供的语音数据的识别方法流程示意图

图2示出了本发明一实施例提供的语音数据的识别装置结构示意图

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在语音识别领域，随着深度学习的发展，语音识别模型的建模能力更强，对语音样本数据进行更多维度的增广，经过这些语音样本数据训练后所获取的语音识别模型往往更具鲁棒性和泛化性。然而，和图像领域相比，语音识别领域用于语音样本数据的增广方法仍比较保守。目前的主流语音样本数据增广方法包括音频叠噪声，语速增减，混响效果和SpecAug对时频信息进行掩蔽。这些语音样本数据增广方法都太过保守，训练出的模型识别语音数据获得的文本数据的错误率过高。为了对语音样本数据进行更多维度的的变化，进一步增强语音识别模型的鲁棒性，本发明一实施例提供了一种语音数据的识别方法，如图1所示，该方法包括：

步骤101，采集第一语音训练集，所述第一语音训练集包含多个语音样本数据，根据第一语音训练集得到一级语音识别模型。

采集第一语音训练集，所述第一语音训练集是一个用于训练语音识别模型的包含多个语音的语音数据集，使用所述第一语音训练集对原始语音识别模型进行训练，所述原始语音识别模型是一个最基础的数学模型，不具有识别语音的功能，训练后得到具有识别语音功能的一级语音识别模型。

步骤102，采集第一语音评估集，对应第一文本数据集，所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据。

采集第一语音评估集，所述第一语音评估集是一个包含多个语音的样本语音数据集，总时长限制在2-10个小时，第一语音评估集中的语音与第一语音训练集中的语音不存在数据交叉，所述第一语音评估集中包含对应所述第一语音评估集中每个语音样本数据且完全正确的文本数据。

步骤103，对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，得到每个维度对应的语音评估集，所述多个维度包括：强度和频率。

对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，所述多个维度包括：

强度：

使用函数来对样本语音数据集中的待处理语音的强度进行变换，有三种变换方式：

方式一

使用线性函数对待处理语音的强度进行变换，比如待处理语音中某个采样点的强度为x，使用线性函数y＝2x对该强度进行变换，变换后的待处理语音该采样点的强度为2x。

方式二

使用非线性函数对待处理语音的强度进行变换，比如待处理语音中某个采样点的强度为x，使用线性函数y＝x^2对该强度进行变换，变换后的待处理语音该采样点的强度为x^2。

方式三

使用分段函数对待处理语音的强度进行变换，比如用线性函数对待处理语音x-y范围内的采样点的强度值进行变换，再用非线性函数对待处理语音y-z范围内的采样点进行变换。

频率：

所述预设频率范围为：大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一

将待处理语音数据频率大于2000HZ且小于待处理语音数据语音采样率二分之一的语音替换成另一段相同频率范围内的语音，因为人类发音频率一般情况下小于2000HZ，而语音采样率一般是语音数据中最高频率的两倍，所以将待处理语音数据频率大于2000HZ且小于待处理语音数据语音采样率二分之一的语音替换成另一段语音相同频率范围内的语音，可以使待处理语音数据变换成带人声背景噪音的语音。

其中，所述多个维度还包括：

音高：

将待处理语音数据的音高进行变换。

步骤104，使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别，得到每个维度对应的文本数据集。

使用一级语音识别模型对所述第一语音评估集经过不同维度处理后得到的每个维度对应的语音评估集进行识别，转化成每个维度对应的文本数据集。

步骤105，将所述每个维度对应的文本数据集与所述第一文本数据集进行比对，得到每个维度对应的语音文本识别错误率。

将所述每个维度对应的文本数据集与完全正确的第一文本数据集进行比对，将错误的文字数量除以总文字数量得到每个维度对应的语音文本识别错误率。

步骤106，根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比。

每个维度对应的语音文本识别错误率越高，说明所述一级语音识别模型对对应维度的识别率越低，那么该维度在处理第一语音训练集中的语音样本数量的占比就越高，根据所述每个维度对应的语音文本识别错误率确定在第一语音训练集中进行对应维度变换处理的占比。

例如，进行强度跟频率维度处理变换后的语音文本识别错误率分别是80％和20％，那么在第一语音训练集中进行强度变换的样本数量的占比为80％/(80％+20％)＝80％，在第一语音训练集中进行预定频率范围内语音替换的样本数量的占比为20％/(80％+20％)＝20％。

步骤107，根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理，得到第二语音训练集。

按照每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理，例如进行强度跟频率维度处理变换的占比分别是 80％和20％，那么对第一语音训练集中80％数量的语音样本数据进行强度变换，对第一语音训练集中20％数量的语音样本数据进行预定频率范围内语音替换。

步骤108，根据所述第二语音训练集得到二级语音识别模型。

使用第二语音训练集对原始语音识别模型或者一级语音识别模型进行训练，得到二级语音识别模型。

步骤109，使用所述二级语音识别模型将待识别的语音数据识别为文本数据。

将语音的强度进行变换，加强了语音数据在强度方面的变化，将语音满足预设条件的频率进行替换，加强了语音数据在频率方面的变化，将语音数据的音高进行变换，加强了语音数据在音高方面的变化，根据一级语音识别模型对经过这三种处理方法增广后的语音数据进行识别后的到的文本，得到该文本比对后的错误率的比例，确定这三种处理方法在一级语音识别模型训练方法中语音样本数据的占比，用通过处理后的第二语音训练集对一级语音识别模型进行训练，得到的二级语音识别模型能够对强度、频率和音高维度变化丰富的语音识别的错误率大大降低，二级语音识别模型对于真实8K语音的错误率下降了5％-10％。

为了实现上述的方法，本发明实施例还提供了一种语音数据的识别装置，如图2所示，包括：

采集模块10，用于采集第一语音训练集和第一语音评估集；

训练模块20，用于训练原始语音识别模型或者一级语音识别模型；

处理模块30，用于将所述第一语音训练集和所述第一语音评估集中的语音数据进行分别从预设的多个维度进行变换处理；

所述处理模块30，还用于使用函数对所述第一语音评估集中的语音的强度进行变换，所述函数为线性函数、非线性函数和分段函数；

所述处理模块30，还用于将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据，所述特定语音数据的频率在所述预设频率范围内；所述预设频率范围为：大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一；

计算模块40，用于计算每个维度对应的语音文本识别错误率，计算使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比；

所述计算模块40，还用于根据所述每个维度对应的语音文本识别错误率的比例确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比；

识别模块50，用于识别每个维度对应的语音评估集；

本发明实施例还提供了一种语音数据的识别设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的语音处理方法。

示例性地，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的语音处理方法。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音数据的识别方法，其特征在于，该方法包括：

根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集；

根据所述第二语音训练集得到二级语音识别模型；

2.根据权利要求1所述的语音数据的识别方法，其特征在于，所述维度为强度时，所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，包括：

3.根据权利要求1所述的语音数据的识别方法，其特征在于，所述维度频率时，所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，包括：

4.根据权利要求1所述的语音数据的识别方法，其特征在于，所述根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比，包括：

5.根据权利要求1所述的语音数据的识别方法，其特征在于，所述根据第一语音训练集得到一级语音识别模型，包括：

使用所述第一语音训练集训练原始语音识别模型，获得一级语音识别模型。

6.根据权利要求5所述的语音数据的识别方法，其特征在于，所述根据所述第二语音训练集得到二级语音识别模型，包括：

7.一种语音数据的识别装置，其特征在于，包括：

采集模块，用于采集第一语音训练集和第一语音评估集；

识别模块，用于识别每个维度对应的语音评估集。

8.根据权利要求7所述的语音数据的识别装置，其特征在于，

所述处理模块，还用于使用函数对所述第一语音评估集中的语音的强度进行变换，所述函数为线性函数、非线性函数和分段函数。

9.根据权利要求7所述的语音数据的识别装置，其特征在于，

所述处理模块，还用于将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据，所述特定语音数据的频率在所述预设频率范围内；

10.根据权利要求7所述的语音数据的识别装置，其特征在于，

所述计算模块，还用于根据所述每个维度对应的语音文本识别错误率的比例确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比。