CN116631410A

CN116631410A - 一种基于深度学习的语音识别方法

Info

Publication number: CN116631410A
Application number: CN202310914137.7A
Authority: CN
Inventors: 陈志丰; 张灵芝
Original assignee: Beijing Anji Bema Health Technology Co ltd
Current assignee: Chen Zhifeng
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-08-22
Anticipated expiration: 2043-07-25
Also published as: CN116631410B

Abstract

本发明公开了一种基于深度学习的语音识别方法，该方法包括音源采集、音源预处理、抗噪增强、口语理解、说话人识别和语音识别，本发明属于语音识别技术领域，具体是指一种基于深度学习的语音识别方法。本方案采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强，提高了音源数据的质量，采用基于集成学习的口语识别架构进行口语理解，提高了语音识别的可用性和精确性，采用基于决策函数的说话人身份识别和分类算法，分析和处理音源数据进行说话人识别，提高了语音识别的信息获取密度和优化了语音识别的信息获取结构，进而优化了语音识别的可靠性、可延展性和适用性。

Description

一种基于深度学习的语音识别方法

技术领域

本发明涉及语音识别技术领域，具体是指一种基于深度学习的语音识别方法。

背景技术

语音识别技术是指将人类语音转化为计算机可识别的文本或命令的技术，随着人工智能和机器学习技术的快速发展，语音识别技术在智能助理、智能音箱、语音搜索和语音翻译等领域得到越来越广泛的应用。

但是在已有的语音识别过程中，存在着音源噪声干扰较多，音源质量参差不齐，加大了语音特征提取的难度，对语音识别的准确率造成了负面影响的技术问题；在已有的语音识别方法中，存在着难以识别并理解言语中的口语意图，降低了语音识别的可用性和精确性的技术问题；在已有的语音识别方法中，存在着缺少一种能够识别、匹配并分类说话人的方法，影响了语音识别的可靠性和可延展性，降低了语音识别的信息获取密度的技术问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了一种基于深度学习的语音识别方法，针对在已有的语音识别过程中，存在着音源噪声干扰较多，音源质量参差不齐，加大了语音特征提取的难度，对语音识别的准确率造成了负面影响的技术问题，本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强，提高了音源数据的质量，进而降低了后续语音识别过程中特征提取等音源处理步骤的难度，提升了语音识别的总体准确率；针对在已有的语音识别方法中，存在着难以识别并理解言语中的口语意图，降低了语音识别的可用性和精确性的技术问题，本方案创造性地采用基于集成学习的口语识别架构进行口语理解，从音源数据中识别出口语言语的意图，提高了语音识别的可用性和精确性；针对在已有的语音识别方法中，存在着缺少一种能够识别、匹配并分类说话人的方法，影响了语音识别的可靠性和可延展性，降低了语音识别的信息获取密度的技术问题，本方案创造性地采用基于决策函数的说话人身份识别和分类算法，分析和处理音源数据进行说话人识别，提高了语音识别的信息获取密度和优化了语音识别的信息获取结构，进而优化了语音识别的可靠性、可延展性和适用性。

本发明采取的技术方案如下：本发明提供的一种基于深度学习的语音识别方法，该方法包括以下步骤：

步骤S1：音源采集；

步骤S2：音源预处理；

步骤S3：抗噪增强；

步骤S4：口语理解；

步骤S5：说话人识别；

步骤S6：语音识别。

进一步地，在步骤S1中，所述音源采集具体指从音频数据中采集得到音频原始数据。

进一步地，在步骤S2中，所述音源预处理包括采样率调整、音量归一化和声道归一化，得到单声道音源数据S_MA。

进一步地，在步骤S3中，所述抗噪增强，包括以下步骤：

步骤S31：采用时频去噪网络对所述单声道音源数据S_MA进行抗噪处理，包括以下步骤：

步骤S311：通过编码器encoder，计算得到单声道音源编码数据E_SMA，计算公式为：

；

其中，是编码器函数，所述编码器函数/>具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成，S_MA是单声道音源数据；

步骤S312：通过掩码估计网络MaskEstNet，计算去噪掩码，计算公式为：

；

其中，是去噪掩码，Mask_V是语音数据掩码，Mask_N是噪声数据掩码，是掩码估计网络；

步骤S313：通过解码器decoder，计算得到语音解码数据，计算公式为：

；

其中，是语音解码数据，/>是解码器函数，所述解码器函数是逐元素点乘运算，具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成，Mask_V是语音数据掩码，/>是点积运算，E_SMA是单声道音源编码数据；

步骤S314：通过解码器decoder，计算得到噪声解码数据，计算公式为：

；

其中，是噪声解码数据，/>是解码器函数，所述解码器函数是逐元素点积运算，具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成，Mask_V是语音数据掩码，/>是点积运算，E_SMA是单声道音源编码数据；

步骤S32：使用语音解码数据和噪声解码数据/>，通过多种训练损失函数，进行预测模型训练，计算得到多种训练损失，并得到抗噪增强预测模型，所述使用语音解码数据和噪声解码数据/>，通过多种训练损失函数，进行预测模型训练，包括以下步骤：

步骤S321：通过信噪比损失函数L_SNR，在保留单声道音源数据S_MA的原始规模的基础上进行音源增强，所述信噪比损失函数L_SNR的计算公式为：

；

其中，是信噪比损失函数，θ是预测模型参数，/>是信噪比函数，是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比；

步骤S322：通过对数均方误差损失函数L_log-MSE，降低预测语音和真实语音之间的差异，所述对数均方误差损失函数L_log-MSE的计算公式为：

；

其中，是对数均方误差损失函数，θ是预测模型参数，/>是纯净语音数据/>的振幅谱，Mask_V是语音数据掩码，/>是点积运算，E_SMA是单声道音源编码数据，||·||²是欧几里得范数；

步骤S323：通过噪声重建损失函数L_NR，提高模型的鲁棒性，所述噪声重建损失函数L_NR的计算公式为：

；

其中，是噪声重建损失函数，θ是预测模型参数，/>是信噪比函数，是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比，是纯净噪声数据/>和语音增强得到的噪声解码数据/>之间的信噪比；

步骤S33：通过抗噪增强预测模型，对单声道音源数据S_MA进行语抗噪增强，得到抗噪增强语音数据S_AN。

进一步地，在步骤S4中，所述口语理解，包括以下步骤：

步骤S41：特征提取，具体为提取大小为N×M的特征数组Fe，其中，在所述特征数组Fe中，每个特征数组中的元素Fe_i可以表示为，得到特征数组中第i行和第j列的特征元素Fe_ij，并计算网络特征集S_j，所述网络特征集S_j的计算公式为：

；

其中，S_j是网络特征集，N是特征数组Fe的长，Fe_ij是特征数组中第i行和第j列的特征元素，i是特征数组Fe的行索引，j是特征数组Fe的列索引；

步骤S42：构建口语识别架构，包括以下步骤：

步骤S421：设置多层感知器，具体为使用线性激活函数设置输入层，构建具有14个隐藏层的深度多层感知网络，并使用非线性函数激活隐藏层，使用Softmax激活函数设置输出层；

步骤S422：设置深度卷积神经网络，具体为在卷积层设置中，使用一组可学习过滤器组成卷积层；

步骤S423：设置半监督生成对抗网络，具体包括以下步骤：

步骤S4231：采用预训练的ResNet网络训练鉴别器DIS，并采用多种损失函数训练生成器GEN；

步骤S4232：采用监督损失函数L_sup优化生成器GEN生成数据的真实性，计算公式为：

；

其中，L_sup是监督损失函数，x是输入样本，y是生成得到的标签，是所有来自数据分布P_data（x，y）的标签样本（x，y）的期望值，/>是在给定输入样本x和前δ+1个标签y的情况下，模型生成得到标签y的概率，/>是对数概率；

步骤S4233：采用无监督损失函数L_unsup优化生成器GEN生成数据的多样性，计算公式为：

；

其中，L_unsup是无监督损失函数，x是输入样本，y是生成得到的标签，是所有来自数据分布P_data（x）的输入样本x的期望值，/>是在给定输入样本x的情况下，模型生成的样本y经过分类器得到的可能性大于等于δ+1的概率，/>是对生成器GEN得到的样本x进行期望运算；

步骤S4234：采用对抗损失函数L_GAN优化生成器的生成误差，计算公式为：

；

其中，L_GAN是对抗损失函数，x是输入样本，y是生成得到的标签是所有来自数据分布P_data（x，y）的标签样本（x，y）的期望值，/>是给定输入样本x的情况下，模型生成得到标签y的概率，/>是给定输入样本x的情况下，模型生成得到标签y经过分类器得到的可能性大于等于δ+1的概率，/>是对生成器GEN得到的样本x进行期望运算，/>是对数概率；

步骤S4235：采用对抗训练的方法，训练得到半监督生成对抗网络模型；

步骤S43：采用集成学习的方法，通过多层感知器、深度卷积神经网络和半监督生成对抗网络构建模糊集成模型，进行口语理解，从抗噪增强语音数据S_AN中得到口语意图分类数据S_SI。

进一步地，在步骤S5中，所述说话人识别，包括以下步骤：

步骤S51：采用注册决策函数D_OSI进行说话人注册，计算公式为：

；

其中，D_OSI是注册决策函数，S_AN是抗噪增强语音数据，SP是待识别说话人，α是已注册说话人，是已注册说话人α的抗噪增强语音数据S_AN的相似性分数，θ是预定义分数阈值；

步骤S52：采用分类决策函数D_CSI进行说话人身份识别，计算公式为：

；

其中，D_CSI是分类决策函数，S_AN是抗噪增强语音数据，SP是待识别说话人，α是已注册说话人，是已注册说话人α的抗噪增强语音数据S_AN的相似性分数；

步骤S53：采用验证决策函数D_ASV进行说话人发言验证，计算公式为：

；

其中，D_ASV是验证决策函数，是已注册说话人α测试某种发言语音数据/>的分数，θ是预定义分数阈值；

步骤S54：通过三种决策函数，进行说话人识别，得到说话人身份数据S_ID。

进一步地，在步骤S6中，所述语音识别，具体指通过结合口语意图分类数据S_SI和说话人身份数据S_ID，得到语音识别数据S_R。

采用上述方案本发明取得的有益效果如下：

（1）针对在已有的语音识别过程中，存在着音源噪声干扰较多，音源质量参差不齐，加大了语音特征提取的难度，对语音识别的准确率造成了负面影响的技术问题，本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强，提高了音源数据的质量，进而降低了后续语音识别过程中特征提取等音源处理步骤的难度，提升了语音识别的总体准确率；

（2）针对在已有的语音识别方法中，存在着难以识别并理解言语中的口语意图，降低了语音识别的可用性和精确性的技术问题，本方案创造性地采用基于集成学习的口语识别架构进行口语理解，从音源数据中识别出口语言语的意图，提高了语音识别的可用性和精确性；

（3）针对在已有的语音识别方法中，存在着缺少一种能够识别、匹配并分类说话人的方法，影响了语音识别的可靠性和可延展性，降低了语音识别的信息获取密度的技术问题，本方案创造性地采用基于决策函数的说话人身份识别和分类算法，分析和处理音源数据进行说话人识别，提高了语音识别的信息获取密度和优化了语音识别的信息获取结构，进而优化了语音识别的可靠性、可延展性和适用性。

附图说明

图1为本发明提供的一种基于深度学习的语音识别方法的流程示意图；

图2为本发明提供的一种基于深度学习的语音识别方法的数据流图；

图3为步骤S3的流程示意图；

图4为步骤S31的流程示意图；

图5为步骤S32的流程示意图；

图6为步骤S4的流程示意图；

图7为步骤S42的流程示意图；

图8为步骤S5的流程示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一，参阅图1和图2，本发明提供的一种基于深度学习的语音识别方法，该方法包括以下步骤：

步骤S1：音源采集；

步骤S2：音源预处理；

步骤S3：抗噪增强；

步骤S4：口语理解；

步骤S5：说话人识别；

步骤S6：语音识别。

实施例二，参阅图1和图2，该实施例基于上述实施例，在步骤S1中，所述音源采集具体指从音频数据中采集得到音频原始数据。

实施例三，参阅图1和图2，该实施例基于上述实施例，在步骤S2中，所述音源预处理包括采样率调整、音量归一化和声道归一化，得到单声道音源数据S_MA。

实施例四，参阅图2、图3、图4和图5，该实施例基于上述实施例，在步骤S3中，所述抗噪增强，包括以下步骤：

；

步骤S33：通过抗噪增强预测模型，对单声道音源数据S_MA进行语抗噪增强，得到抗噪增强语音数据S_AN；

通过执行上述操作，针对在已有的语音识别过程中，存在着音源噪声干扰较多，音源质量参差不齐，加大了语音特征提取的难度，对语音识别的准确率造成了负面影响的技术问题，本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强，提高了音源数据的质量，进而降低了后续语音识别过程中特征提取等音源处理步骤的难度，提升了语音识别的总体准确率。

实施例五，参阅图2、图6和图7，该实施例基于上述实施例，在步骤S4中，所述口语理解，包括以下步骤：

；

步骤S42：构建口语识别架构，包括以下步骤：

步骤S423：设置半监督生成对抗网络，具体包括以下步骤：

；

步骤S43：采用集成学习的方法，通过多层感知器、深度卷积神经网络和半监督生成对抗网络构建模糊集成模型，进行口语理解，从抗噪增强语音数据S_AN中得到口语意图分类数据S_SI；

通过执行上述操作，针对在已有的语音识别方法中，存在着难以识别并理解言语中的口语意图，降低了语音识别的可用性和精确性的技术问题，本方案创造性地采用基于集成学习的口语识别架构进行口语理解，从音源数据中识别出口语言语的意图，提高了语音识别的可用性和精确性。

实施例六，参阅图2和图8，该实施例基于上述实施例，在步骤S5中，所述说话人识别，包括以下步骤：

；

步骤S54：通过三种决策函数，进行说话人识别，得到说话人身份数据S_ID；

针对在已有的语音识别方法中，存在着缺少一种能够识别、匹配并分类说话人的方法，影响了语音识别的可靠性和可延展性，降低了语音识别的信息获取密度的技术问题，本方案创造性地采用基于决策函数的说话人身份识别和分类算法，分析和处理音源数据进行说话人识别，提高了语音识别的信息获取密度和优化了语音识别的信息获取结构，进而优化了语音识别的可靠性、可延展性和适用性。

实施例七，参阅图1、图2、图6和图7，该实施例基于上述实施例，在步骤S6中，所述语音识别，具体指通过结合口语意图分类数据S_SI和说话人身份数据S_ID，得到语音识别数据S_R。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于深度学习的语音识别方法，其特征在于：该方法包括以下步骤：

步骤S1：音源采集；

步骤S2：音源预处理；

步骤S3：抗噪增强；

步骤S4：口语理解；

步骤S5：说话人识别；

步骤S6：语音识别；

在步骤S2中，所述音源预处理包括采样率调整、音量归一化和声道归一化，得到单声道音源数据S_MA；

在步骤S3中，所述抗噪增强，包括以下步骤：

步骤S31：采用时频去噪网络对所述单声道音源数据S_MA进行抗噪处理；

步骤S32：使用语音解码数据和噪声解码数据/>，通过多种训练损失函数，进行预测模型训练，计算得到多种训练损失，并得到抗噪增强预测模型；

2.根据权利要求1所述的一种基于深度学习的语音识别方法，其特征在于：在步骤S31中，所述采用时频去噪网络对所述单声道音源数据S_MA进行抗噪处理，包括以下步骤：

；

其中，是语音解码数据，/>是解码器函数，所述解码器函数是逐元素点乘运算，具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成，Mask_V是语音数据掩码，是点积运算，E_SMA是单声道音源编码数据；

；

其中，是噪声解码数据，/>是解码器函数，所述解码器函数是逐元素点积运算，具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成，Mask_V是语音数据掩码，是点积运算，E_SMA是单声道音源编码数据。

3.根据权利要求2所述的一种基于深度学习的语音识别方法，其特征在于：在步骤S32中，所述使用语音解码数据和噪声解码数据/>，通过多种训练损失函数，进行预测模型训练，包括以下步骤：

；

其中，是信噪比损失函数，θ是预测模型参数，/>是信噪比函数，/>是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比；

；

其中，是噪声重建损失函数，θ是预测模型参数，/>是信噪比函数，是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比，是纯净噪声数据/>和语音增强得到的噪声解码数据/>之间的信噪比。

4.根据权利要求3所述的一种基于深度学习的语音识别方法，其特征在于：在步骤S4中，所述口语理解，包括以下步骤：

步骤S41：特征提取，具体为提取大小为N×M的特征数组Fe，其中，在所述特征数组Fe中，每个特征数组中的元素Fe_i可以表示为/>，得到特征数组中第i行和第j列的特征元素Fe_ij，并计算网络特征集S_j，所述网络特征集S_j的计算公式为：

；

步骤S42：构建口语识别架构，包括以下步骤：

步骤S423：设置半监督生成对抗网络，具体包括以下步骤：

；

5.根据权利要求4所述的一种基于深度学习的语音识别方法，其特征在于：在步骤S5中，所述说话人识别，包括以下步骤：

；

6.根据权利要求5所述的一种基于深度学习的语音识别方法，其特征在于：在步骤S1中，所述音源采集具体指从音频数据中采集得到音频原始数据。

7.根据权利要求6所述的一种基于深度学习的语音识别方法，其特征在于：在步骤S6中，所述语音识别，具体指通过结合口语意图分类数据S_SI和说话人身份数据S_ID，得到语音识别数据S_R。