CN113192496A

CN113192496A - 语音识别方法及装置

Info

Publication number: CN113192496A
Application number: CN202010028259.2A
Authority: CN
Inventors: 曹秀亭
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-07-30

Abstract

本发明实施例提供一种语音识别方法及装置，所述方法包括：获取待识别语音数据的频谱图；将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果；其中，所述语音识别模型是基于语音样本以及预先确定的语音样本对应的文字，利用注意力机制模型和连接者时间分类模型作为混合解码器进行训练后得到。本发明实施例提供的语音识别方法及装置，采用注意力机制模型和连接者时间分类模型作为混合解码器，对语音识别模型进行训练，解决了训练过程中梯度消失的问题，避免了词典数据量过大加剧消耗时间，提升了识别效率，提高了长句的识别效果。

Description

语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音识别是一种广义的自然语言处理技术，是用于人与机器进行更顺畅交流的技术，语音识别目前已使用在生活的各个方面。

随着深度学习的发展，目前语音识别任务是由端到端的深度学习的模式完成的，传统的方式是通过快速傅里叶变换从原始的音频文件得到频谱图，经过深层神经网络(DNN)网络获取其中的语义信息，最后通过隐马尔科夫模型(HMM)获得文字信息，解码方式是通过Viterbi算法。

但是，在提取的语音特征中语音音素是带有一定的关联性，采用现有技术中的DNN-HMM的语音识别方案，在训练中存在梯度消失问题，容易陷入局部最优，会给整个模型的训练加大难度，导致模型无法收敛，最终导致Viterbi解码方式消耗时间过长，词典数据量过大时会加剧消耗时间，在较长的句子识别中效果差。

发明内容

本发明实施例提供一种语音识别方法及装置，用于解决现有技术中的上述技术问题。

为了解决上述技术问题，一方面，本发明实施例提供一种语音识别方法，包括：

获取待识别语音数据的频谱图；

将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果；

其中，所述语音识别模型是基于语音样本以及预先确定的语音样本对应的文字，利用注意力机制模型和连接者时间分类模型作为混合解码器进行训练后得到。

进一步地，将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果，具体包括：

将所述待识别语音数据的频谱图输入至所述语音识别模型中的卷积神经网络，输出语音特征；

将所述语音特征输入至所述语音识别模型中的双向长短时记忆网络，输出语义信息；

将所述语义信息输入至所述语音识别模型中的解码器，输出所述文字识别结果。

进一步地，对所述语音识别模型进行训练的具体步骤如下：

将所述语音样本的频谱图输入至所述语音识别模型中的卷积神经网络，输出样本语音特征；

将所述样本语音特征输入至所述语音识别模型中的双向长短时记忆网络，输出样本语义信息；

将所述样本语义信息输入至所述注意力机制模型，输出第一样本预测文字，基于所述第一样本预测文字确定注意力损失；同时，将所述样本语义信息输入至所述连接者时间分类模型，输出连接者时间分类损失；

根据所述注意力损失和所述连接者时间分类损失，利用反向传播算法确定所述语音识别模型的参数。

进一步地，将所述样本语义信息输入至所述注意力机制模型，输出第一样本预测文字，具体包括：

将所述样本语义信息和Ngram统计模型向量根据序列长度进行循环拼接；

将拼接后的向量输入至双向长短期记忆网络，输出所述第一样本预测文字。

进一步地，基于所述第一样本预测文字确定注意力损失，具体包括：

将所述第一样本预测文字输入至全连接神经网络，输出调整维度后的第一样本预测文字；

将调整维度后的第一样本预测文字输入至Softmax回归模型，输出所述注意力损失。

进一步地，将所述样本语义信息输入至所述连接者时间分类模型，输出连接者时间分类损失，具体包括：

将所述样本语义信息输入至全连接神经网络，输出第二样本预测文字；

将所述第二样本预测文字输入至Softmax回归模型，输出归一化后的第二样本预测文字；

将归一化后的第二样本预测文字输入至连接者时间分类损失函数模型，输出所述连接者时间分类损失。

进一步地，根据所述注意力损失和所述连接者时间分类损失，利用反向传播算法确定所述语音识别模型的参数，具体包括：

对所述注意力损失和所述连接者时间分类损失进行加权求和，得到总损失；

根据所述总损失，利用反向传播算法确定所述语音识别模型的参数。

另一方面，本发明实施例提供一种语音识别的装置，包括：

获取模块，用于获取待识别语音数据的频谱图；

识别模块，用于将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果；

再一方面，本发明实施例提供一种电子设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述方法的步骤。

又一方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述方法的步骤。

本发明实施例提供的语音识别方法及装置，采用注意力机制模型和连接者时间分类模型作为混合解码器，对语音识别模型进行训练，解决了训练过程中梯度消失的问题，避免了词典数据量过大加剧消耗时间，提升了识别效率，提高了长句的识别效果。

附图说明

图1为本发明实施例提供的语音识别方法的示意图；

图2为本发明实施例提供的语音识别模型的训练原理示意图；

图3为本发明实施例提供的注意力机制模型的结构示意图；

图4为本发明实施例提供的语音识别装置的示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种常用的采用DNN-HMM模型进行语音识别的步骤如下：

1、读入音频文件，获取频谱图。

2、采用3层DNN提取语音特征。

3、采用7层DNN建立声学模型。

4、通过HMM解码构建识别结果的分布概率。

通过这种端到端的方式，能够快速部署，鲁棒性比机器学习的方式高。

但是，传统的DNN-HMM语音识别模型在提取语音特征中没有考虑到语音音素是带有一定的关联性的特点，在较长的句子识别中效果差；在训练中存在梯度消失问题，容易陷入局部最优，会给整个模型的训练加大难度，导致模型无法收敛；Viterbi解码方式消耗时间过长，词典数据量过大时会加剧消耗时间。

为了解决上述技术问题，本发明实施例提供一种语音识别方法，采用注意力机制(Attention Mechanism)模型和连接者时间分类模型作为混合解码器，对语音识别模型进行训练，解决了训练过程中梯度消失的问题，避免了词典数据量过大加剧消耗时间，提升了识别效率，提高了长句的识别效果。

图1为本发明实施例提供的语音识别方法的示意图，如图1所示，本发明实施例提供一种语音识别方法，其执行主体为语音识别装置。该方法包括：

步骤S101、获取待识别语音数据的频谱图。

具体来说，当需要进行语音识别时，首先读取音频文件，通过快速傅里叶变换得到待识别语音数据的频谱图。

例如，通过快速傅里叶变换得到39维的梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients，MFCC)特征的频谱图(Spectrum map)。

步骤S102、将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果；

具体来说，获取待识别语音数据的频谱图之后，将该频谱图输入至语音识别模型，输出待识别语音数据对应的文字识别结果。

其中，该语音识别模型是基于语音样本以及预先确定的语音样本对应的文字，利用注意力机制模型和连接者时间分类模型作为混合解码器进行训练后得到。

对于较短语音数字信号，由于每个音素之间的相互关系很强，AttentionMechanism能够从全局考虑整个句子的音素，通过Attention Mechanism可以做到提高每个音素对文字结果的影响。利用Attention Mechanism能够更多的关注到音素到文字的关系，并且也很适合GPU加速运算，减少训练和推理的时间消耗。而连接者时间分类模型对于长句子有很好的适应性，对噪音数据也有很强的鲁棒性，注重语音的单调时序性。

本发明实施例提供的语音识别方法，采用注意力机制模型和连接者时间分类模型作为混合解码器，对语音识别模型进行训练，解决了训练过程中梯度消失的问题，避免了词典数据量过大加剧消耗时间，提升了识别效率，提高了长句的识别效果。

基于上述任一实施例，进一步地，将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果，具体包括：

具体来说，在本发明实施例中，语音识别模型由卷积神经网络、双向长短时记忆网络和解码器构成。

将待识别语音数据的频谱图输入至语音识别模型，输出待识别语音数据对应的文字识别结果的具体步骤如下：

特征提取阶段：首先，将待识别语音数据的频谱图输入至语音识别模型中的卷积神经网络，输出语音特征。

编码阶段：然后，将语音特征输入至语音识别模型中的双向长短时记忆网络BiLSTM，输出语义信息。

解码阶段：最后，将语义信息输入至语音识别模型中的解码器，输出文字识别结果。

例如，在特征提取阶段，可以采用两层的卷积神经网络CNN，根据MFCC特征设计提取的卷积核，第一层为39*11，第二层为20*11，由于频谱图的相连音素具有较强的关系，因此采用较大的卷积核能够较好的保留语音信息，通过加入采样的步幅，能够去除冗余。

在编码阶段，利用7层的BiLSTM获取语音特征中的语义信息。

基于上述任一实施例，进一步地，对所述语音识别模型进行训练的具体步骤如下：

具体来说，在本发明实施例中，采用注意力机制模型和连接者时间分类模型作为混合解码器，对语音识别模型进行训练，图2为本发明实施例提供的语音识别模型的训练原理示意图，如图2所示，对语音识别模型进行训练的过程如下：

输入阶段：读取样本音频文件，通过快速傅里叶变换得到语音样本数据的频谱图。

例如，通过快速傅里叶变换得到39维的MFCC特征的频谱图。

特征提取阶段：将语音样本的频谱图输入至语音识别模型中的卷积神经网络，输出样本语音特征。

例如，可以采用两层的CNN，根据MFCC特征设计提取的卷积核，第一层为39*11，第二层为20*11，由于频谱图的相连音素具有较强的关系，因此采用较大的卷积核能够较好的保留语音信息，通过加入采样的步幅，能够去除冗余。

编码阶段：将样本语音特征输入至语音识别模型中的双向长短时记忆网络，输出样本语义信息。

例如，利用7层的双向长短时记忆网络获取语音特征中的样本语义信息。

解码阶段：将样本语义信息输入至注意力机制模型，输出样本预测文字，基于样本预测文字确定注意力损失(Attention Loss)；同时，将样本语义信息输入至连接者时间分类模型，输出连接者时间分类损失(CTC Loss)。

例如，将样本语义信息分别输入到Attention Mechanism模型和CTC模型中，两个解码方式不共享同一个语义信息。其中，Attention Mechanism模型是结合Ngram统计模型与解码产生的语义信息，输入到BiLSTM中，得到预测文字，最终得出Attention Loss；而CTC模型是通过全连接网络和softmax输入到CTC损失函数模型进行解码，获得CTC Loss。

反馈阶段：根据注意力损失和连接者时间分类损失，利用反向传播算法确定语音识别模型的参数。

注意力损失和连接者时间分类损失反映了预测结果和真实文字的损失值。

基于上述任一实施例，进一步地，将所述样本语义信息输入至所述注意力机制模型，输出第一样本预测文字，具体包括：

具体来说，在本发明实施例中，Attention Mechanism模型由BiLSTM和Ngram的结合构成。将样本语义信息输入至注意力机制模型，输出第一样本预测文字的具体步骤如下：

首先，将样本语义信息和Ngram统计模型向量根据序列长度进行循环拼接。

然后，将拼接后的向量输入至双向长短期记忆网络，输出样本预测文字。

图3为本发明实施例提供的注意力机制模型的结构示意图，如图3所示，AttentionMechanism模型采用BiLSTM和Ngram的结合，而不和其他解码器共享一个隐层，将Ngram的向量值通过归一化操作后，将编码阶段得到的语义向量和Ngram向量根据序列长度进行循环拼接，然后输入到BiLSTM，得到预测向量。

通过Ngram统计模型的补充，能够较好的提高句子的连贯性，语音中的音素信息和语义信息是息息相关的，通过循环拼接的方式能够很好的获得语音信息和文本信息的关联，对其中Ngram进行L2 Norm能够加速整个训练速度，降低过拟合的风险。

基于上述任一实施例，进一步地，基于所述第一样本预测文字确定注意力损失，具体包括：

具体来说，如图3所示，基于第一样本预测文字确定注意力损失的具体步骤如下：

首先，将第一样本预测文字输入至全连接神经网络FC，输出调整维度后的第一样本预测文字。

然后，将调整维度后的第一样本预测文字输入至Softmax回归模型，输出注意力损失。

基于上述任一实施例，进一步地，将所述样本语义信息输入至所述连接者时间分类模型，输出连接者时间分类损失，具体包括：

具体来说，在本发明实施例中，连接者时间分类模型由全连接神经网络FC、Softmax回归模型和连接者时间分类损失函数CTC Loss模型构成。

如图2所示，将样本语义信息输入至连接者时间分类模型，输出连接者时间分类损失的具体步骤如下：

首先，将样本语义信息输入至全连接神经网络，输出样本预测文字。

然后，将样本预测文字输入至Softmax回归模型，输出归一化后的样本预测文字。

最后，将归一化后的样本预测文字输入至连接者时间分类损失函数模型，输出连接者时间分类损失。

CTC模型是语音识别常用的一种损失函数计算方式，能够预测每一帧的文字信息，但是容易忽略前后语音特征的联系，因此加入Attention Mechanism能够较好的缓解这个问题，提高识别准确率。

基于上述任一实施例，进一步地，根据所述注意力损失和所述连接者时间分类损失，利用反向传播算法确定所述语音识别模型的参数，具体包括：

具体来说，在本发明实施例中，利用注意力损失和连接者时间分类损失的加权求和，反映了预测结果和真实文字的总的损失值(Total Loss)。

通过Attention Mechanism模型和CTC模型解码分别得到两个损失Loss，单一的Loss反向传播在一定程度上都会有语义信息的损失，混合型的Loss能够相互补充语义信息。在训练中，数据会出现数字与字母，因此构造词典时是通过字的形式构造，能够使得数据分布变得相对平滑，进而使得解码器的每个BiLSTM单元的输入特征包含更多的语音上下文特征信息。

经过BiLSTM获得的语义信息，通过Attention Mechanism模型和CTC模型解码得到两个Loss，利用权重相加的方式结合起来。在一开始时，将Attention Loss的权重调小，而将CTC Loss的权重调大，使得整个模型解码朝CTC偏离，在训练过程中，由于AttentionMechanism模型的作用较大，CTC模型能够起到平衡Attention Mechanism的作用，使得语音识别模型更快收敛。

在训练模型中，学习率采取基于验证集的自适应下降，选取最好的模型。

通过BiLSTM和混合解码的方式进行语音识别，克服了传统深层神经网络的梯度弥散或梯度爆炸的问题，并且在结果上也优于深层神经网络，使用混合解码能够较强的加入语义信息，提高整个识别的准确率。

基于上述任一实施例，图4为本发明实施例提供的语音识别装置的示意图，如图4所示，本发明实施例提供一种语音识别装置，包括获取模块401和识别模块402，其中：

获取模块401用于获取待识别语音数据的频谱图；识别模块402用于将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果；其中，所述语音识别模型是基于语音样本以及预先确定的语音样本对应的文字，利用注意力机制模型和连接者时间分类模型作为混合解码器进行训练后得到。

本发明实施例提供一种语音识别装置，用于执行上述任一实施例中所述的方法，通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同，此处不再赘述。

本发明实施例提供的语音识别装置，采用注意力机制模型和连接者时间分类模型作为混合解码器，对语音识别模型进行训练，解决了训练过程中梯度消失的问题，避免了词典数据量过大加剧消耗时间，提升了识别效率，提高了长句的识别效果。

图5为本发明实施例提供的电子设备的结构示意图，如图5所示，该电子设备包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501和存储器502通过总线503完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：

获取待识别语音数据的频谱图；

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例中的步骤，例如包括：

获取待识别语音数据的频谱图；

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述各方法实施例中的步骤，例如包括：

获取待识别语音数据的频谱图；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别语音数据的频谱图；

2.根据权利要求1所述的语音识别方法，其特征在于，将所述待识别语音数据的频谱图输入至语音识别模型，输出所述待识别语音数据对应的文字识别结果，具体包括：

3.根据权利要求1所述的语音识别方法，其特征在于，对所述语音识别模型进行训练的具体步骤如下：

4.根据权利要求3所述的语音识别方法，其特征在于，将所述样本语义信息输入至所述注意力机制模型，输出第一样本预测文字，具体包括：

5.根据权利要求3所述的语音识别方法，其特征在于，基于所述第一样本预测文字确定注意力损失，具体包括：

6.根据权利要求3所述的语音识别方法，其特征在于，将所述样本语义信息输入至所述连接者时间分类模型，输出连接者时间分类损失，具体包括：

7.根据权利要求3所述的语音识别方法，其特征在于，根据所述注意力损失和所述连接者时间分类损失，利用反向传播算法确定所述语音识别模型的参数，具体包括：

8.一种语音识别的装置，其特征在于，包括：

获取模块，用于获取待识别语音数据的频谱图；

9.一种电子设备，包括存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述语音识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至7任一所述语音识别方法的步骤。