CN116343769A

CN116343769A - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN116343769A
Application number: CN202310308200.2A
Authority: CN
Inventors: 赵晴
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-06-27
Anticipated expiration: 2043-03-27
Also published as: CN116343769B

Abstract

本发明提供了一种语音识别方法、装置、电子设备及存储介质，其中，一种语音识别方法包括：获取音频数据；对所述音频数据进行特征提取，得到音频特征信息；将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵；将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵；根据所述第二概率矩阵进行损失计算，并得到语音识别模型；利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。本发明可解决现有语音识别在数字信号处理器等硬件设备上的识别不准确的缺陷的技术问题。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音识别是指将语音转换为文本。语音识别可以分为流式语音识别和非流式语音识别。非流式语音识别是等待整条语音输入后再进行语音识别，一次性输出整条语音输入对应的文本。流式语音识别是实时对输入的语音进行语音识别，实时输出语音识别结果。在数字信号处理器(Digital Signal Processor，DSP)等硬件设备上，由于其支持的Snpe、Tflite等模型仅支持定长模型，所以需要训练定长模型，也可以说是流式模型。支持流式的结构，如FullyConnect，只考虑当前帧或固定长度窗口的拼帧，循环神经网络(RecurrentNeural Networks,RNN)、长短期记忆递归神经网络(Long Short Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)等只考虑上文，卷积神经网络(ConvolutionalNeural Network，CNN)、时间延迟神经网络(Time-Delay Neural Network，TDNN)等只考虑有限的上下文窗口，识别准确度较低。不支持流式的结构，如BLSTM、Self-Attention等模型结构，期望上下文越多越好，为了让这一类模型具备只考虑有限上下文的建模能力，一般修改模型训练方式，使用固定的Chunk，在序列建模的框架下，利用Mask来掩蔽特征来单纯地建模局部信息，相当于对音频进行了切片，忽略了各个切片之间的联系，导致预测不准确。

故而如何实现语音识别在DSP等硬件设备上的识别准确度成为亟待解决的技术问题。

发明内容

因此，本发明要解决的技术问题在于克服现有语音识别在DSP等硬件设备上的识别不准确的缺陷的技术问题，从而提供一种语音识别方法、装置、电子设备及存储介质。

第一方面，本发明实施例公开了一种语音识别方法，包括：获取音频数据；对所述音频数据进行特征提取，得到音频特征信息；将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵，其中，在所述训练过程中将所述音频特征信息以预设长度的音频片段进行输入，并利用重叠保留法进行训练，所述第一概率矩阵中包括有效音频时间的概率及无效音频时间的概率；将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵；根据所述第二概率矩阵进行损失计算，并得到语音识别模型；利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。

本发明提供的语音识别方法，通过在训练过程中将音频特征信息拆分为多个预设长度的音频片段，并利用重叠保留法进行训练，使得在语音识别模型训练或者识别中可以考虑上下文信息，提高语音识别模型的识别准确度；同时利用Mask掩码对输出第一概率矩阵进行处理，使得音频数据中有效音频时间的概率得以保留，从而得到有效概率矩阵，避免无效音频时间内的语音由于缺少下文信息导致的识别不准确，进一步提高语音识别模型的识别准确度。

可选地，所述根据所述第二概率矩阵进行损失计算，包括：将所述损失值进行梯度回传；基于回传的损失值，调整所述待训练语音识别模型中参数。

可选地，所述利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果，包括：获取待识别音频数据；将所述待识别音频数据输入所述语音识别模型中；根据所述语音识别模型的输出结果确定所述待识别音频数据的内容。

可选地，所述根据所述语音识别模型的输出结果确定所述待识别音频数据的内容，包括：获取所述语音识别模型的输出结果中对应每一种音频数据的概率；将最大概率对应的音频内容作为最终输出结果。

第二方面，本发明实施例还公开了一种语音识别装置，包括：第一获取模块，用于获取音频数据；第一提取模块，用于对所述音频数据进行特征提取，得到音频特征信息；第一输入模块，用于将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵，其中，在所述训练过程中将所述音频特征信息以预设长度的音频片段进行输入，并利用重叠保留法进行训练，所述第一概率矩阵中包括有效音频时间的概率及无效音频时间的概率；第一处理模块，用于将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵；第一计算模块，用于根据所述第二概率矩阵进行损失计算，并得到语音识别模型；第一识别模块，用于利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。

第三方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的语音识别方法的步骤。

第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的语音识别方法的步骤。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中语音识别方法的一个具体示例的流程图示意图；

图2为本发明实施例中语音识别方法的一个具体语音识别模型示例的训练过程示意图；

图3为本发明实施例中语音识别装置的一个具体示例的原理框图；

图4为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书提供的语音识别方法，可以应用于DSP等电子设备中。该电子设备可以但不限包括语音接收模块、语音识别模块、语音播放模块以及输出模块等。语音识别模块包含有本说明书提供的语音识别方法的程序。该电子设备可以应用于任一待进行音频识别的场景中，实现将待识别音频转换为文本，或者进行语音交互等功能。

下面对本申请实施例提供的技术方案进行详细说明。

本发明实施例公开了一种语音识别方法，如图1所示，该方法包括如下步骤：

步骤110，获取音频数据。

示例性地，音频数据中可以包括有多种音频数据类型，需要说明的是，在未做额外说明的情况下，本公开所涉及到的音频数据的类型包括但不限于是某一国家的语言(如：中文、英文、法文等)，也可以是某一地区的方言(如：四川话、广东话等)等。具体的音频数据类型可以根据所构建的语音识别模型应用场景进行选择。

音频数据可以包括但不限于来自于开源音频数据库的数据，或者也可以通过对收集到的数据进行数据增强来获取足够数据，用于对语音识别模型进行训练。

步骤120，对所述音频数据进行特征提取，得到音频特征信息。

示例性地，音频数据进行特征提取的方式较多，也相对成熟，具体的步骤如：预加重、分帧加窗、离散傅里叶变换(Discrete Fourier Transform，DFT)、梅尔滤波器组、对数运算、离散余弦变换(Discrete Cosine Transform，DCT)及梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)，此处不再赘述。

时域音频特征包括但不限于音色、音量、噪音、语速、发音(或声学)特征等，部分音频特征并非语音识别模型训练所需，所以在对音频数据进行特征提取时，将时域音频数据变换到频域后，会对音频特征进行提纯处理，提取出反映音频数据的关键特征作为目标音频特征，构成目标音频特征数据集，用于对待训练语音识别模型进行训练，使得训练所得语音识别模型更具有针对性，提高语音识别模型识别预测的准确性。

步骤130，将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵，其中，在所述训练过程中将所述音频特征信息以预设长度的音频片段进行输入，并利用重叠保留法进行训练，所述第一概率矩阵中包括有效音频时间的概率及无效音频时间的概率。

示例性地，将音频特征信息输入至待训练语音识别模型，利用音频特征信息对待训练语音识别模型进行迭代训练，输出第一概率矩阵。在训练过程中将音频特征信息以预设长度的音频片段进行输入，可以用于训练定长语音识别模型，预设长度的设置本领域技术人员可以根据实际需要进行设置，此处不做限制。利用重叠保留法对待训练语音识别模型进行训练，使得音频片段之间存在Overlap，片段边缘处具有上文/下文信息，从而提高语音识别模型的预测准确度。有效音频时间具体指当前需要识别的音频，不包括音频片段中overlap的部分以及当前片段中缺少下文信息的部分等无效音频时间。具体地，如图2所示，将一段总长为7的音频数据，按照预设长度为4的音频片段，输入至待训练语音识别模型，图中黑色块代表无效音频时间，斜条纹块代表有效音频时间。由于最后输入的预设长度的语音片段最后一部分已经没有下文，虽然会缺少下文信息，但不需要遮掩掉，语音识别模型直接该部分的预测结果即可。

步骤140，将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵。

示例性地，Mask掩码为可以根据实际需要进行设置的矩阵，用于将第一概率矩阵中无效音频时间的概率遮蔽，只保留有效音频时间对应的概率，生成第二概率矩阵。

步骤150，根据所述第二概率矩阵进行损失计算，并得到语音识别模型。

示例性地，第二概率矩阵与标签进行比较，计算第二概率矩阵与label之间的损失值，直到满足预设条件，如损失值小于预设阈值等，得到语音识别模型。具体地，语音识别模型结构可以采用BLSTM、Self-Attention等模型结构。

步骤160，利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。

示例性地，语音识别模型可以应用于DSP等硬件设备上，DSP等硬件设备将输入的音频数据的长度限定到预设长度。

作为本发明一个可选实施方式，所述根据所述第二概率矩阵进行损失计算，包括：

将所述损失值进行梯度回传。

基于回传的损失值，调整所述待训练语音识别模型中参数。

示例性地，语音识别模型基于损失值对相应参数进行调整，直到满足预设条件，如连续预设次数的迭代周期内的损失值不再下降。具体地，如以预设次数为3次为例，即对语音识别模型进行迭代训练，直到损失值连续三个Epoch不下降。

本发明提供的语音识别方法，通过计算语音识别模型的损失值，并将损失值进行梯度回传，基于回传的损失值，调整语音识别模型中参数，得到满足识别精度和准确率的语音识别模型。

作为本发明一个可选实施方式，所述利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果，包括：

获取待识别音频数据。

示例性地，该待识别音频数据可以是在任一待进行音频识别的场景采集到的数据，如智能语音通话场景。

将所述待识别音频数据输入所述语音识别模型中。

根据所述语音识别模型的输出结果确定所述待识别音频数据的内容。

示例性地，针对输入的待识别音频数据，己经训练好的语音识别模型建立识别网络，将待识别的音频数据的音频特征同语音识别模型进行匹配，根据搜索算法在该网络中寻找可能的路径，得到待识别音频数据的内容。

本发明提供的语音识别方法，通过语音识别模型将待识别音频数据识别为文本，可应用于多种场景以及领域来提高工作效率。

作为本发明一个可选实施方式，所述根据所述语音识别模型的输出结果确定所述待识别音频数据的内容，包括：

获取所述语音识别模型的输出结果中对应每一种音频数据的概率。

示例性地，针对输入的待识别音频数据，己经训练好的语音识别模型建立识别网络，将待识别的音频数据的音频特征同语音识别模型进行匹配，根据搜索算法在该网络中寻找可能的路径，不同的路径所对应的概率大小不同。计算每一种音频内容的概率的算法相对成熟，具体不再赘述。作为一可选实施方式，每一种音频内容的概率可以但不限于将音频内容在统计中的使用频率作为一个参考量。具体地，以将普通话音频识别为文本为例。在普通话中有很多同音不同字的现象，但是在使用频率上会有不同，所以在同一音频数据可能对应多种具体内容时，语音识别模型在输出这些内容时，可以将不同内容在统计中的使用频率作为一个参考量。

将最大概率对应的音频内容作为最终输出结果。

示例性地，根据搜索算法在语音识别模型网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该音频数据的内容，选取最大概率对应的音频类型作为最终输出结果。

本发明提供的语音识别方法，通过选取最大概率对应的音频类型作为最终输出结果，使得识别结果可靠性更高。

本发明实施例还公开了一种语音识别装置，如图3所示，该装置包括：

第一获取模块510，用于获取音频数据。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一提取模块520，用于对所述音频数据进行特征提取，得到音频特征信息。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一输入模块530，用于将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵，其中，在所述训练过程中将所述音频特征信息以预设长度的音频片段进行输入，并利用重叠保留法进行训练，所述第一概率矩阵中包括有效音频时间的概率及无效音频时间的概率。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一处理模块540，用于将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一计算模块550，用于根据所述第二概率矩阵进行损失计算，并得到语音识别模型。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一识别模块560，用于利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一回传模块，用于将所述损失值进行梯度回传。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一调整模块，用于基于回传的损失值，调整所述待训练语音识别模型中参数。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第二获取模块，用于获取待识别音频数据。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第二输入模块，用于将所述待识别音频数据输入所述语音识别模型中。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一确定模块，用于根据所述语音识别模型的输出结果确定所述待识别音频数据的内容。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第三获取模块，用于获取所述语音识别模型的输出结果中对应每一种音频数据的概率。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一输出模块，用于将最大概率对应的音频内容作为最终输出结果。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

另外，本发明实施例还提供了一种电子设备，如图4所示，该电子设备可以包括处理器3010和存储器3020，其中处理器3010和存储器3020可以通过总线或者其他方式连接，图4中以通过总线连接为例。此外，该电子设备中还包括至少一个接口3030，该至少一个接口3030可以是通信接口或其他接口，本实施例对此不做限制。

其中，处理器3010可以为中央处理器(Central Processing Unit，CPU)。处理器3010还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器3020作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的语音识别方法对应的程序指令/模块。处理器3010通过运行存储在存储器3020中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。

存储器3020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器3010所创建的数据等。此外，存储器3020可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器3020可选包括相对于处理器3010远程设置的存储器，这些远程存储器可以通过网络连接至处理器3010。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

另外，至少一个接口3030用于电子设备与外部设备的通信，比如与服务器通信等。可选的，至少一个接口3030还可以用于连接外设输入、输出设备，比如键盘、显示屏等。

所述一个或者多个模块存储在所述存储器3020中，当被所述处理器3010执行时，执行上述任一所示实施例中的语音识别方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取音频数据；

对所述音频数据进行特征提取，得到音频特征信息；

将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵，其中，在所述训练过程中将所述音频特征信息以预设长度的音频片段进行输入，并利用重叠保留法进行训练，所述第一概率矩阵中包括有效音频时间的概率及无效音频时间的概率；

将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵；

根据所述第二概率矩阵进行损失计算，并得到语音识别模型；

利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二概率矩阵进行损失计算，包括：

将所述损失值进行梯度回传；

基于回传的损失值，调整所述待训练语音识别模型中参数。

3.根据权利要求1所述的方法，其特征在于，所述利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果，包括：

获取待识别音频数据；

将所述待识别音频数据输入所述语音识别模型中；

4.根据权利要求3所述的方法，其特征在于，所述根据所述语音识别模型的输出结果确定所述待识别音频数据的内容，包括：

获取所述语音识别模型的输出结果中对应每一种音频数据的概率；

将最大概率对应的音频内容作为最终输出结果。

5.一种语音识别装置，其特征在于，包括：

第一获取模块，用于获取音频数据；

第一提取模块，用于对所述音频数据进行特征提取，得到音频特征信息；

第一输入模块，用于将所述音频特征信息输入至待训练语音识别模型进行训练，输出第一概率矩阵，其中，在所述训练过程中将所述音频特征信息以预设长度的音频片段进行输入，并利用重叠保留法进行训练，所述第一概率矩阵中包括有效音频时间的概率及无效音频时间的概率；

第一处理模块，用于将所述第一概率矩阵经过Mask掩码处理，生成第二概率矩阵，所述第二概率矩阵为有效音频时间的概率矩阵；

第一计算模块，用于根据所述第二概率矩阵进行损失计算，并得到语音识别模型；

第一识别模块，用于利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果。

6.根据权利要求5所述的装置，其特征在于，所述根据所述第二概率矩阵进行损失计算，包括：

第一回传模块，用于将所述损失值进行梯度回传；

第一调整模块，用于基于回传的损失值，调整所述待训练语音识别模型中参数。

7.根据权利要求5所述的装置，其特征在于，所述利用所述语音识别模型对待识别音频数据进行识别，得到语音识别结果，包括：

第二获取模块，用于获取待识别音频数据；

第二输入模块，用于将所述待识别音频数据输入所述语音识别模型中；

第一确定模块，用于根据所述语音识别模型的输出结果确定所述待识别音频数据的内容。

8.根据权利要求7所述的装置，其特征在于，所述根据所述语音识别模型的输出结果确定所述待识别音频数据的内容，包括：

第三获取模块，用于获取所述语音识别模型的输出结果中对应每一种音频数据的概率；

第一输出模块，用于将最大概率对应的音频内容作为最终输出结果。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器与所述处理器耦合；

所述存储器上存储有计算机可读程序指令，当所述指令被所述处理器执行时，实现如权利要求1至4任一所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音识别方法。