CN110648655B

CN110648655B - 一种语音识别方法、装置、系统及存储介质

Info

Publication number: CN110648655B
Application number: CN201910859397.2A
Authority: CN
Inventors: 崔潇潇; 郎芬玲
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2022-03-01
Anticipated expiration: 2039-09-11
Also published as: CN110648655A

Abstract

本发明实施例公开了一种语音识别方法、装置、系统及存储介质，涉及语音处理领域，所述方法包括：采集语音样本数据集；获取所述语音样本数据集的语音特征图像；对所述语音特征图像进行标定；利用训练网络对标定后的所述语音特征图像进行训练，得到语音识别模型；利用所述语音识别模型对待识别语音信息进行识别。本发明实施例能够提高语音识别技术的准确率。

Description

一种语音识别方法、装置、系统及存储介质

技术领域

本发明实施例涉及语音处理领域，具体涉及一种语音识别方法、装置、系统及存储介质。

背景技术

长久以来，语音作为人类特有的能力备受关注，它是人类之间交流以及人类获取外界信息资源的最重要的工具和渠道。随着移动互联网的不断发展，人与计算机以及人与移动设备的自由交互越来越被重视。语音作为人类重要的交流工具被首要考虑融入移动互联网领域，它主要包括三项技术：语音识别、语音编码和语音合成。其中，语音识别指的是将语音翻译成文字，它是人机交互分支中的一个重要组成，是实现人类与智能设备交互的关键方法与技术，使得机器能够听懂人类的语言，近一步推动了人工智能的发展。语音识别从发展到现在，已经融入了人类生活的方方面面，例如语音搜索、语音打字、语音控制机器人等，给人类的生活带来了极大的便利。

自20世纪70年代发展以来，语音识别一直以隐马尔科夫模型(HMM)为基础，但识别效果并不理想。直到21世纪初期，高斯混合隐马尔科夫模型(GMM-HMM)的出现极大地降低了语音识别的错误率，但仍然离商业化标准较远。近年来，随着深度学习的热潮再次涌起，基于深度神经网络的语音识别系统也随之火热，不仅在已有的最好系统基础上将错误率再次减低30％甚至更多，而且由于计算机基础设备的发展和大数据的产生，语音识别已经成为了具有商业标准的前沿技术。

虽然语音识别技术目前已经相当成熟，但是在真实场景中，环境噪声、语音模糊性、口音等影响，为语音识别带来极大的挑战，致使识别率低。

发明内容

本发明实施例的目的在于提供一种语音识别方法、装置、系统及存储介质，用以解决现有语音识别准确率不高的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，

所述方法包括：采集语音样本数据集；获取所述语音样本数据集的语音特征图像；对所述语音特征图像进行标定；利用训练网络对标定后的所述语音特征图像进行训练，得到语音识别模型；利用所述语音识别模型对待识别语音信息进行识别。

进一步地，在获取所述语音样本数据集的语音特征图像之前，所述方法包括：对所述语音样本数据集进行预处理，获取所述语音样本数据集的语音特征图像的方法包括：滤波器组FilterBank或MFCC梅尔频率倒谱系数或短时傅里叶变换STFT。

进一步地，对所述语音特征图像进行标定的过程中，标定的识别目标包括目标语种的音素或音节或词或短语，并标记识别目标的起始位置、终止位置以及对应的类别信息。

进一步地，所述方法包括：采用分类任务损失对所述识别目标的类别信息进行判断，并采用图像目标检测方法对所述识别目标的位置进行预测。

进一步地，利用训练网络对标定后的所述语音特征图像进行训练的方法包括：根据训练迭代次数动态设置学习率；利用训练网络对所述语音特征图像进行前向运算；批量梯度下降更新模型参数，进行反向运算；获取loss曲线，并判断所述loss曲线是否收敛，若所述loss曲线收敛，则结束训练，得到语音识别模型。

第二方面，本发明实施例还提供一种语音识别装置，

所述装置包括：语音处理单元，用于提取所述语音样本数据集的语音特征图像；标定单元，用于对所述语音特征图像进行标定；模型训练单元，用于利用训练网络对标定后的所述语音特征图像进行训练，得到语音识别模型。

进一步地，所述系统包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行一种语音识别方法。

进一步地，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种语音识别系统执行一种语音识别方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例通过提取语音信号的图像特征，获取识别目标的起止时间信息对应的起始位置、终止位置以及对应的类别信息，在时间维度上，识别目标之间没有重叠的部分，使用repulsionloss损失函数，解决预测框与相邻真实目标框重叠问题，以及预测框与预测框之间的重叠问题，从而提高算法准确率，使本发明具有较高的语音识别效果。

附图说明

图1为本发明实施例提供的一种语音识别方法的步骤图。

图2为本发明实施例提供的一种语音识别装置的结构示意图。

图3为本发明实施例提供的一种语音识别系统的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例1

本发明实施例提供一种语音识别方法，上述方法主要包括：

S1、采集语音样本数据集；

具体地，可以采用拾音器对各种工作现场或社会环境中的声音进行采集，实际操作中可根据需要采集不同分贝，不同语种的语言等。

S2、获取所述语音样本数据集的语音特征图像；

具体地在获取所述语音样本数据集的语音特征图像之前，还包括对语音样本数据集进行预处理，具体的预处理包括降噪、预加重、分帧、加窗等预处理操作。这些操作的目的是消除声音和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。具体地处理过程为现有技术，在此不做过多赘述。

再采用包括但不限于滤波器组FilterBank，或MFCC，Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数，或短时傅里叶变换STFT，short time fouriertransform，等方法来获取语音样本数据集的语音特征图像。

在一个具体的例子中，可以通过以下步骤来获取语音特征图像；

a.预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响；

b.分帧：根据语音的短时平稳特性，语音可以以帧为单位进行处理，优选地的语音帧长为32ms，帧移为16ms。

c.加窗：采用汉明窗对一帧语音加窗，以减小吉布斯效应的影响，汉明窗或海明窗，是一个窗函数，这个函数在某一区间有非零值，而在其余区间皆为0。这是为了方便做快速傅里叶变换。

d.快速傅立叶变换(Fast Fourier Transformation,FFT)：将时域信号变换成为信号的功率谱。

e.梅尔滤波器组：用一组Mel频标上线性分布的三角窗滤波器，对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。一般取40个三角滤波器，取对数后即40维fbank。

f.求对数：三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果。

g.离散余弦变换(Discrete Cosine Transformation,DCT，可选)：去除各维信号之间的相关性，将信号映射到低维空间，若去除这一步，得到的则是Filter Bank特征，因为DNN模型可以学习特征间的相关性，因此不需要去相关性的操作。

以上步骤可以得到MFCC或Filter Bank的特征图。

S3、对所述语音特征图像进行标定；

具体地，由于语音中最小的基本单位是音素，音素构成音节，音节又构成不同的词和短语。因此对语音特征图像进行标定的过程中，标定的识别目标包括目标语种的音素或音节或词或短语，目标语种的类别可以是不同类型的语种，并标记识别目标的起始位置、终止位置以及对应的类别信息。

识别目标的起始位置、终止位置指的是声音的开始和结束时间，采用分类任务损失对识别目标的类别信息进行判断，例如采用损失函数Softmaxloss进行判断，Softmaxloss公式为：

并采用目标检测方法对识别目标的位置进行预测，识别目标预测框的坐标，计算每一个训练样本边框回归任务的损失，例如采用repulsionloss损失函数，表达式为：

L^repulsion＝L_Attr+α*L_RepGT+β*L_RepBox

repulsionloss损失函数共包含三部分，第一部分为预测框与真实目标框所产生的损失值L_Attr；第二部分为预测框与相邻真实目标框所产生的损失值L_RepGT；第三部分为预测框与相邻不是预测同一真实目标的预测框所产生的损失值L_RepBox。通过两个相关系数α和β平衡两部分repulsion损失值。优选地α和β都设置为0.5。

总的损失函数为各个任务的损失函数通过不同的权重加权求和，即：

其中，N表示训练样本的数量。λ₁、λ₂分别表示不同loss的权重。

S4、利用训练网络对标定后的语音特征图像进行训练，得到语音识别模型；

具体地，学习率作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。因此首选需要根据训练迭代次数动态设置学习率；

然后，利用训练网络对所述语音特征图像进行前向运算；然后再根据批量梯度下降更新模型参数，进行反向运算；该训练网络可以是针对于区域的Faster R-CNN、FPN等，基于端到端的YOLO和SSD等。基础网络可以是VGG、inception、resnet等，但不局限于这些网络。

获取步骤S3中的总的损失函数loss曲线，并判断所述loss曲线是否收敛，若该loss曲线收敛，则表示算法准确率满足需求结束训练，得到语音识别模型。

S5、利用语音识别模型对待识别语音信息进行识别。

在实际操作中可以将待识别语音信息输入该语音识别模型，获得待识别语音信息的位置和类别，进行识别。

实施例2

与上述实施例对应的，本实施例提供一种语音识别装置，该装置包括：

语音处理单元1，用于提取语音样本数据集的语音特征图像；

标定单元2，用于对语音特征图像进行标定，采用分类任务损失对识别目标的类别信息进行判断，并采用目标检测方法对识别目标的位置进行预测。

模型训练单元3，用于利用训练网络对标定后的所述语音特征图像进行训练，得到语音识别模型。

本实施例提供的装置的各部件所执行的功能均在实施例1中有详细描述，因此不再赘述。

实施例3

与上述实施例对应的，本实施例提供一种语音识别系统，该系统包括：至少一个处理器5和至少一个存储器4；

存储器4用于存储一个或多个程序指令；

处理器5，用于运行一个或多个程序指令，用以执行一种语音识别方法。

实施例4

与上述实施例对应的，本实施例提供一种计算机可读存储介质，计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种语音识别系统执行一种语音识别方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific工ntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

采集语音样本数据集；

获取所述语音样本数据集的语音特征图像；

对所述语音特征图像进行标定；其中，标定的识别目标包括音素或音节或词或短语，目标语种的类别是语种类别，并标记识别目标的起始位置、终止位置，基于各个任务的损失函数建立总的损失函数：

其中，N表示训练样本的数量，λ₁、λ₂分别表示不同loss的权重，

表示第i个训练样本的边框回归任务的损失函数，

表示第i个训练样本的类别信息的判断结果；

利用训练网络对标定后的所述语音特征图像进行训练，得到语音识别模型；

利用所述语音识别模型对待识别语音信息进行识别。

2.如权利要求1所述的一种语音识别方法，其特征在于，在获取所述语音样本数据集的语音特征图像之前，所述方法包括：对所述语音样本数据集进行预处理，获取所述语音样本数据集的语音特征图像的方法包括：滤波器组FilterBank或MFCC梅尔频率倒谱系数或短时傅里叶变换STFT。

3.如权利要求1所述的一种语音识别方法，其特征在于，对所述语音特征图像进行标定的过程中，标定的识别目标包括音素或音节或词或短语，并标记识别目标的起始位置、终止位置以及对应的类别信息。

4.如权利要求3所述的一种语音识别方法，其特征在于，所述方法包括：采用分类任务损失对所述识别目标的类别信息进行判断，并采用目标检测方法对所述识别目标的位置进行预测。

5.如权利要求1所述的一种语音识别方法，其特征在于，利用训练网络对标定后的所述语音特征图像进行训练的方法包括：

根据训练迭代次数动态设置学习率；

利用训练网络对所述语音特征图像进行前向运算；

批量梯度下降更新模型参数，进行反向运算；

获取loss曲线，并判断所述loss曲线是否收敛，若所述loss曲线收敛，则结束训练，得到语音识别模型。

6.一种语音识别装置，其特征在于，所述装置包括：

语音处理单元，用于提取语音样本数据集的语音特征图像；

标定单元，用于对所述语音特征图像进行标定；其中，标定的识别目标包括音素或音节或词或短语，目标语种的类别是语种类别，并标记识别目标的起始位置、终止位置，基于各个任务的损失函数建立总的损失函数：

表示第i个训练样本的边框回归任务的损失函数，

表示第i个训练样本的类别信息的判断结果；

模型训练单元，用于利用训练网络对标定后的所述语音特征图像进行训练，得到语音识别模型。

7.一种语音识别系统，其特征在于，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种语音识别系统执行如权利要求1-5任一项所述的方法。