CN109147775A

CN109147775A - 一种基于神经网络的语音识别方法及装置

Info

Publication number: CN109147775A
Application number: CN201811212495.9A
Authority: CN
Inventors: 饶竹; 饶竹一; 张云翔
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-01-04

Abstract

本发明提供一种基于神经网络的语音识别方法及装置，所述方法包括对获取的待识别语音信号分帧处理，获得所述待识别语音信号的语音帧特征向量矩阵；利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号对应的文字；解析所述待识别语音信号对应的文字得到目标语义；根据所述目标语义，启动与所述目标语义对应的第三方程序。本发明通过人工智能学习的方法进行语音识别，解决了现有技术只能机械地识别语音信息库中已有的信息，无法准确识别一些口音不准或者模糊的语音命令的问题。

Description

一种基于神经网络的语音识别方法及装置

技术领域

本发明涉及技术领域，尤其涉及一种基于神经网络的语音识别方法及装置。

背景技术

语音识别由于其重要的理论价值与广阔的应用前景,受到人们的广泛重视。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型与动态时间规整等技术。随着研究的逐步深入,人们发现语音是一个复杂的非线性过程,基于线性系统理论的语音识别方法的局限性越来越凸显。语音识别若要取得突破,必须引入非线性理论的方法。近年来,人工神经网络、混沌、分形等非线性理论研究和应用的逐渐深入,将这些理论应用于语音识别成为可能。因此，针对以上问题设计基于神经网络的语音识别方法及装置是十分必要的。

将深度学习用于语音识别，目前己经获得了长足的进步。以下介绍几种深度学习：

深度神经网络(Deep Neural Networks，简称DNNs)：该网络提取出的特征有较强的区分性，因此训练出的模型具有较强的区分能力，这种网络通常采用深度信念网络(DeepBelief Network，简称DBN)用作预训练过程，采用DNN-HMM混合网络训练声学模型，在大词汇量语音识别系统中有较广泛的应用。

卷积神经网络(Convolutional Neural Networks，简称CNNs)：相比于DNNs，引入了卷积和池化的概念。通过卷积实现对语音特征局部信息的抽取，再通过池化加强模型对特征的鲁棒性。在明显降低模型规模的同时，识别性能更好，且泛化能力更强。

递归神经网络(Recurrent Neural Networks，简称RNN)：目前在语音识别领域最常用的深度网络模型是RNN，它是一种序列模型，它在神经网络的基础上，考虑相邻语音帧的隐含层单元之间的连接关系，通过按时间反向传播误差调整网络参数训练网络。RNN的分布式隐藏状态能有效存储之前的信息，并且作为非线性动态系统能够使其隐藏层单元以一种复杂的方式更新，结合了这两种特性，使它能够通过递归层识别潜在的时间依赖关系，进行语音识别的任务。

联结时间分类(Connectionist Temporal Classification，简称CTC)：是一种对齐模型，能够将深度网络输出与标签文本对齐，计算所有可能路径的概率和作为整个句子的概率，使用CTC能够使得我们不需要对样本进行预先的分割或者后处理，大幅提高了效率。

然而，目前的语音识别技术只能机械地识别语音信息库中已有的信息，无法准确识别一些口音不准或者模糊的语音命令，因此容易出现误操作或者误识别或者无法识别，从而限制了语音技术的广泛应用，用户体验效果不佳。

发明内容

为解决上述技术问题，本发明提供一种基于神经网络的语音识别方法及装置。

本发明提供的一种基于神经网络的语音识别方法，所述方法包括：

对获取的待识别语音信号分帧处理，获得所述待识别语音信号的语音帧特征向量矩阵；

利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号对应的文字；

解析所述待识别语音信号对应的文字得到目标语义；

根据所述目标语义，启动与所述目标语义对应的第三方程序。

进一步地，采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别，获得与语音帧特征向量矩阵对应的状态标签矩阵；

采用解码模型对上述状态标签矩阵进行解码，以得到待识别语音信号对应的文本。

进一步地，解析所述待识别语音信号对应的文字得到目标语义具体包括：

将待识别语音信号对应的文字组成至少两种文本语义；

按照预定的评分规则，根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分；

获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。

进一步地，根据所述目标语义，启动与所述目标语义对应的第三方程序具体包括：

根据目标语义确定第三方应用对象；

根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系，启动与目标语义对应的第三方程序。

进一步地，所述方法还包括：

判断目标语义的类型，若目标语义为语音操作控制指令类型，则所述第三方应用程序根据所述语音操作控制指令执行相应的操作；

若目标语义为语音文本输入指令，则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。

本发明提供的一种基于神经网络的语音识别装置，所述装置包括：

处理模块，用于对获取的待识别语音信号分帧处理，获得所述待识别语音信号的语音帧特征向量矩阵；

识别模块，用于利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号对应的文字；

解析模块，用于解析所述待识别语音信号对应的文字得到目标语义；

启动模块，用于根据所述目标语义，启动与所述目标语义对应的第三方程序。

进一步地，所述识别模块具体用于：

采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别，获得与语音帧特征向量矩阵对应的状态标签矩阵；

进一步地，所述解析模块具体用于：

将待识别语音信号对应的文字组成至少两种文本语义；

进一步地，所述启动模块具体用于：

根据目标语义确定第三方应用对象；

进一步地，所述装置还包括执行模块，所述执行模块具体用于：

实施本发明，具有如下有益效果：

本发明通过人工智能方式训练的卷积神经网络，对获取的语音信号进行识别，并且将获取的语音信号对应文本的连贯性和自然性进行评分得到目标语义，解决了现有技术只能机械识别语音信息库已有的信息，无法准确地识别一些口音不准或者模糊的语音命令的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于神经网络的语音识别方法的流程图。

图2是本发明实施例提供的基于神经网络的语音识别装置的结构图。

具体实施方式

本专利核心内容为利用训练好的卷积神经网络识别语音，以下结合附图和实施例对该方法和装置具体实施方式做进一步说明。

下面将详细描述本发明提供的一种基于神经网络的语音识别方法及装置的实施例。

如图1所示，本发明实施例提供了一种基于神经网络的语音识别方法，所述方法包括：

步骤S101、对获取的待识别语音信号分帧处理，获得所述待识别语音信号的语音帧特征向量矩阵。

在本发明实施例中，可以将待识别语音信号划分为若干语音帧，针对每一个语音帧，计算其梅尔频率倒谱系数以及该梅尔频率倒谱系数的一阶差分和二阶差分，并将该梅尔频率倒谱系数与其一阶差分和二阶差分连接起来，作为该语音帧的特征向量。假定待识别语音信号划分为m个语音帧，语音帧为n维的，因此分帧后获得的语音帧特征向量矩阵（m×n，m为帧数）。

步骤S102、利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号所对应的文字。

具体地，采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别，获得与语音帧特征向量矩阵对应的状态标签矩阵；采用解码模型对上述状态标签矩阵进行解码，以得到待识别语音信号对应的文本。

步骤S103、解析所述待识别语音信号对应的文字得到目标语义。

具体地，仅仅得到待识别语音信号对应的文字只是得到组成元素，需要将文字进行解析得到目标语义，该目标语义符合待识别语音信号所表达的真正意思；将待识别语音信号对应的文字组成至少两种文本语义，按照预定的评分规则，根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。

例如解析得到两种文本语义，一种是“请把铅笔放在我座位上”，另一种是“请放铅笔在我的座位上”，应该来说语义连贯性来看第一种更好些。

步骤S104、根据目标语义，启动与目标语义对应的第三方程序。

具体地，根据目标语义确定第三方应用对象，根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系，启动与目标语义对应的第三方程序。

需要说明的是，第三方应用注册表中记载了第三方应用对象与第三应用程序的对应关系；目标语义确定第三应用对象的方法是，在目标语义中搜索关键词作为第三方应用对象，例如出现了太太，则第三方应用对象为太太，进一步调用呼叫程序对太太进行呼叫，例如出现了关键词扫地，则第三方应用对象为扫地，进一步调用机器人控制程序控制机器人扫地，若目标语音为谢谢等简单陈述，则调用输入程序输入谢谢文本。

进一步地，判断目标语义的类型，若目标语义为语音操作控制指令类型，则所述第三方应用程序根据所述语音操作控制指令执行相应的操作；若目标语义为语音文本输入指令，则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。

具体地，判断目标语义的类型关键是在目标语义中搜索是否存在预存的执行词，例如接、扫等；例如目标语义为“太太下班接孩子”，根据预存的接字判断该目标语义为语音控制指令类型，上一步骤确定的第三方应用程序为呼叫程序，呼叫程序呼叫太太；如果目标语义为谢谢，谢谢为语音文本输入指令，输入程序目标语义输入谢谢文本。

如图2所示，本发明实施例提供了一种基于神经网络的语音识别装置，所述装置包括：

处理模块21，用于对获取的待识别语音信号分帧处理，获得所述待识别语音信号的语音帧特征向量矩阵；

识别模块22，用于利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号对应的文字；

解析模块23，用于解析所述待识别语音信号对应的文字得到目标语义；

启动模块24，用于根据所述目标语义，启动与所述目标语义对应的第三方程序。

进一步地，所述识别模块22具体用于：

进一步地，所述解析模块23具体用于：

将待识别语音信号对应的文字组成至少两种文本语义；

进一步地，所述启动模块24具体用于：

根据目标语义确定第三方应用对象；

实施本发明，具有如下有益效果：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于神经网络的语音识别方法，其特征在于，所述方法包括：

解析所述待识别语音信号对应的文字得到目标语义；

2.如权利要求1所述的方法，其特征在于，利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号对应的文字具体为：

3.如权利要求1所述的方法，其特征在于，解析所述待识别语音信号对应的文字得到目标语义具体包括：

将待识别语音信号对应的文字组成至少两种文本语义；

4.如权利要求1所述的方法，其特征在于，根据所述目标语义，启动与所述目标语义对应的第三方程序具体包括：

根据目标语义确定第三方应用对象；

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种基于神经网络的语音识别装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述识别模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述解析模块具体用于：

将待识别语音信号对应的文字组成至少两种文本语义；

9.如权利要求6所述的装置，其特征在于，所述启动模块具体用于：

根据目标语义确定第三方应用对象；

10.如权利要求6所述的装置，其特征在于，所述装置还包括执行模块，所述执行模块具体用于：