CN109036385A

CN109036385A - 一种语音指令识别方法、装置及计算机存储介质

Info

Publication number: CN109036385A
Application number: CN201811221613.2A
Authority: CN
Inventors: 凌茵; 田国光
Original assignee: Beijing Watertek Information Technology Co Ltd
Current assignee: Beijing Watertek Information Technology Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2018-12-18

Abstract

一种语音指令识别方法、装置及计算机存储介质，所述语音指令识别方法包括：对语音信号进行预处理得到有效语音信号；提取有效语音信号的语音信号特征；根据语音信号特征识别有效语音信号中的语音指令。本发明实施例通过对语音信号的预处理以及语音信号特征的提取实现了对语音指令的识别。

Description

一种语音指令识别方法、装置及计算机存储介质

技术领域

本文涉及但不限于计算机技术，尤指一种语音指令识别方法、装置及计算机存储介质。

背景技术

随着声音信号处理技术的发展，集成降噪算法的声音处理技术已经明显地改善了耳机的声音品质和聆听效果。例如，应用于作战环境的头戴式耳机耳罩降低了作战过程中的枪声、炮声等大量有伤听力的高分贝噪音，能有效地保护战场上士兵的听力，提高军队的作战警惕性和整体作战实力。降噪听力防护耳罩也在空军运输机、空军地勤等领域投入使用，为处于高噪音环境中的士兵提供最完善的听力防护，大大降低了战场上的高分贝噪音和巨大爆炸声等对他们造成的伤害，提高作战指令信息的精准快速传达。

随着作战环境的日益复杂，信息技术、通信技术和自动化技术的快速发展，为适应新一代作战设备的需求，作战防护耳机不能进停留在降噪和声效处理上，如何设计实现新功能的更实用的作战防护耳罩成为了新兴的课题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种语音指令识别方法、装置及计算机存储介质，能够识别语言指令。

本发明实施例提供了一种语音指令识别方法，包括：

对语音信号进行预处理得到有效语音信号；

提取有效语音信号的语音信号特征参数；

根据语音信号特征参数识别有效语音信号中的语音指令。

可选的，所述对语音信号进行预处理得到有效语音信号包括：

对所述语音信号进行端点检测，以获得所述有效语音信号。

可选的，所述对所述语音信号进行端点检测包括：

根据短时能量和短时过零率对所述语音信号进行端点检测。

可选的，所述语音信号特征参数包括以下部分或全部参数：

线性预测系数LPC、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC、差分梅尔倒谱系数。

可选的，所述根据语音信号特征参数识别有效语音信号中的语音指令包括：

通过粒子群算法对概率神经网络模型的平滑因子进行处理；

基于平滑因子处理过的概率神经网络模型，对所述根据语音信号特征参数识别有效语音信号进行训练，识别所述有效语音信号中的语音指令。

另一方面，本发明实施例还提供一种语音指令识别装置，包括：

预处理模块，用于对语音信号进行预处理得到有效语音信号；

提取模块，用于提取有效语音信号的语音信号特征参数；

识别模块，用于根据语音信号特征参数识别有效语音信号中的语音指令。

可选的，所述预处理模块具体用于

根据短时能量和短时过零率对所述语音信号进行端点检测，以获得所述有效语音信号。

可选的，所述识别模块具体用于：

通过粒子群算法对概率神经网络模型的平滑因子进行处理；

再一方面，本发明实施例还提供一种语音指令识别装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1～5任一项所述的语音指令识别方法。

还一方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述语音指令识别方法的步骤。

与相关技术相比，本发明实施例包括：对语音信号进行预处理得到有效语音信号；提取有效语音信号的语音信号特征；根据语音信号特征识别有效语音信号中的语音指令。本发明实施例通过对语音信号的预处理以及语音信号特征的提取实现了对语音指令的识别。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明一个实施例提出的语音指令识别方法的流程图；

图2为本发明实施例概率神经网络的组成示意图；

图3为本发明一个实施例提出的语音指令识别装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

参见图1，本发明一个实施例提出了一种语音指令识别方法，包括：

步骤100、对语音信号进行预处理得到有效语音信号。

可选的，本发明实施例，对语音信号进行预处理得到有效语音信号包括：

对所述语音信号进行端点检测，以获得所述有效语音信号。

可选的，本发明实施例对语音信号进行预处理还包括：对语音信号进行分帧加窗处理。

可选的，本发明实施例对所述语音信号进行端点检测包括：

根据短时能量和短时过零率对所述语音信号进行端点检测。

本发明实施例，对语音信号进行的预处理包括：基于能量的端点检测，在一段语音信号中，语音信号的开始点并不一定是有效语音信号的起始点，有语音信号的存在也不一定是有效语音信号，对于这样的语音信号，如果直接进行语音信号特征的提取，会为后续的语音指令的识别增加难度，因此必须进行端点检测。参照相关技术，有效语音信号和噪声信号的主要区别在能量上，有效语音信号的能量比噪声信号的能量大，语音信号的能量是噪声信号的能量和有效语音信号的能量之和；本发明实施例中应用了基于能量的端点检测方法，就是在短时能量检测方法的基础上，加上短时平均过零率，利用短时能量和短时过零率作为特征来进行检测；当语音信号的任一帧的特征值小于预设的特征阈值时，本发明实施例确定当前语音信号为静音信号；当语音信号的所有帧的特征值均大于或等于所述特征阈值时，确定当前语音信号为有效语音信号。

步骤101、提取有效语音信号的语音信号特征参数。

可选的，本发明实施例，语音信号特征参数可以包括以下一种或一种以上参数：

线性预测系数(LPC，Linear Prediction Coefficient)、线性预测倒谱系数(LPCC，Linear Prediction Cepstrum Coefficient)、梅尔倒谱系数(MFCC，Mel FrequencyCepstrum Coefficient)、差分梅尔倒谱系数。

步骤102、根据语音信号特征参数识别有效语音信号中的语音指令。

本发明实施例，应用概率神经网络(PNN，Probabilistic Neural Network)作为主要的分类器进行语音指令的识别，概率神经网络是在径向基神经网络的基础上，融合了密度函数估计和贝叶斯决策理论的一种新的人工神经网络。图2为本发明实施例概率神经网络的组成示意图，如图2所示，概率神经网络由输入层、隐层、求和层和输出层组成；其中，

隐层也称为模式层或样本层，其神经元数目与训练样本集合的大小一致，即每个神经元表征一个样本。该层计算输入样本h与训练集中每个训练样本X的欧式距离，计算欧式距离的方法为本领域技术人员的公知常识，在此不做赘述；

求和层将隐层中属于同一类的隐含神经元的输出做加权平均；

输出层通过径向基函数对求和层加权平均进行非线性映射(即公式(1))获得输出量，即获得初始概率矩阵M：

需要说明的是，概率神经网络分为训练阶段和测试阶段，把已知的类别和训练数据输入到概率神经网络模型进行训练，保持训练后的概率神经网络模型参数不变，再输入测试数据(即语音信号特征)后，输出的结果即判别的类别(即识别出的语音指令)。

其中，δ为平滑因子，d为样本的特征向量维数(即样本的语音信号特征参数的个数)，h_t(k)为第t个待识别有效语音信号的第k个语音信号特征参数，X_ij(k)为第i类第j个训练样本的第k个语音信号特征参数。

上述概率神经网络模型的准确度通常受到平滑因子δ的选取的影响，在语音指令的识别的精度存在着限制，这是由于平滑因子δ通常是根据经验来设定的，只能反映在这几个特定平滑因子下的概率神经网络分类准确率的变化，而选择的几个特定值绝大多数情况下并不是使得模型的准确率最高的，因此，本发明实施例通过粒子群算法对概率神经网络模型的平滑因子进行处理，实现平滑因子的优化，提高了概率神经网络模型的准确度，从而提高了语音指令的识别精度。

为使本发明实施例足够清楚，以下对粒子群算法进行简要说明：

粒子群算法是模拟鸟类捕食规律而提出来的一种全局优化算法，由于其操作简单、容易实现、可调参数少等特点，越来越多的应用到各行各业的优化计算中。粒子群算法首先在解空间内随机初始化例子，每个例子都有自己的位置和速率，还有一个由目标函数确定的适应度值。在每一次迭代中，每个粒子会通过个体历史最优值和全局最优值来更新自己的位置和速度，粒子的速度和位置更新公式如公式(2)和公式(3)。

其中，位置和速度均为向量，i＝1,2，…，N，N为种群的大小；为第k轮迭代结束后第i个粒子的速度，c₁，c₂为加速因子，一般取c₁＝c₂＝2，r₁，r₂为[0,1]之间的随机数，为第k轮迭代结束后第i个粒子的历史最优位置，为第k轮迭代结束后第i个粒子的全局最优位置，为第k轮迭代结束后第i个粒子的速度，为第k轮迭代结束后第i个粒子的惯性权重，惯性权重随着迭代次数的增加而线性递减，以达到期望的优化目的，这种调整策略简单、直观、具有较好的寻优性能。线性递减策略在计算过程中，粒子的搜索步长会逐渐减小，随着迭代次数的增加慢慢靠近极值点，其表达式如公式(4)：

其中，w_imax为第i个粒子的惯性权重的最大值，w_imin为第i个粒子的惯性权重的最小值，每个粒子的惯性权重可以不同，k为当前迭代次数，Tmax为最大迭代次数。

本发明实施例，通过粒子群算法对概率神经网络模型的平滑因子进行处理的目标函数可以定义为：

E＝||Y-T|| (5)

其中，T为测试样本真实的类别，Y为概率神经网络预测的类别。

采用粒子群算法对平滑因子进行处理的过程包括：

初始化种群的粒子数，惯性权重的最大值和最小值，加速因子和最大迭代次数，随机生成粒子的初始位置和初始速度；

根据公式(5)定义的目标函数计算粒子的适应度函数值，找出全局最优的粒子的位置和适应度值；

按照公式(4)更新惯性权重后，根据公式(2)和公式(3)更新每个粒子的速度和位置；

计算当前粒子的适应度函数值；

将计算获得的当前粒子的适应度函数值(即根据公式(5)的目标函数计算出的值)与该粒子的历史最优的适应度函数值比较，保存适应度函数值较小的粒子的位置，然后将计算获得的当前粒子的适应度函数值与全局最优的适应度函数值比较，保存适应度函数值较小的粒子位置。

判断当前迭代次数k是否达到最大迭代次数Tmax，若k＜Tmax，则算法跳转到按照公式(4)更新惯性权重，若k＝Tmax，则算法结束，输出全局最优粒子的位置，即寻找到最优的概率神经网络的平滑因子。

下面通过两个示例说明上述方法的实现。

应用示例1

本发明应用示例1采用的语音信号是正常环境下录制的“前进”、“后退”、“向左”、“停止”音频各80组，4种指令共320组数据；其中，分别选取各种指令的64组语音信号共256组数据作为训练集数据，选取剩余的语音信号共64组数据作为测试集数据。经过预处理后，应用语音信号特征提取方法，获得语音特征参数；本发明应用示例语音特征参数包括：16维的LPC语音特征参数，16维的LPCC语音特征参数，12维的MFCC语音特征参数以及12维的一阶差分MFCC语音特征参数。这里，语音特征参数主要由本领域技术人员根据代表数据特征、影响识别准确度和运算量的原则进行分析确定；本发明应用示例1应用粒子群算法对概率神经网络进行平滑因子的处理，通过平滑因子处理后的概率神经网络对语音指令进行识别。本发明应用示例1粒子群算法的参数可以设置为：种群粒子数为30，惯性权重设置为w_imax＝0.9、w_imin＝0.4，加速因子设置为c₁＝c₂＝2，最大速度设置为v_max＝1.1，最大迭代次数为Tmax＝1000，平滑因子δ的范围为(0,50)；其中，在求解过程中，加速因子和最大速度共同维护粒子对全局和局部搜索能力的平衡。最大速度是用户设定来限制粒子的速度。然后采用召回率(Recall)、精确率(Precision)和F1-Score三个性能指标来评价算法模型的效果，召回率、精确率和F1-Score的计算方法为本领域技术人员的公知常识，在此不做赘述，表1为本发明应用示例1真实类别和改进后的概率神经网络预测类别的分布情况，表2为本发明应用示例与相关技术评估对比信息测试结果如表1所示，评估结果如表2所示。

表1

表2

应用示例2

本发明应用示例2采用的语音信号的训练集和测试集以及选取的特征参数与应用示例1相同，本应用示例分别采用逆向传播(BP，Back Propagation)神经网络、支持向量机(SVM，Support Vector Machine)、概率神经网络(PNN)以及基于粒子群算法的概率神经网络(PSO-PNN)对语音指令进行识别；其中，粒子群算法的参数设置同示例1；未经优化的概率神经网络的平滑因子δ设置为0.7；BP神经网络的参数设置为收敛精度为0.00001，学习率为0.01，最大迭代次数为1000；支持向量机(SVM)的参数设置为：SVM的类型为C-SVC，核函数类型为径向基函数(RBF，Radial Basis Function)，核函数中γ设置为0.0125，惩罚系数设置为8000，分别统计计算4种分类算法的准确率，表3为本发明应用示例与相关算法准确率对比示意，如表3所示：

表3

参见图3，本发明另一个实施例提出了一种语音指令识别装置，包括：

预处理模块301，用于对语音信号进行预处理得到有效语音信号；

提取模块302，用于提取有效语音信号的语音信号特征参数；

识别模块303，用于根据语音信号特征参数识别有效语音信号中的语音指令。

上述语音指令识别装置的具体实现过程与前述实施例语音指令识别方法的具体实现过程相同，这里不再赘述。

本发明实施例还提出了一种语音指令识别装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任一种语音指令识别方法。

本发明实施例还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种语音指令识别方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音指令识别方法，包括：

对语音信号进行预处理得到有效语音信号；

提取有效语音信号的语音信号特征参数；

根据语音信号特征参数识别有效语音信号中的语音指令。

2.根据权利要求1所述的语音指令识别方法，其特征在于，所述对语音信号进行预处理得到有效语音信号包括：

对所述语音信号进行端点检测，以获得所述有效语音信号。

3.根据权利要求2所述的语音指令识别方法，其特征在于，所述对所述语音信号进行端点检测包括：

根据短时能量和短时过零率对所述语音信号进行端点检测。

4.根据权利要求1所述的语音指令识别方法，其特征在于，所述语音信号特征参数包括以下部分或全部参数：

5.根据权利要求1～4任一项所述的语音指令识别方法，其特征在于，所述根据语音信号特征参数识别有效语音信号中的语音指令包括：

通过粒子群算法对概率神经网络模型的平滑因子进行处理；

6.一种语音指令识别装置，包括：

提取模块，用于提取有效语音信号的语音信号特征参数；

7.根据权利要求6所述的语音指令识别装置，其特征在于，所述预处理模块具体用于

8.根据权利要求6或7所述的语音指令识别方法，其特征在于，所述识别模块具体用于：

通过粒子群算法对概率神经网络模型的平滑因子进行处理；

9.一种语音指令识别装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1～5任一项所述的语音指令识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5任一项所述的语音指令识别方法的步骤。