CN106887226A

CN106887226A - 一种基于人工智能识别的语音识别算法

Info

Publication number: CN106887226A
Application number: CN201710223847.XA
Authority: CN
Inventors: 赵国强; 张弓
Original assignee: Tianjin CAS Institute of Advanced Technology
Current assignee: Tianjin CAS Institute of Advanced Technology
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2017-06-23

Abstract

本发明涉及一种基于人工智能识别的语音识别算法，包括以下步骤：对输入的语音信号进行预处理：对经过预处理的语音信号进行特征提取：将提取的特征输入训练识别网络进行识别后输出识别结果；其中，所述训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块。本发明通过训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块，可以实现语音识别算法的功能进一步的扩展，不但可以识别标准的普通话，且可以识别各种不同的地方语言，实现多种语音的识别处理。

Description

一种基于人工智能识别的语音识别算法

技术领域

本发明涉及人工智能识别技术领域，尤其是一种基于人工智能识别的语音识别算法。

背景技术

随着多媒体技术的发展，多媒体系统的服务项目也随之扩展，例如音乐、视频、图片、实时路况信号、目的地地图导航、语音导航等。智能终端的广泛使用给上述服务项目提供了广阔的发展空间。

无论终端带有按键还是触摸屏，都需要人为进行手动操控，才能使用上述服务项目，不仅操作繁琐，还可能具有危险性，例如驾驶员在行车过程中手动操作车载设备就可能发生危险。

语音识别技术的发展为此类操作提供了新的发展方向。但是现有人工智能识别中的语音识别技术存在缺陷，不能准确地实现人输出的主意的准确的识别，特别是人们在地方语言时，更是无法识别，如何准确识别语音信息中的操作指令内容成为了急需解决的问。因此，开发一种架构简单的基于人工智能识别的语音识别算法，具有重要的意义。

发明内容

本发明的目的在于解决上述的技术问题而提供一种基于人工智能识别的语音识别算法。

为实现上述目的，本发明采用如下技术方案：

一种基于人工智能识别的语音识别算法，包括以下步骤：

对输入的语音信号进行预处理：

对经过预处理的语音信号进行特征提取：

将提取的特征输入训练识别网络进行识别后输出识别结果；

其中，所述训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块。

所述训练识别网络在进行识别处理时的步骤包括：

将输入的语音经过预算后，语音信号的特征被提取出来，将提取出来的特征与训练形成的多个语音参考模式比较，进行模式匹配，找出一系列最优的与输入语音匹配的语音模式，然后给出识别的结果并输出。

所述训练识别网络的训练步骤包括：

将输入的语音经过预处理后，将语音信号的特征被提取出来，然后在提取的特征的基础上建立多个语音模式，形成语音参考模式。

所述训练识别网络进行识别后输出识别结果，是通过该语音模式号的定义，然后通过查找表给出识别的结果并输出。

本发明通过训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块，可以实现语音识别算法的功能进一步的扩展，不但可以识别标准的普通话，且可以识别各种不同的地方语言，实现多种语音的识别处理。

附图说明

图1是本发明实施例提供的基于人工智能识别的语音识别算法的处理流程示意图；

图2是本发明的模式匹配的处理流程示意图。

具体实施方式

下面，结合实例对本发明的实质性特点和优势作进一步的说明，但本发明并不局限于所列的实施例。

参见图1-2所示，一种基于人工智能识别的语音识别算法，包括以下步骤：

对输入的语音信号进行预处理：

对经过预处理的语音信号进行特征提取：

将提取的特征输入训练识别网络进行识别后输出识别结果；

所述对输入的语音信号进行预处理主要是指去除背景噪声，语音增强，主要是通过预滤波、预加重、短时加窗处理以及端点检测，以去除个体发音差异以及设备、环境引起噪声影响等，以及对基元选取及以及确定语音的起点与终点的端点检测，获得符合特征提取的语音信号，供后续的语音特征提取的训练与识别。

其中，所述训练识别网络可以采用现有训练识别网络进行处理，如卷积神经网络(Convolutional Neural Network)进行。

所述的语音特征提取采用Mel频率倒谱系数(MFCC)语音特征提取技术，其步骤为：

1.将音频分解为帧；2.对于每一帧，计算周期功率谱；3.将mel滤波器应用到功率谱中，计算每个滤波器的能量和；4.计算能量的对数值；5.对每个对数能量进行离散余弦变换(DCT)；6.保留DCT的2-13个系数，其余系数舍去。

由于一个音频信号通常是不断变化的，为了简化，通常假设一个较短时间内音频信号不会有较大的变化，所以把每一帧划分成20-40ms为宜，若该时间太短，则没有足够的信号来进行功率估计；方之，若太长，则每一帧信号变化太多。

下一步是计算每一帧的周期功率谱，这个源自人的耳锅，它随声音的大小而发生不同频率的振动。通过耳锅的不同位置上的振动，不同的神经元将会通知大脑现在听到的音频频率。周期图同样为我们做出这种工作，确定帧中存在哪些频率。

周期图同样存在一些ASR(Automatic Speech Recognition)不需要的信息。实际上耳锅无法辨别两个空间上相近的频率。当频率变大时，这种影响更明显。因此采取周期图块，并且将它们进行累加来得知在不同频率区域的能量是多少。这个是由mel滤波器完成的，第一个滤波器非常狭窄，可获得频率为0Hz附近的能量是多少，当频率渐渐变高时，滤波器也会越来越宽，因此只关心每一个点能量是多少。

一旦有了滤波器的能量，对它取对数，这也是受人类听力启发的；通常人产无法听出线性级别的音量，通常若声音扩大两倍，需要放入8倍的能量进去。这就意味着能量上有较大的变化并不代表声音大小变化很大，为什么这里使用对数而不是取平方根，那是因为可以使用cepstral mean subtraction，它是一个频道归一化的技巧。

最后一步是计算对数能量的DCT，关于这个有两点原因：因为滤波器通常都有交叠，因此滤波器能量彼此相关；DCT对能量进行去相关，意味着协方差的对角矩阵可以用来对HMM分类器进行建模。但是注意，DCT中26个系数只有12个被保留下来，这是因为DCT的高阶系数代表滤波器能量的快速变化，事实证明这些快速变化影响ASR的表现，所以去除高阶系数。

为了进一步的实现该功能，可以在运用设备上，建立训练识别模块选择模块，以选择要使用的训练识别模块，以在不同的训练识别模块间切换。

其中，所述训练识别网络在进行识别处理时的步骤包括：

其中，所述训练识别网络的训练步骤包括：

其中，所述训练识别网络进行识别后输出识别结果，是通过该语音模式号的定义，然后通过查找表给出识别的结果并输出。

下面对本发明的识别过程总的说明如下：

训练过程：将输入的语音经过预算后，语音信号的特征被提取出来，然后在提取的特征的基础上建立多个语音模式，形成参考模式；

识别过程：将输入的语音经过预算后，语音信号的特征被提取出来，将提取出来的特征与多个语音模式比较，进行模式匹配，找出一系列最优的与输入语音匹配的语音模式，然后再根据该语音模式号的定义，然后通过查找表给出识别的结果并输出。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于人工智能识别的语音识别算法，其特征在于，包括以下步骤：

对输入的语音信号进行预处理：

对经过预处理的语音信号进行特征提取：

将提取的特征输入训练识别网络进行识别后输出识别结果；

2.如权利要求1所述基于人工智能识别的语音识别算法，其特征在于，所述训练识别网络在进行识别处理时的步骤包括：

3.如权利要求2所述基于人工智能识别的语音识别算法，其特征在于，所述训练识别网络的训练步骤包括：

4.如权利要求2所述基于人工智能识别的语音识别算法，其特征在于，所述训练识别网络进行识别后输出识别结果，是通过该语音模式号的定义，然后通过查找表给出识别的结果并输出。