CN106448655A

CN106448655A - 语音识别方法

Info

Publication number: CN106448655A
Application number: CN201610903124.XA
Authority: CN
Inventors: 张作勇; 曹鹏飞; 陈家制
Original assignee: Jiangxi Borui Tongyun Technology Co Ltd
Current assignee: Jiangxi Borui Tongyun Technology Co Ltd
Priority date: 2016-10-18
Filing date: 2016-10-18
Publication date: 2017-02-22

Abstract

本发明涉及一种语音识别方法，所述方法包括：用户终端获取用户输入的语音信号；将所述语音信号转换为第一电信号，对所述第一电信号进行滤波处理，得到第二电信号；对所述第二电信号进行预处理，得到预处理第二电信号；提取所述预处理第二电信号的特征信息；利用语音识别数据库对所述特征信息进行识别，输出识别结果。本发明提供的语音识别方法，识别精度高，用户体验好。

Description

语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法。

背景技术

随着网络技术和移动通信技术的发展，与人们日常生活密切相关的电子产品应用越来越普遍。例如，智能手机、车载导航设备等。

在使用电子产品时，无论手写输入还是键盘输入，都存在各种限制。为了使用方便，经常需要输入语音，设备对语音进行识别后，输出语音的文字内容或者执行相应的操作指令。

然而，现有技术中的识别设备识别精度不高，经常出现识别错误的问题，给使用带来不便，处理效率低下，用户体验度差。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种语音识别方法，识别精度高，用户体验好。

为实现上述目的，本发明提供了一种语音识别方法，所述方法包括：

用户终端获取用户输入的语音信号；

将所述语音信号转换为第一电信号，对所述第一电信号进行滤波处理，得到第二电信号；

对所述第二电信号进行预处理，得到预处理第二电信号；

提取所述预处理第二电信号的特征信息；

利用语音识别数据库对所述特征信息进行识别，输出识别结果。

进一步的，所述将所述语音信号转换为第一电信号具体包括：

将所述语音信号转换为电压信号或者电流信号。

进一步的，所述对所述第一电信号进行滤波处理，得到第二电信号具体包括：

将所述第一电信号进行模拟/数字转换，得到数字信号；

对所述数字信号进行高频滤波或者带通滤波，去除非语音干扰信号。

进一步的，所述对所述第二电信号进行预处理，得到预处理第二电信号具体包括：

对所述第二电信号进行标准化处理，得到预处理第二电信号。

进一步的，所述标准化处理具体包括：语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。

进一步的，所述提取所述预处理第二电信号的特征信息具体包括：

利用线性预测编码lpc方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数mfcc方法提取所述预处理第二电信号的特征信息。

进一步的，所述利用语音识别数据库对所述特征信息进行识别，输出识别结果具体包括：

将所述特征信息与所述语音识别数据库中的识别数据进行比对，输出匹配度最高的识别数据对应的语音单词或指令。

进一步的，所述语音识别数据库包括本地数据库和/或网络数据库。

本发明涉及的语音识别方法，识别精度高，用户体验好。

附图说明

图1为本发明语音识别方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明提供的语音识别方法实现于具有语音识别功能的移动终端，例如智能手机、平板电脑、车载导航设备等。

图1为本发明语音识别方法的流程图，如图所示，本发明实施例具体包括如下步骤：

步骤101，用户终端获取用户输入的语音信号。

具体的，获取由麦克风收集的用户输入的语音信号即音频信号。

步骤102，将所述语音信号转换为第一电信号，对所述第一电信号进行滤波处理，得到第二电信号。

具体的，将语音信号转换为电压信号或者电流信号。将第一电信号进行模拟/数字转换，得到数字信号；对数字信号进行高频滤波或者带通滤波，去除非语音干扰信号。

滤波处理的目的是去除直流信号和非语音信号的杂音干扰，使用户输入的语音数据便于后续提取特征信息。如果输入语音的环境噪音较大或者存在其他干扰信号，则不利于对于语音信息进行识别，因此需要将语音数据进行滤波处理，得到更加便于提取特征的数据。

步骤103，对所述第二电信号进行预处理，得到预处理第二电信号。

具体的，对第二电信号进行标准化处理，得到预处理第二电信号。

其中，标准化处理具体包括：语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。

语音信号的预处理也叫作前端处理,是指在特征提取之前,先对原始语音进行处理,使处理后的信号更能满足实际的需要,对提高数据处理精确度。

语音信号的预加权，目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。通过传递函数为H(z)＝1-az^-1一阶FIR高通数字滤波器来实现预加权，其中a为预加权系数，0.9<a<1.0。设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n))＝x(n)-ax(n-1)。

语音信号分帧处理是指利用移动窗函数对声音进行分帧处理，处理后声音成为多个小段，每小段为一帧。帧与帧之间具有交叠，如果每帧的长度是25毫秒，每两帧之间有15毫秒交叠，则称为以帧长25毫秒，帧移10毫秒进行分帧。

步骤104，提取所述预处理第二电信号的特征信息。

具体的，利用线性预测编码(linear predictive coding，LPC)方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数(Mel-scale Frequency CepstralCoefficientsmer，MFCC)法提取预处理第二电信号的特征信息。

以提取MFCC特征为例，根据人耳的生理特性，把每一帧波形变成一个多维向量，这个向量包含了这帧语音的内容信息。

步骤105，利用语音识别数据库对所述特征信息进行识别，输出识别结果。

具体的，将特征信息与语音识别数据库中的识别数据进行比对，输出匹配度最高的识别数据对应的语音单词或指令。

其中，语音识别数据库包括本地数据库和/或网络数据库。

具体的，语音识别数据库中的识别数据可以为声学模型，将特征信息输入声学模型，每个声学模型对应语音单词或指令，输出特征信息适合的声学模型对应的语音单词或指令，即为识别结果。

在搭载于车载导航系统等的语音识别功能中，通常用户会向系统明确表示发话的开始。因此，会在触摸面板上显示、或在方向盘上设置指示语音识别开始的按钮。于是，在语音识别开始按钮被用户按下之后，开始用户终端获取用户输入的语音信号，将所述语音信号转换为第一电信号，对所述第一电信号进行滤波处理，得到第二电信号。对所述第二电信号进行预处理，得到预处理第二电信号。提取所述预处理第二电信号的特征信息，例如提取MFCC值，利用语音识别数据库对MFCC值进行识别，输出与用户所说的内容相应的语音单词或指令。

本发明涉及的语音识别方法，识别精度高，用户体验好。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

用户终端获取用户输入的语音信号；

对所述第二电信号进行预处理，得到预处理第二电信号；

提取所述预处理第二电信号的特征信息；

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信号转换为第一电信号具体包括：

将所述语音信号转换为电压信号或者电流信号。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一电信号进行滤波处理，得到第二电信号具体包括：

将所述第一电信号进行模拟/数字转换，得到数字信号；

4.根据权利要求1所述的方法，其特征在于，所述对所述第二电信号进行预处理，得到预处理第二电信号具体包括：

5.根据权利要求4所述的方法，其特征在于，所述标准化处理具体包括：语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。

6.根据权利要求1所述的方法，其特征在于，所述提取所述预处理第二电信号的特征信息具体包括：

7.根据权利要求1所述的方法，其特征在于，所述利用语音识别数据库对所述特征信息进行识别，输出识别结果具体包括：

8.根据权利要求1所述的方法，其特征在于，所述语音识别数据库包括本地数据库和/或网络数据库。