CN105225665A

CN105225665A - 一种语音识别方法及语音识别装置

Info

Publication number: CN105225665A
Application number: CN201510666620.3A
Authority: CN
Inventors: 徐波
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2015-10-15
Filing date: 2015-10-15
Publication date: 2016-01-06

Abstract

本发明公开了一种语音识别方法及语音识别装置，语音识别方法包括：录入用户的声音信息；获取用户所在的位置信息，并分析录入声音信息的特性以获取用户的场景信息；根据用户所在的位置信息确定对应的区域信息，并调用与该区域信息对应的语音数据库和语法数据库，对用户的声音信息进行识别，得到第一语音识别结果；根据用户的场景信息匹配语法模型或语言模型，并进行模式匹配算法对用户的声音信息进行识别，得到第二语音识别结果；对所述第一语音识别结果和所述第二语音识别结果进行整合，得到最终的语音识别结果，并输出该语音识别结果。通过本发明，能够根据声音信息所处的区域信息和场景信息，对声音信息进行识别，提高语音识别的准确性。

Description

一种语音识别方法及语音识别装置

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别方法及语音识别装置。

背景技术

随着语音识别技术的发展进步，越来越多的设备(比如电视机、空调器等家用电器)可通过语音控制来执行相应的功能；比如，受控设备检测到语音控制指令时，可以根据检测到的语音控制指令来执行相应的操作。而语音识别技术很容易受到嘈杂的人声以及其它环境噪音的影响，且语音识别的准确率直接与环境噪音相关，比如当环境噪音较小时，语音识别率较高，但是当环境噪音很大或者周围一群人高声说话时，语音识别效果将会变得很差，甚至受控设备不能识别到对应的语音指令。

另外，对于不同地区的人，说话语音也会有所差别，这些因素都需要考虑，否则，也会影响到语音识别的准确性。

发明内容

本发明所要解决的技术问题是提供一种语音识别方法及语音识别装置，能够提高语音识别的准确性。

本发明解决上述技术问题的技术方案如下：

基于本发明的一个方面，提供了一种语音识别方法，所述方法包括：

S1、录入用户的声音信息；

S2、获取用户所在的位置信息，并分析录入声音信息的特性以获取用户的场景信息；

S3a、根据用户所在的位置信息确定对应的区域信息，并调用与该区域信息对应的语音数据库和语法数据库，对用户的声音信息进行识别，得到第一语音识别结果；

S3b、根据用户的场景信息匹配语法模型或语言模型，并进行模式匹配算法对用户的声音信息进行识别，得到第二语音识别结果；

S4、对所述第一语音识别结果和所述第二语音识别结果进行整合，得到最终的语音识别结果，并输出该语音识别结果。

基于本发明的另一个方面，提供了一种语音识别装置，所述装置包括：

录入模块，用于录入用户的声音信息；

位置信息获取模块，用于获取用户所在的位置信息；

场景信息获取模块，用于分析录入声音信息的特性以获取用户的场景信息；

第一识别模块，用于根据用户所在的位置信息确定对应的区域信息，并调用与该区域信息对应的语音数据库和语法数据库，对用户的声音信息进行识别，得到第一语音识别结果；

第二识别模块，用于根据用户的场景信息匹配语法模型或语言模型，并进行模式匹配算法对用户的声音信息进行识别，得到第二语音识别结果；

结果输出模块，用于对所述第一语音识别结果和所述第二语音识别结果进行整合，得到最终的语音识别结果，并输出该语音识别结果。

本发明提供的一种语音识别方法及语音识别装置，根据用户所在的位置信息确定对应的区域信息，并对录入的用户的声音信息进行分析以获取用户的场景信息，根据用户的区域信息和场景信息，分别对用户的声音信息进行语音识别，得到第一语音识别结果和第二语音识别结果，最后对两个识别结果进行整合，得到最终的语音识别结果并输出，本发明能够根据声音信息所处的区域信息和场景信息，对声音信息进行识别，提高语音识别的准确性。

附图说明

图1为本发明实施例1的一种语音识别方法流程图；

图2为本发明实施例2的一种语音识别装置示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1、一种语音识别方法。以下结合图1对本实施例提供的方法进行详细说明。

参见图1，本实施例提供的方法包括：

S1、录入用户的声音信息；

其中，所述获取用户的位置信息为用户所在移动终端自动检测得到的地理信息或者GPS定位信息，所述用户的场景信息为用户交互过程中的场景变化数据。

本实施例提供的方法还包括：为每一个区域信息建立对应的语音数据库和语法数据库，其中，每一个语法数据库中均有对应的语法文件。所述步骤S3a具体包括：根据区域信息，调用对应的语法数据库，并调用所述语法数据库中的语法文件，根据所述语法文件和语音数据库，对用户的声音信息进行识别，得到第一语音识别结果。

另外，对用户的声音信息开始识别时进行计时，对用户的声音信息识别结束时停止计时，记录对用户的声音信息识别的时间。

实施例2、一种语音识别装置。以下结合图2对本实施例提供的装置进行详细描述。

参见图2，本实施例提供的语音识别装置包括录入模块21、位置信息获取模块22、场景信息获取模块23、第一识别模块24、第二识别模块25和结果输出模块25。

其中，录入模块21，用于录入用户的声音信息。

位置信息获取模块22，用于获取用户所在的位置信息。

场景信息获取模块23，用于分析录入声音信息的特性以获取用户的场景信息。

第一识别模块24，用于根据用户所在的位置信息确定对应的区域信息，并调用与该区域信息对应的语音数据库和语法数据库，对用户的声音信息进行识别，得到第一语音识别结果。

第二识别模块25，用于根据用户的场景信息匹配语法模型或语言模型，并进行模式匹配算法对用户的声音信息进行识别，得到第二语音识别结果。

结果输出模块26，用于对所述第一语音识别结果和所述第二语音识别结果进行整合，得到最终的语音识别结果，并输出该语音识别结果。

其中，位置信息获取模块22获取用户的位置信息为用户所在移动终端自动检测得到的地理信息或者GPS定位信息，所述用户的场景信息为用户交互过程中的场景变化数据。

本实施例提供的语音识别装置还包括建立模块20，用于用于为每一个区域信息建立对应的语音数据库和语法数据库，其中，每一个语法数据库中均有对应的语法文件。所述第一识别模块24具体用于：根据区域信息，调用对应的语法数据库，并调用所述语法数据库中的语法文件，根据所述语法文件和语音数据库，对用户的声音信息进行识别，得到第一语音识别结果。

本实施例提供的装置还包括计时模块27，用于对用户的声音信息开始识别时进行计时，对用户的声音信息识别结束时停止计时，记录对用户的声音信息识别的时间。

在本说明书的描述中，参考术语“实施例一”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体方法、装置或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、方法、装置或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

S1、录入用户的声音信息；

2.如权利要求1所述的语音识别方法，其特征在于，所述获取用户的位置信息为用户所在移动终端自动检测得到的地理信息或者GPS定位信息，所述用户的场景信息为用户交互过程中的场景变化数据。

3.如权利要求1所述的语音识别方法，其特征在于，所述方法还包括：

为每一个区域信息建立对应的语音数据库和语法数据库，其中，每一个语法数据库中均有对应的语法文件；

所述步骤S3a具体包括：

根据区域信息，调用对应的语法数据库，并调用所述语法数据库中的语法文件，根据所述语法文件和语音数据库，对用户的声音信息进行识别，得到第一语音识别结果。

4.如权利要求1-3任一项所述的语音识别方法，其特征在于，所述方法还包括：

对用户的声音信息开始识别时进行计时，对用户的声音信息识别结束时停止计时，记录对用户的声音信息识别的时间。

5.一种语音识别装置，其特征在于，所述装置包括：

录入模块，用于录入用户的声音信息；

位置信息获取模块，用于获取用户所在的位置信息；

6.如权利要求5所述的语音识别装置，其特征在于，所述所述获取用户的位置信息为用户所在移动终端自动检测得到的地理信息或者GPS定位信息，所述用户的场景信息为用户交互过程中的场景变化数据。

7.如权利要求5所述的语音识别装置，其特征在于，所述装置还包括：

建立模块，用于为每一个区域信息建立对应的语音数据库和语法数据库，其中，每一个语法数据库中均有对应的语法文件；

所述第一识别模块具体用于：

8.如权利要求5-7任一项所述的语音识别装置，其特征在于，所述装置还包括：

计时模块，用于对用户的声音信息开始识别时进行计时，对用户的声音信息识别结束时停止计时，记录对用户的声音信息识别的时间。