CN104485106B

CN104485106B - 语音识别方法、语音识别系统和语音识别设备

Info

Publication number: CN104485106B
Application number: CN201410742635.9A
Authority: CN
Inventors: 李阳
Original assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Current assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2018-08-28
Anticipated expiration: 2034-12-08
Also published as: CN104485106A

Abstract

发明提出了一种语音识别方法、一种语音识别系统和一种语音识别设备，其中，语音识别方法，包括：获取语音字符串；根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；根据所述初次识别的结果创建语义分析树，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果。通过本发明的技术方案，实现了对语音信息的语音和语义的准确分析，同时解决了混淆音造成的语音识别错误等问题，增强了人机语音交互设备的智能化，提升了用户的使用体验。

Description

语音识别方法、语音识别系统和语音识别设备

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种语音识别方法、一种语音识别系统和一种语音识别设备。

背景技术

随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，器技术的应用正在日益改变人类的生产和生活方式，被广泛应用于诸如语音输入系统、语音控制系统和智能对话查询系统等领域。

语音识别技术是通过识别和解析过程把语音信号转变为相应的文本或命令的技术，其具体过程包括：

(1)采集和预处理步骤：未知语音经过话筒变换成电信号后加在识别系统的输入端，经过预处理过程对电信号进行降噪和滤波等处理，以初步提高信噪比；

(2)识别步骤：对经过预处理的电信号进行识别处理，根据用户的语音特定建立语音模型，根据语音模型对电信号进行分析，抽取电信号中包括的语音特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中需要根据语音识别的模型，将计算机中预存储的语音模板和输入的语音特征进行匹配，按照预定的匹配策略找出最优的匹配模板；

(3)后处理步骤：根据模板的映射表和定义获知语音特征对应的文本信息。

其中，识别步骤作为语音识别的重要步骤通常有以下几个指标作为衡量标准：

(1)词汇表范围：语音设备能够识别的单词或词组的范围；

(2)说话人限制：语音设备能够识别指定语音、语调和音色的语音信息；

(3)训练要求：语音设备是否经过大量语音信号的识别训练过程；

(4)识别率：语音设备能够平均正确识别的百分数，取决于前三个参数。

相关技术中，针对上述语音识别参数而言存在以下问题：

(1)将连续的语音信息分解为词、音素等单位，语音识别过程较慢因此要求用户语速不能过快；

(2)语音信息量大，受用户发出语音指令的方式影响，会对识别过程产生影响甚至误判；

(3)单个字母或词、字的语音特性受上下文影响，会影响语音识别的误判；

(4)语音的混淆音影响，具体地，如同音字、前后鼻音、平敲舌音和混淆音，都会影响语音识别的误判；

(5)环境噪声和干扰对语音识别过程产生严重影响。

因此，如何设计语音识别方案提高识别过程的准确率和识别效率成为亟待解决的技术问题。

发明内容

本发明正是基于上述技术问题至少之一，提出了一种新的语音识别方案和一种语音识别设备。

有鉴于此，本发明提出了一种语音识别方法，包括：获取语音字符串；根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；根据所述初次识别的结果创建语义分析树，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果。

在该技术方案中，通过创建语法分析树对语音字符串进行初步分析，后根据初步分析结果创建语义分析树，提高了语音识别过程的准确率和效率，具体地，如待识别的语音过程中包括实体信息，如“畅捷通的地址在哪里”，其中，通过语法分析模板和语义分析模板识别第一个为实体信息“畅捷通”，第二个为属性信息“地址”，第三个为属性信息“在哪里”，根据预定义的语法规则和语义规则，系统解析出语音信息为简单的实体和实体属性信息，其中，实体信息和全部属性信息构成了识别过程中生成的语法分析树和语义分析树的节点，最后通过完成语法分析树和语义分析树的创建和映射，其中，映射过程即为识别的属性信息与预存储属性信息的匹配过程，最后，实体信息和匹配结果共同构成语音识别结果。

值得指出的是，在属性信息的查询和匹配过程中，采用分布式solr系统作为硬件系统进行查询和匹配，以及预存储属性信息的存储，在solr系统查询结束后，根据指定数据输出格式显示语音识别结果。

在上述技术方案中，优选地，根据所述语音字符串创建语法分析树，包括以下具体步骤：将所述语音字符串根据分隔符以及获取顺序划分为包括至少一个字符串的队列；根据所述队列的读取规则将所述至少一个字符串发送至语法栈；根据所述预定语法规则遍历所述语法栈中的所述至少一个字符串，将符合所述预定语法规则的所述至少一个字符串中的任一字符串合并为一个可识别元素，将不符合所述预定语法规则的所述至少一个字符串作为不可识别元素，其中，可识别元素中的字符串作为所述词元。

在该技术方案中，通过根据预定的语法规则对语音信息进行初步识别，实现了对语音信息的初步划分，区分了可识别元素和不可识别元素，将可识别元素合并为词元，为后续创建语义分析树提供了软件基础。

在上述技术方案中，优选地，根据所述初次识别的结果创建语义分析树，包括以下具体步骤：在遍历所述语法栈后，对所述词元进行属性信息分析；根据所述属性信息根据遍历顺序与所述属性信息对应的所述词元创建所述语义分析树。

在该技术方案中，通过对词元属性进行分析，实现了快速创建语义分析树的过程，提升了语音识别的效率和识别性，具体地，语义分析树的创建过程需要根据预定的语义规则进行，实现了语法信息与实体信息、属性信息的动态绑定，并且根据遍历顺序创建的语义分析树，对于语法和语义的操作可以充分拓展，更符合用户的语音识别要求，增强了识别过程的逻辑性。

在上述技术方案中，优选地，根据所述属性信息根据遍历顺序与所述属性信息对应的所述词元创建所述语义分析树，包括以下具体步骤：判断所述词元是否包括词元属性定义，包括：在判定所述词元包括词元属性定义时，判断所述语义分析树中的所述属性信息是否具备相同所述词元属性定义；在判定所述语义分析树中的所述属性信息具备相同所述词元属性定义时，根据遍历顺序将具备相同所述词元属性定义的所述属性信息合并至总属性信息文档，所述总属性信息文档作为所述语音识别结果提示给用户，其中，所述属性信息即为所述语义分析树的节点。

在上述技术方案中，优选地，判断所述词元是否包括词元属性定义，还包括以下具体步骤：在判定所述词元不包括词元属性定义时，根据遍历顺序将所述属性信息以及所述属性信息对应的词元信息合并至总属性信息文档，其中，所述属性信息即为所述语义分析树的节点。

根据本发明的另一方面，还提出了一种语音识别系统，包括：获取单元，用于获取语音字符串；创建单元，用于根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；所述创建单元还用于，根据所述初次识别的结果创建语义分析树，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果。

在上述技术方案中，优选地，包括：划分单元，用于将所述语音字符串根据分隔符以及获取顺序划分为包括至少一个字符串的队列；发送单元，用于根据所述队列的读取规则将所述至少一个字符串发送至语法栈；合并单元，用于根据所述预定语法规则遍历所述语法栈中的所述至少一个字符串，将符合所述预定语法规则的所述至少一个字符串中的任一字符串合并为一个可识别元素，将不符合所述预定语法规则的所述至少一个字符串作为不可识别元素，其中，可识别元素中的字符串作为所述词元。

在上述技术方案中，优选地，包括：分析单元，用于在遍历所述语法栈后，对所述词元进行属性信息分析；所述创建单元还用于，根据所述属性信息根据遍历顺序与所述属性信息对应的所述词元创建所述语义分析树。

在上述技术方案中，优选地，包括：判断单元，用于判断所述词元是否包括词元属性定义，所述判断单元还用于，在判定所述词元包括词元属性定义时，判断所述语义分析树中的所述属性信息是否具备相同所述词元属性定义；所述合并单元还用于，在判定所述语义分析树中的所述属性信息具备相同所述词元属性定义时，根据遍历顺序将具备相同所述词元属性定义的所述属性信息合并至总属性信息文档，所述总属性信息文档作为所述语音识别结果提示给用户，其中，所述属性信息即为所述语义分析树的节点。

在上述技术方案中，优选地，所述合并单元还用于，在判定所述词元不包括词元属性定义时，根据遍历顺序将所述属性信息以及所述属性信息对应的词元信息合并至总属性信息文档，其中，所述属性信息即为所述语义分析树的节点。

根据本发明的第三方面，还提出了一种语音识别设备，其特征在于，包括：如上述任一项所述的语音识别系统。

通过以上技术方案，提出了一种新的语音识别方案和一种语音识别设备，通过创建语法分析树对语音字符串进行初步分析，后根据初步分析结果创建语义分析树，提高了语音识别过程的准确率和效率。

附图说明

图1示出了根据本发明的一个实施例的语音识别方法的示意流程图；

图2示出了根据本发明的实施例的语音识别系统的示意框图；

图3示出了根据本发明的另一个实施例的语音识别方法的示意流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的一个实施例的语音识别方法的示意流程图。

如图1所示，根据本发明的实施例的一种语音识别方法，包括：步骤102，获取语音字符串；步骤104，根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；步骤106，根据所述初次识别的结果创建语义分析树；步骤108，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果。

图2示出了根据本发明的实施例的语音识别系统的示意框图。

如图2所示，根据本发明的实施例的语音识别系统200，包括：获取单元202，用于获取语音字符串；创建单元204，用于根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；所述创建单元还用于，根据所述初次识别的结果创建语义分析树，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果。

在上述技术方案中，优选地，包括：划分单元206，用于将所述语音字符串根据分隔符以及获取顺序划分为包括至少一个字符串的队列；发送单元208，用于根据所述队列的读取规则将所述至少一个字符串发送至语法栈；合并单元210，用于根据所述预定语法规则遍历所述语法栈中的所述至少一个字符串，将符合所述预定语法规则的所述至少一个字符串中的任一字符串合并为一个可识别元素，将不符合所述预定语法规则的所述至少一个字符串作为不可识别元素，其中，可识别元素中的字符串作为所述词元。

在上述技术方案中，优选地，包括：分析单元212，用于在遍历所述语法栈后，对所述词元进行属性信息分析；所述创建单元还用于，根据所述属性信息根据遍历顺序与所述属性信息对应的所述词元创建所述语义分析树。

在上述技术方案中，优选地，包括：判断单元214，用于判断所述词元是否包括词元属性定义，所述判断单元还用于，在判定所述词元包括词元属性定义时，判断所述语义分析树中的所述属性信息是否具备相同所述词元属性定义；所述合并单元还用于，在判定所述语义分析树中的所述属性信息具备相同所述词元属性定义时，根据遍历顺序将具备相同所述词元属性定义的所述属性信息合并至总属性信息文档，所述总属性信息文档作为所述语音识别结果提示给用户，其中，所述属性信息即为所述语义分析树的节点。

如图3，如图1所示，根据本发明的实施例的一种语音识别方法，包括：步骤302，语音识别与纠错；步骤304，实体识别和属性识别；步骤306，创建语法分析树；步骤308，创建语义分析树；步骤310，数据查询并显示。

具体地，语音识别与纠错包括：当用户输入语音信息时，首先经过语音识别模块纠错后转换为一个字符串，然后经过实体/属性识别模块识别出所要查询的实体或者属性，识别结果包括实体信息和属性信息。

创建语法分析树包括：模块读入以上的结果后，首先把input字符串以空格切分生成一个队列input Queue，然后根据语法规则以shift-reduce算法解析input参数，然后生成一个初始的语法树。

其中，Shift-reduce算法维护了一个语法栈grammar Stack，保存了目前所匹配到的语法规则，算法分为两个步骤不停的循环，分别shift步骤和reduce步骤：

shift步骤，从input Queue取出头部词元，压入grammar Stack栈；

Reduce步骤，根据配置的语法规则遍历grammar Stack，若匹配到某条语法规则，则把右边重写为左边，放回grammar Stack中原来位置。

若在input Queue全部都读完后，grammar Stack只剩余一个元素，且根节点为<S>说明解析成功，否则解析失败，表示系统无法理解该输入所表示的意思。

在上面的语法分析树中，每个子树对应一条语法规则，子树的根节点对应该条语法规则左半部分的非终结符，child节点对应语法规则的右半部分，该条语法规则对应的信息data绑定在根节点上。

注意，当以shift-reduce算法解析input时，每次碰到实体词元时，会从entities属性中取出对应的实体信息，然后合并到该条语法规则的data.info参数中，此步骤称之为“实体信息注入”。

创建语义分析树的步骤包括：树中的每个中间节点绑定了语法规则定义的附加信息和实体识别后的实体信息。在这一步，对初始的语法树进行语义操作，使之完善成最终的“信息树”。

该算法是一递归算法，采用深度优先规则，首先依次对各个子树进行语义操作，当所有子树都完善后，再对根树进行语义操作。

目前有两种创建语义分析树的操作，分别是：

(1)combine(合并操作)：把所有子节点绑定的data.info属性合并到父节点的data.info属性中；

(2)disambiguate(消歧义操作)：若父节点的data中指定了entity Type属性，那么遍历所有一级子节点的data属性，若子节点中含有以非entity Type为前缀的属性名，则把该属性从data中删去；

当新增语义操作时，需要提供：

(1)语义名称(semanteme，字符串类型，全局保持唯一)；

(2)实现了operate(tree)接口的一个语义处理器。并配置在配置文件semanteme.config中。

当系统初始化时，会读取semanteme.config配置文件，然后生成一个语义映射表semantMap保存在内存中，semantMap的key为语义名称，value为对应的处理器。

当最终的语法树生成后，句法分析模块宣告结束，此时处理的最终信息都保存在根节点的data属性中，把该data保存的数据返回给下一个数据查询模块即可

下面是对初始语法树执行语义操作，从而生成最终完善的信息语法树的具体算法：

检查根节点，若是叶子节点，直接返回，否则转2)；

取出根节点的data.acts列表(语义列表)，然后根据semantMap映射表，对根节点的所有一级子节点依次执行data.acts所指定的语义操作。

另外，对于根据本发明的语音识别方案的影响提出一些解决办法，包括：

(1)对于实体信息的识别，通过trie树插入实体信息的内容。

trie树插入内容包括：

(i)客户/联系人名称以及对应的全拼，叶子节点绑定对应实体的id信息和type信息；

(ii)所有实体的枚举属性值，叶子节点绑定对应的属性名；

(iii)地址属性，根据全国省市区列表，把所有的省市区分名称分别插入trie树，叶子节点绑定其上级和下级信息。

(2)实体/属性模糊识别处理。

在插入实体名称到trie树中时，同时把其全拼也插入到trie树种，然后在叶子节点绑定其真实信息，对于姓名类的字符串，若姓名在去除了姓之后长度大于1，则把姓名去除了姓之后的全拼插入到trie树种，这样的话当进行识别时，若没有识别到结果，则把输入字符串转化为全拼模式再次进行识别即可。

另外，对地址属性的识别，采取把省市区信息全部插入trie树的策略，在提示语音识别结果后，把紧邻的地址属性视为同一个地址即可。

(3)保持trie树的数据与solr系统的数据一致性

由于solr系统的数据的经常变动，因此要保持trie树和solr系统的数据的一致性，在此，实体识别模块提供一个对外的增删改接口供solr系统的模块调用，当solr系统的数据变动时，会调用该接口通知trie树进行数据同步。

以上结合附图详细说明了本发明的技术方案，考虑到如何设计语音识别方案提高识别过程的准确率和识别效率的技术问题。因此，本发明提出了一种新的语音识别方案和一种语音识别设备，通过根据语音字符串创建单词查找树，实现了快速和准确查找，由于识别效率高且速度快，故识别过程受到环境噪声影响极小。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音字符串；

根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；

对所述词元进行所述词元属性信息分析；

根据所述词元属性信息、遍历顺序与所述词元属性信息对应的所述词元创建语义分析树，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果，

其中，所述词元属性包括实体信息、属性信息。

2.根据权利要求1所述的语音识别方法，其特征在于，根据所述语音字符串创建语法分析树，包括以下具体步骤：

将所述语音字符串根据分隔符以及获取顺序划分为包括至少一个字符串的队列；

根据所述队列的读取规则将所述至少一个字符串发送至语法栈；

根据所述预定语法规则遍历所述语法栈中的所述至少一个字符串，将符合所述预定语法规则的所述至少一个字符串中的任一字符串合并为一个可识别元素，将不符合所述预定语法规则的所述至少一个字符串作为不可识别元素，其中，可识别元素中的字符串作为所述词元。

3.根据权利要求1所述的语音识别方法，其特征在于，根据所述属性信息、遍历顺序与所述属性信息对应的所述词元创建所述语义分析树，包括以下具体步骤：

判断所述词元是否包括词元属性定义，包括：

在判定所述词元包括词元属性定义时，判断所述语义分析树中的所述属性信息是否具备相同所述词元属性定义；

在判定所述语义分析树中的所述属性信息具备相同所述词元属性定义时，根据遍历顺序将具备相同所述词元属性定义的所述属性信息合并至总属性信息文档，所述总属性信息文档作为所述语音识别结果提示给用户，其中，所述属性信息即为所述语义分析树的节点。

4.根据权利要求3所述的语音识别方法，其特征在于，判断所述词元是否包括词元属性定义，还包括以下具体步骤：

在判定所述词元不包括词元属性定义时，根据遍历顺序将所述属性信息以及所述属性信息对应的词元信息合并至总属性信息文档，其中，所述属性信息即为所述语义分析树的节点。

5.一种语音识别系统，其特征在于，包括：

获取单元，用于获取语音字符串；

创建单元，用于根据所述语音字符串创建语法分析树，所述语法分析树用于判断所述语音字符串是否能够被初次识别以及解析所述语音字符串中的至少一个词元的词元属性信息；

分析单元，用于对所述词元进行所述词元属性信息分析；

所述创建单元还用于，根据所述词元属性信息、遍历顺序与所述词元属性信息对应的所述词元创建语义分析树，所述语义分析树根据解析的所述词元属性信息获取预存储属性信息以创建语音识别结果，

其中，所述词元属性包括实体信息、属性信息。

6.根据权利要求5所述的语音识别系统，其特征在于，包括：

划分单元，用于将所述语音字符串根据分隔符以及获取顺序划分为包括至少一个字符串的队列；

发送单元，用于根据所述队列的读取规则将所述至少一个字符串发送至语法栈；

合并单元，用于根据所述预定语法规则遍历所述语法栈中的所述至少一个字符串，将符合所述预定语法规则的所述至少一个字符串中的任一字符串合并为一个可识别元素，将不符合所述预定语法规则的所述至少一个字符串作为不可识别元素，其中，可识别元素中的字符串作为所述词元。

7.根据权利要求5所述的语音识别系统，其特征在于，包括：

判断单元，用于判断所述词元是否包括词元属性定义，所述判断单元还用于，在判定所述词元包括词元属性定义时，判断所述语义分析树中的所述属性信息是否具备相同所述词元属性定义；

所述合并单元还用于，在判定所述语义分析树中的所述属性信息具备相同所述词元属性定义时，根据遍历顺序将具备相同所述词元属性定义的所述属性信息合并至总属性信息文档，所述总属性信息文档作为所述语音识别结果提示给用户，其中，所述属性信息即为所述语义分析树的节点。

8.根据权利要求7所述的语音识别系统，其特征在于，所述合并单元还用于，在判定所述词元不包括词元属性定义时，根据遍历顺序将所述属性信息以及所述属性信息对应的词元信息合并至总属性信息文档，其中，所述属性信息即为所述语义分析树的节点。

9.一种语音识别设备，其特征在于，包括：如权利要求5至8中任一项所述的语音识别系统。