CN103106900A

CN103106900A - 语音识别装置和语音识别方法

Info

Publication number: CN103106900A
Application number: CN2013100628463A
Authority: CN
Inventors: 王杰
Original assignee: Yonyou Software Co Ltd
Current assignee: Yonyou Software Co Ltd
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2013-05-15
Anticipated expiration: 2033-02-28
Also published as: CN103106900B

Abstract

本发明提供了一种语音识别装置包括：语音识别单元，识别用户语音生成语音数据；第一查询单元，在第一语音识别库中查询相匹配的第一语音指令；第一判断单元，判断第一语音指令的置信度是否大于第一阈值；第二查询单元，在判定小于的情况下，在第二语音识别库中查询相匹配的第二语音指令；计算单元，计算第一语音指令与第二语音指令的相似性；第二判断单元，判断相似性是否大于第二阈值，若小于，则判定语音数据为噪音数据；指令执行单元，在第一判断单元或第二判断单元大于的情况下，执行第一语音指令。本发明还提出了一种语音识别方法。通过本发明的技术方案，通过二次识别语音数据，减少将噪音识别为语音命令的风险，提高执行命令的准确度。

Description

语音识别装置和语音识别方法

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种语音识别装置和语音识别方法。

背景技术

在数据库多维立方体查询时需要各种语音命令（有限的几个命令），但是在嘈杂的环境下通过现有的语音识别，可能把一个不相关的发音（噪音和其他的人的声音）翻译为语音命令。

在语音命令识别中，算法只是在语法树中找到发音最相似的问题，但是在现实生活中经常出现不在命令范围内的发音（噪音和其他人的声音）等，这时有相当大的风险会把背景声音识别为命令。

因此，需要一种新的语音识别技术，能够通过二次识别语音数据，减少将噪音识别为语音命令的风险，提高执行命令的准确度。

发明内容

本发明正是基于上述问题，提出了一种语音识别技术，能够通过二次识别语音数据，减少将噪音识别为语音命令的风险，提高执行命令的准确度。

有鉴于此，本发明提出了一种语音识别装置，包括：语音识别单元，用于识别用户语音生成语音数据；第一查询单元，用于根据所述语音数据在第一语音识别库中查询相匹配的第一语音指令；第一判断单元，用于判断所述第一语音指令的置信度是否大于第一阈值；第二查询单元，用于在所述第一判断单元的判断结果为否的情况下，根据所述语音数据在第二语音识别库中查询相匹配的第二语音指令；计算单元，用于通过预设算法计算所述第一语音指令与所述第二语音指令的相似性；第二判断单元，用于判断所述相似性是否大于第二阈值，若小于，则判定所述语音数据为噪音数据；指令执行单元，用于在所述第一判断单元或所述第二判断单元的判断结果为是的情况下，执行所述第一语音指令。

在该技术方案中，在第一语音识别库中查询到第一语音指令后，可以确定第一语音指令的置信度，即语音数据与第一语音指令的相似度，相似度越高，置信度越高，反之亦然，当置信度低于第一阈值时，则认为语音数据是噪音数据的可能性较大，从而在第二语音识别库中查询第二语音指令，然后计算第一语音指令与第二语音指令的相似性，如果该相似性大于第二阈值，则认为第一语音指令与第二语音指令差距较小，在较大程度上可以判定第一语音指令是准确的，如果该相似性小于第二阈值，说明第一语音指令与第二语音指令差距较大，第一语音指令很大可能由噪音数据错误生成，即判定上述语音数据为噪音数据。

通过二次识别语音数据，可以准确地判断语音数据是否是噪音数据，从而降低将噪音识别为语音命令的风险，提高执行命令的准确度。

在上述技术方案中，优选地，所述计算单元通过余弦相似性比较算法、修正的余弦相似性比较算法或相关相似性比较算法计算所述第一语音指令与所述第二语音指令的相似性。

在上述技术方案中，优选地，所述第二语音识别库中的词汇数据量大于所述第一语音识别库中的词汇数据量。

在该技术方案中，第一语音识别库可以是一个较小的语法库，比如指令语法库，在其中查询语音数据只能僵硬地生成语音指令数据，第二语音识别库可以是一个较大的语法库，比如自然语法库，在其中查询语音数据可以比较准确地生成相应的语音指令。

根据一条语音数据在指令语法库中进行查询可以生成一条指令，如果该指令的置信度小于第一阈值，则根据该语音数据在自然语法库中查询可以生成一段语句（不一定是指令），这段语句相对于上述指令更接近于该语音数据，当该语句与该指令的相似性大于第二阈值时，则可以判定该指令接近于语音数据，可以执行，如果小于第二阈值，则指令很大可能由噪音数据错误生成，即判定上述语音数据为噪音数据。

在上述任一技术方案中，优选地，还包括：设置单元，用于根据接收到的设置指令设置所述第一阈值和/或所述第二阈值。

在该技术方案中，用户可以根据具体情况设置第一阈值和/或第二阈值。

在上述任一技术方案中，优选地，还包括：显示单元，用于在所述第二判断单元判定所述语音数据为噪音数据时，显示所述第一语音指令与所述第二语音指令。

在该技术方案中，若第一语音指令与第二语音指令的相似度小于第二阈值，则可以显示第一语音指令与第二语音指令，以便用户人工判断语音数据是否的确为噪音。

本发明还提出了一种语音识别方法，包括：步骤202，识别用户语音生成语音数据，根据所述语音数据在第一语音识别库中查询相匹配的第一语音指令；步骤204，判断所述第一语音指令的置信度是否大于第一阈值，若大于，则执行所述第一语音指令，若小于，则根据所述语音数据在第二语音识别库中查询相匹配的第二语音指令；步骤206，通过预设算法计算所述第一语音指令与所述第二语音指令的相似性，并判断所述相似性是否大于第二阈值，若大于，则执行所述第一语音指令，若小于，则判定所述语音数据为噪音数据。

在上述技术方案中，优选地，所述步骤206包括：通过余弦相似性比较算法、修正的余弦相似性比较算法或相关相似性比较算法计算所述第一语音指令与所述第二语音指令的相似性。

在上述任一技术方案中，优选地，还包括：根据接收到的设置指令设置所述第一阈值和/或所述第二阈值。

在上述任一技术方案中，优选地，还包括：在判定所述语音数据为噪音数据时，显示所述第一语音指令与所述第二语音指令。

通过以上技术方案，可以通过二次识别语音数据，减少将噪音识别为语音命令的风险，提高执行命令的准确度。

附图说明

图1示出了根据本发明的实施例的语音识别装置的框图；

图2示出了根据本发明的实施例的语音识别方法的流程图；

图3示出了根据本发明的实施例的语音识别方法的具体流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的语音识别装置的框图。

如图1所示，根据本发明的实施例的语音识别装置100包括：语音识别单元102，用于识别用户语音生成语音数据；第一查询单元104，用于根据语音数据在第一语音识别库中查询相匹配的第一语音指令；第一判断单元106，用于判断第一语音指令的置信度是否大于第一阈值；第二查询单元108，用于在第一判断单元106的判断结果为否的情况下，根据语音数据在第二语音识别库中查询相匹配的第二语音指令；计算单元110，用于通过预设算法计算第一语音指令与第二语音指令的相似性；第二判断单元112，用于判断相似性是否大于第二阈值，若小于，则判定语音数据为噪音数据；指令执行单元114，用于在第一判断单元106或第二判断单元112的判断结果为是的情况下，执行第一语音指令。

在第一语音识别库中查询到第一语音指令后，可以确定第一语音指令的置信度，即语音数据与第一语音指令的相似度，相似度越高，置信度越高，反之亦然，当置信度低于第一阈值时，则认为语音数据是噪音数据的可能性较大，从而在第二语音识别库中查询第二语音指令，然后计算第一语音指令与第二语音指令的相似性，如果该相似性大于第二阈值，则认为第一语音指令与第二语音指令差距较小，在较大程度上可以判定第一语音指令是准确的，如果该相似性小于第二阈值，说明第一语音指令与第二语音指令差距较大，第一语音指令很大可能由噪音数据错误生成，即判定上述语音数据为噪音数据。

优选地，计算单元110通过余弦相似性比较算法、修正的余弦相似性比较算法或相关相似性比较算法计算第一语音指令与第二语音指令的相似性。

优选地，第二语音识别库中的词汇数据量大于第一语音识别库中的词汇数据量。

第一语音识别库可以是一个较小的语法库，比如指令语法库，在其中查询语音数据只能僵硬地生成语音指令数据，第二语音识别库可以是一个较大的语法库，比如自然语法库，在其中查询语音数据可以比较准确地生成相应的语音指令。

优选地，还包括：设置单元116，用于根据接收到的设置指令设置第一阈值和/或第二阈值。用户可以根据具体情况设置第一阈值和/或第二阈值。

优选地，还包括：显示单元118，用于在第二判断单元112判定所述语音数据为噪音数据时，显示所述第一语音指令与所述第二语音指令。

若第一语音指令与第二语音指令的相似度小于第二阈值，则可以显示第一语音指令与第二语音指令，以便用户人工判断语音数据是否的确为噪音。

图2示出了根据本发明的实施例的语音识别方法的流程图。

如图2所示，根据本发明的实施例的语音识别方法包括：步骤202，识别用户语音生成语音数据，根据语音数据在第一语音识别库中查询相匹配的第一语音指令；步骤204，判断第一语音指令的置信度是否大于第一阈值，若大于，则执行第一语音指令，若小于，则根据语音数据在第二语音识别库中查询相匹配的第二语音指令；步骤206，通过预设算法计算第一语音指令与第二语音指令的相似性，并判断相似性是否大于第二阈值，若大于，则执行第一语音指令，若小于，则判定语音数据为噪音数据。

优选地，步骤206包括：通过余弦相似性比较算法、修正的余弦相似性比较算法或相关相似性比较算法计算第一语音指令与第二语音指令的相似性。

优选地，还包括：根据接收到的设置指令设置第一阈值和/或第二阈值。用户可以根据具体情况设置第一阈值和/或第二阈值。

优选地，还包括：在判定语音数据为噪音数据时，显示第一语音指令与第二语音指令。

如图3所示，根据本发明的实施例的语音识别方法具体包括：

步骤302，识别用户语音，得到语音数据，并根据该语音数据在指令语法库中查询相应的语音指令；

步骤304，判断语音指令的置信度是否大于第一阈值，若大于，则进入步骤312；

步骤306，若小于，则根据语音数据，在自然语法库中查询相应的自然语句，其中，自然语法库包含指令语法库，即通过自然语法库查询到的自然语句，相对于通过指令语法库查询到的语音指令更接近于语音数据；

步骤308，通过余弦算法计算语音指令与自然语句的相似度；

步骤310，判断相似度是否大于第二阈值，其中，第一阈值和第二阈值在一定程度上反映了语音识别的准确性，阀值的准确性可以通过采集大量的实验数据进行合理的设置；

步骤312，若相似度大于第二阈值，说明语音指令和自然语句接近，判定语音指令是准确地，执行语音指令；

步骤314，若相似度小于第二阈值，说明说明语音指令和自然语句差距较大，判定语音指令是根据噪声数据误生成的，拒绝执行语音指令。

具体地，比如指令语法库包含以下命令集合：

NoCommand=“系统没能明白您说的话”；

ClearCommand=“清空”；

OpenHelpCommand=“语法帮助”；

OpenHelpCommand2=“打开语法帮助”；

CloseHelpCommand=“关闭语法帮助”；

PreTalkCommand=“上一个”；

NextTalkCommand=“下一个”；

PrePageCommand=“向前一页”；

NextPageCommand=“向后一页”；

RemoveOneCommand=“删除”；

ExportHistoryCommand=“导出历史记录”；

OkCommand=“确认”；

CancelCommand1=“取消”；

BackCommand=“返回”；

其中，第一阈值为0.7，第二阈值为0.8。当采集到用户所在环境中的一句话为：“吃饱了”，在指令语法库中查询到的最接近的语音命令为：“取消”。经过判断，该语音指令的置信度为0.3，小于第一阈值，则在自然语法库中进一步查询，得到最接近的单词是“知道了”，从发音上分析：实际发音chi bao le，与查询到的发音zhi dao le更为接近，然后通过余弦算法计算“知道了”和“取消”的相似性值为0.5，小于第二阈值，显然“取消”和“知道了”的差别较大，从而可以判断所识别到发音是一个噪音，拒绝执行命令。

以上结合附图详细说明了本发明的技术方案，考虑到相关技术中，在数据库多维立方体查询时需要各种语音命令，但是在嘈杂的环境下通过现有的语音识别，可能把一个不相关的发音（噪音）翻译为语音命令。通过本发明的技术方案，能够通过二次识别语音数据，减少将噪音识别为语音命令的风险，提高执行命令的准确度。

在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别装置，其特征在于，包括：

语音识别单元，用于识别用户语音生成语音数据；

第一查询单元，用于根据所述语音数据在第一语音识别库中查询相匹配的第一语音指令；

第一判断单元，用于判断所述第一语音指令的置信度是否大于第一阈值；

第二查询单元，用于在所述第一判断单元的判断结果为否的情况下，根据所述语音数据在第二语音识别库中查询相匹配的第二语音指令；

计算单元，用于通过预设算法计算所述第一语音指令与所述第二语音指令的相似性；

第二判断单元，用于判断所述相似性是否大于第二阈值，若小于，则判定所述语音数据为噪音数据；

指令执行单元，用于在所述第一判断单元或所述第二判断单元的判断结果为是的情况下，执行所述第一语音指令。

2.根据权利要求1所述的语音识别装置，其特征在于，所述计算单元通过余弦相似性比较算法、修正的余弦相似性比较算法或相关相似性比较算法计算所述第一语音指令与所述第二语音指令的相似性。

3.根据权利要求1所述的语音识别装置，其特征在于，所述第二语音识别库中的词汇数据量大于所述第一语音识别库中的词汇数据量。

4.根据权利要求1至3中任一项所述的语音识别装置，其特征在于，还包括：

设置单元，用于根据接收到的设置指令设置所述第一阈值和/或所述第二阈值。

5.根据权利要求1至3中任一项所述的语音识别装置，其特征在于，还包括：

显示单元，用于在所述第二判断单元判定所述语音数据为噪音数据时，显示所述第一语音指令与所述第二语音指令。

6.一种语音识别方法，其特征在于，包括：

步骤202，识别用户语音生成语音数据，根据所述语音数据在第一语音识别库中查询相匹配的第一语音指令；

步骤204，判断所述第一语音指令的置信度是否大于第一阈值，若大于，则执行所述第一语音指令，若小于，则根据所述语音数据在第二语音识别库中查询相匹配的第二语音指令；

步骤206，通过预设算法计算所述第一语音指令与所述第二语音指令的相似性，并判断所述相似性是否大于第二阈值，若大于，则执行所述第一语音指令，若小于，则判定所述语音数据为噪音数据。

7.根据权利要求6所述的语音识别方法，其特征在于，所述步骤206包括：通过余弦相似性比较算法、修正的余弦相似性比较算法或相关相似性比较算法计算所述第一语音指令与所述第二语音指令的相似性。

8.根据权利要求6所述的语音识别方法，其特征在于，所述第二语音识别库中的词汇数据量大于所述第一语音识别库中的词汇数据量。

9.根据权利要求6至8中任一项所述的语音识别方法，其特征在于，还包括：根据接收到的设置指令设置所述第一阈值和/或所述第二阈值。

10.根据权利要求6至8中任一项所述的语音识别方法，其特征在于，还包括：在判定所述语音数据为噪音数据时，显示所述第一语音指令与所述第二语音指令。