CN105244024B

CN105244024B - 一种语音识别方法及装置

Info

Publication number: CN105244024B
Application number: CN201510557023.7A
Authority: CN
Inventors: 李裕东; 颜振祥; 郎文静; 陈凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2019-04-05
Anticipated expiration: 2035-09-02
Also published as: CN105244024A

Abstract

本发明实施例公开了一种语音识别方法及装置。该方法包括：识别输入的语音信息得到多条语音识别候选结果，并获得多条语音识别候选结果对应的搜索结果；抽取多条语音识别候选结果的解码特征和语义特征，并抽取搜索结果的展现特征；依据抽取得到的解码特征、语义特征和展现特征，从多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。本发明实施例提供的技术方案，通过综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征，确定语音信息的最佳语音识别结果，相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果，提高了最佳语音识别结果的准确率。

Description

一种语音识别方法及装置

技术领域

本发明实施例属于语音识别技术，涉及一种语音识别方法及装置。

背景技术

随着信息技术的发展，语音识别技术已经走入了人们的生活。例如，搜索引擎对用户输入的语音信息进行识别得到多条语音识别候选结果，再依据首位语音识别候选结果进行搜索，即，目前实现了基于语音识别的搜索技术。

但是，由于语音识别中语言模型、语音解码器的局限性，会存在首位语音识别候选结果不是语音信息最佳识别结果的情况，从而导致依据首位语音识别候选结果进行搜索无法得到正确的搜索结果。

发明内容

本发明实施例的目的是提出一种语音识别方法及装置，以提高语音识别的准确率。

一方面，本发明实施例提供了一种语音识别方法，包括：

识别输入的语音信息得到多条语音识别候选结果，并获得所述多条语音识别候选结果对应的搜索结果；

抽取所述多条语音识别候选结果的解码特征和语义特征，并抽取所述搜索结果的展现特征；

依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

另一方面，本发明实施例提供了一种语音识别装置，包括：

语音识别单元，用于识别输入的语音信息得到多条语音识别候选结果；

搜索结果单元，用于获得所述多条语音识别候选结果对应的搜索结果；

解码特征单元，用于抽取所述多条语音识别候选结果的解码特征；

语义特征单元，用于抽取所述多条语音识别候选结果的语义特征；

展现特征单元，用于抽取所述搜索结果的展现特征；

最佳结果单元，用于依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

本发明实施例提供的技术方案，通过综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征，来确定语音信息的最佳语音识别结果，相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果，提高了最佳语音识别结果的准确率。

附图说明

图1a为本发明实施例一提供的一种语音识别方法的流程示意图；

图1b是本发明实施例一中提供的语音识别候选结果的特征抽取原理示意图；

图1c是本发明实施例一中提供的分类器的原理示意图。

图2为本发明实施例二提供的一种语音识别方法的流程示意图；

图3为本发明实施例三提供的一种语音识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a为本发明实施例一提供的一种语音识别方法的流程示意图。本实施例可适用于用户想要识别语音信息的情况。该方法可由语音识别装置执行。参见图1a，本实施例提供的语音识别方法具体包括如下：

S11、识别输入的语音信息得到多条语音识别候选结果，并获得所述多条语音识别候选结果对应的搜索结果。

具体的，可以在用户点击预设的语音输入图标时，例如，用户点击浏览器查询页面的语音输入图标时，获取用户输入的语音信息，基于采用机器学习算法预先构建的语言模型对用户输入的语音信息进行识别获得语音信息对应的多条语音识别候选结果，将各语音识别候选结果作为查询词，搜索得到各语音识别候选结果对应的各搜索结果。其中，语音信息对应的语音识别候选结果的数量可以是设定数值N，获得的N条语音识别候选结果可以存储于最佳N(N-Best)条识别结果列表中，对语音识别候选结果的存储方式不作具体限定。

S12、抽取所述多条语音识别候选结果的解码特征和语义特征，并抽取所述搜索结果的展现特征。

图1b是本发明实施例一中提供的语音识别候选结果的特征抽取原理示意图。如图1b所示，抽取所述多条语音识别候选结果的解码特征，可以包括：获取各语音识别候选结果的语音识别特征和语言模型得分，作为语音识别候选结果的解码特征。所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。

在本实施例中，语言模型得分用于表示语音信息与语音识别候选结果之间的语言相似度，采用预设的语言模型得分计算规则计算语音识别候选结果包含的每个词语的语言模型得分，将每个词语的语言模型得分进行相加得到语音识别候选结果的语言模型得分。置信度是在语音识别过程中获得的，用于表示各语言识别结果与语音信息之间的匹配度，置信度的值可以采用设定范围内的数值表示。

在本实施例中，语义特征可以是语音结果对应的词性或语法信息，语音信息的词性应与语音信息对应的语音识别结果的词性一致，例如，拼音为zhangsan的语音信息的词性是名词，那么该语音信息对应的语音识别结果的词性也须是名词，另外，语音识别结果需符合语法规定。

示例性的，所述展现特征包括搜索结果数或搜索结果相关性，展现特征可以用来表征获取的搜索结果质量，从而表征对应的语音识别候选结果质量。搜索相关性用于表示搜索结果与语音识别候选结果之间的相关度。

S13、依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

示例性的，依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果，包括：依据抽取得到的解码特征、语义特征和展现特征，获得各语音识别候选结果的准确度评分；根据获得的各语音识别候选结果的准确度评分，从所述多条语音识别候选结果中确定最佳语音识别结果。

图1c是本发明实施例一中提供的分类器的原理示意图。如图1c所示，分类器的输入项包括各语音识别候选结果对应的搜索结果的展现特征、各语音识别候选结果的语义特征、语音识别特征和语言模型得分，分类器采用预先使用机器学习算法得到的各输入值的系数，确定并输出各语音识别候选结果的准确度评分，分类器可以采用预先获得的大量语音信息及语音信息的最佳语音识别结果训练得到。随后，分类器将最高准确度评分值对应的语音识别候选结果，作为所述多条语音识别候选结果中的最佳语音识别结果。

本发明提供的语音识别方法，通过获取语音信息的各语音识别候选结果对应的搜索结果，抽取得到搜索结果的展现特征以及语音识别候选结果的解码特征和语义特征，并综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征，来确定语音信息的最佳语音识别结果，相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果，提高了最佳语音识别结果的准确率。

实施例二

本实施例在上述实施例一的基础上提供了一种新的语音识别方法。图2为本发明实施例二提供的一种语音识别方法的流程示意图。参见图2，本实施例提供的语音识别方法具体包括如下：

S21、识别输入的语音信息得到多条语音识别候选结果。

S22、将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词，搜索得到首位搜索结果。

S23、监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时，获得所述多条语音识别候选结果对应的搜索结果。

具体的，可以在首位搜索结果的结果数小于设定结果数阀值或搜索结果相关性小于设定结果相关度阀值时，确定首位搜索结果的展现特征满足设定的错误搜索条件，也可以在首位搜索结果的语言模型得分小于设定语言模型得分阀值时，确定首位搜索结果的展现特征满足设定的错误搜索条件。并且，在监测到满足错误搜索条件时，获得所述多条语音识别候选结果对应的搜索结果。

S24、抽取所述多条语音识别候选结果的解码特征和语义特征，并抽取所述搜索结果的展现特征。

S25、依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

具体的，可以将获得的最佳语音识别结果放置在所述多条语音识别候选结果的首位。

S26、将确定的最佳语音识别结果作为查询词，搜索得到所述语音信息的最佳搜索结果。

本发明提供的语音识别方法，在监测到满足错误搜索条件时，通过获取语音信息的每条语音识别候选结果对应的搜索结果，抽取得到搜索结果的展现特征以及语音识别候选结果的解码特征和语义特征，并综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征，来确定语音信息的最佳语音识别结果，且得到语音信息对应的最佳搜索结果，相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果，提高了最佳语音识别结果的准确率以及语音搜索的准确率。

实施例三

图3为本发明实施例三提供的一种语音识别装置的结构示意图。本实施例可适用于用户想要识别语音信息的情况。参见图3，该语音识别装置的具体结构如下：

语音识别单元31，用于识别输入的语音信息得到多条语音识别候选结果；

搜索结果单元32，用于获得所述多条语音识别候选结果对应的搜索结果；

解码特征单元33，用于抽取所述多条语音识别候选结果的解码特征；

语义特征单元34，用于抽取所述多条语音识别候选结果的语义特征；

展现特征单元35，用于抽取所述搜索结果的展现特征；

最佳结果单元36，用于依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

示例性的，所述搜索结果单元32可以包括：

第一搜索结果子单元，用于将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词，搜索得到首位搜索结果；

第二搜索结果子单元，用于监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时，获得所述多条语音识别候选结果对应的搜索结果。

示例性的，所述解码特征单元33具体可以用于：

获取各语音识别候选结果的语音识别特征和语言模型得分，作为语音识别候选结果的解码特征。

示例性的，所述展现特征可以包括搜索结果数或搜索结果相关性。

示例性的，所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。

示例性的，所述最佳结果单元36可以包括：

评分获得子单元，用于依据抽取得到的解码特征、语义特征和展现特征，获得各语音识别候选结果的准确度评分；

最佳结果子单元，用于根据获得的各语音识别候选结果的准确度评分，从所述多条语音识别候选结果中确定最佳语音识别结果。

示例性的，该语音识别装置还可以包括：

最佳搜索单元，用于在依据抽取得到的解码特征、语义特征和展现特征，从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果之后，将确定的最佳语音识别结果作为查询词，搜索得到所述语音信息的最佳搜索结果。

上述语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的语音识别方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，包括：

将抽取得到的解码特征、语义特征和展现特征输入分类器，所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

2.根据权利要求1所述的方法，其特征在于，获得所述多条语音识别候选结果对应的搜索结果，包括：

将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词，搜索得到首位搜索结果；

监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时，获得所述多条语音识别候选结果对应的搜索结果。

3.根据权利要求1所述的方法，其特征在于，抽取所述多条语音识别候选结果的解码特征，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述展现特征包括搜索结果数或搜索结果相关性。

5.根据权利要求3所述的方法，其特征在于，所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。

6.根据权利要求1-3任一项所述的方法，其特征在于，将抽取得到的解码特征、语义特征和展现特征输入分类器，所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果，包括：

依据抽取得到的解码特征、语义特征和展现特征，获得各语音识别候选结果的准确度评分；

根据获得的各语音识别候选结果的准确度评分，从所述多条语音识别候选结果中确定最佳语音识别结果。

7.根据权利要求1-3任一项所述的方法，其特征在于，将抽取得到的解码特征、语义特征和展现特征输入分类器，所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果之后，还包括：

将确定的最佳语音识别结果作为查询词，搜索得到所述语音信息的最佳搜索结果。

8.一种语音识别装置，其特征在于，包括：

展现特征单元，用于抽取所述搜索结果的展现特征；

最佳结果单元，用于将依据抽取得到的解码特征、语义特征和展现特征输入分类器，所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

9.根据权利要求8所述的装置，其特征在于，所述搜索结果单元包括：

10.根据权利要求8所述的装置，其特征在于，所述解码特征单元具体用于：

11.根据权利要求8或9所述的装置，其特征在于，所述展现特征包括搜索结果数或搜索结果相关性。

12.根据权利要求10所述的装置，其特征在于，所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。

13.根据权利要求8-10任一项所述的装置，其特征在于，所述最佳结果单元包括：

14.根据权利要求8-10任一项所述的装置，其特征在于，还包括：

最佳搜索单元，用于在将抽取得到的解码特征、语义特征和展现特征输入分类器，所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果之后，将确定的最佳语音识别结果作为查询词，搜索得到所述语音信息的最佳搜索结果。