CN105244024B - 一种语音识别方法及装置 - Google Patents
一种语音识别方法及装置 Download PDFInfo
- Publication number
- CN105244024B CN105244024B CN201510557023.7A CN201510557023A CN105244024B CN 105244024 B CN105244024 B CN 105244024B CN 201510557023 A CN201510557023 A CN 201510557023A CN 105244024 B CN105244024 B CN 105244024B
- Authority
- CN
- China
- Prior art keywords
- result
- speech recognition
- feature
- recognition candidate
- candidate result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明实施例公开了一种语音识别方法及装置。该方法包括:识别输入的语音信息得到多条语音识别候选结果,并获得多条语音识别候选结果对应的搜索结果;抽取多条语音识别候选结果的解码特征和语义特征,并抽取搜索结果的展现特征;依据抽取得到的解码特征、语义特征和展现特征,从多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。本发明实施例提供的技术方案,通过综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,确定语音信息的最佳语音识别结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率。
Description
技术领域
本发明实施例属于语音识别技术,涉及一种语音识别方法及装置。
背景技术
随着信息技术的发展,语音识别技术已经走入了人们的生活。例如,搜索引擎对用户输入的语音信息进行识别得到多条语音识别候选结果,再依据首位语音识别候选结果进行搜索,即,目前实现了基于语音识别的搜索技术。
但是,由于语音识别中语言模型、语音解码器的局限性,会存在首位语音识别候选结果不是语音信息最佳识别结果的情况,从而导致依据首位语音识别候选结果进行搜索无法得到正确的搜索结果。
发明内容
本发明实施例的目的是提出一种语音识别方法及装置,以提高语音识别的准确率。
一方面,本发明实施例提供了一种语音识别方法,包括:
识别输入的语音信息得到多条语音识别候选结果,并获得所述多条语音识别候选结果对应的搜索结果;
抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征;
依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
另一方面,本发明实施例提供了一种语音识别装置,包括:
语音识别单元,用于识别输入的语音信息得到多条语音识别候选结果;
搜索结果单元,用于获得所述多条语音识别候选结果对应的搜索结果;
解码特征单元,用于抽取所述多条语音识别候选结果的解码特征;
语义特征单元,用于抽取所述多条语音识别候选结果的语义特征;
展现特征单元,用于抽取所述搜索结果的展现特征;
最佳结果单元,用于依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
本发明实施例提供的技术方案,通过综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,来确定语音信息的最佳语音识别结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率。
附图说明
图1a为本发明实施例一提供的一种语音识别方法的流程示意图;
图1b是本发明实施例一中提供的语音识别候选结果的特征抽取原理示意图;
图1c是本发明实施例一中提供的分类器的原理示意图。
图2为本发明实施例二提供的一种语音识别方法的流程示意图;
图3为本发明实施例三提供的一种语音识别装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a为本发明实施例一提供的一种语音识别方法的流程示意图。本实施例可适用于用户想要识别语音信息的情况。该方法可由语音识别装置执行。参见图1a,本实施例提供的语音识别方法具体包括如下:
S11、识别输入的语音信息得到多条语音识别候选结果,并获得所述多条语音识别候选结果对应的搜索结果。
具体的,可以在用户点击预设的语音输入图标时,例如,用户点击浏览器查询页面的语音输入图标时,获取用户输入的语音信息,基于采用机器学习算法预先构建的语言模型对用户输入的语音信息进行识别获得语音信息对应的多条语音识别候选结果,将各语音识别候选结果作为查询词,搜索得到各语音识别候选结果对应的各搜索结果。其中,语音信息对应的语音识别候选结果的数量可以是设定数值N,获得的N条语音识别候选结果可以存储于最佳N(N-Best)条识别结果列表中,对语音识别候选结果的存储方式不作具体限定。
S12、抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征。
图1b是本发明实施例一中提供的语音识别候选结果的特征抽取原理示意图。如图1b所示,抽取所述多条语音识别候选结果的解码特征,可以包括:获取各语音识别候选结果的语音识别特征和语言模型得分,作为语音识别候选结果的解码特征。所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。
在本实施例中,语言模型得分用于表示语音信息与语音识别候选结果之间的语言相似度,采用预设的语言模型得分计算规则计算语音识别候选结果包含的每个词语的语言模型得分,将每个词语的语言模型得分进行相加得到语音识别候选结果的语言模型得分。置信度是在语音识别过程中获得的,用于表示各语言识别结果与语音信息之间的匹配度,置信度的值可以采用设定范围内的数值表示。
在本实施例中,语义特征可以是语音结果对应的词性或语法信息,语音信息的词性应与语音信息对应的语音识别结果的词性一致,例如,拼音为zhangsan的语音信息的词性是名词,那么该语音信息对应的语音识别结果的词性也须是名词,另外,语音识别结果需符合语法规定。
示例性的,所述展现特征包括搜索结果数或搜索结果相关性,展现特征可以用来表征获取的搜索结果质量,从而表征对应的语音识别候选结果质量。搜索相关性用于表示搜索结果与语音识别候选结果之间的相关度。
S13、依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
示例性的,依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果,包括:依据抽取得到的解码特征、语义特征和展现特征,获得各语音识别候选结果的准确度评分;根据获得的各语音识别候选结果的准确度评分,从所述多条语音识别候选结果中确定最佳语音识别结果。
图1c是本发明实施例一中提供的分类器的原理示意图。如图1c所示,分类器的输入项包括各语音识别候选结果对应的搜索结果的展现特征、各语音识别候选结果的语义特征、语音识别特征和语言模型得分,分类器采用预先使用机器学习算法得到的各输入值的系数,确定并输出各语音识别候选结果的准确度评分,分类器可以采用预先获得的大量语音信息及语音信息的最佳语音识别结果训练得到。随后,分类器将最高准确度评分值对应的语音识别候选结果,作为所述多条语音识别候选结果中的最佳语音识别结果。
本发明提供的语音识别方法,通过获取语音信息的各语音识别候选结果对应的搜索结果,抽取得到搜索结果的展现特征以及语音识别候选结果的解码特征和语义特征,并综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,来确定语音信息的最佳语音识别结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率。
实施例二
本实施例在上述实施例一的基础上提供了一种新的语音识别方法。图2为本发明实施例二提供的一种语音识别方法的流程示意图。参见图2,本实施例提供的语音识别方法具体包括如下:
S21、识别输入的语音信息得到多条语音识别候选结果。
S22、将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词,搜索得到首位搜索结果。
S23、监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时,获得所述多条语音识别候选结果对应的搜索结果。
具体的,可以在首位搜索结果的结果数小于设定结果数阀值或搜索结果相关性小于设定结果相关度阀值时,确定首位搜索结果的展现特征满足设定的错误搜索条件,也可以在首位搜索结果的语言模型得分小于设定语言模型得分阀值时,确定首位搜索结果的展现特征满足设定的错误搜索条件。并且,在监测到满足错误搜索条件时,获得所述多条语音识别候选结果对应的搜索结果。
S24、抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征。
S25、依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
具体的,可以将获得的最佳语音识别结果放置在所述多条语音识别候选结果的首位。
S26、将确定的最佳语音识别结果作为查询词,搜索得到所述语音信息的最佳搜索结果。
本发明提供的语音识别方法,在监测到满足错误搜索条件时,通过获取语音信息的每条语音识别候选结果对应的搜索结果,抽取得到搜索结果的展现特征以及语音识别候选结果的解码特征和语义特征,并综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,来确定语音信息的最佳语音识别结果,且得到语音信息对应的最佳搜索结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率以及语音搜索的准确率。
实施例三
图3为本发明实施例三提供的一种语音识别装置的结构示意图。本实施例可适用于用户想要识别语音信息的情况。参见图3,该语音识别装置的具体结构如下:
语音识别单元31,用于识别输入的语音信息得到多条语音识别候选结果;
搜索结果单元32,用于获得所述多条语音识别候选结果对应的搜索结果;
解码特征单元33,用于抽取所述多条语音识别候选结果的解码特征;
语义特征单元34,用于抽取所述多条语音识别候选结果的语义特征;
展现特征单元35,用于抽取所述搜索结果的展现特征;
最佳结果单元36,用于依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
示例性的,所述搜索结果单元32可以包括:
第一搜索结果子单元,用于将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词,搜索得到首位搜索结果;
第二搜索结果子单元,用于监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时,获得所述多条语音识别候选结果对应的搜索结果。
示例性的,所述解码特征单元33具体可以用于:
获取各语音识别候选结果的语音识别特征和语言模型得分,作为语音识别候选结果的解码特征。
示例性的,所述展现特征可以包括搜索结果数或搜索结果相关性。
示例性的,所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。
示例性的,所述最佳结果单元36可以包括:
评分获得子单元,用于依据抽取得到的解码特征、语义特征和展现特征,获得各语音识别候选结果的准确度评分;
最佳结果子单元,用于根据获得的各语音识别候选结果的准确度评分,从所述多条语音识别候选结果中确定最佳语音识别结果。
示例性的,该语音识别装置还可以包括:
最佳搜索单元,用于在依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果之后,将确定的最佳语音识别结果作为查询词,搜索得到所述语音信息的最佳搜索结果。
上述语音识别装置可执行本发明任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的语音识别方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (14)
1.一种语音识别方法,其特征在于,包括:
识别输入的语音信息得到多条语音识别候选结果,并获得所述多条语音识别候选结果对应的搜索结果;
抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征;
将抽取得到的解码特征、语义特征和展现特征输入分类器,所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
2.根据权利要求1所述的方法,其特征在于,获得所述多条语音识别候选结果对应的搜索结果,包括:
将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词,搜索得到首位搜索结果;
监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时,获得所述多条语音识别候选结果对应的搜索结果。
3.根据权利要求1所述的方法,其特征在于,抽取所述多条语音识别候选结果的解码特征,包括:
获取各语音识别候选结果的语音识别特征和语言模型得分,作为语音识别候选结果的解码特征。
4.根据权利要求1或2所述的方法,其特征在于,所述展现特征包括搜索结果数或搜索结果相关性。
5.根据权利要求3所述的方法,其特征在于,所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。
6.根据权利要求1-3任一项所述的方法,其特征在于,将抽取得到的解码特征、语义特征和展现特征输入分类器,所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果,包括:
依据抽取得到的解码特征、语义特征和展现特征,获得各语音识别候选结果的准确度评分;
根据获得的各语音识别候选结果的准确度评分,从所述多条语音识别候选结果中确定最佳语音识别结果。
7.根据权利要求1-3任一项所述的方法,其特征在于,将抽取得到的解码特征、语义特征和展现特征输入分类器,所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果之后,还包括:
将确定的最佳语音识别结果作为查询词,搜索得到所述语音信息的最佳搜索结果。
8.一种语音识别装置,其特征在于,包括:
语音识别单元,用于识别输入的语音信息得到多条语音识别候选结果;
搜索结果单元,用于获得所述多条语音识别候选结果对应的搜索结果;
解码特征单元,用于抽取所述多条语音识别候选结果的解码特征;
语义特征单元,用于抽取所述多条语音识别候选结果的语义特征;
展现特征单元,用于抽取所述搜索结果的展现特征;
最佳结果单元,用于将依据抽取得到的解码特征、语义特征和展现特征输入分类器,所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。
9.根据权利要求8所述的装置,其特征在于,所述搜索结果单元包括:
第一搜索结果子单元,用于将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词,搜索得到首位搜索结果;
第二搜索结果子单元,用于监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时,获得所述多条语音识别候选结果对应的搜索结果。
10.根据权利要求8所述的装置,其特征在于,所述解码特征单元具体用于:
获取各语音识别候选结果的语音识别特征和语言模型得分,作为语音识别候选结果的解码特征。
11.根据权利要求8或9所述的装置,其特征在于,所述展现特征包括搜索结果数或搜索结果相关性。
12.根据权利要求10所述的装置,其特征在于,所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。
13.根据权利要求8-10任一项所述的装置,其特征在于,所述最佳结果单元包括:
评分获得子单元,用于依据抽取得到的解码特征、语义特征和展现特征,获得各语音识别候选结果的准确度评分;
最佳结果子单元,用于根据获得的各语音识别候选结果的准确度评分,从所述多条语音识别候选结果中确定最佳语音识别结果。
14.根据权利要求8-10任一项所述的装置,其特征在于,还包括:
最佳搜索单元,用于在将抽取得到的解码特征、语义特征和展现特征输入分类器,所述分类器从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果之后,将确定的最佳语音识别结果作为查询词,搜索得到所述语音信息的最佳搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510557023.7A CN105244024B (zh) | 2015-09-02 | 2015-09-02 | 一种语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510557023.7A CN105244024B (zh) | 2015-09-02 | 2015-09-02 | 一种语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105244024A CN105244024A (zh) | 2016-01-13 |
CN105244024B true CN105244024B (zh) | 2019-04-05 |
Family
ID=55041646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510557023.7A Active CN105244024B (zh) | 2015-09-02 | 2015-09-02 | 一种语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105244024B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065020B (zh) * | 2018-07-28 | 2020-11-20 | 重庆柚瓣家科技有限公司 | 多语言类别的识别库匹配方法及系统 |
CN109003600B (zh) * | 2018-08-02 | 2021-06-08 | 科大讯飞股份有限公司 | 消息处理方法及装置 |
CN110517693B (zh) * | 2019-08-01 | 2022-03-04 | 出门问问(苏州)信息科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN111613219B (zh) * | 2020-05-15 | 2023-10-27 | 深圳前海微众银行股份有限公司 | 语音数据识别方法、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1560834A (zh) * | 2004-03-09 | 2005-01-05 | 北京沃克斯科技有限责任公司 | 一种口语识别理解的语法描述与识别分析的方法 |
CN102968987A (zh) * | 2012-11-19 | 2013-03-13 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及系统 |
CN103092887A (zh) * | 2011-11-07 | 2013-05-08 | 联想(北京)有限公司 | 电子设备及其语音信息提供方法 |
CN103677729A (zh) * | 2013-12-18 | 2014-03-26 | 北京搜狗科技发展有限公司 | 一种语音输入方法和系统 |
CN104392721A (zh) * | 2014-11-28 | 2015-03-04 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于语音识别的智能应急指挥系统及其语音识别方法 |
CN104424290A (zh) * | 2013-09-02 | 2015-03-18 | 佳能株式会社 | 基于语音的问答系统和用于交互式语音系统的方法 |
CN104731918A (zh) * | 2015-03-25 | 2015-06-24 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598445B (zh) * | 2013-11-01 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
-
2015
- 2015-09-02 CN CN201510557023.7A patent/CN105244024B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1560834A (zh) * | 2004-03-09 | 2005-01-05 | 北京沃克斯科技有限责任公司 | 一种口语识别理解的语法描述与识别分析的方法 |
CN103092887A (zh) * | 2011-11-07 | 2013-05-08 | 联想(北京)有限公司 | 电子设备及其语音信息提供方法 |
CN102968987A (zh) * | 2012-11-19 | 2013-03-13 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及系统 |
CN104424290A (zh) * | 2013-09-02 | 2015-03-18 | 佳能株式会社 | 基于语音的问答系统和用于交互式语音系统的方法 |
CN103677729A (zh) * | 2013-12-18 | 2014-03-26 | 北京搜狗科技发展有限公司 | 一种语音输入方法和系统 |
CN104392721A (zh) * | 2014-11-28 | 2015-03-04 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于语音识别的智能应急指挥系统及其语音识别方法 |
CN104731918A (zh) * | 2015-03-25 | 2015-06-24 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105244024A (zh) | 2016-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106328147B (zh) | 语音识别方法和装置 | |
KR101537370B1 (ko) | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 | |
CN104598644B (zh) | 喜好标签挖掘方法和装置 | |
US10515292B2 (en) | Joint acoustic and visual processing | |
EP3179475A1 (en) | Voice wakeup method, apparatus and system | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN105979376A (zh) | 一种推荐方法和装置 | |
KR101581816B1 (ko) | 기계학습을 이용한 음성인식방법 | |
CN105244024B (zh) | 一种语音识别方法及装置 | |
WO2018040059A1 (en) | Clip content categorization | |
RU2017122991A (ru) | Различение неоднозначных выражений для улучшения взаимодействия с пользователем | |
CN105551485B (zh) | 语音文件检索方法及系统 | |
CN105354300A (zh) | 一种信息推荐方法及装置 | |
CN107077843A (zh) | 对话控制装置和对话控制方法 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
CN105336324A (zh) | 一种语种识别方法及装置 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
US20160071511A1 (en) | Method and apparatus of smart text reader for converting web page through text-to-speech | |
CN103164403A (zh) | 视频索引数据的生成方法和系统 | |
KR101763407B1 (ko) | 음성 대화 시스템 및 그 시스템에서의 음성 대화 방법 | |
CN109119070A (zh) | 一种语音端点检测方法、装置、设备及存储介质 | |
CN102110399A (zh) | 一种辅助解说的方法、装置及其系统 | |
JP2015219583A (ja) | 話題決定装置、発話装置、方法、及びプログラム | |
CN109829045A (zh) | 一种问答方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |