CN112133295A

CN112133295A - 语音识别方法、装置及存储介质

Info

Publication number: CN112133295A
Application number: CN202011242358.7A
Authority: CN
Inventors: 陈亮; 陈帅; 彭力
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2020-12-25
Anticipated expiration: 2040-11-09
Also published as: CN112133295B

Abstract

本公开涉及一种语音识别方法、装置及存储介质，以解决语音识别召回率较低的问题，包括：根据采集到的目标语音确定待查询实体；基于数据库的倒排索引查询待查询实体得到候选实体集；对待查询实体对应的汉字的拼音信息与候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到待查询实体对应的归一化拼音信息和每一候选实体的归一化拼音信息；将待查询实体的归一化拼音信息与每一候选实体的归一化拼音信息进行比对；若存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体，则将该候选实体作为针对待查询实体的查询结果。这样，可以有效地提高语音识别的召回率，从而保证语音查询的全面性。

Description

语音识别方法、装置及存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及语音识别方法、装置及存储介质。

背景技术

ASR(Automatic Speech Recognition，自动语音识别)是基于人类的语音，通过语音信号处理和模式识别自动识别语音中的内容，进而快速、便捷地根据该语音内容，实现相应的功能，例如声控电话等移动终端，进行信息查询、呼叫家庭服务、呼叫宾馆服务、呼叫医疗服务等，又例如，在银行服务、工业控制中实现相应的功能。尽管ASR在技术上很大的进展，但受限于ASR的算法模型、特征提取、词汇量及环境噪音等的影响，导致在语义解析和实体查询时存在差异，造成查询内容的召回率和准确率较低，因而导致语音识别的准确性较低。比如，“争奇斗艳”可能被识别成“珍奇斗艳”。并且，若对要查询的内容未能完整地表述，例如，表述的内容比实际查询的内容多字或者少字，也会导致语音识别的准确性较低。

相关技术中，为了提高查询内容的召回率和全面性，基于倒排索引字词匹配。即倒排索引出与语音内容字面上匹配字数最多的数据，然后基于TF-IDF算法进行打分排序，取分数最高的数据作为查询的内容。或者，基于距离算法进行字词匹配，即通过允许不同编辑距离误差计算两个字符串之间的相似度，根据合适的相似度值确定出查询的内容。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音识别方法、装置及存储介质，以解决相关技术中语音识别召回率较低的问题。

根据本公开实施例的第一方面，提供一种语音识别方法，包括：

根据采集到的目标语音确定待查询实体；

基于数据库的倒排索引查询所述待查询实体，得到候选实体集；

对所述待查询实体对应的汉字的拼音信息与所述候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到所述待查询实体对应的归一化拼音信息以及所述每一候选实体的归一化拼音信息，所述归一化处理用于统一所述拼音信息对平舌音和翘舌音、前鼻音和后鼻音、边音和鼻音、声母f和声母h中的一组或多组的表达方式；

将所述待查询实体的归一化拼音信息与所述每一候选实体的归一化拼音信息进行比对；并且，

若存在归一化拼音信息与所述待查询实体的所述归一化拼音信息一致的候选实体，则将该候选实体作为针对所述待查询实体的查询结果。

根据本公开实施例的第二方面，提供一种语音识别装置，包括：

确定模块，被配置为根据采集到的目标语音确定待查询实体；

查询模块，被配置为基于数据库的倒排索引查询所述待查询实体，得到候选实体集；

处理模块，被配置为对所述待查询实体对应的汉字的拼音信息与所述候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到所述待查询实体对应的归一化拼音信息以及所述每一候选实体的归一化拼音信息，所述归一化处理用于统一所述拼音信息对平舌音和翘舌音、前鼻音和后鼻音、边音和鼻音、声母f和声母h中的一组或多组的表达方式；

比对模块，被配置为将所述待查询实体的归一化拼音信息与所述每一候选实体的归一化拼音信息进行比对；

执行模块，被配置为若存在归一化拼音信息与所述待查询实体的所述归一化拼音信息一致的候选实体，则将该候选实体作为针对所述待查询实体的查询结果。

根据本公开实施例的第三方面，提供一种语音识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据采集到的目标语音确定待查询实体；

根据本公开实施例的第一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的语音识别方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

根据采集到的目标语音确定待查询实体；基于数据库的倒排索引查询待查询实体得到候选实体集；对待查询实体对应的汉字的拼音信息与候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到待查询实体对应的归一化拼音信息和每一候选实体的归一化拼音信息；进而将待查询实体的归一化拼音信息与每一候选实体的归一化拼音信息进行比对；若存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体，则将该候选实体作为针对待查询实体的查询结果。归一化处理可以有效地消除用户发音方式不同造成的召回率低的问题，进而可以有效地提高语音识别的召回率，从而保证语音查询的全面性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。

图2是根据一示例性实施例示出的一种语音识别方法的流程图。

图3是根据一示例性实施例示出的一种语音识别方法的流程图。

图4是根据一示例性实施例示出的一种实现图3中步骤S34的流程图。

图5是根据一示例性实施例示出的一种实现图1中步骤S13的流程图。

图6是根据一示例性实施例示出的一种实现图1中步骤S12的流程图。

图7是根据一示例性实施例示出的一种语音识别装置的框图。

图8是根据一示例性实施例示出的一种用于语音识别方法的装置800的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，在本公开中，说明书和权利要求书以及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必理解为描述特定的顺序或先后次序。同理，术语“S121”、“S122”等用于区别步骤，而不必理解为按照特定的顺序或先后次序执行方法步骤。

在介绍本公开提供的移动网络接入系统、方法、存储介质及电子设备之前，首先对本公开的应用场景进行介绍。本公开提供的移动网络接入系统可以应用于在具备语音助手的电子设备，该电子设备例如可以是智能手机，智能手表，智能手环、智能音箱、智能电视等设置有麦克风等语音接收装置的设备，该语音接收装置可以用于实时接收语音。

发明人发现，相关技术中，倒排索引未作拼音的容错处理，召回的数据内容中与目标内容相关的字词信息较少，导致出现过召回的情况，因而会增加查询的工作量，降低了查询效率。并且，汉字中的前后鼻音，平舌翘舌音等较难区分，因而语音识别的准确性仍然较低。而距离算法中一次模糊匹配所需要的时间在10毫秒左右，随着待识别语音的增加，模糊匹配运行的时间将相应地呈线性增加，因而导致语音识别的耗时较长。另外，对于编辑距离取值及相似度的把控较难，会导致语音识别的召回率较低。

为解决上述技术问题，本公开提供一种语音识别方法。图1是根据一示例性实施例示出的一种语音识别方法的流程图，如图1所示，所述方法包括以下步骤。

在步骤S11中，根据采集到的目标语音确定待查询实体。

在步骤S12中，基于数据库的倒排索引查询待查询实体，得到候选实体集。

在步骤S13中，对待查询实体对应的汉字的拼音信息与候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到待查询实体对应的归一化拼音信息以及每一候选实体的归一化拼音信息。

其中，归一化处理用于统一拼音信息对平舌音和翘舌音、前鼻音和后鼻音、边音和鼻音、声母f和声母h中的一组或多组的表达方式。

在步骤S14中，将待查询实体的归一化拼音信息与每一候选实体的归一化拼音信息进行比对。

在步骤S15中，若存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体，则将该候选实体作为针对待查询实体的查询结果。

具体实施时，可以通过麦克风等语音接收装置实时接收目标用户的语音，例如，目标用户可以使用特定的语音信息唤醒电子设备，进而使用特定的语音使电子设备采集目标语音。

可选地，统一所述拼音信息对平舌音和翘舌音的表达方式包括：确定待查询实体对应的每一汉字的拼音的声母是否为平舌音，若确定存在待查询实体的汉字的拼音的声母为平舌音，则将该汉字的平舌音转换为翘舌音。例如，若确定存在待查询实体的汉字的拼音的声母为“c”，则将该汉字的平舌音“c”转换为翘舌音“ch”，又例如，若确定存在待查询实体的汉字的拼音的声母为“z”，则将该汉字的平舌音“z”转换为翘舌音“zh”。

同理，确定候选实体对应的每一汉字的拼音的声母是否为平舌音，若确定存在候选实体的汉字的拼音的声母为平舌音，则将该汉字的平舌音转换为翘舌音。例如，若确定存在候选实体的汉字的拼音的声母为“c”，则将该汉字的平舌音“c”转换为翘舌音“ch”。

可以理解的是，也可以确定汉字的拼音的声母是否为翘舌音，若确定存在汉字的拼音的声母为翘舌音，则将该汉字的翘舌音转换为平舌音。此处不做限定。

可选地，统一所述拼音信息对前鼻音和后鼻音的表达方式包括：确定待查询实体对应的每一汉字的拼音的韵母是否为前鼻音，若确定存在待查询实体的汉字的拼音的韵母是否为前鼻音，则将该汉字的前鼻音转换为后鼻音。例如，若确定存在待查询实体的汉字的拼音的韵母为前鼻音“an”，则将该汉字的前鼻音“an”转换为后鼻音“ang”，又例如，若确定存在待查询实体的汉字的拼音的韵母为前鼻音“en”，则将该汉字的前鼻音“en”转换为后鼻音“eng”。

同理，确定候选实体对应的每一汉字的拼音的韵母是否为前鼻音，若确定存在候选实体的汉字的拼音的韵母是否为前鼻音，则将该汉字的前鼻音转换为后鼻音。例如，若确定存在候选实体的汉字的拼音的韵母为前鼻音“an”，则将该汉字的前鼻音“an”转换为后鼻音“ang”。

可选地，统一所述拼音信息对边音和鼻音的表达方式包括：确定待查询实体对应的每一汉字的拼音的声母是否为边音“l”，若确定存在待查询实体的汉字的拼音的声母是否为边音“l”，则将该汉字的边音“l”转换为鼻音“n”。

同理，确定候选实体对应的每一汉字的拼音的声母是否为边音“l”，若确定存在候选实体的汉字的拼音的声母为边音“l”，则将该汉字的边音“l”转换为鼻音“n”。

可选地，统一所述拼音信息对声母f和声母h的表达方式包括：确定待查询实体对应的每一汉字的拼音的声母是否为“f”，若确定存在待查询实体的汉字的拼音的声母为“f”，则将该汉字的声母“f”转换为声母“h”。

同理，确定候选实体对应的每一汉字的拼音的声母是否为“f”，若确定存在候选实体的汉字的拼音的声母为“f”，则将该汉字的声母“f”转换为声母“h”。

这样，可以有效地消除用户发音方式不同造成的召回率低的问题，进而可以有效地提高语音识别的召回率。

在一种可能实现的方式中，在步骤S104中，可以将待查询实体的归一化拼音信息的每一汉字拼音与每一候选实体的归一化拼音信息的每一汉字拼音逐一进行比对。例如，待查询实体为“立即马台风”，归一化汉字拼音信息为“lijimataiheng”，其中一个候选实体为“利奇马台风”，归一化汉字拼音信息为“liqimataiheng”。将待查询实体的“l”与候选实体的“l”进行对比，进而将待查询实体的第一个“i”与候选实体的第一个“i”进行对比，进而将待查询实体的“j”与候选实体的“q”进行对比依次进行逐一比对，为简洁说明，此处未将完整的比对过程逐一表述。

进一步地，若归一化拼音信息完全一致，则将该候选实体作为针对所述待查询实体的查询结果，例如，上述待查询实体的“j”与候选实体的“q”不一致，则待查询实体的与该候选实体的归一化拼音信息不完全一致。

上述技术方案可以根据采集到的目标语音确定待查询实体；基于数据库的倒排索引查询待查询实体得到候选实体集；对待查询实体对应的汉字的拼音信息与候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到待查询实体对应的归一化拼音信息和每一候选实体的归一化拼音信息；进而将待查询实体的归一化拼音信息与每一候选实体的归一化拼音信息进行比对；若存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体，则将该候选实体作为针对待查询实体的查询结果。归一化处理可以有效地消除用户发音方式不同造成的召回率低的问题，进而可以有效地提高语音识别的召回率，从而保证语音查询的全面性。

可选地，图2是根据一示例性实施例示出的一种语音识别方法的流程图，如图2所示，所述方法还包括以下步骤。

在步骤S21中，若不存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体，则确定候选实体的归一化拼音信息中是否存在包含和/或包含于待查询实体的归一化拼音信息的第二候选实体。

其中，第二候选实体的归一化拼音信息与待查询实体的归一化拼音信息的文字长度差小于4。

在步骤S22中，若确定候选实体的归一化拼音信息中存在包含待查询实体的归一化拼音信息的第二候选实体，则将该第二候选实体作为针对待查询实体的查询结果。

具体实施时，确定候选实体的归一化拼音信息中是否存在包含待查询实体的归一化拼音信息的第二候选实体，或者，确定候选实体的归一化拼音信息中是否存在包含于待查询实体的归一化拼音信息的第二候选实体。

示例地，若候选实体的归一化拼音信息为“qian tang jiang zhang chao de shijian duan”，待查询实体的归一化拼音信息为“qian tang jiang zhang chao shi jian”，候选实体的归一化拼音信息包含查询实体的归一化拼音信息，并且候选实体的归一化拼音信息的长度为9，查询实体的归一化拼音信息的长度为7，长度差小于4。则将该候选实体的归一化拼音信息对应的第二候选实体作为针对待查询实体的查询结果。

又一示例，若候选实体的归一化拼音信息为“qian tang jiang guan chao shijian duan”，待查询实体的归一化拼音信息为“qian tang jiang zhang chao de guanchao shi jian”，候选实体的归一化拼音信息包含于查询实体的归一化拼音信息，并且候选实体的归一化拼音信息的长度为8，查询实体的归一化拼音信息的长度为10，长度差小于4。则将该候选实体的归一化拼音信息对应的第二候选实体作为针对待查询实体的查询结果。

采用上述技术方案，即使候选实体的归一化拼音信息与待查询实体的归一化拼音信息不完全一直一致，也可以输出查询结果，同样可以扩大召回率。

可选地，图3是根据一示例性实施例示出的一种语音识别方法的流程图，如图3所示，所述方法还包括以下步骤。

在步骤S31中，若不存在归一化拼音信息与待查询实体的归一化拼音信息一致的第二候选实体，则对待查询实体的归一化拼音信息进行单字拼音分割以及对每一候选实体的归一化拼音信息进行单字拼音分割。

在步骤S32中，将单字拼音分割后的待查询实体的归一化拼音信息进行单字拼音排列组合以及将单字拼音分割后的每一候选实体的归一化拼音信息进行单字拼音排列组合。

在步骤S33中，将单字拼音排列组合后的待查询实体的归一化拼音信息与单字拼音排列组合后的每一候选实体的归一化拼音信息进行比对。

在步骤S34中，若存在单字拼音排列组合后的归一化拼音信息与单字拼音分割后的待查询实体的归一化拼音信息一致的第三候选实体，则将该第三候选实体作为针对待查询实体的查询结果。

示例地，待查询实体的归一化汉字拼音信息为“taihenglijima”，进行单字拼音分割后的汉字拼音信息为“tai”、“heng”、“li”、“ji”和“ma”，候选实体的归一化汉字拼音信息为“liqimataiheng”，进行单字拼音分割后的汉字拼音信息为“li”、“qi”、“ma”、“tai”和“heng”。

进一步地，将单字拼音分割后的待查询实体的汉字拼音信息“tai”、“heng”、“li”、“qi”和“ma”进行排列组合，分别得到“tai”、“li”、“heng”、“qi”和“ma”等25种排列方式，同理，将单字拼音分割后的候选实体的汉字拼音信息“li”、“qi”、“ma”、“tai”和“heng”进行排列组合，分别得到“li”、“ma”、“qi”、“tai”和“heng”等25种排列组合，此处为避免大篇幅展示组合方式，达到简明说明书的目的，未全部列举。

进一步地，遍历将每一单字拼音分割后的待查询实体的汉字拼音信息的排列组合与25种单字拼音分割后的候选实体的汉字拼音信息的排列组合进行比对。

进一步地，存在排列组合后的待查询实体的汉字拼音信息“tai”、“heng”、“li”、“qi”和“ma”与排列组合后的候选实体的汉字拼音信息“tai”、“heng”、“li”、“qi”和“ma”一致，则此处还有其他一致的第三候选实体未做全部陈列，则将该第三候选实体作为针对待查询实体的查询结果。

采用上述技术方案，可以有效地避免目标用户由于语言习惯导致输入的目标语音与候选实体的语序不一致的问题。

可选地，参考图4所示出的实现图3中步骤S34的流程图。在步骤S34中，所述若存在单字拼音排列组合后的归一化拼音信息与单字拼音分割后的所述待查询实体的所述归一化拼音信息一致的第三候选实体，则将该第三候选实体作为针对所述待查询实体的查询结果包括以下步骤。

在步骤S341中，对单字拼音排列组合后的待查询实体的归一化拼音信息进行分词处理，得到待查询分词元素，以及对单字拼音排列组合后的每一候选实体的归一化拼音信息进行分词处理，得到对应的实体候选分词元素。

在步骤S342中，对待查询分词元素进行排列组合，得到待查询组合语句，并由待查询组合语句构成待查询拼音列表，以及对每一候选实体对应的实体候选分词元素进行排列组合，得到对应的候选实体组合语句，并由对应的候选实体组合语句构成对应的候选实体拼音列表。

在步骤S343中，确定待查询拼音列表与每一候选实体拼音列表的长度关系以及匹配值，并确定待查询拼音列表与候选实体拼音列表的长度较短的拼音列表为第一列表。

在步骤S344中，确定每一匹配值与对应的第一列表的长度之间的比值。

在步骤S345中，若存在比值大于预设阈值的第三候选实体，则将该第三候选实体作为针对待查询实体的查询结果。

示例地，待查询实体为“一时棱忍”，归一化汉字拼音信息为“yishinengren”，进行单字拼音分割后的汉字拼音信息为“yi”、“shi”“neng”、“ren”，分词处理后的待查询实体为“yi shi”、“neng”和“ren”。候选实体为“能人异士”，归一化汉字拼音信息为“nengrenyishi”，进行单字拼音分割后的汉字拼音信息为“neng”、“ren”、“yi”和“shi”，分词处理后的待查询实体为“neng ren”和“yi shi”。

进一步地，对待查询实体对应的“yi shi”、“neng”和“ren”进行组合得到“yi shi”“neng”“ren”，“yi shi”“ren”“neng”等6种组合，此处为完全列举。进而得到下表1左侧的待查询拼音列表。对候选实体对应的“neng ren”和“yi shi”进行组合得到“neng ren”“yishi”和“yi shi”“neng ren”两种组合，进而得到下表1右侧的候选实体拼音列表。

待查询拼音列表	候选实体拼音列表
		“yi shi”“neng”“ren”	“neng ren”“yi shi”
“yi shi”“ren”“neng”	“yi shi”“neng ren”
		“neng”“ren”“yi shi”
“ren”“neng”“yi shi”
		“ren”“yi shi”“neng”
“neng”“yi shi”“ren”

进一步地，确定待查询拼音列表长度为6，确定候选实体拼音列表长度为2，则确定候选实体拼音列表为第一列表。

进一步地，待查询拼音列表与候选实体拼音列表的初始匹配值为0，待查询拼音列表中的“yi shi”“neng”“ren”与候选实体拼音列表中的“yi shi”“neng ren”匹配，则匹配值增加到1，待查询拼音列表中的“neng”“ren”“yi shi”与候选实体拼音列表中的“nengren”“yi shi”匹配，则匹配值增加到2。

进一步地，匹配值2与第一列表长度之间的比值为1，该比值1大于预设阈值0.7，则确定候选实体“能人异士”为第三候选实体，并将“能人异士”作为针对待查询实体的查询结果。

采用上述技术方案，可以进一步地确定待查询实体与候选实体之间的语序关系，进而可以有效地避免目标用户由于语言习惯导致输入的目标语音与候选实体的语序不一致的问题。

可选地，在步骤S344中，所述确定所述待查询拼音列表与每一所述候选实体拼音列表的匹配值包括以下步骤。

遍历确定每一待查询组合语句的第一个分词元素拼音开头与每一候选实体组合语句的拼音开头是否一致。

若确定待查询组合语句的第一个分词元素拼音开头与候选实体组合语句的拼音开头一致，则增大待查询拼音列表与对应的该候选实体拼音列表的匹配值。

具体实施时，可以依据第一个分词元素拼音开头进行比对。例如，表格对应的实施例为例，可以对比待查询拼音列表的“yi shi”“neng”“ren”中“y”是否与候选实体拼音列表中的“neng ren”“yi shi”中的“n”，进而确定待查询拼音列表相应的组合是否与候选实体拼音列表中的组合匹配。这样，可以为减少对比工作量，提高语音识别的召回率。

可选地，参考图5所示出的实现图1中步骤S13的流程图。在步骤S13中，所述对所述待查询实体对应的汉字的拼音信息与所述候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，包括以下步骤。

在步骤S131中，在待查询实体的每一汉字对应的汉字拼音前添加位置标记符，并在待查询实体的最后一个汉字对应的汉字拼音的韵母后添加位置标记符。

在步骤S132中，在每一候选实体的每一汉字对应的汉字拼音前添加位置标记符，并在每一候选实体的最后一个汉字的汉字拼音的韵母后添加位置标记符。

在步骤S133中，基于位置标记符对待查询实体对应的汉字的拼音信息以及候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理。

示例地，待查询实体为“一时棱忍”，在每一汉字对应的汉字拼音前添加位置标记符得到“-yi-si-len-ren”，在待查询实体的最后一个汉字对应的汉字拼音的韵母后添加位置标记符得到“-yi-si-len-ren-”。此处“-”为位置标记符。

进一步地，基于位置标记符对待查询实体对应的汉字的拼音信息得到“-yi-shi-neng-ren-”。

同理，候选实体为“能人异士”，在每一汉字对应的汉字拼音前添加位置标记符得到“-neng-ren-yi-shi”，在每一候选实体的最后一个汉字的汉字拼音的韵母后添加位置标记符得到“-neng-ren-yi-shi-”。基于位置标记符对待查询实体对应的汉字的拼音信息得到“-neng-ren-yi-shi-”。

采用上述技术方案，可以提高归一化处理的准确度，避免错误的归一化处理，例如，若未添加位置标记符可能将“nengrenyishi”归一化处理为“nengrenyishhi”。这样，可以减少工作量。

可选地，参考图6所示出的实现图1中步骤S12的流程图。在步骤S12中，所述基于数据库的倒排索引查询所述待查询实体，得到候选实体集包括以下步骤。

在步骤S121中，根据所述待查询实体对应的汉字信息，基于倒排索引从所述数据库中查询所述汉字信息对应的汉字语句，并基于TF-IDF算法打分排序取分数在前的第一预设数量个第一汉字语句。

在步骤S122中，根据所述待查询实体对应的拼音信息，基于倒排索引从所述数据库中查询所述待查询实体对应的拼音语句，并基于TF-IDF算法打分排序取分数在前的第二预设数量个拼音语句，并根据所述拼音语句得到第二汉字语句。

在步骤S123中，根据所述第一汉字语句以及所述第二汉字语句取并集得到所述候选实体集。

其中，所述数据库是根据每一汉字与语句之间的对应关系建立倒排索引以及每一汉字的拼音与语句之间的对应关系建立倒排索引构建的。

在离线部分中，基于倒排索引的数据库，预先建立了汉字与语句之间的对应关系，同时建立了汉字的拼音与汉字语句之间的对应关系。倒排列表记录出现过某个汉字的所有文档的文档列表及汉字在该文档中出现的位置信息，每条记录称为一个倒排项。根据倒排列表，即可获知包含该汉字的文档。同理，倒排列表记录出现过某个汉字的拼音的所有文档的文档列表及汉字的拼音在该文档中出现的位置信息，并且每条记录称为一个倒排项。根据倒排列表，即可获知包含该汉字的拼音文档。

在具体识别过程中，根据待查询实体的汉字信息，查询数据库中的哪些文档出现过相应的汉字，并将该文档相应的部分提取出来，得到待处理文本。进一步地，基于TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)算法，对提取得到的待处理文本进行打分，并取分数排列在前的第一预设数量个第一汉字语句，例如，取分数排列在前的10个第一汉字语句。

同理，根据待查询实体的汉字的拼音信息，查询数据库中的哪些文档出现过相应的汉字拼音，并将该文档相应的部分提取出来，并基于该汉字拼音文档确定相应的汉字语句，得到待处理拼音文本。进一步地，基于TF-IDF(term frequency–inverse documentfrequency，词频-逆文本频率指数)算法，对提取得到的待处理拼音文本进行打分，并取分数排列在前的第二预设数量个第二汉字语句，例如，取分数排列在前的12个第二汉字语句。

进一步地，取第一汉字语句与第二汉字语句的并集，因为第一汉子语句与第二汉字语句中可能存在相同的语句，将该相同的语句保留一份即可，例如，删除第一汉字语句中与第二汉字语句相同的部分，保留第二汉字语句中的相同部分。

这样，相比于现有技术，在现有技术仅能通过汉字信息查询候选实体的方式，本公开实施例可以根据拼音查询候选实体，可以在保证准确性的情况下，提高了语音识别的召回率，进而提高语音识别搜索的全面性。

值得说明的是，基于直接倒排索引的字词匹配方法可以提升召回率25％，而基于字词拼音倒排索引及TF-IDF算法，同时基于归一化处理可以有效提高召回率至35％。

在一种可能实现额方式中，在得到针对待查询实体的查询结果的情况下，可以向目标用户展示该查询结果，例如，在电子设备的显示界面，显示相应的查询结果。又例如，在电子设备的显示界面按照上述比值的大小，降序展示相应的查询结果，再例如，根据查询结果生成相应的语音播报信息，并通过电子设备的扬声器按照上述比值的大小，降序播放相应的语音播报信息。

在一种可能实现的方式中，若最终未能从候选实体集匹配到合适的候选针对待查询实体的查询结果，可以提示目标用户再次输入目标语音，进而可以重新进行查询。例如，在电子设备的显示界面展示文字提示信息，或者通过电子设备的扬声器输出语音提示信息，提示目标用户重新属于目标语音。这样，可以提高用户使用语音查询的便捷性。

基于相同的发明构思，本公开还提供一种语音识别装置700，用于执行上述方法实施例提供的语音识别方法的步骤，该装置700可以以软件、硬件或者两者相结合的方式实现语音识别方法。图7是根据一示例性实施例示出的一种语音识别装置的框图，如图7所示，所述装置700包括：确定模块710，查询模块720，处理模块730，比对模块740和执行模块750。

其中，该确定模块710被配置为根据采集到的目标语音确定待查询实体；

该查询模块720被配置为基于数据库的倒排索引查询所述待查询实体，得到候选实体集；

该处理模块730被配置为对所述待查询实体对应的汉字的拼音信息与所述候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到所述待查询实体对应的归一化拼音信息以及所述每一候选实体的归一化拼音信息，所述归一化处理用于统一所述拼音信息对平舌音和翘舌音、前鼻音和后鼻音、边音和鼻音、声母f和声母h中的一组或多组的表达方式；

该比对模块740被配置为将所述待查询实体的归一化拼音信息与所述每一候选实体的归一化拼音信息进行比对；

该执行模块750被配置为若存在归一化拼音信息与所述待查询实体的所述归一化拼音信息一致的候选实体，则将该候选实体作为针对所述待查询实体的查询结果。

可选地，所述装置700还包括：包含模块和第二执行模块。

其中，该包含模块被配置为若不存在归一化拼音信息与所述待查询实体的所述归一化拼音信息一致的候选实体，则确定候选实体的归一化拼音信息中是否存在包含和/或包含于待查询实体的归一化拼音信息的第二候选实体，其中，所述第二候选实体的归一化拼音信息与所述待查询实体的所述归一化拼音信息的文字长度差小于4；

该第二执行模块被配置为若确定候选实体的归一化拼音信息中存在包含所述待查询实体的所述归一化拼音信息的第二候选实体，则将该第二候选实体作为针对所述待查询实体的查询结果。

可选地，所述装置700还包括：分割模块，组合模块，组合比对模块和第三执行模块。

其中，该分割模块被配置为若不存在归一化拼音信息与所述待查询实体的所述归一化拼音信息一致的第二候选实体，则对所述待查询实体的归一化拼音信息进行单字拼音分割以及对所述每一候选实体的归一化拼音信息进行单字拼音分割；

该组合模块被配置为将单字拼音分割后的所述待查询实体的所述归一化拼音信息进行单字拼音排列组合以及将单字拼音分割后的所述每一候选实体的归一化拼音信息进行单字拼音排列组合；

该组合比对模块被配置为将单字拼音排列组合后的所述待查询实体的所述归一化拼音信息与单字拼音排列组合后的所述每一候选实体的归一化拼音信息进行比对；

该第三执行模块被配置为若存在单字拼音排列组合后的归一化拼音信息与单字拼音分割后的所述待查询实体的所述归一化拼音信息一致的第三候选实体，则将该第三候选实体作为针对所述待查询实体的查询结果。

可选地，该第三执行模块被配置为：

对所述单字拼音排列组合后的所述待查询实体的所述归一化拼音信息进行分词处理，得到待查询分词元素，以及对所述单字拼音排列组合后的所述每一候选实体的归一化拼音信息进行分词处理，得到对应的实体候选分词元素；

对所述待查询分词元素进行排列组合，得到待查询组合语句，并由所述待查询组合语句构成待查询拼音列表，以及对所述每一候选实体对应的实体候选分词元素进行排列组合，得到对应的候选实体组合语句，并由对应的所述候选实体组合语句构成对应的候选实体拼音列表；

确定所述待查询拼音列表与每一所述候选实体拼音列表的长度关系以及匹配值，并确定所述待查询拼音列表与所述候选实体拼音列表的长度较短的拼音列表为第一列表；

确定每一匹配值与对应的第一列表的长度之间的比值；并且，

若存在比值大于预设阈值的第三候选实体，则将该第三候选实体作为针对所述待查询实体的查询结果。

可选地，所述第三执行模块具体被配置为：

遍历确定每一待查询组合语句的第一个分词元素拼音开头与每一所述候选实体组合语句的拼音开头是否一致；

若确定待查询组合语句的第一个分词元素拼音开头与候选实体组合语句的拼音开头一致，则增大所述待查询拼音列表与对应的该候选实体拼音列表的匹配值。

可选地，所述处理模块730具体被配置为：

在所述待查询实体的每一汉字对应的汉字拼音前添加位置标记符，并在所述待查询实体的最后一个汉字对应的汉字拼音的韵母后添加位置标记符；以及，

在所述每一候选实体的每一汉字对应的汉字拼音前添加位置标记符，并在所述每一候选实体的最后一个汉字的汉字拼音的韵母后添加位置标记符；

基于所述位置标记符对所述待查询实体对应的汉字的拼音信息以及所述候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理。

可选地，该查询模块720被配置为：

根据所述待查询实体对应的汉字信息，基于倒排索引从所述数据库中查询所述汉字信息对应的汉字语句，并基于TF-IDF算法打分排序取分数在前的第一预设数量个第一汉字语句；以及，

根据所述待查询实体对应的拼音信息，基于倒排索引从所述数据库中查询所述待查询实体对应的拼音语句，并基于TF-IDF算法打分排序取分数在前的第二预设数量个拼音语句，并根据所述拼音语句得到第二汉字语句；

根据所述第一汉字语句以及所述第二汉字语句取并集得到所述候选实体集；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外值得说明的是，为描述的方便和简洁，说明书中所描述的实施例均属于优选实施例，其所涉及的部分并不一定是本发明所必须的，例如，比对模块和执行模块，在具体实施时可以是相互独立的装置也可以是同一个装置，本公开对此不作限定。

根据本公开实施例的还提供一种语音识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据采集到的目标语音确定待查询实体；

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的语音识别方法的步骤。

图8是根据一示例性实施例示出的一种用于语音识别方法的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述语音识别方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行语音识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成语音识别方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音识别方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

根据采集到的目标语音确定待查询实体；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若不存在归一化拼音信息与所述待查询实体的所述归一化拼音信息一致的候选实体，则确定候选实体的归一化拼音信息中是否存在包含和/或包含于待查询实体的归一化拼音信息的第二候选实体，其中，所述第二候选实体的归一化拼音信息与所述待查询实体的所述归一化拼音信息的文字长度差小于4；

若确定候选实体的归一化拼音信息中存在包含所述待查询实体的所述归一化拼音信息的第二候选实体，则将该第二候选实体作为针对所述待查询实体的查询结果。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若不存在候选实体的归一化拼音信息中包含所述待查询实体的所述归一化拼音信息的第二候选实体，则对所述待查询实体的归一化拼音信息进行单字拼音分割以及对所述每一候选实体的归一化拼音信息进行单字拼音分割；

将单字拼音分割后的所述待查询实体的所述归一化拼音信息进行单字拼音排列组合以及将单字拼音分割后的所述每一候选实体的归一化拼音信息进行单字拼音排列组合；

将单字拼音排列组合后的所述待查询实体的所述归一化拼音信息与单字拼音排列组合后的所述每一候选实体的归一化拼音信息进行比对；并且，

若存在单字拼音排列组合后的归一化拼音信息与单字拼音分割后的所述待查询实体的所述归一化拼音信息一致的第三候选实体，则将该第三候选实体作为针对所述待查询实体的查询结果。

4.根据权利要求3所述的方法，其特征在于，所述若存在单字拼音排列组合后的归一化拼音信息与单字拼音分割后的所述待查询实体的所述归一化拼音信息一致的第三候选实体，则将该第三候选实体作为针对所述待查询实体的查询结果包括：

确定每一所述匹配值与对应的第一列表的长度之间的比值；并且，

5.根据权利要求4所述的方法，其特征在于，所述确定所述待查询拼音列表与每一所述候选实体拼音列表的匹配值包括：

遍历确定每一所述待查询组合语句的第一个分词元素拼音开头与每一所述候选实体组合语句的拼音开头是否一致；

6.根据权利要求1所述的方法，其特征在于，所述对所述待查询实体对应的汉字的拼音信息与所述候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，包括：

7.根据权利要求1～6任一项所述的方法，其特征在于，所述基于数据库的倒排索引查询所述待查询实体，得到候选实体集包括：

8.一种语音识别装置，其特征在于，包括：

9.一种语音识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据采集到的目标语音确定待查询实体；

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～7中任一项所述方法的步骤。