CN114203169A

CN114203169A - 一种语音识别结果确定方法、装置、设备及存储介质

Info

Publication number: CN114203169A
Application number: CN202210094152.7A
Authority: CN
Inventors: 桑宏报; 方磊; 杨军; 何雪; 方四安; 柳林
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-03-18

Abstract

本申请提供了一种语音识别结果确定方法、装置、设备及存储介质，其中，方法包括：获取目标语音在多个语音识别系统上分别对应的候选集，其中，目标语音在一个语音识别系统上对应的候选集包括基于该语音识别系统获得的若干候选识别结果；将获取的多个候选集两两组合，以得到若干组候选集；确定若干组候选集分别对应的相似性信息，并基于若干组候选集分别对应的相似性信息，从多个候选集中确定目标语音的识别结果，其中，相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句子级别的相似性信息。通过本申请提供的语音识别结果确定方法能够较快地确定出准确度较高的语音识别结果。

Description

一种语音识别结果确定方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别结果确定方法、装置、设备及存储介质。

背景技术

语音识别是一种利用机器自动地将人类语音内容转换成文本的技术。近年来，随着深度神经网络的广泛应用，语音识别技术取得了长足的进步。

目前的确定语音识别结果的方案为：基于一个语音识别系统对目标语音进行识别，以得到若干候选识别结果，然后将若干候选识别结果中识别得分最高的候选识别结果，确定为目标语音的识别结果。

然而，受某些因素影响(比如复杂的口音、方言、远讲、噪声、混响环境、语义理解等)，语音识别系统的识别性能不稳定，这导致上述方案稳定性不足，有时无法获得准确度较高的识别结果。

发明内容

有鉴于此，本申请提供了一种语音识别结果确定方法、装置、设备及存储介质，用以解决现有的语音识别结果确定方法稳定性不足，有时无法获得准确度较高的识别结果的问题，其技术方案如下：

一种语音识别结果确定方法，包括：

获取目标语音在多个语音识别系统上分别对应的候选集，其中，所述目标语音在一个语音识别系统上对应的候选集包括基于该语音识别系统获得的若干候选识别结果；

将获取的多个候选集两两组合，以得到若干组候选集；

确定若干组候选集分别对应的相似性信息，并基于所述若干组候选集分别对应的相似性信息，从所述多个候选集中确定目标语音的识别结果，其中，所述相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句子级别的相似性信息。

可选的，获取目标语音在一个语音识别系统上对应的候选集，包括：

获取该语音识别系统对目标语音进行识别后输出的多个候选识别结果；

确定所述多个候选识别结果中是否存在解码异常的候选识别结果；

若是，则将解码异常的候选识别结果剔除，由剩余的候选识别结果组成所述目标语音在该语音识别系统上对应的候选集；

若否，则由所述多个候选识别结果组成所述目标语音在该语音识别系统上对应的候选集。

可选的，所述确定所述多个候选识别结果中是否存在解码异常的候选识别结果，包括：

确定所述多个候选识别结果中是否存在每秒解码词数大于预设词数阈值的候选识别结果；

若是，则确定所述多个候选识别结果中存在解码异常的候选识别结果；

若否，则确定所述多个候选识别结果中不存在解码异常的候选识别结果；

所述将解码异常的候选识别结果剔除，包括：

将每秒解码词数大于所述预设词数阈值的候选识别结果剔除。

可选的，所述基于所述若干组候选集分别对应的相似性信息，从所述多个候选集中确定目标语音的识别结果，包括：

基于所述若干组候选集分别对应的相似性信息，确定所述若干组候选集分别对应的候选识别结果对，以得到若干候选识别结果对，其中，所述候选识别结果对包括对应的两个候选集中最相似的两个候选识别结果；

基于所述若干候选识别结果对分别对应的相似性信息，确定所述目标语音的识别结果，其中，一候选识别结果对对应的相似性信息为该候选识别结果对包含的两个候选识别结果的相似性信息。

可选的，所述相似性信息为相似性度量指标；

所述基于所述若干候选识别结果对分别对应的相似性信息，确定所述目标语音的识别结果，包括：

基于所述若干候选识别结果对分别对应的相似性度量指标，从所述若干候选识别结果对中确定最相似的候选识别结果对，作为目标候选识别结果对；

至少基于所述目标候选识别结果对对应的相似性度量指标，确定所述目标语音的识别结果。

可选的，所述至少基于所述目标候选识别结果对对应的相似性度量指标，确定所述目标语音的识别结果，包括：

若所述目标候选识别结果对对应的相似性度量指标为表征两个候选识别结果相同的目标值，则将所述目标候选识别结果对中的任一候选识别结果确定为所述目标语音的识别结果；

若所述目标候选识别结果对对应的相似性度量指标不为所述目标值，则基于所述目标候选识别结果对对应的相似性度量指标以及所述目标候选识别结果对中每个候选识别结果的词数和综合得分，确定所述目标语音的识别结果，其中，一候选识别结果的综合得分基于该候选识别结果的声学得分和语言得分确定。

可选的，确定一候选识别结果的综合得分，包括：

根据该候选识别结果的词数和该候选识别结果的语言得分，确定该候选识别结果的合理程度表征值；

将该候选识别结果的合理程度表征值归一化为目标范围内的值，以得到归一化后的合理程度表征值，其中，该候选识别结果的声学得分处于所述目标范围内；

将所述归一化后的合理程度表征值与该候选识别结果的声学得分融合，融合后的得分作为该候选识别结果的综合得分。

可选的，所述基于所述目标候选识别结果对对应的相似性度量指标以及所述目标候选识别结果对中每个候选识别结果的词数和综合得分，确定所述目标语音的识别结果，包括：

在所述目标候选识别结果对的相似性度量指标与预设相似性阈值满足预设关系的情况下：

若所述目标候选识别结果对中第一候选识别结果的词数与第二候选识别结果的词数相同，则将所述目标候选识别结果对中综合得分大的候选识别结果确定为所述目标语音的识别结果；

若所述第一候选识别结果的词数大于所述第二候选识别结果的词数，且所述第二候选识别结果的综合得分大于所述第一候选识别结果的综合得分，则将所述第二候选识别结果确定为所述目标语音的识别结果；

若所述第二候选识别结果的词数大于所述第一候选识别结果的词数，且所述第一候选识别结果的综合得分大于所述第二候选识别结果的综合得分，则将所述第一候选识别结果确定为所述目标语音的识别结果。

可选的，所述语音识别结果确定方法还包括：

若基于所述目标候选识别结果对的相似性度量指标以及所述目标候选识别结果对中每个候选识别结果的词数和综合得分，确定无法从所述目标候选识别结果对中确定所述目标语音的识别结果，则从每个候选集中获取识别得分最高的候选识别结果；

将从各个候选集中分别获取的识别得分最高的候选识别结果中综合得分最高的候选识别结果，确定为所述目标语音的识别结果。

一种语音识别结果确定装置，包括：候选集获取模块、候选集组合模块、相似性信息确定模块和识别结果确定模块；

所述候选集获取模块，用于获取目标语音在多个语音识别系统上分别对应的候选集，其中，所述目标语音在一个语音识别系统上对应的候选集包括基于该语音识别系统获得的若干候选识别结果；

所述候选集组合模块，用于将获取的多个候选集两两组合，以得到若干组候选集；

所述相似性信息确定模块，用于确定所述若干组候选集分别对应的相似性信息，其中，所述相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句子级别的相似性信息；

所述识别结果确定模块，用于基于所述若干组候选集分别对应的相似性信息，从所述多个候选集中确定目标语音的识别结果。

一种语音识别结果确定设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述第1～9项中任一项所述的语音识别结果确定方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述第1～9项中任一项所述的语音识别结果确定方法的各个步骤。

本申请提供的语音识别结果确定方法、装置、设备及存储介质，首先获取目标语音在多个语音识别系统上分别对应的候选集，然后将获取的多个候选集两两组合，以得到若干组候选集，接着确定若干组候选集分别对应的相似性信息，最后基于若干组候选集分别对应的相似性信息，从多个候选集中确定目标语音的识别结果。考虑到多个语音识别系统具有差异性和互补性，本申请从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果，相比于从基于单个语音识别系统获得的候选识别结果中确定目标语音的识别结果，本申请提供的语音识别结果确定方法更加稳定，且能够提升语音识别结果的准确率，在从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果时，为了实现不同语音识别系统的候选识别结果互补，同时为了能够更快的确定出语音识别结果，本申请将目标语音在多个语音识别系统上分别对应的候选集两两组合，基于各组候选集分别对应的句子级别的相似性信息，从多个目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果。经由本申请提供的语音识别结果确定方法能够较快地确定出准确率较高的语音识别结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的语音识别结果确定方法的流程示意图；

图2为本申请实施例提供的基于若干组候选集分别对应的相似性信息，从多个候选集中确定目标语音的识别结果的流程示意图；

图3为本申请实施例提供的基于若干候选识别结果对分别对应的相似性信息，确定目标语音的识别结果的流程示意图；

图4为本申请实施例提供的语音识别结果确定装置的结构示意图；

图5为本申请实施例提供的语音识别结果确定设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决目前的语音识别结果确定方案不稳定，有时无法获得准确度较高的识别结果的问题，申请人想到，对于同一条语音，不同语音识别系统输出的识别结果有较大的差异，在多个语音识别系统的识别结果具有互补性(比如，A系统不稳定，没出输出优秀的识别结果，而B系统比较稳定，输出了优秀的识别结果)时，将这些系统的识别结果进行融合，能够提高语音识别结果的准确率，沿着上述思路，申请人进行了研究，起初，申请人想到了如下的语音识别结果确定方法：

为不同语音识别系统的输出建立一个线性的词转移网络WTN，将WTN按照词错误率WER从小到大排序，并选择最小WER对应的WTN作为基准WTN，运用基准WTN不断地将剩余的WTN进行对齐与合并，直到所有的WTN都合并入基准WTN为止，完成所有WTN的对齐与合并后，使用一种投票方案，比如词频、置信度等，对WTN的每个分支点进行评估，然后挑选最高分的词(拥有最高的票数)作为最终的识别结果。

申请人对上述方法进行研究发现，上述方法存在一些问题，主要体现在：其一，上述方法是在词级别上进行的，需要进行复杂繁琐的对齐、合并、投票、重新解码、词序连接等操作，这些操作需要耗费较长的时间，因此，语音识别结果的确定效率较低，如果融合系统数量增多，将进一步降低语音识别结果的确定效率，这对于响应速度要求较高的应用场景是非常不利的；其二，上述方法只能应用于不同语音识别系统输出的1-Best候选结果，即最终的语音识别结果从各语音识别系统输出的1-Best候选结果中确定，然而，在某些时候，更优秀的识别结果可能会出现在N-Best中除1-Best外的其它结果中，在这种情况下，上述方法无法获得准确度较高的识别结果。

针对上述方法存在的问题，申请人继续进行研究，通过不断研究，最终提出了一种效果较好的语音识别结果确定方法，该方法比较稳定，能够比较快速地确定出准确的语音识别结果，该方法可应用于具有数据处理能力的电子设备，该电子设备可以为用户侧使用的终端，比如智能手机、PC、笔记本、PAD、智能家电、车载终端等等，该电子设备还可以为网络侧的服务器，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心，电子设备可按本申请提供的语音识别结果确定方法快速地确定出准确的语音识别结果。

本领域技术人员应能理解上述电子设备仅为举例，其它现有的或今后可能出现的电子设备或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

接下来通过下述实施例对本申请提供的语音识别结果确定方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的语音识别结果确定方法的流程示意图，可以包括：

步骤S101：获取目标语音在多个语音识别系统上分别对应的候选集。

其中，目标语音为待确定语音识别结果的语音，目标语音在一语音识别系统上对应的候选集包括基于该语音识别系统获得的若干候选识别结果。

经由步骤S101可获得多个候选集，示例性的，语音识别系统为3个，则经由步骤S101可获得3个候选集。

由于获取各个候选集的实现方式相同，本实施例以获取一个候选集R_i(目标语音在第i个语音识别系统上对应的候选集)为例，对获取目标语音在第i个语音识别系统S_i上对应的候选集R_i的实现方式进行介绍。

获取目标语音在第i个语音识别系统S_i上对应的候选集R_i的实现方式有多种，本实施例提供如下两种可选实现方式：

第一种实现方式：获取语音识别系统S_i对目标语音进行识别后输出的多个候选识别结果，将语音识别系统S_i输出的多个候选识别结果组成的候选集作为目标语音在语音识别系统S_i上对应的候选集R_i。

其中，语音识别系统S_i对目标语音进行识别后输出的多个候选识别结果可以为所有的候选识别结果，也可以为所有的候选识别结果中的N-best，通常而言，语音识别系统S_i对目标语音进行识别后会输出N-best，即排名前N(N为大于或等于1的整数)的候选识别结果，需要说明的是，N根据具体应用情况设定，不同语音识别系统的N可以相同，也可以不同，另外，语音识别系统输出的多个候选识别结果是排序好，比如，语音识别系统将识别得分最高的排在第一位，将识别得分次高的排在第二位，其它以此类推。

假设语音识别系统S_i对目标语音进行识别后输出N_i个候选识别结果，上述第一实现方式直接将N_i个候选识别结果组成的候选集作为目标语音在语音识别系统S_i上对应的候选集R_i。可见，若通过上述第一种实现方式获取目标语音在语音识别系统S_i上对应的候选集R_i，则候选集R_i中包含语音识别系统S_i对目标语音进行识别后输出的所有候选识别结果。

考虑到语音识别系统S_i对目标语音进行识别后输出的多个候选识别结果中可能存在解码异常的候选识别结果，为了避免解码异常的候选识别结果对最终识别结果确定的影响，同时提高识别结果的确定效率，本实施例提供如下第二种实现方式：

首先，获取语音识别系统S_i对目标语音进行识别后输出的多个候选识别结果(比如N-best候选识别结果)；然后确定语音识别系统S_i输出的多个候选识别结果中是否存在解码异常的识别结果；若S_i输出的多个候选识别结果中存在解码异常的识别结果，则将解码异常的候选识别结果剔除，由剩余的候选识别结果组成目标语音在语音识别系统S_i上对应的候选集R_i；若语音识别系统S_i输出的多个候选识别结果中不存在解码异常的候选识别结果，则由语音识别系统S_i输出的多个候选识别结果组成目标语音在语音识别系统S_i上对应的候选集R_i。

示例性的，语音识别系统S_i对目标语音进行识别后输出N_i个候选识别结果，若N_i个候选识别结果中存在3个解码异常的候选识别结果，则将3个解码异常的候选识别结果剔除，将剩余的N_i-3个候选识别结果组成目标语音在语音识别系统S_i上对应的候选集R_i，若N_i个候选识别结果中不存在解码异常的候选识别结果，则将N_i个候选识别结果组成目标语音在语音识别系统S_i上对应的候选集R_i。

可见，若通过上述第二种实现方式获取目标语音在语音识别系统S_i上对应的候选集R_i，则候选集R_i中包含语音识别系统S_i对目标语音进行识别后输出的所有(输出的多个候选识别结果中不存在解码异常的候选识别结果)或部分(输出的多个候选识别结果中存在解码异常的候选识别结果)候选识别结果。

上述第二种实现方式中，在获得语音识别系统S_i对目标语音进行识别后输出的多个候选识别结果后，需要确定语音识别系统S_i输出的多个候选识别结果中是否存在解码异常的识别结果，接下来对这一过程进行介绍。

确定语音识别系统S_i输出的多个候选识别结果中是否存在解码异常的识别结果可以包括：确定语音识别系统S_i输出的多个候选识别结果中是否存在单位时间解码词数大于预设词数阈值e_thred的候选识别结果；若是，则确定语音识别系统S_i输出的多个候选识别结果中存在解码异常的候选识别结果；若否，则确定语音识别系统S_i输出的多个候选识别结果中不存在解码异常的候选识别结果。其中，预设词数阈值e_thred可根据具体应用情况设定。

其中，一候选识别结果r_ij的单位时间解码词数根据候选识别结果r_ij的解码时间t_ij和候选识别结果r_ij的词数q_ij确定，具体的，候选识别结果r_ij的单位时间解码词数e_ij可表示为q_ij/t_ij。

需要说明的是，若一候选识别结果的单位时间解码词数大于预设词数阈值e_thred，则可确定该候选识别结果解码异常，上述第二种实现方式中，将解码异常的候选识别结果剔除，即，将单位时间解码词数大于预设词数阈值e_thred的候选识别结果剔除。

步骤S102：将获取的多个候选集两两组合，得到若干组候选集。

假设经由步骤S101获取了M个候选集，则对M个候选集进行两两组合，会得到M(M-1)/2组候选集。

示例性的，经由步骤S101获取了3个候选集，分别为R₁、R₂和R₃，将R₁、R₂和R₃两两组合会得到3组候选集，分别为(R₁，R₂)、(R₁，R₃)以及(R₂，R₃)。

步骤S103：确定若干组候选集分别对应的相似性信息。

其中，相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句级级别的相似性信息。

示例性的，一组候选集为(R_i，R_j)，其中，R_i＝{r_i1，r_i2，r_i3}，R_j＝{r_j1，r_j2，r_j3}，则(R_i，R_j)对应的相似性信息可以包括r_i1分别与r_j1、r_j2、r_j3的句子级别的相似性信息，r_i2分别与r_j1、r_j2、r_j3的句子级别的相似性信息，r_i3分别与r_j1、r_j2、r_j3的句子级别的相似性信息。

步骤S104：基于若干组候选集分别对应的相似性信息，从多个候选集中确定目标语音的识别结果。

考虑到多个语音识别系统具有差异性和互补性，本实施例从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果，相比于从基于单个语音识别系统获得的候选识别结果中确定目标语音的识别结果，本申请提供的语音识别结果确定方法更加稳定，且能够提升语音识别结果的准确率，在从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果时，为了实现不同语音识别系统的候选识别结果互补，同时为了能够更快的确定出语音识别结果，本申请将目标语音在多个语音识别系统上分别对应的候选集两两组合，基于各组候选集分别对应的句子级别的相似性信息，从多个目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果。经由本实施例提供的语音识别结果确定方法能够较快地确定出准确率较高的语音识别结果。

第二实施例

本实施例对上述实施例中的“步骤S103：确定若干组候选集分别对应的相似性信息”的具体实现过程进行介绍。

可选的，相似性信息可以为相似性度量指标，相似性度量指标为可以度量相似程度的指标，假设一组候选集(R_i，R_j)，则(R_i，R_j)对应的相似性度量指标包括R_i中每个候选识别结果与R_j中每个候选识别结果的相似性度量指标。

示例性的，R_i＝{r_i1，r_i2}，R₂＝{r_j1，r_j2}，则(R_i，R_j)对应的相似性度量指标包括R_i中的候选识别结果r_i1与R_j中的候选识别结果r_j1的相似性度量指标、R_i中的候选识别结果r_i1与R_j中的候选识别结果r_j2的相似性度量指标、R_i中的候选识别结果r_i2与R_j中的候选识别结果r_j1的相似性度量指标、R_i中的候选识别结果r_i2与R_j中的候选识别结果r_j2的相似性度量指标。

需要说明的是，相似性度量指标可以采用第一度量指标，也可以采用第二度量指标，其中，两个候选识别结果的第一度量指标越小，则两个候选识别结果越相似，两个候选识别结果的第二度量指标越大，则两个候选识别结果越相似。可选的，第一度量指标可以但不限定为编辑距离、欧式距离等，第二度量指标可以但不限定为余弦相似度等。

其中，两个候选识别结果(即一组候选集)的编辑距离可通过如下方式确定：

定义d[k₁][k₂]，k₁对应两个候选识别结果中的第一候选识别结果，k₁∈[1,n₁]，n₁表示第一候选识别结果的词数，k₂对应两个候选识别结果中的第二候选识别结果，k₂∈[1,n₂]，n₂表示第二候选识别结果的词数，对于k₁从1到n₁，k₂从1到n₂，依次计算d[k₁][k₂]，计算方式如下：

当第一候选识别结果在k₁-1处与第二候选识别结果在k₂-1处相等时，d[k₁][k₂]＝d[k₁-1][k₂-1]，否则：

d[k₁][k₂]＝min{d[k₁-1][k₂],d[k₁][k₂-1],d[k₁-1][k₂-1]}+1

经过计算，最终可得到d[n₁][n₂]，d[n₁][n₂]即为两个候选识别结果的编辑距离。

示例性的，两个候选识别结果中的第一候选识别结果为“my name is jack”，第二候选识别结果为“my nick name tom”，则按上述方式计算可获得：

由于d[4][4]＝3，因此两个候选识别结果的编辑距离为3。

其中，两个候选识别结果的余弦相似度可通过如下方式确定：

确定每个候选识别结果的表征向量，计算两个候选识别结果的表征向量的余弦相似度，计算得到的余弦相似度作为两个候选识别结果的余弦相似度。其中，一候选识别结果的表征向量可通过将该候选识别结果包含的每个词转换为对应的词向量获得。

两个候选识别结果的欧式距离的确定计算方式与余弦相似度的确定方式类似，均是先确定每个候选识别结果的表征向量，然后确定两个候选识别结果的表征向量的欧式距离，计算得到的欧式距离作为两个候选识别结果的欧式距离。

需要说明的是，上述给出的相似性度量指标(即编辑距离、余弦相似度、欧式距离)仅为示例，其它可以对两个候选识别结果的相似性进行度量的指标也适用于本申请。

第三实施例

本实施例对上述实施例中的“步骤S104：基于若干组候选集分别对应的相似性信息，从多个候选集中确定目标语音的识别结果”的具体实现过程进行介绍。

请参阅图2，示出了基于若干组候选集分别对应的相似性信息，从多个候选集中确定目标语音的识别结果的流程示意图，可以包括：

步骤S201：基于若干组候选集分别对应的相似性信息，确定若干组候选集分别对应的候选识别结果对，以得到若干候选识别结果对。

其中，候选识别结果对包括对应的两个候选集中最相似的两个候选识别结果。

示例性的，一组候选集为(R₁，R₂)，若R₁中的候选识别结果r₁₃与R₂中的候选识别结果r₂₁最相似，则将(r₁₃,r₂₁)确定为(R₁，R₂)对应的目标候选识别结果对。

具体的，基于若干组候选集分别对应的相似性信息，确定若干组候选集分别对应的候选识别结果对的过程可以包括：针对每组候选集，若相似性度量指标采用第一度量指标，则将相似性度量指标最小(比如，编辑距离最小)的两个候选识别结果组成的候选识别结果对，确定为该组候选集对应的候选识别结果对，若相似性度量指标采用第二度量指标，则将相似性度量指标最大(比如，余弦相似度最大)的两个候选识别结果组成的候选识别结果对，确定为该组候选集对应的候选识别结果对。

示例性的，相似性度量指标采用编辑距离，有3组候选集，分别为(R₁，R₂)、(R₁，R₃)和(R₂、R₃)，假设R₁＝{r₁₁，r₁₂}，R₂＝{r₂₁，r₂₂}，R₂＝{r₃₁，r₃₂，r₃₃}，对于(R₁，R₂)而言，(R₁，R₂)对应的相似性信息包括r₁₁与r₂₁的编辑距离、r₁₁与r₂₂的编辑距离、r₁₂与r₂₁的编辑距离、r₁₂与r₂₂的编辑距离，假设r₁₂与r₂₁的编辑距离最小，则将候选识别结果对(r₁₂，r₂₁)确定为候选集为(R₁，R₂)对应的候选识别结果对，同样的方式可确定除(R₁，R₃)对应的候选识别结果对以及(R₂、R₃)以及(R₂、R₃)对应的候选识别结果对，最终会获得3个候选识别结果对。

需要说明的是，对于一组候选集，若其包含的两组候选集中最相似的候选识别结果对有多个(比如，编辑距离最小的候选识别结果对有多个)，则将综合得分和最大的候选识别结果对作为该组候选集对应的候选识别结果对。示例性的，一组候选集为(R₁，R₂)，R₁＝{r₁₁，r₁₂}，R₂＝{r₂₁，r₂₂}，其中，r₁₁与r₂₁的编辑距离为d₁，r₁₁与r₂₂的编辑距离为d₂、r₁₂与r₂₁的编辑距离为d3、r₁₂与r₂₂的编辑距离为d4，假设d₁＝d₂<d3<d4，则将r₁₁与r₂₁的综合得分求和，求和后得分表示为s₁，将r₁₁与r₂₂的综合得分求和，求和后得分表示为s₂，若s₁>s₂，则将(r₁₁，r₂₁)确定为(R₁，R₂)对应的候选识别结果对，若s1<s2，则将(r₁₁，r₂₂)确定为(R₁，R₂)对应的候选识别结果对，若s1＝s2，则将(r₁₁，r₂₁)与(r₁₁，r₂₂)中的任一个确定为(R₁，R₂)对应的候选识别结果对。

步骤S202：基于若干候选识别结果对分别对应的相似性信息，确定目标语音的识别结果。

其中，一候选识别结果对对应的相似性信息为该候选识别结果对包含的两个候选识别结果的相似性信息。

请参阅图3，示出了基于若干候选识别结果对分别对应的相似性信息，确定目标语音的识别结果的流程示意图，可以包括：

步骤S301：基于若干候选识别结果对分别对应的相似性度量指标，从若干候选识别结果对中确定最相似的候选识别结果对，作为目标候选识别结果对。

其中，一候选识别结果对对应的相似性度量指标为该候选识别结果对包含的两个候选识别结果的相似性度量指标。示例性的，相似性度量指标度量采用编辑距离，则一候选识别结果对对应的编辑距离为该候选识别结果对包含的两个候选识别结果的编辑距离。

示例性的，有3组候选集，则相应获得3个候选识别结果对，其中，第1个候选识别结果对对应的编辑距离为d1，第2个候选识别结果对对应的编辑距离为d2，第3个候选识别结果对对应的编辑距离为d3，若d3<d2<d1，则说明第3个候选识别结果对为最相似的识别结果对，将第3个候选识别结果对确定为目标候选识别结果对。

需要说明的是，若若干候选识别结果对中最相似的候选识别结果对有多个，则将综合得分和最高的候选识别结果对确定为目标候选识别结果对。示例性的，有3组候选集，则相应获得3个候选识别结果对，其中，第1个候选识别结果对对应的编辑距离为d1，第2个候选识别结果对对应的编辑距离为d2，第3个候选识别结果对对应的编辑距离为d3，若d3＝d2<d1，则将第2个候选识别结果对包含的两个候选识别结果的综合得分求和，并将第3个候选识别结果对包含的两个候选识别结果的综合得分求和，若第2个候选识别结果对包含的两个候选识别结果的综合得分和大于第3个候选识别结果对包含的两个候选识别结果的综合得分和，则将第2个候选识别结果对确定为目标候选识别结果对，若第3个候选识别结果对包含的两个候选识别结果的综合得分和大于第2个候选识别结果对包含的两个候选识别结果的综合得分和，则将第3个候选识别结果对确定为目标候选识别结果对，若第3个候选识别结果对包含的两个候选识别结果的综合得分和与第2个候选识别结果对包含的两个候选识别结果的综合得分和相同，则将第2个候选识别结果对与第3个候选识别结果对中的任一对确定为目标候选识别结果对。

步骤S302：至少基于目标候选识别结果对对应的相似性度量指标，确定目标语音的识别结果。

具体的，至少基于目标候选识别结果对对应的相似性度量指标，确定目标语音的识别结果包括：

步骤S302a、若目标候选识别结果对对应的相似性度量指标为表征两个候选识别结果相同的目标值，则将目标候选识别结果对中的任一候选识别结果确定为目标语音的识别结果。

示例性的，相似性度量指标采用编辑距离，则表征两个候选识别结果相同的目标值为0，若目标候选识别结果对对应的编辑距离为0，则说明两个候选识别结果相同，则可将目标候选识别结果对中的任一候选识别结果确定为目标语音的识别结果。

示例性的，相似性度量指标采用余弦相似度，则表征两个候选识别结果相同的目标值为1，若目标候选识别结果对对应的余弦相似度为1，则说明两个候选识别结果相同，则可将目标候选识别结果对中的任一候选识别结果确定为目标语音的识别结果。

步骤S302b、若目标候选识别结果对对应的相似性度量指标不为目标值，则基于目标候选识别结果对对应的相似性度量指标以及目标候选识别结果对中每个候选识别结果的词数和综合得分，确定目标语音的识别结果。

其中，一候选识别结果的综合得分基于该候选识别结果的声学得分和语言得分确定。需要说明的是，每个候选识别结果均对应有两个得分，即声学得分(声学模型的打分)和语言得分(语言模型的打分)，声学得分和语言得分由对应的语音识别系统在输出候选识别结果时一并输出，示例性的，一语音识别系统输出了10个候选识别结果，其在输出这10个候选识别结果时，还会输出每个候选识别结果的声学得分和语言得分，

基于一候选识别结果的声学得分和语言得分确定该候选识别结果的综合得分的实现方式有多种，本实施例提供如下两种可选的实现方式：

第一种实现方式：

步骤a1、将该候选识别结果的语言得分处理为目标范围内的值，以得到处理后的语言得分。

其中，该候选识别结果的声学得分处于目标范围内。

步骤a2、将处理后的语言得分与该候选识别结果的声学得分融合，融合后的得分作为该候选识别结果的综合得分。

将处理后的语言得分与该候选识别结果的声学得分融合的方式有多种，比如，可将处理后的语言得分与该候选识别结果的声学得分直接求和，也可将处理后的语言得分与该候选识别结果的声学得分加权求和。

第二种实现方式：

步骤b1、根据该候选识别结果的词数和该候选识别结果的语言得分，确定该候选识别结果的合理程度表征值。

假设该候选识别结果为目标语音在第i个语音识别系统上对应的候选集中的第j个候选识别结果r_ij，则可根据下式示出的方式确定该候选识别结果r_ij的合理程度表征值z_ij：

z_ij＝q_ij/ln(ppl_ij+∈) (1)

其中，q_ij表示该候选识别结果r_ij的词数，即该候选识别结果r_ij包含的词的数量，ppl_ij表示该候选识别结果r_ij的语言得分，∈取10^-6。

步骤b2、将该候选识别结果的合理程度表征值归一化为目标范围内的值，以得到归一化后的合理程度表征值。

其中，该候选识别结果的声学得分处于目标范围内。

具体的，按下式示出的归一化方式将候选识别结果r_ij的合理程度表征值z_ij归一化为目标范围内的值：

其中，c表示平滑化因子，其为可调参数，l_ij即表示归一化后的合理程度表征值。

步骤b3、将归一化后的合理程度表征值与该候选识别结果的声学得分融合，融合后的得分作为该候选识别结果的综合得分。

在一种可能的实现方式中，可直接将归一化后的合理程度表征值与该候选识别结果的声学得分求和，求和后的得分作为该候选识别结果的综合得分；在另一种可能的实现方式中，可将归一化后的合理程度表征值与该候选识别结果的声学得分加权求和，加权求和后的得分作为该候选识别结果的综合得分，即：

s_ij＝αl_ij+βa_ij (3)

其中，s_ij即表示候选识别结果r_ij的综合得分，a_ij表示候选识别结果r_ij的声学得分，α表示语言模型得分因子，β表示声学模型得分因子，α+β＝1，α和β为可调参数。

相比于第一种实现方式，第二种实现方式还考虑了候选识别结果的词数，由于候选识别结果的优劣与词数相关，因此，结合候选识别结果的词数确定的综合得分能更好地反映候选识别结果的优劣。有鉴于此，优选上述第二种实现方式确定候选识别结果的综合得分。

接下来对步骤S302b中“基于目标候选识别结果对对应的相似性度量指标以及目标候选识别结果对中每个候选识别结果的词数和综合得分，确定目标语音的识别结果”的实现过程进行介绍。

基于目标候选识别结果对对应的相似性度量指标以及目标候选识别结果对中每个候选识别结果的词数和综合得分，确定目标语音的识别结果的过程可以包括：

在目标候选识别结果对的相似性度量指标与预设相似性阈值满足预设关系的情况下：

(1)若目标候选识别结果对中第一候选识别结果的词数与第二候选识别结果的词数相同，则将目标候选识别结果对中综合得分大的候选识别结果确定为目标语音的识别结果。

需要说明的是，目标候选识别结果对中的第一候选识别结果的词数与第二候选识别结果的词数相同，说明第一候选识别结果的词数与第二候选识别结果可能发生的替换、删除、插入的数量是相同的，此种情况下，将第一候选识别结果与第二候选识别结果中综合得分大的候选识别结果确定为目标语音的识别结果。

(2)若第一候选识别结果的词数大于第二候选识别结果的词数，且第二候选识别结果的综合得分大于第一候选识别结果的综合得分，则将第二候选识别结果确定为目标语音的识别结果。

需要说明的是，目标候选识别结果对中的第一候选识别结果的词数大于第二候选识别结果的词数，说明第一候选识别结果可能发生的插入错误比第二候选识别结果更多，则取插入错误更少且综合得分更高的第二候选识别结果作为目标语音的识别结果。

(3)若第二候选识别结果的词数大于第一候选识别结果的词数，且第一候选识别结果的综合得分大于第二候选识别结果的综合得分，则将第一候选识别结果确定为目标语音的识别结果。

需要说明的是，目标候选识别结果对中的第二候选识别结果的词数大于第二候选识别结果的词数，说明第二候选识别结果可能发生的插入错误比第一候选识别结果更多，则取插入错误更少且综合得分更高的第一候选识别结果作为目标语音的识别结果。

示例性的，目标候选识别结果对为(r_ip、r_jq)，(r_ip、r_jq)对应的相似性度量指标为(r_ip、r_jq)对应的编辑距离，即r_ip与r_jq的编辑距离，则基于(r_ip、r_jq)对应的编辑距离以及目标候选识别结果对中每个候选识别结果的词数和综合得分，确定目标语音的识别结果的过程包括：在(r_ip、r_jq)对应的编辑距离小于预设的编辑距离阈值的情况下，若r_ip的词数与r_jq的词数相同，则将r_ip、r_jq中的任一个确定为目标语音的识别结果；若r_ip的词数大于r_jq的词数，且r_jq的综合得分大于r_ip的综合得分，则将插入错误更少且综合得分更高的r_jq确定为目标语音的识别结果；若r_jq的词数大于r_ip的词数，r_ip的综合得分大于r_jq的综合得分，则将插入错误更少且综合得分更高的r_ip确定为目标语音的识别结果。

需要说明的是：若目标候选识别结果对的相似性度量指标不为目标值，且目标候选识别结果对的相似性度量指标与预设相似性阈值不满足预设条件(比如，目标候选识别结果对的编辑距离不小于预设的编辑距离阈值)，则确定无法从目标候选识别结果对中确定目标语音的识别结果；在目标候选识别结果对的相似性度量指标不为目标值，且目标候选识别结果对的相似性度量指标与预设相似性阈值满足预设条件的情况下，若第一候选识别结果的词数大于第二候选识别结果的词数，且第一候选识别结果的综合得分大于或等于第二候选识别结果的综合得分，则确定无法从目标候选识别结果对中确定目标语音的识别结果；在目标候选识别结果对的相似性度量指标不为目标值，且目标候选识别结果对的相似性度量指标与预设相似性阈值满足预设条件的情况下，若第二候选识别结果的词数大于第一候选识别结果的词数，且第二候选识别结果的综合得分大于或等于一候选识别结果的综合得分，则确定无法从目标候选识别结果对中确定目标语音的识别结果。

在确定无法从目标候选识别结果对中确定目标语音的识别结果时，本申请采用如下策略确定目标语音的识别结果：从每个候选集中获取识别得分最高的候选识别结果(比如每个语音识别系统输出的1-best)；将从各个候选集中分别获取的识别得分最高的候选识别结果中综合得分最高的候选识别结果，确定为目标语音的识别结果。

经由上述第一实施例和第二实施例可知，本申请实施例提供的语音识别结果的确定方法可获取多个不同语音识别系统分别输出的N-Best候选识别结果，可将每个语音识别系统输出的N-Best候选识别结果中解码异常的候选识别结果剔除，以得到目标语音在不同语音识别系统上分别对应的候选集，还可将目标语音在不同语音识别系统上分别对应的候选集两两组合，针对每组候选集，从两个候选集中找出最相似的两个候选识别结果，从而得到各组候选集分别对应的候选识别结果对，然后从各组候选集分别对应的候选识别结果对中找出最相似的候选识别结果对，最后基于最相似的候选识别结果对的相关信息(比如最相似的候选识别结果对对应的相似性度量指标、最相似的候选识别结果对包含的每个候选识别结果的次数和综合得分)确定目标语音的识别结果。本申请从目标语音在不同语音识别系统上分别对应的候选集中确定目标语音的识别结果，由于不同语音识别系统输出的候选识别结果具有互补性，因此，相比于从基于单个语音识别系统输出的候选识别结果中确定目标语音的识别结果，本申请提供的语音识别结果确定方法更加稳定，且能够提升语音识别结果的准确率，在从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果时，为了实现不同语音识别系统的候选识别结果互补，同时为了能够更快的确定出语音识别结果，本申请将目标语音在多个语音识别系统上分别对应的候选集两两组合，基于各组候选集分别对应的句子级别的相似性信息，从多个目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果。经由本申请提供的语音识别结果确定方法能够较快地确定出准确率较高的语音识别结果。

第四实施例

本申请实施例还提供了一种语音识别结果确定装置，下面对本申请实施例提供的语音识别结果确定装置进行描述，下文描述的语音识别结果确定装置与上文描述的语音识别结果确定方法可相互对应参照。

请参阅图4，示出了本申请实施例提供的语音识别结果确定装置的结构示意图，可以包括候选集获取模块401、候选集组合模块402、相似性信息确定模块403和识别结果确定模块404。其中：

候选集获取模块401，用于获取目标语音在多个语音识别系统上分别对应的候选集。其中，所述目标语音在一个语音识别系统上对应的候选集包括基于该语音识别系统获得的若干候选识别结果。

候选集组合模块402，用于将获取的多个候选集两两组合，以得到若干组候选集。

相似性信息确定模块403，用于确定所述若干组候选集分别对应的相似性信息。其中，所述相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句子级别的相似性信息。

识别结果确定模块404，用于基于所述若干组候选集分别对应的相似性信息，从所述多个候选集中确定目标语音的识别结果。

可选的，候选集获取模块401在获取目标语音在多个语音识别系统上分别对应的候选集时，具体用于：

可选的，候选集获取模块401在确定所述多个候选识别结果中是否存在解码异常的候选识别结果时，具体用于：

候选集获取模块401在将解码异常的候选识别结果剔除时，具体用于：

可选的，识别结果确定模块404可以包括：候选识别结果对确定子模块和识别结果确定子模块。

候选识别结果对确定子模块，用于基于所述若干组候选集分别对应的相似性信息，确定所述若干组候选集分别对应的候选识别结果对，以得到若干候选识别结果对，其中，所述候选识别结果对包括对应的两个候选集中最相似的两个候选识别结果；

识别结果确定子模块，用于基于所述若干候选识别结果对分别对应的相似性信息，确定所述目标语音的识别结果，其中，一候选识别结果对对应的相似性信息为该候选识别结果对包含的两个候选识别结果的相似性信息。

可选的，所述相似性信息为相似性度量指标，则识别结果确定子模块在基于所述若干候选识别结果对分别对应的相似性信息，确定所述目标语音的识别结果时，具体用于：

可选的，识别结果确定子模块在至少基于所述目标候选识别结果对对应的相似性度量指标，确定所述目标语音的识别结果时，具体用于：

可选的，本申请提供的语音识别结果确定装置还可以包括综合得分确定模块。综合得分确定模块在确定一候选识别结果的综合得分时，具体用于：

可选的，识别结果确定子模块在基于所述目标候选识别结果对对应的相似性度量指标以及所述目标候选识别结果对中每个候选识别结果的词数和综合得分，确定所述目标语音的识别结果时，具体用于：

可选的，识别结果确定子模块还用于：

考虑到多个语音识别系统具有差异性和互补性，本实施例提供的语音识别确定装置从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果，相比于从基于单个语音识别系统获得的候选识别结果中确定目标语音的识别结果，本申请提供的语音识别确定装置确定语音识别结果的方式更加稳定，且能够提升语音识别结果的准确率，在从目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果时，为了实现不同语音识别系统的候选识别结果互补，同时为了能够更快的确定出语音识别结果，本申请实施例提供的语音识别确定装置将目标语音在多个语音识别系统上分别对应的候选集两两组合，基于各组候选集分别对应的句子级别的相似性信息，从多个目标语音在多个语音识别系统上分别对应的候选集中确定目标语音的识别结果。经由本实施例提供的语音识别结果确定装置能够较快地确定出准确率较高的语音识别结果。

第五实施例

本申请实施例还提供了一种语音识别结果确定设备，请参阅图5，示出了该语音识别结果确定设备的结构示意图，该舆情分析设备可以包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个通信总线504；

在本申请实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

将获取的多个候选集两两组合，以得到若干组候选集；

确定所述若干组候选集分别对应的相似性信息，并基于所述若干组候选集分别对应的相似性信息，从所述多个候选集中确定目标语音的识别结果，其中，所述相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句子级别的相似性信息。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第六实施例

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质可存储有适于处理器执行的程序，所述程序用于：

将获取的多个候选集两两组合，以得到若干组候选集；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别结果确定方法，其特征在于，包括：

将获取的多个候选集两两组合，以得到若干组候选集；

2.根据权利要求1所述的语音识别结果确定方法，其特征在于，获取目标语音在一个语音识别系统上对应的候选集，包括：

3.根据权利要求2所述的语音识别结果确定方法，其特征在于，所述确定所述多个候选识别结果中是否存在解码异常的候选识别结果，包括：

所述将解码异常的候选识别结果剔除，包括：

4.根据权利要求1～3中任一项所述的语音识别结果确定方法，其特征在于，所述基于所述若干组候选集分别对应的相似性信息，从所述多个候选集中确定目标语音的识别结果，包括：

5.根据权利要求4所述的语音识别结果确定方法，其特征在于，所述相似性信息为相似性度量指标；

6.根据权利要求5所述的语音识别结果确定方法，其特征在于，所述至少基于所述目标候选识别结果对对应的相似性度量指标，确定所述目标语音的识别结果，包括：

7.根据权利要求6所述的语音识别结果确定方法，其特征在于，确定一候选识别结果的综合得分，包括：

8.根据权利要求6所述的语音识别结果确定方法，其特征在于，所述基于所述目标候选识别结果对对应的相似性度量指标以及所述目标候选识别结果对中每个候选识别结果的词数和综合得分，确定所述目标语音的识别结果，包括：

9.根据权利要求8所述的语音识别结果确定方法，其特征在于，还包括：

10.一种语音识别结果确定装置，其特征在于，包括：候选集获取模块、候选集组合模块、相似性信息确定模块和识别结果确定模块；

11.一种语音识别结果确定设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的语音识别结果确定方法的各个步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的语音识别结果确定方法的各个步骤。