CN114596862A

CN114596862A - 一种语音识别引擎确定方法、装置及计算机设备

Info

Publication number: CN114596862A
Application number: CN202210308958.1A
Authority: CN
Inventors: 王俊伟
Original assignee: Nanjing Siwei Zhilian Technology Co ltd
Current assignee: Nanjing Siwei Zhilian Technology Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-07

Abstract

本发明公开了一种语音识别引擎确定方法、装置及计算机设备，该方法包括，当确定本次采集的语音数据为首次采集的语音数据时，将语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果；在语义识别结果包括语音数据处理时间和语音数据处理自信度，基于语音数据处理时间和语音数据处理自信度，从至少两个语音识别引擎中选择一个语音识别引擎作为目标识别引擎。根据该方式，根据对首次采集的语音数据的处理结果，合理的选择目标识别引擎。针对场景的不同，选取与应用场景最适宜的目标识别引擎，可以充分利用某个语音识别引擎只针对特定场景的语音识别有效的特点，实现在不同语音识别场景灵活切换不同语音识别引擎，提升了用户体验度。

Description

一种语音识别引擎确定方法、装置及计算机设备

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别引擎确定方法、装置及计算机设备。

背景技术

随着汽车行业的发展，用户对车内语音识别助手的要求越来越高，由于导航车机的语音助手识别率普遍不是很好，不能准确识别驾驶人与乘车人的交互意图，导致对于驾驶人与乘车人的驾驶体验与语音控制体验等效果不佳。

现有技术下的语音助手采用的供应商引擎的识别与理解，针对某些特定场景或技能的识别有效，但是对于其他场景或技能，对语义识别与理解的效果不佳，甚至是无法识别，导致现有的语音助手在某些场景或技能下不能很好的识别与理解用户的意图。

发明内容

因此，本发明要解决的技术问题在于克服现有的车内语音识别助手存在对某些场景或技能的识别准确率不高的缺陷，从而提供一种语音识别引擎确定方法、装置及计算机设备。

根据第一方面，本发明实施例公开了一种语音识别引擎确定方法，该方法应用于任一个利用语音进行人机交互的场景下，方法包括：当确定本次采集的语音数据为首次采集的语音数据时，将语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果，其中，所述语音识别结果包括语音数据处理时间和语音数据处理自信度；基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，所述目标识别引擎用以对所述场景下后续采集的所述语音数据进行语义识别处理。

可选地，所述基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，包括：当所述语音数据处理时间相同时，直接根据所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎；或者，当所述语音数据处理时间不同时，同时根据所述语音数据处理时间和所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎。

可选地，当所述语音数据处理时间相同时，直接根据所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎，包括：确定语音数据处理自信度符合预设自信度阈值的语音识别引擎作为所述目标识别引擎。

可选地，当所述语音数据处理自信度符合所述预设自信度阈值的语音识别引擎的数量包括至少两个时，选择语音数据处理自信度最高的语音识别引擎作为所述目标识别引擎。

可选地，当至少两个语音识别引擎中，未获取到语音数据处理自信度符合预设自信度阈值的语音识别引擎时，则确定目标语音识别引擎选取失败；选取语音数据处理自信度最高的语音识别引擎，用以完成所述场景下后续采集的所述语音数据进行语义识别处理。

可选地，当所述语音数据处理时间不同时，同时根据所述语音数据处理时间和所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎，包括：从语音数据处理自信度符合预设自信度阈值的语音识别引擎中，选取语音数据处理时间最短的语音识别引擎作为所述目标识别引擎。

可选地，当至少两个所述语音识别引擎中，所有语音数据处理自信度均不符合预设自信度阈值时，则确定目标语音识别引擎选取失败；选取语音数据处理自信度最高或者选取语音数据处理时间最短的语音识别引擎，用以完成所述场景下后续采集的所述语音数据进行语义识别处理。

根据第二方面，本发明实施例还公开了一种语音识别装置，包括：数据采集模块，用于采集语音数据；处理模块，用于当确定本次采集的语音数据为首次采集的语音数据时，将所述语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果，所述语音识别结果包括语音数据处理时间和语音数据处理自信度；识别引擎选择模块，用于基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，所述目标识别引擎用以对所述场景下后续采集的所述语音数据进行语义识别处理。

根据第三方面，本发明实施例还公开了一种计算机设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任一可选实施方式的语音识别引擎确定方法的步骤。

根据第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式的语音识别引擎确定方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的语音识别引擎确定方法，该方法应用于任一个利用语音进行人机交互的场景下，当确定本次采集的语音数据为首次采集的语音数据时，将语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果；在语义识别结果包括语音数据处理时间和语音数据处理自信度，基于语音数据处理时间和语音数据处理自信度，从至少两个语音识别引擎中选择一个语音识别引擎作为目标识别引擎。根据该方式，可以针对每一个利用语音进行人机交互的场景，根据对首次采集的语音数据的处理结果，从至少两个语音识别引擎中，合理的选择其中一个作为目标识别引擎。也即是，针对场景的不同，选取与应用场景最为适宜的一个目标识别引擎，用以识别该场景中的语音数据，从而可以充分利用某个语音识别引擎只针对特定场景的语音识别有效的特点，实现在不同语音识别场景灵活切换不同语音识别引擎，完成语义识别工作，进而保证最终获取的语义识别结果更加符合用户需求，更好的识别与理解用户的意图，大大提升用户体验度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中语音识别引擎确定方法的一个具体示例的流程图；

图2为本发明实施例中语音识别引擎确定方法的一个具体实施例的示意图；

图3为本发明实施例中语音识别装置的一个具体示例的原理框图；

图4为本发明实施例中计算机设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种语音识别引擎确定方法，该方法应用于任一个语音场景下，在一个场景对话开始时，在进行确定语音数据识别之前需要先获取唤醒音频，唤醒至少两个语音识别引擎，在唤醒语音识别引擎之后，再对首次获取到的语音数据进行识别。之所以执行唤醒操作，是为了方便人机交互系统可以确定本次采集的语音数据是否为首次采集的语音数据。进而判定是否要执行本申请下文中将要执行的方法动作。如果本次是首次采集，则需要执行下文的操作。如果不是首次采集，那么已经按照下文所说的操作步骤确定了目标识别引擎，直接使用目标识别引擎完成语音数据的识别即可。因此，在执行本发明方法步骤之前，要通过唤醒动作来验证是否是首次采集语音数据。

当然，需要说明的是，如果是同一个场景中，用户在间隔预设时间段内再次执行唤醒动作，使用人机交互系统完成语音数据的识别，系统也将默认本次的语音数据为在该场景中的首次识别，同样要执行如下操作，具体参见图1所示，该方法包括如下步骤：

步骤101：当确定本次采集的语音数据为首次采集的语音数据时，将语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果。

其中，语音识别结果包括语音数据处理时间和语音数据处理自信度。

示例性地，语音数据为在同一个场景下第一次采集到的需要识别的语音数据，其中同一个场景可以是粤语环境下的语音数据，或者是东北方言环境下的语音数据等。在采集到语音数据之后，将语音数据输入到每一个语音识别引擎，分别进行识别，得到与语音识别引擎数量相同的语音识别结果。语音识别为根据语音数据得到相应的文字的过程。

具体地，可以用ASR(Automatic Speech Recognition，自动语音识别技术，简称ASR)进行识别。语音识别结果包括了语音数据处理时间和语音数据处理自信度，语音数据处理时间为每一个语音识别引擎对语音数据进行语音识别的时长；语音数据处理自信度为每一个语音识别引擎对语音数据进行语音识别的准确率。本发明实施例对场景的类型不作限定，本领域技术人员可以根据实际需要确定。

步骤102：基于语音数据处理时间和语音数据处理自信度，从至少两个语音识别引擎中选择一个语音识别引擎作为目标识别引擎。

示例性地，在步骤101中得到语音数据处理时间和语音数据处理自信度后，根据语音数据处理时间和语音数据处理自信度，进行一个综合选择，从而获取一个合适的语音识别引擎作为目标识别引擎。在得到目标识别引擎之后，根据目标识别引擎对语音数据以及本场景下的后续语音数据进行识别，得到语义识别结果，其中语义识别为对语音数据的意图进行判断，具体地，可以使用NLU(Natural Language Understanding，自然语言理解，简称NLU)进行语义识别，根据识别到的语义识别结果执行语义识别结果中的指令信息。

在一个可选的例子中，例如当所述语音数据处理时间相同时，可以直接根据所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎。

具体的，语音数据处理时间相同的情况下，根据语音数据处理自信度，可以从至少两个所述语音识别引擎中选择语音数据处理自信度符合预设自信度阈值的语音识别引擎，作为目标识别引擎。

或者，当所述语音数据处理时间不同时，同时根据所述语音数据处理时间和所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎。

具体的，若语音数据处理时间不同，那么可以从语音数据处理自信度符合预设自信度阈值的语音识别引擎中，选取语音数据处理时间最短的语音识别引擎作为所述目标识别引擎。

当然，上述所列举的方式仅为本申请所列举的所能实现的几种方式，但不作为本申请执行方式的具体限定。除了上述执行方式外，该方法还可以包括其他可实现方式，具体可以参见下文内容的介绍。

例如，在一个可选的实施例中，在根据进行目标引擎选择的时候，当语音数据处理时间相同时：

一种情况，在语音数据处理时间相同时，满足预设语音数据处理自信度的语音识别引擎只有一个时，作为本发明一个可选实施方式，当所述语音数据处理时间相同时，直接根据所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎，包括：确定语音数据处理自信度符合预设自信度阈值的语音识别引擎作为所述目标识别引擎。

示例性地，当语音数据处理时间相同时，选择语音数据处理自信度符合预设阈值的语音识别引擎作为目标识别引擎，例如，当预设时间为1s时，在所有的满足语音数据处理时间在1s内的语音识别引擎中，选择语音数据处理自信度高于0.9的语音识别引擎作为目标识别引擎。在预设时间内，选择满足语音数据处理自信度预设阈值的语音识别引擎可以使得选择的目标识别引擎同时满足速度和准确度的要求。本发明实施例对预设时间和语音数据处理自信度的预设阈值大小不作限定，本领域技术人员可以根据实际需要确定。

另一种情况，在语音数据处理时间相同时，满足预设语音数据处理自信度的语音识别引擎不只有一个时，作为本发明一个可选实施方式，当语音数据处理时间相同时，语音数据处理自信度符合预设自信度阈值的语音识别引擎的数量包括至少两个时，选择语音数据处理自信度最高的语音识别引擎作为目标识别引擎。

示例性地，当语音数据处理时间在满足预设时间的同时，存在两个或两个以上的语音识别引擎，满足语音数据处理自信度符合预设阈值时，选择语音数据处理自信度最高的作为目标识别引擎，从而可以确保得到的目标识别引擎在相同的处理时间内是识别效果最佳的。例如，当预设时间为1s时，在所有的满足语音数据处理时间在1s内的语音识别引擎中，存在语音数据处理自信度是0.92、0.95以及0.96的语音识别引擎，那么选择语音数据处理自信度为0.96的语音识别引擎作为目标识别引擎。

还存在一种情况，在语音数据处理时间相同时，所有的语音识别引擎均不满足预设语音数据处理自信度阈值的情况，作为本发明一个可选实施方式，当至少两个语音识别引擎中，未获取到语音数据处理自信度符合预设自信度阈值的语音识别引擎时，则确定目标语音识别引擎选取失败；选取语音数据处理自信度最高的语音识别引擎，用以完成所述场景下后续采集的所述语音数据进行语义识别处理。

示例性地，当所有的语音数据处理自信度都没有符合预设自信度的语音识别引擎时，则确定目标语音识别引擎选取失败。当出现这种情况时，虽然选择最佳的目标语音识别引擎选取失败，但是为了避免出现唤醒语音识别引擎后，语音识别引擎没有响应的情况下，选择其中语音数据处理自信度最高的语音识别引擎作为目标识别引擎对语音数据进行识别。例如，当语音数据处理时间相同均为1s时，存在语音数据处理自信度是0.63、0.70以及0.68的语音识别引擎，那么选择语音数据处理自信度为0.70的语音识别引擎作为目标识别引擎，虽然没有满足预设自信度阈值，但是为了避免出现语音识别引擎没有响应的情况，择优选择一个语音识别引擎进行后续处理。

在另一个可选的实施例中，在上述实施例的基础上，在根据进行目标引擎选择的时候，当语音数据处理自信度同时，也即是处理时间相同，语音数据处理自信度也相同(虽然，这种情况及其少见)，那么则随机选取一个语音识别引擎作为目标识别引擎即可。

上文中，考虑到多个语音识别引擎对于语音数据处理时，处理时间相同的情况。下面，将介绍语音数据处理时间不同的情况。具体参见如下：

一种情况，当所有的语音数据处理自信度均符合预设自信度阈值，但是语音数据处理时间不同时，作为本发明一个可选实施方式，当所述语音数据处理时间不同时，同时根据所述语音数据处理时间和所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎，包括：从语音数据处理自信度符合预设自信度阈值的语音识别引擎中，选取语音数据处理时间最短的语音识别引擎作为所述目标识别引擎。

示例性地，当得到的语音识别结果在进行筛选的时候，当出现语音数据处理时间不同时，在语音数据处理自信度符合预设阈值的语音识别引擎中，选择语音数据处理时间最短的语音是被引擎作为目标识别引擎，确保了选择的目标识别引擎的准确度和速率。例如，当语音数据处理自信度均大于0.9时，存在语音数据处理时间是1S，1.5S以及1.2S的语音识别引擎，那么选择语音数据处理时间为1S的语音识别引擎作为目标识别引擎。

考虑到在语音数据处理自信度均满足预设自信度阈值时，在满足条件的语音识别引擎中选择处理时间最短的语音识别引擎作为目标识别引擎，如此一来，选择的目标识别引擎，不论是从语音数据处理时间的角度，还是从语音数据处理自信度出发都是具有最佳的识别效果。

另一种情况中，若语音数据处理时间不同，所获取的在语音数据处理自信度符合预设阈值的语音识别引擎包括多个，且自信度大小不同时，除了可以按照上述方式选择时间最短的作为目标识别引擎，也可以选取自信度最高的语音识别引擎作为目标识别引擎。选择方式不同，考虑的角度不同。具体选择何种方式，则根据实际情况确定即可。

在再一种情况中，和从语音数据处理时间相同的角度出发会存在语音识别引擎失败的情况相类似的，从语音数据处理自信度的角度也会存在语音识别引擎选择失败的情况，作为本发明一个可选实施方式，当至少两个所述语音识别引擎中，所有语音数据处理自信度均不符合预设自信度阈值时，则确定目标语音识别引擎选取失败；选取语音数据处理自信度最高的语音识别引擎，用以完成所述场景下后续采集的所述语音数据进行语义识别处理。

示例性地，当不存在满足语音数据处理自信度的语音识别引擎时，即使存在语音数据处理时间较短的语音识别引擎，但是由于语音数据处理自信度不满足预设标准，后续的识别还是达不到预期的效果，则确定目标语音识别引擎选取失败。

当出现这种情况时，虽然选择最佳的目标语音识别引擎选取失败，同样为了避免出现唤醒语音识别引擎后，语音识别引擎没有响应的情况出现，选择一个语音数据处理自信度最高的语音识别引擎作为目标识别引擎对语音数据进行识别。例如，当语音数据处理时间相同均不满足预设自信度时，存在语音数据处理自信度是0.50、0.61以及0.59的语音识别引擎，那么选择语音数据处理自信度为0.61的语音识别引擎作为目标识别引擎。

根据上述实施方式的描述，在根据语音数据处理自信度和语音数据处理时间进行目标识别引擎选择时，也可以根据预设时间和预设阈值进行分级选择，例如，

A、当1S内，且语音数据处理自信度高于0.9，选择符合条件语音数据处理自信度最高的语音识别引擎，本次识别与本场景内的后续识别均采用该语音识别引擎。

B、条件A不满足时，筛选3S内，且语音数据处理自信度高于0.85，选择符合条件的语音数据处理自信度最高的语音识别引擎，本次识别与本场景内的后续识别均采用该语音识别引擎。

C、条件B再次不满足时，筛选5S内，且语音数据处理自信度高于0.7，选择符合条件的语音数据处理自信度最高的语音识别引擎，本次识别与本场景内的后续识别均采用该语音识别引擎。

D条件C依然不满足时，识别失败，超时失败处理。

如图2所示，为上述语音识别引擎确定方法的一个具体实施例的示意图，至少两个语音识别引擎通过引擎接口与识别流程控制进行通信，且可以根据识别流程控制至少两个语音识别引擎进行模式转换，例如可以是识别模式和睡眠模式。多擎选择控制中封装了至少两个语音识别引擎的录音降噪、唤醒、语音识别ASR以及语义识别NLU的协议模式等，其中引擎接口与语音识别ASR以及语义识别NLU的协议模式可以根据识别技能模块(如导航，天气，外卖，音乐)、用户意图(查询，定位，动作，播放)、播报提示语、数据解析结果、理解结果来源(在线、离线)以及声源定位(可选，是否多mic发声)进行统一协议定义，从而实现识别流程控制与至少两个语音识别引擎进行通信。

本发明提供的语音识别引擎确定方法，语音识别引擎确定方法应用于任一个利用语音进行人机交互的场景下，方法包括：当确定本次采集的语音数据为首次采集的语音数据时，将语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果；在语义识别结果包括语音数据处理时间和语音数据处理自信度，基于语音数据处理时间和语音数据处理自信度，从至少两个语音识别引擎中选择一个语音识别引擎作为目标识别引擎。根据该方式，可以针对每一个利用语音进行人机交互的场景，根据对首次采集的语音数据的处理结果，从至少两个语音识别引擎中，合理的选择其中一个作为目标识别引擎。也即是，针对场景的不同，选取与应用场景最为适宜的一个目标识别引擎，用以识别该场景中的语音数据，从而可以充分利用某个语音识别引擎只针对特定场景的语音识别有效的特点，实现在不同语音识别场景灵活切换不同语音识别引擎，完成语义识别工作，进而保证最终获取的语义识别结果更加符合用户需求，更好的识别与理解用户的意图，大大提升用户体验度。

以上，为本申请所提供的语音识别引擎确定的几个方法实施例，下文中则介绍说明本申请所提供的语音识别引擎确定的其他实施例，具体参见如下。

本发明实施例还公开了一种语音识别引擎确定装置，如图3所示，该装置包括：

数据采集模块301，用于采集语音数据。

处理模块302，用于当确定本次采集的语音数据为首次采集的语音数据时，将所述语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果，所述语音识别结果包括语音数据处理时间和语音数据处理自信度。

识别引擎选择模块303，用于基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，所述目标识别引擎用以对所述场景下后续采集的所述语音数据进行语义识别处理。

根据该装置，可以针对每一个利用语音进行人机交互的场景，根据对首次采集到的语音数据的处理结果，从至少两个语音识别引擎中，合理的选择其中一个作为目标识别引擎。也即是，针对场景的不同，选取与应用场景最为适宜的一个目标识别引擎，用以识别该场景中的语音数据，从而可以充分利用某个语音识别引擎只针对特定场景的语音识别有效的特点，实现在不同语音识别场景灵活切换不同语音识别引擎，完成语义识别工作，进而保证最终获取的语义识别结果更加符合用户需求，更好的识别与理解用户的意图，大大提升用户体验度。

作为本发明一个可选实施方式，当语音数据处理时间相同时，处理模块302还用于执行以下步骤，直接根据语音数据处理自信度，从至少两个语音识别引擎中选择目标识别引擎，包括：确定语音数据处理自信度符合预设自信度阈值的语音识别引擎作为目标识别引擎。

作为本发明一个可选实施方式，当语音数据处理自信度符合预设自信度阈值的语音识别引擎的数量包括至少两个时，处理模块302还用于执行以下步骤，选择语音数据处理自信度最高的语音识别引擎作为目标识别引擎。

作为本发明一个可选实施方式，当至少两个语音识别引擎中，未获取到语音数据处理自信度符合预设自信度阈值的语音识别引擎时，处理模块302还用于执行以下步骤，则确定目标语音识别引擎选取失败；并随机选取任一个语音识别引擎，用以完成场景下后续采集的语音数据进行语义识别处理。

作为本发明一个可选实施方式，当语音数据处理时间不同时，同时根据语音数据处理时间和语音数据处理自信度，处理模块302还用于执行以下步骤，从至少两个语音识别引擎中选择目标识别引擎，包括：从语音数据处理自信度符合预设自信度阈值的语音识别引擎中，选取语音数据处理时间最短的语音识别引擎作为目标识别引擎。

作为本发明一个可选实施方式，当至少两个语音识别引擎中，所有语音数据处理自信度均不符合预设自信度阈值时，则确定目标语音识别引擎选取失败，处理模块302还用于执行以下步骤，并随机选取任一个语音识别引擎，用以完成场景下后续采集的语音数据进行语义识别处理。

本发明实施例提供的语音识别引擎确定装置中各部件所执行的功能均已在上述任一方法实施例中做了详细的描述，因此这里不再赘述。

本发明实施例还提供了一种计算机设备，如图4所示，该计算机设备可以包括处理器401和存储器402，其中处理器401和存储器402可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器401可以为中央处理器(Central Processing Unit，CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器402作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的语音识别引擎确定方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别引擎确定方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器401所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器402中，当被所述处理器401执行时，执行如图1所示实施例中的语音识别引擎确定方法。

上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种语音识别引擎确定方法，其特征在于，所述语音识别引擎确定方法应用于任一个利用语音进行人机交互的场景下，所述方法包括：

当确定本次采集的语音数据为首次采集的语音数据时，将所述语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果，其中，所述语音识别结果包括语音数据处理时间和语音数据处理自信度；

基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，所述目标识别引擎用以对所述场景下后续采集的所述语音数据进行语义识别处理。

2.根据权利要求1所述的语音识别引擎确定方法，其特征在于，所述基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，包括：

当所述语音数据处理时间相同时，直接根据所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎；

3.根据权利要求2所述的语音识别引擎确定方法，其特征在于，当所述语音数据处理时间相同时，直接根据所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎，包括：

确定语音数据处理自信度符合预设自信度阈值的语音识别引擎作为所述目标识别引擎。

4.根据权利要求3所述的语音识别引擎确定方法，其特征在于，当所述语音数据处理自信度符合所述预设自信度阈值的语音识别引擎的数量包括至少两个时，选择语音数据处理自信度最高的语音识别引擎作为所述目标识别引擎。

5.根据权利要求3所述的语音识别引擎确定方法，其特征在于，当至少两个语音识别引擎中，未获取到语音数据处理自信度符合预设自信度阈值的语音识别引擎时，则确定目标语音识别引擎选取失败；

选取语音数据处理自信度最高的语音识别引擎，用以完成所述场景下后续采集的所述语音数据进行语义识别处理。

6.根据权利要求2所述的语音识别引擎确定方法，其特征在于，当所述语音数据处理时间不同时，同时根据所述语音数据处理时间和所述语音数据处理自信度，从至少两个所述语音识别引擎中选择所述目标识别引擎，包括：

从语音数据处理自信度符合预设自信度阈值的语音识别引擎中，选取语音数据处理时间最短的语音识别引擎作为所述目标识别引擎。

7.根据权利要求6所述的语音识别引擎确定方法，其特征在于，当至少两个所述语音识别引擎中，所有语音数据处理自信度均不符合预设自信度阈值时，则确定目标语音识别引擎选取失败；

选取语音数据处理自信度最高或者选取语音数据处理时间最短的语音识别引擎，用以完成所述场景下后续采集的所述语音数据进行语义识别处理。

8.一种语音识别引擎确定装置，其特征在于，包括：

数据采集模块，用于采集语音数据；

处理模块，用于当确定本次采集的语音数据为首次采集的语音数据时，将所述语音数据分别输入到至少两个语音识别引擎，得到至少两个语音识别结果，所述语音识别结果包括语音数据处理时间和语音数据处理自信度；

识别引擎选择模块，用于基于所述语音数据处理时间和语音数据处理自信度，从至少两个所述语音识别引擎中选择一个语音识别引擎作为目标识别引擎，所述目标识别引擎用以对所述场景下后续采集的所述语音数据进行语义识别处理。

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7任一所述的语音识别引擎确定方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音识别引擎确定方法的步骤。