CN112861542B

CN112861542B - 限定场景语音交互方法和装置

Info

Publication number: CN112861542B
Application number: CN202011626338.XA
Authority: CN
Inventors: 肖永君; 邹学勇
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-26
Anticipated expiration: 2040-12-31
Also published as: CN112861542A

Abstract

本发明公开限定场景语音交互方法和装置，其中，一种限定场景语音交互方法，包括：响应于获取到用户的第一语音交互，获取与第一语音交互对应的第一意图，并判断第一意图是否限定为某种识别引擎；若限定为某种识别引擎，将基于限定的某种识别引擎进行预设操作；响应于获取到用户的第二语音交互，获取与第二语音交互对应的第二意图，并判断第二意图是否与第一意图相同；若第二意图与所述第一意图相同，结合第一语音交互输出第二语音交互对应的语义。通过限定场景识别可以实现限定场景的说法集来限制集内的说法互串和限制不同技能领域间跳转，进一步地，可以通过用户自定义场景以及限定各种场景的识别引擎可以提高用户语义理解的精确度。

Description

限定场景语音交互方法和装置

技术领域

本发明属于语音交互技术领域，尤其涉及限定场景语音交互方法和装置。

背景技术

目前相似的技术，例如某一场景识别：开启识别实例时可指定识别场景。但内部识别不区分场景，而是通过语义限定场景实现。语义限定场景指限定语义只输出指定配置的业务，输入场景外的语句可以识别但语义结果会有影响。

如前所述的场景识别不管是在线还是离线识别都是通过语义限定场景实现。对于离线识别部分通过限定说法集范围来实现：

A，通过脚本预先生成不同识别场景下xbnf说法集并内置到程序资源目录下。

B，当切换到不同识别场景时离线识别引擎加载语义引擎生成的不同xbnf对应离线资源文件。

C，重启离线识别引擎。

其中，发明人发现语义限定场景来实现场景识别有以下缺点：

A,反应慢:首先需要在全量的说法集中输出原始结果，原始结果需要经过语义限定场景过滤后再输出给用户。

B，用户体验差：场景外的实时识别结果将显示在交互UI上，但经过语义限定场景过滤后识别结果将被丢弃。

C，准确度差：因为并未限定说法集，所以用户输入可能返回全量说法集内不同的语义结果。

发明内容

本发明实施例提供一种限定场景语音交互方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种限定场景语音交互方法，包括：响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎；若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎；响应于获取到用户的第二语音交互，获取与所述第二语音交互对应的第二意图，并判断所述第二意图是否与第一意图相同；若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义。

第二方面，本发明实施例提供一种限定场景语音交互装置，包括：限定判断程序模块，配置为响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎；限定处理程序模块，配置为若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎；意图判断程序模块，配置为响应于获取到用户的第二语音交互，获取与所述第二语音交互对应的第二意图，并判断所述第二意图是否与第一意图相同；语义输出程序模块，配置为若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的限定场景语音交互方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的限定场景语音交互方法的步骤。

本申请的方法和装置通过限定场景识别从而可以实现限定场景的说法集来限制集内的说法互串和限制不同技能领域间跳转，进一步地，可以通过用户自定义场景以及限定各种场景的识别引擎，从而可以提高用户语义理解的精确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种限定场景语音交互方法的流程图；

图2为本发明一实施例提供的另一种限定场景语音交互方法的流程图；

图3为本发明一实施例提供的另一种限定场景语音交互方法的流程图；

图4为本发明一实施例提供的限定场景语音交互方法的一个具体示例的电话识别场景的本地识别流程图；

图5为本发明一实施例提供的限定场景语音交互方法的一个具体示例的酒店识别场景的在线识别流程图；

图6为本发明一实施例提供的限定场景语音交互方法的一个具体示例的导航识别场景的混合识别流程图；

图7为本发明一实施例提供的一种限定场景语音交互装置的框图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的限定场景语音交互方法一实施例的流程图。

如图1所示，在步骤101中，响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎；

在步骤102中，若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎；

在步骤103中，响应于获取到用户的第二语音交互，获取与所述第二语音交互对应的第二意图，并判断所述第二意图是否与第一意图相同；

在步骤104中，若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义。

在本实施例中，对于步骤101，限定场景语音交互装置响应于获取到用户的第一语音交互，获取与第一语音交互对应的第一意图，并判断第一意图是否限定为某种识别引擎，例如，用户的第一语音交互是打电话，那么对应的第一意图就是通话意图，若用户的第一语音交互是导航，那么对应的第一意图就是导航意图，在判断用户意图的同时，还可以基于用户的自定义场景识别判断用户的第一意图是否限定为某种识别引擎，例如，离线识别引擎或在线识别引擎。

然后。对于步骤102，若限定为某种识别引擎，将基于限定的某种识别引擎进行预设操作，其中，预设操作包括基于某种识别引擎关闭或限制其他识别引擎，例如，限定的识别引擎是离线识别引擎时，可以根据预设操作将在线识别引擎关闭或限制在线识别引擎的识别结果，例如，基于用户的第一意图将当前场景切换为与用户的第一意图对应的场景，然后将对应的场景加载到离线识别引擎并将在线识别引擎关闭或限制；若限定的识别引擎为在线识别引擎，那么可以将离线识别引擎关闭。

之后，对于步骤103，限定场景语音交互装置响应于获取到用户的第二语音交互，获取与第二语音交互对应的第二意图，并判断第二意图是否与第一意图相同，例如，与第一意图对应的限定的场景为通话场景，预设的识别引擎为离线识别引擎，若用户的第二意图同是通话意图，离线识别引擎就会进行识别输出，若用户的第二意图不是通话意图，将语义输出为空。

最后，对于步骤104，若所述第二意图与所述第一意图相同，结合所述第一语音交互输出第二语音交互对应的语义，例如，用户的第一语音交互为打电话，第二语音交互为张三，可以得出用户的第一意图和第二意图所对应，输出第二语音交互对应的语义，例如，拨打电话给张三。

本实施例所述的方法通过限定场景识别从而可以实现限定场景的说法集来限制集内的说法互串和限制不同技能领域间跳转，进一步地，可以通过用户自定义场景以及限定各种场景的识别引擎，从而可以提高用户语义理解的精确度。

在上述实施例所述的方法中，所述若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作包括：

通知对话管理切换到与第一意图对应的识别场景以及限定的某种识别引擎，例如，用户的第一意图是通话意图，限定的识别引擎为离线识别引擎，将当前场景切换为通话场景并将通话场景的识别资源加载到离线识别引擎，例如，用户的第一意图是酒店意图，限定的识别引擎为在线识别引擎，将当前场景切换为酒店场景并开启在线识别模式，之后将离线识别引擎关闭。

本实施例的方法通过通知对话管理切换到与第一意图对应的识别场景以及限定的某种识别引擎，从而可以准确的切换场景和限定识别引擎。

进一步参考图2，其示出了本申请一实施例提供的另一种限定场景语音交互方法的流程图。该流程图主要是对流程图1“若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作”的流程进一步限定的步骤的流程图，其中，所述识别引擎包括离线识别引擎、在线识别引擎和混合识别引擎。

如图2所示，在步骤201中，若限定为所述离线识别引擎，则控制所述离线识别引擎加载与所述第一意图对应的识别资源以及控制所述离线识别引擎重启，并关闭所述在线识别引擎；

在步骤202中，若限定为所述在线识别引擎，则关闭所述离线识别引擎；

在步骤203中。若限定为所述混合识别引擎，则控制所述离线识别引擎加载与所述第一意图对应的识别资源以及控制所述离线识别引擎重启，并限定在线识别引擎输出识别结果。

在本实施例中，对于步骤201，若限定为离线识别引擎，则控制离线识别引擎加载与第一意图对应的识别资源以及控制所述离线识别引擎重启，并关闭所述在线识别引擎，例如，第一意图为通话意图，将通话意图的识别资源加载到离线识别引擎后将离线识别引擎重启关闭在线识别引擎。

然后，对于步骤202，若限定为在线识别引擎，则关闭离线识别引擎，例如，第一意图为酒店意图，酒店意图限定的是在线识别引擎，将当前场景切换为酒店场景后开启在线识别引擎并将离线识别引擎关闭。

最后，对于步骤203，若限定为混合识别引擎，则控制离线识别引擎加载与第一意图对应的识别资源以及控制离线识别引擎重启，并限定在线识别引擎输出识别结果，例如，在线识别引擎判断出第二意图与第一意图不对应，将第二语音交互输出为空。

本实施例的方法通过基于场景限定识别引擎，从而可以提高用户语义理解的精确度。

进一步参考图3，其示出了本申请一实施例提供的另一种限定场景语音交互方法的流程图。该流程图主要是对流程图2“若限定为所述混合识别引擎，所述若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义”的流程进一步限定的步骤的流程图。

在步骤301中，若所述第二意图与所述第一意图相同，且能够由所述混合识别引擎中的所述离线识别引擎进行识别，则基于所述离线识别引擎结合所述第一语音交互输出所述第二语音交互的离线语义；

在步骤302中，若所述第二意图与所述第一意图相同，且不能够由所述混合识别引擎中的所述离线识别引擎进行识别，则基于所述混合识别引擎中的在线识别引擎结合所述第一语音交互输出所述第二语音交互的离线语义。

在本实施例中，对于步骤301，若第二意图与第一意图相同，且能够由混合识别引擎中的所述离线识别引擎进行识别，则基于离线识别引擎结合第一语音交互输出第二语音交互的离线语义；之后，对于步骤302，若第二意图与第一意图相同，且不能够由混合识别引擎中的离线识别引擎进行识别，则基于混合识别引擎中的在线识别引擎结合第一语音交互输出所述第二语音交互的离线语义，例如，混合识别引擎优先使用离线识别引擎，在离线识别引擎不能识别用户的第二意图时由在线识别引擎进行识别。

本实施例的方法通过混合离线和在线识别引擎，从而可以进一步地提高识别精确度。

在上述实施例所述的方法中，在判断所述第二意图是否与第一意图相同之后，所述方法还包括：

若第二意图与所述第一意图不同，则输出语义为空的结果。

本实施例的方法通过限定在线识别引擎，从而可以限制不同技能领域间跳转。

在上述任一实施例所述的方法中，其中，在判断所述第一意图是否限定为某种识别引擎之后，所述方法还包括：

若第一意图不限定为某种识别引擎，则进入不包含场景限定的正常流程。

在上述实施例所述的方法中，意图对应的识别场景是否限定识别引擎根据所述用户的设置确定。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：原因在于前述离线识别资源使用irf文件格式无法动态限定说法集。

本申请实施例离线识别使用xbnf文件限制说法集范围及输出语义格式，加载不同场景下xbnf文件对应生成的资源文件即可限定不同场景说法集范围。

发明人还发现，通常采用什么样的方法是通过语义限定场景方法来实现场景识别。

本申请的方案主要从以下几个方面入手进行设计和优化：海外全链路版本中离线识别是一个完整的说法集合,如正在等待用户说出拨打联系人名字，用户说打电话给10086容易串到收音机调频语义。技能限制跳转问题。如正在等待用户说出拨打联系人名字，不希望发生领域跳转。针对离线识别引擎，在离线识别引擎启动时预生成各场景下有限说法集对应的离线识别资源文件xxx.local.net.bin。在特定场景中，加载对应资源文件，再重启离线识别引擎。针对在线识别引擎，因为无法动态限定说法集，所以采用语义限定场景实现。

本发明是基于限定识别说法集实现，而现有技术是通过语义限定场景实现。本发明主要解决语音二轮交互场景等待用户输入时防止集内语义互串以及技能跳转问题。现有技术不能解决集内互串问题。

发明人在实现本申请的过程中，进行了大量的创造性劳动，这是发明人之前的一个版本的步骤：

步骤1：用户输入make a call。

步骤2：触发电话识别场景：离线识别引擎加载电话识别场景对应的离线识别资源并重新启动。

步骤3：用户输入John,因为John在电话识别场景的说法集中。语音执行make acall to John流程。

步骤4：用户输入Navigate to parking lots nearby。因为该说法不在电话场景说法集中，所以离线识别引擎不响应，DM选择在线识别结果。而在线识别结果输出技能为maps,受电话识别场景限定输出无效语义。语音执行who are we calling继续提示。

步骤5：…

后续，发明人又对上述方案进行了如下改进：

增加场景识别特性：

1，用户根据需要定义各种识别场景如：导航，电话，酒店、美食等自定义识别场景。

2，针对识别引擎进行限定。

增加识别模式标识，包括3种识别模式：本地识别模式，在线识别模式，混合识别模式，分别对应离线识别引擎、在线识别引擎、离在线识别引擎。

在特定识别场景下指定识别模式，如下表所示：

识别场景	识别模式	输出
			酒店	在线	酒店技能的在线识别语义结果
电话	本地	电话技能的离线识别语义结果
			导航	混合	导航技能的混合识别语义结果

3，针对识别内容进行限定。

离线识别引擎，在客户端预先生成不同识别场景下的语义文件xxx.local.net.bin。在xxx场景中加载指定的xxx.local.net.bin，从而在特定场景下只输出xxx.local.net.bin中离线语义结果。

在线识别引擎，在本地DM中限制识别结果。如果在线识别结果中的场景当前限定识别场景不一致，则在线语义输出为空的结果。

优点：1、减少说法误串的概率。2、能限制跳转。

具体可参考图4、图5和图6。

其中，图4示出了本发明一实施例提供的限定场景识别方法的一个具体示例的电话识别场景的本地识别流程图。图4对应于上面表格中识别场景为电话，识别模式为本地(离线)，输出为电话技能的离线识别语义结果的示例。

如图4所示，首先，用户发起语音交互“make a call”，之后DM语义输出打电话但未指定联系人语义，此时可以判断用户是否进行了识别场景限定，或者用户是否需要识别场景的限定，如果没有限定场景则直接进入正常的不限定的交互流程即可，如果是已限定或者是需要限定的情况下，播报“who are we calling”，并通知DM切换到电话识别场景及离线识别模式(即之前用户限定的识别模式)，之后在离线识别模式下离线识别引擎会加载对应识别资源，即电话识别场景的识别资源，并重启离线识别引擎，然后关闭在线识别引擎，当然前面这几个步骤也可以不按照找个顺序，或者也可以同时进行，本申请在此没有限制。之后，若用户二轮语音交互是“John”，则可以使用离线识别引擎进行识别并输出离线语义“make a call to John”，该语义可以结合上文得出的，本申请在此没有限制。若用户二轮语音交互是“navigate to parking lots”，则不是离线识别引擎能够处理的，所以离线识别引擎输出语义为空的结果。

图5示出了为本发明一实施例提供的限定场景识别方法的一个具体示例的酒店识别场景的在线识别流程图。

如图5所示，首先，用户发起语音交互“book a hotel”，之后DM语义输出预定酒店语义，此时可以判断用户是否进行了识别场景限定，或者用户是否需要识别场景的限定，如果没有限定场景则直接进入正常的不限定的交互流程即可，如果是已限定或者是需要限定的情况下，播报“found these hotels.Please choose.”，并通知DM切换到预订酒店识别场景及在线识别模式(即之前用户限定的识别模式)，之后关闭离线识别引擎；之后，若用户二轮语音交互是“search the cheapest”，则可以使用在线识别引擎进行识别并输出在线语义“book the cheapest hotel”，该语义可以结合上文得出的，本申请在此没有限制。若用户二轮语音交互是“navigate to parking lots”，则不是当前识别场景，所以在线识别引擎输出语义为空的结果。

请参考图7，其示出了本发明一实施例提供的限定场景语音交互装置的框图。

如图7所示，限定场景语音交互装置700，包括限定判断程序模块710、限定处理程序模块720、意图判断程序模块730和语义输出程序模块740。

其中，限定判断程序模块710，配置为响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎；限定处理程序模块720，配置为若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎；意图判断程序模块730，配置为响应于获取到用户的第二语音交互，获取与所述第二语音交互对应的第二意图，并判断所述第二意图是否与第一意图相同；语义输出程序模块740，配置为若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义。

应当理解，图7中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如限定判断程序模块可以描述为响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如限定判断程序模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的限定场景语音交互方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎；

若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎；

响应于获取到用户的第二语音交互，获取与所述第二语音交互对应的第二意图，并判断所述第二意图是否与第一意图相同；

若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据限定场景语音交互装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至限定场景语音交互装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项限定场景语音交互方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。限定场景语音交互方法的设备还可以包括：输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例限定场景语音交互方法。输入装置830可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于限定场景语音交互装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种限定场景语音交互方法，包括：

响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎，其中，识别引擎包括离线识别引擎、在线识别引擎和混合识别引擎；

若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎，包括：若限定为所述离线识别引擎，则控制所述离线识别引擎加载与所述第一意图对应的识别资源以及控制所述离线识别引擎重启，并关闭所述在线识别引擎，

若限定为所述在线识别引擎，则关闭所述离线识别引擎，

若限定为所述混合识别引擎，则控制所述离线识别引擎加载与所述第一意图对应的识别资源以及控制所述离线识别引擎重启，并限定在线识别引擎输出识别结果；

2.根据权利要求1所述的方法，其中，所述若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作包括：

通知对话管理切换到与所述第一意图对应的识别场景以及限定的所述某种识别引擎。

3.根据权利要求1所述的方法，其中，若限定为所述混合识别引擎，所述若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义包括：

若所述第二意图与所述第一意图相同，且能够由所述混合识别引擎中的所述离线识别引擎进行识别，则基于所述离线识别引擎结合所述第一语音交互输出所述第二语音交互的离线语义；

若所述第二意图与所述第一意图相同，且不能够由所述混合识别引擎中的所述离线识别引擎进行识别，则基于所述混合识别引擎中的在线识别引擎结合所述第一语音交互输出所述第二语音交互的离线语义。

4.根据权利要求1所述的方法，其中，在判断所述第二意图是否与第一意图相同之后，所述方法还包括：

若所述第二意图与所述第一意图不同，则输出语义为空的结果。

5.根据权利要求1-4中任一项所述的方法，其中，在判断所述第一意图是否限定为某种识别引擎之后，所述方法还包括：

若所述第一意图不限定为某种识别引擎，则进入不包含场景限定的正常流程。

6.根据权利要求5所述的方法，其中，意图对应的识别场景是否限定识别引擎根据所述用户的设置确定。

7.一种限定场景语音交互装置，包括：

限定判断程序模块，配置为响应于获取到用户的第一语音交互，获取与所述第一语音交互对应的第一意图，并判断所述第一意图是否限定为某种识别引擎，其中，识别引擎包括离线识别引擎、在线识别引擎和混合识别引擎；

限定处理程序模块，配置为若限定为某种识别引擎，将基于限定的所述某种识别引擎进行预设操作，其中，所述预设操作包括基于所述某种识别引擎关闭或限制其他识别引擎，包括：若限定为所述离线识别引擎，则控制所述离线识别引擎加载与所述第一意图对应的识别资源以及控制所述离线识别引擎重启，并关闭所述在线识别引擎，

若限定为所述在线识别引擎，则关闭所述离线识别引擎，

意图判断程序模块，配置为响应于获取到用户的第二语音交互，获取与所述第二语音交互对应的第二意图，并判断所述第二意图是否与第一意图相同；

语义输出程序模块，配置为若所述第二意图与所述第一意图相同，结合所述第一语音交互输出所述第二语音交互对应的语义。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。