CN110556102A

CN110556102A - 意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质

Info

Publication number: CN110556102A
Application number: CN201810537187.7A
Authority: CN
Inventors: 梁微; 段全盛; 徐龙生; 林锋; 马天泽
Original assignee: NIO Nextev Ltd
Current assignee: NIO Holding Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2019-12-10
Anticipated expiration: 2038-05-30
Also published as: CN110556102B

Abstract

本发明提供一种意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质。该方法包括：接收用户的语音输入，所述语音输入包括多意图语句；将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图；以及至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

Description

意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质

技术领域

本发明涉及计算机数据处理领域，特别地，涉及意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质。

背景技术

用户在实际使用语音对话系统时往往会根据个人的说话习惯，随性地对对话系统发出包含多个意图的指令，希望系统能够执行其全部意图。例如，在车载语音对话系统中，用户可能会给出如下多意图的表述：“打开空调，温度调整到25度，风力三级，方向吹脚”。

然而，现有的技术方案往往关注于如何提高语音的识别率以确定用户的真实意图，而没有考虑在识别出用户的语句指令包含多个意图后该如何相应地进行后续处理。因此，希望获得一种改进的意图识别和执行的方案。

以上公开于本发明背景部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

鉴于此，根据本发明的一个方面，提供了一种意图识别和执行的方法，所述方法包括：接收用户的语音输入，所述语音输入包括多意图语句；将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图；以及至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

在上述方法中，至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行包括：对于所述多个意图中的每一个意图，确定与所述每一个意图对应的可执行路径集合，其中所述可执行路径集合中的每一条可执行路径被配置有其所需的最少元素组合；确定所述语义变量信息中是否包含所述可执行路径集合中任一条路径的最少元素组合所对应的信息；以及若是，则确定该意图可执行，否则不可执行。

上述方法还可包括：判断所述多个意图彼此之间是否独立且可并行执行。

在上述方法中，判断所述多个意图彼此之间是否独立且可并行执行包括：确定与所述多个意图中的第一意图对应的第一可执行路径集合；确定与所述多个意图中的第二意图对应的第二可执行路径集合；以及判断所述第一可执行路径集合中的可执行路径与所述第二可执行路径集合中的可执行路径之间是否存在冲突。

上述方法还可包括：当多个意图之间存在冲突时，提取多意图中可执行的动作组合，并提示用户当前发生的冲突。

上述方法还可包括：当所述多个意图存在先后顺序时，按照所述多个意图的顺序优先级执行所述多个意图。

根据本申请的另一个方面，提供了一种意图识别和执行的设备，所述设备包括：接收模块，用于接收用户的语音输入，所述语音输入包括多意图语句；语义理解模块，所述语义理解模块配置成将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图；以及执行模块，所述执行模块配置成至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

在上述设备中，所述执行模块进一步配置成执行如下步骤：对于所述多个意图中的每一个意图，确定与所述每一个意图对应的可执行路径集合，其中所述可执行路径集合中的每一条可执行路径被配置有其所需的最少元素组合；确定所述语义变量信息中是否包含所述可执行路径集合中任一条路径的最少元素组合所对应的信息；以及若是，则确定该意图可执行，否则不可执行。

上述设备还可包括：判断模块，用于判断所述多个意图彼此之间是否独立且可并行执行。

在上述设备中，所述判断模块进一步配置成执行如下步骤：确定与所述多个意图中的第一意图对应的第一可执行路径集合；确定与所述多个意图中的第二意图对应的第二可执行路径集合；以及判断所述第一可执行路径集合中的可执行路径与所述第二可执行路径集合中的可执行路径之间是否存在冲突。

上述设备还可包括：提取提示装置，用于在多个意图之间存在冲突时，提取多意图中可执行的动作组合，并提示用户当前发生的冲突。

在上述设备中，所述执行模块还配置成在所述多个意图存在先后顺序时，按照所述多个意图的顺序优先级执行所述多个意图。

根据本申请的又一个方面，提供了一种车载语音对话系统，包括如前所述的设备。

根据本申请的又一个方面，提供了一种计算机存储介质，所述介质包括指令，所述指令在被执行时，使处理器执行如前所述的方法。

本发明的技术方案在各个实施例中设计了一套多意图识别和执行的框架，能够精准识别用户的多意图，并分析多意图间的可执行、可并行、冲突、和/或有序性。

通过纳入本文的附图以及随后与附图一起用于说明本发明的某些原理的具体实施方式，本发明的方法和装置所具有的其它特征和优点将更为具体地变得清楚或得以阐明。

附图说明

图1是表示本发明的一个实施例的意图识别和执行的方法；以及

图2是表示本发明的一个实施例的意图识别和执行的设备。

具体实施方式

以下说明描述了本发明的特定实施方式以教导本领域技术人员如何制造和使用本发明的最佳模式。为了教导发明原理，已简化或省略了一些常规方面。本领域技术人员应该理解源自这些实施方式的变型将落在本发明的范围内。本领域技术人员应该理解下述特征能够以各种方式接合以形成本发明的多个变型。由此，本发明并不局限于下述特定实施方式，而仅由权利要求和它们的等同物限定。

图1示出了根据本发明的一个实施例的意图识别和执行的方法1000。如图1所示，方法1000包括如下步骤：

步骤110：接收用户的语音输入，所述语音输入包括多意图语句；

步骤120：将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图；以及

步骤130：至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

在本发明的上下文中，“多意图语句”是指包含多个意图的表述，例如，在车载语音对话系统中，用户表述“我想透透气，打开车窗，关闭空调”可解释为包含两个意图“打开车窗”和“关闭空调”。又例如，在车载语音对话系统中，用户表述“打开空调，温度调整到25度，风力三级，方向吹脚”可解释为包含四个意图，即“打开空调”、“温度调整到25度”、“风力三级”以及“方向指向脚部”。

在一个实施例中，如步骤120所述，将多意图语句标注上与语句内容对应的多条语义变量信息。以多意图语句“打开空调，温度调整到25度，风力三级，方向吹脚”为例，在一个实施例中，该语句可标注上与语句内容对应的多条语义变量信息，该语义变量信息也称为Slot，可用于传递和提取信息。对于语句中的“打开”一词，可标注语义变量信息“B-operation”，对于“空调”一词，可标注语义变量信息“B-control_target”等。下表示出了对多意图语句进行标注的一个示例。

语句	语义变量信息
		打开	B-operation
空调	B-control_target
		，	O
温度	B-temperature
		调整	B-operation
25	B-temperature_degree
		度	I-temperature_degree
，	O
		风力	wind
三级	wind_speed
		，	O
吹	B-wind_direction
		脚	I-wind_direction

在一个实施例中，可采用NLP自然语言处理和深度学习技术，将用户表述的多意图语句标注上语义变量信息。在一个实施例中，还可采用多分类的预测算法，识别多意图语句中的多个意图。优选的是，在识别多意图语句中的多个意图时，将应用场景作为预测算法中的一个考量因素。例如，在车载语音对话系统的应用场景下，用户表述“我想透透气，打开车窗”可理解为只有一个意图，即打开车窗。但同样的表述在其他应用场景下可被解释为具有多个意图。因此，将应用场景作为预测算法中的一个考量因素能够有利于精准地识别用户的意图。

在一个实施例中，至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行包括：对于所述多个意图中的每一个意图，确定与所述每一个意图对应的可执行路径集合，其中所述可执行路径集合中的每一条可执行路径被配置有其所需的最少元素组合；确定所述语义变量信息中是否包含所述可执行路径集合中任一条路径的最少元素组合所对应的信息；以及若是，则确定该意图可执行，否则不可执行。

尽管未示出，上述方法1000还可包括：判断所述多个意图彼此之间是否独立且可并行执行。

在一个实施例中，判断所述多个意图彼此之间是否独立且可并行执行包括：确定与所述多个意图中的第一意图对应的第一可执行路径集合；确定与所述多个意图中的第二意图对应的第二可执行路径集合；以及判断所述第一可执行路径集合中的可执行路径与所述第二可执行路径集合中的可执行路径之间是否存在冲突。

在一个实施例中，上述方法1000还可包括：当所述多个意图存在先后顺序时，按照所述多个意图的顺序优先级执行所述多个意图。

在一个具体的实现中，我们将提取的原子意图称为Intent，将系统能够执行的具体动作称为Action，将系统可执行路径称为Path。针对每个原子Intent（即多个意图中的每一个意图），都需要计算其可执行状态，每个原子Intent可以产生一至多个动作Action。优选地，定义一种数据结构Element，表示不同状态下的语音变量信息，并基于Element提出Path的概念，表示执行一条Action必须满足的Element最小集的条件。因此，在该实现中，多个意图对应多个原子Intent，每个原子Intent对应多个Action，每个Action对应多条Path，其中Element和Path属于metadata的范畴，用来定义完成Action的必要条件。

在一个实施例中，Element即为两种形态下的slot。在第一种形态，只关心其slottype，系统认为只要出现这种type的slot，那么就满足条件。如：调节温度，“温度”属于只需要知道其type即可。在第二种形态，除了type要满足规定以外，property还要符合某些范围才算满足。例如，当意图为app_open时，我们知道用户的意图是打开某个app，这时候我们还需要知道用户具体要打开的是什么app，才可以执行这个Action，所以我们需要一个type==2，slot type为control_target_app，且slot property在一定范围内的Element。例如打开微信，“微信”就是一个slot property为wechat的上述Element。

在一个实施例中，Path是满足一个Action的Element的最小集合，一个action可以包含多条Path，若一个Action的定义的path中，有一条被满足，则action可执行。

在一个实施例中，Path是由N个Element构成的，当N取值不同时，含义如下：

N=0，表示当前path不需要任何多余的信息即可执行，通常此类intent目标明确，执行任务单一，粒度较小。

N=1，表示当前意图需要一个特定的Element才能执行，通常此类意图包含几个区别较为清晰的目标。

N>1，表示当前意图需要多余一个的Element才能执行，通常此类intent覆盖面广，支持的说法较多，且能产生的操作较多，需要更为精确的信息才能被正确的执行。

由于用户是根据自己的需求，随意的说出多意图，那么多意图可能存在以下几种状态：

1.原子意图（Intent）包含不可以执行的情况，例如：打开空调，打开雾灯（打开雾灯是不支持的操作）；

2.所有原子意图都可以并行执行，不需要先后顺序，例如：打开车窗，打开天窗；

3.原子意图的表示存在冲突，例如：我想听广播，我想听音乐（广播和音乐只能二选一）；

4.原子意图有执行顺序的需求，例如：先打开空调，再调节空调温度；

在识别出用户的多个意图之后，对多个意图进行可执行分析，即判断多意图中是否包含不可执行的原子意图。在一个实施例中，每个意图都会有其执行的路径path，我们为每条执行路径设计了其所需要的最少的Element组合，当所需的Element在当前的用户表述中全部包含时，该原子意图是可执行的。

举例说明：空调设置具体温度的path中，需要包含Element有：control_target，temperature_degree；设置风力级别：control_target，wind_speed；如果用户的表述中缺少这些关键信息，该意图将不能执行，会采用进一步交互的方式，来向用户确认这些缺失的信息。

在识别出用户的多个意图之后，还可进一步对多个意图进行可并行化分析，即判断多意图中是否是独立可并行执行的。在一个实施例中，可为每个执行路径编辑了冲突设置，即维护一张path间的互斥列表，当多个意图存在于互斥列表中时，表明当前的多意图是不能同时执行的。在一个实施例中，当多意图之间存在冲突时，可为path设计优先级、执行顺序，根据冲突设置，从中有效提取多意图中可执行的Action组合，并基于并使用tts技术播报，提示用户当前发生的冲突。例如，优先级的设置是根据每个path的重要程度来设定的，例如，打电话、导航等path的优先级，高于音乐播放、收听广播等意图；而执行顺序是根据每个path的自然逻辑来设定的，例如：打开空调，空调调节到25度，这两个意图中，打开空调的执行顺序按照自然逻辑来讲，应该排在25度之前。

在识别出用户的多个意图之后，还可进一步对多个意图进行多意图排序。在一个实施例中，当多意图中存在先后顺序时，按照path的顺序优先级，为多意图进行排序，按顺序执行多意图。

图2是表示本发明的一个实施例的意图识别和执行的设备2000。如图2所示，设备2000包括接收模块210、语义理解模块220以及执行模块230。其中，接收模块210用于接收用户的语音输入，所述语音输入包括多意图语句。语义理解模块220配置成将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图。执行模块230配置成至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

在一个实施例中，执行模块230进一步配置成执行如下步骤：对于所述多个意图中的每一个意图，确定与所述每一个意图对应的可执行路径集合，其中所述可执行路径集合中的每一条可执行路径被配置有其所需的最少元素组合；确定所述语义变量信息中是否包含所述可执行路径集合中任一条路径的最少元素组合所对应的信息；以及若是，则确定该意图可执行，否则不可执行。

尽管未示出，上述设备2000还可包括：判断模块，用于判断所述多个意图彼此之间是否独立且可并行执行。

在一个实施例中，所述判断模块进一步配置成执行如下步骤：确定与所述多个意图中的第一意图对应的第一可执行路径集合；确定与所述多个意图中的第二意图对应的第二可执行路径集合；以及判断所述第一可执行路径集合中的可执行路径与所述第二可执行路径集合中的可执行路径之间是否存在冲突。

在一个实施例中，执行模块230配置成在识别出用户的多个意图之后，对多个意图进行可执行分析，即判断多意图中是否包含不可执行的原子意图。在一个实施例中，每个意图都会有其执行的路径path，我们为每条执行路径设计了其所需要的最少的Element组合，当所需的Element在当前的用户表述中全部包含时，该原子意图是可执行的。

在一个实施例中，执行模块230配置成在识别出用户的多个意图之后，还进一步对多个意图进行可并行化分析，即判断多意图中是否是独立可并行执行的。在一个实施例中，可为每个执行路径编辑了冲突设置，即维护一张path间的互斥列表，当多个意图存在于互斥列表中时，表明当前的多意图是不能同时执行的。在一个实施例中，当多意图之间存在冲突时，可为path设计优先级、执行顺序，根据冲突设置，从中有效提取多意图中可执行的Action组合，并基于并使用tts技术播报，提示用户当前发生的冲突。例如，优先级的设置是根据每个path的重要程度来设定的，例如，打电话、导航等path的优先级，高于音乐播放、收听广播等意图；而执行顺序是根据每个path的自然逻辑来设定的，例如：打开空调，空调调节到25度，这两个意图中，打开空调的执行顺序按照自然逻辑来讲，应该排在25度之前。

在一个实施例中，执行模块230配置成在识别出用户的多个意图之后，还进一步对多个意图进行多意图排序。在一个实施例中，当多意图中存在先后顺序时，按照path的顺序优先级，为多意图进行排序，按顺序执行多意图。

在一个实施例中，上述设备2000还可包括提取提示装置（未示出），其用于在多个意图之间存在冲突时，提取多意图中可执行的动作组合，并提示用户当前发生的冲突。

需要指出的是，前述意图识别和执行方法和设备以车载语音对话系统为应用场景进行了具体描述。本领域技术人员可以理解，上述方法和设备可在不经过实质性改变的基础上适用到其他人机互动场景。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件、软件、或软硬件结合的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。例如，可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编辑处理设备的处理器，使得产生执行指定操作的指令序列。

综上，本发明的技术方案在各个实施例中设计了一套多意图识别和执行的框架，能够精准识别用户的多意图，并分析多意图间的可执行、可并行、冲突、和/或有序性。

以上例子主要说明了本发明的意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种意图识别和执行的方法，其特征在于，所述方法包括：

接收用户的语音输入，所述语音输入包括多意图语句；

将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图；以及

至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

2.如权利要求1所述的方法，其中，至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行包括：

对于所述多个意图中的每一个意图，确定与所述每一个意图对应的可执行路径集合，其中所述可执行路径集合中的每一条可执行路径被配置有其所需的最少元素组合；

确定所述语义变量信息中是否包含所述可执行路径集合中任一条路径的最少元素组合所对应的信息；以及

若是，则确定该意图可执行，否则不可执行。

3.如权利要求1所述的方法，还包括：

判断所述多个意图彼此之间是否独立且可并行执行。

4.如权利要求3所述的方法，其中，判断所述多个意图彼此之间是否独立且可并行执行包括：

确定与所述多个意图中的第一意图对应的第一可执行路径集合；

确定与所述多个意图中的第二意图对应的第二可执行路径集合；以及

判断所述第一可执行路径集合中的可执行路径与所述第二可执行路径集合中的可执行路径之间是否存在冲突。

5.如权利要求4所述的方法，还包括：

当多个意图之间存在冲突时，提取多意图中可执行的动作组合，并提示用户当前发生的冲突。

6.如权利要求1所述的方法，还包括：

当所述多个意图存在先后顺序时，按照所述多个意图的顺序优先级执行所述多个意图。

7.一种意图识别和执行的设备，其特征在于，所述设备包括：

接收模块，用于接收用户的语音输入，所述语音输入包括多意图语句；

语义理解模块，所述语义理解模块配置成将所述多意图语句标注上与语句内容对应的多条语义变量信息，并识别所述多意图语句中的多个意图；以及

执行模块，所述执行模块配置成至少根据所述语义变量信息，确定所述多个意图中的每一个意图是否可执行。

8.如权利要求7所述的设备，其中，所述执行模块进一步配置成执行如下步骤：

若是，则确定该意图可执行，否则不可执行。

9.如权利要求7所述的设备，还包括：

判断模块，用于判断所述多个意图彼此之间是否独立且可并行执行。

10.如权利要求9所述的设备，其中，所述判断模块进一步配置成执行如下步骤：

11.如权利要求10所述的设备，还包括：

提取提示装置，用于在多个意图之间存在冲突时，提取多意图中可执行的动作组合，并提示用户当前发生的冲突。

12.如权利要求7所述的设备，其中，所述执行模块还配置成在所述多个意图存在先后顺序时，按照所述多个意图的顺序优先级执行所述多个意图。

13.一种车载语音对话系统，包括如权利要求7至12中任一项所述的设备。

14.一种计算机存储介质，所述介质包括指令，所述指令在被执行时，使处理器执行如权利要求1至6中任一项所述的方法。