CN111292749B

CN111292749B - 智能语音平台的会话控制方法及装置

Info

Publication number: CN111292749B
Application number: CN202010084405.3A
Authority: CN
Inventors: 李良斌; 苏少炜; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2023-06-09
Anticipated expiration: 2040-02-10
Also published as: CN111292749A

Abstract

本申请公开了一种智能语音平台的会话控制方法及装置，包括：获取非语音指令信息；将所述非语音指令信息发送至会话管理引擎；所述会话管理引擎根据预设的非语音指令与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息；所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行。所述智能语音平台的会话控制方法及装置，将非语音指令信息与话术剧本中的语音指令信息关联映射，从而在系统获得非语音指令信息后，也能够使会话管理引擎及时确定当前所处的会话环节，实现对会话状态的完整控制。

Description

智能语音平台的会话控制方法及装置

技术领域

本发明涉及人工智能技术，更具体的说，是涉及一种智能语音平台的会话控制方法及装置。

背景技术

随着人工智能的产业及技术的蓬勃发展，越来越多的设备开始具备智能语音功能，可以支持用户解放双手，直接通过语音指令操作智能设备，实现相应功能操作。

智能语音的实现过程中，智能设备将用户输入的语音信息发送至智能语音平台，由智能语音平台中的会话管理引擎根据技能的逻辑配置对用户的语音信息产生回复，实现一次完整的技能工作流程。可见，会话管理引擎是整个系统的控制核心，需要按照技能开发者对技能的描述，整体把控会话流程，实现完整的技能流程。

现有技术中，为了实现会话管理引擎对会话流程的把控，技能开发者提前将技能的话术(包括用户话术、回答话术)、语义槽等信息通过内置剧本的方式注册至会话管理引擎。其中剧本描述了完整会话过程中的问答流程，语义槽的提问话术，解析策略等。后续在技能运行阶段，会话管理引擎接受的内容只能是用户的语言输入，并以此为决策依据输出回复。

但在实际情况中，用户控制智能设备的输入形式可能是语音与信令形式相混合的。例如，用户在播放电影时，通过遥控机或者触屏设备点击了暂停操作。由于该操作并非通过语音指令激活，而会话管理引擎通常用剧本对技能进行连续会话的检测与引导，用户的非语音输入操作的介入，使得会话管理引擎无法感知智能设备的状态，从而导致会话剧本的中断与错乱。

发明内容

有鉴于此，本发明提供了一种智能语音平台的会话控制方法及装置，以克服现有技术中由于非语音输入操作的介入导致的会话剧本中断与错乱的问题。

为实现上述目的，本发明提供如下技术方案：

一种智能语音平台的会话控制方法，包括：

获取至少一种指令信息，所述至少一种指令信息包括非语音指令信息，在所述至少一种指令信息中包括至少两个指令信息的情况下，所述至少两个指令信息为不同类别的指令信息；

基于所述至少一种指令信息至少确定一项语音指令信息；

依据所述至少一项语音指令信息执行对应的控制处理。

可选的，所述依据所述至少一项语音指令信息执行对应的控制处理，包括：

会话管理引擎依据所述至少一项语音指令信息以及预设的话术剧本引导会话流程的进行。

可选的，所述至少一种指令信息包括一个非语音指令信息和一个语音指令信息，所述非语音指令信息和所述语音指令信息用于控制执行相同的操作。

可选的，还包括：

在所述非语音指令信息和语音指令信息的获取时间差值小于第一阈值的情况下，控制仅一次执行所述相同的操作。

可选的，所述至少一种指令信息包括一个非语音指令信息和一个语音指令信息，所述非语音指令信息和所述语音指令信息用于控制执行不相同的操作或针对不同电子设备的不同任务。

可选的，所述基于所述至少一种指令信息至少确定一项语音指令信息，包括：

基于预设的非语音指令与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息。

可选的，还包括：

预先为每一个非语音指令信息配置指令ID；

在获取非语音指令后，确定所述非语音指令对应的指令ID；

则所述基于预设的非语音指令与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息，包括：

基于预设的指令ID与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息。

可选的，所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行，包括：

在所述语音指令信息为暂停指令时，控制执行业务推送流程。

可选的，所述会话管理引擎通过技能代理功能对预设的非语音指令与语音指令的对应关系进行维护管理。

可选的，所述非语音指令信息包括手势指令信息、屏幕触控指令信息和输入装置指令信息。

一种智能语音平台的会话控制装置，包括：

指令获取模块，用于获取至少一种指令信息，所述至少一种指令信息包括非语音指令信息，在所述至少一种指令信息中包括至少两个指令信息的情况下，所述至少两个指令信息为不同类别的指令信息；

指令确定模块，用于基于所述至少一种指令信息至少确定一项语音指令信息；

执行控制模块，用于依据所述至少一项语音指令信息执行对应的控制处理。

经由上述的技术方案可知，与现有技术相比，本发明实施例公开了一种智能语音平台的会话控制方法及装置，包括：获取非语音指令信息；将所述非语音指令信息发送至会话管理引擎；所述会话管理引擎根据预设的非语音指令与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息；所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行。所述智能语音平台的会话控制方法及装置，将非语音指令信息与话术剧本中的语音指令信息关联映射，从而在系统获得非语音指令信息后，也能够使会话管理引擎及时确定当前所处的会话环节，实现对会话状态的完整控制。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种智能语音平台的会话控制方法流程图；

图2为本发明实施例公开的另一种智能语音平台的会话控制方法流程图；

图3为本发明实施例公开的技能运行阶段的语音指令信息的处理流程图；

图4为本发明实施例公开的一种智能语音平台的会话控制装置的结构示意图；

图5为本发明实施例公开的另一种智能语音平台的会话控制装置的结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词的说明、简写或缩写总结如下：

智能语音平台：向第三方开发者提供自定义语音应用接入的开发平台，基于该平台，开发者可以语音应用，并向终端用户提供接入服务。

技能：开发者基于智能语音平台创建的，完成特定领域场景的一种服务，典型的技能包括闹钟、天气、音乐等。

意图：定义在某一技能中，实现特定任务操作，如闹钟技能可以包括设置、查询、更新等意图。

Dialogue Management Engine：会话管理引擎，内置于智能语音平台中，负责跟踪用户的对话输入，并基于技能逻辑的判决结果返回相应的回答，引导用户完成特定的意图，并与外部内容服务进行交互，实现完整的技能服务。

NLU：自然语音理解，从文本中进行意图识别，语义槽提取等操作。

ASR：自动语音识别技术(Automatic Speech Recognition)，是一种将人的语音转换为文本的技术。

TTS：从文本到语音(Text To Speech)，基于文本进行语音合成的技术。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例公开的一种智能语音平台的会话控制方法流程图，参见图1所示，智能语音平台的会话控制方法可以包括：

步骤101：获取非语音指令信息。

本实施例中，所述智能语音平台的会话控制方法的执行主体可以是现有的或以后可能出现的任何具有智能语音功能的电子设备。

所述非语音指令信息指不是用户通过语音形式输入的指令信息，所述非语音指令信息可以是用户直接在触摸屏上用手指点击触发的指令信息，也可以是用户通过输入装置，例如遥控器、键盘、传感器等输入装置，触发生成的指令信息。例如，一个具有智能语音技术的智能音箱上设置有摄像头，在使用过程中，用户想要将当前播放的歌曲切换到下一曲，此时用户没有通过语音指令“下一首”来控制智能音箱执行相应操作，而是采用单独的食指向下的动作作为非语音指令，这时智能音箱上的摄像头采集到用户的手势图像，经过识别处理确定控制手势为“食指单独向下”，则后续可以通过预设的控制手势与控制指令的对应关系确定用户想要执行的操作。

相应的，所述获取非语音指令信息，并不是通过语音采集装置，例如话筒来获取的，而是通过诸如触摸屏传感器、信号接收器等装置来获取非语音指令信息。

步骤102：将所述非语音指令信息发送至会话管理引擎。

智能设备在获取到非语音指令信息后，将所述非语音指令信息发送至会话管理引擎，由会话管理引擎识别所述非语音指令信息，并依据所述非语音指令信息进行后续处理。

步骤103：所述会话管理引擎根据预设的非语音指令与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息。

所述会话管理引擎中可以预先存储好非语音指令与语音指令的对应关系，这样，在接收到非语音管理指令后，就可以确定其对应的语音指令，从而维持会话剧本的连续性。

其中，非语音指令与语音指令的对应关系，可以有不同的实现方式。例如，可以直接存储语音指令与语音指令的对应关系，也可以用能够替代非语音指令的数据代替非语音指令，其中代替的数据可以具有易于辨识且存储空间小的特点。在后面的实施例中将对非语音指令与语音指令的对应关系的实现做具体介绍。

步骤104：所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行。

预设的话术剧本中包括多个话术，话术中又包含多个语音指令信息，在会话管理引擎确定了所述非语音指令信息对应的语音指令信息后，就能够确定当前情境进行到会话剧本中的那个语音指令，从而保证会话的连续性。

本实施例中，所述智能语音平台的会话控制方法，将非语音指令信息与话术剧本中的语音指令信息关联映射，从而在系统获得非语音指令信息后，也能够使会话管理引擎及时确定当前所处的会话环节，保证会话剧本能够依序顺利执行，实现对会话状态的完整控制。

图2为本发明实施例公开的另一种智能语音平台的会话控制方法流程图，如图2所示，智能语音平台的会话控制方法可以包括：

步骤201：预先为每一个非语音指令信息配置指令ID。

预先确定智能设备可能涉及的所有的非语音指令，然后为每一个非语音指令分配一个具有唯一标示性的指令ID，以使得根据一个ID能够确定唯一的一个非语音指令。

步骤202：获取非语音指令信息。

步骤203：确定所述非语音指令对应的指令ID。

获取非语音指令信息后，确定其对应的指令ID。由于指令ID能够唯一代表一个非语音指令信息，且数据简单，因此后续可以以确定的指令ID代替所述非语音指令信息，以提升后续数据传送以及处理效率。

步骤204：将所述非语音指令信息对应的指令ID发送至会话管理引擎。

确定非语音指令信息对应的指令ID后，可以直接将非语音指令信息对应的指令ID发送至会话管理引擎，由会话管理引擎根据所述指令ID做出后续分析处理。

步骤205：所述会话管理引擎根据预设的指令ID与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息。

由于指令ID可以仅包括数个字符，其可能比非语音指令要小很多，因此无论是对其进行数据传送或数据识别处理，都会比对非语音指令的处理要快很多，且占用的处理资源也会大大减少。例如，在智能管家机器人应用场景中，智能管家机器人可能每天定点提问“今天有什么需要我处理的事情吗？”，用户通过屏幕输入“联系物业，水管漏水报修，中午12点上门维修”的非语音指令，则智能管家机器人在接收到该指令时，确定其对应的指令ID为“wyshg12”，该指令ID在智能管家机器人内部为能够被唯一识别确认的指令，但其相对于“联系物业，水管漏水报修，中午12点上门维修”的指令明显要简洁很多，因此本实施例中采用指令ID替换代表非语音指令的实现方式。

步骤206：所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行。

沿用上述智能管家机器人的例子，在智能管家机器人依据用户输入的指令自助向物业管理部门打电话报修水管问题，并约定中午12点物业人员到家维修后，指令处理完成，对应到话术剧本中，智能管家接收到用户指令并完成后，进一步可以输出指令完成的提示，例如可采用屏幕输出方式或语音播报方式提示用户已按照用户要求通知物业在约定时间到家维修。智能管家机器人服务的整个过程遵循“机器人询问待处理任务——用户输入处理指令——机器人执行——机器人返回执行结果”的话术剧本。而如果本申请中没有进行非语音指令(指令ID)到语音指令的对应转换，会话管理引擎在智能管家机器人询问有没有待处理任务后，即使执行了用户的非语音指令，但其没有办法联系到会话管理引擎的话术剧本，话术剧本也将停留在智能管家机器人询问有没有待处理任务的阶段。

本实施例中，预先为每一个非语音指令信息配置唯一的指令ID，这样后续在系统接收到非语音指令信息后，能够确定其唯一对应的指令ID，后续在进行相关的数据处理时，直接以指令ID代替非语音指令信息，更加快捷简便。

在一个具体实现中，软件开发人员在智能设备的技能开发阶段：终端sdk(Software DevelopmentKit，软件开发工具包)中预留供用户自定义的指令id槽位。技能开发者在描述技能时，除了常规的会话剧本，同时可以指定剧本的每个话术的sdk指令id。同时在终端的开发过程中，需要完成用户的非语音指令输入与sdk的指令id进行绑定。

在技能发布阶段，会话管理引擎对每个技能启动技能代理(skill agent)，技能代理除了加载技能的话术剧本外，同时维护sdk指令id对用户话术的映射关系。

在技能运行阶段，对于用户的常规语音指令，通过智能语音平台常规流程进行处理，如图3的实线流程。其中，Dialogue Management为会话管理引擎，Skill Runtime为技能运行阶段。对于用户的非语音输入，终端sdk感知后，通过预先设定的指令id与会话管理引擎直接交换。会话管理引擎通过技能代理，获取指令id与剧本话术的对应关系，引导会话流程的进行。

基于上述内容，所述会话管理引擎可以通过技能代理功能对预设的非语音指令与语音指令的对应关系进行维护管理。

在具体实现中，若会话管理引擎无法感知非语音指令信息，则无法实时感知终端，即智能设备的状态，丧失了向用户主动进行建议性语音推送的机会。例如在用户播放电影暂停期间，会话管理引擎通常可以基于业务策略，向用户推送服务，如餐饮提醒，新闻播报等。而通过本申请实施例公开的技术内容，会话管理引擎能够实时了解智能终端状态，确定会话进行到了哪个环节，因而能够进行需要的业务推送。由此，在特定场景下，所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行，可以包括：在所述语音指令信息为暂停指令时，控制执行业务推送流程。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的装置实现，因此本发明还公开了一种装置，下面给出具体的实施例进行详细说明。

图4为本发明实施例公开的一种智能语音平台的会话控制装置的结构示意图，如图4所示，智能语音平台的会话控制装置40可以包括：

信息获取模块401，用于获取非语音指令信息。

本实施例中，所述智能语音平台的会话控制装置的执行主体可以是现有的或以后可能出现的任何具有智能语音功能的电子设备。

所述非语音指令信息指不是用户通过语音形式输入的指令信息，所述非语音指令信息可以是用户直接在触摸屏上用手指点击触发的指令信息，也可以是用户通过输入装置，例如遥控器、键盘等输入装置，触发生成的指令信息。

信息发送模块402，用于将所述非语音指令信息发送至会话管理引擎。

指令对应模块403，用于控制所述会话管理引擎根据预设的非语音指令与语音指令的对应关系确定所述非语音指令信息对应的语音指令信息。

流程控制模块404，用于控制所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行。

本实施例中，所述智能语音平台的会话控制装置，将非语音指令信息与话术剧本中的语音指令信息关联映射，从而在系统获得非语音指令信息后，也能够使会话管理引擎及时确定当前所处的会话环节，保证会话剧本能够依序顺利执行，实现对会话状态的完整控制。

图5为本发明实施例公开的另一种智能语音平台的会话控制装置的结构示意图，参见图5所示，智能语音平台的会话控制装置50可以包括：

ID分配模块501，用于预先为每一个非语音指令信息配置指令ID。

信息获取模块401，用于获取非语音指令信息。

ID对应模块502，用于确定所述非语音指令对应的指令ID。

在具体实现中，所述会话管理引擎可以通过技能代理功能对预设的非语音指令与语音指令的对应关系进行维护管理。

在具体实现中，若会话管理引擎无法感知非语音指令信息，则无法实时感知终端，即智能设备的状态，丧失了向用户主动进行建议性语音推送的机会。例如在用户播放电影暂停期间，会话管理引擎通常可以基于业务策略，向用户推送服务，如餐饮提醒，新闻播报等。而通过本申请实施例公开的技术内容，会话管理引擎能够实时了解智能终端状态，确定会话进行到了哪个环节，因而能够进行需要的业务推送。由此，在特定场景下，所述流程控制模块具体可用于：在所述语音指令信息为暂停指令时，控制执行业务推送流程。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种智能语音平台的会话控制方法，其特征在于，包括：

基于所述至少一种指令信息至少确定一项语音指令信息；

依据所述至少一项语音指令信息执行对应的控制处理；

所述至少一种指令信息包括一个非语音指令信息和一个语音指令信息，所述非语音指令信息和所述语音指令信息用于控制执行相同的操作；

或，所述至少一种指令信息包括一个非语音指令信息和一个语音指令信息，所述非语音指令信息和所述语音指令信息用于控制执行不相同的操作或针对不同电子设备的不同任务。

2.根据权利要求1所述的智能语音平台的会话控制方法，其特征在于，所述依据所述至少一项语音指令信息执行对应的控制处理，包括：

3.根据权利要求1所述的智能语音平台的会话控制方法，其特征在于，还包括：

4.根据权利要求1-3任一项所述的智能语音平台的会话控制方法，其特征在于，所述基于所述至少一种指令信息至少确定一项语音指令信息，包括：

5.根据权利要求4所述的智能语音平台的会话控制方法，其特征在于，还包括：

预先为每一个非语音指令信息配置指令ID；

在获取非语音指令后，确定所述非语音指令对应的指令ID；

6.根据权利要求1所述的智能语音平台的会话控制方法，其特征在于，所述会话管理引擎依据所述语音指令信息以及预设的话术剧本引导会话流程的进行，包括：

7.根据权利要求1所述的智能语音平台的会话控制方法，其特征在于，所述会话管理引擎通过技能代理功能对预设的非语音指令与语音指令的对应关系进行维护管理。

8.根据权利要求1所述的智能语音平台的会话控制方法，其特征在于，所述非语音指令信息包括手势指令信息、屏幕触控指令信息和输入装置指令信息。

9.一种智能语音平台的会话控制装置，其特征在于，包括：

执行控制模块，用于依据所述至少一项语音指令信息执行对应的控制处理；