CN111949775A

CN111949775A - 一种引导对话的生成的方法、装置、设备及介质

Info

Publication number: CN111949775A
Application number: CN202010656559.5A
Authority: CN
Inventors: 李良斌; 陈孝良; 苏少炜
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-17
Anticipated expiration: 2040-07-09
Also published as: CN111949775B

Abstract

本发明提供一种引导对话的生成的方法、装置、设备及介质，用以解决现有技术中引导对话场景单一，对话过程不自然的技术问题，该方法包括：在多个对话状态中确定用户输入的语音信息的对话状态，其中所述对话状态用于确定所述语音信息的用户意图和对话场景；基于所述语音信息和所述语音信息的对话状态，确定所述语音信息对应的引导状况；若所述语音信息的引导状况指示为进行系统引导对话，则生成所述语音信息对应的引导对话。

Description

一种引导对话的生成的方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种引导对话的生成的方法、装置、设备及介质。

背景技术

智能对话系统是指采用计算机及人工智能手段模拟人类的行为，与自然人进行语言沟通以实现特定任务处理、闲聊沟通、情感陪护等目的。作为人工智能的一种重要的落地场景，对话系统广泛应用于智能音箱、智能家电、智能客服、智能个人助理等多个领域，具有广泛的应用前景及研究价值。

现有的智能对话系统进入主动状态的场景单一，且进入主动状态后，执行的相关主动引导对话内容也需要预先进行配置，对用户体验的改善有限。

发明内容

本发明提供一种引导对话的生成的方法、装置、设备及介质，用以解决引导对话场景单一，对话过程不自然的技术问题。

第一方面，本发明实施例提供一种引导对话的生成的方法，包括：

在多个对话状态中确定用户输入的语音信息的对话状态，其中对话状态用于确定语音信息的用户意图和对话场景；

基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况；

若语音信息的引导状况指示为进行系统引导对话，则生成语音信息对应的引导对话。

在一种可能实施的方式中，本发明实施例提供的方法中，基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况，包括：

基于语音信息和语音信息的对话状态，确定语音信息对应的对话锚点；

基于语音信息对应的对话锚点，确定语音信息对应的引导状况，其中，对话锚点包括对应对话锚点的引导状况，在确定语音信息与任一对话锚点匹配时，则将匹配的对话锚点的引导状况确定为语音信息对应的引导状况。

在一种可能实施的方式中，本发明实施例提供的方法中，系统引导对话包括自主引导和询问引导，若语音信息的引导状况指示进行系统引导对话，则生成语音信息对应的引导对话，包括：

若语音信息的引导状况指示进行系统引导对话，且系统引导对话为自主引导，则生成主动引导对话。

在一种可能实施的方式中，本发明实施例提供的方法中，若语音信息的引导状况指示为语音信息进行系统引导对话，且系统引导对话为询问引导，则生成询问内容和基本对话；

根据询问内容和基本对话生成询问引导对话。

在一种可能实施的方式中，本发明实施例提供的方法中，在生成询问内容和基本对话之前，进一步包括：

若所述用户对上一次询问引导的响应意愿符合预设要求，则判定所述语音信息的引导状况指示为所述语音信息进行系统引导对话，且所述系统引导对话为询问引导。

在一种可能实施的方式中，本发明实施例提供的方法中，生成询问内容，包括：

从所述用户的行为序列中提取所述用户的喜好；

根据所述用户的喜好，生成所述询问内容。

在一种可能实施的方式中，本发明实施例提供的方法中，若语音信息的引导状况指示为不进行系统引导对话，则生成基本对话。

在一种可能实施的方式中，本发明实施例提供的方法中，在多个对话状态中确定用户输入的语音信息的对话状态，包括：

获取用户输入的语音信息，对语音请求进行语义解析；

基于语义解析结果在多个对话状态中确定语音信息的对话状态。

第二方面，本发明实施例提供一种引导对话的生成的装置，该装置包括：

确定单元，用于在多个对话状态中确定用户输入的语音信息的对话状态，其中对话状态用于确定语音信息的用户意图和对话场景；

处理单元，用于基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况；

生成单元，用于若语音信息的引导状况指示为进行系统引导对话，则生成语音信息对应的引导对话。

在一种可能实施的方式中，本发明实施例提供的装置中，处理单元具体用于：

在一种可能实施的方式中，本发明实施例提供的装置中，系统引导对话包括自主引导和询问引导，生成单元还用于：

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元还用于：若语音信息的引导状况指示为语音信息进行系统引导对话，且系统引导对话为询问引导，则生成询问内容和基本对话；

根据询问内容和基本对话生成询问引导对话。

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元还用于：

从所述用户的行为序列中提取所述用户的喜好；

根据所述用户的喜好，生成所述询问内容。

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元具体用于：若语音信息的引导状况指示为不进行系统引导对话，则生成基本对话。

在一种可能实施的方式中，本发明实施例提供的装置中，确定单元具体用于：

获取用户输入的语音信息，对语音请求进行语义解析；

第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如本发明实施例第一方面所提供的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如本发明实施例第一方面所提供的方法。

利用本发明提供的引导对话的生成的方法、装置、设备及介质，具有以下有益效果：在多个对话状态中确定用户输入的语音信息的对话状态，并基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况，若语音信息的引导状况指示为进行系统引导对话，则生成语音信息对应的引导对话。本发明通过在不同对话状态中确定对应的引导状况，并生成对应的引导对话，扩展了对话的自由度，提升了系统引导对话的智能程度。

附图说明

图1为本发明实施例提供的一种引导对话的生成的方法的流程示意图；

图2为本发明实施例提供的引导对话的生成的方法中对话锚点示意图；

图3为本发明实施例提供的一种引导对话的生成的方法的具体流程示意图；

图4为本发明实施例提供的一种引导对话的生成的装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面对文中出现的一些词语进行解释：

1、本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、问答式对话方式(Frequently Asked Questions，FAQ)一种基于检索方案或知识图谱方案进行实现的对话方式。

3、对话锚点(Dialog Anchor)用于表示对话状态的特定标记，设置在不同对话状态下，用于描述系统在完成了用户请求后所处的态势。

因此，需要一种引导对话的生成的方法，使得引导对话更为智能化，更接近于人与人之间的交流。

下面结合附图和实施例对本发明提供的引导对话的生成的方法、装置、设备及介质进行更详细地说明。

本发明实施例提供一种引导对话的生成的方法，如图1所示，包括：

步骤101，在多个对话状态中确定用户输入的语音信息的对话状态。

具体实施时，先获取用户输入的语音信息，并对语音请求进行语义解析，基于语义解析结果在多个对话状态中确定语音信息的对话状态。

需要说明的是，对语音请求进行语义解析时，可以使用NLU(natural languageunderstanding)或SLU(spoken language understanding)对语音请求的语义、用户的意图进行理解，本发明实施例对此不做限定。

步骤102，基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况。

具体实施时，可以通过这不同对话状态下设置对话锚点，并在命中某一对话锚点时，根据设置的对话锚点确定语音信息对应的引导状况。当然也可以通过其他方式确定语音信息对应的引导状况，如通过关键词等，本发明实施例对此不做限定。

在一个示例中，如图2所示，典型对话场景包括任务型、FAQ问答型和闲聊型。其中任务型对话特指通过语义槽填充完成特定功能的对话类型，通常需要多轮对话进行语义槽的填充，具体按照用户对槽位缺失的容忍程度，任务型对话又可以进一步划分为被动多轮对话、强制多轮对话。被动多轮对话用户对槽位的表征不敏感，如播放音乐，用户可以无须指定歌手、歌曲专辑等槽位，由系统自主指定；强制多轮对话后者则需要用户清晰的描述所有槽位，如设提醒，订机票等等。通过在任务型、FAQ问答型和闲聊型下设置对话锚点，并在命中其中一个对话锚点时，根据设置的对话锚点确定语音信息对应的引导状况，进而生成对应的引导对话。

步骤103，若语音信息的引导状况指示为进行系统引导对话，则生成语音信息对应的引导对话。

系统引导对话包括自主引导和询问引导，因此在具体实施时，可分为以下三种对话。

对话一：若语音信息的引导状况指示进行系统引导对话，且系统引导对话为自主引导，则生成主动引导对话。

例如，接收到用户输入的语音信息“播放音乐”，判定为该用户提供自主引导服务，生成主动引导对话“下面将为您播放歌曲《贝贝》”。

对话二：若语音信息的引导状况指示为语音信息进行系统引导对话，且系统引导对话为询问引导，则生成询问内容和基本对话，并根据询问内容和基本对话生成询问引导对话。

进一步地，为了提高引导对话的准确率，还可以参考用户对上一次询问引导的响应意愿是否符合预设要求，若是，则判定语音信息的引导状况指示为语音信息进行系统引导对话，且系统引导对话为询问引导。

其中，本发明实施例中的询问引导的响应意愿包括但不限于，上次询问引导的时间距离当前时刻的时长。具体地，为了符合用户的个性化推荐需求，可以先从用户的行为序列中提取用户的喜好，再根据用户的喜好，生成询问内容。

例如，接收到用户输入的语音信息“播放音乐”，由于为该用户上一次提供询问引导服务的时间距离当前时刻的时长较短，故判定仍然为该用户提供询问引导服务，调用用户的历史听歌记录，确定该用户最近常听的歌曲，生成“请问您是否要播放《莲》？”，在获得用户的确认回复后，为该用户播放此歌曲。

对话三：若语音信息的引导状况指示为不进行系统引导对话，则直接生成基本对话。

例如，接收到用户输入的语音信息“播放音乐”，若语音信息的引导状况指示为不进行系统引导对话，则根据预设对话模板生成基本对话“请输入待播放歌曲名称”，在获得用户输入的歌名后，为该用户播放相应的歌曲。

下面结合图3，对本发明实施例提供的引导对话的生成的具体过程，进行详细说明：

步骤301，接收用户输入的语音信息。

步骤302，确定用户输入的语音信息的对话状态。

步骤303，判断语音信息的对话状态是否触发系统引导对话，若是则执行步骤304，否则执行步骤308。

步骤304，判断系统引导对话的类型，若系统引导对话的类型为自主引导，则执行步骤305，若系统引导对话的类型为询问引导则执行步骤306。

步骤305，自主槽位填充，并基于填充后的槽位生成回复内容。

步骤306，确定是否进行询问引导，若进行询问引导，则执行307，否则执行308。

具体实施时，在询问引导判决时，需要考察此用户对此前询问引导的响应意愿，例如上次询问引导的时间距当前的时长等。

步骤307，生成询问内容，并拼接回复。

具体实施时，询问内容的产生需要结合用户的行为序列，提取相关喜好，再针对性实施引导推荐。并且在询问式系统引导对话生效后，对话系统的状态进入意图确认状态，当用户输入肯定回答时，则直接执行相关意图动作，否则将对话状态进行清除。

步骤308，产生基本回复内容。

如图4所示，基于引导对话的生成的方法同样的发明构思，本发明还提供一种引导对话的生成的装置，包括：

确定单元401，用于在多个对话状态中确定用户输入的语音信息的对话状态，其中对话状态用于确定语音信息的用户意图和对话场景；

处理单元402，用于基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况；

生成单元403，用于若语音信息的引导状况指示为进行系统引导对话，则生成语音信息对应的引导对话。

在一种可能实施的方式中，本发明实施例提供的装置中，处理单元402具体用于：

在一种可能实施的方式中，本发明实施例提供的装置中，系统引导对话包括自主引导和询问引导，生成单元403还用于：

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元403还用于：若语音信息的引导状况指示为语音信息进行系统引导对话，且系统引导对话为询问引导，则生成询问内容和基本对话；

根据询问内容和基本对话生成询问引导对话。

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元403还用于：

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元403用于：

从所述用户的行为序列中提取所述用户的喜好；

根据所述用户的喜好，生成所述询问内容。

在一种可能实施的方式中，本发明实施例提供的装置中，生成单元403具体用于：若语音信息的引导状况指示为不进行系统引导对话，则生成基本对话。

在一种可能实施的方式中，本发明实施例提供的装置中，确定单元401具体用于：

获取用户输入的语音信息，对语音请求进行语义解析；

另外，结合图1-图4描述的本发明实施例的引导对话的生成的方法和装置可以由电子设备来实现。图5示出了本发明实施例提供的电子设备的硬件结构示意图。

电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在数据处理装置的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。在特定实施例中，存储器502包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种引导对话的生成的方法。

在一个示例中，电子设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该电子设备可以基于接收到的语音信息，执行本发明实施例中的引导对话的生成的方法，从而实现结合图1-图4描述的引导对话的生成的方法和装置。

另外，结合上述实施例中的电子设备，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种引导对话的生成的方法。

利用本发明提供的引导对话的生成的方法、装置、设备及介质，具有以下有益效果：

在多个对话状态中确定用户输入的语音信息的对话状态，并基于语音信息和语音信息的对话状态，确定语音信息对应的引导状况，若语音信息的引导状况指示为进行系统引导对话，则生成语音信息对应的引导对话。本发明通过在不同对话状态中确定对应的引导状况，并生成对应的引导对话，扩展了对话的自由度，提升了系统引导对话的智能程度。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种引导对话的生成的方法，其特征在于，包括：

在多个对话状态中确定用户输入的语音信息的对话状态，其中所述对话状态用于确定所述语音信息的用户意图和对话场景；

基于所述语音信息和所述语音信息的对话状态，确定所述语音信息对应的引导状况；

若所述语音信息的引导状况指示为进行系统引导对话，则生成所述语音信息对应的引导对话。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音信息和所述语音信息的对话状态，确定所述语音信息对应的引导状况，包括：

基于所述语音信息和所述语音信息的对话状态，确定所述语音信息对应的对话锚点；

基于所述语音信息对应的对话锚点，确定所述语音信息对应的引导状况，其中，所述对话锚点包括对应所述对话锚点的引导状况，在确定所述语音信息与任一对话锚点匹配时，则将匹配的对话锚点的引导状况确定为所述语音信息对应的引导状况。

3.根据权利要求1所述的方法，其特征在于，所述系统引导对话包括自主引导和询问引导，所述若所述语音信息的引导状况指示进行系统引导对话，则生成所述语音信息对应的引导对话，包括：

若所述语音信息的引导状况指示进行系统引导对话，且所述系统引导对话为自主引导，则生成主动引导对话。

4.根据权利要求3所述的方法，其特征在于，若所述语音信息的引导状况指示为所述语音信息进行系统引导对话，且所述系统引导对话为询问引导，则生成询问内容和基本对话；

根据所述询问内容和所述基本对话生成询问引导对话。

5.根据权利要求4所述的方法，其特征在于，在生成询问内容和基本对话之前，进一步包括：

6.根据权利要求4所述的方法，其特征在于，生成询问内容，包括：

从所述用户的行为序列中提取所述用户的喜好；

根据所述用户的喜好，生成所述询问内容。

7.根据权利要求1所述的方法，其特征在于，若所述语音信息的引导状况指示为不进行系统引导对话，则生成基本对话。

8.根据权利要求1所述的方法，其特征在于，所述在多个对话状态中确定用户输入的语音信息的对话状态，包括：

获取用户输入的语音信息，对所述语音请求进行语义解析；

基于所述语义解析结果在多个对话状态中确定所述语音信息的对话状态。

9.一种引导对话的生成的装置，其特征在于，包括：

确定单元，用于在多个对话状态中确定用户输入的语音信息的对话状态，其中所述对话状态用于确定所述语音信息的用户意图和对话场景；

处理单元，用于基于所述语音信息和所述语音信息的对话状态，确定所述语音信息对应的引导状况；

生成单元，用于若所述语音信息的引导状况指示为进行系统引导对话，则生成所述语音信息对应的引导对话。

10.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。