CN109814831A

CN109814831A - 智能对话方法、电子装置及存储介质

Info

Publication number: CN109814831A
Application number: CN201910046044.0A
Authority: CN
Inventors: 程磊; 梁志伟
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-28

Abstract

本发明涉及一种语音语义技术，提供了一种智能对话生成方法、电子装置及存储介质。该方法包括：收集业务场景的对话内容，对其进行分类，将至少两种以上分类类型的对话内容进行组合得到多个对话行为链，利用预定的模型算法对该多个对话行为链进行训练，得到每个对话行为链的概率分布值，根据所述概率分布值计算该多个对话行为链的交叉熵，筛选出交叉熵小于阈值的对话行为链，并存储到数据库中。根据用户对话内容的分类类型，从数据库的对话行为链中检索出与该用户对话内容的分类类型匹配的所有对话行为链组成的集合，从该集合中筛选出与该实时对话内容相似度最高的对话行为链作为答案，输出反馈给用户。本发明可以对用户的输入信号做出快速、准确的答复。

Description

智能对话方法、电子装置及存储介质

技术领域

本发明涉及语音语义技术领域，尤其涉及一种智能对话生成方法、电子装置及存储介质。

背景技术

目前市面上存在着各式各样的智能对话产品，例如谷歌，科大讯飞，百度的智能客服等，可以24小时全天候提供客户服务，弥补人工客服下班后无法正常提供服务的不足，提升服务效率。然而，这些智能对话的产品存在以下几点不足：第一、多轮对话时给出答复的准确率不高，甚至还需要频繁的人工转接，工作效率低下；第二、在时间响应方面存在较大的延迟，导致用户体验性差。

发明内容

本发明提供一种智能对话生成方法、电子装置及存储介质，其主要目的在于对用户输入的信号做出快速响应，输出准确的答复内容回应用户。

为实现上述目的，本发明提供一种智能对话方法，该方法包括：

收集业务场景的对话内容，对收集的对话内容进行分类，将至少两种以上分类类型的对话内容进行任意组合得到多个对话行为链；

利用预定的模型算法对该多个对话行为链进行训练，得到每个对话行为链的概率分布值；

根据所述概率分布值计算该多个对话行为链的交叉熵，筛选出交叉熵小于阈值的对话行为链，并存储到数据库中；及

接收用户的第一实时对话内容，对该第一实时对话内容进行分类，得到该第一实时对话内容的分类类型，从数据库存储的对话行为链中检索出与该第一实时对话内容的分类类型匹配的所有对话行为链组成的第一集合，从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链，作为该第一实时对话内容的答案输出反馈给用户。

优选地，所述分类类型包括：询问、反馈、阐述、确认、请求、接受、问候、闲聊、解释。

优选地，每个对话行为链包括参与一次对话的双方或多方的多段对话内容。

优选地，所述预定模型算法包括：一阶马尔科夫链+Kneser Ney平滑方法。

优选地，所述从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链包括：利用文本相似度算法，计算该第一实时对话内容的分类类型与所述第一集合中每个以该第一实时对话内容的分类类型开头的对话行为链包含的内容的Jaccard相似性系数；

选择Jaccard相似性系数最大值对应的对话行为链。

优选地，该方法还包括：接收用户的第N实时对话内容，对所述第N实时对话内容进行分类得到该第N实时对话内容的分类类型，从数据库存储的对话行为链中检索出与该第N实时对话内容的分类类型匹配的所有对话行为链组成的第二集合，其中N为大于或等于2的自然数；

从第一集合中检索出与用户第一至第N实时对话内容匹配的第三集合，从该第三集合和第二集合中筛选出与所述第N实时对话内容相似度最高的对话行为链，作为所述第N实时对话内容的答案输出反馈给用户。

此外，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中包括智能对话程序，该智能对话程序被所述处理器执行时实现如下步骤：

优选地，所述从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链包括：

利用文本相似度算法，计算该第一实时对话内容的分类类型与所述第一集合中每个以该第一实时对话内容的分类类型开头的对话行为链包含的内容的Jaccard相似性系数；

选择Jaccard相似性系数最大值对应的对话行为链。

优选地，该步骤还包括：

接收用户的第N实时对话内容，对所述第N实时对话内容进行分类得到该第N实时对话内容的分类类型，从数据库存储的对话行为链中检索出与该第N实时对话内容的分类类型匹配的所有对话行为链组成的第二集合，其中N为大于或等于2的自然数；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括智能对话程序，该智能对话程序被处理器执行时实现如上所述的智能对话方法。

本发明提出的智能对话方法、电子装置及计算机可读存储介质，通过接收用户的实时对话内容，对该第一实时对话内容进行分类，得到该实时对话内容的分类类型，然后，根据预先收集业务场景的对话内容，对收集的对话内容进行分类，将至少两种以上分类类型的对话内容进行任意组合，得到多个对话行为链。再根据预定模型算法训练所述多个对话行为链，得到每个对话行为链的概率分布值。然后，利用该概率分布值计算每个对话行为链的交叉熵，筛选出交叉熵小于阈值的对话行为链，并将筛选出来的对话行为链存储到数据库中。最后，从数据库中存储的对话行为链中检索出与该实时对话内容的分类类型匹配的所有对话行为链组成的集合，从该集合中筛选出与该实时对话内容相似度最高的对话行为链，作为该实时对话内容的答案输出反馈给用户。利用本发明，通过采用模型算法、交叉熵、对话行为链的方式进行分析、匹配，可以对用户输入的语音作出快速响应，并提高了答复的准确率，提高用户体验。

附图说明

图1为本发明电子装置一实施例的运行环境示意图；

图2为本发明电子装置一实施例的示意图；

图3为图1、图2中智能对话程序一实施例的程序模块图；

图4为本发明智能对话方法一实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种电子装置。参照图1所示，为本发明电子装置1一实施例的运行环境示意图。在该实施例中，该电子装置1与输入装置2、输出装置3通过网络4相连接。用户通过输入装置2输入对话内容(例如语音信号)，电子装置1将用户输入的对话内容通过网络4传输至电子装置1。电子装置1包括智能对话程序10(APP)，智能对话程序10对用户输入的对话内容进行分析生成答复内容，，通过输出装置3输出、反馈给用户。

所述电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机、视频音频会议系统等具有存储和运算功能的终端设备。在一个实施例中，当电子装置1为服务器时，该服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等的一种或几种。

所述输入装置2包括但不限于麦克风、键盘、鼠标、触摸屏、拾音器，等等。

所述输出装置3包括但不限于麦克风、显示器，显示器也可以适当的称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在所述电子装置1中生成的对话内容。

所述网络4可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个：传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或其组合。

参照图2所示，为本发明电子装置1一实施例的示意图。在该实施例中，所述电子装置1包括存储器11、处理器12以及网络接口13。

其中，所述存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储智能对话程序10以及执行智能对话程序10过程中用到或产生的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或数据，例如执行智能对话程序10。

网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在该电子装置1与其他电子设备之间建立通信连接，例如与所述输入装置2、输出装置3建立通信连接。

图2仅示出了具有组件11-13和智能对话程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

在一个实施例中，处理器12执行存储器11中存储的智能对话程序10时，实现如下步骤：

具体原理请参照下述图3关于智能对话程序10的程序模块图及图4关于智能对话方法的流程图的介绍。

参照图3所示，为图1、图2中智能对话程序10的程序模块图。所述智能对话程序10被分割为多个模块，该多个模块被存储于存储器12中，并由处理器13执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

所述智能对话程序10可以被分割为：分类模块110、训练模块120及智能对话模块130。

所述分类模块110，用于收集业务场景的对话内容，对收集的对话内容进行分类，将至少两种以上分类类型的对话内容进行任意组合得到多个对话行为链。所述业务场景包括电商，该业务场景的完整对话内容可以包括客户的问题和客服的回答。针对不同的业务场景，可以按照对话的行为类型对所述对话内容进行分类。每个对话行为链包括参与一次对话的双方或多方的多段对话内容。

所述对话的行为类型包括以下类型。类型1：询问，例如：最近有什么优惠政策吗？类型2：反馈，例如：问题：最近有什么优惠政策吗？答案：最近有满减活动。类型3：阐述，我需要退货，尺码不合适。类型4：确认，例如：问题：这是您购买的商品，对吗？答案：对的。类型5：请求，例如：送我一个赠品，好嘛？接受：好的。类型6：问候，例如：亲，你好？类型7：闲聊，例如：今天天气不错。类型8：解释，例如：最近订单量巨大，请耐心等候。

在本实施例中，对收集的对话内容进行分类可以采用学习模型，例如神经网络分类模型，预先对神经网络分类模型进行训练，再将训练好的模型应用于分类。关于神经网络模型的训练可参现有技术中的方法。

所述训练模块120，用于利用预定的模型算法对该多个对话行为链进行训练，得到每个对话行为链的概率分布值。之后，根据所述概率分布值计算该多个对话行为链的交叉熵，筛选出交叉熵小于阈值的对话行为链，并存储到数据库中。

在本实施例中，所述模型算法包括一阶马尔科夫链及Kneser Ney平滑算法。一阶马尔科夫链可以理解为一次对话行为发生的概率只与于上一次的对话行为有关，即得到对话内容B的概率只根据前面的对话内容A，并不依赖对话内容A之前的对话。一阶马尔科夫链算法能够降低算法的复杂度。经一阶马尔科夫链训练后，得到各个对话行为链的概率分布值。一阶马尔科夫链在处理自然语言中则是对应二元语言模型。由于二元语言模型存在一个显著的问题，需要先验概率为零的情况，即在对话行为A发生的情况下，对话行为B发生的概率为零，用公式表示为P(A|B)＝0，从而导致对话行为链的中断。然而在实际场景中，P(A|B)可能不等于0。若不处理这种情况，将导致计算结果过拟合，模型的准确度大大降低。因此，在进行一阶马尔科夫链训练的同时，需要对对话行为链的概率进行优化，而Kneser Ney平滑算法具有提高低概率事件，降低高概率事件，使得概率分布趋于均匀的优点。所以采用一阶马尔科夫链+Kneser Ney平滑算法结合的方式，能够保证对话行为链的准确度，同时降低算法的复杂度，以便对用户的输入信号做出快速、准确的答复。

由上述一阶马尔科夫链+Kneser Ney平滑方法对对话行为链训练后，得到各个对话行为链的概率分布值，根据该概率分布值计算该多个对话行为链的交叉熵，筛选出较优的对话行为链。其中，交叉熵用于衡量估计模型与真实概率分布之间差异的情况，即以下公式为：

其中，表示一个对话行为链；为模型q对于对话语句的概率估计，其可以从上述的优化后的对话行为链的概率分布中直接得到，H为交叉熵。交叉熵的值越小，说明对话行为链与真实场景的多轮对话之间的差异越小。筛选出交叉熵值小于某一阈值的对话行为链作为较优的对话行为链，存储至数据库中。

所述智能对话模块130，用于接收用户的第一实时对话内容，对该第一实时对话内容进行分类，得到该第一实时对话内容的分类类型，从数据库存储的对话行为链中检索出与该第一实时对话内容的分类类型匹配的所有对话行为链组成的第一集合，从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为该第一实时对话内容的答案输出反馈给用户。对用户输入的实时对话内容进行分类，也可以采用学习模型，例如神经网络分类模型。

所述从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链包括：

选择Jaccard相似性系数最大值对应的对话行为链。

以上智能对话模块130完成一轮一次对话(例如一问一答)的情况。在实际应用场景中，通常一轮对话可能涉及对话双方的多次回复或响应。故，所述智能对话模块130，还用于：

从第一集合中检索出与用户第一至第N实时对话内容匹配的第三集合，从该第三集合和第二集合中筛选出与该第N对话内容相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为所述第N实时对话内容的答案输出反馈给用户。

以下举例说明智能对话模块130完成一轮两次对话的过程(N＝2)。

步骤1：接收用户输入的第一实时对话内容，对该第一实时对话内容进行分类，得到该第一实时对话内容对应的对话类型A(即分类类型)。

步骤2：从数据库存储的对话行为链中检索出以对话类型A开头的对话行为链组成的第一集合L_A，在第一集合L_A中筛选出与第一实时对话内容相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为匹配结果输出、反馈给用户。

步骤3：接收用户输入的第二实时对话内容，重复步骤1中的分类操作，确定该第二实时对话内容对应的对话类型B。

步骤4：从数据库中检索出以对话类型B开头的对话行为链组成的第二集合L_B，并在第一集合L_A中检索出包含B的对话行为链组成的第三集合L_AB。之后，将两次检索的结果进行整合分析：在第二集合L_B、第三集合L_AB中检索出与第二实时对话内容相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为该第二实时对话内容的匹配结果输出、反馈给用户。

以上是举例说明一轮两次对话的过程，当一轮对话涉及对话双方的更多次输入时，智能对话模块130的处理原理参上类推，在此不再赘述。

参照图4所示，为本发明智能对话方法实施例的流程图。电子装置1的处理器13执行存储器12中存储的智能对话程序10时实现智能对话生成方法的如下步骤：

步骤S400，收集业务场景的对话内容，对收集的对话内容进行分类，将至少两种以上分类类型的对话内容进行任意组合得到多个对话行为链。对所述对收集的对话内容进行分类，包括使用神经网络分类算法进行分类，该算法具有准确、快速分类的特点。

步骤S410，利用预定的模型算法对该多个对话行为链进行训练，得到每个对话行为链的概率分布值。

所述预定模型算法包括一阶马尔科夫链+Kneser Ney平滑算法，该算法能够保证模型的准确度，同时降低算法的复杂度。经所述一阶马尔科夫链+Kneser Ney平滑算法对对话行为链训练后，得到各个对话行为链的概率分布值。

步骤S420，根据所述概率分布值计算该多个对话行为链的交叉熵，筛选出交叉熵小于阈值的对话行为链，并存储到数据库中。

在本实施例中，所述交叉熵是衡量估计模型与真实概率分布之间差异的情况。通过计算对话行为链的交叉熵，得到语言模型的结果小于设定的阈值，说该明语言模型与真实场景的多轮对话非常接近，将此较优的语言模型存储到数据库中。

步骤S430，接收用户的第一实时对话内容，对该第一实时对话内容进行分类，得到该第一实时对话内容的分类类型，从数据库存储的对话行为链中检索出与该第一实时对话内容的分类类型匹配的所有对话行为链组成的第一集合，从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为该第一实时对话内容的答案输出反馈给用户。

在本实施例中，只说明完成一轮一问一答的智能对话。以下将举例说明完成一轮多次问答的智能对话。

例：步骤1：第一次接收用户的对话内容A，对该对话内容A进行分类，得到该对话内容A的分类类型，从数据库存储的对话行为链中检索出与该对话内容A的分类类型匹配的所有对话行为链组成的集合L_A，从该集合L_A中筛选出与该对话内容A相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为该对话内容A的答案输出反馈给用户。

步骤2：第二次接收用户的对话内容B，对该对话内容B进行分类，得到该对话内容B的分类类型，从数据库存储的对话行为链中检索出与该对话内容A的分类类型匹配的所有对话行为链组成的集合L_B，并从集合L_A中匹配出以B开头的对话行为链的集合L_AB。同时将两次检索的结果进行整合分析，从集合L_AB、集合L_B中筛选出与对话内容B相似度最高的对话行为链，从该相似度最高的对话行为链获取对应的答案，作为该第二实时对话内容的答案输出反馈给用户。

步骤3：当用户继续输入时，重复步骤1和步骤2，直到对话结束。

需要说明的是从对话行为链的集合中筛选出与对话内容相似度最高的对话行为链可以利用文本相似度算法，计算该第一实时对话内容的分类类型与所述第一集合中每个以该第一实时对话内容的分类类型开头的对话行为链包含的内容的Jaccard相似性系数。选择Jaccard相似性系数最大值对应的对话行为链。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括智能对话程序10，该智能对话程序10被处理器执行时实现的功能，请参照上述关于图3和图4的介绍，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能对话生成方法，应用于电子装置，其特征在于，该方法包括：

2.如权利要求1所述的智能对话方法，其特征在于，所述分类类型包括：询问、反馈、阐述、确认、请求、接受、问候、闲聊、解释。

3.如权利要求1所述的智能对话方法，其特征在于，每个对话行为链包括参与一次对话的双方或多方的多段对话内容。

4.如权利要求1所述的智能对话方法，其特征在于，所述预定模型算法包括：一阶马尔科夫链+Kneser Ney平滑方法。

5.如权利要求1所述的智能对话方法，其特征在于，所述从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链包括：

选择Jaccard相似性系数最大值对应的对话行为链。

6.如权利要求1至5任一项所述的智能对话方法，其特征在于，该方法还包括：

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括智能对话程序，该智能对话程序被所述处理器执行时实现如下步骤：

收集业务场景的对话内容，利用预先训练的分类模型对收集的对话内容进行分类，将至少两种以上分类类型的对话内容进行任意组合得到多个对话行为链；

利用预定模型算法对所述多个对话行为链进行训练，得到每个对话行为链的概率分布值；

根据所述概率分布值计算所述多个对话行为链的交叉熵，筛选出交叉熵小于阈值的对话行为链，并存储到数据库中；及

接收用户的第一实时对话内容，利用所述预先训练的分类模型对所述第一实时对话内容进行分类，得到该第一实时对话内容的分类类型，从数据库存储的对话行为链中检索出与该第一实时对话内容的分类类型匹配的所有对话行为链组成的第一集合，从该第一集合中筛选出相似度最高的对话行为链，作为所述第一实时对话内容的答案输出给用户。

8.如权利要求7所述的电子装置，其特征在于，所述从该第一集合中筛选出与该第一实时对话内容相似度最高的对话行为链包括：

选择Jaccard相似性系数最大值对应的对话行为链。

9.如权利要求7或8所述的电子装置，其特征在于，该方法还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括智能对话程序，所述智能对话程序被处理器执行时，实现如权利要求1至6中任一项所述的智能对话方法的步骤。