CN116150338A

CN116150338A - 一种基于多轮对话的智能客服方法及系统

Info

Publication number: CN116150338A
Application number: CN202310168718.0A
Authority: CN
Inventors: 杨彤; 李雪; 魏子重; 段强; 姜凯
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-23

Abstract

本发明提供一种基于多轮对话的智能客服方法及系统，属于人工智能及自然语言处理技术领域，包括：构建对话语料库，并进行数据预处理；搭建训练网络，基于预处理数据训练模型；获取用户输入问题，使用意图识别和槽位填充实现自然语言理解；多次对话交互收集用户需求；明确用户指令并执行答复。本发明的多轮对话方法使用基于中文词组掩盖的ERNIE模型进行训练，更准确的表达语义信息；使用BiLSTM模型和TextCNN模型对输入数据进行特征提取，深层及局部特征的有效融合优化关键特征提取。此方法可用于一些特殊行业领域的智能客服应用，减少人工客服工作压力，缩短答复的响应时间，提升用户满意度。

Description

一种基于多轮对话的智能客服方法及系统

技术领域

本发明涉及人工智能及自然语言处理技术领域，尤其涉及一种基于多轮对话的智能客服方法及系统。

背景技术

随着人工智能、大数据、物联网等新兴技术的发展，一些大型企业越来越重视实现智能化、便捷化的管理。智能客服机器人引入办公环境中虽然帮助员工大大提高了处理日常事务的效率，但是现在的客服机器人的任务设定较为简单，大多只具备问答功能而非对话功能，不能完全满足办公系统的需求。后来多轮对话被大量运用于智能客服的应用中，当机器无法准确解析用户的意图时，通过反向询问明确用户的意图，使用尽可能少的对话轮数帮助用户找到满意的信息或服务。

目前像智慧办公等特殊领域的数据集相对较少，语言的多样性又容易导致理解产生歧义。现在开放的预训练模型(BERT、ERNIE等)缺乏该领域的相关特征，结合该领域的多轮对话数据集，再次进行预训练能够显著的提升对话系统的性能。而如何实现对往轮对话信息的深度挖掘和高效利用是设计一个智能的、表现良好的面向特殊领域的多轮对话系统急需解决的问题。

发明内容

为了解决以上技术问题，本发明提供了一种基于多轮对话的智能客服方法。

本发明的技术方案是：

一种基于多轮对话的智能客服方法，其特征在于，

包括以下步骤：

S1、构建对话语料库，并进行数据预处理；

S2、搭建训练网络，根据预处理的数据集，进行EBTA模型训练；

S3、获取用户输入问题，进行意图识别分类；

S4、多次对话交互收集用户需求；

S5、明确用户指令并执行任务。

进一步的，

步骤S1中，构建的知识库，包括基础知识库，行业知识库；

行业知识库存储行业知识，通过爬虫的方式对网络资料进行爬取获取；基于用户与客服之间的历史对话数据更新扩充行业知识库；

基础知识库来自ERNIE自有的语料库，存储常用问答，在此基础上额外增加行业知识库训练语料，扩充训练数据集。

对问答对进行数据预处理：字母全部小写处理；去除包括标点符号在内的特殊符号；使用停用词表去除掉会影响分类结果的停用词。

再进一步的，

步骤S2中，EBTA(ERNIE-BiLSTM-TextCNN-Attention)模型用于意图识别和槽位填充，包括输入层、预训练ERNIE模型层、BT特征提取层、注意力机制层、全连接层和输出层；

输入层给定输入句子S＝(w₁,w₂,…,w_N),其中w_i表示每一个中文汉字，N代表句子长度；句中每个字通过one-hot编码为输入向量X＝(x₁,x₂,…,x_N)；输入到预先训练好的ERNIE模型得到词向量E＝(e₁,e₂,…,e_N)；ERNIE最后一层的输出作为H＝(h₁,h₂,…,h_N)作为BT特征提取层BiLSTM模型和TextCNN模型的输入。

预训练ERNIE模型层，采用双向Transformer编码器进行编码，以词语为单位的掩盖训练，编码更多的语义信息，充分提取字与字、词与词之间的特征信息，更好地解析中文文本并且学习文本中上下文表达的语义信息。

BT特征提取层使用BiLSTM模型和TextCNN模型,双向长短期记忆网络(BiLSTM)是由一个正向处理序列的LSTM和一个反向处理序列的LSTM组成，对输入的上下文信息进行深层次特征提取；卷积神经网络CNN用来获取局部特征信息。

将步骤S1得到的问答数据集载入构建的网络中，并加载模型EBTA，训练针对智慧办公领域的新模型，获得最佳配置参数；

使用ERNIE模型对文本进行向量化处理，将预训练得到的文本特征表示分别输入BiLSTM模型和TextCNN模型做进一步的特征提取，两个模型输出的特征进行融合；同时加入注意力机制，对重要特征分配权重进行加权输出；将最终提取的特征向量输入全连接层，并采用Softmax分类器进行文本分类预测。

BT特征提取层的输出Output₁，经过自注意力机制实现对重要特征的精炼提取；

将数据表示为<Key,Value>键值对的形式，根据用户输入查询问题Query计算Key与Query之间的相似系数,经softmax函数计算归一化后得到Value值对应的注意力权重系数W_A，然后与Value值进行加权求和，得到融合了注意力的输出Output₂＝Attention(Q,K,V)＝W_A·V＝softmax(QK^T)·V，其中Q，K，V分别表示Query,Key和Value；

注意力机制层的输出Output₂输入到全连接层，与全连接层权重矩阵W_D计算后输出Output₃；最后经过softmax函数归一化处理后输出最终结果。

再进一步的，

在步骤S3中所用模型为步骤S2预先训练所得，将用户输入的自然语言转化为机器可以理解的用户意图、槽位值信息；通过分类的办法将用户输入的文本信息分到相应的意图种类。

再进一步的，

在步骤S4中，对话交互过程中，使用MySQL数据库存储历史对话中识别到的实体、意图类型，保证上下对话交互的连贯性；将每次识别到的意图类、实体类别保存至数据库中，根据历史意图/实体信息、最新的系统动作，更新对话状态。

此外，本发明还公开了一种基于多轮对话的智能客服系统，包括：

数据库管理模块：Mysql数据库存储基础知识库，行业知识库，及对话涉及到的历史意图信息和槽位信息；对存储的信息进行增删改查的操作；

用户交互模块，用于进行用户的文本问题输入，及系统回复用户的需求结果；

对话模块，包括自然语言理解模块、对话管理决策模块、自然语言生成模块三部分；其中

自然语言理解模块，用于根据构建的语料库使用深度学习模型训练方法确定意图识别模型和槽提取模型；

对话管理决策模块，处理自然语言理解模块的输出，对话交互过程中，完善、修正并明确用户需求；

自然语言生成模块，将选择的动作映射到表示层，生成回复。

本发明的有益效果是

本发明在ERNIE自有的语料库基础上扩充智慧办公领域语料库，使用意图识别和槽位填充实现自然语言理解，根据历史交互信息进行多轮对话决策管理，明确用户意图，以较少的交互次数准确明确用户意图，快速执行用户指令，给用户以做好的体验。这为一些特定领域的智能客服提供了线上高效办公的新渠道。

附图说明

图1是本发明的多轮对话模型构建方法流程图

图2是本发明EBTA模型框架图。

图3是本发明的智能客服系统架构示意图

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于多轮对话的智能客服方法，包括以下步骤：

S1、构建知识库，进行数据预处理；

S3、获取用户输入问题，进行意图识别分类；

S4、多次对话交互收集用户需求；

S5、明确用户指令并执行任务。

步骤S1中，构建的知识库，包括基础知识库，特殊领域的行业知识库。

行业知识库存储一些特定领域的行业知识，通过爬虫的方式对特殊领域的网络资料进行爬取获取。基于用户与客服之间的历史对话数据更新扩充行业知识库。

基础知识库来自ERNIE自有的语料库，存储的是一些常用问答，在此基础上额外增加行业知识库训练语料，扩充训练数据集。

比如：智慧办公领域数据:如何预定会议室；如何报销；无法登录网络；接收不到邮件等。

步骤S1中，对问答对进行数据预处理：字母全部小写处理；去除标点符号等特殊符号；使用停用词表去除掉会影响分类结果的停用词等。

步骤S2中，EBTA(ERNIE-BiLSTM-TextCNN-Attention)模型用于意图识别和槽位填充，包括输入层、预训练ERNIE模型层、BT特征提取层、注意力机制层、全连接层和输出层。

输入层给定输入句子S＝(w₁,w₂,...,w_N),其中w_i表示每一个中文汉字，N代表句子长度；句中每个字通过one-hot编码为输入向量X＝(x₁,x₂,…,x_N)；输入到预先训练好的ERNIE模型得到词向量E＝(e₁,e₂,...,e_N)。ERNIE最后一层的输出作为H＝(h₁,h₂,...,h_N)作为BT特征提取层BiLSTM模型和TextCNN模型的输入。

特征提取层使用BiLSTM模型和TextCNN模型,双向长短期记忆网络(BiLSTM)是由一个正向处理序列的LSTM和一个反向处理序列的LSTM组成，对输入的上下文信息进行深层次特征提取；卷积神经网络CNN用来获取局部特征信息。

在步骤S2中，步骤S1得到的问答数据集载入构建的网络中，并加载模型EBTA，训练针对智慧办公领域的新模型，获得最佳配置参数。

在步骤S2中，使用ERNIE模型对文本进行向量化处理，将预训练得到的文本特征表示分别输入BiLSTM模型和TextCNN模型做进一步的特征提取，两个模型输出的特征进行融合；同时加入注意力机制，对重要特征分配权重进行加权输出；将最终提取的特征向量输入全连接层，并采用Softmax分类器进行文本分类预测。

在步骤S2中，BT特征提取层的输出Output₁，经过自注意力机制模块实现对重要特征的精炼提取。将数据表示为<Key,Value>键值对的形式，根据用户输入查询问题Query计算Key与Query之间的相似系数,经softmax函数计算归一化后得到Value值对应的注意力权重系数W_A，然后与Value值进行加权求和，得到融合了注意力的输出Output₂＝Attention(Q,K,V)＝W_A·V＝softmax(QK^T)·V，其中Q，K，V分别表示Query,Key和Value。

在步骤S3中所用模型为步骤S2预先训练所得，将用户输入的自然语言转化为机器可以理解的用户意图、槽位值信息。通过分类的办法将用户输入的文本信息分到相应的意图种类。

比如“预定会议室”，这个意图被识别划分为会议类，槽位设计包括时间，地点，会议人数等。

例如：用户输入了预定明天九点到十点半的会议室，自然语言理解模块识别出了这是一个时间段，开始时间为：XXXX-XX-XX 09:00:00，结束时间为：XXXX-XX-XX10:30:00，会议时长为1.5小时，分别对应起始时间，终止时间，会议时长三个槽位。

在步骤S4中，多次对话交互过程中，使用MySQL数据库存储历史对话中识别到的实体、意图类型等，保证上下对话交互的连贯性。系统将每次识别到的意图类、实体类别等保存至数据库中，根据历史意图/实体信息、最新的系统动作，更新对话状态，即使省略了部分实体的提问，系统仍能做出正确回答。

例如：

用户：预定会议室

客服：请问预定什么时间的？

用户：明天上午9：00

客服：请问预计的会议时长是多久？

用户：两个小时左右

客服:请问预计的参会人员是多少？

用户：15人左右

客服:当前推荐会议室：XXX时间-XXX时间，XX会议室，是否确认？

用户：确认

客服：已成功预订该会议室，请准时参会。

如图3所示，本发明的系统结构，包括：

数据库管理模块：Mysql数据库存储基础知识库，行业知识库，及多轮对话涉及到的历史意图信息和槽位信息等。对存储的信息进行增删改查等一系列的操作。

用户交互模块，用于进行用户的文本问题输入，及系统回复用户的需求结果。

多轮对话模块中包括自然语言理解、对话管理决策、自然语言生成三部分；

自然语言理解，用于根据构建的语料库使用深度学习模型训练方法确定意图识别模型和槽提取模型；

对话管理决策，处理自然语言理解模块的输出(如意图、槽位)，多轮交互过程中，完善、修正并明确用户需求。

具体包括对话状态跟踪和对话决策，对话状态跟踪模块负责追踪用户需求并判断当前的对话状态。存储当前的对话状态，如当前用户动作(包括意图和槽位)、多轮对话历史，推理判断用户当前输入的自然语言在上下文环境中的的具体含义。输出当前对话状态。对话策略根据意图+槽值，决定下一步执行什么系统动作。

自然语言生成，将选择的动作映射到表示层，生成回复。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于多轮对话的智能客服方法，其特征在于，

包括以下步骤：

S1、构建知识库，进行数据预处理；

S3、获取用户输入问题，进行意图识别分类；

S4、对话交互收集用户需求；

S5、明确用户指令并执行任务。

2.根据权利要求1所述的方法，其特征在于，

步骤S1中，构建的知识库，包括基础知识库，行业知识库；

3.根据权利要求1所述的方法，其特征在于，

步骤S1中，对问答对进行数据预处理：字母全部小写处理；去除包括标点符号在内的特殊符号；使用停用词表去除掉会影响分类结果的停用词。

4.根据权利要求1所述的方法，其特征在于，

输入层给定输入句子S＝(w₁,w₂,…,w_N),其中w_i表示每一个中文汉字，N代表句子长度；句中每个字通过one-hot编码为输入向量X＝(x₁,x₂,…,x_N)；输入到预先训练好的ERNIE模型得到词向量E＝(e₁,e₂,…,e_N)；ERNIE最后一层的输出作为H＝(h₁,h₂,…,h_N)作为BT特征提取层BiLSTM模型和TextCNN模型的输入；

预训练ERNIE模型层，采用双向Transformer编码器进行编码，以词语为单位的掩盖训练，编码更多的语义信息，提取字与字、词与词之间的特征信息，解析中文文本并且学习文本中上下文表达的语义信息；

5.根据权利要求4所述的方法，其特征在于，

在步骤S2中，将步骤S1得到的问答数据集载入构建的网络中，并加载模型EBTA，训练针对智慧办公领域的新模型，获得最佳配置参数；

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

9.一种基于多轮对话的智能客服系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，

对话管理决策模块具体包括：

对话状态跟踪和对话决策，对话状态跟踪模块负责追踪用户需求并判断当前的对话状态；

存储当前的对话状态，推理判断用户当前输入的自然语言在上下文环境中的的具体含义；

输出当前对话状态；对话策略根据意图+槽值，决定下一步执行什么系统动作。