CN109947918A

CN109947918A - 面向智能客服对话场景的语义分析方法

Info

Publication number: CN109947918A
Application number: CN201910183664.9A
Authority: CN
Inventors: 张晖; 李吉媛; 何辉
Original assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd; Nanjing Post and Telecommunication University
Current assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd; Nanjing Post and Telecommunication University
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-06-28

Abstract

本发明揭示了一种面向智能客服对话场景的语义分析方法，包括如下步骤：S1、获取某一智能客服场景下所涉及产品的相关文本信息，并以问答的形式形成对话知识库；S2、将对话知识库进行扩展，使每一答句均对应多种不同表达形式的问句，并以此形式形成训练样本集；S3、提取语义特征，将训练样本集由抽象的文本转化为低纬度密集型的向量化表示；S4、采用隐藏状态可逆计算策略构建基于GRU双向循环神经网络模型并训练，获得语义分析模型；S5、利用优化策略测试语义分析模型，完成语义分析模型的深度优化。本发明可以在无人工参与的情况下自动地从语义分析的层次出发真正实现理解用户意图的目的，从而及时且准确的给予用户准确的回复。

Description

面向智能客服对话场景的语义分析方法

技术领域

本发明涉及一种对话语义分析方法，具体涉及一种面向智能客服对话场景的语义分析方法，属于深度学习技术领域。

背景技术

近年来，随着人工智能技术的快速发展，智能客服在国内外的发展、应用呈现出快速增长的势头，并逐步开始在电商、运营、金融服务等各行业形成产业规模。智能客服能够解决长期以来的企业痛点，并在很多环节内为企业带来事半功倍的效果。具体而言，在用户问题高度重复的情况下，智能客服可以在很大程度上释放人力、节约人工成本；此外，智能客服擅长记忆复杂且专业的参数和产品知识，且具有没有情绪、表现稳定、响应速度快等特点。

但是，目前市场上的智能客服系统大多采用关键词、关键句匹配的方式来完成对话交流，这种方式在实现理解用户意图方面还存在一定的距离，经常会出现类似“对不起，这个问题我听不懂哦”这样的回答，远没有达到真正意义上的语义理解。同时，由于自然语言的灵活性、多义性，对于同一意图往往存在很多种不同的口语表达方式，这虽然是语言的魅力，但同时也是对话交互技术所面临的重大难点。在这样的技术背景下，可以说。仅靠关键词匹配的方式根本无法真正理解用户意图并给予准确的反馈。

综上所述，如何在现有技术的基础上提出一种针对智能客服对话场景的语义分析方法，以实现智能客服真正理解用户意图、将对话与服务连接起来，从而快速而准确地帮助用户解决实际问题，也就成为了本领域内技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种面向智能客服对话场景的语义分析方法，包括如下步骤：

S1、获取某一智能客服场景下所涉及产品的相关文本信息，并以问答的形式形成对话知识库；

S2、将对话知识库进行扩展，使每一答句均对应多种不同表达形式的问句，并以此形式形成训练样本集；

S3、提取语义特征，将训练样本集由抽象的文本转化为低纬度密集型的向量化表示；

S4、采用隐藏状态可逆计算策略构建基于GRU双向循环神经网络模型并训练，获得语义分析模型；

S5、利用优化策略测试语义分析模型，完成语义分析模型的深度优化。

优选地，S1具体包括如下步骤：

全方位获取某一智能客服场景中所涉及产品的全部相关文本信息，搜集该场景下以往用户的提问历史记录，根据已有问题编辑相应的答句或根据答句编辑相应的问句，以上述问答形式构成一个对话知识库。

优选地，所述相关文本信息包括该智能客服所服务平台的介绍，使用方法、流程以及使用过程中常见的问题。

优选地，S2具体包括如下步骤：对所述对话知识库中的问句分别使用不同的表达方式进行表示，随后将所有语义相同但表达不同的问句均对应同一答句，按此方式构造训练样本集。

优选地，S3具体包括如下步骤：对训练样本集进行预处理，使用Word embedding将抽象的语言文字表示成固定维度的向量，该向量可捕捉当前词语在本句中上下文的信息。

优选地，所述对训练样本集进行预处理，具体包括如下步骤：用结巴分词器对样本集中的句子分词处理并去除停用词和噪声词，生成语料库，随后根据语料库把词语数字化。

优选地，S4具体包括如下步骤：采用隐藏状态可逆计算策略，将处理好的样本数据输入GRU双向循环神经网络模型中进行训练，经过多次迭代训练，获得最佳的网络模型参数，最终获得语义分析模型。

优选地，S4中所述GRU双向循环神经网络模型，包括输入层，隐藏层，输出层；

所述的输入层的输入为用Word embedding表征的一定维度的词向量；

所述的隐藏层由多个GRU单元从正反两个方向级联而成，所述GRU单元由更新门和重置门组成；

所述的输出层使用softmax函数对记忆单元的输出进行处理，softmax公式为

其中，z_i为softmax函数输入值，y_i为经过softmax层的输出值。

优选地，S5中所述优化策略包括：设置超参数、引入正则化，以及对所述语义分析模型进行多次迭代训练并更新权重、使其误差达到预设的误差范围之内。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明提供了一种面向智能客服对话场景的语义分析方法，该方法可以在无人工参与的情况下自动地从语义分析的层次出发真正实现理解用户意图的目的，从而及时且准确的给予用户准确的回复。此外，本发明的方法通过采用隐藏状态可逆计算的Bi-GRU技术，减少了神经网络训练的记忆需求，在降低激活内存成本的同时实现了与传统模型相当的性能。

本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于其他与对话语义分析方法相关的技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的语义分析总体流程图；

图2为本发明的RevBi-GRU模型训练流程图

图3为本发明的Bi-GRU语义分析单元结构框图。

具体实施方式

如图1～图3所示，本发明揭示了一种面向智能客服对话场景的语义分析方法，包括如下步骤：

S1、获取某一智能客服场景下所涉及产品的相关文本信息，并以问答的形式形成对话知识库。具体如下，

全方位获取某一智能客服场景中所涉及产品的全部相关文本信息，搜集该场景下以往用户的提问历史记录，所述历史记录包括各类问题及相关文本信息，涉及问答、查询、闲聊等各方面的内容，根据已有问题编辑相应的答句或根据答句编辑相应的问句，以上述问答形式构成一个尽可能详尽的对话知识库。

所述相关文本信息包括该智能客服所服务平台的介绍，使用方法、流程以及使用过程中常见的问题等信息。

S2、将对话知识库进行扩展，使每一答句均对应多种不同表达形式的问句，并以此形式形成训练样本集。具体如下：

对所述对话知识库中的问句分别使用不同的表达方式进行表示，或长或短，或主动或被动，随后将所有语义相同但表达不同的问句均对应同一答句，按此方式构造训练样本集。

S3、提取语义特征，将训练样本集由抽象的文本转化为低纬度密集型的向量化表示。具体如下：

对训练样本集进行预处理，使用Word embedding将抽象的语言文字表示成固定维度的向量，该向量可捕捉当前词语在本句中上下文的信息。

所述对训练样本集进行预处理，包括：使用结巴分词器对样本集中的句子分词处理并去除停用词和噪声词，生成语料库，随后根据语料库把词语数字化。

S4、采用隐藏状态可逆计算策略构建基于GRU双向循环神经网络模型并训练，获得语义分析模型。具体如下：

S41、构建RevBi-GRU语义分析模型结构，

其中，所述的隐藏状态可逆计算策略是神经网络的hidden-to-hidden的过渡可以被逆转，隐藏状态不需要全部存储，只需要在训练期间给定时间将一种隐藏状态存储在内存中，需要是便可重构，这在一定程度上节省了内存的消耗；此外，Bi-GRU神经网络输入层神经元的个数为输出词向量的维数，隐藏层由正反两个方向的GRU单元级联而成，可以根据上下文信息自动地提取文本的语义特征，进行语义分析。

为了使GRU更新可逆，我们将隐藏状态h分为两组，h＝[h1；h2]。使用以下规则更新这些组：

[z₁ ^(t)；r₁ ^(t)]＝σ(w₁[x^(t)；h₂ ^(t-1)])[z₂ ^(t)；r₂ ^(t)]＝σ(w₂[x^(t)；h₁ ^(t)])，

g₁ ^(t)＝tanh(u₁[x^(t)；r₁ ^(t)⊙h₂ ^(t-1)])g₂ ^(t)＝tanh(u₂[x^(t)；r₂ ^(t)⊙h₁ ^(t)])，

h₁ ^(t)＝z₁ ^(t)⊙h₁ ^(t-1)+(1-z₁ ^(t))⊙g₁ ^(t)h₂ ^(t)＝z₂ ^(t)⊙h₂ ^(t-1)+(1-z₂ ^(t))⊙g₂ ^(t)，

之后，使用以下公式重构之前的隐藏状态：

所述的GRU单元是由更新门和重置门组成，这两个门均由Sigmoid函数控制，可有选择性的控制信息流的传递，Sigmoid函数为：

S41、训练语义分析模型参数，

将处理好的样本数据输入GRU双向循环神经网络模型中进行训练，经过多次迭代训练，获得最佳的网络模型参数，最终获得语义分析模型。

在训练过程中当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重，误差反向传播算法将误差逐级反向传播分摊到各层的所有神经元，获得各层神经元的误差信号，进而修正各神经元的权重。通过向前算法逐层传输运算数据，并通过向后算法来逐渐修改各神经元的权重的过程就是神经网络的训练过程；重复上述过程，直到预测结果的正确率达到设定的阈值，停止训练，

在训练分类器的参数时采用梯度下降法，参数的更新公式如下：

其中，为学习率一般取较小的值。

模型训练完成后，使用测试集验证模型的准确率，根据实际情况，设置合适的超参数、引入正则化。对所述语义分析模型进行多次迭代训练并更新权重、使其误差达到预设的误差范围之内并且具有较好的泛化性能。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种面向智能客服对话场景的语义分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面向智能客服对话场景的语义分析方法，其特征在于，S1具体包括如下步骤：

3.根据权利要求1或2任一所述的面向智能客服对话场景的语义分析方法，其特征在于：所述相关文本信息包括该智能客服所服务平台的介绍，使用方法、流程以及使用过程中常见的问题。

4.根据权利要求1所述的面向智能客服对话场景的语义分析方法，其特征在于，S2具体包括如下步骤：对所述对话知识库中的问句分别使用不同的表达方式进行表示，随后将所有语义相同但表达不同的问句均对应同一答句，按此方式构造训练样本集。

5.根据权利要求1所述的面向智能客服对话场景的语义分析方法，其特征在于，S3具体包括如下步骤：对训练样本集进行预处理，使用Word embedding将抽象的语言文字表示成固定维度的向量，该向量可捕捉当前词语在本句中上下文的信息。

6.根据权利要求5所述的面向智能客服对话场景的语义分析方法，其特征在于，所述对训练样本集进行预处理，具体包括如下步骤：用结巴分词器对样本集中的句子分词处理并去除停用词和噪声词，生成语料库，随后根据语料库把词语数字化。

7.根据权利要求1所述的面向智能客服对话场景的语义分析方法，其特征在于，S4具体包括如下步骤：采用隐藏状态可逆计算策略，将处理好的样本数据输入GRU双向循环神经网络模型中进行训练，经过多次迭代训练，获得最佳的网络模型参数，最终获得语义分析模型。

8.根据权利要求1所述的面向智能客服对话场景的语义分析方法，其特征在于：S4中所述GRU双向循环神经网络模型，包括输入层，隐藏层，输出层；

其中，z_i为softmax函数输入值，y_i为经过softmax层的输出值。

9.根据权利要求1所述的面向智能客服对话场景的语义分析方法，其特征在于，S5中所述优化策略包括：设置超参数、引入正则化，以及对所述语义分析模型进行多次迭代训练并更新权重、使其误差达到预设的误差范围之内。