CN109918491B

CN109918491B - 一种基于知识库自学习的智能客服问句匹配方法

Info

Publication number: CN109918491B
Application number: CN201910186580.0A
Authority: CN
Inventors: 房海朔; 殷亚云
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2022-07-29
Anticipated expiration: 2039-03-12
Also published as: CN109918491A

Abstract

本发明公开了一种基于知识库自学习的智能客服问句匹配方法，所述问句匹配方法包括知识库构建，语义表征学习及语义向量匹配三个部分；知识库由不同问题的多种相似问句组成，语义表征学习部分，由输入层，语义表征层，相似度计算层，间隔分类层组成，此部分利用分类任务和margin‑loss函数完成语义向量的表征学习和匹配排序，语义向量匹配部分，根据语义表征学习部分的语意表征层，提取出用户问题的语义向量和知识库的语义向量，计算相似度，按照相似度排序，返回相似度最高的N个知识库问题作为最后的匹配结果。本发明极大的提高了智能客服问句匹配的准确率，实现基于知识库的自学习，降低了人工标注的工作量，提高了工作效率和智能客服的回复满意度。

Description

一种基于知识库自学习的智能客服问句匹配方法

技术领域

本发明涉及句子匹配领域，特别涉及一种基于知识库自学习的智能客服问句匹配方法。

背景技术

检索式智能客服问句匹配最核心的问题是如何进行问句的向量表征和如何从海量的知识库中检索出与用户问句最为相似的问句。目前，采用较为广泛的方式有两种，一种是预训练词向量，对输入问句进行分词，然后提取关键词，依据关键词的词性、词序等对关键词的词向量进行人工加权，利用加权后的词向量表征输入问句，并且和知识库中的问句进行相似度计算，返回相似度最高的问句作为最后的匹配结果。

然而,此方法存在的问题是针对语义相似、表述灵活的句子计算效果差，权重因需要人工调试，经常会出现顾此失彼的情况，语义表征能力弱且没有办法表征预训练词典中未登录的词语。另一种方法是引入深度学习进行表征学习，最常见的是利用孪生网络(Siamese Network)判别输入的两句话是否相似，从而进行二分类的学习，但此种方法在训练时只能成对的判别学习，所以难以构建覆盖范围广泛的负样本。在实际检索匹配时，会出现较多训练学习中并未见过的负样本，导致匹配结果不准确。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，本发明提出一种基于知识库自学习的智能客服问句匹配方法，不需要成对的判别两句话是否相似，从而避免构建负样本，用分类任务作为抽取语义表征的手段，直接利用问答知识库作为学习样本，学习问答知识库中各问题及用户问题的语义向量，同时采用间隔损失函数(margin loss)作为优化目标，缩小各类别边界，避免出现有些样本虽属同一类，但是向量空间的距离较远的问题，在检索匹配时，保证匹配度最高的样本都是同一类，大大提高匹配准确率。本发明方法基于字进行学习，无需进行分词，同时消除了人工标注环节，利用间隔分类的方法解决匹配排序的问题，在方便维护的同时提高准确度。

本发明的技术方案是：一种基于知识库自学习的智能客服问句匹配方法，包括知识库构建、语义表征学习及句向量匹配三个步骤，具体如下：

步骤S1：知识库构建；构建一个用于智能客服的知识库，所述知识库用于存放问答知识数据，所述问答知识数据存放在数据表内，所述数据表的格式为一行包含一种问题，所述每一种问题都会有一个标准问题和至少一个对应的相似问题；

步骤S2：语义表征模型的构建及学习；包括步骤S2-1：根据构建的知识库制作学习样本，将知识库中每一种问题作为一个类别，即每个类别由一个标准问题和至少一个对应的相似问题组成，统计出知识库中的所有类别；步骤S2-2：构建一个包含依次相连的输入层、语义表征层、相似度计算层、间隔分类层的语义表征模型；并将步骤S2-1的学习样本输入语义表征模型中进行学习后，取语义表征层输出的语义向量作为对每一个问题的表征。

步骤S3：句向量匹配：利用步骤S2学习好的语义表征模型进行语义向量匹配，具体包括:

步骤S3-1：将知识库中的所有问句，输进语义表征模型，取出语义表征层的语义向量；

步骤S3-2：将用户问句，输进语义表征模型，取出语义表征层的语义向量；

步骤S3-3：将步骤S3-2)的用户问题的语义向量和步骤S3-1)的知识库问句的语义向量进行点乘，计算用户问题和知识库中的每个问题的余弦相似度；

步骤S3-4：排序步骤S3-3)的结果，取TopN作为最终的匹配结果。

所述步骤S2-2的语义表征模型的学习过程包括：

步骤S2-2-1：将学习样本按字输入进模型输入层，将学习样本随机初始化N*D维的字向量表，其中N为训练样本中所有字的数量，D表示向量的维度，查找字向量表，将学习样本中每个字映射为D维向量；

步骤S2-2-2：语义表征层接收步骤S2-3)的字向量，利用多层双向LSTM和注意力机制进行语义特征提取，得到各样本的语义向量；

步骤S2-2-3：相似度计算层：随机初始化M*H维的类别中心向量，其中M表示知识库中问题的类别数，H表示向量的维度，接受步骤S2-2-2各个样本的语义向量，计算各样本和各类别中心间的余弦距离；

步骤S2-2-4：间隔分类层：在步骤S2-2-3的余弦距离的基础上加上一个间隔距离(margin)，优化间隔损失函数(margin-loss)，使得每个类内样本和其类别中心的余弦距离最小且和其他类别中心的余弦距离最大。

所述语义表征模型的语义表征层利用多层双向LSTM和注意力机制(attention机制)，其中双向LSTM用于提取出句子的语序特征和语义特征，attention机制用于对句子中不同的词进行加权，最终输出学习样本的语义向量；

所述attention机制为：

attention＝soft max(tanh(wv+b)u)

output＝∑attention×v

其中，v表示双向LSTM的输出，w表示全连接层的权重，b表示全连接层的偏置，u表示attention层的权重,ouput为最终的输出结果。

所述语义表征模型的相似度计算层的计算方法是指：初始化M*H维的类别中心向量，其中M表示知识库中问题的类别数，H表示向量的维度；将每个类别中心向量除以其模，得到类别中心单位向量；将语义表征层的输出向量除以其模，得到学习样本单位向量；将类别中心单位向量和样本单位向量点乘，即可得到学习样本和每个类别中心的余弦距离(即余弦相似度)。

所述语义表征层为二层biLSTM+attention，所述语义表征模型的间隔分类层接受相似度计算层输出的相似度矩阵，将分类任务的loss函数设定为margin-loss的交叉熵函数，具体如下：

其中，i代表第i个类别，n表示类别总数，Margin设置为0.35，s为比例放大系数，设置为30，α_i表示相似度计算层的输出，即样本和类别i之间的余弦相似度。

通过优化margin-loss函数，即可达到每个类别类内样本和其类别中心的余弦距离最小且和其他类别中心的余弦距离最大的效果，解决向量空间中两个向量相近但不一定属于同一类别的问题。

本发明所达到的有益效果:

1.本方法仅需使用知识库即可进行自主学习，而不需要额外的人工标注，既减少了人工标注的工作量也提高了问句匹配的准确性；

2.本发明采用多层深度模型和attention机制进行语义表征学习，较大的提高了语意表征的能力，提高了语意相似，表述灵活句子的匹配准确率；

3.本发明采用间隔分类的思想，借用分类任务学习语义向量表征，通过间隔损失函数(margin-loss)解决向量匹配排序问题，增强了模型的实际业务场景下的可行性和适用性；

4.本发明中创建的模型是基于字进行学习，无需进行分词，也就不需要预训练词向量，可以解决预训练词典中未登录词的问题；

5.随着知识库的不断扩充和维护，模型的准确率和召回率可以不断的得到提升，并到达和保持在一个高可用的水准上。

附图说明

图1为本发明的示例性实施例的方法流程图；

图2为本发明的示例性实施例中的模型结构图；

图3为本发明的示例性实施例中的知识库示例。

具体实施方式

一种基于知识库自学习的智能客服问句匹配方法，包括知识库构建，语义表征学习及语义向量匹配三个步骤，具体如下：

S1：知识库构建；构建一个用于智能客服的知识库，所述知识库用于存放问答知识数据，所述问答知识数据存放在数据表内，所述数据表的格式为一行包含一种问题，所述每一种问题都会有一个标准问题和至少一个对应的相似问题

S2-1：根据构建的知识库制作学习样本，将知识库中每一种问题作为一个类别，每个类别由一个标准问题和至少一个对应的相似问题组成，统计出知识库中的所有类别；

S2-2：构建一个包含输入层、语义表征层、相似度计算层、间隔分类层的语义表征模型；并将步骤S2-1的学习样本输入语义表征模型中进行学习后，取语义表征层输出的语义向量作为对每一个问题的表征，具体包括：

步骤S2-2-3：相似度计算层：随机初始化M*H维的类别中心向量，其中M表示知识库中问题的类别数，H表示向量的维度，接受步骤步骤S2-2-2各个样本的语义向量，计算各样本和各类别中心间的余弦距离；

步骤S2-2-4：间隔分类层：在步骤S2-2-3的余弦距离的基础上加上一个间隔距离(margin)，优化间隔损失函数(margin-loss)，使得每个类内样本和其类别中心的余弦距离最小且和其他类别中心的余弦距离最大，解决向量空间中两个向量余弦距离接近，但可能不属同一个类别的问题，即利用间隔分类的方法解决向量匹配排序的问题；

步骤S3：利用步骤S2学习好的语义表征模型进行语义向量匹配，具体包括:

S3-1：将知识库中的所有问句，输进语义表征模型，对知识库中的所有问句进行语义表征，并按照步骤S2-2-2取出语义表征层的语义向量；

S3-2：将用户问句，输进语义表征模型，对用户的问题进行语义表征，并按照步骤S2-2-2 取出语义表征层的语义向量；

S3-3：将步骤S3-2)的用户问题的语义向量和步骤S3-1)的知识库问句的语义向量进行点乘，计算用户问题和知识库中的每个问题的余弦相似度；

S3-4：排序步骤S3-3)的结果，取TopN作为最终的匹配结果；

特别地，所述语义表征模型的语义表征层利用多层双向LSTM和注意力机制(以下称 attention机制)，其中双向LSTM用于提取出句子的语序特征和语义特征，attention机制用于对句子中不同的词进行加权，最终输出学习样本的语义向量；

所述attention机制为：

attention＝soft max(tanh(wv+b)u)

output＝∑attention×v

特别地，所述语义表征模型的相似度计算层的计算方法是指：初始化M*H维的类别中心向量，其中M表示知识库中问题的类别数，H表示向量的维度；将每个类别中心向量除以其模，得到类别中心单位向量；将语义表征层的输出向量除以其模，得到学习样本单位向量；将类别中心单位向量和样本单位向量点乘，即可得到学习样本和每个类别中心的余弦距离(即余弦相似度)。

特别地，所述语义表征模型的间隔分类层接受相似度计算层输出的相似度矩阵，将分类任务的loss函数设定为margin-loss的交叉熵函数，具体如下：

其中，i代表第i个类别，n表示类别总数。Margin的设置是为了将每个类别尽可能的分开，设置为0.35，s为比例放大系数，为了能够充分发挥以e为底的指数函数的放大效果，设置为30，α_i表示相似度计算层的输出，即样本和类别i之间的余弦相似度。

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本实例提供的一种基于知识库自学习的智能客服问句匹配方法包括以下步骤：

步骤101：构建智能客服的问答知识库，其格式为一行包含一种问题，每一种问题包含一个标准问题和多个对应的相似问题，如图3所示。

步骤102：根据构建好的知识库，制作学习样本，以用于模型学习，每一种问题为一个类别，每个类别下面包含一个标准问题和多个对应的相似问题。其他方法都需要制作负样本，而本方法只需要有一个知识库就好，而知识库是智能客服必不可少的一部分，所以不要再花人力。

步骤103：搭建语义表征模型，语义表征模型包含输入层，语义表征层，相似度计算层，间隔分类层。

本发明实施例采用二层biLSTM+attention作为语意表征层，通过二层biLSTM提取出句子的语序特征和语义特征，通过attention机制对句子中不同的词进行加权，从而进行更好的表征。

本发明实施例采用余弦相似度作为相似度计算层的计算标准，余弦相似度可以较好的衡量两个向量之间的相关性。对于间隔分类层，本实例采用margin-loss(间隔损失函数)作为损失函数，解决向量空间中两个向量余弦距离接近，但可能不属同一个类别的问题，即利用间隔分类的方法解决向量匹配排序的问题，这样可以较好地将每个类别在向量空间中尽可能的分开，有利于语义向量的表征以及相似度计算的排序，Margin的设置是为了将每个类别尽可能的分开，设置为0.35，s为比例放大系数，为了能够充分发挥以e为底的指数函数的放大效果，设置为30。α_i表示相似度计算层的输出，即样本和类别i之间的余弦相似度。

步骤104：将步骤102构建好的学习样本输入进步骤103构建好的语义表征模型，进行分类学习。

分类学习是语义表征的学习手段，其目的并不是利用学习好的模型去预测用户问题属于哪个类别，而是取出模型中的语意表征层的输出作为语义向量，从而可以计算用户问题和知识库中问题的相似度。

步骤105将知识库输入步骤104训练好的模型，取出其中语意表征层的输出作为语义向量，同样，输入用户问题得到语意表征层的语义向量。

步骤106计算用户问题的语义向量和知识库中所有问题的语义向量之间的余弦相似度，取相似度最高的5个问题作为最终的匹配结果。

本步骤中，虽然取出了前5个问题作为最终匹配结果，但并不一定要取出5个问题，可以根据实际需求进行调整。

如图2所示，语义表征模型的结构如下：

步骤201初始化学习样本中所有字的字向量，形成字向量表，将输入文本映射为向量，作为输入层。

步骤202构建一个语意表征层，接受来自输入层的字向量。本实例采用的两层Bi-LSTM 和attention作为语意表征层，但是不限于LSTM网络，例如GRU，transformer,BERT等结构都适用。

步骤203构建一个相似度计算层，在模型进行学习的时候，需要初始化一个M*H维的类别中心向量矩阵，M表示知识库中问题的种类，即类别数，H表示每个类别中心的向量维度。接受步骤202语意表征层的输出，并与类别中心向量计算余弦相似度，得到样本和所有类别中心的相似度。

步骤204接受步骤203的相似度矩阵，根据分类任务，采用margin-loss进行学习训练，训练好模型后，只需取出语意表征层的输出作为语义向量进行使用。

本发明所达到的有益效果:

3.本发明采用间隔分类的思想，借用分类任务学习语义向量表征，通过间隔损失函数 (margin-loss)解决向量匹配排序问题，增强了模型的实际业务场景下的可行性和适用性；

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于知识库自学习的智能客服问句匹配方法，其特征在于，包括知识库构建、语义表征学习及句向量匹配三个步骤，具体如下：

步骤S1：知识库构建；构建一个用于智能客服的知识库，所述知识库用于存放问答知识数据，所述问答知识数据存放在数据表内，所述数据表的格式为一行包含一种问题，每一种问题都会有一个标准问题和至少一个对应的相似问题；

步骤S2：语义表征模型的构建及学习；包括步骤S2-1：根据构建的知识库制作学习样本，将知识库中每一种问题作为一个类别，即每个类别由一个标准问题和至少一个对应的相似问题组成，统计出知识库中的所有类别；步骤S2-2：构建一个包含依次相连的输入层、语义表征层、相似度计算层、间隔分类层的语义表征模型；并将步骤S2-1的学习样本输入语义表征模型中进行学习后，取语义表征层输出的语义向量作为对每一个问题的表征；

所述步骤S2-2的语义表征模型的学习过程包括：

步骤S2-2-2：语义表征层接收步骤S2-2-1的字向量，利用多层双向LSTM和注意力机制进行语义特征提取，得到各样本的语义向量；

步骤S2-2-4：间隔分类层：在步骤S2-2-3的余弦距离的基础上加上一个间隔距离，优化间隔损失函数，使得每个类内样本和其类别中心的余弦距离最小且和其他类别中心的余弦距离最大；

步骤S3-3：将步骤S3-2的用户问题的语义向量和步骤S3-1的知识库问句的语义向量进行点乘，计算用户问题和知识库中的每个问题的余弦相似度；

步骤S3-4：排序步骤S3-3的结果，取TopN作为最终的匹配结果。

2.根据权利要求1所述的一种基于知识库自学习的智能客服问句匹配方法，其特征在于，所述语义表征模型的语义表征层利用多层双向LSTM和注意力机制，其中双向LSTM用于提取出句子的语序特征和语义特征，attention机制用于对句子中不同的词进行加权，最终输出学习样本的语义向量；

所述attention机制为：

attention＝softmax(tanh(wv+b)u)

output＝∑attention×v

其中，v表示双向LSTM的输出，w表示全连接层的权重，b表示全连接层的偏置，u表示attention层的权重，ouput为最终的输出结果。

3.根据权利要求2所述一种基于知识库自学习的智能客服问句匹配方法，其特征在于，所述语义表征模型的相似度计算层的计算方法是指：初始化M*H维的类别中心向量，其中M表示知识库中问题的类别数，H表示向量的维度；将每个类别中心向量除以其模，得到类别中心单位向量；将语义表征层的输出向量除以其模，得到学习样本单位向量；将类别中心单位向量和样本单位向量点乘，即可得到学习样本和每个类别中心的余弦距离。

4.根据权利要求3所述一种基于知识库自学习的智能客服问句匹配方法，其特征在于，所述语义表征层为二层biLSTM+attention，所述语义表征模型的间隔分类层接受相似度计算层输出的相似度矩阵，将分类任务的loss函数设定为margin-loss的交叉熵函数，具体如下：