CN113868415A

CN113868415A - 知识库的生成方法、装置、存储介质及电子设备

Info

Publication number: CN113868415A
Application number: CN202111022168.9A
Authority: CN
Inventors: 刘澈; 王睿; 刘京华; 孙健
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-31

Abstract

本申请公开了一种知识库的生成方法、装置、存储介质及电子设备。其中，该方法包括：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。本申请解决了现有技术中的知识库构建方式，导致增加知识库的构建成本以及减缓知识库的构建速度的技术问题。

Description

知识库的生成方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种知识库的生成方法、装置、存储介质及电子设备。

背景技术

智能客服机器人在客服领域应用越来越广泛，改善消费者的服务体验的同时为企业节省了人力成本并创造了利润。

通过对消费者可能提出的问题进行梳理并标注一套语义识别数据库，也称知识库，知识库的数据规模和数据质量对于基于深度学习的语义模型学习到正确的参数具有十分重要的意义，因此业界常常投入大量的人力成本来投入知识库的构建和维护，这不仅极大的增加了智能客服机器人的知识库的构建成本，也会极大的减缓知识库的构建速度。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种知识库的生成方法、装置、存储介质及电子设备，以至少解决现有技术中的知识库构建方式，导致增加知识库的构建成本以及减缓知识库的构建速度的技术问题。

根据本申请实施例的一个方面，提供了一种知识库的生成方法，包括：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

根据本申请实施例的另一方面，还提供了一种知识库的生成装置，包括：获取模块，用于获得多个客户方语句的语义表示；聚类模块，用于对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；配置模块，用于为每个知识点配置相应的目标答案；生成模块，用于根据上述知识点与目标答案的对应关系，生成知识库。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行任意一项上述知识库的生成方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

在本申请实施例中，通过获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。容易注意到的是，本申请实施例提出一种从客户与客服对话数据中构建知识库的通用方法，通过获取客户与客服在沟通过程中的多个客户方语句的语义表示，再将多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点，为每个知识点配置相应的目标答案，最终基于知识点与目标答案的对应关系生成知识库。

由于具备构建智能客服机器人需求的企业通常掌握大量的客户与客服对话数据，因此通过上述方式构建可以利用大量的人人对话历史数据，并极大的减少知识库的构建成本，进而达到了减少知识库的构建成本并提升知识库的构建速度的目的，从而实现了提升使用知识库为用户提供客服服务的服务效率的技术效果，进而解决了现有技术中的知识库构建方式，导致增加知识库的构建成本以及减缓知识库的构建速度的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现知识库的生成方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种知识库的生成方法的示意图；

图3是根据本申请实施例的一种可选的知识库的生成方法的示意图；

图4是根据本申请实施例的一种可选的知识库的生成方法的示意图；

图5是根据本申请实施例的一种知识库的生成装置的结构示意图；

图6是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

训练集、验证集、测试集：从同一份数据中随机划分的三个具有相同形式的数据集，分别用来训练模型、在训练过程中验证模型效果并挑选最优模型和测试最终模型效果。

知识库(Knowledge Base)：是指一种用于训练智能机器人的语义识别标注数据库，通常由多个标准知识点和相应的标准答案组成，每个知识点包含一个或多个相似问。

聚类(Clustering)：是指通过无监督学习的方式，将数据按不同维度的相似性进行度量，并将相似的数据聚成一个簇。在本申请的方法中，聚类用于将语义相似的客户问题聚成一个簇，并将该簇作为一个知识点参与到构建知识库的过程中。

语义识别模型：是指一种根据知识库数据训练得到的深度学习模型，用于在线服务时估计客户问题属于哪个知识点，从而返回客户所需答案。

句向量表示模型：是指将一个句子转换为一个分布式向量，从而对句子进行表示的模型。分布式向量可视为句子的唯一的、通用句子语义表示结果。

近年来，基于深度学习为代表的统计学习方法在数据挖掘领域体现出巨大的性能优势，相比通过人力梳理知识库的方式，基于深度学习的方法通常通过从数据中自动构建知识库的方式来替代。但是，由于缺乏相关的研究，从哪种数据、以何种方式构建知识库一直没有成熟的方法。

本申请的发明人通过研究发现，建立智能客服机器人的一个必备条件是训练一个基于深度学习的语义识别模型，通过对消费者可能提出的问题进行梳理并标注一套语义识别数据库，也称知识库，并使用该知识库对智能客服机器人中的语义模型进行训练，从而使模型具备客服服务过程中与客户进行对话的能力。

现有技术中尚无成熟的知识库自动构建方案，主要原因是现有方案均没有考虑到构建一个通用句向量表示模型来从客户与客服的大量对话数据中学习通用的句子语义表示，这导致大部分方案无法赋予句子良好的句向量，从而导致语义簇聚类效果达不到知识库基本要求。另外在构建知识库过程中，也没有考虑到从知识点的层面上进行知识点合并，从而导致知识库有较多的重复知识点，进而会影响语义识别效果。

基于此，本申请实施例提供了如下的知识库的生成方法、装置、存储介质、电子设备等实施例。

实施例1

根据本申请实施例，提供了一种知识库的生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现知识库的生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的知识库的生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的知识库的生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的一种知识库的生成方法。图2是根据本申请实施例的一种知识库的生成方法的流程图，如图2所示，上述方法可以通过如下步骤实现：

步骤S202，获得多个客户方语句的语义表示；

步骤S204，对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；

步骤S206，为每个知识点配置相应的目标答案；

步骤S208，根据上述知识点与目标答案的对应关系，生成知识库。基于原始数据对初始句向量表示模型进行训练，得到目标句向量表示模型；

在本申请实施例中，通过获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

容易注意到的是，本申请实施例提出一种从客户与客服对话数据中构建知识库的通用方法，通过获取客户与客服在沟通过程中的多个客户方语句的语义表示，再将多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点，为每个知识点配置相应的目标答案，最终基于知识点与目标答案的对应关系生成知识库。

作为一种可选的实施例，本申请实施例所提供的知识库的生成方法实施例，可以但不限于应用于智能对话领域中，例如，智能客服机器人、聊天机器人，再例如百度UNIT、腾讯云小微等。

以智能对话场景为例，智能客服机器人是经由对话或文字进行交谈的计算机程序，能够作为客服方模拟人类对话，可以暂时性地让客户方认为他们和另一个真正的人类正在聊天的客户体验，当客户方抛出一个问题给智能客服机器人时，智能客服机器人从知识库中找到最贴切的目标答案，并及时回复给客户方，在本申请实施例中，还可以将当前流行的网络用语加入知识库中，当客户方发送的词组、句子等内容被知识库识别得到对应的目标答案后，智能客服机器人直接通过算法将预先设定的目标答案反馈给客户方。

可选的，本申请实施例中，可以采用任意一种聚类处理方法，对上述客户方句子语义表示进行多次聚类处理，例如，包括但不限于KMeans聚类算法、KMeans++聚类算法、GMM聚类算法(Gaussian Mixture Model)等。

作为一种可选的实施例，通过如下方式获得上述多个客户方语句的语义表示：将上述多个客户方语句输入目标句向量表示模型，上述目标句向量表示模型的输出为上述多个客户语句的语义表示；

其中，上述目标句向量表示模型基于原始数据对初始句向量表示模型进行训练后得到，上述原始数据为客户方与客服方之间的对话日志数据，上述对话日志数据包括：多个客户方语句和多个客服方语句。

可选的，本申请实施例中，上述初始句向量表示模型是一种通用句向量表示模型，即可采用任何一种句向量表示模型，例如，LSTM长短期记忆人工神经网络模型、Transformer、BERT、XLNET等机器翻译模型等。

可选的，上述原始数据为客户方与客服方之间的对话日志数据，上述对话日志数据包括：多个客户方语句和多个客服方语句。

可选的，上述对话日志数据可以为人人对话日志数据，即人与人之间进行对话得到的日志数据，例如，可以为客户方与客服方进行聊天对话得到的日志数据，该人人对话日志数据中包含：多个客户方语句和/或多个客服方语句。

作为一种可选的实施例，从考虑处理性能的角度出发，首次进行聚类处理时可以选择使用KMeans，即K均值聚类算法，二次聚类的处理流程图如图3所示，在准备好用于训练的人人对话日志数据之后，首先随机初始化待训练的初始句向量表示模型，该初始句向量表示模型根据输入的人人对话日志数据，同时优化客户方和客服方的分布式句子表示向量。在模型迭代训练收敛后，重新将所有客户方和客服方的句子送入模型中，得到最终的最优化通用分布式句子表示向量，之后通过KMeans聚类算法完成初级知识点构建。

在本申请实施例中，如图3所示的初级知识点构建方法可以采用任意一种聚类处理算法，包括但不限于：KMeans聚类算法、GMM聚类算法、DBScan聚类算法等。但由于人人对话日志通常包含大量的对话句子，并且初级知识点构建的目的是将大量通用句子表示分割为以语义簇单元，因此最适合的首次聚类算法为KMeans。

作为另一种可选的实施例，当初级知识点构建完成后，由于语义簇之间的距离并不均衡，例如，语义密集的高频客户问题处，语义簇之间的距离较小；而语义稀疏的低频问题处，语义簇之间的距离较大。因此，如图3所示，本申请实施例采用DBScan聚类算法对语义簇中心进行知识点级别的二次聚类和合并；当完成知识点级别合并后，再选取与知识点对应的标准答案，即构建得到一个完整的知识库。

需要说明的是，本申请实施例中，二次聚类算法同样可以采用(不限于)KMeans、Gaussian Mixture Model、DBScan等，但由于知识点级别合并的目的是将近邻的知识点合成一个，而近邻的知识点可能构成各种拓扑形式，并不一定满足两两近邻关系，因此最适合的聚类算法是DBScan聚类算法。

在一种可选的实施例中，如图4所示，上述基于原始数据对上述初始句向量表示模型进行训练包括：

步骤S302，基于上述原始数据获取样本数据；

步骤S304，将上述样本数据输入至上述初始句向量表示模型，输出预测结果；

步骤S306，将上述预测结果与标准结果进行比对，得到损失结果；

步骤S308，利用上述损失结果更新上述初始句向量表示模型的参数，得到上述目标句向量表示模型。

可选的，上述样本数据包括：训练集、验证集和测试集，在本申请实施例中，可以从原始数据中切分出样本数据：训练集、验证集和测试集，可选的，在将上述样本数据输入至上述初始句向量表示模型之前，还可以对上述样本数据进行常规的数据清洗处理，例如：数据匿名化、去停用词、分词等。

作为一种可选的实施例，初始句向量表示是构建知识库的基础，但是现有技术中的方法或是根据句子的词、tf-idf等特征进行句子表示，或是直接通过BERT、XLNET等模型抽取句向量，都忽略了使用大量人人对话日志对句子表示进行学习的潜力和效果。基于此，本申请实施例通过引入人人对话日志数据对客户方和客服方的句向量进行同时优化的方法，通过大规模的对话日志数据来训练或微调一个具备良好表现的初始句向量表示模型，借助大规模人人对话日志数据即可实现良好的句向量表示，得到目标句向量表示模型，从而使知识库自动构建得以实现。

在一种可选的实施例中，基于上述原始数据获取上述样本数据包括：

步骤S402，从上述原始数据中选取第一客服方语句和第二客服方语句；

步骤S404，获取与上述第一客服方语句关联的客户方上下文语句，其中，上述客户方上下文语句包括：客户方上文语句，和/或，客户方下文语句；

步骤S406，将上述客户方上下文语句，上述第一客服方语句和上述第二客服方语句确定为上述样本数据。

作为一种可选的实施例，需要将人人对话日志数据处理为句向量表示模型所需的形式，例如，可以将每一个人人对话日志数据以某个客服方的回答r(第一客服方语句)为中心，向前向后各取t个客户方的发言u，并以u作为r的客户方上下文语句。同时，在所有人人对话日志数据中随机抽取客服方的回答r’(第二客服方语句)，将上述客户方上下文语句，上述第一客服方语句和上述第二客服方语句确定为上述样本数据。

在上述可选的实施例中，本申请实施例通过将u、r、r’作为样本数据输入至初始句向量表示模型中训练，输出预测结果；再通过将上述预测结果与标准结果进行比对，得到损失结果；利用上述损失结果更新上述初始句向量表示模型的参数，得到上述目标句向量表示模型。

需要说明的是，上述初始句向量表示模型可以采用LSTM、Transformer、BERT、XLNET等实现，由于人人对话日志数据的数量通常较大，为了兼顾处理的效率和处理的速度，本申请实施例中采用LSTM网络模型对初始句向量表示模型进行训练，得到目标句向量表示模型。

在一种可选的实施例中，将上述样本数据输入至上述初始句向量表示模型，输出上述预测结果包括：

步骤S502，将上述样本数据转换为待使用的句子表示向量。

步骤S504，将上述多个上文句向量聚合为第三句向量，以及将上述多个下文句向量聚合为第四句向量；

步骤S506，对上述第三句向量、上述第四句向量和上述第一句向量进行拼接处理，得到第一拼接向量，以及对上述第三句向量、上述第四句向量和上述第二句向量进行拼接处理，得到第二拼接向量；

步骤S508，将上述第一拼接向量和上述第二拼接向量输入至上述初始句向量表示模型，输出上述预测结果。

上述步骤S502中，上述待使用的句子表示向量包括：上述客户方上文语句对应的多个上文句向量、上述客户方下文语句对应的多个下文句向量、上述第一客服方语句对应的第一句向量和上述第二客服方语句对应的第二句向量。

作为一种可选的实施例，在将u、r、r’一起送入初始句向量表示模型，激励通用句向量表示模型在r和r’中辨别正/负样本，从而同时优化u、r的句向量。例如，在训练模型的过程中，首先将u，r，r’同时通过一个编码器(encoder)模块转换为句子表示向量，再通过聚合操作将多个上文句向量聚合为一个上文句向量表示，并将多个下文句向量聚合为一个下文句向量表示，即将上述多个上文句向量聚合为第三句向量，以及将上述多个下文句向量聚合为第四句向量；再将第三句向量、第四句向量和r所对应的第一句向量拼接起来，得到第一拼接向量，并将第三句向量、上述第四句向量和r’所对应的第二句向量也拼接起来，得到第二拼接向量。

在本申请实施例中，在得到第一拼接向量和第二拼接向量之后，再将上述第一拼接向量和上述第二拼接向量输入至上述初始句向量表示模型的前馈神经网络(FFN)，输出上述预测结果，即正负样本预测结果，通过将该预测结果与标准结果比对，得到损失结果并利用上述损失结果更新上述初始句向量表示模型的参数，得到上述目标句向量表示模型。

在一种可选的实施例中，上述对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点包括：

步骤S602，对上述客户方句子语义表示进行首次聚类处理，得到第一聚类结果，其中，上述第一聚类结果包括：多个语义簇中每个语义簇的簇中心特征和每个客户方语句归属的语义簇；

步骤S604，对上述第一聚类结果进行二次聚类处理，得到第二聚类结果，其中，上述第二聚类结果包括：上述多个客户方语句中每个客户方语句归属的知识点。

可选的，上述首次聚类处理是指问题聚类处理，上述第二聚类处理是指知识点聚类处理。

在上述可选的实施例中，在训练得到目标句向量表示模型之后，首先将全部人人对话日志数据根据客户方和客服方的发言进行区分，并将客户方的句子送入目标句向量表示模型，通过抽取编码器(encoder)模块的输出，来获得客户方的句子语义表示。通过目标句向量表示模型对所有客户问题进行句向量抽取，在句向量的基础上进行问题聚类(首次聚类)和知识点聚类(二次聚类)，实现知识点自动构建、知识点合并，从而实现知识库自动构建。

作为一种可选的实施例，可以通过如下方式对客户句子语义表示进行两次聚类，在获取客户所有句子语义表示时，首先对所有句子进行一次语义中心聚类，本申请实施例中的首次聚类处理可以采用KMeans聚类方法，第一聚类处理结果包含每个语义簇的簇中心特征及每个句子所属的语义簇；再通过对语义簇中心进行二次聚类处理，得到第二聚类处理结果，本申请实施例中的二次聚类处理可以采用DBScan聚类方法，通过上述实施例，对知识点层级进行二次聚类和合并，得到知识点结构和每个客户问题所属的知识点。

在一种可选的实施例中，上述为每个知识点配置相应的目标答案包括：

步骤S702，获取上述多个语义簇中每个语义簇对应的最高频答案；

步骤S704，将上述最高频答案配置为上述目标答案。

作为一种可选的实施例，可以采用如下方式，为上述知识点配置对应的标准答案，即目标答案，生成知识库：当知识点和知识点所包含的客户问题自动构建完成后，需对每个知识点所对应的标准答案进行配置，以构建得到知识库，上述配置方法即可以是从人人对话日志数据中挖掘客户问题语义簇所对应的最高频答案作为标准答案，也可通过人工编写得到标准答案。

在一种可选的实施例中，上述知识库的生成方法还包括：

步骤S802，基于上述知识库对初始语义识别模型进行训练，得到目标语义识别模型；

步骤S804，获取待解答的客户方问题语句；

步骤S806，利用上述目标语义识别模型预测上述客户方问题语句对应的知识点；

步骤S808，反馈与预测知识点相适配的答案。

作为另一种可选的实施例，当初级知识点构建完成后，由于语义簇之间的距离并不均衡，例如，语义密集的高频客户问题处，语义簇之间的距离较小；而语义稀疏的低频问题处，语义簇之间的距离较大。因此，还可以基于上述知识库对初始语义识别模型进行训练，得到目标语义识别模型；但由于知识点级别合并的目的是将近邻的知识点合成一个，而近邻的知识点可能构成各种拓扑形式，并不一定满足两两近邻关系，因此在本申请提供的一种可选的实施例中，还可以获取待解答的客户方问题语句；利用上述目标语义识别模型预测上述客户方问题语句对应的知识点；当完成知识点级别合并后，反馈与预测知识点相适配的答案。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述知识库的生成方法的装置，图5是根据本申请实施例的一种知识库的生成装置的结构示意图，如图5所示，该装置包括：获取模块500、聚类模块502、配置模块504和生成模块506，其中：

获取模块500，用于获得多个客户方语句的语义表示；聚类模块502，用于对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；配置模块504，用于为每个知识点配置相应的目标答案；生成模块506，用于根据上述知识点与目标答案的对应关系，生成知识库。

此处需要说明的是，上述获取模块500、聚类模块502、配置模块504和生成模块506对应于实施例1中的步骤S202至步骤S208，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的优选实施方式可以参见方法实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种电子设备的实施例，该电子设备可以是计算设备群中的任意一个计算设备。该电子设备包括：处理器和存储器，其中：

处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

实施例4

根据本申请的实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的漏洞检测方法中以下步骤的程序代码：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

可选地，图6是根据本申请实施例的另一种计算机终端的结构框图，如图6所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器602、存储器604、以及外设接口606。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

可选的，上述处理器还可以执行如下步骤的程序代码：将上述多个客户方语句输入目标句向量表示模型，上述目标句向量表示模型的输出为上述多个客户语句的语义表示；其中，上述目标句向量表示模型基于原始数据对初始句向量表示模型进行训练后得到，上述原始数据为客户方与客服方之间的对话日志数据，上述对话日志数据包括：多个客户方语句和多个客服方语句。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述原始数据获取样本数据；将上述样本数据输入至上述初始句向量表示模型，输出预测结果；将上述预测结果与标准结果进行比对，得到损失结果；利用上述损失结果更新上述初始句向量表示模型的参数，得到上述目标句向量表示模型。

可选的，上述处理器还可以执行如下步骤的程序代码：从上述原始数据中选取第一客服方语句和第二客服方语句；获取与上述第一客服方语句关联的客户方上下文语句，其中，上述客户方上下文语句包括：客户方上文语句，和/或，客户方下文语句；将上述客户方上下文语句，上述第一客服方语句和上述第二客服方语句确定为上述样本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：将上述样本数据转换为待使用的句子表示向量，其中，上述待使用的句子表示向量包括：上述客户方上文语句对应的多个上文句向量、上述客户方下文语句对应的多个下文句向量、上述第一客服方语句对应的第一句向量和上述第二客服方语句对应的第二句向量；将上述多个上文句向量聚合为第三句向量，以及将上述多个下文句向量聚合为第四句向量；对上述第三句向量、上述第四句向量和上述第一句向量进行拼接处理，得到第一拼接向量，以及对上述第三句向量、上述第四句向量和上述第二句向量进行拼接处理，得到第二拼接向量；将上述第一拼接向量和上述第二拼接向量输入至上述初始句向量表示模型，输出上述预测结果。

可选的，上述处理器还可以执行如下步骤的程序代码：对上述客户方句子语义表示进行首次聚类处理，得到第一聚类结果，其中，上述第一聚类结果包括：多个语义簇中每个语义簇的簇中心特征和每个客户方语句归属的语义簇；对上述第一聚类结果进行二次聚类处理，得到第二聚类结果，其中，上述第二聚类结果包括：上述多个客户方语句中每个客户方语句归属的知识点。

可选的，上述处理器还可以执行如下步骤的程序代码：获取上述多个语义簇中每个语义簇对应的最高频答案；将上述最高频答案配置为上述目标答案。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述知识库对初始语义识别模型进行训练，得到目标语义识别模型；获取待解答的客户方问题语句；利用上述目标语义识别模型预测上述客户方问题语句对应的知识点；反馈与预测知识点相适配的答案。

采用本申请实施例，提供了一种知识库的生成方案。在本申请实施例中，通过获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。容易注意到的是，本申请实施例提出一种从客户与客服对话数据中构建知识库的通用方法，通过获取客户与客服在沟通过程中的多个客户方语句的语义表示，再将多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点，为每个知识点配置相应的目标答案，最终基于知识点与目标答案的对应关系生成知识库。

本领域普通技术人员可以理解，图6所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读非易失性存储介质中，非易失性存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质可以用于保存上述实施例1所提供的知识库的生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获得多个客户方语句的语义表示；对上述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；为每个知识点配置相应的目标答案；根据上述知识点与目标答案的对应关系，生成知识库。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将上述多个客户方语句输入目标句向量表示模型，上述目标句向量表示模型的输出为上述多个客户语句的语义表示；其中，上述目标句向量表示模型基于原始数据对初始句向量表示模型进行训练后得到，上述原始数据为客户方与客服方之间的对话日志数据，上述对话日志数据包括：多个客户方语句和多个客服方语句。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述原始数据获取样本数据；将上述样本数据输入至上述初始句向量表示模型，输出预测结果；将上述预测结果与标准结果进行比对，得到损失结果；利用上述损失结果更新上述初始句向量表示模型的参数，得到上述目标句向量表示模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从上述原始数据中选取第一客服方语句和第二客服方语句；获取与上述第一客服方语句关联的客户方上下文语句，其中，上述客户方上下文语句包括：客户方上文语句，和/或，客户方下文语句；将上述客户方上下文语句，上述第一客服方语句和上述第二客服方语句确定为上述样本数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将上述样本数据转换为待使用的句子表示向量，其中，上述待使用的句子表示向量包括：上述客户方上文语句对应的多个上文句向量、上述客户方下文语句对应的多个下文句向量、上述第一客服方语句对应的第一句向量和上述第二客服方语句对应的第二句向量；将上述多个上文句向量聚合为第三句向量，以及将上述多个下文句向量聚合为第四句向量；对上述第三句向量、上述第四句向量和上述第一句向量进行拼接处理，得到第一拼接向量，以及对上述第三句向量、上述第四句向量和上述第二句向量进行拼接处理，得到第二拼接向量；将上述第一拼接向量和上述第二拼接向量输入至上述初始句向量表示模型，输出上述预测结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对上述客户方句子语义表示进行首次聚类处理，得到第一聚类结果，其中，上述第一聚类结果包括：多个语义簇中每个语义簇的簇中心特征和每个客户方语句归属的语义簇；对上述第一聚类结果进行二次聚类处理，得到第二聚类结果，其中，上述第二聚类结果包括：上述多个客户方语句中每个客户方语句归属的知识点。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取上述多个语义簇中每个语义簇对应的最高频答案；将上述最高频答案配置为上述目标答案。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述知识库对初始语义识别模型进行训练，得到目标语义识别模型；获取待解答的客户方问题语句；利用上述目标语义识别模型预测上述客户方问题语句对应的知识点；反馈与预测知识点相适配的答案。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种知识库的生成方法，其特征在于，包括：

获得多个客户方语句的语义表示；

对所述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；

为每个知识点配置相应的目标答案；

根据所述知识点与目标答案的对应关系，生成知识库。

2.根据权利要求1所述的知识库的生成方法，其特征在于，通过如下方式获得所述多个客户方语句的语义表示：

将所述多个客户方语句输入目标句向量表示模型，所述目标句向量表示模型的输出为所述多个客户语句的语义表示；

其中，所述目标句向量表示模型基于原始数据对初始句向量表示模型进行训练后得到，所述原始数据为客户方与客服方之间的对话日志数据，所述对话日志数据包括：多个客户方语句和多个客服方语句。

3.根据权利要求2所述的知识库的生成方法，其特征在于，所述基于原始数据对所述初始句向量表示模型进行训练包括：

基于所述原始数据获取样本数据；

将所述样本数据输入至所述初始句向量表示模型，输出预测结果；

将所述预测结果与标准结果进行比对，得到损失结果；

利用所述损失结果更新所述初始句向量表示模型的参数，得到所述目标句向量表示模型。

4.根据权利要求3所述的知识库的生成方法，其特征在于，基于所述原始数据获取所述样本数据包括：

从所述原始数据中选取第一客服方语句和第二客服方语句；

获取与所述第一客服方语句关联的客户方上下文语句，其中，所述客户方上下文语句包括：客户方上文语句，和/或，客户方下文语句；

将所述客户方上下文语句，所述第一客服方语句和所述第二客服方语句确定为所述样本数据。

5.根据权利要求4所述的知识库的生成方法，其特征在于，将所述样本数据输入至所述初始句向量表示模型，输出所述预测结果包括：

将所述样本数据转换为待使用的句子表示向量，其中，所述待使用的句子表示向量包括：所述客户方上文语句对应的多个上文句向量、所述客户方下文语句对应的多个下文句向量、所述第一客服方语句对应的第一句向量和所述第二客服方语句对应的第二句向量；

将所述多个上文句向量聚合为第三句向量，以及将所述多个下文句向量聚合为第四句向量；

对所述第三句向量、所述第四句向量和所述第一句向量进行拼接处理，得到第一拼接向量，以及对所述第三句向量、所述第四句向量和所述第二句向量进行拼接处理，得到第二拼接向量；

将所述第一拼接向量和所述第二拼接向量输入至所述初始句向量表示模型，输出所述预测结果。

6.根据权利要求1所述的知识库的生成方法，其特征在于，所述对所述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点包括：

对所述客户方句子语义表示进行首次聚类处理，得到第一聚类结果，其中，所述第一聚类结果包括：多个语义簇中每个语义簇的簇中心特征和每个客户方语句归属的语义簇；

对所述第一聚类结果进行二次聚类处理，得到第二聚类结果，其中，所述第二聚类结果包括：所述多个客户方语句中每个客户方语句归属的知识点。

7.根据权利要求6所述的知识库的生成方法，其特征在于，所述为每个知识点配置相应的目标答案包括：

获取所述多个语义簇中每个语义簇对应的最高频答案；

将所述最高频答案配置为所述目标答案。

8.根据权利要求6所述的知识库的生成方法，其特征在于，所述知识库的生成方法还包括：

基于所述知识库对初始语义识别模型进行训练，得到目标语义识别模型；

获取待解答的客户方问题语句；

利用所述目标语义识别模型预测所述客户方问题语句对应的知识点；

反馈与预测知识点相适配的答案。

9.一种知识库的生成装置，其特征在于，包括：

获取模块，用于获得多个客户方语句的语义表示；

聚类模块，用于对所述多个客户方语句的语义表示进行聚类，得到每个客户方语句归属的知识点；

配置模块，用于为每个知识点配置相应的目标答案；

生成模块，用于根据所述知识点与目标答案的对应关系，生成知识库。

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至8中任意一项所述知识库的生成方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获得多个客户方语句的语义表示；

为每个知识点配置相应的目标答案；

根据所述知识点与目标答案的对应关系，生成知识库。