CN115374259A

CN115374259A - 一种问答数据挖掘方法、装置及电子设备

Info

Publication number: CN115374259A
Application number: CN202210730528.9A
Authority: CN
Inventors: 岳聪; 张赏; 汪洋; 赵伟朋
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-11-22

Abstract

本公开涉及一种问答数据挖掘方法、装置及电子设备，尤其涉及数据挖掘技术领域。包括：根据历史会话日志确定若干问题文本，以及若干问题文本中各个问题文本对应的答案预测文本；对若干问题文本进行聚类，确定目标问题簇，目标问题簇中包括若干问题文本中的多个问题文本，多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数；从若干答案预测文本中确定与多个问题文本对应的多个答案预测文本；从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本；将目标问题簇与目标答案预测文本对应存储。本公开实施例用于解决目前数据挖掘方式，数据挖掘结果重复，并且浪费存储资源的问题。

Description

一种问答数据挖掘方法、装置及电子设备

技术领域

本公开涉及数据挖掘技术领域，尤其涉及一种问答数据挖掘方法、装置及电子设备。

背景技术

目前为了提高客服机器人的理解能力和应答能力，需要对人工客服会话的数据挖掘，提取出问题-答案对，应用在线上的客服机器人问答中，来提升客服机器人回复用户问题时的整体表现。由于针对相同的商品，会存在多个用户问一些相似问题，而不同人工客服在回答这类相似问题时，回复文本往往不是完全一致的，在目前的数据挖掘方法中，针对这种情况可以能会将在每次遇到相似问题的情况下，都会提取相似问题和人工客服回答内容中的相应答案，这样会导致针对一些相似问题，存储了多组问题和答案对，这样的数据挖掘方式针对相似问题存储了大量含义相同或相似的答案，数据挖掘结果重复，并且浪费存储资源。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种数据挖掘方式存储大量含义相似的问题和答案对，数据挖掘结果重复，并且浪费存储资源，针对一些相似问题可以存储匹配度最高的答案预测文本，这样可以避免数据挖掘结果重复，节省存储资源。

为了实现上述目的，本公开实施例提供的技术方案如下：

第一方面，提供一种

问答数据挖掘方法，其特征在于，包括：

根据历史会话日志确定若干问题文本，以及所述若干问题文本中各个问题文本对应的答案预测文本；

对所述若干问题文本进行聚类，确定目标问题簇，所述目标问题簇中包括所述若干问题文本中的多个问题文本，所述多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数；

从所述若干答案预测文本中确定与所述多个问题文本对应的多个答案预测文本；

从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的目标答案预测文本；

将所述目标问题簇与所述目标答案预测文本对应存储。

作为本公开实施例一种可选的实施方式，所述从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的目标答案预测文本，包括：

将所述多个答案预测文本中的各个答案预测文本与所述多个问题文本中的各个问题文本，两两组合得到多个第一问答文本对，每个第一问答文本对中包括一个答案预测文本和一个问题文本；

将所述多个第一问答文本对中的各个第一问答文本对，分别输入问答匹配模型，获取所述问答匹配模型输出的所述各个第一问答文本对的匹配参数，所述匹配参数用于表征所述各个第一问答文本对的匹配度；

根据所述各个第一问答文本对的匹配参数，计算各个答案预测文本对应的所有问题文本对的所述匹配参数的平均值；

从所述多个答案预测文本中，确定最大平均值所对应的所述目标答案预测文本。

作为本公开实施例一种可选的实施方式，所述问答匹配模型为基于目标问答文本对数据对初始BERT模型预训练后得到的，所述目标问答文本对数据中包括多个第二问答文本对，每个第二问答文本对包括一个问题文本和一个答案文本；

其中，基于所述目标问答文本对数据对所述初始BERT模型进行预训练时的预训练任务包括以下至少一种：

掩码语言模型MLM任务、下一句预测NSP任务。

作为本公开实施例一种可选的实施方式，所述目标问答文本对数据包括：目标领域的问答文本对数据，和/或，任意领域的问答文本对数据。

从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的初始答案预测文本；

在所述初始答案预测文本为极性词的情况下，从目标问题文本中提取所述初始答案预测文本对应的主语和/或谓语，所述目标问题文本为所述初始答案预测文本所对应的问题文本；

基于所述主语和/或谓语，对所述初始答案预测文本进行答案补全，以得到所述目标答案预测文本。

将所述初始答案预测文本与拟人化模板文本拼接，以得到所述目标答案预测文本。

作为本公开实施例一种可选的实施方式，所述将所述目标问题簇与所述目标答案预测文本对应存储，包括：

在所述目标答案预测文本中不存在安全风险信息的情况下，将所述目标问题簇与所述目标答案预测文本对应存储；

所述安全风险信息包括：数字信息、金钱信息、时效信息中的至少一项。

作为本公开实施例一种可选的实施方式，所述根据历史会话日志确定若干问题文本，以及所述若干问题文本中各个问题文本对应的答案预测文本，包括：

从历史会话日志中确定所述若干问题文本，以及所述若干问题文本中各个问题文本对应的回复段落；

将所述各个问题文本和所述各个问题文本对应的回复段落，分别输入至目标BERT模型，获取所述目标BERT模型输出的所述若干问题文本中各个问题文本对应的答案预测文本；

其中，所述目标BERT模型为基于目标文本对数据对初始BERT 模型进行预训练后得到的模型，所述目标文本对数据包括多个文本对，每个文本对包括两个不同文本。

作为本公开实施例一种可选的实施方式，所述目标BERT模型对所述回复段落通过以下至少一种第一向量进行标注：

属性判断向量，用于表示所述回复段落中词是否为属性词；

是否类词语判断向量，用于表示所述回复段落中词是不是表示是或否的词语；

重复词判断向量，用于表示所述回复段落中词是否出现在对应的问题文本中。

作为本公开实施例一种可选的实施方式，所述从历史会话日志中确定所述若干问题文本，以及所述若干问题文本中各个问题文本对应的回复段落，包括：

根据目标对象分类对所述历史会话日志中的会话内容进行聚合，得到与所述目标对象分类对应的聚合会话内容；

从聚合会话内容中获取用户对应的第一问题文本；

从目标会话内容中获取客服对应的第一回复段落，作为所述第一问题文本对应的第一回复段落；

其中，所述目标会话内容为所述聚合会话内容中处于所述第一问题文本之后的会话内容，所述第一问题文本为所述若干问题文本中的任意问题文本。

第二方面，提供一种问答数据挖掘装置，包括：

提取模块，用于根据历史会话日志确定若干问题文本，以及所述若干问题文本中各个问题文本对应的答案预测文本；

聚类模块，用于对所述若干问题文本进行聚类，确定目标问题簇，所述目标问题簇中包括所述若干问题文本中的多个问题文本，所述多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数；

匹配模块，用于从所述若干答案预测文本中确定与所述多个问题文本对应的多个答案预测文本；

存储模块，用于将所述目标问题簇与所述目标答案预测文本对应存储。

作为本公开实施例一种可选的实施方式，所述匹配模块，具体用于：

掩码语言模型MLM任务、下一句预测NSP任务。

作为本公开实施例一种可选的实施方式，所述匹配模块包括：

答案匹配模块，用于从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的初始答案预测文本；

答案补全模块，用于在所述初始答案预测文本为极性词的情况下，从目标问题文本中提取所述初始答案预测文本对应的主语和/或谓语，所述目标问题文本为所述初始答案预测文本所对应的问题文本；基于所述主语和/或谓语，对所述初始答案预测文本进行答案补全，以得到所述目标答案预测文本。

答案模板拼接模块，用于将所述初始答案预测文本与拟人化模板文本拼接，以得到所述目标答案预测文本。

作为本公开实施例一种可选的实施方式，所述存储模块，具体用于：

作为本公开实施例一种可选的实施方式，所述提取模块，包括：

确定模块，用于从历史会话日志中确定所述若干问题文本，以及所述若干问题文本中各个问题文本对应的回复段落；

答案预测模块，用于将所述各个问题文本和所述各个问题文本对应的回复段落，分别输入至目标BERT模型，获取所述目标BERT模型输出的所述若干问题文本中各个问题文本对应的答案预测文本；

属性判断向量，用于表示所述回复段落中词是否为属性词；

作为本公开实施例一种可选的实施方式，所述确定模块，具体用于：

从聚合会话内容中获取用户对应的第一问题文本；

第三方面，提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的问答数据挖掘装置。

第四方面，提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的问答数据挖掘装置。

第五方面，提供一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的问答数据挖掘装置。

本公开实施例提供的问答数据挖掘方法、装置及电子设备，根据历史会话日志确定若干问题文本，以及若干问题文本中各个问题文本对应的答案预测文本；对若干问题文本进行聚类，确定目标问题簇，目标问题簇中包括若干问题文本中的多个问题文本，多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数；从若干答案预测文本中确定与多个问题文本对应的多个答案预测文本；从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本；将目标问题簇与目标答案预测文本对应存储。通过该方案，可以通过历史会话日志确定若干问题文本，以及若干答案预测文本，并将语义相似的多个问题文本聚类为目标问题簇，并针对目标问题簇中的所有问题，从多个问题文本中确定匹配度最高的目标答案预测文本，并将该目标答案预测文本作为该目标问题簇的答案存储，该问答数据挖掘方法，针对一些相似问题可以存储匹配度最高的答案预测文本，这样可以避免数据挖掘结果重复，节省存储资源。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的文本数据挖掘方法的一种实现示意图；

图2为本公开实施例提供的一种问答数据挖掘方法的流程示意图；

图3为本公开实施例提供的一种问题-答案库中存储数据的示意图；

图4为本公开实施例提供的另一种问答数据挖掘方法的流程示意图；

图5为本公开实施例提供的一种问答数据挖掘装置的结构框图；

图6为本公开实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，由于针对相同的商品，会存在多个用户问一些相似问题，而不同人工客服在回答这类相似问题时，回复文本往往不是完全一致的，在目前的数据挖掘方法中，针对这种情况可以能会将在每次遇到相似问题的情况下，都会提取相似问题和人工客服回答内容中的相应答案，这样会导致针对一些相似问题，存储了多组问题和答案对，这样的数据挖掘方式针对相似问题存储了大量含义相同或相似的答案，数据挖掘结果重复，并且浪费存储资源。

为了解决上述问题，本公开实施例提供了一种问答数据挖掘方法、装置及电子设备，针对一些相似问题可以存储匹配度最高的答案预测文本，这样可以避免数据挖掘结果重复，节省存储资源。

如图1所示，为本公开实施例提供的文本数据挖掘方法的一种实现示意图，该方法中会先获取用户和人工客服之间的历史会话日志，并且基于该历史会话日志和本公开实施例提供的问答数据挖掘方法进行数据挖掘，在历史会话日志中从得到若干问题和若干答案后，通过对相似问题进行聚类得到目标问题簇，并确定与目标问题簇匹配度最高的目标答案预测文本，将目标问题簇与目标答案预测文本对应存储。以便于后续客服机器人在于用户进行线上问答时使用。

本公开实施例中提供的问答数据挖掘方法，可以为通过问答数据挖掘装置或者电子设备实现，该问答数据挖掘装置可以为该电子设备中的功能模块或者功能实体。该电子设备包括但不限于：服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中，用户设备包括但不限于电脑、智能手机、平板电脑等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，计算机设备可单独运行来实现本公开，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本公开。其中，计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用(Virtual Private Network，VPN)网络等。

如图2所示，为本公开实施例提供的一种问答数据挖掘方法的流程示意图，该方法包括以下步骤：

201、根据历史会话日志确定若干问题文本，以及若干问题文本中各个问题文本对应的答案预测文本。

其中，上述历史会话日志可以包括用户和人工客服之间的会话。用户和人工客服之间的会话可以包括但不限于：用户输入的问题文本，以及人工客服直接向用户回复文本内容，以及人工客服通过智能辅助方式选择的回复文本内容。

例如，在用户输入某一问题文本之后，人工客服通过选择预选设置的回复模板文本回复给用户，这样的回复模板文本也包括在用户和人工客户之间的会话中。

在一些实施例中，上述根据历史会话日志确定若干问题文本，以及若干问题文本中各个问题文本对应的答案预测文本可以包括：首先从历史会话日志中确定若干问题文本，以及若干问题文本中各个问题文本对应的回复段落，然后将各个问题文本和各个问题文本对应的回复段落，分别输入至目标BERT模型，获取目标BERT模型输出的若干问题文本中各个问题文本对应的答案预测文本。

在一些实施例中，在获取到历史会话日志之后，可以先对历史会话日志进行预处理，去除历史会话日志中的无效会话，主要是去掉一些无效会话，减少冗余文本干扰。。示例性的，会话中用户没有输入问题(Query)或者用户输入问题不完整，该会话为无效会话。

在一些实施例中，上述从历史会话日志中确定若干问题文本，以及若干问题文本中各个问题文本对应的回复段落，包括：根据目标对象分类对历史会话日志中的会话内容进行聚合，得到与目标对象分类对应的聚合会话内容；从聚合会话内容中获取用户对应的第一问题文本；从目标会话内容中获取客服对应的第一回复段落，作为第一问题文本对应的第一回复段落；其中，目标会话内容为聚合会话内容中处于第一问题文本之后的会话内容，第一问题文本为若干问题文本中的任意问题文本。

在一段会话中，由于Query的答案只可能在它被问后回答，所以根据时序，可以先从历史会话日志中定位Query，之后再选取Query 后面的会话内容作为该Query的回复段落，以减少冗余文本干扰。也就是说，从历史会话日志中提取第一问题文本和第一回复段落的过程中，可以确定用户输入的第一问题文本，然后从历史会话日志中选择该第一问题文本之后，由人工客服回复的一个或多个文本，拼接这一个或多个文本作为第一回复段落。

其中，上述历史会话日志可以包括大量的会话内容，因此，可以对该历史会话日志根据会话中涉及的对象类型进行划分，针对相同对象类型的文本内容，作为一组会话。

在一些实施例中，上述历史会话日志可以包括大量的会话内容，因此，可以对该历史会话日志根据会话中涉及的对象类型进行划分，针对相同对象类型的文本内容，作为一组会话。

上述目标对象类型可以为任意对象类型，针对不同的场景，上述目标对象类型可以不同。示例性的，假设针对电商对话场景，上述目标对象类型可以是指商品类型。可以将针对同一商品的会话归类为一组会话。

进一步的，还可以对该历史会话日志根据会话中涉及的对象类型，以及预设划分时间范围进行划分，针对相同对象类型、且处于预设划分时间范围内的文本内容，作为一组会话。

示例性的，假设在电商对话场景中，历史会话日志中针对商品A 用户和人工客服之间存在100条对话信息，其中，6月7日涉及有40 条对话信息，6月8日涉及有60条对话信息，那么在以商品A和每一天为一个划分时间范围，那么可以将这100条对话信息，确定为两组会话，6月7日涉及的40条对话信息为一组对话信息，6月8日涉及的60条对话信息为另一组对话信息；在以商品A和每2天为一个划分时间范围的情况下，上述100条对话信息可以划分为一组会话。

本公开实施例中，上述目标BERT模型可以为基于目标文本对数据对初始BERT模型进行预训练后得到的模型，目标文本对数据包括多个文本对，每个文本对包括两个不同文本。

上述目标BERT模型为基于初始BERT模型进行预训练的语言表征模型，其中，初始BERT模型是指传统BERT模型的模型结构框架在基于初始BERT模型进行预训练的过程中，采用新的掩膜语言模型 (Masked Language Model，MLM)任务，和/或，下一句预测(NextSentence Prediction,NSP)任务，以使得生成深度的双向语言表征。其中，MLM任务让模型通过上下文来预测当前词，即通过上下文的语义来更好地学习当前词的向量，NSP通过随机打乱句子顺序、然后判断两个句子是否是上下句关系，来学习句子间的逻辑、语义关系，从而提升句子向量的表示效果。上述预训练的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的代表性(Representation)，即文本的语义表示。

上述目标文本对数据包括：目标领域的文本对数据，和/或，任意领域的文本对数据。也就是说，上述预训练过程中可以采用任意领域的文本进行预训练，和/或，采用某个特定领域的文本进行预训练。

在一些实施例中，可以先基于任意领域的文本基于初始BERT模型进行预训练，得到第一阶段预训练之后的BERT模型，然后再该第一阶段预训练之后的BERT模型的基础上，基于目标领域的文本进行第二阶段预训练，得到预训练完成后的BERT模型。

其中，目标领域可以为任意领域。例如，电商领域、急救领域等。上述第一阶段预训练和第二阶段预训练的预训练任务相同，都可以包括：MLM任务和/或NSP任务。

进一步的，基于初始BERT模型进行预训练得到预训练模型之后，还可以对预训练后的模型进行微调，也就是说将文本的语义表示在特定NLP任务中作调整(通常可以称为微调过程)，最终应用于该NLP 任务。在微调过程中，通过少量标注过的语料，可以让模型学习具体任务数据，从而在测试时有更好的效果。

传统的BERT模型通常会通过标记向量(Token Embedding)、段向量(SegmentEmbedding)和位置向量(Position Embedding)来表示输入的文本，而本公开实施例中，除了采用通过Token Embedding、 Segment Embedding和Position Embedding中的至少一种表示输入的文本之外，还增加了至少一种第一向量来表示输入的文本。

其中，上述Token Embedding、Segment Embedding和Position Embedding本公开实施例中可以称为第二向量，这三种向量的作用如下：

Token Embedding，用于将各个词转换成固定维度的向量。在目标 BERT中，向量维度是768维，即每个字都有一个1*768维的向量。且在开头、末尾、句子对(如果是两个句子的话)中间，加入CLS和SEP 的特殊标记。比如，如果输入是一个句子、有10个字，则TokenEmbedding是一个10+2＝12*768的向量；如果输入是两个句子，每个句子各有5个字，则Token Embedding是一个(5+5+1)+2＝13*768 的向量。在本公开实施例中的目标BERT中，Token Embedding具体用于将回复段落中各个词转换成固定维度的向量。

Segment Embedding，用来告诉模型输入是否是同一个句子，即处理句子对的情况。Segment Embedding有两种取值0和1，如果是两个句子，则第一个句子的每个字都赋值是0，第二个句子每个字赋值都是 1；如果是一个句子，则每个字都赋值为0。在本公开实施例中的目标 BERT中，Segment Embedding具体用于表示回复段落是否为同一个句子。

Position Embedding，用于表示不同字出现在文本的不同位置，在不同字出现在文本的不同位置时，其语义会有明显区别，例如“张三生了李四”和“李四生了张三”这两句话中出现的文字是一样的，只是顺序发生了改变，两句话的语义有很大区别，因此需要位置信息来告诉模型不同字出现在文本的不同位置。可简单认为Position Embedding采用是罗马数字的递增方式表示不同字的不同位置，在本公开实施例中的目标BERT中，PositionEmbedding具体用于表示回复段落中不同字在回复段落中的位置。

其中，上述第一向量包括但不限于以下至少一种：

属性判断向量(is_Entity_Embedding)，在本公开实施例中 is_Entity_Embedding用于表示回复段落中词是否为属性词，判断一个词是否为一个属性词，我们可以通过与预先存储的属性表中的属性词进行对比来实现，判断回复段落中词在不在词表中，如果在则 is_Entity_Embedding值为1，如果不在，则is_Entity_Embedding值为0。

示例性的，假设用户的Query问“这个衣服是什么材质”，人工客服回复为“真丝的呢亲，非常丝滑，这款最近卖得很好，心动不如行动哦～”。由于“真丝”预先存储的知识库的属性表中，所以可能是答案，我们通过is_Entity_Embedding值为1标识出来，让目标BERT更容易地学到。

是否类词语判断向量(Yes_No_Embedding)，在本公开实施例中 Yes_No_Embedding用于表示回复段落中词是不是表示是或否的词语，如果在会话中回复段落中的词在用户的Query中出现(即在第一问题文本中出现)，则更可能是答案。

示例性的，用户Query问“会起球吗”，人工客服回答“不会”，则“不会”就会被Yes_No_Embedding赋值为1，因为它更可能是答案。

重复词判断向量(Exact_Match_Embedding)，在本公开实施例中 Exact_Match_Embedding用于表示回复段落中词是否出现在问题文本中。

示例性的，用户Query问“这个衣服是防水的吗？”人工客服回答“对呢亲，是防水面料，下雨穿都不会湿”。人工客服回答中的“防水”出现在Query中，说明跟Query所问大概率相关，我们通过 Yes_No_Embedding值为1标识出来，让目标BERT模型更容易学到。

上述实施例中，由于目标BERT模型对回复段落通过属性判断向量、是否类词语判断向量以及重复词判断向量中的一个或多个进行标注，这样使得可以对回复段落进行标注之后，可以方便目标BERT模型从回复段落中抽取问题文本对应的答案，针对一些极有可能是答案的属性词、是否有类词语、以及重复类词语可以准确对焦进行抽取，因此可以提高数据挖掘的准确性。

202、对若干问题文本进行聚类，确定目标问题簇。

其中，目标问题簇中包括若干问题文本中的多个问题文本，多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数。

需要说明的是，针对若干问题文本进行聚类之后，可以得到一个或多个问题簇，上述目标问题簇可以为任意一个问题簇，针对每个问题簇中的问题文本，进行后续答案文本匹配的过程相同，下面将以针对目标问题簇的处理为例进行说明。

针对相同对象(例如同一商品)用户问很多相似问题，但是不同人工客服在回答这些相似问题时，给的回复往往不是完全一致，但大体意思相同，此时就需要对这些Query做聚合，从而方便选出对这些 Query而言，匹配度最高的答案，将该答案作为这些Query的统一答案。

示例性的，假设上述若干问题文本和对应的若干答案预测文本如下表1所示。

表1

上述表1中，问题1、问题2和问题3的语义相似度较大，可以将问题1、问题2和问题3聚类为一个问题簇(如本公开实施例中的目标问题簇)，问题4的语义则与问题1、问题2和问题3的语义有较大差别，问题4与问题1、问题2和问题3不能聚类到一个问题簇。

203、从若干答案预测文本中确定与多个问题文本对应的多个答案预测文本。

基于上述表1所示，确定的目标问题簇中包括问题1、问题2和问题3，那么相应的可以从表1中确定问题1对应的答案1、问题2对应的答案2，以及问题3对应的答案3。

204、从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本。

在一些实施例中。从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本的过程，可以包括但不限于以下步骤：

204a、将多个答案预测文本中的各个答案预测文本与多个问题文本中的各个问题文本，两两组合得到多个第一问答文本对。

其中，每个第一问答文本对中包括一个答案预测文本和一个问题文本。

示例性的，以上述表1中的问题1、问题2和问题3与答案1、答案2和答案3两两组合为例，得到的第一问答文本对可以如下表2中所示的9种问答文本对，即表2中问答文本对1至问答文本对9。

表2

204b、将多个第一问答文本对中的各个第一问答文本对，分别输入问答匹配模型，获取问答匹配模型输出的各个第一问答文本对的匹配参数。

其中，匹配参数用于表征各个第一问答文本对的匹配度。

上述问答匹配模型为基于目标问答文本对数据对初始BERT模型预训练后得到的，目标问答文本对数据中包括多个第二问答文本对，每个第二问答文本对包括一个问题文本和一个答案文本。

其中，基于目标问答文本对数据对初始BERT模型进行预训练时的预训练任务包括以下至少一种：

掩码语言模型MLM任务、下一句预测NSP任务。

在一些实施例中，目标问答文本对数据包括：目标领域的问答文本对数据，和/或，任意领域的问答文本对数据。也就是说上述对初始 BERT模型进行预训练时可以采用任意领域的问答文本数据，和/或，采用某一特定领域的问答文本对数据。

上述问答匹配模型可以称为Query-Answer的打分模型，初始BERT 模型为基于BERT的匹配模型，该模型建模成一个两个文本的相似度问题，在先采用任意领域的问答文本对数据对初始BERT模型进行预训练之后，还可以进一步采用某一特定领域的问答文本对数据进行预训练之后，这样可以提升Query-Answer打分模型在该特定领域的打分效果，提高准确性。

示例性的，可以将上述表2中的问答文本对1至问答文本对9中的9个问答文本对，依次输入问答匹配模型，获取问答匹配模型输出的问答文本对1至问答文本对9中每个问答文本对的匹配参数。

示例性的，假设该匹配参数采用100以内的数字来表示，数字越大表示匹配度越高，基于上述表2所示的第一问答文本对，得到的匹配参数，可以如表3所示。

表3

204c、根据各个第一问答文本对的匹配参数，计算各个答案预测文本对应的所有问题文本对的匹配参数的平均值。

204d、从多个答案预测文本中，确定最大平均值所对应的目标答案预测文本。

示例性的，如上表3中所示，答案1对应的问答文本对1的匹配参数为85；答案1对应的问答文本对2的匹配参数为80；答案1对应的问答文本对3的匹配参数为83；答案1对应的所有问答文本对1、问答文本对2、问答文本对3的匹配参数的平均值为(85+80+84)/3＝83；采用相同的方式，可以计算出答案2对应的所有问答文本对4、问答文本对5、问答文本对6的匹配参数的平均值为(99+90+93)/3＝94，以及可以计算出答案3对应的所有问答文本对7、问答文本对8、问答文本对9的匹配参数的平均值为(91+90+92)/3＝91，那么可以获知答案2对应的所有问答文本对4、问答文本对5、问答文本对6的匹配参数的平均值为最大平均值，那么可以将答案2确定为目标答案预测文本。

在一些实施例中，上述从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本可以包括但不限于：先从多个答案预测文本中，确定与多个问题文本的匹配度最高的初始答案预测文本；然后在初始答案预测文本为极性词的情况下，从目标问题文本中提取初始答案预测文本对应的主语和/或谓语，目标问题文本为初始答案预测文本所对应的问题文本；基于主语和/或谓语，对初始答案预测文本进行答案补全，以得到目标答案预测文本。

上述答案补全可以是针对是否类问题的优化。当用户Query问是否时，人工客服有时会只给出“是的”“不会”等这种只有极性词的答案。这种答案虽然回答了问题，但并非完整的回答，因此在进行数据挖掘时，需要根据针对这样的答案，做一些主语、谓语等的补全，才能挖掘得到人工客服问答的完整信息。

示例性的，如下表4所示，为一种基于初始答案预测文本进行答案补全的示意表，在一种情况下，从人工客服的回复段落“很高兴为您服务，请问有什么可以帮您？没有哦亲”中抽取的初始答案预测文本可以为“没有”，此时通过在Query中抽取谓语“口袋”，将“口袋”对“没有”进行补全，可以得到目标答案预测文本“没有口袋”；在另一种情况下从人工客服的回复段落“很高兴为您服务，请问有什么可以帮您？不会呢亲亲”中抽取的初始答案预测文本可以为“不会”，此时通过在Query中抽取掉色“掉色”，将“掉色”对“不会”进行补全，可以得到目标答案预测文本“不会掉色”。

表4

在一些实施例中，从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本可以包括但不限于：从多个答案预测文本中，确定与多个问题文本的匹配度最高的初始答案预测文本；将初始答案预测文本与拟人化模板文本拼接，以得到目标答案预测文本。

示例性的，如下表5所示为一种基于初始答案预测文本进行拟人化模板文本拼接的示意表。

表5

在初始答案预测文本是短语时，可以在初始答案预测文本的基础上拼接一些拟人化的模板，得到目标答案预测文本，这样的目标答案预测文本更有亲和力，有助于提高线上沟通效果。

205、将目标问题簇与目标答案预测文本对应存储。

示例性的，以将上述表3中答案2确定为目标答案预测文本为例，上述目标问题簇与目标答案预测文本对应存储的方式可以如图3所示。

本公开实施例提供的问答数据挖掘方法，可以通过历史会话日志确定若干问题文本，以及若干答案预测文本，并将语义相似的多个问题文本聚类为目标问题簇，并针对目标问题簇中的所有问题，从多个问题文本中确定匹配度最高的目标答案预测文本，并将该目标答案预测文本作为该目标问题簇的答案存储，该问答数据挖掘方法，针对一些相似问题可以存储匹配度最高的答案预测文本，这样可以避免数据挖掘结果重复，节省存储资源。

在一些实施例中，将目标问题簇与目标答案预测文本对应存储可以包括但不限于：在目标答案预测文本中不存在安全风险信息的情况下，将目标问题簇与目标答案预测文本对应存储；其中，安全风险信息包括：数字信息、金钱信息、时效信息中的至少一项。

在实际线上问答中，有一些不适合直接回答的答案，这类答案可以定义为安全风险信息，需要对这些答案进行过滤。示例性的，安全风险信息可以包括：敏感的词语、敏感的数字、金钱、时效等相关的一些信息，在电商领域的线上问答场景中，安全风险信息可以包括：发货数量、价格、运费险等信息。通过过滤这些安全场景的答案，仅存储不存在安全风险信息的答案预测文本，而不存储这些存在安全风险信息的答案预测文本，可以避免在全自动机器人中给商家带来不必要的损失。

如图4所示，为本公开实施例提供的另一种问答数据挖掘方法的流程示意图，该方法包括但不限于以下步骤：

401、根据历史会话日志确定若干问题文本，以及若干问题文本中各个问题文本对应的答案预测文本；

402、对若干问题文本进行聚类，确定目标问题簇，目标问题簇中包括若干问题文本中的多个问题文本，多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数；

403、从若干答案预测文本中确定与多个问题文本对应的多个答案预测文本；

404、从多个答案预测文本中，确定与多个问题文本的匹配度最高的目标答案预测文本。

405、将目标问题簇与目标答案预测文本对应存储到问题-答案库。

针对上述401至405的描述，可以参照针对上述201至205的相关描述，此处不再赘述。

其中，该问题答案库中存储有多组问题和答案，或者存储有多组问题簇和答案。

406、将用户输入的输入问题文本与问题-答案库中的候选问题文本进行匹配。

407、从问题-答案库中确定与输入问题文本匹配的目标候选问题文本。

其中，可以计算输入问题文本与问题-答案库中每个候选问题文本的相似度参数，并将相似度参数最大的候选问题文本，确定为与输入问题文本匹配的目标候选问题文本。

408、获取问题-答案库中与目标候选问题文本对应存储的目标答案预测文本。

离线建立好问题-答案库后，线上使用该库进行问答的流程，是通用的检索召回和Query-Question匹配模型。

Query-Question匹配模型与上述Query-Answer的打分模型类似，同样采用基于BERT的匹配模型，该模型建模成一个两个文本的相似度问题，在先采用任意领域的问题对数据对基于BERT的匹配模型进行预训练之后，还可以进一步采用某一特定领域的问题对数据进行预训练之后，这样可以提升Query-Question打分模型在该特定领域的打分效果，提高准确性。其中，问题对数据中包括多个问题对，每个问题对中包括有两个不同问题。

在电商场景中，使用Query-Question匹配模型，计算同一个商品下的所有候选问题和用户Query的相似度后，可以将相似度最高的候选问题(Question)所对应的答案，作为线上Query的答案。

本公开实施例中，通过问答数据挖掘方法进行数据挖掘后，存储数据到问题-答案库中，基于该问答数据挖掘方法可以可以避免数据挖掘结果重复，节省存储资源，因此在后续线上问答时，在问题-答案库中确定与输入问题文本匹配的目标候选问题文本的过程中，可以减少匹配过程的数据量，从而可以节省线上问题匹配的时间，提高线上问题匹配的效率。

如图5所示，本公开实施例提供一种问答数据挖掘装置，该装置包括：

提取模块501，用于根据历史会话日志确定若干问题文本，以及所述若干问题文本中各个问题文本对应的答案预测文本；

聚类模块502，用于对所述若干问题文本进行聚类，确定目标问题簇，所述目标问题簇中包括所述若干问题文本中的多个问题文本，所述多个问题文本中不同问题文本之间的语义相似度参数大于或等于预设相似度参数；

匹配模块503，用于从所述若干答案预测文本中确定与所述多个问题文本对应的多个答案预测文本；

存储模块504，用于将所述目标问题簇与所述目标答案预测文本对应存储。

作为本公开实施例一种可选的实施方式，所述匹配模块503，具体用于：

掩码语言模型MLM任务、下一句预测NSP任务。

作为本公开实施例一种可选的实施方式，所述匹配模块503包括：

答案匹配模块5031，用于从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的初始答案预测文本；

答案补全模块5032，用于在所述初始答案预测文本为极性词的情况下，从目标问题文本中提取所述初始答案预测文本对应的主语和/或谓语，所述目标问题文本为所述初始答案预测文本所对应的问题文本；基于所述主语和/或谓语，对所述初始答案预测文本进行答案补全，以得到所述目标答案预测文本。

答案模板拼接模块5033，用于将所述初始答案预测文本与拟人化模板文本拼接，以得到所述目标答案预测文本。

作为本公开实施例一种可选的实施方式，所述存储模块504，具体用于：

作为本公开实施例一种可选的实施方式，所述提取模块501，包括：

确定模块5011，用于从历史会话日志中确定所述若干问题文本，以及所述若干问题文本中各个问题文本对应的回复段落；

答案预测模块5012，用于将所述各个问题文本和所述各个问题文本对应的回复段落，分别输入至目标BERT模型，获取所述目标BERT 模型输出的所述若干问题文本中各个问题文本对应的答案预测文本；

属性判断向量，用于表示所述回复段落中词是否为属性词；

作为本公开实施例一种可选的实施方式，所述确定模块5011，具体用于：

从聚合会话内容中获取用户对应的第一问题文本；

如图6所示，本公开实施例提供一种电子设备，该电子设备包括：处理器601、存储器602及存储在所述存储器602上并可在所述处理器 601上运行的计算机程序，所述计算机程序被所述处理器601执行时实现上述方法实施例中的问答数据挖掘方法的各个过程。且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例提供一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述方法实施例中问答数据挖掘方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本公开实施例提供一种计算程序产品，该计算机程序产品存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中问答数据挖掘方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本公开中，处理器可以是中央处理单元(Central Processing Unit， CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit， ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开中，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM) 或闪存(flash RAM)。存储器是计算机可读介质的示例。

本公开中，计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种问答数据挖掘方法，其特征在于，包括：

将所述目标问题簇与所述目标答案预测文本对应存储。

2.根据权利要求1所述的方法，其特征在于，所述从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的目标答案预测文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述问答匹配模型为基于目标问答文本对数据对初始BERT模型预训练后得到的，所述目标问答文本对数据中包括多个第二问答文本对，每个第二问答文本对包括一个问题文本和一个答案文本；

掩码语言模型MLM任务、下一句预测NSP任务。

4.根据权利要求3所述的方法，其特征在于，所述目标问答文本对数据包括：目标领域的问答文本对数据，和/或，任意领域的问答文本对数据。

5.根据权利要求1所述的方法，其特征在于，所述从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的目标答案预测文本，包括：

6.根据权利要求1所述的方法，其特征在于，所述从所述多个答案预测文本中，确定与所述多个问题文本的匹配度最高的目标答案预测文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述目标问题簇与所述目标答案预测文本对应存储，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据历史会话日志确定若干问题文本，以及所述若干问题文本中各个问题文本对应的答案预测文本，包括：

其中，所述目标BERT模型为基于目标文本对数据对初始BERT模型进行预训练后得到的模型，所述目标文本对数据包括多个文本对，每个文本对包括两个不同文本。

9.根据权利要求8所述的方法，其特征在于，所述目标BERT模型对所述回复段落通过以下至少一种第一向量进行标注：

属性判断向量，用于表示所述回复段落中词是否为属性词；

10.根据权利要求8所述的方法，其特征在于，所述从历史会话日志中确定所述若干问题文本，以及所述若干问题文本中各个问题文本对应的回复段落，包括：

从聚合会话内容中获取用户对应的第一问题文本；

11.一种问答数据挖掘装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的问答数据挖掘方法。

13.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的问答数据挖掘方法。