CN111274378A

CN111274378A - 用于问答的数据处理方法以及装置、设备、存储介质

Info

Publication number: CN111274378A
Application number: CN202010091290.0A
Authority: CN
Inventors: 杨萌; 杜振东; 王清琛
Original assignee: Nanjing Yunwen Network Technology Co ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-12
Anticipated expiration: 2040-02-13
Also published as: CN111274378B

Abstract

本申请公开了一种用于问答的数据处理方法以及装置、设备、存储介质。该方法包括获取问答对数据；根据所述问答对数据，生成初始问答对集合；将所述初始问答对集合拆分为问题集合和答案集合；对所述问题集合聚类，提取得到问题簇集合；根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合。本申请解决了对用于问答的数据没有进行较好利用的技术问题。通过本申请减少人工构建知识的成本。同时抽取得到的热点问答对，减少了企业根据文档条例或者根据记忆编纂知识的人力成本，且生成的知识点即保证了丰富度。

Description

用于问答的数据处理方法以及装置、设备、存储介质

技术领域

本申请涉及人工智能领域，具体而言，涉及一种用于问答的数据处理方法以及装置、设备、存储介质。

背景技术

相关技术中常见的企业客服系统是由两种方式组成，机器人客服回答大量常规问题，客服解决特殊化个性问题作为补充。由于客服服务方式便捷化，且客服系统承载量的增强，访客和问题量也指数级的增长。这些对话数据包含了访客的问题和客服的解答，被认为是半结构化的状态，如果能有效的进行挖掘可以产生很大的商业价值。

发明人发现，针对对话数据的挖掘，往往只是单纯对访客问题进行抽取和聚合操作，只关注了问题忽略了对话中的答案，对话中存在的关联信息没有被利用到。

针对相关技术中对用于问答的数据没有进行较好利用的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种用于问答的数据处理方法以及装置、设备、存储介质，以解决对用于问答的数据没有进行较好利用的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种用于问答的数据处理方法。

根据本申请的用于问答的数据处理方法包括：获取问答对候选集；基于语义对所述问答候选集中的问题进行挖掘；基于统计对所述问答候选集中的答案进行挖掘；根据挖掘结果，生成热点问答对数据集。

根据本申请的一种用于问答的数据处理方法，包括：获取问答对数据，其中所述问答对数据中包括至少一个问题和至少一个答案；根据所述问答对数据，生成初始问答对集合；将所述初始问答对集合拆分为问题集合和答案集合；对所述问题集合聚类，提取得到问题簇集合；根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合；其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。

进一步地，对所述问题集合聚类时还包括，对所述问题集合进行统计和去重，获得种子问题集合；

对所述种子问题集合进行聚类操作，并对聚类形成的簇进行关键词提取，形成问题簇集合。

进一步地，对所述问题集合聚类，提取得到问题簇集包括：

将问题簇集合中簇的关键词集合进行统计和去重，得到关键词追踪簇。

将所述种子问题集合与所述初始问答对集合进行匹配；

根据匹配结果，生成经过预设处理后的问答对集合。

进一步地，根据经过预设处理后的问答对集合还包括：

对所述答案集合进行统计和去重，获取种子答案；

根据所述种子答案，对所述初始问答对集合进行补充。

为了实现上述目的，根据本申请的另一方面，提供了一种用于问答的数据处理装置。

根据本申请的用于问答的数据处理装置包括：候选集获取模块，用于获取问答对候选集；第一挖掘模块，用于基于语义对所述问答候选集中的问题进行挖掘；第二挖掘模块，用于基于统计对所述问答候选集中的答案进行挖掘；结果生成模块，用于根据挖掘结果，生成热点问答对数据集。

根据本申请的用于问答的数据处理装置，包括：获取模块，用于获取问答对数据，其中所述问答对数据中包括至少一个问题和至少一个答案；第一生成模块，用于根据所述问答对数据，生成初始问答对集合；拆分模块，用于将所述初始问答对集合拆分为问题集合和答案集合；聚类模块，用于对所述问题集合聚类，提取得到问题簇集合；第二生成模块，用于根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合；其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。

为了实现上述目的，根据本申请的又一方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的用于问答的数据处理方法的步骤。

为了实现上述目的，根据本申请的再一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的用于问答的数据处理方法的步骤。

在本申请实施例中用于问答的数据处理方法以及装置、设备、存储介质，通过从客服对话数据中抽取热问答对；对问答对集合进行二次聚合挖掘，获取质量高且热度大的问答对的簇集合；同时对问答对的簇集合进行簇主题词抽取，并对簇主题词进行统计后，获取热度靠前的关键词，进行反向追踪原始的簇做词和簇的关联，进而解决了对用于问答的数据没有进行较好利用的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的用于问答的数据处理方法流程示意图；

图2是根据本申请实施例的用于问答的数据处理装置结构示意图；

图3是根据本申请实施例的用于问答的数据处理方法整体流程示意图；

图4是根据本申请实施例的用于问答的数据处理方法中数据流示意图；

图5是根据本申请实施例的用于问答的数据处理方法中的初始状态下的数据情况示意图；

图6是根据本申请实施例的用于问答的数据处理方法中的挖掘后的数据情况示意图；

图7是根据本申请实施例的设备结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

按照以往的技术方案，针对对话数据的挖掘，往往只是单纯对访客问题进行抽取和聚合操作，它们只关注了问题，忽略了对话中的答案，对话中存在的关联信息没有被利用到。在本申请中为了捕获到问题和答案之间的关联信息，先从对话中抽取一问一答形式的问答对，再对问题集合进行聚合操作，从而获取热点问答对。一般情况下，当访客明确知道自己是在和人工客服对话时，访客的语法更加灵活、语言更加随意、句子简短并伴随前后补充、多个话题同时交叉进行等等特点，使得抽取问答对变得很困难，在本申请中针对这一难点进行了改进点。通过获取问答对候选集；基于语义对所述问答候选集中的问题进行挖掘；基于统计对所述问答候选集中的答案进行挖掘；根据挖掘结果，生成热点问答对数据集。具体而言，用于问答的数据处理方法可以进行如下的说明。

如图1所示，该方法包括如下的步骤S1至步骤S5：

步骤S1，获取问答对数据，其中所述问答对数据中包括至少一个问题和至少一个答案；

获取问答对数据时从聊天日志文件或者语料库中获取原始数据，根据提供的语料类型、数据量、对话类型、数据结构、列表要素等进一步清洗成结构化的对话数据格式，并区分客服和访客角色。

步骤S2，根据所述问答对数据，生成初始问答对集合；

从对话数据中抽取一问一答形式的所述问答对数据，在所述问答对数据中访客的话称为问题，客服的话称为答案。

步骤S3，将所述初始问答对集合拆分为问题集合和答案集合；

可以将将问答对集合，拆分成问题Q集合，和答案A集合，分别进行挖掘处理。

步骤S4，对所述问题集合聚类，提取得到问题簇集合；

对于所述问题集合进行聚类，提取得到问题簇集合。具体地，对种子问题集合进行聚类操作，并且对聚类形成的簇进行关键词提取，形成问题簇集合。所述种子问题集合中种子选取的策略是使用规则和词典对访客的话进行过滤，选取的种子一般长短适中，并包含基本的业务动作。

步骤S5，根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合；其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。

在所述初始问答对集合上经过清洗过滤后得到的处理结果的是指，对问题集合进行统计和去重，然后使用策略选择质量高的种子问题集合，即解决清洗问题集合中的杂质问题。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，对所述问题集合聚类时还包括，对所述问题集合进行统计和去重，获得种子问题集合；对所述种子问题集合进行聚类操作，并对聚类形成的簇进行关键词提取，形成问题簇集合。

具体地，为了发现热点的问答对，聚类挖掘算法把相似的问题聚集到一起，相似的问题聚集在一起的集合叫做一个簇，可以把它当做一类热点问题。对于一个簇有关键词、平均相似度、热度、大小等簇指标，这些指标是簇排序的依据，排序越靠说明该簇越重要，热度越高。簇中的每条数据到簇心的相似度，是这条数据在簇内的排序依据。

根据本申请实施例，作为本实施例中的优选，对所述问题集合聚类，提取得到问题簇集包括：将问题簇集合中簇的关键词集合进行统计和去重，得到关键词追踪簇。

具体地，将簇的关键词集合进行统计和去重，获取统计量为最高排名的多个词作为线索词，反向去找包含了这些词的簇，形成了word2Cluster集合，实现了关键词追踪簇。

根据本申请实施例，作为本实施例中的优选，对所述问题集合聚类时还包括，对所述问题集合进行统计和去重，获得种子问题集合；将所述种子问题集合与所述初始问答对集合进行匹配；根据匹配结果，生成经过预设处理后的问答对集合。

具体地，将种子问题集合，与问答对集合进行匹配，删除问题不是种子的问答对。通过才采用种子问题集合对问答对集合进行清洗工作，生成新的问答对集合。

根据本申请实施例，作为本实施例中的优选，根据经过预设处理后的问答对集合还包括：对所述答案集合进行统计和去重，获取种子答案；根据所述种子答案，对所述初始问答对集合进行补充。

具体地，对答案集合进行统计和去重，获取统计量为排名的前几的答案作为种子答案，反向去问答对集合中找到原始问题，形成答案集合。通过整理成问答对一问一答形式，对问答对集合进行补充。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述方法的用于问答的数据处理装置，如图2所示，该装置包括：获取模块10，用于获取问答对数据，其中所述问答对数据中包括至少一个问题和至少一个答案；第一生成模块20，用于根据所述问答对数据，生成初始问答对集合；拆分模块30，用于将所述初始问答对集合拆分为问题集合和答案集合；聚类模块40，用于对所述问题集合聚类，提取得到问题簇集合；第二生成模块50，用于根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合；其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。

如图3所示，是本申请中的数据流示意图，如图4所示，是通过获取问答对候选集；基于语义对所述问答候选集中的问题进行挖掘；基于统计对所述问答候选集中的答案进行挖掘；根据挖掘结果，生成热点问答对数据集的过程。

请参考图3和图4，步骤主要包括：

步骤101从聊天日志文件或者语料库中获取机器人客服对话的原始数据，根据提供的语料类型、数据量、对话类型、数据结构、列表要素，清洗成结构化的对话数据格式，并区分客服和访客角色。如图5所示。

清洗过的数据是多个session的组成的集合。每个session由sessionId进行唯一标识。一个session对话由多条数据组成。每一条数据包含了句子的id，句子所在session的sessionId，句子的发出者的角色role，句子的内容content。

步骤102从对话数据中抽取一问一答形式的QAPair问答对数据。访客的话称为问题，客服的话称为答案。得到清洗过的结构化对话数据。抽取的问答对集合。

如果是机器人客服对话数据，因为人机对话本来就是一问一答形式，所以只需要清洗聊天数据和删除未知回复的对话即可；

如果是人工客服对话数据，它是客服和访客多次来回交互的过程，需要使用QAPair抽取策略，从多轮对话中抽取问题和答案。抽取策略是构建和选取问答对的规则，它依赖数据预处理，预处理输出包含合并问题和合并答案等规则。

步骤103将QAPair问答对集合，拆分成问题Q集合，和答案A集合。

步骤104对问题Q集合进行统计和去重，然后使用策略选择质量高的种子问题集合，这一步是清洗问题Q集合中的杂质问题。因为访客的对话中可能包括礼貌用语“谢谢”“你好”“麻烦一下”这种废话，所以种子选取的策略是使用规则和词典对访客的话进行过滤，选取的种子一般长短适中，并包含基本的业务动作。得到问答对集合中选取种子的结果。

步骤105将种子问题Q集合，与103步骤的QAPair问答对集合进行匹配，删除问题不是种子的QAPair，这一步是用种子问题集合对QAPair集合进行清洗工作，生成新的QAPair问答对集合。

步骤106对种子问题Q集合进行聚类操作，并对聚类形成的簇进行关键词提取。形成clusterQ问题簇集合。这一步其实就是为了发现热点的问答对，聚类挖掘算法把相似的问题聚集到一起，相似的问题聚集在一起的集合叫做一个簇，我们可以把它当做一类热点问题。一个簇有关键词、平均相似度、热度、大小等簇指标，这些指标是簇排序的依据，排序越靠说明该簇越重要，热度越高。簇中的每条数据到簇心的相似度，是这条数据在簇内的排序依据。

步骤107将簇的关键词集合进行统计和去重，获取统计量为topN的词作为线索词，反向去找包含了这些词的簇，形成了word2Cluster集合。此步骤作为叫关键词追踪簇的步骤，得到词追踪簇的结果。

步骤108对答案A集合进行统计和去重，获取统计量为topN的答案A作为种子答案，反向去103步骤的QAPair问答对集合中找到原始问题。形成AQPair集合。

步骤109整理成QAPair一问一答形式，假如到105步骤中的QAPair问答对集合中。这一步是对QAPair问答对集合进行补充。

步骤110将109步骤的QAPair问答对集合，与106步骤的clusterQ问题簇集合进行合并，形成了带答案的问题簇集合。最终结和107步骤的word2Cluster集合一并作为本次挖掘的结果呈现出去，作为最终合并后的结果，如图6所示。

本申请实施例还提供了一种计算机设备。如图7所示，计算机设备20可以包括：至少一个处理器201，例如CPU，至少一个网络接口204，用户接口203，存储器205，至少一个通信总线202，可选地，还可以包括显示屏206。其中，通信总线202用于实现这些组件之间的连接通信。其中，用户接口203可以包括触摸屏、键盘或鼠标等等。网络接口204可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通过网络接口204可以与服务器建立通信连接。存储器205可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器，存储器205包括本发明实施例中的flash。存储器205可选的还可以是至少一个位于远离前述处理器201的存储系统。如图7所示，作为一种计算机存储介质的存储器205中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

需要说明的是，网络接口204可以连接接收器、发射器或其他通信模块，其他通信模块可以包括但不限于WiFi模块、蓝牙模块等，可以理解，本发明实施例中计算机设备也可以包括接收器、发射器和其他通信模块等。

处理器201可以用于调用存储器205中存储的程序指令，并使计算机设备20执行以下操作：

获取问答对数据，其中所述问答对数据中包括至少一个问题和至少一个答案；

根据所述问答对数据，生成初始问答对集合；

将所述初始问答对集合拆分为问题集合和答案集合；

对所述问题集合聚类，提取得到问题簇集合；

根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合；其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于问答的数据处理方法，其特征在于，包括：

获取问答对候选集；

基于语义对所述问答候选集中的问题进行挖掘；

基于统计对所述问答候选集中的答案进行挖掘；

根据挖掘结果，生成热点问答对数据集。

2.一种用于问答的数据处理方法，其特征在于，包括：

根据所述问答对数据，生成初始问答对集合；

将所述初始问答对集合拆分为问题集合和答案集合；

对所述问题集合聚类，提取得到问题簇集合；

3.根据权利要求2所述的数据处理方法，其特征在于，对所述问题集合聚类时还包括，对所述问题集合进行统计和去重，获得种子问题集合；

4.根据权利要求2所述的数据处理方法，其特征在于，对所述问题集合聚类，提取得到问题簇集包括：

5.根据权利要求2所述的数据处理方法，其特征在于，对所述问题集合聚类时还包括，对所述问题集合进行统计和去重，获得种子问题集合；

将所述种子问题集合与所述初始问答对集合进行匹配；

根据匹配结果，生成经过预设处理后的问答对集合。

6.根据权利要求2所述的数据处理方法，其特征在于，根据经过预设处理后的问答对集合还包括：

对所述答案集合进行统计和去重，获取种子答案；

根据所述种子答案，对所述初始问答对集合进行补充。

7.一种用于问答的数据处理装置，其特征在于，包括：

候选集获取模块，用于获取问答对候选集；

第一挖掘模块，用于基于语义对所述问答候选集中的问题进行挖掘；

第二挖掘模块，用于基于统计对所述问答候选集中的答案进行挖掘；

结果生成模块，用于根据挖掘结果，生成热点问答对数据集。

8.一种用于问答的数据处理装置，其特征在于，包括：

获取模块，用于获取问答对数据，其中所述问答对数据中包括至少一个问题和至少一个答案；

第一生成模块，用于根据所述问答对数据，生成初始问答对集合；

拆分模块，用于将所述初始问答对集合拆分为问题集合和答案集合；

聚类模块，用于对所述问题集合聚类，提取得到问题簇集合；

第二生成模块，用于根据经过预设处理后的问答对集合和所述问题簇集合，生成带有答案的问题簇集合；其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的用于问答的数据处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项所述的用于问答的数据处理方法的步骤。