CN113590771A

CN113590771A - 一种数据挖掘方法、装置、设备及存储介质

Info

Publication number: CN113590771A
Application number: CN202110103563.3A
Authority: CN
Inventors: 周磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-11-02

Abstract

本申请公开了一种数据挖掘方法、装置、设备及存储介质，所述方法包括获取目标对话系统的历史对话日志数据，所述历史对话日志数据包括多个问题数据和对应的语义解析信息；基于所述多个问题数据进行重复问题识别，得到至少一个重复问题集；基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标；基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集；将所述目标重复问题集作为所述目标对话系统中的目标数据。利用本申请提供的技术方案能够在迅速准确地得到目标对话系统中的目标数据，提升数据挖掘的自动化的同时提升了效率和可靠性。

Description

一种数据挖掘方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种数据挖掘方法、装置、设备及存储介质。

背景技术

对话系统(Dialogue System，简称DS)，是使人与机器可以通过自然语言进行对话交互的系统，主要结合了语义理解，相似性检索等自然语言理解技术来实现。随着信息技术的不断发展，对话系统在人们日常生活中的应用越来越广泛，例如智能助理、智能音箱等。但是，目前自然语言理解的能力还有待发展，时常存在很多无法回答的问题，或无法给出用户想要的回答；因此有必要对线上用户的产生的对话数据进行挖掘，找出其中的badcase(坏例)，即那些用户未得到满意回答的样例，从而对于对话系统进行针对性优化。

现有技术主要通过对线上对话数据进行随机采样，再由人工进行标注，借此来找到缺陷数据，对人工的依赖性较强，耗费大量的人力和时间核查，且可靠性不强，并且随机采样的数据有很大一部分不是缺陷数据，干扰信息较多。因此，需要提供更加可靠高效的方案。

发明内容

为了解决现有技术的问题，本申请提供了一种数据挖掘方法、装置、设备及存储介质。所述技术方案如下：

本申请一方面提供了一种数据挖掘方法，所述方法包括：

获取目标对话系统的历史对话日志数据，所述历史对话日志数据包括多个问题数据和对应的语义解析信息；

基于所述多个问题数据进行重复问题识别，得到至少一个重复问题集；

基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标；

基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集；

将所述目标重复问题集作为所述目标对话系统中的目标数据。

本申请另一方面提供了一种数据挖掘装置，所述装置包括：

历史对话日志数据获取模块，用于获取目标对话系统的历史对话日志数据，所述历史对话日志数据包括多个问题数据和对应的语义解析信息；

重复问题识别模块，用于基于所述多个问题数据进行重复问题识别，得到至少一个重复问题集；

语义解析波动指标计算模块，用于基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标；

目标重复问题集确定模块，用于基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集；

目标数据确定模块，用于将所述目标重复问题集作为所述目标对话系统中的目标数据。

本申请另一方面提供了一种数据挖掘设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由上述处理器加载并执行以实现如上述的数据挖掘方法。

本申请另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的数据挖掘方法。

本申请提供的数据挖掘方法、装置、设备及存储介质，具有如下技术效果：

本申请通过获取目标对话系统的历史对话日志数据，所述历史对话日志数据包括多个问题数据和对应的语义解析信息；然后，基于所述多个问题数据进行重复问题识别，得到至少一个重复问题集；再基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标；基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集；将所述目标重复问题集作为所述目标对话系统中的目标数据。利用本申请实施例提供的技术方案能够在准确灵活地得到目标对话系统中的目标数据，提升数据挖掘的自动化的同时提升了效率和可靠性。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种数据挖掘方法的流程示意图；

图3是本申请实施例提供的另一种数据挖掘方法的流程示意图；

图4是本申请实施例提供的另一种数据挖掘方法的流程示意图；

图5是本申请实施例提供的另一种数据挖掘方法的流程示意图；

图6是本申请实施例提供的另一种数据挖掘方法的流程示意图；

图7是本申请实施例提供的另一种数据挖掘方法的流程示意图；

图8是本申请实施例提供的另一种数据挖掘方法的流程示意图；

图9是本申请实施例提供的一种数据挖掘装置示意图；

图10是本申请实施例提供的一种用于实现数据挖掘方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理(Nature Languageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的方法可以结合自然语言处理技术等技术实现，具体通过如下实施例进行说明。

请参阅图1，图1是本申请提供的一种应用环境示意图，如图1所示，该应用环境可以包括服务器01和多个客户端02。

在本说明书实施例中，服务器01可以用于结合多个运行了目标对话系统的客户端02的数据进行目标数据的挖掘，可选的，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在本说明书实施例中，每个客户端02可以运行有目标对话系统，在一些实施例中，每个客户端02可以利用自然语言处理技术对用户的问题语音进行识别和语义解析，并生成运行数据(如对话日志数据)等，以使服务器01能够获取需要的数据来实现目标数据的挖掘，在一个实施例中，上述的多个客户端02可以包括但不限于智能手机、智能音箱、平板电脑、笔记本电脑、台式计算机、智能手表等终端设备，以及网络设备和防火墙等。

在本说明书实施例中，上述的服务器01以及多个客户端02可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图2是本申请实施例提供的一种数据挖掘方法的流程图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：获取目标对话系统的历史对话日志数据。

在本申请实施例中，该目标对话系统可以为使人与机器可以通过自然语言进行对话交互的系统，例如智能语音助手、AI音箱、智能客服等，主要结合了语义理解，相似性检索等自然语言理解技术来实现。该目标对话系统可以运行于客户端(例如智能手机、智能音箱、智能可穿戴设备)上，通过接收用户的问题语音或文本来进行问题识别和语义解析并生成回答等。

在本申请实施例中，上述的历史对话日志数据可以表征预设时间段内该目标对话系统的运行情况，在实际应用中，可以对多个客户端上传的大量对话日志数据进行汇总和按时间提取，得到预设时间段内的对话日志数据，作为上述的历史对话日志数据，例如可以每天于固定时间汇总当天的对话日志数据作为上述的历史对话日志数据，进而能够及时进行后续的目标数据挖掘。

具体地，上述的历史对话日志数据可以包括多个问题数据和对应的语义解析信息，每个问题数据可以包括问题文本和问题属性信息，其中，问题文本可以为客户端接收用户的问题语音并进行语音识别后生成的文本信息，也可以为客户端直接接收的用户输入的问题文本，问题属性信息可以包括但不限于用户标识信息和提问时间信息；每个问题数据对应的语义解析信息可以表征目标对话系统针对该问题数据的解析情况，在一个实施例中，每个问题数据对应的语义解析信息可以包括领域意图信息，在实际应用中，上述的领域意图信息可以包括但不限于天气、时间、地理、音乐、人物介绍、闲聊等。

通过获取丰富大量的对话日志数据，有利于提供充足且真实的数据进行目标数据的挖掘，提升数据挖掘的全面性和可靠性。

S203：基于上述的多个问题数据进行重复问题识别，得到至少一个重复问题集。

具体地，每个重复问题集中可以包括多个包括类似问题文本的问题数据。由于每个问题数据包括问题文本和问题属性信息，在一个实施例中，请参照图3，上述的基于上述的多个问题数据进行重复问题识别，得到至少一个重复问题集可以包括：

S301：根据上述的多个问题数据的问题属性信息对上述的多个问题数据进行数据分段，得到至少一个会话片段。

在本申请实施例中，由于在用户利用智能对话系统进行人机对话的过程中，若针对某个问题用户没有得到满意的回答，往往会就该问题使用类似的表述进行反复尝试，通过挖掘这部分数据进行处理得到目标对话系统中的缺陷数据，进而能够对目标对话系统针对性优化，使得目标对话系统更加智能和人性化。因此可以首先根据上述的多个问题数据的问题属性信息对上述的多个问题数据进行数据分段，得到至少一个会话片段，每个会话片段可以表示某用户在一段时间内与机器间的对话。

在本申请实施例中，上述的问题属性信息可以包括用户标识信息和提问时间信息，请参照图4，上述的根据上述的多个问题数据的问题属性信息对上述的多个问题数据进行数据分段，得到至少一个会话片段可以包括：

S401：根据上述的多个问题数据的用户标识信息对上述的多个问题数据进行分类，得到至少一个用户问题数据集。

在本申请实施例中，上述的用户标识信息可以为对应的用户的唯一ID，用于对不同的用户进行区分，在实际应用中，上述的用户标识信息可以由例如数字或字符组成。通过根据上述的多个问题数据的用户标识信息对上述的多个问题数据进行分类，可以将每个用户的全部问题数据汇总到一起，得到至少一个用户问题数据集，有利于提升数据挖掘的可靠性。

S403：分别根据每个用户问题数据集中问题数据的提问时间信息，对上述的每个用户问题数据集中的问题数据进行排序，得到至少一个更新用户问题数据集。

具体地，分别根据每个用户问题数据集中问题数据的提问时间信息，对上述的每个用户问题数据集中的问题数据进行排序，得到至少一个更新用户问题数据集可以包括：

分别根据每个用户问题数据集中问题数据的提问时间信息，按照提问时间从早到晚(或从晚到早)的顺序对上述的每个用户问题数据集中的问题数据进行排序，得到至少一个更新用户问题数据集；每个更新用户问题数据集中可以包括多个按照提问时间排列的问题数据。

S405：根据预设数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到上述的至少一个会话片段。

在一个实施例中，上述的预设数据截取规则可以包括：当两个相邻的问题数据的时间间隔大于预设时间阈值时，对这两个相邻的问题数据进行截断处理，其中，该预设时间阈值可以结合大量的会话测试结果归纳得到，或根据实际应用需求进行设定，具体地，该预设时间阈值可以包括，例如，5分钟；可以根据该预设数据截取规则，对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到上述的至少一个会话片段，上述的至少一个会话片段可以为对全部更新用户问题数据集进行截取处理完成后得到的。在实际应用中，例如，用户A提问“波罗的海有多深”和用户A提问“今天是星期几”为用户A对应的更新用户问题数据集中两个相邻的问题数据，且这两个问题数据之间的时间间隔大于5分钟，则可以将“波罗的海有多深”的问题数据作为第一个会话片段中的，将“今天是星期几”的问题数据作为第二个会话片段中的。在实际应用中，若将时间间隔过长的问题数据(例如同一用户在不同的日期询问天气情况)仍作为一次会话处理，容易产生干扰数据，降低目标数据挖掘的可靠性，因此有必要根据预设数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到上述的至少一个会话片段。

由于在实际应用中若针对某个问题用户没有得到满意的回答，往往会就该问题使用类似的表述进行反复尝试，首先可以根据用户标识信息将每个用户的问题数据进行汇总，再对每个用户对应的用户问题数据集根据提问时间进行排序和截断，得到至少一个会话片段，有利于提升数据挖掘的效率和可靠性。

请参照图5，在一个实施例中，上述的根据预设数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到上述的至少一个会话片段可以包括：

S501：根据预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断，得到至少一个截取数据片段。

在本申请实施例中，与步骤S405所述的过程类似，上述的预设数据截取规则可以包括：当两个相邻的问题数据的时间间隔大于预设时间阈值时，对这两个相邻的问题数据进行截断处理；可以根据该预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断，得到至少一个截取数据片段。

S503：确定每个截取数据片段中的问题数据数量。

在本申请实施例中，每个截取数据片段中可以包括至少一个问题数据，可以确定每个截取数据片段中的问题数据数量以便后续进行会话筛选。

S505：将问题数据数量满足预设会话筛选条件的截取数据片段作为上述的至少一个会话片段。

具体地，预设会话筛选条件可以包括：问题数据数量大于或等于预设数量阈值，其中，该预设数量阈值可以结合实际历史数据挖掘情况或测试结果归纳确定，或根据实际应用需求进行确定，在一个实施例中，该预设数量阈值可以包括3个。可以从上述的至少一个截取数据片段中确定出问题数据数量大于或等于3个的截取数据片段作为上述的至少一个会话片段。由于在实际应用中，根据预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断后可能得到大量的截取数据片段，而若截取数据片段中的问题数据数量太少(例如只有一个)，则没有继续分析的价值，因此通过确定每个截取数据片段中的问题数据数量，将问题数据数量满足预设会话筛选条件的截取数据片段作为上述的至少一个会话片段，可以对截取数据片段进行筛选，减少无关数据带来的干扰和资源占用，提升数据挖掘的效率和灵活性。

S303：对每个会话片段中的问题文本进行文本相似度计算，得到上述的每个会话片段对应的文本相似度信息。

在本申请实施例中，由于每个会话片段中可以包括多个问题数据，可以对这些问题数据中的问题文本进行文本相似度计算，得到上述的每个会话片段对应的文本相似度信息；具体地，上述的文本相似度信息可以包括文本距离矩阵；上述的对每个会话片段中的问题文本进行文本相似度计算，得到上述的每个会话片段对应的文本相似度信息可以包括：对每个会话片段中的问题文本进行两两距离计算，得到上述的每个会话片段对应的文本距离矩阵。具体地，可以利用预设的文本距离计算模型对每个会话片段中的问题文本进行两两距离计算，且上述的距离可以包括，例如，编辑距离或欧式距离，本申请并不以此为限。

S305：根据上述的每个会话片段对应的文本相似度信息分别对上述的每个会话片段中的问题数据进行聚类处理，得到上述的至少一个重复问题集。

在本申请实施例中，由于每个会话片段可以表示某用户在一段时间内与机器间的对话，每个会话片段中可以包括多个问题数据，可以根据上述的每个会话片段对应的文本相似度信息(例如上述的文本距离矩阵)分别对上述的每个会话片段中的问题数据进行聚类处理，在实际应用中，可以基于k均值聚类算法(k-means clustering algorithm)对每个会话片段中的问题数据进行聚类处理，或基于马尔可夫聚类算法对每个会话片段中的问题数据进行聚类处理，本申请并不以此为限。

具体地，每个重复问题集中可以包括多个包括类似问题文本的问题数据，在实际应用中，例如，一个会话片段中共包括5个问题数据，包括的问题文本分别为“周杰伦的歌有哪些”、“周杰伦有什么歌”、“周杰伦的歌曲有什么”、“圣诞在哪天”和“圣诞节是哪天”，则聚类处理后可以得到两个重复问题集，一个重复问题集包括“周杰伦的歌有哪些”、“周杰伦有什么歌”和“周杰伦的歌曲有什么”对应的问题数据，另一个重复问题集包括“圣诞在哪天”和“圣诞节是哪天”对应的问题数据。

通过根据上述的多个问题数据的问题属性信息对上述的多个问题数据进行数据分段，得到至少一个会话片段，然后对每个会话片段中的问题文本进行文本相似度计算，得到上述的每个会话片段对应的文本相似度信息，再根据上述的每个会话片段对应的文本相似度信息分别对上述的每个会话片段中的问题数据进行聚类处理，能够准确高效地得到重复问题集，提升目标数据挖掘的效率和可靠性。

S205：基于每个重复问题集对应的语义解析信息分别计算上述每个重复问题集对应的语义解析波动指标。

在本申请实施例中，上述的语义解析波动指标可以表征对应的语义解析信息的不确定性；请参照图6，在一个具体地实施例中，上述的基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标可以包括：

S601：分别计算上述每个重复问题集对应的语义解析信息的信息熵。

具体地，信息熵可以用于描述信源的不确定度，信息熵越大，信源的不确定度越高，即信源的不确定性越强；在本申请实施例中，信源可以为每个重复问题集对应的语义解析信息，不确定性越强则该重复问题集为缺陷数据的概率越高(用户多次尝试得到了不同的回答，其中存在用户不满意的回答)，具有较高的分析价值，将这部分缺陷数据挖掘出来能够成为后续该目标对话系统进行优化的数据支撑，可靠性强；在本申请实施例中，每个问题数据对应的语义解析信息可以包括领域意图信息，且上述的领域意图信息可以包括但不限于天气、时间、地理、音乐、人物介绍等。每个重复问题集对应的语义解析信息的信息熵可以基于如下公式进行计算：

其中，H_m表示重复问题集m对应的语义解析信息的信息熵，P_i表示语义解析信息的类别i出现的概率信息(共出现n种类别)。例如，当每个问题数据对应的语义解析信息可以包括领域意图信息时，重复问题集1包含的问题数据和对应的语义解析信息可以如表1所示：

用户标识信息	提问时间信息	问题文本	领域意图信息
				用户A	2019/08/18/18:04:41	周杰伦的歌有哪些	人物介绍
用户A	2019/08/18/18:05:02	周杰伦有什么歌	人物介绍
				用户A	2019/08/18/18:05:51	周杰伦的歌曲有什么	音乐

表1

此时对应的领域意图信息共有2个类别(人物介绍和音乐)，其中类别人物介绍的出现概率为

类别音乐的出现概率为

该重复问题集对应的语义解析信息的信息熵为：

重复问题集2包含的问题数据和对应的语义解析信息可以如表2所示：

用户标识信息	提问时间信息	问题文本	领域意图信息
				用户B	2019/08/18/20:21:10	圣诞在哪天	时间
用户B	2019/08/18/20:21:20	圣诞节是哪天	时间

表2

此时对应的领域意图信息共有1个类别(时间)，类别时间的出现概率为1，该重复问题集对应的语义解析信息的信息熵为：

H₂＝-1*log 1＝0

明显H₁大于H₂，重复问题集1对应的语义解析信息的不确定性比重复问题集2对应的语义解析信息的不确定性强，重复问题集1为缺陷数据的概率比重复问题集2为缺陷数据的概率高。

通过分别计算上述每个重复问题集对应的语义解析信息的信息熵，能够快速准确地确定每个重复问题集对应的语义解析信息的不确定性。

S603：将上述每个重复问题集对应的语义解析信息的信息熵作为上述每个重复问题集对应的语义解析波动指标。

在计算得到每个重复问题集对应的语义解析信息的信息熵之后，可以将上述每个重复问题集对应的语义解析信息的信息熵作为上述每个重复问题集对应的语义解析波动指标；通过分别计算上述每个重复问题集对应的语义解析信息的信息熵作为语义解析波动指标，能够准确清晰地衡量各重复问题集对应的语义解析信息的不确定性，进而利用语义解析波动指标确定目标重复问题集，得到目标对话系统中的目标数据，有利于提升目标数据挖掘的可靠性。

S207：基于上述至少一个重复问题集对应的语义解析波动指标，从上述至少一个重复问题集中确定出目标重复问题集。

请参照图7，在一个实施例中，上述的基于上述至少一个重复问题集对应的语义解析波动指标，从上述至少一个重复问题集中确定出目标重复问题集可以包括：

S701：当上述至少一个重复问题集中的任一重复问题集对应的语义解析波动指标大于或等于预设阈值时，将对应的语义解析波动指标大于或等于预设阈值对应的重复问题集作为上述的目标重复问题集。

具体地，该预设阈值可以结合大量语义解析波动指标的不同值对应的重复问题集的识别结果进行确定(例如语义解析波动指标大于或等于某个值时，测试得到对应的重复问题集为所需的目标数据的概率大于等于80％，此时可将这个值作为该预设阈值)，或根据实际应用需求进行确定。例如，该预设阈值为0.5，则在如表1和表2所述的实施例中，重复问题集1对应的语义解析波动指标为0.6365，大于0.5，此时可以将重复问题集1作为上述的目标重复问题集。

通过当上述至少一个重复问题集中的任一重复问题集对应的语义解析波动指标大于或等于预设阈值时，将对应的语义解析波动指标大于或等于预设阈值对应的重复问题集作为上述的目标重复问题集，能够灵活调整预设阈值，提升数据挖掘的灵活性和可靠性。

在另一个实施例中，当上述至少一个重复问题集包括多个重复问题集时，请参照图8，上述的基于上述至少一个重复问题集对应的语义解析波动指标，从上述至少一个重复问题集中确定出目标重复问题集可以包括：

S801：按照上述多个重复问题集对应的语义解析波动指标从大到小的顺序对上述多个重复问题集进行排序。

S803：将排名属于前预设个数的重复问题集作为上述的目标重复问题集。

具体地，上述的前预设个数可以结合实际应用需求进行确定，例如，前10个。

通过按照上述多个重复问题集对应的语义解析波动指标从大到小的顺序对上述多个重复问题集进行排序，将排名属于前预设个数的重复问题集作为上述的目标重复问题集，有利于提升数据挖掘的灵活性。

S209：将上述的目标重复问题集作为该目标对话系统中的目标数据。

在本申请实施例中，目标重复问题集可以包括多个问题数据，可以将这多个问题数据该目标对话系统中的目标数据；该目标对话系统中的目标数据可以为该目标对话系统中的缺陷数据(badcase坏例)，还可以对这些缺陷数据进行数据处理，利用该目标对话系统中的缺陷数据后续可以对该目标对话系统进行针对性优化，例如进行聚类分析，对对应的功能模块进行优化，或将这些缺陷数据作为机器学习模型的训练数据等，本申请并不以此为限；进而能够优化目标对话系统的能力，改善用户体验。

由以上本说明书实施例提供的技术方案可见，本说明书实施例通过获取目标对话系统的历史对话日志数据，提供充足且真实的数据进行目标数据的挖掘，提升数据挖掘的全面性和可靠性；然后，基于上述的多个问题数据进行重复问题识别，得到至少一个重复问题集，由于在用户利用智能对话系统进行人机对话的过程中，若针对某个问题用户没有得到满意的回答，往往会就该问题使用类似的表述进行反复尝试，通过挖掘这部分数据进行处理得到目标对话系统中的缺陷数据，进而能够对目标对话系统针对性优化，因此首先根据上述的多个问题数据的问题属性信息对上述的多个问题数据进行数据分段，得到至少一个会话片段，有利于提升数据挖掘的效率和可靠性。通过根据预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断，得到至少一个截取数据片段；确定每个截取数据片段中的问题数据数量，再将问题数据数量满足预设会话筛选条件的截取数据片段作为上述的至少一个会话片段，降低无关数据带来的干扰和资源占用，提升数据挖掘的效率和灵活性。通过对每个会话片段中的问题文本进行文本相似度计算，得到上述的每个会话片段对应的文本相似度信息，再根据上述的每个会话片段对应的文本相似度信息分别对上述的每个会话片段中的问题数据进行聚类处理，能够准确高效地得到重复问题集，提升目标数据挖掘的效率和可靠性。然后，基于每个重复问题集对应的语义解析信息分别计算上述每个重复问题集对应的语义解析波动指标，能够准确清晰地衡量各重复问题集对应的语义解析信息的不确定性，有利于提升目标数据挖掘的可靠性；再基于上述至少一个重复问题集对应的语义解析波动指标，从上述至少一个重复问题集中确定出目标重复问题集，提升数据挖掘的灵活性和准确性。最后，将上述的目标重复问题集作为该目标对话系统中的目标数据(缺陷数据)，高效得到该目标对话系统中的目标数据，且提升了该目标对话系统中的目标数据确定的可靠性，进而后续可以利用目标数据优化目标对话系统的能力，改善用户体验。

本申请实施例还提供了一种数据挖掘装置，如图9所示，所述装置可以包括：

历史对话日志数据获取模块910，用于获取目标对话系统的历史对话日志数据，所述历史对话日志数据包括多个问题数据和对应的语义解析信息；

重复问题识别模块920，用于基于所述多个问题数据进行重复问题识别，得到至少一个重复问题集；

语义解析波动指标计算模块930，用于基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标；

目标重复问题集确定模块940，用于基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集；

目标数据确定模块950，用于将所述目标重复问题集作为所述目标对话系统中的目标数据。

具体地，每个问题数据包括问题文本和问题属性信息，上述的重复问题识别模块920可以包括：

数据分段单元，用于根据所述多个问题数据的问题属性信息对所述多个问题数据进行数据分段，得到至少一个会话片段；

相似度计算单元，用于对每个会话片段中的问题文本进行文本相似度计算，得到所述每个会话片段对应的文本相似度信息；

聚类单元，用于根据所述每个会话片段对应的文本相似度信息分别对所述每个会话片段中的问题数据进行聚类处理，得到所述至少一个重复问题集。

在一个实施例中，所述问题属性信息包括用户标识信息和提问时间信息，上述的数据分段单元可以包括：

数据分类单元，用于根据所述多个问题数据的用户标识信息对所述多个问题数据进行分类，得到至少一个用户问题数据集；

排序单元，用于分别根据每个用户问题数据集中问题数据的提问时间信息，对所述每个用户问题数据集中的问题数据进行排序，得到至少一个更新用户问题数据集；

数据截取单元，用于根据预设数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到所述至少一个会话片段。

在一个实施例中，上述的数据截取单元可以包括：

截断单元，用于根据预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断，得到至少一个截取数据片段；

问题数据数量确定单元，用于确定每个截取数据片段中的问题数据数量；

数据筛选单元，用于将问题数据数量满足预设会话筛选条件的截取数据片段作为所述至少一个会话片段。

在本申请实施例中，上述的语义解析波动指标计算模块930可以包括：

信息熵计算单元，用于分别计算所述每个重复问题集对应的语义解析信息的信息熵；

语义解析波动指标确定单元，用于将所述每个重复问题集对应的语义解析信息的信息熵作为所述每个重复问题集对应的语义解析波动指标。

在一个实施例中，上述的目标重复问题集确定模块940可以包括：

第一目标重复问题集筛选单元，用于当所述至少一个重复问题集中的任一重复问题集对应的语义解析波动指标大于或等于预设阈值时，将对应的语义解析波动指标大于或等于预设阈值对应的重复问题集作为所述目标重复问题集。

在一个实施例中，当所述至少一个重复问题集包括多个重复问题集时，上述的目标重复问题集确定模块940可以包括：

重复问题集排序单元，用于按照所述多个重复问题集对应的语义解析波动指标从大到小的顺序对所述多个重复问题集进行排序；

第二目标重复问题集筛选单元，用于将排名属于前预设个数的重复问题集作为所述目标重复问题集。

所述的装置实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的数据挖掘方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行，即上述计算机设备可以包括移动终端、计算机终端、服务器或者类似的运算装置。其中，上述的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。以运行在服务器上为例，图10是本申请实施例提供的一种用于实现上述数据挖掘方法的服务器的硬件结构框图。如图10所示，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(CentralProcessing Units，CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作系统1021，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

处理器1010可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1040可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

操作系统1021可以包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

本申请的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种数据挖掘方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的数据挖掘方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

由上述本申请提供的数据挖掘方法、装置、设备、存储介质或计算机程序的实施例可见，本申请中通过获取目标对话系统的历史对话日志数据，提供充足且真实的数据进行目标数据的挖掘，提升数据挖掘的全面性和可靠性；然后，基于上述的多个问题数据进行重复问题识别，得到至少一个重复问题集，由于在用户利用智能对话系统进行人机对话的过程中，若针对某个问题用户没有得到满意的回答，往往会就该问题使用类似的表述进行反复尝试，通过挖掘这部分数据进行处理得到目标对话系统中的缺陷数据，进而能够对目标对话系统针对性优化，因此首先根据上述的多个问题数据的问题属性信息对上述的多个问题数据进行数据分段，得到至少一个会话片段，有利于提升数据挖掘的效率和可靠性。通过根据预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断，得到至少一个截取数据片段；确定每个截取数据片段中的问题数据数量，再将问题数据数量满足预设会话筛选条件的截取数据片段作为上述的至少一个会话片段，降低无关数据带来的干扰和资源占用，提升数据挖掘的效率和灵活性。通过对每个会话片段中的问题文本进行文本相似度计算，得到上述的每个会话片段对应的文本相似度信息，再根据上述的每个会话片段对应的文本相似度信息分别对上述的每个会话片段中的问题数据进行聚类处理，能够准确高效地得到重复问题集，提升目标数据挖掘的效率和可靠性。然后，基于每个重复问题集对应的语义解析信息分别计算上述每个重复问题集对应的语义解析波动指标，能够准确清晰地衡量各重复问题集对应的语义解析信息的不确定性，有利于提升目标数据挖掘的可靠性；再基于上述至少一个重复问题集对应的语义解析波动指标，从上述至少一个重复问题集中确定出目标重复问题集，提升数据挖掘的灵活性和准确性。最后，将上述的目标重复问题集作为该目标对话系统中的目标数据(缺陷数据)，进而能够优化目标对话系统的能力，改善用户体验。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据挖掘方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，每个问题数据包括问题文本和问题属性信息，所述基于所述多个问题数据进行重复问题识别，得到至少一个重复问题集包括：

根据所述多个问题数据的问题属性信息对所述多个问题数据进行数据分段，得到至少一个会话片段；

对每个会话片段中的问题文本进行文本相似度计算，得到所述每个会话片段对应的文本相似度信息；

根据所述每个会话片段对应的文本相似度信息分别对所述每个会话片段中的问题数据进行聚类处理，得到所述至少一个重复问题集。

3.根据权利要求2所述的方法，其特征在于，所述问题属性信息包括用户标识信息和提问时间信息，所述根据所述多个问题数据的问题属性信息对所述多个问题数据进行数据分段，得到至少一个会话片段包括：

根据所述多个问题数据的用户标识信息对所述多个问题数据进行分类，得到至少一个用户问题数据集；

分别根据每个用户问题数据集中问题数据的提问时间信息，对所述每个用户问题数据集中的问题数据进行排序，得到至少一个更新用户问题数据集；

根据预设数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到所述至少一个会话片段。

4.根据权利要求3所述的方法，其特征在于，所述根据预设数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截取处理，得到所述至少一个会话片段包括：

根据预设的数据截取规则对每个更新用户问题数据集中按序排列的问题数据进行截断，得到至少一个截取数据片段；

确定每个截取数据片段中的问题数据数量；

将问题数据数量满足预设会话筛选条件的截取数据片段作为所述至少一个会话片段。

5.根据权利要求1所述的方法，其特征在于，所述基于每个重复问题集对应的语义解析信息分别计算所述每个重复问题集对应的语义解析波动指标包括：

分别计算所述每个重复问题集对应的语义解析信息的信息熵；

将所述每个重复问题集对应的语义解析信息的信息熵作为所述每个重复问题集对应的语义解析波动指标。

6.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集包括：

当所述至少一个重复问题集中的任一重复问题集对应的语义解析波动指标大于或等于预设阈值时，将对应的语义解析波动指标大于或等于预设阈值对应的重复问题集作为所述目标重复问题集。

7.根据权利要求1所述的方法，其特征在于，当所述至少一个重复问题集包括多个重复问题集时，所述基于所述至少一个重复问题集对应的语义解析波动指标，从所述至少一个重复问题集中确定出目标重复问题集包括：

按照所述多个重复问题集对应的语义解析波动指标从大到小的顺序对所述多个重复问题集进行排序；

将排名属于前预设个数的重复问题集作为所述目标重复问题集。

8.一种数据挖掘装置，其特征在于，所述装置包括：

9.一种数据挖掘设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的数据挖掘方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的数据挖掘方法。