CN113918712A

CN113918712A - 数据处理方法以及装置

Info

Publication number: CN113918712A
Application number: CN202111028716.9A
Authority: CN
Inventors: 武玉川; 黎航宇; 李永彬; 孙健
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2022-01-11

Abstract

本说明书实施例提供数据处理方法以及装置，其中所述数据处理方法包括：获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段，确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果，根据所述第一聚类结果确定所述目标对话角色的对话意图信息，确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

Description

数据处理方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着越来越多线上服务平台的出现，用户可通过服务平台进行线上咨询，这无疑为用户的生活增加了便利性。由于目前用户的线上服务咨询，例如：用户基于商品详情发出的提问，或基于电商平台所提供服务发出的提问，通常是基于人工在线回复，或人工依据预先设置好的答复模板通过设置的客服机器人进行回复，耗费大量人工成本。

目前大多服务平台对此所做出的改进大多是，由项目提供方采用预先构建的知识库生成相关话术，而目前知识库的构建以及话术的生成完全依赖人工或者通过挖掘高频的客户消息辅助人工，初期的人工成本非常高，并且由于知识需要迭代更新，因此知识库的更迭还需要由人工来持续维护，导致的维护成本高的问题，因此，亟需提出一种有效的方法以解决此类问题。

发明内容

有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段；

确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果；

根据所述第一聚类结果确定所述目标对话角色的对话意图信息；

确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

可选地，所述根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据，包括：

对每个对话集中的第二对话片段进行语义分析，并根据分析结果对所述第二对话片段进行标注；

根据生成的标注结果确定与对话意图信息对应的目标对话路径；

根据所述目标对话路径对应的第二对话片段，生成与所述对话意图信息对应的目标对话数据。

可选地，所述根据生成的标注结果确定与对话意图信息对应的目标对话路径，包括：

根据生成的标注结果建立每个对话集对应的对话路径；

确定目标聚类结果中包含的对话数据，并确定所述对话数据所属的目标对话集，其中，所述目标聚类结果为所述第一聚类结果之一；

对所述目标对话集对应的对话路径进行整合，生成与对话意图信息对应的目标对话路径。

可选地，所述根据生成的标注结果建立每个对话集对应的对话路径，包括：

根据每个对话集中与标注结果对应的第二对话片段间的跳转关系，计算不同标注结果间的转移概率；

根据所述转移概率构建所述标注结果对应的转移矩阵；

根据所述转移矩阵确定每个对话集对应的对话路径。

可选地，所述数据处理方法，还包括：

根据所述历史对话数据中第一对话轮次的对话数据，确定所述历史对话数据的对话类型；

根据所述对话类型确定所述目标对话轮次。

可选地，在所述历史对话数据为第一对话类型的情况下，所述确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果，包括：

确定每个对话集中包含目标对话轮次的第一对话片段；

提取所述第一对话片段中目标对话角色的对话数据，并利用基于密度的第一聚类算法对所述对话数据进行聚类，生成对应的第一聚类结果。

可选地，在所述历史对话数据为第二对话类型的情况下，所述将所述历史对话数据划分为至少两个对话集之后，还包括：

确定每个对话集中的第三对话片段；

提取所述第三对话片段中第一对话角色的对话数据，并利用均值聚类算法对所述第一对话角色的对话数据进行聚类，生成对应的第二聚类结果；

根据所述第二聚类结果确定与所述对话意图信息对应的起始对话数据；

根据所述起始对话数据从所述历史对话数据中筛选部分历史对话数据，并将所述部分历史对话数据划分为至少两个对话集；和/或，

将所述起始对话数据添加至所述目标对话数据中。

可选地，所述将所述历史对话数据划分为至少两个对话集，包括：

对所述历史对话数据进行清洗，生成对应的清洗结果；

对所述清洗结果中包含的历史对话数据进行向量化处理，生成对应的向量化数据；

根据所述向量化数据对所述清洗结果中包含的历史对话数据进行语义识别，并根据语义识别结果，将所述清洗结果中包含的历史对话数据划分为至少两个对话集。

可选地，所述确定每个对话集中与所述第一对话片段关联的第二对话片段之后，还包括：

提取所述第一对话片段中目标对话角色的对话数据，并利用基于密度的第二聚类算法对所述对话数据进行聚类，生成对应的第三聚类结果；

根据所述第三聚类结果确定所述目标对话角色的长尾意图信息；

根据所述第一对话片段确定与所述长尾意图信息对应的对话数据，将所述长尾意图信息对应的对话数据添加至所述目标对话数据。

对所述第二对话片段中第一对话角色的对话数据进行聚类，并对所述第二对话片段中第二对话角色的对话数据进行聚类，生成对应的第四聚类结果，其中，所述第二对话角色为所述目标对话角色；

根据所述第四聚类结果确定与所述对话意图信息对应的目标对话数据。

根据本说明书实施例的第二方面，提供了一种数据处理装置，包括：

获取模块，被配置为获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段；

聚类模块，被配置为确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果；

第一确定模块，被配置为根据所述第一聚类结果确定所述目标对话角色的对话意图信息；

第二确定模块，被配置为确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现所述数据处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

本说明书一个实施例通过获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段，确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果，根据所述第一聚类结果确定所述目标对话角色的对话意图信息，确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

本说明书实施例通过对第一对话片段中目标对话角色的对话意图信息进行聚类，根据聚类结果确定对话意图，并进一步根据与第一对话片段关联的第二对话片段确定与该对话意图对应的目标对话数据，有利于降低目标对话数据即话术构建的复杂度，从而有利于降低目标对话数据的构建成本，保证构建结果的准确性；另外，通过这种方式还有利于提高目标对话数据的构建效率。

附图说明

图1是本说明书一个实施例提供的一种数据处理方法的处理流程图；

图2(a)是本说明书一个实施例提供的第一种数据处理过程的示意图；

图2(b)是本说明书一个实施例提供的第二种数据处理过程的示意图；

图2(c)是本说明书一个实施例提供的第三种数据处理过程的示意图；

图3是本说明书一个实施例提供的一种数据处理方法的处理过程流程图；

图4是本说明书一个实施例提供的一种数据处理装置的示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

意图：是指对话过程中，用户说话所表达的目的。

对话流：英文名称taskflow，对话流是由一系列有顺序的对话节点组成，对话节点有多种类型，比如用户的触发节点(表达用户意图)，机器人的回复节点等。

半自动：对话流挖掘过程是按照对话过程先挖掘推荐用户开启意图，由用户做少许检查修正，之后再按照对话顺序往下挖掘下层的对话结构，每一步挖掘结果用户需要进行检查修正(check)，所以叫做半自动。

在本说明书中，提供了一种数据处理方法，本说明书同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

目前，业界的对话平台都是针对低资源场景如何构建对话机器人在展开研究，但是，对于客户能够提供大量数据富资源的场景研究较少，我们期望从客户提供的大量人人对话日志中，半自动挖掘出对话流(包括开启意图、对话结构、节点话术等内容)，在此基础上直接构建出一个对话机器人，大大降低机器人构建(用户意图、流程梳理，话术标注等)成本。

图1示出了根据本说明书一个实施例提供的一种数据处理方法的处理流程图，包括步骤102至步骤108。

步骤102，获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段。

具体的，所述历史对话数据即基于目标项目生成的对话数据，包括但不限于视频数据或音频数据等，所述目标项目包括但不限于信息查询项目、理赔项目、贷款项目、投资项目等，本说明书实施例以信息查询项目为例进行说明，理赔项目、贷款项目、投资项目的具体实现与信息查询项目的具体实现类似，参照信息查询项目的具体实现即可，在此不再赘述。

所述对话集即对话片段的集合，每个对话集中包含至少一个对话片段，并且每个对话集中包含的对话片段，具体通过对一段完整的项目处理过程所对应的历史对话数据进行对话片段划分生成；所述对话片段由至少一个对话轮次组成；而一个对话轮次即至少两个对话角色进行的一轮对话。

实际应用中，若所述目标项目为信息查询项目，则所述对话角色即包括但不限于需要进行信息查询的用户和为用户提供信息查询服务的客服；所述历史对话数据即为信息查询过程中生成的用户与客服间的完整对话数据，并且所述历史对话数据中包含多个完整对话数据。

本说明书实施例中，需根据历史对话数据构建与用户的对话意图信息对应的目标对话数据，即对话流，以在接收到用户的项目处理请求，并确定用户新的对话意图信息后，可根据所述对话流对用户进行自动回复。因此，在用户通过线上或线下的方式向项目提供方发送项目处理请求后，由项目提供方匹配对应的客服以为用户提供相应服务，并收集用户与客服的对话数据，将其作为历史对话数据，以用于确定用户的对话意图信息对应的目标对话数据。而所述历史对话数据即由所述项目提供方在用户通过线下的方式与客服进行对话的过程中，对对话内容以视频或音频形式进行记录所形成的视频数据或音频数据，或者，可以是由项目提供方在用户通过线上的方式与客服进行对话的过程中，对对话内容以图片或文字的形式进行记录所形成的图片数据或文字数据。

另外，在获取到所述历史对话数据后，需将所述历史对话数据转换为文本信息，以基于文本信息对历史对话数据进行对话片段划分，以基于对话片段的划分结果确定与用户的对话意图信息对应的目标对话数据，其中，对历史对话数据进行对话片段划分的过程，具体可通过以下方式实现：

对所述历史对话数据进行清洗，生成对应的清洗结果；

具体的，在获取到历史对话数据后，首先可将历史对话数据转换为文本信息，具体即对所述历史对话数据进行语音识别，获得识别生成的文本信息。

实际应用中，可使用语音识别技术(Automatic Speech Recognition，ASR)将所述历史对话数据中的声音信息转化为文字信息。

获得历史对话数据的文字信息后，可基于文字信息对所述历史对话数据进行清洗，由于语音识别获得的文字信息中，可能存在部分对话数据的识别结果准确率较低，例如对话角色识别错误，或在历史对话数据为视频数据或音频数据的情况下，由于部分视频数据或音频数据中存在噪音，或部分视频数据或音频数据中对话角色的对话声音偏低，导致无法成功识别其语义，或者，可能存在部分历史对话数据中对话角色间的对话内容过少的情况；针对上述情况，均可将这部分历史对话数据的识别结果(文本信息)做删除处理，以实现对历史对话数据的清洗。

清洗完成后，可对剩余的历史对话数据的文本信息进行向量化处理，生成对应的向量化数据，其中向量化处理具体可通过将所述文本信息输入神经网络，并由神经网络中的编码层对其进行编码处理实现。

编码完成后，可根据编码生成的向量化数据对剩余的历史对话数据进行语义识别，并根据语义识别结果，对清洗结果中包含的历史对话数据进行对话片段划分，生成至少两个对话集，其中，每个对话集中包含至少一个对话片段，并且每个对话集中包含的对话片段为对一个完整对话数据进行对话片段划分生成。

实际应用中，在将完整对话数据划分为多个对话片段后，还可将对话片段中包含的对话轮次进行合并，例如，一个完整对话数据中包含30个对话轮次，在进行对话片段划分过程中，按照语义识别结果将其划分为10个对话片段，每个对话片段中包含3个对话轮次，由于每个对话片段中可能包含部分无实际意义的对话数据，例如：嗯、啊等语气词，或一些重复的对话数据等，或者，不同对话片段中不同对话角色的重要程度不同；因此，可根据对话片段中对话角色的重要程度对每个对话片段中的对话轮次进行合并，或将对话片段中无实际意义的对话数据删除，再将合并或删除对话数据后生成的对话片段作为所述对话集中的对话片段。

通过对历史对话数据进行清洗处理，并利用清洗后的数据确定用户的对话意图，以及与该对话意图对应的目标对话数据，有利于保证对话意图及目标对话数据二者的确定结果的准确性。

步骤104，确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果。

具体的，所述目标对话角色为历史对话数据中至少两个对话角色之一。

由于本说明书实施例的目的在于根据历史对话数据为目标项目下不同用户的对话意图信息构建目标对话数据，即对话流，从而通过所述对话流实现对用户的自动回复；因此，在生成目标对话数据的过程中，需对对话片段进行对话角色划分，以利用目标对话角色的对话数据确定用户的意图信息，而所述目标对话角色即为所述用户。

具体实施时，在确定每个对话集中包含目标对话轮次的第一对话片段后，即可对所述第一对话片段中用户的对话数据进行聚类，生成对应的第一聚类结果，而由于不同历史对话数据可能对应不同的对话类型，因此，本说明书实施例可先确定历史对话数据的对话类型，再根据对话类型确定目标对话轮次，具体可通过以下方式实现：

根据所述对话类型确定所述目标对话轮次。

进一步的，在所述历史对话数据为第一对话类型的情况下，所述确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果，包括：

确定每个对话集中包含目标对话轮次的第一对话片段；

具体的，所述对话类型具体可根据历史对话数据中对话的发起者确定。由于历史对话数据中的至少两个对话角色可以是客服和用户，因此，若历史对话数据中对话的发起者为用户，则将所述历史对话数据确定为第一对话类型；若历史对话数据中对话的发起者为客服，则将所述历史对话数据确定为第二对话类型。确定对话类型后，即可根据对话类型确定所述目标对话轮次。

实际应用中，在所述历史对话数据为第一对话类型的情况下，相当于该历史对话是由用户主动发起，这种情况下，通常历史对话数据中前几个对话轮次的对话数据可能主要是用户向客服表达其发起对话的意图，即根据历史对话数据中前1至3个对话轮次或前1至5个对话轮次的对话数据即可确定用户的对话意图信息，因此，这种情况下，可将历史对话数据中前1至3个对话轮次或前1至5个对话轮次的对话数据作为目标对话轮次，并将包含该目标对话轮次的对话片段作为第一对话片段。

另外，在所述历史对话数据为第二对话类型的情况下，相当于该历史对话是由客服主动发起，这种情况下，通常历史对话数据中前几个对话轮次的数据可能主要是客服向用户表达其发起对话的意图，即根据历史对话数据中前1至3个对话轮次或前1至5个对话轮次的对话数据无法确定用户的对话意图信息，因此，可先对前1至3个对话轮次或前1至5个对话轮次中客服的对话数据进行聚类，以根据聚类结果确定客服的开场话术(开场语)，并根据历史对话数据中4至8个对话轮次或6至9个对话轮次的对话数据确定用户的对话意图信息；因此，这种情况下，可将历史对话数据中4至8个对话轮次或6至9个对话轮次的对话数据作为目标对话轮次，并将包含该目标对话轮次的对话片段作为第一对话片段。

确定第一对话片段后，提取第一对话片段中用户的对话数据，以利用基于密度的第一聚类算法对所述对话数据进行聚类，生成对应的聚类结果；其中，所述基于密度的第一聚类算法可以是HDBSCAN算法。

本说明书实施例根据对话类型确定目标对话轮次，并利用基于密度的第一聚类算法对目标对话轮次中目标对话角色的对话数据进行聚类，以根据聚类结果确定目标对话角色的对话意图，有利于保证对话意图确定结果的准确性。

步骤106，根据所述第一聚类结果确定所述目标对话角色的对话意图信息。

具体的，在对第一对话片段中目标对话角色的对话数据进行聚类得到多个聚类结果后，可通过对各聚类结果中包含的用户的对话数据进行语义识别，以根据语义识别结果确定与各聚类结果对应的用户的对话意图信息。

步骤108，确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

具体的，在所述历史对话数据为第一对话类型的情况下，历史对话数据中的前1至3个对话轮次或前1至5个对话轮次的对话数据作为目标对话轮次，包含该目标对话轮次的对话片段即为第一对话片段；因此，所述第二对话片段即为每个对话集中除第一对话片段外的其他对话片段。

确定每个聚类结果对应的用户的对话意图信息后，可确定聚类结果中包含的用户的对话数据，并根据所述对话数据所属对话集中包含的第二对话片段，确定与所述对话意图信息对应的目标对话数据(对话流，该对话流由不同对话节点对应的话术组成)。

例如，本说明书实施例获取了10个完整的历史对话数据，分别为历史对话数据1至历史对话数据10，其中历史对话数据1至历史对话数据8为第一对话类型，这种情况下，可先对第一历史对话数据1至历史对话数据8的第一对话片段中包含的用户的对话数据进行聚类，生成两个聚类簇，分别为聚类簇1和聚类簇2，其中，聚类簇1中包含历史对话数据1至历史对话数据4的第一对话片段中用户的对话数据；因此，在根据聚类簇1确定用户的对话意图信息1后，可继续根据历史对话数据1至历史对话数据4中的第二对话片段确定对话意图信息1对应的目标对话数据。

具体实施时，根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据，包括：

进一步的，根据生成的标注结果确定与对话意图信息对应的目标对话路径，具体可通过以下方式实现：

根据生成的标注结果建立每个对话集对应的对话路径；

更进一步的，根据生成的标注结果建立每个对话集对应的对话路径，包括：

根据所述转移概率构建所述标注结果对应的转移矩阵；

根据所述转移矩阵确定每个对话集对应的对话路径。

具体的，确定目标对话角色的对话意图信息(开启意图)后，可根据对话集中与第一对话片段关联的第二对话片段，确定与该对话意图信息对应的目标对话数据，具体可对每个对话集中的第二对话片段进行语义分析，并根据分析结果对所述第二对话片段进行标注(打标)，对于属于同一语义类别的第二对话片段，可用同一标签进行标注；其中，开启意图的确定过程，即对同一对话集中不同对话片段包含的用户表述(用户的对话数据)进行聚类，并根据聚类结果确定开启意图。

标注完成后，可确定每个对话集中第二对话片段间的跳转关系，并根据标签与第二对话片段间的对应关系，确定每个数据集中标签间的跳转关系，再基于标签间的跳转关系，计算不同标签(标注结果)间的转移概率；然后根据所述转移概率构建所述标签对应的转移矩阵，并根据所述转移矩阵确定每个对话集对应的对话路径。

生成每个对话集对应的对话路径后，可确定各聚类结果中包含的对话数据，并确定所述对话数据所属的目标对话集，然后对所述目标对话集对应的对话路径进行整合，以生成与对话意图信息对应的目标对话路径，其中，标签可作为目标对话路径中的节点；另外，路径整合方式包括但不限于过滤不完整路径及合并回复节点等。

生成与该对话意图信息对应的目标对话路径后，可将该目标对话路径挂在当前意图节点下，以在接收到用户的项目请求，并确定用户的意图与该意图节点的意图信息一致的情况下，可基于所述目标对话路径对用户进行自动回复。

此外，生成目标对话路径后，根据所述目标对话路径对应的第二对话片段，即可生成与所述对话意图信息对应的目标对话数据。

本说明书实施例根据第二对话片段的语义信息对第二对话片段进行标注，并根据与不同标注结果对应的第二对话片段间的跳转关系，构建转移矩阵，以基于转移矩阵确定每个对话意图对应的对话路径，有利于对话路径的保证构建结果的准确性；另外，通过这种方式还有利于提高对话路径的构建效率。

如前所述，可将历史对话数据划分为两种对话类型，在所述历史对话数据为第二对话类型的情况下，所述将所述历史对话数据划分为至少两个对话集之后，还包括：

确定每个对话集中的第三对话片段；

将所述起始对话数据添加至所述目标对话数据中。

具体的，本说明书实施例提供的第一种数据处理过程的示意图如图2(a)所示，在所述历史对话数据为第二对话类型的情况下，所述第三对话片段即由历史对话数据中前1至3个对话轮次或前1至5个对话轮次的对话数据组成，并且所述第一对话角色即为客服。

确定每个对话集中的第三对话片段后，可提取所述第三对话片段中客服的对话数据(客服话术)，并利用均值聚类算法(K-means聚类算法)对客服的对话数据进行聚类，生成对应的第二聚类结果(簇1和簇2)。

实际应用中，可对第二聚类结果中包含的客服的对话数据进行语义识别和整合，并根据整合结果确定使用频率较高的目标对话数据，并将该目标对话数据对应的整合结果作为与该对话意图信息的对话流的起始节点，将该目标对话数据作为所述起始节点的话术(系统欢迎语/通知)。

通过这种方式，有利于保证目标对话数据的构建结果的完整性。

另外，确定所述起始节点的话术后，还可根据所述语义整合结果从所述历史对话数据中筛选部分历史对话数据，并将所述部分历史对话数据划分为至少两个对话集；以进一步根据每个对话集中包含目标对话轮次的第一对话片段以及与所述第一对话片段关联的第二对话片段，确定用户的对话意图信息，以及与对话意图信息对应的目标对话数据。

具体实施时，根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据，还可通过以下方式实现：

具体的，具体的，本说明书实施例提供的第二种数据处理过程的示意图如图2(b)所示，确定目标对话角色的对话意图信息(开启意图)后，可根据对话集中与第一对话片段关联的第二对话片段，确定与该对话意图信息对应的目标对话数据，具体可从所述第二对话片段中提取用户(第二对话角色，即目标对话角色)的对话数据，并对用户的对话数据进行聚类，得到多个聚类簇，然后从所述第二对话片段中提取客服(第一对话角色)的对话数据，并对客服的对话数据进行聚类，得到多个聚类簇，然后将每个聚类簇作为一个对话节点，根据每个聚类簇中包含的对话数据确定每个对话节点的节点话术，然后根据各聚类簇中用户的对话数据与客服的对话数据间的前后对话顺序，确定对话节点间的跳转关系，再根据跳转关系计算不同对话节点间的转移概率，然后根据所述转移概率构建对话节点对应的转移矩阵，并根据所述转移矩阵确定每个对话意图信息对应的对话路径，具体可根据对话节点间的转移概率进行对话节点的筛选，即筛选转移概率大于预设概率阈值的对话节点，并根据筛选结果构建每个对话意图信息对应的对话路径。

此外，确定每个对话集中与所述第一对话片段关联的第二对话片段之后，还包括：

具体的，本说明书实施例提供的第三种数据处理过程的示意图如图2(c)所示，从目标项目的项目日志中获取到历史对话数据后，对所述历史对话数据进行预处理，包括句子编码、数据清洗以及对话集划分，预处理后，从数据的起始对话轮次开始挖掘用户的对话意图；其中，挖掘到用户的对话意图后，还需将其发送至审核人员进行审核，以由审核人员对较为相近的意图进行整合，或对部分无用的或错误的意图进行删除等操作，以提高意图挖掘结果的准确性。

进一步的，确定用户的对话意图后，可进一步从后续轮次挖掘对话结构，具体即构建转移矩阵，以根据转移矩阵中各对话节点间的转移概率确定与对话意图对应的对话路径。确定对话路径后，还可从噪音回捞长尾意图及话术，具体可提取第一对话片段的对话数据，并利用HDBSCAN算法(基于密度的第二聚类算法)对所述对话数据进行聚类，生成对应的第三聚类结果，根据所述第三聚类结果确定所述目标对话角色的长尾意图信息，并根据所述第一对话片段确定与所述长尾意图信息对应的对话数据，将所述长尾意图信息对应的对话数据添加至所述目标对话数据，生成与该对话意图对应的对话流，其中，所述第一聚类算法和第二聚类算法的聚类密度不同。

实际应用中，在利用基于密度的第一聚类算法对第一对话片段中目标对话角色的对话数据进行聚类时，可通过设置阈值的方式，向用户展示密度大于等于预设阈值的第一聚类结果，以基于第一聚类结果确定用户意图，但由于密度小于预设阈值的其他聚类结果中，可能同样包含部分有用的意图信息，因此，为保证意图确定结果的准确性，本说明书实施例可从密度小于预设阈值的其他聚类结果中进行长尾意图识别，并根据第一对话片段与该长尾意图对应的对话数据，对所述目标对话数据进行补充，以生成与该对话意图对应的对话流。

本说明书一个实施例通过获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段，确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的聚类结果，根据所述聚类结果确定所述目标对话角色的对话意图信息，确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

下述结合附图3，以本说明书提供的数据处理方法在信息查询项目的应用为例，对所述数据处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图，具体步骤包括步骤302至步骤326。

步骤302，获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集。

其中，每个对话集包含至少一个对话片段。

步骤304，根据所述历史对话数据中第一对话轮次的对话数据，确定所述历史对话数据的对话类型。

步骤306，根据所述对话类型确定目标对话轮次。

步骤308，确定每个对话集中包含目标对话轮次的第一对话片段。

步骤310，提取所述第一对话片段中用户的对话数据，并利用基于密度的第一聚类算法对所述对话数据进行聚类，生成对应的第一聚类结果。

步骤312，根据所述第一聚类结果确定所述用户的对话意图信息。

步骤314，确定每个对话集中与所述第一对话片段关联的第二对话片段，对所述第二对话片段中第一对话角色的对话数据进行聚类，并对所述第二对话片段中第二对话角色的对话数据进行聚类，生成对应的第二聚类结果。

步骤316，对第二聚类结果进行标注，根据各第二聚类结果中用户的对话数据与客服的对话数据间的前后对话顺序，确定标注结果间的跳转关系，并根据所述跳转关系，计算不同标注结果间的转移概率。

步骤318，根据所述转移概率构建所述标注结果对应的转移矩阵。

步骤320，根据所述转移矩阵确定每个对话集对应的对话路径。

步骤322，确定目标聚类结果中包含的对话数据，并确定所述对话数据所属的目标对话集。

其中，所述目标聚类结果为所述聚类结果之一。

步骤324，对所述目标对话集对应的对话路径进行整合，生成与对话意图信息对应的目标对话路径。

步骤326，根据所述目标对话路径对应的第二对话片段，生成与所述对话意图信息对应的目标对话数据。

与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图4示出了本说明书一个实施例提供的一种数据处理装置的示意图。如图4所示，该装置包括：

获取模块402，被配置为获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段；

聚类模块404，被配置为确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果；

第一确定模块406，被配置为根据所述第一聚类结果确定所述目标对话角色的对话意图信息；

第二确定模块408，被配置为确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

可选地，所述第二确定模块408，进一步被配置为：

根据生成的标注结果建立每个对话集对应的对话路径；

可选地，所述第二确定模块408，进一步被配置为：

根据所述转移概率构建所述标注结果对应的转移矩阵；

根据所述转移矩阵确定每个对话集对应的对话路径。

可选地，所述数据处理装置，还包括：

对话类型确定模块，被配置为根据所述历史对话数据中第一对话轮次的对话数据，确定所述历史对话数据的对话类型；

对话轮次确定模块，被配置为根据所述对话类型确定所述目标对话轮次。

可选地，在所述历史对话数据为第一对话类型的情况下，所述聚类模块404，进一步被配置为：

确定每个对话集中包含目标对话轮次的第一对话片段；

可选地，在所述历史对话数据为第二对话类型的情况下，所述数据处理装置，还包括：

对话片段确定模块，被配置为确定每个对话集中的第三对话片段；

第一生成模块，被配置为提取所述第三对话片段中第一对话角色的对话数据，并利用均值聚类算法对所述第一对话角色的对话数据进行聚类，生成对应的第二聚类结果；

处理模块，被配置为根据所述第二聚类结果确定与所述对话意图信息对应的起始对话数据；

划分模块，被配置为根据所述起始对话数据从所述历史对话数据中筛选部分历史对话数据，并将所述部分历史对话数据划分为至少两个对话集；和/或，

添加模块，被配置为将所述起始对话数据添加至所述目标对话数据中。

可选地，所述获取模块402，进一步被配置为：

对所述历史对话数据进行清洗，生成对应的清洗结果；

可选地，所述数据处理装置，还包括：

第二生成模块，被配置为提取所述第一对话片段中目标对话角色的对话数据，并利用基于密度的第二聚类算法对所述对话数据进行聚类，生成对应的第三聚类结果；

信息确定模块，被配置为根据所述第三聚类结果确定所述目标对话角色的长尾意图信息；

数据确定模块，被配置为根据所述第一对话片段确定与所述长尾意图信息对应的对话数据，将所述长尾意图信息对应的对话数据添加至所述目标对话数据。

可选地，所述第二确定模块408，进一步被配置为：

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。其中，所述存储器510用于存储计算机可执行指令，处理器520用于执行如下计算机可执行指令：

确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的聚类结果；

根据所述聚类结果确定所述目标对话角色的对话意图信息；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的数据处理方法，所述根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据，包括：

3.根据权利要求2所述的数据处理方法，所述根据生成的标注结果确定与对话意图信息对应的目标对话路径，包括：

根据生成的标注结果建立每个对话集对应的对话路径；

4.根据权利要求2所述的数据处理方法，所述根据生成的标注结果建立每个对话集对应的对话路径，包括：

根据所述转移概率构建所述标注结果对应的转移矩阵；

根据所述转移矩阵确定每个对话集对应的对话路径。

5.根据权利要求1所述的数据处理方法，还包括：

根据所述对话类型确定所述目标对话轮次。

6.根据权利要求5所述的数据处理方法，在所述历史对话数据为第一对话类型的情况下，所述确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果，包括：

确定每个对话集中包含目标对话轮次的第一对话片段；

7.根据权利要求5或6所述的数据处理方法，在所述历史对话数据为第二对话类型的情况下，所述将所述历史对话数据划分为至少两个对话集之后，还包括：

确定每个对话集中的第三对话片段；

将所述起始对话数据添加至所述目标对话数据中。

8.根据权利要求1所述的数据处理方法，所述将所述历史对话数据划分为至少两个对话集，包括：

对所述历史对话数据进行清洗，生成对应的清洗结果；

9.根据权利要求6所述的数据处理方法，所述确定每个对话集中与所述第一对话片段关联的第二对话片段之后，还包括：

10.根据权利要求1所述的数据处理方法，所述根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据，包括：

11.一种数据处理装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现权利要求1至10任意一项所述数据处理方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至10任意一项所述数据处理方法的步骤。