CN115658889A

CN115658889A - 对话处理方法、装置、设备及存储介质

Info

Publication number: CN115658889A
Application number: CN202211256001.3A
Authority: CN
Inventors: 樊艳
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-31
Anticipated expiration: 2042-10-13
Also published as: CN115658889B

Abstract

本公开涉及一种对话处理方法、装置、设备及存储介质。本公开通过目标类别建立多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系，从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇，以及从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，使得所述目标聚类簇和所述基准聚类簇的相似度满足预设条件。进一步，将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中，使得不同预设类别的关键词通过目标类别这种数据结构连接在一起，保证了连接在一起的关键词之间存在语义关系，避免将没有关联关系的关键词组合在一起构成结构化数据，从而提高了结构化数据的准确度。

Description

对话处理方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种对话处理方法、装置、设备及存储介质。

背景技术

目前，通过对真人客服和消费者之间的对话记录进行分析，可以从该对话记录中提取出结构化数据，从而给消费者提供更精准、更智能的商品推荐能力。

但是，现有技术可能会将对话记录中没有关联关系的关键词组合在一起构成结构化数据，从而降低了结构化数据的准确度。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种对话处理方法、装置、设备及存储介质，以提高结构化数据的准确度。

第一方面，本公开实施例提供一种对话处理方法，包括：

获取一个或多个对话中与用户诉求相关的一个或多个导购问句；

针对所述一个或多个导购问句中的每个导购问句，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词，所述多个预设类别包括目标类别，所述目标类别用于建立所述多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系；

针对所述多个预设类别中的每个预设类别，根据所述一个或多个导购问句中与所述预设类别对应的一个或多个关键词分别对应的表示向量，对所述一个或多个关键词进行聚类，得到一个或多个聚类簇；

从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇，从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件；

将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中。

第二方面，本公开实施例提供一种对话处理装置，包括：

获取模块，用于获取一个或多个对话中与用户诉求相关的一个或多个导购问句；

第一确定模块，用于针对所述一个或多个导购问句中的每个导购问句，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词，所述多个预设类别包括目标类别，所述目标类别用于建立所述多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系；

聚类模块，用于针对所述多个预设类别中的每个预设类别，根据所述一个或多个导购问句中与所述预设类别对应的一个或多个关键词分别对应的表示向量，对所述一个或多个关键词进行聚类，得到一个或多个聚类簇；

选取模块，用于从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇；

第二确定模块，用于从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件；

融合模块，用于将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的对话处理方法、装置、设备及存储介质，通过获取一个或多个对话中与用户诉求相关的一个或多个导购问句，针对所述一个或多个导购问句中的每个导购问句，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词。由于所述多个预设类别包括目标类别，所述目标类别用于建立所述多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系，因此，针对所述多个预设类别中的每个预设类别，根据所述一个或多个导购问句中与所述预设类别对应的一个或多个关键词分别对应的表示向量，对所述一个或多个关键词进行聚类，得到一个或多个聚类簇后，可以从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇，以及从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，使得所述目标聚类簇和所述基准聚类簇的相似度满足预设条件。进一步，将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中，使得不同预设类别的关键词通过目标类别这种数据结构连接在一起，保证了连接在一起的关键词之间存在语义关系，避免将没有关联关系的关键词组合在一起构成结构化数据，从而提高了结构化数据的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的对话处理方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开实施例提供的对话的示意图；

图4为本公开另一实施例提供的对话处理方法流程图；

图5为本公开另一实施例提供的联合任务的示意图；

图6为本公开另一实施例提供的聚类的示意图；

图7为本公开另一实施例提供的对话处理方法流程图；

图8为本公开另一实施例提供的同质匹配和异质匹配的示意图；

图9为本公开实施例提供的对话处理装置的结构示意图；

图10为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，通过对真人客服和消费者之间的对话记录进行分析，可以从该对话记录中提取出结构化的数据，从而给消费者提供更精准、更智能的商品推荐能力。但是，现有技术可能会将对话记录中没有关联关系的关键词组合在一起构成结构化数据，从而降低了结构化数据的准确度。针对该问题，本公开实施例提供了一种对话处理方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的对话处理方法流程图。该方法可以由对话处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端中，其中，终端具体包括手机、电脑或平板电脑等。另外，本实施例所述的对话处理方法可以适用于如图2所示的应用场景。如图2所示，该应用场景包括终端21和服务器22，其中，终端21可用于记录真实的人人对话，该人人对话可以是用户与导购人员之间的对话。进一步，终端21可以将文本形式或语音形式的人人对话发送给服务器22。可以理解的是，终端21给服务器22提供的人人对话不限于一通对话，例如还可以是多通对话，该多通对话可以是同一用户与导购人员在不同时间发生的对话，或者该多通对话可以是多个用户分别与导购人员在不同时间或相同时间发生的对话。其中，不同时间的导购人员可能是同一人，也可能不是同一人。另外，服务器22不仅可以接收终端21提供的人人对话，例如还可以接收其他终端或其他服务器提供的人人对话。从而使得服务器22可以获取到至少一通人人对话。进一步，服务器22可以采用本实施例所述的方法对该至少一通人人对话进行处理或分析，以便从该至少一通人人对话中提取出结构化数据。可以理解的是，在一些实施例中，还可以由终端21采用本实施例所述的方法对其获取到的至少一通人人对话进行处理或分析，以便从该至少一通人人对话中提取出结构化数据，该结构化数据可以是一组或多组，如果是多组结构化数据，那么每组结构化数据可以对应一个品类，不同结构化数据所对应的品类不同。下面结合图2对该方法进行详细介绍，如图1所示，该方法具体步骤如下：

S101、获取一个或多个对话中与用户诉求相关的一个或多个导购问句。

例如，以图2所示的服务器22为例，服务器22可以从终端21、其他终端或其他服务器接收至少一通人人对话。进一步，服务器22可以从该至少一通人人对话中获取出与用户诉求相关的一个或多个导购问句。例如图3所示为用户与导购人员的对话示意图，在该对话中，“YYYYY”、“MMMMM”、“VVVVV”分别是导购问句，但是，可能其中有部分是与用户诉求相关的导购问句，剩余是与用户诉求无关的导购问句。例如，“YYYYY”是“请问您要什么品牌的空调？”，“MMMMM”是“请问您要几匹的空调？”，“VVVVV”是“请问您贵姓？”，其中，“YYYYY”和“MMMMM”分别是与用户诉求例如购买空调相关的导购问句，“VVVVV”是与用户诉求无关的导购问句。

可以理解的是，服务器22不仅可以从一通对话中提取与用户诉求相关的一个或多个导购问句，若服务器22获取到多通对话，则服务器22可以从该多通对话的每一通对话中分别提取与用户诉求相关的一个或多个导购问句。

S102、针对所述一个或多个导购问句中的每个导购问句，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词，所述多个预设类别包括目标类别，所述目标类别用于建立所述多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系。

例如，服务器22从该多通对话的每一通对话中分别提取与用户诉求相关的一个或多个导购问句后，针对该一个或多个导购问句中的每个导购问句，服务器22可以先确定出该导购问句中每个文本单元的表示向量，在本实施例中，一个文本单元可以是一个字，在其他实施例中，一个文本单元还可以是一个分词、一个词组、一个字符、一个字母、一个单词等单元。在本实施例中，一个文本单元可以记为一个token。

另外，在本实施例中，还可以设置有多个预设类别，例如，属性名、属性值、属性对。其中，属于属性名的关键词、分词或词组可以是交互询问的各方面内容，例如，肤质、皮肤类型、出油状态等。属于属性值的关键词、分词或词组可以是某个属性下可能符合的各种选项情况，例如，干皮、混合型、油皮等。以关键词为例，如果某个导购问句中同时出现了属于属性名的关键词和属于属性值的关键词，那么该属于属性名的关键词和属于属性值的关键词可以构成一个属性对，例如，从美妆领域中抽取到的(肤质，干性，油性)构成一个属性对，其中，“肤质”是属于属性名的关键词，“干性”和“油性”分别是属于属性值的关键词。

在本实施例中，针对每个与用户诉求相关的导购问句，根据该导购问句中每个字的表示向量，可以确定出该导购问句中与该多个预设类别中至少一个预设类别分别对应的关键词。也就是说，对于同一个导购问句而言，该导购问句中可能包括属性名、属性值、属性对中的一种或多种类别的关键词，即不同导购问句可能包括不同类别的关键词，例如，导购问句A中只包括属性名对应的关键词即属于属性名的关键词，导购问句B中同时包括属性名、属性值、属性对分别对应的关键词。

另外，在本实施例中，由于属性对是由同一导购问句中属于属性名的关键词和属于属性值的关键词构成的，即属性对建立起了除属性对之外的其他预设类别中不同预设类别的关键词之间的语义关系，因此，可以将属性对记为该多个预设类别中的目标类别。

S103、针对所述多个预设类别中的每个预设类别，根据所述一个或多个导购问句中与所述预设类别对应的一个或多个关键词分别对应的表示向量，对所述一个或多个关键词进行聚类，得到一个或多个聚类簇。

例如，从每个与用户诉求相关的导购问句中确定出属性名、属性值、属性对分别对应的关键词之后，所有属于属性名的关键词可以构成属性名集合，所有属于属性值的关键词可以构成属性值集合，所有的属性对构成属性对集合。进一步，针对该多个预设类别中的每个预设类别，进行类别内的词聚类。例如，针对属性名集合，根据该属性名集合中每个关键词分别对应的表示向量，对所有属于属性名的关键词进行聚类，得到属性名这个类别下的一个或多个聚类簇。同理，针对属性值集合，根据该属性值集合中每个关键词分别对应的表示向量，对所有属于属性值的关键词进行聚类，得到属性值这个类别下的一个或多个聚类簇。同理，针对属性对集合，由于该属性对集合中可能包括一个或多个属性对，例如，以多个属性对为例，由于每个属性对包括多个关键词，因此，可以将一个属性对中的多个关键词各自的表示向量求平均，从而得到该属性对的表示向量。进一步，根据该属性对集合中每个属性对的表示向量，对该属性对集合中的所有属性对进行聚类，得到属性对这个类别下的一个或多个聚类簇。也就是说，每个聚类簇代表特定的属性名、属性值或属性对的聚合。

S104、从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇，从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件。

例如，属性对这个类别下有一个或多个聚类簇，本实施例中的服务器22可以从该一个或多个聚类簇中随机选取一个聚类簇作为基准聚类簇。进一步，以该基准聚类簇为基准，从属性名这个类别下的一个或多个聚类簇中确定出目标聚类簇，和/或从属性值这个类别下的一个或多个聚类簇中确定出目标聚类簇，使得目标聚类簇和所述基准聚类簇的相似度满足预设条件。

S105、将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中。

例如，将属性名这个类别下的目标聚类簇中的关键词和/或属性值这个类别下的目标聚类簇中的关键词融合到该基准聚类簇中，使得该基准聚类簇中的关键词不断扩大、增加，得到更新后的基准聚类簇。可以理解的是，如果属性对这个类别下有一个聚类簇，那么将该聚类簇作为基准聚类簇，并且得到更新后的基准聚类簇时，可以将该更新后的基准聚类簇作为一个结构化数据。如果属性对这个类别下有多个聚类簇，那么该多个聚类簇中的每个聚类簇可以分别作为一次基准聚类簇，从而使得该多个聚类簇中的每个聚类簇分别被更新，在这种情况下，每个更新后的基准聚类簇可以作为一个结构化数据，从而得到多个结构化数据。另外，在其他实施例中，该更新过程还可以不断迭代。例如，当属性对这个类别下的多个聚类簇分别作为一次基准聚类簇被更新后，还可以将更新后的每个聚类簇再依次作为基准聚类簇，从而继续执行S104和S105的步骤。

本公开实施例通过获取一个或多个对话中与用户诉求相关的一个或多个导购问句，针对所述一个或多个导购问句中的每个导购问句，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词。由于所述多个预设类别包括目标类别，所述目标类别用于建立所述多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系，因此，针对所述多个预设类别中的每个预设类别，根据所述一个或多个导购问句中与所述预设类别对应的一个或多个关键词分别对应的表示向量，对所述一个或多个关键词进行聚类，得到一个或多个聚类簇后，可以从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇，以及从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，使得所述目标聚类簇和所述基准聚类簇的相似度满足预设条件。进一步，将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中，使得不同预设类别的关键词通过目标类别这种数据结构连接在一起，保证了连接在一起的关键词之间存在语义关系，避免将没有关联关系的关键词组合在一起构成结构化数据，从而提高了结构化数据的准确度。

另外，有些现有技术是由运营人员从对话记录中提取出要问询的内容，并且提供该内容对应的完整全面的选项供消费者选择，从而将要问询的内容和完整全面的选项作为结构化数据。但是，如果运营人员对行业类目没有专业知识，那么将导致运营人员很难从对话记录中提取出完整全面的结构化数据，另外，通过人工的方式提取结构化数据还会导致提取效率较低。因此，相比于这类现有技术，本实施例可以自动从对话记录中提取结构化数据，提高了提取效率，节省了人工成本。另外，还可以解决由于运营人员对行业类目没有专业知识，导致的运营人员很难从对话记录中提取出完整全面的结构化数据的问题。

图4为本公开另一实施例提供的对话处理方法流程图。在本实施例中，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词，包括如下几个步骤：

S401、确定所述导购问句的句子类别。

例如图5所示，“您的肤质是干性还是油性呢”是一个导购问句，以该导购问句为例，可以先确定出该导购问句的句子类别。例如，在本实施例中，句子类别包括混合问句、选择问句、开放性问句和其他。

可选的，确定所述导购问句的句子类别，包括：在所述导购问句的起始位置增加预设字符；将所述预设字符和所述导购问句输入到编码器，使得所述编码器输出所述预设字符在所述导购问句上下文中的表示向量、以及所述导购问句中每个文本单元在所述上下文中的表示向量；根据所述预设字符在所述导购问句上下文中的表示向量，确定所述导购问句的句子类别。

如图5所示，在“您的肤质是干性还是油性呢”的起始位置增加预设字符例如[CLS]，[CLS]可以记为一个token。然后，将[CLS]和“您的肤质是干性还是油性呢”中的每个token(例如字)输入到基于转换器(Transformer)算法的双向编码表征算法(Bidirectional Encoder Representations from Transformers，BERT)编码器(Encoder)中。BERT编码器的内部首先对输入进行嵌入(embedding)层的表示，再通过多层叠加的Transformer层，Transformer层内部的实现机制是自注意力(self-attention)机制，通过self-attention机制，学习[CLS]、以及“您的肤质是干性还是油性呢”中每个token在该导购问句上下文中的表示向量。

如图5所示，进一步将[CLS]在该导购问句上下文中的表示向量输入到多层感知机(Multilayer Perceptron，MLP)中，使得MLP根据[CLS]在该导购问句上下文中的表示向量，进行句式分类，即确定该导购问句的句子类别。在本实施例中，可以将该句式分类记为任务1。另外，如图5所示的处理过程中还包括任务2，任务2是一个序列标注任务，所谓的序列标注是自然语言处理领域在句子层面中的一种主要任务，即在给定的文本序列上预测序列中需要作出标注的标签。例如任务2包括：将如图5所示的“您的肤质是干性还是油性呢”中的每个字在该导购问句上下文中的表示向量输入到双向长短期记忆神经网络(Bi-directional Long Short Term Memory Network，Bi-LSTM)，Bi-LSTM的输出进一步作为条件随机场(Conditional Random Field，CRF)的输入，使得CRF可以输出“您的肤质是干性还是油性呢”中每个字的标签，例如“肤”的标签是B-属性名，“质”的标签是i-属性名，“是”的标签是o，其中，B表示开头，i表示中间，o表示其他，因此，确定“肤质”这个关键词属于属性名。同理，可以确定“干性”和“油性”分别属于属性值。

另外，在本实施例中，任务1和任务2可以是两个自然语言理解的联合任务。通过对任务1和任务2的损失函数(loss)进行联合学习，可以同时提升这两个任务的准确率。

S402、根据所述句子类别确定所述导购问句中的关键词对应的至少一个预设类别。

由于导购问句的句子类别和从该导购问句中需要抽取的属性名或属性值对应的关键词是相互约束和关联的，因此，根据导购问句的句子类别，可以确定出该导购问句中包括哪种或哪些预设类别的关键词。

可选的，所述多个预设类别包括属性名、属性值、属性对，所述属性对包括属性名和属性值；根据所述句子类别确定所述导购问句中的关键词对应的至少一个预设类别，包括：若所述句子类别为混合问句，则确定所述导购问句包含有所述属性名和所述属性值分别对应的关键词。

例如，如果导购问句的句子类别是混合问句，说明该导购问句中大概率同时存在属性名对应的关键词和属性值对应的关键词。

如果导购问句的句子类别是开放性问句，例如，“您的肤质是什么”，那么该导购问句中大概率只包括属性名对应的关键词。

如果导购问句的句子类别是选择问句，例如，“您是干性还是油性”，那么该导购问句中大概率只包括属性值对应的关键词。

S403、根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与所述至少一个预设类别分别对应的关键词。

例如，将如图5所示的“您的肤质是干性还是油性呢”中的每个字在该导购问句上下文中的表示向量输入到双向长短期记忆神经网络(Bi-directional Long Short TermMemory Network，Bi-LSTM)，Bi-LSTM的输出进一步作为条件随机场(Conditional RandomField，CRF)的输入，使得CRF可以输出“您的肤质是干性还是油性呢”中每个字的标签，例如“肤”的标签是B-属性名，“质”的标签是i-属性名，“是”的标签是o，其中，B表示开头，i表示中间，o表示其他，因此，确定“肤质”这个关键词属于属性名。同理，可以确定“干性”和“油性”分别属于属性值。可见，由于“您的肤质是干性还是油性呢”是混合问句，所以从该导购问句中可以分析获取属性名对应的关键词和属性值对应的关键词。

本实施例将一个有监督的传统实体识别任务，转化为通过序列标注抽取特定类别的关键词序列任务，从而降低了实体类别定义的人工标注成本，便于跨领域拓展挖掘算法。

例如，从每个与用户诉求相关的导购问句中确定出属性名、属性值、属性对分别对应的关键词之后，所有属于属性名的关键词可以构成属性名集合，所有属于属性值的关键词可以构成属性值集合，所有的属性对构成属性对集合。

进一步，如图6所示，将属性名集合中的每个关键词输入到词向量(Wordembeddings，Word2vec)模型中，从而得到属性名集合中每个关键词的表示向量。同理，将属性值集合中的每个关键词输入到Word2vec模型中，得到属性值集合中每个关键词的表示向量。将属性对集合中的每个属性对输入到Word2vec模型中，得到每个属性对各自的表示向量。由于一个属性对包括多个关键词，因此，一个属性对的表示向量可以是该属性对包括的各个关键词的表示向量的平均值。进一步，采用K均值(K-means)聚类算法分别对每个类别(例如属性名、属性值、属性对)下的关键词进行聚类。例如，采用K-means聚类算法对属性名集合中的所有关键词进行聚类，得到聚类簇61、聚类簇62、聚类簇63，其中，根据每个聚类簇内不同关键词的表示向量，可以计算出不同关键词之间的距离，同一个聚类簇内的不同关键词之间的距离小于或等于预设值。同理，属性值集合中的所有关键词经过K-means聚类后，得到聚类簇71、聚类簇72、聚类簇73。属性对集合中的所有属性对经过K-means聚类后，得到聚类簇81、聚类簇82、聚类簇83，聚类簇81、聚类簇82、聚类簇83中的任意一个聚类簇包括一个或多个属性对。可以理解的是，图6只是示意性说明，并不限定每个类别下的聚类簇的个数。另外，每个聚类簇中的一个关键词可以记为一个节点。

另外，在一些实施例中，针对图6所示的每个类别下的聚类簇，还可以根据聚类簇的大小、聚类簇内每个关键词之间的相似度的平均值等维度评估每个聚类簇的质量，从而保留下置信度大于或等于预设阈值的聚类簇。

图7为本公开另一实施例提供的对话处理方法流程图。在本实施例中，从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件，包括如下几个步骤：

S701、将所述其他预设类别对应的多个聚类簇中的每个聚类簇作为候选簇，根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量，确定所述候选簇和所述基准聚类簇的第一相似度。

例如图6所示，在每个聚类簇中，黑色实心的小圆点用于表示属性名对应的关键词，空心的小圆点用于表示属性值对应的关键词。由于属性对是由属性名对应的关键词和属性值对应的关键词构成的，因此，聚类簇81、聚类簇82、聚类簇83分别包括黑色实心的小圆点和空心的小圆点。进一步，从聚类簇81、聚类簇82、聚类簇83中任选一个聚类簇例如聚类簇82作为基准聚类簇。将聚类簇61、聚类簇62、聚类簇63、聚类簇71、聚类簇72、聚类簇73依次作为候选簇。例如，以聚类簇61为例，根据聚类簇61中所有关键词的表示向量、以及聚类簇82中与聚类簇61具有相同预设类别的关键词的表示向量，确定聚类簇61和聚类簇82之间的第一相似度。其中，由于聚类簇61对应的预设类别是属性名，因此，聚类簇82中属于属性名的关键词是“肤质”。

可选的，根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量，确定所述候选簇和所述基准聚类簇的第一相似度，包括：计算所述候选簇中的所有关键词的表示向量的第一平均值；计算所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量的第二平均值；根据所述第一平均值和所述第二平均值，确定所述候选簇和所述基准聚类簇的第一相似度。

例如，根据聚类簇61中每个关键词的表示向量，计算聚类簇61中所有关键词的表示向量的第一平均值。进一步，计算聚类簇82中与聚类簇61具有相同预设类别的关键词的表示向量的第二平均值，由于聚类簇82中属于属性名的关键词只有一个即“肤质”，因此，在这种情况下，该第二平均值是“肤质”的表示向量。进一步，根据第一平均值和所述第二平均值，确定聚类簇61和聚类簇82之间的第一相似度。

S702、根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中的所有关键词的表示向量，确定所述候选簇和所述基准聚类簇的第二相似度。

另外，如图6所示，还可以根据聚类簇61中所有关键词的表示向量、以及聚类簇82中所有关键词的表示向量，确定聚类簇61和聚类簇82之间的第二相似度。

可选的，根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中的所有关键词的表示向量，确定所述候选簇和所述基准聚类簇的第二相似度，包括：计算所述候选簇中的所有关键词的表示向量的第一平均值；计算所述基准聚类簇中的所有关键词的表示向量的第三平均值；根据所述第一平均值和所述第三平均值，确定所述候选簇和所述基准聚类簇的第二相似度。

例如，根据聚类簇61中每个关键词的表示向量，计算聚类簇61中所有关键词的表示向量的第一平均值。进一步，计算聚类簇82中所有关键词即“肤质”、“干性”、“油性”各自对应的表示向量的第三平均值。进一步，根据第一平均值和第三平均值，确定聚类簇61和聚类簇82之间的第二相似度。

S703、在所述第一相似度满足第一预设条件，和/或所述第二相似度满足第二预设条件的情况下，将所述候选簇作为所述目标聚类簇。

在本实施例中，计算候选簇与基准聚类簇之间的第一相似度的过程记为同质匹配，计算候选簇与基准聚类簇之间的第二相似度的过程记为异质匹配。也就是说，同质匹配是将候选簇与基准聚类簇中与候选簇同种类别的关键词进行匹配，异质匹配是将候选簇与整个基准聚类簇进行匹配。

在一种可行的实现方式中，由于同一个候选簇可以对应有一个第一相似度和一个第二相似度，因此，对于同一个候选簇而言，如果第一相似度大于第一阈值，和/或第二相似度大于第二阈值，那么将该候选簇作为目标聚类簇，从而将该候选簇中的所有关键词融合到该基准聚类簇中。

在另一种可行的实现方式中，如图6所示，聚类簇61、聚类簇62、聚类簇63分别是属性名这个类别下的聚类簇，聚类簇61、聚类簇62、聚类簇63中的每个聚类簇分别对应有一个第一相似度和一个第二相似度。如果某个聚类簇的第一相似度和/或第二相似度是最大的，那么将该聚类簇作为目标聚类簇。也就是说，从同一个类别下的多个聚类簇中选取一个目标聚类簇。同理，可以从聚类簇71、聚类簇72、聚类簇73中选取一个目标聚类簇。

也就是说，在以基准聚类簇为基础的情况下，可以将另外两个不同类别的簇(属性名簇、属性值簇)与其进行对齐，从而达到异质簇融合的目标。其中，属性名簇是指属性名这个类别下的聚类簇，属性值簇是指属性值这个类别下的聚类簇。

另外，在其他实施例中，第一相似度还可以是候选簇中的每个关键词分别与基准聚类簇之间的相似度，第二相似度还可以是候选簇中的每个关键词分别与基准聚类簇之间的相似度。例如，以聚类簇61为例，聚类簇61中包括“皮肤”，根据“皮肤”的表示向量和聚类簇82中“肤质”的表示向量，进行同质匹配，得到第一相似度。根据“皮肤”的表示向量和聚类簇82整体的表示向量(即聚类簇82中所有关键词的表示向量的平均值)，进行异质匹配，得到第二相似度。同理，还可以计算出聚类簇61中的“表皮”对应的第一相似度和第二相似度。如果“皮肤”对应的第一相似度和第二相似度分别大于“表皮”对应的第一相似度和第二相似度，那么将“皮肤”融合到聚类簇82中，如图8所示。同理，当聚类簇71为候选簇时，计算聚类簇71中每个关键词分别对应的第一相似度和第二相似度。例如，聚类簇71中的“干皮”和聚类簇82中的油性”和“干性”属于同种类别，因此，根据聚类簇71中“干皮”的表示向量和聚类簇82中“油性”和“干性”分别对应的表示向量，进行同质匹配，得到第一相似度，例如，根据“干皮”的表示向量、以及油性”和“干性”各自表示向量的平均值计算第一相似度。进一步，根据“干皮”的表示向量和聚类簇82整体的表示向量，进行异质匹配，得到第二相似度。若“干皮”对应的第一相似度大于第一阈值，和/或“干皮”对应的第二相似度大于第二阈值，则将“干皮”融合到聚类簇82中，如图8所示。

在一些实施例中，为了确保准确率，每次进行同质匹配和异质匹配时，每个基准聚类簇最多可以融合一个同种类别的候选簇，例如，聚类簇82可以从属性名这个类别下的多个候选簇中融合进来一个候选簇，从属性值这个类别下的多个候选簇中融合进来一个候选簇。当针对聚类簇82的融合过程结束后，由于聚类簇82融合到了新的关键词，得到了更新后的基准聚类簇，例如图8所示的聚类簇91，因此，聚类簇82整体的表示向量将被更新为聚类簇91整体的表示向量。进一步，更换基准聚类簇，例如，更换为聚类簇81或聚类簇83，执行如上所述的融合过程。可以理解的是，针对同一个基准聚类簇，经过融合过程后，可能会融合到候选簇或候选簇中的某个关键词，也可能融合不到。

当聚类簇81、聚类簇82、聚类簇83分别经过融合过程后，那么进一步，从更新后的聚类簇81、更新后的聚类簇82、更新后的聚类簇83中再次逐一选取基准聚类簇，从而继续执行融合过程，即迭代匹配，直到不再有候选簇能够融合到基准聚类簇为止。可以理解的是，当某个候选簇被融合到基准聚类簇时，该候选簇可以在后续的迭代匹配中继续参与匹配，也可以不再参与后续的迭代匹配。经过多次迭代匹配后，最终产出的属性对这个类别下的每个聚类簇即包括同一个交互属性中所有可能的属性名和属性值，并且最终产出的属性对这个类别下的每个聚类簇可以作为一个结构化数据，用于提供给商家构建多轮导购行业模板，从而为大中小商家提供了开箱即用的行业导购模板。例如在美妆领域，一个特定的交互属性簇是由属性名集合(如肤质、皮肤类型、出油状态等)和属性值集合(如干性、混合型、油皮等)构成。

本实施例选择同质匹配和异质匹配这两种匹配方式的原因是，属性名和属性值是存在语义关联的，因此同时融合相同维度与整体维度的匹配计算有利于学到更丰富的语义信息。另外，本提案巧妙的借助了属性名和属性值在混合问句中的天然共现情况，将属于不同类别的关键词(如属性名与属性值)，通过属性对这种数据结构链接在一起。也就是说，不同类别的关系是通过属性名与属性值共现的属性对进行关联和保证的，例如，“肤质问题”和“眉毛粗大”不会出现在同一个句子中，因此在属性对簇与其他不同类别的聚类簇进行合并的过程中，不容易将“肤质问题”和“眉毛粗大”融合到同一个属性对簇(即属性对这个类别下的聚类簇)中，从而避免类似于“肤质问题”和“眉毛粗大”这种没有语义关系的关键词被融合到同一个属性对簇中，从而提高了结构化数据的准确度。

图9为本公开实施例提供的对话处理装置的结构示意图。本公开实施例提供的对话处理装置可以执行对话处理方法实施例提供的处理流程，如图9所示，对话处理装置90包括：

获取模块901，用于获取一个或多个对话中与用户诉求相关的一个或多个导购问句；

第一确定模块902，用于针对所述一个或多个导购问句中的每个导购问句，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词，所述多个预设类别包括目标类别，所述目标类别用于建立所述多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系；

聚类模块903，用于针对所述多个预设类别中的每个预设类别，根据所述一个或多个导购问句中与所述预设类别对应的一个或多个关键词分别对应的表示向量，对所述一个或多个关键词进行聚类，得到一个或多个聚类簇；

选取模块904，用于从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇；

第二确定模块905，从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件；

融合模块906，用于将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中。

可选的，第二确定模块905从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件时，具体用于：

将所述其他预设类别对应的多个聚类簇中的每个聚类簇作为候选簇，根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量，确定所述候选簇和所述基准聚类簇的第一相似度；

根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中的所有关键词的表示向量，确定所述候选簇和所述基准聚类簇的第二相似度；

在所述第一相似度满足第一预设条件，和/或所述第二相似度满足第二预设条件的情况下，将所述候选簇作为所述目标聚类簇。

可选的，第二确定模块905根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量，确定所述候选簇和所述基准聚类簇的第一相似度时，具体用于：

计算所述候选簇中的所有关键词的表示向量的第一平均值；

计算所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量的第二平均值；

根据所述第一平均值和所述第二平均值，确定所述候选簇和所述基准聚类簇的第一相似度。

可选的，第二确定模块905根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中的所有关键词的表示向量，确定所述候选簇和所述基准聚类簇的第二相似度时，具体用于：

计算所述候选簇中的所有关键词的表示向量的第一平均值；

计算所述基准聚类簇中的所有关键词的表示向量的第三平均值；

根据所述第一平均值和所述第三平均值，确定所述候选簇和所述基准聚类簇的第二相似度。

可选的，第一确定模块902根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词时，具体用于：

确定所述导购问句的句子类别；

根据所述句子类别确定所述导购问句中的关键词对应的至少一个预设类别；

根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与所述至少一个预设类别分别对应的关键词。

可选的，所述多个预设类别包括属性名、属性值、属性对，所述属性对包括属性名和属性值；第一确定模块902根据所述句子类别确定所述导购问句中的关键词对应的至少一个预设类别时，具体用于：若所述句子类别为混合问句，则确定所述导购问句包含有所述属性名和所述属性值分别对应的关键词。

可选的，第一确定模块902确定所述导购问句的句子类别时，具体用于：

在所述导购问句的起始位置增加预设字符；

将所述预设字符和所述导购问句输入到编码器，使得所述编码器输出所述预设字符在所述导购问句上下文中的表示向量、以及所述导购问句中每个文本单元在所述上下文中的表示向量；

根据所述预设字符在所述导购问句上下文中的表示向量，确定所述导购问句的句子类别。

图9所示实施例的对话处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了对话处理装置的内部功能和结构，该装置可实现为一种电子设备。图10为本公开实施例提供的电子设备实施例的结构示意图。如图10所示，该电子设备包括存储器1001和处理器1002。

存储器1001用于存储程序。除上述程序之外，存储器1001还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器1001可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器1002与存储器1001耦合，执行存储器1001所存储的程序，以用于：

进一步，如图10所示，电子设备还可以包括：通信组件1003、电源组件1004、音频组件1005、显示器1006等其它组件。图10中仅示意性给出部分组件，并不意味着电子设备只包括图10所示组件。

通信组件1003被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1003经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1003还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件1004，为电子设备的各种组件提供电力。电源组件1004可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件1005被配置为输出和/或输入音频信号。例如，音频组件1005包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1001或经由通信组件1003发送。在一些实施例中，音频组件1005还包括一个扬声器，用于输出音频信号。

显示器1006包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的对话处理方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种对话处理方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇，所述目标聚类簇和所述基准聚类簇的相似度满足预设条件，包括：

3.根据权利要求2所述的方法，其中，根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中与所述候选簇具有相同预设类别的关键词的表示向量，确定所述候选簇和所述基准聚类簇的第一相似度，包括：

计算所述候选簇中的所有关键词的表示向量的第一平均值；

4.根据权利要求2所述的方法，其中，根据所述候选簇中的所有关键词的表示向量、以及所述基准聚类簇中的所有关键词的表示向量，确定所述候选簇和所述基准聚类簇的第二相似度，包括：

计算所述候选簇中的所有关键词的表示向量的第一平均值；

5.根据权利要求1所述的方法，其中，根据所述导购问句中每个文本单元的表示向量，确定所述导购问句中与多个预设类别中至少一个预设类别分别对应的关键词，包括：

确定所述导购问句的句子类别；

6.根据权利要求5所述的方法，其中，所述多个预设类别包括属性名、属性值、属性对，所述属性对包括属性名和属性值；

根据所述句子类别确定所述导购问句中的关键词对应的至少一个预设类别，包括：

若所述句子类别为混合问句，则确定所述导购问句包含有所述属性名和所述属性值分别对应的关键词。

7.根据权利要求5所述的方法，其中，确定所述导购问句的句子类别，包括：

在所述导购问句的起始位置增加预设字符；

8.一种对话处理装置，其中，包括：

9.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。