CN112115248B

CN112115248B - 一种从对话语料中抽取对话策略结构的方法及系统

Info

Publication number: CN112115248B
Application number: CN202011034369.6A
Authority: CN
Inventors: 彭爽; 杨明晖; 王子豪; 王福东; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-11-14
Anticipated expiration: 2040-09-27
Also published as: CN112115248A

Abstract

本说明书一个或多个实施例涉及一种从对话语料中抽取对话策略结构的方法及系统，所述方法包括：获取所述对话语料的多个客服语料；其中，所述客服语料中包括多个按序排列的问题信息；基于特征提取算法对所述客服语料中的问题信息进行特征化处理，得到问题信息对应的特征向量；基于聚类算法将所述问题信息对应的特征向量聚类为多个问题聚类簇；基于所述多个按序排列的问题信息获取各问题聚类簇在所述多个客服语料中的顺序标识；基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列；基于所述目标问题序列确定所述对话策略结构。

Description

一种从对话语料中抽取对话策略结构的方法及系统

技术领域

本说明书一个或多个实施例涉及自然语言处理技术领域，特别涉及一种从对话语料中抽取对话策略结构的方法及系统。

背景技术

随着移动智能终端和云计算的快速发展，人工智能的浪潮正在颠覆生活的方方面面，任务型机器人对话系统作为一个新的领域也在快速发展。任务型机器人对话系统是基于语音输入的新一代交互模式，典型的应用场景包括电话销售、话费查询中的所使用的自助语音助手。任务型机器人对话系统可以将用户的说话信息匹配到内置的对话策略结构上就可以得到相对应的反馈结果。但是，目前的任务型机器人的对话策略结构是由人工进行配置的，这使得人工成本大大上升。

因此，迫切需要一种更容易得到对话策略结构的方法及系统来解决这一问题。

发明内容

本说明书一个方面提供一种从对话语料中抽取对话策略结构的方法，所述方法包括：获取所述对话语料的多个客服语料；其中，所述客服语料中包括多个按序排列的问题信息；基于特征提取算法对所述客服语料中的问题信息进行特征化处理，得到问题信息对应的特征向量；基于聚类算法将所述问题信息对应的特征向量聚类为多个问题聚类簇；基于所述多个按序排列的问题信息获取各问题聚类簇在所述多个客服语料中的顺序标识；基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列；基于所述目标问题序列确定所述对话策略结构。

本说明书另一个方面提供一种从对话语料中抽取对话策略结构的系统，所述系统包括：客服语料获取模块，用于获取所述对话语料的多个客服语料；其中，所述客服语料中包括多个按序排列的问题信息；特征向量获取模块，用于基于特征提取算法对所述客服语料中的问题信息进行特征化处理，得到问题信息对应的特征向量；问题聚类簇确定模块：用于基于聚类算法将所述问题信息对应的特征向量聚类为多个问题聚类簇；顺序标识确定模块，用于基于所述多个按序排列的问题信息获取各问题聚类簇在所述多个客服语料中的顺序标识；目标问题序列获取模块，用于基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列；对话策略结构获取模块，用于基于所述目标问题序列确定所述对话策略结构。

本说明书另一个方面提供一种从对话语料中抽取对话策略结构的装置，所述装置包括处理器以及存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，以实现所述从对话语料中抽取对话策略结构的操作。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1为根据本说明书的一些实施例所示的从对话语料中抽取对话策略结构的示例性应用场景图；

图2是根据本说明书一些实施例所示的一个从对话语料中抽取对话策略结构的系统框图；

图3是根据本说明书的一些实施例所示的从对话语料中抽取对话策略结构的示例性流程图；

图4是根据本说明书的一些实施例所示的基于目标问题序列进行融合的示意图；

图5是根据本说明书的一些实施例所示的获取目标问题序列的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

在经济、文化、教育、医疗、公共管理等各行各业充斥的大量信息数据，对其进行例如数据分析、数据挖掘、以及趋势预测等的数据处理分析在越来越多场景中得到广泛应用。其中，通过数据合作的方式可以使多个数据拥有方获得更好的数据处理结果。例如，可以通过多方共享学习来获得更为准确的模型参数。

在一些实施例中，任务型机器人可以使用以一种或多种计算机编程语言形式的计算机代码进行创建。这种任务型机器人通常需要开发者具备编程语言、计算机程序知识，并投入大量的时间去设计任务型机器人的对话策略结构。例如，以电话销售的应用场景中的一个询问过程为例，任务型机器人询问：“请问您最近有无体检？”，开发者需要人工配置“是”和“否”两种情况下任务型机器人的进一步的操作步骤。然而，任务型机器人所涉及的问题是成千上万个，显然，采用这种配置方法进行逐个问题进行的效率很低，并且配置过程高度依赖开发者的经验来判断出可能的用户意图及其走向。由于对话策略结构是人工配置，因此不可避免地存在着对话策略配置不合理的可能。

在本说明书的一些实施例中，可以对已经产生过的对话语料(例如：对话语料可以是历史的人工客服和用户的对话)中的信息进行提取，以自动生成任务型机器人的对话策略结构。具体地，将对话语料中的问题信息特征化，并聚类为多个问题聚类簇集合，基于关联规则算法提取多个问题聚类簇中的频繁项，从而得到有关联关系的问题聚类簇集合，进而得到对话策略结构。通过这种方式，可以无需人工参与，通过机器即可自动获取到任务型机器人的对话策略结构。并且，当上述对话语料更新后，其对话策略结构也可以实时或者定时自动实现更新。这个过程可以不需要熟悉业务逻辑的人工参与配置对话结构策略，通过本说明书的其中一些实施例就可以自动实现。

图1为根据本说明书的一些实施例所示的从对话语料中抽取对话策略结构的示例性应用场景图。

如图1所示，本说明书所涉及的从对话语料中抽取对话策略结构的系统100的应用场景可以包括一个或一个以上终端110、第一计算系统120、第二计算系统140和/或第三计算系统150。

第一计算系统120可以用于获取对话语料112；所述对话语料112可以通过终端110获取。在一些实施例中，对话语料112中至少包括客服和用户两个角色。在一些实施例中，客服可以是人工客服。在一些实施例中，客服也可以是机器客服，机器客服可以是如电话销售、话费查询场景中的所使用的自助语音助手。一个对话语料112中实质上包括多个客服语料信息以及相对应的用户语料信息，其中，多个客服语料信息中可以包括多个按序排列的客服问题信息。对话语料112可以通过各种常见的方式进入第一计算系统120。如通过音频、视频、文字等方式被终端110获取。通过第一计算系统120中的特征提取算法122，可以将所接收到的对话语料112中的客服问题信息转化为对应的特征向量130。

进一步地，第二计算系统140可以用于将得到的特征向量130进行聚类，按照第二计算系统140中的聚类算法142将问题信息对应的特征向量130转化为各问题聚类簇148。有关基于聚类算法得到问题聚类簇的相应描述可参见图3的说明，此处不再赘述。

第三计算系统150可以基于关联规则算法152确定一个或多个目标问题序列160，并基于目标问题序列160确定对话策略结构170。在一些实施例中，第三计算系统150可以基于问题聚类簇148对应的客服问题在对话语料中112的出现的先后获取各问题聚类簇在对话语料中112中的顺序标识，并基于所述顺序标识确定对话策略结构170。

在本说明书的一个或多个实施例中，算法(例如，特征提取算法122、聚类算法142或/和关联规则算法152)可以指基于处理设备而进行的若干方法的集合。关于本说明书中涉及算法的具体说明，可参见本说明书的相关部分。

在一些实施例中，第一计算系统120、第二计算系统140和第三计算系统150可以是单独的设备。例如，第一计算系统120、第二计算系统140和第三计算系统150可以分别是具有计算能力的系统，可以包括各种计算机，比如服务器、个人计算机，也可以是由多台计算机以各种结构连接组成的计算平台。在一些实施例中，第一计算系统120、第二计算系统140和第三计算系统150可以是同一处理设备上可单独运行的进程。

在一些实施例中，第一计算系统120、第二计算系统150和第三计算系统160中可以包括处理设备(图中未示出)。处理设备可以执行程序指令。处理设备可以包括各种常见的通用中央处理器(central processing unit，CPU)，图形处理器(Graphics ProcessingUnit，GPU)，微处理器，特殊应用集成电路(application-specific integrated circuit，ASIC)，或其他类型的集成电路。

在一些实施例中，第一计算系统120、第二计算系统150和第三计算系统160中可以包括存储介质(图中未示出)。存储介质可以存储指令，也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。

第一计算系统120、第二计算系统150和第三计算系统160还可以包括用于内部连接和与外部连接的网络。也可以包括用于输入或输出的终端。网络可以是有线网络或无线网络中的任意一种或多种。

在一些实施例中，第一计算系统120所获取的对话语料112可以来自一个或多个终端110。在本说明书的一个或多个实施例中，终端110可以是带有信息获取、存储和/或发送功能的设备，所述设备包括但不限于移动设备110-1、平板电脑110-2、台式电脑110-3等中的一种或几种的组合。在一些实施例中，终端设备110可以包括智能家居设备、可穿戴设备、智能移动设备、增强现实设备等或其组合。

图2是根据本说明书一些实施例所示的一个从对话语料中抽取对话策略结构的系统框图。

在一些实施例中，所述系统可以包括客服语料获取模块210、特征向量获取模块220、问题聚类簇确定模块230、顺序标识确定模块240、目标问题序列获取模块250、对话策略结构获取模块260。

客服语料获取模块210：用于获取所述对话语料的多个客服语料；其中，所述客服语料中包括多个按序排列的问题信息。

特征向量获取模块220：用于基于特征提取算法对所述客服语料中的问题信息进行特征化处理，得到问题信息对应的特征向量。

问题聚类簇确定模块230：用于基于聚类算法将所述问题信息对应的特征向量聚类为多个问题聚类簇。

顺序标识确定模块240：用于基于所述多个按序排列的问题信息获取各问题聚类簇在所述多个客服语料中的顺序标识。

目标问题序列获取模块250：用于基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列。

对话策略结构获取模块260：用于基于所述目标问题序列确定所述对话策略结构。

在一些实施例中，目标问题序列获取模块250还用于：统计问题聚类簇的组合在所述客服语料中同时出现的次数；将统计次数大于预设阈值的多个问题聚类簇的组合确定为相关联聚类簇集合；基于所述各问题聚类簇的顺序标识确定其在所述相关联聚类簇集合中的先后顺序；基于所述相关联聚类簇集合中的问题聚类簇及其先后顺序确定目标问题序列。

在一些实施例中，目标问题序列获取模块250还用于：计算各问题聚类簇在多个客服语料中顺序标识的平均值；基于所述顺序标识的平均值确定所述问题聚类簇在所述相关联聚类簇集合中的先后顺序。

在一些实施例中，目标问题序列获取模块250还用于：基于所述各问题聚类簇的顺序标识生成多个原始问题序列；其中，所述原始问题序列的数量与对话语料中的客服语料的数量相同；且所述问题聚类簇在各个客服语料中的顺序标识与在所述原始问题序列中的顺序标识对应；基于关联规则算法对所述原始问题序列进行筛选，得到一个或多个满足筛选条件的目标问题序列。在一些实施例中，筛选条件包括：所述问题聚类簇的按序组合在所述各个原始问题序列中出现的频率/频次大于预设阈值。

在一些实施例中，对话策略结构获取模块260还用于：若所述目标问题序列为一个，将所述目标问题序列作为对话策略结构；若所述问题序列有多个，确定所述多个目标问题序列中包含的相同问题聚类簇；基于所述相同的问题聚类簇将所述多个目标问题序列进行融合，得到所述对话策略结构；其中，所述对话策略结构中包括多个子问题序列，所述子问题序列与融合前的多个目标问题序列对应。

在一些实施例中，所述系统还包括：用户意图获取模块270；所述用户意图获取模块用于基于所述多个用户语料确定所述各问题聚类簇的标签，所述问题聚类簇的标签反映用户的意图。

应当理解，本说明书一个或多个实施中的所述系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于处理设备及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。

图3是根据本说明书的一些实施例所示的从对话语料中抽取对话策略结构的示例性流程图。在一些实施例中，流程300可以由计算系统(如第一计算系统120、第二计算系统150和第三计算系统160)执行。

步骤310，获取对话语料的多个客服语料。在一些实施例中，步骤310由客服语料获取模块210完成。

对话语料是指多种场景中的对话信息，如保险销售、外呼催收、存取款服务等各种场景中的对话信息。一个对话语料中至少包括客服(即提问者)以及用户(被提问者)两个角色。在一些实施例中，对话语料可以是已经发生过的历史对话信息。历史对话信息可以存储在各种计算系统(如图1中的第一计算系统120、第二计算系统150和第三计算系统160)的存储介质中，并在需要使用时被调用。在一些实施例中，对话语料也可以是当前正在发生的对话信息，例如，被各类设备(如终端110)实时采集的对话信息。

对话语料可以以多种形式存储。例如，对话语料可以是以视频、音频、文本信息等方式存储在内存中。在一些实施例中，客服语料获取模块210可以将对话语料中的音频信息和/或视频中信息的音频信息转化为对应的文本信息。具体地，将音频信息转换为对应的文本信息可以是可以语音识别技术实现的，例如，以预先训练好的语音识别模型或声学模型识别音频信息中的内容。

进一步地，客服语料获取模块210可以将对话语料中的文本信息进行提取，以获取到各个对话语料中的客服提问信息。之后，客服语料获取模块210按照客服问题出现在对话语料中的先后顺序进行排列，得到客服语料。换言之，客服语料获取模块210可以基于每个对话语料生成对应的客服语料，其中，每个客服语料中都包括一组按序排列的问题信息集合。

类似的，在一些实施例中，还可以基于对话语料信息获取用户语料，用户语料中包括对应于客服问题的回答。在一些实施例中，用户语料信息也可以按序排列，与客服语料中的问题的排列顺序相对应。在一些实施例中，用户语料可以用于分析用户的意图。有关用户的意图分析可参见步骤370的相应描述，此处不再赘述。

步骤320，基于特征提取算法获取问题信息对应的特征向量。在一些实施例中，步骤320由特征向量获取模块220完成。

特征向量获取模块220可以对所获得的问题信息进行提取，以获得问题信息对应的特征向量。具体地，特征向量获取模块220获得问题信息对应的特征向量可以包括如下过程：

特征向量获取模块220可以对所获得的任一问题信息进行分词处理，用以将一个问题信息拆分为单独的词语，并获得各词语对应的词向量。例如，可以采用分词模型(如采用N元文法模型)将问题信息拆分为单独的词语。之后，基于分词处理得到对应词语的词向量。例如，可以基于Word Embedding模型、BiLSTM模型、Word2vec模型等获取各个词语的词向量。

而后，基于每个问题信息拆分为的单独的词语对一个的词向量，获得对应问题信息对应的特征向量(即问题信息对应的句向量)。例如，问题信息对应的特征向量可以基于问题信息中(即句子中)各个词语的词向量的拼接得到。又例如，问题信息对应的特征向量可以基于各个词语的词向量的加权求和得到。在一些实施例中，问题信息对应的特征向量还可以基于BERT模型得到。

需要说明的是，以上实施例仅作为示例，本领域技术人员可进行相类似的变化。例如，分词处理方法包括但不限于：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等。又例如，分词模型包括但不限于：隐马尔可夫模型(Hidden MarkovModel，HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields，CRF)、JIEBA分词模型等。类似这样的变化，仍然在本说明书的保护范围之内。

步骤330，基于聚类算法将问题信息对应的特征向量聚类为多个问题聚类簇。在一些实施例中，步骤330由问题聚类簇确定模块230完成。

问题聚类簇确定模块230可以基于步骤320所获得的多个问题信息对应的特征向量，采用聚类算法获取多个问题聚类簇。在一些实施例中，所述聚类算法包括但不限于K-Means算法、HDBSCAN算法、DBSCAN算法、BIRCH算法、MeanShift算法等。

在一些实施例中，问题聚类簇确定模块230可以基于任一问题信息对应的特征向量与各聚类簇聚类中心的距离判断该特征向量是否属于这一聚类簇。在一些实施例中，所述特征向量与各聚类簇聚类中心的距离可以包括但不限于余弦距离、欧式距离、曼哈顿距离、马氏距离或闵可夫斯基距离等。具体地，可以设置阈值对特征向量与聚类中心的向量距离进行判定。例如，当某一问题信息对应的特征向量与聚类中心的向量距离低于设定阈值时，则可判断该问题信息对应的特征向量属于这一聚类簇；反之，则该问题信息对应的特征向量不属于这一聚类簇。

在一些实施例中，问题聚类簇确定模块230还可以通过向量相似度系数判断任一问题信息对应的特征向量是否属于某一聚类簇。具体地，可以设置阈值对向量相似度系数进行判定。例如，当某一问题信息对应的特征向量与聚类中心的向量相似度系数高于设定阈值时，则可判断该问题信息对应的特征向量属于这一聚类簇；反之，则该问题信息对应的特征向量不属于这一聚类簇。

步骤340，基于多个按序排列的问题信息获取各问题聚类簇在多个客服语料中的顺序标识。在一些实施例中，步骤340由顺序标识确定模块240完成。

顺序标识确定模块240可以基于各聚类簇中的对应的问题信息确定其在各个客服语料中的顺序标识。顺序标识可以是任意设置的。在本说明书的一个或多个实施例中，以S1¹、S2²、S3³…分别表示不同的问题聚类簇及其顺序标识。其中，S1、S2、S3…分别表示不同的问题聚类簇，上标1、2、3、…、n即为各问题聚类簇的在各客服语料中的顺序标识。不同的客服语料中问题聚类簇可以相同但是顺序标识可以不同。例如，某一客服语料中的问题聚类簇可以是S1¹、S2²、S3³；但另一客服语料中的问题聚类簇可以是S3¹、S1²、S2³。显然，两个客服语料中的问题聚类簇虽然都为S1、S2、S3，但显然其顺序标识并不一致。

需要说明的是，由于客服语料所对应的场景是多样的，相同问题可能出现在不同客服语料中的不同位置。因此，相同问题聚类簇在不同客服语料中的顺序标识可以不同。例如，在某一客服语料中问题聚类簇S4的顺序标识1(S4¹)，在另一客服语料中问题聚类簇S4的顺序标识为7(S4⁷)。

步骤350，基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列。在一些实施例中，步骤350由目标问题序列获取模块250完成。

目标问题序列获取模块250可以基于所述各问题聚类簇的顺序标识生成多个原始问题序列。问题序列是指按序排列的问题聚类簇集合；原始问题序列是指问题聚类簇按其在客服语料的顺序进行排列构成的问题聚类簇集合。可以理解，一个客服语料有且仅会生成一个原始问题序列，并且问题聚类簇在客服语料与原始问题序列中的顺序相同。例如，某一客服语料中问题聚类簇的为S1¹、S3²、S4³、S6⁴、S7⁵，对应的，该客服语料对应生成的原始问题序列为S1-S3-S4-S6-S7。

在一些实施例中，可以基于关联规则算法对所述原始问题序列进行筛选，得到一个或多个满足筛选条件的目标问题序列。所述关联规则算法是一种基于数据集中各项出现的频繁程度找出数据集中各项关系的算法。在一些实施例中，关联规则算法包括但不限于Apriori算法、FP-growth算法、Relim算法等中的任意一种。

在一些实施例中，关联规则算法不关注数据集中各项出现的先后顺序，只关注各项同时出现的次数/频率。对应至本说明书的实施场景中，关联规则算法基于各问题聚类簇在多个客服语料中出现的次数获取相关联聚类簇集合，进而基于相关联聚类簇集合中问题聚类簇的顺序标识确定目标问题序列。有关基于相关联聚类簇集合确定目标问题序列的更多说明可参见图5的相应描述。

在本申请如图3所示的实施例中，关联规则算法不仅统计各项同时出现的次数/频率，也统计数据集中各项出现的先后顺序。此时，采用关联规则算法可以直接统计出某一问题序列在各个原始问题序列中出现的次数/频率，并据此确定目标问题序列。显然，采用关联规则算法直接统计各问题序列出现的频率可以直接确定目标问题序列，其计算过程更加高效。

下面以Apriori算法为例说明基于问题序列出现次数直接确定目标问题序列的具体过程。

目标问题序列获取模块250可以通过Apriori算法统计原始问题序列中各问题聚类簇按某一顺序出现的次数(即各问题序列出现次数)，从而确定这一顺序是否为满足筛选条件。换言之，目标问题序列获取模块250可以通过Apriori算法统计原始问题序列中各子问题序列出现的次数，从而确定子问题序列是否为满足筛选条件。其中，子问题序列是原始问题序列中部分问题聚类簇按序排列的集合。例如，原始问题序列为S1-S3-S4-S6-S7，问题序列S1-S3-S4、S1-S4-S6均为这一原始问题序列的子问题序列。可以理解，子问题序列相当于原始问题序列的子集。

在一些实施例中，筛选条件可以是子问题序列在各个原始问题序列中出现的频次大于预设阈值。例如，可以假设获得的原始问题序列为S1-S2-S3-S4-S5-S6，S1-S4-S5，S1-S2-S4-S5，S2-S1-S5-S6。显然，子问题序列可以是问题聚类簇按序排列的两两组合，如可以是S1-S2、S2-S3、S1-S4、S2-S1、…。然后用Apriori算法可以获得各个子问题序列出现的频次。在上述实施例中，S1-S2出现2次、S2-S1出现1次、S2-S3出现1次、S1-S4出现3次、S4-S5出现3次、S5-S6出现2次、…。此时，假定筛选条件中的预设阈值为3次，S1-S4(3次)、S4-S5(3次)即被筛选出来，所得S1-S4-S5则为所获得的目标问题序列。

需要说明的是，上述过程也可以基于各问题聚类簇出现的频率进行判断。所述各问题聚类簇出现的频率可以基于某一问题聚类簇的出现次数除以所有原始序列中问题聚类簇总数来获得。显然，问题聚类簇出现的频率与频次相同，也反映了问题聚类簇的按序组合出现的频繁程度。

步骤360，基于目标问题序列确定对话策略结构。在一些实施例中，步骤360由对话策略结构获取模块260完成。

在一些实施例中，当所确定的目标问题序列有且仅有一个，对话策略结构获取模块260可将获得的目标问题序列作为对话策略结构。例如，多个对话语料中所获得的目标问题序列均为S1-S4-S5，则所确定的对话策略结构也为S1-S4-S5，并且每个聚类S1、S4、S5下对应的问题信息即为对话策略结构对应的问题库。

在一些实施例中，当所获得的目标问题序列有多个，确定所述多个目标问题序列中包含的相同问题聚类簇；基于所述相同的问题聚类簇将所述多个目标问题序列进行融合，得到所述对话策略结构；其中，所述对话策略结构中包括多个子问题序列，所述子问题序列与融合前的多个目标问题序列对应。

如图4是一个示例性实施例中基于多个目标问题序列进行融合的示意图。在该场景的实施例中，可以假定获得的目标问题序列分别为S1-S4-S6；S1-S4-S5-S8-S10；S1-S4-S5-S7；S1-S4-S6-S9；S1-S3-S11(如图4100所示)。对话策略结构获取模块260可以基于4100中相同的问题聚类簇进行聚合，以得到如图4200所示的对话策略结构。多个目标问题序列进行融合后所得的对话策略结构可以是一个“树状”分布的，“树状”结构包括起点(如图4200中的S1)以及多个分支，每个分支对应一个子问题序列，并且子问题序列与融合前的多个目标问题序列一一对应。其中，问题聚类簇距离“树状”结构起点(如图中S1)的远近反映问题聚类簇在所属子问题序列中的顺序。以分支S1-S4-S5-S7为例，S7距离S1的距离最远，因此其在所属这一子问题序列中的位置最后。采用如图4所示的方式进行目标问题序列的融合实现了基于机器自动生成对话策略结构，省去了人工参与和建立对话策略结构的过程，节约了人力成本。

在一些实施例中，基于步骤310获取的多个对话语料，还可以基于对话语料信息获取用户语料。可选的，流程300还可以包括步骤370，确定各问题聚类簇的标签。在一些实施例中，步骤370由用户意图获取模块270完成。

各问题聚类簇的标签可以用来反映用户的意图。采用标签对各问题聚类簇进行说明可以在使用对话策略结构时更快地匹配下一轮需要询问的问题，从而使得交流过程更加高效。具体地，当用户基于某一问题进行回答后，可以将用户的回答与各问题聚类簇的标签进行匹配，从而确定下一步需要询问的问题。以图4200中的对话策略结构为例，用户对S1聚类簇对应的问题进行回答后，可以基于用户的回答与S3、S4聚类簇对应的标签进行匹配，以确定下一步询问的问题是S3还是S4。例如，S1聚类簇对应的问题可以为“请问您是否有定期体检？”，S3、S4聚类簇对应的标签可以设置为是和否。当用户回答有进行定期体检时，则进一步询问S3聚类簇对应的问题；如回答未进行定期体检时，则询问S4聚类簇对应的问题。

在一些实施例中，各问题聚类簇的标签可以是基于对话语料中的用户语料进行自动设置。例如，用户意图获取模块270可以将用户语料中的回答信息经过特征提取算法处理，得到特征向量；之后，基于聚类算法对回答信息的特征向量进行聚类，得到用户回答对应的聚类簇；最后，基于用户回答对应的聚类簇中抽出“代表性”回答句子(如从聚类簇的聚类中心中抽出回答句子)，对这个回答句子生成进行语义分析，从而得到这一回答聚类相对应问题聚类簇的标签。有关特征提取算法、聚类算法的相应描述可参见步骤320、330的相应描述，在此不再赘述。

在一些替代性实施例中，各问题聚类簇的标签也可以是由人工进行配置。例如，抽出“代表性”回答句子后，由人工判定这一聚类的意义，从而得到这一回答聚类相对应的问题聚类簇的标签。

图5是根据本说明书的一些实施例所示的获取目标问题序列的示例性流程图。在一些实施例中，图5中所示流程500的示例性方法可以由目标问题序列获取模块250完成。

步骤510，统计问题聚类簇的组合在客服语料中同时出现的次数。

目标问题序列获取模块250可以获取各客服语料中出现的问题聚类簇，并统计各种问题聚类簇的组合在多个语料中出现的次数。

在本说明书的实施例中，以{}表示同一客服语料中的问题聚类簇；用()表示问题聚类簇的组合。例如，{S1，S2}表示问题聚类簇S1和S2属于同一客服语料中的问题聚类簇；又例如，(S1，S2)表示聚类簇组合包含问题聚类簇S1和S2。需要说明的是，聚类簇组合仅反映组合中包括哪些问题聚类簇，不反应所包含的问题聚类簇之间的先后顺序关系。例如，组合(S1，S2)和组合(S2，S1)是一致的。

下面以客服语料信息为三个(分别为A、B、C)进行示例性说明。假设三个客服语料信息A、B、C所包含的问题聚类簇分别为：A＝{S1，S3，S4，S5，S7}；B＝{S4,S2,S3,S5}；C＝{S3,S6,S8,S2,S1,S4}。基于Apriori算法对三个客服语料信息进行统计，获取各种问题聚类簇的组合(如两两组合)在A、B、C三个客服语料中出现的次数。

不难看出，在上述实施例中，聚类簇组合(S1，S2)、(S1，S6)、(S1，S7)、(S1，S8)、(S2，S5)、(S3，S7)、(S3，S8)等仅出现一次；聚类簇组合(S2，S3)、(S5，S3)、(S1，S4)、(S1，S3)、(S2，S4)、(S5，S4)出现2次；组合(S3，S4)出现3次。

步骤520，将统计次数大于预设阈值的多个问题聚类簇的组合确定为相关联聚类簇集合。

目标问题序列获取模块250可以基于预设阈值对问题聚类簇组合出现的次数进行筛选，并将筛选出的组合确定为相关联聚类簇集合。相关联聚类簇集合指的是聚类簇之间存在关联关系。可以理解，同一聚类簇组合在多个客服语料中出现的次数越多，说明这一聚类簇组合中的各问题聚类簇的关联关系越紧密。

以步骤510中客服语料为A、B、C的实施例进行进一步地说明。当预设阈值为2.5时，筛选出的聚类簇组合为(S3，S4)，则将(S3，S4)确定为相关联聚类簇集合。同理，当预设阈值为1.5时，筛选出的聚类簇组合为(S3，S4)、(S2，S3)、(S5，S3)、(S1，S4)、(S1，S3)、(S2，S4)、(S5，S4)，则将上述聚类簇组合确定为相关联聚类簇集合。

步骤530，确定问题聚类簇在相关联聚类簇集合中的先后顺序。

在一些实施例中，目标问题序列获取模块250基于各问题聚类簇的顺序标识确定其在相关联聚类簇集合中的先后顺序。具体地，各问题聚类簇的顺序标识可参见图3步骤340的相应描述，在此不再赘述。

在一些实施例中，可以基于各问题聚类簇在各客服语料中的顺序标识的平均值确定所述问题聚类簇在所述相关联聚类簇集合中的先后顺序。仍然以步骤510中客服语料为A、B、C的实施例进行进一步地说明。假设客服语料A中获得的聚类簇及其顺序标识为{S1¹，S3⁵，S4²，S5⁶，S7^3}；相类似地，B、C中的聚类簇及其顺序标识为{S4²,S2⁴,S3¹,S5⁸}；{S3¹,S6³,S8²,S2⁵,S1⁴,S4⁸}。当预设阈值为2时，筛选出的相关联聚类簇集合为(S3，S4)。此时，可以基于S3、S4在上述三个客服语料中的顺序标识的均值确定问题聚类簇在所述相关联聚类簇集合中的先后顺序。在该场景的实施例中，S3对应的顺序标识的平均值为(5+1+1)/3＝2.33；S4对应的顺序标识的平均值为(2+2+8)/3＝4。由于S3对应的顺序标识的平均值小于S4，因此相关联聚类簇集合(S3，S4)的顺序即为S3在前、S4在后。

需要说明的是，上述实施例中是以各聚类簇在多个客服语料中的顺序标识的平均值来进行示例性说明。显然，还可以以其他计算、统计或是函数方式实现确定问题聚类簇在相关联聚类簇集合中的先后顺序。所述算式或者函数包括但不限于求和、加权求和、加权平均等方式。类似这样的变化，仍然在本说明书的保护范围之内。

步骤540，基于相关联聚类簇集合中的问题聚类簇及其先后顺序确定目标问题序列。

目标问题序列获取模块250可以基于步骤520获得的相关联聚类簇以及步骤530获得的问题聚类簇在相关联聚类簇集合中的先后顺序确定问题目标序列。在如步骤530所示的实施例中，所得的相关联聚类簇集合为(S3，S4)，且确定了S3在前、S4在后，则对应的目标问题序列即为S3-S4。

本说明书实施例可能带来的有益效果包括但不限于：(1)提出了一种从大规模对话语料中自动抽取对话策略结构的方法，提高了对话策略结构的生成效率；(2)采用改进的关联规则算法统计问题序列在原始问题序列中的频次，直接筛选获得目标问题序列，提高了处理效率。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种从对话语料中抽取对话策略结构的方法，所述方法包括：

获取所述对话语料的多个客服语料；其中，所述客服语料中包括多个按序排列的问题信息；

基于特征提取算法对所述客服语料中的问题信息进行特征化处理，得到问题信息对应的特征向量；

基于聚类算法将所述问题信息对应的特征向量聚类为多个问题聚类簇；

基于所述多个按序排列的问题信息获取各问题聚类簇在所述多个客服语料中的顺序标识；

基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列，包括：

统计问题聚类簇的组合在所述客服语料中同时出现的次数；将统计次数大于预设阈值的多个问题聚类簇的组合确定为相关联聚类簇集合；基于所述各问题聚类簇的顺序标识确定其在所述相关联聚类簇集合中的先后顺序；基于所述相关联聚类簇集合中的问题聚类簇及其先后顺序确定目标问题序列；

或者，基于所述各问题聚类簇的顺序标识生成多个原始问题序列；其中，所述原始问题序列的数量与对话语料中的客服语料的数量相同；且所述问题聚类簇在各个客服语料中的顺序标识与在所述原始问题序列中的顺序标识对应；基于关联规则算法对所述原始问题序列进行筛选，得到一个或多个满足筛选条件的目标问题序列；

基于所述目标问题序列确定所述对话策略结构。

2.根据权利要求1所述的方法，所述基于所述各问题聚类簇的顺序标识确定其在所述相关联聚类簇集合中的先后顺序，包括：

计算各问题聚类簇在多个客服语料中顺序标识的平均值；

基于所述顺序标识的平均值确定所述问题聚类簇在所述相关联聚类簇集合中的先后顺序。

3.根据权利要求1所述的方法，所述筛选条件包括：所述问题聚类簇的按序组合在所述各个原始问题序列中出现的频率/频次大于预设阈值。

4.根据权利要求1所述的方法，所述基于所述目标问题序列确定所述对话策略结构，包括：

若所述目标问题序列为一个，将所述目标问题序列作为对话策略结构；

若所述目标问题序列有多个，确定所述多个目标问题序列中包含的相同问题聚类簇；基于所述相同的问题聚类簇将所述多个目标问题序列进行融合，得到所述对话策略结构；其中，所述对话策略结构中包括多个子问题序列，所述子问题序列与融合前的多个目标问题序列对应。

5.根据权利要求1所述的方法，所述对话语料还包括与多个客服语料相对应的多个用户语料；所述方法还包括：

基于所述多个用户语料确定所述各问题聚类簇的标签，所述问题聚类簇的标签反映用户的意图。

6.一种从对话语料中抽取对话策略结构的系统，所述系统包括：

客服语料获取模块，用于获取所述对话语料的多个客服语料；其中，所述客服语料中包括多个按序排列的问题信息；

特征向量获取模块，用于基于特征提取算法对所述客服语料中的问题信息进行特征化处理，得到问题信息对应的特征向量；

问题聚类簇确定模块，用于基于聚类算法将所述问题信息对应的特征向量聚类为多个问题聚类簇；

顺序标识确定模块，用于基于所述多个按序排列的问题信息获取各问题聚类簇在所述多个客服语料中的顺序标识；

目标问题序列获取模块，用于基于关联规则算法对各问题聚类簇及其顺序标识进行处理，获取目标问题序列；所述目标问题序列获取模块还用于：统计问题聚类簇的组合在所述客服语料中同时出现的次数；将统计次数大于预设阈值的多个问题聚类簇的组合确定为相关联聚类簇集合；基于所述各问题聚类簇的顺序标识确定其在所述相关联聚类簇集合中的先后顺序；基于所述相关联聚类簇集合中的问题聚类簇及其先后顺序确定目标问题序列；或者，基于所述各问题聚类簇的顺序标识生成多个原始问题序列；其中，所述原始问题序列的数量与对话语料中的客服语料的数量相同；且所述问题聚类簇在各个客服语料中的顺序标识与在所述原始问题序列中的顺序标识对应；基于关联规则算法对所述原始问题序列进行筛选，得到一个或多个满足筛选条件的目标问题序列；

对话策略结构获取模块，用于基于所述目标问题序列确定所述对话策略结构。

7.根据权利要求6所述的系统，所述目标问题序列获取模块还用于：

计算各问题聚类簇在多个客服语料中顺序标识的平均值；

8.根据权利要求6所述的系统，所述筛选条件包括：所述问题聚类簇的按序组合在所述各个原始问题序列中出现的频率/频次大于预设阈值。

9.根据权利要求6所述的系统，所述对话策略结构获取模块还用于：

10.根据权利要求6所述的系统，所述对话语料还包括与多个客服语料相对应的多个用户语料；所述系统还包括：用户意图获取模块；

所述用户意图获取模块用于基于所述多个用户语料确定所述各问题聚类簇的标签，所述问题聚类簇的标签反映用户的意图。

11.一种从对话语料中抽取对话策略结构的装置，所述装置包括处理器以及存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，以实现如权利要求1至5中任一项所述从对话语料中抽取对话策略结构的操作。