CN106844344A

CN106844344A - 用于对话的贡献度计算方法及主题抽取方法和系统

Info

Publication number: CN106844344A
Application number: CN201710065890.8A
Authority: CN
Inventors: 李稀敏; 王宇; 肖龙源; 蔡振华; 刘晓葳; 刘楚; 朱敬华; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2017-06-13
Anticipated expiration: 2037-02-06
Also published as: CN106844344B

Abstract

本发明公开了一种用于对话的贡献度计算方法及主题抽取方法和系统，其通过对单词的量化计算得到单句的向量，并通过对主题词的量化计算得到主题的向量，根据所述单句的向量和所述主题的向量进行计算所述单句与所述主题之间的相似度和概率值，然后根据该相似度和概率值来计算所述单句对所述主题的贡献度；不仅极大的提高了整个智能客服工作的效率，而且提高了计算结果的准确性，为后续使用时语句的抽取、筛选等操作提供了依据。

Description

用于对话的贡献度计算方法及主题抽取方法和系统

技术领域

本发明涉及通信技术领域，特别是一种用于对话的贡献度计算方法及主题抽取方法及其应用该方法的系统。

背景技术

随着互联网及电子商务的普及应用，智能客服也越来越多。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的，涉及大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等，具有行业通用性，不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息，并可为企业节约大量人力资源和成本。

在智能客服整个技术的实现中，主要涉及对话语料预处理、模型构建、语义解析、强化学习等技术，因为中文的博大精深，同一个对话主题往往有多种表述方式，例如存在同义词、近义词、完整表达、简化表达、歧义等，这就使得对话语料库中每一个相同的主题，往往存在多种表达；即，一个对话主题不仅由一个问题和一个答案组成，而是可能由多个问题和多个答案组成。如何定位并准确抽取其中最为理想的问答语句，关系到对话的正确性与完整性，以及用户的体验度。

并且，智能客服主要应用到语料处理、模型构建、语义解析、机器学习等相关技术，而在这些技术中经常需要将文本进行量化操作。然而，由于智能客服或智能对话是基于自然语言进行处理的，传统的文本分析方法主要是从句法分析和语义分析着手，通过发现句子中词语之间的语法关系和词语的语义来计算其相似度，但是该类方法需要提前人工构建大量的语法训练库，工作量大，极大的影响了计算效率，降低客服的体验效果。

发明内容

本发明为解决上述问题，提供了一种用于对话的贡献度计算方法及主题抽取方法和系统，通过将自然文本语言进行量化计算，方便了后续使用时语句的抽取、筛选等操作，极大的提高了整个智能客服工作的效率。

本发明的目的之一在于，提供一种用于对话的句子贡献度计算方法，其包括以下步骤：

a1.利用word2vec模型得到对话的每个单句中的每个单词的向量，并对所述每个单词的向量进行均值计算得到单词向量均值，将该单词向量均值作为所述单句的向量Vec(serve)；

b1.利用word2vec模型得到对话的每个主题中的每个主题词的向量，并对所述每个主题词的向量进行均值计算得到主题词向量均值，将该主题词向量均值作为所述主题的向量Vec(topic)；

c1.根据所述单句的向量Vec(serve)和所述主题的向量Vec(topic)进行计算所述单句与所述主题的余弦值cosθ，并根据该余弦值cosθ得到所述单句与所述主题的相似度；

d1.利用LDA主题模型得到对话中的所述单句在所述主题上的概率值；

e1.将所述相似度与对应的概率值进行乘法计算，得到所述单句对所述主题的贡献度。

优选的，所述余弦值的计算方法为：

其中，所述cosθ表示所述单句与所述主题的余弦值，所述Vec(topic)表示所述主题的向量，所述Vec(topic)′表示所述主题的向量的导数，所述Vec(serve)表示所述单句的向量，所述Vec(serve)′表示所述单句的向量的导数。

本发明的目的之二在于，提供一种用于对话的主题贡献度计算方法，其包括以下步骤：

a2.利用word2vec模型得到对话的每个主题中的每个主题词的向量，并对所述每个主题词的向量进行均值计算得到主题词向量均值，将该主题词向量均值作为所述主题的向量Vec(topic)；

b2.利用word2vec模型得到对话的每个对话标签的向量Vec(tag)；

c2.根据所述主题的向量Vec(topic)和所述对话标签的向量Vec(tag)进行计算所述主题与所述对话标签的余弦值cosθ，并根据该余弦值cosθ得到所述主题与所述对话标签的相似度；

d2.利用LDA主题模型得到对话中的所述主题在所述对话标签上的概率值；

e2.将所述相似度与对应的概率值进行乘法计算，得到所述主题对所述对话标签的贡献度。

优选的，所述余弦值的计算方法为：

其中，所述cosθ表示所述主题与所述对话标签的余弦值，所述Vec(topic)表示所述主题的向量，所述Vec(topic)′表示所述主题的向量的导数，所述Vec(tag)表示所述对话标签的向量，所述Vec(tag)′表示所述对话标签的向量的导数。

本发明的目的之三在于，提供一种用于对话的主题抽取方法，其包括以下步骤：

10)通过提取访客与客服的对话记录，对所述对话记录设置对话标签；

20)根据上述的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度；

30)根据所述贡献度对语料库中每个对话标签下的每个主题进行排序，并抽取贡献度较大的主题，将该主题中的问题作为推荐问题，并将该主题中对应的答案作为推荐答案；

40)根据访客提出的问题自动提取当前的问题标签，并将该当前的问题标签与语料库中的对话标签进行匹配，向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。

优选的，所述的步骤10)之前，还预先进行构建标签模型，其根据语料库中的语料的对话主题对所有语料进行分类，对不同类型的语料进行设置对话标签，得到标签模型。

优选的，所述的步骤10)中进行设置对话标签，是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。

优选的，所述的步骤30)中对每个主题进行排序，是指将新增的对话记录及对语料库中的历史对话记录中的所有主题，在各自对应的对话标签下进行贡献度的排序，并且，每次新增对话记录后则自动重新排序。

本发明的目的之四在于，根据上述主题抽取方法对应提供一种用于对话的主题抽取系统，其包括：

对话标签设置模块，其通过提取访客与客服的对话记录，对所述对话记录设置对话标签；

贡献度计算模块，其根据上述的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度；

主题抽取模块，其根据所述贡献度对语料库中每个对话标签下的每个主题进行排序，并抽取贡献度较大的主题，将该主题中的问题作为推荐问题，并将该主题中对应的答案作为推荐答案；

对话模块，其根据访客提出的问题自动提取当前的问题标签，并将该当前的问题标签与语料库中的对话标签进行匹配，向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。

优选的，还包括模型构建模块，其根据语料库中的语料的对话主题对所有语料进行分类，对不同类型的语料进行设置对话标签，得到标签模型。

本发明的有益效果是：

(1)本发明通过将自然文本语言进行量化计算，极大的提高了整个智能客服工作的效率；并且，通过结合相似度和概率值来计算贡献度，提高了计算结果的准确性，为后续使用时语句的抽取、筛选等操作提供了依据。

(2)本发明通过对每次对话记录设置对话标签，通过计算所述对话标签下的每个主题对所述对话标签的贡献度，并根据贡献度大小对所述主题进行排序，通过将对话记录进行标签处理和量化计算，并将贡献度较大的主题中的问题和答案作为推荐问题和推荐答案，从而实现自动化提取对话主题，使得智能客服回答访客的问题更准确、完整，访客体验更好；

(3)本发明通过构建标签模型，并对新增的对话记录及对语料库中的历史对话记录进行设置对话标签，并将所有主题在各自对应的对话标签下进行贡献度的排序，并且，每次新增对话记录后则自动重新排序，使得标签模型能够循环持续更新，并使得语料库能够持续自动更新和完善，访客体验越来越好。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的用于对话的句子贡献度计算方法的流程简图；

图2为本发明的用于对话的主题贡献度计算方法的流程简图；

图3为本发明的对话中主题抽取方法的流程简图；

图4为本发明的对话系统的流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

智能客服的实现过程中有些部分是需要进行量化后，机器才可以进行计算和比较的，所以将自然语言文本进行量化的计算方法也就成了智能客服中一项较为重要的技术。基于此，本发明如下的贡献度的量化计算方法：

如图1所示，本实施例提供一种用于对话的句子贡献度计算方法，其包括以下步骤：

本实施例中，所述余弦值的计算方法为：

工作过程中，通过对语料库进行分类、标识等操作，得到语料库及模型等，然后对模型要输入的数据，即对话进行按主题标识(标识来自语料库经过分类后得到的主题标签)；然后，基于本实施例的句子贡献度的计算方法，将对话中的客服的每句话进行计算该句话对本次对话的主题标签的贡献度；客服在回答访客问题时，可根据该贡献度的大小，按主题标签进行提取贡献度较大的句子(在先答案)来回答访客问题。

如图2所示，本实施例提供一种用于对话的主题贡献度计算方法，其包括以下步骤：

b2.利用word2vec模型得到对话的每个对话标签的向量Vec(tag)；

本实施例中，所述余弦值的计算方法为：

如图3所示，本实施例提供一种用于对话的主题抽取方法，其包括以下步骤：

20)根据图2的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度；

传统的智能客服系统主要采用以下方式进行自主学习：

1.将相似问题，推荐给库中已有的问题；

2.自动合并相似度非常高的问题。

但是，这样的自主学习对智能客服系统而言仍然存在很大缺陷：一方面，需要人工导入更多新问题或者相似问题，语料库不能快速增长与更新；另一方面，部分优秀客服的优秀话术，不能及时被发现与学习。

本实施例中通过构建标签模型并对模型进行循环滚动加强，能够实现语料库持续自动更新和完善，访客体验越来越好。具体的：

所述的步骤10)之前，还预先进行构建标签模型，其根据语料库中的语料的对话主题对所有语料进行分类，对不同类型的语料进行设置对话标签，得到标签模型。

所述的步骤10)中进行设置对话标签，是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。

所述的步骤30)中对每个主题进行排序，是指将新增的对话记录及对语料库中的历史对话记录中的所有主题，在各自对应的对话标签下进行贡献度的排序，并且，每次新增对话记录后则自动重新排序。

如图4所示，本实施例提供一种用于对话的主题抽取系统，其包括：

模型构建模块，其根据语料库中的语料的对话主题对所有语料进行分类，对不同类型的语料进行设置对话标签，得到标签模型；

贡献度计算模块，其根据图2的主题贡献度计算方法统计所述对话记录中的每个主题对所述对话标签的贡献度；

本实施例中，所述对话标签设置模块是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。所述主题抽取模块中对每个主题进行排序，是指将新增的对话记录及对语料库中的历史对话记录中的所有主题，在各自对应的对话标签下进行贡献度的排序，并且，每次新增对话记录后则自动重新排序。

具体的，本发明的主题抽取过程如下：

1.构建模型

首先对语料库进行梳理，按照对话主题及关键词，为所有的语料进行设置对话标签，所述对话标签一般按照对话主题进行分类，例如包括质量、价格、物流、售后服务等，从而形成标签模型。

2.贴标签

在使用时，如一组完整的对话，共有10次访客与智能客服的对话互动记录。先利用标签模型为本次对话贴上相应的对话标签，所述对话标签来自于构建模型时所形成的标签(一组完整的对话，可能包括多个标签)。

3.计算贡献度

计算本组对话中，每一句话(每个主题)对本组对话的对话标签的贡献度，并用数值进行表示。因一组对话可能存在多个对话标签，同时，一句话可能会对两个及以上的对话标签产生贡献度，或多句话都能同一个对话标签产生贡献度，所以为本组对话计算完贡献度后，每个相应的标签下，将产生相应的对其生产贡献度的多句对话，将这些对话按贡献度值进行排序。

4.自动抽取主题

当智能客服回答访客的问话时，首先提取其访客问题对应的问题标签(例如，根据问题中的关键字)，并与所构建的模型中的对话标签进行匹配。完成标签匹配后，将该对话标签下按数值排序的贡献度较大的主题或问题(推荐问题)进行提取，并将该主题或问题所对应的答案(推荐答案)用于回答访客的问题，从而使访客获得较为准确和完善的问题答复。

5.循环滚动加强模型

当有新的语料及标签产生时，模型持续更新，并根据贡献度的计算，持续更新每个标签下的相应的问题的贡献度数值与排序，持续完善对话的问题回复。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种用于对话的句子贡献度计算方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于对话的句子贡献度计算方法，其特征在于：所述余弦值的计算方法为：

\cos θ = \frac{V e c {(s e r v e)}^{'} V e c (t o p i c)}{V e c {(s e r v e)}^{'} V e c (s e r v e) * V e c {(t o p i c)}^{'} V e c (t o p i c)}

3.一种用于对话的主题贡献度计算方法，其特征在于，包括以下步骤：

b2.利用word2vec模型得到对话的每个对话标签的向量Vec(tag)；

4.根据权利要求3所述的一种用于对话的主题贡献度计算方法，其特征在于：所述余弦值的计算方法为：

c o s θ = \frac{V e c {(t o p i c)}^{'} V e c (t a g)}{V e c {(t o p i c)}^{'} V e c (t o p i c) * V e c {(t a g)}^{'} V e c (t a g)}

5.一种用于对话的主题抽取方法，其特征在于，包括以下步骤：

20)根据权利要求3或4的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度；

6.根据权利要求5所述的一种用于对话的主题抽取方法，其特征在于：所述的步骤10)之前，还预先进行构建标签模型，其根据语料库中的语料的对话主题对所有语料进行分类，对不同类型的语料进行设置对话标签，得到标签模型。

7.根据权利要求6所述的一种用于对话的主题抽取方法，其特征在于：所述的步骤10)中进行设置对话标签，是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。

8.根据权利要求5或6或7所述的一种用于对话的主题抽取方法，其特征在于：所述的步骤30)中对每个主题进行排序，是指将新增的对话记录及对语料库中的历史对话记录中的所有主题，在各自对应的对话标签下进行贡献度的排序，并且，每次新增对话记录后则自动重新排序。

9.一种用于对话的主题抽取系统，其特征在于，包括：

贡献度计算模块，其根据权利要求3或4的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度；

10.根据权利要求9所述的一种用于对话的主题抽取系统，其特征在于：还包括模型构建模块，其根据语料库中的语料的对话主题对所有语料进行分类，对不同类型的语料进行设置对话标签，得到标签模型。