CN111538821A

CN111538821A - 智能客服中解决知识库冷启动的方法和装置

Info

Publication number: CN111538821A
Application number: CN202010302957.7A
Authority: CN
Inventors: 吴科; 徐正虹; 吴立楠
Original assignee: Beijing Zhichi Bochuang Technology Co ltd
Current assignee: Beijing Zhichi Bochuang Technology Co ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-14

Abstract

本发明公开了一种智能客服中解决知识库冷启动的方法和装置，其中方法包括：调取人工客服日志数据进行清洗和预处理，得到候选句集合；将所述候选句集合中的候选句使用业务词信息进行粗聚类，生成粗分业务簇；对所述粗分业务簇利用细粒度语义聚合，生成细分业务簇；以及将每个所述细分业务簇中的句子按照句子出现频次由多至少划分为1个标准句和与所述标准句对应的相似句后，即得到解决知识库冷启动的最终知识库。其能够帮助企业迅速搭建自己的知识库，且获得的知识库较之现有的知识库专业化程度更高、问题更精准，问题涵盖面更广。

Description

智能客服中解决知识库冷启动的方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种智能客服中解决知识库冷启动的方法和装置。

背景技术

客服是企业获取用户反馈和解决用户产品疑问的一个主要途径。传统的客服业务主要由专业的客服人员来处理。企业随着客服业务量的增加，客服方面投入也不断增长，成为不可忽视的支出。

为了应对业务量增加带来的客服开销，企业更倾向于采用智能客服机器人来取代人工客服的工作。当我们使用智能客服机器人时，需要配置问题答案对数据集来让机器人拥有知识大脑，而通常将问题答案对数据集简称为客服知识库。

现有技术中，对于客服知识库的整理，最常见的是通过手工构建。客服人员对用户的常见问题进行总结，从而形成知识库。这种方式依赖于客服人员对于整体业务的理解和归纳能力。

另外一种方式是通过一些自动化的方式来生成相关的客服知识库。客服通常积累了大量的用户日志，里面包含了大部分的知识库信息。知识库构建算法采用一些机器学习或者自然语言处理算法对用户的问句进行聚类，然后人工在每个簇类中进行筛选并且总结出每个簇的标准问句，从而达到构建客服知识库的目的。这种方式由于聚类算法的局限性，需要较多的人工干预，知识库的构建水平同手工构建一样，仍旧依赖于人工客服的业务水平，因而知识库的准确度和专业化程度不能很好的保证。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种智能客服中解决知识库冷启动的方法和装置，能够帮助企业迅速搭建自己的知识库，且获得的知识库较之现有的知识库专业化程度更高、问题更精准，问题涵盖面更广。

为实现上述目的和一些其他的目的，本发明采用如下技术方案：

一种智能客服中解决知识库冷启动的方法，包括：

调取人工客服日志数据进行清洗和预处理，得到候选句集合；

将所述候选句集合中的候选句使用业务词信息进行粗聚类，生成粗分业务簇；

对所述粗分业务簇利用细粒度语义聚合，生成细分业务簇；以及

将每个所述细分业务簇中的句子按照句子出现频次由多至少划分为1个标准句和与所述标准句对应的相似句后，即得到解决知识库冷启动的最终知识库。

优选的是，所述的智能客服中解决知识库冷启动的方法中，调取人工客服日志数据进行清洗和预处理包括：

以由同行业或本公司的人工客服获得的人工客服数据作为人工客服日志数据，对所述人工客服日志数据进行去除乱码和网址的清洗操作，然后对清洗后的句子进行长度过滤的预处理操作。

优选的是，所述的智能客服中解决知识库冷启动的方法中，以由同行业或本公司的人工客服获得的人工客服数据作为人工客服日志数据包括：

选取人工客服数据中客户一方的句子作为初始句集合，对所述初始句集合中的句子进行清洗和预处理后依存句法分析，过滤掉其中既缺少主语又缺少宾语的句子，获得信息表述清晰的句子，即得到所述候选句集合。

优选的是，所述的智能客服中解决知识库冷启动的方法中，将所述候选句集合中的候选句使用业务词信息进行粗聚类包括：

保留候选句中的业务词汇，用K-means聚类算法或者谱聚类算法进行处理。

优选的是，所述的智能客服中解决知识库冷启动的方法中，对所述粗分业务簇利用细粒度语义聚合，生成细分业务簇包括：

将粗分业务簇中包含的句子利用机器学习算法或基于正则表达的自然语言处理方式进行分类；

将没有分类标签的句子利用BERT预训练模型结合层次聚类算法进行处理，得到细分业务簇。

优选的是，所述的智能客服中解决知识库冷启动的方法中，将没有分类标签的句子利用BERT预训练模型结合层次聚类算法进行处理前，还包括：利用预先收集的客服停用词表中的词汇将分类后的句子中包含的起润滑作用的短语去除；以及

将没有分类标签的句子利用BERT预训练模型结合层次聚类算法进行处理时，还包括：通过内积、JACCARD系数或余弦相似度计算去除了起润滑作用的短语的句子间的相似度，并将相似度高于预设的阈值的句子分到同一簇中，相似度低于所述阈值的句子分到不同的簇中。

优选的是，所述的智能客服中解决知识库冷启动的方法中，将每个所述细分业务簇中的句子按照句子出现频次由多至少划分为1个标准句和与所述标准句对应的相似句包括：若所述细分业务簇中无最高频次的句子时，则在所述细分业务簇中求得每个句子跟其他所有句子的余弦相似度之和，选择余弦相似度之和最大的句子作为所述细分业务簇的标准句，其他句子作为与所述标准句对应的相似句。

一种智能客服中解决知识库冷启动的装置，包括：

清洗、预处理模块，其将由同行业或本公司的人工客服数据获得的人工客服日志数据中的乱码和网址去除得到句子集合，而后将句子集合中的句子进行长度过滤，去除长度过长或过短的句子，得到初始句集合，最后将初始句集合中的句子进行依存句法分析，筛掉既缺少主语又缺少宾语的句子后，得到候选句集合；

业务词服务模块，其内存储有业务词汇；所述业务词汇包括已有词汇和由所述清洗、预处理模块得到的候选句集合中包含的句子中获取的业务相关词汇；

其中，所述已有词汇为所述业务词服务模块由预设的业务词典中获得；所述业务相关词汇为所述业务词服务模块通过使用TF-IDF、Textrank或LDATF-IDF算法中的任一种分析所述候选句集合中包含的句子而获得的业务相关词汇；

粗聚类模块，其将候选句集合中的句子按照语义进行粗略划分，并将每个句子中包含的业务词使用由业务词服务模块获取的业务词汇表示，以得到粗分业务簇；

细聚类模块，其将粗分业务簇中包含的句子按照问句分类方法进行分类后，基于句嵌入的聚类算法进行分类，以得到细分业务簇；以及

标问选择模块，其对每个细分业务簇中包含的句子的出现频次进行统计，并抽取出现频次最高的句子作为知识库的标准句，相应细分业务簇内的其他句子与所述标准句对应的相似句。

优选的是，所述的智能客服中解决知识库冷启动的装置中，所述业务词典由业务专家根据行业和场景将特殊行业术语、场景术语以及约定俗成的术语收集编撰而成。

优选的是，所述的智能客服中解决知识库冷启动的装置中，所述细聚类模块通过机器学习算法或自然语言处理方式按照原因、方式、位置、时间以及区别5种类型将粗分业务簇中包含的句子进行分类；并将无法分类的句子通过调用BERT模型转换为句子向量，然后再对所述句子向量进行分类；最后将分类后的句子通过层次聚类算法进行处理得到细分业务簇。

本发明至少包括以下有益效果：

本发明的智能客服中解决知识库冷启动的方法中，对人工客服日志数据进行清洗和预处理；根据处理后的人工客服日志数据使用业务词信息进行粗聚类，在粗分的业务簇上使用细粒度语义聚合，并从得到的簇中选取最高频句子作为标准问，其余句子作为该标准问下的相似问，即得到了最终的知识库，通过引入业务先验知识减少对于人工客服业务水平的需求，识别出意图明确的高频问题，实现了知识库的自动化的高效构建，并使得构建的知识库质量更高。

本发明自动解决了企业知识库从0到1的冷启动问题，省去人工的参与大大降低了成本；且得到的知识库质量高，知识库的所有问句都涵盖了本行业的核心词，将客户关心的常见问题作为知识库中的标准问和相似问，知识库覆盖面全；本发明普遍适用于保险金融、医疗医药、电子商务、泛互联网、汽车服务、生活服务等行业，使用范围广。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是本发明提供的智能客服中解决知识库冷启动的方法的流程图；

图2是本发明提供的智能客服中解决知识库冷启动的装置的框架结构图。

具体实施方式

下面结合附图对本发明做详细说明，以令本领域普通技术人员参阅本说明书后能够据以实施。

如图1所示，一种智能客服中解决知识库冷启动的方法，包括：调取人工客服日志数据进行清洗和预处理，得到候选句集合；

在上述方案中，通过对人工客服日志数据进行清洗和预处理，使得得到的候选句集合中句子信息表述清晰，而客服知识库中通常是客服咨询和反馈的问题，主要是针对于公司产品和业务的，也就是说，用户的常见问题通常均是跟公司的业务相关的，即抓住了问题的业务面基本上就抓住了问题的重点，基于这一观察，通过设置将候选句集合中的候选句使用业务词信息进行粗聚类，即将每句话中的业务词保留下来作为句子语义的初略表达，即将候选句按照业务信息进行了初步的划分，一方面减少了口语中其它词汇的语义干扰，另一方面减少了聚类中的运算量，但是，基于同一业务，不同客户的咨询的具体内容仍有许多细节上的差别，因而通过利用细粒度语义聚合，生成细分业务簇，最后用将每个细分业务簇中的句子按照句子出现频次由多至少划分为1个标准句和与所述标准句对应的相似句后，即得到解决知识库冷启动的最终知识库，即从每个簇中选出一个有代表性的问句作为标准问题，利用了聚类产生的标准问题来代替原来人工定义的知识点的问题，这可以更好的反映用户的真实诉求，也能简化知识库的建设过程。

一个优选方案中，调取人工客服日志数据进行清洗和预处理包括：以由同行业或本公司的人工客服获得的人工客服数据作为人工客服日志数据，对所述人工客服日志数据进行去除乱码和网址的清洗操作，然后对清洗后的句子进行长度过滤的预处理操作。

在上述方案中，对人工客服日志数据进行清洗，去除乱码、网址等等，过滤掉其中既缺少主语又缺少宾语的句子，保留语义完整的句子，以及过滤掉一部分过长或过短的句子，例如，定义字符数小于5的和字符数大于25的为过短和过长句，使得得到的句子的信息表述更加清晰明确，同时大大的减少了后续数据的处理量，提高了知识库构建的效率。

一个优选方案中，以由同行业或本公司的人工客服获得的人工客服数据作为人工客服日志数据包括：

在上述方案中，使用依存句法分析来分析句子中各语言单位(词项)之间的相互依存关系，从而识别句子中“主谓宾”、“定状补”等语法成分。对于主语成分，基于根动词当前位置向前查询非名词，以非名词至根动词之间的名词为主语成分，如条件不满足，即不存在主语成分。对于宾语成分，基于根动词当前位置向后查询非名词，以非名词与根动词之间的名词为宾语成分，如条件不满足，即不存在宾语成分。若初始句集合中的句子缺少主语或宾语，则过滤掉，通过依存句法分析在初始句集合中筛选出同时含有主语和宾语的句子，从而得到候选句集合。过滤掉了诸如“不能走了怎么办？”、“十次有八次不能用”等句子。

一个优选方案中，将所述候选句集合中的候选句使用业务词信息进行粗聚类包括：

在上述方案中，聚类是基于对象数字化表达，用于寻找数据内在分布结构的一种方法。问句的数字化表示很大程度决定了聚类结果的方向。基于业务词的问句表达能更好地将谈论相同业务的句子聚合在一起做进一步的语义澄清。保留候选句中的业务词汇，用K-means聚类算法或者谱聚类算法进行处理，这里的簇数选择max((候选句子数/25)的下界，1)。

一个优选方案中，对所述粗分业务簇利用细粒度语义聚合，生成细分业务簇包括：

在上述方案中，通过将粗分业务簇中包含的句子利用机器学习算法或基于正则表达的自然语言处理方式进行分类；然后将没有分类标签的句子利用BERT预训练模型结合层次聚类算法进行处理，得到细分业务簇，实现了将已知的知识的分类和利用预训练模型的语义表示聚类相结合的方式实现了对句子的进一步划分，进一步的，可以结合问句分类和基于句嵌入的聚类算法来实现。在问句分类部分，将候选问句分为5种常见类型：原因，方式，位置，时间和区别，可以使用机器学习算法或者自然语言处理的方式来实现。

譬如：原因使用正则表达：为什么|凭什么|为何|怎么还|为啥|怎么是|怎么只有|怎么没|怎么不；

方式使用正则表达：怎么|如何；

位置使用正则表达：哪里|什么地方；

时间使用正则表达：什么时间|什么时候|何时|啥时候|几点；以及

BERT是Google最新推出的基于双向Transformer的大规模预训练语言模型，具有超强的文本表征能力。层次聚类算法是开始时将每个句子看作一个类，接着每次合并两个最相似的类，类与类之间的相似度用在这两个类中最相似的两个句子的相似度表示，两个句子的相似度可通过余弦相似度表示，合并最相似的两个类，直到类的个数为1为止。此法不需要人工指定类的个数，且聚类效果好。该层次聚类过程设置了相似度阀值，调参过程发现相似度阀值设置为0.85-0.90聚类效果更好。例如将“抽血查验的结果怎么样？”与“这个血常规检查的如何？”归为一簇，将“抽血查验的结果怎么样？”与“这个化验单的指标好吗？”归为不簇，最终通层次聚类，将优选句集合分为了不同的簇。例如电商行业的某簇下会有“怎么取消连续扣费？”、“怎么取消连续包月”、“怎么取消会员扣钱？”等等句子。

一个优选方案中，将没有分类标签的句子利用BERT预训练模型结合层次聚类算法进行处理前，还包括：利用预先收集的客服停用词表中的词汇将分类后的句子中包含的起润滑作用的短语去除；以及

在上述方案中，在使用BERT编码句子之前，使用我们预先收集的客服停用词表，将每句话中起润滑作用的短语去掉，以免这些短语影响中心语义。譬如，没有墨了，请问你们是不是上门安装。我们可以转换为：没有墨了，你们是不是上门安装。这里去掉了“请问”。可用的相似度计算方法包括但不限于内积、JACCARD系数，余弦相似度等方法。通过余弦相似度计算得到各句子间相似度，进而使用层次聚类算法，将待处理句子分为多个簇，使得相同或相近的句子分到同一簇中，相似度低于设定阈值的句子分到不同簇中。其中，余弦相似度用向量空间中的两个句子特征向量的夹角余弦来度量两个句子的相似度，夹角余弦值越大，两个特征向量的夹角越小，表示两个句子越相似，cos夹角余弦值计算：

其中Ti表示是句子的特征向量，Tit表示句子的第t个向量。所述步骤三中的层次聚类算法是在开始时将每个句子看作一个类，接着每次合并两个最相似的类，类与类之间的相似度用这两个类中最相似的两个句子的相似度表示。两个句子的相似度可通过余弦相似度表示，合并最相似的两个类，直到类的个数为1为止。此法不需要人工指定类的个数，且聚类效果好。该层次聚类过程调节了相似度阀值，调参过程发现相似度阀值设置为0.85～0.90时聚类效果更好。例如通过调用BERT模型生成句子的向量表示结合余弦相似度可得到“抽血查验的结果怎么样？”与“这个血常规检查的如何？”和“这个化验单的指标好吗”等具有更高相似度，分别为0.86和0.75，而“抽血查验的结果怎么样？”与“一定要空腹测吗”、“这病严重吗？”、“手术过程顺利”的相似度更低，分别为0.35、0.23、0.16。

一个优选方案中，将每个所述细分业务簇中的句子按照句子出现频次由多至少划分为1个标准句和与所述标准句对应的相似句包括：若所述细分业务簇中无最高频次的句子时，则在所述细分业务簇中求得每个句子跟其他所有句子的余弦相似度之和，选择余弦相似度之和最大的句子作为所述细分业务簇的标准句，其他句子作为与所述标准句对应的相似句。

在上述方案中，在排序后的各个簇中，在每个簇内统计各句子出现的频次，抽取出现频次最高的句子作为知识库的标准问，簇内其他句子作为该标准问下的相似问。例如某簇中“怎么取消连续包月”出现的频次最高，则该句子为标准问，其他句子如“怎么取消会员扣钱？”、“怎么取消连续扣费？”则为该标准问下的相似问。

如图2所示，一种智能客服中解决知识库冷启动的装置，包括：

在上述方案中，获得大量同行业或公司的人工客服数据，作为源数据，对源数据进行清洗，去除乱码、网址等，对候选句子进行长度过滤，过滤掉一部分过长或过短的句子，例如，设定字符数小于5的和字符数大于25的为过短和过长句，即可得到候选句集合。例如，过滤掉诸如：“钱呢？”、“我都催了这么多太天了，如果今天再不给解决也不给发红包，我就去投诉”等句子。选取客户一方的句子作为初始句集合。对初始句集合中的句子进行依存句法分析，过滤掉其中既缺少主语又缺少宾语的句子，从而获得信息表述清晰的句子，通过此步筛选得到候选句集合。使用依存句法分析来分析句子中各语言单位(词项)之间的相互依存关系，从而识别句子中“主谓宾”、“定状补”等语法成分。对于主语成分，基于根动词当前位置向前查询非名词，以非名词至根动词之间的名词为主语成分，如条件不满足，即不存在主语成分。对于宾语成分，基于根动词当前位置向后查询非名词，以非名词与根动词之间的名词为宾语成分，如条件不满足，即不存在宾语成分。若初始句集合中的句子缺少主语或宾语，则过滤掉，通过依存句法分析在初始句集合中筛选出同时含有主语和宾语的句子，从而得到候选句集合。过滤掉了诸如“不能走了怎么办？”、“十次有八次不能用”等句子。

聚类是基于对象数字化表达，用于寻找数据内在分布结构的一种方法。问句的数字化表示很大程度决定了聚类结果的方向。基于业务词的问句表达能更好地将谈论相同业务的句子聚合在一起做进一步的语义澄清。业务词服务模块主要用来提供这样的业务词信息。模块有两个输入，一个是已有的业务词典，该业务词典主要用于保证专业术语作为完整词语被识别，没有被拆分成多个词语，这样才能聚合出数据潜在的最大数据价值。另外一个是基于清洗、预处理模块的输出作为输入，自动生成未经确认的业务词信息，使用TF-IDF等算法获得该业务相关词汇，业务词抽取方法包括但不限于TF-IDF、Textrank、LDA等。最终获得的行业核心词，诸如金融行业的业务词有：{贷款，还款，过期，抵押，利息……}等，医疗行业的业务词有：{疾病，检查，血常规，细胞，免疫因子，过激反应……}等。

粗聚类模块将语义通过聚类的方式进行粗略的划分，每个候选句子使用业务词服务模块提供的词汇表示，使用像K-means或者谱聚类等聚类算法进行处理，这里的簇数选择max((候选句子数/25)的下界，1)。

细聚类模块结合已知的知识的分类和利用预训练模型的语义表示聚类来共同完成。例如，利用细聚类模块结合问句分类和基于句嵌入的聚类算法来实现，在问句分类部分，将候选问句分为5种常见类型：原因、方式、位置、时间以及区别。然后可以使用机器学习算法或者自然语言处理的方式来实现，例如使用基于正则表达的自然语言处理方式：

原因使用正则表达：为什么|凭什么|为何|怎么还|为啥|怎么是|怎么只有|怎么没|怎么不；

方式使用正则表达：怎么|如何；

位置使用正则表达：哪里|什么地方；

时间使用正则表达：什么时间|什么时候|何时|啥时候|几点；

进而问句分类将一个业务簇进一步分为5个小簇，在排序后的各个簇中，标问选择模块在每个簇内统计各句子出现的频次，抽取出现频次最高的句子作为知识库的标准问，簇内其他句子作为该标准问下的相似问。

一个优选方案中，所述业务词典由业务专家根据行业和场景将特殊行业术语、场景术语以及约定俗成的术语收集编撰而成。

在上述方案中，业务词典由业务专家根据行业、场景，将特殊行业术语、场景术语以及一些约定俗成的术语收集编撰而成，因而能够保证专业术语作为完整词语被识别，没有被拆分成多个词语，进而聚合出数据潜在的最大数据价值。

一个优选方案中，所述细聚类模块通过机器学习算法或自然语言处理方式按照原因、方式、位置、时间以及区别5种类型将粗分业务簇中包含的句子进行分类；并将无法分类的句子通过调用BERT模型转换为句子向量，然后再对所述句子向量进行分类；最后将分类后的句子通过层次聚类算法进行处理得到细分业务簇。

在上述方案中，使用任一方法将句子表示成特征向量之后，句子之间的相似度就可通过空间中这两个句子特征向量间的几何关系来度量。

另外，预设的停用词表内可以包括下述词语：不好意思、不客气、不用谢、中午好、久等、亲、你们好、你好、再见、初次见面、午安、告辞了、在？、在么、天气不好、天气不错、天气差、天真冷、天真好、天真热、客气、对不起、很高兴、忙？、忙么？、您好、感谢、打扰一下、打扰了、打搅了、抱歉、拜拜、早上好、早安、晚上好、晚安、来了、欢迎、欢迎光临、真高兴、稍等、等等、让您久等了、请多关照、请稍等、请问、谢谢、辛苦了、问一下、非常感谢、非常抱歉、问下、请问、想问一下，以及我想问一下，等等。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种智能客服中解决知识库冷启动的方法，其中，包括：

2.如权利要求1所述的智能客服中解决知识库冷启动的方法，其中，调取人工客服日志数据进行清洗和预处理包括：

3.如权利要求2所述的智能客服中解决知识库冷启动的方法，其中，以由同行业或本公司的人工客服获得的人工客服数据作为人工客服日志数据包括：

4.如权利要求1所述的智能客服中解决知识库冷启动的方法，其中，将所述候选句集合中的候选句使用业务词信息进行粗聚类包括：

5.如权利要求1所述的智能客服中解决知识库冷启动的方法，其中，对所述粗分业务簇利用细粒度语义聚合，生成细分业务簇包括：

6.如权利要求5所述的智能客服中解决知识库冷启动的方法，其中，将没有分类标签的句子利用BERT预训练模型结合层次聚类算法进行处理前，还包括：利用预先收集的客服停用词表中的词汇将分类后的句子中包含的起润滑作用的短语去除；以及

7.如权利要求1所述的智能客服中解决知识库冷启动的方法，其中，将每个所述细分业务簇中的句子按照句子出现频次由多至少划分为1个标准句和与所述标准句对应的相似句包括：若所述细分业务簇中无最高频次的句子时，则在所述细分业务簇中求得每个句子跟其他所有句子的余弦相似度之和，选择余弦相似度之和最大的句子作为所述细分业务簇的标准句，其他句子作为与所述标准句对应的相似句。

8.一种智能客服中解决知识库冷启动的装置，其中，包括：

9.如权利要求9所述的智能客服中解决知识库冷启动的装置，其中，所述业务词典由业务专家根据行业和场景将特殊行业术语、场景术语以及约定俗成的术语收集编撰而成。

10.如权利要求9所述的智能客服中解决知识库冷启动的装置，其中，所述细聚类模块通过机器学习算法或自然语言处理方式按照原因、方式、位置、时间以及区别5种类型将粗分业务簇中包含的句子进行分类；并将无法分类的句子通过调用BERT模型转换为句子向量，然后再对所述句子向量进行分类；最后将分类后的句子通过层次聚类算法进行处理得到细分业务簇。