CN109658114A

CN109658114A - 大型语料库的高效智能客服方法

Info

Publication number: CN109658114A
Application number: CN201811568854.4A
Authority: CN
Inventors: 任君翔; 李光亚; 陈诚
Original assignee: WANDA INFORMATION CO Ltd
Current assignee: WANDA INFORMATION CO Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-19

Abstract

本发明涉及一种大型语料库的高效智能客服方法。本发明引入基于关键词加权的递归聚类算法对语料库做预分类，基于关键词的加权保留了词库匹配的优势，采用了相似度计算的方式，降低相似度计算的时间复杂度。同时，避免了人工标注和构建词库的成本支出，不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复自动售后问答、市民云自动问询、社交APP自动聊天等人机交互领域均有较好的表现。

Description

大型语料库的高效智能客服方法

技术领域

本发明涉及一种店铺自动售后、市民自动问询、公众号自动回复等人机交互方法，属于智能交互技术领域。

背景技术

现有技术主要分监督学习和非监督学习两类模型，监督学习以文本分类和文本生成为主，非监督学习以关键词匹配和相似度计算为主，介绍如下：

1.文本分类

主要围绕机器学习(SVM、Logistic等分类模型)、深度学习(CNN、RNN等神经网络)，通过对文本做分类，查询知识库相应类别的答案作为反馈。

不足：需要大量的语料，新增的问题分类需要重新训练，需要人工标注问题分类，硬件成本高昂，训练耗时，难以迁移。

2.文本生成

主要围绕深度学习(seq2seq)，通过Encoder-Decoder结构的网络，输入是一个序列，输出也是一个序列，自动生成回答。

不足：需要大量的语料，硬件成本高昂，训练耗时，难以迁移。

3.关键词匹配

主要围绕规则算法(正则表达式等)，通过对真实问题和预设问答的关键词、近义词匹配，引出一个素材库的查询回复。

不足：人工抽取重要词汇，词库管理开销较大，容易出现词汇冲突等问题。

4.相似度计算

主要围绕构建文本特征工程和相似度计算，对输入到问答知识库相似性判断直接查询答案。

不足：大型数据集下的计算开销比较大，准确率略低于其他三种。

机器学习、深度学习均需要人工标注、构建词库，需要耗费大量的人力物力。相似度计算在大数据场景下耗时多，同一个模型难以在不同场景下迁移。

发明内容

本发明解决的技术问题是：智能交互技术领域高成本、高耗时和不同场景的迁移问题。

为了解决上述技术问题，本发明的技术方案是提供了一种大型语料库的高效智能客服方法，其特征在于，包括以下步骤：

步骤1、对语料库corpus当前层级的每一个语料做分词，得到词语序列wordlist^corpus，其中，语料库corpus＝[document₁，document₂，...，document_len(corpus)]是一个包含所有语料的列表；语料库corpus中的第i个语料表示为document_i，i＝1，2，...，len(corpus)，len(corpus)表示语料库corpus的长度；第i个语料document_i的词语序列定义为表示第i个语料document_i的第i个分词，len(document)表示第i个语料document_i的长度；

步骤2、对词语序列wordlist^corpus中的每个语料的词语序列匹配词向量，得到所有语料的词向量序列veclist^corpus，第i个语料document_i的词向量序列表示为为与第i个语料document_i的第j个分词的词向量，j＝1，2，...，len(document_i)；

步骤3、计算词向量序列veclist^corpus中每个语料的词向量序列所对应的句向量，从而得到所有语料的句向量序列vec^corpus，第i个语料document_i的句向量表示为则有mean表示计算均值；

步骤4、若语料库corpus当前层级的语料数量大于预先设定的阈值threshold^cluster，则进入步骤5，否则进入步骤6；

步骤5、对语料库corpus的句向量序列vec^corpus做聚类，将相似的语料归为一类，得到多个聚类中心、每个聚类的语料子集和每个聚类的关键词表，其中第i个聚类中心表示为cluster_i，聚类中心cluster_i的语料子集表示为corpus_i，聚类中心cluster_i的关键词表表示为keywords_i；

步骤6、判断语料库corpus是否存在下一层级，若存在，则返回步骤1，若不存在，则输出处理后的语料库corpus^{preprocessing}；

步骤7、用户提出问题str^ask后，对问题str^ask进行分词处理，得到问题str^ask的词语序列，匹配词语序列的词向量后，得到与问题str^ask相匹配的句向量vec^ask；

步骤8、计算句向量vec^ask与语料库corpus^{preprocessing}中各个层级的聚类中心的加权相似度，在当前层级中选择相似度最高的聚类中心所对应的语料集，随后计算句向量vec^ask与语料集中每一条句向量的相似度；

步骤9、若上一步获得的所有相似度的最大值大于预先设定的阈值threshold^similarity，则直接进入与最大的相似度所对应的句向量所在的语料库corpus^{preprocessing}的层级，否则，选取相似度最大的几个句向量所在的语料库corpus^{preprocessing}的层级供用户选择进入。

优选地，第i个语料document_i表示为：

document_i＝

{key：keytext_i，1，value：valuetext_i，1，

node：[{key：keytext_i，1.1，value：valuetext_i，1.1}，{key：keytext_i，1.2，value：valuetext_i.1.2}]}

式中，key表示标准问题，keytext_i，1表示第i个语料的第一个标准问题，value表示标准问题对应的标准答案，valuetext_i，1表示第i个语料的第一个标准答案，keytext_i，1.1表示第i个语料的第一个标准问题下一级的第一个标准问题，keytext_i，1.2表示第i个语料的第一个标准问题下一级的第二个标准问题，valuetext_i，1.1表示第i个语料的第一个标准问题下一级的第一个标准答案，valuetext_i.1.2表示第i个语料的第一个标准问题下一级的第二个标准答案。本发明引入基于关键词加权的递归聚类算法对语料库做预分类，基于关键词的加权保留了词库匹配的优势，采用了相似度计算的方式，降低相似度计算的时间复杂度。同时，避免了人工标注和构建词库的成本支出，不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复等人机交互领域均有较好的表现。

现阶段，当语料库较大时，通过和每一条语料计算相似度来返回相关语料，计算时间过长、内存占用率过大，不适合使用相似度算法。其他方案如文本分类、文本生成，需要大量的人工标注、构建词库，需要耗费大量的人力物力。尤其的深度学习，需要大量的语料和强大的硬件。对于小型企业和个人，都是难以承担的支出。

本发明不需要任何额外的标注，完全基于高效的非监督学习。通过聚类算法对语料库做多层次的预分类，在训练阶段可以将扁平数据结构转为层次化数据结构，大幅降低不相关文本之间的计算量。模型部署后，原先需要和多条语料做相似度计算的开销降低至只需要和聚类中心做相似度计算，大幅降低了相似度计算的时间和内存占用率，提高了整体的性能。相似度计算需要和知识库的每一条知识做匹配，时间复杂度O(n)，O(·)表示算法的运行时间，n表示知识库需要计算相似度的标准问题数量；本发明的时间复杂度最低只有O(k×log_k(n))，k表示递归聚类算法的聚类数量，单次聚类时间复杂度可降低为

附图说明

图1为本发明的流程图；

图2为本发明中分词过程的示意图；

图3为本发明的聚类算法示意图；

图4为本发明的预处理过程示意图；

图5为本发明的用户提问过程示意图；

图6为本发明用户交互详细流程图；

图7为问答过程至最后层级示意图；

图8为本发明实施例的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提出一种高效问答匹配方案，基本思想是：基于递归聚类的思想对语料库做多层次的预分类。

没有特别是说明，函数和数据格式依照Python的风格，出现的函数含义如下：

具体而言，本发明提供的一种大型语料库的高效智能客服方法包括以下步骤：

3.1预处理

3-1

将语料库corpus定义为corpus＝[document₁，document₂，...，document_len(corpus)]，是一个包含所有语料的列表。将语料库corpus中第i个语料定义为document_i，形如“本级问句-本级回答-下一级问答对列表”的配对形式，i＝1，2，...，len(corpus)。

document_i＝

{key：keytext_i，1，value：valuetext_i，1，

式中，key表示标准问题，keytext_i，1表示第i个语料的第一个标准问题，value表示标准问题对应的标准答案，valuetext_i，1表示第i个语料的第一个标准答案，keytext_i，1.1表示第i个语料的第一个标准问题下一级的第一个标准问题，keytext_i，1.2表示第i个语料的第一个标准问题下一级的第二个标准问题，valuetext_i，1.1表示第i个语料的第一个标准问题下一级的第一个标准答案，valuetext_i.1.2表示第i个语料的第一个标准问题下一级的第二个标准答案。

3-2

数据处理：对语料库corpus分词

对语料库corpus的每一个语料做分词，得到各个语料所对应的词语序列。语料document_i的词语序列定义为则有：

表示语料document_i第1个分词，以此类推。

所有语料的词语序列组成了语料库corpus的词语序列wordlist^corpus，

3-3

定义词向量数据集embedding：

词向量数据集embedding是“词-词向量”的配对形式，以字典形式存储，表示为：

embedding＝{word₁：vector₁，word₂：vector₂，...，word_n：vector_n}

例如：

定义词向量匹配方法：

通过匹配将文本向量化，超出词向量范围的使用字向量的均值：

记vec^str＝embedding[str]，str表示待匹配向量的字/词

chr₁表示word中第1个字，以此类推。

3.2语料特征

3-4

对每个语料所对应的词语序列匹配词向量，得到所有语料的词向量序列veclist^corpus，

语料document_i的词语序列的词向量定义为则有：

3-5

计算每个词向量的句向量

将句向量定义为句子中词向量的均值，则词向量的句向量定义为有：

mean表示计算均值。

汇总语料库corpus全部句向量，得到vec^corpus，

3-6

定义递归聚类逻辑

根据预先设定的参数聚类内数量阈值threshold^cluster，如果语料库corpus当前层级的语料数大于threshold^cluster，则对语料库当前层级的所有句向量做聚类，将相似的语料归为一类，得到k个聚类中心和每个聚类的语料子集；反之，结束。

3-7

定义聚类算法，采用余弦度量的K-Means

cluster₁，cluster₂，...，cluster_k＝f_cluster(vec^corpus)

式中，cluster_i表示第i个聚类中心的空间向量，i＝1，2，...，k；corpus_[i，j]表示第j个语料所属的第i个聚类，j＝1，2，...，len(corpus)；corpus_i表示第i个聚类所包含的所有语料。

3-8

提取聚类关键词

针对每个cluster_i，计算cluster_i对应的词频，保存corpus_i的关键词表keywords_i，式中，keywords_i表示第i个聚类中心的关键词表，keyword_i，1表示keywords_i第1个关键词，i＝1，2，...，k；num^keyword表示保留的关键词数。

重复执行3-6、3-7、3-8，至不需要聚类。3-6、3-7、3-8是一个递归聚类的过程，cluster_i、corpus_i和keywords_i是以层级嵌套的形式存在的，保存方式为Python的字典。记cluster_i、corpus_i和keywords_i最终表达为cluster^corpus。

3-9

判断语料库corpus是否还有下一层级

语料库corpus是一个层次化结构，如果存在下一层级，重复3-2～3-8步骤，直至最后层级；反之，结束，保存预处理结果，将预处理后的语料库corpus定义为corpus^{preprocessing}。

3.3问答过程

3-10输入：用户的提问str^ask；

3-11对用户提问str^ask执行分词；

3-12匹配词向量(类似3-2)；

3-13计算句向量(类似3-4)，得到提问的句向量vec^ask

3.4相似度计算模块

3-14定义相似度计算公式，采用余弦相似度：

3-15

获得语料库corpus^{preprocessing}每个层级的聚类中心及各个聚类所包含的所有语料；

3-16

利用3-14计算用户提问的句向量vec^ask和每个聚类中心的相似度

句向量vec^ask和聚类中心cluster_i的相似度权重定义为weight_i，则有weight_i＝1+len(wordlist^ask∩keywords_i)/num^keyword，聚类中心cluster_i与句向量vec^ask的相似度定义为则有选择相似度最高的聚类中心所对应的聚类所包含的所有语料定义为corpus_j，则有：

3-17，循环执行3-15、3-16至不存在聚类中心，获得由所有相似度值组成的集合corpus_finally：

计算句向量vec^ask和corpus_j内每一条语料的相似度，得到则有：

3.5进入下一层级

事先准备的语料库corpus是层级关系(多轮问答)

3-18，根据相似度阈值，判断是否需要用户选择

当时，直接进入对应层级；反之，返回最高的几个类别由用户选择。

3-19，重复执行“3.3问答过程”至最后层级结束问答。

范例：

假设语料库corpus包含两个主题，分别是身份证办理和户口本办理。

document₁＝

{本级问句：身份证哪里补办，本级回答：派出所，

下一级问答对列表：[

{本级问句：本市身份证哪里补办，本级回答：本市派出所}，

{本级问句：非本市身份证哪里补办，本级回答：户口派出所}]}

document₂＝

{本级问句：户口本哪里补办，本级回答：公安局，

下一级问答对列表：[

{本级问句：本市户口本哪里补办，本级回答：本市公安局}，

{本级问句：非本市户口本哪里补办，本级回答：户口公安局}]}

预处理后第一级得到两个聚类

cluster^corpus＝[

center₁：[0.1，0.9]，corpus₁：document₁，

center₂：[0.5，0.5]，corpus₂：document₂]

用户提问str^ask＝非本市户籍户口本哪里补办

计算得到vec^ask＝[0.2，0.3]

计算得到similarity_{ask，clusters1}＝0.89，similarity_{ask，clusters2}＝0.98。

进入到center₂，匹配到结果是document₂，咨询户口补办。

document₂存在下一层级“本市/非本市”，

重复上述过程计算

结果依旧是similarity_{ask，clusters1}＝0.89，similarity_{ask，clusters2}＝0.98。

假设相似度阈值threshold^similarity＝0.9，similarity_{ask，clusters2}＞threshold^similarily。

匹配到“本市公安局”，不存在下一层级，问答结束。

本发明引入基于关键词加权的递归聚类算法对语料库做预分类，降低相似度计算的时间复杂度，大幅提高相似度计算的速度。同时，基于关键词的加权保留了词库匹配的优势，采用了相似度计算的方式，避免了人工标注和构建词库的成本支出，不需要昂贵的硬件。自动问答和多层次的智能引导，在不同应用场景上均可获得较高的计算速度和准确性。、

以“上海市人民政府一网通办”数据为例，1286个办事指南，合计2744条办事情形(http：//zwdt.sh.gov.cn/govPortals/filterWorkIndex.do)。页面智能客服的单条问答响应时间通常需要1-2秒，部分问题相应时间为3-5秒；2.传统相似度匹配相应时间约100毫秒；本发明通过聚类做预分类，响应时间20毫秒，匹配结果与传统相似度计算一致，返回结果高度相关。测试显示：

本发明不需要任何额外的标注，完全基于高效的非监督学习，大幅降低了相似度计算的时间和内存占用率，提高了整体的性能。相似度计算需要将用户提问和知识库的每一条知识做匹配，时间复杂度为O(n)，对于个人和中小型企业而言，日常开发和使用时基于工作站和若干台服务器，当知识库过于庞大的时候(主流移动工作站，超过5万就会需要数秒去计算)，计算相似度将会耗去大量的时间，是无法接受的。

相似度本身就是通过余弦距离的距离来判断文本之间的相似性，合理的预分类将会有效避免明显不相关的文本之间做计算。通过基于余弦的递归聚类算法对语料库做预分类，在训练阶段可以将扁平数据结构转为层次化数据结构。模型部署后，原先需要和多条语料做相似度计算的开销降低至只需要和聚类中心做相似度计算，大幅降低了相似度计算的时间，提高了整体的性能。相似度计算需要和知识库的每一条知识做匹配，时间复杂度O(n)；本发明的时间复杂度最低只有O(k×log_k(n))，单次聚类时间复杂度为关键词的加权保留了词库匹配的优势，提高了准确率。

Claims

1.一种大型语料库的高效智能客服方法，其特征在于，包括以下步骤：

步骤5、对语料库corpus的句向量序列vec^corpus做聚类，将相似的语料归为一类，得到多个聚类中心和每个聚类的语料子集和每个聚类的关键词表，其中第i个聚类中心表示为cluster_i，聚类中心cluster_i的语料子集表示为corpus_i，聚类中心cluster_i的关键词表表示为keywords_i；步骤6、判断语料库corpus是否存在下一层级，若存在，则返回步骤1，若不存在，则输出处理后的语料库corpus^{preprocessing}；

步骤9、若上一步获得的所有相似度的最大值大于预先设定的阈值threshold^similarily，则直接进入与最大的相似度所对应的句向量所在的语料库corpus^{preprocessing}的层级，否则，选取相似度最大的几个句向量所在的语料库corpus^{preprocessing}的层级供用户选择进入。

2.如权利要求1所述的一种大型语料库的高效智能客服方法，其特征在于，第i个语料document_i表示为：

document_i＝

{key：keytext_i，1，value：valuetext_i，1，