CN107656948A

CN107656948A - 自动问答系统中的问题聚类处理方法及装置

Info

Publication number: CN107656948A
Application number: CN201611002092.2A
Authority: CN
Inventors: 王健宗; 袁威强; 韩茂琨; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-02-02
Anticipated expiration: 2036-11-14
Also published as: JP6634515B2; AU2017329098A1; AU2017329098B2; SG11201802373WA; JP2019504371A; EP3540612A1; KR20180077261A; EP3540612A4; US20190073416A1; KR102113413B1; WO2018086401A1; CN107656948B

Abstract

本发明公开了一种自动问答系统中的问题聚类处理方法及装置。该方法包括：接收编写人员输入的聚类请求；基于聚类请求从未回复问题数据库中获取待聚类问题集；采用文本特征提取算法对待聚类问题集进行特征提取，输出问题特征集；判断问题特征集是否符合预设分裂条件；若符合预设分裂条件，则采用分割聚类算法对问题特征集进行分割聚类，输出至少两个问题特征子集；将问题特征子集更新为问题特征集，并判断问题特征集是否符合预设分裂条件；若不符合预设分裂条件，则将问题特征集作为聚类类簇输出。该自动问答系统中的问题聚类处理方法及装置中，可对待聚类问题集自动聚类，帮助编写人员了解问题咨询需求，提高编写的问答对的覆盖面。

Description

自动问答系统中的问题聚类处理方法及装置

技术领域

本发明涉及文本信息处理领域，尤其涉及一种自动问答系统中的问题聚类处理方法及装置。

背景技术

自动问答系统(Question and Answering，简称QA)综合运用知识表示、信息检索、自然语言处理等技术，能够接收用户以自然语言形式输入问题，即可返回简洁而准确的答案的系统。自动问答系统相比于传统的搜索引擎，具有更方便、更准确的优点，是当前自然语言处理及人工智能领域的研究热点。

在自动问答系统中通常需预先设置常问问题库(Frequently-Asked Question，简称FAQ)，常问问题库用于存储至少一个问答对；每一问答对包括用户经常提问的问题和答案。在用户输入问题时，自动问答系统判断常问问题库中是否存在相同的问题；若存在相同的问题，则直接将常问问题库中对应的答案返回给用户，以利于提高自动问答系统的处理效率和准确率；若不存在相同的问题，则无法直接返回对应的答案，需人工回复或进行其他处理，使得自动问答系统的处理效率和准确率降低。由于自动问答系统回复问题的准确性和及时性，使其在客服或其他人工智能领域有较大的应用。由于自动问答系统能够及时准确地回复答案的前提是常问问题库中存在相应的问答对，因此常问问题库中的问答对越丰富、覆盖面越广，则自动问答系统中答案回答的准确率越高、效率越好。综上，问答对的编写是自动问答系统的核心。

现有自动问答系统中，问答对通常由编写人员编写问题，再由答复人员对问题进行解答，以形成问题与答案相对应的问答对。编写人员编写问题时通常基于自身经验、知识和记忆等因素进行考虑，存在局限性，使得编写人员编写的问题的覆盖面有限，不能完整且快速地覆盖到用户关注的问题，使得常问问题库中存储的问答对不能很好满足用户需求，而且编写人员编写问题的过程需耗费大量人力成本和时间成本，效率低。

发明内容

本发明要解决的技术问题在于，针对现有自动问答系统中，由编写人员编写问题所存在的问题覆盖面有限的不足，提供一种自动问答系统中的问题聚类处理方法及装置，通过对用户关注的问题进行聚类处理，提高问题设计的覆盖面，实现问答对的智能化设计。

本发明解决其技术问题所采用的技术方案是：一种自动问答系统中的问题聚类处理方法，包括：

接收编写人员输入的聚类请求；

基于所述聚类请求从未回复问题数据库中获取待聚类问题集，所述待聚类问题集包括至少一个待聚类问题；

采用文本特征提取算法对所述待聚类问题集进行特征提取，输出问题特征集，所述问题特征集包括至少一个问题特征；

判断所述问题特征集是否符合预设分裂条件；

若符合预设分裂条件，则采用分割聚类算法对所述问题特征集进行分割聚类，输出至少两个问题特征子集；将所述问题特征子集更新为问题特征集，并判断所述问题特征集是否符合预设分裂条件；

若不符合预设分裂条件，则将所述问题特征集作为聚类类簇输出。

优选地，所述判断所述问题特征集是否符合预设分裂条件，包括：

判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个问题特征子集，以使问题特征集中所有点到原始聚类中心的平均距离大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离；若能，则符合预设分裂条件；若否，则不符合预设分裂条件；

或者，判断所述问题特征集的问题特征数量是否大于预设分裂数量，若是，则符合预设分裂条件；若否，则不符合预设分裂条件。

优选地，所述采用文本特征提取算法对所述待聚类问题集进行特征提取，输出问题特征集，包括；

采用IT-IDF算法的向量空间模型对所述待聚类问题集进行特征提取，输出初始特征集；

采用LSI模型对所述初始特征集进行特征映射，输出所述问题特征集。

优选地，所述采用文本特征提取算法对所述待聚类问题集进行特征提取之前，还包括：采用文本预处理算法对所述待聚类问题集进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

优选地，还包括：对所述聚类类簇进行数据库字段匹配处理，并将处理后的聚类类簇存储在聚类问题数据库中。

本发明还提供一种自动问答系统中的问题聚类处理装置，包括：

聚类请求接收单元，用于接收编写人员输入的聚类请求；

聚类问题集获取单元，用于基于所述聚类请求从未回复问题数据库中获取待聚类问题集，所述待聚类问题集包括至少一个待聚类问题；

特征提取单元，用于采用文本特征提取算法对所述待聚类问题集进行特征提取，输出问题特征集，所述问题特征集包括至少一个问题特征；

分裂判断单元，用于判断所述问题特征集是否符合预设分裂条件；

第一处理单元，用于在所述问题特征集符合预设分裂条件时，采用分割聚类算法对所述问题特征集进行分割聚类，输出至少两个问题特征子集；将所述问题特征子集更新为问题特征集，并判断所述问题特征集是否符合预设分裂条件；

第二处理单元，用于在所述问题特征集不符合预设分裂条件时，将所述问题特征集作为聚类类簇输出。

优选地，所述分裂判断单元包括第一判断单元或者第二判断单元；

所述第一判断单元，用于判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个问题特征子集，以使问题特征集中所有点到原始聚类中心的平均距离大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离；若能，则符合预设分裂条件；若否，则不符合预设分裂条件；

所述第二判断单元，用于判断所述问题特征集的问题特征数量是否大于预设分裂数量，若是，则符合预设分裂条件；若否，则不符合预设分裂条件。

优选地，所述特征提取单元包括；

特征提取子单元，用于采用IT-IDF算法的向量空间模型对所述待聚类问题集进行特征提取，输出初始特征集；

特征映射子单元，用于采用LSI模型对所述初始特征集进行特征映射，输出所述问题特征集。

优选地，还包括预处理单元，用于采用文本预处理算法对所述待聚类问题集进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

优选地，还包括匹配处理单元，用于对所述聚类类簇进行数据库字段匹配处理，并将处理后的聚类类簇存储在聚类问题数据库中。

本发明与现有技术相比具有如下优点：本发明所提供的自动问答系统中的问题聚类处理方法及装置中，基于聚类请求从未回复问题数据库中获取待聚类问题集，并对待聚类问题集进行自动聚类，可帮助编写人员了解问题咨询需求，提高编写的问答对的覆盖面，提升自动问答系统的整体问答性能。该自动问答系统的问题聚类处理方法及装置中，需判断对待聚类问题集进行特征提取后的问题特征集是否符合预设分裂条件，并在符合预设分裂条件时采用分割聚类算法进行分割聚类，在不符合预设分裂条件时自动停止分割聚类，以满足问题特征集动态变化的应用场景，实现层次化聚类处理，可保证输出的聚类类簇内部的问题比较相似，得到较好的聚类效果，并避免人工调整参数的繁琐操作。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例1中自动问答系统中的问题聚类处理方法的一流程图。

图2是本发明实施例2中自动问答系统中的问题聚类处理装置的一原理框图。

主要元件符号说明

聚类请求接收单元	10	第一判断单元	41
				聚类问题集获取单元	20	第二判断单元	42
特征提取单元	30	第一处理单元	50
				特征提取子单元	31	第二处理单元	60
特征映射子单元	32	预处理单元	70
				分裂判断单元	40	匹配处理单元	80

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

实施例1

图1示出本实施例中的自动问答系统中的问题聚类处理方法。该自动问答系统包括服务器、与服务器通信相连的客户终端和后台服务终端；其中，常问问题库存储在服务器上。客户终端，用于接收客户以自然语文形式或其他形式输入的问题，将问题发送给服务器，并接收和显示服务器反馈的答案。服务器，用于基于客户终端发送的问题，查询常问问题库是否存在相应的问答对；若存在相应的问答对时，将答案发送给客户终端；若不存在相应的问答对时，需将问题发送给后台服务终端，接收后台服务终端发送的答案，并将答案发送给客户终端。后台服务终端，不仅用于接收并显示编写人员输入的问题，还用于接收并显示服务器发送的问题，并接收答复人员输入的答案，并将答案上传到服务器。本实施例所提供的自动问答系统的问题聚类处理方法，通过对客户上传到服务器中的问题进行聚类，以使编写人员更了解客户的咨询需求，以完善自动问答系统的常问问题库中的问答对，提高自动问答系统进行的整体问答性能。其中，聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程；而由类似的对象组成的类为聚类类簇。

该自动问答系统中的问题聚类处理方法包括：

S1：接收编写人员输入的聚类请求。在编写人员输入聚类请求时，自动问答系统可基于聚类请求获取用户的咨询需求，设置自动问答系统的常问问题库中的问题。具体地，后台服务终端接收编写人员输出的聚类请求，并将聚类请求发送给服务器；其中，聚类请求为HTTP请求。

S2：基于聚类请求从未回复问题数据库中获取待聚类问题集，待聚类问题集包括至少一个待聚类问题。具体地，服务器接收到聚类请求后，基于聚类请求从未回复问题数据库中获取未回复问题集作为待聚类问题集输出，其中，待聚类问题集包括至少一个待聚类问题，每一待聚类问题为自动问答系统中未回复问题。在自动问答系统中，客户通过客户终端以自然语言形式输入的问题上传到服务器后，若服务器的常问问题库中存在相应的问答对时，会直接将答案反馈给客户终端；若服务器的常问问题库中不存在相应的问答对时，无法直接将答案反馈给客户终端，给相应问题添加未回复标签，并将所有携带未回复标签的问题存储在未回复问题数据库中。

本实施例中，基于聚类请求从未回复问题数据库获取待聚类问题集，由于待聚类问题集中的每一待聚类问题均为客户通过客户终端上传且系统未自动回复的未回复问题，使得基于聚类请求获取的待聚类问题集更能体现客户所关注的问题，在基于待聚类问题集进行问答对编写时，可使问答对编写的覆盖面更广。

在一具体实施方式中，该聚类请求可以包括时间范围字段，在基于聚类请求从未回复问题数据库中获取待聚类问题集时，只提取聚类请求的时间范围字段内所有的未回复问题作为待聚类问题集，可使提取的待聚类问题集具有时间性，可使编写人员通过后台服务终端了解任一时间段内客户所关注的问题。可以理解地，若编写人员通过后台服务终端上传的聚类请求中没有包括时间范围字段，则默认获取未回复问题数据库中所有的未回复问题作为待聚类问题集。

S3：采用文本特征提取算法对待聚类问题集进行特征提取，输出问题特征集，问题特征集包括至少一个问题特征。具体地，服务器在从未回复问题数据库中获取待聚类问题集后，采用文本特征提取算法对待聚类问题进行特征提取，可将待聚类问题集中以自然语言形式存储的待聚类问题转化成结构化的计算机可识别处理的问题特征集，问题特征集中的每一问题特征均为计算机可识别的文本信息。

在一具体实施方式中，步骤S3具体包括：

S31：采用IT-IDF算法的向量空间模型对待聚类问题集进行特征提取，输出初始特征集。IT-IDF(term frequency–inverse document frequency，即词汇频率-逆向文件频率)算法是一种用于信息检索与数据挖掘的常用加权算法。步骤S31具体包括如下步骤：对待聚类问题集中所有待聚类问题所包含的所有词汇分别计算词汇频率(IT)和逆向文件频率(IDF)，再利用词汇频率(IT)和逆向文件频率(IDF)计算IT-IDF值，基于IT-IDF值确定待聚类问题集对应的初始特征集。词汇频率(IT)是指某一词汇在文章中出现的次数与文章的总词数的商值。逆向文件频率(IDF)是指在模拟语言的使用环境的语料库中，语料库的文档总数与包含该词汇的文档数的商值的对数。可以理解地，为避免分母为0(即语料库中所有文档均不包含该词汇)，可使分母为包含该词汇的文档数与一常数的和值。IT-IDF值为词汇频率(IT)和逆向文件频率(IDF)的乘积。可以理解地，任一词汇的IT-IDF值越高，其重要性越高。

S32：采用LSI模型对初始特征集进行特征映射，输出问题特征集。由于IT-IDF算法的向量空间模型通常用于将文档或句子表示成一个高维的稀疏向量，在长度很多的问题文本中，仅采用IT-IDF算法对待聚类问题集进行特征提取，输出的初始特征集不能很好表达出问题的特征，因此需采用LSI模型对初始特征集进行特征映射，以输出最终的问题特征集。其中，LSI(Latent Semantic Index，潜在语义索引)模型是指两个或两个以上词汇大量出现在一个文档中，则认为两个或两个以上词汇为语义相关的，通过LSI模型进行统计，以将相关词汇构成一个潜在的主题，以实现对词汇聚类，从而达到降維目的。

在一具体实施方式中，步骤S3之前还包括：采用文本预处理算法对待聚类问题集进行预处理。文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。停用词(Stop Words)是指在处理自然语言数据时会自动过滤掉的某些字或词，如英文字符、数字、数字字符、标识符号及使用频率特高的单汉字等。采用文本预处理算法对待聚类问题进行预处理，有利于节省存储空间和提高处理效率。本实施例中，采用文本预处理算法对待聚类问题集进行预处理的好坏将直接影响后续采用文本特征提取算法对待聚类问题集进行特征提取的效果。

S4：判断问题特征集是否符合预设分裂条件。具体地，服务器在采用文本特征提取算法对待聚类问题进行特征提取并输出问题特征集后，需判断问题特征集是否符合预设分裂条件以确定问题特征集能否分裂成若干问题特征子集。

在一具体实施方式中，步骤S4具体包括：判断问题特征集能否基于至少两个分裂聚类中心分割成至少两个问题特征子集，以使问题特征集中所有点到原始聚类中心的平均距离大于每一问题特征子集中所有点到分裂聚类中心的平均距离；若能，则符合预设分裂条件；若否，则不符合预设分裂条件。其中，原始聚类中心为问题特征集的聚类中心。

在另一具体实施方式中，步骤S4具体包括：判断问题特征集的问题特征数量是否大于预设分裂数量，若是，则符合预设分裂条件；若否，则不符合预设分裂条件。该具体实施方式所采用的策略是判断一问题特征集中的问题特征数量大于预设分裂数量时，只有在问题特征集中的问题特征数量大于预设分裂数量时才可继续分裂。本实施例中，预设分裂数量可以为未回复问题数据库中所有问题数量的平方根。

S5：若符合预设分裂条件，则采用分割聚类算法对问题特征集进行分割聚类，输出至少两个问题特征子集；将问题特征子集更新为问题特征集，并判断问题特征集是否符合预设分裂条件。服务器在判断问题特征集符合预设分裂条件时，采用K-means算法、K-medoids算法和CLARANS算法等分割聚类算法对问题特征集进行分割聚类，以将问题特征集分割成至少两个问题特征子集，并将任一问题特征子集更新为问题特征集，重复步骤S4。

在本实施例所提供的自动问答系统中的问题聚类处理方法中，问题特征集中的问题特征为短文本，采用K-means算法对问题特征集进行分割聚类时，使K的值为2，每次将问题特征集划分成2个问题特征子集，并将每一问题特征子集更新为问题特征集后，重复执行步骤S4。在K-means算法中，K的值通常需事先指定，在运行过程中不能动态调整，而基于聚类请求获取的待聚类问题集动态变化，其对应的问题特征集也是动态变化的，事先指定的K值不能适应动态变化的问题特征集；因此，在该具体实施方式中，需先判断问题特征集是否符合预设分裂条件，只有在符合预设分裂条件时，才采用K-maens算法进行分割聚类，以使其满足问题特征集动态变化的要求。

S6：若不符合预设分裂条件，则将问题特征集作为聚类类簇输出。服务器在判断问题集不符合预设分裂条件时，将问题特征集作为聚类类簇输出给后台服务终端。其中，聚类类簇为最小单位的问题。在将聚类类簇发送给后台服务终端后，后台服务终端接收并显示聚类类簇，使得编写人员可基于聚类类簇更清楚地了解客户的咨询需求，设计新的问答对，并将问答对存储在常问问题库中。

S7：对聚类类簇进行数据库字段匹配处理，并将处理后的聚类类簇存储在聚类问题数据库中。在采用文本预处理算法对待聚类问题集进行预处理和文本特征提取算法对待聚类问题集进行特征提取后，输出的聚类类簇与从未回复问题数据库中获取的待聚类问题的文本形式不相同，需将聚类类簇与待聚类问题进行关联，并对聚类类簇进行数据库字段匹配处理，以将聚类类簇处理成与聚类问题数据库中字段一致的形式，以使将聚类类簇存储在聚类问题数据库时更加方便快捷。

本实施例所提供的自动问答系统中的问题聚类处理方法中，通过基于聚类请求从未回复问题数据库中获取待聚类问题集，并对待聚类问题集进行自动聚类，可帮助编写人员了解问题咨询需求，提高编写的问答对的覆盖面，提升整体问答性能。该自动问答系统的问题聚类处理方法中，需判断对待聚类问题集进行特征提取后的问题特征集是否符合预设分裂条件，并在符合预设分裂条件时采用分割聚类算法进行分割聚类，在不符合预设分裂条件时自动停止分割聚类，以满足问题特征集动态变化的应用场景，实现层次化聚类处理，可保证输出的聚类类簇内部的问题比较相似，得到较好的聚类效果，并避免人工调整参数的繁琐操作。

实施例2

图2示出本实施例中的自动问答系统中的问题聚类处理装置。该自动问答系统包括服务器、与服务器通信相连的客户终端和后台服务终端；其中，常问问题库存储在服务器上。客户终端，用于接收客户以自然语文形式或其他形式输入的问题，将问题发送给服务器，并接收和显示服务器反馈的答案。服务器，用于基于客户终端发送的问题，查询常问问题库是否存在相应的问答对；若存在相应的问答对时，将答案发送给客户终端；若不存在相应的问答对时，需将问题发送给后台服务终端，接收后台服务终端发送的答案，并将答案发送给客户终端。后台服务终端，不仅用于接收并显示编写人员输入的问题，还用于接收并显示服务器发送的问题，并接收答复人员输入的答案，并将答案上传到服务器。本实施例所提供的自动问答系统的问题聚类处理装置，通过对客户上传到服务器中的问题进行聚类，以使编写人员更了解客户的咨询需求，以完善自动问答系统的常问问题库中的问答对，提高自动问答系统进行的整体问答性能。其中，聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程；而由类似的对象组成的类为聚类类簇。该自动问答系统中的问题聚类处理装置包括聚类请求接收单元10、聚类问题集获取单元20、特征提取单元30、分裂判断单元40、第一处理单元50、第二处理单元60、预处理单元70和匹配处理单元80。

聚类请求接收单元10，用于接收编写人员输入的聚类请求。在编写人员输入聚类请求时，自动问答系统可便于基于聚类请求获取用户的咨询需求，设置自动问答系统的常问问题库中的问题。具体地，后台服务终端接收编写人员输出的聚类请求，并将聚类请求发送给服务器；其中，聚类请求为HTTP请求。

聚类问题集获取单元20，用于基于聚类请求从未回复问题数据库中获取待聚类问题集，待聚类问题集包括至少一个待聚类问题。具体地，服务器接收到聚类请求后，基于聚类请求从未回复问题数据库中获取未回复问题集作为待聚类问题集输出，其中，待聚类问题集包括至少一个待聚类问题，每一待聚类问题为自动问答系统中未回复问题。在自动问答系统中，客户通过客户终端以自然语言形式输入的问题上传到服务器后，若服务器的常问问题库中存在相应的问答对时，会直接将答案反馈给客户终端；若服务器的常问问题库中不存在相应的问答对时，无法直接将答案反馈给客户终端，给相应问题添加未回复标签，并将所有携带未回复标签的问题存储在未回复问题数据库中。

特征提取单元30，用于采用文本特征提取算法对待聚类问题集进行特征提取，输出问题特征集，问题特征集包括至少一个问题特征。具体地，服务器在从未回复问题数据库中获取待聚类问题集后，采用文本特征提取算法对待聚类问题进行特征提取，可将待聚类问题集中以自然语言形式存储的待聚类问题转化成结构化的计算机可识别处理的问题特征集，问题特征集中的每一问题特征均为计算机可识别的文本信息。

在一具体实施方式中，特征提取单元30包括特征提取子单元31和特征映射子单元32。

特征提取子单元31，用于采用IT-IDF算法的向量空间模型对待聚类问题集进行特征提取，输出初始特征集。IT-IDF(term frequency–inverse document frequency，即词汇频率-逆向文件频率)算法是一种用于信息检索与数据挖掘的常用加权算法。特征提取子单元31具体用于对待聚类问题集中所有待聚类问题所包含的所有词汇分别计算词汇频率(IT)和逆向文件频率(IDF)，再利用词汇频率(IT)和逆向文件频率(IDF)计算IT-IDF值，基于IT-IDF值确定待聚类问题集对应的初始特征集。词汇频率(IT)是指某一词汇在文章中出现的次数与文章的总词数的商值。逆向文件频率(IDF)是指在模拟语言的使用环境的语料库中，语料库的文档总数与包含该词汇的文档数的商值的对数，可以理解地，为避免分母为0(即语料库中所有文档均不包含该词汇)，可使分母为包含该词汇的文档数与一常数的和值。IT-IDF值为词汇频率(IT)和逆向文件频率(IDF)的乘积。可以理解地，任一词汇的IT-IDF值越高，其重要性越高。

特征映射子单元32，用于采用LSI模型对初始特征集进行特征映射，输出问题特征集。由于IT-IDF算法的向量空间模型通常用于将文档或句子表示成一个高维的稀疏向量，在长度很多的问题文本中，仅采用IT-IDF算法对待聚类问题集进行特征提取，输出的初始特征集不能很好表达出问题的特征，因此需采用LSI模型对初始特征集进行特征映射，以输出最终的问题特征集。其中，LSI(Latent Semantic Index，潜在语义索引)模型是指两个或两个以上词汇大量出现在一个文档中，则认为两个或两个以上词汇为语义相关的，通过LSI模型进行统计，以将相关词汇构成一个潜在的主题，以实现对词汇聚类，从而达到降維目的。

在一具体实施方式中，该自动问答系统中的问题聚类处理装置还包括预处理单元70，用于采用文本预处理算法对待聚类问题集进行预处理。文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。停用词(Stop Words)是指在处理自然语言数据时会自动过滤掉的某些字或词，如英文字符、数字、数字字符、标识符号及使用频率特高的单汉字等。采用文本预处理算法对待聚类问题进行预处理，有利于节省存储空间和提高处理效率。本实施例中，采用文本预处理算法对待聚类问题集进行预处理的好坏将直接影响后续采用文本特征提取算法对待聚类问题集进行特征提取的效果。

分裂判断单元40，用于判断问题特征集是否符合预设分裂条件。具体地，服务器在采用文本特征提取算法对待聚类问题进行特征提取并输出问题特征集后，需判断问题特征集是否符合预设分裂条件以确定问题特征集能否分裂成若干问题特征子集。

在一具体实施方式中，分裂判断单元40可以为第一判断单元41，用于判断问题特征集能否基于至少两个分裂聚类中心分割成至少两个问题特征子集，以使问题特征集中所有点到原始聚类中心的平均距离大于每一问题特征子集中所有点到分裂聚类中心的平均距离；若能，则符合预设分裂条件；若否，则不符合预设分裂条件。其中，原始聚类中心为问题特征集的聚类中心。

在另一具体实施方式中，分裂判断单元40可以为第二判断单元42，用于判断问题特征集的问题特征数量是否大于预设分裂数量，若是，则符合预设分裂条件；若否，则不符合预设分裂条件。该具体实施方式所采用的策略是判断一问题特征集中的问题特征数量大于预设分裂数量时，只有在问题特征集中的问题特征数量大于预设分裂数量时才可继续分裂。本实施例中，预设分裂数量可以为未回复问题数据库中所有问题数量的平方根。

第一处理单元50，用于在问题特征集符合预设分裂条件时，采用分割聚类算法对问题特征集进行分割聚类，输出至少两个问题特征子集；将问题特征子集更新为问题特征集，并判断问题特征集是否符合预设分裂条件。服务器在判断问题特征集符合预设分裂条件时，采用K-means算法、K-medoids算法和CLARANS算法等分割聚类算法对问题特征集进行分割聚类，以将问题特征集分割成至少两个问题特征子集，并将任一问题特征子集更新为问题特征集，跳转到分裂判断单元40。

在本实施例所提供的自动问答系统中的问题聚类处理装置中，问题特征集中的问题特征为短文本，采用K-means算法对问题特征集进行分割聚类时，使K的值为2，每次将问题特征集划分成2个问题特征子集，并将每一问题特征子集更新为问题特征集后，跳转到分裂判断单元40。在K-means算法中，K的值通常需事先指定，在运行过程中不能动态调整，而基于聚类请求获取的待聚类问题集动态变化，其对应的问题特征集也是动态变化的，事先指定的K值不能适应动态变化的问题特征集；因此，在该具体实施方式中，需先判断问题特征集是否符合预设分裂条件，只有在符合预设分裂条件时，才采用K-maens算法进行分割聚类，以使其满足问题特征集动态变化的要求。

第二处理单元60，用于在问题特征集不符合预设分裂条件时，将问题特征集作为聚类类簇输出。服务器在判断问题集不符合预设分裂条件时，将问题特征集作为聚类类簇输出给后台服务终端。其中，聚类类簇为最小单位的问题。在将聚类类簇发送给后台服务终端后，后台服务终端接收并显示聚类类簇，只有在问题特征集中的问题特征数量大于预设分裂数量时才可继续分裂。本实施例中，预设分裂数量可以为未回复问题数据库中所有问题数量的平方根。

匹配处理单元80，用于对聚类类簇进行数据库字段匹配处理，并将处理后的聚类类簇存储在聚类问题数据库中。在采用文本预处理算法对待聚类问题集进行预处理和文本特征提取算法对待聚类问题集进行特征提取后，输出的聚类类簇与从未回复问题数据库中获取的待聚类问题的文本形式不相同，需将聚类类簇与待聚类问题进行关联，并对聚类类簇进行数据库字段匹配处理，以将聚类类簇处理成与聚类问题数据库中字段一致的形式，以使将聚类类簇存储在聚类问题数据库时更加方便快捷。

本实施例所提供的自动问答系统中的问题聚类处理装置中，通过基于聚类请求从未回复问题数据库中获取待聚类问题集，并对待聚类问题集进行自动聚类，可帮助编写人员了解问题咨询需求，提高编写的问答对的覆盖面，提升整体问答性能。该自动问答系统的问题聚类处理装置中，需判断对待聚类问题集进行特征提取后的问题特征集是否符合预设分裂条件，并在符合预设分裂条件时采用分割聚类算法进行分割聚类，在不符合预设分裂条件时自动停止分割聚类，以满足问题特征集动态变化的应用场景，实现层次化聚类处理，可保证输出的聚类类簇内部的问题比较相似，得到较好的聚类效果，并避免人工调整参数的繁琐操作。

本发明是通过上述具体实施例进行说明的，本领域技术人员应当明白，在不脱离本发明范围的情况下，还可以对本发明进行各种变换和等同替代。另外，针对特定情形或具体情况，可以对本发明做各种修改，而不脱离本发明的范围。因此，本发明不局限于所公开的具体实施例，而应当包括落入本发明权利要求范围内的全部实施方式。

Claims

1.一种自动问答系统中的问题聚类处理方法，其特征在于，包括：

接收编写人员输入的聚类请求；

判断所述问题特征集是否符合预设分裂条件；

2.根据权利要求1所述的自动问答系统中的问题聚类处理方法，其特征在于，所述判断所述问题特征集是否符合预设分裂条件，包括：

3.根据权利要求1所述的自动问答系统中的问题聚类处理方法，其特征在于，所述采用文本特征提取算法对所述待聚类问题集进行特征提取，输出问题特征集，包括；

4.根据权利要求1所述的自动问答系统中的问题聚类处理方法，其特征在于，所述采用文本特征提取算法对所述待聚类问题集进行特征提取之前，还包括：采用文本预处理算法对所述待聚类问题集进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

5.根据权利要求1所述的自动问答系统中的问题聚类处理方法，其特征在于，还包括：对所述聚类类簇进行数据库字段匹配处理，并将处理后的聚类类簇存储在聚类问题数据库中。

6.一种自动问答系统中的问题聚类处理装置，其特征在于，包括：

聚类请求接收单元，用于接收编写人员输入的聚类请求；

7.根据权利要求6所述的自动问答系统中的问题聚类处理装置，其特征在于，所述分裂判断单元包括第一判断单元或者第二判断单元；

8.根据权利要求6所述的自动问答系统中的问题聚类处理装置，其特征在于，所述特征提取单元包括；

9.根据权利要求6所述的自动问答系统中的问题聚类处理装置，其特征在于，还包括预处理单元，用于采用文本预处理算法对所述待聚类问题集进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

10.根据权利要求6所述的自动问答系统中的问题聚类处理装置，其特征在于，还包括匹配处理单元，用于对所述聚类类簇进行数据库字段匹配处理，并将处理后的聚类类簇存储在聚类问题数据库中。