CN104778256A

CN104778256A - 一种领域问答系统咨询的快速可增量聚类方法

Info

Publication number: CN104778256A
Application number: CN201510187231.2A
Authority: CN
Inventors: 马健; 刘亮亮; 吴健康; 李洪梅
Original assignee: Jiangsu University of Science and Technology
Current assignee: China Southern Power Grid Internet Service Co ltd; Jingchuang United Beijing Intellectual Property Service Co ltd
Priority date: 2015-04-20
Filing date: 2015-04-20
Publication date: 2015-07-15
Anticipated expiration: 2035-04-20
Also published as: CN104778256B

Abstract

本发明公开了一种领域问答系统咨询的快速可增量聚类方法，该方法基于将离线聚类和在线聚类相结合的聚类框架，通过咨询历史的离线聚类算法，结合咨询去重，利用语义无关词典和词类词典对用户咨询进行语义预处理，从而实现语义的归一化，然后基于多特征的相似度计算构建相似度图，基于相似度图对用户咨询历史进行离线聚类的步骤；进而利用离线聚类的结果作为聚类特征，对用户咨询进行在线聚类，对离线聚类和在线聚类结果进行合并，生成聚类结果。本发明提供的聚类方法，系统响应快、精度符合实际应用需求，有效性和准确性高。

Description

一种领域问答系统咨询的快速可增量聚类方法

技术领域

本发明涉及人工智能计算机领域中的数据挖掘和自然语言处理，特别涉及领域问答系统等文本客服咨询系统的用户咨询聚类方法。

背景技术

在领域问答系统等大量的自然语言应用中，有一个基本的而又共同的问题：在系统中出现大量的用户咨询历史，用户咨询由一个由短文本构成(以下简称短文本语料集或用户咨询语料集)，如何将其中的咨询历史按照某种相似度聚集成不同的类，并且将聚类结果用户领域问答系统中，通过聚类结果来识别和帮助问答系统理解用户的咨询。

在搜索引擎领域、百度知道、领域问答系统、智能客服等中，有大量的用户咨询问题历史，如何对用户的搜索历史、咨询历史进行分类，通过对用户咨询的聚类，可以提高自动问答系统、智能客服系统的效率和准确率。

传统的聚类算法非常多，主要包括层次聚类算法、K-means算法等。但随着大数据时代的到来，任何一个领域的数据呈数量级的增长，因此目前聚类存在以下几个问题：

1)数据量大，直接利用聚类，算法效率很低，无法满足应用的需要；

2)用户咨询问题中都大量的语义噪声，这些噪声是导致聚类效果不好的一个主要的原因；

3)汉语句子语义相似度计算是决定聚类结果好坏的一个最主要的问题，而汉语中同词不同义、不同词同义、词义与领域相关性等都是决定汉语句子相似度计算的问题；

4)数据中有大量的相同的咨询，如何让这些相同的咨询不重复进行聚类；

5)由于聚类算法的效率比较低，因此如果对所有数据进行聚类，需要花大量的时间，这无法满足应用的要求；

针对上述几个问题，本发明提出并且实现了一种多离线聚类与在线聚类相结合的聚类方法。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供了一种领域问答系统咨询的快速可增量聚类方法。

技术方案：

为达到上述目的，本发明提供的一种领域问答系统咨询的快速可增量聚类方法，该方法基于将离线聚类和在线聚类相结合的聚类框架，包括以下步骤：

1)通过咨询历史的离线聚类算法，结合咨询去重，利用语义无关词典和词类词典对用户咨询进行语义预处理，从而实现语义的归一化，然后基于多特征融合的相似度计算构建相似度图，基于相似度图对用户咨询历史进行离线聚类；所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度；

2)利用离线聚类的结果作为聚类特征，对用户咨询进行在线聚类，对离线聚类和在线聚类结果进行合并，生成聚类结果。

优选的，所述的步骤1)包括以下步骤：

步骤11)咨询语义预处理，包括：

(1)删除句子中的特殊符号；

(2)进行大小写转换，将句子中的英文统一转化成小写；

(3)通过建立语义无关词的双数组Trie树的结构，识别并删除句子中的语义无关词；

(4)利用词类词典建立双数组Trie树的词典结构，通过向后最大匹配来匹配句子中的词，用词类名称来替换所匹配到的属于该词类的词条；

步骤12)咨询的特征向量的提取：利用包括TF-IDF特征、词性特征和词类特征的特征进行特征提取，形成词的特征向量；

步骤13)咨询去重：选取咨询数据中特征向量相同的句子中的一条参与聚类，并建立重复咨询索引；

步骤14)咨询相似度图的建立：给定两条咨询S₁和S₂，通过多特征的相似度融合算法计算咨询间的相似度Sim(S₁,S₂)，建立相似度图SimGraph；所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度；

步骤15)利用以下聚类算法对相似度图SimGraph进行聚类：

(1)初始化将相似图中的所有顶点都各自作为一个类，对N条咨询共有N个类cluster(i)；

(2)遍历相似度图SimGraph，查找图中相似度最大的两个类cluster(i)和cluster(j)，并且该相似度要大于聚类的阈值β；如果找不到则聚类终止；

(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k)；

(4)更新相似度图，将类cluster(i)和类cluster(j)删除，同时在图中加入新类cluster(k)，同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为：

\begin{matrix} sim (cluster (k), cluster (m)) = \\ \frac{| cluster (i) | * sim (cluster (i), cluster (m)) + | cluster (j) | * sim (cluster (j), cluster (m))}{| cluster (i) | + | cluster (j) |} \end{matrix} - - - (5);

其中|cluster(i)|:表示类cluster(i)中元素的个数；sim(cluster(i),cluster(m))表示cluster(i)与cluster(m)的相似度；

(5)迭代步骤(2)至步骤(3)直到没有新的类产生；

(6)将咨询去重步骤标记的相同的句子分别加入到各自的类中，从而生成聚类结果。

优选的，所述2)利用离线聚类的结果作为聚类特征对用户咨询进行在线聚类，对离线聚类和在线聚类结果进行合并生成聚类结果包括如下步骤：

步骤21)计算在线用户咨询和离线聚类后的类之间的相似度：

遍历离线类cluster(i)中的每一条咨询，利用通过多特征的相似度融合算法计算新咨询q和离线类咨询q_i间的相似度Sim(q,q_i)，q_i∈cluster(i)，通过式(6)获得新咨询q构成的类cluster(q)和类cluster(i)之间的相似度为：

Sim (cluster (q), cluster (i)) = \frac{Σ_{i = 1}^{| cluster (i) |} Sim (q, q_{i})}{| cluster (i) |} - - - (6);

其中|cluster(i)|表示类i中的咨询的数量；

步骤22)通过步骤21获得的在线用户咨询与离线聚类后的每个类的相似度，形成相似度图；

步骤23)遍历相似度图，找到相似度最大的边，且如果相似度最大的边的相似度满足阈值条件Sim(cluster(q),cluster(i))>β，则将该咨询加入到类cluster(i)中，转向步骤25)；

否则转向步骤24)；

步骤24)如果没有找到满足条件的类，则将该咨询形成一个新的类newcluster；

步骤25)迭代步骤21)至步骤24)，直到所有的在线咨询分别加入到各自的类中，从而生成了新的聚类结果。

优选的，上述通过多特征的相似度融合算法计算给定的咨询间的相似度的步骤为：用S₁和S₂表示给定的两个咨询，

(1)计算特征向量的相似度：

构造的特征向量空间为V＝{X₁,X₂,...X_n}，句子S₁的特征向量为V₁＝{ω₁,ω₂,…,ω_n}，其中ω_i表示特征词X_i在句子S₁中出现的次数，句子S₂的特征向量为是特征词X_i在句子S₂中出现的次数，则S₁与S₂间的的特征向量相似度为：

(2)计算句子间的2-Gram相似度，分别求出句子S₁和S₂的2-Gram序列

Seq₁＝{Bw₁,w₁w₂,...w_n-1w_n,w_nE}，Seq2＝{Bw₁',w₁'w₂',...w_n-1'w_n',w_n'E}，其中B和E是特殊的符号，分别表示句子的开始和句子的结束，则S₁和S₂间的2-Gram相似度为：

{Sim}_{2} (S_{1}, S_{2}) = \frac{| {Seq}_{1} \cap {Seq}_{2} |}{| {Seq}_{1} \cup {Seq}_{2} |} - - - (2);

(3)计算咨询间的搭配相似度；对句子进行搭配分析，获取句子中的搭配对，其中Col₁为S₁的词的搭配的集合，Col₂为S₂的词的搭配的集合，则S₁和S₂咨询间的搭配相似度为：

{Sim}_{3} (S_{1}, S_{2}) = \frac{| {Col}_{1} \cap {Col}_{2} |}{| {Col}_{1} \cup {Col}_{2} |} - - - (3);

(4)通过多特征的相似度融合算法计算咨询间的相似度：

Sim(S₁,S₂)＝w₁*Sim₁(S₁,S₂)+w₂*Sim₂(S₁,S₂)+w₃*Sim₃(S₁,S₂) (4)；

其中w₁，w₂，w₃分别表示这三种相似度的权重，且满足：w₁+w₂+w₃＝1。

优选的，所述步骤14)咨询相似度图的建立中，对于给定的两条咨询S₁和S₂，通过多特征的相似度融合算法计算咨询间的相似度Sim(S₁,S₂)，在构建相似度的过程中，如果相似度小于阈值α，则将图中的两个顶点的边删除掉，建立相似度图SimGraph。

有益效果：本发明提出了一种可扩展的用户咨询的聚类系统框架，结合快速咨询去重，通过基于包括特征向量的相似度、2-gram相似度、搭配相似度的多特征融合的相似度计算方法，建立相似度图，进行离线聚类，进而将离线聚类结果作为特征，进行在线聚类，从而生成聚类结果。

本发明基于离线聚类的结果，对在线咨询和离线聚类进行在线聚类，系统能快速的响应，结合快速咨询去重，大大降低了聚类的算法复杂度，聚类结果的准确率达85％以上。实验表明，本发明提供的聚类方法的平均聚类准确率达到87.70％，系统响应快、精度符合实际应用需求，有效性和准确性高，具有较高的实用性，尤其适合应用于领域问答系统中。

附图说明

图1是本发明的用户咨询聚类系统框架图；

图2是本发明的离线聚类算法流程图；

图3是本发明的在线聚类算法流程图。

具体实施方式

下面结合附图和实施例对本发明作更进一步的说明。

一、一种可扩展的用户咨询问题的聚类系统

如图1所示，本发明提出一种可扩展的用户咨询问题的聚类系统框架，该系统框架将聚类分为离线聚类和在线聚类，从而实现聚类算法效率的提高，包括以下步骤：

步骤1)咨询历史的离线聚类算法。

步骤2)用户咨询的在线聚类算法。

步骤3)对聚类结果的合并，生成聚类结果；

基于将离线聚类和在线聚类相结合的聚类框架，本发明提供的领域问答系统咨询的快速可增量聚类方法，包括以下步骤：

二、一种基于多特征融合的相似度图的离线聚类算法

如图2所示，本发明提供了一种离线聚类的算法，包括以下步骤：

步骤1)首先对咨询进行预处理，包括：符号预处理、语义预处理等；

步骤2)对咨询进行特征提取，产生特征向量；

步骤3)对咨询进行去重；

步骤4)进行相似度计算，生成相似度图；

步骤5)调用聚类算法进行聚类。

根据图2，离线聚类算法首先对用户咨询进行语义预处理、然后进行特征提取生成特征向量，用户咨询中有大量的重复的句子，因此需要对重复句子进行发现和标记，通过相似度计算得到用户咨询的相似度图，最后基于相似度图进行聚类，从而得到离线聚类结果。具体的实施包括以下几个步骤：

步骤11)咨询语义预处理。在用户的咨询中，有大量的干扰语义的成分，例如：英文的大小写、标点符号、特殊符号等，还有一些与咨询的语义无关的成分，例如“你好”、“谢谢”等称为语义无关词或语义无关项。汉语中有很多的同义词和近义词，或者在领域词典里面有很多相同的概念，我们将这些词整理成词类词典。因此我们首先对用户自信进行语义预处理。具体的步骤如下：

(1)首先删除句子中的标点符号等特殊符号

(2)对句子中的英文进行大小写转换，统一转化成小写；

(3)去掉语义无关词：基于人工整理的语义无关词词典，建立语义无关项的双数组Trie树的结构，识别句子中的语义无关词并进行删除；

(4)利用同义词词林和用户的领域词典建立词类词典，词类词典的格式如下：

！词类名称＝词条1|词条2|...|词条n

利用词类词典建立双数组Trie树的词典结构，通过向后最大匹配进行匹配句子中的词，如果找到该某词类中的词条，则用词类名称来替换。

步骤12)咨询的特征向量的提取：本发明中对咨询进行中文分词，然后利用以下特征进行特征提取，形成词的特征向量：

a)利用TF-IDF特征：通过大规模咨询语料训练词的TF-IDF值，首先去掉停用词，然后根据TF-IDF值来提取词；

b)利用词性特征：通过分词标注，对咨询中的词性进行标注，我们选取词性为名词、形容词、动词的词作为特征；

c)词类特征：根据步骤1的语义预处理后替换后的词类选为特征；

步骤13)咨询去重：选取咨询数据中特征向量相同的句子中的一条参与聚类，并建立重复咨询索引。因为相同的句子不需要都去参加聚类，而一个领域中的咨询数据，有很多相同的句子，因此本发明提供的方法先进行去重工作，对于特征向量相同的句子，我们只需要选取一条去参加聚类，同时建立结构来存放相同的句子，如下：

vector<string>vecQuerys；//用户咨询

map<int,vector<int>>mapDuplicate；//记录重复的咨询索引

步骤14)咨询相似度图的建立：相似度是聚类的一个重要的因素，因此句子相似度算法对于聚类非常重要，对给定的两条咨询S₁和S₂，本发明通过多特征的相似度融合算法计算咨询间的相似度Sim(S₁,S₂)，建立相似度图SimGraph；所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-Gram相似度和搭配相似度。给定两条咨询S₁和S₂，具体采用以下步骤计算句子间的相似度：

步骤(1)计算特征向量的相似度：通过步骤12)构造的特征向量空间为V＝{X₁,X₂,...X_n}，句子S₁的特征向量为V₁＝{ω₁,ω₂,…,ω_n}，其中ω_i表示特征词X_i在句子S₁中出现的次数，句子S₂的特征向量为是特征词X_i在句子S₂中出现的次数。则S₁与S₂间的的特征向量相似度为：

步骤(2)计算句子间的2-Gram相似度：分别求出句子S₁和S₂的2-Gram序列Seq₁＝{Bw₁,w₁w₂,...w_n-1w_n,w_nE}，Seq2＝{Bw₁',w₁'w₂',...w_n-1'w_n',w_n'E}，其中B和E是特殊的符号，分别表示句子的开始和句子的结束，则S₁和S₂间的2-Gram相似度为：

{Sim}_{2} (S_{1}, S_{2}) = \frac{| {Seq}_{1} \cap {Seq}_{2} |}{| {Seq}_{1} \cup {Seq}_{2} |} - - - (2);

步骤(3)计算咨询间的搭配相似度：一个完整的汉语句子是由句子的主干成分和修饰成分所构成，而人们往往从主干成分就可以了解一个句子的大概意思，因此本发明对句子进行搭配分析，获取句子中的搭配对，其中Col₁为S₁的词的搭配的集合，Col₂为S₂的词的搭配的集合，则句子间的搭配相似度为：

{Sim}_{3} (S_{1}, S_{2}) = \frac{| {Col}_{1} \cap {Col}_{2} |}{| {Col}_{1} \cup {Col}_{2} |} - - - (3);

步骤(4)通过多特征的相似度融合算法计算咨询间的相似度：步骤(1)特征词的相似度是基于词的相似度，反映了句子中词的特性，步骤(2)基于2-gram相似度反映了句子的编辑距离的相似度，而步骤(3)搭配相似度反应了语义的相似度，在此基础上，本发明提供的基于多特征融合的相似度算法得到的咨询间的相似度为：

其中w₁，w₂，w₃分别表示这三种相似度的权重，且须满足：w₁+w₂+w₃＝1。

步骤(5)：根据式(4)计算句子间的相似度，建立相似度图；相似度图的数据结构如下：

在构建相似度的过程中，如果相似度小于预设的阈值α，将图中的两个顶点的边删除掉，建立一个相似度图SimGraph。

步骤15)利用以下聚类算法对相似度图SimGraph进行聚类：

(1)初始化将相似图中的所有顶点都各自作为一个类，假设有N条咨询，则总共有N个类cluster(i)；

(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k)；

\begin{matrix} sim (cluster (k), cluster (m)) = \\ \frac{| cluster (i) | * sim (cluster (i), cluster (m)) + | cluster (j) | * sim (cluster (j), cluster (m))}{| cluster (i) | + | cluster (j) |} \end{matrix} - - - (5);

(5)迭代步骤(2)至步骤(3)直到没有新的类产生；

三、一种基于离线聚类结果的在线聚类算法

如图3所示，本发明提供的在线聚类的算法，包括以下步骤：

步骤1)计算用户咨询和离线聚类结果类之间的相似度；

步骤2)基于咨询的相似度构建相似度图；

步骤3)遍历相似度图，找到相似度最大的边，进行聚类；

步骤4)合并聚类结果，生成新的聚类结果。

下面针对上述步骤，结合图例做详细的阐述。

在线聚类是基于离线聚类结果基础上进行的，从而可以减少聚类的时间，离线聚类后，给每个类都标记了一类号，本发明利用离线聚类的结果作为聚类特征对用户咨询进行在线聚类，对离线聚类和在线聚类结果进行合并生成聚类结果包括如下步骤：

步骤21)计算在线用户咨询和离线聚类后的类之间的相似度：

遍历离线类cluster(i)中的每一条咨询，利用公式(4)通过多特征的相似度融合算法计算新咨询q和离线类咨询q_i间的相似度Sim(q,q_i)，q_i∈cluster(i)，通过式(6)获得cluster(q)和类cluster(i)之间的相似度为：

Sim (cluster (q), cluster (i)) = \frac{Σ_{i = 1}^{| cluster (i) |} Sim (q, q_{i})}{| cluster (i) |} - - - (6);

其中|cluster(i)|表示类i中的咨询的数量；

步骤23)遍历相似度图，找到相似度最大的边，且如果相似度最大的边的相似度满足阈值条件Sim(cluster(q),cluster(i))>β，则将该咨询加入到cluster(i)中，转向步骤25)；否则转向步骤24)；

四、实验

经历过多次开放的测试，随机抽取短信客服系统中的咨询历史(8万多条)进行离线聚类实验。实验结果表明，本发明提供的聚类方法的平均聚类准确率达到87.70％，这一精度不仅达到了实际应用的需求，更加可以看出本发明具有较高的有效性和准确性。

本发明基于离线聚类的结果，对在线咨询和离线聚类进行在线聚类，系统能快速的响应，结合快速咨询去重，大大降低了聚类的算法复杂度，且聚类结果的准确率达85％以上，可见，本发明提供的快速和可增量的用户咨询的聚类方法系统响应快、精度符合实际应用需求，有效性和准确性高，具有较高的实用性，尤其适合应用于领域问答系统中。

以上实施列仅是本发明的较佳实施例，对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的任何修改、等同替换、改进等，均落在本发明的保护范围内。

Claims

1.一种领域问答系统咨询的快速可增量聚类方法，其特征在于该方法基于将离线聚类和在线聚类相结合的聚类框架，包括以下步骤：

2.根据权利要求1所述的领域问答系统咨询的快速可增量聚类方法，其特征在于：

所述的步骤1)包括以下步骤：

步骤11)咨询语义预处理，包括：

(1)删除句子中的特殊符号；

(2)进行大小写转换，将句子中的英文统一转化成小写；

步骤15)利用以下聚类算法对相似度图SimGraph进行聚类：

(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k)；

\begin{matrix} sim (cluster (k), cluster (m)) = \\ \frac{| cluster (i) | * sim (cluster (i), cluster (m)) + | cluster (j) | * sim (cluster (j), cluster (m))}{| cluster (i) | + | cluster (j) |} \end{matrix} - - - (5);

(5)迭代步骤(2)至步骤(3)直到没有新的类产生；

3.根据权利要求1所述的领域问答系统咨询的快速可增量聚类方法，其特征在于所述2)利用离线聚类的结果作为聚类特征对用户咨询进行在线聚类，对离线聚类和在线聚类结果进行合并生成聚类结果包括如下步骤：

步骤21)计算在线用户咨询和离线聚类后的类之间的相似度：

Sim (cluster (q), cluster (i)) = \frac{Σ_{i = 1}^{| cluster (i) |} Sim (q, q_{i})}{| cluster (i) |} - - - (6);

其中|cluster(i)|表示类i中的咨询的数量；

步骤23)遍历相似度图，找到相似度最大的边，且如果相似度最大的边的相似度满足阈值条件Sim(cluster(q),cluster(i))>β，则将该咨询加入到类cluster(i)中，转向步骤25)；否则转向步骤24)；

4.根据权利要求2或3所述的领域问答系统咨询的快速可增量聚类方法，其特征在于所述通过多特征的相似度融合算法计算给定的咨询间的相似度的步骤为：用S₁和S₂表示给定的两个咨询，

(1)计算特征向量的相似度：

{Sim}_{2} (S_{1}, S_{2}) = \frac{| {Seq}_{1} \cap {Seq}_{2} |}{| {Seq}_{1} \cup {Seq}_{2} |} - - - (2);

{Sim}_{3} (S_{1}, S_{2}) = \frac{| {Col}_{1} \cap {Col}_{2} |}{| {Col}_{1} \cup {Col}_{2} |} - - - (3);

(4)通过多特征的相似度融合算法计算咨询间的相似度：

5.根据权利要求2所述的领域问答系统咨询的快速可增量聚类方法，其特征在于：所述步骤14)咨询相似度图的建立中，对于给定的两条咨询S₁和S₂，通过多特征的相似度融合算法计算咨询间的相似度Sim(S₁,S₂)，在构建相似度的过程中，如果相似度小于阈值α，则将图中的两个顶点的边删除掉，建立相似度图SimGraph。