CN104778256A - 一种领域问答系统咨询的快速可增量聚类方法 - Google Patents

一种领域问答系统咨询的快速可增量聚类方法 Download PDF

Info

Publication number
CN104778256A
CN104778256A CN201510187231.2A CN201510187231A CN104778256A CN 104778256 A CN104778256 A CN 104778256A CN 201510187231 A CN201510187231 A CN 201510187231A CN 104778256 A CN104778256 A CN 104778256A
Authority
CN
China
Prior art keywords
cluster
similarity
consulting
class
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510187231.2A
Other languages
English (en)
Other versions
CN104778256B (zh
Inventor
马健
刘亮亮
吴健康
李洪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Jingchuang United Beijing Intellectual Property Service Co ltd
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201510187231.2A priority Critical patent/CN104778256B/zh
Publication of CN104778256A publication Critical patent/CN104778256A/zh
Application granted granted Critical
Publication of CN104778256B publication Critical patent/CN104778256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种领域问答系统咨询的快速可增量聚类方法,该方法基于将离线聚类和在线聚类相结合的聚类框架,通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类的步骤;进而利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。本发明提供的聚类方法,系统响应快、精度符合实际应用需求,有效性和准确性高。

Description

一种领域问答系统咨询的快速可增量聚类方法
技术领域
本发明涉及人工智能计算机领域中的数据挖掘和自然语言处理,特别涉及领域问答系统等文本客服咨询系统的用户咨询聚类方法。
背景技术
在领域问答系统等大量的自然语言应用中,有一个基本的而又共同的问题:在系统中出现大量的用户咨询历史,用户咨询由一个由短文本构成(以下简称短文本语料集或用户咨询语料集),如何将其中的咨询历史按照某种相似度聚集成不同的类,并且将聚类结果用户领域问答系统中,通过聚类结果来识别和帮助问答系统理解用户的咨询。
在搜索引擎领域、百度知道、领域问答系统、智能客服等中,有大量的用户咨询问题历史,如何对用户的搜索历史、咨询历史进行分类,通过对用户咨询的聚类,可以提高自动问答系统、智能客服系统的效率和准确率。
传统的聚类算法非常多,主要包括层次聚类算法、K-means算法等。但随着大数据时代的到来,任何一个领域的数据呈数量级的增长,因此目前聚类存在以下几个问题:
1)数据量大,直接利用聚类,算法效率很低,无法满足应用的需要;
2)用户咨询问题中都大量的语义噪声,这些噪声是导致聚类效果不好的一个主要的原因;
3)汉语句子语义相似度计算是决定聚类结果好坏的一个最主要的问题,而汉语中同词不同义、不同词同义、词义与领域相关性等都是决定汉语句子相似度计算的问题;
4)数据中有大量的相同的咨询,如何让这些相同的咨询不重复进行聚类;
5)由于聚类算法的效率比较低,因此如果对所有数据进行聚类,需要花大量的时间,这无法满足应用的要求;
针对上述几个问题,本发明提出并且实现了一种多离线聚类与在线聚类相结合的聚类方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种领域问答系统咨询的快速可增量聚类方法。
技术方案:
为达到上述目的,本发明提供的一种领域问答系统咨询的快速可增量聚类方法,该方法基于将离线聚类和在线聚类相结合的聚类框架,包括以下步骤:
1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。
优选的,所述的步骤1)包括以下步骤:
步骤11)咨询语义预处理,包括:
(1)删除句子中的特殊符号;
(2)进行大小写转换,将句子中的英文统一转化成小写;
(3)通过建立语义无关词的双数组Trie树的结构,识别并删除句子中的语义无关词;
(4)利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配来匹配句子中的词,用词类名称来替换所匹配到的属于该词类的词条;
步骤12)咨询的特征向量的提取:利用包括TF-IDF特征、词性特征和词类特征的特征进行特征提取,形成词的特征向量;
步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重复咨询索引;
步骤14)咨询相似度图的建立:给定两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:
(1)初始化将相似图中的所有顶点都各自作为一个类,对N条咨询共有N个类cluster(i);
(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并且该相似度要大于聚类的阈值β;如果找不到则聚类终止;
(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);
(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为:
sim ( cluster ( k ) , cluster ( m ) ) = | cluster ( i ) | * sim ( cluster ( i ) , cluster ( m ) ) + | cluster ( j ) | * sim ( cluster ( j ) , cluster ( m ) ) | cluster ( i ) | + | cluster ( j ) | - - - ( 5 ) ;
其中|cluster(i)|:表示类cluster(i)中元素的个数;sim(cluster(i),cluster(m))表示cluster(i)与cluster(m)的相似度;
(5)迭代步骤(2)至步骤(3)直到没有新的类产生;
(6)将咨询去重步骤标记的相同的句子分别加入到各自的类中,从而生成聚类结果。
优选的,所述2)利用离线聚类的结果作为聚类特征对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并生成聚类结果包括如下步骤:
步骤21)计算在线用户咨询和离线聚类后的类之间的相似度:
遍历离线类cluster(i)中的每一条咨询,利用通过多特征的相似度融合算法计算新咨询q和离线类咨询qi间的相似度Sim(q,qi),qi∈cluster(i),通过式(6)获得新咨询q构成的类cluster(q)和类cluster(i)之间的相似度为:
Sim ( cluster ( q ) , cluster ( i ) ) = Σ i = 1 | cluster ( i ) | Sim ( q , q i ) | cluster ( i ) | - - - ( 6 ) ;
其中|cluster(i)|表示类i中的咨询的数量;
步骤22)通过步骤21获得的在线用户咨询与离线聚类后的每个类的相似度,形成相似度图;
步骤23)遍历相似度图,找到相似度最大的边,且如果相似度最大的边的相似度满足阈值条件Sim(cluster(q),cluster(i))>β,则将该咨询加入到类cluster(i)中,转向步骤25);
否则转向步骤24);
步骤24)如果没有找到满足条件的类,则将该咨询形成一个新的类newcluster;
步骤25)迭代步骤21)至步骤24),直到所有的在线咨询分别加入到各自的类中,从而生成了新的聚类结果。
优选的,上述通过多特征的相似度融合算法计算给定的咨询间的相似度的步骤为:用S1和S2表示给定的两个咨询,
(1)计算特征向量的相似度:
构造的特征向量空间为V={X1,X2,...Xn},句子S1的特征向量为V1={ω12,…,ωn},其中ωi表示特征词Xi在句子S1中出现的次数,句子S2的特征向量为 是特征词Xi在句子S2中出现的次数,则S1与S2间的的特征向量相似度为:
(2)计算句子间的2-Gram相似度,分别求出句子S1和S2的2-Gram序列
Seq1={Bw1,w1w2,...wn-1wn,wnE},Seq2={Bw1',w1'w2',...wn-1'wn',wn'E},其中B和E是特殊的符号,分别表示句子的开始和句子的结束,则S1和S2间的2-Gram相似度为:
Sim 2 ( S 1 , S 2 ) = | Seq 1 ∩ Seq 2 | | Seq 1 ∪ Seq 2 | - - - ( 2 ) ;
(3)计算咨询间的搭配相似度;对句子进行搭配分析,获取句子中的搭配对,其中Col1为S1的词的搭配的集合,Col2为S2的词的搭配的集合,则S1和S2咨询间的搭配相似度为:
Sim 3 ( S 1 , S 2 ) = | Col 1 ∩ Col 2 | | Col 1 ∪ Col 2 | - - - ( 3 ) ;
(4)通过多特征的相似度融合算法计算咨询间的相似度:
Sim(S1,S2)=w1*Sim1(S1,S2)+w2*Sim2(S1,S2)+w3*Sim3(S1,S2)   (4);
其中w1,w2,w3分别表示这三种相似度的权重,且满足:w1+w2+w3=1。
优选的,所述步骤14)咨询相似度图的建立中,对于给定的两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),在构建相似度的过程中,如果相似度小于阈值α,则将图中的两个顶点的边删除掉,建立相似度图SimGraph。
有益效果:本发明提出了一种可扩展的用户咨询的聚类系统框架,结合快速咨询去重,通过基于包括特征向量的相似度、2-gram相似度、搭配相似度的多特征融合的相似度计算方法,建立相似度图,进行离线聚类,进而将离线聚类结果作为特征,进行在线聚类,从而生成聚类结果。
本发明基于离线聚类的结果,对在线咨询和离线聚类进行在线聚类,系统能快速的响应,结合快速咨询去重,大大降低了聚类的算法复杂度,聚类结果的准确率达85%以上。实验表明,本发明提供的聚类方法的平均聚类准确率达到87.70%,系统响应快、精度符合实际应用需求,有效性和准确性高,具有较高的实用性,尤其适合应用于领域问答系统中。
附图说明
图1是本发明的用户咨询聚类系统框架图;
图2是本发明的离线聚类算法流程图;
图3是本发明的在线聚类算法流程图。
具体实施方式
下面结合附图和实施例对本发明作更进一步的说明。
一、一种可扩展的用户咨询问题的聚类系统
如图1所示,本发明提出一种可扩展的用户咨询问题的聚类系统框架,该系统框架将聚类分为离线聚类和在线聚类,从而实现聚类算法效率的提高,包括以下步骤:
步骤1)咨询历史的离线聚类算法。
步骤2)用户咨询的在线聚类算法。
步骤3)对聚类结果的合并,生成聚类结果;
基于将离线聚类和在线聚类相结合的聚类框架,本发明提供的领域问答系统咨询的快速可增量聚类方法,包括以下步骤:
1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。
二、一种基于多特征融合的相似度图的离线聚类算法
如图2所示,本发明提供了一种离线聚类的算法,包括以下步骤:
步骤1)首先对咨询进行预处理,包括:符号预处理、语义预处理等;
步骤2)对咨询进行特征提取,产生特征向量;
步骤3)对咨询进行去重;
步骤4)进行相似度计算,生成相似度图;
步骤5)调用聚类算法进行聚类。
根据图2,离线聚类算法首先对用户咨询进行语义预处理、然后进行特征提取生成特征向量,用户咨询中有大量的重复的句子,因此需要对重复句子进行发现和标记,通过相似度计算得到用户咨询的相似度图,最后基于相似度图进行聚类,从而得到离线聚类结果。具体的实施包括以下几个步骤:
步骤11)咨询语义预处理。在用户的咨询中,有大量的干扰语义的成分,例如:英文的大小写、标点符号、特殊符号等,还有一些与咨询的语义无关的成分,例如“你好”、“谢谢”等称为语义无关词或语义无关项。汉语中有很多的同义词和近义词,或者在领域词典里面有很多相同的概念,我们将这些词整理成词类词典。因此我们首先对用户自信进行语义预处理。具体的步骤如下:
(1)首先删除句子中的标点符号等特殊符号
(2)对句子中的英文进行大小写转换,统一转化成小写;
(3)去掉语义无关词:基于人工整理的语义无关词词典,建立语义无关项的双数组Trie树的结构,识别句子中的语义无关词并进行删除;
(4)利用同义词词林和用户的领域词典建立词类词典,词类词典的格式如下:
!词类名称=词条1|词条2|...|词条n
利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配进行匹配句子中的词,如果找到该某词类中的词条,则用词类名称来替换。
步骤12)咨询的特征向量的提取:本发明中对咨询进行中文分词,然后利用以下特征进行特征提取,形成词的特征向量:
a)利用TF-IDF特征:通过大规模咨询语料训练词的TF-IDF值,首先去掉停用词,然后根据TF-IDF值来提取词;
b)利用词性特征:通过分词标注,对咨询中的词性进行标注,我们选取词性为名词、形容词、动词的词作为特征;
c)词类特征:根据步骤1的语义预处理后替换后的词类选为特征;
步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重复咨询索引。因为相同的句子不需要都去参加聚类,而一个领域中的咨询数据,有很多相同的句子,因此本发明提供的方法先进行去重工作,对于特征向量相同的句子,我们只需要选取一条去参加聚类,同时建立结构来存放相同的句子,如下:
vector<string>vecQuerys;//用户咨询
map<int,vector<int>>mapDuplicate;//记录重复的咨询索引
步骤14)咨询相似度图的建立:相似度是聚类的一个重要的因素,因此句子相似度算法对于聚类非常重要,对给定的两条咨询S1和S2,本发明通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-Gram相似度和搭配相似度。给定两条咨询S1和S2,具体采用以下步骤计算句子间的相似度:
步骤(1)计算特征向量的相似度:通过步骤12)构造的特征向量空间为V={X1,X2,...Xn},句子S1的特征向量为V1={ω12,…,ωn},其中ωi表示特征词Xi在句子S1中出现的次数,句子S2的特征向量为 是特征词Xi在句子S2中出现的次数。则S1与S2间的的特征向量相似度为:
步骤(2)计算句子间的2-Gram相似度:分别求出句子S1和S2的2-Gram序列Seq1={Bw1,w1w2,...wn-1wn,wnE},Seq2={Bw1',w1'w2',...wn-1'wn',wn'E},其中B和E是特殊的符号,分别表示句子的开始和句子的结束,则S1和S2间的2-Gram相似度为:
Sim 2 ( S 1 , S 2 ) = | Seq 1 &cap; Seq 2 | | Seq 1 &cup; Seq 2 | - - - ( 2 ) ;
步骤(3)计算咨询间的搭配相似度:一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一个句子的大概意思,因此本发明对句子进行搭配分析,获取句子中的搭配对,其中Col1为S1的词的搭配的集合,Col2为S2的词的搭配的集合,则句子间的搭配相似度为:
Sim 3 ( S 1 , S 2 ) = | Col 1 &cap; Col 2 | | Col 1 &cup; Col 2 | - - - ( 3 ) ;
步骤(4)通过多特征的相似度融合算法计算咨询间的相似度:步骤(1)特征词的相似度是基于词的相似度,反映了句子中词的特性,步骤(2)基于2-gram相似度反映了句子的编辑距离的相似度,而步骤(3)搭配相似度反应了语义的相似度,在此基础上,本发明提供的基于多特征融合的相似度算法得到的咨询间的相似度为:
Sim(S1,S2)=w1*Sim1(S1,S2)+w2*Sim2(S1,S2)+w3*Sim3(S1,S2)   (4);
其中w1,w2,w3分别表示这三种相似度的权重,且须满足:w1+w2+w3=1。
步骤(5):根据式(4)计算句子间的相似度,建立相似度图;相似度图的数据结构如下:
在构建相似度的过程中,如果相似度小于预设的阈值α,将图中的两个顶点的边删除掉,建立一个相似度图SimGraph。
步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:
(1)初始化将相似图中的所有顶点都各自作为一个类,假设有N条咨询,则总共有N个类cluster(i);
(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并且该相似度要大于聚类的阈值β;如果找不到则聚类终止;
(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);
(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为:
sim ( cluster ( k ) , cluster ( m ) ) = | cluster ( i ) | * sim ( cluster ( i ) , cluster ( m ) ) + | cluster ( j ) | * sim ( cluster ( j ) , cluster ( m ) ) | cluster ( i ) | + | cluster ( j ) | - - - ( 5 ) ;
其中|cluster(i)|:表示类cluster(i)中元素的个数;sim(cluster(i),cluster(m))表示cluster(i)与cluster(m)的相似度;
(5)迭代步骤(2)至步骤(3)直到没有新的类产生;
(6)将咨询去重步骤标记的相同的句子分别加入到各自的类中,从而生成聚类结果。
三、一种基于离线聚类结果的在线聚类算法
如图3所示,本发明提供的在线聚类的算法,包括以下步骤:
步骤1)计算用户咨询和离线聚类结果类之间的相似度;
步骤2)基于咨询的相似度构建相似度图;
步骤3)遍历相似度图,找到相似度最大的边,进行聚类;
步骤4)合并聚类结果,生成新的聚类结果。
下面针对上述步骤,结合图例做详细的阐述。
在线聚类是基于离线聚类结果基础上进行的,从而可以减少聚类的时间,离线聚类后,给每个类都标记了一类号,本发明利用离线聚类的结果作为聚类特征对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并生成聚类结果包括如下步骤:
步骤21)计算在线用户咨询和离线聚类后的类之间的相似度:
遍历离线类cluster(i)中的每一条咨询,利用公式(4)通过多特征的相似度融合算法计算新咨询q和离线类咨询qi间的相似度Sim(q,qi),qi∈cluster(i),通过式(6)获得cluster(q)和类cluster(i)之间的相似度为:
Sim ( cluster ( q ) , cluster ( i ) ) = &Sigma; i = 1 | cluster ( i ) | Sim ( q , q i ) | cluster ( i ) | - - - ( 6 ) ;
其中|cluster(i)|表示类i中的咨询的数量;
步骤22)通过步骤21获得的在线用户咨询与离线聚类后的每个类的相似度,形成相似度图;
步骤23)遍历相似度图,找到相似度最大的边,且如果相似度最大的边的相似度满足阈值条件Sim(cluster(q),cluster(i))>β,则将该咨询加入到cluster(i)中,转向步骤25);否则转向步骤24);
步骤24)如果没有找到满足条件的类,则将该咨询形成一个新的类newcluster;
步骤25)迭代步骤21)至步骤24),直到所有的在线咨询分别加入到各自的类中,从而生成了新的聚类结果。
四、实验
经历过多次开放的测试,随机抽取短信客服系统中的咨询历史(8万多条)进行离线聚类实验。实验结果表明,本发明提供的聚类方法的平均聚类准确率达到87.70%,这一精度不仅达到了实际应用的需求,更加可以看出本发明具有较高的有效性和准确性。
本发明基于离线聚类的结果,对在线咨询和离线聚类进行在线聚类,系统能快速的响应,结合快速咨询去重,大大降低了聚类的算法复杂度,且聚类结果的准确率达85%以上,可见,本发明提供的快速和可增量的用户咨询的聚类方法系统响应快、精度符合实际应用需求,有效性和准确性高,具有较高的实用性,尤其适合应用于领域问答系统中。
以上实施列仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的任何修改、等同替换、改进等,均落在本发明的保护范围内。

Claims (5)

1.一种领域问答系统咨询的快速可增量聚类方法,其特征在于该方法基于将离线聚类和在线聚类相结合的聚类框架,包括以下步骤:
1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。
2.根据权利要求1所述的领域问答系统咨询的快速可增量聚类方法,其特征在于:
所述的步骤1)包括以下步骤:
步骤11)咨询语义预处理,包括:
(1)删除句子中的特殊符号;
(2)进行大小写转换,将句子中的英文统一转化成小写;
(3)通过建立语义无关词的双数组Trie树的结构,识别并删除句子中的语义无关词;
(4)利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配来匹配句子中的词,用词类名称来替换所匹配到的属于该词类的词条;
步骤12)咨询的特征向量的提取:利用包括TF-IDF特征、词性特征和词类特征的特征进行特征提取,形成词的特征向量;
步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重复咨询索引;
步骤14)咨询相似度图的建立:给定两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:
(1)初始化将相似图中的所有顶点都各自作为一个类,对N条咨询共有N个类cluster(i);
(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并且该相似度要大于聚类的阈值β;如果找不到则聚类终止;
(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);
(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为:
sim ( cluster ( k ) , cluster ( m ) ) = | cluster ( i ) | * sim ( cluster ( i ) , cluster ( m ) ) + | cluster ( j ) | * sim ( cluster ( j ) , cluster ( m ) ) | cluster ( i ) | + | cluster ( j ) | - - - ( 5 ) ;
其中|cluster(i)|:表示类cluster(i)中元素的个数;sim(cluster(i),cluster(m))表示cluster(i)与cluster(m)的相似度;
(5)迭代步骤(2)至步骤(3)直到没有新的类产生;
(6)将咨询去重步骤标记的相同的句子分别加入到各自的类中,从而生成聚类结果。
3.根据权利要求1所述的领域问答系统咨询的快速可增量聚类方法,其特征在于所述2)利用离线聚类的结果作为聚类特征对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并生成聚类结果包括如下步骤:
步骤21)计算在线用户咨询和离线聚类后的类之间的相似度:
遍历离线类cluster(i)中的每一条咨询,利用通过多特征的相似度融合算法计算新咨询q和离线类咨询qi间的相似度Sim(q,qi),qi∈cluster(i),通过式(6)获得新咨询q构成的类cluster(q)和类cluster(i)之间的相似度为:
Sim ( cluster ( q ) , cluster ( i ) ) = &Sigma; i = 1 | cluster ( i ) | Sim ( q , q i ) | cluster ( i ) | - - - ( 6 ) ;
其中|cluster(i)|表示类i中的咨询的数量;
步骤22)通过步骤21获得的在线用户咨询与离线聚类后的每个类的相似度,形成相似度图;
步骤23)遍历相似度图,找到相似度最大的边,且如果相似度最大的边的相似度满足阈值条件Sim(cluster(q),cluster(i))>β,则将该咨询加入到类cluster(i)中,转向步骤25);否则转向步骤24);
步骤24)如果没有找到满足条件的类,则将该咨询形成一个新的类newcluster;
步骤25)迭代步骤21)至步骤24),直到所有的在线咨询分别加入到各自的类中,从而生成了新的聚类结果。
4.根据权利要求2或3所述的领域问答系统咨询的快速可增量聚类方法,其特征在于所述通过多特征的相似度融合算法计算给定的咨询间的相似度的步骤为:用S1和S2表示给定的两个咨询,
(1)计算特征向量的相似度:
构造的特征向量空间为V={X1,X2,...Xn},句子S1的特征向量为V1={ω12,…,ωn},其中ωi表示特征词Xi在句子S1中出现的次数,句子S2的特征向量为 是特征词Xi在句子S2中出现的次数,则S1与S2间的的特征向量相似度为:
(2)计算句子间的2-Gram相似度,分别求出句子S1和S2的2-Gram序列
Seq1={Bw1,w1w2,...wn-1wn,wnE},Seq2={Bw1',w1'w2',...wn-1'wn',wn'E},其中B和E是特殊的符号,分别表示句子的开始和句子的结束,则S1和S2间的2-Gram相似度为:
Sim 2 ( S 1 , S 2 ) = | Seq 1 &cap; Seq 2 | | Seq 1 &cup; Seq 2 | - - - ( 2 ) ;
(3)计算咨询间的搭配相似度;对句子进行搭配分析,获取句子中的搭配对,其中Col1为S1的词的搭配的集合,Col2为S2的词的搭配的集合,则S1和S2咨询间的搭配相似度为:
Sim 3 ( S 1 , S 2 ) = | Col 1 &cap; Col 2 | | Col 1 &cup; Col 2 | - - - ( 3 ) ;
(4)通过多特征的相似度融合算法计算咨询间的相似度:
Sim(S1,S2)=w1*Sim1(S1,S2)+w2*Sim2(S1,S2)+w3*Sim3(S1,S2)  (4);
其中w1,w2,w3分别表示这三种相似度的权重,且满足:w1+w2+w3=1。
5.根据权利要求2所述的领域问答系统咨询的快速可增量聚类方法,其特征在于:所述步骤14)咨询相似度图的建立中,对于给定的两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),在构建相似度的过程中,如果相似度小于阈值α,则将图中的两个顶点的边删除掉,建立相似度图SimGraph。
CN201510187231.2A 2015-04-20 2015-04-20 一种领域问答系统咨询的快速可增量聚类方法 Active CN104778256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510187231.2A CN104778256B (zh) 2015-04-20 2015-04-20 一种领域问答系统咨询的快速可增量聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510187231.2A CN104778256B (zh) 2015-04-20 2015-04-20 一种领域问答系统咨询的快速可增量聚类方法

Publications (2)

Publication Number Publication Date
CN104778256A true CN104778256A (zh) 2015-07-15
CN104778256B CN104778256B (zh) 2017-10-17

Family

ID=53619720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510187231.2A Active CN104778256B (zh) 2015-04-20 2015-04-20 一种领域问答系统咨询的快速可增量聚类方法

Country Status (1)

Country Link
CN (1) CN104778256B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512106A (zh) * 2015-12-09 2016-04-20 江苏科技大学 一种汉语离合词的自动识别方法
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN107341157A (zh) * 2016-04-29 2017-11-10 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN110162604A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN110472055A (zh) * 2019-08-21 2019-11-19 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110727779A (zh) * 2019-10-16 2020-01-24 信雅达系统工程股份有限公司 基于多模型融合的问答方法及系统
CN112599120A (zh) * 2020-12-11 2021-04-02 上海中通吉网络技术有限公司 基于自定义加权的wmd算法的语意确定方法及装置
CN113836275A (zh) * 2020-06-08 2021-12-24 菜鸟智能物流控股有限公司 对话模型建立方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012926A1 (en) * 2006-03-01 2009-01-08 Nec Corporation Question answering device, question answering method, and question answering program
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012926A1 (en) * 2006-03-01 2009-01-08 Nec Corporation Question answering device, question answering method, and question answering program
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘亮亮 等: "基于查询模板的特定领域中文问答系统的研究与实现", 《江苏科技大学学报(自然科学版)》 *
潘敏 等: "基于簇特征的文本增量聚类研究", 《江西师范大学学报(自然科学版)》 *
王石 等: "一种基于搭配的中文词汇语义相似度计算方法", 《中文信息学报》 *
王金铨 等: "基于N-gram 和向量空间模型的语句相似度研究", 《现代外语(季刊)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512106B (zh) * 2015-12-09 2018-04-06 江苏科技大学 一种汉语离合词的自动识别方法
CN105512106A (zh) * 2015-12-09 2016-04-20 江苏科技大学 一种汉语离合词的自动识别方法
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN107341157B (zh) * 2016-04-29 2021-01-22 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
CN107341157A (zh) * 2016-04-29 2017-11-10 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106446148B (zh) * 2016-09-21 2019-08-09 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN109461037B (zh) * 2018-12-17 2022-10-28 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN110162604A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
WO2020151690A1 (zh) * 2019-01-24 2020-07-30 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN110472055A (zh) * 2019-08-21 2019-11-19 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110472055B (zh) * 2019-08-21 2021-09-14 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110727779A (zh) * 2019-10-16 2020-01-24 信雅达系统工程股份有限公司 基于多模型融合的问答方法及系统
CN113836275A (zh) * 2020-06-08 2021-12-24 菜鸟智能物流控股有限公司 对话模型建立方法及装置
CN113836275B (zh) * 2020-06-08 2023-09-05 菜鸟智能物流控股有限公司 对话模型建立方法、装置、非易失性存储介质和电子装置
CN112599120A (zh) * 2020-12-11 2021-04-02 上海中通吉网络技术有限公司 基于自定义加权的wmd算法的语意确定方法及装置

Also Published As

Publication number Publication date
CN104778256B (zh) 2017-10-17

Similar Documents

Publication Publication Date Title
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN108038205B (zh) 针对中文微博的观点分析原型系统
Fetaya et al. Restoration of fragmentary Babylonian texts using recurrent neural networks
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
Saloot et al. An architecture for Malay Tweet normalization
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN104598588A (zh) 基于双聚类的微博用户标签自动生成算法
Zu et al. Resume information extraction with a novel text block segmentation algorithm
Gharatkar et al. Review preprocessing using data cleaning and stemming technique
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
CN115269834A (zh) 一种基于bert的高精度文本分类方法及装置
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
Andrews et al. Robust entity clustering via phylogenetic inference
Han Improving the utility of social media with natural language processing
CN110929022A (zh) 一种文本摘要生成方法及系统
Čibej et al. Normalisation, tokenisation and sentence segmentation of Slovene tweets
Havrashenko et al. Analysis of text augmentation algorithms in artificial language machine translation systems
Adak A bilingual machine translation system: English & Bengali
Hammad et al. Sentiment analysis of sindhi tweets dataset using supervised machine learning techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wu Jiankang

Inventor after: Liu Liangliang

Inventor after: Li Hongmei

Inventor after: Ma Jian

Inventor before: Ma Jian

Inventor before: Liu Liangliang

Inventor before: Wu Jiankang

Inventor before: Li Hongmei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20150715

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Denomination of invention: A fast incremental clustering method for domain question answering system consultation

Granted publication date: 20171017

License type: Common License

Record date: 20201029

EE01 Entry into force of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Date of cancellation: 20201223

EC01 Cancellation of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20221228

Address after: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee after: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

Address before: 212003, No. 2, Mengxi Road, Zhenjiang, Jiangsu

Patentee before: JIANGSU University OF SCIENCE AND TECHNOLOGY

Effective date of registration: 20221228

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong Province, 510699

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee before: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

TR01 Transfer of patent right