CN101630312A - 一种用于问答平台中问句的聚类方法及系统 - Google Patents

一种用于问答平台中问句的聚类方法及系统 Download PDF

Info

Publication number
CN101630312A
CN101630312A CN200910090529A CN200910090529A CN101630312A CN 101630312 A CN101630312 A CN 101630312A CN 200910090529 A CN200910090529 A CN 200910090529A CN 200910090529 A CN200910090529 A CN 200910090529A CN 101630312 A CN101630312 A CN 101630312A
Authority
CN
China
Prior art keywords
question sentence
question
semantic
feature
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910090529A
Other languages
English (en)
Inventor
姜中博
刘怀军
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200910090529A priority Critical patent/CN101630312A/zh
Publication of CN101630312A publication Critical patent/CN101630312A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于问答平台中问句的聚类方法及系统,技术方案包括:根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;针对经过所述语义特征分析后的所述问句,采用具有评价问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。所述系统包括:问句分析模块和聚类算法模块。针对现有技术中不存在用于问答平台中问句的聚类方法和系统的问题,本发明的技术方案填补了这一空白,不仅在所述问答平台中实现了快速、准确的聚类方法及系统,而且提高了用户体验。

Description

一种用于问答平台中问句的聚类方法及系统
技术领域
本发明涉及互联网搜索技术领域,具体的说,涉及一种用于问答平台中问句的聚类方法及系统。
背景技术
互联网技术的飞速发展,网络信息量也在不断猛增,现有的问答平台已包含了海量的问句,例如:搜搜问问系统已含有高达6千万个已解决问题的问答对,问句则更多。针对这种情况,问答平台在接收到用户的检索请求时,需要具有快速的在这些海量问句及问答对中,找到与所述检索请求对应的信息提供给用户的能力,但现有的问答平台还不能实现,所以快速而准确的聚类方法及系统对于现有的问答平台来说非常必要。
由于问答平台包含了大量的问句及问答对,使现有问答平台相对与其它服务系统而言,具有一些特殊性:
(1)问句具有文字长度不平衡的特点。一般文本语料长度都是比较适中,但问答平台中问句的长度通常却较短,平均在10个字以下,最多20个字,在去除一些停用词等无关词噪声之后剩余的字数就更少,这使得关键词在问句中的重要性不够突出。当问句含有过多冗余关键词这种极端情况时,应用现有相似度度量方法,会严重影响度量结果。
(2)问句中TF(Term Frequency,词频)等于或略微大于DF(Document Frequency,文档频率)。在基于向量空间模型(Vector Space Model:VSM)的相似度度量过程中,关键词权值是一个必备的元素。TFIDF这种计算关键词权值的通用方法,应用在包含问句或最佳问答对的问答平台来说,不能准确地描述出关键词的重要程度,所以影响了相似性度量的准确性。
(3)问句包括多种语义特征。问答平台中问句的语义特征(Question SemanticFeature,QSF)包含疑问类型、比较特征等。不同问句的疑问类型能表达出提问者针对问题答案的侧重点。例如:北京在哪里?怎么去北京。
含有比较特征的问句相对于不含有比较特征的问句来说,更能清楚的获知问句的最佳答案。例如:问句中含有“最”,“更”,“全部”或“所有”等词语。
如果能够准确的识别出问句的语义特征,就可给用户提供更高的服务质量和用户体验,但目前现有的聚类方法在问答平台中仍不能实现。
在实现本发明的过程中,发明人发现:针对如上所述现有技术存在的问题,一种应用在包含海量问句的问答平台中,能够根据问句特点和语义特征快速、准确的聚类系统对现有技术来说是非常重要的。
发明内容
本发明要解决的技术问题是提供一种用于问答平台中问句的聚类方法及系统,能够根据问句的特点和语义特征对所述问句进行聚类处理,获得更加准确的聚类结果。
本发明的技术方案如下:
本发明一种用于问答平台中问句的聚类方法,包括:
根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;
针对经过所述语义特征分析后的所述问句,采用具有评估问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。
进一步的,根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;具体过程包括:
对所述问句中抽取的关键词进行数量判断,当所述问句中实际关键词数小于预先设定的参考关键词数时,根据预先生成的语义扩展库对所述问句进行语义扩展;否则,对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理;
对经过关键词数量判断后的所述问句进行语义特征判断,根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词,以获得与所述问句实际对应的分析结果。
进一步的,所述方法还包括:
在对所述问句中抽取的关键词进行数量判断之前,根据词性特征,对从所述问句中抽取出的关键词进行关键词权值计算。
进一步的,所述方法还包括:
从互联网上采集海量问句或问答对,整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词;
针对采集到的海量问句或问答对进行疑问类型分类以及比较特征的提取,以获得所述语义扩展库;所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种;所述语义特征库包括疑问类型和比较特征。
进一步的,针对经过所述语义特征分析后的所述问句,采用具有评估问句语义相似度的聚类算法,具体过程包括:
从备选簇集合中抽取出一个簇,对所述簇与经过所述语义特征分析后的问句,进行相似度计算,并获得所述相似度值;
当所述相似度值满足预先设定的阈值要求时,将所述问句添加到所述簇中,否则继续寻找适合所述问句的簇,直到没有任何一个簇满足要求,以所述问句为基础创建新的簇。
本发明还提供了一种用于问答平台中问句的聚类系统,包括:
问句分析模块,用于根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;
聚类算法模块,用于针对经过所述问句分析模块分析后的所述问句,采用具有评估问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。
优选的,所述问句分析模块具体包括:
语义扩展判断单元,用于对所述问句中抽取的关键词进行数量判断,当所述问句中实际关键词数小于预先设定的参考关键词数时,根据预先生成的语义扩展库对所述问句进行语义扩展;否则,对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理;
语义特征提取单元,用于对经过所述语义扩展判断单元判断后的所述问句进行语义特征判断,根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句相关的同义词,以获得与所述问句实际对应的分析结果。
优选的,所述问句分析模块具体还包括:
关键词预处理模块,用于在所述语义扩展判断单元对所述问句中抽取的关键词进行数量判断之前,根据词性特征,对所述问句中抽取出的关键词进行关键词权值计算。
优选的,所述系统还包括:
语义扩展库生成模块,用于从互联网上采集海量问句或问答对,整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词;
针对采集到的海量问句或问答对进行疑问类型分类以及比较特征的提取,以获得所述语义扩展库;所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种;所述语义特征库包括疑问类型和比较特征。
优选的,聚类算法模块具体包括:
相似度计算单元,用于从备选簇集合中抽取出一个簇,对所述簇与经过所述语义特征分析后的问句,进行相似度计算,并获得所述相似度值;
相似度判断单元,用于通过相似度计算单元获得的所述相似度值满足预先设定的阈值要求时,将所述问句添加到所述簇中,否则继续寻找适合所述问句的簇,直到没有任何一个簇满足要求,以所述问句为基础创建新的簇。
本发明的有益效果:
本发明所述一种用于问答平台中问句的聚类方法及系统,是针对问答平台的特点所设计的,充分针对问答平台中问句的特点和语义特征逐步的进行聚类处理,从而快速、准确的获得聚类结果,解决了现有技术中没有针对问答平台而提出的聚类方法及系统的问题。
附图说明
图1为本发明实施例一种用于问答平台中问句的聚类方法的流程图;
图2为本发明实施例根据语义特征对问句进行分析的具体应用流程图;
图3为本发明实施例聚类算法的具体应用流程图;
图4为本发明实施例一种用于问答平台中问句的聚类系统的结构示意图。
具体实施方式
本发明实施例针对现有技术中没有专门应用在问答平台中的聚类方法及系统,提出了一种用于问答平台中问句的聚类方法及系统。综合考虑问句具有的特点和语义特征,能够获得快速、准确的聚类结果。
针对现有的相似度度量方法,对于问句这种文字长度不平衡的句型来说,会严重影响度量结果,所以本发明在进行相似度度量之前,对问句中的实际关键词数小于预定的参考关键词数的问句进行语义扩展,相反对于实际关键词数大于预定参考关键词数的问句进行去冗余处理,来保证相似度度量的质量。
针对现有关键词权值计算方法,对于问句这种IF等于或略微大于DF的情况,就会导致通过计算获得的关键词的权值不能准确描述出该关键词的重要程度,所以本发明在关键词权值计算之前综合考虑了问答平台的类别的特征值,从而计算出更贴切的权值。
由于问句通常包含疑问类型和比较特征等具有代表性的特征,本发明通过对问句进行疑问类型的识别、比较特征的提取以及与所述问句内容相关的同义词的提取,可以提高聚类方法及系统对问答平台处理的准确性。
为了进一步说明本发明实施例的技术方案,下面结合图1一种用于问答平台中问句的聚类方法进行详细说明,技术方案包括:
步骤100:根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;
步骤200:针对经过所述语义特征分析后的所述问句,采用具有评估问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。
可见,如上所述本发明实施例通过对问句疑问类型和比较特性的分析处理,能够克服在应用现有技术对问答平台中的问句进行处理的不准确性,保证了聚类结果的质量。
在本发明实施例的一个应用场景中,步骤100具体可以通过如图2所示的技术方案实现:
步骤1002:对所述问句中抽取的关键词进行数量判断,当所述问句中实际关键词数小于预先设定的参考关键词数时,根据预先生成的语义扩展库对所述问句进行语义扩展;否则,对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理;
步骤1003:对经过关键词数量判断后的所述问句进行语义特征判断,根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词,以获得与所述问句实际对应的分析结果。
具体的,当问句输入问答平台时,首先要对输入的问句进行中文分词,停用词过滤和词性过滤,以对所述问句进行初步的过滤处理。
在上述对抽取出的关键词进行数量判断过程中,语义扩展主要是针对经过停用词和词性过滤后的问句中,包含的关键词非常少的问句而进行,而对于包含过多冗余关键词的长问句则根据权值大小和词性特征等进行选择的去除冗余关键词。
在上述对所述问句进行语义特征判断时,对所述疑问类型的识别可以有助于在语义上对问句进行理解,可以提高聚类算法的准确度和召回率。
对包含比较特征的问句来说,通过判断比较特征,可以更清楚的获知用户更想知道哪个结果更好,他们之间的差异是什么,能加强对问句语义的理解。
在本发明实施例的一个应用场景中,步骤100的具体过程还可以包括:
步骤1001:在对所述问句中抽取的关键词进行数量判断之前,根据词性特征,对所述问句中的关键词进行关键词权值计算。
具体的,对问句中的关键词进行权值计算,是为每个关键词计算出合理的阈值,综合参考关键词IDF的特征值,词性等方面。关键词w的权值可以具体通过如下公式计算获得,但不仅限于以下本发明实施例列举出的方法,只要综合参考关键词IDF的特征值,词性等方面获得的聚类结果,都属于本发明所保护的范围:
Wght(w)=Feature(w)×POS(w)×IDF(w)
其中,Feature(w)是卡方统计(X2)和信息熵(Entropy)的综合值,即:
Feature(w)=log(X2(w))/Entropy(w)
X 2 ( w ) = max i = 1 m X 2 ( w , C i ) , X 2 ( w , C i ) = N × ( AD - BC ) 2 ( A + B ) ( A + C ) ( D + B ) ( D + C )
Entropy(w)=-∑P(Ci|w)log(P(Ci|w))
其中,Ci表示问答平台的类别i,m表示一共m个类别,N表示全部的文档数,A表示类别Ci中包含w的文档数,B表示非Ci的类别中包含w的文档数,C表示类别Ci中不包含w的文档数,D表示非Ci的类别中不包含w的文档数。P(Ci|w)表示包含w的文档出现在类别Ci中的概率。
POS(w)是根据问句中关键词的词性特征来分配权值,一般认为根据包含信息的重要度排序来分配权值,即:命名实体>一般名词>形容词>动词>其他。
IDF ( w ) = log ( N N w + 1 ) , N为全部文档数,Nw为包含w的文档数。
在本发明实施例的一个应用场景中,由于在对问句进行语义分析过程中,需要根据语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词,以获得与所述问句实际对应的分析结果,所以所述方法还可以包括语义扩展库的生成过程,具体可通过如下技术方案实现:
从互联网上采集海量问句或问答对,整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词;
针对采集到的海量问句或问答对进行疑问类型分类以及比较特征的提取,以获得所述语义扩展库;所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种;所述语义特征库包括疑问类型和比较特征。
具体的,如上所述的语义扩展库的生成过程就是为了语义扩展做准备的过程。问句的语义特征包括问句疑问类型和比较特征。例如:通过对问问平台上的问句实例分析后获得,本发明实施例可以将问句的疑问类型大概分成七个大类,分别是:人物类型,地点类型,数字类型,时间类型,实体类型,描述类型(其中包括方法,原因,定义等共三个小类),其他类型。比较特征可以包括“最”,“更”,“全部”,“所有”等具有比较语义的词。
在本发明实施例的一个应用场景中,步骤200具体可以通过如下技术方案来实现:
从备选簇集合中抽取出一个簇,对所述簇与经过所述语义特征分析后的问句,进行相似度计算,并获得所述相似度值;
当所述相似度值满足预先设定的阈值要求时,将所述问句添加到所述簇中,否则继续寻找适合所述问句的簇,直到没有任何一个簇满足要求,以所述问句为基础创建新的簇。
针对上述步骤200的具体过程,图3示出了在实际应用中步骤200的具体流程图:
步骤101:经过语义特征分析后,待聚类的问句Q输入;
步骤102:从备选簇集合中,取出一个簇C,如果备选簇集合为空,执行步骤105:
步骤103:将簇C与问句Q进行相似度计算,获得相似度值;
步骤104:判断所述相似度是否满足预先设定的阈值范围,当满足时,将问句Q放入簇C中,否则执行步骤102;
步骤105:以问句Q为基础,创建新簇,放入备选集合中。
上述聚类算法可以通过如下的具体过程实现:
采用具有快速聚类特点的single-pass算法,其基本原理是一个对象在寻找簇的过程中,只要找到了一个满足相似度阈值的簇,那么该对象就属于这个簇而不再进行其他的比较。相比较其他的算法来说这个算法的优点是速度快而且聚类效果较好,能够处理千万级的文档数量,适用于包含海量问句的问答平台。
Single-pass算法能够保证聚类的速度,本发明实施例中相似度度量能够保证聚类的准确度,其是一种基于Cosine公式的语义相似度度量方法,具体可以通过如下公司计算:
Similarity ( Ques , C ) = 0 if QSFs are different - - - ( 1 ) Σ j = 1 j = 0 w j 2 · CFF ( w j , C ) Σ i = 1 m ( x i · CFF ( x i , C ) ) 2 Σ i = 1 n y i 2 if QSF is the same - - - ( 2 )
其中,公式(2)中的CFF(wj,C)为wj在簇C内的出现频率因子,用于强调簇中更加重要的关键词。该语义相似度公式的含义:如果问句和簇的问句语义特征不同的话,那么语义相似度为零,否则采用公式(2)计算。
具体的,在判断计算出的问句与相似度的值后,将问句添加到该簇中,这时因为融入了新的问句,很可能就会带来了一些噪声,所以需要对簇内关键词的噪声进行处理,并且是非常重要的环节。具体可以通过一个快速简单的识别噪声的方法来实现,通过周期性的查看簇内关键词在簇内问句中的出现频率,如果频率低于某个阈值,则认为是噪声,就将其屏蔽。
通过本发明实施例一种用于问答平台中问句的聚类方法,填补了现有技术的空白,并且通过利用问答平台中问句的特点和语义特征,保证了获得的聚类结果快速而准确。
如图4所示,基于上述图1所示的方法实施例,本发明还提供了一种用于问答平台中问句的聚类系统,所述系统可以包括:
问句分析模块11,用于根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;
聚类算法模块22,用于针对经过所述问句分析模块11分析后的所述问句,采用具有评价问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。
可见,通过如上所述的问句分析模块11和聚类算法模块22,实现了一种适用于现有问答平台中问句的聚类系统,解决了应用现有技术对问答平台中问句进行聚类处理的获得的聚类结果不准确的问题。
在本发明实施例的一个应用场景中,问句分析模块11具体可以包括:
语义扩展判断单元112,用于对所述问句中抽取的关键词进行数量判断,当所述问句中实际关键词数小于预先设定的参考关键词数时,根据预先生成的语义扩展库对所述问句进行语义扩展;否则,对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理;
语义特征提取单元113,用于对经过所述语义扩展判断单元112判断后的所述问句进行语义特征判断,根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词,以获得与所述问句实际对应的分析结果。
在本发明实施例的一个应用场景中,所述问句分析模块11具体还可以包括:
关键词预处理单元111,用于在语义扩展判断单元112对所述问句中抽取的关键词进行数量判断之前,根据词性特征,对所述问句中抽取出的关键词进行关键词权值计算。
在本发明实施例的一个应用场景中,所述系统还可以包括:
语义扩展库生成模块33,用于从互联网上采集海量问句或问答对,整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词;
针对采集到的海量问句或问答对进行疑问类型分类以及比较特征的提取,以获得所述语义扩展库;所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种;所述语义特征库包括疑问类型和比较特征。
具体的说,上述语义扩展库生成模块中涉及的具体技术方案可参见图1所示的方法实施例中语义扩展库的生成过程,
在本发明实施例的一个应用场景中,聚类算法模块22具体包括:
相似度计算单元221,用于从备选簇集合中抽取出一个簇,对所述簇与经过所述语义特征分析后的问句,进行相似度计算,并获得所述相似度值;
相似度判断单元222,用于通过所述相似度计算单元221获得的所述相似度值满足预先设定的阈值要求时,将所述问句添加到所述簇中,否则继续寻找适合所述问句的簇,直到没有任何一个簇满足要求,以所述问句为基础创建新的簇。
具体的说,本发明实施例聚类算法模块在具体应用中涉及的技术方案可参见图1所示的方法实施例中的图3。
鉴于如图4所示的本发明实施例一种用于问答平台中问句的聚类系统是基于上述如图1所示的一种用于问答平台中问句的聚类方法实施例获得的,涉及的技术方案与图1所示的方法实施例分别对应,在此不作赘述,具体内容请参见上述图1所述的方法实施例。
本发明实施例针对问答平台而设计,提出了一种适用于问答平台中问句的聚类方法及系统的构思,充分针对问答平台的特点对问句进行一一处理,从而达到快速准确的聚类效果。技术方案中关键词权值计算方法,聚类算法和相似度计算方法都可以用其他相似算法来进行功能性的替代,所以通过替代方式来实现本发明的功能的相关技术,均属于本发明的保护范围。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1、一种用于问答平台中问句的聚类方法,其特征在于,包括:
根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;
针对经过所述语义特征分析后的所述问句,采用具有评价问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。
2、根据权利要求1所述的方法,其特征在于,根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;具体过程包括:
对所述问句中抽取的关键词进行数量判断,当所述问句中实际关键词数小于预先设定的参考关键词数时,根据预先生成的语义扩展库对所述问句进行语义扩展;否则,对所述问句中包括的实际关键词根据词性特征和权值大小进行去冗余处理;
对经过关键词数量判断后的所述问句进行语义特征判断,根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词,以获得与所述问句实际对应的分析结果。
3、根据权利要求2所述的方法,其特征在于,所述方法还包括:
在对所述问句中抽取的关键词进行数量判断之前,根据词性特征,对所述问句中抽取出的关键词进行关键词权值计算。
4、根据权利要求2所述的方法,其特征在于,所述方法还包括:
从互联网上采集海量问句或问答对,整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词;
针对采集到的海量问句或问答对进行疑问类型分类以及比较特性的提取,以获得所述语义扩展库;所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种;所述语义特征库包括疑问类型和比较特性。
5、根据权利要求1所述的方法,其特征在于,针对经过所述语义特征分析后的所述问句,采用具有评价问句语义相似度的聚类算法,具体过程包括:
从备选簇集合中抽取出一个簇,对所述簇与经过所述语义特征分析后的问句,进行相似度计算,并获得所述相似度值;
当所述相似度值满足预先设定的阈值要求时,将所述问句添加到所述簇中,否则继续寻找适合所述问句的簇,直到没有任何一个簇满足要求,以所述问句为基础创建新的簇。
6、一种用于问答平台中问句的聚类系统,其特征在于,包括:
问句分析模块,用于根据所述问句的语义特征对问答平台中的问句进行分析,并获得分析结果;所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词;
聚类算法模块,用于针对经过所述问句分析模块分析后的所述问句,采用具有评价问句语义相似度的聚类算法,以获得所述问答平台中问句的聚类结果。
7、根据权利要求6所述的系统,其特征在于,所述问句分析模块具体包括:
语义扩展判断单元,用于对所述问句中抽取的关键词进行数量判断,当所述问句中实际关键词数小于预先设定的参考关键词数时,根据预先生成的语义扩展库对所述问句进行语义扩展;否则,对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理;
语义特征提取单元,用于对经过所述语义扩展判断单元判断后的所述问句进行语义特征判断,根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词,以获得与所述问句实际对应的分析结果。
8、根据权利要求7所述的系统,其特征在于,所述问句分析模块具体还包括:
关键词预处理单元,用于在所述语义扩展判断单元对所述问句中抽取的关键词进行数量判断之前,根据词性特征,对从所述问句中抽取出的关键词进行关键词权值计算。
9、根据权利要求7所述的系统,其特征在于,所述系统还包括:
语义扩展库生成模块,用于从互联网上采集海量问句或问答对,整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词;
针对采集到的海量问句或问答对进行疑问类型分类以及比较特征的提取,以获得所述语义扩展库;所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种;所述语义特征库包括疑问类型和比较特征。
10、根据权利要求6所述的系统,其特征在于,所述聚类算法模块具体包括:
相似度计算单元,用于从备选簇集合中抽取出一个簇,对所述簇与经过所述语义特征分析后的问句,进行相似度计算,并获得所述相似度值;
相似度判断单元,用于当通过相似度计算单元获得的所述相似度值满足预先设定的阈值要求时,将所述问句添加到所述簇中,否则继续寻找适合所述问句的簇,直到没有任何一个簇满足要求,以所述问句为基础创建新的簇。
CN200910090529A 2009-08-19 2009-08-19 一种用于问答平台中问句的聚类方法及系统 Pending CN101630312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910090529A CN101630312A (zh) 2009-08-19 2009-08-19 一种用于问答平台中问句的聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910090529A CN101630312A (zh) 2009-08-19 2009-08-19 一种用于问答平台中问句的聚类方法及系统

Publications (1)

Publication Number Publication Date
CN101630312A true CN101630312A (zh) 2010-01-20

Family

ID=41575422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910090529A Pending CN101630312A (zh) 2009-08-19 2009-08-19 一种用于问答平台中问句的聚类方法及系统

Country Status (1)

Country Link
CN (1) CN101630312A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693245A (zh) * 2011-03-22 2012-09-26 日电(中国)有限公司 属性提取和聚类设备及方法
CN102955772A (zh) * 2011-08-17 2013-03-06 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN103020035A (zh) * 2011-08-31 2013-04-03 株式会社东芝 Faq制作辅助系统
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103049524A (zh) * 2012-12-20 2013-04-17 中国科学技术信息研究所 同义词检索结果按词义自动聚类方法
CN103365937A (zh) * 2012-07-19 2013-10-23 冯林 一种对信息交易数据进行处理的方法和系统
CN103383693A (zh) * 2012-06-07 2013-11-06 冯林 一种提高信息交易成功率的方法和系统
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN104036015A (zh) * 2014-06-24 2014-09-10 北京奇虎科技有限公司 一种电子终端问题分类及解决方案提供方法、系统及装置
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及系统
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN104991965A (zh) * 2015-07-23 2015-10-21 上海智臻网络科技有限公司 用于基于标准问创建扩展问的方法和装置
CN105096934A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN105512104A (zh) * 2015-12-02 2016-04-20 上海智臻智能网络科技股份有限公司 词典降维方法及装置、信息分类方法及装置
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理系统及其方法
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN107656948A (zh) * 2016-11-14 2018-02-02 平安科技(深圳)有限公司 自动问答系统中的问题聚类处理方法及装置
CN107908624A (zh) * 2017-12-12 2018-04-13 太原理工大学 一种基于全覆盖粒计算的K‑medoids文本聚类方法
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN108319586A (zh) * 2018-01-31 2018-07-24 天闻数媒科技(北京)有限公司 一种信息提取规则的生成和语义解析方法及装置
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN111967254A (zh) * 2020-10-21 2020-11-20 深圳追一科技有限公司 相似问集合的评分方法、装置、计算机设备和存储介质
US10977247B2 (en) 2016-11-21 2021-04-13 International Business Machines Corporation Cognitive online meeting assistant facility
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693245A (zh) * 2011-03-22 2012-09-26 日电(中国)有限公司 属性提取和聚类设备及方法
CN102955772A (zh) * 2011-08-17 2013-03-06 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN102955772B (zh) * 2011-08-17 2015-11-25 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN103020035A (zh) * 2011-08-31 2013-04-03 株式会社东芝 Faq制作辅助系统
CN103020035B (zh) * 2011-08-31 2016-05-11 株式会社东芝 Faq制作辅助系统
CN103383693A (zh) * 2012-06-07 2013-11-06 冯林 一种提高信息交易成功率的方法和系统
CN103365937A (zh) * 2012-07-19 2013-10-23 冯林 一种对信息交易数据进行处理的方法和系统
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN103810218B (zh) * 2012-11-14 2018-06-08 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103049433B (zh) * 2012-12-11 2015-10-28 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103049524A (zh) * 2012-12-20 2013-04-17 中国科学技术信息研究所 同义词检索结果按词义自动聚类方法
CN103049524B (zh) * 2012-12-20 2016-01-06 中国科学技术信息研究所 同义词检索结果按词义自动聚类方法
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN104036015A (zh) * 2014-06-24 2014-09-10 北京奇虎科技有限公司 一种电子终端问题分类及解决方案提供方法、系统及装置
CN105760359B (zh) * 2014-11-21 2020-03-20 财团法人工业技术研究院 问句处理系统及其方法
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理系统及其方法
CN104361127B (zh) * 2014-12-05 2017-09-26 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及系统
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN104778256B (zh) * 2015-04-20 2017-10-17 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
CN105096934A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
CN104991965B (zh) * 2015-07-23 2018-11-23 上海智臻智能网络科技股份有限公司 用于基于标准问创建扩展问的方法和装置
CN104991965A (zh) * 2015-07-23 2015-10-21 上海智臻网络科技有限公司 用于基于标准问创建扩展问的方法和装置
CN109241266A (zh) * 2015-07-23 2019-01-18 上海智臻智能网络科技股份有限公司 人机交互中基于标准问创建扩展问的方法和装置
CN105512104A (zh) * 2015-12-02 2016-04-20 上海智臻智能网络科技股份有限公司 词典降维方法及装置、信息分类方法及装置
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN107656948A (zh) * 2016-11-14 2018-02-02 平安科技(深圳)有限公司 自动问答系统中的问题聚类处理方法及装置
CN107656948B (zh) * 2016-11-14 2019-05-07 平安科技(深圳)有限公司 自动问答系统中的问题聚类处理方法及装置
US10977247B2 (en) 2016-11-21 2021-04-13 International Business Machines Corporation Cognitive online meeting assistant facility
CN106777232B (zh) * 2016-12-26 2019-07-12 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN107944027B (zh) * 2017-12-12 2020-03-31 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN107908624A (zh) * 2017-12-12 2018-04-13 太原理工大学 一种基于全覆盖粒计算的K‑medoids文本聚类方法
CN108319586A (zh) * 2018-01-31 2018-07-24 天闻数媒科技(北京)有限公司 一种信息提取规则的生成和语义解析方法及装置
CN108319586B (zh) * 2018-01-31 2021-09-24 天闻数媒科技(北京)有限公司 一种信息提取规则的生成和语义解析方法及装置
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN111967254A (zh) * 2020-10-21 2020-11-20 深圳追一科技有限公司 相似问集合的评分方法、装置、计算机设备和存储介质
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质
CN114238619B (zh) * 2022-02-23 2022-04-29 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质

Similar Documents

Publication Publication Date Title
CN101630312A (zh) 一种用于问答平台中问句的聚类方法及系统
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN101464898B (zh) 一种提取文本主题词的方法
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN106294396A (zh) 关键词扩展方法和关键词扩展系统
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN108363694B (zh) 关键词提取方法及装置
CN102081601B (zh) 一种领域词识别方法和装置
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN103049470A (zh) 基于情感相关度的观点检索方法
CN103885937A (zh) 基于核心词相似度判断企业中文名称重复的方法
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN101968801A (zh) 一种单篇文本关键词的提取方法
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN101887415B (zh) 一种文本文档主题词义的自动提取方法
CN108073571A (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN109145301A (zh) 信息分类方法及装置、计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100120