CN104008166B - 一种基于形态和语义相似度的对话短文本聚类方法 - Google Patents

一种基于形态和语义相似度的对话短文本聚类方法 Download PDF

Info

Publication number
CN104008166B
CN104008166B CN201410235900.4A CN201410235900A CN104008166B CN 104008166 B CN104008166 B CN 104008166B CN 201410235900 A CN201410235900 A CN 201410235900A CN 104008166 B CN104008166 B CN 104008166B
Authority
CN
China
Prior art keywords
short text
class
similarity
center
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410235900.4A
Other languages
English (en)
Other versions
CN104008166A (zh
Inventor
胡琴敏
陈国梁
杨河彬
罗念
钟哲凡
裴逸钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410235900.4A priority Critical patent/CN104008166B/zh
Publication of CN104008166A publication Critical patent/CN104008166A/zh
Application granted granted Critical
Publication of CN104008166B publication Critical patent/CN104008166B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于形态和语义相似度的对话短文本聚类方法,其中形态相似度采用字符串编辑距离相似度,语义相似度基于HowNet和WordNet知识库;在计算短文本相似度的时候引入短文本和词语的权重值。本发明在一定程度上解决对话短文本中包含一些不规整、输入错误噪音信息以及同义词、语义鸿沟的问题,从而相对与基于词袋向量的聚类方法有较大的提升。

Description

一种基于形态和语义相似度的对话短文本聚类方法
技术领域
本发明属于短文本聚类技术领域,涉及一种基于字符串编辑距离相似度与词语语义相似度的对话短文本聚类方法。
背景技术
随着移动通信和移动互联网的飞速发展,出现各种人机智能对话系统,例如Siri、google now、小i机器人等。以小i机器人为例,用户数已超过1亿,每年有100亿次的对话访问并产生大量有价值的对话文本数据,这些数据是用户兴趣挖掘和智能对话系统知识库改进的重要数据源。针对这些对话文本数据进行聚类分析可以将相似的对话文本聚集起来并形成若干个重要的聚类中心,从而可以提高挖掘用户兴趣并提炼出知识来更新和完善知识库效率。因此针对对话文本的聚类算法研究具有广阔的应用场景和巨大的价值。
这类对话文本是一种特殊的短文本,通常只有一两句话,甚至只有几个词语或指令。对话短文本具有以下特点:
(1)特征信息少,只包含少量的词。
(2)主题单一,一个对话短文本通常只讨论一件事情。
(3)形式不规则,口语化特征明显。
(4)同义词、大小写字母混用以及输入错误现象突出。
由于对话短文本的这些特点,从而导致基于词袋向量的传统聚类算法不能很好处理这类文本数据。为了解决短文本的信息稀疏性,不少学者也提出相应的方法。一种常用的方法是利用相关的长文本作为辅助数据来扩充短文本的信息。例如Sahami等将短文本输入搜索引擎获取返回的最相关的文本集合,这些文本数据作为相应短文本的辅助数据信息,这种方法在一定程度上较好的解决了短文本的信息稀疏性,但是需要大量的外部辅助数据,从而导致应用场景受到很大的限制。另一种常用的方法是利用知识库扩展词的特征表示,例如Hu等利用WordNet或Wikipedia知识库解决特征信息稀疏性的问题,这种方法可以从语义层面补充特征信息,但对于口语化、错误噪音严重的短文本也不能较好处理。
发明内容
本发明的目的是针对现有聚类技术对智能对话系统产生的对话短文本聚类处理能力存在的缺陷而提出的一种形态和语义相似度相结合的短文本聚类方法(FS-STC),其中形态相似度采用字符串编辑距离相似度,语义相似度基于HowNet或WordNet知识库的词语语义相似度。
实现本发明目的的具体技术方案是:
一种基于形态和语义相似度的对话短文本聚类方法,该方法包括以下具体步骤:
步骤S1:对于中文短文本采用分词工具进行分词处理,然后利用正则匹配与字符串替换来过滤掉无效字符、连续空格、大小写混用噪音信息;对于英文短文本采用词干提取工具进行预处理;
步骤S2:利用TF-IDF和TextRank方法进行关键词提取来获取候选关键词以及对应的权重值;将去除噪音的短文本和关键词集合相结合起来形成带有权重值的格式化短文本;根据带有权重的格式化短文本定义一种新的短文本和类中心的表示方式;
步骤S3:聚类开始的时候,类中心集合为空;当第一个对话短文本输入之后,发现类中心集合为空,则以当前短文本为基础建立一个类中心,并加入类中心集合;当第二个短文本输入之后,遍历类中心集合发现存在一个类中心,根据短文本和类中心的表示方式,结合形态和语义因素来计算当前短文本与类中心的相似度距离D;形态因素采用编辑距离相似度;语义因素采用知网、同义词林和WordNet知识库的词语语义相似度;如果D小于阈值T,则将该对话短文本加入该类中心并更新该类中心;否则从类中心集合中取下一个类中心进行同样判断,当遍历完了类中心集合之后依旧没有符合要求的类中心,则需要以该短文本为基础建立一个新的类中心并加入类中心集合;依次循环上述过程,直到所有对话短文本完成聚类;最终的类中心集合则为所需聚类结果,每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小,则该对话短文本就属于这个类。
所述步骤S1中新的对话短文本与类中心的表示方式为:
ⅰ)短文本ST由原始短文本RST、规整化字符串文本FST和关键词集合KWL三部分组成,其短文本ST的数学描述为:ST={RST,FST/WT,KWL=[KW1/wt1,...,KWi/wti,...]},WT表示FST的权重,wti表示KWi的权重;
ⅱ)类中心Center由类标号CID、类权重CWT、类成员数目CMN、原始短文本集合CRSTL、规整化字符串文本集合CFSTL和关键词集合CKWL组成,其类中心Center的数学描述为:
Center={CID,CWT,CMN,CRSTL=[RST1,...,RSTi,...],
CFSTL=[FST1/WT1,...,FSTj/WTj,...],CKWL=[KW1/wt1,...,KWk/wtk,...]},WTj表示FSTj的权重,wtk表示KWk的权重。
所述步骤S3中结合形态和语义因素来计算当前短文本与类中心的相似度距离D是:
基于ST、Center表示形式,结合编辑距离相似度和词语语义相似度来计算短文本相似度Simi,相似度距离D=1-Simi,其中编辑距离相似度表示为FSimi,词语语义相似度表示为SSimi;
其中为编辑距离相似度的权重因子,即形态因素在相似度计算中所占比例;Simi(STA,STB)表示STA和STB的相似度,FSimi(STA.FST,STB.FST)表示规整化文本字符串的编辑距离相似度,SSimi(STA.KWL,STB.KWL)表示STA和STB的语义相似度;
FSimi(STA.FST,STB.FST)=Levenshtein(STA.FST,STB.FST) (1)
公式(2)中wti作为权重因素融入计算语义相似度,能够提高权重较大词对相似度的影响程度。
本发明的有益效果
本发明能够适应中英文的对话短文本的聚类任务,利用HowNet或WordNet知识库的语义相似度可以在一定程度上解决短文本的同义词、语义鸿沟的现象,从而相对与基于词袋向量的传统聚类算法有较大的提升;但是像对话短文本中包含一些不规整、输入错误等噪音信息情况下,词语语义相似度将受到影响,然后编辑距离相似度可以较好适应这些短文本,因此将这二种相似度因素进行结合起来可以提高对话短文本的聚类效果。
附图说明
图1为本发明的总体流程图;
图2为本发明对话短文本聚类实例图;
图3为本发明短文本加入类中心和类中心更新过程伪代码流程图。
具体实施方式
本发明可以针对对话短文本进行有效聚类。下面以小i机器人提供的对话文本为例,结合附图2对本发明作进一步说明。
实施过程主要包括二个阶段,第一阶段针对原始文本数据进行过滤和预处理,例如文本长度过滤、中文分词、英文字符串的统一化等处理,然后利用关键词提取工具获取关键词和权重;第二阶段利用字符串的形态和词语语义相似度对短文本集合进行聚类处理,即FS-STC聚类方法过程。
1).预处理阶段
如果需要聚类的文本集合是中文短文本的话,则首先需要利用分词工具对短文本进行分词处理,采用中科院2014分词工具对文本集合进行分词处理。短文本集合通常存在一些形式不规范、趋向口语化,例如小i机器人对话文本数据集存在一些无效标点符号、连续空格等,利用正则表达式进行过滤和规整化。对于英文短文本数据集,采用词干提取工具SnowballStemmer进行预处理。
一个短文本中不同词包含信息量或重要性不尽相同,例如“本月话费还剩多少”,其中“话费”的重要程度要大于其他词。利用NLPIR和FudanNLP开源项目中的关键词提取工具对待聚类的短文本集合进行关键词权重提取,一个对话文本的权重值表示为其所包含词的权重累加。词语和短文本的权重值作为格式化短文本的一部分,在聚类过程的相似度计算和类中心更新。
2).聚类阶段
聚类过程的一个重要环节就是相似度计算,主要包括字符串编辑距离相似度、词语语义相似度。编辑距离相似度采用FudanNLP开源工具包,中文词语语义相似度基于HowNet知识库;英文词语语义相似度基于WordNet知识库。
聚类开始的时候,类中心集合为空。当第一个对话短文本“话费余额”输入之后,发现类中心集合为空,则以“话费余额”为基础建立一个类中心,并加入类中心集合。当第二个短文本“花费剩多少”输入之后,遍历类中心集合发现存在一个类中心,然后计算当前短文本与类中心的相似度距离D小于阈值T,则将“花费剩多少”对话短文本加入该类中心并更新该类中心。当第三个对话短文本“送“CZWLANMM”输入之后,同样的方法遍历类中心集合并计算相应的相似度距离D,发现没有满足D小于阈值T的情况,则以“送“CZWLANMM”为基础建立一个新的类中心并加入类中心集合。依次循环上述过程,直到所有对话短文本完成聚类。最终的类中心集合则为所需聚类结果,每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小,则该对话短文本就属于这个类。
参阅图3,图3中Algorithm2利用短文本和词语的权重信息来实现类中心的更新,保留权重较大的短文本和词语,即具有代表性的短文本与词语。将st加入center过程,首先判断center.CFSTL中是否包含st.FST,如果已包含则只需将st.FST的权重赋给center.CFSTL中相应的FST,否则需要st.FST以及其权重值一起添加到center.CFSTL中,同样的方法将st的KWL加入center.CKWL中。完成st加入center之后,判断center.CFSTL的个数是否超过预先设置最多保留数K0,如果超过则根据FST权重筛选出前K0个FST来更新center.CFSTL,同样的方法更新center.CKWL。

Claims (2)

1.一种基于形态和语义相似度的对话短文本聚类方法,其特征在于该方法包括以下具体步骤:
步骤S1:对于中文短文本采用分词工具进行分词处理,然后利用正则匹配与字符串替换来过滤掉无效字符、连续空格、大小写混用噪音信息;对于英文短文本采用词干提取工具进行预处理;
步骤S2:利用TF-IDF和TextRank方法进行关键词提取来获取候选关键词以及对应的权重值;将去除噪音的短文本和关键词集合相结合起来形成带有权重值的格式化短文本;根据带有权重的格式化短文本定义一种新的短文本和类中心的表示方式;
步骤S3:聚类开始的时候,类中心集合为空;当第一个对话短文本输入之后,发现类中心集合为空,则以当前短文本为基础建立一个类中心,并加入类中心集合;当第二个短文本输入之后,遍历类中心集合发现存在一个类中心,根据短文本和类中心的表示方式,结合形态和语义因素来计算当前短文本与类中心的相似度距离D;形态因素采用编辑距离相似度;语义因素采用知网、同义词林和WordNet知识库的词语语义相似度;如果D小于阈值T,则将该对话短文本加入该类中心并更新该类中心;否则从类中心集合中取下一个类中心进行同样判断,当遍历完了类中心集合之后依旧没有符合要求的类中心,则需要以该短文本为基础建立一个新的类中心并加入类中心集合;依次循环上述过程,直到所有对话短文本完成聚类;最终的类中心集合则为所需聚类结果,每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小,则该对话短文本就属于这个类:其中:
所述步骤S1中新的对话短文本与类中心的表示方式为:
ⅰ)短文本ST由原始短文本RST、规整化字符串文本FST和关键词集合KWL三部分组成,其短文本ST的数学描述为:ST={RST,FST/WT,KWL=[KW1/wt1,...,KWi/wti,...]},WT表示FST的权重,wti表示KWi的权重;
ⅱ)类中心Center由类标号CID、类权重CWT、类成员数目CMN、原始短文本集合CRSTL、规整化字符串文本集合CFSTL和关键词集合CKWL组成,其类中心Center的数学描述为:
WTj表示FSTj的权重,wtk表示KWk的权重。
2.根据权利要求1所述的方法,其特征在于所述步骤S3中结合形态和语义因素来计算当前短文本与类中心的相似度距离D,具体包括:
基于ST、Center表示形式,结合编辑距离相似度和词语语义相似度来计算短文本相似度Simi,相似度距离D=1-Simi,其中编辑距离相似度表示为FSimi,词语语义相似度表示为SSimi;
其中为编辑距离相似度的权重因子,即形态因素在相似度计算中所占比例;Simi(STA,STB)表示STA和STB的相似度,FSimi(STA.FST,STB.FST)表示规整化文本字符串的编辑距离相似度,SSimi(STA.KWL,STB.KWL)表示STA和STB的语义相似度;
FSimi(STA.FST,STB.FST)=Levenshtein(STA.FST,STB.FST) (1)
S S i m i ( ST A . K W L , ST B . K W L ) = 1 2 { Σ w A ∈ ST A . K W L ( max S S i m i ( w A , ST B . K W L ) * wt A ) Σ w A ∈ WS A wt A + Σ w B ∈ ST B . K W L ( max S S i m i ( w B , ST A . K W L ) * wt B ) Σ w B ∈ WS B wt B - - - ( 2 )
公式(2)中wti作为权重因素融入计算语义相似度。
CN201410235900.4A 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法 Expired - Fee Related CN104008166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410235900.4A CN104008166B (zh) 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410235900.4A CN104008166B (zh) 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法

Publications (2)

Publication Number Publication Date
CN104008166A CN104008166A (zh) 2014-08-27
CN104008166B true CN104008166B (zh) 2017-05-24

Family

ID=51368823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410235900.4A Expired - Fee Related CN104008166B (zh) 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法

Country Status (1)

Country Link
CN (1) CN104008166B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324784B (zh) * 2015-03-09 2023-05-16 创新先进技术有限公司 一种字符串处理方法及装置
CN104750668B (zh) * 2015-03-27 2017-10-17 武汉传神信息技术有限公司 一种统计表格有效内容的方法
CN104778256B (zh) * 2015-04-20 2017-10-17 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN105843863A (zh) * 2016-03-16 2016-08-10 广州索答信息科技有限公司 互联网新闻的去重方法和装置
CN106127222B (zh) * 2016-06-13 2019-06-04 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN106383814B (zh) * 2016-09-13 2020-05-19 电子科技大学 一种英文社交媒体短文本分词方法
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106776539A (zh) * 2016-11-09 2017-05-31 武汉泰迪智慧科技有限公司 一种多维度短文本特征提取方法及系统
CN106650803B (zh) * 2016-12-09 2019-06-18 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质
CN109190117B (zh) * 2018-08-10 2023-06-23 中国船舶重工集团公司第七一九研究所 一种基于词向量的短文本语义相似度计算方法
CN109189931B (zh) * 2018-09-05 2021-05-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109472019B (zh) * 2018-10-11 2023-02-10 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109492109B (zh) * 2018-11-22 2021-09-17 鼎富智能科技有限公司 一种信息热点挖掘方法及装置
CN111368061B (zh) * 2018-12-25 2024-04-12 深圳市优必选科技有限公司 短文本过滤方法、装置、介质及计算机设备
CN113779183B (zh) * 2020-06-08 2024-05-24 北京沃东天骏信息技术有限公司 文本匹配方法、装置、设备及存储介质
CN114090757B (zh) * 2022-01-14 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 对话系统的数据处理方法、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034475A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 一种运用计算机对开放式短对话进行交互式评分的方法
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN103116591A (zh) * 2011-11-17 2013-05-22 北大方正集团有限公司 论坛贴内容抽取方法和装置
CN103823857A (zh) * 2014-02-21 2014-05-28 浙江大学 基于自然语言处理的空间信息检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014074917A1 (en) * 2012-11-08 2014-05-15 Cooper & Co Ltd Edwin System and method for divisive textual clustering by label selection using variant-weighted tfidf

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034475A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 一种运用计算机对开放式短对话进行交互式评分的方法
CN103116591A (zh) * 2011-11-17 2013-05-22 北大方正集团有限公司 论坛贴内容抽取方法和装置
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN103823857A (zh) * 2014-02-21 2014-05-28 浙江大学 基于自然语言处理的空间信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于字符串相似度聚类的网络短文本舆情热点发现技术;杨震 等;《北京工业大学学报》;20100515;第36卷(第5期);第2-3页 *
基于知网语义的Web中文文本聚类方法研究;叶宇飞;《万方学位论文》;20131231;第34页第1段-第49页倒数第一段 *

Also Published As

Publication number Publication date
CN104008166A (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
CN104008166B (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN108874878B (zh) 一种知识图谱的构建系统及方法
CN106484664B (zh) 一种短文本间相似度计算方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN105608218A (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN110188359B (zh) 一种文本实体抽取方法
CN106649250A (zh) 一种情感新词的识别方法及装置
CN107480137A (zh) 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN106484678A (zh) 一种短文本相似度计算方法及装置
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN104572633A (zh) 一种确定多义词词义的方法
CN108595413B (zh) 一种基于语义依存树的答案抽取方法
CN106776543A (zh) 新词发现方法、装置、终端及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524

Termination date: 20200530

CF01 Termination of patent right due to non-payment of annual fee