CN104008166A

CN104008166A - 一种基于形态和语义相似度的对话短文本聚类方法

Info

Publication number: CN104008166A
Application number: CN201410235900.4A
Authority: CN
Inventors: 胡琴敏; 陈国梁; 杨河彬; 罗念; 钟哲凡; 裴逸钧
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2014-08-27
Anticipated expiration: 2034-05-30
Also published as: CN104008166B

Abstract

本发明公开了一种基于形态和语义相似度的对话短文本聚类方法，其中形态相似度采用字符串编辑距离相似度，语义相似度基于HowNet和WordNet知识库；在计算短文本相似度的时候引入短文本和词语的权重值。本发明在一定程度上解决对话短文本中包含一些不规整、输入错误噪音信息以及同义词、语义鸿沟的问题，从而相对与基于词袋向量的聚类方法有较大的提升。

Description

一种基于形态和语义相似度的对话短文本聚类方法

技术领域

本发明属于短文本聚类技术领域，涉及一种基于字符串编辑距离相似度与词语语义相似度的对话短文本聚类方法。

背景技术

随着移动通信和移动互联网的飞速发展，出现各种人机智能对话系统，例如Siri、googlenow、小i机器人等。以小i机器人为例，用户数已超过1亿，每年有100亿次的对话访问并产生大量有价值的对话文本数据，这些数据是用户兴趣挖掘和智能对话系统知识库改进的重要数据源。针对这些对话文本数据进行聚类分析可以将相似的对话文本聚集起来并形成若干个重要的聚类中心，从而可以提高挖掘用户兴趣并提炼出知识来更新和完善知识库效率。因此针对对话文本的聚类算法研究具有广阔的应用场景和巨大的价值。

这类对话文本是一种特殊的短文本，通常只有一两句话，甚至只有几个词语或指令。对话短文本具有以下特点：

(1)特征信息少，只包含少量的词。

(2)主题单一，一个对话短文本通常只讨论一件事情。

(3)形式不规则，口语化特征明显。

(4)同义词、大小写字母混用以及输入错误现象突出。

由于对话短文本的这些特点，从而导致基于词袋向量的传统聚类算法不能很好处理这类文本数据。为了解决短文本的信息稀疏性，不少学者也提出相应的方法。一种常用的方法是利用相关的长文本作为辅助数据来扩充短文本的信息。例如Sahami等将短文本输入搜索引擎获取返回的最相关的文本集合，这些文本数据作为相应短文本的辅助数据信息，这种方法在一定程度上较好的解决了短文本的信息稀疏性，但是需要大量的外部辅助数据，从而导致应用场景受到很大的限制。另一种常用的方法是利用知识库扩展词的特征表示，例如Hu等利用WordNet或Wikipedia知识库解决特征信息稀疏性的问题，这种方法可以从语义层面补充特征信息，但对于口语化、错误噪音严重的短文本也不能较好处理。

发明内容

本发明的目的是针对现有聚类技术对智能对话系统产生的对话短文本聚类处理能力存在的缺陷而提出的一种形态和语义相似度相结合的短文本聚类方法(FS-STC)，其中形态相似度采用字符串编辑距离相似度，语义相似度基于HowNet或WordNet知识库的词语语义相似度。

实现本发明目的的具体技术方案是：

一种基于形态和语义相似度的对话短文本聚类方法，该方法包括以下具体步骤：

步骤S1：对于中文短文本采用分词工具进行分词处理，然后利用正则匹配与字符串替换来过滤掉无效字符、连续空格、大小写混用噪音信息；对于英文短文本采用词干提取工具进行预处理；

步骤S2：利用TF-IDF和TextRank方法进行关键词提取来获取候选关键词以及对应的权重值；将去除噪音的短文本和关键词集合相结合起来形成带有权重值的格式化短文本；根据带有权重的格式化短文本定义一种新的短文本和类中心的表示方式；

步骤S3：聚类开始的时候，类中心集合为空；当第一个对话短文本输入之后，发现类中心集合为空，则以当前短文本为基础建立一个类中心，并加入类中心集合；当第二个短文本输入之后，遍历类中心集合发现存在一个类中心，根据短文本和类中心的表示方式，结合形态和语义因素来计算当前短文本与类中心的相似度距离D；形态因素采用编辑距离相似度；语义因素采用知网、同义词林和WordNet知识库的词语语义相似度；如果D小于阈值T，则将该对话短文本加入该类中心并更新该类中心；否则从类中心集合中取下一个类中心进行同样判断，当遍历完了类中心集合之后依旧没有符合要求的类中心，则需要以该短文本为基础建立一个新的类中心并加入类中心集合；依次循环上述过程，直到所有对话短文本完成聚类；最终的类中心集合则为所需聚类结果，每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小，则该对话短文本就属于这个类。

所述步骤S1中新的对话短文本与类中心的表示方式为：

ⅰ)短文本ST由原始短文本RST、规整化字符串文本FST和关键词集合KWL三部分组成，其短文本ST的数学描述为：ST＝{RST,FST/WT,KWL＝[KW₁/wt₁,...,KW_i/wt_i,...]}，WT表示FST的权重，wt_i表示KW_i的权重；

ⅱ)类中心Center由类标号CID、类权重CWT、类成员数目CMN、原始短文本集合CRSTL、规整化字符串文本集合CFSTL和关键词集合CKWL组成，其类中心Center的数学描述为：

Center＝{CID，CWT，CMN，CRSTL＝[RST₁，...，RST_i，...]，

CFSTL＝[FST₁/WT₁，...，FST_j/WT_j，...]，CKWL＝[KW₁/wt₁，...，KW_k/wt_k，...]}，WT_j表示FST_j的权重，wt_k表示KW_k的权重。

所述步骤S3中结合形态和语义因素来计算当前短文本与类中心的相似度距离D是：

基于ST、Center表示形式，结合编辑距离相似度和词语语义相似度来计算短文本相似度Simi，相似度距离D＝1-Simi，其中编辑距离相似度表示为FSimi，词语语义相似度表示为SSimi；

D = 1 - Simi = 1 - (&PartialD; * FSimi + (1 - &PartialD;) * SSimi), (&PartialD; &Element; [0,1]),

其中为编辑距离相似度的权重因子，即形态因素在相似度计算中所占比例；Simi(ST_A,ST_B)表示ST_A和ST_B的相似度，FSimi(ST_A.FST,ST_B.FST)表示规整化文本字符串的编辑距离相似度，SSimi(ST_A.KWL,ST_B.KWL)表示ST_A和ST_B的语义相似度；

FSimi(ST_A.FST,ST_B.FST)＝Levenshtein(ST_A.FST,ST_B.FST) (1)

\begin{matrix} SSimi ({ST}_{A} . KWL, {ST}_{B} . KWL) = \frac{1}{2} {\frac{\underset{w_{A} &Element; {ST}_{A} . KWL}{Σ} (\max SSimi (w_{A}, {ST}_{B} . KWL) * {wt}_{A})}{\underset{w_{a} &Element; {WS}_{a}}{Σ} {wt}_{A}} \\ + \frac{\underset{w_{B} &Element; {ST}_{B} . KWL}{Σ} (\max SSimi (w_{B}, {ST}_{A} . KWL) * {wt}_{B})}{\underset{w_{B} &Element; {WS}_{B}}{Σ} {wt}_{B}}} \end{matrix} - - - (2)

公式(2)中wt_i作为权重因素融入计算语义相似度，能够提高权重较大词对相似度的影响程度。

本发明的有益效果

本发明能够适应中英文的对话短文本的聚类任务，利用HowNet或WordNet知识库的语义相似度可以在一定程度上解决短文本的同义词、语义鸿沟的现象，从而相对与基于词袋向量的传统聚类算法有较大的提升；但是像对话短文本中包含一些不规整、输入错误等噪音信息情况下，词语语义相似度将受到影响，然后编辑距离相似度可以较好适应这些短文本，因此将这二种相似度因素进行结合起来可以提高对话短文本的聚类效果。

附图说明

图1为本发明的总体流程图；

图2为本发明对话短文本聚类实例图；

图3为本发明短文本加入类中心和类中心更新过程伪代码流程图。

具体实施方式

本发明可以针对对话短文本进行有效聚类。下面以小i机器人提供的对话文本为例，结合附图2对本发明作进一步说明。

实施过程主要包括二个阶段，第一阶段针对原始文本数据进行过滤和预处理，例如文本长度过滤、中文分词、英文字符串的统一化等处理，然后利用关键词提取工具获取关键词和权重；第二阶段利用字符串的形态和词语语义相似度对短文本集合进行聚类处理，即FS-STC聚类方法过程。

1).预处理阶段

如果需要聚类的文本集合是中文短文本的话，则首先需要利用分词工具对短文本进行分词处理，采用中科院2014分词工具对文本集合进行分词处理。短文本集合通常存在一些形式不规范、趋向口语化，例如小i机器人对话文本数据集存在一些无效标点符号、连续空格等，利用正则表达式进行过滤和规整化。对于英文短文本数据集，采用词干提取工具SnowballStemmer进行预处理。

一个短文本中不同词包含信息量或重要性不尽相同，例如“本月话费还剩多少”，其中“话费”的重要程度要大于其他词。利用NLPIR和FudanNLP开源项目中的关键词提取工具对待聚类的短文本集合进行关键词权重提取，一个对话文本的权重值表示为其所包含词的权重累加。词语和短文本的权重值作为格式化短文本的一部分，在聚类过程的相似度计算和类中心更新。

2).聚类阶段

聚类过程的一个重要环节就是相似度计算，主要包括字符串编辑距离相似度、词语语义相似度。编辑距离相似度采用FudanNLP开源工具包，中文词语语义相似度基于HowNet知识库；英文词语语义相似度基于WordNet知识库。

聚类开始的时候，类中心集合为空。当第一个对话短文本“话费余额”输入之后，发现类中心集合为空，则以“话费余额”为基础建立一个类中心，并加入类中心集合。当第二个短文本“花费剩多少”输入之后，遍历类中心集合发现存在一个类中心，然后计算当前短文本与类中心的相似度距离D小于阈值T，则将“花费剩多少”对话短文本加入该类中心并更新该类中心。当第三个对话短文本“送“CZWLANMM”输入之后，同样的方法遍历类中心集合并计算相应的相似度距离D，发现没有满足D小于阈值T的情况，则以“送“CZWLANMM”为基础建立一个新的类中心并加入类中心集合。依次循环上述过程，直到所有对话短文本完成聚类。最终的类中心集合则为所需聚类结果，每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小，则该对话短文本就属于这个类。

参阅图3，图3中Algorithm2利用短文本和词语的权重信息来实现类中心的更新，保留权重较大的短文本和词语，即具有代表性的短文本与词语。将st加入center过程，首先判断center.CFSTL中是否包含st.FST，如果已包含则只需将st.FST的权重赋给center.CFSTL中相应的FST，否则需要st.FST以及其权重值一起添加到center.CFSTL中，同样的方法将st的KWL加入center.CKWL中。完成st加入center之后，判断center.CFSTL的个数是否超过预先设置最多保留数K0，如果超过则根据FST权重筛选出前K0个FST来更新center.CFSTL，同样的方法更新center.CKWL。

Claims

1.一种基于形态和语义相似度的对话短文本聚类方法，其特征在于该方法包括以下具体步骤：

2.根据权利要求1所述的方法，其特征在于所述步骤S1中新的对话短文本与类中心的表示方式为：

Center＝{CID，CWT，CMN，CRSTL＝[RST₁，...，RST_i，...]，

3.根据权利要求1所述的方法，其特征在于所述步骤S3中结合形态和语义因素来计算当前短文本与类中心的相似度距离D，具体包括：

D = 1 - Simi = 1 - (&PartialD; * FSimi + (1 - &PartialD;) * SSimi), (&PartialD; &Element; [0,1]),

FSimi(ST_A.FST,ST_B.FST)＝Levenshtein(ST_A.FST,ST_B.FST) (1)

\begin{matrix} SSimi ({ST}_{A} . KWL, {ST}_{B} . KWL) = \frac{1}{2} {\frac{\underset{w_{A} &Element; {ST}_{A} . KWL}{Σ} (\max SSimi (w_{A}, {ST}_{B} . KWL) * {wt}_{A})}{\underset{w_{a} &Element; {WS}_{a}}{Σ} {wt}_{A}} \\ + \frac{\underset{w_{B} &Element; {ST}_{B} . KWL}{Σ} (\max SSimi (w_{B}, {ST}_{A} . KWL) * {wt}_{B})}{\underset{w_{B} &Element; {WS}_{B}}{Σ} {wt}_{B}}} \end{matrix} - - - (2)

公式(2)中wt_i作为权重因素融入计算语义相似度。