CN102622338B - 一种短文本间语义距离的计算机辅助计算方法 - Google Patents
一种短文本间语义距离的计算机辅助计算方法 Download PDFInfo
- Publication number
- CN102622338B CN102622338B CN201210045699.4A CN201210045699A CN102622338B CN 102622338 B CN102622338 B CN 102622338B CN 201210045699 A CN201210045699 A CN 201210045699A CN 102622338 B CN102622338 B CN 102622338B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- semantic
- distance
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根据词语相似度矩阵对两个短文本中的对应的词串进行语义对齐,根据对其过程中的词语调节次数得到了句法结构距离;再利用《同义词词林扩展版》中词语的五级结构,同时引入中文关键词和近义词概念,以便在语义对齐的基础上,用词语为单位,对各词语进行包括插入、删除或替换等五种操作,加入权重后的各种操作次数之和的权值来表示词语串之间的单元语义距离。本发明的文本语义距离的相对正确率要高于经典的编辑距离算法。
Description
技术领域
本发明涉及一种新型短文本语义距离计算方法及系统,属于文字信息处理领域。
背景技术
当前,随着自主媒体的兴起和参与式传媒环境的发展,网络传播内容、传播方式造成了社会范围的变革。信息的生产成为以网民为中心的模式,网民不仅有制作和发布信息的能力,而且具有与信息的使用者和阅读者进行交互的便捷条件,使信息不仅“可读”,而且“可写”和“可交互”。因此,通过对网络上的信息尤其是用户发布的内容进行分析,可以了解当前社会的热点话题以及人们对各种社会现象的观点和立场。
在线评论通常开始于某个公共事件或热点话题,在表达内容方面有很强的主观性,能够反映出公众对事件的态度。在线评论具有传播快速、影响广泛、观点聚集等特点,对其进行分析研究对于政府及企业都具有重要意义:政府通过对舆论进行监控,可以合理引导舆论,维护社会稳定;企业通过对产品评论进行数据分析,可以掌握产品的最新评论,促进产品更新。因此,分析研究在线评论成为分析网络舆情的重要方面,引起政府、学术界和产业界的高度重视。
短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般比较短,我们称之为短文本(Short Text)。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(距离小)的文本聚集到一个主题中。其中文本相似度计算是文本聚类中一个最关键的技术问题。由于文本距离与文本相似度在文本计算中属于同一个概念,数值上二者是相反的关系,本发明在以后论述中不作区别,统称为文本距离。传统的短文本距离计算方法多从词语或句法结构的角度去衡量句子间的距离,如基于单元语义的计算方法、基于编辑距离的计算方法等。基于单元语义的计算方法仅考虑文本的词语而忽略其组织结构,而基于编辑距离的方法只考虑结构,而忽略词语的意义,并且对于不同长度的文本计算存在较大误差。发明人通过综合考虑短文本间在单元语义和句法结构两方面上的差别程度,克服了传统方法在短文本距离计算上的局限性。
发明内容
本发明的目的在于针对网络上的短文本,提出一种短文本语义距离计算方法与系统。本发明综合考虑短文本间在句法结构和单元语义两方面上的差别程度,提出了一种综合的语义距离计算方法,克服了传统方法在短文本距离计算上的局限性。
其特征在于,是在计算机中依次按以下步骤实现的:
步骤(1)计算机初始化
设置:ICTCLAS分词算法模块和文本距离计算模块
基于《同义词词林扩展版》的汉语语料库
输入:以句子形式表述的两类不同的短文本,所述短文本是指包括短信、微博、论坛评论和新闻评论在内的应用文本中以句子形式出现的在线评论文本的原始数据;
步骤(2)文本预处理
对步骤(1)中的两类不同的短文本按以下步骤进行预处理,以规范文本数据格式:
步骤(2.1)去除包括<html>、<body>、<div>在内的html网页标记,提取出html页面中的评论内容数据;
步骤(2.2)对步骤(2.1)得到的评论内容数据进行变异短文本处理:
所述变异短文本是指用新的符号、口语化词表达常规词义的文本,
所述变异短文本处理是指对所述变异短文本中的词语的拼音、简写体、数字及标点符号进行统一规范化处理以及删除特殊符号,
步骤(2.3)利用所述ICTCLAS分词算法对经过步骤(2.2)得到的文本进行分词处理,得到一系列的文本的词串;
步骤(3)利用所述文本距离计算模块分别计算两类不同的短文本间的句法结构距离和单元语义距离,
步骤(3.1)按以下步骤计算所述两类不同的短文本间的句法结构距离,以度量短文本间在句法结构上的差别程度:
步骤(3.1.1)计算位于所述两类不同短文本中的词串W1和词串W2的词语相似度矩阵:
将两类不同的短文本中的较短文本以较长文本为标准进行语义对齐,所述语义对齐是指通过计算两类不同的短文本中任意词语间的相似度:以所述《同义词词林扩展版》中各个以五级结构表达的词语的8位语义代码为基础,计算两类不同的短文本中任意两个词语的相似度:Sim(A,B),A、B分别表示任意的两个词语:
P为A词语的语义集合,Q为B词语的语义集合;a为语义集合P中的任意语义,b为语义集合B中的任意语义,a∈P,b∈Q,
Sim(a,b)=n/(N+1)
n为a、b之间的语义代码开始不同的级数,N为编码的位数,
从而得到两类不同的短文本的词语相似度矩阵:矩阵的行为所述词串W1中的每个词语,列为所述词串W2中的每个词语,矩阵的元素为所得到的词语相似度Sim(A,B),
步骤(3.1.2)设:所述词串W1的长度小于所述词串W2的长度,len(W1)<len(W2),则以所述较长词串W2为标准,根据步骤(3.1.1)得到的词语相似度矩阵,进行语义对齐,其步骤如下:
步骤(3.1.2.1)选择所述词语相似度矩阵中词语相似度最大值,其所对应的两个词语作为相似对,
步骤(3.1.2.2)把步骤(3.1.2.1)中所述词串W1所对应的词语放在所述词串W2对应的词语的位置上,在所述相似度矩阵中的对应词语的行、列的元素值全部置零,
步骤(3.1.2.3)重复步骤(3.1.2.1)和步骤(3.1.2.2),直到所述词语相似度矩阵中所有元素为零,所述词串W1经过语义对齐,词语顺序调整为W1’,比较词串W1、W1’的词语,计算所述词串W1和所述词串W2的句法结构距离α:
α=t*λ
其中t为所述词串W1和所述词串W2语义对齐的次数,λ为语义对齐的权值
步骤(3.2)在步骤(3.1)语义对齐的基础上,按下式计算两类不同的短文本间的单元语义距离,所述单元语义距离是指任意两个短文本在单元语义上的差别程度,其步骤如下:
步骤(3.2.1)设定以下五种编辑操作的权值:
ω1为插入或删除关键词的操作权值,
ω2为插入或删除非关键词的操作权值,
γ1为替换关键词的操作权值,
γ2为替换非关键词的操作权值,
θ为对近义词的替换代价,
所述关键词是指短文本中的全部名词、代词、动词和形容词,
所述非关键词是指除名词、代词、动词和形容词以外,包括数词、量词、副词在内的其他词性的词语,
在λ、ω1、ω2、γ1、γ2、θ间的相互关系中,设定:
语义对齐的代价小于插入或删除的代价,表示为:ω1>λ
关键词操作的代价大于非关键词操作的代价,表示为:ω1>ω2,γ1>γ2
近义词的操作代价小于非近义词的操作代价,表示为:λ>θ,ω1>θ,ω2>θ,γ1>θ,γ2>θ,
所述近义词是根据所述《同义词词林扩展版》对词语进行同义词扩展而得到的词语,
步骤(4)对步骤(3)得到的句法结构距离和单元语义距离进行归一化,步骤如下:
步骤(4.1)通过对两类不同的短文本间的任意两个词串的句法结构距离、单元语义距离的操作次数进行统计,得到了以下不同编辑操作次数的最大值和最小值:max(t),min(t);max(a1),min(a1);max(a2),min(a2);max(b1),min(b1);max(b2),min(b2);max(c),min(c);
步骤(4.2)按下式对所述t、a1、a2、b1、b2、c各类编辑操作次数分别进行归一化操作,得到归一化以后的所述各类编辑操作次数t’、a1’、a2’、b1’、b2’、c’:
其中对同一类操作而言:t、a1、a2、b1、b2、c∈n,t’、a1’、a2’、b1’、b2’、c’∈n’
将句法结构距离、单元语义距离的权值归一化以后:
λ+ω1+ω2+γ1+γ2+θ=1
步骤(4.3)按下式计算所述两类不同的短文本间的语义距离β:
β=a1*ω1+a2*ω2+b1*γ1+b2*γ2+c*θ
其中,ω1为插入或删除关键词的操作权值,ω2为插入或删除非关键词的操作权值,γ1为替换关键词的操作权值,γ2为替换非关键词的操作权值,θ为对近义词的替换代价,a1、a2、b1、b2、c为经过归一化后的对应编辑操作次数;
两类不同的短文本T1、T2的语义距离可用下式表示:
Dis(T1,T2)=α+β
附图说明
图1是本发明实现短文本语义距离计算方法及系统的流程图。
图2是语义对齐演示
具体实施方式
句法结构是指文本中词语之间的关系;单元语义是指文本中的最小语义单元,即词语的语义。
本发明包含以下几个步骤:
首先,进行文本预处理操作,进行文本预处理的目的是规范化文本数据格式。对于直接从网络上提取到的在线评论,文本中包含大量的网页标记,并且存在很多变异短文本内容,这些噪音对文本距离计算结果有很大影响。本发明综合常用的数据预处理操作组成文本预处理模块。常用的预处理操作包括去除网页标记、变异短文本处理、文本分词。通过对在线评论文本进行去除网页标记、变异短文本处理操作,对在线评论文本进行规范化处理。利用分词算法,将经过规范化处理的文本转换为词语串。
变异短文本是指用新的符号、口语化词表达常规意义的文本。这种现象在在线评论、实时聊天中尤为明显。变异短文本通常具有以下特点:
1、拼音替换,如:“没有”写为“meiyou”;
2、简繁体交叉出现,如:“解放军”写为“解放軍”;
3、特殊符号,如:用“>_<”来表示一个表情;
4、数字及标点符号使用混乱,如“8...8.”;
其次,对处理后的文本计算语义距离。我们将文本的语义距离分为句法结构距离和单元语义距离两部分,并分别对其进行计算。利用哈工大信息检索研究室的《同义词词林扩展版》作为语义资源,以此来计算词语间的相似度。首先通过语义扩展,对文本进行语义对齐,词语调整次数即为文本间的句法结构距离。在语义对齐的基础上,计算文本间单元语义上的差别,差别程度即为单元语义距离。将两种距离的加权作为文本间的语义距离。
短文本间语义距离是一种短文本间语义差别程度的度量,包括句法结构距离与单元语义距离。一个短文本中包含的信息不仅取决于其所含的词语,也取决于词语之间的句法结构。如“我”“爱”“她”,可以组织为两种不同的意义“我爱她”、“她爱我”。
短文本间的句法结构距离用来度量短文本间在词语结构上的差别程度;短文本间的单元语义距离用来度量短文本间在词语上的差别程度。短文本T1、T2的语义距离可用下式表示:
Dis(T1,T2)=α+β (1)
其中,α为句法结构距离,β为单元语义距离。
1句法结构距离
句法结构距离是一种短文本在句法结构上差别程度的度量。两个文本中的较短文本以较长文本为标准进行语义对齐,使其句法结构与长文本句法达到最大相似性。词语所做调整的次数即为句法结构距离,其大小用α表示。
语义对齐是指通过计算两个短文本任意词语的相似度,根据词语最大相似度进行匹配,调整短句的词语顺序,使其句法结构与长句达到最大相似性。语义对齐的关键问题是词语相似度的计算,本发明的词语相似度是使用哈工大信息检索研究中心语言技术平台中的《同义词词林扩展版》计算得到的。
《同义词词林》是由梅家驹、竺一鸣等利用汉语语料库,统计分类得到的汉语大词表,共收词53859条。《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、小三类。《同义词词林》对词进行三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用两位十进制整数。
哈工大信息检索研究室在《同义词词林》基础上,按照人民日报语料库中词语的出现频度,剔除罕用词和非常用词,并利用多种词语预料资源,完成了《同义词词林扩展版》。《同义词词林扩展版》将词的三级结构扩充为五级结构,第四级用大写英文字母表示,第五级用二位十进制整数表示。由于第五级的分类结果有的行是同义词,有的行是相关词,有的行只有一个词,可以分出具体的三种情况,分别是“=”、“#”、“”,“=”代表“同义”。“#”代表“不等”、“同类”,属于相关词语。“”代表“自我封闭”,它在词典中既没有同义词,也没有相关词。
如语义代码Ba01A02=物质质素;Ba01A03万物
本发明把A、B两词的相似度定义为:
其中P、Q为A、B两词各自的语义集合,a、b为P、Q中任意语义。即A、B词中的最短语义距离为两次的相似度。
语义a、b的相似度为:
Sim(a,b)=n/(N+1) (3)
其中n为a、b之间的语义代码开始不同的级数,N为编码的位数
通过词语相似度计算,组成短文本间词语相似度矩阵,利用最大词语相似度进行语义对齐。使用两个词之间的最大语义相似度作为它们之间的相似度,很好的利用同义词词林结构上的特点,进行同义词扩展,提高了语义对齐计算时的精度,语义对齐过程如图2所示。
语义对齐算法过程如下:
1)计算两个短文本词语间的相似度矩阵
2)选择相似度矩阵中最大的的值,并将行、列对应的词语作为相似度,并将短句的对应词放在长句对应词的对应位置上。词语相似度矩阵中的值置0,并将对应的行、列中的全部元素都置0。
3)重复步骤2,直到矩阵中的所有元素都为0,语义对齐过程结束。
按下式计算两个句子的句法结构距离α:
α=t*λ
其中t为所述词串W1和所述词串W2语义对齐的次数,λ为语义对齐的权值
通过语义对齐操作,得到了两个短文本的句法结构距离。同时短文本的句法结构达到了最大相似性,在此基础上计算文本间单元语义距离。
2单元语义距离
单元语义距离是一种短文本在单元语义上差别程度的度量。具体是指在语义对齐基础上,利用改进编辑距离算法对文本单元语义进行计算,并引入中文关键词概念和不同的操作权值,最后把所有操作权值进行累计作为文本间单元语义距离。其权值用β表示:
β=a1*ω1+a2*ω2+b1*γ1+b2*γ2+c1*θ (4)
其中,ω1为插入或删除关键词的操作权值,ω2为插入或删除非关键词的操作权值,γ1为替换关键词的操作权值,γ2为替换非关键词的操作权值,θ为对近义词的替换代价。a1、a2、b1、b2、c1为经过归一化后的对应编辑操作次数。
经典编辑距离算法多用于文本结构距离的计算,本发明通过对经典算法进行改进,用ω1、ω2、γ1、γ2、θ五种语义操作代替经典编辑距离算法中的三种编辑操作,以此来度量两个文本在单元语义的上的差别程度。
2.1编辑距离
编辑距离指以字为单位,通过“插入”、“删除”和“替换”三种编辑操作,将一个句子变换为另一个句子所需要的最少编辑操作数。从汉语的分析来看,使用以字为单位的计算编辑距离的方法,得到的结果并不理想。
针对编辑距离在汉语上的应用问题,本发明提出了改进编辑距离的计算方式
1)以词语为计算单位。计算编辑距离时,不以字为计算单位,把词语作为基本计算单位
2)词语之间的计算代价并不相同。有的词语相似度较大,如“苹果”“西瓜”,而“苹果”“电脑”的相似度就会较低,它们之间的编辑操作代价不应该相同。以《同义词词林扩展版》作为语义资源,对词语进行同义词扩展。对词义相似的词减小计算代价。而词义相差很大的词增大计算代价
3)对于不同的编辑操作,给予不同的操作权值。根据编辑距离在语言处理上的应用背景,词语替换属于对既有语义的更改;添加是在既有语义的基础上,根据语义对齐结果对语义的补全;删除是在语义对齐的基础上,对多余语义的摒弃。因此不同的编辑操作应该有不同的操作权值。
2.2中文关键词处理
根据语言学的相关知识,句子的语义由关键词(主、谓、宾等)和修饰词(定、状、补等)组成。关键词表达了句子的主要意义,修饰词起了次要的修饰作用。句子中,名词、代词多作为主语,形容词、动词多作为谓语。尽管短文本中的某些名词、代词、动词、形容词不是主语、宾语或谓语成分,但相对于其他词性的词,它们对于短文本语义的贡献度相比于其他的词具有更大的意义。因此为了降低算法的复杂度,我们不对具体语法成分进行分析,将不属于关键因此在处理过程中,本发明将短文本中的全部名词、代词、动词、形容词作为中文关键词,其他词性的词语如数词、量词、副词等作为非关键词。
在利用改进编辑距离进行词义距离计算时,赋予不同的计算权值。例如,句子“我/当然/愿意/了解/她们/的/要求/”的关键词为“我/愿意/了解/她们/要求/”。在此基础上进行语义距离的计算,比一般基于词的方法更加精确。
3权值关系的原则
通过分析改进语义距离的计算公式,我们发现编辑操作权值的选取对文本距离计算结果有很大影响,从而直接影响接下来的聚类性能。为了对权值的值进行更合理的选择,我们结合前人的研究成果以及汉语相关的背景知识,对不同操作权值的选取给出如下原则:
1)语义大于形式,既有词义的语义对齐代价小于插入删除的代价,ω1>λ,ω2>λ
2)关键词的操作大于非关键词,ω1>ω2,γ1>γ2
3)近义词的操作代价小于非近义词的代价,λ>θ,ω1>θ,ω2>θ,γ1>θ,γ2>θ
4)将句法结构距离、单元语义距离的权值归一化处理,λ+ω1+ω2+γ1+γ2+θ=1
与现有技术相比具有以下优点:
文本距离计算更合理。将文本的信息看作词语信息和结构信息的总和。通过度量文本在句法结构信息和单元语义信息上的差别,分别得到句法结构距离和单元语义距离,通过加权计算得到文本的语义距离。
下面结合具体操作步骤对本发明做进一步的说明:
实验数据为从网络获得的在线评论短文本,其中一类为新浪微博(http://weibo.com)中关于网易邮箱的微博信息,另一类为战网游戏论坛魔兽世界版块
(http://www.battlenet.com.cn/wow/zh/forum/)中关于魔兽世界的评论。分别选择两类各210条文本,共420条短文本。
对这420条在线评论原始数据,首先进行步骤1预处理操作。本发明利用文本预处理模块对在线评论文本进行预处理,文本预处理模块包括3个处理步骤:
步骤1.1去除网页标记。由于在线评论原始数据中存在大量的html标记,需要首先将html标记去掉。将文本中的html标记如<html>、<body>、<div>等html标记去掉,提取出html页面中的评论内容。
步骤1.2变异短文本处理。将步骤1.1得到的在线评论文本进行变异短文本处理。将评论中的变异短文本进行清洗,如去掉“meiyong”、“orz”、“>_<”这样的文本内容。
步骤1.3利用分词算法对经过变异短文本处理的文本进行分词,将文本转化为词串。常用的分词算法有MMSEG4、ICTCLAS、盘古分词等方法,本发明采用ICTCLAS分词算法进行分词处理。利用ICTCLAS的分词接口,将文本输入到分词模块中,返回结果为文本的词串。如将网易邮箱类评论“求助账号问题”和魔兽世界类评论“战友招募奖励问题”分别转换为“求助/v账号/n问题/n”和“战友/n招募/v奖励/n问题/n”。
步骤2在分词的基础上,利用文本距离计算模块计算文本间的语义距离。分别计算文本间句法结构距离和单元语义距离,并根据公式(1)加权计算文本的语义距离。
步骤2.1计算文本间句法结构距离。对于两个文本的词串W1“求助/v账号/n问题/n”和词串W2“战友/n招募/v奖励/n问题/n”:
步骤2.1.1首先计算W1、W2的词语相似度矩阵。根据《同义词词林扩展版》以及公式(2)中词语相似度的计算公式,计算W1、W2所有词语之间的相似度,组成相似度矩阵。如表1所示:
表1词语相似度矩阵
步骤2.1.2根据词语相似度矩阵对W1、W2进行语义对齐。由于len(W1)<len(W2),因此将W2作为标准,由W1根据W2进行语义对齐。
语义对齐算法过程如下:
1)选择词语相似度矩阵中相似度最大的元素,并将该元素对应的两个词语对作为相似对。
2)将W1的对应词放在W2对应词的对应位置上,并将词语相似度矩阵中该元素对应词语的行、列全部置0。
3)重复步骤1,直到矩阵中的所有元素都为0,语义对齐过程结束。
步骤2.1.3根据语义对齐结果,计算W1、W2的句法结构距离。图2为W1、W2语义对齐的结果,W1由“求助/v账号/n问题/n”调整为W1'“账号/n求助/v问题/n”。比较W1、W1'对应位置上的词语,得到词语的语义操作次数t=2。
通过语义对齐过程,得到了两个短文本的句法结构距离α。同时短文本的句法结构达到了最大相似性,在此基础上计算文本间单元语义距离。
步骤2.2在文本语义对齐的基础上,计算文本的单元语义距离。根据公式(4)计算W1'、W2的单元语义距离:
W1 | 求助/v | 账号/n | 问题/n | |
W1' | 账号/n | 求助/v | 问题/n | |
W2 | 战友/n | 招募/v | 奖励/n | 问题/n |
语义操作 | γ1 | γ1 | ω1 | 不变 |
五种语义操作ω1、ω2、γ1、γ2、θ对应的操作次数分别为a1=1、a2=0、b1=2、b2=0、c=0。
步骤2.3对计算结果进行归一化。为了平衡句法结构距离与单元语义距离对计算结果的影响,对句法结构距离和五种语义操作次数进行归一化处理。利用归一化公式将数值缩小到[0,1]的范围内:
通过对420条文本中任意两条文本距离计算结果的统计,得到了不同操作次数的最大最小值。其中max(t)=41,min(t)=0;max(a1)=17,min(a1)=0;max(a2)=23,min(a2)=0;max(b1)=24,min(b1)=0;max(b2)=29,min(b2)=0;max(c)=3,min(c)=0;
根据公式(5),将t、a1、a2、b1、b2、c分别进行归一化操作得到t’=0.0488、a1’=0.0588、a2’=0、b1’=0.0833、b2’=0、c’=0。
计算文本间语义距离根据语义操作权值选择准则,本发明给出了一组实验值,分别是λ=0.045、ω1=0.27、ω2=0.045、γ1=0.54、γ2=0.09、θ=0.01。计算W1、W2的句法结构距离α=0.045*0.0488=0.002196,单元语义距离β=0.27*0.0588+0.54*0.0833=0.060858。根据公式(1)计算W1、W2的语义距离Dis(W1,W2)=0.002196+0.060858=0.063854。
最后,为了检验本发明的方法相对于传统方法有所改进,本发明进行了如下实验。
实验数据为从网络获得的在线评论短文本,其中一类为新浪微博(http://weibo.com)中关于网易邮箱的微博信息,另一类为战网游戏论坛魔兽世界版块(http://www.battlenet.com.cn/wow/zh/forum/)中关于魔兽世界的评论。分别选择两类各210条文本,共420条短文本,进行十折交叉实验。
本发明首先利用经典编辑距离算法计算文本间的编辑距离dis’1(s1,s2),任意文本间的文本距离组成距离矩阵DisMatrix1;再用步骤2计算文本间的语义距离dis2(s1,s2),任意文本间的文本距离组成距离矩阵DisMatrix2。将两个矩阵分别利用传统聚类算法进行聚类,传统的聚类算法有层次化聚类、K均值聚类、Affinity Propagation聚类等,本发明选择AffinityPropagation算法对距离矩阵进行聚类分析。
由于实验数据分别来自于邮箱、游戏两个类别,因此为Affinity Propagation算法设定目标类数为2,即在聚类过程中将样本聚为两类的时候,算法自动结束,并返回聚类结果。
为了对实验结果进行比较,本发明采用相对正确率(relative accuracy rate)来比较实验的聚类性能。
Ra=(n1+n2)/N (6)
其中,n1为第1类文本中相同主题聚在一起的数目,n2为第2类文本中相同主题聚在一起的数目,N为实验的全部短文本数目。
利用两种算法,对10组数据集进行计算,分别得到相应的距离矩阵。利用AffinityPropagation算法对距离矩阵进行聚类分析,得到性能结果。因此来比较两种文本距离计算方法的有效性。
表2为利用两种文本距离计算法方法处理实验数据得到的相对正确率。图3为相对正确率的图形表示。表2相对正确率(%)
编辑距离算法 | 语义距离算法 | |
Dataset1 | 71.63 | 73.75 |
Dataset2 | 70.16 | 77.84 |
Dataset3 | 73.22 | 79.84 |
Dataset4 | 71.49 | 77.31 |
Dataset5 | 66.54 | 80.37 |
Dataset6 | 74.66 | 77.57 |
Dataset7 | 71.37 | 77.72 |
Dataset8 | 67.40 | 78.1 |
Dataset9 | 73.22 | 74.02 |
Dataset10 | 71.75 | 70.96 |
实验结果表明,利用语义距离算法计算文本距离的效果相比于传统方法有明显改进。
Claims (1)
1.一种短文本间语义距离的计算机辅助计算方法,其特征在于,是在计算机中依次按以下步骤实现的:
步骤(1)计算机初始化
设置:ICTCLAS分词算法模块和文本距离计算模块
基于《同义词词林扩展版》的汉语语料库
输入:以句子形式表述的两类不同的短文本,所述短文本是指包括短信、微博、论坛评论和新闻评论在内的应用文本中以句子形式出现的在线评论文本的原始数据;
步骤(2)文本预处理
对步骤(1)中的两类不同的短文本按以下步骤进行预处理,以规范文本数据格式:
步骤(2.1)去除包括<html>、<body>、<div>在内的html网页标记,提取出html页面中的评论内容数据;
步骤(2.2)对步骤(2.1)得到的评论内容数据进行变异短文本处理:
所述变异短文本是指用新的符号、口语化词表达常规词义的文本,
所述变异短文本处理是指对所述变异短文本中的词语的拼音、简写体、数字及标点符号进行统一规范化处理以及删除特殊符号,
步骤(2.3)利用所述ICTCLAS分词算法对经过步骤(2.2)得到的文本进行分词处理,得到一系列的文本的词串;
步骤(3)利用所述文本距离计算模块分别计算两类不同的短文本间的句法结构距离和单元语义距离,
步骤(3.1)按以下步骤计算所述两类不同的短文本间的句法结构距离,以度量短文本间在句法结构上的差别程度:
步骤(3.1.1)计算位于所述两类不同短文本中的词串W1和词串W2的词语相似度矩阵:
将两类不同的短文本中的较短文本以较长文本为标准进行语义对齐,所述语义对齐是指通过计算两类不同的短文本中任意词语间的相似度:以所述《同义词词林扩展版》中各个以五级结构表达的词语的8位语义代码为基础,计算两类不同的短文本中任意两个词语的相似度:Sim(A,B),A、B分别表示任意的两个词语:
P为A词语的语义集合,Q为B词语的语义集合;a为语义集合P中的任意语义,b为语义集合B中的任意语义,a∈P,b∈Q,
Sim(a,b)=n/(N+1)
n为a、b之间的语义代码开始不同的级数,N为编码的位数,
从而得到两类不同的短文本的词语相似度矩阵:矩阵的行为所述词串W1中的每个词语, 列为所述词串W2中的每个词语,矩阵的元素为所得到的词语相似度Sim(A,B),
步骤(3.1.2)设:所述词串W1的长度小于所述词串W2的长度,len(W1)<len(W2),则以所述较长词串W2为标准,根据步骤(3.1.1)得到的词语相似度矩阵,进行语义对齐,其步骤如下:
步骤(3.1.2.1)选择所述词语相似度矩阵中词语相似度最大值,其所对应的两个词语作为相似对,
步骤(3.1.2.2)把步骤(3.1.2.1)中所述词串W1所对应的词语放在所述词串W2对应的词语的位置上,在所述相似度矩阵中的对应词语的行、列的元素值全部置零,
步骤(3.1.2.3)重复步骤(3.1.2.1)和步骤(3.1.2.2),直到所述词语相似度矩阵中所有元素为零,所述词串W1经过语义对齐,词语顺序调整为W1’,比较词串W1、W1’的词语,计算所述词串W1和所述词串W2的句法结构距离α:
α=t*λ
其中t为所述词串W1和所述词串W2语义对齐的次数,λ为语义对齐的权值
步骤(3.2)在步骤(3.1)语义对齐的基础上,按下式计算两类不同的短文本间的单元语义距离,所述单元语义距离是指任意两个短文本在单元语义上的差别程度,其步骤如下:
步骤(3.2.1)设定以下五种编辑操作的权值:
ω1为插入或删除关键词的操作权值,
ω2为插入或删除非关键词的操作权值,
γ1为替换关键词的操作权值,
γ2为替换非关键词的操作权值,
θ为对近义词的替换代价,
所述关键词是指短文本中的全部名词、代词、动词和形容词,
所述非关键词是指除名词、代词、动词和形容词以外,包括数词、量词、副词在内的其他词性的词语,
在λ、ω1、ω2、γ1、γ2、θ间的相互关系中,设定:
语义对齐的代价小于插入或删除的代价,表示为:ω1>λ
关键词操作的代价大于非关键词操作的代价,表示为:ω1>ω2,γ1>γ2
近义词的操作代价小于非近义词的操作代价,表示为:λ>θ,ω1>θ,ω2>θ,γ1>θ,γ2>θ,
所述近义词是根据所述《同义词词林扩展版》对词语进行同义词扩展而得到的词语,
步骤(4)对步骤(3)得到的句法结构距离和单元语义距离进行归一化,步骤如下:
步骤(4.1)通过对两类不同的短文本间的任意两个词串的句法结构距离、单元语义距离 的操作次数进行统计,得到了以下不同编辑操作次数的最大值和最小值:max(t),min(t);max(a1),min(a1);max(a2),min(a2);max(b1),min(b1);max(b2),min(b2);max(c),min(c);
步骤(4.2)按下式对所述t、a1、a2、b1、b2、c各类编辑操作次数分别进行归一化操作,得到归一化以后的所述各类编辑操作次数t’、a1’、a2’、b1’、b2’、c’:
其中对同一类操作而言:t、a1、a2、b1、b2、c∈n,t’、a1’、a2’、b1’、b2’、c’∈n’
将句法结构距离、单元语义距离的权值归一化以后:
λ+ω1+ω2+γ1+γ2+θ=1
步骤(4.3)按下式计算所述两类不同的短文本间的语义距离β:
β=a1*ω1+a2*ω2+b1*γ1+b2*γ2+c*θ
其中,ω1为插入或删除关键词的操作权值,ω2为插入或删除非关键词的操作权值,γ1为替换关键词的操作权值,γ2为替换非关键词的操作权值,θ为对近义词的替换代价,a1、a2、b1、b2、c为经过归一化后的对应编辑操作次数;
两类不同的短文本T1、T2的语义距离可用下式表示:
Dis(T1,T2)=α+β。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210045699.4A CN102622338B (zh) | 2012-02-24 | 2012-02-24 | 一种短文本间语义距离的计算机辅助计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210045699.4A CN102622338B (zh) | 2012-02-24 | 2012-02-24 | 一种短文本间语义距离的计算机辅助计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102622338A CN102622338A (zh) | 2012-08-01 |
CN102622338B true CN102622338B (zh) | 2014-02-26 |
Family
ID=46562261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210045699.4A Active CN102622338B (zh) | 2012-02-24 | 2012-02-24 | 一种短文本间语义距离的计算机辅助计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102622338B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678355B (zh) * | 2012-09-11 | 2017-03-01 | 富士通株式会社 | 文本挖掘方法和文本挖掘装置 |
CN104424279B (zh) * | 2013-08-30 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
CN103605692A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 用于问答社区中屏蔽广告内容的装置和方法 |
CN103823838B (zh) * | 2013-12-18 | 2018-07-20 | 国网江苏省电力有限公司常州供电分公司 | 一种多格式文档录入并比对的方法 |
CN103729421B (zh) * | 2013-12-23 | 2018-03-16 | 语联网(武汉)信息技术有限公司 | 一种译员文档精确匹配的方法 |
CN104102626B (zh) * | 2014-07-07 | 2017-08-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN104699667A (zh) * | 2015-02-15 | 2015-06-10 | 深圳市前海安测信息技术有限公司 | 改进的基于语义词典的词语相似度计算方法和装置 |
CN105335351B (zh) * | 2015-10-27 | 2018-08-28 | 北京信息科技大学 | 一种基于专利搜索日志用户行为的同义词自动挖掘方法 |
CN105446957B (zh) * | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
CN107665222B (zh) * | 2016-07-29 | 2020-11-06 | 北京国双科技有限公司 | 关键词的拓展方法和装置 |
CN106874258B (zh) * | 2017-02-16 | 2020-04-07 | 西南石油大学 | 一种基于汉字属性向量表示的文本相似性计算方法及系统 |
CN107832288B (zh) * | 2017-09-27 | 2020-06-16 | 中国科学院自动化研究所 | 中文词语语义相似度的度量方法及装置 |
CN109657210B (zh) * | 2018-11-13 | 2023-10-10 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
CN110110744A (zh) * | 2019-03-27 | 2019-08-09 | 平安国际智慧城市科技股份有限公司 | 基于语义理解的文本配对方法、装置及计算机设备 |
CN110414004B (zh) * | 2019-07-31 | 2022-11-18 | 创新先进技术有限公司 | 一种核心信息提取的方法和系统 |
CN111737460A (zh) * | 2020-05-28 | 2020-10-02 | 思派健康产业投资有限公司 | 一种基于聚类算法的无监督学习多点匹配方法 |
CN112131341A (zh) * | 2020-08-24 | 2020-12-25 | 博锐尚格科技股份有限公司 | 文本相似度计算方法、装置、电子设备和存储介质 |
CN112560497B (zh) * | 2020-12-10 | 2024-02-13 | 中国科学技术大学 | 语义理解方法、装置、电子设备和存储介质 |
CN113779978B (zh) * | 2021-09-26 | 2024-05-24 | 上海一者信息科技有限公司 | 一种无监督跨语言句对齐实现方法 |
CN114238619B (zh) * | 2022-02-23 | 2022-04-29 | 成都数联云算科技有限公司 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
CN115828924B (zh) * | 2022-11-21 | 2023-07-25 | 武汉工商学院 | 自然语言语义理解方法及装置 |
CN116013278B (zh) * | 2023-01-06 | 2023-08-08 | 杭州健海科技有限公司 | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1668541A1 (en) * | 2003-09-30 | 2006-06-14 | British Telecommunications Public Limited Company | Information retrieval |
CN101079026B (zh) * | 2007-07-02 | 2011-01-26 | 蒙圣光 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN101477563B (zh) * | 2009-01-21 | 2010-11-10 | 北京百问百答网络技术有限公司 | 一种短文本聚类的方法、系统及其数据处理装置 |
CN102184169B (zh) * | 2011-04-20 | 2013-06-19 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
-
2012
- 2012-02-24 CN CN201210045699.4A patent/CN102622338B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102622338A (zh) | 2012-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102622338B (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
US10255272B2 (en) | Adjustment of document relationship graphs | |
Rousseau et al. | Main core retention on graph-of-words for single-document keyword extraction | |
Wu et al. | Towards building a high-quality microblog-specific Chinese sentiment lexicon | |
Kumar et al. | Mastering text mining with R | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP5379138B2 (ja) | 領域辞書の作成 | |
Saloot et al. | An architecture for Malay Tweet normalization | |
Boros et al. | Assessing the impact of OCR noise on multilingual event detection over digitised documents | |
Bayot et al. | Age and gender classification of tweets using convolutional neural networks | |
Awajan | Semantic similarity based approach for reducing Arabic texts dimensionality | |
Murshed et al. | Enhancing big social media data quality for use in short-text topic modeling | |
Liu et al. | Extract Product Features in Chinese Web for Opinion Mining. | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Nasim et al. | Evaluation of clustering techniques on Urdu News head-lines: A case of short length text | |
CN102622405B (zh) | 基于语言实义单元数估计的短文本间文本距离的计算方法 | |
Deshmukh et al. | Sentiment analysis of Marathi language | |
Rajan et al. | Survey of nlp resources in low-resource languages nepali, sindhi and konkani | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
Rubtsova | Automatic term extraction for sentiment classification of dynamically updated text collections into three classes | |
Pandian et al. | Author identification of Hindi poetry | |
Ansari et al. | Feature selection on noisy twitter short text messages for language identification | |
JP6871642B2 (ja) | 辞書構築装置、マップ作成装置、検索装置、辞書構築方法、マップ作成方法、検索方法、およびプログラム | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
Taslioglu et al. | Irony detection on microposts with limited set of features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |