CN104317783B

CN104317783B - 一种语义关系密切度的计算方法

Info

Publication number: CN104317783B
Application number: CN201410472805.6A
Authority: CN
Inventors: 张辉; 陈勇; 刘瑞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2017-09-05
Anticipated expiration: 2034-09-16
Also published as: CN104317783A

Abstract

本发明公开了一种语义关系密切度的计算方法，包括如下步骤：S1，对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词；S2，将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值；S3，根据两个词语之间的平均权值，计算语义关系密切度。本发明充分考虑了两个词语间的距离以及其上下文关系，提高了词语相关性判断的准确性。

Description

一种语义关系密切度的计算方法

技术领域

本发明涉及一种语义关系密切度的计算方法，尤其涉及一种用于量化计算词语之间语义关系密切度的方法，属于自然语言处理技术领域。

背景技术

互联网的高速发展将人类带入了信息大爆炸的社会。面对互联网的海量信息，人们常常应用搜索引擎来获取和定位有效信息。当前广泛使用的商业搜索引擎大多采用基于关键词匹配及布尔运算相结合的信息检索模型，检索关键词成为用户与检索系统间最重要的沟通渠道。但是，仅匹配用户输入的少量关键词并不能得到令人满意的检索结果。

为得到更好的检索结果，查询扩展(query expansion，简称QE)的策略被广泛采用。QE的基本思想是通过对关键词语义、逻辑等方面的再扩展以得到关键词扩展集合，通过检索扩展集合得到更多的检索结果，以提高系统的查全率。然而，QE在带来更优查全率的同时，也带来了如同义词问题(synonyms)、歧义问题(polysemy)等诸多损害检索查准率及关注度的问题。因此，如何获得词语间更好的语义关系，使得在扩展查询的同时保证检索准确度已成为当前信息检索领域的重要课题。

近年来，词语间语义关系的研究主要分为基于知识和基于统计两个方向：前者是利用构建好的知识库，通过知识库约定的概念关系计算词语间的语义相似度，如中文语义知识库知网HowNet、同义词词林、英文的WordNet等；后者是通过对大规模语料库的统计分析，将词语上下文信息的概率分布作为词语间语义关系的计算参照。

基于构建概念间语义关系知识库的实现方法是通过人工手段把词语组织成为词汇层次，构造以一定的语义知识为基础的知识库，该方法简单、直观，但缺点也非常明显。首先，基于构建概念间语义关系知识库的构造过程是一项规模浩大的系统工程。其次，知识库的构建容易受到人的主观意识影响，处理海量信息时也无法穷尽所有的语义关系，特别是难以有效涵盖特殊领域和新兴领域的专有词汇。于是，基于大规模语料库统计，将词语上下文信息的概率分布作为词语间语义关系的计算参照，从而得到词语之间的关系密切程度的方法越来越受到人们的青睐，它能够对词语间语义关系进行比较精确和有效的度量。但是如何有效地获取词语间的语义关系，并没有得到很好地解决。

发明内容

本发明所要解决的技术问题在于提供一种语义关系密切度的计算方法。

为实现上述的发明目的，本发明采用下述的技术方案：

一种语义关系密切度的计算方法，包括如下步骤：

S1，对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词；

S2，将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值；

S3，根据两个词语之间的平均权值，计算语义关系密切度。

其中较优地，文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距离。

其中较优地，在S2中，所述共现频度权值通过公式CoCount(K,W)＝e^{-μ*wdd(dis，flag)}求得；

其中，K是特征词，W是目标词，e为自然常数，μ为正常数，用于调节曲线的平滑度，wdd(dis，flag)表示两个词语之间的距离权值函数；

其中，dis表示K和W之间相距离的词数；flag表示词语K和W之间因段落及标点符号形成的惩罚值之和。

其中较优地，所述两个词语之间的距离权值函数wdd(dis，flag)通过公式求得；

其中，left，right是特征词的作用范围，L是调节权值递减速度的参数。

其中较优地，在S2中，根据词语间所述标点符号的不同设置不同的惩罚值。

其中较优地，在S3中，所述两个词语之间的语义关系密切度值，通过公式求得；

其中，Count(K)为在文档集合中出现特征词K的次数，left为限定共现词的左边作用范围；right为限定共现词的右边作用范围。

本发明提供的语义关系密切度计算方法，通过将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值，充分考虑了两个词语间的距离以及其上下文关系，根据两个词语之间的平均权值，计算语义关系密切度，规避掉概率分布可能出现的特殊情况，能够有效地判断词语之间的相关性，提高了词语相关性判断的准确性。

附图说明

图1为本发明所提供的语义关系密切度计算方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。

如图1所示，本发明提供一种语义关系密切度计算方法，包括如下步骤：对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词；将过滤后的词集根据在元数据文本中的位置信息进行加权处理；最后计算两两特征词之间的语义关系密切度SRC(Semantic Relational Closeness)值。下面对这一过程做详细具体的说明。

S1，对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词。

为了减小计算复杂度，在计算词语间的词语关系密切度SRC时，需要在文本中预先提取若干能够充分代表文本语义的词语即特征词。

在文本中，名词一般都有明确的含义，因此特征词通常选择名词，而其他词性词语，如动词、形容词、副词等在文本中只起到“黏合剂”和“润色”的作用，其含义往往不明确，所以在本发明所提供的语义关系密切度的计算方法中，选择名词作为特征词(包括复合词性名词)。在本发明所提供的实施例中，使用分词器完成文本中词语的过滤，将动词，形容词等去掉，只留下名词。然后，对没有明确含义的常见名词制作一个词语过滤表，根据词语过滤表将文本中无实意的常见名词去掉。

S2，将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值。

在基于统计语言模型中词语上下文信息的概率分布来得到词语之间的关系密切程度的方法中，采用共现词分析方法，实现词语的加权处理。根据互信息理论，如果两个词语在同一篇文档中共同出现，则这两个词语是相关的。两个词语在越多的文档中同时出现，这两个词语是相关词的可能性就越大。当两个词语在大量文档中同时出现且距离在一定范围内时，即可定义它们互为共现词。

设有两个词语w₁和w₂，它们之间的关系可以用两个权值进行描述，即w₂对于w₁的权重和w₁对于w₂的权重，根据词语间关系将这两个权值分别理解为当w₁出现时w₂出现的概率P(w₂|w₁)和w₂出现时w₁出现的概率P(w₁|w₂)。由于二者的计算方法相同，在本发明所提供的实施例中，只描述P(w₂|w₁)的求解过程。

在计算过程中，用于计算统计语言模型中词语上下文信息的概率分布的语料训练库文本称为训练数据(training data)。根据训练数据计算P(w₂|w₁)这类概率分布的过程称为训练。使用这种方法时，P(w₂|w₁)的计算公式为：

其中，count(w₁)为在语料训练库中出现词语的文本数量，count(w₁&w₂)为词语w₁和w₂共同出现的文本数量。上式中的P(w₂|w₁)称为w₂对于w₁的条件概率，即词语w₁出现时，词语w₂出现的概率。

共现词分析法是基于统计手段的分析方法，被分析的文本集合规模越大，计算结果的正确性就越高。共现词分析依据词语间的共现关系对词语之间、文本内容之间的语义关联关系进行定量分析，其分析原理简洁且结果可靠。

词语吸引与排斥模型LAR Model(Lexical Attraction and Repulsion Model)是基于共现词吸引和排斥现象建立起来的共现分析模型。共现词语的关系密切程度大小，主要受二者之间相隔词距离的影响。这种语言现象表现为共现的两个词在文本中同时出现的概率随着两者间距离的增加呈指数下降，这就是词汇“吸引”现象；当两个词的距离小于一定值时，共现的概率将随着两者间距离的减小呈指数下降，这就是词汇“排斥”现象。

LAR模型描述了词语共现的三个主要特征：

1)假设词语(T1，T2)是在同一个文本中出现的词对，T1与T2的距离为k个词，那么T1和T2互为共现词的概率将随着k的增加而呈指数下降，这个性质可以用如下单参数指数函数表示：P_μ(k)＝μe^-μk。

其中，P_μ(k)为词语T1和T2互为共现词的概率，e为自然常数，μ为正常数，用于调节曲线的平滑度。

2)当k等于某个阈值时，T1、T2是共现词的概率达到最大值；当k小于该阈值时，T1、T2为共现词的概率随着k的减小而指数下降；当k大于阈值时，T1是T2共现词的概率随着k的增加而指数下降，这个性质可以用如下带有两个参数的指数函数表示：

其中μ₁是k小于阈值时的下降参数，μ₂是k大于阈值时的下降参数。

3)当k足够大时，T1、T2为共现词的概率将趋于一个常量。

LAR Model是目前常用的共现词发现方法。对于不同的两个词语，距离越近则组成共现词的概率越高；而对于一篇文档而言，LAR模型的排斥效果会阻止相隔太近的两个相同词语组成共现词对。因此为了有效地找出用户关注度高的共现词语，需要对共现词之间的距离范围做一个限定。英文中，关键词前后5个词的范围可获得95％的词语搭配信息；中文关键词信息范围一般设定为关键词的左8个词、右9个词。在本发明所提供的实施例中，限定共现词的作用范围为左8个词、右9个词。

LAR模型的排斥原理充分考虑到了文章体裁和句法等因素，提出相关词间距小于某一间隔时，共现的概率会随距离缩短而呈指数下降。在本发明所提供的语义关系密切度的计算方法中，对文本进行分词后，进行了词语过滤，将常见名词及许多无具体意义的非名词过滤掉，排除了文章体裁和句法对相关词起到的排斥作用。因此，在本发明所提供的语义关系密切度的计算方法中，参考LAR模型的吸引原理。

在LAR模型的吸引原理中，采用公式：P_μ(k)＝μe^-μk计算词语T1和T2互为共现词的概率，由于在公式中仅考虑了两个词语间的距离，并未考虑其上下文关系，无法准确的衡量词语的相关性。为此，在本发明所提供的实施例中，对词语的上下文位置及词语间的分隔符(如句号、逗号等)进行了定量设计，为不同的分隔符设置不容的距离惩罚，将其存储在数据库中，当两个词语之间存在分隔符时，根据数据库中存储的分隔符类型与距离惩罚的对应关系，获取对应的惩罚值。在本发明所提供的实施例中，由于中文的冒号、引号等标点符号表示上下文的递进关系，当这些符号出现时，表明词语之间的相关性较大，其对应的惩罚值相应降低；但是，当特征词与目标词之间除冒号或上引号之外还有其它符号出现时，冒号与引号不再产生递进关系，当出现此类情况时，对冒号与引号按照逗号的权值进行处理，其对应的惩罚值相应提高。当两个词语之间存在分隔符时，设置一定的距离惩罚，能适时地调节词语间的相关性，提高了词语相关性判定的准确性。

在计算共现词语的共现频度权值CoCount(Co-occurrence Count)时，充分考虑词语的上下文位置及词语间的分隔符，采用公式CoCount(K,W)＝e^{-μ*wdd(dis，flag)}对其进行计算。

其中K表示特征词，W表示目标词，即W为K的共现词；wdd(dis，flag)表示二词之间的距离权值函数，其中dis(distance)表示K和W之间相距的词数，flag表示K和W之间因段落及标点符号形成的惩罚值之和。距离权值函数wdd(dis，flag)将过滤后的词集根据在文本中的位置信息进行加权处理，用公式表示如下：

其中left、right是特征词的作用范围，L是调节权值递减速度的参数。在本发明所提供的实施例中，文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距离。能充分考虑词语之间的关系，适时地调节词语间的相关性。

S3，根据两个词语之间的平均权值，计算语义关系密切度。在本发明所提供的实施例中，在特征词K出现的窗口范围内，目标词W的每次出现都需要计算其距离内的共现频度权值，将其每次的共现频度权值进行加和计算，得到目标词W对特征词K的共现总权值。将此总权值除以特征词的窗口范围，得到目标词W出现的平均权值。至此，可得特征词K与目标词W之间的语义关系密切度SRC计算公式为：表示在特征词K出现时，目标词W同时出现的概率。

其中，Count(K)为在文档集合中出现特征词K的次数。根据限定共现词的作用范围为左8个词、右9个词，left设为8，right设为9，两者之和为共现词的窗口范围大小。

综上所述，本发明所提供的语义关系密切度计算方法，通过对文档进行分词处理，将文档中的名词与非名词进行分离，将分离后的非名词以及无实意的常用名词过滤掉，排除了文章体裁和句法对相关词起到的排斥作用，降低了语义关系密切度计算的复杂度，将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值，充分考虑了两个词语间的距离以及其上下文关系，提高了词语相关性判断的准确性。最后根据两个词语之间的平均权值，计算语义关系密切度，规避掉概率分布可能出现的特殊情况，进一步提高了词语相关性判断的准确性。能够有效地判断词语之间的相关性，准确地计算出词语间语义关系密切度。

以上对本发明所提供的语义关系密切度计算方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种语义关系密切度的计算方法，其特征在于包括如下步骤：

S3，根据两个词语之间的平均权值，计算两个词语之间的语义关系密切度；所述两个词语之间的语义关系密切度值，通过公式求得；

其中，Count(K)为在文档集合中出现特征词K的次数，left为限定共现词的左边作用范围；right为限定共现词的右边作用范围；CoCount(K，W)为特征词K和目标词W的共现频度权值。

2.如权利要求1所述的语义关系密切度的计算方法，其特征在于：

文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距离。

3.如权利要求1所述的语义关系密切度的计算方法，其特征在于：

在S2中，所述共现频度权值通过公式CoCount(K,W)＝e^{-μ*wdd(dis，flag)}求得；

其中，K是特征词，W是目标词，e为自然常数，μ为正常数，用于调节曲线的平滑度，wdd(dis,flag)表示两个词语之间的距离权值函数；

4.如权利要求3所述的语义关系密切度的计算方法，其特征在于：

所述两个词语之间的距离权值函数wdd(dis,flag)通过公式求得；

其中，left,right是特征词的作用范围，L是调节权值递减速度的参数。

5.如权利要求1或3所述的语义关系密切度的计算方法，其特征在于：

在S2中，根据词语间标点符号的不同设置不同的惩罚值。