CN104881400A

CN104881400A - 基于联想网络的语义相关性计算方法

Info

Publication number: CN104881400A
Application number: CN201510256490.6A
Authority: CN
Inventors: 朱其立; 张可阳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-05-19
Filing date: 2015-05-19
Publication date: 2015-09-02
Anticipated expiration: 2035-05-19
Also published as: CN104881400B

Abstract

本发明提供了一种基于联想网络的语义相关性计算方法，包括步骤：步骤1，共现词频统计步骤，步骤2，网络构建及参数学习步骤，步骤3，语义相关性计算步骤。本发明通过引入自由联想方法所收集的数据模拟人脑对于词对的联想概率度量，提高语义相关性计算准确性，并通过引入维基百科词对共现频率数据，保证了联想网络的大规模和非稀疏两个重要特性，从而实现任意词对和句对之间的语义相关性计算，而且通过基于中间结点计算间接联想概率和扩充词袋，进一步提高语义相关性计算准确性。

Description

基于联想网络的语义相关性计算方法

技术领域

本发明涉及自然语言处理，具体地，涉及基于联想网络的语义相关性计算方法。

背景技术

经检索，发现如下相关文献：

相关检索结果3：

申请(专利)号：201210037968.2，名称：一种基于维基百科度量概念之间语义相关度的方法

该专利文献提出了一种能用维基百科中的类别来表示概念之间的语义关系的基于维基百科度量概念之间语义相关度的方法，包括离线步骤和在线步骤：在离线步骤中，从维基百科的原始数据中利用锚文本链接生成概念之间的初始关系和概念与类别之间的初始关系。

技术要点比较：

1.该发明从维基百科中提取概念和概念之前通过锚文本链接得到的链接关系作为算法的基础统计信息资源；而本发明共利用五种不同的词对共现关系作为基础统计信息资源，其中“普通页面标题与正文内超链接词语的共现”一项资源本质上等价于该发明所用的“锚文本链接”资源，因此本发明所用的统计资源更为丰富。

2.该发明在计算语义相关性的过程中没有利用任何人脑心理现象有关的数据；而发明基于“自由联想”心理现象捕捉人脑对于语义相关性的度量方法，并模拟人脑“自由联想”心理现象构建联想网络，基于已构建的联想网络设计算法计算词对或句对之间的语义相关性。语义相关性的计算准确与否最终是按照人脑的衡量为标准的，因此本发明可以更有效地捕捉人脑对于语义相关性的理解和度量并实现更为准确的计算。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于联想网络的语义相关性计算方法。本发明要解决的技术问题体现在以下几点：

1)利用维基百科丰富的、半结构化的文本资源统计词对共现频率。

2)基于“自由联想”心理现象捕捉人脑对于语义相关性的度量方法。

3)模拟人脑“自由联想”心理现象构建联想网络，并基于已构建的联想网络设计算法计算词对或句对之间的语义相关性。

根据本发明提供的一种基于联想网络的语义相关性计算方法，包括如下步骤：

步骤1，共现词频统计步骤

步骤1.1：解析维基百科数据库转储文件，对多种不同的词对共现方式统计词对共现频率，并统计词对中单个词的出现频率；

步骤1.2：根据所述词对共现频率和词对中单个词的出现频率，对每种词对共现方式计算词对之间的联想概率；

步骤2，网络构建及参数学习步骤

构建有向加权图联想网络：在有向加权图联想网络中，每个词语作为一个结点，两个结点间存在双向边的条件是：当且仅当这两个结点所对应的两个词语之间在所述多种不同的词对共现方式中至少一种词对共现方式下的共现频率不为零；边上所带的权重用于度量人脑由出边一词联想到入边一词的概率，所述权重通过参数学习得到；

其中，所述参数学习采用线性回归机器学习算法，具体为：以自由联想方法所收集的词语数据计算自由联想的条件概率，并将自由联想的条件概率作为参数学习训练数据的标注真值，以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征，学习得到权重，从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率。

步骤3，语义相关性计算步骤

利用词对之间的联想概率、有向加权图联想网络，计算词对或句对之间的语义相关性。

优选地，在步骤1中，对五种不同的词对共现方式统计词对共现频率，其中，这五种词对共现方式为：

-普通页面正文句内两词的共现；

-普通页面标题与正文内超链接词语的共现；

-普通页面标题与定义段内非超链接词语的共现；

-普通页面标题与非定义段内非超链接词语的共现；

-类别页面中类别词的共现；

其中，所述普通页面是指词语条目所对应的页面，类别页面是指预设的词语分类所对应的页面。

优选地，步骤1.2包括如下步骤：

对于词对(u,v)，利用如下公式度量联想难易程度r_τ(u,v)：

r_{τ} (u, v) = \frac{p_{τ} (u, v)}{p_{τ} {(v)}^{α} p_{τ} (u)}

其中：p_τ(u,v)正比于词对(u,v)在第τ种词对共现方式下的共现频率，p_τ(v)正比于词v的出现频率，p_τ(u)正比于词u的出现频率，α为可调指数参数；下标τ为自然数；r_τ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想难易程度，p_τ(u,v)表示词对(u,v)的共现频率除以第τ种词对共现方式下的总词数，p_τ(v)表示词v的出现频率除以第τ种词对共现方式下的总词数，p_τ(u)表示词u的出现频率除以第τ种词对共现方式下的总词数，u、v表示在维基百科中的不同词语；

将r_τ(u,v)进一步正则化为词对之间的联想概率：

w_{τ} (u, v) = \frac{r_{τ} (u, v)}{Σ_{τ} r_{τ} (u, v)}

其中，w_τ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想概率。

优选地，自由联想方法收集词语数据的方式为：

提供给受试者一个暗示词u并要求受试者记录下自己由暗示词u自由联想到的第一个联想词v，将由暗示词u、联想词v构成的词对作为所述自由联想方法所收集的词语数据。

优选地，标注真值的计算方法为：用由暗示词u联想到联想词v的人数除以被提供到暗示词u的总人数得到比值，并用该比值作为自由联想的条件概率。

优选地，所述步骤3，具体为：

对于词对语义相关性，将由一个词所对应结点联想到另一个词所对应结点的难易程度作为语义相关性的度量，联想的难易程度由该两结点之间的直接联想概率和经由中间结点的间接联想概率共同决定；

对于句对之间的语义相关性，首先通过词袋模型将每个句子抽象为一组词以及该组词中各个词语在该句内出现的频率，其次利用有向加权图联想网络对两个句子对应的两组词采用加入重要的中间结点的方式分别做扩充，最后计算两组词之间的余弦相似度作为该句对间语义相关性的度量；

其中，所述重要的中间结点的选取方式为：对于任意句内的词对(u,v)计算各个中间结点x对应的间接联想概率W_(u,v)(x)，并将各个间接联想概率W_(u,v)(x)按照值由大到小排序为序列，取该序列前K个间接联想概率W_(u,v)(x)对应的中间结点作为所述重要的中间结点，其中K为可调参数，用以控制扩充的强度。

优选地，词对语义相关性计算，具体为：

对于词对(u,v)，w(u,v)代表由结点u联想到结点v的直接联想概率，即由结点u指向结点v的边上的权重，若由结点u指向结点v的边不存在，则w(u,v)为零；结点u与结点v之间经由结点x的间接联想概率记为W_(u,v)(x)，计算方法为：

W_(u,v)(x)＝max(w(u,x)×w(x,v),w(v,x)×w(x,u))

其中，w(u,x)表示结点u联想到结点x的直接联想概率，w(x,v)表示结点x联想到结点v的直接联想概率，w(v,x)表示结点v联想到结点x的直接联想概率，w(x,u)表示结点x联想到结点u的直接联想概率；

词对(u,v)之间的语义相关性通过如下计算式得到：

w (u, v) + w (v, u) + \underset{x &Element; V}{Σ} W_{(u, v)} (x)

其中，V代表有向加权图联想网络的结点集合，w(v,u)代表由结点v联想到结点u的直接联想概率。

与现有技术相比，本发明具有如下的有益效果：

1、通过引入“自由联想”领域心理学研究所收集的数据模拟人脑对于词对的联想概率度量，提高语义相关性计算准确性。

2、通过引入维基百科词对共现频率数据，保证了联想网络的大规模和非稀疏两个重要特性，从而实现任意词对和句对之间的语义相关性计算。

3、语义相关性计算的算法设计中，通过基于“中间结点”计算间接联想概率和扩充词袋，进一步提高语义相关性计算准确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明所提供方法的主要功能是：利用由维基百科丰富的、半结构化的文本资源统计所得的词对共现频率以及“自由联想”领域心理学研究所收集的数据构建大规模、非稀疏联想网络，并基于已构建的联想网络设计算法计算词对和句对之间的语义相关性。

本发明提供的方法包括以下三个步骤：共现词频统计、网络构建及参数学习、语义相关性计算。

共现词频统计步骤，解析维基百科数据库转储文件，并对五种不同的词对共现方式统计共现频率，这五种词对共现方式为：普通页面正文句内两词的共现、普通页面标题与正文内超链接词语的共现、普通页面标题与定义段内非超链接词语的共现、普通页面标题与非定义段内非超链接词语的共现、类别页面中类别词的共现。基于统计所得词对共现频率和单个词的出现频率，对每种共现方式计算词对之间的联想概率。普通页面指的是某个词语条目(如“姚明”)所对应的页面，如http://zh.wikipedia.org/wiki/％E5％A7％9A％E6％98％8E；分类页面指的是由维基管理者所预先定义的某个词语分类(如“体育人物”)对应的页面，如http://zh.wikipedia.org/wiki/Category:％E4％BD％93％E8％82％B2％E4％BA％BA％E7％89％A9。

网络构建及参数学习步骤，构建有向加权图联想网络，邮箱加权图中每个词语作为一个结点，当且仅当两词之间在某种共现方式下共现频率不为零两节点间存在双向边，边上所带权重用以度量人脑由出边一词联想到入边一词的概率，该权重通过参数学习得到。参数学习采用线性回归机器学习算法，以“自由联想”领域心理学研究所收集的数据计算自由联想条件概率作为参数学习训练数据的标注真值，以共现词频统计步骤计算的词对之间的联想概率作为参数学习训练数据的学习特征，学习得到权重参数用以将五种词对之间的联想概率统一为最终的、模拟人脑的联想概率。

语义相关性计算步骤，基于由上述方法构建的联想网络设计算法计算词对或句对之间的语义相关性。对于词对语义相关性，考虑由一个词所对应结点联想到另一个词所对应结点的难易程度作为语义相关性的度量，联想的难易程度由两结点之间直接的联想概率和经由中间结点的间接联想概率共同决定；对于句对之间的语义相关性，首先通过“词袋模型”将每个句子抽象为一组词和它们在句内出现的频率，其次利用联想网络对两个句子对应的两组词以加入重要的中间结点的方式分别做扩充，最后计算两组词之间的余弦向量相似性作为该句对间语义相关性的度量。

在一个优选例中：

(1)由共现频率计算联想概率

共现词频统计步骤的最后一步中基于统计所得词对共现频率和单个词的出现频率对每种共现方式计算词对之间的联想概率，具体的计算方法如下：τ代表词对共现方式，对于词对(u,v)利用公式度量联想难易程度，其中p_τ(u,v)正比于词对(u,v)在τ共现方式下的共现频率，p_τ(v)正比于词v的出现频率，指数参数α用于调节对词语的分数削减程度，例如，α用于调节对高频词的分数削减程度，其中，高频词不是一个绝对概念，它指的是相对高频；一个词语相对于其它词语出现频率越高，就越高频，它所对应的分数就被削减的越厉害。而后将此度量进一步正则化为联想概率：

w_{τ} (u, v) = \frac{r_{τ} (u, v)}{Σ_{τ} r_{τ} (u, v)} .

(2)参数学习的标注真值

网络构建及参数学习步骤中以“自由联想”领域心理学研究所收集的数据计算自由联想条件概率作为参数学习训练数据的标注真值，其中“自由联想”的数据收集方式为提供给受试者一个暗示词并要求受试者记录下自己由暗示词自由联想到的第一个词语。对于由某对有序词对(u,v)构成的训练数据，标注真值的计算方法为用由“自由联想”数据中暗示词u联想到词v的人数除以拿到暗示词u的总人数，它的根据是以频率之比近似联想的条件概率。

需要注意的是，仅由“自由联想”数据计算得到的标注真值也可以构建联想网络，联想网络的每个结点是“自由联想”数据出现的词，边上的权重即为作为标注真值联想概率。这样构建得到联想网络由于完全依赖人工收集的“自由联想”心理学数据而存在两个重要的缺陷：一是“自由联想”数据中只有约5000个词语，导致联想网络中的结点数十分有限，难以用于计算任意词对之间的语义相关性；二是“自由联想”数据每个暗示词只提供给有限的受试者(约150人)，导致联想网络具有稀疏性，使得语义相关性计算的准确度下降。因此将受实验人数限制的由“自由联想”数据计算得来的联想概率作为标注真值用以训练参数，从而结合维基百科的词对共现信息构建大规模、非稀疏的联想网络是十分必要的。

(3)语义相关性计算算法

语义相关性计算步骤中计算词对或句对之间语义相关性的具体算法如下。

词对语义相关性计算：对于词对(u,v)，w(u,v)代表由结点u联想到结点v的概率，即由u指向v的边上的权重，若不存在由u指向v的边不存在则w(u,v)为零。结点u与结点v之间经由结点x的间接联想概率记为W_(u,v)(x)，计算方法为W_(u,v)(x)＝max(w(u,x)×w(x,v),w(v,x)×w(x,u))。结点u与结点v之间的语义相关性由直接联想概率和间接联想概率共同决定，计算方式是w(u,v)+w(v,u)+∑_x∈VW_(u,v)(x)，其中V代表联想网络的结点集合。

句对语义相关性计算：在由通过“词袋模型”将每个句子抽象为一组词和它们在句内出现的频率后，利用联想网络对两个句子对应的两组词加入重要的结点做扩充，结点的选取方式为对于任意句内的词对(u,v)选取使得间接联想概率W_(u,v)(x)最大的K个中间结点x作为扩充结点，其中K为可调参数，用以控制扩充步骤的强度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。

Claims

1.一种基于联想网络的语义相关性计算方法，其特征在于，包括如下步骤：

步骤1，共现词频统计步骤

步骤2，网络构建及参数学习步骤

其中，所述参数学习采用线性回归机器学习算法，具体为：以自由联想方法所收集的词语数据计算自由联想的条件概率，并将自由联想的条件概率作为参数学习训练数据的标注真值，以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征，学习得到权重，从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率；

步骤3，语义相关性计算步骤

2.根据权利要求1所述的基于联想网络的语义相关性计算方法，其特征在于，在步骤1中，对五种不同的词对共现方式统计词对共现频率，其中，这五种词对共现方式为：

-普通页面正文句内两词的共现；

-普通页面标题与正文内超链接词语的共现；

-普通页面标题与定义段内非超链接词语的共现；

-普通页面标题与非定义段内非超链接词语的共现；

-类别页面中类别词的共现；

3.根据权利要求1所述的基于联想网络的语义相关性计算方法，其特征在于，步骤1.2包括如下步骤：

对于词对(u,v)，利用如下公式度量联想难易程度r_τ(u,v)：

r_{τ} (u, v) = \frac{p_{τ} (u, v)}{p_{τ} {(v)}^{α} p_{τ} (u)}

其中：p_τ(u,v)正比于词对(u,v)在第τ种词对共现方式下的共现频率，p_τ(v)正比于词v的出现频率，p_τ(u)正比于词u的出现频率，α为可调指数参数；下标τ为自然数；r_τ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想难易程度，p_τ(u,v)表示词对(u,v)的共现频率除以第τ种词对共现方式下的总词数，p_τ(v)表示词v的出现频率除以第τ种词对共现方式下的总词数，p_τ(u)表示词u的出现频率除以第τ种词对共现方式下的总词数，u、v表示在维基百科中出现的不同词语；

将r_τ(u,v)进一步正则化为词对之间的联想概率：

w_{τ} (u, v) = \frac{r_{τ} (u, v)}{Σ_{τ} r_{τ} (u, v)}

4.根据权利要求1所述的基于联想网络的语义相关性计算方法，其特征在于，自由联想方法收集词语数据的方式为：

5.根据权利要求4所述的基于联想网络的语义相关性计算方法，其特征在于，标注真值的计算方法为：用由暗示词u联想到联想词v的人数除以被提供到暗示词u的总人数得到比值，并用该比值作为自由联想的条件概率。

6.根据权利要求1所述的基于联想网络的语义相关性计算方法，其特征在于，所述步骤3，具体为：

7.根据权利要求6所述的基于联想网络的语义相关性计算方法，其特征在于，词对语义相关性计算，具体为：

W_(u,v)(x)＝max(w(u,x)×w(x,v),w(v,x)×w(x,u))

词对(u,v)之间的语义相关性通过如下计算式得到：

w (u, v) + w (v, u) + \underset{x &Element; V}{Σ} W_{(u, v)} (x)