CN104881400B - 基于联想网络的语义相关性计算方法 - Google Patents

基于联想网络的语义相关性计算方法 Download PDF

Info

Publication number
CN104881400B
CN104881400B CN201510256490.6A CN201510256490A CN104881400B CN 104881400 B CN104881400 B CN 104881400B CN 201510256490 A CN201510256490 A CN 201510256490A CN 104881400 B CN104881400 B CN 104881400B
Authority
CN
China
Prior art keywords
word
mrow
node
associative
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510256490.6A
Other languages
English (en)
Other versions
CN104881400A (zh
Inventor
朱其立
张可阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510256490.6A priority Critical patent/CN104881400B/zh
Publication of CN104881400A publication Critical patent/CN104881400A/zh
Application granted granted Critical
Publication of CN104881400B publication Critical patent/CN104881400B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于联想网络的语义相关性计算方法,包括步骤:步骤1,共现词频统计步骤,步骤2,网络构建及参数学习步骤,步骤3,语义相关性计算步骤。本发明通过引入自由联想方法所收集的数据模拟人脑对于词对的联想概率度量,提高语义相关性计算准确性,并通过引入维基百科词对共现频率数据,保证了联想网络的大规模和非稀疏两个重要特性,从而实现任意词对和句对之间的语义相关性计算,而且通过基于中间结点计算间接联想概率和扩充词袋,进一步提高语义相关性计算准确性。

Description

基于联想网络的语义相关性计算方法
技术领域
本发明涉及自然语言处理,具体地,涉及基于联想网络的语义相关性计算方法。
背景技术
经检索,发现如下相关文献:
相关检索结果1:
申请(专利)号:201010191677.X,名称:中文词语语义相似度度量方法
该专利文献提出了一种中文词语语义相似度度量方法,并且与其它的传统方法相比,该专利文献对于语义相似度有更好的区分度,并且计算结果更符合人的主观感觉。
技术要点比较:
1.语义相似性是语义相关性的一种特例。该专利文献只能计算词语的语义相似性,无法计算词语之间的语义相关性;而本发明可以准确计算更加一般性的语义相关性。
2.该专利文献只能计算词语之间的语义关系;而本发明通过首先建立词语联想网络,进而基于已构建的联想网络设计算法的方式,使得本发明不仅能够计算词语之间的语义关系,并且可以计算句子和短文本之间的语义关系。
相关检索结果2:
申请(专利)号:201110343122.7,名称:一种基于上下文语境的词的语义相关性度量方法
该专利文献基于统计方法度量词自身的语义相关性;度量词在上下文语境中的语义相关性;将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。
技术要点比较:
1.该专利文献的词对共现频率只有一种,基于“归一化谷歌距离”统计得到;而本发明中词对共现频率共有五种,利用利用维基百科丰富的、半结构化的文本资源统计得到。因此本发明中所采用的词对共现频率更加丰富,且较之归一化“谷歌距离”更加可靠。
2.该专利文献着重计算特定的上下文语境中词的语义相关性;而本发明在词语语义相关性计算方面,着重普适的、计算上下文语境无关的词语相关性。
相关检索结果3:
申请(专利)号:201210037968.2,名称:一种基于维基百科度量概念之间语义相关度的方法
该专利文献提出了一种能用维基百科中的类别来表示概念之间的语义关系的基于维基百科度量概念之间语义相关度的方法,包括离线步骤和在线步骤:在离线步骤中,从维基百科的原始数据中利用锚文本链接生成概念之间的初始关系和概念与类别之间的初始关系。
技术要点比较:
1.该发明从维基百科中提取概念和概念之前通过锚文本链接得到的链接关系作为算法的基础统计信息资源;而本发明共利用五种不同的词对共现关系作为基础统计信息资源,其中“普通页面标题与正文内超链接词语的共现”一项资源本质上等价于该发明所用的“锚文本链接”资源,因此本发明所用的统计资源更为丰富。
2.该发明在计算语义相关性的过程中没有利用任何人脑心理现象有关的数据;而发明基于“自由联想”心理现象捕捉人脑对于语义相关性的度量方法,并模拟人脑“自由联想”心理现象构建联想网络,基于已构建的联想网络设计算法计算词对或句对之间的语义相关性。语义相关性的计算准确与否最终是按照人脑的衡量为标准的,因此本发明可以更有效地捕捉人脑对于语义相关性的理解和度量并实现更为准确的计算。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于联想网络的语义相关性计算方法。本发明要解决的技术问题体现在以下几点:
1)利用维基百科丰富的、半结构化的文本资源统计词对共现频率。
2)基于“自由联想”心理现象捕捉人脑对于语义相关性的度量方法。
3)模拟人脑“自由联想”心理现象构建联想网络,并基于已构建的联想网络设计算法计算词对或句对之间的语义相关性。
根据本发明提供的一种基于联想网络的语义相关性计算方法,包括如下步骤:
步骤1,共现词频统计步骤
步骤1.1:解析维基百科数据库转储文件,对多种不同的词对共现方式统计词对共现频率,并统计词对中单个词的出现频率;
步骤1.2:根据所述词对共现频率和词对中单个词的出现频率,对每种词对共现方式计算词对之间的联想概率;
步骤2,网络构建及参数学习步骤
构建有向加权图联想网络:在有向加权图联想网络中,每个词语作为一个结点,两个结点间存在双向边的条件是:当且仅当这两个结点所对应的两个词语之间在所述多种不同的词对共现方式中至少一种词对共现方式下的共现频率不为零;边上所带的权重用于度量人脑由出边一词联想到入边一词的概率,所述权重通过参数学习得到;
其中,所述参数学习采用线性回归机器学习算法,具体为:以自由联想方法所收集的词语数据计算自由联想的条件概率,并将自由联想的条件概率作为参数学习训练数据的标注真值,以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征,学习得到权重,从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率。
步骤3,语义相关性计算步骤
利用词对之间的联想概率、有向加权图联想网络,计算词对或句对之间的语义相关性。
优选地,在步骤1中,对五种不同的词对共现方式统计词对共现频率,其中,这五种词对共现方式为:
-普通页面正文句内两词的共现;
-普通页面标题与正文内超链接词语的共现;
-普通页面标题与定义段内非超链接词语的共现;
-普通页面标题与非定义段内非超链接词语的共现;
-类别页面中类别词的共现;
其中,所述普通页面是指词语条目所对应的页面,类别页面是指预设的词语分类所对应的页面。
优选地,步骤1.2包括如下步骤:
对于词对(u,v),利用如下公式度量联想难易程度rτ(u,v):
其中:pτ(u,v)正比于词对(u,v)在第τ种词对共现方式下的共现频率,pτ(v)正比于词v的出现频率,pτ(u)正比于词u的出现频率,α为可调指数参数;下标τ为自然数;rτ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想难易程度,pτ(u,v)表示词对(u,v)的共现频率除以第τ种词对共现方式下的总词数,pτ(v)表示词v的出现频率除以第τ种词对共现方式下的总词数,pτ(u)表示词u的出现频率除以第τ种词对共现方式下的总词数,u、v表示在维基百科中的不同词语;
将rτ(u,v)进一步正则化为词对之间的联想概率:
其中,wτ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想概率。
优选地,自由联想方法收集词语数据的方式为:
提供给受试者一个暗示词u并要求受试者记录下自己由暗示词u自由联想到的第一个联想词v,将由暗示词u、联想词v构成的词对作为所述自由联想方法所收集的词语数据。
优选地,标注真值的计算方法为:用由暗示词u联想到联想词v的人数除以被提供到暗示词u的总人数得到比值,并用该比值作为自由联想的条件概率。
优选地,所述步骤3,具体为:
对于词对语义相关性,将由一个词所对应结点联想到另一个词所对应结点的难易程度作为语义相关性的度量,联想的难易程度由该两结点之间的直接联想概率和经由中间结点的间接联想概率共同决定;
对于句对之间的语义相关性,首先通过词袋模型将每个句子抽象为一组词以及该组词中各个词语在该句内出现的频率,其次利用有向加权图联想网络对两个句子对应的两组词采用加入重要的中间结点的方式分别做扩充,最后计算两组词之间的余弦相似度作为该句对间语义相关性的度量;
其中,所述重要的中间结点的选取方式为:对于任意句内的词对(u,v)计算各个中间结点x对应的间接联想概率W(u,v)(x),并将各个间接联想概率W(u,v)(x)按照值由大到小排序为序列,取该序列前K个间接联想概率W(u,v)(x)对应的中间结点作为所述重要的中间结点,其中K为可调参数,用以控制扩充的强度。
优选地,词对语义相关性计算,具体为:
对于词对(u,v),w(u,v)代表由结点u联想到结点v的直接联想概率,即由结点u指向结点v的边上的权重,若由结点u指向结点v的边不存在,则w(u,v)为零;结点u与结点v之间经由结点x的间接联想概率记为W(u,v)(x),计算方法为:
W(u,v)(x)=max(w(u,x)×w(x,v),w(v,x)×w(x,u))
其中,w(u,x)表示结点u联想到结点x的直接联想概率,w(x,v)表示结点x联想到结点v的直接联想概率,w(v,x)表示结点v联想到结点x的直接联想概率,w(x,u)表示结点x联想到结点u的直接联想概率;
词对(u,v)之间的语义相关性通过如下计算式得到:
其中,V代表有向加权图联想网络的结点集合,w(v,u)代表由结点v联想到结点u的直接联想概率。
与现有技术相比,本发明具有如下的有益效果:
1、通过引入“自由联想”领域心理学研究所收集的数据模拟人脑对于词对的联想概率度量,提高语义相关性计算准确性。
2、通过引入维基百科词对共现频率数据,保证了联想网络的大规模和非稀疏两个重要特性,从而实现任意词对和句对之间的语义相关性计算。
3、语义相关性计算的算法设计中,通过基于“中间结点”计算间接联想概率和扩充词袋,进一步提高语义相关性计算准确性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明所提供方法的主要功能是:利用由维基百科丰富的、半结构化的文本资源统计所得的词对共现频率以及“自由联想”领域心理学研究所收集的数据构建大规模、非稀疏联想网络,并基于已构建的联想网络设计算法计算词对和句对之间的语义相关性。
本发明提供的方法包括以下三个步骤:共现词频统计、网络构建及参数学习、语义相关性计算。
共现词频统计步骤,解析维基百科数据库转储文件,并对五种不同的词对共现方式统计共现频率,这五种词对共现方式为:普通页面正文句内两词的共现、普通页面标题与正文内超链接词语的共现、普通页面标题与定义段内非超链接词语的共现、普通页面标题与非定义段内非超链接词语的共现、类别页面中类别词的共现。基于统计所得词对共现频率和单个词的出现频率,对每种共现方式计算词对之间的联想概率。普通页面指的是某个词语条目(如“姚明”)所对应的页面,如http://zh.wikipedia.org/wiki/%E5%A7%9A%E6%98%8E;分类页面指的是由维基管理者所预先定义的某个词语分类(如“体育人物”)对应的页面,如http://zh.wikipedia.org/wiki/Category:%E4%BD%93%E8%82%B2%E4%BA%BA%E7%89%A9。
网络构建及参数学习步骤,构建有向加权图联想网络,邮箱加权图中每个词语作为一个结点,当且仅当两词之间在某种共现方式下共现频率不为零两节点间存在双向边,边上所带权重用以度量人脑由出边一词联想到入边一词的概率,该权重通过参数学习得到。参数学习采用线性回归机器学习算法,以“自由联想”领域心理学研究所收集的数据计算自由联想条件概率作为参数学习训练数据的标注真值,以共现词频统计步骤计算的词对之间的联想概率作为参数学习训练数据的学习特征,学习得到权重参数用以将五种词对之间的联想概率统一为最终的、模拟人脑的联想概率。
语义相关性计算步骤,基于由上述方法构建的联想网络设计算法计算词对或句对之间的语义相关性。对于词对语义相关性,考虑由一个词所对应结点联想到另一个词所对应结点的难易程度作为语义相关性的度量,联想的难易程度由两结点之间直接的联想概率和经由中间结点的间接联想概率共同决定;对于句对之间的语义相关性,首先通过“词袋模型”将每个句子抽象为一组词和它们在句内出现的频率,其次利用联想网络对两个句子对应的两组词以加入重要的中间结点的方式分别做扩充,最后计算两组词之间的余弦向量相似性作为该句对间语义相关性的度量。
在一个优选例中:
(1)由共现频率计算联想概率
共现词频统计步骤的最后一步中基于统计所得词对共现频率和单个词的出现频率对每种共现方式计算词对之间的联想概率,具体的计算方法如下:τ代表词对共现方式,对于词对(u,v)利用公式度量联想难易程度,其中pτ(u,v)正比于词对(u,v)在τ共现方式下的共现频率,pτ(v)正比于词v的出现频率,指数参数α用于调节对词语的分数削减程度,例如,α用于调节对高频词的分数削减程度,其中,高频词不是一个绝对概念,它指的是相对高频;一个词语相对于其它词语出现频率越高,就越高频,它所对应的分数就被削减的越厉害。而后将此度量进一步正则化为联想概率:
(2)参数学习的标注真值
网络构建及参数学习步骤中以“自由联想”领域心理学研究所收集的数据计算自由联想条件概率作为参数学习训练数据的标注真值,其中“自由联想”的数据收集方式为提供给受试者一个暗示词并要求受试者记录下自己由暗示词自由联想到的第一个词语。对于由某对有序词对(u,v)构成的训练数据,标注真值的计算方法为用由“自由联想”数据中暗示词u联想到词v的人数除以拿到暗示词u的总人数,它的根据是以频率之比近似联想的条件概率。
需要注意的是,仅由“自由联想”数据计算得到的标注真值也可以构建联想网络,联想网络的每个结点是“自由联想”数据出现的词,边上的权重即为作为标注真值联想概率。这样构建得到联想网络由于完全依赖人工收集的“自由联想”心理学数据而存在两个重要的缺陷:一是“自由联想”数据中只有约5000个词语,导致联想网络中的结点数十分有限,难以用于计算任意词对之间的语义相关性;二是“自由联想”数据每个暗示词只提供给有限的受试者(约150人),导致联想网络具有稀疏性,使得语义相关性计算的准确度下降。因此将受实验人数限制的由“自由联想”数据计算得来的联想概率作为标注真值用以训练参数,从而结合维基百科的词对共现信息构建大规模、非稀疏的联想网络是十分必要的。
(3)语义相关性计算算法
语义相关性计算步骤中计算词对或句对之间语义相关性的具体算法如下。
词对语义相关性计算:对于词对(u,v),w(u,v)代表由结点u联想到结点v的概率,即由u指向v的边上的权重,若不存在由u指向v的边不存在则w(u,v)为零。结点u与结点v之间经由结点x的间接联想概率记为W(u,v)(x),计算方法为W(u,v)(x)=max(w(u,x)×w(x,v),w(v,x)×w(x,u))。结点u与结点v之间的语义相关性由直接联想概率和间接联想概率共同决定,计算方式是w(u,v)+w(v,u)+∑x∈VW(u,v)(x),其中V代表联想网络的结点集合。
句对语义相关性计算:在由通过“词袋模型”将每个句子抽象为一组词和它们在句内出现的频率后,利用联想网络对两个句子对应的两组词加入重要的结点做扩充,结点的选取方式为对于任意句内的词对(u,v)选取使得间接联想概率W(u,v)(x)最大的K个中间结点x作为扩充结点,其中K为可调参数,用以控制扩充步骤的强度。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。

Claims (6)

1.一种基于联想网络的语义相关性计算方法,其特征在于,包括如下步骤:
步骤1,共现词频统计步骤
步骤1.1:解析维基百科数据库转储文件,对多种不同的词对共现方式统计词对共现频率,并统计词对中单个词的出现频率;
步骤1.2:根据所述词对共现频率和词对中单个词的出现频率,对每种词对共现方式计算词对之间的联想概率;
步骤2,网络构建及参数学习步骤
构建有向加权图联想网络:在有向加权图联想网络中,每个词语作为一个结点,两个结点间存在双向边的条件是:当且仅当这两个结点所对应的两个词语之间在所述多种不同的词对共现方式中至少一种词对共现方式下的共现频率不为零;边上所带的权重用于度量人脑由出边一词联想到入边一词的概率,所述权重通过参数学习得到;
其中,所述参数学习采用线性回归机器学习算法,具体为:以自由联想方法所收集的词语数据计算自由联想的条件概率,并将自由联想的条件概率作为参数学习训练数据的标注真值,以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征,学习得到权重,从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率;
步骤3,语义相关性计算步骤
利用词对之间的联想概率、有向加权图联想网络,计算词对或句对之间的语义相关性;
在步骤1中,对五种不同的词对共现方式统计词对共现频率,其中,这五种词对共现方式为:
-普通页面正文句内两词的共现;
-普通页面标题与正文内超链接词语的共现;
-普通页面标题与定义段内非超链接词语的共现;
-普通页面标题与非定义段内非超链接词语的共现;
-类别页面中类别词的共现;
其中,所述普通页面是指词语条目所对应的页面,类别页面是指预设的词语分类所对应的页面。
2.根据权利要求1所述的基于联想网络的语义相关性计算方法,其特征在于,步骤1.2包括如下步骤:
对于词对(u,v),利用如下公式度量联想难易程度rτ(u,v):
<mrow> <msub> <mi>r</mi> <mi>&amp;tau;</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>p</mi> <mi>&amp;tau;</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>p</mi> <mi>&amp;tau;</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mi>&amp;alpha;</mi> </msup> <msub> <mi>p</mi> <mi>&amp;tau;</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中:pτ(u,v)正比于词对(u,v)在第τ种词对共现方式下的共现频率,pτ(v)正比于词v的出现频率,pτ(u)正比于词u的出现频率,α为可调指数参数;下标τ为自然数;rτ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想难易程度,pτ(u,v)表示词对(u,v)的共现频率除以第τ种词对共现方式下的总词数,pτ(v)表示词v的出现频率除以第τ种词对共现方式下的总词数,pτ(u)表示词u的出现频率除以第τ种词对共现方式下的总词数,u、v表示在维基百科中出现的不同词语;
将rτ(u,v)进一步正则化为词对之间的联想概率:
<mrow> <msub> <mi>w</mi> <mi>&amp;tau;</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>r</mi> <mi>&amp;tau;</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>&amp;tau;</mi> </msub> <msub> <mi>r</mi> <mi>&amp;tau;</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,wτ(u,v)表示在第τ种词对共现方式下词对(u,v)之间的联想概率。
3.根据权利要求1所述的基于联想网络的语义相关性计算方法,其特征在于,自由联想方法收集词语数据的方式为:
提供给受试者一个暗示词u并要求受试者记录下自己由暗示词u自由联想到的第一个联想词v,将由暗示词u、联想词v构成的词对作为所述自由联想方法所收集的词语数据。
4.根据权利要求3所述的基于联想网络的语义相关性计算方法,其特征在于,标注真值的计算方法为:用由暗示词u联想到联想词v的人数除以被提供到暗示词u的总人数得到比值,并用该比值作为自由联想的条件概率。
5.根据权利要求1所述的基于联想网络的语义相关性计算方法,其特征在于,所述步骤3,具体为:
对于词对语义相关性,将由一个词所对应结点联想到另一个词所对应结点的难易程度作为语义相关性的度量,联想的难易程度由该两结点之间的直接联想概率和经由中间结点的间接联想概率共同决定;
对于句对之间的语义相关性,首先通过词袋模型将每个句子抽象为一组词以及该组词中各个词语在该句内出现的频率,其次利用有向加权图联想网络对两个句子对应的两组词采用加入重要的中间结点的方式分别做扩充,最后计算两组词之间的余弦相似度作为该句对间语义相关性的度量;
其中,所述重要的中间结点的选取方式为:对于任意句内的词对(u,v)计算各个中间结点x对应的间接联想概率W(u,v)(x),并将各个间接联想概率W(u,v)(x)按照值由大到小排序为序列,取该序列前K个间接联想概率W(u,v)(x)对应的中间结点作为所述重要的中间结点,其中K为可调参数,用以控制扩充的强度。
6.根据权利要求5所述的基于联想网络的语义相关性计算方法,其特征在于,词对语义相关性计算,具体为:
对于词对(u,v),w(u,v)代表由结点u联想到结点v的直接联想概率,即由结点u指向结点v的边上的权重,若由结点u指向结点v的边不存在,则w(u,v)为零;结点u与结点v之间经由结点x的间接联想概率记为W(u,v)(x),计算方法为:
W(u,v)(x)=max(w(u,x)×w(x,v),w(v,x)×w(x,u))
其中,w(u,x)表示结点u联想到结点x的直接联想概率,w(x,v)表示结点x联想到结点v的直接联想概率,w(v,x)表示结点v联想到结点x的直接联想概率,w(x,u)表示结点x联想到结点u的直接联想概率;
词对(u,v)之间的语义相关性通过如下计算式得到:
<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>w</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>x</mi> <mo>&amp;Element;</mo> <mi>V</mi> </mrow> </munder> <msub> <mi>W</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow>
其中,V代表有向加权图联想网络的结点集合,w(v,u)代表由结点v联想到结点u的直接联想概率。
CN201510256490.6A 2015-05-19 2015-05-19 基于联想网络的语义相关性计算方法 Expired - Fee Related CN104881400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510256490.6A CN104881400B (zh) 2015-05-19 2015-05-19 基于联想网络的语义相关性计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510256490.6A CN104881400B (zh) 2015-05-19 2015-05-19 基于联想网络的语义相关性计算方法

Publications (2)

Publication Number Publication Date
CN104881400A CN104881400A (zh) 2015-09-02
CN104881400B true CN104881400B (zh) 2018-01-19

Family

ID=53948895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510256490.6A Expired - Fee Related CN104881400B (zh) 2015-05-19 2015-05-19 基于联想网络的语义相关性计算方法

Country Status (1)

Country Link
CN (1) CN104881400B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357895B (zh) * 2017-01-05 2020-05-19 大连理工大学 一种基于词袋模型的文本表示的处理方法
CN108171570B (zh) * 2017-12-15 2021-04-27 北京星选科技有限公司 一种数据筛选方法、装置及终端
CN114491060B (zh) * 2021-12-28 2024-02-20 永中软件股份有限公司 动态联想知识网络的更新方法、语义纠错方法
CN114880477A (zh) * 2022-06-02 2022-08-09 江南大学 一种专利技术演化脉络的提取方法
CN115033772B (zh) * 2022-06-20 2024-06-21 浙江大学 一种基于语义网络的创意激发方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004031916A3 (en) * 2002-10-03 2004-12-23 Google Inc Method and apparatus for characterizing documents based on clusters of related words
CN102737112A (zh) * 2012-04-25 2012-10-17 北京航空航天大学 基于表现语义分析的概念相关度计算方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004031916A3 (en) * 2002-10-03 2004-12-23 Google Inc Method and apparatus for characterizing documents based on clusters of related words
CN102737112A (zh) * 2012-04-25 2012-10-17 北京航空航天大学 基于表现语义分析的概念相关度计算方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Lexical Semantic Relatedness with Random GraphWalks;Thad Hughes 等;《Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning》;20070630;第581-589页 *
基于众包的词汇联想网络的获取和分析;丁宇 等;《中文信息学报》;20130531;第27卷(第3期);正文第100页摘要、正文第102页 *
基于语言建模的信息检索及相关研究;丁国栋;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20070215;正文第79-85页 *

Also Published As

Publication number Publication date
CN104881400A (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
CN104881400B (zh) 基于联想网络的语义相关性计算方法
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN104636465B (zh) 网页摘要生成方法、展示方法及相应装置
CN105045875B (zh) 个性化信息检索方法及装置
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
US20160224622A1 (en) Method for detecting the similarity of the patent documents on the basis of new kernel function luke kernel
CN103853738B (zh) 一种网页信息相关地域的识别方法
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN106250412A (zh) 基于多源实体融合的知识图谱构建方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN101231634A (zh) 一种多文档自动文摘方法
JP2012524314A (ja) データ検索およびインデクシングの方法および装置
CN106294744A (zh) 兴趣识别方法及系统
CN105005616B (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN110188191A (zh) 一种用于网络社区文本的实体关系图谱构建方法和系统
CN106570109A (zh) 一种通过文本分析自动生成题库知识点的方法
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN109685153A (zh) 一种基于特征聚合的社交网络谣言鉴别方法
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及系统
CN102722556A (zh) 一种基于相似性度量的模型比对方法
CN105893481A (zh) 一种基于马尔可夫聚类的实体间关系消解方法
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180119

Termination date: 20200519