CN103617157B - 基于语义的文本相似度计算方法 - Google Patents

基于语义的文本相似度计算方法 Download PDF

Info

Publication number
CN103617157B
CN103617157B CN201310661778.2A CN201310661778A CN103617157B CN 103617157 B CN103617157 B CN 103617157B CN 201310661778 A CN201310661778 A CN 201310661778A CN 103617157 B CN103617157 B CN 103617157B
Authority
CN
China
Prior art keywords
text
concept
similarity
semantic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310661778.2A
Other languages
English (en)
Other versions
CN103617157A (zh
Inventor
孙铁利
杨凤芹
周旭
孙红光
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Normal University
Original Assignee
Northeast Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Normal University filed Critical Northeast Normal University
Priority to CN201310661778.2A priority Critical patent/CN103617157B/zh
Publication of CN103617157A publication Critical patent/CN103617157A/zh
Application granted granted Critical
Publication of CN103617157B publication Critical patent/CN103617157B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于语义的文本相似度计算方法,涉及面向文本的智能信息处理技术领域。其目的在于解决常规的文本向量空间模型及余弦相似度无法进行语义相关判断的问题。基于语义的文本相似度计算包括以下步骤:对文本集进行预处理,提取出初始特征词,将其表示成由关键词和概念两部分组成的向量模型;然后分别计算关键词部分的语义相似度和概念部分的语义相似度,通过对两部分进行求和最终得到文本的语义相似度。

Description

基于语义的文本相似度计算方法
·技术领域
本发明涉及面向文本的智能信息处理技术领域,尤其涉及基于关键词的文本语义相似度计算方法和基于概念的文本语义相似度计算方法。
·背景技术
随着互联网的飞速发展,信息技术的发展也突飞猛进,各类信息资源的数量以惊人的速度增长,如何通过精确地计算文本间的相似度快速而又准确地检索出信息是当前亟待解决的问题。
文本相似度的计算方法在计算机技术的各个领域获得应用,例如在文本检索领域(Text Retrieval),文本相似度可以改善搜索引擎的召回率(Recall)和准确度(Precision);在文本挖掘领域(Text Mining),文本相似度作为一个测量方法用来发现文本数据库中潜在的知识;在基于网页的图像检索(Image Retrieval)领域,可以利用图像周围的描述性短文本来提高准确率。此外,文本相似度计算方法也可以应用到其他一些研究领域,包括文本概括(Text Summarization),文本分类(TextCategorization)和机器翻译(Machine Translation)等领域。
常规的文本相似度计算的大致步骤为:首先,将待进行相似度计算的文本进行预处理,然后利用特征选择算法对特征进行抽取,构建一个传统的空间向量模型,再利用余弦相似度计算公式进行文本的相似度计算。
对文本表示模型而言,现在普遍使用的还是Salton和McGill提出的向量空间表示模型,它是一个由词和文档构成的矩阵,词和词之间是独立的个体,将文本转化为向量空间的点。每个样本可以看成是多维的点,如一个数据集P有s个样本点,则P={p1,p2,...,ps},在一个n维的空间中,每一个样本点pi可用一个n维的属性向量表示<pi1,pi2,...,pin>,其中1≤i≤s;其中Pim表示的是第m个属性(特征项)在第i个样本中的权重。
向量空间模型的最大优点是实现简单。它把文本这种非结构化形式进行了数值化的表示,把文本看成多维空间中的一个点,对文本的计算可以通过向量计算得出,降低了复杂度。常用的文本处理方法在结构化文本时通常采用词袋表示模型,该模型有以下不足:(1)未考虑两个词的语义关联,两个语义相近的词却被看成了两个独立的特征。(2)在不同上下文中的同一个词的语义不能被很好地鉴别出来。
对文本相似度计算而言,常用的文本间相似度计算方法是余弦相似度方法,该方法将文本看作空间中的一个点并将其表示为向量形式,利用向量之间的夹角大小来定量地计算文本间相似度,该方法没有考虑文本间具有相同语义的特征词,不能充分体现文本之间的语义相似性。
为解决常规的文本相似度计算的上述问题,本发明提供了一种基于语义的文本相似度计算方法。
·发明内容
本发明提供一种基于语义的文本相似度计算方法,其目的在于解决常规的文本向量空间模型及余弦相似度无法进行语义相关判断的问题,能够提高文本相似度计算的精度,以满足各种智能文本信息处理的需求。
本发明的上述目的是这样实现的,详细说明如下:
一种基于语义的文本相似度计算方法,其特征在于采用基于关键词和基于概念的混合语义相似度计算方法计算文本间的语义相似度,具体包括如下步骤:
文本预处理,对文本集进行预处理,去停用词;
特征选择,应用卡方统计方法选择文本集的特征:针对每个类别,分别计算各个关键词和类别的卡方值,根据卡方值的大小对关键词进行降序排列,设定一个阈值γ,过滤掉低于确定γ的全部关键词,从而得到每个文本的初始表示向量;
构建文本语义表示模型:文本的语义表示模型由关键词和概念两部分构成,即D={t1,t2,...,tm,c1,c2,...,cn},其中D表示文本的特征集合,ti表示关键词特征,ci表示概念特征;对于文本的初始表示向量中不在知识库中的词,保留原形作为文本语义表示模型中关键词特征;对于出现在知识库中的词,利用概念转化规则将其转化成知识库中的概念,作为文本语义表示模型中的概念特征;概念转化规则包括按照一定顺序进行以下两个操作:首先结合文本所在类别的类标签对概念进行词义消歧处理,确定概念的确切词义,然后利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联,接着,计算文本语义模型中关键词权重,最后,结合词语自身的特征权重以及词和类别之间相似度的信息计算概念的权重值;
基于关键词的文本相似度计算,该部分主要包括两方面处理:一是计算每对关键词间的相似度,二是在关键词相似度基础上计算文本相似度;在计算关键词间的相似度时依赖于以下假设:如果一个词语和其他词语之间存在某些联系,那么它们通常会共同出现在一些文档中;以此为基础,基于关键词的相似度计算方法首先根据语料库构建一个关键词相似度矩阵,然后通过对关键词对间的相似度加权求和取平均的方式得到文本相似度;
基于概念的文本相似度计算,该步骤主要包括两部分,一是计算每对概念间的相似度,二是在概念相似度的基础上计算文本相似度;在计算概念的相似度时,根据Lin提出的经典的概念相似度计算公式计算概念间的相似度,构建一个概念相似度矩阵,然后通过对概念对间的相似度加权求和取平均的方式得到文本相似度;
基于语义的文本相似度计算,最后对基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度。
其中利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联包括:
根据知识库中概念之间的继承关系,依次找到每个概念的第r层上位概念,用第r层上位概念来表示当前概念;对于概念c1和c2,如果c1是c2的子概念,c2是c1的父概念,那么它们之间的关系可表示为c1<c2;进一步地,如果没有任何概念c3处于c1和c2之间,那么c1就是c2的直接下位概念,c2是c1的直接上位概念,它们之间的关系可表示为c1d c2;一个概念ci的第r层上位概念的定义如下:
H(ci,r)={c|cid c1d...<d cr=c} (1)
其中,H(ci,r)表示的是ci的第r层上位概念,r是概念在知识库中的层次数。
其中计算文本语义模型中关键词权重包括:关键词t在文档d中的权重计算采用tfidf计算方法,计算公式如式(2)所示:
w ( t , d ) = tf ( t , d ) × log ( | D | n ) - - - ( 2 )
其中,tf(t,d)是词频,它表示词t在文档d中出现的频率;|D|为文档总数,n表示包含词t的文档数。
其中计算文本语义模型中概念权重包括:概念权重计算公式为
w(c,dk)=tf(c,dk)×idf(c)×rel(c,li|dk) (3)
其中,rel(c,li|dk)表示概念c和其所在文本dk所属类别的类标签li之间的相似度,w(c,dk)是概念c在文本dk中的权重,idf(c)是概念c的反文档频率,tf(c,dk)是词频,它表示概念c在文档dk里出现的频率,idf(c)=log(|D|/n),|D|为文档总数,n表示包含概念c的文档数。
当概念在知识库中的层次r>1时,其权重根据以下公式迭代计算:
w ( c r , d k ) = Σ c r - 1 w ( c r - 1 , d k ) - - - ( 4 )
其中,cr-1d cr
其中计算每对关键词间的相似度包括:设T={t1,t2,...,tm}表示未出现在知识库中的关键词构成的集合,基于关键词的相似度计算方法根据语料库构建一个关键词的相似度矩阵A=(aij)m×m,该矩阵的每一个元素aij是每一对属于T中关键词ti和tj之间的相似度值,其计算公式如下所示:
a ij = sim ( t i , t j ) = t i → · t j → | t i → | · | t j → | = Σ ∀ d k w ki · w kj Σ ∀ d k ( w ki ) 2 · Σ ∀ d k ( w kj ) 2 - - - ( 5 )
其中,wki表示关键词ti在文本dk中的权重,wkj表示关键词tj在文本dk中的权重。
其中在关键词相似度的基础上计算文本相似度包括:假设两个文本d1和d2的表示模型中分别包括l和k个不在知识库中出现的关键词,则基于关键词的方法定义两个文本间的相似度如公式(6)所示:
sim vs ( d 1 , d 2 ) = ( Σ i = 1 l Σ j = 1 k w 1 i × w 2 j × a ij ) lk - - - ( 6 )
其中,simvs(d1,d2)表示两个文本d1和d2的相似度。
其中计算每对概念间的相似度包括:在计算概念间的相似度时,根据Lin提出的经典的相似度计算公式计算概念间的相似度,其计算公式如下所示:
sim lin ( s 1 , s 2 ) = 2 log ( p ( LCA ( s 1 , s 2 ) ) ) log ( p ( s 1 ) ) + log ( p ( s 2 ) ) - - - ( 7 )
其中,LCA(s1,s2)是指词义s1和s2的最低共同祖先,s1和s2分别是概念c1和c2经过词义消歧之后对应的语义,该相似度的取值范围在0和1之间;p(s)为当前词s在知识库中出现的概率,即当前词的下位概念(包括其本身)与知识库中所有概念个数的比值。
其中在概念相似度的基础上计算文本相似度包括:设C={c1,c2,...,cn}是文本表示模型中的概念集合,构建概念相似度矩阵P=(pij)n×n,该矩阵的每一个元素pij是概念ci和cj之间的相似度,计算pij的公式如下:
pij=sim(ci,cj)=simlin(si,sj) (8)
假设两个文本d1和d2的表示中分别包括m和n个概念,则基于概念的相似度计算方法将d1和d2之间的相似度定义如下的形式:
sim wn ( d 1 , d 2 ) = ( Σ i = 1 m Σ j = 1 n w ( c i , d 1 ) × w ( c j , d 2 ) × sim ( c 1 i , c 2 j ) ) mn - - - ( 9 )
其中,如果ci或cj是知识库中最底层概念则按照公式(3)计算w(ci,d1)或w(cj,d2),否则按照公式(4)计算w(ci,d1)或w(cj,d2)。
对基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度包括:计算公式如下
sim(d1,d2)=simvs(d1,d2)+simwn(d1,d2) (10)
其中,sim(d1,d2)表示文本间的语义相似度。
本方法所提供的技术方案的积极效果是:和常用的基于向量空间模型的文本表示方法不同,本发明将文本表示成关键词+概念的形式。在提取概念特征时,利用类别信息对概念进行词义消歧处理,并利用层次关系对概念进行转化,以达到充分挖掘文本中概念间语义关系的目的。在计算文本间的相似度时,分别计算关键词对的相似度和概念对的相似度,从而克服了向量空间模型的维数高、稀疏问题给文本相似度计算带来的影响。
·附图说明
本发明将通过示例,参考下述附图以更进一步的阐述:
图1是本发明实现基于语义文本相似度计算的系统流程图。
图2是概念映射层数r不同时Reuters数据集的分类结果比较。
图3是概念映射层数r不同时20Newsgroup数据集的分类结果比较。
图4是几种算法性能在Reuters数据集上的分类结果综合比较。
图5是几种算法性能在20Newsgroups数据集上的分类结果综合比较。
·具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明。
如附图1,包括以下几个步骤:
文本集预处理。对文本集进行预处理,去停用词,将无益于分类处理的代词、介词、连词等高频词过滤掉。然后用基于规则依赖的提取词根方法对单词做词形变换,这有助于集中文本的特征,减少储存所需的空间。
文本的特征选择。对文本集词语进行特征选择,目的是去除一些对确定恰当的文本表示意义不大的词语。应用卡方统计方法来选择文本集的特征。针对每个类别,分别计算特征和类别的卡方值,根据卡方值的大小对关键词进行降序排列,设定一个阈值γ,过滤掉低于确定γ的全部关键词,从而得到每个文本的初始表示向量。
构建文本语义表示模型:利用类别标签对概念进行消歧处理。构建文本语义表示模型时,首先将文本的特征表示成关键词特征和概念特征两部分,即D={t1,t2,...,tm,c1,c2,...,cn},其中D表示文本的特征集合,ti表示关键词特征,ci表示概念特征。构建文本的关键词特征时,将知识库中不存在的词保留原形作为语义模型中关键词特征部分。对于出现在知识库中的词,利用概念转化规则将其转化成知识库中的概念,作为文本语义表示模型中的概念特征;概念转化规则包括按照一定顺序进行以下两个操作:首先结合文本所在类别的类标签对概念进行词义消歧处理,确定概念的确切词义,然后利用知识库中的概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联,接着,计算文本语义模型中关键词权重,最后,结合词语自身的特征权重以及词和类别之间相似度的信息计算概念的权重值。以下将具体分析上述操作过程:
1、结合文本所在类别的类标签对概念进行词义消歧处理,确定概念的确切词义:
一个词在不同的上下文中有不同的含义,但文本中的每个词和文本的类别之间有着密切的关系。本发明通过计算词的每个语义和类标签之间的相似度来确定该词在本类别文本中的确切语义,相似度最大的语义就是该词的当前语义。具体方法是:对词t和它的一系列语义st={s1t,s2t,...,skt},其中,k是t的语义个数,计算和当前类别标签词义sl相似度最大的语义,计算公式如公式(1)所示。
s ( t ) = arg max sim 1 ≤ i ≤ k ( s it , s l ) - - - ( 1 )
其中,l是类别标签名,sl是类别标签名的语义,最后确定s(t)就是词t在当前类别l中的确切语义。
2、利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联:
本发明通过知识库中的语义关系信息来丰富文本的表示,利用概念上下位关系将一些具有相同语义的概念进行合并,有效地解决同义词问题,克服单纯从字面上考虑词义而失去词间关联性的问题。根据知识库中概念之间的继承关系,依次找到每个概念的第r层上位概念,用第r层上位概念来表示当前概念。这种转化不仅可以大大降低向量的维数,而且能更准确地表达文本的语义。对于概念c1和c2,如果c1是c2的子概念,c2是c1的父概念,那么它们之间的关系可表示为c1<c2;进一步地,如果没有任何概念c3处于c1和c2之间,那么c1就是c2的直接下位概念,c2是c1的直接上位概念,它们之间的关系可表示为c1d c2。一个概念ci的第r层上位概念的定义如公式(2)所示。
H(ci,r)={c|cid c1d...<d cr=c} (2)
其中,H(ci,r)表示的是ci的第r层上位概念,r是概念在知识库中的层次数。
3、计算文本语义模型中关键词权重。关键词t在文档d中的权重计算采用tfidf计算方法,计算公式如式(3)所示。
w ( t , d ) = tf ( t , d ) × log ( | D | n ) - - - ( 3 )
其中,tf(t,d)称作词频(Term Frequency),它表示词t在文档d里出现的频率,|D|为文档总数,n表示包含词t的文档数。
4、计算文本语义模型中概念权重。本方法结合了词语自身的特征权重以及词和类别之间的相似度信息。本发明认为作为类标记的词语具有更大的通用性,词在文本中的权重应该与该词和当前文本所属类别之间的相似度有关,如果该词和文本所属类别越相似,则表明该词和该类关联度越高。据此提出的概念权重计算公式如式(4)。
w(c,dk)=tf(c,dk)×idf(c)×rel(c,li|dk) (4)
其中,rel(c,li|dk)表示概念c和其所在文本dk所属类别的类标签li之间的相似度,w(c,dk)是概念c在文本dk中的权重,idf(c)是概念c的反文档频率,tf(c,dk)是词频,它表示概念c在文档dk里出现的频率。idf(c)=log(|D|/n),|D|为文档总数,n表示包含概念c的文档数。
当概念在知识库中的层次r>1时,其权重根据公式(5)迭代计算。
w ( c r , d k ) = Σ c r - 1 w ( c r - 1 , d k ) - - - ( 5 )
其中,cr-1d cr
根据词和类别的相似度以及词的权重,调整语义向量模型中概念的权重,在一定程度上量化地表示了文本中包含的抽象语义信息。
基于关键词的文本相似度计算。该部分主要包括两方面,一是计算每对关键词间的相似度,二是在关键词相似度的基础上计算文本相似度。在计算关键词间的相似度时依赖于以下假设:如果一些词语之间存在某些语义联系,那么它们通常会共同出现在一些文本中。以此为基础,基于关键词的相似度计算方法首先根据语料库构建一个基于统计的关键词相似度矩阵A,然后通过对关键词对间的相似度加权求和取平均值的方式得到文本相似度。具体如下:
1、基于语料库的方法求解关键词间的相似度:设T={t1,t2,...,tm}表示未出现在知识库中的关键词构成的集合,基于关键词的相似度计算方法构建一个基于统计的相似度矩阵A=(aij)m×m,该矩阵的每一个元素aij是每一对属于T中关键词ti和tj之间的相似度值,其计算公式如式(6)所示。
a ij = sim ( t i , t j ) = t i → · t j → | t i → | · | t j → | = Σ ∀ d k w ki · w kj Σ ∀ d k ( w ki ) 2 · Σ ∀ d k ( w kj ) 2 - - - ( 6 )
其中,wki表示关键词ti在文本dk中的权重,wkj表示关键词tj在文本dk中的权重。
2、计算文本相似度:假设两个文本d1和d2的表示模型中分别包括l和k个不在知识库中出现的关键词,则基于关键词的方法定义两个文本间的相似度如公式(7)所示。
sim vs ( d 1 , d 2 ) = ( Σ i = 1 l Σ j = 1 k w 1 i × w 2 j × a ij ) lk - - - ( 7 )
其中,simvs(d1,d2)表示两个文本d1和d2的相似度。
基于关键词的文本相似度计算方法有效地避免了文本的向量空间模型表示所导致的文本向量高维且稀疏、严重影响文本相似度计算问题。
基于概念的文本相似度计算。该部分主要包括两方面,一是计算每对概念间的相似度,二是在概念相似度的基础上计算文本相似度。在计算概念间的相似度时,根据Lin提出的经典的相似度计算公式计算概念间的相似度,其计算公式如公式(8)所示。
sim lin ( s 1 , s 2 ) = 2 log ( p ( LCA ( s 1 , s 2 ) ) ) log ( p ( s 1 ) ) + log ( p ( s 2 ) ) - - - ( 8 )
其中,LCA(s1,s2)是指词义s1和s2的最低共同祖先,s1和s2分别是概念c1和c2经过词义消歧之后对应的语义,该相似度的取值范围在0和1之间。p(s)为当前词s在知识库中出现的概率,即当前词的下位概念(包括其本身)与知识库中所有概念个数的比值。
在概念相似度计算的基础上,通过对概念对间的相似度加权求和取平均的方式得到文本的相似度。设C={c1,c2,...,cn}是文本表示模型中的概念集合,构建概念相似度矩阵P=(pij)n×n该矩阵的每一个元素pij是概念ci和cj之间的相似度,可表示为公式(9)的形式。
pij=sim(ci,cj)=simlin(si,sj) (9)
假设两个文本d1和d2的表示中分别包括m和n个概念,那么基于概念的相似度计算方法将d1和d2之间的相似度定义为公式(10)的形式。
sim wn ( d 1 , d 2 ) = ( Σ i = 1 m Σ j = 1 n w ( c i , d 1 ) × w ( c j , d 2 ) × sim ( c 1 i , c 2j ) ) mn - - - ( 10 )
其中,如果ci或cj是知识库中最底层概念则按照公式(4)计算w(ci,d1)或w(cj,d2),否则按照公式(5)计算w(ci,d1)或w(cj,d2)。
基于语义的文本相似度计算。该单元根据基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果,计算最终的文本语义相似度,其计算公式如式(11)所示。
sim(d1,d2)=simvs(d1,d2)+simwn(d1,d2) (11)
这种混合的相似度计算方法充分利用了文本表示中关键词的语义信息和概念的语义信息。因此,本方法能够获取更精确的文本相似度。
为了探究本发明中基于语义的文本相似度计算方法的性能,发明者将本发明应用到文本分类问题中,对比的实验方法如下:
基准方法:采用关键词表示模型,利用余弦方法计算文本间的相似度;
方法1:采用关键词表示模型,利用基于关键词的文本相似度计算方法计算文本间的相似度;
方法2:采用概念+关键词的语义表示模型,利用余弦相似度方法计算文本间的相似度;
方法3:采用概念+关键词的语义表示模型,利用本发明中的基于语义的文本相似度计算方法计算文本间的相似度。
本实验采用F值的宏平均和微平均作为分类结果的评价指标,使用的实验数据来自两个标准的英文数据集,它们是Reuters21578和20Newsgroup。在Reuters这个数据集中,本实验选用了来自5个类别的1756篇文章,其中1272篇作为训练集,484篇作为测试集,这5个类别是Grain、Trade、Interest、Crude和Earn。在数据集20Newsgroup中,选择了来自9个类别的5066篇文章,这9个类别是talk.politics.guns、talk.politics.misc、rec.sport.baseball、Sci.space、Alt.atheism、sci.crypt、Sci.med、rec.sport.hockey和rec.motorcycles,其中4160篇用作训练文档,906篇用作测试文档。
图2和图3是合并概念层数r对文本分类结果的影响。实验结果表明,在概念映射阶段,利用上下位关系对概念进行合并时,并不是合并的层数r越高分类效果越好。在本发明的实验中,当层数为1或2时可得到最优值。
图4是基准方法和其他3种方法在Reuters数据集的5个类上的实验比较结果,图5是基准方法和其他3种方法在20Newsgroup数据集的9个类上的实验比较结果。实验结果表明,本发明提高了文本相似度计算的精度,具有较优的性能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于语义的文本相似度计算方法,其特征在于采用基于关键词和基于概念的混合语义相似度计算方法计算文本间的语义相似度,具体包括如下步骤:
文本预处理:对文本集进行预处理,去停用词;
特征选择,应用卡方统计方法选择文本集的特征:针对每个类别,分别计算各个特征和类别的卡方值,根据特征和类别的卡方值的大小对关键词进行降序排列,设定一个阈值γ,过滤掉低于确定γ的全部关键词,从而得到每个文本的初始表示向量;
构建文本语义表示模型:文本的语义表示模型由关键词和概念两部分构成,即D={t1,t2,...,tm,c1,c2,...,cn},其中D表示文本的特征集合,ti表示关键词特征,ci表示概念特征;对于文本的初始表示向量中不在语料库中的词,保留原形作为文本语义表示模型中关键词特征;对于出现在语料库中的词,利用概念转化规则将其转化成语料库中的概念,作为文本语义表示模型中的概念特征;概念转化规则包括按照一定顺序进行以下操作:首先结合文本所在类别的类标签对概念进行语义消歧处理,确定概念的确切语义,然后利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联,接着,计算文本语义模型中的关键词权重,最后,结合词语自身的特征权重以及词和类别之间相似度的信息计算概念的权重值;
基于语料库的文本相似度计算,该部分主要包括两方面处理:一是计算每对关键词间的相似度,二是在关键词相似度基础上计算文本相似度;在计算关键词间的相似度时依赖于以下假设:如果一个词语和其他词语之间存在某些联系,那么它们会共同出现在一些文本中;以此为基础,基于语料库的相似度计算方法首先根据语料库构建一个关键词相似度矩阵,然后通过对关键词对间的相似度加权求和取平均的方式得到文本相似度;
基于概念的文本相似度计算,该步骤主要包括两部分,一是计算每对概念间的相似度,二是在概念相似度的基础上计算文本相似度;在计算概念的相似度时,根据Lin提出的经典的概念相似度计算公式计算概念间的相似度,构建一个概念相似度矩阵,然后通过对概念对间的相似度加权求和取平均的方式得到文本相似度;
基于语义的文本相似度计算,最后对基于语料库的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度;
其中计算每对概念间的相似度包括:在计算概念间的相似度时,根据Lin提出的经典的相似度计算公式计算概念间的相似度,其计算公式如下所示:
sim l i n ( s 1 , s 2 ) = 2 l o g ( p ( L C A ( s 1 , s 2 ) ) ) l o g ( p ( s 1 ) ) + l o g ( p ( s 2 ) ) - - - ( 7 )
其中,LCA(s1,s2)是指语义s1和s2的最低共同祖先,s1和s2分别是概念c1和c2经过语义消歧之后对应的语义,该相似度的取值范围在0和1之间;p(s)为当前词s在知识库中出现的概率,即当前词下位概念,包括其本身,与知识库中所有概念个数的比值。
2.如权利要求1所述的一种基于语义的文本相似度计算方法,其中利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联包括:
根据知识库中概念之间的继承关系,依次找到每个概念的第r层上位概念,用第r层上位概念来表示当前概念;对于概念c1和c2,如果c1是c2的子概念,c2是c1的父概念,那么它们之间的关系可表示为c1<c2;进一步地,如果没有任何概念c3处于c1和c2之间,那么c1就是c2的直接下位概念,c2是c1的直接上位概念,它们之间的关系可表示为c1d c2;一个概念ci的第r层上位概念的定义如下:
H(ci,r)={c|cid c1d...<d cr=c} (1)
其中,H(ci,r)表示的是ci的第r层上位概念,r是概念在语料库中的层次数。
3.如权利要求1所述的一种基于语义的文本相似度计算方法,其中计算文本语义模型中关键词权重包括:关键词t在文本d中的权重计算采用tfidf计算方法,计算公式如下所示:
w ( t , d ) = t f ( d , t ) × l o g ( | D | n ) - - - ( 2 )
其中,tf(d,t)是词频,它表示词t在文本d里出现的频率,|D|为文本总数,n表示包含词t的文本数。
4.如权利要求2所述的一种基于语义的文本相似度计算方法,其中计算文本语义模型中概念权重包括:概念权重计算公式为
w(c,dk)=tf(dk,c)×idf(c)×rel(c,li|dk) (3)
其中,rel(c,li|dk)表示概念c和其所在文本dk所属类别的类标签li之间的相似度,w(c,dk)是概念c在文本dk中的权重,idf(c)是概念c的反文本频率,tf(dk,c)是词频,它表示概念c在文本dk中出现的频率,idf(c)=log(|D|/n),|D|为文本总数,n表示包含词c的文本数;
当概念在语料库中的层次r>1时,其权重根据以下公式迭代计算:
w ( c r , d k ) = Σ c r - 1 w ( c r - 1 , d k ) - - - ( 4 )
其中cr-1d cr
5.如权利要求4所述的一种基于语义的文本相似度计算方法,其中计算每对关键词间的相似度包括:设T={t1,t2,...,tm},表示未出现在知识库中的关键词构成的集合,基于关键词的相似度计算方法根据语料库构建一个基于统计的相似度矩阵A=(aij)m×m,该矩阵的每一个元素aij是每一对属于T中关键词ti和tj之间的相似度值,其计算公式如下所示:
a i j = s i m ( t i , t j ) = t i → · t j → | t i → | · | t j → | = Σ ∀ d k w k i · w k j Σ ∀ d k ( w k i ) 2 · Σ ∀ d k ( w k j ) 2 - - - ( 5 )
其中,wki表示关键词ti在文本dk中的权重,wkj表示关键词tj在文本dk中的权重。
6.如权利要求5所述的一种基于语义的文本相似度计算方法,其中在关键词相似度的基础上计算文本相似度包括:假设两个文本d1和d2的表示模型中分别包括l和k个不在知识库中出现的关键词,则基于关键词的方法定义两个文本间的相似度如以下所示:
sim v s ( d 1 , d 2 ) = ( Σ i = 1 l Σ j = 1 k w 1 i × w 2 j × a i j ) l k - - - ( 6 )
其中simvs(d1,d2)表示两个文本d1和d2的相似度。
7.如权利要求6所述的一种基于语义的文本相似度计算方法,其中在概念相似度的基础上计算文本相似度包括:设C={c1,c2,...,cn}是文本表示模型中的概念集合,构建概念相似度矩阵P=(pij)n×n,该矩阵的每一个元素pij是概念ci和cj之间的相似度,计算pij的公式如下:
pij=sim(ci,cj)=simlin(si,sj) (8)
假设两个文本d1和d2的表示中分别包括m和n个概念,则基于概念的相似度计算方法将d1和d2之间的相似度定义为如下的形式:
sim w n ( d 1 , d 2 ) = ( Σ i = 1 m Σ j = 1 n w ( c i , d 1 ) × w ( c j , d 2 ) × s i m ( c 1 i , c 2 j ) ) m n - - - ( 9 )
其中,如果ci和cj是知识库中最底层概念,则按照公式(3)计算w(ci,dl)或w(cj,d2),否则按照公式(4)计算w(ci,dl)或w(cj,d2)。
8.如权利要求7所述的一种基于语义的文本相似度计算方法,其中对基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度包括:计算公式如下
sim(d1,d2)=simvs(d1,d2)+simwn(d1,d2) (10)
其中sim(d1,d2)表示文本间的语义相似度。
CN201310661778.2A 2013-12-10 2013-12-10 基于语义的文本相似度计算方法 Expired - Fee Related CN103617157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310661778.2A CN103617157B (zh) 2013-12-10 2013-12-10 基于语义的文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310661778.2A CN103617157B (zh) 2013-12-10 2013-12-10 基于语义的文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN103617157A CN103617157A (zh) 2014-03-05
CN103617157B true CN103617157B (zh) 2016-08-17

Family

ID=50167860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310661778.2A Expired - Fee Related CN103617157B (zh) 2013-12-10 2013-12-10 基于语义的文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN103617157B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615608B (zh) * 2014-04-28 2018-05-15 腾讯科技(深圳)有限公司 一种数据挖掘处理系统及方法
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN104199833B (zh) * 2014-08-01 2017-09-01 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
CN106033444B (zh) * 2015-03-16 2019-12-10 北京国双科技有限公司 文本内容的聚类方法和装置
CN105095188B (zh) * 2015-08-14 2018-02-16 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
JP6426074B2 (ja) * 2015-10-01 2018-11-21 日本電信電話株式会社 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
CN105426528B (zh) * 2015-12-15 2018-04-06 中南大学 一种商品数据的检索排序方法及系统
CN105677873B (zh) * 2016-01-11 2019-03-26 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN105741077A (zh) * 2016-01-26 2016-07-06 南华大学 职业信息提供方法及系统
CN105868366B (zh) * 2016-03-30 2019-02-01 浙江工业大学 基于概念关联的概念空间导航方法
CN107305543B (zh) * 2016-04-22 2021-05-11 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN107506359B (zh) * 2016-06-14 2020-02-07 科大讯飞股份有限公司 试题高阶属性挖掘方法及系统
CN107562714B (zh) * 2016-06-30 2021-02-09 北京儒博科技有限公司 一种语句相似度计算方法及装置
CN107590163B (zh) * 2016-07-06 2019-07-02 北京京东尚科信息技术有限公司 文本特征选择的方法、装置和系统
CN106294666A (zh) * 2016-08-04 2017-01-04 上海汽笛生网络科技有限公司 一种实现文本形象化动态展示的方法
CN106610941A (zh) * 2016-08-11 2017-05-03 四川用联信息技术有限公司 一种改进的基于信息论的概念语义相似度计算方法
CN106610945A (zh) * 2016-08-12 2017-05-03 四川用联信息技术有限公司 一种改进的本体概念语义相似度计算方法
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN106569999A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 多粒度短文本语义相似度比较方法及系统
CN108509407B (zh) * 2017-02-27 2022-03-18 阿里巴巴(中国)有限公司 文本语义相似度计算方法、装置及用户终端
CN106951407A (zh) * 2017-03-15 2017-07-14 南京理工大学 基于Spark平台的快速高精度语义相关度计算方法
CN107330627B (zh) * 2017-07-05 2021-06-11 山东大学 一种创新创意的大数据处理方法、服务器及系统
CN107861942B (zh) * 2017-10-11 2021-10-26 国网浙江省电力有限公司营销服务中心 一种基于深度学习的电力疑似投诉工单识别方法
CN108304480B (zh) * 2017-12-29 2020-08-04 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN108287916B (zh) * 2018-02-11 2021-06-15 北京方正阿帕比技术有限公司 一种资源推荐方法
CN108647203B (zh) * 2018-04-20 2020-07-07 浙江大学 一种中医病情文本相似度的计算方法
CN109902283B (zh) * 2018-05-03 2023-06-06 华为技术有限公司 一种信息输出方法及装置
CN109101579B (zh) * 2018-07-19 2021-11-23 深圳追一科技有限公司 客服机器人知识库歧义检测方法
CN109344857B (zh) * 2018-08-14 2022-05-13 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109543003A (zh) * 2018-11-21 2019-03-29 珠海格力电器股份有限公司 一种系统对象相似度确定方法及装置
CN109885813B (zh) * 2019-02-18 2023-04-28 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法及系统
CN109885657B (zh) * 2019-02-18 2021-04-27 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN109992602B (zh) * 2019-04-02 2023-05-16 海南颖川科技有限公司 少儿数字阅读指引设备
CN110163476A (zh) * 2019-04-15 2019-08-23 重庆金融资产交易所有限责任公司 项目智能推荐方法、电子装置及存储介质
CN110377708B (zh) * 2019-06-03 2021-10-08 广东幽澜机器人科技有限公司 一种多情景对话切换方法及装置
CN110750639A (zh) * 2019-07-02 2020-02-04 厦门美域中央信息科技有限公司 一种基于向量空间模型的文本分类及r语言实现
US11392774B2 (en) 2020-02-10 2022-07-19 International Business Machines Corporation Extracting relevant sentences from text corpus
CN111709251B (zh) * 2020-06-12 2023-04-07 哈尔滨工程大学 兼具通用语义及领域语义的形式概念相似性快速度量方法
CN114064827A (zh) * 2020-08-05 2022-02-18 北京四维图新科技股份有限公司 位置搜索方法、装置以及设备
CN112016830A (zh) * 2020-08-27 2020-12-01 广东电网有限责任公司 一种专利文件评估任务分配方法及装置
CN112364947B (zh) * 2021-01-14 2021-06-29 北京育学园健康管理中心有限公司 一种文本相似度计算方法和装置
CN112786201A (zh) * 2021-01-24 2021-05-11 武汉东湖大数据交易中心股份有限公司 一种基于手部形态认知的健康预测模型的构建方法及装置
CN113139389B (zh) * 2021-04-29 2023-01-13 南宁师范大学 基于动态优化的图模型语义查询扩展方法和装置
CN113673889A (zh) * 2021-08-26 2021-11-19 上海罗盘信息科技有限公司 一种智能化数据资产识别的方法
CN113836937B (zh) * 2021-09-23 2023-11-10 上海瑞释信息科技有限公司 基于比较模型的文本处理方法、装置、设备与存储介质
CN114492450A (zh) * 2021-12-22 2022-05-13 马上消费金融股份有限公司 文本匹配方法及装置
CN114443830A (zh) * 2021-12-31 2022-05-06 深圳云天励飞技术股份有限公司 文本匹配方法及相关装置
CN114936376A (zh) * 2022-06-14 2022-08-23 中国电信股份有限公司 文本定密方法及装置、非易失性存储介质、处理器
CN116756324B (zh) * 2023-08-14 2023-10-27 北京分音塔科技有限公司 基于庭审音频的关联度挖掘方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075251A (zh) * 2007-06-18 2007-11-21 中国电子科技集团公司第五十四研究所 一种基于数据挖掘的文本搜索方法
CN102663122A (zh) * 2012-04-20 2012-09-12 北京邮电大学 基于突发事件本体的语义查询扩展算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075251A (zh) * 2007-06-18 2007-11-21 中国电子科技集团公司第五十四研究所 一种基于数据挖掘的文本搜索方法
CN102663122A (zh) * 2012-04-20 2012-09-12 北京邮电大学 基于突发事件本体的语义查询扩展算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A semantic term weighting scheme for text categorization;Qiming Luo等;《Expert Systems with Applications》;20110915;第38卷(第10期);第12708-12716页 *
一种基于相对特征的文本分类算法;孙铁利等;《东北师大学报(自然科学版)》;20100331;第42卷(第1期);第63-66页 *

Also Published As

Publication number Publication date
CN103617157A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617157B (zh) 基于语义的文本相似度计算方法
Wei et al. A semantic approach for text clustering using WordNet and lexical chains
Wen et al. Emotion classification in microblog texts using class sequential rules
Zhang et al. Chinese comments sentiment classification based on word2vec and SVMperf
CN103049435B (zh) 文本细粒度情感分析方法及装置
Xu et al. Mining comparative opinions from customer reviews for competitive intelligence
CN104699763B (zh) 多特征融合的文本相似性度量系统
Muñoz et al. Using linked data to mine RDF from wikipedia's tables
Ayache et al. Evaluation of active learning strategies for video indexing
CN105205096A (zh) 一种跨文本模态和图像模态的数据检索方法
CN102024056A (zh) 利用计算机的基于多媒体分析的新闻人物检索方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN114997288B (zh) 一种设计资源关联方法
Li et al. Efficiently mining high quality phrases from texts
Fan et al. Detecting table region in PDF documents using distant supervision
Sabbah et al. Hybrid support vector machine based feature selection method for text classification.
Ramachandran et al. A Novel Method for Text Summarization and Clustering of Documents
CN103207893B (zh) 基于向量组映射的两类文本的分类方法
Jiang et al. Ontology enhancement and concept granularity learning: Keeping yourself current and adaptive
Li et al. Confidence estimation and reputation analysis in aspect extraction
Safadi et al. Active cleaning for video corpus annotation
Brooke et al. Inducing lexicons of formality from corpora

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20201210

CF01 Termination of patent right due to non-payment of annual fee