CN110598216A - 一种低维显式语义空间下的语义关联度计算方法 - Google Patents
一种低维显式语义空间下的语义关联度计算方法 Download PDFInfo
- Publication number
- CN110598216A CN110598216A CN201910886344.XA CN201910886344A CN110598216A CN 110598216 A CN110598216 A CN 110598216A CN 201910886344 A CN201910886344 A CN 201910886344A CN 110598216 A CN110598216 A CN 110598216A
- Authority
- CN
- China
- Prior art keywords
- explicit
- semantic
- efl
- art
- wikipedia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 238000012360 testing method Methods 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 15
- 238000011160 research Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010029333 Neurosis Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- NCEXYHBECQHGNR-UHFFFAOYSA-N chembl421 Chemical compound C1=C(O)C(C(=O)O)=CC(N=NC=2C=CC(=CC=2)S(=O)(=O)NC=2N=CC=CC=2)=C1 NCEXYHBECQHGNR-UHFFFAOYSA-N 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000015238 neurotic disease Diseases 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种低维显式语义空间下的语义关联度计算方法,其步骤为:首先,设计一种基于Wikipedia的显式特征选择算法,对给定一个词对的两个词项分别构建低维显式语义空间上的各自的显式特征列表;其次,针对各自的显式特征列表中的每个概念,抽取每个概念在Wikipedia中对应的文章,并根据概念对应文章之间的关联系数计算对应位置的概念之间的关联系数,进而求得两个显式特征列表之间的关联系数向量;最后,根据关联系数向量将两个不同的显式特征列表映射到相同的语义空间下,并计算两个词项之间的语义关联度。本发明通过特征向量中对应位置的不同分量之间的关联系数,实现在两个不同低维向量上计算语义关联度,具有更好的鲁棒性和有效性。
Description
技术领域
本发明涉及语义关联度的技术领域,特别是指一种低维显式语义空间下的语义关联度计算方法。
背景技术
计算词项之间的语义关联度一直是信息检索和自然语言理解当中的一个重要研究课题。在信息处理过程中,许多问题(如:文本分类、用户推荐、信息预测等)都需要以词项之间的语义关联度作为基础进行研究。因此语义关联度计算成为许多信息处理相关研究的共性问题。直观上讲,如果两个词项同时出现在同一句话中,或者同一个段落亦或是同一篇文章中,通常认为这两个词项之间应该具有一定的语义关联。虽然可以借助常识对语义关联度进行简单通俗的描述,但直到目前为止,对于这个概念仍然没有一个统一严格的形式定义。何为两个词项间的语义关联度?如何合理地计算词项间的语义关联度?如何评价语义关联度计算方法的好坏?这一系列问题一直都在被人们不断地讨论和探索。
鉴于语义关联度在数据科学领域如此重要,近年在语义关联度计算方面人们进行了很多研究,并获得了丰硕的研究成果。在这些研究当中,由Gabrilovich和Markovitch提出的显式语义分析方法(ESA算法)无论是针对词项还是文本片段,返回的计算结果与人们的认知和判断都有较好的一致性。
然而,ESA算法需要从语义数据源Wikipedia(或Wiktionary)中抽取背景知识并转化为一个大规模的词项-概念矩阵。随着Wikipedia数据规模的不断扩大,这种词项-概念形式的倒排索引(inverted index)矩阵会包含数以百万计的概念。此外,由于一个特定词项往往仅在少数Wikipedia包含的文章中出现,因此对于大部分文章而言,这个词项出现的频率为0。这将导致在该词项所对应的特征向量中,大部分维度的赋值为0。此时,在这种高维稀疏矩阵上,使用余弦度量(Cosine metric)计算语义关联度时,ESA算法的计算效果会显著下降,并造成不必要的资源浪费。
当前对于语义关联度计算的研究主要可以分为以下4类:①基于结构的方法;②基于信息量的方法;③基于特征的方法;④混合方法。
基于结构的关联度计算方法通过分析词项之间的连通路径长度以及词项在特定数据词典、分类体系或是知识图谱中所处的位置来计算概念间的语义关联度。比较具有代表性的成果如:文献[1]---[STRUBE M,PONZETTO S P.WikiRelate!computing semanticrelatedness using Wikipedia[C].Proceedings of AAAI Conference on ArtificialIntelligence.Washington DC,2006:1419-1424.]及其扩展版本文献[2]---[PONZETTO SP,STRUBE M.Taxonomy induction based on a collaboratively built knowledgerepository[J].Artificial Intelligence,2011,175(9):1737-1756.]、文献[3]---[MILNE D,WITTEN I H.An open-source toolkit for mining Wikipedia[J].ArtificialIntelligence,2013,194:222-239.]、以及国内一些学者的相关研究。基于结构的关联度计算方法的优势在于其基本模型的结构较为简单,因此,该类算法具有较低的计算复杂度和较好的执行效率。但也正是因为这种简单的结构,导致其计算的准确度受到限制。
为了解决上述基于结构的关联度计算方法的缺陷,人们又将语义数据的逻辑架构——本体作为研究对象,提出了基于信息量的关联度计算方法。基于信息量的计算方法以特定的本体为背景知识库,通过统计词项在目标知识库中的分布情况或拓扑参数来计算信息量,并将两个词项间的语义关联度转化为该知识库中信息量的一个函数。虽然基于信息量的计算方法可以在一定程度上提高语义关联度计算的准确度,但这类方法需要依赖于目标本体的结构及所包含的知识规模,因此其计算效果完全取决于本体自身知识的覆盖率以及构建的合理性。
为了进一步提高计算方法的准确率和通用性,通过分析词项或文本在目标本体或语义数据源中对应特征集合间的重叠度,人们又提出了基于特征的关联度计算方法。其中,比较具有代表性的是由文献[4]---[GABRILOVICH E,MARKOVITCH S.Computing semanticrelatedness using Wikipedia-based explicit semantic analysis[C].InternationalJoint Conference on Artifical Intelligence.Morgan Kaufmann Publishers Inc,2007:1606-1611.]于2007年首次提出的显式语义分析方法(ESA算法)。随后,文献[TAIEB MA H,AOUICHA M B,HAMADOU A B.A new semantic relatedness measurement usingWordNet features[J].Knowledge&Information Systems,2014,41(2):467-497.]、文献[5]---[JIANG Y,ZHANG X,TANG Y,NIE R.Feature-based approaches to semanticsimilarity assessment of concepts using Wikipedia[J].Information Processing&Management,2015,51(3):215-234.]、文献[6]---[JIANG Y,BAI W,ZHANG X,HUJ.Wikipedia-based information content and semantic similarity computation[J].Information Processing&Management,2017,53(1):248-265.]和文献[LI P,XIAO B,MAW,JIANG Y,ZHANG Z.A graph-based semantic relatedness assessment methodcombining wikipedia features[J].Engineering Applications Of ArtificialIntelligence,2017,65:268-281.]分别于2014至2017年也提出了不同的计算方法。虽然采用的特征定义方法和特征选择标准有所不同,但这些基于特征的关联度计算方法首先都需要选择特定的语义数据源作为背景知识库,然后从中抽取和筛选给定词项或文本对应的特征向量,并利用这些特征向量计算语义关联度。
混合计算方法就是将上述三种方法中的两种或三种进行集成来计算关联度。希望能够在发挥各类方法优点的同时相互弥补各自的缺陷。然而这种混合方法的计算成本相对较高,并且如何有效地对多种方法进行整合从而达到最佳的计算效果有待进一步研究。
发明内容
针对上述背景技术中的不足,本发明提出了一种低维显式语义空间下的语义关联度计算方法,解决了ESA算法在后续语义关联度计算过程中,因高维稀疏空间导致计算效果显著下降的技术问题。
本发明的技术方案是这样实现的:
一种低维显式语义空间下的语义关联度计算方法,其步骤如下:
S1、给定一个词对<t1,t2>,并分别基于Wikipedia的显式特征选择算法构建低维显式语义空间上的显式特征列表EFL(1)Top-k和EFL(2)Top-k,其中,显式特征列表EFL(1)Top-k=<c′1,c′2,…,c′k>,显式特征列表EFL(2)Top-k=<c″1,c″2,…,c″k>,c′i和c″i均为数据源Wikipedia中的概念,i=1,2,…,k,k=1,2,3,4,5,…为阈值;
S2、针对步骤S1中的显式特征列表EFL(1)Top-k和EFL(2)Top-k中每个概念,抽取每个概念在Wikipedia中对应的文章Art′i和Art″i,并将概念c′i和c″i分别替换为文章Art′i和Art″i;
S3、根据步骤S2中的文章Art′i和Art″i计算显式特征列表EFL(1)Top-k和EFL(2)Top-k中的概念c′i和c″i之间的关联系数λi;
S4、根据步骤S3中的关联系数λi计算显式特征列表EFL(1)Top-k和EFL(2)Top-k之间的关联系数向量
S5、根据步骤S4中的关联系数向量计算词对<t1,t2>中词项t1和t2之间的语义关联度Rel(t1,t2)。
所述步骤S1中基于Wikipedia的显式特征选择算法构建低维显式语义空间上的显式特征列表的方法为:
S11、给定一个词项t和阈值k,构建一个停用词列表,对词项t和Wikipedia文章中的停用词进行过滤;
S12、采用了词干提取算法对词项t与Wikipedia文章中经过停用词筛选的词汇进行归一化处理;
S13、采用tf-idf方法计算词项t与Wikipedia中的特征概念对应的tf-idf权值,并构建词项t与Wikipedia中概念之间的倒排索引;
S14、根据tf-idf权值对倒排索引中的概念进行排序,返回的有序倒排索引中前k个最相关的概念列表即为低维显式语义空间上的显式特征列表。
所述步骤S11中的词项t满足:给定一个词项t,称L=<A1,...,Ak>为词项t对应的显式特征列表EFLTop-k,其中,显式特征列表EFLTop-k中的每一个元素Ai都是一个二元组,即Ai=<ci,wi>,其中,ci为数据源Wikipedia中的概念,wi为概念ci对应的tf-idf权值,参数k=1,2,3,4,5,…;对于显式特征列表中的任意两个元素Ai=<ci,wi>和Aj=<cj,wj>满足如下条件:①若i≠j,则有ci≠cj;②若i<j,则有wi>wj。
所述步骤S2中将概念c′i和c″i分别替换为文章Art′i和Art″i可将显式特征列表EFL(1)Top-k转化为:EFL(1)Top-k=<Art′1,Art′2,…,Art′k>,显式特征列表EFL(2)Top-k转化为:EFL(2)Top-k=<Art″1,Art″2,…,Art″k>。
所述步骤S3中的关联系数满足:给定一个词对<t1,t2>,令L1=<c′1,...,c′k>和L2=<c″1,...,c″k>分别为t1和t2对应的显式特征列表EFL(1)Top-k和EFL(2)Top-k,则L1和L2之间的关联系数(association coefficient)被定义为一个k维向量,记为其中,λi∈[0,1]表示显式特征列表EFL(1)Top-k和EFL(2)Top-k对应分量上的概念c′i和c″i之间的距离或接近程度(i∈{1,...,k})。
所述概念c′i和c″i之间的关联系数λi表示为:λi=AssCoe(Art′i,Art″i),且λi∈[0,1],AssCoe(Art′i,Art″i)表示Wikipedia中概念c′i和c″i所对应文章Art′i和Art″i之间的关联系数。
所述关联系数AssCoe(Art′i,Art″i)的计算方法为:
S41、利用特征选择算法中的停用词列表和词干提取算法将文章a∈{Art′i,Art″i}解析为词干向量其中,为词干sj关于文章a在Wikipedia中获得的tf-idf权值,j=1,2,…,l,l=1,2,3,4,5,…为文章a中的词干数,n为Wikipedia中的文章总数,tf(sj,a)为词干sj在文章a中出现的次数,df(sj)为所有包含词干sj的文章个数;
S42、利用余弦度量计算关联系数AssCoe(Art′i,Art″i):
其中,Art′i和Art″i为Wikipedia中概念c′i和c″i所对应抽取的文章,和分别为词干sj关于文章Art′i和Art″i在Wikipedia中获得的tf-idf权值,i=1,2,…,k,k=1,2,3,4,5,…为阈值。
所述显式特征列表EFL(1)Top-k和EFL(2)Top-k之间的关联系数向量为:
所述语义关联度Rel(t1,t2)为:
其中,λi为概念c′i和c″i之间的关联系数,i=1,2,…,k,k=1,2,3,4,5,…为阈值。其中表示词项t1对于Wikipedia特征概念c′i的tf-idf值,表示词项t2对于Wikipedia特征概念c″i的tf-idf值。
根据语义关联度构建一个新的评价标准:给定一个标准测试集D以及对应的评分列表V=<v1,...,vq>(q=|D|),其中,vγ∈V是通过人工判断获得的第γ个词对的语义关联度;令V′=<v′1,...,v′q>为某种语义关联度计算方法M在D上返回的评分列表,则M的覆盖率(记为Cov(M))可定义为:
其中,qv′≠0表示评分列表V′中评分为非0值的词对数量,而qv=0∩v′=0表示在评分列表V和V′中评分同时为0值的词对数量。
本技术方案能产生的有益效果:本发明根据目标词项在Wikipedia数据源中的语义信息,通过提出的一种特征选择和排序方法,构建低维显式语义空间。在此基础上,根据特征概念在Wikipedia数据源中的映射信息,通过计算特征向量中对应位置的不同分量之间的关联系数,提出了一种低维显式语义空间下的语义关联度计算方法,并通过与其他方法对比验证了本发明方法的鲁棒性和有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为ESA算法流程。
图2为本发明的特征概念维度约减流程。
图3为本发明的流程图。
图4为ESA算法与本发明方法随阈值k的皮尔逊相关系数变化趋势。
图5为ESA算法与本发明方法随阈值k的斯皮尔曼相关系数变化趋势。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了完成本发明的设计任务,首先对ESA算法的理论知识进行阐述。ESA算法采用基于后期关联(latter association)的策略为词项和文本片段分配语义解释。根据倒排索引,ESA算法将每一个词项映射为一个特征向量。对于由两个词项构成的词对<t1,t2>,Wikipedia中的每一个概念cp表示词项tz(z∈{1,2})所对应特征向量中的一个维度。每个维度的权值wp采用tf-idf方法计算,用来表示概念cp和词项tz之间的关联度,比如:tz=<w1,w2,…,wL>,其中,L为Wikipedia中包含的所有概念数。在此基础上,ESA算法使用余弦度量来计算词对中t1与t2之间的语义相关度。根据上面描述,ESA算法的执行流程如图1所示。
由于Wikipedia的不断更新,使得其包含的语义知识和信息不断增长。这种趋势导致词项对应特征向量的维度不断增加。根据图1中所示的ESA算法流程,生成特征向量的维度等于Wikipedia中包含的所有概念数。之所以不能对向量空间进行降维是由ESA算法采用的具体计算方法决定的。由于ESA算法需要使用余弦度量计算语义关联度,根据公式的定义,ESA算法需要对两个词项分别构建特征向量,并且不仅要保两个特征向量具有相同的维度,还要保持对应维度的分量相同。由于不能保证两个词项总是出现在相同概念对应的文章当中,因此为了保证两个词项在相同的向量空间里,在不失一般性的前提下,对这两个词项构建的向量空间中应当包含Wikipedia中的所有概念。以2018年最新版的Wikipedia来看,其中包含的概念数超过570万条,那么对于每一个给出的词项而言,ESA算法为其生成的特征向量的维度自然也超过570万。对于这样高维的向量而言,如果无法全部加载到内存当中,那么ESA算法的计算能力将会大幅度的降低。
通常情况下一个词项只会在Wikipedia的很少一部分文章中出现,对于一个具体词项而言,在这种高维向量空间中,只有很少一部分分量具有非0值。那么给定词对中两个词项的特征向量会构成一个高维稀疏的词项-概念矩阵。显然使用余弦公式对这些0值分量的计算既占用大量时空资源,又没有任何意义。
不仅如此,在特征向量中,即便有些分量非空,但权值却非常低。这表明词项在该分量概念所对应的文章中虽然出现,但频率极低。按照常识,低权值就表示词项和该分量所对应概念之间的关联度较低。然而如果两个词项在相同分量上同时具备低权值,却有可能导致计算结果增加。在某些情况下,这种变化趋势是不合理的。因此这种低权值并不总能够合理地表示词项与概念之间的关联程度,反而在某种程度上会产生误导,造成一些意想不到的负面影响。
针对ESA算法存在的问题,提出了一种基于Wikipedia的特征选择算法,对ESA算法进行改进,从而构建低维显式语义空间,并以此作为语义关联度计算方法的基础。整体上讲,对特征概念进行维度约减的目的和功能就是仅返回与给定词项最相关的前k个相关概念,并按照对应的权值大小对这些概念进行排序。如图2所示,所述基于Wikipedia的显式特征选择算法构建低维显式语义空间上的显式特征列表的方法为:
S11、给定一个词项t和阈值k,构建一个停用词列表,对词项t和Wikipedia文章中的停用词进行过滤。
由于Wikipedia中的文章可以通过文档索引进行调用,并且每篇文章仅对应于一个概念,因此对于给定的某个词项t,可以根据词项t在文章中的出现频率,采用tf-idf方法在向量空间中给对应维度的概念进行赋值。权值越高,说明词项t与对应概念之间的关联度越高。因此,可以认为只有那些排名不超过阈值k(即前k个,如k=1000)的概念才是与词项t相关的有效特征。而那些排名超过阈值k的概念(即权值较低或为0)则与词项t不相关。
定义1(词项的显式特征列表,(Explicit Feature List,EFLTop-k)):给定一个词项t,称L=<A1,...,Ak>为词项t对应的显式特征列表EFLTop-k。其中,显式特征列表EFLTop-k中的每一个元素Ai都是一个二元组,即Ai=<ci,wi>。其中,ci为数据源Wikipedia中的概念,wi为概念ci对应的tf-idf权值,参数k=1,2,3,4,5,…。对于显式特征列表中的任意两个元素Ai=<ci,wi>和Aj=<cj,wj>满足如下条件:①若i≠j,则有ci≠cj;②若i<j,则有wi≥wj。
为了保证约减过程的正确性和有效性,首先,构建了一个停用词列表(stop-wordslist),在构建倒排索引时,对Wikipedia相应文章中的停用词进行过滤。因为这些停用词(如“is”、“and”以及“before”等)在语义层面对语义关联度计算没有任何意义。
S12、采用了词干提取算法对词项t与Wikipedia文章中经过停用词筛选的词汇进行归一化处理。不仅如此,在上述分词和筛选的基础上,进一步采用词干提取算法(又称词项归一)对输入的词项及每篇文章的内容进行规范化,将一个词的多种变形或派生格式转化为统一的标准格式。
S13、采用tf-idf方法计算词项t与Wikipedia中的特征概念对应的tf-idf权值,并构建词项t与Wikipedia中概念之间的倒排索引。从定义1可以看出,为了获得EFLTop-k,需对传统ESA算法进行改进,在对特征概念进行约减的过程中引入排序策略。通过倒排索引,特征选择算法可对语义空间中的概念根据对应的tf-idf权值进行排序,将对应权值wi较高的概念ci排在前边,并根据给定的阈值k筛选出前k个概念,将词项解析为一个长度为k的概念列表。
S14、根据tf-idf权值对倒排索引中的概念进行排序,返回的有序倒排索引中前k个最相关的概念列表即为低维显式语义空间上的显式特征列表。
实施例1:给定一个词项“car”(即t=“car”),并设定阈值k=10。表1给出了按照图2所示流程进行特征概念筛选后返回的在Wikipedia中与“car”最相关的前10个概念以及对应的tf-idf权值(即EFLTop-10)。
表1“car”的显式特征列表(EFLTop-10)
其中,表1中的Wikipedia版本为2016年4月7日的版本。
实施例2:对于语义关联度评估的著名标准测试集WordSimilarity-353中的一对词项<car,automobile>,专家通过人工判断对这两个词项给出的关联度评价为8.94。在图2所示的特征概念维度约减过程中,设定阈值k=10(即EFLTop-k的长度等于10)。根据图2所示的特征概念维度约减流程,从Wikipedia中分别返回了关于“car”和“automobile”的前10个最相关概念,如表2所示。
表2“car”和“automobile”的EFLTop-10中的特征概念
如实施例2所示,在10分制下,8.94分意味着两个词项“car”和“automobile”具有相当高的语义关联度。这种评价结果符合人们直觉上的认知判断。然而,从表2可以看出,在两个概念各自最相关的前十个概念当中,只有一个共有概念(即Wikipedia ID为2562877的“Car dealership”)。因此在设定阈值k=10的前提下,尽管两个概念所对应显式特征列表的模是相等的,但由于两个向量的分量不同,仍然无法使用余弦度量来进行关联度计算。换句话说,如果想应用余弦度量中的“点积”(dot product)公式,必须要保证两个向量具有相同的维度,同时各个分量也要相同。因此,如果要在上述情况下使用余弦公式,不得不将两个特征向量从原始大小扩展到二者的并集。这也正是传统ESA算法必须构建高维度的向量空间,并将所有Wikipedia的概念纳入其中的原因。
对于词对<car,automobile>而言,根据各自EFLTop-k获得最终符合条件的语义空间应当表示为V=EFL(car)Top-10∪EFL(automobile)Top-10。显然可以计算出如下结果:|V|=19。但在这19个分量当中,两个词项只有一个同时非0的有效分量“Car dealership”。可想而知,在这种情况下使用余弦度量计算语义关联度时,结果值将会很低。
考虑到Wikipedia总体的概念数超过500万条,面对如此大规模的语义数据,上述问题将会被进一步放大,并会导致计算结果出现更大的偏差。
如图3所示,本发明仅使用与给定词项最相关的前k个概念,构建较低维度的显式特征列表EFLTop-k作为特征向量,并以EFLTop-k为完整语义空间,提出了一种低维显式语义空间下的语义关联度计算方法,具体步骤如下:
S1、给定一个词对<t1,t2>,并分别基于Wikipedia的显式特征选择算法(图2)构建低维显式语义空间上的显式特征列表EFL(1)Top-k和EFL(2)Top-k,其中,显式特征列表EFL(1)Top-k=<c′1,c′2,…,c′k>,显式特征列表EFL(2)Top-k=<c″1,c″2,…,c″k>,c′i和c″i均为数据源Wikipedia中的概念,i=1,2,…,k,k=1,2,3,4,5,…为阈值。
由实施例2可知,对于给定词对<t1,t2>中t1和t2各自对应的显式特征列表L1和L2而言,在阈值k不是非常大的情况下,通常有L1≠L2。为了在这两个不相同的向量下计算语义关联度,我们首先需要对这两个语义空间中不同向量的各个分量进行分析,找出这些不同分量之间的对应关系。
定义2(EFLTop-k的关联系数):给定一个词对<t1,t2>,令L1=<c′1,...,c′k>和L2=<c″1,...,c″k>分别为t1和t2对应的显式特征列表EFL(1)Top-k和EFL(2)Top-k。则L1和L2之间的关联系数(association coefficient)(也即显式特征列表EFL(1)Top-k和EFL(2)Top-k之间的关联系数)可以被定义为一个k维向量,记为其中,λi∈[0,1]表示显式特征列表EFL(1)Top-k和EFL(2)Top-k对应分量上的概念c′i和c″i之间的距离或接近程度。
由定义1和定义2可知,当两个词项t1和t2所对应的显式特征列表不相同时,如果不对这两个特征向量执行并运算,则不能直接应用点击计算余弦度量。因此,需要计算两个EFLTop-k中对应位置上不同分量间的关联系数,并且构建相应的
Wikipedia是一个跨语言的开源在线百科全书。在链接数据网(Linked data)当中,Wikipedia是规模最大,使用最广泛并且数据量增长最快的语义数据源。由于Wikipedia覆盖了几乎所有领域的知识且具有丰富的语义信息,所以在计算EFLTop-k的关联系数时,选择Wikipedia作为背景语义数据源。
在Wikipedia中,每一个概念都有一篇对应的文章对其进行描述,二者之间是一种一一对应的关系。显然,将Wikipedia中对应文章作为显式特征概念的解释是很自然的。因此,接下来在对进行计算的过程中,我们将使用各概念所对应的Wikipedia文章作为信息来源,计算EFLTop-k中对应位置上显式特征概念之间的关联系数。
S2、针对步骤S1中的显式特征列表EFL(1)Top-k和EFL(2)Top-k中每个概念,且EFL(1)Top-k≠EFL(2)Top-k,抽取每个概念在Wikipedia中对应的文章Art′i和Art″i,并将概念c′i和c″i分别替换为文章Art′i和Art″i,则显式特征列表EFL(1)Top-k转化为:EFL(1)Top-k=<Art′1,Art′2,…,Art′k>,显式特征列表EFL(2)Top-k转化为:EFL(2)Top-k=<Art″1,Art″2,…,Art″k>。
S3、根据步骤S2中的文章Art′i和Art″i计算显式特征列表EFL(1)Top-k和EFL(2)Top-k中的概念c′i和c″i之间的关联系数λi。
根据定义2,所述概念c′i和c″i之间的关联系数λi可表示为:
λi=AssCoe(Art′i,Art″i) (1),
其中,λi∈[0,1],AssCoe(Art′i,Art″i)表示Wikipedia中概念c′i和c″i所对应文章Art′i和Art″i之间的关联系数。
显式特征列表EFL(1)Top-k和EFL(2)Top-k中的所有概念都按照其对应于词项tz(z∈{1,2})的tf-idf权重进行排序。概念在词项tz对应的列表EFL(z)Top-k中的位置越靠前,说明此概念与词项tz的关联性越高。因此,在计算关联系数λi时,本发明仅对两个显式特征列表EFL(1)Top-k和EFL(2)Top-k中相同位置的概念(分量)应用公式(1)进行关联系数的计算。
S4、根据步骤S3中的关联系数λi计算显式特征列表EFL(1)Top-k和EFL(2)Top-k之间的关联系数向量
所述关联系数AssCoe(Art′i,Art″i)的计算方法为:
S41、利用特征选择算法中的停用词列表和词干提取算法将文章a∈{Art′i,Art″i}解析为词干向量其中,为词干sj关于文章a在Wikipedia中获得的tf-idf权值,j=1,2,…,l,l=1,2,3,4,5,…为文章a中的词干数,n为Wikipedia中的文章总数,tf(sj,a)为词干sj在文章a中出现的次数,df(sj)为所有包含词干sj的文章个数;
S42、利用余弦度量计算关联系数AssCoe(Art′i,Art″i):
其中,Art′i和Art″i为Wikipedia中概念c′i和c″i所对应抽取的文章,和分别为词干sj关于文章Art′i和Art″i在Wikipedia中获得的tf-idf权值,i=1,2,…,k,k=1,2,3,4,5,…为阈值。
S5、根据步骤S4中的关联系数向量计算词对<t1,t2>中词项t1和t2之间的语义关联度Rel(t1,t2)。
所述语义关联度Rel(t1,t2)为:
其中,λi为概念c′i和c″i之间的关联系数,i=1,2,…,k,k=1,2,3,4,5,…为阈值。其中表示词项t1对于Wikipedia特征概念c′i的tf-idf值,表示词项t2对于Wikipedia特征概念c″i的tf-idf值。
为了对本发明提出的语义关联度计算方法的效果进行评估,将一些常用的著名数据集作为标准测试集,并针对这些标准测试集中给出的词对进行关联度计算。同时,采用在关联度计算相关研究中广泛应用并得到普遍认可的度量公式作为计算效果的评价标准。此外,受到文献[2]中相关内容的启发,设计了一种新的评价标准来衡量某种语义关联度计算方法对于给定测试集而言获得的有效结果所占比例(覆盖率,coverage ratio)。
标准测试集:对语义关联度计算方法的评估一般都采用在标准测试集上将计算结果与人工评价进行比较的方式进行。因此,本发明将在4个广泛使用的标准测试集上进行实验,从而对本发明提出的语义关联度计算方法进行评估。4个标准测试集分别为文献[M&C-30]---[MILLER G A,CHARLES W G.Contextual correlates of semantic similarity[J].Language Cognition&Neuroscience,1991,6(1):1-28.]、文献[R&G-65]---[RUBENSTEIN H,GOODENOUGH J B.Contextual correlates of synonymy[J].Communications of the Acm,1965,8(10):627-633.]、文献[MTurk-287]---[RADINSKYK,AGICHTEIN E,GABRILOVICH E,MARKOVITCH S.A word at a time:computing wordrelatedness using temporal semantic analysis[C].Proceedings of InternationalConference on World Wide Web.Hyderabad,2011:337-346.]和文献[WordSim-353]---[FINKELSTEIN L,GABRILOVICH E,MATIAS Y,RIVLIN E.Placing search in context:theconcept revisited[J].ACM Transactions on Information Systems,2002,20(1):116-131.]。关于这4个标准测试集的相关信息如表3所示。
表3标准测试集简介
评价语义关联度的正确性是一项十分困难的任务。这是因为,即使对于同一对客观对象,每个人对于它们之间的关联度都有不同的主观认识和判断。当前语义关联度计算中普遍采用的评价标准有两种,均是比较计算结果与人工判断之间的相关系数(correlation coefficients)来衡量某种计算方法的有效性。
第一种评价标准称为“皮尔逊积差相关系数”(Pearson product-momentcorrelation coefficient),简称“皮尔逊相关系数”,记为P。皮尔逊相关系数反映了某种语义关联度计算方法返回的结果与人工判断之间的线性相关性,其中,P=0值表示不相关,而P=1值表示完全相关。对应的度量公式为:
其中,参数xα表示标准测试集中第α个词对的人工评价结果,参数yα表示该词对应用某种语义关联度计算方法返回的结果,m表示标准测试集中包含词对的数量。
另一种评价标准称为“斯皮尔曼有序相关系数”(Spearman rank-ordercorrelation coefficient),简称“斯皮尔曼相关系数”,记为S。斯皮尔曼相关系数基于一种排序的策略将某种语义关联度计算方法返回的结果与人工判断进行比较,其中,S=0值表示不相关,而S=1值表示完全相关。对应的度量公式为:
其中,参数xα、yα和m与公式(5)中的含义相同,dα表示xα和yα在排序得到的有序列表中的位置差异。
此外,由于不同方法采用不同的计算策略,因此有些语义关联度计算方法不一定能针对标准测试集中的所有词对生成有效的计算结果。有些时候,算法可能会返回一些0值,并且这些0值并不是由于词对中的两个词项确实没有关联度而得到的正确结果,而是因为在向量空间中没有相应的非0分量才得到的无效结果。这种情况在低维向量空间下尤为明显。因此,对给定关联度计算方法在目标测试集上获得有效结果的覆盖能力进行评估也是非常重要的。为此,本发明定义了一个新的评价标准对语义关联度计算方法的有效性做进一步的评估。
定义3(覆盖率,Coverage Ratio):给定一个标准测试集D以及对应的评分列表V=<v1,...,vq>(q=|D|),其中,vγ∈V是通过人工判断获得的第γ个词对的语义关联度。令V′=<v′1,...,v′q>为某种语义关联度计算方法M在D上返回的评分列表。则M的覆盖率(记为Cov(M))可定义为:
其中,qv′≠0表示评分列表V′中评分为非0值的词对数量,而qv=0∩v′=0表示在评分列表V和V′中评分同时为0值的词对数量。
本发明利用公式(5)至公式(7)给出的度量公式在表3给出的标准测试集上进行实验,将本发明中提出的语义关联度计算方法和当前其他著名方法进行对比,从而对这种新的语义关联度计算方法的有效性进行评价。
实验过程及结果分析:
在具体实验中使用2016年4月7日的Wikipedia版本,保持与第2节特征约减算法的一致性。本发明采用JWPL(Java Wikipedia Library)对Wikipedia中的语义数据进行预处理,从而在Wikipedia中抽取特征概念以及对应的文章信息。根据图2所示的特征概念进行维度约减,在解释Wikipedia的dump文件时需要首先进行一些数据清洗工作和词干归一化操作(如:去除命令空间中包含有File、Help、Draft等的文件)。在此基础上,在JavaTM 2SDK和MySQL平台上使用Java语言对定义1、定义2和定义3中的相关公式进行程序编写,从而实现本发明中的语义关联度计算方法。
具体的实验和评价分为以下3部分:
实验1、以文献[WordSim-353]为目标测试集,通过对显式特征概念数k进行不同的赋值,比较覆盖率随EFLTop-k的变化趋势,并对传统ESA算法和本文提出的语义关联度计算方法的覆盖率进行对比分析。
实验2、针对传统ESA算法和本发明方法,以文献[WordSim-353]为目标测试集,通过对阈值k进行不同的赋值,比较两种方法在EFLTop-k规模变化的情况下对应相关系数P和S的变化趋势,并以此为后续的实验选取合适的阈值k。
实验3、将本发明方法和其他方法进行比较,进一步分析本发明方法的有效性和通用性。
实验1的目的是在一个维度相对较低的向量空间中对传统ESA算法及本发明提出方法的覆盖率进行评估。因此,两种方法都以显式特征列表EFLTop-k作为特征向量来构建整个向量空间模型。在具体实验中,显式特征列表EFLTop-k中的显式特征概念数k被设定为从1000到10000,具体的实验结果如表4所示。
表4 ESA算法与本发明方法在文献[WordSim-353]上的覆盖率比较
从表4可以看出,ESA算法在相对低维的向量空间下计算某些词对的语义关联度时会返回无效的0值结果。与ESA算法相比,本发明方法在低维语义空间下则具有很好的鲁棒性。当阈值k较小的时候,两个EFL(z)Top-k(z∈{1,2})所构成的特征向量中通常没有相同的概念。当两个特征向量相同位置的分量所对应概念不同时,本发明方法可以根据Wikipedia特征概念的显式语义信息计算关联系数(即),并将两个特征向量转换到相同的显式空间下。
此外,从ESA覆盖率Cov(ESA)的变化可以发现,Cov(ESA)在最初阶段的增长趋势十分明显。具体而言,有效结果的数量在参数从k=1000到k=6000的变化过程中由239个增加到了344个,其覆盖率增长了29.74%。而当参数从k=6000到k=10000的过程中,覆盖率仅增长了1.98%。显然,这个阶段Cov(ESA)的增长速度大大降低。上述现象恰恰反映了传统ESA算法的局限性,即需要构建一个高维的语义空间来保证其有效性,这显然会影响ESA算法的计算效果。同时,也验证了本发明方法在低维语义空间下的有效性。
接下来,本发明将根据皮尔逊相关系数公式和斯皮尔曼相关系数公式对传统ESA算法和本发明方法所对应的皮尔逊相关系数(P)和斯皮尔曼相关系数(S)进行计算和对比。通过对结果的分析,为接下来的实验确定适当的阈值k。
之所以选择文献[WordSim-353]作为目标测试集是因为文献[WordSim-353]在当前公开发布的标准测试集中是规模最大的测试集。同时,文献[WordSim-353]测试集也是在当前语义关联度计算相关研究当中应用最为广泛的测试集。
与实验1相同,实验2仍然沿用区间[1000,10000]作为EFLTop-k中显式特征概念数k的值域范围。表5给出了应用ESA算法和本文方法获得的对应相关系数P和S的具体实验结果。
表5 ESA算法与本文方法在WordSim-353上的相关系数比较
如表5中所示的计算结果,在低维向量空间中,虽然随着特征概念数k的增加,ESA算法和本发明方法在两种相关系数上均有提升,但本发明方法无论是在皮尔逊相关系数(P)上还是在斯皮尔曼相关系数(S)上,都获得了比ESA算法更高的分值。这表明应用本发明方法得到的结果更加符合人类的直觉判断。
在表5中,一个值得注意的取值点为k=6000。此时,本发明方法所对应的斯皮尔曼相关系数(S)为0.749。这一结果与Gabrilovich和Markovitch在文献[4]中给出的研究结果相差无几。然而为了获得该结果,文献[4]中Gabrilovich和Markovitch所构建的向量空间当中包含了Wikipedia中的所有概念,而本发明方法则是在k=6000的低维空间下进行计算的。不仅如此,当阈值k从6000增长至10000的过程中本发明方法对应的斯皮尔曼相关系数(S)还继续得到了小幅度的提升。关于两种方法所对应皮尔逊相关系数(P)及斯皮尔曼相关系数(S)的趋势图分别如图4和图5所示。
如图4和图5所示,两种语义关联度计算方法所对应的皮尔逊相关系数(P)及斯皮尔曼相关系数(S)都随着阈值k的增加而不断增长。由于斯皮尔曼相关系数(S)引入了排序策略,因此斯皮尔曼相关系数(S)整体上都高于相同情况下的皮尔逊相关系数(P)。此外,不像覆盖率的变化趋势那样明显,图4和图5中曲线的增长从开始阶段就比较平缓,而在阈值k从6000增长至10000的过程中,皮尔逊相关系数(P)和斯皮尔曼相关系数(S)几乎保持稳定,对应曲线基本变为平直。因此,为了在获得较好计算结果的同时保证一定的计算效率,本发明选取阈值k=10000来设定显式特征列表EFLTop-k的长度,并构建相应的显式语义空间。
在实验1和实验2的基础上,将本发明方法与其他方法进行比较。表6对各种方法在不同测试集上的相关评价结果进行了总结。
表6相关研究方法在不同测试集上的相关系数(P和S)
表6中,文献[7]---[MILNE D.Computing semantic relatedness usingWikipedia link structure[C].Proceedings of New Zealand Computer ScienceResearch Student Conference.New Zealand,2007.],文献[8]---[YEH E,RAMAGE D,MANNING C D,AGIRRE E,SOROA A.WikiWalk:random walks on Wikipedia for semanticrelatedness[C].Proceedings of Workshop on Graph-based Methods for NaturalLanguage Processing.Singapore,2009:41-49.],文献[9]---[JARMASZ M,SZPAKOWICZS.Roget’s thesaurus and semantic similarity[C].Proceedings of Recent Advancesin Natural Language Processing.Borovets,2012:212-219.],文献[10]---[TAIEB M AH,AOUICHA M B,TMAR M,HAMADOU A B.Wikipedia category graph and new intrinsicinformation content metric for word semantic relatedness measuring[C].Proceedings of International Conference on Data and KnowledgeEngineering.Wuyishan,2012:128-140.],文献[11]---[TAIEB M A H,AOUICHA M B,HAMADOU A B.Computing semantic relatedness using Wikipedia features[J].Knowledge-Based Systems,2013,50(50):260-278.],文献[12]---[张波,陈宏朝,朱新华,吴田俊.基于多重继承与信息内容的知网词语相似度计算[J].计算机应用研究,2018,35(10):2975-2979.],文献[13]代表文献[LIN D.An information-theoretic definitionof similarity[C].Proceedings of International Conference on MachineLearning.Madison,1998:296-304.]。
在表6中,各语义关联度计算方法根据其发表的年份进行排序,同时使用粗体将每列中的最大值(评价效果最好的方法)进行了标记。从表6中我们可以清楚地看到,对于表3中给出的4个最为常用的测试集而言,许多相关研究仅将对应的关联度计算方法应用于某一个或者两个测试集上进行实验和评价,这种现象在较早期的研究中尤为突出。造成这种现象的主要原因是由于各测试集的发布时间(见表3)。
从表6可以看出,通过分析Wikipedia中的语义信息,尽管仅使用了Wikipedia中很少一部分概念(k=10000)作为向量空间(约占整个向量空间规模的0.18%),本发明方法在当前最常用的4个测试集上,无论使用皮尔逊相关系数(P)还是斯皮尔曼相关系数(S)都能返回极具竞争力的评估效果。虽然该方法在某些情况下返回的相关系数值不是最佳结果(例如:在文献[M&C-30]、文献[MTurk-287]上的斯皮尔曼相关系数),但这些值与最佳结果之间的差距非常小。不仅如此,从图4和图5所示的变化趋势来看,在允许更高计算复杂度的前提下,随着所构建显式语义空间中维度k的不断增加,本发明方法将在皮尔逊相关系数(P)和斯皮尔曼相关系数(S)上获得更好的评价结果。
最后,由于Wikipedia在不断地更新,因此即使选择同一个语义数据源作为研究对象,不同的研究者往往都是根据当时的情况选择不同的版本来开展各自的研究工作。鉴于这种情况,直接将这些方法所对应的评价结果进行比较显然是不公平的,尤其对那些基于新版本的方法更为不利。因为随着语义数据源规模的不断扩大,概念的数量会持续增加。这种趋势将导致向量空间的维度大幅增长。可想而知,之前的关联度计算方法如果使用同一个语义数据源对应的新版本,那么与其自身原有的评估结果相比,新获得的结果可能会有所下降。因此,对表6中评估结果的比较仅能够作为一种参考,并不能看出绝对意义上的优劣。总之,从表6中可以看出本发明方法在不同测试集上进行测试时,显示出了很强的鲁棒性,同时能够获得较好的评价结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种低维显式语义空间下的语义关联度计算方法,其特征在于,其步骤如下:
S1、给定一个词对<t1,t2>,并分别基于Wikipedia的显式特征选择算法构建低维显式语义空间上的显式特征列表EFL(1)Top-k和EFL(2)Top-k,其中,显式特征列表EFL(1)Top-k=<c′1,c′2,…,c′k>,显式特征列表EFL(2)Top-k=<c″1,c″2,…,c″k>,c′i和c″i均为数据源Wikipedia中的概念,i=1,2,…,k,k=1,2,3,4,5,…为阈值;
S2、针对步骤S1中的显式特征列表EFL(1)Top-k和EFL(2)Top-k中每个概念,抽取每个概念在Wikipedia中对应的文章Art′i和Art″i,并将概念c′i和c″i分别替换为文章Art′i和Art″i;
S3、根据步骤S2中的文章Art′i和Art″i计算显式特征列表EFL(1)Top-k和EFL(2)Top-k中的概念c′i和c″i之间的关联系数λi;
S4、根据步骤S3中的关联系数λi计算显式特征列表EFL(1)Top-k和EFL(2)Top-k之间的关联系数向量
S5、根据步骤S4中的关联系数向量计算词对<t1,t2>中词项t1和t2之间的语义关联度Rel(t1,t2)。
2.根据权利要求1所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述步骤S1中基于Wikipedia的显式特征选择算法构建低维显式语义空间上的显式特征列表的方法为:
S11、给定一个词项t和阈值k,构建一个停用词列表,对词项t和Wikipedia文章中的停用词进行过滤;
S12、采用了词干提取算法对词项t与Wikipedia文章中经过停用词筛选的词汇进行归一化处理;
S13、采用tf-idf方法计算词项t与Wikipedia中的特征概念对应的tf-idf权值,并构建词项t与Wikipedia中概念之间的倒排索引;
S14、根据tf-idf权值对倒排索引中的概念进行排序,返回的有序倒排索引中前k个最相关的概念列表即为低维显式语义空间上的显式特征列表。
3.根据权利要求2所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述步骤S11中的词项t满足:给定一个词项t,称L=<A1,...,Ak>为词项t对应的显式特征列表EFLTop-k,其中,显式特征列表EFLTop-k中的每一个元素Ai都是一个二元组,即Ai=<ci,wi>,其中,ci为数据源Wikipedia中的概念,wi为概念ci对应的tf-idf权值,参数k=1,2,3,4,5,…;对于显式特征列表中的任意两个元素Ai=<ci,wi>和Aj=<cj,wj>满足如下条件:①若i≠j,则有ci≠cj;②若i<j,则有wi>wj。
4.根据权利要求1所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述步骤S2中将概念c′i和c″i分别替换为文章Art′i和Art″i可将显式特征列表EFL(1)Top-k转化为:EFL(1)Top-k=<Art′1,Art′2,…,Art′k>,显式特征列表EFL(2)Top-k转化为:EFL(2)Top-k=<Art″1,Art″2,…,Art″k>。
5.根据权利要求1所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述步骤S3中的关联系数满足:给定一个词对<t1,t2>,令L1=<c′1,...,c′k>和L2=<c″1,...,c″k>分别为t1和t2对应的显式特征列表EFL(1)Top-k和EFL(2)Top-k,则L1和L2之间的关联系数(association coefficient)被定义为一个k维向量,记为其中,λi∈[0,1]表示显式特征列表EFL(1)Top-k和EFL(2)Top-k对应分量上的概念c′i和c″i之间的距离或接近程度(i∈{1,...,k})。
6.根据权利要求1或2所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述概念c′i和c″i之间的关联系数λi表示为:λi=AssCoe(Art′i,Art″i),且λi∈[0,1],AssCoe(Art′i,Art″i)表示Wikipedia中概念c′i和c″i所对应文章Art′i和Art″i之间的关联系数。
7.根据权利要求3所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述关联系数AssCoe(Art′i,Art″i)的计算方法为:
S41、利用特征选择算法中的停用词列表和词干提取算法将文章a∈{Art′i,Art″i}解析为词干向量其中,为词干sj关于文章a在Wikipedia中获得的tf-idf权值,j=1,2,…,l,l=1,2,3,4,5,…为文章a中的词干数,n为Wikipedia中的文章总数,tf(sj,a)为词干sj在文章a中出现的次数,df(sj)为所有包含词干sj的文章个数;
S42、利用余弦度量计算关联系数AssCoe(Art′i,Art″i):
其中,Art′i和Art″i为Wikipedia中概念c′i和c″i所对应抽取的文章,和分别为词干sj关于文章Art′i和Art″i在Wikipedia中获得的tf-idf权值,i=1,2,…,k,k=1,2,3,4,5,…为阈值。
8.根据权利要求1或4所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述显式特征列表EFL(1)Top-k和EFL(2)Top-k之间的关联系数向量为:
9.根据权利要求5所述的低维显式语义空间下的语义关联度计算方法,其特征在于,所述语义关联度Rel(t1,t2)为:
其中,λi为概念c′i和c″i之间的关联系数,i=1,2,…,k,k=1,2,3,4,5,…为阈值。其中表示词项t1对于Wikipedia特征概念c′i的tf-idf值,表示词项t2对于Wikipedia特征概念c″i的tf-idf值。
10.根据权利要求9所述的低维显式语义空间下的语义关联度计算方法,其特征在于,根据语义关联度构建一个新的评价标准:给定一个标准测试集D以及对应的评分列表V=<v1,...,vq>(q=|D|),其中,vγ∈V是通过人工判断获得的第γ个词对的语义关联度;令V'=<v′1,...,v′q>为某种语义关联度计算方法M在D上返回的评分列表,则M的覆盖率(记为Cov(M))可定义为:
其中,qv'≠0表示评分列表V'中评分为非0值的词对数量,而qv=0∩v'=0表示在评分列表V和V'中评分同时为0值的词对数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886344.XA CN110598216A (zh) | 2019-09-19 | 2019-09-19 | 一种低维显式语义空间下的语义关联度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886344.XA CN110598216A (zh) | 2019-09-19 | 2019-09-19 | 一种低维显式语义空间下的语义关联度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598216A true CN110598216A (zh) | 2019-12-20 |
Family
ID=68861118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910886344.XA Pending CN110598216A (zh) | 2019-09-19 | 2019-09-19 | 一种低维显式语义空间下的语义关联度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598216A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737112A (zh) * | 2012-04-25 | 2012-10-17 | 北京航空航天大学 | 基于表现语义分析的概念相关度计算方法 |
US20160179945A1 (en) * | 2014-12-19 | 2016-06-23 | Universidad Nacional De Educación A Distancia (Uned) | System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model |
CN109325230A (zh) * | 2018-09-21 | 2019-02-12 | 广西师范大学 | 一种基于维基百科双向链接的词语语义相关度判断方法 |
CN109871429A (zh) * | 2019-01-31 | 2019-06-11 | 郑州轻工业学院 | 融合Wikipedia分类及显式语义特征的短文本检索方法 |
-
2019
- 2019-09-19 CN CN201910886344.XA patent/CN110598216A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737112A (zh) * | 2012-04-25 | 2012-10-17 | 北京航空航天大学 | 基于表现语义分析的概念相关度计算方法 |
US20160179945A1 (en) * | 2014-12-19 | 2016-06-23 | Universidad Nacional De Educación A Distancia (Uned) | System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model |
CN109325230A (zh) * | 2018-09-21 | 2019-02-12 | 广西师范大学 | 一种基于维基百科双向链接的词语语义相关度判断方法 |
CN109871429A (zh) * | 2019-01-31 | 2019-06-11 | 郑州轻工业学院 | 融合Wikipedia分类及显式语义特征的短文本检索方法 |
Non-Patent Citations (5)
Title |
---|
PU LI等: "A graph-based semantic relatedness assessment method combining wikipedia features", 《A GRAPH-BASED SEMANTIC RELATEDNESS ASSESSMENT METHOD COMBINING WIKIPEDIA FEATURES》 * |
YUNCHENG JIANG等: "Feature-based approaches to semantic similarity assessment of concepts using Wikipedia", 《INFORMATION PROCESSING AND MANAGEMENT: AN INTERNATIONAL JOURNAL》 * |
万富强等: "基于中文维基百科的词语语义相关度计算", 《中文信息学报》 * |
汪志伟等: "一种基于Wikipedia的词汇语义关联度计算方法", 《计算机应用与软件》 * |
肖宝等: "混合词汇特征和LDA的语义相关度计算方法", 《计算机工程与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Noh et al. | Keyword selection and processing strategy for applying text mining to patent analysis | |
Wang et al. | Local probabilistic models for link prediction | |
CN111373392B (zh) | 文献分类装置 | |
CN107577785A (zh) | 一种适用于法律识别的层次多标签分类方法 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN111897963B (zh) | 一种基于文本信息和机器学习的商品分类方法 | |
Yi et al. | A hidden Markov model-based text classification of medical documents | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN106372122B (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
WO2020063071A1 (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
Li et al. | A graph-based semantic relatedness assessment method combining wikipedia features | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN112199508A (zh) | 一种基于远程监督的参数自适应农业知识图谱推荐方法 | |
CN113032573B (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
Wang et al. | A semantic query expansion-based patent retrieval approach | |
CN114201598A (zh) | 文本推荐方法及文本推荐装置 | |
Rahmoun et al. | Experimenting N-Grams in Text Categorization. | |
CN105224689A (zh) | 一种东巴文献分类方法 | |
Saha et al. | A large scale study of SVM based methods for abstract screening in systematic reviews | |
Miani et al. | Narfo algorithm: Mining non-redundant and generalized association rules based on fuzzy ontologies | |
CN110598216A (zh) | 一种低维显式语义空间下的语义关联度计算方法 | |
Zhang et al. | Extending associative classifier to detect helpful online reviews with uncertain classes | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |