CN103092828B - 基于语义分析和语义关系网络的文本相似度度量方法 - Google Patents

基于语义分析和语义关系网络的文本相似度度量方法 Download PDF

Info

Publication number
CN103092828B
CN103092828B CN201310046975.3A CN201310046975A CN103092828B CN 103092828 B CN103092828 B CN 103092828B CN 201310046975 A CN201310046975 A CN 201310046975A CN 103092828 B CN103092828 B CN 103092828B
Authority
CN
China
Prior art keywords
semantic
node
texts
similarity
bipartite graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310046975.3A
Other languages
English (en)
Other versions
CN103092828A (zh
Inventor
吴国华
尤金朋
张祯
王玉娟
邵根富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongfu Information Co Ltd
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201310046975.3A priority Critical patent/CN103092828B/zh
Publication of CN103092828A publication Critical patent/CN103092828A/zh
Application granted granted Critical
Publication of CN103092828B publication Critical patent/CN103092828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于语义分析和语义关系网络的文本相似度度量方法:一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;四、根据两个文本的特征集合构建二分图,并设置二分图两部分之间的路径权值;五、利用二分图最优匹配法计算两个文本之间的相似度。本发明基于语义分析和语义关系网络的文本相似度度量方法,可用于数据挖掘和信息检索技术领域,例如文本聚类、信息检索等,其与现有的其他文本相似度计算方法相比,极大地提高了文本相似度计算的准确程度。

Description

基于语义分析和语义关系网络的文本相似度度量方法
技术领域
本发明属于文本相似度度量方法技术领域,特别是涉及一种基于语义分析和语义关系网络的文本相似度度量方法。
背景技术
随着网络信息的迅速发展,如何在海量的文本信息资源中快捷且准确地获取有用的信息已成为数据挖掘和信息检索技术领域亟待解决的问题。
文本相似度的度量可用于数据挖掘和信息检索技术领域,如文本相似度计算是文本聚类、信息检索、自动问答中的关键步骤。目前,较为典型的文本相似度方法主要有基于语义理解和基于数理统计两种,但这两种方法都存在的问题是:没有考虑词汇对文本相似度度量所具有作用与地位。因此,度量的准确性不高。
发明内容
本发明提供了一种基于语义分析和语义关系网络的文本相似度度量方法,其用于数据挖掘和信息检索过程中,将文本转化为语义关系网络以提取文本特征,并最终转化为二分图以实现文本相似度的计算,极大地提高了计算结果的准确程度。
为了实现上述目的,本发明公开了基于语义分析和语义关系网络的文本相似度度量方法,其按如下步骤进行:
一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;
二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;
三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;
四、根据两个文本的特征集合构建二分图,并设置二分图两部分(即二分图的两个点集)之间的路径权值;
五、利用二分图最优匹配法计算两个文本之间的相似度。
优选的,步骤一,预处理包括中文分词和去除停用词。
优选的,步骤二,构建语义关系网络的节点由步骤一的结果组成,构建语义关系网络的边的权值由词汇之间的语义相似度计算得到,表示为w(i,j),i和j为步骤一预处理结果中的不同词汇,w(i,j)的计算式如下:
w(i,j)=1-sim(i,j)
i:预处理结果中的一个词汇;
j:预处理结果中的另一个词汇;
sim(i,j):两个词汇的语义相似度。
优选的,步骤二,两个词汇之间的语义相似度可以根据具体的语义词典或语义库来计算,但结果要进行归一化处理。
优选的,步骤三,计算每个节点的流介数值,按照流介数值排序,取前m大的流介数值所对应的词汇作为该文本特征;节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例,用Bfu表示,计算式为:
B fu = &Sigma; i < j &Sigma; &delta; l u | P ij |
|Pij|:从节点i到节点j之间的所有路径数;
表示经过节点u是否在从节点i到节点j之间某个路径上,是则为1,否则为0。
优选的,步骤三,在获得文本特征之后需要将每个文本特征的流介数值进行归一化处理,公式如下:
B Fu ( i ) = B fu ( i ) &Sigma; j = 1 m B fu ( i )
i:一个文本特征词汇对应的节点;
m:文本特征的个数,为输入值;
Bfu:节点流介数值;
BFu:归一化流介数值。
优选的,步骤四,构建二分图的两部分(X,Y)分别为步骤三的两个文本的特征集合,两部分之间的边的权值为所述的路径权值w(xi,yj),计算公式为:
w ( x i , y j ) = B Fu ( x i ) &times; B Fu ( y j ) &times; sim ( W xi , W yj )
xi:二分图X部分的一个节点;
yj:二分图Y部分的一个节点;
sim(Wxi,Wyj):二分图中节点xi与yj对应词汇的语义相似度;
BFu:节点对应的归一化流介数值。
优选的,步骤五,设利用二分图最优匹配算法求得的一个最优匹配M为:
M={(Xi1,Yj1),(Xi2,Yj2),...,(Xim,Yjm)}
步骤一输入的两个文本的相似度计算式为:
sim ( D 1 , D 2 ) = &Sigma; k = 1 m w ( X ik , Y jk ) m
w:步骤四中二分图边的权值;
m:文本特征的个数,为输入值;
sim(D1,D2):两个文本的相似度。
本发明基于语义分析和语义关系网络的文本相似度度量方法,可用于数据挖掘和信息检索技术领域,例如文本聚类、信息检索等,其与现有的其他文本相似度度量方法相比,极大地提高了文本相似度度量的准确程度。
附图说明
图1为本发明基于语义分析和语义关系网络的文本相似度度量方法的流程图。
图2为语义关系网络示意图。
图3为二分图的结构示意图。
具体实施方式
下面结合附图对本发明实施例作详细说明。
参见图1、2、3,本实施例基于语义分析和语义关系网络的文本相似度度量方法,其按如下步骤进行:
一、输入两个文本并对这两个文本进行预处理,预处理包括中文分词和去除停用词,预处理的结果为词汇的集合。
二、计算两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络。两个词汇之间的语义相似度可以根据具体的语义词典或语义库来计算,但结果要进行归一化处理。
此步中,如图2所示,构建语义关系网络的节点由步骤一预处理的结果组成,若两个词汇的语义相似度为0,则这两个词汇对应的节点之间没有路径可达,否则可达。若两个节点之间有路径可达,则构建语义关系网络的边的权值由步骤二的词汇语义相似度计算得到,表示为w(i,j),i和j为步骤一预处理结果中的不同词汇,w(i,j)的计算公式如下:
w(i,j)=1-sim(i,j)
i:预处理结果中的一个词汇;
j:预处理结果中的另一个词汇;
sim(i,j):两个词汇的语义相似度。
三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合。
此步骤中,计算每个节点的流介数值,按照流介数值排序,取前m大的流介数值所对应的词汇作为该文本特征,其中,m为输入值;节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例,用Bfu表示,计算式为:
B fu = &Sigma; i < j &Sigma; &delta; l u | P ij |
|Pij|:从节点i到节点j之间的所有路径数;
表示经过节点u是否在从节点i到节点j之间某个路径上,是则为1,否则为0。
在获得文本特征之后需要将每个文本特征的流介数值进行归一化处理,公式如下:
B Fu ( i ) = B fu ( i ) &Sigma; j = 1 m B fu ( i )
i:一个文本特征;
m:文本特征的个数,为输入值;
Bfu:步骤三的节点流介数值;
BFu:归一化流介数值。
四、根据两个文本的特征集合构建二分图,并设置二分图两部分(即二分图的两个点集)之间的路径权值,如图3所示。
此步骤中,构建二分图的两部分(X,Y)分别为步骤三的两个文本的特征集合,两部分之间的边的权值为所述的路径权值w(xi,yj),计算公式为:
w ( x i , y j ) = B Fu ( x i ) &times; B Fu ( y j ) &times; sim ( W xi , W yj )
xi:二分图X部分的一个节点;
yj:二分图Y部分的一个节点;
sim(Wxi,Wyj):二分图中节点xi与yj对应词汇的语义相似度;
BFu:节点对应的归一化流介数值。
五、利用二分图最优匹配法计算两个文本之间的相似度。
此步骤,设利用二分图最优匹配算法求得的一个最优匹配M为:
M={(Xi1,Yj1),(Xi2,Yj2),...,(Xim,Yjm)}
步骤一输入的两个文本的相似度计算式为:
sim ( D 1 , D 2 ) = &Sigma; k = 1 m w ( X ik , Y jk ) m
w:步骤四中二分图边的权值;
m:文本特征的个数,为输入值;
sim(D1,D2):两个文本的相似度。
本技术领域中的普通技术人员应当认识到,以上实施例仅是用来说明本发明,而并非作为对本发明的限定,只要在本发明的范围内,对以上实施例的变化、变形都将落在本发明的保护范围。

Claims (3)

1.基于语义分析和语义关系网络的文本相似度度量方法,其特征是按如下步骤进行:
一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;
二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;构建语义关系网络的节点由步骤一预处理的结果组成,构建语义关系网络的边的权值由步骤二的词汇语义相似度计算得到,表示为w(i,j),i和j为步骤一预处理结果中的不同词汇,w(i,j)的计算式如下:
w(i,j)=1-sim(i,j)
i:预处理结果中的一个词汇;
j:预处理结果中的另一个词汇;
sim(i,j):两个词汇的语义相似度;
三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;计算每个节点的流介数值,按照流介数值排序,取前m大的流介数值所对应的词汇作为该文本特征,其中,m为输入值;节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例,用Bfu表示,计算式为:
B fu = &Sigma; i < j &Sigma; &delta; l u | P ij |
|Pij|:从节点i到节点j之间的所有路径数;
表示经过节点u是否在从节点i到节点j之间某个路径上,是则为1,否则为0;步骤三,在获得文本特征之后将每个文本特征的流介数值进行归一化处理,公式如下:
B Fu ( i ) = B fu ( i ) &Sigma; j = 1 m B fu ( i )
i:一个文本特征;
m:文本特征的个数,为输入值;
Bfu:步骤三的节点流介数值;
BFu:归一化流介数值;
四、根据两个文本的特征集合构建二分图,并设置二分图两部分之间的路径权值;构建二分图的两部分(X,Y)分别为步骤三的两个文本的特征集合,两部分之间的边的权值为所述的路径权值w(xi,yj),计算式为:
w ( xi , yi ) = B Fu ( xi ) &times; B Fu ( yi ) &times; sim ( W xi , W yi )
xi:二分图X部分的一个节点;
yj:二分图Y部分的一个节点;
sim(Wxi,Wyj):二分图中节点xi与yj对应词汇的语义相似度;
BFu:节点对应的归一化流介数值;
五、利用二分图最优匹配法得到两个文本之间的相似度;设利用二分图最优匹配求得结果为:
M={(Xi1,Yj1),(Xi2,Yj2),...,(Xim,Yjm)}
步骤一输入的两个文本的相似度计算式为:
sim ( D 1 , D 2 ) = &Sigma; k = 1 m w ( X ik , Y jk ) m
w:步骤四中二分图边的权值;
m:文本特征的个数,为输入值;
sim(D1,D2):步骤一输入两个文本的相似度。
2.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤一,预处理包括中文分词和去除停用词。
3.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤二,根据具体的语义词典或语义库计算两个词汇之间的语义相似度。
CN201310046975.3A 2013-02-06 2013-02-06 基于语义分析和语义关系网络的文本相似度度量方法 Active CN103092828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310046975.3A CN103092828B (zh) 2013-02-06 2013-02-06 基于语义分析和语义关系网络的文本相似度度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310046975.3A CN103092828B (zh) 2013-02-06 2013-02-06 基于语义分析和语义关系网络的文本相似度度量方法

Publications (2)

Publication Number Publication Date
CN103092828A CN103092828A (zh) 2013-05-08
CN103092828B true CN103092828B (zh) 2015-08-12

Family

ID=48205416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310046975.3A Active CN103092828B (zh) 2013-02-06 2013-02-06 基于语义分析和语义关系网络的文本相似度度量方法

Country Status (1)

Country Link
CN (1) CN103092828B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252445B (zh) * 2013-06-26 2017-11-24 华为技术有限公司 近似重复文档检测方法及装置
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN104346443B (zh) * 2014-10-20 2018-08-03 北京国双科技有限公司 网络文本处理方法及装置
CN104933032A (zh) * 2015-06-29 2015-09-23 电子科技大学 一种基于复杂网络的博客关键词提取方法
CN105357586B (zh) * 2015-09-28 2018-12-14 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN105808689A (zh) * 2016-03-03 2016-07-27 中国地质大学(武汉) 一种基于人工神经网络的水系实体语义相似性度量方法
CN105912514B (zh) * 2016-04-28 2019-03-22 吴国华 基于指纹特征的文本复制检测系统及方法
CN106610949A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种基于语义分析的文本特征提取方法
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106570112A (zh) * 2016-11-01 2017-04-19 四川用联信息技术有限公司 基于改进的蚁群算法实现文本聚类
CN106547739B (zh) * 2016-11-03 2019-04-02 同济大学 一种文本语义相似度分析方法
CN108763271B (zh) * 2018-04-08 2022-09-23 浙江工业大学 一种结合二分网络和文本的医院科室相似性分析方法
CN109002499B (zh) * 2018-06-29 2022-04-12 浙江蓝鸽科技有限公司 学科相关性知识点库构建方法及其系统
CN111091009B (zh) * 2019-11-20 2022-03-15 中国电子科技集团公司第三十研究所 一种基于语义分析的文档关联审核方法
CN114416990B (zh) * 2022-01-17 2024-05-21 北京百度网讯科技有限公司 对象关系网络的构建方法、装置和电子设备
CN117131241B (zh) * 2023-02-09 2024-05-24 荣耀终端有限公司 搜索对象推荐方法、电子设备及计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN1604073A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行标题与正文逻辑关联的方法
CN101079025A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN102779119A (zh) * 2012-06-21 2012-11-14 盘古文化传播有限公司 一种抽取关键词的方法及装置
CN102782682A (zh) * 2010-03-01 2012-11-14 微软公司 语义对象表征和搜索

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN1604073A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行标题与正文逻辑关联的方法
CN101079025A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN102782682A (zh) * 2010-03-01 2012-11-14 微软公司 语义对象表征和搜索
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN102779119A (zh) * 2012-06-21 2012-11-14 盘古文化传播有限公司 一种抽取关键词的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于WordNet和二分图的语义Web服务发现算法》;华建新等;《微计算机信息》;20100831;第26卷(第24期);198-200 *
《基于知网语义相似度计算的文本特征提取》;陈远翔等;《信息安全与通信保密》;20090610(第5期);89-91 *
张磊等.《基于匈牙利算法的语义相似度分析在信息安全泄密检查中的应用》.《新乡学院学报:自然科学版》.2010,第27卷(第6期),50-52,56. *

Also Published As

Publication number Publication date
CN103092828A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103092828B (zh) 基于语义分析和语义关系网络的文本相似度度量方法
CN106599029A (zh) 一种中文短文本聚类方法
Nguyen et al. Relation extraction: Perspective from convolutional neural networks
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103235774B (zh) 一种科技项目申请书特征词提取方法
CN106547739A (zh) 一种文本语义相似度分析方法
CN105243152A (zh) 一种基于图模型的自动文摘方法
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN109800310A (zh) 一种基于结构化表达的电力运维文本分析方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104361026A (zh) 一种fmea分析过程中的故障知识存储和推送方法
Xue et al. Research of text categorization model based on random forests
CN104239512A (zh) 一种文本推荐方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN104699667A (zh) 改进的基于语义词典的词语相似度计算方法和装置
CN104199838A (zh) 一种基于标签消歧的用户模型建构方法
CN103116573A (zh) 一种基于词汇注释的领域词典自动扩充方法
CN102831116A (zh) 用于文档聚类的方法及系统
CN104572633A (zh) 一种确定多义词词义的方法
CN104572632A (zh) 一种确定具有专名译文的词汇的翻译方向的方法
CN107577738A (zh) 一种通过svm文本挖掘处理数据的fmeca方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190730

Address after: Room 505-507, Building 57, Science Park Road, Baiyang Street, Hangzhou Economic and Technological Development Zone, Zhejiang 310000

Patentee after: Hangzhou Dexie Electronic Technology Co., Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Jianggan District Xiasha Higher Education Park No. 2 street

Patentee before: Hangzhou Electronic Science and Technology Univ

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200110

Address after: Xinluo Avenue high tech Zone of Ji'nan City, Shandong province 250101 No. 1166 orsus No. 2 building, 16 floor

Patentee after: Zhongfu Information Co., Ltd.

Address before: Room 505-507, Building 57, Science Park Road, Baiyang Street, Hangzhou Economic and Technological Development Zone, Zhejiang 310000

Patentee before: Hangzhou Dexie Electronic Technology Co., Ltd.