CN104699763A - 多特征融合的文本相似性度量系统 - Google Patents

多特征融合的文本相似性度量系统 Download PDF

Info

Publication number
CN104699763A
CN104699763A CN201510072955.2A CN201510072955A CN104699763A CN 104699763 A CN104699763 A CN 104699763A CN 201510072955 A CN201510072955 A CN 201510072955A CN 104699763 A CN104699763 A CN 104699763A
Authority
CN
China
Prior art keywords
similarity
text
vocabulary
word
wikipedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510072955.2A
Other languages
English (en)
Other versions
CN104699763B (zh
Inventor
马博
李晓
蒋同海
周喜
王磊
杨雅婷
赵凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN201510072955.2A priority Critical patent/CN104699763B/zh
Publication of CN104699763A publication Critical patent/CN104699763A/zh
Application granted granted Critical
Publication of CN104699763B publication Critical patent/CN104699763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。

Description

多特征融合的文本相似性度量系统
技术领域
本发明涉及信息技术领域中的智能信息处理技术领域,尤其涉及基于语义的文本相似性度量方法及系统。
背景技术
语义相似性是智能信息处理领域中的一项核心技术,可应用于查询扩展、词义消歧、问答系统和信息检索等。评估语义相似性也是众多研究领域的一项重要任务,如心理学、认知科学、人工智能等。
监督式方法和非监督方法是语义相似性度量的两种主流方法,监督式方法需要先验知识,如知识库系统或本体资源,如DBPedia、WordNet、HowNet等;非监督方法则主要通过统计学习方法获取上下文信息和规律,完成语义相似性度量过程。
基于路径的相似性度量是监督式方法中的一种经典方法,以本体结构为参照,根据本体概念间的连接关系计算语义相似性,两个概念间的连接路径越短,则相似性越高,反之亦然。
sim ( c i , c j ) = e - αl e βh - e - βh e βh + e - βh , c i ≠ c j 1 c i = c j - - - ( 1 )
其中,l是ci和cj之间的路径距离,h是ci和cj之间的本体概念树中的层次距离,根据经验,一般取α=0.2,β=0.6。
基于互信息的相似性度量是非监督方法中的一种常用方法,通过词汇wi与wj在上下文中的共现关系,计算两个词汇间的相似性:
I ( X , Y ) = log | D | w i , w j | | D | / | D | w i | | D | · | D | w j | | D | - - - ( 2 )
Cilibrasi和Vitanyi提出了基于搜索引擎的相似性度量方法,将要计算相似性的一组词汇作为搜索关键字输入到搜索引擎中,利用返回的搜索结果进行相似性计算:
NGD ( w i , w j ) = max { log f ( w i ) , log f ( w j ) } - log f ( w i , w j ) log N - min { log f ( w i ) , log f ( w j ) } - - - ( 3 )
其中,f(wi)和f(wj)表示搜索引擎返回的包含词汇wi与wj的搜索结果数量,f(wi,wj)表 示搜索引擎返回的同时包含wi与wj的搜索结果数量。
在现有的文本相似性度量系统存在以下问题:
1)在计算过程中一般只考虑基于词频的特征,将输入文本作为无序词袋进行处理,忽略了词间顺序和其中蕴含的语义关系;
2)对于短文本,本身蕴含的语义信息较少,需要采用方法对其进行语义扩充,从而才能较好完成相似性计算过程;
为解决常规的文本相似性度量中的问题,本发明提供了一种基于多特征融合的文本相似性度量系统
发明内容
本发明提供了一种基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。
本发明所述的一种基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,具体操作按下列步骤进行:
a.训练文本预处理模块:对训练文本进行预处理,分词,去停用词,去标点符号;
b.词向量模型训练模块:获取文本内词间语义特征,使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度,获取词汇间的语义关联;
c.基于词频的相似性度量模块:使用基于词频的方法,计算两个文本间的相似程度;首先获取两个输入文本的词汇并计算词频,存储到向量中,然后度量两个向量的余弦相似度,两个向量之间的余弦相似度越高,则表示两个词汇的上下文越近似,也就表示两个词汇在语义上的相似程度越高;
d.基于词向量的语义相似性度量模块:使用步骤b模块训练好的词向量模型,度量两个文本间的相似性;其中包括首先对两个文本中的词汇进行基于对齐的消歧操作,具体是根据词向量计算得到的相似性,将两个文本间相似性最高的词作为词对保存,然后计算两个文本间所有词对间的语义相似性,并进行汇总;
e.基于维基百科标签的相似性度量模块:使用维基百科标签作为中间媒介,计算两个文本间的相似性;首先计算所有维基百科标签与输入文本的相似性,并从结果中选取相似性最高的一个子集,然后直接计算两个输入文件所对应的维基百科标签集之间的相似性,从而获取相似性结果;
f.融合词频特征、词向量特征和维基百科标签特征的相似性度量模块:为三种融合词频特征、词向量特征和维基百科标签特征分配权重,并将三种相似性度量结果汇总,得到两个输入文本的最终相似性结果。
步骤b中通过采用层次逻辑回归方法,将计算量从输入节点的线性计算开销降低到对数计算开销,并获得近似的概率分布,从而提高计算效率。
步骤d中所述的基于对齐的消歧方法:对于给定的两个词汇序列1和2,对于词汇序列1中的任一词汇,依次计算该词汇与词汇序列2中词汇的相似性,并选择相似性最高的词汇形成词对,以此类推,遍历词汇序列1中的所有词汇,找到所有的词对,进而完成两个输入词汇序列的对齐和消歧过程。
步骤e中所述的文本所对应的词向量采用该文本所包含词汇的词向量的平均值进行表示。
本发明所述的一种基于多特征融合的文本相似性度量系统,该系统是通过以下技术方案实现的:
融合了词频、词向量和维基百科标签多种特征和方法对文本相似性进行度量,具体包括如下步骤:
a、训练文本预处理:对训练文本进行预处理,分词,去停用词,去标点符号;
b、词向量模型训练:为了获取文本内词间语义特征,使用深度学习方法进行多次迭代,对文本进行训练,将训练文本集合内的每个词汇表示成为200维的向量特征,进而可以通过度量向量之间的余弦相似度,获取词汇间的语义关联;
词向量模型训练的目的是发现和预测一个词汇在其上下文中的词汇序列,更加形式化地,给定一个训练词序列:w1w2,w3,Λ,wT,目标是最大化如公式:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( w t + j | w t ) - - - ( 1 )
其中c表示训练上下文窗口的大小,p(wt+j|wt)由逻辑回归(softmax)定义,如下所示:
p ( w O | w I ) = exp ( v w O ′ T v w I ) Σ w = 1 W exp ( v w ′ T v w I ) - - - ( 2 )
其中vw和v'w是词w的输入和输出向量化表示,W表示训练语料中包含的词汇总量;
softmax的计算采用了一种更有效率的近似计算方式:层次逻辑回归(hierarchical sof tmax),softmax需要计算W个节点的神经网络从而获得概率分布,而层次逻辑回归hierarch ical softmax使用二元树的结构来表示输出层的W个节点,从而只需计算log2(W)个节点,便获得近似的概率分布:
p ( w | w I ) = Π j = 1 L ( w ) - 1 σ ( | | n ( w , j + 1 ) = ch ( n ( w , j ) ) | | · v n ( w , j ) ′ T v w I ) - - - ( 3 )
其中σ(x)=1/(1+exp(-x));
对于训练语料中的词汇不平衡问题,采用二次抽样的方法来进行解决,训练语料中词汇wi的概率通过如下公式进行计算:
P ( w i ) = 1 - t f ( w i ) - - - ( 4 )
其中f(wi)表示词汇wi的频率,t表示阈值,根据经验,一般设置为10-5
c、基于词频的相似性度量:主要使用基于词频的方法,度量两个文本间的相似程度,该步骤主要包括两个部分:首先获取两个输入文本的词汇,计算词频并存储到向量中A和B中:[A1,A2,...,An]和[B1,B2,...,Bn];然后计算两个向量的余弦相似度:
cos θ = A · B | A | × | B | - - - ( 5 )
d、基于词向量的语义相似性度量:使用训练好的词向量模型,度量两个文本间的相似性,该步骤主要包括两个部分:首先对两个文本中的词汇进行对齐消歧操作,具体是根据词向量计算得到的相似性,将两个文本间相似性最高的词作为词对保存;然后计算两个文本间所有词对间的语义相似性,并进行汇总;
基于对齐的消歧方法包括:对于给定的两个词汇序列T1和T2,对于T1中的任一词汇wi,依次计算wi与T2中词汇的相似性,并选择相似性最高的词汇wj与wi形成词对(wi,wj),以此类推,遍历T1中的所有词汇,找到所有的词对,进而完成两个输入词汇序列的对齐和消歧过程;
e、基于维基百科标签的相似性度量,使用维基百科标签作为中间媒介,度量两个文本间的相似性,该步骤主要包括两个部分:首先计算所有维基百科标签与输入文本的相似性,并从结果中选取相似性最高的一个子集;然后直接计算两个输入文本所对应的维基百科标签集之间的相似性,从而获取相似性结果;
基于维基百科标签的相似性计算包括:对于词汇wi表示其词向量,整个文本的词向量用如下公式表示:
v S = Σ i = 1 n v w i / n - - - ( 6 )
其中S表示文本,n表示S中的词汇数量。
T={t1,t2,Λ,tn}表示维基百科标签集合,ti表示其中的一个标签,对于输入文本的词向量表示vS,遍历计算vS与ti的相似性,并最终选出相似性最高的一个子集作为输入文本S的维基百科标签。
f、融合词频特征、词向量特征和维基百科标签特征的相似性度量:为三种融合词频特征、词向量特征和维基百科标签特征分配权重,并将三种相似性计算结果汇总,得到两个输入文本的最终相似性结果。
融合词频特征、词向量特征和维基百科标签特征的相似性计算方法如下:
Sim(ti,tj)=α·SimBOW(ti,tj)+β·Simw2v(ti,tj)+χ·Simwiki(ti,tj)   (7) 
其中SimBOW表示基于词频的相似性,Simw2v表示基于词向量的相似性,Simwiki表示基于维基百科标签的相似性。
α,β,χ表示权重,α+β+χ=1,根据长期测试经验,α=0.2,β=0.4,χ=0.4。
采用归一化方法,将相似性度量结果归一化到的[0,1]区间:
Sim ( t i , t j ) = Sim ( t i , t j ) - Sim ( t i , t j ) min Sim ( t i , t j ) max - Sim ( t i , t j ) min - - - ( 8 )
本发明所述的一种基于多特征融合的文本相似性度量系统,该系统所提供的技术方案的积极效果是:融合了词频、词向量和维基百科标签多种语义特征,并在相似性度量前进行基于对齐的消歧处理,将文本表示成基于词汇间语义关系的词向量形式,以达到充分发现词间上下文中蕴含的潜在语义关联的效果。基于维基百科标签的语义扩充和词向量的200维统一表示方式,也克服了文本长度相差较大时所带来的相似性结果精度低的问题。
附图说明
图1为本发明流程
图2为本发明与两个参照系统在英文数据集上的准确率对比,其中—●—为本发明中所用系统,—○—为基线系统1,—▲—为基线系统2;
图3为本发明与两个参照系统在英文数据集上的召回率对比,其中—●—为本发明中所用系统,—○—为基线系统1,—▲—为基线系统2;
图4为本发明与两个参照系统在中文数据集上的准确率对比,其中—●—为本发明中所用系统,—○—为基线系统1,—▲—为基线系统2;
图5为本发明与两个参照系统在中文数据集上的召回率对比,其中—●—为本发明中所用系统,—○—为基线系统1,—▲—为基线系统2;
图6为本发明实施例中展示了两个句子A:[领导,训斥,职员]和B:[员工,老板,批评]
具体实施方式
实施例
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明:
附图1所示,本发明包括如下几个步骤:
训练文本预处理:对训练文本进行预处理,分词,去停用词,去标点符号;例如,对于句子A:“领导训斥了职员”和句子B:“员工被老板批评了”,经过分词,去停用词,去标点符号的处理后,表示为A:[领导,训斥,职员]和B:[员工,老板,批评];
词向量模型训练:为了获取文本内词间语义特征,使用深度学习方法进行多次迭代,对文本进行训练,将训练文本集合内的每个词汇表示成为200维的向量特征,进而可以通过计算向量之间的余弦相似度,获取词汇间的语义关联;
词向量模型训练的目的是发现和预测一个词汇在句子或上下文中的词汇序列,更加形式化地,给定一个训练词序列:w1w2,w3,Λ,wT,目标是最大化如下公式:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( w t + j | w t ) - - - ( 1 )
其中c表示训练上下文窗口的大小,p(wt+j|wt)由逻辑回归(softmax)定义,如下所示:
p ( w O | w I ) = exp ( v w O ′ T v w I ) Σ w = 1 W exp ( v w ′ T v w I ) - - - ( 2 )
其中vw和v'w是词w的输入和输出向量化表示,W表示训练语料中包含的词汇总量。
softmax的计算采用了一种更有效率的近似计算方式:层次逻辑回归(hierarchical sof tmax),softmax需要计算W个节点的神经网络从而获得概率分布,而层次逻辑回归(hierar chical softmax)使用二元树的结构来表示输出层的W个节点,从而只需计算log2(W)个节点,便获得近似的概率分布:
p ( w | w I ) = Π j = 1 L ( w ) - 1 σ ( | | n ( w , j + 1 ) = ch ( n ( w , j ) ) | | · v n ( w , j ) ′ T v w I ) - - - ( 3 )
其中σ(x)=1/(1+exp(-x));
对于训练语料中的词汇不平衡问题,采用二次抽样的方法来进行解决,训练语料中词汇wi的概率通过如下公式进行计算:
P ( w i ) = 1 - t f ( w i ) - - - ( 4 )
其中f(wi)表示词汇wi的频率,t表示阈值,根据经验,一般设置为10-5
基于词频的相似性度量:主要使用基于词频的方法,度量两个文本间的相似程度,该步骤主要包括两个部分:首先获取两个输入文本的词汇并计算词频,存储到向量中;然后计算两个向量的余弦相似度;例如,对于句子A:[领导,训斥,职员]和句子B:[员工,老板,批评],在基于词频的相似性度量方法中,只有句子A中的“职员”和句子B中的“员工”具有相同的“员”字,具有较低的相似性;
基于词向量的语义相似性度量:使用训练好的词向量模型,度量两个文本间的相似性,该步骤主要包括两个部分:首先对两个文本中的词汇进行对齐消歧操作,具体是根据词向量计算得到的相似性,将两个文本间相似性最高的词作为词对保存;然后计算两个文本间所有词对间的语义相似性,并进行汇总;
基于对齐的消歧方法包括:对于给定的两个词汇序列T1和T2,对于T1中的任一词汇wi,依次计算wi与T2中词汇的相似性,并选择相似性最高的词汇wj与wi形成词对(wi,wj),以此类推,遍历T1中的所有词汇,找到所有的词对,进而完成两个输入词汇序列的对齐和消歧过程,图6中展示了两个句子A:[领导,训斥,职员]和B:[员工,老板,批评],预处理后进行对齐消歧操作的示例,经过消歧处理,建立了(领导,老板)、(训斥,批评)、(职员,员工)的词汇对,这样在进一步进行相似性计算时,就可以直接计算词汇对间的相似性,并进行汇总,在减少计算量的同时,提高计算结果准确率;
基于维基百科标签的相似性度量,使用维基百科标签作为中间媒介,度量两个文本间的相似性,该步骤主要包括两个部分:首先计算所有维基百科标签与输入文本的相似性,并从结果中选取相似性最高的一个子集;然后直接计算两个输入文本所对应的维基百科标签集之间的相似性,从而获取相似性结果;
基于维基百科标签的相似性计算包括:对于词汇wi表示其词向量,整个文本的词向量用如下公式表示:
v S = Σ i = 1 n v w i / n - - - ( 5 )
其中S表示文本,n表示S中的词汇数量;
T={t1,t2,Λ,tn}表示维基百科标签集合,ti表示其中的一个标签,对于输入文本的词向量表示vS,遍历计算vS与ti的相似性,并最终选出相似性最高的一个子集作为输入文本S的维基百科标签;
融合词频特征、词向量特征和维基百科标签特征的相似性计算:为三种融合词频特征、 词向量特征和维基百科标签特征分配权重,并将三种相似性计算结果汇总,得到两个输入文本的最终相似性结果;
融合词频特征、词向量特征和维基百科标签特征的相似性计算方法如下:
Sim(ti,tj)=α·SimBOW(ti,tj)+β·Simw2v(ti,tj)+χ·Simwiki(ti,tj)    (6) 
其中SimBOW表示基于词频的相似性,Simw2v表示基于词向量的相似性,Simwiki表示基于维基百科标签的相似性;
α,β,χ表示权重,α+β+χ=1,根据长期测试经验,α=0.2,β=0.4,χ=0.4。
采用归一化方法,将相似性计算结果归一化到的[0,1]区间:
Sim ( t i , t j ) = Sim ( t i , t j ) - Sim ( t i , t j ) min Sim ( t i , t j ) max - Sim ( t i , t j ) min - - - ( 7 )
为了验证本发明中多特征融合的文本相似性度量系统的性能,将本系统应用到相似性度量问题中,在中英文数据集上与基线系统进行对比实验:
数据集:英文数据集采用微软篇章数据集,其中包括5800对从新闻中抽取的句子,每对句子标注了是否相似的对应关系;中文数据集包括10000对教学类资源与课文的对应关系,两个数据集如表1表2所示;
表1微软英文篇章数据集
  微软英文篇章数据集 训练集 测试集
总数 5801 4076 1725
语义相似 3900 2753 1147
非语义相似 1901 1323 578
表2中文数据集 
  中文数据集 训练集 测试集
总数 10000 7500 2500
语义相似 8000 6000 2000
非语义相似 2000 1500 500
基线方法:选取基于知识库的相似性度量系统(基线系统1)和基于词向量的相似性度量系统(基线系统2)作为两个对比的基线系统,基线系统1采用wordNet作为知识库,计算文档间的相似性;基线系统2则只采用词向量的方法,对文档间相似性进行衡量;
评价指标:选择准确率(Precision)和召回率(Recall)作为三个系统的评价指标, 如下所示: 
Precision=TP/(TP+FP)   (8)
Recall=TP/(TP+FN)   (9)
附图4附图5展示了阿尔法(阿尔法用来表示阈值)从0.0到1.0变化过程中,三个系统在英文数据集表1上的准确率和召回率,从附图4附图5中可以看出,本发明的系统的准确率和召回率略高于基线系统1,二者都明显高于基线系统2,这是由于本发明的系统和基线系统1都使用了知识库来增强相似性计算效果,同时本发明的系统还使用了词向量作为其中的一项语义特征;
附图6展示了阿尔法从0.0到1.0变化过程中,三个系统在中文数据集表2上的准确率和召回率,从附图6中可以看出,本发明的系统取得了最好的实验结果,基线系统1的效果最差,这是由于基线系统1所使用的知识库wordNet无法应用于中文数据集,所以实验结果最差;基线系统2优于基线系统1是由于词向量方法是语言无关的,因此基线系统2性能较为稳定。
本发明未详细阐述的部分属于本领域公知技术。显然,本领域的技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,如改变数据格式和内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意包含这些改动和变型在内。

Claims (4)

1.一种基于多特征融合的文本相似性度量系统,其特征在于该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,具体操作按下列步骤进行:
a.训练文本预处理模块:对训练文本进行预处理,分词,去停用词,去标点符号;
b.词向量模型训练模块:获取文本内词间语义特征,使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度,获取词汇间的语义关联;
c.基于词频的相似性度量模块:使用基于词频的方法,计算两个文本间的相似程度;首先获取两个输入文本的词汇并计算词频,存储到向量中,然后度量两个向量的余弦相似度,两个向量之间的余弦相似度越高,则表示两个词汇的上下文越近似,也就表示两个词汇在语义上的相似程度越高;
d.基于词向量的语义相似性度量模块:使用步骤b模块训练好的词向量模型,度量两个文本间的相似性;其中包括首先对两个文本中的词汇进行基于对齐的消歧操作,具体是根据词向量计算得到的相似性,将两个文本间相似性最高的词作为词对保存,然后计算两个文本间所有词对间的语义相似性,并进行汇总;
e.基于维基百科标签的相似性度量模块:使用维基百科标签作为中间媒介,计算两个文本所对应的词向量的相似性;首先计算所有维基百科标签与输入文本的相似性,并从结果中选取相似性最高的一个子集,然后直接计算两个输入文件所对应的维基百科标签集之间的相似性,从而获取相似性结果;
f.融合词频特征、词向量特征和维基百科标签特征的相似性度量模块:为三种融合词频特征、词向量特征和维基百科标签特征分配权重,并将三种相似性度量结果汇总,得到两个输入文本的最终相似性结果。
2.根据权利要求1所述的基于多特征融合的文本相似性度量系统,其特征在于步骤b中通过采用层次逻辑回归方法,将计算量从输入节点的线性计算开销降低到对数计算开销,并获得近似的概率分布,从而提高计算效率。
3.根据权利要求1所述的基于多特征融合的文本相似性度量系统,其特征在于步骤d中所述的基于对齐的消歧方法:对于给定的两个词汇序列1和2,对于词汇序列1中的任一词汇,依次计算该词汇与词汇序列2中词汇的相似性,并选择相似性最高的词汇形成词对,以此类推,遍历词汇序列1中的所有词汇,找到所有的词对,进而完成两个输入词汇序列的对齐和消歧过程。
4.根据权利要求1所述的基于多特征融合的文本相似性度量系统,其特征在于步骤e中所述的文本所对应的词向量采用该文本所包含词汇的词向量的平均值进行表示。
CN201510072955.2A 2015-02-11 2015-02-11 多特征融合的文本相似性度量系统 Active CN104699763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510072955.2A CN104699763B (zh) 2015-02-11 2015-02-11 多特征融合的文本相似性度量系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510072955.2A CN104699763B (zh) 2015-02-11 2015-02-11 多特征融合的文本相似性度量系统

Publications (2)

Publication Number Publication Date
CN104699763A true CN104699763A (zh) 2015-06-10
CN104699763B CN104699763B (zh) 2017-10-17

Family

ID=53346884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510072955.2A Active CN104699763B (zh) 2015-02-11 2015-02-11 多特征融合的文本相似性度量系统

Country Status (1)

Country Link
CN (1) CN104699763B (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN105630767A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN105808689A (zh) * 2016-03-03 2016-07-27 中国地质大学(武汉) 一种基于人工神经网络的水系实体语义相似性度量方法
CN105868187A (zh) * 2016-03-25 2016-08-17 北京语言大学 多译本平行语料库的构建方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106484678A (zh) * 2016-10-13 2017-03-08 北京智能管家科技有限公司 一种短文本相似度计算方法及装置
CN106598942A (zh) * 2016-11-17 2017-04-26 天津大学 基于表情分析和深度学习的社交网络情感分析方法
CN106611054A (zh) * 2016-12-26 2017-05-03 电子科技大学 海量文本中企业行为或事件的抽取方法
CN106844410A (zh) * 2015-12-04 2017-06-13 奥多比公司 确定多媒体内容的摘要的质量
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107273503A (zh) * 2017-06-19 2017-10-20 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107451911A (zh) * 2017-07-19 2017-12-08 唐周屹 一种基于财务流水数据提供实时可视化信息的方法和系统
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107729310A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种文本信息的提取方法、装置和移动终端
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN108073571A (zh) * 2018-01-12 2018-05-25 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108376144A (zh) * 2018-01-12 2018-08-07 上海大学 基于深度神经网络的场景自动切换的人机多轮对话方法
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108520018A (zh) * 2018-03-22 2018-09-11 大连理工大学 一种基于词向量的文学作品创作年代判定方法
CN108681574A (zh) * 2018-05-07 2018-10-19 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN109145529A (zh) * 2018-09-12 2019-01-04 重庆工业职业技术学院 一种用于版权认证的文本相似性分析方法与系统
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109522531A (zh) * 2017-09-18 2019-03-26 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
CN109767065A (zh) * 2018-12-13 2019-05-17 重庆金融资产交易所有限责任公司 资产管理方法、装置及计算机可读存储介质
CN110532546A (zh) * 2019-07-29 2019-12-03 河北远东通信系统工程有限公司 一种融合地理位置和文本相似性的警情自动下发方法
CN110874403A (zh) * 2018-08-29 2020-03-10 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN111191004A (zh) * 2019-12-27 2020-05-22 咪咕文化科技有限公司 文本标签提取方法、装置及计算机可读存储介质
CN111581960A (zh) * 2020-05-06 2020-08-25 上海海事大学 一种获取医学文本语义相似度的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977676A (zh) * 2017-11-24 2018-05-01 北京神州泰岳软件股份有限公司 文本相似度计算方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
CN102982099A (zh) * 2012-11-05 2013-03-20 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN102982099A (zh) * 2012-11-05 2013-03-20 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋胜利等: "面向文本分类的中文文本语义表示方法", 《西安电子科技大学学报(自然科学版)》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN105279264B (zh) * 2015-10-26 2018-07-03 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN106844410A (zh) * 2015-12-04 2017-06-13 奥多比公司 确定多媒体内容的摘要的质量
CN106844410B (zh) * 2015-12-04 2022-02-08 奥多比公司 确定多媒体内容的摘要的质量
CN105630767A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN105808689A (zh) * 2016-03-03 2016-07-27 中国地质大学(武汉) 一种基于人工神经网络的水系实体语义相似性度量方法
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN105868187A (zh) * 2016-03-25 2016-08-17 北京语言大学 多译本平行语料库的构建方法
CN105786782B (zh) * 2016-03-25 2018-10-19 北京搜狗信息服务有限公司 一种词向量的训练方法和装置
CN105868187B (zh) * 2016-03-25 2018-05-08 北京语言大学 多译本平行语料库的构建方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN107729310A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种文本信息的提取方法、装置和移动终端
CN106484678A (zh) * 2016-10-13 2017-03-08 北京智能管家科技有限公司 一种短文本相似度计算方法及装置
CN106598942A (zh) * 2016-11-17 2017-04-26 天津大学 基于表情分析和深度学习的社交网络情感分析方法
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108090077B (zh) * 2016-11-23 2021-08-31 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN106611054A (zh) * 2016-12-26 2017-05-03 电子科技大学 海量文本中企业行为或事件的抽取方法
CN106844346B (zh) * 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107273503B (zh) * 2017-06-19 2020-07-10 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107273503A (zh) * 2017-06-19 2017-10-20 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107451911A (zh) * 2017-07-19 2017-12-08 唐周屹 一种基于财务流水数据提供实时可视化信息的方法和系统
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN109522531B (zh) * 2017-09-18 2023-04-07 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN109522531A (zh) * 2017-09-18 2019-03-26 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107832288B (zh) * 2017-09-27 2020-06-16 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107730002B (zh) * 2017-10-13 2020-06-02 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN108376144A (zh) * 2018-01-12 2018-08-07 上海大学 基于深度神经网络的场景自动切换的人机多轮对话方法
CN108073571A (zh) * 2018-01-12 2018-05-25 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108073571B (zh) * 2018-01-12 2021-08-13 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108399163B (zh) * 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108520018A (zh) * 2018-03-22 2018-09-11 大连理工大学 一种基于词向量的文学作品创作年代判定方法
CN108681574B (zh) * 2018-05-07 2021-11-05 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN108681574A (zh) * 2018-05-07 2018-10-19 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110874403B (zh) * 2018-08-29 2024-03-08 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN110874403A (zh) * 2018-08-29 2020-03-10 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN109145529A (zh) * 2018-09-12 2019-01-04 重庆工业职业技术学院 一种用于版权认证的文本相似性分析方法与系统
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109767065A (zh) * 2018-12-13 2019-05-17 重庆金融资产交易所有限责任公司 资产管理方法、装置及计算机可读存储介质
CN110532546B (zh) * 2019-07-29 2023-03-31 中国电子科技集团公司第五十四研究所 一种融合地理位置和文本相似性的警情自动下发方法
CN110532546A (zh) * 2019-07-29 2019-12-03 河北远东通信系统工程有限公司 一种融合地理位置和文本相似性的警情自动下发方法
CN111191004A (zh) * 2019-12-27 2020-05-22 咪咕文化科技有限公司 文本标签提取方法、装置及计算机可读存储介质
CN111191004B (zh) * 2019-12-27 2023-09-22 咪咕文化科技有限公司 文本标签提取方法、装置及计算机可读存储介质
CN111581960A (zh) * 2020-05-06 2020-08-25 上海海事大学 一种获取医学文本语义相似度的方法
CN111581960B (zh) * 2020-05-06 2023-09-29 上海海事大学 一种获取医学文本语义相似度的方法

Also Published As

Publication number Publication date
CN104699763B (zh) 2017-10-17

Similar Documents

Publication Publication Date Title
CN104699763A (zh) 多特征融合的文本相似性度量系统
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
Lev et al. In defense of word embedding for generic text representation
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN109934251B (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN114330343B (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
Hettinger et al. Genre classification on German novels
Praciano et al. Spatio-temporal trend analysis of the brazilian elections based on twitter data
Castillo et al. Text analysis using different graph-based representations
Jebari et al. A new approach for implicit citation extraction
CN109190099A (zh) 句模提取方法及装置
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN117349423A (zh) 一种模板匹配式水利领域知识问答模型
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN111241848B (zh) 一种基于机器学习的文章阅读理解答案检索方法及装置
Kavitha et al. A review on machine learning techniques for text classification
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
CN103150371A (zh) 正反向训练去混淆文本检索方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
Shanmugam et al. Twitter sentiment analysis using novelty detection
İlgün et al. Sentiment Analysis using Transformers and Machine Learning Models
Muffo et al. Static fuzzy bag-of-words: a lightweight and fast sentence embedding algorithm
CN103793491A (zh) 一种基于柔性语义相似性度量的中文新闻故事分割方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant