CN112633008A - 基于多特征注意力的卷积神经网络句子相似度计算方法 - Google Patents

基于多特征注意力的卷积神经网络句子相似度计算方法 Download PDF

Info

Publication number
CN112633008A
CN112633008A CN202011581732.6A CN202011581732A CN112633008A CN 112633008 A CN112633008 A CN 112633008A CN 202011581732 A CN202011581732 A CN 202011581732A CN 112633008 A CN112633008 A CN 112633008A
Authority
CN
China
Prior art keywords
sentence
matrix
feature
semantic
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011581732.6A
Other languages
English (en)
Inventor
张培颖
黄兴哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202011581732.6A priority Critical patent/CN112633008A/zh
Publication of CN112633008A publication Critical patent/CN112633008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多特征注意力的卷积神经网络句子相似度计算方法,属于自然语言处理领域。针对现有方法对句子的特征信息考虑不全面,在输入到深度学习模型之前缺少对句子对之间互信息的考虑以及句子特征向量不突出的问题。本发明首次提出了基于多特征注意力的卷积神经网络句子相似度模型用于语义评估,将句子的语序,分词结果的语义等信息利用特征提取算法提取为加权向量,将加权向量与原始的句子矩阵相乘得到句子对的多特征注意力矩阵。模型从多种句子特征考虑,从全局出发使用特征加权机制对重点特征进行突出推断语义的相似度。本发明在微软释义语料库和语义评估任务的数据集上做了大量的实验验证了该方法的有效性。

Description

基于多特征注意力的卷积神经网络句子相似度计算方法
技术领域
本发明属于一种算法程序,涉及到自然语言处理领域,主要是句子的相似度计算方法。
背景技术
随着互联网进一步的深入发展,网络在人们生活中渗透能力越来越强。在衣食住行各方面均搭上了信息快车,数据伴随着网络激发出蓬勃的生命力,如雨后之笋,春起之苗。然而,沟通交流的工具在变化,但文明延续的载体千百年来始终没有改变。电子化的新闻是靠文字来表达,网购商品评价信息也是依靠文字来记载。电子化的内容让实现数据的处理与分析成为了可能,但是如何分析和处理网络上复杂的文字内容对研究者们提出了新的要求。自然语言处理就是通过分析和提取文本特征来处理文本信息的技术,句子相似度计算任务主要用来衡量文本之间的语义相似性,作为自然语言处理技术的基础性任务,其算法模型的精确度决定了其它各领域任务的精度。随着网络文本在数量和表现形式上的变化,对自然语言处理任务的算法精确度提出了更高的要求。因此,有必要从句子特征选择,特征工程和特征向量化等多角度分析句子特征的提取算法和方式,以进一步提高句子相似度计算任务的精确度,推进自然语言处理领域各项任务的发展。
句子语义评估的思路是通过比对句子对之间的语法,语序等特征来衡量语义之间的相似程度。传统的算法通过串匹配的方式来计算句子对之间的语义相似度,将句子中的特征视为字符串来对比串之间的相似度。随着人工智能和深度学习技术在自然语言处理领域的应用。研究者们将神经网络和深度学习模型结合起来训练出词向量来衡量文本之间的相似度。Mikolov等人提出的word2vec静态词向量通过one-hot编码形式的输入来学习出单词的向量表示,这种方式缺少文本中的上下文关系无法表示一词多义问题。ELMo动态词向量虽然解决了一词多义问题但训练需要消耗大量的时间。谷歌提出的双向语言模型BERT通过pre-trained和fine-tuning的形式刷新了NLP领域11项任务的精确度,奠定了语言模型pre-trained和fine-tuning的结构,但依然存在进一步改进的空间。
综合以上分析,基于统计的句子相似度计算方法精确度无法满足需求,基于深度学习模型训练词向量的形式虽然奠定了文本相似度计算的思路但是在模型的具体结构上依然具有进一步提升的空间。
不同于现有的模型,我们的模型融合了传统的特征提取方法和神经网络模型提出了基于多特征注意力的卷积神经网络句子相似度计算方法。该方法基于word2vec向量利用注意力机制对句子对之间的互信息进行加权来生成注意力矩阵。该矩阵中包含了句子的多特征信息以及句子对之间的互信息,可以进一步提升模型的精确度。
发明内容
本发明的目的是为了解决传统的模型在句子对输入到深度学习模型之前缺少对句子中互信息的关联,缺少对句子中多种特征的融合以及缺少对特征矩阵中主要特征信息的突出问题。
本发明为解决以上问题提出的技术方案是:
S1.使用语义嵌入算法对句子中分词结果进行语义计算并构建语义矩阵。
S2.使用位置嵌入算法对句子中的共现词进行位置特征的计算并将计算结果与语义相似度通过调节因子的形式融合。
S3.将获取到的多特征注意力矩阵分别按照行列求和获取多特征注意力向量并与原始的句子矩阵相乘得出句子的多特征注意力矩阵。
其中,基于句子对的分词结果,我们从互信息和多特征的角度对句子的特征信息进行了提取与加权。具体的说,针对句子对进行分词并映射为词向量得到句子的向量序列SenA={w1,w2,w3...,wn},SenB={w'1,w'2,w'3,......,w'm}。其中,n和m分别代表句子对的长度。
根据余弦距离公式计算其语义相似度。
Figure BDA0002864579880000021
其中,set(A)和set(B)分别为句子的分词结果集合。w2v_emdding∈[-1,1],值越大代表两个词向量之间的相似度越高。依据公式(1)计算句子对之间各单词的语义相似度得出语义相似度矩阵。
Figure BDA0002864579880000022
除了考虑句子对的语义信息外,我们在模型中还加入了对句子对中共现词位置信息的计算。
Figure BDA0002864579880000023
其中,wi和wj为句子对中的共现词,pos(wi)代表单词wi在句子A中的位置,pos(wj)代表单词wj在句子B中的位置。在根据公式(1)和公式(2)计算出句子之间的语义矩阵,根据公式(3)计算出句子对之间的共现词位置信息之后,再将语义矩阵和位置矩阵进行加权合并得到句子对的注意力加权矩阵。
Figure BDA0002864579880000031
其中,α和β为调节语义系数和位置系数的权重因子,α+β=1。
在得到句子的注意力加权矩阵之后,对矩阵的行和列分别求和计算加权向量。
Figure BDA0002864579880000032
Figure BDA0002864579880000033
最后将得到的权重向量与原始的句子矩阵相乘获取句子经过多特征加权后的多特征注意力矩阵作为卷积神经网络的输入。
mf_matrixA=softmax(att_vec[i])·att_matrixA[i][j] (7)
mf_matrixB=softmax(att_vec[i])·att_matrixB[i][j] (8)
其中,att_matrixA为句子A的分词结果经过映射之后的原始矩阵,att_matrixB为句子B的分词结果经过映射之后的原始矩阵。mf_matrixA和mf_matrixB分别为句子A和句子B的多特征注意力矩阵。
然后,将得到的多特征注意力矩阵输入到卷积神经网中进行特征矩阵的降维,将降维和平坦化后的向量利用距离公式计算相似度。
最后,所述的基于多特征注意力的卷积神经网络句子相似度计算模型由tensorflow1.3实现,采用50维的glove词向量作为模型的输入,针对句子对的不同长度问题使用零填充的方式进行补全。在模型的训练中使用Adam优化器,设置1000个训练批次,学习率设置为0.001,对语义矩阵和位置矩阵的加权系数α和β分别设置为0.64和0.36,使用微软释义语料库和语义评估任务集分别对模型的效果进行验证。
与现有的句子相似度计算任务相比,本发明的效益是:
1.本发明提出一种新的句子特征提取算法,该提取算法同时考虑了句子中的语序,语义等多种句子特征,使得句子相似度计算模型可以更加充分地提取句子特征。
2.本发明在句子对输入到卷积神经网络模型之前对句子对之间的互信息进行关联,提出特征关联算法获取加权向量对句子对的原始矩阵进行加权。
附图说明
图1为基于多特征注意力的卷积神经网络句子相似度计算模型特征矩阵生成流程图。
图2为卷积神经网络的结构图。
图3为基于多特征注意力的卷积神经网络模型与相关模型在语义评估任务数据集上皮尔森系数对比图。
图4为基于多特征注意力的卷积神经网络模型与相关模型在微软释义语料库上精确度和F1值对比图。
具体实施方式
附图仅用于示例说明,不能理解为对本发明的限制。
以下结合附图和具体实例对本发明进行进一步的详细说明。
图1为基于多特征注意力的卷积神经网络模型特征矩阵的生成流程图,该过程一共分为五步。图中①为对原始的自然语言序列进行分词,去停用词之后进行语义特征和位置特征的提取。②过程将句子根据预训练的词向量映射为原始的句子向量矩阵,在模型中我们使用的为50维的glove词向量。③过程是对提取到的包含语义嵌入和位置嵌入的矩阵分别按照行和列求和得到句子的加权特征向量。④过程将获取到的特征向量与原始的句子矩阵相乘。⑤过程为得出的句子注意力矩阵,该矩阵中根据特征提取的结果对相应特征信息进行了加权突出。
图2为模型中使用的卷积神经网络的结构图,该网络包含两层卷积层,两层池化层,相比于传统的卷积神经网络移除了全连接层。网络的输入为句子对的多特征注意力矩阵,输出为一维的句子特征向量。模型训练过程中使用的损失函数如下。
Loss=-∑itilog(yi)+(1-ti)log(1-yi) (9)
其中,ti为句子对实际的语义相似度标签,yi为模型预测输出的句子对语义计算结果。
在获取到句子最终的一维向量表示后,再利用距离公式计算最后的相似度得分,计算最终相似度的距离公式如下。
Sim(SenA,SenB)=COS(VecA,VecB) (10)
其中,VecA和VecB分别为句子对的特征向量。
图3为基于多特征注意力的卷积神经网络实验数据与相关模型的实验数据对比,数据表明基于多特征注意力的卷积神经网络模型比其他模型的语义评判更加精确。
图4为基于多特征注意力的卷积神经网络模型和其他模型在微软释义语料库上实验结果的皮尔森系数对比。
本发明提出了一种基于多特征注意力的卷积神经网络句子语义评估模型,该模型同时考虑了句子的多种特征,包括句子序列的语序,语义等,模型中提出的特征提取算法将句子中的特征提取为向量的形式对原始的句子矩阵进行加权,来获取到句子的多特征注意力矩阵,通过卷积神经网络的学习来拟合出能够精确地计算语义相似度的模型。未来,我们将进一步研究句子和文本的语义计算问题,验证特征提取算法的有效性。
最后,本发明的示例解释仅为说明本专利所进行的举例,本领域的研究人员,对上述实例的任何修改和替换均包含在本发明专利要求保护的范围之内。

Claims (4)

1.基于多特征注意力的卷积神经网络句子相似度计算方法,其特征在于,所述方法应该包括以下步骤:
S1.使用语义嵌入算法对句子中分词结果进行语义计算并构建语义矩阵;
S2.使用位置嵌入算法对句子中的共现词进行位置特征的计算并将计算结果与语义相似度通过调节因子的形式融合;
S3.将获取到的多特征注意力矩阵分别按照行列求和获取多特征注意力向量并与原始的句子矩阵相乘得出句子的多特征注意力矩阵。
2.根据权利要求1所述的基于多特征注意力的卷积神经网络句子相似度计算方法。其特征在于,所述S1具体过程为:
基于句子对的分词结果,从互信息和多特征的角度对句子的特征信息进行提取与加权,具体的说,针对句子对进行分词并映射为词向量得到句子的向量序列SenA={w1,w2,w3...,wn},SenB={w'1,w'2,w'3,......,w'm},其中,n和m分别代表句子对的长度。根据余弦距离公式计算其语义相似度,
Figure FDA0002864579870000011
其中,set(A)和set(B)分别为句子的分词结果集合,w2v_emdding∈[-1,1]值越大代表两个词向量之间的相似度越高,依据公式(1)计算句子对之间各单词的相似度得出语义相似度矩阵。
Figure FDA0002864579870000012
3.根据权利要求1所述的基于多特征注意力的卷积神经网络句子相似度计算方法,其特征在于,所述的S2具体过程为:
对句子对的分词结果筛查,选出待评估句子对中的共现词,根据公式(3)计算位置关系
Figure FDA0002864579870000013
其中,wi和wj为句子对中的共现词,pos(wi)代表单词wi在句子A中的位置,pos(wj)代表单词wj在句子B中的位置。根据公式(1)和公式(2)计算出句子之间的语义矩阵,根据公式(3)计算出句子对之间的共现词位置信息之后,再将语义矩阵和位置矩阵进行加权合并得到句子对的注意力加权矩阵,
Figure FDA0002864579870000021
其中,α和β为调节语义系数和位置系数的权重因子,α+β=1。
4.根据权利要求1所述的基于多特征注意力的卷积神经网络句子相似度计算方法,其特征在于,所述的S3具体过程为:
在得到多特征加权矩阵之后,对矩阵的行和列分别求和计算加权向量,
Figure FDA0002864579870000022
Figure FDA0002864579870000023
最后将得到的加权向量与原始的句子矩阵相乘获取句子经过多特征加权后的多特征注意力矩阵作为卷积神经网络的输入,
mf_matrixA=softmax(att_vec[i])·att_matrixA[i][j] (7)
mf_matrixB=softmax(att_vec[i])·att_matrixB[i][j] (8)
其中,att_matrixA为句子A的分词结果经过映射之后的原始矩阵,att_matrixB为句子B的分词结果经过映射之后的原始矩阵,mf_matrixA和mf_matrixB分别为句子A和句子B的多特征注意力矩阵。
CN202011581732.6A 2020-12-28 2020-12-28 基于多特征注意力的卷积神经网络句子相似度计算方法 Pending CN112633008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581732.6A CN112633008A (zh) 2020-12-28 2020-12-28 基于多特征注意力的卷积神经网络句子相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581732.6A CN112633008A (zh) 2020-12-28 2020-12-28 基于多特征注意力的卷积神经网络句子相似度计算方法

Publications (1)

Publication Number Publication Date
CN112633008A true CN112633008A (zh) 2021-04-09

Family

ID=75325930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581732.6A Pending CN112633008A (zh) 2020-12-28 2020-12-28 基于多特征注意力的卷积神经网络句子相似度计算方法

Country Status (1)

Country Link
CN (1) CN112633008A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120079372A1 (en) * 2010-09-29 2012-03-29 Rhonda Enterprises, Llc METHoD, SYSTEM, AND COMPUTER READABLE MEDIUM FOR DETECTING RELATED SUBGROUPS OF TEXT IN AN ELECTRONIC DOCUMENT
CN109145290A (zh) * 2018-07-25 2019-01-04 东北大学 基于字向量与自注意力机制的语义相似度计算方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110619121A (zh) * 2019-09-18 2019-12-27 江南大学 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN111310458A (zh) * 2020-03-20 2020-06-19 广东工业大学 一种基于多特征融合的主观题自动评分方法
CN112101043A (zh) * 2020-09-22 2020-12-18 浙江理工大学 一种基于注意力的语义文本相似度计算方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120079372A1 (en) * 2010-09-29 2012-03-29 Rhonda Enterprises, Llc METHoD, SYSTEM, AND COMPUTER READABLE MEDIUM FOR DETECTING RELATED SUBGROUPS OF TEXT IN AN ELECTRONIC DOCUMENT
CN109145290A (zh) * 2018-07-25 2019-01-04 东北大学 基于字向量与自注意力机制的语义相似度计算方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110619121A (zh) * 2019-09-18 2019-12-27 江南大学 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN111310458A (zh) * 2020-03-20 2020-06-19 广东工业大学 一种基于多特征融合的主观题自动评分方法
CN112101043A (zh) * 2020-09-22 2020-12-18 浙江理工大学 一种基于注意力的语义文本相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张培颖等: "多特征结合的词语相似度计算模型", 《计算机技术与发展》 *
李秋明等: "基于句子多种特征的相似度计算模型", 《软件导刊》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Similar Documents

Publication Publication Date Title
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN113312452B (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN107608956A (zh) 一种基于cnn‑grnn的读者情绪分布预测算法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
Li et al. Combining local and global features into a Siamese network for sentence similarity
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN114638228A (zh) 一种基于词集自注意力的中文命名实体识别方法
CN110874392A (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN112633008A (zh) 基于多特征注意力的卷积神经网络句子相似度计算方法
CN115481313A (zh) 一种基于文本语义挖掘的新闻推荐方法
CN110705259A (zh) 一种多粒度捕获匹配特征的文本匹配方法
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
Meng et al. Regional bullying text recognition based on two-branch parallel neural networks
CN115577111A (zh) 基于自注意力机制的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210409

WD01 Invention patent application deemed withdrawn after publication