CN112101043A - 一种基于注意力的语义文本相似度计算方法 - Google Patents

一种基于注意力的语义文本相似度计算方法 Download PDF

Info

Publication number
CN112101043A
CN112101043A CN202011002489.8A CN202011002489A CN112101043A CN 112101043 A CN112101043 A CN 112101043A CN 202011002489 A CN202011002489 A CN 202011002489A CN 112101043 A CN112101043 A CN 112101043A
Authority
CN
China
Prior art keywords
layer
text
convolution
output
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011002489.8A
Other languages
English (en)
Other versions
CN112101043B (zh
Inventor
张华熊
张豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Zhejiang Sci Tech University ZSTU
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011002489.8A priority Critical patent/CN112101043B/zh
Publication of CN112101043A publication Critical patent/CN112101043A/zh
Application granted granted Critical
Publication of CN112101043B publication Critical patent/CN112101043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于注意力的语义文本相似度计算方法,包括:步骤一:对数据集中的每一对文本对进行预处理,从而得到对应的文本数据样本;步骤二:将所有样本分为训练集和验证集,搭建神经网络并利用训练集样本对该神经网络进行训练,得到用于语义文本相似度计算的网络模型;步骤三:将待计算的文本对经预处理后输入网络模型中,即可得到该文本对的语义相似度计算结果。本发明设计的神经网络能更有效地提取文本的语义信息,提取两个文本间更细粒度的交互信息;该神经网络使用多个注意力机制能增强两个文本间交互信息中重要信息,提高语义文本相似度计算准确率。

Description

一种基于注意力的语义文本相似度计算方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于注意力的语义文本相似度计算方法。
背景技术
语义文本相似度计算是自然语言处理领域的一个重要研究课题,语义文本相似度旨在计算两个句子/文本之间的语义等价程度,它可以应用于许多任务,如机器翻译、释义问题、自动问答、文本分类、信息检索等。
目前,在语义文本相似度计算方面已有很多研究成果,可归纳为以下三类:
(1)基于字面匹配的语义文本相似度计算方法,比较典型的有基于TF-IDF的语义相似度计算方法,基于TF-IDF的语义文本相似度计算方法是将文本建模成词频向量,运用余弦相似度来衡量文本之间的相似度;这类方法的优点是计算速度快、工作量小,缺点是忽略了词语的语义信息,需要人工设定停用词表。
(2)基于潜在语义分析的概率主题语义文本相似度计算方法,比较典型的有基于LDA(Latent Dirichlet Allocation)的语义文本相似度计算模型,主要思想是利用词语中的共同信息对文本进行主题建模,挖掘出文本中潜在的语义信息,从而计算出文本之间的语义相似度;这类方法的优点是考虑到了词语的深层语义信息,准确率高于第(1)类方法,缺点是没有考虑到词与词之间的位置关系,受样本种类限制较大。
(3)基于深度学习的语义文本相似度计算方法,针对语义文本相似度计算提出了两种类型的深度学习框架,第一个框架基于暹罗网络,第二个框架叫做匹配聚合,这两个框架的思想是通过捕获输入句子的文本表示之间的交互特征,从多个角度计算语义相似度,两者的区别主要体现在对交互特征的捕捉上;暹罗网络框架的优点是共享参数使模型更易于训练,缺点是在编码过程中,两个句子之间没有明确的交互作用,可能会丢失一些重要的信息。
匹配聚合框架下,首先对两个句子中较小的单元(如单词或上下文向量)进行匹配,然后将匹配结果聚合成一个向量,从而做出最终决策,该框架抓住了两个句子之间更多的交互特征,因此通常比暹罗网络框架性能更好。如Yin W等人在文献《Abcnn:Attention-based convolutional neural network for modeling sentence pairs,December 2016,Transactions of the Association for Computational Linguistics 4(4):259-272》中提出了一种模型称为ABCNN,它是一种基于注意力的卷积神经网络,用于对句子进行编码以计算句子相似度。Chen Q等人在文献《Enhanced lstm for natural language inference,ACL 2017,long paper,Vancouver,Canada,July 30th-August 4th.》中提出了ESIM模型是基于匹配聚合框架的著名模型,它通过两个句子之间的注意力机制捕获了高阶交互,并在包括文本相似性在内的许多NLP任务中取得了良好的性能。
发明内容
鉴于上述,本发明提出了一种基于注意力的语义文本相似度计算方法,通过建立并训练神经网络,实现语义文本相似度计算,在提取句子间交互信息更加有效,并有较高的准确率。
一种基于注意力的语义文本相似度计算方法,包括如下步骤:
(1)获取数据集并对数据集中每条文本进行预处理,从而得到大量数据样本,所述数据集中的文本均为成对组合且每一组均已人工标记是否语义相似;
(2)将所有数据样本分为训练集和测试集,搭建神经网络并利用训练集对其进行训练,得到语义文本相似度的计算模型;所述神经网络从输入至输出由文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成;
(3)将测试集样本输入计算模型中,即可得到一组成对文本的相似度结果。
进一步地,所述步骤(1)的具体实现方式为:首先利用Jieba分词工具对数据集中的每一条文本进行分词操作并去除停用词,然后统一输入长度即只截取每条文本的前m个单词,最后基于预训练的n维词向量通过词嵌入方式将每条文本转换为m×n大小的词向量矩阵,m和n均为预设大于1的自然数;最终得到的每一数据样本即为成对组合的两个文本的词向量矩阵。
进一步地,所述文本编码层由两个并行的编码模块A1和A2组成,若一个数据样本包含的是文本a和文本b的词向量矩阵,则编码模块A1的输入为文本a的词向量矩阵,编码模块A2的输入为文本b的词向量矩阵;编码模块A1和A2结构相同均包含一个卷积层和一个双向门控循环单元,卷积层和双向门控循环单元的输入相同即为所属编码模块的输入,卷积层和双向门控循环单元的输出拼接后作为所属编码模块的输出,卷积层采用400个大小为1的卷积核以及Tanh函数对输入进行卷积操作,双向门控循环单元中的隐藏层大小设置为200。
进一步地,所述局部相似性建模层由两个并行的建模单元B1和B2组成,建模单元B1和B2结构相同均包含一个软注意力层和一个局部增强层,建模单元B1的软注意力层输出为
Figure BDA0002694813890000031
建模单元B1的软注意力层输出为
Figure BDA0002694813890000032
Figure BDA0002694813890000033
建模单元B1的局部增强层输出为
Figure BDA0002694813890000034
Figure BDA0002694813890000035
以及
Figure BDA0002694813890000036
拼接后的结果,建模单元B2的局部增强层输出为
Figure BDA0002694813890000037
Figure BDA0002694813890000038
以及
Figure BDA0002694813890000039
拼接后的结果,
Figure BDA00026948138900000310
由向量
Figure BDA00026948138900000311
拼接组成,
Figure BDA00026948138900000312
由向量
Figure BDA00026948138900000313
拼接组成,其中:
Figure BDA00026948138900000314
Figure BDA00026948138900000315
其中:
Figure BDA00026948138900000316
表示文本a的词向量矩阵经过编码模块A1后的输出结果
Figure BDA00026948138900000317
中对应第i个单词的向量,
Figure BDA00026948138900000318
表示文本b的词向量矩阵经过编码模块A2后的输出结果
Figure BDA00026948138900000319
中对应第j个单词的向量,i、j和k均为自然数,T表示转置。
进一步地,所述整体相似性建模层从输入至输出由拼接层、整合层、多卷积层、通道注意力层依次连接组成;其中,所述拼接层用于将建模单元B1和B2中局部增强层的输出结果进行拼接后提供给整合层,所述整合层采用600个大小为1的卷积核以及Tanh函数对输入进行卷积操作后提供给多卷积层,所述多卷积层包含四个并行的卷积层C1~C4以及四个最大池化层M1~M4,卷积层C1采用300个大小为1的卷积核以及Tanh函数对输入进行卷积操作,卷积层C2采用300个大小为2的卷积核以及Tanh函数对输入进行卷积操作,卷积层C3采用300个大小为3的卷积核以及Tanh函数对输入进行卷积操作,卷积层C4采用300个大小为4的卷积核以及Tanh函数对输入进行卷积操作,最大池化层M1~M4分别对卷积层C1~C4的输出进行最大池化操作,最大池化层M1采用大小为4的卷积核,最大池化层M2采用大小为3的卷积核,最大池化层M3采用大小为2的卷积核,最大池化层M4采用大小为1的卷积核,四个最大池化层M1~M4的输出拼接后得到C×N大小的特征图
Figure BDA0002694813890000041
Figure BDA0002694813890000042
所述通道注意力层首先对特征图
Figure BDA0002694813890000043
进行压缩处理得到一个统计量z,z=[z1,z2,…,zC]T
Figure BDA0002694813890000044
Figure BDA0002694813890000045
表示向量
Figure BDA0002694813890000046
中的第p个元素值,c为自然数且1≤c≤C;然后利用门控机制函数对统计量z进行降维操作后得到指标量s且s=[s1,s2,…,sC]T,所述门控机制函数连续采用了两个全连接层,每个全连接层均包含一次批标准化和ReLu激活函数操作;最后使指标量s与特征图
Figure BDA0002694813890000047
相乘后输出特征图
Figure BDA0002694813890000048
Figure BDA0002694813890000049
进一步地,所述池化层包含并行的平均池化层和最大池化层,通道注意力层输出的特征图
Figure BDA00026948138900000410
分别经过平均池化层和最大池化层使得特征图空间信息压缩到1个通道描述符,进而将平均池化层和最大池化层的输出拼接后提供给多层感知器;所述多层感知器连续采用了三个全连接层,每个全连接层均包含一次批标准化和ReLu激活函数操作,最后使用1个节点的输出维度作为整个神经网络的输出结果。
进一步地,所述步骤(2)中采用交叉熵损失函数以及Adam优化器通过正反向传播的方式按批次对神经网络进行训练。
基于上述技术方案,本发明具有以下有益技术效果:
1.本发明设计的神经网络能更有效的提取文本的语义信息。
2.本发明设计的神经网络使用多个不同的卷积核,能提取两个文本间更细粒度的交互信息。
3.本发明设计的神经网络使用软注意力机制和通道注意力机制,能增强两个文本间交互信息中重要信息。
附图说明
图1为本发明语义文本相似度计算方法的流程示意图。
图2为本发明设计的神经网络结构示意图。
图3为多卷积层的内部结构示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,本发明语义文本相似度计算方法包括如下步骤:
(1)数据预处理。
需要对数据集中每一对文本(文本a和文本b)进行预处理以及语义文本相似度计算。
本实施方式使用Jieba分词工具对数据集中文本进行分词操作,并去除停用词;对于每一条文本,统一输入长度,只截取每条文本的前50个单词(小于等于50个单词的文本,进行填充);对于每一条50个单词的文本,基于预训练的300维的词向量初始化单词嵌入得到50×300的词向量矩阵。
(2)搭建卷积神经网络并进行训练。
如图2所示,神经网络从输入到输出由输入层、文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成,其中:
网络输入层为一对50×300大小的文本数据样本(文本a和文本b的词向量矩阵)。
文本编码层使用卷积层和双向门控循环单元共同编码;其中:卷积层使用400个大小为1的卷积核和Tanh函数进行卷积操作;双向门控循环单元隐藏层大小设置为200,将卷积层C1和双向门控循环单元G1的特征图进行拼接。
局部相似性建模层使用并行的软注意力层和局部增强层两个子层,两个50×800大小的特征图经过软注意力层后分别为50×800大小的特征图。软注意力层将注意力权重表示为两个文本之间的隐藏状态元组的相似性:
Figure BDA0002694813890000051
其中:
Figure BDA0002694813890000052
是文本a在文本编码层中第i个单词对应的向量输出,
Figure BDA0002694813890000053
是文本b在文本编码层中第j个单词对应的向量输出。
局部相似度是由上述计算的注意权重决定的,该权重用于获得两个文本之间的局部相关性;对于一个文本,另一个文本中的相关语义使用eij来计算,更具体地说,使用如下公式:
Figure BDA0002694813890000061
其中:
Figure BDA0002694813890000062
Figure BDA0002694813890000063
的加权和。
局部增强层用于计算
Figure BDA0002694813890000064
的差分和元素积,然后将差异和元素乘积分别与原始向量
Figure BDA0002694813890000065
Figure BDA0002694813890000066
相连。
文本编码层的输出经过局部相似性建模层处理后特征图的大小为50×6400。
整体相似性建模层包含:拼接层、整合层、多卷积层、通道注意力层;其中:连接层将局部增强层的输出结果连接;整合层使用600个大小为1的卷积核和Tanh函数进行卷积操作;如图3所示,多卷积层第一层使用不同大小的并行卷积层C1~C4,卷积层C1使用300个大小为1的卷积核和Tanh函数进行卷积操作,卷积层C2使用300个大小为2的卷积核和Tanh函数进行卷积操作,卷积层C3使用300个大小为3的卷积核和Tanh函数进行卷积操作,卷积层C4使用300个大小为4的卷积核和Tanh函数进行卷积操作,多卷积层第二层使用不同大小的并行最大池化层M1~M4,最大池化层M1使用大小为4的过滤器,最大池化层M2使用大小为3的过滤器,最大池化层M3使用大小为2的过滤器,最大池化层M4使用大小为1的过滤器,并将处理的特征图进行拼接后输出;通道注意力层处理多卷积层的输出
Figure BDA0002694813890000067
如下:
Figure BDA0002694813890000068
其中:zc表示统计量z在c时刻的输出,统计量z通过N维空间上对
Figure BDA0002694813890000069
压缩得到。
s=Feq(z,W)=σ(g(z,W))=σ(W2·σ(W1·z))
其中:s表示一个门控机制函数,该函数使用了两个全连接层,两个全连接层均进行一次批标准化和ReLu激活函数操作,σ表示ReLU激活函数,
Figure BDA00026948138900000610
Figure BDA00026948138900000611
r表示降维比。
Figure BDA00026948138900000612
其中:
Figure BDA00026948138900000613
表示是指标量sc与特征图
Figure BDA00026948138900000614
之间的信道乘法。
局部相似性建模层的输出经整体相似性建模层处理后特征图的大小为47×1200。
池化层使用并行的平均池化层和最大池化层,两者分别将上层输出的特征图空间信息压缩到1个通道描述符,最后将平均池化层和最大池化层的输出的特征图拼接,池化层处理后为1×2400大小的特征图。
多层感知器使用了三个全连接层,每个全连接层后均进行一次批标准化和激活函数操作,最后使用1个节点的输出维度,即0/1表示是否相似。
配置该网络模型,其中采用交叉熵损失函数,优化器为Adam,交叉熵损失函数的计算公式为:
Figure BDA0002694813890000071
其中:y(i)为第i个事件发生的真实概率值,
Figure BDA0002694813890000072
为第i个事件发生的估计概率值,m为样本总数。
训练卷积神经网络时,采用正向传播和反向传播的方法,将epoch设置为60,将batch_size设置为128,每次按批次对网络进行训练,初始学习率为0.0001,通过训练后网络的分类准确率收敛,得到训练好的网络模型。
(3)用训练好的网络模型进行语义文本相似度计算。
对待计算语义文本相似度数据集,对其进行文本预处理,将处理好的文本输入训练好的网络模型,即可得到语义文本相似度计算结果。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (8)

1.一种基于注意力的语义文本相似度计算方法,包括如下步骤:
(1)获取数据集并对数据集中每条文本进行预处理,从而得到大量数据样本,所述数据集中的文本均为成对组合且每一组均已人工标记是否语义相似;
(2)将所有数据样本分为训练集和测试集,搭建神经网络并利用训练集对其进行训练,得到语义文本相似度的计算模型;所述神经网络从输入至输出由文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成;
(3)将测试集样本输入计算模型中,即可得到一组成对文本的相似度结果。
2.根据权利要求1所述的语义文本相似度计算方法,其特征在于:所述步骤(1)的具体实现方式为:首先利用Jieba分词工具对数据集中的每一条文本进行分词操作并去除停用词,然后统一输入长度即只截取每条文本的前m个单词,最后基于预训练的n维词向量通过词嵌入方式将每条文本转换为m×n大小的词向量矩阵,m和n均为预设大于1的自然数;最终得到的每一数据样本即为成对组合的两个文本的词向量矩阵。
3.根据权利要求2所述的语义文本相似度计算方法,其特征在于:所述文本编码层由两个并行的编码模块A1和A2组成,若一个数据样本包含的是文本a和文本b的词向量矩阵,则编码模块A1的输入为文本a的词向量矩阵,编码模块A2的输入为文本b的词向量矩阵;编码模块A1和A2结构相同均包含一个卷积层和一个双向门控循环单元,卷积层和双向门控循环单元的输入相同即为所属编码模块的输入,卷积层和双向门控循环单元的输出拼接后作为所属编码模块的输出,卷积层采用400个大小为1的卷积核以及Tanh函数对输入进行卷积操作,双向门控循环单元中的隐藏层大小设置为200。
4.根据权利要求3所述的语义文本相似度计算方法,其特征在于:所述局部相似性建模层由两个并行的建模单元B1和B2组成,建模单元B1和B2结构相同均包含一个软注意力层和一个局部增强层,建模单元B1的软注意力层输出为
Figure FDA0002694813880000011
建模单元B1的软注意力层输出为
Figure FDA0002694813880000012
建模单元B1的局部增强层输出为
Figure FDA0002694813880000013
以及
Figure FDA0002694813880000014
拼接后的结果,建模单元B2的局部增强层输出为
Figure FDA0002694813880000021
以及
Figure FDA0002694813880000022
拼接后的结果,
Figure FDA0002694813880000023
由向量
Figure FDA0002694813880000024
拼接组成,
Figure FDA0002694813880000025
由向量
Figure FDA0002694813880000026
拼接组成,其中:
Figure FDA0002694813880000027
Figure FDA0002694813880000028
其中:
Figure FDA0002694813880000029
表示文本a的词向量矩阵经过编码模块A1后的输出结果
Figure FDA00026948138800000210
中对应第i个单词的向量,
Figure FDA00026948138800000211
表示文本b的词向量矩阵经过编码模块A2后的输出结果
Figure FDA00026948138800000212
中对应第j个单词的向量,i、j和k均为自然数,T表示转置。
5.根据权利要求4所述的语义文本相似度计算方法,其特征在于:所述整体相似性建模层从输入至输出由拼接层、整合层、多卷积层、通道注意力层依次连接组成;其中,所述拼接层用于将建模单元B1和B2中局部增强层的输出结果进行拼接后提供给整合层,所述整合层采用600个大小为1的卷积核以及Tanh函数对输入进行卷积操作后提供给多卷积层,所述多卷积层包含四个并行的卷积层C1~C4以及四个最大池化层M1~M4,卷积层C1采用300个大小为1的卷积核以及Tanh函数对输入进行卷积操作,卷积层C2采用300个大小为2的卷积核以及Tanh函数对输入进行卷积操作,卷积层C3采用300个大小为3的卷积核以及Tanh函数对输入进行卷积操作,卷积层C4采用300个大小为4的卷积核以及Tanh函数对输入进行卷积操作,最大池化层M1~M4分别对卷积层C1~C4的输出进行最大池化操作,最大池化层M1采用大小为4的卷积核,最大池化层M2采用大小为3的卷积核,最大池化层M3采用大小为2的卷积核,最大池化层M4采用大小为1的卷积核,四个最大池化层M1~M4的输出拼接后得到C×N大小的特征图
Figure FDA00026948138800000213
Figure FDA00026948138800000214
所述通道注意力层首先对特征图
Figure FDA00026948138800000215
进行压缩处理得到一个统计量z,z=[z1,z2,…,zC]T
Figure FDA00026948138800000216
Figure FDA00026948138800000217
表示向量
Figure FDA00026948138800000218
中的第p个元素值,c为自然数且1≤c≤C;然后利用门控机制函数对统计量z进行降维操作后得到指标量s且s=[s1,s2,…,sC]T,所述门控机制函数连续采用了两个全连接层,每个全连接层均包含一次批标准化和ReLu激活函数操作;最后使指标量s与特征图
Figure FDA00026948138800000219
相乘后输出特征图
Figure FDA00026948138800000220
Figure FDA00026948138800000221
6.根据权利要求5所述的语义文本相似度计算方法,其特征在于:所述池化层包含并行的平均池化层和最大池化层,通道注意力层输出的特征图
Figure FDA0002694813880000031
分别经过平均池化层和最大池化层使得特征图空间信息压缩到1个通道描述符,进而将平均池化层和最大池化层的输出拼接后提供给多层感知器;所述多层感知器连续采用了三个全连接层,每个全连接层均包含一次批标准化和ReLu激活函数操作,最后使用1个节点的输出维度作为整个神经网络的输出结果。
7.根据权利要求1所述的语义文本相似度计算方法,其特征在于:所述步骤(2)中采用交叉熵损失函数以及Adam优化器通过正反向传播的方式按批次对神经网络进行训练。
8.根据权利要求1所述的语义文本相似度计算方法,其特征在于:所述神经网络能更有效地提取文本的语义信息,提取两个文本间更细粒度的交互信息;该神经网络使用多个注意力机制能增强两个文本间交互信息中重要信息,提高语义文本相似度计算准确率。
CN202011002489.8A 2020-09-22 2020-09-22 一种基于注意力的语义文本相似度计算方法 Active CN112101043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011002489.8A CN112101043B (zh) 2020-09-22 2020-09-22 一种基于注意力的语义文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011002489.8A CN112101043B (zh) 2020-09-22 2020-09-22 一种基于注意力的语义文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN112101043A true CN112101043A (zh) 2020-12-18
CN112101043B CN112101043B (zh) 2021-08-24

Family

ID=73755705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011002489.8A Active CN112101043B (zh) 2020-09-22 2020-09-22 一种基于注意力的语义文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN112101043B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633008A (zh) * 2020-12-28 2021-04-09 中国石油大学(华东) 基于多特征注意力的卷积神经网络句子相似度计算方法
CN112818686A (zh) * 2021-03-23 2021-05-18 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备
CN112836012A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于排序学习的相似患者检索方法
CN113191357A (zh) * 2021-05-18 2021-07-30 中国石油大学(华东) 基于图注意力网络的多层次图像-文本匹配方法
CN113268962A (zh) * 2021-06-08 2021-08-17 齐鲁工业大学 面向建筑行业信息化服务问答系统的文本生成方法和装置
CN113282552A (zh) * 2021-06-04 2021-08-20 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113742596A (zh) * 2021-09-18 2021-12-03 辽宁工程技术大学 一种基于注意力机制的神经协同过滤推荐方法
CN114595306A (zh) * 2022-01-26 2022-06-07 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN116308754A (zh) * 2023-03-22 2023-06-23 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116663523A (zh) * 2023-05-19 2023-08-29 杭州众章数据科技有限公司 多角度增强网络的语义文本相似度计算方法
CN117194614A (zh) * 2023-11-02 2023-12-08 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110825867A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 相似文本推荐方法、装置、电子设备和存储介质
CN111209395A (zh) * 2019-12-27 2020-05-29 铜陵中科汇联科技有限公司 一种短文本相似度计算系统及其训练方法
CN111325029A (zh) * 2020-02-21 2020-06-23 河海大学 一种基于深度学习集成模型的文本相似度计算方法
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110825867A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 相似文本推荐方法、装置、电子设备和存储介质
CN111209395A (zh) * 2019-12-27 2020-05-29 铜陵中科汇联科技有限公司 一种短文本相似度计算系统及其训练方法
CN111325029A (zh) * 2020-02-21 2020-06-23 河海大学 一种基于深度学习集成模型的文本相似度计算方法
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633008A (zh) * 2020-12-28 2021-04-09 中国石油大学(华东) 基于多特征注意力的卷积神经网络句子相似度计算方法
CN112836012A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于排序学习的相似患者检索方法
CN112818686A (zh) * 2021-03-23 2021-05-18 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备
CN112818686B (zh) * 2021-03-23 2023-10-31 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备
CN113191357A (zh) * 2021-05-18 2021-07-30 中国石油大学(华东) 基于图注意力网络的多层次图像-文本匹配方法
CN113282552A (zh) * 2021-06-04 2021-08-20 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN113282552B (zh) * 2021-06-04 2022-11-22 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN113268962B (zh) * 2021-06-08 2022-05-24 齐鲁工业大学 面向建筑行业信息化服务问答系统的文本生成方法和装置
CN113268962A (zh) * 2021-06-08 2021-08-17 齐鲁工业大学 面向建筑行业信息化服务问答系统的文本生成方法和装置
CN113343974B (zh) * 2021-07-06 2022-10-11 国网天津市电力公司电力科学研究院 考虑模态间语义距离度量的多模态融合分类优化方法
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113742596A (zh) * 2021-09-18 2021-12-03 辽宁工程技术大学 一种基于注意力机制的神经协同过滤推荐方法
CN114595306A (zh) * 2022-01-26 2022-06-07 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN114595306B (zh) * 2022-01-26 2024-04-12 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN116308754A (zh) * 2023-03-22 2023-06-23 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116308754B (zh) * 2023-03-22 2024-02-13 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116663523A (zh) * 2023-05-19 2023-08-29 杭州众章数据科技有限公司 多角度增强网络的语义文本相似度计算方法
CN117194614A (zh) * 2023-11-02 2023-12-08 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质
CN117194614B (zh) * 2023-11-02 2024-01-30 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质

Also Published As

Publication number Publication date
CN112101043B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN112101043B (zh) 一种基于注意力的语义文本相似度计算方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN113378989B (zh) 基于复式协同结构特征重组网络的多模态数据融合方法
WO2022068314A1 (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN109977199A (zh) 一种基于注意力池化机制的阅读理解方法
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN116028662B (zh) 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN112560502B (zh) 一种语义相似度匹配方法、装置及存储介质
CN112148831A (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN112488301A (zh) 一种基于多任务学习和注意力机制的食品反演方法
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
CN112786160A (zh) 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN115878832A (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant