CN111461174A - 多层次注意力机制的多模态标签推荐模型构建方法及装置 - Google Patents

多层次注意力机制的多模态标签推荐模型构建方法及装置 Download PDF

Info

Publication number
CN111461174A
CN111461174A CN202010152922.XA CN202010152922A CN111461174A CN 111461174 A CN111461174 A CN 111461174A CN 202010152922 A CN202010152922 A CN 202010152922A CN 111461174 A CN111461174 A CN 111461174A
Authority
CN
China
Prior art keywords
data
feature extraction
layer
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010152922.XA
Other languages
English (en)
Other versions
CN111461174B (zh
Inventor
李展
徐宝胜
王凯凯
田晓杰
赵国英
章勇勤
王珺
李斌
杨溪
彭进业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202010152922.XA priority Critical patent/CN111461174B/zh
Publication of CN111461174A publication Critical patent/CN111461174A/zh
Application granted granted Critical
Publication of CN111461174B publication Critical patent/CN111461174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多层次注意力机制的多模态标签推荐模型构建方法及装置,提取图像的特征对图像特征使用外积,进行双线性融合后再通过一个注意力网络层,获取图像中每个区域的注意力因子,将注意力因子与原始特征进行逐元素乘积,得到最后的图像特征表达;对文本进行词嵌入并使用Bi‑LSTM网络对文本特征提取,然后通过一个注意力网络层与原始特征进行乘积,得到最后的文本信息表达。然后通过一个双线性融合层,将图像和文本特征进行融合,然后将融合后的特征输入到高层次注意力层,得到最后的联合特征表达,最后送入到分类层中,进行标签分类和推荐。在多模态信息处理的条件下,本发明联合层次注意力机制的方法提高了推荐的准确性。

Description

多层次注意力机制的多模态标签推荐模型构建方法及装置
技术领域
本发明涉及推荐方法及装置,具体涉及一种多层次注意力机制的多模态标签推荐模型构建方法及装置。
背景技术
多模态标签推荐,是近年来人工智能、推荐系统等领域一个非常热门的研究方向。其目的是利用多模态的信息,提高标签推荐的准确性,多模态的标签推荐无论在工业界还是学术界都有着广泛的研究需求与应用场景。如果能够借助于人工智能和深度学习的技术,实现低成本高性能的多模态标签推荐,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。
传统的推荐算法,仅仅考虑单模态(图像或文本)的信息。近年来,随着深度学习的发展,深度神经网络算法以及注意力机制的广泛应用,为多模态标签推荐带来了新的研究方向。大量针对多模态特征的算法被提出,促进了该领域的快速发展。一般的特征融合方式,主要是拼接融合,加权融合等,但这些方式仅仅对特征进行了简单的拼接,没有考虑图像特征本身空间相关性和文本特征本身的时序相关性,导致特征挖掘不充分,推荐性能无法有效提升。
发明内容
本发明的目的在于提供一种多层次注意力机制的多模态标签推荐模型构建方法及装置,用以解决现有技术中的推荐方法及装置存在的没有考虑图像特征本身空间相关性和文本特征本身的时序相关性,导致特征挖掘不充分,从而造成推荐效果不好的问题。
为了实现上述任务,本发明采用以下技术方案:
一种多层次注意力机制的多模态标签推荐模型构建方法,所述的方法按照以下步骤执行:
步骤1、获取多组数据以及每组数据对应的标签,获得数据集以及标签集;
所述的每组数据包括图像数据以及文本数据;
步骤2、对所述的数据集进行预处理,获得预处理后的数据集;
其中所述的预处理包括统一图像数据的大小;
步骤3、将所述的预处理后的数据集作为输入,将所述的标签集作为参考输出,训练神经网络;
所述的神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层;
所述的特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块;
所述的文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层;
所述的图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层;
获得多模态标签推荐模型。
进一步地,所述的特征融合层以及融合层中的融合方式均为双线性融合。
进一步地,所述的图像特征提取子模块中特征提取网络为VGG16网络。
一种多层次注意力机制的多模态标签推荐方法,所述的推荐方法按照以下步骤执行:
步骤A、获取一组待推荐的数据,所述的数据包括图像数据以及文本数据;
步骤B、将所述的待推荐的数据输入至所述的多层次注意力机制的多模态标签推荐模型构建方法获得的多模态标签推荐模型中,获得推荐结果。
一种多层次注意力机制的多模态标签推荐模型构建装置,所述的装置包括数据采集模块、数据预处理模块以及网络构建模块;
所述的数据采集模块用于获取多组数据以及每组数据对应的标签,获得数据集以及标签集;
所述的每组数据包括图像数据以及文本数据;
所述的数据预处理模块用于对所述的数据集进行预处理,获得预处理后的数据集;
其中所述的预处理包括统一图像数据的大小;
所述的网络构建模块用于将所述的预处理后的数据集作为输入,将所述的标签集作为参考输出,训练神经网络;
所述的神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层;
所述的特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块;
所述的文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层;
所述的图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层;
获得多模态标签推荐模型。
进一步地,所述的特征融合层以及融合层中的融合方式均为双线性融合。
进一步地,所述的图像特征提取子模块中特征提取网络为VGG16网络。
一种多层次注意力机制的多模态标签推荐装置,所述的装置包括数据获取模块以及所述的多层次注意力机制的多模态标签推荐模型构建装置:
所述的数据获取模块用于获取一组待推荐的数据,所述的数据包括图像数据以及文本数据;
所述的多层次注意力机制的多模态标签推荐模型构建装置用于利用构建出的多模态标签推荐模型对所述的一组待推荐的数据进行分类,获得推荐结果。
本发明与现有技术相比具有以下技术效果:
1、本发明提供的多层次注意力机制的多模态标签推荐模型构建方法及装置提供的推荐模型包括两个不同层次的注意力层来计算注意力因子,低层次的注意力层(第二注意力层以及第三注意力层)分别用来计算图像和文本单模态的特征,而高层次的注意力层(第一注意力层)是用来计算融合以后的多模态特征,两个层次的注意力层能够更好的提取到相关特征,过滤掉噪声,提升模型的性能;
2、本发明提供的多层次注意力机制的多模态标签推荐模型构建方法及装置中采用双线性融合方式可以学习到图像局部区域位置信息,对于多模态的特征来说,图像和文本进行双线性融合以后,每一个点的特征,都是一个图文匹配对(里面既包含图像特征也包含文本信息),这种融合方式能够更好的体现出图像和文本之间的关联性;
3、本发明提供的多层次注意力机制的多模态标签推荐模型构建方法及装置中采用VGG16网络作为图像的特征提取网络,结构简单,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2),可以通过叠加层数提升性能。而且预训练的场景也比较丰富,满足真实生产环境。
附图说明
图1为本发明的一个实施例中提供的基于多层次注意力模型的网络结构图;
图2为本发明的一个实施例中提供的一组数据的示例图;
图3为本发明的一个实施例中提供的不同方法的精确率对比示意图;
图4为本发明的一个实施例中提供的不同方法的召回率对比示意图;
图5为本发明的一个实施例中提供的不同方法的F1分数对比示意图;
图6为本发明的一个实施例中提供的在不同尺寸数据集下,不同方法的精确率对比示意图;
图7为本发明的一个实施例中提供的在不同尺寸数据集下,不同方法的召回率对比示意图;
图8为本发明的一个实施例中提供的在不同尺寸数据集下,不同方法的F1分数对比示意图;
图9为本发明的一个实施例中提供的三种不同方法在相同数据集下的Accuracy@5实验结果。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
以下对本发明涉及的定义或概念内涵做以说明:
注意力层:注意力机制,是聚焦于局部信息的机制,比如,图像中的某一个图像区域,随着任务的变化,注意力区域往往会发生变化。注意力层就是将网络的注意力集中放在重要的特征上,而忽略其他不重要的因素。
VGG16网络:VGG16网络是一种只需要专注于构建卷积层的简单网络。首先用3×3,步幅为1的过滤器构建卷积层,padding参数为same卷积中的参数。然后用一个2×2,步幅为2的过滤器构建最大池化层。整个网络共16层由13个卷积层+3个全连接层叠加而成。
Bi-LSTM网络:Bi-LSTM是Bidirectional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。在更细粒度的分类时,通过Bi-LSTM可以更好的捕捉双向的语义依赖。
双线性融合:双线性融合是计算不同空间位置的外积,并对不同空间位置计算平均汇合以得到双线性特征。外积捕获了特征通道之间成对的相关关系,并且这是平移不变的。双线性融合提供了比线性模型更强的特征表示,并可以端到端地进行优化,取得了和使用部位(parts)信息相当或甚至更高的性能。
实施例一
在本实施例中提供了一种多层次注意力机制的多模态标签推荐模型构建方法,利用本发明提供的模型构建方法构建出的多层次注意力模型,引入了多模态双线性融合和层次注意力机制,既可以充分融合多模态的特征,也可以挖掘特征中更有效的信息,得到推荐性能提升的效果。
在本发明提供的推荐模型中包括两个不同层次的注意力层来计算注意力因子,低层次的注意力层(第二注意力层以及第三注意力层)分别用来计算图像和文本单模态的特征,而高层次的注意力层(第一注意力层)是用来计算融合以后的多模态特征,两个层次的注意力层能够更好的提取到相关特征,过滤掉噪声,提升模型的性能;
方法按照以下步骤执行:
步骤1、获取多组数据以及每组数据对应的标签,获得数据集以及标签集;
每组数据包括图像数据以及文本数据;
如图2所示,是一组数据,即一个多模态Tweet的示例,既包含图像也包含文本,‘#’符号后面的单词是该条Tweet对应的多个标签。
在本实施例中,采用的公开的基于真实世界的Twitter数据集,数据集中包含文本,标签,和对应的图片的URL地址,使用时需要自行将所需图片进行下载。
步骤2、对数据集进行预处理,获得预处理后的数据集;
其中预处理包括统一图像数据的大小;
在本发明中由于数据集中图像数据的大小、形状不一致,因此将数据集中的图像,统一缩放为(224x224)大小。
在本实施例中还对文本数据进行统计;将所有出现过一次的标签进行统计,一共有3292个类别。
步骤3、将预处理后的数据集作为输入,将标签集作为参考输出,训练神经网络;
神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层;
特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块;
文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层;
图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层;
获得多模态标签推荐模型。
在本实施例中,在网络中设置特征提取模块的作用是提取图像特征以及文本特征,特征融合模块将图像特征和文本特征进行融合,获得一个特征,第一注意力层进一步地发掘特征中的细节特征,获得新的特征;再将新的特征输入至分类器中进行分类。
在本发明中文本特征提取子模块如图1所示,包括依次设置的文本嵌入层、Bi-LSTM单元以及第二注意力层,其中文本嵌入层用来将文本中的每个单词嵌入至多维,Bi-LSTM单元用来提取特征,第二注意力层用来进一步地提取细节特征;
在本实施例中,对于每一条文本数据X=(x1,x2,....,xN),其中N是这条文本数据的最大长度。每个单词xi(i∈1,2,..N)通过WordEmbedding方法嵌入到m维。
在本实施例中,Bi-LSTM单元表达式如下:
it=σ(Wi·[xt,ht-1]+bi)
ft=σ(Wf·[xt,ht-1]+bf)
ot=σ(Wo·[xt,ht-1]+bo)
ct=ftct-1+ittanh(Wc[xt,ht-1]+bc)
ht=ottanh(ct)
其中,σ是一个sigmoid函数。{Wi,Wf,Wo,Wc}是权重矩阵,{bi,bf,bo,bc}是偏置。
在本实施例中Bi-LSTM单元可以捕捉文本前向和后向的上下文信息,对于每一条文本数据X=(x1,x2,...,xN),前向的LSTM网络feed序列的顺序是(1,2,...,N),后向输入序列的顺序是(N,...,2,1)。最后得到的
Figure BDA0002403063130000101
Figure BDA0002403063130000102
表示concatenation操作,
Figure BDA0002403063130000103
表示前向的隐藏层状态,
Figure BDA0002403063130000104
表示后向的隐藏状态。文本的特征矩阵VT是所有时间序列上ht的结合。
Figure BDA0002403063130000105
其中,D是Bi-LSTM的维度。
在一条文本数据中标签仅仅和其中的某些单词有关联,因此在本实施例中,引入Attention机制来过滤掉影响比较小的单词,表达式如下:
Figure BDA0002403063130000106
Figure BDA0002403063130000107
Figure BDA0002403063130000108
其中,
Figure BDA0002403063130000109
是文本的特征,N是文本的最大长度,αT是文本的关注因子,
Figure BDA00024030631300001010
是权重,
Figure BDA00024030631300001011
是偏差。
Figure BDA00024030631300001012
是新的文本特征表达。
在本实施例中第二注意力层将注意力因子与原始特征进行逐元素乘积,得到最后的文本特征表达。
在本实施例中,文本特征提取子模块使用的是由前向LSTM与后向LSTM组合而成的Bi-LSTM网络。在更细粒度的分类时,通过Bi-LSTM可以更好的捕捉双向的语义依赖,可以获得更好的文本特征表达。
在本发明中图像特征提取子模块如图1所示,包括依次设置的特征提取网络、融合层以及第三注意力层;其中特征提取网络用来初步提取图像的特征,融合层对提取到的图像特征进行融合,然后将特征输入至第三注意力层,得到新的图像特征向量;
可选地,图像特征提取子模块中特征提取网络为VGG16网络。
由于VGG16网络作为图像特征提取网络的优点是网络结构简单,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2),可以通过叠加层数提升性能。而且预训练的场景也比较丰富,满足真实生产环境。
在本实施例中第三注意力层将注意力因子与原始特征进行逐元素乘积,得到最后的图像特征表达。
可选地,融合层中的融合方式均为双线性融合。
在本实施例中,对VGG-16网络层输出的特征图自身进行双线性融合操作,得到双线性特征。
在本实施例中,使用的是VGG-16网络最后一个池化层提取的特征,每一个图像的特征提取为(7,7,512)。为了方便做双线性融合,将每一张图像的特征转换成(49,512),用VI表示,VI(
Figure BDA0002403063130000111
i=1,2,...,N),N是数据集中图像的数量,m是每个图像均分为49个区域,d是每一个区域特征的维度,d=512。
在本实施例中使用双线性融合,对图像局部的对级特征交互进行建模,使得每个位置的特征都能与其他位置的特征进行交互,丰富了特征的表达。双线性融合模型如下:
Figure BDA0002403063130000121
其中,
Figure BDA0002403063130000122
表示图像特征VI的转置,fBilinear表示融合以后的特征,
Figure BDA0002403063130000123
·表示矩阵的外积。
图像特征
Figure BDA0002403063130000124
每一幅图像被均分为m个区域,模拟人的视觉,在本发明中使用注意力层,计算出最受关注的某些区域。
图像特征经过非线性激活函数处理,然后通过一个SoftMax函数,获取每个区域的关注因子,表达式如下:
Figure BDA0002403063130000125
Figure BDA0002403063130000126
Figure BDA0002403063130000127
其中,
Figure BDA0002403063130000128
是双线性融合以后的图像特征,αI是图像关注因子,
Figure BDA0002403063130000129
是经过Attention以后新的图像特征。
Figure BDA00024030631300001210
是权重,
Figure BDA00024030631300001211
是偏差。为了便于计算,在本实施例中通过一个全连接层将VI'映射到和文本一样的维度。
可选地,特征融合层中的融合方式均为双线性融合。
在本实施例中,对特征提取模块输出的两种模态的特征向量,进行双线性融合,得到联合特征表示:
使用多模态双线性融合,对两种模态不同位置的特征进行交互,获得两种模态特征的联合表示,每个点代表两种模态特征的一个匹配对。多模态双线性融合的表达如下:
Figure BDA00024030631300001212
其中
Figure BDA00024030631300001213
表示双线性融合以后的多模态特征,
Figure BDA00024030631300001214
是低层次Attention层获取的图像特征,
Figure BDA0002403063130000131
是低层次注意力层获得的文本特征,·表示矩阵的外积。
对于多模态的特征来说,图像和文本进行双线性融合以后,每一个点的特征,都是一个图文匹配对(里面既包含图像特征也包含文本信息),这种融合方式能够更好的体现出图像和文本之间的关联性。
在本实施例中,采用第一注意力层获得最终的特征表达,该注意力层的输入是经过多模态融合以后的特征,能够进一步的获取图像和文本的联合注意力因子,表达式如下:
Figure BDA0002403063130000132
Figure BDA0002403063130000133
Figure BDA0002403063130000134
其中,
Figure BDA0002403063130000135
是最后输入到分类器的特征,代表了图像和文本的最佳匹配。
在本实施例中,分类层包括串联的全连接层和softmax层。
在本实施例中,利用数据集对网络模型训练和测试、验证;其中代价函数为:
Figure BDA0002403063130000136
其中,S表示全部的训练集,t代表推特s对应的标签。使用的优化策略是Nadam来更新参数,最小化目标函数。
在该模型中,VGG16网络能够很好地提取到图像特征,Bi-LSTM能够有效的捕捉Tweets双向的语义信息。图像本身的双线性融合可以学习到图像局部区域位置信息,引入了多模态双线性融合方法,使得多模态特征之间有了更好的交互性。加入注意力层,能够有效的抑制特征中的噪声,让神经网络更关注有用信息。该模型从输入到输出的过程,就是一个不断的将特征进行筛选和学习的过程,最终到达分类器的是与标签最相关的特征。
实施例二
一种多层次注意力机制的多模态标签推荐方法,推荐方法按照以下步骤执行:
步骤A、获取一组待推荐的数据,数据包括图像数据以及文本数据;
步骤B、将待推荐的数据输入至实施例一中的多层次注意力机制的多模态标签推荐模型构建方法获得的多模态标签推荐模型中,获得推荐结果。
在本实施例中对提供的标签推荐方法进行实验,实验采用Linux 7.2.1511操作系统,CPU的型号为Intel(R)Xeon(R)E5-2643,内存大小为251GB,显卡为两块GeForce GTX1080Ti显卡,单块显存大小为11GB,深度学习的框架为Keras 2.0版本。使用的数据集是基于真实用户的Tweet数据集,数据集中包含334989张图片和与之对应的推文。一共有3292个使用频率最多的标签类别,平均每条推文包含1.26个标签。划分80%的数据集用来做训练集,剩下的用来做测试集。为了评估提出的方法,使用Precision(P),Recall(R),和F1-score(F1)作为评价标准,定义分别如下公式:
Figure BDA0002403063130000151
Figure BDA0002403063130000152
Figure BDA0002403063130000153
其中,TP表示正类被判定为正类的标签数目;FN表示正类判定为负类的标签数目;FP表示负类判定为正类的标签数目。
1.Tweets数据集实验结果
方法设置的参数为:划分80%的数据集用来做训练集,剩下的用来做测试集。
本发明对比了朴素贝叶斯(NB),支持向量机(SVM),Bi-VL等其他模型(图3),其中Bi-VL方法是在本发明提出的方法(LHAN)的基础上移除Attention-Layer以后的变体,实验结果如(图3)所示,从实验结果可以看出,本发明提出的方法(LHAN)相较于原始模型性能方面有很大的提升,能达到29.44%的精确率,相较于原始Co-Attention模型28.38%的精确率,精确率提升了1.06%。并且与其他方法的实验对比结果见表1,有很大的识别精度提升,验证了本发明所提出方法的有效性和可行性。
表1实验结果对比
Figure BDA0002403063130000154
2.Top-K推荐的实验结果
本发明将多模态标签推荐看做是一个多分类问题,因此,Top-K推荐是一个常用的性能指标,对比其他方法,分别进行1~5个标签的推荐,图3,图4,图5,分别是三种方法,在推荐不同标签数目情况下的精确率(Precision),召回率(Recall)和F1分数(F1-Score),从实验结果看,本发明提出的方法(LHAN)在三种指标下的性能,均优于其他两种方法,验证了本发明提出的方法(LHAN)的有效性和可行性。
3.不同规模数据集上的实验结果
由于真实的生产环境,可能存在不同大小的数据量,所以在设计实验室,将原始数据集,随机划分出3万,6万,12万三种不同尺寸的数据集,分别在三种方法下进行实验验证,图6,图7,图8分别是三种方法的精确率(Precision),召回率(Recall)和F1分数(F1-Score),从实验结果可以看出,本发明提出的方法(LHAN)的性能,在不同数据量大小的情况下,性能都是优于其他方法,说明了该方法的合理性,能够适用于真实的生产环境。
4.不同方法下,推荐的准确率结果
本实验使用的指标为Accuracy@5,每种方法下,推荐5个标签,Accuracy@5的定义为模型输出的前5个标签中至少一个匹配正确的比例,实验结果如图9,本发明提出的方法(LHAN)相比Co-Attention方法Accuracy@5提高了2.57%,相比Bi-VL方法提高了17.42%,说明了本发明提出的方法(LHAN)的有效性。
实施例三
在本实施例中一种多层次注意力机制的多模态标签推荐模型构建装置,装置包括数据采集模块、数据预处理模块以及网络构建模块;
数据采集模块用于获取多组数据以及每组数据对应的标签,获得数据集以及标签集;
每组数据包括图像数据以及文本数据;
数据预处理模块用于对数据集进行预处理,获得预处理后的数据集;
其中预处理包括统一图像数据的大小;
网络构建模块用于将预处理后的数据集作为输入,将标签集作为参考输出,训练神经网络;
神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层;
特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块;
文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层;
图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层;
获得多模态标签推荐模型。
可选地,特征融合层以及融合层中的融合方式均为双线性融合。
可选地,图像特征提取子模块中特征提取网络为VGG16网络。
实施例四
在本实施例中提供了一种多层次注意力机制的多模态标签推荐装置,装置包括数据获取模块以及实施例三中多层次注意力机制的多模态标签推荐模型构建装置:
数据获取模块用于获取一组待推荐的数据,数据包括图像数据以及文本数据;
多层次注意力机制的多模态标签推荐模型构建装置用于利用构建出的多模态标签推荐模型对一组待推荐的数据进行分类,获得推荐结果。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法。

Claims (8)

1.一种多层次注意力机制的多模态标签推荐模型构建方法,其特征在于,所述的方法按照以下步骤执行:
步骤1、获取多组数据以及每组数据对应的标签,获得数据集以及标签集;
所述的每组数据包括图像数据以及文本数据;
步骤2、对所述的数据集进行预处理,获得预处理后的数据集;
其中所述的预处理包括统一图像数据的大小;
步骤3、将所述的预处理后的数据集作为输入,将所述的标签集作为参考输出,训练神经网络;
所述的神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层;
所述的特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块;
所述的文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层;
所述的图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层;
获得多模态标签推荐模型。
2.如权利要求1所述的多层次注意力机制的多模态标签推荐模型构建方法,其特征在于,所述的特征融合层以及融合层中的融合方式均为双线性融合。
3.如权利要求2所述的多层次注意力机制的多模态标签推荐模型构建方法,其特征在于,所述的图像特征提取子模块中特征提取网络为VGG16网络。
4.一种多层次注意力机制的多模态标签推荐方法,其特征在于,所述的推荐方法按照以下步骤执行:
步骤A、获取一组待推荐的数据,所述的数据包括图像数据以及文本数据;
步骤B、将所述的待推荐的数据输入至权利要求1-3任一项权利要求所述的多层次注意力机制的多模态标签推荐模型构建方法获得的多模态标签推荐模型中,获得推荐结果。
5.一种多层次注意力机制的多模态标签推荐模型构建装置,其特征在于,所述的装置包括数据采集模块、数据预处理模块以及网络构建模块;
所述的数据采集模块用于获取多组数据以及每组数据对应的标签,获得数据集以及标签集;
所述的每组数据包括图像数据以及文本数据;
所述的数据预处理模块用于对所述的数据集进行预处理,获得预处理后的数据集;
其中所述的预处理包括统一图像数据的大小;
所述的网络构建模块用于将所述的预处理后的数据集作为输入,将所述的标签集作为参考输出,训练神经网络;
所述的神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层;
所述的特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块;
所述的文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层;
所述的图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层;
获得多模态标签推荐模型。
6.如权利要求5所述的多层次注意力机制的多模态标签推荐模型构建装置,其特征在于,所述的特征融合层以及融合层中的融合方式均为双线性融合。
7.如权利要求6所述的多层次注意力机制的多模态标签推荐模型构建装置,其特征在于,所述的图像特征提取子模块中特征提取网络为VGG16网络。
8.一种多层次注意力机制的多模态标签推荐装置,其特征在于,所述的装置包括数据获取模块以及如权利要求5-7任一项权利要求所述的多层次注意力机制的多模态标签推荐模型构建装置:
所述的数据获取模块用于获取一组待推荐的数据,所述的数据包括图像数据以及文本数据;
所述的多层次注意力机制的多模态标签推荐模型构建装置用于利用构建出的多模态标签推荐模型对所述的一组待推荐的数据进行分类,获得推荐结果。
CN202010152922.XA 2020-03-06 2020-03-06 多层次注意力机制的多模态标签推荐模型构建方法及装置 Active CN111461174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010152922.XA CN111461174B (zh) 2020-03-06 2020-03-06 多层次注意力机制的多模态标签推荐模型构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010152922.XA CN111461174B (zh) 2020-03-06 2020-03-06 多层次注意力机制的多模态标签推荐模型构建方法及装置

Publications (2)

Publication Number Publication Date
CN111461174A true CN111461174A (zh) 2020-07-28
CN111461174B CN111461174B (zh) 2023-04-07

Family

ID=71681819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010152922.XA Active CN111461174B (zh) 2020-03-06 2020-03-06 多层次注意力机制的多模态标签推荐模型构建方法及装置

Country Status (1)

Country Link
CN (1) CN111461174B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897950A (zh) * 2020-07-29 2020-11-06 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112508077A (zh) * 2020-12-02 2021-03-16 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113704547A (zh) * 2021-08-26 2021-11-26 合肥工业大学 一种基于单向监督注意力的多模态标签推荐方法
CN114840757A (zh) * 2022-05-07 2022-08-02 阿里巴巴(中国)有限公司 模型训练和推荐方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121380A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
CN110192204A (zh) * 2016-11-03 2019-08-30 易享信息技术有限公司 通过多个语言任务层级处理数据的深度神经网络模型
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110192204A (zh) * 2016-11-03 2019-08-30 易享信息技术有限公司 通过多个语言任务层级处理数据的深度神经网络模型
WO2018121380A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王盛玉等: "基于词注意力卷积神经网络模型的情感分析研究", 《中文信息学报》 *
罗洋等: "融合注意力LSTM的协同过滤推荐算法", 《中文信息学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897950A (zh) * 2020-07-29 2020-11-06 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112183645B (zh) * 2020-09-30 2022-09-09 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112508077A (zh) * 2020-12-02 2021-03-16 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112508077B (zh) * 2020-12-02 2023-01-03 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113704547A (zh) * 2021-08-26 2021-11-26 合肥工业大学 一种基于单向监督注意力的多模态标签推荐方法
CN113704547B (zh) * 2021-08-26 2024-02-13 合肥工业大学 一种基于单向监督注意力的多模态标签推荐方法
CN114840757A (zh) * 2022-05-07 2022-08-02 阿里巴巴(中国)有限公司 模型训练和推荐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111461174B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111461174B (zh) 多层次注意力机制的多模态标签推荐模型构建方法及装置
Yan Computational methods for deep learning
Barbhuiya et al. CNN based feature extraction and classification for sign language
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
Abdalla et al. Copy-move forgery detection and localization using a generative adversarial network and convolutional neural-network
Alani Arabic handwritten digit recognition based on restricted Boltzmann machine and convolutional neural networks
Taylor et al. Learning invariance through imitation
Sharma et al. Offline signature verification using deep neural network with application to computer vision
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN114419509B (zh) 一种多模态情感分析方法、装置及电子设备
Manssor et al. Real-time human recognition at night via integrated face and gait recognition technologies
CN114818691A (zh) 文章内容的评价方法、装置、设备及介质
Heo et al. Estimation of pedestrian pose orientation using soft target training based on teacher–student framework
Liu et al. Fact-based visual question answering via dual-process system
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Yasrab et al. Fighting deepfakes using body language analysis
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
Simanjuntak et al. Fusion of cnn-and cosfire-based features with application to gender recognition from face images
CN117058723B (zh) 掌纹识别方法、装置及存储介质
Guzzi et al. Distillation of an end-to-end oracle for face verification and recognition sensors
Sönmez et al. Convolutional neural networks with balanced batches for facial expressions recognition
Kurach et al. Better text understanding through image-to-text transfer
Chen et al. Multi-level, multi-modal interactions for visual question answering over text in images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant