CN114782739A

CN114782739A - 基于双向长短期记忆层和全连接层的多模态分类模型

Info

Publication number: CN114782739A
Application number: CN202210337218.0A
Authority: CN
Inventors: 庄岩; 黄和金; 洪峰; 杨涵; 王岩; 张彦如
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-22
Anticipated expiration: 2042-03-31
Also published as: CN114782739B

Abstract

本发明提供一种基于双向长短期记忆层和全连接层的多模态分类模型，包括S1:使用基于预训练模型获得图像特征，并将特征映射成一维向量；S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理；S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征；该基于双向长短期记忆层和全连接层的多模态分类模型具有的优点如下：(1)使用预训练模型作为特征提取器，可以更换为具有更好特征表现的预训练模型。(2)使用简单的双向长短期记忆层和全连接层来对文字和图片特征进行处理和交互，使得模型可以完全利用图片和文字之间的信息，并对多模态信息进行深入的交叉感知。

Description

基于双向长短期记忆层和全连接层的多模态分类模型

技术领域

本发明具体涉及一种基于双向长短期记忆层和全连接层的多模态分类模型。

背景技术

表情包一般源于创作者的经历、现象级电视剧/动漫、某种流行趋势和文化等，天然带有社交属性和互联网属性。相对于纯文本而言，表情包因其诙谐的图片内容以及应景的文字描述深得互联网用户喜爱，但表情包蕴含的一些仇恨信息很难被发现。现在互联网社交媒体缺乏对表情包以及图片的监控，传统的方法是用户举报，然后工作人员核实，不仅浪费人力还浪费时间。现有的方法一般是基于文字的或者是基于图片的。基于文字的方法是通过提取图片或者表情包中的文字，建立这些文字的词典或者用预训练模型进行分词并转化为句子向量，然后将其输入到各种神经网络，比如基于注意力机制的Transformer，进行分类。而基于图像的分类则是通过卷积神经网络等模型获取图片的高维特征然后放入全连接层进行分类。而表情包中，由于单独的文本或图片的语义是截断的，即二者缺一所表达的意思就可能改变。基于图片的卷积神经网络无法识别图片中的文字特征，基于文本的模型又缺乏图片特征的补充，使得针对表情包的分析陷入了瓶颈。此外，也有一些研究分别用基于文本和基于图片的模型进行分析预测之后再进行结果的融合，然而，若融合的模型较少往往性能交较差，模型多又耗时严重；也有一些模型用不同的特征提取器来获图片和文本的特征然后进行拼接分类，而这忽视了图片和文本特征之间的差异性以及交互性，也没有展示出良好的性能。综上所述，提出一种基于双向长短期记忆层和全连接层的多模态分类模型以解决这一问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于双向长短期记忆层和全连接层的多模态分类模型，该基于双向长短期记忆层和全连接层的多模态分类模型可以很好地解决上述问题。

为达到上述要求，本发明采取的技术方案是：提供一种基于双向长短期记忆层和全连接层的多模态分类模型，该基于双向长短期记忆层和全连接层的多模态分类模型包括如下步骤：

S1:使用基于预训练模型获得图像特征，并将特征映射成一维向量；

S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理；

S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征；

S4:使用预训练模型得到输入文本的特征矩阵，并使用具有不同卷积核大小的多个一维卷积层对特征矩阵进行处理；

步骤S5：通过双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现能力；

S6：通过全连接层增强所获得的文字特征的整体表现能力；

S7：使用处理图片特征的归一化方法对文本特征进行处理，从而得到最终的文本特征；

S8：将步骤S3和步骤S5得到的图像特征和文本特征进行拼接；

S9：将步骤S8拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout 层来促进不同模态的特征的交互作用；

S10：把步骤S9得到的特征放入softmax层进行分类，然后用学习率为 0.00002的随机梯度下降法作为优化器，以类间交叉熵作为Loss函数。

该基于双向长短期记忆层和全连接层的多模态分类模型具有的优点如下：

(1)使用预训练模型作为特征提取器，可以更换为具有更好特征表现的预训练模型。

(2)使用简单的双向长短期记忆层和全连接层来对文字和图片特征进行处理和交互，使得模型可以完全利用图片和文字之间的信息，并对多模态信息进行深入的交叉感知。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型的工作流程示意图。

图2示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型中图像特征提取处理过程示意图。

图3示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型中文字特征提取处理过程示意图。

图4示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型中多模态特征融合处理过程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

在以下描述中，对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度，但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外，重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例，但并非必然指代相同的实施例。

为简单起见，以下描述中省略了本领域技术人员公知的某些技术特征。

根据本申请的一个实施例，提供一种基于双向长短期记忆层和全连接层的多模态分类模型，包括如下步骤：

步骤S1:如图1所示，使用基于预训练模型获得图像特征，并将特征映射成一维向量。

步骤S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理；

步骤S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征；

步骤S4:如图2所示，使用预训练模型得到输入文本的特征矩阵，并使用具有不同卷积核大小的多个一维卷积层对特征矩阵进行处理；

步骤S5：通过多个双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现能力；

步骤S6：通过多个全连接层增强所获得的文字特征的整体表现能力；

步骤S7：使用处理图片特征的归一化方法对文本特征进行处理，从而得到最终的文本特征；

步骤S8：将步骤S3和步骤S5得到的图像特征和文本特征进行拼接；

步骤S9：将拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout 层来促进不同模态的特征的交互作用；

步骤S10：把步骤S9得到的特征放入softmax层进行分类，然后用学习率为0.00002的随机梯度下降法作为优化器，以类间交叉熵作为Loss函数。

根据本申请的一个实施例，针对表情包进行分类，现有技术将文字信息和图片分析分开建模，并未利用好二者的互补作用，或用简单的特征融合，忽视了更深层次的不同模态的特征交互，使得分类结果特别差。本发明使用高效简单且易调整的模型处理图文信息，主体框架是多个全连接层，输入了文本和图片特征之后，该模型可以充分利用文本和图片的互补作用，并对不同模态的特征进行充分的交互。对于文本特征，该模型采用双向长短期记忆层和全连接层使得文本特征充分结合了整个句子的信息；还采用了全连接层来处理图片特征。此外该模型还对文字特征以及图片特征进行归一化，防止在同一表示空间内不同特征数值量级不一致导致的偏差。因此本方案能够比较好地解决上述问题。

根据本申请的一个实施例，表情包分类旨在将含有仇恨、暴力等负面情绪的表情包找出来，以此来提供一个相对健康的社交网络环境。在发明中，我们提出了一个新的方法，通过对文字和图像的多种方式多层次的交互来提高对表情包分类的准确性。该模型可以应用在社交软件以及社交网站中，对含有文字和图片的表情包或者帖子进行预测。

以上所述实施例仅表示本发明的几种实施方式，其描述较为具体和详细，但并不能理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims

1.一种基于双向长短期记忆层和全连接层的多模态分类模型，其特征在于，包括如下步骤：

S6：通过全连接层增强所获得的文字特征的整体表现能力；

S8：将步骤S3和步骤S5得到的图像特征和文本特征进行拼接；

S9：将步骤S8拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout层来促进不同模态的特征的交互作用；

S10：把步骤S9得到的特征放入softmax层进行分类，然后用学习率为0.00002的随机梯度下降法作为优化器，以类间交叉熵作为Loss函数。