CN114782739A - 基于双向长短期记忆层和全连接层的多模态分类模型 - Google Patents
基于双向长短期记忆层和全连接层的多模态分类模型 Download PDFInfo
- Publication number
- CN114782739A CN114782739A CN202210337218.0A CN202210337218A CN114782739A CN 114782739 A CN114782739 A CN 114782739A CN 202210337218 A CN202210337218 A CN 202210337218A CN 114782739 A CN114782739 A CN 114782739A
- Authority
- CN
- China
- Prior art keywords
- features
- layer
- full connection
- term memory
- short term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于双向长短期记忆层和全连接层的多模态分类模型,包括S1:使用基于预训练模型获得图像特征,并将特征映射成一维向量;S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理;S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征;该基于双向长短期记忆层和全连接层的多模态分类模型具有的优点如下:(1)使用预训练模型作为特征提取器,可以更换为具有更好特征表现的预训练模型。(2)使用简单的双向长短期记忆层和全连接层来对文字和图片特征进行处理和交互,使得模型可以完全利用图片和文字之间的信息,并对多模态信息进行深入的交叉感知。
Description
技术领域
本发明具体涉及一种基于双向长短期记忆层和全连接层的多模态分类模型。
背景技术
表情包一般源于创作者的经历、现象级电视剧/动漫、某种流行趋势和文化等,天然带有社交属性和互联网属性。相对于纯文本而言,表情包因其诙谐的图片内容以及应景的文字描述深得互联网用户喜爱,但表情包蕴含的一些仇恨信息很难被发现。现在互联网社交媒体缺乏对表情包以及图片的监控,传统的方法是用户举报,然后工作人员核实,不仅浪费人力还浪费时间。现有的方法一般是基于文字的或者是基于图片的。基于文字的方法是通过提取图片或者表情包中的文字,建立这些文字的词典或者用预训练模型进行分词并转化为句子向量,然后将其输入到各种神经网络,比如基于注意力机制的Transformer,进行分类。而基于图像的分类则是通过卷积神经网络等模型获取图片的高维特征然后放入全连接层进行分类。而表情包中,由于单独的文本或图片的语义是截断的,即二者缺一所表达的意思就可能改变。基于图片的卷积神经网络无法识别图片中的文字特征,基于文本的模型又缺乏图片特征的补充,使得针对表情包的分析陷入了瓶颈。此外,也有一些研究分别用基于文本和基于图片的模型进行分析预测之后再进行结果的融合,然而,若融合的模型较少往往性能交较差,模型多又耗时严重;也有一些模型用不同的特征提取器来获图片和文本的特征然后进行拼接分类,而这忽视了图片和文本特征之间的差异性以及交互性,也没有展示出良好的性能。综上所述,提出一种基于双向长短期记忆层和全连接层的多模态分类模型以解决这一问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于双向长短期记忆层和全连接层的多模态分类模型,该基于双向长短期记忆层和全连接层的多模态分类模型可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于双向长短期记忆层和全连接层的多模态分类模型,该基于双向长短期记忆层和全连接层的多模态分类模型包括如下步骤:
S1:使用基于预训练模型获得图像特征,并将特征映射成一维向量;
S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理;
S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征;
S4:使用预训练模型得到输入文本的特征矩阵,并使用具有不同卷积核大小的多个一维卷积层对特征矩阵进行处理;
步骤S5:通过双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现能力;
S6:通过全连接层增强所获得的文字特征的整体表现能力;
S7:使用处理图片特征的归一化方法对文本特征进行处理,从而得到最终的文本特征;
S8:将步骤S3和步骤S5得到的图像特征和文本特征进行拼接;
S9:将步骤S8拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout 层来促进不同模态的特征的交互作用;
S10:把步骤S9得到的特征放入softmax层进行分类,然后用学习率为 0.00002的随机梯度下降法作为优化器,以类间交叉熵作为Loss函数。
该基于双向长短期记忆层和全连接层的多模态分类模型具有的优点如下:
(1)使用预训练模型作为特征提取器,可以更换为具有更好特征表现的预训练模型。
(2)使用简单的双向长短期记忆层和全连接层来对文字和图片特征进行处理和交互,使得模型可以完全利用图片和文字之间的信息,并对多模态信息进行深入的交叉感知。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型的工作流程示意图。
图2示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型中图像特征提取处理过程示意图。
图3示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型中文字特征提取处理过程示意图。
图4示意性地示出了根据本申请一个实施例的基于双向长短期记忆层和全连接层的多模态分类模型中多模态特征融合处理过程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
根据本申请的一个实施例,提供一种基于双向长短期记忆层和全连接层的多模态分类模型,包括如下步骤:
步骤S1:如图1所示,使用基于预训练模型获得图像特征,并将特征映射成一维向量。
步骤S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理;
步骤S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征;
步骤S4:如图2所示,使用预训练模型得到输入文本的特征矩阵,并使用具有不同卷积核大小的多个一维卷积层对特征矩阵进行处理;
步骤S5:通过多个双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现能力;
步骤S6:通过多个全连接层增强所获得的文字特征的整体表现能力;
步骤S7:使用处理图片特征的归一化方法对文本特征进行处理,从而得到最终的文本特征;
步骤S8:将步骤S3和步骤S5得到的图像特征和文本特征进行拼接;
步骤S9:将拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout 层来促进不同模态的特征的交互作用;
步骤S10:把步骤S9得到的特征放入softmax层进行分类,然后用学习率为0.00002的随机梯度下降法作为优化器,以类间交叉熵作为Loss函数。
根据本申请的一个实施例,针对表情包进行分类,现有技术将文字信息和图片分析分开建模,并未利用好二者的互补作用,或用简单的特征融合,忽视了更深层次的不同模态的特征交互,使得分类结果特别差。本发明使用高效简单且易调整的模型处理图文信息,主体框架是多个全连接层,输入了文本和图片特征之后,该模型可以充分利用文本和图片的互补作用,并对不同模态的特征进行充分的交互。对于文本特征,该模型采用双向长短期记忆层和全连接层使得文本特征充分结合了整个句子的信息;还采用了全连接层来处理图片特征。此外该模型还对文字特征以及图片特征进行归一化,防止在同一表示空间内不同特征数值量级不一致导致的偏差。因此本方案能够比较好地解决上述问题。
根据本申请的一个实施例,表情包分类旨在将含有仇恨、暴力等负面情绪的表情包找出来,以此来提供一个相对健康的社交网络环境。在发明中,我们提出了一个新的方法,通过对文字和图像的多种方式多层次的交互来提高对表情包分类的准确性。该模型可以应用在社交软件以及社交网站中,对含有文字和图片的表情包或者帖子进行预测。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
Claims (1)
1.一种基于双向长短期记忆层和全连接层的多模态分类模型,其特征在于,包括如下步骤:
S1:使用基于预训练模型获得图像特征,并将特征映射成一维向量;
S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理;
S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征;
S4:使用预训练模型得到输入文本的特征矩阵,并使用具有不同卷积核大小的多个一维卷积层对特征矩阵进行处理;
步骤S5:通过双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现能力;
S6:通过全连接层增强所获得的文字特征的整体表现能力;
S7:使用处理图片特征的归一化方法对文本特征进行处理,从而得到最终的文本特征;
S8:将步骤S3和步骤S5得到的图像特征和文本特征进行拼接;
S9:将步骤S8拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout层来促进不同模态的特征的交互作用;
S10:把步骤S9得到的特征放入softmax层进行分类,然后用学习率为0.00002的随机梯度下降法作为优化器,以类间交叉熵作为Loss函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210337218.0A CN114782739B (zh) | 2022-03-31 | 2022-03-31 | 基于双向长短期记忆层和全连接层的多模态分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210337218.0A CN114782739B (zh) | 2022-03-31 | 2022-03-31 | 基于双向长短期记忆层和全连接层的多模态分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782739A true CN114782739A (zh) | 2022-07-22 |
CN114782739B CN114782739B (zh) | 2023-07-14 |
Family
ID=82426640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210337218.0A Active CN114782739B (zh) | 2022-03-31 | 2022-03-31 | 基于双向长短期记忆层和全连接层的多模态分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782739B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN112257445A (zh) * | 2020-10-19 | 2021-01-22 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
US20210216862A1 (en) * | 2020-01-15 | 2021-07-15 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for semantic analysis of multimedia data using attention-based fusion network |
CN113536377A (zh) * | 2021-07-20 | 2021-10-22 | 南京邮电大学 | 一种基于超混沌伪随机序列的加密域跨模态信息检索方法 |
CN113593714A (zh) * | 2021-07-26 | 2021-11-02 | 陕西师范大学 | 一种多分类新冠肺炎病例的检测方法、系统、设备及介质 |
CN113590918A (zh) * | 2021-07-12 | 2021-11-02 | 电子科技大学 | 基于课程式学习的社交媒体舆情热度监测的框架构建方法 |
US11244119B1 (en) * | 2021-01-04 | 2022-02-08 | Institute Of Automation, Chinese Academy Of Sciences | Multi-modal lie detection method and apparatus, and device |
-
2022
- 2022-03-31 CN CN202210337218.0A patent/CN114782739B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
US20210216862A1 (en) * | 2020-01-15 | 2021-07-15 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for semantic analysis of multimedia data using attention-based fusion network |
CN112257445A (zh) * | 2020-10-19 | 2021-01-22 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
US11244119B1 (en) * | 2021-01-04 | 2022-02-08 | Institute Of Automation, Chinese Academy Of Sciences | Multi-modal lie detection method and apparatus, and device |
CN113590918A (zh) * | 2021-07-12 | 2021-11-02 | 电子科技大学 | 基于课程式学习的社交媒体舆情热度监测的框架构建方法 |
CN113536377A (zh) * | 2021-07-20 | 2021-10-22 | 南京邮电大学 | 一种基于超混沌伪随机序列的加密域跨模态信息检索方法 |
CN113593714A (zh) * | 2021-07-26 | 2021-11-02 | 陕西师范大学 | 一种多分类新冠肺炎病例的检测方法、系统、设备及介质 |
Non-Patent Citations (5)
Title |
---|
HUIMIN LU 等: "Chinese Image Captioning via Fuzzy Attention-based DenseNet-BiLSTM", vol. 17, no. 1, pages 1 - 18, XP058516797, DOI: 10.1145/3422668 * |
YAN ZHUANG 等: "Yet at Memotion 2.0 2022 : Hate Speech Detection Combining BiLSTM and Fully Connected Layers", vol. 3199, pages 1 - 9 * |
庄岩: "基于融合算法的虚假新闻检测及分类模型", vol. 01, pages 140 - 668 * |
蒋雨肖 等: "基于BiLSTM-VGG16的多模态信息特征分类研究", vol. 44, no. 11, pages 180 - 186 * |
黑富郁 等: "基于CNN和LSTM的异构数据舆情分类方法", vol. 28, no. 06, pages 141 - 147 * |
Also Published As
Publication number | Publication date |
---|---|
CN114782739B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059262B (zh) | 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN111046668A (zh) | 多模态文物数据的命名实体识别方法与装置 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN109829499B (zh) | 基于同一特征空间的图文数据融合情感分类方法和装置 | |
CN114020936B (zh) | 多模态事理图谱的构建方法、系统和可读存储介质 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN116796251A (zh) | 一种基于图文多模态的不良网站分类方法、系统及设备 | |
CN116304042A (zh) | 一种基于多模态特征自适应融合的虚假新闻检测方法 | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN115169361A (zh) | 一种情感分析方法及其相关设备 | |
CN115099234A (zh) | 一种基于图神经网络的中文多模态细粒度情感分析方法 | |
CN114398505A (zh) | 目标词语的确定方法、模型的训练方法、装置及电子设备 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN117172253A (zh) | 一种基于标签信息引导的社交媒体多模态命名实体识别方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |