CN115100390A - 一种联合对比学习与自监督区域定位的图像情感预测方法 - Google Patents
一种联合对比学习与自监督区域定位的图像情感预测方法 Download PDFInfo
- Publication number
- CN115100390A CN115100390A CN202211020881.4A CN202211020881A CN115100390A CN 115100390 A CN115100390 A CN 115100390A CN 202211020881 A CN202211020881 A CN 202211020881A CN 115100390 A CN115100390 A CN 115100390A
- Authority
- CN
- China
- Prior art keywords
- image
- emotion
- network
- self
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,所述方法包括:获取图像情感数据集,并对图像情感数据集中的多个图像进行预处理操作,构建得到两个自监督区域定位网络并进行预训练;通过对比学习方法,对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征;对优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络;将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型;将待处理图像输入至图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。本发明可准确描述图像蕴含的情感语义,实现客观精准的图像情感预测。
Description
技术领域
本发明涉及计算机图像处理技术领域,特别涉及一种联合对比学习与自监督区域定位的图像情感预测方法。
背景技术
目前,众多的互联网用户在微博、微信以及博客等社交媒体上分享自身经历,或参与热点事件与话题的讨论。社交网络已成为人们发表观点和抒发情绪的重要平台,在这些平台上的信息蕴含了非常丰富的人类情感,如喜、怒、哀、乐、批评以及赞扬等。传统的情感预测工作主要围绕文本数据展开,能在自然语言类数据集上取得非常好的效果。但伴随信息化技术的不断提升,社交平台上支持除文字之外的多种类型数据的分享,例如图像、视频与表情符号等。与单纯的文字相比,图像表达的情感信息更加丰富,同时也更难被计算机直接“解读”。故面向图像情感预测的研究价值巨大,可应用于心理干预、舆情监控以及情感认知模型构建等诸多方面,并在机器与人类之间架构一座理解的桥梁。
现有的图像情感预测方法主要依靠机器学习与深度学习等方法,对于基于传统机器学习的图像处理方法,难以捕捉图像中深层次的情感语义信息。当前的深度学习类方法聚焦对完整图像进行分析,即多采用全局图像特征(粗粒度),较少挖掘和利用图像局部区域的局部特征(细粒度),未考虑图像中粗粒度信息与细粒度信息之间的互补关系。因此,现有的图像情感预测方法主要存在以下问题:
(1)、现有的图像情感预测研究主要采用图像全局特征,未挖掘和利用图像局部区域的局部特征,忽略了图像中粗粒度信息与细粒度信息之间的互补关系;
(2)、现有技术中,未对蕴含在图像中的情感语义进行充分挖掘,普遍采用通用方法对图像进行特征提取后分类,缺少用于表征图像情感内容的高质量特征,导致图像特征判别性不高,难以用于图像情感倾向的判断;
(3)、目前多数图像情感分析任务采用监督学习方法,构建的图像情感分析模型过度依赖人工标注,模型不能主动地进行调整,未对图像样本间的对比关系进行深入挖掘。
基于此,有必要提出一种联合对比学习与自监督区域定位的图像情感预测方法,以解决上述技术问题。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种联合对比学习与自监督区域定位的图像情感预测方法,以解决上述技术问题。
本发明实施例提出一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述方法包括如下步骤:
步骤一、获取图像情感数据集,并对所述图像情感数据集中的多个图像进行预处理操作,其中所述预处理操作包括数据增强操作以及图像情感数据对的构造;
步骤二、基于深度学习网络,构建得到两个自监督区域定位网络,并对两个所述自监督区域定位网络分别进行预训练;
步骤三、通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征;
步骤四、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络;
步骤五、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型;
步骤六、将待处理图像输入至所述图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,首先获取图像情感数据集,对图像情感数据集中的多个图像进行预处理,然后基于深度学习网络,构建得到两个自监督区域定位网络,再通过对比学习方法,对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征,然后对优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络,将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型,最后将待处理图像输入至图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明具有如下有益效果:
(1)、本发明可准确定位图像中蕴含强烈情感语义的图像局部区域,并综合图像全局特征与图像局部区域的局部特征进行图像的刻画,从而准确描述图像蕴含的情感语义,实现客观精准的图像情感预测;
(2)、基于自监督学习模式使模型能自主学习图像情感知识:一方面,通过对比学习增强图像特征的判别性,并降低对标注数据的依赖;另一方面,通过自监督区域定位准确捕获图像中情感语义强烈的图像局部区域,为多视角特征回溯以及改善图像情感预测精度做好准备;
(3)、构建一个端到端的预测模型,输入图像后,预测模型直接输出情感预测结果,预测过程更简单快捷;预测模型包含自监督区域定位网络与多视角特征回溯网络等,多个网络协同合作,相互受益、共同进步,从而推动预测精度的提升;
(4)、为图像情感分析研究在心理干预、舆情监控、流行趋势预测等多个实际领域的应用奠定重要基础。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤一中,所述图像情感数据集包括多张图像,每张图像包含对应的情感倾向标注;
所述数据增强操作包括如下步骤:
对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作,并将变换后的图像重新添加至所述图像情感数据集中;
所述图像情感数据对的构造的方法包括如下步骤:
对所述图像情感数据集中的其中一当前图像,从所述图像情感数据集中选取任意一张图像与所述当前图像进行配对;
当判断到两张图像的情感倾向标注一致时,则将所述当前图像对应的图像情感数据对标记为正例对;
当判断到两张图像的情感倾向标注不一致时,则将所述当前图像对应的图像情感数据对标记为反例对。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤二中,所述自监督区域定位网络的构建方法包括如下步骤:
选择一个深度学习网络作为主干网络,基于所述深度学习网络提取得到图像全局特征;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序得到第一排序结果,其中所述第一排序结果为情感信息量排序结果;
将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中,计算每一个矩形区域框对应的情感信任值,根据多个所述情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果,其中所述第二排序结果为情感信任值排序结果;
根据所述第二排序结果,对所述第一排序结果进行监督,以最终生成与情感信任值排序相同的情感信息量排序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成自监督区域定位网络的构建。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述深度学习网络包括SENet深度学习网络与ResNet深度学习网络;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框的步骤中,多个不同尺度的矩形区域框对应表示为:
根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序的方法中,对应的公式表示为:
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述方法还包括:
以情感信任值的第二排序结果为基准,用于指导情感信息量的排序,以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成SENet自监督区域定位网络的构建。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述自监督区域定位网络对应的损失函数的表达式为:
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤三中,通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤:
通过所述编码器,在特征空间中拉近相似正样本图像特征间的距离,并推远不相似负样本图像特征间的距离,使自监督区域定位网络最终输出的图像特征更具判别性;
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤三中,对比学习方法对应的损失函数表示为:
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤四中,对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络的方法包括如下步骤:
将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合,以得到完整网络:
将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中,以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值;
将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对,以实现图像情感区域定位;
在完成了图像情感区域定位后,将图像全局特征与局部图像特征进行拼接融合,以最终完成多视角特征回溯网络的构建。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述多视角特征回溯网络对应的总损失函数表示为:
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的一种联合对比学习与自监督区域定位的图像情感预测方法的流程图;
图2为本发明中联合对比学习与自监督区域定位的图像情感预测的模型结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1与图2,本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述方法包括如下步骤:
S101、获取图像情感数据集,并对所述图像情感数据集中的多个图像进行预处理操作,其中所述预处理操作包括数据增强操作以及图像情感数据对的构造。
在步骤S101中,首先从互联网下载图像情感数据集。其中,图像情感数据集包括多张图像,每张图像包含对应的情感倾向标注。其中,图像的情感倾向标注是多样化的,不仅局限于粗糙的积极或消极这两个类别,还可以是更细粒度的多个类别。
对图像情感数据集中的图像进行数据增强操作,具体的,数据增强操作包括如下步骤:
对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作,并将变换后的图像重新添加至所述图像情感数据集中。需要指出的是,该设置可使后续模型训练更充分,提高整个模型的鲁棒性与泛化性。
在完成数据增强操作之后,执行图像情感数据对的构造。具体的,图像情感数据对的构造的方法包括如下步骤:
S1011、对图像情感数据集中的其中一当前图像,从图像情感数据集中选取任意一张图像与所述当前图像进行配对;
S1012、当判断到两张图像的情感倾向标注一致时,则将当前图像对应的图像情感数据对标记为正例对;
S1013、当判断到两张图像的情感倾向标注不一致时,则将当前图像对应的图像情感数据对标记为反例对。
可以理解的,图像情感数据对在后续的对比学习中进行使用,促使模型提取更有效且判别性更强的图像特征。
S102、基于深度学习网络,构建得到两个自监督区域定位网络,并对两个所述自监督区域定位网络分别进行预训练。
在步骤S102中,构建的自监督区域定位网络的数量为两个。其中一个自监督区域定位网络的构建方法包括如下步骤:
S1021、选择一个深度学习网络作为主干网络,基于深度学习网络提取得到图像全局特征。
S1022、在所述图像全局特征中随机生成多个不同尺度的矩形区域框,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序得到第一排序结果,其中第一排序结果为情感信息量排序结果。
S1023、将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中,计算每一个矩形区域框对应的情感信任值,根据多个情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果,其中第二排序结果为情感信任值排序结果。
S1024、根据所述第二排序结果,对所述第一排序结果进行监督,以最终生成与情感信任值排序相同的情感信息量排序。
S1025、选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成自监督区域定位网络的构建。
作为补充的,针对于另一个自监督区域定位网络的构建,再选择另一个深度学习网络作为主干网络,重复上述S1021至S1025步骤,构建出第二个自监督区域定位网络。
在具体实施时,选择SENet与ResNet这两个深度学习网络为例,具体说明自监督区域定位网络的构建过程,其它网络类似。也即,上述的深度学习网络包括SENet深度学习网络与ResNet深度学习网络。
具体的,使用SENet深度学习网络提取图像全局特征,然后在图像全局特征中随机生成多个不同尺度的矩形区域框。其中,多个不同尺度的矩形区域框对应表示为:
进一步的,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序的方法中,对应的公式表示为:
其中,自监督区域定位网络对应的损失函数的表达式为:
最后,选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成SENet自监督区域定位网络的构建。
作为补充的,M为正整数,可为1、2、3、4、5、6、7、8、9或10,根据不同情况进行设置。此外,N为正整数,可为1、2、3、4、5、6、7、8、9或10,可根据不同情况进行设置,但N的值必须小于或等于M。
同理,采用类似的方法,基于ResNet深度学习网络构建另一个自监督区域定位网络。
进一步的,对上述两个自监督区域定位网络分别进行预训练。其中,预训练的主要目的是为了确保自监督区域定位网络能够准确定位图像中情感语义强烈的局部区域,为局部图像特征的提取奠定坚实基础。
在具体实施中,为了确保自监督区域定位的准确性,在预训练中会设计全连接层与Softmax层,对融合特征进行分类,以得到图像情感倾向预测结果。具体的,采用图像情感数据集中的情感倾向标注对预测结果作指导,提高网络对图像情感区域定位的精准度。在预训练中,使用交叉熵损失函数对每个自监督区域定位网络进行优化。每一个候选矩形区域框都通过最小化真实标签和预测结果的交叉熵损失来完成优化,对应的交叉熵损失函数表示为:
S103、通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征。
在步骤S103中,通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤:
S1032、通过所述编码器,在特征空间中拉近相似正样本图像特征间的距离,并推远不相似负样本图像特征间的距离,使自监督区域定位网络最终输出的图像特征更具判别性;
在本实施例中,对比学习方法对应的损失函数表示为:
S104、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络。
在步骤S104中,对两个自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络的方法包括如下步骤:
S1041、将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合,以得到完整网络:
S1042、将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中,以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值;
S1043、将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对,以实现图像情感区域定位;
S1044、在完成了图像情感区域定位后,将图像全局特征与局部图像特征进行拼接融合,以最终完成多视角特征回溯网络的构建。
在具体实施中,首先针对整幅图像进行全局特征提取,随后根据提取的图像全局特征生成多个不同尺度的候选矩形区域框,对每个候选矩形区域框分别计算情感信息量并降序排列。其中,情感信息量排名高的候选矩形区域框蕴含较为准确的情感倾向,可提取图像特征以有助于提升情感预测精度,因此将这些候选矩形区域框回溯至完整网络中,以提取图像特征并计算情感信任值。然后,再对比所计算出的候选矩形区域框的情感信息量排序与情感信任值排序,最终实现图像情感区域定位。在完成图像情感区域定位之后,将已提取的图像全局特征与局部特征进行拼接融合,从而完成多视角特征回溯网络的构建。
在具体实施中,完整网络在选出N个候选矩形区域框之后,将候选矩形区域框调整为预定义大小(224×224),将这些候选矩形区域框回溯至完整网络中,以生成每个候选矩形区域框的局部特征向量(2048维)。将这些局部图像特征与全局图像特征进行拼接,即充分利用图像中的上下文信息(粗粒度)和局部信息(细粒度)完成情感预测。
具体的,上述的多视角特征回溯网络对应的总损失函数表示为:
S105、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型。
S106、将待处理图像输入至所述图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,首先获取图像情感数据集,对图像情感数据集中的多个图像进行预处理,然后基于深度学习网络,构建得到两个自监督区域定位网络,再通过对比学习方法,对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征,然后对优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络,将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型,最后将待处理图像输入至图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明具有如下有益效果:
(1)、本发明可准确定位图像中蕴含强烈情感语义的图像局部区域,并综合图像全局特征与图像局部区域的局部特征进行图像的刻画,从而准确描述图像蕴含的情感语义,实现客观精准的图像情感预测;
(2)、基于自监督学习模式使模型能自主学习图像情感知识:一方面,通过对比学习增强图像特征的判别性,并降低对标注数据的依赖;另一方面,通过自监督区域定位准确捕获图像中情感语义强烈的图像局部区域,为多视角特征回溯以及改善图像情感预测精度做好准备;
(3)、构建一个端到端的预测模型,输入图像后,预测模型直接输出情感预测结果,预测过程更简单快捷;预测模型包含自监督区域定位网络与多视角特征回溯网络等,多个网络协同合作,相互受益、共同进步,从而推动预测精度的提升;
(4)、为图像情感分析研究在心理干预、舆情监控、流行趋势预测等多个实际领域的应用奠定重要基础。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述方法包括如下步骤:
步骤一、获取图像情感数据集,并对所述图像情感数据集中的多个图像进行预处理操作,其中所述预处理操作包括数据增强操作以及图像情感数据对的构造;
步骤二、基于深度学习网络,构建得到两个自监督区域定位网络,并对两个所述自监督区域定位网络分别进行预训练;
步骤三、通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征;
步骤四、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络;
步骤五、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型;
步骤六、将待处理图像输入至所述图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
2.根据权利要求1所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤一中,所述图像情感数据集包括多张图像,每张图像包含对应的情感倾向标注;
所述数据增强操作包括如下步骤:
对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作,并将变换后的图像重新添加至所述图像情感数据集中;
所述图像情感数据对的构造的方法包括如下步骤:
对所述图像情感数据集中的其中一当前图像,从所述图像情感数据集中选取任意一张图像与所述当前图像进行配对;
当判断到两张图像的情感倾向标注一致时,则将所述当前图像对应的图像情感数据对标记为正例对;
当判断到两张图像的情感倾向标注不一致时,则将所述当前图像对应的图像情感数据对标记为反例对。
3.根据权利要求2所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤二中,所述自监督区域定位网络的构建方法包括如下步骤:
选择一个深度学习网络作为主干网络,基于所述深度学习网络提取得到图像全局特征;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序得到第一排序结果,其中所述第一排序结果为情感信息量排序结果;
将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中,计算每一个矩形区域框对应的情感信任值,根据多个所述情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果,其中所述第二排序结果为情感信任值排序结果;
根据所述第二排序结果,对所述第一排序结果进行监督,以最终生成与情感信任值排序相同的情感信息量排序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成自监督区域定位网络的构建。
5.根据权利要求4所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述方法还包括:
以情感信任值的第二排序结果为基准,用于指导情感信息量的排序,以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成SENet自监督区域定位网络的构建。
7.根据权利要求6所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤三中,通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤:
通过所述编码器,在特征空间中拉近相似正样本图像特征间的距离,并推远不相似负样本图像特征间的距离,使自监督区域定位网络最终输出的图像特征更具判别性;
9.根据权利要求8所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤四中,对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络的方法包括如下步骤:
将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合,以得到完整网络:
将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中,以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值;
将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对,以实现图像情感区域定位;
在完成了图像情感区域定位后,将图像全局特征与局部图像特征进行拼接融合,以最终完成多视角特征回溯网络的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211020881.4A CN115100390B (zh) | 2022-08-24 | 2022-08-24 | 一种联合对比学习与自监督区域定位的图像情感预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211020881.4A CN115100390B (zh) | 2022-08-24 | 2022-08-24 | 一种联合对比学习与自监督区域定位的图像情感预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100390A true CN115100390A (zh) | 2022-09-23 |
CN115100390B CN115100390B (zh) | 2022-11-18 |
Family
ID=83300280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211020881.4A Active CN115100390B (zh) | 2022-08-24 | 2022-08-24 | 一种联合对比学习与自监督区域定位的图像情感预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100390B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590829A (zh) * | 2017-09-18 | 2018-01-16 | 西安电子科技大学 | 一种适用于多视角密集点云数据配准的种子点拾取方法 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN108253961A (zh) * | 2016-12-29 | 2018-07-06 | 北京雷动云合智能技术有限公司 | 一种基于imu的轮式机器人定位方法 |
CN110852368A (zh) * | 2019-11-05 | 2020-02-28 | 南京邮电大学 | 全局与局部特征嵌入及图文融合的情感分析方法与系统 |
CN111832573A (zh) * | 2020-06-12 | 2020-10-27 | 桂林电子科技大学 | 一种基于类激活映射和视觉显著性的图像情感分类方法 |
CN112381116A (zh) * | 2020-10-21 | 2021-02-19 | 福州大学 | 基于对比学习的自监督图像分类方法 |
CN112686898A (zh) * | 2021-03-15 | 2021-04-20 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN113011427A (zh) * | 2021-03-17 | 2021-06-22 | 中南大学 | 基于自监督对比学习的遥感图像语义分割方法 |
CN113362313A (zh) * | 2021-06-18 | 2021-09-07 | 四川启睿克科技有限公司 | 一种基于自监督学习的缺陷检测方法及系统 |
CN113378937A (zh) * | 2021-06-11 | 2021-09-10 | 西安电子科技大学 | 一种基于自监督增强的小样本图像分类方法及系统 |
CN113469238A (zh) * | 2021-06-29 | 2021-10-01 | 中山大学 | 一种基于crnn解决拼图任务的自监督学习方法 |
CN113849661A (zh) * | 2021-09-26 | 2021-12-28 | 平安科技(深圳)有限公司 | 实体嵌入数据的提取方法和装置、电子设备、存储介质 |
CN113989582A (zh) * | 2021-08-26 | 2022-01-28 | 中国科学院信息工程研究所 | 一种基于密集语义对比的自监督视觉模型预训练方法 |
CN114201605A (zh) * | 2021-11-23 | 2022-03-18 | 上海大学 | 一种基于联合属性建模的图像情感分析方法 |
CN114240955A (zh) * | 2021-12-22 | 2022-03-25 | 电子科技大学 | 一种半监督的跨领域自适应的图像分割方法 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
CN114564651A (zh) * | 2022-03-11 | 2022-05-31 | 辽宁工程技术大学 | 一种结合对比学习方法的自监督推荐方法 |
CN114663683A (zh) * | 2022-03-28 | 2022-06-24 | 南京邮电大学 | 一种基于空间特征自监督的水下目标检测方法 |
CN114925163A (zh) * | 2022-04-29 | 2022-08-19 | 海信电子科技(武汉)有限公司 | 一种智能设备及意图识别的模型训练方法 |
CN114937182A (zh) * | 2022-04-18 | 2022-08-23 | 江西师范大学 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
-
2022
- 2022-08-24 CN CN202211020881.4A patent/CN115100390B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108253961A (zh) * | 2016-12-29 | 2018-07-06 | 北京雷动云合智能技术有限公司 | 一种基于imu的轮式机器人定位方法 |
CN107590829A (zh) * | 2017-09-18 | 2018-01-16 | 西安电子科技大学 | 一种适用于多视角密集点云数据配准的种子点拾取方法 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN110852368A (zh) * | 2019-11-05 | 2020-02-28 | 南京邮电大学 | 全局与局部特征嵌入及图文融合的情感分析方法与系统 |
CN111832573A (zh) * | 2020-06-12 | 2020-10-27 | 桂林电子科技大学 | 一种基于类激活映射和视觉显著性的图像情感分类方法 |
CN112381116A (zh) * | 2020-10-21 | 2021-02-19 | 福州大学 | 基于对比学习的自监督图像分类方法 |
CN112686898A (zh) * | 2021-03-15 | 2021-04-20 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN113011427A (zh) * | 2021-03-17 | 2021-06-22 | 中南大学 | 基于自监督对比学习的遥感图像语义分割方法 |
CN113378937A (zh) * | 2021-06-11 | 2021-09-10 | 西安电子科技大学 | 一种基于自监督增强的小样本图像分类方法及系统 |
CN113362313A (zh) * | 2021-06-18 | 2021-09-07 | 四川启睿克科技有限公司 | 一种基于自监督学习的缺陷检测方法及系统 |
CN113469238A (zh) * | 2021-06-29 | 2021-10-01 | 中山大学 | 一种基于crnn解决拼图任务的自监督学习方法 |
CN113989582A (zh) * | 2021-08-26 | 2022-01-28 | 中国科学院信息工程研究所 | 一种基于密集语义对比的自监督视觉模型预训练方法 |
CN113849661A (zh) * | 2021-09-26 | 2021-12-28 | 平安科技(深圳)有限公司 | 实体嵌入数据的提取方法和装置、电子设备、存储介质 |
CN114201605A (zh) * | 2021-11-23 | 2022-03-18 | 上海大学 | 一种基于联合属性建模的图像情感分析方法 |
CN114240955A (zh) * | 2021-12-22 | 2022-03-25 | 电子科技大学 | 一种半监督的跨领域自适应的图像分割方法 |
CN114564651A (zh) * | 2022-03-11 | 2022-05-31 | 辽宁工程技术大学 | 一种结合对比学习方法的自监督推荐方法 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
CN114663683A (zh) * | 2022-03-28 | 2022-06-24 | 南京邮电大学 | 一种基于空间特征自监督的水下目标检测方法 |
CN114937182A (zh) * | 2022-04-18 | 2022-08-23 | 江西师范大学 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
CN114925163A (zh) * | 2022-04-29 | 2022-08-19 | 海信电子科技(武汉)有限公司 | 一种智能设备及意图识别的模型训练方法 |
Non-Patent Citations (4)
Title |
---|
FAN ZHOU等: "Self-supervised human mobility learning for next location prediction and trajectory classification", 《KNOWLEDGE-BASED SYSTEMS》 * |
XIAO LIU等: "Self-supervised Learning:Generative or Contrastive", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
李朝阳: "基于对比学习的场景图像识别与分割技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
郭东恩等: "基于有监督对比学习的遥感图像场景分类", 《光子学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115100390B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | A real-time global inference network for one-stage referring expression comprehension | |
US10540547B2 (en) | Apparatus and method for detecting debatable document | |
JP7290861B2 (ja) | 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム | |
CN110178139A (zh) | 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN112667816A (zh) | 一种基于深度学习的方面级情感分析方法及系统 | |
Gandhi et al. | Multimodal sentiment analysis: review, application domains and future directions | |
CN116091836A (zh) | 一种多模态视觉语言理解与定位方法、装置、终端及介质 | |
CN115270807A (zh) | 网络用户的情感倾向判定方法、装置、设备及存储介质 | |
Alluri et al. | Multi modal analysis of memes for sentiment extraction | |
CN111859925B (zh) | 一种基于概率情感词典的情感分析系统及方法 | |
CN113297352A (zh) | 基于多任务网络的属性级情感分类方法及装置 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN117171303A (zh) | 一种基于自适应注意力融合的联合多模态方面级情感分析方法 | |
CN115100390B (zh) | 一种联合对比学习与自监督区域定位的图像情感预测方法 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
Gallo et al. | Deep neural networks for page stream segmentation and classification | |
Wang et al. | MT-TCCT: Multi-task learning for multimodal emotion recognition | |
CN117115505A (zh) | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 | |
CN116702753A (zh) | 基于图注意力网络的文本情感分析方法 | |
Ge et al. | Towards Exploiting Sticker for Multimodal Sentiment Analysis in Social Media: A New Dataset and Baseline | |
Sora et al. | Speech Sentiment Analysis for Citizen's Engagement in Smart Cities' Events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |