CN115100390A - 一种联合对比学习与自监督区域定位的图像情感预测方法 - Google Patents

一种联合对比学习与自监督区域定位的图像情感预测方法 Download PDF

Info

Publication number
CN115100390A
CN115100390A CN202211020881.4A CN202211020881A CN115100390A CN 115100390 A CN115100390 A CN 115100390A CN 202211020881 A CN202211020881 A CN 202211020881A CN 115100390 A CN115100390 A CN 115100390A
Authority
CN
China
Prior art keywords
image
emotion
network
self
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211020881.4A
Other languages
English (en)
Other versions
CN115100390B (zh
Inventor
张红斌
侯婧怡
熊其鹏
袁梦
石皞炜
李广丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202211020881.4A priority Critical patent/CN115100390B/zh
Publication of CN115100390A publication Critical patent/CN115100390A/zh
Application granted granted Critical
Publication of CN115100390B publication Critical patent/CN115100390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,所述方法包括:获取图像情感数据集,并对图像情感数据集中的多个图像进行预处理操作,构建得到两个自监督区域定位网络并进行预训练;通过对比学习方法,对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征;对优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络;将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型;将待处理图像输入至图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。本发明可准确描述图像蕴含的情感语义,实现客观精准的图像情感预测。

Description

一种联合对比学习与自监督区域定位的图像情感预测方法
技术领域
本发明涉及计算机图像处理技术领域,特别涉及一种联合对比学习与自监督区域定位的图像情感预测方法。
背景技术
目前,众多的互联网用户在微博、微信以及博客等社交媒体上分享自身经历,或参与热点事件与话题的讨论。社交网络已成为人们发表观点和抒发情绪的重要平台,在这些平台上的信息蕴含了非常丰富的人类情感,如喜、怒、哀、乐、批评以及赞扬等。传统的情感预测工作主要围绕文本数据展开,能在自然语言类数据集上取得非常好的效果。但伴随信息化技术的不断提升,社交平台上支持除文字之外的多种类型数据的分享,例如图像、视频与表情符号等。与单纯的文字相比,图像表达的情感信息更加丰富,同时也更难被计算机直接“解读”。故面向图像情感预测的研究价值巨大,可应用于心理干预、舆情监控以及情感认知模型构建等诸多方面,并在机器与人类之间架构一座理解的桥梁。
现有的图像情感预测方法主要依靠机器学习与深度学习等方法,对于基于传统机器学习的图像处理方法,难以捕捉图像中深层次的情感语义信息。当前的深度学习类方法聚焦对完整图像进行分析,即多采用全局图像特征(粗粒度),较少挖掘和利用图像局部区域的局部特征(细粒度),未考虑图像中粗粒度信息与细粒度信息之间的互补关系。因此,现有的图像情感预测方法主要存在以下问题:
(1)、现有的图像情感预测研究主要采用图像全局特征,未挖掘和利用图像局部区域的局部特征,忽略了图像中粗粒度信息与细粒度信息之间的互补关系;
(2)、现有技术中,未对蕴含在图像中的情感语义进行充分挖掘,普遍采用通用方法对图像进行特征提取后分类,缺少用于表征图像情感内容的高质量特征,导致图像特征判别性不高,难以用于图像情感倾向的判断;
(3)、目前多数图像情感分析任务采用监督学习方法,构建的图像情感分析模型过度依赖人工标注,模型不能主动地进行调整,未对图像样本间的对比关系进行深入挖掘。
基于此,有必要提出一种联合对比学习与自监督区域定位的图像情感预测方法,以解决上述技术问题。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种联合对比学习与自监督区域定位的图像情感预测方法,以解决上述技术问题。
本发明实施例提出一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述方法包括如下步骤:
步骤一、获取图像情感数据集,并对所述图像情感数据集中的多个图像进行预处理操作,其中所述预处理操作包括数据增强操作以及图像情感数据对的构造;
步骤二、基于深度学习网络,构建得到两个自监督区域定位网络,并对两个所述自监督区域定位网络分别进行预训练;
步骤三、通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征;
步骤四、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络;
步骤五、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型;
步骤六、将待处理图像输入至所述图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,首先获取图像情感数据集,对图像情感数据集中的多个图像进行预处理,然后基于深度学习网络,构建得到两个自监督区域定位网络,再通过对比学习方法,对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征,然后对优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络,将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型,最后将待处理图像输入至图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明具有如下有益效果:
(1)、本发明可准确定位图像中蕴含强烈情感语义的图像局部区域,并综合图像全局特征与图像局部区域的局部特征进行图像的刻画,从而准确描述图像蕴含的情感语义,实现客观精准的图像情感预测;
(2)、基于自监督学习模式使模型能自主学习图像情感知识:一方面,通过对比学习增强图像特征的判别性,并降低对标注数据的依赖;另一方面,通过自监督区域定位准确捕获图像中情感语义强烈的图像局部区域,为多视角特征回溯以及改善图像情感预测精度做好准备;
(3)、构建一个端到端的预测模型,输入图像后,预测模型直接输出情感预测结果,预测过程更简单快捷;预测模型包含自监督区域定位网络与多视角特征回溯网络等,多个网络协同合作,相互受益、共同进步,从而推动预测精度的提升;
(4)、为图像情感分析研究在心理干预、舆情监控、流行趋势预测等多个实际领域的应用奠定重要基础。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤一中,所述图像情感数据集包括多张图像,每张图像包含对应的情感倾向标注;
所述数据增强操作包括如下步骤:
对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作,并将变换后的图像重新添加至所述图像情感数据集中;
所述图像情感数据对的构造的方法包括如下步骤:
对所述图像情感数据集中的其中一当前图像,从所述图像情感数据集中选取任意一张图像与所述当前图像进行配对;
当判断到两张图像的情感倾向标注一致时,则将所述当前图像对应的图像情感数据对标记为正例对;
当判断到两张图像的情感倾向标注不一致时,则将所述当前图像对应的图像情感数据对标记为反例对。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤二中,所述自监督区域定位网络的构建方法包括如下步骤:
选择一个深度学习网络作为主干网络,基于所述深度学习网络提取得到图像全局特征;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序得到第一排序结果,其中所述第一排序结果为情感信息量排序结果;
将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中,计算每一个矩形区域框对应的情感信任值,根据多个所述情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果,其中所述第二排序结果为情感信任值排序结果;
根据所述第二排序结果,对所述第一排序结果进行监督,以最终生成与情感信任值排序相同的情感信息量排序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成自监督区域定位网络的构建。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述深度学习网络包括SENet深度学习网络与ResNet深度学习网络;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框的步骤中,多个不同尺度的矩形区域框对应表示为:
Figure 72949DEST_PATH_IMAGE001
根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序的方法中,对应的公式表示为:
Figure 193351DEST_PATH_IMAGE002
其中,
Figure 176351DEST_PATH_IMAGE003
表示矩形区域框的最大数量,
Figure 555248DEST_PATH_IMAGE004
表示矩形区域框,
Figure 838462DEST_PATH_IMAGE005
表示第
Figure 129766DEST_PATH_IMAGE003
个矩形区域框,
Figure 865641DEST_PATH_IMAGE006
表示第
Figure 284115DEST_PATH_IMAGE003
个矩形区域框的情感信息量。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述方法还包括:
选取前
Figure 421836DEST_PATH_IMAGE007
个情感信息量最高的矩形区域框
Figure 884041DEST_PATH_IMAGE008
作为候选矩形区域框,对应的情感信息量的第一排序结果为
Figure 107212DEST_PATH_IMAGE009
将选取的
Figure 562333DEST_PATH_IMAGE007
个矩形区域框重新输入至SENet深度学习网络中,提取每个矩形区域框的局部特征,计算得到对应的情感信任值的第二排序结果为
Figure 820139DEST_PATH_IMAGE010
,其中,
Figure 453246DEST_PATH_IMAGE011
表示第
Figure 163713DEST_PATH_IMAGE007
个矩形区域框的情感信任值;
以情感信任值的第二排序结果为基准,用于指导情感信息量的排序,以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成SENet自监督区域定位网络的构建。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述自监督区域定位网络对应的损失函数的表达式为:
Figure 173257DEST_PATH_IMAGE012
其中,
Figure 36302DEST_PATH_IMAGE013
表示自监督区域定位网络对应的损失函数,
Figure 840310DEST_PATH_IMAGE014
表示第
Figure 38073DEST_PATH_IMAGE015
个矩形区域框的情感信任值,
Figure 585729DEST_PATH_IMAGE016
表示第
Figure 801815DEST_PATH_IMAGE017
个矩形区域框的情感信任值,
Figure 42304DEST_PATH_IMAGE018
表示第
Figure 461784DEST_PATH_IMAGE015
个矩形区域框的情感信息量,
Figure 813131DEST_PATH_IMAGE019
表示第
Figure 396908DEST_PATH_IMAGE017
个矩形区域框的情感信息量;
Figure 808297DEST_PATH_IMAGE020
Figure 715073DEST_PATH_IMAGE021
表示合页损失函数,当
Figure 604532DEST_PATH_IMAGE022
时,合页损失函数
Figure 795211DEST_PATH_IMAGE021
使
Figure 377502DEST_PATH_IMAGE023
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤三中,通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤:
基于步骤一中构造得到的图像情感数据对,用于学习得到一个编码器,使得
Figure 771574DEST_PATH_IMAGE024
通过所述编码器,在特征空间中拉近相似正样本图像特征间的距离,并推远不相似负样本图像特征间的距离,使自监督区域定位网络最终输出的图像特征更具判别性;
其中,
Figure 464724DEST_PATH_IMAGE025
表示度量函数,
Figure 11374DEST_PATH_IMAGE026
表示样本的特征图,
Figure 498987DEST_PATH_IMAGE027
表示正样本的特征图,
Figure 645934DEST_PATH_IMAGE028
表示负样本的特征图,
Figure 877196DEST_PATH_IMAGE029
表示与随机选取的样本
Figure 42467DEST_PATH_IMAGE030
相似或同类的正样本,
Figure 700981DEST_PATH_IMAGE031
表示与随机选取的样本
Figure 69645DEST_PATH_IMAGE030
不相似或不同类的负样本。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤三中,对比学习方法对应的损失函数表示为:
Figure 104598DEST_PATH_IMAGE032
其中,
Figure 625840DEST_PATH_IMAGE033
表示对比学习方法的损失函数,
Figure 455256DEST_PATH_IMAGE034
表示对随机选取的样本
Figure 311216DEST_PATH_IMAGE030
进行损失函数计算,
Figure 149859DEST_PATH_IMAGE035
表示样本特征图的逆矩阵,
Figure 758564DEST_PATH_IMAGE036
表示第
Figure 24460DEST_PATH_IMAGE037
个负样本的特征图,
Figure 102138DEST_PATH_IMAGE037
表示第
Figure 744472DEST_PATH_IMAGE037
个负样本。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,在所述步骤四中,对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络的方法包括如下步骤:
将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合,以得到完整网络:
将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中,以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值;
将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对,以实现图像情感区域定位;
在完成了图像情感区域定位后,将图像全局特征与局部图像特征进行拼接融合,以最终完成多视角特征回溯网络的构建。
所述一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述多视角特征回溯网络对应的总损失函数表示为:
Figure 489574DEST_PATH_IMAGE038
其中,
Figure 677104DEST_PATH_IMAGE039
表示多视角特征回溯网络对应的总损失函数;
Figure 242077DEST_PATH_IMAGE040
Figure 422523DEST_PATH_IMAGE041
表示多视角特征回溯网络的交叉熵损失函数,
Figure 756552DEST_PATH_IMAGE042
表示自监督区域定位网络的损失函数,
Figure 613519DEST_PATH_IMAGE043
表示候选矩形区域框的识别结果,
Figure 665788DEST_PATH_IMAGE044
表示样本的真实标签,
Figure 384346DEST_PATH_IMAGE045
表示第
Figure 838461DEST_PATH_IMAGE046
个候选矩形区域框。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的一种联合对比学习与自监督区域定位的图像情感预测方法的流程图;
图2为本发明中联合对比学习与自监督区域定位的图像情感预测的模型结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1与图2,本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,其中,所述方法包括如下步骤:
S101、获取图像情感数据集,并对所述图像情感数据集中的多个图像进行预处理操作,其中所述预处理操作包括数据增强操作以及图像情感数据对的构造。
在步骤S101中,首先从互联网下载图像情感数据集。其中,图像情感数据集包括多张图像,每张图像包含对应的情感倾向标注。其中,图像的情感倾向标注是多样化的,不仅局限于粗糙的积极或消极这两个类别,还可以是更细粒度的多个类别。
对图像情感数据集中的图像进行数据增强操作,具体的,数据增强操作包括如下步骤:
对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作,并将变换后的图像重新添加至所述图像情感数据集中。需要指出的是,该设置可使后续模型训练更充分,提高整个模型的鲁棒性与泛化性。
在完成数据增强操作之后,执行图像情感数据对的构造。具体的,图像情感数据对的构造的方法包括如下步骤:
S1011、对图像情感数据集中的其中一当前图像,从图像情感数据集中选取任意一张图像与所述当前图像进行配对;
S1012、当判断到两张图像的情感倾向标注一致时,则将当前图像对应的图像情感数据对标记为正例对;
S1013、当判断到两张图像的情感倾向标注不一致时,则将当前图像对应的图像情感数据对标记为反例对。
可以理解的,图像情感数据对在后续的对比学习中进行使用,促使模型提取更有效且判别性更强的图像特征。
S102、基于深度学习网络,构建得到两个自监督区域定位网络,并对两个所述自监督区域定位网络分别进行预训练。
在步骤S102中,构建的自监督区域定位网络的数量为两个。其中一个自监督区域定位网络的构建方法包括如下步骤:
S1021、选择一个深度学习网络作为主干网络,基于深度学习网络提取得到图像全局特征。
S1022、在所述图像全局特征中随机生成多个不同尺度的矩形区域框,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序得到第一排序结果,其中第一排序结果为情感信息量排序结果。
S1023、将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中,计算每一个矩形区域框对应的情感信任值,根据多个情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果,其中第二排序结果为情感信任值排序结果。
S1024、根据所述第二排序结果,对所述第一排序结果进行监督,以最终生成与情感信任值排序相同的情感信息量排序。
S1025、选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成自监督区域定位网络的构建。
作为补充的,针对于另一个自监督区域定位网络的构建,再选择另一个深度学习网络作为主干网络,重复上述S1021至S1025步骤,构建出第二个自监督区域定位网络。
在具体实施时,选择SENet与ResNet这两个深度学习网络为例,具体说明自监督区域定位网络的构建过程,其它网络类似。也即,上述的深度学习网络包括SENet深度学习网络与ResNet深度学习网络。
具体的,使用SENet深度学习网络提取图像全局特征,然后在图像全局特征中随机生成多个不同尺度的矩形区域框。其中,多个不同尺度的矩形区域框对应表示为:
Figure 367793DEST_PATH_IMAGE001
进一步的,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序的方法中,对应的公式表示为:
Figure 907359DEST_PATH_IMAGE002
其中,
Figure 429607DEST_PATH_IMAGE003
表示矩形区域框的最大数量,
Figure 738229DEST_PATH_IMAGE004
表示矩形区域框,
Figure 936998DEST_PATH_IMAGE005
表示第
Figure 698280DEST_PATH_IMAGE003
个矩形区域框,
Figure 24220DEST_PATH_IMAGE006
表示第
Figure 187348DEST_PATH_IMAGE003
个矩形区域框的情感信息量。
为了减少区域冗余,采用非极大值抑制法选取前
Figure 324062DEST_PATH_IMAGE007
个情感信息量最高的矩形区域框
Figure 572641DEST_PATH_IMAGE008
作为候选矩形区域框,对应的情感信息量的第一排序结果为
Figure 436692DEST_PATH_IMAGE009
将选取的
Figure 454326DEST_PATH_IMAGE007
个矩形区域框重新输入至SENet深度学习网络中,提取每个矩形区域框的局部特征,计算得到对应的情感信任值的第二排序结果为
Figure 260477DEST_PATH_IMAGE047
,其中,
Figure 996352DEST_PATH_IMAGE048
表示第
Figure 929673DEST_PATH_IMAGE049
个矩形区域框的情感信任值。
进一步的,以情感信任值的第二排序结果为基准,用于指导情感信息量的排序,以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序,也即
Figure 801814DEST_PATH_IMAGE009
Figure 280331DEST_PATH_IMAGE050
具有相同的顺序。
其中,自监督区域定位网络对应的损失函数的表达式为:
Figure 503502DEST_PATH_IMAGE012
其中,
Figure 709355DEST_PATH_IMAGE013
表示自监督区域定位网络对应的损失函数,
Figure 701582DEST_PATH_IMAGE014
表示第
Figure 849535DEST_PATH_IMAGE015
个矩形区域框的情感信任值,
Figure 294423DEST_PATH_IMAGE016
表示第
Figure 303967DEST_PATH_IMAGE051
个矩形区域框的情感信任值,
Figure 416280DEST_PATH_IMAGE018
表示第
Figure 971020DEST_PATH_IMAGE015
个矩形区域框的情感信息量,
Figure 168783DEST_PATH_IMAGE052
表示第
Figure 716439DEST_PATH_IMAGE017
个矩形区域框的情感信息量;
Figure 683258DEST_PATH_IMAGE020
Figure 907435DEST_PATH_IMAGE021
表示合页损失函数,当
Figure 592495DEST_PATH_IMAGE022
时,合页损失函数
Figure 943841DEST_PATH_IMAGE021
使
Figure 765167DEST_PATH_IMAGE023
最后,选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成SENet自监督区域定位网络的构建。
作为补充的,M为正整数,可为1、2、3、4、5、6、7、8、9或10,根据不同情况进行设置。此外,N为正整数,可为1、2、3、4、5、6、7、8、9或10,可根据不同情况进行设置,但N的值必须小于或等于M
同理,采用类似的方法,基于ResNet深度学习网络构建另一个自监督区域定位网络。
进一步的,对上述两个自监督区域定位网络分别进行预训练。其中,预训练的主要目的是为了确保自监督区域定位网络能够准确定位图像中情感语义强烈的局部区域,为局部图像特征的提取奠定坚实基础。
在具体实施中,为了确保自监督区域定位的准确性,在预训练中会设计全连接层与Softmax层,对融合特征进行分类,以得到图像情感倾向预测结果。具体的,采用图像情感数据集中的情感倾向标注对预测结果作指导,提高网络对图像情感区域定位的精准度。在预训练中,使用交叉熵损失函数对每个自监督区域定位网络进行优化。每一个候选矩形区域框都通过最小化真实标签和预测结果的交叉熵损失来完成优化,对应的交叉熵损失函数表示为:
Figure 915570DEST_PATH_IMAGE053
其中,
Figure 822347DEST_PATH_IMAGE054
表示自监督区域定位网络的损失函数,
Figure 711805DEST_PATH_IMAGE055
表示样本真实标签对应的情感信任值,
Figure 653216DEST_PATH_IMAGE056
表示样本真实标签。
S103、通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征。
在步骤S103中,通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤:
S1031、基于步骤S101中构造得到的图像情感数据对,用于学习得到一个编码器,使得
Figure 219196DEST_PATH_IMAGE024
S1032、通过所述编码器,在特征空间中拉近相似正样本图像特征间的距离,并推远不相似负样本图像特征间的距离,使自监督区域定位网络最终输出的图像特征更具判别性;
其中,
Figure 613268DEST_PATH_IMAGE025
表示度量函数,
Figure 306417DEST_PATH_IMAGE026
表示样本的特征图,
Figure 102335DEST_PATH_IMAGE027
表示正样本的特征图,
Figure 606260DEST_PATH_IMAGE028
表示负样本的特征图,
Figure 753208DEST_PATH_IMAGE029
表示与随机选取的样本
Figure 984469DEST_PATH_IMAGE057
相似或同类的正样本,
Figure 634893DEST_PATH_IMAGE058
表示与随机选取的样本
Figure 558987DEST_PATH_IMAGE059
不相似或不同类的负样本。
在本实施例中,对比学习方法对应的损失函数表示为:
Figure 176919DEST_PATH_IMAGE032
其中,
Figure 211871DEST_PATH_IMAGE060
表示对比学习方法的损失函数,
Figure 716801DEST_PATH_IMAGE034
表示对随机选取的样本
Figure 77376DEST_PATH_IMAGE061
进行损失函数计算,
Figure 684069DEST_PATH_IMAGE062
表示样本特征图的逆矩阵,
Figure 257132DEST_PATH_IMAGE063
表示第
Figure 882149DEST_PATH_IMAGE037
个负样本的特征图,
Figure 882466DEST_PATH_IMAGE037
表示第
Figure 474990DEST_PATH_IMAGE037
个负样本。
S104、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络。
在步骤S104中,对两个自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络的方法包括如下步骤:
S1041、将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合,以得到完整网络:
S1042、将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中,以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值;
S1043、将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对,以实现图像情感区域定位;
S1044、在完成了图像情感区域定位后,将图像全局特征与局部图像特征进行拼接融合,以最终完成多视角特征回溯网络的构建。
在具体实施中,首先针对整幅图像进行全局特征提取,随后根据提取的图像全局特征生成多个不同尺度的候选矩形区域框,对每个候选矩形区域框分别计算情感信息量并降序排列。其中,情感信息量排名高的候选矩形区域框蕴含较为准确的情感倾向,可提取图像特征以有助于提升情感预测精度,因此将这些候选矩形区域框回溯至完整网络中,以提取图像特征并计算情感信任值。然后,再对比所计算出的候选矩形区域框的情感信息量排序与情感信任值排序,最终实现图像情感区域定位。在完成图像情感区域定位之后,将已提取的图像全局特征与局部特征进行拼接融合,从而完成多视角特征回溯网络的构建。
在具体实施中,完整网络在选出N个候选矩形区域框之后,将候选矩形区域框调整为预定义大小(224×224),将这些候选矩形区域框回溯至完整网络中,以生成每个候选矩形区域框的局部特征向量(2048维)。将这些局部图像特征与全局图像特征进行拼接,即充分利用图像中的上下文信息(粗粒度)和局部信息(细粒度)完成情感预测。
具体的,上述的多视角特征回溯网络对应的总损失函数表示为:
Figure 117324DEST_PATH_IMAGE038
其中,
Figure 596847DEST_PATH_IMAGE064
表示多视角特征回溯网络对应的总损失函数;
Figure 33644DEST_PATH_IMAGE040
Figure 349350DEST_PATH_IMAGE041
表示多视角特征回溯网络的交叉熵损失函数,
Figure 264217DEST_PATH_IMAGE042
表示自监督区域定位网络的损失函数,
Figure 863825DEST_PATH_IMAGE043
表示候选矩形区域框的识别结果,
Figure 471524DEST_PATH_IMAGE044
表示样本的真实标签,
Figure 773061DEST_PATH_IMAGE045
表示第
Figure 491619DEST_PATH_IMAGE046
个候选矩形区域框。
S105、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型。
S106、将待处理图像输入至所述图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法,首先获取图像情感数据集,对图像情感数据集中的多个图像进行预处理,然后基于深度学习网络,构建得到两个自监督区域定位网络,再通过对比学习方法,对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征,然后对优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络,将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型,最后将待处理图像输入至图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
本发明具有如下有益效果:
(1)、本发明可准确定位图像中蕴含强烈情感语义的图像局部区域,并综合图像全局特征与图像局部区域的局部特征进行图像的刻画,从而准确描述图像蕴含的情感语义,实现客观精准的图像情感预测;
(2)、基于自监督学习模式使模型能自主学习图像情感知识:一方面,通过对比学习增强图像特征的判别性,并降低对标注数据的依赖;另一方面,通过自监督区域定位准确捕获图像中情感语义强烈的图像局部区域,为多视角特征回溯以及改善图像情感预测精度做好准备;
(3)、构建一个端到端的预测模型,输入图像后,预测模型直接输出情感预测结果,预测过程更简单快捷;预测模型包含自监督区域定位网络与多视角特征回溯网络等,多个网络协同合作,相互受益、共同进步,从而推动预测精度的提升;
(4)、为图像情感分析研究在心理干预、舆情监控、流行趋势预测等多个实际领域的应用奠定重要基础。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述方法包括如下步骤:
步骤一、获取图像情感数据集,并对所述图像情感数据集中的多个图像进行预处理操作,其中所述预处理操作包括数据增强操作以及图像情感数据对的构造;
步骤二、基于深度学习网络,构建得到两个自监督区域定位网络,并对两个所述自监督区域定位网络分别进行预训练;
步骤三、通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征;
步骤四、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络;
步骤五、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接,以构建得到图像情感预测模型;
步骤六、将待处理图像输入至所述图像情感预测模型中,以最终输出得到待处理图像对应的情感倾向。
2.根据权利要求1所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤一中,所述图像情感数据集包括多张图像,每张图像包含对应的情感倾向标注;
所述数据增强操作包括如下步骤:
对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作,并将变换后的图像重新添加至所述图像情感数据集中;
所述图像情感数据对的构造的方法包括如下步骤:
对所述图像情感数据集中的其中一当前图像,从所述图像情感数据集中选取任意一张图像与所述当前图像进行配对;
当判断到两张图像的情感倾向标注一致时,则将所述当前图像对应的图像情感数据对标记为正例对;
当判断到两张图像的情感倾向标注不一致时,则将所述当前图像对应的图像情感数据对标记为反例对。
3.根据权利要求2所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤二中,所述自监督区域定位网络的构建方法包括如下步骤:
选择一个深度学习网络作为主干网络,基于所述深度学习网络提取得到图像全局特征;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框,根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序得到第一排序结果,其中所述第一排序结果为情感信息量排序结果;
将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中,计算每一个矩形区域框对应的情感信任值,根据多个所述情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果,其中所述第二排序结果为情感信任值排序结果;
根据所述第二排序结果,对所述第一排序结果进行监督,以最终生成与情感信任值排序相同的情感信息量排序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成自监督区域定位网络的构建。
4.根据权利要求3所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述深度学习网络包括SENet深度学习网络与ResNet深度学习网络;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框的步骤中,多个不同尺度的矩形区域框对应表示为:
Figure 606061DEST_PATH_IMAGE001
根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量,并对所述情感信息量进行降序排序的方法中,对应的公式表示为:
Figure 701056DEST_PATH_IMAGE002
其中,
Figure 416071DEST_PATH_IMAGE003
表示矩形区域框的最大数量,
Figure 254714DEST_PATH_IMAGE004
表示矩形区域框,
Figure 253632DEST_PATH_IMAGE005
表示第
Figure 519528DEST_PATH_IMAGE003
个矩形区域框,
Figure 721839DEST_PATH_IMAGE006
表示第
Figure 98594DEST_PATH_IMAGE003
个矩形区域框的情感信息量。
5.根据权利要求4所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述方法还包括:
选取前
Figure 374854DEST_PATH_IMAGE007
个情感信息量最高的矩形区域框
Figure 687018DEST_PATH_IMAGE008
作为候选矩形区域框,对应的情感信息量的第一排序结果为
Figure 251992DEST_PATH_IMAGE009
将选取的
Figure 557071DEST_PATH_IMAGE007
个矩形区域框重新输入至SENet深度学习网络中,提取每个矩形区域框的局部特征,计算得到对应的情感信任值的第二排序结果为
Figure 891100DEST_PATH_IMAGE010
,其中,
Figure 607121DEST_PATH_IMAGE011
表示第
Figure 659391DEST_PATH_IMAGE007
个矩形区域框的情感信任值;
以情感信任值的第二排序结果为基准,用于指导情感信息量的排序,以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序;
选取情感信息量排序中情感信息量最高的N个图像局部区域,通过深度学习网络提取所述N个图像局部区域的局部特征,将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合,以得到融合特征,从而完成SENet自监督区域定位网络的构建。
6.根据权利要求5所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述自监督区域定位网络对应的损失函数的表达式为:
Figure 768161DEST_PATH_IMAGE012
其中,
Figure 956697DEST_PATH_IMAGE013
表示自监督区域定位网络对应的损失函数,
Figure 610664DEST_PATH_IMAGE014
表示第
Figure 150229DEST_PATH_IMAGE015
个矩形区域框的情感信任值,
Figure 797111DEST_PATH_IMAGE016
表示第
Figure 105733DEST_PATH_IMAGE017
个矩形区域框的情感信任值,
Figure 429136DEST_PATH_IMAGE018
表示第
Figure 455998DEST_PATH_IMAGE015
个矩形区域框的情感信息量,
Figure 640991DEST_PATH_IMAGE019
表示第
Figure 600857DEST_PATH_IMAGE017
个矩形区域框的情感信息量;
Figure 986839DEST_PATH_IMAGE020
Figure 110784DEST_PATH_IMAGE021
表示合页损失函数,当
Figure 302731DEST_PATH_IMAGE022
时,合页损失函数
Figure 382682DEST_PATH_IMAGE021
使
Figure 673986DEST_PATH_IMAGE023
7.根据权利要求6所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤三中,通过对比学习方法,对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤:
基于步骤一中构造得到的图像情感数据对,用于学习得到一个编码器,使得
Figure 783763DEST_PATH_IMAGE024
通过所述编码器,在特征空间中拉近相似正样本图像特征间的距离,并推远不相似负样本图像特征间的距离,使自监督区域定位网络最终输出的图像特征更具判别性;
其中,
Figure 451504DEST_PATH_IMAGE025
表示度量函数,
Figure 448279DEST_PATH_IMAGE026
表示样本的特征图,
Figure 910484DEST_PATH_IMAGE027
表示正样本的特征图,
Figure 9022DEST_PATH_IMAGE028
表示负样本的特征图,
Figure 214875DEST_PATH_IMAGE029
表示与随机选取的样本
Figure 331736DEST_PATH_IMAGE030
相似或同类的正样本,
Figure 230421DEST_PATH_IMAGE031
表示与随机选取的样本
Figure 737626DEST_PATH_IMAGE030
不相似或不同类的负样本。
8.根据权利要求7所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤三中,对比学习方法对应的损失函数表示为:
Figure 878930DEST_PATH_IMAGE032
其中,
Figure 991243DEST_PATH_IMAGE033
表示对比学习方法的损失函数,
Figure 919884DEST_PATH_IMAGE034
表示对随机选取的样本
Figure 117647DEST_PATH_IMAGE030
进行损失函数计算,
Figure 540670DEST_PATH_IMAGE035
表示样本特征图的逆矩阵,
Figure 241909DEST_PATH_IMAGE036
表示第
Figure 607032DEST_PATH_IMAGE037
个负样本的特征图,
Figure 26512DEST_PATH_IMAGE037
表示第
Figure 751760DEST_PATH_IMAGE037
个负样本。
9.根据权利要求8所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,在所述步骤四中,对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合,以构建得到多视角特征回溯网络的方法包括如下步骤:
将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合,以得到完整网络:
将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中,以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值;
将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对,以实现图像情感区域定位;
在完成了图像情感区域定位后,将图像全局特征与局部图像特征进行拼接融合,以最终完成多视角特征回溯网络的构建。
10.根据权利要求9所述的一种联合对比学习与自监督区域定位的图像情感预测方法,其特征在于,所述多视角特征回溯网络对应的总损失函数表示为:
Figure 369823DEST_PATH_IMAGE038
其中,
Figure 781213DEST_PATH_IMAGE039
表示多视角特征回溯网络对应的总损失函数;
Figure 812623DEST_PATH_IMAGE040
Figure 702081DEST_PATH_IMAGE041
表示多视角特征回溯网络的交叉熵损失函数,
Figure 518859DEST_PATH_IMAGE042
表示自监督区域定位网络的损失函数,
Figure 101150DEST_PATH_IMAGE043
表示候选矩形区域框的识别结果,
Figure 619856DEST_PATH_IMAGE044
表示样本的真实标签,
Figure 313005DEST_PATH_IMAGE045
表示第
Figure 217245DEST_PATH_IMAGE046
个候选矩形区域框。
CN202211020881.4A 2022-08-24 2022-08-24 一种联合对比学习与自监督区域定位的图像情感预测方法 Active CN115100390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211020881.4A CN115100390B (zh) 2022-08-24 2022-08-24 一种联合对比学习与自监督区域定位的图像情感预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211020881.4A CN115100390B (zh) 2022-08-24 2022-08-24 一种联合对比学习与自监督区域定位的图像情感预测方法

Publications (2)

Publication Number Publication Date
CN115100390A true CN115100390A (zh) 2022-09-23
CN115100390B CN115100390B (zh) 2022-11-18

Family

ID=83300280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211020881.4A Active CN115100390B (zh) 2022-08-24 2022-08-24 一种联合对比学习与自监督区域定位的图像情感预测方法

Country Status (1)

Country Link
CN (1) CN115100390B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590829A (zh) * 2017-09-18 2018-01-16 西安电子科技大学 一种适用于多视角密集点云数据配准的种子点拾取方法
CN108108849A (zh) * 2017-12-31 2018-06-01 厦门大学 一种基于弱监督多模态深度学习的微博情感预测方法
CN108253961A (zh) * 2016-12-29 2018-07-06 北京雷动云合智能技术有限公司 一种基于imu的轮式机器人定位方法
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111832573A (zh) * 2020-06-12 2020-10-27 桂林电子科技大学 一种基于类激活映射和视觉显著性的图像情感分类方法
CN112381116A (zh) * 2020-10-21 2021-02-19 福州大学 基于对比学习的自监督图像分类方法
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113362313A (zh) * 2021-06-18 2021-09-07 四川启睿克科技有限公司 一种基于自监督学习的缺陷检测方法及系统
CN113378937A (zh) * 2021-06-11 2021-09-10 西安电子科技大学 一种基于自监督增强的小样本图像分类方法及系统
CN113469238A (zh) * 2021-06-29 2021-10-01 中山大学 一种基于crnn解决拼图任务的自监督学习方法
CN113849661A (zh) * 2021-09-26 2021-12-28 平安科技(深圳)有限公司 实体嵌入数据的提取方法和装置、电子设备、存储介质
CN113989582A (zh) * 2021-08-26 2022-01-28 中国科学院信息工程研究所 一种基于密集语义对比的自监督视觉模型预训练方法
CN114201605A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于联合属性建模的图像情感分析方法
CN114240955A (zh) * 2021-12-22 2022-03-25 电子科技大学 一种半监督的跨领域自适应的图像分割方法
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合系统
CN114564651A (zh) * 2022-03-11 2022-05-31 辽宁工程技术大学 一种结合对比学习方法的自监督推荐方法
CN114663683A (zh) * 2022-03-28 2022-06-24 南京邮电大学 一种基于空间特征自监督的水下目标检测方法
CN114925163A (zh) * 2022-04-29 2022-08-19 海信电子科技(武汉)有限公司 一种智能设备及意图识别的模型训练方法
CN114937182A (zh) * 2022-04-18 2022-08-23 江西师范大学 一种基于情感轮和卷积神经网络的图像情感分布预测方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108253961A (zh) * 2016-12-29 2018-07-06 北京雷动云合智能技术有限公司 一种基于imu的轮式机器人定位方法
CN107590829A (zh) * 2017-09-18 2018-01-16 西安电子科技大学 一种适用于多视角密集点云数据配准的种子点拾取方法
CN108108849A (zh) * 2017-12-31 2018-06-01 厦门大学 一种基于弱监督多模态深度学习的微博情感预测方法
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111832573A (zh) * 2020-06-12 2020-10-27 桂林电子科技大学 一种基于类激活映射和视觉显著性的图像情感分类方法
CN112381116A (zh) * 2020-10-21 2021-02-19 福州大学 基于对比学习的自监督图像分类方法
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113378937A (zh) * 2021-06-11 2021-09-10 西安电子科技大学 一种基于自监督增强的小样本图像分类方法及系统
CN113362313A (zh) * 2021-06-18 2021-09-07 四川启睿克科技有限公司 一种基于自监督学习的缺陷检测方法及系统
CN113469238A (zh) * 2021-06-29 2021-10-01 中山大学 一种基于crnn解决拼图任务的自监督学习方法
CN113989582A (zh) * 2021-08-26 2022-01-28 中国科学院信息工程研究所 一种基于密集语义对比的自监督视觉模型预训练方法
CN113849661A (zh) * 2021-09-26 2021-12-28 平安科技(深圳)有限公司 实体嵌入数据的提取方法和装置、电子设备、存储介质
CN114201605A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于联合属性建模的图像情感分析方法
CN114240955A (zh) * 2021-12-22 2022-03-25 电子科技大学 一种半监督的跨领域自适应的图像分割方法
CN114564651A (zh) * 2022-03-11 2022-05-31 辽宁工程技术大学 一种结合对比学习方法的自监督推荐方法
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合系统
CN114663683A (zh) * 2022-03-28 2022-06-24 南京邮电大学 一种基于空间特征自监督的水下目标检测方法
CN114937182A (zh) * 2022-04-18 2022-08-23 江西师范大学 一种基于情感轮和卷积神经网络的图像情感分布预测方法
CN114925163A (zh) * 2022-04-29 2022-08-19 海信电子科技(武汉)有限公司 一种智能设备及意图识别的模型训练方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAN ZHOU等: "Self-supervised human mobility learning for next location prediction and trajectory classification", 《KNOWLEDGE-BASED SYSTEMS》 *
XIAO LIU等: "Self-supervised Learning:Generative or Contrastive", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
李朝阳: "基于对比学习的场景图像识别与分割技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郭东恩等: "基于有监督对比学习的遥感图像场景分类", 《光子学报》 *

Also Published As

Publication number Publication date
CN115100390B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Zhou et al. A real-time global inference network for one-stage referring expression comprehension
US10540547B2 (en) Apparatus and method for detecting debatable document
JP7290861B2 (ja) 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
CN110178139A (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN112667816A (zh) 一种基于深度学习的方面级情感分析方法及系统
Gandhi et al. Multimodal sentiment analysis: review, application domains and future directions
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
CN115270807A (zh) 网络用户的情感倾向判定方法、装置、设备及存储介质
Alluri et al. Multi modal analysis of memes for sentiment extraction
CN111859925B (zh) 一种基于概率情感词典的情感分析系统及方法
CN113297352A (zh) 基于多任务网络的属性级情感分类方法及装置
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN117171303A (zh) 一种基于自适应注意力融合的联合多模态方面级情感分析方法
CN115100390B (zh) 一种联合对比学习与自监督区域定位的图像情感预测方法
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
Gallo et al. Deep neural networks for page stream segmentation and classification
Wang et al. MT-TCCT: Multi-task learning for multimodal emotion recognition
CN117115505A (zh) 一种结合知识蒸馏与对比学习的情感增强继续训练方法
CN116702753A (zh) 基于图注意力网络的文本情感分析方法
Ge et al. Towards Exploiting Sticker for Multimodal Sentiment Analysis in Social Media: A New Dataset and Baseline
Sora et al. Speech Sentiment Analysis for Citizen's Engagement in Smart Cities' Events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant