CN116383426A - 基于属性的视觉情感识别方法、装置、设备及存储介质 - Google Patents

基于属性的视觉情感识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116383426A
CN116383426A CN202310619207.6A CN202310619207A CN116383426A CN 116383426 A CN116383426 A CN 116383426A CN 202310619207 A CN202310619207 A CN 202310619207A CN 116383426 A CN116383426 A CN 116383426A
Authority
CN
China
Prior art keywords
emotion
attribute
level
sample image
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310619207.6A
Other languages
English (en)
Other versions
CN116383426B (zh
Inventor
杨景媛
黄惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202310619207.6A priority Critical patent/CN116383426B/zh
Publication of CN116383426A publication Critical patent/CN116383426A/zh
Application granted granted Critical
Publication of CN116383426B publication Critical patent/CN116383426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于属性的视觉情感识别方法、装置、设备及存储介质,涉及图像处理技术领域。方法包括:确定针对各样本图像中的对象进行情感识别得到的基本情感标签;分别提取各样本图像在不同的预设的情感属性下的视觉信息;情感属性是与情感相关的视觉属性;根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签;情感属性标签用于辅助描述样本图像引发的情感;基于各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集。采用本申请能够提高后续进行情感识别的准确性。

Description

基于属性的视觉情感识别方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于属性的视觉情感识别方法、装置、设备及存储介质。
背景技术
视觉情感分析是情感计算中一项十分有前景又具有挑战性的任务,用于预测分析视觉刺激引发的人类情感感知,当人们观看图像时,不仅可以识别其中的视觉元素,还会不由自主地感受到某种情感体验。
显然,在视觉情感分析中,需要利用视觉情感数据集进行情感识别。然而,传统的视觉情感数据集只提供一些基本的情感标签,考虑到情感的抽象性和复杂性,通过单一的情感标签大大限制了情感识别的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种提高情感识别的准确性的基于属性的视觉情感识别方法、装置、计算机设备、计算机可读存储介质以及计算机程序产品,能够提高后续进行情感识别的准确性。
第一方面,本申请提供了一种基于属性的视觉情感识别方法,包括:
确定针对各样本图像中的对象进行情感识别得到的基本情感标签;
分别提取各样本图像在不同的预设的情感属性下的视觉信息;情感属性是与情感相关的视觉属性;
根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签;情感属性标签用于在视觉层面上辅助描述样本图像引发的情感;
基于各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集;
其中,视觉情感数据集用于训练情感识别模型;情感识别模型用于对输入的目标图像中的对象进行情感识别。
第二方面,本申请提供了一种基于属性的视觉情感识别装置,包括:
标签确定模块,用于确定针对各样本图像中的对象进行情感识别得到的基本情感标签;
信息提取模块,用于分别提取各样本图像在不同的预设的情感属性下的视觉信息;情感属性是与情感相关的视觉属性;
标签确定模块,还用于根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签;情感属性标签用于辅助描述样本图像引发的情感;
数据集生成模块,用于基于各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集;其中,视觉情感数据集用于训练情感识别模型;情感识别模型用于对输入的目标图像中的对象进行情感识别。
在一些实施例中,情感属性包括像素级属性;像素级属性是从图像属性中提取的、与情感关联的像素级的属性;像素级属性下的视觉信息为像素级视觉信息。标签确定模块还用于对各样本图像分别对应的像素级视觉信息进行量化处理;将量化处理后得到的量化视觉信息,确定为各样本图像分别对应的情感属性标签。
在一些实施例中,情感属性包括语义级属性或对象级属性中的至少一种;语义级属性下的视觉信息为语义级视觉信息;对象级属性下的视觉信息为对象级视觉信息。信息提取模块还用于针对每个语义级属性或对象级属性,分别对各样本图像执行与语义级属性或对象级属性相匹配的图像内容检测,得到语义级视觉信息或对象级视觉信息。标签确定模块还用于将各样本图像分别对应的语义级视觉信息,或各样本图像分别对应的对象级视觉信息中的至少一种视觉信息,确定为各样本图像分别对应的情感属性标签。
在一些实施例中,语义级属性包括场景类别属性或物体类别属性中的至少一种;语义级属性下的视觉信息包括场景类别或物体类别中的至少一种;对象级属性包括对象表情属性或对象行为属性中的至少一种;对象级属性下的视觉信息包括对象表情或对象行为中的至少一种。标签确定模块用于执行以下至少一种处理:在语义级属性是场景类别属性的情况下,对样本图像进行场景识别,得到场景类别;在语义级属性是物体类别属性的情况下,对样本图像进行物体检测,并将检测到的物体的类别确定为物体类别;在对象级属性是对象表情属性的情况下,对样本图像显示的目标对象进行表情检测,得到对象表情;在对象级属性是对象行为属性的情况下,对样本图像显示的目标对象进行动作识别,得到对象行为。
在一些实施例中,数据集生成模块还用于针对每张样本图像,显示样本图像和样本图像对应的基本情感标签和情感属性标签;响应于参照样本图像对基本情感标签和情感属性标签进行的标签确认操作,得到标签确认结果;标签确认结果用于分别指示基本情感标签和情感属性标签是否被确认;基于标签确认结果,生成对应的视觉情感数据集。
在一些实施例中,数据集生成模块还用于在标签确认结果表征基本情感标签被确认的情况下,若基本情感标签和情感属性标签被确认的数量满足预设的确认数量要求的情况下,则保留样本图像、基本情感标签,以及被确认的情感属性标签;根据保留的样本图像,以及保留的样本图像对应保留的基本情感标签和情感属性标签,生成视觉情感数据集。
在一些实施例中,本申请提供的基于属性的视觉情感识别装置还包括情感识别处理模块,情感识别处理模块用于将目标图像输入至训练好的情感识别模型,以通过情感识别模型中的骨干网络提取目标图像在不同属性层次下的属性特征,并通过骨干网络提取目标图像的图像特征;属性层次通过对不同的情感属性进行层次划分得到;针对每个属性层次下的属性特征,通过情感识别模型中的属性模块对属性特征执行相匹配的卷积处理,得到不同属性层次下的视觉属性特征;通过情感识别模型中的融合模块对图像特征和各视觉属性特征进行特征融合,得到融合特征;根据融合特征对目标图像进行情感识别,得到情感识别结果。
第三方面,本申请提供了一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行该计算机程序时实现上述的方法中的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本申请提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现本上述的方法中的步骤。
上述基于属性的视觉情感识别方法、装置、计算机设备、计算机可读存储介质及计算机程序产品,确定针对各样本图像中的对象进行情感识别得到的基本情感标签;分别提取各样本图像在不同的、与情感相关的预设情感属性下的视觉信息。根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签,以将基本情感标签和情感属性标签一并作为对各样本图像进行标注的标注数据,从而提高基于上述标注数据和各样本图像生成的、用于训练情感识别模型的视觉情感数据集的标注丰富度,其中情感识别模型用于对输入的目标图像中的对象进行情感识别。由于情感属性标签能够辅助描述样本图像引发的情感,因此,基于本申请的视觉情感数据集训练的情感识别模型进行情感识别的准确性,相比起仅基于包括基本情感标签的视觉情感数据集训练的情感识别模型进行情感识别的准确性更高。
附图说明
图1是本申请实施例提供的一种基于属性的视觉情感识别方法的流程示意图;
图2是本申请实施例提供的一种标注工具图形化界面;
图3是本申请实施例提供的一种基于情感识别模型进行情感识别的过程示意图;
图4是情感属性为色彩丰富度属性时对应的直方图;
图5是情感属性为亮度属性时对应的直方图;
图6是情感属性为对象表情属性时对应的直方图;
图7是情感属性为场景类别属性时对应的相关矩阵示意图;
图8是情感属性为物体类别属性时对应的相关矩阵示意图;
图9是情感属性为对象行为属性时对应的相关矩阵示意图;
图10是各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签的示意图;
图11是本申请实施例提供的一种基于属性的视觉情感识别装置的结构框图;
图12为本申请实施例提供的一种计算机设备的内部结构图;
图13为本申请实施例提供的另一种计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一些实施例中,如图1所示,提供了一种基于属性的视觉情感识别方法,本实施例以该方法应用于计算机设备进行举例说明,可以理解的是,该计算机设备可以是服务器或终端,该方法可以由服务器或终端单独实现,也可以通过服务器和终端之间的交互来实现。本实施例中,该方法包括但不限于包括以下步骤:
S102、确定针对各样本图像中的对象进行情感识别得到的基本情感标签。
其中,样本图像指的是用于训练对应模型的图像。在一些实施例中,样本图像指的就是用于对情感识别模型进行训练的图像。
基本情感标签,指的是对样本图像进行情感标注所得到的、用于表征该样本图像的所表征的情感类别。
可以理解,常见的情感类别包括愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧或悲伤中的至少一种。其中,愉悦、敬畏、满足和激动是积极情感,而愤怒、厌恶、恐惧和悲伤是消极情感。
在一些实施例中,由于并非所有图像都可能引起强烈情感,因此本申请实施例可以构建一个情感关键字列表,以对各张图像,比如互联网图像进行过滤。具体地,针对上述情感类别中的每一种,都可以根据多个广泛使用的词典对其进行同义化。例如,可以使用英语词典1、英语词典2和英语词典3找出情感类别“悲伤”的同义词,即“沮丧、失落、哀悼、绝望”等。
需要说明的是,本申请所采集的图像以及所访问的网站均经过用户授权或者经过各方充分授权。且,本申请中相关图像的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。
在一些实施例中,由于每次查询的可检索的图像的数量非常有限,因此可以将之前确定的同义词组合起来,并用不同的词性进一步对组合的同义词扩充起来,这样,能够检索出更多数量的样本图像。例如,“愉悦”被其他词形式扩充,如“逗乐、好笑的、使人发笑的、有趣地”,以最终确定各个用于从网络中筛选出候选的样本图像的检索词。
鉴于在大多数的图像和文本对中,两种模态中情感是一致的,即文本标签或描述真实反映了图像所传达的情感,即,每个检索到的候选的样本图像都会自动被标注八种情感类别中的一种。为了使最终生成的视觉情感数据集具备更大的规模和更丰富的多样性,本申请实施例可以从多个不同的来源进行图像收集,得到各个候选的样本图像。接着,可以用投票的方式确定各个候选的样本图像对应的基本情感标签,并从各个候选的样本图像中删除图像名称和像素相似的重复图像,得到确定的各样本图像。其中,带有对应基本情感标签的各样本图像可以用在弱监督学习、视觉语言建模和多模态情感分析中。
具体地,计算机设备可以直接获取基本情感标签,还可以自动检测并识别各样本图像分别对应的情感类别,以得到各样本图像分别对应的基本情感标签。此外,还可以由之前确定的检索词确定各样本图像对应的情感类别,以得到各样本图像对应的基本情感标签。
S104、分别提取各样本图像在不同的预设的情感属性下的视觉信息。
其中,情感属性被定义为与情感相关的视觉属性。可以理解,情感属性是在视觉层面上体现的、可描述图像的情感的属性,用于克服图像与情感之间的鸿沟。
具体地,针对每张样本图像,计算机设备均提取该样本图像在不同的预设情感属性下分别对应的视觉信息,以得到各个样本图像各自对应的多个视觉信息。
S106、根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签。
其中,情感属性标签用于辅助描述样本图像引发的情感。
具体地,计算机设备可以直接将各样本图像分别对应的视觉信息确定为各样本图像分别对应的情感属性标签。计算机设备还可以对各样本图像的视觉信息进行不同的量化处理,并将量化处理后得到的视觉信息确定为各个样本图像分别对应的情感属性标签。
S108,基于各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集。
其中,视觉情感数据集用于训练情感识别模型,情感识别模型用于对输入的目标图像中的对象进行情感识别。
具体地,计算机设备可以直接将各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签一并确定为最终的视觉情感数据集。计算机设备还可以将各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签提供给标注对象进行进一步的确认,并将最终确认保留的各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签作为最终的视觉情感数据集。
上述基于属性的视觉情感识别方法,确定针对各样本图像中的对象进行情感识别得到的基本情感标签;分别提取各样本图像在不同的、与情感相关的预设情感属性下的视觉信息。根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签,以将基本情感标签和情感属性标签一并作为对各样本图像进行标注的标注数据,从而提高基于上述标注数据和各样本图像生成的、用于训练情感识别模型的视觉情感数据集的标注丰富度,其中情感识别模型用于对输入的目标图像中的对象进行情感识别。由于情感属性标签能够辅助描述样本图像引发的情感,因此,基于本申请的视觉情感数据集训练的情感识别模型进行情感识别的准确性,相比起仅基于包括基本情感标签的视觉情感数据集训练的情感识别模型进行情感识别的准确性更高。
在一些实施例中,情感属性包括像素级属性,像素级属性是从图像属性中提取的、与情感关联的像素级的属性;像素级属性下的视觉信息为像素级视觉信息。步骤106具体包括但不限于包括:对各样本图像分别对应的像素级视觉信息进行量化处理;将量化处理后得到的量化视觉信息,确定为各样本图像分别对应的情感属性标签。
在一些实施例中,像素级属性包括亮度属性或色彩丰富度属性中的至少一种。对应的,像素级属性下的视觉信息包括亮度或色彩丰富度中的至少一种。可以理解,亮度指的是图像中的整体亮度,色彩丰富度指的是在图像中所感知的色彩的丰富程度。需要说明的是,图像中的整体亮度在感知处理中至关重要,且与情感密切相关,而图像中的感知色彩也与情感之间存在相关性。
量化处理,指的是将像素级视觉信息在预设范围内以特定的数值进行表示,以量化具体的像素级视觉信息。
具体地,计算机设备对各样本图像分别对应的像素级视觉信息进行量化处理,以将像素级视觉信息量化到某特定的数值,得到量化视觉信息。接着,计算机设备将得到的量化视觉信息确定为各样本图像分别对应的情感属性标签,并将其与基本情感标签一起构成自动标注的一部分,能够更有效地帮助理解情感。
在一些实施例中,计算机设备可以使用从0到1,且增量为0.1的离散数值来量化各样本图像的亮度,以作为各样本图像的量化视觉信息。需要说明的是,1表示样本图像的亮度最暗,而1表示样本图像的亮度最亮。
示例性的,计算机设备可以使用0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1中的其中一个离散数值来量化各样本图像的亮度。比如,当离散数值为0.8和0.9时则表示图像比较亮,若某张样本图像在亮度属性下的量化视觉信息为0.9,这就表示该样本图像比较亮。
在一些实施例中,色彩丰富度还可以被计算机设备计算、归一化和离散化至0到1的范围。需要说明的是,0对应于色彩单一的样本图像,比如黑白的样本图像,而1则对应于色彩最丰富的样本图像。
在一些实施例中,情感属性包括语义级属性或对象级属性中的至少一种;语义级属性下的视觉信息为语义级视觉信息;对象级属性下的视觉信息为对象级视觉信息。步骤104具体包括但不限于包括:针对每个语义级属性或对象级属性,分别对各样本图像执行与语义级属性或对象级属性相匹配的图像内容检测,得到语义级视觉信息或对象级视觉信息。
其中,图像内容检测,指的是对样本图像的内容进行检测,以得到对应的检测结果。在一些实施例中,可以利用各个不同的检测模型对样本图像的内容进行不同的检测,以得到对应的检测结果。
具体地,针对每个语义级属性或对象级属性,计算机设备分别针对各样本图像执行与该语义级属性或对象级属性相匹配的图像内容检测,以将对应的检测结果作为语义级属性或对象级属性下的语义级视觉信息或对象级视觉信息。
对应的,步骤106包括:将各样本图像分别对应的语义级视觉信息,或各样本图像分别对应的对象级视觉信息中的至少一种视觉信息,确定为各样本图像分别对应的情感属性标签。
具体地,计算机设备将各样本图像分别对应的语义级视觉信息或对象级视觉信息,直接作为各样本图像分别对应的情感属性标签,并将其与基本情感标签一起构成自动标注的一部分,能够更有效地帮助理解情感。
在一些实施例中,语义级属性包括场景类别属性或物体类别属性中的至少一种;语义级属性下的视觉信息包括场景类别或物体类别中的至少一种;对象级属性包括对象表情属性或对象行为属性中的至少一种;对象级属性下的视觉信息包括对象表情或对象行为中的至少一种。步骤“ 针对每个语义级属性或对象级属性,分别对各样本图像执行与语义级属性或对象级属性相匹配的图像内容检测,得到语义级视觉信息或对象级视觉信息”包括以下至少一种处理:在语义级属性是场景类别属性的情况下,对样本图像进行场景识别,得到场景类别;在语义级属性是物体类别属性的情况下,对样本图像进行物体检测,并将检测到的物体的类别确定为物体类别;在对象级属性是对象表情属性的情况下,对样本图像显示的目标对象进行表情检测,得到对象表情;在对象级属性是对象行为属性的情况下,对样本图像显示的目标对象进行动作识别,得到对象行为。
需要说明的是,样本图像中描绘的场景通常被认为是一种重要的情感刺激,样本图像中的各个物体可以在样本图像中共同唤起对应的情感,样本图像中对象的表情也会影响视觉情感体验,样本图像中的一些对象行为源于情感,也可以引起观察者的情感,因此上述的场景类别属性、物体类别属性、对象表情属性和对象行为属性都与情感之间都具备相关性。
目标对象,指的是从样本图像所显示的对象中所指定的一个或多个对象。
具体地,在语义级属性是场景类别属性的情况下,则可以将各样本图像分别输入至训练好的场景识别模型中,以通过场景识别模型对样本图像进行场景识别,得到场景类别。在语义级属性是物体类别属性的情况下,则可以将各样本图像分别输入至训练好的目标检测模型中,以通过目标检测模型对样本图像进行物体检测,得到多个物体和多个物体对应的物体类别。在对象级属性是对象表情属性的情况下,则可以将样本图像分别输入至训练好的表情检测模型中,以通过表情检测模型对样本图像显示的目标对象进行表情检测,得到对象表情。在对象级属性是对象行为属性的情况下,则将各样本图像输入至训练好的动作识别模型中,以通过动作识别模型对样本图像显示的目标对象进行动作识别,得到对象行为。由于上述的场景类别属性、物体类别属性、对象表情属性和对象行为属性都与情感之间都具备相关性,因此,基于上述各语义级属性和对象级属性提取样本图像对应的视觉信息,并将视觉信息确定为样本图像对应的情感属性标签,能够有效克服样本图像和情感之间的情感鸿沟,并且有助于以精确和可解释的方式理解视觉情感刺激。
在一些实施例中,训练好的场景识别模型可以检测出多个场景类别,比如天空、山脉、阳台、广场和教堂等。在以上的场景类别中,可以选择最佳预测作为各样本图像的情感属性标签。
在一些实施例中,训练好的目标检测模型可以检测出同一样本图像中的多个对象,考虑到多个对象可能出现在图像中共同唤起情感。因此,可以将每张样本图像与目标检测模型预测的多个对象类别相关联,比如可以将每张样本图像与目标检测模型预测的三个对象类别相关联,置信度最高。
在一些实施例中,基本的对象表情可以包括快乐、愤怒、厌恶、恐惧、悲伤或惊讶等中的至少一种。在将样本图像输入至训练好的表情检测模型之前,则可以选择样本图像中最大的人脸,并通过训练好的表情检测模型检测所选择人脸的面部表情,以作为该样本图像的情感属性标签。
在一些实施例中,对象行为包括吃饭、滑水、弹琴、烧烤和驯狗等,可以将各样本图像转换为单帧视频作为动作识别模型的输入,并将其输入至动作识别模型中预测对象的行为,以作为该样本图像的情感属性标签。
需要说明的是,通过以上步骤所得到的各样本图像、各样本图像分别对应的基本情感标签和情感属性标签是通过自动标注所确定的,无需人工参与。为了构建更加精准的视觉情感数据集,还需要通过各标注对象以人工标注的方式对自动标注的结果进行进一步的确认。
在一些实施例中,步骤108具体包括但不限于包括:针对每张样本图像,显示样本图像和样本图像对应的基本情感标签和情感属性标签;响应于参照样本图像对基本情感标签和情感属性标签进行的标签确认操作,得到标签确认结果;基于标签确认结果,生成对应的视觉情感数据集。
其中,标签确认操作,指的是对基本情感标签或者情感属性标签进行确认的操作,比如,对基本情感标签或者情感属性标签进行选中或者勾选的操作。标签确认结果,用于分别指示基本情感标签和情感属性标签是否被确认。
具体地,针对每张样本图像,将该样本图像和该样本图像对应的基本情感标签和情感属性标签显示在对应的显示界面中。由标注对象在显示界面中参照显示的样本图像对相应的基本情感标签和情感属性标签进行标签确认操作。计算机设备则响应于标注对象参照样本图像对基本情感标签和情感属性标签进行的标签确认操作,得到标签确认结果。计算机设备基于标签确认结果,确定需要保留的样本图像,以及需要保留的基本情感标签和情感属性标签,以将需要保留的样本图像,以及需要保留的基本情感标签和情感属性标签作为视觉情感数据集。也就是说,本申请在自动标注的基础上能够进一步根据人工标注所确定的标签确认结果确定生成最终的视觉情感数据集,能够提高生成的视觉情感数据集的精确度。
在一些实施例中,步骤“基于标签确认结果,生成对应的视觉情感数据集”具体包括但不限于包括:在标签确认结果表征基本情感标签被确认的情况下,若基本情感标签和情感属性标签被确认的数量满足预设的确认数量要求的情况下,则保留样本图像、基本情感标签,以及被确认的情感属性标签;根据保留的样本图像,以及保留的样本图像对应保留的基本情感标签和情感属性标签,生成视觉情感数据集。
具体地,在标签确认结果表征基本情感标签被确认的情况下,若基本情感标签和情感属性标签被确认的数量满足预设的确认数量要求的情况下,比如,基本情感标签和视觉属性标签被确认的数量大于某个预设值,计算机设备则保留样本图像、基本情感标签,以及被确认的情感属性标签。最后,计算机设备根据保留的样本图像,以及保留的样本图像对应保留的基本情感标签和情感属性标签,生成视觉情感数据集。本申请实施例在自动标注的基础上,还通过交互的方式使标注对象对自动标注的结果进行进一步的确认,以保证所保留的各样本图像都带有精确的基本情感标签和情感属性标签。
在实际应用中,在对各样本图像进行自动标注之后,为了构建更加精准的视觉情感数据集,可以使用人工标注并要求参与标注的标注对象参加情感测试,以验证标注对象对情感的敏感程度,其要求标注对象的测试分数需要大于预设值,比如大于30分。随后,可以随机选择多个带有情感标注的图像用来评估标注对象进行情感分类的准确率,比如,合格的准确率要求为85%,最后选择通过上述所有测试的若干名标注对象。
需要说明的是,视觉情感分析存在三个主要挑战:抽象性、模糊性和主观性。对于抽象性,可以引入了一组情感属性来帮助标注对象以更精确和可解释的方式理解情感。其中,标注工具图形化界面如图2所示,显示有待确认的样本图像,以及该样本图像所对应的、根据自动标注阶段对该样本图像进行标注得到的基本情感标签和情感属性标签对应生成的9个问题。标注对象需要回答以上关于情感类别和情感属性的问题,比如问题1以及问题2到9。
示例性的,标注对象被问及“看到这张图片时,你感到兴奋吗?”或“这张图片是正式花园的场景吗?”。由于情感是模糊的,标注对象更容易指出样本图像是否唤起特定情感,而不是让他们感受给定图像唤起哪种情感。更少的选择可能会导致更准确的结果。因此,本申请实施例通过要求标注者通过回答“是”或“否”来验证每张样本图像的基本情感标签和情感属性标签,而不是直接由标注对象自己去确定。此外,为了减轻情感标注的主观性,可以规定,每张样本图像都由10位标注对象标注。而对于每张样本图像,10位标注对象中有7个以上达成共识的标注结果,则被视为最终的标签。特别是,基本情感标签中超过7票赞成的样本图像被保留,而其他样本图像则被删除。最后,就能够得到带有精确的基本情感标签以及情感属性标签的视觉情感数据集。
在一些实施例中,在步骤108之后,本申请的基于属性的视觉情感识别方法具体还包括但不限于包括:将目标图像输入至训练好的情感识别模型,以通过情感识别模型中的骨干网络提取目标图像在不同属性层次下的属性特征,并通过骨干网络提取目标图像的图像特征;针对每个属性层次下的属性特征,通过情感识别模型中的属性模块对属性特征执行相匹配的卷积处理,得到不同属性层次下的视觉属性特征;通过情感识别模型中的融合模块对图像特征和各视觉属性特征进行特征融合,得到融合特征;根据融合特征对目标图像进行情感识别,得到情感识别结果。
其中,属性层次通过对不同的情感属性进行层次划分得到。在一些实施例中,情感属性包括亮度属性、色彩丰富度属性、场景类别属性、物体类别属性、对象表情属性和对象行为属性。可以将亮度属性和色彩丰富度属性划分为低级的属性层次,将场景类别属性和物体类别属性划分为中级的属性层次,并将对象表情属性和对象行为属性划分为高级的属性层次。
属性模块,用于帮助情感识别模型进行视觉情感识别,属性模块可以很容易地附加到任意骨干网络中。
具体地,计算机设备将目标图像输入至训练好的情感识别模型中,以通过情感识别模型中的骨干网络分别提取目标图像在低级的属性层次、中级的属性层次和高级的属性层次下的属性特征,并通过骨干网络提取目标图像的图像特征。可以通过情感识别模型中的属性模块对低级的属性层次下的属性特征执行与该属性层次对应的卷积处理,通过情感识别模型中的属性模块对中级的属性层次下的属性特征执行与该属性层次对应的卷积处理。并通过情感识别模型中的属性模块对高级的属性层次下的属性特征执行与该属性层次对应的卷积处理,从而得到不同属性层次下的视觉属性特征。通过情感识别模型中的融合模块对图像特征和各视觉属性特征进行特征融合,得到融合特征。最后,根据融合特征对目标图像进行情感识别,得到情感识别结果。
在一些实施例中,如图3所示,情感识别模型包括骨干网络、属性模块、融合模块和多个分类器,其中,属性模块由三条支路构成,即低层次、中层次和高层次,每个属性分支包含多个下采样模块和一个分辨率保模块,每个下采样模块具有三个组件:256个输出通道的1×1卷积层,256个输出通道的3×3卷积层和一个平均池化层。基于该情感识别模型进行情感识别的过程包括:将图像大小为 224×224的目标图像输入至情感识别的骨干网络中,以通过骨干网络从目标图像中提取不同层次的属性特征,然后将提取到的属性特征发送到几个轻量级卷积层进行卷积处理,以产生视觉属性特征。最后,以骨干网络为主分支,将其提取的图像特征融合其他分支的视觉属性特征共同预测视觉情感,得到情感识别结果,其中,情感识别模型输出的识别结果为8分类。
需要说明的是,本申请实施例所构建的视觉情感数据集是一个全面且可解释的数据集,可以帮助研究对象深入研究视觉情感,且这也是具有丰富属性标注的大规模数据集。总体而言,本申请实施例所构建的视觉情感数据集与现有数据集相比,具有规模大、标注丰富度、多样性和数据平衡的优势。
可以理解,规模大,指的是本申请的视觉情感数据集的样本图像总数,以及每个类别的样本图像数量大。标注丰富度,指的是本申请实施例除了标注基本情感标签,还在不同类别下用多个情感属性对各样本图像进行标注,以得到各个情感属性下的情感属性标签,比如亮度、色彩丰富度、场景类别、物体类别、对象表情和对象行为,以帮助以细粒度的方式理解情感。在实际应用中,还可以用可视化的方式分别呈现场景类别、物体类别和对象行为的词云分布,该词云分布表示字体越大、出现的频率越高。多样性,指的是本申请实施例的各样本图像由不同来源的多个情感关键词查询,存在较大的数据差异,这与以往单一类型的情感数据集不同,且,本申请实施例的各样本图像既有社交媒体用户上传的授权图像,也有专业摄影师授权分享的艺术作品。需要说明的是,数据平衡对于学习良好的情感识别模型至关重要,因此,本申请实施例构建了一个平衡的数据分布,其中每个类别中的样本图像数量都保持在合理的区间。
在一些实施例中,情感属性旨在帮助视觉情感识别和理解,为了验证各情感属性的有效性,我们可以在视觉情感数据集上进行多项数值实验和可视化,以检查情感属性和情感之间的关系。众所周知,愉悦、敬畏、满足、激动是积极情感,即正面情感,而愤怒、厌恶、恐惧和悲伤是消极情感,即负面情感。本申请实施例在图4和图5中,将每个亮度和色彩及分别为负面情感和正面情感,可以看出带有积极情感标签的样本图像的比例从左到右增加。
需要说明的是,本申请的对象表情属性是建立在表情检测模型上的,其中快乐是积极情感,惊讶是中性情感,其他四种(即愤怒、厌恶、恐惧和悲伤)是消极情感。在这个实验中,可以明确面部表情如何影响视觉情感,在图6中,展示了不同视觉情感的面部表情分解。可以看出,所有积极情感都与快乐的面部表情高度相关,而愤怒、厌恶和悲伤与其相应的面部表情高度相关。
在一些实施例中,场景类别属性、物体类别属性和对象行为属性中的每个属性都可能有许多不同的属性值,即视觉信息。显然,某一些属性值与情感密切相关,比如游乐园、墓地,而其他的属性值,例如天空、植物、树木或窗户则与情感不相关。为了发现与情感相关的属性值,可以采用词频-逆文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)技术过滤出与情感密切相关的属性类别,并计算每个情感属性对之间的关联性信息。如图7、图8和图9所示,显示了每种情感与其最相关的属性值之间的相关矩阵,其中对角线上的大数字表明它们之间存在很强的关系,平均为0.85%(场景类别)、0.86%(物体类别)和0.83%(对象行为)。
在一些实施例中,如图10所示,进一步展示了每种情感的前3个属性值,其中提供了图像和文本对以便更好地理解。例如,在观看舞台、海浪、足球场等场景类别时,我们可能会感到兴奋。相反,毛毛虫、蛇或垃圾容器等物体类别可能会给人带来厌恶感。括号中的数字表示在查看特定的情感属性时引起某种情感的程度。一些属性值与情感密切相关,包括墓地-悲伤(1.00)、冲浪板-兴奋(0.99)、骷髅-恐惧(0.99)、旋转木马-愉悦(0.97)和雪山-敬畏(0.92)。此外,本申请实施例还可以过滤掉一些与情感无关的情感,如快乐-恐惧(0.01)、广场-愤怒(0.23)和驾驶汽车-敬畏(0.32)。需要说明的是,图10中的图文对和统计数据与人类认知高度一致,表明某些情感属性确实与情感有很强的相关性,一旦某个属性值出现,图像就更容易唤起相应的情感。
在一些实施例中,本申请的基于属性的视觉情感识别方法具体还包括但不限于以下步骤:
(1)确定针对各样本图像中的对象进行情感识别得到的基本情感标签。
(2)提取各样本图像在预设的像素级属性下的像素级视觉信息,对各样本图像分别对应的像素级视觉信息进行量化处理。
(3)将量化处理后得到的量化视觉信息,确定为各样本图像分别对应的情感属性标签。
(4)针对每个语义级属性或对象级属性,分别对各样本图像执行与语义级属性或对象级属性相匹配的图像内容检测,得到语义级视觉信息或对象级视觉信息。
(5)在语义级属性是场景类别属性的情况下,对样本图像进行场景识别,得到场景类别;在语义级属性是物体类别属性的情况下,对样本图像进行物体检测,并将检测到的物体的类别确定为物体类别;在对象级属性是对象表情属性的情况下,对样本图像显示的目标对象进行表情检测,得到对象表情;在对象级属性是对象行为属性的情况下,对样本图像显示的目标对象进行动作识别,得到对象行为。
(6)针对每张样本图像,显示样本图像和样本图像对应的基本情感标签和情感属性标签。
(7)响应于参照样本图像对基本情感标签和情感属性标签进行的标签确认操作,得到标签确认结果。
(8)在标签确认结果表征基本情感标签被确认的情况下,若基本情感标签和情感属性标签被确认的数量满足预设的确认数量要求的情况下,则保留样本图像、基本情感标签,以及被确认的情感属性标签。
(9)根据保留的样本图像,以及保留的样本图像对应保留的基本情感标签和情感属性标签,生成视觉情感数据集。
(10)将目标图像输入至训练好的情感识别模型,以通过情感识别模型中的骨干网络提取目标图像在不同属性层次下的属性特征,并通过骨干网络提取目标图像的图像特征。
(11)针对每个属性层次下的属性特征,通过情感识别模型中的属性模块对属性特征执行相匹配的卷积处理,得到不同属性层次下的视觉属性特征。
(12)通过情感识别模型中的融合模块对图像特征和各视觉属性特征进行特征融合,得到融合特征。
(13)根据融合特征对目标图像进行情感识别,得到情感识别结果。
应该理解的是,虽然如上述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种基于属性的视觉情感识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于属性的视觉情感识别装置实施例中的具体限定可以参见上文中对于基于属性的视觉情感识别方法的限定,在此不再赘述。
如图11所示,本申请实施例提供了一种基于属性的视觉情感识别装置,包括:
标签确定模块1102,用于确定针对各样本图像中的对象进行情感识别得到的基本情感标签;
信息提取模块1104,用于分别提取各样本图像在不同的预设的情感属性下的视觉信息;情感属性是与情感相关的视觉属性;
标签确定模块1102,还用于根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签;情感属性标签用于辅助描述样本图像引发的情感;
数据集生成模块1106,用于基于各样本图像,以及各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集;其中,视觉情感数据集用于训练情感识别模型;情感识别模型用于对输入的目标图像中的对象进行情感识别。
上述基于属性的视觉情感识别装置,确定针对各样本图像中的对象进行情感识别得到的基本情感标签;分别提取各样本图像在不同的、与情感相关的预设情感属性下的视觉信息。根据各样本图像分别对应的视觉信息,确定各样本图像分别对应的情感属性标签,以将基本情感标签和情感属性标签一并作为对各样本图像进行标注的标注数据,从而提高基于上述标注数据和各样本图像生成的、用于训练情感识别模型的视觉情感数据集的标注丰富度,其中情感识别模型用于对输入的目标图像中的对象进行情感识别。由于情感属性标签能够辅助描述样本图像引发的情感,因此,基于本申请的视觉情感数据集训练的情感识别模型进行情感识别的准确性,相比起仅基于包括基本情感标签的视觉情感数据集训练的情感识别模型进行情感识别的准确性更高。
在一些实施例中,情感属性包括像素级属性;像素级属性是从图像属性中提取的、与情感关联的像素级的属性;像素级属性下的视觉信息为像素级视觉信息。标签确定模块1102还用于对各样本图像分别对应的像素级视觉信息进行量化处理;将量化处理后得到的量化视觉信息,确定为各样本图像分别对应的情感属性标签。
在一些实施例中,情感属性包括语义级属性或对象级属性中的至少一种;语义级属性下的视觉信息为语义级视觉信息;对象级属性下的视觉信息为对象级视觉信息。信息提取模块1104还用于针对每个语义级属性或对象级属性,分别对各样本图像执行与语义级属性或对象级属性相匹配的图像内容检测,得到语义级视觉信息或对象级视觉信息。标签确定模块1102还用于将各样本图像分别对应的语义级视觉信息,或各样本图像分别对应的对象级视觉信息中的至少一种视觉信息,确定为各样本图像分别对应的情感属性标签。
在一些实施例中,语义级属性包括场景类别属性或物体类别属性中的至少一种;语义级属性下的视觉信息包括场景类别或物体类别中的至少一种;对象级属性包括对象表情属性或对象行为属性中的至少一种;对象级属性下的视觉信息包括对象表情或对象行为中的至少一种。标签确定模块1102用于执行以下至少一种处理:在语义级属性是场景类别属性的情况下,对样本图像进行场景识别,得到场景类别;在语义级属性是物体类别属性的情况下,对样本图像进行物体检测,并将检测到的物体的类别确定为物体类别;在对象级属性是对象表情属性的情况下,对样本图像显示的目标对象进行表情检测,得到对象表情;在对象级属性是对象行为属性的情况下,对样本图像显示的目标对象进行动作识别,得到对象行为。
在一些实施例中,数据集生成模块1106还用于针对每张样本图像,显示样本图像和样本图像对应的基本情感标签和情感属性标签;响应于参照样本图像对基本情感标签和情感属性标签进行的标签确认操作,得到标签确认结果;标签确认结果用于分别指示基本情感标签和情感属性标签是否被确认;基于标签确认结果,生成对应的视觉情感数据集。
在一些实施例中,数据集生成模块1106还用于在标签确认结果表征基本情感标签被确认的情况下,若基本情感标签和情感属性标签被确认的数量满足预设的确认数量要求的情况下,则保留样本图像、基本情感标签,以及被确认的情感属性标签;根据保留的样本图像,以及保留的样本图像对应保留的基本情感标签和情感属性标签,生成视觉情感数据集。
在一些实施例中,本申请提供的基于属性的视觉情感识别装置还包括情感识别处理模块,情感识别处理模块用于将目标图像输入至训练好的情感识别模型,以通过情感识别模型中的骨干网络提取目标图像在不同属性层次下的属性特征,并通过骨干网络提取目标图像的图像特征;属性层次通过对不同的情感属性进行层次划分得到;针对每个属性层次下的属性特征,通过情感识别模型中的属性模块对属性特征执行相匹配的卷积处理,得到不同属性层次下的视觉属性特征;通过情感识别模型中的融合模块对图像特征和各视觉属性特征进行特征融合,得到融合特征;根据融合特征对目标图像进行情感识别,得到情感识别结果。
上述基于属性的视觉情感识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器,也可以以软件形式存储于计算机设备中的存储器,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)及通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与图像的情感识别处理相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的基于属性的视觉情感识别方法中的步骤。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元及输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述的基于属性的视觉情感识别方法中的步骤。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏;该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12或图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于属性的视觉情感识别方法,其特征在于,包括:
确定针对各样本图像进行情感识别得到的基本情感标签;
分别提取所述各样本图像在不同的预设的情感属性下的视觉信息;所述情感属性是与情感相关的视觉属性;
根据所述各样本图像分别对应的视觉信息,确定所述各样本图像分别对应的情感属性标签;所述情感属性标签用于辅助描述所述样本图像引发的情感;
基于所述各样本图像,以及所述各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集;
其中,所述视觉情感数据集用于训练情感识别模型;所述情感识别模型用于对输入的目标图像进行情感识别。
2.根据权利要求1所述的方法,其特征在于,所述情感属性包括像素级属性;所述像素级属性是从图像属性中提取的、与情感关联的像素级的属性;所述像素级属性下的视觉信息为像素级视觉信息;
所述根据所述各样本图像分别对应的视觉信息,确定所述各样本图像分别对应的情感属性标签,包括:
对所述各样本图像分别对应的像素级视觉信息进行量化处理;
将量化处理后得到的量化视觉信息,确定为所述各样本图像分别对应的情感属性标签。
3.根据权利要求1所述的方法,其特征在于,所述情感属性包括语义级属性或对象级属性中的至少一种;所述语义级属性下的视觉信息为语义级视觉信息;所述对象级属性下的视觉信息为对象级视觉信息;
所述分别提取所述各样本图像在不同的预设的情感属性下的视觉信息,包括:
针对每个所述语义级属性或所述对象级属性,分别对所述各样本图像执行与所述语义级属性或所述对象级属性相匹配的图像内容检测,得到所述语义级视觉信息或所述对象级视觉信息;
所述根据所述各样本图像分别对应的视觉信息,确定所述各样本图像分别对应的情感属性标签,包括:
将所述各样本图像分别对应的语义级视觉信息,或所述各样本图像分别对应的对象级视觉信息中的至少一种视觉信息,确定为所述各样本图像分别对应的情感属性标签。
4.根据权利要求3所述的方法,其特征在于,所述语义级属性包括场景类别属性或物体类别属性中的至少一种;所述语义级属性下的视觉信息包括场景类别或物体类别中的至少一种;所述对象级属性包括对象表情属性或对象行为属性中的至少一种;所述对象级属性下的视觉信息包括对象表情或对象行为中的至少一种;
所述针对每个所述语义级属性或所述对象级属性,分别对所述各样本图像执行与所述语义级属性或所述对象级属性相匹配的图像内容检测,得到所述语义级视觉信息或所述对象级视觉信息,包括以下至少一种处理:
在所述语义级属性是所述场景类别属性的情况下,对所述样本图像进行场景识别,得到所述场景类别;
在所述语义级属性是所述物体类别属性的情况下,对所述样本图像进行物体检测,并将检测到的物体的类别确定为所述物体类别;
在所述对象级属性是所述对象表情属性的情况下,对所述样本图像显示的目标对象进行表情检测,得到所述对象表情;
在所述对象级属性是所述对象行为属性的情况下,对所述样本图像显示的目标对象进行动作识别,得到所述对象行为。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各样本图像,以及所述各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集,包括:
针对每张样本图像,显示所述样本图像和所述样本图像对应的基本情感标签和情感属性标签;
响应于参照所述样本图像对所述基本情感标签和所述情感属性标签进行的标签确认操作,得到标签确认结果;所述标签确认结果用于分别指示所述基本情感标签和所述情感属性标签是否被确认;
基于所述标签确认结果,生成对应的视觉情感数据集。
6.根据权利要求5所述的方法,其特征在于,所述基于所述标签确认结果,生成对应的视觉情感数据集,包括:
在所述标签确认结果表征所述基本情感标签被确认的情况下,若所述基本情感标签和所述情感属性标签被确认的数量满足预设的确认数量要求的情况下,则保留所述样本图像、所述基本情感标签,以及被确认的情感属性标签;
根据保留的样本图像,以及所述保留的样本图像对应保留的基本情感标签和情感属性标签,生成所述视觉情感数据集。
7.根据权利要求1至6任一项所述的方法,其特征在于,在所述基于所述各样本图像,以及所述各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集之后,所述方法还包括:
将所述目标图像输入至训练好的所述情感识别模型,以通过所述情感识别模型中的骨干网络提取所述目标图像在不同属性层次下的属性特征,并通过所述骨干网络提取所述目标图像的图像特征;所述属性层次通过对不同的所述情感属性进行层次划分得到;
针对每个属性层次下的属性特征,通过所述情感识别模型中的属性模块对所述属性特征执行相匹配的卷积处理,得到不同属性层次下的视觉属性特征;
通过所述情感识别模型中的融合模块对所述图像特征和各视觉属性特征进行特征融合,得到融合特征;
根据所述融合特征对所述目标图像进行情感识别,得到情感识别结果。
8.一种基于属性的视觉情感识别装置,其特征在于,包括:
标签确定模块,用于确定针对各样本图像中的对象进行情感识别得到的基本情感标签;
信息提取模块,用于分别提取所述各样本图像在不同的预设的情感属性下的视觉信息;所述情感属性是与情感相关的视觉属性;
所述标签确定模块,还用于根据所述各样本图像分别对应的视觉信息,确定所述各样本图像分别对应的情感属性标签;所述情感属性标签用于辅助描述所述样本图像对应的情感;
数据集生成模块,用于基于所述各样本图像,以及所述各样本图像分别对应的基本情感标签和情感属性标签,生成视觉情感数据集;其中,所述视觉情感数据集用于训练情感识别模型;所述情感识别模型用于对输入的目标图像中的对象进行情感识别。
9.一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310619207.6A 2023-05-30 2023-05-30 基于属性的视觉情感识别方法、装置、设备及存储介质 Active CN116383426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310619207.6A CN116383426B (zh) 2023-05-30 2023-05-30 基于属性的视觉情感识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310619207.6A CN116383426B (zh) 2023-05-30 2023-05-30 基于属性的视觉情感识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116383426A true CN116383426A (zh) 2023-07-04
CN116383426B CN116383426B (zh) 2023-08-22

Family

ID=86963680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310619207.6A Active CN116383426B (zh) 2023-05-30 2023-05-30 基于属性的视觉情感识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116383426B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852360A (zh) * 2019-10-30 2020-02-28 腾讯科技(深圳)有限公司 图像情感识别方法、装置、设备及存储介质
CN112800875A (zh) * 2021-01-14 2021-05-14 北京理工大学 一种混合特征融合和决策融合的多模态情感识别方法
KR20210099445A (ko) * 2020-02-04 2021-08-12 상명대학교산학협력단 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
US20210390288A1 (en) * 2020-06-16 2021-12-16 University Of Maryland, College Park Human emotion recognition in images or video
CN114201960A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于情感属性挖掘的图像情感分析方法
CN114201605A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于联合属性建模的图像情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852360A (zh) * 2019-10-30 2020-02-28 腾讯科技(深圳)有限公司 图像情感识别方法、装置、设备及存储介质
KR20210099445A (ko) * 2020-02-04 2021-08-12 상명대학교산학협력단 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
US20210390288A1 (en) * 2020-06-16 2021-12-16 University Of Maryland, College Park Human emotion recognition in images or video
CN112800875A (zh) * 2021-01-14 2021-05-14 北京理工大学 一种混合特征融合和决策融合的多模态情感识别方法
CN114201960A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于情感属性挖掘的图像情感分析方法
CN114201605A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于联合属性建模的图像情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINGYUAN YANG等: "SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 30, pages 8686 - 8701, XP011885290, DOI: 10.1109/TIP.2021.3118983 *
杨景媛: "结合心理学和深度学习模型的图像情感分析方法研究", 《万方数据知识服务平台》, pages 41 - 64 *

Also Published As

Publication number Publication date
CN116383426B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
Ma et al. Effects of user-provided photos on hotel review helpfulness: An analytical approach with deep leaning
Williams et al. Images as data for social science research: An introduction to convolutional neural nets for image classification
Vickers et al. Understanding visualization: A formal approach using category theory and semiotics
CN113395578B (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN108229478A (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN111897939B (zh) 视觉对话方法、视觉对话模型的训练方法、装置及设备
WO2022033208A1 (zh) 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN109739995B (zh) 一种信息处理方法及装置
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN110991149A (zh) 一种多模态实体链接方法和实体链接系统
CN114419351A (zh) 图文预训练模型训练、图文预测模型训练方法和装置
Zhao et al. Jdnet: A joint-learning distilled network for mobile visual food recognition
CN113761253A (zh) 视频标签确定方法、装置、设备及存储介质
CN117077679B (zh) 命名实体识别方法和装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
US11354894B2 (en) Automated content validation and inferential content annotation
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN115906861B (zh) 基于交互方面信息融合的语句情感分析方法以及装置
CN116383426B (zh) 基于属性的视觉情感识别方法、装置、设备及存储介质
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN116662497A (zh) 视觉问答数据处理方法、装置、计算机设备
CN115033700A (zh) 基于相互学习网络的跨领域情感分析方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant