CN114241380A - 一种基于类别标签和属性注释的多任务属性场景识别方法 - Google Patents

一种基于类别标签和属性注释的多任务属性场景识别方法 Download PDF

Info

Publication number
CN114241380A
CN114241380A CN202111547952.1A CN202111547952A CN114241380A CN 114241380 A CN114241380 A CN 114241380A CN 202111547952 A CN202111547952 A CN 202111547952A CN 114241380 A CN114241380 A CN 114241380A
Authority
CN
China
Prior art keywords
attribute
scene
class
frequency
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111547952.1A
Other languages
English (en)
Inventor
保罗
李晓晨
张吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111547952.1A priority Critical patent/CN114241380A/zh
Publication of CN114241380A publication Critical patent/CN114241380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及场景识别技术领域,尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,利用并计算对象属性分数对对象属性进行筛选精简,简化属性注释流程,减小由数据引起的训练偏差,此外,在MASR网络中设计并运用了一种属性损失函数与一个属性层,以充分利用上述筛选与精简后的属性特征,根据对象检测分数的重要性级别,对对象属性进行重新加权。本发明有效地注释了四个大规模数据集的属性标签,实验结果表明,与最先进的方法相比,本发明学习了更具辨别力的表示并实现了有竞争力的识别性能。

Description

一种基于类别标签和属性注释的多任务属性场景识别方法
技术领域
本发明涉及场景识别技术领域,尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法。
背景技术
场景识别,又名场景分类,旨在通过强调理解其全局属性来确定整体场景类别,是一种高级计算机视觉任务。语义分割、结构布局和对象属性等上下文信息是提高场景识别准确率的关键。特别地,语义属性用于实现更丰富的场景描述,而语义分割可表述场景中对象之间的空间关系。同样地,属性信息对于区分相似图像和提高场景识别性能非常重要。仅使用视觉特征,很难区分视觉相似的图像。另一方面,属性是跨类的语义描述性的。然而,提取对象属性或构建有效的语义表示已被证明是非常具有挑战性的,尤其是当对象属性注释必须通过人工进行时。鉴于使用准确的每像素标签标记场景的任务非常耗时,语义分割也具有挑战性。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于类别标签和属性注释的多任务属性场景识别方法,其具体技术方案如下:
一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,具体包括以下步骤:
1)给定场景图像xi,使用CNN网络提取其特征表示为
Figure BDA0003415526230000011
θI为CNN网络参数;
2)采用属性标注策略计算对象属性分数,基于对象属性分数对vi中的属性对象按照对象筛选逻辑进行精简;
3)将精简后的特征vi输入到全连接层L|K|进行分类预测,其中K为场景分类的类数;同时,将精简后的特征vi输入全连接层L|A|预测属性概率patt,其中A为检测到的属性集;
4)将预测的属性概率patt与从外部数据单独学习的属性表示,输入属性层对vi重新进行权重分配,同时运用属性任务损失函数对属性层的任务进行加速;
5)将修正后的vi反馈给全连接层L|K|,对多任务属性场景识别任务效果进行提升。
进一步的,所述属性标注策略是将两个概率分布ps与pt简单合并且将对象检测分数P作为置信度分数即对象属性分数,具体为:
从COCO Object与COCO Panoptic数据集中收集对象属性和上下文信息,对stuff与thing类型做独立处理,设S与T分别为stuff与thing的集合,Fs与Ft为针对各自任务的预训练CNN模型,设{x1,x2,...,xn}∈X表示只有类别标签的以场景为中心的数据集,使用X上的Fs与Ft预测S与T上的分布,ps=Fs(X)与pt=Ft(X),其中,ps∈R|S|与pt∈R|T|分别是S与T的概率分布预测,给定数据集X,最终的stuff+thing预测P∈R|S|+|T|,在给定的场景数据集上定义为P=ps∪pt,其中,P不会增加至1且不代表概率分布,对两个概率分布ps与pt求平均以合并它们,
Figure BDA0003415526230000021
其中,S与T并不总有交集,表示不同的数据源。
进一步的,所述对象筛选是根据对象检测分数与对象频率对S与T中的对象做进一步筛选,具体为包括:
基于对象检测分数:丢弃对象检测分数小于阈值的对象实例,只有对象检测分数高于阈值的对象才会被选为场景属性,在此过程中,将P重新定义为:
Figure BDA0003415526230000022
其中ξ是阈值,当检测分数为0时,对象被认为不存在于场景中;
基于对象频率:进一步考虑给定场景类别的属性频率并删除不常见的对象,对于每个类别c,将相对属性频率定义为覆盖类别图像的非零分数的数量,如果{a1,a2,...,am}∈Ac是c的检测属性集,最优
Figure BDA0003415526230000023
定义为:
Figure BDA0003415526230000024
其中fc(aj)是给定类别c的值为aj的属性的相对频率,β是最小频率,
Figure BDA0003415526230000025
是c的最终属性列表。
进一步的,所述属性任务损失函数,具体为:
定义多类交叉熵损失函数:
Figure BDA0003415526230000026
其中,patt(xi,j)是训练样本xi的第j个属性上的预测类别概率,
Figure BDA0003415526230000031
是属性的标注,其定义为:
Figure BDA0003415526230000032
再明引入正则项βj,它反映了训练数据中第j个属性的相对频率,即它的正负属性标签的比率,公式(3)即可变为:
Figure BDA0003415526230000033
其中||aj||是持有第j个属性的第k个类别标签的样本数,即第k个场景类别的第j个属性的大小,其中,不同属性特征的分类器不共享。
进一步的,所述属性层,具体为:
引入一个根据检测分数对属性重新加权的层,其由一系列线性变换组成,所述一系列线性变换将所有属性信息聚合到一个向量vi中,使用
Figure BDA0003415526230000034
表示来自属性分类器fA的属性分数,然后学习其预测
Figure BDA0003415526230000035
的置信分数ci为:
Figure BDA0003415526230000036
其中σ为sigmoid激活函数,W*∈Rm×m与bi∈Rm×1为可训练的参数,vi通过ci与ai逐元素相乘得到。
有益效果是:本发明首先提出了一种部分监督的注释策略,其中减少了人工监督和干预,提高了任务的效率;采用基于置信度分数机制的对象筛选逻辑,提高了由于训练数据偏差导致的属性预测的低可信度,与最先进的方法相比,本发明的多任务属性场景识别网络MASR学习了更具辨别力的表示并实现了有竞争力的识别性能。
附图说明
图1是本发明的MASR架构概述图;
图2是属性重加权层应用于sigmoid前从每个预测获得的级联预测的过程图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
本发明的一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别MASR网络,如图1所示,属性信息从预先训练的以对象为中心的模型中获取,获取的属性信息用于通过正则化损失和重新加权层支持CNN特征的学习,对于所述的多任务属性场景的识别方法,具体包括以下步骤:
1)给定场景图像xi,使用类似CNN的网络提取其特征表示为
Figure BDA0003415526230000041
θi为CNN网络参数;
2)使用属性标注策略计算对象属性分数,基于对象属性分数对vi中的属性对象按照对象筛选逻辑进行精简,该步骤简化的属性注释流程,减小由数据引起的训练偏差;
3)将精简后的特征vi输入到全连接层L|K|进行分类预测,其中K为场景分类的类数;同时,将精简后的特征vi输入全连接层L|A|预测属性概率patt,其中A为检测到的属性集;
4)将预测的属性概率patt与从外部数据单独学习的属性表示,输入属性层对vi重新进行权重分配,同时运用属性任务损失函数对属性层的任务进行加速;
5)将修正后的vi反馈给全连接层L|K|,对多任务属性场景识别任务效果进行提升。
其中,所述属性标注策略,具体为:
首先,本发明从两个流行的以对象为中心的数据集:COCO Object与COCOPanoptic中收集对象属性和上下文信息,对stuff与thing类型做独立处理以提高场景识别能力,其包含的实例示例如表1所示。
表1:
Groups Attributes
Things bottle,cup,apple,sheep,dog,suitca|se,tv,toilet...
Stuff sea,river,road,sand,snow,wall,window,wall...
设S与T分别为stuff与thing的集合,Fs与Ft为针对各自任务的预训练CNN模型。设{x1,x2,...,xn}∈X表示只有类别标签的以场景为中心的数据集。本发明的目标是使用X上的Fs与Ft预测S与T上的分布,ps=Fs(X)与pt=Ft(X)。其中,ps∈R|S|与pt∈R|T|分别是S与T的概率分布预测。给定数据集X,最终的stuff+thing预测P∈R|S|+|T|,在给定的场景数据集上定义为P=ps∪pt,其中,P不会增加至1且不代表概率分布。对两个概率分布ps与pt求平均以合并它们,
Figure BDA0003415526230000051
其中,S与T并不总有交集,它们通常用来表示不同的数据源。总的来说,本发明将ps与pt简单合并且将对象检测分数P作为置信度分数。
所述对象筛选,具体为:
当对象的属性与关系等信息过多时,反而不利于场景识别任务的进行,为克服这一问题,本发明根据对象检测分数与对象频率对S与T中的对象做进一步筛选,具体包括:
基于对象检测分数:丢弃对象检测分数小于阈值的对象实例。只有对象检测分数高于阈值的对象才会被选为场景属性。在此过程中,将P重新定义为:
Figure BDA0003415526230000052
其中ξ是阈值,当检测分数为0时,对象被认为不存在于场景中。
基于对象频率:进一步考虑给定场景类别的属性频率并删除不常见的对象。对于每个类别c,将相对属性频率定义为覆盖类别图像的非零分数的数量。如果{a1,a2,...,am}∈Ac是c的检测属性集,最优
Figure BDA0003415526230000053
定义为:
Figure BDA0003415526230000054
其中fc(aj)是给定类别c的值为aj的属性的相对频率,β是最小频率,
Figure BDA0003415526230000055
是c的最终属性列表。
所述属性任务损失函数,具体为:
由于属性之间并不完全互斥,因此多属性的预测是一个多标签分类问题。预测属性的层结构不同于传统的包含损失函数的单标签分类层。为使属性层能够适配多标签分类问题,本发明提出了如下定义的多类交叉熵损失函数:
Figure BDA0003415526230000061
其中,patt(xi,j)是训练样本xi的第j个属性上的预测类别概率,
Figure BDA0003415526230000062
是属性的标注,其定义为:
Figure BDA0003415526230000063
公式(3)中的损失通常受到训练数据的数据倾斜问题的影响,且无法简单地通过数据采样来补偿,这是因为平衡一个属性的出现频率会改变其他属性。为解决这一问题,本发明引入一个正则项βj,它反映了训练数据中第j个属性的相对频率,即它的正负属性标签的比率。公式(3)即可变为:
Figure BDA0003415526230000064
其中||aj||是持有第j个属性的第k个类别标签的样本数,即第k个场景类别的第j个属性的大小,其中,不同属性特征的分类器不共享。
所述属性层,具体为:
由于属性表示是在单独的数据上学习的,因此可以预见某些属性比其他属性更加重要。本发明引入一个根据检测分数对属性重新加权的层,其由一系列线性变换组成,所述一系列线性变换将所有属性信息聚合到一个向量vi中,使用
Figure BDA0003415526230000065
表示来自属性分类器fA的属性分数,然后学习其预测
Figure BDA0003415526230000066
的置信分数ci为:
Figure BDA0003415526230000067
其中σ为sigmoid激活函数,W*∈Rm×m与bi∈Rm×1为可训练的参数。vi通过ci与ai逐元素相乘得到,以上操作构成了属性重加权层ARL,其操作过程如图2所示。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,其特征在于,具体包括以下步骤:
1)给定场景图像xi,使用CNN网络提取其特征表示为
Figure FDA0003415526220000011
θI为CNN网络参数;
2)采用属性标注策略计算对象属性分数,基于对象属性分数对vi中的属性对象按照对象筛选逻辑进行精简;
3)将精简后的特征vi输入到全连接层L|K|进行分类预测,其中K为场景分类的类数;同时,将精简后的特征vi输入全连接层L|A|预测属性概率patt,其中A为检测到的属性集;
4)将预测的属性概率patt与从外部数据单独学习的属性表示,输入属性层对vi重新进行权重分配,同时运用属性任务损失函数对属性层的任务进行加速;
5)将修正后的vi反馈给全连接层L|K|
2.如权利要求1所述的一种基于类别标签和属性注释的多任务属性场景识别方法,其特征在于,所述属性标注策略是将两个概率分布ps与pt简单合并且将对象检测分数P作为置信度分数即对象属性分数,具体为:
从COCO Object与COCO Panoptic数据集中收集对象属性和上下文信息,对stuff与thing类型做独立处理,设S与T分别为stuff与thing的集合,Fs与Ft为针对各自任务的预训练CNN模型,设{x1,x2,...,xn}∈X表示只有类别标签的以场景为中心的数据集,使用X上的Fs与Ft预测S与T上的分布,ps=Fs(X)与pt=Ft(X),其中,ps∈R|S|与pt∈R|T|分别是S与T的概率分布预测,给定数据集X,最终的stuff+thing预测P∈R|S|+|T|,在给定的场景数据集上定义为P=ps∪pt,其中,P不会增加至1且不代表概率分布,对两个概率分布ps与pt求平均以合并它们,
Figure FDA0003415526220000012
其中,S与T并不总有交集,表示不同的数据源。
3.如权利要求2所述的一种基于类别标签和属性注释的多任务属性场景识别方法,其特征在于,所述对象筛选是根据对象检测分数与对象频率对S与T中的对象做进一步筛选,具体为包括:
基于对象检测分数:丢弃对象检测分数小于阈值的对象实例,只有对象检测分数高于阈值的对象才会被选为场景属性,在此过程中,将P重新定义为:
Figure FDA0003415526220000021
其中ξ是阈值,当检测分数为0时,对象被认为不存在于场景中;
基于对象频率:进一步考虑给定场景类别的属性频率并删除不常见的对象,对于每个类别c,将相对属性频率定义为覆盖类别图像的非零分数的数量,如果{a1,a2,...,am}∈Ac是c的检测属性集,最优
Figure FDA0003415526220000022
定义为:
Figure FDA0003415526220000023
其中fc(aj)是给定类别c的值为aj的属性的相对频率,β是最小频率,
Figure FDA0003415526220000024
是c的最终属性列表。
4.如权利要求3所述的一种基于类别标签和属性注释的多任务属性场景识别方法,其特征在于,所述属性任务损失函数,具体为:
定义多类交叉熵损失函数:
Figure FDA0003415526220000025
其中,patt(xi,j)是训练样本xi的第j个属性上的预测类别概率,
Figure FDA0003415526220000026
是属性的标注,其定义为:
Figure FDA0003415526220000027
再明引入正则项βj,它反映了训练数据中第j个属性的相对频率,即它的正负属性标签的比率,公式(3)即可变为:
Figure FDA0003415526220000028
其中||aj||是持有第j个属性的第k个类别标签的样本数,即第k个场景类别的第j个属性的大小,其中,不同属性特征的分类器不共享。
5.如权利要求4所述的一种基于类别标签和属性注释的多任务属性场景识别方法,其特征在于,所述属性层,具体为:
引入一个根据检测分数对属性重新加权的层,其由一系列线性变换组成,所述一系列线性变换将所有属性信息聚合到一个向量vi中,使用
Figure FDA0003415526220000031
表示来自属性分类器fA的属性分数,然后学习其预测
Figure FDA0003415526220000032
的置信分数ci为:
Figure FDA0003415526220000033
其中σ为sigmoid激活函数,W*∈Rm×m与bi∈Rm×1为可训练的参数,vi通过ci与ai逐元素相乘得到。
CN202111547952.1A 2021-12-16 2021-12-16 一种基于类别标签和属性注释的多任务属性场景识别方法 Pending CN114241380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111547952.1A CN114241380A (zh) 2021-12-16 2021-12-16 一种基于类别标签和属性注释的多任务属性场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111547952.1A CN114241380A (zh) 2021-12-16 2021-12-16 一种基于类别标签和属性注释的多任务属性场景识别方法

Publications (1)

Publication Number Publication Date
CN114241380A true CN114241380A (zh) 2022-03-25

Family

ID=80757630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111547952.1A Pending CN114241380A (zh) 2021-12-16 2021-12-16 一种基于类别标签和属性注释的多任务属性场景识别方法

Country Status (1)

Country Link
CN (1) CN114241380A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824381A (zh) * 2023-08-30 2023-09-29 环球数科集团有限公司 一种基于aigc的场景属性标注系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824381A (zh) * 2023-08-30 2023-09-29 环球数科集团有限公司 一种基于aigc的场景属性标注系统
CN116824381B (zh) * 2023-08-30 2023-10-27 环球数科集团有限公司 一种基于aigc的场景属性标注系统

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
US10108902B1 (en) Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
CN109598231B (zh) 一种视频水印的识别方法、装置、设备及存储介质
CN113572742B (zh) 基于深度学习的网络入侵检测方法
US20140241619A1 (en) Method and apparatus for detecting abnormal movement
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN112836509B (zh) 一种专家系统知识库构建方法及系统
CN113361432B (zh) 一种基于深度学习的视频文字端到端检测与识别的方法
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN106997379B (zh) 一种基于图片文本点击量的相近文本的合并方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN107526805B (zh) 一种基于权重的ML-kNN多标签中文文本分类方法
Sharma et al. Deep eigen space based ASL recognition system
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN114821022A (zh) 融合主观逻辑和不确定性分布建模的可信目标检测方法
KR20200071865A (ko) 차원 축소에 기반한 영상 객체 인식 시스템 및 방법
CN115410131A (zh) 一种用于短视频智能分类的方法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN116977710A (zh) 一种遥感图像长尾分布目标半监督检测方法
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
Qin Application of efficient recognition algorithm based on deep neural network in English teaching scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination