CN114241380A - 一种基于类别标签和属性注释的多任务属性场景识别方法 - Google Patents
一种基于类别标签和属性注释的多任务属性场景识别方法 Download PDFInfo
- Publication number
- CN114241380A CN114241380A CN202111547952.1A CN202111547952A CN114241380A CN 114241380 A CN114241380 A CN 114241380A CN 202111547952 A CN202111547952 A CN 202111547952A CN 114241380 A CN114241380 A CN 114241380A
- Authority
- CN
- China
- Prior art keywords
- attribute
- scene
- class
- frequency
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及场景识别技术领域,尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,利用并计算对象属性分数对对象属性进行筛选精简,简化属性注释流程,减小由数据引起的训练偏差,此外,在MASR网络中设计并运用了一种属性损失函数与一个属性层,以充分利用上述筛选与精简后的属性特征,根据对象检测分数的重要性级别,对对象属性进行重新加权。本发明有效地注释了四个大规模数据集的属性标签,实验结果表明,与最先进的方法相比,本发明学习了更具辨别力的表示并实现了有竞争力的识别性能。
Description
技术领域
本发明涉及场景识别技术领域,尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法。
背景技术
场景识别,又名场景分类,旨在通过强调理解其全局属性来确定整体场景类别,是一种高级计算机视觉任务。语义分割、结构布局和对象属性等上下文信息是提高场景识别准确率的关键。特别地,语义属性用于实现更丰富的场景描述,而语义分割可表述场景中对象之间的空间关系。同样地,属性信息对于区分相似图像和提高场景识别性能非常重要。仅使用视觉特征,很难区分视觉相似的图像。另一方面,属性是跨类的语义描述性的。然而,提取对象属性或构建有效的语义表示已被证明是非常具有挑战性的,尤其是当对象属性注释必须通过人工进行时。鉴于使用准确的每像素标签标记场景的任务非常耗时,语义分割也具有挑战性。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于类别标签和属性注释的多任务属性场景识别方法,其具体技术方案如下:
一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,具体包括以下步骤:
2)采用属性标注策略计算对象属性分数,基于对象属性分数对vi中的属性对象按照对象筛选逻辑进行精简;
3)将精简后的特征vi输入到全连接层L|K|进行分类预测,其中K为场景分类的类数;同时,将精简后的特征vi输入全连接层L|A|预测属性概率patt,其中A为检测到的属性集;
4)将预测的属性概率patt与从外部数据单独学习的属性表示,输入属性层对vi重新进行权重分配,同时运用属性任务损失函数对属性层的任务进行加速;
5)将修正后的vi反馈给全连接层L|K|,对多任务属性场景识别任务效果进行提升。
进一步的,所述属性标注策略是将两个概率分布ps与pt简单合并且将对象检测分数P作为置信度分数即对象属性分数,具体为:
从COCO Object与COCO Panoptic数据集中收集对象属性和上下文信息,对stuff与thing类型做独立处理,设S与T分别为stuff与thing的集合,Fs与Ft为针对各自任务的预训练CNN模型,设{x1,x2,...,xn}∈X表示只有类别标签的以场景为中心的数据集,使用X上的Fs与Ft预测S与T上的分布,ps=Fs(X)与pt=Ft(X),其中,ps∈R|S|与pt∈R|T|分别是S与T的概率分布预测,给定数据集X,最终的stuff+thing预测P∈R|S|+|T|,在给定的场景数据集上定义为P=ps∪pt,其中,P不会增加至1且不代表概率分布,对两个概率分布ps与pt求平均以合并它们,其中,S与T并不总有交集,表示不同的数据源。
进一步的,所述对象筛选是根据对象检测分数与对象频率对S与T中的对象做进一步筛选,具体为包括:
基于对象检测分数:丢弃对象检测分数小于阈值的对象实例,只有对象检测分数高于阈值的对象才会被选为场景属性,在此过程中,将P重新定义为:
其中ξ是阈值,当检测分数为0时,对象被认为不存在于场景中;
基于对象频率:进一步考虑给定场景类别的属性频率并删除不常见的对象,对于每个类别c,将相对属性频率定义为覆盖类别图像的非零分数的数量,如果{a1,a2,...,am}∈Ac是c的检测属性集,最优定义为:
进一步的,所述属性任务损失函数,具体为:
定义多类交叉熵损失函数:
再明引入正则项βj,它反映了训练数据中第j个属性的相对频率,即它的正负属性标签的比率,公式(3)即可变为:
其中||aj||是持有第j个属性的第k个类别标签的样本数,即第k个场景类别的第j个属性的大小,其中,不同属性特征的分类器不共享。
进一步的,所述属性层,具体为:
其中σ为sigmoid激活函数,W*∈Rm×m与bi∈Rm×1为可训练的参数,vi通过ci与ai逐元素相乘得到。
有益效果是:本发明首先提出了一种部分监督的注释策略,其中减少了人工监督和干预,提高了任务的效率;采用基于置信度分数机制的对象筛选逻辑,提高了由于训练数据偏差导致的属性预测的低可信度,与最先进的方法相比,本发明的多任务属性场景识别网络MASR学习了更具辨别力的表示并实现了有竞争力的识别性能。
附图说明
图1是本发明的MASR架构概述图;
图2是属性重加权层应用于sigmoid前从每个预测获得的级联预测的过程图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
本发明的一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别MASR网络,如图1所示,属性信息从预先训练的以对象为中心的模型中获取,获取的属性信息用于通过正则化损失和重新加权层支持CNN特征的学习,对于所述的多任务属性场景的识别方法,具体包括以下步骤:
2)使用属性标注策略计算对象属性分数,基于对象属性分数对vi中的属性对象按照对象筛选逻辑进行精简,该步骤简化的属性注释流程,减小由数据引起的训练偏差;
3)将精简后的特征vi输入到全连接层L|K|进行分类预测,其中K为场景分类的类数;同时,将精简后的特征vi输入全连接层L|A|预测属性概率patt,其中A为检测到的属性集;
4)将预测的属性概率patt与从外部数据单独学习的属性表示,输入属性层对vi重新进行权重分配,同时运用属性任务损失函数对属性层的任务进行加速;
5)将修正后的vi反馈给全连接层L|K|,对多任务属性场景识别任务效果进行提升。
其中,所述属性标注策略,具体为:
首先,本发明从两个流行的以对象为中心的数据集:COCO Object与COCOPanoptic中收集对象属性和上下文信息,对stuff与thing类型做独立处理以提高场景识别能力,其包含的实例示例如表1所示。
表1:
Groups | Attributes |
Things | bottle,cup,apple,sheep,dog,suitca|se,tv,toilet... |
Stuff | sea,river,road,sand,snow,wall,window,wall... |
设S与T分别为stuff与thing的集合,Fs与Ft为针对各自任务的预训练CNN模型。设{x1,x2,...,xn}∈X表示只有类别标签的以场景为中心的数据集。本发明的目标是使用X上的Fs与Ft预测S与T上的分布,ps=Fs(X)与pt=Ft(X)。其中,ps∈R|S|与pt∈R|T|分别是S与T的概率分布预测。给定数据集X,最终的stuff+thing预测P∈R|S|+|T|,在给定的场景数据集上定义为P=ps∪pt,其中,P不会增加至1且不代表概率分布。对两个概率分布ps与pt求平均以合并它们,其中,S与T并不总有交集,它们通常用来表示不同的数据源。总的来说,本发明将ps与pt简单合并且将对象检测分数P作为置信度分数。
所述对象筛选,具体为:
当对象的属性与关系等信息过多时,反而不利于场景识别任务的进行,为克服这一问题,本发明根据对象检测分数与对象频率对S与T中的对象做进一步筛选,具体包括:
基于对象检测分数:丢弃对象检测分数小于阈值的对象实例。只有对象检测分数高于阈值的对象才会被选为场景属性。在此过程中,将P重新定义为:
其中ξ是阈值,当检测分数为0时,对象被认为不存在于场景中。
基于对象频率:进一步考虑给定场景类别的属性频率并删除不常见的对象。对于每个类别c,将相对属性频率定义为覆盖类别图像的非零分数的数量。如果{a1,a2,...,am}∈Ac是c的检测属性集,最优定义为:
所述属性任务损失函数,具体为:
由于属性之间并不完全互斥,因此多属性的预测是一个多标签分类问题。预测属性的层结构不同于传统的包含损失函数的单标签分类层。为使属性层能够适配多标签分类问题,本发明提出了如下定义的多类交叉熵损失函数:
公式(3)中的损失通常受到训练数据的数据倾斜问题的影响,且无法简单地通过数据采样来补偿,这是因为平衡一个属性的出现频率会改变其他属性。为解决这一问题,本发明引入一个正则项βj,它反映了训练数据中第j个属性的相对频率,即它的正负属性标签的比率。公式(3)即可变为:
其中||aj||是持有第j个属性的第k个类别标签的样本数,即第k个场景类别的第j个属性的大小,其中,不同属性特征的分类器不共享。
所述属性层,具体为:
由于属性表示是在单独的数据上学习的,因此可以预见某些属性比其他属性更加重要。本发明引入一个根据检测分数对属性重新加权的层,其由一系列线性变换组成,所述一系列线性变换将所有属性信息聚合到一个向量vi中,使用表示来自属性分类器fA的属性分数,然后学习其预测的置信分数ci为:
其中σ为sigmoid激活函数,W*∈Rm×m与bi∈Rm×1为可训练的参数。vi通过ci与ai逐元素相乘得到,以上操作构成了属性重加权层ARL,其操作过程如图2所示。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,其特征在于,具体包括以下步骤:
2)采用属性标注策略计算对象属性分数,基于对象属性分数对vi中的属性对象按照对象筛选逻辑进行精简;
3)将精简后的特征vi输入到全连接层L|K|进行分类预测,其中K为场景分类的类数;同时,将精简后的特征vi输入全连接层L|A|预测属性概率patt,其中A为检测到的属性集;
4)将预测的属性概率patt与从外部数据单独学习的属性表示,输入属性层对vi重新进行权重分配,同时运用属性任务损失函数对属性层的任务进行加速;
5)将修正后的vi反馈给全连接层L|K|。
2.如权利要求1所述的一种基于类别标签和属性注释的多任务属性场景识别方法,其特征在于,所述属性标注策略是将两个概率分布ps与pt简单合并且将对象检测分数P作为置信度分数即对象属性分数,具体为:
从COCO Object与COCO Panoptic数据集中收集对象属性和上下文信息,对stuff与thing类型做独立处理,设S与T分别为stuff与thing的集合,Fs与Ft为针对各自任务的预训练CNN模型,设{x1,x2,...,xn}∈X表示只有类别标签的以场景为中心的数据集,使用X上的Fs与Ft预测S与T上的分布,ps=Fs(X)与pt=Ft(X),其中,ps∈R|S|与pt∈R|T|分别是S与T的概率分布预测,给定数据集X,最终的stuff+thing预测P∈R|S|+|T|,在给定的场景数据集上定义为P=ps∪pt,其中,P不会增加至1且不代表概率分布,对两个概率分布ps与pt求平均以合并它们,其中,S与T并不总有交集,表示不同的数据源。
3.如权利要求2所述的一种基于类别标签和属性注释的多任务属性场景识别方法,其特征在于,所述对象筛选是根据对象检测分数与对象频率对S与T中的对象做进一步筛选,具体为包括:
基于对象检测分数:丢弃对象检测分数小于阈值的对象实例,只有对象检测分数高于阈值的对象才会被选为场景属性,在此过程中,将P重新定义为:
其中ξ是阈值,当检测分数为0时,对象被认为不存在于场景中;
基于对象频率:进一步考虑给定场景类别的属性频率并删除不常见的对象,对于每个类别c,将相对属性频率定义为覆盖类别图像的非零分数的数量,如果{a1,a2,...,am}∈Ac是c的检测属性集,最优定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547952.1A CN114241380A (zh) | 2021-12-16 | 2021-12-16 | 一种基于类别标签和属性注释的多任务属性场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547952.1A CN114241380A (zh) | 2021-12-16 | 2021-12-16 | 一种基于类别标签和属性注释的多任务属性场景识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241380A true CN114241380A (zh) | 2022-03-25 |
Family
ID=80757630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111547952.1A Pending CN114241380A (zh) | 2021-12-16 | 2021-12-16 | 一种基于类别标签和属性注释的多任务属性场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241380A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824381A (zh) * | 2023-08-30 | 2023-09-29 | 环球数科集团有限公司 | 一种基于aigc的场景属性标注系统 |
-
2021
- 2021-12-16 CN CN202111547952.1A patent/CN114241380A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824381A (zh) * | 2023-08-30 | 2023-09-29 | 环球数科集团有限公司 | 一种基于aigc的场景属性标注系统 |
CN116824381B (zh) * | 2023-08-30 | 2023-10-27 | 环球数科集团有限公司 | 一种基于aigc的场景属性标注系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
US10108902B1 (en) | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques | |
CN110909820B (zh) | 基于自监督学习的图像分类方法及系统 | |
CN108132968B (zh) | 网络文本与图像中关联语义基元的弱监督学习方法 | |
CN109598231B (zh) | 一种视频水印的识别方法、装置、设备及存储介质 | |
CN113572742B (zh) | 基于深度学习的网络入侵检测方法 | |
US20140241619A1 (en) | Method and apparatus for detecting abnormal movement | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN112836509B (zh) | 一种专家系统知识库构建方法及系统 | |
CN113361432B (zh) | 一种基于深度学习的视频文字端到端检测与识别的方法 | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN106997379B (zh) | 一种基于图片文本点击量的相近文本的合并方法 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN107526805B (zh) | 一种基于权重的ML-kNN多标签中文文本分类方法 | |
Sharma et al. | Deep eigen space based ASL recognition system | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN111898704B (zh) | 对内容样本进行聚类的方法和装置 | |
CN114821022A (zh) | 融合主观逻辑和不确定性分布建模的可信目标检测方法 | |
KR20200071865A (ko) | 차원 축소에 기반한 영상 객체 인식 시스템 및 방법 | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN116977710A (zh) | 一种遥感图像长尾分布目标半监督检测方法 | |
CN113344069B (zh) | 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法 | |
CN105787045B (zh) | 一种用于可视媒体语义索引的精度增强方法 | |
Qin | Application of efficient recognition algorithm based on deep neural network in English teaching scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |