CN115565047A - 多任务处理方法、介质及电子设备 - Google Patents

多任务处理方法、介质及电子设备 Download PDF

Info

Publication number
CN115565047A
CN115565047A CN202211057231.7A CN202211057231A CN115565047A CN 115565047 A CN115565047 A CN 115565047A CN 202211057231 A CN202211057231 A CN 202211057231A CN 115565047 A CN115565047 A CN 115565047A
Authority
CN
China
Prior art keywords
task
features
layer
feature
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211057231.7A
Other languages
English (en)
Inventor
李勇
陈畅
宋风龙
崔松
郭勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202211057231.7A priority Critical patent/CN115565047A/zh
Publication of CN115565047A publication Critical patent/CN115565047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像处理领域,公开了一种多任务处理方法、介质及电子设备,能够提升多任务交互效率和多任务预测精度。该方法包括:获取输入图像;针对输入图像,通过神经网络获取M个任务对应的至少两个任务无关特征,以及各个任务分别对应的至少两个任务相关特征,其中任意两个任务互不相同,至少两个任务无关特征为M个任务处理过程中共享的特征,每个任务相关特征为对应任务处理过程中独立使用的特征;针对M个任务中的每个任务,将至少两个任务无关特征中的至少一个任务无关特征与对应的至少一个任务相关特征在通道维堆叠并融合得到各个任务对应的主干特征;针对M个任务,利用各个任务对应的主干特征获取各个任务对应的输出结果。

Description

多任务处理方法、介质及电子设备
技术领域
本申请涉及图像处理技术领域,特别涉及一种多任务处理方法、介质及电子设备。
背景技术
目前基于深度学习的计算机视觉模型在终端设备上得到了广泛应用,并且随着应用场景的拓展,应用的种类也发展迅速。而实际的应用场景往往是多种视觉任务模型同时使用。例如,手机拍照场景中需要同时识别拍摄场景和被摄物体,从而进行针对性的图像增强;智慧屏体感运动场景中,需要同时识别运动主体和姿势动作;智能眼镜的增强现实场景中,需要同时进行物体识别和主体目标分割等任务。
然而,多个单任务模型在丰富了计算机视觉应用场景的同时,带来了带宽、计算量、延迟和功耗等一系列严重影响用户体验的问题,阻碍了视觉任务应用场景的进一步拓展。而多任务学习方法试图利用多种任务在特征提取过程中的冗余性和互补性,在精度优于各个单任务模型的情况下,将多任务模型融合,并且大幅降低计算量、延迟和功耗。因此,如何在智能感知等业务中实现高效的多任务学习,这成为亟待解决的问题。
发明内容
本申请实施例提供了一种多任务处理方法、介质及电子设备,能够提升多任务交互效率和多任务预测精度。
第一方面,本申请实施例提供了一种多任务处理方法,用于电子设备,包括:获取输入图像;针对输入图像,通过神经网络获取M个任务对应的至少两个任务无关特征,以及M个任务中各个任务分别对应的至少两个任务相关特征,其中,M个任务均为图像处理任务且任意两个任务互不相同,并且至少两个任务无关特征为M个任务处理过程中共享的特征,每个任务相关特征为对应任务处理过程中独立使用的特征;针对M个任务中的每个任务,将至少两个任务无关特征中的至少一个任务无关特征与对应的至少一个任务相关特征在通道维堆叠并融合得到各个任务对应的主干特征;针对M个任务,利用各个任务对应的主干特征获取各个任务对应的输出结果。
如此,本申请实施例中,本申请提供的多任务处理方法,可以基于偏共享结构将卷积层分解为任务无关卷积和任务相关卷积,做到端到端的任务关联解耦;并且,利用偏共享结构,将前一层任务无关卷积的抽象特征融入当前层任务相关卷积,该偏共享结构作为基础结构,可直接融入任意视觉任务模型中,提升了本申请的多任务处理在不同场景中的适应度,并且避免了针对各个任务计算任务无关特征。此外,本申请中基于掩码的二级交互结构将多任务信息交互过程可以用任务注意力将其他任务主干特征补充到当前任务主干特征,进而将各个其他任务的初级预测结果首先转化为任务掩码,然后将掩码与当前任务初级预测结果融合,获得多任务预测结果,实现了高效的多任务处理。从而,提升了多任务交互效率和多任务预测精度。
在上述第一方面的一种可能的实现中,上述神经网络中包括主干模块,主干模块中包括N层偏共享卷积(即下文中的N层偏共享卷积层),每层偏共享卷积中包括用于获取任务无关特征的任务无关卷积和用于获取任务相关特征的任务相关卷积。如此,可以实现基于偏共享结构将卷积层分解为任务无关卷积和任务相关卷积,做到端到端的任务关联解耦。
在上述第一方面的一种可能的实现中,上述通过神经网络获取M个任务对应的至少两个任务无关特征,以及M个任务中各个任务分别对应的至少两个任务相关特征,包括:将输入图像输入神经网络的主干模块的第1层偏共享卷积中,输出第1级任务无关特征和第1级任务相关特征;将第i-1级任务无关特征输入第i层偏共享卷积的任务无关卷积,输出第i级任务无关特征,并且将第i-1级任务无关特征和第i-1级任务相关特征在通道维堆叠后输入第i层偏共享卷积的任务相关卷积,输出第i级任务相关特征,直至到达第N层偏共享卷积,2≤i≤N;其中,至少两个任务无关特征包括第1至N级任务无关特征,各个任务分别对应的至少两个任务相关特征包括第1至N级任务相关特征中对应各个任务的特征。
如此,本申请利用偏共享结构,能够将前一层任务无关卷积的抽象特征融入当前层的任务相关卷积,该偏共享结构作为基础结构,可直接融入任意视觉任务模型中,提升了本申请的多任务处理在不同场景中的适应度。
在上述第一方面的一种可能的实现中,上述各个任务对应的至少一个任务无关特征包括第1至N级任务无关特征中一级或多级任务无关特征;各个任务对应的至少一个任务相关特征包括第1至N级任务相关特征中一级或多级任务相关特征。如此,有利于提升多任务交互效率。
在上述第一方面的一种可能的实现中,上述N层偏共享卷积对应预设的N个剥离系数,每个剥离系数用于指示一个偏共享卷积中的任务无关卷积的算力与任务相关卷积的算力的比重,并且剥离系数随着神经网络的模型深度增加剥离系数增加。如此,平衡了任务无关特征和任务相关特征的模型容量(即对应卷积层的算力),建立了多任务模型容量分配随模型深度逐步变化的过程,做到了端到端渐进式任务关联解耦。
在上述第一方面的一种可能的实现中,上述N层偏共享卷积中的起始卷积层中包括M+1个第一卷积层,M个第一卷积层包括M个任务依次对应的第一任务相关卷积和1个第一任务无关卷积,并且,M个第一卷积层中的每个卷积层中分别输入上述输入图像,M个第一卷积层中的各个第一任务相关卷积分别输出对应的一级任务相关特征,M个第一卷积层中的第一任务无关卷积输出一级任务无关特征。
在上述第一方面的一种可能的实现中,第i层偏共享卷积中包括M+1个第二卷积层,M+1个第二卷积层包括M个任务依次对应的第二任务相关卷积和1个第二任务无关卷积,并且,第j个第二任务相关卷积中输入第i-1级任务相关特征中第j个任务对应的任务相关特征以及第i-1级任务无关特征中的特征,并输出第i级任务相关特征中与第j个任务对应的任务相关特征中的特征,1≤j≤M;第i层偏共享卷积中的第二任务无关卷积输入第i-1级任务无关特征中的特征,并输出第i-1级任务无关特征中的特征。
在上述第一方面的一种可能的实现中,上述主干模块中还包括N层目标网络层,目标网络层为批规范化层、激活层或池化层;第i层目标网络层中包括M+1个目标网络层,M+1个目标网络层包括M个任务依次对应的第一目标网络层和1个与任务无关的第二目标网络层,并且,第j个第一目标网络层中输入第i-1级任务相关特征中第j个任务对应的任务相关特征中的特征,并输出第i级任务相关特征中与第j个任务对应的任务相关特征中的特征,1≤j≤M;第i层目标网络层中的第二目标网络层中输入第i-1级任务无关特征中的特征,并输出第i-1级任务无关特征中的特征。
在上述第一方面的一种可能的实现中,上述主干模块的N层偏共享卷积还包括融合卷积层分组;融合卷积层分组中包括M个融合卷积层,M个融合卷积层中的第j个融合卷积层用于输入第N级任务相关特征中与第j任务对应的任务相关特征以及第N级任务无关特征堆叠得到的特征,1≤j≤M;M个融合卷积层中的第j个融合卷积层用于输出第j个任务对应的主干特征。
在上述第一方面的一种可能的实现中,上述针对M个任务,利用各个任务对应的主干特征获取各个任务对应的输出结果,包括:利用第j个任务的主干特征预测得到j个任务的初级预测结果,1≤j≤M;利用第j个任务的初级预测结果,获取第j个任务的二级预测结果;将第j个任务的初级预测结果和第j个任务的二级预测结果相加得到第j个任务的输出结果。
在上述第一方面的一种可能的实现中,上述利用第j个任务的主干特征预测得到j个任务的初级预测结果,包括:针对M个特征,将第j个任务之外的M-1任务对应的主干特征融合后堆叠到当前任务的主干特征中,利用堆叠后的主干特征预测得到第j个任务的初级预测结果。
在上述第一方面的一种可能的实现中,上述利用第j个任务的初级预测结果,获取第j个任务的二级预测结果,包括:针对M个特征,将第j个任务之外的M-1任务的初级预测结果分别转换为掩码;将第j个任务之外的M-1任务分别对应的掩码与第j个任务的初级预测结果相乘得到对应的掩码后预测结果;将第j个任务之外的M-1任务分别对应的掩码后预测结果按照对应的预定义权重加权求和,再与第j个任务的初级预测结果相加得到第j个任务对应的融合预测结果;利用第j个任务对应的融合预测结果预测出j个任务的二级预测结果。如此,能够将其他任务的初级预测结果转化为任务掩码,然后将掩码与当前任务初级预测结果融合,提升了多任务交互的效率和多任务预测精度。
在上述第一方面的一种可能的实现中,上述神经网络中包括第一融合层、任务注意力模块和初级预测模块,第一融合层为卷积层,任务注意力模块包括池化层和卷积层,初级预测模块包括卷积层、批规范化层、激活层和卷积层;第j个任务的初级预测结通过以下方式生成:将第j个任务之外的M-1任务对应的主干特征堆叠并输入第一融合层得到第一融合特征;将第j个任务的主干特征输入任务注意力模块得到空间维度为1×1的通道维注意力;将通道维注意力与第一融合特征相乘,并与第j个任务的主干特征堆叠得到第二融合特征;将第二融合特征输入初级预测模块输出第j个任务的初级预测结果。如此,利用任务注意力机制获得了其他任务的主干特征与当前任务的相关度,过滤了无关特征,提升多任务交互效率和多任务预测精度。
在上述第一方面的一种可能的实现中,上述神经网络中包括二级预测模块,二级预测模块包括卷积层、批规范化层、激活层和卷积层;第j个任务的二级预测结果为将第j个任务对应的融合预测结果输入二级预测模块得到的结果。
第二方面,本申请实施例提供了一种可读介质,可读介质上存储有指令,指令在电子设备上执行时使电子设备执行上述第一方面及其任一种可能的实现方式中的多任务处理方法。
第三方面,本申请实施例提供了一种电子设备,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及处理器,是电子设备的处理器之一,用于执行上述第一方面及其任一种可能的实现方式中的多任务处理方法。
附图说明
图1根据本申请的一些实施例,示出了一种多任务处理的网络架构图;
图2根据本申请的一些实施例,示出了一种多任务处理的网络架构图;
图3根据本申请的一些实施例,示出了一种多任务处理方法的流程示意图;
图4根据本申请的一些实施例,示出了一种基础特征交互子模块输出当前任务的初级预测结果的流程示意图;
图5根据本申请的一些实施例,示出了一种多任务协同增强子模块检测当前任务的输出结果的流程示意图;
图6根据本申请的一些实施例,示出了一种常规的HRNet18的结构示意图;
图7根据本申请的一些实施例,示出了一种偏共享HRNet18的结构示意图;
图8A根据本申请的一些实施例,示出了一种卷积层替换示意图;
图8B根据本申请的一些实施例,示出了一种卷积模块替换示意图;
图9A根据本申请的一些实施例,示出了一种起始卷积层或卷积模块的输入输出示意图;
图9B根据本申请的一些实施例,示出了一种融合卷积分组层的结构和输入输出示意图;
图10根据本申请的一些实施例,示出了一种基础特征交互子模块的结构示意图;
图11根据本申请的一些实施例,示出了一种多任务协同增强子模块的结构示意图;
图12根据本申请的一些实施例,示出了一种多任务处理方法中生成初级预测结果流程的示意图;
图13根据本申请的一些实施例,示出了一种多任务处理方法中生成二级预测结果流程的示意图;
图14根据本申请的一些实施例,示出了一种手机的结构示意图。
具体实施方式
本申请的说明性实施例包括但不限于多任务处理方法、介质和电子设备。
下面对申请实施例中涉及的部分名词和术语进行解释说明。
1、通道维(Channel Dimension):计算机视觉任务中,数据常采用4维(4D)的数据形态,第1维度为批处理维,表示一次处理的数据数量;第2维度(或最后一个维度)表示通道维,对应输入图像的红绿蓝(Red green blue,RGB)通道;第3-4维度(或第2-3维度)为空间维度。
2、神经网络的层级结构通常包括:
卷积层(Convolution Layer,Conv):每个卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。
批规范化层(Batch Normalization Layer,BN):批规范化是指在网络的每一层输入的时候,又插入了一个归一化层,也就是先做一个归一化处理(归一化至:均值0、方差为1),然后再进入网络的下一层。主要用于加快网络的训练和收敛的速度、控制梯度爆炸防止梯度消失以及防止过拟合。
线性整流单元层(Rectified Linear Unit Layer,ReLU):将在输入张量上的所有元素中应用该功能,而不会更改其空间或深度信息。
池化层(Pooling layers,Pool):池化层可以为最大池化(max pooling)、平均池化(average pooling)、全局平均池化、全局最大池化、自适应平均池化(Adaptive AveragePooling,Adaptive Avg Pool)。其中,平均池化指的是计算图像区域的平均值作为该区域池化后的值。最大池化指的是选图像区域的最大值作为该区域池化后的值。
卷积模块(Convolution Blocks,Conv Blocks):卷积模块可以部署在卷积层之后。并且,卷积模块中不仅包括至少一个卷积层,还可以包括批规范化层、线性整流单元层、池化层中的一个或多个。
多尺度融合层(High Resolution Blocks,HR Blocks):多尺度特征融合选择多层的特征进行融合再进行检测。多尺度特征融合层常见的有两种,第一种是并行多分支网络,第二种是串行的跳层连接结构,都是在不同的感受野下进行特征提取。例如,通过构建图像金字塔以获取多尺度特征是传统目标检测算法常用的方式,例如可变形部件模型(Deformable Parts Model,DPM)算法。图像金字塔是在原始图像上进行不同比例的缩放以得到不同尺寸的输入图像,再对得到的图像分别进行特征提取和预测输出。
3、均交并比(Mean Intersection of Union,mIoU):是目标检测中常用的检测性能评价的指标,例如不仅可以用来确定正样本和负样本,还可以用来评价输出框(predictbox)与人工标注(ground-truth)的距离。
4、均方根误差(Root Mean Square Error,RMSE):是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替。
5、高分辨率网络(HRNet):为一种骨架网络,可以应用于语义分割、目标检测、图像分类、图像分割、人体姿态估计、人脸对齐、风格迁移、图像超分、边缘检测等网络结构。
6、掩码(mask):掩膜用选定的图像、图形或物体,对处理的图像(全部或局部)进行遮挡,来控制图像处理的区域或处理过程。图像掩码操作通常用于图像平滑、边缘检测及特征分析等领域。例如,原图像与mask图进行与运算后,得到的结果图只留下原始图感兴趣区域(Region of Interest,ROI)的图像。
7、图像的浅层特征:为浅层网络提取的特征,该特征与输入较近,包含更多的像素点的信息,例如图像的颜色、纹理、边缘、棱角信息例等细粒度的信息。图像的浅层特征通常为细节特征,用于保证网络捕获更多图像细节。
8、图像的高层信息:为深层网络提取的特征,该特征离输出较近,包含更抽象的信息,例如语义信息等粗粒度的信息。图像的高层信息通常为抽象特征,用于获取的是图像整体性的信息。
9、偏共享(part share,PS),指的是多任务学习网络的主干模块中特征部分共享。
在一些实施例中,提供一种同时进行检测和分割预测的神经网络结构,例如一种实时场景理解深度网络(A Real-Time Deep Network for Scene Understanding,也称为BlitzNet)。该网络架构的设计基于如下假设:不同视觉任务的神经网络模型在特征提取中都要经过浅层特征到高层特征、细节特征到抽象特征的过程。因此,不同任务的神经网络模型的基础特征抽取模块存在冗余性。该框架首先包含一个多个任务共享的主干神经网络结构;而后,每个任务从主干神经网络中的一个或者多个位置抽取图像特征;将主干神经网络的输出特征或者经过简单加工后的输出特征送入任务独立的头结构中,获得各个视觉任务的预测结果。然而,该方法中的主干特征是完全共享的,只考虑了任务相似性,没有考虑主干特征提取中的任务差异性,从而无法获得连贯的任务独立的高层特征。
在另一些实施例中,提供另一种多任务处理的网络架构图,例如一种基于多尺度任务交互的多任务学习框架。该网络架构使用的多任务学习算法可以通过基于蒸馏的方式将预测结果重新融入多任务学习过程中,获得新的预测结果,期望新的预测结果优于原预测结果。如此,虽然该方法是对初始的预测结果进行二次加工,使有明确表征含义的任务信息作为输入融入多任务模型中,可显著提升预测精度。但是,该多任务处理方法为基于二级预测的相关方法,直接将初级的原预测结果送入卷积神经网络中,加重了二级预测的神经网络规模和算力负担。
如前所述,为了克服上述实施例提供的两种多任务处理方法的不足,如何将多个单任务模型融合为统一的多任务模型,在保持任务精度的情况下,降低终端设备算力和功耗需求成为需要解决的主要问题。
为了解决上述问题,本申请实施例提供一种多任务处理方法,该方法提供了一种偏共享结构的视觉多任务学习框架。首先,该框架中设计了一种新的多任务主干特征提取基础模块,该模块平衡了任务无关特征和任务相关特征的模型容量,建立了多任务模型容量分配随模型深度逐步变化的过程,做到了端到端渐进式任务关联解耦。其次,该框架中设计了基于掩码的二级交互结构,该结构从多任务基础主干特征和初级预测结果两个阶段挖掘多任务互补特征,提升了信息交互效率和多任务预测精度。
如此,与上述基于BlitzNet的多任务处理方法和基于多尺度任务交互的多任务处理方法相比,本申请提供的基于偏共享结构的多任务处理方法存在以下不同之处:一方面,本申请提供的偏共享结构在保持计算量不变的情况下,将多任务主干特征提取的模块分解为逐层的任务无关卷积和任务相关卷积,做到端到端的任务关联解耦;并且,利用偏共享结构,将前级任务无关卷积的抽象特征融入当前层的任务相关卷积;算力分配随模型深度动态变化;该偏共享结构作为基础结构,可直接融入任意视觉任务模型中。另一方面,本申请基于掩码的二级交互结构可以将多任务信息交互过程分为基础特征交互和多任务协同增强。基础特征交互使用任务注意力将其他任务主干特征补充到当前任务主干特征;而多任务协同增强层将其他任务的初级预测结果首先转化为任务掩码,然后将掩码与当前任务初级预测结果融合,获得多任务预测结果。
在一些实施例中,适用于本申请中的多任务处理方法的电子设备,包括但不限于以智能感知为基础的手机、汽车、电视、智能眼镜等算力较弱的智能终端设备,也可以应用于基于云端服务器实现云端应用等云端产品中。作为示例,本申请中执行多任务处理方法的装置或模块可以以软件形式部署在电子设备的计算节点上,以提升多任务视觉模型运行效率。那么,本申请实施例提供的多任务处理方法的执行主体可以为电子设备,或者电子设备中用于执行多任务处理方法的软件或功能模块。
在一些实施例中,本申请提供的多任务处理方法的应用场景包括但不限于:手机拍照、手机图像编辑、自动驾驶场景感知、安防监控等多种应用场景中的图像场景识别、物体检测、物体分割、边缘检测等多任务的并行处理。
参照图1所示,为本申请实施例提供的一种多任务处理的网络架构图。图1的该网络架构30中包括输入图像、基于偏共享结构的主干模块31、基于掩码的二极交互模块32和输出结果。此外,上述网络架构30可以部署在执行本申请的多任务处理方法的电子设备中,进而作为多任务处理方法的执行主体。
其中,图1中的输入图像可以为RGB格式的图像,但不限于此。
基于偏共享结构的主干模块31,用于提取输入图像的多任务共享特征和任务独立特征。可以理解的是,本申请实施例中,多任务共享特征也可以称为任务无关特征,而任务独立特征也可以称为任务相关特征。
作为示例,对于目标检测任务、图像分割任务和图像边缘检测任务组成的多任务:任务无关特征可以为图像的颜色、纹理、边缘、棱角信息等多个任务共同需求的图像隐式特征;而任务相关特征可以为图像的语义特征等单个任务需求的图像隐式特征,例如图像中的感兴趣对象的类别等。
基于掩码的二级交互模块32,根据模块31提供的任务无关特征和各个任务的任务相关特征组成的各个任务的主干特征,将任务无关特征(或称,多任务共享特征)和任务相关特征(或称,任务独立特征)进行基于掩码的二级特征交互,得到输出结果。
其中,基于掩码的二极交互模块32输出的多任务对应的输出结果,例如任务1对应的输出结果为边界框检测结果,任务2对应的输出结果为图像分割结果,而任务3对应的输出结果为图像边缘检测结果。
进一步,参照图2对图1示出的网络架构中的基于偏共享结构的主干模块31和基于掩码的二级交互模块32进行详细描述。
如图2所示,基于偏共享结构的主干模块31,该模块的功能包括有效抽取任务相关和任务无关的主干特征。该模块由多组(例如N组)偏共享卷积层构成,每个偏共享卷积层依照预先设定的剥离系数划分任务相关卷积和任务无关卷积的算力分配。剥离系数随模型深度增加单调递增,逐步减少偏共享卷积层中任务无关卷积的算力比重。任务无关卷积只接受上级任务无关卷积的结果作为输入;任务相关卷积将上级任务相关卷积和任务无关卷积的结果堆叠后作为输入。该模块的作用是有效抽取任务相关和任务无关的主干特征。
在本申请的一些实施例中,对于基于偏共享结构的主干模块中的多个偏共享层,可以设定起始层剥离系数为0.05,结束层剥离系数为0.33,但不限于此。
作为示例,以多任务处理涉及两个任务为例,假设两个任务对应多个偏共享层均划分为任务相关卷积和任务无关卷积,且算力分配均衡,则各个偏共享层的剥离系数均取0.33。
进一步的,基于偏共享结构的主干模块31中还可以包括融合层1,用于将基于偏共享结构的主干模块31中的一层或者多层偏共享卷积输出的任务无关特征与对应任务的任务相关特征在通道维堆叠,经过融合层1得到每个任务对应的主干特征。
基于掩码的二级交互模块32,用于提升多任务信息交互效率,提升多任务预测精度。该模块由基础特征交互子模块321和多任务协同增强子模块322这两种子模块组成。对每个任务,基础特征交互子模块321利用任务注意力机制将其他任务的主干特征融合后堆叠到当前任务的主干特征中,再经过初级预测器获得当前任务的初级预测结果。对每个任务,多任务协同增强子模块322首先将其他任务的初级预测结果转化为空间掩码形式,各个任务掩码与当前任务初级预测结果相乘,再使用可学习的一组权重参数乘加后与当前任务的初级预测结果相加,得到融合多任务初级预测结果的增强预测结果。然后将增强预测结果输入二级预测器,其结果与初级预测结果相加得到当前任务的最终预测结果。
需要说明的是,图2中表示的是单个任务的结构。在一些实施例中,上述基于掩码的二级交互模块32中包括多个基础特征交互子模块321和多个多任务协同增强子模块322,并且每个任务对应一个基础特征交互子模块321和一个多任务协同增强子模块322。例如,图2示出的基础特征交互子模块321和多任务协同增强子模块322可以对应与任务1、任务2或者任务3中的任一项。
更具体地,基础特征交互子模块321中包括任务注意力33、融合层2以初级预测器34。其中,融合层2用于将当前任务之外的其他任务的主干特征在通道维堆叠,并经过融合层2得到融合特征1。任务注意力模块33用于输入当前任务的主干特征获得空间维度为1x1的通道维注意力,该通道维度与融合特征1的通道维度相同。初级预测器34用于输入融合特征2以获得当前任务的初级预测结果。其中,任务注意力模块33输出的通道维注意力与融合层2输出的融合特征1相乘,并与当前任务主干特征在通道维堆叠获得融合特征2。
在一些实施例中,图2示出的基础特征交互子模块321中,f1、f2、f3分别表示任务1对应的主干特征、任务2对应的主干特征以及任务3对应的主干特征,而这些主干特征是由基于偏共享结构的主干模块321输出的。f2'表示将任务3对应的主干特征f3、任务1对应的主干特征f1融合到任务2对应的主干特征f2得到的融合特征(即下文中的融合特征2)。另外,在多任务协同增强子模块322中,p1、p2、p3分别表示任务1对应的初级预测结果、任务2对应的初级预测结果以及任务3对应的初级预测结果,而这些预测结果是由基础特征交互子模块321输出的。并且,p1掩码转换层用于获取初级预测结果p1的掩码m1,p3掩码转换层用于获取初级预测结果p3的掩码m3。w1和w3分别为掩码m1和掩码m3对应的可学习权重。O2表示任务2对应的输出结果。
在一些实施例中,上述融合层1、融合层2、注意力模块33可以为卷积层、线性层、激活层、池化层等一种或几种神经网络基础层的组合,但不限于此。
可以理解的是,上述图1或图2示出的网络架构30可以用于执行本申请提供的多任务处理方法,该网络架构30可以部署在手机、智能眼镜等终端设备,或者云端产品中。以下实施例中,主要以多任务处理的网络架构图8中的各个模块为执行主体,来介绍本申请实施例提供的多任务处理方法。
接下来,结合图2所示的多任务处理的网络架构30,参照图3所示,对本申请实施例提供的多任务处理方法的流程进行详细描述。该方法流程的执行主体为网络架构30中的各个模块。该方法流程包括两个阶段,第一个阶段为将输入图像输入基于偏共享结构的主干模块31得到多任务主干特征,第二个阶段为将多任务主干特征输入基于掩码的二级交互模块32得到各个任务的输出结果。具体地,该方法流程包括如下步骤:
S501:基于偏共享结构的主干模块31将输入图像输入第一层偏共享层,经过第一层偏共享层输出一个任务无关特征和每个任务对应的任务相关特征。
S502:基于偏共享结构的主干模块31将第i-1级任务无关特征输入第i层偏共享层的任务无关卷积,输出第i级任务无关特征;将i-1级任务无关特征与i-1级任务相关特征在通道维堆叠,输入第i层偏共享层的任务相关卷积,输出第i层任务相关特征,直至到达第N层偏共享层。
可以理解的是,基于偏共享结构的主干模块31中包括N层偏共享层(或称偏共享卷积),那么第N层偏共享层为最后一层偏共享层。2≤i≤N,且i为正整数。而将i-1级任务无关特征与i-1级任务相关特征为第i-1层偏共享层的输出。
也就是说,上一级任务无关特征输出当前层偏共享卷积的任务无关卷积,而上一级任务无关特征与上一级任务相关特征在通道维堆叠,输入当前层偏共享卷积的任务相关卷积中。
S503:基于偏共享结构的主干模块31对每个任务,将基于偏共享结构的主干模块31中的一层或者多层偏共享层输出的任务无关特征与对应任务的任务相关特征在通道维堆叠,经过融合层1得到每个任务对应的主干特征。
作为示例,本申请中可以将最后一层偏共享层输出的任务无关特征与对应任务的任务相关特征在通道维堆叠,经过融合层1得到每个任务对应的主干特征。
可以理解的是,上述S501至S503用于实现多任务处理的第一阶段。
如此,本申请中基于偏共享结构的主干模块能够实现多任务主干特征的任务相关和任务无关特征的端到端关联解耦,使用剥离系数改进主干模块的算力分配策略,有效提升多任务预测精度。
S504:基于偏共享结构的主干模块31将每个任务对应的主干特征发送给基础特征交互子模块321。
S505:基础特征交互子模块321输入多任务的主干特征,将每个任务的主干特征经过融合层2、任务注意力模块33和初级预测器34得到一个任务的初级预测结果,以输出各个任务的初级预测结果。
作为示例,参照图4所示,示出了基础特征交互子模块321输出当前任务的初级预测结果的具体流程,类似的对多个任务中的每个任务都可以按照该流程得到初级预测结果。具体的,如图4所示,依据当前任务的主干特征生成当前任务的初级预测结果的流程可以通过下述S5051至S5054实现,即上述S505包括S5051至S5054:
S5051:基础特征交互子模块321将当前任务之外的其他任务的主干特征在通道维堆叠,经过融合层2得到融合特征1。
作为示例,参照图2,可以将当前任务2之外的任务1的主干特征f1和任务3的主干特征f3在通道维堆叠,经过融合层2得到融合特征1。
S5052:基础特征交互子模块321将当前任务的主干特征经过任务注意力模块33获得空间维度为1x1的通道维注意力。
其中,上述通道维注意力的通道维度和融合特征1的通道维度相同,即均为1x1的通道维度。
作为示例,参照图2,可以将当前任务2的主干特征f2经过任务注意力模块33获得当前任务2的通道维注意力。
S5053:基础特征交互子模块321将当前任务的通道维注意力与融合特征1相乘,并与当前任务的主干特征在通道维堆叠获得融合特征2。
作为示例,参照图2,可以将当前任务2的的通道维注意力与融合特征1相乘,并与当前任务2的主干特征f2在通道维堆叠获得融合特征2(即f2')。
S5054:基础特征交互子模块321将融合特征2输入初级预测器34获得当前任务的初级预测结果。类似的,基础特征交互子模块321可以按照相同的步骤获取得到多个任务分别对应的初级预测结果。
作为示例,参照图2,可以将融合特征2输入初级预测器34获得当前任务2的初级预测结果(即下文中的p2)。
接下来,返回图3继续介绍步骤S505之后的各个步骤:
S506:基础特征交互子模块321将各个任务的初级预测结果发送给多任务协同增强子模块322。
S507:多任务协同增强子模块322输入各个任务的初级预测结果,将每个任务的初级预测结果经过p1掩码转换器、p2掩码转换器和二级预测器35得到一个输出结果,以输出各个任务的输出结果。
作为示例,参照图5所示,示出了多任务协同增强子模块322检测当前任务的输出结果具体流程,类似的对多个任务中的每个任务都可以按照该流程得到最终的输出结果,并且以当前任务为任务2为例。具体的,如图5所示,依据当前任务的初级预测结果生成当前任务的二级预测结果进而得到输出结果的流程可以通过下述S5071至S5074实现,即上述S507包括S5071至S5074:
S5071:多任务协同增强子模块322将当前任务之外的其他任务的初级预测结果经过每个任务对应的掩码转化层得到各个其他任务的掩码。
例如,参照图2所示,当前任务为任务2,多任务协同增强子模块322中包括任务1对应的p1掩码转换器,任务3对应p3掩码转换器。进而,如图2所示,任务1的初级预测结果p1经过对应的p1掩码转化层得到任务1的掩码m1,任务3的初级预测结果p3经过对应的p3掩码转化层得到任务3的掩码m3
在一些实施例中,不同任务转化为掩码的方式不同,常用的有通道维加权平均、数值范围归一化等,但不限于此。
此外,上述各个任务的掩码的空间维度与当前任务的初级预测结果的空间维度相同,即掩码的通道维维度为1。
S5072:多任务协同增强子模块322将当前任务之外的各个其他任务的掩码与当前任务的初级预测结果相乘得到掩码后预测结果。
例如,参照图2所示,当前任务为任务2,可以将任务1的掩码m1当前任务2的初级预测结果p2相乘得到任务1的掩码后预测结果,将任务3的掩码m3当前任务2的初级预测结果p2相乘得到任务3的掩码后预测结果。
S5073:多任务协同增强子模块322将各个其他任务的掩码后预测结果依据各个其他任务到当前任务的可学习权重乘加融合,之后与当前任务的初级预测结果相加得到融合预测结果。
例如,参照图2所示,当前任务为任务2,任务1到当前任务2的可学习权重为w1,任务3到当前任务2的可学习权重为w3。那么,任务1的掩码后预测结果依据到当前任务2的可学习权重w1乘加融合,并与当前任务2的初级预测结果p2相加得到任务1的融合预测结果。类似的,任务3的掩码后预测结果依据到当前任务2的可学习权重w3乘加融合,并与当前任务2的初级预测结果p2相加得到任务3的融合预测结果。
S5074:多任务协同增强子模块322将各个其他任务的融合预测结果输入二级预测器35得到当前任务的二级预测结果。
作为示例,参照图2,可以将融合预测结果输入二级预测器35得到当前任务2的二级预测结果。
S5075:多任务协同增强子模块32将当前任务的二级预测结果与当前任务的初级预测结果相加得到当前任务的输出结果。
作为示例,参照图2,可以将当前任务2的二级预测结果与当前任务2的初级预测结果p2相加得到当前任务2的输出结果o2
类似的,参照上述对当前任务2的处理的描述,可以分别对任务1和任务2进行处理,以得到各个任务的输出结果,即最终的预测结果。
如此,本申请提供的多任务处理方法,可以基于偏共享结构将卷积层分解为任务无关卷积和任务相关卷积,做到端到端的任务关联解耦;并且,利用偏共享结构,将前一层任务无关卷积的抽象特征融入当前层任务相关卷积,该偏共享结构作为基础结构,可直接融入任意视觉任务模型中,提升了本申请的多任务处理在不同场景中的适应度,并且避免了针对各个任务计算任务无关特征。此外,本申请中基于掩码的二级交互结构将多任务信息交互过程可以用任务注意力将其他任务主干特征补充到当前任务主干特征,进而将各个其他任务的初级预测结果首先转化为任务掩码,然后将掩码与当前任务初级预测结果融合,获得多任务预测结果,实现了高效的多任务处理。从而,提升了多任务交互效率和多任务预测精度。
根据本申请的一些实施例,本申请提供的基于偏共享结构的主干模块可以基于HRNet18实现,以支持偏共享结构的主干模块按照逐层的任务无关卷积和任务相关层卷积。
参照图6所示,为一种常规的HRNet18的结构示意图。如图6所示,HRNet18主干的总体结构分为四个阶段。其中,阶段1至阶段4中均包括分支,每个分支至少包括一个卷积层(Conv)和一个卷积模块(Conv blocks)。并且,每个分支中的卷积层和卷积模块用于提取输入图像的不同特征,并对特征的分辨率降低2倍。
具体地,阶段1包含1个分支,该分支中包括一个卷积层和一个卷积模块。阶段1将输入图像的分辨率降低4倍得到基础特征F-S1-1,再利用步长(stride,或称步进)=2的卷积将特征F-S1-1空间分辨率降低一半,得到特征F-S1-2。阶段2包含2个分支,其中分支1(即上方的第一个分支)直接将特征F-S1-1作为输入得到特征F-S2-1;分支2直接将特征F-S1-2作为输入得到特征F-S2-2。然后,阶段2将F-S2-2通过步长=2的卷积得到特征F-S2-3。阶段3包含3个分支,在进入分支结构之前,阶段3将特征F-S2-1,2,3通过一个多尺度融合层(HRblocks)得到特征F-S3-R-1,2,3,分别送入3个分支中得到F-S3-1,2,3,然后,阶段3将F-S3-3通过步长=2的卷积得到特征F-S3-4。阶段4包含4个分支,在进入分支结构之前,阶段4将F-S3-1,2,3,4通过一个多尺度融合层(HR blocks)得到特征F-S4-R-1,2,3,4,分别送入4个分支中得到特征F-S4-P-1,2,3,4。然后,阶段4将F-S4-P-1,2,3,4再输入一个多尺度融合层经过一轮多尺度融合,得到特征F-S4-1,2,3,4。
可以理解的是,上述图6示出的每个阶段中的分支的序号指的是为从上到下排列的分支。
此外,上述阶段2至4中的每个分支中的卷积模块之后还可以连接一个卷积层(Conv),虽然图6中未示出。
在一些实施例中,本申请提供的基于偏共享结构的主干模块,可以在对传统的HRNet18进行改造实现,但不限于此。
参照图7所示,为本申请提供的偏共享HRNet18主干模块,该HRNet18是对图6示出的HRNet18改造得到。
在一些实施例中,与图6示出的HRNet18相比,首先,图7示出的HRNet18不需要修改总体结构,可以替换基础的卷积层(conv)、批规范化层(BN)、激活层(Relu)和池化层(pool),如替换得到图7中的每个分支中的“PS-Conv”、“PS-Conv Blocks”。即在图7中将图6中每个分支中的卷积层“Conv”替换为卷积层“PS-Conv”,卷积模块“Conv Blocks”中的卷积层“Conv”、批规范化层(BN)、激活层(Relu)和池化层(pool)进行替换得到卷积模块“PS-Conv Blocks”。其次,与图6示出的HRNet18相比,图7示出的HRNet18中还包括融合卷积分组(Fusion Conv Group)层,用于将各个任务的任务无关特征和任务相关特征融合为该任务的主干特征。相应的,图7示出的特征F-S4-1,2,3,4经过各个融合卷积分组层可以融合得到特征F-S4-1',2',3',4'。
可以理解的是,图7示出的特征F-S4-1',2',3',4'中的每个特征中均包括多任务中各个任务的部分主干特征,从而特征F-S4-1',2',3',4'用于表示多任务各个任务的主干特征,如任务1-3中每个任务的主干特征。
进一步的,参照图8A所示,为本申请实施例中提供的卷积层替换示意图。
其中,图8A上方为图6示出的原始的卷积层的输入特征与输出特征,该卷积层无法区分任务相关特征和任务无关特征,只能对一种输入特征进行卷积操作得到对应的输出特征。图8A下方为本申请中替换后的卷积层“PS-Conv”结构与输入输出示意图。具体地,卷积层“PS-Conv”的输入特征可以包括任务相关特征和任务相关特征,例如该输入特征中从上到下依次为任务1对应的任务相关特征、任务2对应的任务相关特征、任务3对应的任务相关特征以及任务无关特征。需要说明的是,图8A中灰色的块表示任务无关的特征,例如输入特征中的最后一块指的是任务无关特征,输出特征中的最后一块也指的是任务无关特征。
图8A下方示出的卷积层“PS-Conv”的结构中包括多个任务分别对应的卷积层,具体为任务1对应的卷积层(Task1Conv)、任务2对应的卷积层(Task2Conv)、任务3对应的卷积层(Task3Conv)以及控制卷积层“MasterConv”。而“MasterConv”表示任务无关卷积。
如图8A的下方所示,各个任务对应的卷积层可以分别输入任务相关特征和任务无关特征,具体将任务相关特征和任务无关特征堆叠后在输入至各个任务对应的卷积层中。而控制卷积层“MasterConv”中输入任务无关特征即可。
进而,卷积层“PS-Conv”中每个任务对应的卷积层分别输出相应的任务相关特征,控制卷积层“MasterConv”输出任务无关特征,从而得到卷积层“PS-Conv”的输出特征。
可以理解的是,图8A示出的卷积模块的替换方法适用于图6示出的HRNet18中各个分支中的任意位置处的卷积层,例如接近输入的卷积层或者卷积模块中的卷积层等,本申请对此不做具体限定。
如此,本申请实施例中基于偏共享结构的主干模块可以实现端到端的任务关联解耦,并且将前级任务无关卷积的抽象特征融入下一级的任务相关卷积,有利于最终获取更丰富的任务主干特征。
参照图8B所示,为本申请提供的一种卷积模块的替换示意图。具体的,图8B示出的替换方式为卷积模块中的BN层、ReLU层或Pool层的替换示意图。其中,“MasterConv”表示任务无关卷积,灰色的块表示任务无关的特征。
其中,图8B上方为图6示出的原始卷积模块中的BN层、ReLU层或Pool层的输入特征与输出特征,该层无法区分任务相关特征和任务无关特征,只能对一种输入特征进行卷积操作得到对应的输出特征。
图8B下方为本申请中替换后的卷积层中的BN层、ReLU层或Pool层与输入输出之间的示意图。具体地,BN层、ReLU层或Pool层的输入特征可以包括任务相关特征和任务相关特征,例如该输入特征中从上到下依次为任务1对应的任务相关特征、任务2对应的任务相关特征、任务3对应的任务相关特征以及任务无关特征。
图8B下方示出的BN层、ReLU层或Pool层包括多个任务分别对应的卷积层,具体为任务1对应的网络层(Task1 BN/ReLU/Pool)、任务2对应的网络层(Task2BN/ReLU/Pool)、任务3对应的网络层(Task3 BN/ReLU/Pool)以及控制网络层(Master BN/ReLU/Pool)。
如图8B的下方所示,各个任务对应的卷积层可以分别输入任务相关特征和任务无关特征,具体将任务相关特征分别输入各个任务对应的网络层中,并将任务无关特征输入控制网络层中。
进而,卷积模块“PS-Conv Blocks”中每个任务对应的网络层分别输出相应的任务相关特征,控制网络层输出任务无关特征,从而得到卷积模块“PS-Conv Blocks”的输出特征。
可以理解的是,图8B示出的卷积模块的替换方法适用于图6示出的HRNet18中各个分支中的任意位置处的BN层、ReLU层和Pool层,本申请对此不做具体限定。
根据本申请的一些实施例,图2示出的各个偏共享层主要通过图7示出的各个分支中的卷积层实现,但不限于此。
此外,需要说明的是,图8A示出的卷积层或者卷积模块中的卷积层通常指的是图7示出的偏共享主干模块中的第二个卷积层以及之后的卷积层。
根据本申请的一些实施例,参照图9A所示,为起始卷积层或卷积模块的输入输出示意图。其中,如图9A起始卷积层的输入为输入图像,因此应用偏共享结构时,无需对输入进行额外处理,只需将输出分为任务相关特征和任务无关特征即可。例如,任务1对应的卷积层(Task1Conv)、任务2对应的卷积层(Task2Conv)、任务3对应的卷积层(Task3Conv)以及控制卷积层“MasterConv”均输入原始输入图像,并分别输出任务1对应的任务相关特征、任务2对应的任务相关特征、任务3对应的任务相关特征以及任务无关特征。
此外,对于图7示出的融合卷积分组层可以通过卷积层实现。具体的,图7示出的主干特征每个取样位置的卷积或者模块之后,需要添加一组卷积层作为融合卷积分组层,将任务无关特征和每个任务的任务相关特征分别堆叠,然后各自经过对应任务的卷积层,获得融合后的特征作为该任务的主干特征。
参照图9B所示,为本申请实施例提供的一种融合卷积分组层的结构和输入输出示意图。如图9B所示,融合卷积分组层包括多个卷积层,如任务1对应的卷积层(Task1Conv)、任务2对应的卷积层(Task2Conv)、任务3对应的卷积层(Task3Conv)。输入的采样点特征中同样包括任务相关特征和任务无关特征,例如任务1-3各自对应的任务相关特征和任务无关特征堆叠之后分别输入相应的任务的卷积层。进而,各任务对应的卷积层输出各个任务对应的主干特征,即任务1-3分别对应的主干特征。作为示例,结合图7所示,阶段4中输出的特征F-S4-1,2,3,4分别为采样点特征。特征F-S4-1,2,3,4中的每个特征输入一个融合卷积分组层得到包含任务1-3中各任务的部分主干特征的输出特征F-S4-1',2',3',4'。进而,任务1对应的主干特征由输出特征F-S4-1',2',3',4'中与任务相关的特征组合而成。
以下实施例中,以图像语义分割、人体部位分割和显著性检测分别作为任务1至2进行多任务处理为例,对本申请实施例提供的多任务处理方法进行说明。
在图2示出的网络架构30的基础上,参照图10所示,本申请实施例提供的基础特征交互子模块321的结构示意图。图10中仅示出的任务2对应的基础特征交互子模块321。类似的,对应于任务1和任务3的基础特征交互子模块321可以参照图10的示例,对此不做赘述。
如图10所示,任务注意力模块33包括自适应平均池化(Adaptive Avg Pool)层和两个线性(Linear)层。在一些实施例中,线性层可以通过卷积层实现,例如通过1×1的卷积层实现,用于对输入特征进行线性处理。
初级预测器34包括Conv-BN-ReLU组成的网络层和独立的卷积层(Conv),用于估计出任务2的初级预测结果。
此外,图10示出的融合层2可以通过卷积层(Conv)实现。
在图2示出的网络架构30的基础上,参照图11所示,本申请实施例提供的多任务协同增强子模块322的结构示意图。图11中仅示出的任务2对应的多任务协同增强子模块322。类似的,对应于任务1和任务3的多任务协同增强子模块322可以参照图11的示例,对此不做赘述。
如图11所示,任务1对应的p1掩码转换器可以采用归一化操作实现,任务3对应的p3掩码转换器也可以采用归一化操作实现,但不限于此。当然,在实际应用中,由于任务3为显著性检测(如边缘检测),因此任务3对应的初始预测结果p1可以直接作为任务1的掩码m3。可以理解的是,归一化操作为将初级预测结果表示的图像中的像素归一化至0-1的像素值,进而得到输出的掩码。
此外,图11示出的多任务协同增强子模块322中的二极预测器35可以为Conv-BN-ReLU组成的网络层。
接下来,结合图7和12示出的多任务处理的网络架构30,以图像语义分割(任务2)的处理为例,参照图12,提供一种多任务处理方法中生成初级预测结果流程的示意图。该流程的执行主体为图像语义分割任务对应的基础特征交互子模块321,该流程包括如下步骤:
S1401:基础特征交互子模块321将除当前任务2之外的其他两个任务的主干特征在通道维堆叠,再经过单层卷积层构建的融合层2得到融合特征1。
参照图10所示,基础特征交互子模块321将任务1的主干特征f1和任务3的主干特征f3在通道维堆叠,再经过融合层2得到融合特征1。
S1402:基础特征交互子模块321将当前任务2的主干特征f2经过池化层、卷积层构建的任务注意力模块33得到空间维度为1x1的通道维注意力。
可以理解的是,基础特征交互子模块321的通道维注意力能够指示当前任务2对应的主干特征,能够用于表征其他任务的主干特征与当前任务2的相关度。
S1403:基础特征交互子模块321将通道维注意力与融合特征1相乘,其结果与当前任务2的主干特征f2堆叠得到融合特征2。
如此,将通道维注意力与融合特征1相乘,根据其他任务的主干特征与当前任务的相关度,过滤其他任务的主干特征中与当前任务无关的特征。即融合特征2过滤了与任务1和任务3的主干特征中与当前任务2无关的特征。
S1404:基础特征交互子模块321将融合特征2输入当前任务2的初级预测器34得到当前任务2的初级预测结果。
类似的,对人体部位分割(即任务1)和显著性检测任务(即任务3)同样采用此上述S1401至S1404的过程,其中输入替换为相应的当前任务和其他任务。
如此,本申请中基础特征交互子模块能够利用任务注意力机制获得了其他任务的主干特征与当前任务的相关度,过滤了无关特征,提升多任务交互效率和多任务预测精度。
接下来,结合图7和11示出的多任务处理的网络架构30,以图像语义分割(任务2)的处理为例,参照图13,提供一种多任务处理方法中生成二级预测结果流程的示意图。该流程的执行主体为图像语义分割任务对应的多任务协同增强子模块322,该流程包括如下步骤:
S1501:多任务协同增强子模块322将当前任务2之外的其他两个任务的初级预测结果经过掩码转化层得到任务掩码,例如将人体部位分割和显著性检测的结果归一化作为任务掩码。
S1502:多任务协同增强子模块322将当前任务2之外的其他两个任务的掩码与当前任务2的初级预测结果相乘得到掩码后预测结果。
S1503:多任务协同增强子模块322将掩码后预测结果通过对应的可学习的权重W1-2与W3-2加权求和,再与当前任务2的初级预测结果相加得到融合预测结果。
S1504:多任务协同增强子模块322将融合预测结果输入当前任务的二级预测器35得到当前任务2的二级预测结果。
S1505:多任务协同增强子模块322将当前任务2的二级预测结果与当前任务2的初级预测结果相加得到当前任务的输出结果。
类似的,对人体部位分割(任务1)和显著性检测任务(任务3)同样采用此S1501至S1505的过程,其中输入替换为相应的当前任务和其他任务,可学习权重替换为相应的权重,本申请实施例对此不再赘述。
如此,多任务协同增强子模块能够将其他任务的初级预测结果转化为任务掩码,然后将掩码与当前任务初级预测结果融合,提升了多任务交互的效率和多任务预测精度。
需要说明的是,本申请实施例提供的多任务处理方法所应用的网络架构包括但不限于上述图2示出的网络架构30,即由上述基于偏共享结构的主干模块31、基础特征交互子模块321、多任务协同增强子模块322组成的网络架构。也就是说,本申请的一些实施例提供的多任务处理方法基于上述网络架构30实现。
在其他一些实施例,本申请实施例提供的多任务处理方法可以在现有多任务处理的网络架构的基础上进行部分改进。例如,本申请实施例提供的多任务处理的网络结构,可以在现有多任务处理结构上部署基于偏共享结构的主干模块31、基础特征交互子模块321、多任务协同增强子模块322中的一项或两项得到。也就是说,本申请的一些实施例中的多任务处理方法还可以在现有多任务处理方法的基础上进行部分改进实现。
在一些实施例中,本申请实施例进行多任务效果测试所涉及的现有多任务处理方法包括如下几项:
单任务(SingleTask):各个任务使用独立的模型并独立训练的方法;
基础多任务(BaseMultiTask):不经过任务额外的处理,直接使用共享主干模块、连接多个任务头结构。
十字绣(CrossStitch):一种保留了每个任务单独的主干模块,但是在各任务主干模块之间设计了交互结构的方法。
分层特征融合网络(Neural Discriminative Dimensionality Reduction-CNN,NDDR-CNN):一种保留了每个任务单独的主干模块,但是在各任务主干模块之间设计了交互结构的方法,交互结构设计与CrossStitch不同。
多任务注意力网络(Multi-Task Attention Network,MTAN):一种使用一个各任务完全共享的主干模块,各个任务从主干中抽取特征后再加工使用的方法。
泛密度人群计数(Pan-Density Crowd Counting,PADNet):一种使用多任务模型蒸馏策略进行二级多任务增强的方法;
多尺度任务交互网络(Multi-Scale Task Interaction Networks,MTINet):在PADNet基础上引入多尺度金字塔结构的二级多任务增强方法。
在一些实施例中,本申请可以在公开的数据集NYUDv2和PASCAL Context上,对多种多任务处理方法进行了多任务效果测试。
参照表1所示,为在NYUDv2数据集上偏共享结构对多任务效果的影响。
表1:
Figure BDA0003825311790000181
参照表2所示,为在PASCAL Context数据集上偏共享结构对多任务效果的影响。
表2:
Figure BDA0003825311790000182
需要说明的是,表1和表2给出本了申请实施例中基于偏共享结构的主干模块对视觉多任务效果的影响。表中“SemSeg”为图像语义分割任务,“Depth”为图像深度估计任务,“HumanParts”为人体部位分割任务,“Sal”为显著性检测任务。MTLΔ为多任务指标,衡量了各个任务提升幅度的平均百分比。其中以“-PS”结尾的是应用本发明的偏共享结构的方法。可以看到本申请实施例的基于偏共享结构的主干模块可以大幅提升多任务性能。
参照表3,示出了在NYUDv2数据集上本申请提供的各个网络结构的有效性验证。
表3:
Figure BDA0003825311790000191
参照表4,为在PASCAL Context数据集上本申请实施例提供的各个结构的有效性验证。
表4:
Figure BDA0003825311790000192
需要说明的是,上述表3和表4展示了本申请的一些实施例中提供的各个结构的有效性验证。此实验展示了从基础的BaseMultiTask模型逐步改造为本申请实施例提供的结构时,多任务效果的变化。其中PS表示基于偏共享结构的主干模块,S1表示基础特征交互子模块,S2为多任务协同增强子模块。“-”表示不使用此结构,“√”表示应用此结构。结果表明,本申请设计的多任务处理的模块结构可以显著提升多任务效果。
参照表5,为各个多任务处理方法在NYUDv2数据集上的效果对比。
表5:
Figure BDA0003825311790000193
参照表6,为各个多任务处理方法在PASCAL Context数据集上的效果对比。
表6:
Figure BDA0003825311790000201
需要说明的是,上述表5和表6给出了本申请实施例提供的多任务处理方法在多种主干结构和两个数据集上和现有多任务方法的效果、参数量和计算量的比较。其中“Params”为模型参数量,“FLOPS”为模型计算量。可以看到本申请在取得最优效果的同时,保证了参数量和计算量优势。
接下来,对本申请实施例提供的执行多任务处理方法的电子设备的硬件结构进行介绍。作为示例,以电子设备为手机为例进行说明。那么,本申请实施例提供的多任务处理的网络架构,如图1示出的网络架构30可以部署在该电子设备中,以支持该电子设备执行上述实施例提供的多任务处理方法。
如图14所示,手机160可以包括处理器110、电源模块140、存储器180,移动通信模块130、无线通信模块120、传感器模块190、音频模块150、摄像头170、接口模块160、按键101以及显示屏102等。
可以理解的是,本发明实施例示意的结构并不构成对手机160的具体限定。在本申请另一些实施例中,手机160可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如,可以包括中央处理器CPU(Central Processing Unit)、图像处理器GPU(Graphics Processing Unit)、数字信号处理器DSP、微处理器MCU(Micro-programmed Control Unit)、AI(ArtificialIntelligence,人工智能)处理器或可编程逻辑器件FPGA(Field Programmable GateArray)等的处理模块或处理电路。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110中可以设置存储单元,用于存储指令和数据。在一些实施例中,处理器110中的存储单元为高速缓冲存储器180。例如,上述多任务处理的网络架构30的数据可以存储在高速缓冲存储器180中,并且处理器110可以调用该网络架构30执行本申请实施例提供的多任务处理方法。
电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中,电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入;电源管理模块用于连接电源,充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入,为处理器110,显示屏102,摄像头170,及无线通信模块120等供电。
移动通信模块130可以包括但不限于天线、功率放大器、滤波器、LNA(Low noiseamplify,低噪声放大器)等。移动通信模块130可以提供应用在手机160上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块130可以由天线接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块130还可以对经调制解调处理器调制后的信号放大,经天线转为电磁波辐射出去。在一些实施例中,移动通信模块130的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块130至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivisionmultiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),无线局域网(wireless local areanetworks,WLAN),近距离无线通信技术(near field communication,NFC),调频(frequency modulation,FM)和/或field communication,NFC),红外技术(infrared,IR)技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidounavigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
无线通信模块120可以包括天线,并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在手机160上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。手机160可以通过无线通信技术与网络以及其他设备进行通信。
在一些实施例中,手机160的移动通信模块130和无线通信模块120也可以位于同一模块中。
显示屏102用于显示人机交互界面、图像、视频等。显示屏102包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organiclight-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flexlight-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。作为示例,显示屏102可以显示多任务处理的结果,如图像分割任务的图像分割结果、或者目标检测任务的边界框检测结果等。
传感器模块190可以包括接近光传感器、压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
音频模块150用于将数字音频信息转换成模拟音频信号输出,或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中,音频模块150可以设置于处理器110中,或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中,音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。
摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号,之后将电信号传递给ISP(Image SignalProcessing,图像信号处理)转换成数字图像信号。手机160可以通过ISP,摄像头170,视频编解码器,GPU(Graphic Processing Unit,图形处理器),显示屏102以及应用处理器等实现拍摄功能。作为示例,摄像头170可以实时采集图像,将该图像作为本申请执行的多任务处理方法的输入图像。
接口模块160包括外部存储器接口、通用串行总线(universal serial bus,USB)接口及用户标识模块(subscriber identification module,SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机160的存储能力。外部存储卡通过外部存储器接口与处理器110通信,实现数据存储功能。通用串行总线接口用于手机160和其他电子设备进行通信。用户标识模块卡接口用于与安装至手机16010的SIM卡进行通信,例如读取SIM卡中存储的电话号码,或将电话号码写入SIM卡中。
在一些实施例中,手机160还包括按键101、马达以及指示器等。其中,按键101可以包括音量键、开/关机键等。马达用于使手机160产生振动效果,例如在用户的手机160被呼叫的时候产生振动,以提示用户接听手机160来电。指示器可以包括激光指示器、射频指示器、LED指示器等。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (16)

1.一种多任务处理方法,用于电子设备,其特征在于,包括:
获取输入图像;
针对所述输入图像,通过神经网络获取M个任务对应的至少两个任务无关特征,以及所述M个任务中各个任务分别对应的至少两个任务相关特征,其中,所述M个任务均为图像处理任务且任意两个任务互不相同,并且所述至少两个任务无关特征为所述M个任务处理过程中共享的特征,每个任务相关特征为对应任务处理过程中独立使用的特征;
针对所述M个任务中的每个任务,将所述至少两个任务无关特征中的至少一个任务无关特征与对应的至少一个任务相关特征在通道维堆叠并融合得到各个任务对应的主干特征;
针对所述M个任务,利用各个任务对应的主干特征获取各个任务对应的输出结果。
2.根据权利要求1所述的方法,其特征在于,所述神经网络中包括主干模块,所述主干模块中包括N层偏共享卷积,每层偏共享卷积中包括用于获取任务无关特征的任务无关卷积和用于获取任务相关特征的任务相关卷积。
3.根据权利要求2所述的方法,其特征在于,所述通过神经网络获取M个任务对应的至少两个任务无关特征,以及所述M个任务中各个任务分别对应的至少两个任务相关特征,包括:
将所述输入图像输入所述神经网络的主干模块的第1层偏共享卷积中,输出第1级任务无关特征和第1级任务相关特征;
将第i-1级任务无关特征输入第i层偏共享卷积的任务无关卷积,输出第i级任务无关特征,并且
将第i-1级任务无关特征和第i-1级任务相关特征在通道维堆叠后输入第i层偏共享卷积的任务相关卷积,输出第i级任务相关特征,直至到达第N层偏共享卷积,2≤i≤N;
其中,所述至少两个任务无关特征包括第1至N级任务无关特征,所述各个任务分别对应的至少两个任务相关特征包括所述第1至N级任务相关特征中对应各个任务的特征。
4.根据权利要求3所述的方法,其特征在于,
所述各个任务对应的至少一个任务无关特征包括所述第1至N级任务无关特征中一级或多级任务无关特征;
所述各个任务对应的至少一个任务相关特征包括所述第1至N级任务相关特征中一级或多级任务相关特征。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述N层偏共享卷积对应预设的N个剥离系数,每个剥离系数用于指示一个偏共享卷积中的任务无关卷积的算力与任务相关卷积的算力的比重,并且所述剥离系数随着神经网络的模型深度增加剥离系数增加。
6.根据权利要求5所述的方法,其特征在于,所述N层偏共享卷积中的起始卷积层中包括M+1个第一卷积层,所述M个第一卷积层包括所述M个任务依次对应的第一任务相关卷积和1个第一任务无关卷积,并且,所述M个第一卷积层中的每个卷积层中分别输入所述输入图像,所述M个第一卷积层中的各个第一任务相关卷积分别输出对应的一级任务相关特征,所述M个第一卷积层中的第一任务无关卷积输出一级任务无关特征。
7.根据权利要求5所述的方法,其特征在于,第i层偏共享卷积中包括M+1个第二卷积层,所述M+1个第二卷积层包括所述M个任务依次对应的第二任务相关卷积和1个第二任务无关卷积,并且,第j个第二任务相关卷积中输入第i-1级任务相关特征中所述第j个任务对应的任务相关特征以及第i-1级任务无关特征中的特征,并输出第i级任务相关特征中与所述第j个任务对应的任务相关特征中的特征,1≤j≤M;
所述第i层偏共享卷积中的所述第二任务无关卷积输入第i-1级任务无关特征中的特征,并输出第i-1级任务无关特征中的特征。
8.根据权利要求5或6所述的方法,其特征在于,所述主干模块中还包括N层目标网络层,所述目标网络层为批规范化层、激活层或池化层;
第i层目标网络层中包括M+1个目标网络层,所述M+1个目标网络层包括所述M个任务依次对应的第一目标网络层和1个与任务无关的第二目标网络层,并且,第j个第一目标网络层中输入第i-1级任务相关特征中所述第j个任务对应的任务相关特征中的特征,并输出第i级任务相关特征中与所述第j个任务对应的任务相关特征中的特征,1≤j≤M;
所述第i层目标网络层中的所述第二目标网络层中输入第i-1级任务无关特征中的特征,并输出第i-1级任务无关特征中的特征。
9.根据权利要求7述的方法,其特征在于,所述主干模块的所述N层偏共享卷积还包括融合卷积层分组;
所述融合卷积层分组中包括M个融合卷积层,所述M个融合卷积层中的第j个融合卷积层用于输入第N级任务相关特征中与第j任务对应的任务相关特征以及所述第N级任务无关特征堆叠得到的特征,1≤j≤M;
所述M个融合卷积层中的第j个融合卷积层用于输出所述第j个任务对应的主干特征。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述针对所述M个任务,利用各个任务对应的主干特征获取各个任务对应的输出结果,包括:
利用第j个任务的主干特征预测得到所述第j个任务的初级预测结果,1≤j≤M;
利用所述第j个任务的初级预测结果,获取所述第j个任务的二级预测结果;
将所述第j个任务的初级预测结果和所述第j个任务的二级预测结果相加得到所述第j个任务的输出结果。
11.根据权利要求10所述的方法,其特征在于,所述利用所述第j个任务的主干特征预测得到所述第j个任务的初级预测结果,包括:
针对所述M个特征,将第j个任务之外的M-1任务对应的主干特征融合后堆叠到当前任务的主干特征中,利用堆叠后的主干特征预测得到第j个任务的初级预测结果。
12.根据权利要求10或11所述的方法,其特征在于,所述利用所述第j个任务的初级预测结果,获取所述第j个任务的二级预测结果,包括:
针对所述M个特征,将所述第j个任务之外的M-1任务的初级预测结果分别转换为掩码;
将所述第j个任务之外的M-1任务分别对应的掩码与所述第j个任务的初级预测结果相乘得到对应的掩码后预测结果;
将所述第j个任务之外的M-1任务分别对应的掩码后预测结果按照对应的预定义权重加权求和,再与第j个任务的初级预测结果相加得到第j个任务对应的融合预测结果;
利用所述第j个任务对应的融合预测结果预测出所述第j个任务的二级预测结果。
13.根据权利要求11所述的方法,其特征在于,所述神经网络中包括第一融合层、任务注意力模块和初级预测模块,所述第一融合层为卷积层,所述任务注意力模块包括池化层和卷积层,所述初级预测模块包括卷积层、批规范化层、激活层和卷积层;
所述第j个任务的初级预测结通过以下方式生成:
将所述将第j个任务之外的M-1任务对应的主干特征堆叠并输入所述第一融合层得到第一融合特征;
将所述第j个任务的主干特征输入任务注意力模块得到空间维度为1×1的通道维注意力;
将所述通道维注意力与所述第一融合特征相乘,并与所述第j个任务的主干特征堆叠得到第二融合特征;
将所述第二融合特征输入所述初级预测模块输出所述第j个任务的初级预测结果。
14.根据权利要求12所述的方法,其特征在于,所述神经网络中包括二级预测模块,所述二级预测模块包括卷积层、批规范化层、激活层和卷积层;
所述第j个任务的二级预测结果为将所述第j个任务对应的融合预测结果输入所述二级预测模块得到的结果。
15.一种可读介质,其特征在于,所述可读介质上存储有指令,所述指令在电子设备上执行时使所述电子设备执行权利要求1至14中任一项所述的多任务处理方法。
16.一种电子设备,其特征在于,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及处理器,是所述电子设备的处理器之一,用于执行权利要求1至14中任一项所述的多任务处理方法。
CN202211057231.7A 2022-08-31 2022-08-31 多任务处理方法、介质及电子设备 Pending CN115565047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211057231.7A CN115565047A (zh) 2022-08-31 2022-08-31 多任务处理方法、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211057231.7A CN115565047A (zh) 2022-08-31 2022-08-31 多任务处理方法、介质及电子设备

Publications (1)

Publication Number Publication Date
CN115565047A true CN115565047A (zh) 2023-01-03

Family

ID=84739506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211057231.7A Pending CN115565047A (zh) 2022-08-31 2022-08-31 多任务处理方法、介质及电子设备

Country Status (1)

Country Link
CN (1) CN115565047A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434028A (zh) * 2023-06-15 2023-07-14 上海蜜度信息技术有限公司 图像处理方法、系统、模型训练方法、介质及设备
CN117115641A (zh) * 2023-07-20 2023-11-24 中国科学院空天信息创新研究院 建筑物信息提取方法、装置、电子设备及存储介质
CN118070235A (zh) * 2024-04-22 2024-05-24 腾讯科技(深圳)有限公司 多任务目标模型的训练方法、装置、设备、介质及产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434028A (zh) * 2023-06-15 2023-07-14 上海蜜度信息技术有限公司 图像处理方法、系统、模型训练方法、介质及设备
CN117115641A (zh) * 2023-07-20 2023-11-24 中国科学院空天信息创新研究院 建筑物信息提取方法、装置、电子设备及存储介质
CN117115641B (zh) * 2023-07-20 2024-03-22 中国科学院空天信息创新研究院 建筑物信息提取方法、装置、电子设备及存储介质
CN118070235A (zh) * 2024-04-22 2024-05-24 腾讯科技(深圳)有限公司 多任务目标模型的训练方法、装置、设备、介质及产品

Similar Documents

Publication Publication Date Title
CN115565047A (zh) 多任务处理方法、介质及电子设备
CN111476309B (zh) 图像处理方法、模型训练方法、装置、设备及可读介质
CN112200062B (zh) 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN110443366B (zh) 神经网络的优化方法及装置、目标检测方法及装置
EP4137991A1 (en) Pedestrian re-identification method and device
CN111797266B (zh) 图像处理方法和装置、存储介质和电子设备
CN111709993B (zh) 物体的位姿信息确定方法、装置、终端及存储介质
CN116630354B (zh) 一种视频抠图方法、电子设备、存储介质及程序产品
CN114049491A (zh) 指纹分割模型训练、指纹分割方法、装置、设备及介质
CN111798019B (zh) 意图预测方法、装置、存储介质及电子设备
CN115358937B (zh) 图像去反光方法、介质及电子设备
CN114943976B (zh) 模型生成的方法、装置、电子设备和存储介质
CN115830362A (zh) 图像处理方法、装置、设备、介质及产品
CN116343266A (zh) 图像人物识别方法及其装置、设备、介质、产品
CN110097570A (zh) 一种图像处理方法和装置
CN115661941A (zh) 手势识别方法和电子设备
CN114170233A (zh) 图像分割标签的生成方法、装置、电子设备及存储介质
CN115731604A (zh) 模型训练方法、手势识别方法、装置、设备和存储介质
CN116205806B (zh) 一种图像增强方法及电子设备
CN111353536A (zh) 图像的标注方法、装置、可读介质和电子设备
WO2024067293A1 (zh) 一种服务卡片推荐的方法和电子设备
CN115393237B (zh) 图像去反光方法、介质及电子设备
CN114429420B (zh) 图像的生成方法、装置、可读介质和电子设备
CN113393493B (zh) 目标对象的跟踪方法及装置
WO2024082914A1 (zh) 视频问答方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination