CN113128345A - 多任务属性识别方法及设备、计算机可读存储介质 - Google Patents
多任务属性识别方法及设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN113128345A CN113128345A CN202110302522.7A CN202110302522A CN113128345A CN 113128345 A CN113128345 A CN 113128345A CN 202110302522 A CN202110302522 A CN 202110302522A CN 113128345 A CN113128345 A CN 113128345A
- Authority
- CN
- China
- Prior art keywords
- convolution
- task
- network
- image
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种多任务属性识别方法及设备、计算机可读存储介质。所述方法包括:获取待分类图像;通过主干网络对所述待分类图像进行分组卷积处理,以提取具有多层次特性的公共特征;通过分支网络将所述公共特征匹配到对应的任务类型;其中,所述分支网络的数量为一个以上;所述分支网络对所述公共特征执行所述分组卷积处理,以得到分支特征;通过任务网络对所述分支特征进行处理,识别任务所需要的属性特征;所述任务网络的数量为一个以上。上述多任务属性识别方法及设备、计算机可读存储介质解决了多任务模型中复杂的网络不便获得不同尺度和不同丰富程度的特征的问题。
Description
技术领域
本申请涉及卷积计算技术领域,特别是涉及一种多任务属性识别方法及设备、计算机可读存储介质。
背景技术
在深度学习应用领域,量化模型性能有多种指标。这些指标包括精度、模型大小和前向推理速度等。可用的算法模型不仅需要满足精度需求,还要能适用于现有的计算平台,且要有较快的反应时间。这就要求模型小而精。
在进行目标识别时,对于同一目标物往往有不同的任务需求,而每个任务训练一个模型无疑是耗时的,且在实际应用时多个模型都需要前向推理,严重影响系统的反应速度。为了提高效率,研究者提出了多任务模型,即将针对同一目标物的多种任务集成到同一个模型中,不同任务分支共享一个网络主干,每个任务分支再针对不同需求设计分支内容。
这种不同任务分支共享一个网络主干的模型中,随着任务数量的增加,对主干网络的性能要求越来越大。例如,在非机动车属性识别应用中,需要识别的非机动车属性包括类别、是否安装遮阳伞、是否载人、行驶方向、后视镜数目、是否安装储物筐、储物箱、颜色等。为了精简模型适用于实际场景,多种属性识别被集成到一个模型中形成一个较大的多任务模型。
但由于多任务模型对主干网络要求较高,为确保精度,主干网络通常采用残差网络,例如ResNet34或者ResNet50,甚至ResNet152,复杂的网络不便获得不同尺度和不同丰富程度的特征。
发明内容
基于此,有必要针对多任务模型中复杂的网络不便获得不同尺度和不同丰富程度的特征的问题,提供一种多任务属性识别方法及设备、计算机可读存储介质。
为了实现本申请的目的,本申请采用如下技术方案:
一种多任务属性识别方法,包括:
获取待分类图像;
通过主干网络对所述待分类图像进行分组卷积处理,以提取具有多层次特性的公共特征;
通过分支网络将所述公共特征匹配到对应的任务类型;其中,所述分支网络的数量为一个以上;所述分支网络对所述公共特征执行所述分组卷积处理,以得到分支特征;
通过任务网络对所述分支特征进行处理,识别任务所需要的属性特征;所述任务网络的数量为一个以上。
一种多任务属性识别设备,包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的多任务属性识别程序,所述多任务属性识别程序被所述处理器执行时实现如上所述的多任务属性识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有多任务属性识别程序,所述多任务属性识别程序被处理器执行时实现如上所述的多任务属性识别方法的步骤。
上述多任务属性识别方法及设备、计算机可读存储介质,通过在主干网络采用分组卷积处理的方式,能够得到具有多层次特性的公共特征,既有助于获取目标物的全局特征,又有助于获取目标物的局部特征。过在分支网络采用分组卷积处理并匹配任务类型的方式,可以将多任务所需属性特征按任务类型分类输出,以得到更加适用于相应任务类型的分支特征。因此解决了多任务模型中复杂的网络不便获得不同尺度和不同丰富程度的特征的问题。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的分组卷积设备结构示意图;
图2a为卷积计算原理图;
图2b为多通道卷积计算原理图;
图3a为一实施例的多任务属性识别方法流程图;
图3b为用于执行图3a所述方法的处理网络示意图;
图4a为一实施例的分组卷积方法流程图;
图4b为用于卷积计算的输入图像的数据组成形式示意图;
图4c为卷积处理不降维情况下的分组卷积过程示意图;
图5为卷积处理降维情况下的分组卷积过程示意图;
图6为一实施例的残差块示意图;
图7为一实施例的残差网络示意图;
图8为一实施例的集成多任务的残差网络示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
图1是本申请实施例方案涉及的硬件运行环境的多任务属性识别设备100结构示意图。
本申请实施例的分组卷积设备,可以是例如服务器、个人计算机,智能手机、平板电脑、便携计算机等。只要其具备一定的通用数据处理能力即可。
如图1所示,所述多任务属性识别设备100包括:存储器104、处理器102及网络接口106。
处理器102在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器104中存储的程序代码或处理数据,例如执行多任务属性识别程序等。
存储器104至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器104在一些实施例中可以是多任务属性识别设备100的内部存储单元,例如该多任务属性识别设备100的硬盘。存储器104在另一些实施例中也可以是多任务属性识别设备100的外部存储设备,例如该多任务属性识别设备100上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器104还可以包括多任务属性识别设备100的内部存储单元。存储器104不仅可以用于存储安装于多任务属性识别设备100的应用软件及各类数据,例如人脸识别模型训练的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
网络接口106可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该多任务属性识别设备100与其他电子设备之间建立通信连接。
网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个:传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(Blue Tooth)通信协议或其组合。
图1仅示出了具有组件102-106的多任务属性识别设备100,本领域技术人员可以理解的是,图1示出的结构并不构成对多任务属性识别设备100的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在机器学习领域,尤其是卷积神经网络领域,常涉及卷积运算。参考图2a,卷积运算是使用卷积核202对输入图像204进行滑窗逐个计算,以提取输入图像中的特征得到输出图像206。图2a中,输入图像204的尺寸为8×8,卷积核202的尺寸为2×2。为了计算得到输出图像206的第一个值,将卷积核202与输入图像204左上的4个像素做卷积运算,即把每个像素的值与卷积核202对应位置的值相乘然后把得到的4个乘积相加,2×0+5×1+7×1+4×0=12,得到输出图像206左上角的第一个像素的值。为了得到输出图像206第一行第二列的像素的值,将卷积核202与输入图像204对应的位置向右移动一格,然后按照上述相同的方式计算。在卷积核202对应区域按照步长为1逐步向右移动并计算,就可以得到输出图像206上第一行的所有值。可以理解,当卷积核202对应区域移动至右上角4个像素时,计算得到输入图像204第一行最后一列的值。按照同样的方式,卷积核202对应区域下移一行,即可计算得到输出图像206上第二行的所有值。可知当输入图像204为8×8而卷积核202为2×2时,输出图像206为7×7。当设置不同的卷积核202尺寸或滑动步长时,输出图像206的尺寸也会发生变化。此外输出图像206还可以进行池化处理,进一步压缩。如果要保持输出图像206的尺寸不变,可以在输入图像204的外围填充(padding)值为0的像素。
对于输入图像204而言,通常是多通道的,例如原始图像一般为RGB三通道,中间的特征图像则可以根据情况设置不同的通道数量。上述的卷积过程针对的是一个通道的卷积运算,每个通道的卷积运算方法相同。对于每个通道,卷积核可以相同也可以不同。
如图2b所示,多通道(通道数量为C)的输入图像208与一组卷积核(即与通道数量相同的卷积核,一起组成一个过滤器210)运算的结果为一个通道的输出图像,多个过滤器(数量为Cout)则输出多通道的输出图像212,输出图像212中每个通道图像的尺寸为H’×W’。输出图像212的尺寸根据卷积核的大小、滑动步长、是否池化以及池化方式等均会不同。
为解决多任务模型中复杂的网络不便获得不同尺度和不同丰富程度的特征的问题,本申请提出一种多任务属性识别方法。如图3a所示,为一实施例的多任务属性识别方法,所述方法采用如图3b所示的处理网络300进行处理,可以包括以下步骤:
步骤S302:获取待分类图像。
所述待分类图像是本申请的多任务属性识别方法的输入。待分类图像可以来自于道路监控探头等设备。待分类图像中包含多任务属性识别方法针对的目标对象,例如非机动车辆(包括电动摩托车等)。该非机动车辆具有多种需要被识别的属性特征,例如类别、是否安装遮阳伞、是否载人、行驶方向、后视镜数目、是否安装储物筐、储物箱以及颜色等。本申请的多任务属性识别方法即用于将多种需要被识别的属性特征识别出来。
步骤S304:通过主干网络对所述待分类图像进行分组卷积处理,以提取具有多层次特性的公共特征。
参考图3b,处理网络300包括主干网络302。主干网络302用于提取各个识别任务都需要的公共特征。由于各个识别任务要识别的属性特征具有不同的特征层次,因此需要在得到公共特征的阶段获得具有多层次特性的公共特征。本申请中,采用分组卷积处理的方式提取具有多层次特性的公共特征。其中,特征的层次是指特征能够被分辨的尺度,大尺寸的特征,例如非机动车的类别、是否安装遮阳伞等,层次较低,用较少的卷积次数即可获得较好的识别效果。而小尺寸的特征,例如非机动车的后视镜、储物筐等,层次较高,需要用较多的卷积次数获得较好的识别效果。本申请利用分组卷积处理的方式,可以同时获得具有多层次特性的公共特征,将该公共特征提供给各识别任务,能够满足各类识别任务的要求。
步骤S306:通过分支网络将所述公共特征匹配到对应的任务类型。其中,所述分支网络的数量为一个以上;所述分支网络对所述公共特征执行所述分组卷积处理,以得到分支特征。
参考图3b,处理网络300还包括分支网络304。分支网络304用于将所述公共特征匹配到对应的任务类型。当分支网络304的数量为两个以上时,每个分支网络304可以专注于将公共特征进行适用于一类识别任务的处理,即每个分支网络304对应一种任务类型,输出分支特征给同一任务类型中不同的识别任务。例如,不同的分支网络304可以是第一分支网络和第二分支网络,本申请实施例的方法通过第一分支网络匹配属性特征尺寸小于预设大小的任务类型;通过第二分支网络匹配属性特征尺寸大于预设大小的任务类型。对于非机动车辆的识别而言,需要识别的特征可以包括类别、是否安装遮阳伞、是否载人、行驶方向、后视镜数目、是否安装储物筐、储物箱以及颜色等属性。从特征角度来看,后视镜数目、储物筐、储物箱、颜色等更关心非机动车目标局部小区域特征值,而其他属性更关注大区域的特征值。因此,本实施例中,基于这一性质将非机动车的属性划分为两类。在非机动车辆的属性识别应用中,第一分支网络可以用来对前述的公共特征进行分组卷积处理后,得到适用于识别后视镜数目、储物筐、储物箱、颜色等的分支特征;第二分支网络则可以用来对前述的公共特征进行分组卷积处理后,得到适用于识别类别、是否安装遮阳伞、是否载人、行驶方向等的分支特征。
步骤S308:通过任务网络对所述分支特征进行处理,识别任务所需要的属性特征。所述任务网络的数量为一个以上。
参考图3b,处理网络300还包括任务网络306。任务网络306对所述分支特征进行处理,识别任务所需要的属性特征。在步骤S306执行完成得到分支特征的基础上,利用任务网络306对分支特征进行处理,从而完成各个识别任务。其中,每个识别任务都对应一个任务网络306。例如可以设置识别类别的任务网络、识别是否安装遮阳伞的任务网络。如果步骤S306的分支网络304有多个,即根据任务类型分别输出了多种分支特征,则任务网络306也应根据识别任务选取分支特征进行处理。例如识别类别的任务网络、识别是否安装遮阳伞的任务网络应以第二分支网络输出的分支特征作为输入;识别后视镜数目的任务网络、识别储物筐的任务网络则应以第一分支网络输出的分支特征作为输入。
上述多任务属性识别方法,通过在主干网络采用分组卷积处理的方式,能够得到具有多层次特性的公共特征,既有助于获取目标物的全局特征,又有助于获取目标物的局部特征。过在分支网络采用分组卷积处理并匹配任务类型的方式,可以将多任务所需属性特征按任务类型分类输出,以得到更加适用于相应任务类型的分支特征。因此解决了多任务模型中复杂的网络不便获得不同尺度和不同丰富程度的特征的问题。
对于步骤S304和步骤S306中涉及的分组卷积处理,如图4a所示,可以包括如下步骤:
步骤S402:将输入图像从通道维度进行分组,并确定每个图像分组的卷积顺序。
结合图4b,输入图像的维度包括N、C、H、W。其中N表示批处理(batch)的数量,即训练过程中一次输入多少数据进行训练;C表示通道数量,例如初始输入图像一般为RGB三通道;H表示输入图像的高度,以像素数量表示;W表示输入图像的宽度,以像素数量表示。
结合图4c,从通道维度进行分组,即保持N、H、W三个维度不变,将通道按照数量进行分配。图4c中,输入图像的通道数量为4C,平均分成了4个图像分组,每个图像分组的通道数量为C。即输入图像的像素数量为N×4C×H×W,每个图像分组的像素数量为N×C×H×W。
各通道分组的方式不限,可以是将连续的通道分在一起,也可以是将不连续的通道分在一起。例如,若通道数量为16,编号分别为0~15,则可以将0~3、4~7、8~11、12~15编号的通道分别分在4个不同的图像分组中。也可以按照{0、4、8、12}、{1、5、9、13}、{2、6、10、14}、{3、7、11、15}分成4组。以上仅为举例,分组的方式不限于上述。
分组的数量也可以根据实际情况确定,例如可以分成2组、4组、6组、8组等。一般地,为便于处理,采用平均分配的方式。在有需要的情况下,也可以采用非平均分配的方式。
确定每个图像分组的卷积顺序是指按照什么顺序先后依次处理各个图像分组。该顺序也不做限制。只需要有一个明确的顺序即可。例如可以将0~3、4~7、8~11、12~15编号的通道分别作为第一个、第二个、第三个和第四个图像分组依次进行卷积处理。
步骤S404:对于按卷积顺序排列的第一个图像分组,直接进行卷积处理。
卷积处理(convolution,简写为conv)即图2b中所示的多通道的图像卷积处理,图4c中的K即图2b中的Cout。图2b中的卷积核没有在图4c中体现,图4c的卷积核的大小可以有不同的选择,例如可以是1×1、2×2、3×3等,但通道数与图像分组的通道数保持一致。另外,图4c所示的卷积处理保持了每个通道图像的尺寸不变,即卷积结果中每个通道图像的尺寸还是H×W。
第一个图像分组直接进行卷积处理后,其像素数量为N×K×H×W。
步骤S406:对于第一个图像分组之后的任一图像分组,合并上一图像分组的卷积结果后,再进行卷积处理。
对于图4c所示的4个分组的情况,第一个图像分组之后的任一图像分组,即第二个图像分组、第三个图像分组或第四个图像分组。而任一图像分组的上一图像分组,对于第二个图像分组而言是第一个图像分组、对于第三个图像分组而言是第二个图像分组、对于第四个图像分组而言是第三个图像分组。
所述合并上一图像分组的卷积结果,结合图4c,对于第二个图像分组而言,是将像素数量为N×C×H×W的第二个图像分组与第一个图像分组的卷积结果(其像素数量为N×K×H×W)进行合并,得到像素数量为N×(K+C)×H×W的合并结果。针对该合并结果,再进行K个卷积核的卷积得到像素数量为N×K×H×W的卷积结果,即得到对第二个图像分组的卷积结果。
对于第三个图像分组、第四个图像分组,执行与第二个图像分组相同的卷积处理方式,不再赘述。
可以理解,对于不同于图4c所示的分组数量或分组方式,其卷积处理方式也是一样的。
步骤S408:将所有图像分组的卷积结果合并得到最终卷积结果。
仍以图4c所示的卷积处理过程为例,第一个图像分组、第二个图像分组、第三个图像分组、第四个图像分组分别都输出了像素数量为N×K×H×W的卷积结果,将这4个卷积结果进行合并,即得到像素数量为N×4K×H×W的最终卷积结果。
一般地,该合并的方式是按照卷积的顺序依次堆叠即可。但也并不限于该方式,也可以是倒序堆叠,相互穿插等。
上述分组卷积方法,通过将输入图像首先从通道维度进行分组,再按照顺序依次进行卷积,并且顺序上相邻的两个图像分组,下一个图像分组合并了上一个图像分组的卷积结果后再进行卷积处理,相当于后一次卷积处理对上一个图像分组又再进行了卷积处理,提取的特征尺度更进一步。如此持续进行,使得不同的图像分组的卷积结果所获取的特征尺度不一样,所以合并得到的最终卷积结果中包含了多尺度特征,既有助于获取目标物的全局特征,又有助于获取目标物的局部特征,将该分组卷积方法应用于卷积网络中,可以解决多任务模型中复杂的网络不便获得不同尺度和不同丰富程度的特征的问题。
另外,假设输入图像的像素数量为N×C×H×W,卷积核数目为D,卷积核大小为K,则标准卷积所需参数为(本申请中所有卷积参数计算均忽略偏差biases参数):
Numbernormal=D×D×K×K (1)
上述实施例中,假设分组数量为s、每组卷积核数目相对标准卷积对应的卷积核数目的比例α,可知所需参数为:
一般地,为保证输出特征图的数量与标准卷积输出特征图的数量一致,比例α=1/s。
因此:
请参考下表1,当分组数量s不同时,本申请卷积所需要的参数数量相对于标准卷积所需要的参数数量的比例也会不同:
序号 | 分组数目s | 卷积核比例α | 标准3×3卷积 | 本申请卷积 |
1 | 2 | 0.5 | 1 | 0.75 |
2 | 4 | 0.25 | 1 | 0.4375 |
3 | 8 | 0.125 | 1 | 0.234375 |
4 | 16 | 0.0625 | 1 | 0.12109375 |
表1
可见,在其他条件不变的情况下,随着分组数目增加,所需参数越来越少。在实际应用时为确保提取特征的有效性,分组不宜过大。在不考虑输出特征图数目时,分组数目s和卷积核比例α可根据需要适当调整,以使模型更精简或特征更丰富,参数量可根据公式(2)适当把控。
在图4c所示的实施例中,在进行卷积处理时,保持图像尺寸不变,即经过卷积处理后,图像的尺寸为H×W,与输入图像保持一致。在另一实施例中,可以在卷积处理时进行降维,即卷积结果中每个通道图像的尺寸发生变化。
请参考图5,第一个图像分组直接进行卷积处理后,卷积结果的像素数量为N×K×H1×W1。其中H1、W1与H、W不同,即卷积结果中每个通道图像的尺寸发生变化。将该卷积结果进行上采样(UpSampling)后,使得输出图像的通道图像的尺寸与输入图像中的通道图像尺寸相同,将上采样后的结果与第二个图像分组合并后得到像素数量为N×(K+C)×H×W的合并结果。针对该合并结果,再进行K个卷积核的卷积得到像素数量为N×K×H1×W1的卷积结果,即得到对第二个图像分组的卷积结果。
对于第三个图像分组、第四个图像分组,执行与第二个图像分组相同的卷积处理方式,不再赘述。最后将每个图像分组的卷积处理结果进行合并,得到像素数量为N×4K×H1×W1的最终卷积结果。
降维卷积时,一般是将卷积核的移动步长(stride)设置为大于1,例如stride(2,2)即横向和纵向移动步长均为2。结合图2a所示的卷积原理,可以知道,当移动步长大于1时,滑动的步数将减少,从而计算所得的像素数也会减少,使得卷积结果中的通道图像的尺寸减小。
上述两个实施例的分组卷积方法(图4c和图5所示)可以分别应用于卷积不降维和降维的情况,更具体地,分别适用于移动步长分别为1和大于1的情况。
需要说明的是,对于降维卷积而言,顺序上相邻的两个图像分组,下一个图像分组合并了上一个图像分组的卷积结果后再进行卷积处理,这一过程没有改变,因此不同的图像分组的卷积结果所获取的特征尺度不一样,所以合并得到的最终卷积结果中包含了多尺度特征,既有助于获取目标物的全局特征,又有助于获取目标物的局部特征。
基于上述分组卷积方法,提供一种分组卷积模块,其实现上述实施例的分组卷积方法。可以理解,分组卷积模块可以是软件模块,即程序。分组卷积模块也可以是硬件模块,即采用专用硬件实现该分组卷积方法。
为方便后续的说明,对于卷积不降维的情况,将分组卷积模块称为SC_Conv1,对于卷积降维的情况,将分组卷积模块称为SC_Conv2。
基于上述分组卷积模块,提供一种残差块。如图6所示,一实施例的残差块包括依次连接的1×1卷积模块、3×3卷积模块、1×1卷积模块。其中1×1卷积模块是指卷积核大小为1×1的卷积处理模块。同样的,3×3卷积模块是指卷积核大小为3×3的卷积处理模块。输入(Input)和输出(Output)之间连接起来(Short Cut),如果输入为x,中间的卷积过程得到F(x),则输出为F(x)+x。该输出可以作为下一个残差块(或卷积层)的输入。其中,若F(x)和x的维度不同,还需要加入1×1卷积对x进行维度变换,从而使x与F(x)维度相同,两者才可以相加。上述卷积处理过程中还可以涉及批处理(Batch Norm,BN)、激活(例如ReLU函数激活)等,在此不赘述。
本申请中,将传统的标准3×3卷积模块替换为分组卷积模块(SC_Conv1或SC_Conv2)。当原来的标准3×3卷积模块的移动步长为Stride(2,2)时,表示横向和纵向移动步长均为2,此时需要使用SC_Conv2 3×3替换原来的标准3×3卷积模块。当原来的标准3×3卷积模块的移动步长为Stride(1,1)时,表示横向和纵向移动步长均为1,此时需要使用SC_Conv1 3×3替换原来的标准3×3卷积模块。
上述残差块因使用SC_Conv1或SC_Conv2替换传统的标准卷积模块(主要是3×3卷积模块),故将其用于卷积网络时,同样可以使卷积网络具有获取不同尺度和不同丰富程度的特征的能力,且计算所需要的参数相比传统的残差块所需要的参数更少。
可以理解,上述分组卷积方法和分组卷积模块不限于使用在残差块中,还可以用于其他卷积网络,例如非残差网络。上述残差块的结构也不限于图6所示的结构,还可以是其他合适的结构,例如各卷积模块的数量及采用的卷积核的尺寸均可进行调整。
基于上述残差块,提供一种残差网络。如图7所示,所述残差网络以ResNet50为例进行说明。
ResNet50包括依次连接的初始卷积层(Conv)、池化层(Pooling)、第一阶段(Stage1)、第二阶段(Stage2)、第三阶段(Stage3)和第四阶段(Stage4)。其中,第一阶段(Stage1)包括3个残差块(Res_unit×3)、第二阶段(Stage2)包括4个残差块(Res_unit×4)、第三阶段(Stage3)包括6个残差块(Res_unit×6)、第四阶段(Stage4)包括3个残差块(Res_unit×3)。
其中,每个阶段都具有一定数量的残差块,各个残差块在卷积计算时,第一阶段(Stage1)所有残差块卷积操作中,移动步长stride均为(1,1),即第一阶段(Stage1)输入输出特征图尺度未变化。第二阶段(Stage2)、第三阶段(Stage3)和第四阶段(Stage4)中,各个残差块可能会有不同的移动步长设置,例如stride(2,2)或stride(1,1)。对于stride(1,1)的残差块,采用经SC_Conv1替换的残差块。对于stride(2,2)的残差块,采用经SC_Conv2替换的残差块。
假设分组卷积模块的分组数量为4,在其他参数不变的情况下,ResNet50在替换3×3卷积模块前后的数据对比如下表2。
表2
参数量差值计算方式为:
参数量差值=SC_Conv ResNet50参数量-标准ResNet50参数量
标准ResNet50网络使用SC_Conv模块替换后,整体省去6365952个参数。
在一个实施例中,所述处理网络300为残差网络。将所述残差网络用于对非机动车辆进行识别。该残差网络中包括多个残差块。如图8所示,在图7的基础上,将第四阶段(Stage4)进行划分。对于非机动车辆的识别而言,需要识别的特征可以包括类别、是否安装遮阳伞、是否载人、行驶方向、后视镜数目、是否安装储物筐、储物箱以及颜色等属性。从特征角度来看,后视镜数目、储物筐、储物箱、颜色等更关心非机动车目标局部小区域特征值,而其他属性更关注大区域的特征值。因此,本实施例中,基于这一性质将非机动车的属性划分为两组。
其中一组属性包括类别、遮阳伞、是否载人、行驶方向,对这些特征进行属性识别时,其基于Stage1至Stage3这一主干网络、再到Stage4A这一分支网络。另外一组属性包括后视镜数目、储物筐、储物箱、颜色,对这些特征进行属性识别时,其基于Stage1至Stage3这一主干网络、再到Stage4B这一分支网络。即两组属性识别的任务分别在不同的主干分支上进行细分。本实施例中,与传统的残差网络中在最后一个阶段Stage4后直接添加多任务网络相比,提前将Stage4进行划分,然后根据属性属于的不同尺度特征进行分类,将识别不同属性的任务连接在划分后的不同阶段后,可以更好地实现识别目标。
如图8所示,Stage1的分组数s=8,后续Stage中分组数s均为4。该分组数的设置可以抽取较多特征,也能从一定程度上减少卷积参数的数量。
可以理解,上述残差网络还可以应用于其他需要进行多任务的识别过程中。在其他应用中,各个阶段中的分组数s这一参数可以有不同的设置。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有上述多任务属性识别程序,所述多任务属性识别程序被处理器执行时实现如上所述的分组卷积方法的步骤。
本申请计算机可读存储介质具体实施方式与上述分组卷积方法各实施例基本相同,在此不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种多任务属性识别方法,其特征在于,包括:
获取待分类图像;
通过主干网络对所述待分类图像进行分组卷积处理,以提取具有多层次特性的公共特征;
通过分支网络将所述公共特征匹配到对应的任务类型;其中,所述分支网络的数量为一个以上;所述分支网络对所述公共特征执行所述分组卷积处理,以得到分支特征;
通过任务网络对所述分支特征进行处理,识别任务所需要的属性特征;所述任务网络的数量为一个以上。
2.根据权利要求1所述的多任务属性识别方法,其特征在于,所述分组卷积处理包括:
将输入图像从通道维度进行分组得到多个图像分组,并确定每个图像分组的卷积顺序;
对于按卷积顺序排列的第一个图像分组,直接进行卷积处理;
对于除第一个图像分组之外的任一图像分组,合并上一图像分组的卷积结果后,再进行卷积处理;
将所有图像分组的卷积结果合并得到最终卷积结果。
3.根据权利要求1所述的多任务属性识别方法,其特征在于,所述分组卷积处理在进行卷积时降维;
所述合并上一图像分组的卷积结果,包括:
对上一图像分组的卷积结果进行上采样;
将进行上采样后的卷积结果与当前图像分组合并。
4.根据权利要求3所述的多任务属性识别方法,其特征在于,所述在进行卷积时降维,包括:
将卷积核的移动步长设置为大于1。
5.根据权利要求2所述的多任务属性识别方法,其特征在于,在进行卷积时保持图像尺寸不变。
6.根据权利要求2所述的多任务属性识别方法,其特征在于,所述将输入图像从通道维度进行分组为:
将输入图像从通道维度进行平均分组。
7.根据权利要求1所述的多任务属性识别方法,其特征在于,所述通过分支网络将所述公共特征匹配到对应的任务类型,包括:
通过第一分支网络匹配属性特征尺寸小于预设大小的任务类型;
通过第二分支网络匹配属性特征尺寸大于预设大小的任务类型。
8.根据权利要求7所述的多任务属性识别方法,其特征在于,所述通过任务网络对所述分支特征进行处理,识别任务所需要的属性特征,包括:
通过连接至所述第一分支网络的任务网络实现尺寸小于预设大小的特征识别任务;
通过连接至所述第二分支网络的任务网络实现尺寸大于预设大小的特征识别任务。
9.一种多任务属性识别设备,其特征在于,包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的多任务属性识别程序,所述多任务属性识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的多任务属性识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多任务属性识别程序,所述多任务属性识别程序被处理器执行时实现如权利要求1至8中任一项所述的多任务属性识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302522.7A CN113128345A (zh) | 2021-03-22 | 2021-03-22 | 多任务属性识别方法及设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302522.7A CN113128345A (zh) | 2021-03-22 | 2021-03-22 | 多任务属性识别方法及设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128345A true CN113128345A (zh) | 2021-07-16 |
Family
ID=76773709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110302522.7A Pending CN113128345A (zh) | 2021-03-22 | 2021-03-22 | 多任务属性识别方法及设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128345A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764336A (zh) * | 2018-05-28 | 2018-11-06 | 北京陌上花科技有限公司 | 用于图像识别的深度学习方法及装置、客户端、服务器 |
CN110647893A (zh) * | 2019-09-20 | 2020-01-03 | 北京地平线机器人技术研发有限公司 | 目标对象识别方法、装置、存储介质和设备 |
CN111222500A (zh) * | 2020-04-24 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 一种标签提取方法及装置 |
WO2020114118A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳光启空间技术有限公司 | 面部属性识别方法、装置、存储介质及处理器 |
CN111325108A (zh) * | 2020-01-22 | 2020-06-23 | 中能国际建筑投资集团有限公司 | 一种多任务网络模型及使用方法、装置、和存储介质 |
US20200234447A1 (en) * | 2019-01-22 | 2020-07-23 | Kabushiki Kaisha Toshiba | Computer vision system and method |
US20200233803A1 (en) * | 2020-03-26 | 2020-07-23 | Intel Corporation | Efficient hardware architecture for accelerating grouped convolutions |
CN111539452A (zh) * | 2020-03-26 | 2020-08-14 | 深圳云天励飞技术有限公司 | 多任务属性的图像识别方法、装置、电子设备及存储介质 |
CN111597870A (zh) * | 2020-03-26 | 2020-08-28 | 中国电子科技集团公司第五十二研究所 | 一种基于注意力机制与多任务学习的人体属性识别方法 |
CN111709377A (zh) * | 2020-06-18 | 2020-09-25 | 苏州科达科技股份有限公司 | 特征提取方法、目标重识别方法、装置及电子设备 |
CN112163572A (zh) * | 2020-10-30 | 2021-01-01 | 国网北京市电力公司 | 识别对象的方法和装置 |
-
2021
- 2021-03-22 CN CN202110302522.7A patent/CN113128345A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764336A (zh) * | 2018-05-28 | 2018-11-06 | 北京陌上花科技有限公司 | 用于图像识别的深度学习方法及装置、客户端、服务器 |
WO2020114118A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳光启空间技术有限公司 | 面部属性识别方法、装置、存储介质及处理器 |
US20200234447A1 (en) * | 2019-01-22 | 2020-07-23 | Kabushiki Kaisha Toshiba | Computer vision system and method |
CN110647893A (zh) * | 2019-09-20 | 2020-01-03 | 北京地平线机器人技术研发有限公司 | 目标对象识别方法、装置、存储介质和设备 |
CN111325108A (zh) * | 2020-01-22 | 2020-06-23 | 中能国际建筑投资集团有限公司 | 一种多任务网络模型及使用方法、装置、和存储介质 |
US20200233803A1 (en) * | 2020-03-26 | 2020-07-23 | Intel Corporation | Efficient hardware architecture for accelerating grouped convolutions |
CN111539452A (zh) * | 2020-03-26 | 2020-08-14 | 深圳云天励飞技术有限公司 | 多任务属性的图像识别方法、装置、电子设备及存储介质 |
CN111597870A (zh) * | 2020-03-26 | 2020-08-28 | 中国电子科技集团公司第五十二研究所 | 一种基于注意力机制与多任务学习的人体属性识别方法 |
CN111222500A (zh) * | 2020-04-24 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 一种标签提取方法及装置 |
CN111709377A (zh) * | 2020-06-18 | 2020-09-25 | 苏州科达科技股份有限公司 | 特征提取方法、目标重识别方法、装置及电子设备 |
CN112163572A (zh) * | 2020-10-30 | 2021-01-01 | 国网北京市电力公司 | 识别对象的方法和装置 |
Non-Patent Citations (1)
Title |
---|
严芳芳;吴秦;: "多通道融合分组卷积神经网络的人群计数算法", 小型微型计算机系统, no. 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11586903B2 (en) | Method and system of controlling computing operations based on early-stop in deep neural network | |
CN110674829B (zh) | 一种基于图卷积注意网络的三维目标检测方法 | |
CN107341127B (zh) | 基于OpenCL标准的卷积神经网络加速方法 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN110738324B (zh) | 深度学习系统和用于深度学习系统的处理数据的方法 | |
CN105868797B (zh) | 识别景物类型的网络参数训练方法、景物类型识别方法及装置 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
DE112020003128T5 (de) | Dilatierte faltung mit systolischem array | |
CN110378305A (zh) | 茶叶病害识别方法、设备、存储介质及装置 | |
CN111767947B (zh) | 目标检测模型、应用方法及相关装置 | |
CN116188808B (zh) | 图像特征提取方法和系统、存储介质及电子设备 | |
CN112926595B (zh) | 深度学习神经网络模型的训练装置、目标检测系统及方法 | |
CN107808394A (zh) | 一种基于卷积神经网络的图像处理方法及移动终端 | |
CN110321892A (zh) | 一种图片筛选方法、装置及电子设备 | |
CN109977762A (zh) | 一种文本定位方法及装置、文本识别方法及装置 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN114429641A (zh) | 一种时序动作检测方法、装置、存储介质及终端 | |
CN110570497B (zh) | 基于图层叠加的绘画方法、装置、终端设备及存储介质 | |
CN115205535A (zh) | 图像处理方法、计算机可读介质及电子设备 | |
CN113128345A (zh) | 多任务属性识别方法及设备、计算机可读存储介质 | |
WO2024191479A1 (en) | Dynamic uncompression for channel-separable operation in neural network | |
CN113095506A (zh) | 基于端、边及云协同的机器学习方法、系统及介质 | |
CN112613409A (zh) | 手部关键点检测方法、装置、网络设备及存储介质 | |
CN115190226B (zh) | 参数调整的方法、训练神经网络模型的方法及相关装置 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |