CN115546879B - 用于表情识别的细粒度识别模型及方法 - Google Patents
用于表情识别的细粒度识别模型及方法 Download PDFInfo
- Publication number
- CN115546879B CN115546879B CN202211506876.4A CN202211506876A CN115546879B CN 115546879 B CN115546879 B CN 115546879B CN 202211506876 A CN202211506876 A CN 202211506876A CN 115546879 B CN115546879 B CN 115546879B
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention
- feature
- module
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本申请提出了一种用于表情识别的细粒度识别模型及方法,该细粒度识别模型包括多层级的卷积下采样单元,其中第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合,通过对细粒度识别模型的优化设计使得整个细粒度识别模型的计算量减小的同时提高了识别精度。
Description
技术领域
本申请涉及目标检测领域,特别是涉及用于表情识别的细粒度识别模型及方法。
背景技术
人脸表情识别,指的是通过技术手段来客观地分析人脸的表情,以感知人的真实情绪。面部表情是人类表达情感状态和意图的最有力、最自然、最普遍的信号之一,可在诸多应用场景中起到重要的作用,比如人脸表情识别可被应用于矛盾纠纷管理的应用场景中,当检测到人脸出现愤怒或者伤心的表情,相关人员可以及时地进行干预,由于人脸表情识别的重要性,在计算机视觉和机器学习领域,各种各样的面部表情识别系统已经被用来编码来自面部表情的表情信息。
现有技术中有相关人脸表情识别的诸多研究报告,比如Emotion Recognitionvia MBP该论文提出了一种利用卷积神经网络从静态人脸图像中分类表情的新方法,作者通过去除输入图像中的混杂因素来简化问题域,减少有效训练深层 CNN 模型所需的数据量,用有限的情感标记训练数据对每个模型进行微调,得到最终的分类模型;Deep-Emotion在该论文中,作者提出了一种基于注意卷积网络的人脸表情识别方法,它能够集中于脸部的重要部位,并且使用一种可视化技术,该技术能够根据分类器的输出找到重要的面部区域来检测不同的情绪。
但是以上论文研究的人脸表情识别模型的场景仅针对清晰的人脸全脸进行表情识别,而在实际的城市管理应用场景中,矛盾纠纷事件往往具有时效性,目前的表情识别模型在提高识别精度的同时往往需要较大的计算量,进而导致模型无法很好地适配时效性高的矛盾纠纷场景下的表情识别。
发明内容
本申请实施例提供了一种用于表情识别的细粒度识别模型及方法,可对人脸表情进行精准地识别以感知人员的真实情绪。
第一方面,本申请实施例提供了一种细粒度识别模型的构建方法,所述方法包括:依次连接的stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层;其中每一层级的卷积下采样单元均包括依次连接的卷积模块和下采样,且依次序的不同层级的卷积下采样单元内的卷积模块的数量比例为1:1:3:1;其中所述第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合;输入特征依次经历stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层后得到输出特征。
第二方面,本申请实施例提供了一种细粒度识别模型,根据上述构建方法构建得到。
第三方面,本申请实施例提供了一种基于依次连接的stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层进行目标检测,包括以下步骤:获取包含待检测目标的待检测图像;获取包含待检测目标的待检测图像;每一层级的卷积下采样单元均包括依次连接的卷积模块和下采样,且依次序的不同层级的卷积下采样单元内的卷积模块的数量比例为1:1:3:1;其中所述第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合;待检测图像在经过stem模块后得到第一特征,第一特征输入到第一层级卷积下采样单元中输出第二特征,第二特征输入到第二层级卷积下采样单元得到第三特征,第三特征输入到第三层级卷积下采样单元得到第四特征,第四特征输入到第四层级卷积下采样单元得到第五特征,第五特征依次经历全局平均池化层、层归一化、全连接层以及分类层后得到待检测目标。
第四方面,本申请实施例提供了一种用于表情识别的细粒度识别模型,利用标注有分类表情的人脸图像训练细粒度识别模型得到。
第五方面,本申请实施例提供了一种表情识别方法,包括:获取涵盖待检测表情的人脸图像;所述人脸图像输入到所述的用于表情识别的细粒度识别模型进行检测得到分类表情。
第六方面,本申请实施例提供了一种表情识别模型,包括:图像获取单元,用于获取涵盖待检测表情的人脸图像;检测单元,用于将所述人脸图像输入到所述的用于表情识别的细粒度识别模型进行检测得到分类表情图像获取单元,用于获取包含待检测目标的待检测图像。
第七方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以所述的表情识别方法或细粒度目标识别方法。
第八方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据执行所述的表情识别方法或细粒度目标识别方法。
本发明的主要贡献和创新点如下:
本方案提供的细粒度识别模型中的通道注意力卷积模块的通道注意力模块中添加了输入到输出的残差连接网络,解除了随着网络深度叠加带来的性能饱和与梯度问题;将两个全连接层替换为了一个全连接层,解决了信息的损失并减少了计算量;采用恒等映射的方式缓解了卷积网络深度的优化问题,且有效压缩了注意力机制以解决了传统自注意力通道信息的丢失问题;且引入超大卷积核有效的扩大有效感受野,使网络架构倾向于上下文信息,在构建长距离位置关系上缩小了卷积神经网络与transfomer网络之间的差距。
卷积和自注意力混合模块的卷积操作将大卷积核的传统卷积分解为多个单独的1*1卷积,再对1*1卷积进行移位和求和操作;在自注意力操作中,将查询、键和值的投影解释为多个1*1卷积,以权重融合的方式融合卷积操作和自注意力操作,使其同时兼备自注意力和卷积的好处,且相比纯卷积操作和自注意力机制而言具有最小的计算开销。本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定,在附图中:
图1是根据本申请一种实施例的用于表情识别的细粒度识别模型的整体框架示意图。
图2是根据本申请的细粒度识别模型的通道注意力卷积模块的框架示意图;
图3是根据本申请的通道注意力卷积模块的残差块的框架示意图;
图4是根据本申请的细粒度识别模型的通道注意力模块的框架示意图;
图5是根据本申请的细粒度识别模型的卷积和自注意力混合模块的示意图;
图6是根据本申请的细粒度识别模型的卷积和自注意力融合模式的示意图;
图7是根据本申请的细粒度识别模型的下采样的示意图;
图8根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中,方案里面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
如图1所示,第一方面,本申请实施例提供了一种细粒度识别模型的构建方法,包括:
依次连接的stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层,其中每一层级的卷积下采样单元均包括依次连接的卷积模块和下采样,且依次序的不同层级的卷积下采样单元内的卷积模块的数量比例为1:1:3:1;其中所述第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合;
输入特征依次经历stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层后得到输出特征。
如前所述,第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元中的卷积模块的数量的比例为:1:1:3:1。在本方案的一具体实施例中,第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元中的卷积模块的数量分别为:3、3、9、3。
在一些实施例中,所述stem模块用stride=4的4*4卷积来进行stem,使得滑动窗口不再相交,每次只处理一个patch的信息,下采样后使用一个层归一化。
在一些实施例中,如图7所示,本方案的下采样层通过一个层归一化加上一个卷积核大小为2步距为2的二维卷积层构成。
如图1所示,大小为H*W的输入图像作为输入特征首先输入到stem模块中后输入到包含3个卷积模块的第一层级卷积下采样单元中,输出H/4*W/4大小的特征图像;H/4*W/4大小的特征图像输入到包含3个卷积模块的第二层级卷积下采样单元中,输出H/8*W/8大小的特征图像;H/8*W/8大小的特征图像输入到包含9个卷积模块的第三层级卷积下采样单元中,输出H/16*W/16大小的特征图像;H/16*W/16大小的特征图像输入到包含3个卷积模块的第四层级卷积下采样单元中,输出H/32*W/32大小的特征图像;H/32*W/32大小的特征图像输入到全局平均池化后输出特征大小为1*1。
本方案的第一层级卷积下采样单元中的卷积模块采用通道注意力卷积模块,该通道注意力卷积模块中添加了在输入端和输出端之间的残差连接网络,该残差连接网路的添加可以解除随着网络深度叠加带来的性能饱和与梯度问题。恒等映射能够以端到端的方式在每个阶段上反向传播每一个通道注意力模块的梯度,恒等映射提高了网络的性能,也扩大了深度。短路连接能够使得模型显式地变为多个不同感受域大小的模型的组合(小感受域与大感受域不断直接累加),从而能够在更大的感受域中得到提升并且不会丢失捕捉小尺度特征的能力。
另外,本方案的通道注意力卷积模块将传统的两个FC(全连接)替换为了一个FC,解决了信息的损失并减少了计算量。在传统的通道注意力卷积模块中,第一个FC使用缩减率r将输入特征通道缩减为C/r,第二个FC层将缩减通道扩展为原始通道C,这种通道的缩减会导致通道信息丢失。
而在本方案中使用一个通道为C的FC层,从而维护通道信息,进而提高性能。大卷积核能显著增加有效感受域(ERF),可包含更多的上下文信息;引导网络倾向于学习更多形状特征;残差块在1*1卷积和3*3卷积使用结构重参数化帮助更好的训练,有助于弥补优化问题;有效感受域与卷积核大小成线性关系,而与深度成次线性关系,另外ResNet的有效感受域并没有随着深度增加而显著增加,所以增是级联卷积结果可以达到预定的有效感受域,同时避免了深度增加带来的优化问题。
如前所述,在一具体实施例中,本方案的第一层级卷积下采样单元中堆叠三个通道注意力卷积模块。以下阐述每一通道注意力卷积模块的具体结构:
如图2所示,所述通道注意力卷积模块包括依次连接的第一卷积组块、残差模块、后处理模块以及第二卷积组块组成,所述残差模块包括并联的第一残差分支和第二残差分支,其中第一残差分支包括串联的卷积组块和残差块,第二残差分支包括单个卷积组块;所述后处理模块的上支路包括全局平均池化层、通道注意力模块、1*1卷积以及激活函数,所述后处理模块的下支路直接连接所述后处理模块的输入端和输出端。
输入到所述通道注意力卷积模块的特征经过第一卷积组块后得到第一通道注意力特征,所述第一通道注意力特征经过所述残差模块的第一残差分支和第二残差分支的处理后得到两个分支特征,两个分支特征进行特征堆叠后得到第二通道注意力特征,第二通道注意力特征经过所述后处理模块的上支路得到支路特征,支路特征和第二通道注意力特征进行融合后输入到第二卷积组块中得到输出特征。
所述残差模块的第一残差分支包括依次序串联的一个卷积组块以及2个残差块,第二残差分支包括一个卷积组块,第一通道注意力特征输入到所述残差模块的第一残差分支和第二残差分支中分别得到第一分支特征和第二分支特征,第一分支特征和第二分支特征进行通道堆叠后得到第二通道注意力特征。
如图4所示,所述通道注意力模块包括多层采样层、特征堆叠层、1*1卷积、全局平均池化、全连接层、激活函数,其中输入所述通道注意力模块中的初始特征在经历多层采样层后得到多个层级的层级特征图,多个层级的层级特征图进行特征堆叠后得到层级堆叠特征,所述层级堆叠特征在经历1*1卷积后得到卷积特征,卷积特征经过所述全局平均池化、全连接层、激活函数后得到激活特征,激活特征和卷积特征融合后得到通道融合特征,所述通道融合特征和输入所述通道注意力模块中的初始特征叠加得到输出特征。
本方案的通道注意力模块包括六层采样层,所述初始特征作为输入特征图依次经过7*7采样后得到特征图T1、经过13*13采样后得到特征图T2、经过27*27采样后得到特征图T3、经过29*29采样后得到特征图T4、经过31*31采样后得到特征图T5,所有的特征图进行特征堆叠后得到层级堆叠特征。
如图3所示,所述残差块包括一个卷积组块以及连接所述卷积组块输出端的两个分支,其中一个分支包括1*1卷积和批量归一化层,另一分支包括3*3卷积和批量归一化层,两个分支的输出融合后经历一个激活函数后和输入所述残差块的特征进行融合。
另外,每一个卷积组块的结构都是相同的,卷积组块包括一个卷积层、批量归一化层以及一个激活函数。
本方案的第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元中的卷积模块采用卷积和自注意力混合模块。如图5所示,所述卷积和自注意力混合模块包括依次连接的卷积和自注意力融合模块、两个1*1卷积层、层归一化操作以及Drop path丢弃层,输入到卷积和自注意力混合模块的输入特征和Drop path丢弃层的输出特征融合,其中所述卷积和自注意力融合模块将卷积和自注意力分成两个阶段并进行融合,所述卷积和自注意力融合模块中采用7*7的分组卷积。
本方案设计的所述卷积和自注意力融合模块采用分组卷积和大卷积核的方式,使得其在浮点运算量和精度上的权衡比一般残差模块泛化性更强,本方案使用分组卷积的方式,每个卷积核单独处理一个通道,这种形式跟自注意力机制很相似,都是在单个通道内做空间信息的混合加权,可用于降低计算量。换言之,分组卷积类似于自注意力中的加权和运算,即仅混合空间维度中的信息;深度卷积的使用有效地降低了网络(浮点运算量),但是也降低了精度;将网络宽度增加到与Swin-T相同的通道数 (从64增加到96),随着浮点运算量的增加,网络性能增强。
另外,本方案的所述卷积和自注意力融合模块使用7*7的分组卷积,由于invertedbottleneck放大了中间卷积层的缘故,直接替换会导致参数量增大,因此卷积和自注意力混合模块把7*7分组卷积的位置进行了调整,放到了反瓶颈的开头,把计算复杂度比较高的分组卷积往前移动,使得复杂的模块将有更少的通道,而高效、密集的1*1卷积层将有更多的通道。本方案的卷积和自注意力混合模块采用小维度到大维度再到小维度的形式,这样能让信息在不同维度特征空间之间转换时避免压缩维度带来的信息损失。
另外,本方案的卷积和自注意力混合模块的两个1*1卷积层之间使用一层激活层.其它地方不使用;设计上效仿Transformer中只使用一个激活函数, 太频繁地做非线性投影对于网络特征的信息传递实际上是有害的。本方案的卷积和自注意力混合模块只在7*7分组卷积层和1*1卷积层之间使用归一化层,而在两个1*1卷积层之间没有使用归一化层,只做了非线性投影,这样的方式可以使用更少的激活函数以及归一化层。
另外,本方案的卷积和自注意力混合模块的所有批量归一化层替换成层归一化层。
本方案的层归一化操作将输入的特征层乘上一个可训练的参数,该参数就是一个向量,元素个数与特征层通道相同,即对每个特征通道的数据进行缩放。
如图6所示,卷积和自注意力混合模块中的所述卷积和自注意力融合模块被展示。所述卷积和自注意力融合模块中的卷积操作和自注意力机制均被拆分为两个阶段,卷积操作将大卷积核的卷积拆分为多个独立的1*1卷积后进行移位和求和得到卷积特征堆叠,所述自注意力机制利用单独的1*1卷积处理输入特征得到查询、键和值,然后通过计算注意力权重和聚合值得到自注意力特征堆叠;卷积特征堆叠和自注意力特征堆叠融合得到卷积和自注意力混合模块的输出特征。本方案的卷积和自注意力混合模块兼备自注意力和卷积的好处,同时与纯卷积或自注意力机制相比具有最小的计算开销。
具体的,卷积操作的具体结构如下:
卷积操作是通过1*1卷积核计算输入特征图的所有的特征转换后,先偏移,再聚合。将卷积操作区分为移位偏移操作阶段和聚合阶段。在移位偏移操作阶段,将k*k的卷积核拆分为k*k个1*1的卷积核,k*k的卷积为分组卷积,计算每个卷积核的每个元素与分组卷积得到的特征图相乘的值,得到独立的k*k个计算结果。值得一提的是,本方案对每个卷积核的计算结果不做加和处理,所以在移位偏移操作阶段需要k*k*cin*cout的计算量。在聚合阶段,不同1*1卷积核的计算结果在对应位置上相加得到卷积特征堆叠。其中对应位置指的是:k*k个1*1卷积每一个对应一个组卷积的结果。
卷积操作中通过1*1的卷积核卷积后需要对应到k*k的标准卷积上,那就需要将各个位置对应上再相加,故本方案的卷积操作的第一步是移位操作,第二步是对移位后的值在对应位置上加和操作,计算量为k*k*cout,第二步将第一步的输出进行加和,没有新的参数出来,所以参数量为0,计算量上,移位操作没有计算量的产生,总计算量为k*k*cout。
自注意力机制具体结构如下:
自注意力机制首先对输入特征进行3个1*1卷积操作后得到查询,键,值,再对查询,键,值进行注意力权重的计算并拼接不同头得到自注意力特征堆叠。换言之,自注意力机制包括生成阶段和权重计算阶段,在生成阶段,输入特征经历3个1*1卷积操作得到查询、键、值;值得一提的是,本方案将1*1卷积替代全连接层,这样的话生成阶段的参数量仅为参数量为3*c*c;在权重计算阶段,查询,键,值进行注意力权重的计算并拼接不同头得到自注意力特征堆叠,因为此时只考虑窗口k*k范围内的元素,即收集局部特征,所以计算量中序列长度也是固定的为k*k。所以在quey和key的计算中,计算量为k*c*k,在quey*key和value的计算中,计算量为k*k*c。所以整体为2倍k*k*c。而且此时没有额外的需要学习的参数,所以参数量为0;卷积和self-attention 已经被各种形式的结合。
在构建了基础的细粒度识别模型后,需要对其进行训练处理。本方案训练多尺度目标检测模型的训练方法为较为常见的训练手段。
训练:训练配置从基线模型到最终模型基本一致,在自己数据上训练300epoch并进行5epoch的warm-up,训练初始warm-up把学习率设置得很小,随着训练的进行学习率逐渐减小,最终达到正常训练的学习率,训练完成时learning rate降为0;优化器为SGD,初始学习率为0.01,cosine学习机制,学习率变化策略为cosine decaying schedule,weightdecay设置为0.05,momentum设置为0.9,batch视硬件设备而定,输入尺寸从448以步长32均匀过渡到832;随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch,选定激活函数SMU。
利用k-means算法生成9个候选框,根据大中小目标每层依次分配三个尺寸的候选框,即在每层的最后输出特征图上进行单元格划分,利用特征金字塔其中一层输出特征图尺寸大小为W*H,根据当前数据聚类结果(k-means方法聚类得到),如果当前数据下聚类结果显示大目标数据多,设置输出的大目标特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图,其次根据聚类结果在中目标特征图上分配小于3个候选框,同理在小目标特征图上分配小于3个候选框,使其三个预测头部上分配的候选框个数为9个。
模型训练中在硬件满足要求的情况下使用多个显卡,训练所用的深度学习框架为PyTorch;确定以上神经网络参数之后,输入处理后的数据,反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型。且本方案中应用了显式正则化方法DropBlock和隐式正则化方法数据增强,以此提高模型的泛化能力。
实施例二,本申请实施例提供了一种细粒度识别模型,根据实施例一所述的细粒度识别模型的构建方法构建得到,该细粒度识别模型包括:
依次连接的stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层,其中每一层级的卷积下采样单元均包括依次连接的卷积模块和下采样,且依次序的不同层级的卷积下采样单元内的卷积模块的数量比例为1:1:3:1;其中所述第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合。
值得一提的是,本方案提供的细粒度识别模型中的通道注意力卷积模块的通道注意力模块中添加了输入到输出的残差连接网络,解除了随着网络深度叠加带来的性能饱和与梯度问题;将两个全连接层替换为了一个全连接层,解决了信息的损失并减少了计算量;卷积和自注意力混合模块以权重融合的方式融合卷积操作和自注意力操作,使其同时兼备自注意力和卷积的好处,且相比纯卷积操作和自注意力机制而言具有最小的计算开销。
实施例三,本申请实施例提供了一种细粒度目标识别方法,具体地,该细粒度目标识别方法借助训练过的第二实施例所述的细粒度识别模型进行细粒度目标识别,所述细粒度识别模型包括依次连接的stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层,所述方法包括:
获取包含待检测目标的待检测图像;
每一层级的卷积下采样单元均包括依次连接的卷积模块和下采样,且依次序的不同层级的卷积下采样单元内的卷积模块的数量比例为1:1:3:1;其中所述第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合;
待检测图像在经过stem模块后得到第一特征,第一特征输入到第一层级卷积下采样单元中输出第二特征,第二特征输入到第二层级卷积下采样单元得到第三特征,第三特征输入到第三层级卷积下采样单元得到第四特征,第四特征输入到第四层级卷积下采样单元得到第五特征,第五特征依次经历全局平均池化层、层归一化、全连接层以及分类层后得到待检测目标。
值得说明的是,本方案提及的所述细粒度识别模型已被训练,故其可根据训练的样本不同,细粒度识别模型可用于预测不同的目标。示例性,若训练样本为人脸表情,则该方案可用于检测人脸表情,此时,待检测目标为人脸表情。
实施例四,本方案提供一种表情识别方法,将人脸表情作为训练样本对第二方面提到的细粒度识别模型进行训练,得到用于表情识别的细粒度识别模型,以解决城市道路管理中基于固定摄像机和手机摄像机实现人脸表情的识别
众所周知的是,道路破损目标往往不清楚,需要高分辨率地对其识别,任何出现在道路上的破损情况都可认为是道路破损目标,这些道路破损目标会影响道路的正常使用。而本方案提供的多尺度目标检测模型特别适用于检测小尺度的目标,特别适合用于道路的道路破目标的检测。
具体的,该表情识别方法,包括以下步骤:
获取涵盖待检测表情的人脸图像;
所述人脸图像输入到用于表情识别的细粒度识别模型中进行检测得到分类表情。
在一些实施例中,分类表情包括生气、厌恶、恐惧、伤心、惊讶和中性表情六类。其中用于表情识别的细粒度识别模型利用标记不同分类表情的人脸图像作为训练样本得到。
在“获取涵盖待检测表情的人脸图像”步骤中,选取拍摄需要进行表情识别的人脸图像。在一些实施例中,可对系统接口设置受摄像头地址和算法类型,回调地址等参数,接口启动一个新进程进而开始对摄像头的视频流抓取图像帧,并存入redis,同时通知监听程序;监听程序在收到通知过后从redis取出待测图像。
关于用于表情识别的细粒度识别模型的训练,训练数据选择为:网上收集公有数据集和自己采集私有数据集,将采集的数据分为六个文件夹,分别是生气、厌恶、恐惧、伤心、惊讶和中性表情六个文件夹,训练数据集和测试数据集按照9:1进行划分。
在一些实施例中,可对训练样本进行数据增强,具体可选择以下技术手段:
采集的基础数据进行数据增强,增强方法为:1.颜色变换;2.旋转变换;3.添加噪声;4.锐化和模糊;5.缩放变换;6.平移变换:向上下左右四个维度移动图像;7.翻转变换;8.裁剪变换;9.仿射变换:对图像进行一次线性变换并接上一个平移变换。
值得一提的是,本方案提供的模型的神经网络训练中采用AutoAugment数据增强,基于NAS搜索的AutoAugment(自动数据增强)在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案。
针对不同类型的数据集会包含不同数量的子策略。每个子策略中都包含两种变换,针对每张图像都随机的挑选一个子策略,然后以一定的概率来决定是否执行子策略中的每种变换方法;数据增强已被广泛应用于网络优化,并被证明有利于视觉任务,可以提高CNN的性能,防止过拟合,且易于实现。
另外,可在用于表情识别的细粒度识别模型的使用过程中对其进行迭代处理:搜集一批新的数据,让用于表情识别的细粒度识别模型去检测这一批数据,将检测结果划分为两大类有框图像和无框图像,有框图像又分为真正目标图像和误报目标图像,无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像,其中将误报目标图像作为负样本,将含有表情识别目标但未识别到的图像作为训练样本,随后这些没识别到表情图像进行数据分类和数据增强,然后在原有模型的基础上在训练出一个新的模型,测试模型效果识别精度是否达标,如果新的模型未达标加入新的数据并对网络调整参数训练,如果模型精度已经达到要求并且在目前训练数据下最优时停止训练,循环这个步骤以达到模型适合实际环境中样本的复杂度。
为了实现对存在矛盾纠纷中可能存在的冲突进行管理,本表情识别方法还包括以下步骤:当检测到不良表情时通知对应的管理部门。
实施例五
基于相同的构思,参考图6,本申请还提出了一种表情识别模型,包括:
图像获取单元,用于获取涵盖待检测表情的人脸图像;
表情识别单元,用于将所述人脸图像输入到用于表情识别的细粒度识别模型中进行检测得到分类表情。
关于该表情识别模型中的技术特征的可详见上述实施例的介绍,为了避免重复介绍,在此不进行累赘说明。
实施例六
本实施例还提供了一种电子装置,参考图8,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项表情识别方法或者细粒度识别模型的构建方法的实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种表情识别方法或者细粒度识别模型的构建方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是矛盾纠纷中的人脸图像等,输出的信息可以是表情等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
获取包含待检测目标的待检测图像;
每一层级的卷积下采样单元均包括依次连接的卷积模块和下采样,且依次序的不同层级的卷积下采样单元内的卷积模块的数量比例为1:1:3:1;其中所述第一层级卷积下采样单元中的卷积模块为通道注意力卷积模块,第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元内的卷积模块为卷积和自注意力混合模块,所述卷积和自注意力混合模块将卷积操作和自注意力机制均拆分为两个阶段并进行融合;
待检测图像在经过stem模块后得到第一特征,第一特征输入到第一层级卷积下采样单元中输出第二特征,第二特征输入到第二层级卷积下采样单元得到第三特征,第三特征输入到第三层级卷积下采样单元得到第四特征,第四特征输入到第四层级卷积下采样单元得到第五特征,第五特征依次经历全局平均池化层、层归一化、全连接层以及分类层后得到待检测目标。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (5)
1.一种细粒度目标识别方法,基于依次连接的stem模块、第一层级卷积下采样单元、第二层级卷积下采样单元、第三层级卷积下采样单元、第四层级卷积下采样单元、全局平均池化层、层归一化、全连接层以及分类层进行目标检测,其特征在于,包括以下步骤:
获取包含待检测目标的待检测图像;
第一层级卷积下采样单元中堆叠三个通道注意力卷积模块,所述通道注意力卷积模块包括依次连接的第一卷积组块、残差模块、后处理模块以及第二卷积组块组成,所述残差模块包括并联的第一残差分支和第二残差分支,其中第一残差分支包括串联的卷积组块和残差块,第二残差分支包括单个卷积组块;所述后处理模块的上支路包括全局平均池化层、通道注意力模块、1*1 卷积以及激活函数,所述后处理模块的下支路直接连接所述后处理模块的输入端和输出端;
输入到所述通道注意力卷积模块的特征经过第一卷积组块后得到第一通道注意力特征,所述第一通道注意力特征经过所述残差模块的第一残差分支和第二残差分支的处理后得到两个分支特征,两个分支特征进行特征堆叠后得到第二通道注意力特征,第二通道注意力特征经过所述后处理模块的上支路得到支路特征,支路特征和第二通道注意力特征进行融合后输入到第二卷积组块中得到输出特征;
所述通道注意力模块包括多层采样层、特征堆叠层、1*1 卷积、全局平均池化、全连接层、激活函数,其中输入所述通道注意力模块中的初始特征在经历多层采样层后得到多个层级的层级特征图,多个层级的层级特征图进行特征堆叠后得到层级堆叠特征,所述层级堆叠特征在经历 1*1 卷积后得到卷积特征,卷积特征经过所述全局平均池化、全连接层、激活函数后得到激活特征,激活特征和卷积特征融合后得到通道融合特征,所述通道融合特征和输入所述通道注意力模块中的初始特征叠加得到输出特征;
第二层级卷积下采样单元、第三层级卷积下采样单元以及第四层级卷积下采样单元中的卷积模块采用卷积和自注意力混合模块,所述卷积和自注意力混合模块包括依次连接的卷积和自注意力融合模块、两个 1*1 卷积层、层归一化操作以及Drop path 丢弃层,输入到卷积和自注意力混合模块的输入特征和 Drop path 丢弃层的输出特征融合,其中所述卷积和自注意力融合模块将卷积操作和自注意力机制分成两个阶段并进行融合,所述卷积和自注意力融合模块中采用 7*7 的分组卷积;
卷积操作的具体结构如下:
将卷积操作区分为移位偏移操作阶段和聚合阶段,在移位偏移操作阶段,将 k*k 的卷积核拆分为k*k 个 1*1 的卷积核,k*k 的卷积为分组卷积,计算每个卷积核的每个元素与分组卷积得到的特征图相乘的值,得到独立的 k*k 个计算结果;在聚合阶段,不同 1*1 卷积核的计算结果在对应位置上相加得到卷积特征堆叠,其中对应位置指的是:k*k 个 1*1卷积每一个对应一个组卷积的结果;
自注意力机制具体结构如下:
自注意力机制首先对输入特征进行 3 个 1*1 卷积操作后得到查询,键,值,再对查询,键,值进行注意力权重的计算并拼接不同头得到自注意力特征堆叠;
待检测图像在经过stem模块后得到第一特征,第一特征输入到第一层级卷积下采样单元中输出第二特征,第二特征输入到第二层级卷积下采样单元得到第三特征,第三特征输入到第三层级卷积下采样单元得到第四特征,第四特征输入到第四层级卷积下采样单元得到第五特征,第五特征依次经历全局平均池化层、层归一化、全连接层以及分类层后得到待检测目标。
2.根据权利要求1所述的细粒度目标识别方法,其特征在于,所述残差模块的第一残差分支包括依次序串联的一个卷积组块以及2个残差块,第二残差分支包括一个卷积组块,第一通道注意力特征输入到所述残差模块的第一残差分支和第二残差分支中分别得到第一分支特征和第二分支特征,第一分支特征和第二分支特征进行通道堆叠后得到第二通道注意力特征。
3.根据权利要求1所述的细粒度目标识别方法,其特征在于,卷积和自注意力混合模块的两个1*1卷积层之间使用一层激活层,在7*7分组卷积层和1*1卷积层之间使用归一化层,所有批量归一化层替换成层归一化层。
4.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1所述的细粒度目标识别方法。
5.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据执行权利要求1所述的细粒度目标识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211506876.4A CN115546879B (zh) | 2022-11-29 | 2022-11-29 | 用于表情识别的细粒度识别模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211506876.4A CN115546879B (zh) | 2022-11-29 | 2022-11-29 | 用于表情识别的细粒度识别模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546879A CN115546879A (zh) | 2022-12-30 |
CN115546879B true CN115546879B (zh) | 2023-02-17 |
Family
ID=84721618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211506876.4A Active CN115546879B (zh) | 2022-11-29 | 2022-11-29 | 用于表情识别的细粒度识别模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546879B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173422B (zh) * | 2023-08-07 | 2024-02-13 | 广东第二师范学院 | 基于图融合多尺度特征学习的细粒度图像识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11023730B1 (en) * | 2020-01-02 | 2021-06-01 | International Business Machines Corporation | Fine-grained visual recognition in mobile augmented reality |
CN113420729A (zh) * | 2021-08-23 | 2021-09-21 | 城云科技(中国)有限公司 | 多尺度目标检测方法、模型、电子设备及其应用 |
CN114529825A (zh) * | 2022-04-24 | 2022-05-24 | 城云科技(中国)有限公司 | 用于消防通道占用目标检测的目标检测模型、方法及应用 |
WO2022111355A1 (zh) * | 2020-11-30 | 2022-06-02 | 展讯通信(上海)有限公司 | 车牌识别方法及装置、存储介质、终端 |
WO2022198808A1 (zh) * | 2021-03-24 | 2022-09-29 | 齐鲁工业大学 | 基于双线性注意力网络的医学影像数据分类方法及系统 |
-
2022
- 2022-11-29 CN CN202211506876.4A patent/CN115546879B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11023730B1 (en) * | 2020-01-02 | 2021-06-01 | International Business Machines Corporation | Fine-grained visual recognition in mobile augmented reality |
WO2022111355A1 (zh) * | 2020-11-30 | 2022-06-02 | 展讯通信(上海)有限公司 | 车牌识别方法及装置、存储介质、终端 |
WO2022198808A1 (zh) * | 2021-03-24 | 2022-09-29 | 齐鲁工业大学 | 基于双线性注意力网络的医学影像数据分类方法及系统 |
CN113420729A (zh) * | 2021-08-23 | 2021-09-21 | 城云科技(中国)有限公司 | 多尺度目标检测方法、模型、电子设备及其应用 |
CN114529825A (zh) * | 2022-04-24 | 2022-05-24 | 城云科技(中国)有限公司 | 用于消防通道占用目标检测的目标检测模型、方法及应用 |
Non-Patent Citations (2)
Title |
---|
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.;Ren Shaoqing等;《IEEE transactions on pattern analysis and machine intelligence》;20171231;全文 * |
基于卷积神经网络的细粒度图像识别方法研究;田其军;《中国优秀硕士学位论文全文数据库》;20210115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115546879A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232232B (zh) | 一种目标检测方法 | |
CN111882040B (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
GB2489272A (en) | Segmentation of images into superpixels | |
KR102142403B1 (ko) | 저사양 임베디드 환경에서의 합성곱 신경망 연산을 위한 역 잔여 블록의 채널 확장 매개변수 설정 시스템 및 방법 | |
CN114419381B (zh) | 一种语义分割方法及应用其的道路积水检测方法和装置 | |
CN114863368A (zh) | 用于道路破损检测的多尺度目标检测模型、方法 | |
CN113255892B (zh) | 一种解耦合的网络结构搜索方法、设备及可读存储介质 | |
CN115546601B (zh) | 一种多目标识别模型及其构建方法、装置及应用 | |
CN116310667B (zh) | 联合对比损失和重建损失的自监督视觉表征学习方法 | |
CN115546879B (zh) | 用于表情识别的细粒度识别模型及方法 | |
CN110023989A (zh) | 一种素描图像的生成方法及装置 | |
Baheti et al. | Federated Learning on Distributed Medical Records for Detection of Lung Nodules. | |
CN113159115B (zh) | 基于神经架构搜索的车辆细粒度识别方法、系统和装置 | |
CN114821390A (zh) | 基于注意力和关系检测的孪生网络目标跟踪方法及系统 | |
CN114494753A (zh) | 聚类方法、装置、电子设备及计算机可读存储介质 | |
KR102305575B1 (ko) | 이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템 | |
Kim et al. | Fine-grained neural architecture search | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
CN117576402A (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
Wistuba et al. | Inductive transfer for neural architecture optimization | |
CN114494809A (zh) | 特征提取模型优化方法、装置及电子设备 | |
CN113158904B (zh) | 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 | |
CN116977747B (zh) | 基于多路多尺度特征孪生网络的小样本高光谱分类方法 | |
CN112860936A (zh) | 一种基于稀疏图相似度迁移的视觉行人重识别方法 | |
CN110490876B (zh) | 一种基于轻量级神经网络的图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |