CN114973386A - 一种深度挖掘混合特征的工地场景人脸目标检测方法 - Google Patents
一种深度挖掘混合特征的工地场景人脸目标检测方法 Download PDFInfo
- Publication number
- CN114973386A CN114973386A CN202210913548.XA CN202210913548A CN114973386A CN 114973386 A CN114973386 A CN 114973386A CN 202210913548 A CN202210913548 A CN 202210913548A CN 114973386 A CN114973386 A CN 114973386A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- network
- construction site
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000005065 mining Methods 0.000 title claims description 15
- 230000006870 function Effects 0.000 claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000002372 labelling Methods 0.000 claims abstract description 3
- 230000002776 aggregation Effects 0.000 claims description 27
- 238000004220 aggregation Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 101150079125 DCN1 gene Proteins 0.000 description 1
- 102100026982 DCN1-like protein 1 Human genes 0.000 description 1
- 101100330861 Homo sapiens DCUN1D1 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人脸检测技术领域,公开了一种深度挖掘混合特征的工地场景人脸目标检测方法,包括以下步骤:步骤S1,将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集;步骤S2,构建网络模型,网络模型包括主干部分网络、候选区域建议网络、全局平等特征增强模块和前馈神经网络;步骤S3,采用类别损失函数和定位回归损失函数指导网络模型学习;步骤S4,预设相关超参数,通过不断迭代衰减损失值达到网络参数权重优化的目的,直到迭代次数等于最大迭代次数,中止对训练集的训练,最后在实际场景下测试网络模型的性能。
Description
技术领域
本发明涉及人脸检测技术领域,具体地说,是一种深度挖掘混合特征的工地场景人脸目标检测方法。
背景技术
随着深度学习技术的不断发展,许多人工智能产品已应用于人们日常生活的角角落落里。智能监控技术在疫情期间展示出令人满意的效果,与传统的人工巡视相比,智能监控技术表现出了非接触式、简便、高效的优势,因此被应用在智慧交通、智能安防等各个领域中。
人脸检测技术是智能监控技术中常用技术手段之一,用于定位图像中人脸,为后续人脸识别、属性识别等应用奠定基础,经过许多年的技术发展,人脸检测技术取得了非常令人满意的效果。近几年,主流的人脸检测技术在深度学习技术上不断衍生发展出来的,按是否提取候选建议区域分为单阶段人脸检测方法和二阶段人脸阶段方法,前者代表算法有YOLO、SSD等,后者代表算法有Faster R-CNN、Cascade R-CNN等,这些方法主要收集覆盖各个场景的人脸检测图像数据集,再通过卷积神经网络增强网络模型对目标特征的表达能力,并结合人工的先验知识提取面部外的特征作为辅助信息,提高网络模型对前景背景的区分能力,最后达到高精度检测性能。现有的人脸检测技术能在高清的场景下对主动配合的被测人员进行精准的检测,远远高于人眼视觉,取得了很好的检测识别精度。
在工地上使用人脸检测技术,可以智能地对施工人员进行识别认证,监管施工人员的行为,防止不相关人员进入工地,保证施工场地的安全。但是在工地场景下采集的图像中人脸目标像素占比更小,背景环境嘈杂,检测结果极易受环境噪声的影响,目前已有的人脸检测方法在这些充满噪声的工地场景下检测精度降低,且对人脸的表征能力出现退化现象,造成误检漏检现象,所以急需提出一种深度挖掘混合特征的工地场景人脸目标检测方法,通过挖掘图像包含的各种深度特征增强网络模型的表征能力,减弱噪声的干扰,从而增强网络模型的检测性能。
发明内容
本发明的目的在于提供一种深度挖掘混合特征的工地场景人脸目标检测方法,用于通过深度挖掘多尺度特征和多种显性特征等混合特征增强网络模型的表达能力,并且平等对待每个像素点的响应值,能得到更大范围的有用区域,从而减少场景噪声的干扰,大幅度提高网络模型的检测能力。
本发明通过下述技术方案实现:一种深度挖掘混合特征的工地场景人脸目标检测方法,包括以下步骤:
步骤S1,将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集;
步骤S2,构建网络模型,所述网络模型包括主干部分网络、候选区域建议网络、全局平等特征增强模块和前馈神经网络;
步骤S3,采用类别损失函数和定位回归损失函数指导网络模型学习;
步骤S4,预设相关超参数,通过不断迭代衰减损失值达到网络参数权重优化的目的,直到迭代次数等于最大迭代次数,中止对训练集的训练,最后在实际场景下测试网络模型的性能。
本发明提出的人脸目标检测方法,通过深度挖掘多尺度特征和多种显性特征等混合特征增强模型的表达能力,利用平等响应热力图扩大模型的关注点的范围,增强模型的特征表达能力。由实验可得,本发明提出的人脸检测方法与已有的方法相比较,在工地场景下表现出更强的泛化性,对噪声的影响更不敏感,模型的检测能力更强。
为了更好地实现本发明,进一步地,所述步骤S2中构建网络模型的方法包括:
首先构建具有尺度层次性的主干网络部分,随后利用多尺度聚合模块将不同尺度的特征信息融合成统一的特征块,然后使用候选区域建议网络生成候选区域框,使用全局平等特征增强模块进一步增强特征的表达能力,最后经前馈神经网络处理后并行计算边界框回归和类别分类。
为了更好地实现本发明,进一步地,所述多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成;
多尺度聚合模块在高层特征图和低层特征图之间进行特征对齐聚合,学习尺度级别相邻的特征图之间差异变化,增强特征信息的空间细节,增强特征信息的定位能力。
为了更好地实现本发明,进一步地,所述步骤S2中的主干部分网络从前至后由卷积层、批归一化层、激活函数层和多尺度聚合模块构成,通过调整卷积层的步长控制下采样倍数,构建出尺度层次性,再由多尺度聚合模块将不同尺度的特征信息进行有效地对齐,聚合不同尺度特征信息的语义信息,减弱语义差异造成的特征退化。
为了更好地实现本发明,进一步地,所述步骤S2中的全局平等特征增强模块包括由卷积层、批归一化层、激活函数层、柔性最大值层、点乘层、特征相乘层、掩码生成层和特征相加层;
全局平等特征增强模块通过将激活函数层、掩码生成层和柔性最大值层结合提炼平等响应热力图,把网络模型关注力扩散到更多的像素上,平等地处理所有像素点,利用正注意力的像素响应点增强特征,得到更大范围的有用区域。
为了更好地实现本发明,进一步地,所述步骤S2中的前馈神经网络从前至后由感兴趣区域池化层、全连接层、神经元失活层构成。
为了更好地实现本发明,进一步地,所述步骤S3中采用类别损失函数和定位回归损失函数指导网络模型学习的方法包括:
所述类别损失函数采用改进后的二元交叉熵损失函数,用于计算预测类别值与预测概率值之间的损失值;
所述定位回归损失函数采用改进后的平滑L1损失函数,计算候选区域与真实边界框之间的损失值。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明提出了一种多尺度聚合模块,在高层特征图和低层特征图之间进行特征对齐聚合,学习尺度级别相邻的特征图之间差异变化,增强特征信息的空间细节,增强特征信息的定位能力;
(2)本发明提出了一种全局平等特征增强模块,通过生成平等响应热力图可以扩展网络模型学习的关注范围,获取到更多区域的特征信息,提高区分前景背景的判断力,而且因增强了特征信息的表达能力,从而减弱了网络模型对噪声的敏感度,大大提高泛化性;
(3)本发明提出了一种人脸目标检测方法,通过深度挖掘多尺度特征和多种显性特征等混合特征增强网络模型的表达能力,并且使用各种特性网络模块提高网络模型处理细节信息的能力,从而提高网络模型在低分辨率、遮挡等环境复杂的工地场景下的检测性能。
附图说明
本发明结合下面附图和实施例做进一步说明,本发明所有构思创新应视为所公开内容和本发明保护范围。
图1为本发明提供的一种深度挖掘混合特征的工地场景人脸目标检测方法的整体网络结构示意图。
图2为本发明提供的一种深度挖掘混合特征的工地场景人脸目标检测方法中多尺度聚合模块结构示意图。
图3为本发明提供的一种深度挖掘混合特征的工地场景人脸目标检测方法中全局平等特征增强模块的结构示意图。
图4为本发明提供的使用了本发明中构建的网络模型后对人脸检测精度的效果图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,已有的人脸检测方法在工地场景中极易受环境噪声的影响,并且工地场景中采集的图像中人脸目标像素点占比小,增大了检测难度,通用的人脸检测方法在特征级上对人脸的表达出现了不足,造成检测精度降低,出现误检漏检现象。为了解决这个问题,本发明提出了一种用于工地场景下的人脸目标检测方法,通过深度挖掘多尺度特征和多种显性特征等混合特征增强网络模型的表达能力,并且平等对待每个像素点的响应值,能得到更大范围的有用区域,从而减少场景噪声的干扰,大幅度提高网络模型的检测能力。
实施例1:
本实施例的一种深度挖掘混合特征的工地场景人脸目标检测方法,如图1所示,本发明将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集,并在实际场景下测试网络模型性能的过程包括:首先构建具有尺度层次性的主干网络部分,随后利用多尺度聚合模块将不同尺度的特征信息融合成统一的特征块,然后使用候选区域建议网络生成候选区域框,使用全局平等特征增强模块进一步增强特征的表达能力,最后经前馈神经网络处理后并行计算边界框回归和类别分类,然后采用两种损失函数指导网络模型学习,两种损失函数分别是类别损失函数和定位回归损失函数,预设迭代次数、学习率等相关超参数,通过不断迭代衰减损失值达到网络参数权重优化的目的,直到迭代次数等于最大迭代次数,中止对训练集的训练,最后在实际场景下测试网络模型性能。
需要说明的是,图1-图3中,C的含义为卷积层,Ca1、Cb1、Cb2、Cb3、Cc1、Cc2、Cc3、Cc4、C5也是卷积层;BN的含义为批归一化层,BN1、BN2、BN3、BN4也是批归一化层;PR的含义为参数修正线性单元层,PR1、PR2、PR3、PR4也是参数修正线性单元层。F2是第一级卷积特征,F3是第一级卷积特征,F4是第二级卷积特征,F5是第三级卷积特征。cls是类别分类损失,reg是定位回归损失,DC的含义为转置卷积层,DCN的含义为可变形卷积层,DCN1即可变形卷积层。softmax为softmax排列函数,soft是softmax的缩写,RELU是RELU激活函数,Mask是Mask矩阵。EF_Block1为全局平等特征增强模块RPN的含义为候选区域建议网络,MAM的含义为为多尺度聚合模块,FFN的含义为为前馈神经网络,Concat层的作用就是将两个及以上的特征图按照在channel或num维度上进行拼接。
图1为人脸检测方法的整体网络结构示意图。网络模型主要由主干部分网络、候选区域建议网络、全局平等特征增强模块、前馈神经网络组成。如图1所示,主干部分网络从前至后由卷积层、批归一化层、激活函数层、多尺度聚合模块构成,通过调整卷积层的步长控制下采样倍数,构建出尺度层次性。
如图1中所示,再由多尺度聚合模块将不同尺度的特征信息进行有效地对齐,聚合不同尺度特征信息的语义信息,减弱语义差异造成的特征退化。
如图1所示,本发明将Backbone设置成梯形结构,通过下采样减小特征图的尺度,减少模型参数,并提高特征图的语义信息,通过F2、F3、F4、F5和多尺度聚合模块连接,F2、F3、F4、F5对应不同尺度的特征信息,尺度以2倍的比例依次递减,再由多尺度聚合模块和特征拼接层连接,卷积层、批归一化层和参数修正线性单元层设置在一起,并使用跳跃连接和依次连接组合的方式连接区域建议网络和全局平等增强模块,再由全局平等增强模块连接前馈神经网络后与全连接层连接。不同于将不同特性的网络结构并行构成的主干网络,本发明的主干网络只有深度卷积神经网络,本发明还使用了多尺度聚合模块穿插在不同级卷积特征层之间和不同的下游网络处理部分。
本发明组成网络结构的基础模块是深度学习领域的常见技术,但是本发明的每个模块是按照一定的规则构成,比如,利用卷积层构成不同尺度、不同语义特性的特征信息,但这些特征信息因主干网络部分的加深,尺度减小,语义性更为丰富,每一层级的特征信息或多或少都有缺陷,所以引入多尺度聚合模块进行特征对齐整合,提高主干部分输出的特征信息的表征能力,然后下游检测任务需要添加注意力机制进行增强学习,但是传统的注意力机制是偏重学习,即学习目标易区分的特征区域,而工厂场景背景复杂,这种偏重学习对环境极为敏感,容易出现不足的特征表达现象,所以本发明在下游任务中引入全局平等特征增强模块,增大网络模型的响应范围,一定程度上减少场景造成的干扰。综上所述,整体技术方案环环相扣,互相成就,是结合工地场景设计出的网络结构,不属于常见的技术方案。
如图4所示为使用了本发明中构建的网络模型后对人脸检测精度的效果图。
实施例2:
本实施例在实施例1的基础上做进一步优化,多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成。该模块主要是在高层特征图和低层特征图之间进行特征对齐聚合,学习尺度级别相邻的特征图之间差异变化,增强特征信息的空间细节,增强特征信息的定位能力
多尺度聚合模块结构示意图如图2所示,多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成,图2中和分别表示高层次特征和低层次特征,为了统一不同层次特征的尺度,所以在低层次特征分支添加转置卷积层进行上采样,再通过特征拼接层对特征信息融合,然后使用可变性卷积层在原特征信息上添加可学习的偏移量,达到特征对齐的目的,增强特征信息的空间细节,最后使用一层卷积层进行下采样,减少网络参数。
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在实施例1-2任一项的基础上做进一步优化,主干网络提取特征之后,由候选区域建议网络粗糙地生成候选区域框集合,并提取候选区域框对应的特征信息,然后输入到全局平等特征增强模块进一步特征增强。候选区域建议网络用于粗糙生成候选区域框集合,为后续候选区域框细化提供扎实的基础。全局平等特征增强模块主要由卷积层、批归一化层、激活函数层、柔性最大值层、点乘层、特征相乘层、掩码生成层以及特征相加层构成,通过将激活函数层、掩码生成层和柔性最大值层结合提炼平等响应热力图,能把模型关注力扩散到更多的像素上,平等地处理所有像素点,利用正注意力的像素响应点增强特征,能得到更大范围的有用区域,从而减少背景的干扰。
如图3所示,全局平等特征增强模块共有三个输入,f1为候选区域框对应的特征信息,作为查询特征,f2为主干网络最后一层卷积层输出的全局特征信息,作为关键特征,计算出相似性矩阵之后,分两路进行处理,一路是利用柔性最大值进行归一化,生成注意力热力图,另一路是先利用修正性线性单元层将可能产生负注意力的点进行过滤,再利用掩码生成层,增加部分像素点的权重值,处理公式如下:
公式中F为修正性线性单元层处理之后的特征矩阵,sort表示排序函数,asc表示以升序的方式进行排序,index表示返回排序之后数据的索引矩阵的函数,为了将柔性最大值生成的注意力图扩展到更多的特征点上,用索引矩阵处理得到扩展之后的矩阵,主要作用是增加其他特征点的注意力权重比例。因此,平等响应热力图生成映射公式如下:
公式中为平等响应热力图,是柔性最大值生成的注意力图。这样处理后,能把模型关注力扩散到更多的像素上,平等地处理所有像素点,得到更大范围的有用区域,从而减少背景的干扰。最后与全局特征f2结合得到更强表达能力的特征。如图1所示,利用全局平等特征增强模块对特征信息处理之后,需裁剪出候选区域框集合对应的特征信息传输到前馈神经网络中进行分类、回归操作。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
本实施例在上述实施例1-3的基础上做进一步优化,网络模型搭建完成后,预设迭代次数、学习率等相关超参数,通过不断迭代衰减损失值达到网络参数权重优化的目的,直到迭代次数等于最大迭代次数,中止对训练集的训练,最后在实际场景下测试模型性能。其中,损失函数分为分别是类别损失函数和定位回归损失函数,类别损失函数采用改进之后的二元交叉熵损失函数,用于计算预测类别值与预测概率值之间的损失值,定位回归损失函数采用改进之后的平滑L1损失函数,计算候选区域与真实边界框之间的损失值。
改进之后的平滑L1损失函数公式为:
改进之后的二元交叉熵损失函数为焦点损失函数,公式为:
公式中Focal_loss为焦点损失函数,为每个样本上的焦点损失值之和,表示预测类别的概率值,γ为伽马参数,用于调节不同重要程度的样本的损失,α为阿尔法参数,用于调节正样本的惩罚比例,y是类别真实标签。
本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。
实施例5:
本实施例在上述实施例1-4的基础上做进一步优化,前馈神经网络从前至后由感兴趣区域池化层、全连接层、神经元失活层构成,在网络结构中作为检测器。
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (7)
1.一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于,包括以下步骤:
步骤S1,将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集;
步骤S2,构建网络模型,所述网络模型包括主干部分网络、候选区域建议网络、全局平等特征增强模块和前馈神经网络;
步骤S3,采用类别损失函数和定位回归损失函数指导网络模型学习;
步骤S4,预设相关超参数,通过不断迭代衰减损失值达到网络参数权重优化的目的,直到迭代次数等于最大迭代次数,中止对训练集的训练,最后在实际场景下测试网络模型的性能。
2.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于所述步骤S2中构建网络模型的方法包括:
首先构建具有尺度层次性的主干网络部分,随后利用多尺度聚合模块将不同尺度的特征信息融合成统一的特征块,然后使用候选区域建议网络生成候选区域框,使用全局平等特征增强模块进一步增强特征的表达能力,最后经前馈神经网络处理后并行计算边界框回归和类别分类。
3.根据权利要求2所述的一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于,所述多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成;
多尺度聚合模块在高层特征图和低层特征图之间进行特征对齐聚合,学习尺度级别相邻的特征图之间差异变化,增强特征信息的空间细节,增强特征信息的定位能力。
4.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于,所述步骤S2中的主干部分网络从前至后由卷积层、批归一化层、激活函数层和多尺度聚合模块构成,通过调整卷积层的步长控制下采样倍数,构建出尺度层次性,再由多尺度聚合模块将不同尺度的特征信息进行有效地对齐,聚合不同尺度特征信息的语义信息,减弱语义差异造成的特征退化。
5.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于,所述步骤S2中的全局平等特征增强模块包括由卷积层、批归一化层、激活函数层、柔性最大值层、点乘层、特征相乘层、掩码生成层和特征相加层;
全局平等特征增强模块通过将激活函数层、掩码生成层和柔性最大值层结合提炼平等响应热力图,把网络模型关注力扩散到更多的像素上,平等地处理所有像素点,利用正注意力的像素响应点增强特征,得到更大范围的有用区域。
6.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于,所述步骤S2中的前馈神经网络从前至后由感兴趣区域池化层、全连接层、神经元失活层构成。
7.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法,其特征在于,所述步骤S3中采用类别损失函数和定位回归损失函数指导网络模型学习的方法包括:
所述类别损失函数采用改进后的二元交叉熵损失函数,用于计算预测类别值与预测概率值之间的损失值;
所述定位回归损失函数采用改进后的平滑L1损失函数,计算候选区域与真实边界框之间的损失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913548.XA CN114973386B (zh) | 2022-08-01 | 2022-08-01 | 一种深度挖掘混合特征的工地场景人脸目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913548.XA CN114973386B (zh) | 2022-08-01 | 2022-08-01 | 一种深度挖掘混合特征的工地场景人脸目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973386A true CN114973386A (zh) | 2022-08-30 |
CN114973386B CN114973386B (zh) | 2022-11-04 |
Family
ID=82968557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210913548.XA Expired - Fee Related CN114973386B (zh) | 2022-08-01 | 2022-08-01 | 一种深度挖掘混合特征的工地场景人脸目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973386B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457042A (zh) * | 2022-11-14 | 2022-12-09 | 四川路桥华东建设有限责任公司 | 一种基于蒸馏学习的螺纹套丝表面缺陷检测的方法及系统 |
CN115952446A (zh) * | 2023-03-13 | 2023-04-11 | 西安航天动力研究所 | 一种火箭发动机稳态振动响应预测方法、装置及设备 |
CN116129353A (zh) * | 2023-02-07 | 2023-05-16 | 佛山市顺德区福禄康电器科技有限公司 | 一种基于图像识别进行智能监控的方法及系统 |
CN118427859A (zh) * | 2024-05-10 | 2024-08-02 | 深圳市德比网络设备有限公司 | 云电脑的数据传输方法及系统 |
CN118427859B (zh) * | 2024-05-10 | 2024-11-05 | 深圳市德比网络设备有限公司 | 云电脑的数据传输方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180096457A1 (en) * | 2016-09-08 | 2018-04-05 | Carnegie Mellon University | Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network |
CN112016436A (zh) * | 2020-08-28 | 2020-12-01 | 北京国遥新天地信息技术有限公司 | 一种基于深度学习的遥感影像变化检测方法 |
CN112200161A (zh) * | 2020-12-03 | 2021-01-08 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN113065402A (zh) * | 2021-03-05 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种基于变形注意力机制的人脸检测方法 |
CN113160058A (zh) * | 2021-04-28 | 2021-07-23 | 成都东方天呈智能科技有限公司 | 一种结合分割图的热成像超分辨率重建方法及存储介质 |
CN113869285A (zh) * | 2021-12-01 | 2021-12-31 | 四川博创汇前沿科技有限公司 | 一种人群密度估计装置、方法和存储介质 |
CN114037833A (zh) * | 2021-11-18 | 2022-02-11 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114241478A (zh) * | 2021-11-25 | 2022-03-25 | 上海浦东发展银行股份有限公司 | 宫颈细胞图像中异常细胞图像识别方法、装置 |
CN114463800A (zh) * | 2020-11-10 | 2022-05-10 | 广东技术师范大学 | 基于广义交并比的多尺度特征融合人脸检测与分割方法 |
-
2022
- 2022-08-01 CN CN202210913548.XA patent/CN114973386B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180096457A1 (en) * | 2016-09-08 | 2018-04-05 | Carnegie Mellon University | Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network |
CN112016436A (zh) * | 2020-08-28 | 2020-12-01 | 北京国遥新天地信息技术有限公司 | 一种基于深度学习的遥感影像变化检测方法 |
CN114463800A (zh) * | 2020-11-10 | 2022-05-10 | 广东技术师范大学 | 基于广义交并比的多尺度特征融合人脸检测与分割方法 |
CN112200161A (zh) * | 2020-12-03 | 2021-01-08 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN113065402A (zh) * | 2021-03-05 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种基于变形注意力机制的人脸检测方法 |
CN113160058A (zh) * | 2021-04-28 | 2021-07-23 | 成都东方天呈智能科技有限公司 | 一种结合分割图的热成像超分辨率重建方法及存储介质 |
CN114037833A (zh) * | 2021-11-18 | 2022-02-11 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114241478A (zh) * | 2021-11-25 | 2022-03-25 | 上海浦东发展银行股份有限公司 | 宫颈细胞图像中异常细胞图像识别方法、装置 |
CN113869285A (zh) * | 2021-12-01 | 2021-12-31 | 四川博创汇前沿科技有限公司 | 一种人群密度估计装置、方法和存储介质 |
Non-Patent Citations (4)
Title |
---|
BINGFENG ZHANG 等: "End-to-End Weakly Supervised Semantic Segmentation with Reliable Region Mining", 《PATTERN RECOGNITION》 * |
JIAN WANG 等: "Predicting Arbitrary-Oriented Objects as Points in Remote Sensing Images", 《REMOTE SENSING》 * |
SIYUE YU 等: "Democracy Does Matter: Comprehensive Feature Mining for Co-Salient Object Detection", 《ARXIV》 * |
李昊璇等: "基于深度学习的自然场景下多人脸实时检测", 《测试技术学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457042A (zh) * | 2022-11-14 | 2022-12-09 | 四川路桥华东建设有限责任公司 | 一种基于蒸馏学习的螺纹套丝表面缺陷检测的方法及系统 |
CN116129353A (zh) * | 2023-02-07 | 2023-05-16 | 佛山市顺德区福禄康电器科技有限公司 | 一种基于图像识别进行智能监控的方法及系统 |
CN116129353B (zh) * | 2023-02-07 | 2024-05-07 | 广州融赋数智技术服务有限公司 | 一种基于图像识别进行智能监控的方法及系统 |
CN115952446A (zh) * | 2023-03-13 | 2023-04-11 | 西安航天动力研究所 | 一种火箭发动机稳态振动响应预测方法、装置及设备 |
CN118427859A (zh) * | 2024-05-10 | 2024-08-02 | 深圳市德比网络设备有限公司 | 云电脑的数据传输方法及系统 |
CN118427859B (zh) * | 2024-05-10 | 2024-11-05 | 深圳市德比网络设备有限公司 | 云电脑的数据传输方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114973386B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114973386B (zh) | 一种深度挖掘混合特征的工地场景人脸目标检测方法 | |
CN109214349B (zh) | 一种基于语义分割增强的物体检测方法 | |
CN109635694B (zh) | 一种行人检测方法、装置、设备及计算机可读存储介质 | |
CN114863097B (zh) | 一种基于注意力机制卷积神经网络的红外弱小目标检测方法 | |
Wang et al. | Fully convolutional siamese networks based change detection for optical aerial images with focal contrastive loss | |
CN111738258A (zh) | 一种基于机器人巡检的指针式仪表读数识别方法 | |
CN111368754B (zh) | 一种基于全局上下文信息的机场跑道异物检测方法 | |
CN114565770B (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN113627229B (zh) | 目标检测方法、系统、设备以及计算机存储介质 | |
KR101908481B1 (ko) | 보행자 검출 장치 및 방법 | |
CN115311241A (zh) | 一种基于图像融合和特征增强的煤矿井下行人检测方法 | |
CN114782734A (zh) | 一种阀冷系统管道渗漏视觉检测方法及计算机与存储介质 | |
Gotkowski et al. | M3d-CAM: A PyTorch library to generate 3D data attention maps for medical deep learning | |
CN114549985A (zh) | 一种基于自监督对比学习的目标检测方法及系统 | |
Hua et al. | Cascaded panoptic segmentation method for high resolution remote sensing image | |
CN106709938A (zh) | 基于改进tld的多目标追踪方法 | |
CN116452939A (zh) | 基于多模态实体融合与对齐的社交媒体虚假信息检测方法 | |
CN118298282A (zh) | 基于边缘细化和增强网络的伪装目标检测算法 | |
CN115512222A (zh) | 一种线下训练-线上学习的灾害场景地物损毁评估方法 | |
Aarthi et al. | Detection and classification of MRI brain tumors using S3-DRLSTM based deep learning model | |
CN117612023A (zh) | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 | |
Wang et al. | Improvement of non-maximum suppression in RGB-D object detection | |
Thong et al. | Picture-Neutrosophic Trusted Safe Semi-Supervised Fuzzy Clustering for Noisy Data. | |
CN115048873B (zh) | 一种用于飞机发动机的剩余使用寿命预测系统 | |
CN111553272A (zh) | 基于深度学习的高分辨率卫星光学遥感影像建筑物变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221104 |