CN111814704B - 基于级联注意力与点监督机制的全卷积考场目标检测方法 - Google Patents

基于级联注意力与点监督机制的全卷积考场目标检测方法 Download PDF

Info

Publication number
CN111814704B
CN111814704B CN202010672308.6A CN202010672308A CN111814704B CN 111814704 B CN111814704 B CN 111814704B CN 202010672308 A CN202010672308 A CN 202010672308A CN 111814704 B CN111814704 B CN 111814704B
Authority
CN
China
Prior art keywords
convolution
examination room
target detection
network
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010672308.6A
Other languages
English (en)
Other versions
CN111814704A (zh
Inventor
马苗
田卓钰
郭敏
任杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010672308.6A priority Critical patent/CN111814704B/zh
Publication of CN111814704A publication Critical patent/CN111814704A/zh
Application granted granted Critical
Publication of CN111814704B publication Critical patent/CN111814704B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

一种基于级联注意力与点监督机制的全卷积考场目标检测方法,由构建全卷积考场目标检测网络模型、训练全卷积考场目标检测网络模型、检测测试集图像组成。本发明在FCOS方法的基础上,提出了级联注意力模块,插入骨干网络与特征金字塔网络之间,使特征金字塔网络获得显著的特征;在全卷积检测头部模块增加了点监督分支,使检测模型具有区分交叠目标能力,能在考生座位密集的考场监控场景下检测交叠目标,解决了密集场景下目标检测包围框回归不准确的问题。本发明精度为92.9%,检测速度为22.1帧/秒,提高了考场目标检测任务的精度与速度,可用于考场检测。

Description

基于级联注意力与点监督机制的全卷积考场目标检测方法
技术领域
本发明属于教育科学和图像处理的交叉研究技术领域,具体地涉及到标准化考场中的考生目标检测。
背景技术
考试是考核学习者知识水平和能力的主要途径。为了规范考场秩序、防范考生作弊行为,维护考试的公平和公正,我国目前主要采用现场考官巡查与电子视频监控相结合的方式进行监考。由于考场监控视频的数据量庞大、冗余信息过多,传统考场监控系统效率极低,监测人员往往会因劳动强度大而导致视觉疲劳,无法保证对多个考场监控画面进行高效监测,难以发现考生的异常行为。运用先进的计算机视觉技术服务于现行的各类考试,建设智慧考场,实现考生行为的智能化监控,对于减轻监测人员的压力、维护考场秩序和保证考试公平具有重要的现实意义。现有的考场智能化监测技术的研究较少,主要使用传统的图像处理技术监测异常情况,存在着准确率低、计算量大、速度慢等问题,无法满足考场监测的现实需求。
基于深度学习的目标检测技术可大致分为两阶段检测方法与单阶段检测方法两类。两阶段方法通常包括候选区域的生成及分类两个步骤,但其速度往往过慢,难以实际应用。单阶段方法利用卷积神经网络对整幅图像提取特征并直接预测回归目标的类别与位置,提高了目标检测的速度,但检测精度不高。另外目前大多数方法采用基于先验锚框的思想,不仅需要人工设计繁琐的锚框参数,而且当结合多尺度架构时会变得十分复杂。虽然近年来在目标检测领域出现了一些无锚框的目标检测方法,避免了手工设计锚框的步骤,但未考虑针对标准化考场下考生目标分布相对密集且因考生就坐位置与成像设备间的距离导致成像尺寸差异大的情况。
目标检测(FCOS)方法是一种基于全卷积网络的逐像素目标检测方法。该目标检测方法先对输入图片进行特征提取,以特征图中各个像素点为中心进行目标分类与包围框回归,FCOS方法由骨干网络、特征金字塔模块、全卷积检测头部三部分组成。骨干网络通常采用残差网络进行特征提取,将提取得到的一系列特征图输入至特征金字塔模块中进行多尺度特征融合,将不同尺度的特征图输入全卷积检测头部模块进行目标的分类与回归。全卷积检测头部模块包含分类分支和回归分支,其中分类分支包含分类得分图和Center-ness热力图,回归分支包含距离信息图。
考虑到真实考场监控视频中考生目标分布相对密集且因就坐位置与成像设备间的距离导致成像尺寸差异大,FCOS方法难以对其进行精确检测。另外,在FCOS方法中若标注的真实框重叠,位置(x,y)映射到原图中将得到多个真实框,则该位置被认为是模糊样本,重叠的真实框可能会在训练过程中造成难以处理的歧义。在教室监控场景下,目标分布密集,大多数目标会相互遮挡,仅使用FCOS方法中的多级预测和Center-ness方法难以确定检测框的边界,容易造成误判。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺点,提供一种方法能够有效进行考场目标检测的基于级联注意力与点监督机制的全卷积考场目标检测方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)构建全卷积考场目标检测网络模型
在Pytorch框架下,将基于级联注意力的特征增强模块的特征提取网络输出与采用点监督分支的检测模块连接构成基于级联注意力与点监督机制的全卷积考场目标检测网络模型。
(2)训练全卷积考场目标检测网络模型
(a)设置网络的超级参数
从标准化考场考生检测专用数据集中取700张图像作为训练集,180张图像作为测试集,训练集输入图像的像素大小为1000×600,数据批量为2,采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器,学习率初始设置为0.005~0.015并且在第35~40轮迭代处下降10倍,全卷积考场目标检测网络模型共训练45~50轮。
(b)网络参数的初始化
采用ImageNet数据集对骨干网络ResNet50进行预训练得到权重和偏置,将权重和偏置作为特征提取网络的初始权重和偏置,其他的网络均使用Xavier方法初始化。
(c)训练全卷积考场目标检测网络
将训练集中的所有图像输入全卷积考场目标检测网络进行前向传播并计算损失函数,损失函数是分类损失和回归损失的和,其中分类损失由得分图损失、Center-ness损失、点监督损失组成,回归损失为交并比损失,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新全卷积考场目标检测网络的权重和偏置,直至达到设定的迭代次数,训练结束,得到训练好的全卷积考场目标检测网络。
(3)检测测试集图像
(a)设置网络参数
设置区域置信度输出阈值为0.05,单张图最大检测目标数为100,其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的全卷积考场目标检测网络中,输出考场目标检测的结果图。
在步骤(1)中,本发明的基于级联注意力与点监督机制的全卷积考场目标检测网络模型由骨干网络、级联注意力模块、特征金字塔网络、全卷积检测头部模块四部分组成,骨干网络的输出与级联注意力模块的输入相连,级联注意力模块的输出与特征金字塔网络的输入相连,特征金字塔网络的输出与全卷积检测头部模块的输入相连。
本发明的级联注意力模块由3个级联注意力层组成,该级联注意力层以骨干网络的特征图作为输入,通过空间注意力机制SA得到具有空间注意力的一级特征F’;将该特征与原始输入特征图拼接并进行卷积操作,得到二级特征F”;重复该操作,将二级特征再次与原始输入特征图拼接并卷积,得到三级特征F”’;对一级特征、二级特征、三级特征进行拼接融合,将融合后的特征输入至通道注意力机制CA中,得到输出特征Foutput,其表达式如下:
Figure BDA0002582763730000031
式中F为输入特征图,符号
Figure BDA0002582763730000032
为特征图拼接操作,Conv为两次1×1的卷积操作。
本发明的全卷积检测头部模块由分类分支和回归分支组成,分类分支由分类卷积模块、分类得分图、Center-ness热力图和点监督分支组成,回归分支由回归卷积模块、距离信息图组成。
本发明的点监督分支的构建方法为:在训练阶段以置信度P认为各目标中心点附近的区域属于该目标的中心点,将以目标中心C为圆心、(1-P)为半径生成中心点区域,并将中心点区域的标签置为1,其余区域置为0,使用二进制交叉熵损失函数对该分支进行监督。
本发明在FCOS方法的基础上,提出了级联注意力模块,插入骨干网络与特征金字塔网络之间,使特征金字塔网络自适应地获得显著的特征;在全卷积检测头部模块增加了点监督分支,使检测模型具有区分交叠目标的能力,能在考生座位密集的考场监控场景下检测交叠目标,解决了密集场景下目标检测包围框回归不准确的技术问题;用标准化考场中的考生目标图像集训练得基于级联注意力与点监督机制的全卷积考场目标检测网络。在标准化考场考生检测专用数据集上的实验结果表明,本发明平均精度达到92.9%,检测速度为22.1帧/秒,有效地提高了考场目标检测任务的精度与速度。本发明与现有技术相比,具有检测区域准确、检测速度快等优点,可用于考场检测。
附图说明
图1是本发明实施例1的流程图。
图2是图1中全卷积考场目标检测网络模型结构图。
图3是图2中全卷积检测头部模块中分类分支的结构图。
图4是图2中全卷积检测头部模块中回归分支的结构图。
图5是标准化考场考生检测专用数据集中的图像。
图6是图5经过全卷积考场目标检测网络模型后输出的考生目标检测结果图。
具体实施方式
下面结合附图和实例对本发明进行进一步的说明,但本发明不限于下述实例。
实施例1
以在标准化考场考生检测专用数据集为例,基于级联注意力与点监督机制的全卷积考场目标检测方法步骤如下(参见图1):
(1)构建全卷积考场目标检测网络模型
在Pytorch框架下,将基于级联注意力的特征增强模块的特征提取网络输出与采用点监督分支的检测模块连接构成基于级联注意力与点监督机制的全卷积考场目标检测网络模型。
在图2中,本实施例的基于级联注意力与点监督机制的全卷积考场目标检测网络模型由骨干网络1、级联注意力模块2、特征金字塔网络3、全卷积检测头部模块4四部分组成,其中骨干网络1由3个依次相连的特征提取层组成,级联注意力模块2由3个依次相连的级联注意力层组成,特征金字塔网络3由5个依次相连的特征提取层组成,全卷积检测头部模块4由5个依次相连的全卷积检测头部层组成;骨干网络1的输出与级联注意力模块2的输入相连,级联注意力模块2的输出与特征金字塔网络3的输入相连,特征金字塔网络3的输出与全卷积检测头部模块4的输入相连。
本实施例级联注意力模块2的构建方法为:以骨干网络1的特征图作为输入,通过空间注意力机制SA得到具有空间注意力的一级特征F’;将该特征与原始输入特征图拼接并进行卷积操作,得到二级特征F”;重复该操作,将二级特征再次与原始输入特征图拼接并卷积,得到三级特征F”’;对一级特征、二级特征、三级特征进行拼接融合,融合后的特征输入至通道注意力机制CA中,得到输出特征Foutput,其表达式如下:
Figure BDA0002582763730000051
式中F为输入特征图,符号
Figure BDA0002582763730000052
为特征图拼接操作,Conv为两次1×1的卷积操作;
在图3、4中,本实施例的全卷积检测头部模块4由分类分支和回归分支组成,分类分支由分类卷积模块4-1、分类得分图4-2、Center-ness热力图4-3和点监督分支4-4组成,其中分类卷积模块4-1由4个1×1卷积依次相连构成;回归分支由回归卷积模块4-5、距离信息图4-6组成,其中回归卷积模块4-5由4个1×1卷积依次相连构成。具体为将多尺度特征图输入分类分支中,经过四次1×1卷积,得到分类得分图4-2与Center-ness热力图4-3。分类得分图4-2在各点预测存在各类别目标的概率,大于置信度阈值的点被认为存在目标;Center-ness热力图4-3的通道数为1,该图负责预测各点距所属目标中心点的距离,距离目标中心越近,其值越高;将多尺度特征图输入回归分支中,经过四次1×1卷积后通过预测一个四通道的距离信息图v*(l*,t*,r*,b*)来回归目标位置,各像素点的回归目标位置可以用公式表示为:
Figure BDA0002582763730000061
其中,l*,t*,r*,b*表示像素点(x,y)到四条边框的距离,(x0 (i),y0 (i))和(x1 (i),y1 (i))表示包围框左上角和右下角的坐标。
本实施例的点监督分支4-4的构建方法为:在训练阶段以置信度P认为各目标中心点附近的区域属于该目标的中心点,将以目标中心C为圆心、(1-P)为半径生成中心点区域,并将中心点区域的标签置为1,其余区域置为0,使用二进制交叉熵损失函数对该分支进行监督。
本实施例的级联注意力模块2的构建方法:将级级联注意力模块2插入骨干网络1与特征金字塔网络3之间可以使特征金字塔网络3自适应地获得更显著的特征,通过级联的方式逐级修正增强了特征;为了更好地处理密集或有遮挡的目标,在全卷积检测头部模块4增加了点监督分支4-4,使得本发明具有区分交叠目标的能力,能够更好地在考生座位密集的考场监控场景下处理交叠的目标,改善密集场景下目标检测包围框回归不准确的现象。
(2)训练全卷积考场目标检测网络模型
(a)设置网络的超级参数
从标准化考场考生检测专用数据集中取700张图像作为训练集,180张图像作为测试集,训练集输入图像的像素大小为1000×600,数据批量为2,采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器,学习率初始设置为0.01并且在第36轮迭代处下降10倍,全卷积考场目标检测网络模型共训练48轮;
(b)网络参数的初始化
采用ImageNet数据集对骨干网络ResNet50进行预训练,得到权重和偏置,将权重和偏置作为特征提取网络的初始权重和偏置,其他的网络均使用Xavier方法初始化。
(c)训练全卷积考场目标检测网络
将训练集中的所有图像输入全卷积考场目标检测网络进行前向传播并计算损失函数,损失函数是分类损失和回归损失的和,其中分类损失由得分图损失、Center-ness损失、点监督损失组成,回归损失为交并比损失,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新全卷积考场目标检测网络的权重和偏置,直至达到设定的迭代次数,训练结束,得到训练好的全卷积考场目标检测网络。
本实施例的损失函数L如下:
L=LCls+λLReg
其中,Lcls和Lreg分别表示分类损失和回归损失;λ为调衡参数,用于平衡两类损失之间的重要性,本实施例设定λ为1;上式中的分类损失Lcls为:
Figure BDA0002582763730000071
其中,α为Focal Loss中平衡正负样本的权重因子,γ为Focal Loss中平衡难易样本的权重因子,本实施例取α为0.25,γ为2.0,Pscore、Pcenterness、Ppoint分别为分类得分图、Center-ness为热力图、点监督分支各个位置的预测值。上式中的回归损失LReg为:
Figure BDA0002582763730000072
其中,Areapredict表示网络预测的检测框所在区域,Areagroundtruth表示真实目标框所在区域。
(3)检测测试集图像
(a)设置网络参数
设置区域置信度输出阈值为0.05,单张图最大检测目标数为100,其他参数均为网络默认值。
(b)将测试集中的图像输入训练好的全卷积考场目标检测网络中,输出考场目标检测的结果图,将测试集中的图5输入全卷积考场目标检测网络中输出达到置信度的包围框,输出得到考生目标检测结果图见图6,由图6可见,本发明可以有效地检测考生目标。
实施例2
以在标准化考场考生检测专用数据集为例,基于级联注意力与点监督机制的全卷积考场目标检测方法步骤如下:
(1)构建全卷积考场目标检测网络模型
该步骤与实施例1相同。
(2)训练全卷积考场目标检测网络模型
(a)设置网络的超级参数
从标准化考场考生检测专用数据集中取700张图像作为训练集,180张图像作为测试集,训练集输入图像的像素大小为1000×600,数据批量为2,采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器,学习率初始设置为0.005并且在第35轮迭代处下降10倍,全卷积考场目标检测网络模型共训练45轮。
该步骤中的其它步骤与实施例1相同。
(3)检测测试集图像
该步骤与实施例1相同。
实施例3
以在标准化考场考生检测专用数据集为例,基于级联注意力与点监督机制的全卷积考场目标检测方法步骤如下:
(1)构建全卷积考场目标检测网络模型
该步骤与实施例1相同。
(2)训练全卷积考场目标检测网络模型
(a)设置网络的超级参数
从标准化考场考生检测专用数据集中取700张图像作为训练集,180张图像作为测试集,训练集输入图像的像素大小为1000×600,数据批量为2,采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器,学习率初始设置为0.015并且在第40轮迭代处下降10倍,全卷积考场目标检测网络模型共训练50轮。
该步骤中的其它步骤与实施例1相同。
(3)检测测试集图像
该步骤与实施例1相同。
为例验证本发明的有益效果,发明人采用本发明实施例1的基于级联注意力与点监督机制的全卷积考场目标检测方法与FCOS方法、目标检测(SSD)方法、目标检测(RetinaNet)方法、目标检测(Faster-RCNN)方法、目标检测(Cascade-RCNN)方法进行了对比实验,实验结果见表1。
表1实施例1方法与现有方法性能对比表
网络模型 骨干网络 平均精度(%) 检测速度(帧/秒)
Faster-RCNN ResNet50 89.4 8.2
Faster-RCNN* ResNet50 90.2 8.2
Faster-RCNN* ResNet50+FPN 91.9 14.5
Cascade_RCNN ResNet50+FPN 92.5 6.3
SSD ResNet50+FPN 89.6 20.3
RetinaNet ResNet50+FPN 91.3 18.5
FCOS(baseline) ResNet50+FPN 91.1 22.4
实施例1 ResNet50+FPN 92.9 22.1
由表1可见,原始的FCOS方法虽然在所有方法中取得了最快的检测速度22.4帧/秒,其检测精度为91.1%,明显低于两阶段方法(Faster-RCNN,Cascade-RCNN)。在FCOS方法中添加了级联注意力模块并引入了点监督分支后,实施例1方法的检测精度达到了92.9%,同时保持22.1帧/秒的速度,达到了最优的性能。
与目前具有优异性能的单阶段方法SSD和RetinaNet相比,实施例1方法不仅拥有更高的检测精度,还拥有更快地检测速度。实施例1的方法检测精度优于Faster-RCNN方法3.91%、优于使用RoI-Align方法的Faster-RCNN方法2.99%,检测速度高于Faster-RCNN方法169.5%。同时使用FPN方法与RoI-Align方法的Faster-RCNN方法,实施例1的方法的检测精度优于其平均精度1.09%,检测速度高于其检测速度52.3%。与高精度的Cascade-RCNN方法相比,实施例1的方法高于其平均精度,检测速度高于其250.8%。综合考虑平均检测精度、检测速度两个因素,本实施例1的考场目标检测方法优于其它检测方法。

Claims (2)

1.一种基于级联注意力与点监督机制的全卷积考场目标检测方法,其特征在于由下述步骤组成:
(1)构建全卷积考场目标检测网络模型
在Pytorch框架下,将基于级联注意力的特征增强模块的特征提取网络输出与采用点监督分支(4-4)的检测模块连接构成基于级联注意力与点监督机制的全卷积考场目标检测网络模型;
点监督分支(4-4)的构建方法为:在训练阶段以置信度P认为各目标中心点附近的区域属于该目标的中心点,将以目标中心C为圆心、(1-P)为半径生成中心点区域,并将中心点区域的标签置为1,其余区域置为0,使用二进制交叉熵损失函数对该分支进行监督;
所述的基于级联注意力与点监督机制的全卷积考场目标检测网络模型由骨干网络(1)、级联注意力模块(2)、特征金字塔网络(3)、全卷积检测头部模块(4)四部分组成,骨干网络(1)的输出与级联注意力模块(2)的输入相连,级联注意力模块(2)的输出与特征金字塔网络(3)的输入相连,特征金字塔网络(3)的输出与全卷积检测头部模块(4)的输入相连;
所述的级联注意力模块(2)由3个级联注意力层组成,该级联注意力层以骨干网络(1)的特征图作为输入,通过空间注意力机制SA得到具有空间注意力的一级特征F’;将该特征与原始输入特征图拼接并进行卷积操作,得到二级特征F”;重复该操作,将二级特征再次与原始输入特征图拼接并卷积,得到三级特征F”’;对一级特征、二级特征、三级特征进行拼接融合,将融合后的特征输入至通道注意力机制CA中,得到输出特征Foutput,其表达式如下:
Figure FDA0003267245820000011
式中F为输入特征图,符号
Figure FDA0003267245820000012
为特征图拼接操作,Conv为两次1×1的卷积操作;
(2)训练全卷积考场目标检测网络模型
(a)设置网络的超级参数
从标准化考场考生检测专用数据集中取700张图像作为训练集,180张图像作为测试集,训练集输入图像的像素大小为1000×600,数据批量为2,采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器,学习率初始设置为0.005~0.015并且在第35~40轮迭代处下降10倍,全卷积考场目标检测网络模型共训练45~50轮;
(b)网络参数的初始化
采用ImageNet数据集对骨干网络ResNet50进行预训练得到权重和偏置,将权重和偏置作为特征提取网络的初始权重和偏置,其他的网络均使用Xavier方法初始化;
(c)训练全卷积考场目标检测网络
将训练集中的所有图像输入全卷积考场目标检测网络进行前向传播并计算损失函数,损失函数是分类损失和回归损失的和,其中分类损失由得分图损失、Center-ness损失、点监督损失组成,回归损失为交并比损失,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新全卷积考场目标检测网络的权重和偏置,直至达到设定的迭代次数,训练结束,得到训练好的全卷积考场目标检测网络;
(3)检测测试集图像
(a)设置网络参数
设置区域置信度输出阈值为0.05,单张图最大检测目标数为100,其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的全卷积考场目标检测网络中,输出考场目标检测的结果图。
2.根据权利要求1所述的基于级联注意力与点监督机制的全卷积考场目标检测方法,其特征在于:所述的全卷积检测头部模块(4)由分类分支和回归分支组成,分类分支由分类卷积模块(4-1)、分类得分图(4-2)、Center-ness热力图(4-3)和点监督分支(4-4)组成,回归分支由回归卷积模块(4-5)、距离信息图(4-6)组成。
CN202010672308.6A 2020-07-14 2020-07-14 基于级联注意力与点监督机制的全卷积考场目标检测方法 Expired - Fee Related CN111814704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672308.6A CN111814704B (zh) 2020-07-14 2020-07-14 基于级联注意力与点监督机制的全卷积考场目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672308.6A CN111814704B (zh) 2020-07-14 2020-07-14 基于级联注意力与点监督机制的全卷积考场目标检测方法

Publications (2)

Publication Number Publication Date
CN111814704A CN111814704A (zh) 2020-10-23
CN111814704B true CN111814704B (zh) 2021-11-26

Family

ID=72843511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672308.6A Expired - Fee Related CN111814704B (zh) 2020-07-14 2020-07-14 基于级联注意力与点监督机制的全卷积考场目标检测方法

Country Status (1)

Country Link
CN (1) CN111814704B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417990B (zh) * 2020-10-30 2023-05-09 四川天翼网络股份有限公司 一种考试学生违规行为识别方法及系统
CN113435466B (zh) * 2020-12-26 2024-07-05 上海有个机器人有限公司 电梯门位置和开关状态的检测方法、装置、介质和终端
CN112733730B (zh) * 2021-01-12 2022-11-18 中国石油大学(华东) 采油作业现场吸烟人员识别处理方法及系统
CN113256678B (zh) * 2021-04-26 2022-02-18 中国人民解放军32802部队 基于自注意力变换网络的目标跟踪方法
CN113159193B (zh) * 2021-04-26 2024-05-21 京东科技信息技术有限公司 模型训练方法、图像识别方法、存储介质及程序产品
CN113780187A (zh) * 2021-09-13 2021-12-10 南京邮电大学 交通标志识别模型训练方法、交通标志识别方法和装置
CN113971660B (zh) * 2021-09-30 2022-11-08 哈尔滨工业大学 桥梁健康诊断的计算机视觉方法和智能摄像系统
CN113822277B (zh) * 2021-11-19 2022-02-18 万商云集(成都)科技股份有限公司 基于深度学习目标检测的违规广告图片检测方法及系统
CN114519830A (zh) * 2022-02-16 2022-05-20 复旦大学 一种基于深度学习的大型会场座席定位方法
CN114333070A (zh) * 2022-03-10 2022-04-12 山东山大鸥玛软件股份有限公司 一种基于深度学习的考生异常行为检测方法
CN114494250A (zh) * 2022-04-01 2022-05-13 浙江大学湖州研究院 基于神经网络模型的地板缺陷检测方法
CN114841244B (zh) * 2022-04-05 2024-03-12 西北工业大学 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN115049884B (zh) * 2022-08-15 2022-10-25 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171141A (zh) * 2017-12-25 2018-06-15 淮阴工学院 基于注意力模型的级联多模式融合的视频目标跟踪方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204779B (zh) * 2016-06-30 2018-08-31 陕西师范大学 基于多人脸数据采集策略和深度学习的课堂考勤方法
CN109815816B (zh) * 2018-12-24 2023-02-03 山东山大鸥玛软件股份有限公司 一种基于深度学习的考生考场异常行为分析方法
CN109711377B (zh) * 2018-12-30 2023-04-18 陕西师范大学 标准化考场监控的单帧图像中考生定位和计数方法
CN111259844B (zh) * 2020-01-21 2023-02-24 陕西师范大学 标准化考场考生实时监控方法
CN111401201B (zh) * 2020-03-10 2023-06-20 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171141A (zh) * 2017-12-25 2018-06-15 淮阴工学院 基于注意力模型的级联多模式融合的视频目标跟踪方法

Also Published As

Publication number Publication date
CN111814704A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111814704B (zh) 基于级联注意力与点监督机制的全卷积考场目标检测方法
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN108537215B (zh) 一种基于图像目标检测的火焰检测方法
CN108921051B (zh) 基于循环神经网络注意力模型的行人属性识别网络及技术
CN111488921B (zh) 一种全景数字病理图像智能分析系统及方法
CN111898406B (zh) 基于焦点损失和多任务级联的人脸检测方法
WO2019140767A1 (zh) 安检识别系统及其控制方法
CN106897738B (zh) 一种基于半监督学习的行人检测方法
CN110378232B (zh) 改进的ssd双网络的考场考生位置快速检测方法
CN112102229A (zh) 一种基于深度学习的工业ct检测缺陷的智能识别方法
CN112819821B (zh) 一种细胞核图像检测方法
CN113221710A (zh) 基于神经网络的排水管道缺陷识别方法、装置、设备及介质
CN112926652A (zh) 一种基于深度学习的鱼类细粒度图像识别方法
CN110716792B (zh) 一种目标检测器及其构建方法和应用
CN111275677A (zh) 一种基于卷积神经网络的天花板震害的识别方法
CN114821299B (zh) 一种遥感图像变化检测方法
CN111860587A (zh) 一种用于图片小目标的检测方法
CN111666852A (zh) 一种基于卷积神经网络的微表情双流网络识别方法
CN114359629A (zh) 一种基于深度迁移学习的肺炎x胸片分类识别方法
CN115346149A (zh) 基于时空图卷积网络的跳绳计数方法和系统
CN111539456A (zh) 一种目标识别方法及设备
CN112419243A (zh) 一种基于红外图像分析的配电房设备故障识别方法
CN116523711A (zh) 基于人工智能的教育监管系统及其方法
CN117152528A (zh) 绝缘子状态识别方法、装置、设备、存储介质和程序产品
CN113469977B (zh) 一种基于蒸馏学习机制的瑕疵检测装置、方法、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211126

CF01 Termination of patent right due to non-payment of annual fee