CN112417974A - 一种公共卫生监控方法 - Google Patents

一种公共卫生监控方法 Download PDF

Info

Publication number
CN112417974A
CN112417974A CN202011147610.6A CN202011147610A CN112417974A CN 112417974 A CN112417974 A CN 112417974A CN 202011147610 A CN202011147610 A CN 202011147610A CN 112417974 A CN112417974 A CN 112417974A
Authority
CN
China
Prior art keywords
network
target
image
feature maps
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011147610.6A
Other languages
English (en)
Inventor
赵巧芝
岳庆冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Cresun Innovation Technology Co Ltd
Original Assignee
Xian Cresun Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Cresun Innovation Technology Co Ltd filed Critical Xian Cresun Innovation Technology Co Ltd
Priority to CN202011147610.6A priority Critical patent/CN112417974A/zh
Publication of CN112417974A publication Critical patent/CN112417974A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种公共卫生监控方法,方法包括:获取待检测的目标图像;将目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于4的自然数;将x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,得到各尺度对应的预测结果;将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到目标图像中每个目标的识别结果,识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇。本发明可以实现:能够检测不同尺度的人群,不会出现对小目标的漏检,实现精确检测;并且能提高检测的精度和速度,实现实时检测。

Description

一种公共卫生监控方法
技术领域
本发明属于监控领域,具体涉及一种公共卫生监控方法。
背景技术
公共卫生关系到一国或一个地区人民大众的健康,因此受到高度重视。
但是,新冠病毒具有极强的传染性,很容易通过飞沫等方式在人与人之间传播,需要人们佩戴口罩以减少交叉感染,因此在疫情防控期间,出入各种公共场所均需要佩戴口罩,尤其是室内人群聚集的电影院、会议室等,在对佩戴口罩的排查上更为严格。现有的方法主要是在公共场所播放提示语“请佩戴口罩!”,以及工作人员人工检查是否佩戴口罩,但是这样做费时费力,还容易出现漏检,比如一些小孩不能被准确检查出来,并且不能实时监控人们是否一直佩戴口罩。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种公共卫生监控方法。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供了一种公共卫生监控方法,包括:
获取待检测的目标图像;
将所述待检测的目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于4的自然数;
将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,得到各尺度对应的预测结果;
将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到所述目标图像中每个目标的识别结果,所述识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇;
若所述类别中至少有一个为嘴唇,则输出警示信息;
其中,所述面部图像检测网络包括顺次连接的主干网络、FPN网络、分类网络和非极大值抑制模块;所述面部图像检测网络是根据样本图像,以及所述样本图像中各个目标的类别和位置训练得到的。
在本发明的一个实施例中,所述面部图像检测网络的主干网络包括:串接的y个残差模块;y为大于等于4的自然数;y大于等于x;
所述利用主干网络进行特征提取,得到x个不同尺度的特征图,包括:
利用串接的y个残差模块对所述目标图像进行特征提取,得到沿输入逆向的x个残差模块输出的、尺度依次增大的x个特征图。
在本发明的一个实施例中,所述FPN网络包括尺度依次增大的x个预测支路Y1~Yx;其中,所述预测支路Y1~Yx的尺度与所述x个特征图的尺度一一对应;
所述将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,包括:
针对预测支路Yi,从所述x个特征图中,获取对应尺度的特征图并进行卷积处理,将卷积处理后的特征图,与预测支路Yi-1~Y1分别经上采样处理后的特征图进行级联融合;其中,预测支路Yi-j的上采样倍数为2j;i=2、3,…,x;j为小于i的自然数。
在本发明的一个实施例中,对所述面部图像检测网络进行训练之前还包括:
从获取的原始图像中提取每个面部所在区域中的内容,得到包含多个面部图像的目标图像;其中,所述原始图像包含至少一个面部。
在本发明的一个实施例中,通过人脸检测技术SSH、MTCNN算法实现对每个面部的定位和提取。
在本发明的一个实施例中,所述警示信息至少包括语音提示信息、闪烁灯提示信息中的一种。
第二方面,本发明提供了一种公共卫生监控系统,包括:
获取模块,用于获取待检测的目标图像;
特征提取模块,用于将所述目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于4的自然数;
特征融合模块,用于将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式特征融合,得到各尺度对应的预测结果;
分类及NMS模块,用于将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到所述目标图像中每个目标的识别结果,所述识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇;
警示信息控制模块,用于控制警示信息的输出;
其中,所述面部图像检测网络包括顺次连接的主干网络、FPN网络、分类网络和非极大值抑制模块;所述面部图像检测网络是根据样本图像,以及所述样本图像中各个目标的类别和位置训练得到的。
在本发明的一个实施例中,所述面部图像检测网络的主干网络包括:串接的y个残差模块;y为大于等于4的自然数;y大于等于x;
所述利用主干网络进行特征提取,得到x个不同尺度的特征图,包括:
利用串接的y个残差模块对所述面部图像进行特征提取,得到沿输入逆向的x个残差模块输出的、尺度依次增大的x个特征图。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上面任一所述的方法步骤。
第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上面任一所述的方法步骤。
本发明的有益效果:
本发明将特征图由浅到深进行传递,提取至少四个尺度的特征图,通过增加细粒度的特征提取尺度,让网络能够检测不同尺度的人群,不会出现对小目标的漏检,从而实现精确检测。
本发明通过利用FPN网络,采用密集连接方式进行特征融合,将深层特征直接进行不同倍数的上采样,以此来使得传递的所有特征图具有相同的尺寸,将这些特征图和浅层的特征图通过级联的方式融合起来,可以利用到更多的原始信息,在浅层网络中也有高维语义信息的参与,有助于提高检测的精度;同时通过直接接收更浅层网络的特征,可以得到更加具体的特征,将有效的减少特征的损失,可以减少需要运算的参数量,提高检测速度,实现实时检测。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1为本发明实施例提供的一种公共卫生监控方法的流程示意图;
图2为本发明实施例提供的一种面部图像检测网络的结构示意图;
图3为本发明实施例提供的改进的主干网络;
图4为本发明实施例提供的一种公共卫生监控系统的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
本发明实施例提供了一种公共卫生监控方法、系统、电子设备及存储介质。
需要说明的是,本发明实施例所提供的一种公共卫生监控方法的执行主体可以为一种公共卫生监控系统,该公共卫生监控系统可以运行于电子设备中。其中,该电子设备可以为设置于密集场所的监控设备之中,当然并不局限于此。
第一方面,本发明实施例提供一种公共卫生监控方法。下面,首先对该公共卫生监控方法进行介绍。
如图1所示,本发明实施例所提供的一种公共卫生监控方法,可以包括如下步骤:
S1,获取待检测的目标图像,所述目标图像中含有多个正面人脸;
所述目标图像为图像采集设备在密集场所拍摄的原始图像,经过人脸检测技术或其他定位和提取技术后得到的仅包含有多个正面人脸的图像。
图像采集设备可以设置在密集场所的入口、前方,此处不做限制。
图像采集设备可以包括摄像头、摄像机、照相机、手机等等;可选的实施方式中,图像采集设备可以为高分辨率摄像头。
图像采集设备可以连续不断采集对应区域的原始图像,通过人脸检测技术如SSH、MTCNN算法实现对每个面部的定位和提取,从而获得目标图像。
所述原始图像中至少含有一个面部,所要检测的目标为所述面部的口罩或者嘴唇。
本发明实施例中,要求待检测的面部图像的尺寸为416×416×3。
因此,在该步骤,一种实施方式中,可以直接获得416×416×3尺寸的面部图像;另一种实施方式中,可以获得任意尺寸的图像,将获得的图像经过一定的尺寸缩放处理,得到416×416×3尺寸的面部图像。
并且,在上述两种实施方式中,还可以对获取到的图像可以进行裁剪、拼接、平滑、滤波、边缘填充等图像增强操作,以增强图像中感兴趣的特征,扩展数据集的泛化能力。
S2,将所述待检测的目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于 4的自然数;
为了便于理解本发明实施例的公共卫生监控方法的具体实施步骤,以下结合面部图像检测网络的结构进行说明,请参见图2,图2为本发明实施例提供的一种面部图像检测网络的结构示意图。
在图2中,虚线框内的部分为面部图像检测网络。所述面部图像检测网络包括顺次连接的主干网络、FPN网络、分类网络和非极大值抑制模块。所述面部图像检测网络是根据样本图像,以及所述样本图像中各个目标的类别和位置训练得到的。关于训练过程在后文中予以介绍。
图2中点划线框内的部分为其主干(backbone)网络,采用darknet-53 网络形式,用于特征提取;所述面部图像检测网络的所述主干网络包括:串接的y个残差模块;y为大于等于4的自然数;y大于等于x;
示例性的,在图2中,所述主干网络由CBL模块和5个resn模块串接构成。CBL模块为卷积网络模块,包括串行连接的conv层(Convolutional layer,卷积层,简称conv层)、BN(Batch Normalization,批量归一化)层和激活函数Leaky relu对应的Leaky relu层,CBL即表示conv+BN+Leaky relu。resn模块为残差模块,n代表自然数,如图2所示,具体地,沿输入方向依次有res1、res2、res8、res8、res4;resn模块包括串行连接的zero padding(零填充)层、CBL模块和残差单元组,残差单元组用Res unit*n表示,含义是包括n个残差单元Resunit,每个残差单元包括采用残差网络 (Residual Network,简称为ResNets)连接形式连接的多个CBL模块,特征融合方式采用并行方式,即add方式。
针对S2步骤,所述利用主干网络进行特征提取,得到x个不同尺度的特征图,具体包括:利用串接的y个残差模块对所述目标图像进行特征提取,得到沿输入逆向的x个残差模块输出的、尺度依次增大的x个特征图。
参见图2理解,图2中以y=5,x=4进行示例。主干网络利用5个残差模块对输入的面部图像(图2中简称为图像)进行由浅至深的特征提取,在其中 4个残差模块之后输出提取到的特征图。即沿输入逆向的4个残差模块res4、 res8、res8和res2分别输出对应的特征图,这些特征图的尺度依次增大。具体的,各个特征图的尺度分别为13×13×72、26×26×72、52×52×72、104 ×104×72。
本发明实施将特征图由浅到深进行传递,提取至少四个尺度的特征图,通过增加细粒度的特征提取尺度,让网络能够检测不同尺度的口罩或者嘴唇,从而在后续能够精确检测是否有人未戴口罩。
S3,将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,得到各尺度对应的预测结果;
参见图2,除主干网络、分类网络和非极大值抑制模块之外的其余部分为FPN(Feature Pyramid Networks,特征金字塔网络)网络,所述FPN网络包括尺度依次增大的x个预测支路Y1~Yx;其中,所述预测支路Y1~Yx的尺度与所述x个特征图的尺度一一对应;参见图2,即预测支路Y1~Yx的尺度分别与沿输入逆向的4个残差模块res4、res8、res8和res2分别输出对应的特征图的尺度一一对应。
所述将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,包括:
针对预测支路Yi,从所述x个特征图中,获取对应尺度的特征图并进行卷积处理,将卷积处理后的特征图,与预测支路Yi-1~Y1分别经上采样处理后的特征图进行级联融合;其中,预测支路Yi-j的上采样倍数为2j;i=2、3,…, x;j为小于i的自然数。
参见图2进行理解;以i=3也就是预测支路Y3为例说明,其进行级联融合处理的特征图来源于三方面:第一方面,是从4个特征图中,获取对应尺度的特征图并进行卷积处理,也就是沿输入逆向的第三个残差模块res8输出的特征图经CBL模块后的特征图,该特征图也可以理解为经过1倍上采样,尺寸是52×52×72;第二方面来源于预测支路Y2(即Yi-1=Y2),即沿输入逆向的第二个残差模块res8输出的特征图(尺寸是26×26×72)经过预测支路Y2的 CBL模块再经21=2倍上采样处理后的特征图(尺寸是52×52×72);第三方面来源于预测支路Y1(即Yi-2=Y1),即沿输入逆向的第一个残差模块res4输出的特征图(尺寸是13×13×72)经预测支路Y1的CBL模块后再经22=4倍上采样处理后的特征图(尺寸是52×52×72);那么,本领域技术人员可以理解的是,上述过程将主干网络输出的三个不同尺度的特征图经过不同倍数的上采样处理后,可以使得待级联融合的三个特征图的尺寸一致,均为52×52×72。这样,预测支路Y3可以在级联融合之后,继续进行卷积等处理,得到预测结果Y3,Y3尺寸为52×52×72。
关于其余预测支路的特征融合过程,请参见预测支路Y3,在此不再赘述。而针对预测支路Y1,其获取沿输入逆向的第一个残差模块输出的特征图后自行进行后续的预测过程,并不接受其余预测支路的特征图与之融合。
本实施例采用密集连接的融合方法,即深层特征直接进行不同倍数的上采样,以此来使得传递的所有特征图具有相同的尺寸。将这些特征图和浅层的特征图通过级联的方式融合起来,对融合的结果再次提取特征来消除里面的噪声,保留主要信息,然后进行预测,这样可以利用到更多的原始信息,在浅层网络中也有高维语义信息的参与。有助于提高检测的精度;同时通过直接接收更浅层网络的特征,可以得到更加具体的特征,将有效的减少特征的损失,可以减少需要运算的参数量,提高检测速度,实现实时检测。
在该步骤中,主要针对特征融合方式进行介绍,各预测支路在特征融合之后主要是利用一些卷积操作进行预测,关于如何获取各自的预测结果请参见相关的现有技术,在此不进行说明。各预测支路的预测结果分别为 Y1~Y4,尺寸在名称之下标识,具体请参见图2的网络结构图进行理解。
S4,将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到所述目标图像中每个目标的识别结果,所述识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇;
针对每一目标,检测结果的形式为一向量,包含预测框的位置、预测框内目标的置信度、预测框内目标的类别。预测框的位置用来表征目标在所述目标图像中的位置;具体的,每个预测框的位置用bx,by,bw,bh四个值表示, bx,by用于表示预测框的中心点位置,bw,bh为用于表示预测框的宽和高。
目标的类别为口罩、嘴唇。
可选的,所述分类网络可以为SoftMax分类器,也可以用logistic回归进行分类,目的是实现检测结果的分类。
非极大值抑制模块用于进行NMS(non_max_suppression,非极大值抑制) 处理,用于在重复框选同一目标的多个检测框中,排除置信度相对较小的检测框。
关于分类网络和非极大值抑制模块的处理过程请参见相关的现有技术,在此不做赘述。
在图2中,4个预测支路共输出四个尺度的特征图,分别为13×13×72、 26×26×72、52×52×72、104×104×72,最小的13×13×72的特征图上由于其感受野最大,适合较大的目标检测;中等的26×26×72特征图上由于其具有中等感受野,适合检测中等大小的目标;较大的52×52×72特征图上由于其具有较小的感受野,适合检测较小的目标;最大的104×104×72特征图上由于其具有更小的感受野,故适合检测再小的目标。本发明实施例对图像的划分更加精细,预测结果对尺寸较小的人更有针对性。
以下,对所述面部图像检测网络的训练前过程以及训练过程予以简单介绍。
首先搭建出具体的网络结构,如图2所示。
其次,获得若干样本图像,以及所述样本图像对应目标的位置和类别。在该过程中,各样本图像对应目标的位置和类别是已知的,确定各样本图像对应目标的位置和类别的方式可以是:通过人工识别,或者通过其他图像识别工具识别等等。之后,需要对样本图像进行标记,可以采用人工标记方式,当然也可以利用其余人工智能方法进行非人工标记,这都是合理的。其中,各样本图像对应目标的位置是以包含目标的目标框的形式标记的,这个目标框是真实准确的,各个目标框标记有坐标信息,以此来体现目标在图像中的位置。
再次,确定样本图像中的锚盒尺寸;可以包括以下步骤:
a)确定针对样本图像中锚盒尺寸的待聚类数量;
在目标检测领域,锚盒(anchor box)就是从训练集中真实框(ground truth) 中统计或聚类得到的几个不同尺寸的框;锚盒其实就是对预测的对象范围进行约束,并加入了尺寸先验经验,从而实现多尺度学习的目的。在本发明实施例中,由于希望加入更细粒度的特征提取尺度,需要利用聚类方式对样本图像中已经标注好的各个目标框(也就是真实框)的尺寸进行聚类,以得到适合本发明实施例场景的合适的锚盒尺寸。
其中,确定针对样本图像中锚盒尺寸的待聚类数量,包括:
确定每个尺度对应的锚盒尺寸的种类数;将所述每个尺度对应的锚盒尺寸的种类数与所述x的乘积,作为所述样本图像中锚盒尺寸的待聚类数量。
具体的,在本发明实施中,选择每个尺度对应的锚盒尺寸的种类数为3;以有4个尺度为例,那么,得到的所述样本图像中锚盒尺寸的待聚类数量=3 ×4=12。
b)获取已标注目标框尺寸的若干样本图像;
该步骤实际是获取样本图像中各个目标框的尺寸。
c)基于已标注目标框尺寸的若干样本图像,利用K-Means聚类方法,获得样本图像中锚盒尺寸的聚类结果;
具体的,可以将各个目标框的尺寸利用K-Means聚类方法进行聚类,获得锚盒尺寸的聚类结果;关于聚类过程在此不再赘述。
其中,对于不同锚盒距离的定义即为其宽高的欧式距离:
Figure RE-GDA0002909498720000131
其中,d1,2代表两个锚盒的欧氏距离,w1,w2代表锚盒的宽,h1,h2代表锚盒的高。
针对待聚类数量为12时,可以得到每个预测支路的锚盒尺寸。
d)将所述聚类结果写入所述面部图像检测网络的配置文件中。
本领域技术人员可以理解的是,将所述聚类结果按照不同预测支路对应的锚盒尺寸,写入所述面部图像检测网络的各预测支路的配置文件中,之后可以进行网络训练。
并且由于网络训练需要使用VOC格式或者COCO格式的数据,并将标记数据存储在文本文档当中。所以需要用Python脚本进行数据集标注格式的转换。
利用各样本图像,以及各样本图像中各个目标的类别和位置,训练如图 2所示的网络,包括以下步骤:
1)将每一样本图像对应目标的位置和类别作为该样本图像对应的真值,将各样本图像和对应的真值,通过图2所示的网络进行训练,获得各样本图像的训练结果。
2)将每一样本图像的训练结果与该样本图像对应的真值进行比较,得到该样本图像对应的输出结果。
3)根据各个样本图像对应的输出结果,计算网络的损失值。
4)根据所述损失值,调整网络的参数,并重新进行1)-3)步骤,直至网络的损失值达到了一定的收敛条件,也就是所述损失值达到最小,这时,意味着每一样本图像的训练结果与该样本图像对应的真值一致,从而完成网络的训练。
S5,若所述类别中至少有一个为嘴唇,则输出警示信息。
具体的,所述目标图像中只要有至少一个嘴唇,说明至少有一个人未戴口罩,则输出警示信息,同时还可以将未戴口罩的面部的位置显示在监控屏幕上。
进一步地,警示信息至少包括语音提示信息、闪烁灯提示信息中的一种,此处不做限制。
本发明实施例提供的方案中,将特征图由浅到深进行传递,提取至少四个尺度的特征图,通过增加细粒度的特征提取尺度,让网络能够检测不同尺度的人群,不会出现对小目标的漏检,从而实现精确检测。
本发明实施例通过利用FPN网络,采用密集连接方式进行特征融合,将深层特征直接进行不同倍数的上采样,以此来使得传递的所有特征图具有相同的尺寸,将这些特征图和浅层的特征图通过级联的方式融合起来,可以利用到更多的原始信息,在浅层网络中也有高维语义信息的参与,有助于提高检测的精度;同时通过直接接收更浅层网络的特征,可以得到更加具体的特征,将有效的减少特征的损失,可以减少需要运算的参数量,提高检测速度,实现实时检测。
因为本实施例中目标类别数较少,大量的卷积层是没有必要的,这样会浪费网络资源,降低处理速度。那么,可以根据目标类别,适当减小所述面部图像检测网络每个预测支路的卷积网络模块组中的k的数值,比如相对于原先的卷积网络k=5,本实施例可以选取k=3,这可以减少卷积层的数量,在不影响网络精度的情况下,整体实现网络层数精简,提升网络处理速度。
可选的一种实施方式中,可以对主干网络进行更改,将残差模块更换为密集连接模块,请参见图3,图3为本发明实施例所提出的改进的主干网络。该主干网络输出的4个特征图后续的处理方式请参见前文理解。
该改进的主干网络包括多个间隔串接的密集连接模块和过渡模块;密集连接模块表示为denm。
因为至少存在四条预测支路,因此,所述密集连接模块的数量至少为四个,以便将自身输出的特征图对应融合进各个预测支路。在图3中,作为示例,所述密集连接模块的数量为5个,相比于4个密集连接模块,5个密集连接模块所构成的网络的精度更高。
所述密集连接模块包括串行连接的卷积网络模块(如前所述,表示为 CBL模块)和密集连接单元组;其中,密集连接单元组表示为den unit*m,其含义是,所述密集连接单元组包括m个密集连接单元,m为大于等于4 的自然数;
每个密集连接单元表示为den unit;其包括多个采用密集连接形式连接的所述卷积网络模块,并采用级联方式融合多个卷积网络模块输出的特征图;级联方式即concat,含义为张量拼接,该操作和残差模块中的add的操作是不一样的,concat会扩充张量的维度,而add只是直接相加不会导致张量维度的改变。因此,上述改进的主干网络在进行特征提取时,利用密集连接模块,将特征融合方式从并行改为了串行,能够直接将早期的特征图作为后面每一层的输入,强化特征的传递,并通过复用浅层网络的特征图参数来减少参数的数量以及运算量。因此,可以提高面部图像中目标检测的精度。
其中,过渡模块可以采用CBL模块,也可以对其进行进一步改进,比如加入池化层等减弱过拟合的可能,提高网络模型的泛化能力。
第二方面,相应于上述方法实施例,本发明实施例提出了一种公共卫生监控系统400,参见图4,图4包括:
获取模块401,用于获取待检测的目标图像;
特征提取模块402,用于将所述目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于4的自然数;
特征融合模块403,用于将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,得到各尺度对应的预测结果;
分类及NMS模块404,用于将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到所述目标图像中每个目标的识别结果,所述识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇;
警示信息控制模块405,用于控制警示信息的输出。
其中,所述面部图像检测网络包括顺次连接的主干网络、FPN网络、分类网络和非极大值抑制模块;所述面部图像检测网络是根据样本图像,以及所述样本图像中各个目标的类别和位置训练得到的。
关于具体内容请参见第一方面所述的面部图像检测方法的内容,在此不再赘述。
本发明的实施例将特征图由浅到深进行传递,提取至少四个尺度的特征图,通过增加细粒度的特征提取尺度,让网络能够检测不同尺度的人群,不会出现对小目标的漏检,从而实现精确检测。
本发明的实施例通过利用FPN网络,采用密集连接方式进行特征融合,将深层特征直接进行不同倍数的上采样,以此来使得传递的所有特征图具有相同的尺寸,将这些特征图和浅层的特征图通过级联的方式融合起来,可以利用到更多的原始信息,在浅层网络中也有高维语义信息的参与,有助于提高检测的精度;同时通过直接接收更浅层网络的特征,可以得到更加具体的特征,将有效的减少特征的损失,可以减少需要运算的参数量,提高检测速度,实现实时检测。
第三方面,相应于上述方法实施例,本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线 504,其中,处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现前述任意一种公共卫生监控方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通过上述电子设备,能够实现:
通过将特征图由浅到深进行传递,提取至少四个尺度的特征图,通过增加细粒度的特征提取尺度,让网络能够检测不同尺度的人群,不会出现对小目标的漏检,从而实现精确检测。
另外,通过利用FPN网络,采用密集连接方式进行特征融合,将深层特征直接进行不同倍数的上采样,以此来使得传递的所有特征图具有相同的尺寸,将这些特征图和浅层的特征图通过级联的方式融合起来,可以利用到更多的原始信息,在浅层网络中也有高维语义信息的参与,有助于提高检测的精度;同时通过直接接收更浅层网络的特征,可以得到更加具体的特征,将有效的减少特征的损失,可以减少需要运算的参数量,提高检测速度,实现实时检测。
第四方面,相应于上述实施例所提供的公共卫生监控方法,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现前述任意一种公共卫生监控方法的步骤。
上述计算机可读存储介质存储有在运行时执行本发明实施例所提供的公共卫生监控方法的应用程序,因此能够实现:
通过将特征图由浅到深进行传递,提取至少四个尺度的特征图,通过增加细粒度的特征提取尺度,让网络能够检测不同尺度的人群,不会出现对小目标的漏检,从而实现精确检测。
另外,通过利用FPN网络,采用密集连接方式进行特征融合,将深层特征直接进行不同倍数的上采样,以此来使得传递的所有特征图具有相同的尺寸,将这些特征图和浅层的特征图通过级联的方式融合起来,可以利用到更多的原始信息,在浅层网络中也有高维语义信息的参与,有助于提高检测的精度;同时通过直接接收更浅层网络的特征,可以得到更加具体的特征,将有效的减少特征的损失,可以减少需要运算的参数量,提高检测速度,实现实时检测。
上述计算机可读存储介质存储有在运行时执行本发明实施例所提供的表面缺陷检测方法的应用程序,因此能够实现:基于YOLOv3网络增加细粒度的特征提取尺度,能够检测更小的物体,提升目标图像中小缺陷的检测精度。同时通过对网络进行剪枝及结合知识蒸馏引导网络恢复处理,摒除了大部分的冗余计算,能够在维持检测精度的前提下大幅缩小网络体积,提高缺陷检测速度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
对于电子设备以及计算机可读存储介质实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种公共卫生监控方法,其特征在于,包括:
获取待检测的目标图像,所述目标图像中含有多个正面人脸;
将所述目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于4的自然数;
将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,得到各尺度对应的预测结果;
将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到所述目标图像中每个目标的识别结果,所述识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇;
若所述类别中至少有一个为嘴唇,则输出警示信息;
其中,所述面部图像检测网络包括顺次连接的主干网络、FPN网络、分类网络和非极大值抑制模块;所述面部图像检测网络是根据样本图像,以及所述样本图像中各个目标的类别和位置训练得到的。
2.根据权利要求1所述的公共卫生监控方法,其特征在于,所述面部图像检测网络的主干网络包括:串接的y个残差模块;y为大于等于4的自然数;y大于等于x;
所述利用主干网络进行特征提取,得到x个不同尺度的特征图,包括:
利用串接的y个残差模块对所述目标图像进行特征提取,得到沿输入逆向的x个残差模块输出的、尺度依次增大的x个特征图。
3.根据权利要求2所述的公共卫生监控方法,其特征在于,所述FPN网络包括尺度依次增大的x个预测支路Y1~Yx;其中,所述预测支路Y1~Yx的尺度与所述x个特征图的尺度一一对应;
所述将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式进行特征融合,包括:
针对预测支路Yi,从所述x个特征图中,获取对应尺度的特征图并进行卷积处理,将卷积处理后的特征图,与预测支路Yi-1~Y1分别经上采样处理后的特征图进行级联融合;其中,预测支路Yi-j的上采样倍数为2j;i=2、3,…,x;j为小于i的自然数。
4.根据权利要求1所述的公共卫生监控方法,其特征在于,对所述面部图像检测网络进行训练之前还包括:
从获取的原始图像中提取每个面部所在区域中的内容,得到包含多个面部图像的目标图像;其中,所述原始图像包含至少一个面部。
5.根据权利要求4所述的公共卫生监控方法,其特征在于,通过人脸检测技术SSH或MTCNN算法实现对每个面部的定位和提取。
6.根据权利要求5所述的公共卫生监控方法,其特征在于,所述警示信息至少包括语音提示信息、闪烁灯提示信息中的一种。
7.一种公共卫生监控系统,其特征在于,包括:
获取模块,用于获取待检测的目标图像;
特征提取模块,用于将所述目标图像输入预先训练得到的面部图像检测网络中,利用主干网络进行特征提取,得到x个不同尺度的特征图;x为大于等于4的自然数;
特征融合模块,用于将所述x个不同尺度的特征图利用FPN网络,采用密集连接的方式特征融合,得到各尺度对应的预测结果;
分类及NMS模块,用于将所有预测结果经由分类网络和非极大值抑制模块进行处理,得到所述目标图像中每个目标的识别结果,所述识别结果包括目标的类别和位置,所述类别包括口罩和嘴唇;
警示信息控制模块,用于控制警示信息的输出;
其中,所述面部图像检测网络包括顺次连接的主干网络、FPN网络、分类网络和非极大值抑制模块;所述面部图像检测网络是根据样本图像,以及所述样本图像中各个目标的类别和位置训练得到的。
8.根据权利要求7所述的公共卫生监控系统,其特征在于,所述面部图像检测网络的主干网络包括:串接的y个残差模块;y为大于等于4的自然数;y大于等于x;
所述利用主干网络进行特征提取,得到x个不同尺度的特征图,包括:
利用串接的y个残差模块对所述目标图像进行特征提取,得到沿输入逆向的x个残差模块输出的、尺度依次增大的x个特征图。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202011147610.6A 2020-10-23 2020-10-23 一种公共卫生监控方法 Withdrawn CN112417974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011147610.6A CN112417974A (zh) 2020-10-23 2020-10-23 一种公共卫生监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011147610.6A CN112417974A (zh) 2020-10-23 2020-10-23 一种公共卫生监控方法

Publications (1)

Publication Number Publication Date
CN112417974A true CN112417974A (zh) 2021-02-26

Family

ID=74840723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011147610.6A Withdrawn CN112417974A (zh) 2020-10-23 2020-10-23 一种公共卫生监控方法

Country Status (1)

Country Link
CN (1) CN112417974A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966762A (zh) * 2021-03-16 2021-06-15 南京恩博科技有限公司 一种野生动物检测方法、装置、存储介质及电子设备
WO2022213348A1 (zh) * 2021-04-09 2022-10-13 鸿富锦精密工业(武汉)有限公司 检测口罩人脸识别方法、装置及计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966762A (zh) * 2021-03-16 2021-06-15 南京恩博科技有限公司 一种野生动物检测方法、装置、存储介质及电子设备
CN112966762B (zh) * 2021-03-16 2023-12-26 南京恩博科技有限公司 一种野生动物检测方法、装置、存储介质及电子设备
WO2022213348A1 (zh) * 2021-04-09 2022-10-13 鸿富锦精密工业(武汉)有限公司 检测口罩人脸识别方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110633610B (zh) 一种基于yolo的学员状态检测方法
Masurekar et al. Real time object detection using YOLOv3
CN111178120B (zh) 一种基于作物识别级联技术的害虫图像检测方法
CN109902202B (zh) 一种视频分类方法及装置
CN111814661A (zh) 基于残差-循环神经网络的人体行为识别方法
CN115699082A (zh) 缺陷检测方法及装置、存储介质及电子设备
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN108986137B (zh) 人体跟踪方法、装置及设备
CN113642474A (zh) 一种基于yolov5的危险区域人员监控方法
CN110956615A (zh) 图像质量评估模型训练方法、装置、电子设备及存储介质
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN112417974A (zh) 一种公共卫生监控方法
CN112288700A (zh) 一种铁轨缺陷检测方法
CN111008576A (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
CN113297956A (zh) 一种基于视觉的手势识别方法及系统
CN113221667B (zh) 一种基于深度学习的人脸口罩属性分类方法及系统
WO2022205329A1 (zh) 对象检测方法、对象检测装置及对象检测系统
CN116959099B (zh) 一种基于时空图卷积神经网络的异常行为识别方法
CN117011932A (zh) 一种奔跑行为检测方法、电子设备及存储介质
CN116824641A (zh) 姿态分类方法、装置、设备和计算机存储介质
CN115937971B (zh) 一种举手投票识别方法及装置
CN111199050B (zh) 一种用于对病历进行自动脱敏的系统及应用
CN115719428A (zh) 基于分类模型的人脸图像聚类方法、装置、设备及介质
US11468676B2 (en) Methods of real-time spatio-temporal activity detection and categorization from untrimmed video segments
CN112541469B (zh) 基于自适应分类的人群计数方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210226

WW01 Invention patent application withdrawn after publication