CN115063656A - 图像检测方法、装置、计算机可读存储介质及电子设备 - Google Patents

图像检测方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN115063656A
CN115063656A CN202210612764.0A CN202210612764A CN115063656A CN 115063656 A CN115063656 A CN 115063656A CN 202210612764 A CN202210612764 A CN 202210612764A CN 115063656 A CN115063656 A CN 115063656A
Authority
CN
China
Prior art keywords
image
feature fusion
feature
map
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210612764.0A
Other languages
English (en)
Inventor
刘腾龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kaifa Hongye Hi Tech Co ltd
Original Assignee
Beijing Kaifa Hongye Hi Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kaifa Hongye Hi Tech Co ltd filed Critical Beijing Kaifa Hongye Hi Tech Co ltd
Priority to CN202210612764.0A priority Critical patent/CN115063656A/zh
Publication of CN115063656A publication Critical patent/CN115063656A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Abstract

本公开涉及一种图像检测方法、装置、计算机可读存储介质及电子设备,该方法包括:获取待检测图像,对待检测图像进行特征提取,得到待检测图像的特征图,通过路径聚合网络PAN对特征图进行特征融合,得到第一特征融合图,通过单阶段检测器SSH对第一特征融合图进行特征融合,得到第二特征融合图,根据第二特征融合图确定待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。通过PAN对特征图进行特征融合,能够增强图像检测的语义表达能力及召回率,通过SSH构建不同尺寸的特征图,具备对不同尺寸的图像的检测的泛化能力,从而对手部区域尺寸变化大的情况也具有很高的鲁棒性。

Description

图像检测方法、装置、计算机可读存储介质及电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种图像检测方法、装置、计算机可读存储介质及电子设备。
背景技术
人工智能(Artificial Intelligence,AI)学习机是教育智能硬件的典型代表,而指读功能是AI学习机的核心功能。通过手指关键点检测可以实现精准的指读,通过检测手指关键点信息,定位到手指指定的区域,进而结合文字识别(Optical CharacterRecognition,OCR)技术以及自动语音识别(Automatic Speech Recognition,ASR)技术可以达到指读的效果。
相关技术中的手指关键点检测技术容易陷入局部最优解,泛化能力得不到保证,并且局部搜索策略过于简单化,属于穷举搜索,效率较低。
发明内容
本公开的目的是提供一种图像检测方法、装置、电子设备及计算机可读存储介介质,用以解决现有的手指关键点检测技术导致的泛化能力较差、效率较低的问题。
根据本公开实施例的第一方面,提供一种图像检测方法,包括:获取待检测图像;对所述待检测图像进行特征提取,得到所述待检测图像的特征图;通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图;通过单阶段检测器SSH对所述第一特征融合图进行特征融合,得到第二特征融合图;根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。
可选地,所述对待检测图像进行特征提取,得到所述待检测图像的特征图包括:通过YOLO网络对所述待检测图像进行特征提取,得到所述待检测图像的特征图。
可选地,所述YOLO网络为YOLOv5网络;所述YOLOv5网络包括Stemblock结构、用于下采样的输出层、手部关键点预测分支及ShuffleNet。
可选地,所述通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图包括:对所述特征图进行多次自底向上的卷积操作;每一次所述卷积操作用于使得所述特征图的尺寸减半、通道翻倍;将每一次所述卷积操作后得到的特征图进行横向连接;对横向连接后得到的特征图进行自底向上的特征融合,得到多帧不同大小的所述第一特征融合图。
可选地,所述SSH包括第一支路、第二支路及第三支路,所述第一支路包括1个3x3的卷积核,所述第二支路包括2个3x3的卷积核,第三支路包括3个3x3的卷积核;
所述通过单阶段检测器SSH对多帧所述第一特征融合图进行特征融合,得到第二特征融合图包括:通过所述第一支路、所述第二支路及所述第三支路分别对多帧所述第一特征融合图进行卷积,得到多帧所述第二特征融合图。
可选地,所述根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息包括:将每帧所述第二特征融合图中的每一个感受野,分别映射为第一预定通道数、第二预定通道数及第三预定通道数,得到第一通道结果、第二通道结果及第三通道结果;根据所述第一通道结果确定所述类别信息,根据所述第二通道结果确定所述手部预测框位置和手部预测框置信度,根据所述第三通道结果确定所述手部关键点坐标。
可选地,所述根据所述第二通道结果确定所述手部预测框位置和手部预测框置信度包括:根据所述第二通道结果确定每帧所述第二特征融合图中的初始手部预测框及初始手部预测框置信度;选择所述初始手部预测框置信度最大的所述初始手部预测框作为候选手部预测框;分别计算所述候选手部预测框与每一个其他初始手部预测框的交并比值;根据所述候选手部预测框的框中心位置、所述初始手部预测框的框中心位置及所述交并比值确定所述手部预测框位置。
根据本公开实施例的第二方面,提供一种图像检测装置,包括:获取模块,用于获取待检测图像;提取模块,用于对所述待检测图像进行特征提取,得到所述待检测图像的特征图;第一融合模块,用于通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图;第二融合模块,用于通过单阶段检测器SSH对所述第一特征融合图进行特征融合,得到第二特征融合图;处理模块,用于根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的图像检测方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现前述的图像检测方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:能够获取待检测图像,对待检测图像进行特征提取,得到待检测图像的特征图,通过路径聚合网络PAN对特征图进行特征融合,得到第一特征融合图,通过单阶段检测器SSH对第一特征融合图进行特征融合,得到第二特征融合图,根据第二特征融合图确定待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。通过PAN对特征图进行特征融合,能够增强图像检测的语义表达能力及召回率,通过SSH构建不同尺寸的特征图,具备对不同尺寸的图像的检测的泛化能力,从而对手部区域尺寸变化大的情况也具有很高的鲁棒性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开示例性实施例示出的计算机系统的结构示意图。
图2是本公开示例性实施例示出的一种图像检测方法的流程图。
图3是本公开示例性实施例示出的一种待检测图像的示意图。
图4是本公开示例性实施例示出的一种Stemblock结构的示意图。
图5是本公开示例性实施例示出的一种通过PAN进行特征融合的示意图。
图6是本公开示例性实施例示出的一种单阶段检测器的结构示意图。
图7是本公开示例性实施例示出的一种图像检测装置框图。
图8是本公开示例性实施例示出的一种电子设备的框图。
图9是本公开示例性实施例示出的另一种电子设备的框图。
附图标记说明
120-终端;140-服务器;20-图像检测装置;201-获取模块;202-提取模块;203-第一融合模块;204-第二融合模块;205-处理模块;400-电子设备;401-处理器;402-存储器;403-多媒体组件;404-I/O接口;405-通信组件;500-电子设备;522-处理器;532-存储器;526-电源组件;550-通信组件;558-I/O接口。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,手指关键点检测都是基于点分布模型算法来实现的,首先构建手部关键点形状向量;主要分为训练阶段和搜索阶段,在训练阶段,搜集手部样本,然后手动标记n个手部特征点,并按照手部关键点标注顺序构建形状向量,由于采集手部数据不具有仿射不变性,需要对其进行归一化处理,通常采用Procrustes分析方法对其进行归一化,然后为每个关键点构建局部特征,局部特征用于在特征点附近进行搜索,为防止光照变化,局部特征一般采用梯度特征描述;在搜索阶段,首先初始化对齐手部,根据手部检测结果得到大致手部位置,将训练阶段得到的平均手部进行仿射变换,得到一个初始的特征点模型,然后进行特征点搜索,针对每个特征点,在特征点邻域进行迭代搜索,通过局部特征点的特征匹配,获取新的特征点位置,当达到算法迭代结束条件,便可以得到手部关键点位置信息。
相关技术中,基于深度学习的手指关键点检测可以分为两类:两阶段手指关键点检测和一阶段手指关键点检测;两阶段手指关键点检测首先通过手部检测算法检测到手部区域,然后基于手部区域进行手指关键点检测;一阶段手指关键点检测算法直接在整张图片内进行手指关键点检测。
然而上述的手指关键点检测技术容易陷入局部最优解,泛化能力得不到保证,并且局部搜索策略过于简单化,属于穷举搜索,算法效率低。基于两阶段的手指关键点检测模型准确率和召回率高,但是算法性能差,当在嵌入式端部署时,难以保证模型推理的实时性;基于一阶段的手指关键点检测模型推理速度快,很适合在移动端进行部署,但是模型的准确率和召回率很难得到保证。
图1示出了本公开一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
终端120与服务器140之间通过有线或者无线网络相互连接。
终端120可以包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。
终端120包括显示器;显示器用于显示图像检测结果。
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现本公开提供的图像检测方法。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,第一处理器可以通过调用YOLOv5网络来实现本公开提供的图像检测方法。示例性的,终端中的训练的YOLOv5网络可以是由终端训练得到的;或,由服务器训练得到,终端从服务器获取。
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本公开提供的图像检测方法。示例性的,第二存储器中存储有预训练的YOLOv5网络,上述预训练的YOLOv5网络被第二处理器调用以实现本公开提供的图像检测方法。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
请参阅图2,图2为本公开示例性实施例示出的一种图像检测方法的流程图。该方法由计算机设备来执行,例如,由图1所示的计算机系统中的终端或服务器来执行。图2所示的图像检测方法包括以下步骤:
在步骤S101中,获取待检测图像。
示例性的,当用户在学习过程中遇到不会的题目时,例如不会读的单词,用户可以用手指指出不会读的单词,放置在AI学习机的前置摄像头的视野范围内,然后通过AI学习机的前置摄像头获取待检测图像,如图3所示,该待检测图像中包含用户的手指图像以及用户不会读的单词的图像“xindongfang”。请参阅图3,图3为本公开示例性实施例示出的一种待检测图像的示意图。
在步骤S102中,对待检测图像进行特征提取,得到待检测图像的特征图。
示例性的,可以通过改进后的YOLOv5网络作为骨干网络,对待检测图像进行特征提取,得到待检测图像的特征图。
需要说明的是,YOLOV5网络属于通用YOLO系列中的一种。在数据预处理方面,YOLOV5沿用了YOLOV4提出的马赛克图像在线增强方式,旨在增加单个批量中小目标的数量,提升网络对小目标的识别能力,同时也增大了单个批量的数据信息。YOLOV5网络包括backbone结构、neck结构、head结构和prediction结构;在backbone结构中,采用了特征金字塔网络(Feature Pyramid Network,FPN)结构自底向上提取特征;在neck结构中,采用了自顶向下的路径融合网络(Path Aggregation Network,PAN),缩短低层特征流向预测层的路径;在head结构和prediction结构中,对特征进行整合,分别以prediction1、prediction2和prediction3这3条路经融合不同感受野的低层特征,最终输出缺陷目标的边界框信息和类别信息。采用Cross Stage Partial(CSP)层替换残差连接层。
本实施例中,为了增加YOLOV5网络的泛化能力,降低其计算复杂度,同时保证其性能,使用Stemblock结构来代替YOLOv5的Focus模块。请参阅图4,图4为本公开示例性实施例示出的一种Stemblock结构的示意图。Stemblock结构,首先将输入特征图进行卷积核大小为3×3的卷积操作,其主要的目的是改变特征图的通道数。然后网络结构分为两个支路,特征图也分为两部分,一部分特征图进行最大值池化,另一部分特征图先进行1×1的卷积降低一半的通道数,之后再进行3×3,步长为2的卷积实现第二次下采样。两个分支的输出结果按通道这一维度进行拼接,最后再进行一次1×1的卷积还原通道的数量。与原始的卷积操作相比,Stemblock结构最主要减少参数量的操作就是在其中一个分支引入了瓶颈层,先将通道数量减少,再进行下采样,另一分支将原始特征图输入进行最大值池化再进行拼接,目的是将输入中的部分信息进行传递,保证最终的结果在减少参数量的基础上仍具备足够的语义信息,不会造成信息的过度损失。
YOLOV5算法采用了不同于通用YOLO系列算法的正例定义方式。通用YOLO系列算法利用先验框与真实目标框的IOU值来定义正例,IOU值大于阈值的先验框设为正例,而由于先验框与真实目标框是一一对应的关系,故最多仅有与真实目标框个数相同的正例,会存在正负例不均衡的情况。而YOLOV5则利用先验框与真实目标框的宽高比来定义正例,宽高比小于阈值即为正例,同时以允许多个先验框匹配一个真实目标框的方式增大正例的比例,并设置偏移量,用临近网格同时预测同一个目标,进一步增加正例数量,使得正例比例大大增加。
本实施例提供的YOLOv5网络还包括用于下采样的输出层、手部关键点预测分支及ShuffleNet。用于下采样的输出层的大小为10*10*16,可以增加对大型手指的检测能力。手部关键点预测分支用于预测手指关键点,示例性的,手指关键点的示意图可以参见图3中的点1-5,标准YOLOv5只有检测框回归和类别预测功能。在一种实施方式中,为确保模型在嵌入式设备和移动设备的运行实时性,可以采用轻量级网络模块(如ShuffleNet)代替YOLOv5的CSP层结构。
待检测图像作为YOLOv5网络的输入图像,其大小为640*640*3,其中640*640为特征图的尺寸大小,3为特征图的通道数。请参阅图5,图5为本公开示例性实施例示出的一种通过PAN进行特征融合的示意图。图5中的输入图像C1-C6是根据640*640*3的待检测图像,通过自底向上的卷积而来,每一次卷积都将上一次卷积得到的特征图的尺寸减半、通道翻倍,例如C2的尺寸是C1的一半,通道是C1的两倍,C3的尺寸是C2的一半,通道是C2的两倍,以此类推。特征图C1-C6没有经过特征融合,每个特征图的特征信息比较单一,从C1到C6位置信息逐渐递减,语义信息逐渐递增,可以理解的,C1的位置信息比较丰富,C6语义信息比较丰富。
在步骤S103中,通过路径聚合网络PAN对特征图进行特征融合,得到第一特征融合图。
本实施例中,以YOLOv5网络输出的特征图C1-C6作为PAN的输入图像,然后将每一次自底向上的卷积操作后得到的特征图进行横向连接,对横向连接后得到的特征图进行自底向上的特征融合,得到多帧不同大小的第一特征融合图P1-P6,将P1-P6作为输出特征图。
YOLOV5网络在实际检测往往是多尺度预测的,例如不同尺度大小的手部区域等,P1-P6通过PAN网络进行不同特征图的融合,可以有效解决实际应用中目标多尺度的问题。
在步骤S104中,通过单阶段检测器SSH对第一特征融合图进行特征融合,得到第二特征融合图。
需要说明的是,单阶段检测器(Single Stage Headless,SSH)包括第一支路、第二支路及第三支路,第一支路包括1个3x3的卷积核,第二支路包括2个3x3的卷积核,第三支路包括3个3x3的卷积核;通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野,进一步增强对多尺度手部区域的感知能力。请参阅图6,图6为本公开示例性实施例示出的一种单阶段检测器的结构示意图。
通过一支路、第二支路及第三支路,将每帧第二特征融合图中的每一个感受野,分别映射为第一预定通道数、第二预定通道数及第三预定通道数,得到第一通道结果、第二通道结果及第三通道结果。在一种实施方式中,第一预定通道数、第二预定通道数及第三预定通道数可以分别2、4、10,其中第一预定通道数用于表征待检测图像中的手部区域及非手部区域,第二预定通道数用于表征待检测图像中的手部预测框的中心点坐标、宽度和高度,第三预定通道数用于表征待检测图像中的手部关键点的坐标。因此,可以根据第一通道结果确定类别信息,根据第二通道结果确定手部预测框位置和手部预测框置信度,根据第三通道结果确定手部关键点坐标。
在步骤S105中,根据第二特征融合图确定待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。
基于SSH得到的第二特征融合图包含第一通道结果、第二通道结果及第三通道结果,根据第一通道结果确定类别信息,即待检测图像中的手部区域及非手部区域,从而预测出待检测图像中的初始手部预测框及初始手部预测框置信度,本实施例通过非极大值抑制算法(Non-maximum suppression,NMS)从初始手部预测框中确定手部预测框。具体为选择初始手部预测框置信度最大的初始手部预测框作为候选手部预测框,分别计算候选手部预测框与每一个其他初始手部预测框的交并比值(Intersection over Union,IOU),该交并比值用于表征初始手部预测框与标准手部预测框之间的重叠区域,用于衡量预测结果的位置信息的准确程度,IOU的值越大,预测出的初始手部预测框区域就越准确;最后根据候选手部预测框的框中心位置、初始手部预测框的框中心位置及交并比值确定手部预测框位置。在传统NMS中,IOU指标常用于抑制冗余检测盒,其中重叠区域是唯一因素,对于遮挡情况经常产生错误抑制。本实施例中采用NMS算法为DIOU-NMS算法,将DIOU作为NMS的准则,因为在抑制准则中不仅考虑重叠区域,而且还应考虑两个预测框之间的中心点距离,而DIOU就是同时考虑了重叠区域和两个预测框之间的中心距离。DIOU-NMS建议两个中心点较远的预测框可能位于不同的对象上,不应将其删除,这就是DIOU-NMS与NMS的最大不同之处。如果两个预测框之间IOU比较大,但是两个框的距离比较大时,可能会认为这是两个对象的预测框而不会被过滤掉,从而降低手部关键点的漏检率。避免了待检测图像中有两个手部区域,却只检测出了一个手部区域的情况。
在确定手部预测框位置后,通过前述的手部关键点预测分支从手部预测框中检测手部关键点坐标,并将手部预测框、手部预测框置信度及手部关键点坐标作为图像检测结果。
本公开提供的图像检测方法,适用性高,适用于复杂多变场景,具有一定的抗光照、抗噪声等能力;稳定性高,能够部署在嵌入式端,手指关键点预测分支经过压力测试,可确保服务的稳定性,为AI学习机提供为稳定的强泛化服务;准召率高,依托海量多样化数据训练模型,保证模型的泛化能力,并且基于特征金字塔的网络结构,有效解决手部尺寸跨度大、宽高比变化大等难题,保证模型的高准确率和高召回率。
综上所述,本公开提供的图像检测方法,包括获取待检测图像,对待检测图像进行特征提取,得到待检测图像的特征图,通过路径聚合网络PAN对特征图进行特征融合,得到第一特征融合图,通过单阶段检测器SSH对第一特征融合图进行特征融合,得到第二特征融合图,根据第二特征融合图确定待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。通过PAN对特征图进行特征融合,能够增强图像检测的语义表达能力及召回率,通过SSH构建不同尺寸的特征图,具备对不同尺寸的图像的检测的泛化能力,从而对手部区域尺寸变化大的情况也具有很高的鲁棒性。
图7是本公开示例性实施例示出的一种图像检测装置框图。参照图7,该装置20包括获取模块201、提取模块202、第一融合模块203、第二融合模块204和处理模块205。
该获取模块201,用于用于获取待检测图像;
该提取模块202,用于对所述待检测图像进行特征提取,得到所述待检测图像的特征图;
该第一融合模块203,用于通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图;
该第二融合模块204,用于通过单阶段检测器SSH对所述第一特征融合图进行特征融合,得到第二特征融合图;
该处理模块205,用于根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。
可选地,该提取模块202,还用于通过YOLO网络对所述待检测图像进行特征提取,得到所述待检测图像的特征图。
可选地,所述YOLO网络为YOLOv5网络;所述YOLOv5网络包括Stemblock结构、用于下采样的输出层、手部关键点预测分支及ShuffleNet。
可选地,该第一融合模块203,还用于对所述特征图进行多次自底向上的卷积操作;每一次所述卷积操作用于使得所述特征图的尺寸减半、通道翻倍;
将每一次所述卷积操作后得到的特征图进行横向连接;
对横向连接后得到的特征图进行自底向上的特征融合,得到多帧不同大小的所述第一特征融合图。
可选地,所述SSH包括第一支路、第二支路及第三支路,所述第一支路包括1个3x3的卷积核,所述第二支路包括2个3x3的卷积核,第三支路包括3个3x3的卷积核;
该第二融合模块204,还用于所述通过单阶段检测器SSH对多帧所述第一特征融合图进行特征融合,得到第二特征融合图包括:
通过所述第一支路、所述第二支路及所述第三支路分别对多帧所述第一特征融合图进行卷积,得到多帧所述第二特征融合图。
可选地,该处理模块205,还用于将每帧所述第二特征融合图中的每一个感受野,分别映射为第一预定通道数、第二预定通道数及第三预定通道数,得到第一通道结果、第二通道结果及第三通道结果;
根据所述第一通道结果确定所述类别信息,根据所述第二通道结果确定所述手部预测框位置和手部预测框置信度,根据所述第三通道结果确定所述手部关键点坐标。
可选地,该处理模块205,还用于根据所述第二通道结果确定每帧所述第二特征融合图中的初始手部预测框及初始手部预测框置信度;
选择所述初始手部预测框置信度最大的所述初始手部预测框作为候选手部预测框;
分别计算所述候选手部预测框与每一个其他初始手部预测框的交并比值;
根据所述候选手部预测框的框中心位置、所述初始手部预测框的框中心位置及所述交并比值确定所述手部预测框位置。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种电子设备400的框图。如图8所示,该电子设备400可以是图1中的终端,其包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的图像检测方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的图像检测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的图像检测方法。
图9是根据一示例性实施例示出的另一种电子设备500的框图。例如,电子设备500可以被提供为图1所示的服务器。参照图9,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的图像检测方法。
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像检测方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述的图像检测方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的图像检测方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种图像检测方法,其特征在于,包括:
获取待检测图像;
对所述待检测图像进行特征提取,得到所述待检测图像的特征图;
通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图;
通过单阶段检测器SSH对所述第一特征融合图进行特征融合,得到第二特征融合图;
根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对待检测图像进行特征提取,得到所述待检测图像的特征图包括:
通过YOLO网络对所述待检测图像进行特征提取,得到所述待检测图像的特征图。
3.根据权利要求2所述的方法,其特征在于,所述YOLO网络为YOLOv5网络;所述YOLOv5网络包括Stemblock结构、用于下采样的输出层、手部关键点预测分支及ShuffleNet。
4.根据权利要求1所述的方法,其特征在于,所述通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图包括:
对所述特征图进行多次自底向上的卷积操作;每一次所述卷积操作用于使得所述特征图的尺寸减半、通道翻倍;
将每一次所述卷积操作后得到的特征图进行横向连接;
对横向连接后得到的特征图进行自底向上的特征融合,得到多帧不同大小的所述第一特征融合图。
5.根据权利要求1所述的方法,其特征在于,所述SSH包括第一支路、第二支路及第三支路,所述第一支路包括1个3x3的卷积核,所述第二支路包括2个3x3的卷积核,第三支路包括3个3x3的卷积核;
所述通过单阶段检测器SSH对多帧所述第一特征融合图进行特征融合,得到第二特征融合图包括:
通过所述第一支路、所述第二支路及所述第三支路分别对多帧所述第一特征融合图进行卷积,得到多帧所述第二特征融合图。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息包括:
将每帧所述第二特征融合图中的每一个感受野,分别映射为第一预定通道数、第二预定通道数及第三预定通道数,得到第一通道结果、第二通道结果及第三通道结果;
根据所述第一通道结果确定所述类别信息,根据所述第二通道结果确定所述手部预测框位置和手部预测框置信度,根据所述第三通道结果确定所述手部关键点坐标。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第二通道结果确定所述手部预测框位置和手部预测框置信度包括:
根据所述第二通道结果确定每帧所述第二特征融合图中的初始手部预测框及初始手部预测框置信度;
选择所述初始手部预测框置信度最大的所述初始手部预测框作为候选手部预测框;
分别计算所述候选手部预测框与每一个其他初始手部预测框的交并比值;
根据所述候选手部预测框的框中心位置、所述初始手部预测框的框中心位置及所述交并比值确定所述手部预测框位置。
8.一种图像检测装置,其特征在于,包括:
获取模块,用于获取待检测图像;
提取模块,用于对所述待检测图像进行特征提取,得到所述待检测图像的特征图;
第一融合模块,用于通过路径聚合网络PAN对所述特征图进行特征融合,得到第一特征融合图;
第二融合模块,用于通过单阶段检测器SSH对所述第一特征融合图进行特征融合,得到第二特征融合图;
处理模块,用于根据所述第二特征融合图确定所述待检测图像中的手部预测框位置、手部预测框置信度、手部关键点坐标及类别信息,作为图像检测结果。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202210612764.0A 2022-05-31 2022-05-31 图像检测方法、装置、计算机可读存储介质及电子设备 Pending CN115063656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612764.0A CN115063656A (zh) 2022-05-31 2022-05-31 图像检测方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612764.0A CN115063656A (zh) 2022-05-31 2022-05-31 图像检测方法、装置、计算机可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115063656A true CN115063656A (zh) 2022-09-16

Family

ID=83198680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612764.0A Pending CN115063656A (zh) 2022-05-31 2022-05-31 图像检测方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115063656A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375976A (zh) * 2022-10-25 2022-11-22 杭州华橙软件技术有限公司 图像处理模型训练方法、电子设备和计算机可读存储介质
CN117237587A (zh) * 2023-11-15 2023-12-15 广东电网有限责任公司佛山供电局 基于多尺度感知的变电设备红外图像识别方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375976A (zh) * 2022-10-25 2022-11-22 杭州华橙软件技术有限公司 图像处理模型训练方法、电子设备和计算机可读存储介质
CN115375976B (zh) * 2022-10-25 2023-02-10 杭州华橙软件技术有限公司 图像处理模型训练方法、电子设备和计算机可读存储介质
CN117237587A (zh) * 2023-11-15 2023-12-15 广东电网有限责任公司佛山供电局 基于多尺度感知的变电设备红外图像识别方法及相关装置

Similar Documents

Publication Publication Date Title
JP6902611B2 (ja) 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器
CN108960211B (zh) 一种多目标人体姿态检测方法以及系统
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
CN108629354B (zh) 目标检测方法及装置
US10796224B2 (en) Image processing engine component generation method, search method, terminal, and system
US20220198816A1 (en) Method and apparatus for detecting body
CN115063656A (zh) 图像检测方法、装置、计算机可读存储介质及电子设备
CN106462572A (zh) 用于分布式光学字符识别和分布式机器语言翻译的技术
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
US20230035366A1 (en) Image classification model training method and apparatus, computer device, and storage medium
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN113887615A (zh) 图像处理方法、装置、设备和介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN113837257A (zh) 一种目标检测方法及装置
CN115577106B (zh) 基于人工智能的文本分类方法、装置、设备和介质
CN112287945A (zh) 碎屏确定方法、装置、计算机设备及计算机可读存储介质
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质
CN114612790A (zh) 图像处理方法及装置、电子设备和存储介质
CN113408564A (zh) 图处理方法、网络训练方法、装置、设备以及存储介质
CN113128277A (zh) 一种人脸关键点检测模型的生成方法及相关设备
CN117746069B (zh) 以图搜图的模型训练方法、和以图搜图方法
CN115205555B (zh) 确定相似图像的方法、训练方法、信息确定方法及设备
CN112927291B (zh) 三维物体的位姿确定方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination