CN112906621A - 一种手部检测方法、装置、存储介质和设备 - Google Patents
一种手部检测方法、装置、存储介质和设备 Download PDFInfo
- Publication number
- CN112906621A CN112906621A CN202110260794.5A CN202110260794A CN112906621A CN 112906621 A CN112906621 A CN 112906621A CN 202110260794 A CN202110260794 A CN 202110260794A CN 112906621 A CN112906621 A CN 112906621A
- Authority
- CN
- China
- Prior art keywords
- layer
- output result
- numerical value
- image
- preset threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000005065 mining Methods 0.000 claims abstract description 18
- 230000001629 suppression Effects 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 19
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012804 iterative process Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种手部检测方法、装置、存储介质和设备,获取用户输入的图像,将图像输入至预先构建的目标检测网络中,得到目标检测网络的输出结果。对候选框进行难例挖掘和非极大值抑制,得到特征图张量。在第一数值大于预设阈值的情况下,向用户发送特征图张量。在第一数值不大于预设阈值的情况下,重复执行预设步骤,对输出结果进行迭代处理,直至迭代处理后的输出结果所指示的第一数值大于预设阈值,并向用户发送迭代处理后所得到的新的特征图张量。相较于现有技术,本申请所述方法所花费的计算时间明显减少,提升了手部检测的效率。此外,目标检测网络对硬件资源要求不高,能够广泛适用于绝大多数个体和团队,具有较高的适用性。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种手部检测方法、装置、存储介质和设备。
背景技术
如何检测图像中的手部,为当前市面上研究手势识别的团队和企业所重点关注的问题。目前,通常利用深度学习网络实现手部检测,然而,由于图像中所包含的多个手部,各自的尺寸大小差别较大,为了保证手部检测结果的准确性,现有的深度学习网络通常会大量增加自身网络结构的卷积层数和感受野。卷积层数的增加会令深度学习网络的计算速度下降,从而导致手部检测的效率大大降低。此外,随着卷积层数和感受野的增加,计算过程还会消耗大量的计算资源,使得硬件成本增加,难以适用于大多数个体和团队,不利于手势识别工作的研究发展。
发明内容
本申请提供了一种手部检测方法、装置、存储介质和设备,用于在确保手部检测结果准确的情况下,提高手部检测的效率。
为了实现上述目的,本申请提供了以下技术方案:
一种手部检测方法,包括:
获取用户输入的图像;
将所述图像输入至预先构建的目标检测网络中,得到所述目标检测网络的输出结果;所述输出结果包括候选框和第一数值,所述第一数值用于指示所述候选框中所框定的目标为手部的概率;
对所述候选框进行难例挖掘和非极大值抑制,得到特征图张量;
判断所述第一数值是否大于预设阈值;
在所述第一数值大于所述预设阈值的情况下,向所述用户发送所述特征图张量;
在所述第一数值不大于所述预设阈值的情况下,重复执行预设步骤,对所述输出结果进行迭代处理,直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值,并向所述用户发送迭代处理后所得到的新的特征图张量;其中,所述预设步骤包括:将所述特征图张量输入至所述目标检测网络中,得到新的输出结果,并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到所述新的特征图张量。
可选的,所述目标检测网络包括:
第一降采样结构,用于对所述图像进行降维,得到降维后的图像,并对所述降维后的图像进行下采样,得到第一特征图像;
第二降采样结构,用于对所述第一特征图像进行降维,得到降维后的第一特征图像,并对所述降维后的第一特征图像进行下采样,得到第二特征图像;
目标捕获结构,用于对所述第二特征图像进行目标捕获,得到所述候选框和所述第一数值。
可选的,所述第一降采样结构包括:
标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。
可选的,所述第二降采样结构包括:
标准卷积层、归一化层、激活层、以及下采样层。
可选的,所述目标捕获结构包括:
深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。
可选的,所述目标检测网络还包括:
中间结构,用于增强所述第一特征图像的边缘信息。
可选的,所述中间结构包括:
可分离通道卷积层和逐点卷积模块;
其中,所述可分离通道卷积层包括通道合并层,所述逐点卷积模块包括标准卷积层、归一化层、以及激活层。
一种手部检测装置,包括:
获取单元,用于获取用户输入的图像;
检测单元,用于将所述图像输入至预先构建的目标检测网络中,得到所述目标检测网络的输出结果;所述输出结果包括候选框和第一数值,所述第一数值用于指示所述候选框中所框定的目标为手部的概率;
预处理单元,用于对所述候选框进行难例挖掘和非极大值抑制,得到特征图张量;
判断单元,用于判断所述第一数值是否大于预设阈值;
发送单元,用于在所述第一数值大于所述预设阈值的情况下,向所述用户发送所述特征图张量;
迭代单元,用于在所述第一数值不大于所述预设阈值的情况下,重复执行预设步骤,对所述输出结果进行迭代处理,直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值,并向所述用户发送迭代处理后所得到的新的特征图张量;其中,所述预设步骤包括:将所述特征图张量输入至所述目标检测网络中,得到新的输出结果,并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到所述新的特征图张量。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的手部检测方法。
一种手部检测设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的手部检测方法。
本申请提供的技术方案,获取用户输入的图像,将图像输入至预先构建的目标检测网络中,得到目标检测网络的输出结果。输出结果包括候选框和第一数值,第一数值用于指示候选框中所框定的目标为手部的概率。对候选框进行难例挖掘和非极大值抑制,得到特征图张量。判断第一数值是否大于预设阈值,在第一数值大于预设阈值的情况下,向用户发送特征图张量。在第一数值不大于预设阈值的情况下,重复执行预设步骤,对输出结果进行迭代处理,直至迭代处理后的输出结果所指示的第一数值大于预设阈值,并向用户发送迭代处理后所得到的新的特征图张量。其中,预设步骤包括:将特征图张量输入至目标检测网络中,得到新的输出结果,并对新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到新的特征图张量。通过比较第一数值和预设阈值,可以规划目标检测网络的输出结果的迭代处理次数,即实现对手部检测的效果的指标量化(该量化指标即为预设阈值,由预设阈值规划输出结果的迭代处理次数),避免进行多余的计算。可见,相较于现有技术,本申请所述方法所花费的计算时间明显得到有效减少,从而提升了手部检测的效率。此外,基于目标检测网络的网络结构可知,目标检测网络对硬件资源要求不高,能够广泛适用于绝大多数个体和团队,具有较高的适用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种手部检测方法的示意图;
图2a为本申请实施例提供的一种目标检测网络的网络结构示意图;
图2b为本申请实施例提供的另一种目标检测网络的网络结构示意图;
图3为本申请实施例提供的一种手部检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请实施例提供的一种手部检测方法的示意图,包括如下步骤:
S101:获取用户输入的图像。
其中,图像包括但不限于为彩色图像、红外图像、以及深度图像等。
S102:将图像输入至预先构建的目标检测网络中,得到目标检测网络的输出结果。
其中,目标检测网络的输出结果包括候选框和第一数值,第一数值用于指示候选框中所框定的目标为手部的概率。
在本申请实施例中,目标检测网络包括第一降采样结构、中间结构、第二降采样结构、以及目标捕获结构。
具体的,按照图2a所示的网络结构,目标检测网络处理图像的流程包括:
1、图像输入至第一降采样结构中,得到第一特征图像。
需要说明的是,第一降采样结构的作用为:对对图像进行降维,得到降维后的图像,并对降维后的图像进行下采样,得到第一特征图像。第一降采样结构包括标准卷积层(俗称为标准Conv)、归一化层(俗称为BN层)、激活层(俗称为swish)、下采样层(俗称为pooling)、以及1×1卷积层(俗称为1×1Conv)。在本申请实施例中,标准卷积层的数量、以及卷积核的大小,可由技术人员根据实际情况进行设置。
2、第一特征图像输入至中间结构中,得到第一结果。
需要说明的是,中间结构的作用为:增强第一特征图像的边缘信息。中间结构包括可分离通道卷积层和逐点卷积模块,可分离通道卷积层包括通道合并层(俗称为concat),逐点卷积模块包括标准卷积层、归一化层、以及激活层。在本申请实施例中,逐点卷积模块的数量可由技术人员根据实际情况进行设置。
3、第一结果输入至第二降采样结构中,得到第二特征图像。
需要说明的是,第二降采样结构的作用为:对第一特征图像进行降维,得到降维后的第一特征图像,并对降维后的第一特征图像进行下采样,得到第二特征图像。第二降采样结构包括标准卷积层、归一化层、激活层、以及下采样层。
4、第二特征图像输入至目标捕获结构中,得到候选框和第一数值。
需要说明的是,目标捕获结构的作用为:对第二特征图像进行目标捕获,得到候选框和第一数值。目标捕获结构包括深度卷积层(俗称为DepthConv)、归一化层、激活层、三维点云操作层(俗称为PointConv)、以及标准卷积层。
需要强调的是,上述提及的第一降采样结构、中间结构、第二降采样结构、以及目标捕获结构,还可以参见图2b所示。在图2b中,各个下采样层的采样倍数可由技术人员根据实际情况进行设置,这里不再赘述。
S103:对候选框进行难例挖掘和非极大值抑制,得到特征图张量。
其中,对候选框进行难例挖掘和非极大值抑制的具体实现原理,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S104:判断第一数值是否大于预设阈值。
若第一数值大于预设阈值,则执行S105,否则执行S106。
S105:向用户发送特征图张量。
其中,若第一数值大于预设阈值,则确定手部检测的效果满足预设要求,即能够确保手部检测结果的准确性。
S106:重复执行预设步骤,对输出结果进行迭代处理,直至迭代处理后的输出结果所指示的第一数值大于预设阈值,并向用户发送迭代处理后所得到的新的特征图张量。
其中,预设步骤包括:将特征图张量输入至目标检测网络中,得到新的输出结果,并对新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到新的特征图张量。
需要说明的是,每次对输出结果进行迭代处理,所对应得到的新的特征图张量,相较于上一次迭代处理所得到的特征图张量,其手部检测的效果更为优秀(即当前迭代处理得到的第一数值,比前一次迭代处理得到的第一数值更大)。
具体的,以图2b所示的目标检测网络为例,目标检测网络的网络结构类比于特征金字塔结构,每次处理图像均将特征图像的尺度缩小至原来的1/4(具体缩小比例可由技术人员设置),从而满足图像中不同尺寸大小的目标(即手部)的检测,检测过程较为动态灵活,针对某一张图像,可能处理两次就检测得到包含有手部的候选框(即说明图像中各个手部的尺寸大小差别较小),也有可能处理n(n为大于1的正整数)次就检测得到包含有手部的候选框(即说明图像中各个手部的尺寸大小差别较大),并且n的数值受限于预设阈值,避免花费较长时间进行无效运算,不仅提高手部检测的运算速度,还能够减少计算资源的浪费。
综上所述,通过比较第一数值和预设阈值,可以规划目标检测网络的输出结果的迭代处理次数,即实现对手部检测的效果的指标量化(该量化指标即为预设阈值,由预设阈值规划输出结果的迭代处理次数),避免进行多余的计算。可见,相较于现有技术,本实施例所述方法所花费的计算时间明显得到有效减少,从而提升了手部检测的效率。此外,基于目标检测网络的网络结构可知,目标检测网络对硬件资源要求不高,能够广泛适用于绝大多数个体和团队,具有较高的适用性。
与上述本申请所述的手部检测方法相对应,本申请实施例还提供了一种手部检测装置。
如图3所示,为本申请实施例提供的一种手部检测装置的结构示意图,包括:
获取单元100,用于获取用户输入的图像。
检测单元200,用于将图像输入至预先构建的目标检测网络中,得到目标检测网络的输出结果,输出结果包括候选框和第一数值,第一数值用于指示候选框中所框定的目标为手部的概率。
其中,目标检测网络包括:第一降采样结构,用于对图像进行降维,得到降维后的图像,并对降维后的图像进行下采样,得到第一特征图像;第二降采样结构,用于对第一特征图像进行降维,得到降维后的第一特征图像,并对降维后的第一特征图像进行下采样,得到第二特征图像;目标捕获结构,用于对第二特征图像进行目标捕获,得到候选框和第一数值。
在本申请实施例中,第一降采样结构包括标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。第二降采样结构包括标准卷积层、归一化层、激活层、以及下采样层。目标捕获结构包括深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。
此外,目标检测网络还包括中间结构,用于增强第一特征图像的边缘信息。其中,中间结构包括可分离通道卷积层和逐点卷积模块,可分离通道卷积层包括通道合并层,逐点卷积模块包括标准卷积层、归一化层、以及激活层。
预处理单元300,用于对候选框进行难例挖掘和非极大值抑制,得到特征图张量。
判断单元400,用于判断第一数值是否大于预设阈值。
发送单元500,用于在第一数值大于预设阈值的情况下,向用户发送特征图张量。
迭代单元600,用于在第一数值不大于预设阈值的情况下,重复执行预设步骤,对输出结果进行迭代处理,直至迭代处理后的输出结果所指示的第一数值大于预设阈值,并向用户发送迭代处理后所得到的新的特征图张量。其中,预设步骤包括:将特征图张量输入至目标检测网络中,得到新的输出结果,并对新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到新的特征图张量。
综上所述,通过比较第一数值和预设阈值,可以规划目标检测网络的输出结果的迭代处理次数,即实现对手部检测的效果的指标量化(该量化指标即为预设阈值,由预设阈值规划输出结果的迭代处理次数),避免进行多余的计算。可见,相较于现有技术,本实施例所述方法所花费的计算时间明显得到有效减少,从而提升了手部检测的效率。此外,基于目标检测网络的网络结构可知,目标检测网络对硬件资源要求不高,能够广泛适用于绝大多数个体和团队,具有较高的适用性。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的手部检测方法。
本申请还提供了一种手部检测设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的手部检测方法,包括如下步骤:
获取用户输入的图像;
将所述图像输入至预先构建的目标检测网络中,得到所述目标检测网络的输出结果;所述输出结果包括候选框和第一数值,所述第一数值用于指示所述候选框中所框定的目标为手部的概率;
对所述候选框进行难例挖掘和非极大值抑制,得到特征图张量;
判断所述第一数值是否大于预设阈值;
在所述第一数值大于所述预设阈值的情况下,向所述用户发送所述特征图张量;
在所述第一数值不大于所述预设阈值的情况下,重复执行预设步骤,对所述输出结果进行迭代处理,直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值,并向所述用户发送迭代处理后所得到的新的特征图张量;其中,所述预设步骤包括:将所述特征图张量输入至所述目标检测网络中,得到新的输出结果,并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到所述新的特征图张量。
可选的,所述目标检测网络包括:
第一降采样结构,用于对所述图像进行降维,得到降维后的图像,并对所述降维后的图像进行下采样,得到第一特征图像;
第二降采样结构,用于对所述第一特征图像进行降维,得到降维后的第一特征图像,并对所述降维后的第一特征图像进行下采样,得到第二特征图像;
目标捕获结构,用于对所述第二特征图像进行目标捕获,得到所述候选框和所述第一数值。
可选的,所述第一降采样结构包括:
标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。
可选的,所述第二降采样结构包括:
标准卷积层、归一化层、激活层、以及下采样层。
可选的,所述目标捕获结构包括:
深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。
可选的,所述目标检测网络还包括:
中间结构,用于增强所述第一特征图像的边缘信息。
可选的,所述中间结构包括:
可分离通道卷积层和逐点卷积模块;
其中,所述可分离通道卷积层包括通道合并层,所述逐点卷积模块包括标准卷积层、归一化层、以及激活层。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种手部检测方法,其特征在于,包括:
获取用户输入的图像;
将所述图像输入至预先构建的目标检测网络中,得到所述目标检测网络的输出结果;所述输出结果包括候选框和第一数值,所述第一数值用于指示所述候选框中所框定的目标为手部的概率;
对所述候选框进行难例挖掘和非极大值抑制,得到特征图张量;
判断所述第一数值是否大于预设阈值;
在所述第一数值大于所述预设阈值的情况下,向所述用户发送所述特征图张量;
在所述第一数值不大于所述预设阈值的情况下,重复执行预设步骤,对所述输出结果进行迭代处理,直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值,并向所述用户发送迭代处理后所得到的新的特征图张量;其中,所述预设步骤包括:将所述特征图张量输入至所述目标检测网络中,得到新的输出结果,并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到所述新的特征图张量。
2.根据权利要求1所述的方法,其特征在于,所述目标检测网络包括:
第一降采样结构,用于对所述图像进行降维,得到降维后的图像,并对所述降维后的图像进行下采样,得到第一特征图像;
第二降采样结构,用于对所述第一特征图像进行降维,得到降维后的第一特征图像,并对所述降维后的第一特征图像进行下采样,得到第二特征图像;
目标捕获结构,用于对所述第二特征图像进行目标捕获,得到所述候选框和所述第一数值。
3.根据权利要求2所述的方法,其特征在于,所述第一降采样结构包括:
标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。
4.根据权利要求2所述的方法,其特征在于,所述第二降采样结构包括:
标准卷积层、归一化层、激活层、以及下采样层。
5.根据权利要求2所述的方法,其特征在于,所述目标捕获结构包括:
深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。
6.根据权利要求2所述的方法,其特征在于,所述目标检测网络还包括:
中间结构,用于增强所述第一特征图像的边缘信息。
7.根据权利要求6所述的方法,其特征在于,所述中间结构包括:
可分离通道卷积层和逐点卷积模块;
其中,所述可分离通道卷积层包括通道合并层,所述逐点卷积模块包括标准卷积层、归一化层、以及激活层。
8.一种手部检测装置,其特征在于,包括:
获取单元,用于获取用户输入的图像;
检测单元,用于将所述图像输入至预先构建的目标检测网络中,得到所述目标检测网络的输出结果;所述输出结果包括候选框和第一数值,所述第一数值用于指示所述候选框中所框定的目标为手部的概率;
预处理单元,用于对所述候选框进行难例挖掘和非极大值抑制,得到特征图张量;
判断单元,用于判断所述第一数值是否大于预设阈值;
发送单元,用于在所述第一数值大于所述预设阈值的情况下,向所述用户发送所述特征图张量;
迭代单元,用于在所述第一数值不大于所述预设阈值的情况下,重复执行预设步骤,对所述输出结果进行迭代处理,直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值,并向所述用户发送迭代处理后所得到的新的特征图张量;其中,所述预设步骤包括:将所述特征图张量输入至所述目标检测网络中,得到新的输出结果,并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制,得到所述新的特征图张量。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-7任一所述的手部检测方法。
10.一种手部检测设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-7任一所述的手部检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260794.5A CN112906621A (zh) | 2021-03-10 | 2021-03-10 | 一种手部检测方法、装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260794.5A CN112906621A (zh) | 2021-03-10 | 2021-03-10 | 一种手部检测方法、装置、存储介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906621A true CN112906621A (zh) | 2021-06-04 |
Family
ID=76108077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110260794.5A Pending CN112906621A (zh) | 2021-03-10 | 2021-03-10 | 一种手部检测方法、装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906621A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229918A (zh) * | 2017-05-26 | 2017-10-03 | 西安电子科技大学 | 一种基于全卷积神经网络的sar图像目标检测方法 |
CN108229455A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN109117746A (zh) * | 2018-07-23 | 2019-01-01 | 北京华捷艾米科技有限公司 | 手部检测方法及机器可读存储介质 |
CN109145898A (zh) * | 2018-07-26 | 2019-01-04 | 清华大学深圳研究生院 | 一种基于卷积神经网络和迭代机制的物体检测方法 |
CN110222787A (zh) * | 2019-06-14 | 2019-09-10 | 合肥工业大学 | 多尺度目标检测方法、装置、计算机设备及存储介质 |
US20200167586A1 (en) * | 2018-11-26 | 2020-05-28 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for detecting region of interset in image |
CN111444828A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、目标检测的方法、装置及存储介质 |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN111931877A (zh) * | 2020-10-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、设备及存储介质 |
CN112183435A (zh) * | 2020-10-12 | 2021-01-05 | 河南威虎智能科技有限公司 | 一种两阶段的手部目标检测方法 |
CN112287947A (zh) * | 2020-09-27 | 2021-01-29 | 深圳大学 | 一种区域建议框检测方法、终端及存储介质 |
-
2021
- 2021-03-10 CN CN202110260794.5A patent/CN112906621A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229455A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN107229918A (zh) * | 2017-05-26 | 2017-10-03 | 西安电子科技大学 | 一种基于全卷积神经网络的sar图像目标检测方法 |
CN109117746A (zh) * | 2018-07-23 | 2019-01-01 | 北京华捷艾米科技有限公司 | 手部检测方法及机器可读存储介质 |
CN109145898A (zh) * | 2018-07-26 | 2019-01-04 | 清华大学深圳研究生院 | 一种基于卷积神经网络和迭代机制的物体检测方法 |
US20200167586A1 (en) * | 2018-11-26 | 2020-05-28 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for detecting region of interset in image |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
CN110222787A (zh) * | 2019-06-14 | 2019-09-10 | 合肥工业大学 | 多尺度目标检测方法、装置、计算机设备及存储介质 |
CN111444828A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、目标检测的方法、装置及存储介质 |
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN112287947A (zh) * | 2020-09-27 | 2021-01-29 | 深圳大学 | 一种区域建议框检测方法、终端及存储介质 |
CN111931877A (zh) * | 2020-10-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、设备及存储介质 |
CN112183435A (zh) * | 2020-10-12 | 2021-01-05 | 河南威虎智能科技有限公司 | 一种两阶段的手部目标检测方法 |
Non-Patent Citations (1)
Title |
---|
郝禹哲等: "基于卷积神经网络的手势识别方法", 《传感器与微系统》, no. 5, 6 May 2020 (2020-05-06), pages 54 - 56 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488985B (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
US20220012612A1 (en) | System, method, and program for predicting information | |
CN110245621B (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN114612681A (zh) | 基于gcn的多标签图像分类方法、模型构建方法及装置 | |
CN109086819B (zh) | caffemodel模型压缩方法、系统、设备及介质 | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN107977980B (zh) | 一种目标跟踪方法、设备以及可读介质 | |
CN116188917B (zh) | 缺陷数据生成模型训练方法、缺陷数据生成方法及装置 | |
CN112257470A (zh) | 一种模型训练方法、装置、计算机设备和可读存储介质 | |
CN115546271B (zh) | 基于深度联合表征的视觉分析方法、装置、设备及介质 | |
CN114724144B (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN112906621A (zh) | 一种手部检测方法、装置、存储介质和设备 | |
CN112232361B (zh) | 图像处理的方法及装置、电子设备及计算机可读存储介质 | |
CN113360672B (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 | |
CN111898493B (zh) | 基于二进制量化三维特征描述子的物体识别方法 | |
CN114662688A (zh) | 模型的训练方法、数据处理方法、装置、电子设备及介质 | |
CN111027670B (zh) | 特征图处理方法、装置、电子设备及存储介质 | |
CN111815658B (zh) | 一种图像识别方法及装置 | |
CN113158774B (zh) | 一种手部分割方法、装置、存储介质和设备 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN113344064A (zh) | 事件处理方法和装置 | |
CN113569715B (zh) | 一种指纹图像增强方法及装置 | |
CN110930441A (zh) | 图像的处理方法、装置、设备及计算机可读存储介质 | |
CN111914536B (zh) | 观点分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |