CN112183435A - 一种两阶段的手部目标检测方法 - Google Patents
一种两阶段的手部目标检测方法 Download PDFInfo
- Publication number
- CN112183435A CN112183435A CN202011085890.2A CN202011085890A CN112183435A CN 112183435 A CN112183435 A CN 112183435A CN 202011085890 A CN202011085890 A CN 202011085890A CN 112183435 A CN112183435 A CN 112183435A
- Authority
- CN
- China
- Prior art keywords
- layer
- hand target
- target detection
- candidate frame
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000005764 inhibitory process Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 44
- 238000010606 normalization Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims 1
- 230000004660 morphological change Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种两阶段的手部目标检测方法,获取包含手部目标的样本图像集;搭建手部目标检测网络模型;将包含手部目标的样本图像输入到手部目标检测网络模型,利用关键点检测生成候选框集合,并设定置信度阈值和非极大值抑制算法筛选候选框集合;提取候选框映射的特征信息和扩展候选框映射的上下文特征信息,采用拼接方式融合成特征块,最后利用特征块进行目标分类、定位;输出手部目标分类检测结果。与现有技术相比,本发明能更好地拟合手部目标的形态变化,大大提高候选区域框的质量;提高特征信息的表达能力,增加了更多位置细节信息,能更精准地定位目标。
Description
技术领域
本发明涉及手部目标检测领域,特别是一种两阶段的手部目标检测方法。
背景技术
现如今,各种智能设备走进家家户户,使人们的生活变得更加便捷。人们可以通过人机交互技术,将信息传送给智能设备,从而达到控制的目的。早期,人们通过键盘、鼠标、按钮等等外部设备和计算机或电子设备进行人机交互,随着人工智能技术的发展,出现面部识别、语音控制、手势识别等新型的人机交互技术,能提供更好的用户体验,有着更加广阔的应用场景和发展前景。
从古至今,手势在人与人之间的交流过程中都很普遍,有时候语言解释不清楚的时候,可以通过手势比划辅助,因此,手势在人机交互技术中扮演着比较重要的角色,具有广泛的使用价值。手部目标检测技术是手势识别的前提,该技术用来精准定位手部,为手势识别打下坚实的基础,是非常有意义的研究方向。
近几年,随着计算机硬件的更新换代和深度学习技术的快速发展,基于深度学习的目标检测算法以更优的精度和速度打败了传统的目标检测算法。基于深度学习的目标检测算法按目标定位的方式可以大致分为两类:基于锚框(anchor)的算法和无锚框的算法,前者代表算法有R-CNN、Faster R-CNN、Mask R-CNN等,其核心思路是利用锚框机制对目标进行类别分类和位置回归;后者代表算法有CornerNet、CenterNet等,这类算法采用回归关键点和几何形状的方式直接在特征图上定位目标,抛弃锚框机制。两类算法各有各的优势,无锚框的算法能更好适应不常见形状的目标,基于锚框的算法则更加容易训练和稳定。与此同时,还有另外一种分类方式,可以将目标检测算法分为:两阶段算法和单阶段算法,两阶段算法精度上优于单阶段算法,反之,单阶段算法速度上快于两阶段算法。
目前,基于深度学习的目标检测算法已经取得了很大的进展,但是,因手部的状态样式较为复杂,而且所处的应用场景也存在多样性,所以直接将检测普通目标的检测算法迁移到检测手部是行不通的。因此,急需提出一种能充分适应手部形状变化,而且在实现较高的检测精度的前提下不牺牲时间的目标检测网络构建方法。
发明内容
本发明的目的是要解决现有技术中存在的不足,提供一种能够提升检测模型的召回率和精度的两阶段的手部目标检测方法。
为达到上述目的,本发明是按照以下技术方案实施的:
一种两阶段的手部目标检测方法,该手部目标检测包括以下步骤:
S1、获取包含手部目标的样本图像集;
S2、搭建手部目标检测网络模型;
S3、将包含手部目标的样本图像输入到手部目标检测网络模型,手部目标检测网络模型对每个样本图像生成热力图并进行特征提取,然后分为两阶段实现检测任务:第一阶段是利用关键点检测生成候选框集合,并设定置信度阈值和非极大值抑制算法筛选候选框集合;第二阶段是提取候选框映射的特征信息和扩展候选框映射的上下文特征信息,采用拼接方式融合成特征块,最后利用特征块进行目标分类、定位;每个阶段都使用分类损失函数和位置回归损失函数计算损失值;
S4、输出手部目标分类检测结果。
进一步地,所述S2中,手部目标检测网络模型的网络结构依次包括:从前至后将卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、特征相加融合层封装成倒置残差模块;以及从前至后将深度可分离卷积层、特征拼接层、批归一化层、激活函数层组成混合深度可分离卷积模块;从前至后按卷积层、批归一化层、激活函数层、混合深度可分离卷积模块、倒置残差模块、拉平层、全连接层的规则依次堆叠组成手部目标检测网络模型的主干部分,所述手部目标检测网络模型的主干网络包含2个混合深度可分离卷积模块、3个倒置残差模块,其中混合深度可分离卷积模块的步长分别为1、2,倒置残差模块步长都为1。
更进一步地,所述S2中,第一阶段的具体步骤为:
对预测热力图进行分类、回归,通过坐标变化构成候选框集合,对候选框进行筛选,最后输出最优的候选框集合;输出候选框集合中需将预测得到的候选框与真实检测框计算交并比IOU值,
计算公式为:
其中,A表示预测得到的候选框,B表示真实检测框;
IOU值大于0.7的设为正样本,小于0.3设为负样本,并设置正样本和负样本比例为1:2,样本总数为256,设定置信度阈值为0.2。
优选地,所述S2中的损失函数中分类损失函数采用焦点损失函数,位置回归损失函数使用平滑L1损失函数,焦点损失函数中阿尔法参数设为0.7,伽马参数设为2.5。
优选地,所述S2中的激活函数层采用参数修正线性单元层。
优选地,使用分类损失函数和位置回归损失函数计算损失值之前,利用预先设定的优化策略优化损失值,并设置相关超参数,迭代计算,直至损失值收敛。
优选地,所述优化策略是将学习率初始化设为0.01,余弦学习率预热衰减法变化学习率的值,并且采用带动量参数的随机梯度下降法作为优化器,优化权重参数;相关超参数主要是将批处理大小设为256,批归一化层的动量参数设为0.95,L2惩罚项衰减率为0.001,总迭代次数设为100000。
与现有技术相比,本发明具有以下有益效果:
1.现有技术中采用现有的区域提取方法提取局部区域候选框,现有的区域提取方法如区域候选网络、卷积神经网络等,这类方法大多数都是采用不同尺度、不同面积比例的固定大小的锚框生成得到的,可以适用于大多数常见尺寸大小的目标,而手部的外貌特征较为复杂,用现有技术的方法会出现大量漏检、误检情况;而本发明提出使用基于关键点检测的方法来生成候选区域集合,能更好地拟合手部目标的形态变化,大大提高候选区域框的质量;
2.现有技术提出的方法任务目的是进行目标物体关键点检测,输出的是关键点的坐标,而本发明任务的目的是定位目标的位置,输出的是目标的定位矩形框位置,任务目的不同;
3.现有技术文档中进行目标物体关键点检测是基于单一的局部区域候选框特征信息,一定程度上限制了检测精度,而本发明提出的方法将候选框区域特征与上下文信息融合生成特征块,提高特征信息的表达能力,增加了更多位置细节信息,能更精准地定位目标。
附图说明
图1为手部目标检测网络模型的网络结构示意图。
图2为手部目标检测网络模型的网络结构中的倒置残差模块示意图。
图3为手部目标检测网络模型的网络结构中的混合深度可分离卷积模块示意图。
图4为手部目标检测效果展示图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定发明。
本实施例的一种两阶段的手部目标检测方法,该手部目标检测包括以下步骤:
S1、获取包含手部目标的样本图像集;
S2、搭建手部目标检测网络模型,如图1所示,手部目标检测网络模型的网络结构依次包括:从前至后将卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、特征相加融合层封装成倒置残差模块,激活函数层采用参数修正线性单元层,倒置残差模块如图2所示,其目的是通过扩展特征图的通道,增加网络模型的宽度,提高特征信息的表达能力,从而提升精度;以及从前至后将深度可分离卷积层、特征拼接层、批归一化层、激活函数层组成混合深度可分离卷积模块,混合深度可分离卷积模块如图3所示,其目的主要用来混合不同大小卷积核提取的不同感受野的特征信息,进而提高模型的检测性能;从前至后按卷积层、批归一化层、激活函数层、混合深度可分离卷积模块、倒置残差模块、拉平层、全连接层的规则依次堆叠组成手部目标检测网络模型的主干部分,所述手部目标检测网络模型的主干网络包含2个混合深度可分离卷积模块、3个倒置残差模块,其中混合深度可分离卷积模块的步长分别为1、2,倒置残差模块步长都为1;如图1所示,手部目标检测网络模型的网络结构从主干部分之后就开始分为两个分支,一个分支主要用于预测候选框类别、候选框关键点以及候选框长宽,其结构是在主干网络后接三个并行的卷积层生成预测热力图,然后对预测热力图进行分类、回归,通过坐标变化构成候选框集合,然后用非极大值抑制算法去除冗余候选框,最后计算候选框与真实检测框之间的交并比IOU值;而另一个分支接收候选框集合,利用感兴趣区域对齐层提取候选框对应的特征信息和扩展候选框对应的上下文信息,并融合生成特征块,提高特征信息的表达能力,用于目标分类检测和定位目标。
S3、将包含手部目标的样本图像输入到手部目标检测网络模型,手部目标检测网络模型对每个样本图像生成热力图并进行特征提取,然后分为两阶段实现检测任务:第一阶段是利用关键点检测生成候选框集合,并设定置信度阈值和非极大值抑制算法筛选候选框集合,具体地:对预测热力图进行分类、回归,通过坐标变化构成候选框集合,对候选框进行筛选,最后输出最优的候选框集合;输出候选框集合中需将预测得到的候选框与真实检测框计算交并比IOU值,
计算公式为:
其中,A表示预测得到的候选框,B表示真实检测框;
IOU值大于0.7的设为正样本,小于0.3设为负样本,并设置正样本和负样本比例为1:2,样本总数为256,设定置信度阈值为0.2;第二阶段是提取候选框映射的特征信息和扩展候选框映射的上下文特征信息,采用拼接方式融合成特征块,最后利用特征块进行目标分类、定位;每个阶段都使用分类损失函数和位置回归损失函数计算损失值;使用分类损失函数和位置回归损失函数计算损失值之前,利用预先设定的优化策略优化损失值,并设置相关超参数,迭代计算,直至损失值收敛。所述优化策略是将学习率初始化设为0.01,余弦学习率预热衰减法变化学习率的值,并且采用带动量参数的随机梯度下降法作为优化器,优化权重参数;相关超参数主要是将批处理大小设为256,批归一化层的动量参数设为0.95,L2惩罚项衰减率为0.001,总迭代次数设为100000;总损失值计算公式如下:
其中,为第一阶段计算的类别分类损失值,为第一阶段计算的关键点坐标回归损失值,为第一阶段计算的检测框长宽回归损失值,为第二阶段计算的类别分类损失值,为第二阶段计算的检测框坐标回归损失值。分类损失函数采用焦点损失函数,位置回归损失函数使用平滑L1损失函数,焦点损失函数中阿尔法参数设为0.7,伽马参数设为2.5。
S4、输出手部目标分类检测结果,输出的是分类后的目标的定位矩形框位置。
在使用本实施例的手部目标检测网络模型进行手部目标检测之前,首先需要对该手部目标检测网络模型进行训练,根据上述实施步骤以egohands数据集作为输入进行训练,该数据集分别包含48个不同场景,如室内、室外、下棋等,总共4800张已经标注的图像数据。由训练结果可得,利用本发明提出的手部目标检测方法能更好的拟合手部形状,减少误检率,而且利用两阶段的训练方式,针对目标的候选区域特征进行细分类,大大提高了召回率和精度。
如图4所示,为了进一步验证本发明的可行性,取图4所示的三张手部图片输入到训练后的手部目标检测网络模型,最终输出如图4所示的检测后的手部目标的定位矩形框位置。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
Claims (7)
1.一种两阶段的手部目标检测方法,其特征在于,该手部目标检测包括以下步骤:
S1、获取包含手部目标的样本图像集;
S2、搭建手部目标检测网络模型;
S3、将包含手部目标的样本图像输入到手部目标检测网络模型,手部目标检测网络模型对每个样本图像生成热力图并进行特征提取,然后分为两阶段实现检测任务:第一阶段是利用关键点检测生成候选框集合,并设定置信度阈值和非极大值抑制算法筛选候选框集合;第二阶段是提取候选框映射的特征信息和扩展候选框映射的上下文特征信息,采用拼接方式融合成特征块,最后利用特征块进行目标分类检测、定位;每个阶段都使用分类损失函数和位置回归损失函数计算损失值;
S4、输出手部目标分类检测结果。
2.根据权利要求1所述的两阶段的手部目标检测方法,其特征在于,所述S2中,手部目标检测网络模型的网络结构依次包括:从前至后将卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、特征相加融合层封装成倒置残差模块;以及从前至后将深度可分离卷积层、特征拼接层、批归一化层、激活函数层组成混合深度可分离卷积模块;从前至后按卷积层、批归一化层、激活函数层、混合深度可分离卷积模块、倒置残差模块、拉平层、全连接层的规则依次堆叠组成手部目标检测网络模型的主干部分,所述手部目标检测网络模型的主干网络包含2个混合深度可分离卷积模块、3个倒置残差模块,其中混合深度可分离卷积模块的步长分别为1、2,倒置残差模块步长都为1。
4.根据权利要求1所述的两阶段的手部目标检测方法,其特征在于,所述S2中的损失函数中分类损失函数采用焦点损失函数,位置回归损失函数使用平滑L1损失函数,焦点损失函数中阿尔法参数设为0.7,伽马参数设为2.5。
5.根据权利要求2所述的两阶段的手部目标检测方法,其特征在于,所述S2中的激活函数层采用参数修正线性单元层。
6.根据权利要求1所述的两阶段的手部目标检测方法,其特征在于,使用分类损失函数和位置回归损失函数计算损失值之前,利用预先设定的优化策略优化损失值,并设置相关超参数,迭代计算,直至损失值收敛。
7.根据权利要求6所述的两阶段的手部目标检测方法,其特征在于,所述优化策略是将学习率初始化设为0.01,余弦学习率预热衰减法变化学习率的值,并且采用带动量参数的随机梯度下降法作为优化器,优化权重参数;相关超参数主要是将批处理大小设为256,批归一化层的动量参数设为0.95,L2惩罚项衰减率为0.001,总迭代次数设为100000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085890.2A CN112183435A (zh) | 2020-10-12 | 2020-10-12 | 一种两阶段的手部目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085890.2A CN112183435A (zh) | 2020-10-12 | 2020-10-12 | 一种两阶段的手部目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183435A true CN112183435A (zh) | 2021-01-05 |
Family
ID=73949825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011085890.2A Pending CN112183435A (zh) | 2020-10-12 | 2020-10-12 | 一种两阶段的手部目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183435A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906621A (zh) * | 2021-03-10 | 2021-06-04 | 北京华捷艾米科技有限公司 | 一种手部检测方法、装置、存储介质和设备 |
CN112926692A (zh) * | 2021-04-09 | 2021-06-08 | 四川翼飞视科技有限公司 | 基于非均匀混合卷积的目标检测装置、方法和存储介质 |
CN112966655A (zh) * | 2021-03-29 | 2021-06-15 | 高新兴科技集团股份有限公司 | 一种办公区玩手机行为识别方法、装置和计算设备 |
CN113378857A (zh) * | 2021-06-28 | 2021-09-10 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113688703A (zh) * | 2021-08-12 | 2021-11-23 | 上海交通大学 | 基于fpga的低延时非极大值抑制方法与装置 |
CN113837254A (zh) * | 2021-09-15 | 2021-12-24 | 中国人民解放军空军工程大学 | 一种计算机视觉中图像目标的检测方法 |
WO2022178833A1 (zh) * | 2021-02-26 | 2022-09-01 | 京东方科技集团股份有限公司 | 目标检测网络的训练方法、目标检测方法及装置 |
US12002254B2 (en) | 2021-02-26 | 2024-06-04 | Boe Technology Group Co., Ltd. | Method and apparatus of training object detection network and object detection method and apparatus |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657551A (zh) * | 2018-11-15 | 2019-04-19 | 天津大学 | 一种基于上下文信息增强的人脸检测方法 |
US20190130562A1 (en) * | 2017-11-02 | 2019-05-02 | Siemens Healthcare Gmbh | 3D Anisotropic Hybrid Network: Transferring Convolutional Features from 2D Images to 3D Anisotropic Volumes |
CN109816012A (zh) * | 2019-01-22 | 2019-05-28 | 南京邮电大学 | 一种融合上下文信息的多尺度目标检测方法 |
CN110008953A (zh) * | 2019-03-29 | 2019-07-12 | 华南理工大学 | 基于卷积神经网络多层特征融合的潜在目标区域生成方法 |
CN110276378A (zh) * | 2019-05-20 | 2019-09-24 | 杭州电子科技大学 | 基于无人驾驶技术对实例分割的改进方法 |
CN110287927A (zh) * | 2019-07-01 | 2019-09-27 | 西安电子科技大学 | 基于深度多尺度和上下文学习的遥感影像目标检测方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111429407A (zh) * | 2020-03-09 | 2020-07-17 | 清华大学深圳国际研究生院 | 基于双通道分离网络的胸部x光疾病检测装置及方法 |
CN111444850A (zh) * | 2020-03-27 | 2020-07-24 | 北京爱笔科技有限公司 | 一种图片检测的方法和相关装置 |
CN111611998A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于候选区域面积和宽高的自适应特征块提取方法 |
-
2020
- 2020-10-12 CN CN202011085890.2A patent/CN112183435A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130562A1 (en) * | 2017-11-02 | 2019-05-02 | Siemens Healthcare Gmbh | 3D Anisotropic Hybrid Network: Transferring Convolutional Features from 2D Images to 3D Anisotropic Volumes |
CN109657551A (zh) * | 2018-11-15 | 2019-04-19 | 天津大学 | 一种基于上下文信息增强的人脸检测方法 |
CN109816012A (zh) * | 2019-01-22 | 2019-05-28 | 南京邮电大学 | 一种融合上下文信息的多尺度目标检测方法 |
CN110008953A (zh) * | 2019-03-29 | 2019-07-12 | 华南理工大学 | 基于卷积神经网络多层特征融合的潜在目标区域生成方法 |
CN110276378A (zh) * | 2019-05-20 | 2019-09-24 | 杭州电子科技大学 | 基于无人驾驶技术对实例分割的改进方法 |
CN110287927A (zh) * | 2019-07-01 | 2019-09-27 | 西安电子科技大学 | 基于深度多尺度和上下文学习的遥感影像目标检测方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111429407A (zh) * | 2020-03-09 | 2020-07-17 | 清华大学深圳国际研究生院 | 基于双通道分离网络的胸部x光疾病检测装置及方法 |
CN111444850A (zh) * | 2020-03-27 | 2020-07-24 | 北京爱笔科技有限公司 | 一种图片检测的方法和相关装置 |
CN111611998A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于候选区域面积和宽高的自适应特征块提取方法 |
Non-Patent Citations (5)
Title |
---|
GUOHENG HUANG等: "Multi-person pose estimation under complex environment based on progressive rotation correction and multi-scale feature fusion", 《IEEE ACCESS》, vol. 8, 20 July 2020 (2020-07-20), pages 132514 - 132526, XP011801209, DOI: 10.1109/ACCESS.2020.3010257 * |
JUN ZHANG等: "A Contextual Bidirectional Enhancement Method for Remote Sensing Image Object Detection", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》, vol. 13, 11 August 2020 (2020-08-11), pages 4518 - 4531, XP011806596, DOI: 10.1109/JSTARS.2020.3015049 * |
YAZHOU LIU等: "Modular Lightweight Network for Road Object Detection Using a Feature Fusion Approach", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》, 16 October 2019 (2019-10-16), pages 4716 - 4728, XP011866390, DOI: 10.1109/TSMC.2019.2945053 * |
吴保荣: "基于深度卷积神经网络的肺结节自动检测和分类方法研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, no. 08, 15 August 2019 (2019-08-15), pages 072 - 209 * |
林珏伟: "基于深度学习的骨龄评估方法研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, no. 07, 15 July 2019 (2019-07-15), pages 076 - 5 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022178833A1 (zh) * | 2021-02-26 | 2022-09-01 | 京东方科技集团股份有限公司 | 目标检测网络的训练方法、目标检测方法及装置 |
US12002254B2 (en) | 2021-02-26 | 2024-06-04 | Boe Technology Group Co., Ltd. | Method and apparatus of training object detection network and object detection method and apparatus |
CN112906621A (zh) * | 2021-03-10 | 2021-06-04 | 北京华捷艾米科技有限公司 | 一种手部检测方法、装置、存储介质和设备 |
CN112966655A (zh) * | 2021-03-29 | 2021-06-15 | 高新兴科技集团股份有限公司 | 一种办公区玩手机行为识别方法、装置和计算设备 |
CN112926692A (zh) * | 2021-04-09 | 2021-06-08 | 四川翼飞视科技有限公司 | 基于非均匀混合卷积的目标检测装置、方法和存储介质 |
CN112926692B (zh) * | 2021-04-09 | 2023-05-09 | 四川翼飞视科技有限公司 | 基于非均匀混合卷积的目标检测装置、方法和存储介质 |
CN113378857A (zh) * | 2021-06-28 | 2021-09-10 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113688703A (zh) * | 2021-08-12 | 2021-11-23 | 上海交通大学 | 基于fpga的低延时非极大值抑制方法与装置 |
CN113688703B (zh) * | 2021-08-12 | 2023-11-03 | 上海交通大学 | 基于fpga的低延时非极大值抑制方法与装置 |
CN113837254A (zh) * | 2021-09-15 | 2021-12-24 | 中国人民解放军空军工程大学 | 一种计算机视觉中图像目标的检测方法 |
CN113837254B (zh) * | 2021-09-15 | 2022-10-21 | 中国人民解放军空军工程大学 | 一种计算机视觉中图像目标的检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183435A (zh) | 一种两阶段的手部目标检测方法 | |
CN110796186A (zh) | 基于改进的YOLOv3网络的干湿垃圾识别分类方法 | |
WO2021249255A1 (zh) | 一种基于RP-ResNet网络的抓取检测方法 | |
CN110674741B (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN107577990A (zh) | 一种基于gpu加速检索的大规模人脸识别方法 | |
CN108629288B (zh) | 一种手势识别模型训练方法、手势识别方法及系统 | |
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及系统 | |
CN106874898A (zh) | 基于深度卷积神经网络模型的大规模人脸识别方法 | |
CN108334830A (zh) | 一种基于目标语义和深度外观特征融合的场景识别方法 | |
CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
CN108256426A (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN105205449A (zh) | 基于深度学习的手语识别方法 | |
CN109492596B (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 | |
CN110399809A (zh) | 多特征融合的人脸关键点检测方法及装置 | |
CN106651915A (zh) | 基于卷积神经网络的多尺度表达的目标跟踪方法 | |
CN109064389B (zh) | 一种手绘线条画生成现实感图像的深度学习方法 | |
CN110110602A (zh) | 一种基于三维残差神经网络和视频序列的动态手语识别方法 | |
CN110135460A (zh) | 基于vlad卷积模块的图像信息强化方法 | |
CN110096991A (zh) | 一种基于卷积神经网络的手语识别方法 | |
Wang et al. | Citrus recognition based on YOLOv4 neural network | |
CN107644203A (zh) | 一种形状自适应分类的特征点检测方法 | |
Zhao et al. | Object detector based on enhanced multi-scale feature fusion pyramid network | |
CN114202801A (zh) | 基于注意力引导空域图卷积简单循环单元的手势识别方法 | |
Zhang | Behaviour Detection and Recognition of College Basketball Players Based on Multimodal Sequence Matching and Deep Neural Networks | |
Zhang et al. | Object detection based on deep learning and b-spline level set in color images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |