CN113762101A - 人形检测方法、系统、设备及存储介质 - Google Patents
人形检测方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN113762101A CN113762101A CN202110957386.5A CN202110957386A CN113762101A CN 113762101 A CN113762101 A CN 113762101A CN 202110957386 A CN202110957386 A CN 202110957386A CN 113762101 A CN113762101 A CN 113762101A
- Authority
- CN
- China
- Prior art keywords
- model
- human
- target
- input
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 31
- 230000008707 rearrangement Effects 0.000 claims description 21
- 238000013139 quantization Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能技术领域,公开了一种人形检测方法、系统、设备及存储介质。该方法包括:在进行人形检测时,将量化模型转化为目标模型;获取待输入图像,根据所述待输入图像生成输入特征图;将所述输入特征图输入至所述目标模型,获得输出结果;将所述输出结果解码,得到人形检测框的位置以及置信度;根据所述位置以及所述置信度展示人形检测结果。通过上述方式,将量化模型转化为目标模型,并根据待输入图像生成特征图,将特征图通过目标模型计算得到人形检测框以及置信度,从而能够提高人形检测的准确性,用户也能够通过置信度确定人形检测的可靠度,提升了用户体验。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种人形检测方法、系统、设备及存储介质。
背景技术
人形检测等AI算法目前在会议视频频通话产品领域有这广泛的应用,但是受限与嵌入式等边缘设备有限的算力等问题,使得人形检测算法的应用受到了限制。目前的人形检测算法大多数是基于深度学习的方法检测全身目标的,有少部分机器学习学习算法是检测头肩部位的但是由于准确率较低难以商业化应用。深度学习算法需要应用数据量巨大的神经网络模型来对图片进行检测计算,需要占用较大的存储空间和计算资源,使其难以在计算和存储资源有限的嵌入式设备上应用。
目前主流的人形检测算法检测都是以全身为检测目标,而人形目标为高度非刚性目标,形态差异非常大,对神经网络的泛化能力有较高的要求,且形变大导致在同一个距离下,目标框的形状的大小变化非常的大,从而难以根据目标框的大小来判断出人形目标距离摄像头的距离,对人形跟随和防抖等应用造成困难。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种人形检测方法、系统、设备及存储介质,旨在解决现有技术如何提高人形检测的准确性的技术问题。
为实现上述目的,本发明提供了一种人形检测方法,应用于嵌入式设备,所述方法包括以下步骤:
在进行人形检测时,将量化模型转化为目标模型;
获取待输入图像,根据所述待输入图像生成输入特征图;
将所述输入特征图输入至所述目标模型,获得输出结果;
将所述输出结果解码,得到人形检测框的位置以及置信度;
根据所述位置以及所述置信度展示人形检测结果。
可选地,所述将量化模型转化为目标模型的步骤包括:
获取量化模型的卷积核参数排列方式;
将所述卷积核参数排列方式调整为目标排列方式,得到重排列模型;
将所述重排列模型转化为目标模型。
可选地,所述将所述重排列模型转化为目标模型的步骤包括:
将所述重排列模型卷积核根据目标数量进行分组,得到卷积核组;
将所述卷积核组合并,得到合并卷积核组;
根据所述合并卷积核组将所述重排列模型转化为目标模型。
为实现上述目的,本发明提供了一种人形检测方法,应用于非嵌入式设备,所述人形检测方法包括:
获取初始人形数据集;
根据所述初始人形数据集得到人形标签数据集;
根据所述人形标签数据集训练初始神经网络模型,得到训练神经网络模型;
将所述训练神经网络模型转化为量化模型,以使嵌入式设备在进行人形检测时,将量化模型转化为目标模型,获取待输入图像,根据所述待输入图像生成输入特征图,将所述输入特征图输入至所述目标模型,获得输出结果,将所述输出结果解码,得到人形检测框的位置以及置信度,根据所述位置以及所述置信度展示人形检测结果。
可选地,所述根据所述初始人形数据集得到人形标签数据集的步骤包括:
根据所述初始人形数据集确定人形关键关节数据集;
根据所述人形关键关节数据集确定上半身目标关节;
根据所述上半身目标关节确定上半身目标框;
根据所述上半身目标框生成人形标签数据集。
可选地,所述根据所述人形标签数据集训练初始神经网络模型,得到训练神经网络模型的步骤之前,还包括:
根据卷积层、bn层以及relu激活层生成卷积激活层;
根据所述卷积激活层以及池化层生成卷积模块;
根据所述卷积模块构建初始神经网络模型。
可选地,所述将所述训练神经网络模型转化为量化模型的步骤,包括:
将所述训练神经网络模型归一化为整型神经网络模型;
压缩所述整型神经网络模型,得到量化模型。
此外,为实现上述目的,本发明还提出一种人形检测系统,所述人形检测系统包括:非嵌入式设备以及嵌入式设备;
所述非嵌入式设备,用于获取初始人形数据集;
所述非嵌入式设备,还用于根据所述初始人形数据集得到人形标签数据集;
所述非嵌入式设备,还用于根据所述人形标签数据集训练预设神经网络模型,得到训练神经网络模型;
所述非嵌入式设备,还用于将所述训练神经网络模型转化为量化模型;
所述嵌入式设备,用于在进行人形检测时,将量化模型转化为目标模型;
所述嵌入式设备,还用于获取待输入图像,根据所述待输入图像生成输入特征图;
所述嵌入式设备,还用于将所述输入特征图输入至所述目标模型,获得输出结果;
所述嵌入式设备,还用于将所述输出结果解码,得到人形检测框的位置以及置信度;
所述嵌入式设备,还用于根据所述位置以及所述置信度展示人形检测结果。
此外,为实现上述目的,本发明还提出一种人形检测设备,所述人形检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人形检测程序,所述人形检测程序配置为实现如上文所述的人形检测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有人形检测程序,所述人形检测程序被处理器执行时实现如上文所述的人形检测方法的步骤。
本发明在进行人形检测时,将量化模型转化为目标模型;获取待输入图像,根据所述待输入图像生成输入特征图;将所述输入特征图输入至所述目标模型,获得输出结果;将所述输出结果解码,得到人形检测框的位置以及置信度;根据所述位置以及所述置信度展示人形检测结果。通过上述方式,将量化模型转化为目标模型,并根据待输入图像生成特征图,将特征图通过目标模型计算得到人形检测框以及置信度,从而能够提高人形检测的准确性,用户也能够通过置信度确定人形检测的可靠度,提升了用户体验。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的人形检测设备的结构示意图;
图2为本发明人形检测方法第一实施例的流程示意图;
图3为本发明人形检测方法第二实施例的流程示意图;
图4为本发明人形检测方法一实施例的分组卷积重组图;
图5为本发明人形检测方法一实施例的通道分组图;
图6是本发明实施例方案涉及的硬件运行环境的人形检测设备的结构示意图;
图7为本发明人形检测方法第三实施例的流程示意图;
图8为本发明人形检测方法一实施例的人形关键关节图;
图9为本发明人形检测方法一实施例的神经网络模型结构图;
图10为本发明人形检测系统第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的人形检测设备结构示意图。
如图1所示,该人形检测设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对人形检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及人形检测程序。
在图1所示的人形检测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明人形检测设备中的处理器1001、存储器1005可以设置在人形检测设备中,所述人形检测设备通过处理器1001调用存储器1005中存储的人形检测程序,并执行本发明实施例提供的人形检测方法。
本发明实施例提供了一种人形检测方法,参照图2,图2为本发明一种人形检测方法第一实施例的流程示意图。
本实施例中,所述人形检测方法包括以下步骤:
步骤S10:在进行人形检测时,将量化模型转化为目标模型。
需要说明的是,本实施例的执行主体为嵌入式设备,例如智能手机。量化模型是一种经过归一化以减少计算量同时压缩大小的卷积神经网络模型。当需要进行人形检测时,嵌入式设备将量化模型转化为目标模型,通过目标模型进行人形检测。
能够理解的是,本实施例中的目标模型采用上半身检测目标而不是全身检测目标,本实施例的人形检测目标包括头肩和上半身躯干,但是不包括下半身和手臂,使得检测出的目标框不会随目标姿势改变而发生巨大的变化,从而有利目标的跟随和防抖。
步骤S20:获取待输入图像,根据所述待输入图像生成输入特征图。
可以理解的是,嵌入式设备可通过调用摄像头进行拍摄,从而实时获取待输入图像,也可以直接使用已保存的图像,本实施例不加以限制。例如,当用户需要通过智能手机进行视频会议,智能手机调用摄像头进行拍摄,从而获得待输入图像。
在具体实现中,待输入图像的通道数为3,通道排列方式可为BRG。将根据待输入图像生成输入特征图,由于直接将输入特征图作为目标模型的输入时,目标模型的计算效率太低,因此将目标模型中的第一个卷积层的卷积核由3*3*3转化为27*1*1,即27通道,从而能够提升计算效率。
步骤S30:将所述输入特征图输入至所述目标模型,获得输出结果。
需要说明的是,将输入特征图输入值目标模型后,输入特征图与目标模型中的各卷积、分组卷积以及池化层逐层计算,从而得到输出结果。
步骤S40:将所述输出结果解码,得到人形检测框的位置以及置信度。
可以理解的是,目标模型的输出包括人形检测框的待输入图像上的位置,以及人形检测框的置信度,因此,输出结果中包括人形检测框的位置以及置信度,将输入结果解码即可获得人形检测框的位置以及置信度。
步骤S50:根据所述位置以及所述置信度展示人形检测结果。
需要说明的是,嵌入式设备在其显示模块上显示待输入图像,当获得目标模型的输出结果后,将根据输出结果中人形检测框的位置显示人形检测框,并展示其置信度,便于用户进行查看并判断人形检测是否准确。
本实施例在进行人形检测时,将量化模型转化为目标模型;获取待输入图像,根据所述待输入图像生成输入特征图;将所述输入特征图输入至所述目标模型,获得输出结果;将所述输出结果解码,得到人形检测框的位置以及置信度;根据所述位置以及所述置信度展示人形检测结果。通过上述方式,将量化模型转化为目标模型,并根据待输入图像生成特征图,将特征图通过目标模型计算得到人形检测框以及置信度,从而能够提高人形检测的准确性,用户也能够通过置信度确定人形检测的可靠度,提升了用户体验。
参考图3,图3为本发明一种人形检测方法第二实施例的流程示意图。
基于上述第一实施例,本实施例人形检测方法在所述步骤S10,包括:
步骤S11:获取量化模型的卷积核参数排列方式。
可以理解的是,本实施例的模型数据可量化为8位整型,因此可利用128bit位宽的单指令多数据流(Single Instruction Multiple Data,SIMD)指令可以一次加载并计算16个数据。SIMD是能够复制多个操作数,并把它们打包在大型寄存器的一组指令集。以上仅为举例说明,本实施例不加以限制。
需要说明的是,SIMD加载一组数据时需要这组数据内存是连续排列的,否则会增加计算量。因此需要确定量化模型中卷积核参数的排列方式。
步骤S12:将所述卷积核参数排列方式调整为目标排列方式,得到重排列模型。
在具体实现中,量化模型中卷积核参数是按照WHC的方式排列的,而W、H一般都是设置为5*5,3*3和1*1,不是16的整数倍,以这种方式加载数据效率会比较低,故需要将卷积核参数重排为CWH的存储顺序,即目标排列方式,从而得到重排列模型。而卷积核通道数(除分组卷积外)一般都是设置为16的整数倍,以这种方式进行排列和计算可以提高计算效率。
步骤S13:将所述重排列模型转化为目标模型。
进一步地,为了提升目标模型的计算效率,步骤S13包括:将所述重排列模型卷积核根据目标数量进行分组,得到卷积核组;将所述卷积核组合并,得到合并卷积核组;根据所述合并卷积核组将所述重排列模型转化为目标模型。
在具体实现中,目标数量可为4。重排列模型卷积核为重排列模型卷积层中的卷积核,当卷积核为32个时,根据目标数量分为4组,每组8个卷积核,不同数量的卷积核可使用不同的分组方式,本实施例不加以限制。
需要说明的是,重排列模型中分组卷积的卷积核重排为CWH的存储方式,由于C=4依然不是16的整数倍,还需要对不同组的卷积核进行通道合并,使组合后的通道数是16的整数倍。如图4所示,以重排列模型中的卷积层conv_bn_relu3为例,有输入16通道chn0~chn15,有32个卷积核filter0~filter31,而通常的分组卷积计算方法是将输入16通道分为4组每组4通道,32个卷积核也分4组,即得到卷积核组,每组卷积核组中有8个卷积核,每个卷积核都是4通道,每组卷积核组与其对应的通道组进行卷积计算,而以上述常规计算方式无法直接加载16个连续的内存数据,为了能一次直接加载16个连续数据,需要将4个卷积核组的通道叠加起来形成一个concat_filter,即合并卷积核组,这样1个合并卷积核组的通道数就是16,正好等于输入16通道,可直接与输入的16通道直接进行卷积计算。这样处理可以直接一次性加载16个输入通道的数据和合并卷积核组的16个通道数据进行卷积计算。将重排列模型中所有卷积层按照上述方式合并,则可以得到目标模型。
能够理解的是,为保证数据不会溢出,在卷积核与输入通道进行卷积运算后会输出32位整型数据。两个8位整型向量进行点乘运算会得到一个16位整型向量,两个16位整型向量进行点乘运算会得到一个32位整型向量,如图5所示,如果要直接输出32位整型数据,而不进行额外的类型转换运算,需要将每组的输入通道数设置为4。
在具体实现中,即使嵌入式设备系统中的SIMD指令集没有点乘指令,按照每组4通道来分组也不会影响算法准确率,且模型的计算量也不会过大,因此,理论上虽可不必按照每组4通道来分组,但在实际应用中以每组4通道进行分组是比较合理的设计。
本实施例通过获取量化模型的卷积核参数排列方式;将所述卷积核参数排列方式调整为目标排列方式,得到重排列模型;将所述重排列模型转化为目标模型。通过上述方式,能够提升模型的计算效率,并进一步地提升人形检测的准确度。
参照图6,图6为本发明实施例方案涉及的硬件运行环境的人形检测设备结构示意图。
如图6所示,该人形检测设备可以包括:处理器2001,例如中央处理器(CentralProcessing Unit,CPU),通信总线2002、用户接口2003,网络接口2004,存储器2005。其中,通信总线2002用于实现这些组件之间的连接通信。用户接口2003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器2005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器2005可选的还可以是独立于前述处理器2001的存储装置。
本领域技术人员可以理解,图6中示出的结构并不构成对人形检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示,作为一种存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及人形检测程序。
在图6所示的人形检测设备中,网络接口2004主要用于与网络服务器进行数据通信;用户接口2003主要用于与用户进行数据交互;本发明人形检测设备中的处理器2001、存储器2005可以设置在人形检测设备中,所述人形检测设备通过处理器2001调用存储器2005中存储的人形检测程序,并执行本发明实施例提供的人形检测方法。
本发明实施例提供了一种人形检测方法,参照图7,图7为本发明一种人形检测方法第三实施例的流程示意图。
本实施例中,所述人形检测方法包括以下步骤:
步骤S10’:获取初始人形数据集。
需要说明的是,本实施例的执行主体为非嵌入式设备,例如电脑等。
可以理解的是,初始人形数据集的来源包括实时拍摄、网络公开数据集等,初始人形数据集中包含不同的姿势、服饰、场景、距离的人形图片。从而能够更好的训练模型,获得更加准确的检测结果。
步骤S20’:根据所述初始人形数据集得到人形标签数据集。
需要说明的是,人形标签数据集是指将初始人形数据集经过标定后得到的数据集,进一步地,为了得到更加准确的人形标签数据集,步骤S20’包括:根据所述初始人形数据集确定人形关键关节数据集;根据所述人形关键关节数据集确定上半身目标关节;根据所述上半身目标关节确定上半身目标框;根据所述上半身目标框生成人形标签数据集。
在具体实现中,首先通过人体姿态估计算法从初始人形数据集确定人形关键关节的位置,从而得到人形关键关节数据集,人体姿态估计算法可为OpenPose,本实施例不加以限制。再根据关键关节的位置确定上半身目标关节,如图8所示,由于经过人体姿态估计算法后,关键关节都有唯一标识,因此只需确定关键关节中的上半身目标关节,上半身目标关节唯一标识包括0、1、2、5、8、11、14、15、16、17,因此,上半身目标框中需要包含这些上半身目标关节,从而可以确定上半身目标框的位置,最终得到人形标签数据集。人形标签数据集再经过筛选,剔除错误的标定。
步骤S30’:根据所述人形标签数据集训练初始神经网络模型,得到训练神经网络模型。
可以理解的是,初始神经网络模型需要经过训练才能进行准确的人形检测。初始神经网络模型的输出包括置信度以及上半身目标框,置信度采用交叉熵损失函数,边框回归采用smooth_l1_loss,训练神经网络,收敛后输出网络模型,得到训练神经网络模型。
进一步地,步骤S30’之前,还包括:根据卷积层、bn层以及relu激活层生成卷积激活层;根据所述卷积激活层以及池化层生成卷积模块;根据所述卷积模块构建初始神经网络模型。
在具体实现中,如图9所示,初始神经网络模型的主干网络分为6个卷积模块(module),每个卷积模块包含2-3个卷积激活层(conv_bn_relu)和一个池化层(pool),每个conv_bn_relu由一个卷积层(conv),一个batchnorm(bn)层和一个relu激活层组成。module4、module5、module6,分别连接到一个输出分支(output_branch),每个输出分支包含两个卷积层conf_conv和loc_conv,分别输出上半身目标框的置信度和坐标信息(即上半身目标框的位置)。
需要说明的是,初始神经网络模型越往深层,特征图尺寸越小,同时感受野越大,故检测的目标尺寸也越大,因此output_branch1、output_branch2、output_branch3输出的上半身目标框也逐步变大。神经网络模型的池化层均采用2*2的最大值池化,各个卷积层参数如下表1所示:
其中,P:padding,代表卷积层补位值;S:stride,代表卷积核步长;K:kernel_size,代表卷积核宽/高;IN_C:input_channel,代表输入特征层通道数;GN:group_number,代表分组卷积分的组数;OUT_C:output_channel,代表输出特征层通道数;C:单个卷积核通道数。
表1
P | S | K | IN_C | GN | OUT_C | |
conv_bn_relu1 | 1 | 2 | 3 | 3 | 1 | 16 |
conv_bn_relu2 | 0 | 1 | 1 | 16 | 1 | 16 |
conv_bn_relu3 | 1 | 1 | 3 | 16 | 4 | 32 |
conv_bn_relu4 | 0 | 1 | 1 | 32 | 1 | 32 |
conv_bn_relu5 | 1 | 1 | 3 | 32 | 8 | 64 |
conv_bn_relu6 | 0 | 1 | 1 | 64 | 1 | 32 |
conv_bn_relu7 | 1 | 1 | 3 | 32 | 8 | 64 |
conv_bn_relu8 | 1 | 1 | 3 | 64 | 16 | 128 |
conv_bn_relu9 | 0 | 1 | 1 | 128 | 1 | 64 |
conv_bn_relu10 | 1 | 1 | 3 | 64 | 16 | 128 |
conv_bn_relu11 | 1 | 1 | 3 | 128 | 32 | 256 |
conv_bn_relu12 | 0 | 1 | 1 | 256 | 1 | 128 |
conv_bn_relu13 | 1 | 1 | 3 | 128 | 32 | 256 |
conv_bn_relu14 | 1 | 1 | 3 | 256 | 64 | 256 |
conv_bn_relu15 | 0 | 1 | 1 | 256 | 1 | 256 |
conv_bn_relu16 | 1 | 1 | 3 | 256 | 64 | 256 |
conf_conv | 1 | 1 | 3 | 128 | 1 | 12 |
loc_conv | 1 | 1 | 3 | 128 | 1 | 6 |
conf_conv | 1 | 1 | 3 | 256 | 1 | 8 |
loc_conv | 1 | 1 | 3 | 256 | 1 | 4 |
conf_conv | 1 | 1 | 3 | 256 | 1 | 12 |
loc_conv | 1 | 1 | 3 | 256 | 1 | 6 |
本实施例中的训练神经网络模型运用了分组卷积,表中GN为1的代表普通卷积,大于1的为分组卷积。分组卷积的分组方法是按照每4个输入通道分为一组来进行分组的即C=4,IN_C=GN*C。
步骤S40’:将所述训练神经网络模型转化为量化模型,以使嵌入式设备在进行人形检测时,将量化模型转化为目标模型,获取待输入图像,根据所述待输入图像生成输入特征图,将所述输入特征图输入至所述目标模型,获得输出结果,将所述输出结果解码,得到人形检测框的位置以及置信度,根据所述位置以及所述置信度展示人形检测结果。
进一步地,为了减小训练神经网络模型的计算量,步骤S40’包括:将所述训练神经网络模型归一化为整型神经网络模型;压缩所述整型神经网络模型,得到量化模型。
在具体实现中,训练神经网络模型为浮点形数值的模型,浮点运算消耗计算资源较大,需要归一化为8位整型以减小计算量,从而得到整型神经网络模型,同时压缩整型神经网络模型的大小得到量化模型。量化模型容量仅有422KB。
本实施例通过获取初始人形数据集;根据所述初始人形数据集得到人形标签数据集;根据所述人形标签数据集训练初始神经网络模型,得到训练神经网络模型;将所述训练神经网络模型转化为量化模型,以使嵌入式设备在进行人形检测时,将量化模型转化为目标模型,获取待输入图像,根据所述待输入图像生成输入特征图,将所述输入特征图输入至所述目标模型,获得输出结果,将所述输出结果解码,得到人形检测框的位置以及置信度,根据所述位置以及所述置信度展示人形检测结果。通过上述方式,可以大幅度提升算法的计算效率并减少算法存储容量,有利于在嵌入式等边缘设备应用。同时用上半身作为检测目标而不是全身检测目标,可以提高检测目标框的稳定性,有利于人形对焦和跟随等应用的实现。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有人形检测程序,所述人形检测程序被处理器执行时实现如上文所述的人形检测方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图10,图10为本发明人形检测系统第一实施例的结构框图。
如图10所示,本发明实施例提出的人形检测系统包括:非嵌入式设备10以及嵌入式设备20。
所述非嵌入式设备10,用于获取初始人形数据集。
所述非嵌入式设备10,还用于根据所述初始人形数据集得到人形标签数据集。
所述非嵌入式设备10,还用于根据所述人形标签数据集训练预设神经网络模型,得到训练神经网络模型。
所述非嵌入式设备10,还用于将所述训练神经网络模型转化为量化模型。
所述嵌入式设备20,用于在进行人形检测时,将量化模型转化为目标模型。
所述嵌入式设备20,还用于获取待输入图像,根据所述待输入图像生成输入特征图。
所述嵌入式设备20,还用于将所述输入特征图输入至所述目标模型,获得输出结果。
所述嵌入式设备20,还用于将所述输出结果解码,得到人形检测框的位置以及置信度。
所述嵌入式设备20,还用于根据所述位置以及所述置信度展示人形检测结果。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过获取初始人形数据集;根据所述初始人形数据集得到人形标签数据集;根据所述人形标签数据集训练预设神经网络模型,得到训练神经网络模型;将所述训练神经网络模型转化为量化模型;在进行人形检测时,将量化模型转化为目标模型;获取待输入图像,根据所述待输入图像生成输入特征图;将所述输入特征图输入至所述目标模型,获得输出结果;将所述输出结果解码,得到人形检测框的位置以及置信度;根据所述位置以及所述置信度展示人形检测结果。本实施例可以大幅度提升算法的计算效率并减少算法存储容量,有利于在嵌入式等边缘设备应用。同时用上半身作为检测目标而不是全身检测目标,可以提高检测目标框的稳定性,有利于人形对焦和跟随等应用的实现。
在一实施例中,所述嵌入式设备20,还用于获取量化模型的卷积核参数排列方式;将所述卷积核参数排列方式调整为目标排列方式,得到重排列模型;将所述重排列模型转化为目标模型。
在一实施例中,所述嵌入式设备20,还用于将所述重排列模型卷积核根据目标数量进行分组,得到卷积核组;将所述卷积核组合并,得到合并卷积核组;根据所述合并卷积核组将所述重排列模型转化为目标模型。
在一实施例中,所述非嵌入式设备10,还用于根据所述初始人形数据集确定人形关键关节数据集;根据所述人形关键关节数据集确定上半身目标关节;根据所述上半身目标关节确定上半身目标框;根据所述上半身目标框生成人形标签数据集。
在一实施例中,所述非嵌入式设备10,还用于根据卷积层、bn层以及relu激活层生成卷积激活层;根据所述卷积激活层以及池化层生成卷积模块;根据所述卷积模块构建初始神经网络模型。
在一实施例中,所述非嵌入式设备10,还用于将所述训练神经网络模型归一化为整型神经网络模型;压缩所述整型神经网络模型,得到量化模型。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的人形检测方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种人形检测方法,其特征在于,应用于嵌入式设备,所述人形检测方法包括:
在进行人形检测时,将量化模型转化为目标模型;
获取待输入图像,根据所述待输入图像生成输入特征图;
将所述输入特征图输入至所述目标模型,获得输出结果;
将所述输出结果解码,得到人形检测框的位置以及置信度;
根据所述位置以及所述置信度展示人形检测结果。
2.如权利要求1所述的方法,其特征在于,所述将量化模型转化为目标模型的步骤包括:
获取量化模型的卷积核参数排列方式;
将所述卷积核参数排列方式调整为目标排列方式,得到重排列模型;
将所述重排列模型转化为目标模型。
3.如权利要求2所述的方法,其特征在于,所述将所述重排列模型转化为目标模型的步骤包括:
将所述重排列模型卷积核根据目标数量进行分组,得到卷积核组;
将所述卷积核组合并,得到合并卷积核组;
根据所述合并卷积核组将所述重排列模型转化为目标模型。
4.一种人形检测方法,其特征在于,应用于非嵌入式设备,所述人形检测方法包括:
获取初始人形数据集;
根据所述初始人形数据集得到人形标签数据集;
根据所述人形标签数据集训练初始神经网络模型,得到训练神经网络模型;
将所述训练神经网络模型转化为量化模型,以使嵌入式设备在进行人形检测时,将量化模型转化为目标模型,获取待输入图像,根据所述待输入图像生成输入特征图,将所述输入特征图输入至所述目标模型,获得输出结果,将所述输出结果解码,得到人形检测框的位置以及置信度,根据所述位置以及所述置信度展示人形检测结果。
5.如权利要求4所述的方法,其特征在于,所述根据所述初始人形数据集得到人形标签数据集的步骤包括:
根据所述初始人形数据集确定人形关键关节数据集;
根据所述人形关键关节数据集确定上半身目标关节;
根据所述上半身目标关节确定上半身目标框;
根据所述上半身目标框生成人形标签数据集。
6.如权利要求4所述的方法,其特征在于,所述根据所述人形标签数据集训练初始神经网络模型,得到训练神经网络模型的步骤之前,还包括:
根据卷积层、bn层以及relu激活层生成卷积激活层;
根据所述卷积激活层以及池化层生成卷积模块;
根据所述卷积模块构建初始神经网络模型。
7.如权利要求4所述的方法,其特征在于,所述将所述训练神经网络模型转化为量化模型的步骤,包括:
将所述训练神经网络模型归一化为整型神经网络模型;
压缩所述整型神经网络模型,得到量化模型。
8.一种人形检测系统,其特征在于,所述人形检测系统包括:非嵌入式设备以及嵌入式设备;
所述非嵌入式设备,用于获取初始人形数据集;
所述非嵌入式设备,还用于根据所述初始人形数据集得到人形标签数据集;
所述非嵌入式设备,还用于根据所述人形标签数据集训练预设神经网络模型,得到训练神经网络模型;
所述非嵌入式设备,还用于将所述训练神经网络模型转化为量化模型;
所述嵌入式设备,用于在进行人形检测时,将量化模型转化为目标模型;
所述嵌入式设备,还用于获取待输入图像,根据所述待输入图像生成输入特征图;
所述嵌入式设备,还用于将所述输入特征图输入至所述目标模型,获得输出结果;
所述嵌入式设备,还用于将所述输出结果解码,得到人形检测框的位置以及置信度;
所述嵌入式设备,还用于根据所述位置以及所述置信度展示人形检测结果。
9.一种人形检测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人形检测程序,所述人形检测程序配置为实现如权利要求1至3或4至7中任一项所述的人形检测方法。
10.一种存储介质,其特征在于,所述存储介质上存储有人形检测程序,所述人形检测程序被处理器执行时实现如权利要求1至3或4至7任一项所述的人形检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957386.5A CN113762101A (zh) | 2021-08-19 | 2021-08-19 | 人形检测方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957386.5A CN113762101A (zh) | 2021-08-19 | 2021-08-19 | 人形检测方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762101A true CN113762101A (zh) | 2021-12-07 |
Family
ID=78790607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110957386.5A Pending CN113762101A (zh) | 2021-08-19 | 2021-08-19 | 人形检测方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762101A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717531A (zh) * | 2018-05-21 | 2018-10-30 | 西安电子科技大学 | 基于Faster R-CNN的人体姿态估计方法 |
CN109086866A (zh) * | 2018-07-02 | 2018-12-25 | 重庆大学 | 一种适用于嵌入式设备的部分二值卷积方法 |
CN112818871A (zh) * | 2021-02-04 | 2021-05-18 | 南京师范大学 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
-
2021
- 2021-08-19 CN CN202110957386.5A patent/CN113762101A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717531A (zh) * | 2018-05-21 | 2018-10-30 | 西安电子科技大学 | 基于Faster R-CNN的人体姿态估计方法 |
CN109086866A (zh) * | 2018-07-02 | 2018-12-25 | 重庆大学 | 一种适用于嵌入式设备的部分二值卷积方法 |
CN112818871A (zh) * | 2021-02-04 | 2021-05-18 | 南京师范大学 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950638B (zh) | 基于模型蒸馏的图像分类方法、装置和电子设备 | |
CN109961507B (zh) | 一种人脸图像生成方法、装置、设备及存储介质 | |
US20220284638A1 (en) | Method for image processing, computer device, and storage medium | |
Thung et al. | Content-based image quality metric using similarity measure of moment vectors | |
CN104657709B (zh) | 人脸图像识别方法、装置及服务器 | |
US20190122394A1 (en) | Image processing apparatus and image processing method | |
CN109711508B (zh) | 图像处理方法和装置 | |
CN110991380A (zh) | 人体属性识别方法、装置、电子设备以及存储介质 | |
CN110992243B (zh) | 椎间盘截面图像构建方法、装置、计算机设备及存储介质 | |
CN111881804B (zh) | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 | |
US20220392201A1 (en) | Image feature matching method and related apparatus, device and storage medium | |
CN112528318A (zh) | 一种图像脱敏的方法、装置及电子设备 | |
CN111582459B (zh) | 执行操作的方法、电子设备、装置及存储介质 | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
CN116309983B (zh) | 虚拟人物模型的训练方法、生成方法、装置和电子设备 | |
CN110569984A (zh) | 配置信息生成方法、装置、设备及存储介质 | |
CN109815789A (zh) | 在cpu上实时多尺度人脸检测方法与系统及相关设备 | |
CN114005169B (zh) | 人脸关键点检测方法、装置、电子设备及存储介质 | |
CN112099848A (zh) | 一种业务处理方法、装置及设备 | |
CN111310590A (zh) | 一种动作识别方法及电子设备 | |
US20230153627A1 (en) | Training a convolutional neural network | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN111339969B (zh) | 人体姿势估计方法、装置、设备及存储介质 | |
CN113762101A (zh) | 人形检测方法、系统、设备及存储介质 | |
CN111428612A (zh) | 行人重识别方法、终端、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |