CN112132058A - 一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质 - Google Patents

一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质 Download PDF

Info

Publication number
CN112132058A
CN112132058A CN202011019897.4A CN202011019897A CN112132058A CN 112132058 A CN112132058 A CN 112132058A CN 202011019897 A CN202011019897 A CN 202011019897A CN 112132058 A CN112132058 A CN 112132058A
Authority
CN
China
Prior art keywords
feature
image
degrees
feat
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011019897.4A
Other languages
English (en)
Other versions
CN112132058B (zh
Inventor
李振
胡宇鹏
李学庆
展鹏
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202011019897.4A priority Critical patent/CN112132058B/zh
Publication of CN112132058A publication Critical patent/CN112132058A/zh
Application granted granted Critical
Publication of CN112132058B publication Critical patent/CN112132058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质,S1,接收图像,将图片进行初步人脸估计,框出人脸框后进行裁剪;S2,通过小波变换产生的四个通道的信息,与RGB图像信息进行拼接送入神经网络中;S3,神经网络阶段采用由粗到细网络架构,先将输入的图像进行头部姿态的预判,估计其大致区间,之后将图像送入精细化阶段计算头部姿态的精确值;S4,在精细化阶段,将图像信息送入人体头部输入模块中,采用多支流方案对图像信息进行特征映射的提取,经过神经网络训练,获得估计头部姿态结果。本发明通过小波变化提取图像低频特征,结合多支流与由粗到细的网络架构,有效提升了头部姿态的识别效果。

Description

一种基于多层级图像特征精炼学习的头部姿态估计方法及其 实现系统、存储介质
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质,主要涉及基于小波变换的图像表征与神经网络多粒度特征精炼学习,对人体头部姿态进行估计的方法、介质及设备。
背景技术
头部姿态估计是计算机视觉领域的研究热点问题。通常是指在图像或者视频中判断人体头部在三维空间中的朝向,即确定头部相对摄像机视图的方向。一般通过垂直转动的仰俯角、水平转动的偏航角、左右转动的旋转角三个方向的自由度来描述。由于不同的光照条件、人物背景变化及遮挡问题等各种因素,头部姿态估计面临很大的挑战。
在过去的二十年中,头部姿态估计的研究有力地推动了基于三维重建的视觉技术的迅速发展,其在视线估计、视觉注意力建模、视频特征拟合、人脸定位等实际应用场景中具有重要的应用价值。
目前,头部姿态估计研究尽管取得了一定的成绩,但是也存在一定的问题。首先,为了保证姿态估计的精度,需要耗费大量精力去获取带有注释的相应标识点;其次,当针对较低分辨率的图像进行头部姿态估计时,估计效果往往很差。再次,当利用深度相机进行基于神经网络的深度头部姿态估计时,深度相机易受环境的影响,并且比RGB相机消耗更多的能量,可能导致头部姿态估计结果的不稳定性。
发明内容
针对现有技术的不足,本发明提出了一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质。
本发明将基于小波变换的图像特征提取与基于神经网络的表征学习相结合,一方面利用小波变换提取人脸图像中相对稳定的低频特征,并将其与RGB图像特征进行特征拼接,随后输入神经网络进行表征学习;另一方面,本发明提出一种基于多层级特征精炼学习的神经网络结构,将所输入的特征按照不同的转角姿态进行“粗粒度”的特征分类,随后将分别对不同类别的特征进行“细粒度”的姿态位置回归,即以一种“去粗取精”的方式实现头部姿态位置的精准预测。相关实验表明,该方法在头部姿态估计方面取得了显著的效果。
本发明所要解决的技术问题是:如何快速准确地估计图像,并在处理过程中采用规模较小的神经网络模型来进行运算。
本发明在数据预处理阶段,采用多任务卷积神经网络对图像进行初步人脸估计,删除不包含人脸的图片,选出包含人脸的图片,框出人脸框后进行裁剪,将裁剪后的人脸图像送入后续模型进行深入训练;之后将小波变换图像与神经网络相结合,采用小波变换的方法提取人脸图像中相对稳定的低频特征,小波变换能较好地保留图像细节和各频带的边缘信息,去除图像中噪声和冗余信息,减少计算量。将其与RGB图像进行拼接,将小波变换处理之后的信息作为额外的通道添加到输入中,以帮助神经网络进行更好的估计和收敛。
本发明提出了多层级特征精炼学习的神经网络架构,能够有效提升头部姿态估计效果。首先分析了头部姿态相关数据库中的数据分布,针对其特点,设计了一种新的有效地网络架构,将回归问题转化为分类问题。该框架首先对图像进行粗分类,然后将粗分类的头部姿态图像送入后续细粒度网络模型中,进行更加精准的预测,该框架有助于缓解有偏样本分布的影响,结合分段映射形成更好的全局拟合。此外,在深层次神经网络中使用多个流来提取丰富的特征集,实现稳健和精确的回归。头部姿态估计可以看作一个基于图像的回归问题。本发明涉及的网络架构在垂直和水平方向都具有较深结构,同时包含自顶向下和横向连接以进行有效的特征映射。在输入阶段采用多支流方法,每条支流采用不同的阶段提取图像信息中的特征映射,选用不同的卷积池化激活方式,通过多支流来提取更多的图像信息。实验结果表明,该方法能够有效提升头部姿态估计效果。
本发明通过基于小波变换增强图像的语义输入,增加网络分支进行更丰富的特征提取。从网络架构、语义输入、特征提取三个方面,提升、优化现有的人头姿态估计的理论与解决方案。此外,本发明所提出的理论与方案具有泛化性,在理论与方法层面,对一般性的基于图像的回归问题也有更好的解决。
术语解释:
1、Haar小波,是小波的一种,是最简单的正交归一化小波。
2、多任务卷积神经网络,MTCNN,是一个用于人脸检测任务的多任务神经网络模型。它可以同时进行人脸区域检测与人脸关键点检测,其结构包含建议区域网络、优化网络与输出网络。
3、建议区域网络,RPN,是一个典型的全卷积网络,将一个图像(任意大小)作为输入,输出矩形目标建议框的集合,每个框有一个objectness得分。
4、优化网络,收到从建议区域网络传输过来的矩形目标建议框的集合,输出为优化后的人脸建议框信息,并将一些非人脸框进行筛除。
5、输出网络,接收传自优化网络的人脸建议框信息后,再进行进一步优化,从而给出最终的人脸区域与人脸上5个标志点,5个标志点包括两个眼睛点、两个嘴角点与一个鼻子点。
6、评分函数Φ(μ),用来度量神经网络中特征映射的特征重要程度。
7、平均绝对误差(Mean Absolute Error,MAE):是所有单个观测值与算术平均值的偏差的绝对值的平均。
8、俯仰角(pitch),围绕X轴旋转。
9、偏航角(yaw),围绕Y轴旋转。
10、翻滚角(roll),围绕Z轴旋转。
11、软阶段回归网络,SSR-Net,是通过输入单帧图片进而得到图像中的人的年龄预测的神经网络。
12、VGG网络:深度卷积神经网络,主要探究了卷积神经网络的深度和其性能之间的关系。
本发明的技术方案为:
一种基于多层级图像特征精炼学习的头部姿态估计方法,包括步骤如下:
S1:单目摄像装置获取图像,利用多任务卷积神经网络对图像进行初步人脸估计,删除不包含人脸的图片,选出包含人脸的图片,框出人脸框后进行裁剪;
S2:使用Haar小波对裁剪后的图片进行小波变换,将小波变换处理之后的四通道信息与步骤 S1裁剪后的RGB三通道图像进行拼接;送入后续的神经网络;神经网络包括粗粒度判别网络、细粒度判别网络;
S3:将拼接后的图像信息送入粗粒度判别网络,估计出头部姿态的大致区间,根据各自区间划分,组合为新划分的区间数据集;
S4:将新划分的区间数据集送入细粒度判别网络,估计出头部姿态具体角度值(x,y,z),x、 y、z分别代表俯仰角、偏航角与翻滚角。例如,经过计算获得头部姿态值(+32.5°,-45.2°,+67 °),即俯仰角为+32.5°,偏航角为-45.2°,翻滚角为+67°,从而得到确定的头部姿态。
根据本发明优选的,步骤S1中,图像处理的方法具体包括:
S11:通过单目摄像装置获取图像;单目摄像装置采用OV2640图像传感器,输出格式为JPEG数据,输出位宽为8位,电源电压为3.3V;服务器采用树莓派4B型,其处理器核心为BROADCOM BCM2711,内核为4核的CORTEX-A72,内存为4GB,GPU为500MMHz VideoCore VI,主频为1.5GHz,电源要求为5V、3A;显示装置采用PiOLED模块,是一个128*64的OLED显示屏幕。OLED显示屏具有高对比度,低功耗的特点。屏幕有用于SSD1306芯片组的python库,可以使用python成像库绘制图像,其工作电压为3.3V。
S12:使用多任务卷积神经网络对步骤S11获取的图像进行预处理:
首先,将图像进行不同尺度的变换,以适应不同大小人脸的检测;
然后,将图像送入建议区域网络,建议区域网络的基本构造是一个全连接网络,经过建议区域网络处理之后,输出为大量推测可能是人脸框的坐标位置,即大量推测可能为人脸包围盒的信息;
接着,将建议区域网络的输出送入优化网络,其接收从建议区域网络传输过来的人脸框的坐标位置,优化网络检测出大量的无效人脸包围盒并进行删除,输出优化后的人脸框的坐标位置;
最后,将优化后的人脸框的坐标位置输入输出网络再进行进一步优化,输出最终的人脸区域与人脸上5个标志点。
进一步优选的,所述输出网络采用了更大的256*256的全连接层。保留了更多的图像特征。
根据本发明优选的,步骤S1中,使用多任务卷积神经网络框出人脸框后进行裁剪,是指:对输出的最终的人脸区域进行裁剪,获取人脸几何图像子块。
根据本发明优选的,所述步骤S2中,使用Haar小波对裁剪后的图片进行小波变换,是指:
本发明采用小波变换的方法提取人脸图像中相对稳定的低频子带,降低图像矢量的维数,小波变换能较好地保留图像细节和各频带的边缘信息。小波变换函数定义如下:
Figure 100002_3
小波变换函数定义式中,α>0被称为规模因子,其作用是控制基本小波函数Φ(x)的大小规模; b是位移量,其值可正可负;转化因子τ控制小波函数的转化;参数a与b是连续变量。通过引入 y方向,二维的小波分解函数对图像的处理功能与一维的类似。我们利用一维小波和尺度函数的张量积得到二维小波和尺度函数。如果一维小波变换在x和y方向的平移参数分别为b和c,尺度参数为α,那么沿着x方向的小波函数便是
Figure BDA0002700259770000044
沿着y方向的小波函数便是
Figure BDA0002700259770000045
如果f(x, y)代表二维图像,它的小波函数等于f(x,y)沿着x方向与y方向各自通过一维的滤波进行运算,以此来获得低通频带与高通频带的子频带。二维小波函数定义如下:
Figure BDA0002700259770000042
在小波变换中,采用Haar小波处理人体头部图像,Haar变换在图像分解与重建中具有速度快、压缩比高等优点,它可以通过变换充分突出人脸图像的某些细节特征。
对人脸几何图像子块进行如下小波变换,如式(I)所示:
Figure BDA0002700259770000043
式(I)中,
Figure BDA0002700259770000051
表示人脸几何图像子块,i表示变换之后的图像子块,i11是子块
Figure BDA0002700259770000052
的低频系数,i12, i21,i22分别是
Figure BDA0002700259770000053
的水平、垂直、对角线方向的高频系数;
H是指Haar变换矩阵,如式(II)所示:
Figure BDA0002700259770000054
对图像进行分解后,将当前频带划分为四个子带,分别为低频分量、水平细节分量、垂直细节分量和对角线细节分量,即小波变换处理之后的四通道信息;经过Haar变换后分解成第一尺度下四个频域分量,低频系数构成的低频分量,集中了几何图像的大部分信息;水平方向的高频系数构成的水平细节分量,反映了几何图像沿水平方向的边缘信息;垂直方向的高频系数构成的垂直细节分量,保持了几何图像沿垂直方向的边缘信息;对角线方向的高频系数构成的对角线细节分量,保持了几何图像沿对角线方向的细节特征。
步骤S2中,将小波变换处理之后的四通道信息与RGB三通道图像进行拼接,是指将R通道、G 通道、B通道、低频分量通道、水平细节分量通道、垂直细节分量通道和对角线细节分量通道进行拼接。RGB三通道包括R通道、G通道、B通道。
根据本发明优选的,所述粗粒度判别网络与所述细粒度判别网络结构相同,均包括人体头部输入模块、特征融合模块、评分函数模块、特征凝练模块与软阶段回归网络模块;
人体头部输入模块接收重新划分的图像数据,送入的图像大小为64*64像素,其中通道数为7 个通道,包含RGB三通道与小波处理之后的四通道数据。
所述人体头部输入模块包括三支流SL、SM、SR,支流SL包括依次连接的三个模块BlockL,模块BlockL包括可分离式二维卷积层、激活函数ReLU;支流SM包括依次连接的三个模块BlockM,模块BlockM包括可分离式二维卷积层、激活函数Tanh;支流SR包括依次连接的三个模块BlockR,模块BlockR包括可分离式二维卷积层、激活函数Sigmoid。
三支流SL、SM、SR的内部结构如表1所示:
表1
Figure BDA0002700259770000055
表1中,SL,SM,SR代表三只支流名称,分别为SteamL,SteamM,SteamR;BL,BM,BR为各自模块; MP为平均池化方试;AP为最大池化方式;
根据本发明优选的,步骤S3中,通过调研分析,发现在头部姿态区域的极端姿态中,网络模型对其的估计往往具有较高的绝对误差,在变化较小的头部姿态区域时,模型估计效果较好。此外,数据库中极端姿态的训练样本通常会导致网络模型的表现不佳。针对该问题,粗粒度判别网络对于数据集中的数据进行大致区间的预判,粗粒度判别网络中,根据图像数据集中的三个角度标签值分布,按照区间从-90度到+90度分为五类,-90度到-30度为第一类,标签值为1;-30度到-20度为第二类,标签值为2;-20度到+20度为第三类,标签值为3;+20度到+30度为第四类,标签值为4;+30度到+90度为第五类,标签值为5,之后将该数据及其标签送入粗粒度判别网络进行训练。粗粒度判别网络判别姿态的方法包括:
S31:将步骤S2拼接后的图像信息输入人体头部输入模块;经过人体头部输入模块中三个支流后获取三个特征映射矩阵;
S32:通过特征融合模块将三个特征映射矩阵进行矩阵融合:将SL,SM两个支流的特征映射矩阵进行c维1*1元素相乘,得到的特征组合再与SR支流特征映射矩阵对应元素相加,得到组合特征,将组合特征映射转换成c通道;利用平均池化将组合特征映射的大小缩小到w×h,从而得到第k阶段的w×h×c特征映射FeatK;w,h分别代表特征映射矩阵的维度数的数值,c代表特征映射的通道数,K代表特征映射阶段数;
在矩阵融合阶段,将两个支流的特征映射矩阵进行矩阵融合后,对每一阶段,生成特征映射 FeatK,其维度为w×h×c,特征映射FeatK是一个网格结构,其内部每一网格中由包含特定空间信息的c维特征表示。
S33:由步骤S32处理之后的特征映射FeatK送入评分函数模块中,通过评分函数模块计算每个特征映射FeatK的注意力图AK;以便更好地对特征映射进行分组。
S34:由步骤S32处理之后的特征映射FeatK与步骤S33处理之后的AK送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射Mapk与C,将FeatK、Mapk与C拼接为
Figure BDA0002700259770000061
通过SSR-Net特征融合并进一步提取出特征集V∈R K×c;以便更好地对特征映射进行分组。
S35:将步骤S34提取的特征集V∈R K×c'送入软阶段回归网络模块,软阶段回归网络模块是基于软阶段回归网络(SSR网络)进行改进而成的模块,SSR网络通过输入单帧图片进而得到图像中的人的年龄预测,SSR网络创新点在于将年龄估计这一回归问题转化为分类问题。本发明将逐步软回归方案应用于单目图像的头部姿态估计问题。与年龄估计问题不同,头部姿态估计问题估计的是人体头部姿态向量,而不是单个的标量。本发明用软阶段回归网络模块表示多维回归的SSR网络。在上一阶段获取的特征映射,被送入映射模块来获得Kc'维向量。每一个向量都会被用于软阶段回归网络模块中,输出结果为
Figure BDA0002700259770000071
△k为软阶段回归网络模块的回归输出值,为缩放因子,缩放第k个阶段的宽度;
Figure BDA0002700259770000072
为偏移量,范围为[-1,1];p为经过软阶段回归网络模块中的全连接层处理之后的特征向量,输出范围为[-1,1],计算得出三个头部姿态角度值;
S36:根据步骤S35计算的头部姿态角度值,对其进行分类,并标注上标签值,是指:头部姿态角度值如果为-90度到-30度,则为第一类,标签值为1;头部姿态角度值如果为-30度到-20度,则为第二类,标签值为2;头部姿态角度值如果为-20度到+20度,则为第三类,标签值为3;头部姿态角度值如果为+20度到+30度,则为第四类,标签值为4;头部姿态角度值如果为+30度到+90 度,则为第五类,标签值为5;
S37:数据重组,是指:将标签值为1与2的数据组成数据集A,标签值为2、3与4的数据组成数据集B,标签值为4与5的数据组成数据集C,数据集A、数据集B及数据集C即新划分的区间数据集。送入细粒度神经网络中进行更加精准的判断。
根据本发明优选的,步骤S33中,给定像素级特征feat=(feat1,...,featc),用评分函数Φ(feat) 来衡量信息的重要性以便于对空间进行分组。因此,对每一个特征映射FeatK,使用评分函数Φ(feat)来获得注意力图AK,feat为像素级特征,如式(Ⅳ)所示:
Ak(i,j)=Φ(FeatK(i,j)) (Ⅳ)
式(Ⅳ)中,i、j代表特征映射FeatK中的具体位置信息,FeatK(i,j)即特征映射中FeatK第 i行第j列的数值,Ak(i,j)即注意力图中第i行第j列的数值。
分别通过1×1卷积层、方差及归一化的方法进行评分,获取平均值,即最终的评分。
对评分函数,采用三种方案作为评分方式:1.1×1卷积;2.方差;3.归一化。通过将它们的预测平均在一起形成一个评分函数模块。用这种方法,头部姿态估计的准确率就更加精准。
采用1×1卷积层作为学习的评分函数,如下所示:
Φ(feat)=σ(w·feat)
σ为sigmoid函数,w为可学习卷积核。虽然使用1×1卷积作为评分函数,我们可以从训练数据中学习如何加权特征。当训练数据与测试数据有显著差异时,可能会出现潜在的过度拟合问题。
使用方差来选择特征,即:
Figure BDA0002700259770000081
其中
Figure BDA0002700259770000082
归一化,是平等对待所有特征,即:
Φ(feat)=1
根据本发明优选的,由步骤S32处理之后的特征映射FeatK送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射,包括步骤如下:
A、将特征映射FeatK拼接成为矩阵Feat,K=1,2,3,...,Feat的第一维度为 n=w×h×K,U∈R n×c,即Feat是一个三维矩阵,包括在所有阶段中所有特征映射 FeatK的c维像素级别的特征;
B、对第k个阶段来说,求取映射Mapk,选择Feat中的特征并将其分组到一组n'个具有代表性的特征Featk,如式(Ⅴ)所示:
Figure BDA0002700259770000083
式(Ⅴ)中,Mapk∈Rn’×n
Figure BDA0002700259770000084
是更有效的更具代表性的特征映射,从n个像素级别的特征中,通过线性组合将n'个代表性特征集合起来;映射Mapk是一种线性变换,通过对所有像素级别的特征进行加权平均来进行线性降维;
把映射Mapk写成两个可学习映射C和Mk的乘积,映射Mapk如式(VI)所示:
Mapk=CMk (VI)
式(VI)中,C∈Rn‘×m,Mk∈Rm×n,m是一个参数,映射Mk是针对第k阶段的,而映射C的数据是在所有阶段共享的,映射Mk和C分别如式(Ⅶ)、(Ⅷ)所示:
Mk=σ(fM(Ak)) (Ⅶ)
C=σ(fC(A)) (Ⅷ)
式(Ⅶ)、(Ⅷ)中,σ是sigmoid激活函数;fM、fC是由全连接层定义的函数,两个函数接收的数据大小不同;fM,fC均是端到端网络模型中的一部分,并且fM,fC的值随着网络模型的训练而产生;A是所有注意力映射的拼接矩阵,A如式(Ⅸ)所示:
A=[A1,A2,...,AK] (Ⅸ)
式(Ⅸ)中,AK为特征映射Featk经注意力模块处理之后的特征映射。
在Mapk中使用可分离映射不仅可以减少参数的数目,而且可以稳定训练效果。
C、对每一行映射Mapk进行L1归一化;以获得更稳定的训练。
映射Mapk的每一行折叠成尺寸为w×h的K个映射,每一行都表示像素级特征,如何在空间上贡献给与特定行相对应的代表特征。因此,Mapk的每一行都可以被看作是一个细粒度的结构,这对头部姿态估计问题来说是非常重要的。
D、将
Figure BDA0002700259770000091
连接在一起,形成一组具有代表性的特征,如式(X)所示:
Figure 1
式(X)中,
Figure BDA0002700259770000093
E、通过特征聚合方法处理一组代表性特征
Figure BDA0002700259770000094
得到最终的特征集V∈R K×c';在头部姿态阶段回归进行进一步处理。
根据本发明优选的,步骤S35中,计算头部姿态角度值
Figure BDA0002700259770000095
如式(Ⅺ)所示:
Figure BDA0002700259770000096
式(Ⅺ)中,
Figure BDA0002700259770000097
是k个角度值区间的概率分布,
Figure BDA0002700259770000098
是k个角度区间的代表值组成的向量。
根据本发明优选的,步骤S4中,细粒度判别网络包括三个角度对应的区间细粒度判别网络,针对俯仰角、偏航角与翻滚角三个角度,每个角度划分三个区间,包括-90度至-20度、-30度至 +30度、+20度至+90度;每个角度的每个区间有各自的细粒度判别网络;由步骤S37处理之后的数据集A、B与C送入三个角度对应的区间细粒度判别网络,对三个角度数据划分的同时,也设置了重叠区域,该区域设置为10度。设置重叠区域的目的在于防止不同区域的之间头部姿态数据差异过大造成的模型的过拟合现象,从而提高粗粒度模型的鲁棒性。包括步骤如下:
S41:由步骤S37处理之后的数据集A、B与C输入人体头部输入模块中,经过人体头部输入模块中三个支流后获取三个特征映射矩阵;
S42:通过特征融合模块将三个特征映射矩阵进行矩阵融合:将SL,SM两个支流的特征映射矩阵进行c维1*1元素相乘,得到的特征组合再与SR支流特征映射矩阵对应元素相加,得到组合特征,将组合特征映射转换成c通道;利用平均池化将组合特征映射的大小缩小到w×h,从而得到第k阶段的w×h×c特征映射FeatK′;w,h分别代表特征映射矩阵的维度数的数值,c代表特征映射的通道数,K代表特征映射阶段数;
S43:由步骤S42处理之后的特征映射FeatK′,送入评分函数模块中,计算相应的注意力图A′K
S44:由步骤S42处理之后的特征映射FeatK′与步骤S43处理之后的A′K送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射Mapk′与C′,将FeatK′、Mapk′与C′拼接为
Figure BDA0002700259770000101
通过SSR-Net特征融合并进一步提取出特征集V′∈R K×c';以便更好地对特征映射进行分组。
S45:由步骤S44获取的特征映射V′,送入软阶段回归网络模块,经过计算,获得真实的头部姿态预测值。
细粒度判别网络的结构及处理过程与粗粒度判别网络的结构及处理过程相同,只是输入的数据不同。在细粒度网络中,将头部姿态真实数值作为标签值,而不是区间化的标签值。通过公式(XI) 计算分别可得(x,y,z),分别代表俯仰角、偏航角与翻滚角。
根据本发明优选的,BlockL、BlockM与BlockR的内部结构分别如式(Ⅲ)、式(Ⅳ)、式(Ⅴ) 所示:
BlockL(c)={SepConv 2D(3×3,c)-BN-ReLU} (Ⅲ)
BlockM(c)={SepConv 2D(3×3,c)-BN-Sigmoid} (Ⅳ)
BlockR(c)={SepConv 2D(3×3,c)-BN-Tanh} (Ⅴ)
式(Ⅲ)、式(Ⅳ)、式(Ⅴ)中,SepConv 2D(3×3,c)代表可分离式二维卷积层,c是卷积层的通道数,ReLU、Tanh与Sigmoid分别代表激活函数ReLU、激活函数Tanh与激活函数Sigmoid。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于多层级图像特征精炼学习的头部姿态估计程序,所述基于多层级图像特征精炼学习的头部姿态估计程序被处理器执行时,实现任一所述的基于多层级图像特征精炼学习的头部姿态估计方法的步骤。
上述基于多层级图像特征精炼学习的头部姿态估计方法的实现系统,包括依次连接的图像预处理单元、粗粒度判别网络单元、细粒度判别网络单元;所述图像预处理单元用于执行步骤S1及步骤S2;所述粗粒度判别网络单元用于执行步骤S3;所述细粒度判别网络单元用于执行步骤S4。
本发明的有益效果为:
1、针对现有的头部姿态估计问题,本发明尝试使用更优的方法来解决。小波变换之后的图像能够提供更多的信息,小波处理之后可以保留图像主要信息,去除噪声和冗余信息,减少计算量。小波变换后的图像可以为头部姿态估计提供指导信息。本发明将其作为输入信息,与原始RGB图像进行结合,两者同时送入神经网络中进行训练,能够有效提升头部姿态估计结果。
2.头部姿态估计可以看作一个基于图像的回归问题。本发明设计了一种新的有效的网络架构,该网络架构在垂直和水平方向都具有较深结构,同时包含自顶向下和横向连接以进行有效的特征映射。在输入阶段采用多支流方法,每条支流采用不同的阶段提取图像信息中的特征映射,选用不同的卷积池化激活方式,通过多支流来提取更多的图像信息。实验结果表明,该方法能够有效提升头部姿态估计效果。
3.本发明提出由粗到细的回归网络架构,通过基于小波变换增强图像的语义输入,增加网络分支进行更丰富的特征提取。从网络架构、语义输入、特征提取三个方面,提升、优化现有的人头姿态估计的理论与解决方案。此外,本发明所提出的理论与方案具有泛化性,在理论与方法层面,对一般性的基于图像的回归问题也有更好的解决。
附图说明
图1为本发明基于多层级图像特征精炼学习的头部姿态估计方法实现设备示意图;
图2为本发明粗粒度判别网络判别姿态的方法流程示意图;
图3为本发明粗粒度判别网络到粗粒度判别网络整体架构示意图;
图4为本发明基于多层级图像特征精炼学习的头部姿态估计方法流程示意图;
图5为本发明基于多层级图像特征精炼学习的头部姿态估计方法处理后的一组效果图;
图6为本发明基于多层级图像特征精炼学习的头部姿态估计方法的实现系统结构框图;
图7为本发明软阶段回归网络模块的结构框图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于多层级图像特征精炼学习的头部姿态估计方法,如图4所示,包括步骤如下:
S1:单目摄像装置获取图像,利用多任务卷积神经网络对图像进行初步人脸估计,删除不包含人脸的图片,选出包含人脸的图片,框出人脸框后进行裁剪;
S2:使用Haar小波对裁剪后的图片进行小波变换,将小波变换处理之后的四通道信息与步骤S1裁剪后的RGB三通道图像进行拼接;送入后续的神经网络;神经网络包括粗粒度判别网络、细粒度判别网络;
S3:将拼接后的图像信息送入粗粒度判别网络,估计出头部姿态的大致区间,根据各自区间划分,组合为新划分的区间数据集;
S4:将新划分的区间数据集送入细粒度判别网络,估计出头部姿态具体角度值(x,y,z),x、 y、z分别代表俯仰角、偏航角与翻滚角。例如,经过计算获得头部姿态值(+32.5°,-45.2°,+67 °),即俯仰角为+32.5°,偏航角为-45.2°,翻滚角为+67°,从而得到确定的头部姿态。
实施例2
根据实施例1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其区别在于:
步骤S1中,图像处理的方法具体包括:
S11:通过单目摄像装置获取图像;单目摄像装置采用OV2640图像传感器,输出格式为JPEG数据,输出位宽为8位,电源电压为3.3V;服务器采用树莓派4B型,其处理器核心为BROADCOM BCM2711,内核为4核的CORTEX-A72,内存为4GB,GPU为500MMHz VideoCore VI,主频为1.5GHz,电源要求为5V、3A;显示装置采用PiOLED模块,是一个128*64的OLED显示屏幕。OLED显示屏具有高对比度,低功耗的特点。屏幕有用于SSD1306芯片组的python库,可以使用python成像库绘制图像,其工作电压为3.3V。
S12:使用多任务卷积神经网络对步骤S11获取的图像进行预处理:
首先,将图像进行不同尺度的变换,以适应不同大小人脸的检测;
然后,将图像送入建议区域网络,建议区域网络的基本构造是一个全连接网络,经过建议区域网络处理之后,输出为大量推测可能是人脸框的坐标位置,即大量推测可能为人脸包围盒的信息;
接着,将建议区域网络的输出送入优化网络,其接收从建议区域网络传输过来的人脸框的坐标位置,优化网络检测出大量的无效人脸包围盒并进行删除,输出优化后的人脸框的坐标位置;
最后,将优化后的人脸框的坐标位置输入输出网络再进行进一步优化,输出最终的人脸区域与人脸上5个标志点。
输出网络采用了更大的256*256的全连接层。保留了更多的图像特征。
步骤S1中,使用多任务卷积神经网络框出人脸框后进行裁剪,是指:对输出的最终的人脸区域进行裁剪,获取人脸几何图像子块。
实施例3
根据实施例1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其区别在于:
步骤S2中,使用Haar小波对裁剪后的图片进行小波变换,是指:
本发明采用小波变换的方法提取人脸图像中相对稳定的低频子带,降低图像矢量的维数,小波变换能较好地保留图像细节和各频带的边缘信息。小波变换函数定义如下:
Figure 4
小波变换函数定义式中,α>0被称为规模因子,其作用是控制基本小波函数Φ(x)的大小规模; b是位移量,其值可正可负;转化因子τ控制小波函数的转化;参数a与b是连续变量。通过引入 y方向,二维的小波分解函数对图像的处理功能与一维的类似。我们利用一维小波和尺度函数的张量积得到二维小波和尺度函数。如果一维小波变换在x和y方向的平移参数分别为b和c,尺度参数为α,那么沿着x方向的小波函数便是
Figure BDA0002700259770000132
沿着y方向的小波函数便是
Figure BDA0002700259770000133
如果f(x, y)代表二维图像,它的小波函数等于f(x,y)沿着x方向与y方向各自通过一维的滤波进行运算,以此来获得低通频带与高通频带的子频带。二维小波函数定义如下:
Figure BDA0002700259770000134
在小波变换中,采用Haar小波处理人体头部图像,Haar变换在图像分解与重建中具有速度快、压缩比高等优点,它可以通过变换充分突出人脸图像的某些细节特征。
对人脸几何图像子块进行如下小波变换,如式(I)所示:
Figure BDA0002700259770000135
式(I)中,
Figure BDA0002700259770000136
表示人脸几何图像子块,i表示变换之后的图像子块,i11是子块i~的低频系数,i12, i21,i22分别是
Figure BDA0002700259770000137
的水平、垂直、对角线方向的高频系数;
H是指Haar变换矩阵,如式(II)所示:
Figure BDA0002700259770000138
对图像进行分解后,将当前频带划分为四个子带,分别为低频分量、水平细节分量、垂直细节分量和对角线细节分量,即小波变换处理之后的四通道信息;经过Haar变换后分解成第一尺度下四个频域分量,低频系数构成的低频分量,集中了几何图像的大部分信息;水平方向的高频系数构成的水平细节分量,反映了几何图像沿水平方向的边缘信息;垂直方向的高频系数构成的垂直细节分量,保持了几何图像沿垂直方向的边缘信息;对角线方向的高频系数构成的对角线细节分量,保持了几何图像沿对角线方向的细节特征。
步骤S2中,将小波变换处理之后的四通道信息与RGB三通道图像进行拼接,是指将R通道、G 通道、B通道、低频分量通道、水平细节分量通道、垂直细节分量通道和对角线细节分量通道进行拼接。RGB三通道包括R通道、G通道、B通道。
实施例4
根据实施例1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其区别在于:
粗粒度判别网络与细粒度判别网络结构相同,如图3所示,均包括人体头部输入模块、特征融合模块、评分函数模块、特征凝练模块与软阶段回归网络模块;
人体头部输入模块接收重新划分的图像数据,送入的图像大小为64*64像素,其中通道数为7 个通道,包含RGB三通道与小波处理之后的四通道数据。
人体头部输入模块包括三支流SL、SM、SR,支流SL包括依次连接的三个模块BlockL,模块 BlockL包括可分离式二维卷积层、激活函数ReLU;支流SM包括依次连接的三个模块BlockM,模块BlockM包括可分离式二维卷积层、激活函数Tanh;支流SR包括依次连接的三个模块BlockR,模块BlockR包括可分离式二维卷积层、激活函数Sigmoid。
三支流SL、SM、SR的内部结构如表1所示:
表1
Figure BDA0002700259770000141
表1中,SL,SM,SR代表三只支流名称,分别为SteamL,SteamM,SteamR;BL,BM,BR为各自模块; MP为平均池化方试;AP为最大池化方式;
BlockL、BlockM与BlockR的内部结构分别如式(Ⅲ)、式(Ⅳ)、式(Ⅴ)所示:
BlockL(c)={SepConv 2D(3×3,c)-BN-ReLU} (Ⅲ)
BlockM(c)={SepConv 2D(3×3,c)-BN-Sigmoid} (Ⅳ)
BlockR(c)={SepConv 2D(3×3,c)-BN-Tanh} (Ⅴ)
式(Ⅲ)、式(Ⅳ)、式(Ⅴ)中,SepConv 2D(3×3,c)代表可分离式二维卷积层,c是卷积层的通道数,ReLU、Tanh与Sigmoid分别代表激活函数ReLU、激活函数Tanh与激活函数Sigmoid。
实施例5
根据实施例1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其区别在于:
步骤S3中,通过调研分析,发现在头部姿态区域的极端姿态中,网络模型对其的估计往往具有较高的绝对误差,在变化较小的头部姿态区域时,模型估计效果较好。此外,数据库中极端姿态的训练样本通常会导致网络模型的表现不佳。针对该问题,粗粒度判别网络对于数据集中的数据进行大致区间的预判,粗粒度判别网络中,根据图像数据集中的三个角度标签值分布,按照区间从-90 度到+90度分为五类,-90度到-30度为第一类,标签值为1;-30度到-20度为第二类,标签值为 2;-20度到+20度为第三类,标签值为3;+20度到+30度为第四类,标签值为4;+30度到+90度为第五类,标签值为5,之后将该数据及其标签送入粗粒度判别网络进行训练。如图2所示,粗粒度判别网络判别姿态的方法包括:
S31:将步骤S2拼接后的图像信息输入人体头部输入模块;经过人体头部输入模块中三个支流后获取三个特征映射矩阵;
S32:通过特征融合模块将三个特征映射矩阵进行矩阵融合:将SL,SM两个支流的特征映射矩阵进行c维1*1元素相乘,得到的特征组合再与SR支流特征映射矩阵对应元素相加,得到组合特征,将组合特征映射转换成c通道;利用平均池化将组合特征映射的大小缩小到w×h,从而得到第k阶段的w×h×c特征映射FeatK;w,h分别代表特征映射矩阵的维度数的数值,c代表特征映射的通道数,K代表特征映射阶段数;
在矩阵融合阶段,将两个支流的特征映射矩阵进行矩阵融合后,对每一阶段,生成特征映射 FeatK,其维度为w×h×c,特征映射FeatK是一个网格结构,其内部每一网格中由包含特定空间信息的c维特征表示。
S33:由步骤S32处理之后的特征映射FeatK送入评分函数模块中,通过评分函数模块计算每个特征映射FeatK的注意力图AK;以便更好地对特征映射进行分组。
S34:由步骤S32处理之后的特征映射FeatK与步骤S33处理之后的AK送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射Mapk与C,将FeatK、Mapk与C拼接为
Figure BDA0002700259770000151
通过SSR-Net特征融合并进一步提取出特征集V∈RK×c;以便更好地对特征映射进行分组。
S35:将步骤S34提取的特征集V∈RK×c'送入软阶段回归网络模块,软阶段回归网络模块是基于软阶段回归网络(SSR网络)进行改进而成的模块,其结构如图7所示。SSR网络通过输入单帧图片进而得到图像中的人的年龄预测,SSR网络创新点在于将年龄估计这一回归问题转化为分类问题。本发明将逐步软回归方案应用于单目图像的头部姿态估计问题。与年龄估计问题不同,头部姿态估计问题估计的是人体头部姿态向量,而不是单个的标量。本发明用软阶段回归网络模块表示多维回归的SSR网络。在上一阶段获取的特征映射,被送入映射模块来获得Kc'维向量。每一个向量都会被用于软阶段回归网络模块中,输出结果为
Figure BDA0002700259770000161
△k为软阶段回归网络模块的回归输出值,为缩放因子,缩放第k个阶段的宽度;
Figure BDA0002700259770000162
为偏移量,范围为[-1,1];p为经过软阶段回归网络模块中的全连接层处理之后的特征向量,输出范围为[-1,1],计算得出三个头部姿态角度值;
S36:根据步骤S35计算的头部姿态角度值,对其进行分类,并标注上标签值,是指:头部姿态角度值如果为-90度到-30度,则为第一类,标签值为1;头部姿态角度值如果为-30度到-20度,则为第二类,标签值为2;头部姿态角度值如果为-20度到+20度,则为第三类,标签值为3;头部姿态角度值如果为+20度到+30度,则为第四类,标签值为4;头部姿态角度值如果为+30度到+90 度,则为第五类,标签值为5;
S37:数据重组,是指:将标签值为1与2的数据组成数据集A,标签值为2、3与4的数据组成数据集B,标签值为4与5的数据组成数据集C,数据集A、数据集B及数据集C即新划分的区间数据集。送入细粒度神经网络中进行更加精准的判断。
步骤S33中,给定像素级特征feat=(feat1,...,featc),用评分函数Φ(feat)来衡量信息的重要性以便于对空间进行分组。因此,对每一个特征映射FeatK,使用评分函数Φ(feat)来获得注意力图AK,feat为像素级特征,如式(Ⅳ)所示:
Ak(i,j)=Φ(FeatK(i,j)) (Ⅳ)
式(Ⅳ)中,i、j代表特征映射FeatK中的具体位置信息,FeatK(i,j)即特征映射中FeatK第 i行第j列的数值,Ak(i,j)即注意力图中第i行第j列的数值。
分别通过1×1卷积层、方差及归一化的方法进行评分,获取平均值,即最终的评分。
对评分函数,采用三种方案作为评分方式:1.1×1卷积;2.方差;3.归一化。通过将它们的预测平均在一起形成一个评分函数模块。用这种方法,头部姿态估计的准确率就更加精准。
采用1×1卷积层作为学习的评分函数,如下所示:
Φ(feat)=σ(w·feat)
σ为sigmoid函数,w为可学习卷积核。虽然使用1×1卷积作为评分函数,我们可以从训练数据中学习如何加权特征。当训练数据与测试数据有显著差异时,可能会出现潜在的过度拟合问题。
使用方差来选择特征,即:
Figure BDA0002700259770000163
其中
Figure BDA0002700259770000171
归一化,是平等对待所有特征,即:
Φ(feat)=1
由步骤S32处理之后的特征映射FeatK送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射,包括步骤如下:
A、将特征映射FeatK拼接成为矩阵Feat,K=1,2,3,...,Feat的第一维度为 n=w×h×K,U∈Rn×c,即Feat是一个三维矩阵,包括在所有阶段中所有特征映射 FeatK的c维像素级别的特征;
B、对第k个阶段来说,求取映射Mapk,选择Feat中的特征并将其分组到一组n'个具有代表性的特征Featk,如式(Ⅴ)所示:
Figure BDA0002700259770000172
式(Ⅴ)中,Mapk∈Rn’×n
Figure BDA0002700259770000173
是更有效的更具代表性的特征映射,从n个像素级别的特征中,通过线性组合将n'个代表性特征集合起来;映射Mapk是一种线性变换,通过对所有像素级别的特征进行加权平均来进行线性降维;
把映射Mapk写成两个可学习映射C和Mk的乘积,映射Mapk如式(VI)所示:
Mapk=CMk (VI)
式(VI)中,C∈Rn‘×m,Mk∈Rm×n,m是一个参数,映射Mk是针对第k阶段的,而映射C的数据是在所有阶段共享的,映射Mk和C分别如式(Ⅶ)、(Ⅷ)所示:
Mk=σ(fM(Ak)) (Ⅶ)
C=σ(fC(A)) (Ⅷ)
式(Ⅶ)、(Ⅷ)中,σ是sigmoid激活函数;fM、fC是由全连接层定义的函数,两个函数接收的数据大小不同;fM,fC均是端到端网络模型中的一部分,并且fM,fC的值随着网络模型的训练而产生;A是所有注意力映射的拼接矩阵,A如式(Ⅸ)所示:
A=[A1,A2,...,AK] (Ⅸ)
式(Ⅸ)中,AK为特征映射Featk经注意力模块处理之后的特征映射。
在Mapk中使用可分离映射不仅可以减少参数的数目,而且可以稳定训练效果。
C、对每一行映射Mapk进行L1归一化;以获得更稳定的训练。
映射Mapk的每一行折叠成尺寸为w×h的K个映射,每一行都表示像素级特征,如何在空间上贡献给与特定行相对应的代表特征。因此,Mapk的每一行都可以被看作是一个细粒度的结构,这对头部姿态估计问题来说是非常重要的。
D、将
Figure BDA0002700259770000181
连接在一起,形成一组具有代表性的特征,如式(X)所示:
Figure 100002_2
式(X)中,
Figure BDA0002700259770000183
E、通过特征聚合方法处理一组代表性特征
Figure BDA0002700259770000184
得到最终的特征集V∈R K×c';在头部姿态阶段回归进行进一步处理。
步骤S35中,计算头部姿态角度值
Figure BDA0002700259770000185
如式(Ⅺ)所示:
Figure BDA0002700259770000186
式(Ⅺ)中,
Figure BDA0002700259770000187
是k个角度值区间的概率分布,
Figure BDA0002700259770000188
是k个角度区间的代表值组成的向量。
实施例6
根据实施例1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其区别在于:
步骤S4中,细粒度判别网络包括三个角度对应的区间细粒度判别网络,针对俯仰角、偏航角与翻滚角三个角度,每个角度划分三个区间,包括-90度至-20度、-30度至+30度、+20度至+90 度;每个角度的每个区间有各自的细粒度判别网络;由步骤S37处理之后的数据集A、B与C送入三个角度对应的区间细粒度判别网络,对三个角度数据划分的同时,也设置了重叠区域,该区域设置为10度。设置重叠区域的目的在于防止不同区域的之间头部姿态数据差异过大造成的模型的过拟合现象,从而提高粗粒度模型的鲁棒性。包括步骤如下:
S41:由步骤S37处理之后的数据集A、B与C输入人体头部输入模块中,经过人体头部输入模块中三个支流后获取三个特征映射矩阵;
S42:通过特征融合模块将三个特征映射矩阵进行矩阵融合:将SL,SM两个支流的特征映射矩阵进行c维1*1元素相乘,得到的特征组合再与SR支流特征映射矩阵对应元素相加,得到组合特征,将组合特征映射转换成c通道;利用平均池化将组合特征映射的大小缩小到w×h,从而得到第k阶段的w×h×c特征映射FeatK′;w,h分别代表特征映射矩阵的维度数的数值,c代表特征映射的通道数,K代表特征映射阶段数;
S43:由步骤S42处理之后的特征映射FeatK′,送入评分函数模块中,计算相应的注意力图A′K
S44:由步骤S42处理之后的特征映射FeatK′与步骤S43处理之后的A′K送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射Mapk′与C′,将FeatK′、Mapk′与C′拼接为
Figure BDA0002700259770000191
通过SSR-Net特征融合并进一步提取出特征集V′∈RK×c';以便更好地对特征映射进行分组。
S45:由步骤S44获取的特征映射V′,送入软阶段回归网络模块,经过计算,获得真实的头部姿态预测值。基于多层级图像特征精炼学习的头部姿态估计方法处理后的效果如图5所示。
细粒度判别网络的结构及处理过程与粗粒度判别网络的结构及处理过程相同,只是输入的数据不同。
表1为在BIWI数据库下采用本发明方法与其它现有方法比较的数据;其中,BIWI70%用于训练, 30%用于测试,测试标准为MAE。
表1
Figure BDA0002700259770000192
由表1可知,该方法能够有效提升头部姿态估计效果。
实施例7
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于多层级图像特征精炼学习的头部姿态估计程序,所述基于多层级图像特征精炼学习的头部姿态估计程序被处理器执行时,实现任一所述的基于多层级图像特征精炼学习的头部姿态估计方法的步骤。
实施例8
上述基于多层级图像特征精炼学习的头部姿态估计方法的实现系统,如图6所示,包括依次连接的图像预处理单元、粗粒度判别网络单元、细粒度判别网络单元;图像预处理单元用于执行步骤 S1及步骤S2;粗粒度判别网络单元用于执行步骤S3;细粒度判别网络单元用于执行步骤S4。图1 为本发明基于多层级图像特征精炼学习的头部姿态估计方法实现设备图;包括OV2640图像传感器、树莓派4B型与PiOLED模块,模块之间采用杜邦线连接。

Claims (10)

1.一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,包括步骤如下:
S1:获取图像,对图像进行初步人脸估计,删除不包含人脸的图片,选出包含人脸的图片,框出人脸框后进行裁剪;
S2:对裁剪后的图片进行小波变换,将小波变换处理之后的四通道信息与步骤S1裁剪后的RGB三通道图像进行拼接;
S3:将拼接后的图像信息送入粗粒度判别网络,估计出头部姿态的大致区间,根据各自区间划分,组合为新划分的区间数据集;
S4:将新划分的区间数据集送入细粒度判别网络,估计出头部姿态具体角度值(x,y,z),x、y、z分别代表俯仰角、偏航角与翻滚角。
2.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,步骤S1中,图像处理的方法具体包括:
S11:通过单目摄像装置获取图像;
S12:使用多任务卷积神经网络对步骤S11获取的图像进行预处理:
首先,将图像进行不同尺度的变换,以适应不同大小人脸的检测;
然后,将图像送入建议区域网络,经过建议区域网络处理之后,输出为大量推测可能是人脸框的坐标位置,即大量推测可能为人脸包围盒的信息;
接着,将建议区域网络的输出送入优化网络,优化网络检测出大量的无效人脸包围盒并进行删除,输出优化后的人脸框的坐标位置;
最后,将优化后的人脸框的坐标位置输入输出网络再进行进一步优化,输出最终的人脸区域与人脸上5个标志点;
进一步优选的,所述输出网络采用256*256的全连接层;
步骤S1中,使用多任务卷积神经网络框出人脸框后进行裁剪,是指:对输出的最终的人脸区域进行裁剪,获取人脸几何图像子块。
3.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,所述步骤S2中,使用Haar小波对裁剪后的图片进行小波变换,是指:
对人脸几何图像子块进行如下小波变换,如式(I)所示:
Figure FDA0002700259760000011
式(I)中,
Figure FDA0002700259760000012
表示人脸几何图像子块,i表示变换之后的图像子块,i11是子块
Figure FDA0002700259760000013
的低频系数,i12,i21,i22分别是
Figure FDA0002700259760000021
的水平、垂直、对角线方向的高频系数;
H是指Haar变换矩阵,如式(II)所示:
Figure FDA0002700259760000022
将当前频带划分为四个子带,分别为低频分量、水平细节分量、垂直细节分量和对角线细节分量,即小波变换处理之后的四通道信息;经过Haar变换后分解成第一尺度下四个频域分量,低频系数构成的低频分量,集中了几何图像的大部分信息;水平方向的高频系数构成的水平细节分量,反映了几何图像沿水平方向的边缘信息;垂直方向的高频系数构成的垂直细节分量,保持了几何图像沿垂直方向的边缘信息;对角线方向的高频系数构成的对角线细节分量,保持了几何图像沿对角线方向的细节特征。
4.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,所述粗粒度判别网络与所述细粒度判别网络结构相同,均包括人体头部输入模块、特征融合模块、评分函数模块、特征凝练模块与软阶段回归网络模块;
所述人体头部输入模块包括三支流SL、SM、SR,支流SL包括依次连接的三个模块BlockL,模块BlockL包括可分离式二维卷积层、激活函数ReLU;支流SM包括依次连接的三个模块BlockM,模块BlockM包括可分离式二维卷积层、激活函数Tanh;支流SR包括依次连接的三个模块BlockR,模块BlockR包括可分离式二维卷积层、激活函数Sigmoid。
5.根据权利要求4所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,步骤S3中,粗粒度判别网络中,根据图像数据集中的三个角度标签值分布,按照区间从-90度到+90度分为五类,-90度到-30度为第一类,标签值为1;-30度到-20度为第二类,标签值为2;-20度到+20度为第三类,标签值为3;+20度到+30度为第四类,标签值为4;+30度到+90度为第五类,标签值为5,粗粒度判别网络判别姿态的方法包括:
S31:将步骤S2拼接后的图像信息输入人体头部输入模块;经过人体头部输入模块中三个支流后获取三个特征映射矩阵;
S32:通过特征融合模块将三个特征映射矩阵进行矩阵融合:将SL,SM两个支流的特征映射矩阵进行c维1*1元素相乘,得到的特征组合再与SR支流特征映射矩阵对应元素相加,得到组合特征,将组合特征映射转换成c通道;利用平均池化将组合特征映射的大小缩小到w×h,从而得到第k阶段的w×h×c特征映射FeatK;w,h分别代表特征映射矩阵的维度数的数值,c代表特征映射的通道数,K代表特征映射阶段数;
S33:通过评分函数模块计算每个特征映射FeatK的注意力图AK
S34:由步骤S32处理之后的特征映射FeatK与步骤S33处理之后的AK送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射Mapk与C,将FeatK、Mapk与C拼接为
Figure FDA0002700259760000031
通过SSR-Net特征融合并进一步提取出特征集V∈RK×c
S35:将步骤S34提取的特征集V∈RK×c'送入软阶段回归网络模块,输出结果为
Figure FDA0002700259760000032
△k为软阶段回归网络模块的回归输出值,为缩放因子,缩放第k个阶段的宽度;
Figure FDA0002700259760000033
为偏移量,范围为[-1,1];p为经过软阶段回归网络模块中的全连接层处理之后的特征向量,输出范围为[-1,1],计算得出三个头部姿态角度值;
S36:根据步骤S35计算的头部姿态角度值,对其进行分类,并标注上标签值,是指:头部姿态角度值如果为-90度到-30度,则为第一类,标签值为1;头部姿态角度值如果为-30度到-20度,则为第二类,标签值为2;头部姿态角度值如果为-20度到+20度,则为第三类,标签值为3;头部姿态角度值如果为+20度到+30度,则为第四类,标签值为4;头部姿态角度值如果为+30度到+90度,则为第五类,标签值为5;
S37:数据重组,是指:将标签值为1与2的数据组成数据集A,标签值为2、3与4的数据组成数据集B,标签值为4与5的数据组成数据集C,数据集A、数据集B及数据集C即新划分的区间数据集;
进一步优选的,步骤S33中,对每一个特征映射FeatK,使用评分函数Φ(feat)来获得注意力图AK,feat为像素级特征,如式(Ⅳ)所示:
Ak(i,j)=Φ(FeatK(i,j)) (Ⅳ)
式(Ⅳ)中,i、j代表特征映射FeatK中的具体位置信息,FeatK(i,j)即特征映射中FeatK第i行第j列的数值,Ak(i,j)即注意力图中第i行第j列的数值;
进一步优选的,步骤S35中,计算头部姿态角度值
Figure FDA0002700259760000034
如式(Ⅺ)所示:
Figure FDA0002700259760000035
式(Ⅺ)中,
Figure FDA0002700259760000036
是k个角度值区间的概率分布,
Figure FDA0002700259760000037
是k个角度区间的代表值组成的向量。
6.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,由步骤S32处理之后的特征映射FeatK送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射,包括步骤如下:
A、将特征映射FeatK拼接成为矩阵Feat,K=1,2,3,...,Feat的第一维度为n=w×h×K,U∈Rn×c,即Feat是一个三维矩阵,包括在所有阶段中所有特征映射FeatK的c维像素级别的特征;
B、求取映射Mapk,选择Feat中的特征并将其分组到一组n'个具有代表性的特征Featk,如式(Ⅴ)所示:
Figure 2
式(Ⅴ)中,Mapk∈Rn‘-n
Figure FDA0002700259760000042
Figure FDA0002700259760000043
是更有效的更具代表性的特征映射,从n个像素级别的特征中,通过线性组合将n'个代表性特征集合起来;映射Mapk是一种线性变换,通过对所有像素级别的特征进行加权平均来进行线性降维;
映射Mapk如式(VI)所示:
Mapk=CMk (VI)
式(VI)中,C∈Rn‘×m,Mk∈Rm×n,m是一个参数,映射Mk是针对第k阶段的,而映射C的数据是在所有阶段共享的,映射Mk和C分别如式(Ⅶ)、(Ⅷ)所示:
Mk=σ(fM(Ak)) (Ⅶ)
C=σ(fC(A)) (Ⅷ)
式(Ⅶ)、(Ⅷ)中,σ是sigmoid激活函数;fM、fC是由全连接层定义的函数,两个函数接收的数据大小不同;A是所有注意力映射的拼接矩阵,A如式(Ⅸ)所示:
A=[A1,A2,...,AK] (Ⅸ)
式(Ⅸ)中,AK为特征映射Featk经注意力模块处理之后的特征映射;
C、对每一行映射Mapk进行L1归一化;
D、将
Figure FDA0002700259760000044
连接在一起,形成一组具有代表性的特征,如式(X)所示:
Figure 3
式(X)中,
Figure FDA0002700259760000051
E、通过特征聚合方法处理一组代表性特征
Figure FDA0002700259760000052
得到最终的特征集V∈RK×c'
7.根据权利要求5所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,步骤S4中,细粒度判别网络包括三个角度对应的区间细粒度判别网络,针对俯仰角、偏航角与翻滚角三个角度,每个角度划分三个区间,包括-90度至-20度、-30度至+30度、+20度至+90度;每个角度的每个区间有各自的细粒度判别网络;由步骤S37处理之后的数据集A、B与C送入三个角度对应的区间细粒度判别网络,包括步骤如下:
S41:由步骤S37处理之后的数据集A、B与C输入人体头部输入模块中,经过人体头部输入模块中三个支流后获取三个特征映射矩阵;
S42:通过特征融合模块将三个特征映射矩阵进行矩阵融合:将SL,SM两个支流的特征映射矩阵进行c维1*1元素相乘,得到的特征组合再与SR支流特征映射矩阵对应元素相加,得到组合特征,将组合特征映射转换成c通道;利用平均池化将组合特征映射的大小缩小到w×h,从而得到第k阶段的w×h×c特征映射FeatK′;w,h分别代表特征映射矩阵的维度数的数值,c代表特征映射的通道数,K代表特征映射阶段数;
S43:由步骤S42处理之后的特征映射FeatK′,送入评分函数模块中,计算相应的注意力图A′K
S44:由步骤S42处理之后的特征映射FeatK′与步骤S43处理之后的A′K送入特征凝练模块中,通过特征凝练模块提取更有效的更具代表性的特征映射Mapk′与C′,将FeatK′、Mapk′与C′拼接为
Figure FDA0002700259760000053
通过SSR-Net特征融合并进一步提取出特征集V′∈RK×c'
S45:由步骤S44获取的特征映射V′,送入软阶段回归网络模块,经过计算,获得真实的头部姿态预测值。
8.根据权利要求4-7任一所述的一种基于多层级图像特征精炼学习的头部姿态估计方法,其特征在于,BlockL、BlockM与BlockR的内部结构分别如式(Ⅲ)、式(Ⅳ)、式(Ⅴ)所示:
BlockL(c)={SepConv 2D(3×3,c)-BN-ReLU} (Ⅲ)
BlockM(c)={SepConv 2D(3×3,c)-BN-Sigmoid} (Ⅳ)
BlockR(c)={SepConv 2D(3×3,c)-BN-Tanh} (Ⅴ)
式(Ⅲ)、式(Ⅳ)、式(Ⅴ)中,SepConv 2D(3×3,c)代表可分离式二维卷积层,c是卷积层的通道数,ReLU、Tanh与Sigmoid分别代表激活函数ReLU、激活函数Tanh与激活函数Sigmoid。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有权利要求1-8任一所述基于多层级图像特征精炼学习的头部姿态估计方法程序,权利要求1-9任一所述基于多层级图像特征精炼学习的头部姿态估计方法程序被处理器执行时,实现权利要求1-9任一所述基于多层级图像特征精炼学习的头部姿态估计方法的步骤。
10.权利要求1-8任一所述基于多层级图像特征精炼学习的头部姿态估计方法的实现系统,其特征在于,包括依次连接的图像预处理单元、粗粒度判别网络单元、细粒度判别网络单元;所述图像预处理单元用于执行步骤S1及步骤S2;所述粗粒度判别网络单元用于执行步骤S3;所述细粒度判别网络单元用于执行步骤S4。
CN202011019897.4A 2020-09-25 2020-09-25 一种头部姿态估计方法及其实现系统、存储介质 Active CN112132058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011019897.4A CN112132058B (zh) 2020-09-25 2020-09-25 一种头部姿态估计方法及其实现系统、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011019897.4A CN112132058B (zh) 2020-09-25 2020-09-25 一种头部姿态估计方法及其实现系统、存储介质

Publications (2)

Publication Number Publication Date
CN112132058A true CN112132058A (zh) 2020-12-25
CN112132058B CN112132058B (zh) 2022-12-27

Family

ID=73841076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011019897.4A Active CN112132058B (zh) 2020-09-25 2020-09-25 一种头部姿态估计方法及其实现系统、存储介质

Country Status (1)

Country Link
CN (1) CN112132058B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686242A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于多层聚焦注意力网络的细粒度图像分类方法
CN112766185A (zh) * 2021-01-22 2021-05-07 燕山大学 基于深度学习的头部姿态监控方法、装置及系统
CN112884326A (zh) * 2021-02-23 2021-06-01 无锡爱视智能科技有限责任公司 一种多模态分析的视频面试评估方法、装置和存储介质
CN113128521A (zh) * 2021-04-30 2021-07-16 西安微电子技术研究所 一种小型化人工智能模型特征提取方法、系统、计算机设备及存储介质
CN113331839A (zh) * 2021-05-28 2021-09-03 武汉科技大学 一种基于多源信息融合的网络学习注意力监测方法及系统
CN113705440A (zh) * 2021-08-27 2021-11-26 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN114895363A (zh) * 2022-05-07 2022-08-12 上海恒岳智能交通科技有限公司 一种路基两侧视觉成像监测入侵物态势识别方法
CN115761885A (zh) * 2022-11-16 2023-03-07 之江实验室 一种共时与跨域异步融合驱动的行为识别方法
TWI814268B (zh) * 2021-03-15 2023-09-01 日商歐姆龍股份有限公司 資料生成裝置、資料生成方法及電腦程式產品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034995A (zh) * 2012-11-18 2013-04-10 百年金海安防科技有限公司 一种基于Benford法则统计特性的拼接图像检测算法
CN103473529A (zh) * 2013-08-26 2013-12-25 昆明学院 一种多视角取像人脸识别的方法及装置
CN107292256A (zh) * 2017-06-14 2017-10-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN107808129A (zh) * 2017-10-17 2018-03-16 南京理工大学 一种基于单个卷积神经网络的面部多特征点定位方法
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110321822A (zh) * 2019-06-24 2019-10-11 深圳爱莫科技有限公司 基于最邻近检索的人脸对齐初始化方法及装置、存储介质
CN110490052A (zh) * 2019-07-05 2019-11-22 山东大学 基于级联多任务学习的人脸检测及人脸属性分析方法及系统
WO2020042345A1 (zh) * 2018-08-28 2020-03-05 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034995A (zh) * 2012-11-18 2013-04-10 百年金海安防科技有限公司 一种基于Benford法则统计特性的拼接图像检测算法
CN103473529A (zh) * 2013-08-26 2013-12-25 昆明学院 一种多视角取像人脸识别的方法及装置
CN107292256A (zh) * 2017-06-14 2017-10-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN107808129A (zh) * 2017-10-17 2018-03-16 南京理工大学 一种基于单个卷积神经网络的面部多特征点定位方法
WO2020042345A1 (zh) * 2018-08-28 2020-03-05 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及系统
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110321822A (zh) * 2019-06-24 2019-10-11 深圳爱莫科技有限公司 基于最邻近检索的人脸对齐初始化方法及装置、存储介质
CN110490052A (zh) * 2019-07-05 2019-11-22 山东大学 基于级联多任务学习的人脸检测及人脸属性分析方法及系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
GEORGIOS PAVLAKOS 等: "Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose", 《ARXIV:1611.07828V2》 *
伊力哈木?亚尔买买提: "一种改进的维吾尔族人脸识别算法研究", 《现代电子技术》 *
刘袁缘等: "基于树结构分层随机森林在非约束环境下的头部姿态估计", 《电子与信息学报》 *
徐海月等: "基于编解码网络的多姿态人脸图像正面化方法", 《中国科学:信息科学》 *
梁淑芬等: "小波变换和LBP对数域特征提取的人脸识别算法", 《信号处理》 *
薛晓利等: "一种改进的Gabor算法及其在人脸识别中的应用", 《成都电子机械高等专科学校学报》 *
贺飞翔等: "基于深度学习的头部姿态估计", 《计算机技术与发展》 *
路昊等: "基于深度学习的动态场景相机姿态估计方法", 《高技术通讯》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686242B (zh) * 2020-12-29 2023-04-18 昆明理工大学 一种基于多层聚焦注意力网络的细粒度图像分类方法
CN112686242A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于多层聚焦注意力网络的细粒度图像分类方法
CN112766185A (zh) * 2021-01-22 2021-05-07 燕山大学 基于深度学习的头部姿态监控方法、装置及系统
CN112884326A (zh) * 2021-02-23 2021-06-01 无锡爱视智能科技有限责任公司 一种多模态分析的视频面试评估方法、装置和存储介质
TWI814268B (zh) * 2021-03-15 2023-09-01 日商歐姆龍股份有限公司 資料生成裝置、資料生成方法及電腦程式產品
CN113128521B (zh) * 2021-04-30 2023-07-18 西安微电子技术研究所 一种小型化人工智能模型特征提取方法、系统、计算机设备及存储介质
CN113128521A (zh) * 2021-04-30 2021-07-16 西安微电子技术研究所 一种小型化人工智能模型特征提取方法、系统、计算机设备及存储介质
CN113331839A (zh) * 2021-05-28 2021-09-03 武汉科技大学 一种基于多源信息融合的网络学习注意力监测方法及系统
CN113705440A (zh) * 2021-08-27 2021-11-26 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN113705440B (zh) * 2021-08-27 2023-09-01 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN114895363A (zh) * 2022-05-07 2022-08-12 上海恒岳智能交通科技有限公司 一种路基两侧视觉成像监测入侵物态势识别方法
CN115761885A (zh) * 2022-11-16 2023-03-07 之江实验室 一种共时与跨域异步融合驱动的行为识别方法
CN115761885B (zh) * 2022-11-16 2023-08-29 之江实验室 一种共时与跨域异步融合驱动的行为识别方法

Also Published As

Publication number Publication date
CN112132058B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN112132058B (zh) 一种头部姿态估计方法及其实现系统、存储介质
CN108492343B (zh) 一种扩充目标识别的训练数据的图像合成方法
Chen et al. Learning spatial attention for face super-resolution
Tao et al. Manifold ranking-based matrix factorization for saliency detection
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
Ozden et al. A color image segmentation approach for content-based image retrieval
Oliva et al. Scene-centered description from spatial envelope properties
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
Srivatsa et al. Salient object detection via objectness measure
CN111914698B (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
US6792434B2 (en) Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN111179193B (zh) 基于DCNNs和GANs的皮肤镜图像增强和分类方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN112183675A (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Fan et al. Hcpvf: Hierarchical cascaded point-voxel fusion for 3d object detection
Wang et al. Perception-guided multi-channel visual feature fusion for image retargeting
Riche et al. Bottom-up saliency models for still images: A practical review
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法
CN111724428A (zh) 基于图上信号模型的深度图采样与重构方法
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质
CN114022371A (zh) 基于空间和通道注意力残差网络的去雾装置及其去雾方法
JP2018010359A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant