CN113239798B - 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端 - Google Patents

基于孪生神经网络的三维头部姿态估计方法、存储介质和终端 Download PDF

Info

Publication number
CN113239798B
CN113239798B CN202110516215.9A CN202110516215A CN113239798B CN 113239798 B CN113239798 B CN 113239798B CN 202110516215 A CN202110516215 A CN 202110516215A CN 113239798 B CN113239798 B CN 113239798B
Authority
CN
China
Prior art keywords
network
head
image
angle
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110516215.9A
Other languages
English (en)
Other versions
CN113239798A (zh
Inventor
王正奕
廖勇
王心超
王旭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Coral Fish Technology Co ltd
Original Assignee
Chengdu Coral Fish Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Coral Fish Technology Co ltd filed Critical Chengdu Coral Fish Technology Co ltd
Priority to CN202211503385.4A priority Critical patent/CN115719515A/zh
Priority to CN202211503426.XA priority patent/CN115761894A/zh
Priority to CN202110516215.9A priority patent/CN113239798B/zh
Publication of CN113239798A publication Critical patent/CN113239798A/zh
Application granted granted Critical
Publication of CN113239798B publication Critical patent/CN113239798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开基于孪生神经网络的三维头部姿态估计方法、存储介质和终端,所述孪生神经网络包括两个相同结构的第一网络和第二网络,所述方法包括:将待估计头部图像输入至第一网络或第二网络,输出头部姿态估计结果;所述第一网络和第二网络经训练得到,所述训练包括:将多对头部图像分别作为第一网络和第二网络的输入,第一网络和第二网络分别输出对应头部图像的预测角度,每对头部图像的真实角度相差大于预设大小;利用损失函数对孪生神经网络进行训练。本发明的两个子网络在整体的孪生神经网络中无结构上的耦合,所以在姿态估计阶段能够只使用子网络进行预测,这样既达到了复杂网络的精准度,也实现了简单网络的轻量化,在部署上更为灵活。

Description

基于孪生神经网络的三维头部姿态估计方法、存储介质和 终端
技术领域
本发明涉及姿态估计领域,尤其涉及基于孪生神经网络的三维头部姿态估计方法、存储介质和终端。
背景技术
头部姿态估计能够应用于计算机视觉的许多领域,例如注意力和行为分析、显著性预测等。在本项工作中,我们主要关注汽车/火车驾驶领域,因为较多文献表明,头部姿态估计是驾驶员行为和注意力监测分析的关键要素之一。此外,近年来半自动、自动驾驶汽车的引入及其与传统汽车共存的现状增加了驾驶员注意力研究的关注度。
驾驶员注意力分散是造成道路交通事故最主要的原因之一。据美国国家公路交通安全管理局(NHTSA)报告,在北美大约有18%的致命驾驶员交通事故是因为驾驶员分心而导致的,2011年有3000多人在交通事故中丧生。美国国家安全局(NHTSA)将驾驶活动中的注意力分散描述为“一种可能使人的注意力从驾驶的主要任务转移开的活动”,并进一步定义了三类分心驾驶行为:1)手动分心:驾驶员的手不在方向盘上;此类活动的示例是不正确使用信息娱乐系统(如无线电、GPS导航设备等)或文本消息;2)视觉干扰:驾驶员的眼睛不是注视着道路,而是注视着智能手机的屏幕或报纸;3)注意力分散:驾驶员的注意力不集中在驾驶活动上,一般而言,这可能是由压力或恶劣的身体状况造成的,或者与乘客交谈时发生的。在驾驶活动中滥用智能手机会导致上述三种干扰状况,也是导致致命的驾驶分心的最重要原因之一。
有人提出了一些检测车内安全的方法,可以根据所用信号的类型进行划分:1)生理信号:在驾驶舱内放置特殊的传感器,如脑电图(EEG)、心电图(ECG)或肌电图(EMG),以获取驾驶员身体的状态信息,但是这种解决方案要求人体与传感器接触,会影响驾驶员的驾驶行为;2)车辆信号:从汽车总线获取诸如速度变化、方向盘运动之类的车辆参数,用于反映驾驶员的异常行为;3)物理信号:利用图像处理技术通过面部特征、眼睛状态、头部姿态或嘴巴状态等监测驾驶员的驾驶状态。由于前两种方法对驾驶员或车辆具有干扰性,第三种方法是被人们广泛采用的。
因此能够提供一种加速训练、网络的泛化能力较强、精准度高并且网络轻量化的头部姿态估计方法,属于本领域亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供基于孪生神经网络的三维头部姿态估计方法、存储介质和终端。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供基于孪生神经网络的三维头部姿态估计方法,所述孪生神经网络包括两个相同结构的第一网络和第二网络,所述方法包括:
将待估计头部图像输入至第一网络或第二网络,输出头部姿态估计结果;
所述第一网络和第二网络经训练得到,所述训练包括:
将多对头部图像分别作为第一网络和第二网络的输入,第一网络和第二网络分别输出对应头部图像的预测角度,每对头部图像的真实角度相差大于预设大小;
利用损失函数对孪生神经网络进行训练,所述损失函数包括第一网络的独立损失函数、第二网络的独立损失函数和孪生神经网络的附加损失函数;所述第一网络的独立损失函数和第二网络的独立损失函数均为对应头部图像的真实角度和对应网络的预测角度差异的L2距离;所述孪生神经网络的附加损失函数为预测角度之间差异与真实角度之间差异的L2距离,所述预测角度之间为第一网络输出的预测角度和第二网络输出的预测角度之间,所述真实角度之间为第一网络输入的头部图像的真实角度和第二网络输出的头部图像的真实角度之间。
进一步地,所述头部图像的获取方式,包括:
使用动态窗口裁剪脸部图像,给定脸部的中心坐标xc,yc,将每个图像裁剪成以中心xc,yc为中心点的矩形框,其宽度和高度计算为:
Figure GDA0003920822240000021
其中,fx,y是采集设备的水平和垂直焦距长度,R是脸部的宽度,Z表示的是从深度图像的采集设备到用户之间的距离;水平焦距长度用于计算宽度,垂直焦距长度用于计算高度;
输出包含部分居中的面孔和部分背景的图像;
被裁剪的图像将调整为特定大小的像素,再对其像素值进行归一化,以将其均值和方差分别调整为0和1,得到待输入头部图像。
进一步地,所述头部图像的获取方式,还包括:
对待输入头部图像进行数据增强,包括:对输入图像的每个角和头部中心附加随机裁剪出补丁来增加图像大小,或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。
进一步地,所述第一网络和第二网网络均包括顺次连接的四个卷积层和三个全连接层,最后一个全连接层输出对头部姿态角度进行回归得到预测角度;其中第一卷积层和第二卷积层后分别连接有一个最大池化层,并且第二卷积层、第三卷积层、第四卷积层和三个全连接层之前均连接有Tanh激活函数。
进一步地,所述每对头部图像的真实角度相差大于预设大小,包括:每对头部图像的对应的各个角度相差均大于预设大小,所述各个角度包括欧拉角即俯仰角、偏航角和翻滚角。
进一步地,第一网络和第二网络训练时的批处理大小为64,衰减系数为5-4,动量值为9-1,学习率为10-1且最后一轮训练时衰减至10-3;真实角度被归一化至[-1,+1]区间。
进一步地,所述第一网络的独立损失函数和第二网络的独立损失函数,具体实现方式为:
Figure GDA0003920822240000031
式中,yi是真实角度,f(xi)表示对应网络的预测角度,n表示多对头部图像的对数。
进一步地,所述孪生神经网络的附加损失函数,具体实现方式为:
Figure GDA0003920822240000032
dcnn=f1(x)-f2(x)
dgt(xi)=y1-y2
式中,dcnn(xi)是第一网络输出的预测角度f1(x)和第二网络输出的预测角度f2(x)之间的差异,dgt(xi)是第一网络输入的头部图像的真实角度y1和第二网络输出的头部图像的真实角度y2之间的差异,n表示多对头部图像的对数。
本发明的第二方面,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于孪生神经网络的三维头部姿态估计方法的步骤。
本发明的第三方面,提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于孪生神经网络的三维头部姿态估计方法的步骤。
本发明的有益效果是:
(1)在本发明的一示例性实施例中,在模型训练完成后,独立的子网络就能直接预测出角度。其中:由于孪生神经网络中的两个子网络(即第一网络和第二网络)参数相同,所以相较于单独训练一个子网络,能实现加速训练的效果;同时由于只有差异较大的一对图片会被作为孪生神经网络的输入(即上述的每对头部图像的真实角度相差大于预设大小),且两者输入的差异与两者输出的差异进行比较,使网络的泛化能力较强,且对差异较为敏感;另外,两个子网络在整体的孪生神经网络中无结构上的耦合,所以在姿态估计阶段能够只使用子网络进行预测,这样既达到了复杂网络的精准度,也实现了简单网络的轻量化,在部署上更为灵活。
(2)在本发明的又一示例性实施例中,为了避免过拟合,对待输入头部图像进行数据增强,包括:对输入图像的每个角和头部中心附加随机裁剪出补丁来增加图像大小,或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。由于以这种方式进行的数据增强能够产生具有遮挡的样本,因此该示例性实施例提出的方法对于头部遮挡是鲁棒的,训练的模型具有一定的稳健性。
附图说明
图1为本发明一实例性实施例公开的方法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
参见图1,图1示出了本发明的一示例性实施例中提供的基于孪生神经网络的三维头部姿态估计方法,所述孪生神经网络包括两个相同结构的第一网络和第二网络,所述方法包括:
将待估计头部图像输入至第一网络或第二网络,输出头部姿态估计结果;
所述第一网络和第二网络经训练得到,所述训练包括:
将多对头部图像分别作为第一网络和第二网络的输入,第一网络和第二网络分别输出对应头部图像的预测角度,每对头部图像的真实角度相差大于预设大小;
利用损失函数对孪生神经网络进行训练,所述损失函数包括第一网络的独立损失函数、第二网络的独立损失函数和孪生神经网络的附加损失函数;所述第一网络的独立损失函数和第二网络的独立损失函数均为对应头部图像的真实角度和对应网络的预测角度差异的L2距离;所述孪生神经网络的附加损失函数为预测角度之间差异与真实角度之间差异的L2距离,所述预测角度之间为第一网络输出的预测角度和第二网络输出的预测角度之间,所述真实角度之间为第一网络输入的头部图像的真实角度和第二网络输出的头部图像的真实角度之间。
具体地,本示例性实施例所描述的方法旨在估计头部/面部相对于摄像机参考系的俯仰角、翻滚角和偏航角。该方法设计了一个新的孪生卷积神经网络,使用深度图像作为输入,并基于网络的输出构建损失函数,能够同时进行头部的检测定位和姿态估计。
在该示例性实施例中,在模型训练完成后,独立的子网络就能直接预测出角度。其中:由于孪生神经网络中的两个子网络(即第一网络和第二网络)参数相同,所以相较于单独训练一个子网络,能实现加速训练的效果;同时由于只有差异较大的一对图片会被作为孪生神经网络的输入(即上述的每对头部图像的真实角度相差大于预设大小),且两者输入的差异与两者输出的差异进行比较,使网络的泛化能力较强,且对差异较为敏感;另外,两个子网络在整体的孪生神经网络中无结构上的耦合,所以在姿态估计阶段能够只使用子网络进行预测,这样既达到了复杂网络的精准度,也实现了简单网络的轻量化,在部署上更为灵活。
更优地,在一示例性实施例中,所述头部图像的获取方式,包括:
使用动态窗口裁剪脸部图像,给定脸部的中心坐标xc,yc,将每个图像裁剪成以中心xc,yc为中心点的矩形框,其宽度和高度计算为:
Figure GDA0003920822240000051
其中,fx,y是采集设备的水平和垂直焦距长度(单位为像素),R是常见脸部的宽度(在其中一示例性实施例中为300mm),Z表示的是从深度图像的采集设备到用户之间的距离;水平焦距长度用于计算宽度,垂直焦距长度用于计算高度;
输出包含部分居中的面孔和部分背景的图像;
被裁剪的图像将调整为特定大小的像素(在该示例性实施例中为64×64像素),再对其像素值进行归一化,以将其均值和方差分别调整为0和1,得到待输入头部图像。网络中某些层的激活函数也会进行这种归一化操作。下述内容将会进行详细说明。
更优地,在一示例性实施例中,所述头部图像的获取方式,还包括:
为了避免过拟合,对待输入头部图像进行数据增强,包括:对输入图像的每个角和头部中心附加随机裁剪出补丁来增加图像大小,或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。
由于以这种方式进行的数据增强能够产生具有遮挡的样本,因此该示例性实施例提出的方法对于头部遮挡是鲁棒的,训练的模型具有一定的稳健性。
更优地,在一示例性实施例中,如图1所示,所述第一网络和第二网网络均包括顺次连接的四个卷积层和三个全连接层,最后一个全连接层输出对头部姿态角度进行回归得到预测角度;其中第一卷积层和第二卷积层后分别连接有一个最大池化层,并且第二卷积层、第三卷积层、第四卷积层和三个全连接层之前均连接有Tanh激活函数(图中未示出)。
参见图1,本示例性实施例提出的每个单独的神经网络的层数都较少(卷积层4层和全连接层3层),这使网络的实时性和准确率较好,并在一定程度上避免过拟合。
具体地,每个网络均以64×64像素的图像作为输入,并由4个卷积层组成。前三层各有16、32和64个卷积核,第四层有128个卷积核。由于输入图像的尺寸相对较小,所以只进行了两次最大池化(分别在第一次卷积和第二次卷积后使用了最大池化)。在网络的末端,有三个全连接层,输出维度分别为128、64和3。最后一个全连接层的三个输出对头部的三个角度进行回归(俯仰角、偏航角和翻滚角)。
其中,激活函数使用Tanh函数,它具有从定义域[-∞,+∞]映射至[-1,+1]的特点,使用ReLU函数虽然训练速度会更快,但其映射范围与Tanh不同,所以未采用ReLU函数。(Tanh激活函数只是神经网络中的激活函数的一种,值域在[-1,+1],能使神经网络具有非线性的拟合能力。)同时由于网络的输出是连续值,所以采用SGD(随机梯度下降)进行反向传播进行训练(即在网络的训练过程中,使用SGD方法对网络的内部权重进行调整)。
更优地,在一示例性实施例中,所述每对头部图像的真实角度相差大于预设大小,包括:每对头部图像的对应的各个角度相差均大于预设大小,所述各个角度包括欧拉角即俯仰角、偏航角和翻滚角。
即在该示例性实施例中,假设数据集有大约N帧图片,则一共有N/2对图像可以使用,并且需要每对头部图像的俯仰角、偏航角和翻滚角均大于预设大小,才能满足条件。而在又一示例性实施例中,所述预设大小为30度。
更优地,在一示例性实施例中,第一网络和第二网络训练时的批处理大小为64,衰减系数为5-4,动量值为9-1,学习率为10-1且最后一轮训练时衰减至10-3;真实角度被归一化至[-1,+1]区间。
需要说明的是,网络训练的前期和后期,梯度的差异会较大,前期的梯度变化率大,所以采用较大的学习率能够较快的训练;后期的梯度变化率较小,采用较小的学习率能使网络收敛地更为准确。
更优地,在一示例性实施例中,所述第一网络的独立损失函数和第二网络的独立损失函数,具体实现方式为:
Figure GDA0003920822240000071
式中,yi是真实角度,f(xi)表示对应网络的预测角度,n表示多对头部图像的对数。
更优地,在一示例性实施例中,所述孪生神经网络的附加损失函数,具体实现方式为:
Figure GDA0003920822240000072
dcnn=f1(x)-f2(x)
dgt(xi)=y1-y2
式中,dcnn(xi)是第一网络输出的预测角度f1(x)和第二网络输出的预测角度f2(x)之间的差异,dgt(xi)是第一网络输入的头部图像的真实角度y1和第二网络输出的头部图像的真实角度y2之间的差异,n表示多对头部图像的对数。
综上,终的损失函数包含了两个独立网络的损失Lcnn,1,Lcnn,2和孪生神经网络的附加损失函数Lsiam
L=Lcnn,1+Lcnn,2+Lsiam
由于两个子网络完全相同,且无耦合,所以比例为1:1:1,如果是其他比例,则会造成两个子网络最终的内部权重不同,从而在两个子网络上的测试结果不同。
基于上述任意一示例性实施例,本发明的又一示例性实施例提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于孪生神经网络的三维头部姿态估计方法的步骤。
基于上述任意一示例性实施例,本发明的又一示例性实施例提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于孪生神经网络的三维头部姿态估计方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得装置执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.基于孪生神经网络的三维头部姿态估计方法,所述孪生神经网络包括两个相同结构的第一网络和第二网络,其特征在于:所述方法包括:
将待估计头部图像输入至第一网络或第二网络,输出头部姿态估计结果;
所述第一网络和第二网络经训练得到,所述训练包括:
将多对头部图像分别作为第一网络和第二网络的输入,第一网络和第二网络分别输出对应头部图像的预测角度,每对头部图像的真实角度相差大于预设大小;
利用损失函数对孪生神经网络进行训练,所述损失函数包括第一网络的独立损失函数、第二网络的独立损失函数和孪生神经网络的附加损失函数;所述第一网络的独立损失函数和第二网络的独立损失函数均为对应头部图像的真实角度和对应网络的预测角度差异的L2距离;所述孪生神经网络的附加损失函数为预测角度之间差异与真实角度之间差异之间的差异的L2距离,所述预测角度之间为第一网络输出的预测角度和第二网络输出的预测角度之间,所述真实角度之间为第一网络输入的头部图像的真实角度和第二网络输出的头部图像的真实角度之间。
2.根据权利要求1所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:所述头部图像的获取方式,包括:
使用动态窗口裁剪脸部图像,给定脸部的中心坐标xc,yc,将每个图像裁剪成以中心xc,yc为中心点的矩形框,其宽度和高度计算为:
Figure FDA0003920822230000011
其中,fx,y是采集设备的水平焦距长度和垂直焦距长度,R是脸部的宽度,Z表示的是从深度图像的采集设备到用户之间的距离;水平焦距长度用于计算宽度,垂直焦距长度用于计算高度;
输出包含部分居中的面孔和部分背景的图像;
被裁剪的图像将调整为特定大小的像素,再对其像素值进行归一化,以将其均值和方差分别调整为0和1,得到待输入头部图像。
3.根据权利要求2所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:所述头部图像的获取方式,还包括:
对待输入头部图像进行数据增强,包括:对输入图像的每个角和头部中心附加随机裁剪出的补丁以增加图像大小,或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。
4.根据权利要求1所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:所述第一网络和第二网络均包括顺次连接的四个卷积层和三个全连接层,最后一个全连接层输出对头部姿态角度进行回归而得到的预测角度;其中第一卷积层和第二卷积层后分别连接有一个最大池化层,并且第二卷积层、第三卷积层、第四卷积层和三个全连接层之前均连接有Tanh激活函数。
5.根据权利要求1所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:所述每对头部图像的真实角度相差大于预设大小,包括:每对头部图像的对应的各个角度相差均大于预设大小,所述各个角度包括欧拉角即俯仰角、偏航角和翻滚角。
6.根据权利要求1所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:第一网络和第二网络训练时的批处理大小为64,衰减系数为5-4,动量值为9-1,学习率为10-1且最后一轮训练时衰减至10-3;真实角度被归一化至[-1,+1]区间。
7.根据权利要求1所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:所述第一网络的独立损失函数和第二网络的独立损失函数,具体实现方式为:
Figure FDA0003920822230000021
式中,yi是真实角度,f(xi)表示对应网络的预测角度,n表示多对头部图像的对数。
8.根据权利要求1所述的基于孪生神经网络的三维头部姿态估计方法,其特征在于:所述孪生神经网络的附加损失函数,具体实现方式为:
Figure FDA0003920822230000022
dcnn=f1(x)-f2(x)
dgt(xi)=y1-y2
式中,dcnn(xi)是第一网络输出的预测角度f1(x)和第二网络输出的预测角度f2(x)之间的差异,dgt(xi)是第一网络输入的头部图像的真实角度y1和第二网络输出的头部图像的真实角度y2之间的差异,n表示多对头部图像的对数。
9.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1至8中任一项所述的基于孪生神经网络的三维头部姿态估计方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至8中任一项所述的基于孪生神经网络的三维头部姿态估计方法的步骤。
CN202110516215.9A 2021-05-12 2021-05-12 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端 Active CN113239798B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202211503385.4A CN115719515A (zh) 2021-05-12 2021-05-12 轻量化的三维头部姿态估计方法、存储介质和终端
CN202211503426.XA CN115761894A (zh) 2021-05-12 2021-05-12 提高实时性和准确率的三维头部姿态估计方法、存储介质和终端
CN202110516215.9A CN113239798B (zh) 2021-05-12 2021-05-12 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516215.9A CN113239798B (zh) 2021-05-12 2021-05-12 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202211503426.XA Division CN115761894A (zh) 2021-05-12 2021-05-12 提高实时性和准确率的三维头部姿态估计方法、存储介质和终端
CN202211503385.4A Division CN115719515A (zh) 2021-05-12 2021-05-12 轻量化的三维头部姿态估计方法、存储介质和终端

Publications (2)

Publication Number Publication Date
CN113239798A CN113239798A (zh) 2021-08-10
CN113239798B true CN113239798B (zh) 2022-12-20

Family

ID=77133679

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202211503426.XA Pending CN115761894A (zh) 2021-05-12 2021-05-12 提高实时性和准确率的三维头部姿态估计方法、存储介质和终端
CN202110516215.9A Active CN113239798B (zh) 2021-05-12 2021-05-12 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端
CN202211503385.4A Pending CN115719515A (zh) 2021-05-12 2021-05-12 轻量化的三维头部姿态估计方法、存储介质和终端

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211503426.XA Pending CN115761894A (zh) 2021-05-12 2021-05-12 提高实时性和准确率的三维头部姿态估计方法、存储介质和终端

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211503385.4A Pending CN115719515A (zh) 2021-05-12 2021-05-12 轻量化的三维头部姿态估计方法、存储介质和终端

Country Status (1)

Country Link
CN (3) CN115761894A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051632B (zh) * 2022-12-06 2023-12-05 中国人民解放军战略支援部队航天工程大学 一种双通道transformer卫星六自由度姿态估计算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506717A (zh) * 2017-08-17 2017-12-22 南京东方网信网络科技有限公司 无约束场景中基于深度变换学习的人脸识别方法
CN109934166A (zh) * 2019-03-12 2019-06-25 中山大学 基于语义分割和孪生神经网络的无人机图像变化检测方法
CN109977837A (zh) * 2019-03-20 2019-07-05 常熟理工学院 基于人体姿态不变特征的行人再识别方法
CN111680596A (zh) * 2020-05-29 2020-09-18 北京百度网讯科技有限公司 基于深度学习的定位真值校验方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2564668B (en) * 2017-07-18 2022-04-13 Vision Semantics Ltd Target re-identification
CN112613480A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 一种人脸识别方法、系统、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506717A (zh) * 2017-08-17 2017-12-22 南京东方网信网络科技有限公司 无约束场景中基于深度变换学习的人脸识别方法
CN109934166A (zh) * 2019-03-12 2019-06-25 中山大学 基于语义分割和孪生神经网络的无人机图像变化检测方法
CN109977837A (zh) * 2019-03-20 2019-07-05 常熟理工学院 基于人体姿态不变特征的行人再识别方法
CN111680596A (zh) * 2020-05-29 2020-09-18 北京百度网讯科技有限公司 基于深度学习的定位真值校验方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Using Siamese Networks with Transfer Learning for Face Recognition on Small-Samples Datasets;Mohsen Heidari等;《2020 International Conference on Machine Vision and Image Processing》;20200620;第1-4页 *
基于卷积神经网络的行人重识别算法研究;徐阳;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;I138-3905 *

Also Published As

Publication number Publication date
CN113239798A (zh) 2021-08-10
CN115719515A (zh) 2023-02-28
CN115761894A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
US11783601B2 (en) Driver fatigue detection method and system based on combining a pseudo-3D convolutional neural network and an attention mechanism
CN109726771B (zh) 异常驾驶检测模型建立方法、装置及存储介质
CN108725440B (zh) 前向碰撞控制方法和装置、电子设备、程序和介质
CN109902562B (zh) 一种基于强化学习的驾驶员异常姿态监测方法
CN111439170B (zh) 儿童状态检测方法及装置、电子设备、存储介质
CN112016457A (zh) 驾驶员分神以及危险驾驶行为识别方法、设备和存储介质
JP5482737B2 (ja) 視認負荷量推定装置、運転支援装置、および視認負荷量推定プログラム
CN110728241A (zh) 一种基于深度学习多特征融合的驾驶员疲劳检测方法
CN113378771B (zh) 驾驶员状态确定方法、装置、驾驶员监控系统、车辆
US11403879B2 (en) Method and apparatus for child state analysis, vehicle, electronic device, and storage medium
EP3113073A1 (en) Determination device, determination method, and non-transitory storage medium
CN105956548A (zh) 驾驶员疲劳状况检测方法和装置
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
CN113239798B (zh) 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端
CN110547807A (zh) 驾驶行为分析方法、装置、设备及计算机可读存储介质
CN115937830A (zh) 一种面向特种车辆的驾驶员疲劳检测方法
CN116012822B (zh) 一种疲劳驾驶的识别方法、装置及电子设备
CN113361441B (zh) 基于头部姿态和空间注意力的视线区域估计方法及系统
CN115861982A (zh) 一种基于监控摄像头的驾驶疲劳实时检测方法及系统
US10945651B2 (en) Arousal level determination device
Wang et al. Enhancing YOLOv7-Based Fatigue Driving Detection through the Integration of Coordinate Attention Mechanism
CN112329566A (zh) 一种精准感知机动车驾驶人员头部动作的视觉感知系统
CN116246258A (zh) 基于边缘设备的驾驶员疲劳检测方法
Wang et al. Research on driver fatigue state detection method based on deep learning
DE112019007484T5 (de) Informationsverarbeitungsvorrichtung, programm und informationsverarbeitungsverfahren

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant