CN114529890A

CN114529890A - 状态检测方法、装置、电子设备及存储介质

Info

Publication number: CN114529890A
Application number: CN202210174065.2A
Authority: CN
Inventors: 潘蓬; 谭昶; 贾若然; 郑爱华; 张友国; 吕军; 胡少云
Original assignee: iFlytek Co Ltd; Anhui University; Iflytek Information Technology Co Ltd
Current assignee: iFlytek Co Ltd; Anhui University; Iflytek Information Technology Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-24

Abstract

本发明提供一种状态检测方法、装置、电子设备及存储介质，其中方法包括：确定待检测图像；基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，通过状态相关区域对待检测图像进行人员状态检测；状态检测模型是基于样本图像和样本图像的人员状态类别标签训练得到的。本发明提供的方法、装置、电子设备及存储介质，能够通过对待检测图像特征进行空间变换，在待检测图像中自适应定位到与状态相关的区域，再通过对状态相关区域对待检测图像进行人员状态检测，实现了以状态相关区域为检测目标，得到在待检测图像中与状态相关的区域，减少了因固定区域检测导致的后续状态类别检测结果错误的问题，提高了状态类别检测的准确率。

Description

状态检测方法、装置、电子设备及存储介质

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种状态检测方法、装置、电子设备及存储介质。

背景技术

目前在汽车辅助驾驶领域，驾驶员状态检测是辅助驾驶系统的重要组成部分，旨在车内能够做到向驾驶员察觉到危险，减少危险因素。驾驶员状态检测主要是检测驾驶员出现分神的情况，例如：抽烟、打电话或者疲劳驾驶等，当检测到这些情况时辅助驾驶系统会进行语音或者警示灯告警。

现有的驾驶员状态检测主要是通过从图像中固定的ROI区域(感兴趣区域)，例如：眼睛、嘴巴和手部区域等，再通过ROI区域的局部特征进行人员状态检测。但以与状态无关的关键点检测机制进行ROI区域检测，会出现ROI区域识别出错导致人员状态类别检测结果错误，还可能出现ROI区域识别正常但由于ROI区域特征较少依旧会导致人员状态类别检测结果错误。

发明内容

本发明提供一种状态检测方法、装置、电子设备及存储介质，用以解决现有技术中通过ROI进行人员状态类别检测容易导致检测结果错误的缺陷。

本发明提供一种状态检测方法，包括：

确定待检测图像；

基于状态检测模型，通过空间变换自适应定位所述待检测图像中的状态相关区域，并通过所述状态相关区域对所述待检测图像进行人员状态检测；

所述状态检测模型是基于样本图像和所述样本图像的人员状态类别标签训练得到的。

根据本发明提供的一种状态检测方法，所述基于状态检测模型，通过空间变换自适应定位所述待检测图像中的状态相关区域，并通过所述状态相关区域对所述待检测图像进行人员状态检测，包括：

基于所述状态检测模型中的状态定位网络，通过空间变换自适应定位所述待检测图像中的状态相关区域，得到状态定位特征，并通过所述状态定位特征和所述待检测图像的卷积特征确定所述状态相关区域的图像特征，所述状态定位特征用于指示所述状态相关区域在所述待检测图像中的位置；

基于所述状态检测模型中的分类网络，应用所述状态相关区域的图像特征对所述待检测图像进行人员状态检测。

根据本发明提供的一种状态检测方法，所述基于所述状态检测模型中的状态定位网络，通过空间变换自适应定位所述待检测图像中的状态相关区域，得到状态定位特征，并通过所述状态定位特征和所述待检测图像的卷积特征确定所述状态相关区域的图像特征，包括：

基于所述状态定位网络中的多层卷积网络，对所述待检测图像进行特征提取，得到所述多层卷积网络中每层卷积输出的卷积特征；

基于所述状态定位网络中的空间变换网络，应用当前层卷积输出的卷积特征与前一层空间变换所得的空间变换特征，进行空间变换，得到当前层空间变换的空间变换特征，直至得到最后一层的空间变换特征，并将所述最后一层的空间变换特征确定为所述状态定位特征，通过所述状态定位特征和最后一层卷积输出的卷积特征确定所述状态相关区域的图像特征。

根据本发明提供的一种状态检测方法，所述应用当前层卷积输出的卷积特征与前一层空间变换所得的空间变换特征，进行空间变换，得到当前层空间变换的空间变换特征，包括：

将当前层卷积输出的卷积特征与前一层空间变换所得的状态定位特征进行特征融合，得到当前层卷积对应的融合特征，并对当前层卷积对应的融合特征进行空间变换，得到当前层空间变换的状态定位特征。

根据本发明提供的一种状态检测方法，所述基于所述状态检测模型中的分类网络，应用所述状态相关区域的图像特征对所述待检测图像进行人员状态检测，包括：

基于所述分类网络中的光照感知网络，对所述状态相关区域的图像特征进行光照强度均衡，得到所述状态相关区域的均衡特征；

基于所述分类网络中的状态分类网络，应用所述状态相关区域的均衡特征对所述待检测图像进行人员状态检测。

根据本发明提供的一种状态检测方法，所述基于所述分类网络中的光照感知网络，对所述状态相关区域的图像特征进行光照强度均衡，得到所述状态相关区域的均衡特征，包括：

基于所述光照感知网络中的强光感知网络分支和弱光感知网络分支，分别对所述状态相关区域的图像特征进行光照特征提取，得到所述状态相关区域的强光特征和所述状态相关区域的弱光特征；

基于所述光照感知网络中权重融合分支，对所述状态相关区域的图像特征进行预测，得到光照强度权重值；并基于所述光照强度权重值，对所述强光感知特征和所述弱光感知特征进行加权，得到所述状态相关区域的均衡特征。

根据本发明提供的一种状态检测方法，所述状态检测模型基于如下步骤训练得到：

确定初始检测模型；所述初始检测模型包括初始状态定位网络、初始光线感知网络和初始状态分类网络；

基于所述样本图像以及所述样本图像的人员状态类别标签对初始检测模型进行训练，得到所述状态定位网络和所述光线感知网络；

确定中间检测模型；所述中间检测模型包括所述状态定位网络和所述光线感知网络，以及所述初始状态分类网络；

固定所述状态定位网络和所述光线感知网络的参数，基于所述样本图像以及所述样本图像的人员状态类别标签对所述中间检测模型进行训练，得到所述状态分类网络。

根据本发明提供的一种状态检测方法，所述固定所述状态定位网络和所述光线感知网络的参数，基于所述样本图像以及所述样本图像的人员状态类别标签对所述中间检测模型进行训练，得到所述状态分类网络，包括：

基于各人员状态类别下的样本图像的样本数据量，确定各人员状态类别的权重；

基于所述中间检测模型基于所述样本图像输出的状态分类结果、所述样本图像的人员状态类别标签和各人员状态类别的权重进行损失计算，并基于所述损失计算结果更新所述初始分类网络的参数，直至所述损失计算结果收敛，得到所述状态分类网络。

本发明还提供一种状态检测装置，包括：

确定模块，用于确定待检测图像；

检测模块，用于基于状态检测模型，通过空间变换自适应定位所述待检测图像中的状态相关区域，并基于所述状态相关区域对所述待检测图像进行人员状态检测；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述状态检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述状态检测方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述状态检测方法的步骤。

本发明提供的状态检测方法、装置、电子设备及存储介质，通过对待检测图像特征进行空间变换，在待检测图像中自适应定位到与状态相关的区域，再通过对状态相关区域对待检测图像进行人员状态检测，实现了以状态相关区域为检测目标，得到在待检测图像中与状态相关的区域，减少了因固定区域检测导致的后续人员状态类别检测结果错误的问题，提高了人员状态类别检测的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的状态检测方法的流程示意图之一；

图2是本发明提供的状态检测模型检测状态的流程示意图；

图3是本发明提供的状态定位特征获取方法的流程示意图；

图4是本发明提供的状态检测方法的流程示意图之二；

图5是本发明提供的均衡特征获取方法的流程示意图；

图6是本发明提供的状态检测模型训练方法的流程示意图；

图7是本发明提供的状态分类网络的训练方法的流程示意图；

图8是本发明提供的状态检测模型的网络框架图；

图9是本发明提供的STN网络结构图；

图10是本发明提供的光照感知网络的网络框架图；

图11是本发明提供的状态检测装置的结构示意图；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，驾驶员状态检测主要是通过人脸检测或者指定区域检测，然后对检测到ROI区域进行驾驶员状态检测，例如：对待检测图像的人脸区域进行眼部和嘴部ROI区域的检测，或者是对手部ROI区域的检测。但这种状态检测方式并不是直接以驾驶员状态作为检测目标，会因为ROI区域的检测出错导致状态检测结果的错误，并且即使ROI区域的检测正确，如果ROI区域特征较少依旧会导致状态检测结果有较高的错误率。

因此，如何直接以状态作为检测目标以提高人员状态类别检测结果的准确率是本领域亟待解决的技术问题。

针对以上技术问题，本发明实施例提供了一种状态检测方法。图1是本发明提供的状态检测方法的流程示意图之一。如图1所示，该方法可以应用于驾驶员状态检测场景，以下实施例均以驾驶员状态检测场景进行说明陈述，此外该方法还可以应用于类似的人员状态检测等相似场景，例如：学生听课状态检测场景、流水线工人工作状态检测场景等。该方法包括：

步骤110，确定待检测图像。

具体地，待检测图像可以是来自于由摄像头实时捕获的当前的包含有驾驶员的图像，也可以是包含有驾驶员的视频影像中的某一帧图像，本发明实施例对此不作限制。

步骤120，基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，并通过状态相关区域对待检测图像进行人员状态检测；

状态检测模型是基于样本图像和样本图像的人员状态类别标签训练得到的。

为了避免采集固定的感兴趣区域进行人员状态检测所可能带来的一系列问题，本发明实施例中，根据待检测图像自身的特征，适应性定位状态相关区域，从而进行人员状态检测。此处，状态相关区域，即针对待检测图像自身而言，与人员状态相关的图像区域，例如，在人员打瞌睡的待检测图像中，手部区域可能不是重点，而眼睛区域则是需要定位的状态相关区域，例如，在揉眼动作，手眼重叠的区域是需要定位的状态相关区域，即，不同图像中的状态相关区域可能是不同的。通过自适应定位待检测图像中的状态相关区域，即以状态检测为目标导向进行状态相关区域的定位并据此进行人员状态检测，能够起到状态相关区域的准确定位的效果。

为了实现自适应的状态相关区域的定位，本发明实施例在应用状态检测模型进行人员状态检测的过程中，引入了空间变换技术。具体到状态检测模型中，空间变换技术可以通过空间变换网络的形式实现，通过样本图像和样本图像的人员状态类别标签训练所得的状态检测模型中，空间变换网络能够学习到如何从输入的图像中定位到对于人员状态检测有用的区域，即空间变换网络能够具备自适应定位状态相关的图像区域的能力，因此可以通过空间变换自适应定位的待检测图像的相关区域对待检测图像进行人员状态检测。

由此得到的人员状态检测结果可以是各人员状态类别的概率，还可以是直接输出人员状态类别，并且根据状态检测结果判断是否预警提醒，本发明实施例对此不作限制。

在执行步骤120之前，还需要预先训练得到状态检测模型，具体在状态检测模型训练时，可以分别将样本图像输入到训练中的模型中，从而得到模型针对样本图像输出的人员状态检测结果，在此基础上，将人员状态检测结果与样本图像和样本图像的人员状态类别标签进行比较，从而得到模型训练的损失值，基于损失值对模型参数进行迭代更新，在此过程中，模型可以学习到样本图像与人员状态检测结果之间的对应关系，使得训练得到的状态检测模型能够具备通过空间变换自适应定位的待检测图像的相关区域对待检测图像进行人员状态检测的能力。

需要说明的是，状态检测模型中空间变换可以是一次或者多次，本发明实施例对此不作限制。其中，定位的状态相关区域可以是一个或者多个区域，并且通过状态相关区域对待检测图像进行人员状态检测可以是直接对状态相关区域的局部区域特征进行人员状态检测，还可以基于状态相关区域的局部特征和待检测图像的卷积特征所确定的图像特征进行人员状态检测，本发明实施例对此不作限制。

本发明实施例提供的状态检测方法，通过对待检测图像特征进行空间变换，在待检测图像中自适应定位到与状态相关的区域，再通过对状态相关区域对待检测图像进行人员状态检测，实现了以状态相关区域为检测目标，得到在待检测图像中与状态相关的区域，减少了因固定区域检测导致的后续人员状态类别检测结果错误的问题，提高了人员状态类别检测的准确率。

基于上述实施例，图2是本发明提供的状态检测模型检测状态的流程示意图。如图2所示，步骤120包括：

步骤121，基于状态检测模型中的状态定位网络，通过空间变换自适应定位待检测图像中的状态相关区域，得到状态定位特征，并通过状态定位特征和待检测图像的卷积特征确定状态相关区域的图像特征，状态定位特征用于指示状态相关区域在待检测图像中的位置。

步骤122，基于状态检测模型中的分类网络，应用状态相关区域的图像特征对待检测图像进行人员状态检测。

具体地，将待检测图像输入到状态检测模型中，状态检测模型中的状态定位网络通过空间变换在待检测图像中检测状态相关的区域，得到用于指示状态相关区域在待检测图像中位置的状态定位特征。考虑到后续的分类网络能从全局特征的角度进行状态检测，进而能更准确地得到状态检测结果，因此，此处将状态定位特征和待检测图像的卷积特征进行融合得到状态相关区域的图像特征，然后，通过状态检测模型中的分类网络，应用状态相关区域的图像特征对待检测图像进行人员状态检测，即可得到人员状态检测结果。其中，待检测图像的卷积特征指的是待检测图像通过卷积网络最终得到的能够反映待检测图像整体的特征。

基于上述实施例，图3是本发明提供的状态定位特征获取方法的流程示意图。如图3所示，步骤121包括：

步骤310，基于状态定位网络中的多层卷积网络，对待检测图像进行特征提取，得到多层卷积网络中每层卷积输出的卷积特征；

步骤320，基于状态定位网络中的空间变换网络，应用当前层卷积输出的卷积特征与前一层空间变换所得的空间变换特征，进行空间变换，得到当前层空间变换的空间变换特征，直至得到最后一层的空间变换特征，并将最后一层的空间变换特征确定为状态定位特征，通过状态定位特征和最后一层卷积输出的卷积特征确定状态相关区域的图像特征。

考虑到卷积网络随着卷积层的逐步加深会使得深层的卷积特征分辨率降低，会导致图片中细微的信息丢失，而浅层的卷积特征虽然包含有丰富的细节，但缺乏上下文的相互信息，即语义性较低。因此，本发明实施例通过不同深度卷积层的多次的空间变换，以逐步定位的方式得到状态定位特征。

具体地，步骤310中，状态定位网络中的多层卷积网络中，每一卷积层基于其前一卷积层输出的卷积特征进行特征提取，得到每一卷积层对应的卷积特征。其中，多层卷积网络中第一层卷积层是对待检测图像进行特征提取，得到第一层卷积层的卷积特征。此处的卷积层为虚拟的卷积层，每一个卷积层中可以包含有一个或者多个实体卷积层，虚拟的卷积层中的各层包含的实体卷积层的数量可以相同也可以不同，本发明实施例对此不作限制。

步骤320中，状态定位网络中的空间变换网络，根据步骤310中得到的每一个卷积层的卷积特征由浅层到深层的逐卷积层进行空间变换，应用当前卷积层输出的卷积特征和前一层空间变换所得的空间变换特征，进行空间变换，得到当前卷积层的空间变换特征，然后将后一层卷积层作为当前层进行上述操作，直至得到最后一卷积层的空间变换特征结束空间变换操作，将最后一卷积层的空间变换特征作为的状态检测模型定位得到的状态定位特征，并将该状态定位特征和最后一层卷积层输出的卷积特征进行融合得到状态相关区域的图像特征。其中，卷积网络中卷积层的浅层和深层是特征经过卷积层的顺序确定的，特征先输入的卷积层是后输入的卷积层的浅层，反之为深层。

需要说明的是，当前层的空间变换特征可以是基于当前卷积层输出的卷积特征和前一层空间变换所得的空间变换特征进行特征融合，并对得到的融合特征进行空间变换得到，此外，当前卷积层为第一层卷积层时，即不存在前一层卷积层变换得到的空间变换特征，此时直接对第一层卷积层输出的卷积特征进行空间变换，以得到第一层卷积层对应的空间变换特征。

基于上述实施例，步骤320中，应用当前层卷积输出的卷积特征与前一层空间变换所得的空间变换特征，进行空间变换，得到当前层空间变换的空间变换特征，包括：

考虑到浅层特征包含有更多的细节特征，而深层特征包含有更多的语义特征，将两者进行特征融合能够有效地提高模型的性能。因此，本发明实施例通过将当前卷积层输出的卷积特征和前一层空间变换所得的状态定位特征进行特征融合，再对特征融合得到的融合特征进行空间变换，得到当前卷积层空间变换的状态定位特征，并由浅层到深层逐层获取每一层对应的状态定位特征，直至得到最后一层卷积层空间变换的状态定位特征，结束空间变换操作。

需要说明的是，当前卷积层为第一层卷积层时，可以直接使用第一层卷积层的卷积特征进行空间变换得到状态定位特征。

本发明实施例提供的状态检测方法，通过对多层卷积网络的各卷积层对应的卷积特征进行逐层空间变换，得到状态定位特征，实现了浅层得到的状态定位特征与深层卷积特征的逐步融合，以逐步对状态相关区域进行定位，使得以空间变换自适应定位得到的待检测图像的状态定位特征更加准确，进一步提高了状态检测的准确度。

基于上述实施例，图4是本发明提供的状态检测方法的流程示意图之二。如图4所示，步骤122包括：

步骤410，基于分类网络中的光照感知网络，对状态相关区域的图像特征进行光照强度均衡，得到状态相关区域的均衡特征；

步骤420，基于分类网络中的状态分类网络，应用状态相关区域的均衡特征对待检测图像进行人员状态检测。

考虑到驾驶员在驾驶汽车的过程中，车外部的环境十分复杂，例如：白天、夜晚、晴天或者阴天等，此时待检测图像会因为环境因素出现光照强度存在很大的差异。因此，本发明为了能够为分类网络中的状态分类网络提供较为稳定的特征输入，在将图像特征输入至状态分类网络进行分类之前，对图像特征进行光照强度均衡。

具体地，在分类网络中构建光照感知网络，用于对状态定位网络输出的状态相关区域的图像特征进行光照强度均衡。将状态定位网络输出的状态相关区域的图像特征输入至光照感知网络中进行光照强度均衡操作，得到该状态相关区域的均衡特征，再将该状态相关区域的均衡特征输入至分类网络进行人员状态检测。

需要说明的是，光照感知网络可以通过光照恢复模型对图像特征的进行光照恢复，从而使得图像特征的光照强度得以均衡，即得到均衡特征，还可以是通过强光感知网络提取强光特征，通过弱光感知网络提取弱光特征，通过权重融合网络计算光照强度权重值，然后根据强光特征、弱光特征以及光照强度权重值进行加权，以得到均衡特征，本发明实施例对此不作限制。

本发明实施例提供的状态检测方法，通过在状态检测模型中增加光照感知网络，实现了对状态相关区域的图像特征进行了光照强度均衡，使得输入至分类网络中的特征更加稳定，进一步提高了状态检测的准确度。

基于上述实施例，图5是本发明提供的均衡特征获取方法的流程示意图。如图5所示，步骤410包括：

步骤411，基于光照感知网络中的强光感知网络分支和弱光感知网络分支，分别对状态相关区域的图像特征进行光照特征提取，得到状态相关区域的强光特征和状态相关区域的弱光特征。

考虑到待检测图像会出现因环境因素导致光照强度的差异很大的情况，驾驶员状态检测涉及到行车安装，需要有较高的实时性，而现有的光照恢复模型主要是通过线性迭代的方式将复杂光照变化转为轻微/中度光照变化需要较高的处理时间，同时，在保证实时性的同时还需要能够适应环境的突然变化，例如：由强光道路进入弱光隧道，因此，本发明实施例通过强光感知网络分支、弱光感知网络分支及权重融合分支联合对状态相关区域的图像特征进行光照均衡，得到状态相关区域的均衡特征。

具体地，将状态相关区域的图像特征输入至光照感知网络中，光照感知网络中的强光感知网络分支和弱光感知网络分支以并行方式进行光照特征提取，分别得到状态相关区域的强光特征和状态相关区域的弱光特征。

需要说明的是强光感知网络分支和弱光感知网络分支的网络结构相同，网络结构中包括两个不同类型的同纬度卷积，用于提高网络对不同尺度目标的适应性。强光感知网络分支和弱光感知网络分支使用不同的样本集进行单独训练得到。

步骤412，基于光照感知网络中权重融合分支，对状态相关区域的图像特征进行预测，得到光照强度权重值，并基于光照强度权重值，对强光感知特征和弱光感知特征进行加权，得到状态相关区域的均衡特征。

如前文所述，为了能够适应环境的突然变化，需要能够自适应调节状态相关区域的强光特征和状态相关区域的弱光特征的权重比。

具体地，光照感知网络中还存在权重融合分支，用于对状态相关区域的图像特征进行权重预测，得到光照强度权重值。并根据该光照强度权重值对强光感知特征和弱光感知特征进行加权，以得到状态相关区域的均衡特征。

需要说明的是，考虑到进一步提高光照感知网络的执行效率，步骤412中的预测光照强度权重值的操作可以和步骤411并行处理，步骤412中的对强光感知特征和弱光感知特征进行加权，得到状态相关区域的均衡特征则需等待步骤411执行完成以及预测光照强度权重值的操作执行完成后进行处理。

本发明实施例提供的状态检测方法，通过强光感知网络分支、弱光感知网络分支及权重融合分支并行处理得到状态相关区域的均衡特征，实现了以并行的方式，自适应感知光照强度输出光照均衡的均衡特征，提高了光照感知网络对复杂光照条件下的特征提取能力，以及提高了网络的执行效率。

基于上述实施例，图6是本发明提供的状态检测模型训练方法的流程示意图。如图6所示，状态检测模型基于如下步骤训练得到：

步骤610，确定初始检测模型；初始检测模型包括初始状态定位网络、初始光线感知网络和初始状态分类网络；

步骤620，基于样本图像以及样本图像的人员状态类别标签对初始检测模型进行训练，得到状态定位网络和光线感知网络。

考虑到对人员状态进行检测主要分为状态相关区域的图像特征提取和对提取的状态相关区域的图像特征进行检测，因此，为了使得状态检测结果能够更加准确，本发明实施例通过分阶段训练的方式分别训练状态相关区域的图像特征提取部分网络和分类网络，以提高状态检测模型的状态相关区域的图像特征提取能力和分类能力。

具体地，第一阶段，对应步骤610和步骤620，由初始状态定位网络、初始光线感知网络和初始状态分类网络构建初始检测模型，使用样本图像以及样本图像的人员状态类别标签对初始检测模型进行训练，直至训练完成，将训练完成的初始检测模型中的初始状态定位网络和初始光线感知网络作为状态定位网络和光线感知网络以供第二阶段训练使用。其中，初始状态定位网络和初始光线感知网络的网络学习率不同，例如：初始光线感知网络的参数为初始状态定位网络学习率的五分之一或者十分之一，本发明实施例对此不作限制。

步骤630，确定中间检测模型；中间检测模型包括状态定位网络和光线感知网络，以及初始状态分类网络；

步骤640，固定状态定位网络和光线感知网络的参数，基于样本图像以及样本图像的人员状态类别标签对中间检测模型进行训练，得到状态分类网络。

具体地，第二阶段，对应步骤630和步骤640，由状态定位网络和光线感知网络和初始状态分类网络构建中间检测模型，并且固定状态定位网络和光线感知网络的参数，通过样本图像以及样本图像的人员状态类别标签对中间检测模型中的初始状态分类网络进行训练，直至训练完成，得到状态分类网络，此时，由第一阶段训练得到的状态定位网络和光线感知网络，以及第二阶段训练得到的状态分类网络构成最终的状态检测模型。

基于上述实施例，图7是本发明提供的状态分类网络的训练方法的流程示意图。如图7所示，步骤640包括：

步骤641，基于各人员状态类别下的样本图像的样本数据量，确定各人员状态类别的权重；

步骤642，基于中间检测模型基于样本图像输出的状态分类结果、样本图像的人员状态类别标签和各人员状态类别的权重进行损失计算，并基于损失计算结果更新初始分类网络的参数，直至损失计算结果收敛，得到状态分类网络。

考虑到由于各人员状态类别图像样本的数据量不相同，特别是一些人员状态类别的样本较为难以获取，例如：驾驶员抽烟或者打电话等状态，导致训练完成的模型会出现长尾问题，即样本数据量少的人员状态类别检测结果不准确。因此，本发明实施例以类别权重的方式对分类网络进行训练。

具体地，先通过各人员状态类别下的样本图像的样本数据量，确定人员状态类别的权重，然后根据中间检测模型输出的样本图像对应的状态分类结果、样本图像的人员状态类别标签和各人员状态类别的权重进行损失计算，然后根据损失计算结果更新初始分类网络的参数，当损失计算结果达到收敛，则完成训练得到状态分类网络。

需要说明的是，人员状态类别的权重可以基于该人员状态类别的样本数据量占全部人员状态类别的样本数据重量的比例得到，还可以基于样本数据量与权重的映射关系得到，本发明实施例对此不作限制。此外，上述根据中间检测模型输出的样本图像对应的状态分类结果、样本图像的人员状态类别标签和各人员状态类别的权重进行损失计算，可以如以下方式进行计算：

首先，根据人员状态类别的样本数据量确定人员状态类别的权重值w＝[w₁,w₂……w_m]，其中，m为人员状态的类别数。

然后，对人员状态类别的权重值w＝[w₁,w₂……w_m],初始状态分类网络输出的样本图像的状态预测结果为p＝[p₁,p₂……p_m]，以及样本图像的人员状态类别标签为y＝[y₁,y₂……y_m]进行损失计算，然后根据损失计算结果更新初始分类网络的参数，当损失计算结果达到收敛，则完成训练得到状态分类网络。其中，损失函数具体表示为：

式中，γ为超参数，m为人员状态的类别数，w_i为第i个人员状态类别的权重值，y_i为样本图像的第i个人员状态类别的标签值，p_i为样本图像的第i个人员状态类别的状态预测结果。

本发明实施例提供的状态检测方法，通过在状态检测模型训练的过程中，根据各人员状态类别样本图像的样本数量计算各人员状态类别的权重，并基于各人员状态类别的权重进行损失计算，增大尾部样本的权重，解决了样本分布不均衡的问题，提高了状态检测模型对样本量较少的人员状态类别的识别准确率。

基于上述实施例，图8是本发明提供的状态检测模型的网络框架图，图中，

表示连接，

表示相乘，

表示相加。如图8所示，该模型的执行流程，具体如下：

步骤810，对待检测驾驶员图像进行预处理之后，使用状态检测模型中的状态定位网络提取状态定位特征，具体操作细节如下：

步骤811，将多层卷积网络作为特征提取器，其中，多层卷积网络可以为任意CNN网络，本发明实施例以resnet50的CNN网络为例子，res1-2对待检测驾驶员图像进行特征提取得到底层特征(卷积特征)F1，res3对底层特征F1进行特征提取得到中层特征(卷积特征)，res4对中层特征F2进行特征提取得到深层特征(卷积特征)F3。首先对底层特征F1使用STN(空间变换网络)来定位状态相关区域，得到状态定位特征LF1。

其中，图9是本发明提供的STN网络结构图，图中，

表示相乘。如图9所示，STN能够对图像特征进行空间变换，例如裁剪、平移和缩放，自适应地发现不同状态的区分区域。首先通过全连接层FC生成空间变换的参数θ＝[θ₁，θ₂，θ₃，θ₄]，其中θ₁，θ₂为缩放参数，θ₃，θ₄为平移参数，参数的值通过sigmoid或tanh函数约束在(0，1)或者(-1，1)区间内，通过这四个参数获得一个包围盒，通过下列表达式得到新的像素点坐标：

式中，

表示图像中某个像素点的原坐标，

转换之后的坐标。

步骤812，将状态定位特征LF1和中层特征F2连接，连接后的特征再次经过STN，得到中层的状态定位特征LF2。

步骤813，将状态定位特征LF2和深层特征F3连接，连接后的特征再次经过STN，得到底层的状态定位特征LF3，将底层的状态定位特征LF3和F3进行融合得到状态相关区域的图像特征。CNN的深层特征具有更粗的分辨率，可能会有一些细微的丢失。相比之下，浅层的特征包含更丰富的细节，但是缺乏上下文信息，可以看出低级细节和高级语义是互补的，因此，本发明实施例通过渐进定位的方式，逐步精准定位状态相关区域。

步骤820，经过步骤810获得的状态相关区域的图像特征可能来自强光或者弱光条件下的驾驶员图像，因此，本发明实施例构建了光照感知网络，光照感知网络整合两个分支的有效特征，可以处理任何样式图像，通过这种方式，可以很好地解决光照差异的问题，具体操作细节如下：

步骤821，光照感知网络包括：强光感知网络分支和弱光感知网络分支，其中，强光感知网络分支和弱光感知网络分支均为CNN网络。图10是本发明提供的光照感知网络的网络框架图，图中，Conv表示卷积，Concat表示连接。如图10所示，分别使用不同的光照样本图像数据训练，学习特定光照条件下的特征表示。在每个分支中，第一个1×1卷积用于捕获特定于光照的特征表示。然后利用另外两个带有半通道的1×1卷积层来降低输入特征的维数，将其分为两个流，并送入两种类型的3×3卷积，以提高网络对不同尺度目标的适应性。强光感知网络分支和弱光感知网络分支的输出作为特定于光照的特征表示连接在一起。状态相关区域的图像特征分别经过强光感知网络分支和弱光感知网络分支，得到强光特征F_a和弱光特征F_b。

步骤822，在实际检测过程中，往往输入的图像只是一种光照场景，为了能够自适应得到该图像的均衡特征，在光照感知网络中构建一个权重融合分支，在给定一个模态输入的情况下，自适应地集成两个支路输出的特征。这样，无论输入哪种模态，都可以得到有效的特征。本发明实施例利用强光感知网络分支和弱光感知网络分支并行输出的强光特征和弱光特征用归一化权值加权进行融合，从实现两个分支特征的自适应融合。具体使用一个基于sigmoid的权重融合分支来预测一个自适应的权值来进行模态选择来解决这个问题。

权重融合分支由一个全局平均池(GAP)层和两个全连接层(FC)组成，然后是一个具有可学习参数的Sigmoid函数。通过这种方式，可以预测一个归一化的选择权值，并执行软选择，如下所示：

F＝α*F_a+(1-α)*F_b

式中，α是选择的权重，x为状态相关区域的图像特征经过GAP和两个FC层的输出特征，k为基于训练调整得到的参数，适应不同光照的变化，通过这种方法，可以在复杂场景下预测出更合适的选择权值，适应输入跨模型数据的变化，并保持模态切换时的特征识别能力。

步骤830，对经过步骤820输出的状态相关区域的均衡特征进行人员状态检测，具体操作细节如下：

步骤831，首先状态相关区域的均衡特征通过状态分类网络中的全局平均池化层，然后附加m个1x1卷积层，m为状态的类别数。

步骤832，对每个经过1x1卷积的特征，使用状态分类网络中的线性层获得该状态的类别预测结果，然后将所有预测的结果拼接在一起，获得最终的驾驶员状态预测结果p＝[p₁,p₂……p_m]，并且根据该状态检测结果判断是否预警提醒，其中，m为人员状态的类别数。

下面对本发明提供的状态检测装置进行描述，下文描述的状态检测装置与上文描述的状态检测方法可相互对应参照。

图11是本发明提供的状态检测装置的结构示意图。如图11所示，该装置包括：确定模块1110和检测模块1120。

其中，

确定模块1110，用于确定待检测图像；

检测模块1120，用于基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，并基于状态相关区域对待检测图像进行人员状态检测；

在本发明实施例中，通过确定模块1110，用于确定待检测图像；检测模块1120，用于基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，并基于状态相关区域对待检测图像进行人员状态检测；状态检测模型是基于样本图像和样本图像的人员状态类别标签训练得到的，实现了以状态相关区域为检测目标，得到在待检测图像中与状态相关的区域，减少了因固定区域检测导致的后续人员状态类别检测结果错误的问题，提高了人员状态类别检测的准确率。

基于上述任一实施例，检测模块1120包括：

状态定位子模块，用于基于状态检测模型中的状态定位网络，通过空间变换自适应定位待检测图像中的状态相关区域，得到状态定位特征，并通过状态定位特征和待检测图像的卷积特征确定状态相关区域的图像特征，状态定位特征用于指示状态相关区域在待检测图像中的位置；

状态分类子模块，用于基于状态检测模型中的分类网络，应用状态相关区域的图像特征对待检测图像进行人员状态检测。

基于上述任一实施例，状态定位子模块包括：

特征提取子模块，用于基于状态定位网络中的多层卷积网络，对待检测图像进行特征提取，得到多层卷积网络中每层卷积输出的卷积特征；

空间变换子模块，用于基于状态定位网络中的空间变换网络，应用当前层卷积输出的卷积特征与前一层空间变换所得的空间变换特征，进行空间变换，得到当前层空间变换的空间变换特征，直至得到最后一层的空间变换特征，并将最后一层的空间变换特征确定为状态定位特征，通过状态定位特征和最后一层卷积输出的卷积特征确定状态相关区域的图像特征。

基于上述任一实施例，空间变换子模块具体用于：

用于将当前层卷积输出的卷积特征与前一层空间变换所得的状态定位特征进行特征融合，得到当前层卷积对应的融合特征，并对当前层卷积对应的融合特征进行空间变换，得到当前层空间变换的状态定位特征。

基于上述任一实施例，状态分类子模块包括：

均衡特征提取子模块，用于基于分类网络中的光照感知网络，对状态相关区域的图像特征进行光照强度均衡，得到状态相关区域的均衡特征；

状态检测子模块，用于基于分类网络中的状态分类网络，应用状态相关区域的均衡特征对待检测图像进行人员状态检测。

基于上述任一实施例，均衡特征提取子模块包括：

光照特征提取模块，用于基于光照感知网络中的强光感知网络分支和弱光感知网络分支，分别对状态相关区域的图像特征进行光照特征提取，得到状态相关区域的强光特征和状态相关区域的弱光特征；

权重融合子模块，用于基于光照感知网络中权重融合分支，对状态相关区域的图像特征进行预测，得到光照强度权重值，并基于光照强度权重值，对强光感知特征和弱光感知特征进行加权，得到状态相关区域的均衡特征。

基于上述任一实施例，状态检测装置，还包括：训练模块，该训练模块包括：

构建初始模型子模块，用于确定初始检测模型；初始检测模型包括初始状态定位网络、初始光线感知网络和初始状态分类网络；

第一阶段训练子模块，用于基于样本图像以及样本图像的人员状态类别标签对初始检测模型进行训练，得到状态定位网络和光线感知网络；

构建中间模型子模块，用于确定中间检测模型；中间检测模型包括状态定位网络和光线感知网络，以及初始状态分类网络；

第二阶段训练子模块，用于固定状态定位网络和光线感知网络的参数，基于样本图像以及样本图像的人员状态类别标签对中间检测模型进行训练，得到状态分类网络。

基于上述任一实施例，第二阶段训练子模块包括：

状态类别权重计算子模块，用于基于各人员状态类别下的样本图像的样本数据量，确定各人员状态类别的权重；

状态分类网络训练子模块，用于基于中间检测模型基于样本图像输出的状态分类结果、样本图像的人员状态类别标签和各人员状态类别的权重进行损失计算，并基于损失计算结果更新初始分类网络的参数，直至损失计算结果收敛，得到状态分类网络。

图12示例了一种电子设备的实体结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行状态检测方法，该方法包括：确定待检测图像；基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，并通过状态相关区域对待检测图像进行人员状态检测；状态检测模型是基于样本图像和样本图像的人员状态类别标签训练得到的。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的状态检测方法，该方法包括：确定待检测图像；基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，并通过状态相关区域对待检测图像进行人员状态检测；状态检测模型是基于样本图像和样本图像的人员状态类别标签训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的状态检测方法，该方法包括：确定待检测图像；基于状态检测模型，通过空间变换自适应定位待检测图像中的状态相关区域，并通过状态相关区域对待检测图像进行状态检测；状态检测模型是基于样本图像和样本图像的人员状态类别标签训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种状态检测方法，其特征在于，包括：

确定待检测图像；

2.根据权利要求1所述的状态检测方法，其特征在于，所述基于状态检测模型，通过空间变换自适应定位所述待检测图像中的状态相关区域，并通过所述状态相关区域对所述待检测图像进行人员状态检测，包括：

3.根据权利要求2所述的状态检测方法，其特征在于，所述基于所述状态检测模型中的状态定位网络，通过空间变换自适应定位所述待检测图像中的，得到状态定位特征，并通过所述状态定位特征和所述待检测图像的卷积特征确定所述状态相关区域的图像特征，包括：

基于所述状态定位网络中的多层卷积网络，对所述待检测图像进行特征提取，得到所述多状态相关区域层卷积网络中每层卷积输出的卷积特征；

4.根据权利要求3所述的状态检测方法，其特征在于，所述应用当前层卷积输出的卷积特征与前一层空间变换所得的空间变换特征，进行空间变换，得到当前层空间变换的空间变换特征，包括：

5.根据权利要求2所述的状态检测方法，其特征在于，所述基于所述状态检测模型中的分类网络，应用所述状态相关区域的图像特征对所述待检测图像进行人员状态检测，包括：

6.根据权利要求5所述的状态检测方法，其特征在于，所述基于所述分类网络中的光照感知网络，对所述状态相关区域的图像特征进行光照强度均衡，得到所述状态相关区域的均衡特征，包括：

基于所述光照感知网络中权重融合分支，对所述状态相关区域的图像特征进行预测，得到光照强度权重值，并基于所述光照强度权重值，对所述强光感知特征和所述弱光感知特征进行加权，得到所述状态相关区域的均衡特征。

7.根据权利要求5所述的状态检测方法，其特征在于，所述状态检测模型基于如下步骤训练得到：

8.根据权利要求7所述的状态检测方法，其特征在于，所述固定所述状态定位网络和所述光线感知网络的参数，基于所述样本图像以及所述样本图像的人员状态类别标签对所述中间检测模型进行训练，得到所述状态分类网络，包括：

9.一种状态检测装置，其特征在于，包括：

确定模块，用于确定待检测图像；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述状态检测方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述状态检测方法的步骤。