CN112883843B

CN112883843B - 驾驶员视觉显著区域检测方法、装置和计算机设备

Info

Publication number: CN112883843B
Application number: CN202110141753.4A
Authority: CN
Inventors: 聂冰冰; 甘顺
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-06-03
Anticipated expiration: 2041-02-02
Also published as: CN112883843A

Abstract

本申请涉及一种驾驶员视觉显著区域检测方法、装置和计算机设备。该驾驶员视觉显著区域检测方法包括：获取车载摄像机拍摄的待检测图像；对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征；获取待检测图像对应的领域自适应模型；将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。从而，可以通过注意力机制，强化待检测图像中的有效信息，得到对应的图像特征，并通过自适应处理，对图像特征进行泛化，当待检测图像对应的同场景或驾驶员不同的时候，也可以检测到待检测图像的视觉显著区域，以提高视觉显著区域的检测效率。

Description

驾驶员视觉显著区域检测方法、装置和计算机设备

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种驾驶员视觉显著区域检测方法、装置和计算机设备。

背景技术

随着计算机视觉和图像处理技术的发展，出现了学习识别图像中的视觉显著区域的技术。随着智能驾驶技术的发展，出现了通过检测驾驶员视觉显著区域，辅助驾驶员进行安全驾驶的技术。传统技术中，通常是通过训练一个能够识别图像中的视觉显著区模型，去识别特定场景下特定驾驶员的视觉显著区域。

然而，传统技术中，只能学习和识别特定场景下特定驾驶员的视觉显著区域，当同场景不同、驾驶员不同时，需要重新进行学习和识别，导致视觉显著区域的检测效率十分低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视觉显著区域的检测效率的驾驶员视觉显著区域检测方法、装置和计算机设备。

一种驾驶员视觉显著区域检测方法，所述方法包括：

获取车载摄像机拍摄的待检测图像；

对所述待检测图像进行编码，并通过注意力机制，获取所述待检测图像在空间维度和通道维度融合后的图像特征；

获取所述待检测图像对应的领域自适应模型；

将所述图像特征输入所述领域自适应模型，对所述图像特征进行自适应处理，得到所述待检测图像的视觉显著区域。

在一个实施例中，所述将所述图像特征输入所述领域自适应模型，对所述图像特征进行自适应处理，得到所述待检测图像的视觉显著区域之后，包括：

通过预设的视觉感知模型，检测所述待检测图像中的危险区域；

获取所述危险区域与所述视觉显著区域的重合率；

检测所述重合率与预设阈值之间的大小；

当所述重合率小于所述预设阈值时，生成避撞方案或警示信息中的至少一种。

在一个实施例中，所述对所述待检测图像进行编码，并通过注意力机制，获取所述待检测图像在空间维度和通道维度融合后的图像特征，包括：

获取包括所述注意力机制的编码网络模型；其中，所述注意力机制包括通道注意力机制和空间注意力机制；

将所述待检测图像输入编码网络模型，通过所述编码网络模型对所述待检测图像进行编码，得到所述待检测图像对应的第一图像特征；

通过所述编码网络模型中的通道注意力机制，获取所述第一图像特征中的通道域特征，得到第二图像特征；

通过所述空间注意力机制，获取所述第二图像特征中的空间域特征，输出所述图像特征。

在一个实施例中，所述将所述图像特征输入所述领域自适应模型，对所述图像特征进行自适应处理，得到所述待检测图像的视觉显著区域，包括：

将所述图像特征输入所述领域自适应模型，通过所述领域自适应模型中的自适应标准化模型，对所述图像特征进行自适应标准化处理，得到标准化图像特征；

通过所述领域自适应模型中的自适应先验模型，对所述标准化图像特征进行自适应先验处理，得到先验图像特征；

对所述先验图像特征进行解码，输出所述视觉显著区域。

在一个实施例中，所述对所述先验图像特征进行解码，输出所述视觉显著区域，包括：

对所述先验图像特征进行解码，得到第一视觉显著区域；

通过所述自适应标准化模型，对所述第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域；

通过所述领域自适应模型中的自适应平滑模型，对所述第二视觉显著区域进行自适应平滑处理，输出所述视觉显著区域。

在一个实施例中，所述获取车载摄像机拍摄的待检测图像之前，包括：

按照预设时间间隔，获取所述待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一所述待检测图像对应一个先验图像特征，所述待检测图像时序集合对应一组先验图像特征时序集合。

在一个实施例中，所述对所述先验图像特征进行解码，得到第一视觉显著区域之前，包括：

获取循环神经网络模型；

将每一所述待检测图像对应的先验图像特征输入所述循环神经网络模型，对每一所述待检测图像对应的先验图像特征进行更新，得到至少一个所述先验图像特征，所述至少一个所述先验图像特征形成所述先验图像特征时序集合。

一种驾驶员视觉显著区域检测装置，所述装置包括：

数据获取模块，用于获取车载摄像机拍摄的待检测图像；

图像编码模块，用于对所述待检测图像进行编码，并通过注意力机制，获取所述待检测图像在空间维度和通道维度融合后的图像特征；

模型获取模块，用于获取所述待检测图像对应的领域自适应模型；

区域确定模块，用于将所述图像特征输入所述领域自适应模型，对所述图像特征进行自适应处理，得到所述待检测图像的视觉显著区域。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项实施例中所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项实施例中所述的方法的步骤。

上述驾驶员视觉显著区域检测方法、装置和计算机设备，通过获取车载摄像机拍摄的待检测图像；对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征；获取待检测图像对应的领域自适应模型；将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。从而，可以通过注意力机制，强化待检测图像中的有效信息，得到对应的图像特征，并通过自适应处理，对图像特征进行泛化，当待检测图像对应的同场景或驾驶员不同的时候，也可以检测到待检测图像的视觉显著区域，以提高视觉显著区域的检测效率。

附图说明

图1为一个实施例中驾驶员视觉显著区域检测方法的流程示意图；

图2为一个实施例中危险报警方法的流程示意图；

图3为一个实施例中步骤S200的一种可实施方式的流程示意图；

图4为一个实施例中步骤S400的一种可实施方式的流程示意图；

图5为一个实施例中步骤S430的一种可实施方式的流程示意图；

图6为一个具体实施例中驾驶员视觉显著区域检测方法的流程示意图；

图7为一个实施例中驾驶员视觉显著区域检测装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种驾驶员视觉显著区域检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S100，获取车载摄像机拍摄的待检测图像。

步骤S200，对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征。

步骤S300，获取待检测图像对应的领域自适应模型。

步骤S400，将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。

其中，视觉显著区域是指图像中的显著区域，或车辆驾驶员能够关注到的区域。待检测图像是指需要进行驾驶员视觉显著区域检测的图像。注意力机制(AttentionMechanism)是指基于认知科学中信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息的一种机制，源于对人类视觉的研究。领域自适应(Domainadaptation)是指针对不同风格或类型数据集中存在的领域偏差(domain shift)问题，建立自适应功能的模块或知识迁移方法，实现同时多数据源的知识共享的建模方式。领域自适应模型是指具备上述领域自适应能力的模型。

具体地，获取车载摄像机拍摄的待检测图像，对待检测图像进行编码，将图像转换成便于处理的特征向量，并通过注意力机制，获取待检测图像在空间维度和通道维度的特征，将待检测图像在空间维度和通道维度的特征进行融合，得到待检测图像的图像特征。获取待检测图像对应的能够提高模型在实车驾驶场景中的泛化能力，适用于各种驾驶场景和驾驶员的领域自适应模型。并将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。

上述驾驶员视觉显著区域检测方法，通过获取车载摄像机拍摄的待检测图像；对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征；获取待检测图像对应的领域自适应模型；将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。从而，可以通过注意力机制，强化待检测图像中的有效信息，得到对应的图像特征，并通过自适应处理，对图像特征进行泛化，当待检测图像对应的同场景或驾驶员不同的时候，也可以检测到待检测图像的视觉显著区域，以提高视觉显著区域的检测效率。

在一个实施例中，如图2所示，提供了一种危险报警方法，具体包括以下步骤：

步骤S100’，获取车载摄像机拍摄的待检测图像。

步骤S200’，对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征。

步骤S300’，获取待检测图像对应的领域自适应模型。

步骤S400’，将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。

步骤S500’，通过预设的视觉感知模型，检测待检测图像中的危险区域。

步骤S600’，获取危险区域与视觉显著区域的重合率。

步骤S700’，检测重合率与预设阈值之间的大小。

步骤S800’，当重合率小于预设阈值时，生成避撞方案或警示信息中的至少一种。

其中，步骤S100’至步骤S400’与上述步骤S100至步骤S400一一对应，此处不再赘述。视觉感知模型为实车原先已经搭载的可判断危险区域的单元组成，可识别车辆周围的危险区域。预设阈值是指用于界定危险区域与视觉显著区域的重合程度的临界值。重合率的取值范围为0至1，该预设阈值的阈值可以为0.5、0.6、0.7、0.8、0.9、1不等，实际处理过程中可视具体情况设定，此处不作具体限定。

具体地，在骤S500’至步骤S800’中，通过预设的视觉感知模型，检测待检测图像中的危险区域。进一步，检测危险区域与视觉显著区域的重合区域，根据该重合区域计算出重合率。检测重合率与预设阈值之间的大小，当重合率小于预设阈值时，说明驾驶员能够关注到的区域(视觉显著区域)与危险区域的重合程度很小，认为驾驶员没有注意到危险，此时生成避撞方案以避免危险的发生，或生成警示信息以提醒驾驶员有危险。

上述危险报警方法，通过生成视觉显著区域，并通过预设的视觉感知模型，检测待检测图像中的危险区域；获取危险区域与视觉显著区域的重合率；检测重合率与预设阈值之间的大小；当重合率小于预设阈值时，生成避撞方案或警示信息中的至少一种。能充分利用实车搭载的性能，减少不必要的资源消耗，同时利用生成的视觉显著区域，为驾驶员提供辅助驾驶方案，能够提高车辆驾驶的安全性。

在一个实施例中，如图3所示，为步骤S200的一种可实施方式的流程示意图，具体包括：

步骤S210，获取包括注意力机制的编码网络模型；其中，注意力机制包括通道注意力机制和空间注意力机制。

步骤S220，将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征。

步骤S230，通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征。

步骤S240，通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征。

其中，编码网络模型是指用于提取图像的特征向量的网络模型。注意力机制包括通道注意力机制和空间注意力机制。

具体地，获取包括注意力机制的编码网络模型；将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征。通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征。

其中，通道注意力机制能增强模型在通道特征维度上的特征融合，让模型学习通道特征中对结果的预测有利的关联信息，并通过调整通道特征间的相关系数以增强模型的表征能力。以驾驶员视觉显著区为例，通道注意力机制能够对深度卷积网络提取的人、车和路灯等特征在通道维度中的相关性进行操作。例如在模型场景中，人和车对最后得到视觉注视具有显著影响，因此，需要增强该类特征在这种特征通道维度下的重要性。

通道注意力机制的总体计算框架如公式(1)，通过M_C(F)运算对输入特征进行操作后，乘以缩放系数后与输入特征进行残差连接。具体M_C(F)的实现方法较多，本实施例中采用公式(2)的表达形式。首先，通过平均池化操作压缩特征的H和W维度，转化为一组R^C×1×1的特征后，通过两组1x1卷积运算充分实现不同通道特征间的融合，最后，通过softmax运算将特征映射到[0，1]区间。

F′＝α*M_C(F)*F+F (1)

式中，F∈R^C×H×W表示卷积网络的输入特征，F′∈R^C×H×W表示经过通道注意力模块后的卷积网络输出特征(第二图像特征)，M_C(F)∈R^C×1×1表示经过通道注意力模块后得到特征通道维度权重系数，α表示初始为0需要通过学习的权重系数，用于实现注意力机制的残差连接，*表示张量的对应元素相乘，f₁ ^1×1和f₂ ^1×1表示两组由卷积核大小为1×1的卷积层、批标准化处理和ReLU激活层组成的卷积模块；AvgPool表示对输入特征F^i×H×W的H和W维度进行平均池化。

接着，在步骤S240中，通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征。

其中，空间注意力机制能增强模型在特征空间维度上的特征融合，让模型学习空间特征中对预测结果有利的关联信息，并通过调整空间特征间的相关系数以增强模型的表征能力。以驾驶员视觉视觉显著区预测为例，空间注意力机制能够对深度卷积网络提取的人、车和路灯等特征在空间中相关性进行操作，例如，在模型场景中，空间中距离较近的两辆车对最后得到视觉注视具有显著影响，因此需要网络增强此类特征模式在空间维度的关联性。

空间注意力机制的总体计算框架如公式(3)，通过M_S(F)运算对输入特征进行操作后，乘以一个系数与输入特征进行残差连接。具体M_S(F)的实现方法较多，本实施例中采用公式(4)的表达形式。首先，输入特征通过两组1x1卷积模块并将数据变维成通道数与高宽积的二维数据，将前一组的特征进行转置后相乘，再通过softmax运算将特征映射到[0，1]区间后进行转置，最后将经过第三组1x1卷积模块和变维操作的特征与其相乘得到空间特征权重系数矩阵M_S(F)。

F″＝β*M_S(F)*F+F (3)

式中，F∈R^C×H×W表示卷积网络的输入特征，F″∈R^C×H×W表示经过空间注意力模块后的卷积网络输出特征(图像特征)，M_S(F)∈R^1×H×W表示经过通道注意力模块后得到特征通道维度权重系数，β表示初始为0需要通过学习的权重系数，用于实现注意力机制的残差连接，*表示张量的对应元素相乘；

和

表示三组卷积核尺寸为1×1的卷积层、批标准化处理和ReLU激活层组成的卷积模块。

上述实施例中，获取包括注意力机制的编码网络模型；其中，注意力机制包括通道注意力机制和空间注意力机制；将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征；通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征；通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征。其中，通过注意力机制强化图像特征在空间和通道维度的相互依赖关系，可以增加深度卷积网络在图像任务中的性能。因此，在通用深度卷积网络模型(比如ResNet，MobileNet等常见深度卷积网络)中引入注意力机制，对有效图像特征进行强化，并弱化无效信息，增加空间维度和通道维度的融合，提高模型在驾驶员视觉显著区域任务中的表征能力。

在一个实施例中，如图4所示，为步骤S400的一种可实施方式的流程示意图，具体包括：

步骤S410，将图像特征输入领域自适应模型，通过领域自适应模型中的自适应标准化模型，对图像特征进行自适应标准化处理，得到标准化图像特征。

步骤S420，通过领域自适应模型中的自适应先验模型，对标准化图像特征进行自适应先验处理，得到先验图像特征。

步骤S430，对先验图像特征进行解码，输出视觉显著区域。

具体地，将图像特征输入领域自适应模型，通过领域自适应模型中的自适应标准化模型，对图像特征进行自适应标准化处理，得到标准化图像特征。

由于采集图像时使用的摄像装置的不统一，导致得到的输入图像分辨度、亮度、色彩解析等画质参数方面存在差异。而自适应的标准化模型针对不同数据源的图像输入分别建立标准化特征处理流程，即确保不同数据的输入都是服从均值为0，方差为1的正太分布，标准化处理能使输入深度学习模型的数据更加相似，有利于对不同数据集中的图像特征提取。因此需要对不同数据集分别建立标准化模块，并在模型训练过程中得到对应的均值和方差参数。具体如公式(5)所示：

式中，DABN_d(x_d)表示对应下标d数据集的领域自适应标准化模块输出(标准化图像特征)，x_d对应输入的特征数据，u_d、σ_d分别表示数据集各自的数值均值和方差，γ_d、β_d分别表示缩放系数和偏移系数，ε是避免数值计算值时分母为0时报错而设置的一个极小值。

接着，通过领域自适应模型中的自适应先验模型，对标准化图像特征进行自适应先验处理，得到先验图像特征。

不同身高、坐姿、以及驾驶注视习惯会导致在相同驾驶场景下，驾驶员的视觉显著区的分布会存在差异。此时可通过定义多组二维高斯分布函数表征数据集的空间领域偏差，并通过网络训练实现高斯先验分布参数的自适应优化过程。具体如公式(6)所示：

式中，gmapⁱ(x，y)i＝1，…，N表示N组高斯先验图。x、y分别表示对应特征W、H维度的坐标。

分别表示W、H维度的高斯分布平均值，

分别表示W、H维度的高斯分布的方差。

最后，对先验图像特征进行解码，输出视觉显著区域。可选地，由于人的视觉特性，可获取带有时序特性的先验图像特征。在得到带有时序信息的高维图像特征后，需要通过解码器操作才能得到最终的视觉显著区域图。试验证明特征通道深度可分离的卷积网络具有与传统深度不可分的卷积网络相似的图像特征提取能力，但网络的参数量成倍减少。同时，带有瓶颈机制(bottleneck)的1×1与3×3的卷积组合，相比简单多层3×3的卷积堆叠模块也存在与深度可分离网络相同的优势。故为有效提高模型的计算效率，本实施例充分利用深度可分离卷积网络和瓶颈机制的1×1与3×3的卷积组合作为视觉注视区模型的解码器，如图2所示。具体由三组上采样模块构成，每组上采样模块：分别进行2倍Upsampling操作、卷积核大小1x1的Conv、领域自适应标准化DABN(详见式5)、ReLU激活层、卷积核大小为3x3的深度可分离DepthwiseConv、DABN、ReLU、Conv 1x1、DABN、线性激活层Linear，最后与模块的输入相加构成残差连接。其中通过调整Conv 1x1、DepthwiseConv 3x3和Conv 1x1的通道数构成瓶颈机制。

上述实施例中，将图像特征输入领域自适应模型，通过领域自适应模型中的自适应标准化模型，对图像特征进行自适应标准化处理，得到标准化图像特征；通过领域自适应模型中的自适应先验模型，对标准化图像特征进行自适应先验处理，得到先验图像特征；对先验图像特征进行解码，输出视觉显著区域。其中，由于不同数据集的采集环境、设备、数据处理和驾驶行为习惯等因素不统一，导致最终得到的驾驶员视觉显著图标签之间存在较大的系统偏差或领域偏差。这种情况会导致在相同的场景图像刺激下，不同数据库的输入图像和对应的标签信息存在较大偏差。此处，引入领域自适应模型对数据的领域偏差进行表征，有利于对不同数据集中的图像特征提取，从而，能够得到面向真实道路场景具有高泛化能力的模型，并得到符合人类视觉特性的视觉显著区域。

在一个实施例中，如图5所示，为步骤S430的一种可实施方式的流程示意图，具体包括：

步骤S431，对先验图像特征进行解码，得到第一视觉显著区域。

步骤S432，通过自适应标准化模型，对第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域。

步骤S433，通过领域自适应模型中的自适应平滑模型，对第二视觉显著区域进行自适应平滑处理，输出视觉显著区域。

具体地，在得到先验图像特征后，需要对该先验图像特征进行解码，还原出人类视觉能够感受到的图像区域，得到第一视觉显著区域。并再次通过自适应标准化模型，对第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域。最后，通过领域自适应模型中的自适应平滑模型，对第二视觉显著区域进行自适应平滑处理，输出视觉显著区域。自适应卷积平滑模块，由于不同数据集在得到驾驶员注视点信息后，采用的平滑处理方式不同，会得到不同锐利度特性的视觉显著区图。而通过设置自适应卷积平滑模块，能够通过自学习的方式得到与原数据处理方式相似效果的高斯滤波器，用于表征数据集特有的平滑滤波处理方式。本实施例中采用了对各输入数据集，分别采用卷积核大小为64×64的平滑处理层，实现对视觉显著区图的平滑滤波操作，得到最终的视觉显著区域。

上述实施例中，对先验图像特征进行解码，得到第一视觉显著区域；通过自适应标准化模型，对第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域；通过领域自适应模型中的自适应平滑模型，对第二视觉显著区域进行自适应平滑处理，输出更为符合人类视觉特性的视觉显著区域。

在一个实施例中，驾驶员视觉显著区域检测方法还包括：

按照预设时间间隔，获取待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一待检测图像对应一个先验图像特征，待检测图像时序集合对应一组先验图像特征时序集合。

其中，预设时间间隔为采集待检测图像的时间间隔，由于真实驾驶场景中，驾驶员的视觉注视行为是在时间维度上一段时间窗内的连续动态刺激作用下的时序响应。因此，驾驶员视觉显著区的预测问题需要考虑图像在时间序列维度上的信息表征，即预测模型的输人多帧交通场景的时序图像，对应的输出是驾驶员的视觉显著区时序图。

可选地，获取循环神经网络模型；将每一待检测图像对应的先验图像特征输入循环神经网络模型，对每一待检测图像对应的先验图像特征进行更新，得到至少一个先验图像特征，至少一个先验图像特征形成先验图像特征时序集合。

具体地，由于RNN模型在处理时序问题上具有突出的表征能力，在RNN基础上与空间特征提取CNN网络结合，构建具有时序与空间图像特征提取能力的神经网络模型，如ConvRNN，ConvGRU，ConvLSTM等。综合考虑模型的时序表征能力和计算效率，本实施例采用门控循环神经网络ConvGRU对编码器提取的高级图像特征进行处理。最终得到时序性的先验图像特征。

上述实施例中，按照预设时间间隔，获取待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一待检测图像对应一个先验图像特征，待检测图像时序集合对应一组先验图像特征时序集合。是基于人类视觉特性进行的处理，如此，可以更加真实的模拟人的视觉特征，为最终检测视觉显著区域提供更为真实的获取条件。

在一个具体的实施例中，如图6所示，本实施例的应用场景为具有交通场景视觉感知模块的智能驾驶车辆车载装置。该车辆还包括驾驶员视觉显著区域的检测，可根据具体的交通场景和驾驶员标记信息，调用标记对应的领域自适应模块，并结合注意力机制模块、2D图像RNN模块和视觉显著区解码器对驾驶员的视觉显著区域进行实时预测。在智能车感知模块预测危险发生前期，车辆避撞安全系统对比预测的危险区域与视觉显著区域。当重合率较低，说明此种危险场景下，驾驶员不易及时察觉潜在的危险物，存在较大风险忽视危险。此时，车辆避撞安全系统给予危险警示或主动介入接管车辆采取避撞措施。其中，功能模块图中的智能车视觉感知模块和避撞安全系统为任何主流智能车辆的预配置功能模块，在本实施例中主要体现驾驶员视觉注视行为预测模块可快速嵌入现有智能车辆的视觉感知和安全系统实现人员驾驶行为的安全预判功能。因此，智能车视觉感知模块和避撞安全系统并非本实施例的关注内容，本实施例重点关注驾驶员视觉注视行为预测模块的功能实现和组成，即功能模块图中的领域自适应模块(包括标准化、高斯先验、卷积平滑模块)、注意力机制模块(通道和空间注意力模块)、2D图像RNN模块、视觉显著区解码器。

上述实施例中，通过深度卷积网络对交通场景中的低，中和高级图像特征进行自学习提取，引入空间和通道两种注意机制加强对有用特征的提取，提升模型表征能力。同时，考虑不同交通场景和驾驶员因素对视觉显著区的影响，建立具有领域自适应功能的高泛化能力驾驶员注视行为模型。能与任何交通场景数据集兼容，且可不断嵌入新数据集，例如包含驾驶员风格标签信息的数据集。例如可同时利用所有已公开的数据集，在场景上互为补充可映射更多的真实驾驶场景，扩充数据集的样本空间。可在不增加额外计算量的前提下，与主流的车载视觉感知模型匹配，实时预判车辆驾驶员的注视行为，当危险出现初期及时提醒驾驶员对潜在危险物的及时关注，进而服务于智能交通系统中人员主动行为的表征建模与交通安全判据。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种驾驶员视觉显著区域检测装置，包括：数据获取模块701、图像编码模块702、模型获取模块703和区域确定模块704，其中：

数据获取模块701，用于获取车载摄像机拍摄的待检测图像；

图像编码模块702，用于对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征；

模型获取模块703，用于获取待检测图像对应的领域自适应模型；

区域确定模块704，用于将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。

在一个实施例中，驾驶员视觉显著区域检测装置还包括报警模块，用于：通过预设的视觉感知模型，检测待检测图像中的危险区域；获取危险区域与视觉显著区域的重合率；检测重合率与预设阈值之间的大小；当重合率小于预设阈值时，生成避撞方案或警示信息中的至少一种。

在一个实施例中，图像编码模块还用于：获取包括注意力机制的编码网络模型；其中，注意力机制包括通道注意力机制和空间注意力机制；将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征；通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征；通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征。

在一个实施例中，区域确定模块还用于：将图像特征输入领域自适应模型，通过领域自适应模型中的自适应标准化模型，对图像特征进行自适应标准化处理，得到标准化图像特征；通过领域自适应模型中的自适应先验模型，对标准化图像特征进行自适应先验处理，得到先验图像特征；对先验图像特征进行解码，输出视觉显著区域。

在一个实施例中，区域确定模块还用于：对先验图像特征进行解码，得到第一视觉显著区域；通过自适应标准化模型，对第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域；通过领域自适应模型中的自适应平滑模型，对第二视觉显著区域进行自适应平滑处理，输出视觉显著区域。

在一个实施例中，区域确定模块还用于：按照预设时间间隔，获取待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一待检测图像对应一个先验图像特征，待检测图像时序集合对应一组先验图像特征时序集合。

在一个实施例中，区域确定模块还用于：获取循环神经网络模型；将每一待检测图像对应的先验图像特征输入循环神经网络模型，对每一待检测图像对应的先验图像特征进行更新，得到至少一个先验图像特征，至少一个先验图像特征形成先验图像特征时序集合。

关于驾驶员视觉显著区域检测装置的具体限定可以参见上文中对于驾驶员视觉显著区域检测方法的限定，在此不再赘述。上述驾驶员视觉显著区域检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种驾驶员视觉显著区域检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取车载摄像机拍摄的待检测图像；

对待检测图像进行编码，并通过注意力机制，获取待检测图像在空间维度和通道维度融合后的图像特征；

获取待检测图像对应的领域自适应模型；

将图像特征输入领域自适应模型，对图像特征进行自适应处理，得到待检测图像的视觉显著区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过预设的视觉感知模型，检测待检测图像中的危险区域；获取危险区域与视觉显著区域的重合率；检测重合率与预设阈值之间的大小；当重合率小于预设阈值时，生成避撞方案或警示信息中的至少一种。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取包括注意力机制的编码网络模型；其中，注意力机制包括通道注意力机制和空间注意力机制；将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征；通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征；通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将图像特征输入领域自适应模型，通过领域自适应模型中的自适应标准化模型，对图像特征进行自适应标准化处理，得到标准化图像特征；通过领域自适应模型中的自适应先验模型，对标准化图像特征进行自适应先验处理，得到先验图像特征；对先验图像特征进行解码，输出视觉显著区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对先验图像特征进行解码，得到第一视觉显著区域；通过自适应标准化模型，对第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域；通过领域自适应模型中的自适应平滑模型，对第二视觉显著区域进行自适应平滑处理，输出视觉显著区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照预设时间间隔，获取待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一待检测图像对应一个先验图像特征，待检测图像时序集合对应一组先验图像特征时序集合。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取循环神经网络模型；将每一待检测图像对应的先验图像特征输入循环神经网络模型，对每一待检测图像对应的先验图像特征进行更新，得到至少一个先验图像特征，至少一个先验图像特征形成先验图像特征时序集合。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取车载摄像机拍摄的待检测图像；

获取待检测图像对应的领域自适应模型；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过预设的视觉感知模型，检测待检测图像中的危险区域；获取危险区域与视觉显著区域的重合率；检测重合率与预设阈值之间的大小；当重合率小于预设阈值时，生成避撞方案或警示信息中的至少一种。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取包括注意力机制的编码网络模型；其中，注意力机制包括通道注意力机制和空间注意力机制；将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征；通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征；通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将图像特征输入领域自适应模型，通过领域自适应模型中的自适应标准化模型，对图像特征进行自适应标准化处理，得到标准化图像特征；通过领域自适应模型中的自适应先验模型，对标准化图像特征进行自适应先验处理，得到先验图像特征；对先验图像特征进行解码，输出视觉显著区域。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对先验图像特征进行解码，得到第一视觉显著区域；通过自适应标准化模型，对第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域；通过领域自适应模型中的自适应平滑模型，对第二视觉显著区域进行自适应平滑处理，输出视觉显著区域。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照预设时间间隔，获取待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一待检测图像对应一个先验图像特征，待检测图像时序集合对应一组先验图像特征时序集合。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取循环神经网络模型；将每一待检测图像对应的先验图像特征输入循环神经网络模型，对每一待检测图像对应的先验图像特征进行更新，得到至少一个先验图像特征，至少一个先验图像特征形成先验图像特征时序集合。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种驾驶员视觉显著区域检测方法，其特征在于，所述方法包括：

获取车载摄像机拍摄的待检测图像；

获取所述待检测图像对应的领域自适应模型；所述领域自适应模型与驾驶员标记信息对应；

将所述图像特征输入所述领域自适应模型，通过所述领域自适应模型中的自适应标准化模型，对所述图像特征进行自适应标准化处理，得到标准化图像特征，所述自适应标准化模型用于针对不同数据源的图像输入分别建立标准化特征处理流程；

通过所述领域自适应模型中的自适应先验模型，对所述标准化图像特征定义多组二维高斯分布函数表征数据集的空间领域偏差，并通过网络训练实现高斯先验分布参数的自适应优化，得到先验图像特征；

对所述先验图像特征进行解码，输出所述待检测图像的视觉显著区域；

获取所述危险区域与所述视觉显著区域的重合率；

检测所述重合率与预设阈值之间的大小；

当所述重合率小于所述预设阈值时，生成避撞方案或警示信息中的至少一种；

其中，所述对所述待检测图像进行编码，并通过注意力机制，获取所述待检测图像在空间维度和通道维度融合后的图像特征，包括：

获取包括所述注意力机制的编码网络模型；其中，所述注意力机制包括通道注意力机制和空间注意力机制；将所述待检测图像输入编码网络模型，通过所述编码网络模型对所述待检测图像进行编码，得到所述待检测图像对应的第一图像特征；通过所述编码网络模型中的通道注意力机制，获取所述第一图像特征中的通道域特征，得到第二图像特征；通过所述空间注意力机制，获取所述第二图像特征中的空间域特征，输出所述图像特征；所述空间注意力机制的总体计算框架包括：通过M_S(F)运算对输入特征进行操作后，乘以预设系数与所述输入特征进行残差连接，所述M_S(F)运算包括：所述输入特征通过两组1x1卷积模块，将经过第一组卷积模块处理后的所述输入特征进行转置后与经过第二组卷积模块处理后的输入特征相乘，将所述相乘后的输入特征对应数据变维成通道数与高宽积的二维数据，以得到处理后的特征，再通过softmax运算将所述处理后的特征映射到[0，1]区间后进行转置得到转置结果，最后将经过第三组1x1卷积模块和变维操作的所述输入特征与所述转置结果相乘得到空间特征权重系数矩阵M_S(F)。

2.根据权利要求1所述的方法，其特征在于，对所述先验图像特征进行解码，输出所述视觉显著区域，包括：

对所述先验图像特征进行解码，得到第一视觉显著区域；

3.根据权利要求2所述的方法，其特征在于，所述获取车载摄像机拍摄的待检测图像之前，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述先验图像特征进行解码，得到第一视觉显著区域之前，包括：

获取循环神经网络模型；

5.一种驾驶员视觉显著区域检测装置，其特征在于，所述装置包括：

数据获取模块，用于获取车载摄像机拍摄的待检测图像；

模型获取模块，用于获取所述待检测图像对应的领域自适应模型；所述领域自适应模型与驾驶员标记信息对应；

区域确定模块，用于将所述图像特征输入所述领域自适应模型，通过所述领域自适应模型中的自适应标准化模型，对所述图像特征进行自适应标准化处理，得到标准化图像特征，所述自适应标准化模型用于针对不同数据源的图像输入分别建立标准化特征处理流程；通过所述领域自适应模型中的自适应先验模型，对所述标准化图像特征定义多组二维高斯分布函数表征数据集的空间领域偏差，并通过网络训练实现高斯先验分布参数的自适应优化，得到先验图像特征；对所述先验图像特征进行解码，输出所述待检测图像的视觉显著区域；

报警模块，用于通过预设的视觉感知模型，检测待检测图像中的危险区域；获取危险区域与视觉显著区域的重合率；检测重合率与预设阈值之间的大小；当重合率小于预设阈值时，生成避撞方案或警示信息中的至少一种；

其中，所述图像编码模块，具体用于获取包括注意力机制的编码网络模型；其中，注意力机制包括通道注意力机制和空间注意力机制；将待检测图像输入编码网络模型，通过编码网络模型对待检测图像进行编码，得到待检测图像对应的第一图像特征；通过编码网络模型中的通道注意力机制，获取第一图像特征中的通道域特征，得到第二图像特征；通过空间注意力机制，获取第二图像特征中的空间域特征，输出图像特征；所述空间注意力机制的总体计算框架包括：通过M_S(F)运算对输入特征进行操作后，乘以预设系数与所述输入特征进行残差连接，所述M_S(F)运算包括：所述输入特征通过两组1x1卷积模块，将经过第一组卷积模块处理后的所述输入特征进行转置后与经过第二组卷积模块处理后的输入特征相乘，将所述相乘后的输入特征对应数据变维成通道数与高宽积的二维数据，以得到处理后的特征，再通过softmax运算将所述处理后的特征映射到[0，1]区间后进行转置得到转置结果，最后将经过第三组1x1卷积模块和变维操作的所述输入特征与所述转置结果相乘得到空间特征权重系数矩阵M_S(F)。

6.根据权利要求5所述的驾驶员视觉显著区域检测装置，其特征在于，区域确定模块还用于：对所述先验图像特征进行解码，得到第一视觉显著区域；通过所述自适应标准化模型，对所述第一视觉显著区域进行自适应标准化处理，得到第二视觉显著区域；通过所述领域自适应模型中的自适应平滑模型，对所述第二视觉显著区域进行自适应平滑处理，输出所述视觉显著区域。

7.根据权利要求6所述的驾驶员视觉显著区域检测装置，其特征在于，区域确定模块还用于：按照预设时间间隔，获取所述待检测图像对应的至少一个待检测图像，得到待检测图像时序集合；其中，每一所述待检测图像对应一个先验图像特征，所述待检测图像时序集合对应一组先验图像特征时序集合。

8.根据权利要求7所述的驾驶员视觉显著区域检测装置，其特征在于，

区域确定模块还用于：获取循环神经网络模型；将每一所述待检测图像对应的先验图像特征输入所述循环神经网络模型，对每一待检测图像对应的先验图像特征进行更新，得到至少一个所述先验图像特征，所述至少一个先验图像特征形成所述先验图像特征时序集合。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。