CN112418159A

CN112418159A - 基于注意力掩码的就餐人员监控方法、装置和电子设备

Info

Publication number: CN112418159A
Application number: CN202011424107.0A
Authority: CN
Inventors: 蔡吸礼; 王德成
Original assignee: Hangzhou Polytechnic
Current assignee: Hangzhou Polytechnic
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-02-26

Abstract

本发明公开了一种基于注意力掩码的就餐人员监控方法、装置和电子设备。所述方法，包括：获取多个餐厅图像；将所述多个餐厅图像输入卷积神经网络的第一部分以获得部分深度特征图；将部分深度特征图输入所述卷积神经网络的第二部分以获得全局深度特征图；基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图；将所述注意力掩码图与所述全局深度特征图进行点乘以获得最终特征图；以及，基于所述最终特征图进行图像语义分割以获得图像语义分割结果，所述图像语义分割结果表示所述餐厅的监控结果。这样，基于更高精度的所述餐厅图像的语义分割结果，能够更为精确地对餐厅内就餐人员的聚集程度进行监控。

Description

基于注意力掩码的就餐人员监控方法、装置和电子设备

技术领域

本申请涉及人工智能技术领域，且更为具体地，涉及一种基于注意力掩码的智慧园区的就餐人员监控方法、装置和电子设备。

背景技术

智慧城市是把新一代信息技术充分运用在城市中各行各业的城市信息化高级形态。智慧园区是智能城市建设的重要部分，餐厅是每个园区都会配置的基础设置。

餐厅是人群密集的地方，对于餐厅内就餐人员的聚集程度的监控是餐厅监控的重要内容，尤其是在传播性疾病（例如，新冠肺炎）爆发的阶段。国家相关部分已规定：在疫情期间，餐厅内的就餐人员应间隔进食，以降低疾病传播的风险。

目前，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展（尤其是图像语义分割技术的发展）为智能园区的餐厅内就餐人员的聚集程度的监控提供了新的解决思路和方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于注意力掩码的智慧园区的就餐人员监控方法、装置和电子设备，其基于注意力掩码的卷积神经网络模型对所采集的餐厅图像进行图像语义分割，以提高餐厅图像的分割精度和识别精度，从而能够精确地对智能园区内的餐厅内就餐人员的聚集程度进行远程监控。

根据本申请的一个方面，提供了一种基于注意力掩码的智慧园区的就餐人员监控方法，其特征在于，包括：

获取由多个不同拍摄角度的图像采集装置所拍摄的所述智慧园区的餐厅的多个餐厅图像；

将所述多个餐厅图像输入卷积神经网络的第一部分以获得部分深度特征图；

将部分深度特征图输入所述卷积神经网络的第二部分以获得全局深度特征图；

基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图；

将所述注意力掩码图与所述全局深度特征图进行点乘以获得最终特征图；以及

基于所述最终特征图进行图像语义分割以获得图像语义分割结果，所述图像语义分割结果表示所述餐厅的监控结果。

在上述智慧园区的就餐人员监控方法中，所述卷积神经网络的第一部分具有第一层数，所述卷积神经网络的第二部分具有第二层数，所述第一层数小于所述第二层数。

在上述智慧园区的就餐人员监控方法中，所述第一层数是N，所述第二层数是M，则满足

。

在上述智慧园区的就餐人员监控方法中，基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图，包括：

计算所述部分深度特征图与所述全局深度特征图之间的按位置距离张量；

计算所述按位置距离张量中的每个位置的值相对于所述全局深度特征图的相应位置的值的归一化系数张量；以及

将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图。

在上述智慧园区的就餐人员监控方法中，计算所述部分深度特征图与所述全局深度特征图之间的按位置距离张量，包括：

基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L1距离张量：

其中，

为按位置L1距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度。

基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L2距离张量：

其中，

为按位置L2距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度。

在上述智慧园区的就餐人员监控方法中，将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图，包括：

根据下式将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图：

其中，

是所述注意力掩码图中的每个位置的值，

是所述归一化系数张量中的每个位置的值，

是所述注意力阈值，且

。

在上述智慧园区的就餐人员监控方法中，所述卷积神经网络由训练用餐厅图像训练而获得，所述训练用餐厅图像具有餐厅的已标注的标签。

在上述智慧园区的就餐人员监控方法中，

、

和

作为超参数，与所述卷积神经网络一起由训练用餐厅图像训练而获得，所述训练用餐厅图像具有餐厅的已标注的标签。

根据本申请的另一方面，提供了一种基于注意力掩码的智能园区的餐厅监控装置，包括：

图像获取单元，用于获取由多个不同拍摄角度的图像采集装置所拍摄的所述智慧园区的餐厅的多个餐厅图像；

部分深度特征图生成单元，用于将所述图像获取单元获得的所述多个餐厅图像输入卷积神经网络的第一部分以获得部分深度特征图；

全局深度特征图生成单元，用于将所述部分深度特征图生成单元获得的部分深度特征图输入所述卷积神经网络的第二部分以获得全局深度特征图；

注意力掩码图生成单元，用于基于所述部分深度特征图生成单元获得的所述部分深度特征图与所述全局深度特征图生成单元获得的所述全局深度特征图的按位置距离生成注意力掩码图；

最终特征图生成单元，用于将所述注意力掩码图生成单元获得的所述注意力掩码图与所述全局深度特征图生成单元获得的所述全局深度特征图进行点乘以获得最终特征图；以及

图像语义分割单元，用于基于所述最终特征图生成单元获得的所述最终特征图进行图像语义分割以获得图像语义分割结果，所述图像语义分割结果表示所述餐厅的监控结果。

在上述餐厅监控装置中，所述卷积神经网络的第一部分具有第一层数，所述卷积神经网络的第二部分具有第二层数，所述第一层数小于所述第二层数。

在上述餐厅监控装置中，所述第一层数是N，所述第二层数是M，则满足

。

在上述餐厅监控装置中，所述注意力掩码图生成单元，进一步包括：

张量计算子单元，用于计算所述部分深度特征图与所述全局深度特征图之间的按位置距离张量；

归一化子单元，用于计算所述按位置距离张量中的每个位置的值相对于所述全局深度特征图的相应位置的值的归一化系数张量；

比较子单元，用于将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图。

在上述餐厅监控装置中，所述张量计算子单元，进一步用于：基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L1距离张量：

其中，

为按位置L1距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度。

在上述餐厅监控装置中，所述张量计算子单元，进一步用于：基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L2距离张量：

其中，

为按位置L2距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度

在上述餐厅监控装置中，所述张量计算子单元，进一步用于：根据下式将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图：

其中，

是所述注意力掩码图中的每个位置的值，

是所述归一化系数张量中的每个位置的值，

是所述注意力阈值，且

。

在上述餐厅监控装置中，所述卷积神经网络由训练用餐厅图像训练而获得，所述训练用餐厅图像具有餐厅的已标注的标签。

在上述餐厅监控装置中，

、

和

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于注意力掩码的智慧园区的就餐人员监控方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于注意力掩码的智慧园区的就餐人员监控方法。

与现有技术相比，本申请提供的基于注意力掩码的智慧园区的就餐人员监控方法、装置和电子设备，其基于注意力掩码的卷积神经网络模型对所采集的餐厅图像进行图像语义分割，以提高餐厅图像的分割精度和识别精度，从而能够精确地对智能园区内的餐厅内就餐人员的聚集程度进行监控。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法的应用场景图。

图2图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法的流程图。

图3图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法的系统架构的示意图。

图4图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法中，自集成注意力神经网络从部分深度特征图获得部分深度注意力图的流程图。

图5图示了根据本申请实施例的基于注意力掩码的智慧园区的餐厅监控装置的框图。

图6图示了根据本申请实施例的基于注意力掩码的智慧园区的餐厅监控装置中的注意力掩码图生成单元的框图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如图1所示，在该应用场景中，智能园区内的餐厅D内设有多个图像采集装置（在该示例中，以包括三个图像采集装置C1、C2和C3为示例，当然，本领域技术人员可以理解，也可以包括其它数目的图像采集装置），所述图像采集装置C1、C2、C3用于从多个不同拍摄角度拍摄所述餐厅的图像。所述餐厅图像被输入至部署有深度神经网络模型的餐厅监控服务器S中进行图像语义分割处理，以获得图像语义分割结果，其中，所述图像语义分割结果表示所述餐厅的监控结果。

具体到该应用场景中，所述餐厅图像的图像语义分析结果（即，所述餐厅的监控结果）为从餐厅图像中获得餐厅内就餐人员分布的分割结果。也就是，通过所述图像语义分割结果便能够获知所述餐厅内就餐人员的分布情况，即，对所述餐厅内的人员聚集程度进行监控，从而能够避免能源浪费。

值得一提的是，在该应用场景中，所述图像采集装置设置于餐厅的天花板上且具有良好的视野。并且，在本申请实施例中，所述图像采集装置可被设置为分时段进行工作，例如，其可被设置为早餐时间、中餐时间和晚餐时间段进行工作，而其他时间段处于待机状态，用于从多个不同拍摄角度拍摄所述餐厅的图像，其原因在于，在实际应用场景中，餐厅内的人员聚集程度在时间域上有特定的分布规律。

应可以理解，餐厅内就餐人员的聚集程度的监控质量取决于餐厅图像的图像语义分割结果的精度，而图像语义分割结果的精度在很大程度上取决于所构建的深度神经网络模型的模型架构。也就是，在该应用场景中，如何基于应用场景的特征和技术目的构建适配的用于图像语义分割的深度神经网络模型是技术实施的关键。特别地，在该应用场景中，如果能够有效地利用图像中一些比较直观的特征，比如，餐厅的形状、位置、餐厅内桌子或椅子的形状等，将有益于图像语义分割。

图像语义分割技术表示对图像进行分割并识别出相应的内容，例如，有一张图像为一个人骑着摩托车，图像语义分割的任务为将这张图像中的人、摩托车和背景分割开并识别他们相应的类别。现有的图像语义分割任务大多基于传统的卷积神经网络模型来执行。传统的卷积神经网络模型包括卷积层、池化层、全连接层，在执行图像语义分割任务的过程中，通过卷积神经网络处理源图像以获得特征图，并基于特征图进行语义分割（即，识别不同部分的内容）。在具体实践中，本申请发明人发现基于传统卷积神经网络模型的图像语义分割精度难以满足应用要求。

究其原因，本申请发明人发现，在图像语义分割过程中，用于语义分割的图像特征在源图像的源域和通过卷积神经网络获得的特征图的目标域之间存在差异，如果仅基于目标域内的特征图进行图像语义分割，这种差异将降低图像语义分割结果的精确性。

针对上述技术问题，本申请的基本构思是通过部分深度特征图提取到所述餐厅图像在其源域内的特征，通过全局特征图提取到所述餐厅图像的特征图在其目标域内的特征，进而，通过基于所述部分深度特征图和所述全局深度特征图之间的按位置距离生成注意力掩码图，能够在最终全局特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分赋予不同的权重，从而使得所述最终特征图中能够突出目标域与源域之间特征差异小的部分而削弱特征差异大的部分，以获得更好的语义分割结果，从而能够有效地提高餐厅内就餐人员的聚集程度的监控质量，以避免不必要的能源浪费。

基于此，本申请提出了一种基于注意力掩码的智慧园区的就餐人员监控方法，其包括：获取由多个不同拍摄角度的图像采集装置所拍摄的所述智慧园区的餐厅的多个餐厅图像；将所述多个餐厅图像输入卷积神经网络的第一部分以获得部分深度特征图；将部分深度特征图输入所述卷积神经网络的第二部分以获得全局深度特征图；基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图；将所述注意力掩码图与所述全局深度特征图进行点乘以获得最终特征图；以及，基于所述最终特征图进行图像语义分割以获得图像语义分割结果，所述图像语义分割结果表示所述餐厅的监控结果。

本申请的所述部分深度特征图可以提取到所述餐厅图像在其源域内的特征，而全局深度特征图可以提取到所述餐厅图像的特征图在其目标域内的特征，通过基于所述部分深度特征图与所述全局深度特征图之间的按位置距离生成注意力掩码图，可以在最终特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分赋予不同的权重，从而使得所述最终特征图中能够突出目标域与源域之间特征差异小的部分，而削弱特征差异大的部分，从而能够实现更好的语义分割结果。

相应地，根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法，其基于注意力掩码的卷积神经网络模型对所采集的餐厅图像进行图像语义分割，以提高餐厅图像的分割精度和识别精度，从而能够精确地对智能园区内的餐厅内就餐人员的聚集程度进行远程监控。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法的流程图。如图2所示，根据本申请实施例的就餐人员监控方法，包括：S110，获取由多个不同拍摄角度的图像采集装置所拍摄的所述智慧园区的餐厅的多个餐厅图像；S120，将所述多个餐厅图像输入卷积神经网络的第一部分以获得部分深度特征图；S130，将部分深度特征图输入所述卷积神经网络的第二部分以获得全局深度特征图；S140，基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图；S150，将所述注意力掩码图与所述全局深度特征图进行点乘以获得最终特征图；以及，S160，基于所述最终特征图进行图像语义分割以获得图像语义分割结果，所述图像语义分割结果表示所述餐厅的监控结果。

图3图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法的系统架构的示意图。在本申请实施例中，所述基于注意力掩码的卷积神经网络模型，包括卷积神经网络（如图3所以的DN）的第一部分（例如，如图3所示的P1），注意力掩码神经网络（例如，如3所示的Nm）和卷积神经网络的第二部分（例如，如图3所示的P2），其中，所述卷积神经网络的第一部分P1，用于从多个所述餐厅图像中获得部分深度特征图（例如，如图3所示的Fp）；所述卷积神经网络的第二部分P2，用于从所述部分深度特征图中获得全局深度特征图（例如，如图3所示的Fg）；所述注意力掩码神经网络N_a，用于基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图（例如，如图3所示的Fm）；。进一步地，所述注意力掩码图与所述全局深度特征图进行点乘以获得最终特征图，以获得最终特征图（例如，如图3所示的Fs）。

应可以理解，所述注意力掩码图能够在所述最终特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分赋予不同的权重，从而使得最终特征图中能够突出目标域与源域之间特征差异小的部分，而削弱特征差异大的部分，从而能够实现更好的语义分割结果。

在步骤S110中，获取由多个不同拍摄角度的图像采集装置所拍摄的所述智慧园区的餐厅的多个餐厅图像。如上所述，所述图像采集装置可被设置为分时段进行工作，例如，其可被设置为早餐时间、中餐时间和晚餐时间段进行工作，而其他时间段处于待机状态，用于从多个不同拍摄角度拍摄所述餐厅的图像，其原因在于，在实际应用场景中，餐厅内的人员聚集程度在时间域上有特定的分布规律。

在步骤S120中，将所述多个餐厅图像输入第一卷积神经网络的第一部分以获得部分深度特征图。这里，所述部分深度特征图能够提取到所述多个餐厅图像在其源域内的特征。

在步骤S130中，将所述部分深度特征图输入所述第一卷积神经网络的第二部分以获得全局深度特征图。这里，所述全局深度特征图可以提取到所述多个餐厅图像的特征图在其目标域内的特征。

特别地，考虑到所述部分深度特征图要能够充分提取所述多个餐厅图像在其源域内的特征且所述部分深度注意力图中的特征不能过于向其目标域偏移，因此，在本申请实施例中，设定所述第一卷积神经网络的第一部分具有第一层数，所述第一卷积神经网络的第二部分具有第二层数，优选地，所述第一层数小于所述第二层数。

进一步地，考虑到如果第二层数与第一层数的比值过大（也就是，所述第二层数过小），则所述部分深度注意力图中的特征将过于向目标域偏移，从而不能很好地反映所述餐厅图像在源域内的特征，相应地，在本申请实施例中，优选地，设定所述第一层数是N，所述第二层数是M，两者比值满足

。

例如，在50层的卷积神经网络架构下，所述第一部分可以包括30层，而所述第二部分可以包括20层。而在30层的卷积神经网络架构下，所述第一部分可以包括20层，而所述第二部分可以包括10层。当然，在模型架构中，所述卷积神经网络的第一部分的第一层数和其第二部分的第二层数的具体取值并不为本申请所局限，其还可以被设置其他层数。

在步骤S140中，基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图。这里，所述部分深度特征图可以提取到所述餐厅图像在其源域内的特征，而全局深度特征图可以提取到所述餐厅图像的特征图在其目标域内的特征，通过基于所述部分深度特征图与所述全局深度特征图之间的按位置距离生成注意力掩码图，可以在最终特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分赋予不同的权重，从而使得所述最终特征图中能够突出目标域与源域之间特征差异小的部分，而削弱特征差异大的部分，从而能够实现更好的图像语义分割结果。

具体来说，在本申请一示例中，如图4所示，基于所述部分深度特征图与所述全局深度特征图的按位置距离生成注意力掩码图的过程，包括：S210，计算所述部分深度特征图与所述全局深度特征图之间的按位置距离张量；S220，计算所述按位置距离张量中的每个位置的值相对于所述全局深度特征图的相应位置的值的归一化系数张量；以及，S230，将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图。这里，图4图示了根据本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法中，自集成注意力神经网络从部分深度特征图获得部分深度注意力图的流程图。

特别地，通过计算所述部分深度特征图与所述全局深度特征图之间的按位置距离张量，可以反映出所述部分深度特征图与所述全局深度特征图的每个位置之间的特征差异，然后再相对于所述全局深度特征图的相应位置的值形成归一化系数，可以反映出在全局深度特征图中源域相对于目标域的变化尺度。这样，再将归一化系数与注意力阈值进行比较，可以以像素级区分所述部分深度特征图与所述全局深度特征图之间差异较大的部分和差异较小的部分。

更具体地，在本申请一示例中，基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L1距离张量：

其中，

为按位置L1距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度。

在该示例中，通过计算所述部分深度特征图与所述全局特征图的每个位置之间的L1距离，可以从数值维度上反映出所述部分深度特征图与所述全局深度特征图的每个位置之间的特征差异，从而在最终特征图中排除掉在数值维度上差异过大的部分。

在本申请另一示例中，基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L2距离张量：

其中，

为按位置L2距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度。

在上述另一示例中，通过计算所述部分深度特征图与所述全局特征图的每个位置之间的L2距离，可以从空间距离维度上反映出所述部分深度特征图与所述全局深度特征图的每个位置之间的特征差异，从而在最终特征图中排除掉在空间距离维度上差异过大的部分。

在本申请又一示例中，根据下式将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图：

其中，

是所述注意力掩码图中的每个位置的值，

是所述归一化系数张量中的每个位置的值，

是所述注意力阈值，且

。

在上述又一示例中，所述注意力掩码图根据归一化系数张量中的每个位置的值，分别赋予最终特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分不同的权重，其中给予最终特征图上相对于目标域与源域之间特征差异小的部分较大的权重，而给予最终特征图上相对于目标域与源域之间特征差异大的部分较小的权重，从而使得最终特征图中能够突出目标域与源域之间特征差异小的部分，而削弱特征差异大的部分，以能够实现更好的语义分割结果。在一个特别示例中，

等于1，且

等于0。

这里，注意力掩码图中的值

、

和注意力阈值需要综合考虑，例如，在

等于1，且

等于0的情况下，注意力阈值

不应该设置得过小，否则将使得所述注意力掩码图滤除掉全局深度特征图中大部分的区域，导致全局深度特征图中很少的值能够保留在最终特征图中而参与到语义分割中，使得语义分割的性能变差，尤其是对于平均交并比（mIoU）指标。

实验证明，在

等于1，

等于0，且

等于0.2的情况下，mIoU指标最为恶化，仅为30.3。而当

大于0.2，例如为0.3时，mIoU指标为32.8，

为0.4和0.5时，mIoU指标分别为35.8和36.1，而

为0.6时，mIoU指标又恶化为34.9，说明如果最终特征图中保留过多目标域与源域之间差异大的特征，又会恶化语义分割结果。

在步骤S150中，将所述注意力掩码图与所述全局深度特征图进行点乘以获得最终特征图。如上所述，所述注意力掩码图能够在所述最终特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分赋予不同的权重，从而使得最终特征图中能够突出目标域与源域之间特征差异小的部分，而削弱特征差异大的部分，从而能够实现更好的语义分割结果。

相应地，在经过上述步骤S120至步骤S150的处理后，所述最终特征图上相对于目标域与源域之间特征差异小的部分和特征差异大的部分赋予不同的权重，从而使得最终特征图中能够突出目标域与源域之间特征差异小的部分，而削弱特征差异大的部分，从而在步骤S160中，能够提高图像语义分割精度，即，获得更高精度的餐厅监控结果。

综上，基于本申请实施例的基于注意力掩码的智慧园区的就餐人员监控方法被阐明，其基于注意力掩码的卷积神经网络模型对所采集的餐厅图像进行图像语义分割，以提高餐厅图像的分割精度和识别精度，从而能够精确地对智能园区内的餐厅内就餐人员的聚集程度进行远程监控。

值得一提的是，在本申请实施例中，基于注意力掩码的卷积神经网络模型由训练用餐厅图像训练而获得，所述训练用餐厅图像具有餐厅的已标注的标签。例如，训练数据可来自街景数据集，更优选地，训练数据包含所在园区以标记的餐厅图像。在训练过程中，通过最小化卷积神经网络输出的图像分割结果与已标注的标签之间的差异来通过反向传播更新卷积神经网络的参数。并且，在训练过程中，

、

和

作为超参数，与所述卷积神经网络一起由训练用餐厅图像训练而获得。

示例性装置

如图5所示，根据本申请实施例的餐厅监控装置500，包括：图像获取单元 510，用于获取由多个不同拍摄角度的图像采集装置所拍摄的所述智慧园区的餐厅的多个餐厅图像；部分深度特征图生成单元 520，用于将所述图像获取单元 510获得的所述多个餐厅图像输入卷积神经网络的第一部分以获得部分深度特征图；全局深度特征图生成单元 530，用于将所述部分深度特征图生成单元 520获得的部分深度特征图输入所述卷积神经网络的第二部分以获得全局深度特征图；注意力掩码图生成单元 540，用于基于所述部分深度特征图生成单元 520获得的所述部分深度特征图与所述全局深度特征图生成单元 530获得的所述全局深度特征图的按位置距离生成注意力掩码图；最终特征图生成单元 550，用于将所述注意力掩码图生成单元 540获得的所述注意力掩码图与所述全局深度特征图生成单元 530获得的所述全局深度特征图进行点乘以获得最终特征图；以及，图像语义分割单元 560，用于基于所述最终特征图生成单元 550获得的所述最终特征图进行图像语义分割以获得图像语义分割结果，所述图像语义分割结果表示所述餐厅的监控结果。

在一个示例中，在上述餐厅监控装置 500中，所述卷积神经网络的第一部分具有第一层数，所述卷积神经网络的第二部分具有第二层数，所述第一层数小于所述第二层数。

在一个示例中，在上述餐厅监控装置 500中，所述第一层数是N，所述第二层数是M，则满足

。

在一个示例中，在上述餐厅监控装置 500中，如图6所示，所述注意力掩码图生成单元 540，进一步包括：张量计算子单元 541，用于计算所述部分深度特征图与所述全局深度特征图之间的按位置距离张量；归一化子单元 542，用于计算所述按位置距离张量中的每个位置的值相对于所述全局深度特征图的相应位置的值的归一化系数张量；以及，比较子单元 543，用于将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图。

在一个示例中，在上述餐厅监控装置 500中，所述张量计算子单元 541，进一步用于：基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L1距离张量：

其中，

为按位置L1距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度。

在一个示例中，在上述餐厅监控装置 500中，所述张量计算子单元 541，进一步用于：基于以下等式计算所述部分深度特征图与所述全局特征图之间的按位置L2距离张量：

其中，

为按位置L2距离张量中每个位置的值，

为所述部分深度特征图中的每个位置的值，

为所述全局深度特征图中的每个位置的值，

指所述特征图的宽度维度，

指所述特征图的高度维度，

指所述特征图的通道维度，且

指所述特征图的样本编号维度

在一个示例中，在上述餐厅监控装置 500中，所述张量计算子单元 541，进一步用于：根据下式将所述归一化系数张量中的每个位置的值与注意力阈值进行比较以生成所述注意力掩码图：

其中，

是所述注意力掩码图中的每个位置的值，

是所述归一化系数张量中的每个位置的值，

是所述注意力阈值，且

。

在一个示例中，在上述餐厅监控装置 500中，所述卷积神经网络由训练用餐厅图像训练而获得，所述训练用餐厅图像具有餐厅的已标注的标签。

在一个示例中，在上述餐厅监控装置 500中，

、

和

这里，本领域技术人员可以理解，上述餐厅监控装置 500中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的基于注意力掩码的就餐人员监控方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的餐厅监控装置 500可以实现在各种终端设备中，例如用于监控餐厅的服务器等。在一个示例中，根据本申请实施例的餐厅监控装置 500可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该餐厅监控装置 500可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该餐厅监控装置 500同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该餐厅监控装置 500与该终端设备也可以是分立的设备，并且该餐厅监控装置 500可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于注意力掩码的就餐人员监控方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如餐厅图像、部分深度特征图等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括图像语义分割结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络的基于注意力掩码的就餐人员监控方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于注意力掩码的就餐人员监控方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。