CN112380948A

CN112380948A - 对象重识别神经网络的训练方法、系统和电子设备

Info

Publication number: CN112380948A
Application number: CN202011241934.6A
Authority: CN
Inventors: 马骏驰
Original assignee: Jinan Junchi Enterprise Management Consulting Co ltd
Current assignee: Jinan Junchi Enterprise Management Consulting Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-19

Abstract

本申请公开了一种用于街景监控的对象重识别神经网络的训练方法、系统和电子设备。所述方法，包括：将获取的第一、第二街景图像分别输入卷积神经网络以获得第一、第二特征图；将所述第一、第二特征图分别输入通道注意力网络以获得第一、第二通道特征向量；基于所述第一、第二通道特征向量计算注意力损失函数值；分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图；基于所述分类特征图从分类函数获得分类损失函数值；以及，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。凭此，获得用于检测是否包括违章作业对象的对象重识别神经网络。

Description

对象重识别神经网络的训练方法、系统和电子设备

技术领域

本申请涉及人工智能技术领域，且更为具体地，涉及一种用于街景监控的对象重识别神经网络的训练方法、系统和电子设备。

背景技术

“智慧城市”将信息技术与先进的城市经营服务理念进行有效融合，通过对城市的地理、资源、环境、经济等进行数字网络化管理，为城市提供更便捷、高效、灵活的公共管理的创新服务模式。

在城市管理领域中，需要对道路进行监控，以检测违反道路管理规定的违章作业对象，例如，占道修车、洗车等。目前，针对违反街道管理规定的对象的监控由城管部门执行，效率低下且监管困难。

近年来，深度学习尤其是神经网络的发展违反街道管理规定的对象的监控提供了新的解决思路和方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于街景监控的对象重识别神经网络的训练方法、系统和电子设备，其用于训练获得用于检测街景图像是否包括违反道路管理规定的违章作业对象的具有通道注意力机制的对象重识别神经网络，其中，所述具有通道注意力机制的对象重识别神经网络将违反街道管理规定的对象监控问题转化为不同时间获取街景图像的对象重识别问题结合对象分类问题，以准确地检测所述街景图像内是否包括违反道路管理规定的违章作业对象。

根据本申请的一个方面，提供了一种用于街景监控的对象重识别神经网络的训练方法，其包括：

获取预定时间间隔的第一街景图像和第二街景图像；

将所述第一街景图像和所述第二街景图像分别输入卷积神经网络以获得第一特征图和第二特征图；

将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量；

基于所述第一通道特征向量和所述第二通道特征向量计算注意力损失函数值，所述注意力损失函数值为基于所述第一通道特征向量和所述第二通道特征向量沿通道位置加权的值；

分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图；

基于所述分类特征图从分类函数获得分类损失函数值；以及

基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。

在上述用于街景监控的对象重识别神经网络的训练方法中，获取预定时间间隔的第一街景图像和第二街景图像，包括：通过用于街道巡查的移动摄像机获取街景视频；基于所述移动摄像机的路径信息获取相同地理位置的第一视频片段和第二视频片段；以及，分别从所述第一视频片段和所述第二视频片段中截取所述第一街景图像和所述第二街景图像。

在上述用于街景监控的对象重识别神经网络的训练方法中，将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量，包括：将所述第一特征图输入第一全局池化层以获得第一通道池化向量；将所述第二特征图输入第二全局池化层以获得第二通道池化向量；将所述第一通道池化向量输入第一全连接层并以Sigmoid激活函数进行激活以获得第一通道特征向量；以及，将所述第二通道池化向量输入第二全连接层并以Sigmoid激活函数进行激活以获得第二通道特征向量。

在上述用于街景监控的对象重识别神经网络的训练方法中，分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图，包括：分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图；以及，将所述第一融合特征图和所述第二融合特征图按通道级联以获得分类特征图。

在上述用于街景监控的对象重识别神经网络的训练方法中，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图，包括：将所述第一特征图按通道乘以所述第一通道特征向量以获得第一融合特征图；以及，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二融合特征图。

在上述用于街景监控的对象重识别神经网络的训练方法中，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图，包括：将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图；将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图；将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图；以及，将所述第二加权特征图与所述第二特征图相加以获得所述第二融合特征图。

在上述用于街景监控的对象重识别神经网络的训练方法中，所述注意力损失函数值为所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权和的沿通道位置的平均值。

在上述用于街景监控的对象重识别神经网络的训练方法中，在所述训练过程中，所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权系数作为超参数。

在上述用于街景监控的对象重识别神经网络的训练方法中，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数，包括：计算所述注意力损失函数值和所述分类损失函数值的加权和；以及，通过最小化所述加权和来以梯度下降的反向传播更新所述卷积神经网络和所述分类函数的参数。

在上述用于街景监控的对象重识别神经网络的训练方法中，在所述训练过程中，所述注意力损失函数值和所述分类损失函数值的加权系数作为超参数。

在上述用于街景监控的对象重识别神经网络的训练方法中，所述训练好的对象重识别神经网络输出用于表示所述第一街景图像和所述第二街景图像内是否包括违反道路管理规定的违章作业对象的分类结果。

根据本申请的另一方面，提供了一种用于街景监控的对象重识别神经网络的训练系统，其包括：

街景图像获取单元，用于获取预定时间间隔的第一街景图像和第二街景图像；

特征图生成单元，用于将所述街景图像获取单元获得的所述第一街景图像和所述第二街景图像分别输入卷积神经网络以获得第一特征图和第二特征图；

通道特征向量生成单元，用于将所述特征图生成单元获得的所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量；

注意力损失函数计算单元，用于基于所述通道特征向量生成单元获得的所述第一通道特征向量和所述第二通道特征向量计算注意力损失函数值，所述注意力损失函数值为基于所述第一通道特征向量和所述第二通道特征向量沿通道位置加权的值；

融合单元，用于分别将所述特征图生成单元获得的所述第一特征图与所述通道特征向量生成单元获得的所述第一通道特征向量融合并将所述特征图生成单元获得的所述第二特征图与所述通道特征向量生成单元获得的所述第二通道特征向量融合以获得分类特征图；

分类损失函数计算单元，用于基于所述融合单元获得的所述分类特征图从分类函数获得分类损失函数值；以及

参数更新单元，用于基于所述注意力损失函数计算单元获得的所述注意力损失函数值和所述分类损失函数计算单元获得的所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述街景图像获取单元，进一步用于：通过用于街道巡查的移动摄像机获取街景视频；基于所述移动摄像机的路径信息获取相同地理位置的第一视频片段和第二视频片段；以及，分别从所述第一视频片段和所述第二视频片段中截取所述第一街景图像和所述第二街景图像。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述通道特征向量生成单元，包括：第一池化子单元，用于将所述第一特征图输入第一全局池化层以获得第一通道池化向量；第二池化子单元，用于将所述第二特征图输入第二全局池化层以获得第二通道池化向量；第一通道向量转化子单元，用于将所述第一通道池化向量输入第一全连接层并以Sigmoid激活函数进行激活以获得第一通道特征向量；以及，第二通道向量转化子单元，用于将所述第二通道池化向量输入第二全连接层并以Sigmoid激活函数进行激活以获得第二通道特征向量。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述融合单元，进一步用于：分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图；以及，将所述第一融合特征图和所述第二融合特征图按通道级联以获得分类特征图。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述融合单元，进一步用于：将所述第一特征图按通道乘以所述第一通道特征向量以获得第一融合特征图；以及，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二融合特征图。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述融合单元，包括：第一加权特征图生成子单元，用于将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图；第一融合子单元，用于将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图；第二加权特征图生成子单元，用于将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图；以及，第二融合子单元，用于将所述第二加权特征图与所述第二特征图相加以获得所述第二融合特征图。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述注意力损失函数值为所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权和的沿通道位置的平均值。

在上述用于街景监控的对象重识别神经网络的训练系统中，在所述训练过程中，所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权系数作为超参数。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述参数更新单元，进一步用于：计算所述注意力损失函数值和所述分类损失函数值的加权和；以及，通过最小化所述加权和来以梯度下降的反向传播更新所述卷积神经网络和所述分类函数的参数。

在上述用于街景监控的对象重识别神经网络的训练系统中，在所述训练过程中，所述注意力损失函数值和所述分类损失函数值的加权系数作为超参数。

在上述用于街景监控的对象重识别神经网络的训练系统中，所述训练好的对象重识别神经网络输出用于表示所述第一街景图像和所述第二街景图像内是否包括违反道路管理规定的违章作业对象的分类结果。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于街景监控的对象重识别神经网络的训练方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于街景监控的对象重识别神经网络的训练方法。

与现有技术相比，本申请提供的用于街景监控的对象重识别神经网络的训练方法、系统和电子设备，其用于训练获得用于检测街景图像是否包括违反道路管理规定的违章作业对象的具有通道注意力机制的对象重识别神经网络，其中，所述具有通道注意力机制的对象重识别神经网络将违反街道管理规定的对象监控问题转化为不同时间获取街景图像的对象重识别问题结合对象分类问题，以准确地检测所述街景图像内是否包括违反道路管理规定的违章作业对象。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法的应用场景图。

图2图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法的流程图。

图3图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法中将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量的流程图。

图4图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法中将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量的架构示意图。

图5图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法中分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图的流程图。

图6图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法中分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图的另一流程图。

图7图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练系统的框图。

图8图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练系统中通道特征向量生成单元的框图。

图9图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练系统中融合单元的框图。

图10图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

在城市管理领域中，需要对道路进行监控，以检测违反道路管理规定的违章作业对象，例如，占道修车、洗车等。目前，针对违反街道管理规定的对象的监控由城管部门执行，效率低下且监管困难。近年来，深度学习尤其是神经网络的发展违反街道管理规定的对象的监控提供了新的解决思路和方案。

在检测这些违反道路管理规定的占道作业情况时，一方面不仅涉及到车辆本身，还涉及到用于占道作业的工具；另一方面还需要考虑与其它车辆违规停放，即违章停车的情况进行区分。

考虑到上述情况，本申请发明人将这类对象的检测转换为不同时间获取的街景图像的对象重识别问题结合对象分类问题，也就是，通过确定不同时间获取的街景图像中的相同违规对象，来确定违规对象属于违反道路管理规定的长时间占道经营相关联的对象，以与偶发性的出现在街景图像内的其他对象相区分。

并且，在本申请中，需要检测的对象种类较多，需要在通过卷积神经网络提取特征的过程中，强化针对于各种不同类型的对象的特征提取。考虑到特征图的不同通道在指定对象方面扮演着不同的角色，因此，在本申请的卷积神经网络中引入了通道注意力机制，从而能够使得卷积神经网络对于待检测的每种类型的对象都提取出有用的特征，以在后续的通过分类函数进行分类的过程中获得有效的分类结果。

为了训练卷积神经网络和分类函数以实现以上目的，在本申请的训练方法中，从通道注意力机制的输出向量计算通道注意力损失函数，并结合分类损失函数来进行训练。

基于此，本申请提出了一种用于街景监控的对象重识别神经网络的训练方法，其包括：获取预定时间间隔的第一街景图像和第二街景图像；将所述第一街景图像和所述第二街景图像分别输入卷积神经网络以获得第一特征图和第二特征图；将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量；基于所述第一通道特征向量和所述第二通道特征向量计算注意力损失函数值，所述注意力损失函数值为基于所述第一通道特征向量和所述第二通道特征向量沿通道位置加权的值；分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图；基于所述分类特征图从分类函数获得分类损失函数值；以及，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。

如图1所示，在该应用场景中，通过图像采集设备(例如，如图1所示意的摄像头C)采集预设时间间隔的训练用街景图像，例如，预设时间间隔为半小时，即，每隔半个小时采集相同道路的训练用街景图像。然后，将在不同时间点采集的街景图像输入至部署有用于街景监控的对象重识别神经网络的训练算法的服务器中(例如，如图1所示意的S)，其中，所述服务器能够基于用于街景监控的对象重识别神经网络的训练算法对具有通道注意力机制的用于检测街景图像中是否包括违反道路管理规定的违章作业对象的卷积网络进行训练。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了根据本申请实施例的用于街景监控的对象重识别神经网络的训练方法的流程图。如图2所示，根据本申请实施例的基于具有通道注意力机制的对象重识别的道路监控方法，包括：S110，获取预定时间间隔的第一街景图像和第二街景图像；S120，将所述第一街景图像和所述第二街景图像分别输入卷积神经网络以获得第一特征图和第二特征图；S130，将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量；S140，基于所述第一通道特征向量和所述第二通道特征向量计算注意力损失函数值，所述注意力损失函数值为基于所述第一通道特征向量和所述第二通道特征向量沿通道位置加权的值；S150，分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图；S160，基于所述分类特征图从分类函数获得分类损失函数值；以及，S170，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。

在步骤S110中，获取预定时间间隔的第一街景图像和第二街景图像。如前所述，在检测这些违反道路管理规定的占道作业情况时，一方面不仅涉及到车辆本身，还涉及到用于占道作业的工具；另一方面还需要考虑与其它车辆违规停放，即违章停车的情况进行区分。考虑到上述情况，本申请发明人将这类对象的检测转换为不同时间获取的街景图像的对象重识别问题结合对象分类问题，也就是，通过确定不同时间获取的街景图像中的相同违规对象，来确定违规对象属于违反道路管理规定的长时间占道经营相关联的对象，以与偶发性的出现在街景图像内的其他对象相区分。因此，需要获取不同时间点的街景图像，来进行对象重识别检测。

在本申请一具体示例中，获取预定时间间隔的第一街景图像和第二街景图像的过程，包括：首先，通过用于街道巡查的移动摄像机获取街景视频；然后，基于所述移动摄像机的路径信息获取相同地理位置的第一视频片段和第二视频片段；接着，分别从所述第一视频片段和所述第二视频片段中截取所述第一街景图像和所述第二街景图像。

也就是，利用用于街道巡查的移动摄像机来获取预定时间间隔的第一街景图像和第二街景图像，具体地，当进行街道巡查时，会在不同时间路过街道的同一位置，因此，可以从街景视频中基于移动摄像机的路径信息来获取相同地理位置的第一视频片段和第二视频片段，这样所述第一视频片段和所述第二视频片段中将包含预定时间间隔的第一街景图像和第二街景图像。另外，由于这样获得的第一街景图像和第二街景图像通常具有不同的拍摄角度和背景图像，更便于用于对象重识别的卷积神经网络提取出有针对性的图像特征。

在步骤S120中，将所述第一街景图像和所述第二街景图像分别输入卷积神经网络以获得第一特征图和第二特征图。也就是，将所述第一街景图像和所述第二街景图像以卷积神经网络进行处理，以提取出所述第一街景图像和所述第二街景图像中的高维特征，其中，所述高维特征能够表征所述街景图像所包含的对象。

在步骤S130中，将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量。这里，在本申请中，由于需要检测的对象种类较多，需要在通过卷积神经网络提取特征的过程中，强化针对于各种不同类型的对象的特征提取。考虑到特征图的不同通道在指定对象方面扮演着不同的角色，因此，在本申请的卷积神经网络中引入了通道注意力机制，从而能够使得卷积神经网络对于待检测的每种类型的对象都提取出有用的特征，以在后续的通过分类函数进行分类的过程中获得有效的分类结果。

在本申请一具体示例中，将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量的过程，包括如下步骤。

首先，将所述第一特征图输入第一全局池化层以获得第一通道池化向量，以及，将所述第二特征图输入第二全局池化层以获得第二通道池化向量；

然后，将所述第一通道池化向量输入第一全连接层并以Sigmoid激活函数进行激活以获得第一通道特征向量，以及，将所述第二通道池化向量输入第二全连接层并以Sigmoid激活函数进行激活以获得第二通道特征向量。

特别地，特征图的不同通道在指定对象方面扮演着不同的角色，通过基于通道注意力机制从特征图获得通道特征向量，可以对特征图中的不同通道赋予不同的权重，从而使得特征图“注意”对象的类别不同，并获得与对象的类别相关联的特征图。

如图3所示，将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量，包括步骤：S210，将所述第一特征图输入第一全局池化层以获得第一通道池化向量；S220，将所述第二特征图输入第二全局池化层以获得第二通道池化向量；S230，将所述第一通道池化向量输入第一全连接层并以Sigmoid激活函数进行激活以获得第一通道特征向量；以及，S240，将所述第二通道池化向量输入第二全连接层并以Sigmoid激活函数进行激活以获得第二通道特征向量。

如图4所示，所述通道注意力网络的架构，包括：第一全局池化层(例如，如图4中所示意的lp₁)、第二全局池化层(例如，如图4中所示意的lp₂)、第一全连接层(例如，如图4中所示意的Fcl₁)、第二全连接层(例如，如图4中所示意的Fcl₁)，其中，所述第一全局池化层用于对所述第一特征图(例如，如图4中所示意的F1)进行全局池化处理以获得第一通道池化向量(例如，如图4中所示意的Vp₁)，所述第二全局池化层用于对所述第二特征图(例如，如图4中所示意的F2)进行全局池化处理以获得第二通道池化向量(例如，如图4中所示意的Vp₂)，所述第一全连接层用于以Sigmoid激活函数将所述第一通道池化向量转化为所述第一通道特征向量(例如，如图4中所示意的Vc₁)，所述第二全连接层用于以Sigmoid激活函数将所述第二通道池化向量转化为所述第二通道特征向量(例如，如图4中所示意的Vc₂)。

在步骤S140中，基于所述第一通道特征向量和所述第二通道特征向量计算注意力损失函数值，所述注意力损失函数值为基于所述第一通道特征向量和所述第二通道特征向量沿通道位置加权的值。

在本申请实施例中，所述注意力损失函数值为所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权和的沿通道位置的平均值，在所述训练过程中，所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权系数作为超参数。

在步骤S150中，分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图。

具体地，该过程包括：首先，将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图；然后，将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图；接着，将所述第一融合特征图和所述第二融合特征图按通道级联以获得分类特征图。

应可以理解，所述第一通道特征向量和所述第二通道特征向量能够对特征图中的不同通道赋予不同的权重，从而使得特征图“注意”对象的类别不同。相应地，通过融合所述第一通道特征向量与所述第一特征图能够获得与所述第一街景图像中的对象的类别相关联的特征图，即，所述第一融合特征图；通过融合所述第二通道特征向量与所述第二特征图能够获得与所述第二街景图像中的对象的类别相关联的特征图，即，所述第二融合特征图。

进一步地，通过将所述第一融合特征图和所述第二融合特征图进行按通道级联，可以在通过深度神经网络获得的特征向量的过程中，在一定程度上以深度神经网络的相同神经节点分别对所述第一融合特征图和所述第二融合特征图进行计算，从而保证了所述第一融合特征图中各对象之间的关联项，以及，所述第二融合特征图中各对象之间的关联性奇，也能够考虑到所述第一融合特征图中的对象与所述第二融合特征图中对象之间的关联性，提高了对象重识别的准确性。

更具体地，在本申请一具体示例中，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图和将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图的过程，包括：首先将所述第一特征图按通道乘以所述第一通道特征向量以获得第一融合特征图；然后，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二融合特征图。

也就是，在该示例中，直接按通道进行加权来融合所述第一特征图与所述第一通道向量，以及，所述第二特征图与所述第二通道向量，这样的融合方式，计算简单。

如图5所示，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图，包括步骤：S310，将所述第一特征图按通道乘以所述第一通道特征向量以获得第一融合特征图；以及，S320，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二融合特征图。

在本申请另一示例中，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图和将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图的过程，包括：首先，将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图；然后，将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图；接着，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图；继而，将所述第二加权特征图与所述第二特征图相加以获得所述第二融合特征图。

也就是，在该示例中，先将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图，然后，将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图，这样，所述第一融合特征图可以更大程度上保留原图特征，即，所述第一特征图中的特征。接着，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图，然后，将所述第二加权特征图与所述第二特征图相加以获得所述第二合特征图，这样，所述第二融合特征图可以更大程度上保留原图特征，即，所述第二特征图中的特征。

如图6所示，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图，包括：S410，将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图；S420，将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图；S430，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图；以及，S440，将所述第二加权特征图与所述第二特征图相加以获得所述第二融合特征图。

在步骤S160中，基于所述分类特征图从分类函数获得分类损失函数值。更具体地，首先所述分类特征图被转化为分类特征向量，然后，基于分类函数(例如，Softmax分类函数)求得所述分类特征向量对应的分类结果；进而，基于分类结果与真实结果以获得分类损失函数值。

在步骤S170中，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。

具体地，在本申请实施例中，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数的过程，包括：首先，计算所述注意力损失函数值和所述分类损失函数值的加权和；然后，通过最小化所述加权和来以梯度下降的反向传播更新所述卷积神经网络和所述分类函数的参数。特别地，在所述训练过程中，所述注意力损失函数值和所述分类损失函数值的加权系数作为超参数。

综上，基于本申请实施例的用于街景监控的对象重识别神经网络的训练方法被阐明，其用于训练获得用于检测街景图像是否包括违反道路管理规定的违章作业对象的具有通道注意力机制的对象重识别神经网络，其中，所述训练好的对象重识别神经网络输出用于表示所述第一街景图像和所述第二街景图像内是否包括违反道路管理规定的违章作业对象的分类结果。

示例性系统

如图7所示，根据本申请实施例的对象重识别神经网络的训练系统700，包括：街景图像获取单元710，用于获取预定时间间隔的第一街景图像和第二街景图像；特征图生成单元720，用于将所述街景图像获取单元710获得的所述第一街景图像和所述第二街景图像分别输入卷积神经网络以获得第一特征图和第二特征图；通道特征向量生成单元730，用于将所述特征图生成单元720获得的所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量；注意力损失函数计算单元740，用于基于所述通道特征向量生成单元730获得的所述第一通道特征向量和所述第二通道特征向量计算注意力损失函数值，所述注意力损失函数值为基于所述第一通道特征向量和所述第二通道特征向量沿通道位置加权的值；融合单元750，用于分别将所述特征图生成单元720获得的所述第一特征图与所述通道特征向量生成单元730获得的所述第一通道特征向量融合并将所述特征图生成单元720获得的所述第二特征图与所述通道特征向量生成单元730获得的所述第二通道特征向量融合以获得分类特征图；分类损失函数计算单元760，用于基于所述融合单元750获得的所述分类特征图从分类函数获得分类损失函数值；以及，参数更新单元770，用于基于所述注意力损失函数计算单元740获得的所述注意力损失函数值和所述分类损失函数计算单元760获得的所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数。

在一个示例中，在上述对象重识别神经网络的训练系统700中，所述街景图像获取单元710，进一步用于：通过用于街道巡查的移动摄像机获取街景视频；基于所述移动摄像机的路径信息获取相同地理位置的第一视频片段和第二视频片段；以及，分别从所述第一视频片段和所述第二视频片段中截取所述第一街景图像和所述第二街景图像。

在一个示例中，在上述对象重识别神经网络的训练系统700中，如图8所示，所述通道特征向量生成单元730，包括：第一池化子单元731，用于将所述第一特征图输入第一全局池化层以获得第一通道池化向量；第二池化子单元732，用于将所述第二特征图输入第二全局池化层以获得第二通道池化向量；第一通道向量转化子单元733，用于将所述第一通道池化向量输入第一全连接层并以Sigmoid激活函数进行激活以获得第一通道特征向量；以及，第二通道向量转化子单元734，用于将所述第二通道池化向量输入第二全连接层并以Sigmoid激活函数进行激活以获得第二通道特征向量。

在一个示例中，在上述对象重识别神经网络的训练系统700中，所述融合单元750，进一步用于：分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图；以及，将所述第一融合特征图和所述第二融合特征图按通道级联以获得分类特征图。

在一个示例中，在上述对象重识别神经网络的训练系统700中，所述融合单元750，进一步用于：将所述第一特征图按通道乘以所述第一通道特征向量以获得第一融合特征图；以及，将所述第二特征图按通道乘以所述第二通道特征向量以获得第二融合特征图。

在一个示例中，在上述对象重识别神经网络的训练系统700中，如图9所示，所述融合单元750，包括：第一加权特征图生成子单元751，用于将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图；第一融合子单元752，用于将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图；第二加权特征图生成子单元753，用于将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图；以及，第二融合子单元754，用于将所述第二加权特征图与所述第二特征图相加以获得所述第二融合特征图。

在一个示例中，在上述对象重识别神经网络的训练系统700中，所述注意力损失函数值为所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权和的沿通道位置的平均值。

在一个示例中，在上述对象重识别神经网络的训练系统700中，在所述训练过程中，所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权系数作为超参数。

在一个示例中，在上述对象重识别神经网络的训练系统700中，所述参数更新单元770，进一步用于：计算所述注意力损失函数值和所述分类损失函数值的加权和；以及，通过最小化所述加权和来以梯度下降的反向传播更新所述卷积神经网络和所述分类函数的参数。

在一个示例中，在上述对象重识别神经网络的训练系统700中，在所述训练过程中，所述注意力损失函数值和所述分类损失函数值的加权系数作为超参数。

在一个示例中，在上述对象重识别神经网络的训练系统700中，所述训练好的对象重识别神经网络输出用于表示所述第一街景图像和所述第二街景图像内是否包括违反道路管理规定的违章作业对象的分类结果。

这里，本领域技术人员可以理解，上述对象重识别神经网络的训练系统700中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的用于街景监控的对象重识别神经网络的训练方法描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的对象重识别神经网络的训练系统700可以实现在各种终端设备中，例如用于监控道路的服务器等。在一个示例中，根据本申请实施例的对象重识别神经网络的训练系统700可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该对象重识别神经网络的训练系统700可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该对象重识别神经网络的训练系统700同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该对象重识别神经网络的训练系统700与该终端设备也可以是分立的设备，并且该对象重识别神经网络的训练系统700可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图10来描述根据本申请实施例的电子设备。

图10图示了根据本申请实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的用于街景监控的对象重识别神经网络的训练方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如街景图像等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括更新的参数等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于街景监控的对象重识别神经网络的训练方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于街景监控的对象重识别神经网络的训练方法中的功能中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于街景监控的对象重识别神经网络的训练方法，其特征在于，包括：

获取预定时间间隔的第一街景图像和第二街景图像；

基于所述分类特征图从分类函数获得分类损失函数值；以及

2.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，将所述第一特征图和所述第二特征图分别输入通道注意力网络以获得第一通道特征向量和第二通道特征向量，包括：

将所述第一特征图输入第一全局池化层以获得第一通道池化向量；

将所述第二特征图输入第二全局池化层以获得第二通道池化向量；

将所述第一通道池化向量输入第一全连接层并以Sigmoid激活函数进行激活以获得第一通道特征向量；以及

将所述第二通道池化向量输入第二全连接层并以Sigmoid激活函数进行激活以获得第二通道特征向量。

3.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，分别将所述第一特征图与所述第一通道特征向量融合并将所述第二特征图与所述第二通道特征向量融合以获得分类特征图，包括：

分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图；以及

将所述第一融合特征图和所述第二融合特征图按通道级联以获得分类特征图。

4.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图，包括：

将所述第一特征图按通道乘以所述第一通道特征向量以获得第一融合特征图；以及

将所述第二特征图按通道乘以所述第二通道特征向量以获得第二融合特征图。

5.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，分别将所述第一特征图与所述第一通道特征向量融合以获得第一融合特征图并将所述第二特征图与所述第二通道特征向量融合以获得第二融合特征图，包括：

将所述第一特征图按通道乘以所述第一通道特征向量以获得第一加权特征图；

将所述第一加权特征图与所述第一特征图相加以获得所述第一融合特征图；

将所述第二特征图按通道乘以所述第二通道特征向量以获得第二加权特征图；以及

将所述第二加权特征图与所述第二特征图相加以获得所述第二融合特征图。

6.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，所述注意力损失函数值为所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权和的沿通道位置的平均值，在所述训练过程中，所述第一通道特征向量的对数和所述第二通道特征向量的对数的加权系数作为超参数。

7.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，基于所述注意力损失函数值和所述分类损失函数值更新所述卷积神经网络和所述分类函数的参数，包括：

计算所述注意力损失函数值和所述分类损失函数值的加权和；以及

通过最小化所述加权和来以梯度下降的反向传播更新所述卷积神经网络和所述分类函数的参数；

其中，在所述训练过程中，所述注意力损失函数值和所述分类损失函数值的加权系数作为超参数。

8.根据权利要求1所述的用于街景监控的对象重识别神经网络的训练方法，其中，所述训练好的对象重识别神经网络输出用于表示所述第一街景图像和所述第二街景图像内是否包括违反道路管理规定的违章作业对象的分类结果。

9.一种用于街景监控的对象重识别神经网络的训练系统，其特征在于，包括：

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的用于街景监控的对象重识别神经网络的训练方法。