CN112016531A

CN112016531A - 模型训练方法、对象识别方法、装置、设备及存储介质

Info

Publication number: CN112016531A
Application number: CN202011136289.1A
Authority: CN
Inventors: 朱翔宇; 罗振波; 付培; 吉翔
Original assignee: Chengdu Ruiyan Technology Co ltd
Current assignee: Chengdu Ruiyan Technology Co ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2020-12-01

Abstract

本申请提供一种模型训练方法、对象识别方法、装置、设备及存储介质，涉及人工智能技术领域。该模型训练方法包括：获取多张训练图像，每张训练图像对应的标签数据包括对象标识和场景标识；将所述多张训练图像输入神经网络模型中，获得神经网络模型输出的识别结果；根据所述识别结果与所述标签数据计算损失函数的损失值；根据所述损失值更新所述神经网络模型的网络参数。通过将训练图像中的场景标识用于作为模型训练的反向监督信号，使得在模型训练过程中抑制模型学习与场景相关的特征信息，这样模型在测试时，可以削弱场景相关的特征信息对对象识别的影响，增强对对象相关的特征信息的识别，从而可有效提高对对象的识别精度。

Description

模型训练方法、对象识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种模型训练方法、对象识别方法、装置、设备及存储介质。

背景技术

随着视频监控越来越广泛地应用于现代社会，对视频进行智能处理和分析成为十分重要的课题。如行人重识别是视频监控分析技术中非常重要的一部分，行人重识别是指在不同摄像头场景下识别出行人身份的技术，在智能识别监控、维护社会治安等方面发挥着重要的作用。

现有的行人重识别方法，通常是使用深度学习卷积神经网络，提取图像特征，然后计算图像特征之间的相似度，对于相似度大于阈值的图像，则图像中的行人为同一个人。这种直接利用图像特征的相似度进行行人重识别的效果并不理想，使得行人的识别准确度较低。

发明内容

本申请实施例的目的在于提供一种模型训练方法、对象识别方法、装置、设备及存储介质，用以改善现有技术中行人识别准确度低的问题。

第一方面，本申请实施例提供了一种模型训练方法，所述方法包括：

获取多张训练图像，每张训练图像对应的标签数据包括对象标识和场景标识，所述对象标识用于作为模型训练的正向监督信号，所述场景标识用于作为模型训练的反向监督信号，所述正向监督信号用于促进模型在训练过程中学习与对象相关的特征信息，所述反向监督信号用于抑制模型在训练过程中学习与场景相关的特征信息；

将所述多张训练图像输入神经网络模型中，获得神经网络模型输出的识别结果；

根据所述识别结果与所述标签数据计算损失函数的损失值；

根据所述损失值更新所述神经网络模型的网络参数。

在上述实现过程中，将训练图像中标注对象标识和场景标识，对象标识用于作为模型训练的正向监督信号，场景标识用于作为模型训练的反向监督信号，使得在模型训练过程中抑制模型学习与场景相关的特征信息，这样模型在测试时，可以削弱场景相关的特征信息对对象识别的影响，增强对对象相关的特征信息的识别，从而可有效提高对对象的识别精度。

可选地，所述识别结果包括针对对象识别的第一识别结果和针对场景识别的第二识别结果，所述根据所述识别结果与所述标签数据计算损失函数的损失值，包括：

根据所述第一识别结果与所述对象标识计算获得第一损失函数的第一损失值；

根据所述第二识别结果与所述场景标识计算获得第二损失函数的第二损失值；

所述根据所述损失值更新所述神经网络模型的网络参数，包括：

根据所述第一损失值与所述第二损失值获取最终损失值；

根据所述最终损失值更新所述神经网络模型的网络参数。

在上述实现过程中，通过分别计算两个损失值，根据两个损失值来获得最终损失值，使得利用最终损失值更新网络参数可以促进神经网络模型学习与对象相关的特征信息，以提高模型的训练精度。

可选地，所述最终损失值与所述第一损失值的变化趋势相同，所述最终损失值与所述第二损失值的变化趋势相反。这样按照神经网络模型训练优化的原则，最终损失值朝着减小的方向进行变化，从而第二损失值朝着增大的方向进行变化，使得神经网络模型可以削弱对与场景相关的特征信息的学习，而增强对与对象相关的特征信息的学习。

可选地，所述最终损失值为所述第一损失值减去所述第二损失值获得的损失值。这样通过第一损失值减去第二损失值可以排除场景的相关特征信息对对象识别的影响，使得模型强化对对象的相关特征信息的学习。

可选地，所述场景标识为摄像头标识。不同的摄像头采集的图像，受拍摄角度、图像风格、图像背景等因素的影响，这些图像有明显的区别，可认为这些图像存在域误差，虽然域误差不仅仅取决于摄像头，但是摄像头是产生域误差的关键因素，所以将摄像头标识作为场景标识可简化对图像的域特征区分，有效减少对训练图像标注场景标识的工作量。

第二方面，本申请实施例提供了一种对象识别方法，所述方法包括：

获取至少两张图像；

通过神经网络模型提取每张图像中的对象特征，其中，所述神经网络模型为通过第一方面提供的模型训练方法得到；

根据所述至少两张图像中的对象特征，确定所述至少两张图像中的对象是否为同一对象。

在上述实现过程中，利用上述训练获得的神经网络模型提取图像中的对象特征，由于上述获得的神经网络模型可以增强对对象特征的识别，削弱对场景特征的识别，所以可以有效从图像中提取出对象特征，进而对对象的识别能够有较高的准确度。

第三方面，本申请实施例提供一种模型训练装置，所述装置包括：

训练图像获取模块，用于获取多张训练图像，每张训练图像对应的标签数据包括对象标识和场景标识，所述对象标识用于作为模型训练的正向监督信号，所述场景标识用于作为模型训练的反向监督信号，所述正向监督信号用于促进模型在训练过程中学习与对象相关的特征信息，所述反向监督信号用于抑制模型在训练过程中学习与场景相关的特征信息；

检测模块，用于将所述多张训练图像输入神经网络模型中，获得神经网络模型输出的识别结果；

损失值计算模块，用于根据所述识别结果与所述标签数据计算损失函数的损失值；

参数更新模块，用于根据所述损失值更新所述神经网络模型的网络参数。

可选地，所述识别结果包括针对对象识别的第一识别结果和针对场景识别的第二识别结果，所述损失值计算模块，用于根据所述第一识别结果与所述对象标识计算获得第一损失函数的第一损失值；根据所述第二识别结果与所述场景标识计算获得第二损失函数的第二损失值；

所述参数更新模块，用于根据所述第一损失值与所述第二损失值获取最终损失值；根据所述最终损失值更新所述神经网络模型的网络参数。

可选地，所述最终损失值与所述第一损失值的变化趋势相同，所述最终损失值与所述第二损失值的变化趋势相反。

可选地，所述最终损失值为所述第一损失值减去所述第二损失值获得的损失值。

可选地，所述场景标识为摄像头标识。

第四方面，本申请实施例提供一种对象识别装置，所述装置包括：

图像获取模块，用于获取至少两张图像；

特征提取模块，用于通过神经网络模型提取每张图像中的对象特征，其中，所述神经网络模型为通过第一方面提供的模型训练方法得到；

对象识别模块，用于根据所述至少两张图像中的对象特征，确定所述至少两张图像中的对象是否为同一对象。

第五方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面或第二方面提供的所述方法中的步骤。

第六方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面或第二方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于执行模型训练方法或者对象识别方法的电子设备的结构示意图；

图2为本申请实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种对象识别方法的流程图；

图4为本申请实施例提供的一种模型训练装置的结构框图；

图5为本申请实施例提供的一种对象识别装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前很多应用场景下涉及到对象的识别，包括跨摄像头的识别，其是从多个摄像头采集的图像中检测图像中的对象是否为同一对象，从而可实现对同一对象的追踪，如对象包括行人、车辆、动物等，为便于描述，本申请实施例中以对行人重识别为例进行描述。

发明人在研究中发现，现有的行人重识别方法受域的因素影响较大。域可以理解为图像中与对象没有直接关系的特征的集合，例如，行人重识别中的域特征可以包括图像风格、图像背景、拍摄角度等与行人没有直接关系的特征，也即除了与行人自身相关的特征（如人脸、肤色、头发长度、衣着等行人自身具有的相关属性特征）之外的其他特征。

由于域的存在，极大损害了神经网络模型在不同场景下的泛化性，例如：利用在A地采集的图像对神经网络模型进行训练，在该神经网络模型在A地测试时可以有较好的效果，但是将该神经网络模型在B地进行测试时，效果较差。这说明A地的图像与B地的图像存在某种差异，这种差异使得神经网络模型在训练过程中过于拟合，泛化能力较差。发明人发现，这种差异和两地图像中的行人关系不大，主要是两地图像中的域不同导致的。因为，不同摄像头在不同场景下采集的图像，在图像风格、图像背景、拍摄角度等方面通常具有较大的差异，这些图像可认为域不同。即使是同一摄像头，在不同环境（如天气不同、光照不同）下采集的图像中的域也可能存在差异。所以，上述A、B两地由于采用了不同摄像头进行图像采集，所以造成了A、B两地采集的图像中域的差异很大的情况，而在模型训练过程中，并未考虑到这种差异对模型的预测精度的影响，所以导致采用A地采集的图像进行模型训练使得模型的泛化能力较差的问题。

以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在本发明过程中对本发明做出的贡献。

因此，本申请实施例提供一种模型训练方法，将训练图像中标注对象标识和场景标识，对象标识用于作为模型训练的正向监督信号，场景标识用于作为模型训练的反向监督信号，使得在模型训练过程中抑制模型学习与场景相关的特征信息，这样模型在测试时，可以削弱场景相关的特征信息对对象识别的影响，增强对对象相关的特征信息的识别，从而可有效提高对对象的识别精度。

请参照图1，图1为本申请实施例提供的一种用于执行模型训练方法或者对象识别方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非易失性的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2或图3所示方法过程。

可以理解，图1所示的结构仅为示意，所述电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本申请实施例提供的一种模型训练方法的流程图，该方法包括如下步骤：

步骤S110：获取多张训练图像，每张训练图像对应的标签数据包括对象标识和场景标识。

其中，多张训练图像可以是指在不同场景下所采集的图像，如上述对域的解释可知，不同场景可以理解为地域不同，或者同一地点所拍摄的环境不同，这些都会使得拍摄获得的图像的场景不同，即图像的图像风格、图像背景等特征存在一定的差异，而神经网络模型在训练过程中并未排除对这些差异特征的学习，使得神经网络模型在进行行人重识别时，可能依然会将这些具有差异的特征纳入识别的过程中，进而造成对行人识别的干扰，影响对行人识别的精度。为了消除这些差异在模型训练过程中导致模型过于拟合，泛化能力较差，且给神经网络模型的预测精度带来的影响的问题，本申请实施例中，可以针对场景不同的训练图像标注对应的场景标识，并且对训练图像中的对象标注相应的对象标识。

标识可以理解为ID，ID是指用于区分对象相同或不相同的信息。可以理解地，同一对象的对象标识相同，如同一行人对应的行人标识相同，同一车辆对应的车辆标识相同，场景相同的图像对应的场景标识相同，如同一摄像头在相同地方相同环境下拍摄获得的图像对应的场景标识相同。

为了便于模型的识别，对象标识和场景标识可以用数字、字母和/或符号等信息来表征，如在行人重识别领域，对于行人1，其行人标识可以设置为1，对于行人2，其行人标识可以设置为2；对于域特征1，其对应的场景标识可以设置为11，对于域特征2，其对应的场景标识可以设置为22等。可以理解地是，在实际应用中，可以灵活设置相应的标识，在此不一一列举。

本申请实施例中，图像中与场景相关的特征信息可以理解为上述所说的域特征，如上述中对域的介绍可知，域特征可以包括图像风格特征、图像背景特征、拍摄角度、环境特征等，域特征不同，则认为场景不同，进而图像对应的场景标识也不相同。

在一些实施方式中，场景标识可以为摄像头标识。发明人在研究中发现，虽然是同一摄像头在不同环境下采集的图像的域特征也不一样，但是造成域误差最主要的原因在于图像风格不同，而图像风格一般取决于摄像头本身的参数设置，所以采集图像的摄像头是决定两张图像是否属于同一域的主要因素，而上述A、B两地正是由于采用了不同摄像头而导致域差异。

在场景标识为摄像头标识的实施例中，可以简化对图像的域特征区分，有效减少对训练图像标注场景标识的工作量。

在其他实施方式中，场景标识还可以为位置标识（认为在不同坐标范围内拍摄获得的图像的场景标识不同）或时间标识（如光照与时间有关，可认为在不同时间拍摄获得的图像的场景标识也不同）等，也就是说，场景标识可以由导致图像背景、图像风格等域特征产生差异的其他信息来进行标识，在此不一一举例说明，在实际应用中，可以根据需求选择相应的信息标识来表征场景标识。

而为了使得模型在训练过程中能够更多的学习到关于对象的相关特征，而忽略对与场景相关特征的学习，则可以将对象标识作为模型训练的正向监督信号，正向监督信号用于促进模型在训练过程中学习与对象相关的特征信息，将场景标识用于作为模型训练的反向监督信号，反向监督信号用于抑制模型在训练过程中学习与场景相关的特征信息。

也就是说，在进行模型训练时，可以将对象标识标记为正向监督信号，将场景标识标注为反向监督信号，这样模型可基于正向监督信号加强对与对象相关的特征信息的学习，基于反向监督信号削弱对与场景相关的特征信息的学习，这样引入场景标识，使得神经网络模型能够针对不同场景和域特征的变化具有鲁棒性，从而使得模型在进行测试时，可以增强对对象相关的特征信息的识别，削弱对场景相关特征的识别，这样可有效提高对对象的识别效果。

步骤S120：将所述多张训练图像输入神经网络模型中，获得神经网络模型输出的识别结果。

其中，神经网络模型可以为残差网络（ResNet）、结构搜索网络（Regnet）、密集卷积网络（DenseNet）、卷积神经网络模型等，在具体实现过程中，可以根据实际需求灵活选择其中一种类型的神经网络模型即可。

在训练过程中，神经网络模型可以针对每张训练图像输出对应的识别结果，其识别结果可以包括对对象的识别结果和对场景的识别结果，即识别结果包括对对象检测获得的对象标识，对场景进行检测获得的场景标识。

步骤S130：根据所述识别结果与所述标签数据计算损失函数的损失值。

在获得神经网络模型输出的识别结果后，将识别结果与标签数据进行误差计算，也就是计算损失函数。为了便于计算，识别结果与标签数据可以以向量来表征。

其中，损失函数可以为交叉熵损失函数、平方损失函数、对数损失函数等，在实际情况中，可以根据需求灵活选择。

可以理解地，由于神经网络模型输出的识别结果包括对对象的识别结果和对场景的识别结果，所以，针对两个识别结果可以分别计算对应的损失函数。这种情况下，两个损失函数可以为相同的损失函数，如均为交叉熵损失函数，或者也可以为不同的损失函数，如一个损失函数为交叉熵损失函数，一个损失函数为对数损失函数等。

在训练时，可以在神经网络模型的末端接入一个一维的批量归一化层、全连接层、softmax分类器等结构。为了增加精度，通常对神经网络的最后一层进行改造，将最后一层的步移由2更改为1，使输出的图像的宽度增加2倍。而在实际应用时，上面的归一化层、全连接层和softmax分类器等结构不必保留，而可以直接通过神经网络模型提取对象特征即可。

步骤S140：根据所述损失值更新所述神经网络模型的网络参数。

在获得损失值后，可判断损失值是否超出预设范围，若超出，则将损失值传回神经网络模型中，对神经网络模型的网络参数进行更新。循环该过程，继续对神经网络模型进行训练。在损失函数达到收敛，如损失值小于预设值，或者当迭代次数达到预设次数时，表示满足模型训练终止条件，则模型训练完成，获得训练好的神经网络模型。

在一些实施方式中，若识别结果包括针对对象识别的第一识别结果和针对场景识别的第二识别结果，在计算损失值时，可以根据第一识别结果与对象标识计算获得第一损失函数的第一损失值，根据第二识别结果与场景标识计算获得第二损失函数的第二损失值。

然后可根据第一损失值与第二损失值获取最终损失值，根据最终损失值更新神经网络模型的网络参数，这样可以促进神经网络模型学习与对象相关的特征信息，以提高模型的训练精度。

在具体实现过程中，第一损失函数和第二损失函数可以为同一损失函数，或者，第一损失函数与第二损失函数可以为不同的损失函数，如此可实现损失函数的灵活选择。

为了体现反向监督信号用于抑制神经网络模型学习与场景相关的特征信息，正向监督信号用于促进神经网络模型学习与对象相关的特征信息。在一些实施方式中，上述的最终损失值与第一损失值的变化趋势相同，最终损失值与第二损失值的变化趋势相反。

也就是说，在以最终损失值进行反向传播，训练神经网络模型时，根据神经网络训练优化的原则，训练过程会朝着最终损失值减小的方向进行变化，这就使得训练过程中第一损失值会朝着减小的方向进行变化，而第二损失值会朝着增大的方向进行变化（如在模型学习到与场景相关的特征信息而导致偏差时，则予以惩罚，使得下次计算出的第二损失值增大），从而就促使了神经网络模型学习与场景特征无关的特征，如此在测试时，可以消除场景特征对对象识别的干扰，提高对对象识别的准确度。

在该种实施方式中，最终损失值的计算公式可以为：第二损失值/第一损失值，或者是指该算式的一些变形等，在此不一一举例。

这样按照神经网络模型训练优化的原则，最终损失值朝着减小的方向进行变化，从而第二损失值朝着增大的方向进行变化，使得神经网络模型可以削弱对与场景相关的特征信息的学习，而增强对与对象相关的特征信息的学习。

在一些其他实施方式中，最终损失值还可以为第一损失值与第二损失值之间的差值，如最终损失值等于第一损失值减去第二损失值，按照神经网络模型训练优化的原则，朝着最终损失值变小的方向进行变化，则第一损失值朝着减小的方向进行变化，而第二损失值朝着增大的方向进行变化。这样通过第一损失值减去第二损失值可以排除场景的相关特征信息对对象识别的影响，从而可促使神经网络模型增强对对象相关的特征的学习，而削弱神经网络模型对场景特征的学习。

在这种实施方式中，最终损失值的计算公式可以为：第一损失值-第二损失值。

或者，最终损失值的计算公式还可以如下所示：

；

其中，L为所述最终损失值，L _p为所述第一损失值，k为预设常数，L _c为所述第二损失值。

其中，k可以是发明人在研究过程中试验出的一个最佳的常数，如为0.1，这样可以最大化地抑制神经网络模型对场景特征的学习，强化对对象特征的学习，同时可有效提高训练的速度，使得损失函数可以尽快得到收敛。

需要说明的是，上述计算最终损失值的方式不仅仅是上述举例的几种方式，在实际情况中，根据第一损失值和第二损失值获得最终损失值的过程可以理解为是在第一损失值中排除或部分排除由于场景特征干扰（即第二损失值）的操作。

本申请实施例中，在神经网络模型训练的标签数据中添加场景标识，作为反向监督信号，从而使得神经网络模型可以削弱对场景特征的学习，而增强对对象特征的学习，进而有效提高神经网络模型对对象的识别精度。

在获得上述训练好的神经网络模型后，可利用神经网络模型对对象进行识别，如在行人重识别场景下，可利用上述的神经网络模型对行人进行识别。

请参照图3，图3为本申请实施例提供的一种对象识别方法的流程图，该方法包括如下步骤：

步骤S210：获取至少两张图像。

以行人重识别为例，为了实现对同一个行人的追踪，需要比对待识别图像中的对象与参考图像中的对象是否为同一个人，此时可以提取这些图像中的对象特征，然后通过比较对象特征来判断是否为同一个人。

其中，至少两张图像可以是指多个摄像头采集得到的图像，对象识别的目的是为了给出至少两张图像中的对象是否为同一对象的结论，或者给出能够得到该结论的某种依据。

在具体实现过程中，为了提高对对象识别的效率，还可以先筛选出一张关于目标对象的参考图像，如若需要对行人1进行重识别，则先获取包含有行人1的参考图像，然后将其他图像与该参考图像进行比对，以识别其他图像中的行人是否与参考图像中的行人为同一个人。所以，上述的至少两张图像中的其中一张图像可以是参考图像，另一张图像则可作为待识别图像。

在一些实施方式中，参考图像可以是指人工或电子设备筛选出来的包含目标对象的图像，如目标图像中包含行人1，在行人重识别时，是识别其他图像与参考图像中的行人1是否为同一行人。所以，上述的两张图像中的参考图像可以是指标记有包含有目标对象（如行人1）的图像，则在进行识别时，将另外一张图像与该参考图像进行特征比对。

其中，上述获取参考图像的方式可以是从之前保存的图像中获取的，即直接读取之前保存的一张图像作为参考图像，而另外一张图像可以是直接从摄像头采集的图像中获得的，如摄像头可将实时采集的图像发送给电子设备，电子设备可将这些图像与参考图像进行比对，或者电子设备可将这些图像进行存储，在进行对象追踪时，可以读取存储中的图像作为待识别图像。

步骤S220：通过神经网络模型提取每张图像中的对象特征。

神经网络模型为通过上述的训练方法获得的，所以，该神经网络模型可以有效提取出图像中关于对象的对象特征，削弱对场景特征的提取，也即不将与场景相关的特征包含在提取的对象特征中。具体的特征提取方式在此不过多赘述。

为了便于进行特征比对，提取的对象特征可采用向量表示。

需要说明的是，对于参考图像中的对象特征可以是预先通过神经网络模型提取后保存的，而在将待识别图像与参考图像进行比对时，则可以通过神经网络模型提取待识别图像中的对象特征，然后直接读取保存的参考图像的对象特征即可。

步骤S230：根据所述至少两张图像中的对象特征，确定所述至少两张图像中的对象是否为同一对象。

在一些实施方式中，可比较两张图像中的对象特征之间的相似度来确定两张图像中的对象是否为同一对象。相似度可以采用两个对象特征对应的特征向量之间的距离来表征，距离可以采用余弦距离、欧式距离、曼哈顿距离等。

具体的距离计算方式在此不详细说明，在获得两个对象特征之间的相似度后，可以判断相似度是否大于预设值，若是，则可认为两个对象为同一对象，然后可输出相应的识别结果。

需要说明的是，在进行对象识别时，是将待识别图像与参考图像中的对象特征进行相似度计算，这样上述的两张图像中的一张图像即为参考图像，另一张图像即为待识别图像，若需要对多张图像进行行人重识别时，则这多张图像中有一张图像为参考图像，其他图像均作为待识别图像。

例如，若至少两张图像包括图像1、图像2、图像3，其中，图像3为参考图像，其他图像为待识别图像，则可通过神经网络模型分别提取图像1、图像2和图像3中的对象特征。这里需要知道的是，图像3若为固定的参考图像，则图像3中的对象特征可以是预先提取出来并保存的，在进行对象识别时，可以直接读取保存的图像3的对象特征即可。然后在进行对象特征比对时，分别将图像1的对象特征与图像3的对象特征进行相似度计算，将图像2的对象特征与图像3的对象特征进行相似度计算，然后获得两个相似度，基于这两个相似度，可分别确定图像1和图像2中的对象是否与图像3中的对象为同一对象。

在另外一些实施方式中，在初始进行对象识别时，可以指定一张图像作为参考图像，而在后续进行识别的过程中，可以依次按照待识别图像获取的时间顺序或者按照其他的顺序将待识别图像与参考图像中的对象特征进行相似度计算。如上述先指定图像3作为参考图像，若先获取到图像2，需要对图像2中的对象进行识别，则先将图像2与图像3中的对象特征进行相似度计算，若确定图像2中的对象与图像3中的对象是同一对象时，可将图像2作为参考图像（若图像2中的对象与图像3中的对象不是同一对象时，则继续以图像3作为参考图像），后续在获得图像1时，则将图像1与图像2中的对象特征进行相似度计算，这样可实时动态确定参考图像，而避免以固定的参考图像进行对象特征的相似度对比时，使得对象的相关细小特征变化难以察觉导致识别不准确的问题。

另外，通过上述的方式，可以搜索在各个摄像头采集的图像中属于同一行人的图像，然后根据拍摄这些图像的摄像头的位置，可获得该行人的移动轨迹，从而实现对该行人的追踪。

请参照图4，图4为本申请实施例提供的一种模型训练装置200的结构框图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

训练图像获取模块210，用于获取多张训练图像，每张训练图像对应的标签数据包括对象标识和场景标识，所述对象标识用于作为模型训练的正向监督信号，所述场景标识用于作为模型训练的反向监督信号，所述正向监督信号用于促进模型在训练过程中学习与对象相关的特征信息，所述反向监督信号用于抑制模型在训练过程中学习与场景相关的特征信息；

检测模块220，用于将所述多张训练图像输入神经网络模型中，获得神经网络模型输出的识别结果；

损失值计算模块230，用于根据所述识别结果与所述标签数据计算损失函数的损失值；

参数更新模块240，用于根据所述损失值更新所述神经网络模型的网络参数。

可选地，所述识别结果包括针对对象识别的第一识别结果和针对场景识别的第二识别结果，所述损失值计算模块230，用于根据所述第一识别结果与所述对象标识计算获得第一损失函数的第一损失值；根据所述第二识别结果与所述场景标识计算获得第二损失函数的第二损失值；

所述参数更新模块240，用于根据所述第一损失值与所述第二损失值获取最终损失值；根据所述最终损失值更新所述神经网络模型的网络参数。

可选地，所述场景标识为摄像头标识。

请参照图5，图5为本申请实施例提供的一种对象识别装置300的结构框图，该装置300可以是电子设备上的模块、程序段或代码。应理解，该装置300与上述图3方法实施例对应，能够执行图3方法实施例涉及的各个步骤，该装置300具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置300包括：

图像获取模块310，用于获取至少两张图像；

特征提取模块320，用于通过神经网络模型提取每张图像中的对象特征，其中，所述神经网络模型为通过上述的模型训练方法得到；

对象识别模块330，用于根据所述至少两张图像中的对象特征，确定所述至少两张图像中的对象是否为同一对象。

需要说明的是，本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再重复描述。

本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，执行如图2或图3所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：获取多张训练图像，每张训练图像对应的标签数据包括对象标识和场景标识，所述对象标识用于作为模型训练的正向监督信号，所述场景标识用于作为模型训练的反向监督信号，所述正向监督信号用于促进模型在训练过程中学习与对象相关的特征信息，所述反向监督信号用于抑制模型在训练过程中学习与场景相关的特征信息；将所述多张训练图像输入神经网络模型中，获得神经网络模型输出的识别结果；根据所述识别结果与所述标签数据计算损失函数的损失值；根据所述损失值更新所述神经网络模型的网络参数。

综上所述，本申请实施例提供一种模型训练方法、对象识别方法、装置、设备及存储介质，通过将训练图像中标注对象标识和场景标识，对象标识用于作为模型训练的正向监督信号，场景标识用于作为模型训练的反向监督信号，使得在模型训练过程中抑制模型学习与场景相关的特征信息，这样模型在测试时，可以削弱场景相关的特征信息对对象识别的影响，增强对对象相关的特征信息的识别，从而可有效提高对对象的识别精度。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

根据所述识别结果与所述标签数据计算损失函数的损失值；

根据所述损失值更新所述神经网络模型的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述识别结果包括针对对象识别的第一识别结果和针对场景识别的第二识别结果，所述根据所述识别结果与所述标签数据计算损失函数的损失值，包括：

根据所述第一损失值与所述第二损失值获取最终损失值；

根据所述最终损失值更新所述神经网络模型的网络参数。

3.根据权利要求2所述的方法，其特征在于，所述最终损失值与所述第一损失值的变化趋势相同，所述最终损失值与所述第二损失值的变化趋势相反。

4.根据权利要求2所述的方法，其特征在于，所述最终损失值为所述第一损失值减去所述第二损失值获得的损失值。

5.根据权利要求1所述的方法，其特征在于，所述场景标识为摄像头标识。

6.一种对象识别方法，其特征在于，所述方法包括：

获取至少两张图像；

通过神经网络模型提取每张图像中的对象特征；

根据所述至少两张图像中的对象特征，确定所述至少两张图像中的对象是否为同一对象；

其中，所述神经网络模型为通过以下方式训练得到：

根据所述识别结果与所述标签数据计算损失函数的损失值；

根据所述损失值更新所述神经网络模型的网络参数。

7.一种模型训练装置，其特征在于，所述装置包括：

8.一种对象识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取至少两张图像；

特征提取模块，用于通过神经网络模型提取每张图像中的对象特征，其中，所述神经网络模型为通过权利要求1-5中任一项所述的模型训练方法得到；

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-5任一所述的方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-5任一所述的方法。