CN111612820A

CN111612820A - 多目标跟踪方法、特征提取模型的训练方法和装置

Info

Publication number: CN111612820A
Application number: CN202010415131.1A
Authority: CN
Inventors: 高涵; 万吉; 林坚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-01
Anticipated expiration: 2040-05-15
Also published as: CN111612820B

Abstract

本申请公开了一种多目标跟踪方法、特征提取模型的训练方法和装置，涉及计算机视觉领域，可用于自动驾驶。方案为：获取多个训练图像对，训练图像对包括第一目标和第二目标，将该训练图像对调整到预设尺寸后输入到特征提取模型进行训练，得到该训练图像对中的每个目标的特征以及该训练图像对中的两个目标的相似度，该特征提取模型为孪生神经网络模型，根据训练结果计算每个训练图像对的损失值，根据该多个训练图像对的损失值，对特征提取模型的参数进行调整。该方法训练得到的特征提取模型能够直接提取图像中的目标的特征，不再依赖于检测模型，且提取得到的图像特征更加准确，可以应用于后续的多目标跟踪过程中，提高了目标跟踪的准确性。

Description

多目标跟踪方法、特征提取模型的训练方法和装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种计算机视觉领域中的多目标跟踪方法、特征提取模型的训练方法和装置，可用于自动驾驶。

背景技术

多目标跟踪是在连续的图像帧中对特定目标进行跟踪的技术，可以应用于智能监控领域，实现对特定车辆的跟踪，还可以应用于医学图像处理等领域，辅助追踪病灶。

多目标跟踪过程中的一个关键环节是多目标的数据关联，即将相邻帧间的目标的数据进行关联，数据关联采用的关联特征是否有效、鲁棒性好坏等直接影响跟踪结果的准确性。现有技术中，可以使用检测模型卷积神经网络中间层的输出作为图像特征表达，即从检测模型卷积神经网络中抽取中间层的输出作为图像特征，进而根据图像特征计算不同目标之间的相似度，根据不同目标之间的相似度完成目标关联。

但是，上述的图像特征强依赖于检测模型，一旦检测模型有所改动，可能会造成图像特征不可用。

发明内容

本申请提供了一种多目标跟踪方法、特征提取模型的训练方法和装置，可以应用在自动驾驶车辆上或者智能交通的路侧设备上。

根据第一方面，提供了一种特征提取模型的训练方法，包括：

获取多个训练图像对，所述训练图像对包括第一目标和第二目标，所述第一目标和所述第二目标是根据同一相机连续拍摄得到图像中获取的，和/或，所述第一目标和所述第二目标是根据视野上有重叠的两个不同相机在同一时刻拍摄得到的图像获取的；

将所述训练图像对调整到预设尺寸；

将所述训练图像对输入到特征提取模型进行训练，得到所述训练图像对中的每个目标的特征以及所述训练图像对中的两个目标的相似度，所述特征提取模型为孪生神经网络模型，所述特征提取模型包括两个子网，每个子网用于对所述训练图像对中的一个目标进行特征提取；

根据所述多个训练图像对的中的两个目标的相似度以及所述多个训练图像对的目标标注结果，计算每个训练图像对的损失值；

根据所述多个训练图像对的损失值，对所述特征提取模型的参数进行调整。

根据第二方面，提供了一种多目标跟踪方法，包括：

使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，所述待识别图像对包括所述第一目标和所述第二目标；

当所述第一图像和所述第二图像由同一相机拍摄得到的情况下，将所述待识别图像对调整到预设尺寸；

当所述第一图像和所述第二图像由不同相机拍摄得到的情况下，对所述待识别图像对进行单应变换处理或者截取处理，将处理后的所述待识别图像对调整到预设尺寸；

将预设尺寸的所述待识别图像对输入到第一方面训练得到的特征提取模型，得到所述第一目标的特征和所述第二目标的特征；

计算所述第一目标的特征和所述第二目标的特征的相似度；

根据所述相似度确定所述第一目标和所述第二目标的跟踪数据。

根据第二方面，提供了一种特征提取模型的训练装置，包括：

获取模块，用于获取多个训练图像对，所述训练图像对包括第一目标和第二目标，所述第一目标和所述第二目标是根据同一相机连续拍摄得到图像中获取的，和/或，所述第一目标和所述第二目标是根据视野上有重叠的两个不同相机在同一时刻拍摄得到的图像获取的；

尺寸调整模块，用于将所述训练图像对调整到预设尺寸；

训练模块，用于将所述训练图像对输入到特征提取模型进行训练，得到所述训练图像对中的每个目标的特征以及所述训练图像对中的两个目标的相似度，所述特征提取模型为孪生神经网络模型，所述特征提取模型包括两个子网，每个子网用于对所述训练图像对中的一个目标进行特征提取；

计算模块，用于根据所述多个训练图像对的中的两个目标的相似度以及所述多个训练图像对的目标标注结果，计算每个训练图像对的损失值；

参数调整模块，用于根据所述多个训练图像对的损失值，对所述特征提取模型的参数进行调整。

根据第四方面，提供了一种多目标跟踪装置，包括：

截取模块，用于使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，所述待识别图像对包括所述第一目标和所述第二目标；

调整模块，用于当所述第一图像和所述第二图像由同一相机拍摄得到的情况下，将所述待识别图像对调整到预设尺寸；

处理模块，用于当所述第一图像和所述第二图像由不同相机拍摄得到的情况下，对所述待识别图像对进行单应变换处理或者截取处理，所述调整模块还用于将处理后的所述待识别图像对调整到预设尺寸；

特征提取模块，用于将预设尺寸的所述待识别图像对输入到第三方面训练得到的特征提取模型，得到所述第一目标的特征和所述第二目标的特征；

计算模块，用于计算所述第一目标的特征和所述第二目标的特征的相似度；

跟踪模块，用于根据所述相似度确定所述第一目标和所述第二目标的跟踪数据。

根据第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据第六方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第二方面所述的方法。

根据第七方面，提供了一种一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面所述的方法。

根据第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第二方面所述的方法。

根据本申请的方案，训练得到的特征提取模型能够直接提取图像中的目标的特征，不再依赖于检测模型，且提取得到的图像特征更加准确，可以应用于后续的多目标跟踪过程中，提高了目标跟踪的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为孪生神经网络模型的一种示意图；

图2为本申请实施例一提供的一种特征提取模型的训练方法的流程图；

图3为图像中目标截取的示意图；

图4为现有技术的分类效果以及本申请的分类效果的对比示意图；

图5为本申请实施例二提供的多目标跟踪方法的流程示意图；

图6为多目标跟踪方法的另一种示意图；

图7为多相机的多目标识别场景下图像存在截断示意图；

图8为本申请实施例三提供的特征提取模型的训练方法的流程图；

图9为本申请实施例四提供的多目标跟踪方法的流程图；

图10为本申请实施例五提供的特征提取模型的训练方法的流程图；

图11为本申请实施例六提供的多目标跟踪方法的流程图；

图12为本申请实施例七提供的特征提取模型的训练装置的结构示意图；

图13为本申请实施例八提供的多目标跟踪装置的结构示意图；

图14是用来实现本申请实施例的特征提取模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例一种多目标跟踪方法，可以应用在自动驾驶车辆上或者智能交通的路侧设备上。该多目标跟踪方法可以对单个相机连续拍摄到的多个图像帧中的多个目标进行跟踪，也可以对多个在视野上存在重叠的相机在同一时刻拍摄到的多个图像帧进行多目标跟踪。目标是指图像中需要跟踪的对象，例如，可以是图像中的特定人或者车，多目标跟踪是指一张图像中可以包括多个跟踪目标。

针对多相机的多目标跟踪方法也称为跨相机的多目标跟踪方法，多个相机的视野存在重叠，通常情况下，可以将多个相机设置在同一安装位置上，形成360度环绕，完成360度全面拍摄。

本申请实施例中，多目标跟踪方法中使用的图像特征是由单独的特征提取模型提取的，该单独的特征提取模型可以是孪生神经网络模型(siamese network)，孪生神经网络模型用于评价两个输入的相似度。

图1为孪生神经网络模型的一种示意图，如图1所示，孪生神经网络模型包括两个网络：第一网络和第二网络，第一网络孪生神经网络模型有两个输入：第一输入和第二输入，第一网络和第二网络的参数或者权重(weight)相同。两个输入各自进入一个网络，第一输入进入第一网络，第二输出进入第二网络，第一网络和第二网络将输入映射到新的空间，通过损失函数(loss)的计算，评价两个输入的相似度。

本申请实施例中，在进行多目标跟踪之前，需要先进行模型训练得到特征提取模型，特征提取模型用于提取图像的特征。本申请实施例中，模型训练的目的是让两个相似的输入(即两个相同目标)的距离尽可能的小，让两个不同类别的输入(即两个不同目标)的距离近可能大，距离用来反映两个输入的相似度。

模型训练过程可以包括以下步骤：首先，获取训练数据，比如，获取可以作为训练数据的图像，并分别获取作为训练数据的每帧图像中的各目标的标注结果。然后，根据训练数据中的各图像以及各目标的标注结果，训练得到特征提取模型。

图像中的目标标注结果中包括图像中各目标的编号或者标识，目标的编号或者标识能够唯一的在多帧图像中标识同一个目标。例如，针对图像中的目标A，在连续的多帧图像中被标注了相同的编号。各目标的标注结果可以是人工标注结果，也可以是机器标注结果，本申请实施例不对此进行限制。

可以理解，本申请中进行特征提取模型训练的设备和应用该特征模型训练进行多目标跟踪的设备可以是同一个设备，也可以是不同的设备。例如，采用第一设备，例如模型训练设备进行特征提取模型训练，采用第二设备，例如目标跟踪设备进行多目标跟踪，在进行多目标跟踪之前，第二设备需要将特征提取模型获取并存储到第二设备中。特征提取模型可以由第一设备训练完成后，预先存储在第二设备上，也可以由第一设备训练完成后发送给第二设备。

为了解决现有技术的问题，本申请实施例一提供一种特征模型的训练方法，通过该方法训练得到的特征提取模型能够提取图像中目标的特征，进而根据提取到的特征进行多目标跟踪。

该特征提取模型即能够提取单相机拍摄到的两个图像中的目标的特征，也能够提取多摄像机拍摄到的两个图像中的目标的特征。相应的，在进行模型训练时，可以根据单摄像头拍摄到的训练图像训练得到一个用于单相机的特征提取模型，也可以跟踪多摄像头拍摄到的训练图像训练得到一个用于多相机的特征提取模型，还可以根据单相机拍摄到的训练图像训练和/或多相机拍摄得到的训练图像训练得到一个即可用于单相机又可以用于多相机的特征提取模型。

图2为本申请实施例一提供的一种特征提取模型的训练方法的流程图，本实施例的方法可以由模型训练设备完成，如图2所示，本实施例提供的方法包括以下步骤：

S101、获取多个训练图像对。

模型训练设备可以从训练样本集中获取多个训练图像对，每个训练图像对包括第一目标和第二目标，第一目标和第二目标是根据同一相机连续拍摄得到图像中获取的，和/或，第一目标和第二目标是根据视野上有重叠的两个不同相机在同一时刻拍摄得到的图像获取的。

需要明确，训练图像对中的第一目标和第二目标并不是相机拍摄到的原始图像，而是对原始图像中的目标进行截取得到的，截取时只截取目标所在区域，后续只对目标进行特征提取，减少了特征提取的工作量。可选的，还可以对截取到的包含目标的子图像进行其他处理，得到训练图像对，本实施例不对此进行限制。

图3为图像中目标截取的示意图，如图3所示，相机拍摄到的图像中包括多个目标，在从图像中截取目标时，可以使用矩形检测框截取目标所在区域，该矩形检测框的大小可以刚好覆盖目标，也可以稍大于或者稍小于目标。

当检测框的大小刚好覆盖目标时，检测框的各个边框与目标的外轮廓相切。

S102、将训练图像对调整到预设尺寸。

S103、将训练图像对输入到特征提取模型进行训练，得到训练图像对中的每个目标的特征以及训练图像对中的两个目标的相似度。

依次将多个训练图像对输入特征提取模型进行训练，该特征提取模型为孪生神经网络模型，该特征提取模型包括两个子网，每个子网用于对训练图像对中的一个目标进行特征提取。

该两个子网的参数相同，每个子网用于提取训练图像对中的一个目标的特征，本申请实施例中提供的特征提取模型具有更好的特征表达，提取到的图像的特征包括低层信息(low level)和高层信息(high level)，低层信息包括图像的颜色信息、形状信息等基本信息，高层信息可以为语义信息。所以，通过该特征提取模型提取的图像特征包含更多的信息，从而为后续的目标跟踪提供了更可靠的输入。

在提取到训练图像对中的两个目标的特征之后，计算两个目标的相似度，该相似度可以是余弦相似度，还可以是采用其他方式计算得到的相似度。

S104、根据多个训练图像对的中的两个目标的相似度以及多个训练图像对的目标标注结果，计算每个训练图像对的损失值。

训练图像对的两个目标的相似度表示两个目标是否相似，当训练图像对的相似度(即训练图像对的两个目标的相似度)大于或等于预设的相似度阈值时，说明两个目标相同，即两个目标是同一个目标，当训练图像对的相似度小于该相似度阈值时，说明两个目标不相同，即两个目标不是同一个目标。

训练图像对的目标标注结果可以通过以下形式表示(ID、ID，same/diff)，ID表示两个训练图像对中的目标的标识，same表示训练图像对中的两个目标相同，diff表示训练图像对中的两个目标不同。

根据每个训练图像对的相似度和该训练图像对的标注结果，可以得到训练结果是否正确，例如，当训练图像对的相似度表明两个目标不同，而该训练图像对的标注结果中两个目标相同，或者，当训练图像对的相似度表明两个目标相同，而该训练图像对的标注结果中两个目标不相同，则说明本次训练结果误差较大，相应的，该训练图像对的损失值较大。又如，当训练图像对的相似度表明两个目标相同，且该训练图像对的标注结果中两个目标相同，或者，当训练图像对的相似度表明两个目标不相同，且该训练图像对的标注结果中两个目标不相同，则说明本次训练结果误差很小，或者没有误差。

根据各训练图像对中的两个目标的相似度以及该训练图像对的目标标注结果，计算该训练图像对的损失值的具体方式本实施例不对此进行限制。其中，负样本对对应的训练图像对的损失值大于正样本对的损失值，负样本对对应的训练图像对中的两个目标不相同，正样本对对应的训练图像对中的两个目标相同。

S105、根据多个训练图像对的损失值，对特征提取模型的参数进行调整。

在计算得到每个训练图像对的损失值之后，根据多个训练图像对的损失值，对特征提取模型的参数进行调整。

一种示例性的方式中，根据多个训练图像对的损失值，计算本次训练的损失值，根据本次训练的损失值，调整特征提取模型的参数。

可以理解，特征提取模型的训练过程通常包括多次训练，每次训练都会从训练数据集中选择一些样本进行训练，训练完成后调整特征提取模型的参数，直到满足一定的条件则停止训练，例如，本次训练的损失值达到一定预设值，或者，本次训练中的训练图像对的损失值均小于某一阈值。

可选的，通过如下方式计算本次训练的损失值：计算多个训练图像对的平均损失值，对多个训练图像对的损失值按照从小到大进行排序，根据该平均损失值和该多个训练图像对的损失值的排序，计算本次训练的损失值。

可选的，可以通过如下公式计算本次训练的损失值loss：

loss＝avg(Cos_loss)+α*P₁(Pos_loss)+β*P₂(Neg_loss)；

其中，avg(Cos_loss)表示该多个训练图像对的平均损失值，P₁(Pos_loss)表示该多个训练图像对中的第P₁个训练图像对的损失值，P₂(Neg_loss)表示该多个训练图像对的第P₂个训练图像对的损失值，该多个训练图像对的损失值按照从小到大排序，第P₁个训练图像对为该多个训练图像对中的第N1％个训练图像对，所述第P₁个训练图像对为正样本对，第P₂个训练图像对为该多个训练图像对中的第N2％个训练图像对，第P₂个训练图像对负样本对，N1小于N2，N1和N2均为大于等于1且小于等于100的正数。

该多个训练图像对的损失值按照从小到大排序，排序后的结果为：正样本对应的训练图像对的损失值排在前，负样本对应的训练图像对的损失值排在后。

N1和N2为正整数，示例性的，N1+N2＝100，例如，N1为5，N2为95，假设训练图像对的个数为1000，则第个训练图像对为该1000个训练图像对中的第5％个训练图像对，即第50个训练图像对，则表示第50个训练图像对的损失值。相应的，第个训练图像对为该1000个训练图像对中的第95％个训练图像对，即第950个训练图像对，则表示第950个训练图像对的损失值。

通常情况下，根据正负样本对的个数的比值，N1的取值可以为大于等于1且小于等于20，例如，N1为8，N为92,；N1为10，N2为90；N1为15，N2为85等。

当然，N1+N2的取值也可以不等于0，例如，N1为5，N2为90，或者，N1为10，N2为95等。

上述本次训练的损失值的算法可以最小化类内距离，使得正样本对对应的训练图像对的损失值远大于负样本对对应的训练图像对的损失值，且上述公式所示的本次训练的损失值，可以促进模型收敛，得到更好的分类效果。

图4为现有技术的分类效果以及本申请的分类效果的对比示意图，通过对比可知，相比于现有技术中，本申请实施例的方法使得正样本对分布区间和负样本对的分布区间都缩小了，正样本区间和负样本区间的区分度更加明显，从而能够加快特征提取模型的收敛。

其中，正样本对分布区间和负样本对分布区间是指正样本对和负样本对的相似度的分布情况，本申请实施例中相似度取值范围为[-1,1]。正样本对的相似度的取值为[X,1]，负样本对的相似度的取值为[-1,Y]这个区间，通过本实施例的方法，可以使得X尽可能大于Y。

另外，需要说明的是，本申请实施例中采用二元组进行模型训练，其中，二元组是指训练图像对或者样本图像对由两个目标组成，形成如下二元组(base，same)……(base，diff)，其中，base表示当前目标，same表示与当前目标相同的目标，diff表示与当前目标不同的目标，因此，(base，same)表示一个正样本对，(base，same)表示一个负样本对。

而现有技术中，通常采用三元组进行模型训练，三元组可以表示为(base，same，diff)。二元组相对比三元组更容易生成，且二元组更加方便计算损失值。

可选的，初次进行训练使用的特征提取模型为已有通过大数据集训练得到的孪生神经网络模型。所以，本实施例的模型训练方法相当于对已有的孪生神经网络模型进行微调，因此，模型收敛更快。

本实施例中，获取多个训练图像对，训练图像对包括第一目标和第二目标，将该训练图像对调整到预设尺寸，将该训练图像对输入到特征提取模型进行训练，得到该训练图像对中的每个目标的特征以及该训练图像对中的两个目标的相似度，该特征提取模型为孪生神经网络模型，根据该多个训练图像对的中的两个目标的相似度以及该多个训练图像对的目标标注结果，计算每个训练图像对的损失值，根据该多个训练图像对的损失值，对特征提取模型的参数进行调整。该方法训练得到的特征提取模型能够直接提取图像中的目标的特征，不再依赖于检测模型，且提取得到的图像特征更加准确。

图5为本申请实施例二提供的多目标跟踪方法的流程示意图，该多目标跟踪方法中使用的图像特征由实施例一中训练得到的特征提取模型提取得到。由于实施例一中的特征提取模型训练时使用训练图像对来自同一相机连续拍摄得到图像，和/或，视野上有重叠的两个不同相机在同一时刻拍摄得到的图像，所以，训练得到的特征提取模型即可用于单相机下的多目标跟踪方法，也可以用于多相机下的多目标跟踪方法。

图6为多目标跟踪方法的另一种示意图，本实施例的方法可以由目标跟踪设备执行，参考图5和图6，本实施例提供的方法包括以下步骤：

S201、使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，该待识别图像对包括第一目标和第二目标。

该检测框可以为矩形检测框，该检测框的大小可以刚覆盖第一目标和第二目标，也可以略大于第一目标和第二目标。可以理解，截取第一目标和第二目标时使用的检测框的大小不同，检测框的大小随截取的目标的大小而变化。

当检测框的大小可以刚覆盖目标时，检测框的各个边框与第一目标的外轮廓相切。

S202、当第一图像和第二图像由同一相机拍摄得到的情况下，将待识别图像对调整到预设尺寸，当第一图像和第二图像由不同相机拍摄得到的情况下，对待识别图像对进行单应变换处理(homograph warping)或者截取处理，将处理后的待识别图像对调整到预设尺寸。

在多相机的多目标识别场景下，两个相机在同一时刻拍摄到的图像中同一目标可能存在截断，截断是指没有拍摄到完整目标，只拍摄到目标的一部分。例如，针对同一个目标a，相机1拍摄到的图像中该目标完整的，相机2拍摄到的图像中该目标是截断的，二者虽然是同一目标，但是由于截断导致二者在外形上看上去相差特别大，如果不对两张图像进行处理，最终可能将两张图像中的目标a识别为不同的图像，从而导致关联错误。

另一种场景中，两个相机在同一时刻拍摄到的图像中同一目标虽然均不存在截断，但是由于相机角度不同，导致拍摄到的同一目标的在外形上差别较大，同样，如果不对两张图像进行处理，最终可能将两张图像中的目标a识别为不同的图像，从而导致关联错误。

所以，在多相机的多目标识别场景下，在调整待识别图像的尺寸之前，需要对待识别图像对进行单应变换处理或者截取处理，通过单应变换或者截取处理，使得处理后的待识别图像对中的两个目标在外形上相似。从而能够提高后续二者的相似度，避免了由于两个摄像机的拍摄角度不同或者图像截断导致将相同目标确定为不同目标。

可选的，待识别图像对中的两个图像包括相机参数，该相机参数可以包括相机标识，目标跟踪设备根据相机参数可以确定待识别图像对来自一个相机，还是来自两个相机，当待识别图像对来自两个相机时，可以根据相机参数判断待识别图像中的两个图像是否满足单应变换的条件。

当待识别图像中的两个图像满足单应变换的条件时，对待识别图像中的目标图像进行单应变换处理；当待识别图像对中的两个图像不满足单应变换的条件时，对待识别图像对中的目标图像进行截取，截取后的待识别图像对中的两个目标的外形相似。

一种情况下，当待识别图像对中的一个图像存在截断，另一个图像不存在截断的情况下，则将非截断的图像确定为目标图像，即将非截断的图像通过单应变换向截断的图像进行映射，或者，对非截断的图像进行截取，使得截取后的图像与另一张图像的外观相似。

另一种情况下，当待识别图像对中的两个图像均存在截断的情况下，则将待识别图像对中相对于完整目标截断少的图像确定为目标图像，即将截断少的图像通过单应变换向截断多的图像映射，或者，对截断少的图像进行截取，使得截取后的图像与另一个图像的外形相似。

图7为多相机的多目标识别场景下图像存在截断示意图，如图7所示，左侧图像中目标1存在截断，右侧图像中目标1不存在截断，左侧图像和右侧图像分别由两个视野上存在重叠的相机在同一时刻拍摄得到。对右侧图像中的目标1进行截取处理或者进行单应变换处理，处理后的两张图像中目标1的外形基本相似。

如果不做截取处理或者单应变换处理，而直接提取两张中目标1的特征，进行相似度计算，那么相似度sim只有0.549067。而通过截取处理或者单应变换处理，使得两张图像中目标1的相似度sim可以提高到0.775864。可见，目标跟踪的准确性大大提高。

S203、将预设尺寸的待识别图像对输入到特征提取模型，得到第一目标的特征和第二目标的特征。

如图6所示，特征提取模型为孪生神经网络模型，包括第一子网和第二子网，第一子网和第二子网的结构相同参数相同，第一子网提取第一目标的特征，第二子网提取第二目标的特征。

S204、计算第一目标的特征和第二目标的特征的相似度。

该相似度可以为余弦相似度。

S205、根据该相似度确定第一目标和第二目标的跟踪数据。

具体的，根据相似度确定两个目标是否为同一目标，如果是同一目标，则分配跟踪编号。

本实施例中，使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，待识别图像对包括第一目标和第二目标，当第一图像和第二图像由同一相机拍摄得到的情况下，将待识别图像对调整到预设尺寸，当第一图像和第二图像由不同相机拍摄得到的情况下，对待识别图像对进行单应变换处理或者截取处理，将处理后的待识别图像对调整到预设尺寸，将预设尺寸的待识别图像对输入到特征提取模型，得到第一目标的特征和第二目标的特征，计算第一目标的特征和第二目标的特征的相似度，根据相似度确定第一目标和第二目标的跟踪数据。该目标跟踪过程中使用的目标的图像特征是通过单独的特征提取模型提取到的，该特征提取模型提取到的图像特征包含更多的信息，从而保证目标跟踪的准确性。

在实施例一的基础上，本申请实施例三提供一种特征提取模型的训练方法，该训练方法使用的训练图像是单相机拍摄到的图片，图8为本申请实施例三提供的特征提取模型的训练方法的流程图，如图8所示，本实施例提供的方法包括以下步骤：

S301、获取训练数据集。

该训练数据集中包括多个图像帧序列以及每个图像帧序列包括的图像的多目标标注结果，每个图像帧序列包括同一相机连续拍摄的多个图像。该多个图像帧序列可以是多个不同相机拍摄的，多目标标注结果中包括每帧图像中的各目标的ID，相同目标在不同图像帧中的ID相同，该多目标标注结果可以是人工标准结果，也可以是机器标注结果。

S302、按照预设的正负样本比例，从训练数据集中抽取样本得到训练样本集。

示例性的，正负样本比例为3:1，即针对每个目标，在抽取该目标的样本时，抽取三个正样本，抽取一个负样本，或者，抽取6个正样本，抽取一个负样本。

训练样本集中包括多个目标的正样本对和负样本对，同一目标的样本对中的图像是同一相机拍摄得到的。每个样本对中包括两张图像，样本对中包括的两张图像是同一相机拍摄得到的，样本对中包括的每张图像中可能包括一个或者多个目标。

针对某一目标，正样本对中包括的两张图像中的目标相同，负样本对中包括的两张图像中的目标不相同。

通过该样本训练集训练得到的特征提取模型能够对单相机拍摄到的图像进行提取和跟踪。

S303、使用检测框从样本对中截取目标得到多个训练图像对。

检测框可以为矩形检测框，通过矩形检测框从图像中将目标所在区域截取出来，后续训练时只提取该目标的特征，该多个训练图像对是指从训练样本集中得到的所有训练图像对。

S304、将训练图像对调整到预设尺寸。

S305、将训练图像对输入到特征提取模型进行训练，得到训练图像对中的每个目标的特征以及训练图像对中的两个目标的相似度。

该特征提取模型可以为孪生神经网络模型，该特征提取模型包括两个子网，每个子网用于对训练图像对中的一个目标进行特征提取。

S306、根据该多个训练图像对的中的两个目标的相似度以及该多个训练图像对的目标标注结果，计算每个训练图像对的损失值。

S307、根据该多个训练图像对的损失值，计算本次训练的损失值loss，根据本次训练的损失值调整特征提取模型的参数。

示例性的，计算该多个训练图像对的平均损失值，对该多个训练图像对的损失值按照从小到大进行排序；根据以下公式计算本次训练的损失值loss:

loss＝avg(Cos_loss)+α*P₁(Pos_loss)+β*P₂(Neg_loss)

其中，avg(Cos_loss)表示该多个训练图像对的平均损失值，P₁(Pos_loss)表示该多个训练图像对中的第P₁个训练图像对的损失值，P₂(Neg_loss)表示该多个训练图像对的第P₂个训练图像对的损失值，该多个训练图像对的损失值按照从小到大排序，第P₁个训练图像对为该多个训练图像对中的第N％个训练图像对，该第P₁个训练图像对为正样本对，第P₂个训练图像对为该多个训练图像对中的第1-N％个训练图像对，第P₂个训练图像对负样本对，N1小于N2，N1和N2均为大于等于1且小于等于100的正数。

步骤S304-307的具体实现方式和技术效果参照实施例一中步骤S102-105的描述，这里不再赘述。

在实施例三的基础上，本申请实施例四提供一种单相机下的多目标跟踪方法，图9为本申请实施例四提供的多目标跟踪方法的流程图，如图9所示，本实施例提供的方法包括以下步骤：

S401、使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，待识别图像对包括第一目标和第二目标。

S402、将待识别图像对调整到预设尺寸。

S403、将待识别图像对输入到特征提取模型，得到第一目标的特征和第二目标的特征。

该特征提取模型是实施例三中训练的特征提取模型。

S404、计算第一目标的特征和第二目标的特征的相似度。

S405、根据该相似度确定第一目标和第二目标的跟踪数据。

本实施例的目标跟踪方法，能够对单相机拍摄到的连续图像帧或者视频中的目标进行跟踪。

在实施例一的基础上，本申请实施例五提供一种特征提取模型的训练方法，该训练方法使用的训练图像是多相机拍摄到的图片，图10为本申请实施例五提供的特征提取模型的训练方法的流程图，如图10所示，本实施例提供的方法包括以下步骤：

S501、获取训练数据集。

该训练数据集中包括多个图像帧序列以及每个图像帧序列包括的图像的多目标标注结果，每个图像帧序列包括多个在视野上有重叠的不同相机在同一时刻拍摄的多个图像。

S502、按照预设的正负样本比例，从训练数据集中抽取样本得到训练样本集。

训练样本集中包括多个目标的正样本对和负样本对，同一目标的样本对中的图像是视野上有重叠的两个不同相机在同一时刻拍摄的。

通过该样本训练集训练得到的特征提取模型能够对多相机拍摄到的图像进行提取和跟踪。

S503、使用检测框从样本对中截取目标得到多个候选训练图像对。

S504、对候选训练图像对进行单应变换处理或者截取处理，使得得到的多个训练图像对中的两个目标的外形相似。

当候选训练图像对中的两个图像满足单应变换的条件时，对候选训练图像对中目标图像进行单应变换处理，得到训练图像对。当候选训练图像对中的两个图像不满足单应变换的条件时，对候选训练图像对中的目标图像进行截取，得到训练图像对，截取后的训练图像对中的两个目标的外形相似。

当候选训练图像对中的一个图像存在截断，另一个图像不存在截断的情况下，非截断的图像为候选训练图像对中的目标图像。即将非截断图像通过单应变换向截断图像映射，或者，对非截断图像进行截取，截取后的图像与截断图像的外形相似。

当候选训练图像对中的两个图像均存在截断的情况下，候选训练图像对中相对于目标整体截断少的图像为目标图像。即将截断少的图像通过单应变换向截断多的图像映射，或者，对截断少的图像进行截取，截取后的两个图像的外形相似。

S505、将训练图像对调整到预设尺寸。

S506、将训练图像对输入到特征提取模型进行训练，得到训练图像对中的每个目标的特征以及训练图像对中的两个目标的相似度。

S507、根据该多个训练图像对的中的两个目标的相似度以及该多个训练图像对的目标标注结果，计算每个训练图像对的损失值。

S508、根据该多个训练图像对的损失值，计算本次训练的损失值loss，根据本次训练的损失值调整特征提取模型的参数。

loss＝avg(Cos_loss)+α*P₁(Pos_loss)+β*P₂(Neg_loss)

步骤S505-308的具体实现方式和技术效果参照实施例一中步骤S102-105的描述，这里不再赘述。

在实施例五的基础上，本申请实施例六提供一种多相机下的多目标跟踪方法，图11为本申请实施例六提供的多目标跟踪方法的流程图，如图11所示，本实施例提供的方法包括以下步骤：

S601、使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，待识别图像对包括第一目标和第二目标。

S602、对待识别图像对进行单应变换处理或者截取处理。

具体的，当待识别图像中的两个图像满足单应变换的条件时，对待识别图像中的目标图像进行单应变换处理。当待识别图像对中的两个图像不满足单应变换的条件时，对待识别图像对中的目标图像进行截取，截取后的待识别图像对中的两个目标的外形相似。

当待识别图像对中的一个图像存在截断，另一个图像不存在截断的情况下，非截断的图像为目标图像。当所述待识别图像对中的两个图像均存在截断的情况下，待识别图像对中相对于完整目标截断少的图像为目标图像。

S603、将处理后的待识别图像对调整到预设尺寸。

S604、将待识别图像对输入到特征提取模型，得到第一目标的特征和第二目标的特征。

该特征提取模型是实施例三中训练的特征提取模型。

S605、计算第一目标的特征和第二目标的特征的相似度。

S606、根据该相似度确定第一目标和第二目标的跟踪数据。

本实施例的目标跟踪方法，能够对跨相机拍摄到的图像帧或者视频中的目标进行跟踪。

图12为本申请实施例七提供的特征提取模型的训练装置的结构示意图，如图12所示，该装置100包括：

获取模块11，用于获取多个训练图像对，所述训练图像对包括第一目标和第二目标，所述第一目标和所述第二目标是根据同一相机连续拍摄得到图像中获取的，和/或，所述第一目标和所述第二目标是根据视野上有重叠的两个不同相机在同一时刻拍摄得到的图像获取的；

尺寸调整模块12，用于将所述训练图像对调整到预设尺寸；

训练模块13，用于将所述训练图像对输入到特征提取模型进行训练，得到所述训练图像对中的每个目标的特征以及所述训练图像对中的两个目标的相似度，所述特征提取模型为孪生神经网络模型，所述特征提取模型包括两个子网，每个子网用于对所述训练图像对中的一个目标进行特征提取；

计算模块14，用于根据所述多个训练图像对的中的两个目标的相似度以及所述多个训练图像对的目标标注结果，计算每个训练图像对的损失值；

参数调整模块15，用于根据所述多个训练图像对的损失值，对所述特征提取模型的参数进行调整。

可选的，所述参数调整模块15具体用于：

计算所述多个训练图像对的平均损失值；

对所述多个训练图像对的损失值按照从小到大进行排序；

根据以下公式计算本次训练的损失值loss:

loss＝avg(Cos_loss)+α*P₁(Pos_loss)+β*P₂(Neg_loss)；

其中，avg(Cos_loss)表示该多个训练图像对的平均损失值，P₁(Pos_loss)表示该多个训练图像对中的第P₁个训练图像对的损失值，P₂(Neg_loss)表示该多个训练图像对的第P₂个训练图像对的损失值，该多个训练图像对的损失值按照从小到大排序，第P₁个训练图像对为该多个训练图像对中的第N％个训练图像对，该第P₁个训练图像对为正样本对，第P₂个训练图像对为该多个训练图像对中的第1-N％个训练图像对，第P₂个训练图像对负样本对，N1小于N2，N1和N2均为大于等于1且小于等于100的正数；

根据本次训练的损失值，调整所述特征提取模型的参数。

可选的，所述获取模块11具体用于：

获取训练样本集，所述训练样本集中包括多个目标的正样本对和负样本对，同一目标的样本对中的图像是同一相机拍摄得到的；

使用检测框从样本对中截取目标得到所述多个训练图像对。

可选的，所述获取模块11获取训练样本集，具体为：

获取训练数据集，所述训练数据集中包括多个图像帧序列以及每个图像帧序列包括的图像的多目标标注结果，每个图像帧序列包括同一相机连续拍摄的多个图像；

按照预设的正负样本比例，从所述训练数据集中抽取样本得到所述训练样本集。

可选的，所述获取模块11具体用于：

获取训练样本集，所述训练样本集中包括多个目标的正样本对和负样本对，同一目标的样本对中的图像是视野上有重叠的两个不同相机在同一时刻拍摄的；

使用检测框从样本对中截取目标得到多个候选训练图像对；

对所述候选训练图像对进行单应变换处理或者截取处理，使得得到的所述多个训练图像对中的两个目标的外形相似。

可选的，所述获取模块11对所述候选训练图像对进行处理单应变换或者截取处理，使得得到的所述多个训练图像对中的两个目标的外形相似，具体为：

当所述候选训练图像对中的两个图像满足单应变换的条件时，对所述候选训练图像对中目标图像进行单应变换处理，得到所述训练图像对；

当所述候选训练图像对中的两个图像不满足单应变换的条件时，对所述候选训练图像对中的目标图像进行截取，得到所述训练图像对，截取后的训练图像对中的两个目标的外形相似；

当所述候选训练图像对中的一个图像存在截断，另一个图像不存在截断的情况下，非截断的图像为所述候选训练图像对中的所述目标图像；或者，

当所述候选训练图像对中的两个图像均存在截断的情况下，所述候选训练图像对中相对于目标整体截断少的图像为所述目标图像。

可选的，所述获取模块获取训练样本集，具体为：

获取训练数据集，所述训练数据集中包括多个图像帧序列以及每个图像帧序列包括的图像的多目标标注结果，每个图像帧序列包括多个在视野上有重叠的不同相机在同一时刻拍摄的多个图像；

可选的，初次进行训练使用的特征提取模型为已有通过大数据集训练得到的孪生神经网络模型。

本实施例的装置训练得到的特征提取模型，能够用于对图像中的目标的特征进行单独提取，且该方式模型训练收敛快，训练得到的模型提取的特征更加完整准确。

图13为本申请实施例八提供的多目标跟踪装置的结构示意图，如图13所示，该装置200包括：

截取模块20，用于使用检测框从第一图像中截取第一目标，使用检测框从第二图像中截取第二目标，得到待识别图像对，所述待识别图像对包括所述第一目标和所述第二目标；

调整模块22，用于当所述第一图像和所述第二图像由同一相机拍摄得到的情况下，将所述待识别图像对调整到预设尺寸；

处理模块23，用于当所述第一图像和所述第二图像由不同相机拍摄得到的情况下，对所述待识别图像对进行单应变换处理或者截取处理，所述调整模块还用于将处理后的所述待识别图像对调整到预设尺寸；

特征提取模块24，用于将预设尺寸的所述待识别图像对输入到实施例七的训练装置训练得到的特征提取模型，得到所述第一目标的特征和所述第二目标的特征；

计算模块25，用于计算所述第一目标的特征和所述第二目标的特征的相似度；

跟踪模块26，用于根据所述相似度确定所述第一目标和所述第二目标的跟踪数据。

可选的，所述计算模块25具体用于：

计算所述第一目标的图像特征和所述第二目标的图像特征的余弦相似度。

可选的，所述处理模块23具体用于：

当所述待识别图像中的两个图像满足单应变换的条件时，对所述待识别图像中的目标图像进行单应变换处理；

当所述待识别图像对中的两个图像不满足单应变换的条件时，对所述待识别图像对中的目标图像进行截取，截取后的所述待识别图像对中的两个目标的外形相似；

当所述待识别图像对中的一个图像存在截断，另一个图像不存在截断的情况下，非截断的图像为所述目标图像；或者，

当所述待识别图像对中的两个图像均存在截断的情况下，所述待识别图像对中相对于完整目标截断少的图像为所述目标图像。

本实施例的目标跟踪装置，采用特征提取模型提取到的特征进行目标跟踪，提高了目标跟踪的准确性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图14所示，是根据本申请实施例的特征提取模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图14所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图14中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的特征提取模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的特征提取模型的训练方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的特征提取模型的训练方法对应的程序指令/模块(例如，附图12所示的获取模块11、尺寸调整模块12和训练模块13等)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的特征提取模型的训练方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据特征提取模型的训练方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至特征提取模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

特征提取模型的训练方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图14中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与特征提取模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请实施例还提供一种多目标跟踪的电子设备，该多目标跟踪的电子设备的结构可参照图14所示特征提取模型的训练方法的电子设备。可选的，多目标跟踪的电子设备和特征提取模型的训练方法的电子设备可以为两个独立的电子设备，也可能是一个电子设备。

根据本申请实施例的技术方案，通过模型训练方法训练得到特征提取模型，该特征提取模型能够直接提取图像中的目标的特征，不再依赖于检测模型，且提取得到的图像特征更加准确，可以应用于后续的多目标跟踪过程中，提高了目标跟踪的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种特征提取模型的训练方法，其特征在于，包括：

将所述训练图像对调整到预设尺寸；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个训练图像对的损失值，对所述特征提取模型的参数进行调整，包括：

计算所述多个训练图像对的平均损失值；

对所述多个训练图像对的损失值按照从小到大进行排序；

根据以下公式计算本次训练的损失值loss:

loss＝avg(Cos_loss)+α*P₁(Pos_loss)+β*P₂(Neg_loss)；

其中，avg(Cos_loss)表示所述多个训练图像对的平均损失值，P₁(Pos_loss)表示所述多个训练图像对中的第P₁个训练图像对的损失值，P₂(Neg_loss)表示所述多个训练图像对的第P₂个训练图像对的损失值，所述多个训练图像对的损失值按照从小到大排序，所述第P₁个训练图像对为所述多个训练图像对中的第N1％个训练图像对，所述第P₁个训练图像对为正样本对，所述第P₂个训练图像对为所述多个训练图像对中的第N2％个训练图像对，所述第P₂个训练图像对负样本对，N1小于N2，N1和N2均为大于等于1且小于等于100的正数；

根据本次训练的损失值，调整所述特征提取模型的参数。

3.根据权利要求1或2所述的方法，其特征在于，所述获取多个训练图像对，包括：

使用检测框从样本对中截取目标得到所述多个训练图像对。

4.根据权利要求3所述的方法，其特征在于，所述获取训练样本集，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述获取多个训练图像对，包括：

使用检测框从样本对中截取目标得到多个候选训练图像对；

6.根据权利要求5所述的方法，其特征在于，对所述候选训练图像对进行处理单应变换或者截取处理，使得得到的所述多个训练图像对中的两个目标的外形相似，包括：

7.根据权利要求5所述的方法，其特征在于，所述获取训练样本集，包括：

8.根据权利要求1所述的方法，其特征在于，初次进行训练使用的特征提取模型为已有通过大数据集训练得到的孪生神经网络模型。

9.一种多目标跟踪方法，其特征在于，包括：

将预设尺寸的所述待识别图像对输入到权利要求1-8任一项训练得到的特征提取模型，得到所述第一目标的特征和所述第二目标的特征；

计算所述第一目标的特征和所述第二目标的特征的相似度；

10.根据权利要求9所述的方法，其特征在于，所述计算所述第一目标的图像特征和所述第二目标的图像特征的相似度，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述对所述待识别训练图像对进行单应变换处理或者截取处理，包括：

12.一种特征提取模型的训练装置，其特征在于，包括：

尺寸调整模块，用于将所述训练图像对调整到预设尺寸；

13.根据权利要求12所述的装置，其特征在于，所述参数调整模块具体用于：

计算所述多个训练图像对的平均损失值；

对所述多个训练图像对的损失值按照从小到大进行排序；

根据以下公式计算本次训练的损失值loss:

loss＝avg(Cos_loss)+α*P₁(Pos_loss)+β*P₂(Neg_loss)；

根据本次训练的损失值，调整所述特征提取模型的参数。

14.根据权利要求12或13所述的装置，其特征在于，所述获取模块具体用于：

使用检测框从样本对中截取目标得到所述多个训练图像对。

15.根据权利要求14所述的装置，其特征在于，所述获取模块获取训练样本集，具体为：

16.根据权利要求12或13所述的装置，其特征在于，所述获取模块具体用于：

使用检测框从样本对中截取目标得到多个候选训练图像对；

17.根据权利要求16所述的装置，其特征在于，所述获取模块对所述候选训练图像对进行处理单应变换或者截取处理，使得得到的所述多个训练图像对中的两个目标的外形相似，具体为：

18.根据权利要求16所述的装置，其特征在于，所述获取模块获取训练样本集，具体为：

19.根据权利要求12所述的装置，其特征在于，初次进行训练使用的特征提取模型为已有通过大数据集训练得到的孪生神经网络模型。

20.一种多目标跟踪装置，其特征在于，包括：

特征提取模块，用于将预设尺寸的所述待识别图像对输入到权利要求11-19任一项训练得到的特征提取模型，得到所述第一目标的特征和所述第二目标的特征；

21.根据权利要求20所述的装置，其特征在于，所述计算模块具体用于：

22.根据权利要求20或21所述的装置，其特征在于，所述处理模块具体用于：

23.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

24.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求9-11中任一项所述的方法。

25.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求9-11中任一项所述的方法。