CN115661780A

CN115661780A - 一种交叉视角下的摄像头目标匹配方法、装置及存储介质

Info

Publication number: CN115661780A
Application number: CN202211660560.0A
Authority: CN
Inventors: 杨超; 刘国清; 杨广; 王启程
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Minieye Innovation Technology Co Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-01-31

Abstract

本发明公开了一种交叉视角下的摄像头目标匹配方法、装置及存储介质，所述方法包括：获取由第一摄像头拍摄的第一视频图像和由第二摄像头拍摄的第二视频图像；提取第一视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第一目标图像以及第一目标对象位置编码；提取第二视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第二目标图像以及第二目标对象位置编码；将第一目标图像、第一目标对象位置编码、第二目标图像以及第二目标对象位置编码输入至预设的目标匹配模型中，以使目标匹配模型生成第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵；根据关系匹配矩阵，将两个图像中的目标对象进行匹配。

Description

一种交叉视角下的摄像头目标匹配方法、装置及存储介质

技术领域

本发明涉及辅助驾驶技术领域，尤其涉及一种交叉视角下的摄像头目标匹配方法、装置及存储介质。

背景技术

在辅助驾驶技术上，7V5R的传感器布局方案较为常见，7V即表示车身具有7颗摄像头，并且7颗摄像头两两之间的视角存在一定范围的交叉。即一个目标可能会同时出现在两个具有交叉视角的摄像头图像内。为了更真实准确的感知车辆周围的环境，提升辅助驾驶的安全性，将交叉视角下的同一个目标进行匹配融合显得必要，现有技术中实现不同图像中的目标匹配，一般采用提取各图像中目标对象的图像特征，基于图像特征对不同图像中的目标进行匹配，但是将这一方法运用在交叉视角下的目标匹配上，往往无法匹配或匹配准确性较低，这是由于两个具有交叉视角的摄像头所拍摄的图像中某些目标在一张图像内可能会显示不全，例如一目标车辆的车头部分在一个摄像头所拍摄的图像中，车身部分在另一摄像头所拍摄的图像中，这两部分在外观可能不具备很高的相似性，因此只用图像目标的外观特征不足以将该目标车辆的车头和车身联系起来，无法实现目标的匹配或匹配的准确性较低。

发明内容

本发明实施例提供一种交叉视角下的摄像头目标匹配方法，装置及存储介质，所述方法能够提高交叉视角下不同摄像头所拍摄的图像中目标匹配的准确性。

本发明一实施例提供一种交叉视角下的摄像头目标匹配方法，包括：获取由第一摄像头拍摄的第一视频图像以及由第二摄像头拍摄的第二视频图像；其中，所述第一摄像头和所述第二摄像头为具有交叉视角的一对摄像头；

提取第一视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第一目标图像以及第一目标对象位置编码；

提取第二视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第二目标图像以及第二目标对象位置编码；

将第一目标图像、第一目标对象位置编码、第二目标图像以及第二目标对象位置编码输入至预设的目标匹配模型中，以使所述目标匹配模型将第一目标图像所对应的图像特征与第一目标对象位置编码所对应的位置特征进行融合，生成第一融合特征，将第二目标图像所对应的图像特征与第二目标对象位置编码所对应的位置特征进行融合，生成第二融合特征，根据所述第一融合特征与所述第二融合特征确定所述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵；

根据所述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵，将第一视频图像中目标对象与第二视频图像中目标对象进行匹配。

进一步的，所述目标匹配模型的生成包括：获取由第一摄像头拍摄的第一图像样本以及由第二摄像头拍摄的第二图像样本；

提取第一图像样本中目标对象所在区域的图像获得第三目标图像，提取第二图像样本中目标对象所在区域的图像获得第四目标图像；

提取第一图像样本中目标对象的位置坐标并对所提取的位置坐标进行编码，生成第三目标对象位置编码；提取第二图像样本中目标对象的位置坐标并对所提取的位置坐标进行编码，生成第四目标对象位置编码；

以第三目标图像、第三目标对象位置编码、第四目标图像以及第四目标对象位置编码为输入，以第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、位置编码特征提取网络、特征融合网络和匹配矩阵生成网络，且在训练时，所述图像目标特征提取网络分别对第三目标图像和第四目标图像的图像特征进行提取，生成第三目标图像特征和第四目标图像特征，所述位置编码特征提取网络分别对第三目标对象位置编码和第四目标对象位置编码进行特征提取，生成第三目标对象位置特征和第四目标对象位置特征，所述特征融合网络将第三目标图像特征与第三目标对象位置特征进行融合生成第三融合特征，将第四目标图像特征与第四目标对象位置特征进行融合生成第四融合特征，所述匹配矩阵生成网络根据第三融合特征和第四融合特征生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵；在训练完毕后生成所述目标匹配模型。

进一步的，对位置坐标进行编码包括：通过公式方式对位置坐标中的每一元素进行编码，在位置坐标的所有元素编码完毕后，完成对位置坐标的编码；

其中

，

，

为预设的模型输入维度，t为位置坐标中的一元素，

为位置坐标中的一元素编码后的值。

进一步的，所述根据第三融合特征和第四融合特征生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵，包括：对所述第三融合特征和所述第四融合特征进行矩阵内积运算生成得分矩阵；通过Sinkhorn算法对所述得分矩阵进行迭代优化生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵。

进一步的，在对预设的初始网络模型进行训练时，初始网络模型所对应的损失函数为：

；

其中，（N, M）为人工标注下的第一图像样本中目标对象与第二图像样本中目标对象之间的匹配集合，N表示第一图像样本中的目标对象的总数，M表示第二图像样本中的目标对象的总数，i为第一图像样本中的第i个目标对象，j为第二图像样本中的第j个目标对象,N+1和M+1分别表示关系匹配矩阵S’的第N +1行和M+1列,I表示关系匹配矩阵S’中第M+1列中第一图像样本的目标对象集合，J表示关系匹配矩阵S’中第N +1行中第二图像样本的目标对象集合。

在上述方法项实施例的基础上本发明对应提供了装置项实施例；

本发明一实施例提供了一种交叉视角下的摄像头目标匹配装置，包括：图像获取模块、第一数据提取模块、第二数据提取模块、模型识别模块以及匹配模块；

所述图像获取模块，用于获取由第一摄像头拍摄的第一视频图像以及由第二摄像头拍摄的第二视频图像；其中，所述第一摄像头和所述第二摄像头为具有交叉视角的一对摄像头；

所述第一数据提取模块，用于提取第一视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第一目标图像以及第一目标对象位置编码；

所述第二数据提取模块，用于提取第二视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第二目标图像以及第二目标对象位置编码；

所述模型识别模块，用于将第一目标图像、第一目标对象位置编码、第二目标图像以及第二目标对象位置编码输入至预设的目标匹配模型中，以使所述目标匹配模型将第一目标图像所对应的图像特征与第一目标对象位置编码所对应的位置特征进行融合，生成第一融合特征，将第二目标图像所对应的图像特征与第二目标对象位置编码所对应的位置特征进行融合，生成第二融合特征，根据所述第一融合特征与所述第二融合特征确定所述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵；

所述匹配模块，用于根据所述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵，将第一视频图像中目标对象与第二视频图像中目标对象进行匹配。

进一步的，还包括模型构建模块；

所述模型构建模块，用于获取由第一摄像头拍摄的第一图像样本以及由第二摄像头拍摄的第二图像样本；

以第三目标图像、第三目标对象位置编码、第四目标图像以及第四目标对象位置编码为输入，以第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、位置编码特征提取网络、特征融合网络和匹配矩阵生成网络，且在训练时，所述图像目标特征提取网络分别对第三目标图像和第四目标图像的图像特征进行提取，生成第三目标图像特征和第四目标图像特征，所述位置编码特征提取网络分别对第三目标对象位置编码和第四目标对象位置编码进行特征提取，生成第三目标对象位置特征和第四目标对象位置特征，所述特征融合网络将第三目标图像特征与第三目标对象位置特征进行融合生成第三融合特征，将第四目标图像特征与第四目标对象位置特征进行融合生成第四融合特征，所述匹配矩阵生成网络根据第三融合特征和第四融合特征生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵；

在训练完毕后生成所述目标匹配模型。

在上述方法项实施例的基础上，本发明对应提供了一存储介质项实施例；

本发明一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行上述发明实施例所述的交叉视角下的摄像头目标匹配方法。

通过实施本发明具有如下有益效果：

本发明一实施例提供了一种交叉视角下的摄像头目标匹配方法、装置及存储介质，所述方法在对两个具有交叉视角的摄像头所拍摄的图像中目标对象进行匹配时，将目标对象的图像特征以及目标对象的位置特征进行融合，基于融合后的特征进行两个图像中目标对象的匹配，与现有技术相比在进行目标匹配时加入了目标对象的位置信息，不同摄像头所拍摄的图像中同一目标的位置信息是有关联的，加上目标位置信息可以增强两个图像同一目标之间的关联性，使得两个图像之间目标对象的匹配更加准确。

附图说明

图1是本发明一实施例提供的一种交叉视角下的摄像头目标匹配方法的流程示意图。

图2是一车辆车身上摄像头的位置排布情况示意图。

图3是本发明一实施例提供的一种交叉视角下的摄像头目标匹配装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供了一种交叉视角下的摄像头目标匹配方法，至少包括如下步骤：

步骤S101：获取由第一摄像头拍摄的第一视频图像以及由第二摄像头拍摄的第二视频图像；其中，所述第一摄像头和所述第二摄像头为具有交叉视角的一对摄像头。

步骤S102：提取第一视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第一目标图像以及第一目标对象位置编码。

步骤S103：提取第二视频图像中目标对象所在区域的图像以及目标对象的位置坐标，生成第二目标图像以及第二目标对象位置编码。

步骤S104：将第一目标图像、第一目标对象位置编码、第二目标图像以及第二目标对象位置编码输入至预设的目标匹配模型中，以使所述目标匹配模型将第一目标图像所对应的图像特征与第一目标对象位置编码所对应的位置特征进行融合，生成第一融合特征，将第二目标图像所对应的图像特征与第二目标对象位置编码所对应的位置特征进行融合，生成第二融合特征，根据所述第一融合特征与所述第二融合特征确定所述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵。

步骤S105：根据所述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵，将第一视频图像中目标对象与第二视频图像中目标对象进行匹配。

对于步骤S101、示意性的，如图2所示(图2中的阿拉伯数字表示摄像头的序号)，图2是自动辅助驾驶技术一车辆车身上摄像头的排布方案，其采用7V5R的传感器布局方案，7V即表示车身具有7颗摄像头，并且7颗摄像头两两之间的视角存在一定范围的交叉，按照顺时针顺序，7颗摄像头两两之间具有交叉视角的摄像头对有（摄像头1，摄像头4）、（摄像头4、摄像头7）、（摄像头7，摄像头3）、（摄像头3，摄像头2）、（摄像头2、摄像头5）、（摄像头5，摄像头6）、（摄像头6、摄像头4），共7对。可将上述任意一对摄像头例如（摄像头1, 摄像头4）作为本发明上述第一摄像头和第二摄像头。

对于步骤S102、通过目标检测器（例如：YOLOV5）对第一视频图像中的各目标对象的位置进行检测获得各目标对象的位置坐标，以一个目标对象为例其坐标可以表示为（x1，y1，x2，y2），其中（x1，y1）为检测目标对象时覆盖目标对象的检测框的左上角的点坐标，（x2，y2）为检测框的右下角的点坐标，在得到目标对象的位置坐标后，对位置坐标中的各个值进行编码（具体编码方式见下文）生成对应的位置编码即上述第一目标对象位置编码，通过截取检测框所覆盖的图像区域，得到对应上述第一目标图像，需要说明的是在本发明中目标对象可以是各种机动车，非机动车，行人等，在本发明中不对目标对象进行限定，第一视频图像中可包括一个或多个目标对象。

对于步骤S103、第二目标图像和第二目标对象位置编码的提取方式与步骤S102中的提取方式一致，在此不再赘述。

对于步骤S104、在一个优选的实施例中，所述目标匹配模型的生成包括：

获取由第一摄像头拍摄的第一图像样本以及由第二摄像头拍摄的第二图像样本；

在训练完毕后生成所述目标匹配模型。

在一个优选的实施例中，所述根据第三融合特征和第四融合特征生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵，包括：

对所述第三融合特征和所述第四融合特征进行矩阵内积运算生成得分矩阵；

通过Sinkhorn算法对所述得分矩阵进行迭代优化生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵。

具体的，对本发明中目标匹配模型进行详细的说明：

首先获取训练模型时所需的图像样本，即上述第一图像样本以及第二图像样本，以图2所示的车辆中摄像头1为第一摄像头，摄像头4为第二摄像头，截取7V的一段视频，将前视广角摄像头4的时间戳设定为标准时间流，分别将每个摄像头下每一帧图像的时间戳与摄像头4的图像时间戳一一对应，并获取对应后每一帧图像的frameId。因为摄像头的帧率相同，微秒级的曝光差异不影响时间戳对齐，因此使个摄像头下的每一帧图像可以很好的一一对应。然后获取摄像头1的视频图像获得上述第一图像样本，获取摄像头4的视频图像获得第二图像样本。

紧接着，制作训练标签：将第一图像样本和第二图像样本通过目标检测器（例如：YOLOV5），分别检测出两图像内的目标对象所在框的位置bbox，以其中一个图像样本中一个目标对象的位置为例，记为（X1，Y1，X2，Y2），（X1，Y1）与（X2，Y2）分别为目标框的左上角和右下角的点坐标，并为两个图像样本中的每个目标对象赋予一个Id，并人工标注出两张对应图像的目标对象Id之间的匹配关系。再将两张图像多个目标对象之间的匹配关系制作成关系矩阵Z。如第一图像样本内有N个目标对象，第二图像样本中有M个目标对象，则关系矩阵Z初始化为N×M的全零矩阵，当第一图像样本内第i个目标对象和第二图像样本的第j个目标对象具有匹配关系，为同一个目标对象，则矩阵Z的第i行第j列元素Z[i, j] = 1。在训练时batchsize设为B，则关系矩阵Z的维度为[B，N，M]。

紧接着，对第一图像样本和第二图像样本中的目标对象的位置坐标进行编码，生成对应的位置编码（即上述第三目标对象位置编码和第四目标对象位置编码），需要说明的是，在本发明中所有图像中目标对象的位置坐标的编码方式是一致的，均是对位置坐标内各个元素进行sin、cos编码，即通过公式方式对位置坐标中的每一元素进行编码，在位置坐标的所有元素编码完毕后，完成对位置坐标的编码；

其中

，

，

为预设的模型输入维度t为位置坐标中的一元素，

为位置坐标中的一元素编码后的值。一般地设置

=256，所以i =0, 1, ..., 127，对每一个t的位置编码

的长度为256维。因此对目标位置bbox =（X1，Y1，X2，Y2）的编码维度为1024维。第一图像样本中N个目标对象，则位置编码特征维度为[1，1024，N，1]。第二图像样本中M个目标对象，则位置编码特征维度为[1，1024， M，1]。在训练时，为保证各个维度的数据保持一致，一般设置为N=16，M= 16，在目标个数N或 M不够16时，对不足的部分需要进行补0操作，即（X1，Y1，X2，Y2）=（0，0，0，0），当超过16时，可以则舍弃多余的目标对象。

以位置坐标（X1，Y1，X2，Y2）为例，首先对X1进行编码，将X1作为上述公式中的t带入公式中，计算得到X1编码后的值，然后对Y1进行编码，将Y1作为上述公式中的t带入公式中，计算得到Y1编码后的值, 然后对X2进行编码，将X2作为上述公式中的t带入公式中，计算得到X2编码后的值, 然后对Y2进行编码，将Y2作为上述公式中的t带入公式中，计算得到Y2编码后的值，最后根据上述所有元素编码后的值生成位置坐标（X1，Y1，X2，Y2）编码后的位置编码，将这一位置编码作为目标对象位置编码；基于上述方法可以求得本发明上述的第一目标对象位置编码、第二目标对象位置编码、第三目标位置编码以及第四目标位置编码。

紧接着为模型的数据输入：所输入的数据输入分为两种，分别是目标对象所在区域的图像块（即上述第三目标图像以及第四目标图像）以及该目标对象的位置编码（即上述第三目标对象位置编码以及上述第四目标对象位置编码）。第一图像样本中目标对象总数为N，第二图像样本中目标对象总数为M，对每个目标对象所在区域的图像块进行尺寸调整，调整至统一大小（H，W，3），一般地，H=W= 96。在训练时batchsize设为B，则输入图像维度为[B*N，3，H，W]和[B*M，3，H，W]。而位置编码特征的维度分别为[B，1024，N，1]和[B，1024，M，1]，在训练时，为保证各个维度的数据保持一致，示意性的一般设置为N=16，M= 16，在目标个数N或M不够16时，则对不足的部分加入大小为（H，W，3）的像素值全为0的图像块，当超过16时，则舍弃多余的目标对象。

将上述数据输入至初始网络模型中，初始网络模型包括四个子网络，分别为图像目标特征提取网络（Conv1）、位置编码特征提取网络（encode）、特征融合网络（mlp）以及匹配矩阵生成网络；

图像目标特征提取网络由6个模块基础模块组成：其中前5个stage基础模块，每个stage基础模块包含二维卷积conv2d、批量归一化BatchNorm2d以及ReLU激活层，分别记为stage1、stage2、stage3、stage4、stage5。第6个模块由二维卷积（conv2d）、ReLU激活层组成一个conv2d1，以输入为[B*N，3，H，W]为例，图像目标特征提取网络中各模块的工作原理如下（输入为[B*M，3，H，W]时，工作原理一致）：

stage1的输入维度[B*N，3，H，W], 经过stage1中的64个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/2，W/2]，再经过stage1中的64个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/2，W/2]；

stage2的输入维度[B*N，64，H/2，W/2]，先经过stage2中的64个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/4，W/4]，再经过stage2中的64个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/4，W/4]；

stage3的输入维度[B*N，64，H/4，W/4]，先经过stage3中的128个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，128，H/8，W/8]，再经过stage3中的128个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，128，H/8，W/8]；

stage4的输入维度[B*N，128，H/8，W/8]，先经过stage4中的256个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，256，H/16，W/16]，再经过stage4中的256个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，256，H/16，W/16]；

stage5的输入维度[B*N，256，H/16，W/16]，先经过stage5中的512个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，512，H/32，W/32]，再经过stage5中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，BatchNorm2d和ReLU激活，输出特征维度为[B*N，512，H/32，W/32]；

图像目标特征提取网络的第6个模块的输入维度[B*N，512，H/32，W/32]，经过conv2d1中的512个kernel_size=3，stride=3，padding=0的卷积核conv2d的卷积，输出特征维度为[B*N，512，1，1]；

位置编码特征提取网络由3个模块基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base2，第3个基础模块由conv2d组成一个conv2d2，以输入为[B，1024，N，1]为例，位置编码特征提取网络各模块的工作原理如下（输入特征为[B，1024，M，1]时，工作原理一致）：

位置编码特征提取网络的第1个基础模块的输入维度[B，1024，N，1], 经过conv2d_base2中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，512，N，1]；

位置编码特征提取网络的第2个基础模块的输入维度[B，512，N，1]，经过conv2d_base2中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，512，N，1]；

位置编码特征提取网络的第3个基础模块的输入维度[B，512，N，1]，经过conv2d2中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，512，N，1]；

特征融合网络由3个模块基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base3，第3个基础模块由conv2d组成一个conv2d3。

特征融合网络的第1个基础模块的输入维度[B，1024，N，1], 经过conv2d_base3中的1024个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，1024，N，1]；

特征融合网络的第2个基础模块的输入维度[B，1024，N，1]，经过conv2d_base3中的1024个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，1024，N，1]；

特征融合网络的第3个基础模块的输入维度[B，1024，N，1]，经过conv2d3中的1024个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，输出特征维度为[B，1024，N，1]；

匹配矩阵生成网络根据特征融合网络的第3个基础模块的输出，通过矩阵内积运算得到维度为[B，N，M]的得分矩阵S，通过Sinkhorn算法对得分矩阵S进行迭代优化，默认迭代100次，得到优化后的增广匹配矩阵S’，其维度为[B，N+1，M+1]；在推理时，默认B=1，进而得到的关系匹配矩阵为增广匹配矩阵S’的前n行前m列部分，得到大小为N×M的关系匹配矩阵。

由上述初始网络模型的结构可以看出，特征提取部分分为3步（以其中第一图像样本所对应的特征为例），

1、将图像维度[B*N，3，H，W]输入到Conv1模块提取特征，则输出为[B*N，512，1，1]，再将[B*N，512，1，1]特征进行reshape得到[B，N，512，1]，再进行矩阵维度顺序重排得到[B，512，N，1]；

2、将维度为[B，1024，N，1]的位置编码特征输入encode模块，得到维度为[B，512，N，1]的特征；

3、将步骤1和步骤2所得到的特征在第2维进行叠加，得到维度为[B，1024，N，1]的特征，再将叠加后的特征输入到mlp模块中，得到维度为[B，1024，N，1]的特征，最后丢弃特征的最后一维，得到维度为[B，1024，N]的特征。

由上可知，经过上述4个子网络，第一图像样本的N个目标输出特征维度为[B，1024，N]，而第二图像样本的M个目标所得的特征维度为[B，1024，M]的特征，将二者通过矩阵内积运算得到维度为[B，N，M]的得分矩阵S，通过Sinkhorn算法对得分矩阵S进行迭代优化，默认迭代100次，得到优化后的增广匹配矩阵S’，其维度为[B，N+1，M+1]。一般地，在推理时B=1，则S’维度为[1，N+1，M+1],进而得到的关系匹配矩阵（即上述第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵）为增广匹配矩阵S’的前n行前m列部分，得到大小为N×M的关系匹配矩阵。

在训练初始网络模型时，匹配损失为Sinkhorn算法迭代之后的增广匹配矩阵S’的负对数似然函数，

其中，（N, M）为人工标注下的第一图像样本中目标对象与第二图像样本中目标对象之间的匹配集合，N表示第一图像样本中的目标对象的总数，M表示第二图像样本中的目标对象的总数，i为第一图像样本中的第i个目标对象，j为第二图像样本中的第j个目标对象,N+1和M+1分别表示关系匹配矩阵S’的第N +1行和M+1列,I表示关系匹配矩阵S’中第M+1列中第一图像样本的目标对象集合，J表示关系匹配矩阵S’中第N +1行中第二图像样本的目标对象集合，设置训练参数，初始学习率lr=0.001，使用adam优化器，训练轮数epochs =20，每5轮降低一次学习率，降低比例为0.1，并使用关系矩阵Z对S’进行监督训练。通过训练过程中在验证集上验证准确率，并保存在验证集上最好的模型，得到本发明的目标匹配模型。

模型训练完毕后，将上述第一目标图像、第一目标对象位置编码、第二目标图像以及第二目标对象位置编码输入至预设的目标匹配模型中，即可得到第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵。

对于步骤S105，具体的，对上述第一视频图像中目标对象与第二视频图像中目标对象之间的关系匹配矩阵进行解析，即可获得第一视频图像和第二视频图像中各目标对象的匹配关系，将各目标对象进行匹配。解析操作与制作关系矩阵Z的过程相反，对大小为N×M的关系匹配矩阵的每一行记为i，求第i行最大值所在的第j列，若该最大值大于某个预设阈值时，该阈值默认设置0.2，则第一视频图像中的第i个目标对象与第二视频图像中第j个目标对象相互匹配；若该最大值小于某个预设阈值时，则认为在第二视频图像中没有与第一视频图像中的第i个目标对象相互匹配的目标。

以图2所示的车辆为例，对目标匹配模型的实际运用进行进一步的，示意性的说明：

在车子行驶开启辅助功能过程中，目标检测器检测出的一对具有交叉视角摄像头的两张图像的目标位置bbox。假设目标的个数分别为N和M，抠出目标的图像块，并resize到（H，W，3），分别得到维度[N，3，H，W]和[M，3，H，W]的输入图像块，以及维度分别为[1，1024，N，1]和[1，1024，M，1]的位置编码特征。

模型预测：将上述所获取的维度分别为[N，3，H，W]和[M，3，H，W]的图像块，以及维度分别为[1，1024，N，1]和[1，1024，M，1]的位置编码特征输入到目标匹配模型中，并经过sinkhorn迭代优化，得到[1，N+1，M+1]的增广匹配矩阵S’，提取S’的前n行前m列部分，得到大小为N×M的关系匹配矩阵。

匹配结果：解析上述的关系匹配矩阵可获得一对摄像头图像目标之间的匹配关系。

多模型预测：上述步骤实现了获取一对摄像头图像目标之间的匹配关系，在7颗摄像头的感知方案中，共有7对摄像头对的图像目标需要匹配。针对每一对摄像头训练一个模型可获得两两匹配的7个关系匹配矩阵，解析7个关系匹配矩阵可获得7对匹配关系，实现7颗摄像头两两之间的多目标匹配。

如图3所示，在上述方法项实施例的基础上，本发明对应提供了装置项实施例；

在一个优选的实施例中，还包括模型构建模块；所述模型构建模块，用于获取由第一摄像头拍摄的第一图像样本以及由第二摄像头拍摄的第二图像样本；

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

所述领域的技术人员可以清楚地了解到，为的方便和简洁，上述描述的装置的具体工作过程，可参考前述方法实施例中对应的过程，在此不再赘述。

在上述方法项实施例的基础上本发明对应提供了存储介质项实施例；

所述存储介质为计算机可读存储介质，所述计算机程序存储在所述计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种交叉视角下的摄像头目标匹配方法，其特征在于，包括：

获取由第一摄像头拍摄的第一视频图像以及由第二摄像头拍摄的第二视频图像；其中，所述第一摄像头和所述第二摄像头为具有交叉视角的一对摄像头；

2.如权利要求1所述的交叉视角下的摄像头目标匹配方法，其特征在于，所述目标匹配模型的生成包括：

以第三目标图像、第三目标对象位置编码、第四目标图像以及第四目标对象位置编码为输入，以第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、位置编码特征提取网络、特征融合网络和匹配矩阵生成网络，且在训练时，所述图像目标特征提取网络分别对第三目标图像和第四目标图像的图像特征进行提取，生成第三目标图像特征和第四目标图像特征，所述位置编码特征提取网络分别对第三目标对象位置编码和第四目标对象位置编码进行特征提取，生成第三目标对象位置特征和第四目标对象位置特征，所述特征融合网络将第三目标图像特征与第三目标对象位置特征进行融合生成第三融合特征，将第四目标图像特征与第四目标对象位置特征进行融合生成第四融合特征，所述匹配矩阵生成网络，用于根据第三融合特征和第四融合特征生成第一图像样本中目标对象与第二图像样本中目标对象之间的关系匹配矩阵；

在训练完毕后生成所述目标匹配模型。

3.如权利要求2所述的交叉视角下的摄像头目标匹配方法，其特征在于，对位置坐标进行编码包括：

通过以下公式对位置坐标中的每一元素进行编码，在位置坐标的所有元素编码完毕后，完成对位置坐标的编码；