CN115641559B

CN115641559B - 一种环视摄像头组的目标匹配方法、装置及存储介质

Info

Publication number: CN115641559B
Application number: CN202211661056.2A
Authority: CN
Inventors: 杨超; 刘国清; 杨广; 王启程
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co.,Ltd.
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-06-02
Anticipated expiration: 2042-12-23
Also published as: CN115641559A

Abstract

本发明公开了一种环视摄像头组的目标匹配方法、装置及存储介质，所述方法包括：获取环视摄像头组中各摄像头所拍摄的视频图像；环视摄像头组中包括若干对具有交叉视角的摄像头；提取目标对象的目标图像；将目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成编码信息；将各目标图像以及编码信息输入至预设的目标匹配模型中，以使目标匹配模型将目标图像的图像特征与对应的编码信息的编码特征进行融合，生成第一融合特征；根据每一对摄像头内两摄像头所对应的第一融合特征，生成每一对摄像头内两摄像头所拍摄的视频图像中目标对象之间的关系匹配矩阵；根据关系匹配矩阵，将每一对摄像头中，两摄像头所拍摄的视频图像的目标对象进行匹配。

Description

一种环视摄像头组的目标匹配方法、装置及存储介质

技术领域

本发明涉及辅助驾驶技术领域，尤其涉及一种环视摄像头组的目标匹配方法、装置及存储介质。

背景技术

在辅助驾驶技术上，车身周围遍布多种传感器以实现精准的环境感知。例如7V5R的感知方案下，一辆车具有7颗摄像头以实现360°的环境感知。并且7颗摄像头相邻的两摄像头之间的视角存在一定范围的交叉。即一个目标可能会同时出现在两个具有交叉视角的摄像头图像内，即存在多组具有交叉视角的摄像头对，为了更真实准确的感知车辆周围的环境，提升辅助驾驶的安全性，将交叉视角下的同一个目标进行匹配融合显得必要，而现有技术一般通过训练目标匹配模型来进行目标对象的匹配，以上述方案为例，存在7对具有交叉视角的摄像头对，则对于每对摄像头之间的目标对象匹配都需要训练一个模型，一共需要训练7个模型，需要耗费大量的计算资源以及时间。

发明内容

本发明实施例提供一种环视摄像头组的目标匹配方法，装置及存储介质，能通过一个模型实现对多组具有交叉视角的摄像头对之间的目标对象匹配，节约了计算资源和时间。

本发明一实施例提供一种环视摄像头组的目标匹配方法，包括：获取环视摄像头组中各摄像头所拍摄的视频图像；其中，所述环视摄像头组中包括若干具有交叉视角的摄像头对；

提取各视频图像中目标对象所在区域的图像，生成各摄像头所对应的目标图像；

提取各视频图像中目标对象的位置坐标，将每一视频图像中目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成每一摄像头所对应的编码信息；

将各摄像头所对应的目标图像以及编码信息输入至预设的目标匹配模型中，以使所述目标匹配模型将每一摄像头所对应的目标图像的图像特征与对应的编码信息的编码特征进行融合，生成每一摄像头所对应的第一融合特征；根据每一对摄像头内两摄像头所对应的第一融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像中目标对象之间的关系匹配矩阵；

根据每一关系匹配矩阵，将所对应的每一对摄像头中，两摄像头所拍摄的视频图像的目标对象进行匹配。

进一步的，所述目标匹配模型的生成包括：

获取环视摄像头组中各摄像头所拍摄的视频图像样本；

提取各视频图像样本中目标对象所在区域的图像，生成各摄像头所对应的目标图像样本；

提取各视频图像样本中目标对象的位置坐标，将每一视频图像样本中目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成各摄像头所对应的编码信息样本；

以各摄像头所对应的目标图像样本以及编码信息样本为输入，以每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、编码特征提取网络、特征融合网络和匹配矩阵生成网络，且在训练时，所述图像目标特征提取网络对各目标图像样本的图像特征进行提取，生成各目标图像样本的图像特征，所述编码特征提取网络对各编码信息样本进行提取特征提取，获得各编码信息样本的编码特征，所述特征融合网络将每一目标图像样本的图像特征与对应的编码信息样本的编码特征进行融合，生成每一摄像头所对应的第二融合特征，所述匹配矩阵生成网络根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵；

在训练完毕后生成所述目标匹配模型。

进一步的，通过以下方式将目标对象的位置坐标按照摄像头编号进行编码：

根据摄像头的总数h，生成长度为4×h，且元素值均为零的初始数组；

根据目标对象所对应的摄像头编号，将所述初始数组中对应位置的零元素值替换为目标对象的位置坐标，生成编码信息。

进一步的，所述根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵，包括：将每一对摄像头内两摄像头所对应的第二融合特征进行矩阵内积运算，生成若干得分矩阵；通过Sinkhorn算法对每一得分矩阵进行迭代优化，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵。

进一步的，在对预设的初始网络模型进行训练时，初始网络模型所对应的损失函数为：

；

其中，（N, M）为人工标注下的同一摄像头对中一个摄像头所拍摄的第一视频图像样本与另一个摄像头所拍摄的第二视频图像样本中目标对象之间的匹配集合，N表示第一视频图像样本中的目标对象的总数，M表示第二视频图像样本中的目标对象的总数，i为第一视频图像样本中的第i个目标对象，j为第二视频图像样本中的第j个目标对象,N+1和M+1分别表示关系匹配矩阵S’的第N +1行和M+1列,I表示关系匹配矩阵S’中第M+1列中第一视频图像样本的目标对象集合，J表示关系匹配矩阵S’中第N +1行中第二视频图像样本的目标对象集合。

在上述方法项实施例的基础上本发明对应提供了装置项实施例；

本发明一实施例提供了一种环视摄像头组的目标匹配装置，包括：图像获取模块、目标图像提取模块、编码信息提取模块、模型识别模块以及匹配模块；

所述图像获取模块，用于获取环视摄像头组中各摄像头所拍摄的视频图像；其中，所述环视摄像头组中包括若干具有交叉视角的摄像头对；

所述目标图像提取模块，用于提取各视频图像中目标对象所在区域的图像，生成各摄像头所对应的目标图像；

所述编码信息提取模块，用于提取各视频图像中目标对象的位置坐标，将每一视频图像中目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成每一摄像头所对应的编码信息；

所述模型识别模块，用于将各摄像头所对应的目标图像以及编码信息输入至预设的目标匹配模型中，以使所述目标匹配模型将每一摄像头所对应的目标图像的图像特征与对应的编码信息的编码特征进行融合，生成每一摄像头所对应的第一融合特征；根据每一对摄像头内两摄像头所对应的第一融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像中目标对象之间的关系匹配矩阵；

所述匹配模块，用于根据每一关系匹配矩阵，将所对应的每一对摄像头中，两摄像头所拍摄的视频图像的目标对象进行匹配。

进一步的，还包括模型构建模块；所述模型构建模块，用于获取环视摄像头组中各摄像头所拍摄的视频图像样本；

以各摄像头所对应的目标图像样本以及编码信息样本为输入，以每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、编码特征提取网络、特征融合网络和匹配矩阵生成网络，且在训练时，所述图像目标特征提取网络对各目标图像样本的图像特征进行提取，生成各目标图像样本的图像特征，所述编码特征提取网络对各编码信息样本进行提取特征提取，获得各编码信息样本的编码特征，所述特征融合网络将每一目标图像样本的图像特征与对应的编码信息样本的编码特征进行融合，生成每一摄像头所对应的第二融合特征；根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵；

在训练完毕后生成所述目标匹配模型。

在上述方法项实施例的基础上，本发明对应提供了一存储介质项实施例；

本发明一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行上述发明实施例所述的环视摄像头组的目标匹配方法。

通过实施本发明具有如下有益效果：

本发明一实施例提供了一种环视摄像头组的目标匹配方法、装置及存储介质，所述方法在对多组具有交叉视角的摄像头对所拍摄的图像中目标对象进行匹配时，将目标对象的图像特征、目标对象的位置特征以及摄像头编号特征，进行融合，基于融合后的特征进行各组摄像头对中两个图像中目标对象的匹配，与现有技术相比在进行目标匹配时加入了目标对象的位置信息，不同摄像头所拍摄的图像中同一目标的位置信息是有关联的，加上目标位置信息可以增强两个图像之间同一目标之间的关联性，使得两个图像之间目标对象匹配更加的准确，其次由于各颗摄像头的位置和编号是固定的为了使得模型能够实现各摄像头对的目标对象的匹配摄像头的编号进行编码加入到特征中，从而训练生成一个能够对多组摄像头对之间的目标对象进行匹配的模型。

附图说明

图1是本发明一实施例提供的一种环视摄像头组的目标匹配方法的流程示意图。

图2是一车辆车身上摄像头的位置排布情况示意图。

图3是本发明一实施例提供的一种环视摄像头组的目标匹配装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供了一种环视摄像头组的目标匹配方法，至少包括如下步骤：

步骤S101：获取环视摄像头组中各摄像头所拍摄的视频图像；其中，所述环视摄像头组中包括若干对具有交叉视角的摄像头。

步骤S102：提取各视频图像中目标对象所在区域的图像，生成各摄像头所对应的目标图像。

步骤S103：提取各视频图像中目标对象的位置坐标，将每一视频图像中目标对象的位置坐标和对应摄像头的摄像头编号进行编码，生成每一摄像头所对应的编码信息。

步骤S104：将各摄像头所对应的目标图像以及编码信息输入至预设的目标匹配模型中，以使所述目标匹配模型将每一摄像头所对应的目标图像的图像特征与对应的编码信息的编码特征进行融合，生成每一摄像头所对应的第一融合特征；根据每一对摄像头内两摄像头所对应的第一融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像中目标对象之间的关系匹配矩阵。

步骤S105：根据每一关系匹配矩阵，将所对应的每一对摄像头中，两摄像头所拍摄的视频图像的目标对象进行匹配。

对于步骤S101、示意性的，如图2所示(图2中的阿拉伯数字表示摄像头的序号)，图2是自动辅助驾驶技术一车辆车身上摄像头的排布方案，其采用7V5R的传感器布局方案，7V即表示车身具有7颗摄像头，并且7颗摄像头中有些摄像头之间的视角存在一定范围的交叉，按照顺时针顺序，7颗摄像头中，两两之间具有交叉视角的摄像头对有（摄像头1，摄像头4）、（摄像头4、摄像头7）、（摄像头7，摄像头3）、（摄像头3，摄像头2）、（摄像头2、摄像头5）、（摄像头5，摄像头6）、（摄像头6、摄像头4），共7对，获取上述7对摄像头所拍摄的图像，即可得到本发明上述视频图像。

对于步骤S102、通过目标检测器（例如：YOLOV5）对各视频图像中的各目标对象进行检测，识别出各目标对象所在的区域，并对该区域进行提取，生成上述目标图像。

对于步骤S103、同样的基于目标检测器（例如：YOLOV5）对各视频图像中的各目标对象的位置进行检测获得各目标对象的位置坐标，以一个目标对象为例其坐标可以表示为（x1，y1，x2，y2），其中（x1，y1）为检测目标对象时覆盖目标对象的检测框的左上角的点坐标，（x2，y2）为检测框的右下角的点坐标，在得到目标对象的位置坐标后，对位置坐标按照对应摄像头的摄像头编号进行编码（具体编码方式见下文）生成对应的编码信息。

对于步骤S104、在一个优选的实施例中，所述目标匹配模型的生成包括：

获取环视摄像头组中各摄像头所拍摄的视频图像样本；

在训练完毕后生成所述目标匹配模型。

在一个优选的实施例中，所述根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵，包括：

将每一对摄像头内两摄像头所对应的第二融合特征进行矩阵内积运算，生成若干得分矩阵；

通过Sinkhorn算法对每一得分矩阵进行迭代优化，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵。

具体的，对本发明中目标匹配模型进行详细的说明：

首先获取训练模型时，环视摄像头组中各摄像头所拍摄的视频图像样本，以其中一摄像头对的视频图像样本为例：以图2所示的车辆中摄像头1为第一摄像头，摄像头4为第二摄像头，截取7V的一段视频，将前视广角摄像头4的时间戳设定为标准时间流，分别将每个摄像头下每一帧图像的时间戳与摄像头4的图像时间戳一一对应，并获取对应后每一帧图像的frameId。因为摄像头的帧率相同，微秒级的曝光差异不影响时间戳对齐，因此使个摄像头下的每一帧图像可以很好的一一对应。然后获取摄像头1的视频图像，得到摄像头1的视频图像样本，获取摄像头4的视频图像获得摄像头2的视频图像样本。

紧接着，制作训练标签：以一组摄像头对中的两个摄像头所拍摄得到的第一视频图像样本和第二视频图像样本为例：

将第一视频图像样本和第二视频图像样本通过目标检测器（例如：YOLOV5），分别检测出两图像内的目标对象所在框的位置bbox，以其中一个视频图像样本中一个目标对象的位置为例，记为（X1，Y1，X2，Y2），（X1，Y1）与（X2，Y2）分别为目标框的左上角和右下角的点坐标，并为两个视频图像样本中的每个目标对象赋予一个Id，并人工标注出两张对应图像的目标对象Id之间的匹配关系。再将两张图像多个目标对象之间的匹配关系制作成关系矩阵Z。如第一视频图像样本内有N个目标对象，第二视频图像样本中有M个目标对象，则关系矩阵Z初始化为N×M的全零矩阵，当第一视频图像样本内第i个目标对象和第二视频图像样本的第j个目标对象具有匹配关系，为同一个目标对象，则矩阵Z的第i行第j列元素Z[i, j]= 1。在训练时batchsize设为B，则关系矩阵Z的维度为[B，N，M]。

紧接着，对第一视频图像样本中目标对象的位置坐标、第一视频图像样本所对应的摄像头的编码、第二视频图像样本中目标对象的位置坐标以及第二视频图像样本所对应的摄像头编号进行编码，生成每一摄像头头所对应的编码信息，需要说明的是，在本发明中所有图像中目标对象的位置坐标及摄像头编号的编码方式是一致的，均是按照摄像头编号将目标对象的位置坐标按照4个为一组的顺序进行编排。

在一个优选的实施例中，通过以下方式公式对将目标对象的位置坐标中的每一元素和按照摄像头编号进行编码：

根据摄像头的总数h，生成长度为4×h，且元素值均为0的初始数组；

根据目标对象所对应的摄像头编号，将所述初始数组中对应位置的0元素值替换为目标对象的位置坐标，生成编码信息。

具体的，记摄像头的总数为h，摄像头的编号以阿拉伯数字依次进行编号，示意性的当摄像头的总数为7时，各摄像头的编号分别为：1、2、3、4、5、6、7，每个目标对象的坐标由4个元素组成，则初始化一个长度为4×h元素值全为零的初始数组；

紧接着，根据目标对象所对应的摄像头编号，确定初始数组中所需替换的零元素的位置，具体的，摄像头编号为即为初始数组中所需替换的零元素所在的位置，例如当摄像头编号为1时，则将初始数组中第1到4中的4个零元素替换为目标对象的位置坐标，初始数组中的其余元素保持不变，当摄像头编号为2时，则将初始数组中第5到8中的4个零元素替换为目标对象的位置坐标，初始数组中的其余元素保持不变，以此类推，即将第i（i=1，2，3，...，h）个摄像头的某个目标的坐标(x1, y1, x2, y2)按照4个为一组的顺序进行编排，则该编码信息为[0¹，0¹，0¹，0¹，...，x1ⁱ， y1ⁱ，x2ⁱ，y2ⁱ，0^h，0^h，0^h，0^h]。

因此对目标位置bbox =（X1，Y1，X2，Y2）按照摄像头编号进行编码后维度为28维。第一视频图像样本中N个目标对象，则位置编码特征维度为[1，28，N，1]。第二视频图像样本中M个目标对象，则位置编码特征维度为[1，28，M，1]。

紧接着为模型的数据输入：所输入的数据输入分为两种，分别是目标对象所在区域的图像块（即上述目标图像样本）以及该目标图像样本所对应的编码信息。假定第一视频图像样本中目标对象总数为N，第二视频图像样本中目标对象总数为M，对每个目标对象所在区域的图像块进行尺寸调整，调整至统一大小（H，W，3），一般地，H=W= 96。在训练时batchsize设为B，则输入图像维度为[B*N，3，H，W]和[B*M，3，H，W]。而位置编码特征的维度分别为[B，28，N，1]和[B，28，M，1]。

将上述数据输入至初始网络模型中，初始网络模型包括四个子网络，分别为图像目标特征提取网络（CNN）、编码特征提取网络（encode）、特征融合网络（decode）以及匹配矩阵生成网络；

图像目标特征提取网络由6个模块基础模块组成：其中前5个stage基础模块，每个stage基础模块包含二维卷积conv2d、批量归一化BatchNorm2d以及ReLU激活层，分别记为stage1、stage2、stage3、stage4、stage5。第6个模块由二维卷积（conv2d）组成一个conv2d1，以输入为[B*N，3，H，W]为例，图像目标特征提取网络中各模块的工作原理如下（输入为[B*M，3，H，W]时，工作原理一致）：

stage1的输入维度[B*N，3，H，W], 经过stage1中的64个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，64维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/2，W/2]，再经过stage1中的64个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，64维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/2，W/2]；

stage2的输入维度[B*N，64，H/2，W/2]，先经过stage2中的64个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，64维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/4，W/4]，再经过stage2中的64个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，64维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，64，H/4，W/4]；

stage3的输入维度[B*N，64，H/4，W/4]，先经过stage3中的128个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，128维BatchNorm2d和ReLU激活，输出特征维度为[B*N，128，H/8，W/8]，再经过stage3中的128个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，128维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，128，H/8，W/8]；

stage4的输入维度[B*N，128，H/8，W/8]，先经过stage4中的256个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，256维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，256，H/16，W/16]，再经过stage4中的256个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，256维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，256，H/16，W/16]；

stage5的输入维度[B*N，256，H/16，W/16]，先经过stage5中的512个kernel_size=3，stride=2，padding=1的卷积核conv2d的卷积，512维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，512，H/32，W/32]，再经过stage5中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，512维的BatchNorm2d和ReLU激活，输出特征维度为[B*N，512，H/32，W/32]；

图像目标特征提取网络的第6个模块conv2d1的输入维度[B*N，512，H/32，W/32]，经过conv2d1中的512个kernel_size=3，stride=3，padding=0的卷积核conv2d的卷积，输出特征维度为[B*N，512，1，1]；

编码特征提取网络由3个模块基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base1，第3个基础模块由conv2d组成一个conv2d2。以输入为[B，28，N，1]为例，编码特征提取网络各模块的工作原理如下（输入特征为[B，28，M，1]时，工作原理一致）：

编码特征提取网络的第1个基础模块的输入维度[B，28，N，1], 经过conv2d_base2中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，512，N，1]；

编码特征提取网络的第2个基础模块的输入维度[B，512，N，1]，经过conv2d_base1中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，512，N，1]；

编码特征提取网络的第3个基础模块的输入维度[B，512，N，1]，经过conv2d2中的512个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，512，N，1]；

特征融合网络由3个模块基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base2，第3个基础模块由conv2d组成一个conv2d3。

特征融合网络的第1个基础模块的输入维度[B，1024，N，1], 经过conv2d_base3中的1024个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，1024，N，1]；

特征融合网络的第2个基础模块的输入维度[B，1024，N，1]，经过conv2d_base3中的1024个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积和ReLU激活，输出特征维度为[B，1024，N，1]；

特征融合网络的第3个基础模块的输入维度[B，1024，N，1]，经过conv2d3中的1024个kernel_size=1，stride=1，padding=0的卷积核conv2d的卷积，输出特征维度为[B，1024，N，1]；

匹配矩阵生成网络根据特征融合网络的第3个基础模块的输出，通过矩阵内积运算得到维度为[B，N，M]的得分矩阵S，通过Sinkhorn算法对得分矩阵S进行迭代优化，默认迭代100次，得到优化后的增广匹配矩阵S’，其维度为[B，N+1，M+1]。

由上述初始网络模型的结构可以看出，特征提取部分分为3步（以其中第一视频图像样本所对应的特征为例），

1、将图像维度[B*N，3，H，W]输入到CNN模块提取特征，则输出为[B*N，512，1，1]，再将[B*N，512，1，1]特征进行reshape得到[B，N，512，1]，再进行矩阵维度顺序重排得到[B，512，N，1]；

2、将维度为[B，28，N，1]的位置编码特征输入encode模块，得到维度为[B，512，N，1]的特征；

3、将步骤1和步骤2所得到的特征在第2维进行叠加，得到维度为[B，1024，N，1]的特征，再将叠加后的特征输入到decode网络中，得到维度为[B，1024，N，1]的特征，最后丢弃特征的最后一维，得到维度为[B，1024，N]的特征。

由上可知，经过上述4个子网络，一张图像内的N个目标图像块和编码特征经过神经网络结构的特征提取，输出特征维度为[B，1024，N]，那么在图2所示的7个环视摄像头组中，7个摄像头图像下的Nf（f = 1，2，3，4，5，6，7）个目标的输出特征维度为[B，1024，Nf]，因此，当摄像头1和4图像内的目标需要匹配时，则记f=1时的N1=N和f =4时的N4=M，摄像头1和4图像内的目标的特征维度分别为[B，1024，N]和[B，1024，M]，再将二者通过矩阵内积运算得到维度为[B，N，M]得分矩阵S，通过sinkhorn算法对得分矩阵S进行迭代优化，默认迭代100次，得到优化后的增广匹配矩阵S’，其维度为[B，N+1，M+1]。一般地，在推理时B=1，则S’维度为[1，N+1，M+1],进而得到的关系匹配矩阵（即上述第一视频图像样本中目标对象与第二视频图像样本中目标对象之间的关系匹配矩阵）为增广匹配矩阵S’的前n行前m列部分，得到大小为N×M的关系匹配矩阵。通过这一方式可得到环视摄像头组内各对摄像头中，两个摄像头之间各目标对象的关系匹配矩阵。

进一步的，在训练初始网络模型时，匹配损失为Sinkhorn算法迭代之后的增广匹配矩阵S’的负对数似然函数，

其中，（N, M）为人工标注下的同一摄像头对中一个摄像头所拍摄的第一视频图像样本与另一个摄像头所拍摄的第二视频图像样本中目标对象之间的匹配集合，N表示第一视频图像样本中的目标对象的总数，M表示第二视频图像样本中的目标对象的总数，i为第一视频图像样本中的第i个目标对象，j为第二视频图像样本中的第j个目标对象,N+1和M+1分别表示关系匹配矩阵S’的第N +1行和M+1列,I表示关系匹配矩阵S’中第M+1列中第一视频图像样本的目标对象集合，J表示关系匹配矩阵S’中第N +1行中第二视频图像样本的目标对象集合，设置训练参数，初始学习率lr=0.001，使用adam优化器，训练轮数epochs =20，每5轮降低一次学习率，降低比例为0.1，并使用关系矩阵Z对S’进行监督训练。通过训练过程中在验证集上验证准确率，并保存在验证集上最好的模型，得到本发明的目标匹配模型。

模型训练完毕后，将上述各摄像头所对应的目标图像以及编码信息输入至预设的目标匹配模型中，即可得到环视摄像头组的每一对摄像头内，两摄像头所拍摄的视频图像中目标对象之间的关系匹配矩阵。

对于步骤S105，具体的，对每一关系匹配矩阵进行解析，即可获得两个摄像头所拍摄的视频图像中各目标对象的匹配关系，将各目标对象进行匹配。推理时的解析操作与训练时制作关系矩阵Z的过程相反，对大小为N×M的关系匹配矩阵的每一行记为i，求第i行最大值所在的第j列，若该最大值大于某个预设阈值时，该阈值默认设置0.2，则一视频图像中的第i个目标对象与另一视频图像中第j个目标对象相互匹配；若该最大值小于某个预设阈值时，则认为在一视频图像中没有与另一视频图像中的第i个目标对象相互匹配的目标。

以图2所示的车辆为例，对目标匹配模型的实际运用进行进一步的，示意性的说明：

在车子行驶开启辅助功能过程中，目标检测器检测出的7颗摄像头图像内的目标位置bbox，抠出目标的图像块，并resize到（H， W， 3），分别得到维度[Nf，3，H，W]的图像块（f = 1，2，3，4，5，6，7），以及其维度为[1，28，Nf，1]的编码特征。

模型预测：将上述所得到维度[Nf，3，H，W]的图像块，以及其维度为[1，28，Nf，1]的编码特征输入到网络模型中得到维度为[1，1024，Nf]的特征。因此，当摄像头1和4图像内的目标需要匹配时，则记f=1时的N1=N和f =4时的N4=M，摄像头1和4图像内的目标的特征维度分别为[1，1024，N]、[1，1024，M]，再将二者通过矩阵内积运算得到维度为[1，N，M]得分矩阵S，通过sinkhorn算法对得分矩阵S进行迭代优化，默认迭代100次，得到优化后的增广匹配矩阵S’，其维度为[1，N+1，M+1]。以此类推，当其他两个摄像头之间需要匹配时，将二者的图像块和编码特征输入的网络模型中进行特征提取以及矩阵内积运算得到得分矩阵S，最后再通过sinkhorn算法对得分矩阵S进行迭代优化，默认迭代100次，得到优化后的增广匹配矩阵S’。因此，7个摄像头两两匹配将获得7个增广匹配矩阵S’，进而获得7个关系匹配矩阵。

匹配结果：解析上述7个关系匹配矩阵，即可获得7个摄像头中各对摄像头内两个摄像头图像目标之间的匹配关系。从而实现了使用一个统一的模型解决7颗摄像头图像两两之间的目标匹配，节约了模型推理时间，并减少了计算资源的占用，在辅助驾驶技术实际场景下具有很高的实用价值。

如图3所示，在上述方法项实施例的基础上，本发明对应提供了装置项实施例；

在一个优选的实施例中，还包括模型构建模块；所述模型构建模块，用于获取环视摄像头组中各摄像头所拍摄的视频图像样本；

在训练完毕后生成所述目标匹配模型。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

所述领域的技术人员可以清楚地了解到，为的方便和简洁，上述描述的装置的具体工作过程，可参考前述方法实施例中对应的过程，在此不再赘述。

在上述方法项实施例的基础上本发明对应提供了存储介质项实施例；

所述存储介质为计算机可读存储介质，所述计算机程序存储在所述计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种环视摄像头组的目标匹配方法，其特征在于，包括：

获取环视摄像头组中各摄像头所拍摄的视频图像；其中，所述环视摄像头组中包括若干对具有交叉视角的摄像头；

提取各视频图像中目标对象的位置坐标，将每一视频图像中目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成每一摄像头所对应的编码信息；其中，通过以下方式将目标对象的位置坐标按照摄像头编号进行编码：根据摄像头的总数h，生成长度为4×h，且元素值均为零的初始数组；根据目标对象所对应的摄像头编号，将所述初始数组中对应位置的零元素值替换为目标对象的位置坐标，生成编码信息；

根据每一关系匹配矩阵，将所对应的每一对摄像头中，两摄像头所拍摄的视频图像的目标对象进行匹配；

其中，所述目标匹配模型的生成包括：

获取环视摄像头组中各摄像头所拍摄的视频图像样本；

以各摄像头所对应的目标图像样本以及编码信息样本为输入，以每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、编码特征提取网络、特征融合网络和匹配矩阵生成网络；图像特征提取网络由6个基础模块组成：其中前5个基础模块，每个基础模块包含二维卷积conv2d、批量归一化BatchNorm2d以及ReLU激活层，第6个模块由二维卷积conv2d组成一个conv2d1；编码特征提取网络由3个基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base1，第3个基础模块由conv2d组成一个conv2d2；特征融合网络由3个基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base2，第3个基础模块由conv2d组成一个conv2d3；且在训练时，所述图像目标特征提取网络对各目标图像样本的图像特征进行提取，生成各目标图像样本的图像特征，所述编码特征提取网络对各编码信息样本进行特征提取，获得各编码信息样本的编码特征，所述特征融合网络将每一目标图像样本的图像特征与对应的编码信息样本的编码特征进行融合，生成每一摄像头所对应的第二融合特征，所述匹配矩阵生成网络根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵；

在训练完毕后生成所述目标匹配模型；

在对预设的初始网络模型进行训练时，初始网络模型所对应的损失函数为：

；

2.如权利要求1所述的环视摄像头组的目标匹配方法，其特征在于，所述根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵，包括：

3.一种环视摄像头组的目标匹配装置，其特征在于，包括：图像获取模块、目标图像提取模块、编码信息提取模块、模型识别模块、匹配模块以及模型构建模块；

所述编码信息提取模块，用于提取各视频图像中目标对象的位置坐标，将每一视频图像中目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成每一摄像头所对应的编码信息；其中，通过以下方式将目标对象的位置坐标按照摄像头编号进行编码：根据摄像头的总数h，生成长度为4×h，且元素值均为零的初始数组；根据目标对象所对应的摄像头编号，将所述初始数组中对应位置的零元素值替换为目标对象的位置坐标，生成编码信息；

所述匹配模块，用于根据每一关系匹配矩阵，将所对应的每一对摄像头中，两摄像头所拍摄的视频图像的目标对象进行匹配；

所述模型构建模块，用于获取环视摄像头组中各摄像头所拍摄的视频图像样本；提取各视频图像样本中目标对象所在区域的图像，生成各摄像头所对应的目标图像样本；提取各视频图像样本中目标对象的位置坐标，将每一视频图像样本中目标对象的位置坐标按照对应摄像头的摄像头编号进行编码，生成各摄像头所对应的编码信息样本；以各摄像头所对应的目标图像样本以及编码信息样本为输入，以每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵为输出，对预设的初始网络模型进行训练；其中，所述初始网络模型包括：图像目标特征提取网络、编码特征提取网络、特征融合网络和匹配矩阵生成网络；图像特征提取网络由6个基础模块组成：其中前5个基础模块，每个基础模块包含二维卷积conv2d、批量归一化BatchNorm2d以及ReLU激活层，第6个模块由二维卷积conv2d组成一个conv2d1；编码特征提取网络由3个基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base1，第3个基础模块由conv2d组成一个conv2d2；特征融合网络由3个基础模块组成：其中前2个基础模块，每个基础模块由conv2d、ReLU激活组成一个conv2d_base2，第3个基础模块由conv2d组成一个conv2d3；且在训练时，所述图像目标特征提取网络对各目标图像样本的图像特征进行提取，生成各目标图像样本的图像特征，所述编码特征提取网络对各编码信息样本进行特征提取，获得各编码信息样本的编码特征，所述特征融合网络将每一目标图像样本的图像特征与对应的编码信息样本的编码特征进行融合，生成每一摄像头所对应的第二融合特征；根据每一对摄像头内两摄像头所对应的第二融合特征，生成每一对摄像头内，两摄像头所拍摄的视频图像样本中目标对象之间的关系匹配矩阵；在训练完毕后生成所述目标匹配模型；在对预设的初始网络模型进行训练时，初始网络模型所对应的损失函数为：

；

4.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至2中任意一项所述的环视摄像头组的目标匹配方法。