CN111507160B

CN111507160B - 集成从执行协同驾驶的车辆获取的行驶图像的方法及装置

Info

Publication number: CN111507160B
Application number: CN202010070470.0A
Authority: CN
Inventors: 金桂贤; 金镕重; 金鹤京; 南云铉; 夫硕焄; 成明哲; 申东洙; 吕东勋; 柳宇宙; 李明春; 李炯树; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-21
Publication date: 2023-11-14
Anticipated expiration: 2040-01-21
Also published as: US10796206B2; JP6910081B2; JP2020126637A; EP3690744B1; EP3690744A1; KR102301631B1; US20200250499A1; EP3690744C0; KR20200095387A; CN111507160A

Abstract

本发明是集成从执行协同驾驶的车辆获取的行驶图像的方法及装置。本发明提供一种针对从执行协同驾驶的车辆中获取的行驶图像进行集成的方法，其特征在于，安装于主车辆上的主行驶图像集成装置执行以下步骤：(a)将主行驶图像输入到主客体检测器，(1)通过主卷积层运用卷积运算，生成主特征图，(2)通过主RPN生成主ROI，(3)通过主池化层运用池化运算，生成主池化特征图，(4)通过主FC层运用FC运算，生成主客体相关主客体检测信息；(b)将主池化特征图输入到主置信网络，生成主置信度；及(c)从子车辆获得子客体检测信息和子置信度，并利用主及子置信度集成主客体检测信息和子客体检测信息。

Description

集成从执行协同驾驶的车辆获取的行驶图像的方法及装置

技术领域

本发明涉及从执行协同驾驶(Cooperative Driving)的车辆获取的行驶图像的集成方法及利用其方法的行驶图像(Driving Image)集成装置，尤其涉及针对从所述车辆获得的行驶图像进行集成，从而融合(Fusion)从车辆提供的行驶图像中检测出来的客体检测信息，健壮地(Robust)识别出行驶图像中的客体的方法及利用其方法的行驶图像集成装置。

背景技术

深度学习(Deep Learning)是基于一组算法的机器学习(Machine Learning)及人工神经网络(Artificial Neural Network)的一个领域，这些算法利用具有多个处理层(Processing Layer)的深度图表(Deep Graph)，针对数据进行高层次抽象(Abstraction)建模。一般的深度学习构架(Deep Learning Architecture)包括很多神经层和数百万个参数。这些参数与ReLU(Rectified Linear Unit,修正线性单元)、随机失活(Dropout)、数据增强(Data Augmentation)以及SGD(Stochastic Gradient descent，随机梯度下降)一样，可以通过与许多层一起运行的新学习技法，在安装有高速GPU的电脑上大容量数据进行学习。

在现有的深度学习构架中，CNN(Convolutional Neural Network，卷积神经网络)是最广泛使用的深度学习构架之一。CNN的概念已提出了20多年，但CNN的真正力量是最近深度学习理论得到发展之后才被认识到的。目前CNN在人脸识别、图像分类、图像截图生成、客体检测、视觉提问回答及自动驾驶汽车等多种人工智能及机器学习应用程序中取得了巨大成功。

尤其，自动驾驶汽车中的客体检测技术广泛使用在道路上的其他汽车、步行者、车道、信号灯等的检测方面，有时用于在自动驾驶中检测多样的客体。

另外，客体检测技术，除了自动驾驶汽车以外，还用于军事、监视等其他领域。

但是，根据现有的客体检测技术，客体的识别结果会根据使用的客体检测器的性能而不同，存在无法确定识别结果是否为最优状态的难题。

另外，现有客体检测技术存在其性能会根据周边环境而变化的问题。

发明内容

本发明的目的在于，解决上述所有问题点。

本发明的另一目的在于改善客体检测器的识别结果。

本发明的又另一目的在于，无关周边环境，能够准确地检测客体。

本发明的目的是通过以下技术方案实现的：

根据本发明的一个方面，提供一种将从执行协同驾驶的至少一个车辆中获取的行驶图像进行集成的方法，其特征在于，包括以下步骤：(a)安装于所述至少一个车辆中的至少一个主车辆上的主行驶图像集成装置执行流程(i)，将从安装于所述主车辆上的至少一个主摄像机获得的至少一个主行驶图像输入到主客体检测器，使所述主客体检测器，(i-1)通过主卷积层针对所述主行驶图像运用至少一次卷积运算，生成至少一个主特征图，(i-2)通过主区域建议网络RPN在所述主特征图中生成至少一个主关照区域ROI，所述主ROI对应于估计为至少一个主客体所位于的至少一个区域，(i-3)通过主池化层针对所述主特征图中对应于所述主ROI的至少一个区域运用至少一次池化运算，从而生成至少一个主池化特征图，(i-4)通过主全连接FC层针对所述主池化特征图运用至少一次FC运算，从而生成有关位于所述主行驶图像中的所述主客体的主客体检测信息；(b)所述主行驶图像集成装置，将所述主池化特征图输入到主置信网络，从而执行使所述主置信网络分别生成对应各个所述主池化特征图的各个所述主ROI的至少一个主置信度的流程；及(c)所述主行驶图像集成装置，从所述协同驾驶中的至少一个子车辆中分别获得子客体检测信息和至少一个子置信度，并利用所述主置信度及所述子置信度作为加权值，集成主客体检测信息和所述子客体检测信息，从而执行生成所述主行驶图像的至少一个客体检测结果的流程，其中，所述子客体检测信息与所述子置信度，分别通过安装在各个所述子车辆的至少一个子行驶图像集成装置生成，其中，各个所述子行驶图像集成装置，(i)将各个子行驶图像输入到相应的各个子客体检测器中，使所述子客体检测器，(i-1)通过相应的各个子卷积层针对各个所述子行驶图像运用至少一次所述卷积运算，生成各个子特征图，(i-2)通过相应的各个子RPN，在所述各个子特征图中生成至少一个子ROI，所述子ROI对应于估计为至少一个子客体所位于的至少一个区域，(i-3)通过相应的各个子池化层，针对所述各个子特征图中对应于各个所述子ROI的至少一个区域，运用至少一次所述池化运算，分别生成至少一个子池化特征图，(i-4)通过相应的各个子FC层，针对所述各个子池化特征图运用至少一次所述FC运算，生成有关位于各个子行驶图像上的所述子客体的所述子客体检测信息，(i-5)将各个子池化特征图输入到各个子置信网络，使每个所述子置信网络，生成各个所述子池化特征图所对应的所述子ROI的所述子置信度。

一个实施例，其特征在于，所述主客体检测器与所述主置信网络为已通过学习装置完成学习的状态，即，获得包含至少一个学习用行驶图像的训练数据后，所述学习装置执行：流程(i)从所述训练数据采集(i-1)包括学习用第1_1行驶图像至学习用第1_m行驶图像的第1训练数据与(i-2)包括学习用第2_1行驶图像至学习用第2_n行驶图像的第2训练数据，所述m、n是大于或等于1的整数；流程(ii)将所述学习用第1_1行驶图像至所述学习用第1_m行驶图像中之一的学习用第1_j行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第1_j行驶图像运用至少一次所述卷积运算，生成至少一个第1特征图；流程(iii)将所述第1特征图输入到所述主RPN，使所述主RPN，生成位于所述第1特征图上的至少一个学习用客体所对应的至少一个第1ROI；流程(iv)使主池化层，针对所述第1特征图中对应于所述第1ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第1池化特征图；流程(v)使所述主FC层，针对所述第1池化特征图或对应其的至少一个第1特征矢量，运用至少一次所述FC运算，生成位于所述学习用第1_j行驶图像上的所述学习用客体所对应的第1客体检测信息；流程(vi)使第1损失层，参照所述第1客体检测信息与所述学习用第1_j行驶图像的至少一个客体地面真值GT)，生成至少一个第1损失；及流程(vii)通过利用所述第1损失的反向传播，更新所述主FC层及所述主卷积层中至少一个参数，促使所述第1损失最小化，通过针对各个所述学习用第1_1行驶图像至所述学习用第1_m行驶图像的以上流程，完成对所述主客体检测器的学习，进一步，所述学习装置执行：流程(i)参照分别对应于所述学习用第1_1行驶图像至学习用第1_m行驶图像的所述第1客体检测信息与所述客体GT，分别获得各个所述第1ROI的至少一个第1置信度；流程(ii)将所述学习用第2_1行驶图像至所述学习用第2_n行驶图像中之一的学习用第2_k行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第2_k行驶图像运用至少一次所述卷积运算，生成至少一个第2特征图；流程(iii)将所述第2特征图输入到所述主RPN，使所述主RPN，生成位于所述第2特征图上的所述学习用客体所对应的至少一个第2ROI；流程(iv)使主池化层，针对所述第2特征图中对应于所述第2ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第2池化特征图；流程(v)将所述第2池化特征图输入到所述主置信网络，使所述主置信网络，通过深度学习生成对应于所述第2池化特征图的至少一个第2置信度；流程(vi)使第2损失层，参照所述第2置信度与所述第1置信度生成至少一个第2损失；及流程(vii)通过利用所述第2损失的反向传播，更新所述主置信网络的至少一个参数，促使所述第2损失最小化，通过针对所述学习用第2_1行驶图像至所述学习用第2_n行驶图像的以上流程，完成对所述主置信网络的学习。

一个实施例，其特征在于，所述学习装置，参照所述第1客体检测信息以及对应于其的客体GT，获得各个所述第1ROI的所述第1置信度，其中，当各个所述第1ROI不存在各个所述学习用客体的时候，各个所述第1置信度为“0”，当各个所述第1ROI存在各个所述学习用客体的时候，各个所述第1置信度为“1-框_误差×类_误差”，所述各个框_误差是包含于所述第1客体检测信息中的各个边界框误差，所述各个类_误差是包含于所述第1客体检测信息中的各个类信息的误差。

一个实施例，其特征在于，(i)所述各个框_误差是(i-1)所述各个学习用客体的各自尺寸相对于(i-2)所述边界框的各个中心点的误差之和的比率，(ii)所述各个类_误差是包含于所述第1客体检测信息中且用于分类各个所述学习用客体的各个类的各个估计值的各个类误差之和。

一个实施例，其特征在于，利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，其中，所述主行驶图像集成装置执行：流程(i)利用对应所述主置信度与所述子置信度中的各个特定客体检测信息的各个特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个类相关的各个估计值的加权和，并且将加权和的类中具有最高值的特定类作为对应于所述特定客体的最优类信息；以及流程(ii)利用对应各个所述特定客体检测信息的各个所述特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个特定回归信息的加权和，并将加权和的回归信息作为对应于所述特定客体的最优回归信息。

一个实施例，其特征在于，利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，其中，如果确定所述第1客体检测信息中的第1重叠客体检测信息与所述第2客体检测信息中的第2重叠客体检测信息相互重叠而存在，所述主行驶图像集成装置执行：流程(i)如果对应于所述第1重叠客体检测信息的第1边界框与对应于所述第2重叠客体检测信息的第2边界框的交并比IOU为大于或等于预设临界值，则判断为所述第1重叠客体检测信息与所述第2重叠客体检测信息对应于所述特定客体；以及流程(ii)如果所述IOU小于所述预设临界值，则判断为所述第1重叠客体检测信息与第2重叠客体检测信息对应于互不相同的客体。

根据本发明的另一个实施例，提供一种安装于执行协同驾驶的至少一个车辆中的至少一个主车辆上的主行驶图像集成装置，用于针对从所述车辆中获取的行驶图像进行集成，其特征在于，包括：至少一个存储器，用于存储指令；及至少一个处理器，构成为执行用于完成或支持其他装置完成以下流程的所述指令：流程(I)，将从安装于所述主车辆上的至少一个主摄像机获得的至少一个主行驶图像输入到主客体检测器，使所述主客体检测器，(I-1)通过主卷积层针对所述主行驶图像运用至少一次卷积运算，生成至少一个主特征图，(I-2)通过主RPN在所述主特征图中生成至少一个主ROI，所述主ROI对应于估计为至少一个主客体所位于的至少一个区域，(I-3)通过主池化层针对所述主特征图中对应于所述主ROI的至少一个区域运用至少一次池化运算，从而生成至少一个主池化特征图，(I-4)通过主FC层针对所述主池化特征图运用至少一次FC运算，从而生成有关位于所述主行驶图像中的所述主客体的主客体检测信息；流程(II)，将所述主池化特征图输入到主置信网络，从而使所述主置信网络分别生成对应各个所述主池化特征图的各个所述主ROI的至少一个主置信度；及流程(III)，从所述协同驾驶中的至少一个子车辆中分别获得子客体检测信息和至少一个子置信度，并利用所述主置信度及所述子置信度作为加权值，集成主客体检测信息和所述子客体检测信息，从而生成所述主行驶图像的至少一个客体检测结果，其中，所述子客体检测信息与所述子置信度，通过安装在各个所述子车辆的各个至少一个子行驶图像集成装置生成，各个所述子行驶图像集成装置，(i)将各个子行驶图像输入到相应的各个子客体检测器中，使各个所述子客体检测器，(i-1)通过相应的各个子卷积层针对各个所述子行驶图像运用至少一次所述卷积运算，生成各个子特征图，(i-2)通过相应的各个子RPN，在所述各个子特征图中生成至少一个子ROI，所述子ROI对应于估计为至少一个子客体所位于的至少一个区域，(i-3)通过相应的各个子池化层，针对所述各个子特征图中对应于各个所述子ROI的至少一个区域，运用至少一次所述池化运算，分别生成至少一个子池化特征图，(i-4)通过相应的各个子FC层，针对所述各个子池化特征图运用至少一次所述FC运算，生成有关位于各个子行驶图像上的所述子客体的所述子客体检测信息，(i-5)将各个子池化特征图输入到各个子置信网络，使每个所述子置信网络，生成各个所述子池化特征图所对应的所述子ROI的所述子置信度。

一个实施例，其特征在于，所述主客体检测器与所述主置信网络为已通过学习装置完成学习的状态，即，获得包含至少一个学习用行驶图像的训练数据后，所述学习装置执行：流程(i)从所述训练数据采集(i-1)包括学习用第1_1行驶图像至学习用第1_m行驶图像的第1训练数据与(i-2)包括学习用第2_1行驶图像至学习用第2_n行驶图像的第2训练数据，所述m、n是大于或等于1的整数；流程(ii)将所述学习用第1_1行驶图像至所述学习用第1_m行驶图像中之一的学习用第1_j行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第1_j行驶图像运用至少一次卷积运算，生成至少一个第1特征图；流程(iii)将所述第1特征图输入到所述主RPN，使所述主RPN，生成位于所述第1特征图上的至少一个学习用客体所对应的至少一个第1ROI；流程(iv)使主池化层，针对所述第1特征图中对应于所述第1ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第1池化特征图；流程(v)使所述主FC层，针对所述第1池化特征图或对应其的至少一个第1特征矢量，运用至少一次所述FC运算，生成位于所述学习用第1_j行驶图像上的所述学习用客体所对应的第1客体检测信息；流程(vi)使第1损失层，参照所述第1客体检测信息与所述学习用第1_j行驶图像的至少一个客体GT，生成至少一个第1损失；及流程(vii)通过利用所述第1损失的反向传播，更新所述主FC层及所述主卷积层中至少一个参数，促使所述第1损失最小化，通过针对各个所述学习用第1_1行驶图像至所述学习用第1_m行驶图像执行以上流程，完成对所述主客体检测器的学习，进一步，所述学习装置执行：流程(i)从参照对应于各个所述学习用第1_1行驶图像至学习用第1_m行驶图像的所述第1客体检测信息与所述客体GT，分别获得各个所述第1ROI的至少一个第1置信度；流程(ii)将所述学习用第2_1行驶图像至所述学习用第2_n行驶图像中之一的学习用第2_k行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第2_k行驶图像运用至少一次所述卷积运算，生成至少一个第2特征图；流程(iii)将所述第2特征图输入到所述主RPN，使所述主RPN，生成位于所述第2特征图上的所述学习用客体所对应的至少一个第2ROI；流程(iv)使主池化层，针对所述第2特征图中对应于所述第2ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第2池化特征图；流程(v)将所述第2池化特征图输入到所述主置信网络，使所述主置信网络，通过深度学习生成对应于所述第2池化特征图的至少一个第2置信度；流程(vi)使第2损失层，参照所述第2置信度与所述第1置信度生成至少一个第2损失；及流程(vii)通过利用所述第2损失的反向传播，更新所述主置信网络的至少一个参数，促使所述第2损失最小化，通过针对所述学习用第2_1行驶图像至所述学习用第2_n行驶图像执行以上流程，完成对所述主置信网络的学习。

一个实施例，其特征在于，利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，其中，所述处理器执行：流程(i)利用对应各个所述主置信度与所述子置信度中的各个特定客体检测信息的各个特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个类相关的各个估计值的加权和，并且将加权和的类中具有最高值的特定类作为对应于所述特定客体的最优类信息；以及流程(ii)利用对应各个所述特定客体检测信息的各个所述特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个特定回归信息的加权和，并将加权和的回归信息作为对应于所述特定客体的最优回归信息。

一个实施例，其特征在于，利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，其中，如果确定所述第1客体检测信息中的第1重叠客体检测信息与所述第2客体检测信息中的第2重叠客体检测信息相互重叠而存在，所述处理器执行：流程(i)如果对应于所述第1重叠客体检测信息的第1边界框与对应于所述第2重叠客体检测信息的第2边界框的IOU为大于或等于预设临界值，则判断为所述第1重叠客体检测信息与所述第2重叠客体检测信息对应于所述特定客体；过程(ii)如果所述IOU小于所述预设临界值，则判断为所述第1重叠客体检测信息与所述第2重叠客体检测信息对应于互不相同的客体。

除此之外，还提供了一种计算机可读记录媒体，用于记录实现本发明方法的计算机程序。

与现有技术相比，本发明的优点在于：

本发明的有益效果为，通过对来自多个摄像机的识别结果进行集成，提高客体检测器的识别成果。

本发明的另一有益效果为，通过对来自多个摄像机的识别结果进行集成，无关周边环境，能够准确地检测客体。

附图说明

为了用于说明本发明实施例而附带的下面的图，只是本发明实施例中的一部分，本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业，基于这些图获得其他图。

图1是概略地示出根据本发明的一实施例针对从执行协同驾驶(CooperativeDriving)的车辆获取的行驶图像进行集成的行驶图像集成装置的图。

图2是概略地示出根据本发明的一实施例分别安装有针对从执行协同驾驶的车辆获取的行驶图像进行集成的行驶图像集成装置的协同驾驶车辆在协同驾驶过程中集成行驶图像的过程的图。

图3是概略地示出根据本发明的一实施例针对从执行协同驾驶的车辆获取的行驶图像进行集成的方法的图。

图4是概略地示出根据本发明的一实施例对行驶图像集成装置进行学习的学习装置的图，所述行驶图像集成装置针对从执行协同驾驶的车辆获取的行驶图像进行集成。

图5是概略地示出根据本发明的一实施例对行驶图像集成装置进行学习的方法的图，所述行驶图像集成装置针对从执行协同驾驶的车辆获取的行驶图像进行集成。

具体实施方式

后述有关本发明的详细说明，为了使本发明的目的、技术方案及优点更分明，参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明，以便普通技术人员足以能够实施本发明。

另外，在本发明的详细说明及权利要求中，“包括”字样的术语及其变形，并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言，本发明的其他目的、优点及特性，一部分从本说明书，而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的，并非意图限定本发明。

进一步地，本发明涵盖本说明书中显示的实施例的所有可能组合。本发明的多样实施例虽然互不相同，但应理解为不需要相互排他。例如，在此记载的特定形状、结构及特性，可以与一个实施例相关联，在不超出本发明的精神及范围的前提下体现为其他实施例。另外，各个公开的实施例内的个别构成要素的位置及配置，应理解为可以在不超出本发明的精神及范围的前提下进行变更。因此，后述的详细说明并非出于限定之意，本发明的范围，如能适当说明，仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中，类似的附图标记指称在多个方面相同或类似的功能。

本发明中提及的各种图像可以包括铺装或非铺装道路相关图像，是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像，但并非必须限定于此，本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像)，是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像，但并非必须限定于此。

本申请说明书中提供的本发明的题目及摘要是为了便利，并非限定实施例的范围或解释实施例的意义。

下面，为了让本发明所属的技术领域的普通技术人员容易实施本发明，结合附图详细描述本发明的最佳实施例。

在以下说明中，以汽车作为例子进行说明，但是本发明并非限定于此，可应用于如军事、监视等至少一个摄像机在至少一个所定区域检测至少一个客体的任何领域。

图1是概略地示出根据本发明的一实施例示出的针对从执行协同驾驶(Cooperative Driving)的车辆获取的行驶图像进行集成的行驶图像集成装置的图。如图1所示，行驶图像集成装置100可以包括存储器110，用于存储集成来自协同驾驶车辆的行驶图像的指令(Instruction)，以及处理器120，用于根据存储于存储器110的指令而执行集成取自协同驾驶车辆的行驶图像的操作。

具体而言，行驶图像集成装置100通常可以利用至少一个计算装置(例如，可以是包含计算机处理器、内存、存储器、输入装置、输出装置及其他现有计算构成要素的装置；诸如路由器、交换机等电子通信装置；诸如网络附属存储器(NAS，Network AttachedStorage)及存储区域网络(SAN，Storage Area Network)的电子信息存储系统)与至少一个计算机软件(即，使所述计算装置以特定方式执行功能的命令)的组合而达成希望的系统性能。

所述计算装置的处理器可以包括MPU(Micro Processing Unit，微处理器)或CPU(Central Processing Unit，中央处理器)、高速缓冲存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外，所述计算装置还可以包括操作系统及执行特定目的的应用程序的软件结构。

但是，并非排除由实施本发明所需的处理器、存储器及介质或其他计算组件集成而成的集成装置(Integrated Device)。

根据如此构成的本发明一实施例，关于利用行驶图像集成装置100集成获取自协同驾驶中的车辆的行驶图像的方法进行说明如下。

首先如图2所示，在道路上协同驾驶中的车辆的各个行驶图像集成装置100，检测由安装在各个车辆上的摄像机拍摄的至少一个行驶图像中的至少一个客体，生成各个检测到的客体所分别对应的至少一个置信度(Confidence)。其中，客体可以包括周边环境中的任何客体，例如至少一个车辆、至少一个行人、至少一个信号灯、至少一个车道、至少一个护栏等。

并且，各个车辆上的各个行驶图像集成装置100，将(i)包括有关各个客体的类信息和回归信息的所述检测到的客体相关信息，例如，客体检测信息，以及(ii)各个客体检测信息所对应的各个置信度信息，通过车辆之间(Vehicle To Vehicle)通信，与周边至少一个子车辆(Sub-vehicle)进行共享。

那么，各个车辆上的各个行驶图像集成装置100，利用其自身的客体检测信息及置信度、从子车辆收到的客体检测信息及其对应的置信度信息，集成协同驾驶中的所有车辆的识别结果，从而生成至少一个最佳客体检测结果(Optimal Object Detection Result)。

其中，如图3所示，安装在执行协同驾驶的车辆中的主(Main)车辆上的主行驶图像集成装置100，其流程说明如下。在本发明的整个流程中，前缀“主(Main)”和“子(Sub)”表示相对的观点。在多个客体中，如果至少一个特定客体被指定为主客体，例如被指定为测试用主客体或学习用主客体，则其余客体是子客体，例如分别被指定为测试用子客体或学习用子客体，并且客体中任何一个都可以是主客体。

首先，安装在协同驾驶中的所有车辆中的主车辆上的主行驶图像集成装置100，执行将从安装在主车辆上的至少一个主摄像机获取的至少一个主行驶图像输入到主客体检测器150的流程。

那么，主客体检测器150，将主行驶图像输入到主卷积层151，使主卷积层151针对主行驶图像运用至少一次卷积运算，生成至少一个主特征图(Feature Map)。图中省略术语“主(Main)”和“子(Sub)”，是因为图5中符号151所指的对象可能是主卷积层，也有可能是子卷积层。但是，为了便于理解，在详细说明中使用了“主(Main)”和“子(Sub)”。

并且，主客体检测器150，将主特征图输入到主RPN(Region Proposal Network，区域建议网络)152中，使主RPN在主特征图上生成至少一个主ROI(Region Of Interest，关注区域)，其对应于估计为存在至少一个主客体的至少一个区域。作为参考，在本发明的整个过程中，以下说明时，学习过程相关术语中添加词语“学习用”，测试过程相关术语中添加词语“测试用”，以避免混淆。另外，对于主客体和子客体，主客体表示测试用主客体，子客体表示测试用子客体，但是为了方便起见，省略了“测试用”。

然后，主客体检测器150，将主ROI和主特征图输入到主池化层(Pooling Layer)153，使主池化层153针对主特征图中对应于主ROI的至少一个区域运用至少一次池化运算，生成至少一个主池化特征图(Pooled Feature Map)。

并且，主客体检测器150，将主池化特征图输入到主FC(Fully Connected Layer，全连接)层154中，使主FC层154针对主池化特征图运用至少一次FC运算，生成位于主行驶图像上的主客体相关主客体检测信息。

其中，主客体检测器150，向主FC层154输入将主池化特征图转换为至少一个矢量而生成的至少一个主特征矢量(Feature Vector)。

并且，各个主客体检测信息，可以包括对应于主客体的类信息和回归信息。此外，有关主客体的类信息可以包括用于通过主FC层154分类主客体的有关各个类的各个估计值，而有关主客体的回归信息可以包括通过回归对应于各个主池化特征图的主ROI的位置而生成的位置信息，即有关边界框的位置信息。

然后，主行驶图像集成装置100，执行将主池化特征图输入到主置信网络160，使主置信网络160生成分别对应于各个主池化特征图的各个主ROI相关至少一个主置信度的流程。其中，主置信网络160是已经完成学习的状态，以便输出各个主ROI的主置信度，而对应于各个主池化特征图的主置信度可以根据通过深度学习(Deep Learning)学习的至少一个参数生成。有关学习主置信网络160的过程稍后将进行描述。

然后，主行驶图像集成装置100，执行通过车辆之间的通信从协同行驶中的至少一个子车辆获得子客体检测信息和至少一个子置信度的流程，并执行利用主置信度和子置信度作为加权值集成主客体检测信息和子客体检测信息的流程，从而生成主行驶图像的至少一个对象检测结果。

其中，在执行利用主置信度和子置信度作为加权值集成主客体检测信息和子客体检测信息的流程时，如果确定存在主客体与子客体中的一个特定客体所对应的客体检测信息，则主行驶图像集成装置100，执行：流程(i)，利用对应各个主置信度与所述子置信度中的各个特定客体检测信息的各个特定置信度作为加权值，生成各个特定客体检测信息所包含的各个类相关各个估计值的加权和(Weighted Sum)，并且，将加权求和的类中具有最高值的特定类作为对应于特定客体的最优类信息(Optimal Class Information)；以及流程(ii)，利用对应各个特定客体检测信息的各个特定置信度作为加权值，生成各个特定客体检测信息所包含的各个特定回归信息的加权和，并且，将加权求和的回归信息作为对应于特定客体的最优回归信息。

举一例，假设主FC层154将特定客体分类为车辆、行人或摩托车，(i)包含于主客体检测信息中的第1类信息，即第1客体检测信息可以包含表示特定客体被估计为车辆的第1_1估计值、表示特定客体被估计为行人的第1_2估计值、以及表示特定客体被估计为摩托车的第1_3估计值；(ii)，包含于从子车辆中之一获得的第2客体检测信息中的第2类信息，可能包含表示特定客体被估计为车辆的第2_1估计值、表示特定客体被估计为行人的第2_2估计值、以及表示特定客体被估计为摩托车的第2_3估计值；(iii)，包含于从另一个子车辆获得的第3客体检测信息中的第3类信息，可能包含表示特定客体被估计为车辆的第3_1估计值、表示特定客体被估计为行人的第3_2估计值、以及表示特定客体被估计为摩托车的第3_3估计值。并且，假设对应于第1客体检测信息的置信度为第1置信度，对应于第2客体检测信息的置信度为第2置信度，对应于第3客体检测信息的置信度为第3置信度，则可以利用各个置信度作为加权值按类分别针对估计值进行加权求和而生成通过主行驶图像集成装置100集成的特定客体相关集成类信息(Integrated Class Information)，即使表示特定客体被估计为车辆的集成估计值可以是“(第1_1估计值×第1置信度)+(第2_1估计值×第2置信度)+(第3_1估计值×第3置信度)”，表示特定客体被估计为行人的集成估计值可以是“(第1_2估计值×第1置信度)+(第2_2估计值×第2置信度)+(第3_2估计值×第3置信度)”，表示特定客体被估计为摩托车的集成估计值可以是“(第1_3估计值×第1置信度)+(第2_3估计值×第2置信度)+(第3_3估计值×第3置信度)”。最终，获得加权求和的估计值中具有最高值的特定类，作为集成图像(Integrated Image)上的特定客体所对应的最优类信息(Optimal Class Information)。这里，第1客体检测信息对应于主客体。

另外，特定回归信息，即用于限定特定客体的边界框的相关位置信息，也可以通过类似的方式，利用特定置信度作为加权值进行加权求和，并且可以将加权求和的回归信息确定为对应于特定客体的最优回归信息。此时，特定客体的边界框可以通过限定估计为特定客体所位于的ROI而生成。

另外，利用主置信度和子置信度作为加权值，集成主客体检测信息和子客体检测信息时，如果确定第1客体检测信息中的第1重叠客体检测信息(Overlapping ObjectDetection Information)与第2客体检测信息中的第2重叠客体检测信息相互重叠而存在，则主行驶图像集成装置100执行：流程(i)，如果对应于第1重叠客体检测信息的第1边界框与对应于第2重叠客体检测信息的第2边界框的IOU(Intersection Over Union，交并比)为大于或等于预设临界值，则确定第1重叠客体检测信息与第2重叠客体检测信息对应于特定客体；以及流程(ii)，如果IOU小于预设临界值，确定第1重叠客体检测信息与第2重叠客体检测信息对应于互不相同的客体。

另外，子客体检测信息与子置信度，分别通过安装在各个子车辆的至少一个子行驶图像集成装置生成。具体而言，各子行驶图像集成装置执行流程：(i)分别将至少一个子行驶图像输入到相应的各个子客体检测器中，使各个子客体检测器，(i-1)通过相应的各个子卷积层，针对各个子行驶图像运用至少一次卷积运算，生成各个子特征图；(i-2)通过相应的各个子RPN，在各个子特征图中生成至少一个子ROI，所述ROI对应于估计为至少一个子客体所位于的至少一个区域；(i-3)通过相应的各个子池化层，针对各个子特征图中对应于各个子ROI的至少一个区域，运用至少一次池化运算，分别生成至少一个子池化特征图；(i-4)通过相应的各个子FC层，针对各个子池化特征图运用至少一次FC运算，生成有关位于各个子行驶图像上的子客体的子客体检测信息；(i-5)将各个子池化特征图输入到各个子置信网络，使每个子置信网络，生成各个子池化特征图所对应的子ROI的子置信度。

图4是概略地示出根据本发明的一实施例对行驶图像集成装置进行学习的学习装置的图，所述行驶图像集成装置对从执行协同驾驶的车辆获取的行驶图像进行集成。如图4所示，学习装置200可以包括存储器210，用于存储为了学习行驶图像集成装置而使用的指令，所述行驶图像集成装置针对取自协同驾驶中的车辆的行驶图像进行集成，以及处理器220，用于根据存储于存储器210的指令而执行学习行驶图像集成装置的操作，所述行驶图像集成装置用于针对取自协同驾驶中的车辆的行驶图像进行集成。

具体而言，学习装置200通常可以利用至少一个计算装置(例如，可以是包含计算机处理器、内存、存储器、输入装置、输出装置及其他现有计算构成要素的装置；诸如路由器、交换机等电子通信装置；诸如网络附属存储器(NAS，Network Attached Storage)及存储区域网络(SAN，Storage Area Network)的电子信息存储系统)与至少一个计算机软件(即，使所述计算装置以特定方式执行功能的命令)的组合而达成希望的系统性能。

关于利用根据如此构成的本发明一实施例的学习装置200学习行驶图像学习装置的方法，参照图5说明如下，所述行驶图像集成装置是针对取自协同驾驶中的车辆的行驶图像进行集成的装置。。关于协同驾驶中的车辆中安装在主车辆上的主行驶图像集成装置的学习方法，说明如下。

首先，获得包含至少一个学习用行驶图像的训练数据后，学习装置200，执行流程(i)，从训练数据采集(i-1)包括学习用第1_1行驶图像至学习用第1_m行驶图像的第1训练数据，以及(i-2)包括学习用第2_1行驶图像至学习用第2_n行驶图像的第2训练数据。其中，m与n是大于或等于1的整数。

然后，学习装置200执行：流程(ii)，将学习用第1_1行驶图像至学习用第1_m行驶图像中之一的学习用第1_j行驶图像输入到主卷积层151，使主卷积层151，针对学习用第1_j行驶图像运用至少一次卷积运算，生成至少一个第1特征图；以及流程(iii)，将第1特征图输入到主RPN152，使主RPN152，生成位于第1特征图上的至少一个学习用客体所对应的至少一个第1ROI。

然后，学习装置200执行:流程(iv)，将第1ROI和第1特征图输入到主池化层153，使主池化层153针对第1特征图中对应于第1ROI的至少一个区域运用至少一次池化运算，生成至少一个第1池化特征图；及流程(v)，将第1池化特征图或利用第1池化特征图生成的至少一个第1特征矢量输入到主FC层154，使主FC层154针对对应于第1池化特征图的第1特征矢量或第1池化特征图，运用至少一次FC运算，生成位于学习用第1_j行驶图像上的学习用客体所对应的第1客体检测信息。其中，各个第1客体检测信息可以包含对应于学习用客体的类信息和回归信息。并且，学习用客体相关类信息可以包含通过主FC层154分类学习用客体时使用的各个类相关各个估计值，学习用客体相关回归信息可以包含回归对应于各个主池化特征图的主ROI的位置而生成的位置信息，即，有关边界框的位置信息。

然后，学习装置200针对学习用第1_1行驶图像至学习用第1_m行驶图像分别执行：流程(vi)，使第1损失层155参照第1客体检测信息与学习用第1_j行驶图像的至少一个客体GT(Ground Truth，地面真值)，生成至少一个第1损失；及流程(vii)，通过利用第1损失的反向传播，更新主FC层及主卷积层中至少一个参数，促使第1损失最小化，从而完成主客体检测器的学习。

进一步，学习装置200，执行流程(i)，参照对应于各个学习用第1_1行驶图像至学习用第1_m行驶图像的第1客体检测信息与对应于其的客体GT，分别获得各个第1ROI的至少一个第1置信度。

此时，学习装置200，参照第1客体检测信息以及对应于其的客体GT，获得各个第1ROI的各个第1置信度，其中，当各个第1ROI不存在各个学习用客体的时候，各个第1置信度为“0”，当各个第1ROI存在各个学习用客体的时候，各个第1置信度为“1-框_误差×类_误差(1-Box_Error×Class_Error)”。

进一步，各个框_误差是包含于第1客体检测信息中的各个边界框的误差，各个类_误差是包含于第1客体检测信息中的各个类信息的误差。

并且，(i)各个框_误差是(i-1)各个学习用客体的各自尺寸相对于(i-2)边界框的各个中心点的误差之和的比率；(ii)所述各个类_误差是包含于第1客体检测信息中且用于分类各个学习用客体的各个类的各个估计值的各个类误差之和。

即，可以表示为，框_误差＝(和(点误差))/(客体尺寸)，类_误差＝和(类概率误差(class prob error)。

进一步，学习装置200执行流程(ii)，将学习用第2_1行驶图像至学习用第2_n行驶图像中之一的学习用第2_k行驶图像输入到主卷积层151，使主卷积层151针对学习用第2_k行驶图像运用至少一次卷积运算，生成至少一个第2特征图，以及流程(iii)，将第2特征图输入到主RPN 152，使主RPN 152生成位于第2特征图上的学习用客体所对应的至少一个第2ROI。

并且，学习装置200执行：流程(iv)，使主池化层153针对第2特征图中对应于第2ROI的至少一个区域运用至少一次池化运算，生成至少一个第2池化特征图；以及流程(v)，将第2池化特征图输入到主置信网络160，使主置信网络160通过深度学习生成对应于第2池化特征图的至少一个第2置信度。

然后，学习装置200针对学习用第2_1行驶图像至学习用第2_n行驶图像分别执行：流程(vi)，使第2损失层161参照第2置信度与第1置信度生成至少一个第2损失，以及流程(vii)，通过利用第2损失的反向传播，更新主置信网络160的至少一个参数，促使第2损失最小化，从而完成主置信网络160的学习过程。

即，学习装置200能够获得与主客体检测器150的学习过程中生成的各个第1池化特征图相对应的各个第1置信度，并且能够学习主置信网络160，以便利用第1池化特征图及对应于其的第2置信度，输出对应于第1池化特征图的第1置信度的至少一部分。

另外，以上描述中，是以协同驾驶中的车辆为例，然而，在使用多个摄像机监视同一位置的监视系统和军事系统中，也可以根据本发明提高客体检测器的识别性能，并且相应地提高客体检测系统的稳定性。

如上所述，本发明通过车辆之间的信息融合，综合多个摄像机的视频图像的识别结果和置信度，提供最佳识别结果，从而利用客体检测提高监视系统和军事系统的稳定性。

另外，以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态，记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的，或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中，包括诸如硬盘、软盘及磁带的磁介质，诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质，诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media)，及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中，不仅有借助于编译程序而制成的机器语言代码，还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理，可以构成为一个以上的软件模块而运转，反之亦然。

以上根据诸如具体构成要素等的特定事项和限定的实施例及附图，对本发明进行了说明，但这只是为了帮助更全面理解本发明而提供的，并非本发明限定于所述实施例，只要是本发明所属技术领域的技术人员，便可以从这种记载导出多样的修订及变形。

因此，本发明的思想不局限于所述说明的实施例确定，后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范围。

符号说明

100：行驶图像集成装置，

110：存储器，

120：处理器，

200：学习装置，

210：存储器，

220：处理器。

Claims

1.一种将从由安装于执行协同驾驶的至少一个车辆的不同的摄像机获取的行驶图像中检测到的客体进行集成的方法，其特征在于，包括以下步骤：

(a)安装于在一定的通信范围内通过车对车V2V通信进行信息交换的所述至少一个车辆中的一个主车辆上的主行驶图像集成装置执行流程(i)，将从安装于所述主车辆上的至少一个主摄像机获得的至少一个主行驶图像输入到主客体检测器，使所述主客体检测器，(i-1)通过主卷积层针对所述主行驶图像运用至少一次卷积运算，生成至少一个主特征图，(i-2)通过主区域建议网络RPN在所述主特征图中生成至少一个主关注区域ROI，所述主ROI对应于估计为至少一个主客体所位于的至少一个区域，(i-3)通过主池化层针对所述主特征图中对应于所述主ROI的至少一个区域运用至少一次池化运算，从而生成至少一个主池化特征图，(i-4)通过主全连接FC层针对所述主池化特征图运用至少一次FC运算，从而生成有关位于所述主行驶图像中的所述主客体的主客体检测信息，所述主客体检测信息包括对应于所述主客体的类信息和回归信息；

(b)所述主行驶图像集成装置，将所述主池化特征图输入到主置信网络，从而执行使所述主置信网络分别生成对应各个所述主池化特征图的各个所述主ROI的至少一个主置信度的流程；及

(c)所述主行驶图像集成装置，从所述协同驾驶中的至少一个子车辆中分别获得子客体检测信息和至少一个子置信度，并利用所述主置信度及所述子置信度作为加权值，集成主客体检测信息和所述子客体检测信息，从而执行生成所述主行驶图像的至少一个客体检测结果的流程，

其中，所述子客体检测信息与所述子置信度，分别通过安装在各个所述子车辆的至少一个子行驶图像集成装置生成，

其中，各个所述子行驶图像集成装置，(i)将各个子行驶图像输入到相应的各个子客体检测器中，使所述子客体检测器，(i-1)通过相应的各个子卷积层针对各个所述子行驶图像运用至少一次所述卷积运算，生成各个子特征图，(i-2)通过相应的各个子RPN，在所述各个子特征图中生成至少一个子ROI，所述子ROI对应于估计为至少一个子客体所位于的至少一个区域，(i-3)通过相应的各个子池化层，针对所述各个子特征图中对应于各个所述子ROI的至少一个区域，运用至少一次所述池化运算，分别生成至少一个子池化特征图，(i-4)通过相应的各个子FC层，针对所述各个子池化特征图运用至少一次所述FC运算，生成有关位于各个子行驶图像上的所述子客体的所述子客体检测信息，所述子客体检测信息包括对应于所述子客体的类信息和回归信息，(i-5)将各个子池化特征图输入到各个子置信网络，使每个所述子置信网络，生成各个所述子池化特征图所对应的所述子ROI的所述子置信度，

所述主行驶图像集成装置通过执行流程(i)和流程(ii)，来利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，

在所述流程(i)中，利用对应所述主置信度与所述子置信度中的各个特定客体检测信息的各个特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个类相关的各个估计值的加权和，并且将加权和的类中具有最高值的特定类作为对应于所述特定客体的最优类信息；在所述流程(ii)中，利用对应各个所述特定客体检测信息的各个所述特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个特定回归信息的加权和，并将加权和的回归信息作为对应于所述特定客体的最优回归信息，

所述主客体检测器与所述主置信网络为已通过学习装置完成学习的状态，即，获得包含至少一个学习用行驶图像的训练数据后，所述学习装置执行：流程(i)从所述训练数据采集(i-1)包括学习用第1_1行驶图像至学习用第1_m行驶图像的第1训练数据与(i-2)包括学习用第2_1行驶图像至学习用第2_n行驶图像的第2训练数据，所述m、n是大于或等于1的整数；流程(ii)将所述学习用第1_1行驶图像至所述学习用第1_m行驶图像中之一的学习用第1_j行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第1_j行驶图像运用至少一次所述卷积运算，生成至少一个第1特征图；流程(iii)将所述第1特征图输入到所述主RPN，使所述主RPN，生成位于所述第1特征图上的至少一个学习用客体所对应的至少一个第1ROI；流程(iv)使主池化层，针对所述第1特征图中对应于所述第1ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第1池化特征图；流程(v)使所述主FC层，针对所述第1池化特征图或对应其的至少一个第1特征矢量，运用至少一次所述FC运算，生成位于所述学习用第1_j行驶图像上的所述学习用客体所对应的第1客体检测信息；流程(vi)使第1损失层，参照所述第1客体检测信息与所述学习用第1_j行驶图像的至少一个客体地面真值GT，生成至少一个第1损失；及流程(vii)通过利用所述第1损失的反向传播，更新所述主FC层及所述主卷积层中至少一个参数，促使所述第1损失最小化，通过针对各个所述学习用第1_1行驶图像至所述学习用第1_m行驶图像的以上流程，完成对所述主客体检测器的学习，

进一步，所述学习装置执行：流程(i)参照分别对应于所述学习用第1_1行驶图像至学习用第1_m行驶图像的所述第1客体检测信息与所述客体GT，分别获得各个所述第1ROI的至少一个第1置信度；流程(ii)将所述学习用第2_1行驶图像至所述学习用第2_n行驶图像中之一的学习用第2_k行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第2_k行驶图像运用至少一次所述卷积运算，生成至少一个第2特征图；流程(iii)将所述第2特征图输入到所述主RPN，使所述主RPN，生成位于所述第2特征图上的所述学习用客体所对应的至少一个第2ROI；流程(iv)使主池化层，针对所述第2特征图中对应于所述第2ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第2池化特征图；流程(v)将所述第2池化特征图输入到所述主置信网络，使所述主置信网络，通过深度学习生成对应于所述第2池化特征图的至少一个第2置信度；流程(vi)使第2损失层，参照所述第2置信度与所述第1置信度生成至少一个第2损失；及流程(vii)通过利用所述第2损失的反向传播，更新所述主置信网络的至少一个参数，促使所述第2损失最小化，通过针对所述学习用第2_1行驶图像至所述学习用第2_n行驶图像的以上流程，完成对所述主置信网络的学习，

所述学习装置，参照所述第1客体检测信息以及对应于其的客体GT，获得各个所述第1ROI的所述第1置信度，

其中，当各个所述第1ROI不存在各个所述学习用客体的时候，各个所述第1置信度为“0”，当各个所述第1ROI存在各个所述学习用客体的时候，各个所述第1置信度为“1-框_误差×类_误差”，

所述各个框_误差是包含于所述第1客体检测信息中的各个边界框误差，所述各个类_误差是包含于所述第1客体检测信息中的各个类信息的误差。

2.根据权利要求1所述的方法，其特征在于，

(i)所述各个框_误差是(i-1)所述各个学习用客体的各自尺寸相对于(i-2)所述边界框的各个中心点的误差之和的比率，(ii)所述各个类_误差是包含于所述第1客体检测信息中且用于分类各个所述学习用客体的各个类的各个估计值的各个类误差之和。

3.根据权利要求1所述的方法，其特征在于，

利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，

其中，如果确定所述第1客体检测信息中的第1重叠客体检测信息与所述第2客体检测信息中的第2重叠客体检测信息相互重叠而存在，所述主行驶图像集成装置执行：流程(i)如果对应于所述第1重叠客体检测信息的第1边界框与对应于所述第2重叠客体检测信息的第2边界框的交并比IOU为大于或等于预设临界值，则判断为所述第1重叠客体检测信息与所述第2重叠客体检测信息对应于所述特定客体；以及流程(ii)如果所述IOU小于所述预设临界值，则判断为所述第1重叠客体检测信息与第2重叠客体检测信息对应于互不相同的客体。

4.一种安装于执行协同驾驶的至少一个车辆中的一个主车辆上的主行驶图像集成装置，用于针对从由安装于所述至少一个车辆的不同的摄像机获取的行驶图像中检测到的客体进行集成，其特征在于，包括：

至少一个存储器，用于存储指令；及

至少一个处理器，构成为执行用于完成或支持其他装置完成以下流程的所述指令：

流程(I)，将从安装于所述主车辆上的至少一个主摄像机获得的至少一个主行驶图像输入到主客体检测器，使所述主客体检测器，(I-1)通过主卷积层针对所述主行驶图像运用至少一次卷积运算，生成至少一个主特征图，(I-2)通过主RPN在所述主特征图中生成至少一个主ROI，所述主ROI对应于估计为至少一个主客体所位于的至少一个区域，(I-3)通过主池化层针对所述主特征图中对应于所述主ROI的至少一个区域运用至少一次池化运算，从而生成至少一个主池化特征图，(I-4)通过主FC层针对所述主池化特征图运用至少一次FC运算，从而生成有关位于所述主行驶图像中的所述主客体的主客体检测信息，所述主客体检测信息包括对应于所述主客体的类信息和回归信息；流程(II)，将所述主池化特征图输入到主置信网络，从而使所述主置信网络分别生成对应各个所述主池化特征图的各个所述主ROI的至少一个主置信度；及流程(III)，从所述协同驾驶中的至少一个子车辆中分别获得子客体检测信息和至少一个子置信度，并利用所述主置信度及所述子置信度作为加权值，集成主客体检测信息和所述子客体检测信息，从而生成所述主行驶图像的至少一个客体检测结果，

其中，所述子客体检测信息与所述子置信度，通过安装在各个所述子车辆的各个至少一个子行驶图像集成装置生成，

各个所述子行驶图像集成装置，(i)将各个子行驶图像输入到相应的各个子客体检测器中，使各个所述子客体检测器，(i-1)通过相应的各个子卷积层针对各个所述子行驶图像运用至少一次所述卷积运算，生成各个子特征图，(i-2)通过相应的各个子RPN，在所述各个子特征图中生成至少一个子ROI，所述子ROI对应于估计为至少一个子客体所位于的至少一个区域，(i-3)通过相应的各个子池化层，针对所述各个子特征图中对应于各个所述子ROI的至少一个区域，运用至少一次所述池化运算，分别生成至少一个子池化特征图，(i-4)通过相应的各个子FC层，针对所述各个子池化特征图运用至少一次所述FC运算，生成有关位于各个子行驶图像上的所述子客体的所述子客体检测信息，所述子客体检测信息包括对应于所述子客体的类信息和回归信息，(i-5)将各个子池化特征图输入到各个子置信网络，使每个所述子置信网络，生成各个所述子池化特征图所对应的所述子ROI的所述子置信度，

所述处理器通过执行流程(a)和流程(b)，来利用所述主置信度和所述子置信度作为加权值，集成所述主客体检测信息和所述子客体检测信息，

在所述流程(a)中，利用对应各个所述主置信度与所述子置信度中的各个特定客体检测信息的各个特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个类相关的各个估计值的加权和，并且将加权和的类中具有最高值的特定类作为对应于所述特定客体的最优类信息；在所述流程(b)中，利用对应各个所述特定客体检测信息的各个所述特定置信度作为加权值，生成各个所述特定客体检测信息中所包含的各个特定回归信息的加权和，并将加权和的回归信息作为对应于所述特定客体的最优回归信息，

所述主客体检测器与所述主置信网络为已通过学习装置完成学习的状态，即，获得包含至少一个学习用行驶图像的训练数据后，所述学习装置执行：流程(i)从所述训练数据采集(i-1)包括学习用第1_1行驶图像至学习用第1_m行驶图像的第1训练数据与(i-2)包括学习用第2_1行驶图像至学习用第2_n行驶图像的第2训练数据，所述m、n是大于或等于1的整数；流程(ii)将所述学习用第1_1行驶图像至所述学习用第1_m行驶图像中之一的学习用第1_j行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第1_j行驶图像运用至少一次卷积运算，生成至少一个第1特征图；流程(iii)将所述第1特征图输入到所述主RPN，使所述主RPN，生成位于所述第1特征图上的至少一个学习用客体所对应的至少一个第1ROI；流程(iv)使主池化层，针对所述第1特征图中对应于所述第1ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第1池化特征图；流程(v)使所述主FC层，针对所述第1池化特征图或对应其的至少一个第1特征矢量，运用至少一次所述FC运算，生成位于所述学习用第1_j行驶图像上的所述学习用客体所对应的第1客体检测信息；流程(vi)使第1损失层，参照所述第1客体检测信息与所述学习用第1_j行驶图像的至少一个客体GT，生成至少一个第1损失；及流程(vii)通过利用所述第1损失的反向传播，更新所述主FC层及所述主卷积层中至少一个参数，促使所述第1损失最小化，通过针对各个所述学习用第1_1行驶图像至所述学习用第1_m行驶图像执行以上流程，完成对所述主客体检测器的学习，

进一步，所述学习装置执行：流程(i)从参照对应于各个所述学习用第1_1行驶图像至学习用第1_m行驶图像的所述第1客体检测信息与所述客体GT，分别获得各个所述第1ROI的至少一个第1置信度；流程(ii)将所述学习用第2_1行驶图像至所述学习用第2_n行驶图像中之一的学习用第2_k行驶图像输入到所述主卷积层，使所述主卷积层，针对所述学习用第2_k行驶图像运用至少一次所述卷积运算，生成至少一个第2特征图；流程(iii)将所述第2特征图输入到所述主RPN，使所述主RPN，生成位于所述第2特征图上的所述学习用客体所对应的至少一个第2ROI；流程(iv)使主池化层，针对所述第2特征图中对应于所述第2ROI的至少一个区域运用至少一次所述池化运算，生成至少一个第2池化特征图；流程(v)将所述第2池化特征图输入到所述主置信网络，使所述主置信网络，通过深度学习生成对应于所述第2池化特征图的至少一个第2置信度；流程(vi)使第2损失层，参照所述第2置信度与所述第1置信度生成至少一个第2损失；及流程(vii)通过利用所述第2损失的反向传播，更新所述主置信网络的至少一个参数，促使所述第2损失最小化，通过针对所述学习用第2_1行驶图像至所述学习用第2_n行驶图像执行以上流程，完成对所述主置信网络的学习，

5.根据权利要求4所述的装置，其特征在于，

6.根据权利要求4所述的装置，其特征在于，

其中，如果确定所述第1客体检测信息中的第1重叠客体检测信息与所述第2客体检测信息中的第2重叠客体检测信息相互重叠而存在，所述处理器执行：流程(i)如果对应于所述第1重叠客体检测信息的第1边界框与对应于所述第2重叠客体检测信息的第2边界框的IOU为大于或等于预设临界值，则判断为所述第1重叠客体检测信息与所述第2重叠客体检测信息对应于所述特定客体；过程(ii)如果所述IOU小于所述预设临界值，则判断为所述第1重叠客体检测信息与所述第2重叠客体检测信息对应于互不相同的客体。