CN114898314A

CN114898314A - 驾驶场景的目标检测方法、装置、设备及存储介质

Info

Publication number: CN114898314A
Application number: CN202210473108.7A
Authority: CN
Inventors: 何钦尧; 郭湘; 陈世熹; 韩文韬; 乐然; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-12

Abstract

本发明涉及自动驾驶控制领域，公开了一种驾驶场景的目标检测方法、装置、设备及存储介质。该方法包括：获取多个相机采集到驾驶场景的多张待检测图像，并确定各待检测图像中的目标检测框；分别提取各个目标检测框中的各个属性信息，并对各个属性信息进行预处理，得到各个目标检测框对应的多个单框特征向量；对单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据感知结果，对单框特征向量进行交叉组合，得到各个目标检测框对应的全局特征向量；根据全局特征向量，预测对应的各个目标检测框信息，并基于各个目标检测框信息，得到驾驶场景的目标检测结果。本发明提升了驾驶场景目标检测的信息丰富程度以及检测结果的精确度。

Description

驾驶场景的目标检测方法、装置、设备及存储介质

技术领域

本发明涉及自动驾驶控制领域，尤其涉及一种驾驶场景的目标检测方法、装置、设备及存储介质。

背景技术

相机是无人驾驶感知的重要传感元件，相对于激光雷达点云，相机待检测图像能够提供更为丰富的细节、纹理信息。但是其本身没有绝对测距能力，因此理论上障碍物、车道线等信息只是在待检测图像的2D平面上，而没有直接的3D位置信息。获取待检测图像平面的2D检测结果对应的3D位置，通常是基于视觉的3D目标检测方法领域中最需要解决的目标。

业界和学术界常见的单目3D目标检测方法，主要可以概括为两大类：第一类是直接基于待检测图像视角，在2D检测结果的基础之上，预测目标的深度，通过相机参数的投影变换，来得到目标在3D空间中的位置信息；第二类是通过预测深度图或者直接利用相机参数投影，将待检测图像特征投影到3D空间中，之后在鸟瞰图视角下做目标检测的输出。但第一类检测方法对单个目标跨越多相机的情况不能很好的融合多视角的结果，以及预测目标的运动状态；第二类强依赖于2D平面到3D空间的投影变换，容易导致检测结果随深度误差的变大而迅速变差。总而言之，即现有多相机的3D目标检测方法存在检测精度不足的问题。

发明内容

本发明的主要目的在于解决现有多目相机的3D目标检测方法存在检测精度不足的技术问题。

本发明第一方面提供了一种驾驶场景的目标检测方法，包括：获取多个相机采集到驾驶场景的多张待检测图像，并确定各所述待检测图像中的目标检测框；分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量；根据所述全局特征向量，预测对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

可选的，在本发明第一方面的第一种实现方式中，所述确定各所述待检测图像中的目标检测框包括：对各所述待检测图像进行目标检测，得到对应的预置维度的目标检测框；或者，按照所述多个相机的相机参数，对每个相机采集的待检测图像进行划分，得到对应的目标检测框。

可选的，在本发明第一方面的第二种实现方式中，所述对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果包括：若所述单框特征向量为相机参数对应的单框特征向量，则从相机参数对应的各个单框特征向量分别感知本相机参数对应的第一向量和非本相机参数对应的第二向量；识别所述第一向量和所述第二向量之间的关联关系并作为感知结果。

可选的，在本发明第一方面的第三种实现方式中，所述对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果包括：若所述单框特征向量为目标检测对应的单框特征向量，则分别感知所述各个单框特征向量对应的非本相机采集到待检测图像的第三向量和本相机采集到待检测图像的历史帧的第四向量；识别所述各个单框特征向量与对应感知到的第三向量之间的第一关联关系、以及识别所述各个单框特征向量与对应感知到的第四向量之间的第二关联关系，并将所述第一关联关系和所述第二关联关系作为感知结果。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量包括：根据所述第一关联关系，确定各个目标检测框对应目标物体的重复性信息，以及根据所述第二关联关系，确定各个目标检测框对应目标物体的运动状态信息；分别将各所述单框特征向量与感知到的对应运动状态信息和对应重复性信息进行融合，得到所述各个目标检测框对应的全局特征向量。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述全局特征向量，预测对应的各个目标检测框信息包括：利用预置的注意力模型，根据所述全局特征向量中的重复性信息，对所述各个目标检测框对应目标物体进行存在性预测，得到第一预测结果；根据所述全局特征向量中的运动状态信息，对所述各个目标检测框对应目标物体进行物体跟踪和轨迹预测，得到第二预测结果；基于所述第一预测结果和所述第二预测结果，得到对应的各个目标检测框信息。

可选的，在本发明第一方面的第六种实现方式中，在所述获取多个相机采集到驾驶场景的多张待检测图像之前，还包括：获取多个相机采集到驾驶场景的历史图像，并识别各张历史图像的预测框，以及标注所述各张历史图像的真值框信息；对所述各个预测框中的各个属性信息进行特征预处理，并利用预置预训练模型，根据特征预处理的结果，预测对应的各个预测框信息；根据所述预测框信息和所述真值框信息，分别对所述张历史图像中的每个预测框和每个真值框进行匹配，得到匹配结果；根据所述匹配结果，确定每个预测框对应的真值框信息，并对所述每个预测框对应的预测框信息和真值框信息进行对比，得到对比结果；根据所述对比结果，计算所述预训练模型的损失值，并根据所述损失值对所述预训练模型进行梯度反传，以对所述预训练模型进行更新，得到所述注意力模型。

本发明第二方面提供了一种驾驶场景的目标检测装置，包括：获取模块，用于获取多个相机采集到驾驶场景的多张待检测图像，并确定各所述待检测图像中的目标检测框；预处理模块，用于分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；感知模块，用于对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量；预测模块，用于根据所述全局特征向量，预测对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块包括：目标检测单元，用于对各所述待检测图像进行目标检测，得到对应的预置维度的目标检测框；图像划分单元，用于按照所述多个相机的相机参数，对每个相机采集的待检测图像进行划分，得到对应的目标检测框。

可选的，在本发明第二方面的第二种实现方式中，所述感知模块包括相机参数感知单元，用于：若所述单框特征向量为相机参数对应的单框特征向量，则从相机参数对应的各个单框特征向量分别感知本相机参数对应的第一向量和非本相机参数对应的第二向量；识别所述第一向量和所述第二向量之间的关联关系并作为感知结果。

可选的，在本发明第二方面的第三种实现方式中，所述感知模块还包括关联目标感知单元，用于：若所述单框特征向量为目标检测对应的单框特征向量，则分别感知所述各个单框特征向量对应的非本相机采集到待检测图像的第三向量和本相机采集到待检测图像的历史帧的第四向量；识别所述各个单框特征向量与对应感知到的第三向量之间的第一关联关系、以及识别所述各个单框特征向量与对应感知到的第四向量之间的第二关联关系，并将所述第一关联关系和所述第二关联关系作为感知结果。

可选的，在本发明第二方面的第四种实现方式中，所述感知模块还包括融合单元，用于：根据所述第一关联关系，确定各个目标检测框对应目标物体的重复性信息，以及根据所述第二关联关系，确定各个目标检测框对应目标物体的运动状态信息；分别将各所述单框特征向量与感知到的对应运动状态信息和对应重复性信息进行融合，得到所述各个目标检测框对应的全局特征向量。

可选的，在本发明第二方面的第五种实现方式中，所述预测模块包括：第一预测单元，用于利用预置的注意力模型，根据所述全局特征向量中的重复性信息，对所述各个目标检测框对应目标物体进行存在性预测，得到第一预测结果；第二预测单元，用于根据所述全局特征向量中的运动状态信息，对所述各个目标检测框对应目标物体进行物体跟踪和轨迹预测，得到第二预测结果；确定单元，用于基于所述第一预测结果和所述第二预测结果，得到对应的各个目标检测框信息。

可选的，在本发明第二方面的第六种实现方式中，所述驾驶场景的目标检测装置还包括训练模块，用于：获取多个相机采集到驾驶场景的历史图像，并识别各张历史图像的预测框，以及标注所述各张历史图像的真值框信息；对所述各个预测框中的各个属性信息进行特征预处理，并利用预置预训练模型，根据特征预处理的结果，预测对应的各个预测框信息；根据所述预测框信息和所述真值框信息，分别对所述张历史图像中的每个预测框和每个真值框进行匹配，得到匹配结果；根据所述匹配结果，确定每个预测框对应的真值框信息，并对所述每个预测框对应的预测框信息和真值框信息进行对比，得到对比结果；根据所述对比结果，计算所述预训练模型的损失值，并根据所述损失值对所述预训练模型进行梯度反传，以对所述预训练模型进行更新，得到所述注意力模型。

本发明第三方面提供了一种驾驶场景的目标检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述驾驶场景的目标检测设备执行上述的驾驶场景的目标检测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的驾驶场景的目标检测方法。

本发明提供的技术方案中，通过应用注意力机制模型，来针对每个目标检测框感知其他图像目标检测框的单框特征向量并进行信息交叉传递，比如当前帧其他相机采集图像的目标检测框、历史帧图像的目标检测框，使得每个目标检测框除了本框的单框特征向量之外，还包含有与本框相关的其他框特征向量，以生成全局特征向量，以此进行目标检测框信息的预测，使得预测得到的目标检测框信息更加准确和丰富，比如实现驾驶场景中的物体跟踪和轨迹预测。

附图说明

图1为本发明实施例中驾驶场景的目标检测方法的一个实施例示意图；

图2为本发明实施例中驾驶场景的目标检测方法的另一个实施例示意图；

图3为本发明实施例中驾驶场景的目标检测装置的一个实施例示意图；

图4为本发明实施例中驾驶场景的目标检测装置的另一个实施例示意图；

图5为本发明实施例中驾驶场景的目标检测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种驾驶场景的目标检测方法、装置、设备及存储介质，获取多个相机采集到驾驶场景的多张待检测图像，并确定各待检测图像中的目标检测框；分别提取各个目标检测框中的各个属性信息，并对各个属性信息进行预处理，得到各个目标检测框对应的多个单框特征向量；对单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据感知结果，对单框特征向量进行交叉组合，得到各个目标检测框对应的全局特征向量；根据全局特征向量，预测对应的各个目标检测框信息，并基于各个目标检测框信息，得到驾驶场景的目标检测结果。本发明提升了驾驶场景目标检测的信息丰富程度以及检测结果的精确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中驾驶场景的目标检测方法的第一个实施例包括：

101、获取多个相机采集到驾驶场景的多张待检测图像，并确定各所述待检测图像中的目标检测框；

可以理解的是，本发明的执行主体可以为驾驶场景的目标检测装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，主车上通常部署有多个相机，以采集以主车为中心的驾驶场景不同方向的图像，以在数据层面构建出一个完整的驾驶场景。通过主车上设置的多个相机采集到多张待检测图像后，可以使用一个目标检测模型来分别对各张待检测图像进行目标检测，以识别各张待检测图像的目标检测框，以初步确定各张待检测图像中包含的目标。

具体的，目标检测模型可以为2D目标检测器或者3D目标检测器，对应得到的目标检测框，根据维度可以为2D检测框或者3D检测框，此处优选为3D检测框，可以得到更多的目标相关信息。目标检测框还携带有对应的目标的类别(车辆、行人、路障、交通指示灯等)、尺寸、位置、置信度、朝向、所属相机等。需注意的是，此处多张待检测图像包括各个相机拍摄到的当前帧的图像、以及历史帧的图像。

102、分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；

本实施例中，提取各个目标检测框中携带的各维度属性信息，包括目标检测框的类别(车辆、行人、路障、交通指示灯等)、尺寸、位置、置信度、朝向、所属相机等，以单个框的检测结果中表示待检测图像的目标。

本实施例中，针对目标检测框提取到的各个属性信息，来对其进行预处理，使其转换为后续可用于信息感知和交叉传递的数据格式，即转换为向量的数据格式。通过单个框的属性信息转换得到单个框的特征向量，即为单框特征向量，从较高维度表示每个单独的目标检测框的目标相关信息。

103、对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量；

本实施例中，针对单框特征向量来对待检测图像进行目标检测，仅能考虑到当前时刻静态的一个方向拍摄到的图像所包含的信息，无法从全局的驾驶场景来进行目标检测，也无法从动态角度来进行目标检测。此处针对对每个单框特征向量按照所属图像进行关联关系的感知，可以包括以下感知方式：1)进行目标动态的关联关系感知；2)进行全局静态的关联关系感知；3)相机位置的关联关系感知。

具体的，针对各个单框特征向量进行目标动态的关联关系感知，可以采用每个单框特征向量所在的当前帧图像和历史帧图像，来对当前帧图像的目标运动轨迹进行校准，以用于目标检测框信息的预测。进一步的，还可以进一步预测未来的目标表运动轨迹，以用于目标检测框信息的预测。

具体的，针对各个单框特征向量进行全局静态的关联关系感知，可以将各个相机采集到的不同方向图像的单框特征向量进行关联感知，确定各个单框特征之间的关联关系。

具体的，针对各个单框特征向量进行相机位置的关联关系感知，可以按照不同相机之间的位置，从图像层面对单框特征向量进行相互融合，此时以图像为基础划分单框特征向量，再进行关联关系感知。

本实施例中，针对每个单框特征向量感知到的关联关系，利用具有关联关系的其他单框特征向量来对自身单框特征向量进行信息传递，各个单框特征向量之间双向传递，使得每个单框特征向量之间包含的信息相互融合，各个单框特征向量转化为全局特征向量，包含有动态的、全局的、相机位置的相关信息。

104、根据所述全局特征向量，预测对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

本实施例中，每个目标检测框之间的信息按照关联关系进行融合之后，得到全局特征向量，考虑到目标检测框在目标动态状态下、全局驾驶场景下和相机位置下的情况，再预测每个目标检测框的目标检测框信息，得到的对应的目标检测结果准确度更高，包含的相关信息更丰富。

具体的，可以通过一个多层transformer自注意力机制的神经网络，将全局特征向量作为输入，预测各个目标检测框信息，包括当前驾驶场景中目标的存在性、重复性、类别、几何信息(中心位置，尺寸，旋转角度等)、运动信息(速度，加速度等)、历史和将来的轨迹预测等。

本发明实施例中，通过应用注意力机制模型，来针对每个目标检测框感知其他图像目标检测框的单框特征向量并进行信息交叉传递，比如当前帧其他相机采集图像的目标检测框、历史帧图像的目标检测框，使得每个目标检测框除了本框的单框特征向量之外，还包含有与本框相关的其他框特征向量，以生成全局特征向量，以此进行目标检测框信息的预测，使得预测得到的目标检测框信息更加准确和丰富，比如实现驾驶场景中的物体跟踪和轨迹预测。

请参阅图2，本发明实施例中驾驶场景的目标检测方法的第二个实施例包括：

201、获取多个相机采集到驾驶场景的多张待检测图像，并确对各所述待检测图像进行目标检测，得到对应的预置维度的目标检测框；

本实施例中，在提取待检测图像的目标检测框时，包括两种提取方式：第一种是通过一个目标检测模型的神经网络来待检测图像进行目标检测，得到待检测图像中各个目标的检测框，即一个待检测图像中可以提取出一个或多个目标检测框；第二种是检测相机拍摄内容中的包含有目标物体的有效全连接区域，根据相机参数，来对待检测图像进行增强，比如高斯模糊处理、颜色变换、线性变换等，并划分出该有效全连接区域，得到目标检测框。

本实施例中，针对前述两种不同的目标检测框的提取方式，二选其一进行布置即可，并且在后续采用对应的感知方式进行各个目标检测框的关联关系感知。即若选用模型目标检测提取到的目标检测框，采用基于深度学习的感知方式进行关联关系感知；若选用相机参数提取到的目标检测框，采用基于相机参数关联的感知方式进行关联关系感知。

202、分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；

203、若所述单框特征向量为目标检测对应的单框特征向量，则分别感知所述各个单框特征向量对应的非本相机采集到待检测图像的第三向量和本相机采集到待检测图像的历史帧的第四向量；

204、识别所述各个单框特征向量与对应感知到的第三向量之间的第一关联关系、以及识别所述各个单框特征向量与对应感知到的第四向量之间的第二关联关系，并将所述第一关联关系和所述第二关联关系作为感知结果；

本实施例中，若采用模型目标检测提取到的目标检测框，则先区分每个单框特征向量所属的相机，然后对于每个提取到的目标检测框的单框特征向量H_i(i∈N，N为全部单框特征向量的数量)，感知非本相机采集到的图像的其他单框特征向量H_{i_j}，分别将H_i与每个H_{i_j}进行关联关系识别，得到第一关联关系；同时感知每个相机采集到的历史帧图像的其他单框特征向量H_{i_k}，分别将H_i与每个H_{i_k}进行关联关系识别，得到第二关联关系。

具体的，可以使用使用多层transformer自注意力机制的神经网络处理，使得每一个目标检测框的单框特征向量能够感知到其他所有目标检测框的单框特征向量。

针对第一关联关系的识别，检测相邻的待检测图像的各个目标检测框之间存在重叠的部分，先对重叠部分的目标检测框的目标单框特征向量和对应的第三向量进行关联关系识别，包括位置关系、重叠范围、类别、运动信息等关联关系。然后以重叠部分识别到的关联关系，拓展到跟目标检测框同属一张待检测图像的其他检测框，识别该其他检测框的单框特征向量与对应的第三向量之间的关联关系，包括位置关系、运动信息等。以此类推，直到得到全部单框特征向量之间的关联关系，组合即可得到第一关联关系。

针对第二关联关系的识别，则识别当前帧待检测图像的每个目标检测框与历史帧图像的每个目标检测框之间的对应关系(属于同一个目标)，针对同一个目标的目标检测框，识别对具有对应关系的两个目标检测框之间的单框特征向量的关联关系作为第二关联关系，比如目标的类别、大小、朝向、位置等的关联关系，确定是否相同类别、相同尺寸、朝向改变大小和位置改变大小等。

除此之外，若选用相机参数提取到的目标检测框，则从相机参数对应的各个单框特征向量分别感知本相机参数对应的第一向量和非本相机参数对应的第二向量；然后识别所述第一向量和所述第二向量之间的关联关系并作为感知结果。

本实施例中，单框特征向量中包含有相机的内参信息和外参信息，现根据每两个相机的内参信息和外参信息进行标定，然后识别两个相机采集到的各一个待检测图像的重叠部分，采用相似度算法识别重叠部分的目标检测框的匹配关系，以确定对应第一向量和第二向量之间的关联关系，比如位置关系类别、运动信息等关联关系。接着以此为基础，预测该两个待检测图像其他目标检测框对应的第一向量和第二向量之间的对应关系，以此类推，得到最终感知结果。

205、根据所述第一关联关系，确定各个目标检测框对应目标物体的重复性信息，以及根据所述第二关联关系，确定各个目标检测框对应目标物体的运动状态信息；

206、分别将各所述单框特征向量与感知到的对应运动状态信息和对应重复性信息进行融合，得到所述各个目标检测框对应的全局特征向量；

本实施例中，通过每个目标检测框的信息交叉传递，使得每一个目标检测框能够更好的预测它所对应的真值，包括需要与历史帧信息的第一关联关系才能获取的运动状态信息比如运动轨迹、和需要与其他相机之间的第二关联关系才能获得的重复性信息，来将运动状态信息和重复性信息同时添加至对应的各个目标检测框的全局特征向量，即每个目标检测框的全局特征向量包括自身的单框特征向量。运动状态信息和重复性信息。

207、利用预置的注意力模型，根据所述全局特征向量中的重复性信息，对所述各个目标检测框对应目标物体进行存在性预测，得到第一预测结果；

208、根据所述全局特征向量中的运动状态信息，对所述各个目标检测框对应目标物体进行物体跟踪和轨迹预测，得到第二预测结果；

209、基于所述第一预测结果和所述第二预测结果，得到对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

本实施例中，根据全局特征中从全局的鸟瞰图视角来对待检测图像进行目标检测，使得识别的各个目标检测框信息携带有目标在驾驶场景全局下的相关信息。此处同时保留图像视角和鸟瞰图视角下目标检测框的全局特征信息，包括自身单框特征信息、运动状态信息和重复性信息，识别得到的目标检测框信息同时保证物体在图像视角的常规目标信息的预测，还有目标的存在性和运动状态属性(物体跟踪和轨迹预测的信息)的准确预测。

本实施例中，通过全局特征向量，对目标检测框的历史位置和将来位置进行回归，同时能够实现物体跟踪和轨迹预测。最终输出每个目标检测框信息，包括存在性，重复性，类别，几何信息(中心位置，尺寸，旋转角度等)，运动信息(速度，加速度等)，历史和将来的物体和运动轨迹的预测等。

另外，针对注意力模型的训练，可以采用如下所示的步骤：

1)获取多个相机采集到驾驶场景的历史图像，并识别各张历史图像的预测框，以及标注所述各张历史图像的真值框信息；

2)对所述各个预测框中的各个属性信息进行特征预处理，并利用预置预训练模型，根据特征预处理的结果，预测对应的各个预测框信息；

3)根据所述预测框信息和所述真值框信息，分别对所述张历史图像中的每个预测框和每个真值框进行匹配，得到匹配结果；

4)根据所述匹配结果，确定每个预测框对应的真值框信息，并对所述每个预测框对应的预测框信息和真值框信息进行对比，得到对比结果；

5)根据所述对比结果，计算所述预训练模型的损失值，并根据所述损失值对所述预训练模型进行梯度反传，以对所述预训练模型进行更新，得到所述注意力模型。

本实施例中，对历史图像的预测框、预测框信息的处理，与前面目标检测框和目标检测框信息的处理过程一样，此处不再赘述，主要针对根据标注的真值框信息，对预测框信息进行调整，在调整过程学习得到注意力模型。

具体的，可以根据预测框信息和真值框信息，利用最优匹配算法进行预测框和真值框的匹配，从而获取每个预测框应该对应的真值信息。其中，可以通过计算出的预测框信息和真值框信息进行比对计算损失函数，确定每次预训练模型预测的损失值，根据损失值的大小，确定预训练模型是否收敛，以及对未收敛的预训练模型进行梯度反传。以此通过历史图像数据实现预训练模型的监督训练，得到用于后续目标检测框信息预测的注意力模型。

本发明实施例中，通过多帧多相机单目检测框融合的方法，保留图像视角和鸟瞰图视角检测各自的信息，同时保证物体的存在性和运动状态属性的准确预测，再通过对历史位置和将来位置的回归，同时能够实现物体跟踪和轨迹预测。

上面对本发明实施例中驾驶场景的目标检测方法进行了描述，下面对本发明实施例中驾驶场景的目标检测装置进行描述，请参阅图3，本发明实施例中驾驶场景的目标检测装置一个实施例包括：

获取模块301，用于获取多个相机采集到驾驶场景的多张待检测图像，并确定各所述待检测图像中的目标检测框；

预处理模块302，用于分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；

感知模块303，用于对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量；

预测模块304，用于根据所述全局特征向量，预测对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

请参阅图4，本发明实施例中驾驶场景的目标检测装置的另一个实施例包括：

具体的，所述获取模块301包括：

目标检测单元3011，用于对各所述待检测图像进行目标检测，得到对应的预置维度的目标检测框；

图像划分单元3012，用于按照所述多个相机的相机参数，对每个相机采集的待检测图像进行划分，得到对应的目标检测框。

具体的，所述感知模块303包括相机参数感知单元3031，用于：

若所述单框特征向量为相机参数对应的单框特征向量，则从相机参数对应的各个单框特征向量分别感知本相机参数对应的第一向量和非本相机参数对应的第二向量；

识别所述第一向量和所述第二向量之间的关联关系并作为感知结果。

具体的，所述感知模块303还包括关联目标感知单元3032，用于：

若所述单框特征向量为目标检测对应的单框特征向量，则分别感知所述各个单框特征向量对应的非本相机采集到待检测图像的第三向量和本相机采集到待检测图像的历史帧的第四向量；

识别所述各个单框特征向量与对应感知到的第三向量之间的第一关联关系、以及识别所述各个单框特征向量与对应感知到的第四向量之间的第二关联关系，并将所述第一关联关系和所述第二关联关系作为感知结果。

具体的，所述感知模块303还包括融合单元3033，用于：

根据所述第一关联关系，确定各个目标检测框对应目标物体的重复性信息，以及根据所述第二关联关系，确定各个目标检测框对应目标物体的运动状态信息；

分别将各所述单框特征向量与感知到的对应运动状态信息和对应重复性信息进行融合，得到所述各个目标检测框对应的全局特征向量。

具体的，所述预测模块304包括：

第一预测单元3041，用于利用预置的注意力模型，根据所述全局特征向量中的重复性信息，对所述各个目标检测框对应目标物体进行存在性预测，得到第一预测结果；

第二预测单元3042，用于根据所述全局特征向量中的运动状态信息，对所述各个目标检测框对应目标物体进行物体跟踪和轨迹预测，得到第二预测结果；

确定单元3043，用于基于所述第一预测结果和所述第二预测结果，得到对应的各个目标检测框信息。

具体的，所述驾驶场景的目标检测装置还包括训练模块305，用于：

获取多个相机采集到驾驶场景的历史图像，并识别各张历史图像的预测框，以及标注所述各张历史图像的真值框信息；

对所述各个预测框中的各个属性信息进行特征预处理，并利用预置预训练模型，根据特征预处理的结果，预测对应的各个预测框信息；

根据所述预测框信息和所述真值框信息，分别对所述张历史图像中的每个预测框和每个真值框进行匹配，得到匹配结果；

根据所述匹配结果，确定每个预测框对应的真值框信息，并对所述每个预测框对应的预测框信息和真值框信息进行对比，得到对比结果；

根据所述对比结果，计算所述预训练模型的损失值，并根据所述损失值对所述预训练模型进行梯度反传，以对所述预训练模型进行更新，得到所述注意力模型。

上面图3和图4从模块化功能实体的角度对本发明实施例中的驾驶场景的目标检测装置进行详细描述，下面从硬件处理的角度对本发明实施例中驾驶场景的目标检测设备进行详细描述。

图5是本发明实施例提供的一种驾驶场景的目标检测设备的结构示意图，该驾驶场景的目标检测设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对驾驶场景的目标检测设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在驾驶场景的目标检测设备500上执行存储介质530中的一系列指令操作。

驾驶场景的目标检测设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的驾驶场景的目标检测设备结构并不构成对驾驶场景的目标检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种驾驶场景的目标检测设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述驾驶场景的目标检测方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述驾驶场景的目标检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种驾驶场景的目标检测方法，其特征在于，所述驾驶场景的目标检测方法包括：

获取多个相机采集到驾驶场景的多张待检测图像，并确定各所述待检测图像中的目标检测框；

分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；

对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量；

根据所述全局特征向量，预测对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

2.根据权利要求1所述的驾驶场景的目标检测方法，其特征在于，所述确定各所述待检测图像中的目标检测框包括：

对各所述待检测图像进行目标检测，得到对应的预置维度的目标检测框；

或者，

按照所述多个相机的相机参数，对每个相机采集的待检测图像进行划分，得到对应的目标检测框。

3.根据权利要求2所述的驾驶场景的目标检测方法，其特征在于，所述对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果包括：

4.根据权利要求2所述的驾驶场景的目标检测方法，其特征在于，所述对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果包括：

5.根据权利要求4所述的驾驶场景的目标检测方法，其特征在于，所述根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量包括：

6.根据权利要求5所述的驾驶场景的目标检测方法，其特征在于，所述根据所述全局特征向量，预测对应的各个目标检测框信息包括：

利用预置的注意力模型，根据所述全局特征向量中的重复性信息，对所述各个目标检测框对应目标物体进行存在性预测，得到第一预测结果；

根据所述全局特征向量中的运动状态信息，对所述各个目标检测框对应目标物体进行物体跟踪和轨迹预测，得到第二预测结果；

基于所述第一预测结果和所述第二预测结果，得到对应的各个目标检测框信息。

7.根据权利要求6所述的驾驶场景的目标检测方法，其特征在于，在所述获取多个相机采集到驾驶场景的多张待检测图像之前，还包括：

8.一种驾驶场景的目标检测装置，其特征在于，所述驾驶场景的目标检测装置包括：

获取模块，用于获取多个相机采集到驾驶场景的多张待检测图像，并确定各所述待检测图像中的目标检测框；

预处理模块，用于分别提取各个目标检测框中的各个属性信息，并对所述各个属性信息进行预处理，得到所述各个目标检测框对应的多个单框特征向量；

感知模块，用于对所述各个单框特征向量按照所属图像之间的关联关系进行感知，得到感知结果，并根据所述感知结果，对所述各个单框特征向量进行交叉组合，得到所述各个目标检测框对应的全局特征向量；

预测模块，用于根据所述全局特征向量，预测对应的各个目标检测框信息，并基于所述各个目标检测框信息，得到驾驶场景的目标检测结果。

9.一种驾驶场景的目标检测设备，其特征在于，所述驾驶场景的目标检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述驾驶场景的目标检测设备执行如权利要求1-7中任意一项所述的驾驶场景的目标检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述驾驶场景的目标检测方法的步骤。