CN111507169A

CN111507169A - 以avm实现注意力驱动资源分配的方法及装置

Info

Publication number: CN111507169A
Application number: CN202010074183.7A
Authority: CN
Inventors: 金桂贤; 金镕重; 金鹤京; 南云铉; 夫硕焄; 成明哲; 申東洙; 吕东勋; 柳宇宙; 李明春; 李炯树; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-22
Publication date: 2020-08-07
Anticipated expiration: 2040-01-22
Also published as: US20200250450A1; US10776647B2; JP2020126632A; KR102396271B1; EP3690735B1; CN111507169B; EP3690735A1; EP3690735C0; KR20200095368A; JP6890855B2

Abstract

本申请公开了一种以AVM实现注意力驱动资源分配的方法及装置，该方法及装置通过使用表示与检测客体过程并行生成的检测客体的可信度的置信度分数来在自动驾驶中实现更好性能并节约计算能力。其中，该方法包括以下步骤：(a)计算装置通过安装在对象车辆上的至少一个全景视图传感器获取对象车辆周围的至少一个环境图像；(b)计算装置指示卷积神经网络(CNN)对环境图像进行至少一个CNN运算，从而生成环境图像的初始客体信息和初始置信度信息；(c)计算装置通过参照初始客体信息和初始置信度信息，生成环境图像的最终客体信息。

Description

以AVM实现注意力驱动资源分配的方法及装置

技术领域

本申请涉及一种用于自动驾驶车辆的方法和装置，尤其涉及一种利用注意力驱动算法的用于实现自动驾驶安全性的资源分配方法及装置。

背景技术

自动驾驶技术自近年的研究以来，已达到无需驾驶者的干预就可自动驾驶车辆的水准，且已具备相当高的精度。然而，这样的自动驾驶技术还没有被商业化，而公众不使用自动驾驶技术的原因可能很多，但其原因之一就是自动驾驶操作需要太多的计算能力。

为了降低自动驾驶所需要的计算能力的消耗，虽已做出许多努力，然而，降低消耗计算能力后，反而造成了自动驾驶性能下降的问题。如果自动驾驶性能下降，则会导致很多错误，从而威胁驾驶员和周围的人的生命安全。因此，我们需要降低计算能力的同时保持自动驾驶的性能。但事实上，该方法并没有受到太多的研究。

发明内容

本申请的目的是解决上述问题。

本申请的目的是通过使用全景监控影像系统(Around View Monitor，AVM)，从而为实现自动驾驶的安全性提供一种利用注意力驱动算法的资源分配方法。

本申请的另一个目的是提供一种与检测客体的过程并列地生成置信度分数(Confidence Score)的方法，该置信度分数表示客体被检测来的可信度的参数。

本申请的又一个目的是对置信度分数小于阈值的区域重复客体检测，从而提供一种可以执行更正确的客体检测的方法。

为了达到本申请的上述目的与效果，下面将具体说明本申请的特征结构。

本申请的一实施例提供一种利用AVM实现自动驾驶安全性的方法，既节约计算能力还能使自动驾驶性能更优越的方法，该方法通过使用置信度分数(Confidence Score)来在自动驾驶中实现更好的性能，同时节省计算能力，其中，所述置信度分数代表检测客体的可信度(Credibility)，并与检测客体过程并列地产生。所述方法包括以下步骤：步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器(Panorama View Sensor)获取所述对象车辆周边的至少一个环境图像(Circumstance Image)；步骤(b)、所述计算装置指示卷积神经网络(Convolutional Neural Network，CNN)对所述环境图像进行至少一次CNN运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及步骤(c)、所述计算装置通过参照所述初始客体信息及所述初始置信度信息来生成所述环境图像的最终客体信息。

在一实施例中，所述步骤(c)包括以下步骤：步骤(c1)、所述计算装置(i)通过参照所述初始置信度信息，在包括于所述环境图像的至少一个区域中，首先选择与其对应的所述置信度分数小于阈值的至少一个第一特定区域，并(ii)指示所述CNN对所述第一特定区域进行所述CNN运算，从而执行关于所述环境图像的重新检测(Re-detection)过程，所述重新检测过程用以生成第一调整客体信息(Adjusted Object Information)及第一调整置信度信息；步骤(c2)、所述计算装置重复(i)参照预先生成的第K-1调整置信度信息来在所述环境图像中的所述区域中，分别选择与其相对应的所述置信度分数小于所述阈值的至少一个第K特定区域，然后(ii)指示所述CNN对所述第K特定区域进行CNN运算，从而执行关于所述环境图像的所述重新检测过程，所述重新检测过程用于生成第K调整客体信息及第K调整置信度信息；以及步骤(c3)、当所述重新检测过程被执行N次后生成第N调整客体信息及第N调整置信度信息时，所述计算装置通过参照所述初始客体信息及所述第一调整客体信息至所述第N调整客体信息中的至少一部分，生成所述最终客体信息；其中，所述K是2至N的整数，并且N为预设整数。

在一实施例中，M为1至N-1的整数，在执行M次所述重新检测过程时，在选择的至少一个第M特定区域的至少一个面积的合小于阈值的情况下，所述计算装置中断所述重新检测过程的重复执行，通过参照所述初始客体信息及所述第一调整客体信息至第M-1调整客体信息的至少一部分来生成所述最终客体信息。

在一实施例中，L为1至N的整数，在执行L次所述重新检测过程时，当选择至少一个第L特定区域时，所述计算装置参照第L倍数信息来对所述第L特定区域进行上采样运算(Upsampling Operation)，从而生成第L特定上采样图像(Specific Upsampled Image)后，指示所述CNN对所述第L特定上采样图像进行CNN运算，从而生成第L调整客体信息及第L调整置信度信息。

在一实施例中，所述计算装置通过参照所述初始客体信息及所述第一调整客体信息至所述第N调整客体信息的至少一部分来执行NMS(Non-Maximum Suppression)算法及盒投票(Box Voting)算法中的至少一个，从而生成所述最终客体信息。

在一实施例中，在所述步骤(c)，所述计算装置在生成包括多个所述环境图像作为其部分图像(Partial Image)的集成图像(Integrated Image)的同时，通过使用每个所述环境图像相关的每个所述初始客体信息及每个所述初始置信度信息，来生成关于所述集成图像的集成最终客体信息，其中，所述K为2至N的整数，当N为预设整数时，通过执行以下步骤来生成所述集成最终客体信息：步骤(c4)、所述计算装置(i)通过参照每个所述初始置信度信息，生成对所述集成图像的第一集成置信度信息后，(ii)通过参照所述第一集成置信度信息，在所述集成图像中的至少一个区域中选择与其相对应的置信度分数小于阈值的至少一个每个第一特定区域，(iii)最后指示所述CNN通过对所述第一特定区域进行CNN运算，从而在所述集成图像上执行所述重新检测过程，所述重新检测过程用于生成每个第一调整客体信息及每个第一调整置信度信息；步骤(c5)、所述计算装置重复地执行(i)至(iii)的过程，具体为：(i)通过参照每个第K-1调整置信度信息，生成关于所述集成图像的第K调整集成置信度信息后，(ii)通过参照所述第K调整集成置信度信息，来选择在所述集成图像中的所述区域中与其相对应的置信度分数小于所述阈值的至少一个每个第K特定区域，(iii)最后指示所述CNN通过对所述第K特定区域进行CNN运算来执行关于所述集成图像的所述重新检测过程，其中，所述重新检测过程用于生成每个第K调整客体信息及每个第K调整置信度信息；以及步骤(c6)、当执行了N次所述重新检测过程后生成每个第N调整客体信息及每个第N调整置信度信息时，所述计算装置通过参照所述初始客体信息及所述第一调整客体信息至第N调整客体信息中的至少一部分，生成所述集成最终客体信息。

在一实施例中，(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时，所述计算装置指示第一CNN，对所述第一环境图像进行至少一次第一CNN运算，其中，所述第一CNN不仅对3通道图像进行了优化，其还具有3个以上输入节点，以及(ii)通过与深度传感器(Depth Sensor)相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时，所述计算装置指示第二CNN对所述第二环境图像进行至少一次第二CNN运算，其中，所述第二CNN不仅对深度图像(Depth Image)进行了优化，其还具有一个以上输入节点。

在一实施例中，还包括步骤(d)、所述计算装置通过将所述最终客体信息传递至自动驾驶模块，以使所述自动驾驶模块利用所述最终客体信息来执行所述对象车辆的自动驾驶。

在一些实施例中，在所述步骤(a)之前，还包括以下步骤：步骤(a1)、当获取到训练图像，学习装置则指示所述CNN中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图；步骤(a2)、所述学习装置通过对所述卷积特征图进行至少一次锚定(Anchor)运算来在所述训练图像上生成预测注意区域(Region OfInterest，ROI)，并在执行该过程的同时，指示包含在区域建议网络(Region ProposalNetwork，RPN)中的至少一个锚定(Anchor)层，按所述卷积特征图的每个像素，生成至少一个RPN置信度分数，所述至少一个RPN置信度分数代表每个所述预测ROI与每个确实(GroundTruth，GT)ROI相同的至少一个概率，从而生成包括所述RPN置信度分数的RPN置信度图；步骤(a3)当通过包含在所述CNN中的ROI池化层(ROI Pooling Layer)获取到至少一个ROI-池化特征图(ROI-Pooled Feature Map)时，则所述学习装置通过使用所述ROI-池化特征图，生成预测客体的检测结果(Estimated Object Detection Result)，并在执行该过程的同时，指示所述CNN中包含的FC层为每个所述预测ROI生成每个CNN置信度分数，其中，所述至少一个ROI-池化特征图(ROI-Pooled Feature Map)是通过利用所述卷积特征图及所述预测ROI生成的，所述每个CNN置信度分数代表所述预测客体检测结果中包含的至少一个预测CNN分类结果(Estimated CNN Classification Result)和至少一个预测CNN回归结果(Estimated CNN Regression Result)中的每一个与GT客体检测结果中包含的至少一个GTCNN分类结果(GT CNN Classification Result)和至少一个GT CNN回归结果(GT CNNRegression Result)中的每一个出现相同结果的至少一个概率；以及步骤(a4)、通过参照所述RPN置信度图、所述CNN置信度图、所述预测客体检测结果和所述GT客体检测结果，所述学习装置指示损失层生成至少一个RPN损失和至少一个CNN损失，并通过利用所述RPN损失和CNN损失来执行反向传播，以学习所述CNN和所述RPN中包含的至少一部分参数。

在一实施例中，在所述步骤(a4)中，所述学习装置使用以下公式指示损失层生成所述RPN损失：

其中，N_reg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数，N_cls表示与所述训练图像相对应的常数，c_i表示在所述RPN置信度分数中与所述卷积特征图的第i像素相对应的第i RPN置信度分数，p_i表示与所述第i像素相对应的第i预测RPN分类结果，

表示与所述第i像素相对应的第i GT RPN分类结果，t_i表示与所述第i像素相对应的第i预测RPN回归结果，并且

表示与所述第i像素相对应的第i GT RPN回归结果，其中，所述第i GT RPN分类结果和所述第i GT RPN回归结果对应于所述GT客体检测结果。

在一实施例中，在所述步骤(a4)，所述学习装置通过以下公式指示所述损失层生成所述CNN损失：

其中，N_reg和N_cls表示所述预测ROI的数量，c_i表示所述CNN置信度分数中与预测ROI中选择的第i预测ROI相对应的第i CNN置信度分数，p_i表示与所述第i预测ROI相对应的第i预测CNN的分类结果，

表示与所述第i像素相对应的第i GT CNN分类结果，t_i表示与所述第i预测ROI相对应的第i预测CNN回归结果，

表示与所述第i像素相对应的第i GT CNN回归结果，其中，所述第i预测CNN分类结果和所述第i预测CNN回归结果与所述预测客体检测结果相对应。

在一实施例中，在所述步骤(a3)之后，所述学习装置通过参照所述RPN置信度图和所述CNN置信度图，指示置信度层生成集成置信度图，所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。

在一实施例中，所述学习装置指示所述置信度层，执行以下过程：过程(i)、(i-1)从所述CNN获取所述预测ROI的非最大抑制(Non-Maximum Suppression，NMS)结果，所述NMS结果是在生成所述预测客体检测结果的过程中生成的，并(i-2)通过对所述RPN置信度图进行至少一个调整大小运算(Resizing Operation)来生成调整大小的RPN置信度图；以及过程(ii)、通过参照所述NMS结果和所述调整大小的RPN置信度图来生成所述集成置信度图。

在一实施例中，所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x，y)相对应的第X_Y集成置信度分数：

其中，c′_xy表示第X_Y集成置信度分数，c_xy表示与所述调整大小的RPN置信度图上的所述坐标(x，y)相对应的第X_Y调整大小的RPN置信度分数，

表示在所述NMS结果中确定并包括所述坐标(x，y)的第i预测ROI的第i CNN置信度分数，所述第i CNN置信度分数表示为r_i。

在一实施例中，所述步骤(b)包括以下步骤：步骤(b1)、当获取到所述环境图像，所述计算装置则指示所述CNN中包括的至少一个卷积层，对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图；步骤(b2)、所述计算装置对所述卷积特征图进行至少一次锚定运算，以此在所述环境图像上生成预测注意区域(ROI)，并在执行该过程的同时，指示RPN中包括的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个RPN置信度分数，所述至少一个RPN置信度分数代表每个所述预测ROI与GT ROI相同的至少一个概率，从而生成包括所述RPN置信度分数的RPN置信度图；步骤(b3)、当通过包含在所述CNN中的ROI池化层获取到至少一个ROI-池化特征图时，则所述计算装置通过使用所述ROI-池化特征图，生成预测客体检测结果，并在执行该过程的同时，指示所述CNN中包含的FC层为每个所述预测ROI生成每个CNN置信度分数，从而生成包括所述CNN置信度分数的CNN置信度图，其中，所述至少一个ROI-池化特征图是通过利用所述卷积特征图及所述预测ROI生成的，所述每个CNN置信度分数代表所述预测客体的检测结果中包含的至少一个预测CNN分类结果和至少一个预测CNN回归结果中的每一个与GT客体检测结果中包含的至少一个GT CNN分类结果和至少一个GT CNN回归结果中的每一个出现相同结果的至少一个概率；以及步骤(b4)、所述计算装置通过参照所述RPN置信度图和所述CNN置信度图，指示与所述CNN交互作用的置信度层，生成集成置信度图，其中，所述计算装置指示所述CNN输出所述初始置信度信息，所述初始置信度信息包括所述初始客体信息及所述集成置信度图，所述初始客体信息包括所述预测客体检测结果。

根据本申请的另一实施例，提供了一种利用AVM实现自动驾驶安全性的装置，通过使用置信度分数(Confidence Score)来在自动驾驶中实现更好性能的同时，还可以节省计算能力的计算装置，其中，所述置信度分数代表检测客体的可信度，并与检测客体过程并列地产生，所述计算装置包括：至少一个存储指令的存储器；以及至少一个处理器，其用于实施所述指令并执行以下过程：(I)通过安装在对象车辆上的至少一个全景视图传感器(Panorama View Sensor)获取所述对象车辆周边的至少一个环境图像(CircumstanceImage)；(II)指示CNN(Convolutional Neural Network)对所述环境图像进行至少一次CNN运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及(III)通过参照所述初始客体信息及所述初始置信度信息，生成所述环境图像的最终客体信息。

在一实施例中，所述过程(III)包括以下过程：(III-1)(i)通过参照所述初始置信度信息，首先选择包括在所述环境图像中的至少一个区域中与其相对应的所述置信度分数小于阈值的每个至少一个第一特定区域，并(ii)指示所述CNN对所述第一特定区域进行CNN运算，从而执行关于所述环境图像的所述重新检测过程，所述重新检测过程用以生成第一调整客体信息及第一调整置信度信息；(III-2)(i)通过参照预先生成的第K-1调整置信度信息，选择所述环境图像中的所述区域中与其相对应的所述置信度分数小于所述阈值的每个至少一个第K特定区域，并(ii)指示所述CNN对所述第K特定区域进行所述CNN运算，从而重复执行关于所述环境图像的所述重新检测过程，所述重新检测过程用于生成第K调整客体信息与第K调整置信度信息；以及(III-3)当所述重新检测过程被执行N次后生成第N调整客体信息及第N调整置信度信息时，通过参照所述初始客体信息和所述第一调整客体信息至所述第N调整客体信息中的至少一部分，生成所述最终客体信息；其中，所述K为2至N的整数，N为预设整数。

在一实施例中，M为1至N-1的整数，在执行M次所述重新检测过程时，在选择的至少一个第M特定区域的至少一个面积的合小于阈值的情况下，所述处理器中断所述重新检测过程的重复执行，通过参照所述初始客体信息及所述第一调整客体信息至第M-1调整客体信息的至少一部分，来生成所述最终客体信息。

在一实施例中，L为1至N的整数，在执行L次所述重新检测过程时，当选择至少一个第L特定区域时，所述处理器参照第L倍数信息来对所述第L特定区域进行上采样运算(Upsampling Operation)，从而生成第L特定上采样图像(Specific Upsampled Image)后，指示所述CNN对所述第L特定上采样图像进行CNN运算，从而生成第L调整客体信息及第L调整置信度信息。

在一实施例中，所述处理器通过参照所述初始客体信息及所述第一调整客体信息至所述第N调整客体信息的至少一部分，来执行NMS(Non-Maximum Suppression)算法及盒投票(Box Voting)算法中的至少一个，从而生成所述最终客体信息。

在一实施例中，在所述过程(III)中，在生成包括多个所述环境图像作为其部分图像(Partial Image)的集成图像(Integrated Image)的同时，所述处理器通过使用每个所述环境图像相关的每个所述初始客体信息及每个所述初始置信度信息，来生成关于所述集成图像的集成最终客体信息，其中，所述K为2至N的整数，当N为预设整数时，通过执行以下过程来生成所述集成最终客体信息：

(III-4)(i)通过参照每个所述初始置信度信息，生成对所述集成图像的第一集成置信度信息后，(ii)通过参照所述第一集成置信度信息，在所述集成图像中的至少一个区域中选择与其相对应的置信度分数小于阈值的至少一个每个第一特定区域，(iii)最后指示所述CNN通过对所述第一特定区域进行CNN运算，从而在所述集成图像上执行所述重新检测过程，所述重新检测过程用于生成每个第一调整客体信息及每个第一调整置信度信息；

(III-5)重复地执行(i)至(iii)的过程，具体为：(i)通过参照每个第K-1调整置信度信息，生成关于所述集成图像的第K调整集成置信度信息后，(ii)通过参照所述第K调整集成置信度信息，来选择在所述集成图像中的所述区域中与其相对应的置信度分数小于所述阈值的至少一个每个第K特定区域，(iii)最后指示所述CNN通过对所述第K特定区域进行CNN运算来执行关于所述集成图像的所述重新检测过程，其中，所述重新检测过程用于生成每个第K调整客体信息及每个第K调整置信度信息；以及

(III-6)当执行了N次所述重新检测过程后生成每个第N调整客体信息及每个第N调整置信度信息时，通过参照所述初始客体信息及所述第一调整客体信息至第N调整客体信息中的至少一部分，生成所述集成最终客体信息。

在一实施例中，(i)通过与照相机相对应的多个所述全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时，所述处理器指示第一CNN，对所述第一环境图像进行至少一次第一CNN运算，其中，所述第一CNN不仅对3通道图像进行了优化，其还具有3个以上输入节点(Input Node)，以及(ii)通过与深度传感器(Depth Sensor)相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时，所述处理器指示第二CNN对所述第二环境图像进行至少一次第二CNN运算，其中，所述第二CNN不仅对深度图像进行了优化，其还具有一个以上输入节点。

在一实施例中，还包括过程(IV)、所述处理器通过将所述最终客体信息传递至自动驾驶模块，以使所述自动驾驶模块利用所述最终客体信息来执行所述对象车辆的自动驾驶。

在一实施例中，在所述过程(I)之前，还包括以下过程：(I-1)当获取到训练图像，学习装置则指示所述CNN中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图(Convolutional Feature Map)；(I-2)所述学习装置通过对所述卷积特征图进行至少一次锚定运算(Anchor Operation)来在所述训练图像上生成预测ROI(Region Of Interest)，并在执行该过程的同时，指示包含在RPN(RegionProposal Network)中的至少一个锚定层(Anchor Layer)，按所述卷积特征图的每个像素，生成至少一个RPN置信度分数，所述至少一个RPN置信度分数代表每个所述预测ROI与确实(Ground-Truth，GT)ROI相同的至少一个概率，从而生成包括所述RPN置信度分数的RPN置信度图；(I-3)当通过包含在所述CNN中的ROI池化层(ROI Pooling Layer)获取到至少一个ROI-池化特征图时，则所述学习装置通过使用所述ROI-池化特征图，生成预测客体检测结果(Estimated Object Detection Result)，并在执行该过程的同时，指示所述CNN中包含的FC层为每个所述预测ROI生成每个CNN置信度分数，从而生成包括所述CNN置信度分数的CNN置信度图，其中，所述至少一个ROI-池化特征图是通过利用所述卷积特征图及所述预测ROI生成的，所述每个CNN置信度分数代表所述预测客体的检测结果中包含的至少一个预测CNN分类结果(Estimated CNN Classification Result)和至少一个预测CNN回归结果(Estimated CNN Regression Result)中的每一个与GT客体检测结果中包含的至少一个GTCNN分类结果(GT CNN Classification Result)和至少一个GT CNN回归结果(GT CNNRegression Result)中的每一个出现相同结果的至少一个概率；以及(I-4)通过参照所述RPN置信度图、所述CNN置信度图、所述预测客体检测结果及所述GT客体检测结果，所述学习装置指示损失层生成至少一个RPN损失和至少一个CNN损失，并通过利用所述RPN损失和所述CNN损失来执行反向传播，以学习所述CNN和所述RPN中包含的至少一部分参数。

在一实施例中，在所述过程(I-4)，所述学习装置使用以下公式指示所述损失层生成所述RPN损失：

表示与所述第i像素相对应的第i GT RPN分类结果，t_i表示与所述第i像素相对应的的第i预测RPN回归结果，并且

表示与所述第i像素相对应的第i GT RPN回归结果；其中，所述第i GT RPN分类结果和所述第i GT RPN回归结果对应于所述GT客体检测结果。

在一实施例中，在所述过程(I-4)，所述学习装置通过以下公式指示所述损失层生成所述CNN损失：

其中，N_reg和N_cls表示所述预测ROI的数量，c_i表示所述CNN置信度分数中与所述预测ROI中选择的第i预测ROI相对应的第i CNN置信度分数，p_i表示与所述第i预测ROI相对应的第i预测CNN分类结果，

表示与所述第i像素相对应的第i GT CNN回归结果；其中，所述第i预测CNN分类结果和所述第i预测CNN回归结果与所述预测客体检测结果相对应。

在一实施例中，在所述过程(I-3)之后，所述学习装置通过参照所述RPN置信度图和所述CNN置信度图，指示置信度层生成集成置信度图，所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。

其中，c′_xy表示所述第X_Y集成置信度分数，c_xy表示与所述调整大小的RPN置信度图上的所述坐标(x，y)相对应的第X_Y调整大小的RPN置信度分数，

在一实施例中，所述过程(II)包括以下过程：(II-1)当获取到所述环境图像，则指示所述CNN中包含的至少一个卷积层，对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图；(II-2)对所述卷积特征图进行至少一次锚定运算，以此在所述环境图像上生成预测ROI，并在执行该过程的同时，指示RPN中包括的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个RPN置信度分数，所述至少一个RPN置信度分数代表每个所述预测ROI与GT ROI相同的至少一个概率，从而生成包括所述RPN置信度分数的RPN置信度图；(II-3)当通过包含在所述CNN中的ROI池化层，获取到至少一个ROI-池化特征图时，则通过使用所述ROI-池化特征图，生成预测客体检测结果，并在执行该过程的同时，指示所述CNN中包含的FC层为每个所述预测ROI生成每个CNN置信度分数，从而生成包括所述CNN置信度分数的CNN置信度图，其中，所述至少一个ROI-池化特征图是通过利用所述卷积特征图及所述预测ROI生成的，所述每个CNN置信度分数代表所述预测客体检测结果中包含的至少一个预测CNN分类结果和至少一个预测CNN回归结果中的每一个与GT客体检测结果中包含的至少一个GT CNN分类结果和至少一个GT CNN回归结果中的每一个出现相同结果的至少一个概率；以及(II-4)通过参照所述RPN置信度图和所述CNN置信度图，指示与所述CNN交互作用的置信度层，生成集成置信度图。

另外，本申请还提供了计算机可读存储介质，以用于存储计算机程序并实施本申请提供的方法。

本申请的有益效果为：提供了一种利用AVM进行注意力驱动算法的资源分配的方法，以获得自动驾驶的安全性。

本申请的另一有益效果为：提供了一种与检测客体的过程并列地生成置信度分数的方法，该置信度分数表示客体被检测来的可信度的参数。

本申请的又另一个有益效果为：提供了一种通过重复进行置信度分数小于阈值的区域的客体检测，可以执行更正确的客体检测的方法。

附图说明

以下用于解释本申请的示例性实施方式的附图仅是本申请的示例性实施方式的一部分，并且本领域技术人员无需进行创造性劳动即可基于这些附图获得其他附图。

图1是本申请一实施例的计算装置的简易结构示意图，该装置利用置信度分数(Confidence Score)来达到降低计算能力的同时，还可以提供使自动驾驶性能更优秀的方法，其中，所述置信度分数代表客体被检测的可信度，其与检测客体的过程并列地生成。

图2是本申请一实施例的方法的流程示意图，该方法利用置信度分数(ConfidenceScore)来达到降低计算能力的同时，还可以提供使自动驾驶性能更优秀的方法，其中，所述置信度分数代表客体被检测的可信度，其与检测客体的过程并列地生成。

图3是本申请一实施例的集成图像及其相应的集成最终客体信息的简易示意图，其用于节省计算能力的同时执行实现更好的自动驾驶性能的方法，该方法利用置信度分数表示客体被检测的可信度，其与检测客体的过程并列地生成。

图4是本申请一实施例的卷积神经网络(CNN)的学习过程的简易流程示意图，该卷积神经网络用于节省计算能力的同时执行实现更好的自动驾驶性能的方法，该方法利用置信度分数表示客体被检测的可信度，其与检测客体的过程并列地生成。

图5是本申请一实施例的包括卷积神经网络(CNN)，区域建议网络(RPN)，损失层及置信度层的学习装置的结构示意图，该学习装置用于执行通过使用强化学习及V2X通信并利用注意力驱动资源分配算法来安全的进行自动驾驶的方法。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请的多个实施例虽然相互不同，但相互之间也不存在相斥的情况。例如，所记载的特征形状、结构及特性在一实施例中只要不超过本申请的精神以及保护范围时，也可以以其他实施例来体现。而且，各实施例中公开的个别结构要素的位置或配置，在不脱离本申请的精神以及保护范围的情况下，可作变更。因此，凡是本申请的权利要求所主张的内容及等同于该内容的所有内容均属于本申请的保护范围，而下面所描述的实施例并不是为了限定本申请的保护范围。附图中类似的参照符号是相同或具备的功能类似的部件名称。

此外，在本申请的描述中，需要理解的是，术语“包括”及其变化形式的其他术语等仅是为了添加其他技术特征、附加物、组件或步骤，本申请的其他目的、有益效果、特征等内容将通过说明书和本申请的实施方式向本领域技术人员揭示。以下通过一些实施例和附图具体说明本申请的保护内容，当然，它们仅仅为示例，并且目的不在于限制本申请。

本申请内容中提及的任何图像都可以包括与任何已铺设或未铺设的道路有关的图像，在这种情况下，道路上或道路附近的物体可能包括车辆、人员、动物、植物、物件、建筑物或可能出现在与道路有关的场景中的任何其他障碍物，但是本申请的范围不限于此。作为另一示例，本申请中提及的所述任何图像可以包括与任何道路都不相关的图像，诸如与巷道，土地或任何室内空间有关的图像，在这种情况下，上述任何图像中的物体可能包括车辆、人员、动物、植物、物件、建筑物或任何室内空间，但是本申请的范围不限于此。

为了使本申请的本领域技术人员能够容易地实施，将通过参照附图来详细说明本申请的优选实施例，如下所示。

参照图1，计算装置100可以包括稍后将描述的卷积神经网络(ConvolutionalNeural Network，CNN)130、区域建议网络(Region Proposal Network，RPN)140以及置信度层150。此时，CNN 130、RPN 140以及置信度层150的输入/输出过程和通信过程可以由通信部110和处理器120执行。但是，在图1中省略了通信部110和处理器120的具体连接关系。此时，存储器115用于存储稍后将描述的各种指令(Instruction)，并且处理器120可以执行存储在存储器115中的指令，处理器120通过执行稍后将描述的过程来实施本申请。虽在此如此描述了计算装置100，但实施本申请时，计算装置100包括但不限于处理器，介质，存储器或任何其他计算组件的任何组合的集成处理器(Integrated Processor)。

上述的计算装置100可以与对象车辆进行交互，并且可以获取由安装在对象车辆上的至少一个全景视图传感器拍摄的图像。这种全景视图传感器可以被构建为照相机或深度传感器(Depth Sensor)，深度传感器(Depth Sensor)即雷达或激光雷达(Lidar)。

说明了用于执行本申请一实施例的方法的计算装置的结构，该装置利用置信度分数(Confidence Score)来达到降低计算能力的同时，还可以提供使自动驾驶性能更优秀的方法，其中，所述置信度分数代表客体被检测的可信度，其与检测客体的过程并列地生成。下面，将参照图2说明该方法本身。

图2是本申请一实施例的方法的流程示意图，该方法利用置信度分数来达到降低计算能力的同时，还可以提供使自动驾驶性能更优秀的方法，其中，所述置信度分数代表客体被检测的可信度，其与检测客体的过程并列地生成。

参照图2，在步骤S100，计算装置100可以通过安装在对象车辆上的全景视图传感器来获取对象车辆周围的至少一个环境图像(Circumstance Image)。此后，在步骤S200中，计算装置100可以指示CNN 130对环境图像进行至少一次CNN运算，从而生成关于环境图像的初始客体信息和初始置信度信息。之后，在步骤S300，计算装置100可以通过参照初始客体信息和初始置信度信息来生成关于环境图像的最终客体信息。

该方法的简要步骤如上所示。以下，将更具体地说明。首先，将说明环境图像单一的一实施例。

当通过全景视图传感器获取环境图像时，计算装置100可以指示CNN 130对环境图像进行CNN运算。在此，如果环境图像是通过照相机形态设置的第一全景视图传感器的获取的，则计算装置100可以指示第一CNN对环境图像进行至少一次第一CNN运算，其中，该第一CNN不仅对3通道图像进行了优化，其还具有3个以上输入节点。或者，如果环境图像是通过以深度传感器形态设置的第二全景视图传感器获取的，则计算装置100可以指示第二CNN对环境图像进行至少一次第二CNN运算，其中，所述第二CNN不仅对深度图像进行了优化，其还具有一个以上输入节点。这时，“第一CNN”和“第二CNN”的标记用于区分在如上所述的特定情况下可以用作CNN 130的CNN。类似地，“第一全景视图传感器”和“第二全景视图传感器”的标记用于区分在如上所述的特定情况下可以用作全景视图传感器的全景视图传感器。

在通过CNN运算获取了初始客体信息和初始置信度信息之后，计算装置100可以重复地执行重新检测(Re-detection)过程，以生成最终客体信息。

即，计算装置100作为初始重新检测过程，通过参照初始置信度信息，选择包括于环境图像中的至少一个区域中其相应的置信度分数小于第一阈值的每个至少一个第一特定区域，并指示CNN 130对第一特定区域进行CNN运算，从而生成环境图像的第一调整客体信息及第一调整置信度信息。简而言之，CNN130选择关于客体检测结果的准确度低下的区域，即，第一特定区域，并对该区域进行再次客体检测。支持用以执行如上所述过程的计算装置100的初始置信度信息在执行客体检测的期间通过CNN 130生成。CNN 130如何学习上述的执行，稍后将进行说明。

在此，将对第一特定区域的选择方式进行更具体的说明。稍后将说明，以用于客体检测的特征图的大小与环境图像的大小之间的比例所对应的数量的格子来划分环境图像得出环境图像中的每个区域，该区域可以为计算出置信度分数的状态。例如，在环境图像的大小为48×48，但特征图的大小为16×16的情况下，对内部四边形的大小划分成3×3格子的256个每个区域进行每个置信度分数的计算。在此作为简单的一例，可以从所述格子区域中选择第一特定区域，但也可以有其他实施例。即，找到至少一个广域(Extensive)区域后，可以对广域区域设定至少一个边界盒(Bounding Box)作为第一特定区域，其中，所述至少一个广域区域包括置信度分数小于第二阈值的区域，所述至少一个边界盒包括边缘(Margin)作为广域区域的预设比例。

此后，计算装置100可以重复执行重新检测过程。即，计算装置100可以通过参照先前生成的第K-1调整置信度信息，来选择环境图像中包含的区域中其相应的置信度分数小于第一阈值的每个第K特定区域后，指示CNN 130对第K特定区域进行CNN运算，从而生成环境图像的第K调整客体信息及第K调整置信度信息。第K调整客体信息可以包括第K特定区域中的至少一个客体的信息，并且该信息为先前执行的第K-P重新检测过程中没有检测的信息，但可能会在这次被检测出来。此时，P为1至K-1的整数。如上所述，重新检测过程可以应用于CNN 130的客体检测不理想的区域，因此每个信息之间的如上关系可以看作是当然的。

作为附加结构，为了执行重新检测过程，还可以执行选择性过程，即，上采样工作，其中，所述重新检测过程用于更有效地检测置信度分数低下的特定区域中的客体。即，当随着重新检测过程执行N次来选择至少一个第L特定区域时，计算装置100通过参照第L倍数信息来对第L特定区域进行至少一次上采样运算(Upsampling Operation)，从而生成第L特定上采样图像后，指示所述CNN 130对第L特定上采样图像进行CNN运算，从而生成第L调整客体信息及第L调整置信度信息。第L倍数信息可以为第L重新检测过程的预设倍数比例。在此，重新检测过程的每个重复(Iteration)的每个倍数比例可以是相同的，或可以将之后待执行的特定重复设置的更大。最近相邻算法(Nearest Neighbor Algorithm)等已被所知的所有上采样图式可用于执行上采样运算。

当如上所述的重新检测过程被执行N次而生成第N调整客体信息及第N调整置信度信息时，计算装置可以通过参照初始客体信息及第一调整客体信息至第N调整客体信息中的至少一部分来生成最终客体信息。

但是，即使在规定的次数(即N次)内没有进行重新检测过程，也可能会得出足够的客体检测结果。在这种情况下，可以通过使用截止当时为止所生成的客体信息来生成最终客体信息。也就是说，在执行M次重新检测过程时，如果被选择的至少一个第M特定区域的至少一个面积的总和小于第一阈值，则计算装置100可以停止重复执行重新检测过程，并可以通过参照初始客体信息及第一调整客体信息至第M-1调整客体信息中的至少一部分，来生成最终客体信息。

为了生成最终客体信息，计算装置100可以通过参照初始客体信息及第一调整客体信息至第N调整客体信息中的至少一部分，来执行非最大抑制(Non-MaximumSuppression，NMS)算法及盒投票(Box Voting)算法中的至少一个。这样的算法对于本领域技术人员而言是众所周知的，因此，以上解释足够被理解。

在如上所述生成最终客体信息之后，计算装置100可以将最终客体信息传递到与对象车辆相对应的自动驾驶模块，从而支持自动驾驶模块通过利用最终客体信息，来执行所述对象车辆的自动驾驶。

至此，已经说明了与环境图像单一时，相对应的实施例。下面，将通过另一实施例说明下述内容：(i)用于生成全景集成图像的多个环境图像及(ii)与其对应的集成最终客体信息。所述另一实施例与前述的单一环境图像相关的实施例大同小异，因此，将主要说明两者之间的区别。

生成将多个环境图像作为其部分图像的集成图像的同时，计算装置100通过使用每个环境图像的每个初始图像信息和每个初始置信度信息，从而生成集成图像的集成最终客体信息。

具体地，(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时，计算装置100可以指示指示第一CNN，对所述第一环境图像进行至少一次第一CNN运算，其中，所述第一CNN不仅对3通道图像进行了优化，其还具有3个以上输入节点，以及(ii)通过在上述全景视图传感器中与深度传感器相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时，计算装置100指示第二CNN对所述第二环境图像进行至少一次第二CNN运算，其中，所述第二CNN不仅对深度图像进行了优化，其还具有一个以上输入节点。由此，可以获得关于每个环境图像的每个初始置信度信息和每个初始客体信息。

此后，计算装置100作为初始重新检测过程，可以(i)通过参照每个初始置信度信息，来生成环境图像的第一集成初始置信度信息后，(ii)选择集成图像中的至少一个区域中其相应的置信度分数小于第一阈值的每个至少一个第一特定区域，并(iii)指示CNN 130对第一特定区域进行CNN运算，从而在集成图像上生成每个第一调整客体信息和每个第一调整置信度信息。

然后，计算装置100可以重复地执行重新检测过程。即，计算装置100可以(i)通过参照每个第K-1调整置信度信息，生成集成图像相关的第K调整集成置信度信息后，(ii)通过参照第K调整置信度信息，选择集成图像中的区域中其相应的置信度分数小于第一阈值的每个至少一个第K特定区域，并(iii)指示CNN 130对第K特定区域进行CNN运算，从而生成集成图像的每个第K调整客体信息及每个第K调整置信度信息。

最后，当所述重新检测过程被执行N次后，如果生成每个第N调整客体信息及每个第N调整置信度信息时，计算装置100可以通过参照初始客体信息和第一调整客体信息至第N调整客体信息中的至少一部分，来生成集成最终客体信息。如上所述，除了在重新检测过程的每个重复中，集成了每个置信度信息和每个客体信息之外，所述另一个实施例与前述实施例几乎相同。

为了查看集成图像和集成客体信息的一实施例，以下将参照图3。

参照图3，可以看出，集成图像300是通过拍摄对象车辆200的周围环境而获取的全景图像。这种全景图像，仅通过一个传感器是难以获得的，通常是以整合多个传感器拍摄的多个图像的方式来获取的。在这种情况下，通过使用本申请的方法，可以获取关于集成图像300中包含的客体信息，即，关于第一车辆客体310的信息和关于第二车辆客体320的信息可以通过本申请提供的方法来获得集成最终客体信息。

以上已经说明了两个实施例。下面，将参照图4来说明用于执行上述两个实施例的学习CNN 130的方法。

参照图4，可以简要地看到一种用于生成置信度分数的学习方法，该置信度分数表示在检测客体的过程中检测客体的可信度的参数。

作为参考，在以下描述中，与学习过程有关的术语添加了短语“学习用”，与测试过程有关的术语添加了短语“测试用”，以避免可能的混淆。

首先，在步骤S10中，当获取训练图像时，则学习装置可以指示CNN 130中包括的卷积层，对训练图像进行至少一次的卷积运算，生成至少一个卷积特征图。这时，训练图像的几何尺寸可以是H×W，并且训练图像的格式是RGB图像，使得训练图像的通道尺寸是3个，则训练图像的尺寸可以是H×W×3。由于卷积运算允许其输出特征图的几何尺寸小于其输入图像的几何尺寸，并且其输出特征图的通道尺寸大于其输入图像的通道尺寸，因此，当卷积特征图的尺寸是h×w×c时，则表示卷积特征图的几何尺寸的h和w分别小于H和W，并且表示其通道尺寸的c可以大于3。

此后，在步骤S20，学习装置指示RPN 140中的锚定层，对卷积特征图中包含的值进行锚定运算，输出预测注意区域(Region of Interest，ROI)，该预测ROI是预测会包括训练图像中的客体的区域。具体地，RPN 140可以对数据尺寸为h×w×c的卷积特征图进行锚定运算，生成其数据大小为h×w×(5A+1)的锚定特征图，以用于在训练图像上生成预测ROI。根据现有技术，锚定特征图的数据大小应为h×w×5A，但是，在本申请中，锚定特征图还可以包括一个稍后将说明的通道，该通道包括RPN置信度分数。下面将对此进行更具体的说明。

学习装置指示RPN 140的锚定层对卷积特征图进行锚定运算，生成其数据大小为h×w×5A的锚定特征图，其中，锚定运算的方式是使用与每组锚定相对应的每个滑动窗口(Sliding-Window)。这里，锚定可以是用于选择与客体相对应的卷积特征图的值的一种网格(Grid)，前述的A是为了表示锚定特征图的数据大小而使用的，并表示RPN 140所使用的锚定的数量。通过执行该过程，可以确定卷积特征图中包括的每个值是否与客体相对应，并且该处理的结果，例如关于预测ROI的信息，可以存储在锚定特征图中。由于锚定运算是公知的现有技术，因此将省略更具体的说明。

在生成锚定特征图的过程中，学习装置可以指示RPN 140为卷积层特征图中包括的每个像素生成每个RPN置信度分数，RPN置信度分数代表预测ROI与确实(Ground-Truth，GT)ROI相同的至少一个概率。简而言之，RPN置信度分数代表结果的可信度的参数，该结果是通过RPN 140执行的过程的结果，如预测ROI。

为方便起见，已经分别说明了决定预测ROI的过程和生成RPN置信度分数的过程，但是两个过程可以同时执行。也就是说，当卷积特征图被输入到RPN 140时，RPN 140中的每个RPN神经元可以执行其运算，并将其运算值传递给其下一个RPN神经元，从而从最后一层输出锚定特征图。因此，可以相互依赖地执行这两个过程。但是，这两个过程可能不会同时执行。例如，可以首先执行决定预测ROI的过程。

在生成锚定特征图之后，学习装置可以将其中包括关于预测ROI信息的锚定特征图中的5A个通道的值传递到CNN 130，并且将其中剩余的一个通道的值传递给置信度层150，这将在后面解释。首先，下面将说明如何处理传递至CNN 130的5A个通道的值。

在传递了所述5A个通道的值之后，在步骤S30，学习装置可以指示CNN 130中的ROI池化层通过参照预测ROI的信息，对卷积特征图进行至少一次ROI池化运算，来生成ROI-池化特征图(ROI-Pooled Feature Map)。并且，可以指示CNN 130中包括的全连接(Fully-Connected，FC)层对ROI-池化特征图进行至少一次FC运算，从而生成初始客体检测结果和CNN置信度分数。

在此，初始客体检测结果可以包括每个边界盒(bounding box)的每个预测坐标相关的每个初始预测CNN回归结果以及每个客体的每个类分数相关的每个初始预测CNN分类结果，其中，边界盒包括每个客体，每个初始预测CNN分类结果表示每个分类中包含的每个客体的每个概率。类似地生成初始客体检测结果的过程是公知的现有技术。

并且，CNN置信度分数可以包括预测客体检测结果与GT客体检测结果相同的程度的相关信息，这将在后面说明。在此，预测客体检测结果是对初始客体检测结果进行NMS运算来生成的。具体地，每个CNN置信度分数可以表示预测客体检测结果中包含的至少一个预测CNN分类结果和至少一个预测CNN回归结果中的每一个与GT客体检测结果中包含的至少一个GT CNN分类结果和至少一个GT CNN回归结果中的每一个出现相同结果的至少一个概率。简而言之，CNN置信度分数可以表示通过CNN 130的FC层生成的结果的可信度。

同时使用CNN置信度分数和RPN置信度分数的原因是，由于预测客体检测结果是通过CNN 130来处理RPN 140最初确定的预测ROI而生成的。由于两个网络都参与生成预测客体检测结果的过程，因此，应该对两个网络进行不同的评估。

例如，即使在RPN 140错误地确定了特定预测ROI的情况下，CNN 130的FC层也能够过滤错误的特定预测ROI。或者，即使在特定预测ROI由RPN 140准确的预测的情况下，CNN130的FC层也可能错误地确定特定预测ROI不包括任何客体。在这种情况下可以看出，RPN140和CNN 130可能会被错误或正确地执行，因此在评估客体检测过程时，应考虑这些情况。

与RPN 140相似，为方便起见，已分别说明了(i)生成初始客体检测结果及其对应的预测客体检测结果的过程以及(ii)生成CNN置信度图的过程，但是这两个过程也是相互依赖的关系，可在FC层内同时执行。但是，这两个过程也可以独立执行。

生成预测ROI的CNN置信度分数之后，可以生成包括CNN置信度分数的CNN置信度图。

此后，学习装置指示CNN 130对初始客体检测结果应用NMS，以集成边界盒，该边界盒与重复的预测ROI相对应，从而生成预测客体检测结果。随着集成重复的预测ROI，可以选择与特定预测ROI相对应并且尚未与其他预测ROI重复的特定CNN置信度分数。在此，NMS的使用方式是公知的现有技术，因此省略更具体的说明。

同时，学习装置可以指示置信度层150获取锚定特征图中的一个通道的值，该值对应于RPN置信度图，并利用RPN 140置信度图来生成几何尺寸为H×W的调整大小(Resize)的RPN置信度图，该几何尺寸与训练图像的几何尺寸相同。为了生成调整大小的RPN置信度图，可以将任何调整大小的运算，例如，最近邻居大小(Nearest Neighbor Size)、双线性调整大小(Bilinear Resize)、双三次调整大小(Bicubic Resize)或兰索斯调整大小(LanczosResize)等调整大小的运算应用于RPN置信度图，以将训练图像内的每个像素与每个RPN置信度分数进行配对(Pairing)。

在获取预测客体检测结果和调整大小的RPN置信度图之后，学习装置可以通过参照预测客体检测结果和调整大小的RPN置信度图，来指示置信度层150生成集成置信度图。在此，可以通过使用以下公式来计算包括在集成置信度图中的集成置信度分数：

在此，c′_xy表示第X_Y集成置信度分数，c_xy表示与调整大小的RPN置信度图上的坐标(x，y)相对应的第X_Y调整大小的RPN置信度分数，

表示在NMS结果中确定并包括坐标(x，y)的第i预测ROI的第i CNN置信度分数，所述第i CNN置信度分数表示为r_i。学习装置可以指示置信度层150通过使用如上所述生成的集成置信度分数来生成集成置信度图。

但，为了更准确地生成集成置信度图，有必要学习CNN 130和RPN 140。下面将介绍如何学习两个网络。

即，在步骤S40中，学习装置可以通过参照RPN置信度图、CNN置信度图、预测客体检测结果及GT客体检测结果，指示损失层生成至少一个RPN损失和至少一个CNN损失。并通过利用RPN损失和CNN损失来执行反向传播，以学习CNN 130和RPN 140中的至少一部分参数。下面，将详细说明如何产生RPN损失和CNN损失。

首先，可以使用以下公式生成RPN损失：

在此，N_reg表示与通过执行锚定运算生成的卷积特征图的大小相对应的常数，N_cls表示与训练图像相对应的常数，c_i表示在RPN置信度分数中与卷积特征图的第i像素相对应的第i RPN置信度分数，p_i表示与所述第i像素相对应的第i预测RPN分类结果，

表示与所述第i像素相对应的第i GT RPN回归结果。其中，所述第i GT RPN分类结果和所述第i GT RPN回归结果对应于GT客体检测结果。而且，可以通过使用任何现有技术来产生L_cls和L_reg来产生损失，例如，使用平滑-L1损失(Smooth-L1 Loss)。

在上述公式中，公式的第一项可以表示分类损失，第二项可以表示回归损失。回归损失项，即第二项，是众所周知的现有技术，因此省略进一步的说明。下面，将解释分类损失项，即第一项。

如上所述，分类损失项可以在括号中包括三个子项。在其第一子项中，条件

表示由RPN 140确定的第i预测RPN分类结果与第i GT RPN分类结果相同的情况，其中，第i预测RPN分类结果对应于锚定特征图的第i像素。与。简而言之，这表示RPN 140已经正确地分析了卷积特征图的第i像素。如果RPN 140判断出，第i预测RPN分类结果与第i GT RPN分类结果相同的概率大于阈值概率，此处为方便起见，假设大于0.5，则意味着RPN 140已经“正确地”分析了第i像素。在第一项中，(1.1-c_i)允许在RPN 140正确分析第i像素时，使RPN140的参数小于RPN损失，从而使第i RPN置信度分数更大。具体地，分类损失项生成梯度(Gradient)，用以调整RPN 140的参数，其中，该分类损失项包括如上所述生成的第一子项，从而使得将来的RPN损失更小。因此，通过利用包括第一子项的分类损失项，在RPN 140正确地分析出RPN置信度特征图的情况下，RPN 140可以生成更大的RPN分数。

在分类损失项的第二项中，条件

表示RPN 140错误地分析了第i像素的情况。在第二子项中，当RPN 140错误地分析了第i像素时，(0.1+c_i)会使第i RPN置信度分数变得更小。这样的学习过程的原理可以与前述的第一子项的原理相同。

在第三子项中，c_i log c_i可以使RPN置信度分数的分布与阶梯函数(StepFunction)的分布不相似。如果分类损失项仅包括第一子项和第二子项，则RPN置信度分数可能会过度拟合(Overfitting)，以使其仅包括接近0或1的极值。在此，当c_i是0.5时，c_i logc_i最小。因此，本申请的RPN置信度分数的分布可以更加多样，包括0到1之间的各种值。如上所述，由于可以通过使用包括各种值的RPN置信度分数来应对各种情况，因此这类项是必要的。

以上已经说明了本申请中生成RPN损失的方法，因此，下面将介绍生成CNN损失的方法。

其中，N_reg和N_cls表示所述预测ROI的数量，c_i表示所述CNN置信度分数中与预测ROI中与第i预测ROI相对应的第i CNN置信度分数，p_i表示与第i预测ROI相对应的第i预测CNN分类结果，

表示与所述第i像素相对应的第i GT CNN分类结果，t_i表示与第i预测ROI相对应的第i预测CNN回归结果，

表示与第i像素相对应的第i GT CNN回归结果；其中，第i预测CNN分类结果和第i预测CNN回归结果与预测检测客体结果相对应。在此公式中，参照符号可能与RPN损失的参照符号相同，但如上所述，其意义可能有所不同。

从上式可以看出，CNN损失的结构与前述的RPN损失的结构大同小异，但它们的西格玛函数条件是例外的。在此，RPN损失的条件并非p_i＞0.5，而是p_i＝largest score amongclass scores。p_i表示第i预测ROI内的特定客体的概率最大的特定分类上的第i预测CNN分类结果。类似于RPN损失，CNN损失中的分类损失项的第一子项可能代表CNN 130已正确分析了第i预测ROI的情况，而第二子项可能代表另一种情况，即CNN 130错误地分析了第i预测ROI。CNN损失和RPN损失彼此相似，因此省略进一步的说明。

如上所述，生成CNN损失和RPN损失之后，学习装置可以通过分别对CNN损失和RPN损失执行反向传播来指示损失层学习CNN 130和RPN 140中包含的至少一部分参数。此后，当CNN 130和RPN 140执行已输入的图像中包含的客体的检测过程时，CNN 130和RPN 140可以更准确地生成与已输入的所述图像相对应的CNN置信度分数和RPN置信度分数。

在类似的学习过程结束后，学习装置可以将CNN 130交付给计算装置100。并且，RPN 140和置信度层150从属于CNN 130，因此它们也将同时被交付给计算装置100。CNN130、RPN 140及置信度层150可以通过使用完成学习的参数，来执行在学习过程中执行过的类似的运算。即，当CNN 130获取环境图像时，则CNN 130、RPN 140及置信度层150可以生成初始置信度信息的同时生成初始客体信息，其中，生成初始置信度信息的方式与学习过程期间生成集成置信度图的方式相同。

在此，作为参考，将参照图5对CNN 130、RPN 140、损失层150以及置信度层160如何相互作用，以在执行客体检测时产生置信度分数进行说明。

参照图5，可以看到学习图像被输入到CNN 130中的卷积层131，并且从中输出尺寸为h×w×c的卷积特征图。然后，卷积特征图可以由RPN 140进行运算，并由RPN 140输出包括了ROI的位置(dx，dy，dw，dh)及其RPN置信度分数的特征图，该特征图的尺寸为h×w×(5A+1)。类似的ROI，可以传达至CNN 130中的ROI池化层(未标识)，因此，可以通过该ROI来池化卷积特征图。此后，CNN 130中的FC层132可以运算尺寸为R×d的池化的ROI特征图，以生成客体的预测位置为(x1，y1，x2，y2)，其尺寸为R×(5C+1)的初始客体检测结果，其中，该初始客体检测结果包括客体被包含在每个分类中的概率以及与每个客体相对应的像素的CNN置信度分数。最后，CNN 130对初始客体检测结果进行NMS运算，以生成客体的预测位置为(x1，y1，x2，y2)，其尺寸为R′×6的预测客体检测结果，其中，预测客体检测结果包括：预测客体分类的相关信息，以及客体被包含在每个分类中的概率相关信息。在此，R′可以表示由NMS运算集成的ROI。即，可以表示客体的位置。而且，与预测客体检测结果一起输出的CNN置信度图，与从尺寸为h×w×1的RPN置信度图生成的调整大小的RPN置信度图进行集成，以生成尺寸为H×W×1的集成置信度图。这样的过程与上述学习方法一致。

本申请可以对可信度较低的部分重新应用客体检测的过程，并通过利用以此获得的附加信息，支持自动驾驶实现更安全的自动驾驶。

本申请的技术方案的目的或对现有技术做出贡献的部分可以通过各种计算机手段以可执行程序命令的形式来实现，并且可以被记录到计算机可读存储介质中。计算机可读介质可以单独地或组合地包括程序命令，数据文件和数据结构。记录到介质的程序命令可以是为本申请内容专门设计的组件，或者可以是计算机软件领域的技术人员可以使用的。计算机可读记录介质包括磁性介质(例如硬盘，软盘和磁带)，光学介质(例如CD-ROM和DVD)，磁光介质(例如软盘)和硬件设备(例如ROM，RAM和闪存)设计用于存储和执行程序。程序命令不仅包括由编译器进行的机器语言代码，而且包括可由计算机执行的解释器等可以使用的高级代码。前述硬件设备可以起软件模块的作用，以执行本申请的动作，并且它们可以在相反的情况下进行相同的操作。硬件设备可以与诸如ROM和RAM之类的存储器组合以存储程序命令，并且可以包括诸如CPU或GPU之类的处理器，以执行存储在存储器中的命令，并且还包括用于与外部设备发送和接收信号的通信部分。

如上所述，已经通过诸如详细的部件，受限的实施例和附图的特定事项解释了本申请。尽管已经通过优选实施例描述了本申请，但是，本领域技术人员将理解，本申请的保护范围可以在不脱离本发明的精神和范围的情况下进行各种改变和修改。

因此，本申请的构思一定不限于所解释的实施例，并且如上专利权利要求以及包括与专利权利要求等同或等同的变型在内的所有内容都属于本申请的构思的范畴。

Claims

1.一种利用AVM实现自动驾驶安全性的方法,通过使用置信度分数来在自动驾驶中实现更好性能的同时，还可以节省计算能力的方法，其中，所述置信度分数代表检测客体的可信度，并与检测客体过程并列地产生，该方法包括以下步骤：

步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像；

步骤(b)、所述计算装置指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及

步骤(c)、所述计算装置通过参照所述初始客体信息及所述初始置信度信息来生成所述环境图像的最终客体信息。

2.如权利要求1所述的方法，其特征在于，步骤(c)包括以下步骤：

步骤(c1)、所述计算装置(i)通过参照所述初始置信度信息，在包括于所述环境图像的至少一个区域中，首先选择与其对应的所述置信度分数小于阈值的至少一个第一特定区域，并(ii)指示所述卷积神经网络对所述第一特定区域进行所述卷积神经网络运算，从而执行关于所述环境图像的重新检测过程，所述重新检测过程用以生成第一调整客体信息及第一调整置信度信息；

步骤(c2)、所述计算装置重复(i)参照预先生成的第K-1调整置信度信息来在所述环境图像中的所述区域中，分别选择与其相对应的所述置信度分数小于所述阈值的至少一个第K特定区域，然后(ii)指示所述卷积神经网络对所述第K特定区域进行卷积神经网络运算，从而执行关于所述环境图像的所述重新检测过程，所述重新检测过程用于生成第K调整客体信息及第K调整置信度信息；以及

步骤(c3)、当所述重新检测过程被执行N次后生成第N调整客体信息及第N调整置信度信息时，所述计算装置通过参照所述初始客体信息及所述第一调整客体信息至所述第N调整客体信息中的至少一部分，生成所述最终客体信息；

其中，所述K是2至N的整数，并且N为预设整数。

3.如权利要求2所述的方法，其特征在于，M为1至N-1的整数，在执行M次所述重新检测过程时，在选择的至少一个第M特定区域的至少一个面积的合小于阈值的情况下，所述计算装置中断所述重新检测过程的重复执行，通过参照所述初始客体信息及所述第一调整客体信息至第M-1调整客体信息的至少一部分来生成所述最终客体信息。

4.如权利要求2所述的方法，其特征在于，L为1至N的整数，在执行L次所述重新检测过程时，当选择至少一个第L特定区域时，所述计算装置参照第L倍数信息来对所述第L特定区域进行上采样运算，从而生成第L特定上采样图像后，指示所述卷积神经网络对所述第L特定上采样图像进行卷积神经网络运算，从而生成第L调整客体信息及第L调整置信度信息。

5.如权利要求2所述的方法，其特征在于，所述计算装置通过参照所述初始客体信息及所述第一调整客体信息至所述第N调整客体信息的至少一部分来执行非最大抑制算法及盒投票算法中的至少一个，从而生成所述最终客体信息。

6.如权利要求1所述的方法，其特征在于，在所述步骤(c)，所述计算装置在生成包括多个所述环境图像作为其部分图像的集成图像的同时，通过使用每个所述环境图像相关的每个所述初始客体信息及每个所述初始置信度信息，来生成关于所述集成图像的集成最终客体信息，其中，所述K为2至N的整数，当N为预设整数时，通过执行以下步骤来生成所述集成最终客体信息：

步骤(c4)、所述计算装置(i)通过参照每个所述初始置信度信息，生成对所述集成图像的第一集成置信度信息后，(ii)通过参照所述第一集成置信度信息，在所述集成图像中的至少一个区域中选择与其相对应的置信度分数小于阈值的至少一个每个第一特定区域，(iii)最后指示所述卷积神经网络通过对所述第一特定区域进行卷积神经网络运算，从而在所述集成图像上执行所述重新检测过程，所述重新检测过程用于生成每个第一调整客体信息及每个第一调整置信度信息；

步骤(c5)、所述计算装置重复地执行(i)至(iii)的过程，具体为：(i)通过参照每个第K-1调整置信度信息，生成关于所述集成图像的第K调整集成置信度信息后，(ii)通过参照所述第K调整集成置信度信息，来选择在所述集成图像中的所述区域中与其相对应的置信度分数小于所述阈值的至少一个每个第K特定区域，(iii)最后指示所述卷积神经网络通过对所述第K特定区域进行卷积神经网络运算来执行关于所述集成图像的所述重新检测过程，其中，所述重新检测过程用于生成每个第K调整客体信息及每个第K调整置信度信息；以及

步骤(c6)、当执行了N次所述重新检测过程后生成每个第N调整客体信息及每个第N调整置信度信息时，所述计算装置通过参照所述初始客体信息及所述第一调整客体信息至第N调整客体信息中的至少一部分，生成所述集成最终客体信息。

7.如权利要求6所述的方法，其特征在于，(i)通过与照相机相对应的多个所述全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时，所述计算装置指示第一卷积神经网络，对所述第一环境图像进行至少一次第一卷积神经网络运算，其中，所述第一卷积神经网络不仅对3通道图像进行了优化，其还具有3个以上输入节点，以及(ii)通过与深度传感器相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时，所述计算装置指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算，其中，所述第二卷积神经网络不仅对深度图像进行了优化，其还具有一个以上输入节点。

8.如权利要求1所述的方法，其特征在于，还包括步骤(d)、所述计算装置通过将所述最终客体信息传递至自动驾驶模块，以使所述自动驾驶模块利用所述最终客体信息来执行所述对象车辆的自动驾驶。

9.如权利要求1所述的方法，其特征在于，在所述步骤(a)之前，还包括以下步骤：

步骤(a1)、当获取到训练图像，学习装置则指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图；

步骤(a2)、所述学习装置通过对所述卷积特征图进行至少一次锚定运算来在所述训练图像上生成预测注意区域，并在执行该过程的同时，指示包含在区域建议网络中的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个区域建议网络置信度分数，所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率，从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图；

步骤(a3)当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域-池化特征图时，则所述学习装置通过使用所述注意区域-池化特征图，生成预测客体的检测结果，并在执行该过程的同时，指示所述卷积神经网络中包含的FC层为每个所述预测注意区域生成每个卷积神经网络置信度分数，其中，所述至少一个注意区域-池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的，所述每个卷积神经网络置信度分数代表所述预测客体检测结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检测结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率；以及

步骤(a4)、通过参照所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检测结果和所述确实客体检测结果，所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失，并通过利用所述区域建议网络损失和所述卷积神经网络损失来执行反向传播，以学习所述卷积神经网络和所述区域建议网络中包含的至少一部分参数。

10.如权利要求9所述的方法，其特征在于，在所述步骤(a4)中，所述学习装置使用以下公式指示损失层生成所述区域建议网络损失：

其中，N_reg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数，N_cls表示与所述训练图像相对应的常数，c_i表示在所述区域建议网络置信度分数中与所述卷积特征图的第i像素相对应的第i区域建议网络置信度分数，p_i表示与所述第i像素相对应的第i预测区域建议网络分类结果，

表示与所述第i像素相对应的第i确实区域建议网络分类结果，t_i表示与所述第i像素相对应的的第i预测区域建议网络回归结果，并且

表示与所述第i像素相对应的第i确实区域建议网络回归结果；

其中，所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检测结果。

11.如权利要求9所述的方法，其特征在于，在所述步骤(a4)，所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失：

其中，N_reg和N_cls表示所述预测注意区域的数量，c_i表示所述卷积神经网络置信度分数中与所述预测注意区域中选择的第i预测注意区域相对应的第i卷积神经网络置信度分数，p_i表示与所述第i预测注意区域相对应的第i预测卷积神经网络分类结果，

表示与所述第i像素相对应的第i确实卷积神经网络分类结果，t_i表示与所述第i预测注意区域相对应的第i预测卷积神经网络回归结果，

表示与所述第i像素相对应的第i确实卷积神经网络回归结果；

其中，所述第i预测卷积神经网络分类结果和所述第i预测卷积神经网络回归结果与所述预测客体检测结果相对应。

12.如权利要求9所述的方法，其特征在于，在所述步骤(a3)之后，所述学习装置通过参照所述区域建议网络置信度图和所述卷积神经网络置信度图，指示置信度层生成集成置信度图，所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。

13.如权利要求12所述的方法，其特征在于，所述学习装置指示所述置信度层，执行以下过程：过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制结果，所述非最大抑制结果是在生成所述预测客体检测结果的过程中生成的，并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小运算来生成调整大小的区域建议网络置信度图；以及过程(ii)、通过参照所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。

14.如权利要求13所述的方法，其特征在于，所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x，y)相对应的第X_Y集成置信度分数：

其中，c′_xy表示所述第X_Y集成置信度分数，c_xy表示与所述调整大小的区域建议网络置信度图上的所述坐标(x，y)相对应的第X_Y调整大小的区域建议网络置信度分数，

表示在所述非最大抑制结果中确定并包括所述坐标(x，y)的第i预测注意区域的第i卷积神经网络置信度分数，所述第i卷积神经网络置信度分数表示为r_i。

15.如权利要求1所述的方法，其中，所述步骤(b)包括以下步骤：

步骤(b1)、当获取到所述环境图像，所述计算装置则指示所述卷积神经网络中包含的至少一个卷积层，对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图；

步骤(b2)、所述计算装置对所述卷积特征图进行至少一次锚定运算，以此在所述环境图像上生成预测注意区域，并在执行该过程的同时，指示区域建议网络中包括的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个区域建议网络置信度分数，所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率，从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图；

步骤(b3)、当通过包含在所述卷积神经网络中的注意区域池化层，获取到至少一个注意区域-池化特征图时，则所述计算装置通过使用所述注意区域-池化特征图，生成预测客体检测结果，并在执行该过程的同时，指示所述卷积神经网络中包含的FC层为每个所述预测注意区域生成每个卷积神经网络置信度分数，从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图，其中，所述至少一个注意区域-池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的，所述每个卷积神经网络置信度分数代表所述预测客体的检测结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检测结果中包含的至少一个确实确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率；以及

步骤(b4)、所述计算装置通过参照所述区域建议网络置信度图和所述卷积神经网络置信度图，指示与所述卷积神经网络交互作用的置信度层，生成集成置信度图；

其中，所述计算装置指示所述卷积神经网络输出所述初始置信度信息，所述初始置信度信息包括所述初始客体信息及所述集成置信度图，所述初始客体信息包括所述预测客体检测结果。

16.一种利用AVM实现自动驾驶安全性的装置，通过使用置信度分数来在自动驾驶中实现更好性能的同时，还可以节省计算能力的计算装置，其特征在于，所述置信度分数代表检测客体的可信度，并与检测客体过程并列地产生，所述计算装置包括：

至少一个存储指令的存储器；以及

至少一个处理器，其用于实施所述指令并执行以下过程：

(I)通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像；

(II)指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及

(III)通过参照所述初始客体信息及所述初始置信度信息，生成所述环境图像的最终客体信息。

17.如权利要求16所述的利用AVM实现自动驾驶安全性的装置，其特征在于，所述过程(III)包括以下过程：

(III-1)(i)通过参照所述初始置信度信息，首先选择包括在所述环境图像中的至少一个区域中与其相对应的所述置信度分数小于阈值的每个至少一个第一特定区域，并(ii)指示所述卷积神经网络对所述第一特定区域进行卷积神经网络运算，从而执行关于所述环境图像的所述重新检测过程，所述重新检测过程用以生成第一调整客体信息及第一调整置信度信息；(III-2)(i)通过参照预先生成的第K-1调整置信度信息，选择所述环境图像中的所述区域中与其相对应的所述置信度分数小于所述阈值的每个至少一个第K特定区域，并(ii)指示所述卷积神经网络对所述第K特定区域进行所述卷积神经网络运算，从而执行关于所述环境图像的所述重新检测过程，所述重新检测过程用于生成第K调整客体信息与第K调整置信度信息；以及(III-3)当所述重新检测过程被执行N次后生成第N调整客体信息及第N调整置信度信息时，通过参照所述初始客体信息和所述第一调整客体信息至所述第N调整客体信息中的至少一部分，生成所述最终客体信息；其中，所述K为2至N的整数，N为预设整数。

18.如权利要求17所述的利用AVM实现自动驾驶安全性的装置，其特征在于，M为1至N-1的整数，在执行M次所述重新检测过程时，在选择的至少一个第M特定区域的至少一个面积的合小于阈值的情况下，所述处理器中断所述重新检测过程的重复执行，通过参照所述初始客体信息及所述第一调整客体信息至第M-1调整客体信息的至少一部分，来生成所述最终客体信息。

19.如权利要求17所述的利用AVM实现自动驾驶安全性的装置，其特征在于，L为1至N的整数，在执行L次所述重新检测过程时，当选择至少一个第L特定区域时，所述处理器参照第L倍数信息来对所述第L特定区域进行上采样运算，从而生成第L特定上采样图像后，指示所述卷积神经网络对所述第L特定上采样图像进行卷积神经网络运算，从而生成第L调整客体信息及第L调整置信度信息。

20.如权利要求197所述的利用AVM实现自动驾驶安全性的装置，其特征在于，所述处理器通过参照所述初始客体信息及所述第一调整客体信息至所述第N调整客体信息的至少一部分，来执行非最大抑制算法及盒投票算法中的至少一个，从而生成所述最终客体信息。

21.如权利要求16所述的利用AVM实现自动驾驶安全性的装置，其特征在于，在所述过程(III)中，在生成包括多个所述环境图像作为其部分图像的集成图像的同时，所述处理器通过使用每个所述环境图像相关的每个所述初始客体信息及每个所述初始置信度信息，来生成关于所述集成图像的集成最终客体信息，其中，所述K为2至N的整数，当N为预设整数时，通过执行以下过程来生成所述集成最终客体信息：

(III-4)(i)通过参照每个所述初始置信度信息，生成对所述集成图像的第一集成置信度信息后，(ii)通过参照所述第一集成置信度信息，在所述集成图像中的至少一个区域中选择与其相对应的置信度分数小于阈值的至少一个每个第一特定区域，(iii)最后指示所述卷积神经网络通过对所述第一特定区域进行卷积神经网络运算，从而在所述集成图像上执行所述重新检测过程，所述重新检测过程用于生成每个第一调整客体信息及每个第一调整置信度信息；

(III-5)重复地执行(i)至(iii)的过程，具体为：(i)通过参照每个第K-1调整置信度信息，生成关于所述集成图像的第K调整集成置信度信息后，(ii)通过参照所述第K调整集成置信度信息，来选择在所述集成图像中的所述区域中与其相对应的置信度分数小于所述阈值的至少一个每个第K特定区域，(iii)最后指示所述卷积神经网络通过对所述第K特定区域进行卷积神经网络运算来执行关于所述集成图像的所述重新检测过程，其中，所述重新检测过程用于生成每个第K调整客体信息及每个第K调整置信度信息；以及

22.如权利要求21所述的利用AVM实现自动驾驶安全性的装置，其特征在于，(i)通过与照相机相对应的多个所述全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时，所述处理器指示第一卷积神经网络，对所述第一环境图像进行至少一次第一卷积神经网络运算，其中，所述第一卷积神经网络不仅对3通道图像进行了优化，其还具有3个以上输入节点，以及(ii)通过与深度传感器相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时，所述处理器指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算，其中，所述第二卷积神经网络不仅对深度图像进行了优化，其还具有一个以上输入节点。

23.如权利要求16所述的利用AVM实现自动驾驶安全性的装置，其特征在于，还包括过程(IV)、所述处理器通过将所述最终客体信息传递至自动驾驶模块，以使所述自动驾驶模块利用所述最终客体信息来执行所述对象车辆的自动驾驶。

24.如权利要求16所述的利用AVM实现自动驾驶安全性的装置，其特征在于，在所述过程(I)之前，还包括以下过程：(I-1)当获取到训练图像，学习装置则指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图；(I-2)所述学习装置通过对所述卷积特征图进行至少一次锚定运算来在所述训练图像上生成预测注意区域，并在执行该过程的同时，指示包含在区域建议网络中的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个区域建议网络置信度分数，所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率，从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图；(I-3)当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域-池化特征图时，则所述学习装置通过使用所述注意区域-池化特征图，生成预测客体检测结果，并在执行该过程的同时，指示所述卷积神经网络中包含的FC层为每个所述预测注意区域生成每个卷积神经网络置信度分数，从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图，其中，所述至少一个注意区域-池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的，所述每个卷积神经网络置信度分数代表所述预测客体的检测结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检测结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率；以及(I-4)通过参照所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检测结果及所述确实客体检测结果，所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失，并通过利用所述区域建议网络损失和所述卷积神经网络损失来执行反向传播，以学习所述卷积神经网络和所述区域建议网络中包含的至少一部分参数。

25.如权利要求24所述的利用AVM实现自动驾驶安全性的装置，其特征在于，在所述过程(I-4)，所述学习装置使用以下公式指示所述损失层生成所述区域建议网络损失：

26.如权利要求24所述的利用AVM实现自动驾驶安全性的装置，其特征在于，在所述过程(I-4)，所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失：

27.如权利要求24所述的利用AVM实现自动驾驶安全性的装置，其中，在所述过程(I-3)之后，所述学习装置通过参照所述区域建议网络置信度图和所述卷积神经网络置信度图，指示置信度层生成集成置信度图，所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。

28.如权利要求27所述的利用AVM实现自动驾驶安全性的装置，其中，所述学习装置指示所述置信度层，执行以下过程：过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制结果，所述非最大抑制结果是在生成所述预测客体检测结果的过程中生成的，并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小运算来生成调整大小的区域建议网络置信度图；以及过程(ii)、通过参照所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。

29.如权利要求28所述的利用AVM实现自动驾驶安全性的装置，其特征在于，所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x，y)相对应的第X_Y集成置信度分数：

30.如权利要求16所述的利用AVM实现自动驾驶安全性的装置，其中，所述过程(II)包括以下过程：(II-1)当获取到所述环境图像，则指示所述卷积神经网络中包含的至少一个卷积层，对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图；(II-2)对所述卷积特征图进行至少一次锚定运算，以此在所述环境图像上生成预测注意区域，并在执行该过程的同时，指示区域建议网络中包括的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个区域建议网络置信度分数，所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率，从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图；(II-3)当通过包含在所述卷积神经网络中的注意区域池化层，获取到至少一个注意区域-池化特征图时，则通过使用所述注意区域-池化特征图，生成预测客体检测结果，并在执行该过程的同时，指示所述卷积神经网络中包含的FC层为每个所述预测注意区域生成每个卷积神经网络置信度分数，从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图，其中，所述至少一个注意区域-池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的，所述每个卷积神经网络置信度分数代表所述预测客体检测结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检测结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率；以及(II-4)所述计算装置通过参照所述区域建议网络置信度图和所述卷积神经网络置信度图，指示与所述卷积神经网络交互作用的置信度层，生成集成置信度图。