CN111507167A - 以avm与强化学习实现注意力驱动资源分配的方法和装置 - Google Patents

以avm与强化学习实现注意力驱动资源分配的方法和装置 Download PDF

Info

Publication number
CN111507167A
CN111507167A CN202010073994.5A CN202010073994A CN111507167A CN 111507167 A CN111507167 A CN 111507167A CN 202010073994 A CN202010073994 A CN 202010073994A CN 111507167 A CN111507167 A CN 111507167A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
confidence
information
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010073994.5A
Other languages
English (en)
Other versions
CN111507167B (zh
Inventor
金桂贤
金镕重
金鹤京
南云铉
夫硕焄
成明哲
申東洙
吕东勋
柳宇宙
李明春
李炯树
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111507167A publication Critical patent/CN111507167A/zh
Application granted granted Critical
Publication of CN111507167B publication Critical patent/CN111507167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本申请公开了一种以AVM与强化学习实现注意力驱动资源分配的方法和装置,通过使用置信度分数来在自动驾驶中实现更好性能的同时,还可以节省计算能力的方法和装置,该方法包括以下步骤:步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像;步骤(b)、所述计算装置指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算,从而生成所述环境图像相关的初始客体信息与初始置信度信息;以及步骤(c)、所述计算装置在强化学习代理程序的支持下,通过参考所述初始客体信息与所述初始置信度信息,生成所述环境图像相关的最终客体信息。

Description

以AVM与强化学习实现注意力驱动资源分配的方法和装置
技术领域
本申请涉及一种用于自动驾驶车辆的方法和装置,尤其涉及一种通过强化学习实现自动驾驶安全性的资源分配方法及装置。
背景技术
自动驾驶技术自近年的研究以来,已达到无需驾驶者的干预就可自动驾驶车辆的水准,且已具备相当高的精度。然而,这样的自动驾驶技术还没有被商业化,而公众不使用自动驾驶技术的原因可能很多,但其原因之一就是自动驾驶操作需要太多的计算能力。
为了降低自动驾驶所需要的计算能力的消耗,虽已做出许多努力,然而,降低消耗计算能力后,反而造成了自动驾驶性能下降的问题。如果自动驾驶性能下降,则会导致很多错误,从而威胁驾驶员和周围的人的生命安全。因此,我们需要降低计算能力的同时保持自动驾驶的性能。但事实上,该方法并没有受到太多的研究。
发明内容
本申请的目的是解决上述问题。
本申请的目的是通过使用全景监控影像系统(Around View Monitor,AVM)和强化学习算法,从而为实现自动驾驶的安全性提供一种注意力驱动资源分配的方法。
本申请的另一个目的是提供一种与检出客体的过程并列地生成置信度分数(Confidence Score)的方法,该置信度分数表示客体被检出来的可信度的参数。
本申请的又一个目的是提供一种在不确定的区域上再次执行检出客体的方法,该方法使用置信度分数实现强化学习算法,从而可以进一步更准确的重新检出客体。
为了达到本申请的上述目的与效果,下面将具体说明本申请的特征结构。
本申请的一实施例提供一种既节约计算能力还能使自动驾驶性能更优越的方法,所述方法通过使用置信度分数(Confidence Score)来在自动驾驶中实现更好的性能,同时节省计算能力,其中,所述置信度分数代表检出客体的可信度(Credibility),并与检出客体过程并列地产生。所述方法包括以下步骤:步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器(Panorama View Sensor)获取所述对象车辆周边的至少一个环境图像(Circumstance Image);步骤(b)、所述计算装置指示卷积神经网络(ConvolutionalNeural Network,CNN)对所述环境图像进行至少一次卷积神经网络运算,从而生成所述环境图像相关的初始客体信息与初始置信度信息;以及步骤(c)、所述计算装置在强化学习代理程序的支持下,通过参考所述初始客体信息与所述初始置信度信息,生成所述环境图像相关的最终客体信息。
在一些实施例中,所述步骤(c)包括步骤(c1)至步骤(c3),具体如下:步骤(c1)、所述计算装置(i)指示所述强化学习代理程序通过参考所述初始置信度信息,在所述环境图像内的一个以上区域中,选择一个以上待应用重新检出过程的第一特定区域,并(ii)指示所述卷积神经网络对所述第一特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用以生成第一调整客体信息及第一调整置信度信息;步骤(c2)、所述计算装置重复(i)指示所述强化学习代理程序通过参考先前生成的第K-1调整置信度信息,从所述环境图像中的所述区域中选择一个以上的待应用重新检出过程的第K特定区域,然后(ii)指示所述卷积神经网络对所述第K特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用于生成第K调整客体信息与第K调整置信度信息;以及步骤(c3)、当所述重新检出过程被执行N次后生成第N调整客体信息与第N调整置信度信息时,所述计算装置通过参考所述第一调整客体信息至所述第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述最终客体信息;其中,所述K是2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
在一些实施例中,当所述第M重新检出概率大于或等于阈值时,所述计算装置指示所述卷积神经网络在所述第M特定区域进行所述卷积神经网络运算,而所述强化学习代理程序则通过参考第M-1调整置信度信息来生成第M重新检出概率及一个以上第M特定区域,其中M为1至N的整数,当M为1时,则所述强化学习代理程序参考所述初始置信度信息来生成第一重新检出概率以及所述第一特定区域。
在一些实施例中,当所述强化学习代理程序接收到向其输入的第M-1调整置信度信息时,则(i)通过使用其自身的参数与所述第M-1调整置信度信息,生成所述第M重新检出概率及所述第M特定区域,(ii)当所述第M重新检出概率大于或等于阈值时,则从所述卷积神经网络获取所述第M调整置信度信息,且(iii)通过参照所述第M调整置信度信息及生成第M调整客体信息时所使用的第M计算费用、所述第M-1调整置信度信息以及所述第M调整置信度信息来计算第M原始奖励,其中,所述第M调整客体信息对应于所述第M调整置信度信息,并(iv)通过参考所述第M原始奖励来学习所述参数。
作为一个示例,所述强化学习代理程序使用以下公式生成的梯度来学习所述参数:
Figure BDA0002378004010000031
其中,O是第M原始向量,所述第M原始向量包括所述第M重新检出概率和所述第M特定区域的相关信息,O'是第M调整向量,所述第M调整向量是对所述第M原始向量应用噪音(noise)而生成的,R(O)和R(O')分别是与所述第M原始奖励及所述第M调整向量相对应的第M调整奖励(reward),∈是一个常数,用于防止所述梯度的发散。
在一些实施例中,在重复执行所述重新检出过程时,如果一个以上的第L特定区域被选上,则所述计算装置指示所述强化学习代理程序生成与所述第L特定区域相对应的第L倍数信息,并通过参考所述第L倍数信息对所述第L特定区域进行上采样(Upsampling)运算来生成第L特定上采样图像,并指示所述卷积神经网络对所述第L特定上采样图像进行所述卷积神经网络运算,以便生成第L调整客体信息和第L调整置信度信息,其中,L为1至N的整数。
在一些实施例中,在所述步骤(c)中,所述计算装置在生成包括多个环境图像作为其部分图像的集成图像的同时,通过使用每个所述初始环境图像相关的每个所述初始客体信息与每个所述初始置信度信息,来生成关于所述集成图像的集成最终客体信息,其中,通过执行以下步骤来生成所述集成最终客体信息:步骤(c4)、所述计算装置(i)通过参考每个所述初始置信度信息,生成对所述集成图像的第一集成置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第一集成置信度信息,在所述集成图像钟的一个以上的区域中选择待应用所述重新检出过程的一个以上的第一特定区域,并且(iii)指示所述卷积神经网络通过对所述第一特定区域进行所述卷积神经网络运算,从而在所述集成图像上执行所述重新检出过程,所述重新检出过程用于生成每个所述第一调整客体信息及每个所述第一调整置信度信息;步骤(c5)、所述计算装置重复地执行(i)至(iii)的过程,具体为:(i)通过参考每个第K-1调整置信度信息,生成关于所述集成图像的第K调整置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第K调整集成置信度信息,在所述集成图像中的所述区域中,选择每个待应用所述重新检出过程的一个以上第K特定区域,并且(iii)指示所述卷积神经网络通过对所述第K特定区域进行所述卷积神经网络运算来执行关于所述集成图像的所述重新检出过程,其中,所述重新检出过程用于生成每个第K调整客体信息和每个第K调整置信度信息;以及步骤(c6)、当执行了N次所述重新检出过程后生成每个第N调整客体信息及每个第N调整置信度信息时,所述计算装置通过参考所述第一调整客体信息至第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述集成最终客体信息,其中,所述K为2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
在一些实施例中,(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时,所述计算装置指示第一卷积神经网络,对所述第一环境图像进行至少一次第一卷积神经网络运算,其中,所述第一卷积神经网络不仅对3通道图像进行了优化,其还具有3个以上输入节点(Input Node),以及(ii)通过与深度传感器(Depth Sensor)相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时,所述计算装置指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算,其中,所述第二卷积神经网络不仅对深度图像(Depth Image)进行了优化,其还具有一个以上输入节点。
在一些实施例中,在所述步骤(a)之前,还包括以下步骤:步骤(a1)、当获取到训练图像时,则学习装置指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图;步骤(a2)、所述学习装置通过对所述卷积特征图进行至少一次锚定(Anchor)运算来在所述训练图像上生成预测注意区域(Region Of Interest,ROI),并在执行该过程的同时,指示包含在区域建议网络(RegionProposal Network,RPN)中的至少一个锚定(Anchor)层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与每个确实(Ground Truth,GT)注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;步骤(a3)当通过包含在所述卷积神经网络中的注意区域池化(pooling)层获取到至少一个注意区域池化特征图时,则所述学习装置通过使用所述注意区域池化特征图,生成预测客体的检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层(Fully-Connected Layer,FCLayer)为每个所述预测注意区域生成每个卷积神经网络置信度分数,其中给,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及步骤(a4)、通过参考所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检出结果和所述确实客体检出结果,所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失,并通过利用所述区域建议网络损失和卷积神经网络损失来执行反向传播,以学习所述卷积神经网络和所述区域建议网络中的包含的至少一部分参数。
在一些实施例中,在所述步骤(a4)中,所述学习装置使用以下公式指示所述损失层生成所述区域建议网络损失:
Figure BDA0002378004010000061
其中,Nreg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数,Ncls表示与所述训练图像相对应的常数,ci表示在所述区域建议网络置信度分数中与所述卷积特征图的第i像素相对应的第i区域建议网络置信度分数,pi表示与所述第i像素相对应的第i预测区域建议网络分类结果,
Figure BDA0002378004010000071
表示与所述第i像素相对应的第i确实区域建议网络分类结果,ti表示与所述第i像素相对应的第i预测区域建议网络回归结果,并且
Figure BDA0002378004010000072
表示与于所述第i像素相对应的第i确实区域建议网络回归结果,其中,所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检出结果。
在一些实施例中,在所述步骤(a4)中,所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失:
Figure BDA0002378004010000073
其中,Nreg和Ncls表示所述预测注意区域的数量,ci表示所述卷积神经网络置信度分数中与预测注意区域中选择的第i预测的注意区域相对应的第i卷积神经网络置信度分数,pi表示与所述第i预测注意区域相对应的第i预测卷积神经网络的分类结果,
Figure BDA0002378004010000074
表示与所述第i像素相对应的第i确实卷积神经网络分类结果,ti表示与所述第i预测注意区域相对应的第i预测卷积神经网络回归结果,
Figure BDA0002378004010000075
表示与所述第i像素相对应的第i确实卷积神经网络回归结果,其中,所述第i预测卷积神经网络分类结果和所述第i预测卷积神经网络回归结果与所述预测检出客体结果相对应。
在一些实施例中,在所述步骤(a3)之后,所述学习装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示置信度层生成集成置信度图,所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。
在一些实施例中,所述学习装置指示所述置信度层,执行以下过程:过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制(Non-Maximum Suppression,NMS)结果,所述非最大抑制结果是在生成所述预测客体检出结果的过程中生成的,并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小(Resize)运算来生成调整大小的区域建议网络置信度图;以及过程(ii)、通过参考所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。
在一些实施例中,所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x,y)相对应的第X_Y集成置信度分数:
Figure BDA0002378004010000081
其中,c'xy表示第X_Y集成置信度分数,cxy表示与所述调整大小的区域建议网络置信度图上的所述坐标(x,y)相对应的第X_Y调整大小的区域建议网络置信度分数,
Figure BDA0002378004010000082
表示在所述非最大抑制结果中确定并包括所述坐标(x,y)的第i预测注意区域的第i卷积神经网络置信度分数,所述第i卷积神经网络置信度分数表示为ri
在一些实施例中,所述步骤(b)包括以下步骤:步骤(b1)、当获取到所述环境图像时,则所述计算装置指示所述卷积神经网络中包括的至少一个卷积层,对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图;步骤(b2)、所述计算装置对所述卷积特征图进行至少一次锚定运算,以此在所述环境图像上生成预测注意区域(ROI),并在执行该过程的同时,指示区域建议网络中包括的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;步骤(b3)、当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域池化特征图时,则所述计算装置通过使用所述注意区域池化特征图,生成预测客体的检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层层为每个所述预测注意区域生成每个卷积神经网络置信度分数,从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及步骤(b4)、所述计算装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示与所述卷积神经网络交互作用的置信度层,生成集成置信度图,其中,所述计算装置指示所述卷积神经网络输出所述初始置信度信息,所述初始置信度信息包括所述初始客体信息及所述集成置信度图,所述初始客体信息包括所述预测客体检出结果。
根据本申请的另一些实施例,提供了一种通过使用置信度分数(ConfidenceScore)来在自动驾驶中实现更好性能的同时,还可以节省计算能力的计算装置,其中,所述置信度分数代表检出客体的可信度,并与检出客体过程并列地产生,所述计算装置包括:至少一个存储指令的存储器;至少一个处理器,其用于实施所述指令并执行以下过程:(I)通过安装在对象车辆上的至少一个全景视图传感器(Panorama View Sensor)获取所述对象车辆周边的至少一个环境图像(Circumstance Image);(II)指示卷积神经网络(Convolutional Neural Network)对所述环境图像进行至少一次卷积神经网络运算,从而生成所述环境图像相关的初始客体信息与初始置信度信息;以及(III)在强化学习代理程序的支持下,通过参考所述初始客体信息与所述初始置信度信息,生成所述环境图像相关的最终客体信息。
在一些实施例中,所述过程(III)还包括以下过程:(III-1)(i)指示所述强化学习代理程序通过参考所述初始置信度信息,在所述环境图像内的一个以上区域中,选择一个以上待应用重新检出过程的第一特定区域,并(ii)指示所述卷积神经网络对所述第一特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用以生成第一调整客体信息及第一调整置信度信息;(III-2)所述处理器重复(i)指示所述强化学习代理程序通过参考先前生成的第K-1调整置信度信息,从所述环境图像中的所述区域中选择一个以上的待应用重新检出过程的第K特定区域,然后(ii)指示所述卷积神经网络对所述第K特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用于生成第K调整客体信息与第K调整置信度信息;以及(III-3)当所述重新检出过程被执行N次后生成第N调整客体信息与第N调整置信度信息时,所述处理器通过参考所述第一调整客体信息至所述第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述最终客体信息;其中,所述K是2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
在一些实施例中,当所述第M重新检出概率大于或等于阈值时,所述处理器指示所述卷积神经网络在所述第M特定区域进行所述卷积神经网络运算,而所述强化学习代理程序则通过参考第M-1调整置信度信息来生成第M重新检出概率及一个以上第M特定区域,其中M为1至N的整数;当M为1时,则所述强化学习代理程序参考所述初始置信度信息来生成第一重新检出概率以及所述第一特定区域。
在一些实施例中,当所述强化学习代理程序接收到向其输入的第M-1调整置信度信息时,则(i)通过使用其自身的参数与所述第M-1调整置信度信息,生成所述第M重新检出概率及所述第M特定区域,(ii)当所述第M重新检出概率大于或等于阈值时,则从所述卷积神经网络获取所述第M调整置信度信息,且(iii)通过参照所述第M调整置信度信息及生成第M调整客体信息时所使用的第M计算费用、所述第M-1调整置信度信息以及所述第M调整置信度信息,来计算第M原始奖励,其中,所述第M调整客体信息对应于所述第M调整置信度信息,并(iv)通过参考所述第M原始奖励来学习所述参数。
在一些实施例中,所述强化学习代理程序使用以下公式生成的梯度来学习所述参数:
Figure BDA0002378004010000111
其中,O是第M原始向量,所述第M原始向量包括所述第M重新检出概率和所述第M特定区域的相关信息,O'是第M调整向量,所述第M调整向量是对所述第M原始向量应用噪音(noise)而生成的,R(O)和R(O')分别是与所述第M原始奖励及所述第M调整向量相对应的第M调整奖励,∈是一个常数,用于防止所述梯度的发散。
在一些实施例中,在重复执行所述重新检出过程时,如果一个以上的第L特定区域被选上,则所述处理器指示所述强化学习代理程序生成与所述第L特定区域相对应的第L倍数信息,并通过参考所述第L倍数信息对所述第L特定区域进行上采样(Upsampling)运算,生成第L特定上采样图像,并指示所述卷积神经网络对所述第L特定上采样图像进行所述卷积神经网络运算,以便生成第L调整客体信息和第L调整置信度信息,其中,L为1至N的整数。
在一些实施例中,在所述过程(III)中,所述处理器在生成包括多个环境图像作为其部分图像的集成图像的同时,通过使用每个所述初始环境图像相关的每个所述初始客体信息与每个所述初始置信度信息,来生成关于所述集成图像的集成最终客体信息,其中,通过执行以下步骤来生成所述集成最终客体信息:(III-4)(i)通过参考每个所述初始置信度信息,生成对所述集成图像的第一集成置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第一集成置信度信息,在所述集成图像中的一个以上的区域中选择待应用所述重新检出过程的一个以上的第一特定区域,并且(iii)指示所述卷积神经网络通过对所述第一特定区域进行所述卷积神经网络运算,从而在所述集成图像上执行所述重新检出过程,所述重新检出过程用于生成每个所述第一调整客体信息及每个所述第一调整置信度信息;(III-5)所述处理器重复地执行以下(i)至(iii)的过程,具体为:(i)通过参考每个第K-1调整置信度信息,生成关于所述集成图像的第K调整置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第K调整集成置信度信息,在所述集成图像中的所述区域中,选择每个待应用所述重新检出过程的一个以上第K特定区域,并且(iii)指示所述卷积神经网络通过对所述第K特定区域进行所述卷积神经网络运算来执行关于所述集成图像的所述重新检出过程,其中,所述重新检出过程用于生成每个第K调整客体信息和每个第K调整置信度信息;以及(III-6)当执行了N次所述重新检出过程后生成每个第N调整客体信息及每个第N调整置信度信息时,所述计算装置通过参考所述第一调整客体信息至第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述集成最终客体信息;其中,所述K为2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
在一些实施例中,(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时,所述处理器指示第一卷积神经网络,对所述第一环境图像进行至少一次第一卷积神经网络运算,其中,所述第一卷积神经网络不仅对3通道图像进行了优化,其还具有3个以上输入节点(Input Node),以及(ii)通过与深度传感器(Depth Sensor)相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时,所述处理器指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算,其中,所述第二卷积神经网络不仅对深度图像进行了优化,其还具有一个以上输入节点。
在一些实施例中,在所述过程(I)之前,其中,通过执行以下过程来学习卷积神经网络:(I-1)当获取到训练图像时,则学习装置指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图;(I-2)所述学习装置通过对所述卷积特征图进行至少一次锚定(Anchor)运算来在所述训练图像上生成预测注意区域(Region Of Interest),并在执行该过程的同时,指示包含在区域建议网络(Region Proposal Network)中的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;(I-3)当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域池化特征图时,则所述学习装置通过使用所述注意区域池化特征图,生成预测客体的检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层层为每个所述预测注意区域生成每个卷积神经网络置信度分数,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及(I-4)通过参考所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检出结果与所述确实客体检出结果,所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失,并通过利用所述区域建议网络损失和所述卷积神经网络损失来执行反向传播,以学习所述卷积神经网络和所述区域建议网络中包含的至少一部分参数。
在一些实施例中,在所述过程(I-4),所述学习装置使用以下公式指示所述损失层生成所述区域建议网络损失:
Figure BDA0002378004010000141
其中,Nreg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数,Ncls表示与所述训练图像相对应的常数,ci表示在所述区域建议网络置信度分数中与所述卷积特征图的第i像素相对应的第i区域建议网络置信度分数,pi表示与所述第i像素相对应的第i预测区域建议网络分类结果,
Figure BDA0002378004010000151
表示与所述第i像素相对应的第i确实区域建议网络分类结果,ti表示与所述第i像素相对应的的第i预测区域建议网络回归结果,并且
Figure BDA0002378004010000152
表示与所述第i像素相对应的第i确实区域建议网络回归结果;
其中,所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检出结果。
在一些实施例中,在所述过程(I-4)中,所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失:
Figure BDA0002378004010000153
其中,Nreg和Ncls表示所述预测注意区域的数量,ci表示所述卷积神经网络置信度分数中与所述预测注意区域中选择的第i预测注意区域相对应的第i卷积神经网络置信度分数,pi表示与所述第i预测注意区域相对应的第i预测卷积神经网络分类结果,
Figure BDA0002378004010000154
表示与所述第i像素相对应的第i确实卷积神经网络分类结果,ti表示与所述第i预测注意区域相对应的第i预测卷积神经网络回归结果,
Figure BDA0002378004010000155
表示与所述第i像素相对应的第i确实卷积神经网络回归结果;
其中,所述第i预测卷积神经网络分类结果和所述第i预测卷积神经网络回归结果与所述预测检出客体结果相对应。
在一些实施例中,在所述过程(I-3)之后,所述学习装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示置信度层生成集成置信度图,所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。
在一些实施例中,所述学习装置指示所述置信度层,执行以下过程:过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制(Non-Maximum Suppression,NMS)结果,所述非最大抑制结果是在生成所述预测客体检出结果的过程中生成的,并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小(Resize)运算来生成调整大小的区域建议网络置信度图;以及过程(ii)、通过参考所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。
在一些实施例中,所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x,y)相对应的第X_Y集成置信度分数:
Figure BDA0002378004010000161
其中,c'xy表示所述第X_Y集成置信度分数,cxy表示与所述调整大小的区域建议网络置信度图上的所述坐标(x,y)相对应的第X_Y调整大小的区域建议网络置信度分数,
Figure BDA0002378004010000162
表示在所述非最大抑制结果中确定并包括所述坐标(x,y)的第i预测注意区域的第i卷积神经网络置信度分数,所述第i卷积神经网络置信度分数表示为ri
在一些实施例中,所述过程(II)包括以下过程:(II-1)当获取到所述环境图像时,则所述计算装置指示所述卷积神经网络中包含的至少一个卷积层,对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图;(II-2)所述计算装置对所述卷积特征图进行至少一次锚定运算,以此在所述环境图像上生成预测注意区域,并在执行该过程的同时,指示区域建议网络中包括的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;(II-3)当通过包含在所述卷积神经网络中的注意区域池化层,获取到至少一个注意区域池化特征图时,则所述计算装置通过使用所述注意区域池化特征图,生成预测客体检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层层为每个所述预测注意区域生成每个卷积神经网络置信度分数,从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及(II-4)所述计算装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示与所述卷积神经网络交互作用的置信度层,生成集成置信度图;
其中,所述处理器指示所述卷积神经网络输出所述初始置信度信息,所述初始置信度信息包括所述初始客体信息及所述集成置信度图,所述初始客体信息包括所述预测客体检出结果。
另外,本申请还提供了可由计算机读取的可记录介质,以用于存储计算机程序并实施本申请提供的方法。
本申请的有益效果为:提供了一种利用强化学习算法及AVM进行注意力驱动资源分配的方法,以获得自动驾驶的安全性。
本申请的另一有益效果为:提供了一种与检出客体的过程并列地生成置信度分数的方法,该置信度分数表示客体被检出来的可信度的参数。
本申请的又另一个有益效果为:提供了一种在不确定的区域上再次执行检出客体的方法,该方法使用置信度分数实现强化学习算法,从而可以进一步更准确的重新检出客体。
附图说明
以下用于解释本申请的示例性实施方式的附图仅是本申请的示例性实施方式的一部分,并且本领域技术人员无需进行创造性劳动即可基于这些附图获得其他附图。
图1是本申请实施例提供的计算装置的结构示意图,该装置利用置信度分数(Confidence Score)实现强化学习算法,从而达到降低计算能力的同时,还可以提供使自动驾驶性能更优秀的方法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成;
图2是本申请实施例提供的方法的流程示意图,该方法利用置信度分数(Confidence Score)实现强化学习算法,从而达到降低计算能力的同时,还可以提供使自动驾驶性能更优秀的方法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成;
图3是本申请一实施例提供的集成图像及其相应的集成最终客体信息的简单示意图,其用于执行强化学习算法来节省计算能力的同时实现更好的自动驾驶性能的方法,该方法利用置信度分数实现强化学习算法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成;
图4是本申请实施例提供的卷积神经网络(CNN)的学习过程的流程示意图,该卷积神经网络用于执行强化学习算法来节省计算能力的同时实现更好的自动驾驶性能的方法,该方法利用置信度分数实现强化学习算法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成;
图5是本申请实施例提供的包括卷积神经网络(CNN),区域建议网络(RPN),损失层和置信度层的学习装置的结构示意图,该学习装置用于执行通过使用强化学习及V2X通信并利用注意力驱动资源分配算法来安全的进行自动驾驶的方法。
具体实施方式
为了使本发明的目的、技术方法以及优点更加明确,下面将通过本申请实施的特定实施例,并参考附图对本申请的这些实施例足够详细地进行了描述,以使本领域技术人员能够实践本申请。
此外,在本申请的描述中,需要理解的是,术语“包括”及其变化形式的其他术语等仅是为了添加其他技术特征、附加物、组件或步骤,本申请的其他目的、有益效果、特征等内容将通过说明书和本申请的实施方式向本领域技术人员揭示。以下通过一些实施例和附图具体说明本申请的保护内容,当然,它们仅仅为示例,并且目的不在于限制本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请的多个实施例虽然相互不同,但相互之间也不存在相斥的情况。例如,所记载的特征形状、结构及特性在一实施例中只要不超过本申请的精神以及保护范围时,也可以以其他实施例来体现。而且,各实施例中公开的个别结构要素的位置或配置,在不脱离本申请的精神以及保护范围的情况下,可作变更。因此,凡是本申请的权利要求所主张的内容及等同于该内容的所有内容均属于本申请的保护范围,而下面所描述的实施例并不是为了限定本申请的保护范围。附图中类似的参考符号是相同或具备的功能类似的部件名称。
本申请内容中提及的任何图像都可以包括与任何已铺设或未铺设的道路有关的图像,在这种情况下,道路上或道路附近的物体可能包括车辆,人员,动物,植物,建筑物,飞行物体(例如飞机或无人机),或可能出现在与道路有关的场景中的任何其他障碍物,但是本申请的范围不限于此。作为另一示例,本申请中提及的所述任何图像可以包括与任何道路都不相关的图像,诸如与巷道,土地,海洋,湖泊,河流,山脉,森林,沙漠,天空或任何室内空间有关的图像,在这种情况下,上述任何图像中的物体可能包括车辆,人员,动物,植物,建筑物,飞行物体(如飞机或无人驾驶飞机),轮船,两栖飞机或轮船,或可能出现在与小巷有关的场景中的任何其他障碍物,土地,海洋,湖泊,河流,山脉,森林,沙漠,天空或任何室内空间,但是本申请的范围不限于此。
为了使本申请的本领域技术人员能够容易地实施,将通过参考附图来详细说明本申请的实施方式,如下所示。
图1是本申请实施例提供的计算装置的结构示意图,该装置利用置信度分数(Confidence Score)实现强化学习算法,从而达到降低计算能力的同时,还可以提供使自动驾驶性能更优秀的方法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成。
参考图1,计算装置100可以包括稍后将描述的卷积神经网络(ConvolutionalNeural Network,CNN)130、区域建议网络(Region Proposal Network,RPN)140、置信度层150以及强化学习代理程序160。此时,卷积神经网络130、区域建议网络140、置信度层150以及强化学习代理程序160的输入/输出过程和通信过程可以由通信部分110和处理器120执行。但是,在图1中省略了通信部分110和处理器120的具体连接关系。此时,存储器115用于存储稍后将描述的各种指令,并且处理器120可以执行存储在存储器115中的指令,以此实施本申请。虽在此如此描述了计算装置100,但实施本申请时,计算装置100包括但不限于处理器,存储器,介质或任何其他计算组件的任何组合的集成装置(Integrated Processor)。
上述的计算装置100可以与对象车辆进行交互,并且可以获取由安装在对象车辆上的至少一个全景传感器拍摄的图像。这种全景视图传感器可以被构建为照相机或深度传感器(Depth Sensor),深度传感器(Depth Sensor)即雷达或激光雷达(Lidar)。
以上说明了用于执行本申请一实施例提供的方法的计算装置100的结构,该装置利用置信度分数(Confidence Score)实现强化学习算法,从而达到降低计算能力的同时,还可以提供使自动驾驶性能更优秀的方法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成。下面,将参照图2说明该方法本身。
图2是本申请实施例提供的方法的流程示意图,该方法利用置信度分数(Confidence Score)实现强化学习算法,从而达到降低计算能力的同时,还可以提供使自动驾驶性能更优秀的方法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成。
参考图2,在步骤S100中,计算装置100可以通过安装在对象车辆上的全景视图传感器来获取对象车辆周围的至少一个环境图像(Circumstance Image)。此后,在步骤S200中,计算装置100可以指示卷积神经网络130对环境图像进行至少一次卷积神经网络运算,从而生成关于环境图像的初始客体信息和初始置信度信息。并且,在步骤S300中,计算装置100可以与强化学习代理程序160交互,并通过参考初始客体信息和初始置信度信息来生成关于环境图像的最终客体信息。
该方法的简要步骤如上所示。以下,将更具体地说明。首先,将说明环境图像单一的一实施例。
当通过全景视图传感器获取环境图像时,计算装置100可以指示卷积神经网络130对环境图像进行卷积神经网络运算。在此,如果环境图像是通过照相机获取的第一全景视图传感器,则计算装置100可以指示第一卷积神经网络对环境图像进行至少一次第一卷积神经网络运算,其中,该第一卷积神经网络不仅对3通道图像进行了优化,其还具有3个以上输入节点。或者,如果环境图像是通过作为深度传感器的第二全景视图传感器获取的,则计算装置100可以指示第二卷积神经网络对环境图像进行至少一次第二卷积神经网络运算,其中,所述第二卷积神经网络不仅对深度图像进行了优化,其还具有一个以上输入节点。这时,“第一卷积神经网络”和“第二卷积神经网络”的标记用于区分在特定情况下可以用作卷积神经网络130的卷积神经网络。类似地,“第一全景视图传感器”和“第二全景视图传感器”的标记用于区分在如上所述的特定情况下可以用作全景视图传感器的全景视图传感器。
在通过卷积神经网络运算获取了初始客体信息和初始置信度信息之后,计算装置100可以重复地执行重新检出(Re-detection)过程,以生成最终客体信息。这里,强化学习代理程序160可以支持计算装置100。下面,将对强化学习代理程序160的结构及其过程。
首先,强化学习代理程序160可以是一种神经网络,包括多层,并且在每一层中都可以包含多个虚拟神经元。在此,每个神经元可以执行以下过程:通过使用输入至其自身的参数,将诸如卷积运算之类的运算应用于其输入值,然后将其输出值传递至其下一个卷积神经元。这样的强化学习代理程序160可以获取初始置信度信息和稍后将说明的第一调整置信度信息至第N调整置信度信息中的至少一个作为其输入,并且可以通过使用所述神经元对其输入进行一些运算,从而输出对该输入的重新检出过程的必要性信息以及在待应用重新检出过程的该输入领域的相关信息。
具体地,假设强化学习代理程序160获取了第M-1调整置信度信息,这里,M可以是从1到N的整数,并且如果M是1,则强化学习代理程序160可获取初始置信度信息。然后,强化学习代理程序160可以通过利用所述神经元并使用自身的参数来进行运算,从而生成第M重新检出概率及第M特定区域,该第M重新检出概率为需反复执行重新检出过程的概率,该第M特定区域为需应用重新检出过程的区域。此时,当第M重新检出概率大于或等于阈值时,计算装置100可以指示卷积神经网络130对第M特定区域进行重新检出过程。因此,N是所述强化学习代理程序160产生的所述重新检出概率大于或等于阈值以上的次数。
由于强化学习代理程序160执行强化学习算法,因此,将输入的置信度信息进行处理后,每输出其结果值时,即可学习自身的参数。即,如果第M重新检出概率大于或等于阈值,则强化学习代理程序160可以从卷积神经网络130获取到第M调整置信度信息,并且可以通过参考(i)第M-1调整置信度信息、(ii)第M调整置信度信息、以及(iii)卷积神经网络130用于生成第M个调整置信度信息及其对应的第M调整客体信息时所使用的第M计算费用,来计算第M原始奖励。这时,强化学习代理程序160可以通过参考第M原始奖励来学习其自己的参数。
此时,在执行重新检出过程中,第M原始奖励可以与从增加的置信度分数中减去第M计算费用后得到的值相对应。虽然稍后将会更详细的说明,但在这里简单的说明的话,强化学习代理程序160是以使其奖励更大的方向来学习参数的,因此,强化学习代理程序160可以通过重新检出过程来学习增加置信度分数,而无需增加置信度分数所需的太多计算资源。第M原始奖励可以通过以下公式来计算:
Figure BDA0002378004010000231
在上述公式中,W和H可以分别表示环境图像的宽度和高度,I(O)xy可以表示在环境图像中的坐标(x,y)相关的第M置信度分数之一,所述第M置信度分数被包含于第M调整置信度信息中,Ixy可以表示在坐标(x,y)上的所述第M-1调整置信度分数之一,所述第M-1调整置信度分数被包含于第M-1调整置信度信息中。并且,SM可以表示第M特定区域的面积之和,并且c可以是预设的常数。这时,由于待应用重新检出过程的区域的大小与计算资源的使用量成正比,因此,通过执行位于前项的西格玛(sigma)运算,可以计算出第M计算费用,并且通过执行位于后项的西格玛运算,可以计算出第M计算费用。
在计算出第M原始奖励之后,强化学习代理程序160可以稍微调整第M重新检出概率和第M特定区域后,计算与之对应的第M调整奖励。这是为了使强化学习代理程序160执行探索(exploration),因此,如果第M调整奖励大于第M原始奖励,则以与第M调整奖励相对应的方向进行参数的学习。
具体地,当可决定第M特定区域之一的四通道坐标为(x1,y1,x2,y2)时,概率分布,例如将与正态分布相对应的每个值添加到其每个分量,从而将第M特定区域之一调整为(x1+N(0,1),y1+N(0,1),x2+N(0,1),y2+N(0,1))。而且,如果第M重新检出概率为p,则通过使用二项式运算,可以将第M重新检出概率调整为Binomial(p)。之后,计算装置100可以通过参考调整后的结果来指示卷积神经网络130执行重新检出过程,并且可以通过使用卷积神经网络130的输出值来指示强化学习代理程序160计算第M调整奖励。强化学习代理程序160可以利用通过执行与以下公式相对应的运算而生成的梯度来学习其参数:
Figure BDA0002378004010000241
p(O′|O)=∏N(x′1|x1,1)…N(y2′|y2,1)Binomial(p′|p)
在此,O是第M原始向量,第M原始向量包括第M重新检出概率和第M特定区域的相关信息,O'是第M调整向量,第M调整向量是对第M原始向量应用噪音(noise)而生成的,R(O)和R(O')分别是与第M原始奖励及第M调整向量相对应的第M调整奖励,∈是一个常数,用于防止所述梯度的发散。
基于这样的强化学习代理程序160,计算装置100可以首先指示强化学习代理程序160通过参考初始置信度信息,分别从环境图像中的一个以上区域中选择一个以上待应用重新检出过程的第一特定区域,其中,所述第一特定区域对应的置信度分数小于第一阈值。然后,指示卷积神经网络130将卷积神经网络运算应用于第一特定区域,从而生成关于环境图像的第一调整客体信息和第一调整置信度信息。简单来说,卷积神经网络130检出客体检出结果,即由强化学习160对客体检出结果的可信度不高的区域,即第一特定区域进行客体检出,并将客体检出结果再次应用于上述区域。如前所述,关于计算资源的使用,由强化学习代理程序160判断是否适合重新应用检出客体过程。并在进行客体检出过程期间,生成初始置信度信息,该初始置信度信息帮助计算装置100执行类似的过程。稍后将说明卷积神经网络130如何学习以生成初始置信度信息。
此后,计算装置100可以重复地执行重新检出过程。也就是说,计算装置100可以指示强化学习代理程序160通过参考第K-1调整置信度信息,在环境图像的区域中选择待应用重新检出过程的第K个特定区域,其中,与第K个特定区域相对应的置信度分数小于上述的第一阈值。然后指示卷积神经网络130对第K个特定区域进行卷积神经网络运算,执行重新检出过程,从而生成环境图像相关的第K调整客体信息和第K调整置信度信息。第K调整客体信息可以包括第K特定区域中的一个以上客体相关信息,并且上述信息可能没有在预先执行的第K-P重新检出过程中被检出,但是可能会在当次被检出。此时,P可以是1至K-1的整数。如前所述,将卷积神经网络130将重新检出过程应用于可信度不高的区域,因此,上述信息之间的这种关系应被视为理所应当。
为了更有效地执行重新检出过程,以检出上述特定区域中包含的其对应的置信度分数较小的客体,可以进一步执行选择过程,即上采样(Upsampling)。在重复执行所述重新检出过程时,如果一个以上的第L特定区域被选上,则计算装置100可以指示强化学习代理程序160生成与第L特定区域相对应的第L倍数信息。然后可以通过参考第L倍数信息对第L特定区域进行上采样运算,生成第L特定上采样图像,并且指示卷积神经网络130对第L特定上采样图像进行卷积神经网络运算,以便生成第L调整客体信息和第L调整置信度信息,第L倍数信息可以表示已经为第L重新检出过程预设的倍率。
如果要使强化学习代理程序160输出重新检出概率、特定区域的信息以及与该特定区域的信息一起输出倍率信息,则强化学习代理程序160还可以将一些最终输出节点添加到其最终层。在此,第L倍数信息可以从多个候选倍率中选择一个来生成,多个候选倍率是与分类类似的最终节点中输出的概率。例如,候选倍率可以是2、3和4,随着从最终输出节点输出的每个候选倍率的每个概率中,可以找到最大的概率,其对应的候选倍率可利用于执行上采样运算。在这种情况下,由于已经添加了新的最终输出节点,因此可以稍微更改上述公式中的条件概率项,以反映其倍数信息。
p(O′|O)
=∏N(x′1|x1,1)…N(y′2|y2,1)Binomial(p'|p)Multinomial(dm',tm',qm'|dm,tm,qm)
在公式中,dm,tm,qm分别表示适合每个重新检出过程的每个候选倍率的每个概率,并且dm',tm',qm'表示每个与其对应的调整概率。上述概率的调整过程与特定区域的调整过程类似。通过该公式,强化学习代理程序160可以生成第L倍数信息。
而且,可以使用之前已知的任何上采样原理图,例如最近邻居算法(NearestNeighbor algorithm),来执行上述的上采样运算。
当执行了N次所述重新检出过程后生成每个第N调整客体信息及每个第N调整置信度信息时,则计算装置100可以通过参考所述第一调整客体信息至第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述集成最终客体信息。
但是,即使在规定的次数(即N次)内没有进行重新检出过程,也可能会检出足够的客体检出结果。对于这种情况,可以通过使用直到那时为止所生成的客体信息来生成最终客体信息。也就是说,在执行M次重新检出过程时,如果被选择的至少一个第M特定区域的至少一个区域的总和小于第一阈值,则计算装置100可以停止重复执行重新检出过程,并可以通过参考初始客体信息和第一调整客体信息至的第M-1调整客体信息的至少一部分,来生成最终客体信息。
为了生成最终客体信息,计算装置100可以通过参考初始客体信息以及第一调整客体信息至第N调整客体信息的至少一部分,来执行非最大抑制(Non-MaximumSuppression)算法和盒投票(Box Voting)算法中的至少一个。这样的算法对于本领域技术人员而言是众所周知的,因此,以上解释足够被理解。
在如上所述生成最终客体信息之后,计算装置100可以将最终客体信息传递到与对象车辆相对应的自动驾驶模块,从而支持自动驾驶模块通过利用最终客体信息,来执行对象车辆的自动驾驶。
至此,已经说明了与环境图像单一时,相对应的实施例。下面,将通过另一实施例说明下述内容:(i)用于生成全景集成图像的多个环境图像及(ii)与其对应的集成最终客体信息。所述另一实施例与前述的单一环境图像相关的实施例大同小异,因此,将主要说明两者之间的区别。
计算装置100通过使用每个环境图像的每个初始图像信息和每个初始置信度信息,生成将多个环境图像作为其部分图像的集成图像的集成最终客体信息。
具体地,(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时,计算装置100可以指示指示第一卷积神经网络,对所述第一环境图像进行至少一次第一卷积神经网络运算,其中,所述第一卷积神经网络不仅对3通道图像进行了优化,其还具有3个以上输入节点(Input Node),以及(ii)通过在上述全景视图传感器中与深度传感器(Depth Sensor)相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时,计算装置100指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算,其中,所述第二卷积神经网络不仅对深度图像进行了优化,其还具有一个以上输入节点。由此,可以获得关于每个环境图像的每个初始置信度信息和每个初始客体信息。
此后,计算装置100作为重新检出过程,可以(i)通过参考所述每个初始置信度信息,来生成环境图像的第一集成初始置信度信息后,(ii)指示强化学习代理程序160在环境图像内的一个以上区域中,选择一个以上待应用重新检出过程的第一特定区域,其中,第一特定区域对应的置信度分数小于第一阈值,(iii)指示卷积神经网络130对第一特定区域进行卷积神经网络运算,从而在集成图像上生成每个第一调整客体信息和每个第一调整置信度信息。
然后,计算装置100可以重复地执行重新检出过程。即,计算装置100可以(i)通过参考每个第K-1调整置信度信息,生成集成图像相关的第K调整集成置信度信息后,(ii)指示强化学习代理程序160通过参考第K调整置信度信息,在集成图像区域中选择至少一个待应用重新检出过程的第K特定区域,其中,第K特定区域对应的置信度分数小于第一阈值,并且(iii)指示卷积神经网络130对第K特定区域进行卷积神经网络运算,从而生成集成图像的每个第K调整客体信息和每个第K调整置信度信息。
最后,当所述重新检出过程被执行N次后,即,强化学习代理程序160执行重新检出过程的次数相当于产生了阈值以上的重新检出概率时,如果生成每个第N调整客体信息和每个第N调整置信度信息时,计算装置100可以通过参考初始客体信息和第一调整客体信息至第N调整客体信息中的至少一部分,来生成集成最终客体信息。如上所述,除了在重新检出过程的每个重复中,集成了每个置信度信息和每个客体信息之外,所述另一个实施例与前述实施例几乎相同。
为了查看集成图像和集成客体信息的一实施例,以下将参考图3。
图3是本申请一实施例提供的集成图像及其相应的集成最终客体信息的简单示意图,其用于执行强化学习算法来节省计算能力的同时实现更好的自动驾驶性能的方法,该方法利用置信度分数实现强化学习算法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成。
参照图3,可以看出,集成图像300是通过拍摄对象车辆200的周围环境而获取的全景图像。这种全景图像,仅通过一个传感器是难以获得的,通常是以整合多个传感器拍摄的多个图像的方式来获取的。在这种情况下,通过使用本申请的方法,可以获取关于集成图像300中包含的客体信息,即,关于第一车辆客体310的信息和关于第二车辆客体320的信息可以通过本申请提供的方法来获得集成最终客体信息。
以上已经说明了两个实施例。下面,将参照图4来说明用于执行上述两个实施例的学习卷积神经网络130的方法。
图4是本申请实施例提供的卷积神经网络(CNN)的学习过程的流程示意图,该卷积神经网络用于执行强化学习算法来节省计算能力的同时实现更好的自动驾驶性能的方法,该方法利用置信度分数实现强化学习算法,其中,所述置信度分数作为客体被检出来的可信度的参数,其与检出客体的过程并列地生成。
通过参考图4,可以简要地看到一种用于生成置信度分数的学习方法,该置信度分数是表示在检出客体的过程中检出客体的可信度的参数。
作为参考,在以下描述中,与学习过程有关的术语添加了短语“训练用”,与测试过程有关的术语添加了短语“测试用”,以避免可能的混淆。
首先,在步骤S10中,当获取至少一个训练图像时,则学习装置可以指示卷积神经网络130中包括的卷积层,对训练图像进行一个以上的卷积运算,生成至少一个学习用特征图。这时,训练图像的几何尺寸可以是H×W,并且训练图像的格式是RGB图像,使得训练图像的通道尺寸是3个,则训练图像的尺寸可以是H×W×3。由于卷积运算允许其输出特征图的几何尺寸小于其输入图像的几何尺寸,并且其输出特征图的通道尺寸大于其输入图像的通道尺寸,因此,当卷积特征图的尺寸是h×w×c时,则表示卷积特征图的几何尺寸的h和w分别小于H和W,并且表示其通道尺寸的c可以大于3。
此后,在步骤S20,学习装置指示区域建议网络140中的锚定层,对卷积特征图中包含的值进行锚定运算,输出预测注意区域(ROI),该预测注意区域是预测会包括训练图像中的客体的区域。具体地,区域建议网络140可以对数据尺寸为h×w×c的卷积特征图进行锚定运算,生成其数据大小为h×w×(5A+1)的训练图像上的锚定特征图,以用于在训练图像上生成预测注意区域。大小是h×w×c。根据现有技术,锚定特征图的数据大小应为h×w×5A,但是,在本申请中,锚定特征图还可以包括一个稍后将说明的通道,该通道包括区域建议网络置信度分数。下面将对此进行更具体的说明。
学习装置指示区域建议网络140的锚定层对卷积特征图进行锚定运算,生成其数据大小为h×w×5A的锚定特征图,其中,锚定运算的方式是使用与每组锚定相对应的每个滑动窗口(Sliding-Window)。这里,锚定可以是用于选择与客体相对应的卷积特征图的值的一种网格(Grid),前述的A是为了表示锚定特征图的数据大小而使用的,并表示区域建议网络140所使用的锚定的数量。通过执行该过程,可以确定卷积特征图中包括的每个值是否与客体相对应,并且该处理的结果,例如关于预测注意区域的信息,可以存储在锚定特征图中。由于锚定运算是公知的现有技术,因此将省略更具体的说明。
在生成锚定特征图的过程中,学习装置可以指示区域建议网络140为卷积特征图中包括的每个像素生成每个区域建议网络置信度分数,区域建议网络置信度分数代表预测注意区域与确实注意区域相同的至少一个概率。简而言之,区域建议网络置信度分数代表结果的可信度的参数,该结果是通过区域建议网络140执行的过程的结果,如预测注意区域。
为方便起见,已经分别说明了决定预测注意区域的过程和生成区域建议网络置信度分数的过程,但是两个过程可以同时执行。也就是说,当卷积特征图被输入到区域建议网络140时,区域建议网络140中的每个区域建议网络神经元可以执行其运算,并将其运算值传递给其下一个区域建议网络神经元,从而从最后一层输出锚定特征图。因此,可以相互依赖地执行这两个过程。但是,这两个过程可能不会同时执行。例如,可以首先执行决定预测注意区域的过程。
在生成锚定特征图之后,学习装置可以将其中包括关于预测注意区域信息的锚定特征图的5A个通道的值传递到卷积神经网络130,并且将其中剩余的一个通道的值传递给置信度层150,这将在后面解释。首先,下面将说明如何处理传递至卷积神经网络130的5A个通道的值。
在传递了所述5A个通道的所述值之后,在步骤S30中,学习装置可以指示卷积神经网络130中的注意区域池化层通过参考预测注意区域,对卷积特征图进行至少一次注意区域池化运算,来生成注意区域池化特征图。并且,可以指示卷积神经网络130中包括的全连接层层对注意区域池化特征图进行至少一次全连接层运算,从而生成初始客体检出结果和卷积神经网络置信度分数。
在此,初始客体检出结果可以包括每个边界盒(bounding box)的每个预测坐标相关的每个初始预测卷积神经网络回归结果以及每个客体的每个类分数相关的每个初始预测卷积神经网络分类结果,其中,边界盒包括每个客体,每个初始预测卷积神经网络分类结果表示每个类中包含的每个对象的每个概率。类似地生成初始客体检出结果的过程是公知的现有技术。
并且,卷积神经网络置信度分数可以包括预测客体检出结果与确实客体检出结果相同的程度地相关信息,这将在后面说明。这里,预测客体检出结果是对初始客体检出结果进行非最大抑制运算来生成的。具体地,每个卷积神经网络置信度分数可以表示所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率。简而言之,卷积神经网络置信度分数可以表示对卷积神经网络130的全连接层层生成的结果的可信度。
同时使用卷积神经网络置信度分数和区域建议网络置信度分数的原因是,由于预测客体检出结果是通过卷积神经网络130来处理区域建议网络140最初确定的预测注意区域而生成的。由于两个网络都参与生成预测客体检出结果的过程,因此,应该对两个网络进行不同的评估。
例如,即使在区域建议网络140错误地确定了特定预测注意区域的情况下,卷积神经网络130的全连接层层也能够过滤错误的特定预测注意区域。或者,即使在特定预测注意区域由区域建议网络140准确的预测的情况下,卷积神经网络130的全连接层层也可能错误地确定特定预测注意区域不包括任何客体。在这种情况下可以看出,区域建议网络140和卷积神经网络130可能会被错误或正确地执行,因此在评估客体检出过程时,应考虑这些情况。
与区域建议网络140相似,为方便起见,已分别说明了(i)生成初始客体检出结果及其对应的预测客体检出结果的过程以及(ii)生成卷积神经网络置信度图的过程,但是这两个过程也是相互依赖的关系,可在全连接层层内同时执行。但是,这两个过程也可以独立执行。
生成预测注意区域的卷积神经网络置信度分数之后,可以生成包括卷积神经网络置信度分数的卷积神经网络置信度图。
此后,学习装置指示卷积神经网络130对初始客体检出结果应用非最大抑制,以集成边界盒,该边界盒与重复的预测注意区域相对应,从而生成预测客体检出结果。随着集成重复的预测注意区域,可以选择与特定预测的注意区域相对应并且尚未与其他预测注意区域重复的特定卷积神经网络置信度分数。这里,非最大抑制的使用方式是公知的现有技术,因此省略更具体的说明。
同时,学习装置可以指示置信度层150获取锚定特征图中的一个通道的值,该值对应于区域建议网络置信度图,并利用区域建议网络140置信度图来生成几何尺寸为H×W的调整大小(Resize)的区域建议网络置信度图,该几何尺寸与训练图像的几何尺寸相同。为了生成调整大小的区域建议网络置信度图,可以将任何调整大小的运算,例如,最近邻居大小(Nearest Neighbor Size)、双线性调整大小(Bilinear Resize)、双三次调整大小(Bicubic Resize)或兰索斯调整大小(Lanczos Resize)等调整大小的运算应用于区域建议网络置信度图,以将训练图像内的每个像素与每个区域建议网络置信度分数进行配对(Pairing)。
在获取预测客体检出结果和调整大小的区域建议网络置信度图之后,学习装置可以通过参考预测客体检出结果和调整大小的区域建议网络置信度图,来指示置信度层150生成集成置信度图。这里,可以通过使用以下公式来计算包括在集成置信度图中的集成置信度分数:
Figure BDA0002378004010000321
在此,c'xy表示第X_Y集成置信度分数,cxy表示与调整大小的区域建议网络置信度图上的所述坐标(x,y)相对应的第X_Y调整大小的区域建议网络置信度分数,
Figure BDA0002378004010000322
表示在非最大抑制结果中确定并包括坐标(x,y)的第i预测注意区域的第i卷积神经网络置信度分数,所述第i卷积神经网络置信度分数表示为ri。学习装置可以指示置信度层150通过使用如上所述生成的集成置信度分数来生成集成置信度图。
但,为了更准确地生成集成置信度图,有必要学习卷积神经网络130和区域建议网络140。下面将介绍如何学习两个网络。
即,在步骤S40中,学习装置可以通过参考区域建议网络置信度图、卷积神经网络置信度图、预测客体检出结果及确实客体检出结果,指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失。并通过利用区域建议网络损失和卷积神经网络损失来执行反向传播,以学习卷积神经网络130和区域建议网络140中的至少一部分参数。下面,将详细说明如何产生区域建议网络损失和卷积神经网络损失。
首先,可以使用以下公式生成区域建议网络损失:
Figure BDA0002378004010000331
这里,Nreg表示与通过执行锚定运算生成的卷积特征图的大小相对应的常数,Ncls表示与训练图像相对应的常数,ci表示在区域建议网络置信度分数中与卷积特征图的第i像素相对应的第i区域建议网络置信度分数,pi表示与所述第i像素相对应的第i预测区域建议网络分类结果,
Figure BDA0002378004010000332
表示与所述第i像素相对应的第i确实区域建议网络分类结果,ti表示与所述第i像素相对应的的第i预测区域建议网络回归结果,并且
Figure BDA0002378004010000333
表示与所述第i像素相对应的第i确实区域建议网络回归结果。其中,所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检出结果。而且,可以通过使用任何现有技术来产生Lcls和Lreg来产生损失,例如,使用平滑L1损失。
在上述公式中,公式的第一项可以表示分类损失,第二项可以表示回归损失。回归损失项,即第二项,是众所周知的现有技术,因此省略进一步的说明。下面,将解释分类损失项,即第一项。
如上所述,分类损失项可以在括号中包括三个子项。在其第一子项中,条件i:
Figure BDA0002378004010000341
表示由区域建议网络140确定的第i预测区域建议网络分类结果和第i确实区域建议网络分类结果相同的情况,其中,第i预测区域建议网络分类结果对应于锚定特征图的第i像素。与。简而言之,这表示区域建议网络140已经正确地分析了卷积特征图的第i像素。如果区域建议网络140判断出,第i预测区域建议网络分类结果与第i确实区域建议网络分类结果相同的概率大于阈值概率,此处为方便起见,假设大于0.5,则意味着区域建议网络140已经“正确地”分析了第i像素。在第一项中,(1.1-ci)允许在区域建议网络140正确分析第i像素时,使区域建议网络140的参数小于区域建议网络损失,从而使第i区域建议网络置信度分数更大。具体地,分类损失项生成梯度,用以使区域建议网络140调整参数,其中,该分类损失项包括如上所述生成的第一子项,从而使得将来的区域建议网络损失更小。因此,通过利用包括第一子项的分类损失项,在区域建议网络140正确地分析出区域建议网络置信度特征图的情况下,区域建议网络140可以生成更大的区域建议网络置信度分数。
在分类损失项的第二项中,条件i:
Figure BDA0002378004010000342
表示区域建议网络140错误地分析了第i像素的情况。在第二子项中,当区域建议网络140错误地分析了第i像素时,(0.1+ci)会使第i区域建议网络置信度分数变得更小。这样的学习过程的原理可以与前述的第一子项的原理相同。
在第三子项中,ci log ci可以使区域建议网络置信度分数的分布与阶梯函数(Step Function)的分布不相似。如果分类损失项仅包括第一子项和第二子项,则区域建议网络置信度分数可能会过度拟合(Overfitting),以使其仅包括接近0或1的极值。这里,当ci是0.5时,ci log ci最小。因此,本申请的区域建议网络置信度分数的分布可以更加多样,包括0到1之间的各种值。如上所述,由于可以通过使用包括各种值的区域建议网络置信度分数来应对各种情况,因此这类项是必要的。
以上已经说明了本申请中生成区域建议网络损失的方法,因此,下面将介绍生成卷积神经网络损失的方法。
Figure BDA0002378004010000351
这里,其中,Nreg和Ncls表示所述预测注意区域的数量,ci表示所述卷积神经网络置信度分数中与预测注意区域中与第i预测注意区域相对应的第i卷积神经网络置信度分数,pi表示与第i预测注意区域相对应的第i预测卷积神经网络分类结果,
Figure BDA0002378004010000352
表示与所述第i像素相对应的第i确实卷积神经网络分类结果,ti表示与第i预测注意区域相对应的第i预测卷积神经网络回归结果,
Figure BDA0002378004010000353
表示与第i像素相对应的第i确实卷积神经网络回归结果;其中,第i预测卷积神经网络分类结果和第i预测卷积神经网络回归结果与预测检出客体结果相对应。在此公式中,参考符号可能与区域建议网络损失的参考符号相同,但如上所述,其意义可能有所不同。
从上式可以看出,卷积神经网络损失的结构与前述的区域建议网络损失的结构大同小异,但它们的西格玛函数条件是例外的。在此,区域建议网络损失的条件并非pi>0.5,而是pi=largest score among class scores。pi表示第i预测注意区域内的特定客体的概率最大的特定类别上的第i预测卷积神经网络分类结果。类似于区域建议网络损失,卷积神经网络损失中的分类损失项的第一子项可能代表卷积神经网络130已正确分析了第i预测注意区域的情况,而第二子项可能代表另一种情况,即卷积神经网络130错误地分析了第i预测注意区域。卷积神经网络损失和区域建议网络损失彼此相似,因此省略进一步的说明。
如上所述,生成卷积神经网络损失和区域建议网络损失之后,学习装置可以通过分别对卷积神经网络损失和区域建议网络损失执行反向传播来指示损失层学习卷积神经网络130和区域建议网络140中包含的至少一部分参数。此后,当卷积神经网络130和区域建议网络140执行检出已输入的图像中包含的客体的过程时,卷积神经网络130和区域建议网络140可以更准确地生成与已输入的图像相对应的卷积神经网络置信度分数和区域建议网络置信度分数。
在类似的学习过程结束后,学习装置可以将卷积神经网络130交付给计算装置100。并且,区域建议网络140和置信度层150从属于卷积神经网络130,因此它们也将同时被交付给计算装置100。卷积神经网络130、区域建议网络140和置信度层150可以通过使用完成学习的参数,来执行在学习过程中执行过的类似的运算。即,当卷积神经网络130获取环境图像,则卷积神经网络130、区域建议网络140以及置信度层150可以生成初始置信度信息的同时生成初始客体信息,其中,生成初始置信度信息的方式与学习过程期间生成集成置信度图的方式相同。
在此,作为参考,将参考图5对卷积神经网络130、区域建议网络140、损失层150以及置信度层160如何相互作用,以在执行客体检出时产生置信度分数进行说明。
图5是本申请实施例提供的包括卷积神经网络(CNN),区域建议网络(RPN),损失层和置信度层的学习装置的结构示意图,该学习装置用于执行通过使用强化学习及V2X通信并利用注意力驱动资源分配算法来安全的进行自动驾驶的方法。
参考图5,可以看到学习图像被输入到卷积神经网络130中的卷积层131,并且从中输出尺寸为h×w×c的卷积特征图。然后,卷积特征图可以由区域建议网络140进行运算,并由区域建议网络140输出包括了注意区域的位置(dx,dy,dw,dh)及其区域建议网络置信度分数的特征图,该特征图的尺寸为h×w×(5A+1)。类似的注意区域,可以传达至卷积神经网络130中的注意区域池化层(未标识),因此,可以通过该注意区域来池化卷积特征图。此后,卷积神经网络130中的全连接层层132可以运算尺寸为R×d的池化的注意区域特征图,以生成客体的预测位置为(x1,y1,x2,y2),其尺寸为R×(5C+1)的初始客体检出结果,其中,该初始客体检出结果包括客体被包含在每个类别中的概率以及与每个客体相对应的像素的卷积神经网络置信度分数。最后,卷积神经网络130对初始客体检出结果进行非最大抑制运算,以生成客体的预测位置为(x1,y1,x2,y2),其尺寸为R'×6的预测客体检出结果,其中,预测客体检出结果包括:预测客体类别的相关信息,以及客体被包含在每个类别中的概率相关信息。在此,R'可以表示由非最大抑制运算集成的注意区域们。即,可以表示客体的位置。而且,与预测检出客体结果一起输出的卷积神经网络置信度图,与从尺寸为h×w×1的区域建议网络置信度图生成的调整大小的区域建议网络置信度图进行集成,以生成尺寸为H×W×1的集成置信度图。这样的过程与上述学习方法一致。
本申请可以对可信度较低的部分重新应用重新检出客体的过程,并通过利用以此获得的附加信息,支持自动驾驶模块实现更安全的自动驾驶。
本申请的有益效果为:提供了一种利用强化学习算法及AVM进行注意力驱动资源分配的方法,以获得自动驾驶的安全性。
本申请的另一有益效果为:提供了一种与检出客体的过程并列地生成置信度分数的方法,该置信度分数表示客体被检出来的可信度的参数。
本申请的又另一个有益效果为:提供了一种在不确定的区域上再次执行检出客体的方法,该方法使用置信度分数实现强化学习算法,从而可以进一步更准确的重新检出客体。
本申请的技术方案的目的或对现有技术做出贡献的部分可以通过各种计算机手段以可执行程序命令的形式来实现,并且可以被记录到计算机可读记录介质中。计算机可读介质可以单独地或组合地包括程序命令,数据文件和数据结构。记录到介质的程序命令可以是为本申请内容专门设计的组件,或者可以是计算机软件领域的技术人员可以使用的。计算机可读记录介质包括磁性介质(例如硬盘,软盘和磁带),光学介质(例如CD-ROM和DVD),磁光介质(例如软盘)和硬件设备(例如ROM,RAM和闪存)设计用于存储和执行程序。程序命令不仅包括由编译器进行的机器语言代码,而且包括可由计算机执行的解释器等可以使用的高级代码。前述硬件设备可以起软件模块的作用,以执行本申请的动作,并且它们可以在相反的情况下进行相同的操作。硬件设备可以与诸如ROM和RAM之类的存储器组合以存储程序命令,并且可以包括诸如CPU或GPU之类的处理器,以执行存储在存储器中的命令,并且还包括用于与外部设备发送和接收信号的通信部分。
如上所述,已经通过诸如详细的部件,受限的实施例和附图的特定事项解释了本申请。尽管已经通过优选实施例描述了本申请,但是,本领域技术人员将理解,本申请的保护范围可以在不脱离本发明的精神和范围的情况下进行各种改变和修改。
因此,本申请的构思一定不限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变型在内的所有内容都属于本申请的构思的范畴。

Claims (30)

1.一种通过使用置信度分数来在自动驾驶中实现更好性能的同时,还可以节省计算能力的方法,其中,所述置信度分数代表检出客体的可信度,并与检出客体过程并列地产生,所述方法包括以下步骤:
步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像;
步骤(b)、所述计算装置指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算,从而生成所述环境图像相关的初始客体信息与初始置信度信息;以及
步骤(c)、所述计算装置在强化学习代理程序的支持下,通过参考所述初始客体信息与所述初始置信度信息,生成所述环境图像相关的最终客体信息。
2.如权利要求1所述的方法,其中,步骤(c)包括以下步骤:
步骤(c1)、所述计算装置(i)指示所述强化学习代理程序通过参考所述初始置信度信息,在所述环境图像内的一个以上区域中,选择一个以上待应用重新检出过程的第一特定区域,并(ii)指示所述卷积神经网络对所述第一特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用以生成第一调整客体信息及第一调整置信度信息;
步骤(c2)、所述计算装置重复(i)指示所述强化学习代理程序通过参考先前生成的第K-1调整置信度信息,从所述环境图像中的所述区域中选择一个以上的待应用重新检出过程的第K特定区域,然后(ii)指示所述卷积神经网络对所述第K特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用于生成第K调整客体信息与第K调整置信度信息;以及
步骤(c3)、当所述重新检出过程被执行N次后生成第N调整客体信息与第N调整置信度信息时,所述计算装置通过参考所述第一调整客体信息至所述第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述最终客体信息;
其中,所述K是2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
3.如权利要求2所述的方法,其中,当所述第M重新检出概率在大于或等于阈值时,所述计算装置指示所述卷积神经网络在所述第M特定区域进行所述卷积神经网络运算,而所述强化学习代理程序则通过参考第M-1调整置信度信息来生成第M重新检出概率及一个以上第M特定区域,其中M为1至N的整数;
当M为1时,则所述强化学习代理程序参考所述初始置信度信息来生成第一重新检出概率以及所述第一特定区域。
4.如权利要求3所述的方法,其中,当所述强化学习代理程序接收到向其输入的第M-1调整置信度信息时,则(i)通过使用其自身的参数与所述第M-1调整置信度信息,生成所述第M重新检出概率及所述第M特定区域,(ii)当所述第M重新检出概率大于或等于阈值时,则从所述卷积神经网络获取所述第M调整置信度信息,且(iii)通过参照所述第M调整置信度信息及生成第M调整客体信息时所使用的第M计算费用、所述第M-1调整置信度信息以及所述第M调整置信度信息来计算第M原始奖励,其中,所述第M调整客体信息对应于所述第M调整置信度信息,并(iv)通过参考所述第M原始奖励来学习所述参数。
5.如权利要求4所述的方法,其中,所述强化学习代理程序使用以下公式生成的梯度来学习所述参数:
Figure FDA0002378002000000021
其中,O是第M原始向量,所述第M原始向量包括所述第M重新检出概率和所述第M特定区域的相关信息,O'是第M调整向量,所述第M调整向量是对所述第M原始向量应用噪音而生成的,R(O)和R(O')分别是与所述第M原始奖励及所述第M调整向量相对应的第M调整奖励,∈是一个常数,用于防止所述梯度的发散。
6.如权利要求2所述的方法,其中,在重复执行所述重新检出过程时,如果一个以上的第L特定区域被选上,则所述计算装置指示所述强化学习代理程序生成与所述第L特定区域相对应的第L倍数信息,并通过参考所述第L倍数信息对所述第L特定区域进行上采样运算,生成第L特定上采样图像,并指示所述卷积神经网络对所述第L特定上采样图像进行所述卷积神经网络运算,以便生成第L调整客体信息和第L调整置信度信息,其中,L为1至N的整数。
7.如权利要求1所述的方法,其中,在所述步骤(c)中,所述计算装置在生成包括多个环境图像作为其部分图像的集成图像的同时,通过使用每个所述初始环境图像相关的每个所述初始客体信息与每个所述初始置信度信息,来生成关于所述集成图像的集成最终客体信息,其中,通过执行以下步骤来生成所述集成最终客体信息:
步骤(c4)、所述计算装置(i)通过参考每个所述初始置信度信息,生成对所述集成图像的第一集成置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第一集成置信度信息,在所述集成图像中的一个以上的区域中选择待应用所述重新检出过程的一个以上的第一特定区域,并且(iii)指示所述卷积神经网络通过对所述第一特定区域进行所述卷积神经网络运算,从而在所述集成图像上执行所述重新检出过程,所述重新检出过程用于生成每个所述第一调整客体信息及每个所述第一调整置信度信息;
步骤(c5)、所述计算装置重复地执行(i)至(iii)的过程,具体为:(i)通过参考每个第K-1调整置信度信息,生成关于所述集成图像的第K调整置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第K调整集成置信度信息,在所述集成图像中的所述区域中,选择每个待应用所述重新检出过程的一个以上第K特定区域,并且(iii)指示所述卷积神经网络通过对所述第K特定区域进行所述卷积神经网络运算来执行关于所述集成图像的所述重新检出过程,其中,所述重新检出过程用于生成每个第K调整客体信息和每个第K调整置信度信息;以及
步骤(c6)、当执行了N次所述重新检出过程后生成每个第N调整客体信息及每个第N调整置信度信息时,所述计算装置通过参考所述第一调整客体信息至第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述集成最终客体信息;
其中,所述K为2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
8.如权利要求7所述的方法,其中,(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时,所述计算装置指示第一卷积神经网络,对所述第一环境图像进行至少一次第一卷积神经网络运算,其中,所述第一卷积神经网络不仅对3通道图像进行了优化,其还具有3个以上输入节点,以及(ii)通过与深度传感器相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时,所述计算装置指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算,其中,所述第二卷积神经网络不仅对深度图像进行了优化,其还具有一个以上输入节点。
9.如权利要求1所述的方法,在所述步骤(a)之前,还包括以下步骤:
步骤(a1)、当获取到训练图像时,则学习装置指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图;
步骤(a2)、所述学习装置通过对所述卷积特征图进行至少一次锚定运算来在所述训练图像上生成预测注意区域,并在执行该过程的同时,指示包含在区域建议网络中的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;
步骤(a3)当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域池化特征图时,则所述学习装置通过使用所述注意区域池化特征图,生成预测客体的检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层为每个所述预测注意区域生成每个卷积神经网络置信度分数,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及
步骤(a4)、通过参考所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检出结果和所述确实客体检出结果,所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失,并通过利用所述区域建议网络损失和所述卷积神经网络损失来执行反向传播,以学习所述卷积神经网络和所述区域建议网络中包含的至少一部分参数。
10.如权利要求9所述的方法,其中,在所述步骤(a4)中,所述学习装置使用以下公式指示所述损失层生成所述区域建议网络损失:
Figure FDA0002378002000000061
其中,Nreg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数,Ncls表示与所述训练图像相对应的常数,ci表示在所述区域建议网络置信度分数中与所述卷积特征图的第i像素相对应的第i区域建议网络置信度分数,pi表示与所述第i像素相对应的第i预测区域建议网络分类结果,
Figure FDA0002378002000000062
表示与所述第i像素相对应的第i确实区域建议网络分类结果,ti表示与所述第i像素相对应的的第i预测区域建议网络回归结果,并且
Figure FDA0002378002000000063
表示与所述第i像素相对应的第i确实区域建议网络回归结果;
其中,所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检出结果。
11.如权利要求9所述的方法,其中,在所述步骤(a4)中,所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失:
Figure FDA0002378002000000071
其中,Nreg和Ncls表示所述预测注意区域的数量,ci表示所述卷积神经网络置信度分数中与所述预测注意区域中选择的第i预测注意区域相对应的第i卷积神经网络置信度分数,pi表示与所述第i预测注意区域相对应的第i预测卷积神经网络分类结果,
Figure FDA0002378002000000072
表示与所述第i像素相对应的第i确实卷积神经网络分类结果,ti表示与所述第i预测注意区域相对应的第i预测卷积神经网络回归结果,
Figure FDA0002378002000000073
表示与所述第i像素相对应的第i确实卷积神经网络回归结果;
其中,所述第i预测卷积神经网络分类结果和所述第i预测卷积神经网络回归结果与所述预测检出客体结果相对应。
12.如权利要求9所述的方法,其中,在所述步骤(a3)之后,所述学习装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示置信度层生成集成置信度图,所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。
13.如权利要求12所述的方法,其中,所述学习装置指示所述置信度层,执行以下过程:过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制结果,所述非最大抑制结果是在生成所述预测客体检出结果的过程中生成的,并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小运算来生成调整大小的区域建议网络置信度图;以及过程(ii)、通过参考所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。
14.如权利要求13所述的方法,其中,所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x,y)相对应的第X_Y集成置信度分数:
Figure FDA0002378002000000081
其中,c'xy表示所述第X_Y集成置信度分数,cxy表示与所述调整大小的区域建议网络置信度图上的所述坐标(x,y)相对应的第X_Y调整大小的区域建议网络置信度分数,
Figure FDA0002378002000000082
表示在所述非最大抑制结果中确定并包括所述坐标(x,y)的第i预测注意区域的第i卷积神经网络置信度分数,所述第i卷积神经网络置信度分数表示为ri
15.如权利要求1所述的方法,其中,所述步骤(b)包括以下步骤:
步骤(b1)、当获取到所述环境图像时,则所述计算装置指示所述卷积神经网络中包含的至少一个卷积层,对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图;
步骤(b2)、所述计算装置对所述卷积特征图进行至少一次锚定运算,以此在所述环境图像上生成预测注意区域,并在执行该过程的同时,指示区域建议网络中包括的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;
步骤(b3)、当通过包含在所述卷积神经网络中的注意区域池化层,获取到至少一个注意区域池化特征图时,则所述计算装置通过使用所述注意区域池化特征图,生成预测客体检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层为每个所述预测注意区域生成每个卷积神经网络置信度分数,从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及
步骤(b4)、所述计算装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示与所述卷积神经网络交互作用的置信度层,生成集成置信度图;
其中,所述计算装置指示所述卷积神经网络输出所述初始置信度信息,所述初始置信度信息包括所述初始客体信息及所述集成置信度图,所述初始客体信息包括所述预测客体检出结果。
16.一种通过使用置信度分数来在自动驾驶中实现更好性能的同时,还可以节省计算能力的计算装置,其中,所述置信度分数代表检出客体的可信度,并与检出客体过程并列地产生,所述计算装置包括:
至少一个存储指令的存储器;以及
至少一个处理器,其用于实施所述指令并执行以下过程:
(I)通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像;
(II)指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算,从而生成所述环境图像相关的初始客体信息与初始置信度信息;以及
(III)在强化学习代理程序的支持下,通过参考所述初始客体信息与所述初始置信度信息,生成所述环境图像相关的最终客体信息。
17.如权利要求16所述的装置,其中,所述过程(III)包括以下过程:
(III-1)指示所述强化学习代理程序通过参考所述初始置信度信息,在所述环境图像内的一个以上区域中,选择一个以上待应用重新检出过程的第一特定区域,并(ii)指示所述卷积神经网络对所述第一特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用以生成第一调整客体信息及第一调整置信度信息;
(III-2)所述处理器重复(i)指示所述强化学习代理程序通过参考先前生成的第K-1调整置信度信息,从所述环境图像中的所述区域中选择一个以上的待应用重新检出过程的第K特定区域,然后(ii)指示所述卷积神经网络对所述第K特定区域进行所述卷积神经网络运算,从而执行关于所述环境图像的所述重新检出过程,所述重新检出过程用于生成第K调整客体信息与第K调整置信度信息;以及
(III-3)当所述重新检出过程被执行N次后生成第N调整客体信息与第N调整置信度信息时,所述处理器通过参考所述第一调整客体信息至所述第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述最终客体信息;
其中,所述K是2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
18.如权利要求17所述的装置,其中,当所述第M重新检出概率大于或等于阈值时,所述处理器指示所述卷积神经网络在所述第M特定区域进行所述卷积神经网络运算,而所述强化学习代理程序则通过参考第M-1调整置信度信息来生成第M重新检出概率及一个以上第M特定区域,其中M为1至N的整数;
当M为1时,则所述强化学习代理程序参考所述初始置信度信息来生成第一重新检出概率以及所述第一特定区域。
19.如权利要求18所述的装置,其中,当所述强化学习代理程序接收到向其输入的第M-1调整置信度信息时,则(i)通过使用其自身的参数与所述第M-1调整置信度信息,生成所述第M重新检出概率及所述第M特定区域,(ii)当所述第M重新检出概率大于或等于阈值时,则从所述卷积神经网络获取所述第M调整置信度信息,且(iii)通过参照所述第M调整置信度信息及生成第M调整客体信息时所使用的第M计算费用、所述第M-1调整置信度信息以及所述第M调整置信度信息,来计算第M原始奖励,其中,所述第M调整客体信息对应于所述第M调整置信度信息,并(iv)通过参考所述第M原始奖励来学习所述参数。
20.如权利要求19所述的装置,其中,所述强化学习代理程序使用以下公式生成的梯度来学习所述参数:
Figure FDA0002378002000000111
其中,O是第M原始向量,所述第M原始向量包括所述第M重新检出概率和所述第M特定区域的相关信息,O'是第M调整向量,所述第M调整向量是对所述第M原始向量应用噪音而生成的,R(O)和R(O')分别是与所述第M原始奖励及所述第M调整向量相对应的第M调整奖励,∈是一个常数,用于防止所述梯度的发散。
21.如权利要求17所述的装置,其中,在重复执行所述重新检出过程时,如果一个以上的第L特定区域被选上,则所述处理器指示所述强化学习代理程序生成与所述第L特定区域相对应的第L倍数信息,并通过参考所述第L倍数信息对所述第L特定区域进行上采样运算,生成第L特定上采样图像,并指示所述卷积神经网络对所述第L特定上采样图像进行所述卷积神经网络运算,以便生成第L调整客体信息和第L调整置信度信息,其中,L为1至N的整数。
22.如权利要求16所述的装置,其中,在所述过程(I I I)中,所述处理器在生成包括多个环境图像作为其部分图像的集成图像的同时,通过使用每个所述初始环境图像相关的每个所述初始客体信息与每个所述初始置信度信息,来生成关于所述集成图像的集成最终客体信息,其中,通过执行以下步骤来生成所述集成最终客体信息:
(III-4)(i)通过参考每个所述初始置信度信息,生成对所述集成图像的第一集成置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第一集成置信度信息,在所述集成图像中的一个以上的区域中选择待应用所述重新检出过程的一个以上的第一特定区域,并且(iii)指示所述卷积神经网络通过对所述第一特定区域进行所述卷积神经网络运算,从而在所述集成图像上执行所述重新检出过程,所述重新检出过程用于生成每个所述第一调整客体信息及每个所述第一调整置信度信息;
(III-5)所述处理器重复地执行以下(i)至(iii)的过程,具体为:(i)通过参考每个第K-1调整置信度信息,生成关于所述集成图像的第K调整置信度信息,并(ii)指示所述强化学习代理程序通过参考所述第K调整集成置信度信息,在所述集成图像中的所述区域中,选择每个待应用所述重新检出过程的一个以上第K特定区域,并且(iii)指示所述卷积神经网络通过对所述第K特定区域进行所述卷积神经网络运算来执行关于所述集成图像的所述重新检出过程,其中,所述重新检出过程用于生成每个第K调整客体信息和每个第K调整置信度信息;以及
(III-6)当执行了N次所述重新检出过程后生成每个第N调整客体信息及每个第N调整置信度信息时,所述计算装置通过参考所述第一调整客体信息至第N调整客体信息中的至少一部分以及所述初始客体信息,生成所述集成最终客体信息;
其中,所述K为2至N的整数,并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。
23.如权利要求22所述的装置,其中,(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时,所述处理器指示第一卷积神经网络,对所述第一环境图像进行至少一次第一卷积神经网络运算,其中,所述第一卷积神经网络不仅对3通道图像进行了优化,其还具有3个以上输入节点,以及(ii)通过与深度传感器相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时,所述处理器指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算,其中,所述第二卷积神经网络不仅对深度图像进行了优化,其还具有一个以上输入节点。
24.如权利要求16所述的装置,在所述过程(I)之前,其中,通过执行以下过程来学习卷积神经网络:(I-1)当获取到训练图像时,则学习装置指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图;(I-2)所述学习装置通过对所述卷积特征图进行至少一次锚定运算来在所述训练图像上生成预测注意区域,并在执行该过程的同时,指示包含在区域建议网络中的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;(I-3)当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域池化特征图时,则所述学习装置通过使用所述注意区域池化特征图,生成预测客体的检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层为每个所述预测注意区域生成每个卷积神经网络置信度分数,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及(I-4)通过参考所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检出结果与所述确实客体检出结果,所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失,并通过利用所述区域建议网络损失和所述卷积神经网络损失来执行反向传播,以学习所述卷积神经网络和所述区域建议网络中包含的至少一部分参数。
25.如权利要求24所述的装置,其中,在所述过程(I-4),所述学习装置使用以下公式指示所述损失层生成所述区域建议网络损失:
Figure FDA0002378002000000141
其中,Nreg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数,Ncls表示与所述训练图像相对应的常数,ci表示在所述区域建议网络置信度分数中与所述卷积特征图的第i像素相对应的第i区域建议网络置信度分数,pi表示与所述第i像素相对应的第i预测区域建议网络分类结果,
Figure FDA0002378002000000142
表示与所述第i像素相对应的第i确实区域建议网络分类结果,ti表示与所述第i像素相对应的的第i预测区域建议网络回归结果,并且
Figure FDA0002378002000000143
表示与所述第i像素相对应的第i确实区域建议网络回归结果;
其中,所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检出结果。
26.如权利要求24所述的装置,其中,在所述过程(I-4)中,所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失:
Figure FDA0002378002000000151
其中,Nreg和Ncls表示所述预测注意区域的数量,ci表示所述卷积神经网络置信度分数中与所述预测注意区域中选择的第i预测注意区域相对应的第i卷积神经网络置信度分数,pi表示与所述第i预测注意区域相对应的第i预测卷积神经网络分类结果,
Figure FDA0002378002000000152
表示与所述第i像素相对应的第i确实卷积神经网络分类结果,ti表示与所述第i预测注意区域相对应的第i预测卷积神经网络回归结果,
Figure FDA0002378002000000153
表示与所述第i像素相对应的第i确实卷积神经网络回归结果;
其中,所述第i预测卷积神经网络分类结果和所述第i预测卷积神经网络回归结果与所述预测检出客体结果相对应。
27.如权利要求24所述的装置,其中,在所述过程(I-3)之后,所述学习装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示置信度层生成集成置信度图,所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。
28.如权利要求27所述的装置,其中,所述学习装置指示所述置信度层,执行以下过程:过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制结果,所述非最大抑制结果是在生成所述预测客体检出结果的过程中生成的,并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小运算来生成调整大小的区域建议网络置信度图;以及过程(ii)、通过参考所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。
29.如权利要求28所述的装置,其中,所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x,y)相对应的第X_Y集成置信度分数:
Figure FDA0002378002000000161
其中,c'xy表示所述第X_Y集成置信度分数,cxy表示与所述调整大小的区域建议网络置信度图上的所述坐标(x,y)相对应的第X_Y调整大小的区域建议网络置信度分数,
Figure FDA0002378002000000162
表示在所述非最大抑制结果中确定并包括所述坐标(x,y)的第i预测注意区域的第i卷积神经网络置信度分数,所述第i卷积神经网络置信度分数表示为ri
30.如权利要求16所述的装置,其中,所述过程(I I)包括以下过程:
(II-1)当获取到所述环境图像时,则所述计算装置指示所述卷积神经网络中包含的至少一个卷积层,对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图;
(II-2)所述计算装置对所述卷积特征图进行至少一次锚定运算,以此在所述环境图像上生成预测注意区域,并在执行该过程的同时,指示区域建议网络中包括的至少一个锚定层,按所述卷积特征图的每个像素,生成至少一个区域建议网络置信度分数,所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率,从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图;
(II-3)当通过包含在所述卷积神经网络中的注意区域池化层,获取到至少一个注意区域池化特征图时,则所述计算装置通过使用所述注意区域池化特征图,生成预测客体检出结果,并在执行该过程的同时,指示所述卷积神经网络中包含的全连接层为每个所述预测注意区域生成每个卷积神经网络置信度分数,从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图,其中,所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的,所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率;以及
(II-4)所述计算装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图,指示与所述卷积神经网络交互作用的置信度层,生成集成置信度图;
其中,所述处理器指示所述卷积神经网络输出所述初始置信度信息,所述初始置信度信息包括所述初始客体信息及所述集成置信度图,所述初始客体信息包括所述预测客体检出结果。
CN202010073994.5A 2019-01-31 2020-01-22 以avm与强化学习实现注意力驱动资源分配的方法和装置 Active CN111507167B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962799321P 2019-01-31 2019-01-31
US62/799,321 2019-01-31
US16/739,767 US10726279B1 (en) 2019-01-31 2020-01-10 Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving
US16/739,767 2020-01-10

Publications (2)

Publication Number Publication Date
CN111507167A true CN111507167A (zh) 2020-08-07
CN111507167B CN111507167B (zh) 2023-09-29

Family

ID=69185406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010073994.5A Active CN111507167B (zh) 2019-01-31 2020-01-22 以avm与强化学习实现注意力驱动资源分配的方法和装置

Country Status (5)

Country Link
US (1) US10726279B1 (zh)
EP (1) EP3690719A1 (zh)
JP (1) JP6895694B2 (zh)
KR (1) KR102396272B1 (zh)
CN (1) CN111507167B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096175A (zh) * 2021-03-24 2021-07-09 苏州中科广视文化科技有限公司 一种基于卷积神经网络的深度图置信度估计方法
CN115546768A (zh) * 2022-12-01 2022-12-30 四川蜀道新能源科技发展有限公司 基于多尺度机制和注意力机制的路面标线识别方法及系统

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
CN115512173A (zh) 2018-10-11 2022-12-23 特斯拉公司 用于使用增广数据训练机器模型的系统和方法
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US20220180107A1 (en) * 2020-12-03 2022-06-09 Mando Corporation Method and sysytem for real time object detection
JP7361342B2 (ja) * 2021-03-24 2023-10-16 パナソニックIpマネジメント株式会社 学習方法、学習装置、及び、プログラム
GB2608803B (en) * 2021-07-09 2023-11-08 Milestone Systems As A video processing apparatus, method and computer program
KR20230077564A (ko) * 2021-11-25 2023-06-01 한국전자기술연구원 깊이 이미지 기반 객체 탐지 시스템 및 이의 환경 적응형 딥러닝 모델 생성 및 적용 방법

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5961571A (en) * 1994-12-27 1999-10-05 Siemens Corporated Research, Inc Method and apparatus for automatically tracking the location of vehicles
US20140355822A1 (en) * 2013-06-04 2014-12-04 Hyundai Motor Company Apparatus and method for matching parking-lot outline
US20150161441A1 (en) * 2013-12-10 2015-06-11 Google Inc. Image location through large object detection
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
US20180129974A1 (en) * 2016-11-04 2018-05-10 United Technologies Corporation Control systems using deep reinforcement learning
CN108052881A (zh) * 2017-11-30 2018-05-18 华中科技大学 一种实时检测施工现场图像中多类实体对象的方法及设备
US20180267558A1 (en) * 2017-03-14 2018-09-20 Starsky Robotics, Inc. Vehicle sensor system and method of use
CN108596329A (zh) * 2018-05-11 2018-09-28 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10657364B2 (en) * 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US20180211403A1 (en) * 2017-01-20 2018-07-26 Ford Global Technologies, Llc Recurrent Deep Convolutional Neural Network For Object Detection
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN111133447B (zh) * 2018-02-18 2024-03-19 辉达公司 适于自主驾驶的对象检测和检测置信度的方法和系统
US11164016B2 (en) * 2018-05-17 2021-11-02 Uatc, Llc Object detection and property determination for autonomous vehicles
CN109145898A (zh) * 2018-07-26 2019-01-04 清华大学深圳研究生院 一种基于卷积神经网络和迭代机制的物体检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5961571A (en) * 1994-12-27 1999-10-05 Siemens Corporated Research, Inc Method and apparatus for automatically tracking the location of vehicles
US20140355822A1 (en) * 2013-06-04 2014-12-04 Hyundai Motor Company Apparatus and method for matching parking-lot outline
US20150161441A1 (en) * 2013-12-10 2015-06-11 Google Inc. Image location through large object detection
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
US20180129974A1 (en) * 2016-11-04 2018-05-10 United Technologies Corporation Control systems using deep reinforcement learning
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
US20180267558A1 (en) * 2017-03-14 2018-09-20 Starsky Robotics, Inc. Vehicle sensor system and method of use
CN108052881A (zh) * 2017-11-30 2018-05-18 华中科技大学 一种实时检测施工现场图像中多类实体对象的方法及设备
CN108596329A (zh) * 2018-05-11 2018-09-28 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZEQUN JIE ET AL.: ""tree-structured reinforcement learning for sequential object localization"", pages 2 - 4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096175A (zh) * 2021-03-24 2021-07-09 苏州中科广视文化科技有限公司 一种基于卷积神经网络的深度图置信度估计方法
CN113096175B (zh) * 2021-03-24 2023-10-24 苏州中科广视文化科技有限公司 一种基于卷积神经网络的深度图置信度估计方法
CN115546768A (zh) * 2022-12-01 2022-12-30 四川蜀道新能源科技发展有限公司 基于多尺度机制和注意力机制的路面标线识别方法及系统

Also Published As

Publication number Publication date
EP3690719A1 (en) 2020-08-05
JP6895694B2 (ja) 2021-06-30
US10726279B1 (en) 2020-07-28
KR102396272B1 (ko) 2022-05-10
US20200250442A1 (en) 2020-08-06
JP2020126633A (ja) 2020-08-20
KR20200095376A (ko) 2020-08-10
CN111507167B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN111507167B (zh) 以avm与强化学习实现注意力驱动资源分配的方法和装置
US10692002B1 (en) Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same
US10782691B2 (en) Deep learning and intelligent sensing system integration
KR102396274B1 (ko) 강화 학습 및 v2x 통신을 사용하는 어텐션-드리븐 리소스 할당을 통해 자율 주행의 안전성을 제공하기 위한 방법 및 장치
US20200250468A1 (en) Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN111489285B (zh) 利用循环gan将真实图像变换成虚拟图像的方法及装置
CN110879962B (zh) 利用多个视频帧优化cnn参数的方法和装置
EP3686837B1 (en) Learning method and learning device for reducing distortion occurred in warped image generated in process of stabilizing jittered image by using gan to enhance fault tolerance and fluctuation robustness in extreme situations
CN111507169B (zh) 以avm实现注意力驱动资源分配的方法及装置
KR102320999B1 (ko) 폴트 톨러런스 및 플럭츄에이션 로버스트를 위한 복수의 뉴럴 네트워크를 사용하여 흔들리는 카메라로 인해 생성된 비디오에서 지터링을 제거하기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR102321004B1 (ko) 온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
CN111488786B (zh) 基于cnn的监视用客体检测器的方法及装置
US20200250514A1 (en) Learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US10650279B1 (en) Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant