CN114862907A - 基于端到端的多任务识别网络训练方法 - Google Patents
基于端到端的多任务识别网络训练方法 Download PDFInfo
- Publication number
- CN114862907A CN114862907A CN202210423233.7A CN202210423233A CN114862907A CN 114862907 A CN114862907 A CN 114862907A CN 202210423233 A CN202210423233 A CN 202210423233A CN 114862907 A CN114862907 A CN 114862907A
- Authority
- CN
- China
- Prior art keywords
- samples
- network
- inputting
- sample
- recognition network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 240000004050 Pentaglottis sempervirens Species 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种基于端到端的多任务识别网络训练方法包括:利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息;将多种数据输入对应的数据处理网络得到多个第一样本,第一样本包括二维图像样本、三维图像样本、雷达鸟瞰样本和/或激光雷达鸟瞰样本;将多个第一样本输入特征提取网络得到多种第一样本特征;将多种第一样本特征和定位信息输入特征识别网络得到多种第二样本,第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹;利用多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。本发明还提供了一种道路目标及目标行为的预测方法、多任务识别模型、存储介质以及计算机设备。
Description
技术领域
本发明涉及自动驾驶领域,尤其涉及一种基于端到端的多任务识别网络训练方法、道路目标及目标行为的预测方法、多任务识别模型、计算机可读存储介质以及计算机设备。
背景技术
随着科技的日益进步,自动驾驶车辆已经越来越多的出现在人们日常的生活中。自动驾驶的目标是其从辅助驾驶员驾驶到最终替代驾驶员,实现安全、合规、便捷的个人自动交通系统。现有的自动驾驶系统中,自动驾驶车辆要实现完全自主的驾驶,首先要实现的是能够准确的识别出道路上的物体的种类,以及准确的预测出道路上物体的行驶轨迹,从而实现完全的自主的驾驶。现有技术方案中一般使用训练好的深度学习网络实现道路上物体的识别以及道路上物体行驶轨迹的预测。但是,现有技术方案中训练深度学习网络使用的训练样本是由人工标注,不仅耗时长,而且人工成本极高。当遇到新的场景时,获取新的训练样本需要大量的时间筛选标注训练样本,得到新的训练样本以后训练新的模型具有识别新的场景中的各种目标物体也需要较长的时间,无法及时为自动驾驶车辆提供最新的模型。
因此,如何快速准确的将自动驾驶车辆行驶中遇到的新场景中的数据转化为训练样本并利用上述训练样本训练出具有识别新场景中目标物体的神经网络是亟需解决的问题。
发明内容
本发明提供一种基于端到端的多任务识别网络训练方法、道路目标及目标行为的预测方法、多任务识别模型、计算机可读存储介质以及计算机设备,上述方法能够快速准确的将自动驾驶车辆行驶中遇到的新场景中的数据转化为训练样本并利用上述训练样本训练出具有识别新场景中目标物体的神经网络,使得自动驾驶车辆能够快速的适应新的驾驶环境,提高自动驾驶车辆的适应新环境的能力。
第一方面,本发明实施例提供一种基于端到端的多任务识别网络训练方法,该基于端到端的多任务识别网络训练方法包括:
利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;
将多种数据输入对应的数据处理网络得到多个第一样本,第一样本包括二维图像样本、三维图像样本、雷达鸟瞰样本和/或激光雷达鸟瞰样本;
将多个第一样本输入特征提取网络得到多种第一样本特征;
将多种第一样本特征和定位信息输入特征识别网络得到多种第二样本,第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹;
利用多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。
第二方面,本发明实施例提供一种道路目标及目标行为的预测方法,该道路目标及目标行为的预测方法包括:
利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;
将多种数据和定位信息输入利用基于端到端的多任务识别网络训练方法得到的目标多任务识别网络中,得到多种数据中目标物体和目标物体的预测运动轨迹。
第三方面,本发明实施例提供一种多任务识别模型,该多任务识别模型包括:
第一样本获取模块:利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;将多种数据输入对应的数据处理网络得到多个第一样本,第一样本包括二维图像样本、三维图像样本、雷达鸟瞰样本和/或激光雷达鸟瞰样本;
第二样本获取模块:将多个第一样本输入特征提取网络得到多种第一样本特征;将多种第一样本特征和定位信息输入特征识别网络得到多种第二样本,第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹;
多任务识别网络训练模块:利用多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。
第四方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有能够被处理器加载并执行的基于端到端的多任务识别网络训练方法的程序指令。
第五方面,本发明实施例提供一种计算机设备,该计算机设备包括:
存储器,用于存储的程序指令;以及
处理器,用于执行程序指令以使计算机设备实现基于端到端的多任务识别网络训练方法。
上述基于端到端的多任务识别网络训练方法能够快速准确的将自动驾驶车辆行驶中遇到的新场景中的数据转化为训练样本并利用上述训练样本训练出具有识别新场景中目标物体的神经网络,使得自动驾驶车辆能够快速的适应新的驾驶环境,提高自动驾驶车辆的适应新环境的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的基于端到端的多任务识别网络训练方法的流程图。
图2为本发明实施例提供的基于端到端的多任务识别网络训练方法的第一子流程图。
图3为本发明实施例提供的基于端到端的多任务识别网络训练方法的第二子流程图。
图4为本发明实施例提供的多任务识别网络训练方法的第一网络结构示意图。
图5为本发明实施例提供的多任务识别网络训练方法第二网络结构示意。
图6为本发明实施例提供的多任务识别网络训练方法第三网络结构示意。
图7为本发明实施例提供的道路目标及目标行为的预测方法的流程图。
图8为本发明实施例提供的多任务识别模型的示意图。
图9为本发明实施例提供的计算机设备内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请结合参看图1,其为本发明实施例提供的基于端到端的多任务识别网络训练方法的流程图。其中,本发明实施例提供的基于端到端的多任务识别网络训练方法具体包括下面步骤。
步骤S101,利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息。在本实施例中,请结合参看图4和图5,多种不同的传感器101包括摄像机1011、立体摄像机1012、雷达1013和/或激光雷达1014。在摄像机1011、立体摄像机1012、雷达1013和激光雷达1014的基础上,还可以添加4D毫米波雷达(图未示)等传感器。然后通过上述置于车身不同位置的一种或者多种样本传感器获取不同视角的图像数据或者点云数据,具体地,自动驾驶车辆使用的传感器输入是可选的,自动驾驶车辆选择启用全部传感器来获取数据;自动驾驶车辆也可选择传感器中的任何一个或者多个来获取数据。
步骤S102,将多种数据输入对应的数据处理网络得到多个第一样本,第一样本包括二维图像样本11、三维图像样本12、雷达鸟瞰样本13和/或激光雷达鸟瞰样本14。具体的,利用数据处理网络102将多种数据处理为下一个深度学习网络可以识别并使用的样本。具体内容请参照步骤S1021-步骤S1024。
在本实施例中,基于端到端的多任务识别网络训练方法是通过多个具有不同功能的不同的深度学习网络实现。多个具有不同功能的不同的深度学习网络构成了一个完全实现端到端可学习、可训练的系统。基于端到端的多任务识别网络训练方法可以直接通过深度学习网络将传感器获取的数据转化为下一个深度学习网络的输入或者是训练样本,完全不需要人工进行筛选构建训练样本。更进一步地,基于端到端的多任务识别网络训练方法与传统利用深度学习网络的方法的不同之处在于,基于端到端的多任务识别网络训练方法完全实现深度学习网络之间数据的交互,不需要另外添加其他的程序代码将多个深度学习网络互相连接成为上下游,本方案充分利用深度学习网络对数据进行处理得到多种样本,不需要再额外的将数据导出,再对数据进行处里以及标注,减少了原始数据的处理步骤和算力,从而加快了原始数据的处理速度,提高了深度学习网络产生的数据的利用率以及节约了大量的人力成本。
步骤S103,将多个第一样本输入特征提取网络得到多种第一样本特征。在本实施例中,特征提取网络103为Transformer Neural Network。Transformer Neural Network的核心结构multi-head self-attention模块,它通过对多层multi-head self-attention模块的堆叠,实现了对输入特征进行低阶以及高阶交叉信息的提取。具体地,第一样本特征可以是道路上不同的车辆的特征。
步骤S104,将多种第一样本特征和定位信息输入特征识别网络得到多种第二样本,第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹。在本实施例中,特征识别网络为循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。在本实施例中使用的是特殊循环神经网络(Spacial Recurrent Neural Network,Spacial RNN),特殊循环神经网络中每一个cell都是一个RNN。不同的RNN用于提取不同种类的样本特征。具体内容请参照步骤S1041-步骤S1043。
步骤S105,利用多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。在本实施例中,初始多任务识别网络104为Multilayer Perceptron。多层感知机(Multilayer Perceptron,MLP)是一个逻辑回归分类器,MLP将输入其中的数据进行用已学习的非线性变换Φ进行转换,再把输入数据映射到一个线性可分空间里。这个中间层被称为隐藏层。单隐藏层的多层感知机足以成为通用逼近器。使用许多这样的隐藏层构建具有多任务识别功能的神经网络。具体地,基于端到端的多任务识别网络训练方法得到的多任务识别网络可识别道路上物体的种类;在一些情况下,基于端到端的多任务识别网络训练方法得到的多任务识别网络可预测道路上物体的行驶轨迹;在另一些情况下,基于端到端的多任务识别网络训练方法得到的多任务识别网络在识别道路上物体的种类的同时预测道路上物体的行驶轨迹。多任务识别网络输出可根据实际需求设定输出内容。
在本实施例中,多任务识别网络能够根据实际需求设定输出内容,增加了多任务识别网络的应用场景,一个深度学习模型处理多项人物也能够节省自动驾驶车辆的硬件内存资源,使得自动驾驶车辆有更多的硬件资源处理其他事件,提升整体的性能。
请结合参看图2,其为本发明实施例提供的步骤S102的子步骤流程图。步骤S102,将多种数据输入对应的数据处理网络得到多个第一样本。具体包括下面步骤。
步骤S1021,将摄像机获取的数据输入第一卷积神经网络得到二维图像样本。具体地,请结合参看图5,第一卷积神经网络1021是一个已经训练好的具有将摄像机1011获取的图片或者视频数据转化为二维图像的卷积神经网络。
步骤S1022,将立体摄像机获取的数据输入第二卷积神经网络得到三维图像样本。具体地,请结合参看图5,第二卷积神经网络1022是一个已经训练好的具有将立体摄像机1012获取的图片或者视频数据转化为三维图像的卷积神经网络。
步骤S1023,将雷达获取的数据输入第三卷积神经网络得到雷达鸟瞰样本。具体地,请结合参看图5,第三卷积神经网络1023是一个已经训练好的具有将雷达1013获取的点云数据转化为鸟瞰样本的卷积神经网络。
步骤S1024,请结合参看图5,将激光雷达获取的数据输入第四卷积神经网络得到激光雷达鸟瞰样本。具体地,第四卷积神经网络1024是一个已经训练好的具有将激光雷达1014获取的点云数据转化为鸟瞰样本的卷积神经网络。
在本实施例中,利用训练好的卷积神经网络对传感器获取的环境数据进行处理,有效的利用了已有的卷积神经网络,提高了卷积神经网络的利用率。
请结合参看图3,其为本发明实施例提供的步骤S104的子步骤流程图。步骤S104,将多种第一样本特征和定位信息输入特征识别网络得到多种第二样本,其中,特征识别网络包括多个识别子神经网络和预测子神经网络。具体包括下面步骤。
步骤S1041,根据定位信息选择对应的识别子神经网络和预测子神经网络。在本实施例中,定位信息由IMU,GPS,LiDar,Camera等安装于车上的定位传感器获取。例如,当自动驾驶车辆根据GPS的定位信息确认车辆正在行驶在常用道路上时,自动驾驶车辆选择负责道路目标识别的识别子神经网络对二维图像样本11、三维图像样本12、雷达鸟瞰样本13和激光雷达鸟瞰样本14中的一种或者多种样本进行处理,因为自动驾驶车辆常用道路的环境在较短的时间内不会发生变化,但是自动驾驶车辆每天在常用道路上遇到的各种车辆都在更新,因此,在自动驾驶车辆经常行驶的路段上仅需要不断识别新的车辆,从而为多任务识别网络提供新的车辆样本。
在本实施例中,根据不同的环境启用不同的识别子神经网络处理信息,简化了计算规则,提高了自动驾驶系统整体的效率。
步骤S1042,将第一样本特征输入识别子神经网络得到目标物体。请结合参看图6,第一样本特征21输入识别子神经网络1031得到目标物体31。
步骤S1043,将第一样本特征和三维高精地图在当前位置的数据输入预测子神经网络得到目标物体在当前位置的运动轨迹。请结合参看图6,将第一样本特征21和三维高精地图22在当前位置的数据输入预测子神经网络1032得到目标物体在当前位置的运动轨迹32。具体地,当自动驾驶车辆根据GPS的定位信息确认车辆正行驶在一条全新的路段上时,自动驾驶车辆选择负责道路目标识别的识别子神经网络和预测子神经网络对二维图像样本11、三维图像样本12、雷达鸟瞰样本13和/或激光雷达鸟瞰样本14进行处理。当自动驾驶车辆行驶的道路是全新的时,自动驾驶车辆不仅需要道路上各种物体的识别结果,也需要对周围的环境进行采样,同时结合三维高精地图提供的环境数据确认当前行驶环境,进而根据当前行驶环境准确的预测周围物体的运动轨迹,因此,自动驾驶车辆在新的道路行驶时,不仅需要不断识别新的车辆还需要根据环境预测出各种车辆的行驶轨迹,从而为多任务识别网络提供新的车辆样本以及行驶轨迹预测样本。
请结合参看图7,其为本发明实施例提供的道路目标及目标行为的预测方法的流程图。其中,本发明实施例提供的道路目标及目标行为的预测方法具体包括下面步骤。
步骤S701,利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达。在本实施例中,在摄像机、立体摄像机、雷达和激光雷达的基础上,还可以添加4D毫米波雷达等传感器。置于车身不同位置的传感器获取不同视角的图像数据或者点云数据,具体地,自动驾驶车辆使用的传感器输入是可选的,自动驾驶车辆选择启用全部传感器来获取数据;自动驾驶车辆也选择传感器中的任何一个或者多个来获取数据。
步骤S702,将多种数据和定位信息输入利用基于端到端的多任务识别网络训练方法得到的目标多任务识别网络中,得到多种数据中目标物体和目标物体的预测运动轨迹。
请结合参看图8,其为本发明实施例提供的多任务识别模型示意图。多任务识别模型包括:第一样本获取模块801,第二样本获取模块802以及多任务识别网络训练模块803。
第一样本获取模块801:利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;将多种数据输入对应的数据处理网络得到多个第一样本,第一样本包括二维图像样本、三维图像样本、雷达鸟瞰样本和/或激光雷达鸟瞰样本。
第二样本获取模块802:将多个第一样本输入特征提取网络得到多种第一样本特征;将多种第一样本特征和定位信息输入特征识别网络得到多种第二样本,第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹。
多任务识别网络训练模块803:利用多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。
上述实施例中提供的多任务识别模型能够快速准确的将自动驾驶车辆行驶中遇到的新场景中的数据转化为训练样本并利用上述训练样本训练出具有识别新场景中目标物体的神经网络,使得自动驾驶车辆能够快速的适应新的驾驶环境,提高自动驾驶车辆的适应新环境的能力。
本发明还提供了一种计算机可读存储介质。计算机可读存储介质上存储有能够被处理器加载并执行的上述的基于端到端的多任务识别网络训练方法的程序指令。具体地,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,该计算机可读存储介质包括若干指令用以使得一台计算机设备,例如,个人计算机,服务器,或者网络设备等,执行本发明各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、流动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质。由于计算机可读存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
本发明还提供一种计算机设备900,计算机设备900至少包括,存储器901和处理器902。存储器901用于存储基于端到端的多任务识别网络训练方法的程序指令。处理器902,用于执行程序指令以使计算机设备实现上述的基于端到端的多任务识别网络训练方法。请结合参看图9,其为本发明第一实施例提供的计算机设备900的内部结构示意图。
其中,存储器901至少包括一种类型的计算机可读存储介质,该计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器901在一些实施例中可以是计算机设备900的内部存储单元,例如计算机设备900的硬盘。存储器901在另一些实施例中也可以是计算机设备900的外部存储设备,例如计算机设备900上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字卡(Secure Digital,SD),闪存卡(Flash Card)等。进一步地,存储器901还可以既包括计算机设备900的内部存储单元也包括外部存储设备。存储器901不仅可以用于存储安装于计算机设备900的应用软件及各类数据,例如基于端到端的多任务识别网络训练方法的程序指令等,还可以用于暂时地存储已经输出或者将要输出的数据,例如基于端到端的多任务识别网络训练方法执行产生的数据等。例如,二维图像样本11、三维图像样本12、雷达鸟瞰样本13和激光雷达鸟瞰样本14等。
处理器902在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器901中存储的程序指令或处理数据。具体地,处理器902执行基于端到端的多任务识别网络训练方法的程序指令以控制计算机设备900实现基于端到端的多任务识别网络训练方法。
进一步地,计算机设备900还可以包括总线903可以是外设部件互连标准总线(peripheral component interconnect,简称PCI)或扩展工业标准结构总线(extendedindustry standard architecture,简称EISA)等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,计算机设备900还可以包括显示组件904。显示组件904可以是LED(Light Emitting Diode,发光二极管)显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示组件904也可以适当的称为显示装置或显示单元,用于显示在计算机设备900中处理的信息以及用于显示可视化的用户界面。
进一步地,计算机设备900还可以包括通信组件905,通信组件905可选的可以包括有线通信组件和/或无线通信组件(如WI-FI通信组件、蓝牙通信组件等),通常用于在计算机设备900与其他计算机设备之间建立通信连接。
图9仅示出了具有组件901-905以及实现基于端到端的多任务识别网络训练方法的程序指令的计算机设备900,本领域技术人员可以理解的是,图9示出的结构并不构成对计算机设备900的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。由于计算机设备900采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的基于端到端的多任务识别网络训练方法实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。
Claims (10)
1.一种基于端到端的多任务识别网络训练方法,其特征在于,所述基于端到端的多任务识别网络训练方法包括:
利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,所述多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;
将所述多种数据输入对应的数据处理网络得到多个第一样本,所述第一样本包括二维图像样本、三维图像样本、雷达鸟瞰样本和/或激光雷达鸟瞰样本;
将所述多个第一样本输入特征提取网络得到多种第一样本特征;
将所述多种第一样本特征和所述定位信息输入特征识别网络得到多种第二样本,所述第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹;以及
利用所述多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。
2.如权利要求1所述的基于端到端的多任务识别网络训练方法,其特征在于,将所述多种数据输入对应的数据处理网络得到多个第一样本,具体包括:
将摄像机获取的数据输入第一卷积神经网络得到二维图像样本;
将立体摄像机获取的数据输入第二卷积神经网络得到三维图像样本;
将雷达获取的数据输入第三卷积神经网络得到雷达鸟瞰样本;以及
将激光雷达获取的数据输入第四卷积神经网络得到激光雷达鸟瞰样本。
3.如权利要求1所述的基于端到端的多任务识别网络训练方法,其特征在于,将所述多种第一样本特征和所述定位信息输入特征识别网络得到多种第二样本,其中,所述特征识别网络包括多个识别子神经网络和预测子神经网络,具体包括:
根据所述定位信息选择对应的所述识别子神经网络和所述预测子神经网络;
将所述第一样本特征输入所述识别子神经网络得到所述目标物体;以及
将所述第一样本特征和所述三维高精地图在当前位置的数据输入所述预测子神经网络得到所述目标物体在当前位置的运动轨迹。
4.如权利要求1所述的基于端到端的多任务识别网络训练方法,其特征在于,所述特征提取网络为Transformer Neural Network。
5.如权利要求1所述的基于端到端的多任务识别网络训练方法,其特征在于,所述特征识别网络为Spacial Recurrent Neural Network。
6.如权利要求1所述的基于端到端的多任务识别网络训练方法,其特征在于,所述初始多任务识别网络为Multilayer Perceptron。
7.一种道路目标及目标行为的预测方法,其特征在于,所述道路目标及目标行为的预测方法包括:
利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,所述多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;以及
将所述多种数据和所述定位信息输入利用如权利要求1~6任意一项所述的基于端到端的多任务识别网络训练方法得到的目标多任务识别网络中,得到多种数据中目标物体和目标物体的预测运动轨迹。
8.一种多任务识别模型,其特征在于,所述多任务识别模型包括:
第一样本获取模块:利用设置于车身不同位置的多种不同的传感器获取多种数据和定位信息,所述多种不同的传感器包括摄像机、立体摄像机、雷达和/或激光雷达;将所述多种数据输入对应的数据处理网络得到多个第一样本,所述第一样本包括二维图像样本、三维图像样本、雷达鸟瞰样本和/或激光雷达鸟瞰样本;
第二样本获取模块:将所述多个第一样本输入特征提取网络得到多种第一样本特征;将所述多种第一样本特征和所述定位信息输入特征识别网络得到多种第二样本,所述第二样本包括多种数据中包含的目标物体和目标物体在当前位置的运动轨迹;
多任务识别网络训练模块:利用所述多种第二样本训练初始多任务识别网络得到具有识别预测功能的目标多任务识别网络。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有能够被处理器加载并执行的如权利要求1~6任意一项所述的基于端到端的多任务识别网络训练方法的程序指令。
10.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储的程序指令;以及
处理器,用于执行所述程序指令以使所述计算机设备实现如权利要求1~6任意一项所述的基于端到端的多任务识别网络训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210423233.7A CN114862907A (zh) | 2022-04-21 | 2022-04-21 | 基于端到端的多任务识别网络训练方法 |
US18/302,815 US20230343083A1 (en) | 2022-04-21 | 2023-04-19 | Training Method for Multi-Task Recognition Network Based on End-To-End, Prediction Method for Road Targets and Target Behaviors, Computer-Readable Storage Media, and Computer Device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210423233.7A CN114862907A (zh) | 2022-04-21 | 2022-04-21 | 基于端到端的多任务识别网络训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114862907A true CN114862907A (zh) | 2022-08-05 |
Family
ID=82632331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210423233.7A Pending CN114862907A (zh) | 2022-04-21 | 2022-04-21 | 基于端到端的多任务识别网络训练方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230343083A1 (zh) |
CN (1) | CN114862907A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024044887A1 (en) * | 2022-08-29 | 2024-03-07 | Huawei Technologies Co., Ltd. | Vision-based perception system |
-
2022
- 2022-04-21 CN CN202210423233.7A patent/CN114862907A/zh active Pending
-
2023
- 2023-04-19 US US18/302,815 patent/US20230343083A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024044887A1 (en) * | 2022-08-29 | 2024-03-07 | Huawei Technologies Co., Ltd. | Vision-based perception system |
Also Published As
Publication number | Publication date |
---|---|
US20230343083A1 (en) | 2023-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7284352B2 (ja) | リアルタイムオブジェクト検出及び語意分割の同時行いシステム及び方法及び非一時的なコンピュータ可読媒体 | |
CN111626208A (zh) | 用于检测小目标的方法和装置 | |
CN112382099B (zh) | 交通路况预测方法、装置、电子设备及存储介质 | |
CN109947989B (zh) | 用于处理视频的方法和装置 | |
CN110751683A (zh) | 轨迹预测方法、装置、可读存储介质及电子设备 | |
US20210103744A1 (en) | Spatio-temporal embeddings | |
JPWO2020095545A1 (ja) | 物体認識システム、認識装置、物体認識方法および物体認識プログラム | |
CN115860102B (zh) | 一种自动驾驶感知模型的预训练方法、装置、设备和介质 | |
CN113283509B (zh) | 一种自动标注标签的方法、电子设备及存储介质 | |
US20230343083A1 (en) | Training Method for Multi-Task Recognition Network Based on End-To-End, Prediction Method for Road Targets and Target Behaviors, Computer-Readable Storage Media, and Computer Device | |
CN114179829A (zh) | 多端协同的车辆行驶方法、装置、系统及介质 | |
CN111382695A (zh) | 用于检测目标的边界点的方法和装置 | |
CN113409393B (zh) | 用于识别交通标志牌的方法及装置 | |
CN111695627A (zh) | 路况检测方法、装置、电子设备及可读存储介质 | |
CN113780480A (zh) | 基于YOLOv5的多目标检测及类别识别模型的构建方法 | |
WO2022104256A1 (en) | Processing sparse top-down input representations of an environment using neural networks | |
CN116343169A (zh) | 路径规划方法、目标对象运动控制方法、装置及电子设备 | |
CN112987707A (zh) | 一种车辆的自动驾驶控制方法及装置 | |
CN113946729B (zh) | 针对车辆的数据处理方法、装置、电子设备和介质 | |
CN115061386A (zh) | 智能驾驶的自动化仿真测试系统及相关设备 | |
CN115861755A (zh) | 特征融合方法、装置、电子设备及自动驾驶车辆 | |
CN111488928B (zh) | 用于获取样本的方法及装置 | |
CN116704593A (zh) | 预测模型训练方法、装置、电子设备和计算机可读介质 | |
CN113962383A (zh) | 模型的训练方法、目标跟踪方法、装置、设备和存储介质 | |
CN113963322B (zh) | 一种检测模型训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |