CN116883961A - 一种目标感知方法以及装置 - Google Patents
一种目标感知方法以及装置 Download PDFInfo
- Publication number
- CN116883961A CN116883961A CN202310629088.2A CN202310629088A CN116883961A CN 116883961 A CN116883961 A CN 116883961A CN 202310629088 A CN202310629088 A CN 202310629088A CN 116883961 A CN116883961 A CN 116883961A
- Authority
- CN
- China
- Prior art keywords
- target
- static
- dynamic
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 230000008447 perception Effects 0.000 title claims abstract description 49
- 230000003068 static effect Effects 0.000 claims abstract description 248
- 230000004927 fusion Effects 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 53
- 230000011218 segmentation Effects 0.000 claims description 48
- 230000015654 memory Effects 0.000 claims description 41
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 32
- 238000012549 training Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 27
- 239000013598 vector Substances 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 19
- 238000001514 detection method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 230000001537 neural effect Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 10
- 230000004913 activation Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种目标感知方法以及装置,用于在数据稀疏的情况下,充分挖掘各个目标的特征,更准确地感知静态目标以及静态目标的信息,提高目标感知准确性。该方法包括:获取图像特征;根据该图像特征迭代获取输入图像中表示的动态目标特征以及静态目标特征;根据动态目标的特征以及静态目标的特征感知获取动态目标的信息以及静态目标的信息;其中,任意一次迭代过程可以包括:获取位置信息,该位置信息包括表示静态目标和静态目标的位置的信息,随后根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,并根据融合结果以及位置信息从图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
Description
技术领域
本申请涉及车领域,尤其涉及一种目标感知方法以及装置。
背景技术
基于纯视觉的自动驾驶感知越来越受关注,相比激光点云,相机拍摄到的图像可以提供更远的3D检测能力,更丰富的视觉语义信息,以及更低的部署成本。但是通常相机拍摄得到的图像缺少深度信息,使得基于纯视觉的3D感知难度较大。如何以可接受的计算量,利用多任务信息来提升纯视觉3D感知性能是领域内的一大难题。
例如,以自动驾驶为例,在自动驾驶过程中,通常需要进行3D动态目标检测和鸟瞰图(Bird’s-eye View,BEV)静态道路结构认知。通常,可以通过设置的骨干网络从输入图像中提取深度特征,并将提取到的深度特征转换至BEV空间中,基于BEV特征进行后续的目标检测或者分割任务。然而,可能出现不能对特征进行充分挖掘的问题。因此,如何实现对特征包括的信息进行充分挖掘,成为亟待解决的问题。
发明内容
本申请提供一种目标感知方法以及装置,用于在数据稀疏的情况下,充分挖掘各个目标的特征,更准确地感知静态目标以及静态目标的信息,提高目标感知准确性。
有鉴于此,第一方面,本申请提供一种目标感知方法,包括:首先,获取图像特征,该图像特征可以包括从输入图像中提取得到的特征;随后,根据该图像特征迭代获取输入图像中表示的动态目标特征以及静态目标特征,输入图像中的对象包括动态目标和静态目标,动态目标特征即提取到的动态目标的特征,静态目标特征即提取到的静态目标的特征,其中,动态目标的移动速度大于静态目标的移动速度;随后,根据动态目标的特征以及静态目标的特征感知获取动态目标的信息以及静态目标的信息;
其中,前述的迭代过程中的任意一次迭代过程可以包括:首先,获取位置信息,该位置信息包括表示静态目标的位置的信息,以及表示动态目标的位置的信息,随后根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,并根据融合结果以及位置信息从图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
因此,本申请实施方式中,可以迭代在进行目标感知的迭代过程中,可以融合动态目标特征和静态目标特征,从而可以实现动态目标和静态目标之间的上下文信息融合,得到可以更准确表示动态目标和静态目标的相对位置的信息,可以充分挖掘各个目标的特征,并基于融合结果从图像特征中进行采样,从而可以更准确地从图像特征中采集到动态目标特征以及静态目标特征,从而可以提高迭代收敛效率,提高目标感知的准确度以及感知效率。
在一种可能的实施方式中,前述的获取位置信息,可以包括:根据上一次迭代输出的动态目标特征和静态目标特征来获取位置信息。因此,本申请实施方式中,在每次迭代过程中,可以结合上一次迭代得到的特征来得到位置信息,从而实现层层迭代。
在一种可能的实施方式中,前述的位置信息可以包括动态目标在3D空间中的位置以及在图像特征中的位置,和静态目标在3D空间中的位置以及在图像特征中的位置,前述的根据上一次迭代输出的动态目标特征和静态目标特征获取位置信息,可以包括:对上一次迭代输出的动态目标特征进行解码,得到动态目标在3D空间的位置以及动态目标在图像特征中的位置,该3D空间可以理解为表示动态目标和静态目标所在场景的空间或者按一定比例缩放的空间等;随后根据静态目标特征对上一次迭代输出的静态目标在3D空间中的位置进行调整,得到当前次迭代输出的静态目标3D空间中的位置;并根据当前次迭代输出的静态目标在3D空间中的位置得到静态目标在图像特征中的位置。
本申请实施方式中,可以在解码得到动静态的3D空间位置后,可以对静态目标的3D空间位置进行精修,从而使得到的静态目标3D空间位置更准确。
在一种可能的实施方式中,前述的方法还可以包括:对当前次迭代的位置信息进行编码,得到更新后的当前次迭代的位置信息。因此,本申请实施方式中,可以对位置信息进行再次编码,相当于对位置信息进行更新,从而提高动静态目标的位置准确性。
在一种可能的实施方式中,前述的根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,可以包括:基于注意力机制根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果。因此,本申请实施方式中,可以基于注意力机制进行融合,从而可以结合上下文语义进行融合,使得到的融合结果可以更准确地描述动静态目标,提高后续的感知准确性。
在一种可能的实施方式中,前述的获取图像特征,包括:获取输入图像,输入图像包括单目相机拍摄的图像或者多目相机拍摄到的一帧或多帧图像;通过特征提取网络从输入图像中提取特征,得到图像特征。本申请实施方式中,输入图像可以是单目图像或者多目图像,因此本申请提供的方法可以应用于单目摄像或者多目摄像的场景。
在一种可能的实施方式中,前述的方法还包括:根据图像特征进行分割,得到输入图像中的至少一个对象的信息。本申请实施方式中,还可以基于提取到的图像特征进行分割,可以适用于需进行分割任务的场景。
在一种可能的实施方式中,前述的至少一个对象的信息用于在从图像特征中采样动态目标特征以及静态目标特征时作为约束。本申请实施方式中,在进行目标感知的过程中,可以基于分割结果形成约束,从而使从图像特征中提取动静态目标特征时可以提取到更准确的动静态目标的特征。
在一种可能的实施方式中,前述的根据动态目标的特征以及静态目标的特征获取动态目标的信息以及静态目标的信息,可以包括:根据动态目标的特征获取动态目标的标记框,以及根据静态目标的特征获取静态目标的分割结果以及高度信息。本申请实施方式中,针对动态目标可以标记出动态目标所在的位置,而针对静态目标可以分割出静态目标并识别静态目标的高度信息,从而实现动静态目标的感知。
在一种可能的实施方式中,输入图像可以包括车辆行驶过程中拍摄设备拍摄到的图像,动态目标的信息以及静态目标的信息应用于车辆的自动驾驶或者辅助驾驶。因此,本申请提供的方法可以应用于车辆的自动驾驶或者辅助驾驶,通过更准确的目标感知,提高车辆的驾驶安全性。
第二方面,本申请提供一种目标感知装置,包括:
特征提取模块,用于获取图像特征,图像特征包括从输入图像中提取得到的特征;
获取模块,用于根据图像特征迭代获取输入图像中动态目标的特征以及静态目标的特征,输入图像中的对象包括动态目标和静态目标,动态目标的移动速度大于静态目标的移动速度;
感知模块,用于根据动态目标的特征以及静态目标的特征获取动态目标的信息以及静态目标的信息;
其中,获取模块执行的任意一次迭代过程包括:获取位置信息,位置信息包括表示静态目标的位置的信息,以及表示动态目标的位置的信息,根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,根据融合结果以及位置信息从图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
其中,第二方面以及第二方面任一可选实施方式所实现的效果可以参阅前述第一方面或第一方面任一可选实施方式的描述,此处不再赘述。
在一种可能的实施方式中,获取模块具体用于:根据上一次迭代输出的动态目标特征和静态目标特征获取位置信息。
在一种可能的实施方式中,位置信息包括动态目标在3D空间中的位置以及在图像特征中的位置,和静态目标在3D空间中的位置以及在图像特征中的位置,获取模块具体用于:对上一次迭代输出的动态目标特征进行解码,得到动态目标在3D空间的位置以及动态目标在图像特征中的位置;根据静态目标特征对上一次迭代输出的静态目标在3D空间中的位置进行调整,得到当前次迭代输出的静态目标3D空间中的位置;根据当前次迭代输出的静态目标在3D空间中的位置得到静态目标在图像特征中的位置。
在一种可能的实施方式中,该装置还包括:位置编码模块,用于对当前次迭代的位置信息进行编码,得到更新后的当前次迭代的位置信息。
在一种可能的实施方式中,获取模块具体用于基于注意力机制根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果。
在一种可能的实施方式中,特征提取模块,具体用于:获取输入图像,输入图像包括单目相机拍摄的图像或者多目相机拍摄到的一帧或多帧图像;通过特征提取网络从输入图像中提取特征,得到图像特征。
在一种可能的实施方式中,装置还包括:分割模块,用于根据图像特征进行分割,得到输入图像中的至少一个对象的信息。
在一种可能的实施方式中,至少一个对象的信息用于在从图像特征中采样动态目标特征以及静态目标特征时作为约束。
在一种可能的实施方式中,感知模块,具体用于根据动态目标的特征获取动态目标的标记框,以及根据静态目标的特征获取静态目标的分割结果以及高度信息。
在一种可能的实施方式中,输入图像包括车辆行驶过程中拍摄设备拍摄到的图像,动态目标的信息以及静态目标的信息应用于车辆的自动驾驶或者辅助驾驶。
第三方面,本申请实施例提供一种目标感知装置,包括:处理器和存储器,其中,处理器和存储器通过线路互联,处理器调用存储器中的程序代码用于执行上述第一方面任一项所示的目标感知方法中与处理相关的功能。可选地,该目标感知装置可以是芯片。
第四方面,本申请实施例提供了一种目标感知装置,该目标感知装置也可以称为数字处理芯片或者芯片,芯片包括处理单元和通信接口,处理单元通过通信接口获取程序指令,程序指令被处理单元执行,处理单元用于执行如上述第一方面或第一方面任一可选实施方式中与处理相关的功能。
第五方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面中任一可选实施方式中的方法。
第六方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面中任一可选实施方式中的方法。
附图说明
图1为本申请应用的一种人工智能主体框架示意图;
图2为本申请提供的一种系统架构示意图;
图3为本申请提供的另一种系统架构示意图;
图4为本申请提供的一种应用架构示意图;
图5为本申请提供的一种目标感知方法的流程示意图;
图6为本申请提供的另一种目标感知方法的流程示意图;
图7为本申请提供的一种动态queries和静态queries的实例示意图;
图8为本申请提供的一种3D至2D可变形注意力模块执行的步骤示意图;
图9为本申请提供的一种位置调整模块和动静融合注意力模块执行的步骤示意图;
图10为本申请提供的一种目标感知方法的输出结果示意图;
图11为本申请提供的另一种目标感知方法的输出结果示意图;
图12为本申请提供的另一种目标感知方法的输出结果示意图;
图13为本申请提供的一种目标感知装置的结构示意图;
图14为本申请提供的另一种目标感知装置的结构示意图;
图15为本申请提供的一种芯片的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对人工智能系统总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片,如中央处理器(centralprocessing unit,CPU)、网络处理器(neural-network processing unit,NPU)、图形处理器(英语:graphics processing unit,GPU)、专用集成电路(application specificintegrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array,FPGA)等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、平安城市等。
本申请实施例涉及了大量神经网络以及针对图像的处理过程的相关应用,为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的神经网络和图像的相关术语和概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以如公式(1-1)所示:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有多层中间层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,中间层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是中间层,或者称为隐层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
虽然DNN看起来很复杂,其每一层可以表示为线性关系表达式:其中,/>是输入向量,/>是输出向量,/>是偏移向量或者称为偏置参数,w是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量/>经过如此简单的操作得到输出向量/>由于DNN层数多,系数W和偏移向量/>的数量也比较多。这些参数在DNN中的定义如下所述:以系数w为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。
综上,第L-1层的第k个神经元到第L层的第j个神经元的系数定义为
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的中间层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(3)卷积神经网络
卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器,该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
(4)自注意力模型(self-attention model)
是指将一个序列数据(如自然语料“你的手机很不错。”)有效编码成为若干多维的向量,方便进行数值运算,该多维向量融合了序列中每个元素的相互之间的相似度信息,该相似度被称为自注意力。自注意力模型可以理解为一个查询(query)到一系列值(即键key-值value)对的映射,本申请以下提及的动态目标特征以及静态目标特征,即可理解为输入至模型的query。
(5)多头注意力机制(Multi-headed Self-attention)
当给定相同的查询、键和值的集合时,期望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,例如捕获序列内各种范围的依赖关系(例如,短距离依赖和长距离依赖)。因此,注意力机制组合使用查询、键和值的不同的子空间表示(representation subspaces)。与自注意力模型相比,多头注意力模型增加了head数量,Query,Key,Value首先进过一个线性变换,然后输入到放缩点积attention,重复h次,也就是多头,每一次算一个头,头之间参数不共享,每次Q,K,V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果。
(6)Embedding:指样本的特征表示。
(7)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(8)反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
(9)掩膜(mask)
掩膜可以理解为与图像类似的数据,本申请实施方式中,可以通过在融合图像与掩膜,从而使图像中的部分内容的关注度更高。通常,掩膜可以用于提取感兴趣区,例如用预先制作的感兴趣区掩模与待处理图像融合,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0。还可以起屏蔽作用,用掩模对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计等。
本申请实施例提供的方法可以在服务器上被执行,还可以在终端设备上被执行。其中该终端设备可以是具有图像处理功能的移动电话、平板个人电脑(tablet personalcomputer,TPC)、媒体播放器、智能电视、笔记本电脑(laptop computer,LC)、个人数字助理(personal digital assistant,PDA)、个人计算机(personal computer,PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device,WD)或者自动驾驶的车辆等,本申请实施例对此不作限定。
下面介绍本申请实施例提供的系统架构。
参见图2,本申请实施例提供了一种系统架构200。如系统架构200所示,数据采集设备260可以用于采集训练数据。在数据采集设备260采集到训练数据之后,将这些训练数据存入数据库230,训练设备220基于数据库230中维护的训练数据训练得到目标模型/规则201,目标模型/规则201即本申请提供的目标感知模型。
下面对训练设备220基于训练数据得到目标模型/规则201进行描述。示例性地,训练设备220对多帧样本图像进行处输出对应的预测标签,并计算预测标签和样本的原始标签之间的损失,基于该损失对分类网络进行更新,直到预测标签接近样本的原始标签或者预测标签和原始标签之间的差异小于阈值,从而完成目标模型/规则201的训练。
本申请实施例中的目标模型/规则201具体可以为神经网络,如本申请实施例中提及的用于进行目标感知的神经网络。需要说明的是,在实际的应用中,数据库230中维护的训练数据不一定都来自于数据采集设备260的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备220也不一定完全基于数据库230维护的训练数据进行目标模型/规则201的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备220训练得到的目标模型/规则201可以应用于不同的系统或设备中,如应用于图2所示的执行设备210,所述执行设备210可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR),车载终端,电视等,还可以是服务器或者云端等。在图2中,执行设备210配置有收发器212,该收发器可以包括输入/输出(input/output,I/O)接口或者其他无线或者有线的通信接口等,用于与外部设备进行数据交互,以I/O接口为例,用户可以通过客户设备240向I/O接口输入数据。
在执行设备210对输入数据进行预处理,或者在执行设备210的计算模块212执行计算等相关的处理过程中,执行设备210可以调用数据存储系统250中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统250中。
最后,I/O接口212将处理结果返回给客户设备240,从而提供给用户。
值得说明的是,训练设备220可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则201,该相应的目标模型/规则201即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在附图2中所示情况下,用户可以手动给定输入数据,该手动给定可以通过收发器212提供的界面进行操作。另一种情况下,客户设备240可以自动地向收发器212发送输入数据,如果要求客户设备240自动发送输入数据需要获得用户的授权,则用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端,采集如图所示输入收发器212的输入数据及输出收发器212的输出结果作为新的样本数据,并存入数据库230。当然,也可以不经过客户设备240进行采集,而是由收发器212直接将如图所示输入收发器212的输入数据及输出收发器212的输出结果,作为新的样本数据存入数据库230。
值得注意的是,附图2仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图2中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中。
如图2所示,根据训练设备220训练得到目标模型/规则201,该目标模型/规则201在本申请实施例中可以是本申请中的推荐模型。
示例性地,本申请提供的方法应用的系统架构可以如图3所示。在该系统架构300中,服务器集群310由一个或多个服务器实现。服务器集群310可以使用数据存储系统250中的数据,或者调用数据存储系统250中的程序代码实现本申请提供的方法的步骤。
用户可以操作各自的用户设备(例如终端301)与服务器集群310进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与服务器集群310进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。具体地,该通信网络可以包括无线网络、有线网络或者无线网络与有线网络的组合等。该无线网络包括但不限于:第五代移动通信技术(5th-Generation,5G)系统,长期演进(long termevolution,LTE)系统、全球移动通信系统(global system for mobile communication,GSM)或码分多址(code division multiple access,CDMA)网络、宽带码分多址(widebandcode division multiple access,WCDMA)网络、无线保真(wireless fidelity,WiFi)、蓝牙(bluetooth)、紫蜂协议(Zigbee)、射频识别技术(radio frequency identification,RFID)、远程(Long Range,Lora)无线通信、近距离无线通信(near field communication,NFC)中的任意一种或多种的组合。该有线网络可以包括光纤通信网络或同轴电缆组成的网络等。
在另一种实现中,执行设备210的一个方面或多个方面可以由每个本地设备实现,例如,终端301可以为执行设备210提供本地数据或反馈计算结果。
需要注意的,执行设备210的所有功能也可以由本地设备实现。例如,终端301实现执行设备210的功能并为自己的用户提供服务,或者为终端301的用户提供服务。
本申请提供的方法可以应用于多种需进行目标感知的场景。例如,本申请提供的方法可以应用于自动驾驶、辅助驾驶或者机器人等。下面示例性地,对一些应用场景进行介绍。
场景一、自动驾驶
本申请提供的方法可以应用于车辆的感知模块,如从采集到的感知数据中识别动态目标或者静态目标。
例如,自动驾驶的流程可以如图4所示,在感知数据部分,具体可以包括摄像机、激光、激光雷达等多种设备对行驶路面数据的采集。其中,在通过激光扫描进行数据采集时,激光通常会以10FPS频率或者其他频率采集外部环境返回信息。在通过摄像机采集数据时,相机通常会以25或者30PFS等速率收集外部场景信息。且车辆中可以设置单目相机或者多目相机,多目相机即从不同角度拍摄图像的相机,或者可以理解为多个拍摄不同角度的相机组成的相机。
随后进行目标检测,感知数据中的目标具体可以分为动态目标和静态目标,如通过车辆中设置的摄像头采集到的图像中,如动态目标可以包括行人、车辆等具有一定移速的对象,静态目标即可包括交通指示牌、车道线或者可行驶区域(Freespace)等固定的对象。
目标跟踪而且可以平滑检测结果,同时也可以用来测速,可以预测目标的运动轨迹。目标跟踪是感知模块非常重要的一部分,无论是视觉感知还是激光感知都离不开目标跟踪。
各传感器在感知方面有着不同的优势,多传感其融合使各个传感器都发挥其作用,达到融合的结果优于任意单个传感器结果的目的。
在规控模块,通过多传感器融合输出的障碍物综合信息,做出合理的路径规划与自车行驶状态控制。此模块决策自车的形式路径,通常可以理解为无人驾驶车的控制中心。
本申请提供的方法可以应用于自动驾驶中的动态目标检测与静态道路分割。通过动静态任务特征融合,提升多任务之间的信息互补,达到提高感知精度目标。
场景二、辅助驾驶
与自动驾驶场景类似,本申请提供的方法也可以应用于车辆的感知模块中。区别在于,车辆可以由用户操控,通过本申请提供的方法对车辆附近的动态目标以及静态目标进行实时监测。可以在用户操控车辆时调整车辆的行驶方向或者进行避障等,或者在车辆的显示屏中显示车辆的周围环境,并标记动态目标或者静态目标的信息,从而使用户可以更精准地获知车辆周围环境,提高用户的行车安全性。
场景三、机器人
本申请提供的方法可以应用于智能机器人中。该智能机器人中可以设置激光雷达或者图像传感器,实时采集监测范围内的数据,并对采集到的数据中的对象进行识别并跟踪。例如,智能机器人中可以设置图像传感器,对图像传感器实时采集到的图像进行识别,检测出其中的对象并进行跟踪,智能机器人即可基于跟踪对象进行跟踪的操作,如调整智能机器人的朝向或者行进方向等。
以自动驾驶为例,通常自动驾驶感知可以包括3D动态目标检测以及BEV静态道路结构认知等重要任务。通常,可以通过设置的骨干网络从输入图像中提取深度特征,并将提取到的深度特征转换至BEV空间中,基于BEV特征进行后续的目标检测或者分割任务。然而,可能出现不能对特征进行充分挖掘的问题。
例如,在一些场景中,可以通过共享一个骨干网络进行多视角图片特征提取,然后通过一个视角转换模块将2D图像特征转换到BEV空间,最后将BEV特征送到多个并行的任务头进行多任务预测,达到共享计算量并能输出多任务结果目的。然而,对于各个特征的挖掘不充分,对于最终输出结果的精度具有一定局限。
又例如,在一些场景中,可以通过一个骨干网络提取多目图像的深度特征,通过一个深度估计网络来预测2D图像深度,并通过相机内外参将2D的图像特征投影至3D空间生成3D伪点云,最后再将3D伪点云拍成2D的BEV特征。在BEV特征后接3D检测head或BEV分割head进行3D检测或BEV分割。然而,同样地,对于各个特征的挖掘不充分,对于最终输出结果的精度具有一定局限。且当Transformer的query数量多是,计算复杂度平方增长,耗计算资源。
因此,本申请提供一种目标感知方法,可以基于稀疏query的3D动静态上下文信息融合的多任务方法,用相对少量的特征对3D空间中的动静态元素进行表达,并预测其3D空间位置,通过位置编码及注意力机制进行3D信息融合,从而提升纯视觉3D多任务感知性能。
下面对本申请提供的方法进行介绍。
参阅图5,本申请提供的一种目标感知方法的流程示意图,如下所述。
501、获取图像特征。
该图像特征可以包括从输入图像中提取到的特征。该输入图像可以包括单目相机拍摄到的一帧或者多帧图像,也可以包括多目相机拍摄到的一帧或者多帧图像。例如,可以在车辆中设置多目相机,在车辆行驶的过程中拍摄车辆所处的环境,从而得到多个视角下的图像。
本申请示例性地,以输入图像为多目相机拍摄到的图像为例进行示例性介绍,以下所提及的输入图像可以是单目相机拍摄到的图像,也可以是多目相机拍摄到的图像,以下不再赘述。
具体地,可以通过特征提取网络来从输入图像中提取特征,该特征提取网络具体可以包括前述的DNN或者CNN等结构的网络,也可以包括构建的网络。例如,可以采用主干网络(back bone)作为特征提取网络,从输入图像中提取特征,得到图像特征。
502、根据图像特征迭代获取输入图像中动态目标的特征以及静态目标的特征。
通常,可以将图像中的目标分为静态目标以及动态目标等,动态目标可以包括拍摄场景中速度不为0的对象,即运动的对象,静态目标即场景中静止的对象或者运动速度小于一定值的对象,动态目标的运动速度大于静态目标的运动速度。
在得到图像特征后,即可根据图像特征迭代获取输入图像中动态目标的特征以及静态目标的特征。
其中,在任意一次迭代过程中,首先可以获取位置信息,该位置信息可以包括静态目标在图像特征中的位置以及动态目标在图像特征中的位置,根据位置信息对上一次迭代得到的动态目标特征和静态目标二组进行融合,得到融合结果,根据融合结果以及位置信息从图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
在满足收敛条件后即可输出最终的动态目标的特征以及静态目标特征。该收敛条件具体可以包括收敛次数达到预设次数、相邻迭代之间输出的特征的差值小于预设差值或者迭代时长达到预设时长等,具体可以根据实际应用场景确定。
具体地,在获取位置信息时,可以对动态目标特征和静态目标特征进行解码,得到动态目标在3D空间中的位置以及静态目标在3D空间中的位置,该3D空间可以理解为表示动态目标和静态目标在实际应用场景中对应的空间或者按照一定比例缩放的空间等。并使用动态目标特征和静态目标特征对上一次迭代输出的动态目标的3D空间位置和静态目标的3D空间位置进行调整,得到当前次迭代动态目标在3D空间中的位置以及静态目标在3D空间中的位置,随后投影到图像特征空间中进行图像特征采样。
通常,若当前次迭代为第一次迭代,则可以对初始的动态目标特征和静态目标特征进行空间位置解码,得到动态目标和静态目标在3D空间中的先验位置,并投影至图像特征空间进行特征采样,得到图像特征用于结果预测。若当前次迭代为非第一次迭代,则可以对上一次迭代输出的动静态目标进行位置精修,得到更准确的空间位置并基于更准确的空间位置提取到更准确的图像特征。
此外,为了进一步提高动态目标和静态目标的位置准确性,还可以对位置信息进行编码,从而得到更新后的位置信息。因此,本申请实施方式中,在每次迭代中可以对动态目标以及静态目标的位置进行编码,从而提高动态目标和静态目标的位置准确性。
此外,可选地,在融合动态目标特征和静态目标特征的过程中,可以基于注意力机制进行融合。具体可以自己与注意力机制根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果。因此,本申请实施方式中,可以基于注意力机制对动态目标特征和静态目标特征进行融合,从而可以基于动态目标和静态目标的上下文语义进行融合,得到的融合结果可以更准确地表示输入图像中的目标的特征。
在一种可能的实施方式中,还可以根据图像特征进行分割任务,如进行全景分割或者实例分割等,从而得到输入图像中的至少一个对象的信息。因此,本申请实施方式中,还可以基于图像特征进行分割任务,从而可以适应需进行分割任务的场景。
可选地,若基于图像特征进行了分割任务,则在任意一次迭代过程中从图像特征中进行采样的过程中,可以使用分割得到的至少一个对象的信息作为约束从图像特征中采样动态目标特征以及静态目标特征,从而使采集到的特征可以更准确地表示动态目标以及静态目标,减少采集到的噪声。
503、输出动态目标的信息以及静态目标的信息。
在采集动态目标特征以及静态目标特征后,可以基于动态目标特征以及静态目标特征进行识别,从而输出动态目标的信息以及动态目标的信息。
具体地,动态目标的信息可以包括但不限于动态目标在输入图像中对应的标记框、动态目标的运动速度或者运动方向等信息。静态目标的信息可以包括静态目标在输入图像中的高度、分割结果或者形状等信息。
因此,本申请实施方式中,在进行目标感知的迭代过程中,可以融合动态目标特征和静态目标特征,从而可以实现动态目标和静态目标之间的上下文信息融合,得到可以更准确表示动态目标和静态目标的相对位置的信息,并基于融合结果从图像特征中进行采样,从而可以更准确地从图像特征中采集到动态目标特征以及静态目标特征,从而可以提高迭代收敛效率,提高目标感知的准确度以及感知效率。
前述对本申请提供的方法流程进行了介绍,下面结合具体的应用场景,如以设置在车辆的多目相机拍摄到的图像为例,对本申请提供的方法流程进行更详细地介绍。
参阅图6,本申请提供的另一种目标感知方法的流程示意图。
其中,本申请提供的目标感知方法可以分为多个部分,具体可以通过目标感知模型中多个模块来执行。如图6中所示出的可以分为特征提取、全景分割以及目标感知等部分,下面分别对各个部分进行介绍。
一、特征提取
以车载多目相机采集到的图像为例,如图6中所示出的,在车辆设置多目相机,如可以在车辆的不同位置设置图像传感器或者在车辆的同一位置设置不同视角的图像传感器等形成多目相机,从而采集到车辆所在环境的一帧或者多帧图像。将采集到的一帧或者多帧图像作为骨干网络的输入,输出从输入图像中提取到的特征,即图像特征。
其中,骨干网络可以用于从一种或者多种尺度对输入的图像进行特征提取,本申请示例性地,以提取多种尺度的特征为例进行示例性介绍,以下所提及的多尺度特征也可以替换为一种尺度的特征,以下不再赘述。
例如,设某个时间刻,获取K个相机,即多目相机的不同视角下采集到的RGB图像,表示为I={im1,...,imK}∈R3×H×W,将K张图片输入到带金字塔结构的骨干网络,提取金字塔图像特征其中,s∈{8,16,32,64}表示提取特征时针对图像进行下采样的倍数。
可以理解为,通过特征提取网络从输入图像中提取到的特征为不同尺度的图像特征,为了后续的目标检测或者其他任务等,可以通过后续的目标感知模块从图像特征中提取特征序列,得到动态目标或者静态目标对应的3D空间中的特征。
二、全景分割
具体地,此处的全景分割也可以替换为实例分割或者背景分割等,本申请示例性地以进行全景分割为例进行示例性介绍。
可以通过全景分割网络来进行分割,将图像特征作为全景分割网络的输入,对K个视角的图片进行全景分割M=σ(P*F)。其中F表示图像特征,P表示用于分割的核,M表示分割的掩码,σ表示softmax激活函数。
具体地,全景分割的结果可以用于辅助进行目标感知,也可以应用于车辆的其他功能中,本申请对此不作限定。
三、目标感知
其中,可以通过多次迭代进行目标感知,每次迭代可以分为多个部分。下面示例性地,以初始阶段以及迭代阶段进行示例性介绍。
1、初始阶段
其中,每次迭代可以分为多个模块执行的步骤,如初始阶段可以分为初始位置解码模块、动静注意力融合模块以及3D至2D可变形注意力模块等,下面分别进行介绍。
(1)初始位置解码模块
针对动态目标检测任务和静态道路结构分割任务分别初始化一组可学习的queries,即动态queries和静态queries,及其对应的位置表征,可以通过解码器分别对动态queries和静态queries进行3D空间位置初始化解码。
其中动态位置表征可以通过一层FC层对动态queries进行(x,y,z)3D空间位置解码,静态queries对应的3D空间位置中的(x,y)则是通过网格化固定初始化,静态queries对应的z轴可以通过一个FC层进行解码,可以表示静态道路路面高度估计。例如,动态queries和静态queries的实例可以如图7所示。
(2)动静注意力融合模块
具体地,可以基于注意力机制对动态queries和静态queries进行融合。在得到动静态queries及其对应的3D空间中的位置表征/>通过注意力模块对3D空间中的动静态元素进行融合Ql=MHA(Ql,PEl)。
本申请实施方式中,动态目标和静态目标通过分离的Query表示,并将其特征从2D图像转到3D空间进行表示,并对动静态Query的3D空间位置进行编码,通过注意力机制对动静态元素进行3D空间上下文信息的融合,从而可以强化动静态特征,从而提高感知性能。基于注意力机制对动静态元素进行融合,可以提高任务queries的特征表达,从而提高对应任务的性能。
(3)3D至2D可变形注意力模块
在确定动态queries和静态queries对应的位置后,可以基于动态目标的位置和静态目标的位置和可变形采样方法从图像特征中进行采样,采集动态目标的特征以及静态目标的特征,因此可以实现高效鲁棒的可变形采样方式,提升3D稀疏采样的鲁棒性。随后可以基于注意力机制,对采样的特征与动态queries和静态queries进行融合,还可以融合动态queries和静态queries对应的位置表征,得到更新后的动态queries和静态queries。
例如,如图8所示,如动态目标和静态目标的3D位置表示为R,通过相机矩阵Tk将其投影至像素坐标系(u,v)k=TkR,其中k表示编号为k的相机。再通过学习一组可变形的偏移量对所投影的query进行特征采样,如表示为:
此外,还可以基于输出的动态queries和静态queries识别动态目标的信息和静态目标的信息。如可以识别动态目标对应的标记框或者静态目标的几何形状或者在场景中的高度等。如可以基于动态queries和静态queries进行3D目标检测,通过静态queries重组成BEV特征图,并在BEV特征上进行BEV道路分割预测和BEV道路高度预测,输出道路分割的掩码以及道路几何形状等。通过动态queries识别动态目标对应的3D Boxes。
此外,在从图像特征中进行采样时,还可以结合全景分割的结果,来从图像特征中采集动态目标以及静态目标对应的特征。如可以将全景分割得到的各个目标对应的区域作为约束,从动态目标对应的区域中采集动态目标的特征,从静态目标对应的区域中采集静态目标的特征等,从而可以使采集到的特征更精确。可以强化细粒度图像特征的学习,提高环视稀疏采样的鲁棒性,提升3D感知性能。
2、迭代阶段
其中,迭代阶段的过程与初始阶段类似,具体可以包括调整3D位置模块、位置编码模块、动静融合注意力模块以及3D至2D可变形注意力模块,下面分别进行介绍。
(1)3D位置调整模块
上一层输出的动态queries和静态queries,可以作为下一层Transformer的输入。
在上一层中,可以输出动态目标和静态目标分别对应的3D位置,在后续迭代过程中,即可获取上一次迭代输出的动态queries和静态queries,解码得到动态目标和静态目标分别对应的3D位置。
为了提高动静态目标的位置准确性,可以对动静态目标的位置进行调整。如可以将动态queries作为FC的输入,来调整动态目标的3D位置。
(2)位置编码模块
具体可以通过训练后的编码模块对调整后的3D位置进行编码,使得新的位置表征(positional embedding,PE)对空间的描述更为精准;避免旧的位置表征和调整后的3D位置不一致性问题:
Rl=Rl-1+ARl
位置表征表示为:
其中表示FC层。
本申请中,通过迭代过程中动态位置编码的方式,提高动静态元素在3D空间中位置编码的精度,并且提高调整后的queries的3D位置和3D编码的一致性,从而提高动静态元素对3D位置的预测精度及基于注意力机制融合的准确性。
(3)动静融合注意力模块
与初始迭代过程中的动静融合过程类似。对编码后的位置表征进行动静态3D上下文信息融合。
例如,位置调整模块和动静融合注意力模块执行的步骤可以如图9所示,动态queries和静态queries可以表示为:其对应的3D空间中的位置表征表示为:通过注意力机制对3D空间中的动静态元素进行融合Ql=MHA(Ql,PEl)。
(4)3D至2D可变形注意力模块
其中,迭代阶段3D至2D可变形注意力模块执行的步骤与初始阶段3D至2D可变形注意力模块执行的步骤类似,此处不再赘述。
迭代阶段可以执行多次迭代,具体的迭代次数可以根据实际应用场景确定,本申请对此不作限定。
因此,本申请实施方式中,在进行目标感知的迭代过程中,基于注意力机制对动态目标特征与静态目标特征进行融合,从而可以实现结合动态目标特征与静态目标特征之间的上下文语义进行融合,从而强化动态目标和静态目标的特征,提高动态目标特征和静态目标特征的特征表达能力,从而提高感知能力。在每次迭代过程中,都可以对动态目标和静态目标的3D位置进行编码,可以提高动态目标和静态目标在3D空间中位置编码的精度,并且提高调整后的特征序列的3D位置和3D编码的一致性,从而提高动静态元素对3D位置的预测精度及基于注意力机制融合的准确性。且可以基于图像全景分割增强多目稀疏3D检测和道路结构认知的网络框架,强化细粒度图像特征的学习,提高环视稀疏采样的鲁棒性,提升3D感知性能。
为了进一步对本申请提供的方法实现的效果进行介绍,下面结合具体的应用场景以及常用的目标感知方式,对本申请提供的方法所实现的感知效果进行介绍。
本申请提供的方法可以基于DETR3D作为基线,相比基线,在已有的数据集上进行验证。表1基于和表2是基于不同数据集的验证效果,较基线有明显提升,表3是基于数据集验证道路结构分割及道路高度估计结果,显然本申请可以实现更好的道路检测效果。
表1
表2
感知方式 | 可行驶区域 | 车道边界 | 几何估计 |
PON[21] | 60.40 | - | - |
CNN[4] | 68.96 | 16.51 | - |
OFT[41],[16] | 71.69 | 18.07 | - |
Lift-Splat[4] | 72.94 | 19.96 | - |
DI3D(本申请) | 78.41 | 28.25 | 0.071 |
表3此外,不同模块对图像中的对象的检测能力也具有提升,如表4所示。
表4
此外,以具体的车道为例,如图10所示,本申请可以通过全景分割可以使得学习到的图像特征更为清晰细致,提高3D感知的性能,并能提高稀疏采样的鲁棒性
如图11所示,上一行是常见的可学习的位置编码,但训练完成之后其位置编码在推理时将不再变化,其attention的位置较为杂乱。下一行则展示了动态位置编码的效果,多层Transformer预测每个query的3D位置时,会逐层调整3D坐标,动态位置编码则对调整后的3D坐标重新生成具有一致性的位置编码,其attention的可视化结果可以看出动态位置编码使得query更加注重局部区域的特征及道路结构区域,这样的表现更加合理。
如图12所示,静态特征的3D坐标中高度可学习的效果。其中,标记出了真值、静态道路高度预测值以及高度投影点。可以看出,静态高度预测提供了一个相当精准的3D空间位置预测,有利于3D空间中动静态元素的上下文信息融合精确度,同时其采样到的图像位置的特征也更精准合理。
前述对本申请提供的方法流程进行了介绍,下面对执行本申请提供的方法的装置进行介绍。
参阅图13,本申请提供的一种目标感知装置的结构示意图,如下所述。
特征提取模块1301,用于获取图像特征,图像特征包括从输入图像中提取得到的特征;
获取模块1302,用于根据图像特征迭代获取输入图像中动态目标的特征以及静态目标的特征,输入图像中的对象包括动态目标和静态目标,动态目标的移动速度大于静态目标的移动速度;
感知模块1303,用于根据动态目标的特征以及静态目标的特征获取动态目标的信息以及静态目标的信息;
其中,获取模块1302执行的任意一次迭代过程包括:获取位置信息,位置信息包括表示静态目标的位置的信息,以及表示动态目标的位置的信息,根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,根据融合结果以及位置信息从图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
在一种可能的实施方式中,获取模块1302具体用于:根据上一次迭代输出的动态目标特征和静态目标特征获取位置信息。
在一种可能的实施方式中,位置信息包括动态目标在3D空间中的位置以及在图像特征中的位置,和静态目标在3D空间中的位置以及在图像特征中的位置,获取模块1302具体用于:对上一次迭代输出的动态目标特征进行解码,得到动态目标在3D空间的位置以及动态目标在图像特征中的位置;根据静态目标特征对上一次迭代输出的静态目标在3D空间中的位置进行调整,得到当前次迭代输出的静态目标3D空间中的位置;根据当前次迭代输出的静态目标在3D空间中的位置得到静态目标在图像特征中的位置。
在一种可能的实施方式中,该装置还包括:位置编码模块1304,用于对当前次迭代的位置信息进行编码,得到更新后的当前次迭代的位置信息。
在一种可能的实施方式中,获取模块1302具体用于基于注意力机制根据位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果。
在一种可能的实施方式中,特征提取模块1301,具体用于:获取输入图像,输入图像包括单目相机拍摄的图像或者多目相机拍摄到的一帧或多帧图像;通过特征提取网络从输入图像中提取特征,得到图像特征。
在一种可能的实施方式中,装置还包括:分割模块1305,用于根据图像特征进行分割,得到输入图像中的至少一个对象的信息。
在一种可能的实施方式中,至少一个对象的信息用于在从图像特征中采样动态目标特征以及静态目标特征时作为约束。
在一种可能的实施方式中,感知模块1303,具体用于根据动态目标的特征获取动态目标的标记框,以及根据静态目标的特征获取静态目标的分割结果以及高度信息。
在一种可能的实施方式中,输入图像包括车辆行驶过程中拍摄设备拍摄到的图像,动态目标的信息以及静态目标的信息应用于车辆的自动驾驶或者辅助驾驶。
请参阅图14,本申请提供的另一种目标感知装置的结构示意图,如下所述。
该目标感知装置可以包括处理器1401和存储器1402。该处理器1401和存储器1402通过线路互联。其中,存储器1402中存储有程序指令和数据。
存储器1402中存储了前述图4-图12中目标感知装置执行的步骤的程序指令以及数据。
处理器1401用于执行前述图4-图12中目标感知装置执行的方法步骤。
可选地,该目标感知装置还可以包括收发器1403,用于接收或者发送数据。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有程序,当其在计算机上运行时,使得计算机执行如前述图4-图12所示实施例描述的方法中的步骤。
可选地,前述的图14中所示的目标感知装置为芯片。
本申请实施例还提供了一种目标感知装置,该目标感知装置也可以称为数字处理芯片或者芯片,芯片包括处理单元和通信接口,处理单元通过通信接口获取程序指令,程序指令被处理单元执行,处理单元用于执行前述图4-图12中任一实施例所示的目标感知装置执行的方法步骤。
本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理器1601或者处理器1401的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时,该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理芯片中未集成存储器时,可以通过通信接口与外置的存储器连接。该数字处理芯片根据外置的存储器中存储的程序代码来实现上述实施例中的动作。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图4-图12所示实施例描述的方法中的步骤。
本申请实施例提供的目标感知装置或目标感知装置可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使服务器内的芯片执行上述图4-图12所示实施例描述的目标感知方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体地,前述的处理单元或者处理器可以是中央处理器(central processingunit,CPU)、网络处理器(neural-network processing unit,NPU)、图形处理器(graphicsprocessing unit,GPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器等。
示例性地,请参阅图15,图15为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 150,NPU 150作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1503,通过控制器1504控制运算电路1503提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1503内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路1503是二维脉动阵列。运算电路1503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1503是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1502中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1501中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1508中。
统一存储器1506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller,DMAC)1505,DMAC被搬运到权重存储器1502中。输入数据也通过DMAC被搬运到统一存储器1506中。
总线接口单元(bus interface unit,BIU)1510,用于AXI总线与DMAC和取指存储器(instruction fetch buffer,IFB)1509的交互。
总线接口单元1510(bus interface unit,BIU),用于取指存储器1509从外部存储器获取指令,还用于存储单元访问控制器1505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1506或将权重数据搬运到权重存储器1502中或将输入数据数据搬运到输入存储器1501中。
向量计算单元1507包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如批归一化(batch normalization),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1507能将经处理的输出的向量存储到统一存储器1506。例如,向量计算单元1507可以将线性函数和/或非线性函数应用到运算电路1503的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1507生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1503的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1504连接的取指存储器(instruction fetch buffer)1509,用于存储控制器1504使用的指令;
统一存储器1506,输入存储器1501,权重存储器1502以及取指存储器1509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,循环神经网络中各层的运算可以由运算电路1503或向量计算单元1507执行。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个集成电路用于控制上述图4-图12的方法的程序。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
Claims (24)
1.一种目标感知方法,其特征在于,包括:
获取图像特征,所述图像特征包括从输入图像中提取得到的特征;
根据所述图像特征迭代获取所述输入图像中动态目标特征以及静态目标特征,所述输入图像中的对象包括动态目标和静态目标,所述动态目标的移动速度大于所述静态目标的移动速度;
根据所述动态目标的特征以及静态目标的特征获取所述动态目标的信息以及所述静态目标的信息;
其中,任意一次迭代过程包括:获取位置信息,所述位置信息包括表示所述静态目标的位置的信息,以及表示所述动态目标的位置的信息,根据所述位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,根据所述融合结果以及所述位置信息从所述图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
2.根据权利要求1所述的方法,其特征在于,所述获取位置信息,包括:
根据上一次迭代输出的动态目标特征和静态目标特征获取所述位置信息。
3.根据权利要求2所述的方法,其特征在于,所述位置信息包括所述动态目标在3D空间中的位置以及在所述图像特征中的位置,和所述静态目标在所述3D空间中的位置以及在所述图像特征中的位置,所述根据上一次迭代输出的动态目标特征和静态目标特征获取所述位置信息,包括:
对上一次迭代输出的动态目标特征进行解码,得到所述动态目标在所述3D空间的位置以及所述动态目标在所述图像特征中的位置;
根据所述静态目标特征对上一次迭代输出的所述静态目标在所述3D空间中的位置进行调整,得到当前次迭代输出的静态目标3D空间中的位置;
根据所述当前次迭代输出的所述静态目标在所述3D空间中的位置得到所述静态目标在所述图像特征中的位置。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
对所述当前次迭代的位置信息进行编码,得到更新后的当前次迭代的位置信息。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,包括:
基于注意力机制根据所述位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到所述融合结果。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取图像特征,包括:
获取所述输入图像,所述输入图像包括单目相机拍摄的图像或者多目相机拍摄到的一帧或多帧图像;
通过特征提取网络从所述输入图像中提取特征,得到所述图像特征。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
根据所述图像特征进行分割,得到所述输入图像中的至少一个对象的信息。
8.根据权利要求7所述的方法,其特征在于,所述至少一个对象的信息用于在从所述图像特征中采样所述动态目标特征以及所述静态目标特征时作为约束。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述根据所述动态目标的特征以及静态目标的特征获取所述动态目标的信息以及静态目标的信息,包括:
根据所述动态目标的特征获取所述动态目标的标记框,以及根据所述静态目标的特征获取所述静态目标的分割结果以及高度信息。
10.根据权利要求1-9中任一项所述的方法,其特征在于,
所述输入图像包括车辆行驶过程中拍摄设备拍摄到的图像,所述动态目标的信息以及所述静态目标的信息应用于所述车辆的自动驾驶或者辅助驾驶。
11.一种目标感知装置,其特征在于,包括:
特征提取模块,用于获取图像特征,所述图像特征包括从输入图像中提取得到的特征;
获取模块,用于根据所述图像特征迭代获取所述输入图像中动态目标的特征以及静态目标的特征,所述输入图像中的对象包括所述动态目标和所述静态目标,所述动态目标的移动速度大于所述静态目标的移动速度;
感知模块,用于根据所述动态目标的特征以及静态目标的特征获取所述动态目标的信息以及所述静态目标的信息;
其中,所述获取模块执行的任意一次迭代过程包括:获取位置信息,所述位置信息包括表示所述静态目标的位置的信息,以及表示所述动态目标的位置的信息,根据所述位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到融合结果,根据所述融合结果以及所述位置信息从所述图像特征中进行特征采样,得到当前次迭代的动态目标特征和静态目标特征。
12.根据权利要求11所述的装置,其特征在于,
所述获取模块具体用于:根据上一次迭代输出的动态目标特征和静态目标特征获取所述位置信息。
13.根据权利要求12所述的装置,其特征在于,所述位置信息包括所述动态目标在3D空间中的位置以及在所述图像特征中的位置,和所述静态目标在所述3D空间中的位置以及在所述图像特征中的位置,所述获取模块具体用于:
对上一次迭代输出的动态目标特征进行解码,得到所述动态目标在所述3D空间的位置以及所述动态目标在所述图像特征中的位置;
根据所述静态目标特征对上一次迭代输出的所述静态目标在所述3D空间中的位置进行调整,得到当前次迭代输出的静态目标3D空间中的位置;
根据所述当前次迭代输出的所述静态目标在所述3D空间中的位置得到所述静态目标在所述图像特征中的位置。
14.根据权利要求11-13中任一项所述的装置,其特征在于,所述装置还包括:
位置编码模块,用于对所述当前次迭代的位置信息进行编码,得到更新后的当前次迭代的位置信息。
15.根据权利要求11-14中任一项所述的装置,其特征在于,
所述获取模块具体用于基于注意力机制根据所述位置信息对上一次迭代得到的动态目标特征和静态目标特征进行融合,得到所述融合结果。
16.根据权利要求11-15中任一项所述的装置,其特征在于,所述特征提取模块,具体用于:
获取所述输入图像,所述输入图像包括单目相机拍摄的图像或者多目相机拍摄到的一帧或多帧图像;
通过特征提取网络从所述输入图像中提取特征,得到所述图像特征。
17.根据权利要求11-16中任一项所述的装置,其特征在于,所述装置还包括:
分割模块,用于根据所述图像特征进行分割,得到所述输入图像中的至少一个对象的信息。
18.根据权利要求17所述的装置,其特征在于,所述至少一个对象的信息用于在从所述图像特征中采样所述动态目标特征以及所述静态目标特征时作为约束。
19.根据权利要求11-18中任一项所述的装置,其特征在于,
所述感知模块,具体用于根据所述动态目标的特征获取所述动态目标的标记框,以及根据所述静态目标的特征获取所述静态目标的分割结果以及高度信息。
20.根据权利要求11-19中任一项所述的装置,其特征在于,
所述输入图像包括车辆行驶过程中拍摄设备拍摄到的图像,所述动态目标的信息以及所述静态目标的信息应用于所述车辆的自动驾驶或者辅助驾驶。
21.一种目标感知装置,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至10中任一项所述的方法。
22.一种计算机可读存储介质,包括程序,当其被处理单元所执行时,执行如权利要求1至10中任一项所述的方法。
23.一种目标感知装置,其特征在于,包括处理单元和通信接口,所述处理单元通过所述通信接口获取程序指令,当所述程序指令被所述处理单元执行时实现权利要求1至10中任一项所述的方法。
24.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629088.2A CN116883961A (zh) | 2023-05-30 | 2023-05-30 | 一种目标感知方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629088.2A CN116883961A (zh) | 2023-05-30 | 2023-05-30 | 一种目标感知方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883961A true CN116883961A (zh) | 2023-10-13 |
Family
ID=88261124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310629088.2A Pending CN116883961A (zh) | 2023-05-30 | 2023-05-30 | 一种目标感知方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883961A (zh) |
-
2023
- 2023-05-30 CN CN202310629088.2A patent/CN116883961A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Towards real-time monocular depth estimation for robotics: A survey | |
Yang et al. | Fast depth prediction and obstacle avoidance on a monocular drone using probabilistic convolutional neural network | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN112183718B (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN110222717B (zh) | 图像处理方法和装置 | |
CN112446398A (zh) | 图像分类方法以及装置 | |
CN111931764B (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN111368972B (zh) | 一种卷积层量化方法及其装置 | |
WO2022179581A1 (zh) | 一种图像处理方法及相关设备 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
US20220262093A1 (en) | Object detection method and system, and non-transitory computer-readable medium | |
WO2022165722A1 (zh) | 单目深度估计方法、装置及设备 | |
CN115222896B (zh) | 三维重建方法、装置、电子设备及计算机可读存储介质 | |
EP4053734A1 (en) | Hand gesture estimation method and apparatus, device, and computer storage medium | |
CN113781519A (zh) | 目标跟踪方法和目标跟踪装置 | |
CN112258565B (zh) | 图像处理方法以及装置 | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
WO2022179606A1 (zh) | 一种图像处理方法及相关装置 | |
CN116486038A (zh) | 一种三维构建网络训练方法、三维模型生成方法以及装置 | |
WO2022179599A1 (zh) | 一种感知网络及数据处理方法 | |
CN116079727A (zh) | 基于3d人体姿态估计的人形机器人动作模仿方法及装置 | |
CN115249269A (zh) | 目标检测方法、计算机程序产品、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |