CN111785085B - 视觉感知以及感知网络训练方法、装置、设备和存储介质 - Google Patents

视觉感知以及感知网络训练方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111785085B
CN111785085B CN202010530027.7A CN202010530027A CN111785085B CN 111785085 B CN111785085 B CN 111785085B CN 202010530027 A CN202010530027 A CN 202010530027A CN 111785085 B CN111785085 B CN 111785085B
Authority
CN
China
Prior art keywords
image
perception
network
training
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010530027.7A
Other languages
English (en)
Other versions
CN111785085A (zh
Inventor
周彬
刘宗岱
赵沁平
吴洪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010530027.7A priority Critical patent/CN111785085B/zh
Publication of CN111785085A publication Critical patent/CN111785085A/zh
Priority to US17/199,338 priority patent/US11875546B2/en
Application granted granted Critical
Publication of CN111785085B publication Critical patent/CN111785085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/168Driving aids for parking, e.g. acoustic or visual feedback on parking space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/09Taking automatic action to avoid collision, e.g. braking and steering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21343Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using decorrelation or non-stationarity, e.g. minimising lagged cross-correlations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/167Driving aids for lane monitoring, lane changing, e.g. blind spot detection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo or light sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts

Abstract

本申请提供了一种视觉感知以及感知网络训练方法、装置、设备和存储介质,视觉感知方法通过利用感知网络对获取的待感知图像进行识别,以确定感知目标以及感知目标的位姿状态,最后根据预设控制算法以及位姿状态确定控制指令,以使待控制对象根据控制指令确定对于感知目标的处理策略。实现了对感知目标的运动部件的位姿感知,达到了细化感知粒度,加深对物体局部运动进行解析与理解的技术效果。感知网络的训练方法通过获取图像数据以及模型数据,然后利用预设编辑算法,根据二维图像以及三维模型,生成编辑图像,最后根据编辑图像以及标注,对待训练感知网络进行训练,以确定感知网络。实现了更快生成更真实且域差异更小的训练图像的技术效果。

Description

视觉感知以及感知网络训练方法、装置、设备和存储介质
技术领域
本申请涉及目标检测领域,尤其涉及一种视觉感知以及感知网络训练方法、装置、设备和存储介质。
背景技术
目标检测(Object Detection)是计算机视觉领域的一个基本问题,在非受控自然场景当中,快速准确地定位和识别特定的目标是许多人工智能应用场景的重要功能基础。视觉感知就是目标检测的一种应用。
现有的视觉感知技术一般是通过基于深度神经网络的视觉感知系统在图像上进行检测,得到实例分割,即仅能得到感知目标,以及对感知目标的整体进行位姿估计,在本领域中称上述情况为:依靠包围盒以及轮廓对物体进行浅层的理解。
然而在实际的应用场景中,对目标整体的感知仍不足以使得人工智能采取足够的应对策略,例如:在自动驾驶场景中,当一辆车停在路边打开车门时,这时很可能有人将会下车,但是由于仅感知到了车辆整体,以及车辆停在路边,自动驾驶车辆无法做出避免碰撞下车人员的响应。也就是说现有技术存在感知粒度过大,导致不能对物体局部运动进行解析与理解的问题。
发明内容
本申请提供一种视觉感知以及感知网络训练方法、装置、设备和存储介质,以解决现有技术中感知粒度过大,导致不能对物体局部运动进行解析与理解的问题。
第一方面,本申请提供一种视觉感知方法,包括:
获取待感知图像,所述待感知图像包含至少一个目标对象;
利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态,其中,所述感知目标为所述位姿状态符合预设属性的目标对象;
根据预设控制算法以及所述位姿状态确定控制指令,以使待控制对象根据所述控制指令确定对于所述感知目标的处理策略。
可选的,所述利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态,包括:
对所述待感知图像进行特征提取,以确定所述待感知图像的特征;
利用分类器对所述特征进行分类,以确定所述感知目标;
利用回归子网络确定所述感知目标的所述位姿状态。
在一种可能的设计中,所述利用回归子网络确定所述感知目标的所述位姿状态,包括:
确定预设数据库中与所述感知目标相匹配的运动部件;
利用回归子网络,根据所述运动部件以及所述运动部件对应的标准状态,确定所述运动部件的状态概率;
根据所述状态概率确定所述感知目标的所述位姿状态,所述位姿状态包括状态向量。
可选的,所述感知目标包括:车辆。
在一种可能的设计中,根据预设控制算法以及所述位姿状态确定控制指令,包括:
根据预设自动驾驶控制算法以及所述位姿状态确定所述控制指令,以使待控制车辆根据所述控制指令减速或避让所述感知目标。
可选的,在所述利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态之后,还包括:
在所述待感知图像上标注所述感知目标以及所述位姿状态,并显示标注后的感知图像。
在一种可能的设计中,所述运动部件包括:左前门、左后门、右前门、右后门、后备箱以及引擎盖中的至少一个。
第二面,本申请提供一种感知网络的训练方法,包括:
获取包含感知目标的图像数据以及模型数据,所述图像数据包括:二维图像以及标注,所述模型数据包括:三维模型;
利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像;
根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络。
在一种可能的设计中,所述利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像,包括:
确定所述感知目标对应的运动部件;
在所述二维图像中提取出所述运动部件的第一可见区域;
根据所述第一可见区域以及所述三维模型,生成所述编辑图像。
可选的,其特征在于,所述根据所述第一可见区域以及所述三维模型,生成所述编辑图像,包括:
根据所述运动部件确定所述运动部件的位姿信息,所述位姿信息为所述运动部件在空间6自由度上的运动状态所组成的矩阵;
利用投影模型,根据所述第一可见区域以及所位姿信息,生成所述第一可见区域的三维点云;
根据所述三维点云以及所述位姿信息,确定第二可见区域,所述第二可见区域为所述运动部件在运动后位置处的可见区域;
利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像。
进一步可选的,所述利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像,包括:
将所述第二可见区域与所述三维模型进行对齐,确定不可见区域;
利用渲染技术,根据所述三维模型,确定所述不可见区域的填充图像;
将所述填充图像与所述第二可见区域叠加,并利用叠加后的图像替换所述图像中的运动部件,以生成所述编辑图像。
在一种可能的设计中,在所述确定第二可见区域之后,还包括:
利用平滑处理算法,对所述第二可见区域进行平滑处理。
在一种可能的设计中,所述根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络,包括:
利用主骨干网络以及辅助骨干网络,分别对所述编辑图像进行特征提取,以确定主特征以及辅助特征;
将所述主特征以及所述辅助特征进行合并,以得到关联特征;
根据所述关联特征以及回归子网络,确定所述运动部件的状态向量;
根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络。
可选的,所述根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络,包括:
根据所述状态向量以及所述标注计算交叉熵损失函数;
利用所述交叉熵损失函数训练所述待训练感知网络,以确定所述感知网络。
在一种可能的设计中,所述将所述主特征以及所述辅助特征进行合并,以得到关联特征之前,还包括:
所述主骨干网络配置有第一权重,所述辅助骨干网络配置有第二权重;
对所述主骨干网络以及所述辅助骨干网络进行预训练,确定所述第一权重以及所述第二权重。
可选的,所述预训练,包括:
获取实际测试图像以及通用检测图像;
利用所述实际测试图像对所述主骨干网络进行感知训练;
利用所述通用检测图像对所述辅助骨干网络进行感知训练。
可选的,所述主骨干网络与所述辅助骨干网络为相同的目标检测网络。
第三方面,本申请提供一种视觉感知装置,包括:
获取模块,用于获取待感知图像,所述待感知图像包含至少一个目标对象;
处理模块,用于利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态,其中,所述感知目标为所述位姿状态符合预设属性的目标对象;
控制模块,用于根据预设控制算法以及所述位姿状态确定控制指令,以使待控制对象根据所述控制指令确定对于所述感知目标的处理策略。
可选的,所述处理模块用于利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态,包括:
所述处理模块,用于对所述待感知图像进行特征提取,以确定所述待感知图像的特征;
所述处理模块,还用于利用分类器对所述特征进行分类,以确定所述感知目标;
所述处理模块,还用于利用回归子网络确定所述感知目标的所述位姿状态。
在一种可能的设计中,所述处理模块,还用于利用回归子网络确定所述感知目标的所述位姿状态,包括:
所述处理模块,还用于确定预设数据库中与所述感知目标相匹配的运动部件;
所述处理模块,还用于利用回归子网络,根据所述运动部件以及所述运动部件对应的标准状态,确定所述运动部件的状态概率;
所述处理模块,还用于根据所述状态概率确定所述感知目标的所述位姿状态,所述位姿状态包括状态向量。
在一种可能的设计中,所述控制模块,用于根据预设控制算法以及所述位姿状态确定控制指令,包括:
所述控制模块,用于根据预设自动驾驶控制算法以及所述位姿状态确定所述控制指令,以使待控制车辆根据所述控制指令避让所述感知目标。
可选的,在所述处理模块,用于利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态之后,还包括:
所述处理模块,还用于在所述待感知图像上标注所述感知目标以及所述位姿状态,并显示标注后的感知图像。
第四方面,本申请提供一种感知网络的训练装置,包括:
获取模块,用于获取包含感知目标的图像数据以及模型数据,所述图像数据包括:二维图像以及标注,所述模型数据包括:三维模型;
图像编辑模块,用于利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像;
训练模块,用于根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络。
在一种可能的设计中,所述图像编辑模块,用于利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像,包括:
所述图像编辑模块,用于确定所述感知目标对应的运动部件;
所述图像编辑模块,还用于在所述二维图像中提取出所述运动部件的第一可见区域;
所述图像编辑模块,还用于根据所述第一可见区域以及所述三维模型,生成所述编辑图像。
在一种可能的设计中,所述图像编辑模块,还用于根据所述第一可见区域以及所述三维模型,生成所述编辑图像,包括:
所述图像编辑模块,还用于根据所述运动部件确定所述运动部件的位姿信息,所述位姿信息为所述运动部件在空间6自由度上的运动状态所组成的矩阵;
所述图像编辑模块,还用于利用投影模型,根据所述第一可见区域以及所位姿信息,生成所述第一可见区域的三维点云;
所述图像编辑模块,还用于根据所述三维点云以及所述位姿信息,确定第二可见区域,所述第二可见区域为所述运动部件在运动后位置处的可见区域;
所述图像编辑模块,还用于利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像。
在一种可能的设计中,所述图像编辑模块,还用于利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像,包括:
所述图像编辑模块,还用于将所述第二可见区域与所述三维模型进行对齐,确定不可见区域;
所述图像编辑模块,还用于利用渲染技术,根据所述三维模型,确定所述不可见区域的填充图像;
所述图像编辑模块,还用于将所述填充图像与所述第二可见区域叠加,并利用叠加后的图像替换所述图像中的运动部件,以生成所述编辑图像。
可选的,所述图像编辑模块,用于确定第二可见区域之后,还包括:
所述图像编辑模块,还用于利用平滑处理算法,对所述第二可见区域进行平滑处理。
可选的,所述训练模块,用于根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络,包括:
所述训练模块,用于利用主骨干网络以及辅助骨干网络,分别对所述编辑图像进行特征提取,以确定主特征以及辅助特征;
所述训练模块,还用于将所述主特征以及所述辅助特征输入所述主骨干网络以及所述辅助网络,以得到关联特征,所述主骨干网络配置有第一权重,所述辅助骨干网络配置有第二权重;
所述训练模块,还用于根据所述关联特征以及回归子网络,确定所述运动部件的状态向量;
所述训练模块,还用于根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络。
在一种可能的设计中,所述训练模块,还用于根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络,包括:
所述训练模块,还用于根据所述状态向量以及所述标注计算交叉熵损失函数;
所述训练模块,还用于利用所述交叉熵损失函数训练所述待训练感知网络,以确定所述感知网络。
可选的,所述训练模块,还用于将所述主特征以及所述辅助特征输入所述主骨干网络以及所述辅助骨干网络,以得到关联特征之前,还包括:
所述训练模块,还用于对所述主骨干网络以及所述辅助骨干网络进行预训练,确定所述第一权重以及所述第二权重。
可选的,所述训练模块,还用于对所述主骨干网络以及所述辅助骨干网络进行预训练,包括:
所述获取模块,还用于获取实际测试图像以及通用检测图像;
所述训练模块,还用于利用所述实际测试图像对所述主骨干网络进行感知训练;
所述训练模块,还用于利用所述通用检测图像对所述辅助骨干网络进行感知训练。
第五方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行第一方面所提供的任意一种可能的视觉感知方法。
第六方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行第二方面所提供的任意一种可能的感知网络的训练方法。
第七个方面,本申请提供一种存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行第一方面所提供的任意一种可能的视觉感知方法。
第八个方面,本申请提供一种存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行第二方面所提供的任意一种可能的感知网络的训练方法。
本申请提供了一种视觉感知以及感知网络训练方法、装置、设备和存储介质,视觉感知方法通过利用感知网络对获取的待感知图像进行识别,以确定感知目标以及感知目标的位姿状态,最后根据预设控制算法以及位姿状态确定控制指令,以使待控制对象根据控制指令确定对于感知目标的处理策略。实现了对感知目标的运动部件的位姿感知,达到了细化感知粒度,加深对物体局部运动进行解析与理解的技术效果。感知网络的训练方法通过获取图像数据以及模型数据,然后利用预设编辑算法,根据二维图像以及三维模型,生成编辑图像,最后根据编辑图像以及标注,对待训练感知网络进行训练,以确定感知网络。实现了更快生成更真实且域差异更小的训练图像的技术效果。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种视觉感知方法的流程示意图;
图2为本申请提供的另一种视觉感知方法的流程示意图;
图3a-3f为本申请实施例提供的一种视觉感知方法的应用场景示意图;
图4为本申请提供的一种感知网络的训练方法的流程示意图;
图5a-5h为本申请实施例提供的编辑图像样例图;
图6为本申请实施例提供的另一种感知网络的训练方法的流程示意图;
图7为本申请实施例提供的编辑图像生成过程示意图;
图8为本申请实施例提供的又一种感知网络的训练方法的流程示意图;
图9为本申请实施例提供的感知网络训练的数据流结构图;
图10为本申请提供的一种视觉感知装置的结构示意图;
图11为本申请提供的一种感知网络训练装置的结构示意图;
图12为本申请提供的一种视觉感知电子设备的结构示意图
图13为本申请提供的一种感知网络训练电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,包括但不限于对多个实施例的组合,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的视觉感知技术一般是通过基于深度神经网络的视觉感知系统在图像上进行检测,得到整体实例分割,即仅能得到整体感知目标,以及对感知目标的整体进行位姿估计,在本领域中称上述情况为:依靠包围盒以及轮廓对物体进行浅层的理解。
然而在实际的应用场景中,对目标整体的感知仍不足以提供足够的信息使得人工智能采取正确的应对策略,例如:在自动驾驶场景中,当一辆车停在路边打开车门时,这时很可能有人将会下车,但是由于仅感知到了车辆整体,以及车辆停在路边,自动驾驶车辆无法做出避免碰撞下车人员的响应。也就是说现有技术存在感知粒度过大,导致不能对物体局部运动进行解析与理解的问题。
为解决上述问题,本申请的发明构思是,利用一个可以感知更为细小粒度的感知模型对目标进行感知识别,这就引发了新的问题,如何对粒度进行有效划分,因为粒度较大不利于对感知目标的充分解析和理解,粒度过小则感知过程较为复杂,且感知过程耗时过长,成本较高,如何选择合适的粒度就是本申请发明人所面对的首要问题。本申请发明人在实践中通过长期大量地创造性劳动,发现将感知目标的可运动部分划分到部件级别是比较合适的粒度大小,比如一个人的手和脚相对于人的整体来说就是一个比较合适的粒度大小,若划分到手指则粒度过小。又比如一辆汽车划分到车门或者后备箱盖这样的部件级别也是一个合适的粒度大小,但是划分到门铰链,后备箱支撑杆就属于划分粒度过小的情况。
解决了划分粒度大小的问题,接下来就是如何得到能够适用于感知运动部件级别的感知网络的问题,为此本申请发明人经过大量实验,通过创造性地提炼,得出了基于神经网络的感知网络,通过本申请提出的感知网络的训练方法,训练得到满足部件级别的感知网络。
本申请提供了一种视觉感知以及感知网络训练方法,装置,电子设备以及存储介质,具体如下述各实施例的描述。
为方便理解本申请的发明整体,下面的内容首先介绍在已经具备足够感知运动部件级别的感知网络时,如何运用此感知网络对目标进行感知识别,以解决感知粒度过大而不能正确解析与理解感知目标,无法给控制系统提供足够的决策信息的问题。然后再介绍本申请的感知网络是如何通过针对性训练得到的,并创造性提出了加快训练图像生成,且得到域差异更小,与实际情况更接近的训练图像的方法。
图1为本申请提供的一种视觉感知方法的流程示意图,如图1所示,该方法的具体步骤包括:
S101、获取待感知图像。
在本步骤中,从外部数据库或者对外输入接口中接收/获取包含待感知目标的图像,例如通过摄像头所拍摄到的图像,或者是监控视频当中截取的图像等。
S102、利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态。
在本步骤中,首先利用基于神经网络算法的感知网络对待感知的图像进行特征提取,然后对得到的特征进行分类与识别,由于本实施例中的感知网络的感知粒度能够对感知目标的运动部件进行识别。因此,待感知图中通过特征提取,感知网络首先确认了感知目标的整体,然后对这个感知目标整体中的运动部件进行状态识别,例如:感知网络首先在图像中感知到了人的整体,然后就会对人的整体的特征进行运动部件划分,比如人的手,然后对手的运动状态进行识别,人手的状态可以定义为上举、平举、以及放下三种位姿状态,则感知网络通过对人手的识别就可以给出一种确定的状态标识即感知目标的位姿状态。还需要说明的是,这个位姿状态是感知网络中对感知目标已经定义了对应预设属性的触发标识。比如人手平举,感知网络中定义的预设属性是感知对象提出拦截指示。
S103、根据预设控制算法以及位姿状态确定控制指令,以使待控制对象根据控制指令确定对于感知目标的处理策略。
待控制对象是指包含本实施例视觉感知方法的载体,为便于说明本步骤,下面以具体的例子进行说明,待控制对象例如是智能行驶汽车,在感知网络识别到路边的行人的位姿状态为人手平举的时候,根据人手平举的预设属性,确认感知对象提出了拦截指示,此时预设控制算法生成汽车制动控制指令,使得汽车自行制动停下。
需要说明的是本实施例不局限与上述汽车制动的例子,本领域技术人员可以根据本步骤的含义应用于具体的场景当中,本实施例不对应用场景进行限定。
本实施例提供了一种视觉感知方法,通过利用感知网络对获取的待感知图像进行识别,以确定感知目标以及感知目标的位姿状态,最后根据预设控制算法以及位姿状态确定控制指令,以使待控制对象根据控制指令确定对于感知目标的处理策略。实现了对感知目标的运动部件的位姿感知,达到了细化感知粒度,加深对物体局部运动进行解析与理解的技术效果。
图2本申请提供的另一种视觉感知方法的流程示意图,如图2所示,该方法的具体步骤包括:
S201、获取待感知图像。
需要说明的是,为便于本领域技术人员理解本申请的视觉感知方法的具体实现方式,本实施例的应用场景是包含本实施例视觉感知方法的智能驾驶汽车对行驶过程中路上遇到的其它车辆进行感知识别。本领域技术人员可以类比与本实施例的视觉感知方法的实施方式,进行具体应用场景的选择,而不局限与本实施例所描述的应用场景。
在本步骤中,通过智能驾驶汽车的前置摄像头拍摄到了当前时刻的真实路况图即待感知图像。
图3a-3f为本申请实施例提供的一种视觉感知方法的应用场景示意图。如图3a、图3c以及图3e所示,智能驾驶汽车行驶在城市道路上,前置摄像头实时采集道路路况图像。
S202、对待感知图像进行特征提取,以确定待感知图像的特征。
在本步骤中,基于神经网络的感知网络对采集到的道路路况图像进行特征提取,具体地,经过多层卷积层,对图像进行卷积,得到图像的特征图或者特征向量。
S203、利用分类器对特征进行分类,以确定感知目标。
在本步骤中,通过分类器对图像特征进行分类,分类标准是是否满足车辆特征属性,以确定待感知图像即道路路况图像中的车辆。如图3b所示,待感知图像中的感知目标可以为多个,则分类器要逐一对图像中包含的物体进行分类区分,找到所有满足车辆特征的感知目标。
S204、确定预设数据库中与感知目标相匹配的运动部件。
在本步骤中,在预设的数据库中存储着不同的感知目标对应的运动部件划分。预先划分好对于解析与理解感知目标的足够细小的粒度,由于不同的感知目标其划分粒度会有区别,因此需要将感知目标对应的运动部件预先设置好,存储在数据库中,或者是与数据库起到相同功能的存储单元当中,或者直接与感知目标捆绑为一个数据整体进行存储。在本实施例中,对于感知目标车辆,可以将其运动部件划分为包括:左前门、左后门、右前门、右后门、后备箱盖以及引擎盖中的至少一个。
S205、利用回归子网络,根据运动部件以及运动部件对应的标准状态,确定运动部件的状态概率。
在本步骤中,每个运动部件都有其对应的标准状态,例如车门可以设定其标准状态外开启或关闭,开启状态时设置状态标识为1,关闭状态时设置状态标识为。利用回归子网络,对感知目标对应的所有运动部件进行逐一的状态检测,具体可以是,通过卷积算法对特征进行深层卷积,然后利用归一化处理,得到取值区间在[0,1]范围内的状态概率。
S206、根据状态概率确定感知目标的位姿状态。
在本步骤中,可以通过将感知概率与预设的状态判定阈值进行对比,例如车门打开的状态概率大于或等于状态判定阈值则判定为车门打开状态,则设置车辆的位姿状态中车门状态为1,同理可以对车辆的其它运动部件的状态进行判定,将所有运动部件的状态组成一个多维向量,此多维状态向量就是感知目标的位姿状态。可以理解的是,当感知目标的运动部件只有一个时,位姿状态就是一个二值状态量,即取值为0或者1。
可选的,如图3b、图3d以及图3f所示,在确定感知目标的位姿状态后,可以在待感知图像上将感知目标以及其对应的位姿状态标注出来,具体实现方式可以是,将感知目标的外轮廓用曲线框标出来,并且将符合特定状态的运动部件也用不同颜色的曲线框标出来,,并附上此运动部件此时的运动状态描述。
S207、根据预设控制算法以及位姿状态确定控制指令,以使待控制对象根据控制指令确定对于感知目标的处理策略。
在本步骤中,如图3b所示,对应感知目标即图中矩形框中的车辆31,回归子网络判定车辆31的右车门311处于开启状态,则根据预先设置的处理策略,当车门处于开启状态时,可能会有人突然下车,据此智能驾驶车辆应当采取减速或者避让的处理策略,则对应的预设控制算法向智能驾驶车辆发出减速或者避让的控制指令。智能驾驶车辆根据指令采取减速或者避让感知目标的操作。
还需要说明的是,本实施例所描述的感知网络可以是一个执行单独视觉感知任务的神经网络,也可以是可同时执行多个任务的神经网络组合。
具体地,本实施例的感知网络包括:主骨干网络、辅助主干网络以及多任务子网络;
主骨干网络以及辅助主干网络用于提取待感知图像的特征;
多任务子网络用于执行多种不同任务,包括但不限于:
对感知目标进行识别;
在待感知图像中对感知目标进行实例分割,如图3d中对感知车辆的外轮廓范围进行分割显示;
确定感知目标的状态向量并进行标注;
对感知目标的运动部件进行分割,如图3f中对后备箱盖的轮廓进行分割显示;
以及对感知对象标注类别包围盒,如图3b,图3d以及图3f中的方框,就是类别包围盒。
本实施例提供了一种视觉感知方法,通过利用感知网络对获取的待感知图像进行识别,以确定感知目标以及感知目标的位姿状态,最后根据预设控制算法以及位姿状态确定控制指令,以使待控制对象根据控制指令确定对于感知目标的处理策略。实现了对感知目标的运动部件的位姿感知,达到了细化感知粒度,加深对物体局部运动进行解析与理解的技术效果。
下面介绍如何通过本申请的感知网络训练方法,有针对性地对感知网络进行训练,使得感知网络的感知粒度达到运动部件级别,既能准确解析出感知目标,又能够保证感知过程无需太过复杂耗时。
图4为本申请提供的一种感知网络的训练方法的流程示意图,如图4所示,该方法的具体步骤包括:
S401、获取包含感知目标的图像数据以及模型数据,图像数据包括:二维图像以及标注,模型数据包括:三维模型。
在本步骤中,选取神经网络目标检测算法中典型的感知对象,例如:车辆、人物、动物等,分别对不同感知目标选取单独的或者具有预设组合的图像,例如单独只有一辆车的图像,或者有多辆车的图像,或者是人与车混合的图像。然后人工对这些图像进行标注,标注内容包括:感知目标的类别、感知目标对应的运动部件及其状态等。图像与标注就组成了图像数据。然后再给对应的感知目标建立模型数据,模型数据包括三维模型图,还可以包括:环境渲染图以及感知目标渲染图等,本实施例不对模型数据进行限制,模型数据的作用是为了展示在二维图像的观察角度中看不见的部分,比如一辆行驶中的车辆的图像,二维图像中只能看到关闭车门的外表面,而对于车内一侧的形状则无法展示,这部分就需要依赖于模型数据来补充。在本步骤中,获取符合上述要求的图像数据以及模型数据。
S402、利用预设编辑算法,根据二维图像以及三维模型,生成编辑图像。
在本步骤中,先在二维图像中截取出感知目标的运动部件,根据运动部件的运动轨迹,确认运动部件在新的状态下的位置。举例来说:人手这个运动部件,二维图像中只有人手放下时的状态,则预设编辑算法可以将二维图像中的人手部分截取出来,然后将人手绕肩膀进行转动,旋转90度到达人手平举的状态。由于二维图像中原本没有平举的人手,必然会造成图像缺失,表现不够真实。为解决这个问题,本步骤中,引入三维模型,预设编辑算法用三维模型来补充缺失部分的图像,这样就能够形成人手平举时的状态图像,即编辑图像。
需要说明的是,在现有技术中是通过重新采集不同状态下的图像来获得训练图像的,这样使得训练数据准备工作所花费的资源及时间大大增加。并且为使得数据量足够,导致现有技术的做法不具备实现的价值。现有技术的另一种做法是,完全通过CG(ComputerGraphics计算机绘图)技术来生成大量的状态图片,这种CG技术生成的图片通常在外观上与真实场景存在巨大的域差异,很难训练出高性能的深度网络模型。对比上面两种现有技术,本申请实施例提供的编辑图像的生成方式,是在真实场景的二维图像的基础上,结合三维模型的运动,还可以加上环境渲染效果和感知目标的渲染效果,组合出不同位姿状态所对应的图片,既保证了训练图像与真实场景足够接近,又解决了人工无法采集到足够多的状态图片的问题。
图5a-5h为本申请实施例提供的编辑图像样例图。如图5a-5h所示,所有车辆原本的二维图都是正常状态,即车门、引擎盖以及后备箱都是闭合的状态,经过预设编辑算法生成了车门、引擎盖以及后备箱打开时的状态的编辑图片。因为只需要三维模型中的一部分所有不会像CG图像需要大量的运算,提高了编辑图像的生成速度。
S403、根据编辑图像以及标注,对待训练感知网络进行训练,以确定感知网络。
在本步骤中,利用上一步生成的编辑图像,采用神经网络的训练方法,对待训练感知网络进行训练,就可以得到具备感知对象运动部件级感知粒度的感知网络。训练方法包括但不限于:梯度下降法,牛顿算法,共轭梯度法,准牛顿法以及levenberg-marquardt(莱文贝格-马夸特)算法。
本申请实施例提供了一种感知网络的训练方法,通过获取感知目标的图像数据以及模型数据,利用预设编辑算法在二维图像的基础上,运用模型数据模拟各种感知目标的运动部件的位姿状态,组合编辑生成编辑图像,最后利用编辑图像对待训练感知网络进行训练,得到具备感知对象运动部件级感知粒度的感知网络。实现了更快速地生成,更真实且域差异更小的训练图像的技术效果。
图6为本申请实施例提供的另一种感知网络的训练方法的流程示意图。本实施例以生成车辆右前门开启状态或后备箱盖开启状态这一具体应用场景来说明本申请所述的感知网络训练方法的具体实现方式。如图6所示,该方法的具体步骤包括:
S601、获取包含感知目标的图像数据以及模型数据。
图7为本申请实施例提供的编辑图像生成过程示意图。如图7所示,首先获取包含感知目标的二维图像,在本实施例中感知目标为车辆,并且对车辆的二维图像进行标注,标注内容包括:感知目标的类别即车辆、感知目标对应的运动部件即右前门或后备箱盖以及右前门或后备箱盖的状态为完全开启,右车门旋转轴的坐标,车辆的六自由度位姿等。然后再获取车辆的三维模型作为模型数据。
S602、确定感知目标对应的运动部件。
在本步骤中,车辆的运动部件可以为左前门、左后门、右前门、右后门、后备箱以及引擎盖中的至少一个,在本实施例中特指右前门。因为不同运动部件的位姿状态或者运动轨迹是不一样的,所以需要对运动部件进行确认。
S603、在二维图像中提取出运动部件的第一可见区域。
在确定了运动部件即右前门后,在二维图像中提取出代表右前门的截图作为第一可见区域。
S604、根据运动部件确定运动部件的位姿信息。
确认运动部件为右前门,则右前门对应的六自由度位姿信息包括:在完全开启时所需要旋转的过的角度、旋转方向、最终位置等。
S605、利用投影模型,根据第一可见区域以及位姿信息,生成第一可见区域的三维点云。
在本步骤中,运动部件与物体六自由度的位姿信息通过投针孔相机投影模型即投影模型可以使用以下公式(1)将二维图像中部件区域重建为三维点云P,公式(1)如下所示:
Figure BDA0002535037210000171
其中D为深度图,Rg与tg表示运动部件的位姿信息即全局位姿,K为相机内参,
Figure BDA0002535037210000172
为图像像素坐标的齐次向量。
S606、根据三维点云以及位姿信息,确定第二可见区域。
假定物体的对于旋转轴的旋转矩阵为,我们使用以下公式(2)计算新的投影后的像素坐标u′,公式(2)如下所示:
Figure BDA0002535037210000173
其中,Rg与tg表示运动部件的位姿信息即全局位姿,K为相机内参。
u′即可表示第二可见区域。如图7中的(c)部件重建、(d)部件三维运动、(e)二维投影中所示的处理过程。
可选的,在确定第二可见区域后,一般第二可见区域会存在一些空洞,并且像素的分布不均匀,此时可以运用线性近邻插值进行空洞补全,再使用双边滤波算法对第二可见区域进行平滑处理,如图7中的(f)图像后处理优化中所示。在本实施例中线性近邻插值与双边滤波算法即为平滑处理算法,可以理解的是,本申请不对平滑处理算法进行具体限定,只要能够实现空洞补全及平滑处理的算法都在本申请陈述的范围内,本领域技术人员可以根据具体情况选用合适的实现方式。
S607、将第二可见区域与三维模型进行对齐,确定不可见区域。
将运动部件的三维模型区域与以位姿信息中的运动方式进行运动,并与第二可见区域对齐,这样就可以得到不可见区域。
S608、利用渲染技术,根据三维模型,确定不可见区域的填充图像。
根据不可见区域的轮廓范围及形状,运用三维模型数据中的环境渲染和感知目标的渲染图,就可以得到不可见区域的填充图像。如图7中的(g)环境贴图到(h)三维部件渲染,就是实现了填充图像的生成。
S609、将填充图像与第二可见区域叠加,并利用叠加后的图像替换二维图像中的运动部件,以生成所述编辑图像。
如图7中输出结果的两个编辑图像,将填充图像与第二可见区域叠加,并利用叠加后的图像来替换二维图像中的运动部件即后备箱盖或者右前门,最终得到了用来训练的,带有运动部件姿态标注的编辑图像。
S610、根据编辑图像以及标注,对待训练感知网络进行训练,以确定感知网络。
本步骤的具体说明参见图4所示实施例中的S403,在此不再赘述。
本实施例提供的感知网络训练方法,其中,基于三维运动部件指导的图像编辑技术,使用与二维图像中物体对齐的部件级CAD三维模型指导二维部件区域进行合理的运动与变化,从而使图像中的二维物体展现出不同的状态,并且自动生成相应的标注信息。相较于人工收集物体状态图像与标注的方法,本技术基于已经存在的数据自动地生成大量的图像,这些图像涵盖了物体全部的状态,同时相应的标注信息也会自动地生成。另一方面,与CG技术进行渲染的方法相比,本实施例所记录的方法生成的图像更加真实,极大减轻了域差异的问题,且生成速度更快。
图8为本申请实施例提供的又一种感知网络的训练方法的流程示意图。如图8所示,该方法的具体步骤包括:
S801、获取包含感知目标的图像数据以及模型数据。
S802、利用预设编辑算法,根据二维图像以及三维模型,生成编辑图像。
本实施例中S801~S802的具体说明参见图6所示实施例中的S601~S609,在此不再赘述。
S803、利用主骨干网络以及辅助骨干网络,分别对编辑图像进行特征提取,以确定主特征以及辅助特征。
在本步骤中,利用主骨干网络对编辑图像进行特征提取,同时也利用辅助骨干网络对对编辑图像进行特征提取。可以理解的是,本实施例不对两个骨干网络提取特征的先后顺序做限定。
还需要说明的是,主骨干网络以及辅助骨干网络可以是两个相同的神经网络算法,也可以是两个不同的神经网络算法。
由主骨干网络提取到的编辑图像的特征为主特征,由辅助骨干网络提取到的编辑图像的特征为辅助特征。提取特征的具体做法为神经网络中各卷积层进行卷积,在此不再赘述。
S804、将主特征以及辅助特征进行合并,以得到关联特征。
图9为本申请实施例提供的感知网络训练的数据流结构图。如图9所示,将主特征以及辅助特征结合起来形成关联特征。具体的,可以将主特征矩阵与辅助特征矩阵合并成一个关联特征矩阵。
可选的,在S804的步骤之前,还可以包括:
利用真实的含有某个特定感知对象或者场景的待感知图像对主骨干网络进行预训练,从而得到主骨干网络对应的第一权重,该第一权重是主骨干网络的神经网络参数。
对于辅助骨干网络,需要用通用的检测任务来进行预训练,通用的检测任务是指一套预设的对绝大多数神经网络都使用的训练方法,通过对辅助骨干网络进行预训练,就可以得到第二权重,该第二权重是辅助主干网络的神经网络参数。
将两者进行结合就能提高感知网络的泛化性能,使其能够感知更多不同类型的感知目标。
需要说明的是,在预训练结束后,第一权重和第二权重都会被冻结,即在后续训练过程中,第一权重与第二权重的值都不会发生变化。
S805、根据关联特征以及回归子网络,确定运动部件的状态向量。
将关联特征输入回归子网络,回归子网络生成感知目标的运动部件的状态向量。状态向量是对运动部件的状态的对应的值,例如以0代表关闭,1代表开启,则对于车辆的右前门和后备箱盖来说,组成的状态向量可以是[0,1]代表右前门关闭同时后备箱盖开启。
S806、根据状态向量以及标注计算交叉熵损失函数。
利用上一步中得到的状态向量与人工标注的状态进行对比,通过交叉熵损失函数算法,确定状态向量与标注状态的差别即交叉熵损失函数。
S807、利用交叉熵损失函数训练待训练感知网络,以确定感知网络。
将交叉熵损失函数进行反向传播,经多次重复迭代完成对感知网络的训练,确定感知网络。
还需要说明的是,如图9所述,本申请所描述的感知网络是一个多任务神经网络,能够同时对感知目标进行检测、实例分割、状态描述、以及对运动部件分割。感知目标进行检测是指能够用识别出感知目标,并将其用方框即类别包围盒包围起来。实例分割是指能够将检测到的感知目标在待感知图像中用曲线框框选出来。对运动部件分割是指能够将运动部件在待感知图像中用曲线框框选出来。状态描述是指能够将运动部件或者感知目标的状态用预设的文字显示出来。如图3b,图3d,图3f中所示,感知网络在对感知目标进行感知后,在待感知图片上进行了相应的多任务结果的标注。
本实施例提供的感知网络的训练方法,通过生成编辑图像后,引入了双路骨干网络的方式,主骨干网络使得感知网络对特定的感知目标的感知准确度提高,辅助主干网络则能够使得感知网络的泛化性能即多更多类型的感知目标也能够保持较高的感知准确度,最后再通过回归子模型进一步细化感知目标的感知粒度,准确识别感知目标的运动部件的位姿状态,加深了感知网络对感知目标的解析和理解能力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图10为本申请提供的一种视觉感知装置的结构示意图。该视觉感知装置可以通过软件、硬件或者两者的结合实现。
如图10所示,本实施例提供的视觉感知装置1000,包括:
获取模块1001,用于获取待感知图像,所述待感知图像包含至少一个目标对象;
处理模块1002,用于利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态,其中,所述感知目标为所述位姿状态符合预设属性的目标对象;
控制模块1003,用于根据预设控制算法以及所述位姿状态确定控制指令,以使待控制对象根据所述控制指令确定对于所述感知目标的处理策略。
可选的,所述处理模块1002用于利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态,包括:
所述处理模块1002,用于对所述待感知图像进行特征提取,以确定所述待感知图像的特征;
所述处理模块1002,还用于利用分类器对所述特征进行分类,以确定所述感知目标;
所述处理模块1002,还用于利用回归子网络确定所述感知目标的所述位姿状态。
在一种可能的设计中,所述处理模块1002,还用于利用回归子网络确定所述感知目标的所述位姿状态,包括:
所述处理模块1002,还用于确定预设数据库中与所述感知目标相匹配的运动部件;
所述处理模块1002,还用于利用回归子网络,根据所述运动部件以及所述运动部件对应的标准状态,确定所述运动部件的状态概率;
所述处理模块1002,还用于根据所述状态概率确定所述感知目标的所述位姿状态,所述位姿状态包括状态向量。
在一种可能的设计中,所述控制模块1003,用于根据预设控制算法以及所述位姿状态确定控制指令,包括:
所述控制模块1003,用于根据预设自动驾驶控制算法以及所述位姿状态确定所述控制指令,以使待控制车辆根据所述控制指令避让所述感知目标。
可选的,在所述处理模块1002,用于利用感知网络对所述待感知图像进行识别,以确定感知目标以及所述感知目标的位姿状态之后,还包括:
所述处理模块1002,还用于在所述待感知图像上标注所述感知目标以及所述位姿状态,并显示标注后的感知图像。
值得说明的是,图10所示实施例提供的视觉感知装置,可以执行上述任一方法实施例所提供的一种视觉感知方法,其具体实现原理、技术特征、专业名词解释以及技术效果类似,在此不再赘述。
图11为本申请提供的一种感知网络训练装置的结构示意图。该视觉感知装置可以通过软件、硬件或者两者的结合实现。
如图11所示,本实施例提供的感知网络训练装置1100,包括:
获取模块1101,用于获取包含感知目标的图像数据以及模型数据,所述图像数据包括:二维图像以及标注,所述模型数据包括:三维模型;
图像编辑模块1102,用于利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像;
训练模块1103,用于根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络。
在一种可能的设计中,所述图像编辑模块1102,用于利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像,包括:
所述图像编辑模块1102,用于确定所述感知目标对应的运动部件;
所述图像编辑模块1102,还用于在所述二维图像中提取出所述运动部件的第一可见区域;
所述图像编辑模块1102,还用于根据所述第一可见区域以及所述三维模型,生成所述编辑图像。
在一种可能的设计中,所述图像编辑模块1102,还用于根据所述第一可见区域以及所述三维模型,生成所述编辑图像,包括:
所述图像编辑模块1102,还用于根据所述运动部件确定所述运动部件的位姿信息,所述位姿信息为所述运动部件在空间6自由度上的运动状态所组成的矩阵;
所述图像编辑模块1102,还用于利用投影模型,根据所述第一可见区域以及所位姿信息,生成所述第一可见区域的三维点云;
所述图像编辑模块1102,还用于根据所述三维点云以及所述位姿信息,确定第二可见区域,所述第二可见区域为所述运动部件在运动后位置处的可见区域;
所述图像编辑模块1102,还用于利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像。
在一种可能的设计中,所述图像编辑模块1102,还用于利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像,包括:
所述图像编辑模块1102,还用于将所述第二可见区域与所述三维模型进行对齐,确定不可见区域;
所述图像编辑模块1102,还用于利用渲染技术,根据所述三维模型,确定所述不可见区域的填充图像;
所述图像编辑模块1102,还用于将所述填充图像与所述第二可见区域叠加,并利用叠加后的图像替换所述图像中的运动部件,以生成所述编辑图像。
可选的,所述图像编辑模块1102,用于确定第二可见区域之后,还包括:
所述图像编辑模块1102,还用于利用平滑处理算法,对所述第二可见区域进行平滑处理。
可选的,所述训练模块1103,用于根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络,包括:
所述训练模块1103,用于利用主骨干网络以及辅助骨干网络,分别对所述编辑图像进行特征提取,以确定主特征以及辅助特征;
所述训练模块1103,还用于将所述主特征以及所述辅助特征输入所述主骨干网络以及所述辅助网络,以得到关联特征,所述主骨干网络配置有第一权重,所述辅助骨干网络配置有第二权重;
所述训练模块1103,还用于根据所述关联特征以及回归子网络,确定所述运动部件的状态向量;
所述训练模块1103,还用于根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络。
在一种可能的设计中,所述训练模块1103,还用于根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络,包括:
所述训练模块1103,还用于根据所述状态向量以及所述标注计算交叉熵损失函数;
所述训练模块1103,还用于利用所述交叉熵损失函数训练所述待训练感知网络,以确定所述感知网络。
可选的,所述训练模块1103,还用于将所述主特征以及所述辅助特征输入所述主骨干网络以及所述辅助骨干网络,以得到关联特征之前,还包括:
所述训练模块1103,还用于对所述主骨干网络以及所述辅助骨干网络进行预训练,确定所述第一权重以及所述第二权重。
可选的,所述训练模块1103,还用于对所述主骨干网络以及所述辅助骨干网络进行预训练,包括:
所述获取模块1101,还用于获取实际测试图像以及通用检测图像;
所述训练模块1103,还用于利用所述实际测试图像对所述主骨干网络进行感知训练;
所述训练模块1103,还用于利用所述通用检测图像对所述辅助骨干网络进行感知训练。
值得说明的是,图11所示实施例提供的感知网络训练装置,可以执行上述任一方法实施例所提供的一种感知网络的训练方法,其具体实现原理、技术特征、专业名词解释以及技术效果类似,在此不再赘述。
图12为本申请提供的一种视觉感知电子设备的结构示意图。如图12所示,该视觉感知电子设备1200可以包括:至少一个处理器1201和存储器1202。图12示出的是以一个处理器为例的电子设备。
存储器1202,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器1202可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1201用于执行存储器1202存储的计算机执行指令,以实现以上各方法实施例所述的视觉感知方法。
其中,处理器1201可能是一个中央处理器(central processing unit,简称为CPU),或者是特定集成电路(application specific integrated circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器1202既可以是独立的,也可以跟处理器1201集成在一起。当所述存储器1202是独立于处理器1201之外的器件时,所述视觉感知电子设备1200,还可以包括:
总线1203,用于连接所述处理器1201以及所述存储器1202。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheral component,PCI)总线或扩展工业标准体系结构(extended industrystandard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1202和处理器1201集成在一块芯片上实现,则存储器1202和处理器1201可以通过内部接口完成通信。
图13为本申请提供的一种感知网络训练电子设备的结构示意图。如图13所示,该感知网络训练电子设备1300可以包括:至少一个处理器1301和存储器1302。图13示出的是以一个处理器为例的电子设备。
存储器1302,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器1302可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1301用于执行存储器1302存储的计算机执行指令,以实现以上各方法实施例所述的感知网络的训练方法。
其中,处理器1301可能是一个中央处理器(central processing unit,简称为CPU),或者是特定集成电路(application specific integrated circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器1302既可以是独立的,也可以跟处理器1301集成在一起。当所述存储器1302是独立于处理器1301之外的器件时,所述感知网络训练电子设备1300,还可以包括:
总线1303,用于连接所述处理器1301以及所述存储器1302。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheral component,PCI)总线或扩展工业标准体系结构(extended industrystandard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1302和处理器1301集成在一块芯片上实现,则存储器1302和处理器1301可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述各实施例中的视觉感知方法。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述各实施例中的感知网络的训练方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种感知网络的训练方法,其特征在于,包括:
获取包含感知目标的图像数据以及模型数据,所述图像数据包括:二维图像以及标注,所述模型数据包括:三维模型;
利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像;
根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络;
所述利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像,包括:
确定所述感知目标对应的运动部件;
在所述二维图像中提取出所述运动部件的第一可见区域;
根据所述第一可见区域以及所述三维模型,生成所述编辑图像;
所述根据所述第一可见区域以及所述三维模型,生成所述编辑图像,包括:
根据所述运动部件确定所述运动部件的位姿信息,所述位姿信息为所述运动部件在空间6自由度上的运动状态所组成的矩阵;
利用投影模型,根据所述第一可见区域以及所述位姿信息,生成所述第一可见区域的三维点云;
根据所述三维点云以及所述位姿信息,确定第二可见区域,所述第二可见区域为所述运动部件在运动后位置处的可见区域;
利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像;
所述利用填充算法,根据所述第二可见区域以及所述三维模型,生成所述编辑图像,包括:
将所述第二可见区域与所述三维模型进行对齐,确定不可见区域;
利用渲染技术,根据所述三维模型,确定所述不可见区域的填充图像;
将所述填充图像与所述第二可见区域叠加,并利用叠加后的图像替换所述二维图像中的运动部件,以生成所述编辑图像。
2.根据权利要求1所述的感知网络的训练方法,其特征在于,在所述确定第二可见区域之后,还包括:
利用平滑处理算法,对所述第二可见区域进行平滑处理。
3.根据权利要求1-2中任一项所述的感知网络的训练方法,其特征在于,所述根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络,包括:
利用主骨干网络以及辅助骨干网络,分别对所述编辑图像进行特征提取,以确定主特征以及辅助特征;
将所述主特征以及所述辅助特征进行合并,以得到关联特征;
根据所述关联特征以及回归子网络,确定所述运动部件的状态向量;
根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络。
4.根据权利要求3所述的感知网络的训练方法,其特征在于,所述根据所述状态向量以及所述标注,对所述待训练感知网络进行训练,以确定所述感知网络,包括:
根据所述状态向量以及所述标注计算交叉熵损失函数;
利用所述交叉熵损失函数训练所述待训练感知网络,以确定所述感知网络。
5.根据权利要求3所述的感知网络的训练方法,其特征在于,所述将所述主特征以及所述辅助特征进行合并,以得到关联特征之前,还包括:
所述主骨干网络配置有第一权重,所述辅助骨干网络配置有第二权重;
对所述主骨干网络以及所述辅助骨干网络进行预训练,确定所述第一权重以及所述第二权重。
6.根据权利要求5所述的感知网络的训练方法,其特征在于,所述预训练,包括:
获取实际测试图像以及通用检测图像;
利用所述实际测试图像对所述主骨干网络进行感知训练;
利用所述通用检测图像对所述辅助骨干网络进行感知训练。
7.根据权利要求3所述的感知网络的训练方法,其特征在于,所述主骨干网络与所述辅助骨干网络为相同的目标检测网络。
8.一种感知网络的训练装置,其特征在于,包括:
获取模块,用于获取包含感知目标的图像数据以及模型数据,所述图像数据包括:二维图像以及标注,所述模型数据包括:三维模型;
图像编辑模块,用于利用预设编辑算法,根据所述二维图像以及所述三维模型,生成编辑图像;
训练模块,用于根据所述编辑图像以及所述标注,对待训练感知网络进行训练,以确定感知网络;
在一种可能的设计中,所述图像编辑模块,具体用于:
确定所述感知目标对应的运动部件;
在所述二维图像中提取出所述运动部件的第一可见区域;
根据所述运动部件确定所述运动部件的位姿信息,所述位姿信息为所述运动部件在空间6自由度上的运动状态所组成的矩阵;
利用投影模型,根据所述第一可见区域以及所位姿信息,生成所述第一可见区域的三维点云;
根据所述三维点云以及所述位姿信息,确定第二可见区域,所述第二可见区域为所述运动部件在运动后位置处的可见区域;
将所述第二可见区域与所述三维模型进行对齐,确定不可见区域;
利用渲染技术,根据所述三维模型,确定所述不可见区域的填充图像;
将所述填充图像与所述第二可见区域叠加,并利用叠加后的图像替换所述图像中的运动部件,以生成所述编辑图像。
9.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的感知网络的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的感知网络的训练方法。
CN202010530027.7A 2020-06-11 2020-06-11 视觉感知以及感知网络训练方法、装置、设备和存储介质 Active CN111785085B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010530027.7A CN111785085B (zh) 2020-06-11 2020-06-11 视觉感知以及感知网络训练方法、装置、设备和存储介质
US17/199,338 US11875546B2 (en) 2020-06-11 2021-03-11 Visual perception method and apparatus, perception network training method and apparatus, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010530027.7A CN111785085B (zh) 2020-06-11 2020-06-11 视觉感知以及感知网络训练方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111785085A CN111785085A (zh) 2020-10-16
CN111785085B true CN111785085B (zh) 2021-08-27

Family

ID=72756194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010530027.7A Active CN111785085B (zh) 2020-06-11 2020-06-11 视觉感知以及感知网络训练方法、装置、设备和存储介质

Country Status (2)

Country Link
US (1) US11875546B2 (zh)
CN (1) CN111785085B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669335A (zh) * 2021-01-27 2021-04-16 东软睿驰汽车技术(沈阳)有限公司 车辆感知方法、装置、电子设备以及机器可读存储介质
CN113205070B (zh) * 2021-05-27 2024-02-20 三一专用汽车有限责任公司 视觉感知算法优化方法及系统
CN114519381A (zh) * 2021-12-31 2022-05-20 上海仙途智能科技有限公司 基于多任务学习网络的感知方法及装置、存储介质、终端
CN116150520B (zh) * 2022-12-30 2023-11-14 联通智网科技股份有限公司 一种数据处理方法、装置、设备和存储介质
CN116861262B (zh) * 2023-09-04 2024-01-19 苏州浪潮智能科技有限公司 一种感知模型训练方法、装置及电子设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2383415B (en) * 2000-09-08 2005-02-23 Automotive Tech Int Vehicle wireless sensing and communication system
US8620026B2 (en) * 2011-04-13 2013-12-31 International Business Machines Corporation Video-based detection of multiple object types under varying poses
US8498448B2 (en) * 2011-07-15 2013-07-30 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
US10146318B2 (en) * 2014-06-13 2018-12-04 Thomas Malzbender Techniques for using gesture recognition to effectuate character selection
WO2016104800A1 (ja) * 2014-12-25 2016-06-30 アイシン・エィ・ダブリュ株式会社 車両用駆動伝達装置の制御装置
US10789717B2 (en) * 2017-11-24 2020-09-29 Electronics And Telecommunications Research Institute Apparatus and method of learning pose of moving object
CN109949402A (zh) * 2017-12-20 2019-06-28 艾迪普(北京)文化科技股份有限公司 基于图像识别的三维模型生成方法
US10977520B2 (en) * 2018-12-18 2021-04-13 Slyce Acquisition Inc. Training data collection for computer vision
CN109886100A (zh) * 2019-01-14 2019-06-14 苏州工业园区职业技术学院 一种基于区域生成网络的行人检测系统
CN110175595B (zh) * 2019-05-31 2021-03-02 北京金山云网络技术有限公司 人体属性识别方法、识别模型训练方法及装置
CN110366107A (zh) * 2019-07-09 2019-10-22 三星电子(中国)研发中心 车辆通信方法及使用该方法的装置
CN111178253B (zh) * 2019-12-27 2024-02-27 佑驾创新(北京)技术有限公司 自动驾驶的视觉感知方法、装置、计算机设备和存储介质
US10911775B1 (en) * 2020-03-11 2021-02-02 Fuji Xerox Co., Ltd. System and method for vision-based joint action and pose motion forecasting

Also Published As

Publication number Publication date
CN111785085A (zh) 2020-10-16
US11875546B2 (en) 2024-01-16
US20210387646A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
CN111785085B (zh) 视觉感知以及感知网络训练方法、装置、设备和存储介质
CN105391970B (zh) 提供由车辆的场景相机捕获的至少一个图像的方法和系统
Soltani et al. Skeleton estimation of excavator by detecting its parts
Fritsch et al. Monocular road terrain detection by combining visual and spatial information
CN106169082A (zh) 训练分类器以检测目标环境图像中的对象的方法和系统
CN105512683A (zh) 基于卷积神经网络的目标定位方法及装置
Nakajima et al. Semantic object selection and detection for diminished reality based on slam with viewpoint class
Zitnick et al. The role of image understanding in contour detection
CN109658442A (zh) 多目标跟踪方法、装置、设备及计算机可读存储介质
Guo et al. Matching vehicles under large pose transformations using approximate 3d models and piecewise mrf model
CN111126393A (zh) 车辆外观改装判断方法、装置、计算机设备及存储介质
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
KR20210060535A (ko) 동적 공간 시나리오의 분석
US11748998B1 (en) Three-dimensional object estimation using two-dimensional annotations
Guo et al. Gesture recognition of traffic police based on static and dynamic descriptor fusion
Bruno et al. Analysis and fusion of 2d and 3d images applied for detection and recognition of traffic signs using a new method of features extraction in conjunction with deep learning
JP6052533B2 (ja) 特徴量抽出装置および特徴量抽出方法
CN109658523A (zh) 利用ar增强现实应用实现车辆各功能使用说明的方法
JP7078564B2 (ja) 画像処理装置及びプログラム
US20220245860A1 (en) Annotation of two-dimensional images
KR102301635B1 (ko) 인공지능 모델을 이용하여 바운딩 박스를 추론하는 방법 및 바운딩 박스를 추론하는 컴퓨터 장치
JP2014052977A (ja) 対応付け装置及びコンピュータプログラム
Lingtao et al. Object viewpoint classification based 3D bounding box estimation for autonomous vehicles
CN115393379A (zh) 一种数据标注方法及相关产品
Padilha et al. Motion-aware ghosted views for single layer occlusions in augmented reality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant