CN108416321A - 用于预测目标对象运动朝向的方法、车辆控制方法及装置 - Google Patents
用于预测目标对象运动朝向的方法、车辆控制方法及装置 Download PDFInfo
- Publication number
- CN108416321A CN108416321A CN201810247961.0A CN201810247961A CN108416321A CN 108416321 A CN108416321 A CN 108416321A CN 201810247961 A CN201810247961 A CN 201810247961A CN 108416321 A CN108416321 A CN 108416321A
- Authority
- CN
- China
- Prior art keywords
- target object
- photographic device
- application
- image
- apparent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims abstract description 17
- 210000005036 nerve Anatomy 0.000 claims description 76
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 42
- 230000009466 transformation Effects 0.000 description 38
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006854 communication Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005520 cutting process Methods 0.000 description 8
- 241000283070 Equus zebra Species 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 5
- 241000406668 Loxodonta cyclotis Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 230000004888 barrier function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
- B60W30/09—Taking automatic action to avoid collision, e.g. braking and steering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
- B60W30/095—Predicting travel path or likelihood of collision
- B60W30/0956—Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
- B60W50/14—Means for informing the driver, warning the driver or prompting a driver intervention
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/166—Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/402—Type
- B60W2554/4029—Pedestrians
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30256—Lane; Road marking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请的实施方式公开了一种用于预测目标对象运动朝向的方法、神经网络的训练方法、车辆智能控制方法、装置、电子设备、计算机可读存储介质以及计算机程序,其中的用于预测目标对象运动朝向的方法包括:获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向。
Description
技术领域
本申请涉及计算机视觉技术,尤其是涉及一种用于预测目标对象运动朝向的方法、用于预测目标对象运动朝向的装置、车辆智能控制方法、车辆智能控制装置、神经网络的训练方法、神经网络的训练装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
自动驾驶/辅助驾驶,是计算机视觉技术领域中的一个重要课题。
在车辆处于自动驾驶/辅助驾驶状态的情况下,如何对车辆进行更为准确的控制,以尽可能的提高车辆行驶的安全性,是一个值得关注的技术问题。
发明内容
本申请实施方式提供一种用于预测目标对象运动朝向、车辆智能控制以及训练神经网络的技术方案。
根据本申请实施方式其中一方面,提供一种用于预测目标对象运动朝向的方法,所述方法包括:获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向。
在本申请一实施方式中,所述摄像装置行进方向为物体行进方向,所述物体包括:车辆、飞行器、船舶或机器人。
在本申请又一实施方式中,所述图像包括:通过抽帧从所述摄像装置摄取的视频中抽取出的视频帧。
在本申请再一实施方式中,所述目标对象包括:行人、动物、非机动车或障碍物。
在本申请再一实施方式中,所述获取摄像装置摄取的图像中的目标对象的表观朝向包括:将所述图像中包含有所述目标对象的图像块,提供给第一神经网络进行表观朝向检测,以获得所述图像中的目标对象的表观朝向。
在本申请再一实施方式中,所述图像块的产生方式包括:将所述图像提供给用于检测目标对象外接框的第二神经网络,以获得所述图像中的目标对象外接框;根据所述获得的目标对象外接框,对所述图像进行切分处理,获得包含有所述目标对象的图像块。
在本申请再一实施方式中,所述第一神经网络,是经包含有目标对象表观朝向标注信息的训练图像集,预先训练完成的。
在本申请再一实施方式中,所述第一神经网络的训练过程包括:获取包含有目标对象的样本图像块;经待训练的第一神经网络,对所述样本图像块进行表观朝向检测,以获得所述样本图像块中的目标对象的表观朝向;以所述获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对所述待训练的第一神经网络进行监督学习。
在本申请再一实施方式中,所述表观朝向标注信息包括:表观朝向所属角度区间标注信息,或者表观朝向角度标注信息;所述待训练的第一神经网络输出的信息包括:表征目标对象表观朝向所属角度区间的信息,或者,表征目标对象表观朝向角度的信息。
在本申请再一实施方式中,所述角度区间包括以下至少之一:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间。
在本申请再一实施方式中,所述第一神经网络输出的目标对象的表观朝向所属角度区间中的任一角度,被作为所述目标对象的表观朝向;或者,所述第一神经网络输出的目标对象的表观朝向所属角度区间的中心角度,被作为所述目标对象的表观朝向。
在本申请再一实施方式中,所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系包括:所述三维空间中的目标对象,相对于所述三维空间中的摄像装置的方位。
在本申请再一实施方式中,所述三维空间中的目标对象,相对于三维空间中的摄像装置的方位包括:所述目标对象在三维空间中的位置与所述摄像装置在所述三维空间中的位置的连接线,与所述摄像装置运动朝向的法线的夹角。
在本申请再一实施方式中,所述获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系包括:根据投影变换矩阵,将所述目标对象在图像中的位置转换为所述目标对象在三维空间中的位置;确定所述摄像装置在所述三维空间中的位置;连接位于所述三维空间中的目标对象和摄像装置的位置,并确定所述位置的连接线与所述摄像装置运动朝向的法线的夹角。
在本申请再一实施方式中,所述确定所述摄像装置在所述三维空间中的位置包括:根据投影变换矩阵,将位于所述图像中的第一线上的第一点和第二点、以及位于所述图像中的第二线上的第三点和第四点,分别转换到所述三维空间中;将所述三维空间中的第一点和第二点形成的线,与所述三维空间中的第三点和第四点形成的线的相交点,作为所述摄像装置在所述三维空间中的位置;其中,所述图像中的第一线和第二线相互平行,且分别垂直于水平方向。
在本申请再一实施方式中,所述投影变换矩阵包括:预先针对摄像装置进行标定,而形成的投影变换矩阵;或者,所述投影变换矩阵包括:根据所述图像中的多个特征点在图像中的坐标,对单应矩阵函数进行求解,而获得的投影变换矩阵。
在本申请再一实施方式中,所述特征点包括:道路施划标线上的点。
在本申请再一实施方式中,所述方法还包括:根据所述目标对象相对于所述摄像装置行进方向的运动朝向,生成对所述摄像装置所在物体进行控制的指令或预警提示信息;所述物体包括:车辆、飞行器、船舶或机器人。
根据本申请实施方式的其中另一方面,提供一种神经网络的训练方法,所述方法包括:获取包括有人体的样本图像块的图像特征;经待训练的第一神经网络根据所述图像特征获取所述人体的人体轮廓关键点预测结果;以所述人体轮廓关键点预测结果与人体轮廓关键点标注信息之间的差异为指导信息,对所述待训练的第一神经网络进行监督学习。
在本申请一实施方式中,所述表观朝向标注信息包括:表观朝向角度区间标注信息,或者表观朝向角度标注信息;所述待训练的第一神经网络输出的信息包括:表征目标对象表观朝向角度区间的信息,或者,表征目标对象表观朝向角度的信息。
在本申请再一实施方式中,所述目标对象表观朝向角度区间包括以下至少之一:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间。
根据本申请实施方式其中另一方面,提供一种车辆智能控制方法,所述方法包括:获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向;根据所述目标对象相对于所述摄像装置行进方向的运动朝向,生成对所述摄像装置所在车辆进行控制的指令或者预警提示信息。
根据本申请实施方式其中另一方面,提供根据本申请实施方式的其中再一方面,提供一种用于预测目标对象运动朝向的装置,所述装置包括:第一获取模块,用于获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;确定朝向模块,用于根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向。
在本申请一实施方式中,所述摄像装置包括:设置于物体中的摄像装置,所述摄像装置行进方向为物体行进方向,所述物体包括:车辆、飞行器、船舶或机器人。
在本申请又一实施方式中,所述图像包括:通过抽帧从所述摄像装置摄取的视频中抽取出的视频帧。
在本申请再一实施方式中,所述目标对象包括:行人、动物、非机动车或障碍物。
在本申请再一实施方式中,所述第一获取模块进一步用于:将所述图像中包含有所述目标对象的图像块,提供给第一神经网络进行表观朝向检测,以获得所述图像中的目标对象的表观朝向。
在本申请再一实施方式中,所述装置还包括:产生图像块模块,用于将所述图像提供给用于检测目标对象外接框的第二神经网络,以获得所述图像中的目标对象外接框;根据所述获得的目标对象外接框,对所述图像进行切分处理,获得包含有所述目标对象的图像块。
在本申请再一实施方式中,所述第一神经网络,是经神经网络的训练装置利用包含有目标对象表观朝向标注信息的训练图像集,预先训练完成的。
在本申请再一实施方式中,所述第一神经网络的训练装置包括:第二获取模块,用于获取包含有目标对象的样本图像块;第三获取模块,用于经待训练的第一神经网络,对所述样本图像块进行表观朝向检测,以获得所述样本图像块中的目标对象的表观朝向;监督学习模块,用于以所述获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对所述待训练的第一神经网络进行监督学习。
在本申请再一实施方式中,所述表观朝向标注信息包括:表观朝向所属角度区间标注信息,或者表观朝向角度标注信息;所述第一神经网络输出的信息包括:表征目标对象表观朝向所属角度区间的信息,或者,表征目标对象表观朝向角度的信息。
在本申请再一实施方式中,所述角度区间包括以下至少之一:所述角度区间包括以下至少之一:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间。
在本申请再一实施方式中,所述第一神经网络输出的目标对象的表观朝向所属角度区间中的任一角度,被作为所述目标对象的表观朝向;或者,所述第一神经网络输出的目标对象的表观朝向所属角度区间的中心角度,被作为所述目标对象的表观朝向。
在本申请再一实施方式中,所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系包括:所述三维空间中的目标对象,相对于所述三维空间中的摄像装置的方位。
在本申请再一实施方式中,所述三维空间中的目标对象,相对于三维空间中的摄像装置的方位包括:所述目标对象在三维空间中的位置与所述摄像装置在所述三维空间中的位置的连接线,与所述摄像装置运动朝向的法线的夹角。
在本申请再一实施方式中,所述第一获取模块包括:第一子模块,用于根据投影变换矩阵,将所述目标对象在图像中的位置转换为所述目标对象在三维空间中的位置;第二子模块,用于确定所述摄像装置在所述三维空间中的位置;第三子模块,用于连接位于所述三维空间中的目标对象和摄像装置的位置,并确定所述位置的连接线与所述摄像装置运动朝向的法线的夹角。
在本申请再一实施方式中,所述第二子模块进一步用于:根据投影变换矩阵,将位于所述图像中的第一线上的第一点和第二点、以及位于所述图像中的第二线上的第三点和第四点,分别转换到所述三维空间中;将所述三维空间中的第一点和第二点形成的线,与所述三维空间中的第三点和第四点形成的线的相交点,作为所述摄像装置在所述三维空间中的位置;其中,所述图像中的第一线和第二线相互平行,且分别垂直于水平方向。
在本申请再一实施方式中,所述投影变换矩阵包括:预先针对摄像装置进行标定,而形成的投影变换矩阵;或者,所述投影变换矩阵包括:根据所述图像中的多个特征点在图像中的坐标,对单应矩阵函数进行求解,而获得的投影变换矩阵。
在本申请再一实施方式中,所述特征点包括:道路施划标线上的点。
在本申请再一实施方式中,所述装置还包括:智能控制模块,用于根据所述目标对象相对于所述摄像装置行进方向的运动朝向,生成对所述摄像装置所在物体进行控制的指令或预警提示信息,所述物体包括:车辆、飞行器、船舶或机器人。
根据本申请实施方式的其中再一方面,提供一种神经网络的训练装置,所述装置包括:第二获取模块,用于获取包含有目标对象的样本图像块;第三获取模块,用于经待训练的第一神经网络,对所述样本图像块进行表观朝向检测,以获得所述样本图像块中的目标对象的表观朝向;监督学习模块,用于以所述获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对所述待训练的第一神经网络进行监督学习。
在本申请一实施方式中,所述表观朝向标注信息包括:表观朝向所属角度区间标注信息,或者表观朝向角度标注信息;所述第一神经网络输出的信息包括:表征目标对象表观朝向所属角度区间的信息,或者,表征目标对象表观朝向角度的信息。
在本申请又一实施方式中,所述角度区间包括以下至少之一:所述角度区间包括以下至少之一:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间。
根据本申请实施方式的其中再一方面,提供一种车辆智能控制装置,所述装置包括:第一获取模块,用于获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;确定朝向模块,用于根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向;智能控制模块,用于根据所述目标对象相对于所述摄像装置行进方向的运动朝向,生成对所述摄像装置所在物体进行控制的指令或预警提示信息。
根据本申请实施方式再一个方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本申请任一方法实施方式。
根据本申请实施方式再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本申请任一方法实施方式。
根据本申请实施方式的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本申请任一方法实施方式。
基于本申请提供的用于预测目标对象运动朝向的方法、用于预测目标对象运动朝向的装置、神经网络的训练方法、神经网络的训练装置、车辆智能控制方法、车辆智能控制装置、电子设备、计算机可读存储介质及计算机程序,本申请通过利用目标对象的表观朝向和目标对象与摄像装置在三维空间中的相对位置关系,来确定目标对象相对于摄像装置行进方向的运动朝向,可以更为清晰的获知图像中的目标对象的当前状态。在本申请提供的技术方案适用于自动驾驶或者辅助驾驶等应用时,有利于准确的掌握行人等目标对象相对于车辆行驶方向的运动朝向,有利于准确的生成对车辆进行控制的指令或者预警提示信息,从而有利于提高车辆行驶的安全性。
下面通过附图和实施方式,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施方式,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请的用于预测目标对象运动朝向的方法一个实施方式的流程图;
图2为本申请的图像中的目标对象A和目标对象B的示意图;
图3为本申请的目标对象的表观朝向的一个实施方式的示意图;
图4为本申请的目标对象的表观朝向的另一个实施方式的示意图;
图5为本申请的图像中的两条相互平行的线的一个实施方式的示意图;
图6为图5中的两条平行线形成三维空间中的两条相交线的一个实施方式的示意图;
图7为本申请的目标对象和摄像装置的相对位置关系的一个实施方式的示意图;
图8为本申请的目标对象相对于摄像装置行进方向的运动朝向的一实施方式示意图;
图9为本申请的目标对象相对于摄像装置行进方向的运动朝向的另一实施方式示意图;
图10为本申请的神经网络的训练方法一个实施方式的流程图;
图11为本申请的车辆智能控制方法一个实施方式的流程图;
图12为本申请的用于预测目标对象运动朝向的装置一个实施方式的结构示意图;
图13为本申请的神经网络的训练装置一个实施方式的结构示意图;
图14为本申请的车辆智能控制装置一个实施方式的结构示意图;
图15为实现本申请实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
图1为本申请的用于预测目标对象运动朝向的方法一个实施例的流程图。
如图1所示,该实施例方法包括:
S100、获取摄像装置摄取的图像中的目标对象的表观朝向,并获取该图像中的目标对象与摄像装置在三维空间中的相对位置关系。
S110、根据目标对象的表观朝向以及上述相对位置关系,确定目标对象相对于摄像装置行进方向的运动朝向。
本申请通过利用目标对象的表观朝向和目标对象与摄像装置在三维空间中的相对位置关系,来确定目标对象相对于摄像装置行进方向的运动朝向,可以更为清晰的获知图像中的目标对象的当前状态;例如,在同一图像中的不同的目标对象的表观朝向相同,而不同目标对象与摄像装置在三维空间中的相对位置关系存在差异的情况下,本申请可以区分出图像中具有相同表观朝向的不同目标对象,相对于摄像装置行进方向(如摄像装置所在车辆等设备的行进方向)的运动朝向存在差异;再例如,在不同图像中的同一个目标对象的表观朝向发生了变化,而该目标对象与摄像装置在三维空间中的相对位置关系存在变化的情况下,本申请可以判断出不同图像中具有不同表观朝向的同一个目标对象,相对于摄像装置行进方向(如摄像装置所在车辆等设备的行进方向)的运动朝向相同。由此可知;本申请提供的技术方案有利于提高对图像的准确解读。在本申请提供的技术方案适用于自动驾驶或者辅助驾驶等应用时,有利于准确的掌握行人等目标对象相对于车辆行驶方向的运动朝向,有利于准确的生成对车辆进行控制的指令或预警提示信息,从而有利于提高车辆行驶的安全性。
在一个可选示例中,本申请中的摄像装置可以是设置于物体中的摄像装置,该物体通常可移动。例如,该物体可以为车辆、飞行器、船舶或者机器人等。本申请不限制物体的具体表现形式。另外,在下述技术方案的描述中,有时会以车辆为例,对本申请的技术方案进行说明,然而,这并不表明本申请中的物体必须为车辆。在本申请的摄像装置为设置于车辆中的摄像装置的情况下,该摄像装置可以为行车记录仪中的摄像头、或者设置在车辆驾驶室的摄像头或者其他具有摄像功能的元件。当然,本申请中的摄像装置也可以是设置于盲人导航设备等其他物体中的摄像装置。
在一个可选示例中,本申请中的图像可以是通过抽帧方式,从摄像装置摄取的视频中抽取出的视频帧。当然,该图像也可以是摄像装置摄取的视频中的任一视频帧或者摄像装置所拍摄的照片等。
在一个可选示例中,本申请中的目标对象可以根据实际需求预先设置,例如,目标对象可以为行人、动物、非机动车、障碍物等需要关注运动朝向的对象。另外,在下述技术方案的描述中,有时会以行人为例,对本申请的技术方案进行说明,然而,这并不表明本申请中的目标对象必须为行人。本申请不限制目标对象的具体表现形式。
在一个可选示例中,本申请中的目标对象的表观朝向通常是指,图像中的目标对象的外貌的可观测信息,所展现出的目标对象的朝向,例如,在目标对象为行人的情况下,图像中的行人的眼睛、鼻子等外貌的可观测信息,所展现出的行人的朝向。表观朝向的正前方通常是正对目标对象的方向。表观朝向的正后方通常是背对目标对象的方向。表观朝向的正右方通常是正对目标对象右侧的方向。表观朝向的正左方通常是正对目标对象左侧的方向。在图2所示的图像中,目标对象A(即行人A)和目标对象B(行人B)的外貌所展现出的各自的表观朝向,均为正右方。
在一个可选示例中,图像中所能体现出的目标对象的表观朝向,通常与目标对象的当前状态以及摄像装置的摄像方向相关,例如,摄像装置的摄像方向的改变,可以使位于同一实际位置处的没有发生任何改变的目标对象的表观朝向发生变化,再例如,位于同一位置处的目标对象发生转动,而摄像装置的摄像方向并没有发生变化,然而,目标对象的表观朝向会发生变化。
在一个可选示例中,本申请可以利用第一神经网络,来获取摄像装置摄取的图像中的目标对象的表观朝向,例如,将图像中的包含有目标对象的图像块,提供给第一神经网络进行表观朝向检测(如分类处理或者回归处理等),从而可以根据该第一神经网络输出的信息,获得图像中的目标对象的表观朝向。当然,本申请也可以将整个图像提供给第一神经网络进行表观朝向检测。本申请中的第一神经网络是利用训练图像集预先训练完成的。该训练图像集包含多个图像样本以及图像样本的表观朝向标注信息。训练该第一神经网络的过程可以参见下述针对图10的描述。本申请通过利用第一神经网络获得目标对象的表观朝向,有利于快速获得表观朝向,并有利于提高表观朝向的准确性。
另外,提供给第一神经网络的图像块的大小通常与第一神经网络对输入图像的尺寸要求相关,例如,第一神经网络要求输入的图像块的大小可以为256×256等。本申请可以对图像或者切分出的图像块进行缩放、拉伸以及压缩处理等,使切分出的图像块符合第一神经网络的要求。本申请对提供给第一神经网络的图像块的大小不作限制。
在一个可选示例中,本申请中的第一神经网络的网络结构可以根据表观朝向的具体分类(如四分类或者八分类或者更多分类等)的实际需求灵活设计,本申请实施例并不限制第一神经网络的具体网络结构;例如,本申请中的第一神经网络可以包括但不限于:卷积层、非线性Relu层、池化层以及全连接层等,该第一神经网络所包含的层数越多,则网络越深;再例如,本申请的神经网络的网络结构可以采用但不限于:ALexNet、深度残差网络(Deep Residual Network,ResNet)或者VGGnet(Visual Geometry Group Network,视觉几何组网络)等神经网络所采用的网络结构。
在一个可选示例中,本申请可以利用用于检测目标对象外接框的第二神经网络的方式,来获取图像中的包含有目标对象的图像块。例如,首先,将图像提供给用于检测目标对象外接框的第二神经网络,从而本申请可以根据该第二神经网络输出的目标对象检测结果信息,获得该图像中的目标对象外接框(如位于目标对象外接框对角线上的两个顶点的坐标),然后,利用上述获得的目标对象外接框,对图像进行切分处理,从而可以获得包含有目标对象的图像块。在图像中包括多个目标对象(如行人)的情况下,本申请可以利用用于检测目标对象外接框的第二神经网络获得多个目标对象外接框,从而可以通过切分处理,可以获得多个图像块。
在一个可选示例中,在本申请中的目标对象为行人的情况下,用于检测人体外接框的第二神经网络所输出的人体检测结果通常包括:图像中的人体外接框的中心位置以及人体尺度因子。本申请中的人体外接框的中心位置可以称为人体位置或者人体中心点等。本申请中的人体尺度因子可以用于确定人体外接框的大小。人体尺度因子可以包括缩放因子,例如,人体尺度因子s可以是使图像中的人头大小H,缩放到标准尺寸h的缩放因子,也就是说,s=h/H。之后,本申请可以利用人体外接框的中心位置和人体尺度因子对图像进行缩放处理,并根据第一神经网络对图像块的大小要求以及中心位置对缩放处理后的图像进行剪切处理,从而可以获得符合第一神经网络对图像块的大小要求的包含有人体的图像块。
在一个可选示例中,本申请中的用于检测目标对象外接框的第二神经网络,可以采用传统的基于HOG(Histogram of Oriented Gradient,方向梯度直方图)算子的级联检测器、基于深度学习的RCNN(Regions with Convolutional Neural Network,区域卷积神经网络)、FastRCNN、FasterRCNN、SSD(Single Shot MultiBox Detector,单目标多框检测器)、YOLO(You Only Look Once,仅看一次)算法等,来实现。本申请不限制用于检测目标对象外接框的第二神经网络的具体结构以及该第二神经网络形成目标对象外接框的具体方式等。
本申请通过利用第二神经网络获取目标对象外接框,有利于快速全面的获得目标对象外接框,并有利于提高目标对象外接框的准确性。
在一个可选示例中,本申请获得的图像块中所包含的目标对象可以为完整的目标对象,也可以为局部的目标对象。例如,在目标对象为行人的情况下,该图像块所包含的目标对象可以为完整的人体,也可以是局部部分人体(即人体的局部,如人的半身像等)。本申请不限制图像块所包含的目标对象的具体表现形态。
在一个可选示例中,本申请的第一神经网络所输出的信息通常可以包括:表征目标对象表观朝向所属角度区间的信息,例如,目标对象的表观朝向所属角度区间的两个角度端值,再例如,目标对象的表观朝向所属角度区间所对应的标识(如1表示一个角度区间,2表示另一个角度区间)等。
在一个可选示例中,目标对象的表观朝向通常属于0度至360度这一角度范围内,本申请可以将这一角度范围划分为多个角度区间,例如,本申请可以将0度至360度这一角度范围划分为正前方角度区间(315度至45度)、正左方角度区间(315度至225度)、正后方角度区间(225度至+135度)以及正右方角度区间(+45度至+135度),这4个角度区间;此时,第一神经网络可以是一个基于4分类处理的第一神经网络。再例如,本申请可以将0度至360度这一角度范围划分为:正前方角度区间(337.5度至22.5度)、左前方角度区间(337.5度至292.5度)、正左方角度区间(292.5度至247.5度)、左后方角度区间(247.5度至202.5度)、正后方角度区间(202.5度至157.5度)、右后方角度区间(157.5度至112.5度)、正右方角度区间(112.5度至67.5度)以及右前方角度区间(67.5度至22.5度),这8个角度区间;此时,第一神经网络可以是一个基于8分类处理的第一神经网络。
当然,本申请也可以将0度至360度这一角度范围划分为更多数量的角度区间。本申请不限制划分出的角度区间的数量。另外需要特别说明的是,两个相邻的角度区间所共用的角度端值通常分别属于这两个角度区间。
在一个可选示例中,本申请的第一神经网络所输出的信息也可以包括:表征目标对象表观朝向角度的信息,例如,目标对象的表观朝向角度,再例如,目标对象的表观朝向角度所对应的标识等。此时,第一神经网络可以是一个基于回归处理的第一神经网络。
在一个可选示例中,在本申请中的第一神经网络针对输入的图像块,输出目标对象的表观朝向所属角度区间的情况下,本申请通常可以将第一神经网络输出的目标对象的表观朝向所属的角度区间的中心角度,作为目标对象的表观朝向,例如,将112.5度至67.5度这一角度区间的中心角度90度作为目标对象的表观朝向。本申请中的角度区间的中心角度也可以称为平均角度,该平均角度并不是角度区间的两个端值的平均值,而可以认为是该角度区间中的所有整数角度的平均值。在将360度划分为上述8个角度区间的情况下,这8个角度区间的中心角度分别为:0度(也即360度)(图3中的指向正前方的箭头)、45度(图3中的指向右前方的箭头)、90度(图3中的指向正右方的箭头)、135度(图3中的指向右后方的箭头)、180度(图3中的指向正后方的箭头)、315度(图3中的指向左前方的箭头)、270度(图3中的指向正左方的箭头)以及225度(图3中的指向左后方的箭头)。
需要特别说明的是,图3所示的各方向是由设置于车辆中的摄像装置当前的拍摄方向(即摄像装置的行进方向)决定的。另外,本申请也可以将第一神经网络输出的目标对象的表观朝向所属的角度区间中的任一角度,作为目标对象的表观朝向。本申请不限制根据目标对象的表观朝向所属角度区间确定目标对象的表现朝向的具体实现方式。
在一个可选示例中,本申请可以根据后续的确定运动朝向的实际需求,对上述获得的目标对象的表观朝向进行变换处理,例如,本申请可以将目标对象的表观朝向变换为:目标对象的拍摄方向(例如,摄像目标对象的装置与目标对象的连接线,即第一神经网络输出的角度区间的中心角的一边)与目标对象正右方的逆时针夹角α。例如,图3中,摄像装置在目标对象(如行人)的左后方,即摄像装置从目标对象的左后肩方向进行拍摄,夹角α即为目标对象的左后方与目标对象正右方的逆时针夹角。再例如,图4中,摄像装置仍位于目标对象(如行人)的左后方,即摄像装置从目标对象的左后肩方向进行拍摄,夹角α同样为目标对象的左后方与目标对象正右方的逆时针夹角。本申请也可以采用其他转换方式对目标对象的表观朝向进行转换方式,从而表示目标对象的表观朝向。本申请不限制目标对象的表观朝向的具体表示方式。
在一个可选示例中,本申请可以将图像中的目标对象的位置和摄像装置都转换到同一个三维空间中,从而可以获得图像中的目标对象和摄像装置在该三维空间中的相对位置关系。这里的相对位置关系可以是:在以目标对象和摄像装置中的其中一个(如摄像装置)为基准点时,其中的另一个(如目标对象)相对于该基准点的方位。本申请中的相对位置关系通常可以以目标对象和摄像装置在三维空间中的连线与水平线或者垂直线(如三维空间中的y轴)的夹角来表示。本申请的三维空间通常为实际世界的三维空间,即基于世界坐标系的三维空间。该世界坐标系的原点可以位于任意位置。该世界坐标系的x轴和y轴所决定的平面可以认为是地平面,也可以认为与地平面平行。本申请不限制三维空间的具体表现形式。
在一个可选示例中,本申请可以利用投影变换矩阵(也可以称为单应矩阵),将图像中的目标对象的位置和摄像装置分别转换到同一个三维空间中。本申请通过投影变换矩阵可以快速准确的将图像中的目标对象的位置和摄像装置分别转换到同一个三维空间中。本申请中的投影变换矩阵可以为预先针对摄像装置进行标定处理,从而获得的投影变换矩阵,例如,利用预先设置的棋盘格等标定设备,对摄像装置进行标定处理,从而获得投影变换矩阵。本申请也可以根据图像中的特征点在图像中的坐标,针对用于获得投影变换矩阵的函数,进行求解,从而获得投影变换矩阵。上述用于获得投影变换矩阵的函数可以为opencv提供的用于获得投影变换矩阵的函数等。本申请不限制为获得投影变换矩阵所采用的用于获得投影变换矩阵的函数的具体表现形式,也不限制获得投影变换矩阵的具体实现方式。
在一个可选示例中,本申请为了获得投影变换矩阵所使用的图像中的特征点,通常为图像中的符合标准规范的物体(如道路施划标线等)上的点。可选的,图像中的特征点可以包括道路施划标线上的顶点等。本申请中的道路施划标线可以为白实线、白虚线、人行横道线、单黄实线、单黄虚线或者双黄实线等。本申请通过确定出图像中的多条道路施划标线中的每一条道路施划标线上的至少两个顶点(如宽度上的两个顶点或者长度方向上的两个顶点等),由于道路施划标线的宽度和长度等,通常符合一定的标准规范,因此,道路施划标线的实际宽度以及实际长度等通常是已知的,从而本申请可以利用图像中的足够多数量的特征点,对相应的函数进行求解,并从求解结果中获得投影变换矩阵。
本申请通过利用道路施划标线来获得投影变换矩阵,提供了一种易于实施的获得投影变换矩阵的方式,且可以动态的随时获得投影变换矩阵,有利于避免必须预先设置投影变换矩阵的现象。
在一个可选示例中,本申请利用投影变换矩阵,将图像中的目标对象所在的位置转换到三维空间中的一个例子为:根据投影变换矩阵,将目标对象外接框的下边沿上的一点在图像中的位置,转换到三维空间中,该点在三维空间中的位置被认为是目标对象在三维空间中的位置。目标对象外接框的下边沿上的一点通常可以采用下边沿的中点。由于目标对象外接框的下边沿的中点在三维空间中的位置,通常是距离目标对象的重心在三维空间中的地平面上的垂直投影点最近的位置,因此,本申请将目标对象外接框的最下边的中点在三维空间中的位置,作为目标对象在三维空间中的位置,在可以避免对图像中的目标对象的重心进行投影处理的情况下,尽可能保证目标对象在三维空间中的位置的准确性。
在一个可选示例中,本申请利用投影变换矩阵确定摄像装置在三维空间中的位置的一个例子为:在图像中设置两条相互平行的线(如相互平行的直线或者线段等),下述称为第一线和第二线。第一线和第二线分别垂直于图像的水平方向(如图5中的带箭头的两条平行线)。在第一线上选取两个点,即第一点和第二点,在第二线上选取两个点,即第三点和第四点。利用投影变换矩阵分别将第一点、第二点、第三点和第四点分别转换到三维空间中。将三维空间中的第一点和第二点连接起来,形成一条线,将三维空间中的第三点和第四点连接起来,形成另一条线,这两条线一定会存在相交点,本申请可以将这个相交点作为摄像装置在三维空间中的位置。图5中的带箭头的两条平行线在三维空间中,成为图6所示的存在相交点的两条线。本申请的上述确定摄像装置在三维空间中的位置的方式,有利于快速准确的获得摄像装置在三维空间中的位置,且该方式易于实施。
在一个可选示例中,本申请在获得了目标对象在三维空间中的位置以及摄像装置在三维空间中的位置之后,可以连接三维空间中的目标对象和摄像装置,并将两者的连接线与摄像装置运动朝向的法线的夹角(如图7所示的夹角β),作为目标对象和摄像装置的相对位置关系。本申请的上述确定目标对象和摄像装置的相对位置关系的方式,有利于快速准确的获得目标对象和摄像装置的相对位置关系,且该方式易于实施。当然,本申请也可以采用其他方式,来表示目标对象和摄像装置的相对位置关系,本申请不限制目标对象和摄像装置的相对位置关系的具体表现形式。
在一个可选示例中,本申请中的摄像装置行进方向包括:处于运动状态的摄像装置的运动方向以及处于静止状态的摄像装置的运动趋势的方向。摄像装置的行进方向通常与摄像装置所处设备的行进方向相同。例如,对于设置于车辆中的摄像装置而言,摄像装置行进方向通常为车辆行进方向,在车辆处于运动状态时,车辆的运动方向即为摄像装置行进方向;而在车辆处于静止状态时,车辆的车头所指方向即为车辆的运动趋势的方向,也即为摄像装置的运动趋势的方向。
在一个可选示例中,本申请可以针对上述获得的夹角α和夹角β进行运算,从而确定出目标对象相对于摄像装置行进方向的运动朝向。例如,目标对象相对于摄像装置行进方向的运动朝向θ,可以通过θ=α+β+π/4获得。
在一个可选示例中,具有相同的表观朝向的两个不同的目标对象,由于两个目标对象与摄像装置的相对位置关系不相同,最终确定出的目标对象相对于摄像装置行进方向的运动朝向可能并不相同。例如,图8中的行人和图9中的行人,两者的表观朝向相同,均为向右,然而,图8中的行人与摄像装置的相对位置关系,与图9中的行人与摄像装置的相对位置关系并不相同,本申请最终确定出图8中的行人相对于摄像装置的行进方向的运动朝向为向后,而图9中的行人相对于摄像装置的行进方向的运动朝向为向右。
在一个可选示例中,本申请可以根据上述获得的目标对象相对于摄像装置行进方向的运动朝向,生成对摄像装置所在物体(例如,车辆、飞行器、船舶或者机器人等)进行控制的指令或者预警提示信息,如提高时速的指令、降低时速的指令或者急刹车指令或者注意某个方位的提示信息等。本申请不限制根据目标对象相对于摄像装置行进方向的运动朝向产生指令或者预警提示信息的具体实现方式。
图10为本申请训练神经网络的方法的一个实施例的流程图。如图10所示,该实施例方法包括:步骤S1000、步骤S1010以及步骤S1020。本申请中的步骤S1000、步骤S1010以及步骤S1020包括:
S1000、获取包含有目标对象的样本图像块。
S1010、经待训练的第一神经网络,对样本图像块进行表观朝向检测,以获得样本图像块中的目标对象的表观朝向。
S1020、以获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对待训练的第一神经网络进行监督学习。
在一个可选示例中,本申请可以从训练数据集中获取图像样本,并获取图像样本中的包含有目标对象的样本图像块,例如,本申请可以将图像样本提供给成功训练的用于检测目标对象外接框的神经网络,由该神经网络输出目标对象检测结果信息,本申请可以根据该检测结果信息获得图像样本中的目标对象外接框(如位于目标对象外接框对角线上的两个顶点的坐标),然后,利用上述获得的目标对象外接框,对图像样本进行切分处理,从而可以获得包含有目标对象的样本图像块。在图像样本中包括多个目标对象(如行人)的情况下,本申请可以利用用于检测目标对象外接框的神经网络获得多个目标对象外接框,从而可以通过切分处理,可以获得多个样本图像块。
在一个可选示例中,本申请中的训练数据集中包括:多个用于训练第一神经网络的图像样本,通常情况下,每一个图像样本均设置有目标对象的表观朝向标注信息;例如,每一个图像样本均标注有:目标对象的表观朝向所属角度区间标注信息;再例如,每一个图像样本均标注有:目标对象的表观朝向角度标注信息。上述目标对象的表观朝向所属角度区间标注信息可以包括:目标对象的表观朝向所属角度区间的两个角度端值,也可以包括:目标对象的表观朝向所属角度区间所对应的标识(如1表示一个角度区间,2表示另一个角度区间)等。
在一个可选示例中,本申请可以按照随机读取方式或者按照图像样本排列次序顺序读取方式,一次从训练数据集中读取一个或者多个图像样本。
在一个可选示例中,图像样本中的目标对象的表观朝向通常属于0度至360度这一角度范围内,本申请可以将这一角度范围划分为多个角度区间,例如,上述方法实施方式中记载的4个角度区间或者8个角度区间。具体如上述方法实施方式中的描述,在此不再重复说明。
在一个可选示例中,本申请中的待训练的第一神经网络,会针对输入的每一个样本图像块,均进行表观朝向检测,并输出表观朝向检测结果信息。例如,第一神经网络会针对每一个样本图像块均输出目标对象的表观朝向所属角度区间。再例如,第一神经网络会针对每一个样本图像块均输出目标对象的表观朝向所属角度区间中的一个角度。
在一个可选示例中,在针对待训练的第一神经网络的训练达到预定迭代条件时,本次训练过程结束。本申请中的预定迭代条件可以包括:待训练的第一神经网络输出的信息与图像样本的表观朝向标注信息之间的差异满足预定差异要求。在差异满足该预定差异要求的情况下,本次对待训练的第一神经网络成功训练完成。本申请中的预定迭代条件也可以包括:对该待训练的第一神经网络进行训练,所使用的图像样本的数量达到预定数量要求等。在使用的图像样本的数量达到预定数量要求,然而,差异并未满足预定差异要求的情况下,本次对待训练的第一神经网络并未训练成功。成功训练完成的第一神经网络可以用于对图像中的目标对象进行表观朝向预测。
图11为本申请的车辆智能控制方法的一个实施例的流程图。
如图11所示,该实施例方法包括:步骤S1100、步骤S1110以及步骤S1120。本申请中的步骤S1100、步骤S1110以及步骤S1120包括:
S1100、获取摄像装置摄取的图像中的目标对象的表观朝向,并获取图像中的目标对象与摄像装置在三维空间中的相对位置关系。
S1110、根据目标对象的表观朝向以及上述相对位置关系,确定目标对象相对于摄像装置行进方向的运动朝向。
S1120、根据目标对象相对于摄像装置行进方向的运动朝向,生成对摄像装置所在车辆进行控制的指令或者预警提示信息。
在一个可选示例中,本申请中的S1100的具体实现过程可以参见上述图1中的步骤S100的描述。本申请中的S1110的具体实现过程可以参见上述图1中的步骤S110的描述。在此不再重复描述。
在一个可选示例中,本申请可以根据上述获得的目标对象相对于摄像装置行进方向的运动朝向,生成对摄像装置所在车辆进行控制的指令或者预警提示信息,如提高时速的指令、降低时速的指令或者急刹车指令或者注意某个方位的目标对象的提示信息等。本申请不限制根据目标对象相对于摄像装置行进方向的运动朝向产生指令或者预警提示信息的具体实现方式。
本申请的一个应用场景如图6所示,图6中,目标对象B即行人B从人行横道线的最左边走到人行横道线的最右边,位于人行横道线一侧的车辆中设置有摄像装置,设定该摄像装置摄取到了行人B从人行横道线的最左边走到人行横道线的最右边的整个过程的视频帧。在行人B位于人行横道的最左边时,本申请可以识别出图像中的该行人B的表观朝向为右前方,并可以通过计算获知行人B的运动朝向为向右。在行人B位于人行横道的中间位置时,本申请可以识别出图像中的该行人B的表观朝向为正右方,并可以通过计算获知行人B的运动朝向为向右。在行人B位于人行横道的最右边时,本申请可以识别出图像中的该行人B的表观朝向为右后方,并可以通过计算获知行人B的运动朝向为向右。由此可知,虽然,不同图像中的同一个行人的表观朝向发生了变化,而该目标对象与摄像装置在三维空间中的相对位置关系存在变化的情况下,本申请可以判断出不同图像中具有不同表观朝向的同一个目标对象,相对于车辆行进方向的运动朝向相同。因此,本申请提供的技术方案有利于提高对图像的准确解读,有利于准确的掌握行人等目标对象相对于车辆行驶方向的运动朝向,从而有利于准确的生成对车辆进行控制的指令或者预警提示信息,进而有利于提高车辆行驶的安全性。
本申请的一个应用场景如图8和图9所示。设定图8和图9均为车辆中的摄像装置摄取到的视频中的一视频帧。本申请可以识别出图8所示的图像中的该行人的表观朝向为右前方,并可以通过计算获知该行人的运动朝向为右后。本申请可以识别出图9所示的图像中的该行人的表观朝向为右前方,并可以通过计算获知该行人的运动朝向为右方。由此可知,虽然不同图像中的不同行人的表观朝向相同,而不同行人与摄像装置在三维空间中的相对位置关系并不相同,本申请可以判断出不同图像中具有相同表观朝向的不同行人,相对于车辆行进方向的运动朝向不同。因此,本申请提供的技术方案有利于提高对图像的准确解读,有利于准确的掌握行人等目标对象相对于车辆行驶方向的运动朝向,从而有利于准确的生成对车辆进行控制的指令或者预警提示信息,进而有利于提高车辆行驶的安全性。
图12为本申请的用于预测目标对象运动朝向的装置一个实施例的结构示意图。如图12所示,该实施例的装置主要包括:第一获取模块1200以及确定朝向模块1210。在一个可选示例中,该装置还可以包括:产生图像块模块1220、神经网络的训练装置1230以及智能控制模块1240中的至少一个。
第一获取模块1200主要用于获取摄像装置摄取的图像中的目标对象的表观朝向,并获取图像中的目标对象与摄像装置在三维空间中的相对位置关系。例如,第一获取模块1200将图像中包含有目标对象的图像块,提供给第一神经网络进行表观朝向检测,以获得图像中的目标对象的表观朝向。
确定朝向模块1210主要用于根据目标对象的表观朝向以及相对位置关系,确定目标对象相对于摄像装置行进方向的运动朝向。
产生图像块模块1220主要用于将图像提供给用于检测目标对象外接框的第二神经网络,以获得图像中的目标对象外接框,根据获得的目标对象外接框,对图像进行切分处理,获得包含有目标对象的图像块。
神经网络的训练装置1230主要用于利用包含有目标对象表观朝向标注信息的训练图像集,对待训练的第一神经网络进行训练。
智能控制模块1240主要用于根据目标对象相对于摄像装置行进方向的运动朝向,生成对摄像装置所在物体进行控制的指令或预警提示信息,其中的物体可以为:车辆、飞行器、船舶或者机器人等。
在一个可选示例中,本申请中的摄像装置可以包括:设置于物体中的摄像装置,摄像装置行进方向为物体行进方向。该物体可以包括:车辆、飞行器、船舶或机器人。本申请中的图像可以包括:通过抽帧从摄像装置摄取的视频中抽取出的视频帧。本申请中的目标对象可以包括:行人、动物、非机动车或障碍物。
在一个可选示例中,本申请中的第一获取模块可以包括:第一子模块、第二子模块以及第三子模块(图中未示出)。
上述第一子模块主要用于根据投影变换矩阵,将目标对象在图像中的位置转换为目标对象在三维空间中的位置。
上述第二子模块主要用于确定摄像装置在三维空间中的位置。例如,第二子模块根据投影变换矩阵,将位于图像中的第一线上的第一点和第二点、以及位于图像中的第二线上的第三点和第四点,分别转换到三维空间中,第二子模块将三维空间中的第一点和第二点形成的线,与三维空间中的第三点和第四点形成的线的相交点,作为摄像装置在三维空间中的位置;其中的图像中的第一线和第二线相互平行,且分别垂直于水平方向。本申请的投影变换矩阵可以包括:预先针对摄像装置进行标定,而形成的投影变换矩阵;本申请的投影变换矩阵也可以包括:根据图像中的多个特征点在图像中的坐标,对单应矩阵函数进行求解,而获得的投影变换矩阵。本申请的特征点可以包括:道路施划标线上的点。
上述第三子模块主要用于连接位于三维空间中的目标对象和摄像装置的位置,并确定该位置的连接线与摄像装置运动朝向的法线的夹角。
在一个可选示例中,本申请中的第一神经网络的训练装置1230主要包括:第二获取模块1300、第三获取模块1310以及监督学习模块1320。
第二获取模块1300主要用于获取包含有目标对象的样本图像块。
第三获取模块1310主要用于经待训练的第一神经网络,对样本图像块进行表观朝向检测,以获得样本图像块中的目标对象的表观朝向。
监督学习模块1320主要用于以获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对待训练的第一神经网络进行监督学习。
在一个可选示例中,本申请中的表观朝向标注信息可以包括:表观朝向所属角度区间标注信息;或者表观朝向标注信息可以包括:表观朝向角度标注信息;待训练的第一神经网络输出的信息可以包括:表征目标对象表观朝向所属角度区间的信息,或者,待训练的第一神经网络输出的信息可以包括:表征目标对象表观朝向角度的信息。
在一个可选示例中,本申请的角度区间包括:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间中的至少一个。例如,本申请的角度区间包括:正前方角度区间、正左方角度区间、正后方角度区间以及正右方角度区间。再例如,本申请的角度区间包括:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间。
在一个可选示例中,第一神经网络输出的目标对象的表观朝向所属角度区间中的任一角度,被作为目标对象的表观朝向。
在一个可选示例中,第一神经网络输出的目标对象的表观朝向所属角度区间的中心角度,被作为目标对象的表观朝向。
在一个可选示例中,本申请的图像中的目标对象与摄像装置在三维空间中的相对位置关系包括:三维空间中的目标对象,相对于三维空间中的摄像装置的方位。
在一个可选示例中,本申请的三维空间中的目标对象,相对于三维空间中的摄像装置的方位包括:目标对象在三维空间中的位置与摄像装置在三维空间中的位置的连接线,与摄像装置运动朝向的法线的夹角。
第一获取模块1200以及确定朝向模块1210所执行的具体操作,可以参见上述方法实施方式中针对图1中的步骤S100以及步骤S110的描述。在此不再重复说明。
图13为本申请的神经网络的训练装置一个实施例的结构示意图。如图13所示,该实施例的装置主要包括:第二获取模块1300、第三获取模块1310以及监督学习模块1320。
第二获取模块1300主要用于获取包含有目标对象的样本图像块。
第三获取模块1310主要用于经待训练的第一神经网络,对样本图像块进行表观朝向检测,以获得样本图像块中的目标对象的表观朝向。
监督学习模块1320主要用于以获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对待训练的第一神经网络进行监督学习。
在一个可选示例中,本申请中的表观朝向标注信息可以包括:表观朝向所属角度区间标注信息;或者表观朝向标注信息可以包括:表观朝向角度标注信息;待训练的第一神经网络输出的信息可以包括:表征目标对象表观朝向所属角度区间的信息,或者,待训练的第一神经网络输出的信息可以包括:表征目标对象表观朝向角度的信息。
在一个可选示例中,本申请的角度区间包括:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间中的至少一个。例如,本申请的角度区间包括:正前方角度区间、正左方角度区间、正后方角度区间以及正右方角度区间。再例如,本申请的角度区间包括:正前方角度区间、左前方角度区间、正左方角度区间、左后方角度区间、正后方角度区间、右后方角度区间、正右方角度区间以及右前方角度区间。
第二获取模块1300、第三获取模块1310及监督学习模块1320所执行的具体操作,可以参见上述方法实施方式中针对图10中的步骤S1000、S1010以及S1020的描述。在此不再重复说明。
图14为本申请的车辆智能控制装置一个实施方式的结构示意图。图14中的装置主要包括:第一获取模块1200、确定朝向模块1210以及智能控制模块1240。在一个可选示例中,该装置还可以包括:产生图像块模块1220。
第一获取模块1200主要用于获取摄像装置摄取的图像中的目标对象的表观朝向,并获取图像中的目标对象与摄像装置在三维空间中的相对位置关系。例如,第一获取模块1200将图像中包含有目标对象的图像块,提供给第一神经网络进行表观朝向检测,以获得图像中的目标对象的表观朝向。
确定朝向模块1210主要用于根据目标对象的表观朝向以及相对位置关系,确定目标对象相对于摄像装置行进方向的运动朝向。
产生图像块模块1220主要用于将图像提供给用于检测目标对象外接框的第二神经网络,以获得图像中的目标对象外接框,根据获得的目标对象外接框,对图像进行切分处理,获得包含有目标对象的图像块。
智能控制模块1240主要用于根据目标对象相对于摄像装置行进方向的运动朝向,生成对摄像装置所在物体进行控制的指令或预警提示信息,其中的物体可以为:车辆、飞行器、船舶或者机器人等。
第一获取模块1200、确定朝向模块1210、产生图像块模块1220以及智能控制模块1240执行的具体操作,可以参见上述方法实施方式中针对图1和图11中的相关描述。在此不再重复说明。
示例性设备
图15示出了适于实现本申请的示例性设备1500,设备1500可以是车辆中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图15中,设备1500包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)1501,和/或,一个或者多个利用神经网络进行用于预测目标对象运动朝向的图像处理器(GPU)1513等,处理器可以根据存储在只读存储器(ROM)1502中的可执行指令或者从存储部分1508加载到随机访问存储器(RAM)1503中的可执行指令而执行各种适当的动作和处理。通信部1512可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器1502和/或随机访问存储器1530中通信以执行可执行指令,通过总线1504与通信部1512相连、并经通信部1512与其他目标设备通信,从而完成本申请中的相应步骤。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。此外,在RAM 1503中,还可以存储有装置操作所需的各种程序以及数据。CPU1501、ROM1502以及RAM1503通过总线1504彼此相连。在有RAM1503的情况下,ROM1502为可选模块。RAM1503存储可执行指令,或在运行时向ROM1502中写入可执行指令,可执行指令使中央处理单元1501执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口1505也连接至总线1504。通信部1512可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装在存储部分1508中。
需要特别说明的是,如图15所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图15的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU和CPU可分离设置,再如理,可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本申请实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分1509从网络上被下载及安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本申请中记载的实现上述相应步骤的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的用于预测目标对象运动朝向的方法或者神经网络的训练方法或者车辆智能控制方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种用于预测目标对象运动朝向的方法、神经网络的训练方法和车辆智能控制方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中的方法包括:第一装置向第二装置发送用于预测目标对象运动朝向的指示或者训练神经网络指示或者车辆智能控制指示,该指示使得第二装置执行上述任一可能的实施例中的用于预测目标对象运动朝向的方法或者训练神经网络方法或者车辆智能控制方法;第一装置接收第二装置发送的用于预测目标对象运动朝向的结果或者神经网络训练结果或者车辆智能控制结果。
在一些实施例中,该用于预测目标对象运动朝向的指示或者训练神经网络指示或者车辆智能控制指示可以包括调用指令,第一装置可以通过调用的方式指示第二装置执行用于预测目标对象运动朝向的操作或者训练神经网络操作或者车辆智能控制操作,相应地,响应于接收到调用指令,第二装置可以执行上述用于预测目标对象运动朝向的方法或者训练神经网络的方法或者车辆智能控制方法中的任意实施例中的步骤和/或流程。
应理解,本公开实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本公开实施例的限定。还应理解,在本公开中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述,是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用,并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。
Claims (10)
1.一种用于预测目标对象运动朝向的方法,其特征在于,包括:
获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;
根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向。
2.根据权利要求1所述的方法,其特征在于,所述摄像装置包括:设置于物体中的摄像装置,所述摄像装置行进方向为物体行进方向,所述物体包括:车辆、飞行器、船舶或机器人。
3.一种神经网络的训练方法,其特征在于,包括:
获取包括有人体的样本图像块的图像特征;
经待训练的第一神经网络根据所述图像特征获取所述人体的人体轮廓关键点预测结果;
以所述人体轮廓关键点预测结果与人体轮廓关键点标注信息之间的差异为指导信息,对所述待训练的第一神经网络进行监督学习。
4.一种车辆智能控制方法,其特征在于,包括:
获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;
根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向;
根据所述目标对象相对于所述摄像装置行进方向的运动朝向,生成对所述摄像装置所在车辆进行控制的指令或者预警提示信息。
5.一种用于预测目标对象运动朝向的装置,其特征在于,包括:
第一获取模块,用于获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;
确定朝向模块,用于根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向。
6.一种神经网络的训练装置,其特征在于,包括:
第二获取模块,用于获取包含有目标对象的样本图像块;
第三获取模块,用于经待训练的第一神经网络,对所述样本图像块进行表观朝向检测,以获得所述样本图像块中的目标对象的表观朝向;
监督学习模块,用于以所述获得的目标对象的表观朝向与样本图像块的表观朝向标注信息之间的差异为指导信息,对所述待训练的第一神经网络进行监督学习。
7.一种车辆智能控制装置,其特征在于,包括:
第一获取模块,用于获取摄像装置摄取的图像中的目标对象的表观朝向,并获取所述图像中的目标对象与所述摄像装置在三维空间中的相对位置关系;
确定朝向模块,用于根据所述目标对象的表观朝向以及所述相对位置关系,确定所述目标对象相对于所述摄像装置行进方向的运动朝向;
智能控制模块,用于根据所述目标对象相对于所述摄像装置行进方向的运动朝向,生成对所述摄像装置所在物体进行控制的指令或预警提示信息。
8.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-4中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-4中任一项所述的方法。
10.一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现上述权利要求1-4中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810247961.0A CN108416321A (zh) | 2018-03-23 | 2018-03-23 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
JP2020550616A JP7101255B2 (ja) | 2018-03-23 | 2019-03-20 | 目標対象の運動の向きを予測するための方法、車両制御方法及び装置 |
PCT/CN2019/078886 WO2019179464A1 (zh) | 2018-03-23 | 2019-03-20 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
US17/025,313 US11710243B2 (en) | 2018-03-23 | 2020-09-18 | Method for predicting direction of movement of target object, vehicle control method, and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810247961.0A CN108416321A (zh) | 2018-03-23 | 2018-03-23 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108416321A true CN108416321A (zh) | 2018-08-17 |
Family
ID=63133339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810247961.0A Withdrawn CN108416321A (zh) | 2018-03-23 | 2018-03-23 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11710243B2 (zh) |
JP (1) | JP7101255B2 (zh) |
CN (1) | CN108416321A (zh) |
WO (1) | WO2019179464A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109758756A (zh) * | 2019-02-28 | 2019-05-17 | 国家体育总局体育科学研究所 | 基于3d相机的体操视频分析方法及系统 |
CN109878512A (zh) * | 2019-01-15 | 2019-06-14 | 北京百度网讯科技有限公司 | 自动驾驶控制方法、装置、设备及计算机可读存储介质 |
CN110059623A (zh) * | 2019-04-18 | 2019-07-26 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110239529A (zh) * | 2019-06-28 | 2019-09-17 | 北京海益同展信息科技有限公司 | 车辆控制方法、装置及计算机可读存储介质 |
WO2019179464A1 (zh) * | 2018-03-23 | 2019-09-26 | 北京市商汤科技开发有限公司 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
CN111079477A (zh) * | 2018-10-19 | 2020-04-28 | 北京奇虎科技有限公司 | 监控分析方法及监控分析系统 |
CN111079473A (zh) * | 2018-10-19 | 2020-04-28 | 北京奇虎科技有限公司 | 性别识别方法、装置、电子设备及计算机可读存储介质 |
CN111192327A (zh) * | 2020-01-03 | 2020-05-22 | 北京百度网讯科技有限公司 | 用于确定障碍物朝向的方法和装置 |
CN111292350A (zh) * | 2018-12-10 | 2020-06-16 | 北京京东尚科信息技术有限公司 | 目标朝向的优化算法、系统、电子设备及存储介质 |
CN111756990A (zh) * | 2019-03-29 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 一种图像传感器控制方法、装置及系统 |
CN112017239A (zh) * | 2019-05-31 | 2020-12-01 | 北京市商汤科技开发有限公司 | 确定目标对象朝向方法、智能驾驶控制方法和装置及设备 |
CN112289040A (zh) * | 2020-11-25 | 2021-01-29 | 浙江大华技术股份有限公司 | 一种车辆行驶方向识别的方法、装置及存储介质 |
CN113228040A (zh) * | 2018-12-21 | 2021-08-06 | 伟摩有限责任公司 | 多级对象行进方向估计 |
CN113256625A (zh) * | 2021-06-29 | 2021-08-13 | 北京天星博迈迪医疗器械有限公司 | 一种电子设备和识别装置 |
CN115331174A (zh) * | 2022-08-19 | 2022-11-11 | 中国安全生产科学研究院 | 一种企业安全生产标准化智能监管系统及方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
US11586843B1 (en) * | 2020-03-26 | 2023-02-21 | Ambarella International Lp | Generating training data for speed bump detection |
CN111845554A (zh) * | 2020-06-03 | 2020-10-30 | 北京中科慧眼科技有限公司 | 一种基于双目立体相机的行人碰撞预警方法和装置 |
EP3958167B1 (en) * | 2020-08-21 | 2024-03-20 | Toyota Jidosha Kabushiki Kaisha | A method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system |
CN112669335A (zh) * | 2021-01-27 | 2021-04-16 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆感知方法、装置、电子设备以及机器可读存储介质 |
CN112668563B (zh) * | 2021-03-16 | 2021-06-04 | 智道网联科技(北京)有限公司 | 一种基于视频图像实现移动轨迹推算的方法及相关装置 |
US20240104761A1 (en) * | 2021-03-30 | 2024-03-28 | Carnegie Mellon University | System and Method for Using Non-Axis Aligned Bounding Boxes for Retail Detection |
CN113435350A (zh) * | 2021-06-30 | 2021-09-24 | 浙江大华技术股份有限公司 | 一种交通标线检测方法、装置、设备和介质 |
CN115412709B (zh) * | 2022-07-26 | 2023-11-10 | 广州汽车集团股份有限公司 | 投影方法、装置、车辆及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4561346B2 (ja) * | 2004-12-08 | 2010-10-13 | 株式会社豊田中央研究所 | 車両運動推定装置及び移動体検出装置 |
US20150131861A1 (en) * | 2011-07-15 | 2015-05-14 | International Business Machines Corporation | Multi-view object detection using appearance model transfer from similar scenes |
CN105242270A (zh) * | 2014-07-03 | 2016-01-13 | 通用汽车环球科技运作有限责任公司 | 车辆雷达控制 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4609076B2 (ja) * | 2005-01-20 | 2011-01-12 | トヨタ自動車株式会社 | 移動物体検出装置及び移動物体検出方法 |
JP2014059841A (ja) * | 2012-09-19 | 2014-04-03 | Daimler Ag | 運転支援装置 |
US10493985B2 (en) * | 2014-12-19 | 2019-12-03 | Hitachi, Ltd. | Travel control device |
US9877012B2 (en) * | 2015-04-01 | 2018-01-23 | Canon Kabushiki Kaisha | Image processing apparatus for estimating three-dimensional position of object and method therefor |
CN106033615B (zh) * | 2016-05-16 | 2017-09-15 | 北京旷视科技有限公司 | 目标对象运动方向检测方法和装置 |
JP6868805B2 (ja) * | 2016-06-07 | 2021-05-12 | パナソニックIpマネジメント株式会社 | 画像生成装置、画像生成方法、およびプログラム |
CN107563256A (zh) | 2016-06-30 | 2018-01-09 | 北京旷视科技有限公司 | 辅助驾驶信息产生方法及装置、辅助驾驶系统 |
US10007854B2 (en) * | 2016-07-07 | 2018-06-26 | Ants Technology (Hk) Limited | Computer vision based driver assistance devices, systems, methods and associated computer executable code |
CN107194938A (zh) * | 2017-04-17 | 2017-09-22 | 上海大学 | 基于深度卷积神经网络的图像轮廓检测方法 |
CN107122736B (zh) * | 2017-04-26 | 2020-06-12 | 北京邮电大学 | 一种基于深度学习的人体朝向预测方法及装置 |
CN107609486A (zh) * | 2017-08-16 | 2018-01-19 | 中国地质大学(武汉) | 一种车辆前向防撞预警方法及系统 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN108416321A (zh) * | 2018-03-23 | 2018-08-17 | 北京市商汤科技开发有限公司 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
-
2018
- 2018-03-23 CN CN201810247961.0A patent/CN108416321A/zh not_active Withdrawn
-
2019
- 2019-03-20 WO PCT/CN2019/078886 patent/WO2019179464A1/zh active Application Filing
- 2019-03-20 JP JP2020550616A patent/JP7101255B2/ja active Active
-
2020
- 2020-09-18 US US17/025,313 patent/US11710243B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4561346B2 (ja) * | 2004-12-08 | 2010-10-13 | 株式会社豊田中央研究所 | 車両運動推定装置及び移動体検出装置 |
US20150131861A1 (en) * | 2011-07-15 | 2015-05-14 | International Business Machines Corporation | Multi-view object detection using appearance model transfer from similar scenes |
CN105242270A (zh) * | 2014-07-03 | 2016-01-13 | 通用汽车环球科技运作有限责任公司 | 车辆雷达控制 |
Non-Patent Citations (2)
Title |
---|
ARSALAN MOUSAVIAN等: "3d bounding box estimation using deep learning and geometry", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
孙英慧: "基于公路双平行线组的相机外参数在线标定", 《电子科技》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11710243B2 (en) | 2018-03-23 | 2023-07-25 | Sensetime Group Limited | Method for predicting direction of movement of target object, vehicle control method, and device |
WO2019179464A1 (zh) * | 2018-03-23 | 2019-09-26 | 北京市商汤科技开发有限公司 | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 |
CN111079473A (zh) * | 2018-10-19 | 2020-04-28 | 北京奇虎科技有限公司 | 性别识别方法、装置、电子设备及计算机可读存储介质 |
CN111079477A (zh) * | 2018-10-19 | 2020-04-28 | 北京奇虎科技有限公司 | 监控分析方法及监控分析系统 |
CN111292350A (zh) * | 2018-12-10 | 2020-06-16 | 北京京东尚科信息技术有限公司 | 目标朝向的优化算法、系统、电子设备及存储介质 |
CN111292350B (zh) * | 2018-12-10 | 2024-03-01 | 北京京东乾石科技有限公司 | 目标朝向的优化算法、系统、电子设备及存储介质 |
CN113228040B (zh) * | 2018-12-21 | 2024-03-15 | 伟摩有限责任公司 | 多级对象行进方向估计的系统和方法 |
CN113228040A (zh) * | 2018-12-21 | 2021-08-06 | 伟摩有限责任公司 | 多级对象行进方向估计 |
CN109878512A (zh) * | 2019-01-15 | 2019-06-14 | 北京百度网讯科技有限公司 | 自动驾驶控制方法、装置、设备及计算机可读存储介质 |
CN109758756A (zh) * | 2019-02-28 | 2019-05-17 | 国家体育总局体育科学研究所 | 基于3d相机的体操视频分析方法及系统 |
CN109758756B (zh) * | 2019-02-28 | 2021-03-23 | 国家体育总局体育科学研究所 | 基于3d相机的体操视频分析方法及系统 |
CN111756990B (zh) * | 2019-03-29 | 2022-03-01 | 阿里巴巴集团控股有限公司 | 一种图像传感器控制方法、装置及系统 |
CN111756990A (zh) * | 2019-03-29 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 一种图像传感器控制方法、装置及系统 |
CN110059623A (zh) * | 2019-04-18 | 2019-07-26 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110059623B (zh) * | 2019-04-18 | 2021-06-11 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN112017239A (zh) * | 2019-05-31 | 2020-12-01 | 北京市商汤科技开发有限公司 | 确定目标对象朝向方法、智能驾驶控制方法和装置及设备 |
CN112017239B (zh) * | 2019-05-31 | 2022-12-20 | 北京市商汤科技开发有限公司 | 确定目标对象朝向方法、智能驾驶控制方法和装置及设备 |
CN110239529A (zh) * | 2019-06-28 | 2019-09-17 | 北京海益同展信息科技有限公司 | 车辆控制方法、装置及计算机可读存储介质 |
CN111192327B (zh) * | 2020-01-03 | 2023-09-29 | 北京百度网讯科技有限公司 | 用于确定障碍物朝向的方法和装置 |
CN111192327A (zh) * | 2020-01-03 | 2020-05-22 | 北京百度网讯科技有限公司 | 用于确定障碍物朝向的方法和装置 |
CN112289040A (zh) * | 2020-11-25 | 2021-01-29 | 浙江大华技术股份有限公司 | 一种车辆行驶方向识别的方法、装置及存储介质 |
CN113256625A (zh) * | 2021-06-29 | 2021-08-13 | 北京天星博迈迪医疗器械有限公司 | 一种电子设备和识别装置 |
CN115331174A (zh) * | 2022-08-19 | 2022-11-11 | 中国安全生产科学研究院 | 一种企业安全生产标准化智能监管系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US11710243B2 (en) | 2023-07-25 |
JP7101255B2 (ja) | 2022-07-14 |
US20210001885A1 (en) | 2021-01-07 |
JP2021516817A (ja) | 2021-07-08 |
WO2019179464A1 (zh) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416321A (zh) | 用于预测目标对象运动朝向的方法、车辆控制方法及装置 | |
Zimmermann et al. | Learning to estimate 3d hand pose from single rgb images | |
Joo et al. | Panoptic studio: A massively multiview system for social motion capture | |
Li et al. | Deep supervision with shape concepts for occlusion-aware 3d object parsing | |
WO2020119661A1 (zh) | 一种目标检测方法、装置以及行人检测方法、系统 | |
Li et al. | Robust visual tracking based on convolutional features with illumination and occlusion handing | |
CN105022982B (zh) | 手部运动识别方法和装置 | |
CN103035008B (zh) | 一种多相机系统的加权标定方法 | |
CN110520899A (zh) | 标识在环境中的标记的位置 | |
CN109003325A (zh) | 一种三维重建的方法、介质、装置和计算设备 | |
CN108256504A (zh) | 一种基于深度学习的三维动态手势识别方法 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN113705521A (zh) | 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法 | |
CN107180226A (zh) | 一种基于组合神经网络的动态手势识别方法 | |
CN109074660A (zh) | 单目相机实时三维捕获和即时反馈的方法和系统 | |
CN104794737B (zh) | 一种深度信息辅助粒子滤波跟踪方法 | |
CN110503686A (zh) | 基于深度学习的物体位姿估计方法及电子设备 | |
Xu et al. | Action recognition framework in traffic scene for autonomous driving system | |
CN110060230A (zh) | 三维场景分析方法、装置、介质及设备 | |
CN108734194A (zh) | 一种面向虚拟现实的基于单深度图的人体关节点识别方法 | |
CN110334701A (zh) | 数字孪生环境下基于深度学习和多目视觉的数据采集方法 | |
JP6487642B2 (ja) | 手指形状の検出方法、そのプログラム、そのプログラムの記憶媒体、及び、手指の形状を検出するシステム。 | |
CN110148177A (zh) | 用于确定相机的姿态角的方法、装置、计算设备、计算机可读存储介质以及采集实体 | |
CN114926747A (zh) | 一种基于多特征聚合与交互的遥感图像定向目标检测方法 | |
CN109670517A (zh) | 目标检测方法、装置、电子设备和目标检测模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180817 |
|
WW01 | Invention patent application withdrawn after publication |