CN110443266B - 对象预测方法及装置、电子设备和存储介质 - Google Patents
对象预测方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110443266B CN110443266B CN201810421005.XA CN201810421005A CN110443266B CN 110443266 B CN110443266 B CN 110443266B CN 201810421005 A CN201810421005 A CN 201810421005A CN 110443266 B CN110443266 B CN 110443266B
- Authority
- CN
- China
- Prior art keywords
- information
- result
- predicted
- intermediate prediction
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 220
- 238000012545 processing Methods 0.000 claims abstract description 144
- 238000013528 artificial neural network Methods 0.000 claims abstract description 139
- 238000000605 extraction Methods 0.000 claims abstract description 86
- 238000007499 fusion processing Methods 0.000 claims abstract description 49
- 238000012958 reprocessing Methods 0.000 claims description 95
- 238000002372 labelling Methods 0.000 claims description 63
- 230000011218 segmentation Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 26
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000010339 dilation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及一种对象预测方法及装置、电子设备和存储介质。该方法应用于神经网络,方法包括:对待预测对象进行特征提取处理,得到待预测对象的特征信息;根据特征信息,确定针对待预测对象的多个中间预测结果;对多个中间预测结果进行融合处理,得到融合信息;根据融合信息,确定针对待预测对象的多个目标预测结果。根据本公开的实施例,能够提取到待预测对象的特征信息,根据特征信息确定针对所述待预测对象的多个中间预测结果,通过对所述多个中间预测结果进行融合处理,得到融合信息,并根据该融合信息,确定针对所述待预测对象的多个目标预测结果,有利于提高多个目标预测结果的准确度。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种对象预测方法及装置、电子设备和存储介质。
背景技术
随着深度学习技术的快速发展,神经网络可应用于各类对象预测任务中。然而,相关技术中,同时进行多个目标预测时,得到的多个目标预测结果的准确度较低。
发明内容
有鉴于此,本公开提出了一种对象预测技术方案。
根据本公开的一方面,提供了一种对象预测方法,应用于神经网络,所述方法包括:
对待预测对象进行特征提取处理,得到所述待预测对象的特征信息;
根据所述特征信息,确定针对所述待预测对象的多个中间预测结果;
对所述多个中间预测结果进行融合处理,得到融合信息;
根据所述融合信息,确定针对所述待预测对象的多个目标预测结果。
在一种可能的实现方式中,对待预测对象进行特征提取处理,得到所述待预测对象的特征信息,包括:
对待预测对象进行特征提取处理,得到多个层级的特征;
对所述多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。
在一种可能的实现方式中,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果,包括:
对所述特征信息进行重构处理,得到多个重构特征;
根据各重构特征,确定针对所述待预测对象的各中间预测结果。
在一种可能的实现方式中,对所述多个中间预测结果进行融合处理,得到融合信息,包括:
对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;
对所述各中间预测结果的再处理结果进行融合处理,得到融合信息。
在一种可能的实现方式中,对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
对所述各中间预测结果的再处理结果进行叠加处理,得到融合信息。
在一种可能的实现方式中,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息。
在一种可能的实现方式中,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数;
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述参考结果以及所述注意力系数进行点乘处理,得到注意力内容;
将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
在一种可能的实现方式中,根据所述融合信息,确定针对所述待预测对象的多个目标预测结果,包括:
确定针对各目标预测结果的融合信息;
对所述融合信息进行处理,得到目标特征;
根据所述目标特征,确定各目标预测结果。
在一种可能的实现方式中,所述神经网络根据待预测对象训练得到。
在一种可能的实现方式中,根据待预测对象训练所述神经网络的步骤包括:
将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
根据所述模型损失,调整所述神经网络的网络参数值。
在一种可能的实现方式中,根据待预测对象训练所述神经网络的步骤还包括:
在将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
在一种可能的实现方式中,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果,包括:
根据所述特征信息,确定针对所述待预测对象的深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果,
其中,对所述多个中间预测结果进行融合处理,得到融合信息,包括:
对所述深度估计中间预测结果、所述曲面法线中间预测结果、所述轮廓中间预测结果以及所述语义分割中间预测结果进行融合处理,得到融合信息,
其中,根据所述融合信息,确定针对所述待预测对象的多个目标预测结果,包括:
根据所述融合信息,确定针对所述待预测对象的深度估计结果以及场景分割结果。
根据本公开的另一方面,提供了一种对象预测方法,应用于神经网络,所述方法包括:
将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
根据所述模型损失,调整所述神经网络的网络参数值。
在一种可能的实现方式中,所述方法还包括:
在将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
根据本公开的另一方面,提供了一种对象预测装置,应用于神经网络,所述装置包括:
特征提取模块,用于对待预测对象进行特征提取处理,得到所述待预测对象的特征信息;
中间预测结果确定模块,用于根据所述特征信息,确定针对所述待预测对象的多个中间预测结果;
融合模块,用于对所述多个中间预测结果进行融合处理,得到融合信息;
目标预测结果确定模块,用于根据所述融合信息,确定针对所述待预测对象的多个目标预测结果。
在一种可能的实现方式中,所述特征提取模块包括:
特征获得子模块,用于对待预测对象进行特征提取处理,得到多个层级的特征;
特征信息获得子模块,用于对所述多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。
在一种可能的实现方式中,所述中间预测结果确定模块包括:
重构特征获得子模块,用于对所述特征信息进行重构处理,得到多个重构特征;
中间预测结果获得子模块,用于根据各重构特征,确定针对所述待预测对象的各中间预测结果。
在一种可能的实现方式中,所述融合模块包括:
再处理结果获得子模块,用于对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;
融合信息获得子模块,用于对所述各中间预测结果的再处理结果进行融合处理,得到融合信息。
在一种可能的实现方式中,所述融合信息获得子模块用于:
对所述各中间预测结果的再处理结果进行叠加处理,得到融合信息。
在一种可能的实现方式中,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,所述融合信息获得子模块用于:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息。
在一种可能的实现方式中,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,所述融合信息获得子模块用于:
根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数;
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述参考结果以及所述注意力系数进行点乘处理,得到注意力内容;
将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
在一种可能的实现方式中,所述目标预测结果确定模块包括:
融合信息确定子模块,用于确定针对各目标预测结果的融合信息;
目标特征获得子模块,用于对所述融合信息进行处理,得到目标特征;
目标预测结果确定子模块,用于根据所述目标特征,确定各目标预测结果。
在一种可能的实现方式中,所述神经网络根据待预测对象训练得到。
在一种可能的实现方式中,所述装置还包括:
第一获得模块,用于将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
第一确定模块,用于将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
第二获得模块,用于将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
第二确定模块,用于将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
第三确定模块,用于根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
网络参数值调整模块,用于根据所述模型损失,调整所述神经网络的网络参数值。
在一种可能的实现方式中,所述装置还包括:
标注信息确定模块,用于在将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
中间标注信息确定模块,用于根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
在一种可能的实现方式中,所述中间预测结果确定模块包括:
第一确定子模块,用于根据所述特征信息,确定针对所述待预测对象的深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果,
其中,所述融合模块包括:
获得子模块,用于对所述深度估计中间预测结果、所述曲面法线中间预测结果、所述轮廓中间预测结果以及所述语义分割中间预测结果进行融合处理,得到融合信息,
其中,所述目标预测结果确定模块包括:
第二确定子模块,用于根据所述融合信息,确定针对所述待预测对象的深度估计结果以及场景分割结果。
根据本公开的另一方面,提供了一种对象预测装置,应用于神经网络,所述装置包括:
第一信息获得模块,用于将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
第一结果确定模块,用于将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
第二信息获得模块,用于将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
第二结果确定模块,用于将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
模型损失确定模块,用于根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
参数调整模块,用于根据所述模型损失,调整所述神经网络的网络参数值。
在一种可能的实现方式中,所述装置还包括:
第一信息确定模块,用于在将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
第二信息确定模块,用于根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行上述对象预测方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述对象预测方法。
根据本公开的实施例,能够提取到待预测对象的特征信息,根据特征信息确定针对所述待预测对象的多个中间预测结果,通过对所述多个中间预测结果进行融合处理,得到融合信息,并根据该融合信息,确定针对所述待预测对象的多个目标预测结果,有利于提高多个目标预测结果的准确度。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1是根据示例性实施例示出的一种对象预测方法的流程图。
图2是根据示例性实施例示出的一种对象预测方法的流程图。
图3是根据示例性实施例示出的一种对象预测方法的应用场景的示意图。
图4是根据示例性实施例示出的一种膨胀卷积的示意图。
图5是根据示例性实施例示出的一种对象预测方法的流程图。
图6是根据示例性实施例示出的一种对象预测方法的流程图。
图7a、图7b和图7c分别是根据示例性实施例示出的一种对象预测方法的应用场景的示意图。
图8是根据示例性实施例示出的一种对象预测方法的流程图。
图9是根据示例性实施例示出的一种对象预测方法中训练神经网络的流程图。
图10是根据示例性实施例示出的一种对象预测方法中训练神经网络的流程图。
图11是根据示例性实施例示出的一种对象预测方法的流程图。
图12是根据示例性实施例示出的一种对象预测方法的流程图。
图13是根据示例性实施例示出的一种对象预测装置的框图。
图14是根据示例性实施例示出的一种对象预测装置的框图。
图15是根据示例性实施例示出的一种对象预测装置的框图。
图16是根据示例性实施例示出的一种对象预测装置的框图。
图17是根据示例性实施例示出的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1是根据示例性实施例示出的一种对象预测方法的流程图。该方法可应用于电子设备中。该电子设备可以被提供为一终端、一服务器或其它形态的设备。如图1所示,根据本公开实施例的对象预测方法包括:
在步骤S101中,对待预测对象进行特征提取处理,得到所述待预测对象的特征信息;
在步骤S102中,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果;
在步骤S103中,对所述多个中间预测结果进行融合处理,得到融合信息;
在步骤S104中,根据所述融合信息,确定针对所述待预测对象的多个目标预测结果。
根据本公开的实施例,能够提取到待预测对象的特征信息,根据特征信息确定针对所述待预测对象的多个中间预测结果,通过对所述多个中间预测结果进行融合处理,得到融合信息,并根据该融合信息,确定针对所述待预测对象的多个目标预测结果,有利于提高多个目标预测结果的准确度。
相关技术中,深度学习技术可用于各类对象预测任务中,例如,深度估计预测任务(深度估计可以提供场景的三维信息)、场景分割预测任务(场景分割可以生成场景的二维语义)等。对象预测可并被广泛应用于各类重要的应用领域,例如,深度估计预测和场景分割预测可应用于智能视频分析、道路场景建模以及自动驾驶等应用领域。
在实际使用过程中,可能需要同时进行多个目标预测。例如,对单一摄像头下的图像或序列同时进行深度估计和场景分割。然而,同时进行多个目标预测过程中,因多个目标预测任务可能具有显著的差异,例如,深度估计是一个连续的回归问题,场景分割是一个离散的分类问题。同时进行多个目标预测的多个目标预测结果的准确度往往较低,预测性能不佳。可见,同时进行多个目标预测的复杂度非常高。如何在同时多个目标预测时,提高多个目标预测结果的准确度成为一个亟待解决的难题。
在本公开实施例中,可以对待预测对象进行特征提取处理,得到所述待预测对象的特征信息,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果。其中,多个中间预测结果可以为多个层级(例如,从低层级到高层级)的中间预测结果,从而生成了多模态数据,这些多模态数据可以辅助确定最终的多个目标预测。通过对所述多个中间预测结果进行融合处理,得到融合信息,并根据所述融合信息,确定针对所述待预测对象的多个目标预测结果。与直接确定待预测对象的多个目标预测结果,并仅在最终预测层通过交互改善多个目标预测结果或者通过利用联合优化目标函数训练得到的模型直接得到的多个目标预测结果的方式相比,本公开实施例利用根据待预测对象确定出的多个中间预测结果辅助指导确定最终的多个目标预测结果,有利于提高多个目标预测结果的准确度。
应理解,本公开实施例可应用于各类多任务预测中,例如,RGB-D行为识别、多传感器智能视频监控、深度估计和场景分割双任务预测等。其中,神经网络可以是根据待预测对象训练得到的。待预测对象可以为各类图像,例如,RGB图像等,本公开对此不作限制。待预测对象的多个中间预测结果可以包括目标预测结果,也可以与多个目标预测结果相关或互补。本公开对多个中间预测结果与多个目标预测结果的对应关系、中间预测结果的数量、目标预测结果的数量等不作限制。
以下为了便于说明,以待预测对象为RGB图像,中间预测结果包括深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果,目标预测结果包括深度估计结果以及场景分割结果为例进行说明。
举例来说,对待预测对象(例如,单一RGB图像)进行特征提取处理,得到所述待预测对象的特征信息。例如,可以将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对待预测对象的特征信息。其中,特征提取网络可以包括各类卷积神经网络。例如,特征提取网络可使用Alex Net网络结构、VGG网络结构以及ResNet网络结构中的一种,本公开对此不作限制。
图2是根据示例性实施例示出的一种对象预测方法的流程图。图3是根据示例性实施例示出的一种对象预测方法的应用场景的示意图。在一种可能的实现方式中,如图2所示,步骤S101可以包括:
在步骤S1011中,对待预测对象进行特征提取处理,得到多个层级的特征;
在步骤S1012中,对所述多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。
举例来说,对待预测对象进行特征提取处理,例如,通过包括卷积神经网络的特征提取网络对待预测对象进行特征提取处理。其中,卷积神经网络可以包括多级卷积层,例如,第一级卷积层至第N级卷积层,每级卷积层可以包括一个或多个卷积子层。对待预测对象进行特征提取处理,可以得到多个层级的特征(例如,将每级卷积层中最后一个卷积子层的特征确定为各层级的特征)。例如,如图3所示,可以得到4个层级的特征。
在一种可能的实现方式中,通过包括卷积神经网络的特征提取网络对待预测对象进行特征提取处理时,可以通过膨胀卷积提高卷积的感受野,以使得到的多个层级的特征可以包含更大范围的信息。
举例来说,卷积神经网络多级卷积层的最后一个卷积子层的卷积结构可以为膨胀卷积。
图4是根据示例性实施例示出的一种膨胀卷积的示意图。在一种可能的实现方式中,如图4所示,该膨胀卷积为空洞大小为1的膨胀卷积,卷积核的大小为3*3。该卷积子层在特征提取过程中,图4中圆圈的点可以和3*3的卷积核进行卷积操作,其余的点(空洞)不进行卷积操作。可见,膨胀卷积可以提高卷积的感受野,从而使得进行特征提取处理后,得到的多个层级的特征可以包含更大范围的信息。本公开对对待预测对象进行特征提取处理,得到多个层级的特征的方式、膨胀卷积的空洞大小等不作限制。
在一种可能的实现方式中,可以对多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。例如,可以将卷积神经网络每个层级的特征进行聚集处理,例如,将前面3个较浅层级的特征向最后一级卷积层的特征进行聚集处理(例如,叠加融合),聚集处理后得到针对所述待预测对象的特征信息。
在一种可能的实现方式中,在对多个层级的特征进行聚集处理时,可以对各较浅层级的特征通过卷积操作进行降低采样,并通过双线性插值处理得到与最后一级卷积层的特征相同分辨率的特征。
举例来说,各层级的特征的分辨率不同,例如,最浅层级的特征分辨率最大,最深层级(例如,最后一级卷积层的特征)的分辨率最小。在对多个层级的特征进行聚集处理时,可以对各较浅层级的特征通过卷积操作进行降低采样,并通过双线性插值处理得到与最后一级卷积层的特征相同分辨率的特征,以进行聚集处理(例如,将处理后分辨率相同的多个层级的特征进行叠加融合,得到待预测对象的特征信息)。应理解,通过对各较浅层级的特征通过卷积操作还可用于控制特征通道的数量,以使得聚集处理更加存储高效。
通过这种方式,可以得到针对所述待预测对象的特征信息,该特征信息可用于更好地进行中间预测结果的预测。本公开对对待预测对象进行特征提取处理,得到所述待预测对象的特征信息的方式不作限制。
如图1所示,在步骤S102中,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果。
举例来说,可以根据待预测对象的特征信息,确定针对待预测对象的多个中间预测结果。例如,可以将待预测对象的特征信息重构为不同的中间预测任务,并确定针对所述待预测对象的多个中间预测结果。中间预测结果可用于辅助确定目标预测结果。
图5是根据示例性实施例示出的一种对象预测方法的流程图。在一种可能的实现方式中,如图5所示,步骤S102可以包括:
在步骤S1021中,对所述特征信息进行重构处理,得到多个重构特征。
举例来说,可以对特征信息进行重构处理,例如,可以对特征信息进行反卷积操作,得到多个重构特征。例如,如图3所示,可以对特征信息进行反卷积操作,分别得到4个重构特征。在对特征信息进行反卷积操作时,可以得到4个分辨率相同的重构特征,且重构特征的分辨率为特征信息的分辨率的2倍。
在步骤S1022中,根据各重构特征,确定针对所述待预测对象的各中间预测结果。
举例来说,可以分别对各重构特征进行卷积操作,得到各中间预测任务的中间预测结果。其中,分别对各重构特征进行卷积操作,可以得到相应各中间预测任务的中间信息,可将各中间预测任务的中间信息通过双线性插值处理,得到分辨率为待预测对象原始分辨率四分之一的各中间预测结果。例如,如图3所示,可以确定针对所述待预测对象的深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果。
通过这种方式,可以根据所述特征信息,确定针对所述待预测对象的多个中间预测结果。该多个中间预测结果可用于辅助确定多个目标预测结果。本公开对根据所述特征信息,确定针对所述待预测对象的多个中间预测结果的方式不作限制。
如图1所示,在步骤S103中,对所述多个中间预测结果进行融合处理,得到融合信息。
举例来说,确定针对待预测对象的多个中间预测结果(多模态数据),可以通过多种方式对多个中间预测结果进行融合处理,得到融合信息。该融合信息可用于确定针对待预测对象的多个目标预测结果。其中,融合信息可以为一个或多个,融合信息为一个时,该融合信息可以用于分别确定针对待预测对象的多个目标预测结果。该融合信息还可以为多个,例如,可以对多个中间预测结果进行融合处理,分别得到用于确定各目标预测结果的各融合信息。这样,通过对多个中间预测结果进行融合处理,得到融合信息,该融合信息有效地结合了来自多个相关任务(中间预测结果)的更多的信息,以提高多个目标预测结果的准确度。本公开对得到融合信息的方式、融合信息的数量等不作限制。
例如,对深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果进行融合处理,得到融合信息。
图6是根据示例性实施例示出的一种对象预测方法的流程图。图7a、图7b和图7c分别是根据示例性实施例示出的一种对象预测方法的应用场景的示意图。在一种可能的实现方式中,如图6所示,步骤S103可以包括:
在步骤S1031中,对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果。
举例来说,可以对多个中间预测结果进行再处理,例如,可以对多个中间预测结果进行卷积操作,得到各中间预测结果的再处理结果,以得到更加丰富的信息,并缩小各中间预测结果的差距。其中,得到的各中间预测结果的再处理结果可以与中间预测结果大小相同。
例如,如图7a、7b以及7c所示,以及分别表示4个中间预测结果(例如,深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果)。对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果,例如,得到以及这4个相应的再处理结果。
在步骤S1032中,对所述各中间预测结果的再处理结果进行融合处理,得到融合信息。
举例来说,可以对各中间预测结果的再处理结果进行融合处理,得到融合信息。
在一种可能的实现方式中,步骤S1032可以包括:对所述各中间预测结果的再处理结果进行叠加处理,得到融合信息。
如图7a所示,将以及这4个相应的再处理结果进行叠加处理(例如,线性叠加等),得到融合信息该融合信息可用于确定针对待预测对象的多个目标预测结果,例如,如图7a所示,可将该融合信息分别输入深度估计任务分支以及场景分割任务分支,并确定针对所述待预测对象的深度估计结果以及场景分割结果。
这样,可以得到用于确定多个目标预测结果的融合信息。本公开对中间预测结果的再处理结果进行叠加处理的方式不作限制。
在一种可能的实现方式中,多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高。
举例来说,如前文所述,多个中间预测结果分别为深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果。现以目标预测结果为深度估计结果为例进行说明,可将多个中间预测结果分为第一中间预测结果以及第二中间预测结果。其中,第一中间预测结果为与目标预测结果(深度估计结果)的相关度最高的深度估计中间预测结果。其他三个中间预测结果可为第二中间预测结果。
在一种可能的实现方式中,步骤S1032还可以包括:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息。
下面给出一个示例性的融合信息的确定公式(1):
在公式(1)中,表示针对第k个目标预测结果的融合信息,表示确定针对第k个目标预测结果的融合信息过程中,第k个中间预测结果(为第一中间预测结果)的再处理结果,表示卷积操作,表示第t个中间预测结果(为第二中间预测结果)的再处理结果,Wt,k表示与第t个中间预测结果以及第k个中间预测结果相关的卷积核的参数,其中,k、t、T为正整数,t为变量,t的取值在1到T之间,t≠k。←表示由其右边部分经过叠加处理,可得到左边部分的融合信息。
举例来说,如前文所述,包括两个目标预测任务,确定针对待预测对象的两个目标预测结果。现以确定第1个目标预测结果(深度估计结果,k=1)的融合信息为例,进行说明。
在一种可能的实现方式中,对所述第二中间预测结果的再处理结果进行处理,得到参考结果。
在一种可能的实现方式中,将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,可以得到针对所述目标预测结果的融合信息。
举例来说,可以根据公式(1),将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理(例如,针对每一个像素,将第一中间预测结果的再处理结果该像素的信息与另外3个参考结果该像素的信息进行叠加处理),可以得到针对所述目标预测结果的融合信息。例如,如图7b所示,得到融合信息该融合信息为针对第1个目标预测结果的融合信息,可用于确定第1个目标预测结果。应理解,可以根据公式(1)分别得到针对各目标预测结果的融合信息。
通过这种方式,可以确定针对各目标预测结果的融合信息,该融合信息可包括与目标预测结果相关度最高的第一中间预测结果的再处理结果中的更多的信息,实现较平滑地进行多模数据融合。本公开对将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息的具体方式不作限制。
在一种可能的实现方式中,步骤S1032还可以包括:根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数;
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述参考结果以及所述注意力系数进行点乘处理,得到注意力内容;
将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
下面给出一个示例性的注意力系数的确定公式(2):
在公式(2)中,表示确定针对第k个目标预测结果的融合信息过程中,根据第一中间预测结果的再处理结果,确定的注意力系数。表示卷积操作,表示卷积参数,表示确定针对第k个目标预测结果的融合信息过程中,第k个中间预测结果(为第一中间预测结果)的再处理结果,σ表示sigmoid函数。
举例来说,可以根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数。现以确定第1个目标预测结果(深度估计结果,k=1)的融合信息为例,进行说明。
例如,如图7c所示,可以根据第一中间预测结果的再处理结果确定注意力系数该注意力系数是根据注意力机制确定的参考系数,可用于对各第二中间预测结果进行过滤,指导信息传递融合(例如,用于更加关注或忽略来自第二中间预测结果的信息)。
下面给出一个示例性的融合信息的确定公式(3):
在公式(3)中,表示针对第k个目标预测结果的融合信息,表示确定针对第k个目标预测结果的融合信息过程中,第k个中间预测结果(为第一中间预测结果)的再处理结果,表示卷积操作,表示第t个中间预测结果(为第二中间预测结果)的再处理结果,Wt表示与第t个中间预测结果相关的卷积核的参数,表示确定针对第k个目标预测结果的融合信息过程中,根据第一中间预测结果的再处理结果,确定的注意力系数。⊙表示点乘处理,其中,k、t、T为正整数,t为变量,t的取值在1到T之间,t≠k。←表示由其右边部分经过叠加处理,可得到左边部分的融合信息
在一种可能的实现方式中,对所述第二中间预测结果的再处理结果进行处理,可以得到参考结果。
在一种可能的实现方式中,将所述参考结果以及所述注意力系数进行点乘处理,可以得到注意力内容。
举例来说,可以根据公式(2)确定得到注意力系数。例如,可以得到每个像素对应的注意力系数。可以将参考结果以及所述注意力系数进行点乘处理,可以得到注意力内容。可以将根据以及得到的参考结果与注意力系数进行点乘处理,得到各自对应的注意力内容。
在一种可能的实现方式中,将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
举例来说,可以根据公式(3),将所述第一中间预测结果的再处理结果与所述各注意力内容进行叠加处理(例如,针对每一个像素,将第一中间预测结果的再处理结果该像素的信息与另外3个注意力内容该像素的信息进行叠加处理),可以得到针对所述目标预测结果的融合信息。例如,如图7c所示,得到融合信息该融合信息为针对第1个目标预测结果的融合信息,可用于确定第1个目标预测结果。应理解,可以根据公式(1)分别得到针对各目标预测结果的融合信息。
通过这种方式,可以确定针对各目标预测结果的融合信息,该融合信息可包括与目标预测结果相关度最高的第一中间预测结果的再处理结果中的更多的信息,通过第一中间预测结果的再处理结果确定注意力系数,可用于对各第二中间预测结果进行过滤,指导信息传递融合(例如,用于更加关注或忽略来自第二中间预测结果的信息),从而提高针对各目标预测结果的融合信息的针对性。本公开对注意力系数的确定方式、参考结果的确定方式、注意力内容的确定方式以及融合信息的确定方式不作限制。
如图1所示,在步骤S104中,根据所述融合信息,确定针对所述待预测对象的多个目标预测结果。
举例来说,可以根据融合信息,确定针对所述待预测对象的多个目标预测结果。例如,确定的融合信息为一个时,可将该融合信息分别输入用于目标预测任务的多个分支中,确定各目标预测结果。当确定的融合信息为针对不同目标预测任务的不同融合信息时,可将相应的融合信息输入到对应的目标预测任务分支中,确定各目标预测结果。应理解,多个目标预测任务可通过一个子网络实现(例如,神经网络的第二预测网络)。该子网络可以包括不同的分支,每个分支可根据任务的复杂度采用不同深度的各类网络、具有不同的网络参数以及不同的设计。本公开对根据所述融合信息,确定针对所述待预测对象的多个目标预测结果的方式、多个目标预测任务的子网络的结构和设计等不作限制。
例如,根据所述融合信息,确定针对所述待预测对象的深度估计结果以及场景分割结果。
图8是根据示例性实施例示出的一种对象预测方法的流程图。在一种可能的实现方式中,如图8所示,步骤S104可以包括:
在步骤S1041中,确定针对各目标预测结果的融合信息;
在步骤S1042中,对所述融合信息进行处理,得到目标特征;
在步骤S1043中,根据所述目标特征,确定各目标预测结果。
举例来说,可以确定针对各目标预测结果的融合信息。例如,如图7b所示,确定针对深度估计结果的融合信息为和确定针对场景分割结果的融合信息为可以对融合信息进行处理,得到目标特征,并根据目标特征,确定各目标预测结果。
现以确定深度估计结果为例进行说明。
举例来说,可以对针对深度估计结果的融合信息为进行处理,得到目标特征。例如,可以对融合信息进行两次连续的反卷积操作。如前文所述,各中间预测结果的分辨率为待预测对象原始分辨率四分之一,可以通过两次连续的反卷积操作(每次放大为2倍),得到与待预测对象原始分辨率相同的目标特征。可以根据目标特征,确定目标预测结果。例如,可以对该目标特征进行卷积操作,确定得到目标预测结果。
通过这种方式,可以根据融合信息,确定针对待预测对象的多个目标预测结果。本公开对根据融合信息,确定针对待预测对象的多个目标预测结果的方式不作限制。
应理解,上述方法可以适用于使用训练好的神经网络确定多个目标预测结果的场景,也可以适用于训练神经网络的过程,本公开实施例对此不做限定。在一种可能的实现方式中,在使用训练好的神经网络确定多个目标预测结果之前,可包括根据待预测对象训练所述神经网络的步骤。
图9是根据示例性实施例示出的一种对象预测方法中训练神经网络的流程图。在一种可能的实现方式中,如图9所示,根据待预测对象训练所述神经网络的步骤可以包括:
在步骤S105中,将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
在步骤S106中,将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
在步骤S107中,将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
在步骤S108中,将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
在步骤S109中,根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
在步骤S110中,根据所述模型损失,调整所述神经网络的网络参数值。
举例来说,可以将待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息。所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果。例如,确定4个中间预测结果。
将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息,将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果。根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失。
例如,确定针对所述待预测对象的4个中间预测结果,并最终确定针对所述待预测对象的2个目标预测结果,在训练过程中,确定的神经网络的模型损失可以为6个损失函数的损失之和(包括4个中间预测结果的各自损失、2个目标预测结果的各自损失)。其中,各损失函数可包括不同的类型,例如,轮廓中间预测任务中,损失函数可为交叉熵损失函数,语义分割中间预测任务(场景分割预测任务)中,损失函数可为Softmax损失函数。深度估计中间预测任务(深度估计预测任务)、曲面法线中间预测任务中,损失函数可为欧式距离损失函数。在确定神经网络的模型损失时,各损失函数的损失权重可不完全相同。例如,深度估计中间预测任务、深度估计预测任务、场景分割预测任务以及语义分割中间预测任务的损失函数的损失权重可设为1,曲面法线中间预测任务以及轮廓中间预测任务的损失函数的损失权重可设置为0.8。本公开对损失函数的类型、各损失函数的损失权重等不作限制。
在一种可能的实现方式中,可以根据所述模型损失,调整所述神经网络的网络参数值。例如,采用反向梯度算法等调整网络参数值。应当理解,可采用合适的方式调整神经网络的网络参数值,本公开对此不作限制。
经过多次调整后,如果满足预先设定的训练条件,例如调整次数达到预先设定的训练次数阈值,或者模型损失小于或等于预先设定的损失阈值,则可以将当前的神经网络确定为最终的神经网络,从而完成了的神经网络的训练过程。应当理解,本领域技术人员可以根据实际情况设定训练条件以及损失阈值,本公开对此不作限制。
通过这种方式,可以训练得到能够准确地得到多个目标预测结果的神经网络。在训练过程中,通过输入待预测对象(例如,一个RGB图像)可以得到特征信息,并根据特征信息得到多个中间预测结果。多个中间预测结果不仅可以作为学习更深层次特征的监督信息,而且提供更加丰富的多模态数据来改善最终目标预测任务,辅助确定最终的多个目标预测结果,可同时提升多个目标预测任务的泛化能力和预测性能,从而提高多个目标预测结果的准确度。
另外,根据本公开实施例,输入待预测对象进行神经网络训练过程中,并非直接使用不同的损失函数,直接同时训练多个目标预测结果,而是通过确定多个中间预测结果,并通过多个中间预测结果辅助确定多个目标预测结果,从而使得神经网络训练的复杂度降低,保证了较好的训练效率和效果。
图10是根据示例性实施例示出的一种对象预测方法中训练神经网络的流程图。在一种可能的实现方式中,如图10所示,根据待预测对象训练所述神经网络的步骤还包括:
在步骤S111中,在将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
在步骤S112中,根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
举例来说,如前文所述,目标预测结果包括深度估计结果和场景分割结果。在训练神经网络过程中,可以确定这两个目标预测结果的标注信息。例如,通过人工标记等方式确定。可以根据深度估计结果和场景分割结果的标注信息,确定所述多个中间预测结果的标注信息。例如,中间预测结果包括深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果。其中,可以将深度估计结果和场景分割结果的标注信息分别确定为深度估计中间预测结果以及语义分割中间预测结果的标注信息。轮廓中间预测结果的标注信息可通过场景分割结果的标注信息推算得到,曲面法线中间预测结果的标注信息可通过深度估计结果的标注信息推算得到。
通过这种方式,神经网络训练过程中,根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息,使得用到较多的标注信息作为监督信息训练神经网络,而无需完成过多的标注任务,提高神经网络训练的效率。本公开对根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息的方式不作限制。
图11是根据示例性实施例示出的一种对象预测方法的流程图。该方法可应用于电子设备中。该电子设备可以被提供为一终端、一服务器或其它形态的设备。如图11所示,根据本公开实施例的对象预测方法包括:
在步骤S201中,将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
在步骤S202中,将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
在步骤S203中,将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
在步骤S204中,将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
在步骤S205中,根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
在步骤S206中,根据所述模型损失,调整所述神经网络的网络参数值。
根据本公开实施例,能够根据待预测对象训练得到神经网络,该神经网络可用于确定针对待预测对象的多个目标预测结果。
举例来说,如前文所述,可训练得到神经网络,在此不再赘述。
图12是根据示例性实施例示出的一种对象预测方法的流程图。在一种可能的实现方式中,如图12所示,所述方法还包括:
在步骤S207中,在将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
在步骤S208中,根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
举例来说,如前文所述,在此不再赘述。
以上已经描述了本公开的示例性实施例。应当理解,上述对示例性实施例的说明并不构成对本公开的限制,示例性实施例中的各个技术特征可以根据实际需要和逻辑进行任意组合、修改及变更,从而形成不同的技术方案,这些技术方案均属于本公开实施例的一部分。
图13是根据示例性实施例示出的一种对象预测装置的框图。如图13所示,所述对象预测装置包括:
特征提取模块301,用于对待预测对象进行特征提取处理,得到所述待预测对象的特征信息;
中间预测结果确定模块302,用于根据所述特征信息,确定针对所述待预测对象的多个中间预测结果;
融合模块303,用于对所述多个中间预测结果进行融合处理,得到融合信息;
目标预测结果确定模块304,用于根据所述融合信息,确定针对所述待预测对象的多个目标预测结果。
图14是根据示例性实施例示出的一种对象预测装置的框图。如图14所示,在一种可能的实现方式中,所述特征提取模块301包括:
特征获得子模块3011,用于对待预测对象进行特征提取处理,得到多个层级的特征;
特征信息获得子模块3012,用于对所述多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。
如图14所示,在一种可能的实现方式中,所述中间预测结果确定模块302包括:
重构特征获得子模块3021,用于对所述特征信息进行重构处理,得到多个重构特征;
中间预测结果获得子模块3022,用于根据各重构特征,确定针对所述待预测对象的各中间预测结果。
如图14所示,在一种可能的实现方式中,所述融合模块303包括:
再处理结果获得子模块3031,用于对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;
融合信息获得子模块3032,用于对所述各中间预测结果的再处理结果进行融合处理,得到融合信息。
在一种可能的实现方式中,所述融合信息获得子模块3032用于:
对所述各中间预测结果的再处理结果进行叠加处理,得到融合信息。
在一种可能的实现方式中,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,所述融合信息获得子模块3032用于:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息。
在一种可能的实现方式中,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,所述融合信息获得子模块3032用于:
根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数;
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述参考结果以及所述注意力系数进行点乘处理,得到注意力内容;
将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
如图14所示,在一种可能的实现方式中,所述目标预测结果确定模块304包括:
融合信息确定子模块3041,用于确定针对各目标预测结果的融合信息;
目标特征获得子模块3042,用于对所述融合信息进行处理,得到目标特征;
目标预测结果确定子模块3043,用于根据所述目标特征,确定各目标预测结果。
在一种可能的实现方式中,所述神经网络根据待预测对象训练得到。
如图14所示,在一种可能的实现方式中,所述装置还包括:
第一获得模块305,用于将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
第一确定模块306,用于将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
第二获得模块307,用于将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
第二确定模块308,用于将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
第三确定模块309,用于根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
网络参数值调整模块310,用于根据所述模型损失,调整所述神经网络的网络参数值。
如图14所示,在一种可能的实现方式中,所述装置还包括:
标注信息确定模块311,用于在将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
中间标注信息确定模块312,用于根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
如图14所示,在一种可能的实现方式中,所述中间预测结果确定模块302包括:
第一确定子模块3023,用于根据所述特征信息,确定针对所述待预测对象的深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果,
其中,所述融合模块303包括:
获得子模块3033,用于对所述深度估计中间预测结果、所述曲面法线中间预测结果、所述轮廓中间预测结果以及所述语义分割中间预测结果进行融合处理,得到融合信息,
其中,所述目标预测结果确定模块304包括:
第二确定子模块3044,用于根据所述融合信息,确定针对所述待预测对象的深度估计结果以及场景分割结果。
图15是根据示例性实施例示出的一种对象预测装置的框图。如图15所示,所述对象预测装置包括:
第一信息获得模块401,用于将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
第一结果确定模块402,用于将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
第二信息获得模块403,用于将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
第二结果确定模块404,用于将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
模型损失确定模块405,用于根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
参数调整模块406,用于根据所述模型损失,调整所述神经网络的网络参数值。
图16是根据示例性实施例示出的一种对象预测装置的框图。如图16所示,在一种可能的实现方式中,所述装置还包括:
第一信息确定模块407,用于在将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
第二信息确定模块408,用于根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
图17是根据示例性实施例示出的一种电子设备的框图。例如,电子设备可以被提供为一终端、一服务器或其它形态的设备。参照图17,设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
设备1900还可以包括一个电源组件1926被配置为执行设备1900的电源管理,一个有线或无线网络接口1950被配置为将设备1900连接到网络,和一个输入输出(I/O)接口1958。设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (26)
1.一种对象预测方法,其特征在于,应用于神经网络,所述方法包括:
对待预测对象进行特征提取处理,得到所述待预测对象的特征信息;
根据所述特征信息,确定针对所述待预测对象的多个中间预测结果;
对所述多个中间预测结果进行融合处理,得到融合信息;
根据所述融合信息,确定针对所述待预测对象的多个目标预测结果,所述多个目标预测结果为不同预测任务的预测结果;
所述对所述多个中间预测结果进行融合处理,得到融合信息,包括:
对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;
对所述各中间预测结果的再处理结果进行融合处理,得到融合信息;
所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高;
所述对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息;
所述待预测对象包括:图像;
所述中间预测结果包括:深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果、语义分割中间预测结果中至少一种,所述目标预测结果包括深度估计结果、场景分割结果中至少一种。
2.根据权利要求1所述的方法,其特征在于,对待预测对象进行特征提取处理,得到所述待预测对象的特征信息,包括:
对待预测对象进行特征提取处理,得到多个层级的特征;
对所述多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。
3.根据权利要求1所述的方法,其特征在于,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果,包括:
对所述特征信息进行重构处理,得到多个重构特征;
根据各重构特征,确定针对所述待预测对象的各中间预测结果。
4.根据权利要求1所述的方法,其特征在于,对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
对所述各中间预测结果的再处理结果进行叠加处理,得到融合信息。
5.根据权利要求1所述的方法,其特征在于,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数;
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述参考结果以及所述注意力系数进行点乘处理,得到注意力内容;
将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
6.根据权利要求1所述的方法,其特征在于,根据所述融合信息,确定针对所述待预测对象的多个目标预测结果,包括:
确定针对各目标预测结果的融合信息;
对所述融合信息进行处理,得到目标特征;
根据所述目标特征,确定各目标预测结果。
7.根据权利要求1所述的方法,其特征在于,所述神经网络根据待预测对象训练得到。
8.根据权利要求7所述的方法,其特征在于,根据待预测对象训练所述神经网络的步骤包括:
将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
根据所述模型损失,调整所述神经网络的网络参数值。
9.根据权利要求8所述的方法,其特征在于,根据待预测对象训练所述神经网络的步骤还包括:
在将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
10.根据权利要求1所述的方法,其特征在于,根据所述特征信息,确定针对所述待预测对象的多个中间预测结果,包括:
根据所述特征信息,确定针对所述待预测对象的深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果,
其中,对所述多个中间预测结果进行融合处理,得到融合信息,包括:
对所述深度估计中间预测结果、所述曲面法线中间预测结果、所述轮廓中间预测结果以及所述语义分割中间预测结果进行融合处理,得到融合信息,
其中,根据所述融合信息,确定针对所述待预测对象的多个目标预测结果,包括:
根据所述融合信息,确定针对所述待预测对象的深度估计结果以及场景分割结果。
11.一种对象预测方法,其特征在于,应用于神经网络,所述方法包括:
将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到融合信息;
将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
根据所述模型损失,调整所述神经网络的网络参数值;
将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息,包括:
对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;
对所述各中间预测结果的再处理结果进行融合处理,得到融合信息;
所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高;
所述对所述各中间预测结果的再处理结果进行融合处理,得到融合信息,包括:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息;
所述待预测对象包括:图像;
所述中间预测结果包括:深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果、语义分割中间预测结果中至少一种,所述目标预测结果包括深度估计结果、场景分割结果中至少一种。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
在将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
13.一种对象预测装置,其特征在于,应用于神经网络,所述装置包括:
特征提取模块,用于对待预测对象进行特征提取处理,得到所述待预测对象的特征信息;
中间预测结果确定模块,用于根据所述特征信息,确定针对所述待预测对象的多个中间预测结果;
融合模块,用于对所述多个中间预测结果进行融合处理,得到融合信息;
目标预测结果确定模块,用于根据所述融合信息,确定针对所述待预测对象的多个目标预测结果,所述多个目标预测结果为不同预测任务的预测结果;
所述融合模块包括:
再处理结果获得子模块,用于对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;
融合信息获得子模块,用于对所述各中间预测结果的再处理结果进行融合处理,得到融合信息;
所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高;
所述融合信息获得子模块还用于:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息;
所述待预测对象包括:图像;
所述中间预测结果包括:深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果、语义分割中间预测结果中至少一种,所述目标预测结果包括深度估计结果、场景分割结果中至少一种。
14.根据权利要求13所述的装置,其特征在于,所述特征提取模块包括:
特征获得子模块,用于对待预测对象进行特征提取处理,得到多个层级的特征;
特征信息获得子模块,用于对所述多个层级的特征进行聚集处理,得到针对所述待预测对象的特征信息。
15.根据权利要求13所述的装置,其特征在于,所述中间预测结果确定模块包括:
重构特征获得子模块,用于对所述特征信息进行重构处理,得到多个重构特征;
中间预测结果获得子模块,用于根据各重构特征,确定针对所述待预测对象的各中间预测结果。
16.根据权利要求13所述的装置,其特征在于,所述融合信息获得子模块用于:
对所述各中间预测结果的再处理结果进行叠加处理,得到融合信息。
17.根据权利要求13所述的装置,其特征在于,所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高,
其中,所述融合信息获得子模块用于:
根据所述第一中间预测结果的再处理结果,确定注意力系数,所述注意力系数是根据注意力机制确定的参考系数;
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述参考结果以及所述注意力系数进行点乘处理,得到注意力内容;
将所述第一中间预测结果的再处理结果与所述注意力内容进行叠加处理,得到针对所述目标预测结果的融合信息。
18.根据权利要求13所述的装置,其特征在于,所述目标预测结果确定模块包括:
融合信息确定子模块,用于确定针对各目标预测结果的融合信息;
目标特征获得子模块,用于对所述融合信息进行处理,得到目标特征;
目标预测结果确定子模块,用于根据所述目标特征,确定各目标预测结果。
19.根据权利要求13所述的装置,其特征在于,所述神经网络根据待预测对象训练得到。
20.根据权利要求19所述的装置,其特征在于,所述装置还包括:
第一获得模块,用于将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
第一确定模块,用于将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
第二获得模块,用于将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到所述融合信息;
第二确定模块,用于将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
第三确定模块,用于根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
网络参数值调整模块,用于根据所述模型损失,调整所述神经网络的网络参数值。
21.根据权利要求20所述的装置,其特征在于,所述装置还包括:
标注信息确定模块,用于在将所述待预测对象输入所述神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
中间标注信息确定模块,用于根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
22.根据权利要求13所述的装置,其特征在于,所述中间预测结果确定模块包括:
第一确定子模块,用于根据所述特征信息,确定针对所述待预测对象的深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果以及语义分割中间预测结果,
其中,所述融合模块包括:
获得子模块,用于对所述深度估计中间预测结果、所述曲面法线中间预测结果、所述轮廓中间预测结果以及所述语义分割中间预测结果进行融合处理,得到融合信息,
其中,所述目标预测结果确定模块包括:
第二确定子模块,用于根据所述融合信息,确定针对所述待预测对象的深度估计结果以及场景分割结果。
23.一种对象预测装置,其特征在于,应用于神经网络,所述装置包括:
第一信息获得模块,用于将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息;
第一结果确定模块,用于将所述特征信息输入所述神经网络中的第一预测网络中进行处理,确定针对所述待预测对象的多个中间预测结果;
第二信息获得模块,用于将所述中间预测结果输入所述神经网络的融合网络中进行融合处理,得到融合信息;
第二结果确定模块,用于将所述融合信息分别输入所述神经网络中的多个第二预测网络中进行处理,确定针对所述待预测对象的多个目标预测结果;
模型损失确定模块,用于根据所述多个中间预测结果、多个中间预测结果的标注信息、多个目标预测结果以及多个目标预测结果的标注信息,确定所述神经网络的模型损失;
参数调整模块,用于根据所述模型损失,调整所述神经网络的网络参数值;
所述第二信息获得模块,用于对所述多个中间预测结果进行再处理,得到各中间预测结果的再处理结果;对所述各中间预测结果的再处理结果进行融合处理,得到融合信息;
所述多个中间预测结果中包括第一中间预测结果以及第二中间预测结果,其中,所述第一中间预测结果与目标预测结果的相关度最高;
所述第二信息获得模块,还用于:
对所述第二中间预测结果的再处理结果进行处理,得到参考结果;
将所述第一中间预测结果的再处理结果与所述参考结果进行叠加处理,得到针对所述目标预测结果的融合信息;
所述待预测对象包括:图像;
所述中间预测结果包括:深度估计中间预测结果、曲面法线中间预测结果、轮廓中间预测结果、语义分割中间预测结果中至少一种,所述目标预测结果包括深度估计结果、场景分割结果中至少一种。
24.根据权利要求23所述的装置,其特征在于,所述装置还包括:
第一信息确定模块,用于在将待预测对象输入神经网络中的特征提取网络进行特征提取处理,得到针对所述待预测对象的特征信息之前,确定所述多个目标预测结果的标注信息;
第二信息确定模块,用于根据所述多个目标预测结果的标注信息,确定所述多个中间预测结果的标注信息。
25.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至12中任意一项所述的方法。
26.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至12中任意一项所述的方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810421005.XA CN110443266B (zh) | 2018-05-04 | 2018-05-04 | 对象预测方法及装置、电子设备和存储介质 |
SG11202007158UA SG11202007158UA (en) | 2018-05-04 | 2019-03-06 | Object prediction method and apparatus, electronic device and storage medium |
PCT/CN2019/077152 WO2019210737A1 (zh) | 2018-05-04 | 2019-03-06 | 对象预测方法及装置、电子设备和存储介质 |
KR1020207022191A KR102406765B1 (ko) | 2018-05-04 | 2019-03-06 | 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체 |
JP2020540732A JP7085632B2 (ja) | 2018-05-04 | 2019-03-06 | 対象物推定方法および装置、電子機器ならびに記憶媒体 |
US16/985,747 US11593596B2 (en) | 2018-05-04 | 2020-08-05 | Object prediction method and apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810421005.XA CN110443266B (zh) | 2018-05-04 | 2018-05-04 | 对象预测方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443266A CN110443266A (zh) | 2019-11-12 |
CN110443266B true CN110443266B (zh) | 2022-06-24 |
Family
ID=68386249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810421005.XA Active CN110443266B (zh) | 2018-05-04 | 2018-05-04 | 对象预测方法及装置、电子设备和存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11593596B2 (zh) |
JP (1) | JP7085632B2 (zh) |
KR (1) | KR102406765B1 (zh) |
CN (1) | CN110443266B (zh) |
SG (1) | SG11202007158UA (zh) |
WO (1) | WO2019210737A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930386B (zh) * | 2019-11-20 | 2024-02-20 | 重庆金山医疗技术研究院有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111767810B (zh) * | 2020-06-18 | 2022-08-02 | 哈尔滨工程大学 | 一种基于D-LinkNet的遥感图像道路提取方法 |
EP4094199A1 (en) * | 2020-07-14 | 2022-11-30 | Google LLC | Neural network models using peer-attention |
US20220201317A1 (en) * | 2020-12-22 | 2022-06-23 | Ssimwave Inc. | Video asset quality assessment and encoding optimization to achieve target quality requirement |
KR20220125719A (ko) * | 2021-04-28 | 2022-09-14 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 목표 대상 검측 모델을 트레이닝하는 방법 및 장비, 목표 대상을 검측하는 방법 및 장비, 전자장비, 저장매체 및 컴퓨터 프로그램 |
CN113313511A (zh) * | 2021-04-30 | 2021-08-27 | 北京奇艺世纪科技有限公司 | 一种视频流量预测方法、装置、电子设备及介质 |
CN113947246B (zh) * | 2021-10-21 | 2023-06-13 | 腾讯科技(深圳)有限公司 | 基于人工智能的流失处理方法、装置及电子设备 |
CN114511452B (zh) * | 2021-12-06 | 2024-03-19 | 中南大学 | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 |
CN114639070B (zh) * | 2022-03-15 | 2024-06-04 | 福州大学 | 融合注意力机制的人群运动流量分析方法 |
US20240037930A1 (en) | 2022-07-29 | 2024-02-01 | Rakuten Group, Inc. | Online knowledge distillation for multi-task learning system, method, device, and program |
CN117457101B (zh) * | 2023-12-22 | 2024-03-26 | 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) | 一种烘烤烟叶含水量预测方法、介质及系统 |
CN118133191B (zh) * | 2024-05-08 | 2024-08-02 | 海信集团控股股份有限公司 | 一种多模态数据的目标检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217216A (zh) * | 2014-09-01 | 2014-12-17 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
CN107704866A (zh) * | 2017-06-15 | 2018-02-16 | 清华大学 | 基于新型神经网络的多任务场景语义理解模型及其应用 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596243B2 (en) * | 2005-09-16 | 2009-09-29 | Sony Corporation | Extracting a moving object boundary |
CN101169827B (zh) * | 2007-12-03 | 2010-06-02 | 北京中星微电子有限公司 | 一种对图像中的特征点进行跟踪的方法及装置 |
CN105981050B (zh) * | 2013-11-30 | 2019-05-07 | 北京市商汤科技开发有限公司 | 用于从人脸图像的数据提取人脸特征的方法和系统 |
WO2017015390A1 (en) * | 2015-07-20 | 2017-01-26 | University Of Maryland, College Park | Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition |
US10417529B2 (en) * | 2015-09-15 | 2019-09-17 | Samsung Electronics Co., Ltd. | Learning combinations of homogenous feature arrangements |
KR20170050448A (ko) * | 2015-10-30 | 2017-05-11 | 삼성에스디에스 주식회사 | 이미지 상의 객체 검출 방법 및 객체 검출 장치 |
US10275684B2 (en) * | 2015-11-04 | 2019-04-30 | Samsung Electronics Co., Ltd. | Authentication method and apparatus, and method and apparatus for training a recognizer |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
CN105701508B (zh) * | 2016-01-12 | 2017-12-15 | 西安交通大学 | 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 |
US10467459B2 (en) * | 2016-09-09 | 2019-11-05 | Microsoft Technology Licensing, Llc | Object detection based on joint feature extraction |
CN106845549B (zh) * | 2017-01-22 | 2020-08-21 | 珠海习悦信息技术有限公司 | 一种基于多任务学习的场景与目标识别的方法及装置 |
CN110838124B (zh) * | 2017-09-12 | 2021-06-18 | 深圳科亚医疗科技有限公司 | 用于分割具有稀疏分布的对象的图像的方法、系统和介质 |
US11037032B2 (en) * | 2017-10-06 | 2021-06-15 | Wisconsin Alumni Research Foundation | Methods, systems, and media for detecting the presence of an analyte |
CN107967451B (zh) * | 2017-11-23 | 2021-04-27 | 常州大学 | 一种对静止图像进行人群计数的方法 |
CN107958216A (zh) * | 2017-11-27 | 2018-04-24 | 沈阳航空航天大学 | 基于半监督的多模态深度学习分类方法 |
US10740654B2 (en) * | 2018-01-22 | 2020-08-11 | Qualcomm Incorporated | Failure detection for a neural network object tracker |
-
2018
- 2018-05-04 CN CN201810421005.XA patent/CN110443266B/zh active Active
-
2019
- 2019-03-06 SG SG11202007158UA patent/SG11202007158UA/en unknown
- 2019-03-06 KR KR1020207022191A patent/KR102406765B1/ko active IP Right Grant
- 2019-03-06 JP JP2020540732A patent/JP7085632B2/ja active Active
- 2019-03-06 WO PCT/CN2019/077152 patent/WO2019210737A1/zh active Application Filing
-
2020
- 2020-08-05 US US16/985,747 patent/US11593596B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217216A (zh) * | 2014-09-01 | 2014-12-17 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
CN107704866A (zh) * | 2017-06-15 | 2018-02-16 | 清华大学 | 基于新型神经网络的多任务场景语义理解模型及其应用 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019210737A1 (zh) | 2019-11-07 |
US11593596B2 (en) | 2023-02-28 |
KR102406765B1 (ko) | 2022-06-08 |
SG11202007158UA (en) | 2020-08-28 |
KR20200105500A (ko) | 2020-09-07 |
CN110443266A (zh) | 2019-11-12 |
JP7085632B2 (ja) | 2022-06-16 |
US20200364518A1 (en) | 2020-11-19 |
JP2021512407A (ja) | 2021-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443266B (zh) | 对象预测方法及装置、电子设备和存储介质 | |
US20210004984A1 (en) | Method and apparatus for training 6d pose estimation network based on deep learning iterative matching | |
CN110889851B (zh) | 针对深度和视差估计的语义分割的稳健用途 | |
CN108629414B (zh) | 深度哈希学习方法及装置 | |
CN108229504B (zh) | 图像解析方法及装置 | |
Sobral et al. | Double-constrained RPCA based on saliency maps for foreground detection in automated maritime surveillance | |
KR20210019537A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
US20190362190A1 (en) | Method and system for dnn based imaging | |
WO2020088766A1 (en) | Methods for optical flow estimation | |
KR20220116015A (ko) | 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치 | |
CN109903315B (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
CN114926338A (zh) | 模型训练方法及装置、电子设备和存储介质 | |
CN110084742B (zh) | 一种视差图预测方法、装置及电子设备 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN115115918B (zh) | 一种基于多知识融合的视觉学习方法 | |
Bae et al. | Dual-dissimilarity measure-based statistical video cut detection | |
US9489741B2 (en) | Method, apparatus and computer program product for disparity estimation of foreground objects in images | |
CN110852250B (zh) | 一种基于最大面积法的车辆排重方法、装置及存储介质 | |
CN111861940A (zh) | 一种基于条件连续调节的图像调色增强方法 | |
Ok et al. | Modified adaptive support weight and disparity search range estimation schemes for stereo matching processors | |
CN115223018A (zh) | 伪装对象协同检测方法及装置、电子设备和存储介质 | |
CN111915703B (zh) | 一种图像生成方法和装置 | |
Van Toan et al. | Multi-scale synergy approach for real-time semantic segmentation | |
Das et al. | Depth-Guided Two-Way Saliency Network for 2D Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |