CN107451620A - 一种基于多任务学习的场景理解方法 - Google Patents
一种基于多任务学习的场景理解方法 Download PDFInfo
- Publication number
- CN107451620A CN107451620A CN201710686296.0A CN201710686296A CN107451620A CN 107451620 A CN107451620 A CN 107451620A CN 201710686296 A CN201710686296 A CN 201710686296A CN 107451620 A CN107451620 A CN 107451620A
- Authority
- CN
- China
- Prior art keywords
- task
- model
- mrow
- msup
- uncertainty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Operations Research (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于多任务学习的场景理解方法,其主要内容包括:同方差不确定性的多任务学习,多任务似然函数,场景理解模型,其过程为,先执行每个单独任务的损失的加权线性和,学习最优的任务权重,接着推导一个多任务损失函数,定义概率模型,将可能性定义为模型输出给出的平均值的高斯函数,最后构建在像素级别学习回归和分类输出的模型,包括语义分割、实例分割和深度回归。本发明提出的场景理解模型可以学习多任务权重,优于其他单独训练每个任务的模型,减少了计算量,提高了学习效率和预测精度,并且可以实时运行。
Description
技术领域
本发明涉及场景理解领域,尤其是涉及了一种基于多任务学习的场景理解方法。
背景技术
场景理解能够有效帮助和提高计算机对于复杂多变的室内外场景的分析和认知能力,是计算机视觉领域的研究热点之一。场景理解通常可以分为局部场景理解和全局场景理解两大类。前者侧重于对场景局部区域的分布和类别进行分析和描述,诸如场景中各种不同类别局部目标的识别和定位;后者侧重于理解场景的全局属性,比如场景分类。两者都能从不同认知层面加深计算机对于未知场景的认知和把握程度,在智能监控、信息检索和移动机器人等领域具有广阔的应用前景,因而具有重要的研究价值和意义。同时,在交通运输方面,由于可以通过分割识别行人、车辆、路况、交通信号灯、交通警告标志等,从而辅助驾驶系统技术,无人驾驶智能车辆技术等。在农业上可用于资源普查、农业规划、农作物产量估计、病虫害检测、森林调查等许多方面。然而,传统的场景理解方法仅能单独训练每个任务,效率和预测精度都不理想。
本发明提出了一种基于多任务学习的场景理解方法,先执行每个单独任务的损失的加权线性和,学习最优的任务权重,接着推导一个多任务损失函数,定义概率模型,将可能性定义为模型输出给出的平均值的高斯函数,最后构建在像素级别学习回归和分类输出的模型,包括语义分割、实例分割和深度回归。本发明提出的场景理解模型可以学习多任务权重,优于其他单独训练每个任务的模型,减少了计算量,提高了学习效率和预测精度,并且可以实时运行。
发明内容
针对效率和预测精度都不理想的问题,本发明的目的在于提供一种基于多任务学习的场景理解方法,先执行每个单独任务的损失的加权线性和,学习最优的任务权重,接着推导一个多任务损失函数,定义概率模型,将可能性定义为模型输出给出的平均值的高斯函数,最后构建在像素级别学习回归和分类输出的模型,包括语义分割、实例分割和深度回归。
为解决上述问题,本发明提供一种基于多任务学习的场景理解方法,其主要内容包括:
(一)同方差不确定性的多任务学习;
(二)多任务似然函数;
(三)场景理解模型。
其中,所述的同方差不确定性的多任务学习,多任务学习涉及到针对多个目标优化模型的问题;组合多目标损失的方法是执行每个单独任务的损失的加权线性和:
但是模型性能对于权重wi的选择非常敏感;在一些最佳权重下,联合网络比单独训练的单独网络更好,单独执行每个任务的训练,在图像的两个边缘看到单个任务中的模型的性能:w=0和w=1;在接近于最优权重值时,网络在其中一个任务上表现较差,因此需要学习最优的任务权重。
进一步地,所述的不确定性,在贝叶斯模型中,可以模拟不确定性的两种主要类型:
(1)认知不确定性是模型中的不确定性,它捕获了由于缺乏训练数据而导致模型不了解的地方;可以用增加的训练数据解释;
(2)偶然不确定性捕获了对数据无法解释的信息不确定性;偶然不确定性可以解释为具有以更高的精度观察所有解释变量的能力;
偶然不确定性可再次分为两个子类别:
(1)数据依赖性或异方差的不确定性依赖于输入数据的偶然不确定性,并且可能是模型的输出;
(2)任务依赖性或同方差不确定性是不依赖于输入数据的偶然不确定性;它不是模型输出,而是对于所有输入数据保持不变的数,并且在不同任务之间变化;因此,称它为依赖任务的不确定性;
在多任务环境中,显示了任务不确定性捕获了任务之间的相对置信度,反映了回归或分类任务固有的不确定性;它还将取决于任务的表示或度量单位;因此建议使用同方差的不确定性作为多任务学习问题中权重损失的基础。
其中,所述的多任务似然函数,推导一个多任务损失函数,该函数基于最大化具有均匀不确定性的高斯似然函数;令fW(x)为输入x上权重W的神经网络的输出;定义以下概率模型,对于回归任务,将似然函数定义为模型输出给出的平均值的高斯函数:
p(y|fW(x))=N(fW(x),σ2) (2)
其具有观测噪声标量σ;对于分类,常通过Softmax函数压缩模型输出,并从得到的概率向量中采样:
p(y|fW(x))=Softmax(fW(x)) (3)
在多个模型输出的情况下,给定足够的统计数据,常定义似然函数来对输出进行因式分解;将fW(x)定义为足够的统计量,并获得以下多任务似然函数:
p(y1,…,yK|fW(x))=p(y1|fW(x))…p(yK|fW(x)) (4)
模型输出为y1,…,yK(如语义分割、深度回归等);
在最大似然推理中,最大化模型的对数似然函数;在回归中,对数似然度可以写为:
对于具有σ模型的观测噪声参数的高斯似然函数(或类似于拉普拉斯似然函数),捕获输出中噪声的多少;然后,对模型参数W和观测噪声参数σ最大化对数似然函数。
进一步地,所述的模型的最小化目标,假设模型输出由两个向量y1和y2组成,每个向量遵循高斯分布:
多输出模型的最小化目标(损失函数)为:
为定义第一个输出变量的损失函数,类似地定义
根据数据自适应地学习损失和的相对权重,解释最小化相对σ1和σ2的最后目标;作为σ1-变量y1的噪声参数增加,的权重减小;另一方面,随着噪声的降低,各个目标的权重增加;
这种结构可以简单地扩展到多个回归输出;通过Softmax函数调整分类似然性来压缩模型输出:
其具有正标量σ;可将此输出的对数似然度写为:
其中,为矢量fW(x)的第c个元素。
进一步地,所述的联合损失,假设模型的多个输出由连续输出y1和离散输出y2组成,分别以高斯似然函数和Softmax似然函数为模型;联合损失为:
再次为y1的欧几里德损失函数定义L1(W)=||y1-fW(x)||2,对于y2的交叉熵损失函数,定义L2(W)=-logSoftmax(y2;fW(x))(fW(x)未缩放),并且相对于W以及σ1,σ2优化;在最后一次转换中,引入了简化假设:
具有同步任务不确定性的多任务目标变为:
在i索引的所有任务中,为回归损失函数yi定义Li(W)=||yi-fW(x)||2,对分类损失,定义这种结构可以简单地扩展到离散和连续变量的任意组合,能够学习每个损失的相对权重;这种损失是平滑可微的,并且任务权重不会收敛到零;相比之下,使用简单的线性损失,即公式(1),直接学习权重将导致权重快速收敛到零。
其中,所述的场景理解模型,为了理解语义和几何,首先提出一种可以在像素级别学习回归和分类输出的体系结构,本架构是一个深度卷积编码器解码器网络,由多个卷积编码器组成,产生一个共享的表示形式,后面是相应数量的特定于任务的卷积解码器;将每个任务的2048维共享特征表示分解为各个解码器,每个解码器由每个任务的三个卷积层组成;模型包括语义分割、实例分割和深度回归。
进一步地,所述的语义分割,使用交叉熵损失来学习像素级的概率,用每个小批量中的语义标签对像素上的损失取平均值。
进一步地,所述的实例分割,使用回归方法进行实例分割;为每个像素坐标cn学习一个实例向量它指向像素的实例in的质心,使得使用标定好的真实数据标签xn训练这个回归,使用一个小批量的所有标记像素NI平均值:
为了获得每个实例的分段,需要估计实例中心将估计的实例向量在霍夫参数空间中进行考虑,并使用聚类算法来识别这些实例中心;将点聚集到多个估计实例中;然后将每个pn分配给最接近其估计的实例向量
进一步地,所述的深度回归,使用L1损失函数来训练带有监督标签: 架构估计反向深度因为它可以代表无限距离(如天空)的点;可以从传感器或立体图像获得反向深度标签dn;不具有反深度标签的像素在损失中被忽略。
附图说明
图1是本发明一种基于多任务学习的场景理解方法的系统框架图。
图2是本发明一种基于多任务学习的场景理解方法的场景理解模型。
图3是本发明一种基于多任务学习的场景理解方法的场景理解模型的三种输出。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于多任务学习的场景理解方法的系统框架图。主要包括同方差不确定性的多任务学习,多任务似然函数,场景理解模型。
同方差不确定性的多任务学习,多任务学习涉及到针对多个目标优化模型的问题;组合多目标损失的方法是执行每个单独任务的损失的加权线性和:
但是模型性能对于权重wi的选择非常敏感;在一些最佳权重下,联合网络比单独训练的单独网络更好,单独执行每个任务的训练,在图像的两个边缘看到单个任务中的模型的性能:w=0和w=1;在接近于最优权重值时,网络在其中一个任务上表现较差,因此需要学习最优的任务权重。
在贝叶斯模型中,可以模拟不确定性的两种主要类型:
(1)认知不确定性是模型中的不确定性,它捕获了由于缺乏训练数据而导致模型不了解的地方;可以用增加的训练数据解释;
(2)偶然不确定性捕获了对数据无法解释的信息不确定性;偶然不确定性可以解释为具有以更高的精度观察所有解释变量的能力;
偶然不确定性可再次分为两个子类别:
(1)数据依赖性或异方差的不确定性依赖于输入数据的偶然不确定性,并且可能是模型的输出;
(2)任务依赖性或同方差不确定性是不依赖于输入数据的偶然不确定性;它不是模型输出,而是对于所有输入数据保持不变的数,并且在不同任务之间变化;因此,称它为依赖任务的不确定性;
在多任务环境中,显示了任务不确定性捕获了任务之间的相对置信度,反映了回归或分类任务固有的不确定性;它还将取决于任务的表示或度量单位;因此建议使用同方差的不确定性作为多任务学习问题中权重损失的基础。
多任务似然函数,推导一个多任务损失函数,该函数基于最大化具有均匀不确定性的高斯似然函数;令fW(x)为输入x上权重W的神经网络的输出;定义以下概率模型,对于回归任务,将似然函数定义为模型输出给出的平均值的高斯函数:
p(y|fW(x))=N(fW(x),σ2) (2)
其具有观测噪声标量σ;对于分类,常通过Softmax函数压缩模型输出,并从得到的概率向量中采样:
p(y|fW(x))=Softmax(fW(x)) (3)
在多个模型输出的情况下,给定足够的统计数据,常定义似然函数来对输出进行因式分解;将fW(x)定义为足够的统计量,并获得以下多任务似然函数:
p(y1,…,yK|fW(x))=p(y1|fW(x))…p(yK|fW(x)) (4)
模型输出为y1,…,yK(如语义分割、深度回归等);
在最大似然推理中,最大化模型的对数似然函数;在回归中,对数似然度可以写为:
对于具有σ模型的观测噪声参数的高斯似然函数(或类似于拉普拉斯似然函数),捕获输出中噪声的多少;然后,对模型参数W和观测噪声参数σ最大化对数似然函数。
假设模型输出由两个向量y1和y2组成,每个向量遵循高斯分布:
多输出模型的最小化目标(损失函数)为:
为定义第一个输出变量的损失函数,类似地定义
根据数据自适应地学习损失和的相对权重,解释最小化相对σ1和σ2的最后目标;作为σ1-变量y1的噪声参数增加,的权重减小;另一方面,随着噪声的降低,各个目标的权重增加;
这种结构可以简单地扩展到多个回归输出;通过Softmax函数调整分类似然性来压缩模型输出:
其具有正标量σ;可将此输出的对数似然度写为:
其中,为矢量fW(x)的第c个元素。
假设模型的多个输出由连续输出y1和离散输出y2组成,分别以高斯似然函数和Softmax似然函数为模型;联合损失为:
再次为y1的欧几里德损失函数定义L1(W)=||y1-fW(x)||2,对于y2的交叉熵损失函数,定义(fW(x)未缩放),并且相对于W以及σ1,σ2优化;在最后一次转换中,引入了简化假设:
具有同步任务不确定性的多任务目标变为:
在i索引的所有任务中,为回归损失函数yi定义对分类损失,定义这种结构可以简单地扩展到离散和连续变量的任意组合,能够学习每个损失的相对权重;这种损失是平滑可微的,并且任务权重不会收敛到零;相比之下,使用简单的线性损失,即公式(1),直接学习权重将导致权重快速收敛到零。
图2是本发明一种基于多任务学习的场景理解方法的场景理解模型。为了理解语义和几何,首先提出一种可以在像素级别学习回归和分类输出的体系结构,本架构是一个深度卷积编码器解码器网络,由多个卷积编码器组成,产生一个共享的表示形式,后面是相应数量的特定于任务的卷积解码器;将每个任务的2048维共享特征表示分解为各个解码器,每个解码器由每个任务的三个卷积层组成。
图3是本发明一种基于多任务学习的场景理解方法的场景理解模型的三种输出。场景理解模型包括语义分割、实例分割和深度回归。
语义分割使用交叉熵损失来学习像素级的概率,用每个小批量中的语义标签对像素上的损失取平均值。
实例分割使用回归方法进行实例分割;为每个像素坐标cn学习一个实例向量它指向像素的实例in的质心,使得使用标定好的真实数据标签xn训练这个回归,使用一个小批量的所有标记像素NI平均值:
为了获得每个实例的分段,需要估计实例中心将估计的实例向量在霍夫参数空间中进行考虑,并使用聚类算法来识别这些实例中心;将点聚集到多个估计实例中;然后将每个pn分配给最接近其估计的实例向量
深度回归使用L1损失函数来训练带有监督标签:架构估计反向深度因为它可以代表无限距离(如天空)的点;可以从传感器或立体图像获得反向深度标签dn;不具有反深度标签的像素在损失中被忽略。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于多任务学习的场景理解方法,其特征在于,主要包括同方差不确定性的多任务学习(一);多任务似然函数(二);场景理解模型(三)。
2.基于权利要求书1所述的同方差不确定性的多任务学习(一),其特征在于,多任务学习涉及到针对多个目标优化模型的问题;组合多目标损失的方法是执行每个单独任务的损失的加权线性和:
但是模型性能对于权重wi的选择非常敏感;在一些最佳权重下,联合网络比单独训练的单独网络更好,单独执行每个任务的训练,在图像的两个边缘看到单个任务中的模型的性能:w=0和w=1;在接近于最优权重值时,网络在其中一个任务上表现较差,因此需要学习最优的任务权重。
3.基于权利要求书2所述的不确定性,其特征在于,在贝叶斯模型中,可以模拟不确定性的两种主要类型:
(1)认知不确定性是模型中的不确定性,它捕获了由于缺乏训练数据而导致模型不了解的地方;可以用增加的训练数据解释;
(2)偶然不确定性捕获了对数据无法解释的信息不确定性;偶然不确定性可以解释为具有以更高的精度观察所有解释变量的能力;
偶然不确定性可再次分为两个子类别:
(1)数据依赖性或异方差的不确定性依赖于输入数据的偶然不确定性,并且可能是模型的输出;
(2)任务依赖性或同方差不确定性是不依赖于输入数据的偶然不确定性;它不是模型输出,而是对于所有输入数据保持不变的数,并且在不同任务之间变化;因此,称它为依赖任务的不确定性;
在多任务环境中,显示了任务不确定性捕获了任务之间的相对置信度,反映了回归或分类任务固有的不确定性;它还将取决于任务的表示或度量单位;因此建议使用同方差的不确定性作为多任务学习问题中权重损失的基础。
4.基于权利要求书1所述的多任务似然函数(二),其特征在于,推导一个多任务损失函数,该函数基于最大化具有均匀不确定性的高斯似然函数;令fW(x)为输入x上权重W的神经网络的输出;定义以下概率模型,对于回归任务,将似然函数定义为模型输出给出的平均值的高斯函数:
其具有观测噪声标量σ;对于分类,常通过Softmax函数压缩模型输出,并从得到的概率向量中采样:
p(y|fW(x))=Softmax(fW(x)) (3)
在多个模型输出的情况下,给定足够的统计数据,常定义似然函数来对输出进行因式分解;将fW(x)定义为足够的统计量,并获得以下多任务似然函数:
p(y1,…,yK|fW(x))=p(y1|fW(x))…p(yK|fW(x)) (4)
模型输出为y1,…,yK(如语义分割、深度回归等);
在最大似然推理中,最大化模型的对数似然函数;在回归中,对数似然度可以写为:
<mrow>
<mi>log</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<msup>
<mi>f</mi>
<mi>W</mi>
</msup>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>&Proportional;</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>y</mi>
<mo>-</mo>
<msup>
<mi>f</mi>
<mi>W</mi>
</msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>-</mo>
<msup>
<mi>log&sigma;</mi>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
对于具有σ模型的观测噪声参数的高斯似然函数(或类似于拉普拉斯似然函数),捕获输出中噪声的多少;然后,对模型参数W和观测噪声参数σ最大化对数似然函数。
5.基于权利要求书4所述的模型的最小化目标,其特征在于,假设模型输出由两个向量y1和y2组成,每个向量遵循高斯分布:
多输出模型的最小化目标(损失函数)为:
为定义第一个输出变量的损失函数,类似地定义
根据数据自适应地学习损失和的相对权重,解释最小化相对σ1和σ2的最后目标;作为σ1-变量y1的噪声参数增加,的权重减小;另一方面,随着噪声的降低,各个目标的权重增加;
这种结构可以简单地扩展到多个回归输出;通过Softmax函数调整分类似然性来压缩模型输出:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<msup>
<mi>f</mi>
<mi>W</mi>
</msup>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>,</mo>
<mi>&sigma;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>S</mi>
<mi>o</mi>
<mi>f</mi>
<mi>t</mi>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mfrac>
<msup>
<mi>f</mi>
<mi>W</mi>
</msup>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其具有正标量σ;可将此输出的对数似然度写为:
<mrow>
<mi>log</mi>
<mi> </mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>=</mo>
<mi>c</mi>
<mo>|</mo>
<msup>
<mi>f</mi>
<mi>W</mi>
</msup>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mfrac>
<msubsup>
<mi>f</mi>
<mi>c</mi>
<mi>W</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<munder>
<mo>&Sigma;</mo>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
</munder>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mfrac>
<msubsup>
<mi>f</mi>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<mi>W</mi>
</msubsup>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,为矢量fW(x)的第c个元素。
6.基于权利要求书5所述的联合损失,其特征在于,假设模型的多个输出由连续输出y1和离散输出y2组成,分别以高斯似然函数和Softmax似然函数为模型;联合损失为:
再次为y1的欧几里德损失函数定义对于y2的交叉熵损失函数,定义(fW(x)未缩放),并且相对于W以及σ1,σ2优化;在最后一次转换中,引入了简化假设:
具有同步任务不确定性的多任务目标变为:
在i索引的所有任务中,为回归损失函数yi定义对分类损失,定义这种结构可以简单地扩展到离散和连续变量的任意组合,能够学习每个损失的相对权重;这种损失是平滑可微的,并且任务权重不会收敛到零;相比之下,使用简单的线性损失,即公式(1),直接学习权重将导致权重快速收敛到零。
7.基于权利要求书1所述的场景理解模型(三),其特征在于,为了理解语义和几何,首先提出一种可以在像素级别学习回归和分类输出的体系结构,本架构是一个深度卷积编码器解码器网络,由多个卷积编码器组成,产生一个共享的表示形式,后面是相应数量的特定于任务的卷积解码器;将每个任务的2048维共享特征表示分解为各个解码器,每个解码器由每个任务的三个卷积层组成;模型包括语义分割、实例分割和深度回归。
8.基于权利要求书7所述的语义分割,其特征在于,使用交叉熵损失来学习像素级的概率,用每个小批量中的语义标签对像素上的损失取平均值。
9.基于权利要求书7所述的实例分割,其特征在于,使用回归方法进行实例分割;为每个像素坐标cn学习一个实例向量它指向像素的实例in的质心,使得使用标定好的真实数据标签xn训练这个回归,使用一个小批量的所有标记像素NI平均值:
为了获得每个实例的分段,需要估计实例中心将估计的实例向量在霍夫参数空间中进行考虑,并使用聚类算法来识别这些实例中心;将点聚集到多个估计实例中;然后将每个pn分配给最接近其估计的实例向量
10.基于权利要求书7所述的深度回归,其特征在于,使用L1损失函数来训练带有监督标签:架构估计反向深度因为它可以代表无限距离(如天空)的点;可以从传感器或立体图像获得反向深度标签dn;不具有反深度标签的像素在损失中被忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710686296.0A CN107451620A (zh) | 2017-08-11 | 2017-08-11 | 一种基于多任务学习的场景理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710686296.0A CN107451620A (zh) | 2017-08-11 | 2017-08-11 | 一种基于多任务学习的场景理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107451620A true CN107451620A (zh) | 2017-12-08 |
Family
ID=60492044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710686296.0A Withdrawn CN107451620A (zh) | 2017-08-11 | 2017-08-11 | 一种基于多任务学习的场景理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451620A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108325201A (zh) * | 2017-12-20 | 2018-07-27 | 上海电气集团股份有限公司 | 一种基于多源信息融合的步频检测方法及设备 |
CN108985250A (zh) * | 2018-07-27 | 2018-12-11 | 大连理工大学 | 一种基于多任务网络的交通场景解析方法 |
CN109145798A (zh) * | 2018-08-13 | 2019-01-04 | 浙江零跑科技有限公司 | 一种驾驶场景目标识别与可行驶区域分割集成方法 |
CN109145026A (zh) * | 2018-08-29 | 2019-01-04 | 昆明理工大学 | 一种根据注释者辅助信息程度的标签排序的方法 |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN110175525A (zh) * | 2019-04-28 | 2019-08-27 | 浙江大学 | 一种耐盐黄秋葵品种快速筛选方法 |
CN110349215A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种相机位姿估计方法及装置 |
CN110400013A (zh) * | 2019-07-22 | 2019-11-01 | 西北工业大学 | 一种基于多任务学习机制的移动应用消亡预测方法 |
CN110516795A (zh) * | 2019-08-28 | 2019-11-29 | 北京达佳互联信息技术有限公司 | 一种为模型变量分配处理器的方法、装置及电子设备 |
CN110556178A (zh) * | 2018-05-30 | 2019-12-10 | 西门子医疗有限公司 | 用于医学疗法规划的决策支持系统 |
CN111353505A (zh) * | 2020-05-25 | 2020-06-30 | 南京邮电大学 | 可联合实现语义分割和景深估计的网络模型及训练方法 |
CN111508010A (zh) * | 2019-01-31 | 2020-08-07 | 北京地平线机器人技术研发有限公司 | 对二维图像进行深度估计的方法、装置及电子设备 |
CN111723635A (zh) * | 2019-03-20 | 2020-09-29 | 北京四维图新科技股份有限公司 | 实时场景理解系统 |
CN111860264A (zh) * | 2020-07-10 | 2020-10-30 | 武汉理工大学 | 一种基于梯度均衡策略的多任务实例级道路场景理解算法 |
CN111937004A (zh) * | 2018-05-09 | 2020-11-13 | 康蒂-特米克微电子有限公司 | 用于检测车道和道路的方法 |
CN112950645A (zh) * | 2021-03-24 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种基于多任务深度学习的图像语义分割方法 |
CN113537365A (zh) * | 2021-07-20 | 2021-10-22 | 北京航空航天大学 | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 |
CN113587935A (zh) * | 2021-08-04 | 2021-11-02 | 燕山大学 | 一种基于射频信号多任务学习网络的室内场景理解方法 |
CN114648633A (zh) * | 2020-12-02 | 2022-06-21 | Aptiv技术有限公司 | 确定车辆环境的语义分割的方法 |
CN114819091A (zh) * | 2022-05-07 | 2022-07-29 | 杭州电子科技大学 | 基于自适应任务权重的多任务网络模型训练方法及系统 |
US11645745B2 (en) * | 2019-02-15 | 2023-05-09 | Surgical Safety Technologies Inc. | System and method for adverse event detection or severity estimation from surgical data |
-
2017
- 2017-08-11 CN CN201710686296.0A patent/CN107451620A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
ALEX KENDALL等: ""Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics"", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1705.07115》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108325201A (zh) * | 2017-12-20 | 2018-07-27 | 上海电气集团股份有限公司 | 一种基于多源信息融合的步频检测方法及设备 |
CN111937004A (zh) * | 2018-05-09 | 2020-11-13 | 康蒂-特米克微电子有限公司 | 用于检测车道和道路的方法 |
US20230368888A1 (en) * | 2018-05-30 | 2023-11-16 | Siemens Healthcare Gmbh | Decision support system for medical therapy planning |
US11961604B2 (en) * | 2018-05-30 | 2024-04-16 | Siemens Healthineers Ag | Decision support system for medical therapy planning |
US11756667B2 (en) | 2018-05-30 | 2023-09-12 | Siemens Healthcare Gmbh | Decision support system for medical therapy planning |
CN110556178A (zh) * | 2018-05-30 | 2019-12-10 | 西门子医疗有限公司 | 用于医学疗法规划的决策支持系统 |
CN108985250A (zh) * | 2018-07-27 | 2018-12-11 | 大连理工大学 | 一种基于多任务网络的交通场景解析方法 |
CN109145798A (zh) * | 2018-08-13 | 2019-01-04 | 浙江零跑科技有限公司 | 一种驾驶场景目标识别与可行驶区域分割集成方法 |
CN109145026A (zh) * | 2018-08-29 | 2019-01-04 | 昆明理工大学 | 一种根据注释者辅助信息程度的标签排序的方法 |
CN109145026B (zh) * | 2018-08-29 | 2021-07-16 | 昆明理工大学 | 一种根据注释者辅助信息程度的标签排序的方法 |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN111508010A (zh) * | 2019-01-31 | 2020-08-07 | 北京地平线机器人技术研发有限公司 | 对二维图像进行深度估计的方法、装置及电子设备 |
CN111508010B (zh) * | 2019-01-31 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 对二维图像进行深度估计的方法、装置及电子设备 |
US11645745B2 (en) * | 2019-02-15 | 2023-05-09 | Surgical Safety Technologies Inc. | System and method for adverse event detection or severity estimation from surgical data |
CN111723635A (zh) * | 2019-03-20 | 2020-09-29 | 北京四维图新科技股份有限公司 | 实时场景理解系统 |
CN111723635B (zh) * | 2019-03-20 | 2023-08-18 | 北京四维图新科技股份有限公司 | 实时场景理解系统 |
CN110175525B (zh) * | 2019-04-28 | 2021-01-26 | 浙江大学 | 一种耐盐黄秋葵品种快速筛选方法 |
CN110175525A (zh) * | 2019-04-28 | 2019-08-27 | 浙江大学 | 一种耐盐黄秋葵品种快速筛选方法 |
CN110349215A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种相机位姿估计方法及装置 |
CN110349215B (zh) * | 2019-07-10 | 2021-10-12 | 北京悉见科技有限公司 | 一种相机位姿估计方法及装置 |
CN110400013A (zh) * | 2019-07-22 | 2019-11-01 | 西北工业大学 | 一种基于多任务学习机制的移动应用消亡预测方法 |
CN110516795A (zh) * | 2019-08-28 | 2019-11-29 | 北京达佳互联信息技术有限公司 | 一种为模型变量分配处理器的方法、装置及电子设备 |
CN111353505A (zh) * | 2020-05-25 | 2020-06-30 | 南京邮电大学 | 可联合实现语义分割和景深估计的网络模型及训练方法 |
CN111860264B (zh) * | 2020-07-10 | 2024-01-05 | 武汉理工大学 | 一种基于梯度均衡策略的多任务实例级道路场景理解算法 |
CN111860264A (zh) * | 2020-07-10 | 2020-10-30 | 武汉理工大学 | 一种基于梯度均衡策略的多任务实例级道路场景理解算法 |
CN114648633A (zh) * | 2020-12-02 | 2022-06-21 | Aptiv技术有限公司 | 确定车辆环境的语义分割的方法 |
CN112950645A (zh) * | 2021-03-24 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种基于多任务深度学习的图像语义分割方法 |
CN112950645B (zh) * | 2021-03-24 | 2023-05-12 | 中国人民解放军国防科技大学 | 一种基于多任务深度学习的图像语义分割方法 |
CN113537365B (zh) * | 2021-07-20 | 2024-02-06 | 北京航空航天大学 | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 |
CN113537365A (zh) * | 2021-07-20 | 2021-10-22 | 北京航空航天大学 | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 |
CN113587935B (zh) * | 2021-08-04 | 2023-12-01 | 燕山大学 | 一种基于射频信号多任务学习网络的室内场景理解方法 |
CN113587935A (zh) * | 2021-08-04 | 2021-11-02 | 燕山大学 | 一种基于射频信号多任务学习网络的室内场景理解方法 |
CN114819091A (zh) * | 2022-05-07 | 2022-07-29 | 杭州电子科技大学 | 基于自适应任务权重的多任务网络模型训练方法及系统 |
CN114819091B (zh) * | 2022-05-07 | 2024-04-16 | 杭州电子科技大学 | 基于自适应任务权重的多任务网络模型训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451620A (zh) | 一种基于多任务学习的场景理解方法 | |
Vu et al. | Hybridnets: End-to-end perception network | |
Liu et al. | Deep instance segmentation with automotive radar detection points | |
CN109858390A (zh) | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 | |
Akan et al. | Stretchbev: Stretching future instance prediction spatially and temporally | |
Khalkhali et al. | Vehicle tracking with Kalman filter using online situation assessment | |
CN108875555B (zh) | 基于神经网络的视频兴趣区域和显著目标提取与定位系统 | |
Shin et al. | User mobility synthesis based on generative adversarial networks: A survey | |
Usmani et al. | A reinforced active learning algorithm for semantic segmentation in complex imaging | |
Sharjeel et al. | Real time drone detection by moving camera using COROLA and CNN algorithm | |
Battistone et al. | Watch out: embedded video tracking with BST for unmanned aerial vehicles | |
Sun et al. | Transformer-based moving target tracking method for Unmanned Aerial Vehicle | |
Zhang et al. | Multi-task learning for location prediction with deep multi-model ensembles | |
Serra-Gómez et al. | Active classification of moving targets with learned control policies | |
Sun et al. | Siamese Transformer Network: Building an autonomous real-time target tracking system for UAV | |
Jiang et al. | A novel pet trajectory prediction method for intelligent plant cultivation robot | |
Lu et al. | Farmland boundary extraction based on the AttMobile-DeeplabV3+ network and least squares fitting of straight lines | |
Liu et al. | Research on moving object detection based on camshift algorithm and Kalman filter | |
Doan et al. | Learning to predict repeatability of interest points | |
Zeng et al. | Multi-task panoramic driving perception algorithm based on improved YOLOv5 | |
Wang et al. | HEI-GAN: A Human-Environment Interaction Based GAN for Multimodal Human Trajectory Prediction | |
Dulian et al. | Exploiting latent representation of sparse semantic layers for improved short-term motion prediction with Capsule Networks | |
Gayathri et al. | Implementing Robotic Path Planning After Object Detection in Deterministic Environments Using Deep Learning Techniques | |
Zhang et al. | Robust Real-Time Object Tracking System for Human-Following Quadruped Robot | |
De Alvis et al. | Online learning for scene segmentation with laser-constrained CRFs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171208 |
|
WW01 | Invention patent application withdrawn after publication |