CN107451620A

CN107451620A - 一种基于多任务学习的场景理解方法

Info

Publication number: CN107451620A
Application number: CN201710686296.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-12-08

Abstract

本发明中提出的一种基于多任务学习的场景理解方法，其主要内容包括：同方差不确定性的多任务学习，多任务似然函数，场景理解模型，其过程为，先执行每个单独任务的损失的加权线性和，学习最优的任务权重，接着推导一个多任务损失函数，定义概率模型，将可能性定义为模型输出给出的平均值的高斯函数，最后构建在像素级别学习回归和分类输出的模型，包括语义分割、实例分割和深度回归。本发明提出的场景理解模型可以学习多任务权重，优于其他单独训练每个任务的模型，减少了计算量，提高了学习效率和预测精度，并且可以实时运行。

Description

一种基于多任务学习的场景理解方法

技术领域

本发明涉及场景理解领域，尤其是涉及了一种基于多任务学习的场景理解方法。

背景技术

场景理解能够有效帮助和提高计算机对于复杂多变的室内外场景的分析和认知能力，是计算机视觉领域的研究热点之一。场景理解通常可以分为局部场景理解和全局场景理解两大类。前者侧重于对场景局部区域的分布和类别进行分析和描述，诸如场景中各种不同类别局部目标的识别和定位；后者侧重于理解场景的全局属性，比如场景分类。两者都能从不同认知层面加深计算机对于未知场景的认知和把握程度，在智能监控、信息检索和移动机器人等领域具有广阔的应用前景，因而具有重要的研究价值和意义。同时，在交通运输方面，由于可以通过分割识别行人、车辆、路况、交通信号灯、交通警告标志等，从而辅助驾驶系统技术，无人驾驶智能车辆技术等。在农业上可用于资源普查、农业规划、农作物产量估计、病虫害检测、森林调查等许多方面。然而，传统的场景理解方法仅能单独训练每个任务，效率和预测精度都不理想。

本发明提出了一种基于多任务学习的场景理解方法，先执行每个单独任务的损失的加权线性和，学习最优的任务权重，接着推导一个多任务损失函数，定义概率模型，将可能性定义为模型输出给出的平均值的高斯函数，最后构建在像素级别学习回归和分类输出的模型，包括语义分割、实例分割和深度回归。本发明提出的场景理解模型可以学习多任务权重，优于其他单独训练每个任务的模型，减少了计算量，提高了学习效率和预测精度，并且可以实时运行。

发明内容

针对效率和预测精度都不理想的问题，本发明的目的在于提供一种基于多任务学习的场景理解方法，先执行每个单独任务的损失的加权线性和，学习最优的任务权重，接着推导一个多任务损失函数，定义概率模型，将可能性定义为模型输出给出的平均值的高斯函数，最后构建在像素级别学习回归和分类输出的模型，包括语义分割、实例分割和深度回归。

为解决上述问题，本发明提供一种基于多任务学习的场景理解方法，其主要内容包括：

(一)同方差不确定性的多任务学习；

(二)多任务似然函数；

(三)场景理解模型。

其中，所述的同方差不确定性的多任务学习，多任务学习涉及到针对多个目标优化模型的问题；组合多目标损失的方法是执行每个单独任务的损失的加权线性和：

但是模型性能对于权重w_i的选择非常敏感；在一些最佳权重下，联合网络比单独训练的单独网络更好，单独执行每个任务的训练，在图像的两个边缘看到单个任务中的模型的性能：w＝0和w＝1；在接近于最优权重值时，网络在其中一个任务上表现较差，因此需要学习最优的任务权重。

进一步地，所述的不确定性，在贝叶斯模型中，可以模拟不确定性的两种主要类型：

(1)认知不确定性是模型中的不确定性，它捕获了由于缺乏训练数据而导致模型不了解的地方；可以用增加的训练数据解释；

(2)偶然不确定性捕获了对数据无法解释的信息不确定性；偶然不确定性可以解释为具有以更高的精度观察所有解释变量的能力；

偶然不确定性可再次分为两个子类别：

(1)数据依赖性或异方差的不确定性依赖于输入数据的偶然不确定性，并且可能是模型的输出；

(2)任务依赖性或同方差不确定性是不依赖于输入数据的偶然不确定性；它不是模型输出，而是对于所有输入数据保持不变的数，并且在不同任务之间变化；因此，称它为依赖任务的不确定性；

在多任务环境中，显示了任务不确定性捕获了任务之间的相对置信度，反映了回归或分类任务固有的不确定性；它还将取决于任务的表示或度量单位；因此建议使用同方差的不确定性作为多任务学习问题中权重损失的基础。

其中，所述的多任务似然函数，推导一个多任务损失函数，该函数基于最大化具有均匀不确定性的高斯似然函数；令f^W(x)为输入x上权重W的神经网络的输出；定义以下概率模型，对于回归任务，将似然函数定义为模型输出给出的平均值的高斯函数：

p(y|f^W(x))＝N(f^W(x),σ²) (2)

其具有观测噪声标量σ；对于分类，常通过Softmax函数压缩模型输出，并从得到的概率向量中采样：

p(y|f^W(x))＝Softmax(f^W(x)) (3)

在多个模型输出的情况下，给定足够的统计数据，常定义似然函数来对输出进行因式分解；将f^W(x)定义为足够的统计量，并获得以下多任务似然函数：

p(y₁,…,y_K|f^W(x))＝p(y₁|f^W(x))…p(y_K|f^W(x)) (4)

模型输出为y₁,…,y_K(如语义分割、深度回归等)；

在最大似然推理中，最大化模型的对数似然函数；在回归中，对数似然度可以写为：

对于具有σ模型的观测噪声参数的高斯似然函数(或类似于拉普拉斯似然函数)，捕获输出中噪声的多少；然后，对模型参数W和观测噪声参数σ最大化对数似然函数。

进一步地，所述的模型的最小化目标，假设模型输出由两个向量y₁和y₂组成，每个向量遵循高斯分布：

多输出模型的最小化目标(损失函数)为：

为定义第一个输出变量的损失函数，类似地定义

根据数据自适应地学习损失和的相对权重，解释最小化相对σ₁和σ₂的最后目标；作为σ₁-变量y₁的噪声参数增加，的权重减小；另一方面，随着噪声的降低，各个目标的权重增加；

这种结构可以简单地扩展到多个回归输出；通过Softmax函数调整分类似然性来压缩模型输出：

其具有正标量σ；可将此输出的对数似然度写为：

其中，为矢量f^W(x)的第c个元素。

进一步地，所述的联合损失，假设模型的多个输出由连续输出y₁和离散输出y₂组成，分别以高斯似然函数和Softmax似然函数为模型；联合损失为：

再次为y₁的欧几里德损失函数定义L₁(W)＝||y₁-f^W(x)||²，对于y₂的交叉熵损失函数，定义L₂(W)＝-logSoftmax(y₂；f^W(x))(f^W(x)未缩放)，并且相对于W以及σ₁,σ₂优化；在最后一次转换中，引入了简化假设：

具有同步任务不确定性的多任务目标变为：

在i索引的所有任务中，为回归损失函数y_i定义L_i(W)＝||y_i-f^W(x)||²，对分类损失，定义这种结构可以简单地扩展到离散和连续变量的任意组合，能够学习每个损失的相对权重；这种损失是平滑可微的，并且任务权重不会收敛到零；相比之下，使用简单的线性损失，即公式(1)，直接学习权重将导致权重快速收敛到零。

其中，所述的场景理解模型，为了理解语义和几何，首先提出一种可以在像素级别学习回归和分类输出的体系结构，本架构是一个深度卷积编码器解码器网络，由多个卷积编码器组成，产生一个共享的表示形式，后面是相应数量的特定于任务的卷积解码器；将每个任务的2048维共享特征表示分解为各个解码器，每个解码器由每个任务的三个卷积层组成；模型包括语义分割、实例分割和深度回归。

进一步地，所述的语义分割，使用交叉熵损失来学习像素级的概率，用每个小批量中的语义标签对像素上的损失取平均值。

进一步地，所述的实例分割，使用回归方法进行实例分割；为每个像素坐标c_n学习一个实例向量它指向像素的实例i_n的质心，使得使用标定好的真实数据标签x_n训练这个回归，使用一个小批量的所有标记像素N_I平均值：

为了获得每个实例的分段，需要估计实例中心将估计的实例向量在霍夫参数空间中进行考虑，并使用聚类算法来识别这些实例中心；将点聚集到多个估计实例中；然后将每个p_n分配给最接近其估计的实例向量

进一步地，所述的深度回归，使用L₁损失函数来训练带有监督标签：架构估计反向深度因为它可以代表无限距离(如天空)的点；可以从传感器或立体图像获得反向深度标签d_n；不具有反深度标签的像素在损失中被忽略。

附图说明

图1是本发明一种基于多任务学习的场景理解方法的系统框架图。

图2是本发明一种基于多任务学习的场景理解方法的场景理解模型。

图3是本发明一种基于多任务学习的场景理解方法的场景理解模型的三种输出。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于多任务学习的场景理解方法的系统框架图。主要包括同方差不确定性的多任务学习，多任务似然函数，场景理解模型。

同方差不确定性的多任务学习，多任务学习涉及到针对多个目标优化模型的问题；组合多目标损失的方法是执行每个单独任务的损失的加权线性和：

在贝叶斯模型中，可以模拟不确定性的两种主要类型：

偶然不确定性可再次分为两个子类别：

多任务似然函数，推导一个多任务损失函数，该函数基于最大化具有均匀不确定性的高斯似然函数；令f^W(x)为输入x上权重W的神经网络的输出；定义以下概率模型，对于回归任务，将似然函数定义为模型输出给出的平均值的高斯函数：

p(y|f^W(x))＝N(f^W(x),σ²) (2)

p(y|f^W(x))＝Softmax(f^W(x)) (3)

p(y₁,…,y_K|f^W(x))＝p(y₁|f^W(x))…p(y_K|f^W(x)) (4)

模型输出为y₁,…,y_K(如语义分割、深度回归等)；

假设模型输出由两个向量y₁和y₂组成，每个向量遵循高斯分布：

多输出模型的最小化目标(损失函数)为：

为定义第一个输出变量的损失函数，类似地定义

其具有正标量σ；可将此输出的对数似然度写为：

其中，为矢量f^W(x)的第c个元素。

假设模型的多个输出由连续输出y₁和离散输出y₂组成，分别以高斯似然函数和Softmax似然函数为模型；联合损失为：

再次为y₁的欧几里德损失函数定义L₁(W)＝||y₁-f^W(x)||²，对于y₂的交叉熵损失函数，定义(f^W(x)未缩放)，并且相对于W以及σ₁,σ₂优化；在最后一次转换中，引入了简化假设：

具有同步任务不确定性的多任务目标变为：

在i索引的所有任务中，为回归损失函数y_i定义对分类损失，定义这种结构可以简单地扩展到离散和连续变量的任意组合，能够学习每个损失的相对权重；这种损失是平滑可微的，并且任务权重不会收敛到零；相比之下，使用简单的线性损失，即公式(1)，直接学习权重将导致权重快速收敛到零。

图2是本发明一种基于多任务学习的场景理解方法的场景理解模型。为了理解语义和几何，首先提出一种可以在像素级别学习回归和分类输出的体系结构，本架构是一个深度卷积编码器解码器网络，由多个卷积编码器组成，产生一个共享的表示形式，后面是相应数量的特定于任务的卷积解码器；将每个任务的2048维共享特征表示分解为各个解码器，每个解码器由每个任务的三个卷积层组成。

图3是本发明一种基于多任务学习的场景理解方法的场景理解模型的三种输出。场景理解模型包括语义分割、实例分割和深度回归。

语义分割使用交叉熵损失来学习像素级的概率，用每个小批量中的语义标签对像素上的损失取平均值。

实例分割使用回归方法进行实例分割；为每个像素坐标c_n学习一个实例向量它指向像素的实例i_n的质心，使得使用标定好的真实数据标签x_n训练这个回归，使用一个小批量的所有标记像素N_I平均值：

深度回归使用L₁损失函数来训练带有监督标签：架构估计反向深度因为它可以代表无限距离(如天空)的点；可以从传感器或立体图像获得反向深度标签d_n；不具有反深度标签的像素在损失中被忽略。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于多任务学习的场景理解方法，其特征在于，主要包括同方差不确定性的多任务学习(一)；多任务似然函数(二)；场景理解模型(三)。

2.基于权利要求书1所述的同方差不确定性的多任务学习(一)，其特征在于，多任务学习涉及到针对多个目标优化模型的问题；组合多目标损失的方法是执行每个单独任务的损失的加权线性和：

3.基于权利要求书2所述的不确定性，其特征在于，在贝叶斯模型中，可以模拟不确定性的两种主要类型：

偶然不确定性可再次分为两个子类别：

4.基于权利要求书1所述的多任务似然函数(二)，其特征在于，推导一个多任务损失函数，该函数基于最大化具有均匀不确定性的高斯似然函数；令f^W(x)为输入x上权重W的神经网络的输出；定义以下概率模型，对于回归任务，将似然函数定义为模型输出给出的平均值的高斯函数：

p(y|f^W(x))＝Softmax(f^W(x)) (3)

p(y₁,…,y_K|f^W(x))＝p(y₁|f^W(x))…p(y_K|f^W(x)) (4)

模型输出为y₁,…,y_K(如语义分割、深度回归等)；

<mrow> <mi>log</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <msup> <mi>f</mi> <mi>W</mi> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>&Proportional;</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>|</mo> <mo>|</mo> <mi>y</mi> <mo>-</mo> <msup> <mi>f</mi> <mi>W</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msup> <mi>log&sigma;</mi> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

5.基于权利要求书4所述的模型的最小化目标，其特征在于，假设模型输出由两个向量y₁和y₂组成，每个向量遵循高斯分布：

多输出模型的最小化目标(损失函数)为：

为定义第一个输出变量的损失函数，类似地定义

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <msup> <mi>f</mi> <mi>W</mi> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>S</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <msup> <mi>f</mi> <mi>W</mi> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其具有正标量σ；可将此输出的对数似然度写为：

<mrow> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>=</mo> <mi>c</mi> <mo>|</mo> <msup> <mi>f</mi> <mi>W</mi> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <msubsup> <mi>f</mi> <mi>c</mi> <mi>W</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <munder> <mo>&Sigma;</mo> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> </munder> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <msubsup> <mi>f</mi> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mi>W</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中，为矢量f^W(x)的第c个元素。

6.基于权利要求书5所述的联合损失，其特征在于，假设模型的多个输出由连续输出y₁和离散输出y₂组成，分别以高斯似然函数和Softmax似然函数为模型；联合损失为：

再次为y₁的欧几里德损失函数定义对于y₂的交叉熵损失函数，定义(f^W(x)未缩放)，并且相对于W以及σ₁,σ₂优化；在最后一次转换中，引入了简化假设：

具有同步任务不确定性的多任务目标变为：

7.基于权利要求书1所述的场景理解模型(三)，其特征在于，为了理解语义和几何，首先提出一种可以在像素级别学习回归和分类输出的体系结构，本架构是一个深度卷积编码器解码器网络，由多个卷积编码器组成，产生一个共享的表示形式，后面是相应数量的特定于任务的卷积解码器；将每个任务的2048维共享特征表示分解为各个解码器，每个解码器由每个任务的三个卷积层组成；模型包括语义分割、实例分割和深度回归。

8.基于权利要求书7所述的语义分割，其特征在于，使用交叉熵损失来学习像素级的概率，用每个小批量中的语义标签对像素上的损失取平均值。

9.基于权利要求书7所述的实例分割，其特征在于，使用回归方法进行实例分割；为每个像素坐标c_n学习一个实例向量它指向像素的实例i_n的质心，使得使用标定好的真实数据标签x_n训练这个回归，使用一个小批量的所有标记像素N_I平均值：

10.基于权利要求书7所述的深度回归，其特征在于，使用L₁损失函数来训练带有监督标签：架构估计反向深度因为它可以代表无限距离(如天空)的点；可以从传感器或立体图像获得反向深度标签d_n；不具有反深度标签的像素在损失中被忽略。