CN107506774A

CN107506774A - 一种基于局部注意掩模的分段感知神经网络方法

Info

Publication number: CN107506774A
Application number: CN201710927041.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2017-12-22

Abstract

本发明中提出的一种基于局部注意掩模的分段感知神经网络方法，其主要内容包括：学习分割线索、分段感知双边滤波、分割感知条件随机场(CRF)和分段式卷积，其过程为，先给定一个由像素组成的RGB图像，将像素映射到可以测量像素间语义相似的特征空间的嵌入函数，给定像素作为语义类别标签，可将嵌入目标表示为像素对上的损失函数，接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率，再用分割的双边滤波来改善条件随机场，最后掩模对分割线索进行编码，称为分段感知卷积。本发明建立了一个卷积神经网络提供的嵌入空间，能够有效整合分割信息，增加空间精度；同时滤波器能选择包含神经元区域的信息，避免特征模糊和降低。

Description

一种基于局部注意掩模的分段感知神经网络方法

技术领域

本发明涉及卷积神经领域，尤其是涉及了一种基于局部注意掩模的分段感知神经网络方法。

背景技术

卷积神经网络(CNN)是近年发展起来，并引起广泛重视的一种高效识别方法。它是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法，其本质是一个大规模非线性连续时间自适应的信息处理系统，通过大量简单关系连接实现复杂的函数关系。卷积神经网络以其独特的结构和处理信息的方法，在许多实际应用领域中取得了显著的功效。比如，对图像进行边缘监测、图像分割、图像压缩和图像恢复等的图像处理、对心电和脑电等信号进行处理、用于目标识别和定位、机器人传感器的图像识别以及地震信号的鉴别等模式识别，以及用于机器人控制、卫生保健和医疗、汽车工程、军事工程等众多领域。然而，现有卷积神经网络不能整合分割信息，使空间精度较低，容易导致特征模糊等问题。

本发明提出了一种基于局部注意掩模的分段感知神经网络方法，先给定一个由像素组成的RGB图像，将像素映射到可以测量像素间语义相似的特征空间的嵌入函数，给定像素作为训练数据的语义类别标签，可将嵌入目标表示为像素对上的损失函数，接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率，再用分割的双边滤波来改善条件随机场，最后掩模对分割线索进行编码，称为分段感知卷积神经网络。本发明建立了一个卷积神经网络提供的嵌入空间，能够有效整合分割信息，增加空间精度；同时滤波器能选择包含神经元区域的信息，避免了特征模糊和降低。

发明内容

针对空间精度较低的问题，本发明的目的在于提供一种基于局部注意掩模的分段感知神经网络方法，先给定一个由像素组成的RGB图像，将像素映射到可以测量像素间语义相似的特征空间的嵌入函数，接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率，再用分割的双边滤波来改善条件随机场，最后掩模对分割线索进行编码，称为分段感知卷积。

为解决上述问题，本发明提供一种基于局部注意掩模的分段感知神经网络方法，其主要内容包括：

(一)学习分割线索；

(二)分段感知双边滤波；

(三)分割感知条件随机场(CRF)；

(四)分段式卷积。

其中，所述的给定一个由像素组成的RGB图像，即(即编码颜色的三维矢量)，将像素映射(即嵌入)到可以测量像素之间的语义相似度的特征空间的嵌入函数；选择该特征空间的维数为D＝64，将嵌入函数写为或更具体地，f(p)＝e，其中，e是像素p的嵌入。

进一步地，所述的嵌入函数，位于同一物体上的像素对应产生类似的嵌入(即，特征空间中的短距离)，并且来自不同对象的对将产生不相似的嵌入(即，特征空间中的长距离)；给定像素作为训练数据的语义类别标签，可以将嵌入目标表示为像素对上的损失函数；对于任何两个像素索引i和j，以及相应的嵌入e_i,e_j和对象类标签I_i,I_j，可以优化相同标签对以具有“近”嵌入，而不同标签对具有“远”嵌入；使用α和β分别表示“近”和“远”阈值，可以定义成对损失为：

其中，‖·‖表示向量范数；L¹和L²范数学习的嵌入是相似的，但是基于L¹的嵌入不易受到梯度的影响；对于阈值，使用α＝0.5和β＝2；实际上，α和β的具体值并不重要，只要α≤β，并且网络的其余部分可以学习补偿所得的嵌入。

进一步地，所述的成对损失，为了量化嵌入函数的整体质量，可简单地将图像中的成对损失求和；虽然对于具有N个像素的图像，有N²对来评估，但简单地从每个像素周围的邻域采样也是有效的，如：

其中，迭代索引i的空间邻域；在实践中使用了三个重叠的3×3邻域；训练一个完全收敛的卷积神经网络(CNN)，通过随机梯度下降来最小化这种损失。

其中，所述的分段感知双边滤波，在一个索引嵌入e_j和任何其他嵌入e_j之间的距离提供了一个幅度，指示i和j是否落在同一个对象上；可以使用指数分布将这些幅度转换成(非归一化)概率：

m_i,j＝exp(-λ‖e_i-e_j‖) (3)

其中，λ是可学习参数，m_i,j表示i是参考像素，j是所考虑的邻域；考虑到所有指标m_i表示前景-背景分割掩模，其中，中心像素i定义为前景，即m_i,i＝1；通过训练网络提供卷积嵌入，学习双边距离函数。

进一步地，所述的掩模，这些掩模的第一个应用是执行分段感知平滑(像素、特征或预测)；给定一个输入x_i，可以计算一个分段感知平滑化结果y_i，如下所示：

其中，k是从索引i的空间位移；方程(4)有一些特殊情况，这取决于潜在的索引嵌入e_j：

(1)如果e_j＝0，该方程产生平均滤波器；

(2)如果e_j＝i，该方程产生高斯平滑；

(3)如果e_j＝(i,p_i)，其中，p_i表示i处的颜色矢量，该方程产生双边滤波；

由于嵌入在CNN中被学习，因此公式(4)是所有这些情况的概括。

进一步地，所述的卷积嵌入，当嵌入被集成到使用它们进行滤波的较大网络中时，不再需要嵌入损失函数；由于滤波函数中的所有项都是可微分的，所以全局目标(例如，分类精度)可以用于调整输入项x_i，而且还可以调整掩模项m_i,j和它们的参数e_j；因此，当用于创建掩模时，嵌入可以在网络中端到端学习；首先用专门的损失来训练嵌入，然后在更大的传递途径中对它们进行微调，用于掩模。

其中，所述的分割感知条件随机场(CRF)，分割的双边滤波可以用来改善CRF，如前所述，密集CRF在锐化CNN产生的预测图中很有效；这些模型能优化吉布斯能量：

其中，i的范围在图像中的所有像素索引上；在语义分割中，一元项ψ_u通常选做由针对每像素分类训练的CNN提供的负对数概率；成对电位采取ψ_p(x_i,x_j)＝μ(x_i,x_j)k(f_i,f_j)的形式，其中，μ是标签兼容性函数，k(f_i,f_j)是特征兼容性函数；特征兼容性由形式的外观项(双边滤波器)和平滑度项(平均滤波器)组成：

其中，ω^k是两个项的权重；结合标签兼容性函数，如果一对像素分配相同的标签但具有不同的颜色，外观项会增加惩罚。

其中，所述的分段式卷积，方程(4)中的双边滤波器在形式上与卷积相似，但具有非线性锐化掩模，而不是学习的特定于特定滤波器的滤波器；在这种情况下，可以通过将学习的卷积滤波器t插入到等式中来获得两者的好处：

这是非线性卷积：在使用学习滤波器形成内积之前，输入信号与归一化局部掩模相乘；如果学习的滤波器t_i是一致的，则具有与公式(4)中相同的双边滤波器；如果基于嵌入的分割掩模m_i是一致的，则具有标准卷积；由于掩模对分割线索进行了编码，所以将公式(7)称为分段感知卷积；

该掩模作为滤波器的适用性函数，这使得分段感知卷积成为归一化卷积的特殊情况；归一化卷积的想法是将卷积运算符“聚焦”在真正描述输入信号的输入部分上，避免噪声插值或丢失信息；在这种情况下，“噪声”对应于来自除索引i所属的区域以外的区域的信息。

进一步地，所述的滤波器，任何卷积滤波器都可以进行分段识别；分段识别的优点取决于滤波器；使用反向传播来学习每个层的掩模操作的参数和柔软度，即e_i和λ；通过简单地学习λ＝0的设置，网络可以随时回退到标准的CNN。

附图说明

图1是本发明一种基于局部注意掩模的分段感知神经网络方法的系统框架图。

图2是本发明一种基于局部注意掩模的分段感知神经网络方法的分段感知神经网络。

图3是本发明一种基于局部注意掩模的分段感知神经网络方法的嵌入函数。

图4是本发明一种基于局部注意掩模的分段感知神经网络方法的掩模。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于局部注意掩模的分段感知神经网络方法的系统框架图。主要包括学习分割线索，分段感知双边滤波，分割感知条件随机场(CRF)和分段式卷积。

学习分割线索，给定一个由像素组成的RGB图像，即(即编码颜色的三维矢量)，将像素映射(即嵌入)到可以测量像素之间的语义相似度的特征空间的嵌入函数；选择该特征空间的维数为D＝64，将嵌入函数写为或更具体地，f(p)＝e，其中，e是像素p的嵌入。

分段感知双边滤波，在一个索引嵌入e_i和任何其他嵌入e_j之间的距离提供了一个幅度，指示i和j是否落在同一个对象上；可以使用指数分布将这些幅度转换成(非归一化)概率：

m_i,j＝exp(-λ‖e_i-e_j‖) (1)

当嵌入被集成到使用它们进行滤波的较大网络中时，不再需要嵌入损失函数；由于滤波函数中的所有项都是可微分的，所以全局目标(例如，分类精度)可以用于调整输入项x_i，而且还可以调整掩模项m_i,j和它们的参数e_j；因此，当用于创建掩模时，嵌入可以在网络中端到端学习；首先用专门的损失来训练嵌入，然后在更大的传递途径中对它们进行微调，用于掩模。

分割感知条件随机场(CRF)，分割的双边滤波可以用来改善CRF，如前所述，密集CRF在锐化CNN产生的预测图中很有效；这些模型能优化吉布斯能量：

分段式卷积，方程(7)中的双边滤波器在形式上与卷积相似，但具有非线性锐化掩模，而不是学习的特定于特定滤波器的滤波器；在这种情况下，可以通过将学习的卷积滤波器t插入到等式中来获得两者的好处：

这是非线性卷积：在使用学习滤波器形成内积之前，输入信号与归一化局部掩模相乘；如果学习的滤波器t_i是一致的，则具有与公式(7)中相同的双边滤波器；如果基于嵌入的分割掩模m_i是一致的，则具有标准卷积；由于掩模对分割线索进行了编码，所以将公式(4)称为分段感知卷积；

任何卷积滤波器都可以进行分段识别；分段识别的优点取决于滤波器；使用反向传播来学习每个层的掩模操作的参数和柔软度，即e_i和λ；通过简单地学习λ＝0的设置，网络可以随时回退到标准的CNN。

图2是本发明一种基于局部注意掩模的分段感知神经网络方法的分段感知神经网络。先给定一个由像素组成的RGB图像，将像素映射到可以测量像素间语义相似的特征空间的嵌入函数，接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率，再用分割的双边滤波来改善条件随机场，最后掩模对分割线索进行编码，称为分段感知卷积。

图3是本发明一种基于局部注意掩模的分段感知神经网络方法的嵌入函数。位于同一物体上的像素对应产生类似的嵌入(即，特征空间中的短距离)，并且来自不同对象的对将产生不相似的嵌入(即，特征空间中的长距离)；给定像素作为训练数据的语义类别标签，可以将嵌入目标表示为像素对上的损失函数；对于任何两个像素索引i和j，以及相应的嵌入e_i,e_j和对象类标签I_i,I_j，可以优化相同标签对以具有“近”嵌入，而不同标签对具有“远”嵌入；使用α和β分别表示“近”和“远”阈值，可以定义成对损失为：

为了量化嵌入函数的整体质量，可简单地将图像中的成对损失求和；虽然对于具有N个像素的图像，有N²对来评估，但简单地从每个像素周围的邻域采样也是有效的，如：

图4是本发明一种基于局部注意掩模的分段感知神经网络方法的掩模。掩模的第一个应用是执行分段感知平滑(像素、特征或预测)；给定一个输入x_i，可以计算一个分段感知平滑化结果y_i，如下所示：

其中，k是从索引i的空间位移；方程(7)有一些特殊情况，这取决于潜在的索引嵌入e_j：

(1)如果e_j＝0，该方程产生平均滤波器；

(2)如果e_j＝i，该方程产生高斯平滑；

由于嵌入在CNN中被学习，因此公式(7)是所有这些情况的概括。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于局部注意掩模的分段感知神经网络方法，其特征在于，主要包括学习分割线索(一)；分段感知双边滤波(二)；分割感知条件随机场(CRF)(三)；分段式卷积(四)。

2.基于权利要求书1所述的学习分割线索(一)，其特征在于，给定一个由像素组成的RGB图像，即(即编码颜色的三维矢量)，将像素映射(即嵌入)到可以测量像素之间的语义相似度的特征空间的嵌入函数；选择该特征空间的维数为D＝64，将嵌入函数写为或更具体地，f(p)＝e，其中，e是像素p的嵌入。

3.基于权利要求书2所述的嵌入函数，其特征在于，位于同一物体上的像素对应产生类似的嵌入(即，特征空间中的短距离)，并且来自不同对象的对将产生不相似的嵌入(即，特征空间中的长距离)；给定像素作为训练数据的语义类别标签，可以将嵌入目标表示为像素对上的损失函数；对于任何两个像素索引i和j，以及相应的嵌入e_i,e_j和对象类标签I_i,I_j，可以优化相同标签对以具有“近”嵌入，而不同标签对具有“远”嵌入；使用α和β分别表示“近”和“远”阈值，可以定义成对损失为：

4.基于权利要求书3所述的成对损失，其特征在于，为了量化嵌入函数的整体质量，可简单地将图像中的成对损失求和；虽然对于具有N个像素的图像，有N²对来评估，但简单地从每个像素周围的邻域采样也是有效的，如：

5.基于权利要求书1所述的分段感知双边滤波(二)，其特征在于，在一个索引嵌入e_i和任何其他嵌入e_j之间的距离提供了一个幅度，指示i和j是否落在同一个对象上；可以使用指数分布将这些幅度转换成(非归一化)概率：

m_i,j＝exp(-λ‖e_i-e_j‖) (3)

6.基于权利要求书5所述的掩模，其特征在于，这些掩模的第一个应用是执行分段感知平滑(像素、特征或预测)；给定一个输入x_i，可以计算一个分段感知平滑化结果y_i，如下所示：

<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

(1)如果e_j＝0，该方程产生平均滤波器；

(2)如果e_j＝i，该方程产生高斯平滑；

7.基于权利要求书5所述的卷积嵌入，其特征在于，当嵌入被集成到使用它们进行滤波的较大网络中时，不再需要嵌入损失函数；由于滤波函数中的所有项都是可微分的，所以全局目标(例如，分类精度)可以用于调整输入项x_i，而且还可以调整掩模项m_i,j和它们的参数e_j；因此，当用于创建掩模时，嵌入可以在网络中端到端学习；首先用专门的损失来训练嵌入，然后在更大的传递途径中对它们进行微调，用于掩模。

8.基于权利要求书1所述的分割感知条件随机场(CRF)(三)，其特征在于，分割的双边滤波可以用来改善CRF，如前所述，密集CRF在锐化CNN产生的预测图中很有效；这些模型能优化吉布斯能量：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>&psi;</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&le;</mo> <mi>i</mi> </mrow> </munder> <msub> <mi>&psi;</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>&omega;</mi> <mn>1</mn> </msup> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <mi>i</mi> <mo>-</mo> <mi>j</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&theta;</mi> <mi>&alpha;</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&theta;</mi> <mi>&beta;</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>&omega;</mi> <mn>2</mn> </msup> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <mi>i</mi> <mo>-</mo> <mi>j</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&theta;</mi> <mi>&gamma;</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

9.基于权利要求书1所述的分段式卷积(四)，其特征在于，方程(4)中的双边滤波器在形式上与卷积相似，但具有非线性锐化掩模，而不是学习的特定于特定滤波器的滤波器；在这种情况下，可以通过将学习的卷积滤波器t插入到等式中来获得两者的好处：

<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

10.基于权利要求书9所述的滤波器，其特征在于，任何卷积滤波器都可以进行分段识别；分段识别的优点取决于滤波器；使用反向传播来学习每个层的掩模操作的参数和柔软度，即e_i和λ；通过简单地学习λ＝0的设置，网络可以随时回退到标准的CNN。