CN107506774A - 一种基于局部注意掩模的分段感知神经网络方法 - Google Patents
一种基于局部注意掩模的分段感知神经网络方法 Download PDFInfo
- Publication number
- CN107506774A CN107506774A CN201710927041.9A CN201710927041A CN107506774A CN 107506774 A CN107506774 A CN 107506774A CN 201710927041 A CN201710927041 A CN 201710927041A CN 107506774 A CN107506774 A CN 107506774A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- segmentation
- pixel
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于局部注意掩模的分段感知神经网络方法,其主要内容包括:学习分割线索、分段感知双边滤波、分割感知条件随机场(CRF)和分段式卷积,其过程为,先给定一个由像素组成的RGB图像,将像素映射到可以测量像素间语义相似的特征空间的嵌入函数,给定像素作为语义类别标签,可将嵌入目标表示为像素对上的损失函数,接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率,再用分割的双边滤波来改善条件随机场,最后掩模对分割线索进行编码,称为分段感知卷积。本发明建立了一个卷积神经网络提供的嵌入空间,能够有效整合分割信息,增加空间精度;同时滤波器能选择包含神经元区域的信息,避免特征模糊和降低。
Description
技术领域
本发明涉及卷积神经领域,尤其是涉及了一种基于局部注意掩模的分段感知神经网络方法。
背景技术
卷积神经网络(CNN)是近年发展起来,并引起广泛重视的一种高效识别方法。它是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法,其本质是一个大规模非线性连续时间自适应的信息处理系统,通过大量简单关系连接实现复杂的函数关系。卷积神经网络以其独特的结构和处理信息的方法,在许多实际应用领域中取得了显著的功效。比如,对图像进行边缘监测、图像分割、图像压缩和图像恢复等的图像处理、对心电和脑电等信号进行处理、用于目标识别和定位、机器人传感器的图像识别以及地震信号的鉴别等模式识别,以及用于机器人控制、卫生保健和医疗、汽车工程、军事工程等众多领域。然而,现有卷积神经网络不能整合分割信息,使空间精度较低,容易导致特征模糊等问题。
本发明提出了一种基于局部注意掩模的分段感知神经网络方法,先给定一个由像素组成的RGB图像,将像素映射到可以测量像素间语义相似的特征空间的嵌入函数,给定像素作为训练数据的语义类别标签,可将嵌入目标表示为像素对上的损失函数,接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率,再用分割的双边滤波来改善条件随机场,最后掩模对分割线索进行编码,称为分段感知卷积神经网络。本发明建立了一个卷积神经网络提供的嵌入空间,能够有效整合分割信息,增加空间精度;同时滤波器能选择包含神经元区域的信息,避免了特征模糊和降低。
发明内容
针对空间精度较低的问题,本发明的目的在于提供一种基于局部注意掩模的分段感知神经网络方法,先给定一个由像素组成的RGB图像,将像素映射到可以测量像素间语义相似的特征空间的嵌入函数,接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率,再用分割的双边滤波来改善条件随机场,最后掩模对分割线索进行编码,称为分段感知卷积。
为解决上述问题,本发明提供一种基于局部注意掩模的分段感知神经网络方法,其主要内容包括:
(一)学习分割线索;
(二)分段感知双边滤波;
(三)分割感知条件随机场(CRF);
(四)分段式卷积。
其中,所述的给定一个由像素组成的RGB图像,即(即编码颜色的三维矢量),将像素映射(即嵌入)到可以测量像素之间的语义相似度的特征空间的嵌入函数;选择该特征空间的维数为D=64,将嵌入函数写为或更具体地,f(p)=e,其中,e是像素p的嵌入。
进一步地,所述的嵌入函数,位于同一物体上的像素对应产生类似的嵌入(即,特征空间中的短距离),并且来自不同对象的对将产生不相似的嵌入(即,特征空间中的长距离);给定像素作为训练数据的语义类别标签,可以将嵌入目标表示为像素对上的损失函数;对于任何两个像素索引i和j,以及相应的嵌入ei,ej和对象类标签Ii,Ij,可以优化相同标签对以具有“近”嵌入,而不同标签对具有“远”嵌入;使用α和β分别表示“近”和“远”阈值,可以定义成对损失为:
其中,‖·‖表示向量范数;L1和L2范数学习的嵌入是相似的,但是基于L1的嵌入不易受到梯度的影响;对于阈值,使用α=0.5和β=2;实际上,α和β的具体值并不重要,只要α≤β,并且网络的其余部分可以学习补偿所得的嵌入。
进一步地,所述的成对损失,为了量化嵌入函数的整体质量,可简单地将图像中的成对损失求和;虽然对于具有N个像素的图像,有N2对来评估,但简单地从每个像素周围的邻域采样也是有效的,如:
其中,迭代索引i的空间邻域;在实践中使用了三个重叠的3×3邻域;训练一个完全收敛的卷积神经网络(CNN),通过随机梯度下降来最小化这种损失。
其中,所述的分段感知双边滤波,在一个索引嵌入ej和任何其他嵌入ej之间的距离提供了一个幅度,指示i和j是否落在同一个对象上;可以使用指数分布将这些幅度转换成(非归一化)概率:
mi,j=exp(-λ‖ei-ej‖) (3)
其中,λ是可学习参数,mi,j表示i是参考像素,j是所考虑的邻域;考虑到所有指标mi表示前景-背景分割掩模,其中,中心像素i定义为前景,即mi,i=1;通过训练网络提供卷积嵌入,学习双边距离函数。
进一步地,所述的掩模,这些掩模的第一个应用是执行分段感知平滑(像素、特征或预测);给定一个输入xi,可以计算一个分段感知平滑化结果yi,如下所示:
其中,k是从索引i的空间位移;方程(4)有一些特殊情况,这取决于潜在的索引嵌入ej:
(1)如果ej=0,该方程产生平均滤波器;
(2)如果ej=i,该方程产生高斯平滑;
(3)如果ej=(i,pi),其中,pi表示i处的颜色矢量,该方程产生双边滤波;
由于嵌入在CNN中被学习,因此公式(4)是所有这些情况的概括。
进一步地,所述的卷积嵌入,当嵌入被集成到使用它们进行滤波的较大网络中时,不再需要嵌入损失函数;由于滤波函数中的所有项都是可微分的,所以全局目标(例如,分类精度)可以用于调整输入项xi,而且还可以调整掩模项mi,j和它们的参数ej;因此,当用于创建掩模时,嵌入可以在网络中端到端学习;首先用专门的损失来训练嵌入,然后在更大的传递途径中对它们进行微调,用于掩模。
其中,所述的分割感知条件随机场(CRF),分割的双边滤波可以用来改善CRF,如前所述,密集CRF在锐化CNN产生的预测图中很有效;这些模型能优化吉布斯能量:
其中,i的范围在图像中的所有像素索引上;在语义分割中,一元项ψu通常选做由针对每像素分类训练的CNN提供的负对数概率;成对电位采取ψp(xi,xj)=μ(xi,xj)k(fi,fj)的形式,其中,μ是标签兼容性函数,k(fi,fj)是特征兼容性函数;特征兼容性由形式的外观项(双边滤波器)和平滑度项(平均滤波器)组成:
其中,ωk是两个项的权重;结合标签兼容性函数,如果一对像素分配相同的标签但具有不同的颜色,外观项会增加惩罚。
其中,所述的分段式卷积,方程(4)中的双边滤波器在形式上与卷积相似,但具有非线性锐化掩模,而不是学习的特定于特定滤波器的滤波器;在这种情况下,可以通过将学习的卷积滤波器t插入到等式中来获得两者的好处:
这是非线性卷积:在使用学习滤波器形成内积之前,输入信号与归一化局部掩模相乘;如果学习的滤波器ti是一致的,则具有与公式(4)中相同的双边滤波器;如果基于嵌入的分割掩模mi是一致的,则具有标准卷积;由于掩模对分割线索进行了编码,所以将公式(7)称为分段感知卷积;
该掩模作为滤波器的适用性函数,这使得分段感知卷积成为归一化卷积的特殊情况;归一化卷积的想法是将卷积运算符“聚焦”在真正描述输入信号的输入部分上,避免噪声插值或丢失信息;在这种情况下,“噪声”对应于来自除索引i所属的区域以外的区域的信息。
进一步地,所述的滤波器,任何卷积滤波器都可以进行分段识别;分段识别的优点取决于滤波器;使用反向传播来学习每个层的掩模操作的参数和柔软度,即ei和λ;通过简单地学习λ=0的设置,网络可以随时回退到标准的CNN。
附图说明
图1是本发明一种基于局部注意掩模的分段感知神经网络方法的系统框架图。
图2是本发明一种基于局部注意掩模的分段感知神经网络方法的分段感知神经网络。
图3是本发明一种基于局部注意掩模的分段感知神经网络方法的嵌入函数。
图4是本发明一种基于局部注意掩模的分段感知神经网络方法的掩模。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于局部注意掩模的分段感知神经网络方法的系统框架图。主要包括学习分割线索,分段感知双边滤波,分割感知条件随机场(CRF)和分段式卷积。
学习分割线索,给定一个由像素组成的RGB图像,即(即编码颜色的三维矢量),将像素映射(即嵌入)到可以测量像素之间的语义相似度的特征空间的嵌入函数;选择该特征空间的维数为D=64,将嵌入函数写为或更具体地,f(p)=e,其中,e是像素p的嵌入。
分段感知双边滤波,在一个索引嵌入ei和任何其他嵌入ej之间的距离提供了一个幅度,指示i和j是否落在同一个对象上;可以使用指数分布将这些幅度转换成(非归一化)概率:
mi,j=exp(-λ‖ei-ej‖) (1)
其中,λ是可学习参数,mi,j表示i是参考像素,j是所考虑的邻域;考虑到所有指标mi表示前景-背景分割掩模,其中,中心像素i定义为前景,即mi,i=1;通过训练网络提供卷积嵌入,学习双边距离函数。
当嵌入被集成到使用它们进行滤波的较大网络中时,不再需要嵌入损失函数;由于滤波函数中的所有项都是可微分的,所以全局目标(例如,分类精度)可以用于调整输入项xi,而且还可以调整掩模项mi,j和它们的参数ej;因此,当用于创建掩模时,嵌入可以在网络中端到端学习;首先用专门的损失来训练嵌入,然后在更大的传递途径中对它们进行微调,用于掩模。
分割感知条件随机场(CRF),分割的双边滤波可以用来改善CRF,如前所述,密集CRF在锐化CNN产生的预测图中很有效;这些模型能优化吉布斯能量:
其中,i的范围在图像中的所有像素索引上;在语义分割中,一元项ψu通常选做由针对每像素分类训练的CNN提供的负对数概率;成对电位采取ψp(xi,xj)=μ(xi,xj)k(fi,fj)的形式,其中,μ是标签兼容性函数,k(fi,fj)是特征兼容性函数;特征兼容性由形式的外观项(双边滤波器)和平滑度项(平均滤波器)组成:
其中,ωk是两个项的权重;结合标签兼容性函数,如果一对像素分配相同的标签但具有不同的颜色,外观项会增加惩罚。
分段式卷积,方程(7)中的双边滤波器在形式上与卷积相似,但具有非线性锐化掩模,而不是学习的特定于特定滤波器的滤波器;在这种情况下,可以通过将学习的卷积滤波器t插入到等式中来获得两者的好处:
这是非线性卷积:在使用学习滤波器形成内积之前,输入信号与归一化局部掩模相乘;如果学习的滤波器ti是一致的,则具有与公式(7)中相同的双边滤波器;如果基于嵌入的分割掩模mi是一致的,则具有标准卷积;由于掩模对分割线索进行了编码,所以将公式(4)称为分段感知卷积;
该掩模作为滤波器的适用性函数,这使得分段感知卷积成为归一化卷积的特殊情况;归一化卷积的想法是将卷积运算符“聚焦”在真正描述输入信号的输入部分上,避免噪声插值或丢失信息;在这种情况下,“噪声”对应于来自除索引i所属的区域以外的区域的信息。
任何卷积滤波器都可以进行分段识别;分段识别的优点取决于滤波器;使用反向传播来学习每个层的掩模操作的参数和柔软度,即ei和λ;通过简单地学习λ=0的设置,网络可以随时回退到标准的CNN。
图2是本发明一种基于局部注意掩模的分段感知神经网络方法的分段感知神经网络。先给定一个由像素组成的RGB图像,将像素映射到可以测量像素间语义相似的特征空间的嵌入函数,接着使用指数分布将索引嵌入和其它嵌入产生的幅度转换成非归一化概率,再用分割的双边滤波来改善条件随机场,最后掩模对分割线索进行编码,称为分段感知卷积。
图3是本发明一种基于局部注意掩模的分段感知神经网络方法的嵌入函数。位于同一物体上的像素对应产生类似的嵌入(即,特征空间中的短距离),并且来自不同对象的对将产生不相似的嵌入(即,特征空间中的长距离);给定像素作为训练数据的语义类别标签,可以将嵌入目标表示为像素对上的损失函数;对于任何两个像素索引i和j,以及相应的嵌入ei,ej和对象类标签Ii,Ij,可以优化相同标签对以具有“近”嵌入,而不同标签对具有“远”嵌入;使用α和β分别表示“近”和“远”阈值,可以定义成对损失为:
其中,‖·‖表示向量范数;L1和L2范数学习的嵌入是相似的,但是基于L1的嵌入不易受到梯度的影响;对于阈值,使用α=0.5和β=2;实际上,α和β的具体值并不重要,只要α≤β,并且网络的其余部分可以学习补偿所得的嵌入。
为了量化嵌入函数的整体质量,可简单地将图像中的成对损失求和;虽然对于具有N个像素的图像,有N2对来评估,但简单地从每个像素周围的邻域采样也是有效的,如:
其中,迭代索引i的空间邻域;在实践中使用了三个重叠的3×3邻域;训练一个完全收敛的卷积神经网络(CNN),通过随机梯度下降来最小化这种损失。
图4是本发明一种基于局部注意掩模的分段感知神经网络方法的掩模。掩模的第一个应用是执行分段感知平滑(像素、特征或预测);给定一个输入xi,可以计算一个分段感知平滑化结果yi,如下所示:
其中,k是从索引i的空间位移;方程(7)有一些特殊情况,这取决于潜在的索引嵌入ej:
(1)如果ej=0,该方程产生平均滤波器;
(2)如果ej=i,该方程产生高斯平滑;
(3)如果ej=(i,pi),其中,pi表示i处的颜色矢量,该方程产生双边滤波;
由于嵌入在CNN中被学习,因此公式(7)是所有这些情况的概括。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于局部注意掩模的分段感知神经网络方法,其特征在于,主要包括学习分割线索(一);分段感知双边滤波(二);分割感知条件随机场(CRF)(三);分段式卷积(四)。
2.基于权利要求书1所述的学习分割线索(一),其特征在于,给定一个由像素组成的RGB图像,即(即编码颜色的三维矢量),将像素映射(即嵌入)到可以测量像素之间的语义相似度的特征空间的嵌入函数;选择该特征空间的维数为D=64,将嵌入函数写为或更具体地,f(p)=e,其中,e是像素p的嵌入。
3.基于权利要求书2所述的嵌入函数,其特征在于,位于同一物体上的像素对应产生类似的嵌入(即,特征空间中的短距离),并且来自不同对象的对将产生不相似的嵌入(即,特征空间中的长距离);给定像素作为训练数据的语义类别标签,可以将嵌入目标表示为像素对上的损失函数;对于任何两个像素索引i和j,以及相应的嵌入ei,ej和对象类标签Ii,Ij,可以优化相同标签对以具有“近”嵌入,而不同标签对具有“远”嵌入;使用α和β分别表示“近”和“远”阈值,可以定义成对损失为:
其中,‖·‖表示向量范数;L1和L2范数学习的嵌入是相似的,但是基于L1的嵌入不易受到梯度的影响;对于阈值,使用α=0.5和β=2;实际上,α和β的具体值并不重要,只要α≤β,并且网络的其余部分可以学习补偿所得的嵌入。
4.基于权利要求书3所述的成对损失,其特征在于,为了量化嵌入函数的整体质量,可简单地将图像中的成对损失求和;虽然对于具有N个像素的图像,有N2对来评估,但简单地从每个像素周围的邻域采样也是有效的,如:
其中,迭代索引i的空间邻域;在实践中使用了三个重叠的3×3邻域;训练一个完全收敛的卷积神经网络(CNN),通过随机梯度下降来最小化这种损失。
5.基于权利要求书1所述的分段感知双边滤波(二),其特征在于,在一个索引嵌入ei和任何其他嵌入ej之间的距离提供了一个幅度,指示i和j是否落在同一个对象上;可以使用指数分布将这些幅度转换成(非归一化)概率:
mi,j=exp(-λ‖ei-ej‖) (3)
其中,λ是可学习参数,mi,j表示i是参考像素,j是所考虑的邻域;考虑到所有指标mi表示前景-背景分割掩模,其中,中心像素i定义为前景,即mi,i=1;通过训练网络提供卷积嵌入,学习双边距离函数。
6.基于权利要求书5所述的掩模,其特征在于,这些掩模的第一个应用是执行分段感知平滑(像素、特征或预测);给定一个输入xi,可以计算一个分段感知平滑化结果yi,如下所示:
<mrow>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>i</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
</mrow>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>i</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,k是从索引i的空间位移;方程(4)有一些特殊情况,这取决于潜在的索引嵌入ej:
(1)如果ej=0,该方程产生平均滤波器;
(2)如果ej=i,该方程产生高斯平滑;
(3)如果ej=(i,pi),其中,pi表示i处的颜色矢量,该方程产生双边滤波;
由于嵌入在CNN中被学习,因此公式(4)是所有这些情况的概括。
7.基于权利要求书5所述的卷积嵌入,其特征在于,当嵌入被集成到使用它们进行滤波的较大网络中时,不再需要嵌入损失函数;由于滤波函数中的所有项都是可微分的,所以全局目标(例如,分类精度)可以用于调整输入项xi,而且还可以调整掩模项mi,j和它们的参数ej;因此,当用于创建掩模时,嵌入可以在网络中端到端学习;首先用专门的损失来训练嵌入,然后在更大的传递途径中对它们进行微调,用于掩模。
8.基于权利要求书1所述的分割感知条件随机场(CRF)(三),其特征在于,分割的双边滤波可以用来改善CRF,如前所述,密集CRF在锐化CNN产生的预测图中很有效;这些模型能优化吉布斯能量:
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<msub>
<mi>&psi;</mi>
<mi>u</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>&le;</mo>
<mi>i</mi>
</mrow>
</munder>
<msub>
<mi>&psi;</mi>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,i的范围在图像中的所有像素索引上;在语义分割中,一元项ψu通常选做由针对每像素分类训练的CNN提供的负对数概率;成对电位采取ψp(xi,xj)=μ(xi,xj)k(fi,fj)的形式,其中,μ是标签兼容性函数,k(fi,fj)是特征兼容性函数;特征兼容性由形式的外观项(双边滤波器)和平滑度项(平均滤波器)组成:
<mrow>
<mi>k</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>&omega;</mi>
<mn>1</mn>
</msup>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>i</mi>
<mo>-</mo>
<mi>j</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&theta;</mi>
<mi>&alpha;</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&theta;</mi>
<mi>&beta;</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>&omega;</mi>
<mn>2</mn>
</msup>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>i</mi>
<mo>-</mo>
<mi>j</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&theta;</mi>
<mi>&gamma;</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ωk是两个项的权重;结合标签兼容性函数,如果一对像素分配相同的标签但具有不同的颜色,外观项会增加惩罚。
9.基于权利要求书1所述的分段式卷积(四),其特征在于,方程(4)中的双边滤波器在形式上与卷积相似,但具有非线性锐化掩模,而不是学习的特定于特定滤波器的滤波器;在这种情况下,可以通过将学习的卷积滤波器t插入到等式中来获得两者的好处:
<mrow>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>i</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
</mrow>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>i</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
这是非线性卷积:在使用学习滤波器形成内积之前,输入信号与归一化局部掩模相乘;如果学习的滤波器ti是一致的,则具有与公式(4)中相同的双边滤波器;如果基于嵌入的分割掩模mi是一致的,则具有标准卷积;由于掩模对分割线索进行了编码,所以将公式(7)称为分段感知卷积;
该掩模作为滤波器的适用性函数,这使得分段感知卷积成为归一化卷积的特殊情况;归一化卷积的想法是将卷积运算符“聚焦”在真正描述输入信号的输入部分上,避免噪声插值或丢失信息;在这种情况下,“噪声”对应于来自除索引i所属的区域以外的区域的信息。
10.基于权利要求书9所述的滤波器,其特征在于,任何卷积滤波器都可以进行分段识别;分段识别的优点取决于滤波器;使用反向传播来学习每个层的掩模操作的参数和柔软度,即ei和λ;通过简单地学习λ=0的设置,网络可以随时回退到标准的CNN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710927041.9A CN107506774A (zh) | 2017-10-09 | 2017-10-09 | 一种基于局部注意掩模的分段感知神经网络方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710927041.9A CN107506774A (zh) | 2017-10-09 | 2017-10-09 | 一种基于局部注意掩模的分段感知神经网络方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107506774A true CN107506774A (zh) | 2017-12-22 |
Family
ID=60699305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710927041.9A Withdrawn CN107506774A (zh) | 2017-10-09 | 2017-10-09 | 一种基于局部注意掩模的分段感知神经网络方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107506774A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108960281A (zh) * | 2018-05-24 | 2018-12-07 | 浙江工业大学 | 一种基于非随机掩盖数据增强方式的黑色素瘤分类方法 |
CN109154989A (zh) * | 2018-03-02 | 2019-01-04 | 香港应用科技研究院有限公司 | 使用掩模来提高卷积神经网络对于癌细胞筛查应用的分类性能 |
CN109472789A (zh) * | 2018-11-20 | 2019-03-15 | 北京贝叶科技有限公司 | 一种用于皮肤病理图像处理的神经网络训练方法及装置 |
CN110009644A (zh) * | 2019-03-26 | 2019-07-12 | 深兰科技(上海)有限公司 | 一种特征图行像素分段的方法和装置 |
CN110069958A (zh) * | 2018-01-22 | 2019-07-30 | 北京航空航天大学 | 一种密集深度卷积神经网络的脑电信号快速识别方法 |
CN110501880A (zh) * | 2018-05-18 | 2019-11-26 | 卡尔蔡司Smt有限责任公司 | 用于借助于转换模型分析光刻工艺的元件的装置及方法 |
CN110633715A (zh) * | 2019-09-27 | 2019-12-31 | 深圳市商汤科技有限公司 | 图像处理方法、网络训练方法及装置、和电子设备 |
WO2020029181A1 (zh) * | 2018-08-09 | 2020-02-13 | 深圳鲲云信息科技有限公司 | 三维卷积神经网络计算装置及相关产品 |
CN110866860A (zh) * | 2019-11-01 | 2020-03-06 | 成都费恩格尔微电子技术有限公司 | 生物特征识别用的cis芯片的图像处理方法 |
CN111179284A (zh) * | 2019-12-30 | 2020-05-19 | 上海交通大学 | 交互式图像分割方法、系统及终端 |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN113344935A (zh) * | 2021-06-30 | 2021-09-03 | 山东建筑大学 | 基于多尺度难度感知的图像分割方法及系统 |
US11200678B2 (en) | 2019-09-17 | 2021-12-14 | Sony Corporation | Image-based mask frame interpolation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573731A (zh) * | 2015-02-06 | 2015-04-29 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
EP2869239A2 (en) * | 2013-11-04 | 2015-05-06 | Facebook, Inc. | Systems and methods for facial representation |
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
-
2017
- 2017-10-09 CN CN201710927041.9A patent/CN107506774A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2869239A2 (en) * | 2013-11-04 | 2015-05-06 | Facebook, Inc. | Systems and methods for facial representation |
CN104573731A (zh) * | 2015-02-06 | 2015-04-29 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
Non-Patent Citations (1)
Title |
---|
ADAM W. HARLEY 等: ""Segmentation-Aware Convolutional Networks Using Local Attention Masks"", 《WWW.ARXIV.ORG》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069958B (zh) * | 2018-01-22 | 2022-02-01 | 北京航空航天大学 | 一种密集深度卷积神经网络的脑电信号快速识别方法 |
CN110069958A (zh) * | 2018-01-22 | 2019-07-30 | 北京航空航天大学 | 一种密集深度卷积神经网络的脑电信号快速识别方法 |
CN108491836B (zh) * | 2018-01-25 | 2020-11-24 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN109154989B (zh) * | 2018-03-02 | 2021-07-06 | 香港应用科技研究院有限公司 | 使用掩模来提高卷积神经网络对于癌细胞筛查应用的分类性能 |
CN109154989A (zh) * | 2018-03-02 | 2019-01-04 | 香港应用科技研究院有限公司 | 使用掩模来提高卷积神经网络对于癌细胞筛查应用的分类性能 |
CN110501880A (zh) * | 2018-05-18 | 2019-11-26 | 卡尔蔡司Smt有限责任公司 | 用于借助于转换模型分析光刻工艺的元件的装置及方法 |
CN110501880B (zh) * | 2018-05-18 | 2022-05-31 | 卡尔蔡司Smt有限责任公司 | 用于借助于转换模型分析光刻工艺的元件的装置及方法 |
CN108960281A (zh) * | 2018-05-24 | 2018-12-07 | 浙江工业大学 | 一种基于非随机掩盖数据增强方式的黑色素瘤分类方法 |
WO2020029181A1 (zh) * | 2018-08-09 | 2020-02-13 | 深圳鲲云信息科技有限公司 | 三维卷积神经网络计算装置及相关产品 |
CN109472789A (zh) * | 2018-11-20 | 2019-03-15 | 北京贝叶科技有限公司 | 一种用于皮肤病理图像处理的神经网络训练方法及装置 |
CN110009644A (zh) * | 2019-03-26 | 2019-07-12 | 深兰科技(上海)有限公司 | 一种特征图行像素分段的方法和装置 |
US11200678B2 (en) | 2019-09-17 | 2021-12-14 | Sony Corporation | Image-based mask frame interpolation |
CN110633715B (zh) * | 2019-09-27 | 2021-09-10 | 深圳市商汤科技有限公司 | 图像处理方法、网络训练方法及装置、和电子设备 |
CN110633715A (zh) * | 2019-09-27 | 2019-12-31 | 深圳市商汤科技有限公司 | 图像处理方法、网络训练方法及装置、和电子设备 |
CN110866860A (zh) * | 2019-11-01 | 2020-03-06 | 成都费恩格尔微电子技术有限公司 | 生物特征识别用的cis芯片的图像处理方法 |
CN110866860B (zh) * | 2019-11-01 | 2023-12-26 | 上海菲戈恩微电子科技有限公司 | 生物特征识别用的cis芯片的图像处理方法 |
CN111179284A (zh) * | 2019-12-30 | 2020-05-19 | 上海交通大学 | 交互式图像分割方法、系统及终端 |
CN111179284B (zh) * | 2019-12-30 | 2023-04-21 | 上海交通大学 | 交互式图像分割方法、系统及终端 |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN113344935A (zh) * | 2021-06-30 | 2021-09-03 | 山东建筑大学 | 基于多尺度难度感知的图像分割方法及系统 |
CN113344935B (zh) * | 2021-06-30 | 2023-02-03 | 山东建筑大学 | 基于多尺度难度感知的图像分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506774A (zh) | 一种基于局部注意掩模的分段感知神经网络方法 | |
Salazar-Colores et al. | Single image dehazing using a multilayer perceptron | |
CN106548192B (zh) | 基于神经网络的图像处理方法、装置和电子设备 | |
CN107291822A (zh) | 基于深度学习的问题分类模型训练方法、分类方法及装置 | |
CN106228177A (zh) | 基于卷积神经网络的日常生活物体图像识别方法 | |
CN112364885A (zh) | 一种基于深度神经网络模型可解释性的对抗样本防御方法 | |
CN104285239A (zh) | 图像处理装置、图像处理方法、程序、印刷介质以及记录介质 | |
CN106066994A (zh) | 一种基于Fisher判别的稀疏表示的人脸识别方法 | |
Huang et al. | Support vector machines with piecewise linear feature mapping | |
Acharya et al. | Image sub-division and quadruple clipped adaptive histogram equalization (ISQCAHE) for low exposure image enhancement | |
CN114387476A (zh) | 一种提高对抗样本在防御机制上迁移性的方法 | |
Tripathi et al. | Segmentation of brain tumour in MR images using modified deep learning network | |
CN108846128B (zh) | 一种基于自适应噪音降噪编码器的跨领域文本分类方法 | |
Meyer et al. | Decomposing the effect of anomalous diffusion enables direct calculation of the Hurst exponent and model classification for single random paths | |
Tokuda et al. | Seismic-phase detection using multiple deep learning models for global and local representations of waveforms | |
Ma et al. | A novel algorithm of image enhancement based on pulse coupled neural network time matrix and rough set | |
CN114913378A (zh) | 一种基于综合类激活映射的图像分类可解释方法 | |
Pokharel et al. | A closed form solution for a nonlinear Wiener filter | |
CN114037770A (zh) | 一种基于离散傅里叶变换的注意力机制的图像生成方法 | |
Kermani Kolankeh et al. | Competition improves robustness against loss of information | |
Zhang et al. | A study on development of wavelet deep learning | |
Zhang | Analysis and Recognition Method of Internet Image Public Opinion Based on Partial Differential Equation | |
Wang et al. | Spectral–spatial classification of hyperspectral images by algebraic multigrid based multiscale information fusion | |
CN116702876B (zh) | 一种基于预处理的图像对抗防御方法 | |
Liu et al. | Relative gradient speeding up additive updates for nonnegative matrix factorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171222 |
|
WW01 | Invention patent application withdrawn after publication |