发明内容
本发明的目的在于提供一种可以提高图像分割结果的认知能力的基于对标注图像学习的图像分割方法。
本发明的目的是是通过如下步骤实现的:
分为两个过程;过程1首先对标注好的训练样本进行学习,包括对训练图像的分割、训练图像的场景分类以及特定场景下的标注字与分割区域的联接建立;过程2利用过程1学习到得模型参数确定待分割区域的标注字,并通过区域的标注信息进行信息融合,完成分割。
所述过程1包括如下步骤:
步骤1.1,图像的过分割,采用改进的模糊K-均值方法对图像进行过分割;首先给出初始图像视觉聚类中心,然后再确定每个像素的聚类中心隶属度与更新聚类中心的两个过程的循环中,加入一个对隶属度平滑滤波过程,以此引入分割聚类中邻近像素间的相互作用及彼此约束力;
步骤1.2,自动场景语义类别的确定;首先利用视觉特征与标注字之间的相关性,将视觉特征转化为标注字描述方式;具体方案将每幅图像的标注向其视觉邻近的图像传播,信息传播量由邻近图像间的视觉相似程度所决定,而接收图像则按照标注字间的相关性进行信息接收;标注字间的相关性利用训练样本中同一图像中出现的标注字进行统计;让标注字信息量在视觉相似图像中累积增长,将视觉特征转化为代表其与标注字相关程度的权值;然后利用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型针对具有权值的标注字提取图像的语义类别;将训练样本分成不同的场景后,每个场景采用高斯混合模型模拟该场景下的视觉分布,利用获得的模型参数在后续步骤中确定待分割图像的场景;
步骤1.3,特定场景下过分割区域与标注字的映射学习;采用前馈神经网络在场景约束下的区域视觉特征和标注字之间建立联系;网络的输入节点为图像区域的视觉描述特征,输出节点为某一场景下的标注字,每个节点对应一个标注字;指导信息为一个二值特征向量,该向量的每个分量代表一个固定的标注字;当在网络输入端接收到视觉刺激后,直接在输出端的视觉概念区产生相应的概念响应。
所述过程2包括如下步骤:
步骤2.1,图像的过分割;与过程1中的步骤1.1相同;
步骤2.2,待分割图像的场景确立;将分割后的图像输入过程1中步骤1.2所建立的不同场景下的视觉混合模型;按照混合模型的后验概率确定待分割图像场景;
步骤2.3,过分割图像区域的标注;将分割图像的视觉特征输入到过程1的步骤1.3中所建立的相应场景下的前馈神经网络,然后通过特定场景所对应的前馈神经网络,在输出端获得每个过分割区域的标注结果,该输出值作为标注的可靠性与分割合理性的判别依据;
步骤2.4,过分割标注区域的融合;为了能够很好地确定图像区域的空间位置信息,将每个过分割区域映射到网格结构中,这样每个区域对应网格结构下的一个或多个节点;将每个节点的标注向8连通邻近节点传递,统计出每个节点的标注概率,利用位置约束方法可以排除掉概率较小的标注字,使过分割区域标注结果更加合理;合并标注字趋于一致的过分割区域,实现趋向物体级的语义分割。
本发明通过对标注图像的学习将图像分割和识别过程相融合,将标注字作为图像分割和物体识别的联系纽带,在低级的视觉刺激与代表高级语义信息的标注字之间建立联接,来指导图像分割过程,以提高图像分割结果的认知能力。
首先对图像进行过分割,图像的分割结果中避免不了存在“欠分割”和“过分割”现象。与“过分割”相比,“欠分割”会造成物体边缘定位错误,由于会将邻近的不同物体区域分割成一个区域,无疑会给图像理解制造障碍。为了减少“欠分割”现象,我们采取“过分割”方案,使分割后的图像区域明显多于图像中包含的物体区域的个数。此时理想的过分割图像中的物体应由若干个“过分割”的图像区域拼接而成,这样就将原始的由像素描述的图像转化为更紧凑、更加具有明显物理含义的局部区域描述方式,方便了更高层次的图像分析与理解。采取“过分割”方案,因为过分割区域呈现出的颜色、纹理和几何等视觉统计特征能够很好地体现出物体表面的材质特性,与物体高级语义之间具有良好的对应关系。
采用分割方法将图像分解为一组区域后,即使对人类观察者来说,有时在缺乏相应背景信息的情况下,要正确地识别出单一的图像区域也是有一定困难的。从一定的角度说明了标注字与视觉联系的复杂性。而在确定的语义场景下,图像区域的识别工作则要容易的多。从视觉计算角度看,确定图像场景比识别出图像中包含物体要容易的多。
如果能将学习样本进行分类,分成许许多多个不同的语义场景,那么在特定的场景下,标注字的歧义性会明显降低,图像区域的视觉特征所能表征的语义范畴也会显著缩小,从而视觉特征和标注字之间的联系也会变得更加简单清晰。这样,我们就可以将一个具有复杂联系的学习问题分解为许多联系更为简单的子问题,因此通过特定场景的约束,能够明显降低图像的高低级语义联系的复杂程度。
图像所能表达的语义内容十分丰富,一幅图像放在不同的环境下,可能呈现出不同层面的信息,为此人们常常采用一组图像来突出所要传递的语义内容,利用这样的一组图像就可以用来构建一个特定的语义场景。而标注字和视觉特征间的信息互补性为场景语义类别提取有效性提供了保证,特别是标注中提供了对图像语义内容的直观描述。
将学习用的标注图像划分为不同场景后,在每个场景下建立一个前馈神经网络,通过网络学习建立特定场景下标注字与图像区域之间的联接。
通过对大量可靠的标注图像的学习,利用图像的低级视觉特征与标注字之间的关联性,建立了从图像像素到代表物体表面材质的局部区域描述,从图像的场景语义类别再过渡到代表图像高级语义内容的标注字描述,形成一种多层次的低级视觉特征和标注字之间的联接体系。通过这种联接体系进行物体识别后,将标注识别后的初始分割区域进行融合,获得图像的最终分割结果。
基于对标注图像学习的图像分割方法可以直接应用到自动图像标注、医学图像的计算机辅助诊断、遥感图像的分割和分类以及多媒体信息检索等实际应用领域。
具体实施方式
具体实施方案分为两个过程,过程1首先对标注好的训练样本进行学习,包括对训练图像的分割、训练图像的场景分类以及特定场景下的标注字与分割区域的联接建立。过程2利用过程1学习到得模型参数确定待分割区域的标注字,并通过区域的标注信息进行信息融合,完成分割。
过程1:
步骤1,图像的过分割。采用改进的模糊K-均值方法对图像进行过分割。首先给出初始图像视觉聚类中心,然后在确定每个像素的聚类中心隶属度与更新聚类中心的两个过程的循环中,加入一个对隶属度平滑滤波过程,以此引入分割聚类中邻近像素间的相互作用及彼此约束力。
步骤2,自动场景语义类别的确定。首先利用视觉特征与标注字之间的相关性,将视觉特征转化为标注字描述方式。具体方案将每幅图像的标注向其视觉邻近的图像传播,信息传播量由邻近图像间的视觉相似程度所决定,而接收图像则按照标注字间的相关性进行信息接收。标注字间的相关性利用训练样本中同一图像中出现的标注字进行统计。让标注字信息量在视觉相似图像中累积增长,将视觉特征转化为代表其与标注字相关程度的权值。然后利用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型针对具有权值的标注字提取图像的语义类别。将训练样本分成不同的场景后,每个场景采用高斯混合模型模拟该场景下的视觉分布,利用获得的模型参数在后续步骤中确定待分割图像的场景。
步骤3,特定场景下过分割区域与标注字的映射学习。采用前馈神经网络在场景约束下的区域视觉特征和标注字之间建立联系。网络的输入节点为图像区域的视觉描述特征,输出节点为某一场景下的标注字,每个节点对应一个标注字。指导信息为一个二值特征向量,该向量的每个分量代表一个固定的标注字。当在网络输入端接收到视觉刺激后,直接会在输出端的视觉概念区产生相应的概念响应。
过程2:
步骤1,图像的过分割。与过程1中的步骤1相同。
步骤2,待分割图像的场景确立。将分割后的图像输入过程1中步骤2所建立的不同场景下的视觉混合模型。按照混合模型的后验概率确定待分割图像场景。
步骤3,过分割图像区域的标注。将分割图像的视觉特征输入到过程1的步骤3中所建立的相应场景下的前馈神经网络,然后通过特定场景所对应的前馈神经网络,在输出端获得每个过分割区域的标注结果,该输出值可作为标注的可靠性与分割合理性的判别依据。
步骤4,过分割标注区域的融合。为了能够很好地确定图像区域的空间位置信息,将每个过分割区域映射到网格结构中,这样每个区域对应网格结构下的一个或多个节点。将每个节点的标注向8连通邻近节点传递,统计出每个节点的标注概率,利用位置约束方法可以排除掉概率较小的标注字,使过分割区域标注结果更加合理。合并标注字趋于一致的过分割区域,实现趋向物体级的语义分割。