CN101620615A

CN101620615A - 一种基于决策树学习的自动图像标注与翻译的方法

Info

Publication number: CN101620615A
Application number: CN200910060241A
Authority: CN
Inventors: 侯进; 张登胜
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2009-08-04
Filing date: 2009-08-04
Publication date: 2010-01-06
Anticipated expiration: 2029-08-04
Also published as: CN101620615B

Abstract

本发明公开了一种基于决策树学习的自动图像标注与翻译的方法，自动为新图像加以标注，使用机器翻译带有可视化内容的文本词汇表而实现图像资料的机器检索，包括训练标注图像集和图像自动标注。其中训练标注图像集利用图像分割算法对训练图像集分割成子块区域，提取每个子块区域的底层视觉特征；将这些特征数据离散化，然后将训练标注图像集基于底层特征离散值利用聚类算法进行分类，并构造出语义词典；将所述底层特征离散值作为决策树学习的输入属性；利用决策树机器学习法对已构造的词典，对应预先设定的语义概念进行自我训练学习，生成决策树并获取相应的决策规则。本发明的训练标注图像集具有可扩展性和鲁棒性，将其应用于语义图像检索中，能提高检索的查全率和查准率。

Description

一种基于决策树学习的自动图像标注与翻译的方法

技术领域

本发明涉及数字图像检索技术以及机器学习技术领域，尤其涉及一种基于决策树学习的自动图像标注与翻译的方法。

背景技术

早期，人们是通过手工标注的方式来实现图像检索的，但这项工作耗时又费力，尤其面对大规模的网络图像时，显然它已经无法胜任。因此，如何快速、有效地实现对图像的自动语义标注，变得十分有必要。

自动图像标注是一个通过计算机系统以说明文字或关键字的形式，给一幅数字图像自动分配元数据的过程。这种计算机视觉应用技术用在图像检索中，来组织和查找到数据库中用户感兴趣的图像。这种方法被称之为一种多类图像分类法，该分类法含有大量的类，它们和一个词汇表一样大。其中最典型的就是图像分析，它是以提取特征向量和训练标注文字的形式应用于机器学习技术中，企图自动地为新图像加以标注。这种方法首先要学习图像特征和训练标注之间的相互关系，然后开发使用机器翻译来试着翻译带有“可视化内容”的文本词汇表。

和传统的基于内容的图像检索CBIR(Content-based ImageRetrieval)相比，自动图像标注的优点在于用户可以更自然地设定实现查询。自动图像标注的一个方向是采用分类方法，每一个语义概念被当作一个类别进行分类。代表方法有：支持向量机(Support VectorMachine，简称SVM)方法，贝叶斯点机方法等等。这种方法当语义概念相当多时会遇到困难。自动图像标注的另一个方向是建立图像和语义概念的统计概率模型。Duygulu等人提出的翻译模型(TranslationModal，简称TM)，利用传统的语言统计翻译模型将语义概念翻译为blobs(区域聚类)。Jeon等人介绍了一种交叉媒体相关模型(Cross-media Relevance Modal，简称CMRM)，将图像标注问题看作跨语言检索问题，模型通过计算blobs和语义概念的联合概率进行图像标注，获得了比较好的效果。但是这类概率的方法对语义和图像特征的利用比较粗糙，两者的结合不是很紧密。而且这类方法对图像区域聚类结果的好坏比较敏感。自动图像标注方法是图像检索发展的一个新方向，也是热门方向，同样提出自动图像标注方法的有发明专利公开号CN1920820A的发明，该发明考虑的是图像区域子快的重要性和训练集中文本的重要性次序，由此来解决词频畸形分布的问题，而标注后的训练集是否具有可扩展性并未有涉及。

发明内容

鉴于现有技术的以上不足，本发明考虑的目的是研究一种基于决策树学习的自动图像标注与翻译的方法，使标注后的训练集具有可扩展性及鲁棒性，来解决训练图像数据库不适应另一个未训练的图像数据库的问题以及数据库不完整和有噪声数据的问题。本发明的目的是通过如下的手段实现的。

一种基于决策树(Decision Tree，简称DT)学习的自动图像标注与翻译的方法，以提取特征向量和训练标注文字的形式使机器完成学习后自动地为新图像加以标注，使用机器翻译带有可视化内容的文本词汇表而实现图像资料的机器检索；包括训练标注图像集和图像自动标注两部分，其中

(1)所述训练标注图像集包括如下步骤：

a)利用图像分割算法对训练图像集分割成子块区域，提取每个子块区域的底层视觉特征；将这些特征数据离散化，然后将训练标注图像集基于底层特征离散值利用聚类算法进行分类，并构造出语义词典；

b)将所述底层特征离散值作为DT学习的输入属性，利用DT机器学习法对已构造的词典，对应预先设定的语义概念进行自我训练学习，生成决策树并获取相应的决策规则；

(2)所述图像自动标注包括如下步骤：

a)对于图像自动标注，将待标注的图像通过相同的分割算法得到多个区域；

b)对每个区域进行特征提取、特征值离散化，得到每个区域的特征属性值；

c)根据训练过程中生成的决策规则，将上一步得到的属性值带入到规则中测试，得到对应的语义概念，这个语义概念就作为该待标注图像的标注词。

采用如上的方法后，利用DT机器学习法对已构造的词典，使用DT学习技术，取代了算法复杂和应用受限的贝叶斯模型学习技术。对应预先设定的语义概念进行自我训练学习，生成决策树并获取相应的决策规则，使训练标注图像集具有可扩展性和鲁棒性，将其应用于语义图像检索中，能提高检索的查全率和查准率。

附图说明

图1为本发明方法的工作顺序举例框图。

具体实施方式

下面，结合附图对本发明方法作进一步的详述。

如图1所示，在流程图中，先将训练图像集进行分割、底层特征提取并将特征值离散化，将这些离散值作为训练DT的输入属性，同种特征属性形成相应的语义词典，然后根据预定义要训练的输出结果(也就是语义概念)，以词典中的离散值作为训练的输入进行训练并建立一棵决策树，由此获取对应的决策规则(标注规则)。在标注过程中，将待标注的图像进行分割，提取该图像子块(区域)的特征并离散化，将每个子块的离散值作为输入属性带入训练过程中已获取的决策规则，便能自动得到最终的语义概念，也就是每个子块对应的标注词。

与现有技术(如发明专利公开号CN1920820A的发明)不同的是，在训练过程中，无需计算标注词出现的概率，而是通过训练DT获得的决策规则，这样一来，在标注过程中，并不是像发明专利公开号(CN)为1920820A的发明那样选取最大概率的若干标注词作为待标注图像的标注词，而是由决策规则自动将输入属性作为映射到相应的语义概念作为待标注图像的标注词。

本发明的具体步骤如下：

(1)训练标注图像集

a)对训练图像集分类并构造出语义词典(步骤101)

将训练图像集分割成一个个区域(子块)，提取每个区域的底层视觉特征，包括颜色、纹理和形状特征。在本发明的方法中不关注具体采用哪种方式生成这些特征，只要这些特征能准确地描述图像相应的内容和被有效地应用于本发明中的图像标注方法即可。

然后将得到的这些特征数据离散化，本发明采用自适应的矢量量化(Vector Quantization，简称VQ)技术实现特征值离散化。对于基于区域的特征，其维度常常是变化的，普通的求均值法无法计算特征的聚类中心，而本发明采用的自适应VQ通过合并与重新分布特征的聚类来实现。为了解决训练标注图像数据库在标注过程中的可扩展性，首先估计特征分布，然后利用估计好的特征分布来控制聚类分裂(splitting)和VQ算法的收敛性(convergence)。这样一来，通过VQ算法离散化的特征值构造出的词典大小适应于整个图像数据库的大小，而不是受限于预先确定的词典大小。

b)训练并建立DT，获取决策规则(步骤102)

词典创建好之后，我们需要在码字(词典中的离散值)与预先定义的语义概念之间建立一个映射关系。其中语义概念指的是sky、plane、animal等等能被用户所理解，而且在图像检索应用中，可以把这些语义概念作为关键词进行语义检索。本发明采用DT机器学习技术来建立这些映射关系。DT算法最大的特点就是它的语义翻译能力，这种能力可以很自然的模仿人类学习，和其它学习工具不同，DT学习可以得到人类的理解规则。另外，由于修剪技术，对于不完整或有噪音的数据，DT方法更简单而且具有很强的鲁棒性。使用DT方法可以不用做任何一个预先的假定便可以适应外界环境的多变性。

将词典中的码字进行训练，并建立起一棵决策树。由于每个图像子块是由颜色、纹理及形状特征共同表示的，那么其码字也由这三个特征的离散值组成，每种特征各自归属一个属性，每个属性的取值及个数是由这些离散值所决定的。将其作为决策树的输入属性，预定义的语义概念作为决策树的叶节点，通过不断地的训练最终可以得到一张决策规则表，这张表是以IF-THEN的形式来表示的，它所表示的意义就是输入的特征属性值与语义概念建立了对应的映射关系，这个映射关系也是图像标注阶段中待标注图像进行标注所需的测试与验证的对象。

(2)图像自动标注

a)待标注图像分割(步骤103)

对于输入一个待标注的图像，首先要对其进行图像分割，使其分割成一个个图像子块便于后续标注。为了使DT标注更为准确，本发明将现有的先进分割技术结合由曲波变换得到的边缘信息对采集的图像进行最有效的分割。曲波变换可给出精确的边缘信息，尤其在最高尺度下可以生成完好的对象轮廓。这种精确的边缘信息可以被用来改进现有的分割技术，以致被分割的区域更接近图像中的语义对象，而且这种技术可以有利于在离散化阶段中VQ方法达到更好的自适应效果。

b)提取图像子块的特征属性值(步骤104)

待标注图像被分割之后，和提取训练图像集一样的方式提取该图像各个子块的特征属性值，在本发明的方法中不关注具体采用哪种方式生成这些特征，只要这些特征能准确地描述图像相应的内容和被有效地应用于本发明中的图像标注方法即可。

c)自动标注(步骤105)

将得到的特征值带入到训练过程中获取的决策规则里进行测试，每个子块便可以由此得到与之对应的语义概念，这个语义概念就作为该待标注图像的标注词。

实施例

给定5100张Corel数据库图像，其中选取19×30共570张图像作为本发明方法的训练图像集，实施例对剩下的图像进行图像自动标注。

(1)先对训练图像集的所有图像都进行图像分割，形成若干图像子块(区域)，对图像子块提取颜色、纹理、形状特征，分别得到特征数据x₁，x₂，...，x_L(L维颜色特征)，y₁，y₂，...，y_M(M维纹理特征)，z₁，z₂，...，z_N(N维形状特征)。

在自适应VQ处理特征值离散化的阶段，以颜色特征为例，第一步首先计算初始聚类中心，令此中心为c₁，然后设置初始聚类个数CN＝1；第二步首先选择超过L维颜色特征的聚类中心，令n为被选择的中心的个数，若n＝0则停止，否则将每个中心分裂成两个，且设置CN＝CN+n，令所有CN个中心以c₁ ^old，c₂ ^old，...，c_CN ^old；第三步首先设每个聚类i为空()，重新分布每维颜色特征x_l到它的最近邻的聚类j，设聚类j＝聚类j∪x_l(

)，使得j＝argmin_i(distance(x_l，c_i ^old))，然后重计算每个中心

如果c_i ^new＝＝c_i ^old则c_i＝c_i ^new，并再次选择聚类及分裂中心，否则c_i ^old＝c_i ^new，且设置每个聚类i为空。最后便可以输出颜色特征离散值c₁，c₂，...，c_CN(CN个中心颜色特征值)。类似地，可以得到纹理特征离散值t₁，t₂，...，t_TN和形状特征离散值s₁，s₂，...，s_SN，且这三组值便可以构造出相应的可供后续训练学习的词典。由此可见，词典中各种特征的输出个数适应于整个图像数据库，而无需预先确定词典大小。

(2)词典创建好之后，为了建立输入特征属性值与语义概念的映射关系，首先要人为预先定义与训练图像集相关的语义概念，即Sky、Plane、Animal等19个语义概念(类名)，其中在训练图像集中，给每个类选择了30个模板。定义好语义概念之后，以三个特征属性作为DT的输入属性，其属性取值由三组特征离散值决定，然后以语义概念作为目标进行训练，训练后便可以生成一棵决策树，获取相应的决策规则。

对于决策树的建立，其基本实现步骤如下：

a)初始化决策树T为只含一个树根(X，Q)，其中X是全体训练集，Q为全体属性集。

b)if(T中所有叶节点(X′，Q′)都满足X属于同一类或Q′为空)then算法停止；

c)else{任取一个不具有(b)中所述状态的叶节点(X′，Q′)；

d)for每个Q′中的属性A

do计算信息增益gain(A，X′)；

e)选择具有最高信息增益的属性B作为节点(X′，Q′)的测试属性；

f)for每个B的取值b_i

do{从该节点(X′，Q′)伸出分支，代表测试输出B＝b_i；

求得X中B值等于b_i的子集X_i，并生成相应的叶节点(X_i′，Q′-{B})；}

g)转(b)；}

另外，对于不完整或有噪音的数据，本发明对DT方法进行了剪枝改进，包括前剪枝和后剪枝。针对我们训练图像集的数据分布特点，对于前剪枝，将产生每层节点的类所拥有的模板数小于3的节点剪掉；对于后剪枝，主要是处理未知所属类别的节点，将父节点分支下，其子节点所拥有模板数最多的节点所属类别作为该未知节点的类，如果其子节点都同属于一个类，那么这个父节点便为该类并变成叶节点。这样一来，一棵复杂的决策树便可以简化为一棵简洁明了的树，而且这样的树具有很强的鲁棒性。

通过以上步骤，便可以获取以IF-THEN的形式来表示的决策规则，也是在标注阶段所需要进行测试与验证的标注规则。

(3)现在输入一张未标注的图片，比如图1中那张含有sky和plane两个语义概念(在训练阶段已定义)的图片，利用曲波变换技术对整幅图像进行分割，使其分割的每个子块对应于一个易于人们理解的语义对象。首先将输入的待标注图像进行曲波域上的变换得到一组曲波系数，然后根据图像噪声的标准方差修正并利用此系数重构图像，实现该图像的对比度增强。最后利用JSEG分割工具对增强后的图像进行分割，这样就把输入图像分割成两个图像子块，一个是表示sky语义的子块，另一个是表示plane语义的子块。

(4)将上一步得到的两个图像子块进行特征提取，以颜色、纹理和形状特征三组数据共同表示各个图像子块，然后利用训练阶段中的自适应VQ技术对各个子块的特征值进行离散化，最后每个子块都含有颜色、纹理和形状三个标签值(离散值)。

(5)将上述各个子块得到的三个值带入到训练过程中生成的决策规则表，系统便依照这个规则表，自动标注出每个子块所对应的语义概念，也就是要标注的词。由于每个子块都被一个语义概念所标注，那输入的一幅未标注的图像便可以被自动地翻译出它所包含的语义概念。

将本发明的标注方法应用到语义图像检索中，利用图像和关键词查询图像时，其平均查全率和平均查准率都得到明显提高。最大的特点就是，当往已标注好的图像库中添加新图像时，检索系统同样可以将其检索出来反馈给用户，这使得该检索系统具有很好的扩展性，而且当用户输入的图像含有噪声时，该系统也能较好地将相关图像检索出来，反映了系统具有很强的鲁棒性。

Claims

1、一种基于决策树学习的自动图像标注与翻译的方法，以提取特征向量和训练标注文字的形式使机器完成学习后自动地为新图像加以标注，使用机器翻译带有可视化内容的文本词汇表而实现图像资料的机器检索，包括训练标注图像集和图像自动标注两部分，其中

(1)所述训练标注图像集包括如下步骤：

b)将所述底层特征离散值作为决策树学习的输入属性，利用决策树机器学习法对已构造的词典，对应预先设定的语义概念进行自我训练学习，生成决策树并获取相应的决策规则；

(2)所述图像自动标注包括如下步骤：

2、根据权利要求1所述之基于决策树学习的自动图像标注与翻译的方法，其特征在于，所述特征值离散化采用自适应的矢量量化技术予以实现。