CN108182443B

CN108182443B - 一种基于决策树的图像自动标注方法和装置

Info

Publication number: CN108182443B
Application number: CN201611122143.5A
Authority: CN
Inventors: 杨婉; 李青海; 简宋全; 邹立斌
Original assignee: Guangdong Kingpoint Data Science And Technology Co ltd
Current assignee: Guangdong Kingpoint Data Science And Technology Co ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2020-08-07
Anticipated expiration: 2036-12-08
Also published as: CN108182443A

Abstract

本发明提供了一种基于决策树的图像自动标注方法和装置。该装置包括：输入单元、预处理单元、分割提取单元、标注概率计算单元、生成树单元、词间相关性计算单元和选择关键词单元。与现有技术比较本发明的有益效果在于：对于一些获取的模糊图像进行修复，使得图像语义自动标注技术适用范围更广；更加全面地提取了图像底层特征，采用全局特征和局部特征来反映图像的真实视觉内容，提高图像语义自动标注的准确性；全局特征采用主成分分析的尺度不变特征，提高运算效率，特别是对于高维图像；解决了海量图像集的不可测量性，将图像标注问题转化为了分类问题进行标注，提高了传统模型的标注性能。

Description

一种基于决策树的图像自动标注方法和装置

技术领域

本发明涉及图像语义自动标注技术领域，尤其涉及一种基于决策树的图像自动标注方法和装置。

背景技术

随着互联网技术的飞速发展，互联网上每天都有数以百万的新图像在增长。而如何根据用户的需求，在海量图像中快速有效地检索出目标图像是图像检索系统的目标。而图像语义标注则是图像检索的准备性的关键步骤。通过图像语义标注就可以将图像的检索问题转化为技术成熟、效率高的文本检索问题。但是传统的语义标注是通过人工的方式对每幅图像进行关键词描述，在现在数据爆炸的时代这种方式显然是既费时效率又低。基于图像内容的语义自动标注就是利用计算机自动实现从测试图像中提取视觉特征，并通过相似性匹配来检测图像。自动标注语义技术避免了人工描述的主观性，也大大提高了工作效率。

然而理想的语义自动标注模型均需要一个可以对任何图像进行标注的理想训练集，为了尽可能实现图像自动标注，所采用的训练集中图像数目是非常大的，可以说具有一种不可测量性。在标注过程中为了得到更加准确的标注结果，有时需要对训练集中所有图像进行多次运算，包括那些与待标注图像相关性非常低的图像，甚至是没有一点关系的图像，这无疑增加了运算的代价，给标注结果带来负面的影响。

鉴于上述缺陷，本发明创作者经过长时间的研究和试验,最终获得了本发明。

发明内容

本发明的目的在于提供一种基于决策树的图像自动标注方法和装置用以克服上述技术缺陷。

为实现上述目的，本发明采用的技术方案在于：

一方面提供了一种基于决策树的图像自动标注方法，该方法包括以下步骤：

步骤S1：输入图像集；

步骤S2：对所述图像集中的图像进行预处理；

步骤S3：采用N-cut算法对图像进行分割，分别对分割后的区域进行视觉特征提取和量化，然后根据量化后的特征信息计算出特征相似性，根据所述特征相似性将图像的有效区域进行聚类，形成视觉词元；

步骤S4：统计所述图像集中的训练图像的关键词和视觉词元信息，利用后验概率知识对图像进行初始标注，计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I)；

步骤S5：根据所述标注概率P(w|I)，设立阈值将所述标注概率P(w|I)分为三个部分，生成左子树和右子树；

步骤S6：利用词间相关性计算所述左子树和右子树之间的词间相关性；

步骤S7：将满足一定条件的关键词再形成新的左子树和右子树，选择所有的左子树里面的关键词作为待标注图像的关键词。

较佳的，所述步骤S2包括以下步骤：

步骤S21：对所述图像集中的所有图像，包括训练图像和测试图像，进行尺寸大小归一化；

步骤S22：对所述测试图像中的模糊图像利用维纳滤波法进行图像修复；

所述步骤S3包括以下步骤：

步骤S31：采用N-cut算法将所述图像集中的每幅图像都进行分割，选择图像的有效区域；

步骤S32：对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子，提取主成分分析的尺度不变特征作为全局特征，将所述局部特征和所述全局特征归一化之后融合成一个长特征向量；

步骤S33：根据所述长特征向量计算特征相似性；

步骤S34：根据所述特征相似性，采用K-均值方法对分割区域进行聚类，使得分割后的区域属于某一类别，同时赋予每一类一个唯一的整数编号，得到视觉词元。

较佳的，所述步骤S4包括以下步骤：

步骤S41：统计出每个关键词出现在每幅图像的标注中的次数，记为#(w,J)；统计出关键词在训练集标注中的总次数，记为#(w,T)；统计出视觉词元b出现在每幅图像中的次数#(b,J)；最后统计出视觉词元b出现在全部训练集中的次数#(b,T)；

步骤S42：计算

然后根据公式

将关键词与视觉词元的联合分布边缘化求得P(w|b₁L b_m)≈P(w|I)；其中w_i(i＝1L n)为关键词，b_i(i＝1L m)为视觉词元，训练图像为J_i＝{b₁L b_m,w₁L w_n}，T为训练图像集，I＝{b₁L b_m}为测试图像。

较佳的，所述步骤S5包括以下步骤：

步骤S51：设置双阈值ε₁,ε₂；

步骤S52：根据

将关键词分为三部分，当P(w|I)＞ε₁时，直接选取相应的关键词作为待标注图像的关键词，设为左子树，当ε₂＜P(w|I)＜ε₁时将这些关键词置于同一集合中，作为右子树，当P(w|I)＜ε₂时直接舍弃这一部分关键词信息；其中S(w)、Q(w)表示满足条件的关键词集合，

表示不包含任何关键词。

较佳的，所述步骤S6具体为：根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w₁,w₂)；其中，

#(w₁,w₂)表示任意两个关键词w₁,w₂同时作为一幅图像标注的共生次数，N_T表示训练集图像的总数目，n₁表示训练集中出现关键词w₁的图像数目。

较佳的，所述步骤S7包括以下步骤：

步骤S71：如果SI(w₁,w₂)＞γ，则将满足条件的关键词作为左子树，如果SI(w₁,w₂)＜γ将其作为右子树。其中γ为阈值；

步骤S72：选择所有左子树里面的关键词作为待标注图像的关键词。

又一方面提供了一种基于决策树的图像自动标注装置，该装置包括：

输入单元，用于输入图像集。输入的图像集包括训练图像和测试图像；

预处理单元，用于对所述图像集中的图像进行预处理；

分割提取单元，用于采用N-cut算法对图像进行分割，分别对分割后的区域进行视觉特征提取和量化，然后根据量化后的特征信息计算出特征相似性，根据所述特征相似性将图像的有效区域进行聚类，形成视觉词元；

标注概率计算单元，用于统计所述图像集中的训练图像的关键词和视觉词元信息，利用后验概率知识对图像进行初始标注，计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I)；

生成树单元，用于根据所述标注概率P(w|I)，设立阈值将标注概率P(w|I)分为三个部分，生成左子树和右子树；

词间相关性计算单元，用于利用词间相关性计算所述左子树和右子树之间的词间相关性；

选择关键词单元，用于将满足一定条件的关键词再形成新的左子树和右子树，选择所有的左子树里面的关键词作为待标注图像的关键词。

较佳的，所述预处理单元包括：

归一化模块，用于对所述图像集中的所有图像，包括训练图像和测试图像，进行尺寸大小归一化；

图像修复模块：用于对所述测试图像中的模糊图像利用维纳滤波法进行图像修复；

所述分割提取单元包括：

分割模块，用于采用N-cut算法将所述图像集中的每幅图像都进行分割，选择图像的有效区域；

特征提取模块，用于对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子，提取主成分分析的尺度不变特征作为全局特征，将所述局部特征和所述全局特征归一化之后融合成一个长特征向量；

特征相似性计算模块，用于根据所述长特征向量计算特征相似性；

聚类模块，用于根据所述特征相似性，采用K-均值方法对分割区域进行聚类，使得分割后的区域属于某一类别，同时赋予每一类一个唯一的整数编号，得到视觉词元。

较佳的，所述标注概率计算单元包括：

统计模块，用于统计出每个关键词出现在每幅图像的标注中的次数，一般为0或者1，记为#(w,J)；统计出关键词在训练集标注中的总次数，记为#(w,T)；统计出视觉词元b出现在每幅图像中的次数#(b,J)；最后统计出视觉词元b出现在全部训练集中的次数#(b,T)；

标注概率计算模块，用于计算

然后根据公式

将关键词与视觉词元的联合分布边缘化求得P(w|b₁L b_m)≈P(w|I)。其中w_i(i＝1L n)为关键词，b_i(i＝1L m)为视觉词元，训练图像为J_i＝{b₁L b_m,w₁L w_n}，T为训练图像集，I＝{b₁L b_m}为测试图像。

较佳的，所述生成树单元包括：

双阈值设置模块，用于设置双阈值ε₁,ε₂；

生成树模块，用于根据

表示不包含任何关键词；

所述词间相关性计算单元6具体的用于根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w₁,w₂)；其中，

#(w₁,w₂)表示任意两个关键词w₁,w₂同时作为一幅图像标注的共生次数，N_T表示训练集图像的总数目，n₁表示训练集中出现关键词w₁的图像数目；

所述选择关键词单元包括：

生成新树模块，用于如果SI(w₁,w₂)＞γ，则将满足条件的关键词作为左子树，如果SI(w₁,w₂)＜γ将其作为右子树。其中γ为阈值；

选择关键词模块，用于选择所有左子树里面的关键词作为待标注图像的关键词。

与现有技术比较本发明的有益效果在于：本申请提供的一种基于决策树的图像自动标注方法和装置，与现有技术相比，优越性体现在：

(1)对于一些获取的模糊图像进行修复，使得图像语义自动标注技术适用范围更广。

(2)更加全面地提取了图像底层特征，采用全局特征和局部特征来反映图像的真实视觉内容，提高图像语义自动标注的准确性。

(3)全局特征采用主成分分析的尺度不变特征，提高运算效率，特别是对于高维图像。

(4)解决了海量图像集的不可测量性，将图像标注问题转化为了分类问题进行标注，提高了传统模型的标注性能。

附图说明

图1为本发明提供的一种基于决策树的图像自动标注方法的流程图；

图2为步骤S2的流程图；

图3为步骤S3的流程图；

图4为本发明提供的一种基于决策树的图像自动标注装置的功能框图；

图5为预处理单元的功能框图；

图6为分割提取单元的功能框图；

图7为标注概率计算单元的功能框图；

图8为生成树单元的功能框图；

图9为选择关键词单元的功能框图。

具体实施方式

为便于进一步理解本发明的技术内容，下面结合附图对本发明作进一步说明。

实施例一

如图1所示，为本发明提供的一种基于决策树的图像自动标注方法的流程图，该方法包括以下步骤：

步骤S1：输入图像集。

输入的图像集包括训练图像和测试图像。

步骤S2：对所述图像集中的图像进行预处理。

步骤S3：采用N-cut算法对图像进行分割，分别对分割后的区域进行视觉特征提取和量化，然后根据量化后的特征信息计算出特征相似性，根据所述特征相似性将图像的有效区域进行聚类，形成视觉词元。

步骤S4：统计所述图像集中的训练图像的关键词和视觉词元信息，利用后验概率知识对图像进行初始标注，计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I)。

步骤S5：根据所述标注概率P(w|I)，设立阈值将标注概率P(w|I)分为三个部分，生成左子树和右子树。

步骤S6：利用词间相关性计算所述左子树和右子树之间的词间相关性。

如图2所示，为步骤S2的流程图，步骤S2包括以下步骤：

步骤S21：对所述图像集中的所有图像，包括训练图像和测试图像，进行尺寸大小归一化。

步骤S22：对所述测试图像中的模糊图像利用维纳滤波法进行图像修复。

如图3所示，为步骤S3的流程图，步骤S3包括以下步骤：

步骤S31：采用N-cut算法将所述图像集中的每幅图像都进行分割，选择图像的有效区域。

分割后可能会产生一些过小的区域，这些过小的区域所带的信息量较少，因此可以忽略，选择最大的10个区域作为图像的有效区域。

步骤S32：对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子，提取主成分分析的尺度不变特征(PCA-SIFT)作为全局特征，将所述局部特征和所述全局特征归一化之后融合成一个长特征向量。

其中，所述局部特征包括18种颜色特征和12种纹理特征。

步骤S33：根据所述长特征向量计算特征相似性。

计算公式为：S(u,v)＝exp(-kD_H(u,v))，其中S(u,v)表示特征向量u,v的特征相似性，D_H(u,v)表示特征向量u,v的汉明距离；k表示已知的常数控制因子。

步骤S34：根据所述特征相似性，采用K-均值方法对分割区域进行聚类，使得分割后的区域属于某一类别，同时赋予每一类一个唯一的整数编号，得到视觉词元。其中K＝500。

步骤S4包括以下步骤：

步骤S41：统计出每个关键词出现在每幅图像的标注中的次数，一般为0或者1，记为#(w,J)；统计出关键词在训练集标注中的总次数，记为#(w,T)；统计出视觉词元b出现在每幅图像中的次数#(b,J)；最后统计出视觉词元b出现在全部训练集中的次数#(b,T)。

步骤S42：计算

然后根据公式

将关键词与视觉词元的联合分布边缘化求得P(w|b₁L b_m)≈P(w|I)。

其中w_i(i＝1L n)为关键词，b_i(i＝1L m)为视觉词元，训练图像为J_i＝{b₁L b_m,w₁Lw_n}，T为训练图像集，I＝{b₁L b_m}为测试图像,α_j,β_j为相应的加权系数。

步骤S5包括以下步骤：

步骤S51：设置双阈值ε₁,ε₂；

步骤S52：根据

表示不包含任何关键词。

步骤S6具体为：根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w₁,w₂)；其中，

步骤S7包括以下步骤：

实施例二

如图4所示，为本发明提供的一种基于决策树的图像自动标注装置的功能框图，该装置包括：输入单元1、预处理单元2、分割提取单元3、标注概率计算单元4、生成树单元5、词间相关性计算单元6和选择关键词单元7。

输入单元1，用于输入图像集。输入的图像集包括训练图像和测试图像。预处理单元2，用于对所述图像集中的图像进行预处理。分割提取单元3，用于采用N-cut算法对图像进行分割，分别对分割后的区域进行视觉特征提取和量化，然后根据量化后的特征信息计算出特征相似性，根据所述特征相似性将图像的有效区域进行聚类，形成视觉词元。标注概率计算单元4，用于统计所述图像集中的训练图像的关键词和视觉词元信息，利用后验概率知识对图像进行初始标注，计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I)。生成树单元5，用于根据所述标注概率P(w|I)，设立阈值将标注概率P(w|I)分为三个部分，生成左子树和右子树。词间相关性计算单元6，用于利用词间相关性计算所述左子树和右子树之间的词间相关性。选择关键词单元7，用于将满足一定条件的关键词再形成新的左子树和右子树，选择所有的左子树里面的关键词作为待标注图像的关键词。

如图5所示，为预处理单元2的功能框图，预处理单元2包括：归一化模块21和图像修复模块22。归一化模块21，用于对所述图像集中的所有图像，包括训练图像和测试图像，进行尺寸大小归一化。图像修复模块22：用于对所述测试图像中的模糊图像利用维纳滤波法进行图像修复。

如图6所示，为分割提取单元3的功能框图，分割提取单元3包括：分割模块31、特征提取模块32、特征相似性计算模块33和聚类模块34。分割模块31，用于采用N-cut算法将所述图像集中的每幅图像都进行分割，选择图像的有效区域。分割后可能会产生一些过小的区域，这些过小的区域所带的信息量较少，因此可以忽略，选择最大的10个区域作为图像的有效区域。特征提取模块32，用于对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子，提取主成分分析的尺度不变特征(PCA-SIFT)作为全局特征，将所述局部特征和所述全局特征归一化之后融合成一个长特征向量。其中，所述局部特征包括18种颜色特征和12种纹理特征。特征相似性计算模块33，用于根据所述长特征向量计算特征相似性。计算公式为：S(u,v)＝exp(-kD_H(u,v))，其中S(u,v)表示特征向量u,v的特征相似性，D_H(u,v)表示特征向量u,v的汉明距离。聚类模块34，用于根据所述特征相似性，采用K-均值方法对分割区域进行聚类，使得分割后的区域属于某一类别，同时赋予每一类一个唯一的整数编号，得到视觉词元。其中K＝500。

如图7所示，为标注概率计算单元4的功能框图，标注概率计算单元4包括：统计模块41和标注概率计算模块42。

统计模块41，用于统计出每个关键词出现在每幅图像的标注中的次数，一般为0或者1，记为#(w,J)；统计出关键词在训练集标注中的总次数，记为#(w,T)；统计出视觉词元b出现在每幅图像中的次数#(b,J)；最后统计出视觉词元b出现在全部训练集中的次数#(b,T)。

标注概率计算模块42，用于计算

然后根据公式

如图8所示，为生成树单元5的功能框图，生成树单元5包括：双阈值设置模块51和生成树模块52。

双阈值设置模块51，用于设置双阈值ε₁,ε₂；

生成树模块52，用于根据

表示不包含任何关键词。

词间相关性计算单元6具体的用于根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w₁,w₂)；其中，

如图9所示，为选择关键词单元7的功能框图，选择关键词单元7包括：生成新树模块71和选择关键词模块72。

生成新树模块71，用于如果SI(w₁,w₂)＞γ，则将满足条件的关键词作为左子树，如果SI(w₁,w₂)＜γ将其作为右子树。其中γ为阈值；

选择关键词模块72，用于选择所有左子树里面的关键词作为待标注图像的关键词。

本发明提供的一种基于决策树的图像自动标注方法和装置与现有技术相比，优越性体现在：

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。