CN104008177A

CN104008177A - 面向图像语义标注的规则库结构优化与生成方法及系统

Info

Publication number: CN104008177A
Application number: CN201410252532.4A
Authority: CN
Inventors: 金聪; 金枢炜
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2014-06-09
Filing date: 2014-06-09
Publication date: 2014-08-27
Anticipated expiration: 2034-06-09
Also published as: CN104008177B

Abstract

本发明公开了一种面向图像语义标注的规则库结构优化与生成方法及系统，其中方法主要包括以下步骤：通过前馈神经网络去除噪声样本，得到初始训练样本集；得到经过特征选择后的起点训练样本集以及终点样本子集；将起点样本集到终点样本子集的每条路径转换为一条标注规则，从起点样本集到终点样本子集的所有路径构成的规则集就是规则库。本发明可实现图像的语义标注，使用户能够从海量图像中快速、有效地找到感兴趣的图像资源。

Description

面向图像语义标注的规则库结构优化与生成方法及系统

技术领域

本发明涉及图像语义标注，尤其涉及一种面向图像语义标注的规则库结构优化与生成方法及系统。

背景技术

随着图像数量的急剧增长，图像已充斥整个网络。如何有效地检索和利用如此大规模的海量图像，以便用户能够快速、有效地找到感兴趣的图像资源，已成为当前极具挑战的任务。然而，作为图像检索的重要环节，语义标注的准确度决定着图像检索的效果。基于语义的图像检索能够弥补基于文本、基于内容的图像检索两种方案的缺陷，使检索结果与用户所需信息尽可能一致。

常用的图像语义标注方法有两种：一种是概率模型方法，另一种是模式分类方法。前者建立图像与关键词之间的联合概率分布，将具有最大概率的语义概念标注到相应的图像上，以此实现图像语义的自动标注；后者将每个未标注的图像分类到某个类别，再将该类别的语义概念传递到未标注图像上，从而实现图像语义的自动标注。这两种方法虽然已得到广泛的应用，但仍存在如下不足：

(1)一般而言，图像与语义概念之间的联合概率分布不能反映两者之间的实际分布，因此，依据概率模型的语义标注方法并不能取得理想的标注效果。

(2)为了获得图像与语义概念之间的联合概率分布，需要进行参数估计，参数估计的过程往往很复杂，且时间代价过高。

(3)模式分类方法虽然有较强的泛化能力，但这种方法属于黑箱操作，无法产生人类可以理解的标注过程。

本发明针对现有图像语义标注方法的不足，研究了一种面向图像语义标注的规则库结构优化与生成方法，扩展了已有研究的成果。

发明内容

本发明要解决的技术问题在于针对现有技术中的上述缺陷，提供一种可以避免复杂的参数估计运算，提供人类可理解的标注过程的面向图像语义标注的规则库结构优化与生成方法及系统。

本发明解决其技术问题所采用的技术方案是：

提供一种面向图像语义标注的规则库结构优化与生成方法，包括以下步骤：

利用图像分割算法对给定的原始训练样本集中的每幅图像进行分割，每个分割子区域均由低层视觉特征表示，并定义每个分割子区域的语义概念，对分割子区域进行聚类，对不同类别的分割子区域的语义概念进行合并，得到具有新的语义概念的所有类别的分割子区域集合，将其作为待过滤训练样本集；通过前馈神经网络对待过滤训练样本集进行分类，删除分类错误的样本，将剩余分类正确的样本作为初始训练样本集；

将每个初始训练样本用向量表示成粒子的位置，构成粒子群；按照量子粒子群优化方法优化粒子群，并输出粒子的最优位置，对输出粒子的每一维的值与阈值比较，小于阈值的取为0，大于等于阈值的取为1，与1对应的特征集合为所选择的特征子集，得到经过特征选择后的起点训练样本集；

按照起点训练样本集自身的特性选择分裂特征，用分裂特征分割起点训练样本集，得到若干训练样本子集，对分割后的每个训练样本子集，递归地获得它的分裂特征，并再次用分裂特征分割训练样本子集，直到所有训练样本子集的元素属于相同类为止，得到终点样本子集；

将起点样本集到终点样本子集的每条路径转换为一条标注规则，从起点样本集到终点样本子集的所有路径构成的规则集就是规则库。

本发明所述的方法中，利用生成的规则库对图像进行标注的步骤为：

将待标注的图像通过分割算法得到多个分割子区域；

提取每个分割子区域的低层视觉特征，按照预先选择的特征子集重新表示分割子区域；

根据预先生成的规则库，将待标注图像的特征子集输入到规则库，得到语义概念集，该语义概念集就是待标注图像的语义。

本发明所述的方法中，生成具有新的语义概念的所有类别的分割子区域集合的具体步骤为：

对训练样本集中所有图像的分割子区域按照低层视觉特征进行聚类；

将具有相同类别的分割子区域的聚类中心作为该类别的代表，而将所有语义概念进行合并，得到该类别的语义概念集；

将所获得的具有新的语义概念的所有类别的分割子区域集合作为待过滤训练样本集，所有语义概念构成词汇表。

本发明所述的方法中，前馈神经网络的输入为待过滤训练样本集，前馈神经网络的输出为词汇表。

本发明所述的方法中，所述前馈神经网络为多层前馈神经网络。

本发明还提供了一种面向图像语义标注的规则库结构优化与生成系统，该系统包括：

去除噪声样本的过滤器，用于利用图像分割算法对给定的原始训练样本集中的每幅图像进行分割，每个分割子区域均由低层视觉特征表示，并定义每个分割子区域的语义概念，对分割子区域进行聚类，对不同类别的分割子区域的语义概念进行合并，得到具有新的语义概念的所有类别的分割子区域集合，将其作为待过滤训练样本集；通过前馈神经网络对待过滤训练样本集进行分类，删除分类错误的样本，将剩余分类正确的样本作为初始训练样本集；

训练样本特征选择模块，用于将每个初始训练样本用向量表示成粒子的位置，构成粒子群；按照量子粒子群优化方法优化粒子群，并输出粒子的最优位置，对输出粒子的每一维的值与阈值比较，小于阈值的取为0，大于等于阈值的取为1，与1对应的特征集合为所选择的特征子集，得到经过特征选择后的起点训练样本集；

规则库生成模块，用于按照起点训练样本集自身的特性选择分裂特征，用分裂特征分割起点训练样本集，得到若干训练样本子集，对分割后的每个训练样本子集，递归地获得它的分裂特征，并再次用分裂特征分割训练样本子集，直到所有训练样本子集的元素属于相同类为止，得到终点样本子集；该规则库生成模块还用于将起点样本集到终点样本子集的每条路径转换为一条标注规则，从起点样本集到终点样本子集的所有路径构成的规则集就是规则库。

本发明产生的有益效果是：本发明通过去除图像的原始训练样本集的噪声，对用于优化规则库结构的训练样本特征进行选择，最后生成规则库，从而实现图像的语义标注，使用户能够从海量图像中快速、有效地找到感兴趣的图像资源。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例面向图像语义标注的规则库结构优化与生成方法的流程图；

图2是图1中步骤S1的具体流程图；

图3是图1中步骤S2的具体流程图；

图4是图1中步骤S3的具体流程图；

图5是本发明实施例图像语义的标注流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的面向图像语义标注的规则库结构优化与生成方法主要包括以下步骤：用于去除噪声样本的过滤器设计、用于优化规则库结构的训练样本特征选择以及规则库的生成。

S1、用于去除噪声样本的过滤器设计

利用计算机实现图像自动语义标注能够提高图像检索的性能，然而当训练样本集中存在较多噪声时，用机器学习方法来标注图像语义会导致标注结果不精确甚至错误。因此，需要对含噪声的训练样本进行过滤处理。过滤器设计方法如下：

步骤S11.对于给定的原始训练样本集，利用图像分割算法对每幅图像进行分割，获得分割子区域集，人为定义每个分割子区域的语义概念。

步骤S12.计算每个分割子区域的低层视觉特征，并进行规范化处理。

步骤S13.对训练样本集中所有图像的分割子区域按照低层视觉特征进行聚类——即相似的分割子区域划为同一类。聚类后，将具有相同类别的分割子区域的聚类中心作为该类别的代表，而将它们的所有语义概念进行合并，得到该类别的语义概念集。此时，将所获得的具有新的语义概念的所有类别的分割子区域集合作为待过滤训练样本集，所有语义概念构成词汇表。

步骤S14.用前馈神经网络对待过滤训练样本集进行过滤处理。具体为：让待过滤训练样本集作为前馈神经网络的输入，词汇表作为前馈神经网络的输出。

步骤S15.在原有的待过滤训练样本集中，选择所有由前馈神经网络正确分类的样本构成新的训练样本集。

该训练样本集是从待过滤样本集中去掉分类错误的样本得到的，达到了去除噪声样本的目的。为方便叙述，在本发明中，过滤后所获得的训练样本集称为初始训练样本集。

S2、用于优化规则库结构的训练样本特征选择

初始训练样本集中的每个分割子区域均由它的低层视觉特征表示，如果特征的个数太多，要完成自动图像语义标注的任务是很困难的。同时，并非每个特征对完成图像语义标注都有帮助，有的特征是无关甚至是多余的。另外，对特征进行选择，去除无用的特征，可以优化规则库的结构，改进图像语义标注的性能。因此，对训练样本进行特征选择是必要的。本发明采用量子粒子群优化算法实现特征选择。具体过程如下。

步骤S21.将每个初始训练样本表示成粒子的位置(用向量表示)，构成搜索空间(也称为粒子群)。

步骤S22.按照量子粒子群优化方法优化粒子群，输出粒子的最优位置。

步骤S23.输出粒子的每一维的值与阈值比较，小于阈值的取为0，大于等于阈值的取为1。与1对应的特征集合就是所选择的特征子集。

S3、规则库的生成

已有的图像语义标注方法基本上都是黑箱操作，这使得人们无法很好地理解图像语义标注过程。本发明侧重于生成人们可以理解的标注规则，形成规则库，以实现基于规则库学习的图像语义自动标注。为方便起见，称经过特征选择后的训练样本集为起点训练样本集。规则生成与图像语义标注的具体操作过程如下：

步骤S31.按照起点训练样本集自身的特性选择分裂特征。

步骤S32.用分裂特征分割起点训练样本集，得到若干训练样本子集。

步骤S33.对分割后的每个训练样本子集，递归地获得它的分裂特征，并执行步骤S32，直到所有训练样本子集的元素属于相同类为止。

为叙述方便起见，将所获得属于相同类的训练样本子集称为终点样本子集。显然，终点样本子集不是唯一的。

步骤S34.将起点样本集到终点样本子集的每条路径转换为一条标注规则。从起点样本集到终点样本子集的所有路径构成的规则集就是规则库将起点样本集到终点样本子集的每条路径转换为一条标注规则。从起点样本集到终点样本子集的所有路径构成的规则集就是规则库。

利用上述方法生成的规则库进行图像语义的标注过程

步骤S41.将待标注的图像通过相同的分割算法得到多个分割子区域；

步骤S42.提取每个分割子区域的低层视觉特征，按照已选择的特征子集重新表示分割子区域。

步骤S43.根据生成的规则库，将待标注图像的特征子集输入到规则库，得到语义概念集，该语义概念集就是待标注图像的语义。

本发明的一个较佳实施例中，选择Corel图像库中的5000幅图像为实例详细说明本发明的实施过程。其中，选取4500幅图像作为本发明的训练样本集，其余500幅图像作为测试样本集。

(1).对训练样本集中的所有图像进行图像分割，得到多个图像分割子区域。计算图像分割子区域的颜色、纹理、形状共三种低层视觉特征，它们分别是L₁维的颜色特征、L₂维的纹理特征以及L₃维的形状特征。令D＝L₁+L₂+L₃。这样，每个分割子区域可以用一个D维低层视觉特征向量表示。

(2).按照下列公式将D维特征向量的每一维规范化到[0,1]，即

X^{'} = \frac{X - \min (X)}{\max (X) - \min (X)}

(2).根据每个分割子区域的实际意义人为定义该分割子区域的语义概念，例如蓝天、玫瑰、蝴蝶等。

对分割子区域进行聚类。用K-means算法计算聚类中心，得到由聚类中心构成的类集合{C₁,C₂,…,C_n}，其中n是类的个数。C_i的语义概念是由C_i所属类中所有分割子区域的语义概念组成。所有类的语义概念构成词汇表，记为V＝{w₁,w₂,…,w_L}。这里，L是不同语义概念的个数。

(3).用前馈神经网络对待过滤训练样本集进行过滤处理。本实例中选三层前馈神经网络作为训练样本过滤器。前馈神经网络的结构为：输入层节点的个数等于聚类中心的个数，输出层节点的个数等于L，隐层节点的个数由决定。前馈神经网络的初始连接权取-1.0与1.0间的随机数。利用BP(Error Back Propagation,误差反向传播)算法对前馈神经网络进行训练，隐层与输出层函数取Logistic函数

用前馈神经网络对训练样本进行分类，删除所有分类错误的样本后，剩余的(即分类正确的)样本构成初始训练样本集。

(4).用量子粒子群优化算法实现特征选择。初始训练样本集的元素记为X(t)＝(X₁(t),X₂(t),…,X_M(t))，X(t)表示第t代的粒子群，M表示粒子群的规模，X_i(t)称为第t代第i个粒子的位置向量。这里X_i(t)＝(X_i1(t),X_i2(t),…,X_iD(t))。P_i,best和P_global表示第i个粒子的最优位置向量和全局最优位置向量。

粒子群的平均最优位置按照下式计算：

m_{best} (t) = \frac{1}{M} Σ_{i = 1}^{M} P_{i, best} (t) - - - (1)

粒子的距离向量按照下式更新

X_{i} (t + 1) = a_{i} (t) + α \cdot | m_{best} (t) - X_{i} (t) | \cdot \ln \frac{1}{b_{i} (t)},

如果s≥0.5 (2)或

X_{i} (t + 1) = a_{i} (t) + α \cdot | m_{best} (t) - X_{i} (t) | \cdot \ln \frac{1}{b_{i} (t)},

如果s＜0.5 (3)上两式中，

其中，均为(0,1)内服从均匀分布的随机数。α是预定义的参数。

量子粒子群优化算法的停止条件是，算法的收敛误差小于给定的阈值或者迭代达到预定的代数。

运行量子粒子群优化算法后，可以获得粒子的最优位置向量。在实例中，将粒子的最优位置向量中每一维的值与阈值比较，小于阈值的取为0，大于等于阈值的取为1。之后，与1对应的特征全体就是最终选择的特征子集。这里，阈值由设计者给出。

(5).粒子群的改进操作。按照公式(1)、(2)、(3)生成第i个粒子的3个位置向量这三个位置向量及Xi(共4个位置向量)的最小与最大位置向量分别是Xi min和Xi max。对三个位置向量求它们的逆位置，即

{\hat{X}}_{i}^{j} = X_{i \max} - X_{i \min} - {\overset{&OverBar;}{X}}_{i}^{j}, j = 1,2,3 .

对7个位置向量(即 )进行比较后，可获得粒子的最优位置向量和全局最优位置向量，更新第i个粒子的最优位置向量和全局最优位置向量。

(6).起点训练样本集的每个样本都有自己的类别，可以计算每类样本所占的比例。

对于每个特征(不妨记为Y)，一个割点可以将起点训练样本集分成两个子集，因此可以计算该割点划分起点训练样本集的贡献值。计算特征Y每个割点的贡献值，选择具有最大贡献值的割点为特征Y的备选割点。在计算所有特征的备选割点后，选择具有最大贡献值的特征为分裂特征。

用分裂特征分割起始训练样本集，可以得到若干个训练样本子集。对分割后的每个训练样本子集，依上述方法递归地获得分裂特征，并进行再分割，直到每个所获得的训练样本子集的元素属于相同类为止。为方便叙述，属于相同类的训练样本子集称为终点样本子集。由此可见，终点样本子集不是唯一的。

将起点训练样本集到终点样本子集的每一条路径转换为一条标注规则。从起点样本集到终点样本子集的所有路径构成规则库。

输入一幅待标注的图像，利用分割算法对图像进行分割，得到多个分割子区域。对每个分割子区域分别提取它的颜色、纹理、形状共三种低层视觉特征后，用这三种低层视觉特征共同表示每个分割子区域，然后用上述过程所得到的特征子集来表示每个分割子区域，即将不属于特征子集的特征删除。得到每个分割子区域的新的低层视觉特征表示。

将所获得的每个分割子区域的低层视觉特征作为所生成规则库的输入，依照规则库的规则，可自动标注每个分割子区域。所有分割子区域的标注词集合就是待标注图像的语义。

基于上述方法，本发明实施例面向图像语义标注的规则库结构优化与生成系统主要包括：

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种面向图像语义标注的规则库结构优化与生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，利用生成的规则库对图像进行标注的步骤为：

将待标注的图像通过分割算法得到多个分割子区域；

3.根据权利要求1所述的方法，其特征在于，生成具有新的语义概念的所有类别的分割子区域集合的具体步骤为：

4.根据权利要求3所述的方法，其特征在于，前馈神经网络的输入为待过滤训练样本集，前馈神经网络的输出为词汇表。

5.根据权利要求4所述的方法，其特征在于，所述前馈神经网络为多层前馈神经网络。

6.一种面向图像语义标注的规则库结构优化与生成系统，其特征在于，该系统包括：