CN108595558B

CN108595558B - 一种数据均衡策略和多特征融合的图像标注方法

Info

Publication number: CN108595558B
Application number: CN201810324274.4A
Authority: CN
Inventors: 梁泉; 张毓峰; 田�健
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2022-03-15
Anticipated expiration: 2038-04-12
Also published as: CN108595558A

Abstract

本发明提供一种数据均衡策略和多特征融合的图像标注方法，包括：1、对训练图像进行语义分组；2、采用数据均衡策略对语义组进行扩充；3、将训练图像输入到训练好的深度卷积神经网络中，得到每个语义组中各图像的深度特征；4、计算每个语义组中各图像的多尺度融合特征；5、将多尺度融合特征与深度特征进行多特征融合，得到每个语义组中各图像的融合特征；6、提取待测试图像的浅层特征和深度特征，并进行特征融合，得到待测试图像的融合特征；7、计算待测试图像的融合特征与每个语义组中各图像的融合特征的视觉相似度并排序，得到图像标注结果，从而获得类别标签。本发明解决了针对训练集图像不平衡和单一特征特征表达能力不强的问题。

Description

一种数据均衡策略和多特征融合的图像标注方法

技术领域

本发明涉及模式识别与计算机视觉领域，尤其涉及一种数据均衡策略和多特征融合的图像标注方法。

背景技术

随着信息科学技术在计算机网络和多媒体领域的不断发展，各种高清摄像机，数码相机以及摄像头等电子成像产品得到广泛的使用和普及，极大的丰富了人们的工作、生活和学习。面对如此海量的图像信息，如何高效的组织和管理这些图像，使得人们可以在海量图像信息中快速准确的获取所需信息，是当今世界一个十分棘手的问题。图像的自动标注技术因其有着广泛的应用场景，所以也成为近年来在模式识别领域的一个重要研究方向。图像自动标注在很大程度上缓解了“语义鸿沟”所带来的人们的认知和机器理解之间的矛盾，大大推动了对图像语义信息的理解。图像自动标注的实现使得人们可以很好的掌握图像所蕴含的信息并且能够很方便的通过所描述的信息来获取自身所需的资源。同时，图像的自动标注是图像理解和图像检索的重要步骤。

近年来随着人工智能技术以及机器学习的快速发展，出现了多种图像自动标注模型。根据在建模方法上采用的不同思想，可以把图像自动标注模型大致分为两个类别。第一类图像自动标注模型是基于统计概率思想，第二类图像自动标注模型是基于分类思想。基于统计概率的方法主要是通过诸如图像的纹理、形状、颜色、边缘等底层视觉特征的提取，计算出其与某类或者某些关键词之间的相关性或联合概率，最后将概率最大或者关联程度最高的一个或者多个关键词作为该图的标注词。在基于分类思想的算法中，图像中的每一个类别或者说标签都是一个语义关键词，将图像的自动标注过程和图像的多分类做一个等价的转换。

传统分类器训练时数据非常不平衡,一部分标签出现次数多,训练充分；而另一部分标签出现次数少,训练不充分,导致低频标签准确率比高频标签准确率低很多，同时传统图像标注方法要么采用人工特征要么采用深度特征，不同方法需要提取不同特征，不仅难以应用于实际图像环境，特征的选取也完全依赖于专家经验，提取到的特征一般为浅层的特征，提取到的特征的不同对分类性能影响很大，甚至提取的特征的顺序也会影响最后的分类性能。深层特征提取能够降低特征选择对分类器的影响，但特征提取的可解释性较差，特征选择完全依赖于模型的选择，分类稳定性不佳。因此，我们提出了一种数据均衡策略和多特征融合的图像标注方法来改善图像标注的性能。

发明内容

本发明要解决的技术问题，在于提供一种数据均衡策略和多特征融合的图像标注方法，以克服现有技术中存在的缺陷，并解决针对训练图像集不平衡和单一特征特征表达能力不强的问题。

本发明的问题是这样实现的：

一种数据均衡策略和多特征融合的图像标注方法，包括如下步骤：

步骤S1、对训练图像进行语义分组，即将一个标签中所包含的所有图像作为一个语义组；

步骤S2、采用数据均衡策略对语义组进行扩充；

步骤S3、将训练图像输入到训练好的深度卷积神经网络中，通过卷积和下采样的多次迭代将训练图像抽象为特征向量，并得到每个语义组中各图像的深度特征；

步骤S4、计算每个语义组中各图像的多尺度融合特征；

步骤S5、将多尺度融合特征与由深度卷积神经网络计算得到的深度特征进行多特征融合，得到每个语义组中各图像的融合特征；

步骤S6、提取待测试图像的浅层特征和深度特征，并进行特征融合，得到待测试图像的融合特征；

步骤S7、计算待测试图像的融合特征与每个语义组中各图像的融合特征的视觉相似度并排序，得到图像标注结果，从而获得类别标签。

进一步地，在所述步骤S2中，采用数据均衡策略对语义组进行扩充，具体包括如下步骤：

步骤S21、计算数据集分类均衡数目

其中，count(s_j)(1≤j≤c)表示的是该语义组对应的图像集数目，c表示语义组的数量；

步骤S22、对于数据集而言，如果某个语义组或者某些语义组对应的图像集数目大于或者等于数据集分类均衡数目：

则不进行数据集扩充，跳转到步骤S28；如果某个语义组或者某些语义组对应的图像集数目小于数据集分类均衡数目：

则进行数据集扩充，并且扩充的大小为

进入步骤步骤S23；

步骤S23、计算不同语义组标注词的最大加权复合特征距离：

和最小加权复合特征距离：

并且保存最小加权复合特征距离对应的特征向量作为基准向量：X_min＝[x_min1,x_min2........x_minm]，得到图像特征的均衡步长α＝(x_min1+x_min2......+x_minm)/m；

步骤S24、产生高斯随机向量Y_i＝[y_i1,y_i2.......y_im]；

步骤S25、用式子X_e＝X_min+αe^βY_i和X_e＝[x_e1,x_e2......x_em]计算出一个与训练图像具有同样特征维数大小的向量X_e，其中，β表示碰撞因子；

步骤S26、利用式子：

计算当前加权复合特征距离

其中，d_i-ho表示的是多尺度下HOG特征的空间度量，计算公式为：

d_il-z表示的是LBP特征的空间度量，计算公式为：

参数μ和η分别表示不同特征度量下的调节因子；

步骤S27、如果

满足式子：

则将X_e合理的均衡样本：

加入该类图像的训练集合之中；如果

不满足式子：

则均衡样本不加入该类图像的训练集合之中；

步骤S28、对数据集中每个语义组重复上述步骤，当所有需要均衡的语义组的图像采用上述算法合理的扩充后，均衡算法结束。

进一步地，在所述步骤S4中，计算每个语义组中各图像的多尺度融合特征，具体包括如下步骤：

步骤S41、令分割后的图像区域集合为ψ(Z)＝{Z₁,Z₂...Z_n}，其中n为图像集中的元素个数，选择尺寸大小为w₁×w₂的提取窗口、b₁×b₂的提取块和c₁×c₂的提取单元；令窗口滑动步长大小为s₁×s₂；

步骤S42、定义变量i,j,k,s分别为图像集中的元素个数、多尺度下图像组数、多尺度下图像层数的遍历变量和多尺度下的窗口个数；对于每一组遍历变量利用式：s＝(((w₁-b₁)/s₁)+1)×(((w₂-b₂)/s₂)+1)×(b₁×b₂)/(c₁×c₂)计算出多尺度下的窗口个数s；

步骤S43、计算当前尺度下当前窗口内图像的局部特征向量：φ(Z_i-j-k-s-hog)；

步骤S44、计算该图像多尺度下的HOG特征向量：φ(Z_i-multi-hog)；

步骤S45、计算该图像的LBP纹理特征向量：φ(Z_i-lbp)；

步骤S46、计算该图像基于全局信息的HSV颜色特征向量：φ(Z_i-hsv)；

步骤S47、计算出该图像的多尺度特征向量：

φ(Z_k}＝{φ(Z_i-j-k-s-hog),φ(Z_i-multi-hog),φ(Z_i-lbp),φ(Z_i-hsv)}(1≤k≤n}。

本发明的优点在于：本发明通过数据均衡策略解决了传统分类器训练时数据非常不平衡,一部分标签出现次数多,训练充分；而另一部分标签出现次数少,训练不充分,导致低频标签准确率比高频标签准确率低很多和单一特征提取对于图像标注效果不佳的问题；通过采用多特征融合策略解决了采用人工特征时特征的选取也完全依赖于专家经验，提取到的特征一般为浅层的特征，表达能力不够，提取到的特征的不同对分类性能影响很大的问题和深层特征分类稳定性不佳的问题。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种数据均衡策略和多特征融合的图像标注方法的执行流程图。

具体实施方式

为使得本发明更明显易懂，现以一优选实施例，并配合附图作详细说明如下。

如图1所示，本发明的一种数据均衡策略和多特征融合的图像标注方法，该方法先采用数据均衡策略对图像训练的语义组进行扩充，并将其输入到训练好的深度卷积神经网络中，通过卷积和下采样的多次迭代将图像抽象为深度特征向量，并得到每个语义组图像的特征；然后计算每个语义组的多尺度融合特征；并将其与深度卷积神经网络计算得到的深度特征进行多特征融合；得到语义组的完整特征表示。将待标注的图像采用相同的方法提取特征同语义组中的特征库比对，得到图像标注结果，从而获得类别标签。具体包括如下步骤：

步骤S1、对训练图像进行语义分组(根据语义类别进行分组)，即将一个标签中所包含的所有图像作为一个语义组；

步骤S2、采用数据均衡策略对语义组进行扩充；该步骤具体如下：

步骤S21、计算数据集分类均衡数目

则进行数据集扩充，并且扩充的大小为

进入步骤步骤S23；

步骤S23、计算不同语义组标注词的最大加权复合特征距离：

和最小加权复合特征距离：

并且保存最小加权复合特征距离对应的特征向量作为基准向量：X_m ⁱ _n＝[x_min1,x_min2........x_minm]，得到图像特征的均衡步长α＝(x_min1+x_min2......+x_minm)/m；

步骤S24、产生高斯随机向量Y_i＝[y_i1,y_i2.......y_im]；本发明是使用Box-Muller算法产生高斯随机向量Y_i＝[y_i1,y_i2.......y_im]，本步骤的核心思想是先得到服从均匀分布的随机数，再将服从均匀分布的随机数转变为服从高斯分布，该算法能够在极短时间内产生所需的随机数；

步骤S25、用式子X_e＝X_min+αe^βY_i和X_e＝[x_e1,x_e2......x_em]计算出一个与训练图像具有同样特征维数大小的向量X_e，其中，β表示碰撞因子，其作用主要在于使得扩充的图像集具备合理性，因为我们期望的一个事实是扩充之后的图像所提取的特征在该类别的集合中不能产生较大的波动，若是大大超过或者远远小于该类别图像的特征度量标准(本文中采用的是加权复合特征距离)，那么可能会导致扩充之后的图像并不属于该类别，这样会直接导致机器学习上的混乱，不止没有提高分类的效果，反而会降低分类效果；X_e表示的是一个与训练图像具有同样特征维数大小的向量，例如本文中图像的多尺度融合特征的大小为m维，则该向量的大小也为m维；

步骤S26、利用式子：

计算当前加权复合特征距离

d_il-z表示的是LBP特征的空间度量，计算公式为：

参数μ和η分别表示不同特征度量下的调节因子；

步骤S27、如果

满足式子：

则将X_e合理的均衡样本：

加入该类图像的训练集合之中；如果

不满足式子：

则均衡样本不加入该类图像的训练集合之中；

步骤S28、对数据集中每个语义组重复上述步骤，当所有需要均衡的语义组的图像采用上述算法合理的扩充后，均衡算法结束；

步骤S4、计算每个语义组中各图像的多尺度融合特征；该步骤具体如下：

步骤S41、令分割后的图像区域集合为ψ(Z)＝{Z₁,Z₂...Z_n}，其中n为图像集中的元素个数，选择尺寸大小为w₁×w₂的提取窗口(window)、b₁×b₂的提取块(block)和c₁×c₂的提取单元(cell)；令窗口滑动步长(step)大小为s₁×s₂；

步骤S45、计算该图像的LBP纹理特征：φ(Z_i-lbp)，该LBP纹理特征和HOG特征向量提取方式的不同在于：此时的各个提取块block之间没有重叠；

步骤S47、计算出该图像的多尺度特征向量：

φ(Z_k}＝{φ(Z_i-j-k-s-hog),φ(Z_i-multi-hog),φ(Z_i-lbp),φ(Z_i-hsv)}(1≤k≤n}；

综上所述，本发明的优点如下：

本发明通过数据均衡策略解决了传统分类器训练时数据非常不平衡,一部分标签出现次数多,训练充分；而另一部分标签出现次数少,训练不充分,导致低频标签准确率比高频标签准确率低很多和单一特征提取对于图像标注效果不佳的问题；通过采用多特征融合策略解决了采用人工特征时特征的选取也完全依赖于专家经验，提取到的特征一般为浅层的特征，表达能力不够，提取到的特征的不同对分类性能影响很大的问题和深层特征分类稳定性不佳的问题。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。