CN111368917B

CN111368917B - 一种用于刑侦图像分类的多示例集成学习方法

Info

Publication number: CN111368917B
Application number: CN202010144660.2A
Authority: CN
Inventors: 李大湘; 李阳; 王小毓; 孟锐; 陈梦思
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-06-09
Anticipated expiration: 2040-03-04
Also published as: CN111368917A

Abstract

本发明涉及图像分类技术领域，公开了一种用于刑侦图像分类的多示例集成学习方法，包括：S1、多示例集成学习刑侦图像分类训练；S11、构造多示例包；S12、构造鉴别示例集；S13、鉴别特征提取；S14、构造用于极限学习机ELM的训练集与评估集；S15、训练基于极限学习机ELM的基分类器；S16、分类器自适应加权融合集成；S2、多示例集成学习刑侦图像分类应用测试；S21、计算待分类的刑侦图像的鉴别特征；S22、用集成分类器CE(IMG)对鉴别特征进行分类识别，本发明更能表达图像所包含的各种高层语义及相互关系，特别适合处理训练样本标注信息不完整、图像语义模糊与训练样本存在歧义等情况的模糊学习问题。

Description

一种用于刑侦图像分类的多示例集成学习方法

技术领域

本发明涉及图像分类技术领域，特别涉及一种用于刑侦图像分类的多示例集成学习方法。

背景技术

现勘与刑侦过程中的各种涉案图像资料已得到全面的采集与存档，且建立共享“刑侦图像库”(如：案发场景、鞋印图像、指纹图像、车轮压痕、作案工具、肇事车辆、犯罪物证等图像)，在案件侦破与法庭举证方面发挥了重要作用。但随着时间的推移，库中积累的图像数量越来越多，由于图像上传时缺乏规范的标注信息，则在案件侦破、串并案分析与法庭举证时，想要快速而准确地查找到相关图像，已变得效率低下，非常困难。则利用计算机按照人们理解的方式对刑侦图像进行自动分类，且按图像的语义及视觉信息，将库中所有图像分门别类、条理清晰的组织与管理起来，建立索引结构，以帮助警察能从库中快速查找图像，提高破案效率，是当前刑侦工作中急需解决的瓶颈问题。

近年来，随着刑侦图像数量的增长，刑侦图像分类作为图像语义分析领域一个特殊分支，在公安行业具有应用需求，则越来越受到国内外学者的关注。但因刑侦图像来源于刑事案件，具有较强的行业性与保密性，则专门针对刑侦图像分类的技术方案较少，已有技术根据它们所针对图像类型的不同，可分为二大类：

(1)单类型刑侦图像专用算法。例如：针对鞋印图像分类问题，文献[1]GAO C Y,WEI C H.Shoeprint retrieval:Core point alignment for pattern comparison[J].Science&Justice,2016,56(5):341-350提出一种基于核心点配准模式匹配的方法；针对指纹识别问题，文献[2]Medina M A,Moreno AM,Ballester M AF,et al..Latentfingerprint identification using deformable minutiae clustering[J].Neurocomputing,2016,175(1):851-865提出一种基于可变形细节聚类的方法；针对轮胎花纹分类问题，文献[3]LIU Y,YAN H,LIM K P.Study on rotation-invariant texturefeature extraction for tire pattern retrieval[J].Multidimensional Systems&Signal Processing,2015,21(2):21-24.提出一种基于Radon变换与小波变换的纹理特征提取方法。上述单类型刑侦图像分类与识别文献，一则其所针对的图像数量都比较少，二则只针对单一的刑侦图像子类来进行分类或识别。

(2)多类型刑侦图像通用算法。针对多种类型的现勘图像分类问题，文献[4]赵玉丹，王倩,范九伦，等.基于模糊KNN的刑侦图像场景分类[J].计算机应用研究,2014,31(10):3158-3164.使用分块的LBP算法和二级小波分解提取图像的纹理特征，然后结合模糊KNN分类理论对刑侦视频图像的场景进行分类的KNN方法；文献[5]李大湘,吴倩,邱金，刘颖..基于空间稀疏编码的MIL算法及刑侦图像分类[J]。电子科技大学学报.2019,48(1)：68-73.提出一种基于空间稀疏编码(SSC)的刑侦图像分类算法；文献[6]吴倩,李大湘,等.基于MKSVM的多示例学习算法及刑侦图像分类[J].电视技术,2017，41(11):59-63.提出一种基于多核支持向量机的刑侦图像分类算法；文献[7]刘颖，胡丹,范九伦，等.基于融合特征的现勘图像检索结果优化算法[J].电子学报,2019,47(2):296-301提出一种基于多特征融合的方法；文献[8]黄源.基于区域语义模板的刑侦图像检昇法研究[D],西安邮电大学，2015，硕士论文。提出一种基于语义模板的方法。这些方法都在相应的测试集，都具有一定的分类或检索精度。但上述刑侦图像分类方法，在图像语义表达与算法自适应能力方面没有得到充分考虑，分类结果与算法鲁棒性很难满足用户应用需求。

本发明已对刑侦图像库中的图像及相关分类方法展开过分析与研究，发现其显著特点是：在刑侦图像库中，带有语义标签的图像其标签也只分配给整个图像而非局部区域。曾采用支持向量机(SVM)等经典强监督机器学习方法进行刑侦图像分类实验，为了在图像底层特征与高层语义之间建立很好的联系，则都希望训练样本标记准确、数量充足且算法参数设置恰当。然而，对于现实中的刑侦图像库来说，一则很难提供大量的区域级标记样本用于训练分类器；二则给算法设置最优参数对普通用户来说也更具难度。所以，现有刑侦图像分类方法存在如下主要缺点：

(1)难于适应弱标签学习的问题。即刑侦图像库中带有明确语义标签的图像，其标注信息只是分配给整个图像，而没有标注到图像的局部区域。通常情况下，刑侦图像的兴趣对象只是图像中的局部区域，若要进行区域级手工训练样本标注费时费力，且易带来主观偏差，则导致SVM、卷积神经网络(CNN)等强监督学习方法不能直接用于现勘图像分类。

(2)算法自适应能力不强的问题。即在采用机器学习方法训练图像分类器时，算法参数对分类器的适应性、鲁棒性与精度影响很大，要想设置最优参数，对于非专业的普通用户来说颇具难度。所以，要增强算法的自适应能力，避免过多地依赖用户去设置算法参数。

针对刑侦图像分类应用需求及当前算法存在的缺点，提出用于刑侦图像分类的多示例集成学习方法。

发明内容

本发明提供一种用于刑侦图像分类的多示例集成学习方法，更能表达图像所包含的各种高层语义及相互关系，特别适合处理训练样本标注信息不完整、图像语义模糊与训练样本存在歧义等情况的模糊学习问题。

本发明提供了一种用于刑侦图像分类的多示例集成学习方法，包括以下步骤：

S1、多示例集成学习刑侦图像分类训练；

S11、构造多示例包

训练图像集T＝{(IMG_i,y_i):i＝1,2,...,N}，其中，IMG_i表示第i幅用于训练的刑侦图像，y_i表示第i个图像标记，N为训练图像的数量；

将训练图像集T中每一幅图像构造成一个多示例包，得到多示例数据集，记为：D＝{(B_i,y_i):i＝1,2,...,N}；

其中，B_i＝{X_i,j|j＝1,...,n_i}表示第i幅图像IMG_i对应的多示例包，n_i表示其被划分的块数，X_i,j表示包中的第j个示例，y_i表示第i个图像标记；

S12、构造鉴别示例集

基于多示例数据集D，得到鉴别示例集Ω，记为：Ω＝{w₁,w₂,...,w_K}，其中w_k表示第k个鉴别示例(k＝1,2,…,K)，K表示鉴别示例的总数；

S13、鉴别特征提取

基于多示例数据集D与鉴别示例集Ω，获得多示例数据集D中所有多示例包的鉴别特征E，记为：E＝{b₁,b₂,...,b_N}，其中b_i(i＝1,2,...,N)表示第i个多示例包的鉴别特征，N表示多示例包的总数；

S14、构造用于极限学习机ELM的训练集与评估集

按7:3的比例，将E中所有鉴别特征分成二部分，即训练集与评估集，分别记为：A和V；

S15、训练极限学习机ELM的基分类器；

S151、基于训练集A，训练具有m个隐含节点的极限学习机ELM的基分类器F_m(IMG)；

S152、利用评估集V,对基分类器F_m(IMG)进行测试，得到分类正确率CA_m；

S16、分类器自适应加权融合集成；

根据每个基分类器F_m(IMG)在评估集中的分类正确率CA_m，获得基分类器的权重值μ_m；根据基分类器F_m(IMG)和基分类器的权重值μ_m，获得集成分类器CE(IMG)＝sign(∑μ_m*F_m(IMG))；

S2、多示例集成学习刑侦图像分类应用测试；

S21、计算待分类的刑侦图像的鉴别特征；

S22、用集成分类器CE(IMG)对鉴别特征进行分类识别。

上述步骤S11中构造多事例包的方法具体包括以下步骤：

S111、采用“网格分块”的方法对刑侦图像进行由粗到精的多层自动分块，即块越分越小；

S112、提取每个分块的颜色、纹理和形状三种不同的底层视觉特征，且串联起来作为示例而将图像构造成多示例包。

上述步骤S111中的“网格分块”的具体步骤为：

采用均匀网格划分的方法，对图像IMG分成2^Level×2^Level个不同的小块，其中Level＝0:L-1，L为分块的层数；

提取每个小块的3种底层视觉特征，即颜色特征、纹理特征与形状特征，将颜色特征、纹理特征与形状特征串联起来作为示例添加到相应的多示例包B中；

获得图像IMG对应的多示例包B。

上述颜色特征为HSV颜色矩特征，纹理特征为小波纹理特征，形状特征为梯度方向直方图形状特征；

HSV颜色矩特征的提取方法为：设图像第j个分块Block_j的第i(i＝1,2,3)个颜色通道的像素记作{p_i,(t)|t＝1,2,...,N},像素的一阶均值与二阶方差颜色矩特征，定义如下：

其中M_i表示均值，S表示分块Block_j中像素的总数，得到分块Block_j的6维颜色矩特征，记为：

Cx_j＝[M₁,σ₁,M₂,σ₂,M₃,σ₃] (3)

所述小波纹理特征的提取方法为：

(1)将彩色图像转化为灰度图像；

(2)进行四层小波分解，可得到13个不同的子带系数；

(3)求分解后每个子带小波系数的均值和标准差，设小波分解后的子带为f_i'(x,y)(M×N),i＝1,2,…,13则：

(4)得到特征向量T：将各个子带小波系数的均值和标准差作为图像的纹理特征向量中的各个分量，则小波纹理特征向量为:

T＝[u₁,σ₁,u₂,σ₂,…u₁₃,σ₁₃] (6)

通过上述方法，对图像第j个分块Block_j可得到它的26维小波纹理特征，记为：

Tx_j＝{u_t,σ_t|t＝1,2,...,13}

其中，u_t,σ_t分别表示第t个子带系数的均值与方差；

梯度方向直方图形状特征的提取方法为：

首先，采用水平、垂直方向Sobel差分算子分别获得图像每个像素处的水平和垂直方向的梯度信息，设图像上的任意一点记为P(x,y)，则P位置处的梯度矢量为

其对应的模值和方向角分别为：

θ(x,y)＝arctan{d^(x)(x,y)/d^(y)(x,y)} (8)

其中，d^(x),d^(y)分别水平方向与垂直方向的差分，θ∈[0,2π),当d^(x)(x,y)＝0且d^(y)(x,y)≥0时,取θ＝π/2,当d^(x)(x,y)＝0且d^(y)(x,y)<0时,取θ＝-π/2；

为了克服“弱边缘”的影响，设置一个阈值β，只有当其模值大于β时，该位置处的方向角才参入直方图的统计；

为了计算梯度方向角直方图，首先，将梯度方向角θ的取值区间[0,2π)分成L等份，每份宽度为2π/L，记为A_j,j＝1,2,...,L；然后，统计每个图像分块中梯度方向角处于A_j内的像素点数，记为s(j)，且对其进行归一化处理，则可得：

其中j＝1,2,...,L.。通过上述方法，对图像第j个分块Block_j得到它的8维梯度方向角直方图形状特征，记为：

Sx_j＝{H(j)|j＝1,2,...,8} (10)

所述串联方法为：通过多尺度网格划分与三种特征提取，每幅图像都将被转化成一个多示例包，在该过程中，对于任意一幅图像IMG，设其被划分成m个块{R_j:j＝1,2,...,m}，则图像IMG所对应的多示例包记为：

B＝{X_j:j＝1,...,m} (11)

其中X_j表示第j个分块的颜色、纹理与形状特征串联而成的特征向量。

上述步骤S12中所述构造鉴别示例集的具体方法包括以下步骤：

构造“鉴别示例集”，作为稀疏编码SC的字典；

设训练集含有N⁺个正包与N^-个负包，其中

表示第i个正包/负包，/>

表示第i个正包/负包中的第j个示例，/>

表示第i个正包/负包中的第j个示例的第k个属性，则统统的DD函数定义为：

其中：

由于DD(X)是高阶非线性连续函数，存在多个局部大值点，则从所有正包中随机选择K个不同的搜索起点，分别采用梯度下降法可寻找DD(X)的K个局部极大值点，将它们作为字典，记为：

W＝[w₁,w₂,...,w_K] (14)

其中w_k表示根据DD(X)函数找到的第k个局部极大值点；

在MIL训练过程中，只要知道包B_i的标号，包中的示例X_i,j标号未知，根据MIL的定义，即一个包被标为“正”包，当且仅当包中至少存在一个示例是正的，否则此包被标为“负”包，由此可见，在示例空间中，肯定存在一些只能属于“正包”的特殊示例，它们不会出现在“负包”中，这些特殊示例通常能够反映所有正包公共的、本质的独特性质，具有很强的鉴别能力，故在把这些特殊示例称为“鉴别示例”；

为了在训练正包中把“鉴别示例”找出来，使用一个新的“独特性”衡量准则函数，以从训练集中的正包中挑选出K个“鉴别示例”而组成“鉴别示例集”，以多示例训练集D＝{(B_i,y_i):i＝1,2,...,N}为例，设X表示任意正包中的一个示例，定义它的“独特性”计算准则函数如下：

其中

对于正包y^*＝0,对于负包y^*＝1,/>

表示第i个包BC_i中离X最近的那个示例,/>

表示/>

与X.之间的欧氏距离；公式(12)的几何意义是：对于一个示例X，当每个正包都至少存在一直示例离它越近时，而所有负包中的所有示例都离它越远时，则X的“独特性”就越大，它就越应该被选出来作为“鉴别示例”；

根据上述定义的准则函数，从训练正包中挑选出K个“独特性”最大的示例而构造成“鉴别示例集”，相关步骤如下:

Step 1:将训练集中所有正包的所有示例排列在一起，记为InstSet＝{X_i|i＝1,...,Q.},其中Q为正包中示例总数；

Step 2:对于

用式(15)准则函数计算它的“独特性”；

Step 3:选择K个独特性最大的示例作为“鉴别示例”，添加到W中，称其为“鉴别示例集”。

上述步骤S13中所述鉴别特征提取的具体方法包括以下步骤：

基于经典的稀疏编码SC的“鉴别特征”提取；

设W＝[w₁,w₂,...,w_K]表示构造的“鉴别示例集”,以它作SC的字典，则经典的稀疏编码SC方法是：基于字典W，对于任意特征向量X，可使用正交匹配追踪算法求解式(16)优化问题，可得到其稀疏编码系数α∈R^K×1：

其中λ>0表示正则化参数，式(16)第一项是重构误差项，第二项是稀疏约束项，这里选用L₁范数，使得大部分编码系数为0，以产生稀疏性；

按局部约束编码理论：局部性必须导致稀疏性，反之并非如此，则在信号编码时局部性比稀疏性更加重要；所以，在传统稀疏编码目标函数式(16)中，引入距离加权，以形成局部约束而实现更好的稀疏编码；具体方法如下：

首先，基于待编码特征向量X与字典W中所有码元之间的欧氏距离，定义一个加权矩阵R，即：

R＝diag(||X-w₁||,||X-w₂||,...,||X-w_K||) (17)

其中||X-w_k||>0表示X与w_k之间的欧氏距离，则在传统的稀疏编码方法中引入加权矩阵R，式(16)目标改写成如下形式：

其中λ||Rα||₁表示正则化项，它不但能够考虑编码系数α的稀疏性，还能够考虑X到字典所有码元之间的欧氏距离，其物理意义就是：在字典W中寻找与X距离更近的码元，来对X进行重构；

基于上述原理，则提取多示例包的“鉴别特征”的具体方法是是：设B_i＝{X_i,j|j＝1,...,n_i}为任意多示例包，对于包中的每一个示例X_i,j(j＝1,2,..,n_i)，基于字典W，求解式(18)的优化问题，得到其稀疏编码系数α_j∈R^K×1，且将这些稀疏编码按列排在一起，记为：

其中SC_i中的每一列表示一个示例的稀疏编码系数，最后，对SC_i中的数据进行最大池化处理，即在所有编码系数的各个维度上取“最大值”，也就相当于在SC_i的每一行分别取大值，从而得到B_i的“鉴别特征”，记为b_i：

b_i＝max(SC_i)＝[α′_i1,α′_i2,...,α′_iK]^T (20)

其中：α′_ik(k＝1,2,...,K)表示SC_i中第k行的最大池化处理结果。

上述步骤S16中基分类器的权重值α_m的计算具体过程为：

设F_i(Img)是第i个ELM基分类器，采用如下动态的方法为其分配权值μ_m：

其中C表示ELM基分类器的数量，CA_m(m＝1,2,...,C)是第m个基分类器基于评估集中的分类正确率，最后，多示例集成的分类器为：

其中F_m(Img)与μ_m分别表示第m个分类器及其权重。

与现有技术相比，本发明的有益效果在于：

(1)本发明与传统的有监督单示例学习框架不同，本发明的训练样本称为包(bag)，每个包中含有数量不等的示例(instance),所以，包中的多个示例比起单个示例来说，更能表达图像所包含的各种高层语义及相互关系。

(2)在训练过程中，只要知道包(图像)的标号，包中的示例(局部区域)标号未知，本发明为一种优秀的弱标签学习框架，特别适合处理训练样本标注信息不完整、图像语义模糊与训练样本存在歧义等情况的模糊学习问题。

附图说明

图1为本发明的流程示意图。

图2为本发明实施例中多尺度网格划分多示例包构造示意图。

图3为本发明实施例中极限学习机的网络训练模型。

具体实施方式

下面结合附图1-3，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

如图1所示，本发明设计的多示例集成学习刑侦图像分类方法，其详细步骤总结如下：

1.多示例集成学习刑侦图像分类训练环节：

输入:训练图像修集T＝{(IMG_i,y_i):i＝1,2,...,N}；

输出:多示例集成分类器CE(IMG)；

第1步:构造多示例包

采用“多示例包构造模块”所述方法，将T中每一幅图像构造成一个多示例包，得到多示例数据集，记为：D＝{(B_i,y_i):i＝1,2,...,N}。

第2步:构造鉴别示例集

基于于D，利用“鉴别示例集构造模块”所述方法，得到鉴别示例集，记为：Ω＝{w₁,w₂,...,w_K}，其中w_k表示第k个鉴别示例(k＝1,2,…,K)，K表示鉴别示例的总数；

第3步:鉴别特征提取

基于D与Ω，利用“鉴别编码提取模块”所述方法，计算D中所有多示例包的“鉴别特征”，记为：E＝{b₁,b₂,...,b_N}其中b_i(i＝1,2,...,N)表示第i个多示例包的鉴别特征，N表示多示例包的总数；

第4步:构造用于ELM的训练集与评估集:

第5步:训练ELM基分类器:

For M＝500:100:2000

(1)基于训练集A，训练具有M个隐含节点的ELM基分类器F_m(IMG)；

(2)利用评估集V,对F_m(IMG)进行测试，得到分类正确率CA_m；

End for

第6步:分类器自适应加权融合集成:

根据每个基分类F_m(IMG)在评估集中的分类正确率CA_m，利用“性能自适应加权”所述技术方案，计算其权值μ_m；然后，获得集成分类器CE(IMG)＝sign(∑μ_m*F_m(IMG)).

2.多示例集成学习刑侦图像分类应用测试环节：

设IMG表示任意一幅待分类的刑侦图像.首先,采用上述相同方法计算它的鉴别特征，然后，用集成分类器CE(IMG)对它进行分类识别。

本发明总体技术方案由以下“模块”组成：

1、输入模块：训练图像集T＝{(I_i,y_i):i＝1,2,...,N}，鉴别示例的个数K；

2、多示例包构造模块

对T中的每一幅图像I_i，将其构造成一个多示例包，从而将刑侦图像分类问题转化成MIL问题；

3、鉴别特征提取模块

首先，新设计了一个“独特性”准则函数，用它从多示例训练包中挑选出K个“独特性”最大的示例，构建成一个“鉴别示例集”W；然后，基于“稀疏编码技术”，设计了一个“鉴别特征”提取方案，以将每个多示例包转化成单个表征向量。

4、基于极限学习机的多示例集成学习模块

基于极限学习机方法，新设计一个自适应加权多示例集成学习技术方案，用于训练刑侦图像分类器CE(Img)。

5、输出模块：分类器CE(Img)，用于刑侦图像分类；

多包多示例建模模块具体方法

因为在基于多示例学习(MIl)的刑侦图像分类框架中，它的训练样本称之为包(Bag)，则本发明设计了一种基于“多尺度网格分块”的多包多示例建模方案。首先，采用“网格分块”的方法对刑侦图像进行由粗到精的多层自动分块，即块越分越小；然后，提取每个分块的颜色、纹理、形状等3种不同的底层视觉特征，且串联起来作为示例而将图像构造成多示例包，从而将刑侦图像分类问题转化成MIL问题。“多尺度网格分块”构造多示例包的具体步骤，如下：

输入：图像IMG；

输出：多示例包B；

初始化：将B设置为空集；分块的层数L＝3。

Step1：For Level＝0:L-1

采用均匀网格划分的方法，对图像IMG分成2^Level×2^Level个不同的小块；

提取每个小块的3种底层视觉特征，即颜色特征、纹理特征与形状特征，k串联起来作为示例添加到相应的多示例包B中；

End Level

Step2：图像多示例建模结束，输出图像IMG对应的多示例包B。

如图2所示，是一个3层网络分块的多示例包构造示意图，第1层是原图像，第2层对该图像进行了2×2分块，而第3层则对该像进行4×4分块，一共得到了21个图像分块。此方案简单高效，且普适性与鲁棒性很强，能克服传统的基于图像分割多示例包构造过程中存在的运算量大、鲁棒性弱等问题。

在上述多包多示例建模过程中，将图像划分不同的小块之后，要提取每个小块3种不同的底层视觉特征，这3种特征及其具体提取提取方法分别是：

1、HSV颜色矩特征：

在图像的颜色特征表示方法中，颜色矩是一种简洁而清楚的特征描述方法，其依据是：颜色矩能描述图像或区域内的颜色分布状况。由于颜色分布特点都是集中于低阶矩中，即对于三个颜色分量，在每个分量上用一阶、二阶等这类低次矩就能很好地描述图像的颜色分布信息。

要合理地描述图像的颜色特征，关键问题是选择恰当的颜色空间，常用的颜色空间有：RGB颜色空间与HSV颜色空间。由于HSV模型是一种能够用感觉器官直接感受到的空间模型，它的依据是人眼的视觉原理，它表示了彩色的直观特性，并且H(色调)、S(饱和度)与V(亮度)三者相互独立，因此，本发明选择在HSV颜色空间计算颜色矩特征。

设图像第j个分块Block_j的第i(i＝1,2,3)个颜色通道的像素记作{p_i,(t)|t＝1,2,...,S},则一阶(均值)与二阶(方差)颜色矩特征，定义如下：

/>

其中M_i表示均值，S表示分块Block_j中像素的总数。这样，可得到分块Block_j的6维颜色矩特征，记为：

Cx_j＝[M₁,σ₁,M₂,σ₂,M₃,σ₃](3)

2、小波纹理特征：

对于二维图像信号，可以分别在水平方向和垂直方向进行滤波的方法实现二维小波多分辨率塔式分解。在每个层次上，二维的信号被分解为四个子波段，根据频率特征分别称为LL、LH、HL和HH。最后，基于小波变换的纹理特征提取算法步骤，总结如下^]：

(1)将彩色图像转化为灰度图像；

(2)进行四层小波分解，可得到13个不同的子带系数；

(3)求分解后每个子带小波系数的均值和标准差。设小波分解后的子带为f_i'(x,y)(M×N),i＝1,2,…,13则：

T＝[u₁,σ₁,u₂,σ₂,…u₁₃,σ₁₃] (6)

Tx_j＝{u_t,σ_t|t＝1,2,...,13}

其中，u_t,σ_t分别表示第t个子带系数的均值与方差。

3、梯度方向直方图形状特征：

梯度方向角直方图能表示图像的结构特征，其主要计算方法如下：

其对应的模值和方向角分别为：

θ(x,y)＝arctan{d^(x)(x,y)/d^(y)(x,y)} (8)

其中，d^(x),d^(y)分别水平方向与垂直方向的差分，θ∈[0,2π),当d^(x)(x,y)＝0且d^(y)(x,y)≥0时,取θ＝π/2,当d^(x)(x,y)＝0且d^(y)(x,y)<0时,取θ＝-π/2。

为了克服“弱边缘”的影响，设置一个阈值β，只有当其模值大于β(后续实验中取β＝50)时，该位置处的方向角才参入直方图的统计。

为了计算梯度方向角直方图，首先，将梯度方向角θ的取值区间[0,2π)分成L(后续实验中取L＝8)等份，每份宽度为2π/L，记为A_j,j＝1,2,...,L；然后，统计每个图像分块中梯度方向角处于A_j内的像素点数，记为s(j)，且对其进行归一化处理，则可得：

其中j＝1,2,...,L.。通过上述方法，对图像第j个分块Block_j可得到它的8维梯度方向角直方图形状特征，记为：

Sx_j＝{H(j)|j＝1,2,...,8}(10)

总之，通过上述多尺度网格划分与三种特征提取，每幅图像都将被转化成一个多示例包。在该过程中，对于任意一幅图像IMG，设其被划分成m个块{R_j:j＝1,2,...,m}，则图像IMG所对应的多示例包记为：

B＝{X_j:j＝1,...,m} (11)

较之传统基于“图像分割”的多示例建模方案，此方案优点有：(1)简单高效，且普适性与鲁棒性更强，能够从不同的分辨率获取图像的局部信息；(2)能克服传统的基于图像分割多示例包构造过程中存在的运算量大、鲁棒性弱等问题。

基于稀疏编码的“鉴别特征”提取模块具体方法

本发明对“稀疏编码(sparse coding,SC)”方法进行改进，设计了一种称之为“鉴别特征”提取的技术方案，用于将每幅图像所对应的多示例包转化成一个“表征向量”由此将多示例包转化成单个特征向量，从而能用后续标准的有监督学习方法对MIL进行求解；

设T＝{(I_i,y_i):i＝1,2,...,N}表示刑侦图像分类的训练图像集，N为训练图像的数量，y_i∈{-1，+1}表示图像标记。采用上述多示例包构造模块所述方法，每幅图像将被构造成一个多示例包，则所有图像的多示包组成的数据集记为：

D＝{(B_i,y_i):i＝1,2,...,N}

其中B_i＝{X_i,j|j＝1,...,n_i}表示第i幅图像I_i对应的多示例包，n_i表示其被划分的块数，X_i,j表示包中的第j个示例(即由颜色矩、小波纹理与形状特征串联而成的特征向量)。

本发明设计的“鉴别特征”提取技术方案，其主要过程包括如下2大步骤，即：

第一大步骤：构造“鉴别示例集”，作为SC的字典

构造字典的传统方法有：(1)基于K-Means聚类的方法。即对D中所有包中的所有示例进行聚类，称由所有聚类中心组成的集合为字典；(2)基于多样性密度函数(DD)的方法。本发明人为了将MIL与SC相结合，以前公开过一种基于多样性密度(Diverse Density,DD)函数的字典构造方法具体是：

在MIL问题中，设训练集含有N⁺个正包与N^-个负包，其中

表示第i个正包(负包)，/>

表示第i个正包(负包)中的第j个示例，/>

表示第i个正包(负包)中的第j个示例的第k个属性。则DD函数定义为：

其中：

W＝[w₁,w₂,...,w_K] (14)

其中w_i表示根据DD(X)函数找到的第i个局部极大值点。应用实验中发现此方法存在一些问题，即要用梯度下降法搜索DD函数的极值点，速度较慢；并且因为K个搜索起点是随机选择的，导致最终得到的字典W具有不稳定性，从而影响整个分类算法的可靠性。

本发明新设计了一个新的“独特性”计算准则函数，用于从多示例训练正包挑选出一些“鉴别示例”而构造成SC的字典。具体思路与方案如下：

在MIL训练过程中，只要知道包(图像)B_i的标号，包中的示例X_i,j标号未知，根据MIL的定义，即一个包被标为“正”包，当且仅当包中至少存在一个示例是正的，否则此包被标为“负”包(即负包中的所有示例都必须是负的)。由此可见，在示例空间中，肯定存在一些只能属于“正包”的特殊示例，它们不会出现在“负包”中。这些特殊示例通常能够反映所有正包公共的、本质的独特性质，具有很强的鉴别能力，故在本发明中把这些特殊示例称为“鉴别示例”。

本发明为了在训练正包中把些“鉴别示例”找出来，设计了一个新的“独特性”衡量准则函数，以从训练集中的正包中挑选出K个“鉴别示例”而组成“鉴别示例集”。以多示例训练集D＝{(B_i,y_i):i＝1,2,...,N}为例，设X表示任意正包中的一个示例，定义它的“独特性”计算准则函数如下：

其中

(即对于正包y^*＝0,对于负包y^*＝1),/>

表示第i个包BC_i中离X最近的那个示例,/>

表示/>

与X.之间的欧氏距离。公式(12)的几何意义是：对于一个示例X，当每个正包都至少存在一直示例离它越近时，而所有负包中的所有示例都离它越远时，则X的“独特性”就越大，它就越应该被选出来作为“鉴别示例”。

根据上述定义的准则函数，本发明从训练正包中挑选出K个“独特性”最大的示例而构造成“鉴别示例集”，相关步骤如下:

构造鉴别示例集的技术方案

输入：训练包:D＝{(B_i,y_i):i＝1,2,...,N}；.

输出:鉴别示例集W；

初始化：设置W为空集；鉴别示例个数K＝1024(已通过实验验证K＝1024时性能最佳)

Step 1:将训练集中所有正包的所有示例排列在一起，记为InstSet＝{X_i|i＝1,...,Q.},其中Q正包中示例总数.

Step 2:对于

用式(15)准则函数计算它的“独特性”；

Step 3:选择K个独特性最大的示例作为“鉴别示例”，添加到W中，称其为“鉴别示例集”.

Step 4:返回W，构造完成。

第二大步骤：基于SC的“鉴别特征”提取

设W＝[w₁,w₂,...,w_K]表示构造的“鉴别示例集”,以它作SC的字典。则经典的稀疏编码(SC)方法是：基于字典W，对于任意特征向量X，可使用正交匹配追踪算法(OrthogonalMatching Pursuit，OMP)求解式(16)优化问题，可得到其稀疏编码系数α∈R^K×1：

其中λ>0表示正则化参数，式(16)第一项是重构误差项，第二项是稀疏约束项，这里选用L₁范数，使得大部分编码系数为0，以产生稀疏性。

按局部约束编码理论：局部性必须导致稀疏性，反之并非如此，则在信号编码时局部性比稀疏性更加重要。所以，本发明在传统稀疏编码目标函数式(16)中，引入距离加权，以形成局部约束而实现更好的稀疏编码。具体方法如下：

R＝diag(||X-w₁||,||X-w₂||,...,||X-w_K||) (17)

其中||X-w_k||>0表示X与w_k之间的欧氏距离。则本发明在传统的稀疏编码方法中引入加权矩阵R，式(16)目标改写成如下形式：

其中λ||Rα||₁表示正则化项，它不但能够考虑编码系数α的稀疏性，还能够考虑X到字典所有码元之间的欧氏距离，其物理意义就是：在字典W中寻找与X距离更近的码元，来对X进行重构。

基于上述原理，则提取多示例包的“鉴别特征”的具体方法是是：设B_i＝{X_i,j|j＝1,...,n_i}为任意多示例包，对于包中的每一个示例X_i,j(j＝1,2,..,n_i)，基于字典W，求解式(18)的优化问题，得到其稀疏编码系数

且将这些稀疏编码按列排在一起，记为：/>

其中SC_i中的每一列表示一个示例的稀疏编码系数。最后，对SC_i中的数据进行最大池化(max pooling)处理，即在所有编码系数的各个维度上取“最大值”，也就相当于在SC_i的每一行分别取大值，从而得到B_i的“鉴别特征”，记为b_i：

b_i＝max(SC_i)＝[α′_i1,α′_i2,...,α′_iK]^T (20)

基于极限学习机(ELM)的多示例集成学习模块

极限学习机(Extreme Learning Machine,ELM)是一种简单易用、有效的单隐层前馈神经网络SLFNs学习算法。2004年由南洋理工大学黄广斌副教授提出。传统的神经网络学习算法(如BP算法)需要人为设置大量的网络训练参数，并且很容易产生局部最优解。极限学习机只需要设置网络的隐层节点个数，在算法执行过程中不需要调整网络的输入权值以及隐元的偏置，并且产生唯一的最优解，因此具有学习速度快且泛化性能好的优点。所以，在本发明中，当通过上述方法将多示例转化成单个样本之后，则基于ELM，设计一种称之为“极限学习机集成的多示例学习算法”，即ELM

ELM基本原理

极限学习机的网络训练模型采用前向单隐层结构。设m,M,n分别为网络输入层、隐含层和输出层的节点数，g(x)是隐层神经元的激活函数，b_i为阈值。设有N个不同样本(x_i,t_i)，1≤i≤N，其中x_i＝[x_i1,x_i2,...,x_im]^T∈R^m，t_i＝[t_i1,t_i2,...,t_in]^T∈Rⁿ，则极限学习机的网络训练模型如图3所示。

极限学习机的网络模型用数学表达式表示如下：

上式中，ω_i＝[ω_1i,ω_2i,...,ω_mi]表示连接网络输入层节点与第i个隐层节点的输入权值向量；β_i＝[β_i1,β_i2,...,β_in]^T表示连接第i个隐层节点与网络输出层节点的输出权值向量；o_i＝[o_i1,o_i2,...,o_in]^T表示网络输出值。

极限学习机的代价函数E表示为

式中，s＝(ω_i,b_i,i＝1,2,...,M)，包含了网络输入权值及隐层节点阈值。极限学习机的悬链目标就是寻求最优的S，β，使得网络输出值与对应实际值误差最小，即min(E(S,β))，进一步写为：

式中，H表示网络关于样本的隐层输出矩阵，β表示输出权值矩阵，T表示样本集的目标值矩阵，H，β，T分别定义如下：

极限学习机的网络训练过程可归结为一个非线性优化问题。当网络隐层节点的激活函数无限可微时，网络的输入权值和隐层节点阈值可随机赋值，此时矩阵H为一常数矩阵，极限学习机的学习过程可等价为求取线性系统Hβ＝T最小范数的最小二乘解

其计算式为:

式中H⁺是矩阵H的MP广义逆，这样以来，对于任意待识别的图像Img，

F(Img)＝φ(B_i)H⁺T (29)

基于ELM的多示例集成学习算法及步骤

在“极限学习”过程中，隐含节点的数量M对于算法识别精度有较大影响，对普通用户来说要寻找到最优参数M，则颇具难度。本发明的基于ELM的多示例集成学习思路是：通过大范围地设置不同参数M,应用中具体设置方法是：M以500为初值，步长为100，最大值为2000，分别训练16个具有相应隐含节点数的ELM分类器，作为基分类器；然后用后述“性能自适应加权”的方法来对这些基分类器进行融合集成，得到最终的多示例集成分类器，避免让用户盲目去设置参数M，导致算法性能的波动与不稳定，从而提高算法的自适应性与鲁棒性，增强分类器的泛化能力，实验中验证其具有很好的分类精度。

性能自适应加权具体技术方案是：

其中C表示ELM基分类器的数量，CA_m(m＝1,2,...,C)是第m个基分类器基于评估集中的分类正确率。最后，多示例集成的分类器为：

其中F_m(Img)与μ_m分别表示第m个分类器及其权重。

针对当前刑侦图像分类所面临的“弱标签学习“及”算法自适应能力不强“等问题。本发明设计了一套”多示例集成学习“技术方案，本发明将整个图像当作包(bag)，局部区域的视觉特征当作包中的示例(instance)，如果图像涉及到某个指定语义，则该图像所对应的包标为正包，否则标为负包，在多示例学习(multi-instance learning,MIL)的框架下，设计了多示例包构造、鉴别示例集构造、鉴别特征计算与集成学习等模块及技术方案，用于刑侦图像分类。其优势如下：

(1)MIL与传统的有监督单示例学习框架不同，它的训练样本称为包(bag)，每个包中含有数量不等的示例(instance),所以，包中的多个示例比起单个示例来说，更能表达图像所包含的各种高层语义及相互关系。

(2)在MIL训练过程中，只要知道包(图像)的标号，包中的示例(局部区域)标号未知，实则MIL为一种优秀的弱标签学习框架，特别适合处理训练样本标注信息不完整、图像语义模糊与训练样本存在歧义等情况的模糊学习问题。

(3)设计“鉴别特征”提取技术方案，它更能对刑侦图像所包含的语义概念进行表征；然后，又设计了基于ELM的多示例集成学习算法，它能传统分类算法中“参数设置困难”等问题，增强了整个算法的自适应能力与分类精度，降低用户使用本技术方案的难度。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种用于刑侦图像分类的多示例集成学习方法，其特征在于，包括以下步骤：

S1、多示例集成学习刑侦图像分类训练；

S11、构造多示例包

将训练图像集T中每一幅图像构造成一个多示例包，得到多示例数据集，记为：D＝{(B_i,y_i):i＝1,2,...,N}，其中，B_i＝{X_i,j|j＝1,...,n_i}表示第i幅图像IMG_i对应的多示例包，n_i表示其被划分的块数，X_i,j表示包中的第j个示例，y_i表示第i个图像标记；

S12、构造鉴别示例集

S13、鉴别特征提取

S14、构造用于极限学习机ELM的训练集与评估集

S15、训练极限学习机ELM的基分类器；

S16、分类器自适应加权融合集成；

S2、多示例集成学习刑侦图像分类应用测试；

S21、计算待分类的刑侦图像的鉴别特征；

S22、用集成分类器CE(IMG)对鉴别特征进行分类识别；

所述步骤S11中构造多事例包的方法具体包括以下步骤：

S112、提取每个分块的颜色、纹理和形状三种不同的底层视觉特征，且串联起来作为示例而将图像构造成多示例包；

所述步骤S111中的“网格分块”的具体步骤为：

获得图像IMG对应的多示例包B；

所述颜色特征为HSV颜色矩特征，纹理特征为小波纹理特征，形状特征为梯度方向直方图形状特征；

Cx_j＝[M₁,σ₁,M₂,σ₂,M₃,σ₃] (3)

所述小波纹理特征的提取方法为：

(1)将彩色图像转化为灰度图像；

(2)进行四层小波分解，可得到13个不同的子带系数；

T＝[u₁,σ₁,u₂,σ₂,…u₁₃,σ₁₃] (6)

通过上述方法，对图像第j个分块Block_j可得到它的26维小波纹理特征，记为：Tx_j＝{u_t,σ_t|t＝1,2,...,13},其中，u_t,σ_t分别表示第t个子带系数的均值与方差；

梯度方向直方图形状特征的提取方法为：

其对应的模值和方向角分别为：

θ(x,y)＝arctan{d^(x)(x,y)/d^(y)(x,y)} (8)

其中，d^(x),d^(y)分别水平方向与垂直方向的差分，θ∈[0,2π),当d^(x)(x,y)＝0且d^(y)(x,y)≥0时,取θ＝π/2,当d^(x)(x,y)＝0且d^(y)(x,y)＜0时,取θ＝-π/2；

其中j＝1,2,…,L，通过上述方法，对图像第j个分块Block_j得到它的8维梯度方向角直方图形状特征，记为：

Sx_j＝{H(j)|j＝1,2,...,8} (10)

串联方法为：通过多尺度网格划分与三种特征提取，每幅图像都将被转化成一个多示例包，在该过程中，对于任意一幅图像IMG，设其被划分成m个块{R_j:j＝1,2,...,m}，则图像IMG所对应的多示例包记为：

B＝{X_j:j＝1,...,m}` (11)

其中X_j表示第j个分块的颜色、纹理与形状特征串联而成的特征向量；

所述步骤S12中所述构造鉴别示例集的具体方法包括以下步骤：

构造“鉴别示例集”，作为稀疏编码SC的字典；

设训练集含有N⁺个正包与N-个负包，其中

表示第i个正包/负包，/>

表示第i个正包/负包中的第j个示例，/>

其中：

W＝[w₁,w₂,...,w_K] (14)

其中w_k表示根据DD(X)函数找到的第k个局部极大值点；

其中

对于正包y^*＝0,对于负包y^*＝1,/>

表示第i个包BC_i中离X最近的那个示例,/>

表示/>

Step 2:对于

用式(15)准则函数计算它的“独特性”；

Step 3:选择K个独特性最大的示例作为“鉴别示例”，添加到W中，称其为“鉴别示例集”；

所述步骤S13中所述鉴别特征提取的具体方法包括以下步骤：

基于经典的稀疏编码SC的“鉴别特征”提取；

其中λ＞0表示正则化参数，式(16)第一项是重构误差项，第二项是稀疏约束项，这里选用L₁范数，使得大部分编码系数为0，以产生稀疏性；

R＝diag(||X-w₁||,||X-w₂||,...,||X-w_K||) (17)

其中||X-w_k||＞0表示X与w_k之间的欧氏距离，则在传统的稀疏编码方法中引入加权矩阵R，式(16)目标改写成如下形式：

基于上述原理，则提取多示例包的“鉴别特征”的具体方法是：设B_i＝{X_i,j|j＝1,...,n_i}为任意多示例包，对于包中的每一个示例X_i,j(j＝1,2,..,n_i)，基于字典W，求解式(18)的优化问题，得到其稀疏编码系数α_j∈R^K×1，且将这些稀疏编码按列排在一起，记为：

b_i＝max(SC_i)＝[α′_i1,α′_i2,...,α′_iK]^T (20)

2.如权利要求1所述的用于刑侦图像分类的多示例集成学习方法，其特征在于，所述步骤S16中基分类器的权重值α_m计算的具体过程为：

其中，C表示ELM基分类器的数量，CA_m(m＝1,2,...,C)是第m个基分类器基于评估集中的分类正确率；最后，多示例集成的分类器为：

其中，F_m(Img)与μ_m分别表示第m个分类器及其权重。