CN111783896A - 一种基于核方法的图像识别方法及系统 - Google Patents
一种基于核方法的图像识别方法及系统 Download PDFInfo
- Publication number
- CN111783896A CN111783896A CN202010649144.5A CN202010649144A CN111783896A CN 111783896 A CN111783896 A CN 111783896A CN 202010649144 A CN202010649144 A CN 202010649144A CN 111783896 A CN111783896 A CN 111783896A
- Authority
- CN
- China
- Prior art keywords
- image
- skin color
- kernel
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像识别的技术领域,揭露了一种基于核方法的图像识别方法,包括:利用椭圆肤色模型生成待识别图像的肤色概率图;从肤色概率图中分别提取图像的LBP特征、颜色特征以及HOG特征;利用基于多核的相似性度量模型对图像特征进行相似性识别;在进行相似性识别的过程中实时进行图像特征选择;利用SVMLR分类器进行多图像特征融合;根据上述特征融合结果,使用核Softmax回归进行图像的分类识别。本发明还提出一种基于核方法的图像识别系统。本发明实现了图像的识别。
Description
技术领域
本发明涉及图像识别的技术领域,尤其涉及一种基于核方法的图像识别方法及系统。
背景技术
图像识别在现代社会生活中正发挥着越来越重要的作用,而特征表达和特征建模(分类器模型设计)是图像识别中的核心任务。由于目标本身及背景的模式复杂性,再加上拍摄环境、光照、遮挡等因素的影响,物体在图像中往往呈现比较复杂的表观,单一特征和简单识别模型常常无法很好地对图像中的物体进行准确刻画,从而经常导致较低的识别率。
图像特征表达是影响图像识别成功与否的关键技术,但现有图像特征提取技术存在如下问题:1.即便一个广泛认同的特征也很难适用于所有问题,对于一个比较陌生的识别任务,通常需要通过实验来验证到底哪些特征有效、哪些无效、哪些最适合,必要时还需开发新特征,这需要花费研究者来们大量的精力和时间;2.由于背景、光照、拍摄角度和距离等众多因素的影响,相同物体在图像中往往呈现比较复杂多变的表观,单一的特征描述常常无法很好地对图像中的物体进行准确地刻画。
针对单一特征描述无法准确刻画图像中物体的问题,现有技术采用了一种基于线性多核法的特征融合方法进行特征融合,所述基于线性多核法的特征融合方法本质上是对各个核所诱导的特征进行尺度变换并在维度方向上进行拼接,这属于一种底层特征融合技术,所得特征比较原始,可能存在较大的信息冗余,需要通过后续的模型学习从中挖掘有效信息和摒弃冗余信息,因此对模型设计和模型优化技术的要求较高。
鉴于此,如何获取图像的有效特征,并根据所获取的图像特征进行图像相似性度量以及图像分类识别,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种基于核方法的图像识别方法,利用多核相似性度量方法进行图像相似性度量,并利用SVMLR分类器进行多图像特征融合,根据所融合的特征,使用核Softmax回归实现图像的分类识别。
为实现上述目的,本发明提供的一种基于核方法的图像识别方法,包括:
利用椭圆肤色模型生成待识别图像的肤色概率图;
从肤色概率图中分别提取图像的LBP特征、颜色特征以及HOG特征;
利用基于多核的相似性度量模型对图像特征进行相似性识别;
在进行相似性识别的过程中实时进行图像特征选择;
利用SVMLR分类器进行多图像特征融合;
根据上述特征融合结果,使用核Softmax回归进行图像的分类识别。
可选地,所述利用椭圆肤色模型生成肤色概率图,包括:
所述椭圆肤色模型为:
U={(x,y);dist(x,y)≤τ,x∈D(Cb),y∈D(Cr)}
其中:
D(Cb)×D(Cr)为光照矫正后的(Cb,Cr)色度空间;
(x,y)为像素点矫正后的Cb色度和Cr色度;
cx,cy,ecx,ecy,a,b,θ,τ为椭圆肤色模型参数,本发明分别设为cx=0.3,cy=0.15,ecx=ecy=0.45,a=b=1,θ=0.5,τ=0.8;
根据上述椭圆肤色模型,本发明计算待识别图像的肤色概率图Γ,所述肤色概率图的计算公式为:
其中:
x(i,j)为像素点(i,j)矫正后的Cb色度;
y(i,j)为像素点(i,j)矫正后的Cr色度;
γ为超参数,本发明将其设置为1.2。
可选地,所述从肤色概率图中提取图像的LBP特征、颜色特征以及HOG特征,包括:
所述HOG特征的提取过程为:
1)计算肤色概率图中每个像素点(x,y)的梯度幅值G(x,y)和梯度方向σ(x,y),形成梯度矩阵,所述梯度矩阵中每一个元素都是向量,第一个分量是梯度幅值,第二、三个分量组合起来表示梯度方向;
2)将梯度矩阵分为小的细胞单元,每个细胞单元为4*4像素,每2*2个细胞单元构成一个块,将0°到180°的角度平均分为9个通道;
3)计算细胞单元中的每个像素点的梯度大小和方向,然后进行投票,统计出梯度方向直方图,梯度方向直方图共9个方向通道,梯度方向直方图的每一个通道累加出像素的梯度大小的和,最终得到一组由各个通道像素梯度累加和构成的向量;
4)把细胞单元组成块,在每一个块内部对特征向量归一化;将经过归一化处理后的所有向量连接起来,形成待识别图像的HOG特征;
所述LBP特征的提取过程为:
计算肤色概率图中心P0的LBP算子:
其中:
Pi表示该中心像素点相邻的像素值;
s(·)为量化算子,其表达式为:
所述颜色特征的提取过程为:
1)采用把像素中的RGB分量转换成HIS分量,若V为特征向量,对H即色调分量进行统计,H分量的可取值的范围是0-360,把这个区间划分为127个统计区间,然后对检测窗口的每一个像素的H分量进行投票,即i=H%ROUND(360/127),Vi=Vi+S,其中的百分号表示取模运算,ROUND表示向量取整,色调对应的饱和度S即投票的权重;
2)对特征向量V进行归一化:
其中:
δ2是接近零的实数,避免分母为0;
3)计算整个肤色概率图的帧HIS色彩模型的平均亮度I,若I<T,则用图像增强算法对图像进行增强,其中,T是事先采用夜间低光照的方法统计出该区域的平均亮度;
4)采用抛物线函数进行亮度增强,首先对原肤色概率图进行灰度化,设W分量为亮度信息,λ为亮度增量,W1(x,y)=max(R1(x,y),G1(x,y),B1(x,y)),(x,y)为像素点矫正后的Cb色度和Cr色度,用抛物线函数对亮度进行非线性变换,λ=W2/W1,从而得以更新像素RGB值:R2=λR1,G2=λG1,B2=λB1。
可选地,所述基于多核的相似性度量模型的训练过程为:
1)用S={(xi,yi;zi);i=1,2,...N}来表示包含了N个样本的训练数据集,其中(xi,yi)表示一对人脸图像特征,zi∈{-1,1}用于表征xi和yi之间是否存在预定义的亲属关系,zi=1表示xi和yi之间存在指定的亲属关系,反之,zi=-1表示xi和yi之间不存在指定的亲属关系;
2)设定基于多核的相似性度量模型的目标函数为:
zi(sim(xi,yi;α)+b)≥τ
其中:
τ>0;
对于所有正样本对(x,y),有sim(xi,yi;α)+b≥τ成立,而对于任意负样本对(x,y),有成立sim(xi,yi;α)+b≤-τ;
3)求解参数向量α和b:
其中:
Np和Nn分别代表正样本和负样本的数目;
ωi为ξi的权重,间接定义了单个样本的重要性;
ξi为松弛变量,用于惩罚那些违反了边界约束的训练样本对;
λ为超参数,用于在松弛变量惩罚项和正则化惩罚项之间做出平衡,本发明将其设为0.01;
τ为超参数,本发明将其设为10;
4)利用所训练的sim(xi,yi;α)模型,若样本对(x,y)存在亲属关系,则输出1,若样本对(x,y)不存在亲属关系,则输出-1,实现图像相似性的度量,所述判定公式为:
v(x,y)=sign(sim(x,y;α)+b)
其中:
α和b为所求解的参数向量。
可选地,所述实时进行图像特征选择,包括:
采用如下方案来丢掉一些区分能力不强的特征:
其中:
ε为一个超参数控制因子,用于定义多小的αpm可以被看作0;
在调整过α后,通过最大化在训练集合上的验证率,来对模型参数b的值进行调整,以使其与修改后的α相适应,即:
其中:
argmax{·}为求最大参数集合的函数。
可选地,所述利用SVMLR分类器进行多图像特征融合的过程为:
所述SVMLR分类器为SVM(支持向量机)和LR(逻辑回归)两种分类函数的复合,即将基于不同特征的多个SVM分类器的输出,作为新的特征再输入给LR模型做进一步的决策;
其中:
其中:
z为图像类别;
可选地,所述使用核Softmax回归进行图像的分类识别,包括:
所述各类别概率预测如下所示:
其中:
fm(·)为第m种特征提取函数;
km(·)为图像集中的核函数;
zx为图像样本x的图像类别;
θ为图像类别的概率;
p为图像类别的总数;
m为特征的总数;
N为待识别图像样本总数。
此外,为实现上述目的,本发明还提供一种基于核方法的图像识别系统,所述系统包括:
图像接收装置,用于接收待待识别的图像;
图像处理器,用于生成待识别图像的肤色概率图,并提取图像的HOG特征、LBP特征以及颜色特征;
图像识别装置,用于利用基于多核的相似性度量模型对图像进行相似性识别,并使用核Softmax回归进行图像的分类识别。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像识别程序指令,所述图像识别程序指令可被一个或者多个处理器执行,以实现如上所述的基于核方法的图像识别的实现方法的步骤。
相对于现有技术,本发明提出一种基于核方法的图像识别方法,该技术具有以下优势:
首先,现有技术大多直接从图像中提取特征,所提取出的特征包含了过多的环境信息;因此本发明提出一种基于肤色概率图的特征提取方式,肤色线索能被有效地结合进更高级别的LBP/HOG特征的提取之中,同时在肤色概率中,相对地,肤色区域得到增强,而非肤色区域将得到的抑制,从而实现了对纷杂背景干扰的过滤;基于肤色概率图,可使得人脸图像边界上的大部分梯度方向都将指向人脸内部,从而使得人脸形状的编码表示更具规律性和一致性,因而有助于增强特征鲁棒性。
其次,现有的解决人脸图像相似度匹配问题的诸多方法通常都只是采用一个单一的高分辨率特征向量来进行面部特征表示,这些高维向量或者是某种中级特征只是基于图像块的初级局部特征的简单拼接,这种单一表示法的缺陷在于,过高的特征向量维度会带来各种不便,比如优化困难、计算复杂度高、以及对训练数据过拟合。因此本发明提出一种基于多核的相似性度量模型对图像进行相似性识别,在训练阶段,本发明从具有不同位置和尺寸且密集分布的面部图像块中提取一组局部特征,并采用一组非线性基核来进行隐式特征变换,基于这些特征和基核,可以为每个图像对生成一组基本相似性值,其中每个(基核,局部特征)对可以生成一个基本相似性,这些基本相似性度量从不同方面对面部相似性进行了测量,之后,通过求解由最大间隔准则产生的线性规划问题来确定基本相似性度量的权重,根据该最大间隔准则,会以损失函数来惩罚那些违反边界约束的样本,而且,如果线性规划问题的超参数得到正确设置的话,求解将能得到稀疏的权重向量,而稀疏向量权重可以用来达到特征选择的目的,由于最后的度量实际上是由少数选定的基相似性度量的加权和,在验证阶段,因为只需要计算选定的局部特征,因而能充分提高效率。
同时,对于本发明所提出的基于多核的相似性度量模型,模型中目标函数所含的L1正则化项将会导致稀疏的解向量α,这意味着向量α中大部分量元素都很小,这些小的分量对最终的相似性计算几乎起不到什么有意义的作用。在这种情况下,如果本发明继续将这些取值相对很低的αpm所对应的基本度量函数保留在总的度量组合sim(x,y;α)中的话,将会有如下两方面的危害:其一,精度上的改进可以忽略不计、而计算成本将会高出许多,这是因为计算大量不重要的特征及其对应的基本相似性值会大大地增加计算成本;其二,低权重特征实际上对应的都是些冗余或者无关信息,而这些信息经常会对最终的亲属关系验证任务造成不利影响。
因此本发明采用如下方案来丢掉一些区分能力不强的特征:
其中,ε为一个超参数控制因子,用于定义多小的αpm可以被看作0,而在调整过α后,还需要通过最大化在训练集合上的验证率,来对模型参数b的值进行调整,以使其与修改后的α相适应,即:
对参数b进行调整的另外一个原因在于,当λ的值过大导致对L1正则化惩罚过重时,优化算法可能会生成模值非常小的解向量α,以及病态的模型参数b,在这种情况下,原始解(α,b)在训练集上的正确率通常非常低,甚至可能会出现全部正样本(或者全部负样本)都被错分的情况。
附图说明
图1为本发明一实施例提供的一种基于核方法的图像识别方法的流程示意图;
图2为本发明一实施例提供的一种基于核方法的图像识别系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
利用多核相似性度量方法进行图像相似性度量,并利用SVMLR分类器进行多图像特征融合,根据所融合的特征,使用核Softmax回归实现图像的分类识别。参照图1所示,为本发明一实施例提供的基于核方法的图像识别方法示意图。
在本实施例中,基于核方法的图像识别方法包括:
S1、利用椭圆肤色模型生成待识别图像的肤色概率图,并从肤色概率图中分别提取图像的LBP特征、颜色特征以及HOG特征。
首先,本发明利用椭圆肤色模型生成图像的肤色概率图,所述椭圆肤色模型为:
U={(x,y);dist(x,y)≤τ,x∈D(Cb),y∈D(Cr)}
其中:
D(Cb)×D(Cr)为光照矫正后的(Cb,Cr)色度空间;
(x,y)为像素点矫正后的Cb色度和Cr色度;
cx,cy,ecx,ecy,a,b,θ,τ为椭圆肤色模型参数,本发明分别设为cx=0.3,cy=0.15,ecx=ecy=0.45,a=b=1,θ=0.5,τ=0.8;
根据上述椭圆肤色模型,本发明计算待识别图像的肤色概率图Γ,所述肤色概率图的计算公式为:
其中:
x(i,j)为像素点(i,j)矫正后的Cb色度;
y(i,j)为像素点(i,j)矫正后的Cr色度;
γ为超参数,本发明将其设置为1.2;
进一步地,本发明从肤色概率图中分别提取图像的LBP特征、颜色特征以及HOG特征;
所述HOG特征的提取过程为:
1)计算肤色概率图中每个像素点(x,y)的梯度幅值G(x,y)和梯度方向σ(x,y),形成梯度矩阵,所述梯度矩阵中每一个元素都是向量,第一个分量是梯度幅值,第二、三个分量组合起来表示梯度方向;
2)将梯度矩阵分为小的细胞单元,每个细胞单元为4*4像素,每2*2个细胞单元构成一个块,将0°到180°的角度平均分为9个通道;
3)计算细胞单元中的每个像素点的梯度大小和方向,然后进行投票,统计出梯度方向直方图,梯度方向直方图共9个方向通道,梯度方向直方图的每一个通道累加出像素的梯度大小的和,最终得到一组由各个通道像素梯度累加和构成的向量;
4)把细胞单元组成块,在每一个块内部对特征向量归一化;将经过归一化处理后的所有向量连接起来,形成待识别图像的HOG特征;
所述LBP特征的提取过程为:
计算肤色概率图中心P0的LBP算子:
其中:
Pi表示该中心像素点相邻的像素值;
s(·)为量化算子,其表达式为:
所述颜色特征的提取过程为:
1)采用把像素中的RGB分量转换成HIS分量,若V为特征向量,对H即色调分量进行统计,H分量的可取值的范围是0-360,把这个区间划分为127个统计区间,然后对检测窗口的每一个像素的H分量进行投票,即i=H%ROUND(360/127),Vi=Vi+S,其中的百分号表示取模运算,ROUND表示向量取整,色调对应的饱和度S即投票的权重;
2)对特征向量V进行归一化:
其中:
δ2是接近零的实数,避免分母为0;
3)计算整个肤色概率图的帧HIS色彩模型的平均亮度I,若I<T,则用图像增强算法对图像进行增强,其中,T是事先采用夜间低光照的方法统计出该区域的平均亮度;
4)本发明采用抛物线函数进行亮度增强,首先对原肤色概率图进行灰度化,设W分量为亮度信息,λ为亮度增量,W1(x,y)=max(R1(x,y),G1(x,y),B1(x,y)),(x,y)为像素点矫正后的Cb色度和Cr色度,用抛物线函数对亮度进行非线性变换,λ=W2/W1,从而得以更新像素RGB值:R2=λR1,G2=λG1,B2=λB1。
S2、利用基于多核的相似性度量模型对图像特征进行相似性识别,并实时进行特征选择。
进一步地,本发明将待识别图像特征利用预训练的基于多核的相似性度量模型进行识别,从而判定待识别图像与已知图像之间是否存在亲属关系,所述基于多核的相似性度量模型的训练过程为:
1)用S={(xi,yi;zi);i=1,2,...N}来表示包含了N个样本的训练数据集,其中(xi,yi)表示一对人脸图像特征,zi∈{-1,1}用于表征xi和yi之间是否存在预定义的亲属关系,zi=1表示xi和yi之间存在指定的亲属关系,反之,zi=-1表示xi和yi之间不存在指定的亲属关系;
2)设定基于多核的相似性度量模型的目标函数为:
zi(sim(xi,yi;α)+b)≥τ
其中:
τ>0;
对于所有正样本对(x,y),有sim(xi,yi;α)+b≥τ成立,而对于任意负样本对(x,y),有成立sim(xi,yi;α)+b≤-τ;
3)求解参数向量α和b:
其中:
Np和Nn分别代表正样本和负样本的数目;
ωi为ξi的权重,间接定义了单个样本的重要性;
ξi为松弛变量,用于惩罚那些违反了边界约束的训练样本对;
λ为超参数,用于在松弛变量惩罚项和正则化惩罚项之间做出平衡,本发明将其设为0.01;
τ为超参数,本发明将其设为10;
4)利用所训练的sim(xi,yi;α)模型,若样本对(x,y)存在亲属关系,则输出1,若样本对(x,y)不存在亲属关系,则输出-1,实现图像相似性的度量,所述判定公式为:
v(x,y)=sign(sim(x,y;α)+b)
其中:
α和b为所求解的参数向量。
进一步地,目标函数所含的L1正则化项将会导致稀疏的解向量α,这意味着向量α中大部分量元素都很小,这些小的分量对最终的相似性计算几乎起不到什么有意义的作用。在这种情况下,如果本发明继续将这些取值相对很低的αpm所对应的基本度量函数保留在总的度量组合sim(x,y;α)中的话,将会有如下两方面的危害:其一,精度上的改进可以忽略不计、而计算成本将会高出许多,这是因为计算大量不重要的特征及其对应的基本相似性值会大大地增加计算成本;其二,低权重特征实际上对应的都是些冗余或者无关信息,而这些信息经常会对最终的亲属关系验证任务造成不利影响。
因此本发明采用如下方案来丢掉一些区分能力不强的特征:
其中:
ε为一个超参数控制因子,用于定义多小的αpm可以被看作0;
进一步地,在调整过α后,还需要通过最大化在训练集合上的验证率,来对模型参数b的值进行调整,以使其与修改后的α相适应,即:
其中:
argmax{·}为求最大参数集合的函数。
对参数b进行调整的另外一个原因在于,当λ的值过大导致对L1正则化惩罚过重时,优化算法可能会生成模值非常小的解向量α,以及病态的模型参数b;在这种情况下,原始解(α,b)在训练集上的正确率通常非常低,甚至可能会出现全部正样本(或者全部负样本)都被错分的情况。
S3、利用SVMLR分类器进行多图像特征融合。
进一步地,对于上述所得多图像特征,本发明利用SVMLR分类器进行多图像特征融合,所述SVMLR分类器为SVM(支持向量机)和LR(逻辑回归)两种分类函数的复合,即将基于不同特征的多个SVM分类器的输出,作为新的特征再输入给LR模型做进一步的决策;
其中:
其中:
z为图像类别;
所述SVMLR分类器的是一个逐步进行的过程,即先独立训练逐个SVM分类器、完成后再训练逻辑回归分类器,而不是一个采用统一目标函数的端对端的训练过程。使用逐步训练的办法,可以允许施加更多的人工干预,从而能够包含进更多的既有经验,相对来说所需要的样本量比较少一些。
S4、根据上述特征融合结果,使用核Softmax回归进行图像的分类识别。
进一步地,根据上述特征融合结果,本发明使用核Softmax回归进行图像的分类识别,所述各类别概率预测如下所示:
其中:
fm(·)为第m种特征提取函数;
km(·)为图像集中的核函数;
zx为图像样本x的图像类别;
θ为图像类别的概率;
p为图像类别的总数;
m为特征的总数;
N为待识别图像样本总数。
由于新特征是各类特征fm(x)变换后所得特征的拼接,而不是先将各类特征拼接为单一特征后,再通过核函数进行变换,使得fm(·)在不同的局部特征区域内都可提取特征,通过核函数计算图像间的局部相似性,进而通过Softmax模型的优化来识别细节差别,进而充分捕获各类间的差异。
下面通过一个仿真实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境为Ubuntu14.04系统,在NVIDIA TITAN X GPU服务器上运行,深度学习框架为深度学习框架caffe,CPU为E5-2609 v3@1.90GHz,操作系统为Ubuntu16.04;对比算法为统一权重的多核算法,MCMKL算法以及ALIGNF算法。
根据实验结果,统一权重的多核算法的正确识别率为96.8%,平均识别时间为4.26s,MCMKL算法的正确识别率为97.8%,平均识别时间为2.45s,ALIGNF算法的正确识别率为95.8%,平均识别时间为3.45s,本发明所述算法的正确识别率为98.6%,平均识别时间为2.18s,相较于对比算法,本发明所提出的基于核方法的图像识别算法具有更高的图像正确识别率,且能更快完成对图像的识别。
发明还提供一种基于核方法的图像识别系统。参照图2所示,为本发明一实施例提供的基于核方法的图像识别系统的内部结构示意图。
在本实施例中,所述基于核方法的图像识别系统1至少包括图像接收装置11、图像处理器12、图像识别装置13,通信总线14,以及网络接口15。
其中,图像接收装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
图像处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。图像处理器12在一些实施例中可以是基于核方法的图像识别系统1的内部存储单元,例如该基于核方法的图像识别系统1的硬盘。图像处理器12在另一些实施例中也可以是基于核方法的图像识别系统1的外部存储设备,例如基于核方法的图像识别系统1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,图像处理器12还可以既包括基于核方法的图像识别系统1的内部存储单元也包括外部存储设备。图像处理器12不仅可以用于存储安装于基于核方法的图像识别系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
图像识别装置13在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器12中存储的程序代码或处理数据,例如图像识别程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于核方法的图像识别系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及基于核方法的图像识别系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于核方法的图像识别系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,图像处理器12中存储有图像识别程序指令;图像图像装置13执行图像处理器12中存储的图像识别程序指令的步骤,与基于核方法的图像识别方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有图像识别程序指令,所述图像识别程序指令可被一个或多个处理器执行,以实现如下操作:
利用椭圆肤色模型生成待识别图像的肤色概率图;
从肤色概率图中分别提取图像的LBP特征、颜色特征以及HOG特征;
利用基于多核的相似性度量模型对图像特征进行相似性识别;
在进行相似性识别的过程中实时进行图像特征选择;
利用SVMLR分类器进行多图像特征融合;
根据上述特征融合结果,使用核Softmax回归进行图像的分类识别。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于核方法的图像识别方法,其特征在于,所述方法包括:
利用椭圆肤色模型生成待识别图像的肤色概率图;
从肤色概率图中分别提取图像的LBP特征、颜色特征以及HOG特征;
利用基于多核的相似性度量模型对图像特征进行相似性识别;
在进行相似性识别的过程中实时进行图像特征选择;
利用SVMLR分类器进行多图像特征融合;
根据上述特征融合结果,使用核Softmax回归进行图像的分类识别。
2.如权利要求1所述的一种基于核方法的图像识别方法,其特征在于,所述利用椭圆肤色模型生成肤色概率图,包括:
所述椭圆肤色模型为:
U={(x,y);dist(x,y)≤τ,x∈D(Cb),y∈D(Cr)}
其中:
D(Cb)×D(Cr)为光照矫正后的(Cb,Cr)色度空间;
(x,y)为像素点矫正后的Cb色度和Cr色度;
cx,cy,ecx,ecy,a,b,θ,τ为椭圆肤色模型参数,本发明分别设为cx=0.3,cy=0.15,ecx=ecy=0.45,a=b=1,θ=0.5,τ=0.8;
根据上述椭圆肤色模型,本发明计算待识别图像的肤色概率图Γ,所述肤色概率图的计算公式为:
其中:
x(i,j)为像素点(i,j)矫正后的Cb色度;
y(i,j)为像素点(i,j)矫正后的Cr色度;
γ为超参数,本发明将其设置为1.2。
3.如权利要求2所述的一种基于核方法的图像识别方法,其特征在于,所述从肤色概率图中提取图像的LBP特征、颜色特征以及HOG特征,包括:
所述HOG特征的提取过程为:
1)计算肤色概率图中每个像素点(x,y)的梯度幅值G(x,y)和梯度方向σ(x,y),形成梯度矩阵,所述梯度矩阵中每一个元素都是向量,第一个分量是梯度幅值,第二、三个分量组合起来表示梯度方向;
2)将梯度矩阵分为小的细胞单元,每个细胞单元为4*4像素,每2*2个细胞单元构成一个块,将0°到180°的角度平均分为9个通道;
3)计算细胞单元中的每个像素点的梯度大小和方向,然后进行投票,统计出梯度方向直方图,梯度方向直方图共9个方向通道,梯度方向直方图的每一个通道累加出像素的梯度大小的和,最终得到一组由各个通道像素梯度累加和构成的向量;
4)把细胞单元组成块,在每一个块内部对特征向量归一化;将经过归一化处理后的所有向量连接起来,形成待识别图像的HOG特征;
所述LBP特征的提取过程为:
计算肤色概率图中心P0的LBP算子:
其中:
Pi表示该中心像素点相邻的像素值;
s(·)为量化算子,其表达式为:
所述颜色特征的提取过程为:
1)采用把像素中的RGB分量转换成HIS分量,若V为特征向量,对H即色调分量进行统计,H分量的可取值的范围是0-360,把这个区间划分为127个统计区间,然后对检测窗口的每一个像素的H分量进行投票,即i=H%ROUND(360/127),Vi=Vi+S,其中的百分号表示取模运算,ROUND表示向量取整,色调对应的饱和度S即投票的权重;
2)对特征向量V进行归一化:
其中:
δ2是接近零的实数,避免分母为0;
3)计算整个肤色概率图的帧HIS色彩模型的平均亮度I,若I<T,则用图像增强算法对图像进行增强,其中,T是事先采用夜间低光照的方法统计出该区域的平均亮度;
4.如权利要求3所述的一种基于核方法的图像识别方法,其特征在于,所述基于多核的相似性度量模型的训练过程为:
1)用S={(xi,yi;zi);i=1,2,...N}来表示包含了N个样本的训练数据集,其中(xi,yi)表示一对人脸图像特征,zi∈{-1,1}用于表征xi和yi之间是否存在预定义的亲属关系,zi=1表示xi和yi之间存在指定的亲属关系,反之,zi=-1表示xi和yi之间不存在指定的亲属关系;
2)设定基于多核的相似性度量模型的目标函数为:
zi(sim(xi,yi;α)+b)≥τ
其中:
τ>0;
对于所有正样本对(x,y),有sim(xi,yi;α)+b≥τ成立,而对于任意负样本对(x,y),有成立sim(xi,yi;α)+b≤-τ;
3)求解参数向量α和b:
其中:
Np和Nn分别代表正样本和负样本的数目;
ωi为ξi的权重,间接定义了单个样本的重要性;
ξi为松弛变量,用于惩罚那些违反了边界约束的训练样本对;
λ为超参数,用于在松弛变量惩罚项和正则化惩罚项之间做出平衡,本发明将其设为0.01;
τ为超参数,本发明将其设为10;
4)利用所训练的sim(xi,yi;α)模型,若样本对(x,y)存在亲属关系,则输出1,若样本对(x,y)不存在亲属关系,则输出-1,实现图像相似性的度量,所述判定公式为:
v(x,y)=sign(sim(x,y;α)+b)
其中:
α和b为所求解的参数向量。
6.如权利要求5所述的一种基于核方法的图像识别方法,其特征在于,所述利用SVMLR分类器进行多图像特征融合的过程为:
所述SVMLR分类器为SVM(支持向量机)和LR(逻辑回归)两种分类函数的复合,即将基于不同特征的多个SVM分类器的输出,作为新的特征再输入给LR模型做进一步的决策;
其中:
其中:
z为图像类别;
8.一种基于核方法的图像识别系统,其特征在于,所述系统包括:
图像接收装置,用于接收待待识别的图像;
图像处理器,用于生成待识别图像的肤色概率图,并提取图像的HOG特征、LBP特征以及颜色特征;
图像识别装置,用于利用基于多核的相似性度量模型对图像进行相似性识别,并使用核Softmax回归进行图像的分类识别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像识别程序指令,所述图像识别程序指令可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的一种基于核方法的图像识别的实现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649144.5A CN111783896A (zh) | 2020-07-08 | 2020-07-08 | 一种基于核方法的图像识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649144.5A CN111783896A (zh) | 2020-07-08 | 2020-07-08 | 一种基于核方法的图像识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783896A true CN111783896A (zh) | 2020-10-16 |
Family
ID=72758866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010649144.5A Withdrawn CN111783896A (zh) | 2020-07-08 | 2020-07-08 | 一种基于核方法的图像识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783896A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686965A (zh) * | 2020-12-25 | 2021-04-20 | 百果园技术(新加坡)有限公司 | 一种肤色检测方法、装置、移动终端和存储介质 |
CN113158929A (zh) * | 2021-04-27 | 2021-07-23 | 河南大学 | 基于距离和方向的深度鉴别度量学习亲属关系验证框架 |
CN113705477A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 一种医疗图像识别方法、系统、设备及介质 |
CN113808020A (zh) * | 2021-09-18 | 2021-12-17 | 北京字节跳动网络技术有限公司 | 图像处理方法及设备 |
CN115205941A (zh) * | 2022-07-13 | 2022-10-18 | 山西大学 | 基于广义多视图图嵌入的亲属关系验证方法 |
-
2020
- 2020-07-08 CN CN202010649144.5A patent/CN111783896A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686965A (zh) * | 2020-12-25 | 2021-04-20 | 百果园技术(新加坡)有限公司 | 一种肤色检测方法、装置、移动终端和存储介质 |
CN113158929A (zh) * | 2021-04-27 | 2021-07-23 | 河南大学 | 基于距离和方向的深度鉴别度量学习亲属关系验证框架 |
CN113158929B (zh) * | 2021-04-27 | 2022-09-30 | 河南大学 | 基于距离和方向的深度鉴别度量学习亲属关系验证系统 |
CN113705477A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 一种医疗图像识别方法、系统、设备及介质 |
CN113705477B (zh) * | 2021-08-31 | 2023-08-29 | 平安科技(深圳)有限公司 | 一种医疗图像识别方法、系统、设备及介质 |
CN113808020A (zh) * | 2021-09-18 | 2021-12-17 | 北京字节跳动网络技术有限公司 | 图像处理方法及设备 |
CN115205941A (zh) * | 2022-07-13 | 2022-10-18 | 山西大学 | 基于广义多视图图嵌入的亲属关系验证方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783896A (zh) | 一种基于核方法的图像识别方法及系统 | |
Xu et al. | Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection | |
WO2021027336A1 (zh) | 基于印章和签名的身份验证方法、装置和计算机设备 | |
Thai et al. | Image classification using support vector machine and artificial neural network | |
US7801354B2 (en) | Image processing system | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
US9489566B2 (en) | Image recognition apparatus and image recognition method for identifying object | |
Kingma et al. | Regularized estimation of image statistics by score matching | |
CN105787466B (zh) | 一种车辆类型的精细识别方法及系统 | |
Aditya et al. | Batik classification using neural network with gray level co-occurence matrix and statistical color feature extraction | |
Ye et al. | Detecting USM image sharpening by using CNN | |
CN113449704B (zh) | 人脸识别模型训练方法、装置、电子设备及存储介质 | |
CN112052845A (zh) | 图像识别方法、装置、设备及存储介质 | |
Wang et al. | Energy based competitive learning | |
CN112651333B (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN114913923A (zh) | 针对单细胞染色质开放性测序数据的细胞类型识别方法 | |
CN114611672A (zh) | 模型训练方法、人脸识别方法及装置 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
Liu et al. | A novel SVM network using HOG feature for prohibition traffic sign recognition | |
CN110598033A (zh) | 智能自核验车方法、装置及计算机可读存储介质 | |
Khavalko et al. | Classification and Recognition of Medical Images Based on the SGTM Neuroparadigm. | |
CN111539420B (zh) | 基于注意力感知特征的全景图像显著性预测方法及系统 | |
CN114049676A (zh) | 疲劳状态检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201016 |
|
WW01 | Invention patent application withdrawn after publication |