CN111832626A

CN111832626A - 图像识别分类方法、装置及计算机可读存储介质

Info

Publication number: CN111832626A
Application number: CN202010560624.4A
Authority: CN
Inventors: 许弢; 岳洪伟; 王洪涛; 李俊华; 金迎迎
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-27
Anticipated expiration: 2040-06-18
Also published as: CN111832626B

Abstract

本发明公开了一种图像识别分类方法、装置及计算机可读存储介质，包括获取并输入原始图像，对所述原始图像进行预处理，得到预处理图像；提取所述预处理图像中的特征矩阵，根据所述特征矩阵，构造训练样本；将所述训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向；根据所述线性判别的投影方向，对测试样本进行识别与分类。本发明的技术方案，能够实现对图像的识别与分类，更好表达图像特征，提高图像分类的准确度，有效改善图像分类的效果和鲁棒性。

Description

图像识别分类方法、装置及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像识别分类方法、装置及计算机可读存储介质。

背景技术

图像相比文字能够提供更加生动、容易理解及更具艺术感的信息，是人们转递与交换信息的重要来源。图像分类是根据图像的语义信息将不同类别图像区分开来，是计算机视觉中重要的基本问题，也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在很多领域有广泛应用，包括图像识别、目标检测、安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、互联网领域基于内容的图像检索和相册自动归类等。

一般来说，图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述，然后使用分类器判别物体类别，因此如何提取图像的特征至关重要。在模式识别中，费雪线性判别(Fisher's linear discriminant，以下称为“Fisher线性判别”)是一种线性判别方法，其意图是将d维空间中的数据点投影到c-1维空间上去，使得不同类的样本点在这个空间上的投影尽量分离，同类的尽量紧凑。而传统的Fisher线性判别方法在图像分类识别方面有着广泛的应用，其中传统的Fisher线性判别方法主要通过提取特征向量来完成分类识别，但是图像特征的提取往往受到光照变化、噪声、视角等影响，会造成图像特征分类的精度和稳定性下降，且使用特征向量往往无法较好的表达图像特征，因此，需要研究一种方法来改善图像分类的效果和鲁棒性。

名词解释：隶属度：假设对研究的范围U中的任一元素x，都有一个数A(x)∈[0,1]与之对应，则称A为U上的模糊集，A(x)称为x对A的隶属度。

模糊C-均值算法：通过优化目标函数得到每个样本点对所有类中心的隶属度，从而决定样本点的类属以达到自动对样本数据进行分类的目的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种图像识别分类方法、装置及计算机可读存储介质，能够实现图像的识别与分类，更好表达图像特征，提高图像分类的准确度。

本发明实施例的第一方面，提供了一种图像识别分类方法，包括以下步骤：

获取并输入原始图像，对所述原始图像进行预处理，得到预处理图像；

提取所述预处理图像中的特征矩阵，根据所述特征矩阵，构造训练样本；

将所述训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向；

根据所述线性判别的投影方向，对测试样本进行识别与分类。

本发明实施例中提供的一个或多个技术方案，至少具有如下有益效果：本发明实施例通过对原始图像进行预处理，便于增强图像的可检测性和最大限度地简化数据，从而提高特征提取、图像匹配和识别的可靠性。经过预处理后得到预处理图像，提取预处理图像中的特征矩阵，根据特征矩阵，构造训练样本，将训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向，最后根据线性判别的投影方向，对测试样本进行识别与分类，从而实现对图像的识别分类。相对于现有技术，本发明实施例的技术方案，能够实现图像的识别与分类，更好表达图像特征，提高图像分类的准确度，有效改善图像分类的效果和鲁棒性。

根据本发明的一些实施例，所述预处理包括去噪、灰度化、二值化、锐化、平滑、增强对比度或光线矫正中的任意至少一种。

根据本发明的一些实施例，所述提取所述预处理图像中的特征矩阵，根据所述特征矩阵，构造训练样本，包括以下步骤：

获取所述预处理图像中的图像特征；

根据所述图像特征，构建协方差特征矩阵；

根据所述协方差特征矩阵，构造训练样本。

根据本发明的一些实施例，所述协方差特征矩阵的计算公式为：

其中，所述x表示所述协方差特征矩阵；所述n表示像素点的个数，所述φ_k表示d维向量，所述d表示所述训练样本维数；所述μ表示所有像素点对应的所述φ_k的均值。

根据本发明的一些实施例，所述将所述训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向，包括以下步骤：

根据所述训练样本，采用模糊C-均值算法计算得到模糊隶属度矩阵和聚类中心矩阵；

利用黎曼度量分别定义模糊类内均值和模糊样本总均值；

根据所述模糊隶属度矩阵、所述聚类中心矩阵、所述模糊类内均值和所述模糊样本总均值，计算得到模糊类间离散度矩阵和模糊类内离散度矩阵；

根据所述模糊类间离散度矩阵和所述模糊类内离散度矩阵，获取线性判别的投影方向。

根据本发明的一些实施例，所述模糊类间离散度矩阵的计算公式为：

其中，所述S_fb表示所述模糊类间离散度矩阵；U表示所述模糊隶属度矩阵，U＝{u_ij}；M表示所述聚类中心矩阵，M＝{m₁,…,m_l}；所述l表示所述训练样本的个数，

所述p用于控制模糊量的权重指数；所述m_i表示所述模糊类内均值；所述m表示所述模糊样本总均值。

根据本发明的一些实施例，所述模糊类内离散度矩阵的计算公式为：

其中，所述S_fw表示所述模糊类内离散度矩阵；U表示所述模糊隶属度矩阵，U＝{u_ij}；M表示所述聚类中心矩阵，M＝{m₁,…,m_l}；所述l表示所述训练样本的个数，

所述p用于控制模糊量的权重指数；所述m_i表示所述模糊类内均值；所述x_j表示所述训练样本中的元素。

本发明实施例的第二方面，提供了一种运行控制装置，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述第一方面所述的图像识别分类方法。

本发明实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述第一方面所述的图像识别分类方法。

本发明的附加方面和/或优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例所提供的图像识别分类方法的流程示意图；

图2是本发明一个实施例所提供的构造训练样本的流程示意图；

图3是本发明一个实施例所提供的获取线性判别的投影方向的流程示意图；

图4是本发明另一个实施例所提供的运行控制装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

参照图1，本发明实施例的第一方面，提供了一种图像识别分类方法，包括以下步骤：

步骤S100，获取并输入原始图像，对原始图像进行预处理，得到预处理图像；

步骤S200，提取预处理图像中的特征矩阵，根据特征矩阵，构造训练样本；

步骤S300，将训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向；

步骤S400，根据线性判别的投影方向，对测试样本进行识别与分类。

具体地，对获取的原始图像进行预处理，例如可以通过对原始图像进行去噪、二值化、锐化、增强对比等处理，以便于提高图像的可检测性和最大限度地简化数据，从而提高特征提取、图像识别和分类的可靠性。获取的原始图像数量较多，是为了作进一步处理后以构成训练样本，即在对获取的原始图像进行预处理，得到预处理图像之后，提取预处理图像中的特征矩阵，以构造训练样本。例如，可以根据第一张原始图像提取第一特征矩阵，根据第二张原始图像提取第二特征矩阵，以此将所有提取到的第一特征矩阵，第二特征矩阵，……，第N特征矩阵用来构造训练样本，该训练样本可包括有从多种不同类型的原始图像中，经过预处理后提取到的特征矩阵。再将训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向，根据线性判别的投影方向，对测试样本进行识别与分类。测试样本即需要进行识别分类的图像。具体地，本实施例中的模糊Fisher线性判别通过改进后，能够有效提高分类准确性。模糊Fisher线性判别主要目的是将训练样本中的隶属度输入到目标函数中,而目标函数中的计算核心则是需要采用提取到的特征矩阵，之后再计算使模糊Fisher线性判别达到极大值的向量，使投影后的训练样本具有最佳可分离性。即通过将目标函数最大化后以获取线性判别的投影方向，从而得到特征空间中任意特征矩阵在模糊Fisher线性判别的最优方向上的投影。根据线性判别的投影方向，便可对测试样本进行识别与分类。

本发明实施例中提供的一个或多个技术方案，至少具有如下有益效果：相对于现有技术中通过采用传统的Fisher线性判别方法提取特征向量以完成分类识别，本发明实施例的技术方案，通过将原始图像预处理后提取特征矩阵，再将特征矩阵输入到模糊Fisher线性判别中进行训练，最终实现对图像的识别与分类，本发明实施例的技术方案能够更好表达图像特征，提高图像分类的准确度，具有更好的鲁棒性，能够有效改善图像分类的效果。

根据本发明的一些实施例，预处理包括去噪、灰度化、二值化、锐化、平滑、增强对比度或光线矫正中的任意至少一种。

具体地，对获取的原始图像进行预处理，即可以通过对原始图像进行去噪、灰度化、二值化、锐化、平滑、增强对比度或光线矫正中的任意至少一种，以便于提高图像的可检测性和最大限度地简化数据，从而提高特征提取、图像识别和分类的可靠性。例如在本实施例中，可以通过对原始图像作灰度化处理，以克服图像干扰。

参照图2，根据本发明的一些实施例，提取预处理图像中的特征矩阵，根据特征矩阵，构造训练样本，包括以下步骤：

步骤S210，获取预处理图像中的图像特征；

步骤S220，根据图像特征，构建协方差特征矩阵；

步骤S230，根据协方差特征矩阵，构造训练样本。

具体地，对于一个预处理图像，从预处理图像中提取图像特征，并定义函数以表示对预处理图像属性的映射，再计算图像中的所有像素点对应的函数均值，以构建协方差特征矩阵。本实施例将图像中的特征通过协方差特征矩阵来表达，使得不同的图像特征对应着一个协方差特征矩阵，便于根据各个协方差特征矩阵来构造训练样本，以进一步完成图像的识别和分类，能够提高对图像特征识别与分类的准确度。

根据本发明的一些实施例，协方差特征矩阵的计算公式为：

其中，x表示协方差特征矩阵；n表示像素点的个数，φ_k表示d维向量，d表示训练样本维数；μ表示所有像素点对应的φ_k的均值。

在本发明实施例中，通过利用协方差特征矩阵来描述待分类图像特征，使得各图像更具有识别度，通过将各个协方差特征矩阵构造训练样本，便于进一步通过模糊Fisher线性判别对训练样本进行训练，从而获取线性判别的投影方向，以提高图像特征识别的准确度。

具体地，以一个预处理图像为例，定义一个预处理图像为I(x,y),并用F表示从预处理图像I(x,y)中提取的图像特征：

F(x,y)＝φ(I,x,y)；

其中，函数φ表示对预处理图像属性的映射，对φ定义如下：

φ(I,x,y)＝[x,y,I(x,y),|I_x|,|I_y|]^T；

φ(I,x,y)＝[x,y,I(x,y),|I_x|,|I_y|,arctan(|I_x|/|I_y|)]^T；

φ(I,x,y)＝[x,y,I(x,y),|I_x|,|I_y|,|I_xx|,|I_yy|]^T；

φ(I,x,y)＝[x,y,I(x,y),|I_x|,|I_y|,|I_xx|,|I_yy|,arctan(|I_x|/|I_y|)]^T；

其中，I(x,y)表示为坐标(x,y)处的灰度值,|I_x|，|I_xx|表示x方向上的一阶和二阶梯度；T表示矩阵转置；|I_y|,|I_yy|表示y方向上的一阶和二阶梯度。

假设待分类预处理图像的大小为(W,H),建模后φ大小为(n,d)的矩阵,其中n＝W×H,d可以通过φ的定义确定。

令

其中

表示d维向量,d表示训练样本维数；则协方差特征矩阵x的计算公式如下：

其中，

μ表示所有像素点对应的φ_k的均值。

参照图3，根据本发明的一些实施例，将训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向，包括以下步骤：

步骤S310，根据训练样本，采用模糊C-均值算法计算得到模糊隶属度矩阵和聚类中心矩阵；

步骤S320，利用黎曼度量分别定义模糊类内均值和模糊样本总均值；

步骤S330，根据模糊隶属度矩阵、聚类中心矩阵、模糊类内均值和模糊样本总均值，计算得到模糊类间离散度矩阵和模糊类内离散度矩阵；

步骤S340，根据模糊类间离散度矩阵和模糊类内离散度矩阵，获取线性判别的投影方向。

在本发明实施例中，为了使训练样本具有较好的可分离性，通过利用改进的模糊Fisher线性判别对训练样本进行训练。具体地，采用模糊C-均值算法对训练样本，计算得到模糊隶属度矩阵和聚类中心矩阵，再根据黎曼度量确定模糊类内均值和模糊样本总均值；之后根据模糊隶属度矩阵、聚类中心矩阵、模糊类内均值和模糊样本总均值，计算模糊类间离散度矩阵和模糊类内离散度矩阵。模糊Fisher线性判别主要目的是将训练样本中的隶属度输入到目标函数中,根据计算得到的模糊类间离散度矩阵和模糊类内离散度矩阵，输入到目标函数，再通过将目标函数最大化后以获取线性判别的投影方向，从而实现对图像的识别分类。

根据本发明的一些实施例，模糊类间离散度矩阵的计算公式为：

模糊类内离散度矩阵的计算公式为：

其中，S_fb表示模糊类间离散度矩阵，S_fw表示模糊类内离散度矩阵；U表示模糊隶属度矩阵，U＝{u_ij}；M表示聚类中心矩阵，M＝{m₁,…,m_l}；l表示训练样本的个数，

p用于控制模糊量的权重指数；m_i表示模糊类内均值；m表示模糊样本总均值；x_j表示训练样本中的元素。

在本发明实施例中，根据线性判别的投影方向对图像进行识别分类，即将训练样本输入到模糊Fisher线性判别中进行训练，根据最终的线性判别的投影方向，判断图像输出的分类结果。

具体地，通过将目标函数J(w)最大化，以获取线性判别的投影方向w，其中，w是特征空间内的任意非零向量；函数J(w)的计算公式如下：

假设训练样本X为X＝{x₁,…,x_N}，且分别属于l个集合,训练样本X中的元素为各特征矩阵，聚类中心矩阵M＝{m₁,…,m_l},模糊隶属度矩阵为U＝{u_ij}。

则模糊类间离散度矩阵S_fb的计算公式为：

模糊类内离散度矩阵S_fw的计算公式为：

由于在本实施例中，构建的特征矩阵是对称且正定的，所以该对称正定的特征矩阵对应线性空间中的一个凸锥的内部。而凸锥的内部是一个黎曼流形,在黎曼流形上进行分类需要确定一个有效的度量。该度量是分类算法的基础，且所有与分类相关的计算都需要在度量空间中进行。故本实施例通过赋予黎曼流形一个可计算的度量，该度量为黎曼度量，用d(x₁,x₂)表示，d(x₁,x₂)的公式定义为：d(x₁,x₂)＝||log(x₂)-log(x₁)||_Id；

其中，

μ'表示黎曼均值。

由于求取的特征矩阵具有流形结构，利用黎曼度量分别定义模糊类内均值m_i和模糊样本总均值m，

具体地，

最后根据输出的令目标函数J(w)最大化的最佳投影方向w,可以获取特征空间中任意特征矩阵在模糊Fisher线性判别最优方向上的投影。

参照图4，本发明实施例的第二方面，提供了一种运行控制装置，该运行控制装置6000可以是任意类型的智能终端，如手机、平板电脑、个人计算机等。

根据本发明的一些实施例，该运行控制装置6000包括：一个或多个控制处理器6001和存储器6002，图4中以一个控制处理器6001为例。

控制处理器6001和存储器6002可以通过总线或其他方式连接，图4以通过总线连接为例。

存储器6002作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及单元，如本发明实施例中的运行控制装置6000对应的程序指令/单元。控制处理器6001通过运行存储在存储器6002中的非暂态软件程序、指令以及单元，从而执行各种功能应用以及数据处理，即实现上述方法实施例的图像识别分类方法。

存储器6002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据程序指令/单元创建的数据等。此外，存储器6002可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器6002可选包括相对于控制处理器6001远程设置的存储器，这些远程存储器可以通过网络连接至该运行控制装置6000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器6002中，当被一个或者多个控制处理器6001执行时，执行上述任意方法实施例中的图像识别分类方法。例如，执行以上描述的图1中的方法步骤S100至S400、图2中的方法步骤S210至S230、图3中的方法步骤S310至S340。

本发明实施例的第三方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器6001执行，例如，被图4中的一个控制处理器6001执行，可使得上述一个或多个控制处理器6001执行上述方法实施例中的图像识别分类方法，例如，执行以上描述的图1中的方法步骤S100至S400、图2中的方法步骤S210至S230、图3中的方法步骤S310至S340。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种图像识别分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的图像识别分类方法，其特征在于：所述预处理包括去噪、灰度化、二值化、锐化、平滑、增强对比度或光线矫正中的任意至少一种。

3.根据权利要求1所述的图像识别分类方法，其特征在于，所述提取所述预处理图像中的特征矩阵，根据所述特征矩阵，构造训练样本，包括以下步骤：

获取所述预处理图像中的图像特征；

根据所述图像特征，构建协方差特征矩阵；

根据所述协方差特征矩阵，构造训练样本。

4.根据权利要求3所述的图像识别分类方法，其特征在于，所述协方差特征矩阵的计算公式为：

5.根据权利要求1或3或4所述的图像识别分类方法，其特征在于，所述将所述训练样本输入到模糊Fisher线性判别中进行训练，获取线性判别的投影方向，包括以下步骤：

利用黎曼度量分别定义模糊类内均值和模糊样本总均值；

6.根据权利要求5所述的图像识别分类方法，其特征在于，所述模糊类间离散度矩阵的计算公式为：

7.根据权利要求5所述的图像识别分类方法，其特征在于，所述模糊类内离散度矩阵的计算公式为：

8.一种运行控制装置，其特征在于，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的图像识别分类方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的图像识别分类方法。