CN115049824A - 一种图像识别方法及相关设备 - Google Patents

一种图像识别方法及相关设备 Download PDF

Info

Publication number
CN115049824A
CN115049824A CN202210760922.7A CN202210760922A CN115049824A CN 115049824 A CN115049824 A CN 115049824A CN 202210760922 A CN202210760922 A CN 202210760922A CN 115049824 A CN115049824 A CN 115049824A
Authority
CN
China
Prior art keywords
image
block
image recognition
block images
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210760922.7A
Other languages
English (en)
Inventor
沈艳梅
宿栋栋
刘伟
阚宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202210760922.7A priority Critical patent/CN115049824A/zh
Publication of CN115049824A publication Critical patent/CN115049824A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像识别方法,包括对待识别图像进行网格化处理,获得多个块图像;对各所述块图像进行特征提取,获得各所述块图像的特征信息;根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇;针对每一所述聚类簇,从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果。应用本申请所提供的技术方案,可以有效简化神经网络模型结构的复杂度,提高神经网络模型的泛化能力,进而提高图像识别效果。本申请还公开了一种图像识别装置、设备及计算机可读存储介质,均具有上述有益效果。

Description

一种图像识别方法及相关设备
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种图像识别方法,还涉及一种图像识别装置、设备及计算机可读存储介质。
背景技术
当前,计算机视觉领域的主要研究方向有图像分类、对象检测、目标跟踪、语义分割和实例分割,其中,图像分类识别算法是提出最早、应用最广泛、类型最丰富的一类技术方向。图像识别领域研究的飞速发展离不开深度学习算法的研究,如DNN(Deep NeuralNetwork,深度神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等网络结构模型,尤其是CNN模型,类型较多且应用广泛,模型结构包含了基于卷积运算的特征学习层和全连接分类层,具有强大的数据学习能力。
通常情况下,神经网络分类模型的输入一般为整个图像且只经过简单的预处理,因而需要大量的卷积滤波器数目和隐藏层数目来进行特征学习,如此,卷积核和神经网络隐藏层的数目越来越大,模型的复杂度也越来越高,进而导致模型的泛化能力变差、鲁棒性变差,且模型的可解释性也越来越困难,从而造成模型处理效果不佳的问题;此外,模型复杂度的增加更是给开发技术人员带来了较大的困难。
因此,如何有效简化模型结构的复杂度,提高模型的泛化能力,进而提高图像识别效果是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种图像识别方法,该图像识别方法可以有效简化神经网络模型结构的复杂度,提高神经网络模型的泛化能力,进而提高图像识别效果;本申请的另一目的是提供一种图像识别装置、设备及计算机可读存储介质,均具有上述有益效果。
第一方面,本申请提供了一种图像识别方法,包括:
对待识别图像进行网格化处理,获得多个块图像;
对各所述块图像进行特征提取,获得各所述块图像的特征信息;
根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇;
针对每一所述聚类簇,从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;
利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果。
可选地,所述对待识别图像进行网格化处理,获得多个块图像,包括:
利用预设滑动窗口按照预设滑动策略对所述待识别图像进行扫描,获得所述多个块图像。
可选地,所述对各所述块图像进行特征提取,获得各所述块图像的特征信息,包括:
对各所述块图像进行特征提取,获得个所述块图像的灰度均值、灰度方差、梯度幅值的均值、梯度幅值的方差、梯度方向的均值、梯度方向的方差。
可选地,所述根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇之前,还包括:
将所述梯度幅值的均值低于预设阈值的块图像剔除。
可选地,所述从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像,包括:
将所述聚类簇中各所述块图像的特征信息转换为特征向量;
计算每一所述块图像的特征向量与所述聚类中心之间的距离值;
将所有所述距离值按照从小到大的顺序进行排列,获得距离值序列;
将所述距离值序列中前预设数量个距离值对应的块图像作为所述目标块图像。
可选地,所述利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果,包括:
基于所述目标块图像进行数据增强,获得数据增强后的各目标块图像;
对各所述目标块图像进行图像识别操作,获得所述图像识别结果。
可选地,所述对待识别图像进行网格化处理,获得多个块图像之前,还包括:
对所述待识别图像进行插值处理,获得插值图像;
利用HSV模型对所述插值图像进行颜色变换,获得预处理后的待识别图像。
第二方面,本申请还公开了一种图像识别装置,包括:
网格化模块,用于对待识别图像进行网格化处理,获得多个块图像;
特征提取模块,用于对各所述块图像进行特征提取,获得各所述块图像的特征信息;
聚类处理模块,用于根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇;
筛选模块,用于针对每一所述聚类簇,从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;
识别模块,用于利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果。
第三方面,本申请还公开了一种图像识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的任一种图像识别方法的步骤。
第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任一种图像识别方法的步骤。
本申请所提供的一种图像识别方法,包括对待识别图像进行网格化处理,获得多个块图像;对各所述块图像进行特征提取,获得各所述块图像的特征信息;根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇;针对每一所述聚类簇,从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果。
应用本申请所提供的技术方案,在将待识别图像输入到图像识别模型之前,先对待识别图像进行了局部感兴趣区域处理,即先从待识别图像中提取多个块图像,然后通过特征提取、聚类处理等方法筛选得到了包含有待识别图像的关键特征信息的目标块图像,这些目标块图像即为待识别图像的局部感兴趣区域,由于这些局部感兴趣区域中包含有待识别图像的关键特征信息,因此,局部感兴趣区域的提取相当于完成了一部分低层隐藏层的特征提取工作,基于此,则可以采用具有较少隐藏层和卷积滤波器的神经网络模型来进行图像识别,以获取较优的图像识别效果。显然,该种实现方式可以有效简化图像识别模型结构的复杂度,提高图像识别模型的泛化能力,进而提高图像识别效果;同时,模型复杂度的降低也减轻了技术人员的开发难度。
本申请所提供的一种图像识别装置、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。
图1为本申请所提供的一种图像识别方法的流程示意图;
图2为本申请所提供的一种提取感兴趣区域方法的流程图;
图3为本申请所提供的一种LeNet-5卷积神经网络模型的结构示意图;
图4为本申请所提供的一种图像识别装置的结构示意图;
图5为本申请所提供的一种图像识别设备的结构示意图。
具体实施方式
本申请的核心是提供一种图像识别方法,该图像识别方法可以有效简化神经网络模型结构的复杂度,提高神经网络模型的泛化能力,进而提高图像识别效果;本申请的另一核心是提供一种图像识别装置、设备及计算机可读存储介质,也具有上述有益效果。
为了对本申请实施例中的技术方案进行更加清楚、完整地描述,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种图像识别方法。
请参考图1,图1为本申请所提供的一种图像识别方法的流程示意图,该图像识别方法可包括如下S101至S105。
S101:对待识别图像进行网格化处理,获得多个块图像。
本步骤旨在实现块图像提取,即通过对待识别图像进行网格化处理,以从该待识别图像中提取获得多个块图像。其中,待识别图像即为需要进行图像识别的图像,其可以通过图像采集装置采集获得,也可以是用户直接输入的图像数据。
具体的,图像识别设备中的处理器在接收到待识别图像之后,即可对其进行网格化处理,然后从网格化的待识别图像中提取获得尺寸大小相当于网格尺寸大小的块图像,以便于从所有块图像中筛选得到包含有待识别图像的主要特征信息的块图像,进而实现局部感兴趣区域的提取。
S102:对各块图像进行特征提取,获得各块图像的特征信息。
本步骤旨在实现块图像的特征提取。在从待识别图像中提取得到多个块图像之后,即可按照预先设定的一个或多个维度对每个块图像进行特征提取,得到每个块图像的特征信息。在一种可能的实现方式中,可以采用计算机视觉特征提取方法对各个块图像进行特征提取,获得各个块图像的特征信息,其中,本步骤中进行特征提取主要是提取一些简单的、低层次的特征,如灰度分布、灰度变化等特征信息,当然,特征信息的具体内容可以由技术人员根据实际需求进行设定,本申请对此不做限定。
S103:根据特征信息对所有块图像进行聚类处理,获得多个聚类簇。
本步骤旨在实现块图像的聚类处理,以便于将所有的块图像划分为多个聚类簇。其中,聚类处理属于无监督学习方式,针对给定的样本,其可以只根据样本的相似度或聚类进行分类,不需要知道样本的类别,经过聚类处理后得到聚类簇,每个聚类簇代表一个类别。因此,在对所有块图像进行聚类处理之后,所得到的每个聚类簇中所包含的块图像属于同一类别。
在一种可能的实现方式中,该过程可以采用K-means聚类方法实现。K-means聚类也称为k均值聚类,其采用基于中心的聚类方法,通过迭代将样本划分到k个类别中,使得每个样本与其所属类的中心或均值最近,最终得到k个类(簇),从而形成对特征空间的划分。K-means聚类模型训练的过程,本质上是一个最优化问题求解的过程,K-means模型的最优解对应k个聚类中心,可以满足相似的样本被聚到同类时损失函数最小,且每个特征样本被划分到距离最近的聚类中心(簇)上。
S104:针对每一聚类簇,从聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像。
本步骤旨在实现块图像筛选,以便于从所有块图像中筛选得到包含有待识别图像的关键特征信息的块图像,即可以作为局部感兴趣区域的块图像,也即上述目标块图像。具体而言,经过聚类处理之后所得到的每个聚类簇均有对应的聚类中心,针对每一个聚类簇,可以提取该聚类簇中与聚类中心距离最短的预设数量个块图像,这些块图像即为目标块图像。其中,预设数量的具体取值并不影响本技术方案的实施,由技术人员根据实际情况进行设定即可,本申请对此不做限定。
S105:利用图像识别模型对各目标块图像进行处理,获得图像识别结果。
本步骤旨在实现图像识别,获得图像识别结果。在基于上述步骤筛选得到目标块图像之后,即可将各目标块图像作为图像识别模型的输入,图像识别模型对各目标块图像进行处理之后,其输出即为待识别图像的图像识别结果。其中,图像识别模型为预先创建的神经网络模型,可以预存于相应的存储介质,以便直接调用。
可以理解的是,基于上述S101~S104的步骤,实现了在将待识别图像输入到图像识别模型之前,先对待识别图像进行了局部感兴趣区域处理,得到了包含有待识别图像的关键特征信息的局部感兴趣区域,相当于提前完成了一部分低层隐藏层的特征提取工作,因此,S105中用于实现图像识别操作的图像识别模型则可以采用具有较少隐藏层和卷积滤波器的神经网络模型,以获取较优的图像识别效果。在一种可能的实现方式中,可以选择采用结构层次较为简单的LeNet-5卷积神经网络模型。
可见,本申请实施例所提供的图像识别方法,在将待识别图像输入到图像识别模型之前,先对待识别图像进行了局部感兴趣区域处理,即先从待识别图像中提取多个块图像,然后通过特征提取、聚类处理等方法筛选得到了包含有待识别图像的关键特征信息的目标块图像,这些目标块图像即为待识别图像的局部感兴趣区域,由于这些局部感兴趣区域中包含有待识别图像的关键特征信息,因此,局部感兴趣区域的提取相当于完成了一部分低层隐藏层的特征提取工作,基于此,则可以采用具有较少隐藏层和卷积滤波器的神经网络模型来进行图像识别,以获取较优的图像识别效果。显然,该种实现方式可以有效简化图像识别模型结构的复杂度,提高图像识别模型的泛化能力,进而提高图像识别效果;同时,模型复杂度的降低也减轻了技术人员的开发难度。
在本申请的一个实施例中,上述对待识别图像进行网格化处理,获得多个块图像,可以包括:利用预设滑动窗口按照预设滑动策略对待识别图像进行扫描,获得多个块图像。
本申请实施例提供了一种通过网格化处理提取块图像的实现方法,即可以通过滑动窗口扫描实现。具体的,可以预先创建一个一定大小的滑动窗口,然后控制滑动窗口按照一定的滑动策略在待识别图像中进行滑动,显然,滑动窗口每滑动一次,即可得到一个对应滑动窗口大小的块图像。其中,预设滑动策略的具体内容由技术人员设定即可,可以包括但不限于滑动步长、滑动方向、滑动起始位置等。
在本申请的一个实施例中,上述对各块图像进行特征提取,获得各块图像的特征信息,可以包括:对各块图像进行特征提取,获得个块图像的灰度均值、灰度方差、梯度幅值的均值、梯度幅值的方差、梯度方向的均值、梯度方向的方差。
本申请实施例提供了几种具体类型的特征信息,即灰度均值和方差、梯度幅值的均值和方差、梯度方向的均值和方差。其中,均值特征和方差特征用于描述块图像内的灰度分布情况;梯度特征描述块图像内的灰度变化量和变化方向。其中,通常采用边缘检测算子来计算梯度,如Sobel边缘检测算子,可以较好地好保留图像中的细节信息。
在本申请的一个实施例中,上述根据特征信息对所有块图像进行聚类处理,获得多个聚类簇之前,还可以包括:将梯度幅值的均值低于预设阈值的块图像剔除。
本申请实施例所提供的图像识别方法,在对所有块图像进行聚类处理之前,先对块图像进行了进一步的筛选处理,以减少不必要的计算量,提高图像识别效率。具体的,在根据特征信息对所有块图像进行聚类处理,获得多个聚类簇之前,可以先将梯度幅值的均值低于预设阈值的块图像剔除,这里是旨在过滤掉灰度变化量接近于0的块图像,因为这类块图像包含的特征信息较少,对于后续的聚类处理基本没有影响。其中,预设阈值的具体根据实际情况进行设定即可,依据经验,一般取值为1e-5。
在本申请的一个实施例中,上述从聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像,可以包括如下步骤:
将聚类簇中各块图像的特征信息转换为特征向量;
计算每一块图像的特征向量与聚类中心之间的距离值;
将所有距离值按照从小到大的顺序进行排列,获得距离值序列;
将距离值序列中前预设数量个距离值对应的块图像作为目标块图像。
本申请实施例提供了一种筛选目标块图像的实现方法,以便于从待识别图像的所有块图像中筛选出包含有该待识别图像的关键特征信息的目标块图像。首先,进行向量转换以便于进行距离计算,即针对每一个聚类簇,将该聚类簇中的每一个块图像的特征信息转换为特征向量;然后,计算每个块图像的特征向量与聚类中心之间的距离值,该过程相当于计算块图像与聚类中心之间的距离值;进一步,将当前聚类簇中对应待识别图像的所有块图像对应的距离值按照由小到大的顺序排序,即可得到一个距离值序列;最后,从距离值序列中筛选前预设数量个距离值,并将该预设数量个距离值对应的块图像作为目标块图像。当然,也可以是将当前聚类簇中对应待识别图像的所有块图像对应的距离值按照由大到小的顺序进行排序,然后从得到的距离值序列中筛选后预设数量个距离值,并将该预设数量个距离值对应的块图像作为目标块图像。
在本申请的一个实施例中,上述利用图像识别模型对各目标块图像进行处理,获得图像识别结果,可以包括如下步骤:
基于目标块图像进行数据增强,获得数据增强后的各目标块图像;
对各目标块图像进行图像识别操作,获得图像识别结果。
本申请实施例提供了一种基于图像识别模型进行图像识别的实现方法。具体的,图像识别模型一般包含有多个网络层,第一层为输入层,用于实现数据输入,最后一层为输出层,用于实现数据输出,中间层则用于实现数据处理。其中,在输入层,可以先基于目标块图像进行数据增强处理,以实现样本扩充,然后再由中间层和输出层进行后续处理,即可得到最终的图像识别结果。可以理解的是,先进行数据增强实现数据扩充,再基于扩充后的数据进行图像识别操作,可以有效提高图像识别模型的鲁棒性,提高图像识别效果。
在本申请的一个实施例中,上述对待识别图像进行网格化处理,获得多个块图像之前,还可以包括如下步骤:
对待识别图像进行插值处理,获得插值图像;
利用HSV模型对插值图像进行颜色变换,获得预处理后的待识别图像。
本申请实施例所提供的图像识别方法,在对待识别图像进行处理之前,可以先对待识别图像进行简单的预处理操作,预处理操作的目的通常包括减少噪声、增强特征或者变换至特征提取器要求统一的图像大小等。
以彩色RGB图像为例,预处理操作可以包括图像插值和颜色变换。首先,对待识别图像进行插值处理,可以有效降低图像大小,目的在于减少特征提取过程的计算量以及减弱噪声信息;然后,对插值处理后的图像进行颜色变换。其中,彩色颜色模型可以采用HSV模型,H表示色调,S表示饱和度,V表示亮度或强度。
在上述各实施例的基础上,本申请实施例提供了另一种图像识别方法。
本申请实施例所提供的图像识别方法的实现流程可以包括:
一、图像获取与预处理:
1、图像获取:获取用于分类识别的图像(待识别图像);
2、图像预处理:以彩色图像为例,先对彩色图像进行图像插值处理,以降低图像大小,然后对插值处理后的图像进行颜色变换,得到HSV图像。预处理过程所涉及到的算法较为简单,可以采用计算机视觉图像算法库的相关接口实现,如OpenCV库的resize、cvtColor等函数。
二、局部感兴趣区域提取:
局部感兴趣区域提取的过程是对上一步预处理获取的HSV图像进一步处理以获取包含关键特征的局部区域。请参考图2,图2为本申请所提供的一种提取感兴趣区域方法的流程图。
1、图像网格化:
采用固定大小的矩形窗口Rect=(rw,rh),以步进长度step=(sx,sy),从左到右、从上到下地扫描H、S、V通道图像,每一次窗口滑动对应一个块图像(block),假设HSV图像大小为(w,h),那么可获取的block图像的数目为:
Figure BDA0003724038900000101
第i次窗口滑动的块图像对应灰度值矩阵记为blocki
2、block图像的特征提取:
采用计算机视觉特征提取方法提取block图像的特征,主要是提取H、S、V通道的block图像的6个特征:灰度均值和方差、梯度幅值的均值和方差、梯度方向的均值和方差。
(1)灰度均值和方差:
对于H通道的第i个block对应的块图像
Figure BDA0003724038900000102
其均值和方差特征的计算公式为:
Figure BDA0003724038900000103
Figure BDA0003724038900000104
同理,S通道和V通道的块图像的灰度均值和方差也按照上述公式计算。
(2)梯度幅值的均值和方差:
可以采用Sobel边缘检测算子计算梯度。Sobel算子包含2个卷积核和dx和dy,dx卷积核对水平边缘(X方向)的响应最大,dy卷积核对垂直边缘(Y方向)的响应最大,其中:
Figure BDA0003724038900000105
Figure BDA0003724038900000106
对于H通道的第i个block对应的块图像
Figure BDA0003724038900000107
将其与dx和dy进行卷积运算,得到X方向和Y方向的梯度值
Figure BDA0003724038900000108
Figure BDA0003724038900000109
Figure BDA00037240389000001010
Figure BDA0003724038900000111
其中,运算符号*表示两个矩阵中所有对应位置的元素相乘并求和。
然后,根据
Figure BDA0003724038900000112
Figure BDA0003724038900000113
计算梯度幅值mag和梯度方向ang,对于第i个block内的像素点(r,c),对应的梯度幅值mag和梯度方向ang为:
Figure BDA0003724038900000114
Figure BDA0003724038900000115
获取了H通道的第i个block对应的梯度幅值
Figure BDA0003724038900000116
之后,计算梯度幅值的均值和方差:
Figure BDA0003724038900000117
Figure BDA0003724038900000118
同理,S通道和V通道的块图像的梯度幅值的均值和方差也按照上述公式计算。
(3)梯度方向的均值和方差:
获取了H通道的第i个block对应的梯度方向
Figure BDA0003724038900000119
之后,计算梯度方向的均值和方差:
Figure BDA00037240389000001110
Figure BDA00037240389000001111
其中,
Figure BDA00037240389000001112
的区间范围为[-π,π],将其规范化到[0,2π];
Figure BDA00037240389000001113
同理,S通道和V通道的块图像的梯度方向的均值和方差也按照上述公式计算。
3、block特征的K-means聚类训练和推理:
在特征提取过程中,一个block可以提取一个18维特征向量,一个图像的block数目为nblock,那么一个图像可以提取特征的维度为(nblock,18),将第i个block的特征向量记为
Figure BDA00037240389000001114
那么一个图像可以提取的特征数据记为:
Figure BDA00037240389000001115
至此,每个图像提取了nblock个局部区域的18维特征,接下来则需要从这些block中筛选出包含关键特征的block。
(1)block过滤:
block过滤是过滤掉灰度变化量接近于0的block,即梯度幅值的均值
Figure BDA0003724038900000121
的block,这类block包含的特征信息较少,对于后续处理基本无影响,而且去除这些block可以减少不必要的计算量。
(2)K-means聚类:
将经过block过滤处理之后获得的所有block的特征向量,输入到K-means聚类算法中学习得到k个聚类中心,第l个类(簇)对应的聚类中心记为
Figure BDA0003724038900000122
至此,通过K-means聚类算法实现了将所有图像的block特征划分到k个类(簇),每个类(簇)代表一种类型的block,每一个类(簇)包含了若干个block特征。
4、提取局部感兴趣区域的block图像:
将距离K-means模型的聚类中心最近的block作为局部感兴趣区域的block,对应的block图像作为神经网络模型的输入。
在通过K-means模型推理获取每个block所属的类(簇)之后,计算block特征向量到聚类中心(簇)的距离;然后,找到每个类(簇)中距离聚类中心最近的m个block特征,将其对应的block图像作为图像的局部感兴趣区域block。一个图像的一个聚类中心可提取图像的m个block图像,那么k个聚类中心总共可提取k×m个局部感兴趣区域block,用于下一步的神经网络模型学习。
三、神经网络分类模型:
神经网络分类模型的主要流程包括:神经网络输入层转换、CNN模型训练和CNN模型推理。经过上述局部感兴趣区域提取,每个图像提取了k×m个局部感兴趣区域block图像,因而首先需要考虑如何将k×m个局部感兴趣区域block图像输入到CNN的输入层,即神经网络输入层转换,然后是CNN模型训练和推理。
(1)神经网络输入层转换:
每个图像包含了k×m个局部感兴趣区域block图像,相当于图像中的所有block被划分到个k类(簇)上,每个类(簇)代表一类block特征,每个类(簇)对应m个局部感兴趣区域block图像。配置迭代次数Ns,每次迭代,随机地从每个类(簇)中的m个block图像中选取一个block,那么k个类(簇)就对应k个block图像,每个block对应的图像大小为(rw,rh),将k个block图像按照类(簇)编号的顺序排列,那么,对于RGB彩色图像,可以得到一个维度为(3×k,rw,rh)的张量数据,相当于一个3k通道的图像,将其作为CNN模型的输入。由于每个类(簇)对应m个block图像,一个样本图像总共可以得到mk个3k通道的图像,即一个图像可以扩展成mk个图像,要求Ns≤mk。因而神经网络输入层转换可以实现样本增强的效果,不需要专门的数据增强处理也能实现数据数目增加,从而提高神经网络模型的鲁棒性。
(2)CNN分类模型:
本申请实施例采用结构层次较为简单的LeNet-5卷积神经网络模型,LeNet-5模型由2个卷积层、2个池化层、3个全连接层构成,如图3所示,图3为本申请所提供的一种LeNet-5卷积神经网络模型的结构示意图,从前到后依次为:输入层、卷积层C1、池化层S2、卷积层C3、池化层S4、全连接稠密层F5、全连接稠密层F6、输出层,具体的结构层次设计如下:
①输入层:输入层为(3×k,rw,rh)的张量数据,来自k个block图像,block图像包含B、G、R三个通道,图像尺寸为(rw,rh),因而输入层数据的维度为(3×k,rw,rh);
②卷积层C1:卷积层的图像称为feature map,通过卷积核对输入层张量数据进行卷积运算所得,卷积核的数目为feature map的数目,C1层的卷积核的数目为记为Nc1,卷积核的维度为(3×k,kwc1,khc1);
③池化层S2:池化层图像是对卷积层C1进行下采样所得,池化层S2图像的数目记为Ns2,和卷积层C1图像的数目相同Ns2=Nc1
④卷积层C3:通过卷积核对S2层的张量图像进行卷积运算所得,C1层的卷积核的数目记为Nc3,卷积核的维度为(Ns2,kwc3,khc3);
⑤池化层S4:池化层图像是对卷积层C3进行下采样所得,池化层S4图像的数目记为Ns4,和卷积层C3图像的数目相同Ns4=Nc3
⑥全连接层F5和F6:将池化层S4的数据展平成一个一维特征向量,记为Vs4,维度记为Ls4,池化层与F5、F5与F6之间全连接,F5、F6、输出层均为一维特征向量,F5层的特征向量和维度分别记为LF5和LF6
⑦输出层:F6、输出层之间全连接,输出层的向量维度为样本的类别数目。
此外,在模型训练过程中,还需配置以下参数:
①Batchsize:批处理样本的大小,即每一批处理的样本数量;
②迭代次数:批处理样本的迭代次数;
③Dropout:丢弃率,每次迭代适当增加样本丢弃率,可以提高训练速度。
完成以上参数配置,并制作完成输入层样本数据和输出层标签,定义完交叉熵损失函数,即可开始LeNet-5模型训练,并基于训练得到的LeNet-5模型实现图像识别。
可见,本申请实施例所提供的图像识别方法,在将待识别图像输入到图像识别模型之前,先对待识别图像进行了局部感兴趣区域处理,即先从待识别图像中提取多个块图像,然后通过特征提取、聚类处理等方法筛选得到了包含有待识别图像的关键特征信息的目标块图像,这些目标块图像即为待识别图像的局部感兴趣区域,由于这些局部感兴趣区域中包含有待识别图像的关键特征信息,因此,局部感兴趣区域的提取相当于完成了一部分低层隐藏层的特征提取工作,基于此,则可以采用具有较少隐藏层和卷积滤波器的神经网络模型来进行图像识别,以获取较优的图像识别效果。显然,该种实现方式可以有效简化图像识别模型结构的复杂度,提高图像识别模型的泛化能力,进而提高图像识别效果;同时,模型复杂度的降低也减轻了技术人员的开发难度。
本申请实施例提供了一种图像识别装置。
请参考图4,图4为本申请所提供的一种图像识别装置的结构示意图,该图像识别装置可包括:
网格化模块1,用于对待识别图像进行网格化处理,获得多个块图像;
特征提取模块2,用于对各块图像进行特征提取,获得各块图像的特征信息;
聚类处理模块3,用于根据特征信息对所有块图像进行聚类处理,获得多个聚类簇;
筛选模块4,用于针对每一聚类簇,从聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;
识别模块5,用于利用图像识别模型对各目标块图像进行处理,获得图像识别结果。
可见,本申请实施例所提供的图像识别装置,在将待识别图像输入到图像识别模型之前,先对待识别图像进行了局部感兴趣区域处理,即先从待识别图像中提取多个块图像,然后通过特征提取、聚类处理等方法筛选得到了包含有待识别图像的关键特征信息的目标块图像,这些目标块图像即为待识别图像的局部感兴趣区域,由于这些局部感兴趣区域中包含有待识别图像的关键特征信息,因此,局部感兴趣区域的提取相当于完成了一部分低层隐藏层的特征提取工作,基于此,则可以采用具有较少隐藏层和卷积滤波器的神经网络模型来进行图像识别,以获取较优的图像识别效果。显然,该种实现方式可以有效简化图像识别模型结构的复杂度,提高图像识别模型的泛化能力,进而提高图像识别效果;同时,模型复杂度的降低也减轻了技术人员的开发难度。
在本申请的一个实施例中,上述网格化模块1可具体用于利用预设滑动窗口按照预设滑动策略对待识别图像进行扫描,获得多个块图像。
在本申请的一个实施例中,上述特征提取模块2可具体用于对各块图像进行特征提取,获得个块图像的灰度均值、灰度方差、梯度幅值的均值、梯度幅值的方差、梯度方向的均值、梯度方向的方差。
在本申请的一个实施例中,该图像识别装置还可以包括剔除模块,用于在上述根据特征信息对所有块图像进行聚类处理,获得多个聚类簇之前,将梯度幅值的均值低于预设阈值的块图像剔除。
在本申请的一个实施例中,上述筛选模块4可具体用于将聚类簇中各块图像的特征信息转换为特征向量;计算每一块图像的特征向量与聚类中心之间的距离值;将所有距离值按照从小到大的顺序进行排列,获得距离值序列;将距离值序列中前预设数量个距离值对应的块图像作为目标块图像。
在本申请的一个实施例中,上述识别模块5可具体用于基于目标块图像进行数据增强,获得数据增强后的各目标块图像;对各目标块图像进行图像识别操作,获得图像识别结果。
在本申请的一个实施例中,该图像识别装置还可以包括预处理模块,用于在上述对待识别图像进行网格化处理,获得多个块图像之前,对待识别图像进行插值处理,获得插值图像;利用HSV模型对插值图像进行颜色变换,获得预处理后的待识别图像。
对于本申请实施例提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
本申请实施例提供了一种图像识别设备。
请参考图5,图5为本申请所提供的一种图像识别设备的结构示意图,该图像识别设备可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时可实现如上述任意一种图像识别方法的步骤。
如图5所示,为图像识别设备的组成结构示意图,图像识别设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行图像识别方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
对待识别图像进行网格化处理,获得多个块图像;
对各块图像进行特征提取,获得各块图像的特征信息;
根据特征信息对所有块图像进行聚类处理,获得多个聚类簇;
针对每一聚类簇,从聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;
利用图像识别模型对各目标块图像进行处理,获得图像识别结果。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图5所示的结构并不构成对本申请实施例中图像识别设备的限定,在实际应用中图像识别设备可以包括比图5所示的更多或更少的部件,或者组合某些部件。
本申请实施例提供了一种计算机可读存储介质。
本申请实施例所提供的计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种图像识别方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请实施例提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请的保护范围内。

Claims (10)

1.一种图像识别方法,其特征在于,包括:
对待识别图像进行网格化处理,获得多个块图像;
对各所述块图像进行特征提取,获得各所述块图像的特征信息;
根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇;
针对每一所述聚类簇,从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;
利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果。
2.根据权利要求1所述的图像识别方法,其特征在于,所述对待识别图像进行网格化处理,获得多个块图像,包括:
利用预设滑动窗口按照预设滑动策略对所述待识别图像进行扫描,获得所述多个块图像。
3.根据权利要求1所述的图像识别方法,其特征在于,所述对各所述块图像进行特征提取,获得各所述块图像的特征信息,包括:
对各所述块图像进行特征提取,获得个所述块图像的灰度均值、灰度方差、梯度幅值的均值、梯度幅值的方差、梯度方向的均值、梯度方向的方差。
4.根据权利要求3所述的图像识别方法,其特征在于,所述根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇之前,还包括:
将所述梯度幅值的均值低于预设阈值的块图像剔除。
5.根据权利要求1所述的图像识别方法,其特征在于,所述从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像,包括:
将所述聚类簇中各所述块图像的特征信息转换为特征向量;
计算每一所述块图像的特征向量与所述聚类中心之间的距离值;
将所有所述距离值按照从小到大的顺序进行排列,获得距离值序列;
将所述距离值序列中前预设数量个距离值对应的块图像作为所述目标块图像。
6.根据权利要求1所述的图像识别方法,其特征在于,所述利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果,包括:
基于所述目标块图像进行数据增强,获得数据增强后的各目标块图像;
对各所述目标块图像进行图像识别操作,获得所述图像识别结果。
7.根据权利要求1至6任一项所述的图像识别方法,其特征在于,所述对待识别图像进行网格化处理,获得多个块图像之前,还包括:
对所述待识别图像进行插值处理,获得插值图像;
利用HSV模型对所述插值图像进行颜色变换,获得预处理后的待识别图像。
8.一种图像识别方法装置,其特征在于,包括:
网格化模块,用于对待识别图像进行网格化处理,获得多个块图像;
特征提取模块,用于对各所述块图像进行特征提取,获得各所述块图像的特征信息;
聚类处理模块,用于根据所述特征信息对所有所述块图像进行聚类处理,获得多个聚类簇;
筛选模块,用于针对每一所述聚类簇,从所述聚类簇中提取与聚类中心距离最近的预设数量个块图像作为目标块图像;
识别模块,用于利用图像识别模型对各所述目标块图像进行处理,获得图像识别结果。
9.一种图像识别方法设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的图像识别方法方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像识别方法方法的步骤。
CN202210760922.7A 2022-06-30 2022-06-30 一种图像识别方法及相关设备 Pending CN115049824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210760922.7A CN115049824A (zh) 2022-06-30 2022-06-30 一种图像识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210760922.7A CN115049824A (zh) 2022-06-30 2022-06-30 一种图像识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN115049824A true CN115049824A (zh) 2022-09-13

Family

ID=83164567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210760922.7A Pending CN115049824A (zh) 2022-06-30 2022-06-30 一种图像识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN115049824A (zh)

Similar Documents

Publication Publication Date Title
US11256960B2 (en) Panoptic segmentation
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN109461157B (zh) 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN108229526B (zh) 网络训练、图像处理方法、装置、存储介质和电子设备
CN111428781A (zh) 遥感影像地物分类方法及系统
CN111191654B (zh) 道路数据生成方法、装置、电子设备及存储介质
CN110070115B (zh) 一种单像素攻击样本生成方法、装置、设备及存储介质
JP6923159B2 (ja) 情報処理装置
CN101615244A (zh) 手写板坯号自动识别方法及识别装置
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN111680690A (zh) 一种文字识别方法及装置
CN108921172B (zh) 基于支持向量机的图像处理装置及方法
CN114037640A (zh) 图像生成方法及装置
CN113516126A (zh) 一种基于注意力特征融合的自适应阈值场景文本检测方法
CN115033721A (zh) 基于大数据的图像检索方法
CN112434731B (zh) 图像识别方法、装置及可读存储介质
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
JP6967201B2 (ja) 情報処理装置
CN112070116B (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
CN116596891A (zh) 基于半监督多任务检测的木地板颜色分类及缺陷检测方法
CN115049824A (zh) 一种图像识别方法及相关设备
CN115731172A (zh) 基于图像增强和纹理提取的裂缝检测方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination