CN109858570A - 图像分类方法及系统、计算机设备及介质 - Google Patents

图像分类方法及系统、计算机设备及介质 Download PDF

Info

Publication number
CN109858570A
CN109858570A CN201910175377.3A CN201910175377A CN109858570A CN 109858570 A CN109858570 A CN 109858570A CN 201910175377 A CN201910175377 A CN 201910175377A CN 109858570 A CN109858570 A CN 109858570A
Authority
CN
China
Prior art keywords
image
classified
sorted
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910175377.3A
Other languages
English (en)
Inventor
彭项君
王云奇
赵晨曦
薛亚冲
李纲
吕耀宇
张硕
何惠东
丁亚东
楚明磊
陈丽莉
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Beijing BOE Optoelectronics Technology Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Beijing BOE Optoelectronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd, Beijing BOE Optoelectronics Technology Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910175377.3A priority Critical patent/CN109858570A/zh
Publication of CN109858570A publication Critical patent/CN109858570A/zh
Priority to US16/556,697 priority patent/US11144799B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • G01N21/8851Scan or image signal processing specially adapted therefor, e.g. for scan signal adjustment, for detecting different kinds of defects, for compensating for structures, markings, edges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/0008Industrial image inspection checking presence/absence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • G01N21/8851Scan or image signal processing specially adapted therefor, e.g. for scan signal adjustment, for detecting different kinds of defects, for compensating for structures, markings, edges
    • G01N2021/8854Grading and classifying of flaws
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Quality & Reliability (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种图像分类方法及系统、计算机设备及介质。该方法的一具体实施方式包括:通过视觉词典获取待分类图像的中层语义特征;根据待分类图像的中层语义特征,利用基于中层语义特征的分类模型对待分类图像进行分类。本实施方式具有高准确性及高鲁棒性等优点。

Description

图像分类方法及系统、计算机设备及介质
技术领域
本发明涉及图像处理技术领域。更具体地,涉及一种图像分类方法及系统、计算机设备及介质。
背景技术
在图像分类领域,图像分类的方法通常基于图像所包含的待分类目标的低层特征实现,这样,进行图像分类的计算量大、效率低,且准确性和鲁棒性难以得到保证。
以对显示屏缺陷进行分类为例。在显示屏的生产中,不仅需要进行显示屏缺陷基检测,还需要对显示屏缺陷进行分类并统计显示屏缺陷的类型,以分析缺陷产生的原因,从而改进工业生产方法,提高显示屏生产的良品率。显示屏缺陷的类型较多,一般分为点缺陷、线缺陷及mura缺陷,点缺陷包括暗点、亮点等,线缺陷包括膜不良、划痕等,mura缺陷包括玻璃破、漏液等。在相机采集处于待测状态下的显示屏的显示图像时的相机参数、拍摄方式和拍摄环境等因素发生变化时,同类型缺陷在图像中的低层特征,如几何形状、纹理、局部描述子等也会随之发生变化。目前,由于显示屏缺陷的分类方法均基于图像的低层特征,因此为保证显示屏缺陷分类的准确性,需要获取显示缺陷在各种相机参数、拍摄方式和拍摄环境下的特征,即需要分别在不同因素下采集后分别进行分类,这就导致了在分类的过程中需要对大量低层特征进行建模、存储和提取,从而使得工作流程繁杂,分类的计算量大、效率低。
因此,需要提供一种新的图像分类方法及系统、计算机设备及介质。
发明内容
本发明的目的在于提供一种图像分类方法及系统、计算机设备及介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种图像分类方法,包括:
通过视觉词典获取待分类图像的中层语义特征;
根据所述待分类图像的中层语义特征,利用基于中层语义特征的分类模型对所述待分类图像进行分类。
本发明第一方面提供的图像分类方法,通过获取待分类图像的中层语义特征并基于待分类图像的中层语义特征对图像进行分类,减小了低层特征与高层特征之间的语义鸿沟,具有高准确性、高鲁棒性、高效率等优点。
可选地,所述通过视觉词典获取待分类图像的中层语义特征进一步包括:
获取待分类图像所包含的待分类目标;
提取所述待分类图像所包含的待分类目标的低层特征;
根据所述待分类图像所包含的待分类目标的低层特征,通过所述视觉词典获取所述待分类图像的中层语义特征。
可选地,所述获取待分类图像所包含的待分类目标进一步包括:通过图像分割获取待分类图像所包含的待分类目标。
可选地,所述通过图像分割获取待分类图像所包含的待分类目标进一步包括:基于最小外接矩形算法对待分类图像进行图像分割,得到待分类图像所包含的待分类目标。
可选地,所述低层特征为方向梯度直方图特征。方向梯度直方图特征是由图像局部区域的梯度方向直方图组成的,一幅图像中的梯度或边缘的方向密度分布能够较为准确的表征待分类目标局部区域形状属性,因此,采用方向梯度直方图特征作为低层特征可保证图像分类的准确性。
可选地,
所述根据所述待分类图像所包含的待分类目标的低层特征,通过视觉词典获取待分类图像的中层语义特征进一步包括:获取与所述待分类图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到所述待分类图像的中层语义特征。
可选地,
在所述获取待分类图像所包含的待分类目标之前,该方法还包括:对所述待分类图像进行图像增强。
采用此可选方式可进一步提高图像分类的准确性。
可选地,所述进行图像增强进一步包括:依次进行灰度化、小波去噪、otsu阈值分割、二值膨胀、中值滤波和二值腐蚀。其中,灰度化可在图像的亮度与色度的分布特性基础上大大减少后续图像处理的计算量;小波去噪可突出图像所包含的待分类目标的边缘、结构等高频信息,提高图像所包含的待分类目标与背景的对比度,从而突出图像所包含的待分类目标;otsu阈值分割用以对图像进行二值化,中值滤波可对二值化图像中的目标进行边缘平滑,二值膨胀和二值腐蚀可去除二值化图像中的孔洞和孤立的虚假点。
可选地,在所述通过视觉词典获取待分类图像的中层语义特征之前,该方法还包括:
获取多个训练图像所包含的待分类目标,提取所述多个训练图像所包含的待分类目标的低层特征,并根据所述多个训练图像所包含的待分类目标的低层特征构建视觉词典。
可选地,在所述根据所述待分类图像的中层语义特征,利用基于中层语义特征的分类模型对所述待分类图像进行分类之前,该方法还包括:
根据所述多个训练图像所包含的待分类目标的低层特征,通过所述视觉词典获取多个训练图像的中层语义特征;
采用机器学习算法对作为训练样本的多个训练图像的中层语义特征进行训练,得到所述基于中层语义特征的分类模型。
可选地,所述获取多个训练图像所包含的待分类目标进一步包括:通过图像分割获取多个训练图像所包含的待分类目标。
可选地,
所述通过图像分割获取多个训练图像所包含的待分类目标进一步包括:基于最小外接矩形算法对多个训练图像进行图像分割,得到多个训练图像所包含的待分类目标。
可选地,所述低层特征为方向梯度直方图特征。
可选地,所述根据所述多个训练图像所包含的待分类目标的低层特征构建视觉词典进一步包括:采用K均值聚类算法对所述多个训练图像所包含的待分类目标的方向梯度直方图特征进行聚类以得到视觉单词,根据所述视觉单词构建视觉词典。
可选地,
所述根据所述多个训练图像所包含的待分类目标的低层特征,通过所述视觉词典获取多个训练图像的中层语义特征进一步包括:获取与所述多个训练图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到所述多个训练图像的中层语义特征。
可选地,
在所述获取多个训练图像所包含的待分类目标之前,该方法还包括:对多个训练图像进行图像增强。
采用此可选方式可进一步提高图像分类的准确性。
可选地,所述进行图像增强进一步包括:依次进行灰度化、小波去噪、otsu阈值分割、二值膨胀、中值滤波和二值腐蚀。
本发明第二方面提供了一种执行本发明第一方面提供的图像分类方法的图像分类系统,包括:
中层语义特征获取模块,用于通过视觉词典获取待分类图像的中层语义特征;
分类模块,用于根据所述待分类图像的中层语义特征,利用基于中层语义特征的分类模型对所述待分类图像进行分类。
本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的图像分类方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的图像分类方法。
本发明的有益效果如下:
本发明所述技术方案通过获取待分类图像的中层语义特征并基于待分类图像的中层语义特征对图像进行分类,减小了低层特征与高层特征之间的语义鸿沟,具有高准确性、高鲁棒性、高效率等优点。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出本发明实施例提供的图像分类方法的流程图。
图2示出进行图像增强的流程图。
图3示出根据多个训练图像所包含的待分类目标的低层特征构建视觉词典的示意图。
图4示出本发明实施例提供的图像分类方法用于显示屏缺陷的分类时的流程图。
图5示出本发明实施例提供的图像分类系统的示意图。
图6示出实现本发明实施例提供的图像分类系统的计算机系统的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
如图1所示,本发明的一个实施例提供了一种图像分类方法,包括:
通过视觉词典获取待分类图像的中层语义特征;
根据待分类图像的中层语义特征,利用基于中层语义特征的分类模型对待分类图像进行分类。
本发明第一方面提供的图像分类方法,通过获取待分类图像的中层语义特征并基于待分类图像的中层语义特征对图像进行分类,减小了低层特征与高层特征之间的语义鸿沟,具有高准确性、高鲁棒性、高效率等优点。
在本实施例的一些可选的实现方式中,通过视觉词典获取待分类图像的中层语义特征进一步包括:
获取待分类图像所包含的待分类目标;
提取待分类图像所包含的待分类目标的低层特征;
根据待分类图像所包含的待分类目标的低层特征,通过视觉词典获取待分类图像的中层语义特征。
图像具有层次化的特征,低层是图像的基础特征,表示图像的客观特征,在提取时不需要任何先验知识,是基于图像层提取的,目前广泛使用的图像低层特征有几何形状、纹理、局部不变特征、变换域特征等;中层是对低层特征进行统计分布分析得到的中层语义特征,包括视觉词包和语义主题;高层是图像的更为抽象的语义,对应于行为语义、情感语义和场景语义等,场景语义描述图像内容,行为语义描述图像中的动作信息,情感语义描述图像传递给人的情感,如高兴、难过等。
本实施例提供的图像分类方法,通过对待分类图像所包含的待分类目标的低层特征进行统计分布分析而形成待分类图像的中层语义特征,即通过对低层特征的统计分布分析建立与语义之间的连接,减小了低层特征与高层特征之间的语义鸿沟,具有高准确性、高鲁棒性、高效率等优点。
在本实施例的一些可选的实现方式中,
在获取待分类图像所包含的目标之前,该方法还包括:对待分类图像进行图像增强。
采用此实现方式可进一步提高图像分类的准确性。
在本实施例的一些可选的实现方式中,如图2所示,对待分类图像进行图像增强进一步包括:对待分类图像依次进行灰度化、小波去噪、otsu阈值分割、二值膨胀、中值滤波和二值腐蚀。其中,灰度化可在图像的亮度与色度的分布特性基础上大大减少后续图像处理的计算量,在一个具体示例中,本实现方式采用加权平均值法对图像进行灰度化,即,设RGB图像的三原色分量值分别为R、G、B,转化后的图像灰度值为GRAY,根据GRAY=0.3R+0.59G+0.11B计算图像灰度值;小波去噪可突出图像所包含的待分类目标的边缘、结构等高频信息,提高待分类目标与背景的对比度,从而突出图像所包含的待分类目标;otsu阈值分割用以对图像进行二值化,中值滤波可对二值化图像所包含的目标进行边缘平滑,二值膨胀和二值腐蚀可去除二值化图像中的孔洞和孤立的虚假点。
在本实施例的一些可选的实现方式中,
获取待分类图像所包含的待分类目标进一步包括:通过图像分割获取待分类图像所包含的目标。
在本实施例的一些可选的实现方式中,
通过图像分割获取待分类图像所包含的待分类目标进一步包括:基于最小外接矩形算法对待分类图像进行图像分割,得到待分类图像所包含的待分类目标。
在一个具体示例中,图像所包含的目标的最小外接矩形通过旋转目标法得到:在90°范围内等间隔的旋转图像所包含的目标,每次计算平行于坐标轴方向的外接矩形面积,取其中面积最小的外接矩形,即为图像所包含的待分类目标的最小外接矩形,然后将最小外接矩形的区域分割出来,即可得到图像所包含的待分类目标。
在本实施例的一些可选的实现方式中,待分类图像所包含的待分类目标的低层特征为方向梯度直方图特征。方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是由图像局部区域的梯度方向直方图组成的,一幅图像中的梯度或边缘的方向密度分布能够较为准确的表征待分类目标局部区域形状属性,因此,采用方向梯度直方图特征作为低层特征可保证图像分类的准确性。
在一个具体示例中,提取HOG特征的流程如下:
(1)采用Gamma校正法对输入的图像进行归一化,用来抑制噪声干扰,Gamma压缩公式为:
I(x,y)=I(x,y)gamma
其中I(x,y)为前述示例得到的图像所包含的待分类目标的最小外接矩形,gamma=1/2;
(2)分别计算图像水平和竖直方向上的像素梯度,得到每个像素点位置的梯度方向向量,用来捕获待图像所包含的待分类目标的边缘信息,图像I(x,y)中,像素点(x,y)的水平方向梯度为Gx(x,y),垂直方向梯度为Gy(x,y):
Gx(x,y)=I(x+1,y)-I(x-1,y)
Gy(x,y)=I(x,y+1)-I(x,y-1)
像素点(x,y)处的梯度的幅度值和方向分别为:
(3)建立梯度直方图,首先将图像划分成多个cell(细胞单元),例如2*2个像素组成一个cell,将梯度直方图的方向取值设置为0-180°,每20°划分一个bin,梯度直方图内的梯度方向权重由梯度大小决定。
(4)将每几个cell划分为一个block(区域),例如2*2个cell划分为一个block,一个block内所有cell的梯度直方图特征串联起来并归一化,通常令cell有一定的重叠,令v表示未被归一化的梯度强度分布向量,应用如下的归一化方法后可以得到:
其中,e为取值较小的常数项。
(5)在整幅图像内,将所有block的HOG特征组合起来,即可得到描述该图像的HOG特征。
在本实施例的一些可选的实现方式中,
根据待分类图像所包含的待分类目标的低层特征,通过视觉词典获取待分类图像的中层语义特征进一步包括:获取与待分类图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到待分类图像的中层语义特征。
在本实施例的一些可选的实现方式中,在通过视觉词典获取待分类图像的中层语义特征之前,该方法还包括:
获取多个训练图像所包含的待分类目标,提取多个训练图像所包含的待分类目标的低层特征,并根据多个训练图像所包含的待分类目标的低层特征构建视觉词典。
在本实施例的一些可选的实现方式中,
在获取多个训练图像所包含的待分类目标之前,该方法还包括:对多个训练图像进行图像增强。
在本实施例的一些可选的实现方式中,对多个训练图像进行图像增强进一步包括:对多个训练图像依次进行灰度化、小波去噪、otsu阈值分割、二值膨胀、中值滤波和二值腐蚀。
在本实施例的一些可选的实现方式中,在根据待分类图像的中层语义特征,利用基于中层语义特征的分类模型对待分类图像进行分类之前,该方法还包括:
根据多个训练图像所包含的待分类目标的低层特征,通过视觉词典获取多个训练图像的中层语义特征;
采用机器学习算法对作为训练样本的多个训练图像的中层语义特征进行训练,得到基于中层语义特征的分类模型。
在本实施例的一些可选的实现方式中,获取多个训练图像所包含的待分类目标进一步包括:通过图像分割获取多个训练图像所包含的待分类目标。
在本实施例的一些可选的实现方式中,
通过图像分割获取多个训练图像所包含的待分类目标进一步包括:基于最小外接矩形算法对多个训练图像进行图像分割,得到多个训练图像所包含的待分类目标。
在本实施例的一些可选的实现方式中,多个训练图像所包含的待分类目标的低层特征为方向梯度直方图特征。
在本实施例的一些可选的实现方式中,根据多个训练图像所包含的待分类目标的低层特征构建视觉词典进一步包括:采用K均值聚类(K-means)算法对多个训练图像所包含的待分类目标的方向梯度直方图特征进行聚类以得到视觉单词,根据视觉单词构建视觉词典。
在本实施例的一些可选的实现方式中,
根据多个训练图像所包含的待分类目标的低层特征,通过视觉词典获取多个训练图像的中层语义特征进一步包括:获取与多个训练图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到多个训练图像的中层语义特征。
在图像分析中应用图像的整体统计信息,而不必分析图像所包含的待分类目标的具体组成结构,是有利于对图像目标特性建模的。词包(Bag of Words,BoW)模型就是这样一种中层特征表示方法,BoW模型将图像看做由视觉单词组成的文档,从而把文本分类领域的BoW模型和相关理论应用到图像理解中来,无需分析解译对象中具体的目标组成,而是应用作为训练样本的多个样本图像,将样本图像的低层特征量化为视觉单词,通过图像的视觉单词分布直方图来表达未知目标的内容。
在一个具体示例中,如图3所示,采用K-means算法对多个训练图像所包含的待分类目标的方向梯度直方图特征进行聚类以得到视觉单词,根据视觉单词构建视觉词典的流程如下:
将对多个训练图像所包含的待分类目标的方向梯度直方图特征通过K-means算法形成视觉单词,如图3中的t1,t2,t,t4,实际上t1,t2,t3,t4就是聚类的质心,所有的视觉单词组成视觉词典。K-means算法是一种无监督的机器学习算法,此算法在聚类时,以类内相似度较高、类间相似度较低为准则,把N个对象分为K个类,具体流程如下:
(1)各感兴趣对象提取的特征组成特征空间:X=[x1,x2,…,xN],xn∈Rd为低层特征;
(2)随机选择k个聚类中心u1,u2,…,uk
(3)计算每个低层特征xi到聚类中心的距离,并重新将每个特征聚类到离它最近的聚类中心,Rk记录k类包含的特征标签:
Rk={i|‖xi-uk‖≤‖xi-ul‖,k≠l},k=1,2,…,k
这样就重新聚成了k类,{R1,R2,…,Rk};
(4)重新计算每个新类的中心,更新视觉词典:
(5)重复以上步骤直到满足收敛要求,得到最优的视觉词典:
U=[u1,u2,…,uk],uk∈Rd
获取与待分类图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到待分类图像的中层语义特征的具体流程如下:
进行视觉单词直方图提取。按照最近邻准则,将每个特征量化为与其欧氏距离最近的视觉单词,公式表示如下:
s.t.‖vi0=‖vi1=1
X是每幅图像的低层特征空间,U是K-means聚类得到的视觉词典,V表示了低层特征与视觉单词的对应关系,条件约束‖vi0=1表示向量vi中只能有一个非零值,‖vi1=1表示向量vi中数的绝对值的累加和为1,因此,‖vi0=‖vi1=1限制了向量vi中只能有一个1,也就是一个低层特征可以被量化为与其欧氏距离最近的一个视觉单词。
则每幅图像的视觉单词直方图为:
Vi=[v1+v2+…+vk],vk∈Rk×1
该视觉单词直方图即为图像的中层语义特征,其应用样本图像,首先将图像所包含的待分类目标的低层特征量化为视觉单词,然后通过图像的视觉单词分布直方图来表达未知目标的内容。因为该中层语义特征应用了图像的整体统计信息,且不必分析图像所包含的目标的具体组成结构,所以在图像目标特性建模上具有高准确性和高鲁棒性。
可理解的是,获取与多个训练图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到多个训练图像的中层语义特征可采用与上述说明相似的具体流程,在此不再赘述。
在本实施例的一些可选的实现方式中,机器学习算法为SVM算法。在一个具体示例中,采用线性SVM分类器对多个训练图像的中层语义特征进行训练以得到基于中层语义特征的分类模型,根据基于中层语义特征的分类模型对待分类图像进行分类,得到图像分类结果。
在一个具体示例中,如图4所示,将本实施例提供的图像分类方法应用于显示屏缺陷的分类时,该方法的具体流程为:
分别采集处于待测状态下(通常为显示纯色,这样,区别于背景的待分类目标即表征的是显示屏缺陷)的多个第一显示屏的多个第一显示图像(即多个训练图像)和处于待测状态下的至少一个待分类显示屏缺陷的第二显示屏的至少一个第二显示图像(即待分类图像),将第一显示图像作为训练样本并将第二显示图像作为测试样本,其中,处于待测状态下表示显示屏显示测试图像,相机采集显示屏显示的测试图像以进行显示屏缺陷的分类;
分别对训练样本和测试样本进行图像增强;
分别通过图像分割得到训练样本和测试样本所包含的显示屏缺陷目标;
分别提取训练样本和测试样本的显示屏缺陷目标的低层特征;
根据训练样本的显示屏缺陷目标的低层特征构建视觉词典,并根据视觉词典分别获取训练样本和测试样本的中层语义特征;
采用机器学习算法对训练样本的中层语义特征进行训练以得到分类模型,并根据测试样本的中层语义特征,利用分类模型对测试样本进行分类。
特征提取是显示屏缺陷分类的关键步骤。现有的基于图像分类的显示屏缺陷分类方法采用的几何、纹理、形状、局部描述子等低层特征是基于图像层信息提取的,由于其没有经过足够的泛化和抽象,因此距离概念层较远,基于低层特征进行显示屏缺陷分类的准确性较低不高,很难准确分类训练集以外的缺陷图像。
本示例提供的流程,通过对显示屏缺陷目标的低层特征进行统计分布分析而形成中层语义特征,即通过对低层特征的统计分布分析建立与语义之间的连接,减小了低层特征与高层特征之间的语义鸿沟,避免了显示屏缺陷分类受相机在采集处于待测状态下的显示屏的显示图像时的相机参数、拍摄方式和拍摄环境等因素的影响,解决了基于低层特征进行显示屏缺陷分类时存在的类内变化大的问题,具有高准确性、高鲁棒性、高效率等优点,进而可为后续分析显示屏缺陷产生的原因、改进工业生产方法、提高显示屏生产的良品率奠定良好的基础。
在另一种描述中,本示例的具体流程包括两个阶段,分别为:
训练阶段:
采集处于待测状态下的多个第一显示屏的多个第一显示图像,将第一显示图像作为训练样本;
对训练样本进行图像增强;
通过图像分割得到训练样本的显示屏缺陷目标;
提取训练样本的显示屏缺陷目标的低层特征;
根据训练样本的显示屏缺陷目标的低层特征构建视觉词典,并通过视觉词典获取训练样本的中层语义特征;
采用机器学习算法对训练样本的中层语义特征进行训练,得到分类模型。
分类阶段:
采集处于待测状态下的至少一个待分类的第二显示屏的至少一个第二显示图像,将第二显示图像作为测试样本;
对测试样本进行图像增强;
通过图像分割得到测试样本的显示屏缺陷目标;
提取测试样本的显示屏缺陷目标的低层特征;
通过视觉词典获取测试样本的中层语义特征;
根据测试样本的中层语义特征,利用分类模型对测试样本进行分类。
如图5所示,本发明的另一个实施例提供了一种执行上述图像分类方法的图像分类系统,包括:
中层语义特征获取模块,用于通过视觉词典获取待分类图像中的待分类目标的中层语义特征;
分类模块,用于根据待分类图像的中层语义特征,利用基于中层语义特征的分类模型对待分类图像进行分类。
需要说明的是,本实施例提供的图像分类系统的原理及工作流程与上述图像分类方法相似,相关之处可以参照上述说明,在此不再赘述。
如图6所示,适于用来实现本实施例提供的图像分类系统的计算机系统,包括中央处理模块(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括中层语义特征获取模块和分类模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。例如,中层语义特征获取模块还可以被描述为“视觉词典模块”。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:
通过视觉词典获取待分类图像的中层语义特征;
根据待分类图像的中层语义特征,利用基于中层语义特征的分类模型对待分类图像进行分类。
需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (20)

1.一种图像分类方法,其特征在于,包括:
通过视觉词典获取待分类图像的中层语义特征;
根据所述待分类图像的中层语义特征,利用基于中层语义特征的分类模型对所述待分类图像进行分类。
2.根据权利要求1所述的方法,其特征在于,所述通过视觉词典获取待分类图像的中层语义特征进一步包括:
获取待分类图像所包含的待分类目标;
提取所述待分类图像所包含的待分类目标的低层特征;
根据所述待分类图像所包含的待分类目标的低层特征,通过所述视觉词典获取所述待分类图像的中层语义特征。
3.根据权利要求2所述的方法,其特征在于,所述获取待分类图像所包含的待分类目标进一步包括:通过图像分割获取待分类图像所包含的待分类目标。
4.根据权利要求3所述的方法,其特征在于,所述通过图像分割获取待分类图像所包含的待分类目标进一步包括:基于最小外接矩形算法对待分类图像进行图像分割,得到待分类图像所包含的待分类目标。
5.根据权利要求4所述的方法,其特征在于,所述低层特征为方向梯度直方图特征。
6.根据权利要求5所述的方法,其特征在于,
所述根据所述待分类图像所包含的待分类目标的低层特征,通过视觉词典获取待分类图像的中层语义特征进一步包括:获取与所述待分类图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到所述待分类图像的中层语义特征。
7.根据权利要求2所述的方法,其特征在于,
在所述获取待分类图像所包含的待分类目标之前,该方法还包括:对所述待分类图像进行图像增强。
8.根据权利要求7所述的方法,其特征在于,所述进行图像增强进一步包括:依次进行灰度化、小波去噪、otsu阈值分割、二值膨胀、中值滤波和二值腐蚀。
9.根据权利要求1所述的方法,其特征在于,在所述通过视觉词典获取待分类图像的中层语义特征之前,该方法还包括:
获取多个训练图像所包含的待分类目标,提取所述多个训练图像所包含的待分类目标的低层特征,并根据所述多个训练图像所包含的待分类目标的低层特征构建视觉词典。
10.根据权利要求9所述的方法,其特征在于,在所述根据所述待分类图像的中层语义特征,利用基于中层语义特征的分类模型对所述待分类图像进行分类之前,该方法还包括:
根据所述多个训练图像所包含的待分类目标的低层特征,通过所述视觉词典获取多个训练图像的中层语义特征;
采用机器学习算法对作为训练样本的多个训练图像的中层语义特征进行训练,得到所述基于中层语义特征的分类模型。
11.根据权利要求10所述的方法,其特征在于,所述获取多个训练图像所包含的待分类目标进一步包括:通过图像分割获取多个训练图像所包含的待分类目标。
12.根据权利要求11所述的方法,其特征在于,
所述通过图像分割获取多个训练图像所包含的待分类目标进一步包括:基于最小外接矩形算法对多个训练图像进行图像分割,得到多个训练图像所包含的待分类目标。
13.根据权利要求12所述的方法,其特征在于,所述低层特征为方向梯度直方图特征。
14.根据权利要求13所述的方法,其特征在于,所述根据所述多个训练图像所包含的待分类目标的低层特征构建视觉词典进一步包括:采用K均值聚类算法对所述多个训练图像所包含的待分类目标的方向梯度直方图特征进行聚类以得到视觉单词,根据所述视觉单词构建视觉词典。
15.根据权利要求14所述的方法,其特征在于,
所述根据所述多个训练图像所包含的待分类目标的低层特征,通过所述视觉词典获取多个训练图像的中层语义特征进一步包括:获取与所述多个训练图像所包含的待分类目标的方向梯度直方图特征欧氏距离最近的视觉单词,得到所述多个训练图像的中层语义特征。
16.根据权利要求9所述的方法,其特征在于,
在所述获取多个训练图像所包含的待分类目标之前,该方法还包括:对多个训练图像进行图像增强。
17.根据权利要求16所述的方法,其特征在于,所述进行图像增强进一步包括:依次进行灰度化、小波去噪、otsu阈值分割、二值膨胀、中值滤波和二值腐蚀。
18.一种执行如权利要求1-17中任一项所述方法的图像分类系统,其特征在于,包括:
中层语义特征获取模块,用于通过视觉词典获取待分类图像的中层语义特征;
分类模块,用于根据所述待分类图像的中层语义特征,利用基于中层语义特征的分类模型对所述待分类图像进行分类。
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-17中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-17中任一项所述的方法。
CN201910175377.3A 2019-03-08 2019-03-08 图像分类方法及系统、计算机设备及介质 Pending CN109858570A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910175377.3A CN109858570A (zh) 2019-03-08 2019-03-08 图像分类方法及系统、计算机设备及介质
US16/556,697 US11144799B2 (en) 2019-03-08 2019-08-30 Image classification method, computer device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910175377.3A CN109858570A (zh) 2019-03-08 2019-03-08 图像分类方法及系统、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN109858570A true CN109858570A (zh) 2019-06-07

Family

ID=66900257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910175377.3A Pending CN109858570A (zh) 2019-03-08 2019-03-08 图像分类方法及系统、计算机设备及介质

Country Status (2)

Country Link
US (1) US11144799B2 (zh)
CN (1) CN109858570A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414538A (zh) * 2019-07-24 2019-11-05 京东方科技集团股份有限公司 缺陷分类方法、缺陷分类训练方法及其装置
CN112668567A (zh) * 2020-12-25 2021-04-16 深圳太极云软技术有限公司 一种基于深度学习的图像裁剪算法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036564A1 (en) * 2020-08-03 2022-02-03 Korea Advanced Institute Of Science And Technology Method of classifying lesion of chest x-ray radiograph based on data normalization and local patch and apparatus thereof
CN112183559B (zh) * 2020-10-27 2022-01-11 深圳市威富视界有限公司 图像识别模型训练方法、图像识别方法及装置
CN112347899B (zh) * 2020-11-03 2023-09-19 广州杰赛科技股份有限公司 一种运动目标图像提取方法、装置、设备及存储介质
CN116721099B (zh) * 2023-08-09 2023-11-21 山东奥洛瑞医疗科技有限公司 一种基于聚类的肝脏ct影像的图像分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208038A (zh) * 2011-06-27 2011-10-05 清华大学 基于视觉词典的图像分类方法
CN102509110A (zh) * 2011-10-24 2012-06-20 中国科学院自动化研究所 基于成对约束的在线词典再加权对图像进行分类的方法
US20120290577A1 (en) * 2011-05-13 2012-11-15 Microsoft Corporation Identifying visual contextual synonyms
CN104850859A (zh) * 2015-05-25 2015-08-19 电子科技大学 一种基于多尺度分析的图像特征包构建方法
CN107515905A (zh) * 2017-08-02 2017-12-26 北京邮电大学 一种基于草图的交互式图像搜索与融合方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8750615B2 (en) * 2010-08-02 2014-06-10 Case Western Reserve University Segmentation and quantification for intravascular optical coherence tomography images
US9075825B2 (en) * 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
US20160132754A1 (en) * 2012-05-25 2016-05-12 The Johns Hopkins University Integrated real-time tracking system for normal and anomaly tracking and the methods therefor
GB201711412D0 (en) * 2016-12-30 2017-08-30 Maxu Tech Inc Early entry

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120290577A1 (en) * 2011-05-13 2012-11-15 Microsoft Corporation Identifying visual contextual synonyms
CN102208038A (zh) * 2011-06-27 2011-10-05 清华大学 基于视觉词典的图像分类方法
CN102509110A (zh) * 2011-10-24 2012-06-20 中国科学院自动化研究所 基于成对约束的在线词典再加权对图像进行分类的方法
CN104850859A (zh) * 2015-05-25 2015-08-19 电子科技大学 一种基于多尺度分析的图像特征包构建方法
CN107515905A (zh) * 2017-08-02 2017-12-26 北京邮电大学 一种基于草图的交互式图像搜索与融合方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘玉环: "基于视觉的产品缺陷检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李康顺 等: "基于改进BOF算法的图像识别和分类", 《中南大学学报(自然科学版)》 *
田欣利 等: "《工程陶瓷先进加工与质量控制技术》", 31 May 2014, 国防工业出版社 *
蔡利梅 等: "《数字图像处理》", 31 August 2014, 中国矿业大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414538A (zh) * 2019-07-24 2019-11-05 京东方科技集团股份有限公司 缺陷分类方法、缺陷分类训练方法及其装置
US11334982B2 (en) 2019-07-24 2022-05-17 Beijing Boe Optoelectronics Technology Co., Ltd. Method for defect classification, method for training defect classifier, and apparatus thereof
CN110414538B (zh) * 2019-07-24 2022-05-27 京东方科技集团股份有限公司 缺陷分类方法、缺陷分类训练方法及其装置
CN112668567A (zh) * 2020-12-25 2021-04-16 深圳太极云软技术有限公司 一种基于深度学习的图像裁剪算法

Also Published As

Publication number Publication date
US11144799B2 (en) 2021-10-12
US20200285917A1 (en) 2020-09-10

Similar Documents

Publication Publication Date Title
CN110334706B (zh) 一种图像目标识别方法及装置
CN109858570A (zh) 图像分类方法及系统、计算机设备及介质
Wang et al. A novel image thresholding method based on Parzen window estimate
CN103679168B (zh) 文字区域检测方法及装置
Khare et al. A blind deconvolution model for scene text detection and recognition in video
CN109919106B (zh) 渐进式目标精细识别与描述方法
CN109711448A (zh) 基于判别关键域和深度学习的植物图像细粒度分类方法
CN101142584A (zh) 面部特征检测的方法
CN111126115A (zh) 暴力分拣行为识别方法和装置
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN111507344A (zh) 从图像中识别出文字的方法和装置
Rhee Detection of spliced image forensics using texture analysis of median filter residual
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
Li et al. Facial image segmentation based on gabor filter
Qin et al. Video scene text frames categorization for text detection and recognition
Kieu et al. Ocr accuracy prediction method based on blur estimation
CN103136536A (zh) 对象检测系统和方法、图像的特征提取方法
CN109902690A (zh) 图像识别技术
Rakowski et al. Hand shape recognition using very deep convolutional neural networks
CN111797830A (zh) 票据图像快速红章检测方法、系统、装置
CN112651996B (zh) 目标检测跟踪方法、装置、电子设备和存储介质
CN115512331A (zh) 一种交通标志检测方法、装置、计算机设备及计算机可读存储介质
Soni et al. Extracting text regions from scene images using Weighted Median Filter and MSER
CN103136524A (zh) 能够抑制检测结果冗余的对象检测系统和方法
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607