CN113112471A - 基于ri-hog特征及快速金字塔的目标检测方法 - Google Patents

基于ri-hog特征及快速金字塔的目标检测方法 Download PDF

Info

Publication number
CN113112471A
CN113112471A CN202110383151.XA CN202110383151A CN113112471A CN 113112471 A CN113112471 A CN 113112471A CN 202110383151 A CN202110383151 A CN 202110383151A CN 113112471 A CN113112471 A CN 113112471A
Authority
CN
China
Prior art keywords
image
target
gradient
vector
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110383151.XA
Other languages
English (en)
Other versions
CN113112471B (zh
Inventor
李勃
管越
任福继
田梦阳
颜铭
杨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110383151.XA priority Critical patent/CN113112471B/zh
Publication of CN113112471A publication Critical patent/CN113112471A/zh
Application granted granted Critical
Publication of CN113112471B publication Critical patent/CN113112471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

基于RI‑HOG特征及快速金字塔的目标检测方法,包括特征提取、向量矫正及目标识别三部分,特征提取对旋转目标进行特征提取,向量矫正对目标旋转进行角度估计,实现特征向量的预校正;目标识别利用SVM分类器进行目标识别,采用稀疏金字塔策略进行分类识别计算,完成目标识别。本发明提出的算法在工业目标识别与检测领域获得了较高的检出率,同时没有增加太多的耗时,体现了本发明在工业领域目标检测中的优越性。

Description

基于RI-HOG特征及快速金字塔的目标检测方法
技术领域
本发明属于图像识别技术领域,涉及目标检测,为一种基于RI-HOG特征及快速金字塔的目标检测方法。
背景技术
现代工业化技术的蓬勃发展,对设备制造的精度,以及工业产品的合格率提出了愈发严格的要求,工业自动化技术的应用领域随之不断拓展。产品质量监控是自动化生产的核心领域之一,而在追求更高速更高效的生产道路上,机器视觉系统已经替代人工检测,成为批量产品监测的重要方式。机器视觉系统可应用于产品检验,生产监控以及零件识别等多种工业场景。
工业监测领域中,需要对产品进行多方位的测量,识别和控制,例如机械制造的零配件尺寸测量,大型货物装箱的对准定位,外包装完整性检测等。在这些应用场景的图像处理分析模块中,经常需要对目标产品进行定位识别,以便进一步检测判断,因此目标的有效识别是实现和发展工业自动化的一条关键途径。在生产线图像采集过程中,由于产品的密集程度高,生产线的运行速度快,难以提前对目标物体进行姿势校正,同时生产线在运行过程中会出现碰撞与晃动,相机也会相应出现轻微的抖动,发生拍摄高度和角度的变化,导致相机采集到的图像中,目标可能发生任意角度的旋转。并且出现尺度大小的变化以及平面内形变。因此如何实现抗形变多尺度的旋转不变目标识别,是机器视觉的一个重要研究方向。
对于目标检测,目前使用最多的几种特征提取方式为:HOG、SIFT、LBP。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征,但运算量较大因此效率较低。LBP具有尺度不变特征,有较高的运算效率,但在光照条件或者物体出现形变时的鲁棒性欠佳。HOG特征通过合成图像矩形区域中所有像素的梯度幅度和方向的综合信息来获取图像特征,对于物体的形变及光照变化的鲁棒性很强。但是HOG不具有旋转不变性,因为HOG特征中的梯度的计算是基于笛卡尔坐标系中邻域像素的绝对位置。一旦目标旋转,HOG特征也将相应更改。
在工业场景下,流水线上的样品可能存在不同的旋转角度,在进行目标识别时,需要能够兼容样品不同旋转角度以及物体的形变。现有的HOG特征只能针对固定角度的样本进行特征提取,不具有旋转不变性,本发明基于HOG特征进行优化,提出一种旋转不变的梯度直方图目标描述方法RI-HOG(Rotation-invariant histogram of gradient)特征来进行特征提取,从而完成目标检测。
发明内容
本发明要解决的问题是:工业场景下的目标识别需要能够兼容样品不同旋转角度以及物体的形变的需求,现有的目标检测方法不能满足抗旋转及形变的检测要求,部分改进的方法检测效率和检测准确率也不能满足使用需求。
本发明的技术方案为:基于RI-HOG特征及快速金字塔的目标检测方法,包括特征提取、向量矫正及目标识别三部分,
1)特征提取,基于方向梯度直方图HOG特征提取算法对旋转目标进行特征提取:
1.1)构建旋转不变梯度域:采用随像素点位置变化的动态坐标系作为计算像素点梯度方向的参考坐标系,在梯度计算过程中采用近似径向梯度变换ARGT的方法;
1.2)配置旋转不变空间域,以矩形检测框的内切圆为空间域的检测窗口,并将检测窗口划分为均匀分布的扇形区域,对扇形区域环向均分,得到截断扇形cell,对截断扇形cell进行分析计算梯度特征向量,cell内像素点梯度的计算采用动态坐标系,同时在进行直方图通道的局部插值时,相对于检测窗口中心点,以径向和切向分布于相邻位置的cell信息进行;
2)向量矫正,对目标旋转进行角度估计,基于同一物体特征分布的高度一致性,以参考位置的图像为样本,利用统计学相关系数独立计算当前图像特征向量与样本图像特征向量的相似度,通过一次循环移位,找到最大相似度,按照对应移位距离换算估计目标的旋转角度,实现特征向量的预校正;
3)目标识别,利用SVM分类器进行目标识别,识别中采用稀疏金字塔策略,设置图像尺度的阶段节点,以预矫正后的特征向量作为分类标准,对节点之间的金字塔采样层直接进行梯度方向直方图的分布情况估计,其中采用基于邻近图像层估计的方法,处理每一采样阶段中的非参考图像层,得到重采样与原始图像梯度特征分布情况的关系,然后对SVM多尺度检测进行分析,得到多尺度图像间的比例关系,完成目标识别。
本发明提出的用于旋转目标检测的RIHOG算子将目标的旋转抽象到了特征空间,使得对于同一目标的不同位置的特征向量,在传入分类器后,保持了对该目标的表征能力。
与传统旋转不变的LBP和SIFT特征描述符相比,本发明提出的RIHOG算子在工业目标识别与检测领域有更好的表现。在SIFT算子中,如果目标发生旋转,其对应的描述子的数量会发生改变,并且记录的梯度方向和强度也会有偏差,因此,特征关键点的变化和丢失会影响到旋转目标的匹配检测。而LBP特征的旋转不变性更适合局部纹理检测,应对更大尺度上的目标识别效果不佳。对于本发明的RIHOG特征,首先通过梯度域和空间域的重新构建来形成旋转不变的特征向量,梯度域采用随像素点位置变化的动态坐标系替代传统HOG特征中的笛卡尔坐标系,并使用ARGT来进行近似径向梯度变换,空间域采用截断扇形的方式分配检测区域空间,并采用等面积径向分布的方式划分cell,对目标物体的平面内旋转具有鲁棒性。
分别采用本发明方法和现有方法来进行实验,数据集中有7017个正样本和500个负样本。检测率的结果如表1所示:
表1
特征类型 真正率 真负率 假正率 假负率 查准率 查全率
LBP 70.65% 99.2% 0.8% 29.35% 99.72% 70.65%
SIFT 82.49% 99% 1% 17.51% 99.4% 82.49%
SRHOG 98.11% 99% 1% 1.89% 99.5% 98.11%
RIHOG 99.35% 99% 1% 0.65% 99.4% 99.35%
上表中的扇环状方向梯度直方图SRHOG为现有技术中的旋转不变HOG方法的实验数据,从上表可以看出,本发明RIHOG特征在查全率方面表现突出,即被正确预测为正例的正例图片更多,同时也维持了较高的查准率。
从耗时的角度来分析,本发明提出的RIHOG特征在空间域和梯度域进行了重新构建,引入了大量的浮点矩阵运算,为降低算法在检测应用时的时间复杂度,本发明有以下三点改进:
(1)使用ARGT近似径向梯度计算进行梯度域优化,减少梯度计算过程中的浮点型计算。
(2)增加目标旋转角度估计这一预处理,进行特征向量的校正,再分类。
(3)应用稀疏金字塔策略,对邻近图像层进行特征分布估计,减少需要遍历的子图像的数量。
本发明与LBP、SIFT、SRHOG特征进行整体耗时的对比结果如表2所示:
表2
特征方法 特征提取/s 旋转角度估计/s svM检测/s 总耗时/s
LBP 0.325 / 0.023 0.348
SIFT 0.516 / 0.026 0.542
SRHOG 0.128 / 0.207 0.335
RIHOG 0.129 0.195 0.028 0.352
由上表可得,本发明RIHOG的耗时主要在旋转角度估计部分,但由于该部分减少了分类检测过程的运算量,因此,算法的整体耗时并不会显著增加。
以上结果表明,本发明提出的算法在工业目标识别与检测领域获得了较高的检出率,同时没有增加太多的耗时,体现了本发明在工业领域目标检测中的优越性。
附图说明
图1为HOG与本发明RIHOG定义梯度方向的对比示意图,其中(a)为HOG定义梯度方向示意图,(b)为RIHOG定义梯度方向示意图。
图2为RGT与ARGT的径向基向量方向示意图,其中(a)为RGT径向基向量方向示意图,(b)为ARGT径向基向量方向示意图。
图3为本发明对不同旋转目标的RIHOG特征向量对比示意图,(a)(b)(c)分别为三个旋转目标及其特征向量图。
图4为本发明中,目标在不同旋转角度下特征向量间的相关性统计示意图,其中(a)为Person系数相关性统计示意图,(b)为Spearman系数相关性统计示意图,(c)为Kendall系数相关性统计示意图。
图5为本发明实施例的工业装箱瓶体图片样本集。
图6为本发明实施例的工业装箱测试集检测效果示意图。
图7为本发明基于RI-HOG特征及快速金字塔的目标检测流程图。
具体实施方式
工业监测领域中,需要对产品进行多方位的测量,识别和控制,例如外包装完整性检测等。在这些应用场景的图像处理分析模块中,经常需要对目标产品进行定位识别,以便进一步检测判断,因此目标的有效识别是实现和发展工业自动化的一条关键途径。在生产线图像采集过程中,由于产品的密集程度高,生产线的运行速度快,难以提前对目标物体进行姿势校正,同时生产线在运行过程中会出现碰撞与晃动,相机也会相应出现轻微的抖动,发生拍摄高度和角度的变化,导致相机采集到的图像中,目标可能发生任意角度的旋转。并且出现尺度大小的变化以及平面内形变。现有的基于传统HOG的目标检测算法应用于工业领域时,不具备抗旋转及形变的功能,部分改进后的旋转HOG目标检测算法的检测效率较低且检测准确率也不存在优势。本发明从优化算法的检测准确率及时间效率两个方面出发,提出了基于RIHOG及快速金字塔策略的目标检测算法,并验证了该算法在工业检测场景中的优越性。
本发明将传统HOG特征的应用范围拓展到旋转目标识别,在计算过程中对梯度信息的提取方式进行优化,以实现HOG特征的旋转不变性质,提出一种RI-HOG(Rotation-invariant histogram of gradient)特征提取方法,本发明包括特征提取、向量矫正及目标识别三部分,如图7所示:
(1)特征提取,基于方向梯度直方图HOG特征提取算法进行改进,对旋转目标进行特征提取:
旋转不变梯度域的构建:在梯度域中,通过随像素点位置变化的动态坐标系替代传统HOG特征中的笛卡尔坐标系,作为计算像素点梯度方向的参考坐标系,在梯度计算过程中引入ARGT近似径向梯度计算的方法减少计算量。
旋转不变空间域的配置:在空间域中,本发明将传统的矩形检测窗口转换为内切圆形窗口,并将检测窗口划分为扇形区域,该区域围绕内切圆的中心均匀分布。对检测窗口中径向和环向的空间配置进行分析,根据空间划分方式的不同计算最终的特征向量。
在梯度域中,区别于传统HOG特征在笛卡尔坐标系下进行梯度计算,本发明使用随像素点位置变化的动态坐标系作为计算像素点梯度方向的参考坐标系。在本发明中,动态坐标系的定义为:对于图像中的任意像素点,由图像中心点到该像素点的方向作为径向单位向量,相应的切向正交向量作为另一基准方向向量,以此确定新的梯度方向。如图1中的像素点P为例,,其梯度方向是以动态坐标系R-T为基准,即与切向单位向量T轴,径向单位向量R轴的夹角。此时像素点P的梯度仍然为S,与R方向夹角为β,当目标物体同样围绕圆心O点逆时针旋转角度θ后,点P移动至P',可以发现,梯度由S变为S',同时围绕在点P周围的动态坐标系也发生改变,由R-T变为R'-T',在图1(b)显示,S'与R'之间的夹角为β',通过旋转矩阵计算可证明β=β'。动态坐标系的引入可以保证当目标物体发生旋转时,目标特征像素点的梯度幅值及梯度方向不会发生变化,保证了RIHOG特征在梯度域的旋转不变性。
同时在计算梯度时,我们采用了ARGT近似径向梯度变换。梯度计算中采用的RGT变换是空间可变的,同时也是一种可逆的变换,RGT变换可以充分利用对象的信息。径向单位向量及切向正交向量这两个基向量可以描述如下,相对于中心O,R是点P的径向,而T是切向。
Figure BDA0003013826600000051
假设φ是R的角度,这两个向量可以表示如下:
Figure BDA0003013826600000061
虽然RGT在创建直方图时不需要旋转,可以通过直接对像素进行计算来创建直方图。但在具体实现时也会在浮点计算中消耗大量的资源。引入ARGT近似梯度变换可以解决这个问题,其中R和T会被转化为新的离散向量组。我们将角分为量化为几个部分,其中(U,V)=P-O,φ(U,V)是P的精确角,也是相应的量化角。
Figure BDA0003013826600000062
其中N是梯度方向量化部分的数量。如图2,(a)图为RGT径向基向量方向示意图,(b)为N=8时ARGT的径向基向量方向示意图。本发明在进行RIHOG特征的梯度计算过程中,采用ARGT进行梯度方向近似,大大减少了浮点型数值的计算量,提升了算法效率。
在空间域中,本发明对图像进行了更为细致的空间采样,将扇形区域划分与圆形区域划分结合,得到最小的cell单元。为了配合梯度域的重定义,在信息提取过程中,我们只关注矩形检测窗口的内切圆所覆盖的区域,内切圆为空间域的检测窗口,将内切圆划分为均匀分布的扇形区域,再对扇形区域环向均分,得到截断扇形cell,cell以内切圆的圆心环向均匀分布。此时,cell内像素点梯度的计算采用动态坐标系方案,同时在进行直方图通道的局部插值时,将不再依赖水平和竖直方向上的相邻cell信息,而是相对于窗口中心点,以径向和切向分布于相邻位置的cell信息进行。
本发明提出的RIHOG特征提取算法同时适用于形状不规则,分布不均匀的目标物体识别,对于一个目标物体,以距离物体中心点的距离为参考,特征信息是均匀分布的,即相同面积的检测区域中,特征像素点的数量是相近的。所以利用区域面积作为划分不变量,采用等面积的方式作为空间径向采样标准,即径向采样边界{R1,R2,...Rk}不再按等差距离分布,而是按照平方等差排列。此时径向采样的边界计算方式变为:
Figure BDA0003013826600000063
其中j的取值范围为[1,k+1],在实验过程中验证等面积径向采样方法的合理性和精确性,证明不同cell内特征像素点数量相近,可以全面考量目标物体的整体特征分布,对不同场景下的目标识别具有鲁棒性。
(2)向量矫正,目标旋转角度估计:通过对旋转目标特征向量的对比发现,经过RIHOG特征计算,不同方向上的同一目标的特征向量分布具有高度的一致性,同时可以将物体在平面内的旋转,转换为特征空间中向量的循环移位,因此本章对目标物体的旋转与对应特征向量的循环移位之间的关系进行分析挖掘,得到定量的换算公式。并且提出一种旋转目标分类方法:将目标的旋转角度估计作为预处理步骤与分类模块解耦,基于同一物体特征分布的高度一致性,利用统计学相关系数独立计算当前特征向量与样本的相似程度,通过一次循环移位,即可找到最大相似度,按照对应移位距离换算估计目标旋转角度。选取Pearson相关系数作为角度估计步骤中的统计方法,实验证明,该方法在旋转角度预估上具有较高的精确度,同时仅消耗较少的时长,便于整体算法框架的应用实现。
本发明对不同旋转角度下的目标的特征向量进行了对比分析,获取目标旋转角度与相应特征向量变化的对应关系,并进行了角度估计,以选取合适的分类器进行目标识别。
图3表示的为参考位置下的目标图像旋转30度、60度的目标图像对其使用RIHOG特征进行特征信息计算时获取对应的特征向量。观察图3可以得出,同一目标在进行任意角度的旋转后,其包含目标的局部区域的特征向量分布仍然具有高度的一致性。由此可以推断,目标发生旋转时,将其映射到特征空间中时,相当于高维向量的循环移位。生成新的特征向量需要遍历移位,对图像进行多尺度金字塔采样也需要遍历每一图像层,如果采用循环移位的方法来进行特征向量校正,检测过程中需要嵌套两层循环,算法复杂度较高,运行耗时也较长。
对于特定的待检测的旋转目标,在每一金字塔图像层的方向位置是相同的,所以在每一尺度上都进行遍历移位来寻找目标旋转角度会造成资源浪费。从分类器角度来说,一次的角度遍历就可以确定当前目标的旋转角度,而无需多次。因此使用预先估计目标旋转角度的策略来替代遍历移位生成新特征向量的方法,可以将抗旋转这一算法重点与特征提取后的分类识别检测模块解耦开来,作为将特征向量传入分类器前的预处理环节,可以大大减少目标识别分类的耗时,同时不降低分类器的检测效果。
本发明对比了3种统计学中的相关系数分析方法:
Pearson相关系数:也被称作积矩相关系数,是用于度量两组数据X,Y之间的线性关联程度,定义为X和Y的协方差和标准差的商,其中分子为X、Y的协方差,分母为X、Y的标准差:
Figure BDA0003013826600000071
Spearman相关系数:Spearman(斯皮尔曼)相关系数又名秩相关系数,对于有序排列的数据变量或者可以被等级划分的信息数据有更为优秀的统计性能。作为Pearson系数的补充,当出现其无法准确描述或错误描述变量相关性的情况时,可以尝试使用Spearman系数度量数据之间的关联性。一般用ρ表示Spearman相关系数,计算方式如下:
Figure BDA0003013826600000081
进行计算时,首先需要对变量X和Y进行排序,得到排序后的数据集合X′和Y′,那么新的数据X′和Y′就被称为秩次。上式(6)中的di就是得到的秩次数据的差值,w表示样本的数据维度。
Kendall相关系数:Kendall(肯德尔)相关系数也是一种秩相关系数,Kendall系数针对的是分类变量,即有类别属性的变量集合。Kendall相关系数可以检验两组任意分布的数据集合在统计学上的相互依赖性,其数值范围也在-1到1之间,当数值距离原点越远,表示两组数据间的等级相似程度越高。用τ来表示Kendall相关系数,由于不确定X和Y中是否存在相同元素,计算方式为:
Figure BDA0003013826600000082
其中C表示两组数据集合X和Y中分布一致的元素对的数量,D则表示分布不一致的元素对的数量。
Figure BDA0003013826600000083
N为数据集中元素的个数,
Figure BDA0003013826600000084
是对第一个数据集进行计算,其中s表示相同的元素组成的子集的数量,Ui表示第i个子集的元素数量,
Figure BDA0003013826600000085
是对第二个数据集而言,计算过程与N1类似。
三种统计学相关系数在旋转角度估计分析实验如图4(a)、(b)、(c)所示,由图4(a)中Person系数的统计结果可得,在向量移位的过程中,特征向量间的相似度达到的最大值为0.6144,符合统计学中的强相关,同时在相似度最高情况下估算的目标旋转角度为329度,与物体的实际旋转角度基本相同。实验证明,Pearson相关系数在预测特征向量相似度上表现优异,对目标旋转角度的估算也具有较高的准确度。
下面从运行耗时这一方面对上面介绍的三种不同的相关系数进行考量,以同一个旋转角度下的目标特征向量为实验对象,通过统计信息估计目标的旋转角度,结果如表3所示:
表3基于不同相关系数的角度估计耗时
统计方式 Pearson Spearman Kendall
估计耗时/s 0.02 0.5 25
特征向量维数 8640 8640 8640
经过实验比较分析,Pearson相关系数在计算过程中表现出最高的准确度和最快的运行速度,因此本发明中最终选取Pearson系数作为预处理中的统计方法,在特征向量被传入分类器之前,对目标的旋转角度进行预估,实现特征向量的预校正。对于X和Y集合中n个元素的估计结果我们采用r来表示:
Figure BDA0003013826600000091
(3)目标识别,利用SVM分类器进行目标识别,采用稀疏金字塔策略,稀疏金字塔也称快速金字塔,本发明中,通过设置图像尺度的阶段节点,对节点之间的金字塔采样层直接进行梯度方向直方图的分布情况估计,采用基于邻近图像层估计的方法处理每一采样阶段中的图像层,而不是通过RIHOG特征进行重新计算。以预矫正后的特征向量作为分类标准,首先对上采样图像和下采样图像的梯度特征分布进行估计,得到重采样与原始图像梯度特征分布情况的关系,然后对SVM多尺度检测进行分析,得到多尺度图像间的比例关系,完成目标识别。
本发明采用稀疏金字塔策略减少分类器在每一层采样图像中进行滑动窗口遍历检测的耗时。设用φ(I)表示图像的统计特征,对于处于s1和s2金字塔层的采样图像,其图像估计分别为
Figure BDA0003013826600000092
Figure BDA0003013826600000093
两者的比值只与
Figure BDA0003013826600000094
有关,而与图像具体的金字塔层无关,这种比值遵循以下规律:
Figure BDA0003013826600000095
对于每种统计特征都有其对应固定的λφ。用Ω表示图像I的特征,并由Ω生成新的通道图像C,Is表示图像I在第s层的表现,R(I,s)表示对图像I进行参数为s的重采样。当SVM进行检测窗口滑动遍历扫描时,现有技术的一般做法是对处在每一个金字塔尺度s上的图像都扫描一遍,采样尺度在对数空间上均匀分布,每计算Cs=Ω(R(I,s))。而由于不同层级图像满足公式(9)这一规律,本发明稀疏金字塔策略是采用邻近图像层估计的方法,在任一采样阶段
Figure BDA0003013826600000096
Figure BDA0003013826600000097
采用公式(10)只计算一张图像Is的特征分布信息,得到对应的Cs,作为参考图像层,
Figure BDA0003013826600000098
对于阶段内其他金字塔层的图像s′,则基于最邻近的参考层进行特征分布估计,得到Cs′=Ω(Is′),而不需要多次计算。
基于上述的方法,减少SVM分类器进行目标识别分类的计算量,耗时减少,这对于将本发明的旋转目标识别算法付诸应用,是非常重要的一步。假设在n×n大小的图像上计算Ω的耗时是线性的,那么在每一个图像采样阶段,计算m个尺度图像的耗时为:
Figure BDA0003013826600000101
由上式可见,采用稀疏金字塔加速策略可以降低算法复杂度,减少SVM分类器进行目标识别的耗时,进一步提高了本文旋转目标识别算法的实用性。
基于以上几个步骤,本发明在保证了识别精度以及识别鲁棒性的同时,还提高了识别的速度,在工业场景下的目标检测中取得了非常好的效果。
本发明实施例在工业瓶包装数据集进行了实验,以评估所提出的方法在旋转不变对象检测中的可行性。瓶子包装数据集是由生产线上的工业相机收集的,其中瓶子是随机排列在箱子里的,部分瓶子的零件结构(如提环)可能存在缺失或损坏。实验的目的是对装箱后的瓶子进行目标检测,计算箱内瓶子的数量是否合格,同时需要识别出有缺陷的瓶子并进行剔除。
试数据集约有7500张图像,由15种类型的瓶子组成,大部分瓶子具有显式旋转。数据集中样本可能存在的缺陷类型为提环缺失,瓶型错误,不同瓶型混合出现等。
在进行装箱合格检测时,首先从待检测图像中提取RIHOG特征,然后利用获得的特征向量进行目标旋转角度估计,通过对当前特征向量与处在参考方向的特征向量进行相似度计算,选取Person相关系数最大值处作为最佳匹配位置,相应的移位长度既可以换算为旋转角度。将进过校正的特征向量传入SVM分类器中,进行目标的识别与分类,同时采用稀疏金字塔进行检测加速,当目标得分超过我们的设定阈值0.5,即被判定为正确瓶体,最终得到当前图片中目标的数量以及是否合格。实验中训练样本的示例如图5所示,检测结果如图6所示,由图6可见,本发明方法对于任意旋转的目标具有良好的识别效果,对于目标不符或缺失的情况均有准确的检测结果。在测试集中,由于拉环的存在,瓶体会出现任意角度的平面内旋转,因此需要统计旋转不变的梯度特征信息。此外,因为箱子有深度,箱壁附近有光照强度的明暗变化,还可能出现箱体对瓶子的遮挡。由实验结果可以得出,本发明RIHOG特征在工业场景下对存在不同旋转角度以及轻微形变的样本能够准确的进行目标检测,成功检测除了提环缺失,瓶体缺失,装箱错误的问题,有效实现了装箱合格性的监测,有利于工业产品质量监控的进一步发展。
本发明重点研究旋转不变的目标识别,以工业产品图像为例,搭建检测框架,提出抗形变抗缩放的旋转目标特征提取算法,并在工业装箱图片集上进行验证评估,能够进行有效的目标识别分类。本发明提出的方法在工业检测领域旋转物体识别分类上有突出表现。

Claims (4)

1.基于RI-HOG特征及快速金字塔的目标检测方法,其特征是包括特征提取、向量矫正及目标识别三部分,
1)特征提取,基于方向梯度直方图HOG特征提取算法对旋转目标进行特征提取:
1.1)构建旋转不变梯度域:采用随像素点位置变化的动态坐标系作为计算像素点梯度方向的参考坐标系,在梯度计算过程中采用近似径向梯度变换ARGT的方法;
1.2)配置旋转不变空间域,以矩形检测框的内切圆为空间域的检测窗口,并将检测窗口划分为均匀分布的扇形区域,对扇形区域环向均分,得到截断扇形cell,对截断扇形cell进行分析计算梯度特征向量,cell内像素点梯度的计算采用动态坐标系,同时在进行直方图通道的局部插值时,相对于检测窗口中心点,以径向和切向分布于相邻位置的cell信息进行;
2)向量矫正,对目标旋转进行角度估计,基于同一物体特征分布的高度一致性,以参考位置的图像为样本,利用统计学相关系数独立计算当前图像特征向量与样本图像特征向量的相似度,通过一次循环移位,找到最大相似度,按照对应移位距离换算估计目标的旋转角度,实现特征向量的预校正;
3)目标识别,利用SVM分类器进行目标识别,识别中采用稀疏金字塔策略,设置图像尺度的阶段节点,以预矫正后的特征向量作为分类标准,对节点之间的金字塔采样层直接进行梯度方向直方图的分布情况估计,其中采用基于邻近图像层估计的方法,处理每一采样阶段中的非参考图像层,得到重采样与原始图像梯度特征分布情况的关系,然后对SVM多尺度检测进行分析,得到多尺度图像间的比例关系,完成目标识别。
2.根据权利要求1所述的基于RI-HOG特征及快速金字塔的目标检测方法,其特征是步骤1)中,动态坐标系的定义为:对于图像中的任意像素点,由图像中心点到该像素点的方向作为径向单位向量,相应的切向正交向量作为另一基准方向向量,以此确定梯度方向。
3.根据权利要求1所述的基于RI-HOG特征及快速金字塔的目标检测方法,其特征是步骤2)的向量矫正中,以Pearson相关系数为统计学相关系数独立计算相似度。
4.根据权利要求1所述的基于RI-HOG特征及快速金字塔的目标检测方法,其特征是步骤3)的稀疏金字塔策略为:
设用φ(I)表示图像的统计特征,对于处于s1和s2金字塔层的采样图像,其图像估计分别为
Figure FDA0003013826590000011
Figure FDA0003013826590000012
满足以下规律:
Figure FDA0003013826590000013
用Ω表示图像I的特征,并由Ω生成新的通道图像C,Is表示图像I在第s层的表现,R(I,s)表示对图像进行参数为s的重采样,当SVM进行检测窗口滑动遍历扫描时,采用邻近图像层估计的方法,对于任一采样阶段
Figure FDA0003013826590000021
只计算一张图像Is的特征分布信息,得到对应的Cs作为参考图像层:
Figure FDA0003013826590000022
对于阶段内其他金字塔层的图像s′,则基于最邻近的参考层进行特征分布估计,得到Cs′=Ω(Is′)。
CN202110383151.XA 2021-04-09 2021-04-09 基于ri-hog特征及快速金字塔的目标检测方法 Active CN113112471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110383151.XA CN113112471B (zh) 2021-04-09 2021-04-09 基于ri-hog特征及快速金字塔的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110383151.XA CN113112471B (zh) 2021-04-09 2021-04-09 基于ri-hog特征及快速金字塔的目标检测方法

Publications (2)

Publication Number Publication Date
CN113112471A true CN113112471A (zh) 2021-07-13
CN113112471B CN113112471B (zh) 2023-12-29

Family

ID=76715026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110383151.XA Active CN113112471B (zh) 2021-04-09 2021-04-09 基于ri-hog特征及快速金字塔的目标检测方法

Country Status (1)

Country Link
CN (1) CN113112471B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485884A (zh) * 2023-06-28 2023-07-25 四川君安天源精酿啤酒有限公司 基于计算机视觉的精酿啤酒瓶口实时定位方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150086118A1 (en) * 2012-04-16 2015-03-26 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for recognizing a visual context of an image and corresponding device
CN106326916A (zh) * 2016-08-11 2017-01-11 电子科技大学 基于多尺度特征估计和高阶bing特征的目标检测方法
CN106446792A (zh) * 2016-08-31 2017-02-22 大连楼兰科技股份有限公司 一种道路交通辅助驾驶环境下的行人检测特征提取方法
CN108564111A (zh) * 2018-03-26 2018-09-21 太原理工大学 一种基于邻域粗糙集特征选择的图像分类方法
CN108710909A (zh) * 2018-05-17 2018-10-26 南京汇川工业视觉技术开发有限公司 一种可变形旋转不变装箱物体清点方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150086118A1 (en) * 2012-04-16 2015-03-26 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for recognizing a visual context of an image and corresponding device
CN106326916A (zh) * 2016-08-11 2017-01-11 电子科技大学 基于多尺度特征估计和高阶bing特征的目标检测方法
CN106446792A (zh) * 2016-08-31 2017-02-22 大连楼兰科技股份有限公司 一种道路交通辅助驾驶环境下的行人检测特征提取方法
CN108564111A (zh) * 2018-03-26 2018-09-21 太原理工大学 一种基于邻域粗糙集特征选择的图像分类方法
CN108710909A (zh) * 2018-05-17 2018-10-26 南京汇川工业视觉技术开发有限公司 一种可变形旋转不变装箱物体清点方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YAN ZHAO等: ""Attention Receptive Pyramid Network for Ship Detection in SAR Images"", 《 IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》 *
傅红普;邹北骥;: "方向梯度直方图及其扩展", 计算机工程, no. 05 *
刘立;詹茵茵;罗扬;刘朝晖;彭复员;: "尺度不变特征变换算子综述", 中国图象图形学报, no. 08 *
王萌: ""基于修剪策略的遥感图像目标检测方法研究"", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485884A (zh) * 2023-06-28 2023-07-25 四川君安天源精酿啤酒有限公司 基于计算机视觉的精酿啤酒瓶口实时定位方法及系统
CN116485884B (zh) * 2023-06-28 2023-09-12 四川君安天源精酿啤酒有限公司 基于计算机视觉的精酿啤酒瓶口实时定位方法及系统

Also Published As

Publication number Publication date
CN113112471B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
JP4376145B2 (ja) 画像分類学習処理システム及び画像識別処理システム
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
CN112330538A (zh) 一种基于特征点优化提取的损伤温度重构图像拼接方法
CN111259808A (zh) 一种基于改进ssd算法的交通标识的检测识别方法
CN113240716B (zh) 一种多特征融合的孪生网络目标跟踪方法及系统
CN113888461A (zh) 基于深度学习的小五金件缺陷检测方法、系统及设备
CN112364881B (zh) 一种进阶采样一致性图像匹配方法
Wan et al. Mixed local channel attention for object detection
CN112652003A (zh) 一种基于ransac测度优化的三维点云配准方法
Kuo et al. Improving defect inspection quality of deep-learning network in dense beans by using hough circle transform for coffee industry
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及系统
US11468609B2 (en) Methods and apparatus for generating point cloud histograms
Kang et al. Yolo-6d+: single shot 6d pose estimation using privileged silhouette information
CN113112471A (zh) 基于ri-hog特征及快速金字塔的目标检测方法
CN113724329A (zh) 融合平面与立体信息的目标姿态估计方法、系统和介质
Liu et al. Robust 3-d object recognition via view-specific constraint
Chen et al. An application of improved RANSAC algorithm in visual positioning
CN115546476A (zh) 基于多尺度特征的多对象检测方法与数据平台
CN112884057A (zh) 基于点云数据的三维曲面质量分类方法、系统及存储介质
Denk et al. Feature line detection of noisy triangulated CSGbased objects using deep learning
CN110751189B (zh) 一种基于感知对比度和特征选择的椭圆检测方法
CN112434712A (zh) 一种基于尺度和角度自适应选取的局部二值模式纹理图像特征提取方法及系统
CN113689067B (zh) 一种图像保障信息评估系统
Zan et al. Automatic detection of ship based on rotation invariant RetinaNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant