CN114926420B - 一种基于跨级特征增强的目标馕的识别及计数方法 - Google Patents

一种基于跨级特征增强的目标馕的识别及计数方法 Download PDF

Info

Publication number
CN114926420B
CN114926420B CN202210505926.0A CN202210505926A CN114926420B CN 114926420 B CN114926420 B CN 114926420B CN 202210505926 A CN202210505926 A CN 202210505926A CN 114926420 B CN114926420 B CN 114926420B
Authority
CN
China
Prior art keywords
crusty pancake
target
shallow
cross
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210505926.0A
Other languages
English (en)
Other versions
CN114926420A (zh
Inventor
李超
殷光强
杨钊贤
杨晓宇
田晓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210505926.0A priority Critical patent/CN114926420B/zh
Publication of CN114926420A publication Critical patent/CN114926420A/zh
Application granted granted Critical
Publication of CN114926420B publication Critical patent/CN114926420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30128Food products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别与检测技术领域,特别是涉及一种基于跨级特征增强的目标馕的识别及计数方法,包括目标馕区域的提取、浅层纹理信息提取、浅层纹理特征提取、深层语义特征提取以及利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类和计数。通过本识别及计数方法,能有效解决现有技术中不能快速、有效、自动地识别出纹理特征差异过小的不同种类馕的问题。

Description

一种基于跨级特征增强的目标馕的识别及计数方法
技术领域
本发明涉及图像识别与检测技术领域,特别是涉及一种基于跨级特征增强的目标馕的识别及计数方法。
背景技术
国内外馕产业中的识别分类技术手段一直处于人工识别分类的阶段,正向馕识别、计数的自动化发展。馕产业中的馕,大多纹理相近,因不同口味和制作方式的不同,会在加工中有些许纹理上的区别,如葱花、辣椒或玫瑰花酱等,其细小特征差异在肉眼程度下难以分别。且不同人员对馕类别的认知有偏差,对馕细小差异的区分不到位,经常产生误分、漏分的情况,费时费力,极大的降低了生产效率。
同时,基于深度学习的识别技术在馕产业中的应用一直处于空缺状态,其在类似产业中的应用也存在一定缺陷。例如现有技术中,提出了公开号为CN112085118A,公开日为2020年12月15日的中国发明专利文件,该专利文献所公开的技术方案如下:一种基于图像识别技术的大数据分类统计方法,该基于图像识别技术的大数据分类统计方法的具体步骤如下:S1:建立图像识别系统:根据使用需求建立图像识别系统,并对图像识别系统识别训练,使得图像识别系统满足对目标物的识别并能够将识别结果输出;S2:图像识别并获取结果:根据步骤S1的识别结果,将图像识别的结果输出;S3:对图像识别结果分类统计;S4:对识别准确性反馈改进。
上述技术方案在实际使用过程中,会出现以下问题:特征提取能力较弱,细节相近的目标无法区分,导致该识别技术无法满足馕产业中馕的识别计数功能。
发明内容
为解决上述技术问题,本发明提出了一种基于跨级特征增强的目标馕的识别及计数方法,能有效解决现有技术中不能快速、有效、自动地识别出纹理特征差异过小的不同种类馕的问题。
本发明是通过采用下述技术方案实现的:
一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:包括以下步骤:
S1.用神经网络的边框回归的方式提取出目标馕所在的区域,具体包括以下步骤:
S11.构建并修正椭圆预选框;
S12.输入预处理后的图像;
S13.利用椭圆预选框匹配并预测该预处理后的图像中馕的边框,区分、筛选并分割出包含有目标馕区域的图像;
S2.目标馕区域图像的浅层纹理信息提取,并将提取的浅层纹理信息分为两部分,一部分经过分类得到对应的浅层纹理特征;另一部分用于输入深层网络;
S3.利用深层网络提取输入的浅层纹理信息中的深层语义特征;
S4.利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类和计数。
所述步骤S11中构建椭圆预选框具体指:依据实际计算的椭圆坐标,向上取整,生成椭圆内为1、椭圆外为0的椭圆掩码;将矩形预选框与椭圆掩码相乘形成椭圆预选框。
所述步骤S11中修正椭圆预选框具体指:依据矩形预选框的长宽生成椭圆标注框,计算椭圆预选框和椭圆标注框的交并比,当交并比大于或等于0.7时,作为正样本训练对目标馕区域的识别;当交并比小于0.7时,作为负样本对馕背景的识别。
所述步骤S2中浅层纹理信息提取具体指:将分割后的有目标馕区域的图像D*W*H连续输入2层64*W/2*H/2的conv网络、3层128*W/4*H/4的conv网络和4层256*W/8*H/8的conv网络,其输出的结果为浅层纹理信息。
所述步骤S2中经过分类得到对应的浅层纹理特征具体指:将浅层纹理信息经过全连接层FC层进行输出,并依据馕的特征种类的数量n设置成n组8位的特征向量,所述n组8位的特征向量即浅层纹理特征,用于表示馕浅层特征的不同等级分类。
所述步骤S3中利用深层网络提取输入的浅层纹理信息中的深层语义特征具体指:将一部分浅层网络提取的浅层纹理信息送入深层网络进行语义分析,利用transformer结构的深层网络,将浅层网络输出的浅层纹理信息D*W*H划分成3D*W/4*H/4个4*4的小片,随后将划分后的小片输入至LE层和偶数个的STB层,并重复3~4次,得到深层语义特征。
所述S4具体指:将n组8位的特征向量,通过加权拼接的方式,生成N*8位的特征向量,其中,加权过程中的加权系数为λ1~N,λ1~N为不同种特征种类所对应的权重;将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接,其中,权重θ为浅层纹理特征所对应的权重;通过3层全连接层FC层输出最终分类结果,即得到跨级特征增强的结果;对跨级特征增强的结果进行分类;根据分类结果对各类馕进行计数。
所述步骤S1还包括:图像的采集和图像的预处理。
所述图像的预处理具体指:通过预加偏置的伽马变换将馕的可见光图像变换为灰度图,并通过模糊处理剔除小颗粒色差区域,再与原始的可见光图像合并为四通道图像,所述原始的可见光图像为“RGB”三通道图像。
所述深层网络采用残差收缩网络,采用注意力机制,自适应调整网络激活函数阈值τ,当输入小于τ时输出为0,大于τ时输出值为输入-τ。
与现有技术相比,本发明的有益效果表现在:
1、本发明针对馕产业中小差异性馕的纹理等细节相近的特点,先通过目标检测技术实现馕目标的精准定位,然后通过浅层网络获取小感受野范围内的馕纹理细节特征,并跨级连接至经过深度残差收缩网络提取特征后的特征网络,以提高对馕产业中馕细小差异的识别准确度和计数速度。
本发明通过设置椭圆预选框,与常规的矩形预选框相比,能更快的区分和筛选出潜在的有馕区域,图像处理的效率越高。
2、利用浅层网络提取目标区域浅层纹理特征的过程中,将卷积层感受野限制在了8*8的区域,能够很好的提取局部的纹理特征,同时总共9层的网络结构,极大减少了计算复杂度,提高了馕的识别速度。
3、本发明中,在输出浅层纹理信息时,与传统的多级特征输出结果不同,在训练过程中,这一步的输出信息不仅作为后级的输入作为深层网络分类的依据之一,而且可以通过设置损失函数优化浅层特征分类的效果,因而利用了工程化的思想,对馕目标进行一定加权预分类,提高了识别精度和速度。
4、本发明中的深层网络结构能适合不同尺寸图片的输入,同时能够扩大网络的感受野,利用注意力机制分析浅层网络提取出的纹理块之间的空间、语义联系,从而更为准确的对馕的种类进行分类。
5、本发明通过预加偏置的伽马变换和模糊处理,能有效解决因为馕产业中常见馕的整体颜色较为单一,且有色差的区域范围较小,导致后期识别准确率较低的问题。
附图说明
下面将结合说明书附图和具体实施方式对本发明作进一步的详细说明,其中:
图1为本发明的流程示意图。
具体实施方式
实施例1
作为本发明基本实施方式,本发明包括一种基于跨级特征增强的目标馕的识别及计数方法,包括以下步骤:
S1.用神经网络的边框回归的方式提取出目标馕所在的区域,具体包括以下步骤:
S11.构建并修正椭圆预选框;
S12.输入预处理后的图像;
S13.利用椭圆预选框匹配并预测该预处理后的图像中馕的边框,区分、筛选并分割出包含有目标馕区域的图像。
S2.目标馕区域图像的浅层纹理信息提取,具体是:根据步骤S1中所提取的目标馕所在区域,利用浅层网络来进行的图像信息提取。将提取的浅层纹理信息分为两部分,一部分经过分类得到对应的浅层纹理特征;另一部分用于输入深层网络。
S3.利用深层网络提取输入的浅层纹理信息中的深层语义特征,利用深层网络来进行的图像信息挖掘。
S4.利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类,并依此为基础进行计数。
实施例2
作为本发明一较佳实施方式,本发明包括一种基于跨级特征增强的目标馕的识别及计数方法,包括以下步骤:
S1.用神经网络的边框回归的方式提取出目标馕所在的区域,具体包括以下步骤:
S11.构建并修正椭圆预选框。其中,椭圆预选框的构建以常规的矩形预选框为基础,具体的构建方法为:依据实际计算的椭圆坐标,向上取整,生成椭圆内为1、椭圆外为0的椭圆掩码;将矩形预选框与椭圆掩码相乘形成椭圆预选框。椭圆预选框构建完成后,需对其进行修正,具体的修正方法为:依据矩形预选框的长宽生成椭圆标注框,计算椭圆预选框和椭圆标注框的交并比,当交并比大于或等于0.7时,作为正样本训练对目标馕区域的识别;当交并比小于0.7时,作为负样本对馕背景的识别。
S12.输入预处理后的图像。
S13.利用椭圆预选框匹配并预测该预处理后的图像中馕的边框,区分、筛选并分割出包含有目标馕区域的图像。
S2.目标馕区域图像的浅层纹理信息提取,并将提取的浅层纹理信息分为两部分,一部分经过分类得到对应的浅层纹理特征;另一部分输入深层网络。
S3.利用深层网络提取输入的浅层纹理信息中的深层语义特征。
S4.利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类和计数。
实施例3
作为本发明另一较佳实施方式,本发明包括一种基于跨级特征增强的目标馕的识别及计数方法,包括以下步骤:
S1.用神经网络的边框回归的方式提取出目标馕所在的区域,具体包括以下步骤:
S11.构建并修正椭圆预选框;
S12.输入预处理后的图像;
S13.利用椭圆预选框匹配并预测该预处理后的图像中馕的边框,区分、筛选并分割出包含有目标馕区域的图像。
S2.目标馕区域图像的浅层纹理信息提取,并将提取的浅层纹理信息分为两部分,一部分经过分类得到对应的浅层纹理特征;另一部分输入深层网络。其中经过分类得到对应的浅层纹理特征具体指:将浅层纹理信息经过全连接层FC层进行输出,并依据馕的特征种类的数量n设置成n组8位的特征向量,所述n组8位的特征向量即浅层纹理特征,用于表示馕浅层特征的不同等级分类。
S3.利用深层网络提取输入的浅层纹理信息中的深层语义特征,具体指:将一部分浅层网络提取的浅层纹理信息送入深层网络进行语义分析,利用transformer结构的深层网络,将浅层网络输出的浅层纹理信息D*W*H划分成3D*W/4*H/4个4*4的小片,随后将划分后的小片输入至LE层和偶数个的STB层,并重复3~4次,得到深层语义特征。
S4.利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类和计数。具体指:先将n组8位的特征向量,通过加权拼接的方式,生成N*8位的特征向量,其中,加权过程中的加权系数为λ1~N,λ1~N为不同种特征种类所对应的权重。再将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接,其中,权重θ为浅层纹理特征所对应的权重;通过3层全连接层FC层输出最终分类结果,即得到跨级特征增强的结果;对跨级特征增强的结果进行分类;根据分类结果对各类馕进行计数。
实施例4
作为本发明最佳实施方式,参照说明书附图1,本发明包括一种基于跨级特征增强的目标馕的识别及计数方法,包括以下步骤:
S1.图像采集和图像的预处理,用神经网络的边框回归的方式提取出目标馕所在的区域。
其中,图像采集具体指:在视频采集端,通过定时触发或传感器触发的方式,通过分辨率为1280×960的摄像头,使用摄像头进行图像的采集,得到可见光图像。
图像的预处理具体指:对可见光图像进行图像预处理。馕产业中常见馕的整体颜色较为单一,且有色差的区域范围较小,因此通过预加偏置的伽马变换将馕的可见光图像变换为灰度图,并通过模糊处理剔除小颗粒色差区域,实现对图像的预处理。其中,s=cr^γ是伽马变换,通过设置r(原始值)的取值范围,就可以将取值范围和馕的颜色相近的区域进行伽马变换。再与原始“RGB”三通道图像合并为四通道图像输入后级网络。这样可以使有馕的区域更加凸显,同时保留原有可见光信息。
用神经网络的边框回归的方式提取出目标馕所在的区域,具体包括以下步骤:
S11.构建并修正椭圆预选框。
对于传统的RPN(Region Proposal Network)网络设置的是面积、长宽不同的矩形预选框,其会涉及四个不同的参数x,y,h,w用以控制矩形框的生成。对于馕区域基本上是圆形的馕识别来说,将预选框设置为长短半径不同的椭圆,其涉及的参数为x,y,l,s。其中,x,y表示椭圆圆心的纵横坐标,l,s表示椭圆的长短轴,椭圆相较于椭圆圆心的坐标为
Figure BDA0003636127820000071
其中xa∈(x-l,x+l)表示椭圆上点的实际纵坐标。依据实际计算的椭圆坐标,向上取整,生成椭圆内为1、椭圆外为0的掩码mask。在修正过程中,修正离心率
Figure BDA0003636127820000072
长轴l的大小和圆心位置(x,y)。
修正方法为:当网络生成预选框时与椭圆掩码相乘形成椭圆预选框,并依据矩形标注框的长宽生成椭圆标注框,并计算椭圆预选框和椭圆标注框的交并比,当交并比大于或等于0.7时,作为正样本训练对目标馕区域的识别。交并比小于0.7时,作为负样本,用于对馕背景的识别。最终生成修正完成的椭圆预选框。
S12.将该预处理后的图像输入该神经网络。
S13.利用修正完成的椭圆预选框匹配并预测该预处理后的图像中馕的边框,即利用神经网络微调的设置的椭圆预选框,并将调整后的区域按照可能存在馕的程度从高至低排列,快速区分、筛选并分割出包含有目标馕区域的图像,保存最可能有馕的5个图像区域。
S2.目标馕区域图像的浅层纹理信息提取:将分割后的有目标馕区域的图像D*W*H连续输入2层64*W/2*H/2的conv网络、3层128*W/4*H/4的conv网络和4层256*W/8*H/8的conv网络,其输出的结果为浅层纹理信息,这样处理将卷积层感受野限制在了8*8的区域,能够很好的提取局部的纹理特征,同时总共9层的网络结构,极大减少了计算复杂度,提高了馕的识别速度。
将提取的浅层纹理信息分为两部分,一部分经过分类得到对应的浅层纹理特征;另一部分输入深层网络。其中,经过分类得到对应的浅层纹理特征具体指:在训练过程中,将浅层纹理信息经过全连接层FC层进行输出,并依据馕的特征种类的数量n设置成n组8位的特征向量,所述n组8位的特征向量即浅层纹理特征,用于表示馕浅层特征的不同等级分类。例如用以描述纹理形状种类、辅料颜色和密度等。在分类过程中,可以通过设置损失函数优化浅层特征分类的效果。
S3.利用深层网络提取输入的浅层纹理信息中的深层语义特征。其中,所述深层网络可以采用残差收缩网络,能有效防止梯度的消失,提取馕图像的细节特征。该深层网络通过应用注意力机制,自适应调整网络激活函数阈值τ,当输入小于τ时输出为0,大于τ时输出值为输入-τ。这样的方式可以减小输入的波动对输出的影响,提高网络的鲁棒性。采用可学习的方式,能够使网络自适应的调整τ值,减少人为干预。
深层网络提取深层语义特征的方法具体可以为:在经过浅层网络提取浅层纹理信息后,将另一部分未经分类的浅层纹理信息直接送入深层网络进行语义分析,利用transformer结构的深层网络,将浅层网络的输出D*W*H划分成3D*W/4*H/4个4*4的小片,随后将划分后的小片输入至LE层(linear embeding)和偶数个的STB层(Swin TransformerBlock),并重复3~4次。这样的网络结构能适合不同尺寸图片的输入,同时能够扩大网络的感受野,注意力机制分析浅层网络提取出的纹理块之间的空间、语义联系,从而更为准确的对馕的种类进行分类。
S4.利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类和计数。具体指:
将n组8位的特征向量,通过加权拼接的方式,生成N*8位的特征向量。其中,加权过程中的加权系数为λ1~N,λ1~N为不同种特征种类所对应的权重,为可训练参数,可以通过反向传播的方式学习不同种类特征的影响程度来设置合适的取值,取值范围为0~1之间。将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接,其中,权重θ为浅层纹理特征所对应的权重。通过3层全连接层FC层输出最终分类结果,即得到跨级特征增强的结果。对跨级特征增强的结果进行分类。根据分类结果对各类馕进行计数。
综上所述,本领域的普通技术人员阅读本发明文件后,根据本发明的技术方案和技术构思无需创造性脑力劳动而作出的其他各种相应的变换方案,均属于本发明所保护的范围。

Claims (8)

1.一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:包括以下步骤:
S1. 用神经网络的边框回归的方式提取出目标馕所在的区域,具体包括以下步骤:
S11. 构建并修正椭圆预选框;
S12. 输入预处理后的图像;
S13. 利用椭圆预选框匹配并预测该预处理后的图像中馕的边框,区分、筛选并分割出包含有目标馕区域的图像;
S2. 目标馕区域图像的浅层纹理信息提取,并将提取的浅层纹理信息分为两部分,一部分经过分类得到对应的浅层纹理特征;另一部分用于输入深层网络;
S3. 利用深层网络提取输入的浅层纹理信息中的深层语义特征;
S4. 利用浅层纹理特征和深层语义特征构造全连接层,得到跨级特征增强的结果,对该结果进行分类和计数;
所述步骤S11中构建椭圆预选框具体指:依据实际计算的椭圆坐标,向上取整,生成椭圆内为1、椭圆外为0的椭圆掩码;将矩形预选框与椭圆掩码相乘形成椭圆预选框;
所述步骤S11中修正椭圆预选框具体指:依据矩形预选框的长宽生成椭圆标注框,计算椭圆预选框和椭圆标注框的交并比,当交并比大于或等于0.7时,作为正样本训练对目标馕区域的识别;当交并比小于0.7时,作为负样本对馕背景的识别。
2. 根据权利要求1所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述步骤S2中浅层纹理信息提取具体指:将分割后的有目标馕区域的图像D*W*H连续输入2层64 * W/2 * H/2 的conv网络、3层128 * W/4 * H/4 的conv网络和4层256 * W/8* H/8 的conv网络,其输出的结果为浅层纹理信息。
3.根据权利要求2所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述步骤S2中经过分类得到对应的浅层纹理特征具体指:将浅层纹理信息经过全连接层FC层进行输出,并依据馕的特征种类的数量n设置成n组8位的特征向量,所述n组8位的特征向量即浅层纹理特征,用于表示馕浅层特征的不同等级分类。
4. 根据权利要求3所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述步骤S3中利用深层网络提取输入的浅层纹理信息中的深层语义特征具体指:将一部分浅层网络提取的浅层纹理信息送入深层网络进行语义分析,利用transformer结构的深层网络,将浅层网络输出的浅层纹理信息D*W*H划分成3D * W/4 * H/4个4*4的小片,随后将划分后的小片输入至linear embeding层和偶数个的Swin Transformer Block层,并重复3~4次,得到深层语义特征。
5.根据权利要求4所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述S4具体指:将n组8位的特征向量,通过加权拼接的方式,生成N*8位的特征向量,其中,加权过程中的加权系数为
Figure QLYQS_1
,/>
Figure QLYQS_2
为不同种特征种类所对应的权重;将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接,其中,权重θ为浅层纹理特征所对应的权重;通过3层全连接层FC层输出最终分类结果,即得到跨级特征增强的结果;对跨级特征增强的结果进行分类;根据分类结果对各类馕进行计数。
6.根据权利要求1所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述步骤S1还包括:图像的采集和图像的预处理。
7.根据权利要求6所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述图像的预处理具体指:通过预加偏置的伽马变换将馕的可见光图像变换为灰度图,并通过模糊处理剔除小颗粒色差区域,再与原始的可见光图像合并为四通道图像,所述原始的可见光图像为“RGB”三通道图像。
8.根据权利要求1所述的一种基于跨级特征增强的目标馕的识别及计数方法,其特征在于:所述深层网络采用残差收缩网络,采用注意力机制,自适应调整网络激活函数阈值τ,当输入小于τ时输出为0,大于τ时输出值为输入-τ。
CN202210505926.0A 2022-05-10 2022-05-10 一种基于跨级特征增强的目标馕的识别及计数方法 Active CN114926420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210505926.0A CN114926420B (zh) 2022-05-10 2022-05-10 一种基于跨级特征增强的目标馕的识别及计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210505926.0A CN114926420B (zh) 2022-05-10 2022-05-10 一种基于跨级特征增强的目标馕的识别及计数方法

Publications (2)

Publication Number Publication Date
CN114926420A CN114926420A (zh) 2022-08-19
CN114926420B true CN114926420B (zh) 2023-05-30

Family

ID=82809391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210505926.0A Active CN114926420B (zh) 2022-05-10 2022-05-10 一种基于跨级特征增强的目标馕的识别及计数方法

Country Status (1)

Country Link
CN (1) CN114926420B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897824A (zh) * 2022-05-10 2022-08-12 电子科技大学 一种馕产业监控场景下的食品安全威胁检测及预警方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163188A (zh) * 2019-06-10 2019-08-23 腾讯科技(深圳)有限公司 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN113807334A (zh) * 2021-11-22 2021-12-17 成都航空职业技术学院 一种基于残差网络的多尺度特征融合的人群密度估计方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443250B (zh) * 2019-07-31 2022-06-10 天津车之家数据信息技术有限公司 一种合同印章的类别识别方法、装置和计算设备
CN111126379B (zh) * 2019-11-22 2022-05-17 苏州浪潮智能科技有限公司 一种目标检测方法与装置
CN112418330A (zh) * 2020-11-26 2021-02-26 河北工程大学 一种基于改进型ssd的小目标物体高精度检测方法
CN112800980B (zh) * 2021-02-01 2021-12-07 南京航空航天大学 一种基于多层次特征的sar目标识别方法
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163188A (zh) * 2019-06-10 2019-08-23 腾讯科技(深圳)有限公司 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN113807334A (zh) * 2021-11-22 2021-12-17 成都航空职业技术学院 一种基于残差网络的多尺度特征融合的人群密度估计方法

Also Published As

Publication number Publication date
CN114926420A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN108960245B (zh) 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
CN112241679B (zh) 一种垃圾自动分类的方法
CN109034184B (zh) 一种基于深度学习的均压环检测识别方法
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN112418087B (zh) 一种基于神经网络的水下视频鱼类识别方法
CN116310845B (zh) 一种用于污水处理的智能监测系统
CN114926420B (zh) 一种基于跨级特征增强的目标馕的识别及计数方法
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN110097136A (zh) 基于神经网络的图像分类方法
CN109902751B (zh) 融合卷积神经网络和半字模板匹配的表盘数字字符识别法
CN113052215A (zh) 基于神经网络可视化的声呐图像自动目标识别方法
CN115393861A (zh) 一种手写体文本精准分割方法
CN114898472A (zh) 基于孪生视觉Transformer网络的签名鉴定方法和系统
CN109815957A (zh) 一种基于彩色图像在复杂背景下的文字识别方法
CN116664431B (zh) 一种基于人工智能的图像处理系统及方法
CN117058386A (zh) 基于改进DeepLabv3+网络的沥青道路裂缝检测方法
CN116596891A (zh) 基于半监督多任务检测的木地板颜色分类及缺陷检测方法
CN111695560A (zh) 基于卷积神经网络对农作物病虫害主动定位聚焦的方法
CN115439859A (zh) 一种基于字符移动任务的自监督文本识别方法
CN115082726A (zh) 一种基于PointNet优化的座便器陶瓷素坯产品分类方法
CN114596433A (zh) 一种绝缘子识别方法
CN115983986B (zh) 一种针对视频面审人像的衣着暴露等级识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant