CN114926420B

CN114926420B - 一种基于跨级特征增强的目标馕的识别及计数方法

Info

Publication number: CN114926420B
Application number: CN202210505926.0A
Authority: CN
Inventors: 李超; 殷光强; 杨钊贤; 杨晓宇; 田晓杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-05-30
Anticipated expiration: 2042-05-10
Also published as: CN114926420A

Abstract

本发明涉及图像识别与检测技术领域，特别是涉及一种基于跨级特征增强的目标馕的识别及计数方法，包括目标馕区域的提取、浅层纹理信息提取、浅层纹理特征提取、深层语义特征提取以及利用浅层纹理特征和深层语义特征构造全连接层，得到跨级特征增强的结果，对该结果进行分类和计数。通过本识别及计数方法，能有效解决现有技术中不能快速、有效、自动地识别出纹理特征差异过小的不同种类馕的问题。

Description

一种基于跨级特征增强的目标馕的识别及计数方法

技术领域

本发明涉及图像识别与检测技术领域，特别是涉及一种基于跨级特征增强的目标馕的识别及计数方法。

背景技术

国内外馕产业中的识别分类技术手段一直处于人工识别分类的阶段，正向馕识别、计数的自动化发展。馕产业中的馕，大多纹理相近，因不同口味和制作方式的不同，会在加工中有些许纹理上的区别，如葱花、辣椒或玫瑰花酱等，其细小特征差异在肉眼程度下难以分别。且不同人员对馕类别的认知有偏差，对馕细小差异的区分不到位，经常产生误分、漏分的情况，费时费力，极大的降低了生产效率。

同时，基于深度学习的识别技术在馕产业中的应用一直处于空缺状态，其在类似产业中的应用也存在一定缺陷。例如现有技术中，提出了公开号为CN112085118A，公开日为2020年12月15日的中国发明专利文件，该专利文献所公开的技术方案如下：一种基于图像识别技术的大数据分类统计方法，该基于图像识别技术的大数据分类统计方法的具体步骤如下：S₁：建立图像识别系统：根据使用需求建立图像识别系统，并对图像识别系统识别训练，使得图像识别系统满足对目标物的识别并能够将识别结果输出；S₂：图像识别并获取结果：根据步骤S₁的识别结果，将图像识别的结果输出；S₃：对图像识别结果分类统计；S₄：对识别准确性反馈改进。

上述技术方案在实际使用过程中，会出现以下问题：特征提取能力较弱，细节相近的目标无法区分，导致该识别技术无法满足馕产业中馕的识别计数功能。

发明内容

为解决上述技术问题，本发明提出了一种基于跨级特征增强的目标馕的识别及计数方法，能有效解决现有技术中不能快速、有效、自动地识别出纹理特征差异过小的不同种类馕的问题。

本发明是通过采用下述技术方案实现的：

一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：包括以下步骤：

S₁.用神经网络的边框回归的方式提取出目标馕所在的区域，具体包括以下步骤：

S₁₁.构建并修正椭圆预选框；

S₁₂.输入预处理后的图像；

S₁₃.利用椭圆预选框匹配并预测该预处理后的图像中馕的边框，区分、筛选并分割出包含有目标馕区域的图像；

S₂.目标馕区域图像的浅层纹理信息提取，并将提取的浅层纹理信息分为两部分，一部分经过分类得到对应的浅层纹理特征；另一部分用于输入深层网络；

S₃.利用深层网络提取输入的浅层纹理信息中的深层语义特征；

S₄.利用浅层纹理特征和深层语义特征构造全连接层，得到跨级特征增强的结果，对该结果进行分类和计数。

所述步骤S₁₁中构建椭圆预选框具体指：依据实际计算的椭圆坐标，向上取整，生成椭圆内为1、椭圆外为0的椭圆掩码；将矩形预选框与椭圆掩码相乘形成椭圆预选框。

所述步骤S₁₁中修正椭圆预选框具体指：依据矩形预选框的长宽生成椭圆标注框，计算椭圆预选框和椭圆标注框的交并比，当交并比大于或等于0.7时，作为正样本训练对目标馕区域的识别；当交并比小于0.7时，作为负样本对馕背景的识别。

所述步骤S₂中浅层纹理信息提取具体指：将分割后的有目标馕区域的图像D*W*H连续输入2层64*W/2*H/2的conv网络、3层128*W/4*H/4的conv网络和4层256*W/8*H/8的conv网络，其输出的结果为浅层纹理信息。

所述步骤S₂中经过分类得到对应的浅层纹理特征具体指：将浅层纹理信息经过全连接层FC层进行输出，并依据馕的特征种类的数量n设置成n组8位的特征向量，所述n组8位的特征向量即浅层纹理特征，用于表示馕浅层特征的不同等级分类。

所述步骤S₃中利用深层网络提取输入的浅层纹理信息中的深层语义特征具体指：将一部分浅层网络提取的浅层纹理信息送入深层网络进行语义分析，利用transformer结构的深层网络，将浅层网络输出的浅层纹理信息D*W*H划分成3D*W/4*H/4个4*4的小片，随后将划分后的小片输入至LE层和偶数个的STB层，并重复3～4次，得到深层语义特征。

所述S₄具体指：将n组8位的特征向量，通过加权拼接的方式，生成N*8位的特征向量，其中，加权过程中的加权系数为λ_1～N，λ_1～N为不同种特征种类所对应的权重；将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接，其中，权重θ为浅层纹理特征所对应的权重；通过3层全连接层FC层输出最终分类结果，即得到跨级特征增强的结果；对跨级特征增强的结果进行分类；根据分类结果对各类馕进行计数。

所述步骤S₁还包括：图像的采集和图像的预处理。

所述图像的预处理具体指：通过预加偏置的伽马变换将馕的可见光图像变换为灰度图，并通过模糊处理剔除小颗粒色差区域，再与原始的可见光图像合并为四通道图像，所述原始的可见光图像为“RGB”三通道图像。

所述深层网络采用残差收缩网络，采用注意力机制，自适应调整网络激活函数阈值τ，当输入小于τ时输出为0，大于τ时输出值为输入-τ。

与现有技术相比，本发明的有益效果表现在：

1、本发明针对馕产业中小差异性馕的纹理等细节相近的特点，先通过目标检测技术实现馕目标的精准定位，然后通过浅层网络获取小感受野范围内的馕纹理细节特征，并跨级连接至经过深度残差收缩网络提取特征后的特征网络，以提高对馕产业中馕细小差异的识别准确度和计数速度。

本发明通过设置椭圆预选框，与常规的矩形预选框相比，能更快的区分和筛选出潜在的有馕区域，图像处理的效率越高。

2、利用浅层网络提取目标区域浅层纹理特征的过程中，将卷积层感受野限制在了8*8的区域，能够很好的提取局部的纹理特征，同时总共9层的网络结构，极大减少了计算复杂度，提高了馕的识别速度。

3、本发明中，在输出浅层纹理信息时，与传统的多级特征输出结果不同，在训练过程中，这一步的输出信息不仅作为后级的输入作为深层网络分类的依据之一，而且可以通过设置损失函数优化浅层特征分类的效果，因而利用了工程化的思想，对馕目标进行一定加权预分类，提高了识别精度和速度。

4、本发明中的深层网络结构能适合不同尺寸图片的输入，同时能够扩大网络的感受野，利用注意力机制分析浅层网络提取出的纹理块之间的空间、语义联系，从而更为准确的对馕的种类进行分类。

5、本发明通过预加偏置的伽马变换和模糊处理，能有效解决因为馕产业中常见馕的整体颜色较为单一，且有色差的区域范围较小，导致后期识别准确率较低的问题。

附图说明

下面将结合说明书附图和具体实施方式对本发明作进一步的详细说明，其中：

图1为本发明的流程示意图。

具体实施方式

实施例1

作为本发明基本实施方式，本发明包括一种基于跨级特征增强的目标馕的识别及计数方法，包括以下步骤：

S₁₁.构建并修正椭圆预选框；

S₁₂.输入预处理后的图像；

S₁₃.利用椭圆预选框匹配并预测该预处理后的图像中馕的边框，区分、筛选并分割出包含有目标馕区域的图像。

S₂.目标馕区域图像的浅层纹理信息提取，具体是：根据步骤S₁中所提取的目标馕所在区域，利用浅层网络来进行的图像信息提取。将提取的浅层纹理信息分为两部分，一部分经过分类得到对应的浅层纹理特征；另一部分用于输入深层网络。

S₃.利用深层网络提取输入的浅层纹理信息中的深层语义特征，利用深层网络来进行的图像信息挖掘。

S₄.利用浅层纹理特征和深层语义特征构造全连接层，得到跨级特征增强的结果，对该结果进行分类，并依此为基础进行计数。

实施例2

作为本发明一较佳实施方式，本发明包括一种基于跨级特征增强的目标馕的识别及计数方法，包括以下步骤：

S₁₁.构建并修正椭圆预选框。其中，椭圆预选框的构建以常规的矩形预选框为基础，具体的构建方法为：依据实际计算的椭圆坐标，向上取整，生成椭圆内为1、椭圆外为0的椭圆掩码；将矩形预选框与椭圆掩码相乘形成椭圆预选框。椭圆预选框构建完成后，需对其进行修正，具体的修正方法为：依据矩形预选框的长宽生成椭圆标注框，计算椭圆预选框和椭圆标注框的交并比，当交并比大于或等于0.7时，作为正样本训练对目标馕区域的识别；当交并比小于0.7时，作为负样本对馕背景的识别。

S₁₂.输入预处理后的图像。

S₂.目标馕区域图像的浅层纹理信息提取，并将提取的浅层纹理信息分为两部分，一部分经过分类得到对应的浅层纹理特征；另一部分输入深层网络。

S₃.利用深层网络提取输入的浅层纹理信息中的深层语义特征。

实施例3

作为本发明另一较佳实施方式，本发明包括一种基于跨级特征增强的目标馕的识别及计数方法，包括以下步骤：

S₁₁.构建并修正椭圆预选框；

S₁₂.输入预处理后的图像；

S₂.目标馕区域图像的浅层纹理信息提取，并将提取的浅层纹理信息分为两部分，一部分经过分类得到对应的浅层纹理特征；另一部分输入深层网络。其中经过分类得到对应的浅层纹理特征具体指：将浅层纹理信息经过全连接层FC层进行输出，并依据馕的特征种类的数量n设置成n组8位的特征向量，所述n组8位的特征向量即浅层纹理特征，用于表示馕浅层特征的不同等级分类。

S₃.利用深层网络提取输入的浅层纹理信息中的深层语义特征，具体指：将一部分浅层网络提取的浅层纹理信息送入深层网络进行语义分析，利用transformer结构的深层网络，将浅层网络输出的浅层纹理信息D*W*H划分成3D*W/4*H/4个4*4的小片，随后将划分后的小片输入至LE层和偶数个的STB层，并重复3～4次，得到深层语义特征。

S₄.利用浅层纹理特征和深层语义特征构造全连接层，得到跨级特征增强的结果，对该结果进行分类和计数。具体指：先将n组8位的特征向量，通过加权拼接的方式，生成N*8位的特征向量，其中，加权过程中的加权系数为λ_1～N，λ_1～N为不同种特征种类所对应的权重。再将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接，其中，权重θ为浅层纹理特征所对应的权重；通过3层全连接层FC层输出最终分类结果，即得到跨级特征增强的结果；对跨级特征增强的结果进行分类；根据分类结果对各类馕进行计数。

实施例4

作为本发明最佳实施方式，参照说明书附图1，本发明包括一种基于跨级特征增强的目标馕的识别及计数方法，包括以下步骤：

S₁.图像采集和图像的预处理，用神经网络的边框回归的方式提取出目标馕所在的区域。

其中，图像采集具体指：在视频采集端，通过定时触发或传感器触发的方式，通过分辨率为1280×960的摄像头，使用摄像头进行图像的采集，得到可见光图像。

图像的预处理具体指：对可见光图像进行图像预处理。馕产业中常见馕的整体颜色较为单一，且有色差的区域范围较小，因此通过预加偏置的伽马变换将馕的可见光图像变换为灰度图，并通过模糊处理剔除小颗粒色差区域，实现对图像的预处理。其中，s＝cr^γ是伽马变换，通过设置r(原始值)的取值范围，就可以将取值范围和馕的颜色相近的区域进行伽马变换。再与原始“RGB”三通道图像合并为四通道图像输入后级网络。这样可以使有馕的区域更加凸显，同时保留原有可见光信息。

用神经网络的边框回归的方式提取出目标馕所在的区域，具体包括以下步骤：

S₁₁.构建并修正椭圆预选框。

对于传统的RPN(Region Proposal Network)网络设置的是面积、长宽不同的矩形预选框，其会涉及四个不同的参数x,y,h,w用以控制矩形框的生成。对于馕区域基本上是圆形的馕识别来说，将预选框设置为长短半径不同的椭圆，其涉及的参数为x，y，l，s。其中，x,y表示椭圆圆心的纵横坐标，l,s表示椭圆的长短轴，椭圆相较于椭圆圆心的坐标为

其中x_a∈(x-l,x+l)表示椭圆上点的实际纵坐标。依据实际计算的椭圆坐标，向上取整，生成椭圆内为1、椭圆外为0的掩码mask。在修正过程中，修正离心率

长轴l的大小和圆心位置(x,y)。

修正方法为：当网络生成预选框时与椭圆掩码相乘形成椭圆预选框，并依据矩形标注框的长宽生成椭圆标注框，并计算椭圆预选框和椭圆标注框的交并比，当交并比大于或等于0.7时，作为正样本训练对目标馕区域的识别。交并比小于0.7时，作为负样本，用于对馕背景的识别。最终生成修正完成的椭圆预选框。

S₁₂.将该预处理后的图像输入该神经网络。

S₁₃.利用修正完成的椭圆预选框匹配并预测该预处理后的图像中馕的边框，即利用神经网络微调的设置的椭圆预选框，并将调整后的区域按照可能存在馕的程度从高至低排列，快速区分、筛选并分割出包含有目标馕区域的图像，保存最可能有馕的5个图像区域。

S₂.目标馕区域图像的浅层纹理信息提取：将分割后的有目标馕区域的图像D*W*H连续输入2层64*W/2*H/2的conv网络、3层128*W/4*H/4的conv网络和4层256*W/8*H/8的conv网络，其输出的结果为浅层纹理信息，这样处理将卷积层感受野限制在了8*8的区域，能够很好的提取局部的纹理特征，同时总共9层的网络结构，极大减少了计算复杂度，提高了馕的识别速度。

将提取的浅层纹理信息分为两部分，一部分经过分类得到对应的浅层纹理特征；另一部分输入深层网络。其中，经过分类得到对应的浅层纹理特征具体指：在训练过程中，将浅层纹理信息经过全连接层FC层进行输出，并依据馕的特征种类的数量n设置成n组8位的特征向量，所述n组8位的特征向量即浅层纹理特征，用于表示馕浅层特征的不同等级分类。例如用以描述纹理形状种类、辅料颜色和密度等。在分类过程中，可以通过设置损失函数优化浅层特征分类的效果。

S₃.利用深层网络提取输入的浅层纹理信息中的深层语义特征。其中，所述深层网络可以采用残差收缩网络，能有效防止梯度的消失，提取馕图像的细节特征。该深层网络通过应用注意力机制，自适应调整网络激活函数阈值τ，当输入小于τ时输出为0，大于τ时输出值为输入-τ。这样的方式可以减小输入的波动对输出的影响，提高网络的鲁棒性。采用可学习的方式，能够使网络自适应的调整τ值，减少人为干预。

深层网络提取深层语义特征的方法具体可以为：在经过浅层网络提取浅层纹理信息后，将另一部分未经分类的浅层纹理信息直接送入深层网络进行语义分析，利用transformer结构的深层网络，将浅层网络的输出D*W*H划分成3D*W/4*H/4个4*4的小片，随后将划分后的小片输入至LE层(linear embeding)和偶数个的STB层(Swin TransformerBlock)，并重复3～4次。这样的网络结构能适合不同尺寸图片的输入，同时能够扩大网络的感受野，注意力机制分析浅层网络提取出的纹理块之间的空间、语义联系，从而更为准确的对馕的种类进行分类。

S₄.利用浅层纹理特征和深层语义特征构造全连接层，得到跨级特征增强的结果，对该结果进行分类和计数。具体指：

将n组8位的特征向量，通过加权拼接的方式，生成N*8位的特征向量。其中，加权过程中的加权系数为λ_1～N，λ_1～N为不同种特征种类所对应的权重，为可训练参数，可以通过反向传播的方式学习不同种类特征的影响程度来设置合适的取值，取值范围为0～1之间。将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接，其中，权重θ为浅层纹理特征所对应的权重。通过3层全连接层FC层输出最终分类结果，即得到跨级特征增强的结果。对跨级特征增强的结果进行分类。根据分类结果对各类馕进行计数。

综上所述，本领域的普通技术人员阅读本发明文件后，根据本发明的技术方案和技术构思无需创造性脑力劳动而作出的其他各种相应的变换方案，均属于本发明所保护的范围。

Claims

1.一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：包括以下步骤：

S₁. 用神经网络的边框回归的方式提取出目标馕所在的区域，具体包括以下步骤：

S₁₁. 构建并修正椭圆预选框；

S₁₂. 输入预处理后的图像；

S₁₃. 利用椭圆预选框匹配并预测该预处理后的图像中馕的边框，区分、筛选并分割出包含有目标馕区域的图像；

S₂. 目标馕区域图像的浅层纹理信息提取，并将提取的浅层纹理信息分为两部分，一部分经过分类得到对应的浅层纹理特征；另一部分用于输入深层网络；

S₃. 利用深层网络提取输入的浅层纹理信息中的深层语义特征；

S₄. 利用浅层纹理特征和深层语义特征构造全连接层，得到跨级特征增强的结果，对该结果进行分类和计数；

所述步骤S₁₁中构建椭圆预选框具体指：依据实际计算的椭圆坐标，向上取整，生成椭圆内为1、椭圆外为0的椭圆掩码；将矩形预选框与椭圆掩码相乘形成椭圆预选框；

2. 根据权利要求1所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述步骤S₂中浅层纹理信息提取具体指：将分割后的有目标馕区域的图像D*W*H连续输入2层64 * W/2 * H/2 的conv网络、3层128 * W/4 * H/4 的conv网络和4层256 * W/8* H/8 的conv网络，其输出的结果为浅层纹理信息。

3.根据权利要求2所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述步骤S₂中经过分类得到对应的浅层纹理特征具体指：将浅层纹理信息经过全连接层FC层进行输出，并依据馕的特征种类的数量n设置成n组8位的特征向量，所述n组8位的特征向量即浅层纹理特征，用于表示馕浅层特征的不同等级分类。

4. 根据权利要求3所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述步骤S₃中利用深层网络提取输入的浅层纹理信息中的深层语义特征具体指：将一部分浅层网络提取的浅层纹理信息送入深层网络进行语义分析，利用transformer结构的深层网络，将浅层网络输出的浅层纹理信息D*W*H划分成3D * W/4 * H/4个4*4的小片，随后将划分后的小片输入至linear embeding层和偶数个的Swin Transformer Block层，并重复3~4次，得到深层语义特征。

5.根据权利要求4所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述S₄具体指：将n组8位的特征向量，通过加权拼接的方式，生成N*8位的特征向量，其中，加权过程中的加权系数为

，/>

为不同种特征种类所对应的权重；将该N*8位的特征向量乘以权重θ并与深层网络输出的深层语义特征进行拼接，其中，权重θ为浅层纹理特征所对应的权重；通过3层全连接层FC层输出最终分类结果，即得到跨级特征增强的结果；对跨级特征增强的结果进行分类；根据分类结果对各类馕进行计数。

6.根据权利要求1所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述步骤S₁还包括：图像的采集和图像的预处理。

7.根据权利要求6所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述图像的预处理具体指：通过预加偏置的伽马变换将馕的可见光图像变换为灰度图，并通过模糊处理剔除小颗粒色差区域，再与原始的可见光图像合并为四通道图像，所述原始的可见光图像为“RGB”三通道图像。

8.根据权利要求1所述的一种基于跨级特征增强的目标馕的识别及计数方法，其特征在于：所述深层网络采用残差收缩网络，采用注意力机制，自适应调整网络激活函数阈值τ，当输入小于τ时输出为0，大于τ时输出值为输入-τ。