CN111291767A

CN111291767A - 一种细粒度识别方法、终端设备及计算机可读存储介质

Info

Publication number: CN111291767A
Application number: CN202010089111.XA
Authority: CN
Inventors: 胡建国; 陈嘉敏; 林佳玲; 蔡佳辉; 王金鹏
Original assignee: Guangzhou Intelligent City Development Institute; Sun Yat Sen University
Current assignee: Guangzhou Intelligent City Development Institute; Sun Yat Sen University
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-16
Anticipated expiration: 2040-02-12
Also published as: CN111291767B

Abstract

本发明公开了一种细粒度识别方法、终端设备及计算机可读存储介质，涉及计算机视觉技术领域。该方法包括步骤：目标检测，对输入图片进行卷积，得到特征图，标框出目标所在位置，使用目标掩膜对检测出的目标框周围的特征进行相应的反转；局部特征提取，对特征图进行卷积和全局最大池化，得到图片显著点，提取显著点的特征；全局特征提取，将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘，得到新的特征图，并把新特征图作为残差网络的输入，经过卷积层逐步提取图片的全局特征；特征融合，将得到的局部特征和全局特征按权重进行融合。本发明的方法基于背景分离和显著点检测，具有鲁棒性强、计算效率高的优点，可进行精确的细粒度识别。

Description

一种细粒度识别方法、终端设备及计算机可读存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种细粒度识别方法。

背景技术

细粒度识别也叫精细识别，是一种计算机视觉技术。细粒度图像识别所需识别的种类更加细致，识别的粒度也更为精细，需要在一个大类中区分出更加细分的子类，对存在细微差别的物体进行区分和识别。

现有的细粒度分类模型，按照其采用的监督信息的强弱，可分为两大类：分别是“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”。

其中，基于强监督信息的分类模型在训练过程中引入两种额外的人工标注信息，分别是目标标注框和关键部位标注点。对于这两种额外信息，强监督分类模型可以借助目标标注框得到前景对象的检测，排除背景所带来的噪声干扰。关键部位标注点可以用于确定目标具有显著区别的关键点，从这些关键点提取出的局部特征可以对图片进行有效区分。因此，通过这两种额外信息所提供的定位，强监督分类模型可以更好地在精准的地方提取物体信息，排除图片背景和其他物体上无关信息所带来的干扰，得到高的识别率。但是，这种方法需要投入的前期工作量大。

基于弱监督信息的分类模型则相反，其不使用任何额外的人工标注信息，仅依靠图片和图片的分类标签完成整个算法的训练和学习。这种类型的方法不需要大量人工投入，在实际应用场景更方便简洁。得益于近年来深度学习的发展，基于弱监督信息的分类模型算法引入卷积神经网络来进行训练，其精确度得到了较大的提高，并逐渐成为细粒度图像识别研究的趋势。

发明内容

鉴于现有技术的不足，本发明旨在于提供一种弱监督的，基于背景分离和显著点检测的细粒度识别方法、终端设备及计算机可读存储介质，具有鲁棒性强、计算效率高的优点，可以对目标进行精确的细粒度识别。

为了实现上述目的，本发明采用的技术方案如下：

一种细粒度识别方法，该方法包括以下步骤：

S1、目标检测，对输入图片进行卷积，得到特征图，标框出目标所在位置，使用目标掩膜对检测出的目标框周围的特征进行相应的反转；

S2、局部特征提取，对特征图进行卷积和全局最大池化，得到图片显著点，提取显著点的特征；

S3、全局特征提取，将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘，得到新的特征图，并把新特征图作为残差网络的输入，经过卷积核大小不同的卷积层逐步提取图片的全局特征；

S4、特征融合，将得到的局部特征和全局特征按权重进行融合。

进一步地，在本发明的细粒度识别方法中，所述步骤S1的具体步骤包括：

S11、目标中心点位置确定，将输入图片进行卷积操作，得到对应的特征图，然后在特征图上进行1x1卷积，获得目标对应的分数，再通过sigmoid函数得到对应的中心点概率值，然后通过阈值筛选出高于阈值的点，标识为目标物可能存在的中心位置；

S12、目标形状的预测，根据上一个部分得到预测的中心点，预测每个中心点位置对应的目标框形状，使得预测形状与距离最近的Ground truth有较高的IOU，预测出目标框对应的宽和高的数值；

S13、特征调整，根据所述步骤S11以及所述步骤S12的输出结果，通过阈值筛选出最有可能的形状来生成对应的目标框；

S14、目标掩膜，根据所述步骤S13得到的目标框的位置，建立目标掩膜如下：图片分为三个区域，目标框内区域的掩膜值为1，目标框外一圈区域的掩膜值为-1，其余部分为0；

然后将图片特征和目标掩膜按照式1)进行运算，截取出物体区域，式1)为：f_object＝f_i'*mask_object；

其中，mask_object代表根据目标框定义的目标掩膜，f_i'代表经过特征调整后得到的图片特征，通过上式的乘积操作，得到仅含有物体区域特征和周围一部分反转后的新特征f_object。

进一步地，在本发明的细粒度识别方法中，所述步骤S2具体包括：

使用一组1*1卷积核对特征图进行卷积，然后进行全局最大池化找到最值点，得到图片显著点，提取显著点的特征，并根据特征对目标进行分类；

其中，显著点的获取按照式2)进行，式2)为：discri_p＝F_GMP(N_c*f_object)；

其中，f_object代表输入的图片特征，Nc代表一组1*1卷积核所构成的卷积神经网络，图片特征在经过卷积操作后输入F_GMP进行全局最大池化(GMP)操作，得到图片的显著点discri_p。

进一步地，在本发明的细粒度识别方法中，所述步骤S3具体包括：

使用残差网络ResNet50作为基础结构，把目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘，得到新的特征图，并把新特征图作为残差网络的输入，经过5个卷积核大小不同的卷积层逐步提取图片的全局特征，最后通过1个全连接层得到图片的分类结果。

进一步地，在本发明的细粒度识别方法中，所述步骤S4具体包括：

将由上述步骤S2和S3得到的局部特征和全局特征按权重进行融合，用于训练网络，融合按照式3)进行，式3)为：L_total＝αL_global+βL_local；

其中，L_total表示整个网络的损失函数，L_global和L_local分别表示全局特征损失函数和局部特征损失函数，α代表了全局特征所占的权值比重，β代表了局部特征所占的权值比重，α<β。

进一步地，在本发明的细粒度识别方法中，在所述步骤S12中，还包括对预测的目标框的宽和高的值进行优化，优化步骤按照式4)进行，式4)为：

w＝σ·e^dw，h＝σ·e^dh；

其中，σ代表转换系数，取σ＝8，w和h分别表示宽和高的值，dw和dh是预测值；

在所述步骤S11中获取的分数特征经过一个1x1x2的卷积网络进行预测得到dw和dh，然后通过所述的式4)进行反变换得到对应的目标框(w,h)值。

进一步地，在本发明的细粒度识别方法中，在所述步骤S13中，还包括对特征的调整，对特征的调整按照式5)进行，式5)为：

f_i'＝N_T(f_i,w_i,h_i)；

其中，fi代表第i个位置对应的特征图的值，(wi,hi)为相应的目标框的形状，特征转化使用3x3的可变形卷积神经网络代表，经过转换后得到新的特征值f_i'，然后进行后续的分类及回归操作。

进一步地，在本发明的细粒度识别方法中，全局特征所占的权值比重α＝0.4，局部特征所占的权值比重β＝0.6。

另一方面，本发明同时提出了一种终端设备，该终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。

另一方面，本发明还同时提出了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。

本发明有益效果：本发明的细粒度识别方法通过在目标检测过程中对检测出的目标框周围的特征进行相应的反转，实现前后背景的分离，可以使前后背景区分变大，能大大降低复杂背景对识别造成的影响，有利于提高后期识别分类的准确度。该细粒度识别方法基于背景分离和显著点检测，具有鲁棒性强、计算效率高的优点，可以对目标进行精确的细粒度识别。

附图说明

图1为本发明实施例提供的细粒度识别方法的流程图；

图2是本发明实施例的掩膜结构示意图；

图3为本发明实施例提供的细粒度识别方法中步骤S1的流程图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明作进一步的描述，需要说明的是，在详细解释本发明的任何实施例之前，本发明在其应用中不限于以下描述中阐述的或下面的附图中示出的部件构造和布置细节。本发明能够具有其他实施例并且能够以各种方式实践或执行。而且，应该理解的是，这里使用的措辞和术语是为了描述的目的，而不应该认为是限制性的。本文中的“包括”、“包含”或“具有”及其变体的使用意味着涵盖其后列出的项目及其等同物以及额外的项目。术语“安装”、“连接”和“耦合”广泛地使用并且包括直接和间接的安装、连接和耦合。此外，“连接”和“耦合”不限于物理或机械连接或耦合，而可以包括直接或间接的电连接或电耦合。

应该注意的是，可以利用多个基于硬件和软件的设备以及多个不同的结构部件来实现本发明。此外，并且如在随后的段落中所描述的，附图中示出的具体配置旨在示例本发明的实施例，并且其他可选配置是可能的。除非另有说明，否则术语“处理器”、“中央处理单元”和“CPU”是可互换的。在使用术语“处理器”或“中央处理单元”或“CPU”来标识执行特定功能的单元的情况下，应该理解，除非另有说朗，否则这些功能可以由单个处理器或由多个处理器(以任何形式排列，包括并行处理器、串行处理器、串联处理器或云处理/云计算配置)执行。

如图1所示，本发明的实施例提出的一种细粒度识别方法，该方法包括以下步骤：

S1、目标检测，对输入图片进行卷积，得到特征图，标框出目标所在位置，使用目标掩膜对检测出的目标框周围的特征进行相应的反转。即目标检测首先通过目标中心点、目标形状的确定，结合特征调整，框出目标所在位置。然后，使用目标掩膜对检测出的目标框周围的特征进行相应的反转，实现前后背景分离，此操作可以使前后背景区分变大，能大大降低复杂背景对识别造成的影响。另外，目标框也方便后续特征的提取。

S2、局部特征提取，对特征图进行卷积和全局最大池化，得到图片显著点，提取显著点的特征。

S3、全局特征提取，将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘，得到新的特征图，并把新特征图作为残差网络的输入，经过卷积核大小不同的卷积层逐步提取图片的全局特征。

S4、特征融合，将得到的局部特征和全局特征按权重进行融合，用于训练网络。通过两者按权重进行融合，可以适当突出局部特征的比重，放大局部信息，更有利于发现图片中具有细小差别的区域，从而提升算法识别的准确率。

具体地，如图3所示，在本发明的优选实施例中，步骤S1的具体过程包括：

S11、目标中心点位置确定，将输入图片进行卷积操作，得到对应的特征图，然后在特征图上进行1x1卷积，获得目标对应的分数，再通过sigmoid函数得到对应的中心点概率值，然后通过阈值筛选出高于阈值的点，标识为目标物可能存在的中心位置。

S12、目标形状的预测，根据上一个部分得到预测的中心点，预测每个中心点位置对应的目标框形状，使得预测形状与距离最近的Ground truth有较高的IOU，预测出目标框对应的宽和高的数值。

S13、特征调整，根据步骤S11以及步骤S12的输出结果，通过阈值筛选出最有可能的形状来生成对应的目标框。

S14、目标掩膜，根据步骤S13得到的目标框的位置，建立目标掩膜如下：如图2所示，该掩膜的图片结构分为三个区域，目标框内区域的掩膜值为1，目标框外一圈区域的掩膜值为-1，其余部分为0。

在定义好目标掩膜部件后，将图片特征和目标掩膜按照式1)进行运算，截取出物体区域，再进行后续的特征提取操作。其中，式1)为：f_object＝f_i'*mask_object。

其中，mask_object代表根据目标框定义的目标掩膜，f_i'代表经过特征调整后得到的图片特征，通过上式的乘积操作，得到仅含有物体区域特征和周围一部分反转后的新特征f_object。目标掩膜操作突出目标框内的特征，并使得目标框周围一圈最容易对识别造成影响的背景部分特征达到反转的效果，使得前后背景差异加大，有利于排除复杂背景对算法带来的干扰，提高算法准确度。

具体地，在本发明的优选实施例中，步骤S2具体的执行过程为：使用一组1*1卷积核对特征图进行卷积，然后进行全局最大池化找到最值点，得到图片显著点，提取显著点的特征，并根据特征对目标进行分类。

其中，显著点的获取按照式2)进行，式2)为：discri_p＝F_GMP(N_c*f_object)。

具体地，在本发明的优选实施例中，步骤S3的具体执行过程包括：使用残差网络ResNet50作为基础结构，把目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘，得到新的特征图，并把新特征图作为残差网络的输入。经过5个卷积核大小不同的卷积层逐步提取图片的全局特征，最后通过1个全连接层得到图片的分类结果。

步骤S4具体包括：将由步骤S2和S3得到的局部特征和全局特征按权重进行融合，用于训练网络，融合按照式3)进行，式3)为：L_total＝αL_global+βL_local。

其中，L_total表示整个网络的损失函数，L_global和L_local分别表示全局特征损失函数和局部特征损失函数，L_global和L_local损失函数均为交叉熵。α代表了全局特征所占的权值比重，β代表了局部特征所占的权值比重，α<β。适当突出局部特征的比重，放大局部信息，更有利于发现图片中具有细小差别的区域，从而提升算法识别的准确率。

具体地，在目标形状的预测过程中，在实际情况下，目标框的宽和高的取值范围很大，若对其取值直接预测会有难度。因此，在本发明的优选实施例中，还包括对预测的目标框的宽和高的值进行优化的过程。具体地，在步骤S12中，对预测的目标框的宽和高的值进行优化的步骤按照式4)进行，式4)为：

w＝σ·e^dw，h＝σ·e^dh。

其中，σ代表转换系数，取σ＝8，w和h分别表示宽和高的值，dw和dh是预测值。在步骤S11中获取的分数特征经过一个1x1x2的卷积网络进行预测得到dw和dh，然后通过式4)进行反变换得到对应的目标框(w,h)值。

进一步地，在特征调整过程中，由于不同位置目标框的形状大小不同，因此需要引入了特征调整模型，进而根据特定不同的目标框形状来调整特征，使得它们能更好地匹配，也方便模型后续的训练。具体地，在步骤S13中，对特征的调整按照式5)进行，式5)为：

f_i'＝N_T(f_i,w_i,h_i)。

具体地，在本发明的优选实施例中，全局特征所占的权值比重α＝0.4，局部特征所占的权值比重β＝0.6。这样取值的目的是适当突出局部特征的比重，放大局部信息，更有利于发现图片中具有细小差别的区域，从而提升算法识别的准确率。

本发明的细粒度识别方法通过在目标检测过程中对检测出的目标框周围的特征进行相应的反转，实现前后背景的分离，可以使前后背景区分变大，能大大降低复杂背景对识别造成的影响，有利于提高后期识别分类的准确度。该细粒度识别方法基于背景分离和显著点检测，具有鲁棒性强、计算效率高的优点，可以对目标进行精确的细粒度识别。

进一步地，本发明还提出了一种终端设备，该终端设备包括存储器、处理器以及存储在该存储器中并可在该处理器上运行的计算机程序。所述的处理器执行所述计算机程序时实现如上述实施例中的细粒度识别方法。

同时，本发明还提出了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如如上述实施例中的细粒度识别方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

该终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，终端设备还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是终端设备的内部存储单元，例如终端设备的硬盘或内存。存储器也可以是终端设备的外部存储设备，例如终端设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及终端设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种细粒度识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的细粒度识别方法，其特征在于，所述步骤S1的具体步骤包括：

3.根据权利要求1所述的细粒度识别方法，其特征在于，所述步骤S2具体包括：

4.根据权利要求1所述的细粒度识别方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求1所述的细粒度识别方法，其特征在于，所述步骤S4具体包括：

6.根据权利要求2所述的细粒度识别方法，其特征在于，在所述步骤S12中，还包括对预测的目标框的宽和高的值进行优化，优化步骤按照式4)进行，式4)为：

w＝σ·e^dw，h＝σ·e^dh；

7.根据权利要求2所述的细粒度识别方法，其特征在于，在所述步骤S13中，还包括对特征的调整，对特征的调整按照式5)进行，式5)为：

f_i'＝N_T(f_i,w_i,h_i)；

8.根据权利要求5所述的细粒度识别方法，其特征在于，全局特征所占的权值比重α＝0.4，局部特征所占的权值比重β＝0.6。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。