CN114943845A

CN114943845A - 一种领域图片细粒度分类识别方法及系统

Info

Publication number: CN114943845A
Application number: CN202210560077.9A
Authority: CN
Inventors: 康广玉; 葛云涛; 张建勋; 王悦; 赵坚; 苏刚; 罗春丽; 刘进军; 郭福雁; 潘雷; 王贝贝; 李艳君; 崔闻珊; 任权昌; 陆哲明
Original assignee: Tianjin Chengjian University
Current assignee: Tianjin Chengjian University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-26

Abstract

本发明涉及一种领域图片细粒度分类识别方法，首先基于训练集训练好三个能力互补的细粒度分类深度神经网络，然后对输入图片利用这三个深度神经网络分别进行分类，最后综合得到最终分类识别结果。本发明还涉及一种领域图片细粒度分类识别系统，包括处理中心和显示器，处理中心与所述显示器通讯连接；处理中心包括高清摄像头、预处理器、计算中心及存储器。本发明涉及科学合理，采用基于深度学习的神经网络识别方法，比传统方法的识别类别更多，速度更快，准确率更高，可以在短时间内对大批量同领域图片做出相对精准的细分类；同时节省了大量的人力资源及成本，且便于部署和移植。

Description

一种领域图片细粒度分类识别方法及系统

技术领域

本发明属于模式识别技术领域，具体涉及一种领域图片细粒度分类识别方法及系统。

背景技术

细粒度图片分类是对大类下的子类进行识别，细粒度图片分析任务相对通用图片任务的区别和难点在于其图片所属类别的粒度更为精细。由于分类的粒度很小，细粒度图片分类非常困难，在某些类别上甚至专家都难以区分。主要原因有三：子类之间差异细微；子类内部差异巨大；受视角、背景、遮挡等因素影响较大。

现有的各种细粒度图片分类方法存在以下问题：(1)特征描述能力弱，区分能力不够。(2)对局部信息不够重视。(3)很多算法严重依赖于人工标注信息，无法实际应用。

对某个领域的图片进行进一步细粒度分类识别，目前尚缺乏真正有效的装置或者系统。通常只能由相关专业人员进行肉眼辨别。除了人工方法，若直接采用一般的图片分类神经网络模型，则分类性能很差，无法实用。

因此，现有对同领域图片进行细粒度分类识别的技术缺点在于：第一，人工方法所需要的成本很高；第二，人工方法效率低下；第三，人工方法难以开展大批量领域图片的分类工作；第四，一般的深度学习图片分类模型无法完成细粒度图片的分类识别。

发明内容

本发明的目的在于克服现有技术的不足，提供一种领域图片细粒度分类识别方法及系统，首先基于训练集训练好三个能力互补的细粒度分类深度神经网络，然后对输入图片利用这三个深度神经网络分别进行分类，最后综合得到最终分类识别结果。

本发明解决其技术问题是通过以下技术方案实现的：

一种领域图片细粒度分类识别方法，其特征在于：所述方法融合三种深度神经网络进行领域图片细粒度分类识别，首先基于训练集训练好三个能力互补的细粒度分类深度神经网络，然后对输入图片利用这三个深度神经网络分别进行分类，最后综合得到最终分类识别结果，所述方法的步骤为：

1)输入若干类待细分的同领域图片，并将这些图片每个子类按文件夹存放，生成训练集；

2)利用步骤1)生成的训练集分别对NTS-Net、MMAL-Net、PMG-Net三个模型进行训练；

3)利用高清摄像头采集领域图片并输入到预处理器中或者将已有领域图片输入到预处理器中；

4)预处理器接收步骤3)的领域图片并进行图片预处理，生成预处理后的领域图片；

5)将步骤4)生成的领域图片送入含有已训练好的深度神经网络NTS-Net、MMAL-Net和PMG-Net的计算中心，输出每个神经网络下的领域图片分类识别结果及置信度；

6)对步骤5)中三个神经网络输出的领域图片分类识别结果及置信度进行综合处理，得到最终的识别结果和置信度送到存储器中，存储器接收所述识别结果进行存储并向显示器提供显示的内容。

而且，所述步骤1)中的同领域图片是细粒度的，包含了同领域的不同子类。

而且，所述步骤4)中对图片的预处理包括对高清摄像头偶然情况采集到的错误图片使用算法进行剔除、对存在拖影的图片合成重构为清晰图片及图片分辨率调整。

而且，所述步骤5)中的深度神经网络NTS-Net包含三个模块，分别为Navigator模块、Teacher模块及Scrutinizer模块，深度神经网络NTS-Net使Navigator模块能够在Teacher模块的指导下检测到图片中最具判别性的区域，然后Scrutinizer模块仔细检查这些区域并做出预测。

而且，所述步骤5)中的深度神经网络MMAL-Net具有3个分支，分别为学习图片中目标的总体特征、定位图片中目标的边框信息及图片中目标的局部特征。

而且，所述步骤5)中的深度神经网络PMG-Net通过两个相互协同工作的组件实现，一方面用渐进的训练策略有效地融合来自不同粒度的特征；另一方面用随机jigsaw patch生成器，鼓励网络在特定粒度学习特征。

而且，所述步骤6)中综合处理的标准为若置信度prob高于设定的阈值则图片存储至文件夹A下，若置信度prob不高于设定的阈值则图片存储至待人工处理文件夹下。

一种领域图片细粒度分类识别系统，其特征在于：包括处理中心和显示器，所述处理中心与所述显示器通讯连接，所述处理中心获取领域图片处理后传输给所述显示器进行输出显示；所述处理中心包括高清摄像头、预处理器、计算中心及存储器，所述高清摄像头执行采集领域图片并输入所述预处理器中，所述预处理器接收所述领域图片后对图片进行预处理生成预处理后的领域图片，所述预处理后的领域图片被传输给所述计算中心；所述计算中心对所述预处理后的领域图片进行识别输出识别结果给所述存储器；所述存储器接收所述识别结果进行存储并且向所述显示器提供显示的内容。

本发明的优点和有益效果为：

本发明通过工业高清摄像头拍摄未知子类的领域目标照片，传入已部署本系统的计算中心，经过含有各种不同子类领域图片数据集充分训练后的三个神经网络模型冗余判别，在几秒钟内对图片所属的子类给出识别结果，识别准确率近乎百分九十以上；对比传统的人工肉眼识别，本发明可以在短时间内，对大批量领域图片做出相对精准判别，分别识别效率高，精度强，大大节省相关成本的消耗。

附图说明

图1为本发明方法的整体原理拓扑图；

图2为本发明方法的流程图；

图3为本发明深度神经网络NTS-Net模型包含Navigator和Teacher模块的训练原理示意图；

图4为本发明深度神经网络NTS-Net模型包含Navigator和Scrutinizer模块的分类原理示意图；

图5为本发明深度神经网络MMAL-Net的原理示意图；

图6为本发明系统的拓扑原理图；

图7为本发明以飞机型号识别为例的细粒度分类识别系统的流程图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

本发明提供的一种领域图片细粒度分类识别方法的整体原理拓扑图如图1所示，基本过程如下：

输入若干子类待细分同领域图片，每个子类图片按文件夹存放，生成数据集；三个能力互补的神经网络模型在所述数据集上训练生成充分训练的模型；

将测试图片输入充分训练的模型进行运算处理，对三个神经网络输出结果进行综合，输出的综合结果包含预测类别A、置信度prob并且发送给显示器进行显示，同时将该测试图片存入相应子类的文件夹。

本发明提供的一种领域图片细粒度分类识别方法的具体步骤如图2所示，描述如下：

1)训练集制作：输入若干类待细分的同领域图片，每个子类按文件夹存放，生成训练集；

2)三个深度神经网络模型训练：利用训练集分别对NTS-Net、MMAL-Net、PMG-Net三个模型进行训练，其中：NTS是Navigator-Teacher-Scrutinizer的缩写，具有自我监督能力；MMAL是Multi-branch and Multi-scaleAttention Learning的缩写，基于多分支的范式工作；其中的PMG是Progressive Multi-Granularity的缩写，它基于渐进式训练模式；

3)输入待细分类领域图片：利用高清摄像头采集领域图片并输入到预处理器中或者将已有领域图片输入到预处理器中；

4)预处理：预处理器接收所述待细分类领域图片进行图片预处理，生成预处理后的领域图片；

5)利用已训练好的三个深度神经网络分别分类：所述预处理后的领域图片送入含有已训练好的深度神经网络NTS-Net、MMAL-Net和PMG-Net的计算中心，输出每个神经网络下的领域图片分类识别结果和置信度；

6)综合三个神经网络的分类结果进行存储和展示：对上述三个神经网络输出的领域图片分类识别结果和置信度进行综合处理，得到最终的识别结果和置信度送到存储器中，所述存储器接收所述识别结果进行存储并向显示器提供显示的内容。

进一步，所述步骤4)中的图片预处理包括：对于高清摄像头偶然情况采集到的错误图片使用算法进行剔除；针对采集到的图片会存在拖影，预处理过程将存在拖影的图片合成重构为清晰图片；进行分辨率调整，提高计算中心的运算效率。

进一步，所述步骤5)中的深度神经网络NTS-Net包含三个模块：Navigator模块、Teacher模块和Scrutinizer模块，深度神经网络NTS-Net使Navigator模块能够在Teacher模块的指导下检测到图片中最具判别性的区域，然后Scrutinizer模块仔细检查这些区域并做出预测。

进一步，所述步骤5)中的深度神经网络MMAL-Net具有3个分支，分别学习图片中目标的总体特征，定位图片中目标的边框信息和图片中目标的局部特征。

进一步，所述步骤5)中的深度神经网络PMG-Net通过两个相互协同工作的组件实现：一方面用渐进的训练策略有效地融合来自不同粒度的特征；另一方面用随机jigsawpatch生成器，鼓励网络在特定粒度学习特征。

进一步，所述步骤6)的综合处理具体包括：若综合置信度prob高于设定的阈值则图片存储至文件夹A下，若综合置信度prob不高于设定的阈值则图片存储至待人工处理文件夹下。

本发明的领域图片细粒度分类识别系统总共搭载三种神经网络模型，三种模型各有特点和各自优点。本发明核心思想是首先基于训练集训练好三个能力互补的细粒度分类深度神经网络，然后对输入图片利用这三个深度神经网络分别进行分类，最后综合得到最终分类识别结果。

深度神经网络NTS-Net的模型的原理示意图如图3和图4所示，采用的是一种自我监督机制，全名为Navigator-Teacher-Scrutinizer Network，简写为NTS-Net。考虑到图片中各区域的信息和其所属类别概率有内部一致性，所以设计了一种新的训练模式，使Navigator能够在Teacher的指导下检测到图片中最具判别性的区域，然后Scrutinizer仔细检查这些区域并做出预测。图3展示的是分类过程的Navigator和Scrutinizer，图4展示的是训练过程的Navigator和Teacher。可以将该模型看成是多主体合作的方式，在这种合作中，各主体相互受益、共同进步。NTS-Net网络是可以端到端训练的，在测试阶段能够产生精确的预测结果和信息区域，三个子模块的作用如下：

Navigator模块的作用是使模型关注信息量最大的区域：对于图片中的每个区域，Navigator预测该区域的信息量，并使用预测来提出信息量最大的区域。

Teacher模块评估由Navigator提出的区域并给予其反馈：对于每个提出的区域，Teacher估计其属于真实类别的概率；评估的置信度来引导Navigator提出具有更多信息的区域。

Scrutinizer模块审查由Navigator提出的区域，并进行细粒度分类：每个提出的区域被扩展到相同大小，Scrutinizer提取其特征，并将这些特征和整个图片的特征联合处理作为最终细粒度图片分类的特征。

深度神经网络MMAL-Net模型如图5所示。它基于多分支的范式进行工作，全称为Multi-branch and Multi-scale Attention Learning Network，简写为MMAL-Net。该模型的注意力目标定位模块(AOLM)可以预测图片中目标的位置，注意力局部提议模块(APPM)可以发现信息丰富的局部区域。该方法训练阶段有3个分支，分别学习图片中目标的总体特征，定位图片中目标的边框信息和图片中目标的局部特征。这样的网络设计，使得模型可以学习不同尺度下不同部分的细粒度特征。

深度神经网络MMAL-Net主要解决在不需要标注和边界框的作用下，有效定位目标的整体结构，包含更多的细节，不同的尺度，更多的细粒度特征。该结构主要包含两个模块：

1、注意力目标定位模块AOLM(Attention Object Location Module)；

2、注意力局部建议模块APPM(Attention Part Proposal Module)。

通过三个分支网络结构训练不同尺度的图片，因此该网络结构有良好的分类能力以及对不同尺度图片有很好的鲁棒性，整体流程如下：

输入原始图片，通过CNN学习物体的整体特征，并生成的特征图用于下一分支；

利用AOLM从原始图片的特征图中学习到物体的边界框信息；

根据边界框信息对原始图片进行裁剪，得到较细尺度的目标图片，不仅包含目标物体的结构特征还包含较细粒度的特征，输入CNN网络中，具有更好的分类效果；

利用APPM根据目标图片的特征图得到几个差异最大、冗余度最小的局部区域；

从目标图片中裁剪局部区域输入到CNN中训练；

需要说明的是，在三个分支中CNN和FC的参数是共享的，因此网络结构对不同尺度，不同部位的物体有较好的分类能力；测试阶段如图5中的虚线框内结构；分类损失函数是交叉熵损失。

深度神经网络PMG-Net模型基于渐进式训练的模式，稳定地学习图片中的细节信息，模型全称Progressive Multi-Granularity Network，简写为PMG-Net。该模型的动机是在较浅的层次学习稳定的细粒度信息，并随着训练的进行逐步将注意力转移到较深层次的大粒度抽象信息的学习上。它是通过两个相互协同工作的组件实现的：一个渐进的训练策略，有效地融合来自不同粒度的特征，和一个随机jigsaw patch生成器，鼓励网络在特定粒度学习特征。渐进式训练，具体地，是首先训练低阶段，然后逐步增加新的训练阶段。这种增量特性允许模型在特征逐步发送到更高阶段时，从局部细节到全局结构定位图片中的有区分度的信息。

另外，神经网络模型需要在同领域图片数据集(例如飞机数据集)上进行训练。对于数据集的制作和准备，设计了简单方便的数据组织规范，可以仅仅按照文件夹进行分类存放，便可作为符合模型训练使用的数据集。对于模型的训练，单个子类仅需准备50张图片便可以达到90％以上的识别准确率，且模型训练收敛快，效率高，对于一百子类的同领域图片数据集规模，训练可以在12小时内完成。

本发明还提出一种领域图片细粒度分类识别系统，拓扑图如图6所示，包括处理中心和显示器。一个飞机型号识别例子的执行流程图如图7所示。

所述处理中心与所述显示器通讯连接，所述处理中心获取装备图片处理后传输给所述显示器进行输出显示；所述处理中心包括高清摄像头、预处理器、计算中心、存储器；所述高清摄像头执行采集装备图片并输入所述预处理器中，所述预处理器接收所述装备图片后对图片进行预处理生成预处理图片，所述预处理图片被传输给所述计算中心；所述计算中心对所述预处理图片进行识别输出识别结果给所述存储器；所述存储器接收所述识别结果成像进行存储并且向所述显示器提供显示的内容。

所述计算中心具体执行以下步骤：所述预处理后的领域图片送入含有已训练好的深度神经网络NTS-Net、MMAL-Net和PMG-Net的计算中心，输出每个神经网络下的领域图片分类识别结果和置信度；

对上述三个神经网络输出的领域图片分类识别结果和置信度进行综合处理，得到最终的识别结果和置信度送到存储器中，所述存储器接收所述识别结果进行存储并向显示器提供显示的内容。

目前，对于细分类别的同领域图片识别，由于类别之间差异较小，一般的分类模型难以保证识别的准确率。例如对于飞机型号的识别，缺乏有效的自动化智能识别方法和系统，现有技术方案均高度依赖领域专家进行人工辨识。

相比基于人工辨识的背景技术，本发明存在的创新点及优势为：1、采用基于深度学习的神经网络识别方法，比传统方法的识别类别更多，速度更快，准确率更高；2、节省了大量的人力资源，且便于部署和移植。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种领域图片细粒度分类识别方法，其特征在于：所述方法融合三种深度神经网络进行领域图片细粒度分类识别，首先基于训练集训练好三个能力互补的细粒度分类深度神经网络，然后对输入图片利用这三个深度神经网络分别进行分类，最后综合得到最终分类识别结果，所述方法的步骤为：

2.根据权利要求1所述的领域图片细粒度分类识别方法，其特征在于：所述步骤1)中的同领域图片是细粒度的，包含了同领域的不同子类。

3.根据权利要求1所述的领域图片细粒度分类识别方法，其特征在于：所述步骤4)中对图片的预处理包括对高清摄像头偶然情况采集到的错误图片使用算法进行剔除、对存在拖影的图片合成重构为清晰图片及图片分辨率调整。

4.根据权利要求1所述的领域图片细粒度分类识别方法，其特征在于：所述步骤5)中的深度神经网络NTS-Net包含三个模块，分别为Navigator模块、Teacher模块及Scrutinizer模块，深度神经网络NTS-Net使Navigator模块能够在Teacher模块的指导下检测到图片中最具判别性的区域，然后Scrutinizer模块仔细检查这些区域并做出预测。

5.根据权利要求1所述的领域图片细粒度分类识别方法，其特征在于：所述步骤5)中的深度神经网络MMAL-Net具有3个分支，分别为学习图片中目标的总体特征、定位图片中目标的边框信息及图片中目标的局部特征。

6.根据权利要求1所述的领域图片细粒度分类识别方法，其特征在于：所述步骤5)中的深度神经网络PMG-Net通过两个相互协同工作的组件实现，一方面用渐进的训练策略有效地融合来自不同粒度的特征；另一方面用随机jigsaw patch生成器，鼓励网络在特定粒度学习特征。

7.根据权利要求1所述的领域图片细粒度分类识别方法，其特征在于：所述步骤6)中综合处理的标准为若置信度prob高于设定的阈值则图片存储至文件夹A下，若置信度prob不高于设定的阈值则图片存储至待人工处理文件夹下。

8.根据权利要求1～7所述的领域图片细粒度分类识别系统，其特征在于：包括处理中心和显示器，所述处理中心与所述显示器通讯连接，所述处理中心获取领域图片处理后传输给所述显示器进行输出显示；所述处理中心包括高清摄像头、预处理器、计算中心及存储器，所述高清摄像头执行采集领域图片并输入所述预处理器中，所述预处理器接收所述领域图片后对图片进行预处理生成预处理后的领域图片，所述预处理后的领域图片被传输给所述计算中心；所述计算中心对所述预处理后的领域图片进行识别输出识别结果给所述存储器；所述存储器接收所述识别结果进行存储并且向所述显示器提供显示的内容。