CN113177528B

CN113177528B - 基于多任务学习策略训练网络模型的车牌识别方法及系统

Info

Publication number: CN113177528B
Application number: CN202110586149.2A
Authority: CN
Inventors: 孙锬锋; 管红英; 李季
Original assignee: Nanjing Haofeng Information Technology Co ltd
Current assignee: Nanjing Haofeng Information Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2024-05-03
Anticipated expiration: 2041-05-27
Also published as: CN113177528A

Abstract

本发明提供了一种基于多任务学习策略训练网络模型的车牌识别方法及系统，包括以下步骤：收集和标注用于训练车牌类别识别网络模型的车牌样本图片，搭建基于深度学习的车牌类别识别网络模型，确定多任务学习框架，使用训练集中的车牌样本图片，训练基于深度学习的车牌类别识别网络模型，将训练好的车牌类别识别网络模型参数固定，使用测试集中的车牌样本图片，测试基于深度学习的车牌类别识别网络模型的综合性能，导出训练好的车牌类别识别网络模型。本发明公开的车牌类别识别方法，具有模型轻量快速、识别准确、易于部署、适应多种复杂场景等优点，能够同时兼容灰度车牌图像和彩色车牌图像单双类别和颜色类别的准确识别。

Description

基于多任务学习策略训练网络模型的车牌识别方法及系统

技术领域

本发明涉及计算机视觉领域的数字图像处理技术和模式识别技术，具体地，涉及基于多任务学习策略训练网络模型的车牌识别方法及系统。

背景技术

随着经济社会的高速发展，机动车辆的数目也在不断增加。实现对车辆身份自动识别，能够提高车辆的管理效率、降低人力成本。因此，车牌识别技术成为近几年研究的热点。车牌类别识别方法是车牌识别技术的重要一环，能够识别给定车牌图片的具体类别，从而补充和完善车牌识别信息，进一步可用于套牌检测、车辆准入判断等更复杂的应用场景。目前常见的车牌类别识别技术可分为基于手工特征的识别技术和基于深度学习的识别技术。

基于手工特征的车牌类别识别方法，常用的做法为利用数字图像处理技术，对图像首先进行包括对图像进行滤波和去噪、直方图归一化等预处理操作，再将RGB色域转换到HSV色域，通过设定阈值的方式划分每一个像素点的颜色类别，并统计相同类别的像素块的个数，最后得出车牌最终的颜色类别。但是该种方法容易收到亮度、光照等环境因素的影响，并且不合理的采样区域会影响最终的分类结果，从而导致识别出错率更高，整体识别鲁棒性较差。并且该方法很难实现计算的并行化，从而导致在目前常见的计算设备上，平均处理时延普遍偏高。

基于深度学习的车牌类别识别方法，通常使用卷积神经网络(CNN)提取车牌图像的高级语义和深层特征，将输入车牌作为整幅图片进行识别。该种方法保留了车牌完整的全局信息，能够自适应不同环境下造成的像素值偏移，具有较好的鲁棒性和较高的识别准确率。同时，提取的结构化特征还可以用于其他任务，例如判断给定图片是否为车牌图片，车牌的单双类别等。同时，基于端到端网络实现的深度学习识别方法，可以在一定程度上实现并行化计算进而提升处理效率。

在现有的基于深度学习的车牌类别识别方法中，专利CN108154160A公开了一种车牌颜色识别方法及系统，通过构建的神经网络识别模型，计算对应的车牌颜色预分类向量和车辆属性的分类向量，并据此生成概率矩阵，结合车牌颜色和车辆属性的预设匹配规则构建的规则矩阵，确定车牌颜色分类结果。该方法的局限性在于需要引入额外的车辆信息进行车牌颜色分类，并且需要预设匹配规则矩阵。

专利CN111860539A公开了一种车牌颜色的识别方法、装置及介质，更具获取目标车牌的目标红外图片，通过目标红外图片确定目标车牌的字符信息，根据预先获取各车牌颜色与各字符信息之间的对应关系确定字符信息对应的车牌颜色。该方法的局限性在于红外图片通常情况下难以获得，损失了车牌的颜色信息，同时需要额外确定车牌字符信息，并且车牌颜色和字符信息的对应关系对于大多数车牌而言比较模糊。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于多任务学习策略训练网络模型的车牌识别方法及系统。

根据本发明提供的一种基于多任务学习策略训练网络模型的车牌识别方法，包括以下步骤：

步骤S1：收集和标注用于训练车牌类别识别网络模型的车牌样本图片，并划分为训练集和测试集；

步骤S2：搭建基于深度学习的车牌类别识别网络模型，包括用于特征提取的骨干网络、正负类别判断分支、单双类别识别分支和颜色类别识别分支；

步骤S3：确定多任务学习框架，设定用于优化网络参数的损失函数；

步骤S4：使用训练集中的车牌样本图片，并通过数据增强技术增加车牌样本图片的丰富性与多样性，训练基于深度学习的车牌类别识别网络模型；

步骤S5：将训练好的车牌类别识别网络模型参数固定，使用测试集中的车牌样本图片，测试基于深度学习的车牌类别识别网络模型的综合性能；

步骤S6：导出训练好的车牌类别识别网络模型，通过直接部署成服务或集成于其它系统中使用。

优选的，所述步骤S1中，收集的车牌样本图片种类包括单层、双层蓝牌和黄牌，新能源、警牌、军牌特殊类型车牌，以及非车牌或者类似车牌的干扰样本，车牌区域完整且占比大于80％；标注车牌的颜色类别、单双类别和正负类别。

优选的，所述步骤S1中，车牌样本图片按照9:1的比例分为训练集和测试集。

优选的，采用人工合成车牌图片的方式扩充车牌样本图片集，所述人工合成车牌图片包括使用计算机软件，按照国家规定的车牌标准，结合光线变化、增加污损、旋转、缩放方法后生成的车牌图片。

优选的，所述步骤S2中搭建的基于深度学习的车牌类别识别网络模型，其组成包括四个部分：

骨干网络，用于从输入图片中提取特征；

正负类别判断分支包括非局部全局池化和逻辑回归模块，利用骨干网络输出的特征计算并输出给定图像为车牌图像的概率；

单双类别识别分支包括非局部全局池化和全连接模块，利用骨干网络输出计算车牌的单双类别；

颜色类别识别分支包括下采样卷机、全局池化和全连接模块，利用骨干网络输出计算车牌的颜色类别。

优选的，在步骤S3中确定多任务学习框架，设定用于优化网络参数的损失函数，包括以下步骤：

步骤S6.1：车牌正负类别判断采用逻辑回归模型进行优化，其损失函数定义为，

其中，y_i取值0和1，分别对应负类和正类；P(y_i)为y_i＝1关于x_i概率密度函数，其定义为

其中，x_i为输入的特征向量，w^T和b为待学习的参数，分别为权重矩阵和偏置向量；

步骤S6.2：单双类别分支采用交叉熵损失优化，其损失函数定义为，

其中，x为全连接层输出的概率分布向量，x_class为标注类别对应位置编号的元素，x_j为位置编号j的元素；

步骤S6.3：颜色类别识别分支也采用交叉熵损失优化，其损失函数定义与步骤S6.2中相同，记作

步骤S6.4：特征提取骨干网络使用三个分支的损失加权优化，其损失函数定义为，

其中λ₁、λ₂和λ₃为线形加权参数，满足λ₁+λ₂+λ₃＝1的约束条件；在训练总周期数的前半个周期中，λ₁和λ₂取0、λ₃取1；在后续的训练周期中，λ₁取0.35、λ₂取0.35、λ₃取0.3。

优选的，所述步骤S4中训练基于深度学习的车牌类别识别网络，采用PyTorch深度学习框架搭建和训练模型；数据增强包括随机亮度、随机对比度、随机色饱和度、随机模糊、随机旋转、随机透视方法。

优选的，所述步骤S5中，综合性能的评估指标包括车牌正负类别判别的F₁分数，车牌单双类别识别准确率，车牌颜色类别分类准确率以及平均处理时延，包括以下步骤，

步骤S8.1：车牌正负类别判别的F_i分数为精确率P和召回率R的调和平均值，即

其中有，

TP为将正类样本预测为阳性样本的真阳性个数，FN为将正类样本预测为阴性样本的假阴性个数，FP为将负类样本预测为阳性样本的假阳性个数，TN为将负类样本预测为阴性样本的真阴性个数；

步骤S8.2：车牌单双类别识别准确率为正确分类单双类别的车牌数/总车牌数；

步骤S8.3：车牌颜色类别识别准确率为正确分类颜色类别的车牌数/总车牌数；

步骤S8.4：平均处理时延为从输入到输出计算一张图片的平均时间，即总用时/总车牌数。

优选的，所述步骤S6中,将训练好的模型导出为开放神经网络交换格式，可以被目前主流的推理引擎加载；或者使用包括ONNX Runtime或OpenCV DNN模块方式将模型封装成API服务，通过RPC方式调用模型；或者将模型集成于现有系统中，通过接口函数实现调用。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于深度学习技术，构建了端到端的卷积神经网络模型，相比于传统方法，无需手工特征的设计步骤，能够提取车牌图像的高级语义和深层特征，保留了车牌完整的全局信息，能够自适应不同环境下造成的像素值偏移，具有较好的鲁棒性和较高的识别准确率。同时，该方法可以在一定程度上实现并行化计算进而提升处理效率，在推理阶段需要更少的计算资源，且具有更低的时延。

2、本发明提出的模型能够准确判断给定图片是否为车牌图片，车牌的单双类别以及车牌的颜色类别，广泛支持单层、双层以及新能源、警牌、军牌等特殊类型车牌。该模型在整体轻量快速的同时，具有很高的识别准确率，能够应对各种复杂场景。与此同时，该模型的实现方式极易于训练和部署工作。

3、本发明提出的模型能够同时兼容灰度(grayscale)车牌图像和彩色(rgb)车牌图像单双类别和颜色类别的准确识别，在保证正常彩色图像处理的同时，又能够适应输入带宽受限、采集设备落后等特殊场景下输入的灰度图像，能够广泛部署到不同的场景和设备中。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一种基于多任务学习策略训练网络模型的车牌识别方法的整体框架图；

图2为本发明提出的基于深度学习的车牌类别识别网络模型框架示意图；

图3为本发明提出的骨干网络中的特征学习单元ConvBNReLU的网络结构图；

图4为本发明提出的骨干网络中基本模块BasicBlock的网络结构图；

图5为本发明提出的骨干网络整体的网络结构图；

图6为本发明提出的非局部全局池化的结构示意图；

图7为本发明提出的颜色类别识别分支的网络结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

一种基于多任务学习策略训练网络模型的车牌识别方法，包括以下步骤：

步骤S1：收集和标注用于训练车牌类别识别网络模型的车牌样本图片，并划分为训练集和测试集。在收集车牌图片时，其种类包括常见的单层、双层蓝牌和黄牌，新能源、警牌、军牌等特殊类型车牌，以及非车牌或者类似车牌的干扰样本，且保证车牌区域完整且占比大于80％。在标注车牌图片时，需要同时标注车牌的颜色类别、单双类别和正负类别。收集好的车牌样本图片按照9:1的比例分为训练集和测试集。

考虑到收集数据集工作的可行性和复杂程度，可采用人工合成车牌图片的方式扩充数据集。合成车牌图片可通过但不限于使用计算机软件，按照国家规定的颜色、文字、尺寸等车牌标准，结合光线变化、增加污损、旋转、缩放等方法后生成的车牌图片。

步骤S2：搭建基于深度学习的车牌类别识别网络模型，包括四个部分：

骨干网络，用于从输入图片中提取特征；骨干网络包括特征学习单元ConvBNReLU，其网络结构图如图3所示。该结构首先使用卷积核为K、卷积步长为S的卷积运算，并使用(K-1)/2向下取整补零，维持特征图谱的尺寸。同时，使用批归一化(Batch Normalization，BN)消除内部协方差偏移，并使用ReLU作为激活函数。

骨干网络还包括基本模块BasicBlock，其网络结构图如4所示。该结构包含两个ConvBNReLU特征学习单元，并使用残差(ADD)网络模型将输出特征与输入特征叠加，促进信息的流动。

骨干网络整体的网络结构如图5所示，该模块的输入为C_in×24×56的RGB车牌图片，通过初始卷积变换为C×24×56的输入。其中C_in和C取决于输入图像，当输入为彩色图像时，C_in为3和C为8；当输入为灰度图像时，C_in为1和C为4。模型的输出为8C×3×7的特征图谱。

正负类别判断分支包括非局部全局池化和逻辑回归模块，利用骨干网络输出的特征计算并输出给定图像为车牌图像的概率。非局部全局池化的结构如图6所示，相比于直接对特征图进行全局平均池化，该方法建立了像素间的全局上下文依赖，减少了全局信息的损失。

单双类别识别分支包括非局部全局池化和全连接模块，利用骨干网络输出计算车牌的单双类别。

颜色类别识别分支包括下采样卷机、全局池化和全连接模块，利用骨干网络输出计算车牌的颜色类别。如图7所示，首先使用卷积运算将特征提取骨干网络输出的特征图谱下采样为采样Patch，再使用全局平均池化(Global Average Pooling，GAP)，最后使用全连接层进行分类。

步骤S3：确定多任务学习框架，设定用于优化网络参数的损失函数，包括以下步骤：

步骤1、车牌正负类别判断采用逻辑回归模型进行优化，其损失函数定义为，

其中，x_i为输入的特征向量，w^T和b为待学习的参数，分别为权重矩阵和偏置向量。

步骤2、单双类别分支采用交叉熵损失优化，其损失函数定义为，

其中，x为全连接层输出的概率分布向量，x_class为标注类别对应位置编号的元素，x_j为位置编号j的元素。

步骤3、颜色类别识别分支也采用交叉熵损失优化，其损失函数定义与步骤S6.2中相同，记作

步骤4、特征提取骨干网络使用三个分支的损失加权优化，其损失函数定义为，

步骤S4：使用训练集中的车牌样本图片，训练基于深度学习的车牌类别识别网络模型，并通过数据增强技术增加样本的丰富性与多样性，以提升最终网络的鲁棒性。

训练基于深度学习的车牌类别识别网络，采用PyTorch深度学习框架搭建和训练模型；数据增强包括随机亮度、随机对比度、随机色饱和度、随机模糊、随机旋转、随机透视等方法。通过上述方法增加样本的丰富性与多样性，增广样本可以有效避免模型过拟合并提升最终网络的鲁棒性。

步骤S5：将训练好的车牌类别识别网络模型参数固定，使用测试集中的车牌样本图片，测试基于深度学习的车牌类别识别网络模型的综合性能。综合性能的评估指标包括车牌正负类别判别的F₁分数，车牌单双类别识别准确率，车牌颜色类别分类准确率以及平均处理时延，包括以下步骤，

步骤1、车牌正负类别判别的F₁分数为精确率P和召回率R的调和平均值，即

其中有，

步骤2、车牌单双类别识别准确率为正确分类单双类别的车牌数/总车牌数；

步骤3、车牌颜色类别识别准确率为正确分类颜色类别的车牌数/总车牌数；

步骤4、平均处理时延为从输入到输出计算一张图片的平均时间，即总用时/总车牌数。

步骤S6：导出训练好的车牌类别识别网络模型，通过直接部署成服务或集成于其它系统中使用。将训练好的模型导出为开放神经网络交换格式(Open Neural NetworkExchange，ONNX)，可以被目前主流的推理引擎加载。可以使用ONNX Runtime或OpenCV DNN模块等方式将模型封装成API服务，通过RPC方式调用模型；或者将模型集成于现有系统中，通过接口函数实现调用。

实施例2，本实施例为实施例1的优选例。

如图1所示，本实施例提供了一种基于深度学习的车牌类别识别方法。包含网络模型、训练步骤、部署步骤等方面。

如图2所示，本实施例设计了一个车牌类别识别网络框架，支持同时准确识别车牌的正负类别、单双类别和颜色类别，广泛支持我国单层、双层以及新能源、警牌、军牌等特殊类型车牌。模型训练时使用多任务训练框架优化。

数据集包含从真实环境中收集的真实数据集、使用计算机生成的合成数据集以及从真实环境中收集的干扰样本数据集。

真实数据集包含8232张车牌图片。其中小型车牌3652张、大型车牌2819张、新能源857张、警牌139张、军牌34张、大型双层车牌715张、双层军牌16张。

合成数据集使用OpenCV按照国家规定的颜色、文字、尺寸等车牌标准，结合光线变化、增加污损、旋转、缩放等方法合成，并使用生成对抗网络(GAN)进行风格迁移，共包含50万张车牌图片。其中小型车牌10万张、大型车牌10万张、新能源5万张、警牌5万张、军牌5万张、大型双层车牌10万张、双层军牌5万张。

干扰样本数据集包含816张样本图片。包括且不限于路边的标示牌、车辆上的文字区域、新车的商标牌等大多数场景下出现的、类似车牌或者非车牌的区域或图片。

所有图片均标注了车牌的正负类别、单双类别和颜色类别。

在本实施例的测试过程中，基于深度学习的车牌类别识别模型使用PyTorch框架搭建和训练；部署时导出为开放神经网络交换格式(Open Neural Network Exchange，ONNX)。

首先用生成数据集预训练识别模型，使其学习到一定的先验知识，以得到合适的初始权重。随后使用真实数据集多模型中的权重参数进行微调，得到更优的网络权重。在训练过程中，使用Tensorboard实时查看网络的训练情况，监控训练loss，避免过拟合发生。

训练结束后，从所有保存的中间结果中，选取在测试集上loss最低的权重使用。测试使用从真实数据集中预留的950张图片和干扰样本数据集中的50张图片。测试指标包括车牌正负类别判别的F₁分数，车牌单双类别识别准确率ACC_type，车牌颜色类别分类准确率ACC_color以及使用ONNX Runtime推理引擎测试的平均处理时延T。

在测试集上，当判别阈值取0.5时，车牌正负类别判别结果为TP＝948/FP＝9/TN＝41/FN＝2，因此P为948/(948+9)，R为948/(948+2)，计算得到F₁分数为0.994；车牌单双类别识别结果为ACC_type＝942/950＝99.1％；颜色类别识别结果为ACC_color＝936/950＝98.5％，Top2准确率(即预测结果中概率前两高的颜色中包括正确颜色)为100％。

将模型导出为ONNX格式，使用ONNX Runtime推理引擎加载并推理。在GPUGTX1080Ti上，平均每张图片的处理时间为1.1ms；在CPU i5-8259U上，平均每张图片的处理时间为2.9ms。

通过本实施例测试结果表明，本发明提出的一种基于深度学习的车牌类别识别方法，在具有模型轻量快速、识别准确、易于部署等优点的基础上，能够广泛支持各种类型车牌，极大的提升了车牌颜色类别识别的性能，并同时填补了正负类别判断、单双类别识别等应用的空白，具有很强的商用价值。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于，包括以下步骤：

步骤S6：导出训练好的车牌类别识别网络模型，通过直接部署成服务或集成于其它系统中使用；

所述步骤S2中搭建的基于深度学习的车牌类别识别网络模型，其组成包括四个部分：

骨干网络，用于从输入图片中提取特征；

单双类别识别分支包括非局部全局池化模块和全连接模块，利用骨干网络输出计算车牌的单双类别；

颜色类别识别分支包括下采样卷积、全局池化和全连接模块，利用骨干网络输出计算车牌的颜色类别；

所述非局部全局池化模块包括1×1卷积层、Softmax层、FC层、全局池化层GAP；

对于输入的图像特征x，首先通过1×1卷积层减小特征尺寸，经过Softmax层后与原特征进行矩阵乘法计算与原特征之间的相关性，之后经过FC层计算特征的非局部响应，在另一分支通过全局池化层GAP计算x的全局池化响应，最后将非局部响应与全局池化响应相加，得到非局部全局池化输出。

2.根据权利要求1所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：所述步骤S1中，收集的车牌样本图片种类包括单层、双层蓝牌和黄牌，新能源、警牌、军牌特殊类型车牌，以及非车牌或者类似车牌的干扰样本，车牌区域完整且占比大于80％；标注车牌的颜色类别、单双类别和正负类别。

3.根据权利要求1所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：所述步骤S1中，车牌样本图片按照9:1的比例分为训练集和测试集。

4.根据权利要求2所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：采用人工合成车牌图片的方式扩充车牌样本图片集，所述人工合成车牌图片包括使用计算机软件，按照国家规定的车牌标准，结合光线变化、增加污损、旋转、缩放方法后生成的车牌图片。

5.根据权利要求1所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：在步骤S3中确定多任务学习框架，设定用于优化网络参数的损失函数，包括以下步骤：

L_LR＝-∑_i(y_i·log(P(y_i))+(1-y_i)·log(1-P(y_i)))

6.根据权利要求1所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：所述步骤S4中训练基于深度学习的车牌类别识别网络，采用PyTorch深度学习框架搭建和训练模型；数据增强包括随机亮度、随机对比度、随机色饱和度、随机模糊、随机旋转、随机透视方法。

7.根据权利要求1所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：所述步骤S5中，综合性能的评估指标包括车牌正负类别判别的F₁分数，车牌单双类别识别准确率，车牌颜色类别分类准确率以及平均处理时延，包括以下步骤，

步骤S8.1：车牌正负类别判别的F₁分数为精确率P和召回率R的调和平均值，即

其中有，

8.根据权利要求1所述的一种基于多任务学习策略训练网络模型的车牌识别方法，其特征在于：所述步骤S6中,将训练好的模型导出为开放神经网络交换格式，可以被目前主流的推理引擎加载；或者使用包括ONNX Runtime或OpenCV DNN模块方式将模型封装成API服务，通过RPC方式调用模型；或者将模型集成于现有系统中，通过接口函数实现调用。

9.一种基于多任务学习策略训练网络模型的车牌识别系统，其特征在于，包括以下模块：

模块M1：收集和标注用于训练车牌类别识别网络模型的车牌样本图片，并划分为训练集和测试集；

模块M2：搭建基于深度学习的车牌类别识别网络模型，包括用于特征提取的骨干网络、正负类别判断分支、单双类别识别分支和颜色类别识别分支；

模块M3：确定多任务学习框架，设定用于优化网络参数的损失函数；

模块M4：使用训练集中的车牌样本图片，并通过数据增强技术增加车牌样本图片的丰富性与多样性，训练基于深度学习的车牌类别识别网络模型；

模块M5：将训练好的车牌类别识别网络模型参数固定，使用测试集中的车牌样本图片，测试基于深度学习的车牌类别识别网络模型的综合性能；

模块M6：导出训练好的车牌类别识别网络模型，通过直接部署成服务或集成于其它系统中使用；

所述模块M2中搭建的基于深度学习的车牌类别识别网络模型，其组成包括四个部分：

骨干网络，用于从输入图片中提取特征；