CN110414516B

CN110414516B - 一种基于深度学习的单个汉字识别方法

Info

Publication number: CN110414516B
Application number: CN201910716935.2A
Authority: CN
Inventors: 刘晋; 常思维
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-02-01
Anticipated expiration: 2039-08-05
Also published as: CN110414516A

Abstract

本发明公开了一种基于深度学习的单个汉字识别方法，包括如下步骤：S1，预处理待识别文字图片；S2，将预处理后的图片输入神经网络并初步提取特征；S3，将初步提取的特征进行批量归一化处理并将归一化结果进行池化操作；S4，将池化后的数据继续卷积提取特征得到对应的特征向量；S5，将特征向量分别进行空间金字塔池化并进行拼接；S6，将拼接后的向量全连接后进行归一化处理生成预测结果。

Description

一种基于深度学习的单个汉字识别方法

技术领域

本发明涉及图像识别分类领域，特别涉及一种基于深度学习的单个汉字识别方法。

背景技术

文字作为人们平时信息交流的一种至关重要的工具，对整个社会的发展有着十分重要的影响。随着时代的不断进步，人们需要处理的文字与信息也越来越多，越来越多的数据与工作单单靠人工来进行识别和分析已经变得越发困难。研究一些方法对文字字符进行识别已经成为了目前的一个迫切的需求。

字符识别是文字字符识别的难点和热点。字符数量多，仅中文字符的常用词汇就有3000多个。目前，主要的字符识别方法可以分为三种类型：1.基于模板匹配的字符识别；2.基于支持向量机的字符识别；3.神经网络的字符识别。

神经网络是由大量神经元联结在一起的非线性数学模型。神经网络具有自组织自学习能力，可以在训练过程中直接接收数据并自适应地发现样本数据潜在的特征与规律；此外，神经网络还具有关联记忆存储、发散式推导以及高度并行性等特点。

模板匹配算法适用于没有旋转角的固定大小的单字符识别。通常采用的是对二值图像进行匹配。从实时性、算法复杂性等角度考虑，模板匹配算法能够满足字符识别的任务。但是模板匹配也有其缺陷，即对同一类字符在不同图像中的尺度多变性以及光照多变性敏感，容易产生匹配偏差。

基于支持向量机的字符算法主要是基于轮廓、网格、投影等统计特征，需要对数据进行降维。利用字符特征降维的方法现在逐渐利用到字符特征提取上，能够全面提取字符特征，字符识别效果更好，另外一种较多使用的降维方法是主成分分析法，但这种方法是从全局的角度对数据进行降维，并未考虑数据的局部特征，在降维过程中不可避免地损失了一些重要信息。

基于神经网络的字符识别，以卷积神经网络为例。其作为深度学习的一种实现模型，具有局部感知野和权值共享的特征，极大地减少了计算复杂度，在图文识别方面也得到了快速发展。但是针对质量差和复杂的图纸，传统的基于卷积神经网络的识别算法并不能得到较高的准确率。

近年来，也有一些较成熟的汉字识别工具，如Google的开源OCR系统等。然而，很少有研究涉及到在多字体情况下，如何有效地识别这些汉字。

传统的单个汉字识别方法往往聚焦于某一种特定字体的汉字，研究者通过对单个汉字特征进行针对性地提取，往往可以得到识别率较高的模型。然而，在现实环境中，往往会存在多种字体文字，甚至是艺术字体同时出现的场景，这种情况下，很难对不同字体的汉字进行统一的特征提取。

发明内容

本发明的目的是提供一种基于深度学习的单个汉字识别方法，融合了多种深度神经网络技术可以在提高正确率的同时，减少网络参数提高模型训练速度，同时对于不同大小、字体的手写体文字均可进行识别，适用范围广、鲁棒性强。

为了实现以上目的，本发明是通过以下技术方案实现的：

一种基于深度学习的单个汉字识别方法，其特点是，包括如下步骤：

S1，预处理待识别文字图片；

S2，将预处理后的图片输入神经网络并初步提取特征；

S3，将初步提取的特征进行批量归一化处理并将归一化结果进行池化操作；

S4，将池化后的数据继续卷积提取特征得到对应的特征向量；

S5，将特征向量分别进行空间金字塔池化并进行拼接；

S6，将拼接后的向量全连接后进行归一化处理生成预测结果。

所述步骤S1包括：

步骤S11，对待识别文字图片提取汉字骨架特征；

步骤S12，将提取的特征图与原始图片进行维度拼接。

所述步骤S4包括：

步骤S41，将池化后的数据送入反转残差与线性瓶颈块；

步骤S42，将池化后的数据进行深度可分离卷积。

步骤S5包括：

步骤S51，将送入反转残差与线性瓶颈块后的数据进行金字塔池化，生成固定大小的第一特征向量；

步骤S52，将进行深度可分离卷积的数据进行金字塔池化，生成固定向量的第二特征向量；

步骤S53，将第一特征向量和第二特征向量进行拼接。

所述的步骤S11包括：

使用Zhang-Suen算法迭代地对符合特点条件的目标像素点进行腐蚀使目标变得越来越细，直到上一次迭代得到的图像目标在这一轮迭代中没有新的像素点被腐蚀为止。

所述的步骤S41为：先对数据进行通道维度的扩大，并卷取提取图像特征，最后将通道维度压缩回预设通道数的纺锤形网络结构。

本发明与现有技术相比，具有以下优点：

融合了多种深度神经网络技术可以在提高正确率的同时，减少网络参数提高模型训练速度，同时对于不同大小、字体的手写体文字均可进行识别，适用范围广、鲁棒性强。

附图说明

图1为本发明一种基于深度学习的单个汉字识别方法的流程图。

图2为本发明一种图像高维特征抽取分支结构表；

图3为图像空间特征抽取分支结构表；

图4为分支合并结构表。

具体实施方式

以下结合附图，通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

如图1所示，一种基于深度学习的单个汉字识别方法，包括如下步骤：

S1，预处理待识别文字图片作为神经网络输入；

S2，将预处理后的图片输入神经网络并初步提取特征；

S3，将初步提取的特征进行批量归一化并将归一化结果进行池化操作；

S4，将池化后的数据继续卷积提取特征；

S5，将步骤4输出的特征分别进行空间金字塔池化并进行拼接；

所述步骤S1包括：

步骤S11，对待识别文字图片提取汉字骨架特征；

步骤S12，将提取的特征图与原始图片进行维度拼接。

所述步骤S4包括：

步骤S41，将池化后的数据送入反转残差与线性瓶颈块；

步骤S42，将池化后的数据进行深度可分离卷积。

步骤S5包括：

步骤S53，将第一特征向量和第二特征向量进行拼接。

所述的步骤S11包括：

使用Zhang-Suen算法迭代地对符合特点条件的目标像素点进行腐蚀使目标变得越来越细，直到上一次迭代得到的图像目标在这一轮迭代中没有新的像素点被腐蚀为止，Zhang-Suen算法是基于当前像素点的八邻域像素来判断该像素点是否应该被腐蚀，即邻接着当前像素点的周围8个像素点。算法定义当前像素点为P，该点的8临域像素点表示为Pi，(1≤i≤8)。N(P)表示与点P相邻8个像素点中，前景像素点的个数；S(P)表示点P的8邻域像素点按顺时针方向遍历一圈后，出现相邻像素点的值从0变为1的次数。

所述的步骤S41为：先对数据进行通道维度的扩大，并卷取提取图像特征，最后将通道维度压缩回预设通道数的纺锤形网络结构，翻转块的第一个卷积层是PW卷积层，用于将输入数据的通道数进行扩张，第二层是一个DW卷积层，用于抽取空间维度的图像特征，第三层又是一个PW卷积层，用于将通道维度压缩回网络需要的通道数。其中，只有DW卷积层后使用了ReLU函数，另外两层卷积层后都没有使用非线性函数作为激活函数。由于ReLU函数对负数据无反馈，因此小于零的数据都会被丢失，所以翻转块只在DW卷积层后使用ReLU函数，这也是结构名中线性瓶颈的由来。

上述的深度可分离卷积方法为：深度可分离卷积可以看成是将一个传统卷积拆解成两个卷积分别作用于空间维度和通道维度。其中作用于空间维度的卷积我们称之为Depthwise卷积(简称DW卷积)，作用于通道维度的卷积我们称之为Pointwise卷积(简称PW卷积)。由于DW卷积用于对空间维度进行映射，因此它需要保证输入图像的通道数与输出图像的通道数一致。比如，如果输入DW卷积层的图像是尺寸为1024×512×32的特征图，假设DW卷积步长为2，使用padding，则输出的特征图尺寸应为512×256×32，即输入图像的通道数与输出图像的通道数都是32。这样是为了在保持通道维度不变的情况下，专注于对空间维度进行特征的卷取。而PW卷积则是用于扩充图像的通道数。PW卷积本质上是一个点卷积(文中的点卷积和PW卷积可以看作同一种卷积)，它的卷积核尺寸固定为1×1，因此使用PW卷积不会改变输入图像的长和宽，而同一层中PW卷积核的个数则决定了输出数据的通道数。

涉及的金字塔池化方法为：

对于任意大小的feature map首先分成16、4、1个块，然后在每个块上最大池化，池化后的特征拼接得到一个固定维度的输出。以满足全连接层的需要。

在本发明的一个实施例中，对待识别字符进行预处理、特征提取。首先对待识别字符进行预处理，使用Zhang-Suen算法提取汉字骨架特征。然后对他们进行维度拼接此时输入的维度为128×128×2。将该输入经过两个卷积层提取特征，卷积方式均为传统卷积。其中卷积层1_1的卷积核为5×5大小，输出为128×128×32。卷积层1_2的卷积核大小为3×3，输出大小为128×128×32。后接池化层1_1，池化层设置为MaxPooling，输出大小为64×64×32。将池化层的输出经过批量归一化，具体算法见[0034]。下面首先描述如何提取图像高维特征抽取，将批量归一化后的数据送入瓶颈块，瓶颈块1_1的操作为DS卷积,DS卷积的具体操作见[0036]，卷积核大小为3×3，输出大小为64×64×64。将瓶颈块1_1的输出送入瓶颈块2_1，瓶颈块2_1的操作为DS卷积，卷积核大小为3×3，输出大小为32×32×128。将瓶颈块2_1的输出送入瓶颈块3_1，瓶颈块3_1的操作为DS卷积,卷积核大小为3×3，输出大小为16×16×256。最后接池化层2_1，卷积核大小为多尺度的金字塔池化，输出为21×256。接下来描述如何抽取图像空间特征，将池化层1_1的输出64×64×32送入卷积层2_1，卷积层2_1的操作为DS卷积，卷积核大小为3×3，输出尺寸为64×64×128。卷积层2_2的操作为DS卷积，卷积核大小为3×3，输出大小为32×32×256。最后接池化层3_1，卷积核大小为多尺度的金字塔池化，输出为5×256。最后描述拼接过程，合拼层1_1将输入两个通道的输出(分别为21×256,5×256)合并为26×256。接全连接层1，输出尺寸为4096。接全连接层，输出尺寸为3755。至此，网络描述完毕。

汉字骨架提取本质上可以看成是对汉字图像进行细化，本文选用Zhang-Suen图像细化算法作为汉字骨架的提取算法，对汉字进行骨架特征的提取。

Zhang-Suen算法是由Zhang等人提出的一种并行的基于模板匹配的图像骨架提取算法。该算法的核心思路是迭代地对符合特定条件的目标像素点进行腐蚀使目标变得越来越细，直到上一次迭代得到的图像目标在这一轮迭代中没有新的像素点被腐蚀为止。Zhang-Suen算法是基于当前像素点的八邻域像素来判断该像素点是否应该被腐蚀，即邻接着当前像素点的周围8个像素点，如图2所示。接着给出Zhang-Suen算法判定是否腐蚀当前像素的条件即模板。定义当前像素点为P，该点的8邻域像素点表示为P_i，(1≤i≤8)。N(P)表示与点P相邻8个像素点中，前景像素点的个数；S(P)表示点P的8邻域像素点按顺时针方向遍历一圈后，出现相邻像素点的值从0变为1的次数。图2中，P的8邻域像素点顺时针遍历共出现了三次相邻像素点从0变为1的现象，因此S(P)＝3。Zhang-Suen细化算法分为两个步骤，两个步骤都是根据模板判定是否腐蚀当前像素点，但两个步骤的模板即判定条件有略微差异。先给出第一个步骤中算法判定是否腐蚀当前点的条件：

第二个步骤的判定条件相似，只是改变了第三、第四条规则。

算法只需循环两个步骤并根据它们的判定条件删除像素点直到没有像素点会被删除为止。

批量归一化(Batch Normalization，简称BN)是2015年由Sergey等人提出的一种用于加快深度学习收敛速度，减少可调参数，避免梯度爆炸问题的数据归一化算法。算法的初衷是对网络某些层的输出进行归一化操作，因此可以将BN也看作一种网络层，我们称之为BN层。由于目前主流的神经网络需要通过梯度下降，对比网络输出值与标签之间误差，逐层地训练网络和更新各层权值，这就导致了每一层网络权重的变化势必会影响下一层网络输入数据的分布，而这种各层网络中间数据的分布不一致又会导致后层的网络权重在更新时需要适应输入数据上的变化而使得整体网络权重更新缓慢、容易陷入梯度爆炸、网络的泛化能力大打折扣，这便是Internal Covariate Shift问题，也是BN层重点解决的问题。

批量归一化本质是在训练深度神经网络时保证每一层网络层的输入都保持相同的分布，即对每个隐藏层神经元的激活值做类似白化(Whiten)的操作。由于深度神经网络在做非线性变换前的激活输入值会随着网络的层数的叠加而发生分布上的偏移，其结果会导致训练难以收敛。因此批量归一化对每个隐藏层神经元，都会将激活函数映射后得到的值分布强制拉回均值为0，方差为1的标准正态分布。

BN层位于网络每个隐藏层获得激活值之后，进入激活函数进行非线性变换之前。在我们使用Mini-Batch SGD对网络进行训练时，BN层对于隐藏层每个神经元的激活值做一下操作和变换。对于d维的隐藏层输入(x⁽¹⁾,x⁽²⁾,…,x^(d))，我们将每一维的输入都进行归一化，则第k维归一化后的数据为

其中E是输入的期望，VAR是输出的方差。通过虽然可以迅速有效地对输入值进行归一化，但是这种固定简单的变换可能会改变上一层隐藏层学习到的特征，使上一层网络失去表征能力，为了在训练时保留这些特征，BN层对每一个归一化后的激活值

都引入了两个参数β^(k)和γ^(k)用于缩放和平移归一化后的输入，保留上层学习到的特征。具体公式为：

这两个参数会与神经网络一起训练得到，不需要人为的设定，并且我们可以推出当β^(k)＝E(x^(k)),

时，归一化的值

就转变回了未被归一化的原值x。

假设有一个mini-batch B，大小为m。因为此时我们需要对多个激活值的每一维进行归一化，为方便起见我们省去表示维度的上标(k)，则B可表示为：

B＝{x₁,x₂,…x_m}

表示归一化的激活值，y_1...m表示对

进行公式4-4的线性变换后得到的值，则BN变换可以表示成

BN_β，γ:x_1...m→y_1...m

反转残差和线性瓶颈块(Inverted Residuals and Linear Bottleneck Block)是由MobileNetV2提出的一种基于深度可分离卷积和残差模块的卷积网络结构。它在残差网络的残差瓶颈块的基础上，使用了深度可分离卷积，并根据深度可分离卷积的特性，改变了原瓶颈块的网络结构，使其在降低网络计算量的同时，提升了网络性能。

首先简单介绍一下残差瓶颈块，残差瓶颈块的主要思想是将当前层的输入通过一个点卷积层先进行通道维度的压缩，再使用普通卷积层进行特征卷取，最后再使用一个点卷积层将中间输出的通道维度扩张到网络希望的通道数，这样的好处是在很深的网络结构中，通过压缩通道数再卷积特征的做法可以有效地降低梯度爆炸和梯度消失出现的机率，易于深度网络收敛。

残差瓶颈块是一种将输入数据进行压缩，再卷积，再扩大的漏斗形网络结构，其中每个卷积层后都是用了Relu函数作为激活函数。而反转残差和线性瓶颈块则将这种漏斗形结构反转了过来，即先对数据进行通道维度的扩大，再卷取图像特征，再将通道维度压缩回我们想要的通道数的纺锤形网络结构。

反转残差和线性瓶颈块之所以要使用这种先扩张，再卷积，再压缩的网络结构，是因为深度可分离卷积的结构特性导致的。用深度可分离卷积代替传统卷积可以在大大减少网络计算量，提高网络速度的同时提高网络的性能。深度可分离卷积可拆分成DW卷积和PW卷积，其中DW卷积必须保持输入图像的通道数不变，因此当输入的图像数据通道数较少时使用深度可分离卷积会丢失大量的图像信息。为了保证这些信息不被丢失，需要在使用DW卷积前对数据的通道维度进行扩张，这就是反转残差和线性瓶颈块使用这种纺锤形结构的原因。此外，反转残差和线性瓶颈块结构并不在每一层卷积层后面使用Relu函数作为激活函数。从图中可以看出翻转块的第一个卷积层是PW卷积层，用于将输入数据的通道数进行扩张，第二层是一个DW卷积层，用于抽取空间维度的图像特征，第三层又是一个PW卷积层，用于将通道维度压缩回网络需要的通道数。其中，只有DW卷积层后使用了Relu函数，另外两层卷积层后都没有使用非线性函数作为激活函数。这是因为在对通道数进行扩张和压缩时使用非线性函数会丢失大量的图像信息，比如使用Relu函数，由于ReLU函数对负数据无反馈，因此小于零的数据都会被丢失，所以翻转块只在DW卷积层后使用Relu函数，这也是结构名中线性瓶颈的由来。

深度可分离卷积(Depthwise Separable Convolution)是一种对传统卷积进行优化的新型卷积，它相较于传统的卷积结构，可以大大提高卷积运算的速度，使模型更加轻便，同时还能一定程度地提高网络性能。Xception的作者认为可以把卷积核看作是一个三维的滤波器(图像的长、宽以及图像的通道数)，其中图像的长和宽可以看作图像的空间维度而图像的通道则可以看成通道维度(比如rgb图像的通道数是3)。传统的卷积核在进行卷积操作时，会同时进行空间维度和通道维度的计算，即实现通道相关性和空间相关性的联合映射，但Xception的作者认为，这种通道相关性和空间相关性是可以分开映射的，因此他们提出了深度可分离卷积，深度可分离卷积的核心思想便是将传统的卷积层拆成两个卷积层，其中第一层卷积层用于映射空间维度的信息，第二层用于扩充通道维度。

深度可分离卷积可以看成是将一个传统卷积拆解成两个卷积分别作用于空间维度和通道维度。其中作用于空间维度的卷积我们称之为Depthwise卷积(简称DW卷积)，作用于通道维度的卷积我们称之为Pointwise卷积(简称PW卷积)。由于DW卷积用于对空间维度进行映射，因此它需要保证输入图像的通道数与输出图像的通道数一致。比如，如果输入DW卷积层的图像是尺寸为1024×512×32的特征图，假设DW卷积步长为2，使用padding，则输出的特征图尺寸应为512×256×32，即输入图像的通道数与输出图像的通道数都是32。这样是为了在保持通道维度不变的情况下，专注于对空间维度进行特征的卷取。而PW卷积则是用于扩充图像的通道数。PW卷积本质上是一个点卷积(文中的点卷积和PW卷积可以看作同一种卷积)，它的卷积核尺寸固定为1×1，因此使用PW卷积不会改变输入图像的长和宽，而同一层中PW卷积核的个数则决定了输出数据的通道数。比如，现在我们对上一步DW卷积层输出的512×256×32的特征图进行PW卷积，卷积核个数为64，则输出的特征图尺寸为512×256×64。

这种将传统卷积分成两步执行的好处是可以大大减少运算量。这里以矩阵的乘法次数为例，假设输入图像的尺寸为inputsize，输入图像的长、宽、通道数分别为height,width,channel，输出图像的长宽保持不变，通道数为channel′，卷积核大小为k×k，则

cal_conv＝height×width×channel×channel′×k×k

cal_DW＝height×width×channel×k×k

cal_PW＝height×width×channel×channel′

cal_DS＝cal_DW+cal_PW＝

height×width×channel×k×k+

height×width×channel×channel′

其中cal_conv，cal_DW，cal_PW，cal_DS，calrate分别代表了传统卷积需要的矩阵乘法运算次数，DW卷积需要用到的运算次数，PW卷积需要用到的运算次数，深度可分离卷积总的需要用到的运算次数，以及深度可分离卷积和传统卷积所用运算次数的比值。结果可以看到当所需输出图像的通道数越大，深度可分离卷积减少的运算量越大。

空间金字塔池化可以看成是词袋模型(Bag-of-Words，简称BoW)的扩展，词袋模型也曾是计算机视觉邻域最成功的方法之一，它将图像切分成粗糙到精细各种级别，然后再整合其中的局部特征，空间金字塔池化也是同样的思路，只是将局部特征的整合放到了卷积层和全连接层中间。对于深度卷积网络而言，使用空间金字塔池化有以下几个优点。首先，使用空间金字塔池化可以在输入尺寸变化的情况下产生固定大小的输入。其次，由于空间金字塔池化对网络输入的灵活性，整个网络可以从各种尺寸的特征图中抽取特征。最后，空间金字塔池化使用了多级池化，对不同尺寸的特征图抽取不同规模的局部特征，因而对图像形变具有很好地鲁棒性，而传统的池化操作其池化窗口的尺寸是固定的。

之前说过传统的卷积神经网络之所以需要固定输入图像的尺寸是因为全连接层的输入和输出维度需要固定，又因为卷积层的输入和输出尺寸无需固定，所以需要解决的问题就在于网络的最后一层卷积层输出和第一层全连接层之间，因为卷积层的最后一层输出的特征图尺寸是可变的，因此我们只要找到一种池化操作，使得最后一层卷积层输出的特征图在经过这种池化操作化转换为了固定维度的特征向量，就可以与之后的全连接层对接。首先空间金字塔池化层的输入是卷积神经网络最后一层卷积层输出的特征图，假设这里使用经典的七层结构的卷积神经网络即五层卷积层和两层全连接层，则空间金字塔池化层的输入就是第五层卷积层的输出。假设最后一层卷积层有256个卷积核，则输出的特征图的尺寸为w×h×256。空间金字塔池化层首先会将特征图按多个尺度进行划分以此来抽取局部特征，按图中从左向右的顺序分别为4×4划分、2×2划分和1×1划分。然后对不同尺寸的局部特征图进行池化操作，这样就得到了固定大小为(4×4+2×2+1×1)×256＝21×256)维的特征向量。接着再连接全连接层即可。由于空间金字塔池化按不同尺度对特征图进行划分，因此网络可以有效地提取不同尺度、不同精细程度的特征，如4×4的划分可以抽取更加精细的局部特征，而1×1的划分则可以得到具有更强位置信息的全局特征。同时由于空间金字塔将不同尺寸的任意的特征图转化为了固定尺寸的特征向量，因此网络可以接受任意尺寸的输入图像，而不必对原图像进行裁剪或缩放，使网络在增强灵活性的同时，避免了输入图像因裁剪和缩放而造成的信息缺失或形变问题，提高了模型的鲁棒性。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于深度学习的单个汉字识别方法，其特征在于，包括如下步骤：

S1，预处理待识别文字图片；

S2，将预处理后的图片输入神经网络并初步提取特征；

所述步骤S4包括：

步骤S41，将池化后的数据送入反转残差与线性瓶颈块；

步骤S42，将池化后的数据进行深度可分离卷积；

S5，将特征向量分别进行空间金字塔池化并进行拼接；

2.如权利要求1所述的基于深度学习的单个汉字识别方法，其特征在于，所述步骤S1包括：

步骤S11，对待识别文字图片提取汉字骨架特征；

步骤S12，将提取的特征图与原始图片进行维度拼接。

3.如权利要求1所述的基于深度学习的单个汉字识别方法，其特征在于，步骤S5包括：

步骤S53，将第一特征向量和第二特征向量进行拼接。

4.如权利要求2所述的基于深度学习的单个汉字识别方法，其特征在于，所述的步骤S11包括：

5.如权利要求4所述的基于深度学习的单个汉字识别方法，其特征在于，所述的步骤S41为：先对数据进行通道维度的扩大，并卷取提取图像特征，最后将通道维度压缩回预设通道数的纺锤形网络结构。