CN114418001B

CN114418001B - 一种基于参数重构网络的字符识别方法及系统

Info

Publication number: CN114418001B
Application number: CN202210065743.1A
Authority: CN
Inventors: 庞枫骞; 康营营; 赵鸿飞
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2023-05-12
Anticipated expiration: 2042-01-20
Also published as: CN114418001A

Abstract

本发明涉及一种基于参数重构网络的字符识别方法及系统，包括：获取待检测图像；利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图；利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像；对所述共享特征图和所述带预测文件框的图像进行仿射变换，得到水平特征图；对所述水平特征图进行识别，得到预测文本标签；根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。本发明能够提高字符识别的准确性。

Description

一种基于参数重构网络的字符识别方法及系统

技术领域

本发明涉及字符识别领域，特别是涉及一种基于参数重构网络的字符识别方法及系统。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。

由于在文档分析、场景理解、机器人导航和图像检索中的大量实际应用，在自然场景中的光学字符识别已经引起了计算机视觉界越来越多的关注。自然场景中的光学字符识别提供了一种自动快速获取自然场景中体现的文本信息的方式，通常分为两个子问题：场景文本检测和场景文本识别。

得益于深度神经网络提供的强大表示能力，场景文本检测和识别取得了重大进展。自然场景文本定位旨在从自然图像中同时定位和识别文本，已经被广泛研究。遵循传统的方法分别处理文本检测和识别过程，其中文本检测首先被训练的文本检测器命中，然后被送到文本识别模型中。这个架构看起来简单明了，但是可能会导致检测和识别的次优性能，以为这两个任务是相关的，并且是相互补充的。最近，一些研究人员开始将文本检测和识别与端到端可训练网络相结合，该网络由两个子模型组成：用于提取文本实例的检测网络和用于预测每个文本实例的序列标签的序列-序列网络。通过这些方法实现了文本识别的显著性能改进，证明了检测模型和识别模型是互补的，特别是当它们以端到端学习方式训练时。

然而在某些特定的场景下，例如在制造，供应仓储等场景下，对于元器件、电路板的字符图片，由于元器件供应商多，器件种类多，字符的样式多种多样，且针对一家供应商无法大量搜集电路板、元器件上的字符图片样例，同样对于跨境运输的货车，车牌样式，字体均不一致，且数据难以搜集，不太可能获得大量数据，即使存在大量数据，在对数据进行有效标注时将耗费大量人力物力，无法获取足够的带标签的训练样本，使得深度学习容易产生过拟合。

发明内容

本发明的目的是提供一种基于参数重构网络的字符识别方法及系统，以提高字符识别的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于参数重构网络的字符识别方法，包括：

获取待检测图像；

利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图；

利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像；

对所述共享特征图和所述带预测文件框的图像进行仿射变换，得到水平特征图；

对所述水平特征图进行识别，得到预测文本标签；

根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。

可选地，所述利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图，具体包括：

将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层，得到重构特征图；

对所述重构特征图进行上采样，得到共享特征图。

可选地，所述利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像，具体包括：

对所述共享特征图分别进行卷积处理和池化处理，得到池化特征图；

对所述池化特征图进行上采样得到上采样结果；

所述上采样结果和所述池化特征图进行叠加，得到分类输出结果和定位输出结果；

根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。

可选地，所述对所述共享特征图和所述带预测文件框的图像进行仿射变换，得到水平特征图，具体包括：

根据所述带预测文件框的图像确定仿射变换参数；

根据所述共享特征图和所述仿射变换参数确定水平特征图。

可选地，所述对所述水平特征图进行识别，得到预测文本标签，具体包括：

将所述水平特征图进行卷积处理和池化处理，得到高级特征图；

将所述高级特征图进行置换，得到时间序列；

根据双向LSTM和所述时间序列确定隐藏状态；

将所述隐藏状态进行求和并将求和结果输入到全连接层，得到预测文本标签。

一种基于参数重构网络的字符识别系统，包括：

获取模块，用于获取待检测图像；

拼接和提取模块，用于利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图；

检测模块，用于利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像；

仿射变换模块，用于对所述共享特征图和所述带预测文件框的图像进行仿射变换，得到水平特征图；

识别模块，用于对所述水平特征图进行识别，得到预测文本标签；

字符识别结果确定模块，用于根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。

可选地，所述拼接和提取模块，具体包括：

重构特征图确定单元，用于将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层，得到重构特征图；

上采样单元，用于对所述重构特征图进行上采样，得到共享特征图。

可选地，所述检测模块，具体包括：

池化特征图确定单元，用于对所述共享特征图分别进行卷积处理和池化处理，得到池化特征图；

上采样结果确定单元，用于对所述池化特征图进行上采样得到上采样结果；

叠加单元，用于所述上采样结果和所述池化特征图进行叠加，得到分类输出结果和定位输出结果；

带预测文本框的图像确定单元，用于根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。

可选地，所述仿射变换模块，具体包括：

仿射变换参数确定单元，用于根据所述带预测文件框的图像确定仿射变换参数；

水平特征图确定单元，用于根据所述共享特征图和所述仿射变换参数确定水平特征图。

可选地，所述识别模块，具体包括：

高级特征图确定单元，用于将所述水平特征图进行卷积处理和池化处理，得到高级特征图；

置换单元，用于将所述高级特征图进行置换，得到时间序列；

隐藏状态确定单元，用于根据双向LSTM和所述时间序列确定隐藏状态；

预测文本标签确定单元，用于将所述隐藏状态进行求和并将求和结果输入到全连接层，得到预测文本标签。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明利用特征金字塔网络对待检测图像进行拼接和提取，得到共享特征图；利用全卷积神经网络对共享特征图进行检测，得到带预测文本框的图像；对共享特征图和带预测文件框的图像进行仿射变换，得到水平特征图；对水平特征图进行识别，得到预测文本标签；根据带预测文本框的图像和预测文本标签得到字符识别结果。通过特征金字塔网络和全卷积神经网络将图像的底层特征和高层特征进行融合，从而提高了字符识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于参数重构网络的字符识别方法的流程图；

图2为本发明提供的基于参数重构网络的字符识别方法的结构示意图；

图3为本发明提供的特征金字塔网络结构示意图；

图4为本发明提供的模型重构层结构示意图；

图5为本发明提供的全卷积神经网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的基于参数重构网络的字符识别方法，包括：

步骤101：获取待检测图像。

步骤102：利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图。步骤102，具体包括：

将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层，得到重构特征图。

对所述重构特征图进行上采样，得到共享特征图。

步骤103：利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像。步骤103，具体包括：

对所述共享特征图分别进行卷积处理和池化处理，得到池化特征图。

对所述池化特征图进行上采样得到上采样结果。

所述上采样结果和所述池化特征图进行叠加，得到分类输出结果和定位输出结果。

步骤104：对所述共享特征图和所述带预测文件框的图像进行仿射变换，得到水平特征图。步骤104，具体包括：

根据所述带预测文件框的图像确定仿射变换参数。

根据所述共享特征图和所述仿射变换参数确定水平特征图。

步骤105：对所述水平特征图进行识别，得到预测文本标签。步骤105，具体包括：

将所述水平特征图进行卷积处理和池化处理，得到高级特征图。

将所述高级特征图进行置换，得到时间序列。

根据双向LSTM和所述时间序列确定隐藏状态。

步骤106：根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。

如图2所示，本发明主要针对的是字符识别，整体由四部分组成，分别是特征金字塔网络、检测模块、仿射变换分支和识别模块。

第一步，提取共享特征图的s1阶段：将图像输入如图3所示的特征金字塔网络。将低级特征图和高级语义特征图连接起来，得到带有共享特征图的图像。提取得到的共享特征图进入两个阶段s2阶段和s3阶段。

第二步，进行文本检测的s2阶段，提取得到的共享特征图进入检测模块，检测模块可以预测图像中文本的位置，经过检测模块之后，输出到两个分支中，其中一个直接输出为带有预测文本框的图像，另一个分支进入s3阶段仿射变换分支。

第三步，进行仿射变换的s3阶段，仿射变换分支有两个输入，分别为经过特征金字塔网络的输出，经过检测模块之后的输出。仿射变换分支可以将原本多方向的边界框进行仿射变换到x，y标准坐标系中，获得文本区域标准的水平特征图，然后进入s4阶段。

第四步，进行文本识别的s4阶段，识别图像标记文本框中的文本，最后输出一个带有标记文本框和预测文本的图像。

图3为s1阶段的特征金字塔网络(feature pyramid networks for objectdetection，FPN)的结构示意图。特征金字塔网络拼接和提取过程如下：

第一步，输入图片经过s11阶段，经过卷积层，池化层以及模型重构网络，其中模型重构网络即为模型重构层，其中部分输出特征图由图中平行四边形表示。接着按顺序将输出的特征图送入模型重构层中，将特征图不断减小，减小到原始输入图像的1/32，然后进入s12阶段。

第二步，将s11的输出送进s12阶段，首先经过上采样层，再将特征图大小不断增大，从原始输入图像的1/32放大到1/4，最后输出图片，得到共享特征图。

特征金字塔网络将底层和高层的特征进行了融合，也就是将底层特征图和高层特征图进行相加，以便对图像中的文本进行检测。图中长方形表示为网络层，立方体表示网络层输出的特征图。

其特征金字塔网络的主干网络是模型重构网络，其结构如图4所示。图片进入模型重构网络的步骤如下：

第一步，进行卷积的模型重构s1阶段，输入经过卷积的模型重构s1阶段，对输入的特征矩阵进行三个操作，分别是3x3卷积、1x1卷积和跨线结构，得到三个输出。三个输出进入模型重构s2阶段。

第二步，进行求和的模型重构s2阶段，模型重构s1阶段的输出进入模型重构s2阶段，将模型重构s1阶段的三个输出进行相加，然后进入激活函数，使其变为非线性，能够进行反向传播。

模型重构网络有一个特点，在模型推理阶段，通过对网络层中的权重进行计算将所有的网络层都转换为3x3卷积层，然后将并列的两个分支都加到原本的3x3卷积中，便于网络的部署和加速。因为当前很多的模型推理框架中都对3x3卷积做了一些特定的加速操作，所以将所有卷积层转换成3x3卷积，整个网络在推理阶段能获得较大的速度提升。

在s2阶段中，采用全卷积网络作为文本检测器即检测模块，如图5所示。利用全卷积神经网络对共享特征图进行检测的步骤如下：

第一步，输入经过5x5卷积层和池化层，进入s21阶段，首先经过两个3x3卷积层以及池化层，然后进入s22阶段。

第二步，s22阶段经过两个卷积层以及池化层，其输出进入s23阶段和s27阶段。

第三步，s23阶段经过两个卷积层以及池化层，其输出进入s24阶段和s28阶段。

第四步，s24阶段经过两个卷积层以及池化层，其输出进入s25阶段和s29阶段。

第五步，s25阶段经过两个卷积层以及池化层，其输出进入s26阶段。

第六步，s27阶段经过1x1卷积之后，其输出进入s26阶段。

第七步，s28阶段经过1x1卷积之后，其输出进入s26阶段。

第八步，s29阶段经过1x1卷积之后，其输出进入s26阶段。

第九步，s26阶段经过1x1卷积和三个上采样过程，第一个上采样层与s27阶段的输出相加；第二个上采样过程与s28阶段的输出相加；第三个上采样过程与s29阶段的输出相加。最后通过损失函数输出分类loss值和定位loss值以便反向传播。

对不同深度的特征图进行跨层连接，以提高模型对不同大小物体的检测效果。在模型尾端的卷积层后通过两个分支：分类和定位，得到两类任务的loss，二者加权作为模型总loss。分类分支输出每像素的单词预测。定位分支输出文本框到边界框的顶部，底部，左侧，右侧的距离和方向。

在s3阶段，检测和识别分支中间连接有仿射变换，仿射变换是对每个预测文本框分别使用仿射变换到共享特征图上，获得文本区域标准的水平特征图。仿射变换分支主要是修正输出高度并保持纵横比不变以处理文本长度的变化。

这个过程分为两个步骤：

第一步，通过文本提议的预测或真实值(ground truth)坐标计算仿射变换参数，表达式为：

t_x＝l*cosθ-t*sinθ-x

t_y＝t*cosθ-l*sinθ-y

w_t＝s*(l+r)

其中，M为仿射变换矩阵，包含旋转，缩放，平移，h_t为仿射变换后的特征图的高度，实验中为8，w_t为仿射变换后的特征图的宽度，(x,y)为特征图中的点的位置，(t,b,l,r)为特征图中的点距离旋转的框的上、下、左、右的距离，t_x为在x轴的平移距离，t_y为在y轴的平移距离，s为放缩系数，θ为检测框的角度。

第二步，将仿射变换分别应用于每个区域的共享特征映射，并获得文本区域的正常情况下水平的特征映射，表达式如下：

其中，

为仿射变换后的特征点i的x坐标，

为仿射变换后的特征点i的y坐标，

为输入的特征点i的x坐标，

为输入的特征点i的y坐标，

为在位置(i,j)，通道c处的输出值，

为在位置(n,m)，通道c处的输入值，h_s为输入的高度，w_s为输入的宽度，k为双线性插值核函数，Φ_x，Φ_y分别为k的参数，

为在位置(i,j)下的x坐标，

为在位置(i,j)下的y坐标。

在s4阶段，文本识别分支旨在使用由特征金字塔网络提取并由仿射变换的区域特征来预测文本标签。文本识别分支包括类似VGG的顺序卷积，仅沿高度轴缩减的池化，一个双向LSTM，一个全连接和最终的CTC解码器。

第一步，将s3分支中的空间特征沿高度轴馈入几个顺序的卷积和池化中，并缩小尺寸以提取更高级别的特征。

第二步，将提取的高级特征图L∈R^C×H×W置换为timemajor，作为时间序列l₁,...,l_w∈R^C×H，并馈入RNN进行编码。R为特征图的分布，C为输入的通道数，H为输入的高度，W为输入的宽度，l_w为w时刻的时间序列，双向LSTM(Long Short Term Memory)是一种神经元更加复杂的RNN，LSTM可以利用时间序列对输入进行分析，每个方向D＝256个输出通道，以捕获输入序列特征的范围依赖性。

第三步，将在LSTM的两个方向上的每个时间步长计算的隐藏层状态h₁,...,h_w∈R^D求和并输入到全连接层，h_w为w时刻隐藏层的状态，这个全连接层就给出了每个状态x_t∈R^|S|在字符类别S上的分布。为避免过度拟合像ICDAR2015这样的小型训练数据集，在全连接层之前添加了Dropout层。

第四步，CTC用于将逐帧分类分数转换为标签序列。对于每个h_t给定每个x_t在S上的概率分布和真实标签序列y^*＝y₁,...,y_T,T＜＜W，标签y^*的条件概率是所有路径π的概率之和：

其中，p(y^*|x)为标签y^*的条件概率，p(π|x)为路径π的条件概率，B^-1(y^*)为具有空白和重复标签到y^*的可能标记集合。

其中B定义了从具有空白和重复标签到y^*的可能标记集合中的多对一映射。训练过程试图在整个训练集上最大化上述公式求和的对数似然性。识别损失可以表述为：

完整的多任务损失函数为：

其中，N为每批次的数量(batch size)。

在训练时，首先在ImageNet数据集上训练模型作为预训练权重，训练过程中包含两步，第一步使用Synth800k数据集训练，迭代10次。然后使用ICDAR2015和ICDAR 2017数据集进行微调。由于特征图上的边界框是多方向的，与传统的文本识别不用，所以本发明使用了仿射变换将原本多方向的边界框进行仿射变换到x，y标准坐标系中，实现了端到端的训练。本发明通过NVIDIA JETSON AGX XAVIER开发板进行演示，使用模型重构层模型作为主干网络，训练完成后，其预测模型在经过参数简化后被送进开发板，可以有效降低对硬件的要求。

本发明将面向参数重构网络与共享卷积相结合。与其他的字符识别算法相比，模型重构网络与共享卷积相结合将底层和高层的特征进行了融合，以便对文本进行更好的检测，在一定程度上提高了字符识别算法的准确度。本发明相较于其他优秀的光学字符识别算法，模型重构网络在测试过程中压缩网络，将训练过程中增加的1x1卷积和跨线结构压缩到3x3卷积中，通过重新参数化实现测试模型的轻量化，同时保持该网络在训练过程中的准确度。

本发明还提供一种基于参数重构网络的字符识别系统，包括：

获取模块，用于获取待检测图像。

拼接和提取模块，用于利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图。

检测模块，用于利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像。

仿射变换模块，用于对所述共享特征图和所述带预测文件框的图像进行仿射变换，得到水平特征图。

识别模块，用于对所述水平特征图进行识别，得到预测文本标签。

作为一种可选的实施方式，所述拼接和提取模块，具体包括：

重构特征图确定单元，用于将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层，得到重构特征图。

作为一种可选的实施方式，所述检测模块，具体包括：

池化特征图确定单元，用于对所述共享特征图分别进行卷积处理和池化处理，得到池化特征图。

上采样结果确定单元，用于对所述池化特征图进行上采样得到上采样结果。

叠加单元，用于所述上采样结果和所述池化特征图进行叠加，得到分类输出结果和定位输出结果。

作为一种可选的实施方式，所述仿射变换模块，具体包括：

仿射变换参数确定单元，用于根据所述带预测文件框的图像确定仿射变换参数。

作为一种可选的实施方式，所述识别模块，具体包括：

高级特征图确定单元，用于将所述水平特征图进行卷积处理和池化处理，得到高级特征图。

置换单元，用于将所述高级特征图进行置换，得到时间序列。

隐藏状态确定单元，用于根据双向LSTM和所述时间序列确定隐藏状态。

本发明针对目标硬件和时延要求反向设计参数重构网络。首先，选取现有的轻量型网络作为目标网络，使其可以在目标边缘计算平台上可以运行并满足时延要求。然后为该轻量型网络设计可压缩的并行1x1卷积和跨线结构。网络扩展后可以保证其训练后的模型精度，通过测试过程中的压缩即可还原为目标网络。相对于直接训练目标网络本方法可以获得更优的性能。将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习，由于主干网络各层被加宽，增加了网络对于字符识别任务更具有适应性，从而提高了字符识别框架的性能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于参数重构网络的字符识别方法，其特征在于，包括：

获取待检测图像；

特征金字塔网络拼接和提取过程如下：

第一步，输入图片经过s11阶段，经过卷积层，池化层以及模型重构网络，其中模型重构网络即为模型重构层；接着按顺序将输出的特征图送入模型重构层中，将特征图不断减小，减小到原始输入图像的1/32，然后进入s12阶段；

第二步，将s11的输出送进s12阶段，首先经过上采样层，再将特征图大小不断增大，从原始输入图像的1/32放大到1/4，最后输出图片，得到共享特征图；

特征金字塔网络将底层和高层的特征进行了融合，也就是将底层特征图和高层特征图进行相加，以便对图像中的文本进行检测；其特征金字塔网络的主干网络是模型重构网络；图片进入模型重构网络的步骤如下：

第一步，进行卷积的模型重构s1阶段，输入经过卷积的模型重构s1阶段，对输入的特征矩阵进行三个操作，分别是3x3卷积、1x1卷积和跨线结构，得到三个输出；三个输出进入模型重构s2阶段；

第二步，进行求和的模型重构s2阶段，模型重构s1阶段的输出进入模型重构s2阶段，将模型重构s1阶段的三个输出进行相加，然后进入激活函数，使其变为非线性，能够进行反向传播；

在模型推理阶段，通过对网络层中的权重进行计算将所有的网络层都转换为3x3卷积层，然后将并列的两个分支都加到原本的3x3卷积中，便于网络的部署和加速；

在训练时，首先在ImageNet数据集上训练模型作为预训练权重，训练过程中包含两步，第一步使用Synth800k数据集训练，迭代10次；然后使用ICDAR2015和ICDAR2017数据集进行微调；通过NVIDIAJETSONAGXXAVIER开发板进行演示，使用模型重构层作为主干网络，训练完成后，其预测模型在经过参数简化后被送进开发板；

利用全卷积神经网络对共享特征图进行检测的步骤如下：

第一步，输入经过5x5卷积层和池化层，进入s21阶段，首先经过两个3x3卷积层以及池化层，然后进入s22阶段；

第二步，s22阶段经过两个卷积层以及池化层，其输出进入s23阶段和s27阶段；

第三步，s23阶段经过两个卷积层以及池化层，其输出进入s24阶段和s28阶段；

第四步，s24阶段经过两个卷积层以及池化层，其输出进入s25阶段和s29阶段；

第五步，s25阶段经过两个卷积层以及池化层，其输出进入s26阶段；

第六步，s27阶段经过1x1卷积之后，其输出进入s26阶段；

第七步，s28阶段经过1x1卷积之后，其输出进入s26阶段；

第八步，s29阶段经过1x1卷积之后，其输出进入s26阶段；

第九步，s26阶段经过1x1卷积和三个上采样过程，第一个上采样层与s27阶段的输出相加；第二个上采样过程与s28阶段的输出相加；第三个上采样过程与s29阶段的输出相加；最后通过损失函数输出分类loss值和定位loss值以便反向传播；

对不同深度的特征图进行跨层连接，以提高模型对不同大小物体的检测效果；在模型尾端的卷积层后通过两个分支：分类和定位，得到两类任务的loss，二者加权作为模型总loss；分类分支输出每像素的单词预测；定位分支输出文本框到边界框的顶部、底部、左侧、右侧的距离和方向；

对所述共享特征图和所述带预测文本框的图像进行仿射变换，得到水平特征图；

对所述水平特征图进行识别，得到预测文本标签；

根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果；

基于参数重构网络的字符识别方法对目标硬件和时延要求反向设计参数重构网络；首先，选取现有的轻量型网络作为目标网络，使其可以在目标边缘计算平台上可以运行并满足时延要求；然后为轻量型网络设计可压缩的并行1x1卷积和跨线结构；网络扩展后可以保证其训练后的模型精度，通过测试过程中的压缩即可还原为目标网络；相对于直接训练目标网络本方法可以获得更优的性能；将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习，由于主干网络各层被加宽，增加了网络对于字符识别任务更具有适应性，从而提高了字符识别框架的性能。

2.根据权利要求1所述的基于参数重构网络的字符识别方法，其特征在于，所述利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图，具体包括：

对所述重构特征图进行上采样，得到共享特征图。

3.根据权利要求1所述的基于参数重构网络的字符识别方法，其特征在于，所述利用全卷积神经网络对所述共享特征图进行检测，得到带预测文本框的图像，具体包括：

对所述池化特征图进行上采样得到上采样结果；

4.根据权利要求1所述的基于参数重构网络的字符识别方法，其特征在于，所述对所述共享特征图和所述带预测文本框的图像进行仿射变换，得到水平特征图，具体包括：

根据所述带预测文本框的图像确定仿射变换参数；

根据所述共享特征图和所述仿射变换参数确定水平特征图。

5.根据权利要求1所述的基于参数重构网络的字符识别方法，其特征在于，所述对所述水平特征图进行识别，得到预测文本标签，具体包括：

将所述高级特征图进行置换，得到时间序列；

根据双向LSTM和所述时间序列确定隐藏状态；

6.一种基于参数重构网络的字符识别系统，其特征在于，包括：

获取模块，用于获取待检测图像；

拼接和提取模块，用于利用特征金字塔网络对所述待检测图像进行拼接和提取，得到共享特征图；特征金字塔网络拼接和提取过程如下：

利用全卷积神经网络对共享特征图进行检测的步骤如下：

第六步，s27阶段经过1x1卷积之后，其输出进入s26阶段；

第七步，s28阶段经过1x1卷积之后，其输出进入s26阶段；

第八步，s29阶段经过1x1卷积之后，其输出进入s26阶段；

仿射变换模块，用于对所述共享特征图和所述带预测文本框的图像进行仿射变换，得到水平特征图；

字符识别结果确定模块，用于根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果；

基于参数重构网络的字符识别系统对目标硬件和时延要求反向设计参数重构网络；首先，选取现有的轻量型网络作为目标网络，使其可以在目标边缘计算平台上可以运行并满足时延要求；然后为轻量型网络设计可压缩的并行1x1卷积和跨线结构；网络扩展后可以保证其训练后的模型精度，通过测试过程中的压缩即可还原为目标网络；相对于直接训练目标网络本方法可以获得更优的性能；将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习，由于主干网络各层被加宽，增加了网络对于字符识别任务更具有适应性，从而提高了字符识别框架的性能。

7.根据权利要求6所述的基于参数重构网络的字符识别系统，其特征在于，所述拼接和提取模块，具体包括：

8.根据权利要求6所述的基于参数重构网络的字符识别系统，其特征在于，所述检测模块，具体包括：

9.根据权利要求6所述的基于参数重构网络的字符识别系统，其特征在于，所述仿射变换模块，具体包括：

仿射变换参数确定单元，用于根据所述带预测文本框的图像确定仿射变换参数；

10.根据权利要求6所述的基于参数重构网络的字符识别系统，其特征在于，所述识别模块，具体包括：