CN115424280A

CN115424280A - 基于改进Faster-RCNN的手写数字检测方法

Info

Publication number: CN115424280A
Application number: CN202211082323.0A
Authority: CN
Inventors: 翁佳成; 张新娜; 项雄标
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-02

Abstract

本发明提出了一种基于改进Faster‑RCNN的手写数字检测方法，所述方法包括：S1，获取手写数字字符串图像数据集；S2，制作Faster‑RCNN模型的数据集，具体以PASCAL VOC2012的标准格式为模板；S3，搭建Faster‑RCNN网络模型，通过综合研判手写数字字符串特性，对网络模型进行优化处理；S4，将训练集和测试集的手写数字字符串数据加载到改进后的Faster‑RCNN网络进行训练，并保存训练好的网络；S5，输入测试图像，利用训练好的改进Faster‑RCNN模型进行手写数字识别检测。本发明引用Faster‑RCNN模型并对手写数字检测过程中的困难样本，采用多种方法进行改进，解决手写数字因手写数字字符串字体风格多变、字符粘连等问题导致识别准确率低与可靠性差的问题。

Description

基于改进Faster-RCNN的手写数字检测方法

技术领域

本发明涉及计算机视觉、模式识别与深度学习等领域，尤其涉及一种基于改进Faster-RCNN模型的手写数字检测方法。

背景技术

手写数字识别技术是机器视觉和模式识别研究的主要领域之一，在表单数据录入、大规模数据统计、邮件分拣、光学字符识别和银行支票处理等方面中起着重要的作用。传统纸质手写数据存储转化为电子表格时，大多采用人工录入，存在工作量大、工序繁琐和人工识别准确率低等问题。伴随着人工智能和大数据的快速发展，需要加快手写数字识别技术的发展，以实现信息的数字化管理。

手写数字图像在图像处理技术和深度学习网络实现数字化的过程中，面对手写数字检测研究至少存在以下问题：1、因不同人书写数字方式的差异性，存在字体风格多变问题；2、面对书写数字字符串，存在数字字符串粘连问题。

发明内容

本发明提出一种手写数字检测方法，引用Faster-RCNN模型并对手写数字检测过程中的困难样本，采用多种方法进行改进，解决手写数字因手写数字字符串字体风格多变、字符粘连等问题导致识别准确率低与可靠性差的问题。

为实现上述目的，本发明采用以下技术方案来实现，具体包括以下步骤：

步骤S1：获取手写数字字符串图像数据集；

步骤S2：制作Faster-RCNN模型的数据集，具体以PASCAL VOC2012的标准格式为模板；

步骤S3：搭建Faster-RCNN网络模型，通过综合研判手写数字字符串特性，对网络模型进行优化处理；

步骤S4：将训练集和测试集的手写数字字符串数据加载到改进后的Faster-RCNN网络进行训练，并保存训练好的网络；

步骤S5：输入测试图像，利用训练好的改进Faster-RCNN模型进行手写数字识别检测。

进一步地，所述步骤S1具体包括：

步骤S11：通过制定15行12列的纸质表格，并将该表格随机分派至100人手中，每人要求填写1位数、2位数、3位数与4位数，每种类型的数字需要填写45个；

步骤S12：获取拍摄的纸质表格图像；

步骤S13：将包含手写数字的表格框从表格图像中裁剪出来并标号，并制作成数据集。

进一步地，所述步骤S2具体包括：

步骤S21：制作数据集样本，并按比例划分为训练数据集与测试数据集；

步骤S22：利用标注工具labelImg获取图像数据集样本的图片名称、数字类别、数字的左上角坐标、右下角坐标，并按照PASCAL VOC2012数据集Annotations文件中的xml格式制作成xml文件；

步骤S23：通过数据集样本，并按比例划分为训练数据集与测试数据集，并生成对应的训练集train.txt文件和测试集val.txt文件。

进一步地，所述步骤S3具体包括：

步骤S31：以pytorch为网络框架，对Faster-RCNN网络模型进行搭建，采用残差网络ResNet50与特征金字塔FPN相结合作为网络主干；

步骤S32：图像输入网络主干生成多尺度融合特征图，使用目标区域推荐网络RPN生成候选框，将生成的候选框投影到特征图上，获得特征矩阵；

步骤S33：利用双线性插值方法，将每个特征矩阵连接RoIAlign，生成7*7的特征图；

步骤S34：通过将候选框特征图展平和全连接层操作，计算出候选框的类别，并利用边界框回归获得目标精确位置。

进一步地，所述步骤S4具体包括：

步骤S41：根据数据集样本类别，设置Faster-RCNN训练模型的类别标签；

步骤S42：设置模型训练参数配置，包括迭代次数、步长和学习率等相关参数；

步骤S43：利用ImageNet预训练分类模型，初始化前置卷积网络层参数，并开始单独训练RPN网络参数；

步骤S44：固定RPN网路独有的卷积层以及全连接层参数，并通过ImageNet预训练分类模型初始化前置卷积网络参数，利用RPN网络生成目标建议框去训练Fast-RCNN网络参数；

步骤S45：固定Fast-RCNN训练好的前置卷积网络层参数，去微调RPN网络独有的卷积层以及全连接层；

步骤S46：保持固定前置卷积网络层参数，去微调Fast-RCNN网络的全连接层参数，使得RPN网络与Fast-RCNN网络共享前置卷积网络层参数，构成一个统一网络；

步骤S47：将训练好的Faster-RCNN网络模型保存好。

进一步地，所述步骤S5具体包括：

步骤S51：输入测试图像，并调整图像大小至指定范围；

步骤S52：将调整后的图像输入残差网络ResNet50与特征金字塔FPN组成的网络主干，生成多尺度融合的特征图；

步骤S53：将特征图输入目标区域推荐网络RPN，生成的候选框投影到特征图上，获得特征矩阵；

步骤S54：利用双线性插值方法，将每个特征矩阵连接RoIAlign，生成7*7的特征图；

步骤S55：通过将候选框特征图展平和全连接层操作，计算出候选框的类别，并利用边界框回归获得目标精确位置。

总结上述步骤：本发明手写数字检测方法研究，通过对手写数字字符串特性综合研判，针对待识别的手写数字字符串在实际应用中所需的高精确性，引入双阶段目标检测Faster-RCNN网络模型，对传统的Faster-RCNN网络模型进行改进；针对手写数字字符串字体风格多变现象，提出残差网络ResNet50与特征金字塔FPN组成网络模型的主干网络，通过特征金字塔FPN生成多尺度融合特征图，减少因字体风格多变所带来的少检和漏检；采用双线性插值的方法，通过采用ROIAlign替代ROIPooling，提高对目标的识别和定位。

根据本发明提供的手写数字检测方法研究，具有本发明具有以下优势：

1、与传统基于竖线直方图和过分割的手写数字字符串分割方式相比，本发明通过无分割的方式对手写数字字符串进行目标检测，能够对粘连严重且背景复杂的数字字符串图像进行精准分割，从而提高手写数字识别的准确率。

2、本发明利用残差网络ResNet50与特征金字塔FPN组成网络模型的主干网络，通过特征金字塔FPN生成多尺度融合特征图，从而减少因字体风格多变所带来的少检和漏检。

3、本发明通过对手写数字字符串特性综合研判，采用双线性插值的方法，利用ROIAlign替代ROIPooling，从而提高对手写数字目标的识别和定位。

附图说明

图1为本发明的整体流程图；

图2为本发明手写数字识别流程图；

图3为本发明手写数字识别效果图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

如图1所示，本发明提出一种基于改进Faster-RCNN的手写数字检测方法，包括以下步骤：

步骤S1：获取手写数字字符串图像数据集：

所述步骤S1具体包括：

步骤S12：获取拍摄的纸质表格图像；

步骤S2：制作Faster-RCNN模型的数据集，具体以PASCAL VOC2012的标准格式为模板：

所述步骤S2具体包括：

步骤S3：搭建Faster-RCNN网络模型，通过综合研判手写数字字符串特性，对网络模型进行优化处理：

所述步骤S3具体包括：

步骤S4：将训练集和测试集的手写数字字符串数据加载到改进后的Faster-RCNN网络模型进行训练，并保存训练好的网络：

所述步骤S4具体包括：

步骤S47：将训练好的Faster-RCNN网络模型保存好。

步骤S5：输入测试图像，利用训练好的改进Faster-RCNN模型进行检测：

所述步骤S5具体包括：

步骤S51：如图2所示，输入测试图像，并调整图像大小至指定范围；

步骤S55：通过将候选框特征图展平和全连接层操作，计算出候选框的类别，并利用边界框回归获得目标精确位置，如图3所示。

Claims

1.基于改进Faster-RCNN的手写数字检测方法，其特征在于，包括以下步骤：

S1：获取手写数字字符串图像数据集；

S2：制作Faster-RCNN模型的数据集，具体以PASCALVOC2012的标准格式为模板；

S3：搭建Faster-RCNN网络模型，通过综合研判手写数字字符串特性，对网络模型进行优化处理；

S4：将训练集和测试集的手写数字字符串数据加载到改进后的Faster-RCNN网络进行训练，并保存训练好的网络；

S5：输入测试图像，利用训练好的改进Faster-RCNN模型进行手写数字识别检测。

2.根据权利1中所述基于改进Faster-RCNN的手写数字检测方法，其特征在于，步骤S1具体包括：

步骤S12：获取拍摄的纸质表格图像；

3.根据权利1中所述基于改进Faster-RCNN的手写数字检测方法，其特征在于，步骤S2具体包括：

4.根据权利1中所述基于改进Faster-RCNN的手写数字检测方法，其特征在于，步骤S3具体包括：

5.根据权利1中所述基于改进Faster-RCNN的手写数字检测方法，其特征在于，步骤S4具体包括：

步骤S47：将训练好的Faster-RCNN网络模型保存好。

6.根据权利1中所述基于改进Faster-RCNN的手写数字检测方法，其特征在于，步骤S5具体包括：

步骤S51：输入测试图像，并调整图像大小至指定范围；