CN109242400A

CN109242400A - 一种基于卷积门控循环神经网络的物流快递单号识别方法

Info

Publication number: CN109242400A
Application number: CN201811301701.3A
Authority: CN
Inventors: 夏旻; 张旭; 宋稳柱; 施必成; 刘万安
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-01-18

Abstract

本发明涉及一种基于卷积门控循环神经网络的物流单号识别方法，首先使用opencv对原始图像进行预处理，通过对快递单图像的版面分析，釆用图像模板匹配定位的方法精确切分出单据图像中的有效信息块，然后基于多切分策略的字符分割法把客户的有效信息切分成单个字符，最后将这些字符有序的输入神经网络得出单据识别信息。本发明把图像预处理、版面分析、文本提取、字符分割、特征提取与汉字分类器识别等相关技术进行有效整合，并采用了后处理方法对识别结果进行校准，最终实现了基于卷积门控循环神经网络的快递单据识别系统。

Description

一种基于卷积门控循环神经网络的物流快递单号识别方法

技术领域

本发明属于图像处理技术领域，特别涉及了一种基于卷积门控循环神经网络的物流单号识别方法。

背景技术

人类社会的进步促使信息飞速积累和增长，而计算机和网络的出现成为现代化信息处理的有效手段。如果使用计算机处理信息必须先把信息转化为可由计算机直接进行操作的形式，即必须把信息符号化或者量化。人类的精神文明很大一部分是以纸张为媒介，用字符来记录的。同时，在计算机己被大量应用的今天，人们日常生活与工作中重要的信息载体仍是纸张。很多行业都涉及到将大量的手写单据录入计算机的问题，如物流行业每天都有相当数量的手写快递单信息需要录入。这些行业的处理方式大多是由工作人员逐张地查看单据并将单据中的手写文字人工输入到软件系统中，这样不仅工作量大而且效率非常低。

目前，虽然已有少数行业使用了文字识别相关的设备，但都存在着各种各样的问题，主要包括：系统成本过高，结构复杂而且稳定性比较差；自动化程度低，操作复杂，执行效率较低；文字识别率较低，并且系统对硬件设备依赖较大。因此，寻找一种能将纸张中的文字信息自动录入到计算机中的方式就成为一个迫切需要解决的问题。

通过图像釆集设备将文字信息以图像的形式输入计算机中，再把图像分成多个文字块，然后把文字块切分为单个汉字图像，最后使用分类器进行识别，从而将文字图像转化为文本信息，这种文字识别技术就是光学字符识别(简称OCR技术)。这种困难不但体现在特征提取上和获取手写文本的釆样上，还体现在识别过程中的多个方面，如：图像预处理、版面分析、特征提取、字切分、分类器的设计等。因为只有采集到极大数量的文本信息进行训练、特征向量提取，才能使得对汉字字符的分类更加准确。

快递单据的识别是技术领域的一个具体应用，具有广阔的应用前景。目前邮件信封的地址分拣系统已经投入应用但邮件的分拣是针对收件人的地址信息中的城市名称实现分拣，精度只需达到县级就可以。

本发明是通过图像采集设备，釆集快递单图像信息，应用技术自动把寄件人和收件人的信息全部录入到计算机中的软件管理系统中，极大化的减少工作人员的工作量并提高工作效率。快递单据识别系统涉及到技术的多个方面，包括图像预处理、版面分析、文本提取、字符分割、特征提取、手写汉字分类器识别、后处理等，是一个比较复杂的软件系统。

综合分析以上光学字符识别方法中存在的不足，本发明采用一种基于多切分策略的字符分割法较成功的把客户的有效信息切分成单个字符。本文把图像预处理、版面分析、文本提取、字符分割、特征提取、手写汉字分类器识别等相关技术进行有效整合，最终实现了基于卷积门控循环神经网络的快递单据识别系统。

发明内容

本发明的目的是克服上述背景技术的不足，提供一种基于卷积门控循环神经网络的物流快递单号识别方法，克服了传统物流快递单号识别方法文字识别率较低，效率不高的问题。为了实现上述技术目的，本发明的技术方案为：

所述基于卷积门控循环神经网络的物流快递单号识别方法，包括如下步骤：

步骤1)图片预处理：首先对输入的原始图片进行预处理，再对经预处理后的图像进行模板匹配从快递单图像中提取出有效信息，并将有效信息从所述原始图片中分割出来；

步骤2)图片切分：对输入的物流单据图片进行切分，先切分成行图片，再对每一行切分出单个字图片；

步骤3)图片识别：识别切分出的单个字图片，将每个字图片传入卷积门控循环神经网络模型进行识别，得出文字识别结果；

步骤4)文本重组：将所述文字识别结果按照顺序组合，并进行校正，得出最终的识别结果文本段。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述步骤1)中预处理操作为对原始图片依次进行非均匀光照调整、图像灰度化、二值化、倾斜校正操作。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述步骤1)预处理操作中通过公式对图像进行非均匀光照调整，式中，I′是进行调整后的该点像素值，C是图像中心位置的像素值，BG是进行中值滤波后的图像中该点的像素值，I是原始图像的该点的像素值。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述有效信息包括地址块、邮政编码块以及电话号码块。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述步骤1)中通过版面分析将有效信息从所述原始图片中分割出来，将图像中包含的图形、表格、文本的版面基元区分开，并得到各版面基元区的逻辑关系；所述版面分析包括：

版面分割，将图像分割成有意义的多个区域；

版面理解，确定各区域之间的关系。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述步骤1)中的模板匹配为将一个或多个传感器在不同条件和时间下，从同一图像录取下来的一组图像进行比较，以找到该组图像中的共有图像，或者根据设定的模板在另一个图像中找到相应图像。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述模板匹配釆用归一化相关系数法进行快递单的有效信息块定位。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，所述步骤2)中对输入的物流单据图片进行切分包括如下步骤：

步骤2-1)利用投影直方图进行粗切分，根据投影的结果，对文本行进行初始切分；

步骤2-2)根据图像的投影采用三次B样条和正弦函数拟合：首先对图像水平方向的像素和进行统计，得到像素和的离散点，再对该离散点分别用三次B样条和正弦函数进行拟合，接着求出拟合函数的极小值点，通过极小值点得到字符图像投影直方图的一系列波谷点。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，步骤3)中将切分后的字图片使用卷积层提取文字图片特征，再传入门控循环神经网络识别文字图片，引入自然语言处理，实现文本重组和校正。

所述基于卷积门控循环神经网络的物流快递单号识别方法的进一步设计在于，步骤3)中使用卷积层提取文字图片特征时先提取文字图片的内部空间特征信息，再获取连续文字特征的时序信息。

本发明的有益效果为：

本发明通过卷积门控循环神经网络的物流单号识别方法的卷积神经网络预训练模块进行文字空间特征信息提取，同时使用门控循环神经网络对有序文字特征向量的上下文信息进行学习，从而保证了网络具有良好的识别能力和泛化性能，使得网络模型取得在物流单号信息识别结果更加精确。

附图说明

图1是本发明的基本流程图。

图2是本发明中用卷积门控循环神经网络的物流单号识别方法的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本申请作进一步详细的说明。

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，本实例的卷积门控循环神经网络的物流单号识别方法，包括以下步骤：

步骤1：图片预处理：首先使用opencv对原始图片进行图像预处理操作：对输入的原始图片进行非均匀光照调整，将图像灰度化、二值化、倾斜校正，使用图片像素统计、分析，实现倾斜校正和行、列文字的切分，得到比较规整的图片。再对经预处理后的图像进行模板匹配从快递单图像中提取出有效信息，并将有效信息从所述原始图片中分割出来。

本实施例通过公式对图像进行非均匀光照调整，式中，I′是进行调整后的该点像素值，C是图像中心位置的像素值，BG是进行中值滤波后的图像中该点的像素值，I是原始图像的该点的像素值。

图像二值化：计算出所采集图像的一个阈值，比阈值小的像素值设为255前景或黑色，否设为0背景或白色；二值化方法主要思想是：在图像的灰度直方图中，用阈值把灰度值的集合分成两类，然后再根据这两个类别的类间平均值方差除以类内方差，得到的最大值来确定阈值。

模板匹配就是把一个或多个传感器在不同条件和时间下，从同一图像录取下来的一幅或多幅图像进行比较，以找到该组图像中的共有图像，或者根据所给模板在另一个图像中找到相应图像。模板匹配的方法有平均绝对差算法、归一化相关系数法、序贯相似性检测法等。考虑到归一化相关系数法抗白噪声干扰能力强，而且在图像灰度变化和几何崎变的情况下精度很高，所以本实施例釆用归一化相关系数法进行快递单的有效信息块定位。

步骤1)中通过版面分析将有效信息从所述原始图片中分割出来，将图像中包含的图形、表格、文本的版面基元区分开，并得到各版面基元区的逻辑关系。版面分析包括：版面分割与版面理解。版面分割，将图像分割成有意义的多个区域；版面理解，确定各区域之间的关系。

步骤2：图片切分：用于对输入的物流单据图片进行切分，先切分成行，然后对每一行切分出单个字；字块再切分和合并切分后算出每个字块的平均宽度HW，设定单个字块的宽度范围(HW_t,HW_b)，如果字块宽度大于HW_b，则认为该字块可能含有两个汉字，如果字块小于HWt,则认为它只是汉字的一部分。计算下限时，包括字块图像两端间隙中较小的间隙的宽度，而在计算上限时，不包括字块图像两端的间隙。考虑到手写字符块宽度的变化情况，上下限的取值可对快递单样本进行多次实验来确定。在本文中，HW_t＝0.6*HW,HW_b＝1.4*HW。对于宽度大于HW_b的字块，在(HW_t,HW_b)之间寻找一条硬切分线。寻找硬切分线的过程如下：把该字块单独投影，找到像素数目最小的点，该点即为硬切分点。对于宽度小于HW_t的字块，采用基于最近距离最小段聚类法进行合并。具体实现如下：先对切分子块进行遍历，找出宽度小于HW_t的字块，再找到与该过短切分块距离最近的块进行合并，或者找到与该字块距离次近且长度较小的块进行合并，对位于首部或尾部的过短切分块，仅与其右邻或左邻字块进行合并。

步骤3：图片识别：识别切分出的单个字图片，将每个字图片传入卷积门控循环神经网络模型进行识别，得出文字识别结果。将切分后的字图片使用卷积层提取文字图片特征，再传入门控循环神经网络识别文字图片，引入自然语言处理，实现文本重组和校正。在使用卷积层提取文字图片特征时，先提取文字图片的内部空间特征信息，再获取连续文字特征的时序信息。

本实施例中步骤3)通过卷积门控循环神经网络的训练实现：设定将文字切分后统一调整为[32x32]尺寸的灰度图像，然后使用卷积神经网络进行预训练后提取文字图片空间特征。其中卷积神经网络使用三个卷积模块加交叉熵损失函数对文字图像进行预训练，卷积模块第一层使用卷积核为[3x3]，步长为1，输出特征层为64的卷积层，然后连接BatchNorrmal层进行特征归一化，然后使用relu作为激活函数。第二层与第一层结构相似，使用卷积核为[3x3]，步长为1，输出特征层为64，然后连接BatchNorrmal层进行特征归一化，使用relu作为激活函数。最后连接池化窗口为[2x2]步长为2的最大池化层。后面连接的卷积模块结构相同，只是第一个卷积模块输出特征层为64，第二个卷积模块输出特征层为96，第三个卷积模块输出特征层为128。最后将特征展开拉成一维连接全连接层，节点设为128，然后使用dropout层和relu激活层，再连接节点设为N_class的全连接层，然后使用交叉熵损失函数作为优化器进行训练。网络模型输出的分类类别N_class中包括高频汉字、阿拉伯数字、标点符号、拉丁字母以及一个未知符合类。

步骤4：文本重组：将所述文字识别结果按照顺序组合，并进行校正，得出最终的识别结果文本段。

本实施例中的步骤4)通过卷积门控循环神经网络分类实现：根据卷积神经网络预训练模型提取的文字图片的空间特征向量，按照提取的信息顺序传入门控循环神经网络，输入的文字特征个数与输出的分类节点数相同。

本实施例的卷积门控循环神经网络模型包括：

卷积神经网络预训练模块对文字图像的空间信息进行特征提取，然后使用门控循环神经网络对一段有序文字特征向量进行学习，由于这种神经网络结构不仅学习到了文字图像的空间学习，而且对一段有序单号文字特征的前后关系进行很好的学习，所以，基于卷积门控循环神经网络的物流单号识别方法最终的物流单号识别率得到了有效的提升。

本实施例的门控循环神经网络结构层前向计算如下：

其中[]表示两个向量元素相融合，*表示矩阵元素相乘，σ()表示sigmoid激活函数。假设，对于t时刻，GRU的输出向量为y_t，输入向量为x_t，前一时刻的状态向量为h_t-1，r_t、z_t分别为GRU循环神经网络的重置门和更新门，W_r、W_z为前重置门和更新门所在网络层权重，为输入向量与更新门加权后的上一时刻状态向量相融合后通过tanh激活函数激活输出的特征向量，W_h～为当前网络层权重，1-z_t表示对前一时刻的状态向量h_t-1需要遗忘的权重，h_t表示为当前时刻网络输出的状态向量，W_o表示当前时刻状态向量网络层对应的权重。

进一步的，步骤(1)的设定将文字切分后统一调整为[32x32x1]尺寸的灰度图像，然后使用卷积神经网络进行预训练后提取文字图片空间特征；其中卷积神经网络使用三个卷积模块加交叉熵损失函数对文字图像进行预训练，卷积模块第一层使用卷积核为[3x3]，步长为1，输出特征层为64的卷积层，然后连接BatchNorrmal层进行特征归一化，然后使用relu作为激活函数；第二层与第一层结构相似，使用卷积核为[3x3]，步长为1，输出特征层为64，然后连接BatchNorrmal层进行特征归一化，使用relu作为激活函数，最后连接池化窗口为[2x2]步长为2的最大池化层。后面连接的卷积模块结构相同，只是第一个卷积模块输出特征层为64，第二个卷积模块输出特征层为96，第三个卷积模块输出特征层为128。最后将特征展开拉成一维连接全连接层，节点设为128，然后使用dropout层和relu激活层，再连接节点设为N_class的全连接层，然后使用交叉熵损失函数作为优化器进行训练。

本实施例中生成训练集GB2312标准共收录个6763汉字，一级常用汉字共个3755，而且一级汉字几乎已经包含了日常生活中的所有需求。但有些地名并不包含在一级汉字中，所以对一级常用汉字进行了扩充。最终对3989个字进行样本釆集。每个字采集到了125个样本，其中125个样本中包含三个印刷体样本，每张样本图片大小设置为32*32像素，并把相同汉字的125个样本图片存于一个文件夹中，最终得到了3989个文件夹，每个文件夹包含125个样本图片。事先对每个汉字进行从0到3988编号，这样每个汉字都对应一个数字，再用该编号为每个相同汉字图像所在的文件夹命名。

本发明通过卷积门控循环神经网络的物流单号识别方法的卷积神经网络预训练模块进行文字空间特征信息提取，同时使用门控循环神经网络对有序文字特征向量的上下文信息进行学习，从而保证了网络具有良好的泛化性能，使得网络模型取得在物流单号信息识别结果更加精确。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述步骤1)中预处理操作为对原始图片依次进行非均匀光照调整、图像灰度化、二值化、倾斜校正操作。

3.根据权利要求2所述的基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述步骤1)预处理操作中通过公式对图像进行非均匀光照调整，式中，I'是进行调整后的该点像素值，C是图像中心位置的像素值，BG是进行中值滤波后的图像中该点的像素值，I是原始图像的该点的像素值。

4.根据权利要求1所述的基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述有效信息包括地址块、邮政编码块以及电话号码块。

5.根据权利要求1所述基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述步骤1)中通过版面分析将有效信息从所述原始图片中分割出来，将图像中包含的图形、表格、文本的版面基元区分开，并得到各版面基元区的逻辑关系；所述版面分析包括：

版面分割，将图像分割成有意义的多个区域；

版面理解，确定各区域之间的关系。

6.根据权利要求1所述基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述步骤1)中的模板匹配为将一个或多个传感器在不同条件和时间下，从同一图像录取下来的一组图像进行比较，以找到该组图像中的共有图像，或者根据设定的模板在另一个图像中找到相应图像。

7.根据权利要求1所述基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述模板匹配釆用归一化相关系数法进行快递单的有效信息块定位。

8.根据权利要求1所述的基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于所述步骤2)中对输入的物流单据图片进行切分包括如下步骤：

9.根据权利要求1所述的基于门控循环神经网络的物流快递单号识别方法，其特征在于步骤3)中将切分后的字图片使用卷积层提取文字图片特征，再传入门控循环神经网络识别文字图片，引入自然语言处理，实现文本重组和校正。

10.根据权利要求9所述基于卷积门控循环神经网络的物流快递单号识别方法，其特征在于步骤3)中使用卷积层提取文字图片特征时先提取文字图片的内部空间特征信息，再获取连续文字特征的时序信息。