CN112418225B

CN112418225B - 一种面向地址场景识别的离线文字识别方法

Info

Publication number: CN112418225B
Application number: CN202011110108.8A
Authority: CN
Inventors: 吴贺俊; 祝一帆
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2023-07-21
Anticipated expiration: 2040-10-16
Also published as: CN112418225A

Abstract

本发明提供一种面向地址场景识别的离线文字识别方法，该方法对数据集进行预处理：去除数据集标注文本中无法识别的生僻字，以及该标注文本对应的图像，其中，数据集包括图像和图像对应的标注文本；使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练；训练卷积循环神经网络CRNN模型；输入预处理后的图像，使用CTPN定位图像中所有文本的位置，并使用矩形框将文本框出，提供矩形的顶点坐标以及宽高；将输出的文本框坐标输入CRNN，对文本框中的文本进行识别，输出预测文本，提高了地址识别的准确率。

Description

一种面向地址场景识别的离线文字识别方法

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种面向地址场景识别的离线文字识别方法。

背景技术

近年来，文本识别技术已经应用到生活中的许多情境，包括聊天软件中的图片文本识别、拍照文本识别等。然而，由于训练使用的数据集组成不一、照片或图片的质量难以保证，现有的自然场景文本识别仍难以达到较高的准确率。在以往的OCR(OpticalCharacterRecognition，光学字符识别)方法中，识别过程分一般为两步：单字切割和分类。一般会将一连串文字的文本图片利用投影法等传统图像处理方法切割出单个字体，再送入CNN(ConvolutionalNeuralNetwork，卷积神经网络)里进行文字分类。此方法虽然思路直观易理解，但受字符检测错误的影响较大。随着卷积神经网络技术的兴起，CRNN被使用到了情景文本识别中，情景文本识别开始演变为基于深度学习的端到端的过程，即不需显式加入文字切割这个环节，而是将文字识别转化为序列学习问题。在生活中，地址文本存在于各种表单、履历和邮政面单上，是常见的自然场景文本识别情境。然而，针对地址识别，以往的方法还存在着一些问题：1)由于地址文本中和其他情境下的语料内容有较大的不同(比如地址文本缺乏完整的语法，并且常有生僻字)，以往方法训练的模型难以直接运用至地址识别中，以往的数据集也难以训练模型得到最好的识别准确率；2)由于存在一些提供地址检索接口的软件存在，地址文本识别在识别流程后还可以通过检索和匹配，使识别准确度进一步提高。

申请号为201910441222.X的专利说明书中公开了一种具有文字识别的照片直播系统及其方法，本申请实现了海量照片的即时上传、浏览，并解决了高并发、高访问、高下载导致的问题，以及实现照片的文字识别和人脸识别，从而实现照片直播。然而，该专利无法实现使用了CTPN和CRNN作为基础的场景文本识别方法，同时加入了地图地址检索接口的部分来适应地址识别的需求，从而针对性地提高了地址识别的准确率。

发明内容

本发明提供一种识别准确率较高的面向地址场景识别的离线文字识别方法。

为了达到上述技术效果，本发明的技术方案如下：

一种面向地址场景识别的离线文字识别方法，包括以下步骤：

网络训练阶段：

S1：对数据集进行预处理，其中数据集包括图像和图像对应的标注文本：去除数据集标注文本中无法识别的生僻字，以及该标注文本对应的图像；

S2：使用ICDAR2017RCTW数据集对CTPN进行训练；

S3：训练CRNN模型；

步骤S3的具体过程是：S31：CRNN模型的训练过程基于最小化CTCloss(ConnectionistTemporalClassification，连接时序分类)进行。

由于传统的RNN(RecurrentNeuralNetwork，循环神经网络)存在梯度消失的问题，且不能储存长期记忆，我们的算法的CRNN中使用的是LSTM(LongShortTermMemory，长短期记忆)，更具体地，使用的是双向LSTM，即BiLSTM(Bi-LongShortTermMemory，双向长短期记忆)。相较LSTM，BLSTM可以根据文本的前后向信息作出推测。

设特征图的大小为m×T(如本方法中为512*16)，其中m为特征图的通道数，T为时间步的数量。

则输出的得分序列为：

X＝(x¹,x²,…,x^T)

其中的每个元素对应输入的单个时间步；

设对于上述的X，预测识别的文本序列为：

Y＝(y¹,y²,…,y^U)

对于一对(X,Y)，建立条件概率如下：

P(Y|X)＝∑Align∈AlignX,Y(∏Tt＝1pt(at|X))

其中，使用最小化负对数损失代替最大似然估计，因此，对于N个样本(X₁,Y₁),(X₂,Y₂),…(X_N,Y_N)损失函数为：

基于此损失函数来进行前向传播，训练CRNN模型；

S32：由于地址文本的语法与自然语言有一定的差距，此处先使用ICDAR2017RCTW数据集训练得到预训练模型，之后使用1200张标注过的地址图像进行迁移学习训练。

预测阶段：

S4：输入待识别的图像，使用CTPN定位图像中所有文本的位置，并使用矩形框将文本框出，提供矩形的顶点坐标以及宽高；

S5：将S4中输出的文本框坐标输入CRNN，对文本框中的文本进行识别，输出预测文本；

S6：将预测文本输入地图检索接口，对地址进行模糊匹配，得到更加准确的地址文本。

所述步骤S4的具体过程是：

S41：进行图像预处理，将图片调整至CTPN输入需要的尺寸；

S42：使用VGG16卷积神经网络提取图像的特征，获得特征图；

S43：在特征图上使用滑动窗口，即图像中的每个点都结合周围区域特征获得特征向量，此时的特征只包含了CNN学习到的空间特征；

S44：将特征向量输入BiLSTM，学习每一行的序列特征，最后输出的特征既包含了CNN学习到的空间特征，也包含BLSTM学习到的序列特征；

S45：将序列特征输入全连接卷积层；

S46：将全连接层的输出输入RPN(RegionProposalNetwork，区域生成网络)，输出预选文本框。

进一步地，所述步骤S5的具体过程是：

S51：对S4中输出的文本框，使用CNN提取其特征图。

S52：将CNN提取出的特征转换为特征向量，特征向量的数量等于特征图的通道数，这些特征向量每一个关联一个感受野，整体构成一个特征序列；

S53：将特征序列中的向量作为一个个时间步输入RNN中，RNN输出序列的得分矩阵；

S54：使用CTC-loss处理文本序列对齐问题。场景文本由于拍照环境、印刷瑕疵等问题，字体大小可能不统一，且文本可能不完全水平，因此需要处理序列的对齐问题；同时因为框的大小固定，而文字的大小不一，每个文字可能被多个框框中，从而有多个得分，需要将分数整合，去掉重复的文本框。

为了去除重复的文本框，CTC使用的方法是引入空白字符“∈”，将空白字符放置于重复的字符间，识别时先去除连续的重复字符，再移除空白字符，即可得到识别结果。

进一步地，所述步骤S6的具体过程是：

S61：对于S5中输出的预测文本，将文本按照高德地图要求的格式加入请求URL(UniformResourceLocator，统一资源定位符)中发出GET请求；

S62：获取返回的建议地址结果；

S63：将结果与识别的地址文本比对，文本重合度超过90％时将建议地址结果作为最终的地址文本结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明对数据集进行预处理：去除数据集标注文本中无法识别的生僻字，以及该标注文本对应的图像，其中，数据集包括图像和图像对应的标注文本；使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练；训练卷积循环神经网络CRNN模型；输入预处理后的图像，使用CTPN定位图像中所有文本的位置，并使用矩形框将文本框出，提供矩形的顶点坐标以及宽高；将输出的文本框坐标输入CRNN，对文本框中的文本进行识别，输出预测文本；本申请使用了CTPN和CRNN作为基础的场景文本识别方法，同时加入了地图地址检索接口的部分来适应地址识别的需求，从而针对性地提高了地址识别的准确率。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种面向地址场景识别的离线文字识别方法，其特征在于，包括以下步骤：

S1：对数据集进行预处理：去除数据集标注文本中无法识别的生僻字，以及该标注文本对应的图像，其中，数据集包括图像和图像对应的标注文本；

S2：使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练；

S3：训练卷积循环神经网络CRNN模型；

S4：输入预处理后的图像，使用CTPN定位图像中所有文本的位置，并使用矩形框将文本框出，提供矩形的顶点坐标以及宽高；

S5：将步骤S4中输出的文本框坐标输入CRNN，对文本框中的文本进行识别，输出预测文本。

将预测文本输入地图检索接口，对地址进行模糊匹配，得到准确的地址文本。

步骤S3的具体过程是：

S31：卷积循环神经网络CRNN模型的训练过程基于最小化CTCloss进行：

设特征图的大小为m×T，其中m为特征图的通道数，T为时间步的数量，则输出的得分序列为：

X＝(x¹,x²,…,x^T)

其中的每个元素对应输入的单个时间步；

设对于上述的X，预测识别的文本序列为：

Y＝(y¹,y²,…,y^U)

对于一对(X,Y)，建立条件概率如下：

P(Y|X)＝∑Align∈AlignX,Y(∏Tt＝1pt(at|X)

基于此lossfunction来进行前向传播，训练CRNN模型；

步骤S4的具体过程是：

S41：将图片调整至CTPN输入需要的尺寸；

S42：使用VGG16卷积神经网络提取图像的特征，获得特征图；

S45：将序列特征输入全连接卷积层；

S46：将全连接层的输出输入RPN输出预选文本框。

步骤S5的具体过程是：

S51：对步骤S4中输出的文本框，使用CNN提取其特征图；

S54：使用CTC-loss处理文本序列对齐问题，场景文本由于拍照环境、印刷瑕疵等问题，字体大小可能不统一，且文本可能不完全水平，因此需要处理序列的对齐问题；同时因为框的大小固定，而文字的大小不一，每个文字可能被多个框框中，从而有多个得分，需要将分数整合，去掉重复的文本框；为了去除重复的文本框，CTC使用的方法是引入空白字符“∈”，将空白字符放置于重复的字符间，识别时先去除连续的重复字符，再移除空白字符，即可得到识别结果。

步骤S6的具体过程是：

S61：对于S5中输出的预测文本，将文本按照高德地图要求的格式加入请求URL中发出GET请求；

S62：获取返回的建议地址结果；

图像尺寸调整标准为：宽高比例不变，高h＝720。

步骤S42中，使用基础的卷积神经网络提取图像的特征图，网络层包括13个卷积层，13个ReLU层，和4个池化层。其中所有的卷积层卷积核为3×3，填充为1，步长为1；所有的池化层卷积核尺寸为2×2，填充为0，步长为2，在网络中，卷积层和ReLU层没有改变输入图像的尺寸，只有在池化层中图像的尺寸变为输入的1/2。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向地址场景识别的离线文字识别方法，其特征在于，包括以下步骤：

S2：使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练；

S3：训练卷积循环神经网络CRNN模型；

S5：将步骤S4中输出的文本框坐标输入CRNN，对文本框中的文本进行识别，输出预测文本；

所述步骤S5的具体过程是：

S51：对步骤S4中输出的文本框，使用CNN提取其特征图；

S54：使用CTC-loss处理文本序列对齐问题，场景文本由于拍照环境、印刷瑕疵问题，字体大小可能不统一，且文本可能不完全水平，因此需要处理序列的对齐问题；同时因为框的大小固定，而文字的大小不一，每个文字可能被多个框框中，从而有多个得分，需要将分数整合，去掉重复的文本框；

还包括S6的具体过程是：

S62：获取返回的建议地址结果；

S63：将结果与识别的地址文本比对，文本重合度超过阈值时将建议地址结果作为最终的地址文本结果。

2.根据权利要求1所述的面向地址场景识别的离线文字识别方法，其特征在于，将预测文本输入地图检索接口，对地址进行模糊匹配，得到准确的地址文本。

3.根据权利要求2所述的面向地址场景识别的离线文字识别方法，其特征在于，所述步骤S3的具体过程是：

X＝(x¹,x²,…,x^T)

其中的每个元素对应输入的单个时间步；

设对于上述的X，预测识别的文本序列为：

Y＝(y¹,y²,…,y^U)

对于一对(X,Y)，建立条件概率如下：

P(Y|X)＝∑Align∈AlignX,Y(∏Tt＝1pt(at|X)

基于此lossfunction来进行前向传播，训练CRNN模型；

4.根据权利要求3所述的面向地址场景识别的离线文字识别方法，其特征在于，所述步骤S4的具体过程是：

S41：将图片调整至CTPN输入需要的尺寸；

S42：使用VGG16卷积神经网络提取图像的特征，获得特征图；

S45：将序列特征输入全连接卷积层；

S46：将全连接层的输出输入RPN输出预选文本框。

5.根据权利要求1所述的面向地址场景识别的离线文字识别方法，其特征在于，为了去除重复的文本框，CTC使用的方法是引入空白字符“∈”，将空白字符放置于重复的字符间，识别时先去除连续的重复字符，再移除空白字符，即可得到识别结果。

6.根据权利要求1所述的面向地址场景识别的离线文字识别方法，其特征在于，步骤S41中，图像尺寸调整标准为：宽高比例不变，高h＝720。

7.根据权利要求6所述的面向地址场景识别的离线文字识别方法，其特征在于，步骤S42中，使用基础的卷积神经网络提取图像的特征图，网络层包括13个卷积层，13个ReLU层，和4个池化层；其中所有的卷积层卷积核为3×3，填充为1，步长为1；所有的池化层卷积核尺寸为2×2，填充为0，步长为2，在网络中，卷积层和ReLU层没有改变输入图像的尺寸，只有在池化层中图像的尺寸变为输入的1/2。

8.根据权利要求7所述的面向地址场景识别的离线文字识别方法，其特征在于，文本重合度超过阈值是90％。