CN111507353A

CN111507353A - 一种基于文字识别的中文字段检测方法及系统

Info

Publication number: CN111507353A
Application number: CN202010304190.1A
Authority: CN
Inventors: 杨凯越
Original assignee: New Share Technology Services Shenzhen Ltd
Current assignee: New Share Technology Services Shenzhen Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-07
Anticipated expiration: 2040-04-17
Also published as: CN111507353B

Abstract

一种基于文字识别的中文字段检测方法及系统，包括：识别预选区域中的文字区域，集合文字区域并计算相对距离矩阵；基于DBSCAN(基于密度的分层聚类)将矩阵聚类得到字符串区域；将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段；基于预测中文字段通过CTCLoss正反向训练单字符分类器，并通过softmax函数输出字符概率；将滑窗提取的字符放入训练后的单字符分类器中得到中文字段。通过相对距离矩阵聚字成串和滑窗分类器正反向CTCLoss训练，能够精准的识别复杂环境下的中文字段。解决了字符串提取不精确以及模型时间和空间复杂度过大的问题，能较为精准的识别复杂环境下的中文字段。

Description

一种基于文字识别的中文字段检测方法及系统

技术领域

本发明涉及文字检测技术领域，特别涉及一种基于文字识别的中文字段检测方法及系统。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术能够高速、准确地扫描文档，但传统的OCR方案是利用边缘检测技术获取文字框，再使用字体文件匹配的方式进行识别，只能识别分别率高且背景简单的图像，无法对复杂背景和带有环境噪音的文本进行识别。因此传统的图片预处理方式依赖于标准的图片数据。

而新兴的OCR方案利用了深度学习的方法，通过Two-stage(定位字符串框、对框内文字识别)的识别方式进行。现有的自然场景下的定位方法有：CTPN(Connectionist TextProposal Network，连接文本生成网络)的定位方法、基于Seglink的场景定向文字检测、EAST文本检测等。而定位框采用CTPN的定位方法，是无法进行斜字符串或者不规则字符串的定位；采用Seglink的定位方法需要给定每个字符的定位以及其倾斜角θ，对训练数据质量要求高；采用EAST的定位切割方法对训练标签要求比较高，需要进行像素采样的训练标签。

现有技术的长文本识别手段有CRNN(Convolutional Recurrent NeuralNetwork，卷积循环神经网络)和Attention(注意力网络)，两者都采用CTCLoss(Connectionist Temporal Classification)作为损失函数，前者由于利用了RNN(循环神经网络)的手段，其运算效率较低同时很容易过拟合；后者Attention对候选框的特征进行自注意力，需要较大的存储空间进行计算，不易单机部署。

发明内容

(一)发明目的

本发明的目的是提供一种基于文字识别的中文字段检测方法及系统，通过相对距离矩阵聚字成串和滑窗分类器正反向CTCLoss训练，能够精准的识别复杂环境下的中文字段。

(二)技术方案

为解决上述问题，根据本发明的一个方面,本发明提供了一种基于文字识别的中文字段检测方法，包括：识别预选区域中的文字区域；集合文字区域并计算相对距离矩阵，基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise，基于密度的分层聚类算法)将矩阵聚类得到字符串区域；将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段；基于预测中文字段通过CTCLoss正反向训练单字符分类器；通过softmax函数输出字符概率后，将滑窗提取的字符放入训练后的单字符分类器中，得到中文字段。

进一步的，识别预选区域中的文字区域包括：基于ResNet(残差网络)骨架提取预选区域的特征；利用全景FPN(Feature Pyramid Network，特征金字塔网络)合并预选区域的深层特征和浅层特征；基于RPN(RegionProposal Network，区域生成网络)识别预选区域的文字区域。

进一步的，基于RPN识别预选区域的文字区域之后还包括：通过NMS(Non-maximumsuppression，非极大值抑制算法)筛选并去除重复的文字区域。

进一步的，识别预选区域中的文字区域还包括：识别预选区域中的单个文字，并将单个文字加入至预测中文字段中。

进一步的，相对距离矩阵的计算公式如下：

其中，TL和BR分别表示一个文字区域的左上坐标点和右下坐标点；i和j分别表示第i个区域和第j个区域；x和y分别表示坐标点的x坐标值和y坐标值；

表示在宽度方向上第i个区域和第j个区域之间的距离；

表示在高度方向上第i个区域和第j个区域之间的距离；D^(i,j)表示第i个区域和第j个区域之间的距离；α为宽度方向上第i个区域和第j个区域之间的距离的权重；β为高度方向上第i个区域和第j个区域之间的距离的权重。

进一步的，将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段包括：基于滑窗选定字符串区域的一部分；从字符串区域的一部分开始按照给定步进遍历字符串区域，得到预测中文字段；将得到的预测中文字段放入单字符分类器中进行池化分类。

进一步的，单字符分类器包括RoIPooling(感兴趣区域池化)和全连接神经网络。

进一步的，基于预测中文字段通过CTCLoss正反向训练单字符分类器还包括：在进行正反向训练时添加信息熵正则项，以防止概率尖峰和单侧偏移。

根据本发明的另一个方面,本发明提供了一种基于文字识别的中文字段检测系统，包括：预选区域回归模块，以识别预选区域中的文字区域；聚字成句模块，以集合文字区域并计算相对距离矩阵，基于DBSCAN将矩阵聚类得到字符串区域；滑动窗生成模块，以将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段；训练模块，以基于预测中文字段通过CTCLoss正反向训练单字符分类器；执行模块，通过softmax函数输出字符概率后，再将滑窗提取的字符放入训练后的单字符分类器中，得到中文字段。

进一步的，还包括：单字识别模块，以识别预选区域中的单个文字，并将单个文字加入至所述预测中文字段中。

(三)有益效果

本发明的上述技术方案具有如下有益的技术效果：

本发明中特征提取的步骤，能够较为精准的识别复杂环境下的中文字段，能够识别背景复杂或有噪音的文本；之后通过计算文字区域的相对距离矩阵以及DBSCAN的聚类成句解决了字符串提取时不精确的问题；而最后通过窗分类器和CTCLoss的正反向训练解决了现有技术中模型时间和空间复杂度过大的问题，减少了计算的存储空间。

附图说明

图1是本发明提供的基于文字识别的中文字段检测方法的步骤流程图；

图2是本发明提供的滑动窗口的示意图；

图3是本发明提供的基于文字识别的中文字段检测系统的原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

下面结合附图和实施例对本发明进行详细说明。

图1是本发明提供的基于文字识别的中文字段检测方法的步骤流程图，请参看图1，本发明提供的一种基于文字识别的中文字段检测方法，包括以下步骤：

S1：基于ResNet(残差网络)骨架提取预选区域的特征。

其中，预选区域为包含有中文字段的图片或文档等。特征提取是将图像转化为一组便于后续处理的数值特征，预选区域的特征被分为深层特征和浅层特征。

S2：利用全景FPN(特征金字塔网络)合并预选区域的深层特征和浅层特征。

具体地，为了防止过深特征图中像素消逝的问题，使用浅层特征层做为特征图；同时将深层特征与浅层特征合并，使得低像素文字也被检测到，提高识别的精准度。

S3：基于RPN(区域生成网络)识别预选区域中的文字区域。

S4：通过NMS(非极大值抑制算法)筛选并去除重复的文字区域。

具体地，通过RPN识别预选区域中可能是文字的区域，会产生多个且互相覆盖的文字区域，因此需要通过NMS筛选掉一部分重复过多的文字区域，增加文本识别的精准度。

S5：将通过NMS筛选后剩余的全部文字区域集合起来，并计算相对距离矩阵，相对距离矩阵的计算公式如下：

表示在宽度方向上第i个区域和第j个区域之间的距离；

S6：基于DBSCAN(基于密度的分层聚类)，将计算得到的上述相对距离矩阵聚类后得到字符串区域。

S7：将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段，具体包括如下步骤：

S71：通过滑窗选定字符串区域的一部分；

S72：从字符串区域的一部分开始，按照给定步进遍历字符串区域，得到预测中文字段；

S73：将预测中文字段放入单字符分类器中进行池化分类。

具体地，请查看图2，图2表示滑动窗口的示例图。其中滑动窗口为固定的窗口，即正方形的方框，该方框会按照一个步幅由初始端划向尾端(从左往右)，每一次步进就会提取该滑动窗口所在的图片，即一个预测中文字段。

如图2所示，该滑动窗口从“文字识别”的“文”开始以将近1/2字体大小为步幅进行右移，依次提取预测中文字段。

可选的，滑动窗口也可以按照一个步幅由尾端划向初始端(从右往左)。

可选的，滑动窗口也可以按照一个步幅由上往下，或者由下往上的形式依次移动。

优选的，单字符分类器包括RoIPooling(感兴趣区域池化)和全连接神经网络，其中，RoIPooling对每一个预测中文字段进行池化，池化后预测中文字段通过全连接神经网络进行分类。其中，RoIPooling能够任意缩放预测中文字段的尺寸至指定尺寸。

S8：基于预测中文字段通过CTCLoss正反向训练单字符分类器，并通过softmax函数输出字符概率。

S9：将滑窗提取的字符放入训练后的单字符分类器中得到中文字段。

具体地，如果在训练时不控制CTC的训练方向，整个卷积神经网络可能会出现感受视野偏右的情况，而实际想要的是正中的感受视野，所以需要随机双向，即正反向的采样。

如图2的由左至右的滑动窗口为“文字识别”，由右至左的滑动窗口则为“别识字文”；而CTCLoss的正反向训练则是随机的对输入的感兴趣区域做左至右的训练和右至左的训练。

其中，步骤S7是通过一个各种权值固定的单字符分类器，得到预测中文字段；步骤S8是对上述单字符分类器进行训练调整，并得到字符概率；步骤S9是通过训练后的单字符分类器获得最终的中文字段。

可选的，在进行正反向训练时还需添加信息熵正则项，以防止概率尖峰和单侧偏移。信息熵正则项的公式为：

其中，m为预选区域个数；n为预定的文字概率个数；

表示输出的第i个预选区域是第j个文字的概率。

优选的，在步骤S3中，识别预选区域中的文字区域还包括：识别预选区域中的单个文字，并将单个文字加入至预测中文字段中。

图3是本发明提供的基于文字识别的中文字段检测系统的原理图，请查看图3，本发明的另一个方面提供了一种基于文字识别的中文字段检测系统，包括：预选区域回归模块、聚字成句模块、滑动窗生成模块、训练模块和执行模块。

预选区域回归模块以基于RPN(区域生成网络)识别预选区域的文字区域，得到文字区域的坐标。

其中，预选区域回归模块包括：

特征提取单元，以基于ResNet(残差网络)骨架对预选区域进行特征提取，得到一个特征层，该特征层包括深层特征和浅层特征。

特征合并单元，以利用全景FPN(特征金字塔网络)合并深层特征和浅层特征。

筛选单元，以通过NMS(非极大值抑制)筛选并去除重复的文字区域。

聚字成句模块以集合文字区域并计算相对距离矩阵，基于DBSCAN(基于密度的分层聚类)将矩阵聚类得到字符串区域。

滑动窗生成模块以将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段。

训练模块，以基于预测中文字段通过CTCLoss正反向训练单字符分类器，并通过softmax函数输出字符概率。

执行模块，以将滑窗提取的字符放入训练后的单字符分类器中，得到中文字段。

优选的，一种基于文字识别的中文字段检测系统，还包括：单字识别模块。单字识别模块以识别预选区域中的单个文字，并将单个文字加入至预测的中文字段中。

本发明旨在保护一种基于文字识别的中文字段检测方法及系统，包括：识别预选区域中的文字区域，集合文字区域并计算相对距离矩阵；基于DBSCAN(基于密度的分层聚类)将矩阵聚类得到字符串区域；将字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段；基于预测中文字段通过CTCLoss正反向训练单字符分类器，并通过softmax函数输出字符概率；将滑窗提取的字符放入训练后的单字符分类器中得到中文字段。通过相对距离矩阵聚字成串和滑窗分类器正反向CTCLoss训练，能够精准的识别复杂环境下的中文字段。解决了字符串提取不精确以及模型时间和空间复杂度过大的问题，能较为精准的识别复杂环境下的中文字段。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于文字识别的中文字段检测方法，其特征在于，包括：

识别预选区域中的文字区域；

集合所述文字区域并计算相对距离矩阵；

基于DBSCAN(基于密度的分层聚类)将所述矩阵聚类得到字符串区域；

将所述字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段；

基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器，并通过softmax函数输出字符概率；

将滑窗提取的所述字符放入训练后的所述单字符分类器中得到中文字段。

2.根据权利要求1所述的方法，其特征在于，所述识别预选区域中的文字区域包括：

基于ResNet(残差网络)骨架提取预选区域的特征；

利用全景FPN(特征金字塔网络)合并所述预选区域的深层特征和浅层特征；

基于RPN(区域生成网络)识别所述预选区域的文字区域。

3.根据权利要求2所述的方法，其特征在于，基于RPN(区域生成网络)识别所述预选区域的文字区域之后还包括：

通过NMS(非极大值抑制)筛选并去除重复的文字区域。

4.根据权利要求1所述的方法，其特征在于，所述识别预选区域中的文字区域还包括：

识别所述预选区域中的单个文字，并将所述单个文字加入至所述预测中文字段中。

5.根据权利要求1所述的方法，其特征在于，所述相对距离矩阵的计算公式如下：

其中，TL和BR分别表示一个所述文字区域的左上坐标点和右下坐标点；i和j分别表示第i个区域和第j个区域；x和y分别表示坐标点的x坐标值和y坐标值；

表示在宽度方向上第i个区域和第j个区域之间的距离；

6.根据权利要求1所述的方法，其特征在于，将所述字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段包括：

基于滑窗选定所述字符串区域的一部分；

从所述字符串区域的一部分开始，按照给定步进遍历所述字符串区域，得到预测中文字段；

将得到的预测中文字段放入单字符分类器中进行池化分类。

7.根据权利要求6所述的方法，其特征在于，

所述单字符分类器包括RoIPooling(感兴趣区域池化)和全连接神经网络。

8.根据权利要求1所述的方法，其特征在于，基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器还包括：

在进行正反向训练时添加信息熵正则项，以防止概率尖峰和单侧偏移。

9.一种基于文字识别的中文字段检测系统，其特征在于，包括：

预选区域回归模块：以识别预选区域中的文字区域；

聚字成句模块，以集合所述文字区域并计算相对距离矩阵，基于DBSCAN(基于密度的分层聚类)将所述矩阵聚类得到字符串区域；

滑动窗生成模块，以将所述字符串区域通过滑窗提取字符后放入单字符分类器，获得预测中文字段；

训练模块，以基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器，并通过softmax函数输出字符概率；

执行模块，将滑窗提取的所述字符放入训练后的所述单字符分类器中，得到中文字段。

10.根据权利要求9所述的系统，其特征在于，还包括：

单字识别模块，以识别所述预选区域中的单个文字，并将所述单个文字加入至所述预测中文字段中。