CN113298167A

CN113298167A - 一种基于轻量级神经网络模型的文字检测方法及系统

Info

Publication number: CN113298167A
Application number: CN202110609381.3A
Authority: CN
Inventors: 陈浩文
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-24
Anticipated expiration: 2041-06-01
Also published as: CN113298167B

Abstract

本发明提供一种基于轻量级神经网络模型的文字检测方法及系统，涉及图像处理和神经网络领域，包括：根据空间信息对文本数据进行分类和边框标注，获得训练数据集；构建轻量级神经网络模型，通过训练数据集训练神经网络模型；通过训练后的神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；针对边框置信度进行置信度筛选，针对文字边框进行非极大值抑制，得到清晰的文本行；对文本行按文字类别进行聚类，得到最终检测结果。本发明实现对图片中的具有空间信息的文字进行分类及检测，进而不需要人工对检测到的文字进行筛选，降低筛选成本。

Description

一种基于轻量级神经网络模型的文字检测方法及系统

技术领域

本发明涉及图像处理和神经网络领域，尤其是涉及一种基于轻量级神经网络模型的文字检测方法及系统。

背景技术

在进行网络文字识别的场景下，对于复杂场景的图片文字识别，先对文字的位置进行定位则可以大大提高文字识别的准确率，这个定位的过程称为文字检测，这一直是一个文字热点。此外，目前很多文字检测的需求是在手机端，手机端受限于内存原因对于应用的需求为轻便型，因此研究轻量级神经网络模型也是一大热点。

目前，现有的文字检测方法大多数是对图片中的所有文字进行检测，使得人工筛选成本巨大。

发明内容

针对上述问题，本发明提供了一种基于轻量级神经网络模型的文字检测方法及系统，实现对图片中的具有空间信息的文字进行分类及检测，进而不需要人工对检测到的文字进行筛选，降低筛选成本。

为实现上述目的，本发明提供了一种基于轻量级神经网络模型的文字检测方法，包括：

根据空间信息对文本数据进行分类和边框标注，获得训练数据集；

构建轻量级神经网络模型，通过所述训练数据集训练所述神经网络模型；

通过训练后的所述神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；

针对所述边框置信度进行置信度筛选，针对所述文字边框进行非极大值抑制，得到清晰的文本行；

对所述文本行按所述文字类别进行聚类，得到最终检测结果。

作为本发明的进一步改进，根据空间信息对文本进行分类和边框标注，获得训练数据集；包括：

预设分类标签；

采用标注工具按所述分类标签对文本数据进行分类；

采用四边形对每一行文字进行边框标注。

作为本发明的进一步改进，所述轻量级神经网络模型采用残差网络；

所述神经网络模型结构包括：CBR、RES残差块、POOL最大池化层和Conv卷积层；

所述神经网络模型的输出包括类别分支和坐标分支，所述类别分支输出文字属于各个类别的置信度；所述坐标分支输出文字的坐标信息。

作为本发明的进一步改进，所述通过所述训练数据集对所述神经网络模型进行训练；包括：

依次通过神经网络模型的类别分支输出所述训练数据集中各训练数据中文字的预测类别；

利用多个宽度固定的矩形框拼接得到文字的边框坐标信息；

根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失；

根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失；

根据所述类别损失和所述回归损失更新神经网络模型的参数，得到训练后的所述神经网络模型。

作为本发明的进一步改进，所述通过所述训练数据集训练所述神经网络模型；还包括：

先将所述训练数据集进行数据增强，增加训练数据的样本数；

所述数据增强的方式包括裁剪图片、改变图片某通道亮度、改变图片三个通道顺序以及利用无关的图片与训练数据集进行融合。

作为本发明的进一步改进，分别利用交叉熵损失及均方误差计算所述类别损失和回归损失；

在计算所述类别损失和所述回归损失时，加入l2正则化，加强网络的泛化能力，避免所述神经网络模型深度学习后过拟合。

作为本发明的进一步改进，所述通过训练后的所述神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；包括：

识别所述待测文本中各部分文字的类别；

采用不同颜色的竖状矩形框对不同类别的文字进行框选；

输出框选后的所述待测文本图样及各所述竖状矩形框的置信度。

作为本发明的进一步改进，所述针对所述边框置信度进行置信度筛选，针对所述文字边框进行非极大值抑制，得到清晰的文本行；具体包括：

针对所述边框置信度进行置信度筛选，得到置信度最高的边框，输出筛选后的所述待测文本图样；

针对所述文字边框进行非极大值抑制，去除重叠度较高的边框，得到不重叠的清洗文本行。

作为本发明的进一步改进，对所述文本行按所述文字类别进行聚类包括：

将类别相同且距离相近的边框聚为一行；

对同一类别中，文字间隔较大但左右边界固定的边框，再次进行左右边界聚类。

本发明还公开了一种基于轻量级神经网络的文字检测系统，包括：训练数据获取模块、模型训练模块、文本预测模块、后处理模块；

所述训练数据获取模块，用于：

所述模型训练模块，用于：

所述文本预测模块，用于：

所述后处理模块，用于：

与现有技术相比，本发明的有益效果为：

本发明实现对图片中的具有空间信息的文字进行分类及检测，检测速度快，也不再不需要人工对检测到的文字进行筛选，降低了筛选成本；同时在监测过程中，图片中不需要的文字则忽略，提高了监测效率。

本发明尤其适用于“名称：内容”的文字检测，由于文字信息有着序列性的特点，不像其他目标检测任务中的目标是独立的，因此采用多个固定宽度的竖状矩形框来表示，再对竖状矩形框后处理连接成一个完整的大矩形框，提高了检测的准确率，还可以实现对角度倾斜的文字进行检测；同时，在预测文字坐标的同时加入了分类的任务，因此可以检测图片中具有空间信息的文字并将其进行分类，有利于后续的文本识别。

附图说明

图1为本发明一种实施例公开的基于轻量级神经网络模型的文字检测方法流程图；

图2为本发明一种实施例公开的基于轻量级神经网络模型的文字检测系统示意图；

图3为本发明一种实施例公开的训练数据集中训练数据标注效果示意图；

图4为本发明一种实施例公开的神经网络模型结构示意图；

图5为本发明一种实施例公开的神经网络模型输出的竖状矩形框标注图；

图6为本发明一种实施例公开的进行置信度筛选后的竖状矩形框标注图；

图7为本发明一种实施例公开的进行非极大值抑制后的竖状矩形框标注图；

图8为本发明一种实施例公开的同类别边框聚类后的竖状矩形框标注图；

图9为本发明一种实施例公开的左右边界聚类后的竖状矩形框标注图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供的一种基于轻量级神经网络模型的文字检测方法，包括：

S1、根据空间信息对文本数据进行分类和边框标注，获得训练数据集；

预设分类标签，如“name”及“content”两个类别；

采用标注工具按分类标签对文本数据进行分类，

采用四边形对每一行文字进行边框标注，其中红色框用于标注“name”类，绿色框用于标注“content”类别，结果如图3所示。

S2、构建轻量级神经网络模型，通过训练数据集训练神经网络模型；

其中，

(1)轻量级神经网络模型采用残差网络；

神经网络模型结构包括：CBR、RES残差块、POOL最大池化层和Conv卷积层；

神经网络模型的输出包括类别分支和坐标分支，类别分支输出文字属于各个类别的置信度；坐标分支输出文字的坐标信息。

(2)神经网络模型训练过程，包括：

S21、先将训练数据集进行数据增强，增加训练数据的样本数；数据增强的方式包括裁剪图片、改变图片某通道亮度、改变图片三个通道顺序以及利用无关的图片与训练数据集进行融合。

S22、依次通过神经网络模型的类别分支输出训练数据集中各训练数据中文字的预测类别；

S23、利用多个宽度固定的矩形框拼接得到文字的边框坐标信息；

S24、根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失；

根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失；其中，分别利用交叉熵损失及均方误差计算类别损失和回归损失；在计算类别损失和回归损失时，加入l2正则化，加强网络的泛化能力，避免神经网络模型深度学习后过拟合。

损失函数的整体表达式如下，其中λ＝0.3，μ＝0.025：

计算损失后将损失进行反向传播，利用Adam优化器对更新网络参数，由于训练前期网络仍然欠拟合较严重，因此可以利用较大的学习率去更新网络参数，这样可以加快损失函数的下降，然而在训练后期网络逐渐拟合训练数据，如果仍然以较大的学习率来更新网络参数则容易造成网络在最优点附近震荡，因此采用指数衰减的方法来对学习率进行更新。

S25、根据类别损失和回归损失更新神经网络模型的参数，得到训练后的神经网络模型。

S3、通过训练后的神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；

其中，包括：

识别待测文本中各部分文字的类别；

采用不同颜色的竖状矩形框对不同类别的文字进行框选；

输出框选后的待测文本图样及各竖状矩形框的置信度。

S4、针对边框置信度进行置信度筛选，针对文字边框进行非极大值抑制，得到清晰的文本行；

具体包括：

针对边框置信度进行置信度筛选，得到置信度最高的边框，输出筛选后的待测文本图样；

针对文字边框进行非极大值抑制，去除重叠度较高的边框，得到不重叠的清洗文本行。

S5、对文本行按文字类别进行聚类，得到最终检测结果。

其中，

将类别相同且距离相近的边框聚为一行；

如图2所示，本发明还提供了用于实现S1～S5的系统，包括：训练数据获取模块、模型训练模块、文本预测模块、后处理模块；

训练数据获取模块，用于：

模型训练模块，用于：

构建轻量级神经网络模型，通过训练数据集训练神经网络模型；

文本预测模块，用于：

通过训练后的神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；

后处理模块，用于：

针对边框置信度进行置信度筛选，针对文字边框进行非极大值抑制，得到清晰的文本行；

对文本行按文字类别进行聚类，得到最终检测结果。

实施例：

本发明特别适用于待检测的图片中的元素包括文字的物理空间信息，如：“性别：女”这样的字段，常规的证书文件均为该种格式，已证书类图片识别为例，具体如下：

步骤1、根据空间信息对文本数据进行分类和边框标注，获得训练数据集；

预设分类标签，如“name”及“content”两个类别；

采用标注工具按分类标签对文本数据进行分类，

步骤2、构建轻量级神经网络模型，如图4所示，通过训练数据集训练神经网络模型；

步骤3、通过训练后的神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；

其中，包括：

识别待测文本中各部分文字的类别；

采用不同颜色的竖状矩形框对不同类别的文字进行框选；

如图5所示，输出框选后的待测文本图样及各竖状矩形框的置信度；

步骤4、针对边框置信度进行置信度筛选，针对文字边框进行非极大值抑制，得到清晰的文本行；

具体包括：

针对边框置信度进行置信度筛选，得到置信度最高的边框，输出筛选后的待测文本图样，如图6所示；

针对文字边框进行非极大值抑制，去除重叠度较高的边框，得到不重叠的清洗文本行，如图7所示。

步骤5、对文本行按“name”和“content”的边框进行聚类，得到最终检测结果。

其中，

将类别相同且距离相近的边框聚为一行，得到图8所示图样；

对于图8中“name”类别的文字，由于一行中存在每个字之间相隔过远的情况，聚类后可能会出现文字缺失的情况，再次进行左右边界聚类，得到最终检测结果，如图9所示。

本发明的优点：

(1)实现对图片中的具有空间信息的文字进行分类及检测，检测速度快，也不再不需要人工对检测到的文字进行筛选，降低了筛选成本；同时在监测过程中，图片中不需要的文字则忽略，提高了监测效率。

(2)尤其适用于“名称：内容”的文字检测，由于文字信息有着序列性的特点，不像其他目标检测任务中的目标是独立的，因此采用多个固定宽度的竖状矩形框来表示，再对竖状矩形框后处理连接成一个完整的大矩形框，提高了检测的准确率，还可以实现对角度倾斜的文字进行检测；同时，在预测文字坐标的同时加入了分类的任务，因此可以检测图片中具有空间信息的文字并将其进行分类，有利于后续的文本识别。

(3)在本发明中，仅仅使用了9个残差块，相较于常用的残差网络，残差块的使用多达50个，系统模型容量小，不仅仅可以提供云端服务接口，也可以实现在移动端的部署。

(4)本发明训练过程利用指数衰减来更新学习率，可以快速且有效的令网络达到最优点，同时采用不同的方式加载训练数据，增加数据样本，防止网络过拟合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于轻量级神经网络模型的文字检测方法，其特征在于，包括：

2.根据权利要求1所述的文字检测方法，其特征在于：根据空间信息对文本进行分类和边框标注，获得训练数据集；包括：

预设分类标签；

采用标注工具按所述分类标签对文本数据进行分类；

采用四边形对每一行文字进行边框标注。

3.根据权利要求1所述的文字检测方法，其特征在于：所述轻量级神经网络模型采用残差网络；

4.根据权利要求1所述的文字检测方法，其特征在于，所述通过所述训练数据集对所述神经网络模型进行训练；包括：

利用多个宽度固定的矩形框拼接得到文字的边框坐标信息；

5.根据权利要求4所述的文字检测方法，其特征在于，分别利用交叉熵损失及均方误差计算所述类别损失和回归损失；

在计算所述类别损失和所述回归损失时，加入l2正则化。

6.根据权利要求1所述的文字检测方法，其特征在于，所述通过所述训练数据集训练所述神经网络模型；还包括：

7.根据权利要求1所述的文字检测方法，其特征在于：所述通过训练后的所述神经网络模型预测待测文本，获得文字类别、文字边框及边框置信度；包括：

识别所述待测文本中各部分文字的类别；

采用不同颜色的竖状矩形框对不同类别的文字进行框选；

8.根据权利要求1所述的文字检测方法，其特征在于：所述针对所述边框置信度进行置信度筛选，针对所述文字边框进行非极大值抑制，得到清晰的文本行；具体包括：

9.根据权利要求1所述的文字检测方法，其特征在于，对所述文本行按所述文字类别进行聚类包括：

将类别相同且距离相近的边框聚为一行；

10.一种用于实现权利要求1～9任一项所述的文字检测方法的系统，其特征在于，包括：训练数据获取模块、模型训练模块、文本预测模块、后处理模块；

所述训练数据获取模块，用于：

所述模型训练模块，用于：

所述文本预测模块，用于：

所述后处理模块，用于：