CN112966678A

CN112966678A - 一种文本检测方法及系统

Info

Publication number: CN112966678A
Application number: CN202110262754.4A
Authority: CN
Inventors: 江少锋; 杨素华; 陈震; 张聪炫
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-15
Anticipated expiration: 2041-03-11
Also published as: CN112966678B

Abstract

本发明公开了一种文本检测方法及系统。该文本检测方法包括包括：训练阶段和检测阶段；训练阶段的步骤包括：获取待训练图像；对待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待训练标签数据；将待训练标签数据输入文本检测模型中进行训练，得到经训练文本检测模型；检测阶段的步骤包括：获取待测文本图像；将待测文本图像输入经训练文本检测模型中生成包含检测结果的文本检测框。本发明的文本检测方法及系统能包含完整的文本信息，克服对长文本检测效果不佳的缺陷，同时能够有效去除非文本信息。

Description

一种文本检测方法及系统

技术领域

本发明涉及OCR(Optical CharacterRecognition，光学字符识别)领域，特别是涉及一种文本检测方法及系统。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术主要包括文本检测与文本识别两个部分，精准的文本检测是文本识别的前提。现有的OCR 技术在检测简单文档时表现良好。但是，在检测包含大量非文本信息(图标，表格，签名，印章，噪声等)的复杂文档时，大多数OCR系统经常将这些非文本信息误认为文本，从而导致检测效果不佳。

目前文本检测方法主要分为两大类：传统算法的文本检测方法和深度学习的文本检测方法。深度学习的文本检测方法主要利用Anchor策略和分割策略进行文本检测，由于利用了高层的语义信息，对文本和非文本区域有较高的辨识能力。利用大量的数据进行训练，能够获得更加复杂，泛化能力更好的模型，在文本检测任务中取得了突破性的进展。但是还存在一些不足，利用Anchor 策略的检测方法例如CTPN，Seglink等方法，由于文本图像中大量存在长宽比例过大的长文本信息，直接利用Anchor策略将会导致检测框难以完整检测到文本信息。

发明内容

基于此，有必要提供一种文本检测方法及系统能够包含完整的文本信息，克服对长文本检测效果不佳的缺陷，同时能够有效去除非文本信息。

为实现上述目的，本发明提供了如下方案：

一种文本检测方法，包括：训练阶段和检测阶段；

所述训练阶段的步骤包括：

获取待训练图像；

对所述待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待训练标签数据；

将所述待训练标签数据输入文本检测模型中进行训练，得到经训练文本检测模型；

所述检测阶段的步骤包括：

获取待测文本图像；

将所述待测文本图像输入所述经训练文本检测模型中生成包含检测结果的文本检测框。

可选的，所述文本检测模型为改进型yolov5模型；

所述改进型yolov5模型为在yolov5网络模型的第7个CBL组件后增加一个上采样组件，将第7个CBL组件获取到的大小为76*76的特征图经上采样组件后扩大为152*152大小，并与网络第2层输出相融合，获取到大小为 152*152的检测层所形成的模型。

可选的，在所述将所述待测文本图像输入所述经训练文本检测模型中生成包含检测结果的文本检测框之后，还包括：

对相邻的文本检测框进行连接组合并对独立的文本检测框进行复查。

可选的，所述对相邻的文本检测框进行连接组合并对独立的文本检测框进行复查，具体包括：

将相距小于预设阈值的文本检测框进行区域连接形成大区域文本检测框；

判断各独立的文本检测框的中心是否位于任意一个所述大区域文本检测框的内部，得到第一判断结果；

若所述第一判断结果表示独立的文本检测框的中心位于其中一个所述大区域文本检测框的内部，则将该独立的文本检测框合并到所处的大区域文本检测框中；

若所述第一判断结果表示独立的文本检测框的中心位于所有的大区域文本检测框的外部，则保留所述独立的文本检测框。

可选的，在所述获取待训练图像之后，在所述对所述待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待待训练标签数据之前，还包括：

对所述待训练图像进行二值化处理

一种文本检测系统，包括：

训练模块和检测模块；

所述训练模块包括：

待训练图像获取单元，用于获取待训练图像；

垂直投影单元，用于对所述待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待训练标签数据；

模型训练单元，用于将所述待训练标签数据输入文本检测模型中进行训练，得到经训练文本检测模型；

所述检测模块包括：

待测文本图像获取单元，用于获取待测文本图像；

文本检测单元，用于将所述待测文本图像输入所述经训练文本检测模型中生成包含检测结果的文本检测框。

可选的，所述文本检测模型为改进型yolov5模型；

可选的，该文本检测系统还包括：连接与复查模块，所述连接与复查模块与所述检测模块连接；

所述连接与复查模块用于对相邻的文本检测框进行连接组合并对独立的文本检测框进行复查。

可选的，所述连接与复查模块包括：

相邻连接单元，用于将相距小于预设阈值的文本检测框进行区域连接形成大区域文本检测框；

判断处理单元，用于判断各独立的文本检测框的中心是否位于任意一个所述大区域文本检测框的内部，得到第一判断结果；若所述第一判断结果表示独立的文本检测框的中心位于其中一个所述大区域文本检测框的内部，则将该独立的文本检测框合并到所处的大区域文本检测框中；若所述第一判断结果表示独立的文本检测框的中心位于所有的大区域文本检测框的外部，则保留所述独立的文本检测框。

可选的，所述训练模块还包括：二值化处理单元，所述二值化处理单元连接在所述待训练图像获取单元与所述垂直投影单元之间；

所述二值化处理单元用于对所述待训练图像进行二值化处理。

与现有技术相比，本发明的有益效果是：

本发明提出的一种文本检测方法及系统，通过垂直投影以及垂直投影中的空白间隙进行文字切割，从而可以获得精确包含文本信息的细碎小框的训练数据标签，能够有效去除非文本信息同时保留文字特征的完整性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的文本检测方法的方法流程图；

图2为现有的CTPN方法获取的标签数据与本发明获取的精致标签数据对比图；其中，图2(a)为原始的长标签示意图，图2(b)为CTPN中固定长度切割生成的标签示意图，图2(c)为本发明的方法生成的精制标签数据示意图；

图3为本发明所使用的改进型yolov5模型的网络结构图；

图4为采用矩形框对独立小目标进行复查的示意图；

图5为本发明的检测结果效果图；

图6为本发明的检测方法与现有的检测方法的检测效果对比图；其中，图 6(a)为CTPN文本检测模型的检测效果图，图6(b)为EAST文本检测模型的检测效果图，图6(c)为Paddleocr文本检测模型的检测效果图，图6(d) 为本发明的文本检测方法的检测效果图；

图7为本发明实施例2的文本检测系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

实施例1提供一种文本检测方法。本发明在长文本标签的基础上，通过优化投影方法，对含长文本标签的图像进行垂直投影切割，获取精制的小标签数据，用以深度学习模型的训练。通过本发明方法，可以精确的获得包含完整文字信息的标签数据，同时可以避免带入大量的非文本信息。本发明在Yolov5 通用目标检测模型三个检测层的基础上，增加一层专用于小目标检测的检测层，用以提高模型对小目标文本的检测能力。检测模型初始的输出是一系列小的检测框，我们通过文本连接对相邻的文本进行连接处理，获得完整的文本检测框；并且在文本连接算法的基础上，为了避免小目标文本的漏检，本发明还增加了小目标文本漏检复查的操作，进一步提高文本检测的能力。在实际的检测对比中，本发明的方法在复杂文本检测任务中，获得了很好的检测效果。

图1为本发明实施例1的文本检测方法的方法流程图。参见图1，该方法包括：训练阶段、检测阶段和复查阶段。

训练阶段包括以下步骤：

步骤101：获取待训练图像。

步骤102：对待训练图像进行二值化处理。

二值化处理的方式为：

当f(i,j)＝1时像素点(i,j)点为黑点，当f(i,j)＝0时像素点(i,j)点为白点。 i和j分别为像素点(i,j)的横纵坐标。

步骤103：对二值化处理后的待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待训练标签数据。

垂直投影值的计算公式为：

垂直投影方式为对二值化图像从左往右逐列进行扫描，同时计算每个扫描列的像素，以获取图像的垂直投影。垂直投影后可根据垂直投影值确定文字位置；利用文字间空白间隔造成的垂直投影空白间隙，使各个文字分割开来，获得单字小碎框待训练标签数据。

步骤104：对待训练标签数据按照每n个一组的方式进行组合。

由于单字小碎框待训练标签数据量太大，同时单字小碎框待训练标签数据不利于直接深度学习模型进行训练和检测，因此本发明将n个单字数据进行组合(优选的，n＝3)，以减小数据量，获得可喂给深度学习模型训练和检测的精制标签数据。该步骤104可选择性的加入在步骤103和步骤105之间。

步骤103和步骤104的目的在于利用垂直投影和数据组合得到精致标签数据。图2为现有的CTPN方法获取的标签数据与本发明获取的精致标签数据对比图。如图2所示，在获取到文本图像后，我们先对文本图像进行手工标注，生成图2(a)中的长文本标签。在此基础上CTPN中使用固定长度对长文本标签进行切割处理，得到的效果如图2(b)所示，从图中我们可以看出，使用该 CTPN方法生成的标签会将文字信息切碎，同时带入大量的非文本信息。针对固定长度切割文本标签会带来切碎文本信息和容易带入大量非文本信息的缺点，本发明通过优化投影法，对原始的长标签进行切割和组合；在原始长标签 (图2(a))的基础上，首先通过投影法进行切割，将每个字切割出来；再将每三个字进行组合，生成包含有完整且精确的新标签如图2(c)所示。

步骤105：将组合后的待训练标签数据输入文本检测模型中进行训练，得到经训练文本检测模型。

文本检测模型为改进型yolov5模型；图3为本发明所使用的改进型yolov5 模型的网络结构图。

参见图3，改进型yolov5模型为在yolov5网络模型的第7个CBL组件即网络第18层后，增加一次上采样组件，将第7个CBL组件获取到的大小为 76*76的特征图经上采样组件后扩大为152*152大小，并与网络第2层输出即 CSP1_1输出相融合，获取到大小为152*152的检测层所形成的模型。该检测层用于针对复杂文本检测任务中大量出现的超小目标，用来增强对标点符号等超小目标的检测。在608X608尺寸的输入图像中，原始的yolov5模型只包含三个检测层，尺寸大小分别为76*76、38*38、19*19，通过原始的三个检测层，在检测图像中，原始的三个检测层只能检测到8像素以上的目标(608/76＝8)，但是在文本检测过程中，大量出现的标点符号等目标尺寸往往小于8像素大小。为此，我们在网络第一次特征融合(concat)并通过CSP2_1后，基于该特征层增加了一个大小为152*152大小的检测层，用以检测超小目标。

检测阶段包括以下步骤：

步骤106：获取待测文本图像。

步骤107：将待测文本图像输入经训练文本检测模型中生成包含检测结果的文本检测框。

步骤107的输出为一系列小的检测框。如图5中，第1-15个小碎框为步骤107输出的检测框。

复查阶段包括以下步骤：

步骤108：对相邻的文本检测框进行连接组合并对独立的文本检测框进行复查。

该步骤108具体包括：

将相距小于预设阈值的文本检测框进行区域连接形成大区域文本检测框。所采用方式可以为：利用邻域位置，通过构建文本行完成对文本的连接，首先按照x坐标(通常为文字的书写方向)对细碎小框检测结果Bi进行排序；再根据距离的预设阈值依次计算每个B_i的邻域pair(B_j),组成pair(B_i,B_j)；最后通过pair(B_i,B_j)建立连接图获取大区域文本检测框，形成初步检测结果。对于文字较为集中的区域，通过上述方法即可将文字区域连接成最后的检测框。但是对于独立且远离文字密集区域的小目标文本会产生漏检，为此本发明增加对独立小目标的复查操作，方式如下：

判断各独立的文本检测框的中心是否位于任意一个大区域文本检测框的内部，得到第一判断结果；判断公式为：

式中A,B,C,D为第一个矩形框(大区域文本检测框)的四个顶点，E为第二个矩形框(独立的文本检测框)的中心点，X为叉乘计算；为了判断点E 是否在矩形ABCD中，我们先判断一个点是否在两条线段之间，利用叉乘的方向性，来判断夹角是否超过了180度。如图4所示，通过式3中第一个式子(AB×AE)*(CD×CE)≥0即可判断E点夹在AB，CD之间；同理当满足式3 中第二个式子(DA×DE)*(BC×BE)≥0时，即可判断E点夹在DA,BC之间。当满足式3中的两个条件时，即可判断E点位于矩形框ABCD之中。

若第一判断结果表示独立的文本检测框的中心位于其中一个大区域文本检测框的内部，则将该独立的文本检测框合并到所处的大区域文本检测框中；

若第一判断结果表示独立的文本检测框的中心位于所有的大区域文本检测框的外部，则保留独立的文本检测框。

依次循环到不再产生合并，生成最后的检测结果。

图5为本发明的检测结果效果图。参见图5，内部的小框代表检测模型的原始输出，是一些小碎框。首先通过邻域合并的方法将文本集中区域进行合并，形成长文本检测结果；在图中表现为将1-13号相邻的小框合并为第一个大框。再进行独立小目标复查操作，即通过判断第14号框的中心点坐标与第一个大框的相对位置，在图中可以看到第14号框的中心点坐标不在第一个大框中，将其保留到下一轮计算；再用同样的方法判断第15号框与第一个大框和第14 号框的相对位置，得出第14，第15号框与第一个大框位置都是相对独立的；由此判断这三个框都是相对独立的，最终检测结果为第一个大框与第14和第 15号框这三个检测框。

为检验本发明所能够达到的技术效果，对本发明的检测方法进行了测试。

在FUNSD dataset数据集和自建中文复杂文档数据集上进行了测试，评估了本发明的方法的性能。如表1和表2所示，本发明在准确率(P)上表现出良好的性能结果，在召回率(R)上表现出的结果也更加优秀，在准确率与召回率之间平衡的检测指标F1上也表现的更加优秀。

表1 FUNSD dataset数据集测试结果表

表2自建中文复杂文档数据集测试结果表

图6为本发明的检测方法与现有的检测方法的检测效果对比图。

由图6可知，本发明对于小目标具有较好的检测效果，且文本检测准确度更高。

实施例2：

实施例2公开了一种文本检测系统。

图7为本发明实施例2的文本检测系统的结构图。参加图7，该系统包括：

训练模块1、检测模块2和连接与复查模块3。

训练模块1包括：

待训练图像获取单元201，用于获取待训练图像；

二值化处理单元202，二值化处理单元202连接在待训练图像获取单元201 与垂直投影单元203之间；二值化处理单元202用于对待训练图像进行二值化处理；

垂直投影单元203，用于对二值化处理后的待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待训练标签数据；

组合单元204，用于对待测标签数据按照每n个一组的方式进行组合；

组合单元204可选择性的插入在垂直投影单元203与模型训练单元205之间。

模型训练单元205，用于将组合后的待训练标签数据输入文本检测模型中进行训练，得到经训练文本检测模型。

检测模块2包括：

待测文本图像获取单元206，用于获取待检测文本图像；

文本检测单元207，用于将待测文本图像输入经训练文本检测模型中生成包含检测结果的文本检测框。

连接与复查模块3与检测模块2连接，连接与复查模块3用于对相邻的文本检测框进行连接组合并对独立的文本检测框进行复查。

可选的，文本检测模型为改进型yolov5模型；改进型yolov5模型为在原始yolov5网络模型结构上，在第7个CBL组合即网络第18层后，增加一次上采样组件，将第7个CBL组件获取到的大小为76*76的特征图经上采样组件后扩大为152*152大小，并与网络第2层输出即CSP1_1输出相融合，获取到大小为152*152的检测层所形成的模型。

可选的，连接与复查模块3包括：

相邻连接单元208，用于将相距小于预设阈值的文本检测框进行区域连接形成大区域文本检测框；

判断处理单元209，用于判断各独立的文本检测框的中心是否位于任意一个大区域文本检测框的内部，得到第一判断结果；若第一判断结果表示独立的文本检测框的中心位于其中一个大区域文本检测框的内部，则将该独立的文本检测框合并到所处的大区域文本检测框中；若第一判断结果表示独立的文本检测框的中心位于所有的大区域文本检测框的外部，则保留独立的文本检测框。

本发明所能达到的技术效果为：本发明提出的一种文本检测方法及系统，通过垂直投影以及垂直投影中的空白间隙进行文字切割，从而可以获得精确包含文本信息的细碎小框的训练数据标签，能够有效去除非文本信息同时保留文字特征的完整性；利用文本连接算法将输出的细碎小框进行连接，能够有效实现长文本检测；利用复查操作，能够有效实现对远离密集文本区域的小目标文本检测。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本检测方法，其特征在于，包括：训练阶段和检测阶段；

所述训练阶段的步骤包括：

获取待训练图像；

所述检测阶段的步骤包括：

获取待测文本图像；

2.根据权利要求1所述的文本检测方法，其特征在于，所述文本检测模型为改进型yolov5模型；

所述改进型yolov5模型为在yolov5网络模型的第7个CBL组件后增加一个上采样组件，将第7个CBL组件获取到的大小为76*76的特征图经上采样组件后扩大为152*152大小，并与网络第2层输出相融合，获取到大小为152*152的检测层所形成的模型。

3.根据权利要求1所述的文本检测方法，其特征在于，在所述将所述待测文本图像输入所述经训练文本检测模型中生成包含检测结果的文本检测框之后，还包括：

4.根据权利要求3所述的文本检测方法，其特征在于，所述对相邻的文本检测框进行连接组合并对独立的文本检测框进行复查，具体包括：

若所述第一判断结果表示独立的文本检测框的中心位于其中一个所述大区域文本检测框的内部，则将所述独立的文本检测框合并到所处的大区域文本检测框中；

5.根据权利要求1所述的文本检测方法，其特征在于，在所述获取待训练图像之后，在所述对所述待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待待训练标签数据之前，还包括：

对所述待训练图像进行二值化处理。

6.一种文本检测系统，其特征在于，包括：

训练模块和检测模块；

所述训练模块包括：

待训练图像获取单元，用于获取待训练图像；

所述检测模块包括：

待测文本图像获取单元，用于获取待测文本图像；

7.根据权利要求6所述的文本检测系统，其特征在于，所述文本检测模型为改进型yolov5模型；

8.根据权利要求6所述的文本检测系统，其特征在于，还包括：连接与复查模块，所述连接与复查模块与所述检测模块连接；

9.根据权利要求8所述的文本检测系统，其特征在于，所述连接与复查模块包括：

判断处理单元，用于判断各独立的文本检测框的中心是否位于任意一个所述大区域文本检测框的内部，得到第一判断结果；若所述第一判断结果表示独立的文本检测框的中心位于其中一个所述大区域文本检测框的内部，则将所述独立的文本检测框合并到所处的大区域文本检测框中；若所述第一判断结果表示独立的文本检测框的中心位于所有的大区域文本检测框的外部，则保留所述独立的文本检测框。

10.根据权利要求5所述的文本检测系统，其特征在于，所述训练模块还包括：二值化处理单元，所述二值化处理单元连接在所述待训练图像获取单元与所述垂直投影单元之间；