CN110135408B

CN110135408B - 文本图像检测方法、网络以及设备

Info

Publication number: CN110135408B
Application number: CN201910233351.XA
Authority: CN
Inventors: 李健; 高大帅; 张连毅; 武卫工
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-02-19
Anticipated expiration: 2039-03-26
Also published as: CN110135408A

Abstract

本发明涉及图像处理技术领域，提供了一种文本图像检测方法、网络和设备，旨在解决现有文本图像检测方法难以精确定位每个条目位置的问题。所述文本图像检测方法包括：通过基础子网络对文本图像进行预处理，获得所述文本图像的特征图；通过推荐子网络在所述特征图上滑动铺设多种尺寸的先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密，并从多个先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，通过定位子网络，利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。所述文本图像检测方法可应用于行间距很稠密的文本图像检测，从行间距很稠密的文本图像中定位出更多的条目。

Description

文本图像检测方法、网络以及设备

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种文本图像检测方法、网络以及设备。

背景技术

文本图像检测的目的是从固定版面文本中提取出各条目的具体内容。其中，所述条目是指一条特定类型的信息，例如文本版面(以身份证为例)上的姓名、出生日期、性别等。在普遍的应用场景中，用户获取的是文本的拍照图像，文本图像检测正是需要从这样的拍照图像中，利用图像处理技术，提取出所述各条目的具体内容。

现有的检测方案是：先通过切边校正、目标检测等方法获取图像中证件或票据所在的位置，然后将证件或票据截取出来，并做图像大小归一化，最后利用模板信息来分别定位每个条目的位置。现有的检测方法检测精度低，难以精确定位出每个条目的位置。

发明内容

有鉴于此，本发明提供了一种文本图像检测方法、网络以及设备，旨在解决现有文本图像检测方法难以精确定位每个条目位置的问题。

第一方面，本发明实施例提供了一种文本图像检测方法，应用于文本图像检测网络，所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络，所述文本图像检测方法包括：

通过所述基础子网络，接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络；

通过所述推荐子网络，在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；

通过所述推荐子网络，从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；

通过所述定位子网络，利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。

第二方面，本发明实施例提供了一种文本图像检测网络，包括：基础子网络、推荐子网络以及定位子网络，所述基础子网络、推荐子网络以及定位子网络三者两两相连；

所述基础子网络用于接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络；

所述推荐子网络用于在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；

所述推荐子网络还用于从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；

所述定位子网络用于利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。

第三方面，本发明实施例提供了一种文本图像检测设备，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现本发明实施例中任一所述的文本图像检测方法。

与现有技术相比，本发明具有以下有益效果：

本发明中，通过基础子网络对文本图像进行预处理，获得特征图后，将所述特征图送入所述推荐子网络和所述定位子网络；通过推荐子网络在所述特征图上，滑动铺设多种尺寸的先验框时，使每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；通过所述推荐子网络从多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；通过所述定位子网络利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。

本发明结合文本图像的特点，在通过推荐子网络进行先验框滑动铺设时，对于平行于条目方向的铺设密度和垂直于条目方向的铺设密度区别对待，对于垂直于条目方向的先验框实现了稠密化铺设，使文本图像中行间距很小的各条目均能被至少一个先验框所框选，从而使更多条目能在经过后续的推荐框筛选、条目位置定位等处理过程后，被定位出来。综上，本发明所提供的文本图像检测方法，可应用于行间距很稠密的文本图像检测，能提高文本图像中各条目的定位率，从行间距很稠密的文本图像中定位出更多的条目。

附图说明

图1示出了实施例中提供的文本图像检测方法的流程示意图；

图2示出了实施例中提供的文本图像检测网络的结构示意图；

图3示出了实施例中所述的先验框组的结构示意图；

图4示出了实施例中所述的滑动铺设的示意图。

具体实施方式

下文描述了本发明的具体实施方式，该实施方式为示意性的，旨在揭示本发明的具体工作过程，不能理解为对权利要求的保护范围的进一步限定。

请参阅图1，实施例提供了一种文本图像检测方法，所述文本图像检测方法应用于文本图像检测网络。请参阅图2，所述文本图像检测网络包括基础子网络、推荐子网络和定位子网络，所述基础子网络、推荐子网络以及定位子网络三者两两相连。

图1示出的文本图像检测方法可用于对行间距很稠密的文本图像检测，能提高文本图像中各条目的定位率，使行间距很稠密的文本图像中更多的条目被准确定位出。为了更清楚地对图1所示文本图像检测方法、以及该方法的上述特点进行说明，实施例首先将对现有相关技术进行简单介绍。

相关技术中，借助机器学习对图像进行检测处理时，通常采用Faster R-CNN网络或Mask R-CNN网络进行开展上述图像检测处理。所述Faster R-CNN网络和Mask R-CNN网络的网络结构与图2所示的网络结构相似，所述Faster R-CNN网络和Mask R-CNN网络的网络结构均包括共享卷积层网络backbone、候选区域生成网络RPN以及对候选区域进行定位和分类的网络classifier，其中backbone、RPN以及classifier三者两两相连，backbone对应图2中的基础子网络，RPN对应图2中的推荐子网络，classifier对应图2中的定位子网络。

Faster R-CNN网络或Mask R-CNN网络在进行图像检测时，首先利用所述backbone对原始图像进行卷积和池化，生成特征图featuremap，并将所述特征图分别送入所述RPN和classifier；然后利用所述RPN在所述特征图上逐像素滑动铺设多种先验框anchor，再判断每个先验框anchor是前景还是背景(即判断先验框anchor是否覆盖目标)，为属于前景的anchor进行坐标修正，并将属于前景的anchor作为候选区域送入所述classifier；最后所述classifier对候选区域进行定位、分类，并输出结果。

而Faster R-CNN网络与Mask R-CNN网络两者之间的区别在于，Mask R-CNN网络是在Faster R-CNN网络的基础上优化而来的，Mask R-CNN网络利用RoI Align层替代FasterR-CNN网络中的RoI Pooling层，并在Faster R-CNN网络的classifier中增设了Maskbranch，使最终的输出结果可在像素层面对目标进行标记区分，明确了目标是前景还是背景，提高了检测精度。考虑到Faster R-CNN网络与Mask R-CNN网络均为现有技术，因此本发明对其仅做简单介绍。

另外，Faster R-CNN网络与Mask R-CNN网络没有特定的应用场景，通常可应用于对任何普通图像的目标检测，例如对风景、街景、人物、动物等照片的目标检测，可输出较精确地目标定位结果和目标分类结果。但是将其应用于文本图像检测时，特别是对于行间距很稠密的文本图像检测时，却难以适应文本中各条目的图像特征，导致对各条目的定位不准，影响后续的分类和文本识别。

图1示出的文本图像检测方法可以解决上述相关技术中存在的问题，可用于对行间距很稠密的文本图像检测，能提高文本图像中各条目的定位率，使行间距很稠密的文本图像中更多的条目被准确定位出。实施例将结合图1，对所述文本图像检测方法进行介绍。

步骤101，通过所述基础子网络，接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络。

作为示例，具体可选用具有特征提取功能的网络，作为所述基础子网络。例如，可选用resnet101网络或者resnet20作为所述基础子网络。本实施例中，优选用resnet20网络作为所述基础子网络，通过所述resnet20网络对所述文本图像进行卷积和池化，以获得所述文本图像的特征图。其中所述卷积和池化，即为步骤101中所述的预处理。resnet20网络在保证精度效果的同时，实时性更好，可以提高整个文本图像检测的实时性。应当理解的，对于所述基础子网络具体选用何种网络模型，本发明不做限定。

作为示例，所述文本图像可以是固定版面的文本图像，如身份证、驾驶证、护照、港澳通行证、营业执照、从业资格证等证件，也可以是银行卡、购物卡、公交卡等卡片，还可以是发票、车票、机票、电影票等票据。作为示例，所述文本图像中可包括证件、卡片或票据自身的图像，还可以包括其他物体的图像，例如还可以包括工作台上的茶杯、键盘、鼠标垫、盆栽等物体的图像。应当理解的，本发明对所述文本图像的具体类型不做限定。

作为示例，所述文本图像可以是经过预调整后的文本图像。例如，在文本图像输入所述基础子网络之前，可以对所述文本图像进行剪裁，使文本图像中证件、卡片或票据的图像居中，和/或，使证件、卡片或票据的图像在文本图像中占据较大面积。例如，在文本图像输入所述基础子网络之前，可以对所述文本图像进行旋转，使文本图像中各条目的方向旋转至平行于文本图像边界；并优选地使各条目方向调整为水平状态后，再将文本图像送入基础子网络，以便于下文所述的推荐子网络对平行于条目方向和垂直于条目方向进行有区别地平铺。

举例说明：例如处理器获取到一张原始文本照片，所述原始文本照片中包含有身份证图像，还包含有工作台上放置的茶杯、键盘、鼠标垫、盆栽等物体的图像，而所述身份证的图像不居于原始文本照片的正中，且身份证的图像面积占整个原始文本照片面积的比例较小，且身份证的图像中各条目(如姓名、性别、出生日期等)方向不与身份证的长边平行。此时，可以对所述原始文本照片进行剪裁、旋转等预调整，使茶杯、键盘、鼠标垫、盆栽等物体的图像被裁掉，使身份证的图像居中，使身份证图像的面积占整个原始文本照片面积的比例较大，使身份证的图像中各条目方向与身份证的长边平行。最后将预调整后的照片横向地送入所述基础子网络。应当理解的，在原始文本照片中身份证图像本身居中状态、大小状态和角度状态良好的情况下，可以进行所述预调整。应当理解的，是否对原始文本照片进行预调整，不应解释为对本发明保护范围的限定。

作为示例，所述基础子网络对文本图像的预处理，可以包括卷积处理和池化处理。其中，基础子网络对文本图像的具体卷积处理步骤和池化处理步骤，根据基础子网络具体选用何种网络模型而确定。例如，所述基础子网络可选用resnet20网络。resnet20网络对分辨率为2560×1920的文本图像进行一系列卷积、池化等预处理后，获得分辨率为80×60的特征图；特征图中的每个像素与文本图像中每个像素之间的比例尺为32:1，即特征图中的一个像素，对应文本图像中的1024个像素。

步骤102，通过所述推荐子网络，在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度。

作为示例，所述推荐子网络可以是，在Faster R-CNN网络或Mask R-CNN网络中的候选区域生成网络RPN的基础上进行改进后，形成的新网络。具体的，对所述候选区域生成网络RPN进行改进，将改进后网络作为所述推荐子网络；本申请提出对候选区域生成网络RPN在特征图上滑动铺设先验框anchor的铺设方式进行改进。

作为示例，所述先验框的尺寸种类可具体包括任意多种，如5种、9种、15种、20种等等，其中优选为包括12至18种尺寸的先验框。选用12至18种尺寸的先验框应用于文本图像检测时，更适应文本图像中各条目长宽比变化较大的特点；且选用12至18种先验框时，先验框与原始label的iou较大，iou越大越容易收敛，对条目的定位准确度越高。本发明中，先验框尺寸种类可选定为15种，聚类15种先验框与原始label的iou约0.7，满足定位准确度要求，且计算量不大，满足实时性要求。

作为示例，每种先验框的具体尺寸可预先人为设定；也可预先通过聚类算法求得，然后再将求得的尺寸数据输入图2所示的文本图像检测网络。本发明中，为了得到适应于文本图像检测的先验框，以提高条目定位精度，可以利用k-means算法模型计算每种先验框的尺寸。具体的，设多种尺寸的先验框的种类是k种；k种先验框的尺寸是通过以下方法确定的：将包含条目的文本图像样本输入k-means算法模型中，并将k-means算法模型的质心数设定为k个，使k-means算法模型输出k种尺寸的先验框；其中，k为介于12～18的整数。

作为示例，考虑到利用k-means算法模型计算每种先验框的尺寸时，存在先验框尺寸越大、误差越大的缺点，本发明为了克服上述缺点，得到更适应于文本图像检测的先验框，以进一步提高条目定位精度，可以利用IOU算法模型计算每种先验框的尺寸，所述IOU算法模型是利用1-iou替代所述k-means算法模型中的距离d的模型。具体的，设多种尺寸的先验框的种类是k种；k种先验框的尺寸是通过以下方法确定的：将包含条目的文本图像样本输入IOU算法模型中，并将IOU算法模型的质心数设定为k个，使IOU算法模型输出k种尺寸的先验框；其中k为介于12～18的整数。

举例说明：本发明选用IOU算法模型求取每种先验框的尺寸，本发明将先验框的尺寸种类设定为14类。求取时，将包含条目的文本图像样本输入IOU算法模型中，并将IOU算法模型的质心数设定为14。经过IOU算法模型的聚类计算后，输出14种长宽比的验框，这14种先验框的长宽比如下：35:21、65:20、82:40、87:159、101:288、104:25、130:35、158:27、179:44、207:32、243:37、265:22、283:37、323:47等。观察上述各类先验框，可见先验框的长宽比较大，上述各类先验框多为长条形，而文本图像中各条目也通常为长条形，因此上述各类先验框更适应于文本图像中条目的定位，利于提高条目定位准确度。

作为示例，所述推荐子网络在特征图上滑动铺设先验框时，可以逐种先验框铺设，即首先滑动铺设完第一种先验框后，再铺设第二种先验框，以此类推。此种方式下，例如有15种尺寸的先验框，则需要对特征图滑动遍历15次。作为示例，所述推荐子网络也可以将多种先验框成组、同时铺设各种先验框。例如有15种尺寸的先验框，将这15种先验框集合成一个先验框组，所述先验框组中每个先验框的中心重合，且每个先验框的长边相互平行，短边也相互平行，如图3所示。此种方式下，仅需对特征图滑动遍历1次即可，可以很大程度地提高铺设效率，减小处理时间。应当理解的，在进行先验框滑动铺设时，最好按照先验框的长边与条目方向平行的方式，将先验框铺设在特征图上，使先验框可以完整套取到条目在特征图上所对应的特征。

作为示例，所述推荐子网络在特征图上滑动铺设先验框时，可以按照平行于条目方向逐行地滑动铺设，也可以按照垂直于条目方向逐列地滑动铺设。本发明对此不做限定。

作为示例，请参阅图4所示，图4中，每个小方格代表特征图的一个像素，特征图的一个像素，对应文本图像中的1024个像素。通过所述推荐子网络在滑动铺设多种尺寸的先验框时，对于平行于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为m；对于垂直于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为n；其中，m:n介于4～1.5:1之间，所述两相邻先验框为先验框的中心与中心之间相邻的两先验框。其中m:n优选为2:1。例如m为2个像素，n为0.5个像素；又例如m为1.5个像素，n为1个像素。

应当理解的，m:n介于4～1.5:1，则平行于条目方向的铺设稠密度与垂直于条目方向的铺设稠密度之比为1:1.5～4。本发明中，通过铺设稠密度之比选定为1:1.5～4，更适应于行间距很小的文本图像中各条目之间的位置关系，具体的，各条目的横向间距与垂直间距之间的相对关系。举例说明：身份证图像中，性别条目和民族条目两者间的横向间距较大，而性别条目与出生日期条目两者间的垂直间距较小。本发明通过将铺设稠密度之比选定为1:1.5～4，更适应于文本图像的上述举例特征。

作为示例，n的数值优选为小于1，即对于垂直于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距小于1个像素。例如对于垂直于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为0.5个像素。此时，在特征图上间距为0.5个像素，在文本图像中对应的间距为0.5×32个像素，即在文本图像上对应的间距为16个像素。又例如，特征图上的间距为0.25个像素时，文本图像上对应的间距为8个像素。

步骤103，通过所述推荐子网络，从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络。

作为示例，所述推荐子网络可以是，在Faster R-CNN网络或Mask R-CNN网络中的候选区域生成网络RPN的基础上进行改进后，形成的新网络。具体的，对所述候选区域生成网络RPN进行改进，将改进后网络作为所述推荐子网络；其中，改进内容为对候选区域生成网络RPN在特征图上滑动铺设先验框anchor的铺设方式进行改进。所述推荐子网络保留了所述候选区域生成网络RPN的筛选功能，可以从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为所述推荐框。

其中，所述候选区域生成网络RPN的筛选功能的具体步骤为：1)首先对滑动铺设出的多个先验框anchor进行第一次边框修正，得到预推荐框；2)然后对预推荐框的边进行修剪clip，使得预推荐框不超过特征图中图像的范围；3)将所有预推荐框按照前景分数从高到低排序，选取前若干个预推荐框；4)再使用阈值为0.7的NMS算法排除掉重叠的预推荐框；5)针对上一步剩下的预推荐框，选取前若干个进行分类和第二次边框修正，作为筛选结果，即所述推荐框。考虑到上述候选区域生成网络RPN的筛选功能的具体步骤为现有技术，因此本发明对此不做详细介绍。

举例说明：对于包含有身份证图像的文本图像，例如其分别率为2560×1920，即宽2560像素、高1920像素，通过基础子网络resnet20对所述文本图像的一系列卷积、池化等预处理后，获得分辨率为80×60的特征图。例如先验框的尺寸种类共有15种，滑动铺设先验框时，平行于条目方向的先验框间距为1个像素，垂直于条目方向的先验框间距为0.5个像素，则15种先验框在整个特征图上铺设完成后，将得到15×80×60×2个先验框，共14400个先验框。推荐子网络从这14400个先验框中筛选出6个推荐框，这6个推荐框分别对应身份证上的姓名条目、性别条目、民族条目、出生日期条目、住址条目以及公民身份号码条目等。

步骤104，通过所述定位子网络，利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。

作为示例，所述定位子网络可选用Faster R-CNN网络的classifier网络。所述classifier网络包括Category branch和Coordinates branch，最终可在结果图中输出框选目标的目标框(对应所述推荐框)，还可在结果图中输出每个目标的类别。作为示例，所述定位子网络也可以选用Mask R-CNN的classifier网络。所述classifier网络除了包括Category branch和Coordinates branch外，还包括Mask branch，最终可在结果图中输出框选目标的目标框、每个目标的类别、以及在像素层面对目标进行标记区分，明确了目标是前景还是背景。

本发明中，优选用Mask R-CNN的classifier网络，作为所述定位子网络，此种选用方式利于提高条目定位精度。应当理解的，由于文本图像中各条目的形状通常为长条形，且各条目之间通常不存在相互重叠覆盖的情况，因此本发明选用Faster R-CNN网络的classifier网络作为所述定位子网络，所述定位子网络仅具有输出目标框和类别这两种功能，也能达到发明效果。

考虑到所述Faster R-CNN网络的classifier网络和Mask R-CNN的classifier网络均为现有技术，因此本发明不再对推荐子网络具体如何利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置，进行更详细介绍。

上述包含步骤101至步骤104的文本图像检测方法中，通过基础子网络对文本图像进行预处理，获得特征图后，将所述特征图送入所述推荐子网络和所述定位子网络；通过推荐子网络在所述特征图上，滑动铺设多种尺寸的先验框时，使每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；通过所述推荐子网络从多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络；通过所述定位子网络利用所述推荐框和所述特征图，定位所述文本图像中的条目的位置。

上述方法结合文本图像的特点，在通过推荐子网络进行先验框滑动铺设时，对于平行于条目方向的铺设密度和垂直于条目方向的铺设密度区别对待，对于垂直于条目方向的先验框实现了稠密化铺设，使文本图像中行间距很小的各条目均能被至少一个先验框所框选，从而使更多条目能在经过后续的推荐框筛选、条目位置定位等处理过程后，被定位出来。综上，本发明所提供的文本图像检测方法，可应用于行间距很稠密的文本图像检测，能提高文本图像中各条目的定位率，使行间距很稠密的文本图像中更多的条目被准确定位出。

此外，所述文本图像检测方法还可以包括步骤：通过所述定位子网络，对定位出位置的条目进行分类，获得条目类型。

如前所述，作为示例，所述定位子网络可选用Faster R-CNN网络的classifier网络，也可选用Mask R-CNN的classifier网络。上述两种可选网络均可通过Category branch实现分类功能，从而实现对定位出位置的条目进行分类。

此外，所述文本图像检测方法还可以包括步骤：对定位出位置的条目进行文字识别，获得识别内容；根据所述条目的条目类型和识别内容，生成结构化的条目数据。

一方面，由于本发明首先通过图1所示方法准确定位出各条目位置，然后对各条目进行分类后，可以通过添加一些先验信息来提高文字识别的识别率。例如，对于身份证图像上的出生日期条目，可以将字符集限定在10个数字及小数点范围内。

另一方面，通过将所述条目类型和识别内容整理生成结构化的条目数据，便于更直观和更完整地向用户展示识别成果，也利于识别成果的后续持久化分类存储。例如，所述结构化的条目数据，具体可以是Key:Value结构的条目数据。其中Key指条目类型，如“出生日期”；Value指条目内容，如“1990年5月1日”；最终的结构化的条目数据为“出生日期：1990年5月1日”。

作为示例，对条目进行文字识别的识别方法可选用现有任意一种文字识别方法。例如，Ian Goodfellow在2013年提出的multi-digit number classification算法，又例如2006年开始被应用的RNN/LSTM/GRU+CTC算法等。应当理解的，本发明对具体选用何种文字识别方法不做限定，本发明甚至可选用其他文字识别方法，用于对定位出位置的条目进行文字识别，获得识别内容。

本发明中，所述文本图像检测网络可以是以已标注条目位置和条目类型的文本图像为输入，对预设网络进行训练而得到的网络。

作为示例，可以选用开源工具labelme对身份证、银行卡、卷宗、营业执照、行驶证等固定版面文本图像进行条目位置和条目类型标注后，将标注后的文本图像数据输出预设网络进行训练，获得所述文本图像检测网络。

作为示例，所述预设网络可包括：基础子网络、推荐子网络以及定位子网络，所述基础子网络、推荐子网络以及定位子网络三者两两相连。所述基础子网络可具体选用Faster R-CNN网络或Mask R-CNN网络的共享卷积层网络backbone。所述推荐子网络可选用Faster R-CNN网络或Mask R-CNN网络的候选区域生成网络RPN，并对RPN进行改进，本申请提出对RPN在特征图上滑动铺设先验框anchor的铺设方式进行改进，使先验框anchor在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度。所述定位子网络可选用FasterR-CNN网络或Mask R-CNN网络的classifier网络。

请参阅图2所示，实施例还提供了一种文本图像检测网络，所述文本图像检测网络包括：基础子网络、推荐子网络以及定位子网络，所述基础子网络、推荐子网络以及定位子网络三者两两相连。

其中，所述基础子网络用于接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，并将所述特征图送入所述推荐子网络和所述定位子网络。

所述推荐子网络用于在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度。

所述推荐子网络还用于从所述特征图上的多个所述先验框中，筛选出能反映条目大致所在区域的先验框，作为推荐框，并将所述推荐框送入所述定位子网络。

可选的，所述推荐子网络可具体用于在滑动铺设多种尺寸的先验框时，对于平行于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为m；对于垂直于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为n；其中，m:n介于4～1.5:1之间，所述两相邻先验框为先验框的中心与中心之间相邻的两先验框。

可选的，所述基础子网络可具体用于对所述文本图像进行卷积和池化，以获得所述文本图像的特征图。

可选的，所述定位子网络还可用于对定位出位置的条目进行分类，获得条目类型。

实施例还提供了一种文本图像检测设备，所述文本图像检测模块包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现实施例中任一所述文本图像检测方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文本图像检测方法，其特征在于，应用于文本图像检测网络，所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络，所述文本图像检测方法包括：

通过所述推荐子网络，在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；所述多种尺寸的先验框重叠铺设；

2.根据权利要求1所述的文本图像检测方法，其特征在于，通过所述推荐子网络在滑动铺设多种尺寸的先验框时，对于平行于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为m；

对于垂直于条目方向的两相邻先验框，所述两相邻先验框的中心之间的间距为n；

其中，m：n介于4～1.5：1之间，所述两相邻先验框为先验框的中心与中心之间相邻的两先验框。

3.根据权利要求1所述的文本图像检测方法，其特征在于，所述多种尺寸的先验框的种类是k种；k种先验框的尺寸是通过以下方法确定的：

将包含条目的文本图像样本输入k－means算法模型中，并将k－means算法模型的质心数设定为k个，使k－means算法模型输出k种尺寸的先验框；其中，k为介于12～18的整数。

4.根据权利要求1所述的文本图像检测方法，其特征在于，所述多种尺寸的先验框的种类是k种；k种先验框的尺寸是通过以下方法确定的：

将包含条目的文本图像样本输入IOU算法模型中，并将IOU算法模型的质心数设定为k个，使IOU算法模型输出k种尺寸的先验框；其中k为介于12～18的整数，所述IOU算法模型是利用1－iou替代k－means算法模型中的距离d的模型。

5.根据权利要求1所述的文本图像检测方法，其特征在于，通过所述基础子网络接收文本图像，对所述文本图像进行预处理，获得所述文本图像的特征图，包括：

以resnet20网络作为所述基础子网络，通过所述resnet20网络对所述文本图像进行卷积和池化，以获得所述文本图像的特征图。

6.根据权利要求1所述的文本图像检测方法，其特征在于，还包括：

通过所述定位子网络，对定位出位置的条目进行分类，获得条目类型。

7.根据权利要求6所述的文本图像检测方法，其特征在于，还包括：

对定位出位置的条目进行文字识别，获得识别内容；

根据所述条目的条目类型和识别内容，生成结构化的条目数据。

8.根据权利要求1至7任一所述的文本图像检测方法，其特征在于，所述文本图像检测网络是以已标注条目位置和条目类型的文本图像为输入，对预设网络进行训练而得到的网络。

9.一种文本图像检测网络，其特征在于，包括：基础子网络、推荐子网络以及定位子网络，所述基础子网络、推荐子网络以及定位子网络三者两两相连；

所述推荐子网络用于在所述特征图上，滑动铺设多种尺寸的先验框，使所述特征图上被铺设出多个先验框，每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度；所述多种尺寸的先验框重叠铺设；

10.一种文本图像检测设备，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现权利要求1至8任一所述的文本图像检测方法。