CN110766020A

CN110766020A - 一种面向多语种自然场景文本检测与识别的系统及方法

Info

Publication number: CN110766020A
Application number: CN201911047956.6A
Authority: CN
Inventors: 苏统华; 杨超杰; 王忠杰; 涂志莹; 徐晓飞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-07

Abstract

本发明公开了一种面向多语种自然场景文本检测与识别的系统及方法，所述系统包括文本检测模块、字符识别模块、语种判定模块，文本检测模块负责对于文本区域的检测功能，字符识别模块负责对于各类字符的识别功能，语种判定模块负责对于字符语种判定的功能；所述方法包括文本检测、字符识别、语种判定步骤。本发明可以实现多种不同语言的文本图像的检测与识别，使用的网络模型只需要修改部分就可以扩展到新的语言。本发明采用端到端的方法能够减少中间步骤数据的标注过程、频繁的数据的输入和输出，大大节省成本。本发明采用了改进的FPN算法，具有很好的鲁棒性，采用了空间转换层结合LNMS的方法预测候选框，能够有效地提高预测框的准确度。

Description

一种面向多语种自然场景文本检测与识别的系统及方法

技术领域

本发明涉及一种能对自然场景中文本进行检测与识别的系统及方法，具体涉及一种自然场景中多语种印刷文本的检测和识别系统及方法。

背景技术

OCR是指对于通过各种扫描设备扫描出的照片进行处理，获取照片中所包含的文本信息。从严格意义上来讲，OCR是指对于扫描文档的文字识别，而针对于自然场景的文字识别叫做STR(Scene Text Recognition)，大部分是门脸招牌图片、交通标志图片、广告图片等。

STR的文字识别的难度远大于OCR的文字识别的难度，原因有三：一是自然场景文本形式的多样性，在自然场景中，字符的大小、字体、颜色、亮度等都是不确定的，文本行可能是横向、竖向、倾斜或者是扭曲的，也会出现多种语言混合的情况，甚至文本的一部分区域由于各种客观事物的遮挡在图像中“消失”；二是拍摄照片成像的质量，与拍摄设备和拍摄流程的规范性关系很大，拍摄自然场景中的照片的设备大多数是手机，手机的成像质量关键在于传感器的质量，即CCD与CMOS传感器的尺寸，不同的自然场景下需要选择手机不同的拍摄模式，选择好拍摄角度，将镜头对焦至文本区域上，以及要保持稳定，随意的晃动会造成图像的模糊，图像模糊对于文字识别准确率的影响是十分致命的；三是自然环境中的各种噪声影响，自然环境中的光照影响是很大的，阳光直射到文本表面，文本表面由于保护和美观的因素会有喷漆导致会出现反射，最终会导致拍摄出的照片上出现很多白点，以及自然环境中的文本区域会出现很多的近似文字的纹理干扰，像卡通图案、栅栏、树枝等都会增加后续文字识别的难度。

虽然复杂场景下的文本检测与识别的难度远大于传统意义上的对于扫描文档图像的OCR，但是复杂场景下的文本检测与识别有很多的实用价值，应用范围极广，如自动驾驶中识别各种交通标志、识别车辆的车牌号、提高场景的理解能力等。所以，做一个自然场景的文本检测与识别系统对于智能交通、人们出行等都有十分现实的意义。

而且在复杂场景中的文本的语言是未知的，我们目前是处于一个多语言的环境中，据统计，在全世界现存的语言中，有5600多种语言是可查明的，还有1400多种语言还未受到承认或者已经开始消亡的语言。每一种语言的文字特征和书写习惯都不一样，如果为了每一种语言独立地去设计识别方法，很明显这是不现实的。

CN106503715A公开了一种基于深度学习的自然场景多语言文本检测方法，该方法虽然能够检测自然场景下的多语言文本以及断裂的文字，但是存在以下问题：

1、仅适用于中文、英文的检测识别，具有局限性，无法扩展到其他语言，无法满足实际自然场景中多种语言的需求。

2、对于图片的处理步骤繁多，检测速度慢。

3、采用随机森林法来进行文本分类，但在噪音较大的自然场景中进行分类会出现过拟合。

发明内容

针对现有技术存在的上述问题，本发明提供了一种面向多语种自然场景文本检测与识别的系统及方法。本发明的应用场景是针对于跨语种的文本，不考虑文本的语种来设计检测与识别方法。

本发明的目的是通过以下技术方案实现的：

一种面向多语种自然场景文本检测与识别的系统，包括文本检测模块、字符识别模块、语种判定模块，其中：

所述文本检测模块负责对于文本区域的检测功能，即：对图像信息采集(一般是相机)到的各种图像进行检测，使用卷积层提取图像特征，采用FPN构建文本检测器；选择包含文本区域的候选框，得到最终的候选框的预测并对候选框进行边界框回归，得到包含了待识别文本的区域，并输出包含文本区域的边界框；

所述字符识别模块负责对于各类字符的识别功能，即：通过构建全卷积的网络层构建的文本识别层对文本检测模块输入的包含文本区域的边界框进行特征提取，识别出其中所包含的各种字符，并输出该文本字符串；

所述语种判定模块负责对于字符语种判定的功能，即：对从文本检测中得到的包含待识别文本的区域建立语言模型，然后判定字符识别模块输入的文本字符串属于哪一种语种。

一种面向多语种自然场景文本检测与识别的方法，包括如下步骤：

步骤一、文本检测

(1)采用FPN网络构建目标检测器

a、选择一张需要处理的图片，对该图片进行预处理操作，去除图像中的随机噪声，进行图像倾斜矫正；

b、将预处理过的图片送入预训练的ResNet34网络中；

c、按照自底向上的网络构建相对应的自顶向下的网络；

d、在第4、5、6层上面分别进行RPN操作，生成预测的ROI(感兴趣区域)；

e、将预测ROI分别输入到第4、5、6层卷积层上分别进行ROI Pool池化操作；

f、连接两个1024层的全连接网络层，然后分为两个分路，分别对应一个分类层用于分类类别和一个回归层用于回归位置的信息；

(2)采用LNMS(局部感知非极大值抑制)进行检测框筛选

a、对所有的outputbox集合结合相应的阈值依次遍历进行加权合并，合并的原则为：如果大于提前设定的阈值则进行合并，如果小于提前设定的阈值则不合并，依次遍历进行加权合并，直到所有的候选框均完成筛选，将筛选完出候选框按照分类的分数进行划分，得到合并后的bbox(候选框)集合；

b、对合并后的bbox集合进行标准的NMS(非极大值抑制)操作，计算同一个集合中最高的分类分数与其他的bbox之间的IOU(交并比)，若大于阈值，则将其移除，若小于阈值，则保留该候选框，直到所有的候选框均完成筛选；

步骤二、字符识别

(1)对步骤一筛选出的候选框进行特征提取，得到用于估计空间转换层需要的特征图U；

(2)在字符识别之前，首先利用空间变换器(STL)对上一步中得到的特征图U进行空间变换操作，其中空间转换器分为本地网络、网格生成器、采样器三个部分，本地网络用于实现变换参数θ的回归；网格生成器用于通过本地网络所回归出的变换参数构造一个用于采样的网络，学习到映射的关系T_θ；采样器用于利用采样网络以及输入的特征图像，得到原始的特征图经过网络学习到的变换后的变换特征图；

(3)将经过空间变换器学习到的变换特征图通过一个全卷积的网络层来进行各个字符的识别；

步骤三、语种判定

对步骤二识别得到的字符结果采用简单多数投票机制判定语种，通过训练集，可以训练出m个不同的成员分类器，不同的成员分类器，可以使用不同的分类算法，如决策树、logistic回归、支持向量机等。

相比于现有技术，本发明具有如下优点：

1、本发明可以实现多种不同语言的文本图像的检测与识别，使用的网络模型只需要修改部分就可以扩展到新的语言。

2、本发明采用端到端的方法能够减少中间步骤数据的标注过程、频繁的数据的输入和输出，大大节省成本。

3、本发明采用了改进的FPN算法，具有很好的鲁棒性，采用了空间转换层结合LNMS的方法预测候选框，能够有效地提高预测框的准确度，识别阶段采用全卷积网络解决语种限制性问题，最后在检测和识别的基础上建立基于投片机制的语种判定模型。

附图说明

图1为FPN构建目标检测器的流程图；

图2为自然场景图像(每种语种取一张为例)；

图3为自然场景图像检测与识别流程图；

图4为端到端文本检测与识别系统的总体结构示意图；

图5为汉语的文字检测示例；

图6为日语的文字检测示例；

图7为韩语识别的示例；

图8为汉语识别的示例；

图9为识别日语的示例；

图10为判定拉丁语和阿拉伯语的示例；

图11为判定韩语和拉丁语的示例。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种面向多语种自然场景文本检测与识别的系统，所述系统由文本检测模块、字符识别模块、语种判定模块组成，其中：

所述文本检测模块主要是对于通过图像信息采集(一般是相机)到的各种图像进行检测，需要先进行图像的去噪等预处理，使用卷积层提取图像特征，采用FPN构建文本检测器。选择包含文本区域的候选框，采用locality-aware NMS(简称LNMS)来删除高度冗余的候选框，将之前筛选出的候选框用于估计空间转换层(spatial transformer layer)需要的参数,在单独的步骤中处理旋转并利用空间变换器来标准化图像以进行缩放和旋转，从而使学习任务更容易。得到了最终的候选框的预测对候选框进行边界框的回归，得到包含了待识别文本的区域，并输出包含文本区域的边界框，即负责对于文本区域的检测功能，可以解决现有方法存在的步骤繁多、检测速度慢的问题。

所述字符识别模块是采用全卷积的网络层构建的文本识别层来对于输入的候选框进行特征提取，识别出其中所包含的各种字符，并输出该文本字符串，即负责对于各类字符的识别功能，可以解决现有方法存在的语种局限性大和采用随机森林出现过拟合的问题。

所述语种判定模块主要是对于从文本检测中得到的包含待识别文本的区域，建立语言模型，提取训练集中的特征词和共有词，并更新其权重,增强每一类语种的辨识度，然后经过一个投票机制来并输出其语种，来判定其中所包含的文本是属于哪一种语种即负责对于字符语种判定的功能。

一种利用上述系统进行面向多语种自然场景文本检测与识别的方法，包括如下三个步骤：文本检测、字符识别、语种判定。每个步骤的详细过程如下：

步骤一、文本检测

(1)采用FPN网络来构建目标检测器

本发明采用的文本检测的模型是FPN(feature pyramid networks)，是利用网络中不同的网络层来获取高层和低层的特征，并在上面输出预测的值。在现有的FPN网络的基础上进行修改，本方法采用上采样的方法，与经过1×1卷积核的底层特征相加，并且在横向连接时使用了1×1的卷积核，进行通道的压缩，使其维度保持一致，本文中为256。本发明采用FPN网络来构建一个目标检测器的具体流程如图1所示。

首先，选择一张需要处理的图片，然后对该图片进行预处理操作，去除图像中的随机噪声，进行图像倾斜矫正。然后，将处理过的图片送入预训练的特征网络中(本发明所采用的是ResNet34网络)，即构建自底向上的网络。然后，按照自底向上的网络来构建相对应的自顶向下的网络(即首先对第4个卷积层进行上采样，对第2个卷积层通过1*1的卷积能够实现降维处理，将两个卷积层上的元素进行数学意义上的加法操作，之后再对经过加法操作的结果进行一个3*3的卷积操作)。然后第4、5、6层上面分别进行RPN操作，即通过3*3的卷积之后再分为两个支路，然后通过1×1的卷积来分别进行类别的分类和位置信息的回归，生成预测的ROI。将生成的ROI分别输入到第4、5、6层卷积层上分别进行ROI Pool操作(固定为7*7的特征)。最后，再连接两个1024层的全连接网络层，然后分为两个分路，分别对应一个分类层用于分类类别和一个回归层用于回归位置的信息。

(2)采用Locality-aware NMS(LNMS)进行筛选检测框

本发明中采用LNMS，即局部感知NMS对检测框进行筛选。由于在文本检测中需要计算的个数是上万的，若采用标准的NMS，可知这样计算的复杂度是非常高的。

LNMS在标准NMS的基础上加了加权合并，所谓加权合并就是将2个IOU高于某个threshold的输出框，进行基于得分的合并，与NMS本质一样，就是对每个object的多个bbox去冗余，得到最终的检测结果。最终合并所得到的输出框的位置坐标是介于需要合并的输入框位置中间的，因为这样的操作是能够充分利用之前得到的所有回归的框的位置坐标信息，有助于减少位置误差，而不是像传统的NMS一样，直接取分数最高的那个，这样操作有利于提高最终提取的预测框准确度。

LNMS的基本步骤是先对所有的outputbox集合根据相应的阈值进行合并，合并的原则为如果大于提前设定的阈值则进行合并，如果小于提前设定的阈值则不合并，依次遍历进行加权合并，直到所有的候选框均完成筛选，将筛选完出候选框按照分类的分数进行划分，得到合并后的bbox集合。然后对合并后的bbox集合进行标准的NMS操作，计算同一个集合中最高的分类分数与其他的bbox之间的IOU,若大于阈值，则将其移除，若小于阈值，则保留该候选框，直到所有的候选框均完成筛选，这一步与之前的NMS操作是一致的。将阈值设定为0.9，即只有阈值大于0.9才能进入下一步中的处理。

步骤二、字符识别

在文本识别时，首先通过之前LNMS筛选出的bbox来预估spatial transformerlayer中的参数，显式地允许在字符识别网络中对数据进行空间变换操作。将STL添加到字符识别网络中，利用STL能够主动地学习到各种数据的转换方式，然后能够使字符识别网络学习到对于各种尺寸变换的不变性，提高字符识别网络对于字符的识别效果。

一个空间转换器可以分为三个部分：本地网络(Localization network)、网格生成器(Grid Generator)、采样器(Sampler)。

本地的网络是实现对于变换参数θ的回归，首先需要输入需要进行变换的图像，之后经过全连接层或者是卷积层，最终得到的就是空间变换的参数。由于得到的θ的形式是多变的，即最终变换的类型是决定了θ的大小的。

θ＝f_loc(U)；

式中，U表示在文本检测中对于原图像进行特征提取之后得到的特征图，f_loc表示本地网络。

网格生成器(Grid Generator)是通过之前本地的网络所回归出的变换参数来构造一个用于采样的网络，将输入的图像的像素点通过采样变换的操作之后输出的结果。所以网格的生成器是为了学习到映射的关系T_θ。首先设定特征图像像素点的坐标位置是

最终输出变换之后的图的像素点的坐标位置是

T_θ是用于空间转换的二维仿射变换函数，则

与

的映射关系由下面的公式计算可得：

式中，T_θ表示用于空间转换的二维仿射变换函数，

表示设定的特征图像像素点的坐标位置，

表示最终输出变换之后的图中的像素点的坐标位置，G_i表示网格生成器。

后面的采样器是利用之前的采样网络，以及刚开始所输入的特征图像，最终得到的就是原始的特征图经过网络学习到的变换后的变换特征图。

式中，H、W表示图像中的高和宽，n、m表示H、W的遍历参数。

这就是完整的前向传播的过程。

其中，输出对采样器的求导公式为：

网格生成器的求导公式按照下面公式计算：

步骤三、语种判定

对于前面识别得到的字符结果采用简单多数投票机制来判定语种，将不同的分类器组合成为一个元分类器，元分类器与包含的单个分类器相比，元分类器具有更好的泛化性能。常用的集成方法有多数投票(majorityvoting)原则，多数投票原则是指将大多数分类器预测的结果作为最终的预测类标，也就是说，将得票数超过50％的结果作为类标。严格的说，多数投票仅用于二分类的情况。但是，我们也可以将多数投票原则推广到多分类，被称为简单多数投票法。

通过训练集，可以训练出m个不同的成员分类器。不同的成员分类器，可以使用不同的分类算法，如决策树、logistic回归、支持向量机等。除此之外，我们还可以使用相同的分类算法，来拟合不同的训练子集来构建不同的成员分类器。

实施例：

本实施例中处理的自然场景图像如图2所示，图中为多种语言的自然场景图像的示例图。识别程序的开发平台为Linux操作系统CentOS7.2，GPU为两块NVIDIA GeForce GTXTITAN X GPU，识别程序用python3.5编写，使用PyTorch0.4.1框架。

采集的自然场景中的图像需要具备以下特征：

(1)图像分辨率为96dpi以上的彩色图像；

(2)图像应包含完整的文本区域。

如果输入的自然场景图像没有达到上述标准可能会降低识别率。

在具体的实施过程中，按照图3所示的流程对自然场景中的图像进行处理，具体过程如下：

一、文本检测

选取自然场景中的图像输入到4层共享的卷积层进行提取特征，然后采用FPN网络来构建检测器，输出一系列相关的参数(文本与非文本的置信度，预测出的候选框的位置等)，设置文本的置信度为0.9，即将文本置信度高于0.9的候选框进行下一步的处理。采用locality-aware NMS(简称LNMS)来删除高度冗余的候选框，得到了最终的候选框的预测。

二、字符识别

将之前筛选出的候选框用于估计空间转换层(spatial transformer layer)需要的参数，在单独的步骤中处理旋转并利用空间变换器来标准化图像以进行缩放和旋转，从而使学习任务更容易。之后便输入全卷积的识别模块来输出最终的识别结果。

三、语种判定

对于识别出的字符结果，进行一个简单的多数投票机制来预测最终的字符所属的语种类别，通过训练集，可以训练出m个不同的成员分类器。不同的成员分类器，可以使用不同的分类算法，如决策树、logistic回归、支持向量机等。

四、端到端的网络训练参数设置

学习率为0.001，学习率的衰减因子为0.99，动量momentum为0.9，权重衰减因子为0，迭代间隔为100，优化器使用的是Adam，β₁＝0.9，β₂＝0.999。由于自然场景中的文本与图像的大小关联不大，把ResNet-34的第一层修改为3×3的卷积核步长为2，在实验中证明可以提高预测候选框的准确率。表1中为整个网络层的初始共享层的详细参数表，表2中为用于文本检测的FPN网络的详细参数表，表3中是用于字符识别的网络以及相应的参数。

参数说明：W和H是图像对应的宽度和高度，ResN-B是ResNet网络，IN是实例规范化(每个图像的像素点首先减去所有图像均值的像素点，除以方差，更易收敛)。|μ|是在数据集中能够被识别的所有字符的数目(设置为7500)。

表1初始共享层的详细参数表

表2文本检测(FPN)的详细参数表

表3文本识别的详细参数表

本发明涉及的技术方案以自然场景中6种语言的9000张图像为例予以说明和验证，实验数据均为自然场景下各种现实中的商铺的广告牌、交通标志、注意标志、包装盒上的印刷文字等。收集的数据集情况如下：Chinese(汉语)、Japanese(日语)、Korean(韩语)、Arabic(阿拉伯语)、Bangla(孟加拉语)、English(英语)、German(德语)、French(法语)、Italian(意大利语)共9种语言。数据集一共有9000张，每种语言1000张，由于英语、德语、法语、意大利语同属印欧语系，均是由拉丁语的字母书写的，彼此之间是具有很大的相似性的，故将这4种语言归纳为一种语言Latin(拉丁语)，拉丁语共有4000张。

本发明是围绕自然场景中多语种的文本图像来进行的，重点即多语种。采用AP来评价本发明文本检测的效果，能够对于文本检测的效果有一个更好的理解。计算IOU＝0.5的评价矩阵，故可计算出本发明的文本检测的AP为52.67％。

本发明是端到端的文本识别，评价标准采用的是N.E.D，即归一化编辑距离，本发明的N.E.D为0.3190。对端到端的文本识别效果在文本长度上进行定量评估，可以发现随着文本长度的增加，算法在文本识别上的评估指标Recall、Precision、Recall ED1上均有着显著的增加。本发明对于图像中的语种判定采用的判定标准为AP，可得本发明对于语种判定的AP为25.41％。

为判定语种的混淆矩阵，横表头为测试数据中文本区域对应的真实值(GroundTruth)，纵表头为测试数据由模型预测出的结果，分别统计分类正确和分类错误的个数。从表4中能够看出本发明整体语种的判定正确率还是很高的，6种语言均有着不错的语种判定正确率，其中，由于拉丁语作为一种综合语言，从具体数目可以看出其他语言被误分类为拉丁语的个数是偏高的，在韩语和日语中也有少部分数据被误分类为汉语，这是由于日语本是由汉语衍生出来的，日语中的片假名的写法与汉语中的正楷字体相差不大，其中很多片假名其实是汉语中的一些偏旁部首，所以日语和韩语中本身就具有汉语的元素特征，容易被误分类。

表4判定语种的混淆矩阵

本发明采用的端到端的思路虽然在文本检测、字符识别、语种判定中均有一定程度上的损失，但端到端的方法可以减少很多中间步骤数据的标注过程、频繁的数据输入和输出，大大节省成本，是一种值得尝试的方法。

Claims

1.一种面向多语种自然场景文本检测与识别的系统，其特征在于所述系统包括文本检测模块、字符识别模块、语种判定模块，其中：

所述文本检测模块负责对于文本区域的检测功能，即：对图像信息采集到的各种图像进行检测，使用卷积层提取图像特征，采用FPN构建文本检测器；选择包含文本区域的候选框，得到最终的候选框的预测并对候选框进行边界框回归，得到包含了待识别文本的区域，并输出包含文本区域的边界框；

2.一种面向多语种自然场景文本检测与识别的方法，其特征在于所述方法包括如下步骤：

步骤一、文本检测

(1)采用FPN网络构建目标检测器；

(2)采用LNMS进行检测框筛选；

步骤二、字符识别

(2)在字符识别之前，首先利用空间变换器对上一步中得到的特征图U进行空间变换操作；

步骤三、语种判定

对步骤二识别得到的字符结果采用简单多数投票机制判定语种。

3.根据权利要求2所述的面向多语种自然场景文本检测与识别的方法，其特征在于所述采用FPN网络构建目标检测器的方法如下：

b、将预处理过的图片送入预训练的ResNet34网络中；

c、按照自底向上的网络构建相对应的自顶向下的网络；

d、在第4、5、6层上面分别进行RPN操作，生成预测的ROI；

e、将预测ROI分别输入到第4、5、6层卷积层上分别进行ROIPool池化操作；

f、连接两个1024层的全连接网络层，然后分为两个分路，分别对应一个分类层用于分类类别和一个回归层用于回归位置的信息。

4.根据权利要求2所述的面向多语种自然场景文本检测与识别的方法，其特征在于所述采用LNMS进行检测框筛选的方法如下：

a、对所有的output box集合结合相应的阈值依次遍历进行加权合并；

b、对合并后的bbox集合进行标准的NMS操作，计算同一个集合中最高的分类分数与其他的bbox之间的IOU，若大于阈值，则将其移除，若小于阈值，则保留该候选框，直到所有的候选框均完成筛选。

5.根据权利要求4所述的面向多语种自然场景文本检测与识别的方法，其特征在于所述合并的原则为：如果大于提前设定的阈值则进行合并，如果小于提前设定的阈值则不合并，依次遍历进行加权合并，直到所有的候选框均完成筛选，将筛选完出候选框按照分类的分数进行划分，得到合并后的bbox集合。

6.根据权利要求2所述的面向多语种自然场景文本检测与识别的方法，其特征在于所述空间转换器分为本地网络、网格生成器、采样器三个部分，本地网络用于实现变换参数θ的回归；网格生成器用于通过本地网络所回归出的变换参数构造一个用于采样的网络，学习到映射的关系T_θ；采样器用于利用采样网络以及输入的特征图像，得到原始的特征图经过网络学习到的变换后的变换特征图。