CN111340034B

CN111340034B - 一种针对自然场景的文本检测与识别方法及系统

Info

Publication number: CN111340034B
Application number: CN202010209803.3A
Authority: CN
Inventors: 李舟军; 肖武魁; 刘俊杰; 陈小明; 田茂清
Original assignee: Shenzhen Intelligent Strong Technology Co ltd
Current assignee: Shenzhen Intelligent Strong Technology Co ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2023-04-07
Anticipated expiration: 2040-03-23
Also published as: CN111340034A

Abstract

本发明是一种针对自然场景的文本检测与识别方法及系统，具体是针对复杂背景、大角度、中英文混合、生僻字等问题，提出了一种针对自然场景的文本检测系统及方法、一种针对自然场景的文本识别系统及方法，解决了真实应用场景下文本检测与识别的诸多问题。本发明使用多尺度特征网络解决文本检测中的多尺度和复杂背景问题，使用平衡注意力机制解决文本识别中的生僻字问题。通过以上方式，本发明提出的技术使得文本检测与识别模型能够应用于真实场景，极大提高了实用性。

Description

一种针对自然场景的文本检测与识别方法及系统

技术领域

本发明涉及一种针对自然场景的的文本检测与识别方法及系统，尤其涉及一种基于多尺度图像分割的文本检测模型和基于平衡注意力机制的文本识别模型，属于计算机视觉技术领域。

背景技术

近年来，深度学习技术快速发展，并已经在图像识别、语音识别、自然语言处理和围棋等领域超越了人类水平。图像识别是实现人工智能的核心技术，在图像识别领域，深度学习技术也在图像分类、图像检测等方面也取得了重要突破。文本检测与识别作为图像处理领域的核心技术，借助于深度学习技术的推动获得了快速发展。

基于深度学习的文本检测与识别算法在自然场景中进行使用时，经常会遇到以下几个困难与挑战：

(1)一些场景下的图像中存在着复杂背景纹理。在一些特殊场景中(例如室外自然场景)，文本区域附近有复杂多变的背景，很容易对文本检测造成干扰，造成文本检测框漏识别或者文本误识别。

(2)图像中的文本区域角度和形状变化大。在很多场景中，文本区域往往具有一定的角度，而且区域本身也不是一个规则的矩形，这对文本检测带来了极大的挑战。这要求文本检测算法能够预测大角度和不规则形状的文本检测框，对文本检测算法设计和训练带来了一些困难和挑战。

(3)文本识别中常常需要面对中英文混合文本。在一些特殊场景中(例如票据场景)，文本框中的文本常常同时包含中英文、数字和符号。由于中英文、数字和符号在训练数据集中的分布往往差别很大，中文包含三千到四千字符，而英文只有二十六个字符，导致文本识别模型不能同时很好的学习到中英文的信息。当出现中英文混合的文本时，上下文语义关联往往更加复杂，文本识别模型就更加容易出错。

(4)中文文本识别中的生僻字问题。中文包含五千左右字符，而其中的常用字只有一千左右，剩下的大多数字符出现的频率很少，导致真实场景中的中文文本识别数据集中往往具有十分严重的分布不均衡现象。这导致了学习出的文本识别模型对于一些中文生僻字的识别效果较差，在一些复杂的文本识别图像中容易出错，这是面向中英文的文本识别研究中的一个重大的问题和挑战。

综上，本发明提出了基于多尺度图像分割的文本检测模型和基于平衡注意力机制的文本识别模型，能够有效解决在自然场景中文本检测与识别模型遇到的诸多问题与挑战，并且取得了良好的效果。

发明内容

本发明的目的在于，针对背景技术中提及的复杂背景、大角度、中英文混合、生僻字等问题，提出一种针对自然场景的文本检测与识别方法及系统；具体而言是针对复杂背景、大角度的问题，提出一种基于多尺度图像分割的文本检测模型；针对中英文混合、生僻字的问题，提出一种基于平衡注意力机制的文本识别模型，解决了真实应用场景下文本检测与识别的诸多问题。

本发明技术解决方案：

一种针对自然场景的文本检测与识别系统，所述文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型；

所述的文本检测模型用于对自然场景图像中的文本区域进行检测，定位包含文本区域的四边形区域；所述的文本检测模型包括多尺度特征提取网络、多尺度标签生成模块和渐进式多尺度特征图模块；所述的多尺度标签生成模块用于生成层次分割标签，以用于多尺度特征提取网络的训练；所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法；所述的渐进式特征图扩展与融合模块：用于提取最终用于预测的分割图，作为所述文本检测模型最终的输出；

所述的文本识别模型用于对文本检测模型输出的分割图进行识别，抽取其中包含的文本信息；所述的文本识别模型包括输入转换模块、特征提取模块、序列特征模块、平衡注意力模块；所述的输入转换模块用于对输入图像进行空间变换；所述的特征提取模块用于将空间转换后的输入图像转换成特征序列；所述的序列特征模块用于学习特征序列之间的关系，学习上下文关系，形成序列特征；所述的平衡注意力模块用于进一步对字符分类特征进行加权。

其中，所述的平衡注意力模块包括序列注意力机制和字符平衡机制；序列注意力机制，用于预测序列中每个特征的重要程度；字符平衡机制，用于平衡不同字符之间的重要程度。

其中，所述的平衡注意力模块的输入是经过序列特征模块的序列特征，输出是用于计算损失函数的分类序列特征。

一种针对自然场景的文本检测与识别方法，该方法包括：

S1.1:多尺度标签生成：多尺度标签生成使用不同的填充方式生成层次分割标签，用于多尺度特征提取网络的训练，本发明使用多尺度标签进行图像分割的训练；

S1.2:多尺度特征提取：对于输入的图像，多尺度特征提取网络通过卷积网络技术提取图像的多层特征表示，获得图像的数学化特征表示方法；

S1.3:渐进式特征图扩展与融合：对于步骤S1.1输出的多层次图像特征，使用渐进式扩展与融合算法，提取用于预测的分割图；

S2.1:对提取的分割图进行空间变换，减小大角度或者大偏移图像对文本识别模型的干扰；

S2.2:对空间变换后的分割图提取深度特征，使用卷积神经网络转换成特征序列；

S2.3学习步骤S2.2输出的特征序列之间的关系，以扩大序列特征的感受野，学习上下文关系；具体使用循环神经网络实现，即双向长短时记忆网络和全连接层结合作为序列特征模块；

S2.4:引入平衡注意力机制：通过自学习对特征图进行加权，还通过引入训练集中数据的分布规律先验知识进一步对字符分类特征进行加权。

其中，所述的渐进式扩展与融合算法，具体如下：

在进行特征融合时，从小尺度特征图开始采用广度优先搜索对当前特征图进行扩展，并且与较大尺度特征图进行匹配检查是否一致可以扩展：小尺度特征图在进行扩展时，各个连通域向四个方向没有被标记的背景区域进行扩展，同时检查要扩展的区域在大尺度特征图中的标签是否为1，条件都满足时则进行扩展，重复该过程直到没有点可以扩展；此时输入更大尺度的特征图进行下一轮扩展，直到处理完所有不同尺度的特征图。

其中，所述的步骤S2.4，具体过程如下：平衡注意力机制包括两个分支，一个分支是序列注意力机制，用于预测序列中每个特征的重要程度；另一分支是字符平衡机制，用于平衡不同字符之间的重要程度；输入特征序列来自于步骤S2.3序列特征模块的输出，所述的输入特征序列进入平衡注意力机制后同时进入两个分支，第一个分支用于计算序列权重，首先对输入特征序列计算协方差矩阵衡量序列中不同特征之间的相似性，然后经过卷积层、全连接层、Softmax层得到序列权重；第二个分支经过全连接层到得到分类特征序列，分类特征序列的序列长度与输入特征序列相同，分类特征的特征向量长度与字符集大小相同，分类特征序列用于特征到字符的分类。

本发明一种针对自然场景的文本检测与识别方法及系统，其优点和功效在于：使用多尺度特征网络解决文本检测中的多尺度和复杂背景问题，使用平衡注意力机制解决文本识别中的生僻字问题。通过以上两种方法，本发明提出的技术使得文本检测与识别模型能够应用于真实场景，极大提高了实用性。

附图说明

图1、2为本发明文本检测模型框图；

图3为本发明文本识别模型框图；

图4为本发明文本检测方法流程图；

图5为本发明文本识别方法流程图。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

实施例1

本发明提出一种针对自然场景的文本检测与识别系统，文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型。

如图1、2所示，图1、2为本实施例涉及的文本检测模型框图。本实施例的基于多尺度图像分割的文本检测模型用于对自然场景图像中的文本区域进行检测，定位包含文本区域的四边形区域；所述的基于多尺度图像分割的文本检测模型包括多尺度特征提取网络模块、多尺度标签生成模块和渐进式多尺度特征图扩展与融合模块；所述的多尺度标签生成模块用于根据训练图像生成层次分割标签，以用于多尺度特征提取网络的训练；所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法；所述的渐进式特征图扩展与融合模块用于提取最终用于预测的分割图，作为模型最终的输出。

具体的，多尺度特征提取网络模块：多尺度特征提取网络在整个算法中承担着学习从图片到深度特征的任务，学到的特征最终经过分类器后就进行损失函数计算。多尺度特征提取网络是一种卷积神经网络，由若干卷积层、正则化层、激活曾、池化层和上采样层等组成，可以使用反向传播算法端到端的训练；

多尺度标签生成模块：多尺度标签生成的核心思想是渐进式的生成填充比例不同的标签。在主流的文本检测数据集中(例如ICDAR2017MLT、CTW等)，给出的文本检测框标注信息对应文本检测框的四个角点在图像中的坐标，文本检测框在图像中是一个四边形。通常基于图像分割的文本检测算法在处理标签是会将文本检测框对应的四边形区域中全部填充。而多尺度特征提取网络生成的多尺度标签来自于网络中不同层次的特征，根据卷积神经网络中不同层次网络对应感受野不同的特点，使用不同填充比例的特征图对不同层次的特征进行监督是一种更好的方法。本文在进行多尺度标签生成时的方式是先计算四边形区域的中心点坐标，然后根据填充比例，沿着四边形对角线确定经过按比例缩放之后新顶点坐标位置，最后根据新顶点坐标进行填充。

如图3所示，本实施例的基于平衡注意力机制的文本识别模型用于对所述的文本检测模型提取出的文本区域(分割图)进行识别，抽取其中包含的文本信息，所述的基于平衡注意力机制的文本识别模型包括输入转换模块、特征提取模块、序列特征模块、平衡注意力模块；所述的输入转换模块用于对输入图像(分割图)进行空间变换；所述的特征提取模块用于将空间转换后的输入图像转换成特征序列；所述的序列特征模块用于学习特征序列之间的关系，学习上下文关系，形成序列特征；所述的平衡注意力模块用于进一步对字符分类特征进行加权。

具体的，输入转换模块：本文提出的文本识别模型将空间变换网络置于整个网络的最前端，直接对输入图像进行空间变换，不改变输入图像的大小，对后续特征提取模块的设计没有任何影响。通过输入转换模块后的图像更加适合文本识别，减小了大角度或者大偏移图像对文本识别模型的干扰，有效提升了整个算法的性能。除此之外，由于空间变换网络只包含两层卷积层和一层全连接层，整个模块的参数量很小，计算速度快，对最终算法整体的速度性能没有太大影响。

特征提取模块：特征提取模块占据了整个文本识别模型中最主要的参数，对整个文本识别模型的精度有着最重要的影响。一方面，特征提取模块将经过矫正的图像转换成深度特征序列，对后续模块有着重要的影响；另一方面，特征提取模块中包含着大量的卷积层，能学习到图像中的模式和特征，而后续的模块学习到的是序列之间上下文的关系。

序列特征模块：序列特征模块一方面可以学习到序列特征之间的上下文关系，使得特征的预测结果更加平滑，另一方面可以学习到训练数据中文本分布的语义，记住一些常见的单词和字符组合，使得预测结果整体更加合理。

其中，所述的平衡注意力模块主要由两个部分组成，一个部分是序列注意力机制，用于预测序列中每个特征的重要程度；另一部分是字符平衡机制，用于平衡不同字符之间的重要程度。平衡注意力模块的输入是经过序列特征模块的序列特征，输出是用于计算损失函数的分类序列特征。

实施例2

本实施例提供一种针对自然场景的文本检测与识别方法，该方法的各步骤可认为是实施例1所述的文本检测与识别系统的具体处理步骤。具体的，又可以分为文本检测和文本识别。

如图4所示，文本检测的过程，是对图像进行数据预处理，再输出至文本检测模型进行检测，得到输出；然后对输出进行后处理，得到最终的识别结果(文本检测框)。

具体的，如图2所示，其中的文本检测又包括多标签特征生成(未标出)、多尺度特征提取、渐进式特征图扩展与融合：

S1.1:多尺度标签生成：根据测试图像(或训练图像)标注信息，生成不同尺度的标签，填充不同比例的文本分割区域，分别对应不同尺度特征的学习目标，也即使用不同的填充方式生成层次分割标签，用于多尺度特征提取网络的训练；

所述的多尺度特征提取网络由多层卷积神经网络组成，用于提取图像的深度特征信息，在本实施例的文本检测模型中，采用经过修改的ResNet网络作为多尺度特征提取网络，取ResNet四个不同尺度的卷积块输出作为网络的输出，并在这些输出上添加由1x1卷积进行特征上采样与融合；

S1.3:渐进式特征图扩展与融合：对于步骤S1.2输出的多层次图像特征，使用渐进式扩展与融合算法，提取最终用于预测的分割图，作为模型最终的输出。具体如下：

如图5所示，文本识别的过程，是对文本检测框进行数据预处理，再输出至文本识别模型进行检测，得到输出；然后对输出进行后处理，得到最终的识别结果(文本)。具体是基于卷积神经网络的文本识别模型对于输入的图像抽取特征，通过分类器和后处理将特征转换成文本，同时根据提出的基于平衡注意力机制的文本识别模型采用卷积神经网络和循环神经网络作为基础，添加了输入转换网络和平衡注意力网络对特征进行加权。具体包括：

S2.1:对输入图像(S1.3提取的分割图)进行空间变换，减小大角度或者大偏移图像对文本识别模型的干扰；本实施例采取了空间变换网络(Spatial TransformerNetwork，简称STN)作为文本识别算法中的输入转换模块。空间变换网络是一种自学习的卷积神经网络，为输入特征进行空间变化，变换作用于整个特征，变换的方式包括缩放、剪切、旋转、空间扭曲等等。空间变换网络具有可导性质，可以与其他的卷积神经网络联合使用进行端到端的训练。除此之外，空间变换网络完全基于自学习预测空间变换的参数，不依赖于额外标注信息。

S2.2:对输入文本框图像(空间变换后的分割图)提取深度特征，使用典型的卷积神经网络，将输入图像转换成特征序列；一般使用典型的卷积神经网络，例如ResNet系列、VGG系列、Inception系列等，本实施例的文本识别模型经过多种对比，权衡速度与精度，最终选择了ResNet系列网络作为特征提取模块，对输入文本框图像提取深度特征，将输入图像转换成特征序列。

S2.3学习步骤S2.2输出的特征序列之间的关系，以扩大序列特征的感受野，学习更多的上下文关系；具体使用典型的循环神经网络实现，即双向长短时记忆网络和全连接层结合作为序列特征模块；

S2.4:引入平衡注意力机制以解决文本识别模型对小数据字符关注程度不够的问题：通过自学习对特征图进行加权，还通过引入训练集中数据的分布规律先验知识进一步对字符分类特征进行加权。平衡注意力模块的输入是经过序列特征模块的序列特征，输出是用于计算损失函数的分类序列特征。

平衡注意力模块主要由两个部分组成，一个部分是序列注意力机制，用于预测序列中每个特征的重要程度；另一部分是字符平衡机制，用于平衡不同字符之间的重要程度。输入特征序列来自于序列特征模块的输出，输入特征序列进入平衡注意力模块后同时进入两个分支，第一个分支用于计算序列权重，首先对输入特征序列计算协方差矩阵衡量序列中不同特征之间的相似性，然后经过卷积层、全连接层、Softmax层得到序列权重；第二个分支经过全连接层到得到分类特征序列，分类特征序列的序列长度与输入特征序列相同，分类特征的特征向量长度与字符集大小相同，分类特征序列用于特征到字符的分类。字符权重是一个长度与字符集大小相同的向量，向量的不同维度对应不同字符的权重。公式(1)用于计算字符权重向量每一维的值。

ω_i＝-logp_i(1)

其中，ω_i代表字符权重向量第i维的值；p_i代表字符集中第i个字符出现的概率，p_i由在训练集中的统计值近似得到。最终的输出是由分类特征序列、序列权重和字符权重三部分按照扩展乘法相乘得到的，序列权重对应特征序列的序列维度，字符权重对应特征序列的特征维度。

平衡注意力模块在本文提出的文本识别模型中具有十分重要的地位，一方面平衡注意力模块通过自学习预测序列中不同特征的重要程度，在长短文本混合的复杂场景中十分有效；另一方面平衡注意力模块通过引入字符权重向量，对最终用于预测的向量按照训练数据分布进行权重调整，强化生僻字的概率，弱化常见字的概率，使得模型对于生僻字的预测效果更好。

方法	准确率	召回率	F1值
				Faster-RCNN[40]	30.45	43.22	35.73
CTPN[10]	45.82	53.66	49.43
				EAST[13]	60.76	58.29	59.50
SegLink[12]	56.25	60.33	58.22
				PSENet[41]	73.77	68.21	70.88
FOTS[32]	80.95	57.51	67.25
				Ours(ResNet50)	73.89	67.33	70.46
Ours(ResNet101)	74.25	69.31	71.70

表1

上述表1是本文算法与不同算法在ICDAR2017MLT数据集上的准确率、召回率和F1值，以百分比形式表示。

方法	正确率
		CRNN[22]	60.48
RARE[43]	73.63
		GRCNN[44]	70.72
FAN[45]	63.30
		Ours(不加平衡注意力模块)	74.38
Ours(加入平衡注意力模块)	76.84

表2

上述表2是不同算法在ICDAR2015数据集上的实验结果，采用1811张版本的测试集，正确率以百分比形式表示。

Claims

1.一种针对自然场景的文本检测与识别系统，其特征在于：所述文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型；

所述的文本检测模型用于对自然场景图像中的文本区域进行检测，定位包含文本区域的四边形区域；所述的文本检测模型包括多尺度标签生成模块、多尺度特征提取网络模块和渐进式特征图扩展与融合模块；所述的多尺度标签生成模块用于生成层次分割标签，以用于多尺度特征提取网络的训练；所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法；所述的渐进式特征图扩展与融合模块用于提取最终用于预测的分割图，作为所述文本检测模型最终的输出；

2.根据权利要求1所述的针对自然场景的文本检测与识别系统，其特征在于：所述的平衡注意力模块包括序列注意力机制和字符平衡机制；序列注意力机制，用于预测序列中每个特征的重要程度；字符平衡机制，用于平衡不同字符之间的重要程度。

3.根据权利要求1所述的针对自然场景的文本检测与识别系统，其特征在于：所述的平衡注意力模块的输入是经过序列特征模块的序列特征，输出是用于计算损失函数的分类序列特征。

4.一种针对自然场景的文本检测与识别方法，其特征在于：该方法包括：

S1.1:多尺度标签生成：多尺度标签生成使用不同的填充方式生成层次分割标签，用于多尺度特征提取网络的训练；

S1.3:渐进式特征图扩展与融合：对于步骤S1.2输出的多层次图像特征，使用渐进式扩展与融合算法，提取用于预测的分割图；

5.根据权利要求4所述的针对自然场景的文本检测与识别方法，其特征在于：所述的渐进式扩展与融合算法，具体如下：

在进行特征融合时，从小尺度特征图开始采用广度优先搜索对当前特征图进行扩展，并且与尺度特征图进行匹配检查是否一致扩展：小尺度特征图在进行扩展时，各个连通域向四个方向没有被标记的背景区域进行扩展，同时检查要扩展的区域在大尺度特征图中的标签是否为1，条件都满足时则进行扩展，重复该过程直到没有点扩展；此时输入更大尺度的特征图进行下一轮扩展，直到处理完所有不同尺度的特征图。

6.根据权利要求4所述的针对自然场景的文本检测与识别方法，其特征在于：所述的步骤S2.4，具体过程如下：平衡注意力机制包括两个分支，一个分支是序列注意力机制，用于预测序列中每个特征的重要程度；另一分支是字符平衡机制，用于平衡不同字符之间的重要程度；输入特征序列来自于步骤S2.3序列特征模块的输出，所述的输入特征序列进入平衡注意力机制后同时进入两个分支，第一个分支用于计算序列权重，首先对输入特征序列计算协方差矩阵衡量序列中不同特征之间的相似性，然后经过卷积层、全连接层、Softmax层得到序列权重；第二个分支经过全连接层到得到分类特征序列，分类特征序列的序列长度与输入特征序列相同，分类特征的特征向量长度与字符集大小相同，分类特征序列用于特征到字符的分类。