CN114550158A

CN114550158A - 一种场景文字识别方法及系统

Info

Publication number: CN114550158A
Application number: CN202210164606.3A
Authority: CN
Inventors: 邱明; 许全星
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27

Abstract

本发明公开了一种场景文字识别方法及系统。该方法包括：构建训练样本；训练样本包括公用数据集和非公用数据集；公用数据集和非公用数据集均包括场景图片和标签文件；通过训练样本训练Yolov5模型，得到字符检测模型；字符检测模型的输入为场景图片，输出为场景图片中包含的所有单个字符；通过训练样本和字符检测模型识别出的所有单个字符对Textformer模型进行训练；通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。本发明仅利用“Transoformer”就实现了一个端到端的文本定位器，相较于传统的使用卷积神经网络提取图片特征再输入到“Transformer”中的方法，有着更高的效率。并且，由于只用到了“Transformer”，所以本发明的模型框架更简单。

Description

一种场景文字识别方法及系统

技术领域

本发明涉及文字识别技术领域，特别是涉及一种场景文字识别方法及系统。

背景技术

OCR(Optical Character Recognition，光学字符识别)传统上指对输入扫描文档图像进行分析处理，识别出图像中文字的信息。场景文字识别(Scene Text Recognition，STR)指识别自然场景图片中的文字信息。自然场景图像中的文字识别，其难度远大于扫描文档图像中的文字识别。原因有以下几点：(1)自然场景图像的文本允许多种语言文本混合，字符可以有不同的字体、大小、颜色、亮度、对比度等；(2)自然场景图像的文本可能存在横向、竖向、弯曲、旋转、扭曲等问题；(3)自然场景图像中的文本区域可能存在变形(透视、仿射变换)、残缺、模糊等现象；(4)自然场景图像的背景极其复杂且多样，背景中可能会有类似文本的非文字纹理(如沙地、草地、栅栏、砖墙等)。

场景文字识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。也有不少服务商提供场景文字识别服务，也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务，也可以使用客户提供的数据集训练定制化模型(如票据识别模型)，以及提供定制化AI服务系统集成等。普遍认为，场景文字识别被分为两阶段，也被称为两大主要任务，即文本检测与文本识别。文本检测任务的目的是在自然图片中鉴别出可能含有任意形状文字的区域，文本识别的目的是在已检测到的文本区域中识别出文本内容。现如今，大多数STR方法都不是端到端的(不能集文本检测与文本识别于一体)。

发明内容

针对上述问题，本发明的目的是提供一种场景文字识别方法及系统

为实现上述目的，本发明提供了如下方案：

一种场景文字识别方法，包括：

构建训练样本；所述训练样本包括公用数据集和非公用数据集；所述公用数据集和所述非公用数据集均包括场景图片和标签文件；

通过所述训练样本训练Yolov5模型，得到字符检测模型；所述字符检测模型的输入为场景图片，输出为场景图片中包含的所有单个字符；

通过训练样本和所述字符检测模型识别出的所有单个字符对Textformer模型进行训练；

通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。

可选地，在通过所述训练样本训练Yolov5模型，得到字符检测模型之前，还包括：

对公用数据集的标签文件进行处理；所述处理包括修改标签文件的内容格式和文件类型。

可选地，所述非公用数据集的构建具体包括：

在所述公用数据集和网络图片中抽取预设个数的场景图片；

对抽取的场景图片进行裁剪和拼接；

在拼接后的图片中插入英文字母表和阿拉伯数字表图片。

可选地，还包括对训练样本中的场景图片进行数据增强处理。

可选地，所述Textformer模型包括编码器和解码器；所述编码器为SwinTransformer模型，所述解码器为Transformer模型。

本发明还提供了一种场景文字识别系统，包括：

训练样本构建模块，用于构建训练样本；所述训练样本包括公用数据集和非公用数据集；所述公用数据集和所述非公用数据集均包括场景图片和标签文件；

第一训练模块，用于通过所述训练样本训练Yolov5模型，得到字符检测模型；所述字符检测模型的输入为场景图片，输出为场景图片中包含的所有单个字符；

第二训练模块，用于通过训练样本和所述字符检测模型识别出的所有单个字符对Textformer模型进行训练；

识别模块，用于通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。

可选地，还包括：

标签处理模块，用于对公用数据集的标签文件进行处理；所述处理包括修改标签文件的内容格式和文件类型。

可选地，所述训练样本构建模块具体包括：

抽取单元，用于在所述公用数据集和网络图片中抽取预设个数的场景图片；

裁剪和拼接单元，用于对抽取的场景图片进行裁剪和拼接；

插入单元，用于在拼接后的图片中插入英文字母表和阿拉伯数字表图片。

可选地，还包括：数据增强处理模块，用于对训练样本中的场景图片进行数据增强处理。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的一种场景文字识别方法，包括：构建训练样本；所述训练样本包括公用数据集和非公用数据集；所述公用数据集和所述非公用数据集均包括场景图片和标签文件；通过所述训练样本训练Yolov5模型，得到字符检测模型；所述字符检测模型的输入为场景图片，输出为场景图片中包含的所有单个字符；通过训练样本和所述字符检测模型识别出的所有单个字符对Textformer模型进行训练；通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。本发明仅利用“Transoformer”就实现了一个端到端的文本定位器，相较于传统的使用卷积神经网络提取图片特征再输入到“Transformer”中的方法，有着更高的效率。并且，由于只用到了“Transformer”，所以本发明的模型框架更简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例场景文字识别方法的流程图；

图2为训练Textformer的流程；

图3为拼接效果图；

图4为Transformer的结构图；

图5为Multi-HeadAttention(多头注意力)的结构图；

图6为残差连接示意图；

图7为对层处理示意图；

图8为Swin Transformer的框架图；

图9为Swin Transformer(a)与ViT(b)的对比图；

图10为Swin Transformer的Block结构图；

图11为W-MSA效果图；

图12为SW-MASA效果图；

图13为Textformer的结构图；

图14为使用Textformer的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的场景文字识别方法，包括以下步骤：

步骤101：构建训练样本；所述训练样本包括公用数据集和非公用数据集；所述公用数据集和所述非公用数据集均包括场景图片和标签文件。

步骤102：通过所述训练样本训练Yolov5模型，得到字符检测模型；所述字符检测模型的输入为场景图片，输出为场景图片中包含的所有单个字符。

步骤103：通过训练样本和所述字符检测模型识别出的所有单个字符对Textformer模型进行训练。

步骤104：通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。使用Textformer模型的流程图如图14所示。

其中，如图2所示，步骤101-102具体包括：

在训练字符检测模型的过程中，本发明使用公用数据集与非公用数据集(自己制作的数据集)来形成训练样本。首先，挑选已有的相关检测模型(如Yolov5和FasterRCN)，搭建好模型所需的实验环境与框架。

接着准备训练集，本发明使用ICDAR2013、scut-eng-char、ICDAR2019等公用数据集(这些都是STR常用的公用数据集)作为主要的训练样本。这些数据集都包含两种类型的文件：图片(都为jpg格式)与标签文件(txt格式或json格式)。其中，ICDAR2013包含229张训练图片与229个对应的txt类型的训练标签以及233张无标签的测试图片，内容为英文；scut-eng-char数据集包含1162张训练图片与1162个对应的txt类型的训练标签，内容包含英文与阿拉伯数字；ICDAR2019数据集包含20000张训练图片与20000个对应的json类型的训练标签以及数千张无标签的测试图片，内容包含英文、阿拉伯数字与汉字。这三个数据集的共同点是它们的标签文件中不仅包含了对文本区域的标注，也包含了对单个字符的标注。所以使用它们来训练字符检测模型，以达到能检测单个字符的目的

由于不同的目标检测模型对标签文件的内容格式、文件类型有着不一样的要求。所以在将数据集投入到训练之前，本发明需要对它们的的标签进行必要的处理——编写特定的脚本对标签文件进行批量操作(修改标签的内容格式、文件类型等)。

此外，本发明从ICDAR2019数据集、TotalText数据集、SVT数据集以及CUTE80数据集中抽取了1088张拍摄角度较为端正、目标清晰、文本区域较大、文本内容包含英文与阿拉伯数字的图片。对这1088张图片进行了手工剪裁。剪裁后的图片形状为矩形，文本区域大约占了整个图片区域的90％，这就使得检测目标更加清晰。然后编写脚本将它们每四个为一组进行纵向拼接。纵向拼接的原理是写了一个python代码，代码步骤为批量读取文件夹内的所有图片，一次读取四张图片，以四张图中最长的图片作为新图片的长，四张图片宽度的和作为新图片的宽。然后将四张图片按从上到下粘贴到新图片中。拼接的效果如图3所示。

最后合成了272张新图片，再向这些图片中等间距地插入了8张英文字母表、阿拉伯数字表图片从而构成一个包含280张图片的新数据集，并将其命名为“artificial1”。

此外还自行从网络上搜集了412张图片进行标注(内容包含物品、街拍、商标、文字广告图等)。并且对之前从公有数据集中抽取的用来拼接的图片(原本无标签)也进行了标注，也同样向其中插入了标注过的英文字母表与阿拉伯数字表。形成了1600个样本，每个样本包含一张图片和一个标签文件。并将其命名为“artificial2”。

本发明使用LabelImg软件对其进行了标注，LabelImg软件可以生成Yolo格式或VOC格式的标签文件，Yolo格式用于Yolov5的训练，VOC格式用于FasterRCNN的训练。本发明将新的数据集命名为“artificial”。在实验过程中，本发明还通过数据增强来扩充训练集，数据增强包括：加入椒盐噪声，加入高斯噪声，转为灰度图，调整图片亮度以及以上几种的混合操作。椒盐噪声的焦点占比与高斯噪声的方差值均可手动调整。对训练样本进行数据增强后，可以将样本数量扩充到原来的8倍以上。这些都通过编写特定python代码实现。

ICDAR2013、scut以及自己制作的训练集是用来训练yolov5来检测英文字母与阿拉伯数字的。训练好之后，将训练好的权重用在TotalText上进行训练，使得模型可以检测弯曲文本中的字符。再将训练好的权重用在ICDAR2019(数字，英文字母，汉字)上进行训练，最终得到的权重既可以检测水平文本中的字符，也可以很好地检测弯曲文本中地字符(数字，英文字母，汉字)。其中，在对ICDAR2019进行处理时，依旧使用了数据增强的代码，将原本的20000张图片扩充到了600000张。

其中，步骤103具体包括：

训练Textformer：本发明的文本定位方法叫做“Textformer”，它使用了“Transformer”结构。Textformer的目标是不仅可以检测并识别出整个文本的内容，还可以识别出文本中的单个字符。此外还可以进行多语种的识别(多语种的功能须在字符检测模型能检测汉字和其他字符后才能开展，实现多语种的方法就是训练。例如想要实现检测汉语，那就需要用大量的带有汉语文本的图片来做训练)。过去使用Transformer进行STR的方法基本都使用了卷积神经网络(CNN)来进行图片的特征提取、生成特征序列，然后再将特征序列输入到Transformer中进行文本识别，本发明的模型中只使用了Transformer结构。之前使用“Transformer”的场景文字识别方法都是将含有整个文本区域的标签投入到训练中。而本发明在对数据集处理后，Textformer的训练标签就既包含了整个文本区域，也包含了文本区域中的单个字符。这样的训练会提升模型对单个字符的敏感度，相当于对训练样本进行了数据增强，理论上会使模型的训练表现与预测表现得更好。此外，由于我们给Textformer的训练数据中包含了对单个字符的标注，所以即使是在检测弯曲形状的文本时，也能有不逊于规则形状文本的表现。Transformer最初应用于自然语言处理(NLP)领域，它是Google在2017年提出的，它主要由编码器(Encoder)与解码器(Decoder)构成，使用自注意力机制(self-attention)。

Textformer：其结构由两部分组成——Encoder与Decoder。其中，Encoder是SwinTransformer，Decoder是一个标准的Transformer。结构图如图13所示。

将文本图片输入到SwinTransformer中，会得到一个包含整个图片特征地嵌入向量(Embedding)，在将该向量输入到标准的串行的Transformer中，最终输出图片中的每一个单个字符。

Transformer的基本原理：Transformer提出彻底替代了之前的seq2seq(序列到序列)模型。使用self-attention(自注意力)机制，使得输出的向量能够获取全局(整个句子)的上下文信息。其结构就是编码器和解码器。如图4所示为一个编码器-解码器模块(左边短的为编码器，右边长的为解码器)。

Input Embedding为输入的向量，这个输入可以是整个模型的原始输入，也可以是前一个编码器-解码器模块输出。Positional Encoding为位置编码，即对向量中的每个字符的位置进行序号编码，这样Transformer才能识别出语言中的顺序关系。Multi-HeadAttention(多头注意力)的结构如图5所示。简而言之，self-attention只有一组WQ，WK，WV矩阵，而Multi-HeadAttention可以有多组WQ，WK，WV矩阵，这样就可以让一组输入的向量生成多组不同的Q，K，V向量，每组再使用self-attention，使用Multi-HeadAttention比使用self-attention得出的结果更加优越。这样可以抽取不同距离的上下文信息。抽取到的信息在每一个特征维度上进行Concat(拼接)，然后再用FC(全连接层)来做一个分类。

Add&Norm中，Add代表残差连接，这样可以把模型做得很深，如图6中的“+”号。

Norm代表的是对层的处理，层处理的原理为：将要处理的一个序列中的各个向量计算它们的平均值m和偏差。然后对每一个向量做运算。运算后得到的向量即为层处理的输出。如图7所示，左侧代表传统的批处理，右边代表层处理。d代表dimension(维度)、len代表向量的长度、b代表batch(批，一批中包含若干个向量)。一个维度代表一个特征，传统的批处理是按照每个特征进行分割处理，而层处理是对每一个向量以完整的维度进行处理。

FeedForward就是一个FC(全连接层)，起到对单个向量的分类作用。

如图8所示，经过编码器处理后的向量随着箭头会输入到解码器的Multi-HeadAttention中，解码器中的组成成分与编码器基本相同。Transformer中的编码器-解码器模块可以叠加使用，可见，编码器有两个输入，一个是来自上一个模块的outputs，一个是来自本模块中编码器的输入。在整个模型最后一个编码器的输出上会有一个Linear层(将向量展开成一个线性一维向量)与Softmax层(预测对每个位置的字符的概率)。

SwinTransformer：SwinTransformer的框架如图9所示。相比于ViT，SwinTransfomer采用合并图像块来构建层次化Transformer，如图9所示，它将输入图像划分为多个小块(patch)，随着深度的增加，将相邻的patch合并成一个window。这样做的好处是，不需要每次都在整个图片上做self-attention，只要在每个window内做self-attention，大大减少了计算量。且随着patch的合并，计算量是呈线性增长的。

整个SwinTransformer架构，构建了4个stage，每个stage中都是类似的重复单元。首先，通过patchpartition将尺寸为H*W*3(长度*宽度*通道数)的输入图片划分若干patch，其中每个patch尺寸为4x4(单位：像素)，那么每个patch的特征维度(长度*宽度*通道数)为4*4*3＝48，patch的数量为(H/4)*(W/4)，所以整个特征维度是(H/4)*(W/4)*48。

stage1：通过一个linear embedding将每个patch特征维度从48变成C(C由使用者指定)，然后送入到两个连续的Block中，stage1输出的总特征维度为(H/4)*(W/4)*C；

stage2：通过一个patch merging将相邻patches按照2*2合并(相邻的四个patch合成一个)，这样子patch块的数量就变成了(H/8)*(W/8)，合成后单个patch的特征维度就变成了4C。然后使用linear embedding将4C压缩成2C(图中未画出)再送入两个连续的Block中，stage2输出的总特征维度为(H/8)*(W/8)*2C；

stage3与stage4的流程与stage2相同。最终输出的总特征维度为(H/32)*(W/32)*8C。

Block：SwinTransformer的Block如图10所示，图示为两个连续的Block。在SwinTransformer中，两个连续的Block为一对。两个Block的相同点为都使用了LN层(保证数据特征的稳定性，加速模型收敛速度)、MLP(至少含一个隐藏层的全连接层，用来解决非线性问题)和残差连接(图中的圆圈加号)。不同之处是一个使用W-MSA(window内的多头注意力机制)，另一个则使用SW-MSA(Shiftedwindow的多头注意力机制)。

W-MSA就是在由相邻patch合成的window中进行multi-attention，window的尺寸固定。如图11所示，小块为patch，大方框即为window。

MSA带来的问题是不重合的window之间缺乏交流信息，所以引入SW-MSA，如图12所示，SW-MSA改变了window的划分方式(patch的融合规则)，让window的尺寸处于变化之中。

本发明提供的方法(Textformer)不仅可以检测并识别出整个文本的内容，还可以识别出文本中的单个字符。此外还可以进行多语种的识别。且在弯曲文本的识别中也有不逊于标准形状文本的的表现。相较于传统的通过神经网络进行特征提取再使用CTC算法或注意力机制进行文本识别的方法，本发明由于使用了Transformer所以具有更高的效率。

本发明还提供了一种场景文字识别系统，包括：

其中，还包括：标签处理模块，用于对公用数据集的标签文件进行处理；所述处理包括修改标签文件的内容格式和文件类型。

其中，所述训练样本构建模块具体包括：

裁剪和拼接单元，用于对抽取的场景图片进行裁剪和拼接；

其中，还包括：数据增强处理模块，用于对训练样本中的场景图片进行数据增强处理

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种场景文字识别方法，其特征在于，包括：

2.根据权利要求1所述的场景文字识别方法，其特征在于，在通过所述训练样本训练Yolov5模型，得到字符检测模型之前，还包括：

3.根据权利要求1所述的场景文字识别方法，其特征在于，所述非公用数据集的构建具体包括：

在所述公用数据集和网络图片中抽取预设个数的场景图片；

对抽取的场景图片进行裁剪和拼接；

在拼接后的图片中插入英文字母表和阿拉伯数字表图片。

4.根据权利要求1所述的场景文字识别方法，其特征在于，还包括对训练样本中的场景图片进行数据增强处理。

5.根据权利要求1所述的场景文字识别方法，其特征在于，所述Textformer模型包括编码器和解码器；所述编码器为SwinTransformer模型，所述解码器为Transformer模型。

6.一种场景文字识别系统，其特征在于，包括：

7.根据权利要求6所述的场景文字识别系统，其特征在于，还包括：

8.根据权利要求6所述的场景文字识别系统，其特征在于，所述训练样本构建模块具体包括：

裁剪和拼接单元，用于对抽取的场景图片进行裁剪和拼接；

9.根据权利要求6所述的场景文字识别系，其特征在于，还包括：

数据增强处理模块，用于对训练样本中的场景图片进行数据增强处理。

10.根据权利要求6所述的场景文字识别系，其特征在于，所述Textformer模型包括编码器和解码器；所述编码器为SwinTransformer模型，所述解码器为Transformer模型。