CN109948615B

CN109948615B - 多语言文本检测识别系统

Info

Publication number: CN109948615B
Application number: CN201910232853.0A
Authority: CN
Inventors: 张勇东; 周宇; 谢洪涛; 李岩
Original assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-01-26
Anticipated expiration: 2039-03-26
Also published as: CN109948615A; WO2020192433A1

Abstract

本发明公开了一种多语言文本检测识别系统，包括：文本检测器，用于在输入图像中生成一系列的文本候选框；归一化单元，用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度；脚本识别网络，用于对归一化后的文本候选框中文本的类型进行识别，确定相应文本为符号或者某个具体的语言类型；基于注意力机制的多语言文本识别网络，用于对归一化后的文本候选框中文本内容进行识别。该系统可以同时检测并识别出场景文本图像中的多种语言的文本。

Description

多语言文本检测识别系统

技术领域

本发明涉及人工智能领域，尤其涉及多语言文本检测识别系统。

背景技术

现有的场景文本识别系统主要是针对剪裁后的文本，而不能同时对文本图像进行检测和识别。少数的能同时检测和识别文本的方法却只是针对英文文本，而在现实生活中经常会遇到在同一场景下处理多种语言文本的情况。因此迫切需要一个端到端的多语言场景文本识别系统，这将会给图像检索、机器翻译，自动驾驶等带来很大便利。

发明内容

本发明的目的是提供一种多语言文本检测识别系统，可以同时检测并识别出场景文本图像中的多种语言的文本。

本发明的目的是通过以下技术方案实现的：

一种多语言文本检测识别系统，包括：

文本检测器，用于在输入图像中生成一系列的文本候选框；

归一化单元，用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K；

脚本识别网络，用于对归一化后的文本候选框中文本的类型进行识别，确定相应文本为符号或者某个具体的语言类型；

基于注意力机制的多语言文本识别网络，用于对归一化后的文本候选框中文本内容进行识别。

由上述本发明提供的技术方案可以看出，该系统基于卷积神经网络，并且能同时检测和识别多种语言的文本，相比对传统的文本检测、多语言识别方案均具有较高的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种多语言文本检测识别系统的示意图；

图2为本发明实施例提供的文本检测器的结构示意图；

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种多语言文本检测识别系统，如图1所述，包括：

文本检测器，用于在输入图像中生成一系列密集地的文本候选框；

将输入图像调整为指定尺寸，并对于每一像素点输出M个带有方向的文本候选框；

归一化单元，用于将每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度；

本发明实施例上述系统可以应用于机器翻译，通过在翻译软件的后台中安装该系统，可以识别不同语言的文本，然后翻译成想要的文本。也可以用于自动驾驶，在无人驾驶汽车安装该系统之后，可以检测并识别不同语言的路标，从而选择正确的方向前行。

为了便于理解，下面针对系统各个部分做详细的介绍。

一、文本检测器。

如图2所示，所述文本检测器由4个针对文本而设计的inception模块和3个channel-wise attention(通道上的注意力)与spatial attention(空间上的注意力)模块以及7个卷积层堆叠而成；其中，channel-wise attention是针对特征图的通道而言，输出各通道的重要性级别，即告诉网络哪些通道的信息比较重要；spatial attention是针对特征图的每个像素而言，输出可能包含文本的位置区域，即告诉网络应该更关注特征图的哪些地方。本发明实施例中，inception模块可以使用1×5和5×1的卷积核，由于文本一般都具有很大的宽高比，所以这种卷积核更适合文本。

文本检测器对于每个点输出P个带有方向的文本候选框，然后使用非极大值抑制对这些文本候选框进行处理，得到M个带有方向的文本候选框。

示例性的，每个图像被调整为成256×256之后输入到文本检测器，文本检测器在每个像素点输出14个带有方向的文本候选框，然后使用非极大值抑制(NMS)对这些文本候选框进行处理，去除冗余的文本建议框，加快计算速度。

图2中，3×3表示，卷积操作中使用宽和高都为3的卷积核(1×1含义类似)；7个卷积层对应于图2中的3x3的部分。图2中，16表示卷积操作中的使用16个卷积核(1、2、4、64、256、512的含义类似)；/2表示特征图的分辨率减半；upsample表示上采样操作，作用是将特征图的分辨率变大；f1～f4：分别是各个阶段得到的特征图；segmentation表示文本区域的分割图；box：文本框(发现文本之后用一个矩形框来框出)；angle：文本的角度，有些文本不是水平的，可能有一个角度。

如图2所示，文本检测器的工作流程简述如下：一张输入图像(input image)输入到网络中，依次经过四个卷积层以及inception1、第一个channel-wise attention与spatial attention模块(可简称为注意力模块)、第五个卷积层(3x3,128,/2)、inception2、第二个channel-wise attention与spatial attention模块、第六个卷积层(3x3,256,/2)、第三个channel-wise attention与spatial attention模块、第七个卷积层(3x3,512,/2)，特征图f1的分辨率变为8x8，然后，经过上采样后与第三个channel-wiseattention与spatial attention模块输出的特征图f2相加进行特征融合，得到的特征图经过上采样之后再与第二个channel-wise attention与spatial attention模块输出的特征图f3相加进行特征融合，这里得到的特征图再经过上采样后与第一个channel-wiseattention与spatial attention模块输出的特征图f1相加进行特征融合，再经过inception4进行特征提取。在此过程中，特征图上采样到32x32和64x64的时候分别进行文本候选框的预测(生成文本候选框)。

二、归一化单元。

归一化单元将每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K，这种归一化方法保持了文本候选框的宽高比，避免了候选框变形，为后面的文本识别和文本语言类别识别提供了保障。

相关公式为：

H＇＝K

W＇＝wH＇/h

其中，W＇、H＇分别表示归一化调整后的文本候选框的宽度、高度；w、h分别表示文本候选框的原有的宽度、高度。

示例性的，K可以为64，当然，也可以根据需要改为其他数值。

三、脚本识别网络。

本发明实施例中，脚本识别网络可通过卷积神经网络(CNN)实现，如表1所示，为脚本识别网络的结构，主要包括：多个交替设置的卷积层和最大池化层、位于最后一个最大池化层后端的全局平均池化层，以及位于全局平均池化层后端的全连接层；所述全连接层具有多个(例如，7个)神经元，每一神经元的softmax输出分别代表每一个文本候选框中的文本属于某个语言类型与符号的概率，概率最高的即为文本候选框中文本的类别。

表1脚本识别网络的网络结构

示例性的，全局平均池化层输出1×512的特征图，全连接层可以包含7个神经元，7个神经元的softmax输出7个小数，分别代表每一个文本候选框里面的文本是阿拉伯语，孟加拉语，汉语，韩语，日语，拉丁语和符号的概率，概率最高的即为文本候选框中文本的类别。

四、基于注意力机制的多语言文本识别网络。

本发明实施例中，所述基于注意力机制的多语言文本识别网络使用CNN作为编码器，然后使用CTC解码器来生成字符序列；基于注意力机制的多语言文本识别网络使用channel-wise attention和spatial attention级联来使CTC解码器更关注存在文本的地方，进而提高了文本识别的精度。基于注意力机制的多语言文本识别网络中编码器的结构如表2所示。

表2基于注意力机制的多语言文本识别网络中编码器的结构

另一方面，本发明实施例还预先构建了数据集：训练集、验证集与测试集，分别用于文本检测器、脚本识别网络以及基于注意力机制的多语言文本识别网络的训练、验证与测试；训练集、验证集与测试集中均包含若干剪裁图像与场景文本图像，这两类图像中均包含多种语言类型的文本，且训练集和验证集中的文本均有标注；其中，训练集和验证集中的场景文本图像用于文本检测器与脚本识别网络的训练与验证，剪裁图像用于注意力机制的多语言文本识别网络的训练与验证。

本领域技术人员可以理解，剪裁图像是事先从一幅包含背景与文本的图像中把文本剪裁下来，主要用来训练基于注意力机制的多语言文本识别网络；而场景文本图像是包含背景的大的图像，除了文字之外还包含很多没有文字的空白区域。

示例性的，可以从网上下载ICDAR MLT剪裁图像和场景文本图像，其中剪裁图像有68613幅用于训练，16255幅用于验证，97619幅用于测试；而场景文本图像有7200幅用于训练，1800幅用于验证，9000幅用于测试。这些图像包含阿拉伯文字、孟加拉文字、中文、韩文、日文和拉丁文共6种文字。

本发明实施例中，所述文本检测器可以使用Adam优化器来训练，初始学习率可以设置为0.001，损失函数为；

L_det＝L_geo+L_dice

其中，L_dice是dice损失，dice损失是用来计算语义分割的一种损失函数，比如说一个区域，对于每个像素而言，如果这个像素是文本，则它的值是1，不是文本则为0；如果预测结果为文本，则这个像素的dice损失为0，否则损失就为1，L_dice是所有像素的损失之和；L_geo是文本候选框和ground-truth(文本的标注)的IoU(交并比)损失L_IoU与角度损失L_θ之和：L_geo＝L_IoU+λ_θL_θ，λ_θ为设定的系数，示例性的，可以设为1。本领域技术人员可以理解，Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。

本发明实施例中，所述脚本识别网络可以使用随机梯度下降算法来优化；可以设置：momentum为0.9，初始学习率为0.001，每5个epoches学习率变为十分之一。

本发明实施例中，所述基于注意力机制的多语言文本识别网络可以使用Adam优化器来训练，可以设置：初始学习率为0.001，β₁＝0.9，β₂＝0.99。

本发明实施例上述方案，完全基于卷积神经网络，并且能在一个模型中同时检测和识别多种语言的文本。该系统在多语言数据集ICDAR RRC-MLT测试集上的定位和语言类型识别上的precision(准确率)、recall(召回率)和F-Measure(F值)分别是0.6968，0.6425和0.6687，而现有方法最好的结果分别是0.5759，0.6207，0.5974，相比之下，我们的方法有了很大的提高。此外，该方法在端到端识别ICDAR RRC-MLT测试集的precision、recall和F-Measure分别是0.502，0.424和0.460。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多语言文本检测识别系统，其特征在于，包括：

文本检测器，用于在输入图像中生成一系列的文本候选框；所述文本检测器由4个针对文本而设计的inception模块和3个channel-wise attention与spatial attention模块以及7个卷积层堆叠而成；其中，channel-wise attention是针对特征图的通道而言，输出各通道的重要性级别；spatial attention是针对特征图的每个像素而言，输出包含文本的位置区域；文本检测器的工作流程如下：输入图像，依次经过四个卷积层、第一个inception模块、第一个channel-wise attention与spatial attention模块、第五个卷积层、第二个inception模块、第二个channel-wise attention与spatial attention模块、第六个卷积层、第三个channel-wise attention与spatial attention模块、以及第七个卷积层，得到特征图f1，然后，经过上采样后与第三个channel-wise attention与spatial attention模块输出的特征图f2相加进行特征融合，得到的特征图经过上采样之后再与第二个channel-wise attention与spatial attention模块输出的特征图f3相加进行特征融合，这里得到的特征图再经过第三个inception模块以及上采样后与第一个channel-wise attention与spatial attention模块输出的特征图f4相加进行特征融合，再经过inception4进行特征提取，其中，利用第三个inception模块与第四个inception模块的输出进行文本候选框的预测，也即生成文本候选框；

脚本识别网络，用于对归一化后的文本候选框中文本的类型进行识别，确定相应文本为符号或者某个具体的语言类型；所述脚本识别网络包括：多个交替设置的卷积层和最大池化层、位于最后一个最大池化层后端的全局平均池化层，以及位于全局平均池化层后端的全连接层；所述全连接层具有多个神经元，每一神经元的softmax输出分别代表每一个文本候选框中的文本属于某个语言类型与符号的概率，概率最高的即为文本候选框中文本的类别；

基于注意力机制的多语言文本识别网络，用于对归一化后的文本候选框中文本内容进行识别；所述基于注意力机制的多语言文本识别网络使用CNN作为编码器，然后使用CTC解码器来生成字符序列；基于注意力机制的多语言文本识别网络使用channel-wiseattention和spatial attention级联来使CTC解码器更关注有文本的地方。

2.根据权利要求1所述的一种多语言文本检测识别系统，其特征在于，文本检测器对于每个点输出P个带有方向的文本候选框，然后使用非极大值抑制对这些文本候选框进行处理，得到M个带有方向的文本候选框。

3.根据权利要求1所述的一种多语言文本检测识别系统，其特征在于，所述归一化单元按照如下公式在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K：

H＇＝K

W＇＝wH＇/h

4.根据权利要求1所述的一种多语言文本检测识别系统，其特征在于，

所述文本检测器使用Adam优化器来训练，损失函数为；

L_det＝L_geo+L_dice

其中，L_dice是dice损失；L_geo是文本候选框和ground-truth的IoU损失L_IoU与角度损失L_θ之和：L_geo＝L_IoU+λ_θL_θ，λ_θ为设定的系数；

所述脚本识别网络使用随机梯度下降算法来优化；

所述基于注意力机制的多语言文本识别网络使用Adam优化器来训练。

5.根据权利要求4所述的一种多语言文本检测识别系统，其特征在于，构建了训练集、验证集与测试集，用于文本检测器、脚本识别网络以及基于注意力机制的多语言文本识别网络的训练、验证与测试；训练集、验证集与测试集中均包含若干剪裁图像与场景文本图像，这两类图像中均包含多种语言类型的文本，且训练集和验证集中的文本均有标注；其中，训练集和验证集中的场景文本图像用于文本检测器与脚本识别网络的训练与验证，剪裁图像用于注意力机制的多语言文本识别网络的训练与验证。