CN114898345A

CN114898345A - 一种阿拉伯语文本识别方法及系统

Info

Publication number: CN114898345A
Application number: CN202111537042.5A
Authority: CN
Inventors: 吕岳; 钟大鉴; 吕淑静
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-08-12

Abstract

本发明公开一种阿拉伯语文本识别方法及系统，其方法包括步骤：对输入图像进行特征提取，获取具有高级语义的特征图F；从特征图F中获取每个时间步的通道注意力特征Ac；从特征图F中获取每个时间步的空间注意力特征As；对特征图F、通道注意力特征Ac以及空间注意力特征As进行融合，获得融合特征；对融合特征进行识别，获得文本结果。本发明采取的技术方案，能够大幅度减少特殊字符漏识别以及多识别问题，提高自然场景下的阿拉伯语文本识别准确率。

Description

一种阿拉伯语文本识别方法及系统

技术领域

本发明涉及识别处理技术领域，尤其涉及一种阿拉伯语文本识别方法及系统。

背景技术

将图像中的文本识别出来，是计算机模式识别比较成熟的技术，比如中文、英文、西班牙等一些主流的语种，由于拥有大规模的人群使用，积累了庞大的数据资源，也得到了深入的研究，因此目前市面上的OCR技术已经能够把大部分的文字识别出来了。

但是对于一些小语种，尤其是那些使用人数较少的、经济不发达地区使用的“小语种”，相关的图文研究比较少，其数据资源也相对稀缺，再加上小语种所特有的符号和书写习惯，目前的OCR技术并不能有效识别出来。

各个国家都有各自的语言，语种也比较丰富，各民族的语言符号也差异比较大，以阿拉伯语为例，其文本方向是从右到左、每个字母在字中的不同位置具有不同的形状、字母上下的点号和读音符号、字母之间连线的延长线长度可变、垂直或水平连写、以及不同字母的大小不同(高度和宽度)等等特点，使得目前成熟的OCR识别技术几乎难以识别出来。

发明内容

本发明为解决现有技术中存在的技术问题，本发明提供一种阿拉伯语文本识别方法，应用在阿拉伯语文本识别系统，包括步骤：

对输入图像进行特征提取，获取具有高级语义的特征图F；

从特征图F中获取每个时间步的通道注意力特征Ac；

从特征图F中获取每个时间步的空间注意力特征As；

对特征图F、通道注意力特征Ac以及空间注意力特征As进行融合，获得融合特征；

对融合特征进行识别，获得文本结果。

进一步地，对融合特征进行识别，获得文本结果的步骤中，还包括阿拉伯字形建模步骤：

构建训练数据集；

将阿拉伯语每个字符各个字形加入到识别单元的总类别中；

统计训练数据集中各连写元素出现的频率，将频率大于预设值的连写元素加入到识别单元的总类别中；

统计训练数据集中的特殊符号，将出现频率大于预设值的特殊符号加入到识别单元的总类别中；

整理分类编号，形成模型类别号。

本发明还提供一种阿拉伯语文本识别系统，包括特征提取单元、通道注意力网络单元、空间注意力网络单元、编码单元、识别单元，其中：

特征提取单元用以对输入图像进行特征提取，获取具有高级语义的特征图 F；

通道注意力网络单元用以从特征图F中获取每个时间步的通道注意力特征 Ac；

空间注意力网络单元用以从特征图F中获取每个时间步的空间注意力特征 As；

编码单元用以对特征图F、通道注意力特征Ac以及空间注意力特征As进行融合，获得融合特征；

识别单元用以对融合特征进行识别，获得文本结果。

进一步地，还包括预处理单元，用以对输入图像进行预处理后再输入给特征提取单元。

进一步地，所述特征提取单元包括Resnet模块、FPN模块和特征融合模块，其中：

Resnet模块由4个卷积模块串联构成，用以对输入图像提取特征，得到3个不同深度的语义层特征C2、C3和C4；

FPN模块用以将语义层特征C2、C3和C4融合形成对应的M2、M3和M4输出，其结构为：语义层特征C4的输出接入卷积层得到特征M4；语义层特征C3 的输出接入卷积层提取特征，再与语义层特征M4的2倍上采样特征相加得到特征M3；语义层特征C2的输出接入卷积层提取特征，再与语义层特征M3的2倍上采样特征相加得到特征M2；

特征融合模块用以对特征M2、M3和M4进行融合得到特征图F，其结构为：特征M4经过卷积层和上采样层得到特征M4_1；特征M3经过卷积层得到特征 M3_1，特征M2经过卷积层和下采样层得到特征M2_1，特征M4_1、M3_1和 M2_1相加得到特征图F。

进一步地，通道注意力网络单元包括平均池化层和多线性网络，其中：

平均池化层从特征图F获得与特征图F通道数相等的特征，特征尺寸大小为(1，1，c)，并输入到多线性网络，最后经过激活函数得到每个时间步的通道注意力Ac，其特征尺寸大小为(T，1，1，c)。

进一步地，空间注意力网络单元包括一个卷积层、二个下采样卷积层和二个上采样卷积层依次串联而成，最后通过激活函数得到每个时间步的空间注意力As。

进一步地，编码单元获得融合特征的计算方法为：

选择t时刻的融合特征F_t，其中1≤t≤T；

取通道注意力Ac(T，1，1，c)第1维第t个特征Ac_t，其特征尺寸大小为(1，1，c)；

取空间注意力As(H/4，W/4，T)第3维第t个特征As_t，其特征尺寸大小为(H/4，W/4)，扩充第三个维度并将其尺寸大小扩充到c，最终As_t尺寸大小为(H/4，W/4，c)；

计算融合特征F_t＝Ac_t×As_t×F。

进一步地，识别单元由多个LSTM单元串联而成，在t时刻，将t-1时刻的隐状态S_t-1，以及编码单元的融合特征，输入到LSTM单元中，得到t时刻的字符输出，如此将每个时刻的输出结果形成的字符序列输出。

本发明还公开一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行任一所述的阿拉伯语文本识别方法。

本发明公开的方法和系统中所述模块，在实际应用中，既可以在一台目标服务器上部署多个模块，也可以每一模块独立部署在不同的目标服务器上，特别的，根据需要，为了提供更强大的计算处理能力，也可以根据需要将模块部署到集群目标服务器上。

由此可见，本发明采取的技术方案，能够大幅度减少特殊字符漏识别以及多识别问题，提高自然场景下的阿拉伯语图像文本识别准确率。

为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种阿拉伯语文本识别系统的结构示意图；

图2为本发明实施例的一种特征提取单元的结构示意图；

图3为本发明实施例的通道注意力网络单元和空间注意力网络单元结构示意图；

图4为本发明实施例识别单元结构示意图；

图5为本发明实施例识别阿拉伯文本效果示意图。

具体实施方式

本发明针对阿拉伯语的现状和现有技术的缺陷，提出的一种阿拉伯语文本识别方法，大大提升了阿拉伯语的识别能力，其识别步骤包括：

对输入图像进行特征提取，获取具有高级语义的特征图F；

从特征图F中获取每个时间步的通道注意力特征Ac；

从特征图F中获取每个时间步的空间注意力特征As；

对融合特征进行识别，获得文本结果。

此外，针对阿拉伯语言的书写风格，本发明基于上述实施例的基础上，在对融合特征进行识别，获得文本结果的步骤中，还包括对阿拉伯的字形进行建模，其步骤包括：

构建训练数据集；

将阿拉伯语每个字符各个字形加入到识别单元的总类别中；

统计训练数据集中各连写元素出现的频率，将频率大于预设值的连写元素加入到识别单元的总类别中，比如将将频率大于300的连写元素加入到识别单元总类别中。

统计训练数据集中的特殊符号，将出现频率大于预设值的特殊符号加入到识别单元的总类别中，比如将出现频率大于1的特殊符号加入到识别单元的总类别中，

整理分类编号，形成模型类别号，在一些实际的实例中，可以形成2000 个模型类别号。

本发明除了适合于阿拉伯语言外，在具有类似阿拉伯语的文本特征的文本图像上，也具有很好的识别效果，除了阿拉伯语种之外，采用本发明的方案应用在其他语种均属于本发明的保护范围。为了进一步体现本发明技术方案带来的技术改进和进步，本发明以阿拉伯语作为例子，进一步展开详细的介绍。

目前使用阿拉伯语言的大约以西亚十二国家为主，还有非洲一些国家，阿拉伯语言的特点主要在于：其文本方向是从右到左、每个字母在字中的不同位置具有不同的形状、字母上下的点号和读音符号、字母之间连线的延长线长度可变、垂直或水平连写、以及不同字母的大小不同(高度和宽度)等等特点。

请参阅图1，本发明还公开一种阿拉伯语文本识别系统，包括特征提取单元、通道注意力网络单元、空间注意力网络单元、编码单元、识别单元，其中：

识别单元用以对融合特征进行识别，获得文本结果。

下面结合上述的阿拉伯语文本识别方法以及阿拉伯语文本识别系统，进一步展开说明本发明的技术方案。

首先，特征提取单元用以对输入图像进行特征提取，获取具有高级语义的特征图F。

请参阅图2，作为一种优选的实施方式，图2为本发明实施例的一种特征提取单元的结构示意图。特征提取单元包括Resnet模块、FPN模块和特征融合模块，其中：Resnet模块由4个卷积模块串联构成，即图中的卷积模块Conv1、 Conv2、Conv3、Conv4，用以对输入图像提取特征，从后面的三个卷积模块 Conv2、Conv3、Conv4分别得到3个不同深度的语义层特征C2、C3和C4；

FPN模块用以将语义层特征C2、C3和C4融合形成对应的M2、M3和M4输出，其结构为：语义层特征C4的输出接入卷积层得到特征M4；语义层特征C3 的输出接入卷积层提取特征，再与语义层特征M4的2倍上采样特征相加得到特征M3；语义层特征C2的输出接入卷积层提取特征，再与语义层特征M3的2倍上采样特征相加得到特征M2，在本实施例中，FPN模块中的卷积层均选择为 1×1的卷积层来实现。

特征融合模块用以对特征M2、M3和M4进行融合得到特征图F，特征M4 经过一个卷积层和一个上采样层形成特征M4_1，特征M3经过一个卷积层形成特征M3_1，特征M2经过一个卷积层和一个下采样层形成特征M2_1，此时， M4_1、M3_1和M2_1具有同样大小的特征尺寸，将M4_1、M3_1和M2_1相加形成最终的融合特征F，在特征融合模块里使用到的卷积层，均选择3×3的卷积层实现。

本实施例中，Resnet模块可以使用Resnet-50作为骨干特征提取网络，后3 个卷积模块分别输出3个不同深度语义层的输出特征，对应为特征C2、C3和C4。

然后采用FPN结构将各个语义层的特征融合，对应得到的特征M2、M3和M4输出；使用融合模块将这三层对应输出融合形成最终的特征图F，该特征图 F大小为(H/4，W/4，c)，其中H和W为输入图像的高度和宽度。

本发明在研究的过程中，发现阿拉伯语字符的上方或下方有点号，和其他语言较大的差异，在特征提取单元中，如果卷积模块的下采样直接使用常规的 MaxPooling模块实现，会使特征丢失重要的点号信息，因此，针对阿拉伯的特点进行研究，提出一种改进优选的方式，在卷积模块中的下采样通过步长为2、 padding为1的3×3卷积来实现的，从而可以获得文本信息中包含的点号信息。

在上述特征提取特征的基础上，本发明提出更优选的一种方式，即在每个卷积模块卷积模块Conv1、Conv2、Conv13、Conv4的后面接入CBAM模块，从而可以关注到图像文本的文本区域信息。

作为一种优选的实施方式，在特征提取单元提取输入图像之前，可以先对输入图像进行预处理，从而增强文本识别系统的鲁棒性，针对阿拉伯语言的特征，本发明的预处理包括：

第一，由于阿拉伯语的音调类似于汉语的拼音，不会影响文本的语义信息，因此将标注文件中的音调字符全部去除；

第二，将待输入图像进行矫正，减少倾斜过大对文本识别造成的影响；

第三，将矫正的输入图像的尺寸进行统一，比如高度缩放至64，宽度缩放至256；

第四，该文本图像经过特征增强(调整对比度、亮度、灰度值和高斯噪声) 和图像归一化后，把该文本图像输入到特征提取模块。

其次，在获得特征图F之后，分别提取每个时间步通道注意力Ac和每个时间步的空间注意力As，编码单元再对特征图F(特征尺寸为(H/4，W/4，c))、通道注意力特征Ac(特征尺寸为(T，1，1，c))以及空间注意力特征As(特征尺寸为(特征尺寸为(H/4，W/4，T))进行融合，获得融合特征F_t计算方式：

选择t时刻的融合特征F_t，其中1≤t≤T；

计算融合特征F_t＝Ac_t×As_t×F。

请参阅图3，作为一种优选的实施方式，本发明的通道注意力网络单元包括平均池化层和多线性网络，其中：

平均池化层从特征图F获得与特征图F通道数相等的特征，特征尺寸大小为(1，1，c)，即宽度和高度均为1，通道数量不变。并输入到多层感知机 (MLP)或者多线性网络，最后经过激活函数得到每个时间步的通道注意力 Ac，其特征尺寸大小变为(T，1，1，c),其中T为输出序列的最大尺寸，即产生T个高度和宽度均为1，通道数量为c的特征图，激活函数可以选择 sigmoid。

空间注意力网络单元包括一个卷积层(Conv_0)、二个下采样卷积层 (Conv_1、Conv_2)和二个上采样卷积层(Conv_3、Conv_4)依次串联而成，并最后通过激活函数得到每个时间步的空间注意力As，具体实现的过程为：空间注意力网络单元首先经过一个卷积层(Conv_0)，两个下采样卷积层 (Conv_1、Conv_2)降低输入特征的尺度到(H/16，W/16，c)，再由两个卷积层(Conv_3、Conv_4)将输入特征尺度回复到(H/4，W/4，T)，最后产生T个与输入特征图F高度和宽度相同的特征图，即每个时间步的空间注意力As。

最后，在获得融合特征之后，识别单元用以对融合特征进行识别，获得文本结果。

请参阅图4，作为一种优选的实施方式，识别单元由多个LSTM单元串联而成，其实现的过程如下：

LSTM是一个时间序列处理的网络结构，在t时刻，将t-1时刻的隐状态 S_t-1，通道注意力网络单元中第t个线性层的输出Ac_t，其尺度大小为(1，1，c)，空间注意力网络单元第t个通道的特征As_t，其尺度大小为(H/4，W/4)，以及特征提取单元的输出F，输入到LSTM单元中，得到t时刻的字符输出，如此将每个时刻的输出结果连接到一起，形成最终的预测字符串。

请参阅图5，图5为本发明实施例在识别阿拉伯文本效果示意图，经过实际验证，本发明能够大大提高了文本的识别能力。

本发明实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任一所述的阿拉伯语文本识别方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，ReadOnlyMemory)、随机存取存储器(RAM， RandomAccessMemory)、磁盘或光盘等。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说是轻而易举的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种阿拉伯语文本识别方法，其特征是，应用在阿拉伯语文本识别系统，包括步骤：

对输入图像进行特征提取，获取具有高级语义的特征图F；

从特征图F中获取每个时间步的通道注意力特征Ac；

从特征图F中获取每个时间步的空间注意力特征As；

对融合特征进行识别，获得文本结果。

2.如权利要求1所述的阿拉伯语文本识别方法，其特征是，对融合特征进行识别，获得文本结果的步骤中，还包括阿拉伯字形建模步骤：

构建训练数据集；

将阿拉伯语每个字符各个字形加入到识别单元的总类别中；

整理分类编号，形成模型类别号。

3.一种阿拉伯语文本识别系统，其特征是，包括特征提取单元、通道注意力网络单元、空间注意力网络单元、编码单元、识别单元，其中：

特征提取单元用以对输入图像进行特征提取，获取具有高级语义的特征图F；

通道注意力网络单元用以从特征图F中获取每个时间步的通道注意力特征Ac；

空间注意力网络单元用以从特征图F中获取每个时间步的空间注意力特征As；

识别单元用以对融合特征进行识别，获得文本结果。

4.如权利要求1所述的阿拉伯语文本识别系统，其特征是，还包括预处理单元，用以对输入图像进行预处理后再输入给特征提取单元。

5.如权利要求1所述的阿拉伯语文本识别系统，其特征是，所述特征提取单元包括Resnet模块、FPN模块和特征融合模块，其中：

FPN模块用以将语义层特征C2、C3和C4融合形成对应的M2、M3和M4输出，其结构为：语义层特征C4的输出接入卷积层得到特征M4；语义层特征C3的输出接入卷积层提取特征，再与语义层特征M4的2倍上采样特征相加得到特征M3；语义层特征C2的输出接入卷积层提取特征，再与语义层特征M3的2倍上采样特征相加得到特征M2；

特征融合模块用以对特征M2、M3和M4进行融合得到特征图F，其结构为：特征M4经过卷积层和上采样层得到特征M4_1；特征M3经过卷积层得到特征M3_1，特征M2经过卷积层和下采样层得到特征M2_1，特征M4_1、M3_1和M2_1相加得到特征图F。

6.如权利要求1所述的阿拉伯语文本识别系统，其特征是，通道注意力网络单元包括平均池化层和多线性网络，其中：

7.如权利要求1所述的阿拉伯语文本识别系统，其特征是，空间注意力网络单元包括一个卷积层、二个下采样卷积层和二个上采样卷积层依次串联而成，最后通过激活函数得到每个时间步的空间注意力As。

8.如权利要求1所述的阿拉伯语文本识别系统，其特征是，编码单元获得融合特征的计算方法为：

选择t时刻的融合特征F_t，其中1≤t≤T；

计算融合特征F_t＝Ac_t×As_t×F。

9.如权利要求1所述的阿拉伯语文本识别系统，其特征是，识别单元由多个LSTM单元串联而成，在t时刻，将t-1时刻的隐状态S_t-1，以及编码单元的融合特征，输入到LSTM单元中，得到t时刻的字符输出，如此将每个时刻的输出结果形成的字符序列输出。

10.一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，其特征在于，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至2任一所述的阿拉伯语文本识别方法。