CN113628127A

CN113628127A - 文字图像高光去除、文字识别方法及装置

Info

Publication number: CN113628127A
Application number: CN202110779127.8A
Authority: CN
Inventors: 全卫泽; 侯诗玉; 王超群; 江敬恩; 严冬明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-11-09
Anticipated expiration: 2041-07-09
Also published as: CN113628127B

Abstract

本发明提供一种文字图像高光去除、文字识别方法及装置，所述文字图像高光去除方法包括：确定带有高光的文字图像；将带有高光的文字图像输入至高光去除模型，得到高光去除模型输出的高光去除后的文字图像。本发明通过高光去除模型提取带有高光的文字图像对应的高光区域掩膜特征，从而可以准确定位文字图像的高光区域，聚焦于文字图像中被高光区域遮挡的文字信息。然后，高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合，得到融合特征，并对融合特征进行编码和解码后，从而可以准确恢复高光区域的文字信息，以得到高光去除后的文字图像。

Description

文字图像高光去除、文字识别方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文字图像高光去除、文字识别方法及装置。

背景技术

受周围环境和物体表面材质的影响，高光在自然图像中广泛存在。高光去除技术可以改善图像质量并有利于许多视觉任务，如立体匹配、文字识别、图像分割以及图像一致性等。

传统方法中对图像进行高光去除主要包括如下方法：(1)基于双色反射模型对图像进行高光去除，双色反射模型假设图像的亮度可以用漫反射和镜面反射的线性组合来表示。(2)基于最大色度-强度空间中漫反射点和镜面反射点的分布，通过识别漫反射的最大色度，然后采用镜面反射-漫反射机制分离反射分量。(3)观察到彩色图像中局部的漫反射最大色度平滑变化，通过采用双边滤波提升了色度估计的实时性和鲁棒性。(4)基于强度比的高光去除方法，通过在伪色度空间中将像素划分为不同的簇来分离高光。(5)为了利用彩色图像的全局信息进行镜面反射分离，基于双色反射模型的全局颜色线约束方法(6)利用面部图像的物理先验和统计先验共同估计光照环境，并从不同光照颜色的人脸中去除高光。(7)将图像中漫反射和镜面反射的估计重新定义为可以近似求解的具有稀疏约束的能量最小化。然而，这个过程是相对低效的。(8)基于一种凸优化框架，可以有效地去除自然图像的彩色和单色区域的暗高光。这些基于双色反射模型的方法在处理具有不同颜色和复杂纹理的图像时往往性能有限，并且由于需要预处理操作导致效率较低、实用性弱。(9)基于图像修复的方法主要是借鉴图像修复界的技术，通过无高光污染区域的信息来恢复图像的高光区域背后的原始图像内容。通过结合基于光照的约束来去除高光。(10)基于矢量滤波器，将其整合到修复过程中，以消除镜面反射。(11)基于颜色线投影的高光修复方法，但是这种方法需要两张不同曝光时间的图像。(12)针对医学图像如内窥镜、阴道镜等，也有使用基于图像修复方法进行高光去除的技术。然而，这些基于图像修复的方法仅对具有小区域高光污染的图像有效。(13)考虑到单幅图像高光去除的复杂性，传统方法中也提出了基于深度神经网络的方法进行高光去除，如卷积神经网络(Convolutional Neural Network，CNN)和生成对抗网络(Generative Adversarial Network,GAN)。(14)通过感知器人工神经网络来检测牙齿图像的镜面反射，然后使用平滑空间滤波器递归校正镜面反射。(15)由于缺乏成对的训练数据，采用循环GAN框架，并引入了一种自正则化损失，用于减少非镜面区域的图像修改。(17)采用GAN框架，提出一种多类鉴别器，对真实图像和原始输入图像生成的漫反射图像进行分类。(18)采用两种深度模型(Spec-Net和Spec-CGAN)用于去除面部高光。其中Spec-Net以强度通道作为输入，Spec-CGAN以RGB图像作为输入。然而，这些基于深度学习的方法需要大规模的训练数据，特别是需要对真实世界的图像进行必要的标注，这非常耗时，甚至难以收集。

此外，现有的高光去除方法主要对医学图像、自然图像和特定物体图像进行处理，缺乏聚焦于文本图像的工作，由于文本图像具有不同形状以及不同方向，因此基于现有的高光去除方法无法准确对带有高光的文本图像进行高光去除。

发明内容

本发明提供一种文字图像高光去除、文字识别方法及装置，用以解决现有技术中无法高精度对文本图像进行高光去除的缺陷。

本发明提供一种文字图像高光去除方法，包括：

确定带有高光的文字图像；

将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像；

其中，所述高光去除模型是基于带有高光区域标记的样本文字图像，以及所述样本文字图像对应的高光去除样本文字图像训练得到的；所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后，融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征，并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。

根据本发明提供的一种文字图像高光去除方法，所述将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像，包括：

将所述带有高光的文字图像输入至所述高光去除模型的特征提取层，得到所述特征提取层输出的所述带有高光的文字图像特征以及所述高光区域掩膜特征；

将所述带有高光的文字图像特征以及所述高光区域掩膜特征输入至所述高光去除模型的特征融合层，由所述特征融合层对所述带有高光的文字图像特征以及所述高光区域掩膜特征进行融合，得到所述特征融合层输出的所述融合特征；

将所述融合特征输入至所述高光去除模型的特征编解码层，由所述特征编解码层对所述融合特征进行编码和解码，得到所述特征编解码层输出的所述高光去除后的文字图像。

根据本发明提供的一种文字图像高光去除方法，所述特征编解码层包括编码器，特征处理模块以及解码器；

所述将所述融合特征输入至所述高光去除模型的特征编解码层，由所述特征编解码层对所述融合特征进行编码和解码，得到所述特征编解码层输出的所述高光去除后的文字图像，包括：

将所述融合特征输入所述编码器，由所述编码器对所述融合特征进行编码，得到所述编码器输出的编码后的融合特征；

将所述编码后的融合特征输入至所述特征处理模块，由所述特征处理模块对所述编码后的融合特征进行深度特征提取，得到所述特征处理模块输出的深度融合特征；

将所述深度融合特征输入至所述解码器，由所述解码器对所述深度融合特征进行解码，得到所述解码器输出的所述高光去除后的文字图像。

根据本发明提供的一种文字图像高光去除方法，所述特征提取层包括三个下采样层和三个上采样层，且各下采样层后面包含两个卷积层，以及各上采样层后面包含三个卷积层。

根据本发明提供的一种文字图像高光去除方法，所述高光去除模型的损失函数为：

L_P＝50×||I_out-I_gt||₁+0.1×(||I_out(i，j)-I_gt(i-1，j)||₁+||I_out(i，j)-I_gt(i，j-1)||₁)；

L_F＝0.05×||Φ(I_out)-Φ(I_gt)||₁+120×||Ψ(I_out)-Ψ(I_gt)||₁；

L_G＝-E[D(I_out)]；

其中，L表示所述高光去除模型的损失函数值，M_out表示所述高光去除模型输出的高光区域掩膜特征，M_gt表示所述样本文字图像高光区域的高光二值化掩膜标签，I_out表示所述高光去除模型输出的高光去除后的样本文字图像，I_gt表示所述样本文字图像对应的高光去除样本文字图像，I_out(i，j)表示I_out对应位置的像素，Φ(I_out)和Φ(I_gt)表示对应在VGG-16预训练模型上的特征图，Ψ(I_out)和Ψ(I_gt)表示对应的Gram矩阵，E表示在对应分布下的数学期望，D(I_out)表示对应的鉴别器的输出，φ_c(I_out)和φ_c(I_gt)表示对应在文字检测模型上的特征图，φ_d(I_out)和φ_d(I_gt)表示对应在文字识别模型上的特征图，

和λ_G为常数。

本发明还提供一种文字图像高光去除装置，包括：

高光图像确定单元，用于确定带有高光的文字图像；

高光去除单元，用于将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像；

本发明还提供一种文字识别方法，包括：

确定待识别文字图像，并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；

基于所述高光去除后的待识别文字图像，确定文字识别结果。

本发明还提供一种文字识别装置，包括：

识别图像确定单元，用于确定待识别文字图像，并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；

文字识别单元，用于基于所述高光去除后的待识别文字图像，确定文字识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文字图像高光去除方法的步骤；和/或，所述处理器执行所述计算机程序时实现如上述任一种所述文字识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文字图像高光去除方法的步骤；和/或，所述计算机程序被处理器执行时实现如上述任一种所述文字识别方法的步骤。

本发明提供的文字图像高光去除、文字识别方法及装置，通过高光去除模型提取带有高光的文字图像对应的高光区域掩膜特征，从而可以准确定位文字图像的高光区域，聚焦于文字图像中被高光区域遮挡的文字信息。然后，高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合，得到融合特征，并对融合特征进行编码和解码后，从而可以准确恢复高光区域的文字信息，以得到高光去除后的文字图像。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文字图像高光去除方法的流程示意图；

图2是本发明提供的高光去除模型的结构示意图；

图3是本发明提供的文字图像高光去除装置的结构示意图；

图4是本发明提供的文字识别方法的流程示意图；

图5是本发明提供的文字识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对此，本发明提供一种文字图像高光去除方法。图1是本发明提供的文字图像高光去除方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定带有高光的文字图像；

步骤120、将带有高光的文字图像输入至高光去除模型，得到高光去除模型输出的高光去除后的文字图像；

其中，高光去除模型是基于带有高光区域标记的样本文字图像，以及样本文字图像对应的高光去除样本文字图像训练得到的；高光去除模型用于提取带有高光的文字图像特征以及带有高光的文字图像对应的高光区域掩膜特征后，融合带有高光的文字图像特征以及高光区域掩膜特征得到融合特征，并对融合特征进行编码和解码后得到高光去除后的文字图像。

具体地，由于拍摄条件和技巧，文字图像中往往会出现一些高光的情况，若高光出现在文字图像的文字部分，则会影响对文字图像进行文字识别。

带有高光的文字图像可以是待进行文字识别的图像，也可以是待进行图像分类的图像，为了保证识别或分类的精度，需要先取去除文字图像中的高光部分，以得到高光去除后的文字图像，从而后续可以基于高光去除后的文字图像准确进行文字识别、图像分类等。

本发明实施例将带有高光的文字图像输入至高光去除模型，高光去除模型首先从带有高光的文字图像中提取带有高光的文字图像特征以及带有高光的文字图像对应的高光区域掩膜特征，从而基于高光区域掩膜特征可以准确定位文字图像的高光区域，即可以聚焦于文字图像中被高光区域遮挡的文字信息。接着，高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合，得到融合特征，并对融合特征进行编码和解码后，恢复高光区域的文字信息，以得到高光去除后的文字图像，从而可以基于高光去除后的文字图像应用于立体匹配，文字识别，图像分割，图像一致性检测等使用场景。

其中，在将带有高光的文字图像输入至高光去除模型之前，还可以预先训练得到高光去除模型，具体可以通过执行如下步骤实现：首先，收集大量样本文字图像以及样本文字图像对应的高光去除样本文字图像，通过人工标记样本文字图像中的高光区域。随即，基于带有高光区域标记的样本文字图像，以及样本文字图像对应的高光去除样本文字图像对初始模型进行训练，从而得到高光去除模型。

此外，本发明实施例中的样本文字图像包括两类图像：一类身份证和驾驶证图像，另一类是产品或街景图像。其中，身份证和驾驶证对应的带有高光区域标记的样本文字图像以及样本文字图像对应的高光去除样本文字图像是基于如下过程获取的：

在本发明实施例中，收集了三个高质量的数据集，包括一个真实数据集和两个合成数据集。对于真实数据集，本发明实施例采集了2025张图像：具有高光的样本文字图像，相应的高光去除样本文字图像和高光区域标记的二值掩膜图像。

上述数据集中图像内容包括身份证和驾驶证，包含大量的文字信息。首先把透明塑料薄膜放在图片上，然后打开灯进行拍摄，获得带有高光的样本文字图像。相应地，通过关灯得到一个对应的高光去除样本文字图像。通过调整塑料薄膜的位置，得到不同形状与强度的高光，进而得到多个不同的带有高光的样本文字图像。将带有高光和高光去除的样本文字图像通过差分和多阈值筛选得到二值掩模图像。上述数据集(记为RD)被随机分为训练集(1800张)和测试集(225张)。

为了进一步丰富本发明实施例中高光去除模型训练样本的多样性，本发明实施例使用3D计算机图形软件Blender构建了两组合成数据集，具体过程为：

首先从超市和街道收集了3679张图片和上文提到的2025张图片，然后使用Blender Cycles引擎自动生成27,700组带有高光的样本文字图像，以及相应的高光去除样本文字图像和高光区域掩膜。其中，高光形状包括圆形、三角形、椭圆和圆环，以模拟现实场景中的照明条件。其中，材料粗糙度随机设置在[0.1,0.3]范围内，照明强度在[40,70]范围内随机选择。为了使图像的文本区域覆盖高光，将文本检测模型CTPN获得的文本区域的位置信息提供给Blender。

因为产品或街景类别每幅图片包含的文本较少，而身份证和驾照中的文本更密集。在相同的光照条件下，这两种图像中高光干扰下的文本信息恢复的难度是不同的。因此将上述两类图像分为两个数据集，即SD1和SD2。SD1包含12000个训练集和2000个测试集。SD2包含12000个训练集和1700个测试集。其中，SD1和SD2的图像内容是相同的。

由此可见，本发明实施例将数据集RD、SD1和SD2作为训练样本，用于训练高光去除模型，从而可以使得训练完成的高光去除模型能够精确定位文字图像中的高光区域，并恢复高光区域中的文字信息。

本发明实施例提供的文字图像高光去除方法，通过高光去除模型提取带有高光的文字图像对应的高光区域掩膜特征，从而可以准确定位文字图像的高光区域，聚焦于文字图像中被高光区域遮挡的文字信息。然后，高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合，得到融合特征，并对融合特征进行编码和解码后，从而可以准确恢复高光区域的文字信息，以得到高光去除后的文字图像。

基于上述实施例，将带有高光的文字图像输入至高光去除模型，得到高光去除模型输出的高光去除后的文字图像，包括：

将带有高光的文字图像输入至高光去除模型的特征提取层，得到特征提取层输出的带有高光的文字图像特征以及高光区域掩膜特征；

将带有高光的文字图像特征以及高光区域掩膜特征输入至高光去除模型的特征融合层，由特征融合层对带有高光的文字图像特征以及高光区域掩膜特征进行融合，得到特征融合层输出的融合特征；

将融合特征输入至高光去除模型的特征编解码层，由特征编解码层对融合特征进行编码和解码，得到特征编解码层输出的高光去除后的文字图像。

具体地，特征提取层可以看作是一个高光检测网络Net_D，用于精确定位文字图像的高光区域。例如，以带有高光的文字图像I_t作为特征提取层输入，输出为一张指示高光区域的二值化图像M_out。M_out的每个像素值都在0到1之间，并且值越大，表示对应位置的图像被高光所覆盖的概率越大。提取二值化图像M_out的特征作为高光区域掩膜特征，从而高光区域掩膜特征可以表征文字图像中高光区域的文字信息。需要说明的是，本发明实施例可以输出二值化图像M_out，从而用户可以直观获取文字图像的高光区域位置。

将带有高光的文字图像特征以及高光区域掩膜特征输入至高光去除模型的特征融合层，由特征融合层对带有高光的文字图像特征以及高光区域掩膜特征进行融合，得到特征融合层输出的融合特征；由于融合特征融合有高光区域掩膜特征，从而融合特征中包含有高光区域的文字信息，进而特征编解码层对融合特征进行编码和解码时，可以准确恢复高光区域的文字信息，以得到特征编解码层输出的高光去除后的文字图像。

需要说明的是，本发明实施例也可以将高光去除模型设置为两个子网络，即高光检测网络和高光去除网络。具体高光去除流程为：

将带有高光的文字图像I_t输入至高光检测网络，得到用于表征高光位置信息的二值化图像M_out，然后将带有高光的文字图像I_t和二值化图像M_out输入至高光去除网络，得到高光去除后的文字图像I_out。由于高光去除网络中引入了M_out，从而使得高光去除网络可以更好地关注高光区域并得到更好地性能。如图2所示，高光去除模型在训练过程中，通过各网络对应的损失函数更新参数，如利用检测损失、重建损失、对抗损失GAN和文本一致性损失来达到良好的性能，从而能够准确对文本图像进行高光去除，恢复高光区域的文字信息。

此外，高光去除网络结构使用了包含跳跃连接的编码器-解码器结构。该网络由2个下采样层、4个残差块和2个上采样层组成。为了进一步提高去除性能，该网络还采用了一个基于补丁的鉴别器D，鉴别器D包括1个卷积层和5个下采样层，核大小为5，步幅为2。利用频谱归一化来稳定鉴别器的训练。

基于上述任一实施例，特征编解码层包括编码器，特征处理模块以及解码器；

将融合特征输入至高光去除模型的特征编解码层，由特征编解码层对融合特征进行编码和解码，得到特征编解码层输出的高光去除后的文字图像，包括：

将融合特征输入编码器，由编码器对融合特征进行编码，得到编码器输出的编码后的融合特征；

将编码后的融合特征输入至特征处理模块，由特征处理模块对编码后的融合特征进行深度特征提取，得到特征处理模块输出的深度融合特征；

将深度融合特征输入至解码器，由解码器对深度融合特征进行解码，得到解码器输出的高光去除后的文字图像。

具体地，特征编解码层可以为U型网络，包括一个或多个编码器、一个或多个解码器以及特征处理模块；其中，编码器为一个下采样模块，包括一个或者多个卷积层，用于对融合特征进行编码；特征处理模块包括一个或者多个卷积层，用于对编码器编码后的融合特征进行深度特征提取，得到深度融合特征；解码器为一个上采样模块，包括一个或者多个卷积层，用于深度融合特征进行解码，得到高光去除后的文字图像。

基于上述任一实施例，特征提取层包括三个下采样层和三个上采样层，且各下采样层后面包含两个卷积层，以及各上采样层后面包含三个卷积层。

具体地，由于上述带有高光的文字图像I_t和二值化图像M_out具有相同的宽度和高度，因此特征提取层采用了由三个下采样层和三个上采样层组成的全卷积结构。其中，每个下采样层后面都有两个卷积层，每个上采样层后面都有三个卷积层。

基于上述任一实施例，高光去除模型的损失函数为：

L_F＝0.05×||Φ(I_out)-Φ(I_gt)||₁+120×||Ψ(I_out)-Ψ(I_gt)||₁；

L_G＝-E[D(I_out)]；

其中，L表示高光去除模型的损失函数值，M_out表示高光去除模型输出的高光区域掩膜特征，M_gt表示样本文字图像高光区域的高光二值化掩膜标签，I_out表示高光去除模型输出的高光去除后的样本文字图像，I_gt表示样本文字图像对应的高光去除样本文字图像，I_out(i，j)表示I_out对应位置的像素，Φ(I_out)和Φ(I_gt)表示对应在VGG-16预训练模型上的特征图，Ψ(I_out)和Ψ(I_gt)表示对应的Gram矩阵，E表示在对应分布下的数学期望，D(I_out)表示对应的鉴别器的输出，φ_c(I_out)和φ_c(I_gt)表示对应在文字检测模型上的特征图，φ_d(I_out)和φ_d(I_gt)表示对应在文字识别模型上的特征图，

可以设置为11，λ_G可以设置为0.001，Φ为VGG-16预训练模型对应的特征图，Ψ(·)＝Φ(·)Φ(·)^T为Gram矩阵。

具体地，高光去除模型的损失函数包括高光检测损失函数

重建损失函数L_P、特征感知损失函数L_F、对抗式损失函数L_G和文字一致性损失函数L_T。其中，高光检测损失函数

是为了使得模型能够更加精确检测高光区域的位置，重建损失函数L_P对像素以及特征空间进行约束，特征感知损失函数L_F包括感知损失函数和风格损失函数。

此外，本发明实施例使用基于不定的鉴别器D来增强结果的视觉真实感，对于对抗式损失函数L_G＝-E[D(I_out)]，用于训练鉴别器D的损失函数为：

L_D＝E[max(0，1-D(I_gt))]+E[max(0，1+D(I_out))]。

此外，为了证明本发明实施例文字图像高光去除方法的优越性，本发明实施例进行了实验验证，实验所使用的的硬件环境为：Intel(R)Xeon(R)E5-2690 v4 2.60GHz的CPU，NVIDIA TITAN RTX(24G显存)，256G的内存；实验所使用的软件环境为：Ubuntu 18.04.4LTS的操作系统，Tensorflow 1.15.0的深度学习框架，V10.1版本的CUDA，尺寸为512×512的输入图片。

本发明实施例与不同网络变体结构算法Multi-class GAN(以下简称Multi)，SPEC-cgan(以下简称SPEC)进行对比分析。其中SPEC使用的是官方提供的源代码进行训练和测试，而Multi算法的复现是严格按照其论文所述方法进行训练和测试。

为了保证结果的有效性，所有模型都训练到收敛。由于Multi的盲去除特性，在结果中会出现明显的高光残留，而本发明实施例由于使用了指示高光位置的二值化掩膜，可以更好地感知高光区域，从而更好地去除高光部分，恢复文本信息，并实现更好地文本识别性能。

与Multi相比，SPEC的结果有较少的高光残留，然而由于其使用的cycleGAN框架对于恢复文本的能力有限，其结果会出现明显的过平滑现象，导致大量文字信息无法恢复，影响了文本识别的性能和后续处理任务的精度。而本发明实施例提供的方法在高光去除过程中加入了文字一致性损失函数，能够在去除高光的过程中，更好地恢复被其污染的文字信息，以达到图像质量和文字信息的双重提升。

表1是本发明实施例提供的文字图像高光去除方法与不同网络变体结构算法在三种不同测试集上的图像质量指标和文字识别指标对比表，对于文本识别评价，采用了常用的度量标准：查全率、准确率和f-measure。选择当前先进的单词识别算法飞桨OCR来计算这三个度量。对于视觉质量评价，采用PSNR和SSIM。

表1报告了三种方法在本发明实施例构建的三个数据集上的数值结果。由于RD和SD2的图像内容相同，对于真实数据集(RD)，本发明实时使用三个RD的训练集对SD2上训练的模型进行微调方法。从表1可以看出，本发明实施例在文本识别方面取得了最好的性能。以查全率为例，本发明实施例提供的高光去除方法可使文字识别性能在三个数据集上分别提高6.85％(SD1)，3.70％(SD2)和14.04％(RD)。这一改进表明，本发明实施例可以极好地恢复被高光遮挡住的文字信息。此外，Multi和SPEC方法处理后的结果的文本识别性能有时低于输入的带高光图像，原因是这两个方法在去除高光的同时并没有恢复被污染的文字信息，导致文字信息也一同被去除。对于PSNR和SSIM,SPEC的表现是最差的，而本发明实施例提供的方法和Multi方法是有竞争力的。主要关注文本识别性能，而视觉质量只是一个辅助方面。

表1

由此可见，本发明实施例提供的方法能很好地去除高亮部分，实现更好的文本识别性能。这些结果表明，通过引入指示高光区域的二值掩膜文字一致性损失函数，能够在引导模型去除高光的同时，更好地恢复文字区域的信息，从而得到文字信息完整，图像质量提升的结果。

为了比较文字一致性损失函数对高光去除效果的影响，本发明在保持输入数据和其他训练参数不变的条件下，本发明通过进行消融实验验证了文字一致性损失函数的有效性，并在表2中展示了对应的结果。可以观察到，本发明实施例提供的方法中的文字一致性损失函数在三个数据集上都可以很好地提升结果，这说明文字一致性损失函数可以加强去除网络对于文本的恢复效果。此外，本发明实施例提供的方法在不使用文字一致性损失函数的情况下，文本识别性能已经优于Multi和SPEC(比较表2中每个数据集的第一行与表1中相应的行)，这说明本发明实施例提供的方法的网络结果同样优于现有方法。

表2

下面对本发明提供的文字图像高光去除装置进行描述，下文描述的文字图像高光去除装置与上文描述的文字图像高光去除方法可相互对应参照。

基于上述任一实施例，本发明提供一种文字图像高光去除装置，如图3所示，该装置包括：

高光图像确定单元310，用于确定带有高光的文字图像；

高光去除单元320，用于将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像；

基于上述任一实施例，所述高光去除单元320，包括：

特征提取单元，用于将所述带有高光的文字图像输入至所述高光去除模型的特征提取层，得到所述特征提取层输出的所述带有高光的文字图像特征以及所述高光区域掩膜特征；

特征融合单元，用于将所述带有高光的文字图像特征以及所述高光区域掩膜特征输入至所述高光去除模型的特征融合层，由所述特征融合层对所述带有高光的文字图像特征以及所述高光区域掩膜特征进行融合，得到所述特征融合层输出的所述融合特征；

特征编解码单元，用于将所述融合特征输入至所述高光去除模型的特征编解码层，由所述特征编解码层对所述融合特征进行编码和解码，得到所述特征编解码层输出的所述高光去除后的文字图像。

基于上述任一实施例，所述特征编解码层包括编码器，特征处理模块以及解码器；

所述特征编解码单元，包括：

编码单元，用于将所述融合特征输入所述编码器，由所述编码器对所述融合特征进行编码，得到所述编码器输出的编码后的融合特征；

处理单元，用于将所述编码后的融合特征输入至所述特征处理模块，由所述特征处理模块对所述编码后的融合特征进行深度特征提取，得到所述特征处理模块输出的深度融合特征；

解码单元，用于将所述深度融合特征输入至所述解码器，由所述解码器对所述深度融合特征进行解码，得到所述解码器输出的所述高光去除后的文字图像。

基于上述任一实施例，所述特征提取层包括三个下采样层和三个上采样层，且各下采样层后面包含两个卷积层，以及各上采样层后面包含三个卷积层。

基于上述任一实施例，所述高光去除模型的损失函数为：

L_F＝0.05×||Φ(I_out)-Φ(I_gt)||₁+120×||Ψ(I_out)-Ψ(I_gt)||₁；

L_G＝-E[D(I_out)]；

和λ_G为常数。

基于上述任一实施例，本发明提供一种文字识别方法，如图4所示，该方法包括：

步骤410、确定待识别文字图像，并采用上述任一实施例所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；

步骤420、基于所述高光去除后的待识别文字图像，确定文字识别结果。

具体地，由于采用上述任一实施例所述的方法可以对待识别文字图像进行高光去除，从而可以恢复待识别文字图像中高光区域的文字信息，进而可以基于高光去除后的待识别文字图像，准确获取文字识别结果。

下面对本发明提供的文字识别装置进行描述，下文描述的文字识别装置与文字识别方法可相互对应参照。

基于上述任一实施例，本发明还提供一种文字识别装置，如图5所示，该装置包括：

识别图像确定单元510，用于确定待识别文字图像，并采用如上任一实施例所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；

文字识别单元520，用于基于所述高光去除后的待识别文字图像，确定文字识别结果。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、存储器(memory)620、通信接口(CommunicationsInterface)630和通信总线640，其中，处理器610，存储器620，通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令，以执行文字图像高光去除方法，该方法包括：确定带有高光的文字图像；将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像；其中，所述高光去除模型是基于带有高光区域标记的样本文字图像，以及所述样本文字图像对应的高光去除样本文字图像训练得到的；所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后，融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征，并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。

和/或，以执行文字识别方法，该方法包括：确定待识别文字图像，并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；基于所述高光去除后的待识别文字图像，确定文字识别结果。

此外，上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文字图像高光去除方法，该方法包括：确定带有高光的文字图像；将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像；其中，所述高光去除模型是基于带有高光区域标记的样本文字图像，以及所述样本文字图像对应的高光去除样本文字图像训练得到的；所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后，融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征，并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文字图像高光去除方法，该方法包括：确定带有高光的文字图像；将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像；其中，所述高光去除模型是基于带有高光区域标记的样本文字图像，以及所述样本文字图像对应的高光去除样本文字图像训练得到的；所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后，融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征，并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字图像高光去除方法，其特征在于，包括：

确定带有高光的文字图像；

2.根据权利要求1所述的文字图像高光去除方法，其特征在于，所述将所述带有高光的文字图像输入至高光去除模型，得到所述高光去除模型输出的高光去除后的文字图像，包括：

3.根据权利要求2所述的文字图像高光去除方法，其特征在于，所述特征编解码层包括编码器，特征处理模块以及解码器；

4.根据权利要求2所述的文字图像高光去除方法，其特征在于，所述特征提取层包括三个下采样层和三个上采样层，且各下采样层后面包含两个卷积层，以及各上采样层后面包含三个卷积层。

5.根据权利要求1至4任一项所述的文字图像高光去除方法，其特征在于，所述高光去除模型的损失函数为：

L_F＝0.05×||Φ(I_out)-Φ(I_gt)||₁+120×||Ψ(I_out)-Ψ(I_gt)||₁；

L_G＝-E[D(I_out)]；

和λ_G为常数。

6.一种文字图像高光去除装置，其特征在于，包括：

高光图像确定单元，用于确定带有高光的文字图像；

7.一种文字识别方法，其特征在于，包括：

确定待识别文字图像，并采用权利要求1至5任一项所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；

8.一种文字识别装置，其特征在于，包括：

识别图像确定单元，用于确定待识别文字图像，并采用权利要求1至5任一项所述的文字图像高光去除方法对所述待识别文字图像进行高光去除，得到高光去除后的待识别文字图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述文字图像高光去除方法的步骤；和/或，所述处理器执行所述程序时实现如权利要求7所述文字识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文字图像高光去除方法的步骤；和/或，所述计算机程序被处理器执行时实现如权利要求7所述文字识别方法的步骤。