CN113628127A - 文字图像高光去除、文字识别方法及装置 - Google Patents
文字图像高光去除、文字识别方法及装置 Download PDFInfo
- Publication number
- CN113628127A CN113628127A CN202110779127.8A CN202110779127A CN113628127A CN 113628127 A CN113628127 A CN 113628127A CN 202110779127 A CN202110779127 A CN 202110779127A CN 113628127 A CN113628127 A CN 113628127A
- Authority
- CN
- China
- Prior art keywords
- highlight
- character image
- character
- features
- removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000004927 fusion Effects 0.000 claims abstract description 99
- 238000012549 training Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002985 plastic film Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 229920006255 plastic film Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种文字图像高光去除、文字识别方法及装置,所述文字图像高光去除方法包括:确定带有高光的文字图像;将带有高光的文字图像输入至高光去除模型,得到高光去除模型输出的高光去除后的文字图像。本发明通过高光去除模型提取带有高光的文字图像对应的高光区域掩膜特征,从而可以准确定位文字图像的高光区域,聚焦于文字图像中被高光区域遮挡的文字信息。然后,高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合,得到融合特征,并对融合特征进行编码和解码后,从而可以准确恢复高光区域的文字信息,以得到高光去除后的文字图像。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文字图像高光去除、文字识别方法及装置。
背景技术
受周围环境和物体表面材质的影响,高光在自然图像中广泛存在。高光去除技术可以改善图像质量并有利于许多视觉任务,如立体匹配、文字识别、图像分割以及图像一致性等。
传统方法中对图像进行高光去除主要包括如下方法:(1)基于双色反射模型对图像进行高光去除,双色反射模型假设图像的亮度可以用漫反射和镜面反射的线性组合来表示。(2)基于最大色度-强度空间中漫反射点和镜面反射点的分布,通过识别漫反射的最大色度,然后采用镜面反射-漫反射机制分离反射分量。(3)观察到彩色图像中局部的漫反射最大色度平滑变化,通过采用双边滤波提升了色度估计的实时性和鲁棒性。(4)基于强度比的高光去除方法,通过在伪色度空间中将像素划分为不同的簇来分离高光。(5)为了利用彩色图像的全局信息进行镜面反射分离,基于双色反射模型的全局颜色线约束方法(6)利用面部图像的物理先验和统计先验共同估计光照环境,并从不同光照颜色的人脸中去除高光。(7)将图像中漫反射和镜面反射的估计重新定义为可以近似求解的具有稀疏约束的能量最小化。然而,这个过程是相对低效的。(8)基于一种凸优化框架,可以有效地去除自然图像的彩色和单色区域的暗高光。这些基于双色反射模型的方法在处理具有不同颜色和复杂纹理的图像时往往性能有限,并且由于需要预处理操作导致效率较低、实用性弱。(9)基于图像修复的方法主要是借鉴图像修复界的技术,通过无高光污染区域的信息来恢复图像的高光区域背后的原始图像内容。通过结合基于光照的约束来去除高光。(10)基于矢量滤波器,将其整合到修复过程中,以消除镜面反射。(11)基于颜色线投影的高光修复方法,但是这种方法需要两张不同曝光时间的图像。(12)针对医学图像如内窥镜、阴道镜等,也有使用基于图像修复方法进行高光去除的技术。然而,这些基于图像修复的方法仅对具有小区域高光污染的图像有效。(13)考虑到单幅图像高光去除的复杂性,传统方法中也提出了基于深度神经网络的方法进行高光去除,如卷积神经网络(Convolutional Neural Network,CNN)和生成对抗网络(Generative Adversarial Network,GAN)。(14)通过感知器人工神经网络来检测牙齿图像的镜面反射,然后使用平滑空间滤波器递归校正镜面反射。(15)由于缺乏成对的训练数据,采用循环GAN框架,并引入了一种自正则化损失,用于减少非镜面区域的图像修改。(17)采用GAN框架,提出一种多类鉴别器,对真实图像和原始输入图像生成的漫反射图像进行分类。(18)采用两种深度模型(Spec-Net和Spec-CGAN)用于去除面部高光。其中Spec-Net以强度通道作为输入,Spec-CGAN以RGB图像作为输入。然而,这些基于深度学习的方法需要大规模的训练数据,特别是需要对真实世界的图像进行必要的标注,这非常耗时,甚至难以收集。
此外,现有的高光去除方法主要对医学图像、自然图像和特定物体图像进行处理,缺乏聚焦于文本图像的工作,由于文本图像具有不同形状以及不同方向,因此基于现有的高光去除方法无法准确对带有高光的文本图像进行高光去除。
发明内容
本发明提供一种文字图像高光去除、文字识别方法及装置,用以解决现有技术中无法高精度对文本图像进行高光去除的缺陷。
本发明提供一种文字图像高光去除方法,包括:
确定带有高光的文字图像;
将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;
其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
根据本发明提供的一种文字图像高光去除方法,所述将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像,包括:
将所述带有高光的文字图像输入至所述高光去除模型的特征提取层,得到所述特征提取层输出的所述带有高光的文字图像特征以及所述高光区域掩膜特征;
将所述带有高光的文字图像特征以及所述高光区域掩膜特征输入至所述高光去除模型的特征融合层,由所述特征融合层对所述带有高光的文字图像特征以及所述高光区域掩膜特征进行融合,得到所述特征融合层输出的所述融合特征;
将所述融合特征输入至所述高光去除模型的特征编解码层,由所述特征编解码层对所述融合特征进行编码和解码,得到所述特征编解码层输出的所述高光去除后的文字图像。
根据本发明提供的一种文字图像高光去除方法,所述特征编解码层包括编码器,特征处理模块以及解码器;
所述将所述融合特征输入至所述高光去除模型的特征编解码层,由所述特征编解码层对所述融合特征进行编码和解码,得到所述特征编解码层输出的所述高光去除后的文字图像,包括:
将所述融合特征输入所述编码器,由所述编码器对所述融合特征进行编码,得到所述编码器输出的编码后的融合特征;
将所述编码后的融合特征输入至所述特征处理模块,由所述特征处理模块对所述编码后的融合特征进行深度特征提取,得到所述特征处理模块输出的深度融合特征;
将所述深度融合特征输入至所述解码器,由所述解码器对所述深度融合特征进行解码,得到所述解码器输出的所述高光去除后的文字图像。
根据本发明提供的一种文字图像高光去除方法,所述特征提取层包括三个下采样层和三个上采样层,且各下采样层后面包含两个卷积层,以及各上采样层后面包含三个卷积层。
根据本发明提供的一种文字图像高光去除方法,所述高光去除模型的损失函数为:
LP=50×||Iout-Igt||1+0.1×(||Iout(i,j)-Igt(i-1,j)||1+||Iout(i,j)-Igt(i,j-1)||1);
LF=0.05×||Φ(Iout)-Φ(Igt)||1+120×||Ψ(Iout)-Ψ(Igt)||1;
LG=-E[D(Iout)];
其中,L表示所述高光去除模型的损失函数值,Mout表示所述高光去除模型输出的高光区域掩膜特征,Mgt表示所述样本文字图像高光区域的高光二值化掩膜标签,Iout表示所述高光去除模型输出的高光去除后的样本文字图像,Igt表示所述样本文字图像对应的高光去除样本文字图像,Iout(i,j)表示Iout对应位置的像素,Φ(Iout)和Φ(Igt)表示对应在VGG-16预训练模型上的特征图,Ψ(Iout)和Ψ(Igt)表示对应的Gram矩阵,E表示在对应分布下的数学期望,D(Iout)表示对应的鉴别器的输出,φc(Iout)和φc(Igt)表示对应在文字检测模型上的特征图,φd(Iout)和φd(Igt)表示对应在文字识别模型上的特征图,和λG为常数。
本发明还提供一种文字图像高光去除装置,包括:
高光图像确定单元,用于确定带有高光的文字图像;
高光去除单元,用于将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;
其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
本发明还提供一种文字识别方法,包括:
确定待识别文字图像,并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;
基于所述高光去除后的待识别文字图像,确定文字识别结果。
本发明还提供一种文字识别装置,包括:
识别图像确定单元,用于确定待识别文字图像,并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;
文字识别单元,用于基于所述高光去除后的待识别文字图像,确定文字识别结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述文字图像高光去除方法的步骤;和/或,所述处理器执行所述计算机程序时实现如上述任一种所述文字识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文字图像高光去除方法的步骤;和/或,所述计算机程序被处理器执行时实现如上述任一种所述文字识别方法的步骤。
本发明提供的文字图像高光去除、文字识别方法及装置,通过高光去除模型提取带有高光的文字图像对应的高光区域掩膜特征,从而可以准确定位文字图像的高光区域,聚焦于文字图像中被高光区域遮挡的文字信息。然后,高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合,得到融合特征,并对融合特征进行编码和解码后,从而可以准确恢复高光区域的文字信息,以得到高光去除后的文字图像。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文字图像高光去除方法的流程示意图;
图2是本发明提供的高光去除模型的结构示意图;
图3是本发明提供的文字图像高光去除装置的结构示意图;
图4是本发明提供的文字识别方法的流程示意图;
图5是本发明提供的文字识别装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对此,本发明提供一种文字图像高光去除方法。图1是本发明提供的文字图像高光去除方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定带有高光的文字图像;
步骤120、将带有高光的文字图像输入至高光去除模型,得到高光去除模型输出的高光去除后的文字图像;
其中,高光去除模型是基于带有高光区域标记的样本文字图像,以及样本文字图像对应的高光去除样本文字图像训练得到的;高光去除模型用于提取带有高光的文字图像特征以及带有高光的文字图像对应的高光区域掩膜特征后,融合带有高光的文字图像特征以及高光区域掩膜特征得到融合特征,并对融合特征进行编码和解码后得到高光去除后的文字图像。
具体地,由于拍摄条件和技巧,文字图像中往往会出现一些高光的情况,若高光出现在文字图像的文字部分,则会影响对文字图像进行文字识别。
带有高光的文字图像可以是待进行文字识别的图像,也可以是待进行图像分类的图像,为了保证识别或分类的精度,需要先取去除文字图像中的高光部分,以得到高光去除后的文字图像,从而后续可以基于高光去除后的文字图像准确进行文字识别、图像分类等。
本发明实施例将带有高光的文字图像输入至高光去除模型,高光去除模型首先从带有高光的文字图像中提取带有高光的文字图像特征以及带有高光的文字图像对应的高光区域掩膜特征,从而基于高光区域掩膜特征可以准确定位文字图像的高光区域,即可以聚焦于文字图像中被高光区域遮挡的文字信息。接着,高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合,得到融合特征,并对融合特征进行编码和解码后,恢复高光区域的文字信息,以得到高光去除后的文字图像,从而可以基于高光去除后的文字图像应用于立体匹配,文字识别,图像分割,图像一致性检测等使用场景。
其中,在将带有高光的文字图像输入至高光去除模型之前,还可以预先训练得到高光去除模型,具体可以通过执行如下步骤实现:首先,收集大量样本文字图像以及样本文字图像对应的高光去除样本文字图像,通过人工标记样本文字图像中的高光区域。随即,基于带有高光区域标记的样本文字图像,以及样本文字图像对应的高光去除样本文字图像对初始模型进行训练,从而得到高光去除模型。
此外,本发明实施例中的样本文字图像包括两类图像:一类身份证和驾驶证图像,另一类是产品或街景图像。其中,身份证和驾驶证对应的带有高光区域标记的样本文字图像以及样本文字图像对应的高光去除样本文字图像是基于如下过程获取的:
在本发明实施例中,收集了三个高质量的数据集,包括一个真实数据集和两个合成数据集。对于真实数据集,本发明实施例采集了2025张图像:具有高光的样本文字图像,相应的高光去除样本文字图像和高光区域标记的二值掩膜图像。
上述数据集中图像内容包括身份证和驾驶证,包含大量的文字信息。首先把透明塑料薄膜放在图片上,然后打开灯进行拍摄,获得带有高光的样本文字图像。相应地,通过关灯得到一个对应的高光去除样本文字图像。通过调整塑料薄膜的位置,得到不同形状与强度的高光,进而得到多个不同的带有高光的样本文字图像。将带有高光和高光去除的样本文字图像通过差分和多阈值筛选得到二值掩模图像。上述数据集(记为RD)被随机分为训练集(1800张)和测试集(225张)。
为了进一步丰富本发明实施例中高光去除模型训练样本的多样性,本发明实施例使用3D计算机图形软件Blender构建了两组合成数据集,具体过程为:
首先从超市和街道收集了3679张图片和上文提到的2025张图片,然后使用Blender Cycles引擎自动生成27,700组带有高光的样本文字图像,以及相应的高光去除样本文字图像和高光区域掩膜。其中,高光形状包括圆形、三角形、椭圆和圆环,以模拟现实场景中的照明条件。其中,材料粗糙度随机设置在[0.1,0.3]范围内,照明强度在[40,70]范围内随机选择。为了使图像的文本区域覆盖高光,将文本检测模型CTPN获得的文本区域的位置信息提供给Blender。
因为产品或街景类别每幅图片包含的文本较少,而身份证和驾照中的文本更密集。在相同的光照条件下,这两种图像中高光干扰下的文本信息恢复的难度是不同的。因此将上述两类图像分为两个数据集,即SD1和SD2。SD1包含12000个训练集和2000个测试集。SD2包含12000个训练集和1700个测试集。其中,SD1和SD2的图像内容是相同的。
由此可见,本发明实施例将数据集RD、SD1和SD2作为训练样本,用于训练高光去除模型,从而可以使得训练完成的高光去除模型能够精确定位文字图像中的高光区域,并恢复高光区域中的文字信息。
本发明实施例提供的文字图像高光去除方法,通过高光去除模型提取带有高光的文字图像对应的高光区域掩膜特征,从而可以准确定位文字图像的高光区域,聚焦于文字图像中被高光区域遮挡的文字信息。然后,高光去除模型对带有高光的文字图像特征以及高光区域掩膜特征进行融合,得到融合特征,并对融合特征进行编码和解码后,从而可以准确恢复高光区域的文字信息,以得到高光去除后的文字图像。
基于上述实施例,将带有高光的文字图像输入至高光去除模型,得到高光去除模型输出的高光去除后的文字图像,包括:
将带有高光的文字图像输入至高光去除模型的特征提取层,得到特征提取层输出的带有高光的文字图像特征以及高光区域掩膜特征;
将带有高光的文字图像特征以及高光区域掩膜特征输入至高光去除模型的特征融合层,由特征融合层对带有高光的文字图像特征以及高光区域掩膜特征进行融合,得到特征融合层输出的融合特征;
将融合特征输入至高光去除模型的特征编解码层,由特征编解码层对融合特征进行编码和解码,得到特征编解码层输出的高光去除后的文字图像。
具体地,特征提取层可以看作是一个高光检测网络NetD,用于精确定位文字图像的高光区域。例如,以带有高光的文字图像It作为特征提取层输入,输出为一张指示高光区域的二值化图像Mout。Mout的每个像素值都在0到1之间,并且值越大,表示对应位置的图像被高光所覆盖的概率越大。提取二值化图像Mout的特征作为高光区域掩膜特征,从而高光区域掩膜特征可以表征文字图像中高光区域的文字信息。需要说明的是,本发明实施例可以输出二值化图像Mout,从而用户可以直观获取文字图像的高光区域位置。
将带有高光的文字图像特征以及高光区域掩膜特征输入至高光去除模型的特征融合层,由特征融合层对带有高光的文字图像特征以及高光区域掩膜特征进行融合,得到特征融合层输出的融合特征;由于融合特征融合有高光区域掩膜特征,从而融合特征中包含有高光区域的文字信息,进而特征编解码层对融合特征进行编码和解码时,可以准确恢复高光区域的文字信息,以得到特征编解码层输出的高光去除后的文字图像。
需要说明的是,本发明实施例也可以将高光去除模型设置为两个子网络,即高光检测网络和高光去除网络。具体高光去除流程为:
将带有高光的文字图像It输入至高光检测网络,得到用于表征高光位置信息的二值化图像Mout,然后将带有高光的文字图像It和二值化图像Mout输入至高光去除网络,得到高光去除后的文字图像Iout。由于高光去除网络中引入了Mout,从而使得高光去除网络可以更好地关注高光区域并得到更好地性能。如图2所示,高光去除模型在训练过程中,通过各网络对应的损失函数更新参数,如利用检测损失、重建损失、对抗损失GAN和文本一致性损失来达到良好的性能,从而能够准确对文本图像进行高光去除,恢复高光区域的文字信息。
此外,高光去除网络结构使用了包含跳跃连接的编码器-解码器结构。该网络由2个下采样层、4个残差块和2个上采样层组成。为了进一步提高去除性能,该网络还采用了一个基于补丁的鉴别器D,鉴别器D包括1个卷积层和5个下采样层,核大小为5,步幅为2。利用频谱归一化来稳定鉴别器的训练。
基于上述任一实施例,特征编解码层包括编码器,特征处理模块以及解码器;
将融合特征输入至高光去除模型的特征编解码层,由特征编解码层对融合特征进行编码和解码,得到特征编解码层输出的高光去除后的文字图像,包括:
将融合特征输入编码器,由编码器对融合特征进行编码,得到编码器输出的编码后的融合特征;
将编码后的融合特征输入至特征处理模块,由特征处理模块对编码后的融合特征进行深度特征提取,得到特征处理模块输出的深度融合特征;
将深度融合特征输入至解码器,由解码器对深度融合特征进行解码,得到解码器输出的高光去除后的文字图像。
具体地,特征编解码层可以为U型网络,包括一个或多个编码器、一个或多个解码器以及特征处理模块;其中,编码器为一个下采样模块,包括一个或者多个卷积层,用于对融合特征进行编码;特征处理模块包括一个或者多个卷积层,用于对编码器编码后的融合特征进行深度特征提取,得到深度融合特征;解码器为一个上采样模块,包括一个或者多个卷积层,用于深度融合特征进行解码,得到高光去除后的文字图像。
基于上述任一实施例,特征提取层包括三个下采样层和三个上采样层,且各下采样层后面包含两个卷积层,以及各上采样层后面包含三个卷积层。
具体地,由于上述带有高光的文字图像It和二值化图像Mout具有相同的宽度和高度,因此特征提取层采用了由三个下采样层和三个上采样层组成的全卷积结构。其中,每个下采样层后面都有两个卷积层,每个上采样层后面都有三个卷积层。
基于上述任一实施例,高光去除模型的损失函数为:
LP=50×||Iout-Igt||1+0.1×(||Iout(i,j)-Igt(i-1,j)||1+||Iout(i,j)-Igt(i,j-1)||1);
LF=0.05×||Φ(Iout)-Φ(Igt)||1+120×||Ψ(Iout)-Ψ(Igt)||1;
LG=-E[D(Iout)];
其中,L表示高光去除模型的损失函数值,Mout表示高光去除模型输出的高光区域掩膜特征,Mgt表示样本文字图像高光区域的高光二值化掩膜标签,Iout表示高光去除模型输出的高光去除后的样本文字图像,Igt表示样本文字图像对应的高光去除样本文字图像,Iout(i,j)表示Iout对应位置的像素,Φ(Iout)和Φ(Igt)表示对应在VGG-16预训练模型上的特征图,Ψ(Iout)和Ψ(Igt)表示对应的Gram矩阵,E表示在对应分布下的数学期望,D(Iout)表示对应的鉴别器的输出,φc(Iout)和φc(Igt)表示对应在文字检测模型上的特征图,φd(Iout)和φd(Igt)表示对应在文字识别模型上的特征图,可以设置为11,λG可以设置为0.001,Φ为VGG-16预训练模型对应的特征图,Ψ(·)=Φ(·)Φ(·)T为Gram矩阵。
具体地,高光去除模型的损失函数包括高光检测损失函数重建损失函数LP、特征感知损失函数LF、对抗式损失函数LG和文字一致性损失函数LT。其中,高光检测损失函数是为了使得模型能够更加精确检测高光区域的位置,重建损失函数LP对像素以及特征空间进行约束,特征感知损失函数LF包括感知损失函数和风格损失函数。
此外,本发明实施例使用基于不定的鉴别器D来增强结果的视觉真实感,对于对抗式损失函数LG=-E[D(Iout)],用于训练鉴别器D的损失函数为:
LD=E[max(0,1-D(Igt))]+E[max(0,1+D(Iout))]。
此外,为了证明本发明实施例文字图像高光去除方法的优越性,本发明实施例进行了实验验证,实验所使用的的硬件环境为:Intel(R)Xeon(R)E5-2690 v4 2.60GHz的CPU,NVIDIA TITAN RTX(24G显存),256G的内存;实验所使用的软件环境为:Ubuntu 18.04.4LTS的操作系统,Tensorflow 1.15.0的深度学习框架,V10.1版本的CUDA,尺寸为512×512的输入图片。
本发明实施例与不同网络变体结构算法Multi-class GAN(以下简称Multi),SPEC-cgan(以下简称SPEC)进行对比分析。其中SPEC使用的是官方提供的源代码进行训练和测试,而Multi算法的复现是严格按照其论文所述方法进行训练和测试。
为了保证结果的有效性,所有模型都训练到收敛。由于Multi的盲去除特性,在结果中会出现明显的高光残留,而本发明实施例由于使用了指示高光位置的二值化掩膜,可以更好地感知高光区域,从而更好地去除高光部分,恢复文本信息,并实现更好地文本识别性能。
与Multi相比,SPEC的结果有较少的高光残留,然而由于其使用的cycleGAN框架对于恢复文本的能力有限,其结果会出现明显的过平滑现象,导致大量文字信息无法恢复,影响了文本识别的性能和后续处理任务的精度。而本发明实施例提供的方法在高光去除过程中加入了文字一致性损失函数,能够在去除高光的过程中,更好地恢复被其污染的文字信息,以达到图像质量和文字信息的双重提升。
表1是本发明实施例提供的文字图像高光去除方法与不同网络变体结构算法在三种不同测试集上的图像质量指标和文字识别指标对比表,对于文本识别评价,采用了常用的度量标准:查全率、准确率和f-measure。选择当前先进的单词识别算法飞桨OCR来计算这三个度量。对于视觉质量评价,采用PSNR和SSIM。
表1报告了三种方法在本发明实施例构建的三个数据集上的数值结果。由于RD和SD2的图像内容相同,对于真实数据集(RD),本发明实时使用三个RD的训练集对SD2上训练的模型进行微调方法。从表1可以看出,本发明实施例在文本识别方面取得了最好的性能。以查全率为例,本发明实施例提供的高光去除方法可使文字识别性能在三个数据集上分别提高6.85%(SD1),3.70%(SD2)和14.04%(RD)。这一改进表明,本发明实施例可以极好地恢复被高光遮挡住的文字信息。此外,Multi和SPEC方法处理后的结果的文本识别性能有时低于输入的带高光图像,原因是这两个方法在去除高光的同时并没有恢复被污染的文字信息,导致文字信息也一同被去除。对于PSNR和SSIM,SPEC的表现是最差的,而本发明实施例提供的方法和Multi方法是有竞争力的。主要关注文本识别性能,而视觉质量只是一个辅助方面。
表1
由此可见,本发明实施例提供的方法能很好地去除高亮部分,实现更好的文本识别性能。这些结果表明,通过引入指示高光区域的二值掩膜文字一致性损失函数,能够在引导模型去除高光的同时,更好地恢复文字区域的信息,从而得到文字信息完整,图像质量提升的结果。
为了比较文字一致性损失函数对高光去除效果的影响,本发明在保持输入数据和其他训练参数不变的条件下,本发明通过进行消融实验验证了文字一致性损失函数的有效性,并在表2中展示了对应的结果。可以观察到,本发明实施例提供的方法中的文字一致性损失函数在三个数据集上都可以很好地提升结果,这说明文字一致性损失函数可以加强去除网络对于文本的恢复效果。此外,本发明实施例提供的方法在不使用文字一致性损失函数的情况下,文本识别性能已经优于Multi和SPEC(比较表2中每个数据集的第一行与表1中相应的行),这说明本发明实施例提供的方法的网络结果同样优于现有方法。
表2
下面对本发明提供的文字图像高光去除装置进行描述,下文描述的文字图像高光去除装置与上文描述的文字图像高光去除方法可相互对应参照。
基于上述任一实施例,本发明提供一种文字图像高光去除装置,如图3所示,该装置包括:
高光图像确定单元310,用于确定带有高光的文字图像;
高光去除单元320,用于将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;
其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
基于上述任一实施例,所述高光去除单元320,包括:
特征提取单元,用于将所述带有高光的文字图像输入至所述高光去除模型的特征提取层,得到所述特征提取层输出的所述带有高光的文字图像特征以及所述高光区域掩膜特征;
特征融合单元,用于将所述带有高光的文字图像特征以及所述高光区域掩膜特征输入至所述高光去除模型的特征融合层,由所述特征融合层对所述带有高光的文字图像特征以及所述高光区域掩膜特征进行融合,得到所述特征融合层输出的所述融合特征;
特征编解码单元,用于将所述融合特征输入至所述高光去除模型的特征编解码层,由所述特征编解码层对所述融合特征进行编码和解码,得到所述特征编解码层输出的所述高光去除后的文字图像。
基于上述任一实施例,所述特征编解码层包括编码器,特征处理模块以及解码器;
所述特征编解码单元,包括:
编码单元,用于将所述融合特征输入所述编码器,由所述编码器对所述融合特征进行编码,得到所述编码器输出的编码后的融合特征;
处理单元,用于将所述编码后的融合特征输入至所述特征处理模块,由所述特征处理模块对所述编码后的融合特征进行深度特征提取,得到所述特征处理模块输出的深度融合特征;
解码单元,用于将所述深度融合特征输入至所述解码器,由所述解码器对所述深度融合特征进行解码,得到所述解码器输出的所述高光去除后的文字图像。
基于上述任一实施例,所述特征提取层包括三个下采样层和三个上采样层,且各下采样层后面包含两个卷积层,以及各上采样层后面包含三个卷积层。
基于上述任一实施例,所述高光去除模型的损失函数为:
LP=50×||Iout-Igt||1+0.1×(||Iout(i,j)-Igt(i-1,j)||1+||Iout(i,j)-Igt(i,j-1)||1);
LF=0.05×||Φ(Iout)-Φ(Igt)||1+120×||Ψ(Iout)-Ψ(Igt)||1;
LG=-E[D(Iout)];
其中,L表示所述高光去除模型的损失函数值,Mout表示所述高光去除模型输出的高光区域掩膜特征,Mgt表示所述样本文字图像高光区域的高光二值化掩膜标签,Iout表示所述高光去除模型输出的高光去除后的样本文字图像,Igt表示所述样本文字图像对应的高光去除样本文字图像,Iout(i,j)表示Iout对应位置的像素,Φ(Iout)和Φ(Igt)表示对应在VGG-16预训练模型上的特征图,Ψ(Iout)和Ψ(Igt)表示对应的Gram矩阵,E表示在对应分布下的数学期望,D(Iout)表示对应的鉴别器的输出,φc(Iout)和φc(Igt)表示对应在文字检测模型上的特征图,φd(Iout)和φd(Igt)表示对应在文字识别模型上的特征图,和λG为常数。
基于上述任一实施例,本发明提供一种文字识别方法,如图4所示,该方法包括:
步骤410、确定待识别文字图像,并采用上述任一实施例所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;
步骤420、基于所述高光去除后的待识别文字图像,确定文字识别结果。
具体地,由于采用上述任一实施例所述的方法可以对待识别文字图像进行高光去除,从而可以恢复待识别文字图像中高光区域的文字信息,进而可以基于高光去除后的待识别文字图像,准确获取文字识别结果。
下面对本发明提供的文字识别装置进行描述,下文描述的文字识别装置与文字识别方法可相互对应参照。
基于上述任一实施例,本发明还提供一种文字识别装置,如图5所示,该装置包括:
识别图像确定单元510,用于确定待识别文字图像,并采用如上任一实施例所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;
文字识别单元520,用于基于所述高光去除后的待识别文字图像,确定文字识别结果。
图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(CommunicationsInterface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行文字图像高光去除方法,该方法包括:确定带有高光的文字图像;将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
和/或,以执行文字识别方法,该方法包括:确定待识别文字图像,并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;基于所述高光去除后的待识别文字图像,确定文字识别结果。
此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文字图像高光去除方法,该方法包括:确定带有高光的文字图像;将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
和/或,以执行文字识别方法,该方法包括:确定待识别文字图像,并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;基于所述高光去除后的待识别文字图像,确定文字识别结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文字图像高光去除方法,该方法包括:确定带有高光的文字图像;将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
和/或,以执行文字识别方法,该方法包括:确定待识别文字图像,并采用如上所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;基于所述高光去除后的待识别文字图像,确定文字识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文字图像高光去除方法,其特征在于,包括:
确定带有高光的文字图像;
将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;
其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
2.根据权利要求1所述的文字图像高光去除方法,其特征在于,所述将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像,包括:
将所述带有高光的文字图像输入至所述高光去除模型的特征提取层,得到所述特征提取层输出的所述带有高光的文字图像特征以及所述高光区域掩膜特征;
将所述带有高光的文字图像特征以及所述高光区域掩膜特征输入至所述高光去除模型的特征融合层,由所述特征融合层对所述带有高光的文字图像特征以及所述高光区域掩膜特征进行融合,得到所述特征融合层输出的所述融合特征;
将所述融合特征输入至所述高光去除模型的特征编解码层,由所述特征编解码层对所述融合特征进行编码和解码,得到所述特征编解码层输出的所述高光去除后的文字图像。
3.根据权利要求2所述的文字图像高光去除方法,其特征在于,所述特征编解码层包括编码器,特征处理模块以及解码器;
所述将所述融合特征输入至所述高光去除模型的特征编解码层,由所述特征编解码层对所述融合特征进行编码和解码,得到所述特征编解码层输出的所述高光去除后的文字图像,包括:
将所述融合特征输入所述编码器,由所述编码器对所述融合特征进行编码,得到所述编码器输出的编码后的融合特征;
将所述编码后的融合特征输入至所述特征处理模块,由所述特征处理模块对所述编码后的融合特征进行深度特征提取,得到所述特征处理模块输出的深度融合特征;
将所述深度融合特征输入至所述解码器,由所述解码器对所述深度融合特征进行解码,得到所述解码器输出的所述高光去除后的文字图像。
4.根据权利要求2所述的文字图像高光去除方法,其特征在于,所述特征提取层包括三个下采样层和三个上采样层,且各下采样层后面包含两个卷积层,以及各上采样层后面包含三个卷积层。
5.根据权利要求1至4任一项所述的文字图像高光去除方法,其特征在于,所述高光去除模型的损失函数为:
LP=50×||Iout-Igt||1+0.1×(||Iout(i,j)-Igt(i-1,j)||1+||Iout(i,j)-Igt(i,j-1)||1);
LF=0.05×||Φ(Iout)-Φ(Igt)||1+120×||Ψ(Iout)-Ψ(Igt)||1;
LG=-E[D(Iout)];
其中,L表示所述高光去除模型的损失函数值,Mout表示所述高光去除模型输出的高光区域掩膜特征,Mgt表示所述样本文字图像高光区域的高光二值化掩膜标签,Iout表示所述高光去除模型输出的高光去除后的样本文字图像,Igt表示所述样本文字图像对应的高光去除样本文字图像,Iout(i,j)表示Iout对应位置的像素,Φ(Iout)和Φ(Igt)表示对应在VGG-16预训练模型上的特征图,Ψ(Iout)和Ψ(Igt)表示对应的Gram矩阵,E表示在对应分布下的数学期望,D(Iout)表示对应的鉴别器的输出,φc(Iout)和φc(Igt)表示对应在文字检测模型上的特征图,φd(Iout)和φd(Igt)表示对应在文字识别模型上的特征图,和λG为常数。
6.一种文字图像高光去除装置,其特征在于,包括:
高光图像确定单元,用于确定带有高光的文字图像;
高光去除单元,用于将所述带有高光的文字图像输入至高光去除模型,得到所述高光去除模型输出的高光去除后的文字图像;
其中,所述高光去除模型是基于带有高光区域标记的样本文字图像,以及所述样本文字图像对应的高光去除样本文字图像训练得到的;所述高光去除模型用于提取所述带有高光的文字图像特征以及所述带有高光的文字图像对应的高光区域掩膜特征后,融合所述带有高光的文字图像特征以及所述高光区域掩膜特征得到融合特征,并对所述融合特征进行编码和解码后得到所述高光去除后的文字图像。
7.一种文字识别方法,其特征在于,包括:
确定待识别文字图像,并采用权利要求1至5任一项所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;
基于所述高光去除后的待识别文字图像,确定文字识别结果。
8.一种文字识别装置,其特征在于,包括:
识别图像确定单元,用于确定待识别文字图像,并采用权利要求1至5任一项所述的文字图像高光去除方法对所述待识别文字图像进行高光去除,得到高光去除后的待识别文字图像;
文字识别单元,用于基于所述高光去除后的待识别文字图像,确定文字识别结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述文字图像高光去除方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求7所述文字识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文字图像高光去除方法的步骤;和/或,所述计算机程序被处理器执行时实现如权利要求7所述文字识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110779127.8A CN113628127B (zh) | 2021-07-09 | 2021-07-09 | 文字图像高光去除、文字识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110779127.8A CN113628127B (zh) | 2021-07-09 | 2021-07-09 | 文字图像高光去除、文字识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628127A true CN113628127A (zh) | 2021-11-09 |
CN113628127B CN113628127B (zh) | 2023-11-17 |
Family
ID=78379427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110779127.8A Active CN113628127B (zh) | 2021-07-09 | 2021-07-09 | 文字图像高光去除、文字识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628127B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010026983A1 (ja) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
US10445569B1 (en) * | 2016-08-30 | 2019-10-15 | A9.Com, Inc. | Combination of heterogeneous recognizer for image-based character recognition |
CN110554991A (zh) * | 2019-09-03 | 2019-12-10 | 浙江传媒学院 | 一种文本图片的矫正与管理方法 |
CN111311520A (zh) * | 2020-03-12 | 2020-06-19 | Oppo广东移动通信有限公司 | 图像处理方法、装置、终端及存储介质 |
CN111950453A (zh) * | 2020-08-12 | 2020-11-17 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
CN112419174A (zh) * | 2020-11-04 | 2021-02-26 | 中国科学院自动化研究所 | 基于门循环单元的图像文字去除方法、系统及装置 |
CN113096057A (zh) * | 2021-04-13 | 2021-07-09 | 南京大学 | 一种基于四光源光度立体法的高光消除方法 |
-
2021
- 2021-07-09 CN CN202110779127.8A patent/CN113628127B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010026983A1 (ja) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
US10445569B1 (en) * | 2016-08-30 | 2019-10-15 | A9.Com, Inc. | Combination of heterogeneous recognizer for image-based character recognition |
CN110554991A (zh) * | 2019-09-03 | 2019-12-10 | 浙江传媒学院 | 一种文本图片的矫正与管理方法 |
CN111311520A (zh) * | 2020-03-12 | 2020-06-19 | Oppo广东移动通信有限公司 | 图像处理方法、装置、终端及存储介质 |
CN111950453A (zh) * | 2020-08-12 | 2020-11-17 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
CN112419174A (zh) * | 2020-11-04 | 2021-02-26 | 中国科学院自动化研究所 | 基于门循环单元的图像文字去除方法、系统及装置 |
CN113096057A (zh) * | 2021-04-13 | 2021-07-09 | 南京大学 | 一种基于四光源光度立体法的高光消除方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113628127B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hou et al. | Context-aware image matting for simultaneous foreground and alpha estimation | |
Temel et al. | Traffic sign detection under challenging conditions: A deeper look into performance variations and spectral characteristics | |
Matern et al. | Exploiting visual artifacts to expose deepfakes and face manipulations | |
US11636639B2 (en) | Mobile application for object recognition, style transfer and image synthesis, and related systems, methods, and apparatuses | |
JP2000137804A (ja) | デジタル画像の異常検出方法およびシステム、ならびにそのための記憶媒体 | |
CN112069891B (zh) | 一种基于光照特征的深度伪造人脸鉴别方法 | |
CN115294117B (zh) | Led灯珠的缺陷检测方法及相关装置 | |
Fayaz et al. | Underwater image restoration: A state‐of‐the‐art review | |
US20190272627A1 (en) | Automatically generating image datasets for use in image recognition and detection | |
CN112528917A (zh) | 斑马线区域识别方法、装置、电子设备和存储介质 | |
Huang et al. | DS-UNet: a dual streams UNet for refined image forgery localization | |
CN115100223A (zh) | 一种基于深度时空学习的高分辨率视频虚拟人物抠像方法 | |
Garg et al. | Comparison of Various Proposed Techniques for Processing of Different Images | |
CN117789293A (zh) | 基于多特征分离的行人重识别方法、系统与计算机可读介质 | |
CN113628127B (zh) | 文字图像高光去除、文字识别方法及装置 | |
US20230342986A1 (en) | Autoencoder-based segmentation mask generation in an alpha channel | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 | |
CA2997335C (en) | Automatically generating image datasets for use in image recognition and detection | |
Wang et al. | Currency recognition system using image processing | |
Chen et al. | Self-supervised sun glare detection CNN for self-aware autonomous driving | |
CN117333495B (zh) | 图像检测方法、装置、设备及存储介质 | |
CN112489037B (zh) | 缺陷检测及相关模型的训练方法、电子设备和存储装置 | |
Xie et al. | Single Image Reflection Removal with Reflection Classifier and Gradient Restorer | |
Shetty et al. | Automated Identity Document Recognition and Classification (AIDRAC)-A Review | |
Siddiqua et al. | MCCGAN: An All-In-One Image Restoration Under Adverse Conditions Using Multidomain Contextual Conditional Gan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |