CN113158977B - 改进FANnet生成网络的图像字符编辑方法 - Google Patents

改进FANnet生成网络的图像字符编辑方法 Download PDF

Info

Publication number
CN113158977B
CN113158977B CN202110525020.0A CN202110525020A CN113158977B CN 113158977 B CN113158977 B CN 113158977B CN 202110525020 A CN202110525020 A CN 202110525020A CN 113158977 B CN113158977 B CN 113158977B
Authority
CN
China
Prior art keywords
color
image
character
source
letter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110525020.0A
Other languages
English (en)
Other versions
CN113158977A (zh
Inventor
刘尚旺
李名
刘国奇
袁培燕
孙林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN202110525020.0A priority Critical patent/CN113158977B/zh
Publication of CN113158977A publication Critical patent/CN113158977A/zh
Application granted granted Critical
Publication of CN113158977B publication Critical patent/CN113158977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请提出一种改进FANnet生成网络的图像字符编辑方法。首先,利用基于HC显著性检测算法的改进自适应字符分割模型,准确提取出用户所界定的图像字符;然后,根据FANnet生成网络,生成与源字符字体一致的目标字符二值图;最后,通过提出的颜色复杂度判别的局部颜色迁移模型,迁移源字符颜色至目标字符;从而,生成与源字符字体结构和颜色变化均高度一致的目标编辑修改字符,达到字符编辑目的。实验结果表明本申请方法优于现有算法。针对字体结构和颜色渐变分布比较复杂的实际场景图像字符,本发明亦十分有效,这对图像重利用、图像字符计算机自动纠错和文本信息重存储等有一定的理论意义和应用前景。

Description

改进FANnet生成网络的图像字符编辑方法
技术领域
本发明属于图像识别技术领域,特别是涉及一种改进FANnet生成网络的图 像字符编辑方法。
背景技术
当今国际化社会,作为国际通用语言的英文字符出现在众多公共场合;与英 文字符具有相同几何结构特征的拼音字符也很重要。当这些字符出现在图像中, 尤其图像风格复杂时,难以直接对其进行编辑修改。字体风格迁移与文字生成是 人工智能的一个重要研究领域。不论是实景图还是电子效果图,总包含有大量文 字信息。这些文字信息可以帮助读者更好理解图像中的上下文语义和场景信息。 与文本中修改编辑文字不同,当一幅图像中的文字发生错误或需要修改时,直接 在原图中进行修改非常困难。例如,一幅图像包含的有限文字中,可以提取的视 觉信息数据不满足生成模型所需条件;在不同自然场景下,图像往往呈现出不同 特征:亮度、对比度、阴影、透视形变和背景复杂度等。文字字体设计要求数据 集内每一种文字的风格相同且具视觉一致性,建立这样的数据集往往需要消耗大 量的人力和物力。如何通过有限规模的字符集,使计算机自动生成与源字符具有 相同物理结构和视觉效果的其他字符是当前的研究热点。
研究人员对图像文字的研究主要集中于文字识别方向,2005年,杨志华等 人提出一种基于经验模式分解的汉字识别方法,通过对汉字常用笔画精简,做 EMD分析,从而提出特征识别汉字。2011年,易剑等人提出一种基于颜色聚类 和多帧融合的视频文字识别方法,2017年,丁明宇等人提出一种将深度学习和 OCR相融合的一种商品参数文字检测方法。而针对文字生成研究领域,最先采 用的是基于几何特征的文字合成算法。这种基于几何特征的算法只能用于特定的 字体拓扑结构,无法生成大量不同字体的文字。随着生成对抗网络(GANs)模 型的出现,文字生成问题主要采用基于生成对抗模型的相关算法来解决,即从一 个特定或随机的数据集中针对特定文字生成未知文字。然而,即使基于GANs 的相关算法可以预测目标文字,但是将其直接应用于实景图片依然面临着许多困 难。首先,大多数基于GANs的字体生成算法需要对一个确定的源文字进行精准 的识别。而在具有复杂背景的实景图中准确的文本申请字识别本身就极具挑战性。 而且,文字识别过程中的误差累积会直接影响后续目标文字生成的准确性。其次, 图像中的文本申请字往往融合了多种特征,例如:尺寸、颜色、结构等。受到光 线、角度等外部条件的影响,图像中的文字将经历不同程度的透视形变 (perspective distortion)。一些基于GANs的算法需要大量同一字体类型的观察 数据来提高生成数据的置信度,同时在生成算法前需要进行严格的透视消除步骤。 1998年,Shamir等提出了一种基于特征约束的字体设计算法。在这种方法中, 需要通过用户交互来进行文字特征提取,消耗时间成本;2010年,Suveeranont等 提出了一种基于实际图像文字的的相同文本字体生成算法,可以从用户自定义的 实例中自动生成新字体。然而这种方法只注重字体的几何特征,忽略了字体形变 等因素,从而生成的字体容易出现扭曲。随着深度学习技术的发展,研究人员开 始采用深度学习技术来解决字体生成问题,2014年Joshua B等提出的双线性映 射(bilinear factorization)可以将内容与风格特征进行分割并应用于字体生成。 2015年,Huy等人提出采用概率统计(statisticalmodels)的方法将少量的字体 集生成一套完整的字体。2016年,Baluja等人在成功地使用深度学习模型一小 组字母上来区分字体,并生成相同风格的其他字母。Bernhardsson等以公开收 集的5万字体作为训练集,通过调整隐变量(latent variable)的参数来产生不同的字体。但是这种通过少量样本生成的结果存在很大的误差,例如在生成字体时 遗漏了“Q”的尾部。2017年,Samaneh等提出了leave-one-out的训练方法,可以 完成通过少量字母生成其他字母。但在该方法中生成的字体更加关注整体字体风 格,对于文字内部颜色特征关注较少。2018年,Azadi等提出采用端到端的方式 从少量已有艺术字符通过GAN生成相同风格的其他字符。Project Naptha是一 款基于OCR的在线图像文字识别、提取、翻译、编辑、擦除的chrome插件。其 主要功能是文字识别和提取,针对于其编辑功能,只是简单的进行图像文字识别 和擦除后将修改文字替换上去,无法保证与原图像风格一致。2019年,吴亮通 过设计三个网络:前景文字迁移网络,背景擦除网络,前景背景融合网络来实现 实景图像文字编辑工作,但是在编辑过程中每一个网络中出现的差错都会在下一 个网络中累积,并大量消耗成本。2020年,Prasun Roy等人首次提出基于CNN 的文字生成网络(FANnet),实现了实景图像文字编辑的STEFFAN模型,但是 由于其在源文字提取阶段无法很好地识别字体结构或颜色特征复杂的实景图像 字符,因此FANnet准确率不高,无法很好地实现图像字符编辑工作。
发明内容
为解决背景技术所提到的技术问题,本申请设计并实现一种可以直接在图像 中编辑、修改文本字符的方法,以满足图像文字更替、修改等需求。其整体框架 流程图,如图1所示。
从图1可以看出,本申请图像字符编辑方法包括三个步骤:首先,准确提取 图像中的源文字。即通过用户交互确定图像中需要修改的文本字符,采用基于对 比度直方图(Histogram based contrast,HC)显著性检测算法和自定义阈值分割 算法的自适应目标检测模型来准确提取出图像中的源文字字符。其次,运用基于 FANnet的生成网络生成与源字符字体结构一致的目标字符二值图。最后,采用 基于颜色复杂度判别的自适应局部颜色迁移模型进行颜色迁移,生成最终目标字 符图,以保证与源字符一致的结构特征与颜色特征。
这里,采用了基于卷积神经网络(Convolutional Neural Network,CNN)的 文字生成网络(Font Adaptive Neural Network,FANnet),可以避免生成对抗网 络(Generative Adversarial Networks,GANs)方法中需要对图像中文本申请字 事先进行精确检测识别的步骤。CNN对具有复杂视觉特征的图像进行风格迁移 和结构生成等方面有着广泛的应用;不同于GANs,FANnet不需事先判定图像 中的文字内容,目标字符生成的正确性主要取决于网络输入的源字符是否能够被 准确分割。为保证源文字精确分割,本申请提出了一种基于HC显著性检测改进 的自适应目标检测模型,在该模型中通过最大稳定极值区域(Maximally Stable Extrernal Regions,MSER)对图像文本区域进行检测;并根据实景图像的特点, 自适应选择阈值分割算法或HC显著性检测算法来分割源字符。同时,为保证修 改后的图像与原图像具有相同的视觉平滑性,本申请提出了一种基于颜色复杂度 的自适应局部颜色迁移模型,保证目标文字与源文字具有相同的颜色特征;该颜 色迁移模型不仅可以应用在纯色字体,对于具有渐变色或复杂颜色的字符颜色迁 移亦具有良好的效果。最后,在MSRA-TD500、COCO-Text和ICDAR数据集 上,展示本申请方法较相关其他方法具有更好的效果。
本发明的有益效果是:
(1)设计一种基于FANnet生成网络的图像字符编辑模型,其字符编辑效 果与原图像保持有高度视觉一致性。
(2)提出一种基于HC显著性检测的改进自适应目标检测模型(CharacterAdaptive Detection model,CAD model),可以根据源字符图像结构几何特征自适 应地从HC显著性检测算法与阈值分割算法中选择码本。
(3)提出一种基于颜色复杂度判别的局部色彩迁移模型(Colors Distribute-based Local Color Transfer,CDL Color Transfer)。通过颜色复杂度判别 算法设定阈值将源字符颜色分类,自适应选择基于最大值的纯色迁移算法与基于 双线性插值的复合色迁移算法。结果保证了目标字母与源字母颜色特征的一致性。
(4)改进现有技术出现的问题及局限性,并满足在图像中直接编辑、修改 文本字符的需求,本申请设计了一种基于FANnet的图像字符编辑方法,通过提 出一种基于HC显著性检测的自适应目标检测模型对数据预处理步骤进行改进, 明显提高了FANnet网络生成字符的准确率;同时提出基于颜色复杂度判别的局 部色彩迁移模型,使生成字符与源字符在颜色纹理特征上保持高度的视觉平滑性。
附图说明
图1是本发明图像字符编辑整体框架流程图
图2本发明自适应目标检测算法流程图
图3本发明FANnet生成网络结构图
图4本发明局部颜色迁移模型流程图
图5本发明源字母提取模型典型结果图
图6本发明单通道平均SSIM分数值图
图7本发明FANnet的部分结果对比图。
图8本发明基于颜色复杂度的局部颜色迁移模型部分结果图。
图9本发明颜色复杂度阈值λ分数图
图10本发明含有颜色纹理特征的字符图像颜色迁移效果图
图11本发明生成字母结果对比图
图12本发明颜色迁移结果对比图。
图13本发明平均SSIM曲线(CASSIM)对比图
图14本发明字符生成结果对比图。
图15本发明实景图像字符编辑结果对比图。
图16本发明电子图像应用结果图
图17本发明自然场景图像应用结果图
具体实施方式
改进FANnet生成网络的图像字符编辑方法由以下步骤组成:(1)从图像中选 择欲替换的源字母,并通过HC显著性检测算法和自定义阈值分割算法的自适应 目标检测模型提取源字母的二值图;(2)通过FANnet网络生成目标字母二值图; (3)通过基于颜色复杂度的自适应局部颜色迁移模型对已得目标二值图进行颜色 迁移后将源字母替换为生成字母。在步骤(1)中,采取自定义检测区域来确定 需要修改的区域,并使用自适应目标检测模型检测出该区域中每一个字母的边界 框(bounding box)。对确定区域中的所有字母,可以选择任何一个希望被修改的 源字母,并指定输入希望代替的目标字母。基于这些输入,进行颜色迁移、替换 等步骤。
自适应目标检测模型
将I记为含有大量文本区域的实景图像,Ω记为实景图像中选定的检测区域, 即仅需在区域Ω中进行字母提取。具体来说,用户通过标记四个顶点的四边形 来确定实景图像中文本区域Ω的边框线。在区域Ω确定后,应用MSER算法检 测出Ω区域中每一个字母的二值掩码图IM。通过实验发现,单一的MSER算法 多数情况下无法生成具有更高保真度且能精确框定字母的掩码(sharp mask)。
因此,特别引入基于颜色直方图对比度(HC)的目标检测算法。首先,将 区域Ω规则化为Ω’作为HC的输入:
Figure BDA0003062725630000051
式中,map(.)分别代表区域Ω’;P代表区域Ω的四个定点坐标值。
在区域Ω’内有:
Figure BDA0003062725630000052
式中,R(.)表示颜色ci在区域Ω’内的显著值;n为区域Ω’内所含的颜色总数;wj表示颜色cj的权重;Dis(ci,cj)表示颜色ci和cj在CIE L*a*b*空间内的颜色距离度量。 具体表示为:
Figure BDA0003062725630000053
Figure BDA0003062725630000061
式中,num(.)表示cj在区域Ω’出现的次数;
Figure BDA0003062725630000062
表示cj在CIE L*a*b*空间中第k个 分量的值。
为避免相似颜色被量化产生不同显著值从而造成噪声,使用平滑操作将相似 颜色的显著值进行加权平均成为一个颜色集:
Figure BDA0003062725630000063
式中,
Figure BDA0003062725630000064
表示颜色c与它相似值最高的k个颜色的距离度量,k 在本申请中取n的25%。
最后将颜色集的显著值按照其在空间像素点的实际位置还原便可提取出区 域Ω’中的显著性目标。还原后的图像由于颜色值的减少会出现边界,内部纹理噪 声等明显现象,因此采用高斯滤波和像素值归一化对结果图进行平滑操作,减少 噪声。得到经过HC操作后的字母灰度图后,采用OTSU算法对其进行二值化处 理,得到二值掩码图IHC。实验发现,HC算法的准确性主要取决于图像中字母 与背景的颜色对比度,因此在字母提取过程中会出现字母分割不完全或过分割等 情况。为解决这一问题,引入自适应目标判别模型:
Figure BDA0003062725630000065
Δ(T)=Sr(THC)-Sr(TB) (7)
式中,IHC代表原图I经过HC算法处理后的的二值图;IB代表区域Ω的二值图。
假设每个字母是不重叠的,基于每个英文字母都具有连通性的特点,采用连 通分量分析法来计算提取图中连通分量的最小边界值BT。T代表区域Ω内的一 个连通分量,Sr(.)代表对区域Ω经过源字母提取后的最小边界框。普遍来说, 当Sr(THC)<Sr(TB)时,说明经过HC算法后的源字母提取效果优于阈值分割法, 反之阈值分割法更优。当源字母很小时,HC算法结果往往存在提取不完全的情 况,因此附加条件BT<δ,即当源字母尺寸小于阈值δ时,采用阈值分割法,实 验中δ取值为25。最终源字母二值图定义为:
Figure BDA0003062725630000066
图像If包含选定区域Ω内所有的字母二值图。IM代表原图I经过MSER算法 处理后得到的二值图;⊙代表矩阵的元素积。
假设If中共有N个连通分量,用
Figure BDA0003062725630000071
来表示区域0<n≤N中的第n个连 通分量。用户可以自定义多个希望重新修改或编辑的源字母。我们定义这些源字 母的集合为Θ,且|Θ|≤N,|.|表示集合的基数。定义
Figure BDA0003062725630000072
为第Cθ连通分量的二值 图。Bθ
Figure BDA0003062725630000073
的最小边界框,θ表示源字母且θ∈Θ。自适应目标检测算法流程图, 如图2所示。
基于FANnet的目标字母二值图生成算法
图像预处理
通常来说,神经网络的输入图像横纵比是相等的。但是受源字母、字体类型、 字体尺寸等因素的影响,
Figure BDA0003062725630000074
会含有不同横纵比;然而,直接对
Figure BDA0003062725630000075
进行缩放操作 会导致字体扭曲。因此,采用填充(padding)操作使
Figure BDA0003062725630000076
获得相同横纵比mθ×mθ。 其中,mθ=max(hθ,wθ),hθ和wθ分别代表边界框Bθ的长和宽;max(.)代表 取二者较大值,即沿x轴和y轴分别用px和py填充
Figure BDA0003062725630000077
生成规则化二值图Iθ。其中, px和py满足:
Figure BDA0003062725630000078
随后,对Iθ进行缩放操作,使其维度为64×64。
字体适应性神经网络(FANnet)
字体自适应生成神经网络含有两个不同的输入,分别是尺寸为64×64的源字 母二值图和目标字母的标签,即长度为26的独热编码(one-hot encoding)v。假 设目标字母为‘H’,则v在下标为7的位置置1,其余位置为0,如图3所示。在 网络的编码部分,输入的源字母图像通过滤波器分别为16、16和1的3个卷积 层(convolution layer)。随后经过全连接层(fully-connected layer)FC1。独热编 码v经过全连接层FC2。通过维度变换,将FC1和FC2的输出均转化为512维 的潜在表示(latent representation),并将其连接作为全连接层FC3和FC4的输入。 全连接层FC3和FC4均含有1024个神经元。网络的解码部分将FC4输出的特 征向量尺寸转换为8×8×16,后依次经过3个滤波器为16、16和1的反卷积层。 每一个反卷积层包括一次上采样操作和一个2D卷积。所有的卷积层使用3×3 的卷积核,后连接一个ReLU的激活函数。
局部颜色迁移模型
色彩平滑性是保证目标字母生成的重要因素。因此,本申请提出局部色彩迁 移模型,以有效将源字母的颜色特征迁移到目标字母上。首先,计算Iθ的非零边 框得到
Figure BDA0003062725630000081
通过元素点成操作后得到具有颜色特征的源字母显著图:
Figure BDA0003062725630000082
背景颜色不影响目标字母颜色的生成,因此只需提取
Figure BDA0003062725630000083
中源字母内的颜 色特征。源字母内部的颜色特征受外界条件的影响,例如亮度、角度等,直接进 行像素值复制会导致字母内部纹理、颜色特征信息的丢失。因此,采用双线性差 值法对源字母内含有颜色特征信息的区域依次进行处理,从而得到颜色掩码:
Figure BDA0003062725630000084
首先,定义Icolor为大小与目标字母二值图相同尺寸的零图,然后对图像
Figure BDA0003062725630000085
逐行进行颜色提取,即当像素点值pcolor=0时删除该像素点,否则保留。将颜 色提取后的第i行记为Rowi。Ti(.)代表对Rowi进行双线性插值操作,其中:
Figure BDA0003062725630000086
Figure BDA0003062725630000087
ycolor对应颜色掩码Icolor第i行中像素点坐标,
Figure BDA0003062725630000088
对应Rowi中像素点坐标,且存在映射关系:
Figure BDA0003062725630000089
Figure BDA00030627256300000810
wcolor
Figure BDA00030627256300000811
分别为Icolor和Rowi的宽度,u,v分别为计算得到
Figure BDA00030627256300000812
和ycolor的小数部分。最后进行颜色迁移操作:
Figure BDA00030627256300000813
式中,Icolor表示颜色掩码图,Bterget表示目标字母的二值图,⊙表示矩阵元素内积。
当源字母是纯色图时,由于在实景图像中的文本申请字边缘部分总是模糊且 含有少量背景颜色,因此在源字母的二值掩码图提取后常含有颜色噪音。这些噪 音将在Icolor中被放大以至于颜色迁移结果不准确。为解决这一现象,特别提出 了自适应的色彩复杂度判别算法:
Figure BDA0003062725630000091
Figure BDA0003062725630000092
S为源字符颜色复杂度,γ为判别因子,定义为0.28,M代表在Nc中随机选 择fcolor×N个颜色,N代表
Figure BDA0003062725630000093
中不同颜色的数目,fcolor定义为0.1。n代表像 素点P在RGB通道的值,且满足Pn=max(Nc)。Nc定义为
Figure BDA0003062725630000094
中颜色c出现的 次数。Dissimlar(.)表示空间颜色距离,当且仅当Pn与Pi为相似色时计数加一。
当源字母被判定为纯色时,仅对目标字母进行纯色迁移。局部颜色迁移模型 流程图如图4所示。
为保证修改后图像的视觉平滑性,替换过程由以下步骤完成。首先,采用以
Figure BDA0003062725630000095
作为掩码的图像修复算法将源文字移除。其中D(.)代表对包含选定源 字母的连通分量二值图
Figure BDA0003062725630000096
进行核为ρ=6×6的膨胀操作。其次对
Figure BDA0003062725630000097
规则化, 调整尺寸与Iθ相同并定义规则化后的
Figure BDA0003062725630000098
为Rθ。取Rθ的最小边界框
Figure BDA0003062725630000099
Figure BDA00030627256300000910
大 于或小于Bθ时,则按比例缩放区域
Figure BDA00030627256300000911
以防止目标字母过大或过小。最后通过矩 阵元素积对
Figure BDA00030627256300000912
与修复过的原图进行字母替换。
实验结果与分析
实验设置
实验平台配置:硬件环境,CPU,Intel酷睿i7 7700HQ 2.8GHz;内存,DDR4 16GB;显卡,NVIDIA Quadro M1200(显存,4GB)。软件环境:操作系统,Ubuntu release 20.04;深度学习环境,TensorFlow-gpu 1.14.0;数据可视化工具,Matplotlib 2.2.0;编程语言,Python 3。
为验证本申请方法的性能,在MSRA-TD500、COCO-Text和ICDAR数据 集上进行效果展示。MSRA-TD500数据集包含500个自然情景下具有挑战性的 室内外实际场景文本图像;室内图像主要为标志、门板和警示牌,室外图像主要 为复杂背景下的导板和广告牌,分辨率从1269×864到1920×1280不等。图像 中文本包含英文、中文或两者的混合,且字体、大小、颜色、方向和背景不同。 COCO-Text数据集包含63686张自然场景图像,其中包含约14,000个文本实 例。ICDAR数据集图片为自然场景图片,具有文字在图片中央,分辨率高,文字清晰可见的特点。为验证实景图像字符编辑模型的实效性,通过百度图片、相 机拍摄等渠道下载、拍摄自然场景图片,并对其文字部分进行实验。实验结果表 明实景图像字符编辑模型在修改自然场景图像中文字信息方面具有一定的有效 性和准确性。
源字符提取模型性能表现
采用基于卷积神经网络的FANnet网络,来进行目标字母的生成。FANnet 网络具有结构简单、所需样本信息少的特点,且可以有效避开图像预处理中对图 像文字识别的步骤,从而提高生成文字的准确性。在FANnet网络中生成文字图 像的准确性与源字母提取二值图的准确性成正相关。传统的阈值分割法设定固定 的阈值,因此在不同因素影响下,将导致提取的源字母图像边界噪声大,分割不 完全或过分割等情况。例如图像整体亮度过大或过小、源字母内部颜色特征复杂 而背景纹理相对简单、背景颜色亮度大于字母颜色亮度等。同时阈值分割法往往 需要用户交互不断调整阈值来保证源字母提取效果。而在自然场景图片中确定区 域的文字部分通常符合背景纹理简单且文字颜色突出的特点。为弥补这一缺陷, 在源文字提取阶段采用基于HC的目标显著性检测算法对确定区域中的文字部 分进行目标分割。HC目标显著性检测算法主要依据像素间的色彩差异来分配像 素的显著值,在效果上具有速度快,细节精确,边界清晰的特点。本申请对1000 张自然场景下含有文本的图像进行文字区域确定和HC目标显著性检测,其正确 率达87.4%。因此,对于大多数自然场景下的文字图像HC算法具有较高的准确 性。而针对在中文语言环境下的英文字母,因为其在图像中所占比例或所占像素 较少,当一次性修改多个字母时,HC算法无法精准地将每个源字母与背景信息 分开,此时通过自定义阈值的分割方法更优。因此本申请在源字母提取阶段将 HC目标显著性检测算法与自定义阈值法相结合,并设定条件使源字母提取模型 可以自适应地选择HC目标显著性检测算法或阈值分割算法的结果作为码本。在 提高了源字母提取正确性的同时,减少了用户交互操作。源字母提取模型典型结 果图,如图5所示。图5中:Ⅰ为HC目标显著图;Ⅱ为基于OTSU的HC目 标显著分割图;Ⅲ为自定义阈值分割图;Ⅳ为源字母提取模型自适应选择后的最 终掩码图。
在图5中,(1)当受到亮度影响时,如背景亮度大于源字符内部颜色亮度, 如(b)、(d)所示,和源字母具有复杂颜色纹理特征时,如(m)、(o)。由于HC显著 性检测算法受亮度影响小且主要提取原理为图像颜色对比度,因此,与传统的阈 值分割法相比,HC显著性检测算法往往能够更加准确地提取出源文字字符的结 构几何特征。(2)因为HC显著性检测算法为避免结果图像颜色块状化而将相似 颜色统一为颜色集并赋予相同显著值。因此当编辑区域内有多个连通分量,且文 字字符尺寸较小或所占像素点较少时。尤其针对中文语言环境下的英文注释如 (g)、(l)、(n)和实际生活场景中字母相对于背景亮度过高时,如(j)。HC显著性检 测算法会导致结果图像出现过分割的情况,以至于无法识别编辑区域内不同的连 通分量。此时通过用户交互,传统的阈值分割法反而可以更好地提取出编辑区域 内的每一个连通分量。(3)当字母内部颜色简单,且与背景颜色相差较大时,如 (a)、(c)、(e)、(f)、(i)所示,此时HC显著性检测算法和阈值分割法效果相似。
最后,通过码本判别机制,从HC显著性检测算法计算出的码本与阈值分割 HC显著性检测算法算法计算出的码本中择优选择,并融合MSER算法计算出的 码本得到最终的源字符提取图。当出现由于欠分割导致的码本判别错误时,只需 用户通过键盘输入适当调整阈值分割法中的阈值即可进行码本的重计算和判别 机制的重判断。在实验过程中,我们通过对COCO-Text数据集中选取863张包 含自然场景下室内、室外英文字符的图像进行字符提取实验,由于HC显著性检 测算法和阈值分割算法可以优缺点互补,其成功率可达88.6%。
FANnet生成网络性能表现
FANnet网络训练:FANnet的训练及测试数据集字体均采用谷歌字体数据集。 实验中,源字母二值图像和目标字母独热编码向量作为FANnet生成网络的一个 输入对。因为任一源字母图像可以生成与其结构几何特征相同的26个不同目标 字母。因此,对于1000种不同字体,训练数据集共包含67.60万个训练输入对。 同样的,对另外300种不同字体的大写字母数据集,验证数据集共包括20.28万 个输入对。为使网络平均绝对误差(MeanAbsolute Error,MAE)达到最小,采 用学习率为lr=10-3的自适应矩估计优化器(AdaptiveMoment Estimation optimizer,Adam optimizer)来训练网络。同时设置动量参数β1=0.9,β2=0.99和 规则化参数ε=10-7
目标字母生成结果评估:FANnet可以实现通过一个特定的源字母生成与其 几何特征相同的任意目标字母。实验中,在数据集中随机选择300个不同字体的 字母‘A’,作为源字母,生成26个与‘A’相同结构特征的目标字母。通过结 构相似性(StructuralSimilarity,SSIM)算法计算每个生成字母与其真值图 的相似度分数,并计算相同字母的平均SSIM值。SSIM是一种衡量两幅图像相似 度的指标,用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构 相似程度的度量。
单通道平均SSIM分数值,如图6所示。
从图6可以看出,与自定义阈值分割结果图作为FANnet的输入相比,通过 源字母目标检测模型自适应择优选取后的源字母二值图使生成字母SSIM分值平 均上升0.1,证明了基于HC显著性检测的改进自适应目标检测模型对准确性的 提高。在生成结果中,字母“I”生成结果相对较好,这是因为字母“I”本身结 构简单,几何特征不明显,而字母‘M’和‘W’生成效果相对较差,究其原因是在 测试集中生成过程中字母“M”和“W”为保持与源字母质心相同,从而导致整 体字母尺寸较大,真值图中为保持视觉一致性将字母“M”和“W”相对缩小。 实验结果显示,本申请方法所得生成字母平均SSIM值可达0.7308,而原FANnet 为0.6058。
FANnet的部分结果对比图如图7所示,每一组从上至下依次为原FANnet 结果图,应用自适应目标检测模型后的FANnet结果图,真值图。从数据集中随 机选取三种字体的大写字母集,在每一组实验中,分别将经典阈值分割算法和自 适应源字母目标检测模型提取后的源字母掩码作为FANnet网络的输入,并将生 成结果与真值图相对比。实验结果表明,通过自适应源字母目标检测模型提取后 的源字母,可以更大程度保留源字母的结构特征,使生成结果更加准确。
局部颜色迁移模型的性能表现
本申请提出的基于颜色复杂度判别的颜色迁移算法为针对图像字符内部颜 色特征迁移模型。可以很好的实现将源字符内部颜色特征迁移至与其几何结构不 一致的目标字符二值图中。由颜色复杂度判别机制将源字符颜色特征分为纯色图 和渐变色图,并根据分类结果分别进行相应的颜色迁移方法。部分颜色迁移结果 图如图8所示,Ⅰ为源字母颜色码本图,Ⅱ为FANnet生成的目标字母二值图, Ⅲ为通过颜色迁移模型后生成的目标字母颜色图。由于所得源字母二值掩码图与 原图像字符依旧存在微小的误差,因此在颜色提取过程中,字符边缘部分往往存 在少量的背景颜色噪音,尤其当源字母是纯色图时,如(d)、(e)、(i)、(p)所示。 若仅使用基于双线性差值的颜色迁移算法,这些颜色噪音将会在后续的颜色迁移 过程中放大,导致颜色迁移结果不准确。同样的,当字符图像内部颜色纹理复杂 时,如(h)、(i)、(k),仅通过最多颜色值迁移同样会导致颜色迁移失败。因此, 设定颜色复杂度判别机制,当且仅当源字母颜色复杂度S≥γ时为纯色图,否则 为渐变色图。并根据不同的判定结果选择相应的颜色迁移算法来实现源字符的颜 色迁移。实验中,通过随机在数据集MSRA-TD500和数据集ICDAR中选取400 张实际场景下含有文本图像的字母颜色进行测试,颜色复杂度判别算法正确率可 达87.75%。
源字符颜色复杂度判别算法阈值λ的确定。采用RGB空间颜色距离进行像 素点相似度判断,并计算在阈值λ下1000张包含不同颜色特征的源字母分割图 的通过率。其中包括一般纯色图、含有边缘颜色噪声的纯色图、渐变色图和具有 复杂纹理特征的颜色字符图像。实验结果,如图9所示。
实验中,通过人工标记的方式将1000张图片分为纯色图与渐变色图。之后 对其进行区间为[0.1,0.9],步数为0.01的阈值计算。实验结果表明,当阈值在 区间[0.25,0.30]时正确率最高。针对尺寸小,所占像素点少的字母可以适当减 小阈值,针对渐变色色差小,没有明显颜色差别的渐变色可以适当提高阈值。
针对复杂色字符图像,本申请方法既能对具有渐变颜色的字符图像进行颜色 迁移,又能对具有明显纹理特征的字符图像进行颜色迁移,并最大程度保留源字 母内部纹理特征,如图10所示。针对纯色图像,本申请方法可以很好地进行边 缘去噪,提取并迁移主要颜色特征,使目标字符与源字符保持视觉一致性。
实验对比与分析
为更好展示本申请模型的优越性,本节进行了本实施例方法和相关方法的对 比实验。
字符生成对比实验。MC-GAN方法主要采用端到端的方案,通过同一类型 少量英文字符的输入,生成与其类型相同其余字母。FANnet生成网络可以通过 输入一张源字符二值图,生成与其相同几何结构特征的任一字符。而其生成字符 的准确性主要取决于源字母二值图是否提取准确。因此在本节实验中通过对比原 FANnet生成网络结果与应用本申请提出的源字母检测方法的FANnet做对比,结 果如图11所示:
实验发现,当输入源字母个数为1时,本申请方法效果远优于MC-GAN方 法,如图11右列所示,其中输入字母均为‘A’。然而随着MC-GAN方法中输入 源字母数量的增加,其在字母边界形状以及字母几何结构上要略优于本申请方法, 如图11左列所示,其中FANnet与本申请方法输入源字母均为‘A’,MC-GAN输 入字母由红色矩形框标出。
字符颜色迁移对比实验。由于目前没有专门的颜色字母显著图数据库,因此 在本申请实验中,通过选取谷歌字体数据集中100种不同字体图像,二值化后与 不同颜色码本做矩阵元素点乘,得到颜色字母数据集。其中包含624张纯色图和 1,976张渐变色图。目前已有的局部颜色迁移方法主要针对源色彩图像向目标 灰度图像的迁移,而对于色彩图像向二值图迁移有效方法较少。通过对比本申请 提出的自适应局部颜色迁移方法和Colornet方法进行实验。Colornet为Prasun Roy等人提出的二值图像颜色生成网络。在实验中,选取不同字体和颜色特征字 母图‘A’与其同字体的目标二值字母图作为本申请方法和Colornet方法的输入。 部分对比结果如图12所示,每组结果图从上至下依次为Colornet方法结果图、 本申请方法结果图、真值图。相对于Colornet方法,本申请提出的模型直接在原 图像素点上进行操作,避免了颜色生成步骤。因此在视觉上本申请方法更符合原 图像颜色特征。而Colornet方法会导致生成颜色偏暗或含有明显颜色噪声,从而 字符几何结构发生改变。
基于这些结果图,本申请通过计算其与真值图在RGB通道内的结构相似性 指数进行评价,得到具有颜色特征的平均SSIM曲线(CASSIM),如图13所示。 其中本申请方法的颜色平均SSIM分数值可达到0.8357,而Colornet方法为0.7747, 平均提高0.06。其中当源字母图像为渐变色图时,本申请方法主要通过基于双线 性差值的方式获得颜色码本后对目标字母进行颜色迁移。因此当字符为‘I’、‘J’、 ‘L’时,由于其字符尺寸在颜色码本中所占比例相对其他字母较小,无法从中获 得足够的颜色特征,从而导致SSIM分数偏低。
整体模型对比实验。本申请提出的实景图像文字编辑模型在字符编辑过程中 避免了文字字符检测步骤和颜色生成步骤,因此不仅可以减少由文字字符识别出 现的错误同时提高了文字编辑速度。本申请模型与现有先进算法STEFANN字符 编辑模型进行对比,部分结果如图14所示,每组结果图从上至下依次为 STEFANN方法生成字符结果图,本申请方法生成字符结果,真值图。在对比实 验中,均将字母‘A’作为源字符输入,分别将本申请方法和STEFANN字符编辑 方法结果与真值图对比。由于STEFANN字符编辑模型主要取决于源字母提取的 准确性,当其源字母在提取过程中出现差错时将直接影响目标字母的几何结构和 尺寸大小。本申请通过对字符提取方法的改进,提高了FANnet生成网络的准确 性。实验结果证明本申请模型相较STEFANN字符编辑方法字符生成准确性更高。
为更加客观地对比模型的优劣性,在本实验中通过归一化均方根误差(normalized root mean square error,NRMSE)、峰值信噪比(Peak signal to noiseration,PSNR)和在RGB通道内的平均结构相似性(Structural Similarity,SSIM) 指标进行评价。当输入字符数为1时,输入字符均为‘A’。结果如表1所示。
(1)NRMSE主要通过计算目标图像与原图像之间像素值的偏差平均值来 客观地评价两者之间的区别。其值越小表示两图像之间的差距越小,公式如18 所示。
Figure BDA0003062725630000151
Figure BDA0003062725630000152
式中,IT表示目标图像像素点,IO表示原图像与之对应像素点,N表示图像I像素 点个数。
(2)PSNR用于衡量图像有效信息和噪声之间的比率,是对图像质量评价 的测量指标。其值越大说明两图像之间的误差越小,公式如20所示。
Figure BDA0003062725630000153
定量评价指标结果如表1所示。
表1定量评价指标结果
Figure BDA0003062725630000161
从表1可以看出,相对于MC-GAN方法,本申请提出的自适应目标检测模 型应用于FANnet可以明显提高目标字母在几何结构上生成的准确性。
本申请模型主要针对于实景图像中文本文字的编辑修改,具有一定的优越性。 与STEFANN字符编辑方法和Project Naptha方法进行对比实验,部分结果如图 15所示,Ⅰ为Project Naptha编辑字符结果图,Ⅱ为STEFANN编辑字符结果图, Ⅲ为本申请方法编辑字符结果图,Ⅳ为原图像,并在原图像中用矩形框标注编辑 字符。实验发现,Project Naptha方法在OCR识别图像文字成功的基础上才可以 进行字符编辑,否则会出现乱码、无法修改等情况,如图15(j)所示,其图像修 复结果同样影响字符的编辑,如图15(g)、(h)、(i)所示。其次,Project Naptha算 法在进行文字修改时无法指定字符修改,导致运行成本增加且修改效果下降,如 图15(a)、(b)、(c)、(e)、(g)所示。另外,Project Naptha算法无法生成与原图像 文本字符相同字体的文字,导致编辑后图像视觉效果与原图相差较大,如图(d)、 (f)所示。对于STEFANN字符编辑方法,在进行编辑时需要大量人工交互操作来 提取源文字。源文字提取和颜色生成步骤的错误将直接影响生成字符的几何结构 和颜色特征,如图15Ⅱ所示。
本申请通过对源文字提取技术的改进,大大提高了FANnet生成网络的准确 性。在后续颜色迁移步骤改进了单一的像素点放大,采用自适应纯色和渐变色的 颜色迁移方法。在实景图中,不论纯色图还是渐变色图或是具有简单纹理特征的 文字图像均能产生较好的效果,使最终结果图更加逼真,如图15Ⅲ所示。
实际应用
为验证本申请方法的实际应用能力,将本申请方法应用于实际生活图像中。 验证数据通过相机拍摄、百度下载等渠道获取。部分结果如图16、17所示。其 中修改字母通过矩形框标注,当图列为上下时,上方为原图,下方为编辑后图像; 当图列为左右时,左方为原图,右方为编辑后图像。在实际场景图像和电子设计 图像中,所含有的字符信息往往是有限的,本申请方法可以从有限的字符结构及 颜色中提取特征并迁移到目标字符。因此在多数含有文本字符的自然场景图像 (如图17所示)和电子图像(如图16所示),本申请模型均可很好地进行文字 编辑,保证与原图像高度视觉一致。对于一些挑战性较强的图像,如中文字符环 境下英文或拼音字符尺寸较小(如图17中字母‘k’改为‘G’)、字体边界颜色模糊(如图17中字母‘LU’改为‘RD’);因拍摄角度导致的字体形状不规则(如图17 中字母‘AHEAD’改为‘THERE’)、光线过亮(如图17中字母‘P’改为‘T’)或过暗 (如图17中字母‘SH’改为‘LL’);字符内部颜色纹理复杂(如图17中字母‘S’改 为‘B’)等,本申请方法均有较好的编辑效果。
字符编辑在图像文本纠错、重存储和图像重利用等方面具有广泛的应用。本 申请设计的基于字符级的实景图像文字编辑模型可以在图像编辑过程中编辑单 个或同时编辑多个字符文字。不仅保证了编辑效果同时减小了运行成本。由于文 字生成步骤中采用了基于CNN的FANnet生成网络,避免了一般GAN网络中对 文字检测步骤,同时通过本申请提出的基于HC显著性检测的改进自适应目标检 测模型提高了FANnet生成目标字符的准确性。在颜色迁移步骤中,有针对性的 对源字符颜色特征进行提取,并通过颜色复杂度判别机制来减少颜色噪音的生成 与迁移。在MSRA-TD500、COCO-Text和ICDAR数据集和百度下载、相机拍 摄图像上的字符编辑结果表示本申请模型在视觉感受和相关评价指标(SSIM、 NRSE、PSNR)均优于其他先进算法。

Claims (6)

1.改进FANnet生成网络的图像字符编辑方法,其特征在于,所述方法包括以下步骤:
(1)从图像中选择欲替换的源字母,并通过HC显著性检测算法和自定义阈值分割算法的自适应目标检测模型提取源字母的二值图;
(2)通过FANnet生成网络生成与源字符字体结构一致的目标字符二值图;
(3)通过基于颜色复杂度的自适应局部颜色迁移模型对已得目标二值图进行颜色迁移后将源字母替换为生成字母;
步骤(1)中自适应目标检测模型为:
Figure FDA0003660314140000011
Δ(T)=Sr(THC)-Sr(TB) (7)
式中,IHC代表原图I经过HC算法处理后的二值图;IB代表区域Ω的二值图,T代表区域Ω内的一个连通分量,Sr(.)代表对区域Ω经过源字母提取后的最小边界框,BT为连通分量的最小边界值;
源字母二值图定义为:
Figure FDA0003660314140000012
图像If包含选定区域Ω内所有的字母二值图,IM代表原图I经过MSER算法处理后得到的二值图;⊙代表矩阵的元素积;
局部色彩迁移模型的算法为:
建立计算Iθ的非零边框得到
Figure FDA0003660314140000018
通过元素点乘操作后得到具有颜色特征的源字母显著图:
Figure FDA0003660314140000013
色彩复杂度判别算法为:
Figure FDA0003660314140000014
Figure FDA0003660314140000015
S为源字符颜色复杂度,γ为判别因子,定义为0.28,M代表在Nc中随机选择fcolor×N个颜色,N代表
Figure FDA0003660314140000016
中不同颜色的数目,fcolor定义为0.1,n代表像素点P在RGB通道的值,且满足Pn=max(Nc),Nc定义为
Figure FDA0003660314140000017
中颜色c出现的次数,Dissimlar(.)表示空间颜色距离,当且仅当Pn与Pi为相似色时计数加一,当源字母被判定为纯色时,仅对目标字母进行纯色迁移;
当源字母被判定为非纯色时,提取
Figure FDA0003660314140000021
中源字母内的颜色特征,采用双线性差值法对源字母内含有颜色特征信息的区域依次进行处理,从而得到颜色掩码:
Figure FDA0003660314140000022
定义Icolor为大小与目标字母二值图相同尺寸的零图,然后对图像
Figure FDA0003660314140000023
逐行进行颜色提取,即当像素点值pcolor=0时删除该像素点,否则保留,将颜色提取后的第i行记为Rowi,Ti(.)代表对Rowi进行双线性插值操作,其中:
Figure FDA0003660314140000024
Figure FDA00036603141400000211
ycolor对应颜色掩码Icolor第i行中像素点坐标,
Figure FDA0003660314140000025
对应Rowi中像素点坐标,且存在映射关系:
Figure FDA0003660314140000026
Figure FDA0003660314140000027
wcolor
Figure FDA0003660314140000028
分别为Icolor和Rowi的宽度,u,v分别为计算得到
Figure FDA0003660314140000029
和ycolor的小数部分,最后进行颜色迁移操作:
Figure FDA00036603141400000210
式中,Icolor表示颜色掩码图,Bterget表示目标字母的二值图,⊙表示矩阵元素内积;
字体自适应生成神经网络,即FANnet生成网络含有两个不同的输入,分别是尺寸为64×64的源字母二值图和目标字母的标签,在网络的编码部分,输入的源字母图像通过滤波器分别为16、16和1的3个卷积层,随后经过全连接层FC1,独热编码v经过全连接层FC2,通过维度变换,将FC1和FC2的输出均转化为512维的潜在表示,并将其连接作为全连接层FC3和FC4的输入,全连接层FC3和FC4均含有1024个神经元,网络的解码部分将FC4输出的特征向量尺寸转换为8×8×16,后依次经过3个滤波器为16、16和1的反卷积层,每一个反卷积层包括一次上采样操作和一个2D卷积,所有的卷积层使用3×3的卷积核,后连接一个ReLU的激活函数。
2.根据权利要求1所述的字符编辑方法,其特征在于,基于颜色直方图对比度HC的目标检测算法为:
首先,将区域Ω规则化为Ω’作为HC的输入:
Figure FDA0003660314140000031
式中,map(.)分别代表区域Ω’;P代表区域Ω的四个定点坐标值,
在区域Ω’内有:
Figure FDA0003660314140000032
式中,R(.)表示颜色ci在区域Ω’内的显著值;n为区域Ω’内所含的颜色总数,wj表示颜色cj的权重,Dis(ci,cj)表示颜色ci和cj在CIE L*a*b*空间内的颜色距离度量,具体表示为:
Figure FDA0003660314140000033
Figure FDA0003660314140000034
式中,num(.)表示cj在区域Ω’出现的次数;
Figure FDA0003660314140000035
表示cj在CIE L*a*b*空间中第k个分量的值;
使用平滑操作将相似颜色的显著值进行加权平均成为一个颜色集:
Figure FDA0003660314140000036
式中,
Figure FDA0003660314140000037
表示颜色c与它相似值最高的k个颜色的距离度量,k取n的25%;
最后将颜色集的显著值按照其在空间像素点的实际位置还原提取出区域Ω’中的显著性目标,采用高斯滤波和像素值归一化对结果图进行平滑操作,减少噪声,得到经过HC操作后的字母灰度图后,采用OTSU算法对其进行二值化处理,得到二值掩码图IHC
3.根据权利要求1所述的字符编辑方法,其特征在于,步骤(2)包括图像预处理,采用填充操作使
Figure FDA0003660314140000038
获得相同横纵比mθ×mθ,其中,mθ=max(hθ,wθ),hθ和wθ分别代表边界框Bθ的长和宽;max(.)代表取二者较大值,即沿x轴和y轴分别用px和py填充
Figure FDA0003660314140000041
生成规则化二值图Iθ,其中,px和py满足:
Figure FDA0003660314140000042
随后,对Iθ进行缩放操作,使其维度为64×64。
4.根据权利要求1所述的字符编辑方法,其特征在于,替换过程由以下步骤完成,首先,采用以
Figure FDA0003660314140000043
作为掩码的图像修复算法将源文字移除,其中D(.)代表对包含选定源字母的连通分量二值图
Figure FDA0003660314140000044
进行核为ρ=6×6的膨胀操作,其次对
Figure FDA0003660314140000045
规则化,调整尺寸与Iθ相同并定义规则化后的
Figure FDA0003660314140000046
为Rθ,取Rθ的最小边界框
Figure FDA0003660314140000047
Figure FDA0003660314140000048
大于或小于Bθ时,则按比例缩放区域
Figure FDA0003660314140000049
以防止目标字母过大或过小,最后通过矩阵元素积对
Figure FDA00036603141400000410
与修复过的原图进行字母替换。
5.根据权利要求1所 述的字符编辑方法,其特征在于,所述字符为字母字符。
6.根据权利要求1所 述的字符编辑方法,其特征在于,所述阈值区间为[0.25,0.30]。
CN202110525020.0A 2021-05-12 2021-05-12 改进FANnet生成网络的图像字符编辑方法 Active CN113158977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525020.0A CN113158977B (zh) 2021-05-12 2021-05-12 改进FANnet生成网络的图像字符编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525020.0A CN113158977B (zh) 2021-05-12 2021-05-12 改进FANnet生成网络的图像字符编辑方法

Publications (2)

Publication Number Publication Date
CN113158977A CN113158977A (zh) 2021-07-23
CN113158977B true CN113158977B (zh) 2022-07-29

Family

ID=76875006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525020.0A Active CN113158977B (zh) 2021-05-12 2021-05-12 改进FANnet生成网络的图像字符编辑方法

Country Status (1)

Country Link
CN (1) CN113158977B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672774B (zh) * 2021-07-29 2023-09-29 国电南瑞科技股份有限公司 一种基于配电云主站及图数据库的配电网设备拓扑着色方法及装置
CN113553797A (zh) * 2021-08-04 2021-10-26 哈尔滨工业大学 一种端到端的风格一致的文字图像生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360490A (zh) * 2011-09-30 2012-02-22 北京航空航天大学 基于颜色转换和编辑传播的图像季节特征增强方法
CN105027178A (zh) * 2013-01-09 2015-11-04 柳仲夏 符号图像编辑装置、方法及记录有用以执行该方法的程序的记录介质
CN110458918A (zh) * 2019-08-16 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110851147A (zh) * 2018-08-21 2020-02-28 阿里巴巴集团控股有限公司 图像替换方法、装置和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016015115A (ja) * 2014-06-09 2016-01-28 株式会社リコー 情報処理装置、情報処理方法、及び記録媒体
CN111754596B (zh) * 2020-06-19 2023-09-19 北京灵汐科技有限公司 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN111861955A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 构建图像编辑模型的方法以及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360490A (zh) * 2011-09-30 2012-02-22 北京航空航天大学 基于颜色转换和编辑传播的图像季节特征增强方法
CN105027178A (zh) * 2013-01-09 2015-11-04 柳仲夏 符号图像编辑装置、方法及记录有用以执行该方法的程序的记录介质
CN110851147A (zh) * 2018-08-21 2020-02-28 阿里巴巴集团控股有限公司 图像替换方法、装置和设备
CN110458918A (zh) * 2019-08-16 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Prasun Roy et al.."STEFANN: Scene Text Editor using Font Adaptive Neural Network".《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》.2020,第13225-13234页. *
任辈杰."基于互联网视觉的图像编辑算法研究".《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2018,第I138-2254页. *

Also Published As

Publication number Publication date
CN113158977A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
Xu et al. Page segmentation for historical handwritten documents using fully convolutional networks
CN111914698B (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
US11587216B2 (en) Detection and identification of objects in images
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN114092700B (zh) 基于目标检测和知识图谱的古文字识别方法
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
CN111738055A (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN112580507A (zh) 一种基于图像矩矫正的深度学习文本字符检测方法
De Mello et al. Digital document analysis and processing
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN112949455B (zh) 一种增值税发票识别系统及方法
CN108664968B (zh) 一种基于文本选取模型的无监督文本定位方法
Qin et al. Robust and accurate text stroke segmentation
Park et al. A method for automatically translating print books into electronic Braille books
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN113065559B (zh) 图像比对方法、装置、电子设备及存储介质
Bureš et al. Semantic text segmentation from synthetic images of full-text documents
Konya et al. Adaptive methods for robust document image understanding
CN115497115B (zh) 基于深度学习的页眉页脚检测方法及系统
CN117095423B (zh) 一种银行单据字符的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant