CN114419621A - 处理含有文字的图像的方法及装置 - Google Patents

处理含有文字的图像的方法及装置 Download PDF

Info

Publication number
CN114419621A
CN114419621A CN202111496104.2A CN202111496104A CN114419621A CN 114419621 A CN114419621 A CN 114419621A CN 202111496104 A CN202111496104 A CN 202111496104A CN 114419621 A CN114419621 A CN 114419621A
Authority
CN
China
Prior art keywords
image
target
characters
character
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111496104.2A
Other languages
English (en)
Inventor
纪金雨
黄小虎
谌贵雄
杜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ji Jinyu
Original Assignee
Shanghai Grove Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Grove Technology Co ltd filed Critical Shanghai Grove Technology Co ltd
Priority to CN202111496104.2A priority Critical patent/CN114419621A/zh
Publication of CN114419621A publication Critical patent/CN114419621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本申提供了处理含有文字的图像的方法,包括:获取待处理的原图像,原图像中含有文字;识别原图像中的文字区域,生成蒙面图像,蒙面图像用于区分原图像中的文字区域和非文字区域;对文字区域内的文字进行识别,识别包括文本的识别、文字的样式的识别;基于原图像和蒙面图像生成目标图像,目标图像中,文字区域包含的文字被抹去,且文字遮挡的部位基于文字区域背景图案修复;将所识别的文本翻译为目标语种的文本;根据目标语种的文本生成目标文字,目标文字的样式匹配所识别的原文字的样式;将目标文字与目标图像进行融合,目标文字位于目标图像中对应原文字的文字区域内。本申请的目标图像与的目标文字融合效果更佳。

Description

处理含有文字的图像的方法及装置
技术领域
本申请涉及人工智能领域中的图像处理技术,特别是指处理含有文字的图像的方法、装置、计算设备及存储介质。
背景技术
自然场景的文字翻译,具有广泛的应用场景,例如在跨境电商平台中图像中的文字翻译部分,实现将图像中的一种文字翻译为另一种文字。
例如专利申请号为CN201711447783.8的文献中,公开了一种图像文字翻译方法,该方法通过获取图像翻译请求,该翻译请求中包括待翻译的图像及目标语言类型;翻译方式为对照式翻译时,则对所述待翻译的图像进行文本识别及段落划分处理,确定所述待翻译的图像中包括的各原文段落;分别对各原文段落进行翻译,生成与所述目标语言类型对应的各译文段落;将所述各原文段落及各译文段落,按照预设的样式依次进行对照显示。通过将各原文段落与各译文段落按照预设的样式依次进行对照显示。该文献适用于对照翻译,翻译的文本位于原文本附近作为参考,且并主要针对的是白底黑字等单一的图像文字翻译方式,针对复杂背景时,例如电商商品广告,商户广告牌等翻译任务时,处理效果往往不佳。
又如,专利申请号为CN201610073785.4公开了一种翻译图像中文字的方法,该方法可对文档中文字部分使用机器学习的方法进行检测和OCR识别;对文字部分先进行机器翻译并设置相应翻译准确的置信度,并将不同翻译准确率置信度的翻译用不同的背景色标记区分;将翻译后的图像中文字与原图像合并时,用所述置信度对应的背景色作为图像中文字区域的背景色。该文献针对复杂背景时,例如电商商品广告,商户广告牌等翻译任务时,处理效果往往不佳,并且,该文献使用另外的颜色(即置信度对应的颜色)填充图像中文字区域,会导致合并处理后的图像中的文字区域的背景与原图像中该文字区域背景色彩的不一致,由其当原图中文字区域背景为非单一色彩时,该区别更为明显,导致显示效果的不佳。
因此,在上述背景下,如何能够使得融合的翻译后的文字的图像,能够使用原图像中文字区域的原始字体、颜色、背景纹理等信息,以使图像中文字区域翻译后的文字与原图融合后视觉效果更佳,是有待解决的技术问题。
发明内容
鉴于现有技术的以上问题,本申请提供一种处理含有文字的图像的方法、装置、计算设备及存储介质,以实现图像中文字区域翻译后的文字与原图融合后视觉效果更佳。
本申请第一方面提供了一种处理含有文字的图像的方法,包括:
获取待处理的原图像,所述原图像中含有文字;
识别所述原图像中的文字区域,生成蒙面图像,所述蒙面图像用于区分所述原图像中的文字区域和非文字区域;
对所述文字区域内的文字进行识别,所述识别包括文本的识别、文字的样式的识别;
基于所述原图像和所述蒙面图像生成目标图像,所述目标图像中,所述文字区域包含的所述文字被抹去,且所述文字遮挡的部位基于所述文字区域背景图案修复;
将所识别的文本翻译为目标语种的文本;
根据所述目标语种的文本生成目标文字,所述目标文字的样式匹配所识别的原文字的样式;
将所述目标文字与所述目标图像进行融合,所述目标文字位于目标图像中对应原文字的文字区域内。
由上,生成的目标图像中,原文字遮挡的部位基于所述文字区域背景图案修复,例如,原文字区域背景为单色,则目标图像中该区域为相同的单色,原文字区域背景为花纹,则目标图像中该区域为修复后的花纹,并且目标文字样式匹配所识别的原文字的样式,因此融合后,实现图像中文字区域翻译后的文字与原图融合后视觉效果更佳。
作为第一方面的一种可能的实现方式,所述文字的样式包括至少以下之一:字体、字体颜色、字体效果、字号、或字体填充形式。
由上,可以实现目标文字与原文字的尽量样式的一致性,其中,字体如宋体、楷体、黑体等,字体效果如加粗、倾斜、下划线等,字号如五号字、九号字等,填充形式如中空字体、实心字体等。
作为第一方面的一种可能的实现方式,所述将所述目标文字与所述目标图像进行融合,还包括:当所述目标文字的尺寸大于对应的原文字的文字区域尺寸时,将所述目标文字根据对应的原文字的文字区域大小进行缩放适配。
由上,通过该尺寸的缩放适配,可以避免目标文字在对应的文字区域外,从而视觉效果更佳。
作为第一方面的一种可能的实现方式,所述基于所述原图像和所述蒙面图像生成目标图像,包括:将所述原图像和所述蒙面图像输入一图像修复模型,由所述图像修复模型生成所述目标图像。
由上,可以通过基于神经网络的图像修复模型来实现目标图像的生成。
作为第一方面的一种可能的实现方式,所述待处理的原图像包括电商平台的页面中的含有商品信息的图像。
由上,应用于电商平台时,可以帮助商家将图像中的中文商品信息转换成其他语种的商品信息,从而减少商家的工作,提高商家展示的图像商品信息中的文字便于海外用户的识别。
本申请第二方面提供了一种处理含有文字的图像的装置,包括:
图像获取模块,用于获取待处理的原图像,所述原图像中含有文字;
文字区域识别模块,用于识别所述原图像中的文字区域,生成蒙面图像,所述蒙面图像用于区分所述原图像中的文字区域和非文字区域;
文字识别模块,用于对所述文字区域内的文字进行识别,所述识别包括文本的识别、文字的样式的识别;
目标图像生成模块,用于基于所述原图像和所述蒙面图像生成目标图像,所述目标图像中,所述文字区域包含的所述文字被抹去,且所述文字遮挡的部位基于所述文字区域背景图案修复;
翻译模块,用于将所识别的文本翻译为目标语种的文本;
目标文字生成模块,用于根据所述目标语种的文本生成目标文字,所述目标文字的样式匹配所识别的原文字的样式;
融合模块,用于将所述目标文字与所述目标图像进行融合,所述目标文字位于目标图像中对应原文字的文字区域内。
作为第二方面的一种可能的实现方式,所述文字的样式包括至少以下之一:字体、字体颜色、字体效果、字号、或字体填充形式。
作为第二方面的一种可能的实现方式,所述将所述目标文字与所述目标图像进行融合,还包括:当所述目标文字的尺寸大于对应的原文字的文字区域尺寸时,将所述目标文字根据对应的原文字的文字区域大小进行缩放适配。
本申请第三方面提供了一种计算设备,包括:处理器,以及存储器,存储器上存储有程序指令,所述程序指令当被所述处理器执行时使得所述处理器执行上述第一方面任一所述的方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,所述程序指令当被计算机执行时使得所述计算机执行上述第一方面任一所述的方法。
附图说明
图1是本申请第一实施例提供的处理含有文字的图像的方法的流程图;
图2是本申请第二实施例提供的处理含有文字的图像的方法的流程图;
图3A是本申请第二实施例中待处理的原图像的示意图;
图3B是本申请第二实施例中含有OCR区域的原图像的示意图;
图3C是本申请第二实施例中示意mask图像的示意图;
图3D是本申请第二实施例中修复后得到的目标图像的示意图;
图3E是本申请第二实施例中含目标文字的示意图;
图3F是本申请第二实施例中目标文字与目标图像融合后的示意图;
图4是本申请实施例中修复模型的一实施例的示意图;
图5是本申请实施例中GAN训练的示意图;
图6是本申请实施例提供的处理含有文字的图像的装置的示意图;
图7是本申请实施例与其他方案对比的示意图;
图8是本申请实施例提供的计算设备的示意图。
应理解,上述结构示意图中,各框图的尺寸和形态仅供参考,不应构成对本发明实施例的排他性的解读。结构示意图所呈现的各框图间的相对位置和包含关系,仅为示意性地表示各框图间的结构关联,而非限制本发明实施例的物理连接方式。
具体实施方式
下面结合附图并举实施例,对本申请提供的技术方案作进一步说明。应理解,本申请实施例中提供的系统结构和业务场景主要是为了说明本申请的技术方案的可能的实施方式,不应被解读为对本申请的技术方案的唯一限定。本领域普通技术人员可知,随着系统结构的演进和新业务场景的出现,本申请提供的技术方案对类似技术问题同样适用。
应理解,本申请实施例提供的处理含有文字的图像的方法、装置、计算设备及计算机可读存储介质,由于这些技术方案解决问题的原理相同或相似,在如下具体实施例的介绍中,某些重复之处可能不再赘述,但应视为这些具体实施例之间已有相互引用,可以相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。对本发明具体实施方式进行进一步详细说明之前,对本发明实施例中涉及的名词和术语,以及其在本发明中相应的用途\作用\功能等进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
原图像,或称待处理的图像,该图像中包括文字区域,该文字区域的文字为未经翻译的文字,该文字也称为原文字。
目标图像,或称处理后的图像,该图像中的文字区域中的文字,为翻译后的文字,且该文字适配对应的原文字的样式,该文字也称为目标文字。
光学字符识别(Optical Character Recognition,OCR),为从图像中识别文字的技术。
图像修复(inpainting)模型,用于将图像中缺损、覆盖的地方,进行修复的算法。在本申请实施例中,指将被文字覆盖的部位的背景图案进行修复,修复的效果为抹去所述文字。
神经网络训练阶段与推理阶段,其中,在无特别说明时,后述的神经网络均指推理阶段的神经网络,该阶段的神经网络已经经过预先训练的网络。常规的神经网络的训练方法是将标记有标签的样本输入神经网络,并使得损失函数逐渐收敛的方式进行训练,也可以采用对抗网络(GAN)的方式进行训练。
本申请的处理含有文字的图像的方案,可以应用场景举例说明如下:可以应用于跨境电商平台中图像中的文字翻译、以帮助商家将图像中的中文商品信息转换成其他语种的商品信息,从而减少商家的工作,提高商家展示的图像商品信息中的文字便于海外用户的识别。也可以应用于普通图像中的文字翻译,如对民族壁画图像、建筑物雕刻图像等的复杂背景的场景中的文字的翻译。也可以应用于电影、电视、直播等视频中的字幕翻译,以实现视频中文字的实时文字翻译、或实现视频教学中的时实时翻译的任务中。也可以应用于对借助于摄像头获取的图像中的文字的实时翻译,例如应用于手机上的可对实时获取的包括文字的图像的实时翻译软件。
本申请实施例提供了处理含有文字的图像的方法,其基本原理是:首先识别出原图像中的文字区域及文字;然后使用图像修复模型生成目标图像,其中目标图像为原图像修复后的图像,所修复的部位包括文字区域中的文字覆盖的部位,目标图像中对应所述文字区域部分的文字被去除,该文字所遮挡的原图像部位被修复为基于原该文字区域的背景得到的图像,例如包括纹理、色彩等信息的修复;另一方面,对所识别的文字进行翻译;然后将翻译后文字(即目标文字)适配原文字的样式(如字体、色彩、效果等样式),以及根据对应的原文字区域尺寸适配后,融合到上述目标图像的相应位置,完成对所述图像的处理。本申请实施例所提供的方法,在视觉上,原文字遮挡部位被修复为背景,且目标文字的样式尽量保持与原文字一致,且大小适配原文字区域框,避免出框的情况,因此融合后的图像的视觉效果更佳。
下面将结合附图,对本申请实施例进行详细介绍。图1示出了本申请实施例提供的处理含有文字的图像的方法的流程图,该方法包括以下步骤:
S10:获取待处理的含有文字的图像(即有原文字的原图像)。
在一些实施例中,对于电商平台中图像,可以直接根据该图像的存储地址读取获得,例如该图像在电商平台的网页页面所对应的代码中记载有加载该图像的地址,则可以通过访问该地址的方式获得所述图像。
在一些实施例中,可以是在作为卖家的用户制作完包括所述图像的页面,或上传上述图像到其商品展示页面后,执行本步骤,以获取所述图像,并通过本申请得到处理后生成的翻译后的文字图像,并将该图像存储到服务器(如电商平台对应的服务器)中,供涉外用户访问时读取该处理后的图像进行相应页面展示。在一些实施例中,可以生成对应多种语言(如英语、日语、德语等)的文字的处理后的图像,并在服务器中存储。
在一些实施例中,也可以是当涉外用户访问电商平台页面时,实时读取对应的所述含有文字的图像并进行本申请方法的处理后,生成翻译后的文字的图像,并基于该图像进行相应页面展示。
在一些实施例中,对于所要翻译的目标的语种,可以基于涉外用户使用终端访问电商平台时,获取所述终端的地址,并根据该地址所在的国家,来进行对应语种的翻译,从而展示给用户的对应语种的含有文字的图像(即含有目标文字的目标图像)。
S20:识别图像中的文字区域,并生成蒙面(mask)图像(或称掩码图像),该mask图像可以为二值图像,mask图像中示出了所述图像中的文字区域和非文字区域。
在一些实施例中,识别出文字区域后,可获得该区域的位置信息,并可进一步基于原图像、所识别的文字区域,生成蒙面(mask)图像。其中文字区域可以为多个文字区域。
在一些实施例中,关于文字区域的识别以及蒙面(mask)图像的生成,可以基于OCR识别技术,也可以使用神经网络实现。其中,可使用的神经网络例如全连接神经网络(FullyConnected Neural Network,FCNN)、卷积神经网络(Convolutional Neural Networks,CNN)、蒙面CNN区域选取网络(Mask Regions with CNN features,MaskRCNN)、区域选取网络(Region Proposal Network,RPN)等。
S30:对文字区域内的文字进行识别,这里的识别包括文本的识别、文字的样式的识别。其中文字的样式包括:字体(如宋体、楷体、黑体等)、字体颜色、字体效果(如加粗、倾斜、下划线等)、字号(如五号字、九号字等)、填充形式(如中空字体、实心字体等)等样式。
在一些实施例中,可以基于OCR识别技术对区域内的文字进行识别。
在一些实施例中,可以基于神经网络对区域内的文字进行识别,神经网络例如FCNN、CRNN(CNN与RNN的叠加网络)等网络。
在一些实施例中,可以基于预先存储的字体,来确定所要识别的文字的字体,可以基于图像特征识别字体效果、填充形式,可以基于像素值三原色的识别来确定字体颜色,可以基于文字大小确定字号。
S40:基于所述原图像、所述mask图像,生成待使用的目标图像,该目标图像中的原文字区域不含有的文字,文字已经被抹去,并且该文字区域的背景与原图像中该区域的背景相同,也即该目标图像中的文字区域部分为修复后的图像。
在一些实施例中,上述背景相同是指:原文字区域背景为单色,则目标图像中该区域为相同的单色,原文字区域背景为图像(如花纹等),则目标图像中该区域为图像(如花纹等),且为修复后的图像(如花纹等),这里的文字区域的图像的修复指的是将被原文字覆盖的部分修复为背景图像的一部分。
在一些实施例中,可以使用神经网络来实现本步骤,其中,所述原图像和所述mask图像作为神经网络的输入,神经网络的输出为目标图像。其中,神经网络可以为CNN网络、FCNN网络、Unet(U型网络)等。在本实施例中,神经网络可以采用图像修复模型(inpainting模型)。其中,原图像和所述mask图像可以采用级联的方式输入神经网络。其中,inpainting模型的训练可以采用常用的基于损失函数的梯度下降法进行训练,也可以采用GAN网络进行对抗训练。
S50:将所识别的原文字的文本翻译为目标语种的文字。
在一些实施例中,可以采样神经网络实现所述目标语种的文字的翻译,神经网络可以为RNN、BERT网络等。
在一些实施例中,也可以利用已有的翻译工具,实现目标语种的文字的翻译。
S60:生成目标文字,其中该目标文字的样式匹配所识别的原文字的样式。具体的样式可参见步骤S30的描述,不再赘述。
在一些实施例中,会基于目标文字所在的原文字区域的大小,对目标文字进行尺寸缩放的适配,适配目标是使得目标文字所占区域位于对应的原文字区域内。其中,可以是当目标文字的尺寸大于对应的原文字区域时,进行所述尺寸缩放的适配。其中,所述原文字区域的大小,可以基于上述获得的mask图像获得。
S70:将目标文字与所生成的目标图像进行融合,生成包含目标文字(即翻译后的文字)的目标图像。
在一些实施例中,可以基于原文字区域的位置,将对应的目标文字置于该区域。其中,所述原文字区域的位置,可以基于上述获得的mask图像获得。
在一些实施例中,融合的方式可以为:将目标文字作为前景图像,目标文字位置匹配原文字所在区域的位置,且前景图像的背景为透明,将目标图像作为背景图像,然后进行两图像的叠加融合。
为了便于对本申请进一步的了解,下面进一步结合应用于跨境电商平台中图像中的文字翻译的应用场景,对本申请实施例提供的处理含有文字的图像的方法进一步进行介绍。该实施例中,以电商平台的卖家用户基于原电商平台的展示页面,生成该展示页面中的目标语种(本例中目标语种为英语)的图像存储到服务器中为例,参见如图2所示的流程图,该具体实施方式包括以下步骤:
S110:基于电商平台的页面对应的代码中记载有加载到页面的图像的地址,访问该地址获得所述图像,其中该图像中含有汉字。
如图3A示出了待处理的原图像的例子。
S120:通过OCR文字识别技术识别上述原图像中的汉字,并记录图像名称,图像大小,图像中汉字的文字区域的坐标、尺寸,识别出的文字信息,以及本次识别的置信度。同时基于OCR识别的文字区域获得对应的mask图像。
如图3B示出了含有OCR区域的原图像的示意图,由该图可见,汉字的文字区域被OCR识别出来,图中以方框来表示。其中,进行OCR识别时,可以利用加过滤词表的OCR技术来识别商品图像中的中文和数字,并对部分电商专用名词进行针对性翻译和过滤(例如包邮、买一送一、买一送三、领券、满减等)。
如图3C示出了所获得的mask图像的示意图,mask图像为二值图,图中各个白色部分的矩形对应所述识别的各个文字区域,黑色部分对应原图像中非文字区域部分。
S130:将原图像、mask图像输入图像修复模型(如inpainting模型),生成待使用的目标图像,实现原图像中的原文字区域的文字去除。
其中,对于该inpainting模型,原图像和mask图像作为该模型的输入,其中,可以是两图像数据级联后输入该inpainting模型。其中原图像可以为对应RGB三原色的图像数据,例如为三通道的矩阵,mask可以为对应为二值的单通道矩阵。矩阵的大小对应原图像的分辨率的大小(这里指已经经过前处理以适配网络输入要求的分辨率大小),各个矩阵中的值为对应的颜色归一化后的值。输出为与原图像分辨率相同大小的图像数据,本申请实施例中,该输出的图像称为目标图像。
通过inpainting模型,可以抹去原图像中汉字,实现对文字区域的背景图像的修复,如图3D示出了修复后得到的目标图像的示意图,可见,目标图像中对应原文字区域的文字已经被抹去,且该区域背景已经被修复。
图4示出了inpainting模型的一种实现方式,该inpainting模型包括编码器(encoder)和解码器(decoder),其中encoder是对输入的图像进行下采样运算,encoder网络是由多组二维卷积(Conv2d)、归一化(InstanceNorm2d)、以及激活函数(ReLU)组成。decoder是对输入的图像进行上采样运算,decoder网络是由多组二维转置卷积(ConvTranspose2d)、归一化(InstanceNorm2d)、以及激活函数(ReLU)组成。Enconder与decoder之间采用了空洞卷积网络(dilated con),用于进行空洞卷积运算(DilatedConv),空洞卷积的网络构建是由多层残差网络组成,使用空洞卷积具有扩大感受野和捕获多尺度上下文信息等优点。
其中该inpainting模型可以基于对抗网络(GAN)训练,将在后文进行介绍。
S140:将OCR文字识别出的汉字信息翻译成对应的目标语种的文字文本。本例中,目标语种为英语,生成的为英文文本。
如图3E中示出了翻译后得到的各个目标文字,每个目标文字对应原图中的每个文字区域中的汉字。
本实施例中,采用了预先训练好的语音翻译模型,如Transformer来完成原文字到目标语种的转换。
S150-S160:根据原文字样式(如字体、色彩、大小等)、文字区域尺寸,对翻译得到的英文文本适配得到目标文字,并将上述得到的目标图像(即图3D示出的图像)作为背景,将得到的目标文字作为前景进行融合,得到融合后的图像。
如图3F示出了融合后的图像。其中,融合的步骤,可以参考上述步骤S60-S70,不再赘述。
下面,进一步对本申请实施例中的inpainting模型的训练方法进行介绍。本实施例中,该inpainting模型的训练方法采用了GAN的训练方法,本实施例中,其训练方法具体可以如下:
首先,构建样本集,这里即构建图像数据集,具体包括:将收集的图像(格式可为jpg,png,JPG,JPEG等),送入OCR模型后获取文字区域,进而获得mask图像,并保证原图像与mask图像具有一一对应的关系。同时,记录图像名称,图像大小,图像文字区域的坐标,识别出的文字信息,以及识别的置信度。
然后,使用样本集训练inpainting模型,这里采用GAN方式进行训练。具体的,inpainting模型是一个GAN网络,如图5示出的GAN网络示意图,inpainting模型包括生成器、判别器,在使用阶段(或称推理阶段),仅使用inpainting模型的生成器。该训练过程具体可以如下:
inpainting模型的生成器输入为一张图像(RGB_三通道)以及其mask图像(灰度_单通道),根据原图中颜色和纹理的分布规律生成mask图像中白色矩形框中的颜色及纹理,从而去除原图中含有文字的区域,而判别器则用于鉴定数据的来源,这里用于判断生成器生成的图像与原图像的差异性。由于inpainting模型是一个GAN网络,因此其训练是一个极小极大博弈的过程,训练的最终目标是让生成器完全捕获输入样本的分布规律,根据mask矩形框从而抹去文字后的图像,而判别器则用于鉴定生成的样本区域和真实样本之间的差距,并将差距反馈生成器,指导其下一次生成,直到样本区域和真实样本之间的差距收敛到允许值。
其中,该训练过程中,inpainting的损失函数为:loss=L1loss+perceptualLoss
+AdversariaLoss,其中L1loss损失函数是对mask图像的尺寸进行归一化处理,perceptualLoss是用来度量真实输入图像与预测图像的相似度,AdversariaLoss为GAN在训练过程中产生的损失函数。
其中,训练过程中,涉及的参数可以为:生成器的学习率为0.0001,判别器的学习率为0.00001,指数衰减率beta1=0.0,指数衰减率beta2=0.9。其中,为了解决梯度消失和梯度爆炸的问题,生成器可以使用ReLU激活函数,判别器则采用LeakyReLU激活函数。为了解决网络在训练过程出现的过拟合现象,使用归一化层来代替训练过程中的Dropout,本申请使用Instance Normalization归一化,以便能够根据不同样本的属性生成与之对应的样本。
如图6所示,本申请还提供了一种处理含有文字的图像的装置10,其可以实现上述处理含有文字的图像的方法及其各可选实施例,该装置包括:
图像获取模块11,用于获取待处理的含有文字的图像。具体的,用于实现上述步骤S10及其可选实施例。
文字区域识别模块12,用于识别图像中的文字区域,并生成蒙面(mask)图像(或称掩码图像)。具体的,用于实现上述步骤S20及其可选实施例。
文字识别模块13,用于对文字区域内的文字进行识别,这里的识别包括文本的识别、文字的样式的识别。具体的,用于实现上述步骤S30及其可选实施例。
目标图像生成模块14,用于基于所述原图像、所述mask图像,生成待使用的目标图像,该目标图像中的原文字区域不含有的文字,文字已经被抹去,并且该文字区域的背景与原图像中该区域的背景相同。具体的,用于实现上述步骤S40及其可选实施例。
翻译模块15,用于将所识别的文字的文本翻译为目标语种的文本。具体的,用于实现上述步骤S50及其可选实施例。
目标文字生成模块16,用于生成目标文字,其中该目标文字的样式匹配所识别的原文字的样式。具体的,用于实现上述步骤S60及其可选实施例。
融合模块17,用于将目标文字与所生成的目标图像进行融合,生成包含目标文字(即翻译后的文字)的目标图像。具体的,用于实现上述步骤S70及其可选实施例。
在一些实施例中,上述文字区域识别模块14与文字识别模块13可以由OCR模块实现,也可以由神经网络实现,目标图像生成模块14可以由inpainting模型实现,也可以由其他神经网络实现,翻译模块可以由BERT网络或其他神经网络实现。
下面对本申请的效果进行介绍。如图7所示,为本申请实施例与国内外主流技术之间的对比。其中,图像的左侧为原始商品图像;图像的第二列为Wechat对商品进行场景翻译的结果,图像的第三列为Google对商品进行场景翻译的结果,图的右侧为本申请实施例对商品图像处理的结果。通过与原图的对比的结果如下:
Wechat翻译后的目标文字有以下缺陷:文字长度方面明显超过了之前的文字框,字体颜色和商品标签(logo)均与原图不一致,翻译所得文字coupons附近多出了一个矩形框;
Google翻译后的目标文字有以下缺陷:文字超过了之前的文字框,且第三列下半部分的图像文字颜色出现了与原图不一致的现象;
本申请实施例翻译的目标文字的颜色和纹理,以及该区域背景的处理都比较正确,并且,目标文字适配文字区域进行调整,不会到该区域外,以满足视觉上的较佳效果。
图8是本申请实施例提供的一种计算设备800的结构性示意性图。该计算设备可以作为处理含有文字的图像的装置,执行上述处理含有文字的图像的方法及其各可选实施例,该计算设备可以是终端,也可以是终端内部的芯片或芯片系统。如图8所示,该计算设备800包括:处理器810、存储器820、通信接口830。
应理解,图8所示的计算设备800中的通信接口830可以用于与其他设备之间进行通信,具体可以包括一个或多个收发电路或接口电路。
其中,该处理器810可以与存储器820连接。该存储器820可以用于存储该程序代码和数据。因此,该存储器820可以是处理器810内部的存储单元,也可以是与处理器810独立的外部存储单元,还可以是包括处理器810内部的存储单元和与处理器810独立的外部存储单元的部件。
可选的,计算设备800还可以包括总线。其中,存储器820、通信接口830可以通过总线与处理器810连接。总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中采用了一条无箭头的线表示,但并不表示仅有一根总线或一种类型的总线。
应理解,在本申请实施例中,该处理器810可以采用中央处理单元(centralprocessing unit,CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器810采用一个或多个集成电路,用于执行相关程序,以实现本申请实施例所提供的技术方案。
该存储器820可以包括只读存储器和随机存取存储器,并向处理器810提供指令和数据。处理器810的一部分还可以包括非易失性随机存取存储器。例如,处理器810还可以存储设备类型的信息。
在计算设备800运行时,所述处理器810执行所述存储器820中的计算机执行指令执行上述方法的任一操作步骤以及其中任一可选的实施例。
应理解,根据本申请实施例的计算设备800可以对应于执行根据本申请各实施例的方法中的相应主体,并且计算设备800中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行本申请所述的方法,该方法包括上述各个实施例所描述的方案中的至少之一。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括、但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
另外,说明书和权利要求书中的词语“第一、第二、第三等”或模块A、模块B、模块C等类似用语,仅用于区别类似的对象,不代表针对对象的特定排序,可以理解地,在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
在上述的描述中,所涉及的表示步骤的标号,如S110、S120……等,并不表示一定会按此步骤执行,在允许的情况下可以互换前后步骤的顺序,或同时执行。
说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容;它不排除其它的元件或步骤。因此,其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在,但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组群。因此,表述“包括装置A和B的设备”不应局限为仅由部件A和B组成的设备。
本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例,但可以指同一实施例。此外,在一个或多个实施例中,能够以任何适当的方式组合各特定特征、结构或特性,如从本公开对本领域的普通技术人员显而易见的那样。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,均属于本申请保护范畴。

Claims (10)

1.一种处理含有文字的图像的方法,其特征在于,包括:
获取待处理的原图像,所述原图像中含有文字;
识别所述原图像中的文字区域,生成蒙面图像,所述蒙面图像用于区分所述原图像中的文字区域和非文字区域;
对所述文字区域内的文字进行识别,所述识别包括文本的识别、文字的样式的识别;
基于所述原图像和所述蒙面图像生成目标图像,所述目标图像中,所述文字区域包含的所述文字被抹去,且所述文字遮挡的部位基于所述文字区域背景图案修复;
将所识别的文本翻译为目标语种的文本;
根据所述目标语种的文本生成目标文字,所述目标文字的样式匹配所识别的原文字的样式;
将所述目标文字与所述目标图像进行融合,所述目标文字位于目标图像中对应原文字的文字区域内。
2.根据权利要求1所述的方法,其特征在于,所述文字的样式包括至少以下之一:
字体、字体颜色、字体效果、字号、或字体填充形式。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标文字与所述目标图像进行融合,还包括:
当所述目标文字的尺寸大于对应的原文字的文字区域尺寸时,将所述目标文字根据对应的原文字的文字区域大小进行缩放适配。
4.根据权利要求1所述的方法,其特征在于,所述基于所述原图像和所述蒙面图像生成目标图像,包括:
将所述原图像和所述蒙面图像输入一图像修复模型,由所述图像修复模型生成所述目标图像。
5.根据权利要求1所述的方法,其特征在于,所述待处理的原图像包括电商平台的页面中的含有商品信息的图像。
6.一种处理含有文字的图像的装置,其特征在于,包括:
图像获取模块,用于获取待处理的原图像,所述原图像中含有文字;
文字区域识别模块,用于识别所述原图像中的文字区域,生成蒙面图像,所述蒙面图像用于区分所述原图像中的文字区域和非文字区域;
文字识别模块,用于对所述文字区域内的文字进行识别,所述识别包括文本的识别、文字的样式的识别;
目标图像生成模块,用于基于所述原图像和所述蒙面图像生成目标图像,所述目标图像中,所述文字区域包含的所述文字被抹去,且所述文字遮挡的部位基于所述文字区域背景图案修复;
翻译模块,用于将所识别的文本翻译为目标语种的文本;
目标文字生成模块,用于根据所述目标语种的文本生成目标文字,所述目标文字的样式匹配所识别的原文字的样式;
融合模块,用于将所述目标文字与所述目标图像进行融合,所述目标文字位于目标图像中对应原文字的文字区域内。
7.根据权利要求6所述的装置,其特征在于,所述文字的样式包括至少以下之一:
字体、字体颜色、字体效果、字号、或字体填充形式。
8.根据权利要求6所述的装置,其特征在于,所述将所述目标文字与所述目标图像进行融合,还包括:
当所述目标文字的尺寸大于对应的原文字的文字区域尺寸时,将所述目标文字根据对应的原文字的文字区域大小进行缩放适配。
9.一种计算设备,其特征在于,包括:
处理器,以及
存储器,其上存储有程序指令,所述程序指令当被所述处理器执行时使得所述处理器执行权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序指令,所述程序指令当被计算机执行时使得所述计算机执行权利要求1至5任一所述的方法。
CN202111496104.2A 2021-12-09 2021-12-09 处理含有文字的图像的方法及装置 Pending CN114419621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111496104.2A CN114419621A (zh) 2021-12-09 2021-12-09 处理含有文字的图像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111496104.2A CN114419621A (zh) 2021-12-09 2021-12-09 处理含有文字的图像的方法及装置

Publications (1)

Publication Number Publication Date
CN114419621A true CN114419621A (zh) 2022-04-29

Family

ID=81265696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111496104.2A Pending CN114419621A (zh) 2021-12-09 2021-12-09 处理含有文字的图像的方法及装置

Country Status (1)

Country Link
CN (1) CN114419621A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820885A (zh) * 2022-05-19 2022-07-29 北京百度网讯科技有限公司 图像编辑方法及其模型训练方法、装置、设备和介质
CN115688816A (zh) * 2023-01-04 2023-02-03 赤子城网络技术(北京)有限公司 翻译模型文字的方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820885A (zh) * 2022-05-19 2022-07-29 北京百度网讯科技有限公司 图像编辑方法及其模型训练方法、装置、设备和介质
CN115688816A (zh) * 2023-01-04 2023-02-03 赤子城网络技术(北京)有限公司 翻译模型文字的方法及相关设备

Similar Documents

Publication Publication Date Title
CN111046784B (zh) 文档版面分析识别方法、装置、电子设备和存储介质
Villán Mastering OpenCV 4 with Python: a practical guide covering topics from image processing, augmented reality to deep learning with OpenCV 4 and Python 3.7
CN110659647B (zh) 印章图像识别方法及装置、智能发票识别设备和存储介质
US20190114774A1 (en) Generating Image Segmentation Data Using a Multi-Branch Neural Network
CN114419621A (zh) 处理含有文字的图像的方法及装置
KR102124466B1 (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
US20180260376A1 (en) System and method to create searchable electronic documents
KR20150082097A (ko) 클라우드 기반 폰트 서비스 시스템
CN112995749A (zh) 视频字幕的处理方法、装置、设备和存储介质
JP2022160662A (ja) 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム
CN112818852A (zh) 印章校验方法、装置、设备及存储介质
CN110619334A (zh) 基于深度学习的人像分割方法、架构及相关装置
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN113642569A (zh) 非结构化数据文档处理方法及相关设备
CN112542163B (zh) 智能语音交互方法、设备及存储介质
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN113762455A (zh) 检测模型训练方法、单字检测方法、装置、设备及介质
CN111709338A (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
US11423597B2 (en) Method and system for removing scene text from images
CN111738248B (zh) 字符识别方法、字符译码模型的训练方法及电子设备
CN114237468A (zh) 文字图片的翻译方法、装置、电子设备及可读存储介质
CN113038184A (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220615

Address after: 401, No. 2, Ningjin community, Changning District, Shanghai 200050

Applicant after: Ji Jinyu

Address before: 200050 Greenland Business Building, No. 1258, Yuyuan Road, Changning District, Shanghai

Applicant before: Shanghai grove Technology Co.,Ltd.

TA01 Transfer of patent application right