CN114004751A - 一种图像处理方法及其相关设备 - Google Patents
一种图像处理方法及其相关设备 Download PDFInfo
- Publication number
- CN114004751A CN114004751A CN202010741140.XA CN202010741140A CN114004751A CN 114004751 A CN114004751 A CN 114004751A CN 202010741140 A CN202010741140 A CN 202010741140A CN 114004751 A CN114004751 A CN 114004751A
- Authority
- CN
- China
- Prior art keywords
- mask
- network
- image
- stroke
- original image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000003379 elimination reaction Methods 0.000 claims abstract description 365
- 230000008030 elimination Effects 0.000 claims abstract description 335
- 238000001514 detection method Methods 0.000 claims abstract description 291
- 238000000034 method Methods 0.000 claims abstract description 139
- 238000012545 processing Methods 0.000 claims description 477
- 238000005070 sampling Methods 0.000 claims description 164
- 230000006870 function Effects 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 73
- 230000015654 memory Effects 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 21
- 239000010410 layer Substances 0.000 description 78
- 230000000694 effects Effects 0.000 description 54
- 238000011176 pooling Methods 0.000 description 39
- 238000004422 calculation algorithm Methods 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 27
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 26
- 238000013527 convolutional neural network Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 21
- 238000009877 rendering Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 13
- 238000011160 research Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 239000011800 void material Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- -1 i.e. Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图像处理方法及相关设备,涉及人工智能领域,具体涉及计算机视觉领域。在该方法中,通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种图像处理方法及其相关设备。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
计算机视觉是AI领域所涉及的一项重要研究,具体是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使得计算机处理成为更适合人眼观察或传送给仪器检测的图像。图像修复(或称图像补全)作为计算机视觉领域研究的重要内容,它的目标是对图像的缺失部分进行合理的填充,从而得到视觉上完整的图像。一般地,在现有通用的图像修复任务中,待修复区域是由一个与待处理图像的分辨率相同的二值化矩形掩膜所指定的。
目前,文字消除是图像修复的众多应用场景之一,文字消除任务的处理过程沿用通用的图像修复技术,即在图像的待修复区域中,以文字所在的矩形掩膜为粒度,使用与该掩膜的周围背景在纹理、结构上一致的填充内容,在该掩膜中作为渲染回填的内容,使得在文字消除后的图像中,该填充内容与掩膜外的图像上下文一致,实现文字消除。
然而,文字所在的矩形掩膜对应的待修复区域中,除了包含有文字之外,往往还会存在文字所在的文字背景,而上述文字消除过程是以文字所在的矩形掩膜为粒度的,容易造成该文字背景中的图像信息丢失,由于无法还原该文字背景中的图像信息,使得在文字消除后的图像中图像信息不连贯,导致文字消除的效果较差。
发明内容
本申请实施例提供了一种图像处理方法及相关设备,用于增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
本申请实施例第一方面提供了一种图像处理方法,在该方法中,根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;然后,将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;进一步地,至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像。其中,第一笔画检测网络用于在图像中检测文字笔画,第一笔画消除网络用于在图像中消除文字笔画,即通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
在本申请实施例第一方面的一种可能的实现方式中,该第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;其中,将该原始图像和该第一掩膜输入至该第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜的过程具体包括:将该原始图像和该第一掩膜输入至该第一笔画检测网络;然后,该第一下采样模块根据该第一掩膜对该原始图像进行下采样,得到该原始图像的第一特征;进一步地,该第一上采样模块对该原始图像的第一特征进行上采样,得到该第二掩膜。
本实施例中,用于在图像中检测文字笔画的第一笔画检测网络具体可以为U型网络,该U型网络包括第一下采样模块和第一上采样模块,第一笔画检测网络得到第二掩膜的过程具体可以为第一下采样模块在原始图像中下采样提取原始图像的第一特征之后,使用第一上采样模块对该原始图像的第一特征进行上采样得到第二掩膜。提供了第一笔画检测网络得到第二掩膜的具体实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;第一笔画检测网络还包括第五处理模块和/或第六处理模块,其中,第五处理模块用于加深第一笔画检测网络的模型深度,第六处理模块用于增加第一笔画检测网络的模型参数量;将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜具体包括:将原始图像和第一掩膜输入至第一笔画检测网络;第一下采样模块根据第一掩膜对原始图像进行下采样,得到原始图像的第四特征;原始图像的第四特征经过第五处理模块和/或第六处理模块的处理,得到原始图像的第五特征;第一上采样模块对原始图像的第五特征进行上采样,得到第二掩膜。
本实施例中,该第一笔画检测网络还可以包括用于加深该第一笔画检测网络的模型深度的第五处理模块,示例性地,该第五处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第一笔画检测网络还可以包括用于增加该第一笔画检测网络的模型参数量的第六处理模块,示例性地,该第二处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第五处理模块和/或第六处理模块可以提升该第一笔画检测网络在检测文字笔画时的文字检测效果,提升文字检测过程中笔画检测的效果。
在本申请实施例第一方面的一种可能的实现方式中,该第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;其中,至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:至少将该原始图像和该第二掩膜输入至该第一笔画消除网络;然后,该第二下采样模块根据该第二掩膜对该原始图像进行下采样,得到该原始图像的第二特征;此后,该第二上采样模块对该原始图像的第二特征进行上采样,得到该第一目标图像。
本实施例中,用于在图像中消除文字笔画的第一笔画消除网络具体可以为U型网络,该U型网络包括第二下采样模块和第二上采样模块,第一笔画消除网络得到第二掩膜的过程具体可以为第二下采样模块在原始图像中下采样提取原始图像的第二特征之后,使用第二上采样模块对该原始图像的第二特征进行上采样得到第一目标图像。提供了第一笔画消除网络得到第一目标图像的具体实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;第一笔画消除网络还包括第一处理模块和/或第二处理模块,其中,第一处理模块用于加深第一笔画消除网络的模型深度,第二处理模块用于增加第一笔画消除网络的模型参数量;至少将原始图像和第二掩膜输入至第一笔画消除网络,经过第一笔画消除网络处理后得到第一目标图像具体包括:至少将原始图像和第二掩膜输入至第一笔画消除网络;第二下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第二特征;原始图像的第二特征经过第一处理模块和/或第二处理模块的处理,得到原始图像的第三特征;第二上采样模块对原始图像的第三特征进行上采样,得到第一目标图像。
本实施例中,该第一笔画消除网络还可以包括用于加深该第一笔画消除网络的模型深度的第一处理模块,示例性地,该第一处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第一笔画消除网络还可以包括用于增加该第一笔画消除网络的模型参数量的第二处理模块,示例性地,该第二处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第一处理模块和/或第二处理模块可以提升该第一笔画消除网络在消除文字笔画时的文字消除效果,进一步提升文字消除过程中渲染回填的效果。
在本申请实施例第一方面的一种可能的实现方式中,至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到该第一目标图像。
本实施例中,将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,使得该第一笔画消除网络在该原始图像中第一掩膜所在的位置根据第二掩膜执行文字消除,与在整个原始图像中根据第二掩膜执行文字消除的过程相比,可以对原始图像中第一掩膜指示的目标文字所在区域赋予更多的注意力,进一步提升文字消除效果。
在本申请实施例第一方面的一种可能的实现方式中,在至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后处理得到第一目标图像之后,该方法还可以包括:至少将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜,该第二笔画检测网络用于在图像中检测文字笔画;此后,再至少将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像,该第二笔画消除网络用于在图像中消除文字笔画。
本实施例中,通过第一笔画检测网络和第一笔画消除网络对原始图像进行处理得到第一目标图像之后,可以进一步通过第二笔画检测网络和第二笔画消除网络对第一目标图像进一步处理得到第二目标图像,其中,将一个文字笔画检测网络和一个文字笔画消除网络的组合称为一个算法单元,则本实施例中通过两个算法单元之间进行数据流通,从而可以进一步提升文字消除效果。
在本申请实施例第一方面的一种可能的实现方式中,该第二笔画检测网络可以为U型网络,包括第三下采样模块和第三上采样模块;其中,至少将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜具体可以包括:至少将该第一目标图像和该第二掩膜输入至该第二笔画检测网络;然后,该第三下采样模块根据该第二掩膜对该第一目标图像进行下采样,得到该第一目标图像的第一特征;此后,该第三上采样模块对该第一目标图像的第一特征进行上采样,得到该第三掩膜。
本实施例中,用于在图像中检测文字笔画的第二笔画检测网络具体可以为U型网络,该U型网络包括第三下采样模块和第三上采样模块,第二笔画检测网络得到第三掩膜的过程具体可以为第三下采样模块在第一目标图像中下采样提取第一目标图像的第一特征之后,使用第三上采样模块对该第一目标图像的第一特征进行上采样得到第三掩膜。提供了第二笔画检测网络得到第三掩膜的具体实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,第二笔画检测网络为U型网络,包括第三下采样模块和第三上采样模块;第二笔画检测网络还包括第七处理模块和/或第八处理模块,其中,第七处理模块用于加深第二笔画检测网络的模型深度,第八处理模块用于增加第二笔画检测网络的模型参数量;至少将第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜具体包括:至少将第一目标图像和该第二掩膜输入至第二笔画检测网络;第三下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第六特征;原始图像的第六特征经过第七处理模块和/或第八处理模块的处理,得到原始图像的第七特征;第三上采样模块对原始图像的第七特征进行上采样,得到第三掩膜。
本实施例中,该第二笔画检测网络还可以包括用于加深该第二笔画检测网络的模型深度的第七处理模块,示例性地,该第七处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第二笔画检测网络还可以包括用于增加该第二笔画检测网络的模型参数量的第八处理模块,示例性地,该第二处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第七处理模块和/或第八处理模块可以提升该第二笔画检测网络在检测文字笔画时的文字检测效果,提升文字检测过程中笔画检测的效果。
在本申请实施例第一方面的一种可能的实现方式中,该第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;其中,至少将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像的过程具体可以包括:至少将该第一目标图像和该第三掩膜输入至该第二笔画消除网络;然后,该第四下采样模块根据该第三掩膜对该第一目标图像进行下采样,得到该第一目标图像的第二特征;此后,该第四上采样模块对该第一目标图像的第二特征进行上采样,得到该第二目标图像。
本实施例中,用于在图像中消除文字笔画的第二笔画消除网络具体可以为U型网络,该U型网络包括第四下采样模块和第四上采样模块,第二笔画消除网络得到第二目标图像的过程具体可以为第四下采样模块在第一目标图像中下采样提取第一目标图像的第二特征之后,使用第四上采样模块对该第一目标图像的第二特征进行上采样得到第二目标图像。提供了第二笔画消除网络得到第二目标图像的具体实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;第二笔画消除网络还包括第三处理模块和/或第四处理模块,其中,第三处理模块用于加深第二笔画消除网络的模型深度,第四处理模块用于增加第二笔画消除网络的模型参数量;至少将第一目标图像和第三掩膜输入至第二笔画消除网络,经过第二笔画消除网络处理后得到第二目标图像具体包括:至少将第一目标图像和第三掩膜输入至第二笔画消除网络;第四下采样模块根据第三掩膜对第一目标图像进行下采样,得到第一目标图像的第二特征;第一目标图像的第二特征经过第三处理模块和/或第四处理模块的处理,得到第一目标图像的第三特征;第四上采样模块对第一目标图像的第三特征进行上采样,得到第二目标图像。
本实施例中,该第二笔画消除网络还可以包括用于加深该第二笔画消除网络的模型深度的第三处理模块,示例性地,该第三处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第二笔画消除网络还可以包括用于增加该第二笔画消除网络的模型参数量的第四处理模块,示例性地,该第四处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第三处理模块和/或第四处理模块可以提升该第一笔画消除网络在消除文字笔画时的文字消除效果,进一步提升文字消除过程中渲染回填的效果。
在本申请实施例第一方面的一种可能的实现方式中,至少将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜的过程具体可以包括:将该第一目标图像、该第一掩膜和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜。
本实施例中,将该第一目标图像、该第一掩膜和该第二掩膜输入至第二笔画检测网络,使得该第二笔画检测网络在该第一目标图像中第一掩膜所在的位置根据第二掩膜执行文字笔画检测,与在整个第一目标图像中根据第二掩膜执行文字笔画检测的过程相比,可以对第一目标图像中第一掩膜所指示的目标文字所在区域赋予更多的注意力,提升文字笔画检测效果,从而提升后续文字消除效果。
在本申请实施例第一方面的一种可能的实现方式中,将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像的过程具体可以包括:将该第一目标图像、该第一掩膜和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像。
本实施例中,将该第一目标图像、该第一掩膜和该第三掩膜输入至第二笔画消除网络,使得该第二笔画消除网络在该第一目标图像中第一掩膜所在的位置根据第三掩膜执行文字消除,与在整个第一目标图像中根据第三掩膜执行文字消除的过程相比,可以对第一目标图像中第一掩膜所指示的目标文字所在区域赋予更多的注意力,进一步提升文字消除效果。
在本申请实施例第一方面的一种可能的实现方式中,该第一笔画检测网络还包括第一损失函数,其中,该第一损失函数包括:
本实施例中,第一笔画检测网络可以通过该第一损失函数的函数值进行网络训练参数的更新,提供了第一笔画检测网络的损失函数具体的实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,该第一笔画消除网络还包括第二损失函数,其中,该第二损失函数包括:
本实施例中,第一笔画消除网络可以通过该第二损失函数的函数值进行网络训练参数的更新,提供了第一笔画消除网络的损失函数具体的实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,该方法还可以进一步包括:将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,该第一评估结果用于指示该第一目标图像和该第一目标图像的真值图像之间的差异。
本实施例中,在第一笔画消除网络处理得到该第一目标图像之后,可以将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,后续第一笔画消除网络可以通过该第一评估结果实现网络训练参数的更新,可以进一步提升第一笔画消除网络的文字消除效果。
在本申请实施例第一方面的一种可能的实现方式中,该第一加权鉴别器包括:
第一鉴别公式:
第二鉴别公式:
其中,labelijk即为patch中第(i,j,k)个元素取值,ω1为该元素的权重,n×n×C为特征块(patch)的尺寸。
本实施例中,该第一加权鉴别器具体可以通过该第一鉴别公式和第二鉴别公式实现,其中,文字笔画占比更大的原始图像,其真伪对第一加权鉴别器的最终结果的影响更大,从而,提供了第一加权鉴别器具体的实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在本申请实施例第一方面的一种可能的实现方式中,该方法还包括:
将该第二目标图像和该第二目标图像的真值图像输入第二加权鉴别器,经过该第二加权鉴别器处理后得到第二评估结果,该第二评估结果用于指示该第二目标图像和该第二目标图像的真值图像之间的差异。
本实施例中,在第二笔画消除网络处理得到该第二目标图像之后,可以将该第二目标图像和该第二目标图像的真值图像输入第二加权鉴别器,经过该第二加权鉴别器处理后得到第二评估结果,后续第二笔画消除网络可以通过该第二评估结果实现网络训练参数的更新,可以进一步提升第二笔画消除网络的文字消除效果。
在本申请实施例第一方面的一种可能的实现方式中,该第二加权鉴别器包括:
第三鉴别公式:
第四鉴别公式:
其中,labelijk即为patch中第(i,j,k)个元素取值,ω2为该元素的权重,n×n×C为特征块(patch)的尺寸。
本实施例中,该第二加权鉴别器具体可以通过该第三鉴别公式和第四鉴别公式实现,其中,文字笔画占比更大的第二目标图像,其真伪对第一加权鉴别器的最终结果的影响更大,从而,提供了第二加权鉴别器具体的实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
本申请实施例第二方面提供了一种图像处理方法,包括:
步骤1、根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;
步骤2、将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;
步骤3、至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像;
将该第二掩膜替换该第一掩膜,重复执行该步骤2至满足第一预设条件;和/或,
将该第一目标图像替换该原始图像,重复执行该步骤3至满足第二预设条件;和/或,
将该第一目标图像替换该原始图像,重复执行该步骤2和步骤3至满足第三预设条件。
本实施例中,步骤2中的第一笔画检测网络用于在图像中检测文字笔画,步骤3中的第一笔画消除网络用于在图像中消除文字笔画,即在步骤2中通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,在步骤3中第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,即通过从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。此外,重复执行步骤2和/或步骤3至满足预设条件(第一预设条件、第二预设条件和/或第三预设条件),可以通过第一笔画检测网络和第二笔画消除网络的重复执行,在一定程度上提升笔画检测效果以及笔画消除效果,进一步提升文字消除过程中渲染回填的效果。
需要说明的是,预设条件(第一预设条件、第二预设条件和/或第三预设条件)可以为预配置或者是响应用户输入指令确定的执行次数值、执行时长值、执行周期值或者是其它的参数,此处不做限定。
在本申请实施例第二方面的一种可能的实现方式中,在步骤2中,该第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;其中,在步骤2将该原始图像和该第一掩膜输入至该第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜具体的过程具体可以包括:将该原始图像和该第一掩膜输入至该第一笔画检测网络;然后,该第一下采样模块根据该第一掩膜对该原始图像进行下采样,得到该原始图像的第一特征;此后,该第一上采样模块对该原始图像的第一特征进行上采样,得到该第二掩膜。
在本申请实施例第二方面的一种可能的实现方式中,在步骤2中,第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;第一笔画检测网络还包括第五处理模块和/或第六处理模块,其中,第五处理模块用于加深第一笔画检测网络的模型深度,第六处理模块用于增加第一笔画检测网络的模型参数量;将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜具体包括:将原始图像和第一掩膜输入至第一笔画检测网络;第一下采样模块根据第一掩膜对原始图像进行下采样,得到原始图像的第四特征;原始图像的第四特征经过第五处理模块和/或第六处理模块的处理,得到原始图像的第五特征;第一上采样模块对原始图像的第五特征进行上采样,得到第二掩膜。
在本申请实施例第二方面的一种可能的实现方式中,在步骤3中,该第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;其中,在步骤3至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:将该原始图像和该第二掩膜输入至该第一笔画消除网络;然后,该第二下采样模块根据该第二掩膜对该原始图像进行下采样,得到该原始图像的第二特征;此后,该第二上采样模块对该原始图像的第二特征进行上采样,得到该第一目标图像。
在本申请实施例第二方面的一种可能的实现方式中,在步骤3中,第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;第一笔画消除网络还包括第一处理模块和/或第二处理模块,其中,第一处理模块用于加深第一笔画消除网络的模型深度,第二处理模块用于增加第一笔画消除网络的模型参数量;至少将原始图像和第二掩膜输入至第一笔画消除网络,经过第一笔画消除网络处理后得到第一目标图像具体包括:至少将原始图像和第二掩膜输入至第一笔画消除网络;第二下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第二特征;原始图像的第二特征经过第一处理模块和/或第二处理模块的处理,得到原始图像的第三特征;第二上采样模块对原始图像的第三特征进行上采样,得到第一目标图像。
在本申请实施例第二方面的一种可能的实现方式中,在步骤3中将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到该第一目标图像。
在本申请实施例第二方面的一种可能的实现方式中,在步骤2中,该第一笔画检测网络还包括第一损失函数,其中,该第一损失函数包括:
在本申请实施例第二方面的一种可能的实现方式中,在步骤3中,该第一笔画消除网络还包括第二损失函数,其中,该第二损失函数包括:
在本申请实施例第二方面的一种可能的实现方式中,该方法还包括:步骤4,将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,该第一评估结果用于指示该第一目标图像和该第一目标图像的真值图像之间的差异。
在本申请实施例第二方面的一种可能的实现方式中,在步骤4中,该第一加权鉴别器包括:
第一鉴别公式:
第二鉴别公式:
其中,labelijk即为patch中第(i,j,k)个元素取值,ω1为该元素的权重,n×n×C为特征块(patch)的尺寸。
对于本申请第二方面以及第二方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
本申请实施例第三方面提供了一种图像处理装置,包括:确定单元,用于根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;第一处理单元,用于将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;第二处理单元,用于至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像。
其中,第一笔画检测网络用于在图像中检测文字笔画,第一笔画消除网络用于在图像中消除文字笔画,即该第一处理单元通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,第二处理单元通过第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
本申请第三方面中,图像处理装置的组成模块还可以用于执行第一方面的各个可能实现方式中所执行的步骤,具体均可以参阅第一方面,此处不再赘述。
本申请实施例第四方面提供了一种图像处理装置,包括:确定单元,用于在步骤1中根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;第一处理单元,用于在步骤2中将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;第二处理单元,用于在步骤3中至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像;该第一处理单元,还用于将该第二掩膜替换该第一掩膜,重复执行该步骤2至满足第一预设条件;和/或,该第二处理单元,还用于将该第一目标图像替换该原始图像,重复执行该步骤3至满足第二预设条件;和/或,该第一处理单元和该第二处理单元,还用于将该第一目标图像替换该原始图像,重复执行该步骤2和步骤3至满足第三预设条件。
本实施例中,第一处理单元在步骤2中的第一笔画检测网络用于在图像中检测文字笔画,第二处理单元在步骤3中的第一笔画消除网络用于在图像中消除文字笔画,即第一处理单元在步骤2中通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,第二处理单元在步骤3中第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,即通过从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。此外,重复执行步骤2和/或步骤3至满足预设条件(第一预设条件、第二预设条件和/或第三预设条件),可以通过第一笔画检测网络和第一笔画消除网络的重复执行,在一定程度上提升笔画检测效果以及笔画消除效果,进一步提升文字消除过程中渲染回填的效果。
需要说明的是,预设条件(第一预设条件、第二预设条件和/或第三预设条件)可以为预配置或者是响应用户输入指令确定的执行次数值、执行时长值、执行周期值或者是其它的参数,此处不做限定。
本申请第四方面中,图像处理装置的组成模块还可以用于执行第二方面的各个可能实现方式中所执行的步骤,具体均可以参阅第二方面,此处不再赘述。
第五方面,本申请实施例提供了一种图像处理装置,包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时使得所述装置实现上述第一方面或第二方面所述的图像处理方法。所述装置可以为电子设备(如终端设备或服务器设备);或可以为电子设备中的一个组成部分,如芯片。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的图像处理方法。
第七方面,本申请实施例提供了一种电路系统,所述电路系统包括处理电路,所述处理电路配置为执行上述第一方面或第二方面所述的图像处理方法。
第八方面,本申请实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的图像处理方法。
第九方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持图像处理装置实现上述第一方面或第二方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存图像处理装置或通信设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
其中,第五至第九方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,或者参见第二方面或第二方面不同可能实现方式所带来的技术效果,此处不再赘述。
从以上技术方案可以看出,本申请提供的一些实施例中,根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;然后,该将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;进一步地,该将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像。其中,第一笔画检测网络用于在图像中检测文字笔画,第一笔画消除网络用于在图像中消除文字笔画,即通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
附图说明
图1为本申请实施例提供的人工智能主体框架的一种结构示意图;
图2-1为本申请实施例提供的卷积神经网络的一种结构示意图;
图2-2为本申请实施例提供的卷积神经网络的另一种结构示意图;
图3为本申请实施例提供的芯片的一种结构示意图;
图4为本申请实施例提供的一种图像处理方法的一个示意图;
图5-1为本申请实施例提供的一种图像处理方法的另一个示意图;
图5-2为本申请实施例提供的一种图像处理方法的另一个示意图;
图5-3为本申请实施例提供的一种图像处理方法的另一个示意图;
图6为本申请实施例提供的一种图像处理方法的另一个示意图;
图7为本申请实施例提供的一种图像处理方法的另一个示意图;
图8为本申请实施例提供的一种图像处理方法的另一个示意图;
图9为本申请实施例提供的一种图像处理装置的一种示意图;
图10为本申请实施例提供的一种图像处理装置的另一种示意图;
图11为本申请实施例提供的图像处理装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,下面首先对本申请所涉及的应用场景进行示例性的描述,具体来说,通过图1介绍本申请所应用的人工智能框架的一种示例,通过图2-1、图2-2介绍本申请所应用的人工神经网络的一种示例,通过图3介绍本申请所应用的芯片硬件实现的一种示例。
图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。
举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
作为人工智能系统的一种具体的应用,卷积神经网络(CNN,Convolutionalneuron nrtwork)是一种带有卷积结构的深度神经网络,是一种深度学习(deep learning)架构,深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。
如图2-1所示,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。
卷积层/池化层120:
卷积层:
如图2-1所示卷积层/池化层120可以包括如示例121-126层,在一种实现中,121层为卷积层,122层为池化层,123层为卷积层,124层为池化层,125为卷积层,126为池化层;在另一种实现方式中,121、122为卷积层,123为池化层,124、125为卷积层,126为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
以卷积层121为例,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。
不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
当卷积神经网络100有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络100深度的加深,越往后的卷积层(例如126)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,即如图2-1中120所示例的121-126各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像大小相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络层130:
在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图2-1所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等……
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图2-1由110至140的传播为前向传播)完成,反向传播(如图2-1由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图2-1所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图2-2所示的多个卷积层/池化层并行,将分别提取的特征均输入给全神经网络层130进行处理。
图3,是本发明实施例提供的一种芯片硬件结构图。图2-1和图2-2所示的基于卷积神经网络的算法可以在图3所示的NPU芯片中实现。其中,神经网络处理器NPU 30NPU作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路30,通过控制器304控制运算电路303提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路303内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路303是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器302中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器308accumulator中。
统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器305Direct Memory Access Controller,DMAC被搬运到权重存储器302中。输入数据也通过DMAC被搬运到统一存储器306中。
BIU为Bus Interface Unit即,总线接口单元310,用于AXI总线与DMAC和取指存储器309Instruction Fetch Buffer的交互。
总线接口单元310(Bus Interface Unit,简称BIU),用于取指存储器309从外部存储器获取指令,还用于存储单元访问控制器305从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器306或将权重数据搬运到权重存储器302中或将输入数据数据搬运到输入存储器301中。
向量计算单元307多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/FC层网络计算,如Pooling(池化),Batch Normalization(批归一化),Local ResponseNormalization(局部响应归一化)等。
在一些实现中,向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如,向量计算单元307可以将非线性函数应用到运算电路303的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元307生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路303的激活输入,例如用于在神经网络中的后续层中的使用。
控制器304连接的取指存储器(instruction fetch buffer)309,用于存储控制器304使用的指令;
统一存储器306,输入存储器301,权重存储器302以及取指存储器309均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,图2-1和图2-2所示的卷积神经网络中各层的运算可以由矩阵计算单元212或向量计算单元307执行。
示例性地,计算机视觉所涉及的处理过程可以应用于上述图1所示人工智能主体框架中,并可以在上述图3所示芯片硬件上,执行图2-1和图2-2所示单层或多层卷积神经网络运行实现。其中,计算机视觉是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使得计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
图像修复(或称图像补全),作为计算机视觉领域研究的一项重要内容,它的目标是对图像的缺失部分进行合理的填充,从而得到视觉上完整的图像。其中,图像修复技术的重要性,随着数字信息技术的发展而日渐凸显。它在多个领域都有重要的应用,如古文物修复及保护、图片编辑、影视特效制作、虚拟现实技术等。广泛的应用需求,推动着相关研究的发展。在深度学习肇始之前,基于传统方法对数字图像进行修复就有着广泛的研究,并取得了不错的效果。深度学习兴起之后,深度神经网络在图像特征表示、语义提取等方面展示出了巨大优势,吸引着研究者将深度学习应用于图像修复领域。两者的结合确实得到了很吸引人的结果,尤其是在生成对抗网络的概念提出之后,基于深度学习的图像修复方法在很多方面都取得了超越传统方法的效果。
在图像修复技术众多应用场景中,自然场景中的文字消除是目前相关研究较少的一个子领域,其任务是将图像中给定区域内的文字替换为与周围背景在纹理、结构上一致的内容。
在自然场景中的文字消除实现过程中,场景文本是场景信息的重要组成部分。在深度学习发展起来后,针对场景文本的研究层出不穷,以文字检测、文字识别为代表的多个研究方向都得到迅速进展。随着这些技术的日渐成熟,其在工业界的落地场景日渐丰富。很多落地场景都会涉及到自然场景图像的处理,而自然场景图像中经常包含文字。当这些文字涉及到个人信息,如地址、电话号码等时,就会存在个人隐私泄露的风险。设计一种算法,将图像中的文字消除掉,可以消除这种潜在风险。然而这种自然场景中的文本消除,目前并没有得到足够多的关注。
目前,文字消除可以被看做图像修复任务的一个特定应用场景,在这个场景中文字即是需要被修复的区域。
目前有针对性的文字消除方法并不多,仅有的几种实现也是把通用的图像修复方法移植到文字消除任务中来,没有考虑文字消除的特殊性,所以效果并不好,会出现消除后填充内容与上下文不一致(如纹理、边界等)、消除后文字有残留、文字占比较大时效果很差等问题。具体来说,在通用的图像修复方法中,是以文字所在的矩形掩膜为粒度,使用与该掩膜的周围背景在纹理、结构上一致的填充内容,在该掩膜中作为渲染回填的内容,使得在文字消除后的图像中,该填充内容与掩膜外的图像上下文一致,实现文字消除。然而,文字所在的矩形掩膜对应的待修复区域中,除了包含有文字之外,往往还会存在文字所在的文字背景,而上述文字消除过程是以文字所在的矩形掩膜为粒度的,容易造成该文字背景中的图像信息丢失,由于无法还原该文字背景中的图像信息,使得在文字消除后的图像中图像信息不连贯,导致文字消除的效果较差。
综上所述,现有文字消除任务沿用通用的图像修复过程所实现,而在文字消除任务中,待修复区域仅仅是文字笔画所覆盖的区域,但是这种精细的文字笔画的轮廓是很难获取的,这是文字消除任务与图像修复任务的一个明显区别,即文字消除任务的精细目标区域是很难得到的。
为此,本申请针对文字消除任务的特殊性,提供了一种图像处理方法及相关设备,通过设计了基于文字笔画检测的文字消除算法,一方面,本申请提出文字消除任务应该解耦为文字笔画检测和文字消除两个子任务进行,并构建了基于文字笔画检测的文字消除算法。其中,文字笔画检测网络负责将文字从图像中细致地分割出来,文字笔画消除网络负责根据分割结果对图像中的文字进行消除;另一方面,对现有的生成式对抗网络的鉴别器进行优化,使鉴别器能够根据文字消除任务的需要,对图像中文字区域赋予更多的注意力,从而能够更好地对鉴别器的输入进行真伪的鉴别,进而给生成器以更有力的约束。
此外,本申请所提出的图像处理方法及相关设备在实现对含有文本的自然场景进行文字消除时,可以显著提升渲染回填的效果;同时本申请所提出的图像处理方法及相关设备还可以实现多语言的文字消除和有选择的文字消除,具体应用可以如HiTouch的图片翻译等。
下面将结合附图对本申请实施例所提供的图像处理方法及相关设备进行详细的介绍。
请参阅图4,本申请实施例提供了一种图像处理方法,包括:
S101、根据原始图像,确定出所述原始图像对应的第一掩膜;
本实施例中,智能终端根据原始图像,确定出所述原始图像对应的第一掩膜,所述第一掩膜用于指示所述目标文字在所述原始图像中的位置,所述原始图像包括目标文字,所述目标文字由文字笔画构成。
具体地,该智能终端可以是个人计算机、计算机工作站、智能手机、平板电脑、服务器等实现,本申请对该智能终端的实现不做限制。
在步骤S101的执行过程之前,该智能终端可以通过自身携带的相机、摄像机等或者是其它的图像采集设备的方式,获取得到该原始图像,或者是,该智能终端可以通过通信端口接收来自其它设备发送信息的方式,获取得到该原始图像,此处不做限定。此外,该智能终端获取得到的原始图像中包括目标文字,该目标文字由文字笔画构成。
在步骤S101的执行过程中,该智能终端可以在获取得到的原始图像中确定出该目标文字所在的位置信息,即第一掩膜,该第一掩膜所指示的位置信息可以是通过像素坐标系所标识的位置,或者是通过图像坐标系所标识的位置,或者是其它方式标识的位置,此处不做限定。智能终端可以根据该位置信息在原始图像中确定出该原始图像对应的第一掩膜,其中,该第一掩膜可以指示目标文字在该原始图像中的位置,该位置具体可以指示包含有该目标文字的矩形区域、椭圆形区域、多边形凸包区域或者是其它指示该目标文字所在的其它形状的区域,此处不做限定。
S102、将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜;
本实施例中,将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜,其中,所述第二掩膜用于指示所述文字笔画在所述原始图像中的位置,所述第一笔画检测网络用于在图像中检测文字笔画。在本实施例及后续实施例中,该智能终端可以通过多种方式获取得到该第一笔画检测网络(以及可能存在的第一笔画消除网络/第二笔画检测网络/第二笔画消除网络等),例如,该第一笔画检测网络可以预存在该智能终端的存储模块中,该第一笔画检测网络也可以承载于该智能终端接收来自其它设备发送的信息中,还可以是其它实现方式,此处不做限定。
其中,由步骤S102中第一笔画检测网络可以得到文字笔画在该原始图像中的位置,即第二掩膜,其中,该第二掩膜所指示的位置信息可以是通过像素坐标系所标识的位置,或者是通过图像坐标系所标识的位置,或者是其它方式标识的位置,此处不做限定。
在一种可能的实现方式中,该第一笔画检测网络可以为U型网络(U-NET),该U型网络可以包括第一下采样模块和第一上采样模块;其中,在步骤S102的执行过程中,智能终端将该原始图像和该第一掩膜输入至该第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜的过程具体可以包括:该智能终端将该原始图像和该第一掩膜输入至该第一笔画检测网络;然后,第一笔画检测网络中的第一下采样模块根据该第一掩膜对该原始图像进行下采样,得到该原始图像的第一特征;进一步地,第一笔画检测网络中的第一上采样模块对该原始图像的第一特征进行上采样,得到该第二掩膜。
示例性的,该U型网络可以如图5-1所示,在该U型网络中,“输入”侧输入数据,经过特征提取以及特征解码的过程,得到输入数据,并在“输出”侧输出,以该图示为例,输入数据在U型网络(GD)中经过三次下采样的特征提取过程,对输入数据所提取到的特征数逐渐增大(16/32/64/128),此后,再进一步对所提取到的特征数进行经过三次上采样的特征解码过程,解码后的特征数逐渐减小(128/64/32/16)。
具体地,如图5-2的网络结构图所示,使用一个具有U-Net结构的网络,先对输入的原始图像进行下采样,提取图像的高级特征,再通过上采样对提取到的特征进行解码,从而得到图像中文字笔画的精确分布,即第二掩膜。其中,在上采样的过程中,会通过跳跃连接将上采样过程中的特征图与对应的下采样得到的特征图进行叠加,以更好地利用提取到的特征。通过该U型网络在步骤S102的实现过程中,以GD表示第一笔画检测网络,则有:
Ms=GD(I,M)
其中,M为第一掩膜,I为原始图像,第一笔画检测网络的输出Ms称为笔画掩膜,即第二掩膜。
在一种可能的实现方式中,可以进一步加入对该第一笔画检测网络进行优化的损失函数,此时,该第一笔画检测网络还包括第一损失函数,其中,该第一损失函数包括:
其中,M为第一掩膜,Ms为第二掩膜,Mgt为Ms对应的真值,λd为大于1的整数,取值越大表示文字区域所占权重越高,⊙代表特征图逐元素相乘,代表该第一笔画检测网络的加权l1损失函数。此时,第一笔画检测网络可以通过该第一损失函数的函数值进行网络训练参数的更新,提供了第一笔画检测网络的损失函数具体的实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在一种可能的实现方式中,用于在图像中检测文字笔画的第一笔画检测网络可以为U型网络,除了包括第一下采样模块和第一上采样模块之外,该第一笔画检测网络还可以进一步包括第五处理模块和/或第六处理模块,其中,第五处理模块用于加深第一笔画检测网络的模型深度,第六处理模块用于增加第一笔画检测网络的模型参数量;从而,在步骤S102中,将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜具体包括:将原始图像和第一掩膜输入至第一笔画检测网络;第一下采样模块根据第一掩膜对原始图像进行下采样,得到原始图像的第四特征;原始图像的第四特征经过第五处理模块和/或第六处理模块的处理,得到原始图像的第五特征;第一上采样模块对原始图像的第五特征进行上采样,得到第二掩膜。其中,该第一笔画检测网络还可以包括用于加深该第一笔画检测网络的模型深度的第五处理模块,示例性地,该第五处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第一笔画检测网络还可以包括用于增加该第一笔画检测网络的模型参数量的第六处理模块,示例性地,该第二处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第五处理模块和/或第六处理模块可以提升该第一笔画检测网络在检测文字笔画时的文字检测效果,提升文字检测过程中笔画检测的效果。
S103、至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像;
本实施例中,该智能终端至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像,其中,所述第一笔画消除网络用于在图像中消除文字笔画,所述第一目标图像为对所述原始图像进行文字消除后的图像。
在一种可能的实现方式中,该第一笔画消除网络为U型网络(U-NET),该U型网络包括第二下采样模块和第二上采样模块;其中,在步骤S103的执行过程中,该智能终端至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:至少将该原始图像和该第二掩膜输入至该第一笔画消除网络;然后,该第二下采样模块根据该第二掩膜对该原始图像进行下采样,得到该原始图像的第二特征;此后,该第二上采样模块对该原始图像的第二特征进行上采样,得到该第一目标图像。其中,该U型网络的实现与前述步骤S102中的描述类似,均可以通过图5-1实现,此处不再赘述。
在一种可能的实现方式中,在步骤S103中至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到该第一目标图像,使得该第一笔画消除网络在该原始图像中第一掩膜所在的位置根据第二掩膜执行文字消除,与在整个原始图像中根据第二掩膜执行文字消除的过程相比,可以对原始图像中第一掩膜指示的目标文字所在区域赋予更多的注意力,进一步提升文字消除效果。
在一种可能的实现方式中,在用于在图像中消除文字笔画的第一笔画消除网络中,该第一笔画消除网络还包括第一处理模块,该第一处理模块用于加深该第一笔画消除网络的模型深度;和/或,该第一笔画消除网络还包括第二处理模块,该第二处理模块用于增加该第一笔画消除网络的模型参数量。具体来说,在步骤S103的执行过程中,第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;第一笔画消除网络还包括第一处理模块和/或第二处理模块,其中,第一处理模块用于加深第一笔画消除网络的模型深度,第二处理模块用于增加第一笔画消除网络的模型参数量;此时,至少将原始图像和第二掩膜输入至第一笔画消除网络,经过第一笔画消除网络处理后得到第一目标图像具体包括:至少将原始图像和第二掩膜输入至第一笔画消除网络;第二下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第二特征;原始图像的第二特征经过第一处理模块和/或第二处理模块的处理,得到原始图像的第三特征;第二上采样模块对原始图像的第三特征进行上采样,得到第一目标图像。
示例性地,该第一处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第一笔画消除网络还可以包括用于增加该第一笔画消除网络的模型参数量的第二处理模块,示例性地,该第二处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第一处理模块和/或第二处理模块可以提升该第一笔画消除网络在消除文字笔画时的文字消除效果,进一步提升文字消除过程中渲染回填的效果。
此处,如图5-2的网络结构图所示,以该第二掩膜为文字笔画在该原始图像中位置的像素级标注、原始图像包括RBG三通道数据为例进行说明,以此为基础,在步骤S103中,第一笔画消除网络就可以对原始图像中的文字进行消除,以原始图像、第一掩膜和第二掩膜组成的五通道数据为输入,在经过下采样进行特征提取之后,第一笔画消除网络可以通过残差块结构对得到的特征图进行进一步的特征提取工作。其中,添加残差块而不是普通的卷积层,可以避免网络较深时会出现退化现象,同时希望网络能够学习到更高级的语义特征,在上采样过程中同样加入了跳跃连接结构以利用浅层特征。用GR表示第一笔画消除网络,Ite表示第一笔画消除网络的输出即第一目标图像,则可以用下述公式表示笔画消除网络的工作机制:
Ite=GR(I,M,Ms)
其中,M为第一掩膜,I为原始图像,第一笔画检测网络的输出Ms称为笔画掩膜,即第二掩膜。
在一种可能的实现方式中,该第一笔画消除网络还包括第二损失函数,其中,该第二损失函数包括:
其中,Ite为第一目标图像,Igt为Ite对应的真值,λr为大于1的整数,取值越大表示文字区域所占权重越高,⊙代表特征图逐元素相乘,代表文字笔画消除网络的加权l1损失函数。此后,第一笔画消除网络可以通过该第二损失函数的函数值进行网络训练参数的更新,提供了第一笔画消除网络的损失函数具体的实现方式,提高了本方案的可实现性,从而提高了本方案的实现灵活性。
在一种可能的实现方式中,在步骤S103之后,该方法还可以进一步包括:将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,该第一评估结果用于指示该第一目标图像和该第一目标图像的真值图像之间的差异。其中,在第一笔画消除网络处理得到该第一目标图像之后,可以将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,后续第一笔画消除网络可以通过该第一评估结果实现网络训练参数的更新,可以进一步提升第一笔画消除网络的文字消除效果。
其中,本申请设计了基于特征块(patch)的第一加权鉴别器(weightedPatchGAN),对鉴别器的输入的图像逐块地鉴定真伪,得到一个形状为n×n×C的patch(图6中①),其中每个元素对应从特定特征上对特定图像块真伪鉴定的结果;将patch中的所有元素进行加权(图6中②),再取均值之后即得到最终的鉴别器结果。在对patch中的元素进行加权就时,权重与该元素对应的图像块中文字笔画所占的比例成正比,文字占比更大的图像块在最终的结果中所占的权重更大。即有如下的鉴定结果赋值公式:
其中labelijk即为patch中第(i,j,k)个元素取值,ω1为该元素的权重。经过上述赋值操作,文字笔画占比更大的图像块,其真伪对鉴别器的最终结果的影响更大。对给定图像,该第一加权鉴别器对其最终的鉴定结果计算公式如下:
其中,labelijk即为patch中第(i,j,k)个元素取值,ω1为该元素的权重,n×n×C为特征块(patch)的尺寸。
示例性地,如图6是本文提出的基于patch的第一加权鉴别器的结构,其由两个分支组成,分别为正常的卷积分支D及掩膜分支DM。分支D以文字被消除的图像I′te或真值图像Igt为输入,该分支的每个卷积层的卷积核尺寸均为5×5,深度如图所示,除第一个卷积层的步长为1之外其余卷积层的步长均为2,输出为尺寸为8×8×256的特征张量分支DM以与图像对应的掩膜M为输入,卷积核的尺寸与步长与分支D中的卷积核尺寸保持一致,但是深度仅为1,且卷积核的所有元素均为1,分支的输出为尺寸为8×8×1的特征张量元素的取值与文字笔画所占的比例成正比。在得到两个尺寸相同、深度不同的输出之后,通过将两个输出进行逐像素的相乘,得到尺寸为8×8×256的最终输出。
本实施例中,第一笔画检测网络用于在图像中检测文字笔画,第一笔画消除网络用于在图像中消除文字笔画,即通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
基于图4实施例所述图像处理,如将一个笔画检测网络和一个笔画消除网络的组合称为一个算法单元,则本申请可以进一步构建包含两个算法单元的总体网络,两个算法单元之间进行数据流通,从而可以进一步改善相关结果的质量。
在一种可能的实现方式中,在图4所示实施例中,步骤S203之后,即在至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后处理得到第一目标图像之后,该方法还可以进一步包括:智能终端将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜,该第二笔画检测网络用于在图像中检测文字笔画;此后,再至少将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像,该第二笔画消除网络用于在图像中消除文字笔画。
其中,通过第一笔画检测网络和第一笔画消除网络对原始图像进行处理得到第一目标图像之后,可以进一步通过第二笔画检测网络和第二笔画消除网络对第一目标图像进一步处理得到第二目标图像,其中,将一个文字笔画检测网络和一个文字笔画消除网络的组合称为一个算法单元,则本实施例中通过两个算法单元之间进行数据流通,从而可以进一步提升文字消除效果。
在一种可能的实现方式中,该第二笔画检测网络可以为U型网络,包括第三下采样模块和第三上采样模块;其中,至少将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜具体可以包括:至少将该第一目标图像和该第二掩膜输入至该第二笔画检测网络;然后,该第三下采样模块根据该第二掩膜对该第一目标图像进行下采样,得到该第一目标图像的第一特征;此后,该第三上采样模块对该第一目标图像的第一特征进行上采样,得到该第三掩膜。其中,该第二笔画检测网络中第三下采样模块和第三上采样模块的实现过程可以参考前述第一笔画检测网络中第一下采样模块和第一上采样模块的实现过程相比,区别仅仅输入数据进行了替换,使得输出数据对应发生改变,此处对该实现过程不再赘述。
其中,在第二笔画检测网络的实现过程中,至少将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜的过程具体可以包括:将该第一目标图像、该第一掩膜和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜。具体来说,将该第一目标图像、该第一掩膜和该第二掩膜输入至第二笔画检测网络,使得该第二笔画检测网络在该第一目标图像中第一掩膜所在的位置根据第二掩膜执行文字笔画检测,与在整个第一目标图像中根据第二掩膜执行文字笔画检测的过程相比,可以对第一目标图像中第一掩膜所指示的目标文字所在区域赋予更多的注意力,提升文字笔画检测效果,从而提升后续文字消除效果。
此外,在第二笔画检测网络的实现过程中,第二笔画检测网络可以为U型网络,除了包括第三下采样模块和第三上采样模块之外,第二笔画检测网络还可以进一步包括第七处理模块和/或第八处理模块,其中,第七处理模块用于加深第二笔画检测网络的模型深度,第八处理模块用于增加第二笔画检测网络的模型参数量;从而,至少将第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜的过程具体可以包括:至少将第一目标图像和该第二掩膜输入至第二笔画检测网络;第三下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第六特征;原始图像的第六特征经过第七处理模块和/或第八处理模块的处理,得到原始图像的第七特征;第三上采样模块对原始图像的第七特征进行上采样,得到第三掩膜。
其中,该第二笔画检测网络还可以包括用于加深该第二笔画检测网络的模型深度的第七处理模块,示例性地,该第七处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第二笔画检测网络还可以包括用于增加该第二笔画检测网络的模型参数量的第八处理模块,示例性地,该第二处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第七处理模块和/或第八处理模块可以提升该第二笔画检测网络在检测文字笔画时的文字检测效果,提升文字检测过程中笔画检测的效果。
在一种可能的实现方式中,该第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;其中,至少将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像的过程具体可以包括:至少将该第一目标图像和该第三掩膜输入至该第二笔画消除网络;然后,该第四下采样模块根据该第三掩膜对该第一目标图像进行下采样,得到该第一目标图像的第二特征;此后,该第四上采样模块对该第一目标图像的第二特征进行上采样,得到该第二目标图像。其中,该第二笔画检测网络中第三下采样模块和第三上采样模块的实现过程可以参考前述第一笔画检测网络中第一下采样模块和第一上采样模块的实现过程相比,区别仅仅输入数据进行了替换,使得输出数据对应发生改变,此处对该实现过程不再赘述。
其中,至少将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像的过程具体可以包括:将该第一目标图像、该第一掩膜和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像。
具体来说,将该第一目标图像、该第一掩膜和该第三掩膜输入至第二笔画消除网络,使得该第二笔画消除网络在该第一目标图像中第一掩膜所在的位置根据第三掩膜执行文字消除,与在整个第一目标图像中根据第三掩膜执行文字消除的过程相比,可以对第一目标图像中第一掩膜所指示的目标文字所在区域赋予更多的注意力,进一步提升文字消除效果。
此外,用于在图像中消除文字笔画的第二笔画消除网络中,该第二笔画消除网络还可以包括第三处理模块,该第三处理模块用于加深该第二笔画消除网络的模型深度;和/或,该第二笔画消除网络还可以包括第四处理模块,该第四处理模块用于增加该第二笔画消除网络的模型参数量。具体地,第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;第二笔画消除网络还包括第三处理模块和/或第四处理模块,其中,第三处理模块用于加深第二笔画消除网络的模型深度,第四处理模块用于增加第二笔画消除网络的模型参数量;此时,至少将第一目标图像和第三掩膜输入至第二笔画消除网络,经过第二笔画消除网络处理后得到第二目标图像具体包括:至少将第一目标图像和第三掩膜输入至第二笔画消除网络;第四下采样模块根据第三掩膜对第一目标图像进行下采样,得到第一目标图像的第二特征;第一目标图像的第二特征经过第三处理模块和/或第四处理模块的处理,得到第一目标图像的第三特征;第四上采样模块对第一目标图像的第三特征进行上采样,得到第二目标图像。
示例性地,该第三处理模块可以用于执行卷积处理、残差块处理、空洞卷积处理、池化处理、逆残差块处理、激活函数处理等,和/或,该第二笔画消除网络还可以包括用于增加该第二笔画消除网络的模型参数量的第四处理模块,示例性地,该第四处理模块可以用于执行卷积处理、空洞卷积处理、残差块处理等,从而,通过第三处理模块和/或第四处理模块可以提升该第一笔画消除网络在消除文字笔画时的文字消除效果,进一步提升文字消除过程中渲染回填的效果。
类似于步骤S103中第一加权鉴别器的实现过程,该第一加权鉴别器为一个算法单元组成的生成器对应的鉴别器,本申请针对于第一笔画检测网络、第二笔画消除网络、第二笔画检测网络和第二笔画消除网络所组成的生成器(即两个算法单元),设计了另一个加权鉴别器。其中,在第二笔画消除网络处理得到该第二目标图像之后,该方法还包括:将该第二目标图像和该第二目标图像的真值图像输入第二加权鉴别器,经过该第二加权鉴别器处理后得到第二评估结果,该第二评估结果用于指示该第二目标图像和该第二目标图像的真值图像之间的差异。后续第二笔画消除网络可以通过该第二评估结果实现网络训练参数的更新,可以进一步提升第二笔画消除网络的文字消除效果。
具体来说,该第二加权鉴别器可以包括:
第三鉴别公式:
第四鉴别公式:
其中,labelijk即为patch中第(i,j,k)个元素取值,ω2为该元素的权重,n×n×C为特征块(patch)的尺寸。
本实施例中,该第二加权鉴别器具体可以通过该第三鉴别公式和第四鉴别公式实现,其中,文字笔画占比更大的第二目标图像,其真伪对第一加权鉴别器的最终结果的影响更大。此外,第二加权鉴别器的实现过程可以参考前述第一加权鉴别器的实现过程,此处不再赘述。
示例性地,请参阅图5-3,为本申请提出的基于文字笔画检测的文字消除算法的生成器网络。上文图5-2所示内容已经构建了第一笔画检测网络GD和第一笔画消除网络GR,此处构建一个类似的第二笔画检测网络G′D,以及一个类似的第二笔画消除网络G′R。需要注意的是,此处构建的两个网络的输入与之前的网络有所不同,其中,第二笔画检测网络G′D的输入由三部分组成,分别为第一个算法单元中第一笔画消除网络GR的输出Ite、第一个算法单元中第一笔画检测网络的输出为Ms。G′D的目的是对第一个算法单元中GD的输出进行进一步优化,因为GD检测到的笔画掩膜在文字笔画的边缘仍然有不同程度的不准确情况或称之为错误分割情况。第二个算法单元中的第二笔画消除网络G′R的输入可以由以下三部分组成:第一个算法单元中文字笔画消除网络GR的输出Ite、第二个算法单元中文字笔画检测网络G′D的输出M′s和掩膜。
请参阅图7,本申请实施例提供了另一种图像处理方法,包括:
S201、步骤1、根据原始图像,确定出所述原始图像对应的第一掩膜,所述第一掩膜用于指示所述目标文字在所述原始图像中的位置,所述原始图像包括目标文字,所述目标文字由文字笔画构成;
本实施例中,步骤S201可以参考前述图4所示实施例中步骤S101的实现过程,此处不再赘述。
S202、步骤2、将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜,所述第二掩膜用于指示所述文字笔画在所述原始图像中的位置,所述第一笔画检测网络用于在图像中检测文字笔画;
在一种可能的实现方式中,在步骤2中,该第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;其中,在步骤2将该原始图像和该第一掩膜输入至该第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜具体的过程具体可以包括:将该原始图像和该第一掩膜输入至该第一笔画检测网络;然后,该第一下采样模块根据该第一掩膜对该原始图像进行下采样,得到该原始图像的第一特征;此后,该第一上采样模块对该原始图像的第一特征进行上采样,得到该第二掩膜。其中,第一笔画检测网络与图4实施例中包含有第一下采样模块和第一上采样模块的第一笔画检测网络的实现类似,此处不再赘述。
在另一种可能的实现方式中,在步骤2中,用于在图像中检测文字笔画的第一笔画检测网络可以为U型网络,除了包括第一下采样模块和第一上采样模块之外,该第一笔画检测网络还可以进一步包括第五处理模块和/或第六处理模块,其中,第五处理模块用于加深第一笔画检测网络的模型深度,第六处理模块用于增加第一笔画检测网络的模型参数量;从而,在步骤S102中,将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜具体包括:将原始图像和第一掩膜输入至第一笔画检测网络;第一下采样模块根据第一掩膜对原始图像进行下采样,得到原始图像的第四特征;原始图像的第四特征经过第五处理模块和/或第六处理模块的处理,得到原始图像的第五特征;第一上采样模块对原始图像的第五特征进行上采样,得到第二掩膜。其中,第一笔画检测网络与图4实施例中包含有第一下采样模块和第一上采样模块、以及第五处理模块和/或第六处理模块的第一笔画检测网络的实现类似,此处不再赘述。
在一种可能的实现方式中,在步骤2中,该第一笔画检测网络还包括第一损失函数,其中,该第一损失函数包括:
其中,第一损失函数与图4实施例中第一损失函数的实现类似,此处不再赘述。
本实施例中,步骤S202可以参考前述图4所示实施例步骤S102的实现过程,此处不再赘述。
S203、判断第一预设条件是否满足,若是,执行步骤S204,若否,则执行步骤S202;
本实施例中,第一预设条件可以为预配置的或者是响应用户输入指令确定的执行次数值、执行时长值、执行周期值或者是其它的参数,此处不做限定。
例如,当该第一预设条件为预配置时,该智能终端可以直接在自身存储空间中预配置“执行次数值、执行时长值、执行周期值或者是其它的参数”,该终端设备也可以是预存关联于原始图像参数(分辨率、像素深度、像元尺寸等)与“执行次数值、执行时长值、执行周期值或者是其它的参数”之间的映射关系;当该第一预设条件为响应用户输入指令确定时,该智能终端可以是直接使用用户通过输入设备(鼠标、键盘、触摸屏等)输入的数据确定为“执行次数值、执行时长值、执行周期值或者是其它的参数”。
此处以第一预设条件为执行次数值为例进行说明,例如该执行次数值为3次时,当该智能终端在确定步骤S202(即步骤2)已执行一次时,确定第一预设条件不满足,此时将该第二掩膜替换该第一掩膜,再次执行步骤S202(即步骤2);当该智能终端在确定步骤S202(即步骤2)已执行二次时,确定第一预设条件不满足,此时将该第二掩膜替换该第一掩膜,再次执行步骤S202(即步骤2);当该智能终端在确定步骤S202(即步骤2)已执行三次时,确定第一预设条件满足,此时该智能终端使用执行第三次步骤S202(即步骤2)结果得到的第二掩膜作为步骤S204(即步骤3)的输入,执行步骤步骤S204(即步骤3)。
S204、步骤3、至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像,所述第一笔画消除网络用于在图像中消除文字笔画,所述第一目标图像为对所述原始图像进行文字消除后的图像。
本实施例中,步骤S203可以参考前述图4所示实施例中步骤S103的实现过程,区别在于输入数据中的第二掩膜来自于步骤S203,此处对该实现过程不再赘述。
在一种可能的实现方式中,在步骤3中,该第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;其中,在步骤3至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:至少将该原始图像和该第二掩膜输入至该第一笔画消除网络;然后,该第二下采样模块根据该第二掩膜对该原始图像进行下采样,得到该原始图像的第二特征;此后,该第二上采样模块对该原始图像的第二特征进行上采样,得到该第一目标图像。其中,第一笔画消除网络与图4实施例中第一笔画消除网络的实现类似,此处不再赘述。
在一种可能的实现方式中,在步骤3中至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像的过程具体可以包括:将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到该第一目标图像。
在一种可能的实现方式中,在步骤3中,第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;第二笔画消除网络还包括第三处理模块和/或第四处理模块,其中,第三处理模块用于加深第二笔画消除网络的模型深度,第四处理模块用于增加第二笔画消除网络的模型参数量;至少将第一目标图像和第三掩膜输入至第二笔画消除网络,经过第二笔画消除网络处理后得到第二目标图像具体包括:至少将第一目标图像和第三掩膜输入至第二笔画消除网络;第四下采样模块根据第三掩膜对第一目标图像进行下采样,得到第一目标图像的第二特征;第一目标图像的第二特征经过第三处理模块和/或第四处理模块的处理,得到第一目标图像的第三特征;第四上采样模块对第一目标图像的第三特征进行上采样,得到第二目标图像。其中,第一处理模块和第二处理模块与图4实施例中第一处理模块和第二处理模块的实现类似,此处不再赘述。
在一种可能的实现方式中,在步骤3中,该第一笔画消除网络还包括第二损失函数,其中,该第二损失函数包括:
其中,Ite为第一目标图像,Igt为Ite对应的真值,λr为大于1的整数,⊙代表特征图逐元素相乘,代表文字笔画消除网络的加权l1损失函数。其中,第二损失函数与图4实施例中第二损失函数的实现类似,此处不再赘述。
此外,在步骤S204之后,该智能终端可以根据预配置或者是响应用户输入指令确定执行步骤S205或者步骤S206。
S205、判断第二预设条件是否满足,若是,执行步骤S207,若否,则执行步骤S204;
本实施例中,类似于第一预设条件的实现,该第二预设条件可以为预配置或者是响应用户输入指令确定的执行次数值、执行时长值、执行周期值或者是其它的参数,此处不做限定。
此处仍以第一预设条件为执行次数值为例进行说明,例如该执行次数值为2次时,当该智能终端在确定步骤S204(即步骤3)已执行一次时,确定第一预设条件不满足,此时将该将所述第一目标图像替换所述原始图像,再次执行步骤S204(即步骤3);当该智能终端在确定步骤S204(即步骤3)已执行二次时,确定第二预设条件满足,此时该智能终端执行步骤S207。
S206、判断第三预设条件是否满足,若是,执行步骤S207,若否,则执行步骤S204;
本实施例中,类似于第一预设条件和第二预设条件的实现,该第三预设条件可以为预配置或者是响应用户输入指令确定的执行次数值、执行时长值、执行周期值或者是其它的参数,此处不做限定。
此处仍以第一预设条件为执行次数值为例进行说明,例如该执行次数值为2次时,当该智能终端在确定步骤S204(即步骤3)已执行一次时,确定第一预设条件不满足,此时将所述第一目标图像替换所述原始图像,再次执行步骤S204(即步骤3);当该智能终端在确定步骤S204(即步骤3)已执行二次时,确定第二预设条件满足,此时该智能终端执行步骤S207。
S207、执行其它操作。
本实施例中,当该智能终端在步骤S205确定第二预设条件得到满足时,或者是该智能终端在步骤S206确定第三预设条件得到满足时,该智能终端可以执行其它步骤,具体包括:
1)输出最后在步骤S205或者步骤S206中得到的第一目标图像;
2)步骤4,将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,该第一评估结果用于指示该第一目标图像和该第一目标图像的真值图像之间的差异。
在一种可能的实现方式中,在步骤4中,该第一加权鉴别器包括:
第一鉴别公式:
第二鉴别公式:
其中,labelijk即为patch中第(i,j,k)个元素取值,ω1为该元素的权重,n×n×C为特征块(patch)的尺寸。
其中,第一加权鉴别器与图4实施例中第一加权鉴别器的实现类似,此处不再赘述。
基于图4至图7所示实施例,本申请通过一系列实验验证构建的网络的有效性。由于目前并没有针对文字消除任务的基于真实数据的数据集,本申请构建了一个测试示例,该测试示例中,所构建的数据集由不同场景下的带有不同语言文字的图像构成,其规模为10,000张。为了保证结果的合理性,本申请从数据集中随机挑选出1,000张作为测试集,剩余的作为训练集。实验平台为具有16块英特尔至强E5-2690 v42.60GHz中央处理器,256GBRAM,8块TITAN RTX显卡的64位Ubuntu服务器。在该平台上使用TensorFlow 1.13.1深度学习框架验证本申请设计的卷积神经网络性能。
首先,验证了本申请提出的基于文字笔画检测的图像处理方法的有效性。本申请将只有一个文字笔画消除网络作为生成器,一个普通的密集图像块上的光谱归一化鉴别器(spectural-normalized discriminator on dense image patches,SNPatchGAN)作为鉴别器的网络作为基准网络,并通过在基准网络上添加或替换本申请提出的图像处理方法中的不同模块,来验证这些模块的有效性。通过在基准网络中添加文字笔画检测网络TSDNet,验证该模块的有效性;通过将基准网络的鉴别器替换为本申请提出的基于patch的加权鉴别器(weighted discriminator,WD),验证该模块的作用;同时还验证了本申请提出的完整网络Cascade相对上述几种网络变体的优越性。表1所示的是四个网络在训练至收敛后在测试集上的量化结果,其中平均绝对误差(mean absolute error,MAE)、峰值信噪比(PeakSignal to Noise Ratio,PSNR)和结构相似性(structural similarity index,SSIM)三个指标用于评价文字消除结果,检测出的文字笔画掩膜和真实笔画掩膜之间的平均绝对误差(mean absolute error between detected text stroke mask and ground-truthstroke mask,tMAE)用于评价笔画掩膜,MAE和tMAE越低表示对应网络的效果越好,PSNR和SSIM则相反。本申请提出的基于文字笔画检测的图像处理方法,效果要远优于其他网络变体,表明引入文字笔画检测网络和基于patch的加权鉴别器,可以较好地提升网络的文字消除效果。为了更直观地展示不同网络变体的文字消除效果,如图8展示了相关的实例。可以看出Cascade,即本申请提出的完整网络能够在完成文字消除的同时更好地保留图像中的纹理、结构等信息,使图像更加自然。
Method | MAE(%) | PSNR | SSIM | tMAE(%) |
Baseline | 1.59 | 35.00 | 0.9542 | - |
WD | 1.00 | 38.31 | 0.9722 | - |
TSDNet | 0.98 | 38.17 | 0.9733 | 7.63 |
Cascade | 0.75 | 39.44 | 0.9756 | 4.73 |
表1
其次,对本申请提出的图像处理方法相对现有文字消除算法的优越性进行实验。本申请选择了三个最新的基于深度学习的文字消除算法进行比较,分别是STEraser、EnsNet和MTRNet。表2所示的是本申请中图像处理方法与其他三个算法在相关数据集上的比较结果。其中MAE、PSNR和SSIM是消除文字后图像质量的评价指标,RPF则对消除文字后的图像再次用文字检测方法进行文字检测,检测到的文字越少说明文字消除的效果越好,理想情况下三个指标都应该为0。
Method | MAE | PSNR | SSIM | R(%) | P(%) | F(%) |
Original image | - | - | - | 43.25 | 40.68 | 41.93 |
ST Eraser(2017) | 2.52 | 27.2 | 0.9113 | 6.23 | 20.55 | 9.56 |
EnsNet(2019) | 1.22 | 33.78 | 0.9543 | 1.94 | 20.18 | 3.53 |
MTRNet(2019) | 1.62 | 34.31 | 0.9634 | 0.55 | 17.14 | 1.06 |
Our method | 0.75 | 39.44 | 0.9756 | 0.35 | 10.23 | 0.68 |
表2
比较表2中结果可以发现,本申请设计的图像处理方法所生成的图像有最好的质量,文字消除得也最彻底,相关指标都远超最新的其他文字消除算法。这表明本申请设计的算法是有效的。
最后,本申请所提出的网络还可以实现多语言的文字消除和有选择的文字消除。已有算法大多仅能处理在训练集中出现的文字种类,而不能处理算法在训练时没有遇到过的文字种类。本申请设计的算法,能够很好地处理不同语言的文字,与其他算法相比有显著的优越性。同时本申请所提出的算法能够实现有选择的文字消除,即通过修改掩膜,可以只对图像所包含的多处文字中的一部分进行消除,而其他部分文字保留不变。
综上所述,本申请所提供的图像处理方法中,通过对图像中的文字进行精细的检测与分割,可以实现更好的文字消除效果。
在图1至图8所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。
具体请参阅图9,图9为本申请实施例提供的图像处理装置900的一种结构示意图。
在一种具体的实现方式中,该图像处理装置900包括:
确定单元901,用于根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;
第一处理单元902,用于将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;
第二处理单元903,用于至少将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像。
本实施例中,第一笔画检测网络用于在图像中检测文字笔画,第一笔画消除网络用于在图像中消除文字笔画,即该第一处理单元902通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,第二处理单元903通过第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。
在图9所示实施例的基础上,该图像处理装置900还可以进一步实现其它实施例,请参阅图10,该图像处理装置900还可以用于执行以下至少一个实施例,包括:
在一种可能的实现方式中,该第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;
该第一处理单元902具体用于:
将该原始图像和该第一掩膜输入至该第一笔画检测网络;
该第一下采样模块根据该第一掩膜对该原始图像进行下采样,得到该原始图像的第一特征;
该第一上采样模块对该原始图像的第一特征进行上采样,得到该第二掩膜。
在一种可能的实现方式中,
该第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;
该第二处理单元903具体用于:
至少将该原始图像和该第二掩膜输入至该第一笔画消除网络;
该第二下采样模块根据该第二掩膜对该原始图像进行下采样,得到该原始图像的第二特征;
该第二上采样模块对该原始图像的第二特征进行上采样,得到该第一目标图像。
在一种可能的实现方式中,第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;第一笔画检测网络还包括第五处理模块和/或第六处理模块,其中,第五处理模块用于加深第一笔画检测网络的模型深度,第六处理模块用于增加第一笔画检测网络的模型参数量;
该第二处理单元903具体用于:
将原始图像和第一掩膜输入至第一笔画检测网络;第一下采样模块根据第一掩膜对原始图像进行下采样,得到原始图像的第四特征;原始图像的第四特征经过第五处理模块和/或第六处理模块的处理,得到原始图像的第五特征;第一上采样模块对原始图像的第五特征进行上采样,得到第二掩膜。
在一种可能的实现方式中,第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;第一笔画消除网络还包括第一处理模块和/或第二处理模块,其中,第一处理模块用于加深第一笔画消除网络的模型深度,第二处理模块用于增加第一笔画消除网络的模型参数量;
该第二处理单元903具体用于:
至少将原始图像和第二掩膜输入至第一笔画消除网络;
第二下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第二特征;
原始图像的第二特征经过第一处理模块和/或第二处理模块的处理,得到原始图像的第三特征;
第二上采样模块对原始图像的第三特征进行上采样,得到第一目标图像。
在一种可能的实现方式中,该第二处理单元903具体用于:
将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到该第一目标图像。
在一种可能的实现方式中,该装置900还包括:
第三处理单元904,用于至少将该第一目标图像和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜,该第二笔画检测网络用于在图像中检测文字笔画;
第四处理单元905,用于至少将该第一目标图像和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像,该第二笔画消除网络用于在图像中消除文字笔画。
在一种可能的实现方式中,
该第二笔画检测网络为U型网络,包括第三下采样模块和第三上采样模块;
该第三处理单元904具体用于:
至少将该第一目标图像和该第二掩膜输入至该第二笔画检测网络;
该第三下采样模块根据该第二掩膜对该第一目标图像进行下采样,得到该第一目标图像的第一特征;
该第三上采样模块对该第一目标图像的第一特征进行上采样,得到该第三掩膜。
在一种可能的实现方式中,第二笔画检测网络为U型网络,包括第三下采样模块和第三上采样模块;第二笔画检测网络还包括第七处理模块和/或第八处理模块,其中,第七处理模块用于加深第二笔画检测网络的模型深度,第八处理模块用于增加第二笔画检测网络的模型参数量;
该第三处理单元904具体用于:
至少将第一目标图像和该第二掩膜输入至第二笔画检测网络;第三下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第六特征;原始图像的第六特征经过第七处理模块和/或第八处理模块的处理,得到原始图像的第七特征;第三上采样模块对原始图像的第七特征进行上采样,得到第三掩膜。
在一种可能的实现方式中,
该第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;
该第四处理单元905具体用于:
至少将该第一目标图像和该第三掩膜输入至该第二笔画消除网络;
该第四下采样模块根据该第三掩膜对该第一目标图像进行下采样,得到该第一目标图像的第二特征;
该第四上采样模块对该第一目标图像的第二特征进行上采样,得到该第二目标图像。
在一种可能的实现方式中,第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;第二笔画消除网络还包括第三处理模块和/或第四处理模块,其中,第三处理模块用于加深第二笔画消除网络的模型深度,第四处理模块用于增加第二笔画消除网络的模型参数量;
第四处理单元905具体用于:
至少将第一目标图像和第三掩膜输入至第二笔画消除网络;
第四下采样模块根据第三掩膜对第一目标图像进行下采样,得到第一目标图像的第二特征;
第一目标图像的第二特征经过第三处理模块和/或第四处理模块的处理,得到第一目标图像的第三特征;
第四上采样模块对第一目标图像的第三特征进行上采样,得到第二目标图像。
在一种可能的实现方式中,该第三处理单元904具体用于:
将该第一目标图像、该第一掩膜和该第二掩膜输入至第二笔画检测网络,经过该第二笔画检测网络处理后得到第三掩膜。
在一种可能的实现方式中,该第四处理单元905具体用于:
将该第一目标图像、该第一掩膜和该第三掩膜输入至第二笔画消除网络,经过该第二笔画消除网络处理后得到第二目标图像。
在一种可能的实现方式中,该第一笔画检测网络还包括第一损失函数,其中,该第一损失函数包括:
在一种可能的实现方式中,该第一笔画消除网络还包括第二损失函数,其中,该第二损失函数包括:
在一种可能的实现方式中,该装置900还包括:
第五处理单元906,用于将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,该第一评估结果用于指示该第一目标图像和该第一目标图像的真值图像之间的差异。
在一种可能的实现方式中,该装置还包括:
第六处理单元907,用于将该第二目标图像和该第二目标图像的真值图像输入第二加权鉴别器,经过该第二加权鉴别器处理后得到第二评估结果,该第二评估结果用于指示该第二目标图像和该第二目标图像的真值图像之间的差异。
其中,图像处理装置900的组成模块还可以用于执行前述方法实施例中各个可能实现方式中所执行的步骤,具体均可以参阅前述方法实施例,此处不再赘述。
在另一种具体的实现方式中,该图像处理装置900包括:
确定单元901,用于在步骤1中根据原始图像,确定出该原始图像对应的第一掩膜,该第一掩膜用于指示该目标文字在该原始图像中的位置,该原始图像包括目标文字,该目标文字由文字笔画构成;
第一处理单元902,用于在步骤2中将该原始图像和该第一掩膜输入至第一笔画检测网络,经过该第一笔画检测网络处理后得到第二掩膜,该第二掩膜用于指示该文字笔画在该原始图像中的位置,该第一笔画检测网络用于在图像中检测文字笔画;
第二处理单元903,用于在步骤3中将该原始图像和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到第一目标图像,该第一笔画消除网络用于在图像中消除文字笔画,该第一目标图像为对该原始图像进行文字消除后的图像;
该第一处理单元902,还用于至少将该第二掩膜替换该第一掩膜,重复执行该步骤2至满足第一预设条件;和/或,该第二处理单元903,还用于将该第一目标图像替换该原始图像,重复执行该步骤3至满足第二预设条件;和/或,该第一处理单元902和该第二处理单元903,还用于将该第一目标图像替换该原始图像,重复执行该步骤2和步骤3至满足第三预设条件。
本实施例中,第一处理单元902在步骤2中的第一笔画检测网络用于在图像中检测文字笔画,第二处理单元903在步骤3中的第一笔画消除网络用于在图像中消除文字笔画,即第一处理单元902在步骤2中通过第一笔画检测网络将原始图像中的文字笔画检测出来,得到用于指示该文字笔画在该原始图像中的位置的第二掩膜之后,然后,第二处理单元903在步骤3中第一笔画消除网络根据第二掩膜在原始图像中进行文字消除得到第一目标图像,即第一目标图像是以用于指示文字笔画在原始图像中的位置的掩膜作为文字消除的粒度,在原始图像中进行文字消除得到的,相比于以文字所在的矩形掩膜为粒度所实现的文字消除过程,避免了矩形掩膜中文字背景中的图像信息丢失,即通过从而在一定程度上增加文字消除后的图像中图像信息的连贯性,提升文字消除过程中渲染回填的效果。此外,重复执行步骤2和/或步骤3至满足预设条件(第一预设条件、第二预设条件和/或第三预设条件),可以通过第一笔画检测网络和第二笔画消除网络的重复执行,在一定程度上提升笔画检测效果以及笔画消除效果,进一步提升文字消除过程中渲染回填的效果。
需要说明的是,预设条件(第一预设条件、第二预设条件和/或第三预设条件)可以为预配置或者是响应用户输入指令确定的执行次数值、执行时长值、执行周期值或者是其它的参数,此处不做限定。
在图9所示实施例的基础上,该图像处理装置900还可以进一步实现其它实施例,请参阅图10,该图像处理装置900还可以用于执行以下至少一个实施例,包括:
在一种可能的实现方式中,该第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;
该第一处理单元902在步骤2中具体用于:
将该原始图像和该第一掩膜输入至该第一笔画检测网络;
该第一下采样模块根据该第一掩膜对该原始图像进行下采样,得到该原始图像的第一特征;
该第一上采样模块对该原始图像的第一特征进行上采样,得到该第二掩膜。
在一种可能的实现方式中,
该第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;
该第二处理单元903在步骤3中具体用于:
将该原始图像和该第二掩膜输入至该第一笔画消除网络;
该第二下采样模块根据该第二掩膜对该原始图像进行下采样,得到该原始图像的第二特征;
该第二上采样模块对该原始图像的第二特征进行上采样,得到该第一目标图像。
在一种可能的实现方式中,第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;第一笔画消除网络还包括第一处理模块和/或第二处理模块,其中,第一处理模块用于加深第一笔画消除网络的模型深度,第二处理模块用于增加第一笔画消除网络的模型参数量;
该第二处理单元903具体用于:
至少将原始图像和第二掩膜输入至第一笔画消除网络;
第二下采样模块根据第二掩膜对原始图像进行下采样,得到原始图像的第二特征;
原始图像的第二特征经过第一处理模块和/或第二处理模块的处理,得到原始图像的第三特征;
第二上采样模块对原始图像的第三特征进行上采样,得到第一目标图像。
在一种可能的实现方式中,该第二处理单元903在步骤3中具体用于:
将该原始图像、该第一掩膜和该第二掩膜输入至第一笔画消除网络,经过该第一笔画消除网络处理后得到该第一目标图像。
在一种可能的实现方式中,该第一笔画检测网络还包括第一损失函数,其中,该第一损失函数包括:
在一种可能的实现方式中,该第一笔画消除网络还包括第二损失函数,其中,该第二损失函数包括:
在一种可能的实现方式中,该装置900还包括:
第五处理单元906,用于在步骤4中将该第一目标图像和该第一目标图像的真值图像输入第一加权鉴别器,经过该第一加权鉴别器处理后得到第一评估结果,该第一评估结果用于指示该第一目标图像和该第一目标图像的真值图像之间的差异。
其中,图像处理装置900的组成模块还可以用于执行前述方法实施例中各个可能实现方式中所执行的步骤,具体均可以参阅前述方法实施例,此处不再赘述。
本申请实施例还提供了一种图像处理装置,请参阅图11,图11是本申请实施例提供的图像处理装置一种结构示意图,图像处理装置1100上可以部署有图9对应实施例中所描述的图像处理装置900,用于实现前述方法实施例中图像处理装置的功能,或者,图像处理装置1100上可以部署有图9对应实施例中所描述的图像处理装置900,用于实现前述方法实施例中图像处理装置的功能。具体的,图像处理装置1100由一个或多个图像处理装置实现,图像处理装置1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1123(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对图像处理装置中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在图像处理装置1100上执行存储介质1130中的一系列指令操作。但应当理解,图11中示出的图像处理装置仅为图像处理装置的一种示例,图像处理装置1100内部也可以不包括存储器1132和存储介质1130,而是在图像处理装置1100之外配置有外挂式存储器,也即存储器1132和存储介质1130与中央处理器1122可以为相互独立的设备,作为示例,例如车载图像处理装置中就采用的是外挂式存储器。
图像处理装置1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1122,用于执行前述方法实施例中的图像处理装置执行的图像处理方法。需要说明的是,对于中央处理器1122执行图像处理方法的具体实现方式,均可以参考前述各个方法实施例中的叙述,此处不再一一赘述。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述方法实施例描述的方法中图像处理装置所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述方法实施例描述的方法中图像处理装置所执行的步骤。
本申请实施例提供了一种电路系统,所述电路系统包括处理电路,所述处理电路配置为执行前述方法实施例描述的图像处理方法。
本申请实施例提供的执行设备、训练设备、智能终端或通信设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使图像处理装置内的芯片执行上述方法实施例描述的图像处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (21)
1.一种图像处理方法,其特征在于,包括:
根据原始图像,确定出所述原始图像对应的第一掩膜,所述第一掩膜用于指示所述目标文字在所述原始图像中的位置,所述原始图像包括目标文字,所述目标文字由文字笔画构成;
将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜,所述第二掩膜用于指示所述文字笔画在所述原始图像中的位置,所述第一笔画检测网络用于在图像中检测文字笔画;
至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像,所述第一笔画消除网络用于在图像中消除文字笔画,所述第一目标图像为对所述原始图像进行文字消除后的图像。
2.根据权利要求1所述的方法,其特征在于,
所述第一笔画检测网络为U型网络,包括第一下采样模块和第一上采样模块;
将所述原始图像和所述第一掩膜输入至所述第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜具体包括:
将所述原始图像和所述第一掩膜输入至所述第一笔画检测网络;
所述第一下采样模块根据所述第一掩膜对所述原始图像进行下采样,得到所述原始图像的第一特征;
所述第一上采样模块对所述原始图像的第一特征进行上采样,得到所述第二掩膜。
3.根据权利要求1或2所述的方法,其特征在于,
所述第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;
所述至少将所述原始图像和所述第二掩膜输入至所述第一笔画消除网络,经过所述第一笔画消除网络处理后得到所述第一目标图像具体包括:
至少将所述原始图像和所述第二掩膜输入至所述第一笔画消除网络;
所述第二下采样模块根据所述第二掩膜对所述原始图像进行下采样,得到所述原始图像的第二特征;
所述第二上采样模块对所述原始图像的第二特征进行上采样,得到所述第一目标图像。
4.根据权利要求1或2所述的方法,其特征在于,所述第一笔画消除网络为U型网络,包括第二下采样模块和第二上采样模块;所述第一笔画消除网络还包括第一处理模块和/或第二处理模块,其中,所述第一处理模块用于加深所述第一笔画消除网络的模型深度,所述第二处理模块用于增加所述第一笔画消除网络的模型参数量;
所述至少将所述原始图像和所述第二掩膜输入至所述第一笔画消除网络,经过所述第一笔画消除网络处理后得到所述第一目标图像具体包括:
至少将所述原始图像和所述第二掩膜输入至所述第一笔画消除网络;
所述第二下采样模块根据所述第二掩膜对所述原始图像进行下采样,得到所述原始图像的第二特征;
所述原始图像的第二特征经过所述第一处理模块和/或第二处理模块的处理,得到所述原始图像的第三特征;
所述第二上采样模块对所述原始图像的第三特征进行上采样,得到所述第一目标图像。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像包括:
将所述原始图像、所述第一掩膜和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到所述第一目标图像。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后处理得到第一目标图像之后,所述方法还包括:
至少将所述第一目标图像和所述第二掩膜输入至第二笔画检测网络,经过所述第二笔画检测网络处理后得到第三掩膜,所述第二笔画检测网络用于在图像中检测文字笔画;
至少将所述第一目标图像和所述第三掩膜输入至第二笔画消除网络,经过所述第二笔画消除网络处理后得到第二目标图像,所述第二笔画消除网络用于在图像中消除文字笔画。
7.根据权利要求6所述的方法,其特征在于,
所述第二笔画检测网络为U型网络,包括第三下采样模块和第三上采样模块;
所述至少将所述第一目标图像和所述第二掩膜输入至第二笔画检测网络,经过所述第二笔画检测网络处理后得到第三掩膜包括:
至少将所述第一目标图像和所述第二掩膜输入至所述第二笔画检测网络;
所述第三下采样模块根据所述第二掩膜对所述第一目标图像进行下采样,得到所述第一目标图像的第一特征;
所述第三上采样模块对所述第一目标图像的第一特征进行上采样,得到所述第三掩膜。
8.根据权利要求6或7所述的方法,其特征在于,所述第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;
所述至少将所述第一目标图像和所述第三掩膜输入至第二笔画消除网络,经过所述第二笔画消除网络处理后得到第二目标图像具体包括:
至少将所述第一目标图像和所述第三掩膜输入至所述第二笔画消除网络;
所述第四下采样模块根据所述第三掩膜对所述第一目标图像进行下采样,得到所述第一目标图像的第二特征;
所述第四上采样模块对所述第一目标图像的第二特征进行上采样,得到所述第二目标图像。
9.根据权利要求6或7所述的方法,其特征在于,所述第二笔画消除网络为U型网络,包括第四下采样模块和第四上采样模块;所述第二笔画消除网络还包括第三处理模块和/或第四处理模块,其中,所述第三处理模块用于加深所述第二笔画消除网络的模型深度,所述第四处理模块用于增加所述第二笔画消除网络的模型参数量;
所述至少将所述第一目标图像和所述第三掩膜输入至第二笔画消除网络,经过所述第二笔画消除网络处理后得到第二目标图像具体包括:
至少将所述第一目标图像和所述第三掩膜输入至所述第二笔画消除网络;
所述第四下采样模块根据所述第三掩膜对所述第一目标图像进行下采样,得到所述第一目标图像的第二特征;
所述第一目标图像的第二特征经过所述第三处理模块和/或所述第四处理模块的处理,得到所述第一目标图像的第三特征;
所述第四上采样模块对所述第一目标图像的第三特征进行上采样,得到所述第二目标图像。
10.根据权利要求6至9任一所述的方法,其特征在于,所述至少将所述第一目标图像和所述第二掩膜输入至第二笔画检测网络,经过所述第二笔画检测网络处理后得到第三掩膜包括:
将所述第一目标图像、所述第一掩膜和所述第二掩膜输入至第二笔画检测网络,经过所述第二笔画检测网络处理后得到第三掩膜。
11.根据权利要求6至10任一项所述的方法,其特征在于,所述至少将所述第一目标图像和所述第三掩膜输入至第二笔画消除网络,经过所述第二笔画消除网络处理后得到第二目标图像包括:
将所述第一目标图像、所述第一掩膜和所述第三掩膜输入至第二笔画消除网络,经过所述第二笔画消除网络处理后得到第二目标图像。
14.根据权利要求1至13任一项所述的方法,其特征在于,所述方法还包括:
将所述第一目标图像和所述第一目标图像的真值图像输入第一加权鉴别器,经过所述第一加权鉴别器处理后得到第一评估结果,所述第一评估结果用于指示所述第一目标图像和所述第一目标图像的真值图像之间的差异。
15.根据权利要求6至14任一项所述的方法,其特征在于,所述方法还包括:
将所述第二目标图像和所述第二目标图像的真值图像输入第二加权鉴别器,经过所述第二加权鉴别器处理后得到第二评估结果,所述第二评估结果用于指示所述第二目标图像和所述第二目标图像的真值图像之间的差异。
16.一种图像处理方法,其特征在于,包括:
步骤1、根据原始图像,确定出所述原始图像对应的第一掩膜,所述第一掩膜用于指示所述目标文字在所述原始图像中的位置,所述原始图像包括目标文字,所述目标文字由文字笔画构成;
步骤2、将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜,所述第二掩膜用于指示所述文字笔画在所述原始图像中的位置,所述第一笔画检测网络用于在图像中检测文字笔画;
步骤3、至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像,所述第一笔画消除网络用于在图像中消除文字笔画,所述第一目标图像为对所述原始图像进行文字消除后的图像;
将所述第二掩膜替换所述第一掩膜,重复执行所述步骤2至满足第一预设条件;和/或,将所述第一目标图像替换所述原始图像,重复执行所述步骤3至满足第二预设条件;和/或,将所述第一目标图像替换所述原始图像,重复执行所述步骤2和步骤3至满足第三预设条件。
17.一种图像处理装置,其特征在于,包括:
确定单元,用于根据原始图像,确定出所述原始图像对应的第一掩膜,所述第一掩膜用于指示所述目标文字在所述原始图像中的位置,所述原始图像包括目标文字,所述目标文字由文字笔画构成;
第一处理单元,用于将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜,所述第二掩膜用于指示所述文字笔画在所述原始图像中的位置,所述第一笔画检测网络用于在图像中检测文字笔画;
第二处理单元,用于至少将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像,所述第一笔画消除网络用于在图像中消除文字笔画,所述第一目标图像为对所述原始图像进行文字消除后的图像。
18.一种图像处理装置,其特征在于,包括:
确定单元,用于在步骤1中根据原始图像,确定出所述原始图像对应的第一掩膜,所述第一掩膜用于指示所述目标文字在所述原始图像中的位置,所述原始图像包括目标文字,所述目标文字由文字笔画构成;
第一处理单元,用于在步骤2中将所述原始图像和所述第一掩膜输入至第一笔画检测网络,经过所述第一笔画检测网络处理后得到第二掩膜,所述第二掩膜用于指示所述文字笔画在所述原始图像中的位置,所述第一笔画检测网络用于在图像中检测文字笔画;
第二处理单元,用于在步骤3中将所述原始图像和所述第二掩膜输入至第一笔画消除网络,经过所述第一笔画消除网络处理后得到第一目标图像,所述第一笔画消除网络用于在图像中消除文字笔画,所述第一目标图像为对所述原始图像进行文字消除后的图像;
所述第一处理单元,还用于将所述第二掩膜替换所述第一掩膜,重复执行所述步骤2至满足第一预设条件;和/或,所述第二处理单元,还用于将所述第一目标图像替换所述原始图像,重复执行所述步骤3至满足第二预设条件;和/或,所述第一处理单元和所述第二处理单元,还用于将所述第一目标图像替换所述原始图像,重复执行所述步骤2和步骤3至满足第三预设条件。
19.一种图像处理装置,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时使得所述装置实现权利要求1至15中任一项所述的方法,或者,当所述存储器存储的程序指令被所述处理器执行时实现权利要求16所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至15任一项所述的方法,或者,所述程序指令当被处理器执行时使所述处理器执行如权利要求16所述的方法。
21.一种芯片系统,其特征在于,所述芯片系统包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行如权利要求1至15中任一项所述的方法,或者,以执行权利要求16所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010741140.XA CN114004751A (zh) | 2020-07-27 | 2020-07-27 | 一种图像处理方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010741140.XA CN114004751A (zh) | 2020-07-27 | 2020-07-27 | 一种图像处理方法及其相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114004751A true CN114004751A (zh) | 2022-02-01 |
Family
ID=79920792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010741140.XA Pending CN114004751A (zh) | 2020-07-27 | 2020-07-27 | 一种图像处理方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004751A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842485A (zh) * | 2022-04-26 | 2022-08-02 | 北京百度网讯科技有限公司 | 一种字幕去除方法、装置及电子设备 |
-
2020
- 2020-07-27 CN CN202010741140.XA patent/CN114004751A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842485A (zh) * | 2022-04-26 | 2022-08-02 | 北京百度网讯科技有限公司 | 一种字幕去除方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
US10373312B2 (en) | Automated skin lesion segmentation using deep side layers | |
CN108229531B (zh) | 对象特征提取方法、装置、存储介质和电子设备 | |
CN109492627B (zh) | 一种基于全卷积网络的深度模型的场景文本擦除方法 | |
EP3923233A1 (en) | Image denoising method and apparatus | |
CN110610154A (zh) | 行为识别方法、装置、计算机设备和存储介质 | |
EP4322056A1 (en) | Model training method and apparatus | |
CN111274999B (zh) | 数据处理、图像处理方法、装置及电子设备 | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
US10891471B2 (en) | Method and system for pose estimation | |
Bai et al. | Weakly supervised object localization via transformer with implicit spatial calibration | |
KR102621355B1 (ko) | 미세 구조 마스크를 사용한 다중 스케일 인자 이미지 슈퍼 해상도 | |
CN116309983B (zh) | 虚拟人物模型的训练方法、生成方法、装置和电子设备 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
US20230281830A1 (en) | Optical flow techniques and systems for accurate identification and tracking of moving objects | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
Zhang et al. | R2Net: Residual refinement network for salient object detection | |
CN111652349A (zh) | 一种神经网络的处理方法及相关设备 | |
CN110852351A (zh) | 基于图像的垃圾分类方法、装置、终端设备和存储介质 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN111967478B (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
CN114925320A (zh) | 一种数据处理方法及相关装置 | |
CN114004751A (zh) | 一种图像处理方法及其相关设备 | |
CN113569855A (zh) | 一种舌象分割方法、设备及存储介质 | |
CN111027670B (zh) | 特征图处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |