CN117372449A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117372449A CN117372449A CN202311199408.1A CN202311199408A CN117372449A CN 117372449 A CN117372449 A CN 117372449A CN 202311199408 A CN202311199408 A CN 202311199408A CN 117372449 A CN117372449 A CN 117372449A
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- segmented
- mask
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 102
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 238000013135 deep learning Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000003709 image segmentation Methods 0.000 claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 50
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 23
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像处理方法及装置,涉及计算机视觉领域,其中,所述方法包括:获取待处理图像,对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像;所述分割图像用于指示所述待处理图像中的待处理区域;所述待处理区域包含待去除的冗余标记;对所述分割图像进行图像处理得到掩码图像;所述掩码图像中的待处理区域与所述分割图像中的待处理区域对应;利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像;将所述输出图像与所述待处理图像进行图像融合,得到完成所述冗余标记去除的结果图像。本发明解决了现有技术操作复杂,图像处理效果差的问题。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
如今,许多文档需要进行数字化特征的提取或重建,如文档的OCR文字识别、表格重建等等,而这些文档图像许多都包含有印章等内容,这些内容会严重影响OCR识别、数字化重建等操作,对特征提取存在严重干扰,使得识别率大大下降,因此在对图像进行操作前进行去印章的操作就显得非常重要。
图像印章去除是一种图像处理技术,用于消除或减少图像中的印章等不需要的嵌入物。在计算机视觉中非常常见。这种技术在图像编辑、文档处理、隐私保护和数据分析等领域具有广泛的应用。传统的图像印章去除方法主要基于像素替换、填充和纹理合成等技术。这些方法通常需要用户手动标记或提供额外的信息来指导印章的去除过程。
近年来,深度学习方法可以从大量的标记数据中学习印章的特征,并且能够自动化地进行印章去除,减少了用户的手动干预。然而,深度学习方法也面临着数据需求量大、模型训练复杂等挑战,现阶段的已有的算法仍然存在很多问题,比如说对数据集的要求很高、需要标注印章位置、大尺寸图像作为输入得到的结果效果差等等,同时还有采用如生成对抗网络(GAN)等方法带来的训练不稳定,调参步骤繁琐等问题。
因此,急需一种操作简单、图像处理效果好的图像处理方法。
发明内容
本发明各实施例提供一种图像处理方法、装置、电子设备及存储介质,以解决相关技术中操作复杂,图像处理效果差的问题。所述技术方案如下:
根据本发明的一个方面,一种图像处理方法,所述方法包括:获取待处理图像,对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像;所述分割图像用于指示所述待处理图像中的待处理区域;所述待处理区域包含待去除的冗余标记;对所述分割图像进行图像处理得到掩码图像;所述掩码图像中的待处理区域与所述分割图像中的待处理区域对应;利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像;将所述输出图像与所述待处理图像进行图像融合,得到完成所述冗余标记去除的结果图像。
在其中一个实施例中,对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像通过以下步骤实现:通过已训练的检测模型,对所述待处理区域在所述待处理图像的位置进行检测,得到所述待处理图像中待处理区域的位置信息;根据所述位置信息对所述待处理图像中的待处理区域进行图像分割,得到所述待处理图像的分割图像。
在其中一个实施例中,对所述分割图像进行图像处理得到掩码图像通过以下步骤实现:在所述分割图像中对所述待处理区域的轮廓进行筛选,得到所述待处理区域的轮廓在所述分割图像中的位置;根据所述轮廓在所述分割图像中的位置对所述待处理图像进行图像反相处理,得到所述掩码图像。
在其中一个实施例中,利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像通过以下步骤实现:通过所述深度学习算法对所述分割图像进行多级特征提取,得到中间特征图;通过所述注意力机制,将所述掩码图像与所述中间特征图进行多级特征融合,得到融合特征图;通过所述深度学习算法,对所述融合特征图进行多级特征提取,得到输出特征图;对所述输出特征图进行区域位置预测,得到所述输出图像。
在其中一个实施例中,通过所述注意力机制,将所述掩码图像与所述中间特征图进行多级特征融合,得到融合特征图通过以下步骤实现:将当前一级所述中间特征图作为键值K,并将所述掩码图像作为查询值Q;根据所述键值K和查询值Q对所述掩码图像与所述中间特征图进行注意力计算,得到第一特征图;对所述中间特征图进行计算得到权值V,并根据所述权值V对所述第一特征图加权计算,得到第二特征图;将所述第一特征图和第二特征图进行融合处理,得到后一级中间特征图;继续对所述后一级中间特征图与所述掩码图像进行特征融合,直至所述权值达到设定阈值,得到所述融合特征图。
在其中一个实施例中,针对所述待处理图像的图像处理过程是调用图像处理模型实现的,所述图像处理模型是经过训练的、具有对所述待处理图像进行图像处理能力的机器学习模型。
在其中一个实施例中,图像处理模型包括检测模型、特征提取模块和注意力模块;所述图像处理模型的训练过程通过以下步骤实现:获取训练集;所述训练集包括多个训练图像,所述训练图像是包含不同冗余标记的图像;将所述训练集中的当前训练图像输入所述机器学习模型进行训练,得到损失值;若所述损失值满足收敛条件,则完成训练,得到所述图像处理模型;否则,更新所述机器学习模型的模型参数,并获取训练集中的其他训练图像输入所述机器学习模型继续训练,直至所述损失值满足所述收敛条件。
根据本发明的一个方面,一种图像处理装置,所述装置包括:图像分割模块,用于获取待处理图像,对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像;所述分割图像用于指示所述待处理图像中的待处理区域;所述待处理区域包含待去除的冗余标记;掩码获取模块,用于对所述分割图像进行图像处理得到掩码图像;所述掩码图像中的待处理区域与所述分割图像中的待处理区域对应;图像处理模块,用于利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像;结果获取模块,用于将所述输出图像与所述待处理图像进行图像融合,得到完成所述冗余标记去除的结果图像。
根据本发明的一个方面,一种电子设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器上存储有计算机可读指令;所述计算机可读指令被一个或多个所述处理器执行,使得电子设备实现如上所述的图像处理方法。
根据本发明的一个方面,一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的图像处理方法。
根据本发明的一个方面,一种计算机程序产品,计算机程序产品包括计算机可读指令,计算机可读指令存储在存储介质中,电子设备的一个或多个处理器从存储介质读取计算机可读指令,加载并执行该计算机可读指令,使得电子设备实现如上所述的图像处理方法。
本发明提供的技术方案带来的有益效果是:
在上述技术方案中,首先获取待处理图像,然后对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像,再对分割图像进行图像处理得到掩码图像,然后利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,那么,就能根据印章的位置通过掩码图像和深度学习的手段得到高质量的输出图像,同时通过注意力机制能提高去除印章的强度,最后将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像,因此,本发明既操作简单,又能保证图像处理的效果和结果图像的质量,从而能够有效地解决相关技术中存在的操作复杂,图像处理效果差的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种图像处理方法的流程图;
图3是图2对应实施例中训练扩散模块的流程图;
图4是图2对应实施例中得到彩色视频的示意图;
图5是根据一应用场景中一种图像处理方法的流程示意图;
图6是根据一应用场景中一种图像处理方法的的示意图;
图7是根据一应用场景中一种图像处理方法的结果示意图;
图8是根据一示例性实施例示出的一种图像处理装置的框图;
图9是根据一示例性实施例示出的一种电子设备的硬件结构图;
图10是根据一示例性实施例示出的一种电子设备的框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本公开的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
深度学习技术:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络就是一种深度的监督学习下的机器学习模型。
现有技术中基于生成式对抗网络的印章消除方法采用了两个独立的分类器来取代原本的判别网络,并且结合ResNet和Unet两种结构构建下采样-精炼-上采样的生成网络,生成图像。
然而,该方法只能针对有印章的局部区域进行处理,无法做到整张图输入自动检测出印章位置进行处理,整张图处理的效果非常差,网络训练过程极不稳定,训练调参步骤多,操作繁琐,且得到的去印章效果较差。
由上可知,相关技术中仍存在操作复杂,图像处理效果差的缺陷。
为此,本发明提供一种图像处理方法,操作简单且图像处理效果好,该图像处理方法适用于文档处理设备中,该文档处理设备可以通过图像采集设备和图像处理设备集成的电子设备来实现。该电子设备例如智能手机、台式电脑、笔记本电脑、服务器等等。本发明实施例中的图像处理方法可以应用于多种场景中,例如合同比对、文档处理等。
图1为一种图像处理方法所涉及的一种实施环境的示意图。需要说明的是,该种实施环境只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。
该实施环境包括采集端110和服务端130。
具体地,采集端110,可以认为是图像采集设备,包括但不限于摄像头、相机、摄录机等具有拍摄功能的电子设备,也可以认为是图像采集和处理一体化的设备,包括但不限于配置了摄像头的笔记本电脑等兼具拍摄功能和图像处理功能的电子设备。
服务端130,也可以认为是图像处理设备,包括但不限于智能手机、台式电脑、笔记本电脑、服务器等具有图像处理功能的电子设备,还可以是由多台服务器构成的计算机集群,甚至是由多台服务器构成的云计算中心。其中,服务端130用于提供后台服务,例如,后台服务包括但不限于图像处理服务等等。
服务端130与采集端110之间通过有线或者无线等方式预先建立网络通信连接,并通过该网络通信连接实现服务端130与采集端110之间的数据传输。传输的数据包括但不限于:待处理图像等等。
在一应用场景中,采集端110同时具备图像采集功能和图像处理功能,在采集端110采集得到待处理图像后即调用图像处理服务,对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像,再对分割图像进行图像处理得到掩码图像,然后利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,最后将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像,解决了相关技术中存在的操作复杂,图像处理效果差的问题。
当然,在其他应用场景中,也可以通过采集端110与服务端130的交互,实现图像处理。
在另一应用场景中,通过采集端110与服务端130的交互,采集端110采集得到待处理图像,并将该待处理图像上传至服务端130,以请求服务端130提供图像处理服务。
此时,对于服务端130而言,在接收到采集端110上传的待处理图像之后,便调用图像处理服务,对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像,再对分割图像进行图像处理得到掩码图像,然后利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,最后将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像,以此来解决相关技术中存在的操作复杂,图像处理效果差的问题。
请参阅图2,本发明实施例提供了一种图像处理方法,该方法适用于电子设备,例如,该电子设备可以是配置了摄像头的笔记本电脑等兼具拍摄功能和图像处理功能的电子设备,也可以是智能手机、台式电脑、笔记本电脑、服务器等具有图像处理功能的电子设备等。
在下述方法实施例中,为了便于描述,以该方法各步骤的执行主体为电子设备为例进行说明,但是并非对此构成具体限定。
如图2所示,该方法可以包括以下步骤:
步骤210,获取待处理图像,对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像。
其中,分割图像用于指示待处理图像中的待处理区域,待处理区域包含待去除的冗余标记。本实施例中,冗余标记可以是印章,当然,在其他实施例中,冗余标记还可以是水印等,此处并非构成具体限定。
在一个可能的实现方式,对待处理图像进行位置检测和图像分割是通过检测模型实现的,该检测模型是经过训练的、具有对待处理图像中的待处理区域进行位置检测和图像分割能力的机器学习模型。具体地,通过已训练的检测模型,对待处理区域在待处理图像的位置进行检测,得到待处理图像中待处理区域的位置信息;根据位置信息对待处理图像中的待处理区域进行图像分割,得到待处理图像的分割图像。此种方式下,便能够实现自动检测整张图的印章,并自动提取出印章部分进行处理,因此本发明可以接受任何尺寸、分辨率的图像,解决了现有技术只能人工输入印章区域的问题。
在一个可能的实现方式,待处理图像是通过图像采集设备对当前环境进行拍摄和采集得到的。其中,图像采集设备可以是具备图像采集功能的电子设备,例如,配置摄像头的智能手机、笔记本电脑等等。
可以理解,拍摄可以是单次拍摄,还可以是连续性拍摄,那么,对于连续性拍摄而言,可以得到一段视频,则图像可以是该视频中的任意一帧画面,而就多次拍摄来说,可以得到多张照片,则图像可以是该多张照片中的任意一张照片。换而言之,本实施例中的图像可以来自于动态图像,例如一段视频中的多帧画面、或者多张照片,还可以来自于静态图像,例如一段视频中的任意一帧画面、或者多张照片中的任意一张照片,相应地,本实施例中的图像处理可以以帧为单位进行。
步骤230,对分割图像进行图像处理得到掩码图像。
其中,掩码图像与分割图像相互对应,掩码图像用于通过相反的像素值区分感兴趣区域和非感兴趣区域,与掩码图像图进行运算后,得到的图像中将只留下非感兴趣区域,例如,待去除的印章部分是感兴趣区域,其他部分是非感兴趣区域,因此,通过与掩码图像进行运算的方式能够去除印章部分。
在一个可能的实现方式,步骤230包括以下步骤:
步骤S1,在分割图像中对所述待处理区域的轮廓进行筛选,得到待处理区域的轮廓在分割图像中的位置。
步骤S2,根据轮廓在分割图像中的位置对待处理图像进行图像反相处理,得到掩码图像。
其中,反相是指将图像的颜色色相反转,图像是由一个个像素组成的,而每一个像素都会有一个RGB颜色值,例如某像素,其RGB数值为115、220、120,那么该像素的反相颜色RGB是110、5、105,即一个像素或者整张图片的反相颜色,就是225减去原图的RGB数值。
本实施例中,通过获取掩码图像获取冗余标记的反相图,从而初步保证消除冗余标记的准确性。
步骤250,利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,得到输出图像。
具体而言,如图3所示,步骤250可以包括以下步骤:
步骤310,通过深度学习算法对分割图像进行多级特征提取,得到中间特征图。
在一个可能的实现方式,通过深度学习算法对分割图像进行多级特征提取,可以通过图像处理模型中的特征提取模块实现的。
步骤330,通过注意力机制,将掩码图像与中间特征图进行多级特征融合得到融合特征图。
在一个可能的实现方式,通过注意力机制将掩码图像与中间特征图进行多级特征融合得到融合特征图,可以通过图像处理模型中的注意力模块实现。
步骤350,通过深度学习算法,对融合特征图进行多级特征提取,得到输出特征图。
在一个可能的实现方式,通过深度学习算法对融合特征图进行多级特征提取得到输出特征图,也可以通过图像处理模型中的特征提取模块实现。
值得一提的是,前述用于对待处理图像进行位置检测和图像分割得到待处理图像的分割图像,可以通过图像处理模型中完成训练的检测模型实现。
其中,图像处理模型是经过训练的、具有对待处理图像进行图像处理能力的机器学习模型,其中,机器学习模块包括但不限于卷积神经网络、递归神经网络和生成对抗网络。图像处理模型的训练过程可以包括以下步骤:
步骤a1,获取训练集。
其中,训练集包括多个训练图像,训练图像是包含不同冗余标记的图像。
步骤a2,将训练集中的当前训练图像输入机器学习模型模型进行训练,得到损失值。
步骤a3,若损失值满足收敛条件,则完成训练,得到图像处理模型。
步骤a4,若损失值不满足收敛条件,则更新机器学习模型的模型参数,并获取训练集中的其他训练图像对输入机器学习模型继续训练。
直至损失值满足收敛条件,存储机器学习模型的模型参数,得到完成训练的图像处理模型,此时,该图像处理模型便能够对待处理图像进行图像处理能力,以将待处理图像处理得到完成冗余标记去除的结果图像。
通过训练机器学习模型,得到了包括检测模型、特征提取模块和注意力模块的图像处理模型,解决了处理整张包含印章的文档图片效果不好的问题,降低了对训练和所需的数据集的要求,不需要进行位置标注,一切预操作部分都无需标注,调用程序生成即可,训练简单、稳定,无需繁琐的调参的过程,对于任意尺寸输入图像都有较好的印章去除效果,且模型训练过程简单、稳定。
步骤370,对输出特征图进行区域位置预测,得到输出图像。
其中,输出图像是指去除了印章区域的分割图像,是通过将分割图像与掩膜图像进行特征提取对分割图像中的非印章区域进行区域位置预测,保留了分割图像中的非印章区域,去除了分割图像中的印章区域,进而得到了输出图像。
通过此种方式,通过将掩码图像与深度学习算法和注意力机制结合的手段得到了高质量的输出图像,既操作简单,又能保证图像处理的效果和结果图像的质量,从而能够有效地解决相关技术中存在的操作复杂,图像处理效果差的问题。
步骤270,将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像。
在得到去除了印章区域的输出图像后,将其与待处理图像融合后,便能够将去除了印章的部分与原待处理图像中不含印章的部分进行融合,进而得到去除了冗余标记的结果图像。
通过上述过程,本发明实施例通过获取待处理图像,然后对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像,再对分割图像进行图像处理得到掩码图像,然后利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,那么,就能根据印章的位置通过掩码图像和深度学习的手段得到高质量的输出图像,同时通过注意力机制能提高去除印章的强度,最后将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像,因此,本发明既操作简单,又能保证图像处理的效果和结果图像的质量,从而能够有效地解决相关技术中存在的操作复杂,图像处理效果差的问题。
请参阅图4,在一示例性实施例中,步骤330可以包括以下步骤:
步骤410,将当前一级中间特征图作为键值K,并将掩码图像作为查询值Q。
步骤430,根据键值K和查询值Q对掩码图像与中间特征图进行注意力计算得到第一特征图。
步骤450,对中间特征图进行计算得到权值V,并根据权值V对第一特征图加权计算,得到第二特征图。
步骤470,将第一特征图和第二特征图进行融合处理,得到后一级中间特征图。
具体地,如图5所示,Fl―1表示上一层输出的特征,将当前一级中间特征图作为键值K,将掩码图像作为查询值Q,根据键值K和查询值Q分别对分割图像和掩码图像进行点积运算,再对二者的运算结果进行通用运算得到第一特征图,根据当前一级的中间特征图得到权值V,根据权值V对第一特征图进行点积加权计算,得到第二特征图,将第一特征图与第二特征图进行相加运算的融合处理,得到后一级中间特征图。
步骤490,继续对后一级中间特征图与掩码图像进行特征融合,直至权值达到设定阈值,得到融合特征图。
具体地,首先将当前一级中间特征图作为键值K,并将掩码图像作为查询值Q,然后根据键值K和查询值Q对掩码图像与中间特征图进行注意力计算得到第一特征图,再对中间特征图进行计算得到权值V,并根据权值V对第一特征图加权计算,得到第二特征图,将第一特征图和第二特征图进行融合处理,得到后一级中间特征图,最后继续对后一级中间特征图与掩码图像进行特征融合,直至特征融合到模型的最后一级,即得到融合特征图。
通过上述过程,本发明实施例通过深度学习算法和注意力机制对分割图像和掩码图像进行多层特征提取,那么,就能尽量保留待处理图像中非印章区域的图像特征得到高质量的输出图像,进一步通过注意力机制提高去除印章的强度,最后将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像,从而能够有效地提高图像处理的效果,解决了相关技术中存在的图像处理效果差的问题。
图6至图7是一应用场景中一种图像处理方法的示意图,在该应用场景中,需要进行图像处理的可以是笔记本电脑等电子设备。
在图6中,首先获取待处理图像Document with Seal,然后通过检测模型SealDetector对待处理图像进行位置检测和图像分割,其中,通过目标图像GT SealSegmentation对检测模型进行监督得到Loss,使得检测模型收敛得到输出结果SealSegmentation,对检测模型的输出结果Seal Segmentation进行剪切Crop得到掩码图像Mask,进行探测Detect得到分割图像Seal Area,通过特征提取模块Feature Extraction对分割图像Seal Area进行特征提取,再通过注意力模块Seal2Removal-attention加入掩膜图像Mask进行注意力计算,然后再通过特征提取模块Feature Extraction对注意力计算的结果进行特征提取得到去除冗余标记的输出图像Seal Removal Results,其中,通过目标结果图像GT Seal Removal Results对图像处理模型进行监督得到Loss,得到更加准确的输出图像Seal Removal Results,最后将输出图像Seal Removal Results与待处理图像Document with Seal进行融合Fusion得到完成冗余标记去除的结果图像。
图7展示了本发明实施例去印章的效果,从去除的痕迹、细节的保留等方面,均表现出了杰出的性能。
在上述应用场景中,实现了既操作简单,又能保证图像处理的效果和结果图像的质量的图像处理,从而能够有效地解决相关技术中存在的操作复杂,图像处理效果差的问题。
下述为本发明装置实施例,可以用于执行本发明所涉及的图像处理方法。对于本发明装置实施例中未披露的细节,请参照本发明所涉及的图像处理方法的方法实施例。
请参阅图8,本发明实施例中提供了一种图像处理装置800。
所述装置800包括但不限于:图像分割模块810、掩码获取模块830、图像处理模块850及结果获取模块870。
其中,图像分割模块810,用于获取待处理图像,对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像;分割图像用于指示待处理图像中的待处理区域;待处理区域包含待去除的冗余标记;
掩码获取模块830,用于对分割图像进行图像处理得到掩码图像;掩码图像中的待处理区域与分割图像中的待处理区域对应;
图像处理模块850,用于利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,得到输出图像;
结果获取模块870,用于将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像。
需要说明的是,上述实施例所提供的图像处理在进行图像处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即图像处理装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的图像处理装置与图像处理方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
图9根据一示例性实施例示出的一种电子设备的结构示意。该电子设备适用于图1所示出实施环境中的采集端110。
需要说明的是,该电子设备只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图9示出的示例性的电子设备2000中的一个或者多个组件。
电子设备2000的硬件结构可因配置或者性能的不同而产生较大的差异,如图9所示,电子设备2000包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。
具体地,电源210用于为电子设备2000上的各硬件设备提供工作电压。
接口230包括至少一有线或无线网络接口231,用于与外部设备交互。例如,进行图1所示出实施环境中采集端110和服务端130之间的交互。
当然,在其余本发明适配的示例中,接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等,如图9所示,在此并非对此构成具体限定。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。
其中,操作系统251用于管理与控制电子设备2000上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。
应用程序253是基于操作系统251之上完成至少一项特定工作的计算机可读指令,其可以包括至少一模块(图9未示出),每个模块都可以分别包含有对电子设备2000的计算机可读指令。例如,图像处理装置可视为部署于电子设备2000的应用程序253。
数据255可以是存储于磁盘中的照片、图片等,还可以是图像处理模型参数等,存储于存储器250中。
中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机可读指令,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成图像处理方法。
此外,通过硬件电路或者硬件电路结合软件也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图10,本发明实施例中提供了一种电子设备4000,该电子设备400可以包括:具有图像采集功能的图像采集设备等。
在图10中,该电子设备4000包括至少一个处理器4001以及至少一个存储器4003。
其中,处理器4001和存储器4003之间的数据交互,可以通过至少一个通信总线4002实现。该通信总线4002可包括一通路,用于在处理器4001和存储器4003之间传输数据。通信总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本发明实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序指令或代码并能够由电子设备400存取的任何其他介质,但不限于此。
存储器4003上存储有计算机可读指令,处理器4001可以通过通信总线4002读取存储器4003中存储的计算机可读指令。
该计算机可读指令被一个或多个处理器4001执行以实现上述各实施例中的图像处理方法。
此外,本发明实施例中提供了一种存储介质,该存储介质上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的图像处理方法。
本发明实施例中提供了一种计算机程序产品,计算机程序产品包括计算机可读指令,计算机可读指令存储在存储介质中,电子设备的一个或多个处理器从存储介质读取计算机可读指令,加载并执行该计算机可读指令,使得电子设备实现如上所述的图像处理方法。
与相关技术相比,本发明的有益效果是:
1.本发明通过首先获取待处理图像,然后对待处理图像进行位置检测和图像分割,得到待处理图像的分割图像,再对分割图像进行图像处理得到掩码图像,然后利用深度学习算法和注意力机制对分割图像和掩码图像进行特征提取,那么,就能根据印章的位置通过掩码图像和深度学习的手段得到高质量的输出图像,同时通过注意力机制能提高去除印章的强度,最后将输出图像与待处理图像进行图像融合,得到完成冗余标记去除的结果图像,因此,本发明既操作简单,又能保证图像处理的效果和结果图像的质量,从而能够有效地解决相关技术中存在的操作复杂,图像处理效果差的问题。
2.本发明提供了一种包含检测印章位置与印章去除的算法,无需高质量的数据集、印章标注等问题,对于任意尺寸输入图像都有较好的印章去除效果,且模型训练过程简单、稳定。
3.本发明解决了处理整张包含印章的文档图片效果不好的问题,降低了对训练和所需的数据集的要求,不需要进行位置标注,一切预操作部分都无需标注,调用程序生成即可,训练简单、稳定,无需繁琐的调参的过程;改进了去印章的效果,从去除的痕迹、细节的保留等方面,均表现出了杰出的性能。
4.本发明实现了任意尺寸图片输入均能去除印章,可以自动的检测整张图的印章,并自动提取出印章部分进行处理,因此可以接受任何尺寸、分辨率的图像,解决了现有技术中只能输入印章区域输入的问题。
5.本发明应用场景广泛。数字文档处理:许多文档(如合同、证明文件等)通常需要盖章,本发明可以应用于扫描或拍摄的文档图像,去除印章并恢复文档的原貌;历史文献研究:在研究历史文献或古籍时,本发明可以帮助学者还原文本,以便更好地阅读和解析内容;数字图像修复:、本发明可以用于修复老照片或图像,恢复原始内容,提升图像质量;反盗版应用:在数字媒体领域,如电子书、数字音乐或电影等,保护版权是重要的。有些数字内容可能会附加水印或标识,以防止盗版或非授权传播,本发明可以帮助合法用户去除水印,以方便个人使用。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像,对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像;所述分割图像用于指示所述待处理图像中的待处理区域;所述待处理区域包含待去除的冗余标记;
对所述分割图像进行图像处理得到掩码图像;所述掩码图像中的待处理区域与所述分割图像中的待处理区域对应;
利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像;
将所述输出图像与所述待处理图像进行图像融合,得到完成所述冗余标记去除的结果图像。
2.如权利要求1所述的方法,其特征在于,所述对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像,包括:
通过已训练的检测模型,对所述待处理区域在所述待处理图像的位置进行检测,得到所述待处理图像中待处理区域的位置信息;
根据所述位置信息对所述待处理图像中的待处理区域进行图像分割,得到所述待处理图像的分割图像。
3.如权利要求1所述的方法,其特征在于,所述对所述分割图像进行图像处理得到掩码图像,包括:
在所述分割图像中对所述待处理区域的轮廓进行筛选,得到所述待处理区域的轮廓在所述分割图像中的位置;
根据所述轮廓在所述分割图像中的位置对所述待处理图像进行图像反相处理,得到所述掩码图像。
4.如权利要求1所述的方法,其特征在于,所述利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像,包括:
通过所述深度学习算法对所述分割图像进行多级特征提取,得到中间特征图;
通过所述注意力机制,将所述掩码图像与所述中间特征图进行多级特征融合,得到融合特征图;
通过所述深度学习算法,对所述融合特征图进行多级特征提取,得到输出特征图;
对所述输出特征图进行区域位置预测,得到所述输出图像。
5.如权利要求4所述的方法,其特征在于,所述通过所述注意力机制,将所述掩码图像与所述中间特征图进行多级特征融合,得到融合特征图,包括:
将当前一级所述中间特征图作为键值K,并将所述掩码图像作为查询值Q;
根据所述键值K和查询值Q对所述掩码图像与所述中间特征图进行注意力计算,得到第一特征图;
对所述中间特征图进行计算得到权值V,并根据所述权值V对所述第一特征图加权计算,得到第二特征图;
将所述第一特征图和第二特征图进行融合处理,得到后一级中间特征图;
继续对所述后一级中间特征图与所述掩码图像进行特征融合,直至所述权值达到设定阈值,得到所述融合特征图。
6.如权利要求1至5任一项所述的方法,其特征在于,针对所述待处理图像的图像处理过程是调用图像处理模型实现的,所述图像处理模型是经过训练的、具有对所述待处理图像进行图像处理能力的机器学习模型。
7.如权利要求6所述的方法,其特征在于,所述图像处理模型包括检测模型、特征提取模块和注意力模块;
所述图像处理模型的训练过程包括:
获取训练集;所述训练集包括多个训练图像,所述训练图像是包含不同冗余标记的图像;
将所述训练集中的当前训练图像输入所述机器学习模型进行训练,得到损失值;
若所述损失值满足收敛条件,则完成训练,得到所述图像处理模型;否则,更新所述机器学习模型的模型参数,并获取训练集中的其他训练图像输入所述机器学习模型继续训练,直至所述损失值满足所述收敛条件。
8.一种图像处理装置,其特征在于,所述装置包括:
图像分割模块,用于获取待处理图像,对所述待处理图像进行位置检测和图像分割,得到所述待处理图像的分割图像;所述分割图像用于指示所述待处理图像中的待处理区域;所述待处理区域包含待去除的冗余标记;
掩码获取模块,用于对所述分割图像进行图像处理得到掩码图像;所述掩码图像中的待处理区域与所述分割图像中的待处理区域对应;
图像处理模块,用于利用深度学习算法和注意力机制对所述分割图像和掩码图像进行特征提取,得到输出图像;
结果获取模块,用于将所述输出图像与所述待处理图像进行图像融合,得到完成所述冗余标记去除的结果图像。
9.一种电子设备,其特征在于,包括:至少一个处理器以及至少一个存储器,其中,
所述存储器上存储有计算机可读指令;
所述计算机可读指令被一个或多个所述处理器执行,使得电子设备实现如权利要求1至7中任一项所述的图像处理方法。
10.一种存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行,以实现如权利要求1至7中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199408.1A CN117372449A (zh) | 2023-09-15 | 2023-09-15 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199408.1A CN117372449A (zh) | 2023-09-15 | 2023-09-15 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117372449A true CN117372449A (zh) | 2024-01-09 |
Family
ID=89399218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311199408.1A Pending CN117372449A (zh) | 2023-09-15 | 2023-09-15 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372449A (zh) |
-
2023
- 2023-09-15 CN CN202311199408.1A patent/CN117372449A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493350B (zh) | 人像分割方法及装置 | |
Li et al. | PDR-Net: Perception-inspired single image dehazing network with refinement | |
CN108694705B (zh) | 一种多帧图像配准与融合去噪的方法 | |
CN112602088B (zh) | 提高弱光图像的质量的方法、系统和计算机可读介质 | |
US20210166015A1 (en) | Certificate image extraction method and terminal device | |
CN111028177A (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
US20030179935A1 (en) | Image processing apparatus, image processing method, image processing program, and computer-readable record medium storing image processing program | |
Xiao et al. | Single image dehazing based on learning of haze layers | |
Liu et al. | PD-GAN: perceptual-details gan for extremely noisy low light image enhancement | |
CN106503112B (zh) | 视频检索方法和装置 | |
CN117095019B (zh) | 一种图像分割方法及相关装置 | |
CN111932462B (zh) | 图像降质模型的训练方法、装置和电子设备、存储介质 | |
US20220398704A1 (en) | Intelligent Portrait Photography Enhancement System | |
CN113902647A (zh) | 一种基于双闭环网络的图像去模糊方法 | |
CN116485944A (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
US12051225B2 (en) | Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder | |
Gao et al. | Real-time image enhancement with attention aggregation | |
CN111079624B (zh) | 一种样本信息采集的方法、装置、电子设备以及介质 | |
Zeng et al. | \mathrm 3D^ 2Unet 3 D 2 U net: 3D Deformable Unet for Low-Light Video Enhancement | |
CN117409057A (zh) | 全景图深度估计方法、设备及介质 | |
Hua et al. | Image super resolution using fractal coding and residual network | |
CN117372449A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Pinjarkar et al. | Robust exemplar-based image and video inpainting for object removal and region filling | |
CN115311145A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN114519678A (zh) | 一种扫描透射图像恢复方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |