CN116958184A - 图片处理方法、装置、电子设备及存储介质 - Google Patents
图片处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116958184A CN116958184A CN202211528059.9A CN202211528059A CN116958184A CN 116958184 A CN116958184 A CN 116958184A CN 202211528059 A CN202211528059 A CN 202211528059A CN 116958184 A CN116958184 A CN 116958184A
- Authority
- CN
- China
- Prior art keywords
- picture
- pictures
- receptive field
- receptive
- pixel point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000009792 diffusion process Methods 0.000 claims abstract description 157
- 230000000295 complement effect Effects 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 239000011800 void material Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 35
- 230000006870 function Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 239000011521 glass Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图片处理方法、装置、电子设备及存储介质,该方法包括:对待分割图片进行特征提取,得到特征图片;基于特征图片的前景区域内各像素点与前景区域边缘之间的距离值,生成扩散图与互补扩散图;从多个感受野对特征图片进行特征提取,得到多个感受野图片;基于扩散图与互补扩散图对特征图片进行针对多个感受野的监督学习,得到多个感受野图片各自对应的加权系数;基于多个感受野图片以及多个感受野图片各自对应的加权系数,对待分割图片中含有的透明物体进行分割。本申请实施例的技术方案通过自适应感受野学习,进行透明物体分割,提高透明物体分割的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种图片处理方法、装置、电子设备及存储介质。
背景技术
透明物体检测分割在机器人、视觉导航、自动驾驶等领域,有着极高的应用价值。日常生活中,透明物体如玻璃橱窗、玻璃易碎品等随处可见,由于这些物体本身的透明特性,导致与周围背景难以分辨,甚至在一些场景中,于人眼也不容易区分。
计算机视觉检测分割技术能实现自动对待分割图片的透明物体分割,当前,计算机视觉检测分割技术多数还是基于通用的语义分割方案进行调整,没有考虑到透明物体独有的一些特点,如透明、反光等特征,从而容易发生分割不完整等问题,或是透明物体定位错误等问题,导致透明物体分割精度受限。
发明内容
为解决上述技术问题,本申请的实施例提供了一种图片处理方法及装置、电子设备、计算机可读存储介质、计算机程序产品。
根据本申请实施例的一个方面,提供了一种图片处理方法,包括:对待分割图片进行特征提取,得到特征图片;基于所述特征图片的前景区域内各像素点与所述前景区域边缘之间的距离值,生成扩散图与互补扩散图;从多个感受野对所述特征图片进行特征提取,得到多个感受野图片;基于所述扩散图与所述互补扩散图对所述特征图片进行针对所述多个感受野的监督学习,得到所述多个感受野图片各自对应的加权系数;基于所述多个感受野图片以及所述多个感受野图片各自对应的加权系数,对所述待分割图片中含有的透明物体进行分割。
根据本申请实施例的一个方面,提供了一种图片处理装置,包括:特征提取模块,配置为对待分割图片进行特征提取,得到特征图片;扩散图获取模块,配置为基于所述特征图片的前景区域内各像素点与所述前景区域边缘之间的距离值,生成扩散图与互补扩散图;感受野特征提取模块,配置为从多个感受野对所述特征图片进行特征提取,得到多个感受野图片;加权系数获取模块,配置为基于所述扩散图与所述互补扩散图对所述特征图片进行针对所述多个感受野的监督学习,得到所述多个感受野图片各自对应的加权系数;透明物体分割模块,配置为基于所述多个感受野图片以及所述多个感受野图片各自对应的加权系数,对所述待分割图片中含有的透明物体进行分割。
在一实施例中,基于前述方案,扩散图获取模块,包括:二值化处理单元,配置为对所述特征图片的前景区域和背景区域分别进行二值化处理,得到二值化图片;像素点获取单元,配置为获取所述前景区域含有的第一像素点与所述前景区域边缘对应的第二像素点;目标距离值单元,配置为计算所述第一像素点与所述第二像素点之间的目标距离值;扩散图获取单元,配置为基于所述目标距离值与所述二值化图片,生成所述扩散图与所述互补扩散图。
在一实施例中,基于前述方案,所述第一像素点和所述第二像素点均为多个;目标距离值单元,包括:像素点坐标获取板块,配置为获取多个第一像素点的坐标与多个第二像素点的坐标;距离值获取板块,配置为针对每个第一像素点,基于所述第一像素点的坐标与各个第二像素点的坐标,计算所述第一像素点分别与各个第二像素点之间的距离值,得到所述第一像素点对应的多个距离值;目标距离值获取板块,配置为从所述第一像素点对应的多个距离值中选取数值最小的距离值,并将所选取的距离值作为所述第一像素点与所述第二像素点之间的目标距离值。
在一实施例中,基于前述方案,扩散图获取单元,包括:归一化处理板块,配置为对所述目标距离值进行归一化处理;扩散图生成板块,配置为基于归一化处理后的目标距离值与所述二值化图片生成所述扩散图;互补距离值获取板块,配置为获取归一化处理后的目标距离值对应的互补距离值;其中,所述互补距离值与对应归一化处理后的目标距离值之和为预设数值;互补扩散图生成板块,配置为基于所述互补距离值与所述二值化图片生成所述互补扩散图。
在一实施例中,基于前述方案,所述多个感受野包括全局池化感受野以及不同空洞率的空洞卷积感受野;感受野特征提取模块,包括:全局图片获取单元,配置为对所述特征图片进行全局池化处理,得到全局池化感受野所对应的全局图片;卷积图片获取单元,配置为基于不同空洞率的空洞卷积对所述特征图片进行卷积处理,得到不同空洞率的空洞卷积感受野的多个卷积图片;感受野图片获取单元,配置为将所述全局图片和所述多个卷积图片作为所述多个感受野图片。
在一实施例中,基于前述方案,加权系数获取模块,包括:置信图获取单元,配置为基于所述扩散图与所述互补扩散图,分别监督学习所述多个感受野下的所述特征图片内不同位置的置信度,得到所述多个感受野各自对应的置信图;加权系数获取单元,配置为基于所述多个感受野各自对应的置信图,生成所述多个感受野图片各自对应的加权系数。
在一实施例中,基于前述方案,透明物体分割模块,包括:图片拼接单元,配置为将所述多个感受野图片进行拼接处理,得到拼接图片;加权处理单元,配置为基于所述多个感受野图片各自对应的加权系数对所述拼接图片进行加权处理,得到目标拼接图片;透明物体分割单元,配置为基于所述目标拼接图片对所述待分割图片的透明物体进行预测,并对所预测出的透明物体进行分割。
在一实施例中,基于前述方案,特征提取模块,包括:粗粒度特征提取单元,配置为对所述待分割图片进行粗粒度特征提取,得到初始图片;卷积单元,配置为基于多个残差块对所述初始图片分别进行卷积处理和空洞卷积处理,得到所述特征图片。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的图片处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的图片处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的图片处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的图片处理方法中的步骤。
在本申请的实施例所提供的技术方案中,通过前景区域的像素点与前景区域边缘之间的距离来确定扩散图与互补扩散图,使得该扩散图与互补扩散图能清晰的表达待分割图片中透明物体内部感受野的变化,并通过扩散图与互补扩散图所表征的透明物体内部感受野的变化调整对不同感受野特征的加权系数,从而使得根据不同的待分割图片自适应调整感受野,以此提高透明物体分割的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是本申请的一示例性实施例示出的图片处理方法的流程图;
图3是本申请的一示例性实施例示出的图片处理模型的结构示意图;
图4是本申请的一示例性实施例示出的残差网络的结构示意图;
图5是图2所示实施例中的步骤S230在一示例性实施例中的流程图;
图6是本申请的一示例性实施例示出的待分割图片的结构示意图;
图7是本申请的一示例性实施例示出的二值化图片的结构示意图;
图8是本申请的一示例性实施例示出的扩散图的结构示意图;
图9是本申请的一示例性实施例示出的互补扩散图的结构示意图;
图10图2所示实施例中的步骤S250在一示例性实施例中的流程图;
图11图2所示实施例中的步骤S270在一示例性实施例中的流程图;
图12是本申请的一示例性实施例示出的应用图片处理方法的流程示意图;
图13是本申请的一示例性实施例示出的图片处理装置的结构示意图;
图14是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
可以理解的是,在本申请的具体实施方式中,涉及到图片以及图片中所表征的相关数据,当本申请以上实施例将该信息运用到具体产品或技术中时,需要获得用户许可或者同意,且相关信息的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
技术词语说明:
感受野(Receptive Field):卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域。
图像分割:图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程,透明物体分割则是提取图片中透明的区域。
前景区域:在图像分割中,待分割图片的待提取目标区域。
背景区域:在图像分割中,待分割图片除待提取目标区域外的其他区域。
残差网络(Res Net):一种卷积神经网络,其内部的残差块使用了跳跃连接,旨在改善训练极深网络时的退化问题,同时又具有集成模型带来优势,可用于图像分类和物体识别等方向,在机器翻译,语音合成的领域也发挥着广泛的作用。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
透明物体检测分割在一些领域拥有极高的应价值,但由于透明物体本身缺少纹理细节信息,其分割检测一般有以下几个难点:一是透明特性导致能直接看到物体背后的背景,从而与物体周边的背景区域难以区分,面积越大的透明物体对该问题越敏感;二是透明物体的边界较窄,难以进行识别或者准确定位,与第一点一起使得透明物体的分割变得极具挑战性;三是存在反光倒影等问题,容易出现分割不完整的情况。
针对以上问题,相关领域的解决方案主要集中在尝试利用边缘和上下文信息进行辅助判别等方面,虽取得了一定的效果,但针对透明物体分割的研究还并不多,多数还是基于通用的语义分割方案进行调整,没有考虑到透明物体独有的一些特点,从而容易发生分割不完整等问题,导致分割精度受限。
少数已有研究集中在利用边缘信息辅助透明区域分割等方面,它们认为边缘轮廓信息可以更好地对透明区域进行定位,同时边缘点具有的结构信息有利于整个透明物体区域的界定,除此之外由于边缘本身特征会更明显,因而更容易检测。然而,由于边缘点本身较为稀少,因此对模型训练和预测都有挑战,边缘预测的精度也会影响最终分割的精度。其它方法则尝试聚合更多上下文信息来辅助分割,但此类方法忽略了边缘的精准定位与透明物体区域分割之间对感受野大小需求间的矛盾,从而难以获取准确定位效果。
本实施例中提出的图片处理方法使用了自适应感受野的思路,通过隐式地学习不同区域对不同感受野特征的依赖程度,来动态地调整不同感受野特征的比例,为了能获取透明物体内部的相对位置信息,还使用扩散图来进行辅助监督,从而使得感受野的选择能与当前位置距离边缘的远近程度相关联以此提高透明物体检测的精确性,以下对图片处理方案进行具体介绍说明。
首先请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器端200,终端100和服务器端200之间通过有线或者无线网络进行通信。
当然,图1中的服务器端200的数量仅是示例性的,在其他实施例中还可以是其他数量的服务器端200,本实施例中,终端100可用于确定待分割图片,该待分割图片需进行透明物体分割,即预测出待分割图片中的透明物体部分。
终端100还将待分割图片发送至服务器端200,以使服务器端200基于对象的待预测特征数据对该待分割图片进行图片处理,得到图片处理结果,即预测得到的透明物体部分,服务器端200还将图片处理结果返回至终端100,通过终端100自带的可视化模块进行展示。
示例性的,终端100在得到待分割图片后,终端100将待分割图片发送至服务器端200,服务器端200对待分割图片进行处理,具体地,对待分割图片进行特征提取,得到特征图片;基于特征图片的前景区域内各像素点与前景区域边缘之间的距离值,生成扩散图与互补扩散图;从多个感受野对特征图片进行特征提取,得到多个感受野图片;基于扩散图与互补扩散图对特征图片进行针对多个感受野的监督学习,得到多个感受野图片各自对应的加权系数;基于多个感受野图片以及多个感受野图片各自对应的加权系数,对待分割图片中含有的透明物体进行分割,最后,将图片处理结果返回至终端100,以通过终端100自带的可视化模块进行展示。
其中,终端100可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,本处不进行限制。服务器端200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,其中多个服务器可组成一区块链,而服务器为区块链上的节点,服务器端200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处也不对此进行限制。
应当说明的是,本实施例只是为了便于理解本申请的思想而提出的一种示例性实施环境,不能认为是提供给了对本申请的使用范围的任何限制。
图2是根据一示例性实施例示出的一种图片处理方法的流程图,该图片处理方法可应用于图1中的实施环境,并由图1中的服务器端200具体执行,应该理解的是,该方法也可以是用于其他的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
在一示例性实施例中,该方法可以包括步骤S210至步骤S230,详细介绍如下:
步骤S210:对待分割图片进行特征提取,得到特征图片。
待分割图片为包含有透明物体的图片,如包含有镜子、玻璃等透明物体的图片,本事实施例中的图片处理方法为将待分割图片中的透明物体进行分割,提取得到该待分割图片中的透明物体。
本实施例中,通过图片处理模型对待分割图片进行处理,该图片处理网络模型的结构可参考图3,其包括特征提取网络、感受野模块、监督学习模块以及预测模块。
该待分割图片会先输入至特征提取网络进行特征提取,得到特征图片,该特征提取网络可以是任意可进行特征提取的深度学习网络,如残差网络、卷积神经网络、递归神经网络等,此处不进行具体限制。
在一具体实施例中,通过残差网络对待分割图片进行特征提取,先对待分割图片进行粗粒度特征提取,得到初始图片;然后基于多个残差块对初始图片分别进行卷积处理和空洞卷积处理,得到特征图片。
该残差网络的结构可参考图4,待分割图片输入至残差网络,inputstem模块中包括卷积核,可通过卷积核进行粗粒度特征提取,并对待分割图片进行如降低长宽、改变分辨率等操作,inputstem中输出的初始图片会到达Stage1至Stage4中进行卷积,Stage1至Stage4均为残差块,通过重复残差块Stage1至Stage4提取初始图片的特征,本实施例中,为了提升得到的特征图片的分辨率,在stage3和stage4分别使用了空洞率为2和4的空洞卷积,从而能提升残差网络整体的特征感受野,实验证明,此种改进能有效提升模型的精度。
步骤S230:基于特征图片的前景区域内各像素点与前景区域边缘之间的距离值,生成扩散图与互补扩散图。
本实施例中,在得到特征图片后,基于该特征图片进行不同分支的处理,其中一个分支则进入扩散图生成分支,即进入监督学习模块中,生成扩散图与互补扩散图。
具体地,先将特征图片进行二值化处理,得到二值化图片,该二值化图片为黑白图片,其中前景区域即透明物体区域为白色,背景区域为黑色,随后,可通过距离变换(Distance Transformation,DT)对前景区域的每个像素点计算其距离前景区域的边缘的距离,通过各像素点对应的距离与二值化图片,即可生成扩散图与互补扩散图。
步骤S250:从多个感受野对特征图片进行特征提取,得到多个感受野图片。
在特征图片进行扩散图生成分支时,特征图片还会进入感受野模块,该感受野模块包括多个分支,不同的分支代表不同的感受野,通过多个的感受野分别对特征图片进行特征提取,可得到不同感受野的所对应的多个感受野图片,不同的感受野图片表征特征图片在不同感受野下的特征。
步骤S270:基于扩散图与互补扩散图对特征图片进行针对多个感受野的监督学习,得到多个感受野图片各自对应的加权系数。
本实施例中,扩散图与互补扩散图能清晰的表征前景区域与背景区域,因此,对于感受野模块之前的共享特征层,可基于扩散图与互补扩散图进行监督学习每个位置对于不同感受野下的加权系数。
具体地,该共享特征层即可视为特征图片,在特征图片进入监督学习模块生成扩散图与互补扩散图后,通过该扩散图与互补扩散图进行监督学习,使用卷积对特征图片中的每个位置均学习不同感受野下的归一化加权系数,预测使用softmax层作为输出,即可得到不同感受野所对应的加权系数,也即得到多个感受野图片各自对应的加权系数。
步骤S290:基于多个感受野图片以及多个感受野图片各自对应的加权系数,对待分割图片中含有的透明物体进行分割。
本实施例中,可通过监督学习模块输出的多个感受野图片各自对应的加权系数对多个感受野图片进行加权处理,如此,则得到加权后的多个感受野图片,后续,基于加权后的多个感受野图片进行透明物体预测,以完成透明物体的分割。
本实施例的图片处理方法针对包含透明物体的待分割图片,其主要分两步实现对待分割图片的前景区域的像素级分割,首先输入的待分割图片经过深度卷积网络提取特征,然后进入扩散图生成分支,该分支在推理阶段可以生成每个区域对感受野大小的依赖程度,输出扩散图与互补扩散图;并基于扩散图与互补扩散图得出对每种感受野特征的需求的比例,输出感受野的加权系数。同时,深度卷积网络提取特征在另一分支中使用具有不同感受野大小的多个分支分别进行特征抽取,然后根据扩散图生成分支得出的加权系数,对不同感受野特征进行加权处理,对每个位置得到加权后的融合特征,基于该特征对透明物体区域进行预测,扩散图生成分支在训练阶段通过额外的扩散图进行监督学习,隐式地来学习不同位置对不同感受野特征的依赖。
本实施例中提出的图片处理方法可自适应感受野进行透明物体检测分割,本实施例中,通过不同的感受野提取待分割图片的特征,并通过前景区域像素点距前景区域边缘的距离来确定扩散图与互补扩散图,该扩散图与互补扩散图能清晰的表达待分割图片中透明物体内部感受野的变化,从而后续基于扩散图与互补扩散图的引导,可以隐式地学习对透明物体内部不同位置的感知,据此调整对不同感受野特征的加权系数,从而使得感受野的选择能与当前位置距离前景区域边缘的远近程度相关联,使得感受野特征的选择更准确,以解决透明物体内部由于纹理较少导致的导致透明物体内部漏检和透明物体边缘于数量少且细小导致的透明物体边缘的误检的问题,提高透明物体分割的准确率。
图5是图2所示实施例中步骤S230在一示例性实施例中的流程图。如图5所示,在一示例性实施例中,步骤S230基于特征图片的前景区域内各像素点与前景区域边缘之间的距离值,生成扩散图与互补扩散图的过程可以包括步骤S510至步骤S570,详细介绍如下:
步骤S510:对特征图片的前景区域和背景区域分别进行二值化处理,得到二值化图片。
本实施例中,可以通过对特征图片中各像素点的掩码进行变换得到,具体地,先对特征图片进行二值化,得到二值化图片,该二值化图片为黑白图片,其中,特征图片中的背景区域内的掩码全部置为0,即在二值化图片中显示背景区域为黑色,对应地,前景区域内的掩码置为255,在二值化图片中显示前景区域为白色。
如图6,为一实施例中的待分割图片的示意图,其中透明物体为玻璃,在对待分割图片进行一系列处理后,即可得到对应的二值化图片,如图7所示,该二值化图片的非黑色区域即对应图6中的玻璃部分(当然,在进行透明物体分割时,应包括玻璃以及玻璃内的物体部分,即在待分割物体中所分割得到的透明物体的边界是透明物体的边界),即需要进行分割的目标透明物体,黑色部分为在待分割图片中,除玻璃之外的其他区域。
步骤S530:获取前景区域含有的第一像素点与前景区域边缘对应的第二像素点。
本实施例中,对于特征图片中的前景区域,或是对于二值化图片中的非黑色区域,可使用距离变化计算该前景区域(非黑色区域)中每个像素点至前景区域(非黑色区域)的边缘的距离。
该第一像素点为前景区域的某一个像素点,第二像素点为前景区域边缘的某一个像素点,在特殊时候,该第一像素点为前景区域边缘的一个像素点,即此时,该第一像素点也为第二像素点。
步骤S550:计算第一像素点与第二像素点之间的目标距离值。
本实施例中,第一像素点的数量为多个,可视为前景区域的所有像素点均为第一像素点,第二像素点的数量也为多个,即前景区域的边缘上所有像素点为第二像素点,第一像素点应包含有第二像素点,此时,则可计算每个第一像素点与不同的第二像素点之间的距离,从而得到目标距离值。
首先,可在前景区域(空白区域)中建立坐标系,以此分别获取多个第一像素点的坐标与多个第二像素点的坐标;然后,针对每个第一像素点,基于第一像素点的坐标与各个第二像素点的坐标,计算第一像素点分别与各个第二像素点之间的距离值,得到第一像素点对应的多个距离值,从第一像素点对应的多个距离值中选取数值最小的距离值,并将所选取的距离值作为第一像素点与第二像素点之间的目标距离值。
当然,当第一像素点是前景区域的边缘上的一个像素点时,该像素点即可作为第一像素点也作为第二像素点,此时,该第一像素点与第二像素点之间的目标距离值为0。
上述为将各第一像素点与前景区域之间的最短距离作为目标距离值,在其他实施例中,还可将第一像素点对应的多个距离值的平均值作为目标距离值,或是将最长距离作为目标距离值,此处不作具体限制。
第一像素点分别与各个第二像素点之间的距离值通过以下公式计算得到:
其中,p为第一像素点,q为第二像素点,x为坐标系中的横坐标,y为坐标系中的纵坐标,px与py为第一像素点的坐标参数,qx与qy为第二像素点的坐标参数。
目标距离值的计算方式为:
其中,I′为目标距离值,该式中,将任意第一像素点与第二像素点之间距离视为该第一像素点的目标距离值,然后将该第一像素点与其他第二像素点之间的距离进行比较,若小于该目标距离值,则重新进行赋值,直到找到该第一像素点与第二像素点之间距离最小的目标距离值。
步骤S570:基于目标距离值与二值化图片,生成扩散图与互补扩散图。
由于不同的待分割物体的透明物体区域的大小不一,即前景区域大小不同,因此,先对目标距离值进行归一化操作,将各第一像素点的目标距离进行归一化操作,得到从而获取相对一致的学习目标。
然后通过归一化处理后的目标距离值与二值化图片生成扩散图,具体为,针对二值化图片中前景区域各像素点的掩码,分别将各像素点的掩码与对应像素点归一化处理后的目标距离值相乘,将得到的数据作为该像素点的掩码,从而得到扩散图,具体该扩散图的计算公式为:
BL=I*I′
其中,BL为扩散图,I为二值化图片。
如图8,为图7中的二值化图片所对应的扩散图,该扩散图表现为前景区域越靠近边缘像素值越小,表现为扩散图中越黑,反之越靠近透明物体内部像素值则越大,表现为扩散图中越白。
该扩散图很好地反映了透明物体中不同区域对感受野大小的需求,能够帮助模型学习到相对位置信息,由于扩散图靠近边缘区域和背景区域都是接近0值,不利于突出边缘部分的学习,于是本实施例通过对扩散图做进一步的变换,得到互补扩散图。
首先,获取归一化处理后的目标距离值对应的互补距离值;其中,互补距离值与对应归一化处理后的目标距离值之和为预设数值;该预设数值可以为1,或是其他数值;然后基于互补距离值与二值化图片生成互补扩散图。
同样地,该基于互补距离值与二值化图片生成互补扩散图为将互补距离值与二值化图片中前景区域各像素点进行相乘,得到各像素点的掩码。
该互补扩散图的计算公式为:
DL=I*(1-I′)
其中,DL为互补扩散图,1为预设数值。
如图9,为图8实施例的扩散图所对应的互补扩散图的结构示意图。
互补扩散图同样可以反映透明物体内部感受野的变化,但是不同的是前景区域的边缘部分和背景区域之间有着明显的分界线,可以帮助模型学习更具判别力的特征,后续扩散图与互补扩散图分别通过两个独立的卷积进行监督学习,从而可以共同对特征的学习起作用。
本实施例中提出一种扩散图与互补扩散图的确定方式,得到的扩散图与互补扩散图能清晰的表达透明物体内部感受野的变化,使得模型更好的判别前景区域的边缘部分,后续通过扩散图与互补扩散图对不同的感受野进行监督学习,使得整个图片处理模型更好地辨别透明物体内外部的区别,从而自适应地调整加权不同感受野的系数,提高透明物体分割的准确率。
图10是图2所示实施例中步骤S250在一示例性实施例中的流程图。如图10所示,在一示例性实施例中,步骤S250从多个感受野对特征图片进行特征提取,得到多个感受野图片的过程可以包括步骤S1010至步骤S1050,详细介绍如下:
步骤S1010:对特征图片进行全局池化处理,得到全局池化感受野所对应的全局图片。
在一实施例中,多个感受野包括全局池化感受野以及不同空洞率的空洞卷积感受野;如图3中的,多个感受野包括5个,一个全局池化感受野,以及空洞率分别为1、2、4、8的空洞卷积感受野;当然,在其他实施例中,还可以使用多于或小于5个分支的感受野,这可根据待分割图片中透明物体大小的变化范围来确定,此处不进行具体限制。
特征图片分别进入不同的感受野分支,进行对应感受野的特征提取,如在全局池化感受野中,则得到直接可以建模全局特征,最后将全局池化的结果上采样到输入的特征图片的大小上,得到全局图片。
步骤S1030:基于不同空洞率的空洞卷积对特征图片进行卷积处理,得到不同空洞率的空洞卷积感受野的多个卷积图片。
对于输入至不同空洞率的空洞卷积感受野,则分别对特征图片进行空洞卷积,对应得到多个卷积图片。
步骤S1050:将全局图片和多个卷积图片作为多个感受野图片。
此时,在感受野模块,则得到多个感受野分支分别输出的多个感受野图片,如步骤S1010和步骤S1030中分别输出的全局图片和卷积图片,该全局图片和多个卷积图片作为多个感受野图片。
本实施例中,通过设置多个感受野,从不同的感受野提取特征图片的特征,获取对应的特征图,从而更好的对待分割图片中透明物体的不同部分营业不同的感受野特征,从而提高后续对透明物体预测的准确性。
图11是图2所示实施例中步骤S270在一示例性实施例中的流程图。如图9所示,在一示例性实施例中,步骤S270基于扩散图与互补扩散图对特征图片进行针对多个感受野的监督学习,得到多个感受野图片各自对应的加权系数的过程可以包括步骤S1110至步骤S1130,详细介绍如下:
步骤S1110:基于扩散图与互补扩散图,分别监督学习多个感受野下的特征图片内不同位置的置信度,得到多个感受野各自对应的置信图。
本实施例中,在图3的图片处理模型中的监督学习模块,还通过通道拼接,基于互补扩散图与扩散图监督学习特征图片,以使特征图片下不同位置(像素点)均基于互补扩散图与扩散图进行特征学习,从而得到多个感受野的多个置信图,不同的置信图中的各像素点的数据表征对应感受野下,该位置的特征的重要程度。
如针对图10中的5个感受野,本实施例中,则分别基于扩散图与互补扩散图两个卷积,分别监督特征图片中的各像素点学习全局池化感受野以及不同空洞率的空洞卷积感受野,以此得到全局池化感受野所对应的置信图以及不同空洞率的空洞卷积感受野所对应的置信图,即感受野模块中存在多个各感受野,监督学习模块应得到对应数量的置信图。
步骤S1130:基于多个感受野各自对应的置信图,生成多个感受野图片各自对应的加权系数。
对于多个感受野各自对应的置信图,在监督学习模块中使用softmax层作为输出,即图3中的“S”得到不同感受野的加权系数。
如此,通过图10得到多个感受野的多个感受野图片,图11中得到多个感受野的多个加权系数,则即可基于感受野图片对对于的加权系数进行加权处理。
在进行加权处理之前,将多个感受野图片进行拼接处理,得到一组拼接图片,当感受野为5个时,则多个感受野图片为fi,i∈{1,…,5}。
对于拼接图片,通过得到的加权系数ci对拼接图片中各感受野图片分别进行加权,最终得到目标拼接图片最后,在预测模块中,通过目标拼接图片对待分割图片的透明物体进行预测,并对所预测出的透明物体进行分割,以在待分割图片中提取透明物体。
本实施例中,通过扩散图来自适应调节特征图片中不同区域感受野,能够动态地结合不同感受野特征、同时兼顾透明物体内部对上下文特征的需求以及边缘区域对定位精度的需求,由于特征图片中前景区域的边缘像素本身偏少,本实施例使用了扩散图与互补扩散图来进行监督,扩散图与互补扩散图中前景区域的像素点是连续变化的,相比单像素的边缘图更容易学习,同时能够促使模型学习前景区域内部到边缘的相对位置关系,从而可以根据当前位置到边缘的相对距离来自适应地调整感受野的大小,即自适应调整感受野的加权系数来调整感受野的大小,从而提高透明图片分割的准确度。
基于图2-图11的图片处理方法,图12中提出一种应用该图片处理方法的流程图,该图片处理方法可作为3C(产品认证)质检能力的一部分,应用于工业AI质检平台-摄像头模组质检中,用于对镜面区域进行提取,使用检测结果进行抠图后用于后续检测,减小输入模型的图像大小,从而可以实现免配准。
当然,本实施例中的图片处理方法还可应用于视频软件、图片软件中或是车载软件中,用于对图片或是视频中提取的图片进行图片处理,提取透明物体部分,此处不对该图片处理方法的使用场景进行限制,可应用于任意需要进行透明物体检测的场景。
基于图3中图片处理模型,本实施例中还提出一种模型训练的方式,在对该图片处理模型进行训练时,使用dice loss(一种广泛的应用在了医学影像分割领域的损失函数)进行图片处理模型的监督学习,dice loss可以很好地适应正负样本不均衡情形下的语义分割问题,同时可以更加侧重对前景区域的学习,能很好的满足透明物体分割这个任务,该dice loss如下式所示,
其中,Ldice为dice loss,|X|和|Y|分别表示两个集合(预测图像素和真值图像素)中的元素总数,|X∩Y|表示两个集合之间的交集。
对于扩散图预测分支,即基于特征图片生成扩散图与互补扩散图的分支,采用不同的损失函数来进行训练,如可使用BinaryCrossEntropy(二分类问题中常用的一个损失函数)损失函数进行逐像素监督,BinaryCrossEntropy与dice loss两个损失函数通过不同的加权系数叠加作为整个图片处理模型训练的最终损失函数:
Lbcc=yn·logxn+(1-yn)·log(1-xn)
Ltotal=Lbcc+λLdice
其中,Lbcc为BinaryCrossEntropy损失函数,yn为第n个训练数据的真实标签,xn为第n个训练数据的预测值,Ltotal为最终损失函数,λ为超参数,其通过BinaryCrossEntropy与dice loss两个损失函数之间的加权系数觉得,当加权系数为2:1,则λ可为2。
当然,以上为示例性的提出两种损失函数用于图片处理模型的训练,在其他实施例中,损失函数可以使用其它新提出的成果,只要能够兼顾正负样本均衡问题即可,扩散图分支监督损失也可以用MSE损失函数(均方损失函数),此处不进行具体限制。
图13是根据一示例性实施例示出的一种图片处理装置的结构示意图。如图13所示,在一示例性实施例中,该图片处理装置包括:
特征提取模块1310,配置为对待分割图片进行特征提取,得到特征图片;
扩散图获取模块1330,配置为基于特征图片的前景区域内各像素点与前景区域边缘之间的距离值,生成扩散图与互补扩散图;
感受野特征提取模块1350,配置为从多个感受野对特征图片进行特征提取,得到多个感受野图片;
加权系数获取模块1370,配置为基于扩散图与互补扩散图对特征图片进行针对多个感受野的监督学习,得到多个感受野图片各自对应的加权系数;
透明物体分割模块1390,配置为基于多个感受野图片以及多个感受野图片各自对应的加权系数,对待分割图片中含有的透明物体进行分割。
本实施例中的图片处理装置可进行透明物体的分割,提高透明物体分割的准确性。
在一实施例中,扩散图获取模块,包括:二值化处理单元,配置为对特征图片的前景区域和背景区域分别进行二值化处理,得到二值化图片;像素点获取单元,配置为获取前景区域含有的第一像素点与前景区域边缘对应的第二像素点;目标距离值单元,配置为计算第一像素点与第二像素点之间的目标距离值;扩散图获取单元,配置为基于目标距离值与二值化图片,生成扩散图与互补扩散图。
在一实施例中,第一像素点和第二像素点均为多个;目标距离值单元,包括:像素点坐标获取板块,配置为获取多个第一像素点的坐标与多个第二像素点的坐标;距离值获取板块,配置为针对每个第一像素点,基于第一像素点的坐标与各个第二像素点的坐标,计算第一像素点分别与各个第二像素点之间的距离值,得到第一像素点对应的多个距离值;目标距离值获取板块,配置为从第一像素点对应的多个距离值中选取数值最小的距离值,并将所选取的距离值作为第一像素点与第二像素点之间的目标距离值。
在一实施例中,扩散图获取单元,包括:归一化处理板块,配置为对目标距离值进行归一化处理;扩散图生成板块,配置为基于归一化处理后的目标距离值与二值化图片生成扩散图;互补距离值获取板块,配置为获取归一化处理后的目标距离值对应的互补距离值;其中,互补距离值与对应归一化处理后的目标距离值之和为预设数值;互补扩散图生成板块,配置为基于互补距离值与二值化图片生成互补扩散图。
在一实施例中,多个感受野包括全局池化感受野以及不同空洞率的空洞卷积感受野;感受野特征提取模块,包括:
全局图片获取单元,配置为对特征图片进行全局池化处理,得到全局池化感受野所对应的全局图片;卷积图片获取单元,配置为基于不同空洞率的空洞卷积对特征图片进行卷积处理,得到不同空洞率的空洞卷积感受野的多个卷积图片;感受野图片获取单元,配置为将全局图片和多个卷积图片作为多个感受野图片。
在一实施例中,加权系数获取模块,包括:置信图获取单元,配置为基于扩散图与互补扩散图,分别监督学习多个感受野下的特征图片内不同位置的置信度,得到多个感受野各自对应的置信图;加权系数获取单元,配置为基于多个感受野各自对应的置信图,生成多个感受野图片各自对应的加权系数。
在一实施例中,透明物体分割模块,包括:图片拼接单元,配置为将多个感受野图片进行拼接处理,得到拼接图片;加权处理单元,配置为基于多个感受野图片各自对应的加权系数对拼接图片进行加权处理,得到目标拼接图片;透明物体分割单元,配置为基于目标拼接图片对待分割图片的透明物体进行预测,并对所预测出的透明物体进行分割。
在一实施例中,特征提取模块,包括:粗粒度特征提取单元,配置为对待分割图片进行粗粒度特征提取,得到初始图片;卷积单元,配置为基于多个残差块对初始图片分别进行卷积处理和空洞卷积处理,得到特征图片。
需要说明的是,上述实施例所提供的图片处理装置与上述实施例所提供的图片处理方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现上述各个实施例中提供的图片处理方法。
图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图14示出的电子设备的计算机系统1400仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,计算机系统1400包括中央处理单元(Central Processing Unit,CPU)1401,其可以根据存储在只读存储器(Read-Only Memory,ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(Random Access Memory,RAM)1403中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1403中,还存储有系统操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(Input/Output,I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的图片处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的图片处理方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (12)
1.一种图片处理方法,其特征在于,包括:
对待分割图片进行特征提取,得到特征图片;
基于所述特征图片的前景区域内各像素点与所述前景区域边缘之间的距离值,生成扩散图与互补扩散图;
从多个感受野对所述特征图片进行特征提取,得到多个感受野图片;
基于所述扩散图与所述互补扩散图对所述特征图片进行针对所述多个感受野的监督学习,得到所述多个感受野图片各自对应的加权系数;
基于所述多个感受野图片以及所述多个感受野图片各自对应的加权系数,对所述待分割图片中含有的透明物体进行分割。
2.根据权利要求1所述的方法,其特征在于,所述基于所述特征图片的前景区域内各像素点与所述前景区域边缘之间的距离值,生成扩散图与互补扩散图,包括:
对所述特征图片的前景区域和背景区域分别进行二值化处理,得到二值化图片;
获取所述前景区域含有的第一像素点与所述前景区域边缘对应的第二像素点;
计算所述第一像素点与所述第二像素点之间的目标距离值;
基于所述目标距离值与所述二值化图片,生成所述扩散图与所述互补扩散图。
3.根据权利要求2所述的方法,其特征在于,所述第一像素点和所述第二像素点均为多个;所述计算所述第一像素点与所述第二像素点之间的目标距离值,包括:
获取多个第一像素点的坐标与多个第二像素点的坐标;
针对每个第一像素点,基于所述第一像素点的坐标与各个第二像素点的坐标,计算所述第一像素点分别与各个第二像素点之间的距离值,得到所述第一像素点对应的多个距离值;
从所述第一像素点对应的多个距离值中选取数值最小的距离值,并将所选取的距离值作为所述第一像素点与所述第二像素点之间的目标距离值。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标距离值与所述二值化图片,生成所述扩散图与所述互补扩散图,包括:
对所述目标距离值进行归一化处理;
基于归一化处理后的目标距离值与所述二值化图片生成所述扩散图;
获取归一化处理后的目标距离值对应的互补距离值;其中,所述互补距离值与对应归一化处理后的目标距离值之和为预设数值;
基于所述互补距离值与所述二值化图片生成所述互补扩散图。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述多个感受野包括全局池化感受野以及不同空洞率的空洞卷积感受野;所述从多个感受野对所述特征图片进行特征提取,得到多个感受野图片,包括:
对所述特征图片进行全局池化处理,得到全局池化感受野所对应的全局图片;
基于不同空洞率的空洞卷积对所述特征图片进行卷积处理,得到不同空洞率的空洞卷积感受野的多个卷积图片;
将所述全局图片和所述多个卷积图片作为所述多个感受野图片。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述扩散图与所述互补扩散图对所述特征图片进行针对所述多个感受野的监督学习,得到所述多个感受野图片各自对应的加权系数,包括:
基于所述扩散图与所述互补扩散图,分别监督学习所述多个感受野下的所述特征图片内不同位置的置信度,得到所述多个感受野各自对应的置信图;
基于所述多个感受野各自对应的置信图,生成所述多个感受野图片各自对应的加权系数。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述多个感受野图片以及所述多个感受野图片各自对应的加权系数,对所述待分割图片中含有的透明物体进行分割,包括:
将所述多个感受野图片进行拼接处理,得到拼接图片;
基于所述多个感受野图片各自对应的加权系数对所述拼接图片进行加权处理,得到目标拼接图片;
基于所述目标拼接图片对所述待分割图片的透明物体进行预测,并对所预测出的透明物体进行分割。
8.根据权利要求1至4中任一项所述的方法,其特征在于,所述对待分割图片进行特征提取,得到特征图片,包括:
对所述待分割图片进行粗粒度特征提取,得到初始图片;
基于多个残差块对所述初始图片分别进行卷积处理和空洞卷积处理,得到所述特征图片。
9.一种图片处理装置,其特征在于,包括:
特征提取模块,配置为对待分割图片进行特征提取,得到特征图片;
扩散图获取模块,配置为基于所述特征图片的前景区域内各像素点与所述前景区域边缘之间的距离值,生成扩散图与互补扩散图;
感受野特征提取模块,配置为从多个感受野对所述特征图片进行特征提取,得到多个感受野图片;
加权系数获取模块,配置为基于所述扩散图与所述互补扩散图对所述特征图片进行针对所述多个感受野的监督学习,得到所述多个感受野图片各自对应的加权系数;
透明物体分割模块,配置为基于所述多个感受野图片以及所述多个感受野图片各自对应的加权系数,对所述待分割图片中含有的透明物体进行分割。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至8中的任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至8中的任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211528059.9A CN116958184A (zh) | 2022-11-29 | 2022-11-29 | 图片处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211528059.9A CN116958184A (zh) | 2022-11-29 | 2022-11-29 | 图片处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958184A true CN116958184A (zh) | 2023-10-27 |
Family
ID=88453637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211528059.9A Pending CN116958184A (zh) | 2022-11-29 | 2022-11-29 | 图片处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958184A (zh) |
-
2022
- 2022-11-29 CN CN202211528059.9A patent/CN116958184A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN113822428A (zh) | 神经网络训练方法及装置、图像分割方法 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
US20230245429A1 (en) | Method and apparatus for training lane line detection model, electronic device and storage medium | |
CN114187515A (zh) | 图像分割方法和图像分割装置 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 | |
CN112862840B (zh) | 图像分割方法、装置、设备及介质 | |
CN116958184A (zh) | 图片处理方法、装置、电子设备及存储介质 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
EP4390871A1 (en) | Video anonymization method and apparatus, electronic device, and storage medium | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN117934478B (zh) | 缺陷检测方法、装置、设备及介质 | |
CN111914852B (zh) | 一种基于编解码结构的多模态显著性对象检测方法 | |
WO2024000728A1 (zh) | 单目三维平面恢复方法、设备及存储介质 | |
CN117011521A (zh) | 图像分割模型的训练方法及相关装置 | |
CN118135050A (zh) | 美术资源的调整方法、设备及存储介质 | |
AU2023285802A1 (en) | Video anonymization method and apparatus, electronic device and storage medium | |
CN114332516A (zh) | 数据处理、模型训练方法及装置、设备、存储介质、产品 | |
CN116957950A (zh) | 图像处理方法、装置、存储介质、电子设备及产品 | |
CN117132607A (zh) | 图像分割模型处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |