CN116310318A - 交互式的图像分割方法、装置、计算机设备和存储介质 - Google Patents
交互式的图像分割方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116310318A CN116310318A CN202310125192.8A CN202310125192A CN116310318A CN 116310318 A CN116310318 A CN 116310318A CN 202310125192 A CN202310125192 A CN 202310125192A CN 116310318 A CN116310318 A CN 116310318A
- Authority
- CN
- China
- Prior art keywords
- image
- feature map
- segmented
- target object
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003709 image segmentation Methods 0.000 title claims abstract description 65
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 62
- 230000003993 interaction Effects 0.000 claims abstract description 79
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 238000010586 diagram Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims description 101
- 238000012549 training Methods 0.000 claims description 55
- 238000000605 extraction Methods 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- 230000001960 triggered effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 description 18
- 238000013145 classification model Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种交互式的图像分割方法、装置、计算机设备和存储介质。所述方法可应用于图像分割、人工智能以及地图等技术领域,该方法包括:获取在待分割图像上执行交互操作后生成的交互特征图;对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;基于所述分类概率从所述待分割图像中分割出所述目标对象。采用本方法能够有效提高图像分割的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种交互式的图像分割方法、装置、计算机设备和存储介质。
背景技术
交互式分割任务是指在目标图像中分割出由用户交互标记出的目标物体,交互类型可以是点击,如在目标图像的某个位置进行点击操作,然后将该位置处的目标物体分割出来。
在进行交互式分割任务时,通常采用焦点点击(Focal Click)方案进行分割,具体为:在输入目标图像之后,先由主网络输出一个粗分割结果,然后分别采用了局部细化(Local Refinement)模块和渐变式合并(Progressive Merge)模块对点击处附近的分割结果进行精细化调整处理。然而,通过发明人的不断实践发现,Focal Click方案无法利用点击处蕴含的信息传播到整个目标图像上,从而导致距离点击处较远的图像的分割准确性差。
发明内容
基于此,有必要针对上述技术问题,提供一种交互式的图像分割方法、装置、计算机设备和存储介质,能够有效提高图像分割的准确性。
第一方面,本申请提供了一种交互式的图像分割方法。所述方法包括:
获取在待分割图像上执行交互操作后生成的交互特征图;
对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
基于所述分类概率从所述待分割图像中分割出所述目标对象。
第二方面,本申请还提供了一种交互式的图像分割装置。所述装置包括:
获取模块,用于获取在待分割图像上执行交互操作后生成的交互特征图;
提取模块,用于对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
推断模块,用于对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
确定模块,用于依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
分割模块,用于基于所述分类概率从所述待分割图像中分割出所述目标对象。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取在待分割图像上执行交互操作后生成的交互特征图;
对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
基于所述分类概率从所述待分割图像中分割出所述目标对象。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取在待分割图像上执行交互操作后生成的交互特征图;
对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
基于所述分类概率从所述待分割图像中分割出所述目标对象。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取在待分割图像上执行交互操作后生成的交互特征图;
对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
基于所述分类概率从所述待分割图像中分割出所述目标对象。
上述交互式的图像分割方法、装置、计算机设备、存储介质和计算机程序产品,获取在待分割图像上执行交互操作后生成的交互特征图,对交互特征图和待分割图像进行特征提取,得到深度特征图;对深度特征图和待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项,将交互操作处的信息传播到了整个待分割图像,因此依据权重空间先验项和函数空间更新项确定待分割图像中各像素属于目标对象的分类概率,基于分类概率从待分割图像中分割出目标对象,即使在距离交互操作较远处的图像区域也能准确地实现图像分割,提高了图像分割的准确性;而且,基于所得的融合结果进行高斯后验推断的推断效率高,可以实现实时的交互式图像分割,提高了图像分割效率。
附图说明
图1为一个实施例中交互式的图像分割方法的应用环境图;
图2为一个实施例中交互式的图像分割方法的流程示意图;
图3为一个实施例中显示待分割图像的媒体页面的页面示意图;
图4为一个实施例中对初始特征图进行处理得到正类点特征图和负类点特征图的示意图;
图5为一个实施例中提取深度特征图的结构示意图;
图6为一个实施例中图像分割模型的结构示意图;
图7为一个实施例中待分割图像与对应的分割结果的示意图;
图8为一个实施例中分割出目标对象的媒体页面的页面示意图;
图9为一个实施例中模型训练和图像分割方法的流程示意图;
图10为一个实施例中对目标对象进行搜索的流程示意图;
图11为一个实施例中显示搜索词条的媒体页面的页面示意图;
图12为一个实施例中显示对象信息的搜索页面的页面示意图;
图13为一个实施例中交互式的图像分割装置的结构框图;
图14为一个实施例中交互式的图像分割装置的结构框图;
图15为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,在以下的描述中,所涉及的术语“第一和第二”仅仅是区别类似的对象,不代表针对象的特定排序,可以理解地,“第一和第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
在对本申请的方案进行描述之前,对本申请所涉及的技术进行说明,具体如下所述:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及邻域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个邻域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的邻域得到应用,并发挥越来越重要的价值。
本申请实施例提供的交互式的图像分割方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
服务器104可以是独立的物理服务器,也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。
此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种交互式的图像分割方法,该方法可以由图1中的终端或服务器执行,或由图1中的终端和服务器协同执行,以该方法由图1中的终端执行为例进行说明,包括以下步骤:
S202,获取在待分割图像上执行交互操作后生成的交互特征图。
其中,待分割图像可以指需要进行交互式分割任务的图像,如用户在该图像中通过交互操作(如点击操作)的方式标记出需要的目标对象,然后将该目标对象从图像中分割出来。在实际应用中,该待分割图像可以是人物图像、风景图像、医学图像或其它类型的图像。
交互特征图(Click map)可以指与待分割图像尺寸一致的表示交互信息的特征图,可以是双通道的特征图,包括单通道的正类点特征图和负类点特征图。该交互信息可以是点击信息,如用户在待分割图像的中间位置执行了点击操作,则会生成包含该点击操作对应的点击信息的特征图。
在一个实施例中,S202之前,终端可以在媒体页面显示媒体信息,该媒体信息可以是图像、或图文结合的媒体信息或视频画面;响应于在媒体信息中目标图像或目标视频帧上执行的交互操作,可以将该目标图像或目标视频帧作为待分割图像;此外,终端还会获取在该待分割图像上执行交互操作后生成的交互特征图。
其中,该媒体页面可以包括图像显示页面、信息浏览页面和视频播放页面。该媒体信息可以是医学、科技、体育、娱乐、教育和社交等领域的信息。
例如,用户在浏览器或社交应用的信息浏览页面浏览媒体信息,如图3所示,在浏览的过程中,发现该媒体信息的图像中某演员属于自己喜爱的类型,想要了解他的一些基本信息,可以点击该演员,此时可以将该图像作为待分割图像,而该演员即为需要分割出来的目标对象;此外,除了可以将图像中的演员作为目标对象,还可以细粒度划分,将该演员的戏服以及身上的一些装饰品也可以作为需要分割出来的目标对象。
在一个实施例中,上述的交互操作包括第一点击操作,交互特征图包括正类点特征图。S202具体可以包括:终端可以响应于在待分割图像上执行第一点击操作,生成包含正类点标识的初始特征图;依据初始特征图中的正类点标识生成正类点特征图。
其中,第一点击操作可以是表示正类点的点击操作,如在待分割图像的前景对象(或前景区域)点击的操作。正类点标识所处的位置为执行第一点击操作的位置,正类点标识即为点击信息,可以表示该位置处进行过点击操作。
在另一个实施例中,上述的交互操作包括第一点击操作和第二点击操作。因此,在待分割图像上执行了第一点击操作的基础上,还可以执行第二点击操作,S202具体可以包括:终端可以响应于在待分割图像上执行第一点击操作和第二点击操作,生成包含正类点标识和负类点标识的初始特征图;依据初始特征图中的正类点标识生成正类点特征图,依据初始特征图中的负类点标识生成负类点特征图。
其中,第二点击操作可以是表示负类点的点击操作,如在待分割图像的背景对象(或背景区域)点击的操作。
上述的正类点特征图和负类点特征图均为交互特征图。正类点特征图是对初始特征图中的正类点标识进行像素腐蚀处理、并去除负类点标识所得的特征图,用于表示正类点交互操作;而负类点特征图是对初始特征图中的负类点标识进行像素腐蚀处理、并去除正类点标识所得的特征图,用于表示负类点交互操作。
在一个实施例中,上述依据初始特征图中的正类点标识生成正类点特征图;依据初始特征图中的负类点标识生成负类点特征图的步骤,具体可以包括:终端从初始特征图中,提取出包含各正类点标识的第一初始特征图和包含各负类点标识的第二初始特征图;在第一初始特征图中,分别以各正类点标识为参考点确定对应的第一区域;将各第一区域内的像素置为预设值,得到正类点特征图;在第二初始特征图中,分别以各负类点标识为参考点确定对应的第二区域;将各第二区域内的像素置为预设值,得到正类点特征图。
例如,当在待分割图像的前景区域执行了点击操作,在背景区域执行了点击操作,则可以获得包含正类点标识和负类点标识的初始特征图,如图4的(a)图所示。在获得初始特征图之后,从该初始特征图中提取出包含正类点标识的特征图,得到第一初始特征图;在第一初始特征图中,分别以各正类点标识为参考点、半径为5个像素确定一个圆,得到对应的第一区域;将各第一区域内的像素置为1,其它像素置为0,得到正类点特征图,如图4的(b)图所示。此外,终端还在该初始特征图中提取出包含负类点标识的特征图,得到第二初始特征图;在获得第二初始特征图之后,可以采用类似于第一初始特征图的处理方法,获得负类点特征图,如图4的(c)图所示。
S204,对交互特征图和待分割图像进行特征提取,得到深度特征图。
其中,深度特征图可以是包含待分割图像中各像素对应的特征和交互特征的特征图。
在一个实施例中,终端在进行特征提取时,可以先将交互特征图和待分割图像进行融合处理,得到第一融合特征图;然后对第一融合特征图进行特征提取,得到深度特征图。
具体地,深度特征图是通过图像分割模型中的特征提取网络提取的。因此,终端可以将交互特征图输入至特征提取网络,通过特征提取网络的至少两个卷积层对交互特征图进行特征提取,得到目标交互特征图;以及,通过特征提取网络的至少一个卷积层对待分割图像进行特征提取,得到待分割特征图;融合目标交互特征图和待分割特征图,得到第一融合特征图;通过特征提取网络的剩余卷积层对第一融合特征图进行特征提取,得到深度特征图。
其中,该图像分割模型是基于高斯过程分类的交互式分割(Gaussian ProcessClassification-based Interactive Segmentation,GPCIS)模型,可称为高斯过程分类模型,具体可以包括特征提取网络和高斯后验网络。该特征提取网络也可称为图像分割模型的主干网络(Backbone),可以是DeepLabV3网络或ResNet50网络,又或是DeepLabV3网络与ResNet50网络相结合作为特征提取网络,还可以是其它用于特征提取的神经网络。该高斯后验网络是基于高斯过程构建的网络,包括权重空间网络和函数空间网络。
在一个实施例中,在输入交互特征图之前,终端还可以将交互特征图与目标特征图进行合并,得到新的交互特征图,然后将新的交互特征图输入至特征提取网络,然后执行特征提取的流程,具体可参考上述实施例。其中,目标特征图可以是单通道的特征图,该特征图的值可以为设定的目标值,如可以是0。
例如,如图5所示,将交互特征图与初始化为0的特征图Prev_mask合并之后输入至主干网络,通过两个3×3卷积层进行卷积处理,得到64通道的特征图a;在进行卷积处理的过程中,还会将待分割图像输入至主干网络,通过一个3×3卷积层进行卷积处理,得到64通道的特征图b;将特征图a和特征图b进行融合得到融合特征图,接着利用主干网络中余下的卷积层对该融合特征图进行卷积处理,最终输出64通道的深度特征图X。
S206,对深度特征图和待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项。
其中,权重空间先验项可以指待分割图像中各像素在权重空间的先验项,例如可以是待分割图像中各像素在权重空间的特征图,如图6所示。函数空间更新项可以指待分割图像中各像素在函数空间的更新项,例如可以是待分割图像中各像素在函数空间的特征图,如图6所示。
在一个实施例中,终端可以对深度特征图进行归一化处理,得到归一化特征图;将归一化特征图和待分割图像进行融合,得到第二融合特征图;通过图像分割模型中的高斯后验网络对第二融合特征图进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项。
在进行归一化处理时,终端可以沿通道维度归一化,即:先确定通道维方向的二范数,将深度特征图中的各特征值除以该二范数,即可得到归一化特征图。或者,终端还可以选取深度特征图中的最大特征值和最小特征值,依据最大特征值和最小特征值计算出调整参数,然后计算深度特征图中的各特征值与最小特征值之间的差值,将该差值与调整参数的比值作为归一化特征值,从而得到归一化特征图。
在一个实施例中,图像分割模型中的高斯后验网络包括权重空间网络和函数空间网络。因此,终端通过权重空间网络对第二融合特征图进行特征处理,得到待分割图像中各像素对应的权重空间先验项;通过函数空间网络对第二融合特征图进行特征处理,得到待分割图像中各像素对应的函数空间更新项。
对于权重空间先验项的计算步骤,具体可以包括:终端通过权重空间网络对第二融合特征图中的各特征点进行非线性变换,得到傅里叶基底值;基于权重空间网络中的权重参数对傅里叶基底值进行加权处理,得到待分割图像中各像素对应的权重空间先验项。
对于函数空间更新项的计算步骤,具体可以包括:通过函数空间网络,从第二融合特征图中提取出交互操作位置处的像素对应的融合特征图,得到局部融合特征;通过函数空间网络中的感知网络对局部融合特征进行特征处理,得到处理结果;从权重空间先验项中提取出交互操作位置处的像素对应的目标权重空间先验项,确定处理结果与目标权重空间先验项之间的差值;根据函数空间网络中的核函数对第二融合特征图进行核运算,得到第一核矩阵与第二核矩阵;基于差值、第一核矩阵与第二核矩阵,确定待分割图像中各像素对应的函数空间更新项。例如,如图6中的(c)图所示,(c)图中的Softplus(·)*yn表示感知网络,Softplus(·)中的点号表示多感知机;kη(·,·)表示核函数,Km,n和Kn,n分别为第一核矩阵与第二核矩阵。
S208,依据权重空间先验项和函数空间更新项,确定待分割图像中各像素属于目标对象的分类概率。
其中,分类概率可以指待分割图像中的像素属于目标对象的概率,从而依据该分类概率可以将待分割图像中的像素分割出来,从而实现将目标对象从待分割图像中分割出来。
在一个实施例中,终端确定所述权重空间先验项和函数空间更新项之间的和值;通过目标函数将所得的和值进行数值转换,得到各像素属于目标对象的分类概率。其中,该目标函数可以是激活函数,如Sigmoid函数。
S210,基于分类概率从待分割图像中分割出目标对象。
其中,目标对象可以是待分割图像中需要分割的前景对象,包括目标人物、目标动物和目标物体;此外,在应用到医学领域时,该目标对象还可以是待分割的病灶部位,或待分割的人体器官或组织等。
在一个实施例中,在分割出目标对象之后,终端响应于针对目标对象的标注操作,对目标对象进行标注,得到目标对象的标签。例如,在数据集的标注任务中,在分割出目标对象之后,可以通过简单的点击即可高效的完成对目标对象的标注,这对于医学图像等难以获取高质量标注的任务而言,可以以更高效率采集高质量训练数据标签。
在分割出目标对象之后,除了可以对目标对象进行标注,终端还可以对该目标对象进行检索,得到该目标对象的对象信息。
作为一个示例,为了更直观了解本申请的方案,这里结合图6、图7以及图8进行说明,具体如下:
如图6所示,若用户在待分割图像中进行了点击(或触摸)操作,终端会根据该点击操作生成交互特征图,然后可以将该交互特征图与数值为0的特征图Prev_mask进行融合,得到新的交互特征图;利用特征提取网络的两个3×3卷积层对该新的交互特征图进行卷积处理,得到64通道的交互特征图a;利用特征提取网络的两个3×3卷积层对待分割图像进行特征提取,得到64通道的待分割特征图b,将该交互特征图a与待分割特征图b进行融合,得到融合结果;利用特征提取网络的剩余卷积层对融合结果进行特征提取,得到深度特征图X;通过权重空间网络对深度特征图X进行特征处理,得到权重空间的先验项;通过函数空间网络对深度特征图X进行特征处理,得到函数空间的更新项;将该先验项与更新项进行求和,并利用激活函数对求和的结果进行处理,从而得到待分割图像的分割结果。
此外,用户在点击了图7的(a)图时,对应的点击位置为(a)图中的黑点所示,可以采用上述分割方案,对图7的(a)图进行分割,得到图7的(b)图的分割结果。
上述的分割方案还可以应用于对浏览器或社交应用上显示的图像进行分割,如图3所示,在社交应用的消息分享页面显示包含图像的媒体消息,用户在点击了该图像时,可以采用上述分割方案对消息分享页面中显示的图像进行分割,得到图8所示的分割结果。
上述实施例中,获取在待分割图像上执行交互操作后生成的交互特征图,对交互特征图和待分割图像进行特征提取,得到深度特征图;对深度特征图和待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项,将交互操作处的信息传播到了整个待分割图像,因此依据权重空间先验项和函数空间更新项确定待分割图像中各像素属于目标对象的分类概率,基于分类概率从待分割图像中分割出目标对象,即使在距离交互操作较远处的图像区域也能准确地实现图像分割,提高了图像分割的准确性;而且,基于所得的融合结果进行高斯后验推断的推断效率高,可以实现实时的交互式图像分割,提高了图像分割效率。
在一个实施例中,在S202之前,终端可以先对图像分割模型进行模型训练,具体的训练步骤包括:获取在图像样本上执行交互操作后生成的训练交互特征图;对训练交互特征图和图像样本进行特征提取,得到训练特征图;对训练特征图和图像样本进行融合,并基于所得的融合结果进行高斯后验推断,得到图像样本中各像素对应的训练权重空间先验项和训练函数空间更新项;依据训练权重空间先验项和训练函数空间更新项,确定图像样本中各像素属于前景对象的训练分类概率;根据训练分类概率对图像样本进行图像分割,得到分割结果;基于分割结果、前景对象对应的标签以及优化目标确定损失值;根据损失值对图像分割模型进行参数优化。
其中,上述训练过程中,关于获取训练交互特征图、提取训练特征图、高斯后验推断、计算训练分类概率以及图像分割过程,具体可以参考图2实施例。
图像分割模型是基于高斯过程分类的交互式分割模型,可称为高斯过程分类模型,接下来对高斯过程分类(GPCIS)模型的建立与求解过程进行说明:
1)模型建立
对于待分割的图像给定点击/>其中h和w分别为图像/>的长和宽,记m=h×w为像素总数量;n为点击数量,yc∈{1,-1}为第c个点击的标签,1代表前景类,-1代表背景类。将图像/>输入到一个分割任务的深度网络gψ(·),可以得到特征表示其中d为特征通道数,/>代表第i个像素的特征。类似地,记/>为点击处像素对应的特征,且记它们对应的标签为yn∈{1,-1}n。
采用高斯过程分类模型对交互式分割任务进行建模,定义一个像素级的分类函数为输入为像素点的特征,输出为分类分数,若分数大于0则判为前景类,若小于0则判为背景类。使用高斯过程建模/>其中均值函数/>协方差函数满足:对于任意有限的数据/> 其中均值μn=[μ(x1),…,μ(xn)]T,协方差矩阵为Kn,n={k(xi,xh)}ij。均值函数μ一般设为函数值恒为0的函数。高斯过程的二分类模型可写为:
p(y*|X*,Xn,yn)=∫p(y*|f*)p(f*|X*,Xn,yn)df* (1)
p(f*|X*,Xn,yn)=∫p(f*|X*,Xn,fn)p(fn|Xn,yn)dfn (2)
因此,只需从高斯后验中采样f*,便可使用蒙特卡洛方法对p(y*|X*,Xn,yn)进行估计,得到最终的分割结果。
2)高斯后验逼近
高斯后验的计算式(2)中,p(f*|X*,Xn,fn)为一个高斯分布,p(fn|Xn,yn)对于分类问题不是高斯分布,这导致(2)式难以积分。因此,采用均摊式变分推断的方法来用一个参数化的高斯分布来逼近p(fn|Xn,yn)。其中均值mξ(Xn,yn)的设计为:
mξ(Xn,yn)=Softplus(MLPξ(Xn))*yn (3)
其中MLPξ(·)是一个参数为ξ的多层感知机,激活函数Softplus(x)=log(1+ex)的输出恒为正值。方差σ2固定为0.01。通过最小化q(fn|Xn,yn)和p(fn|Xn,yn)的方式来实现逼近,可以推导出优化目标为:
在模型训练时,将上述优化目标加入至损失函数中计算损失值,从而端到端地对参数ξ进行优化。
3)高斯后验高效采样
通过将变分分布q(fn|Xn,yn)替换p(fn|Xn,yn),可以通过(2)式计算得到服从高斯分布的高斯后验通常,从高斯后验中采样计算复杂度为O(*3),对于待测像素很多的图像来说是巨大的计算代价,因此采用对高斯后验解耦的方法来实现高效采样。通过推导得到如下的框架:
4)深度核学习
由(5)式可以看出,核函数k的选取对先验项和更新项都起到了关键的作用。为了使得模型更加灵活且能够用数据驱动的方式从训练集中学到任务相关的信息,本申请采用深度核学习的方法,动态地学习核函数k。具体地,将图像的归一化的深度特征X与原图合并得到新特征/>记任两个像素的新特征/> 核函数定义为:
其中,xit为像素i对应的深度特征的第t个通道;核函数的超参数η={η0,…,ηd}均大于0,根据深度核学习的思想,超参数η也将以端到端地方式训练。此外,也端到端地学习θr、τr和w的先验分布中的参数μw。
通过上述方式,可以构建出高斯过程分类模型中的权重空间网络和函数空间网络,分别对应图6的(b)图和(c)图。本申请的高斯过程分类模型,通过显式地建模像素间的相似关系,充分地将点击处的信息传播到整张图,促进离点击处较远距离的分割结果。
在完成模型构建后,对高斯过程分类模型进行训练。在训练开始时,使用在ImageNet上预训练的权重对模型中的backbone网络进行初始化;傅里叶基底数量l设置为256;为保证核函数中的参数η恒为正值,在实现中学习logηt(t≥0),初始化logη0=0且logηt=-1(t>0);对于参数θr,(r=1,2,...,l),采用 对其初始化;初始化τr~U(0,2π),(r=1,2,...,l);初始化/> 然后设置/>
在训练过程中,通过以下损失函数计算损失值:
通过上述损失函数可知,在计算损失值时,需先计算分割结果与真实标签之间的归一化聚焦损失值,然后依据归一化聚焦损失与(4)式的优化目标计算最终的损失值。其中,为模型输出的分割结果,ygt为样本的真实标签;/>为归一化聚焦损失(Normalized focal loss)函数,/>对应于(4)式的优化目标,权重系数α取值为0.001。
在训练时,采用基于Adam算法(Adaptive moment estimation)更新求解优化参数,包括:backbone网络参数ψ、多层感知机参数ξ、核函数中的参数η以及先验项中的参数θr、τr(r=1,2,...,l)和μw。在每次迭代过程中,计算损失值并进行反向传播,在反向传播的过程中计算梯度,然后更新模型参数。
需要指出的是,训练是端到端进行的,初始学习率设为5×10-3,共230个epoch,学习率在190和220个epoch处衰减10倍,在每次迭代过程中,batch大小为16,patch大小为256×256。生成训练样本时需要仿真点击,仿真算法依照实现,即在最大误差区域中心生成下一个点击。在(4)式和(5)式中计算逆矩阵时,为了防止出现矩阵接近奇异而导致的计算不稳定,实现时使用(Kn,n+∈2In)-1来代替/>的计算。在训练时∈2取值0.01,在测试和应用时∈2取值10-7。
作为一个示例,为了直观了解本申请的方案,结合图9进行说明,具体如下:
先设置一个判断条件,判断是训练任务还是分割任务,若是训练任务,则初始化GPCIS模型的各部分参数,然后对待分割的训练图像(即图像样本)进行加载、预处理和数据增广;在训练图像上生成若干仿真点击,得到Click map,将Click map和训练图像输入至GPCIS模型进行训练,训练的过程中,根据损失函数和Adam算法更新GPCIS模型的参数,当模型收敛或达到设定的迭代次数之后,停止训练,将所得的GPCIS模型进行保存。
若是分割任务,则加载训练好的GPCIS模型,加载待分割图像,用户在该待分割图像上点击前景类或背景类,GPCIS模型根据图像和点击输出当前分割结果。此外,该分割任务也可以替换为测试任务,测试过程可参考分割任务的方法,区别之处在于,在执行测试任务的过程中,需要对输出的分割结果进行判断,若未分割出前景目标对象,则继续在待分割图像上点击前景类或背景类,然后GPCIS模型根据图像、点击以及上一次的分割结果输出当前分割结果,直至得到最终分割结果。
在一个实施例中,在分割出目标对象之后,可以对目标对象进行标注,也可以进行搜索。对于搜索的应用场景,如图10所示,具体搜索步骤如下:
S1002,以突显方式显示从待分割图像中分割出的目标对象。
其中,该待分割图像可以包含在媒体信息中,该媒体信息显示在媒体页面。
在一个实施例中,终端获取透明度满足预设条件的、且尺寸分别与至少一个目标对象一致的遮罩;将遮罩分别覆盖于目标对象,以实现对至少一个目标对象进行突显。
其中,遮罩可以是覆盖在目标对象上方的透明度满足预设条件的白色遮挡物,如半透明的白色遮挡物。
S1004,响应于针对目标对象的搜索操作,显示目标对象相关的搜索词条。
其中,搜索词条可以包括与目标对象直接相关的用于搜索的字或词,还可以包括与目标对象间接相关的用于搜索的字或词,假设目标对象为演员,那么搜索词条可以包括刘某某、刘某某穿的衣服是什么以及刘某某戴的帽子叫什么等,如图11所示。
在一个实施例中,终端可以对该目标对象进行识别,得到目标对象的对象名称。在获得对象名称之后,终端可以在媒体页面显示搜索框,然后在搜索框中显示与目标图像中的目标对象相关的搜索词条,该搜索词条包括对象名称以及目标对象的其它物品(如目标对象穿戴的东西)。当分割出的目标对象为至少两个时,终端可以响应于针对目标对象的选择操作,选择其中一个目标对象,然后在搜索框中显示与选择的目标对象相关的搜索词条。
例如,当分割出的目标对象为多个时,可以根据实际需求显示与特定的目标对象相关的搜索词条,例如有目标对象a和目标对象b,那么可以点击或触摸目标对象a,显示与目标对象a相关的搜索词条;或者,可以点击或触摸目标对象b,显示与目标对象b相关的搜索词条。
S1006,当搜索词条中的目标搜索词条被触发时,基于目标搜索词条搜索的与目标对象关联的对象信息。
其中,对象信息可以是关于目标对象的详情信息,通过该详情信息可以了解目标对象;或者,该对象信息基于目标对象衍生的其它关联对象的详情信息。
在一个实施例中,终端响应于对搜索词条的触发操作,基于被触发的搜索词条搜索目标对象的对象信息;在搜索过程中,可以从当前的页面跳转至搜索页面,如从显示媒体信息的媒体页面跳转至搜索页面;在搜索页面显示对象信息。其中,搜索页面可以是用于显示对象信息的页面。
例如,当操作对象点击了目标对象的某个搜索词条时,一方面会启动搜索引擎,然后将点击的搜索词条传输至搜索引擎,然后通过该搜索引擎从数据库中搜索目标对象的对象信息;另一方面会将显示页面从媒体页面跳转至搜索页面,并在搜索到对象信息之后,将对象信息显示于搜索页面,如图12所示。
上述实施例中,在显示包括待分割图像的媒体信息中,若需要对待分割图像中的内容进行搜索时,可以分割出来的目标对象以突显方式进行显示,从而可以选择所需的目标对象,避免在搜索时需要使用整个待分割图像进行搜索;此外还显示与该目标对象相关的搜索词条,从而可以选择其中一个搜索词条进行搜索,得到该目标对象的对象信息,从而有针对性地搜索所需要搜索的目标对象以及搜索的方向,实现了精细化的搜索,提高了搜索结果的准确性和搜索效果;而且,在进行搜索时,无需手动操作将待分割图像输入至搜索引擎进行搜索,提高了搜索效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的交互式的图像分割方法的交互式的图像分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个交互式的图像分割装置实施例中的具体限定可以参见上文中对于交互式的图像分割方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种交互式的图像分割装置,包括:获取模块1302、提取模块1304、推断模块1306、确定模块1308和分割模块1310,其中:
获取模块1302,用于获取在待分割图像上执行交互操作后生成的交互特征图;
提取模块1304,用于对交互特征图和待分割图像进行特征提取,得到深度特征图;
推断模块1306,用于对深度特征图和待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项;
确定模块1308,用于依据权重空间先验项和函数空间更新项,确定待分割图像中各像素属于目标对象的分类概率;
分割模块1310,用于基于分类概率从待分割图像中分割出目标对象。
在一个实施例中,交互操作包括第一点击操作和第二点击操作;
获取模块1302,还用于响应于在待分割图像上执行第一点击操作和第二点击操作,生成包含正类点标识和负类点标识的初始特征图;依据初始特征图中的正类点标识生成正类点特征图;依据初始特征图中的负类点标识生成负类点特征图。
在一个实施例中,依据初始特征图中的正类点标识生成正类点特征图;
获取模块1302,还用于从初始特征图中,提取出包含各正类点标识的第一初始特征图和包含各负类点标识的第二初始特征图;在第一初始特征图中,分别以各正类点标识为参考点确定对应的第一区域;将各第一区域内的像素置为预设值,得到正类点特征图;在第二初始特征图中,分别以各负类点标识为参考点确定对应的第二区域;将各第二区域内的像素置为预设值,得到正类点特征图。
在一个实施例中,深度特征图是通过图像分割模型中的特征提取网络提取的;
提取模块,还用于通过特征提取网络的至少两个卷积层对交互特征图进行特征提取,得到目标交互特征图;以及,通过特征提取网络的至少一个卷积层对待分割图像进行特征提取,得到待分割特征图;融合目标交互特征图和待分割特征图,得到第一融合特征图;通过特征提取网络的剩余卷积层对第一融合特征图进行特征提取,得到深度特征图。
在一个实施例中,深度特征图是通过图像分割模型中的特征提取网络提取的;
推断模块,还用于对深度特征图进行归一化处理,得到归一化特征图;将归一化特征图和待分割图像进行融合,得到第二融合特征图;通过图像分割模型中的高斯后验网络对第二融合特征图进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项。
在一个实施例中,图像分割模型中的高斯后验网络包括权重空间网络和函数空间网络;
推断模块,还用于通过权重空间网络对第二融合特征图进行特征处理,得到待分割图像中各像素对应的权重空间先验项;通过函数空间网络对第二融合特征图进行特征处理,得到待分割图像中各像素对应的函数空间更新项。
在一个实施例中,推断模块,还用于通过权重空间网络对第二融合特征图中的各特征点进行非线性变换,得到傅里叶基底值;基于权重空间网络中的权重参数对傅里叶基底值进行加权处理,得到待分割图像中各像素对应的权重空间先验项。
在一个实施例中,推断模块,还用于通过函数空间网络,从第二融合特征图中提取出交互操作位置处的像素对应的融合特征图,得到局部融合特征;通过函数空间网络中的感知网络对局部融合特征进行特征处理,得到处理结果;从权重空间先验项中提取出交互操作位置处的像素对应的目标权重空间先验项,确定处理结果与目标权重空间先验项之间的差值;根据函数空间网络中的核函数对第二融合特征图进行核运算,得到第一核矩阵与第二核矩阵;基于差值、第一核矩阵与第二核矩阵,确定待分割图像中各像素对应的函数空间更新项。
上述实施例中,获取在待分割图像上执行交互操作后生成的交互特征图,对交互特征图和待分割图像进行特征提取,得到深度特征图;对深度特征图和待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到待分割图像中各像素对应的权重空间先验项和函数空间更新项,将交互操作处的信息传播到了整个待分割图像,因此依据权重空间先验项和函数空间更新项确定待分割图像中各像素属于目标对象的分类概率,基于分类概率从待分割图像中分割出目标对象,即使在距离交互操作较远处的图像区域也能准确地实现图像分割,提高了图像分割的准确性;而且,基于所得的融合结果进行高斯后验推断的推断效率高,可以实现实时的交互式图像分割,提高了图像分割效率。
在一个实施例中,如图14所示,该装置还包括:
训练模块1312,用于获取在图像样本上执行交互操作后生成的训练交互特征图;对训练交互特征图和图像样本进行特征提取,得到训练特征图;对训练特征图和图像样本进行融合,并基于所得的融合结果进行高斯后验推断,得到图像样本中各像素对应的训练权重空间先验项和训练函数空间更新项;依据训练权重空间先验项和训练函数空间更新项,确定图像样本中各像素属于前景对象的训练分类概率;根据训练分类概率对图像样本进行图像分割,得到分割结果;基于分割结果、前景对象对应的标签以及优化目标确定损失值;根据损失值对图像分割模型进行参数优化。
在一个实施例中,确定模块,还用于确定权重空间先验项和函数空间更新项之间的和值;通过目标函数将所得的和值进行数值转换,得到各像素的分类概率。
在一个实施例中,如图14所示,该装置还包括:
标注模块1314,用于响应于针对目标对象的标注操作,对目标对象进行标注,得到目标对象的标签;
搜索模块1316,用于响应于针对目标对象的搜索操作,对目标对象进行搜索,得到目标对象的对象信息。
在一个实施例中,如图14所示,该装置还包括:
显示模块1318,用于以突显方式显示从待分割图像中分割出的目标对象;
搜索模块,还用于响应于针对目标对象的搜索操作,显示目标对象相关的搜索词条;当搜索词条中的目标搜索词条被触发时,基于目标搜索词条搜索的与目标对象关联的对象信息。
上述实施例中,在显示包括待分割图像的媒体信息中,若需要对待分割图像中的内容进行搜索时,可以分割出来的目标对象以突显方式进行显示,从而可以选择所需的目标对象,避免在搜索时需要使用整个待分割图像进行搜索;此外还显示与该目标对象相关的搜索词条,从而可以选择其中一个搜索词条进行搜索,得到该目标对象的对象信息,从而有针对性地搜索所需要搜索的目标对象以及搜索的方向,实现了精细化的搜索,提高了搜索结果的准确性和搜索效果;而且,在进行搜索时,无需手动操作将待分割图像输入至搜索引擎进行搜索,提高了搜索效率。
上述交互式的图像分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种交互式的图像分割方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (16)
1.一种交互式的图像分割方法,其特征在于,所述方法包括:
获取在待分割图像上执行交互操作后生成的交互特征图;
对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
基于所述分类概率从所述待分割图像中分割出所述目标对象。
2.根据权利要求1所述的方法,其特征在于,所述交互操作包括第一点击操作和第二点击操作;所述获取在待分割图像上执行交互操作后生成的交互特征图包括:
响应于在所述待分割图像上执行所述第一点击操作和所述第二点击操作,生成包含正类点标识和负类点标识的初始特征图;
依据所述初始特征图中的正类点标识生成所述正类点特征图;
依据所述初始特征图中的负类点标识生成所述负类点特征图。
3.根据权利要求2所述的方法,其特征在于,所述依据所述初始特征图中的正类点标识生成所述正类点特征图;依据所述初始特征图中的负类点标识生成所述负类点特征图包括:
从所述初始特征图中,提取出包含各所述正类点标识的第一初始特征图和包含各所述负类点标识的第二初始特征图;
在所述第一初始特征图中,分别以各所述正类点标识为参考点确定对应的第一区域;将各所述第一区域内的像素置为预设值,得到所述正类点特征图;
在所述第二初始特征图中,分别以各所述负类点标识为参考点确定对应的第二区域;将各所述第二区域内的像素置为预设值,得到所述正类点特征图。
4.根据权利要求1所述的方法,其特征在于,所述深度特征图是通过图像分割模型中的特征提取网络提取的;所述对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图包括:
通过所述特征提取网络的至少两个卷积层对所述交互特征图进行特征提取,得到目标交互特征图;以及,通过所述特征提取网络的至少一个卷积层对所述待分割图像进行特征提取,得到待分割特征图;
融合所述目标交互特征图和所述待分割特征图,得到第一融合特征图;
通过所述特征提取网络的剩余卷积层对所述第一融合特征图进行特征提取,得到所述深度特征图。
5.根据权利要求1所述的方法,其特征在于,所述深度特征图是通过图像分割模型中的特征提取网络提取的;
所述对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项包括:
对所述深度特征图进行归一化处理,得到归一化特征图;
将所述归一化特征图和所述待分割图像进行融合,得到第二融合特征图;
通过所述图像分割模型中的高斯后验网络对所述第二融合特征图进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项。
6.根据权利要求5所述的方法,其特征在于,所述图像分割模型中的高斯后验网络包括权重空间网络和函数空间网络;
所述通过所述图像分割模型中的高斯后验网络对所述第二融合特征图进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项包括:
通过所述权重空间网络对所述第二融合特征图进行特征处理,得到所述待分割图像中各像素对应的权重空间先验项;
通过所述函数空间网络对所述第二融合特征图进行特征处理,得到所述待分割图像中各像素对应的函数空间更新项。
7.根据权利要求6所述的方法,其特征在于,所述通过所述权重空间网络对所述第二融合特征图进行特征处理,得到所述待分割图像中各像素对应的权重空间先验项包括:
通过所述权重空间网络对所述第二融合特征图中的各特征点进行非线性变换,得到傅里叶基底值;
基于所述权重空间网络中的权重参数对所述傅里叶基底值进行加权处理,得到所述待分割图像中各像素对应的权重空间先验项。
8.根据权利要求6所述的方法,其特征在于,所述通过所述函数空间网络对所述第二融合特征图进行特征处理,得到所述待分割图像中各像素对应的函数空间更新项包括:
通过所述函数空间网络,从所述第二融合特征图中提取出所述交互操作位置处的像素对应的融合特征图,得到局部融合特征;
通过所述函数空间网络中的感知网络对所述局部融合特征进行特征处理,得到处理结果;
从所述权重空间先验项中提取出所述交互操作位置处的像素对应的目标权重空间先验项,确定所述处理结果与所述目标权重空间先验项之间的差值;
根据所述函数空间网络中的核函数对所述第二融合特征图进行核运算,得到第一核矩阵与第二核矩阵;
基于所述差值、所述第一核矩阵与所述第二核矩阵,确定所述待分割图像中各像素对应的函数空间更新项。
9.根据权利要求4至8任一项所述的方法,其特征在于,所述方法还包括:
获取在图像样本上执行交互操作后生成的训练交互特征图;
对所述训练交互特征图和所述图像样本进行特征提取,得到训练特征图;
对所述训练特征图和所述图像样本进行融合,并基于所得的融合结果进行高斯后验推断,得到所述图像样本中各像素对应的训练权重空间先验项和训练函数空间更新项;
依据所述训练权重空间先验项和所述训练函数空间更新项,确定所述图像样本中各像素属于前景对象的训练分类概率;
根据所述训练分类概率对所述图像样本进行图像分割,得到分割结果;
基于所述分割结果、所述前景对象对应的标签以及优化目标确定损失值;
根据所述损失值对所述图像分割模型进行参数优化。
10.根据权利要求1至8任一项所述的方法,其特征在于,所述依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率包括:
确定所述权重空间先验项和函数空间更新项之间的和值;
通过目标函数将所得的和值进行数值转换,得到各所述像素的分类概率。
11.根据权利要求1至8任一项所述的方法,其特征在于,所述基于所述分类概率从所述待分割图像中分割出所述目标对象之后,所述方法还包括:
响应于针对所述目标对象的标注操作,对所述目标对象进行标注,得到所述目标对象的标签;或者,
响应于针对所述目标对象的搜索操作,对所述目标对象进行搜索,得到所述目标对象的对象信息。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
以突显方式显示从所述待分割图像中分割出的目标对象;
所述响应于针对所述目标对象的搜索操作,对所述目标对象进行搜索,得到所述目标对象的对象信息包括:
响应于针对所述目标对象的搜索操作,显示所述目标对象相关的搜索词条;
当所述搜索词条中的目标搜索词条被触发时,基于所述目标搜索词条搜索的与所述目标对象关联的对象信息。
13.一种交互式的图像分割装置,其特征在于,所述装置包括:
获取模块,用于获取在待分割图像上执行交互操作后生成的交互特征图;
提取模块,用于对所述交互特征图和所述待分割图像进行特征提取,得到深度特征图;
推断模块,用于对所述深度特征图和所述待分割图像进行融合,并基于所得的融合结果进行高斯后验推断,得到所述待分割图像中各像素对应的权重空间先验项和函数空间更新项;
确定模块,用于依据所述权重空间先验项和函数空间更新项,确定所述待分割图像中各像素属于目标对象的分类概率;
分割模块,用于基于所述分类概率从所述待分割图像中分割出所述目标对象。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310125192.8A CN116310318A (zh) | 2023-01-19 | 2023-01-19 | 交互式的图像分割方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310125192.8A CN116310318A (zh) | 2023-01-19 | 2023-01-19 | 交互式的图像分割方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310318A true CN116310318A (zh) | 2023-06-23 |
Family
ID=86823169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310125192.8A Pending CN116310318A (zh) | 2023-01-19 | 2023-01-19 | 交互式的图像分割方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310318A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503694A (zh) * | 2023-06-28 | 2023-07-28 | 宁德时代新能源科技股份有限公司 | 模型训练方法、图像分割方法、装置和计算机设备 |
CN116612269A (zh) * | 2023-07-17 | 2023-08-18 | 深圳思谋信息科技有限公司 | 交互式分割标注方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111932529A (zh) * | 2020-09-10 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种图像分割方法、装置及系统 |
US20210366145A1 (en) * | 2020-05-21 | 2021-11-25 | Fujitsu Limited | Image processing apparatus, image processing method, and image processing program |
US20220198671A1 (en) * | 2020-12-18 | 2022-06-23 | Adobe Inc. | Utilizing a segmentation neural network to process initial object segmentations and object user indicators within a digital image to generate improved object segmentations |
-
2023
- 2023-01-19 CN CN202310125192.8A patent/CN116310318A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210366145A1 (en) * | 2020-05-21 | 2021-11-25 | Fujitsu Limited | Image processing apparatus, image processing method, and image processing program |
CN111932529A (zh) * | 2020-09-10 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种图像分割方法、装置及系统 |
US20220198671A1 (en) * | 2020-12-18 | 2022-06-23 | Adobe Inc. | Utilizing a segmentation neural network to process initial object segmentations and object user indicators within a digital image to generate improved object segmentations |
Non-Patent Citations (2)
Title |
---|
ARNA FARIZA 等: "Interactive Segmentation of Conditional Spatial FCM with Gaussian Kernel-Based for Panoramic Radiography", 《IEEE》, 25 March 2019 (2019-03-25) * |
陈景尚 等: "基于GrabCut的半交互式输电线路金具锈蚀图像分割方法", 《信息与电脑(理论版)》, vol. 33, no. 1, 31 January 2021 (2021-01-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503694A (zh) * | 2023-06-28 | 2023-07-28 | 宁德时代新能源科技股份有限公司 | 模型训练方法、图像分割方法、装置和计算机设备 |
CN116503694B (zh) * | 2023-06-28 | 2023-12-08 | 宁德时代新能源科技股份有限公司 | 模型训练方法、图像分割方法、装置和计算机设备 |
CN116612269A (zh) * | 2023-07-17 | 2023-08-18 | 深圳思谋信息科技有限公司 | 交互式分割标注方法、装置、计算机设备及存储介质 |
CN116612269B (zh) * | 2023-07-17 | 2023-11-03 | 深圳思谋信息科技有限公司 | 交互式分割标注方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210012198A1 (en) | Method for training deep neural network and apparatus | |
Arietta et al. | City forensics: Using visual elements to predict non-visual city attributes | |
CN111695415B (zh) | 图像识别方法及相关设备 | |
WO2019196633A1 (zh) | 一种图像语义分割模型的训练方法和服务器 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
WO2022016556A1 (zh) | 一种神经网络蒸馏方法以及装置 | |
CN116310318A (zh) | 交互式的图像分割方法、装置、计算机设备和存储介质 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN113011568B (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Liao et al. | FERGCN: facial expression recognition based on graph convolution network | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN114783601A (zh) | 一种生理数据的分析方法、装置、电子设备和存储介质 | |
CN113128285A (zh) | 一种处理视频的方法及装置 | |
CN113762331A (zh) | 关系型自蒸馏方法、装置和系统及存储介质 | |
CN115631008A (zh) | 商品推荐方法、装置、设备及介质 | |
CN113627421A (zh) | 一种图像处理方法、模型的训练方法以及相关设备 | |
WO2023231753A1 (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN116977265A (zh) | 缺陷检测模型的训练方法、装置、计算机设备和存储介质 | |
CN113010772B (zh) | 一种数据处理方法、相关设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086893 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |