CN112508966A - 一种交互式图像分割方法及系统 - Google Patents

一种交互式图像分割方法及系统 Download PDF

Info

Publication number
CN112508966A
CN112508966A CN202011407760.6A CN202011407760A CN112508966A CN 112508966 A CN112508966 A CN 112508966A CN 202011407760 A CN202011407760 A CN 202011407760A CN 112508966 A CN112508966 A CN 112508966A
Authority
CN
China
Prior art keywords
foreground
segmentation
background
pixel
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011407760.6A
Other languages
English (en)
Other versions
CN112508966B (zh
Inventor
王笑琨
班晓娟
卢仕杰
姚超
李姜
孙金胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fengniao Innovation Beijing Technology Co ltd
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Publication of CN112508966A publication Critical patent/CN112508966A/zh
Application granted granted Critical
Publication of CN112508966B publication Critical patent/CN112508966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种交互式图像分割方法及系统,该方法包括:采用图像分析方法对待分割图像进行前景背景分割,得到预分割结果;获取人工干预信息,包括前景交互点和背景交互点;其中,前景交互点为应该是前景但没有被分割出来的点,背景交互点为应该是背景点但被当成前景分割出来的点;提取待分割图像的特征,并根据人工干预信息带来的半监督信息对图像特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;根据概率图,对预分割结果进行修正,以提高分割精度。本发明通过在分割过程中引入少量的人工干预对实例级对象的分割结果进行精细的修正,从而提高了最终分割结果的精确度。

Description

一种交互式图像分割方法及系统
技术领域
本发明涉及图像处理技术领域,特别涉及一种交互式图像分割方法及系统。
背景技术
在很多领域中,图像分割方法发挥着越来越重要的作用,但是传统图像分割方法难以应用在某些精度要求较高的领域,比如医学领域。因此交互式图像分割方法应运而生。交互式图像分割是以用户的交互信息输入为先验知识,对目标场景进行前景背景分割,以得到最好的分割结果为目的而开展的研究。最终以尽量少的交互信息输入而获得更高的精度作为评判的依据。
目前常用方法包括图割算法,以及基于此方法的分割迭代优化和前景像素相似性距离度量的优化。但是它们都基于图像的浅层特征,包括灰度值,颜色等去做分割,这样具有一定的局限性。另外就是基于机器学习和深度学习的方法,包括采用边缘关键点、包围需要分割对象的方框,以及涂鸦的交互方式。但这些方式都过于复杂,大大增加了用户的交互操作的复杂性,对用户的专业程度具有较高的要求。
综上,现有的传统分割技术存在分割精度较低且无法进行修正的问题,而其它交互式图像分割方法又存在对用户专业性要求较高,交互过于复杂的问题。
发明内容
本发明提供了一种交互式图像分割方法及系统,以解决现有的传统分割技术存在的分割精度较低且无法进行修正,以及其它交互式图像分割方法存在的对用户专业性要求较高,交互过于复杂的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种交互式图像分割方法,该方法包括:
采用预设图像分析方法对待分割图像进行前景背景分割,得到预分割结果;
获取人工干预信息,所述人工干预信息包括前景交互点和背景交互点;其中,所述前景交互点为应该是前景,但在预分割结果中没有被分割出来的点,所述背景交互点为应该是背景点,但在预分割结果中被当成前景分割出来的点;
提取所述待分割图像的特征,并根据所述人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;
根据所述概率图,对所述预分割结果进行修正,以提高分割精度。
其中,提取所述待分割图像的特征,包括:
特征提取,提取所述待分割图像的浅层特征和深层特征;
尺度变换,对提取的特征进行反卷积,上采样到所述待分割图像的尺度。
其中,根据所述人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图,包括:
根据所述尺度变换对提取的特征进行局部代替,实现多尺度局部匹配;
根据预训练的像素特征距离,计算交互点处局部特征和全局像素的特征距离,然后映射到前景背景概率,得到每一像素点属于前景或背景的概率图。
其中,所述像素特征距离的表达式为:
Figure BDA0002819047620000021
其中,D(p,q)表示像素p和像素q之间的特征距离,ep表示像素p位置上的特征值,eq表示像素q位置上的特征值,B表示背景交互点的集合,F表示前景交互点的集合,bB表示可训练的背景偏移,bF表示可训练的前景偏移。
其中,根据所述概率图,对所述预分割结果进行修正,包括:
对所述概率图和预分割结果进行拼接,得到拼接结果;
利用预训练的卷积网络,基于所述拼接结果,自动修正预分割结果。
另一方面,本发明还提供了一种交互式图像分割系统,该系统包括:
图像预分割模块,用于采用预设图像分析方法对待分割图像进行前景背景分割,得到预分割结果;
人工干预信息获取模块,用于获取人工干预信息,所述人工干预信息包括前景交互点和背景交互点;其中,所述前景交互点为应该是前景,但在预分割结果中没有被分割出来的点,所述背景交互点为应该是背景点,但在预分割结果中被当成前景分割出来的点;
特征提取及像素特征匹配模块,用于提取所述待分割图像的特征,并根据所述人工干预信息获取模块所获取的人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;
预分割结果修正模块,用于根据所述特征提取及像素特征匹配模块输出的概率图,对所述图像预分割模块输出的预分割结果进行修正,以提高分割精度。
其中,所述特征提取及像素特征匹配模块具体用于:
特征提取,提取所述待分割图像的浅层特征和深层特征;
尺度变换,对提取的特征进行反卷积,上采样到所述待分割图像的尺度。
其中,所述特征提取及像素特征匹配模块具体还用于:
根据所述尺度变换对提取的特征进行局部代替,实现多尺度局部匹配;
根据预训练的像素特征距离,计算交互点处局部特征和全局像素的特征距离,然后映射到前景背景概率,得到每一像素点属于前景或背景的概率图。
其中,所述像素特征距离的表达式为:
Figure BDA0002819047620000031
其中,D(p,q)表示像素p和像素q之间的特征距离,ep表示像素p位置上的特征值,eq表示像素q位置上的特征值,B表示背景交互点的集合,F表示前景交互点的集合,bB表示可训练的背景偏移,bF表示可训练的前景偏移。
其中,所述预分割结果修正模块具体用于:
对所述概率图和预分割结果进行拼接,得到拼接结果;
利用预训练的卷积网络,基于所述拼接结果,自动修正预分割结果。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
1、针对传统图像分割方法不够精准,有错分割(将前景分割为背景)或者误分割(将背景分割成前景)的情况,可以通过本发明提出的交互式图像分割方法进行精细化修正,提高分割结果的精度,最终达到用户满意的精度。
2、本发明所提出的交互式图像分割方法能够充分的利用用户输入的交互信息,提高图像分割精准度的同时,使得用户的输入信息更少,操作更简单,从而降低了对用户专业性的要求,具有重要的理论意义和实用价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的交互式图像分割方法的流程示意图;
图2为本发明实施例提供的交互式图像分割方法的网络结构图;
图3为本发明实施例提供的VGG网络结构图;
图4为本发明实施例提供的尺度变化方法示意图;
图5为本发明实施例提供的像素级匹配示意图;
图6为本发明实施例提供的修正网络的结构示意图;
图7为本发明实施例提供的输入、预分割结果和真实Mask示意图;其中,(a)为输入图像示意图,(b)为分割结果示意图,(c)为Mask示意图;
图8为本发明实施例提供的过滤前的前景点候选区域和背景点候选区域的示意图;其中,(a)为过滤前的前景点候选区域示意图,(b)为过滤前的背景点候选区域示意图;
图9为本发明实施例提供的过滤后的前景点候选区域和背景点候选区域的示意图;其中,(a)为过滤后的前景点候选区域示意图,(b)为过滤后的背景点候选区域示意图;
图10为本发明实施例提供的交互点的示意图;其中,(a)为前景交互点示意图,(b)为背景交互点示意图;
图11为本发明实施例提供的结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种交互式图像分割方法,该方法可由电子设备实现,该电子设备可以是终端或服务器。该方法的执行流程如图1所示,包括以下步骤:
S101,采用预设图像分析方法对待分割图像进行前景背景分割,得到预分割结果;
S102,获取人工干预信息,该人工干预信息包括前景交互点和背景交互点;其中,所述前景交互点为应该是前景,但在预分割结果中没有被分割出来的点,所述背景交互点为应该是背景点,但在预分割结果中被当成前景分割出来的点;
S103,提取待分割图像的特征,并根据人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;
S104,根据概率图,对预分割结果进行修正,以提高分割精度。
基于本实施例的方法所搭建的网络结构如图2所示,网络的输入分为两部分,图片Image,前景交互点Positive clicks和背景交互点Negative clicks,输入的图片Image经过骨干网络提取特征,并经过分割网络得到预分割结果,Guide部分则以经过变换之后的特征和前景交互点,背景交互点为输入,用交互点进行特征匹配得到指导结果,对分割网络的输出进行修正,提高分割精度。
其中,图像分析方法的实现过程如下:
S1011,搭建全自动分割网络。
首先使用VGG-19网络进行特征提取,取conv1-2,conv2-2,conv3-4,conv4-4,conv5-2的特征图拼接之后作为分割网络的输入,本实施例使用在ImageNet上经过预训练的VGG网络,VGG-19的结构如图3所示。输入然后经过911个卷积层,通过在卷积层中使用空洞卷积,扩大卷积的感受野的同时降低参数的数量,加快网络的训练和推理速度。网络以全分辨率运行,除了最后一层之外每个卷积后面都有一个leaky ReLU激活函数,给网络带来非线性能力的同时避免ReLU激活函数的单侧抑制问题和sigmoid激活函数可能会导致的梯度消失问题,除了最后一层每层使用批归一化,加快训练速度,最后一层使用tanh激活函数,每一层使用identity initialization,分割网络具体参数如表1所示。
表1分割网络结构及参数
Figure BDA0002819047620000051
Figure BDA0002819047620000061
需要说明的是,本实施例所采用的分割网络可以是但不限于全卷积神经网络FCN,上下文聚合网络CAN等,本实施例严格来说不关注分割网络,只关注如何利用好交互信息,使得本实施例方法可作用不同的分割网络都能取得效果。
S1012,获取公开数据集的图像和标签。
本实施例使用了多个数据集进行验证,包括:
1、GrabCut,该数据集包含50幅图像,在大多数交互式分割方法中使用。大多数图像的前景和背景有明显的差异。
2、SBD(Semantic Boundaries Dataset),此数据集提供高质量的边界,并且不局限于特定的域。SBD使用Pascal VOC challenge中的图像,但提供了更多的对象掩码;它本质上是Pascal VOC的增强版本,具有相同的图像,但注释更全面。具体来说,SBD为PascalVOC 2011挑战赛的训练和验证集中的所有对象提供了二进制对象分割掩码。数据集包括8498个训练图像和2820个测试图像。本实施例使用训练集进行训练,并在测试集上进行测试。
3、DAVIS,该数据集用于视频对象分割。它包含50个视频,对象Mask质量很高。由于其中每个视频中图像相似性较大,本实施例从其中不放回地随机抽取10%的样本用于评估。
S1013,用上述数据集对全自动分割网络进行预训练。
学习率设置为0.0001,采用Adam方法进行优化,epoch最大设置为100。为了评估修正前后分割结果的精度变化,采用图像分割领域常用的指标平均交并比(MeanIntersection Over Union,mIoU)作为评价指标,也将其作为损失函数。
其中,人工干预信息指的是在得到预分割结果后,用户对其进行修正所输入的交互信息;在理论验证阶段,本实施例采用如下模拟方式生成干预信息:
S1021,获取全自动分割结果和标签之间的差异:以此来模拟用户需要修正的区域。主要包括以下步骤:
S10211,生成前景点预候选区域:
根据分割结果和真实Mask可将前景点预候选区域表示为:Ap,where(p∈S and p∈B)and(q∈M and q∈B)。其中,Ap表示前景点预候选区域,S表示分割结果,M表示真实的Mask,B表示背景,F表示前景。输入、预分割结果和真实Mask如图7所示,过滤前的前景点候选区域如图8中的(a)所示。
S10212,生成背景点预候选区域:
根据分割结果和真实Mask可将背景点预候选区域表示为:An,where(p∈S and p∈F)and(q∈M and q∈B)。其中,An表示背景点预候选区域,S表示分割结果,M表示真实的Mask,B表示背景,F表示前景。输入、预分割结果和真实Mask如图7所示,过滤前的背景点候选区域如图8中的(b)所示
S1022,使用卷积核对生成的前景背景点预候选区域进行过滤,过滤掉对分割效果提升不大的微小区域,得到前景背景点候选区域:
res=filter(x)x=Ap or An
其中,res表示前景背景点候选区域,filter的具体实现为20x20全1的卷积核,x表示前景点或背景点预候选区域。卷积之后取大于某个阈值的区域,一般来说阈值设为200,但是当使用这个阈值没有候选区域时,阈值以每次减小10的速度下降,指导候选区域大于10个像素点。过滤后的前景点候选区域如图9中的(a)所示,过滤后的背景点候选区域如图9中的(b)所示。
S1023,在前景背景点候选区域中随机生成3对前景交互点和背景交互点。
这些交互点用于模拟用户在面对分割不正确时,提供需要修正的区域的特征,并表明是属于应该是前景但是没有分割出来,标记为前景点;还是属于应该是背景点但是被当成前景分割出来了,标记为背景点。生成的点如图10所示。
其中,提取所述待分割图像的特征的过程,包括:
S1031,特征提取,提取待分割图像的浅层特征和深层特征;
这部分和上述的分割网络共用VGG-19网络作为骨干网络提取特征,本实施例的多尺度特征体现在本实施例使用VGG从浅层到深层的特征,包括conv1-2,conv2-2,conv3-2,conv4-2,conv5-2。
S1032,尺度变换,对提取的特征进行反卷积,上采样到输入尺度。
尺度变换的输入为经过卷积和池化之后的特征图,经过尺度变换之后的特征图将用于前景背景像素匹配,具体方式为:分别对VGG-19的特征conv1-2,conv2-2,conv3-2,conv4-2,conv5-2进行反卷积到iw*ih,iw为输入图片的宽,ih为输入图片的高。进行尺度变换的目的有三个,一是将尺度变换到和输入一致,便于匹配,由于特征图经过池化,其尺度变小,不便于匹配,所以需将其放大,本实施例采用反卷积的方法。二是不同深度的特征蕴含的信息不一样,为了对每一层级的特征都进行匹配,本实施例选取了VGG网络由浅到深的五层卷积特征作为输入,提供给下一模块更丰富的特征信息。三是扩大前景背景点的信息,如图4所示,STM将分别经过1x,2x,4x,8x,16x(图4仅展示了1x,2x,4x,8x)池化的特征进行反卷积,经过池化再反卷积后,图像中的局部小区域具有相同的特征表达,而且随着池化步长的增加,这一区域越来越大。这就代表着虽然用户输入的只是一个像素点的前景或者背景,但经过这一过程之后,这一前景或者背景点所代表的是1x1,2x2,4x4,8x8,16x16的区域。
其中,根据人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图,包括:
S1033,训练可学习的像素特征距离,用于学习到如何区分前景像素特征和背景像素特征。
本实施例同时使用前景先验知识和背景先验知识,在本实施例中先验知识为用户点击的交互点,如图2左下方所示。为了去匹配交互点所在位置的像素特征和别的像素特征的差异,本实施例重新设计了像素距离,进一步的区分前景和背景,不同于以往的像素距离,本实施例提出的像素距离是可训练的,这是因为在不同的图像中,前景和背景的像素特征距离是不一样的,所以固定的像素距离必定会带来一定的误差,使用可训练的像素特征距离,让网络对距离进行学习,得到最合适的像素特征距离;像素特征距离定义为:
Figure BDA0002819047620000081
其中,D(p,q)表示像素p和像素q之间的特征距离,ep表示像素p位置上的特征值,eq表示像素q位置上的特征值,B表示背景交互点的集合,F表示前景交互点的集合,bB表示可训练的背景偏移,bF表示可训练的前景偏移。引入这两个偏差,可以使模型能够进一步学习到前景距离和背景距离之间的差异。对于多个前景点或者背景点,取最小距离,即Dlast(p)=minq∈B or FD(p,q)。
S1034,前景背景多尺度局部匹配。
根据尺度变换对提取的特征进行局部代替,实现多尺度局部匹配;特征图经过池化和上采样之后,不仅仅是去匹配在图像表示中的一个像素点,而是匹配像素点附近区域,区域的大小由池化的尺度决定。
S1035,前景背景全局匹配。
根据预训练的像素特征距离,计算交互点处局部特征和全局像素的特征距离,具体实施方式为:获取交互点处特征,将该特征值平铺到图像大小,然后计算两张图像每个像素点的位置,得到交互带处局部特征和全局像素的距离,然后映射到前景背景概率,得到每一像素点属于前景或背景的概率图。
本实施例会将交互点的特征信息和全局的像素特征进行匹配,对全局的像素进行匹配。如图5所示,将真实Mask,前景背景交互点表示为网格的形式,将输入进行特征提取之后也表示为网格的形式,通过前景背景交互点去图像的全局进行像素特征距离计算,获得某个像素点属于前景或者背景的概率。
其中,某个像素点属于前景或者背景的概率的表示为:
Figure BDA0002819047620000091
其中,
Figure BDA0002819047620000092
表示某像素点
Figure BDA0002819047620000093
到前景点q或者背景点q的距离,B表示背景,F表示前景,
Figure BDA0002819047620000094
表示
Figure BDA0002819047620000095
属于背景的概率,
Figure BDA0002819047620000096
表示
Figure BDA0002819047620000097
属于前景的概率。
其中,根据上述概率图,对上述预分割结果进行修正的过程包括:
S1041,对概率图和预分割结果进行拼接,得到拼接结果;具体方式为:利用tensorflow的concat函数,将前景背景概率图和预分割结果在维度上进行拼接。
S1042,利用预训练的卷积网络,基于拼接结果,自动修正预分割结果。
具体地,修正网络的网络结构如图6所示。修正网络的输入分为两部分,一是预分割结果,二是前景背景像素匹配的结果,即前景背景概率图。这部分的网络本实施例采用全卷积的方式,其结构如表2所示。
表2修正网络结构
Figure BDA0002819047620000098
其中,本实施例采用空洞卷积方法,在增大感受野的同时不增加训练参数。为了避免网络层过深可能会导致的梯度消失问题和增加训练速度,在每一层中增加批归一化处理。
进一步地,对前景背景像素匹配和修正方法进行训练,在训练过程中,设置初始参数,本实施例中学习率learning_rate设置为0.0001,使用Adam优化机制进行优化,epochs为200,训练集、测试集的batch_size分别15、1。损失函数为IoU,训练时随机输入交互点数量,验证时验证1到3个交互点带来的效果。
在上述交互式图像分割方法的具体实施中,通过对前景背景像素点不同尺度特征的运用,使用前景背景集成,再加上修正网络的修正,使得本实施例的方法在面对全自动分割出现错分割或者误分割时可以进行修正,精度提升如表3所示,部分结果如图11所示,Input为输入的图片,Mask为准确的结果,baseline为传统全自动分割网络的结果,Ours为本实施例进行精细化修正之后的结果,可以看到交互点少量人工干预信息的引入可以大大提高分割精度。在三个数据集上进行测试,分别是SBD,Davis,Grabcut,表3列中0表示无交互点,即全自动分割网络的结果,1代表1对交互点,即一个前景点和一个背景点,2,3同理,可以看到随机交互点的增加,其分割准确率精度有了显著提升。
表3交互式图像分割结果
Figure BDA0002819047620000101
综上,本实施例引入了新的方法和新的交互信息对预分割结果进行精细化修正的方式。通过少量人工干预信息(本实施例中为具有前景标记信息的前景点和具有背景标记信息的背景点)进行图像特征匹配,进而对像素点做前景背景分类,不同于其它方法,本实施例中引入的交互信息为简单的点,大大增加了用户操作的便利性,而且本实施例中的图像特征不仅局限于图像的浅层特征,还包括更能代表图像实例的深层特征。本实施例的方法最大化利用少量的人工干预信息,使得达到所需要的准确性水平时,需要提供的人工干预信息最小化。
第二实施例
本实施例提供了一种交互式图像分割系统,该系统包括以下模块:
图像预分割模块,用于采用预设图像分析方法对待分割图像进行前景背景分割,得到预分割结果;
人工干预信息获取模块,用于获取人工干预信息,所述人工干预信息包括前景交互点和背景交互点;其中,所述前景交互点为应该是前景,但在预分割结果中没有被分割出来的点,所述背景交互点为应该是背景点,但在预分割结果中被当成前景分割出来的点;
特征提取及像素特征匹配模块,用于提取所述待分割图像的特征,并根据所述人工干预信息获取模块所获取的人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;
预分割结果修正模块,用于根据所述特征提取及像素特征匹配模块输出的概率图,对所述图像预分割模块输出的预分割结果进行修正,以提高分割精度。
本实施例的交互式图像分割系统与第一实施例的交互式图像分割方法相对应;其中,本实施例的交互式图像分割系统中的各功能模块所实现的功能与第一实施例的交互式图像分割方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种交互式图像分割方法,其特征在于,所述方法包括:
采用预设图像分析方法对待分割图像进行前景背景分割,得到预分割结果;
获取人工干预信息,所述人工干预信息包括前景交互点和背景交互点;其中,所述前景交互点为应该是前景,但在预分割结果中没有被分割出来的点,所述背景交互点为应该是背景点,但在预分割结果中被当成前景分割出来的点;
提取所述待分割图像的特征,并根据所述人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;
根据所述概率图,对所述预分割结果进行修正,以提高分割精度。
2.如权利要求1所述的交互式图像分割方法,其特征在于,提取所述待分割图像的特征,包括:
特征提取,提取所述待分割图像的浅层特征和深层特征;
尺度变换,对提取的特征进行反卷积,上采样到所述待分割图像的尺度。
3.如权利要求2所述的交互式图像分割方法,其特征在于,根据所述人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图,包括:
根据所述尺度变换对提取的特征进行局部代替,实现多尺度局部匹配;
根据预训练的像素特征距离,计算交互点处局部特征和全局像素的特征距离,然后映射到前景背景概率,得到每一像素点属于前景或背景的概率图。
4.如权利要求3所述的交互式图像分割方法,其特征在于,所述像素特征距离的表达式为:
Figure FDA0002819047610000011
其中,D(p,q)表示像素p和像素q之间的特征距离,ep表示像素p位置上的特征值,eq表示像素q位置上的特征值,B表示背景交互点的集合,F表示前景交互点的集合,bB表示可训练的背景偏移,bF表示可训练的前景偏移。
5.如权利要求1所述的交互式图像分割方法,其特征在于,根据所述概率图,对所述预分割结果进行修正,包括:
对所述概率图和预分割结果进行拼接,得到拼接结果;
利用预训练的卷积网络,基于所述拼接结果,自动修正预分割结果。
6.一种交互式图像分割系统,其特征在于,所述系统包括:
图像预分割模块,用于采用预设图像分析方法对待分割图像进行前景背景分割,得到预分割结果;
人工干预信息获取模块,用于获取人工干预信息,所述人工干预信息包括前景交互点和背景交互点;其中,所述前景交互点为应该是前景,但在预分割结果中没有被分割出来的点,所述背景交互点为应该是背景点,但在预分割结果中被当成前景分割出来的点;
特征提取及像素特征匹配模块,用于提取所述待分割图像的特征,并根据所述人工干预信息获取模块所获取的人工干预信息带来的半监督信息对提取的特征进行像素特征匹配,得到每一像素点属于前景或背景的概率图;
预分割结果修正模块,用于根据所述特征提取及像素特征匹配模块输出的概率图,对所述图像预分割模块输出的预分割结果进行修正,以提高分割精度。
7.如权利要求6所述的交互式图像分割系统,其特征在于,所述特征提取及像素特征匹配模块具体用于:
特征提取,提取所述待分割图像的浅层特征和深层特征;
尺度变换,对提取的特征进行反卷积,上采样到所述待分割图像的尺度。
8.如权利要求7所述的交互式图像分割系统,其特征在于,所述特征提取及像素特征匹配模块具体还用于:
根据所述尺度变换对提取的特征进行局部代替,实现多尺度局部匹配;
根据预训练的像素特征距离,计算交互点处局部特征和全局像素的特征距离,然后映射到前景背景概率,得到每一像素点属于前景或背景的概率图。
9.如权利要求8所述的交互式图像分割系统,其特征在于,所述像素特征距离的表达式为:
Figure FDA0002819047610000021
其中,D(p,q)表示像素p和像素q之间的特征距离,ep表示像素p位置上的特征值,eq表示像素q位置上的特征值,B表示背景交互点的集合,F表示前景交互点的集合,bB表示可训练的背景偏移,bF表示可训练的前景偏移。
10.如权利要求6所述的交互式图像分割系统,其特征在于,所述预分割结果修正模块具体用于:
对所述概率图和预分割结果进行拼接,得到拼接结果;
利用预训练的卷积网络,基于所述拼接结果,自动修正预分割结果。
CN202011407760.6A 2020-10-27 2020-12-04 一种交互式图像分割方法及系统 Active CN112508966B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020111664957 2020-10-27
CN202011166495 2020-10-27

Publications (2)

Publication Number Publication Date
CN112508966A true CN112508966A (zh) 2021-03-16
CN112508966B CN112508966B (zh) 2021-08-24

Family

ID=74970200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011407760.6A Active CN112508966B (zh) 2020-10-27 2020-12-04 一种交互式图像分割方法及系统

Country Status (1)

Country Link
CN (1) CN112508966B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689437A (zh) * 2021-07-26 2021-11-23 南京理工大学 基于迭代式选择-修正网络的交互式图像分割方法
CN114092422A (zh) * 2021-11-11 2022-02-25 长沙理工大学 一种基于深度循环注意力的图像多目标提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184307A (zh) * 2015-07-27 2015-12-23 蚌埠医学院 一种医学领域图像语义相似度矩阵的生成方法
US9519868B2 (en) * 2012-06-21 2016-12-13 Microsoft Technology Licensing, Llc Semi-supervised random decision forests for machine learning using mahalanobis distance to identify geodesic paths
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN111340812A (zh) * 2020-02-20 2020-06-26 中南大学 基于深度神经网络的交互式肝脏图像分割方法
CN111768335A (zh) * 2020-07-02 2020-10-13 北京工商大学 一种基于cnn的用户交互式图像局部服饰风格迁移方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9519868B2 (en) * 2012-06-21 2016-12-13 Microsoft Technology Licensing, Llc Semi-supervised random decision forests for machine learning using mahalanobis distance to identify geodesic paths
CN105184307A (zh) * 2015-07-27 2015-12-23 蚌埠医学院 一种医学领域图像语义相似度矩阵的生成方法
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN111340812A (zh) * 2020-02-20 2020-06-26 中南大学 基于深度神经网络的交互式肝脏图像分割方法
CN111768335A (zh) * 2020-07-02 2020-10-13 北京工商大学 一种基于cnn的用户交互式图像局部服饰风格迁移方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AVMAN FL-BAZ ET AL.: "Robust image segmentation using learned pirors", 《2009 IEEE 12TH INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
GUOTAI WANG ET AL.: "DeepIGeoS:A Deep interactive geodesic framework for medical image segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
KUN LI ET AL.: "Attention-guided multi-scale segmentation neural network for interactive extraction of region objects from high-resolution satellite imagery", 《REMOTE SENSING》 *
于宁波等: "基于深度学习的膝关节MR图像自动分割方法", 《仪器仪表学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689437A (zh) * 2021-07-26 2021-11-23 南京理工大学 基于迭代式选择-修正网络的交互式图像分割方法
CN113689437B (zh) * 2021-07-26 2024-06-11 南京理工大学 基于迭代式选择-修正网络的交互式图像分割方法
CN114092422A (zh) * 2021-11-11 2022-02-25 长沙理工大学 一种基于深度循环注意力的图像多目标提取方法及系统
CN114092422B (zh) * 2021-11-11 2024-06-07 长沙理工大学 一种基于深度循环注意力的图像多目标提取方法及系统

Also Published As

Publication number Publication date
CN112508966B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN110490081B (zh) 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
RU2693916C1 (ru) Распознавание символов с использованием иерархической классификации
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN112508966B (zh) 一种交互式图像分割方法及系统
CN113011337B (zh) 一种基于深度元学习的汉字字库生成方法及系统
CN112836820B (zh) 用于图像分类任务的深度卷积网络训练方法、装置及系统
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN112801104A (zh) 基于语义分割的图像像素级伪标签确定方法及系统
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN114549863A (zh) 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN117726809A (zh) 一种基于信息交互增强的小样本语义分割方法
CN115830401B (zh) 一种小样本图像分类方法
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN112070793A (zh) 一种目标提取方法及装置
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN111260659A (zh) 一种基于初始标注点指导的图像交互分割方法
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN114445689A (zh) 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114332561A (zh) 超分辨率模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230428

Address after: 100016 room 106, 1f, building 1, yard 9, Jiuxianqiao East Road, Chaoyang District, Beijing

Patentee after: FENGNIAO INNOVATION (BEIJING) TECHNOLOGY Co.,Ltd.

Address before: 100083 No. 30, Haidian District, Beijing, Xueyuan Road

Patentee before: University OF SCIENCE AND TECHNOLOGY BEIJING

TR01 Transfer of patent right