CN110751659B - 图像分割方法及装置、终端、存储介质 - Google Patents

图像分割方法及装置、终端、存储介质 Download PDF

Info

Publication number
CN110751659B
CN110751659B CN201910927818.0A CN201910927818A CN110751659B CN 110751659 B CN110751659 B CN 110751659B CN 201910927818 A CN201910927818 A CN 201910927818A CN 110751659 B CN110751659 B CN 110751659B
Authority
CN
China
Prior art keywords
image
target
segmentation
segmented
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910927818.0A
Other languages
English (en)
Other versions
CN110751659A (zh
Inventor
常冰琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201910927818.0A priority Critical patent/CN110751659B/zh
Publication of CN110751659A publication Critical patent/CN110751659A/zh
Application granted granted Critical
Publication of CN110751659B publication Critical patent/CN110751659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开是关于一种图像分割方法及装置、终端、存储介质,所述方法包括:获得对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;将所述区域图像输入神经网络,获得对应于所述区域图像的分割结果,所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。通过该方法,提升了图像分割的处理速度和分割的准确性。

Description

图像分割方法及装置、终端、存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像分割方法及装置、终端、存储介质。
背景技术
图像分割也可以称为语义分割,是计算机视觉领域的一个重要研究内容,即将一幅图像分割成具有不同语义的区域,并且标注出每个区域属于的类别,例如人体、动物、汽车或植被等。图1为一种语义分割结果示例图,如图1所示,与L1区域灰度相同的区域属于人体,与L2区域所示灰度相同的区域属于汽车,与L3区域灰度相同的区域属于植物等。
图像分割可以用于许多应用场合,例如在智能移动设备的摄影功能中,通过智能识别场景中的人体区域,可以针对不同区域应用不同的处理方法,以此实现不同的特效,例如背景虚化特效、多重曝光特效等。
目前最先进的图像分割方法大部分使用深度神经网络技术,使用大量标注好的图像数据来训练深度神经网络模型,将训练好的模型部署在服务器端或者移动设备中。
发明内容
本公开提供一种图像分割方法及装置、终端、存储介质。
根据本公开实施例的第一方面,提供一种图像分割方法,包括:
获取对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;
基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;
将所述区域图像输入神经网络,获得对应于所述区域图像的分割结果,所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。
根据本公开实施例的第二方面,提供一种图像分割装置,包括:
第一获得模块,配置为获得对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;
裁剪模块,配置为基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;
第二获得模块,配置为将所述区域图像输入神经网络,获得对应于所述区域图像的分割结果,所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
第三获得模块,配置为根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。
根据本公开实施例的第三方面,提供一种终端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如上述第一方面中所述的图像分割方法。
根据本公开实施例的第四方面,提供一种存储介质,包括:
当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如上述第一方面中所述的图像分割方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本公开的实施例中,终端在对图像进行分割前,会事先基于用户的操作对图像进行裁剪,获得包括分割目标在内的区域图像,一方面,通过操作信息减少了输入图像的尺寸,因此减少了神经网络需要处理的图像面积,从而能提升图像分割的处理速度;另一方面通过操作信息减少了不属于分割目标的背景区域对分割目标的干扰,更有利于神经网络做预测,因此能提升图像分割的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为一种语义分割结果示例图一。
图2是本公开实施例示出的一种图像分割方法流程图。
图3为本公开实施例中一种终端中的显示图像示意图。
图4为本公开实施例中的一种区域图像获取的示意图。
图5为本公开实施例中区域图像的示意图。
图6为本公开实施例的一种位移图像示意图。
图7为本公开的实施例中一种神经网络的训练方法流程图。
图8为本公开实施例中一种标签图像的示意图。
图9为本公开实施中一种区域标签图像的示意图。
图10为本公开实施例的一种分割权重示意图。
图11为一种图像分割结果示意图二。
图12为本公开实施例中一种基于神经网络的图像分割模型的训练结构示意图。
图13为DeepLab网络结构示意图。
图14为本公开实施例中一种图像分割方法的流程示例图。
图15为本公开实施例对应在终端侧的图像分割方法的结构示意图。
图16是根据一示例性实施例示出的一种图像分割装置图。
图17是本公开实施例示出的一种终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图2是本公开实施例示出的一种图像分割方法流程图,如图2所示,图像分割方法包括以下步骤:
S11、获得对图像的操作信息;所述操作信息中至少包括对图像中待分割目标的操作位置信息;
S12、基于操作位置信息对图像进行裁剪,获得包括待分割目标的区域图像;
S13、将区域图像输入神经网络,获得对应于区域图像的分割结果;所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
S14、根据操作位置信息将分割结果映射到图像中,获得图像中的分割结果。
在本公开的实施例中,图像分割方法应用于终端中,终端包括:移动终端和固定终端;所述移动终端包括:智能手机、平板电脑。所述固定终端包括但不限于个人电脑(Personal Computer,PC)。
终端具有显示屏,可显示存储于终端中的图像信息或终端中图像采集组件采集的图像信息。终端基于显示屏的显示,可获得用户对图像的操作信息,操作信息中至少包括对图像中待分割目标的操作位置信息。
其中,操作信息可通过接收用户的语音信息或用户输入操作而获得,本公开的实施例不做限制。
在一种实施例中,当操作信息通过语音信息获得时,语音信息中需包括指示待分割目标的操作位置信息,例如,语音信息为:选择图像左下方的点。终端基于用户的语音输入,可在显示屏上显示相对应的点,以方便用户确认是否符合选择。
图3为本公开实施例中一种终端中的显示图像示意图,如图3所示,图像中包括主体 S1、主体S2、树、山脉和太阳。其中,主体S1为用户关注的待分割目标。
在一种实施例中,步骤S11包括:
检测作用于图像中待分割目标的用户输入操作;
获得用户输入操作对应在图像中的操作位置信息。
例如,该用户输入操作可以是作用于主体S1的中心点的用户输入操作,那么操作位置信息即对应主体S1所属区域的中心点。
所述用户输入操作,包括但不限于以下至少之一:
点击操作;
滑动操作;
能够操作位置信息的语音输入操作。
基于步骤S11获得的操作位置信息,终端可基于操作位置信息对图像进行裁剪,获得包括待分割目标在内的区域图像。
其中,区域图像包括以操作位置信息为基准而截取的预设范围内的图像。例如,区域图像是以操作位置信息为中心的,预设范围内的图像。
图4为本公开实施例中的一种区域图像获取的示意图,如图4所示,在图3所示图像的基础上,基于用户对主体S1中点P所示的中心位置的用户输入操作,终端截取包括主体人物1在内的矩形区域大小为r的图像区域。图5为本公开实施例中区域图像的示意图,如图5所示,图5即为基于图4中所示的操作而裁剪获得的区域图像。
在本公开实施例的步骤S13中,终端在区域图像的基础上对图像进行分割,将区域图像输入神经网络而获得分割结果。
在另一种实施例中,终端还可基于区域图像获得位移图像,位移图像表征区域图像中像素单元与待分割目标的中心的距离信息。
在该实施例中,区域图像中像素单元与离待分割目标的中心越远,距离信息值越大。
基于此,本公开实施例的步骤S13包括:
将区域图像和位移图像输入神经网络,获得对应于区域图像的分割结果。
可以理解的是,位移图像反应了区域图像中的结构信息。因此,在本公开的实施例中,将区域图像和位移图像一同输入神经网络,基于位移图像的结构信息,有助于区分属于待分割目标的区域,即利于分割的准确度。
示例性地,图6为本公开实施例的一种位移图像示意图,如图6所示,点q所示的位置即为待分割目标区域的中心点,对应图4中的点P。图6中的灰度值依据图6所示的区域图像中的像素单元距离q点的距离的增大而增大。
在一种实施例中,终端基于区域图像,获得位移图像,包括:
终端确定区域图像中的像素单元与待分割目标的中心之间的距离;
对各个距离进行归一化处理,生成位移图像。
其中,各像素单元与待分割目标的中心之间的距离是指各像素单元与待分割目标的中心像素单元之间的欧式距离。基于获得的欧式距离,进行归一化处理来生成位移图像,有助于数据处理的方便性。其中,若待分割目标的中心像素单元在图像中的坐标为(x1,y1),区域图像中某一像素单元在图像中的坐标为(x2,y2),则该像素单元与中心像素单元之间的欧式距离D的计算方式如下:
Figure BDA0002219388810000051
示例性的,在一种实施例中,归一化方式为采用0均值标准化的方式,经过处理的数据符合标准正态分布,即均值为0,标准差为1。其转换函数如下:
x*=(x-u)/σ (2)
其中,x为归一化前的距离,u为各距离所对应的均值,σ为各距离对应的标准差,x*为归一化后的距离。
在本公开实施例的步骤S13中,终端将区域图像输入神经网络,或将区域图像和位移图像共同输入神经网络,该神经网络包括事先训练好的神经网络模型。该神经网络模型可在终端中训练获得,也可通过在服务器端训练而获得。在本公开的实施例中,以通过服务器端训练获得图像分割模型为例进行说明。
图7为本公开的实施例中一种神经网络的训练方法流程图,如图7所示,用于图像分割的神经网络模型的训练方法包括如下步骤:
S21、获取对待训练图像的操作信息;所述操作信息中至少包括待训练图像中属于分割目标的位置信息;
S22、基于位置信息对待训练图像进行裁剪,获取待训练图像中包括分割目标在内的待训练区域图像;
S23、基于区域图像对应的区域标签图像,构建分割权重图像;所述分割权重图像中的权重值表征区域标签图像中像素单元与分割目标的轮廓间的距离信息;
S24、根据待训练区域图像、区域标签图像、分割权重图像,利用神经网络训练图像分割模型;其中,所述分割权重图像用于构建神经网络中的损失函数。
在本公开实施例的步骤S21和S22中,在利用开源的语义分割数据库或开发人员新创建的语义分割数据库时,并非直接将数据库中的待训练图像作为输入图像,而是先对待训练图像进行预处理,获取包含分割目标在内的待训练区域图像。其中,语义分割数据库中还包括与待训练图像对应的,用于标识待训练图像中的分割目标的标签图像。
其中,步骤S21中,服务器获取对待训练图像的操作信息,可以是服务器基于数据库中与待训练图像对应的标签图像来采样获得属于分割目标的像素单元,并基于像素单元所携带的位置信息来确定待训练图像中属于分割目标的位置信息。
在步骤S22中,服务器在获得位置信息后,即可对待训练图像进行裁剪,获得待训练区域图像。
当然,在本公开的实施例中,服务器基于待训练区域图像获得图像分割模型前,还需对标签图像进行裁剪,获得对应的区域标签图像。在本公开的实施例中,区域标签图像所携带的信息也称为标签值。
示例性的,若将图3所示的图像假设为待训练图像,那么图4中的点P则对应服务器获得的属于分割目标的位置信息,图5则对应裁剪后的待训练区域图像。
图8为本公开实施例中一种标签图像的示意图,如图8所示,标签图像中的L1和L2分别用于标识图3中的分割目标:主体S1和主体S2。图9为本公开实施中一种区域标签图像的示意图,如图9所示,基于对属于主体S1的点P的操作,裁剪获得与待训练区域图像同样大小的区域标签图像。
在本公开实施例的步骤S23中,在获得区域标签图像后,即可构建分割权重图像,权重图像表征的是区域标签图像中的像素单元与分割目标的轮廓间的距离信息。在一种实施例中,像素单元与分割目标的轮廓间的距离与权重值呈正相关,即随着距离的增大,权重值增大。通常,权重值的范围是大于等于0,小于等于1。
示例性的,图10为本公开实施例的一种分割权重示意图,如图10所示,基于图9 的区域标签图像获得的分割权重图像中,随着离分割目标的轮廓间的距离,灰度值呈现逐步变化的过程,灰度值即表征权重值。
在步骤S24中,权重图像用于构建神经网络中的损失函数,是指权重图像中的权重值作为权重系数参与到损失值的计算。
通常,在图像分割模型的训练过程中,会存在将属于主体的一部分画面分为背景,或者将背景分为主体的可能。而在某些场合下,用户更在意主体的完整性,也就是说主体被分割为背景的错误要尽量避免,而离主体边缘较近的背景被分割为主体的错误是可以容忍的。
示例性的,图11为一种图像分割结果示意图二,如图11所示,对于A中的主体,得到B和C所示的两种分割结果,其中,B中所示的部分背景被分割为主体是可以接受的,而C中主体的一部分被分为了背景是需要尽量减少的情况。
基于此,在本公开的实施例中,为保证分割目标的完整性,在损失值的获取过程中,基于区域标签图像来构建的权重图像,可以使得模型在对主体的靠近边界区域如果不确定,更倾向于将其标记为主体。
通常,在采用神经网络来构建模型的方法中,损失函数用于衡量模型预测的好坏,基于构建的损失函数,例如使用梯度下降法来反向调整基础神经网络的训练参数,使模型收敛,即使得最终获得模型更优。而其中,损失函数的选取,也在一定程度上影响了模型的好坏。在图像分割模型的训练中,交叉熵损失函数是经常使用的一种方法,而本公开实施例不同的是,构建的带权重的交叉熵损失函数,其公式如下所示:
loss=avgWiCE(Mi,Oi) (3)
其中,CE为交叉熵(Cross Entropy)的缩写;Mi代表输入的区域标签图像中的像素单元;Oi代表采用基础神经网络获得的预测结果中的像素单元;Wi即为像素单元对应的权重值;loss代表损失值,损失值越小说明模型越收敛,则得到的预测结果越接近真实值。需要说明的是,上述Ci、Oi、Wi中的像素单元具有一一对应的关系。
在一种实施例中,为建立更好的图像分割模型,也可将待训练区域图像和基于待训练区域图像获得的用于反映结构信息的位移图像一同送入神经网络。其中,基于待训练区域图像获得位移图像的方法同步骤S13中所示的方法,位移图像的示意图也可参照图6。
示例性的,图12为本公开实施例中一种基于神经网络的图像分割模型的训练结构示意图,如图12所示,(1)标识的是对应图5的待训练区域图像,(2)标识的是对应图6的位移图像,将待训练区域图像和位移图像所携带的信息拼接一同作为分割网络的输入,该分割网络可理解为基础神经网络。通过分割网络做预测后,得到(3)所标识的预测结果,即预测值。随后,通过(4)标识的对应图9的区域标签图像,以及(5)标识的对应图10的分割权重图像即可构建损失函数,例如,采用上述公式(3 )中的方式构建损失函数。
在一种实施例中,当神经网络模型在终端中训练获得时,类似于图12中所示的训练过程中损失函数的构建中,应用于终端中的图像分割方法还包括:
终端利用预定损失函数计算神经网络中的训练损失;其中,利用预定损失函数计算所述神经网络中的训练损失,包括:获取标签图像中各像素单元与目标的轮廓间的距离;根据距离确定计算权重;基于计算权重和各像素单元的预测值和标签值之间的差异,得到单个像素单元的损失值;根据各像素单元的损失值,确定训练损失;
基于训练损失,调整神经网络的网络参数。
在该实施例中,示例性的,预定损失函数为带权重的交叉熵损失函数。
如前所述的,神经网络模型在训练过程中,会事先利用基础神经网络来获得预测值,在一种实施例中,基础神经网络为DeepLab网络结构。
图13为DeepLab网络结构示意图,如图13所示,DeepLab网络结构包括:编码层和解码层。其中,编码层用于获得输入图像的高级语义信息,例如反映图像结构的特征;解码层用于获得属于输入图像的边界信息,例如轮廓特征。根据上述图高级语义信息和边界信息即可获得预测值。
具体的,在编码层中,基于深度卷积神经网络(Deep Convolutional NeuralNetwork, DCNN),在5个不同分辨率的特征图上分别应用多个不同空洞卷积率的空洞卷积(Atrous Conv)核并行计算及池化,并将输出的5个分辨率相同的输出特征图进行通道连接。其中,空洞卷积率是指空洞的大小,反映了对待卷积图像的像素单元进行采样的频率,如图 13所示的,在采用3*3的卷积核进行卷积时,空洞卷积率分别为6、12、18。在进行通道连接之后,再经过1*1卷积核进行通道数降维,降维后的特征图的空间分辨率相对于原输入图像降低,例如为输入图像的1/16。
在解码层中,对编码层输出的特征图上采样4倍,再取编码层中与上采样4倍后的分辨率相同的低层特征经过1*1卷积降通道,将上采样4倍后的特征图和经过卷积降通道后的特征图连接,并通过3*3的卷积核细化特征,随后将细化特征上采用4倍得到预测值。
如图13所示的,输入图像中的主体是猫,经过Deeplab网络的编码过程和解码过程后,输出的预测值是标识出的属于猫的区域的图像,该图像的大小和输入图像的大小相同。
当然,在上述训练过程中,可以对待训练的输入图像做一些增强化的处理,例如对输入图像做旋转等操作来增加训练的数据量,提高模型的泛化能力。或者,在输入图像上添加一些额外噪声,提升模型的鲁棒性。
在本公开的实施例中,可以仅将待训练区域图像输入DeepLab网络训练获得图像分割模型,也可将待训练区域图像和对应的位移图像共同输入DeepLab网络训练获得图像分割模型。因此,在基于训练好的模型做图像分割时,也可如步骤S13中记载的,仅将区域图像输入DeepLab网络,或将区域图像和位移图像共同输入DeepLab网络。
需要说明的是,在本公开的实施例中,DeepLab网络只是一种示例性的用于图像分割的网络模型,本公开实施例并不限制神经网络模型的选取。
基于上述过程,在步骤S14中,终端即可根据操作位置信息将分割结果映射到图像中,获得图像中的分割结果。
可以理解的是,在本公开的实施例中,终端在对图像进行分割前,会事先基于用户的操作对图像进行裁剪,获得包括分割目标在内的区域图像,一方面,通过操作信息减少了输入图像的尺寸减少了神经网络需要处理的图像面积,从而能提升图像分割的处理速度;另一方面通过操作信息减少了不属于分割目标的背景区域对分割目标的干扰,更有利于神经网络做预测,因此能提升图像分割的准确性。
下面以一种用户拍照场景为例,在本公开的实施例中,用户可通过点击预览画面中需要分割的主体来触发拍照,以在拍照获得画面中得到突出显示的主体以及相对虚化的背景。
图14为本公开实施例中一种图像分割方法的流程示例图,如图14所示,包括如下步骤:
S31、终端接收用户对预览画面中图像的点击操作。
S32、终端获得点击点P对应的操作位置信息,并截取矩形区域r获得裁剪图像(1)。
S33、终端根据裁剪图像(1)获得位移图像(2)。
S34、终端将裁剪图像(1)和位移图像(2)拼接后输入分割网络,并获得分割结果(3)。
在上述步骤S32至S34中,裁剪图像(1)即为区域图像。图15为本公开实施例对应在终端侧的图像分割方法的结构示意图,如图15所示,仍以图4所示的获取区域图像的示意图为例,获得裁剪图像(1),即图5标识的区域图像;以及获得位移图像(2)即图6标识的位移图像。将裁剪图像(1)和位移图像(2)所携带的信息拼接一同作为训练好的分割网络的输入,得到(3)所标识的分割结果。
S35、终端将分割结果(3)映射到原预览画面中的图像。
S36、终端显示拍照后的图像。
可以理解的是,在本公开的实施例中,基于用户的点击操作来进行拍照,基于终端中内部的图像分割处理方法,提升了拍照的速度和拍照效果。
图16是根据一示例性实施例示出的一种图像分割装置图。参照图16,该图像分割装置包括第一获得模块121,裁剪模块122,第二获得模块123,第三获得模块124。
第一获得模块121,配置为获得对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;
裁剪模块122,配置为基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;
第二获得模块123,配置为将所述区域图像输入神经网络,获得对应于所述区域图像的分割结果,所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
第三获得模块124,配置为根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。
在一个可选的实施例中,所述装置还包括:
第四获得模块,配置为基于所述区域图像,获得位移图像;其中,所述位移图像表征所述区域图像中的像素单元与所述待分割目标的中心的距离信息;
所述第二获得模块123,具体配置为将所述区域图像和所述位移图像输入所述神经网络,获得对应于所述区域图像的所述分割结果。
在一个可选的实施例中,所述第四获得模块,具体配置为确定所述区域图像中的像素单元与所述待分割目标的中心之间的距离;各个所述距离进行归一化处理,生成所述位移图像。
在一个可选的实施例中,所述第一获得模块121,具体配置为检测作用于所述图像中待分割目标的用户输入操作;获得所述用户输入操作对应在所述图像中的所述操作位置信息。
在一个可选的实施例中,所述装置还包括:
调整模块,配置为利用预定损失函数计算所述神经网络中的训练损失;其中,所述利用预定损失函数计算所述神经网络中的训练损失,包括:获取标签图像中各像素单元与目标的轮廓间的距离;根据所述距离确定计算权重;基于所述计算权重和各所述像素单元的预测值和标签值之间的差异,得到单个所述像素单元的损失值;根据各所述像素单元的损失值,确定所述训练损失;
基于所述训练损失,调整所述神经网络的网络参数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图17是根据一示例性实施例示出的一种移动终端装置800的框图。例如,装置800可以是移动电话,移动电脑等。
参照图17,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件 814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800 一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA) 技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行控制方法,所述方法包括:
获得对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;
基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;
将所述区域图像输入神经网络,获得对应于所述区域图像的分割结果;所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种图像分割方法,其特征在于,所述方法包括:
获得对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;
基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;
基于所述区域图像,获得位移图像;其中,所述位移图像表征所述区域图像中的像素单元与所述待分割目标的中心的距离信息;
将所述区域图像和所述位移图像输入神经网络,获得对应于所述区域图像的分割结果;所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述区域图像,获取位移图像,包括:
确定所述区域图像中的像素单元与所述待分割目标的中心之间的距离;
对各个所述距离进行归一化处理,生成所述位移图像。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述获得对图像的操作信息,包括:
检测作用于所述图像中待分割目标的用户输入操作;
获得所述用户输入操作对应在所述图像中的所述操作位置信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预定损失函数计算所述神经网络中的训练损失;其中,所述利用预定损失函数计算所述神经网络中的训练损失,包括:获取标签图像中各像素单元与目标的轮廓间的距离;根据所述距离确定计算权重;基于所述计算权重和各所述像素单元的预测值和标签值之间的差异,得到单个所述像素单元的损失值;根据各所述像素单元的损失值,确定所述训练损失;
基于所述训练损失,调整所述神经网络的网络参数。
5.一种图像分割装置,其特征在于,所述装置包括:
第一获得模块,配置为获得对图像的操作信息;所述操作信息中至少包括对所述图像中待分割目标的操作位置信息;
裁剪模块,配置为基于所述操作位置信息对所述图像进行裁剪,获得包括所述待分割目标的区域图像;
第四获得模块,配置为基于所述区域图像,获得位移图像;其中,所述位移图像表征所述区域图像中的像素单元与所述待分割目标的中心的距离信息;
第二获得模块,配置为将所述区域图像和所述位移图像输入神经网络,获得对应于所述区域图像的分割结果,所述分割结果至少用于指示所述区域图像中所述待分割目标的外轮廓;
第三获得模块,配置为根据所述操作位置信息将所述分割结果映射到所述图像中,获得所述图像中的分割结果。
6.根据权利要求5所述的装置,其特征在于,
所述第四获得模块,具体配置为确定所述区域图像中的像素单元与所述待分割目标的中心之间的距离;各个所述距离进行归一化处理,生成所述位移图像。
7.根据权利要求5至6中任一项所述的装置,其特征在于,
所述第一获得模块,具体配置为检测作用于所述图像中待分割目标的用户输入操作;获得所述用户输入操作对应在所述图像中的所述操作位置信息。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
调整模块,配置为利用预定损失函数计算所述神经网络中的训练损失;其中,所述利用预定损失函数计算所述神经网络中的训练损失,包括:获取标签图像中各像素单元与目标的轮廓间的距离;根据所述距离确定计算权重;基于所述计算权重和各所述像素单元的预测值和标签值之间的差异,得到单个所述像素单元的损失值;根据各所述像素单元的损失值,确定所述训练损失;
基于所述训练损失,调整所述神经网络的网络参数。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1至4中任一项所述的图像分割方法。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如权利要求1至4中任一项所述的图像分割方法。
CN201910927818.0A 2019-09-27 2019-09-27 图像分割方法及装置、终端、存储介质 Active CN110751659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910927818.0A CN110751659B (zh) 2019-09-27 2019-09-27 图像分割方法及装置、终端、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910927818.0A CN110751659B (zh) 2019-09-27 2019-09-27 图像分割方法及装置、终端、存储介质

Publications (2)

Publication Number Publication Date
CN110751659A CN110751659A (zh) 2020-02-04
CN110751659B true CN110751659B (zh) 2022-06-10

Family

ID=69277355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910927818.0A Active CN110751659B (zh) 2019-09-27 2019-09-27 图像分割方法及装置、终端、存储介质

Country Status (1)

Country Link
CN (1) CN110751659B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113315924A (zh) * 2020-02-27 2021-08-27 北京字节跳动网络技术有限公司 图像特效处理方法及装置
CN112419331A (zh) * 2020-11-13 2021-02-26 珠海格力电器股份有限公司 一种图像分割方法、装置、终端、存储介质及处理器
CN112651974A (zh) * 2020-12-29 2021-04-13 上海联影智能医疗科技有限公司 图像分割方法及系统、电子设备及存储介质
CN113052774B (zh) * 2021-03-30 2022-10-21 上海商汤智能科技有限公司 图像优化方法及相关模型的训练方法和相关装置、设备
CN113256650A (zh) * 2021-05-13 2021-08-13 广州繁星互娱信息科技有限公司 图像分割方法、装置、设备及介质
CN113470051B (zh) * 2021-09-06 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 图像分割方法、计算机终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1791087A1 (en) * 2005-11-23 2007-05-30 Agfa HealthCare NV Method for point-of-interest attraction in digital images
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN107633237A (zh) * 2017-09-30 2018-01-26 北京金山安全软件有限公司 图像背景分割方法、装置、设备及介质
CN108986110A (zh) * 2018-07-02 2018-12-11 Oppo(重庆)智能科技有限公司 图像处理方法、装置、移动终端及存储介质
WO2019015785A1 (en) * 2017-07-21 2019-01-24 Toyota Motor Europe METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION
CN110211134A (zh) * 2019-05-30 2019-09-06 上海商汤智能科技有限公司 一种图像分割方法及装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1791087A1 (en) * 2005-11-23 2007-05-30 Agfa HealthCare NV Method for point-of-interest attraction in digital images
WO2019015785A1 (en) * 2017-07-21 2019-01-24 Toyota Motor Europe METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN107633237A (zh) * 2017-09-30 2018-01-26 北京金山安全软件有限公司 图像背景分割方法、装置、设备及介质
CN108986110A (zh) * 2018-07-02 2018-12-11 Oppo(重庆)智能科技有限公司 图像处理方法、装置、移动终端及存储介质
CN110211134A (zh) * 2019-05-30 2019-09-06 上海商汤智能科技有限公司 一种图像分割方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110751659A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110751659B (zh) 图像分割方法及装置、终端、存储介质
CN108256555B (zh) 图像内容识别方法、装置及终端
CN109871896B (zh) 数据分类方法、装置、电子设备及存储介质
CN106651955B (zh) 图片中目标物的定位方法及装置
US20210012143A1 (en) Key Point Detection Method and Apparatus, and Storage Medium
CN108629354B (zh) 目标检测方法及装置
CN110782468B (zh) 图像分割模型的训练方法及装置及图像分割方法及装置
CN107944447B (zh) 图像分类方法及装置
CN107992848B (zh) 获取深度图像的方法、装置及计算机可读存储介质
US10248855B2 (en) Method and apparatus for identifying gesture
CN109670077B (zh) 视频推荐方法、装置和计算机可读存储介质
CN108009563B (zh) 图像处理方法、装置及终端
CN114267041B (zh) 场景中对象的识别方法及装置
CN108717542B (zh) 识别文字区域的方法、装置及计算机可读存储介质
CN115641518A (zh) 一种无人机用视图感知网络模型及目标检测方法
CN111882558A (zh) 图像处理方法及装置、电子设备和存储介质
CN109784327B (zh) 边界框确定方法、装置、电子设备及存储介质
CN107992894B (zh) 图像识别方法、装置及计算机可读存储介质
CN112036307A (zh) 图像处理方法及装置、电子设备和存储介质
CN108596957B (zh) 物体跟踪方法及装置
CN114120034A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN109711386B (zh) 获取识别模型的方法、装置、电子设备及存储介质
CN112200820A (zh) 三维图像处理方法及装置、电子设备和存储介质
CN115510336A (zh) 信息处理方法、装置、电子设备及存储介质
CN110674416A (zh) 游戏推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant