CN112085746B - 一种基于增强特征表示的图像分割方法 - Google Patents

一种基于增强特征表示的图像分割方法 Download PDF

Info

Publication number
CN112085746B
CN112085746B CN202010937140.7A CN202010937140A CN112085746B CN 112085746 B CN112085746 B CN 112085746B CN 202010937140 A CN202010937140 A CN 202010937140A CN 112085746 B CN112085746 B CN 112085746B
Authority
CN
China
Prior art keywords
category
probability
representing
pixel
scaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010937140.7A
Other languages
English (en)
Other versions
CN112085746A (zh
Inventor
安竹林
许开强
程坦
徐勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Xiamen Data Intelligence Research Institute
Original Assignee
Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202010937140.7A priority Critical patent/CN112085746B/zh
Publication of CN112085746A publication Critical patent/CN112085746A/zh
Application granted granted Critical
Publication of CN112085746B publication Critical patent/CN112085746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于增强特征表示的图像分割方法,包括如下步骤:S1、以卷积神经网络作为骨干网络,将待分割图像输入到卷积神经网络以获得初次分割结果,输出特征图;S2、利用全局平均池化捕获所述特征图的类别整体特征;S3、重建像素特征,将其用于分类获得最终的分割图像。本发明通过捕获各类别的整体特征,将其作用于各类别内像素点,进而增强像素特征表示,提高类内像素点的相似度和类间像素点的判别性,从而提高图像分割的准确性。

Description

一种基于增强特征表示的图像分割方法
技术领域
本发明涉及图像分割技术领域,特别涉及一种基于增强特征表示的图像分割方法。
背景技术
场景分割的核心是要将同类别的区域标记为同个标签,因此需要提高同属同一物体内的各像素点的相似度,同时要让不同物体的特征具有很好的区分度,即同时提高类内像素点的相似度和类间像素点的判别性,才有利于分为同一类,从而实现得到更加准确的图像分割结果。现有的方法通常采用注意力机制、最小生成树或分段最小生成树来捕获物体的大致区域以实现分类,但有研究表明注意力机制未能关注同类别区域,其他方法也存在计算量大的缺点。
发明内容
为解决上述问题,本发明提供了一种基于增强特征表示的图像分割方法。
本发明采用以下技术方案:
一种基于增强特征表示的图像分割方法,包括如下步骤:
S1、以卷积神经网络作为骨干网络,将待分割图像输入到卷积神经网络以获得初次分割结果,输出特征图;
S2、利用全局平均池化捕获所述特征图的类别整体特征;
S3、重建像素特征,将其用于分类获得最终的分割图像。
进一步地,所述步骤S2具体为:
S21、使用初步监督将特征图划分成C个区域{R1,R2,...,Rc},其中Rc表示第c类别的区域;
S22、使用各个区域到所述特征图中提取每个类别的整体特征,其公式如下所示:uc=GAP(F*pc),其中,uc表示第c类的整体特征,F表示所述卷积神经网络输出的所述特征图,S21中所述区域提议Rc经过自动广播操作后,与F相乘,获得第c类的张量表示,GAP表示全局平均池化,每个类别的全局平均池化的区域是不同的,是Rc的非0区域。
进一步地,所述步骤S3具体为:
S31、每个像素点拥有概率值向量(p1,p2,...,pC),将向量内概率值均小于等于0.5的像素点形成的集合确定为边界区域,利用放缩函数对所述边界区域的概率进行放缩,拉大最大概率值与其他概率值之间的差距,即:
其中,(p1,p2,…,pC)表示该点判别为各类别的概率,(p1new,p2new,…,pCnew)表示放缩后的概率;
S32、关注最大概率值所指示的那个类别的特征,利用对各类别特征加权运算的方式建立像素点与类别整体特征融合,增强各像素点的特征表示,即:
其中,(u1,u2,…,uC)表示各类别的整体特征,C表示类别数,ρ表示加权运算后的特征变换函数,上式表示像素点放缩后的概率与类别整体特征融合后获得的增强特征。
进一步地,所述放缩函数为:0≤pi≤1,其中,f()表示对概率值进行缩放,wi为C维的向量,表示第i个像素点分类为各个类别的概率,λ是超参数,用于控制放缩的规模,当λ≥1时,才能放大最大值与其他值之间的间距,否则,将会拉小间距,Z是归一化系数,其计算方法为:/>
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、通过捕获各类别的整体特征,将其作用于各类别内像素点,进而增强像素特征表示,提高类内像素点的相似度和类间像素点的判别性,从而提高图像分割的准确性;
2、通过对边界区域的像素点的分类概率值进行放缩,使其更加关注于某一个类别特征,达到对最大概率的类别给予更多关注的目的,从而获得更好的分割边界;
3、与仅采用骨干网络即卷积神经网络获得的初步分割结果相比,本发明由于采用了提升像素特征的判别表示,分割的准确性得到了较大的提升;
4、本发明通过将各类别的整体特征与像素点融合,实现对通类别区域的关注,克服了现有的注意力机制未能关注同类别区域的缺陷。
附图说明
图1为本发明工作流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,一种基于增强特征表示的图像分割方法,包括如下步骤:
一种基于增强特征表示的图像分割方法,包括如下步骤:
S1、以卷积神经网络作为骨干网络,将待分割图像输入到卷积神经网络以获得初次分割结果,输出特征图;
S2、利用全局平均池化捕获所述特征图的类别整体特征;
S3、重建像素特征,将其用于分类获得最终的分割图像。
所述步骤S2具体为:
S21、使用初步监督将特征图划分成C个区域{R1,R2,...,Rc},其中Rc表示第c类别的区域;
S22、使用各个区域到所述特征图中提取每个类别的整体特征,其公式如下所示:uc=GAP(F*Rc),其中,uc表示第c类的整体特征,F表示所述卷积神经网络输出的所述特征图,S21中所述区域提议Rc经过自动广播操作后,与F相乘,获得第c类的张量表示,GAP表示全局平均池化,每个类别的全局平均池化的区域是不同的,是Rc的非0区域。
这里,通过在骨干网络即卷积神经网络(CNN)中间层或出口处加监督信号,得到初步分割结果,该结果反应了各个类别在各个点出现的概率,因此使用该初步分割结果作为这C个可能区域的提议,值的注意的是,在输入图像中可能没有第c类别,那么其区域提议则为空。
所述步骤S3具体为:
S31、利用放缩函数对所述边界区域的概率进行放缩,拉大最大概率值与其他概率值之间的差距,确定概率值较低的区域作为边界区域,即:
其中,(p1,p2,…,pC)表示该点判别为各类别的概率,(p1new,p2new,…,pCnew)表示放缩后的概率;
S32、关注最大概率值所指示的那个类别的特征,利用对各类别特征加权运算的方式建立像素点与类别整体特征融合,增强各像素点的特征表示,即:
其中,(u1,u2,…,uC)表示各类别的整体特征,C表示类别数,ρ表示加权运算后的特征变换函数,上式表示像素点放缩后的概率与类别整体特征融合后获得的增强特征。
建立像素点与类别之间联系最直观的方法是加权汇总各个类别的特征:yi≤i≤HW=ρ(p1*u1+p2*u2+...+pC*uC);
然而这种方法会导致边界变得模糊,其最大概率值与次大概率值非常接近,其每个类之间的概率值差异并不大,存在歧义。如果仍旧使用加权平均,反而会放大歧义区域。由于边界非常重要,因此,在重建像素特征的阶段,本实施例提出使用“关注特征”的方法如步骤S31中所阐述拉大最大概率值与其他概率值之间的差距,使得边界不被加权平滑。
为了实现输入值在[0,1)时仍然具备放缩效果,专门设计了放缩函数,所述放缩函数为:0≤pi≤1,其中,f()表示对概率值进行缩放,wi为C维的向量,表示第i个像素点分类为各个类别的概率,λ是超参数,用于控制放缩的规模,当λ≥1时,才能放大最大值与其他值之间的间距,否则,将会拉小间距,Z是归一化系数,其计算方法为:/>本实例取λ=1。
本实施例通过捕获各类别的整体特征,将其作用于各类别内像素点,进而增强像素特征表示,提高类内像素点的相似度和类间像素点的判别性,从而提高图像分割的准确性;通过对边界区域的像素点的分类概率值进行放缩,使其更加关注于某一个类别特征,达到对最大概率的类别给予更多关注的目的,从而获得更好的分割边界;与仅采用骨干网络即卷积神经网络获得的初步分割结果相比,本实施例由于采用了提升像素特征的判别表示,分割的准确性得到了较大的提升;本实施例通过将各类别的整体特征与像素点融合,实现对通类别区域的关注,克服了现有的注意力机制未能关注同类别区域的缺陷。
综上,整个流程可总结为:
这里,yi表示最终分类结果,c表示类别c,总类别数则是C,wi为C维的向量,表示第i个像素点分类为各个类别的概率,wi,c示第i个像素点分类为第c类的概率,f()则是该方法重建像素特征中的“关注特征”变换,uc表示第c个类别的整体特征,ρ表示加权运算后的特征变换函数。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (2)

1.一种基于增强特征表示的图像分割方法,其特征在于:包括如下步骤:
S1、以卷积神经网络作为骨干网络,将待分割图像输入到卷积神经网络以获得初次分割结果,输出特征图;
S2、利用全局平均池化捕获所述特征图的类别整体特征;
所述步骤S2具体为:
S21、使用初步监督将特征图划分成C个区域{R1,R2,...,Rc},其中Rc表示第c类别的区域;
S22、使用各个区域到所述特征图中提取每个类别的整体特征,其公式如下所示:uc=GAP(F*Rc),其中,uc表示第c类的整体特征,F表示所述卷积神经网络输出的所述特征图,S21中所述区域提议Rc经过自动广播操作后,与F相乘,获得第c类的张量表示,GAP表示全局平均池化,每个类别的全局平均池化的区域是不同的,是Rc的非0区域;
S3、重建像素特征,将其用于分类获得最终的分割图像;
所述步骤S3具体为:
S31、每个像素点拥有概率值向量(p1,p2,…,pC),将向量内概率值均小于等于0.5的像素点形成的集合确定为边界区域,利用放缩函数对所述边界区域的概率进行放缩,拉大最大概率值与其他概率值之间的差距,即:
其中,(p1,p2,…,pC)表示该点判别为各类别的概率,(p1new,p2new,…,pCnew)表示放缩后的概率;
S32、关注最大概率值所指示的那个类别的特征,利用对各类别特征加权运算的方式建立像素点与类别整体特征融合,增强各像素点的特征表示,即:
其中,(u1,u2,…,uC)表示各类别的整体特征,C表示类别数,ρ表示加权运算后的特征变换函数,上式表示像素点放缩后的概率与类别整体特征融合后获得的增强特征。
2.如权利要求1所述的一种基于增强特征表示的图像分割方法,其特征在于:所述放缩函数为:其中,f()表示对概率值进行缩放,wi为C维的向量,表示第i个像素点分类为各个类别的概率,λ是超参数,用于控制放缩的规模,当λ≥1时,才能放大最大值与其他值之间的间距,否则,将会拉小间距,Z是归一化系数,其计算方法为:/>
CN202010937140.7A 2020-09-08 2020-09-08 一种基于增强特征表示的图像分割方法 Active CN112085746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010937140.7A CN112085746B (zh) 2020-09-08 2020-09-08 一种基于增强特征表示的图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010937140.7A CN112085746B (zh) 2020-09-08 2020-09-08 一种基于增强特征表示的图像分割方法

Publications (2)

Publication Number Publication Date
CN112085746A CN112085746A (zh) 2020-12-15
CN112085746B true CN112085746B (zh) 2024-02-02

Family

ID=73732481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010937140.7A Active CN112085746B (zh) 2020-09-08 2020-09-08 一种基于增强特征表示的图像分割方法

Country Status (1)

Country Link
CN (1) CN112085746B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765423A (zh) * 2018-06-20 2018-11-06 北京七鑫易维信息技术有限公司 一种卷积神经网络训练方法及装置
US10140544B1 (en) * 2018-04-02 2018-11-27 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
CN109886971A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像分割方法及系统
US10452960B1 (en) * 2018-10-01 2019-10-22 Texas Instruments Incorporated Image classification

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600006B2 (en) * 2018-10-26 2023-03-07 Here Global B.V. Deep neural network architecture for image segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140544B1 (en) * 2018-04-02 2018-11-27 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
CN108765423A (zh) * 2018-06-20 2018-11-06 北京七鑫易维信息技术有限公司 一种卷积神经网络训练方法及装置
US10452960B1 (en) * 2018-10-01 2019-10-22 Texas Instruments Incorporated Image classification
CN109886971A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像分割方法及系统

Also Published As

Publication number Publication date
CN112085746A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN109033950B (zh) 基于多特征融合级联深度模型的车辆违停检测方法
CN111768388B (zh) 一种基于正样本参考的产品表面缺陷检测方法及系统
CN113112519B (zh) 基于感兴趣目标分布的关键帧筛选方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN116863342B (zh) 一种基于大尺度遥感影像的松材线虫病死木提取方法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN111783729A (zh) 视频分类方法、装置、设备及存储介质
CN112507849A (zh) 一种基于条件生成对抗网络的动态到静态场景转换方法
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN114926826A (zh) 场景文本检测系统
CN112489064B (zh) 一种基于边缘放缩修正的全景分割方法
CN112085746B (zh) 一种基于增强特征表示的图像分割方法
CN112508787A (zh) 一种基于图像超分辨的目标检测方法
CN117011346A (zh) 鼓风机图像配准算法
CN116721288A (zh) 一种基于YOLOv5的安全帽检测方法及系统
CN111127355A (zh) 一种对缺损光流图进行精细补全的方法及其应用
CN116798118A (zh) 一种基于TPH-yolov5的异常行为检测方法
JP2005352718A (ja) 代表画像選択装置,代表画像選択方法および代表画像選択プログラム
CN113379001B (zh) 针对图像识别模型的处理方法及装置
CN116012299A (zh) 一种基于目标识别的复合绝缘子憎水性等级检测方法
CN115311456A (zh) 基于改进DeepLabv3+的风口焦炭分割方法
CN114267052A (zh) 一种基于yolov5的行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Patentee after: Zhongke (Xiamen) data Intelligence Research Institute

Country or region after: China

Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Patentee before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences

Country or region before: China