CN113936141B - 图像语义分割方法及计算机可读存储介质 - Google Patents

图像语义分割方法及计算机可读存储介质 Download PDF

Info

Publication number
CN113936141B
CN113936141B CN202111546097.2A CN202111546097A CN113936141B CN 113936141 B CN113936141 B CN 113936141B CN 202111546097 A CN202111546097 A CN 202111546097A CN 113936141 B CN113936141 B CN 113936141B
Authority
CN
China
Prior art keywords
semantic
pixel
image
initial
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111546097.2A
Other languages
English (en)
Other versions
CN113936141A (zh
Inventor
刘国清
杨广
王启程
郑伟
张见阳
杨国武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjia Innovation Technology Co ltd
Original Assignee
Shenzhen Minieye Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Minieye Innovation Technology Co Ltd filed Critical Shenzhen Minieye Innovation Technology Co Ltd
Priority to CN202111546097.2A priority Critical patent/CN113936141B/zh
Publication of CN113936141A publication Critical patent/CN113936141A/zh
Application granted granted Critical
Publication of CN113936141B publication Critical patent/CN113936141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像语义分割方法,包括:将训练图像输入稳定语义分割模型以得到训练图像中每一像素的初始像素语义特征,其中,训练图像中与可见语义类别相对应的像素具有标注类别标签;将初始像素语义特征输入第一稳定注意力模型以得到训练图像的若干第一全局语义特征,其中,每一第一全局语义特征与一种预设类别相对应,预设类别包括可见语义类别和不可见语义类别;将第一全局语义特征和初始像素语义特征输入第二稳定注意力模型以得到训练图像中每一像素的增强像素语义特征;以及根据增强像素语义特征和预设类别的词向量之间的距离得到相应像素的语义类别,其中,语义类别为预设类别中的一种。本发明技术方案能够有效增强图像语义分割的性能。

Description

图像语义分割方法及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像语义分割方法及计算机可读存储介质。
背景技术
在自动驾驶、虚拟现实增强等应用场景,机器学习模型需要语义分割,即识别图像中每一像素所属的语义类别。零实例图像语义分割旨在能够将训练数据集中没有出现的不可见语义类别与训练数据集中出现过的可见语义类别均正确识别。现有实现相同功能的技术包括基于生成对抗网络和基于判别网络的零实例图像语义分割方法。然而,现有技术得到的图像语义分割结果与真实特征存在较大差距。
发明内容
本发明提供了一种图像语义分割方法及计算机可读存储介质,能够增强图像语义分割的性能。
第一方面,本发明实施例提供一种图像语义分割方法,所述图像语义分割方法包括:
将训练图像输入稳定语义分割模型以得到所述训练图像中每一像素的初始像素语义特征,其中,所述训练图像中与可见语义类别相对应的像素具有标注类别标签;
将所述初始像素语义特征输入第一稳定注意力模型以得到所述训练图像的若干第一全局语义特征,其中,每一所述第一全局语义特征与一种预设类别相对应,所述预设类别包括所述可见语义类别和不可见语义类别;
将所述第一全局语义特征和所述初始像素语义特征输入第二稳定注意力模型以得到所述训练图像中每一像素的增强像素语义特征;以及
根据所述增强像素语义特征和所述预设类别的词向量之间的距离得到相应像素的语义类别,其中,所述语义类别为所述预设类别中的一种。
第二方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序指令,所述程序指令可被处理器执行以实现如上所述的图像语义分割方法。
上述图像语义分割方法及计算机可读存储介质,根据训练图像的标注类别标签得到每一像素的初始像素语义特征,根据初始像素语义特征得到训练图像的第一全局语义特征,根据第一全局语义特征对初始像素语义特征进行增强以得到增强像素语义特征,最后根据增强像素语义特征和预设类别的词向量得到相应像素的语义类别。利用第一稳定注意力模型提取训练图像的第一全局语义特征,通过学习训练图像的第一全局语义特征实现性能较优的零实例图像语义分割,并通过初始像素语义特征提升了训练图像第一全局语义特征的准确性,从而获得了更易于迁移的信息。利用第二稳定注意力模型将第一全局语义特征注入初始像素语义特征,从而得到增强像素语义特征,显著提升了图像语义分割方法的性能。通过引入预设类别的词向量,建立了从可见语义类别到不可见语义类别的桥梁,从而实现了从可见语义类别到不可见语义类别的知识迁移,最终实现零实例图像语义分割。图像语义分割方法用于识别训练图像中每一像素的语义类别。从全局的角度,即整张训练图像的角度,辅助识别每一像素的语义类别,从而使得每一像素的语义类别能够更加准确地被识别。图像语义分割方法能够适用于各种零实例图像语义分割场景,具有广泛的应用性和较强的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的图像语义分割方法的流程图。
图2为本发明实施例提供的图像语义分割方法的第一子流程图。
图3为本发明实施例提供的图像语义分割方法的第二子流程图。
图4为本发明实施例提供的图像语义分割方法的第三子流程图。
图5为本发明实施例提供的图像语义分割方法的第四子流程图。
图6为本发明实施例提供的训练模型的内部结构示意图。
图7为本发明实施例提供的图像语义分割模型的内部结构示意图。
图8为本发明实施例提供的终端的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的规划对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,换句话说,描述的实施例根据除了这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,还可以包含其他内容,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于只清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请结合参看图1、图6和图7,图1为本发明实施例提供的图像语义分割方法的流程图,图6为本发明实施例提供的训练模型的内部结构示意图,图7为本发明实施例提供的图像语义分割模型的内部结构示意图。训练模型20包括第一初始注意力模型21、第二初始注意力模型22、第三初始注意力模型23以及初始语义分割模型24。图像语义分割模型30包括第一稳定注意力模型31、第二稳定注意力模型32以及稳定语义分割模型33。其中,第一稳定注意力模型31由第一初始注意力模型训练得到,第二稳定注意力模型32由第二初始注意力模型22训练得到,稳定语义分割模型33由初始语义分割模型24训练得到。第一稳定注意力模型31、第二稳定注意力模型32以及稳定语义分割模型33的具体训练过程将在下文详细描述。图像语义分割方法通过利用图像的全局信息和图像中标注的像素的语义类别识别图像中没有标注的像素的语义类别。图像语义分割方法具体包括如下步骤。
步骤S102,将训练图像输入稳定语义分割模型以得到训练图像中每一像素的初始像素语义特征。其中,训练图像中与可见语义类别相对应的像素具有标注类别标签。可见语义类别为预先设定的语义类别,标注类别标签为0-1向量。标注类别标签中的数值与可见语义类别一一对应,且标注类别标签中数值的数量与可见语义类别的数量相同。在本实施例中,当训练图像中的某一像素与某一可见语义类别相对应时,该像素的标注类别标签中与该可见语义类别相对应的数值为1,其余均为0。举例来说,设定可见语义类别为a、b、c。相应地,将训练图像中分别与类别a、类别b、类别c相对应的像素均人工打上相应的标注类别标签。其中,与类别a相对应的像素的标注类别标签为(1,0,0),与类别b相对应的像素的标注类别标签为(0,1,0),与类别c相对应的像素的标注类别标签为(0,0,1)。可以理解的是,训练图像中除了与可见语义类别相对应的像素以外的像素,均不进行标注。
将训练图像输入稳定语义分割模型33之前,将所有训练图像缩放成预设大小。即是说,所有训练图像的大小均相同。语义分割模型包括但不限于U-Net、FCN(FullyConvolutional Networks)、SegNet、PSPNet、DeepLabV1/V2/V3/V3+等神经网络模型。在本实施例中,语义分割模型为DeepLabV3+神经网络模型。稳定语义分割模型33为训练好的、参数稳定的语义分割模型。每一像素的初始像素语义特征表示相应像素的像素信息。其中,初始像素语义特征为向量。可以理解的是,由于只对与可见语义类别的像素进行了标注,训练图像中仍然存在大量没有标注类别标签的像素。因此,与每一像素相对应的初始像素语义特征并不能准确表示像素的语义类别。
步骤S104,将初始像素语义特征输入第一稳定注意力模型以得到训练图像的若干第一全局语义特征。在本实施例中,第一稳定注意力模型31为训练好的、参数稳定的注意力模型。第一稳定注意力模型31为应用了注意力机制的神经网络模型,第一稳定注意力模型31将权重的重要性从像素转移到全局特征。每一第一全局语义特征与一种预设类别相对应,预设类别包括可见语义类别和不可见语义类别。相应地,第一全局语义特征为向量。其中,预设类别为预先设定的语义类别,可见语义类别为训练图像中像素的标注类别标签所对应的语义类别,不可见语义类别为想要对训练图像中的其它像素进行标注的语义类别。可以理解的是,每一训练图像均与若干预设类别相关联,通过第一稳定注意力模型31可以将训练图像关联的预设类别找到,并形成相应的第一全局语义特征。举例来说,设定可见语义类别为a、b、c,设定不可见语义类别为h、i、j、k。则在对训练图像进行标签标注时,只对训练图像中与可见语义类别的像素进行标注,与不可见语义类别相对应的像素则不进行标注。若训练图像A与类别a、类别c、类别h、类别i相关联,则训练图像A相应有4个第一全局语义特征,每一第一全局语义特征分别与类别a、类别c、类别h、类别i一一对应。
在本实施例中,利用第三公式计算第一全局语义特征。其中,第三公式为
Figure 100002_DEST_PATH_IMAGE001
Figure 270788DEST_PATH_IMAGE002
表示第一全局语义特征,
Figure 100002_DEST_PATH_IMAGE003
表示第一稳定注意力模型,
Figure 685589DEST_PATH_IMAGE004
表示初始像素语义特征,
Figure 100002_DEST_PATH_IMAGE005
表示第一稳定注意力模型的第七参数,
Figure 690454DEST_PATH_IMAGE006
表示转置,
Figure 100002_DEST_PATH_IMAGE007
表示函数。
步骤S106,将第一全局语义特征和初始像素语义特征输入第二稳定注意力模型以得到训练图像中每一像素的增强像素语义特征。在本实施例中,第二稳定注意力模型32为训练好的、参数稳定的注意力模型。第二稳定注意力模型32将权重的重要性从全局特征转移到像素。可以理解的是,第二稳定注意力模型32将第一全局语义特征和初始像素语义特征进行关联,使得增强像素语义特征能够融合训练图像的全局信息。相应地,增强像素语义特征为向量。将第一全局语义特征和初始像素语义特征输入第二稳定注意力模型32以得到训练图像中每一像素的增强像素语义特征的具体过程将在下文详细描述。
步骤S108,根据增强像素语义特征和预设类别的词向量之间的距离得到相应像素的语义类别。计算增强像素语义特征和每一词向量之间的距离,并选取最小距离所对应的词向量的预设类别作为相应像素的语义类别。在本实施例中,根据余弦相似度来计算增强像素语义特征和每一词向量之间的距离。可以理解的是,增强像素语义特征和词向量之间的距离越小,表示增强像素语义特征与词向量越相似;增强像素语义特征和词向量之间的距离越大,表示增强像素语义特征与词向量越不相似。因此,选择最小距离所对应的词向量的预设类别作为相应像素的语义类别。其中,语义类别为预设类别中的一种。即是说,根据训练图像中每一增强像素语义特征和预设类别的词向量之间的距离,可以得到训练图像中每一像素的语义类别。当像素具有标注类别标签时,该像素的语义类别为可见语义类别。训练图像中没有标注的像素也能够得到相应的语义类别,即不可见语义类别。举例来说,设定可见语义类别为a、b、c,设定不可见语义类别为h、i、j、k。训练图像A中像素A100的增强像素语义特征与每一预设类别的词向量之间的距离分别为0.7、0.3、0.2、0.1、0.5、0.7、0.9,训练图像A中像素A111的增强像素语义特征与每一预设类别的词向量之间的距离分别为0.7、0.3、0.2、0.5、0.5、0.7、0.9。则,像素A100的语义类别为类别h,像素A111的语义类别为类别c。可以理解的是,像素A100没有标注类别标签,像素A111具有标注类别标签(0,0,1)。
在本实施例中,预设类别的词向量通过词向量模型得到。词向量模型包括但不限于word2vector、glove、ELMo、BERT等神经网络模型。在本实施例中,词向量模型为word2vector模型。词向量模型将预设类别名称中每一个具有完整含义的单词转变为一个子词向量。与同一预设类别相对应的所有子词向量取平均值可以得到相应预设类别的准词向量。将预设类别的准词向量除以相应准词向量的L2范数,以标准化该准词向量,从而得到预设类别的词向量。标准化后的词向量的模长均为1。
上述实施例中,根据训练图像的标注类别标签得到每一像素的初始像素语义特征,根据初始像素语义特征得到训练图像的第一全局语义特征,根据第一全局语义特征对初始像素语义特征进行增强以得到增强像素语义特征,最后根据增强像素语义特征和预设类别的词向量得到相应像素的语义类别。利用第一稳定注意力模型提取训练图像的第一全局语义特征,通过学习训练图像的第一全局语义特征实现性能较优的零实例图像语义分割,并通过初始像素语义特征提升了训练图像第一全局语义特征的准确性,从而获得了更易于迁移的信息。利用第二稳定注意力模型将第一全局语义特征注入初始像素语义特征,从而得到增强像素语义特征,显著提升了图像语义分割方法的性能。通过引入预设类别的词向量,建立了从可见语义类别到不可见语义类别的桥梁,从而实现了从可见语义类别到不可见语义类别的知识迁移,最终实现零实例图像语义分割。图像语义分割方法用于识别训练图像中每一像素的语义类别。从全局的角度,即整张训练图像的角度,辅助识别每一像素的语义类别,从而使得每一像素的语义类别能够更加准确地被识别。图像语义分割方法能够适用于各种零实例图像语义分割场景,具有广泛的应用性和较强的实用性。
请结合参看图2,其为本发明实施例提供的图像语义分割方法的第一子流程图。步骤S106具体包括如下步骤。
步骤S202,将第一全局语义特征和初始像素语义特征输入第二稳定注意力模型以得到像素相对训练图像的第二全局语义特征。在本实施例中,利用第一公式计算第二全局语义特征。其中,第一公式为
Figure 784180DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
表示第二全局语义特征,
Figure 267114DEST_PATH_IMAGE010
表示第二稳定注意力模型,
Figure 474105DEST_PATH_IMAGE002
表示第一全局语义特征,
Figure 56396DEST_PATH_IMAGE004
表示初始像素语义特征,
Figure 100002_DEST_PATH_IMAGE011
表示初始像素语义特征和第一参数之积,
Figure 905928DEST_PATH_IMAGE012
表示第一全局语义特征和第二参数之积,
Figure 100002_DEST_PATH_IMAGE013
的转置,
Figure 192553DEST_PATH_IMAGE014
表示第一全局语义特征和第三参数之积,
Figure 988470DEST_PATH_IMAGE007
表示函数。第一参数、第二参数以及第三参数为第二稳定注意力模型32的参数。
步骤S204,将第二全局语义特征和初始像素语义特征进行相加以得到增强像素语义特征。由于第二全局语义特征为像素相对训练图像的语义特征,因此,第二全局语义特征包含了训练图像的全局信息。将第二全局语义特征和初始像素语义特征进行相加,使得增强像素语义特征也包含了训练图像的全局信息,使得增强像素语义特征包含的像素信息更加精准。
上述实施例中,根据第一全局语义特征和初始像素语义特征得到像素相对训练图像的第二全局语义特征,将训练图像的全局信息与每一像素的像素信息进行关联,从而使第一全局语义特征注入初始像素语义特征。根据第二全局语义特征和初始像素语义特征得到增强像素语义特征,使得增强像素语义特征也包含了训练图像的全局信息,显著提升了图像语义分割方法的性能。
请结合参看图3,其为本发明实施例提供的图像语义分割方法的第二子流程图。执行步骤S102之前,图像语义分割方法还包括如下步骤。
步骤S302,根据训练图像的标注类别标签训练初始语义分割模型以得到稳定语义分割模型。将每一训练图像输入初始语义分割模型24中,初始语义分割模型24会输出训练图像中每一像素的原始像素语义特征。其中,初始语义分割模型24包括初始化的参数。根据原始像素语义特征和标注类别标签计算第一损失,并根据第一损失对初始语义分割模型24的参数进行更新。不断对初始语义分割模型24进行迭代训练,更新初始语义分割模型24的参数。当初始语义分割模型24的参数稳定或者迭代训练的次数达到预设值时,将稳定的参数或者最后一次迭代训练的参数作为最终的参数,以形成稳定语义分割模型33。相应地,在训练初始语义分割模型24之前,训练图像的大小缩放成预设大小。
请结合参看图4,其为本发明实施例提供的图像语义分割方法的第三子流程图。执行步骤S104之前,图像语义分割方法还包括如下步骤。
步骤S402,将初始像素语义特征输入第一初始注意力模型以得到训练图像的若干初始全局语义特征。其中,第一初始注意力模型21包括若干初始化的参数。相应地,每一初始全局语义特征与一种预设类别相对应,初始全局语义特征为向量。利用第一初始注意力模型21根据初始像素语义特征得到初始全局语义特征的过程与利用第一稳定注意力模型31根据初始像素语义特征得到第一全局语义特征的过程基本一致,在此不再一一赘述。
步骤S404,将初始全局语义特征和词向量输入第三初始注意力模型以得到图像类别对。其中,第三初始注意力模型23将权重的重要性从全局特征转移到分类,第三初始注意力模型23包括若干初始化的参数。在本实施例中,图像类别对用于表示训练图像与每一预设类别之间的关系。图像类别对为向量。可以理解的是,每一训练图像的图像类别对的数量与预设类别的数量相同。
在本实施例中,利用第二公式计算图像类别对。其中,第二公式为
Figure 100002_DEST_PATH_IMAGE015
Figure 69559DEST_PATH_IMAGE016
表示图像类别对,
Figure 100002_DEST_PATH_IMAGE017
表示第三初始注意力模型,
Figure 544402DEST_PATH_IMAGE018
表示初始全局语义特征,
Figure 100002_DEST_PATH_IMAGE019
表示词向量,
Figure 634718DEST_PATH_IMAGE020
表示词向量和第四参数之积,
Figure 100002_DEST_PATH_IMAGE021
表示初始全局语义特征和第五参数之积,
Figure 878618DEST_PATH_IMAGE022
的转置,
Figure DEST_PATH_IMAGE023
表示初始全局语义特征和第六参数之积,
Figure 396187DEST_PATH_IMAGE007
表示函数。第四参数、第五参数以及第六参数为第三初始注意力模型的参数。
步骤S406,根据图像类别对、词向量以及预设类别计算损失值。在本实施例中,利用交叉熵损失函数计算损失值。其中,交叉熵损失函数为
Figure 30430DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
表示损失值,
Figure 924437DEST_PATH_IMAGE026
表示示性函数,
Figure DEST_PATH_IMAGE027
表示预设类别,
Figure 551072DEST_PATH_IMAGE028
表示训练图像的可见语义类别,
Figure DEST_PATH_IMAGE029
表示训练图像与第
Figure 114908DEST_PATH_IMAGE027
个预设类别相对应的图像类别对,
Figure 361082DEST_PATH_IMAGE030
表示第
Figure 465304DEST_PATH_IMAGE027
个预设类别的词向量。当预设类别为相应训练图像的可见语义类别时,
Figure 90321DEST_PATH_IMAGE026
为1;当预设类别不是相应训练图像的可见语义类别时,
Figure 480851DEST_PATH_IMAGE026
为0。具体地,根据余弦相似度计算图像类别对和词向量之间的距离。当图像类别对和词向量之间的距离小于预设距离值时,表示训练图像与该预设类别相关联,即预设类别为相应训练图像的可见语义类别;当图像类别对和词向量之间的距离大于或者等于预设距离值时,表示训练图像与该预设类别不相关,即预设类别不是相应训练图像的可见语义类别。其中,预设距离值为0.5。在一些可行的实施例中,预设距离值可以根据实际情况进行设置。
步骤S408,根据损失值更新第一初始注意力模型的参数以得到第一稳定注意力模型。在本实施例中,根据损失值一起更新第一初始注意力模型21的参数和第三初始注意力模型23的参数,以分别得到相应的第一稳定注意力模型31和第三稳定注意力模型。对第一初始注意力模型21和第三初始注意力模型23进行迭代训练,更新第一初始注意力模型21的参数和第三初始注意力模型23的参数。当第一初始注意力模型21的参数和第三初始注意力模型23的参数稳定或者迭代训练的次数达到预设值时,将稳定的参数或者最后一次迭代训练的参数作为最终的参数,以形成第一稳定注意力模型31和第三稳定注意力模型。
可以理解的是,虽然最终的图像语义分割模型30只包括第一稳定注意力模型31、第二稳定注意力模型32以及稳定语义分割模型33,但是训练模型20在训练的过程中,会不断更新第一初始注意力模型21、第二初始注意力模型22、第三初始注意力模型23以及初始语义分割模型24的参数,从而使得第一稳定注意力模型31、第二稳定注意力模型32和稳定语义分割模型33的性能更加稳定。
上述实施例中,根据初始全局语义特征和词向量得到图像类别对,从而构建训练图像的初始全局语义特征与词向量之间的关系,使得第一稳定注意力模型能够具有从可见语义类别到不可见语义类别的知识迁移,最终实现零实例图像语义分割。
请结合参看图5,其为本发明实施例提供的图像语义分割方法的第四子流程图。执行步骤S108之后,图像语义分割方法还包括如下步骤。
步骤S502,判断像素的语义类别是否为可见语义类别。
步骤S504,当像素的语义类别为可见语义类别时,根据像素的语义类别训练第二稳定注意力模型。根据交叉熵损失函数计算相应的第二损失,并根据第二损失对第二初始注意力模型22的参数进行更新。不断对第二初始注意力模型22进行迭代训练,更新第二初始注意力模型22的参数。当第二初始注意力模型22的参数稳定或者迭代训练的次数达到预设值时,将稳定的参数或者最后一次迭代训练的参数作为最终的参数,以形成第二稳定注意力模型32。
请结合参看图8,其为本发明实施例提供的终端的内部结构示意图。终端10包括计算机可读存储介质11、处理器12以及总线13。其中,计算机可读存储介质11至少包括一种类型的可读存储介质,该可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。计算机可读存储介质11在一些实施例中可以是终端10的内部存储单元,例如终端10的硬盘。计算机可读存储介质11在另一些实施例中也可以是终端10的外部存储设备,例如终端10上配备的插接式硬盘、智能存储卡(Smart MediaCard,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,计算机可读存储介质11还可以既包括终端10的内部存储单元也包括外部存储设备。计算机可读存储介质11不仅可以用于存储安装于终端10的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
总线13可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,终端10还可以包括显示组件14。显示组件14可以是发光二极管(LightEmitting Diode,LED)显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示组件14也可以适当的称为显示装置或显示单元,用于显示在终端10中处理的信息以及用于显示可视化的用户界面。
进一步地,终端10还可以包括通信组件15。通信组件15可选地可以包括有线通信组件和/或无线通信组件,如WI-FI通信组件、蓝牙通信组件等,通常用于在终端10与其他智能控制设备之间建立通信连接。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行计算机可读存储介质11中存储的程序代码或处理数据。具体地,处理器12执行处理程序以控制终端10实现图像语义分割方法。
图8仅示出了具有组件11-15、用于实现图像语义分割方法的终端10,本领域技术人员可以理解的是,图8示出的结构并不构成对终端10的限定,终端10可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (10)

1.一种图像语义分割方法,其特征在于,所述图像语义分割方法包括:
将训练图像输入稳定语义分割模型以得到所述训练图像中每一像素的初始像素语义特征,其中,所述训练图像中与可见语义类别相对应的像素具有标注类别标签;
将所述初始像素语义特征输入第一稳定注意力模型以得到所述训练图像的若干第一全局语义特征,其中,每一所述第一全局语义特征与一种预设类别相对应,所述预设类别包括所述可见语义类别和不可见语义类别;
将所述第一全局语义特征和所述初始像素语义特征输入第二稳定注意力模型以得到所述训练图像中每一像素的增强像素语义特征;以及
根据所述增强像素语义特征和所述预设类别的词向量之间的距离得到相应像素的语义类别,其中,所述语义类别为所述预设类别中的一种。
2.如权利要求1所述的图像语义分割方法,其特征在于,根据所述增强像素语义特征和所述预设类别的词向量之间的距离得到相应像素的语义类别具体包括:
计算所述增强像素语义特征和每一所述词向量之间的距离;以及
选取最小距离所对应的词向量的预设类别作为相应像素的语义类别。
3.如权利要求1所述的图像语义分割方法,其特征在于,将所述第一全局语义特征和所述初始像素语义特征输入第二稳定注意力模型以得到所述训练图像中每一像素的增强像素语义特征具体包括:
将所述第一全局语义特征和所述初始像素语义特征输入所述第二稳定注意力模型以得到所述像素相对所述训练图像的第二全局语义特征;以及
将所述第二全局语义特征和所述初始像素语义特征进行相加以得到所述增强像素语义特征。
4.如权利要求3所述的图像语义分割方法,其特征在于,将所述第一全局语义特征和所述初始像素语义特征输入所述第二稳定注意力模型以得到所述像素相对所述训练图像的第二全局语义特征具体包括:
利用第一公式计算所述第二全局语义特征,其中,所述第一公式为:
Figure DEST_PATH_IMAGE001
Figure 128803DEST_PATH_IMAGE002
表示所述第二全局语义特征,
Figure DEST_PATH_IMAGE003
表示所述第二稳定注意力模型,
Figure 928132DEST_PATH_IMAGE004
表示所述第一全局语义特征,
Figure DEST_PATH_IMAGE005
表示所述初始像素语义特征,
Figure 779413DEST_PATH_IMAGE006
表示所述初始像素语义特征和第一参数之积,
Figure DEST_PATH_IMAGE007
表示所述第一全局语义特征和第二参数之积,
Figure 802733DEST_PATH_IMAGE008
的转置,
Figure DEST_PATH_IMAGE009
表示所述第一全局语义特征和第三参数之积,所述第一参数、所述第二参数以及所述第三参数为所述第二稳定注意力模型的参数。
5.如权利要求1所述的图像语义分割方法,其特征在于,将所述初始像素语义特征输入第一稳定注意力模型以得到所述训练图像的若干第一全局语义特征之前,所述图像语义分割方法还包括:
将所述初始像素语义特征输入第一初始注意力模型以得到所述训练图像的若干初始全局语义特征;
将所述初始全局语义特征和所述词向量输入第三初始注意力模型以得到图像类别对;
根据所述图像类别对、所述词向量以及所述预设类别计算损失值;以及
根据所述损失值更新所述第一初始注意力模型的参数以得到所述第一稳定注意力模型。
6.如权利要求5所述的图像语义分割方法,其特征在于,将所述初始全局语义特征输入第三初始注意力模型以得到图像类别对具体包括:
利用第二公式计算所述图像类别对,其中,所述第二公式为:
Figure 247621DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
表示所述图像类别对,
Figure 850640DEST_PATH_IMAGE012
表示所述第三初始注意力模型,
Figure DEST_PATH_IMAGE013
表示所述初始全局语义特征,
Figure 822007DEST_PATH_IMAGE014
表示所述词向量,
Figure DEST_PATH_IMAGE015
表示所述词向量和第四参数之积,
Figure 485070DEST_PATH_IMAGE016
表示所述初始全局语义特征和第五参数之积,
Figure DEST_PATH_IMAGE017
的转置,
Figure 417254DEST_PATH_IMAGE018
表示所述初始全局语义特征和第六参数之积,所述第四参数、所述第五参数以及所述第六参数为所述第三初始注意力模型的参数。
7.如权利要求1所述的图像语义分割方法,其特征在于,将所述初始像素语义特征输入第一稳定注意力模型以得到所述训练图像的若干第一全局语义特征具体包括:
利用第三公式计算所述第一全局语义特征,其中,第三公式为:
Figure DEST_PATH_IMAGE019
Figure 826894DEST_PATH_IMAGE004
表示所述第一全局语义特征,
Figure 59292DEST_PATH_IMAGE020
表示所述第一稳定注意力模型,
Figure 689994DEST_PATH_IMAGE005
表示所述初始像素语义特征,
Figure DEST_PATH_IMAGE021
表示所述第一稳定注意力模型的第七参数,
Figure 109474DEST_PATH_IMAGE022
表示转置。
8.如权利要求1所述的图像语义分割方法,其特征在于,根据所述增强像素语义特征和所述预设类别的词向量之间的距离得到相应像素的语义类别之后,所述图像语义分割方法还包括:
判断所述像素的语义类别是否为所述可见语义类别;以及
当所述像素的语义类别为所述可见语义类别时,根据所述像素的语义类别训练所述第二稳定注意力模型。
9.如权利要求1所述的图像语义分割方法,其特征在于,将训练图像输入稳定语义分割模型以得到所述训练图像中每一像素的初始像素语义特征之前,所述图像语义分割方法还包括:
根据所述训练图像的标注类别标签训练初始语义分割模型以得到所述稳定语义分割模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令可被处理器执行以实现如权利要求1至9中任一项所述的图像语义分割方法。
CN202111546097.2A 2021-12-17 2021-12-17 图像语义分割方法及计算机可读存储介质 Active CN113936141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111546097.2A CN113936141B (zh) 2021-12-17 2021-12-17 图像语义分割方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111546097.2A CN113936141B (zh) 2021-12-17 2021-12-17 图像语义分割方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113936141A CN113936141A (zh) 2022-01-14
CN113936141B true CN113936141B (zh) 2022-02-22

Family

ID=79289261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111546097.2A Active CN113936141B (zh) 2021-12-17 2021-12-17 图像语义分割方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113936141B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709924A (zh) * 2016-11-18 2017-05-24 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
CN108229479A (zh) * 2017-08-01 2018-06-29 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
WO2019238976A1 (en) * 2018-06-15 2019-12-19 Université de Liège Image classification using neural networks
CN110647897A (zh) * 2018-06-26 2020-01-03 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
WO2021233031A1 (zh) * 2020-05-21 2021-11-25 京东方科技集团股份有限公司 图像处理方法、装置、设备、存储介质以及图像分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3392798A1 (en) * 2017-04-21 2018-10-24 Delphi Technologies, Inc. A method for the semantic segmentation of an image
US12002245B2 (en) * 2019-10-25 2024-06-04 Mashgin Inc. Method and system for item identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709924A (zh) * 2016-11-18 2017-05-24 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
CN108229479A (zh) * 2017-08-01 2018-06-29 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
WO2019238976A1 (en) * 2018-06-15 2019-12-19 Université de Liège Image classification using neural networks
CN110647897A (zh) * 2018-06-26 2020-01-03 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
WO2021233031A1 (zh) * 2020-05-21 2021-11-25 京东方科技集团股份有限公司 图像处理方法、装置、设备、存储介质以及图像分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Context-aware Feature GEneration for Zero-shot Semantic Segmentation;Zhangxuan Gu etc;《ACM MultiMedia 2020》;20200816;正文第1-12页 *
弱监督学习语义分割方法综述;李宾皑等;《数字通信世界》;20200701(第07期);第263-265页 *
零样本学习综述;王泽深 等;《计算机工程与应用》;20211001;第57卷(第19期);1-17页 *
零样本语义分割总结(Zero shot semantic segmentation);DeepWWJ;《https://blog.csdn.net/qq_21157073/article/details/108155678》;20200822;正文第1-7页 *

Also Published As

Publication number Publication date
CN113936141A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN113378833B (zh) 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN111753746B (zh) 属性识别模型训练方法、识别方法、电子设备、存储介质
CN111461164A (zh) 样本数据集的扩容方法及模型的训练方法
CN113868519B (zh) 信息搜索方法、装置、电子设备和存储介质
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN114139052B (zh) 用于智能推荐的排序模型训练方法、智能推荐方法及装置
CN111126372A (zh) 视频中logo区域的标记方法、装置及电子设备
WO2021179751A1 (zh) 图像处理方法和系统
CN112085063B (zh) 一种目标识别方法、装置、终端设备及存储介质
CN113627394A (zh) 人脸提取方法、装置、电子设备及可读存储介质
CN110413869B (zh) 用于推送信息的方法和装置
CN113936141B (zh) 图像语义分割方法及计算机可读存储介质
CN116680580A (zh) 基于多模态训练的信息匹配方法、装置、电子设备及介质
CN113536782B (zh) 敏感词识别方法、装置、电子设备及存储介质
CN116434000A (zh) 模型训练及物品分类方法、装置、存储介质及电子设备
CN113283241B (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN113989618A (zh) 可回收物品分类识别方法
CN112417260A (zh) 本地化推荐方法、装置及存储介质
CN114973294B (zh) 基于图文匹配方法、装置、设备及存储介质
CN114005005B (zh) 双重批标准化的零实例图像分类方法
CN117540725B (zh) 方面级情感分析方法、装置、电子设备和存储介质
CN113989596B (zh) 图像分类模型的训练方法及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518049 Floor 25, Block A, Zhongzhou Binhai Commercial Center Phase II, No. 9285, Binhe Boulevard, Shangsha Community, Shatou Street, Futian District, Shenzhen, Guangdong

Patentee after: Shenzhen Youjia Innovation Technology Co.,Ltd.

Address before: 518049 401, building 1, Shenzhen new generation industrial park, No. 136, Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN MINIEYE INNOVATION TECHNOLOGY Co.,Ltd.