CN114820633A - 语义分割方法、语义分割模型的训练方法、装置及设备 - Google Patents

语义分割方法、语义分割模型的训练方法、装置及设备 Download PDF

Info

Publication number
CN114820633A
CN114820633A CN202210386561.4A CN202210386561A CN114820633A CN 114820633 A CN114820633 A CN 114820633A CN 202210386561 A CN202210386561 A CN 202210386561A CN 114820633 A CN114820633 A CN 114820633A
Authority
CN
China
Prior art keywords
feature
semantic
map
semantic segmentation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210386561.4A
Other languages
English (en)
Inventor
孙小飞
张勃
初祥祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202210386561.4A priority Critical patent/CN114820633A/zh
Publication of CN114820633A publication Critical patent/CN114820633A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种语义分割方法、语义分割模型的训练方法、装置及设备,属于计算机视觉技术领域,该方法包括:获取原始图像和语义分割模型,语义分割模型包括语义分类模型和融合注意力机制的特征提取模型;调用融合注意力机制的特征提取模型提取得到融合原始图像的空间位置分布的结构特征的目标特征图;将该目标特征图输入语义分类模型,基于语义分类模型输出的原始图像中各个像素点的语义类别,获取该原始图像的语义分割结果。该方法使得获取的目标特征图强化了与原始图像的空间位置分布相关的上下文信息融合,进而使得根据该目标特征图获取的语义分割结果的性能得到了提高。

Description

语义分割方法、语义分割模型的训练方法、装置及设备
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种语义分割方法、语义分割模型的训练方法、装置及设备。
背景技术
语义分割是计算机视觉技术领域中重要的研究方向之一,广泛应用于各行各业,例如,自动驾驶、卫星遥感、医疗等。语义分割旨在基于图像像素分割出图像中的不同对象。
通常,相关技术中的语义分割方法仅基于图像的像素特征进行分割,而对于在空间位置上具有特殊分布的图像来说,相关技术中的语义分割方法的分割性能有待提高。
发明内容
本申请提供了一种语义分割方法、语义分割模型的训练方法、装置及设备,能够解决相关技术中的问题。
第一方面,提供一种语义分割方法,所述方法包括:
获取原始图像和语义分割模型,所述语义分割模型包括语义分类模型和融合注意力机制的特征提取模型,所述注意力机制用于基于所述原始图像的空间位置分布获取所述原始图像的结构特征;
调用所述融合注意力机制的特征提取模型对所述原始图像进行特征提取,得到融合所述原始图像的结构特征的目标特征图;
将所述目标特征图输入所述语义分类模型,得到所述语义分类模型输出的所述原始图像中各个像素点的语义类别;
基于所述原始图像中各个像素点的语义类别,获取所述原始图像的语义分割结果。
在一种可能的实施方式中,所述融合注意力机制的特征提取模型包括特征提取模块、注意力模块和融合模块;
所述调用所述融合注意力机制的特征提取模型对所述原始图像进行特征提取,得到融合所述原始图像的结构特征的目标特征图,包括:
调用所述特征提取模块提取所述原始图像在不同分辨率下对应的多个特征尺度图;
调用所述注意力模块获取所述多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定;
调用所述融合模块将所述多个特征尺度图和所述多个特征尺度图分别对应的通道注意力图进行融合,得到所述目标特征图。
在一种可能的实施方式中,所述注意力模块包括池化层、下采样层、卷积层和上采样层;
所述调用所述注意力模块获取所述多个特征尺度图分别对应的通道注意力图,包括:
对于所述多个特征尺度图中的任一特征尺度图,调用所述池化层将所述任一特征尺度图的第二空间维度的向量进行池化压缩,得到所述第一空间维度上的第一中间特征,所述第二空间维度为所述任一特征尺度图中除所述第一空间维度之外的空间维度;
调用所述下采样层对所述第一中间特征进行下采样处理,得到精细化的第二中间特征;
调用所述卷积层提取所述第二中间特征的第一空间维度的向量之间的上下文信息,得到第三中间特征;
调用所述上采样层对所述第三中间特征进行上采样处理,得到所述任一特征尺度图对应的通道注意力图,所述通道注意力图的尺寸与所述任一特征尺度图的尺寸相同。
在一种可能的实施方式中,所述调用所述融合模块将所述多个特征尺度图和所述多个特征尺度图分别对应的通道注意力图进行融合,得到所述目标特征图,包括:
调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图进行融合,得到所述各个特征尺度图对应的融合结果;
级联所述各个特征尺度图对应的融合结果,得到所述目标特征图。
在一种可能的实施方式中,所述调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图进行融合,得到所述各个特征尺度图对应的融合结果,包括:
调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图相乘,得到所述各个特征尺度图对应的乘积结果;
将所述各个特征尺度图与所述各个特征尺度图对应的乘积结果相加,得到所述各个特征尺度图对应的融合结果。
第二方面,提供了一种语义分割模型的训练方法,所述方法包括:
获取样本图像、所述样本图像的语义标签和初始语义分割模型,所述初始语义分割模型包括初始语义分类模型和融合注意力机制的初始特征提取模型,所述注意力机制用于基于所述样本图像的空间位置分布获取所述样本图像的结构特征;
调用所述融合注意力机制的初始特征提取模型对所述样本图像进行特征提取,得到融合所述样本图像的结构特征的目标特征图;
将所述目标特征图输入所述初始语义分类模型,基于所述初始语义分类模型输出得到所述样本图像中各个像素点的语义类别;
基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,对所述初始语义分割模型进行训练,得到语义分割模型。
在一种可能的实施方式中,所述基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,对所述初始语义分割模型进行训练,包括:
基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,获取损失函数值;
根据所述损失函数值对所述初始语义分割模型中的所述初始语义分类模型和所述融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件。
第三方面,提供一种语义分割装置,所述装置包括:
第一获取模块,用于获取原始图像和语义分割模型,所述语义分割模型包括语义分类模型和融合注意力机制的特征提取模型,所述注意力机制用于基于所述原始图像的空间位置分布获取所述原始图像的结构特征;
特征提取模块,用于调用所述融合注意力机制的特征提取模型对所述原始图像进行特征提取,得到融合所述原始图像的结构特征的目标特征图;
分类模块,用于将所述目标特征图输入所述语义分类模型,得到所述语义分类模型输出的所述原始图像中各个像素点的语义类别;
第二获取模块,用于基于所述原始图像中各个像素点的语义类别,获取所述原始图像的语义分割结果。
在一种可能的实施方式中,所述融合注意力机制的特征提取模型包括特征提取模块、注意力模块和融合模块;所述特征提取模块,用于调用所述特征提取模块提取所述原始图像在不同分辨率下对应的多个特征尺度图;调用所述注意力模块获取所述多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定;调用所述融合模块将所述多个特征尺度图和所述多个特征尺度图分别对应的通道注意力图进行融合,得到所述目标特征图。
在一种可能的实施方式中,所述注意力模块包括池化层、下采样层、卷积层和上采样层;所述特征提取模块,用于对于所述多个特征尺度图中的任一特征尺度图,调用所述池化层将所述任一特征尺度图的第二空间维度的向量进行池化压缩,得到所述第一空间维度上的第一中间特征,所述第二空间维度为所述任一特征尺度图中除所述第一空间维度之外的空间维度;调用所述下采样层对所述第一中间特征进行下采样处理,得到精细化的第二中间特征;调用所述卷积层提取所述第二中间特征的第一空间维度的向量之间的上下文信息,得到第三中间特征;调用所述上采样层对所述第三中间特征进行上采样处理,得到所述任一特征尺度图对应的通道注意力图,所述通道注意力图的尺寸与所述任一特征尺度图的尺寸相同。
在一种可能的实施方式中,所述特征提取模块,用于调用所述融合模块,将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图进行融合,得到所述各个特征尺度图对应的融合结果;级联所述各个特征尺度图对应的融合结果,得到所述目标特征图。
在一种可能的实施方式中,特征提取模块,用于调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图相乘,得到所述各个特征尺度图对应的乘积结果;将所述各个特征尺度图与所述各个特征尺度图对应的乘积结果相加,得到所述各个特征尺度图对应的融合结果。
第四方面,提供了一种语义分割模型的训练装置,所述装置包括:
第一获取模块,用于获取样本图像、所述样本图像的语义标签和初始语义分割模型,所述初始语义分割模型包括初始语义分类模型和融合注意力机制的初始特征提取模型,所述注意力机制用于基于所述样本图像的空间位置分布获取所述样本图像的结构特征;
特征提取模块,用于调用所述融合注意力机制的初始特征提取模型对所述样本图像进行特征提取,得到融合所述样本图像的结构特征的目标特征图;
分类模块,用于将所述目标特征图输入所述初始语义分类模型,基于所述初始语义分类模型输出得到所述样本图像中各个像素点的语义类别;
训练模块,用于基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,对所述初始语义分割模型进行训练,得到语义分割模型。
在一种可能的实施方式中,所述训练模块,用于基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,获取损失函数值;根据所述损失函数值对所述初始语义分割模型中的所述初始语义分类模型和所述融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件。
第五方面,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使计算机设备实现上述任一项所述的语义分割方法,或者,以使计算机设备实现上述任一项所述的语义分割模型的训练方法。
第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现上述任一项所述的语义分割方法,或者,以使计算机设备实现上述任一项所述的语义分割模型的训练方法。
第七方面,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述任一所述的语义分割方法,或者,使得所述计算机设备执行上述任一所述的语义分割模型的训练方法。
本申请提供的技术方案至少可以带来如下有益效果:
本申请提供的技术方案,通过注意力机制来获取融合原始图像的空间位置分布的结构特征的目标特征图,使得获取的目标特征图强化了与原始图像的空间位置分布相关的上下文信息融合,进而使得根据该目标特征图获取的语义分割结果的性能得到了提高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语义分割方法的实施环境的示意图;
图2是本申请实施例提供的一种语义分割方法的流程图;
图3是本申请实施例提供的一种城市街景图像的示意图;
图4是本申请实施例提供的一种高度注意力网络的示意图;
图5是本申请实施例提供的一种语义分割模型的示意图;
图6是本申请实施例提供的一种语义分割模型的训练方法的流程图;
图7是本申请实施例提供的一种分割图像的对比图;
图8是本申请实施例提供的一种语义分割装置的示意图;
图9是本申请实施例提供的一种语义分割模型的训练装置的示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
语义分割(Semantic Segmentation)是指像素级地识别图像,预测出图像中每一个像素的类别标签,即标注出图像中每个像素所属的对象类别。本申请实施例提供了一种语义分割方法,能够将图像在空间位置上具有的特殊分布考虑进去,提高语义分割的分割性能。
参见图1,图1示出了本申请实施例提供的语义分割方法的实施环境的示意图,该实施环境包括:计算机设备101。如图1所示,计算机设备101可以是指终端,也可以是指服务器。示例性地,终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如个人计算机(PersonalComputer,PC)、智能手机、个人数字助手(Personal Digital Assistant,PDA)、可穿戴设备、掌上电脑(Pocket PC,PPC)、平板电脑、智能车机等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。
当该语义分割方法应用于服务器中时,服务器可以从图像数据库中获取原始图像,或者,服务器可以从连接的终端获取原始图像,并通过该语义分割方法对原始图像进行语义分割,以便根据该语义分割结果进行进一步的分析操作。当该图像语义分割方法应用于终端中时,该终端中可以安装有图像处理软件,该语义分割方法可以部署于该图像处理软件中;终端可以通过该语义分割方法对拍摄得到的图像或者预先存储的图像进行语义分割,以便根据该语义分割结果进行进一步的图像处理。
本领域技术人员应能理解上述计算机设备101仅为举例,其他现有的或今后可能出现的计算机设备也可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供的语义分割方法可以应用于计算机设备101,计算机设备101可以为终端,也可以为服务器,本申请实施例对此不进行限定。如图2所示,本申请实施例提供的语义分割方法包括如下步骤201至步骤204。
步骤201,获取原始图像和语义分割模型,语义分割模型包括语义分类模型和融合注意力机制的特征提取模型,注意力机制用于基于原始图像的空间位置分布获取原始图像的结构特征。
在本申请实施例中,原始图像指的是需要进行处理,以获取语义分割结果的图像。可选地,原始图像为在空间位置上具有特殊分布的图像,例如,原始图像为在纵向位置上或者在横向位置上具有分布特征的图像。
示例性地,在纵向位置上具有分布特征的图像可以为由车辆前景摄像头拍摄的城市街景图像。参见图3,图3为本申请实施例提供的一种城市街景图像的示意图,该城市街景图像可以划分为上中下三段,其中,上段主要包括天空、路灯等对象,中段主要包括树木、车辆等对象,下段主要包括道路等对象。由于汽车、道路等对象不会出现在天空上,使得该城市街景图像的上段区域的像素一般不会属于汽车、道路等类别,即该城市街景图像在纵向位置上的分布存在显著差异。
在一种可能的实施方式中,本申请实施例对原始图像的获取方式不加以限定。在示例性实施例中,计算机设备获取原始图像的方式包括但不限于:计算机设备从图像数据库中获取原始图像;或者,与计算机设备建立有通信连接的图像采集设备将采集的原始图像发送至计算机设备;或者,计算机设备获取人工上传的原始图像等。可选地,原始图像可能是指图像采集设备的采集图像,也可能是对图像采集设备的采集图像进行预处理后得到的图像,本申请实施例对此不加以限定。示例性地,对采集图像进行预处理的方式包括但不限于裁剪、数据增强中的至少一种。
需要说明的是,原始图像的数量为一个或多个,对于原始图像的数量为多个的情况,每个原始图像均可根据步骤202至步骤204的方式,获取一个语义分割结果。本申请实施例以原始图像的数量为一个为例进行说明。
在本申请实施例中,语义分割模型用于获取原始图像中各个像素点的语义类别,语义分割模型通过对初始语义分割模型进行训练得到,训练得到语义分割模型的方式参见图6所示的实施例,此处暂不赘述。本申请实施例中的语义分割模型可以是指通过实时训练的方式训练得到语义分割模型,也可以是指将预先训练好并存储的语义分割模型提取出来,本申请实施例对此不加以限定。
可选地,语义分割模型包括语义分类模型和融合注意力机制的特征提取模型。其中,融合注意力机制的特征提取模型用于基于原始图像获取融合原始图像的空间位置分布的结构特征的目标特征图,语义分类模型用于基于目标特征图获取原始图像中各个像素点的语义类别。
在获取原始图像和语义分割模型后,执行后续的步骤202至步骤204,以获取原始图像的语义分割结果。
步骤202,调用融合注意力机制的特征提取模型对原始图像进行特征提取,得到融合原始图像的结构特征的目标特征图。
在本申请的示例性实施例中,融合注意力机制的特征提取模型包括特征提取模块、注意力模块和融合模块。可选地,特征提取模块用于提取原始图像的特征尺度图;注意力模块用于根据注意力机制获取特征尺度图对应的通道注意力图,通道注意力图用于指示特征尺度图在指定空间维度上的每一行对应每一特征通道的权重值,也即该通道注意力图能够表示该原始图像的结构特征;融合模块用于将特征尺度图和对应的通道注意力图进行融合。
可以理解的是,在特征尺度图和对应的通道注意力图进行融合的过程中,通过该通道注意图中的权重值调整了该特征尺度图的特征通道的激活度,而该通道注意图中的权重值是基于原始图像的空间位置分布结构获取的,特征尺度图是基于原始图像的像素特征获取的,因此,得到的目标特征图是融合了原始图像的结构特征和像素特征的。由此,使得获取的目标特征图更符合原始图像的空间位置分布结构,进而使得根据该目标特征图获取的语义分割结果更准确。
在一种可能的实施方式中,调用融合注意力机制的特征提取模型对原始图像进行特征提取,得到融合原始图像的结构特征的目标特征图,包括但不限于如下步骤2021至步骤2023。
步骤2021,调用特征提取模块提取原始图像在不同分辨率下对应的多个特征尺度图。
本申请实施例不对特征提取模块采用的网络模型进行限定,例如,该特征提取模块采用的网络模型可以为采用对称的低到高分辨率(symmetric low-to-high process)过程恢复高分辨率的网络模型、采用的转置卷积层(transposed convolution layers)生成高分辨率表示的网络模型或高分辨网络(High Resolution Network,HRNET)模型等。无论采用哪种网络模型均可获取到该原始图像在不同分辨率下对应的特征尺度图。
在示例性实施例中,以特征提取模块采用HRNET模型为例,HRNET是一种用于获取图像特征信息的计算模型,在运算全部过程中都可以保持高分辨表征。HRNET始于一组高分辨率卷积,然后逐步添加低分辨率的卷积分支,并将它们以并行的方式连接起来,该网络将不同分辨率的特征尺度图并联,各个分辨率分别一路,在整个过程中并行的运算组合间通过多分辨率融合不断地交换着信息。因此,调用HRNET能够提取原始图像在不同分辨率下对应的多个特征尺度图。
步骤2022,调用注意力模块获取多个特征尺度图分别对应的通道注意力图。
在一种可能的实施方式中,不同的空间位置分布的原始图像对应不同的注意力模块。示例性地,若原始图像在纵向位置上具有分布特征,则原始图像的每一水平段之间的特征信息会存在显著差异。此种情况下,注意力机制用来提取代表每一水平段的特征之间的垂直位置关系的结构特征,即通过该注意力模块获取每一垂直段对应的特征通道的权重值,得到通道注意力图,使得能够通过该通道注意力图选择性地强调原始图像垂直方向上的特征信息。
又一示例性地,若原始图像在横向位置上具有分布特征,则原始图像的每一垂直段之间的特征信息会存在显著差异。此种情况下,注意力机制用来提取代表每一垂直段的特征之间的水平位置关系的结构特征,即通过该注意力模块获取每一垂直段对应的特征通道的权重值,得到通道注意力图,使得能够通过该通道注意力图选择性地强调原始图像水平方向上的特征信息。
可选地,通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,第一空间维度由原始图像的空间位置分布确定,第二空间维度为任一特征尺度图中除第一空间维度之外的空间维度。例如,若原始图像为在纵向位置上具有分布特征的图像,则第一空间维度为高度,第二空间维度为宽度;若原始图像为在横向位置上具有分布特征的图像,则第一空间维度为宽度,第二空间维度为高度。
在一种可能的实施方式中,注意力模块包括池化层、下采样层、卷积层和上采样层;对于多个特征尺度图中的任一特征尺度图,调用注意力模块获取该任一特征尺度图对应的通道注意力图,包括但不限于如下步骤1-步骤4。
步骤1,调用池化层将任一特征尺度图的第二空间维度的向量进行池化压缩,得到第一空间维度上的第一中间特征。
本申请实施例不对池化层采用的池化方法进行限定,例如,池化方法可以为平均值池化、全局平均池化或者最大值池化等。通过池化压缩的方法将任一特征尺度图的第二空间维度压缩掉,以方便提取第一空间维度的向量间的相关信息。
例如,当第一空间维度为高度时,参见图4,图4为本申请实施例提供的一种高度注意力网络(Height-driven attention networks,HANet)的示意图。如图4所示,任一特征尺度图用X1(H*W*C)表示,其中H(height)表示任一特征尺度图的高度,W(width)表示任一特征尺度图的宽度,C(channel)表示任一特征尺度图的通道数。调用池化层将该任一特征尺度图X1(H*W*C)的宽度的向量进行池化压缩,得到高度上的第一中间特征X1(H*C),其中,第一中间特征X1(H*C)的第h行的向量可以表示为:
Figure BDA0003590140110000091
步骤2,调用下采样层对第一中间特征进行下采样处理,得到精细化的第二中间特征。
本申请实施例不对下采样层采用的下采样方法进行限定,将第一中间特征下采样的第一空间维度下采样至超参数(hyper parameter)即可。例如,可以通过如上所示的池化方法实现下采样处理,或者,通过空洞卷积的方法进行下采样处理等。可选地,超参数的值可以根据经验设置,或者根据应用场景灵活调整,例如,超参数设置为16。该步骤2通过下采样处理过滤了第一中间特征中作用小、信息冗余的特征,保留了第一中间特征中的关键特征,使得得到的第二中间特征更精细化,同时降低了网络计算的复杂度。
例如,仍以图4为例,第一中间特征X1(H*C)通过下采样层处理,得到精细化的第二中间特征X1(H'*C),其中,H'代表超参数。
步骤3,调用卷积层提取第二中间特征的第一空间维度的向量之间的上下文信息,得到第三中间特征。
在本申请实施例中,卷积层用于通过卷积操作提取第二中间特征的第一空间维度的向量之间的上下文信息,卷积操作能够获取精细的局部特征。本申请实施例对卷积层的结构不加以限定,提取第二中间特征的第一空间维度的向量之间的上下文信的过程为卷积层的内部处理过程,调用不同结构的卷积层提取第二中间特征的第一空间维度的向量之间的上下文信的具体过程可能有所不同。在示例性实施例中,卷积层包括一个或多个卷积操作,不同卷积操作的结构可能相同,也可能不同。
示例性地,对于卷积操作的数量为多个的情况,多个卷积操作依次串联,调用卷积层对第二中间特征进行处理,得到第三中间特征的过程为:将第二中间特征输入第一个卷积操作层,得到第一个卷积操作层输出的特征;从第二个卷积操作层开始,将上一个卷积操作层输出的特征输入下一个卷积操作层,得到下一个卷积操作层输出的特征,直至得到最后一个卷积操作层输出的特征,将最后一个卷积操作层输出的特征作为第三中间特征。
在一种可能的实施方式中,各个卷积操作均由一个子卷积层和一个激活层构成,子卷积层的卷积核的尺寸根据经验设置,或者根据实际的应用场景灵活调整,本申请实施例对此不加以限定,例如,卷积层的卷积核尺寸为1×3。激活层采用的激活函数根据经验设置,或者根据实际的应用场景灵活调整,本申请实施例对此不加以限定,例如,激活层采用的激活函数为ReLU(Rectified Linear Unit,线性整流单元)函或者Sigmoid(S形)函数。在调用一个卷积操作对特征(或图像)进行处理的过程中,先调用子卷积层进行处理,然后再调用激活层对卷积层输出的特征进行处理。
示例性地,仍以图4为例,通过卷积层提取第二中间特征X1(H'*C)的第一空间维度的向量之间的上下文信息,得到第三中间特征X1'(H'*C),该第三中间特征的尺寸与第二中间特征的尺寸相同。在示例性实施例中,卷积层包括3个卷积操作,第一个卷积操作包括一个一维卷积核,第二个卷积操作包括一个一维卷积核和一个ReLU激活层,第二个卷积操作包括一个一维卷积核和一个ReLU激活层。
步骤4,调用上采样层对第三中间特征进行上采样处理,得到任一特征尺度图对应的通道注意力图。
本申请实施例不对是上采样层采用的上采样方法进行限定,将第三中间特征的尺寸上采样至第一任一特征尺度图的尺寸即可。例如,上采样方法可以为双线性插值方法或反卷积等。该步骤4通过上采样使得通道注意力图的尺寸与该任一特征尺度图的尺寸相同,方便该通道注意力图与该任一特征尺度图的融合。
示例性地,仍以图4为例,通过上采样层将第三中间特征X1'(H'*C)上采样为通道注意力图X1'(H*C)。由此,得到了任一特征尺度图对应的通道注意力图。
步骤2023,调用融合模块将多个特征尺度图和多个特征尺度图分别对应的通道注意力图进行融合,得到目标特征图。
在一种可能的实施方式中,调用融合模块将多个特征尺度图和多个特征尺度图分别对应的通道注意力图进行融合,得到目标特征图,包括:调用融合模块将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图进行融合,得到各个特征尺度图对应的融合结果;级联各个特征尺度图对应的融合结果,得到目标特征图。
本申请实施例不对将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图进行融合的方法进行限定,例如,直接将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图相乘;或者,将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图进行加权相乘,将得到的乘积结果作为对应的融合结果;或者,将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图相乘,得到各个特征尺度图对应的乘积结果,将各个特征尺度图与各个特征尺度图对应的乘积结果相加,得到各个特征尺度图对应的融合结果。
由此,通过上述步骤2021-步骤2023提取得到了原始图像对应的目标特征图,由于目标特征图是由特征尺度图和特征尺度对应的通道注意力图获取的,而通道注意力图是根据原始图像的空间位置分布确定的,使得获取的目标特征图能够表示原始图像的空间位置分布的结构特征,因此,目标特征图能够表示的原始图像的特征信息更准确。
步骤203,将目标特征图输入语义分类模型,得到语义分类模型输出的原始图像中各个像素点的语义类别。
在获取到目标特征图后,即可基于语义分类模型来获取原始图像中每个像素对应的语义类别。可选地,将目标特征图输入语义分类模型,得到语义分类模型输出的原始图像中各个像素点的语义类别。本申请实施例不对语义分类模型的类型进行限定,例如,语义分类模型可以为完全卷积网络(Fully Convolutional Networks,FCN)、金字塔场景解析网络(Pyramid Scene Parsing Network,PSPNet)或物体上下文表示(Object ContextualRepresentations,OCR)模型等。
步骤204,基于原始图像中各个像素点的语义类别,获取原始图像的语义分割结果。
在本申请实施例中,得到该原始图像中各个像素点的语义类别后,即可将属于同一语义类别的像素点组成的区域视为同一对象所处图像区域,由此,能够获取得到原始图像中各个对象所处的区域,即原始图像的语义分割结果。也就是说,根据原始图像的语义分割结果能够得知原始图像中的哪些区域包括哪些对象。
本申请实施例对原始图像的语义分割结果的形式不加以限定,示例性地,原始图像的语义分割结果的形式为数值对,一个像素点对应一个数值对,一个像素点对应的数值对中包括该像素点的位置坐标、该像素点所属的类别以及该像素点属于所属的类别的概率。可选地,可以将原始图像的语义分割结果包括的各个像素的数值对可视化为图像,例如,将原始图像中的不同类别的像素可视化为不同的半透明颜色,得到原始图像的语义分割图。
本申请实施例提供的语义分割方法,通过注意力机制来获取融合原始图像的空间位置分布的结构特征的目标特征图,使得获取的目标特征图强化了与原始图像的空间位置分布相关的上下文信息融合,进而使得根据该目标特征图获取的语义分割结果的性能得到了提高。
示例性地,以特征提取模型采用HRNET,语义分类模型采用OCR模型为例,针对在纵向位置上具有分布特征的城市街景图像的语义分割。参见图5,图5为本申请实施例提供的一种语义分割模型的示意图。如图5所示,该语义分割模型包括融合HANET的HRNET和OCR模型。其中,融合HANET的HRNET包括4个不同分辨率下的特征提取层,越往下分辨率越低,由于各个特征提取层之间的信息通过卷积单元(conv unit)、上采样(up sample)和下采样(down sample)等操作相互融合,因此,获取的各个特征提取层的特征尺度图是保持高分辨率表征的特征信息。可选地,该HANET的模型结构如图4所示。
如图5所示,原始图像输入到该语义分割模型后,首先进入融合HANET的HRNET,由HRNET提取得到不同分辨率下的特征尺度图X1、X2、X3和X4,然后分别通过HANET获取各个特征尺度图X1、X2、X3和X4分别对应的通道注意力图X1'、X2'、X3'和X4'。进而将各个特征尺度图X1、X2、X3和X4与其分别对应的通道注意力图X1'、X2'、X3'和X4'进行相乘,将各个乘积结果再与各个特征尺度图X1、X2、X3和X4相加,得到各个特征提取层对应的融合结果。最后级联该各个特征提取层对应的融合结果,得到原始图像对应的目标特征图。
可选地,OCR模型是一种用于表征图像中像素的语义类别的计算模型。在通过融合HANET的HRNET获取到原始图像的目标特征图后,通过OCR方法来计算得到原始图像中各个像素的语义类别。参考图5,该OCR模型包括如下物部分:第一,通过主干网络的中间层得到一个粗略的语义分割结果,即软物体区域(Soft Object Regions);第二,通过主干网络的深层所输出的像素特征表示(Pixel Representations)和软物体区域计算得到K组向量,K为大于1的整数,即物体区域特征表示(Object Regions Representations),其中,每一个向量对应一个语义类别的特征表示;第三,计算像素特征表示与物体区域特征表示之间的关系矩阵,即像素-区域关系矩阵(Pixel-Regions Relation);第四,根据每个像素的像素特征表示和物体区域特征表示在关系矩阵中的数值,将每个物体区域特征表示进行加权求和,得到物体上下文特征表示,也即是OCR;最后,基于OCR与像素特征得到作为上下文信息的增强特征表示(Augmented Representations),该增强特征表示能够用于预测每个像素的语义类别。
基于上述图1所示的实施环境,本申请实施例提供了一种语义分割模型的训练方法,该语义分割模型的训练方法可以应用于计算机设备101,计算机设备101可以为终端,也可以为服务器,本申请实施例对此不进行限定。如图6所示,本申请实施例提供的语义分割模型的训练方法包括如下步骤601至步骤604。
步骤601,获取样本图像、样本图像的语义标签和初始语义分割模型,初始语义分割模型包括初始语义分类模型和融合注意力机制的初始特征提取模型,注意力机制用于基于样本图像的空间位置分布获取样本图像的结构特征。
示例性地,样本图像是指训练初始语义分割模型所需的图像,其中,样本图像与图2所示的实施例中的原始图像为相同类型的图像,例如,样本图像与原始图像同为城市街景图像,以保证训练得到的语义分割模型的对原始图像的分割效果。需要说明的是,本申请实施例中提到的样本图像是指对初始语义分割模型训练一次所依据的样本图像,样本图像的数量可以为一个,也可以为多个,本申请实施例对此不加以限定。示例性地,样本图像的数量为多个,以保证模型训练效果。
在示例性实施例中,计算机设备获取样本图像的方式为:计算机设备将某公开数据集中的训练图像作为样本图像。例如,计算机设备将城市景观(Cityscapes)数据集中的训练图像作为样本图像。Cityscapes数据集拥有5000张在城市环境中驾驶场景的图像,其中,2975张训练数据,1525张测试数据以及具有19个类别的密集像素类别标签。
可选地,样本图像的语义标签用于为初始语义分割模型的训练过程提供监督信息,样本图像的语义标签用于提供样本图像中的各个像素点是否属于参考对象的类别的信息。在示例性实施例中,样本图像中的各个像素点是否属于参考对象的类别的信息能够通过人工标注得到,样本图像的语义标签是指样本图像的像素级标签。
步骤602,调用融合注意力机制的初始特征提取模型对原始图像进行特征提取,得到融合样本图像的结构特征的目标特征图。
该步骤602的实现方式参见图2所示的实施例中的步骤202,此处不再赘述。
步骤603,将目标特征图输入初始语义分类模型,基于初始语义分类模型输出得到样本图像中各个像素点的语义类别。
该步骤603的实现方式参见图2所示的实施例中的步骤203,此处不再赘述。
步骤604,基于样本图像中各个像素点的语义类别与样本图像的语义标签,对初始语义分割模型进行训练,得到语义分割模型。
得到样本图像中各个像素点的语义类别后,基于样本图像中各个像素点的语义类别以及样本图像的语义标签对初始语义分割模型进行训练,以得到训练好的语义分割模型。
在一种可能实现方式中,基于样本图像中各个像素点的语义类别与样本图像的语义标签,对初始语义分割模型进行训练,包括:基于样本图像中各个像素点的语义类别与样本图像的语义标签,获取损失函数值;根据损失函数值对初始语义分割模型中的初始语义分类模型和融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件。
可选地,对于基于样本图像中各个像素点的语义类别与样本图像的语义标签,获取损失函数值的方式不进行限定。例如,将样本图像中各个像素点的语义类别与样本图像的各个语义标签之间的交叉熵损失函数的加权和作为损失函数值;或者,将样本图像中各个像素点的语义类别与样本图像的语义标签之间的均方误差(Mean Square Error,MSE)函数的加权和作为损失函数值。
示例性地,在计算加权和的过程中,样本图像中各个像素点的语义类别与样本图像的各个语义标签的交叉熵损失函数或者MSE函数分别对应的权重根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。
在一种可能的实施方式中,根据损失函数值对初始语义分割模型中的初始语义分类模型和融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件,得到语义分割模型,包括:若损失函数值大于目标阈值,根据损失函数值对初始语义分割模型中的初始语义分类模型和融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件,得到语义分割模型;若损失函数值小于或等于目标阈值,满足收敛条件,则将当前模型参数下的初始语义分割模型作为训练好的语义分割模型。
可选地,目标阈值可以根据经验设置,或者根据经验灵活调整,例如,该目标阈值为任一大于或等于0且小于或等于1的数值。
在一种可能的实施方式中,本申请实施例提供的语义分割模型的训练方法可以应用于个人计算机或者服务器等具有较强数据处理能力的计算机设备中。而利用通过上述方法训练得到的语义分割模型可以实现成为应用程序或应用程序的一部分,并被安装到终端中,使终端具备图像的语义分割能力,或者,该通过上述方法训练得到的语义分割模型可以应用于应用程序的后台服务器中,从而由服务器为终端中的应用程序提供图像的语义分割服务。
示例性地,以图5所示的语义分割模型为例,采用Cityscapes数据集对该语义分割模型进行训练。基于本申请实施例提供的方法训练得到的语义分割模型(融合HAENT的HRNET+OCR)和相关技术中的语义分割模型(HRNET+OCR)的模型性能的比对结果如表1所示,可选地,以mIoU作为评价指标(mIoU的定义:计算真实值和预测值两个集合的交集和并集之比)。
表1
语义分割模型 相关技术(mIoU) 本申请(mIoU)
列车 74.86 82.71
摩托车 66.23 68.93
巴士 90.21 92.7
骑行的人 68 69.28
自行车 80.23 81.1
85.13 85.54
路灯 76.56 76.7
道路 98.27 98.36
天空 95.49 95.58
根据表1可知,基于本申请实施例提供的方法训练得到的语义分割模型能够获取比相关技术中的语义分割模型更高的准确度。
在一种可能的实施方式中,计算机设备根据测试图像的语义分割结果显示测试图像对应的分割图像,从而根据分割图像确定语义分割模型的语义分割性能,其中,分割图像中标注有不同类别的对象。可选地,计算机设备预先为各个类别分配标记颜色,从而根据各个像素点所属对象对应的类别,采用相应的标记颜色对各个像素点进行填充,从而生成图像对应的语义分割图像。
请参考图7,其示出了基于本申请实施例提供的方法训练得到的语义分割模型(融合HAENT的HRNET+OCR)和相关技术中的语义分割模型(HRNET+OCR)分别对测试图像进行语义分割后所得到的分割图像的对比图。从图7中的小框中可以看出,相较于相关技术中的语义分割模型(HRNET+OCR)分割得到的道路栅栏和电动车,本申请实施例提供的方法训练得到的语义分割模型(融合HAENT的HRNET+OCR)分割得到的道路栅栏和电动车更准确。因此,本申请实施例提供的方法训练得到的语义分割模型(融合HAENT的HRNET+OCR)的语义分割性能得到了提高。
基于本申请实施例提供的技术方案,能够训练得到包括语义分类模型和融合注意力机制的特征提取模型的语义分割模型,为实现通过注意力机制来获取融合原始图像的空间位置分布的结构特征的目标特征图奠定了基础,能够使得获取的目标特征图强化了与原始图像的空间位置分布相关的上下文信息融合,进而使得根据该目标特征图获取的语义分割结果的性能得到了提高。
参见图8,本申请实施例提供了一种语义分割装置,该装置包括:
第一获取模块801,用于获取原始图像和语义分割模型,语义分割模型包括语义分类模型和融合注意力机制的特征提取模型,注意力机制用于基于原始图像的空间位置分布获取原始图像的结构特征;
特征提取模块802,用于调用融合注意力机制的特征提取模型对原始图像进行特征提取,得到融合原始图像的结构特征的目标特征图;
分类模块803,用于将目标特征图输入语义分类模型,得到语义分类模型输出的原始图像中各个像素点的语义类别;
第二获取模块804,用于基于原始图像中各个像素点的语义类别,获取原始图像的语义分割结果。
在一种可能的实施方式中,融合注意力机制的特征提取模型包括特征提取模块、注意力模块和融合模块;
特征提取模块802,用于调用特征提取模块提取原始图像在不同分辨率下对应的多个特征尺度图;调用注意力模块获取多个特征尺度图分别对应的通道注意力图,通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,第一空间维度由原始图像的空间位置分布确定;调用融合模块将多个特征尺度图和多个特征尺度图分别对应的通道注意力图进行融合,得到目标特征图。
在一种可能的实施方式中,注意力模块包括池化层、下采样层、卷积层和上采样层;
特征提取模块802,用于对于多个特征尺度图中的任一特征尺度图,调用池化层将任一特征尺度图的第二空间维度的向量进行池化压缩,得到第一空间维度上的第一中间特征,第二空间维度为任一特征尺度图中除第一空间维度之外的空间维度;调用下采样层对第一中间特征进行下采样处理,得到精细化的第二中间特征;调用卷积层提取第二中间特征的第一空间维度的向量之间的上下文信息,得到第三中间特征;调用上采样层对第三中间特征进行上采样处理,得到任一特征尺度图对应的通道注意力图,通道注意力图的尺寸与任一特征尺度图的尺寸相同。
在一种可能的实施方式中,特征提取模块802,用于调用融合模块将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图进行融合,得到各个特征尺度图对应的融合结果;级联各个特征尺度图对应的融合结果,得到目标特征图。
在一种可能的实施方式中,特征提取模块802,用于调用融合模块将多个特征尺度图中的各个特征尺度图与各个特征尺度图对应的通道注意力图相乘,得到各个特征尺度图对应的乘积结果;将各个特征尺度图与各个特征尺度图对应的乘积结果相加,得到各个特征尺度图对应的融合结果。
本申请实施例提供的语义分割方法,通过注意力机制来获取融合始图像的空间位置分布的结构特征的目标特征图,使得获取的目标特征图强化了与原始图像的空间位置分布相关的上下文信息融合,进而使得根据该目标特征图获取的语义分割结果的性能得到了提高。
参见图9,本申请实施例提供了一种语义分割模型的训练装置,该装置包括:
第一获取模块901,用于获取样本图像、样本图像的语义标签和初始语义分割模型,初始语义分割模型包括初始语义分类模型和融合注意力机制的初始特征提取模型,注意力机制用于基于样本图像的空间位置分布获取样本图像的结构特征;
特征提取模块902,用于调用融合注意力机制的初始特征提取模型对原始图像进行特征提取,得到融合样本图像的结构特征的目标特征图;
分类模块903,用于将目标特征图输入初始语义分类模型,基于初始语义分类模型输出得到样本图像中各个像素点的语义类别;
训练模块904,用于基于样本图像中各个像素点的语义类别与样本图像的语义标签,对初始语义分割模型进行训练,得到语义分割模型。
在一种可能的实施方式中,训练模块904,用于基于样本图像中各个像素点的语义类别与样本图像的语义标签,获取损失函数值;根据损失函数值对初始语义分割模型中的初始语义分类模型和融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件。
基于本申请实施例提供的语义分割模型的训练装置,能够训练得到包括语义分类模型和融合注意力机制的特征提取模型的语义分割模型,为实现通过注意力机制来获取融合原始图像的结构特征的目标特征图奠定了基础,能够使得获取的目标特征图强化了与原始图像的空间位置分布相关的上下文信息融合,进而使得根据该目标特征图获取的语义分割结果的性能得到了提高。
应理解的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以为终端,例如可以是:智能手机、平板电脑、车载终端、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语义分割方法。
在一些实施例中,终端还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(Wireless Fidelity,WiFi)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在终端的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
电源709用于为终端中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端的侧边框和/或显示屏705的下层。当压力传感器713设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端的前面板。接近传感器716用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
请参考图11,图11是本申请实施例提供的一种服务器的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器401和一个或多个的存储器402,其中,该一个或多个存储器402中存储有至少一条程序指令,该至少一条程序指令由该一个或多个处理器401加载并执行以实现上述各个方法实施例提供的语义分割方法。当然,该服务器400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器400还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以使计算机设备实现上述任一种语义分割方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以使计算机实现上述任一种语义分割方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种语义分割方法。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的原始图像和语义分割模型都是在充分授权的情况下获取的。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语义分割方法,其特征在于,所述方法包括:
获取原始图像和语义分割模型,所述语义分割模型包括语义分类模型和融合注意力机制的特征提取模型,所述注意力机制用于基于所述原始图像的空间位置分布获取所述原始图像的结构特征;
调用所述融合注意力机制的特征提取模型对所述原始图像进行特征提取,得到融合所述原始图像的结构特征的目标特征图;
将所述目标特征图输入所述语义分类模型,得到所述语义分类模型输出的所述原始图像中各个像素点的语义类别;
基于所述原始图像中各个像素点的语义类别,获取所述原始图像的语义分割结果。
2.根据权利要求1所述的方法,其特征在于,所述融合注意力机制的特征提取模型包括特征提取模块、注意力模块和融合模块;
所述调用所述融合注意力机制的特征提取模型对所述原始图像进行特征提取,得到融合所述原始图像的结构特征的目标特征图,包括:
调用所述特征提取模块提取所述原始图像在不同分辨率下对应的多个特征尺度图;
调用所述注意力模块获取所述多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定;
调用所述融合模块将所述多个特征尺度图和所述多个特征尺度图分别对应的通道注意力图进行融合,得到所述目标特征图。
3.根据权利要求2所述的方法,其特征在于,所述注意力模块包括池化层、下采样层、卷积层和上采样层;所述调用所述注意力模块获取所述多个特征尺度图分别对应的通道注意力图,包括:
对于所述多个特征尺度图中的任一特征尺度图,调用所述池化层将所述任一特征尺度图的第二空间维度的向量进行池化压缩,得到所述第一空间维度上的第一中间特征,所述第二空间维度为所述任一特征尺度图中除所述第一空间维度之外的空间维度;
调用所述下采样层对所述第一中间特征进行下采样处理,得到精细化的第二中间特征;
调用所述卷积层提取所述第二中间特征的第一空间维度的向量之间的上下文信息,得到第三中间特征;
调用所述上采样层对所述第三中间特征进行上采样处理,得到所述任一特征尺度图对应的通道注意力图,所述通道注意力图的尺寸与所述任一特征尺度图的尺寸相同。
4.根据权利要求2所述的方法,其特征在于,所述调用所述融合模块将所述多个特征尺度图和所述多个特征尺度图分别对应的通道注意力图进行融合,得到所述目标特征图,包括:
调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图进行融合,得到所述各个特征尺度图对应的融合结果;
级联所述各个特征尺度图对应的融合结果,得到所述目标特征图。
5.根据权利要求4所述的方法,其特征在于,所述调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图进行融合,得到所述各个特征尺度图对应的融合结果,包括:
调用所述融合模块将所述多个特征尺度图中的各个特征尺度图与所述各个特征尺度图对应的通道注意力图相乘,得到所述各个特征尺度图对应的乘积结果;
将所述各个特征尺度图与所述各个特征尺度图对应的乘积结果相加,得到所述各个特征尺度图对应的融合结果。
6.一种语义分割模型的训练方法,其特征在于,所述方法包括:
获取样本图像、所述样本图像的语义标签和初始语义分割模型,所述初始语义分割模型包括初始语义分类模型和融合注意力机制的初始特征提取模型,所述注意力机制用于基于所述样本图像的空间位置分布获取所述样本图像的结构特征;
调用所述融合注意力机制的初始特征提取模型对所述样本图像进行特征提取,得到融合所述样本图像的结构特征的目标特征图;
将所述目标特征图输入所述初始语义分类模型,基于所述初始语义分类模型输出得到所述样本图像中各个像素点的语义类别;
基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,对所述初始语义分割模型进行训练,得到语义分割模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,对所述初始语义分割模型进行训练,包括:
基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,获取损失函数值;
根据所述损失函数值对所述初始语义分割模型中的所述初始语义分类模型和所述融合注意力机制的初始特征提取模型的参数进行迭代调整,直到满足收敛条件。
8.一种语义分割装置,其特征在于,所述装置包括:
第一获取模块,用于获取原始图像和语义分割模型,所述语义分割模型包括语义分类模型和融合注意力机制的特征提取模型,所述注意力机制用于基于所述原始图像的空间位置分布获取所述原始图像的结构特征;
特征提取模块,用于调用所述融合注意力机制的特征提取模型对所述原始图像进行特征提取,得到融合所述原始图像的结构特征的目标特征图;
分类模块,用于将所述目标特征图输入所述语义分类模型,得到所述语义分类模型输出的所述原始图像中各个像素点的语义类别;
第二获取模块,用于基于所述原始图像中各个像素点的语义类别,获取所述原始图像的语义分割结果。
9.一种语义分割模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取样本图像、所述样本图像的语义标签和初始语义分割模型,所述初始语义分割模型包括初始语义分类模型和融合注意力机制的初始特征提取模型,所述注意力机制用于基于所述样本图像的空间位置分布获取所述样本图像的结构特征;
特征提取模块,用于调用所述融合注意力机制的初始特征提取模型对所述样本图像进行特征提取,得到融合所述样本图像的结构特征的目标特征图;
分类模块,用于将所述目标特征图输入所述初始语义分类模型,基于所述初始语义分类模型输出得到所述样本图像中各个像素点的语义类别;
训练模块,用于基于所述样本图像中各个像素点的语义类别与所述样本图像的语义标签,对所述初始语义分割模型进行训练,得到语义分割模型。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序或指令,所述至少一条计算机程序或指令由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至5任一所述的语义分割方法,或者如权利要求6至7任一所述的语义分割模型的训练方法。
CN202210386561.4A 2022-04-11 2022-04-11 语义分割方法、语义分割模型的训练方法、装置及设备 Pending CN114820633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210386561.4A CN114820633A (zh) 2022-04-11 2022-04-11 语义分割方法、语义分割模型的训练方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210386561.4A CN114820633A (zh) 2022-04-11 2022-04-11 语义分割方法、语义分割模型的训练方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114820633A true CN114820633A (zh) 2022-07-29

Family

ID=82537194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210386561.4A Pending CN114820633A (zh) 2022-04-11 2022-04-11 语义分割方法、语义分割模型的训练方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114820633A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690592A (zh) * 2023-01-05 2023-02-03 阿里巴巴(中国)有限公司 图像处理方法和模型训练方法
CN115713535A (zh) * 2022-11-07 2023-02-24 阿里巴巴(中国)有限公司 图像分割模型确定方法以及图像分割方法
CN115761239A (zh) * 2023-01-09 2023-03-07 深圳思谋信息科技有限公司 一种语义分割方法及相关装置
CN117412452A (zh) * 2023-12-13 2024-01-16 深圳市千岩科技有限公司 氛围灯设备及其配色方法和相应的装置、介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713535A (zh) * 2022-11-07 2023-02-24 阿里巴巴(中国)有限公司 图像分割模型确定方法以及图像分割方法
CN115713535B (zh) * 2022-11-07 2024-05-14 阿里巴巴(中国)有限公司 图像分割模型确定方法以及图像分割方法
CN115690592A (zh) * 2023-01-05 2023-02-03 阿里巴巴(中国)有限公司 图像处理方法和模型训练方法
CN115761239A (zh) * 2023-01-09 2023-03-07 深圳思谋信息科技有限公司 一种语义分割方法及相关装置
CN117412452A (zh) * 2023-12-13 2024-01-16 深圳市千岩科技有限公司 氛围灯设备及其配色方法和相应的装置、介质
CN117412452B (zh) * 2023-12-13 2024-04-02 深圳市千岩科技有限公司 氛围灯设备及其配色方法和相应的装置、介质

Similar Documents

Publication Publication Date Title
CN110136136B (zh) 场景分割方法、装置、计算机设备及存储介质
CN110807361B (zh) 人体识别方法、装置、计算机设备及存储介质
CN114820633A (zh) 语义分割方法、语义分割模型的训练方法、装置及设备
CN110490179B (zh) 车牌识别方法、装置及存储介质
CN111932463B (zh) 图像处理方法、装置、设备及存储介质
CN112749613B (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN113076814B (zh) 文本区域的确定方法、装置、设备及可读存储介质
CN110991457B (zh) 二维码处理方法、装置、电子设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN111860485A (zh) 图像识别模型的训练方法、图像的识别方法、装置、设备
CN113706440A (zh) 图像处理方法、装置、计算机设备及存储介质
CN114359225A (zh) 图像检测方法、装置、计算机设备及存储介质
CN110807769B (zh) 图像显示控制方法及装置
CN110503159B (zh) 文字识别方法、装置、设备及介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN112818979B (zh) 文本识别方法、装置、设备及存储介质
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN111444749B (zh) 路面导向标志的识别方法、装置及存储介质
CN113822955B (zh) 图像数据处理方法、装置、计算机设备及存储介质
CN111428551A (zh) 密度检测方法、密度检测模型训练方法和装置
CN113378705B (zh) 车道线检测方法、装置、设备及存储介质
CN112528760B (zh) 图像处理方法、装置、计算机设备及介质
CN114283395A (zh) 车道线检测的方法、装置、设备及计算机可读存储介质
CN114462580A (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
CN116109531A (zh) 图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination