CN114926721A - 一种场景图像解析方法和系统 - Google Patents

一种场景图像解析方法和系统 Download PDF

Info

Publication number
CN114926721A
CN114926721A CN202210515553.5A CN202210515553A CN114926721A CN 114926721 A CN114926721 A CN 114926721A CN 202210515553 A CN202210515553 A CN 202210515553A CN 114926721 A CN114926721 A CN 114926721A
Authority
CN
China
Prior art keywords
scene image
sample data
module
graph
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210515553.5A
Other languages
English (en)
Inventor
刘渭滨
邹智元
邢薇薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202210515553.5A priority Critical patent/CN114926721A/zh
Publication of CN114926721A publication Critical patent/CN114926721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种场景图像解析方法和系统。主要技术方案包括:采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;基于网格块样本数据建立空间层次图结构并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据;根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构;对场景图像解析模型架构进行模型训练,得到场景图像解析模型。本申请能够提高场景图像解析模型小尺度目标特征学习能力,增强对多尺度场景图像解析的准确度。

Description

一种场景图像解析方法和系统
技术领域
本申请涉及计算机视觉、模式识别技术领域,特别是涉及一种场景图像解析方法和系统。
背景技术
目前,视觉场景图像的语义解析是计算机视觉研究的焦点之一,是实现语义级别场景识别与理解的关键技术。场景解析要求对给定的场景图像得到多标签分类结果,同时将标签定位到图像像素,从而得到像素级的语义解析结果。在传统的实现方式中,一般采用深度卷积神经网络模型实现,该模型使用密集标注的场景图像作为训练数据,使用一般卷积、空洞卷积、可分离卷积等运算过程实现特征学习。
然而,基于密集标注的场景图像实现像素级场景解析,特别是场景图像中多尺度物体目标的识别和分割,对于直接处理原始场景图像的场景解析模型仍然是巨大挑战,由于很难平衡场景图像中较大目标与较小目标的特征学习权重,且较大目标能够提供更多局部信息,模型更倾向于学习较大目标的特征,导致对较小目标的解析性能下降。
发明内容
基于此,本申请提供了一种场景图像解析方法、系统、设备和存储介质,以有效实现场景语义解析,提高小尺度场景目标的解析准确率。
第一方面,提供一种场景图像解析方法,该方法包括:
采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;
将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;
基于网格块样本数据建立空间层次图结构,并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据;
根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构;
基于图像标签样本数据对场景图像解析模型架构进行模型训练,得到场景图像解析模型。
根据本申请实施例中一种可实现的方式,基于网格块样本数据建立空间层次图结构,包括:
根据图像标签样本数据的像素类别标签确定网格块样本数据的网格类别标签;
根据网格块样本数据的四邻域关系建立空间边,获得空间图结构;其中,一个图节点代表一个网格块样本数据;
将自定义划分粒度下的各相邻空间图结构中的相同网格类别标签的图节点相连,建立空间层次边得到空间层次图结构。
根据本申请实施例中一种可实现的方式,提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据,包括:
采用特征提取算法对网格块样本数据进行特征提取,得到特征向量数据;
将特征向量数据赋值给空间层次图结构中对应的图节点,得到场景图像的特征样本数据。
根据本申请实施例中一种可实现的方式,根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构,包括:
根据场景图像的特征样本数据和预设空间图卷积公式,得到场景图像的空间图卷积运算模块;
将空间图卷积运算模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
根据本申请实施例中一种可实现的方式,根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构,还包括:
根据场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块;
将空间图卷积运算模块和谱图卷积注意力模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
根据本申请实施例中一种可实现的方式,预设谱图卷积特征融合模型包括预设切比雪夫多项式公式、预设邻接矩阵的权重公式以及预设空间图卷积公式;根据场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块,包括:
根据场景图像的特征样本数据和预设切比雪夫多项式公式得到场景图像的局部谱图卷积样本数据;
根据局部谱图卷积样本数据和预设邻接矩阵的权重公式得到局部图节点间的边权重值;
根据局部图节点间的边权重值和预设空间图卷积公式得到场景图像的谱图卷积注意力模块。
根据本申请实施例中一种可实现的方式,根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构,还包括:
根据场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块;
将空间图卷积运算模块、谱图卷积注意力模块以及自适应图池化模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
根据本申请实施例中一种可实现的方式,预设多领域自适应图池化模型包括预设多领域自适应公式和预设图池化公式;根据场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块,包括:
根据场景图像的特征样本数据和预设多领域自适应公式,得到场景图像的自适应模块;
根据场景图像的自适应模块和预设图池化公式,得到场景图像的自适应图池化模块。
根据本申请实施例中一种可实现的方式,对场景图像解析模型架构进行模型训练,得到场景图像解析模型,包括:
将图像标签样本数据划分为训练集数据、验证集数据以及测试集数据;
选择模型训练的损失函数、模型训练算法以及设置对应训练配置参数;
采用训练集数据对场景图像解析模型架构进行模型训练、采用验证集数据对场景图像解析模型架构的性能进行验证以及采用测试集数据对场景图像解析模型架构的性能进行测试,得到场景图像解析模型。
第二方面,提供了一种场景图像解析系统,该系统包括:
采集标注模块,用于采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;
粒度划分模块,用于将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;
第一计算模块,用于基于网格块样本数据建立空间层次图结构,并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据;
第二计算模块,用于根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构;
模型训练模块,用于基于图像标签样本数据对场景图像解析模型架构进行模型训练,得到场景图像解析模型。
第三方面,提供了一种计算机设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机指令,计算机指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面中涉及的方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,计算机指令用于使计算机执行上述第一方面中涉及的方法。
根据本申请实施例所提供的技术内容,首先,采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;然后,基于网格块样本数据建立空间层次图结构,并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据;根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构;最后,基于图像标签样本数据对场景图像解析模型架构进行模型训练,得到场景图像解析模型。通过上述操作得到的场景图像解析模型,能够达到提高场景图像解析模型小尺度目标特征学习能力,场景图像解析模型多尺度解析的准确度。
附图说明
图1为一个实施例中一种场景图像解析方法的应用环境图;
图2为一个实施例中一种场景图像解析方法的流程示意图;
图3为一个实施例中一种场景图像解析方法中的空间图结构示意图;
图4为一个实施例中一种场景图像解析方法中建立空间层次图结构的流程示意图;
图5为一个实施例中一种场景图像解析方法中的空间层次图结构示意图;
图6为一个实施例中一种场景图像解析方法中提取特征向量将特征向量赋值于空间层次图结构得到场景图像的特征样本数据的流程示意图;
图7为一个实施例中一种场景图像解析方法中的场景图像解析模型架构示意图;
图8为一个实施例中一种场景图像解析系统的结构框图;
图9为一个实施例中计算机设备的示意性结构图。
具体实施方式
以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了方便理解,首先对本申请所适用的系统进行描述。本申请提供的一种场景图像解析方法,可以应用于如图1所示的系统架构中。该系统架构包括:终端设备102-网络-服务器104,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、平板电脑等硬件设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2为本申请实施例提供的一种场景图像解析方法的流程图,该方法可以由如图1所示系统架构中的服务器104执行。如图2所示,该方法可以包括以下步骤:
步骤S201:采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;
其中,场景图像包括在自然场景、人造场景中通过相机采集的图像,而人造场景又分为室内场景和室外场景,但不论哪种场景均属于场景图像的领域。
这里,采集大量场景图像作为图像样本数据,由于场景图像中包含很多事物,而事物又包括人、动物或植物、人造或自然物体、地点或环境等。对图像样本数据进行标签标记,即可以为场景图像中包含的每种事物定义一个语义类别名称,每个语义类别名称对应标注一个事物类别标签;又因为每张场景图像包含多个像素,针对每个像素中所属的事物为每个像素对应标注一个像素类别标签,进而得到图像标签样本数据。
在一种可实现的方式中,例如,图像标签样本数据为一张办公室的室内场景图像,根据室内场景图像中包含的事物定义语义类别名称,如屏幕、打印机、水杯、窗户等,进而定义对应的事物类别标签用整数表示依次为0、1、2、3;针对全是屏幕的像素区域内的像素类别标签也为0,以此类推,室内场景图像的像素类别标签也为0、1、2、3且与事物类别标签一一对应。
步骤S203:将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据。
其中,自定义划分粒度包括由粗到细多种划分粒度。
这里,将图像标签样本数据按照由粗到细多种划分粒度,对每个图像标签样本数据按照多种粒度进行网格划分,得到网格块样本数据。
在一种可实现的方式中,自定义划分粒度包括由粗到细3种划分粒度,依次对应3个空间层次,如图3(a)(b)(c)所示;其中,空间层次-1的划分粒度即网格块尺寸为32×32像素,空间层次-2的划分粒度即即网格块尺寸16×16像素,空间层次-3的划分粒度即即网格块尺寸为8×8像素。
步骤S205:基于网格块样本数据建立空间层次图结构,并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据。
这里,由于场景图像的特征样本数据包含两部分内容,一部分为空间层次图结构,另一部分为特征向量数据,因此,在基于网格块样本数据建立空间层次图结构的同时,还需要提取特征向量数据将特征向量数据赋值于空间层次图结构,从而,得到场景图像的特征样本数据。
步骤S207:根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构。
这里,将场景图像的特征样本数据作为预设图模型的输入变量,进而可以得到输出的场景图像解析模块;再将场景图像解析模块进行组合得到图卷积网络单元;最后,执行图卷积网络单元的堆叠操作以完成场景图像解析模型架构的构建。
步骤S209:基于图像标签样本数据对场景图像解析模型架构进行模型训练,得到场景图像解析模型。
这里,基于图像标签样本数据对构建的场景图像解析模型架构进行模型训练,以得到场景图像解析模型。
可以看出,本申请实施例通过采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;然后,基于网格块样本数据建立空间层次图结构,并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据;根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构;最后,基于图像标签样本数据对场景图像解析模型架构进行模型训练,得到场景图像解析模型。以达到提高场景图像解析模型小尺度目标特征的学习能力,场景图像解析模型多尺度解析的准确度。
下面对上述方法流程中个别步骤进行详细描述。参照图4,首先结合实施例对上述步骤205中“基于网格块样本数据建立空间层次图结构”进行详细描述。
步骤S301,根据图像标签样本数据的像素类别标签确定网格块样本数据的网格类别标签。
这里,对于空间层次-1/空间层次-2/空间层次-3,其网格类别标签均可以根据图像标签样本数据中的像素类别标签确定。
在一种可实现的方式中,根据图像标签样本数据的像素类别标签确定网格块样本数据的网格类别标签的具体依据如下:
若网格块样本数据中属于某像素类别标签j的像素数量占比大于等于阀值α,则对应该网格块样本数据的网格类别标签为j;若网格块样本数据中不同像素类别标签j的像素数量占比均小于等于阀值β,则该网格块样本数据无网格类别标签;若网格块样本数据中不同像素类别标签j的像素数量占比均小于阀值α但大于阀值β,则该网格块样本数据的网格类别标签取像素数量占比最大的像素类别标签jmax。其中,阀值α取值范围为0.6~0.8,阀值β取值范围为0.2~0.4。
为方便理解,这里举例说明一下,例如,此时单个网格块样本数据的像素类别标签有三种,分别为1、2和3;当这三种像素类别标签的像素数量占比都小于等于阀值β时,则该网格块样本数据无网格类别标签;当2这个像素类别标签的像素数量占比大于等于α时,则此时该网格块样本数据的网格类别标签即为2;当这三种像素类别标签的像素数量占比均小于阀值α但大于阀值β,则此时像素类别标签的像素数量占比最大的即为该网格块样本数据的网格类别标签。
步骤S303,根据网格块样本数据的四邻域关系建立空间边,获得空间图结构。
其中,一个图节点代表一个网格块样本数据,即每个图节点包含对应网格块样本数据的全部信息,且网格块样本数据的网格类别标签即为图节点的节点类别标签。
具体地,根据网格块样本数据的四邻域关系建立空间边,获得空间图结构。其中,空间图结构包含三个互不连通的子图,如图3(a)所示;其上方的屏幕对应一个由4个图节点组成的子图,左下方的屏幕对应一个由2个图节点组成的子图,右下方的打印机对应一个由1个图节点组成的子图;且这里对应于每个图节点,基于四邻域关系直接连接的其它图节点组成的为1级邻域,通过1级邻域的图节点间接连接的其它图节点组成的为2级邻域,以此类推。当然,这里也可以根据图节点之间的最短路径的长度确定,当最短路径长度为1时即为1级邻域,长度为2时即为2级邻域,以此类推。
步骤S305,将自定义划分粒度下的各相邻空间图结构中的相同网格类别标签的图节点相连,建立空间层次边得到空间层次图结构。
这里,将空间层次-1、空间层次-2以及空间层次-3进行叠加,即将各相邻空间图结构中的相同网格类别标签的图节点相连,建立空间层次边得到空间层次图结构。如图5所示,其中,连接分属于相邻两个空间图结构的相同网格类别标签的图节点的边称为空间层次边,这里的空间层次图结构可以形式化表示为如下公式:
Figure BDA0003639363690000097
其中,
Figure BDA0003639363690000098
为图节点集合,εS为空间边集合,εSH为空间层次边集合,ΛS为空间边的邻接矩阵,ΛSH为空间层次边的邻接矩阵。
参照图6,下面结合实施例对上述步骤205中“提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据”进行详细描述。
步骤S401,采用特征提取算法对网格块样本数据进行特征提取,得到特征向量数据。
这里,特征提取算法的种类很多,可以采用HOG、SIFT、GIST以及LBP等特征提取算法,且由于每种特征提取算法自身的特性不同,对应的参数设置也不同。具体特征提取算法可以形式化表示为如下公式:
x=f(x,δ)
其中,f表示特征提取算法函数,δ表示特征提取算法对应的配置参数,x表示输入的网格块样本数据的像素值,x表示经过特征提取算法后输出的特征向量数据。
步骤S403,将特征向量数据赋值给空间层次图结构中对应的图节点,得到场景图像的特征样本数据。
具体地,将特征向量数据赋值给空间层次图结构中对应的图节点,即得到的场景图像的特征样本数据即包含了空间层次图结构以及特征向量数据,具体可以形式化表示为如下公式:
Figure BDA0003639363690000091
其中,xn,l是图节点vn,l的特征数据;
Figure BDA0003639363690000092
Figure BDA0003639363690000093
维实数,且
Figure BDA0003639363690000094
为特征通道数;空间层次数为
Figure BDA0003639363690000095
第l层的图节点数量为
Figure BDA0003639363690000096
参照图7,下面接着结合实施例对上述步骤207即“根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构”进行详细描述。
在一些实施例中,根据场景图像的特征样本数据和预设空间图卷积公式,得到场景图像的空间图卷积运算模块;将空间图卷积运算模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
在一种可实现的方式中,预设空间图卷积模型可以是基于K级邻域的预设空间图卷积公式,具体表达形式如下:
Figure BDA0003639363690000101
其中,xv为图节点v的特征样本数据,
Figure BDA0003639363690000102
为图节点c的特征样本权重,θ表示前置层节点邻域的边连接权重,K为邻域级数,
Figure BDA0003639363690000103
为图节点v的K级邻域节点的集合;(t)表示第(t)层图卷积运算,且有
Figure BDA0003639363690000104
需要说明的是,关于
Figure BDA0003639363690000105
和θ的求解,在模型训练前,首先会对参数
Figure BDA0003639363690000106
和θ的值进行随机初始化,这里一般采用误差反向传播算法对参数
Figure BDA0003639363690000107
和θ的值进行更新,其可以形式化表示如下:
Figure BDA0003639363690000108
Figure BDA0003639363690000109
其中,←表示参数赋值更新,rw和rθ为模型参数学习率,
Figure BDA00036393636900001010
为梯度,其取值范围为10-5~10-1。这里需要说明是的,由于误差反向传播算法在模型训练中是本领域技术人员所熟知的,此处不做详细赘述,仅做简单表示。
通过上述计算得到场景图像的空间图卷积运算模块后,将空间图卷积运算模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构,实现基于K级邻域的空间图卷积运算模块构建的场景图像解析模型架构,以达到提高场景图像解析模型全局目标特征的学习能力,实现对多尺度场景图像解析的准确度。
在一些实施例中,根据场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块;将空间图卷积运算模块和谱图卷积注意力模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
在一种可实现的方式中,预设谱图卷积特征融合模型包括预设切比雪夫多项式公式、预设邻接矩阵的权重公式以及预设空间图卷积公式。
这里,根据图节点之间的连接关系,选择1级邻域连接数少于4的图节点,对这些图节点分别提取其多级邻域图节点组成独立的局部图结构,进而建立一个局部谱图卷积模型以实现特征融合机制。其中,局部谱图卷积运算可以采用切比雪夫多项式。
具体地,根据场景图像的特征样本数据和预设切比雪夫多项式一阶近似或二阶近似公式得到场景图像的局部谱图卷积样本数据,具体计算如下:
Figure BDA0003639363690000111
Figure BDA0003639363690000112
其中,x表示特征样本数据,*G表示谱图卷积运算,gσ表示卷积核,D表示局部图节点的对角矩阵,A表示局部图节点的邻接矩阵,σ0、σ1和σ2均为多项式参数,其取值范围为0~1。
根据局部谱图卷积样本数据和预设邻接矩阵的权重公式得到局部图节点间的边权重值。这里,以局部谱图卷积样本数据作为自监督信息,局部图节点v和u之间的边权重euv计算公式如下:
Figure BDA0003639363690000113
其中,
Figure BDA0003639363690000114
是一个可学习的参数矩阵,exp(·)为指数函数||·||表示向量范数。
根据局部图节点间的边权重值和预设空间图卷积公式得到场景图像的谱图卷积注意力模块,即通过局部图节点间的边权重值和预设空间图卷积公式的乘积得到场景图像的自监督谱图卷积注意力模块。其具体公式的表现形式为:
Figure BDA0003639363690000115
通过上述计算得到场景图像的谱图卷积注意力模块,再将场景图像的谱图卷积注意力模块和空间图卷积运算模块进行组合得到图卷积网络单元,进而基于图卷积网络单元构建场景图像解析模型架构。以达到提高场景图像解析模型的局部特征学习能力,实现对多尺度场景图像解析的准确度。
在一些实施例中,根据场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块;将空间图卷积运算模块、谱图卷积注意力模块以及自适应图池化模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
在一种可实现的方式中,预设多领域自适应图池化模型包括预设多领域自适应公式和预设图池化公式;根据场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应模块;即将场景图像的特征样本数据应用于预设多领域自适应公式中,通过设定特征增益参数μgain、特征非线性参数μgamma以及特征偏置参数μoffset,得到场景图像的自适应模块,可以形式化表示如下:
Figure BDA0003639363690000121
其中,xref表示原场景图像的特征样本数据,xtar表示变换场景图像的特征样本数据。
Figure BDA0003639363690000122
为规范化参数,
Figure BDA0003639363690000123
的取值可以依据输入的场景图像的特征样本数据确定,当输入的场景图像的特征样本数据为场景图像数据样本的像素值时,
Figure BDA0003639363690000124
d为像素位宽;当输入的场景图像的特征样本数据为通过特征提取算法得到的特征样本数据时,
Figure BDA0003639363690000125
可以根据特征通道数的取值决定。
这里关于参数μgain、μgamma和μoffset也可以通过误差反向传播算法得到其形式化表示如下:
Figure BDA0003639363690000126
μ=[μgaingammaoffset]
其中,rμ为参数学习率,其取值范围为10-5~10-1。需要说明是的,由于误差反向传播算法在模型训练中是本领域技术人员所熟知的,此处不做详细赘述,仅做简单表示。
根据场景图像的自适应模块和预设图池化公式,得到场景图像的自适应图池化模块,具体预设图池化公式可以采用最大值或平均值池化计算,其公式表示如下:
Figure BDA0003639363690000127
Figure BDA0003639363690000128
其中,poolmax(·)表示最大值图池化运算,poolavg(·)表示平均值图池化运算。
由于自适应图池化模块包括两部分,一部分是对图节点的特征样本数据进行自适应学习和池化处理,另一部分是对图节点的连接结构进行池化处理。通过上述操作,实现了对图节点的特征样本数据进行自适应学习和池化处理。
而对图节点的连接结构进行池化处理主要操作为减少图节点或边,以得到新的图连接结构,其采用基于图神经网络的子图聚类公式,可以形式化表示如下:
G′=poolG(G)
其中,poolG(·)表示子图聚类池化公式,G表示原始图连接结构,G′表示池化处理后的图连接结构。
通过上述计算得到场景图像的自适应图池化模块后,将空间图卷积运算模块、谱图卷积注意力模块以及自适应图池化模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。以改善场景图像因自身差异导致的类内不一致问题以及提高场景图像解析模型局部特征的学习能力,实现对多尺度场景图像解析的准确度。
在一些实施例中,将图像标签样本数据划分为训练集数据、验证集数据以及测试集数据;选择模型训练的损失函数、模型训练算法以及设置对应训练配置参数;采用训练集数据对场景图像解析模型架构进行模型训练、采用验证集数据对场景图像解析模型架构的性能进行验证以及采用测试集数据对场景图像解析模型架构的性能进行测试,得到场景图像解析模型。
在一种可实现的方式中,将图像标签样本数据划分为三个数据集合,即训练集数据、验证集数据以及测试集数据,这里需要强调的是,在将图像标签样本数据划分为三个数据集合时,要尽可能保持图像样本数据的原始分布不变。
选择模型训练的损失函数、模型训练算法以及设置对应训练配置参数。
在一种可实现的方式中,损失函数可以采用交叉熵函数,具体表示如下:
Figure BDA0003639363690000131
其中,y*为图节点真值标签,y为模型训练的预测输出,η为平衡权重,其取值范围为0~1。
模型训练算法可以采用误差反向传播算法,以交叉熵函数作为目标函数,使用随机梯度下降法实现模型训练参数的优化设置,具体形式表示如下:
Figure BDA0003639363690000132
其中,ω为广义的模型参数,具体指上述提到的w、θ和μ,广义的训练配置参数rω为模型参数学习率,具体指上述提到的rw、rθ和rμ,其取值范围为10-5~10-1。且这里的训练配置参数T为模型训练算法的最大迭代次数,取值为500000次;还需要说明是的,由于误差反向传播算法在模型训练中是本领域技术人员所熟知的,此处不做详细赘述,仅做简单表示。
采用训练集数据对场景图像解析模型架构进行模型训练、采用验证集数据对场景图像解析模型架构的性能进行验证以及采用测试集数据对场景图像解析模型架构的性能进行测试,进而得到场景图像解析模型。
在一种可实现的方式中,模型训练算法每迭代100次,则使用验证集进行1次模型性能验证,若连续5次验证所得模型性能的差距均小于0.1则将第5次验证的模型作为一个候选场景解析模型;再采用测试集数据对候选场景解析模型进行性能测试,将测试性能最好的候选场景解析模型作为最终的场景图像解析模型。
当得到场景图像解析模型后,再采集到新的场景图像,直接输入到场景图像解析模型中,即可得到该场景图像的语义解析结果。
应该理解的是,虽然图2、图4以及图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4以及图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图8为本申请实施例提供的一种场景图像解析系统的结构示意图,该系统可以设置于图1所示的系统架构中,用以执行如图2、图4、图6中所示的方法流程。如图8所示,该系统可以包括:采集标注模块501、粒度划分模块503和第一计算模块505、第二计算模块507以及模型训练模块509。其中各组成模块的主要功能如下:
采集标注模块501,用于采集多张场景图像为图像样本数据,对图像样本数据进行标签标记,得到图像标签样本数据;
粒度划分模块503,用于将图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;
第一计算模块505,用于基于网格块样本数据建立空间层次图结构,并提取特征向量数据将特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据;
第二计算模块507,用于根据场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于场景图像解析模块构建场景图像解析模型架构;
模型训练模块509,用于基于图像标签样本数据对场景图像解析模型架构进行模型训练,得到场景图像解析模型。
在一些实施例中,第一计算模块505,还用于:
根据图像标签样本数据的像素类别标签确定网格块样本数据的网格类别标签;
根据网格块样本数据的四邻域关系建立空间边,获得空间图结构;其中,一个图节点代表一个网格块样本数据;
将自定义划分粒度下的各相邻空间图结构中的相同网格类别标签的图节点相连,建立空间层次边得到空间层次图结构。
在一些实施例中,第一计算模块505,还用于:
采用特征提取算法对网格块样本数据进行特征提取,得到特征向量数据;
将特征向量数据赋值给空间层次图结构中对应的图节点,得到场景图像的特征样本数据。
在一些实施例中,第二计算模块505,还用于:
根据场景图像的特征样本数据和预设空间图卷积公式,得到场景图像的空间图卷积运算模块;
将空间图卷积运算模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
在一些实施例中,第二计算模块505,还用于:
根据场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块;
将空间图卷积运算模块和谱图卷积注意力模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
在一些实施例中,第二计算模块505中的“预设谱图卷积特征融合模型包括预设切比雪夫多项式公式、预设邻接矩阵的权重公式以及预设空间图卷积公式;根据场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块”,还用于:
根据场景图像的特征样本数据和预设切比雪夫多项式公式得到场景图像的局部谱图卷积样本数据;
根据局部谱图卷积样本数据和预设邻接矩阵的权重公式得到局部图节点间的边权重值;
根据局部图节点间的边权重值和预设空间图卷积公式得到场景图像的谱图卷积注意力模块。
在一些实施例中,第二计算模块505,还用于:
根据场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块;
将空间图卷积运算模块、谱图卷积注意力模块以及自适应图池化模块组合得到图卷积网络单元,基于图卷积网络单元构建场景图像解析模型架构。
在一些实施例中,第二计算模块505中的“预设多领域自适应图池化模型包括预设多领域自适应公式和预设图池化公式;根据场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块”,还用于:
根据场景图像的特征样本数据和预设多领域自适应公式,得到场景图像的自适应模块;
根据场景图像的自适应模块和预设图池化公式,得到场景图像的自适应图池化模块。
在一些实施例中,模型训练模块509,还用于:
将图像标签样本数据划分为训练集数据、验证集数据以及测试集数据;
选择模型训练的损失函数、模型训练算法以及设置对应训练配置参数;
采用训练集数据对场景图像解析模型架构进行模型训练、采用验证集数据对场景图像解析模型架构的性能进行验证以及采用测试集数据对场景图像解析模型架构的性能进行测试,得到场景图像解析模型。
上述各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如用户明确同意,对用户切实通知,用户明确授权等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
根据本申请的实施例,本申请还提供了一种计算机设备、一种计算机可读存储介质。
如图9所示,是根据本申请实施例的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机或移动装置。其中数字计算机可以包括台式计算机、便携式计算机、工作台、个人数字助理、服务器、大型计算机和其它适合的计算机。移动装置可以包括平板电脑、智能电话、可穿戴式设备等。
如图9所示,设备900包括计算单元901、ROM 902、RAM 903、总线904以及输入/输出(I/O)接口905,计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
计算单元901可以根据存储在只读存储器(ROM)902中的计算机指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机指令,来执行本申请方法实施例中的各种处理。计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901可以包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。在一些实施例中,本申请实施例提供的方法可被实现为计算机软件程序,其被有形地包含于计算机可读存储介质,例如存储单元908。
RAM 903还可存储设备900操作所需的各种程序和数据。计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。
设备900中的输入单元906、输出单元907、存储单元908和通信单元909可以连接至I/O接口905。其中,输入单元906可以是诸如键盘、鼠标、触摸屏、麦克风等;输出单元907可以是诸如显示器、扬声器、指示灯等。设备900能够通过通信单元909与其他设备进行信息、数据等的交换。
需要说明的是,该设备还可以包括实现正常运行所必需的其他组件。也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。
用于实施本申请的方法的计算机指令可以采用一个或多个编程语言的任何组合来编写。这些计算机指令可以提供给计算单元901,使得计算机指令当由诸如处理器等计算单元901执行时使执行本申请方法实施例中涉及的各步骤。
本申请提供的计算机可读存储介质可以是有形的介质,其可以包含或存储计算机指令,用以执行本申请方法实施例中涉及的各步骤。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的等形式的存储介质。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种场景图像解析方法,其特征在于,该方法包括:
采集多张场景图像为图像样本数据,对所述图像样本数据进行标签标记,得到图像标签样本数据;
将所述图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;
基于所述网格块样本数据建立空间层次图结构,并提取特征向量数据将所述特征向量数据赋值于所述空间层次图结构得到场景图像的特征样本数据;
根据所述场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于所述场景图像解析模块构建场景图像解析模型架构;
基于所述图像标签样本数据对所述场景图像解析模型架构进行模型训练,得到场景图像解析模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述网格块样本数据建立空间层次图结构,包括:
根据所述图像标签样本数据的像素类别标签确定网格块样本数据的网格类别标签;
根据所述网格块样本数据的四邻域关系建立空间边,获得空间图结构;其中,一个图节点代表一个网格块样本数据;
将自定义划分粒度下的各相邻空间图结构中的相同网格类别标签的图节点相连,建立空间层次边得到空间层次图结构。
3.根据权利要求2所述的方法,其特征在于,所述提取特征向量数据将所述特征向量数据赋值于空间层次图结构得到场景图像的特征样本数据,包括:
采用特征提取算法对所述网格块样本数据进行特征提取,得到特征向量数据;
将所述特征向量数据赋值给空间层次图结构中对应的图节点,得到场景图像的特征样本数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于所述场景图像解析模块构建场景图像解析模型架构,包括:
根据所述场景图像的特征样本数据和预设空间图卷积公式,得到场景图像的空间图卷积运算模块;
将所述空间图卷积运算模块组合得到图卷积网络单元,基于所述图卷积网络单元构建场景图像解析模型架构。
5.根据权利要求4所述的方法,其特征在于,所述根据所述场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于所述场景图像解析模块构建场景图像解析模型架构,还包括:
根据所述场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块;
将所述空间图卷积运算模块和所述谱图卷积注意力模块组合得到图卷积网络单元,基于所述图卷积网络单元构建场景图像解析模型架构。
6.根据权利要求5所述的方法,其特征在于,所述预设谱图卷积特征融合模型包括预设切比雪夫多项式公式、预设邻接矩阵的权重公式以及预设空间图卷积公式;所述根据所述场景图像的特征样本数据和预设谱图卷积特征融合模型,得到场景图像的谱图卷积注意力模块,包括:
根据所述场景图像的特征样本数据和预设切比雪夫多项式公式得到场景图像的局部谱图卷积样本数据;
根据所述局部谱图卷积样本数据和预设邻接矩阵的权重公式得到局部图节点间的边权重值;
根据所述局部图节点间的边权重值和所述预设空间图卷积公式得到场景图像的谱图卷积注意力模块。
7.根据权利要求5或6任意一项所述的方法,其特征在于,所述根据所述场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于所述场景图像解析模块构建场景图像解析模型架构,还包括:
根据所述场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块;
将所述空间图卷积运算模块、所述谱图卷积注意力模块以及自适应图池化模块组合得到图卷积网络单元,基于所述图卷积网络单元构建场景图像解析模型架构。
8.根据权利要求7所述的方法,其特征在于,所述预设多领域自适应图池化模型包括预设多领域自适应公式和预设图池化公式;所述根据所述场景图像的特征样本数据和预设多领域自适应图池化模型,得到场景图像的自适应图池化模块,包括:
根据所述场景图像的特征样本数据和预设多领域自适应公式,得到场景图像的自适应模块;
根据所述场景图像的自适应模块和所述预设图池化公式,得到场景图像的自适应图池化模块。
9.根据权利要求1-6任意一项所述的方法,其特征在于,所述对所述场景图像解析模型架构进行模型训练,得到场景图像解析模型,包括:
将所述图像标签样本数据划分为训练集数据、验证集数据以及测试集数据;
选择模型训练的损失函数、模型训练算法以及设置对应训练配置参数;
采用训练集数据对场景图像解析模型架构进行模型训练、采用验证集数据对场景图像解析模型架构的性能进行验证以及采用测试集数据对场景图像解析模型架构的性能进行测试,得到场景图像解析模型。
10.一种场景图像解析系统,其特征在于,该系统包括:
采集标注模块,用于采集多张场景图像为图像样本数据,对所述图像样本数据进行标签标记,得到图像标签样本数据;
粒度划分模块,用于将所述图像标签样本数据按照自定义划分粒度进行网格划分,得到网格块样本数据;
第一计算模块,用于基于所述网格块样本数据建立空间层次图结构,并提取特征向量数据将所述特征向量数据赋值于所述空间层次图结构得到场景图像的特征样本数据;
第二计算模块,用于根据所述场景图像的特征样本数据和预设图模型得到场景图像解析模块,基于所述场景图像解析模块构建场景图像解析模型架构;
模型训练模块,用于基于所述图像标签样本数据对所述场景图像解析模型架构进行模型训练,得到场景图像解析模型。
CN202210515553.5A 2022-05-11 2022-05-11 一种场景图像解析方法和系统 Pending CN114926721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210515553.5A CN114926721A (zh) 2022-05-11 2022-05-11 一种场景图像解析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515553.5A CN114926721A (zh) 2022-05-11 2022-05-11 一种场景图像解析方法和系统

Publications (1)

Publication Number Publication Date
CN114926721A true CN114926721A (zh) 2022-08-19

Family

ID=82808140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515553.5A Pending CN114926721A (zh) 2022-05-11 2022-05-11 一种场景图像解析方法和系统

Country Status (1)

Country Link
CN (1) CN114926721A (zh)

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
Thai et al. Image classification using support vector machine and artificial neural network
Farabet et al. Scene parsing with multiscale feature learning, purity trees, and optimal covers
CN109978893A (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
WO2023284465A1 (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
Wang et al. Interactive multilabel image segmentation via robust multilayer graph constraints
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
CN113033458A (zh) 动作识别方法和装置
Kao et al. Disc-GLasso: Discriminative graph learning with sparsity regularization
Huang et al. Image saliency detection via multi-scale iterative CNN
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
Xu et al. Graphical modeling for multi-source domain adaptation
CN111178196A (zh) 一种细胞分类的方法、装置及设备
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
US11165646B1 (en) Network node clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination