CN111291760A - 图像的语义分割方法、装置及电子设备 - Google Patents
图像的语义分割方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111291760A CN111291760A CN202010089657.5A CN202010089657A CN111291760A CN 111291760 A CN111291760 A CN 111291760A CN 202010089657 A CN202010089657 A CN 202010089657A CN 111291760 A CN111291760 A CN 111291760A
- Authority
- CN
- China
- Prior art keywords
- features
- spanning tree
- image
- minimum spanning
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000011218 segmentation Effects 0.000 title claims abstract description 50
- 238000003062 neural network model Methods 0.000 claims abstract description 89
- 230000004927 fusion Effects 0.000 claims abstract description 68
- 238000003709 image segmentation Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 116
- 230000002776 aggregation Effects 0.000 claims description 32
- 238000004220 aggregation Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001902 propagating effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000000644 propagated effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明提供了一种图像的语义分割方法、装置及电子设备,涉及机器视觉技术领域,该方法包括:通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征;将低层特征构建为最小生成树结构;将构建得到的最小生成树结构和高层语义特征输入神经网络模型中的树形特征变换器,得到融合特征;基于融合特征对目标图像进行分割,得到目标图像的图像分割结果。本发明能够提升图像语义分割的可靠性。
Description
技术领域
本发明涉及机器视觉技术领域,尤其是涉及一种图像的语义分割方法、装置及电子设备。
背景技术
图像语义分割是计算机视觉中的重要领域之一,图像语义分割的主要目的是像素级地识别图像,标注出图像中每个像素所属的对象类别。目前的图像语义分割技术中,按照感受范围一般可分为局部和全局两类,传统的局部方法通过层叠常规卷积或它们的变体(如打洞卷积)来扩大接受域,然而,局部方法没有细致的结构保留能力;而非局部方法主要是直接建模长距离的特征依赖关系,诸如非局部操作、PSP和ASPP模块和基于图的神经网络,但是,非局部方法忽略了图像的细节特征。因此,现有的图像语义分割技术的可靠性还有待提升。
发明内容
有鉴于此,本发明的目的在于提供一种图像的语义分割方法、装置及电子设备,能够提升图像语义分割的可靠性。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种图像的语义分割方法,所述方法包括:通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征;将所述低层特征构建为最小生成树结构;将构建得到的所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,得到融合特征;基于所述融合特征对所述目标图像进行分割,得到所述目标图像的图像分割结果。
进一步,本发明实施例提供了第一方面的第一种可能的实施方式,其中,将所述低层特征构建为最小生成树结构的步骤,包括:将所述低层特征作为树形结构的各节点进行连接,生成所述低层特征所对应的最小生成树结构。
进一步,本发明实施例提供了第一方面的第二种可能的实施方式,其中,将构建得到的所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,得到融合特征的步骤,包括:将所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,以使所述树形特征变换器将所述最小生成树的树形结构作为引导,聚合所述高层语义特征与所述最小生成树的各节点中的所述低层特征,得到所述最小生成树结构的根节点的聚合特征;将所述根节点的聚合特征从所述最小生成树结构的根节点到树结构的叶子节点进行传播,并对传播后的所述最小生成树结构的各节点的特征进行归一化处理,得到融合特征。
进一步,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述树形特征变换器对应的函数为:
y=ρ/z
其中,y为所述融合特征,J=1∈R1×N,f(x)为所述高层语义特征对应的函数表达式,Aggr为所述最小生成树结构的聚合函数,Prop为所述最小生成树结构的传播函数,f(x)和J分别为所述聚合函数的输入变量。
进一步,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述聚合函数为:
其中,ξi为输入的变量,S(Ei,j)为所述最小生成树中第i个节点与第l个节点的相似度,par(j)为所述最小生成树中第j个节点的父节点;所述传播函数为:
其中,par(i)为所述最小生成树中第i个节点的父节点,r为根节点。
进一步,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:基于所述融合特征对所述神经网络模型进行反向传播,以计算所述目标图像的损失函数的梯度;其中,所述目标图像的损失函数的梯度包括所述损失函数相对所述高层语义特征的梯度和所述损失函数相对各目标节点的边权重的梯度,所述目标节点为目标节点序列中的任一节点,所述目标节点序列是通过对最小生成树结构进行广度优化搜索,并剔除根节点后得到的节点序列。
进一步,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述基于所述融合特征对所述神经网络模型进行反向传播,以计算所述目标图像的损失函数的梯度的步骤,包括:基于所述融合特征确定所述目标图像的损失函数相对所述融合特征的梯度;将所述损失函数相对所述融合特征的梯度输入所述树形特征变换器中的目标反向函数中,得到所述目标反向函数输出的所述损失函数相对所述高层语义特征的梯度和所述损失函数相对各目标节点的边权重的梯度。
进一步,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述目标反向函数为:
其中,为所述损失函数相对所述高层语义特征的梯度,为所述损失函数相对各目标节点的边权重的梯度,为所述损失函数相对所述融合特征的梯度,loss为所述目标图像的损失函数,所述损失函数是在基于所述目标图像对所述神经网络模型进行训练的前向传播过程计算得到的,x为所述高层语义特征;i为所述目标节点,j=par(i)为所述目标节点i的父节点,wi,j为所述目标节点的边权重,和φ·y/z分别为所述最小生成树结构的聚合函数的输入变量。
第二方面,本发明实施例还提供了一种图像的语义分割装置,所述装置包括:特征提取模块,用于通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征;其中,所述低层特征对应的分辨率高于所述高层语义特征的分辨率;树结构构建模块,用于将所述低层特征构建为最小生成树结构;特征变换模块,用于将构建得到的所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,得到融合特征;图像分割模块,用于基于所述融合特征对所述目标图像进行分割,得到所述目标图像的图像分割结果。
第三方面,本发明实施例提供了一种电子设备,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行上述第一方面任一项所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。
本发明实施例提供了一种图像的语义分割方法、装置及电子设备,该方法包括:通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征;且将低层特征构建为最小生成树结构;并将构建得到的所述最小生成树结构和所述高层语义特征输入神经网络模型中的树形特征变换器,得到融合特征;从而基于融合特征对目标图像进行分割,得到目标图像的图像分割结果。该方法通过提取目标图像的低层特征和高层语义特征,并将低层特征构建得到的最小生成树结构与高层语义特征进行融合,实现了通过树状图建模图像特征长距离的特征依赖关系,保留了图像的细节特征,同时具备细致的结构保留能力,提升了图像语义分割的可靠性。
本发明实施例的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明实施例的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种电子设备的结构示意图;
图2示出了本发明实施例所提供的一种图像的语义分割方法流程图;
图3示出了本发明实施例所提供的一种图像识别流程图;
图4示出了本发明实施例所提供的一种神经网络模型训练流程图;
图5示出了本发明实施例所提供的一种图像的语义分割装置结构示意图;
图6示出了本发明实施例所提供的另一种图像的语义分割装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
考虑到现有图像语义分割技术没有细致的结构保留能力或忽略了图像的细节特征,因此现有的图像语义分割技术的可靠性还有待提升,为改善此问题,本发明实施例提供的一种图像的语义分割方法、装置及电子设备,可以应用于提升图像语义分割的可靠性。以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的一种图像的语义分割方法、装置及电子设备的示例电子设备100。
如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像的语义分割方法、装置及电子设备的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。
实施例二:
本实施例提供了一种图像的语义分割方法,该方法可以由诸如计算机等上述电子设备执行,该电子设备中设置有神经网络模型,参见图2所示的图像的语义分割方法流程图,该方法主要包括以下步骤S202~步骤S208:
步骤S202,通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征。
其中,低层特征对应的分辨率高于高层语义特征的分辨率。在神经网络模型的图像识别或神经网络训练的前向传播过程中,为了提升图像分割性能,神经网络模型的网络层从输入的目标图像中分别提取不同尺度的特征,诸如低层特征和高层特征,低层特征(也可以称为低层细节特征)分辨率较高,包括较多的位置信息和细节信息,主要由神经网络模型的浅层网络层提取,但由于经过的卷积层较少,低层细节特征的语义性较低,噪声更多;高层特征(也可以称为高层语义特征)具有较强的语义信息,主要由神经网络模型的靠后的网络层提取,经过的卷积层较多,但是分辨率较低,对细节的感知能力较差。通过使神经网络模型(诸如深度卷积网络)分别提取目标图像的低层特征和高层语义特征,以便同时保留目标图像的细节信息和语义信息。
为了提升特征的表达能力,上述神经网络模型的网络结构可以是ResNet结构,通过ResNet结构可以从输入的目标图像中提取低层特征和高层语义特征。当神经网络模型在图像识别中利用上述图像的语义分割算法进行图像分割时,该神经网络模型须为预先使用图像训练集训练得到。
步骤S204,将低层特征构建为最小生成树结构。
上述最小生成树结构包括多个节点,并且有保持节点连通的最少的边。上述最小生成树结构中的多个节点是从目标图像中提取出的所有低层特征,通过将低层特征构建为最小生成树结构,既可以将建立低层特征长距离的依赖关系,也可以保留目标图像细致的结构。
步骤S206,将构建得到的最小生成树结构和高层语义特征输入神经网络模型中的树形特征变换器,得到融合特征。
将构建得到的最小生成树结构和高层语义特征输入神经网络模型中预先设置的树形特征变换器,由于上述最小生成树结构是通过低层特征构建得到的,该树形特征变换器通过对低层特征和高层语义特征进行特征变换,得到融合特征,该融合特征同时包括目标图像的细节信息和语义信息,因此,该融合特征既包含了低层特征的优点,又包含了高层语义特征的优点。上述树形特征变换器是一种基于树形结构的滤波器,在对目标图像提取的特征进行变换时,同时具有全局感受范围和较好的结构保留能力,且上述树形特征变换器还可以应用于神经网络模型训练的反向传播过程中。
步骤S208,基于融合特征对目标图像进行分割,得到目标图像的图像分割结果。
将上述目标图像的融合特征输入神经网络模型的预测模块(诸如卷积网络层),以使神经网络模型根据目标图像的融合特征对目标图像每个像素点进行类别判断,并将目标图像中对属于同一类别的像素使用相同的颜色或其他标记信息(诸如对于不同的类别的像素使用不同的数字标识)进行标记,对于不同类型的像素使用不同的颜色或不同的标记信息进行标记,从而得到目标图像的图像分割结果。在实际应用中,诸如可以对人物图像中人物区域的像素与背景区域的像素使用不同的颜色进行标记,当人物区域的像素使用绿色进行标记时,背景区域的像素可以使用除绿色之外的其他颜色进行标记,还可以对人物图像中人物区域的像素与背景区域的像素使用不同的数字或符合进行标记。
本实施例提供的上述图像的语义分割方法,通过提取目标图像的低层特征和高层语义特征,并将低层特征构建得到的最小生成树结构与高层语义特征进行融合,实现了通过树状图建模图像特征长距离的特征依赖关系,具备细致的结构保留能力,同时保留了目标图像的细节特征,提升了图像语义分割的可靠性。
为了保留目标图像的细节特征,本实施例提供了将低层特征构建为最小生成树结构的具体实施方式:例如利用Kruskal算法或Prim算法将低层特征作为树形结构的各节点进行连接,生成低层特征所对应的最小生成树结构。利用Kruskal(克鲁斯卡尔)算法或Prim(普里姆)算法计算上述目标图像的低层特征所对应的最小生成树结构,将低层特征作为树结构的各节点,并将各节点进行节点连接,直到上述低层特征成为一个含有多个节点的连通网。在实际应用中,还可以使用其他能够根据节点生成最小生成树的算法,生成低层特征所对应的最小生成树结构。
为了在特征变换中保留细致的结构和细节特征,本实施例提供了将构建得到的最小生成树结构和高层语义特征输入神经网络模型中的树形特征变换器,得到融合特征的实施方式,具体可参照如下步骤(1)~步骤(2)执行:
步骤(1):将构建得到的最小生成树结构和高层语义特征输入神经网络模型中的树形特征变换器,以使树形特征变换器将最小生成树的树形结构作为引导,聚合高层语义特征与最小生成树的各节点中的低层特征,得到最小生成树结构的根节点的聚合特征。
在对上述低层特征和高层语义特征进行变换时,通过将低层特征构成的最小生成树结构作为引导,对输入的高层语义特征与树形结构的各个节点进行特征聚合,从上述最小生成树结构的叶子节点开始,遍历该最小生成树结构的所有节点,直至聚合至最小生成树结构的根节点,得到根节点的聚合特征。上述特征聚合过程的计算算式为:
其中,Aggr为最小生成树结构的聚合函数,f(x)和J分别为聚合函数的输入变量,f(x)为高层语义特征对应的函数表达式,该表达式可以根据图像分割的实际试验过程人为设置,诸如f(x)=x,J=1∈R1×N,J为全1矩阵。
上述聚合函数为:
其中,ξi为输入的变量,S(Ei,j)为最小生成树中第i个节点与第j个节点的相似度,par(j)为最小生成树中第j个节点的父节点。
当上述最小生成树的节点个数越少时,上述得到根节点的聚合计算复杂度越小,即上述聚合过程的计算复杂度与树形结构的节点个数成线性(正比)关系。
步骤(2):将根节点的聚合特征从最小生成树结构的根节点到树结构的叶子节点进行传播,并对传播后的最小生成树结构的各节点的特征进行归一化处理,得到融合特征。
对上述得到的最小生成树结构的根节点的聚合特征,对该聚合特征从树结构的根节点到叶子节点进行传播,遍历该最小生成树结构的所有节点,直至传播至树结构的叶子节点。对传播后的特征进行归一化得到变换后的融合特征。上述传播过程的计算算式为:
y=ρ/z
其中,par(i)为最小生成树中第i个节点的父节点,r为根节点。将上述聚合得到的根节点的特征Aggr(ξ)i传播至最小生成树的每个节点,当第i个节点为根节点时,该节点的特征计算算式为Prop(ξ)i=Aggr(ξ)r,当第i个节点不为根节点时,该节点的特征计算算式为Prop(ξ)i=S(Epar(i),i)Prop(ξ)par(i)+(1-S(Ei,par(i))2Aggr(ξ)i),S(Epar(i),i)为最小生成树中第i个节点与其父节点(第i个节点的父节点)的相似度。根据ρ/z得到变换后的融合特征y,其中,融合特征y为经过归一化处理后得到的特征。
当上述最小生成树的节点个数越少时,上述特征传播过程的计算复杂度越小,相应的所需计算时间越短,即上述传播过程的计算复杂度与树形结构的节点个数成线性(正比)关系。
在一种具体的实施方式中,当上述图像的语义分割方法应用于神经网络模型训练中时,神经网络模型在完成在对目标图像进行分割的前向传播过程后,还需要进行反向传播以更新神经网络模型的参数,因此,本实施例提供的方法还包括:基于融合特征对神经网络模型进行反向传播,以计算目标图像的损失函数的梯度;其中,目标图像的损失函数的梯度包括损失函数相对高层语义特征的梯度和损失函数相对各目标节点的边权重的梯度,目标节点为目标节点序列中的任一节点,目标节点序列是通过对最小生成树结构进行广度优化搜索,并剔除根节点后得到的节点序列。上述最小生成树的边权重为最小生成树结构中除根节点外任意两个节点的连线构成的边的权重。在神经网络模型训练的前向传播过程中,神经网络模型会根据预先设置的损失函数计算目标图像对应的损失函数,该损失函数可以是在人为存储在神经网络模型的现有的常用损失函数。基于上述前向传播中得到的融合特征y和前向传播中的使用的损失函数对神经网络模型进行反向传播,在反向传播过程中计算得到该损失函数的梯度,根据该损失函数的梯度可以更新神经网络模型的权重。当神经网络模型更新参数后,更新参数后的神经网络模型重复执行上述前向传播和反向传播过程,并在前向传播中使用上述图像的语义分割方法进行图像分割,在反向传播过程中计算目标图像的损失函数的梯度以更新参数,直至神经网络模型达到预设的迭代次数,得到训练后的神经网络模型。
为了更新神经网络模型中的参数,本实施例提供了基于融合特征对神经网络模型进行反向传播,以计算目标图像的损失函数的梯度的具体实施方式:基于融合特征确定目标图像的损失函数相对融合特征的梯度。将损失函数相对融合特征的梯度输入树形特征变换器中的目标反向函数中,得到目标反向函数输出的损失函数相对高层语义特征的梯度和损失函数相对各目标节点的边权重的梯度。上述损失函数相对融合特征的梯度为loss为目标图像的损失函数。将损失函数相对融合特征的梯度进行归一化处理,并将归一化后的梯度输入神经网络模型的树形特征变换器中的目标反向函数中,对上述归一化后的梯度,首先从最小生成树的叶子节点到根节点进行聚合,得到最小生成树结构的根节点的聚合后的梯度,将归一化后的梯度和φ·y/z分别输入聚合函数:
对于最小生成树结构的根节点的聚合后的梯度,将该聚合后的梯度从最小生成树结构的根节点到叶子节点进行传播:
其中,在计算损失函数相对最小生成树的边权重的过程中,i为目标节点,i∈T\r,j=par(i)为目标节点i的父节点,wi,j为目标节点的边权重,即目标节点与其父节点连线的边的权重,T为目标节点序列,T=BFS(G,r),BFS(Breadth First Search)为广度优先搜索算法(也可以称为宽度优先搜索算法),G为最小生成树结构,该目标节点序列是通过对最小生成树结构进行广度优化搜索,并剔除根节点后得到的节点序列。由于上述最小生成树的边权重是目标节点与其父节点连线构成的边的权重,遍历上述目标节点序列中的目标节点,计算损失函数相对每个目标节点所对应边权重的梯度,从而可以计算得到损失函数相对最小生成树的边权重。
本实施例提供的上述图像的语义分割方法,通过在传统的树型滤波器增加反向过程得到树形特征变换器,可以将树形特征变换器用于深度神经网络模型的图像识别及模型训练中,通过将特征变换的计算复杂度与树形结构的节点个数设置为线性关系,提升了计算速度,并且通过使用树形结构,保留了目标图像的细节特征,提升了图像语义分割的可靠性。
实施例三:
在前述实施例的基础上,本实施例提供了两种应用前述图像的语义分割方法的具体示例,具体可参照如下实施方式:
实施方式一:在前述方法实施例的基础上,本实施例提供了一种应用前述图像的语义分割方法进行图像识别的实施方式,参见如图3所示的图像识别流程图,具体可参照如下步骤S302~步骤S308执行:
步骤S302,基于深度神经网络模型的特征提取模块提取待识别图像的低层特征和高层语义特征。
将待识别图像输入预先训练得到的深度神经网络模型,基于深度神经网络模型的特征提取模块将输入的待识别图像转换为待识别图像的低层特征和高层语义特征。上述特征提取模块可以是上述深度神经网络模型中进行特征提取的网络层。
步骤S304,将待识别图像的低层特征输入深度神经网络模型的最小生成树模块,以将低层特征生成最小生成树结构。
步骤S306,将最小生成树结构和高层语义特征输入深度神经网络模型中的树形特征变换器,通过对待识别图像的低层特征和高层语义特征进行特征变换,得到融合特征。
步骤S308,将融合特征输入深度神经网络模型中的预测模块,得到待识别图像的图像分割结果和图像识别结果。
实施方式二:在前述方法实施例的基础上,本实施例提供了一种应用前述图像的语义分割方法进行神经网络模型训练的实施方式,参见如图4所示的神经网络模型训练流程图,具体可参照如下步骤S402~步骤S410执行:
步骤S402,基于深度神经网络模型的特征提取模块提取图像训练集的低层特征和高层语义特征。
将预先标注好的图像训练集输入待训练的深度神经网络模型,基于该图像训练集对深度神经网络模型进行训练。在深度神经网络模型训练的前向传播过程中,基于深度神经网络模型的特征提取模块将输入的图像训练集转换为待识别图像的低层特征和高层语义特征。
步骤S404,将提取到的低层特征生成最小生成树结构,并最小生成树结构和高层语义特征输入深度神经网络模型中的树形特征变换器,得到图像训练集中各个图像的融合特征。
步骤S406,将图像训练集中各个图像的融合特征输入深度神经网络模型中的预测模块,得到图像训练集中各个图像的分类结果。
基于上述融合特征对图像训练集中的各个图像进行图像分割,得到各个图像的图像分割结果,由于该图像分割结果是通过对图像中的每个像素进行分类得到的,该图像分割结果也可以作为图像分类结果。
步骤S408,基于图像训练集中各个图像的融合特征对深度神经网络模型进行反向传播,以更新深度神经网络模型的参数。
计算图像训练集的损失函数相对融合特征的梯度,将损失函数相对融合特征的梯度输入树形特征变换器中的目标反向函数中,得到目标反向函数输出的损失函数相对最小生成树的边权重的梯度和损失函数相对高层语义特征的梯度,基于损失函数的梯度对深度神经网络模型的参数进行更新。
步骤S410,重复执行上述步骤S402~步骤S408,当深度神经网络模型的迭代训练次数达到预设迭代次数时,停止迭代训练,得到训练后的深度神经网络模型。
基于上述图像训练集中的每一个图像重复执行上述步骤S402~步骤S408对深度神经网络模型进行训练,当迭代训练次数达到预设迭代次数时,得到训练后的深度神经网络模型。
本实施例提供的上述图像的语义分割方法,通过在传统的树型滤波器增加反向过程得到树形特征变换器,可以将树形特征变换器用于深度神经网络模型的图像识别及模型训练中,提升了深度神经网络模型的识别精度。
实施例四:
对于实施例二中所提供的图像的语义分割方法,本发明实施例提供了一种图像的语义分割装置,参见图5所示的一种图像的语义分割装置结构示意图,该装置包括以下模块:
特征提取模块51,用于通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征。
树结构构建模块52,用于将低层特征构建为最小生成树结构。
特征变换模块53,用于将构建得到的最小生成树结构和高层语义特征输入神经网络模型中的树形特征变换器,得到融合特征。
图像分割模块54,用于基于融合特征对目标图像进行分割,得到目标图像的图像分割结果。
本实施例提供的上述图像的语义分割装置,通过提取目标图像的低层特征和高层语义特征,并将低层特征构建得到的最小生成树结构与高层语义特征进行融合,实现了通过树状图建模图像特征长距离的特征依赖关系,保留了目标图像的细节特征,同时具备细致的结构保留能力,提升了图像语义分割的可靠性。
在一种实施方式中,上述树结构构建模块52,进一步用于将低层特征作为树形结构的各节点进行连接,生成低层特征所对应的最小生成树结构。
在一种实施方式中,上述特征变换模块53,进一步用于将构建得到的最小生成树结构和高层语义特征输入神经网络模型中的树形特征变换器,以使树形特征变换器将最小生成树的树形结构作为引导,聚合高层语义特征与最小生成树的各节点中的低层特征,得到最小生成树结构的根节点的聚合特征;将根节点的聚合特征从最小生成树结构的根节点到树结构的叶子节点进行传播,并对传播后的最小生成树结构的各节点的特征进行归一化处理,得到融合特征。
在一种实施方式中,上述树形特征变换器对应的函数为:
y=ρ/z
其中,y为融合特征,J=1∈R1×N,f(x)为高层语义特征对应的函数表达式,Aggr为最小生成树结构的聚合函数,Prop为最小生成树结构的传播函数,f(x)和J分别为聚合函数的输入变量。
在一种实施方式中,上述聚合函数为:
其中,ξi为输入的变量,S(Ei,j)为最小生成树中第i个节点与第j个节点的相似度,par(j)为最小生成树中第j个节点的父节点。
上述传播函数为:
其中,par(i)为最小生成树中第i个节点的父节点,r为根节点。
在一种实施方式中,参见图6所示的另一种图像的语义分割装置结构示意图,上述装置还包括:
参数计算模块65,用于基于融合特征对神经网络模型进行反向传播,以计算目标图像的损失函数的梯度;其中,目标图像的损失函数的梯度包括损失函数相对高层语义特征的梯度和损失函数相对各目标节点的边权重的梯度,目标节点为目标节点序列中的任一节点,目标节点序列是通过对最小生成树结构进行广度优化搜索,并剔除根节点后得到的节点序列。
在一种实施方式中,上述参数计算模块65,进一步用于基于融合特征确定目标图像的损失函数相对融合特征的梯度;将损失函数相对融合特征的梯度输入树形特征变换器中的目标反向函数中,得到目标反向函数输出的损失函数相对高层语义特征的梯度和损失函数相对各目标节点的边权重的梯度。
在一种实施方式中,上述目标反向函数为:
其中,为损失函数相对高层语义特征的梯度,为损失函数相对各目标节点的边权重的梯度,为损失函数相对融合特征的梯度,loss为目标图像的损失函数,损失函数是在基于目标图像对神经网络模型进行训练的前向传播过程计算得到的,x为高层语义特征;i为目标节点,j=par(i)为目标节点i的父节点,wi,j为目标节点的边权重,和φ·y/z分别为聚合函数的输入变量。
本实施例提供的上述图像的语义分割装置,通过在传统的树型滤波器增加反向过程得到树形特征变换器,可以将树形特征变换器用于深度神经网络模型的图像识别及模型训练中,通过将特征变换的计算复杂度与树形结构的节点个数设置为线性关系,提升了计算速度,并且通过使用树形结构,保留了目标图像的细节特征,提升了图像语义分割的可靠性。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统具体工作过程,可以参考前述实施例中的对应过程,在此不再赘述。
本发明实施例所提供的图像的语义分割方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种图像的语义分割方法,其特征在于,所述方法包括:
通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征;
将所述低层特征构建为最小生成树结构;
将构建得到的所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,得到融合特征;
基于所述融合特征对所述目标图像进行分割,得到所述目标图像的图像分割结果。
2.根据权利要求1所述的方法,其特征在于,将所述低层特征构建为最小生成树结构的步骤,包括:
将所述低层特征作为树形结构的各节点进行连接,生成所述低层特征所对应的最小生成树结构。
3.根据权利要求1所述的方法,其特征在于,将构建得到的所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,得到融合特征的步骤,包括:
将所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,以使所述树形特征变换器将所述最小生成树的树形结构作为引导,聚合所述高层语义特征与所述最小生成树的各节点中的所述低层特征,得到所述最小生成树结构的根节点的聚合特征;
将所述根节点的聚合特征从所述最小生成树结构的根节点到树结构的叶子节点进行传播,并对传播后的所述最小生成树结构的各节点的特征进行归一化处理,得到融合特征。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
基于所述融合特征对所述神经网络模型进行反向传播,以计算所述目标图像的损失函数的梯度;其中,所述目标图像的损失函数的梯度包括所述损失函数相对所述高层语义特征的梯度和所述损失函数相对各目标节点的边权重的梯度,所述目标节点为目标节点序列中的任一节点,所述目标节点序列是通过对最小生成树结构进行广度优化搜索,并剔除根节点后得到的节点序列。
7.根据权利要求6所述的方法,其特征在于,所述基于所述融合特征对所述神经网络模型进行反向传播,以计算所述目标图像的损失函数的梯度的步骤,包括:
基于所述融合特征确定所述目标图像的损失函数相对所述融合特征的梯度;
将所述损失函数相对所述融合特征的梯度输入所述树形特征变换器中的目标反向函数中,得到所述目标反向函数输出的所述损失函数相对所述高层语义特征的梯度和所述损失函数相对各所述目标节点的边权重的梯度。
9.一种图像的语义分割装置,其特征在于,所述装置包括:
特征提取模块,用于通过神经网络模型的特征提取网络提取目标图像的低层特征和高层语义特征;
树结构构建模块,用于将所述低层特征构建为最小生成树结构;
特征变换模块,用于将构建得到的所述最小生成树结构和所述高层语义特征输入所述神经网络模型中的树形特征变换器,得到融合特征;
图像分割模块,用于基于所述融合特征对所述目标图像进行分割,得到所述目标图像的图像分割结果。
10.一种电子设备,其特征在于,包括:处理器和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089657.5A CN111291760B (zh) | 2020-02-12 | 2020-02-12 | 图像的语义分割方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089657.5A CN111291760B (zh) | 2020-02-12 | 2020-02-12 | 图像的语义分割方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291760A true CN111291760A (zh) | 2020-06-16 |
CN111291760B CN111291760B (zh) | 2023-10-17 |
Family
ID=71021377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089657.5A Active CN111291760B (zh) | 2020-02-12 | 2020-02-12 | 图像的语义分割方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291760B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011425A (zh) * | 2021-03-05 | 2021-06-22 | 上海商汤智能科技有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
CN113139552A (zh) * | 2021-04-29 | 2021-07-20 | 航天新气象科技有限公司 | 一种小麦抽穗期识别方法、装置、电子设备及存储介质 |
CN113159778A (zh) * | 2020-12-24 | 2021-07-23 | 西安四叶草信息技术有限公司 | 一种金融欺诈的检测方法及装置 |
CN113780297A (zh) * | 2021-09-15 | 2021-12-10 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006017233A1 (en) * | 2004-07-12 | 2006-02-16 | Lehigh University | Image fusion methods and apparatus |
CN108629286A (zh) * | 2018-04-03 | 2018-10-09 | 北京航空航天大学 | 一种基于主观感知显著模型的遥感机场目标检测方法 |
CN109670506A (zh) * | 2018-11-05 | 2019-04-23 | 中国科学院计算技术研究所 | 基于克罗内克卷积的场景分割方法和系统 |
CN110033078A (zh) * | 2018-01-12 | 2019-07-19 | 华为技术有限公司 | 一种基于树状拓扑的计算系统及方法 |
CN110084136A (zh) * | 2019-04-04 | 2019-08-02 | 北京工业大学 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
-
2020
- 2020-02-12 CN CN202010089657.5A patent/CN111291760B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006017233A1 (en) * | 2004-07-12 | 2006-02-16 | Lehigh University | Image fusion methods and apparatus |
CN110033078A (zh) * | 2018-01-12 | 2019-07-19 | 华为技术有限公司 | 一种基于树状拓扑的计算系统及方法 |
CN108629286A (zh) * | 2018-04-03 | 2018-10-09 | 北京航空航天大学 | 一种基于主观感知显著模型的遥感机场目标检测方法 |
CN109670506A (zh) * | 2018-11-05 | 2019-04-23 | 中国科学院计算技术研究所 | 基于克罗内克卷积的场景分割方法和系统 |
CN110084136A (zh) * | 2019-04-04 | 2019-08-02 | 北京工业大学 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
Non-Patent Citations (2)
Title |
---|
PABLO ARBELÁEZ; MICHAEL MAIRE; CHARLESS FOWLKES; JITENDRA MALIK: "Contour Detection and Hierarchical Image Segmentation" * |
李玉龙: "分簇感知网络中基于压缩感知的数据收集方法" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159778A (zh) * | 2020-12-24 | 2021-07-23 | 西安四叶草信息技术有限公司 | 一种金融欺诈的检测方法及装置 |
CN113159778B (zh) * | 2020-12-24 | 2023-11-24 | 西安四叶草信息技术有限公司 | 一种金融欺诈的检测方法及装置 |
CN113011425A (zh) * | 2021-03-05 | 2021-06-22 | 上海商汤智能科技有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
WO2022183730A1 (zh) * | 2021-03-05 | 2022-09-09 | 上海商汤智能科技有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
CN113139552A (zh) * | 2021-04-29 | 2021-07-20 | 航天新气象科技有限公司 | 一种小麦抽穗期识别方法、装置、电子设备及存储介质 |
CN113780297A (zh) * | 2021-09-15 | 2021-12-10 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备以及存储介质 |
CN113780297B (zh) * | 2021-09-15 | 2024-03-12 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111291760B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN111291760A (zh) | 图像的语义分割方法、装置及电子设备 | |
CN111626128A (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN111401521B (zh) | 神经网络模型训练方法及装置、图像识别方法及装置 | |
CN108960115B (zh) | 基于角点的多方向文本检测方法 | |
CN113255895B (zh) | 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 | |
CN115908908B (zh) | 基于图注意力网络的遥感图像聚集型目标识别方法及装置 | |
CN112528845B (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN113129335B (zh) | 一种基于孪生网络的视觉跟踪算法及多模板更新策略 | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN111310518A (zh) | 图片特征提取方法、目标重识别方法、装置及电子设备 | |
CN114463603B (zh) | 图像检测模型的训练方法、装置、电子设备及存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN116452810A (zh) | 一种多层次语义分割方法、装置、电子设备及存储介质 | |
WO2022100607A1 (zh) | 一种神经网络结构确定方法及其装置 | |
CN115062779A (zh) | 基于动态知识图谱的事件预测方法及装置 | |
WO2023272994A1 (zh) | 基于深度学习网络的行人重识别方法、装置、设备及介质 | |
Liu et al. | Traffic sign recognition algorithm based on improved YOLOv5s | |
CN108509949A (zh) | 基于注意力地图的目标检测方法 | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 | |
JP2023548201A (ja) | タスク学習システムおよび方法、ならびに関連デバイス | |
CN114254738A (zh) | 双层演化的动态图卷积神经网络模型构建方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |