CN112465848A

CN112465848A - 一种基于动态特征融合的语义边缘检测方法、装置及设备

Info

Publication number: CN112465848A
Application number: CN202011364197.9A
Authority: CN
Inventors: 李天驰; 孙悦; 王帅
Original assignee: Shenzhen Dianmao Technology Co Ltd
Current assignee: Shenzhen Dianmao Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09

Abstract

本发明公开了一种基于动态特征融合的语义边缘检测方法、装置及设备，该方法包括：构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络；获取待识别的图像，将待识别的图像输入目标网络；获取目标网络的输出结果，根据目标网络的输出结果，完成语义边缘检测。本发明实施例可对每个位置分别分配自适应融合权值，生成一个自适应于每个图像具体内容的融合边缘图。能主动地学习基于特征图内容的自定义位置相关的融合权值，用于多级响应特征图，提升了多级响应融合的能力。

Description

一种基于动态特征融合的语义边缘检测方法、装置及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于动态特征融合的语义边缘检测方法、装置及设备。

背景技术

语义边缘检测的任务是检测出视觉上显著的边缘并识别其类别，具体地说，是利用低层特征定位精细边缘，同时用抽象的高级特征识别语义类别。目前流行的语义边缘检测方法是深度卷积神经网络模型，通过融合模型的直观方式来实现这两个目标，即整合高层语义特征与低级边缘特性,这是传统设计的固定权重融合策略。

然而采用固定权重的融合策略对所有输入图像应用相同的融合权重，忽略了它们在内容、光照等方面的变化。需要自适应地处理特定输入的不同属性，以揭示细微的边缘细节。此外，对于同一幅输入图像，不同的空间位置在对应的特征图上传递的信息是不同的，但是固定权值融合方法对所有位置都使用相同的权值，而不管它们的语义类别或目标部位是否不同。这将不利于模型学习所有类别和位置的通用融合权重。因此固定权重的整合策略在图像整合时导致了对高级特征的偏移，大大削弱了多级响应融合的能力，造成边缘检测结果准确率低。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于动态特征融合的语义边缘检测方法、装置及设备，旨在解决现有技术中固定权重的整合策略在图像整合时导致了对高级特征的偏移，大大削弱了多级响应融合的能力，造成边缘检测结果准确率低的技术问题。

本发明的技术方案如下：

一种基于动态特征融合的语义边缘检测方法，所述方法包括：

构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络；

获取待识别的图像，将待识别的图像输入目标网络；

获取目标网络的输出结果，根据目标网络的输出结果，完成语义边缘检测。

进一步地，所述获取待识别的图像，将待识别的图像输入目标网络，包括：

采集直播课视频数据，对视频数据进行解析，生成待识别的帧图像；

将待识别的帧图像输入目标网络。

进一步优选地，所述构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络，包括：

构建初始卷积神经网络；

获取图像训练样本，根据图像训练样本对初始卷积神经网络进行训练生成目标网络。

进一步优选地，所述构建初始卷积神经网络，包括：

通过resnet-101构建初始卷积神经网络。

优选地，所述通过resnet-101构建初始卷积神经网络，包括：

根据resnet-101模型作为主干网络构建初始卷积神经网络，记为resnet-101网络；

构建resnet-101网络的特征提取器；

构建resnet-101网络的自适应权值整合模块；

根据所述特征提取器和所述自适应权值整合模块，生成初始resnet-101网络。

进一步地，所述将待识别的图像输入目标网络后，包括：

根据目标网络的特征提取器将待识别的图像的特征进行提取并进行归一化处理，生成归一化图像；

根据目标网络的自适应权值整合模块生成归一化图像的特定位置的自适应融合权重，并根据自适应融合权重进行图像融合。

进一步地，所述根据目标网络的自适应权值整合模块生成归一化图像的特定位置的自适应融合权重，并根据特定位置融合权重进行图像融合，包括：

获取归一化图像的图像内容，目标网络的自适应权值融合模块根据所述图像内容动态生成特定位置的自适应融合权重；

根据特定位置的自适应融合权重融合高层和低层响应图，生成融合后的图像。

本发明的另一实施例提供了一种基于动态特征融合的语义边缘检测设置，装置包括：

网络构建模块，用于构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络；

图像处理模块，用于获取待识别的图像，将待识别的图像输入目标网络；

边缘检测模块，用于获取目标网络的输出结果，根据目标网络的输出结果，完成语义边缘检测。

本发明的另一实施例提供了一种基于动态特征融合的语义边缘检测设备，所述设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于动态特征融合的语义边缘检测方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于动态特征融合的语义边缘检测方法。

有益效果：本发明实施例对每个位置分别分配自适应融合权值，生成一个自适应于每个图像具体内容的融合边缘图。能主动地学习基于特征图内容的自定义位置相关的融合权值，用于多级响应特征图，提升了多级响应融合的能力。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于动态特征融合的语义边缘检测方法较佳实施例的流程图；

图2为本发明一种基于动态特征融合的语义边缘检测装置的较佳实施例的功能模块示意图；

图3为本发明一种基于动态特征融合的语义边缘检测设备的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

本发明实施例提供了一种基于动态特征融合的语义边缘检测方法。请参阅图1，图1为本发明一种基于动态特征融合的语义边缘检测方法较佳实施例的流程图。如图1所示，其包括步骤：

步骤S100、构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络；

步骤S200、获取待识别的图像，将待识别的图像输入目标网络；

步骤S300、获取目标网络的输出结果，根据目标网络的输出结果，完成语义边缘检测。

具体实施时，预先构建一个初始的卷积神经网络，根据训练样本对深度卷积神经网络进行训练生成用于语义边缘检测的目标网络。获取需要进行预测边界的图像，将待识别的图像输入目标网络，获取目标网络的输出结果，输出结果为语义边缘检测结果。

本发明主要针对于网络直播课中的人体及其他物体边缘检测方面。针对上述语义边缘检测方法中存在的问题，提出一种基于动态特征融合的语义边缘检测方法。本发明方法为每个位置分别分配自适应融合权值，目的是生成一个自适应于每个图像具体内容的融合边缘图。特别地，设计了一种新的位置自适应权值学习器，它能主动地学习基于特征图内容的自定义位置相关的融合权值，用于多级响应特征图。

低级特性和高级特性合并以产生最终的融合输出。低层次特征图对物体内部的边缘等细节有较高的响应，而高层次特征图则比较粗糙，只在边缘处有较强的响应，这种位置自适应权值学习器为每个单独的位置定制融合权值。例如，对于马的边界，融合权重偏向低层特征，以充分利用精确定位的边缘。对于马的内部，较高的权重分配给高级特征，以抑制内部的碎片和琐碎的边缘响应。

进一步地，获取待识别的图像，将待识别的图像输入目标网络，包括：

将待识别的帧图像输入目标网络。

具体实施时，通过课堂上设置的摄像头采集网络直播课教室内的视频数据，对视频数据进行解析，生成连续的帧图像，需要对帧图像进行边缘检测，因此将待识别的帧图像输入目标网络。

进一步地，构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络，包括：

构建初始卷积神经网络；

具体实施时，获取图像训练样本，根据图像训练样本对初始卷积神经网络进行训练，生成目标网络。其中卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。卷积神经网络由输入层、隐含层和输出层构成。隐含层包括卷积层、池化层、Inception模块和全连接层构成。

进一步地，构建初始卷积神经网络，包括：

通过resnet-101构建初始卷积神经网络。

具体实施时，本发明实施例的初始卷积神经网络的主干网络采用resnet-101。ResNet在2015年被提出，在ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用ResNet。resnet-101是指输出层具有101层的网络结构。

进一步地，通过resnet-101构建初始卷积神经网络，包括：

构建resnet-101网络的特征提取器；

构建resnet-101网络的自适应权值整合模块；

具体实施时，本发明的动态特征融合网络结构包括两个主要组件:一个带归一化器的特征提取器和一个自适应权值融合模块。特征提取器主要将多级响应缩放到相同的量级，为下层的融合操作做准备。自适应权重融合模块执行以下两个计算。首先，根据图像内容动态生成特定位置的融合权重。在此基础上，采用基于位置的融合权重主动融合高层和低层响应图。自适应权值融合模块能够充分挖掘多级响应特别是低电平响应的潜力，对每个单点产生更好的融合输出。

主干网络采用resnet-101，在前三阶段提取通道数为1的标准化特征图，在第五阶段提取通道数为k和4k的标准化特征图，用前三阶段提取的特征图和第五阶段提取的k个特征图做共享连接生成4k个连接特征图。用第五阶段提取的4k个标准化特征图来经过自适应权重学习器学习得到4k个H*W的权重图，这样权重参数4k*H*W与连接特征图的像素点个数相等，对于连接特征图的每个像素点都会有一个对应的权重，而不是以往的对于同一张连接特征图的所有像素点其权重都是相同的。然后用这些权重来做融合。

进一步地，将待识别的图像输入目标网络后，包括：

具体实施时，首先通过对多阶响应的尺度进行归一化来处理其尺度变化。这样，后续的自适应权值学习器可以摆脱尺度变化的干扰，更容易学习到有效的融合权值。使用一个带有归一化器的特征提取器对相似量级的多级响应进行归一化。更具体来说，模块中的特征归一化块负责对应级别的特征映射进行归一化。为了实现提出的动态特征融合，设计了两种不同的自适应融合权值预测方案：位置不变和位置自适应融合权重。前者平等地对待特征图中的所有位置，根据特定的输入自适应地学习通用融合权值。后者根据图像的位置特征调整融合权重，提高低层特征对目标边界精细边缘定位的贡献。

进一步地，根据目标网络的自适应权值整合模块生成归一化图像的特定位置的自适应融合权重，并根据特定位置融合权重进行图像融合，包括：

具体实施时，一侧特征归一化块与残差块的前三层和第五层相连。该块由1×1卷积层、批处理归一化层(BN)和反褶积层组成。1×1卷积层对Side1-3和Side5分别产生单通道响应图和K通道响应图。将BN层应用于1×1卷积层的输出，将多层响应归一化到相同的量级。然后使用反褶积层将响应映射向上采样到原始图像大小。另一侧特征归一化块连接到残差块的第五层堆栈，生成4k通道特征图。自适应权值学习器接收Side5-w特征归一化块的输出来预测动态融合权值w(x)。

由以上方法实施例可知，本发明提供了一种基于动态特征融合的语义边缘检测方法，为每个位置分别分配自适应融合权值，目的是生成一个自适应于每个图像具体内容的融合边缘图。特别地，设计了一种新的位置自适应权值学习器，它能主动地学习基于特征图内容的自定义位置相关的融合权值，用于多级响应特征图。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种基于动态特征融合的语义边缘检测装置，如图2所示，装置1包括：

网络构建模块11，用于构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络；

图像处理模块12，用于获取待识别的图像，将待识别的图像输入目标网络；

边缘检测模块，用于获取目标网络的输出结果，根据目标网络的输出结果，完成语义边缘检测13。

具体实施方式见方法实施例，此处不再赘述。

本发明另一实施例提供一种基于动态特征融合的语义边缘检测设备，如图3所示，设备10包括：

一个或多个处理器110以及存储器120，图3中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器110用于完成，设备10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于动态特征融合的语义边缘检测方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行设备10的各种功能应用以及数据处理，即实现上述方法实施例中的基于动态特征融合的语义边缘检测方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据设备10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于动态特征融合的语义边缘检测方法，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明并非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使处理器执行上述方法实施例的基于动态特征融合的语义边缘检测方法。例如，执行以上描述的图1中的方法步骤S100至步骤S300。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于动态特征融合的语义边缘检测方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于动态特征融合的语义边缘检测方法,其特征在于,所述方法包括：

获取待识别的图像，将待识别的图像输入目标网络；

2.根据权利要求1所述的基于动态特征融合的语义边缘检测方法，其特征在于，所述获取待识别的图像，将待识别的图像输入目标网络，包括：

将待识别的帧图像输入目标网络。

3.根据权利要求2所述的基于动态特征融合的语义边缘检测方法，其特征在于，所述构建初始卷积神经网络，对初始卷积神经网络进行训练生成目标网络，包括：

构建初始卷积神经网络；

4.根据权利要求3所述的基于动态特征融合的语义边缘检测方法，其特征在于，所述构建初始卷积神经网络，包括：

通过resnet-101构建初始卷积神经网络。

5.根据权利要求4所述的基于动态特征融合的语义边缘检测方法，其特征在于，所述通过resnet-101构建初始卷积神经网络，包括：

构建resnet-101网络的特征提取器；

构建resnet-101网络的自适应权值整合模块；

6.根据权利要求5所述的基于动态特征融合的语义边缘检测方法，其特征在于，所述将待识别的图像输入目标网络后，包括：

7.根据权利要求6所述的基于动态特征融合的语义边缘检测方法，其特征在于，所述根据目标网络的自适应权值整合模块生成归一化图像的特定位置的自适应融合权重，并根据特定位置融合权重进行图像融合，包括：

8.一种基于动态特征融合的语义边缘检测装置，其特征在于，所述装置包括：

9.一种基于动态特征融合的语义边缘检测设备，其特征在于，所述设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于动态特征融合的语义边缘检测方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于动态特征融合的语义边缘检测方法。