CN111901610B

CN111901610B - 一种基于多层编码器的并行图像描述方法

Info

Publication number: CN111901610B
Application number: CN202010768564.5A
Authority: CN
Inventors: 杨小宝; 武君胜; 何婵; 王军; 王文涛
Original assignee: Northwestern Polytechnical University; Xian University of Posts and Telecommunications
Current assignee: Northwestern Polytechnical University; Xian University of Posts and Telecommunications
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2021-09-21
Anticipated expiration: 2040-08-03
Also published as: CN111901610A

Abstract

本发明公开了一种基于多层编码器的并行图像描述方法，涉及计算机视觉技术领域，方法包括：输入待描述的图像；对图像进行编码处理，获得多层特征；对每一层特征分别进行维度变换，降低特征的维度；将维度变换后的多层特征输入解码器，对多层特征进行并行解码处理，得到相应的图像描述。本发明将编码器输出的多层特征采取顺序或者逆序并行的方式输入解码器中，产生对图像中各层目标的语义描述，满足细粒度的描述要求。

Description

一种基于多层编码器的并行图像描述方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于多层编码器的并行图像描述方法。

背景技术

随着人工智能时代的到来，视觉技术对人类实现机器人或无人系统的智能化作用越来越重要。它被广泛的应用于生产制造、道路交通、公共安全等领域，如在线产品缺陷检测、车辆与行人识别、海空多目标识别等。随着人工智能技术的进一步发展，除了让视觉系统具备“观察”事物能力外，让其拥有“理解”事物的能力，则将使机器人或其它无人系统在复杂的场景中做出更为准确的决策和服务。

图像描述(image captioning/descriptive)，是计算机视觉、自然语言处理交叉领域中关于场景理解任务的一个主要研究方向，也是当前人工智能领域跨学科研究的热点和难点。图像描述是通过对输入图像或视频内容分析后，自动生成一条或若干条描述图像内容的语句，告诉人们或机器人关于图像的内容，如：“这些人在哪里？(例如，海滩，咖啡馆)，穿什么？重要的是他们在那里做什么”，就像看图说话一样。2015年谷歌团队受循环神经网络(RNN)做机器翻译启发，将机器翻译中编码源文字的循环神经网络(RNN)替换成卷积神经网络(CNN)来编码图像，希望用这种方式来获得图像的描述，实验效果大大超越了当时最先进的结果。自那之后，“编码器-解码器”这一系列模型以及他们的变体就在图像描述任务中变得很受欢迎。而从编码器中提取的特征需要怎样处理或选择之后输入进解码器使其生成的句子效果更好对于图像场景理解任务变得越来越重要。

在计算机视觉领域，基础网络的特征输出，对目标检测任务有至关重要的影响，比如高层特征对大目标检测具有很好的贡献，低层特征则对小目标有较大的贡献。同样对于图像场景理解而言，高层或低层特征的选择对语句的生成也有重大影响，所以当前国内外所提图像描述算法，基本上都是选择基础网络的最高层作为场景特征的表示，而这并不能满足粒度更细的描述要求。例如在交通领域，图像描述可以用于盲人导航，如果仅用最高层的特征输入解码器生成描述，常常不能生成小目标的描述，而这些小目标描述可能会给盲人行走过程中带来危险。

发明内容

本发明实施例提供了一种基于多层编码器的并行图像描述方法，采用多层并行解码的方法解决现有技术中存在的问题。

本发明提供了一种基于多层编码器的并行图像描述方法，包括以下步骤：

输入待描述的图像；

对图像进行编码处理，获得多层特征；

对每一层特征分别进行维度变换，降低特征的维度；

将维度变换后的多层特征输入解码器，对多层特征进行并行解码处理，得到相应的图像描述。

优选地，维度变换后的多层特征采用以下方式输入解码器：

从低层到高层并行输进解码器从低层到高层的堆叠层中。

优选地，所述解码器对多层特征进行并行解码处理的方法如下：

把最低层特征与标准语句的序列信息输进解码器的第一层layer 1，生成第一层的描述；

提取第一层描述的语义送进解码器的第二层layer 2，同时在layer 2输入次低层的特征，生成第二层的描述；

提取第二层描述的语义送进解码器的第三层layer 3，同时在layer 3输入次次低层的特征，生成第三层的描述；

以此类推，直到所有层的特征均输入到解码器对应的堆叠层中，得到最终的图像描述。

优选地，维度变换后的多层特征采用以下方式输入解码器：

从高层到低层并行输进解码器从低层到高层的堆叠层中。

把最高层特征与标准语句的序列信息输进解码器的第一层layer 1，生成第一层的描述；

提取第一层描述的语义送进解码器的第二层layer 2，同时在layer 2输入次高层的特征，生成第二层的描述；

提取第二层描述的语义送进解码器的第三层layer 3，同时在layer 3输入次次高层的特征，生成第三层的描述；

优选地，维度变换的方法为：

将每一层特征分别输入卷积层；

对卷积层输出的特征的维度进行变形；

对全连接层输出的特征进行批归一化处理；

使用激活函数对批归一化后的特征进行映射。

优选地，使用的激活函数为Mish函数。

本发明中的，其有益效果为：

将编码器输出的多层特征采取顺序或者逆序并行的方式输入解码器中，产生对图像中各层目标的语义描述，满足细粒度的描述要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中解码器对输入的特征进行处理的示意图。

图2为本发明中采用顺序并行方法进行图像描述的流程图。

图3为本发明中采用逆序并行方法进行图像描述的流程图。

图4为维度变换采用的一种方法的流程图。

图5为维度变换采用的另一种方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，图像描述领域最常用的架构是“编码器-解码器”架构。编码器使用“EfficientNet”模型，解码器使用基本的并行语言生成模型(based transformer)的解码器。探索多层并行解码方法，需要选取多层特征使其并行对应输进解码器的各层中。为了方便说明，在实施时选取了编码器提取的最后五层特征，解码器对应地采用五层基本的并行语言生成模型(based transformer)的解码器进行堆叠。

由于最高层的特征表示包含的语义最丰富，具有全局信息，所以当前国内外所提图像描述算法，基本上都是选择基础网络的最高层作为场景特征的表示。但是高层特征一般很难保留小目标的信息，这是由于随着感受野的不断增大，特征图不断缩小，面积较小的区域的信息很难传递到后面的目标检测器中。如图1所示首先将选择的最高层的特征P[i]和标准语句的序列信息输进解码器的第一层layer 1，生成描述，然后提取描述的语义送到解码器的第二层 layer 2，在layer 2输入选择的最高层的特征，生成描述，提取描述的语义再输入进解码器的第三层layer 3，不断类推。这个过程一直在建立最高层特征和生成描述的相关关系，所以最后输出的描述只能很好地表达最高层特征，而最高层的特征只能表达全局信息，对于局部的小目标的信息很难保留，所以很难生成局部的小目标的描述，自然不能满足粒度更细的描述要求。

而本发明所提出的基于多层并行解码的图像描述方法，恰好可以解决多种图像场景理解任务的特征选择问题，满足粒度更细的描述要求。

本发明的图像描述方法，包括以下步骤：

输入待描述的图像；

对图像进行编码处理，获得多层特征；

对每一层特征分别进行维度变换，降低特征的维度；

本发明使用的多层并行解码方法，在输入特征至解码器时，解码器每层输入的特征不同，所以按照顺序即从低层到高层将特征对应输进解码器的低层到高层的结果，和按照逆序即从高层到低层将特征对应输进解码器的低层到高层的结果可能会有所差异。因此本发明提出的多层的并行解码方法可以采用两种网络架构：顺序并行、逆序并行：

(1)顺序并行指的是编码器输出的各层特征，从低层到高层并行输进解码器从低层到高层的堆叠层中，如图2示。首先需要了解，低层特征包含小目标信息(面积较小的局部信息)，随着特征层数的增加，特征中包含的语义就会越来越丰富，信息也会越来越全面。如图所示先把最低层特征即小目标的特征与标准语句的序列信息输进解码器的第一层layer1，生成对小目标(局部信息) 的描述，然后提取描述的语义送进解码器的第二层layer 2，同时在layer 2输入次低层的特征，生成的描述中就增加了相对于最低层而言更大目标的描述，越接近最高层，解码器就会不断增强对大目标的描述能力。

(2)逆序并行指的是编码器输出的各层特征，从高层到低层并行输进解码器从低层到高层的堆叠层中，如图3示。由图可以看出，先将最高层特征(全局信息)和标准语句的序列信息输入进解码器的第一层layer 1，生成对全局信息的描述，然后把从描述中提取的语义信息向上送进解码器的第二层layer 2，与次高层的特征信息建立相关关系，然后生成描述，以此类推。解码器增强了对较小区域的局部信息的描述能力。

由图1到图3可知，要想将编码器输出的多层特征输进后面的解码器，必须对特征进行维度变换即图中的linear。一般情况下，在对特征进行维度处理的结构如图4所示，首先把特征输进一个池化层pooling，作用是降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减少计算量、减少内存消耗等等。然后对池化层输出的特征的维度进行变形reshape后输进全连接层fc，其在这里的作用是维度变换，尤其是可以把高维变到低维，同时把有用的信息保留下来。

虽然到这里基本可以得到需要的输出维度，但是一般还需要再加个批归一化BN和激活函数，批归一化BN是为了克服神经网络加深导致难以训练而诞生的。随着神经网络深度加深，训练起来就会越来越困难，收敛速度回很慢，常常会导致梯度弥散问题VanishingGradient Problem。批归一化通过标准化让激活函数分布在线性区间，结果就是加大了梯度，让模型更大胆的进行梯度下降。而引入非线性函数作为激活函数，这样深层神经网络才有意义，输出不再是输入的线性组合，就可以逼近任意函数。这里用的激活函数是神经网络中常用的Relu函数，它可以解决梯度消失问题。

在本发明中，设计了一个如图5所示的新的调整子网，用以进行维度变换。首先用一个卷积层conv代替图4中的池化层pooling和全连接层fc。池化层虽然能够增大感受野，让卷积看到更多的信息，但是它在降维的过程中丢失了一些信息，只留下了它认为重要的信息。在这里，可以用和编码器输出的最高两层特征的卷积核作为卷积层的卷积核，这样就能满足增大感受野的要求，得到了1x1的特征图。虽然特征维度大量降低，会导致很多重要信息丢失，但是本发明仅仅进行着一次卷积处理，后面再不会进行卷积了，所以这里用卷积层代替池化层是合理的。

卷积层是局部连接的，它的特点是稀疏连接和权值共享；而全连接层使用了图像的全局信息，每个神经元都与上一层的所有神经元相连接，“最大的局部”和“全局”这两个概念其实是等价的，因此卷积层替换全连接层是可行的。卷积层替换全连接层的优点有两个：1)输入更灵活，可以接受任意分辨率的图像。2)减少计算量，只需要做一次前向就可以得到一张热力图，然后可以根据步长stride等参数反算出原图大致的位置。

在本发明提出的维度变换方法中，使用的激活函数是2019年提出的Mish 函数，该函数在最终准确度上比Swish函数(+0.494％)和ReLU函数(+1.671％) 都有提高。Mish函数以上无边界，即正值可以达到任何高度，避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流，而不是像ReLU 函数那样存在硬零边界。而且本发明使用Mish函数，这种平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化。随着层深的增加，ReLU函数精度迅速下降，Swish函数精度下降的速度也比较快。相比之下，Mish函数能更好地保持准确性，这可能是因为它能更好地传播信息。

本发明旨在解决当前国内外所提图像描述方法，基本上都是选择编码器输出的最高层特征作为场景特征的表示，并不能满足粒度更细的描述要求的问题，提出一种多层的并行解码方法，采用顺序并行和逆序并行两种设计方案。

顺序并行在生成描述时，整个流程是从生成局部信息描述到增加全局信息描述。由于小目标信息贯穿整个解码过程，所以顺序并行很可能生成的小目标描述较好。而小目标特征即局部图像特征因为具有在图像中蕴含数量丰富，特征间相关度小，遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等特点，所以在医学领域或者军事领域的图像描述中顺序并行可能更具有优势，但是它的语句流畅度可能会较低。

逆序并行在生成描述时，整个流程是从生成全局部信息描述到增加局部信息描述。由于最高层特征的语义最丰富，包含全局信息，而其贯穿整个解码过程，这对描述的生成也有重大影响，所以逆序生成描述的质量会比顺序高，而且有全局信息指引，生成句子的效率会比顺序高。但是可能没有顺序对小目标的描述好。

无论是上述的哪种多层并行解码方法都比现阶段直接将一个高层特征默认输入解码器的方法更能满足粒度更细的描述要求。

下面通过具体的实例对本发明的方法进行说明。

结合本发明中的图像描述方法，提出针对图像描述用于盲人导航中存在的安全隐患问题的解决方法。如图1，图2，图3所示，输入同一张交通领域的图片，最终不同的连接方法生成的描述不同。图1用最高层特征输入解码器生成的描述为“Two pedestrianswearing white T-shirts crossing the road.”图2用顺序并行的解码方法生成的描述为“Two pedestrians cross the road at a red light,two stones on the road.”图3用逆序并行的解码方法生成的描述为“Two pedestrians wearing white T-shirts crossthe road when traffic is stopped by a red light.”从以上三种方法生成句子可以分析出：仅使用基础网络的最高层作为场景特征的表示可能会忽略例如红灯等重要的小目标描述。顺序并行的解码方法虽然生成的句子质量不高，但是可以生成比较多的小目标描述。比如它生成的描述中不但有红灯，还有路旁的小石柱，因此将其用于盲人导航中可能会更安全。逆序并行的解码方法虽然生成的小目标描述没有顺序并行多，但是生成的句子质量及流畅性更好。在获得对图像的描述后，将该描述用于盲人导航。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多层编码器的并行图像描述方法，其特征在于，包括以下步骤：

输入待描述的图像；

对图像进行编码处理，获得多层特征；

对每一层特征分别进行维度变换，降低特征的维度；

将维度变换后的多层特征输入解码器，对多层特征进行并行解码处理，得到相应的图像描述；

所述多层特征采用以下方式输入解码器：

多层特征从低层到高层并行输进解码器从低层到高层的堆叠层中，或多层特征从高层到低层并行输进解码器从低层到高层的堆叠层中。

2.如权利要求1所述的一种基于多层编码器的并行图像描述方法，其特征在于，所述解码器对多层特征进行并行解码处理的方法如下：

3.如权利要求1所述的一种基于多层编码器的并行图像描述方法，其特征在于，所述解码器对多层特征进行并行解码处理的方法如下：

4.如权利要求1所述的一种基于多层编码器的并行图像描述方法，其特征在于，维度变换的方法为：

将每一层特征分别输入卷积层；

对卷积层输出的特征的维度进行变形；

对全连接层输出的特征进行批归一化处理；

使用激活函数对批归一化后的特征进行映射。

5.如权利要求4所述的一种基于多层编码器的并行图像描述方法，其特征在于，使用的激活函数为Mish函数。