CN115294441B

CN115294441B - 一种由注意力融合三特征的机器人场景识别与解析方法

Info

Publication number: CN115294441B
Application number: CN202211205005.9A
Authority: CN
Inventors: 朱博; 谢俊哲; 范希明; 高翔; 徐国政; 程泽恒; 姚子雄
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-02-10
Anticipated expiration: 2042-09-30
Also published as: CN115294441A

Abstract

一种由注意力融合三特征的机器人场景识别与解析方法，提出利用物品识别算法中物品特征图进一步精确解析场景中物品信息的方法；提出一种获取物品单体描述信度的方法，并且设计了由物品单体描述信度组成的物品向量；改造了卷积神经网络CNN的全连接层网络，并定义了某个全连接层网络的输出为全局特征；求出卷积神经网络CNN卷积层的输出的格拉姆矩阵，并提出全连接层网络的结构，在输入为格拉姆矩阵时输出为风格特征；利用注意力机制将三种特征进行融合，并将融合注意力向量送进用于分类的全连接层网络，输出即为最终的场景标签。本发明支持整体训练优化，可以解析该场景的物品标签与场景标签，在室内场景解析与场景分类中有较好的结果。

Description

一种由注意力融合三特征的机器人场景识别与解析方法

技术领域

本发明属于维室内场景识别方法，具体涉及一种由注意力融合三特征的机器人场景识别与解析方法。

背景技术

在二维图片场景识别主流方法中，常常使用多种场景特征去进行场景识别，例如基于颜色特征的场景识别结合基于物品对象的场景识别等等，然而这些方法通常没有引入注意力机制而是直接将这些特征进行融合分类，结果往往会顾此失彼，最后得到的场景分类准确率往往不如原来的准确率。除此之外，对于儿童房与卧室这些风格特征相似的场景用颜色特征与物品特征也无法进行有效的判别。

发明内容

本发明提出了一种由注意力融合三特征的机器人场景识别与解析方法。该方法融合了三种特征，有效的避免了卷积神经网络提取信息量较为单一的问题，同时借助了卷积神经网络在视觉任务方面的优异性能，相较于利用单一特征与直接对各种特征进行拼接然后进行分类的方法，该方法能有效地对具有相似特征的场景进行分类，在室内场景识别任务中具有较好效果。

一种由注意力融合三特征的机器人场景识别与解析方法，包括以下步骤：

步骤1，用物品识别算法检测图片，对已检测出的物品提取特定卷积层上的特征图，将其送入全连接层网络一，全连接层网络一输出向量中最大值对应的索引为该场景中物品的标签；

步骤2，用物品识别算法检测图片，对已检测出的物品提取特定卷积层上的特征图，利用特征图卷积法构造若干物品单体描述信度，并提出一种由物品单体描述信度构成的物品向量来描述图像涉及的物品整体特征；

步骤3，对卷积神经网络CNN（例如Alexnet，VGG）的全连接层网络进行改造，并记为全连接层网络二，向网络中输入图片，将全连接层网络二的倒数第二层的输出作为全局特征；

步骤4，对于卷积神经网络CNN（例如Alexnet，VGG）卷积层的最后一层的输出形式整理然后求其格拉姆矩阵，并提出了一种全连接层网络三，将格拉姆矩阵作为输入，全连接层网络三的输出作为风格特征；

步骤5，提出了全连接层网络四，并提出了一种注意力机制，将物品特征、全局特征与风格特征进行融合，得到该场景的融合注意力向量；

步骤6，提出了全连接网络五，将步骤(5)得的融合注意力向量送入全连接层网络五，全连接层网络五输出的向量中最大值对应的索引为预测场景的对应标签；

步骤7，该网络为一种端到端网络，融合了三种提取特征的网络与注意力机制，最终的输出为该场景的物品标签与该场景的标签。

步骤1中，对于物品识别算法（例如SSD算法），找到其捕捉物品特征的卷积层（例如SSD算法的Conv5_3层），对已检测出的物品提取该卷积层上的特征图，对其进行flatten操作并送入全连接层网络一，全连接层网络输出向量最大值的索引为物品标签。该方法相较于SSD能更精确的解析场景的物品标签。

步骤2中，主要包含以下步骤：

步骤2.1，用特征图卷积法得到物品单体描述信度的步骤如下：对于物品识别算法（例如SSD算法），找到其捕捉物品特征的卷积层（例如SSD算法的Conv5_3层），对已检测出的物品提取该卷积层上的特征图，将卷积层上该位置物品的特征图用与特征图相同深度的卷积核进行卷积，并将所有的卷积结果求和，将所得值作为物品单体描述信度；

步骤2.2，利用物品单体描述信度构造的物品向量结构如下所示：

其中

表示物品类

的第j个物品单体描述信度，元素所处的位置隐含了物品类别的信息，对于第k类物品设检测器实际输出物品数量为

，首先依照物品识别算法给出的置信度从大到小的顺序将对应的物品单体描述信度放置在该物品向量类

所属的位置

，若

为0，则将

中各个元素全部设为0;若

大于

，则取N中前

个数据，若

小于

，则将不足

的部分补0；将

到

进行拼接，得到物品向量。[0007] 步骤3中令卷积神经网络CNN（例如Alexnet，VGG）的最后一层全连接层网络神经元数量等于要识别的场景数量，并指定标签，令倒数第二层的全连接层网络神经元个数等于物品向量维数，并将该层的输出作为该场景全局特征。

步骤4中，主要包含以下步骤：

步骤4.1，将卷积层输出进行形状整理，并用以求解出格拉姆矩阵；

步骤4.2，对于形式上为对角阵的格拉姆矩阵，以对角线为划分保留其右上角部分，将其进行flatten操作，并将结果送入后续全连接层网络三；

步骤4.3，将全连接层网络三输出作为该图片的风格特征。

步骤5中，主要包含以下步骤：

步骤5.1，假设某一场景类别数量为X个，每一张场景图片的全局向量的长度为R维，物品特征为T维，风格特征为J维，则首先对该场景类别的三种特征分别进行堆叠，得到的结果为大小为(X，R)的场景全部全局特征、大小为(X,T)的场景全部物品向量和大小为(X，J)的场景全部风格特征；

步骤5.2，设置LSTM记忆步长为S，将场景全部全局特征与全部风格特征中连续的S个向量继续进行堆叠，形成结构为(X-S，S，R)的全局特征与结构为(X-S, S, J)的全部风格特征；

步骤5.3，将全局特征送入LSTM网络一，并取网络最后一个时间步长的输出，寻找输出向量中前N个最大的值，并将其作为全局注意力向量；将风格特征送入LSTM网络二，并取网络最后一个时间步长的输出，寻找输出向量中前L个最大的值，并将其作为风格注意力向量；同时寻找物品向量前M个最大值对应的索引并除以该物品特征向量的长度，并将其作为物品注意力向量，将三个注意力向量进行拼接，形成融合特征；

步骤5.4，提出了全连接层网络四，将融合特征送入全连接层网络四，全连接层网络四的输出维度为3，并对出输出值归一化，得到3个归一化输出，分别对应于全局特征的权重、风格特征的权重与物品特征的权重，分别将其与原全局特征、风格特征相乘，得到加权后的三特征向量；将3个加权特征向量进行拼接，得到融合注意力向量。

步骤6中，将步骤5得的融合注意力向量送入全连接层网络五，全连接层网络五输出的向量中最大值对应的索引为预测场景的对应标签。

步骤7中，该网络为一种端到端网络，融合了三种提取特征的网络与注意力机制，最终的输出为该场景的物品标签与该场景的标签。

本发明达到的有益效果为：

对于理论性能：注意力机制模型与CNN相比复杂度更小，参数也更少，所以对算力的要求也就更小，计算速度更快。其识别重点能力强，更擅长处理复杂特征，不易丢失重要的信息。

对于应用性能：多场景融合与注意力结合机制会专注抓取突出明显的特征，更快的进行分析，增强了网络的鲁棒性。本方法融入了风格特征，多角度深层次的对图片进行识别和分类。

对于特殊适用情形：区别与传统算法，本方法对物品特征和背景色调相似的场景有较高的辨别能力。

附图说明

图1为本发明实施例中的模型建立流程图。

图2为本发明实施例中的物品类别表。

图3为本发明实施例中的场景类别表。

图4为本发明实施例中的四个模型在vpc数据集上的平均准确率示意图。

图5为本发明实施例中的四个模型在MIT15类室内场景数据集上的平均准确率示意图。

图6为本发明实施例中的四个模型在TSOTSOS_HOME室内场景数据集上的平均准确率示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，本发明的面向机器人应用的采用注意力机制融合了三种特征的场景分类方法，在具体实施时需要先建立识别模型，再用大量二维场景图片训练模型，迭代至预先设定次数则训练完成。在对新的二维场景分类时，将场景的二维图片数据输入训练好的模型，输出为场景的类别标签向量与场景的物品标签向量，向量中最大值的序号即对应的场景类别与物品标签。本实施方式借助pytorch框架进行实现。具体步骤如下：

利用Place365数据集对SSD物品识别网络与VGG网络进行预训练；然后保存其预训练的权重；将VGG网络全连接的倒数第二层的输出改为286。SSD算法识别的物品数量为68类；VGG网络识别的场景类别数为15类室内场景；具体场景与物品类别将在图2中给出。

根据SSD算法识别出的物品在图片中的位置反推其在SSD算法conv_5层的特征图，其中conv_5层的大小为(38,38,512)（含义为：特征图宽和高为38，深度为512，下文特征图尺寸含义相同），一个物品所对应的特征图大小为(1,1,512)；对物品的特征图使用flatten操作，将flatten操作后的向量送入全连接层网络一，全连接层网络一的结构为(512,126,68)，其输出为预测的物品的标签向量，向量中最大值的序号即对应的场景物品标签。此处全连接层网络一结构为（512，128，68）的含义为网络第一层神经元的数量为512，第二层神经元的数量为128，第三层神经元的数量为68。

根据SSD算法识别出的物品在图片中的位置反推其在SSD算法conv_5层的特征图后，用数量为512维的卷积核对特征图进行卷积，并将该512个值加在一起，得到的值为物品单体描述信度。将得到的物品单体描述信度按照提出好的物品向量形式进行拼接组合，得到物品向量。

将图片送入VGG网络卷积层中，将VGG网络卷积层的输出进行flatten操作并送入全连接层网络二，全连接网络二的结构为（25088，4096，286，15），取全连接层网络二中维度大小为286的输出作为全局特征。此处（25088，4096，286，150）指全连接层网络二的第一层神经元数量为25088，第二层神经元数量为4096，第三层神经元数量为286，第四层神经元数量为15。

如图2所示，对于图像的风格信息，用Gram matrix来表示，取VGG最后一层卷积层输出(7,7,512)，将其变化为(ch,h*w)( [512,49] )与 (h*w,ch) ( [ 49,512] )的形式，再对两个作内积得到Gram Matrices。可以得到[49,49]大小的矩阵，表述其风格，将其进行对角线切分，取整个矩阵的一半(包括对角线的元素)并将其进行flatten操作，然后将经过flatten操作后的结果送入全连接层网络三，全连接层网络三的结构为(1225,286)，取全连接层网络输出的286维特征作为其风格特征，此处（1225，286）指全连接层网络三第一层神经元数量为1225，第二层神经元数量为286。

步骤(3)中，将训练集中获取的全局特征以场景类别进行划分，假设某一场景类别数量为X个，每一张场景图片的全局向量的长度为286维，物品特征为286维，风格特征为286维，则首先对该场景类别的所有全局特征与物品向量和风格特征进行堆叠，拼接后得到的结果为大小为(X,286)的场景全部全局特征、大小为(X,286)的场景全部物品向量和大小为(X,286)的场景全部风格特征，并且设置时间步长为20，将场景全部全局特征与全部风格特征中连续的20张继续进行堆叠，形成大小为(X-20,20,286)的全局特征与大小为(X-20,20,286)的风格特征，并分别送入LSTM网络一与LSTM网络二进行训练，并取其最后一个时间步长的输出，寻找两个LSTM网络输出的前10个最大的值；同时寻找物品向量前7个最大值对应的索引并除去该物品特征向量的长度。接着将三者进行拼接并送入全连接层网络四，全连接层网络四的结构为(27,12,3)，将三个输出值进行归一化，归一化后结果即为全局特征、风格特征与物品向量对应的权重，将三个向量分别乘上对应的权重并且进行连接，得到融合注意力向量。此处全连接层网络四的结构为（27，12，3）指的是输入全连接层网络四的第一层神经元数量为27，第二层神经元数量为12，第三层神经元数量为3。

将融合注意力向量送入全连接层网络五，其结构为(1024,512,126,15)，其中全连接层网络的输出的向量中的最大值对应的索引即为最终得到的该场景标签。此处全连接层网络五的结构为（1024，512，126，15）的含义为全连接层网络五的第一层神经元数量为1024，第二层神经元数量为512，第三层神经元数量为126，第四层神经元数量为15。

使用了Fine-tuned Alexnet网络、Fine-tuned VGG网络、MR-CNN网络与本发明的模型，将PLACE365数据集中室内15类场景作为训练集，以vpc数据集、MIT15类室内场景数据集与TSOTSOS_HOME室内场景数据集作为测试集，进行跨数据集测试，得出各模型在不同数据集上的平均准确率如图4、5、6所示。可以看出本发明方法的准确率较好。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种由注意力融合三特征的机器人场景识别与解析方法，其特征在于：包括如下步骤：

步骤1，检测图片以进行物品识别，对已检测出的物品提取特征图，将其送入全连接层网络一，全连接层网络一输出向量中最大值对应的索引为该场景中物品的标签；全连接层网络一的结构为(512,126,68)；

步骤2，检测图片以进行物品识别，对已检测出的物品提取特定卷积层上的特征图，构造物品单体描述信度，基于由物品单体描述信度构成的物品向量来描述图像涉及的物品整体特征；

步骤2中，包括如下分步骤：

步骤2.1，用特征图卷积法得到物品单体描述信度；对于物品识别算法，找到其捕捉物品特征的卷积层，对已检测出的物品提取该卷积层上的特征图，将卷积层上该物品的特征图用与特征图相同深度的卷积核进行卷积，并将所有的卷积结果求和，将所得值作为物品单体描述信度；

其中

表示物品类O_i的第j个物品单体描述信度，元素所处的位置隐含了物品类别的信息，对于第k类物品设检测器实际输出物品数量为N'_k，首先依照物品识别算法给出的置信度从大到小的顺序将对应的物品单体描述信度放置在该物品向量类O_k所属的位置

若N'_k为0，则将O_k中各个元素全部设为0；若N'_k大于N_k，则取N中前N_k个数据，若N'_k小于N_k，则将不足N_k的部分补0；将O₁到O_k进行拼接，得到物品向量；

步骤3，对卷积神经网络VGG的全连接层网络进行改造，并记为全连接层网络二，向网络中输入图片，将全连接层网络二的倒数第二层的输出作为全局特征；全连接网络二的结构为(25088，4096，286，15)；

步骤4，对于卷积神经网络VGG卷积层的最后一层的输出形式整理并求其格拉姆矩阵，设计全连接层网络三，将格拉姆矩阵作为输入，输出相应的风格特征；全连接层网络三的结构为(1225,286)；

步骤5，通过全连接层网络四结合注意力机制，将物品特征、全局特征与风格特征进行融合，得到该场景的融合注意力向量；全连接层网络四的结构为(27,12,3)；

步骤5，包括如下分步骤：

步骤5.1，对于某一场景类别数量为X个，每一张场景图片的全局向量的长度为R维，物品特征为T维，风格特征为J维，则首先对该场景类别的三种特征分别进行堆叠，得到的结果为大小为(X，R)的场景全部全局特征、大小为(X,T)的场景全部物品向量和大小为(X，J)的场景全部风格特征；

步骤5.2，设置LSTM记忆步长为S，将场景全部全局特征与全部风格特征中连续的S个向量继续进行堆叠，形成结构为(X-S，S，R)的全局特征与结构为(X-S,S,J)的全部风格特征；

步骤5.4，提出了全连接层网络四，将融合特征送入全连接层网络四，全连接层网络四的输出维度为3，并对出输出值归一化，得到3个归一化输出，分别对应于全局特征的权重、风格特征的权重与物品特征的权重，分别将其与原全局特征、风格特征相乘，得到加权后的三特征向量；将3个加权特征向量进行拼接，得到融合注意力向量；

步骤6，通过全连接网络五，将步骤(5)得的融合注意力向量输入，输出的向量中最大值对应的索引为预测场景的对应标签；全连接层网络五的结构为(1024,512,126,15)；

步骤7，整理步骤1和步骤6的输出，最终得到该场景的物品标签与该场景的标签。

2.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法，其特征在于：步骤1中，对于采用的物品识别算法，找到其捕捉物品特征的卷积层，对已检测出的物品提取该卷积层上的特征图，对其进行flatten操作并送入全连接层网络一，全连接层网络输出向量最大值的索引为物品标签。

3.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法，其特征在于：步骤3中，令卷积神经网络CNN的最后一层全连接层网络神经元数量等于要识别的场景数量，并指定标签，令倒数第二层的全连接层网络神经元个数等于物品向量维数，并将该层的输出作为该场景全局特征。

4.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法，其特征在于：步骤4中，包括如下分步骤：

步骤4.3，将全连接层网络三输出作为该图片的风格特征。