CN110210538A

CN110210538A - 一种家居图像多目标识别方法及装置

Info

Publication number: CN110210538A
Application number: CN201910428783.6A
Authority: CN
Inventors: 周成成; 杨兵强; 周贤德; 吴轲
Original assignee: Ryan Friend Data Technology Nanjing Co Ltd
Current assignee: Ryan Friend Data Technology Nanjing Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-06
Anticipated expiration: 2039-05-22
Also published as: CN110210538B

Abstract

本发明提供一种家居图像多目标识别方法及装置，能够为家居图像训练节省大量训练数据、计算资源和训练时间，且能够提高多目标识别的准确率。所述方法包括：获取家居图像数据集作为训练集；将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；对池化特征图进行三次卷积操作，得到第二特征图；对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；利用softmax分类器对融合后的特征图进行分类识别。本发明涉及深度学习领域。

Description

一种家居图像多目标识别方法及装置

技术领域

本发明涉及深度学习领域，特别是指一种家居图像多目标识别方法及装置。

背景技术

近年来，随着人工智能的快速发展和互联网的普及，智慧时代迅速到来，智能家居成为当前的人工智能和物联网的一大热点，家庭中摄像设备数量急剧增加，海量家居图像数据需要处理，一张家居图像中通常含有多个识别目标，通常的图像识别方法只能针对单一目标的图像识别，多目标图像识别成为人工智能的研究重点，也成为制约智能家居发展的难点。

卷积神经网络(Convolutional Neural Networks,CNN)是近些年逐步兴起的一种人工神经网络结构，该技术被广泛的应用于图像识别领域，具有效率高、准确率高和能够处理海量数据等优点。CNN通过卷积、池化等一系列方法，将图像数据降维，方便其被训练，并高效地提取目标特征，因此能够处理庞大的图像数据识别问题。但是现有的CNN图像识别方法需要大量训练样本，并且每次训练需要大量的计算资源和训练时间，且存在多目标识别准确率低的问题。

发明内容

本发明要解决的技术问题是提供一种家居图像多目标识别方法及装置，以解决现有技术所存在的图像识别方法需要大量训练样本、计算资源、训练时间以及多目标识别准确率低的问题。

为解决上述技术问题，本发明实施例提供一种家居图像多目标识别方法，包括：

获取家居图像数据集作为训练集；

将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；其中，所述第一特征图是由保留的预训练模型的最后一层卷积层输出，所述池化特征图是由保留的预训练模型的最后一层池化层输出；

对池化特征图进行三次卷积操作，得到第二特征图；

对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；

利用softmax分类器对融合后的特征图进行分类识别。

进一步地，所述对池化特征图进行三次卷积操作，得到第二特征图包括：

将卷积神经网络模型的全连接层替换成三层全卷积层；

利用得到的三层全卷积层，对池化特征图进行三次卷积操作，得到第二特征图。

进一步地，全局均值池化操作是将第一特征图的所有像素值相加再除以第一特征图的大小，得到第一特征图的像素平均值；还用于将第二特征图的所有像素值相加再除以第二特征图的大小，得到第二特征图的像素平均值。

进一步地，所述将反卷积操作后的两组特征图进行融合包括：

将反卷积操作后的两组特征图按位相加进行融合。

进一步地，所述利用softmax分类器对融合后的特征图进行分类识别包括：

使用softmax分类器对融合特征图的每一个像素点计算分类损失，将每个像素点在所有第二特征图中该像素位置的概率最高的类别作为该像素点的类别。

本发明实施例还提供一种家居图像多目标识别装置，包括：获取模块和用于家居图像识别的多目标识别卷积神经网络模型；所述多目标识别卷积神经网络模型包括：特征迁移模块、全卷积模块、特征融合模块、分类模块；其中，

获取模块，用于获取家居图像数据集作为训练集；

特征迁移模块，用于将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；其中，所述第一特征图是由保留的预训练模型的最后一层卷积层输出，所述池化特征图是由保留的预训练模型的最后一层池化层输出；

全卷积模块，用于对池化特征图进行三次卷积操作，得到第二特征图；

特征融合模块，用于对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；

分类模块，用于利用softmax分类器对融合后的特征图进行分类识别。

进一步地，所述全卷积模块包括：

替换单元，用于将卷积神经网络模型的全连接层替换成三层全卷积层；

操作单元，用于利用得到的三层全卷积层，对池化特征图进行三次卷积操作，得到第二特征图。

进一步地，所述分类模块，用于使用softmax分类器对融合特征图的每一个像素点计算分类损失，将每个像素点在所有第二特征图中该像素位置的概率最高的类别作为该像素点的类别。

本发明的上述技术方案的有益效果如下：

上述方案中，获取家居图像数据集作为训练集；将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；对池化特征图进行三次卷积操作，得到第二特征图；对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；利用softmax分类器对融合后的特征图进行分类识别。这样，通过迁移学习的方法，将在目标领域图像数据集上学到的图像知识应用到家居图像分类问题上，完成目标领域数据集的特征迁移，能够为家居图像训练节省大量训练数据、计算资源和训练时间，且能够提高多目标识别的准确率。

附图说明

图1为本发明实施例提供的家居图像多目标识别方法的流程示意图；

图2为本发明实施例提供的特征融合模块的结构示意图；

图3为本发明实施例提供的MTR-CNN模型的具体结构示意图；

图4为本发明实施例提供的家居图像多目标识别装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的图像识别方法需要大量训练样本、计算资源、训练时间的问题，提供一种家居图像多目标识别方法及装置。

实施例一

如图1所示，本发明实施例提供的家居图像多目标识别方法，包括：

S101，获取家居图像数据集作为训练集；

S102，将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；其中，所述第一特征图是由保留的预训练模型的最后一层卷积层输出，所述池化特征图是由保留的预训练模型的最后一层池化层输出；

S103，对池化特征图进行三次卷积操作，得到第二特征图；

S104，对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；

S105，利用softmax分类器对融合后的特征图进行分类识别。

本发明实施例所述的家居图像多目标识别方法，获取家居图像数据集作为训练集；将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；对池化特征图进行三次卷积操作，得到第二特征图；对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；利用softmax分类器对融合后的特征图进行分类识别。这样，通过迁移学习的方法，将在目标领域图像数据集上学到的图像知识应用到家居图像分类问题上，完成目标领域数据集的特征迁移，能够为家居图像训练节省大量训练数据、计算资源和训练时间，且能够提高多目标识别的准确率。

本发明实施例所述的家居图像多目标识别方法可以应用于智能家居图像识别，主要用于解决家居图像多目标识别问题，以满足智能家居图像识别多目标、省资源、省时间的要求以及多目标识别准确率高。

为了实现本发明实施例所述的家居图像多目标识别方法，需要获取模块和用于家居图像识别的多目标识别卷积神经网络模型(MTR-CNN)；所述多目标识别卷积神经网络模型包括：特征迁移模块、全卷积模块、特征融合模块、分类模块；其中，

获取模块，用于获取家居图像数据集作为训练集；

特征迁移模块，用于将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；

本实施例中，所述目标领域图像数据集为与家居领域相似的图像数据集。

本实施例中，通过特征迁移模块将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，完成相似领域数据集的特征迁移，在此基础上输入训练集，通过保留的预训练模型中的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图。

在前述家居图像多目标识别方法的具体实施方式中，进一步地，所述对池化特征图进行三次卷积操作，得到第二特征图包括：

将卷积神经网络模型的全连接层替换成三层全卷积层；

本实施例中，全卷积模块将原卷积神经网络模型的全连接层替换成卷积核的大小分别为4096×1×1、4096×1×1、1000×1×1的三层全卷积层，全卷积层与特征迁移模块的最后一个池化层相连。

本实施例中，全卷积模块对特征迁移模块输出的池化特征图依次进行三次卷积操作，获得更高维度的第二特征图。

本实施例中，如图2所示，特征融合模块包括全局均值池化层、与全局均值池化层相连的归一化层、与归一化层相连的反池化层、与反池化层相连的反卷积层、与反卷积层相连的融合层五个网络层；其中，

全局均值池化层，用于对接收到的特征图内部取平均值，具体的：全局均值化层是将第一特征图的所有像素值相加再除以第一特征图的大小，得到第一特征图的像素平均值；还用于将第二特征图的所有像素值相加再除以第二特征图的大小，得到第二特征图的像素平均值；

归一化层，用于进行归一化操作将不同特征图的分布统一到一个预设的区间内，例如，可以使用L2归一化函数进行归一化操作，其中，L2归一化函数表示为：

其中，输入d维特征图向量x＝[x₁,x₂,…,x_d]，对x进行归一化得到上标T表示转置；

反池化层，用于将归一化层输出的特征图恢复到全局均值池化前的尺寸，将全局均值池化层得到的平均值填入特征图的每个位置；

反卷积层，用于将反池化层输出的图像恢复到输入特征迁移模块时的尺寸(即：原图尺寸)，具体的：对特征迁移模块输出的经全局均值池化、归一化、反池化处理得到的特征图进行16倍上采样，对全卷积模块输出的经全局均值池化、归一化、反池化处理得到的特征图进行32倍上采样；

融合层，用于将特征迁移模块输出的和全卷积模块输出的依次经全局均值池化、归一化、反池化、反卷积处理后得到的两组特征图，按位相加得到最后的融合结果。

本实施例中，特征融合模块与特征迁移模块的最后一个卷积层和全卷积模块的最后一个卷积层相连。

本实施例中，特征融合模块对特征迁移模块提取的第一特征图和全卷积模块提取的第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合，使得特征经上采样恢复后的细节更加完善，能够提高家居图像的识别精度。

在前述家居图像多目标识别方法的具体实施方式中，进一步地，所述利用softmax分类器对融合后的特征图进行分类识别包括：

使用softmax分类器对融合特征图的每一个像素点计算分类损失，将每个像素点在所有第二特征图中该像素位置的概率最高的类别作为该像素点的类别；

本实施例中，分类模块用于将恢复原图尺寸并经过特征融合模块融合后的特征图输入softmax分类器，利用softmax分类器对融合后的特征图的每一个像素点进行分类操作，将概率最高的类别作为该像素点的类别，得到最终的识别结果；这样，实现了对图像进行像素级的分类，解决了语义级别的图像分割问题，即多目标识别问题，从而能够提高家居图像多目标识别的准确率，并且可以接受任意尺寸的输入图像。

本实施例中，如图3所示，对本发明实施例所述的家居图像多目标识别方法进行详细说明，所述方法具体可以包括以下步骤：

A11，获取少量家居图像，对获取的家居图像进行图像预处理，包括通过旋转、平移、缩放、边缘填充等操作增大训练样本数，通过平滑、对比度增强等提高图像质量，将预处理后的家居图像作为训练集，并给训练集添加用于分类的标签；

本实施例中，标签是指给训练集中每一张图片加上一个类别识别标志，例如，餐桌、椅子等，标签在下文中用于图像分类任务，对于一个给定的待识别图像，计算其特征图与各分类标准特征图的损失距离，预测它属于的那个分类标签。

A12，将在图像识别数据库(ImageNet)2012数据集中的家居图像数据上预先训练好的卷积神经网络模型作为特征预训练模型，使用该模型训练学到的图像特征权重作为训练前的初始特征权重；

本实施例所述的家居图像多目标识别方法包括训练和验证两个过程，训练过程的初始特征权重为预训练模型的保留的特征权重，验证过程的初始特征权重为MTR-CNN模型经训练集训练后保留的特征权重。

A13，输入训练集，经卷积神经网络模型中的卷积层和池化层处理，将训练集中的图像数据不断降维，提取特征向量，构建第一特征图和池化特征图；A14，将预训练模型的全连接层替换为三层全卷积层，将池化特征图作为全卷积层的输入，通过三次卷积操作提取更深层次特征，得到更高维度的第二特征图；

A15，将卷积神经网络模型最后一个卷积层输出的第一特征图经过特征融合模块，依次作全局均值池化、归一化和反池化处理，再进行反卷积操作，作16倍上采样(放大16倍)恢复成原图尺寸；

A16，将全卷积层输出的第二特征图经过特征融合模块，依次作全局均值池化、归一化和反池化处理，再进行反卷积操作，作32倍上采样(放大32倍)恢复成原图尺寸；

A17，将A15、A16得到的两组特征图按位相加进行融合，获得更精细的特征图；

A18，将A17输出的融合特征图输入分类模块，使用softmax分类器对融合特征图的每一个像素点计算分类损失，将每个像素点在所有第二特征图中该像素位置的概率最高的类别作为该像素点的类别。

在A18中，通过对融合特征图的像素点分类可以将一张图像划分为多个不同标签类别的区域图像，从而实现对家居图像的多目标识别。

A19，通过反向传播更新卷积神经网络模型的特征权重，并判断当前迭代次数是否等于预设的最大迭代次数；若等于，则训练结束，得到训练好的MTR-CNN模型，否则，则返回步骤A13继续执行。

本实施例中，选用的预训练模型是在ImageNet数据集上预先训练好的卷积神经网络模型，具体的，所述预训练模型可以是可视化几何组卷积神经网络模型VGG-16，也可以是其他卷积神经网络模型。

本实施例中，采用验证集验证训练得到的MTR-CNN模型，所述验证集为PASCAL VOC2012数据集的一部分，该数据集包含了室内243种生活中常见的物品，例如沙发、电视、餐桌、盆栽、人等。数据集总共为1020张图像，每张图像大小不一。

将本申请所述的MTR-CNN与现有的多目标检测模型全卷积神经网络(FullyConvolutional Networks，简称FCN)分别进行多目标图像识别，得到的实验结果如表1所示：

表1MTR-CNN与FCN-8s、FCN-16s、FCN-32s的识别正确率对比

类型	FCN-8s	FCN-16s	FCN-32s	MTR-CNN
					餐桌	63.7	62.1	59.8	68.3
沙发	58.4	55.7	54.1	63.8
					椅子	70.6	67.0	62.4	77.3
床	68.2	66.5	63.1	73.6
					瓶子	76.0	73.7	69.2	80.1

表1中的实验结果表明，本发明提供的家居图像多目标识别方法能够完成家居图像的多目标识别，并且本发明确定的MTR-CNN模型相比现有的多目标检测模型FCN-8s、FCN-16s和FCN-32s，分类性能要更好，正确率要高5％-15％。

综上，本发明实施例所述的家居图像多目标识别方法具有迁移学习省资源、省时间的优点，并对输入图像尺寸无要求，能够实现家居图像多目标识别且正确率较高。

实施例二

本发明还提供一种家居图像多目标识别装置的具体实施方式，由于本发明提供的家居图像多目标识别装置与前述家居图像多目标识别方法的具体实施方式相对应，该家居图像多目标识别装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述家居图像多目标识别方法具体实施方式中的解释说明，也适用于本发明提供的家居图像多目标识别装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图4所示，本发明实施例还提供一种家居图像多目标识别装置，包括：获取模块1和用于家居图像识别的多目标识别卷积神经网络模型2；所述多目标识别卷积神经网络模型2包括：特征迁移模块21、全卷积模块22、特征融合模块23、分类模块24；其中，

获取模块1，用于获取家居图像数据集作为训练集；

特征迁移模块21，用于将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；其中，所述第一特征图是由保留的预训练模型的最后一层卷积层输出，所述池化特征图是由保留的预训练模型的最后一层池化层输出；

全卷积模块22，用于对池化特征图进行三次卷积操作，得到第二特征图；

特征融合模块23，用于对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；

分类模块24，用于利用softmax分类器对融合后的特征图进行分类识别。

本发明实施例所述的家居图像多目标识别装置，获取家居图像数据集作为训练集；将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重，通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图；对池化特征图进行三次卷积操作，得到第二特征图；对第一特征图和第二特征图依次作全局均值池化、归一化、反池化、反卷积操作，将反卷积操作后的两组特征图进行融合；利用softmax分类器对融合后的特征图进行分类识别。这样，通过迁移学习的方法，将在目标领域图像数据集上学到的图像知识应用到家居图像分类问题上，完成目标领域数据集的特征迁移，能够为家居图像训练节省大量训练数据、计算资源和训练时间，且能够提高多目标识别的准确率。

本实施例中，所述特征迁移模块包括：

迁移单元，用于实现目标领域特征权重的迁移，具体的：将在目标领域图像数据集上训练好的卷积神经网络模型作为预训练模型，采用迁移学习的方法，保留预训练模型的卷积层和池化层，并将预训练模型中卷积层和池化层学习到的特征权重作为训练集训练的初始特征权重；

构建单元，用于实现第一特征图和池化特征图的构建，具体的：通过保留的卷积层和池化层提取训练集的图像特征，构建第一特征图和池化特征图。

在前述家居图像多目标识别装置的具体实施方式中，进一步地，所述全卷积模块包括：

在前述家居图像多目标识别装置的具体实施方式中，进一步地，全局均值池化操作是将第一特征图的所有像素值相加再除以第一特征图的大小，得到第一特征图的像素平均值；还用于将第二特征图的所有像素值相加再除以第二特征图的大小，得到第二特征图的像素平均值。

在前述家居图像多目标识别装置的具体实施方式中，进一步地，所述分类模块，用于使用softmax分类器对融合特征图的每一个像素点计算分类损失，将每个像素点在所有第二特征图中该像素位置的概率最高的类别作为该像素点的类别。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种家居图像多目标识别方法，其特征在于，包括：

获取家居图像数据集作为训练集；

对池化特征图进行三次卷积操作，得到第二特征图；

利用softmax分类器对融合后的特征图进行分类识别。

2.根据权利要求1所述的家居图像多目标识别方法，其特征在于，所述对池化特征图进行三次卷积操作，得到第二特征图包括：

将卷积神经网络模型的全连接层替换成三层全卷积层；

3.根据权利要求1所述的家居图像多目标识别方法，其特征在于，全局均值池化操作是将第一特征图的所有像素值相加再除以第一特征图的大小，得到第一特征图的像素平均值；还用于将第二特征图的所有像素值相加再除以第二特征图的大小，得到第二特征图的像素平均值。

4.根据权利要求1所述的家居图像多目标识别方法，其特征在于，所述将反卷积操作后的两组特征图进行融合包括：

将反卷积操作后的两组特征图按位相加进行融合。

5.根据权利要求1所述的家居图像多目标识别方法，其特征在于，所述利用softmax分类器对融合后的特征图进行分类识别包括：

6.一种家居图像多目标识别装置，其特征在于，包括：获取模块和用于家居图像识别的多目标识别卷积神经网络模型；所述多目标识别卷积神经网络模型包括：特征迁移模块、全卷积模块、特征融合模块、分类模块；其中，

获取模块，用于获取家居图像数据集作为训练集；

7.根据权利要求6所述的家居图像多目标识别装置，其特征在于，所述全卷积模块包括：

8.根据权利要求6所述的家居图像多目标识别装置，其特征在于，全局均值池化操作是将第一特征图的所有像素值相加再除以第一特征图的大小，得到第一特征图的像素平均值；还用于将第二特征图的所有像素值相加再除以第二特征图的大小，得到第二特征图的像素平均值。

9.根据权利要求6所述的家居图像多目标识别装置，其特征在于，所述分类模块，用于使用softmax分类器对融合特征图的每一个像素点计算分类损失，将每个像素点在所有第二特征图中该像素位置的概率最高的类别作为该像素点的类别。