CN114782797B

CN114782797B - 房屋场景分类方法、装置、设备及可读存储介质

Info

Publication number: CN114782797B
Application number: CN202210705344.7A
Authority: CN
Inventors: 周长源; 韦程琳; 袁戟
Original assignee: Shenzhen Wanwuyun Technology Co ltd
Current assignee: Shenzhen Wanwuyun Technology Co ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-20
Anticipated expiration: 2042-06-21
Also published as: CN114782797A

Abstract

本发明公开了房屋场景分类方法、装置、设备及可读存储介质。该方法包括利用SENet网络对分类图像进行特征提取，得到分类图像的全局特征；对分类图像进行目标检测，得到所有分类图像所出现物品的物品信息；根据物品信息统计各个物品类别的出现频率，并提取出现频率高的若干类物品，根据物品信息计算每个物品之间的共现相关性和空间相关性，得到分类图像中不同物品类别之间的相关性矩阵；将相关性矩阵输入GCN网络进行非线性变换，得到分类图像的局部特征；对全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。该方法提高房屋场景图像分类的精确性。

Description

房屋场景分类方法、装置、设备及可读存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种房屋场景分类方法、装置、设备及可读存储介质。

背景技术

互联网、大数据和多媒体技术的快速发展，使得物业领域对于海量房屋图片的识别分类、数据管理成为一个重要问题。图源的多样化、场景的复杂化以及拍摄角度、灯光等差异提高了房屋图片识别的难度。另外，存量图片数量巨大，如果采用人工标定的方式进行分类，将耗费大量时间。

将单一的深度学习模型应用于房屋图片类别的识别分类中，存在识别准确率不高、缺乏可解释性以及模型泛化能力弱的问题。

发明内容

本发明实施例提供了一种房屋场景分类方法、装置、设备及可读存储介质，旨在解决现有技术中通过神经网络进行房屋场景分类准确率较低的问题。

第一方面，本发明实施例提供了一种房屋场景分类方法，其包括：

获取分类图像和预训练的分类模型，所述分类模型包括SENet网络和GCN网络；

利用所述SENet网络对所述分类图像进行特征提取，得到所述分类图像的全局特征；

对所述分类图像进行目标检测，得到所有分类图像所出现物品的物品信息，所述物品信息包括物品类别、位置信息和类别置信度；

根据所述物品信息统计各个物品类别的出现频率，并提取出现频率高的若干类物品，根据所述物品信息计算每个物品之间的共现相关性和空间相关性，得到所述分类图像中不同物品类别之间的相关性矩阵；

将所述相关性矩阵输入所述GCN网络进行非线性变换，得到所述分类图像的局部特征；

对所述全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算所述融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。

第二方面，本发明实施例提供了一种房屋场景分类装置，包括客户端和服务端：

获取模块，用于获取分类图像和预训练的分类模型，所述分类模型包括SENet网络和GCN网络；

全局特征提取模块，用于利用所述SENet网络对所述分类图像进行特征提取，得到所述分类图像的全局特征；

目标检测模块，用于对所述分类图像进行目标检测，得到所有分类图像所出现物品的物品信息，所述物品信息包括物品类别、位置信息和类别置信度；

计算模块，用于根据所述物品信息统计各个物品类别的出现频率，并提取出现频率高的若干类物品，根据所述物品信息计算每个物品之间的共现相关性和空间相关性，得到所述分类图像中不同物品类别之间的相关性矩阵；

变换模块，用于将所述相关性矩阵输入所述GCN网络进行非线性变换，得到所述分类图像的局部特征；

分类模块，用于对所述全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算所述融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的房屋场景分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的房屋场景分类方法。

本发明实施例提供了房屋场景分类方法、装置、设备及可读存储介质。该方法包括获取分类图像和预训练的分类模型，分类模型包括SENet网络和GCN网络；利用SENet网络对分类图像进行特征提取，得到分类图像的全局特征；对分类图像进行目标检测，得到所有分类图像所出现物品的物品信息；根据物品信息统计各个物品类别的出现频率，并提取出现频率高的若干类物品，根据物品信息计算每个物品之间的共现相关性和空间相关性，得到分类图像中不同物品类别之间的相关性矩阵；将相关性矩阵输入GCN网络进行非线性变换，得到分类图像的局部特征；对全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。该方法以SENet网络提取分类图像的全局特征，接着通过构建分类图像中各类物品之间的相关性矩阵，再通过GCN网络对相关性矩阵进行非线性变换，得到分类图像各类物品的局部特征，然后将全局特征和局部特征融合得到融合特征，最后通过softmax函数计算融合特征的所属场景类型的概率，以确定分类图像的场景类型，本申请在全局特征的基础上融合图像中各类物品的细节特征，因此在房间场景较为相似的情况下，分类的精确性较高。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的房屋场景分类方法的流程示意图；

图2为图1中步骤S120的的子流程示意图；

图3为图1中步骤S160的的子流程示意图；

图4为本发明实施例提供的房屋场景分类装置的示意性框图；

图5为本发明实施例提供的房屋场景分类方法中分类模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1所示，图1为本发明实施例提供的房屋场景分类方法的流程示意图，该方法包括步骤S110~S160。

步骤S110、获取分类图像和预训练的分类模型，所述分类模型包括SENet网络和GCN网络；

本实施例中，获取需要进行房屋场景分类的分类图像，以及预训练的分类模型。其中，房屋的场景类别至少包括客厅、餐厅、阳台、厨房、卫生间、书房、外立面、卧室等8类。分类模型由SENet（卷积神经）网络和GCN（图卷积）网络组成。

步骤S120、利用所述SENet网络对所述分类图像进行特征提取，得到所述分类图像的全局特征；

本实施例中，利用SENet网络依次对分类图像进行挤压、激励和重标定，以得到分类图像内房屋场景的全局特征。SENet网络的核心思想是通过挤压操作，将分类图像的空间信息（通道）压缩为一个标量，算出不同通道的权值，然后与特征图逐通道相乘，得到全局特征。

如图2所示，在一实施例中，步骤S120包括：

步骤S210、按预设空间维度对所述分类图像进行特征压缩，得到压缩特征；

步骤S220、采用ReLU激活函数对所述压缩特征进行激活，得到激活特征；

步骤S230、对所述激活特征进行重标定，得到所述全局特征。

本实施例中，分类模型输入SENet网络进行特征提取，具体包括：按预设空间维度对分类图像进行特征压缩，得到压缩特征；采用ReLU激活函数对压缩特征进行激活，得到激活特征；对激活特征进行重标定，得到全局特征。具体的，按预设空间维度对分类图像进行特征压缩，将每个二维的特征通道变成一个实数，即标量

，例如z的第c个通道计算公式如下：

，

式中，

表示挤压操作,H表示特征图的高，W表示特征图的宽，

表示经过卷积处理的第c个通道的特征图，

表示特征图的第

行，

表示特征图的第

列。挤压操作将一个通道上整个空间特征编码为一个全局特征，表征的是在特征通道上响应的全局分布。激励操作，目的是为了充分捕获通道间的依赖关系。选择采用简单sigmoid激活函数的门机制，公式如下：

，

式中，

表示激励操作，

等同于

，

表示sigmoid激活函数，

表示ReLU激活函数，

，

，C表示通道数，

表示降维比例。激励操作基于特征通道间的相关性，每个特征通道生成一个权重，激励操作的输出权重可看做是每个特征通道的重要性。乘法逐通道加权至先前的特征，即在通道维度上完成对原始特征的重标定，其公式如下：

，

式中，

表示重标定操作，

表示激励操作后第c特征通道生成的权重，

表示第c通道的特征图。

进一步的，分类图像经由SENet网络输出的特征图能够学习到其对应场景类型的重要空间特征，进一步将其作为最大池化层的输入，最大池化层使得模型更关注是否存在某些特征而不是特征具体的位置，即具有特征不变性。池化操作具有降采样作用，相当于在空间范围内做了维度约减，从而使得模型可以抽取更广范围的特征同时减小下一层输入大小，进而减小模型计算量和模型参数个数。

步骤S130、对所述分类图像进行目标检测，得到所有分类图像所出现物品的物品信息，所述物品信息包括物品类别、位置信息和类别置信度；

步骤S140、根据所述物品信息统计各个物品类别的出现频率，并提取出现频率高的若干类物品，根据所述物品信息计算每个物品之间的共现相关性和空间相关性，得到所述分类图像中不同物品类别之间的相关性矩阵；

本实施例中，为了获取分类图像中出现物品的物品信息，对分类图像进行目标检测。获取预训练的Sparse R-CNN图像目标检测网络，对分类图像进行目标检测，得到分类图像中的生活常见物品的物品信息，常见物品包括桌子、沙发、床和水杯等。需要注意的是，为了排除冗余的类别标签对模型的影响，去除GCN（图卷积）网络输入数据噪声，通过计算物品类别的出现频率，根据物品类别的出现频率从中提取出现频率高的若干类物品，剔除频率低的剩下类别的物品信息。其中，物品信息包括物品的类别标签和对应类别的置信度。假设分类图中总共有N个目标物品，则有：

，

其中，

表示分类图片中第

个目标矩形框在图像中的中心点归一化后的坐标，

分别表示分类图片中第

个目标矩形框的宽度和高度，

表示第

个目标矩形框的最大概率类别，

表示第

个目标矩形框属于类别

的置信度。

进一步的，由于出现频率高的两个物品的相关性较高，位置越接近的两个物品相关性也越高，因此提取出现频率高的若干类物品，根据物品信息计算每个物品之间的共现相关性和空间相关性，得到分类图像中不同物品类别之间的相关性矩阵。其中，定义每个物品之间的共现相关性C和空间相关性S，可得相关性矩阵M：

，式中，

表示哈达玛积。

若用

表示第p类物品出现的情形下其他第1类至第k类物品出现的次数，则归一化后共现矩阵C可表示为：

，

接着，用空间相关性S表征不同类物品之间的距离，在图像上以像素的欧氏距离表征空间距离，则p类物品与q类物品的距离为：

，

分类图片中往往存在多类物品，设总计有k类物品，若用距离向量

表示第p类物品与第1类至第k类物品的像素距离；

表示第p类物品与第1类至第k类物品的最小像素距离，则归一化后的空间相关性S为：

，

其中，

表示第2类物品与第1类物品的像素距离，

表示第2类物品与第1类至第k类物品的最小像素距离，

表示第1类物品与第2类物品的像素距离，

表示第1类物品与第k类物品的像素距离，

表示第1类物品与其他他第2类至第k类物品的最小像素距离。

步骤S150、将所述相关性矩阵输入所述GCN网络进行非线性变换，得到所述分类图像的局部特征；

本实施例中，在得到相关性矩阵之后，将相关性矩阵输入GCN网络，相关性矩阵先经过三层非线性变换，最后经过全连接层输出，最终将相关性矩阵转换为场景类别对应的局部特征，GCN网络可表达为：

，

其中，

表示节点特征，

表示转移矩阵，

，

，

，

，其中

分别为特征长度1024、1024和512，

表示非线性变换。

进一步的，分类模型的模型损失包括交叉熵损失和跨模型一致性损失，分类模型的损失函数如下：

，

式中，

表示模型损失，

表示交叉熵损失，

表示跨模型一致性损失，

分别表示交叉熵损失和跨模型一致性损失的权重。

其中，交叉熵损失的函数如下：

，

式中，

表示第

个样本对应第k类场景类型的真实标签，

表示第

个样本对应第k类场景类型的预测概率，

表示样本数，

表示8钟场景类型；

跨模型一致性损失的函数如下：

，

式中，

表示SENet网络输出的全局特征，

表示GCN网络输出的局部特征，

表示向量的长度。

步骤S160、对所述全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算所述融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。

本实施例中，对全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。

如图3所示，在一实施例中，步骤S160包括：

步骤S310、通过最大池化处理对所述全局特征和局部特征进行特征融合得到所述融合特征，所述全局特征和局部特征分别从两个等长的全连接层输出；

步骤S320、将所述融合特征输入设有softmax函数的输出层进行场景类型的概率计算，得到所述融合特征所属场景类型的概率，以概率最高的场景类型作为所述分类结果。

本实施例中，采用最大池化处理的方式对全局特征和局部特征进行特征融合，通过最大池化处理保留全局特征的主要特征同时减少冗余信息，得到融合特征。其中，全局特征和局部特征分别从两个等长的全连接层输出。接着将融合特征输入设有softmax函数的输出层进行场景类型的概率计算，得到融合特征所属场景类型的概率，以概率最高的场景类型作为分类图像的所属场景类型。其中，分类模型的优化算法为梯度下降（SGD）优化器，初始学习率设置为0.05，使用指数衰减，即每50个epoch学习率衰减0.1倍，模型训练的epoch为150。一个epoch 表示：所有的数据送入网络中，完成了一次前向计算和反向传播的过程。

进一步的，将准确率和F1值作为衡量模型效果的评价指标，指标数值越大表示其模型效果越好。准确率是对于给定的测试数据集，分类模型正确分类的样本数与总样本数之比，公式如下所示：

,

式中，TP表真实样本，N表示样本总数。

此外，F1值是用来衡量分类模型精确度的指标之一，公式如下所示：

式中，precision表示准确率，recall表示召回率。

分类模型训练完成后，依据以上两个指标挑选出最优的模型权重文件。云端加载分类模型并载入权重后，将上传的分类图片输入模型，对分类图像进行与训练时相同的预处理，输出张量最大值的索引，即推理出分类图片所属房屋场景类型的结果，实现对房屋场景的分类。

如图5所示为本申请的分类网络结构示意图，该方法先将分类图像输入SENet网络进行特征图像的提取，接着特征图像经过最大池化处理得到全局特征；此外，对分类图像进行目标检测，以得到分类图像中的物品信息，根据物品信息构建分类图像各类物品的局部特征，然后将全局特征和局部特征融合得到融合特征，最后通过softmax函数计算融合特征的所属场景类型的概率，以确定分类图像的场景类型，本申请在全局特征的基础上融合图像中各类物品的细节特征，因此在房间场景较为相似的情况下，分类的精确性较高。

本发明实施例还提供一种房屋场景分类装置，该房屋场景分类装置用于执行前述房屋场景分类方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的房屋场景分类装置的示意性框图。该房屋场景分类装置100可以配置于服务端节点中。

如图4所示，房屋场景分类装置100包括获取模块110、全局特征提取模块120、目标检测模块130、计算模块140、变换模块150、分类模块160。

获取模块110，用于获取分类图像和预训练的分类模型，所述分类模型包括SENet网络和GCN网络；

全局特征提取模块120，用于利用所述SENet网络对所述分类图像进行特征提取，得到所述分类图像的全局特征；

目标检测模块130，用于对所述分类图像进行目标检测，得到所有分类图像所出现物品的物品信息，所述物品信息包括物品类别、位置信息和类别置信度；

计算模块140，用于根据所述物品信息统计各个物品类别的出现频率，并提取出现频率高的若干类物品，根据所述物品信息计算每个物品之间的共现相关性和空间相关性，得到所述分类图像中不同物品类别之间的相关性矩阵；

变换模块150，用于将所述相关性矩阵输入所述GCN网络进行非线性变换，得到所述分类图像的局部特征；

分类模块160，用于对所述全局特征和局部特征进行特征融合，得到融合特征，并通过softmax函数计算所述融合特征所属场景类型的概率，以概率最高的场景类型作为分类结果。

在一实施例中，所述全局特征提取模块120包括：

压缩单元，用于按预设空间维度对所述分类图像进行特征压缩，得到压缩特征；

激活单元，用于采用ReLU激活函数对所述压缩特征进行激活，得到激活特征；

重标定单元，用于对所述激活特征进行重标定，得到所述全局特征。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，服务端节点，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。