CN117636080B

CN117636080B - 一种场景分类方法、装置、计算机设备及可读存储介质

Info

Publication number: CN117636080B
Application number: CN202410109125.1A
Authority: CN
Inventors: 吕勤学
Original assignee: Shenzhen Wanwuyun Technology Co ltd
Current assignee: Shenzhen Wanwuyun Technology Co ltd
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-04-09
Anticipated expiration: 2044-01-26
Also published as: CN117636080A

Abstract

本发明公开了一种场景分类方法、装置、计算机设备及可读存储介质，方法包括：获取待分类图片和场景图片；将待分类图片输入至FCOS算法模型，得到待分类图片中目标物的类别和置信度信息；利用颜色提取方法得到待分类图片的颜色占比信息；将目标物的类别、置信度信息和颜色占比信息输入多层感知机模型进行场景分类，得到每个场景的概率值；利用Swin‑Transformer网络模型分别对场景图片和待分类图片进行特征提取，得到场景图片向量和待分类图片向量；利用余弦相似度函数对待分类图片向量与场景图片向量进行计算，得到相似度；将每个场景的概率值和相似度输入至D‑S证据融合模型进行融合，得到待分类图片的场景类别。本发明通过该方法提升了图片场景分类的效率和精度。

Description

一种场景分类方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种场景分类方法、装置、计算机设备及可读存储介质。

背景技术

现有技术中，收集到的图片数据需要进行分类处理，以便更好地理解和分析图片所处的各种场景。传统的分类方法主要包括人工区分法和规则匹配法。

人工区分法是依靠人力对图片进行分类，这种方法虽然简单直接，但效率低下，无法处理大规模的数据集。特别是在需要快速响应的场景中，人工区分法就显得力不从心。

规则匹配法是一种基于规则的分类方法，通过预设的规则对图片进行逐级匹配，将图片分为多级类别。虽然这种方法在一定程度上提高了分类的精度，但由于规则的设定需要耗费大量时间和精力，且对于复杂多变的场景适应性较差，因此其工作效率和精度仍不能满足大规模数据分类的需求。

发明内容

本发明的目的是提供一种场景分类方法、装置、计算机设备及可读存储介质，旨在解决现有图片分类方法的分类效率低等问题。

第一方面，本发明实施例提供一种场景分类方法，包括：

获取待分类图片和场景图片；

将所述待分类图片输入至FCOS算法模型，得到所述待分类图片中目标物的类别和置信度信息；

利用颜色提取方法得到所述待分类图片的颜色占比信息；

将所述目标物的类别、置信度信息和所述颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值；

利用Swin-Transformer网络模型分别对所述场景图片和所述待分类图片进行特征提取，得到场景图片向量和待分类图片向量；

利用余弦相似度函数对所述待分类图片向量与所述场景图片向量进行计算，得到所述场景图片和所述待分类图片之间的相似度；

将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别。

第二方面，本发明实施例提供一种场景分类装置，包括：

图片获取单元，用于获取待分类图片和场景图片；

类别获取单元，用于将所述待分类图片输入至FCOS算法模型，得到所述待分类图片中目标物的类别和置信度信息；

提取单元，用于利用颜色提取方法得到所述待分类图片的颜色占比信息；

分类单元，用于将所述目标物的类别、置信度信息和所述颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值；

特征提取单元，用于利用Swin-Transformer网络模型分别对所述场景图片和所述待分类图片进行特征提取，得到场景图片向量和待分类图片向量；

计算单元，用于利用余弦相似度函数对所述待分类图片向量与所述场景图片向量进行计算，得到所述场景图片和所述待分类图片之间的相似度；

融合单元，用于将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的场景分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时实现上述第一方面所述的场景分类方法。

本发明公开了一种场景分类方法、装置、计算机设备及可读存储介质，方法包括：获取待分类图片和场景图片；将所述待分类图片输入至FCOS算法模型，得到所述待分类图片中目标物的类别和置信度信息；利用颜色提取方法得到所述待分类图片的颜色占比信息；将所述目标物的类别、置信度信息和所述颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值；利用Swin-Transformer网络模型分别对所述场景图片和所述待分类图片进行特征提取，得到场景图片向量和待分类图片向量；利用余弦相似度函数对所述待分类图片向量与所述场景图片向量进行计算，得到所述场景图片和所述待分类图片之间的相似度；将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别。本发明通过将目标物的类别、置信度信息和颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值（即基于特征信息得到每个场景的概率值），同时利用余弦相似度函数对待分类图片向量与场景图片向量进行计算，得到场景图片和待分类图片之间的相似度（即基于全局信息得到场景图片和待分类图片之间的相似度），接着通过将每个场景的概率值和场景图片和待分类图片之间的相似度融合，从特征信息（也可以说为局部信息）和全局信息两个维度上对待分类图片进行场景分类，实现了对图片的自动分类，提升能够适应复杂多变的场景，极大提升了产品的适应范围，进而提升了分类的效率和准确性。本发明实施例同时还提供了一种场景分类装置、一种计算机可读存储介质和一种计算机设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例的场景分类方法的流程图；

图2为本实施例的场景分类方法的第一子流程图；

图3为本实施例的场景分类方法的第二子流程图；

图4为本实施例的场景分类方法的第三子流程图；

图5为本实施例的场景分类装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明提供了一种场景分类方法，包括：

S101：获取待分类图片和场景图片；

具体的，对已接入摄像头的视频流数据进行视频抽帧操作，获取所有的待分类图片，然后，在待分类图片中选取具有典型场景的图片，并将该具有典型场景的图片作为场景图片。

S102：将所述待分类图片输入至FCOS算法模型，得到所述待分类图片中目标物的类别和置信度信息；

请参阅图2，FCOS算法模型的训练过程包括：

S201：获取样本图片，并根据目标物标注规则对所述样本图片进行标注，得到所述样本图片对应的场景标签；

其中，根据目标物标注规则对样本图片进行标注包括：标注出图片中的目标物；对于每个目标物，需要标注出其位置、大小和旋转角度；然后使用矩形框标注目标物的位置，使用数字表示目标物的大小，使用角度表示目标物的旋转角度。

本实施例通过标注出图片中的所有目标物，可以全面了解图片中的内容，为后续的任务提供完整的数据基础；通过使用矩形框标注目标物的位置，可以清晰地界定每个目标物的边界，确保标注的准确性；通过使用数字表示目标物的大小，使得大小信息更加直观和具体，方便后续的数据处理和分析；通过使用角度表示目标物的旋转角度，可以获取到目标物的动态信息，对于某些任务（如姿态估计）具有极大帮助。

在一个具体应用场景中，将目标物设置为交通工具，包括汽车、摩托车、自行车和行人，根据上述规则可采用表1的方式表示出图片的标注信息；

表1

表1展示的图片的标注信息中表示了图片中有汽车、摩托车和自行车，没有行人，且表示出汽车、摩托车和自行车的位置、大小和旋转角度。

本实施例中，当样本图片中出现清晰的目标物时，便对样本图片进行标注，主要记录样本图片中目标物的类别信息和位置信息，并将标注信息保存至txt文件中。

当获取到目标物的类别信息和位置信息之后，需执行步骤S202，生成用于模型训练的数据集。

S202：将所述样本图片与所述对应的场景标签组合成数据集；

具体的，将样本图片与对应的场景标签组合成数据集，接着按70%、20%和10%的比例将数据集划分为训练集、验证集和测试集，构建出训练集、验证集和测试集后，再将训练集、验证集和测试集输入至FCOS算法模型的目标检测算法进行训练、验证和测试。

S203：根据所述FCOS算法模型的三个分支头获取对应的分类损失、定位损失和Center-ness损失；

FCOS算法模型由一个特征提取模块和三个分支头构成：

第一部分为特征提取模块：特征提取模块由特征提取网络（Backbone）和特征金字塔（FPN）构成，本实施例的Backbone以ResNet50为例，FPN是在Backbone输出的C3、C4和C5特征图上生成P3、P4和P5特征图，然后在P5特征图基础上，经过一个卷积核大小为3×3、步长为2的卷积操作得到P6，最后，对P6特征图进行卷积核大小为3×3、步长为2的卷积操作，得到P7特征图。

第二部分为三个分支头：此三个分支头都使用来自FPN输出的P3～P7特征图。此三个分支头分别为Classification、Regression和Center-ness。

Classification分支头是在特征图的每个位置预测出（例如汽车、自行车、水池、沙发等）目标物的得分（score）参数。

Regression分支头是在特征图上预测每个位置的距离参数共4个，分别为l、t、r、b，l、t、r、b分别表示为与目标左侧距离、与目标上侧距离、与目标右侧距离和与目标下侧距离。此距离是特征图上的距离，将特征图的距离映射至原图，对应的矩形框可按照如下公式进行转换。

公式中，c_x、c_y分别表示原图的横纵坐标，s表示特征图相较于原图的尺度。和表示矩形框左上角点的横纵坐标，/>和/>表示矩形框右下角点的横纵坐标。

Center-ness分支头用于度量特征图上预测每个位置中心点（即预测点）距离目标中心点（即真实矩形框的中心点）的远近程度，它的值域在0～1之间，越接近1表示越接近目标。

本实施例的损失函数主要由三个输出分支头的损失构成，Classification、Regression和Center-ness分别对应分类损失、定位损失和Center-ness损失。

因此在训练之前需根据FCOS算法模型的三个分支头获取对应的分类损失、定位损失和Center-ness损失，接着构建第一损失函数，即执行步骤S204。

S204：根据所述分类损失、定位损失和Center-ness损失构建第一损失函数；

本实施例的第一损失函数为：

其中，表示在特征图（x，y）点处预测的每个类别得分；/>表示在特征图（x，y）点对应的真实类别标签；/>在特征图（x，y）点被匹配为正样本时为1，否则为0；/>表示在特征图（x，y）点处预测的目标边界框信息；/>表示在特征图（x，y）点对应真实的目标边界框信息；/>表示特征图（x，y）点处预测的Center-ness；/>表示在特征图（x，y）点对应的真实Center-ness；/>表示特征图上所有点的总和；/>表示第一损失函数；表示分类损失；/>表示定位损失；/>表示Center-ness损失。

进一步的，分类损失选用二值交叉熵损失函数，公式如下：

其中，Loss表示分类损失；N表示需要预测标签类别；是二元标签，等于0或者1，当预测的点在真实框内，则为1，不在真实框内为0；/>表示在特征图（x，y）点处预测的每个类别得分。

定位损失选用GIOUloss损失函数，公式如下：

其中，IOU表示预测框与真实框的交并比；表示真实框与预测框的最小外接矩形面积，U表示真实框与预测框之和减去两个框相交的面积。

Center-ness损失选用的也是二值交叉熵函数，公式如下：

其中，N表示特征图中需要预测点的总和；为二元标签，等于0或者1，当预测的点在真实框内，则为1，不在真实框内为0；/>的值基于如下公式得出。

其中，、/>、/>、/>分别表示为与目标框左侧距离、与目标框上侧距离、与目标框右侧距离和与目标框下侧距离；/>表示/>的值。

S205：将所述数据集输入至所述FCOS算法模型进行训练并计算相应的第一损失函数；

在构建完第一损失函数之后，接着需将数据集输入至FCOS算法模型进行训练并计算相应的第一损失函数，以便对FCOS算法模型不断调整优化。

S206：当所述FCOS算法模型的训练次数达到预定训练次数时，获取所述第一损失函数为最小值时对应的FCOS算法模型，并将第一损失函数为最小值时对应的FCOS算法模型作为最终的FCOS算法模型。

本实施例通过S201-S206的步骤生成用于对待分类图片进行分类的FCOS算法模型之后，接着将待分类图片输入至FCOS算法模型内并利用FCOS算法模型检测待分类图片的目标物，通过Classification分支头和Regression分支头得到待分类图片中目标物的类别和置信度信息，同时保留检测框的标签类别和置信度信息。

S103：利用颜色提取方法得到所述待分类图片的颜色占比信息；

具体的，请参阅图3，利用颜色提取方法得到待分类图片的颜色占比信息包括：

S301：将所述待分类图片中每个像素点的R、G、B进行归一化处理，得到R’、G’、B’；

例如，可将待分类图片中每个像素点的R、G、B三个通道的数值分别除以255，得到R’、G’、B’；

S302：查找出所述待分类图片中每个像素点的R’、G’、B’中的最大值和最小值；

S303：根据所述最大值和最小值计算得到每个像素点的亮度、饱和度和色相；

具体的，亮度（V）表示颜色的明暗程度，因此最大值为亮度值。

饱和度（S）的计算过程为：当最大值不为0，则饱和度（S）的值为（CMax-CMin）/CMax，若最大值为0，则饱和度为0，其中，CMax表示最大值；CMin表示最小值。

色相（H）的计算过程为：判断饱和度是否为0，若为0则色相为无，如果R，G，B的三个数值相等，则色相为0，当色相（H）不满足以上两个条件，也就是饱和度不为0且R，G，B的三个数值不相等时，则可采用如下计算规则计算色相：

当得到每个像素点亮度（V）、饱和度（S）和色相（H）后，接着执行步骤S304。

S304：将每个像素点的亮度、饱和度和色相与HSV颜色划分表进行比对；

其中，HSV颜色划分表共具有10个颜色区间，例如黑色区间为H（0，180），S（0，255），V（0，46）；灰色区间为H（0，180），S（0，43），V（46，220）；黄色区间为H（26，34），S（43，255），V（46，255）等。

S305：利用像素点统计公式对比对后的像素点进行统计，得到所述待分类图片的颜色占比信息。

其中，像素点统计公式为：

公式中的q表示被划分到单色区间像素点的个数；Q表示全图像素点的个数；K表示对应单色占全图像素点的比重。

S104：将所述目标物的类别、置信度信息和所述颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值；

请参阅图4，多层感知机模型（MLP）的训练过程包括：

S401：将样本图片对应的目标物的类别、置信度信息和颜色占比信息进行拼接，并与所述样本图片的场景标签进行对应，得到输入矩阵；

具体的，将样本图片对应的目标物的类别、置信度信息和颜色占比信息进行拼接，并与样本图片的场景标签进行对应，得到输入矩阵X，其表达式如下：

其中，Sofa、Car、Bike分别表示图片中检测出沙发、汽车和自行车的置信度；Red、Blue和Green分别表示图片中红色、蓝色和绿色颜色占比；H表示场景标签。

需要说明的是，Sofa、Car、Bike仅为举例，在具体实施时，可以根据需要对上述输入矩阵中的元素进行修改、替换或增减；同理，Red、Blue和Green也可以根据需要对上述输入矩阵中的元素进行修改、替换或增减。

当得到输入矩阵X后，接着将输入矩阵X按照70%、20%、10%的比例划分为训练集、验证集和测试集，然后将训练集输入至多层感知机模型进行训练。

S402：将所述输入矩阵输入至所述多层感知机模型进行训练并计算相应的第二损失函数；

其中，多层感知机模型原理如下：

MLP是由输入层、隐藏层和输出层构建而成的，每层之间是全连接，即上一层的任何一个神经元与下一层的所有神经元都是连接的。

输入层用于接收输入矩阵X，根据X维度生成对应的神经元。

隐藏层与输入层连接，输入的向量用X表示，则隐藏层的输出可表示为：

其中，表示权重；x表示输入层的输入的向量；b表示偏置；函数f为sigmoid函数；其函数表达式为：

输出层与隐藏层的计算方法一样，与隐藏层的每个神经元相连，其输出表达时也是，同样经过sigmoid激活函数。

训练过程采用的第二损失函数如下：

其中，n表示待分类图片的个数；M表示类别的数量；为0或1，如果待分类图片i的真实类别等于c取1，否则取0；/>表示待分类图片i属于场景标签c的预测概率。

在将输入矩阵输入至多层感知机模型进行训练并计算相应的第二损失函数，可得到第二损失函数的数值和对应的MLP模型参数，接着根据第二损失函数的数值不断对MLP模型进行优化即可，即执行步骤S403。

S403：当所述多层感知机模型的训练次数达到预定训练次数时，获取所述第二损失函数为最小值时对应的多层感知机模型，并将第二损失函数为最小值时对应的多层感知机模型作为最终的多层感知机模型。

本实施例运用FCOS算法模型和颜色提取方法是为提取图片的有用信息，接着通过多层感知机模型根据图片的有用信息可得到相应的场景。例如，若检测出图片有游泳圈，躺椅等目标物，图片的颜色占比中蓝色占有较大等信息，可帮助多层感知机算法模型判断输入图片为泳池场景。

S105：利用Swin-Transformer网络模型分别对所述场景图片和所述待分类图片进行特征提取，得到场景图片向量和待分类图片向量；

为提升场景分类的精度，本实施例将增加图片全局特征，从另一个维度对图片场景进行分类，故本实施例还采用Swin-Transformer作为特征提取网络，分别对场景图片和待分类图片做图片特征提取，然后，利用余弦相似度函数计算待分类图片向量与场景图片向量相似度。

其中，Swin-Transformer网络模型进行特征提取的过程包括：将输入的图片分割成多个不重叠的小块图片，并在通道维度上进行拼接，最后将拼接后的小块图片展平为序列，得到序列特征；在通道维度上对序列特征进行线性映射，生成高维度特征；对高维度特征分别进行4倍、8倍、16倍以及32倍的下采样，得到相应的特征图；对特征图进行展平处理，作为相应的特征向量。

具体的，Swin-Transformer网络模型由1个预处理阶段和4个处理阶段构成。

预处理阶段：将输入的图片分割成多个不重叠的小块图片（patch），每个小块图片被当作一个向量进行处理，如图片被分割成多个4×4大小的小块图片，每个小块图片的特征维度为4×4×3，在此原始特征上应用一个线性嵌入层，将3维映射成C维度，得到高维度特征。

第1处理阶段，将预处理阶段得到的小块图片应用至Swin-Transformerblocks的核心组成块（即Transformer块），核心组成块保持小块图片的大小为，与线性嵌入构成第1处理阶段（即4倍下采样）。

为了产生层次化的表示，随着网络的深入，通过小块图片合并层来减少向量的数量。第一个合并层将每组2×2相邻小块图片的特征进行拼接，并在4C维度的拼接特征上添加一个线性层，这将向量的数量减少2×2=4的倍数，并且输出维度设置为2C。之后应用核心组成块进行特征转换，分辨率保持在，第一个块的块合并和特征变换被记为第2处理阶段（即8倍下采样）。该过程重复两次，作为第3处理阶段（即16倍下采样）和第4处理阶段（即32倍下采样），输出分辨率分别为/>和/>。然后，将第4处理阶段的特征图进行展平处理，得到相应的特征向量。

S106：利用余弦相似度函数对所述待分类图片向量与所述场景图片向量进行计算，得到所述场景图片和所述待分类图片之间的相似度；

本实施例通过利用Swin-Transformer网络模型分别对场景图片和待分类图片进行特征提取，得到场景图片向量和待分类图片向量之后，需要利用余弦相似度计算公式，计算场景图片向量A与待分类图片向量B之间的相似性，当场景图片向量A与待分类图片向量B的相似度达到预定范围内时，此时表明待分类图片与该场景图片相似度很高，因此待分类图片的场景与场景图片的场景相似或相同。

而本实施例的余弦相似度函数为：

其中，n表示场景图片向量A的个数；m表示待分类图片向量B的个数；表示第i个场景图片向量A；/>表示第j个待分类图片向量。

S107：将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别。

本实施例中，将每个场景的概率值和相似度输入至D-S证据融合模型进行融合，得到待分类图片的场景类别包括：将每个场景的概率值和相似度输入至D-S证据融合模型进行正交，得到正交和；选择正交和最大时对应的场景标签作为待分类图片的场景类别。

具体包括：

1、定义样本空间和命题。设D是所有场景标签x的集合，且D中的每个场景标签x都是互斥的，则D便是场景标签x的样本空间。D的任何一个子集A都对应于一个关于场景标签x的命题。例如场景标签x为所有场景，D={车库出入口场景，安全岗亭场景，…，社区垃圾桶场景}，则A={车库出入口场景}表示场景为“车库出入口场景”，A={车库出入口场景，安全岗亭场景}表示场景为“车库出入口场景，或者安全岗亭场景”，从此可知A是D的子集。

2、由以上可知基于D的子集A共有，定义函数M：/>是基本概率分配函数的映射，需要满足两个约束：

其中，表示空集合/>对应的概率为0；/>表示所有在样本空间内的命题概率值相加要等于1。

为了满足约束中所有概率值相加等1的条件，分别对图片特征分析模块的结果和相似度分析模块的结果进行归一化处理，归一化后的数值为基本概率值。

3、在中，信任函数和似然函数的表达式如下：

其中，命题B为命题A的所有子集；是命题A为真的总信任程度，即命题A所有子集全为真的概率值之和；/>表示命题A为非假的信任程度；/>表示对命题B的基本概率分配（BPA）；/>表示命题A为假的总信任程度。

4、将每个场景的概率值和相似度/>输入至D-S证据融合模型进行正交，得到正交和，其正交和为/>，其中

其中，表示每个场景的概率值，/>表示相似度，/>表示为空；K是一个归一化常数，也就是将所有同一场景下的两个模块得到的结果值进行相加，例如+/>+…+；/>表示对命题A的基本概率分配；x和y表示相应的场景。

当将每个场景的概率值和所述相似度输入至D-S证据融合模型进行正交，得到正交和之后，选择正交和最大时对应的场景标签作为待分类图片的场景类别，同时将该图片放置在对应场景数据集中，从而完成图片场景分类任务。

本实施例通过将目标物的类别、置信度信息和颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值（即基于特征信息得到每个场景的概率值），同时利用余弦相似度函数对待分类图片向量与场景图片向量进行计算，得到场景图片和待分类图片之间的相似度（即基于全局信息得到场景图片和待分类图片之间的相似度），接着通过将每个场景的概率值和场景图片和待分类图片之间的相似度融合，从特征信息和全局信息两个维度上对待分类图片进行场景分类，实现了对图片的自动分类，提升能够适应复杂多变的场景，极大提升了产品的适应范围，进而提升了分类的效率和准确性。

请参阅图5，本实施例提供了一种场景分类装置500，包括：

图片获取单元501，用于获取待分类图片和场景图片；

类别获取单元502，用于将所述待分类图片输入至FCOS算法模型，得到所述待分类图片中目标物的类别和置信度信息；

提取单元503，用于利用颜色提取方法得到所述待分类图片的颜色占比信息；

分类单元504，用于将所述目标物的类别、置信度信息和所述颜色占比信息输入多层感知机模型中进行场景分类，得到每个场景的概率值；

特征提取单元505，用于利用Swin-Transformer网络模型分别对所述场景图片和所述待分类图片进行特征提取，得到场景图片向量和待分类图片向量；

计算单元506，用于利用余弦相似度函数对所述待分类图片向量与所述场景图片向量进行计算，得到所述场景图片和所述待分类图片之间的相似度；

融合单元507，用于将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别。

进一步的，所述类别获取单元502包括：

标注子单元，用于获取样本图片，并根据目标物标注规则对所述样本图片进行标注，得到所述样本图片对应的场景标签；

组合子单元，用于将所述样本图片与所述对应的场景标签组合成数据集；

损失获取子单元，用于根据所述FCOS算法模型的三个分支头获取对应的分类损失、定位损失和Center-ness损失；

构建子单元，用于根据所述分类损失、定位损失和Center-ness损失构建第一损失函数；

第一训练子单元，用于将所述数据集输入至所述FCOS算法模型进行训练并计算相应的第一损失函数；

第一模型获取子单元，用于当所述FCOS算法模型的训练次数达到预定训练次数时，获取所述第一损失函数为最小值时对应的FCOS算法模型，并将第一损失函数为最小值时对应的FCOS算法模型作为最终的FCOS算法模型。

其中，所述第一损失函数为：

；

进一步的，所述提取单元503包括：

归一化处理子单元，用于将所述待分类图片中每个像素点的R、G、B进行归一化处理，得到R’、G’、B’；

查找子单元，用于查找出所述待分类图片中每个像素点的R’、G’、B’中的最大值和最小值；

像素值计算子单元，用于根据所述最大值和最小值计算得到每个像素点的亮度、饱和度和色相；

比对子单元，用于将每个像素点的亮度、饱和度和色相与HSV颜色划分表进行比对；

统计子单元，用于利用像素点统计公式对比对后的像素点进行统计，得到所述待分类图片的颜色占比信息。

进一步的，所述分类单元504包括：

拼接子单元，用于将样本图片对应的目标物的类别、置信度信息和颜色占比信息进行拼接，并与所述样本图片的场景标签进行对应，得到输入矩阵；

第二训练子单元，用于将所述输入矩阵输入至所述多层感知机模型进行训练并计算相应的第二损失函数；

第二模型获取子单元，用于当所述多层感知机模型的训练次数达到预定训练次数时，获取所述第二损失函数为最小值时对应的多层感知机模型，并将第二损失函数为最小值时对应的多层感知机模型作为最终的多层感知机模型。

进一步的，所述特征提取单元505包括：

序列特征获取子单元，用于将输入的图片分割成多个不重叠的小块图片，并在通道维度上进行拼接，最后将拼接后的小块图片展平为序列，得到序列特征；

映射子单元，用于在通道维度上对所述序列特征进行线性映射，生成高维度特征；

特征图获取子单元，用于对所述高维度特征分别进行4倍、8倍、16倍以及32倍的下采样，得到相应的特征图；

展平子单元，用于对所述特征图进行展平处理，作为相应的特征向量。

进一步的，所述融合单元507包括：

正交子单元，用于将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行正交，得到正交和；

场景类别获取子单元，用于选择正交和最大时对应的场景标签作为所述待分类图片的场景类别。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的方法。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供了一种计算机设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的方法。当然所述计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的。

包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种场景分类方法，其特征在于，包括：

获取待分类图片和场景图片；

利用颜色提取方法得到所述待分类图片的颜色占比信息；

将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别；

所述FCOS算法模型的训练过程包括：

获取样本图片，并根据目标物标注规则对所述样本图片进行标注，得到所述样本图片对应的场景标签；

将所述样本图片与所述对应的场景标签组合成数据集；

根据所述FCOS算法模型的三个分支头获取对应的分类损失、定位损失和Center-ness损失；

根据所述分类损失、定位损失和Center-ness损失构建第一损失函数；

将所述数据集输入至所述FCOS算法模型进行训练并计算相应的第一损失函数；

当所述FCOS算法模型的训练次数达到预定训练次数时，获取所述第一损失函数为最小值时对应的FCOS算法模型，并将第一损失函数为最小值时对应的FCOS算法模型作为最终的FCOS算法模型；

所述利用颜色提取方法得到所述待分类图片的颜色占比信息包括：

将所述待分类图片中每个像素点的R、G、B进行归一化处理，得到R’、G’、B’；

查找出所述待分类图片中每个像素点的R’、G’、B’中的最大值和最小值；

根据所述最大值和最小值计算得到每个像素点的亮度、饱和度和色相；

将每个像素点的亮度、饱和度和色相与HSV颜色划分表进行比对；

利用像素点统计公式对比对后的像素点进行统计，得到所述待分类图片的颜色占比信息；

所述多层感知机模型的训练过程包括：

将样本图片对应的目标物的类别、置信度信息和颜色占比信息进行拼接，并与所述样本图片的场景标签进行对应，得到输入矩阵；

将所述输入矩阵输入至所述多层感知机模型进行训练并计算相应的第二损失函数；

当所述多层感知机模型的训练次数达到预定训练次数时，获取所述第二损失函数为最小值时对应的多层感知机模型，并将第二损失函数为最小值时对应的多层感知机模型作为最终的多层感知机模型。

2.根据权利要求1所述的场景分类方法，其特征在于，所述第一损失函数为：

其中，p_x,y表示在特征图(x，y)点处预测的每个类别得分；表示在特征图(x，y)点对应的真实类别标签；/>在特征图(x，y)点被匹配为正样本时为1，否则为0；t_x,y表示在特征图(x，y)点处预测的目标边界框信息；/>表示在特征图(x，y)点对应真实的目标边界框信息；s_x,y表示特征图(x，y)点处预测的Center-ness；/>在特征图(x，y)点对应的真实Center-ness；N_pos表示特征图上所有点的总和；L表示第一损失函数；L_cls表示分类损失；L_reg表示定位损失；L_ctrness表示Center-ness损失。

3.根据权利要求1所述的场景分类方法，其特征在于，所述Swin-Transformer网络模型进行特征提取的过程包括：

将输入的图片分割成多个不重叠的小块图片，并在通道维度上进行拼接，最后将拼接后的小块图片展平为序列，得到序列特征；

在通道维度上对所述序列特征进行线性映射，生成高维度特征；

对所述高维度特征分别进行4倍、8倍、16倍以及32倍的下采样，得到相应的特征图；

对所述特征图进行展平处理，作为相应的特征向量。

4.根据权利要求1所述的场景分类方法，其特征在于，所述将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别包括：

将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行正交，得到正交和；

选择正交和最大时对应的场景标签作为所述待分类图片的场景类别。

5.一种场景分类装置，其特征在于，包括：

图片获取单元，用于获取待分类图片和场景图片；

融合单元，用于将所述每个场景的概率值和所述相似度输入至D-S证据融合模型进行融合，得到所述待分类图片的场景类别；

所述类别获取单元包括：

第一模型获取子单元，用于当所述FCOS算法模型的训练次数达到预定训练次数时，获取所述第一损失函数为最小值时对应的FCOS算法模型，并将第一损失函数为最小值时对应的FCOS算法模型作为最终的FCOS算法模型；

所述提取单元包括：

统计子单元，用于利用像素点统计公式对比对后的像素点进行统计，得到所述待分类图片的颜色占比信息；

所述分类单元包括：

6.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的场景分类方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的场景分类方法。