CN112508062A

CN112508062A - 一种开集数据的分类方法、装置、设备及存储介质

Info

Publication number: CN112508062A
Application number: CN202011309924.1A
Authority: CN
Inventors: 张文俊
Original assignee: Pulian International Co ltd
Current assignee: Pulian International Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-16
Anticipated expiration: 2040-11-20
Also published as: CN112508062B

Abstract

本发明公开了一种开集数据的分类方法，包括：获取待训练数据；将所述待训练数据分为开集训练数据以及闭集训练数据，所述闭集训练数据包括已知类别闭集数据，所述开集训练数据包括已知类别开集数据和额外类别开集数据；根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型；获取待分类数据；根据预设的开集数据分类模型对所述待分类数据进行分类，得到开集数据的分类结果。本发明实施例还提供一种开集数据的分类装置、设备及存储介质，能有效解决现有技术中图像数据分类不准确的问题。

Description

一种开集数据的分类方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种开集数据的分类方法、装置、设备及存储介质。

背景技术

目前，基于机器学习的认知系统在分类任务方面的能力在逐步赶超人类。然而，这种机器学习的分类能力往往建立在闭集的情况下，即分类的输入都是已认知的类别的情况下。但是，在实际环境中存在很多不确定性，例如，对于一个训练数据为人，宠物，车辆的图像分类器，输入一栋建筑的图像，往往不能得到正确的分类结果。

发明内容

本发明实施例提供一种开集数据的分类方法、装置、设备及存储介质，能有效解决现有技术中图像数据分类不准确的问题。

本发明一实施例提供一种开集数据的分类方法，包括：

获取待训练数据；

将所述待训练数据分为开集训练数据以及闭集训练数据，所述闭集训练数据包括已知类别闭集数据，所述开集训练数据包括已知类别开集数据和额外类别开集数据；

根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型；

获取待分类数据；

根据所述开集数据分类模型对所述待分类数据进行分类，得到开集数据的分类结果。

作为上述方案的改进，所述根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型，具体包括：

根据公式L＝L_OS+λ*L_CS计算所述分类器的损失函数，其中，λ为常数，L_OS表示开集线路的损失函数，

L_CS表示闭集线路的损失函数，

表示分类正确时取1，否则为0，

表示待训练数据为某一类别的概率。

作为上述方案的改进，所述将所述待训练数据分为开集训练数据以及闭集训练数据，具体包括：

对待训练数据进行类别标注；

提取所述待训练数据的特征；

将同一类别的待训练数据的特征进行聚类，得到聚类结果；

根据所述聚类结果选择数据量最多的簇心作为特征簇心；

根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据。

作为上述方案的改进，所述根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据，具体包括：

判断每一类别的待训练数据的特征到对应的特征簇心的距离是否大于预设的第一阈值；

若是，则将对应的待训练数据的特征作为闭集训练数据；

若否，则将对应的待训练数据的特征作为开集训练数据。

本发明另一实施例对应提供了一种开集数据的分类装置，包括：

第一获取模块，用于获取待训练数据；

处理模块，用于将所述待训练数据分为开集训练数据以及闭集训练数据，所述闭集训练数据包括已知类别闭集数据，所述开集训练数据包括已知类别开集数据和额外类别开集数据；

训练模块，用于根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型；

第二获取模块，用于获取待分类数据；

分类模块，用于根据所述开集数据分类模型对所述待分类数据进行分类，得到开集数据的分类结果。

作为上述方案的改进，所述处理模块，包括：

标注模块，用于对待训练数据进行类别标注；

特征提取模块，用于提取所述待训练数据的特征；

聚类模块，用于将同一类别的待训练数据的特征进行聚类，得到聚类结果；

选择模块，用于根据所述聚类结果选择数据量最多的簇心作为特征簇心；

分组模块，用于根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据。

本发明另一实施例提供了一种开集数据的分类设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述发明实施例所述的开集数据的分类方法。

本发明另一实施例提供了一种存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的开集数据的分类方法。

与现有技术相比，本发明实施例公开的开集数据的分类方法、装置、设备及存储介质，根据预设的分类器对已知类别闭集数据、已知类别开集数据和额外类别开集数据进行训练，得到开集数据分类模型。获取待分类数据，将待分类数据输入至开集数据分类模型中，从而得到待分类数据的分类结果。可见，本发明实施例提出的开集数据的分类方法不仅能识别已知类别的数据，也能够对额外类别的数据进行正确分类，即筛选出难分类的样本。同时由于能够识别额外类别的数据，避免了额外类别数据对闭集数据分类的干扰，从而可以提高闭集数据分类的准确率，避免误分。

附图说明

图1是本发明一实施例提供的一种开集数据的分类方法的流程示意图；

图2是本发明一实施例提供的一种开集数据的分类方法的开集数据分类模型的示意图；

图3是本发明一实施例提供的一种开集数据的分类装置的结构示意图；

图4是本发明一实施例提供的一种开集数据的分类设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种开集数据的分类方法的流程示意图。

本发明一实施例提供一种开集数据的分类方法，包括：

S10，获取待训练数据。

具体地，待训练数据可以是图像数据，也可以是其他数据。

S20，将所述待训练数据分为开集训练数据以及闭集训练数据，所述闭集训练数据包括已知类别闭集数据，所述开集训练数据包括已知类别开集数据和额外类别开集数据。

具体地，由于需要对图像中的物体进行更好的分类，因此开集训练数据包括已知类别开集数据和额外类别开集数据，那么在分类的过程中就可以将难以区分的图像(即额外类别开集数据)筛选掉，从而提高闭集数据分类的准确率。

S30，根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型。

在本实施例中，参见图2，自定义一个分类器，对应有两个分类输出，分别对应开集数据分类模型(开集线路)以及闭集数据分类模型(闭集线路)。开集训练数据包括已知类别开集数据(假设为N类)和额外类别开集数据，共N+1个输出，闭集线路只有已知类别闭集数据，即N个输出。需要说明的是，若单纯使用开集数据进行训练的话，往往会因为未知的额外类别图像的影响，导致已知类别的图像的分类效果显著降低，因此需要闭集数据一起进行训练，从而对已知类别的数据有更准确的分类效果，以反馈给底层的DNN，使得特征提取更加准确。可以理解的是，已知类别开集数据与已知类别闭集数据中的数据类别相同。例如，已知类别数据为人、宠物、车辆，那么已知类别开集数据与已知类别闭集数据均为人、宠物、车辆，而额外类别开集数据为图像中除了人、宠物、车辆之外的物体。

S40，获取待分类数据。

具体地，待分类数据可以为图像数据，还可以为其他类型的数据，在此不做限定。在本实施例中，以图像数据为例进行说明。图像数据可以是由摄像头直接拍摄的照片，可以是录制的视频，对视频进行处理从而得到视频帧，将视频帧作为待分类数据。

S50，根据所述开集数据分类模型对所述待分类数据进行分类，得到开集数据的分类结果。

具体地，将待分类图像数据输入至训练完成的开集数据分类模型中，从而根据开集数据分类模型得到对应的分类结果。

综上所述，根据预设的分类器对已知类别闭集数据、已知类别开集数据和额外类别开集数据进行训练，得到开集数据分类模型。获取待分类数据，将待分类数据输入至开集数据分类模型中，从而得到待分类数据的分类结果。可见，本发明实施例提出的开集数据的分类方法不仅能识别已知类别的数据，也能够对额外类别的数据进行正确分类。同时由于能够识别额外类别的数据，避免了将额外类别数据对闭集数据分类的干扰，从而提高闭集数据分类的准确率。对已知类别闭集数据进行训练，其主要作用在于训练时可以对已知类别数据有更准确的分类效果，反馈给底层的深度神经网络进行特征提取，如果单纯使用开集数据进行训练，往往会因为额外类别开集数据影响已知类别开集数据，导致分类准确度显著降低。

在一种可选的实施例中，所述根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型，具体包括：

L_CS表示闭集线路的损失函数，

表示分类正确时取1，否则为0，

表示待训练数据为某一类别的概率。

具体地，λ一般根据训练的效果进行调整，如果对于已知类别图像的分类效果不高，则提高λ，从而平衡开集线路损失函数与闭集线路损失函数的权重。对于开集线路，会有N+1个输出值；对于闭集线路，会有N个输出值。

示例性地，假设已知类别数据有三类，人，车，宠物。那么在训练时，闭集线路会输出三个数字，如[33,0.1,-0.4]，开集线路会输出四个数字，如[12,2.1,1.4,3.1]，这两条线路的输出还会经过softmax函数后得到相应分类的概率值。

在一种可选的实施例中，所述将所述待训练数据分为开集训练数据以及闭集训练数据，具体包括：

对待训练数据进行类别标注；

提取所述待训练数据的特征；

将同一类别的待训练数据的特征进行聚类，得到聚类结果；

根据所述聚类结果选择数据量最多的簇心作为特征簇心；

在本实施例中，在训练的过程中，获得待训练数据后，对于已知类别的数据可以直接标注出其类别并进行特征提取，特征提取的方式可以根据数据的类型进行选择，比如LBP，Haar，HOG或者训练好的encoder等，这里不做限定。可以使用Kmeans对同一已知类别的数据进行聚类，再使用CH(Calinski-Harabasz)进行k值的判定，选择数据量比重最大的簇的簇心作为该类别数据的特征簇心。计算每一类别待训练数据的特征与其特征簇心的距离(距离可以是欧氏距离，也可以是明氏距离，在这里不做限定)，根据距离对特征进行分类，可以理解的是，距离越近说明越容易确定类别，越容易进行分类。因此需要选择合适的距离将待训练数据的特征分为开集训练数据以及闭集训练数据，使得分类结果更准确。

在一种可选的实施例中，所述根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据，具体包括：

若是，则将对应的待训练数据的特征作为闭集训练数据；

若否，则将对应的待训练数据的特征作为开集训练数据。

需要说明的是，在本实施例中，将每一类别数据的特征与其特征簇心的距离大于第一阈值的数据作为闭集数据，可以理解的是，距离越远越难对数据进行分类识别，但是由于在闭集数据中已经过滤了额外类别的数据，因此避免了将额外类别数据对闭集数据分类的干扰，从而提高闭集数据分类的准确率。同时，虽然开集数据中既有已知类别的数据也存在额外类别的数据，但是由于开集数据中的已知类别的数据距离特征簇心较近，则分类过程中分类准确率较高，因此，可以对额外类别的数据进行正确分类。本实施例有效地区分了数据当中的典型数据和非典型数据，将非典型数据作为闭集数据进行训练，以得到更优秀的闭集分类效果。

在本实施例中，第一阈值可以根据经验进行设置，也可以是将每一类别数据的特征与其特征簇心的距离排序进行选择的。例如，有十个数据，十个数据特征离特征簇心的距离分别为1～10，若需要50％的数据为闭集数据，则设置第一阈值为5。

为了方便理解，以下进行举例说明：

当对待分类数据进行分类时，若此时已知有类别为人、宠物、车辆，那么根据开集数据分类模型分别得到已知类别和额外类别的输出，即执行开集路线时得到一个4个值的输出，假设为[100,0.1,0.1,0.1]。经过softmax函数后得到的概率为[0.997,0.001,0.001,0.001]，那么分类结果为人，如果是[0.1,0.1,0.1,100]的输出，那么分类结果为额外类别。

参见图3，是本发明一实施例提供的一种开集数据的分类装置的结构示意图。

本发明一实施例对应提供了一种开集数据的分类装置，包括：

第一获取模块10，用于获取待训练数据；

处理模块20，用于将所述待训练数据分为开集训练数据以及闭集训练数据，所述闭集训练数据包括已知类别闭集数据，所述开集训练数据包括已知类别开集数据和额外类别开集数据；

训练模块30，用于根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型；

第二获取模块40，用于获取待分类数据；

分类模块50，用于根据所述开集数据分类模型对所述待分类数据进行分类，得到开集数据的分类结果。

在一种可选的实施例中，所述处理模块，包括：

标注模块，用于对待训练数据进行类别标注；

特征提取模块，用于提取所述待训练数据的特征；

本发明实施例还提供了一种开集数据的分类装置，根据预设的分类器对已知类别闭集数据、已知类别开集数据和额外类别开集数据进行训练得到，开集数据分类模型。获取待分类数据，将待分类数据输入至预设的开集数据分类模型中，从而得到待分类数据的分类结果。可见，本发明实施例提出的开集数据的分类方法不仅能识别已知类别的数据，也能够对额外类别的数据进行正确分类。同时由于能够识别额外类别的数据，避免了将额外类别数据对闭集数据分类的干扰，从而提高闭集数据分类的准确率。

参见图4，是本发明一实施例提供的开集数据的分类设备的示意图。该实施例的开集数据的分类设备包括：处理器11、存储器12以及存储在所述存储器12中并可在所述处理器11上运行的计算机程序。所述处理器11执行所述计算机程序时实现上述各个开集数据的分类方法实施例中的步骤。或者，所述处理器11执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述开集数据的分类设备中的执行过程。

所述开集数据的分类设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述开集数据的分类设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是开集数据的分类设备的示例，并不构成对开集数据的分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述开集数据的分类设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述开集数据的分类设备的控制中心，利用各种接口和线路连接整个开集数据的分类设备的各个部分。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述开集数据的分类设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述开集数据的分类设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种开集数据的分类方法，其特征在于，包括：

获取待训练数据；

获取待分类数据；

2.如权利要求1所述的开集数据的分类方法，其特征在于，所述根据预设的分类器对所述开集训练数据及闭集训练数据进行训练，得到开集数据分类模型，具体包括：

L_CS表示闭集线路的损失函数，

表示分类正确时取1，否则为0，

表示待训练数据为某一类别的概率。

3.如权利要求1所述的开集数据的分类方法，其特征在于，所述将所述待训练数据分为开集训练数据以及闭集训练数据，具体包括：

对待训练数据进行类别标注；

提取所述待训练数据的特征；

将同一类别的待训练数据的特征进行聚类，得到聚类结果；

根据所述聚类结果选择数据量最多的簇心作为特征簇心；

4.如权利要求3所述的开集数据的分类方法，其特征在于，所述根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据，具体包括：

若是，则将对应的待训练数据的特征作为闭集训练数据；

若否，则将对应的待训练数据的特征作为开集训练数据。

5.一种开集数据的分类装置，其特征在于，包括：

第一获取模块，用于获取待训练数据；

第二获取模块，用于获取待分类数据；

6.如权利要求5所述的开集数据的分类装置，其特征在于，所述处理模块，包括：

标注模块，用于对待训练数据进行类别标注；

特征提取模块，用于提取所述待训练数据的特征；

7.一种开集数据的分类设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的开集数据的分类方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的开集数据的分类方法。