CN109165665A

CN109165665A - 一种类别分析方法及系统

Info

Publication number: CN109165665A
Application number: CN201810735522.4A
Authority: CN
Inventors: 徐兴
Original assignee: Shanghai Kangfei Information Technology Co Ltd
Current assignee: Shanghai Kangfei Information Technology Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2019-01-08

Abstract

本发明公开了一种类别分析方法，包括：提供一测试集，所述测试集包括多张真实类别为第一类别的测试图片；使用一多分类模型对所述多张测试图片进行识别，获取每一张测试图片被识别的多个预测类别，以及每个预测类别对应的置信度；设置一置信度阈值，统计每一张测试图片中置信度大于所述置信度阈值的预测类别，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量；设置一相关数量阈值，将所述步骤S3中所有图片数量大于所述相关数量阈值的预测类别，标记为所述第一类别的相关类别，能够准确分析出哪些类别之间存在相关性或者干扰性，更好的有利于数据进一步的分析。

Description

一种类别分析方法及系统

技术领域

本发明属于无线技术领域，特别涉及一种类别分析方法及系统。

背景技术

随着计算机科学与技术的发展，机器学习算法越来越广泛地应用于数据的分类中。在输出数据的分类结果时，我们可以输出总的数据分类准确率和单个类别的准确率。根据输出的分类结果，有时会遇到在总的准确率很高的情况下，单个类别的准确率可能会很低。比如，根据卷积神经网络做菜品识别时，总的输出准确率很高，但是其中会有一些单个的菜品准确率很低。

因此，如何通过正确的分析方法，分析各类别之间的关系，对我们改进算法，或者进一步清理数据会有准确的指导意义。

发明内容

鉴于此，本发明的目的在于提供一种类别分析方法及系统，能够准确分析出哪些类别之间存在相关性或者干扰性，更好的有利于数据进一步的分析。

根据上述发明目的，本发明提供一种类别分析方法，所述方法包括：

S1、提供一测试集，所述测试集包括多张真实类别为第一类别的测试图片；

S2、使用一多分类模型对所述多张测试图片进行识别，获取每一张测试图片被识别的多个预测类别，以及每个预测类别对应的置信度；

S3、设置一置信度阈值，统计每一张测试图片中置信度大于所述置信度阈值的预测类别，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量；

S4、设置一相关数量阈值，将所述步骤S3中所有图片数量大于所述相关数量阈值的预测类别，标记为所述第一类别的相关类别。

优选地，于所述步骤S1包括：

根据神经网络算法对训练集的图片进行训练，构建一多分类模型。

优选地，所述步骤S4还包括：

获取所述相关类别对应的测试图片数量；

根据每一张测试图片识别为所述相关类别所对应的置信度，以及所述图片数量，得到所述相关类别的平均相关置信度。

优选地，所述方法还包括：

设置所述第一类别对应的真实置信度；

统计每一张测试图片中置信度大于所述真实置信度的预测类别，获取所有置信度大于所述真实置信度的预测类别对应的图片数量；

设置一干扰数量阈值，将所述所有置信度大于所述真实置信度的预测类别对应的图片数量大于所述干扰数量阈值的预测类别，标记为所述第一类别的干扰类别。

优选地，所述方法还包括：

获取所述干扰类别对应的图片数量；

根据每一张测试图片识别为所述干扰类别所对应的置信度，以及所述图片数量，得到所述干扰类别的平均干扰置信度。

根据上述发明目的，本发明提供一种类别分析系统，所述系统包括：

测试集模块，用于提供一测试集，所述测试集包括多张真实类别为第一类别的测试图片；

识别模块，用于使用一多分类模型对所述多张测试图片进行识别，获取每一张测试图片被识别的多个预测类别，以及每个预测类别对应的置信度；

统计模块，用于设置一置信度阈值，统计每一张测试图片中置信度大于所述置信度阈值的预测类别，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量；

相关模块，用于设置一相关数量阈值，将所述统计模块中所有图片数量大于所述相关数量阈值的预测类别，标记为所述第一类别的相关类别。

优选地，所述系统还包括一构建模块，用于根据神经网络算法对训练集的图片进行训练，构建一多分类模型。

优选地，所述系统还包括平均相关置信度模块，用于获取所述相关类别对应的测试图片数量，并根据每一张测试图片识别为所述相关类别所对应的置信度，以及所述图片数量，得到所述相关类别的平均相关置信度。

优选地，所述系统还包括：

设置模块，用于设置所述第一类别对应的真实置信度；

记录模块，用于统计每一张测试图片中置信度大于所述真实置信度的预测类别，获取所有置信度大于所述真实置信度的预测类别对应的图片数量；

干扰模块，用于设置一干扰数量阈值，将所述所有置信度大于所述真实置信度的预测类别对应的图片数量大于所述干扰数量阈值的预测类别，标记为所述第一类别的干扰类别。

优选地，所述系统还包括平均干扰置信度模块，用于获取所述干扰类别对应的图片数量，并根据每一张测试图片识别为所述干扰类别所对应的置信度，以及所述图片数量，得到所述干扰类别的平均干扰置信度。

与现有技术相比，本发明提供的类别分析方法及系统，具有以下有益效果：本发明能够很好地分析出各个类别之间的关系，哪些类别之间是相关类别，哪些类别之间是干扰类别，对改进算法、后续的数据分析以及数据清洗等都具有指导意义；根据神经网络只训练一个多分类模型，与训练多个二分类模型相比，训练时间上比较短，多个二分类模型需要不停加载释放模型或者一次性加载多个模型，要么会需要花费大量额外的时间，要么需要使用非常大的显存；对测试集的图片进行测试，原来每张图片需要输入多个二分类模型测试，现在只要通过一个多分类模型测试，测试时间花费根据二分类模型数量成倍减少；综合考虑多个分类的情况提取的特征，能够更准确区分各个分类之间的差异，与多个二分类模型相比，有一个统一的标准，准确性高。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种类别分析方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种类别分析方法的流程图；

图2是本发明一种类别分析系统的组成结构图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

如图1所示，本发明的一个实施例，一种类别分析方法，所述方法包括：

本发明的一具体实施例，于所述步骤S1包括：根据神经网络算法对训练集的图片进行训练，构建一多分类模型。根据神经网络算法，对多个训练样本图片进行训练，构建一个多分类模型。该多分类模型只需要加载一次模型，综合考虑多个分类的情况提前的特征，能够更准确区分各个分类之间的差异，相比较使用多个二分类模型进行图像识别，测试时间耗费较短。

提供一测试集，所述测试集包括多张真实类别为第一类别的测试图片。所述测试集包括多张测试图片。设置所述多张测试图片的真实类别，并标记所述真实类别为第一类别。

使用所述多分类模型对所述多张测试图片进行识别，获取每一张测试图片被识别的多个预测类别，以及每个预测类别对应的置信度。通过所述多分类模型每一张测试图片进行图像识别，每一张测试图片可以被识别为多个预测类别，并设置每一个预测类别的置信度。即每一张测试图片对应多个预测类别，每一个预测类别对应一个置信度。

设置一置信度阈值，统计每一张测试图片中置信度大于所述置信度阈值的预测类别，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量。具体地，将每一张测试图片的所有置信度从大到小依次排序，其中，所有置信度之和小于等于1。在每一张测试图片对应的所有置信度中，对置信度大于所述置信度阈值的预测类别进行统计，即统计每一张测试图片中置信度大于所述置信度阈值的预测类别。以此类推，统计所有测试图片中置信度大于所述置信度阈值的预测类别。根据所述统计的所有测试图片中置信度大于所述置信度阈值的预测类别，对每一个置信度大于所述置信度阈值的预测类别所对应的图片进行累加，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量。

本发明的一具体实施例，如下所示为测试图片1被识别的各个类别，以及每个类别对应的置信度，并将所述置信度从大到小依次排列。Label_1为所述测试图片的真实类别，对应的置信度为0.2356。Label_3表示为类别3，对应的置信度是0.1234。依此类推：

Label_2：0.5056；

Label_1：0.2356；

Label_3：0.1234；

Label_4：0.0345；

Label_5：0.0023；

Label_6：0.0034；

…

Label_n：0.0003；

设置所述置信度阈值为0.05，将上述所有的置信度进行筛选，选出所述置信度大于0.05的类别。所述置信度大于0.05的类别，为Label_2、Label_1和Label_3。如下所示：

Label_2：0.5056；

Label_1：0.2356；

Label_3：0.1234；

图片1对应的置信度大于0.05的类别，为Label_2、Label_1和Label_3。该类别为偏向于所述图片相关的类别，不一定对输出的分类结果有干扰，但还是有误判的可能。根据上述方法，获取所有测试图片对应的置信度大于0.05的类别。根据所述获取的所有的置信度大于0.05的类别，对每一个置信度大于0.05的类别所对应的图片数量进行累加，得到该类别对应的图片数量。以此类推，获取所有置信度大于0.05的类别对应的图片数量。比如，统计Label_3对应的图片数量。

设置一相关数量阈值，将所述步骤S3中所有图片数量大于所述相关数量阈值的预测类别，标记为所述第一类别的相关类别。比如，在上述实施例中，设置相关数量阈值为30张，统计类别3所对应的测试图片数量，若所述图片数量大于30张，则类别3为所述第一类别的相关类别，若所述图片数量小于30张，则类别3不是所述第一类别的相关类别。通过设置图片数量第一阈值并进行判断，以防止图片识别时出现图片误识别的个例。根据该技术方案，可以统计出哪些类别是真实类别的相关类别，以方便对数据的进一步分析。

本发明的一具体实施例，获取所述相关类别对应的测试图片数量，根据每一张测试图片识别为所述相关类别所对应的置信度，以及所述图片数量，得到所述相关类别的平均相关置信度。比如，在上述实施例中，类别3对应的图片数量为40张，那么判定类别3为所述真实类别的相关类别。根据这40张图片在步骤S2识别时，每一张测试图片识别为类别3时所对应的置信度，进行累加，得到所有置信度之和，并进行平均，得到所述类别3对应的平均相关置信度。根据该平均相关置信度，可以分析被误判的概率，一般来说，平均相关置信度越大，被误判的概率越高。

本发明的一具体实施例，设置所述第一类别对应的真实置信度；统计每一张测试图片中置信度大于所述真实置信度的预测类别，获取所有置信度大于所述真实置信度的预测类别对应的图片数量。设置一干扰数量阈值，将所述所有置信度大于所述真实置信度的预测类别对应的图片数量大于所述干扰数量阈值的预测类别，标记为所述第一类别的干扰类别。在每一张测试图片对应的所有置信度中，对置信度大于所述真实置信度的预测类别进行统计，即统计每一张测试图片中置信度大于所述真实置信度的预测类别。以此类推，统计所有测试图片中置信度大于所述真实置信度的预测类别。根据所述统计的所有测试图片中置信度大于所述置信度阈值的预测类别，对每一个置信度大于所述真实置信度的预测类别所对应的图片进行累加，获取所有置信度大于所述真实置信度的预测类别对应的图片数量。比如，在上述实施例中，Label_1为所述测试图片的真实类别，对应真实类别的真实置信度为0.2356，在上述所有类别中置信度大于0.2356的为Label_2，测试图片1统计的置信度大于0.2356的类别为Label_2，记录如下：

Label_2：0.5056；

依此类推，统计所述测试图片中所有置信度大于0.2356的类别。该类别偏向于容易对测试图片造成干扰的类别，对测试的结果影响比较大。根据所述获取的所有的置信度大于0.235的类别，对每一个置信度大于0.235的类别所对应的图片数量进行累加，得到该类别对应的图片数量。以此类推，获取所有置信度大于0.235的类别对应的图片数量。比如，统计Label_2对应的图片数量。比如，设置干扰数量阈值为20张，在上述实施例中，统计类别2所对应的测试图片数量，若所述图片数量大于20张，则类别2为真实类别的干扰类别，若所述图片数量小于20张，则类别2不是真实类别的干扰类别。通过干扰数量阈值并进行判断，以防止图片识别时出现图片误识别的个例。根据该技术方案，可以统计出哪些类别是真实类别的干扰类别，以方便对数据的进一步分析。

本发明的一具体实施例，获取所述干扰类别对应的图片数量；根据每一张测试图片识别为所述干扰类别所对应的置信度，以及所述图片数量，得到所述干扰类别的平均干扰置信度。比如，在上述实施例中，类别2对应的图片数量为30张，那么判定类别2为所述真实类别的干扰类别。根据这30张图片在步骤S2识别时，每一张测试图片识别为类别2时所对应的置信度，进行累加，得到所有置信度之和，并进行平均，得到所述类别2对应的平均干扰置信度。根据该平均干扰置信度，可以分析被误判的概率，一般来说，平均干扰置信度越大，被误判的概率越高。

根据该技术方案，输出哪些类别是所述真实类别的相关类别，哪些类别是所述真实类别的干扰类别，进而根据这些类别之间的关系进行分析，如果两个类别之间互有相关或者干扰，说明二者之间数据有交叉，不容易区分。比如，一相关类别对应的图片数量大于50，并且对应的平均相关置信度大于0.5，则表明该类别的测试图片与训练图片有差异，测试图片更接近于其他类别。如果相关类别对应的图片数量很小，并且对应的平均相关置信度很大0，则表明该类别的测试图片有部分数据更接近于其他分类。根据这些类别之间的关系，对数据的进一步分析提供了有用的信息。

通过该技术方案，能够很好地分析出各个类别之间的关系，哪些类别之间是相关类别，哪些类别之间是干扰类别，对改进算法、后续的数据分析以及数据清洗等都具有指导意义；根据神经网络只训练一个多分类模型，与训练多个二分类模型相比，训练时间上比较短，多个二分类模型需要不停加载释放模型或者一次性加载多个模型，要么会需要花费大量额外的时间，要么需要使用非常大的显存；对测试集的图片进行测试，原来每张图片需要输入多个二分类模型测试，现在只要通过一个多分类模型测试，测试时间花费根据二分类模型数量成倍减少；综合考虑多个分类的情况提取的特征，能够更准确区分各个分类之间的差异，与多个二分类模型相比，有一个统一的标准，准确性高。

如图2所述，本发明的一实施例，一种类别分析系统，所述系统包括：

测试集模块20，用于提供一测试集，所述测试集包括多张真实类别为第一类别的测试图片；

识别模块21，用于使用一多分类模型对所述多张测试图片进行识别，获取每一张测试图片被识别的多个预测类别，以及每个预测类别对应的置信度；

统计模块22，用于设置一置信度阈值，统计每一张测试图片中置信度大于所述置信度阈值的预测类别，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量；

相关模块23，用于设置一相关数量阈值，将所述步骤S3中所有图片数量大于所述相关数量阈值的预测类别，标记为所述第一类别的相关类别。

本发明的一具体实施例，所述系统还包括一构建模块，用于根据神经网络算法对训练集的图片进行训练，构建一多分类模型。所述构建模块根据神经网络算法，对多个训练样本图片进行训练，构建一个多分类模型。该多分类模型只需要加载一次模型，就可识别测试图片的多个类别。

测试集模块提供一测试集，所述测试集包括多张真实类别为第一类别的测试图片。所述测试集包括多张测试图片。设置所述多张测试图片的真实类别，并标记所述真实类别为第一类别。

识别模块使用所述多分类模型对所述多张测试图片进行识别，获取每一张测试图片被识别的多个预测类别，以及每个预测类别对应的置信度。通过所述多分类模型每一张测试图片进行图像识别，每一张测试图片可以被识别为多个预测类别，并设置每一个预测类别的置信度。

统计模块设置一置信度阈值，统计每一张测试图片中置信度大于所述置信度阈值的预测类别，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量。具体地，将每一张测试图片的所有置信度从大到小依次排序，其中，所有置信度之和小于等于1。在每一张测试图片对应的所有置信度中，对置信度大于所述置信度阈值的预测类别进行统计，即统计每一张测试图片中置信度大于所述置信度阈值的预测类别。以此类推，统计所有测试图片中置信度大于所述置信度阈值的预测类别。根据所述统计的所有测试图片中置信度大于所述置信度阈值的预测类别，对每一个置信度大于所述置信度阈值的预测类别所对应的图片进行累加，获取所有置信度大于所述置信度阈值的预测类别对应的图片数量。

相关模块设置一相关数量阈值，将所述统计模块中所有图片数量大于所述相关数量阈值的预测类别，标记为所述第一类别的相关类别。根据该技术方案，可以统计出哪些类别是真实类别的相关类别，以方便对数据的进一步分析。

本发明的一具体实施例，所述系统还包括平均相关置信度模块。所述平均相关置信度模块获取所述相关类别对应的测试图片数量；根据每一张测试图片识别为所述相关类别所对应的置信度，以及所述图片数量，得到所述相关类别的平均相关置信度。根据该平均相关置信度，可以分析被误判的概率，一般来说，平均相关置信度越大，被误判的概率越高。

本发明的一具体实施例，所述系统还包括设置模块、记录模块和干扰模块。所述设置模块设置所述第一类别对应的真实置信度。所述记录模块统计每一张测试图片中置信度大于所述真实置信度的预测类别，获取所有置信度大于所述真实置信度的预测类别对应的图片数量。所述干扰模块设置一干扰数量阈值，将所述所有置信度大于所述真实置信度的预测类别对应的图片数量大于所述干扰数量阈值的预测类别，标记为所述第一类别的干扰类别。根据该技术方案，可以统计出哪些类别是真实类别的干扰类别，以方便对数据的进一步分析。

本发明的一具体实施例，所述系统还包括平均干扰置信度模块。所述平均干扰置信度模块获取所述干扰类别对应的图片数量；根据每一张测试图片识别为所述干扰类别所对应的置信度，以及所述图片数量，得到所述干扰类别的平均干扰置信度。根据该平均干扰置信度，可以分析被误判的概率，一般来说，平均干扰置信度越大，被误判的概率越高。

通过该技术方案，能够很好地分析出各个类别之间的关系，哪些类别之间是相关类别，哪些类别之间是干扰类别，对改进算法、后续的数据分析以及数据清洗等都具有指导意义；根据神经网络只训练一个多分类模型，训练时间上比较短，测试时间的花费比二分类模型成倍减少；能够更准确区分各个分类之间的差异，准确性高。

综上所述，本发明能够很好地分析出各个类别之间的关系，对改进算法、后续的数据分析以及数据清洗等都具有指导意义。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种类别分析方法，其特征在于，所述方法包括：

2.如权利要求1所述的类别分析方法，其特征在于，于所述步骤S1包括：

3.如权利要求1所述的类别分析方法，其特征在于，所述步骤S4还包括：

获取所述相关类别对应的测试图片数量；

4.如权利要求1所述的类别分析方法，其特征在于，所述方法还包括：

设置所述第一类别对应的真实置信度；

5.如权利要求4所述的类别分析方法，其特征在于，所述方法还包括：

获取所述干扰类别对应的图片数量；

6.一种类别分析系统，其特征在于，所述系统包括：

7.如权利要求6所述的类别分析系统，其特征在于，所述系统还包括一构建模块，用于根据神经网络算法对训练集的图片进行训练，构建一多分类模型。

8.如权利要求6所述的类别分析系统，其特征在于，所述系统还包括平均相关置信度模块，用于获取所述相关类别对应的测试图片数量，并根据每一张测试图片识别为所述相关类别所对应的置信度，以及所述图片数量，得到所述相关类别的平均相关置信度。

9.如权利要求6所述的类别分析系统，其特征在于，所述系统还包括：

设置模块，用于设置所述第一类别对应的真实置信度；

10.如权利要求9所述的类别分析系统，其特征在于，所述系统还包括平均干扰置信度模块，用于获取所述干扰类别对应的图片数量，并根据每一张测试图片识别为所述干扰类别所对应的置信度，以及所述图片数量，得到所述干扰类别的平均干扰置信度。