CN117197591A

CN117197591A - 一种基于机器学习的数据分类方法

Info

Publication number: CN117197591A
Application number: CN202311461069.XA
Authority: CN
Inventors: 张发恩; 邵娉婷; 徐安琪
Original assignee: Qingdao Chuangxin Qizhi Technology Group Co ltd
Current assignee: Qingdao Chuangxin Qizhi Technology Group Co ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2023-12-08
Anticipated expiration: 2043-11-06
Also published as: CN117197591B

Abstract

本发明提供一种基于机器学习的数据分类方法，涉及机器学习技术领域。该方法包括获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，根据历史分类结果，进行基于大数据的双向特征分析，形成分类特征集；通过多个机器学习算法，对分类特征集进行学习，形成多个分类器；将多个分类器分别对历史图像测试集进行分类处理，形成多个分类结果数据集；获取历史图像测试集的标准分类数据，对分类结果数据集和标准分类数据进行分类准确度分析，确定目标分类器；获取和历史分类图像数据相同类型的实时图像数据，使用目标分类器对实时图像数据进行分类。其能够快速的建立起高效准确的分类模型，并实现对数据分类的完整处理。

Description

一种基于机器学习的数据分类方法

技术领域

本发明涉及机器学习技术领域，具体而言，涉及一种基于机器学习的数据分类方法。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心，是使计算机具有智能的根本途径。

随着社会科技的发展，当下大多数应用机器学习的方式都是在应用大量训练数据的基础上建立适应的算法模型，进而完成目的性的对象处理。目前，对该方式应用最多的是对数据进行分类，尤其是图像数据的分类，人工进行数据的分类作业复杂且效率慢，而采用机器学习的方式，即能够快速的获取进行基于特征信息的分类模型，又能够提高分类的效率。当前，对于分类所采用的分类器均是通过特征输入来进行训练进而形成能够准确分类的分类器。然而对于所训练的特征数据大多都是简单的进行处理，并没有给出具有较高准确度的特征数据，同时大部分的数据分类都是选用单一的分类器进行，因而不能够快速的建立起准确性较高的分类模型，同时也或多或少存在分类数据的不完整或遗漏。

因此，设计一种基于机器学习的数据分类方法，能够快速的建立起高效准确的分类模型，并实现对数据分类的完整处理，是目前亟待解决的问题。

发明内容

本发明的目的在于提供一种基于机器学习的数据分类方法，通过获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，并在利用历史图像测试集前对其进行较为深入的大数据的双向特征分析，提取出针对历史分类结果的分类特征集，再将这些分类特征集作为分类器训练的数据集，进行分类器的训练，得到多个分类器，以此能够提高分类模型的建立效率，同时由于分类特征集的突出特点，可以提高分类器对于图像数据分类的准确度。另外，在建立分类器时，采用不同的算法模型，并在后期进行分类器的测试时根据分类器的准确度确定目标分类器，保证在整个图像分类工作上能够将所有的图像进行完成的分类，实现数据分类的完整性。

第一方面，本发明提供一种基于机器学习的数据分类方法，包括获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，根据历史分类结果，进行基于大数据的双向特征分析，形成分类特征集；通过多个机器学习算法，对分类特征集进行学习，形成多个分类器；将多个分类器分别对历史图像测试集进行分类处理，形成多个分类结果数据集；获取历史图像测试集的标准分类数据，对分类结果数据集和标准分类数据进行分类准确度分析，确定目标分类器；获取和历史分类图像数据相同类型的实时图像数据，使用目标分类器对实时图像数据进行分类。

在本发明中，该方法通过获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，并在利用历史图像测试集前对其进行较为深入的大数据的双向特征分析，提取出针对历史分类结果的分类特征集，再将这些分类特征集作为分类器训练的数据集，进行分类器的训练，得到多个分类器，以此能够提高分类模型的建立效率，同时由于分类特征集的突出特点，可以提高分类器对于图像数据分类的准确度。另外，在建立分类器时，采用不同的算法模型，并在后期进行分类器的测试时根据分类器的准确度确定目标分类器，保证在整个图像分类工作上能够将所有的图像进行完成的分类，实现数据分类的完整性。

作为一种可能的实现方式，获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，根据历史分类结果，进行基于大数据的双向特征分析，形成分类特征集，包括：获取历史分类结果，根据历史分类结果提取不同类别的图像，形成不同的类别图像集，并确定类别图像集对应的分类特征信息；对每个类别图像集进行以下基于大数据的双向特征分析：将待分析的类别图像集作为对象类别图像集，将历史分类图像数据中排除对象类别图像集中的图像后的其他图像作为非对象类别图像集；对对象类别图像集进行基于分类特征信息的特征数据提取，形成类别正向特征数据；对非对象类别图像集进行基于分类特征信息的反向特征数据提取，形成非类别负向特征数据；对对象类别图像集进行基于分类特征信息的类别反向特征数据提取，并结合非类别负向特征数据，形成类别负向特征数据；结合不同类别图像集的类别正向特征数据和类别负向特征数据，形成分类特征集。

在本发明中，分类特征集越能够凸显出分类的特征，在进行训练时就越能够形成贴合分类方式的算法模型，进而就越能够将图像数据完整且准确的划分出来。这里，通过对历史分类图像数据的划分类别和对应划分所考虑的分类特征的深入分析来建立更具明显分类特点的分类特征集。可以理解的是，对于图像数据的分类，主要是在于区别特征的不同造成分类的不同，所以自然需要针对所确定的特征信息进行针对这些特征信息的同类图像数据分析，确定出这些特征信息所能够表达的类型的信息量，即正向特征数据。如果在对历史分类图像数据上仅进行正常特征数据的提取来进行分类模型的训练，会因为样本训练量的大小以及特征的复杂性导致对某些具有模糊性特征的图像产生误判，因而还针对不同的分类类型将其他未纳入该类的图像数据聚合进行针对特征数据的反向特征分析，以从反面也来实现对图像数据分类时的判断条件。当然，基于对象类别图像集以外的图像数据所确定的反向特征数据基本上是可以帮助训练出能够快速判断非类别内的图像数据，但这些特征数据与针对对象类别图像集中获取正向特征数据后对应的反向特征还存在差距，因而还要对对象类别图像数据进行反特征数据的提取分析，这样与反向特征数据组合形成基本能够完整准确判断分类的分类模型。举个例子，对于利用图像数据来进行产品缺陷的检验，假设在历史类别数据的类别划分中，第一缺陷类别的其中一个特征方向是至少3个产品面出现缺陷现象，而由于样本量的原因，目前分类出的缺陷产品图像数据中基本上都是有3个产品面出现缺陷现象，那么在对分类后的图像进行特征提取时，能够获取到的正向特征数据就是至少3个面出现缺陷才能判断为缺陷产品。而在历史数据中，考虑样本量，没有被划分为缺陷的类型仅包括了最多1个面有缺陷的产品，那么在反向特征提取时，仅能获得小于等于1个面有缺陷的产品不是缺陷产品。而当再对分类数据进行负向特征分析时，还能够明确的确定2个面的缺陷产品还是属于非曲线产品。这样通过正反面的特征信息分析，可以为后期分类器的训练提供更加准确合理的特征信息。

作为一种可能的实现方式，对对象类别图像集进行基于分类特征信息的特征数据提取，形成类别正向特征数据，包括：根据分类特征信息，确定对象类别图像集的第一特征方向；在每个第一特征方向上，对对象类别图像集中的图像进行特征量化，形成针对每个第一特征方向的量化特征类别图像集；将量化特征类别图像集中的量化特征类别图像进行在第一特征方向上的特征值解析，获取正向特征值信息；结合所有第一特征方向上获取的正向特征值信息，形成类别正向特征数据。

在本发明中，正向特征数据的提取主要是对已经进行分类的图像数据进行基于分类特征的共同特征数据的提取，这里通过将特征数据进行量化来具体体现出分类的特征数据在什么范围内能够被完全接收而发生分类，可以更加具体准确的确定出分类的条件，提高后期利用该特征数据进行分类器训练的效率，降低训练的成本。需要说明的是，图像信息较为复杂，直接对图像进行基于特征的和特征信息的获取，可能会因为其他因素影响造成对应的特征信息获取的准确度下降，所以在进行特征信息的获取前现针对特征信息进行图像的前处理。比如将图像上的缺陷出现面积作为分类的特征，那么就需要在对比分类前直接将图像进行针对面积获取较为方面的情况上转变，比如进行边界的提取、灰度像素画以更好的进行面积区域划分等方式。这样能够更加快速准确的进行特征信息的判断和提取。

作为一种可能的实现方式，将量化特征类别图像集中的量化特征类别图像进行在第一特征方向上的特征值解析，获取正向特征值信息，包括：建立第一特征方向上量化特征类别图像的特征基准量图像；以特征基准量图像为基础，分别与量化特征类别图像集中的每个量化特征类别图像进行对比，确定特征量化率，其中，n表示量化特征类别图像集中量化特征类别图像的编号，i表示量化特征类别图像集的编号；获取所有特征量化率/>，确定出量化特征类别图像集对应的特征量化率范围/>表示量化特征类别图像集中获取到的最小特征量化率，/>表示量化特征类别图像集中获取到的最大特征量化率。

在本发明中，这里将特征信息进行量化，一方面可以改变特征数据的表达形式，做到直观快速的确定特征信息情况，另一方面通过量化后能够获取到进行分类判断的更加深入准确的分类判断依据，进而增加分类的准确性。

作为一种可能的实现方式，对非对象类别图像集进行基于分类特征信息的反向特征数据提取，形成非类别负向特征数据，包括：根据分类特征信息，确定非对象类别图像集的第二特征方向；在每个第二特征方向上，对非对象类别图像集中的图像进行反向特征量化，形成针对每个第二特征方向的量化反向特征非类别图像集；将量化反向特征非类别图像集中的量化反向特征非类别图像进行在第二特征方向上的反向特征值解析，获取反向特征值信息；结合所有第二特征方向上获取的反向特征值信息，形成非类别负向特征数据。

在本发明中，对于分类器的分类模型训练，给与的特征越多，所训练出的分类器的分类效果也会增加。仅仅对分类后的图像数据进行正向的特征信息获取来训练分类器，会降低分类模型的准确度，所以这里也对非对象类别图像进行特征获取，这样，在利用正向特征数据无法进行准确分类时，就可以利用反向特征数据进行判断，进一步提高了分类数据的丰富程度，进而为后续训练的分类模型的分类准确度的提高提供了重要的训练数据。

作为一种可能的实现方式，将量化反向特征非类别图像集中的量化反向特征非类别图像进行在第二特征方向上的反向特征值解析，获取反向特征值信息，包括：建立第二特征方向上量化反向特征非类别图像的反向特征非类别基准量图像；以反向特征非类别基准量图像为基础，分别与量化反向特征非类别图像集中的每个量化反向特征非类别图像进行对比，确定反向特征非类别量化率，其中，m表示量化反向特征非类别图像集中量化反向特征非类别图像的编号；获取所有反向特征非类别量化率/>，确定出量化反向特征类别图像集对应的反向特征非类别量化率范围/>表示量化反向特征非类别图像集中获取到的最小反向特征非类别量化率，/>表示量化反向特征非类别图像集中获取到的最大反向特征非类别量化率。

在本发明中，反向特征数据的获取也是通过建立一个反向判断最为标准的图像数据作为基础，然后再相对这个基础数据确定每个图像数据所具备的无法被确定进行分类的特征数据相对基础数据的量化值，进而从特征深度上确定出反向特征的情况。为后续基于反向特征的对比判断提供了学习的基础数据。

作为一种可能的实现方式，对对象类别图像集进行基于分类特征信息的类别反向特征数据提取，并结合非类别负向特征数据，形成类别负向特征数据，包括：根据分类特征信息，确定对象类别图像集的第三特征方向；在每个第三特征方向上，对对象类别图像集中的图像进行反向特征量化，形成针对每个第三特征方向的量化反向特征类别图像集；将量化反向特征类别图像集中的量化反向特征类别图像进行在第三特征方向上的反向特征值解析，获取反向特征值信息；结合所有第三特征方向上获取的反向特征值信息，形成类别反向特征数据；结合类别反向特征数据和非类别负向特征数据，形成类别负向特征数据。

在本发明中，分类后的图像数据上提取的正向特征信息和未被纳入对应的分类类别的图像数据的反向特征数据还不能完整的覆盖所有的图像数据类型，因而对被分类的图像数据进行反向特征的数据获取，三种特征信息合并在一起才能够实现对图像数据分类的准确判断。避免特征数据中类别负向特征数据的缺失造成对分类模型训练的效果不佳，进而无法完整实现对图像数据的合理分类。

作为一种可能的实现方式，结合类别反向特征数据和非类别负向特征数据，形成类别负向特征数据，包括：获取反向特征数据，确定在每个第三特征方向上对应的反向特征类别量化率范围表示量化反向特征类别图像集中获取到的最小反向特征类别量化率，/>表示量化反向特征类别图像集中获取到的最大反向特征非类别量化率；获取非类别负向特征数据，确定在每个第三特征方向上对应的反向特征非类别量化率范围；在对应的第三特征方向上，对反向特征类别量化率范围/>和反向特征非类别量化率范围/>行并集，形成负向特征类别量化率范围/>表示并集后集合中的最小值，/>表示并集后集合中的最大值；结合所有第三特征方向上的负向特征类别量化率范围/>，形成类别负向特征数据。

在本发明中，对于三种特征信息的合并，主要还是体现在对应的量化范围的集合处理上，为后续分类模型进行分类提供了量化的信息，达到快速高效，且准确合理的进行图像数据分类的效果。当然，对于反向特征类别量化率范围的获得，方式和反向特征非类别量化率范围以及特征量化率范围的获取方式相同。

作为一种可能的实现方式，获取历史图像测试集的标准分类数据，对分类结果数据集和标准分类数据进行分类准确度分析，确定目标分类器，包括：对不同的分类器，获取对应的分类结果数据集；将分类结果数据集中不同类别下的图像与标准分类数据中对应的类别下的图像进行重合率分析，形成类别重合率，其中，x表示不同类别的编号，/>表示分类器在编号为x的类别下所分类出的图像数量，/>表示标准分类数据下编号为x的类别中的图像数量；根据不同的类别重合率/>，进行针对分类器的分类权重分析，确定主目标分类器；确定出相对标准分类数据下主目标分类器分类出的图像中还缺少的图像，并基于最大覆盖范围的判别方式进行辅助目标分类器的确定；结合主目标分类器和辅助目标分类器，形成目标分类器组。

在本发明中，不同的分类器在经过训练后对图像数据进行实际的分类会和历史分类的数据有出入，而这种出入基本上就是训练的程度决定的。通过在相同类别下的数量占比比较可以确定出分类器对不同类型的图像数据的分类效果。直观的表达出分类器的分类功能。

作为一种可能的实现方式，根据不同的类别重合率，进行针对分类器的分类权重分析，确定主目标分类器，包括：对每个分类器，获取对应的类别重合率/>，并进行以下分类权重值/>的确定：/>，其中，t表示分类器的编号，/>表示不同类别下的权重因子；将最大的分类权重值/>对应的分类器确定为主目标分类器。

在本发明中，分类器的选择是一个重要的环节，决定着后期进行图像数据分类的评价态度。对于分类器的选择，考虑分类器的对图像数据的分类会形成不同的类别，而对不同的类别有不同的重要程度和基于分类需求和目的上的权重分布。所以在利用分类器完成分类后，可以借助每种分类器所分类后的图像数据情况建立基于权重的评判值来对分类器的分类效果进行评价，进而筛选出主目标分类器。这样筛选出的分类器是众多分类器中分类效果最好的一个。

本发明提供的一种基于机器学习的数据分类方法的有益效果有：

该方法通过获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，并在利用历史图像测试集前对其进行较为深入的大数据的双向特征分析，提取出针对历史分类结果的分类特征集，再将这些分类特征集作为分类器训练的数据集，进行分类器的训练，得到多个分类器，以此能够提高分类模型的建立效率，同时由于分类特征集的突出特点，可以提高分类器对于图像数据分类的准确度。另外，在建立分类器时，采用不同的算法模型，并在后期进行分类器的测试时根据分类器的准确度确定目标分类器，保证在整个图像分类工作上能够将所有的图像进行完成的分类，实现数据分类的完整性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于机器学习的数据分类方法的步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参考图1，本发明实施例提供一种基于机器学习的数据分类方法。该方法通过获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，并在利用历史图像测试集前对其进行较为深入的大数据的双向特征分析，提取出针对历史分类结果的分类特征集，再将这些分类特征集作为分类器训练的数据集，进行分类器的训练，得到多个分类器，以此能够提高分类模型的建立效率，同时由于分类特征集的突出特点，可以提高分类器对于图像数据分类的准确度。另外，在建立分类器时，采用不同的算法模型，并在后期进行分类器的测试时根据分类器的准确度确定目标分类器，保证在整个图像分类工作上能够将所有的图像进行完成的分类，实现数据分类的完整性。

基于机器学习的数据分类方法具体包括以下步骤：

S1：获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，根据历史分类结果，进行基于大数据的双向特征分析，形成分类特征集。

获取历史分类图像数据，历史分类数据包括历史分类结果和历史图像测试集，根据历史分类结果，进行基于大数据的双向特征分析，形成分类特征集，包括：获取历史分类结果，根据历史分类结果提取不同类别的图像，形成不同的类别图像集，并确定类别图像集对应的分类特征信息；对每个类别图像集进行以下基于大数据的双向特征分析：将待分析的类别图像集作为对象类别图像集，将历史分类图像数据中排除对象类别图像集中的图像后的其他图像作为非对象类别图像集；对对象类别图像集进行基于分类特征信息的特征数据提取，形成类别正向特征数据；对非对象类别图像集进行基于分类特征信息的反向特征数据提取，形成非类别负向特征数据；对对象类别图像集进行基于分类特征信息的类别反向特征数据提取，并结合非类别负向特征数据，形成类别负向特征数据；结合不同类别图像集的类别正向特征数据和类别负向特征数据，形成分类特征集。

分类特征集越能够凸显出分类的特征，在进行训练时就越能够形成贴合分类方式的算法模型，进而就越能够将图像数据完整且准确的划分出来。这里，通过对历史分类图像数据的划分类别和对应划分所考虑的分类特征的深入分析来建立更具明显分类特点的分类特征集。可以理解的是，对于图像数据的分类，主要是在于区别特征的不同造成分类的不同，所以自然需要针对所确定的特征信息进行针对这些特征信息的同类图像数据分析，确定出这些特征信息所能够表达的类型的信息量，即正向特征数据。如果在对历史分类图像数据上仅进行正常特征数据的提取来进行分类模型的训练，会因为样本训练量的大小以及特征的复杂性导致对某些具有模糊性特征的图像产生误判，因而还针对不同的分类类型将其他未纳入该类的图像数据聚合进行针对特征数据的反向特征分析，以从反面也来实现对图像数据分类时的判断条件。当然，基于对象类别图像集以外的图像数据所确定的反向特征数据基本上是可以帮助训练出能够快速判断非类别内的图像数据，但这些特征数据与针对对象类别图像集中获取正向特征数据后对应的反向特征还存在差距，因而还要对对象类别图像数据进行反特征数据的提取分析，这样与反向特征数据组合形成基本能够完整准确判断分类的分类模型。举个例子，对于利用图像数据来进行产品缺陷的检验，假设在历史类别数据的类别划分中，第一缺陷类别的其中一个特征方向是至少3个产品面出现缺陷现象，而由于样本量的原因，目前分类出的缺陷产品图像数据中基本上都是有3个产品面出现缺陷现象，那么在对分类后的图像进行特征提取时，能够获取到的正向特征数据就是至少3个面出现缺陷才能判断为缺陷产品。而在历史数据中，考虑样本量，没有被划分为缺陷的类型仅包括了最多1个面有缺陷的产品，那么在反向特征提取时，仅能获得小于等于1个面有缺陷的产品不是缺陷产品。而当再对分类数据进行负向特征分析时，还能够明确的确定2个面的缺陷产品还是属于非曲线产品。这样通过正反面的特征信息分析，可以为后期分类器的训练提供更加准确合理的特征信息。

其中，对对象类别图像集进行基于分类特征信息的特征数据提取，形成类别正向特征数据，包括：根据分类特征信息，确定对象类别图像集的第一特征方向；在每个第一特征方向上，对对象类别图像集中的图像进行特征量化，形成针对每个第一特征方向的量化特征类别图像集；将量化特征类别图像集中的量化特征类别图像进行在第一特征方向上的特征值解析，获取正向特征值信息；结合所有第一特征方向上获取的正向特征值信息，形成类别正向特征数据。

正向特征数据的提取主要是对已经进行分类的图像数据进行基于分类特征的共同特征数据的提取，这里通过将特征数据进行量化来具体体现出分类的特征数据在什么范围内能够被完全接收而发生分类，可以更加具体准确的确定出分类的条件，提高后期利用该特征数据进行分类器训练的效率，降低训练的成本。需要说明的是，图像信息较为复杂，直接对图像进行基于特征的和特征信息的获取，可能会因为其他因素影响造成对应的特征信息获取的准确度下降，所以在进行特征信息的获取前现针对特征信息进行图像的前处理。比如将图像上的缺陷出现面积作为分类的特征，那么就需要在对比分类前直接将图像进行针对面积获取较为方面的情况上转变，比如进行边界的提取、灰度像素画以更好的进行面积区域划分等方式。这样能够更加快速准确的进行特征信息的判断和提取。

将量化特征类别图像集中的量化特征类别图像进行在第一特征方向上的特征值解析，获取正向特征值信息，包括：建立第一特征方向上量化特征类别图像的特征基准量图像；以特征基准量图像为基础，分别与量化特征类别图像集中的每个量化特征类别图像进行对比，确定特征量化率，其中，n表示量化特征类别图像集中量化特征类别图像的编号，i表示量化特征类别图像集的编号；获取所有特征量化率/>，确定出量化特征类别图像集对应的特征量化率范围/>表示量化特征类别图像集中获取到的最小特征量化率，/>表示量化特征类别图像集中获取到的最大特征量化率。

这里将特征信息进行量化，一方面可以改变特征数据的表达形式，做到直观快速的确定特征信息情况，另一方面通过量化后能够获取到进行分类判断的更加深入准确的分类判断依据，进而增加分类的准确性。

对非对象类别图像集进行基于分类特征信息的反向特征数据提取，形成非类别负向特征数据，包括：根据分类特征信息，确定非对象类别图像集的第二特征方向；在每个第二特征方向上，对非对象类别图像集中的图像进行反向特征量化，形成针对每个第二特征方向的量化反向特征非类别图像集；将量化反向特征非类别图像集中的量化反向特征非类别图像进行在第二特征方向上的反向特征值解析，获取反向特征值信息；结合所有第二特征方向上获取的反向特征值信息，形成非类别负向特征数据。

对于分类器的分类模型训练，给与的特征越多，所训练出的分类器的分类效果也会增加。仅仅对分类后的图像数据进行正向的特征信息获取来训练分类器，会降低分类模型的准确度，所以这里也对非对象类别图像进行特征获取，这样，在利用正向特征数据无法进行准确分类时，就可以利用反向特征数据进行判断，进一步提高了分类数据的丰富程度，进而为后续训练的分类模型的分类准确度的提高提供了重要的训练数据。

将量化反向特征非类别图像集中的量化反向特征非类别图像进行在第二特征方向上的反向特征值解析，获取反向特征值信息，包括：建立第二特征方向上量化反向特征非类别图像的反向特征非类别基准量图像；以反向特征非类别基准量图像为基础，分别与量化反向特征非类别图像集中的每个量化反向特征非类别图像进行对比，确定反向特征非类别量化率，其中，m表示量化反向特征非类别图像集中量化反向特征非类别图像的编号；获取所有反向特征非类别量化率/>，确定出量化反向特征非类别图像集对应的反向特征非类别量化率范围/>表示量化反向特征非类别图像集中获取到的最小反向特征非类别量化率，/>表示量化反向特征非类别图像集中获取到的最大反向特征非类别量化率。

反向特征数据的获取也是通过建立一个反向判断最为标准的图像数据作为基础，然后再相对这个基础数据确定每个图像数据所具备的无法被确定进行分类的特征数据相对基础数据的量化值，进而从特征深度上确定出反向特征的情况。为后续基于反向特征的对比判断提供了学习的基础数据。

对对象类别图像集进行基于分类特征信息的类别反向特征数据提取，并结合非类别负向特征数据，形成类别负向特征数据，包括：根据分类特征信息，确定对象类别图像集的第三特征方向；在每个第三特征方向上，对对象类别图像集中的图像进行反向特征量化，形成针对每个第三特征方向的量化反向特征类别图像集；将量化反向特征类别图像集中的量化反向特征类别图像进行在第三特征方向上的反向特征值解析，获取反向特征值信息；结合所有第三特征方向上获取的反向特征值信息，形成类别反向特征数据；结合类别反向特征数据和非类别负向特征数据，形成类别负向特征数据。

分类后的图像数据上提取的正向特征信息和未被纳入对应的分类类别的图像数据的反向特征数据还不能完整的覆盖所有的图像数据类型，因而对被分类的图像数据进行反向特征的数据获取，三种特征信息合并在一起才能够实现对图像数据分类的准确判断。避免特征数据中类别负向特征数据的缺失造成对分类模型训练的效果不佳，进而无法完整实现对图像数据的合理分类。

结合类别反向特征数据和非类别负向特征数据，形成类别负向特征数据，包括：获取反向特征数据，确定在每个第三特征方向上对应的反向特征类别量化率范围表示量化反向特征类别图像集中获取到的最小反向特征类别量化率，/>表示量化反向特征类别图像集中获取到的最大反向特征非类别量化率；获取非类别负向特征数据，确定在每个第三特征方向上对应的反向特征非类别量化率范围/>；在对应的第三特征方向上，对反向特征类别量化率范围/>和反向特征非类别量化率范围/>进行并集，形成负向特征类别量化率范围/>表示并集后集合中的最小值，/>表示并集后集合中的最大值；结合所有第三特征方向上的负向特征类别量化率范围/>，形成类别负向特征数据。

对于三种特征信息的合并，主要还是体现在对应的量化范围的集合处理上，为后续分类模型进行分类提供了量化的信息，达到快速高效，且准确合理的进行图像数据分类的效果。当然，对于反向特征类别量化率范围的获得，方式和反向特征非类别量化率范围以及特征量化率范围的获取方式相同。

S2：通过多个机器学习算法，对分类特征集进行学习，形成多个分类器。

获取分类特征集后直接利用起来进行算法模型的训练，形成能够进行图像数据分类的算法模型。这里采用多个算法模型的分类器，也是为后续采用主分类器和辅助分类器进行完成的分类提供可选项。

进一步的，可以理解的是，不同分类特征集可采用的机器学习算法可以相同，也可以不同。机器学习算法可以是朴素贝叶斯分类器、决策树、随机森林、SVM（支持向量机）、KNN（最近邻算法）、神经网络卷积网络等。

S3：将多个分类器分别对历史图像测试集进行分类处理，形成多个分类结果数据集。

为了对分类器进行合理的选择，就需要在完成训练后将分类器进行分类测试，通过对分类测试效果的判断来确定对分类器的选择。这里，将不同算法模型对相同的测试集进行分类处理，由于都是使用历史图像测试集进行分类测试，因而测试结果具有高度的可比性。例如对某一图像测试集进行分类，将产品按照不同的缺陷类别进行分类，由于不同的算法模型所展现的分类过程有所不同，因而不同分类器完成分类后的结果可能有分类出的缺陷类型存在数量上的差异，分类出的缺陷类型的类型数量不同、分类出的相同缺陷类型中所存在的图像数量不同等，这样就能够通过这些差异来对不同分类器的分类效果进行对比判断，进而作为选择依据实现对分类器的选择。

S4：获取历史图像测试集的标准分类数据，对分类结果数据集和标准分类数据进行分类准确度分析，确定目标分类器。

对分类结果数据集和历史分类结果进行分类准确度分析，确定目标分类器，包括：对不同的分类器，获取对应的分类结果数据集；将分类结果数据集中不同类别下的图像与历史分类结果中对应的类别下的图像进行重合率分析，形成类别重合率，其中，x表示不同类别的编号，/>表示分类器在编号为x的类别下所分类出的图像数量，/>表示历史分类结果下编号为x的类别中的图像数量；根据不同的类别重合率/>，进行针对分类器的分类权重分析，确定主目标分类器；确定出相对历史分类结果下主目标分类器分类出的图像中还缺少的图像，并基于最大覆盖范围的判别方式进行辅助目标分类器的确定；结合主目标分类器和辅助目标分类器，形成目标分类器组。

不同的分类器在经过训练后对图像数据进行实际的分类会和历史分类的数据有出入，而这种出入基本上就是训练的程度决定的。通过在相同类别下的数量占比比较可以确定出分类器对不同类型的图像数据的分类效果。直观的表达出分类器的分类功能。

根据不同的类别重合率，进行针对分类器的分类权重分析，确定主目标分类器，包括：对每个分类器，获取对应的类别重合率/>，并进行以下分类权重值/>的确定：，其中，t表示分类器的编号，/>表示不同类别下的权重因子；将最大的分类权重值/>对应的分类器确定为主目标分类器。

分类器的选择是一个重要的环节，决定着后期进行图像数据分类的评价态度。对于分类器的选择，考虑分类器的对图像数据的分类会形成不同的类别，而对不同的类别有不同的重要程度和基于分类需求和目的上的权重分布。所以在利用分类器完成分类后，可以借助每种分类器所分类后的图像数据情况建立基于权重的评判值来对分类器的分类效果进行评价，进而筛选出主目标分类器。这样筛选出的分类器是众多分类器中分类效果最好的一个。

S5：获取和历史分类图像数据相同类型的实时图像数据，使用目标分类器对实时图像数据进行分类。

通过主分类器和辅助分类器的组合形式能够实现对图像数据分类的完整覆盖，以弥补单一的分类器无法完整进行分类的缺陷。这里对于实时图像数据来说属于是与历史分类图像数据类型相同的图像数据，区别仅在于数据采集的周期时间不同，实时图像数据属于当下或者当前的时段所取得的数据，例如历史分类图像数据和实时图像数据可以是在产品生产线上的某一工序下的图像数据，比如零件的焊接工艺中能够判断每个零件的焊接情况的图像形成的图像数据，可以是相同周期时间点下获取的同一对象的相同行动的图像数据，比如电机的周期性转动中每个周期中固定的某个周期时刻点下的转动状态图像形成的图像数据，也可以是针对同一目标对象存在规律性变化的特征的图像数据，比如针对湖泊在整个水量变化周期上根据固定时间间隔获取的遥感图像形成的图像数据等。

综上所述，本发明实施例提供的基于机器学习的数据分类方法的有益效果有：

该方法通过获取历史分类图像数据，并在利用历史图像测试集前对其进行较为深入的大数据分析，提取出针对历史分类结果的更加突出的特征信息，再将这些特征信息作为分类器训练的数据集，能够提高分类模型的建立效率，同时由于特征信息的突出特点，可以提高分类模型对于图像数据分类的准确度。另外，在建立分类模型时，采用不同的算法模型，并在后期进行分类模型的测试时根据测试分类的结果选取不同的分类器形成组合，保证在整个图像分类工作上能够将所有的图像进行完成的分类，实现数据分类的完整性。

本发明中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于机器学习的数据分类方法，其特征在于，包括：

获取历史分类图像数据，所述历史分类数据包括历史分类结果和历史图像测试集；

根据所述历史分类结果，进行基于大数据的双向特征分析，形成分类特征集；

通过多个机器学习算法，对所述分类特征集进行学习，形成多个分类器；

将多个所述分类器分别对所述历史图像测试集进行分类处理，形成多个分类结果数据集；

获取所述历史图像测试集的标准分类数据，对所述分类结果数据集和所述标准分类数据进行分类准确度分析，确定目标分类器；

获取和所述历史分类图像数据相同类型的实时图像数据，使用所述目标分类器对所述实时图像数据进行分类。

2.根据权利要求1所述的基于机器学习的数据分类方法，其特征在于，所述获取历史分类图像数据，所述历史分类数据包括历史分类结果和历史图像测试集，根据所述历史分类结果，进行基于大数据的双向特征分析，形成分类特征集，包括：

获取所述历史分类结果，根据所述历史分类结果提取不同类别的图像，形成不同的类别图像集，并确定所述类别图像集对应的分类特征信息；

对每个所述类别图像集进行以下基于大数据的双向特征分析：

将待分析的所述类别图像集作为对象类别图像集，将所述历史分类图像数据中排除所述对象类别图像集中的图像后的其他图像作为非对象类别图像集；

对所述对象类别图像集进行基于所述分类特征信息的特征数据提取，形成类别正向特征数据；

对所述非对象类别图像集进行基于所述分类特征信息的反向特征数据提取，形成非类别负向特征数据；

对所述对象类别图像集进行基于所述分类特征信息的类别反向特征数据提取，并结合所述非类别负向特征数据，形成类别负向特征数据；

结合所述类别图像集的所述类别正向特征数据和所述类别负向特征数据，形成所述分类特征集。

3.根据权利要求2所述的基于机器学习的数据分类方法，其特征在于，对所述对象类别图像集进行基于所述分类特征信息的特征数据提取，形成类别正向特征数据，包括：

根据所述分类特征信息，确定所述对象类别图像集的第一特征方向；

在每个所述第一特征方向上，对所述对象类别图像集中的图像进行特征量化，形成针对每个所述第一特征方向的量化特征类别图像集；

将所述量化特征类别图像集中的量化特征类别图像进行在所述第一特征方向上的特征值解析，获取正向特征值信息；

结合所有所述第一特征方向上获取的所述正向特征值信息，形成所述类别正向特征数据。

4.根据权利要求3所述的基于机器学习的数据分类方法，其特征在于，所述将所述量化特征类别图像集中的量化特征类别图像进行在所述第一特征方向上的特征值解析，获取正向特征值信息，包括：

建立所述第一特征方向上所述量化特征类别图像的特征基准量图像；

以所述特征基准量图像为基础，分别与所述量化特征类别图像集中的每个所述量化特征类别图像进行对比，确定特征量化率，其中，n表示所述量化特征类别图像集中所述量化特征类别图像的编号，i表示所述量化特征类别图像集的编号；

获取所有所述特征量化率确定出所述量化特征类别图像集对应的特征量化率范围表示所述量化特征类别图像集中获取到的最小所述特征量化率，/>表示所述量化特征类别图像集中获取到的最大所述特征量化率。

5.根据权利要求4所述的基于机器学习的数据分类方法，其特征在于，所述对所述非对象类别图像集进行基于所述分类特征信息的反向特征数据提取，形成非类别负向特征数据，包括：

根据所述分类特征信息，确定所述非对象类别图像集的第二特征方向；

在每个所述第二特征方向上，对所述非对象类别图像集中的图像进行反向特征量化，形成针对每个所述第二特征方向的量化反向特征非类别图像集；

将所述量化反向特征非类别图像集中的量化反向特征非类别图像进行在所述第二特征方向上的反向特征值解析，获取反向特征值信息；

结合所有所述第二特征方向上获取的所述反向特征值信息，形成所述非类别负向特征数据。

6.根据权利要求5所述的基于机器学习的数据分类方法，其特征在于，所述将所述量化反向特征非类别图像集中的量化反向特征非类别图像进行在所述第二特征方向上的反向特征值解析，获取反向特征值信息，包括：

建立所述第二特征方向上所述量化反向特征非类别图像的反向特征非类别基准量图像；

以所述反向特征非类别基准量图像为基础，分别与所述量化反向特征非类别图像集中的每个所述量化反向特征非类别图像进行对比，确定反向特征非类别量化率，其中，m表示所述量化反向特征非类别图像集中所述量化反向特征非类别图像的编号；

获取所有所述反向特征非类别量化率，确定出所述量化反向特征非类别图像集对应的反向特征非类别量化率范围/>表示所述量化反向特征非类别图像集中获取到的最小所述反向特征非类别量化率，/>表示所述量化反向特征非类别图像集中获取到的最大所述反向特征非类别量化率。

7.根据权利要求6所述的基于机器学习的数据分类方法，其特征在于，对所述对象类别图像集进行基于所述分类特征信息的类别反向特征数据提取，并结合所述非类别负向特征数据，形成类别负向特征数据，包括：

根据所述分类特征信息，确定所述对象类别图像集的第三特征方向；

在每个所述第三特征方向上，对所述对象类别图像集中的图像进行反向特征量化，形成针对每个所述第三特征方向的量化反向特征类别图像集；

将所述量化反向特征类别图像集中的量化反向特征类别图像进行在所述第三特征方向上的反向特征值解析，获取反向特征值信息；

结合所有所述第三特征方向上获取的所述反向特征值信息，形成类别反向特征数据；

结合所述类别反向特征数据和所述非类别负向特征数据，形成所述类别负向特征数据。

8.根据权利要求7所述的基于机器学习的数据分类方法，其特征在于，所述结合所述类别反向特征数据和所述非类别负向特征数据，形成所述类别负向特征数据，包括：

获取所述反向特征数据，确定在每个所述第三特征方向上对应的反向特征类别量化率范围表示所述量化反向特征类别图像集中获取到的最小反向特征类别量化率，/>表示所述量化反向特征类别图像集中获取到的最大反向特征非类别量化率；

获取所述非类别负向特征数据，确定在每个所述第三特征方向上对应的所述反向特征非类别量化率范围；

在对应的所述第三特征方向上，对所述反向特征类别量化率范围和所述反向特征非类别量化率范围/>进行并集，形成负向特征类别量化率范围表示并集后集合中的最小值，/>表示并集后集合中的最大值；

结合所有所述第三特征方向上的所述负向特征类别量化率范围，形成所述类别负向特征数据。

9.根据权利要求8所述的基于机器学习的数据分类方法，其特征在于，所述获取所述历史图像测试集的标准分类数据，对所述分类结果数据集和所述标准分类数据进行分类准确度分析，确定目标分类器，包括：

对不同的分类器，获取对应的所述分类结果数据集；

将所述分类结果数据集中不同类别下的图像与所述标准分类数据中对应的类别下的图像进行重合率分析，形成类别重合率，其中，x表示不同类别的编号，/>表示分类器在编号为x的类别下所分类出的图像数量，/>表示所述标准分类数据下编号为x的类别中的图像数量；

根据不同的所述类别重合率，进行针对分类器的分类权重分析，确定主目标分类器；

确定出相对所述标准分类数据下所述主目标分类器分类出的图像中还缺少的图像，并基于最大覆盖范围的判别方式进行辅助目标分类器的确定；

结合所述主目标分类器和所述辅助目标分类器，形成目标分类器组。

10.根据权利要求9所述的基于机器学习的数据分类方法，其特征在于，所述根据不同的所述类别重合率，进行针对分类器的分类权重分析，确定主目标分类器，包括：

对每个分类器，获取对应的所述类别重合率，并进行以下分类权重值/>的确定：

，其中，t表示分类器的编号，/>表示不同类别下的权重因子；

将最大的所述分类权重值对应的所述分类器确定为所述主目标分类器。