CN111199244A

CN111199244A - 一种数据的分类方法、装置、存储介质及电子装置

Info

Publication number: CN111199244A
Application number: CN201911320653.7A
Authority: CN
Inventors: 王信峰; 房红征; 杨浩; 樊焕贞; 李蕊; 胡伟钢; 余家豪; 王晓栋
Original assignee: Beijing Aerospace Measurement and Control Technology Co Ltd
Current assignee: Beijing Aerospace Measurement and Control Technology Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-26
Anticipated expiration: 2039-12-19
Also published as: CN111199244B

Abstract

本申请涉及一种数据的分类方法、装置、存储介质及电子装置，其中，该方法包括：获取多组样本数据，以及多组样本数据中每组样本数据对应的数据标签，其中，多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；将多个特征维度中与数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；使用目标样本数据以及目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，目标样本数据包括目标特征维度中每个目标特征维度对应的目标特征值；使用目标分类模型对获取到的待分类数据进行分类。本申请解决了对数据进行分类的分类精度较低的技术问题。

Description

一种数据的分类方法、装置、存储介质及电子装置

技术领域

本申请涉及计算机领域，尤其涉及一种数据的分类方法、装置、存储介质及电子装置。

背景技术

在人工智能模型领域，不同的模型对于无关特征的容忍度不同，逐渐增加无关特征后不同模型的均方根误差(Root Mean Squared Error，简称为RMSE)会体现出不同的变化。树模型普遍表现较好，而神经网络因其模型的复杂性则很容易过拟合。套索算法(LeastAbsolute Shrinkage and Selection Operator，简称为Lasso)模型因其可以产生稀疏特征也有较好的表现。目前由于数据维度高导致模型的学习时间长，精度低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种数据的分类方法、装置、存储介质及电子装置。

根据本申请实施例的一个方面，提供了一种数据的分类方法，包括：

获取多组样本数据，以及所述多组样本数据中每组样本数据对应的数据标签，其中，所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；

将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；

使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值；

使用所述目标分类模型对获取到的待分类数据进行分类。

可选地，将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度包括：

确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度；

将所述相关度最高的第一数量的特征维度确定为所述目标特征维度，其中，所述目标相关度阈值包括所述第一数量的特征维度所对应的相关度中的最小值；或者，将所对应的相关度高于或者等于预设相关度的第二数量的特征维度确定为所述目标特征维度，其中，所述目标相关度阈值包括所述预设相关度。

可选地，确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度包括：

根据所述多个特征维度的维度信息和维度数量确定所述第一数量，其中，所述第一数量为大于0且小于所述维度数量的整数；

采用卡方分布确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度。

可选地，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型包括：

建立初始逻辑回归模型，其中，所述初始逻辑回归模型包括关系式以及逻辑回归函数，所述关系式用于指示所述初始逻辑回归模型的输入参数为所述目标特征维度以及所述目标特征维度与所述关系式的输出信息之间的运算关系，所述逻辑回归函数用于指示所述关系式的输出信息与所述初始逻辑回归模型的输出参数之间的运算关系；

使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练，得到目标逻辑回归模型。

可选地，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练，得到所述目标逻辑回归模型包括：

将每个所述目标样本数据对应的目标特征值作为所述输入参数输入至所述初始逻辑回归模型，得到每个所述目标样本数据所对应的所述关系式的目标输出信息，其中，所述关系式用于指示所述关系式的输出信息为所述目标特征维度的加权和；

将所述目标输出信息输入所述逻辑回归函数，得到每个所述目标样本数据所对应的目标输出参数；

根据所述目标输出参数与每个所述目标样本数据所对应的目标数据标签之间的关系调整所述关系式中所包括的权重值，直至所述初始逻辑回归模型收敛，得到所述目标逻辑回归模型。

可选地，使用所述目标分类模型对获取到的待分类数据进行分类包括：

从所述待分类数据中获取所述目标特征维度对应的特征值；

将所述待分类数据中所述目标特征维度对应的特征值作为所述目标逻辑回归模型的输入参数输入至所述目标逻辑回归模型；

将所述目标逻辑回归模型的输出值所指示的数据类型确定所述待分类数据的目标数据类型。

根据本申请实施例的另一方面，还提供了一种数据的分类装置，包括：

获取模块，用于获取多组样本数据，以及所述多组样本数据中每组样本数据对应的数据标签，其中，所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；

确定模块，用于将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；

训练模块，用于使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值；

分类模块，用于使用所述目标分类模型对获取到的待分类数据进行分类。

可选地，所述确定模块包括：

第一确定单元，用于确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度；

第二确定单元，用于将所述相关度最高的第一数量的特征维度确定为所述目标特征维度，其中，所述目标相关度阈值包括所述第一数量的特征维度所对应的相关度中的最小值；或者，将所对应的相关度高于或者等于预设相关度的第二数量的特征维度确定为所述目标特征维度，其中，所述目标相关度阈值包括所述预设相关度。

可选地，所述第一确定单元包括：

第一确定子单元，用于根据所述多个特征维度的维度信息和维度数量确定所述第一数量，其中，所述第一数量为大于0且小于所述维度数量的整数；

第二确定子单元，用于采用卡方分布确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度。

可选地，所述训练模块包括：

建立单元，用于建立初始逻辑回归模型，其中，所述初始逻辑回归模型包括关系式以及逻辑回归函数，所述关系式用于指示所述初始逻辑回归模型的输入参数为所述目标特征维度以及所述目标特征维度与所述关系式的输出信息之间的运算关系，所述逻辑回归函数用于指示所述关系式的输出信息与所述初始逻辑回归模型的输出参数之间的运算关系；

训练单元，用于使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练，得到所述目标逻辑回归模型。

可选地，所述训练单元包括：

第一输入子单元，用于将每个所述目标样本数据对应的目标特征值作为所述输入参数输入至所述初始逻辑回归模型，得到每个所述目标样本数据所对应的所述关系式的目标输出信息，其中，所述关系式用于指示所述关系式的输出信息为所述目标特征维度的加权和；

第二输入子单元，用于将所述目标输出信息输入所述逻辑回归函数，得到每个所述目标样本数据所对应的目标输出参数；

调整子单元，用于根据所述目标输出参数与每个所述目标样本数据所对应的目标数据标签之间的关系调整所述关系式中所包括的权重值，直至所述初始逻辑回归模型收敛，得到所述目标逻辑回归模型。

可选地，所述分类模块包括：

获取单元，用于从所述待分类数据中获取所述目标特征维度对应的特征值；

输入单元，用于将所述待分类数据中所述目标特征维度对应的特征值作为所述目标逻辑回归模型的输入参数输入至所述目标逻辑回归模型；

第三确定单元，用于将所述目标逻辑回归模型的输出值所指示的数据类型确定所述待分类数据的目标数据类型。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本申请实施例中，采用获取多组样本数据，以及多组样本数据中每组样本数据对应的数据标签，其中，多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；将多个特征维度中与数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；使用目标样本数据以及目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，目标样本数据包括目标特征维度中每个目标特征维度对应的目标特征值；使用目标分类模型对获取到的待分类数据进行分类的方式，通过特征维度与数据标签之间相关度的计算从多个特征维度中筛选出与数据标签的相关度较高的目标特征维度，达到了从特征维度中去除无关特征的目的，采用相关性较高的目标特征维度训练分类模型，使得训练后的目标分类模型的分类效率更高，从而实现了提高对数据进行分类的分类精度的技术效果，进而解决了对数据进行分类的分类精度较低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的数据的分类方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的数据的分类方法的流程图；

图3是根据本申请可选的实施方式的一种可选的数据的分类方法的示意图一；

图4是根据本申请可选的实施方式的一种可选的数据的分类方法的示意图二；

图5是根据本申请可选的实施方式的一种可选的数据的分类方法的示意图三；

图6是根据本申请可选的实施方式的一种可选的数据的分类方法的示意图四；

图7是根据本申请可选的实施方式的一种可选的数据的分类方法的示意图五；

图8是根据本申请实施例的一种可选的数据的分类装置的示意图；

以及

图9是根据本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一方面，提供了一种数据的分类的方法实施例。

可选地，在本实施例中，上述数据的分类方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的数据的分类方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本申请实施例的数据的分类方法也可以是由安装在其上的客户端来执行。

图2是根据本申请实施例的一种可选的数据的分类方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，获取多组样本数据，以及所述多组样本数据中每组样本数据对应的数据标签，其中，所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；

步骤S204，将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；

步骤S206，使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值；

步骤S208，使用所述目标分类模型对获取到的待分类数据进行分类。

通过上述步骤S202至步骤S208，通过特征维度与数据标签之间相关度的计算从多个特征维度中筛选出与数据标签的相关度较高的目标特征维度，达到了从特征维度中去除无关特征的目的，采用相关性较高的目标特征维度训练分类模型，使得训练后的目标分类模型的分类效率更高，从而实现了提高对数据进行分类的分类精度的技术效果，进而解决了对数据进行分类的分类精度较低的技术问题。

可选地，在本实施例中，进行分类处理的数据可以但不限于包括：电力数据，多媒体数据，文本数据，游戏数据等等。

在步骤S202提供的技术方案中，多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值，比如：多组样本数据包括：数据1，数据2和数据3，多个特征维度包括特征维度1，特征维度2和特征维度3，数据1包括特征维度1对应的特征值11，特征维度2对应的特征值12和特征维度3对应的特征值13，数据2包括特征维度1对应的特征值21，特征维度2对应的特征值22和特征维度3对应的特征值23，数据3包括特征维度1对应的特征值31，特征维度2对应的特征值32和特征维度3对应的特征值33。

在步骤S204提供的技术方案中，相关度可以但不限于用于指示特征维度与数据标签之间的相关性，相关性可以但不限于被判断为相关和不相关两种，比如：相关度高于或者等于目标相关度阈值表示相关，相关度低于目标相关度阈值表示不相关。相关性还可以但不限于被判断为是否存在相关联系，比如：上述相关度用于表示特征维度与数据标签之间存在相关联系的百分比。

可选地，在本实施例中，目标特征维度是与数据标签的相关度较高的特征维度，使用相关度较高的目标特征维度训练出的模型更加适合数据的特征，也能够减少数据量，提高训练效率。

在步骤S206提供的技术方案中，初始分类模型可以但不限于包括任何类型的分类模型，比如：逻辑回归模型，邻近算法模型，决策树模型等等。

作为一种可选的实施例，将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度包括：

S11，确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度；

S12，将所述相关度最高的第一数量的特征维度确定为所述目标特征维度，其中，所述目标相关度阈值包括所述第一数量的特征维度所对应的相关度中的最小值；或者，将所对应的相关度高于或者等于预设相关度的第二数量的特征维度确定为所述目标特征维度，其中，所述目标相关度阈值包括所述预设相关度。

可选地，在本实施例中，一种选取目标特征维度的方式是根据相关度从高到低选择最高的第一数量的特征维度作为目标特征维度。目标特征维度的第一数量可以预先指定。另一种选取目标特征维度的方式是预先指定预设相关度，将各个特征维度与预设相关度进行比较，高于或者等于预设相关度的特征维度作为目标特征维度。

需要说明的是，以上选取目标特征维度的方式指示一种示例，本实施例对此不作限定，其他选取方式于此类似，在此不再赘述。

作为一种可选的实施例，确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度包括：

S21，根据所述多个特征维度的维度信息和维度数量确定所述第一数量，其中，所述第一数量为大于0且小于所述维度数量的整数；

S22，采用卡方分布确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度。

可选地，在本实施例中，可以但不限于根据卡方分布来确定每个特征维度与所述数据标签之间的相关度。

在一个可选的实施方式中，既然特征选择的目的是去除无关特征，而卡方检验恰好可以进行独立性检验，所以其适用于特征选择。如果检验结果是某个特征维度与数据标签独立，则可以去除该特征维度。卡方检验过程中会用到卡方分布，下面对卡方分布进行简单描述，其定义如下：

设X₁，X₂，…，X_n是来自总体N(0,1)的样本，则称统计量：

服从自由度为n的χ²分布，记为χ²～χ²(n)

χ²越大，表示观测值和理论值相差越大，当χ²大于某一个临界值时，就能获得统计显著性的结论：

其中O_ij为观测频数表中单元格的数值，E_ij为期望频数表中单元格的数值，r为行数，c为列数，自由度df为(2-1)×(3-1)＝2，χ²服从卡方分布，则查卡方分布表，如表1所示：

表1

Upper tail	0.3	0.2	0.1	0.05	0.02	0.01	0.005	0.001
									df 1	1.07	1.64	2.71	3.84	5.41	6.63	7.88	10.83
2	2.41	3.22	4.61	5.99	7.82	9.21	10.60	13.82

得P(χ²>13.82)<0.001，而实际计算出的χ²为26.99，显著性很高，意味着零假设成立的情况下样本结果出现的概率小于0.1％，因而可以拒绝零假设，接受备选假设。

作为一种可选的实施例，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型包括：

S31，建立初始逻辑回归模型，其中，所述初始逻辑回归模型包括关系式以及逻辑回归函数，所述关系式用于指示所述初始逻辑回归模型的输入参数为所述目标特征维度以及所述目标特征维度与所述关系式的输出信息之间的运算关系，所述逻辑回归函数用于指示所述关系式的输出信息与所述初始逻辑回归模型的输出参数之间的运算关系；

S32，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练，得到目标逻辑回归模型。

可选地，在本实施例中，分类模型可以但不限于为逻辑回归模型。利用逻辑回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类(主要用于解决二分类问题)。对于使用逻辑回归进行分类，首先所需要解决的就是寻找分类边界线。

二项逻辑回归模型是如下的条件概率分布：

其中，x∈Rⁿ是输入，Y∈{0,1}是输出，θ是参数。

对于Y＝1：

而

故上式可推导为:

即逻辑回归模型函数：

表示分类结果为“1”的概率。

作为一种可选的实施例，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练，得到所述目标逻辑回归模型包括：

S41，将每个所述目标样本数据对应的目标特征值作为所述输入参数输入至所述初始逻辑回归模型，得到每个所述目标样本数据所对应的所述关系式的目标输出信息，其中，所述关系式用于指示所述关系式的输出信息为所述目标特征维度的加权和；

S42，将所述目标输出信息输入所述逻辑回归函数，得到每个所述目标样本数据所对应的目标输出参数；

S43，根据所述目标输出参数与每个所述目标样本数据所对应的目标数据标签之间的关系调整所述关系式中所包括的权重值，直至所述初始逻辑回归模型收敛，得到所述目标逻辑回归模型。

在一个可选的实施方式中，模型的训练过程可以但不限于包括以下步骤：

步骤1，输入样本数据。

步骤2，确定标签，样本数据中本身有标签或者根据样本数据的数据特点制造标签，比如：正常为1，故障为0。

步骤3，在所有的特征维度中选择一合适的强相关特征数目n(即上述第一数量)。

步骤4，利用卡方分布得到与标签相关性最大的n+1个特征维度X0，X1，…，Xn作为目标特征维度，n+1为大于0小于特征维度数量的整数，建立关系式：z＝α₀X0+α₂X1+α₂X2+α₃X3+…+α_nXn。

步骤5，利用逻辑回归算法使用样本数据的目标特征维度的特征值和对应的目标数据标签进行训练并得到权重α₀，α₂，…，α_n。

步骤6，对于待分类的数据，计算待分类数据对应的z的大小。

步骤7，计算

的大小并进行判断：

若，y≥0.5输出1，判断为正常；若y<0.5，输出0，判断为故障。

作为一种可选的实施例，使用所述目标分类模型对获取到的待分类数据进行分类包括：

S51，从所述待分类数据中获取所述目标特征维度对应的特征值；

S52，将所述待分类数据中所述目标特征维度对应的特征值作为所述目标逻辑回归模型的输入参数输入至所述目标逻辑回归模型；

S53，将所述目标逻辑回归模型的输出值所指示的数据类型确定所述待分类数据的目标数据类型。

可选地，在本实施例中，对于使用目标特征维度的特征训练得到的目标逻辑回归模型，其输出是待分类数据的目标特征维度的特征值，输出是分类结果。该结果可以用于表示待分类数据为某一类型的概率。

本申请还提供了一种可选实施例，该可选实施例根据热控系统中某个故障的数据用上述数据的分类方式进行分析，其中，故障和数据说明如下：

故障描述：北分流器分流电流异常，时间：某年1月24日20:52:00。故障说明：某年1月24日20：52至21：10分，发现北分流电流(电流4)从11.23A跳变为0A，之后就在0A～11.42A之间上下波动。21：10分之后北分流电流恢复正常，卫星工作正常。

数据参数说明：如图3所示，44个参数包括：电压1～电压20，电流1～电流8，温度1～温度20，(其中，不含温度2、温度5、温度7、温度8)。故障数据展示：用python将北分流电流数据进行打印，如图4所示，发现异常区间。对数据建立标签：根据异常对数据打标签，标识异常阶段标签为0，正常阶段标签为1，如图5所示，可以将每个样本的数据进行处理。然后利用卡方分布得到如图6所示与标签相关性最大的5个特征维度。再利用逻辑回归输出关系式，如图7所示，输出每个特征的权重信息并得到判断规则关系式，其中，X0、X1、X2、X3、X4为选择的相关性最大的特征，前面的系数为学到的相关权重。

通过以下步骤对待分类数据进行分类：

第一步：得到z＝α₀X0+α₁X1+α₂X2+α₃X3+α₄X4；

第二步：计算y＝1/1+e^-z的值；

第三步：进行判断，若y≥0.5，输出1，判断为正常；若y＜0.5，输出0，判断为故障。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述数据的分类方法的数据的分类装置。图8是根据本申请实施例的一种可选的数据的分类装置的示意图，如图8所示，该装置可以包括：

获取模块82，用于获取多组样本数据，以及所述多组样本数据中每组样本数据对应的数据标签，其中，所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；

确定模块84，用于将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；

训练模块86，用于使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值；

分类模块88，用于使用所述目标分类模型对获取到的待分类数据进行分类。

需要说明的是，该实施例中的获取模块82可以用于执行本申请实施例中的步骤S202，该实施例中的确定模块84可以用于执行本申请实施例中的步骤S204，该实施例中的训练模块86可以用于执行本申请实施例中的步骤S206，该实施例中的分类模块88可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，通过特征维度与数据标签之间相关度的计算从多个特征维度中筛选出与数据标签的相关度较高的目标特征维度，达到了从特征维度中去除无关特征的目的，采用相关性较高的目标特征维度训练分类模型，使得训练后的目标分类模型的分类效率更高，从而实现了提高对数据进行分类的分类精度的技术效果，进而解决了对数据进行分类的分类精度较低的技术问题。

作为一种可选的实施例，所述确定模块包括：

作为一种可选的实施例，所述第一确定单元包括：

作为一种可选的实施例，所述训练模块包括：

作为一种可选的实施例，所述训练单元包括：

作为一种可选的实施例，所述分类模块包括：

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述数据的分类方法的服务器或终端。

图9是根据本申请实施例的一种终端的结构框图，如图9所示，该终端可以包括：一个或多个(图中仅示出一个)处理器901、存储器903、以及传输装置905，如图9所示，该终端还可以包括输入输出设备207。

其中，存储器903可用于存储软件程序以及模块，如本申请实施例中的数据的分类方法和装置对应的程序指令/模块，处理器901通过运行存储在存储器903内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据的分类方法。存储器903可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器903可进一步包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置905用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置905包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置905为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器903用于存储应用程序。

处理器901可以通过传输装置905调用存储器903存储的应用程序，以执行下述步骤：

S1，获取多组样本数据，以及所述多组样本数据中每组样本数据对应的数据标签，其中，所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值；

S2，将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度；

S3，使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型，其中，所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值；

S4，使用所述目标分类模型对获取到的待分类数据进行分类。

采用本申请实施例，提供了一种数据的分类的方案。通过特征维度与数据标签之间相关度的计算从多个特征维度中筛选出与数据标签的相关度较高的目标特征维度，达到了从特征维度中去除无关特征的目的，采用相关性较高的目标特征维度训练分类模型，使得训练后的目标分类模型的分类效率更高，从而实现了提高对数据进行分类的分类精度的技术效果，进而解决了对数据进行分类的分类精度较低的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图9所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行数据的分类方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据的分类方法，其特征在于，包括：

使用所述目标分类模型对获取到的待分类数据进行分类。

2.根据权利要求1所述的方法，其特征在于，将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度包括：

3.根据权利要求2所述的方法，其特征在于，确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度包括：

4.根据权利要求1所述的方法，其特征在于，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练，得到目标分类模型包括：

5.根据权利要求4所述的方法，其特征在于，使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练，得到所述目标逻辑回归模型包括：

6.根据权利要求5所述的方法，其特征在于，使用所述目标分类模型对获取到的待分类数据进行分类包括：

从所述待分类数据中获取所述目标特征维度对应的特征值；

7.一种数据的分类装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。