CN112465031A

CN112465031A - 数据分类方法、装置以及计算机可读存储介质

Info

Publication number: CN112465031A
Application number: CN202011364058.6A
Authority: CN
Inventors: 姚俊荣
Original assignee: Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Current assignee: Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09

Abstract

本发明涉及数据分类处理技术领域，具体提供了一种数据分类方法、装置以及计算机可读存储介质，旨在解决如何提高数据分类准确性的技术问题。为此目的，根据本发明实施例的方法，可以利用预先基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的数据分类模型，对待分类数据进行数据分类，根据数据分类的结果获取待分类数据的数据类别。根据逆采样样本的特征进行模型优化，可以提高模型对不平衡训练样本内小类别样本的分类学习能力；根据随机采样样本的特征进行模型优化，可以提高模型对不平衡训练样本内大类别样本的分类学习能力，从而使训练好的数据分类模型能够对待识别数据进行准确地数据分类。

Description

数据分类方法、装置以及计算机可读存储介质

技术领域

本发明涉及数据分类处理技术领域，具体涉及一种数据分类方法、装置以及计算机可读存储介质。

背景技术

在利用训练集对分类模型进行模型训练时，训练集内样本类别的分布情况，会极大地影响分类模型的训练效果。具体而言，如果训练集内一部分类别样本(简称为小类别)的数量远远小于其他类别样本(简称为大类别)的数量，那么在利用机器学习算法对分类模型进行训练时，由于使分类模型只对大类别样本进行分类学习会显著提高模型的分类准确率，因此机器学习算法会使分类模型放弃或减少对小类别样本的分类学习，最终导致在利用训练好的分类模型对属于小类别的测试样本进行类别识别时，会更加倾向于识别该测试样本属于大类别。例如：如果训练集内包括1个A类样本和99个B类样本，由于只对B类样本进行分类学习会使分类模型得到最高99％的分类准确率，因此机器学习算法会使分类模型放弃对A类样本的分类学习，导致训练好的模型无法识别出A类别数据。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何提高数据分类准确性的技术问题的数据分类方法、装置以及计算机可读存储介质。

第一方面，提供一种数据分类方法，所述方法包括：

获取待分类数据；

利用预设的数据分类模型对所述待分类数据进行分类，以获取所述待分类数据的数据类别；

其中，所述预设的数据分类模型是基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的，所述训练样本中一部分类别样本的数量远小于其他类别样本的数量。

在上述数据分类方法的一个技术方案中，所述预设的数据分类模型包括数据输入模块、特征提取模块、特征融合模块和分类器；所述特征提取模块包括多个顺次连接的特征提取子模块并且首个特征提取子模块与所述数据输入模块连接，最后一个特征提取子模块与所述特征融合模块连接；所述最后一个特征提取子模块包括结构相同的主特征提取单元和附属特征提取单元；

所述特征提取模块被配置成提取输入数据的数据特征；

所述特征融合模块被配置成对所述主特征提取单元与所述附属特征提取单元输出的数据特征进行特征融合，得到特征融合结果；

所述分类器被配置成根据所述特征融合结果进行数据分类。

在上述数据分类方法的一个技术方案中，所述预设的数据分类模型是通过下列方式训练得到的：

分别对训练样本进行随机采样与逆采样，得到随机采样样本和逆采样样本；

利用下式所示的模型损失函数L并且根据所述特征融合模块输出的所述随机采样样本与所述逆采样样本的特征融合结果，计算所述数据分类模型的模型损失值；

L＝α₁L_CE(P_mix，y_normal)+(1-α₁)L_CE(P_mix，y_reverse)

其中，所述P_mix表示所述分类器根据所述特征融合结果进行数据分类输出的类别预测值，所述y_normal表示所述随机采样样本的类别标签值，所述y_reverse表示所述逆采样样本的类别标签值，所述L_CE(P_mix，y_normal)表示类别预测值P_mix与类别标签值y_normal的误差函数且L_CE(P_mix，y_normal)＝-y_normallnP_mix，所述L_CE(P_mix，y_reverse)表示类别预测值P_mix与类别标签值y_reverse的误差函数且L_CE(P_mix，y_reverse)＝-y_reverselnP_mix；所述α₁表示模型损失函数的权重且

所述i_epoch表示当前迭代训练的迭代次数，所述n_epoch表示迭代训练的总次数；

根据所述模型损失值，计算所述数据分类模型中每个模型参数各自对应的梯度，并且根据所述梯度反向传播更新所述数据分类模型的模型参数进行模型优化，以完成当前迭代训练；

判断是否满足迭代停止条件；

若是，则停止训练；若否，则执行下一次迭代训练。

在上述数据分类方法的一个技术方案中，“对训练样本进行逆采样”的步骤具体包括：

按照下式所示的方法分别获取每类训练样本各自对应的类别权重；

其中，所述w_i表示第i类训练样本的类别权重，所述n_i表示第i类训练样本的数量，所述n_max表示数量最多的一类训练样本的数量；

根据所述类别权重，获取所述每类训练样本各自对应的采样概率；所述采样概率与所述类别权重成正相当关系且所有类别训练样本的采样概率之和是1；

根据所述采样概率对所述训练样本进行逆采样；

并且/或者，在“计算所述数据分类模型的模型损失值”的步骤之前，所述方法还包括：

分别对所述随机采样样本与所述逆采样样本进行数据增强处理，以便利用经所述数据增强处理后的所述随机采样样本与所述逆采样样本对所述数据分类模型进行模型优化。

在上述数据分类方法的一个技术方案中，在“计算所述数据分类模型的模型损失值”的步骤之前，所述方法还包括：

控制所述主特征提取单元提取所述随机采样样本的样本特征，以及控制所述附属特征提取单元提取所述逆采样样本的样本特征；

控制所述特征融合模块获取特征融合权重并且按照下式所示的方法对所述主特征提取单元与所述附属特征提取单元输出的样本特征进行特征融合：

f_{mix_1}＝α₂f_normal+(1-α₂)f_reverse

其中，所述f_{mix_1}表示所述随机采样样本与所述逆采样样本的特征融合结果，所述f_normal表示所述主特征提取单元输出的样本特征，所述f_reverse表示所述附属特征提取单元输出的样本特征，所述α₂表示所述特征融合权重且

在上述数据分类方法的一个技术方案中，在“利用预设的数据分类模型对所述待分类数据进行数据分类”的步骤之前，所述方法还包括：

控制所述主特征提取单元与所述附属特征提取单元分别提取所述待分类数据的数据特征；

控制所述特征融合模块按照下式所示的方法对所述主特征提取单元与所述附属特征提取单元输出的所述待分类数据的数据特征进行特征融合：

f_{mix_2}＝0.5×f_{re_1}+0.5×f_{re_2}

其中，所述f_{mix_2}表示所述待分类数据的特征融合结果，所述f_{re_1}表示所述主特征提取单元输出的所述待分类数据的数据特征，所述f_{re_2}表示所述附属特征提取单元输出的所述待分类数据的数据特征。

第二方面，提供一种数据分类装置，所述装置包括：

数据获取模块，其被配置成获取待分类数据；

数据分类模块，其被配置成利用预设的数据分类模型对所述待分类数据进行分类，以获取所述待分类数据的数据类别；

在上述数据分类装置的一个技术方案中，所述预设的数据分类模型包括数据输入模块、特征提取模块、特征融合模块和分类器；所述特征提取模块包括多个顺次连接的特征提取子模块并且首个特征提取子模块与所述数据输入模块连接，最后一个特征提取子模块与所述特征融合模块连接；所述最后一个特征提取子模块包括结构相同的主特征提取单元和附属特征提取单元；

所述特征提取模块被配置成提取输入数据的数据特征；

所述分类器被配置成根据所述特征融合结果进行数据分类。

在上述数据分类装置的一个技术方案中，所述装置还包括模型训练模块，所述模型训练模块包括数据采样子模块、模型优化子模块和训练停止判断子模块；

所述数据采样子模块被配置成分别对训练样本进行随机采样与逆采样，得到随机采样样本和逆采样样本；

所述模型优化子模块被配置成利用下式所示的模型损失函数L并且根据所述特征融合模块输出的所述随机采样样本与所述逆采样样本的特征融合结果，计算所述数据分类模型的模型损失值；

L＝α₁L_CE(P_mix，y_normal)+(1-α₁)L_CE(P_mix，y_reverse)

所述训练停止判断子模块被配置成在完成一次迭代训练后判断是否满足迭代停止条件；若是，则停止训练；若否，则执行下一次迭代训练。

在上述数据分类装置的一个技术方案中，所述数据采样子模块被进一步配置成执行以下操作：

根据所述采样概率对所述训练样本进行逆采样；

并且/或者，所述模型优化子模块被进一步配置成分别对所述随机采样样本与所述逆采样样本进行数据增强处理，以便利用经所述数据增强处理后的所述随机采样样本与所述逆采样样本对所述数据分类模型进行模型优化。

在上述数据分类装置的一个技术方案中，所述模型优化子模块被进一步配置成执行以下操作：

f_{mix_1}＝α₂f_normal+(1-α₂)f_reverse

在上述数据分类装置的一个技术方案中，所述数据分类模块被进一步配置成执行以下操作：

f_{mix_2}＝0.5×f_{re_1}+0.5×f_{re_2}

第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述数据分类方法的技术方案中任一项技术方案所述的数据分类方法。

第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述数据分类方法的技术方案中任一项技术方案所述的数据分类方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，可以利用预先基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的数据分类模型，对待分类数据进行数据分类，根据数据分类的结果获取待分类数据的数据类别。通过对训练样本进行逆采样可以设置每类训练样本的权重，如果某类训练样本的权重越大，那么该类训练样本被采样到的采样概率也就越大，因而，对于不平衡训练集而言，可以通过提高小类别样本的权重以提高其采样概率，从而在模型训练时可以使分类模型更加关注对小类别样本的类别学习，但是这样也会导致分类模型减少对大类别样本的类别学习，最终可能导致训练好的分类模型将属于大类别的数据被识别为属于小类别的数据。为了克服上述缺陷，根据本发明实施例的方法除了对训练样本进行逆采样，还可以对训练样本进行随机采样以保证每个训练样本的采集概率相同，然后提取逆采样样本的特征与随机采样样本的特征，根据逆采样样本与随机采样样本的特征融合结果进行类别分类学习，从而能够在保证模型对大类别数据具备较高识别准确率的前提下，也能够提高模型对小类别数据的识别准确率。

进一步，在实施本发明的技术方案中，可以在随机采样与逆采样之后，分别对采样得到的随机采样样本与逆采样样本进行样本扩充，以提高每类样本的数量，进而再执行后续的模型优化等步骤，从而进一步提高模型对不平衡训练样本内每类样本的分类学习能力。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1是根据本发明的一个实施例的数据分类方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的数据分类装置的主要结构框图。

附图标记列表：

11：数据获取模块；12：数据分类模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

在机器学习技术领域中主要是利用包含有不同类别样本的训练集对分类模型进行模型训练，以便能够利用训练好的分类模型识别待识别数据如测试样本的类别。然而，对于一部分类别样本(小类别)的数量远小于其他类别样本(大类别)的数量的不平衡训练集而言，利用这样的训练集进行模型训练，将会导致训练好的分类模型将属于小类别的数据被误识别为属于大类别的数据。而在本发明实施例中，可以利用预先基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的数据分类模型，对待分类数据进行数据分类，根据数据分类的结果获取待分类数据的数据类别。通过对训练样本进行逆采样可以设置每类训练样本的权重，如果某类训练样本的权重越大，那么该类训练样本被采样到的采样概率也就越大，因而，对于不平衡训练集而言，可以通过提高小类别样本的权重以提高其采样概率，从而在模型训练时可以使分类模型更加关注对小类别样本的类别学习，但是这样也会导致分类模型减少对大类别样本的类别学习，最终可能导致训练好的分类模型将属于大类别的数据被识别为属于小类别的数据。为了克服上述缺陷，根据本发明实施例的方法除了对训练样本进行逆采样，还可以对训练样本进行随机采样以保证每个训练样本的采集概率相同，然后提取逆采样样本的特征与随机采样样本的特征，根据逆采样样本与随机采样样本的特征融合结果进行类别分类学习，从而能够在保证模型对大类别数据具备较高识别准确率(利用随机采样样本的特征实现)的前提下，也能够提高模型对小类别数据的识别准确率(利用逆采样样本的特征实现)。

在本发明的一个应用场景的例子中，获取一段时间内某段交通道路上的视频监控信息，提取视频监控信息中人员驾驶摩托车和电动自行车等车辆的图像并且将这些图像作为训练样本，根据图像中驾驶人员是否佩戴头盔，分别为每个图像设置佩戴头盔的第一类别标签和未佩戴头盔的第二标签，其中佩戴头盔的图像数量远远小于未佩戴头盔的图像数量。利用根据本发明的一个实施例的数据分类方法，分别对上述训练样本进行随机采样和逆采样，根据随机采样样本和逆采样样本的特征融合结果对数据分类模型进行模型训练，以使该数据分类模型能够准确识别出待识别图像的类别(佩戴头盔或未佩戴头盔)。然后，利用上述训练好的数据分类模型对目标区域的监控图像进行图像分类分析，以判断该目标区域内是否存在未佩戴头盔的车辆驾驶人员；若是，则可以输出提醒信息，以便监控人员能够采取及时有效的措施，提醒相关车辆驾驶人员及时佩戴头盔，防止发生危机人身安全的行车事故。

参阅附图1，图1是根据本发明的一个实施例的数据分类方法的主要步骤流程示意图。如图1所示，本发明实施例中的数据分类方法主要包括以下步骤：

步骤S101：获取待分类数据。

待分类数据指的是需要识别出其具体属于哪一类的数据。在本实施例中待分类数据包括但不限于：待分类的图像数据和待分类的语音数据等。

步骤S102：利用预设的数据分类模型对待分类数据进行分类，以获取待分类数据的数据类别。

预设的数据分类模型指的是基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的模型。

在本实施例中训练样本可以是样本类别分布不均衡的不平衡样本，即训练样本中一部分类别样本的数量远小于(＜＜)其他类别样本的数量。具体而言，上述“一部分类别样本的数量”与上述“其他类别样本的数量”的数量差大于等于预设的差值。一个实施方式中，预设的差值可以是小于上述“其他类别样本的数量”的数量并且与该数量接近的数值。一个例子：训练样本包括1个A类样本和99个B类样本，预设的差值可以是80，由于A类样本与B类样本的数量差大于预设的差值，则判定当前训练样本属于不平衡样本。

在本发明实施例中，预设的数据分类模型可以包括数据输入模块、特征提取模块、特征融合模块和分类器。特征提取模块可以包括多个顺次连接的特征提取子模块并且首个特征提取子模块与数据输入模块连接，最后一个特征提取子模块与特征融合模块连接；所述最后一个特征提取子模块可以包括结构相同的主特征提取单元和附属特征提取单元。一个实施方式中，特征提取模块可以被配置成提取输入数据的数据特征。特征融合模块可以被配置成对主特征提取单元与附属特征提取单元输出的数据特征进行特征融合，得到特征融合结果。分类器可以被配置成根据特征融合结果进行数据分类。

需要说明的是，在本实施例中可以采用机器学习技术领域中常规的模型结构，对模型结构进行改进形成上述特征提取模块。例如：ResNet50模型结构包括四个顺次连接的特征提取子模块1-4，可以将特征提取子模块4的数量设置为2，即两个结构相同的特征提取子模块(主特征提取单元和附属特征提取单元)，这两个特征提取子模块同时与特征提取子模块3连接，这两个特征提取子模块的输出结果就是特征提取模块的输出结果。此外，在本实施例中可以采用机器学习技术领域中常规的分类模型作为分类器。常规的分类模型包括但不限于：感知机(Perception)、多层感知机(multilayer perceptron)和支持向量机(support vector machine)等。

在对数据分类模型进行训练时，可以配置主特征提取单元单独提取随机采样样本的特征，配置附属特征提取单元单独提取逆采样样本的特征，以便特征融合模块能够对随机采样样本与逆采样样本进行特征融合，完成后续的模型优化。具体而言，一个实施方式中，可以按照以下步骤11-13对数据分类模型进行迭代训练，以便利用训练好的数据分类模型对待分类数据进行分类。

步骤11：分别对训练样本进行随机采样与逆采样，得到随机采样样本和逆采样样本。

在本实施例中可以采用数据采样技术领域中常规的随机采样方法对训练样本进行随机采样，为了描述简洁，在此不再赘述。

在本实施例中可以按照下列公式(1)所示的方法分别获取每类训练样本各自对应的类别权重，然后根据类别权重获取每类训练样本各自对应的采样概率，采样概率与类别权重成正相当关系且所有类别训练样本的采样概率之和是1。最后采用数据采样技术领域中常规的逆采样方法并且根据上述采样概率对训练样本进行逆采样，为了描述简洁，在此不再对逆采样的具体采样过程进行赘述。

公式(1)中各参数含义如下：

w_i表示第i类训练样本的类别权重，n_i表示第i类训练样本的数量，n_max表示数量最多的一类训练样本的数量。一个例子：训练集包括1个A类训练样本、48个B类训练样本和51个C类训练样本，那么根据公式(1)可以得到A、B和C类训练样本各自对应的类别权重依次是51、1.0625和1。需要说明的是，本实施例中可以采用常规的概率计算方法，根据权重越大则概率越大的原则，根据每类训练样本各自对应的类别权重，分别计算每类训练样本各自对应的采样概率。例如：如果A、B和C类训练样本各自对应的类别权重依次是51、1.0625和1，那么A、B和C类训练样各自对应的采样概率可以依次是0.8、0.1和0.1。

步骤12：利用下列公式(2)的模型损失函数L并且根据特征融合模块输出的随机采样样本与逆采样样本的特征融合结果，计算数据分类模型的模型损失值(模型损失函数L的计算结果)。

L＝α₁L_CE(P_mix，y_normal)+(1-α₁)L_CE(P_mix，y_reverse) (2)

公式(2)中各参数含义如下：

P_mix表示分类器根据特征融合结果进行数据分类输出的类别预测值，y_normal表示随机采样样本的类别标签值，y_reverse表示逆采样样本的类别标签值，L_CE(P_mix，y_normal)表示类别预测值P_mix与类别标签值y_normal的误差函数且L_CE(P_mix，y_normal)＝-y_normallnP_mix，L_CE(P_mix，y_reverse)表示类别预测值P_mix与类别标签值y_reverse的误差函数且L_CE(P_mix，y_reverse)＝-y_reverselnP_mix；α₁表示模型损失函数的权重且

i_epoch表示当前迭代训练的迭代次数，n_epoch表示迭代训练的总次数。

在根据公式(2)计算出模型损失值之后(前向传播完成)，根据该模型损失值计算数据分类模型中每个模型参数各自对应的梯度，并且根据梯度反向传播更新数据分类模型的模型参数进行模型优化，以完成当前迭代训练。需要说明的是，本实施例中可以采用机器学习技术领域中常规的利用参数梯度进行参数更新的方法进行模型优化，例如可以采用梯度下降法(Gradient Descend)，根据计算出的模型参数的梯度进行反向传播更新数据分类模型中的模型参数。为了描述简洁，在此不再对上述参数更新方法的工作原理和具体过程进行赘述。

由前述可知，本实施例中分类器可以采用机器学习技术领域中常规的分类模型，因而这个分类模型可以根据输入数据的数据特征得到这个输入数据对应的每个数据类别的预测概率，进而再对每个预测概率进行编码就可以得到输入数据的类别预测值，即分类器根据特征融合结果进行数据分类输出的类别预测值P_mix。一个例子：如果样本类别包括A、B和C，某个输入数据对应的A、B和C类别的预测概率依次是0.8、0.1和0.1，那么分类器输出的类别预测值P_mix可以是一维向量[1 0 0]。需要说明的是，本发明虽然仅提供了一种根据预测概率获取类别预测值P_mix的编码方式，但是，本领域技术人员能够理解的是，本发明的保护范围不局限于这一种具体的编码方式，本领域技术人员可以根据实际需求采用其他的编码方式对预测概率进行编码，对编码方式的更改或替换均应落入本发明的保护范围之内。

步骤13：判断是否满足迭代停止条件。若满足迭代停止条件，则停止训练。若不满足迭代停止条件，则执行下一次迭代训练，即转至步骤11，重复执行一次步骤11-步骤13。

在本实施例中迭代停止条件可以是模型损失函数L的计算结果(模型损失值)小于预设值，也可以是迭代次数达到预设次数如50次。本领域技术人员可以根据实际需求灵活设置迭代停止条件的具体内容，迭代停止条件的更改或替换均落入本发明的保护范围之内。

由前述分析可知，通过对训练样本进行逆采样，根据逆采样样本的特征进行模型优化，可以提高模型对不平衡训练样本内小类别样本的分类学习能力。通过对训练样本进行随机采样，根据随机采样样本的特征进行模型优化，可以提高模型对不平衡训练样本内大类别样本的分类学习能力。为了进一步提高模型对不平衡训练样本内每类样本的分类学习能力，可以在随机采样与逆采样之后，分别对采样得到的随机采样样本与逆采样样本进行样本扩充，以提高每类样本的数量，进而再执行后续的模型优化等步骤。具体而言，一个实施方式中，在执行步骤12之前，可以先执行以下步骤120。

步骤120：对随机采样样本与逆采样样本分别进行数据增强处理，然后将数据增强后的随机采样样本与逆采样样本输入至分类数据模型中，以便分类数据模型中的特征提取模块能够提取这些样本的特征，以及对随机采样样本与逆采样样本进行特征融合。

需要说明的是，在本实施例中可以采用数据处理技术领域中常规的数据增强方法对随机采样样本与逆采样样本数据增强处理。例如：如果样本是图像样本，那么数据增强方法包括但不限于：图像裁剪、缩放、翻转和拼接等。为了描述简洁，在此不再对数据增强方法的具体原理与工作过程进行赘述。

进一步，由前述分析可知，在对数据分类模型进行训练时，可以配置主特征提取单元单独提取随机采样样本的特征，配置附属特征提取单元单独提取逆采样样本的特征，以便特征融合模块能够对随机采样样本与逆采样样本进行特征融合，完成后续的模型优化。因而，执行步骤12之前还可以先控制主特征提取单元提取随机采样样本的样本特征，以及控制附属特征提取单元提取逆采样样本的样本特征，然后再控制特征融合模块对随机采样样本与逆采样样本进行特征融合。具体而言，一个实施方式中，在执行步骤120之后，可以先执行以下步骤121-122，然后再执行步骤12。

步骤121：控制主特征提取单元提取随机采样样本的样本特征，以及控制附属特征提取单元提取逆采样样本的样本特征。

步骤122：控制特征融合模块获取特征融合权重并且按照下列公式(3)所示的方法对主特征提取单元与附属特征提取单元输出的样本特征进行特征融合：

f_{mix_1}＝α₂f_normal+(1-α₂)f_reverse (3)

公式(3)中各参数含义如下：

f_{mix_1}表示随机采样样本与逆采样样本的特征融合结果，f_normal表示主特征提取单元输出的样本特征，fr_everse表示附属特征提取单元输出的样本特征，α₂表示特征融合权重且

通过上述步骤，即可完成对数据分类模型的模型训练，以使训练后的数据分类模型能够准确地对待分类数据进行数据分类。而在利用训练好的数据分类模型进行数据分类时，由于不再对待分类数据进行随机采样和逆采样，而是直接将待分类数据输入至数据分类模型中，因此也就无需控制主特征提取单元提取随机采样样本的样本特征，以及控制附属特征提取单元提取逆采样样本的样本特征，此时可以控制主特征提取单元与附属特征提取单元分别提取待分类数据的数据特征，然后再控制特征融合模块对主特征提取单元与附属特征提取单元输出的待分类数据的数据特征进行特征融合。具体而言，一个实施方式中，步骤S102可以包括以下步骤是S1021-步骤S1022。

步骤S1021：控制主特征提取单元与附属特征提取单元分别提取待分类数据的数据特征。

步骤S1022：控制特征融合模块按照下列公式(4)所示的方法对主特征提取单元与附属特征提取单元输出的待分类数据的数据特征进行特征融合：

f_{mix_2}＝0.5×f_{re_1}+0.5×f_{re_2} (4)

公式(4)中各参数含义如下：

f_{mix_2}表示待分类数据的特征融合结果(对主特征提取单元与附属特征提取单元输出的待分类数据的数据特征进行特征融合得到的结果)，f_{re_1}表示主特征提取单元输出待分类数据的数据特征，f_{re_2}表示附属特征提取单元输出的待分类数据的数据特征。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种数据分类装置。

参阅附图2，图2是根据本发明的一个实施例的数据分类装置的主要结构框图。如图2所示，本发明实施例中的数据分类装置主要包括数据获取模块11和数据分类模块12。在一些实施例中，数据获取模块11可以被配置成获取待分类数据。数据分类模块12可以被配置成利用预设的数据分类模型对待分类数据进行分类，以获取待分类数据的数据类别。其中，预设的数据分类模型可以是基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的，训练样本中一部分类别样本的数量远小于其他类别样本的数量。一个实施方式中，具体实现功能的描述可以参见步骤S101-步骤S102所述。

在一个实施方式中，预设的数据分类模型可以包括数据输入模块、特征提取模块、特征融合模块和分类器。在本实施方式中，特征提取模块可以包括多个顺次连接的特征提取子模块并且首个特征提取子模块与数据输入模块连接，最后一个特征提取子模块与特征融合模块连接；所述最后一个特征提取子模块可以包括结构相同的主特征提取单元和附属特征提取单元。特征提取模块可以被配置成提取输入数据的数据特征。特征融合模块可以被配置成对主特征提取单元与附属特征提取单元输出的数据特征进行特征融合，得到特征融合结果。分类器可以被配置成根据特征融合结果进行数据分类。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中，数据分类装置还可以包括模型训练模块。在本实施方式中，模型训练模块可以包括数据采样子模块、模型优化子模块和训练停止判断子模块。数据采样子模块可以被配置成分别对训练样本进行随机采样与逆采样，得到随机采样样本和逆采样样本；模型优化子模块可以被配置成利用公式(2)所示的模型损失函数L并且根据特征融合模块输出的随机采样样本与逆采样样本的特征融合结果，计算数据分类模型的模型损失值；根据模型损失值，计算数据分类模型中每个模型参数各自对应的梯度，并且根据梯度反向传播更新数据分类模型的模型参数进行模型优化，以完成当前迭代训练；训练停止判断子模块可以被配置成在完成一次迭代训练后判断是否满足迭代停止条件；若是，则停止训练；若否，则执行下一次迭代训练。一个实施方式中，具体实现功能的描述可以参见步骤11-步骤13所述。

在一个实施方式中，数据采样子模块可以被进一步配置成执行以下操作：按照公式(1)所示的方法分别获取每类训练样本各自对应的类别权重；根据类别权重获取每类训练样本的采样概率，采样概率与类别权重成正相当关系且所有类别训练样本的采样概率之和是1；根据采样概率对训练样本进行逆采样。一个实施方式中，具体实现功能的描述可以参见步骤11所述。

在一个实施方式中，模型优化子模块可以被进一步配置成：分别对随机采样样本与逆采样样本进行数据增强处理，以便利用经数据增强处理后的随机采样样本与逆采样样本对数据分类模型进行模型优化。一个实施方式中，具体实现功能的描述可以参见步骤120所述。

在一个实施方式中，模型优化子模块可以被进一步配置成执行以下操作：控制主特征提取单元提取随机采样样本的样本特征，以及控制附属特征提取单元提取逆采样样本的样本特征；控制特征融合模块获取特征融合权重并且按照公式(3)所示的方法对主特征提取单元与附属特征提取单元输出的样本特征进行特征融合。一个实施方式中，具体实现功能的描述可以参见步骤121-步骤122所述。

在一个实施方式中，数据分类模块12可以被进一步配置成执行以下操作：控制主特征提取单元与附属特征提取单元分别提取待分类数据的数据特征；控制特征融合模块按照公式(4)所示的方法对主特征提取单元与附属特征提取单元输出的待分类数据的数据特征进行特征融合。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

上述数据分类装置以用于执行图1所示的数据分类方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，数据分类装置的具体工作过程及有关说明，可以参考数据分类方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的数据分类方法的程序，该程序可以由处理器加载并运行以实现上述数据分类方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的数据分类方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的数据分类方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的系统的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种数据分类方法，其特征在于，所述方法包括：

获取待分类数据；

2.根据权利要求1所述的数据分类方法，其特征在于，所述预设的数据分类模型包括数据输入模块、特征提取模块、特征融合模块和分类器；所述特征提取模块包括多个顺次连接的特征提取子模块并且首个特征提取子模块与所述数据输入模块连接，最后一个特征提取子模块与所述特征融合模块连接；所述最后一个特征提取子模块包括结构相同的主特征提取单元和附属特征提取单元；

所述特征提取模块被配置成提取输入数据的数据特征；

所述分类器被配置成根据所述特征融合结果进行数据分类。

3.根据权利要求2所述的数据分类方法，其特征在于，所述预设的数据分类模型是通过下列方式训练得到的：

L＝α₁L_CE(P_mix，y_normal)+(1-α₁)L_CE(P_mix，y_reverse)

判断是否满足迭代停止条件；

若是，则停止训练；若否，则执行下一次迭代训练。

4.根据权利要求3所述的数据分类方法，其特征在于，“对训练样本进行逆采样”的步骤具体包括：

根据所述采样概率对所述训练样本进行逆采样；

并且/或者，

在“计算所述数据分类模型的模型损失值”的步骤之前，所述方法还包括：

5.根据权利要求3所述的数据分类方法，其特征在于，在“计算所述数据分类模型的模型损失值”的步骤之前，所述方法还包括：

f_{mix_1}＝α₂f_normal+(1-α₂)f_reverse

6.根据权利要求2所述的数据分类方法，其特征在于，在“利用预设的数据分类模型对所述待分类数据进行分类”的步骤之前，所述方法还包括：

f_{mix_2}＝0.5×f_{re_1}+0.5×f_{re_2}

7.一种数据分类装置，其特征在于，所述装置包括：

数据获取模块，其被配置成获取待分类数据；

8.根据权利要求7所述的数据分类装置，其特征在于，所述预设的数据分类模型包括数据输入模块、特征提取模块、特征融合模块和分类器；所述特征提取模块包括多个顺次连接的特征提取子模块并且首个特征提取子模块与所述数据输入模块连接，最后一个特征提取子模块与所述特征融合模块连接；所述最后一个特征提取子模块包括结构相同的主特征提取单元和附属特征提取单元；

所述特征提取模块被配置成提取输入数据的数据特征；

所述分类器被配置成根据所述特征融合结果进行数据分类。

9.根据权利要求8所述的数据分类装置，其特征在于，所述装置还包括模型训练模块，所述模型训练模块包括数据采样子模块、模型优化子模块和训练停止判断子模块；

L＝α₁L_CE(P_mix，y_normal)+(1-α₁)L_CE(P_mix，y_reverse)

10.根据权利要求9所述的数据分类装置，其特征在于，所述数据采样子模块被进一步配置成执行以下操作：

根据所述采样概率对所述训练样本进行逆采样；

并且/或者，

所述模型优化子模块被进一步配置成分别对所述随机采样样本与所述逆采样样本进行数据增强处理，以便利用经所述数据增强处理后的所述随机采样样本与所述逆采样样本对所述数据分类模型进行模型优化。

11.根据权利要求9所述的数据分类装置，其特征在于，所述模型优化子模块被进一步配置成执行以下操作：

f_{mix_1}＝α₂f_normal+(1-α₂)f_reverse

12.根据权利要求8所述的数据分类装置，其特征在于，所述数据分类模块被进一步配置成执行以下操作：

f_{mix_2}＝0.5×f_{re_1}+0.5×f_{re_2}

13.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至6中任一项所述的数据分类方法。

14.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至6中任一项所述的数据分类方法。