CN109214400A

CN109214400A - 分类器训练方法、装置、设备和计算机可读存储介质

Info

Publication number: CN109214400A
Application number: CN201710524158.2A
Authority: CN
Inventors: 徐以华
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2019-01-15

Abstract

本发明公开了一种分类器训练方法、装置、设备和计算机存储介质，该方法包括：确定分类器对应的用于计算梯度方向的目标函数，目标函数的参数为分类器的待确定的特征向量系数；从预设的训练样本集中抽取训练子集，并获取已代入目标函数中计算梯度方向的训练样本集中的其他子集；将训练子集和其他子集代入目标函数计算梯度方向；根据计算结果确定特征向量系数的值；根据特征向量系数的值，确定分类器。根据本发明，在抽取训练子集进行训练时，同时考虑当前抽取的样本子集和前一样本子集，根据向量的叠加原理，可以保持梯度是按照梯度下降的方向，一定程度上优化了对边缘样本的容错率，同时兼备了高效性。

Description

分类器训练方法、装置、设备和计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种分类器训练方法、装置、设备和计算机可读存储介质。

背景技术

随着4G(第四代移动通信技术)应用的推广，无线网络的服务主体逐渐向数据业务转移，越来越多的用户使用无线终端享受数据服务，例如观看视频，浏览网页、聊天等。每种数据业务的特征不同，对于无线网络的资源占用情况也有很大差异：使用聊天工具的用户，在线时长往往大于下载文件的用户，但是其流量可能只有下载用户的百分之一，同时不同的业务对于无线环境的要求也不一致。

为了改善用户使用感受，我们需要了解无线网元上的现有资源是否能够满足用户业务的需要，也就是依赖于用户业务分类和感知评估的方法。解决这个问题需要根据业务特征(业务量大小、业务时长，业务时延，丢包率等)对业务进行有效的识别和分类，因此，业务分类成为了一个重耍的研究方向。

目前，用于数据业务分类的支持向量机(SVM)分类算法一般使用的是批量处理算法，由于批量处理算法需要将整个数据集加载到内存之中，使得它不适合大量数据的情况，无法应用于实时性较高的场合。而分类器的构建需要耗费大量的时间，导致后面到达的信息可能会由于处理不及时使得重要信息丢失,无法高效的对后来的数据进行准确的预测及处理操作。现在也有利用改进的随机梯度下降算法(SGD)算法来求解SVM，但由于SGD是选取的随机数据来处理，由于每次只是针对一个样本，这样不可避免造成梯度不是每次都向着下降的方向的,收敛曲线很不平滑，且对于噪声样本的影响较大。

发明内容

本发明的目的在于提供一种分类器训练方法、装置、设备和计算机可读存储介质，针对海量复杂数据分类耗费大量时间以及准确率不够高的问题。

本发明解决上述技术问题所采用的技术方案如下：

提供的一种分类器训练方法，所述分类器训练方法包括：确定分类器对应的用于计算梯度方向的目标函数，所述目标函数的参数为所述分类器的待确定的特征向量系数；从预设的训练样本集中抽取训练子集，并获取已代入所述目标函数中计算梯度方向的所述训练样本集中的其他子集；将所述训练子集和所述其他子集代入所述目标函数计算梯度方向；根据计算结果确定所述特征向量系数的值；根据所述特征向量系数的值，确定所述分类器。

可选地，前述的分类器训练方法，所述将所述训练子集和所述其他子集代入所述目标函数计算梯度方向的步骤，还包括：在不存在已代入所述目标函数中进行的所述其他子集时，将所述训练子集代入所述目标函数计算梯度方向。

可选地，前述的分类器训练方法，所述获取已代入所述目标函数中计算梯度方向的所述训练样本集中的其他子集的步骤包括：获取在所述训练子集前抽取并代入所述目标函数中进行计算的前一子集。

可选地，前述的分类器训练方法，所述目标函数中包含所述分类器的损失函数，所述将所述训练子集和所述其他子集代入所述目标函数计算梯度方向的步骤包括：计算所述分类器的损失函数，并根据所述损失函数计算出所述目标函数的梯度方向。

可选地，前述的分类器训练方法，所述训练样本集为通信业务数据样本集，所述训练器用于对通信业务进行分类。

提供的一种分类器训练装置，所述分类器训练装置包括：目标函数确定模块，确定分类器对应的用于计算梯度方向的目标函数，所述目标函数的参数为所述分类器的待确定的特征向量系数；训练子集获取模块，从预设的训练样本集中抽取训练子集，并获取已代入所述目标函数中计算梯度方向的所述训练样本集中的其他子集；梯度方向计算模块，将所述训练子集和所述其他子集代入所述目标函数计算梯度方向；特征向量确定模块，根据计算结果确定所述特征向量系数的值；分类器确定模块，根据所述特征向量系数的值，确定所述分类器。

可选地，前述的分类器训装置，所述梯度方向计算模块在不存在已代入所述目标函数中进行的所述其他子集时，将所述训练子集代入所述目标函数计算梯度方向。

可选地，前述的分类器训装置，所述训练子集获取模块获取在所述训练子集前抽取并代入所述目标函数中进行计算的前一子集。

可选地，前述的分类器训装置，所述目标函数中包含所述分类器的损失函数，所述梯度方向计算模块计算所述分类器的损失函数，并根据所述损失函数计算出所述目标函数的梯度方向。

可选地，前述的分类器训装置，所述训练样本集为通信业务数据样本集，所述训练器用于对通信业务进行分类。

提供的一种分类器训练设备，所述分类器训练设备包括处理器、存储器及通信总线；所述通信总线用于实现处理器和存储器之间的连接通信；所述处理器用于执行存储器中存储的分类器训练程序，以实现前述的分类器训练方法的步骤。

提供的一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述的分类器训练方法的步骤。

根据以上技术方案，可知本发明的分类器训练方法、装置、设备和计算机可读存储介质至少具有以下优点：

根据本发明的技术方案，在抽取训练子集进行训练时，同时考虑当前抽取的样本子集和前一样本子集，根据向量的叠加原理，可以保持梯度是按照梯度下降的方向，一定程度上优化了对边缘样本的容错率，最终收敛得到的结果更加接近最优值，同时兼备了高效性，利用少量的数据也能得到比较准确的结果，增加了收敛的精确性，同时对于目标函数的收敛比SGD精确，抗噪声性也会较之更好。

附图说明

图1为本发明实施例的一种分类器训练方法的流程图；

图2为本发明实施例的一种分类器训练方法的流程图；

图3为本发明实施例的一种分类器训练方法的流程图；

图4为本发明实施例的一种分类器训练方法的流程图；

图5为本发明实施例的一种分类器训练方法的框架示意图；

图6为本发明实施例的一种分类器训练装置的框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明的一个实施例中提供一种分类器训练方法，本实施例的分类器训练方法包括：

步骤S110，确定分类器对应的用于计算梯度方向的目标函数，目标函数的参数为分类器的待确定的特征向量系数。

在本实施例中，对分类器的应用不进行限制，可以应用于对任何类型数据的分类。除了可以应用于批量数据处理领域，例如生物识别、信号识别和检测、图像识别等多个领域，还可以应用于海量实时数据流的分类、回归、聚类，例如实时证券交易和电子商务中的经济数据分类分析、物联网系统中移动医疗的实时医疗诊断，智慧交通的实时交通流量预测等实时数据流的分析，为未来海量实时数据的应用奠定了理论基础。

在本实施例中，对分类器的数量不进行限制，可以根据需要确定分类器的个数，建立一个比较大的数据样本集(一般需要正负样本都有)。

在本实施例中，对分类器所采用的目标函数不进行限制，具体可以根据实验效果选择目标函数。

步骤S120，从预设的训练样本集中抽取训练子集，并获取已代入目标函数中计算梯度方向的训练样本集中的其他子集。

在本实施例中，并非仅考虑当前抽取的训练子集，同时兼顾了在先的样本子集(在先样本子集的数量可根据需要灵活设置)，根据向量的叠加原理，可以保持梯度是按照梯度下降的方向，一定程度上优化了对边缘样本的容错率，最终收敛得到的结果更加接近最优值。

步骤S130，将训练子集和其他子集代入目标函数计算梯度方向。

在本实施例中，逐次获取训练子集来计算目标函数的梯度方向，由于选择两个样本子集，所以计算结果快速收敛并趋向最优。

步骤S140，根据计算结果确定特征向量系数的值。

步骤S150，根据特征向量系数的值，确定分类器。

在本实施例中，SVM两类分类器的形式可以写为：g(x)＝wx+b，其中w为基于目标函数最后计算得到的收敛的值(n维向量)，将训练样本集A代入到分类器里面，若y_i＝1则g(x_i)＞0,若y_i＝-1则g(x_i)＜0,各式可求得一个b的值，从而得到本实施例的分类器g(x)＝wx+b，具体如图2所示。在分类训练完成后，可以将新增的测试数据样本代入到分类器函数中，如果>0则是1类，如果<0则是-1类。

本实施例技术方案的思路在于：建立待训练分类器模型，生成训练样本集；随机从训练样本集中选出一个训练样本，如果这是第一个训练样本，则由此样本计算梯度方向来更新分类器参数；如果不是，则由前一个训练样本和当前训练样本计算梯度方向来更新分类器参数；重复抽取样本计算分类器参数直至分类器收敛或达到停止条件。本实施例针对海量复杂数据分类耗费大量时间以及准确率不够高的问题，提出了一种新的基于双样本的数据分类技术，该技术在训练数据样本的过程中，同时考虑当前t时刻的样本和t-1时刻的样本,可以保持梯度是按照近似下降的方向,优化收敛结果，提高分类准确性。

实施例二

如图3所示，本发明的一个实施例中提供一种分类器训练方法，本实施例的分类器训练方法包括：

步骤S310，确定分类器对应的用于计算梯度方向的目标函数，目标函数的参数为分类器的待确定的特征向量系数。

在本实施例中，训练样本集为通信业务数据样本集，训练器用于对通信业务进行分类。由于通信业务，例如4G业务对数据业务分类的准确性和效率有着高要求，所以本实施例的技术方案适用于4G业务分类场景；本领域技术人员应当理解，4G业务场景仅为示例，如5G业务等其他通信场景仍适用于本实施例的技术方案。

步骤S320，从预设的训练样本集中抽取训练子集，获取在训练子集前抽取并代入目标函数中进行计算的前一子集。

步骤S330，将训练子集和其他子集代入目标函数计算梯度方向，在不存在已代入目标函数中进行的其他子集时，将训练子集代入目标函数计算梯度方向，其中，目标函数中包含分类器的损失函数，首先计算分类器的损失函数，并根据损失函数计算出目标函数的梯度方向。

在本实施例中，实现了一种双样本的随机梯度下降算法(DSSGD)，通过同时考虑当前t时刻的4G业务数据样本和t-1时刻的4G业务数据样本,可以保证方向按照梯度下降的方向，优化收敛结果，提高分类的准确性。本实施例的一个具体示例如下：

假设我们需要优化的目标函数为：

subject to y_i(w^Tx_i+b)-1≥0,i＝1,2,...n

其中,w为参数，(z₁,…,z_n)为训练样本，为正则化项，l(z,y)为损失函数，l(z,y)＝max{0,1-yz},z＝wx+b

设置好目标函数的常量后，从训练集中随机抽取训练子集a＝(z_i,y)为一个移动4G业务数据样本，计算a中w的成本计算目标函数梯度其中A＝(a₁,…,a_t)是在第t个步骤中的所有移动4G业务数据训练样本，具体地，如下公式所示：

如果该样本子集为第一个被训练的移动4G业务数据子集，则只针对其进行训练；如果该样本子集不为第一个被训练的移动4G业务数据子集，则回取前一个子集，综合考虑两个移动4G业务数据子集进行训练；重复随机抽取样本并按上述公式(1)(2)计算梯度方向。如果随机选取了多个移动4G业务数据样本集，则可以对该多个样本集进行连续训练，即从第二个选取的样本集开始直接选择两个样本子集进行计算，本示例的流程如图4所示。本领域技术人员应当了解，虽然本实施例的技术方案应用于移动4G业务场景，但其也可用于对其他数据进行分类，不限于对通信数据进行分类。

步骤S340，根据计算结果确定特征向量系数的值。

步骤S350，根据特征向量系数的值，确定分类器。

根据本实施例的技术方案，实现的一种用于训练分类器的架构如图5所示，从训练样本集中提取特征并选择特征后，使用上述的双样本的随机梯度下降算法(DSSGD)计算出分类器的特征系数，实现分类器；在分类器实现后，可以将测试数据集中提取的向量输入到分类器中，使用分类器对测试数据集进行分类，基于分类结果形成评价模型，基于评价高低更新训练数据集以及所选择的用于训练的特征向量。

本根据实施例的技术方案，提出一种新的基于双样本的数据分类技术，针对海量复杂数据分类耗费大量时间以及准确率不够高的问题，用基于双样本的随机梯度下降算法，有效地优化收敛方向，同时兼备了随机梯度下降算法的高效性，利用少量的样本数据也能得到比较准确的结果，增加了数据收敛的准确性即分类的准确性，广泛适用于各种业务数据分类场景，例如，对4G或5G业务数据进行分类。

实施例三

如图6所示，本发明的一个实施例中提供一种分类器训练装置，本实施例的分类器训练装置包括：

目标函数确定模块610，确定分类器对应的用于计算梯度方向的目标函数，目标函数的参数为分类器的待确定的特征向量系数。

训练子集获取模块620，从预设的训练样本集中抽取训练子集，并获取已代入目标函数中计算梯度方向的训练样本集中的其他子集。

梯度方向计算模块630，将训练子集和其他子集代入目标函数计算梯度方向。

特征向量确定模块640，根据计算结果确定特征向量系数的值。

分类器确定模块650，根据特征向量系数的值，确定分类器。

实施例四

本发明的一个实施例中提供一种分类器训练装置，本实施例的分类器训练装置包括：

训练子集获取模块620，从预设的训练样本集中抽取训练子集，获取在训练子集前抽取并代入目标函数中进行计算的前一子集。

梯度方向计算模块630，将训练子集和其他子集代入目标函数计算梯度方向，在不存在已代入目标函数中进行的其他子集时，将训练子集代入目标函数计算梯度方向，其中，目标函数中包含分类器的损失函数，首先计算分类器的损失函数，并根据损失函数计算出目标函数的梯度方向。

假设我们需要优化的目标函数为：

subject to y_i(w^Tx_i+b)-1≥0,i＝1,2,...n

分类器确定模块650，根据特征向量系数的值，确定分类器。

本发明的一个实施例中，还提供一种分类器确定设备，分类器确定设备包括处理器、存储器及通信总线；通信总线用于实现处理器和存储器之间的连接通信；处理器用于执行存储器中存储的分类器确定程序，以实现前述实施例的分类器确定方法的步骤。

本发明的一个实施例中，还提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现前述实施例的分类器确定方法的步骤。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种分类器训练方法，其特征在于，所述分类器训练方法包括：

确定分类器对应的用于计算梯度方向的目标函数，所述目标函数的参数为所述分类器的待确定的特征向量系数；

从预设的训练样本集中抽取训练子集，并获取已代入所述目标函数中计算梯度方向的所述训练样本集中的其他子集；

将所述训练子集和所述其他子集代入所述目标函数计算梯度方向；

根据计算结果确定所述特征向量系数的值；

根据所述特征向量系数的值，确定所述分类器。

2.根据权利要求1所述的分类器训练方法，其特征在于，所述将所述训练子集和所述其他子集代入所述目标函数计算梯度方向的步骤，还包括：

在不存在已代入所述目标函数中进行的所述其他子集时，将所述训练子集代入所述目标函数计算梯度方向。

3.根据权利要求1所述的分类器训练方法，其特征在于，所述获取已代入所述目标函数中计算梯度方向的所述训练样本集中的其他子集的步骤包括：

获取在所述训练子集前抽取并代入所述目标函数中进行计算的前一子集。

4.根据权利要求1所述的分类器训练方法，其特征在于，所述目标函数中包含所述分类器的损失函数，所述将所述训练子集和所述其他子集代入所述目标函数计算梯度方向的步骤包括：

计算所述分类器的损失函数，并根据所述损失函数计算出所述目标函数的梯度方向。

5.根据权利要求1至4中任一项所述的分类器训练方法，其特征在于，所述训练样本集为通信业务数据样本集，所述训练器用于对通信业务进行分类。

6.一种分类器训练装置，其特征在于，所述分类器训练装置包括：

目标函数确定模块，确定分类器对应的用于计算梯度方向的目标函数，所述目标函数的参数为所述分类器的待确定的特征向量系数；

训练子集获取模块，从预设的训练样本集中抽取训练子集，并获取已代入所述目标函数中计算梯度方向的所述训练样本集中的其他子集；

梯度方向计算模块，将所述训练子集和所述其他子集代入所述目标函数计算梯度方向；

特征向量确定模块，根据计算结果确定所述特征向量系数的值；

分类器确定模块，根据所述特征向量系数的值，确定所述分类器。

7.根据权利要求6所述的分类器训练装置，其特征在于，

所述梯度方向计算模块在不存在已代入所述目标函数中进行的所述其他子集时，将所述训练子集代入所述目标函数计算梯度方向。

8.根据权利要求6所述的分类器训练装置，其特征在于，

所述训练子集获取模块获取在所述训练子集前抽取并代入所述目标函数中进行计算的前一子集。

9.一种分类器训练设备，其特征在于，所述分类器训练设备包括处理器、存储器及通信总线；所述通信总线用于实现处理器和存储器之间的连接通信；所述处理器用于执行存储器中存储的分类器训练程序，以实现权利要求1至5中任一项所述的分类器训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至5中任一项所述的分类器训练方法的步骤。