CN112070127A

CN112070127A - 一种基于智能分析的海量数据样本增量分析方法

Info

Publication number: CN112070127A
Application number: CN202010848785.3A
Authority: CN
Inventors: 陈霖; 陈昊; 杨祎巍; 孙强强; 匡晓云; 许爱东; 丘惠军; 徐培明; 连耿雄
Original assignee: Shenzhen Power Supply Bureau Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-11

Abstract

本发明提供一种基于智能分析的海量数据样本增量分析方法，包括如下步骤：步骤1、利用原始训练数据集D学习出当前分类器C；步骤2、用当前分类器对未标注类别标签的新增训练集T进行分类，针对每一个未标记的新增训练样例，利用Q一学习算法计算其Q值，从T中选择有利于提高当前分类器精度的新增训练实例，并赋予其标签CP，添加到训练集D中；步骤3、利用新增样本修正分类器参数，直到新增训练集T中的全部实例加入训练集D中。本发明的有益效果是：利用强化学习中经典的Q学习来合理选择样本增量序列，削弱噪声数据的负面影响。

Description

一种基于智能分析的海量数据样本增量分析方法

技术领域

本发明涉及大数据的机器学习领域，特别是一种基于智能分析的海量数据样本增量分析方法。

背景技术

随着互联网的普及程度越来越高，网民的人数呈现爆炸性的增长，网络数据呈现出它的复杂性和多样性。机器学习的主要目的是通过智能分析方式，充分利用经验数据提高自身解决某类问题的能力。而高质量的数据是机器学习能够有效学习的基础和关键。

传统的分类学习算法要求所有的训练数据预先给定，并通过最小化定义在所有训练数据上的分类误差得到分类器。这种学习方法在小规模数据上取得了巨大成功，但应用到大数据学习问题时，则会表现出计算复杂度高、响应慢，无法用于实时性要求高的应用领域等缺陷。

增量学习是一种在线学习假设训练数据持续到来，通过小断地利用新增训练样本的信息更新当前的模型，大大降低了学习算法的空问复杂度和时问复杂度，从而可以有效地解决大数据学习中的问题。近年来，一些学者将深度学习与增量学习结合起来，以应对现阶段一些深层次学习所面临的挑战。但深度学习的性能主要依赖于监督样本的质量，一旦错误标记的样本被过早地用于分类器的训练，也将会导致所生成的分类器的性能下降。因此，如何合理地选择样本增量序列，避免过早地将噪声数据添加到分类器的训练数据集中，以削弱噪声数据的负面影响显得尤为重要。

大数据时代数据信息呈现持续性、爆炸性的增长，为机器学习算法带来大量的监督样本，然而这些信息通常不是一次性获得的，这为传统的分类模型提出了挑战。

发明内容

针对现有技术的缺陷，本发明提出使用增量学习即提出一种基于学习算法的增量分类模型，该模型利用强化学习中经典的Q学习来合理选择样本增量序列，削弱噪声数据的负面影响。是通过如下技术方案实现的。

本专利提出了一种智能分析的海量数据样本增量分析方法，来解决以上增量学习所而临的问题。

本专利将Q学习和增量学习相结合，以强化学习中的Q值函数作为度量标准，计算添加每个样本后能够得到的分类器的精度，并选择能够使得当前分类器精度达到最高的样本依添加到训练集中，从而得到最佳的训练样本序列，以获得精度最高的分类器。具体过程如下：

首先，利用原始训练数据集D学习出当前分类器C；

然后用当前分类器对未标注类别标签的新增训练集T进行分类，针对每一个未标记的新增训练样例，利用Q一学习算法计算其Q值，从T中选择有利于提高当前分类器精度的新增训练实例，并赋予其标签CP，添加到训练集 D中；

然后利用新增样本修正分类器参数，直到新增训练集T中的全部实例加入训练集D中。

其中，衡量分类器精度的标准是分类器在测试集S上的分类精度。

本发明的有益效果是：针对具有大量未标记样本的分类问题，该算法运用增量学习的思想，基于已有少量带标签训练样本训练初始分类器，然后通过强化学习算法来合理地选择新增样本序列进行自主标注，并对分类器进行更新，合理选择样本增量序列，削弱噪声数据的负面影响。

附图说明

图1是本发明具体实施例的构建增量分类模型的算法框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明利用原始训练数据集D学习出当前分类器C；然后用当前分类器对未标注类别标签的新增训练集T进行分类，针对每一个未标记的新增训练样例，利用Q一学习算法计算其Q值，从T中选择有利于提高当前分类器精度的新增训练实例，并赋予其标签CP，添加到训练集D中；然后利用新增样本修正分类器参数，直到新增训练集T中的全部实例加入训练集D中。

具体来说为了实现基于智能分析的海量数据样本增量分析方法，本首先构建了基于Q－学习的增量分类模型的马尔科夫决策过程(MDP)，并按如下过程进行相关元祖的计算。其对应一个五元组E＝<X,A,P,R,γ>。X为状态空间，表示智能分析代理所感知的状态。A为动作空间，说明机器学习过程中当前状态可以采用的动作。P则是状态转移概率。R是奖励函数，用于限制机器学习的走向。γ是折扣因子，用于认为的对机器学习过程进行限制。同时将现有数据集定义为D，增量数据标记为T，设定一个W参数使得系统在特定状态下出现负无穷值，出现死循环。其如附图1所示。具体而言，在构建过程中，需要输入数据集D，增量数据T＝{t₁…t_m}，折扣因子γ，动作空间ε∈P。输出的结果是用于之后分析的分类器C。

增量分类模型的构建过程为：

初始化Q＝0

For episode＝1，2，...，m do

Forj＝1，2，...，m do

若

返回c

否则，用数据集D训练分类器c(θ_j-1)，并更新分类器参数

用当前分类器c(θ_j-1)对新增训练集T中的每个元素t_i分类，每个元素得到所属分类的概率

(其中l_k为类别标签)

以概率ε从T中随机选择动作a_i＝t_p

计算

计算

T＇＝T－t_p，T←T′

D′＝D+{t_p,l_p}，D←D′

End for

计算增量序列

其中，衡量分类器精度的标准是分类器在测试集S上的分类精度。由于原始训练样本数量少，知识储备小足，该算法会产生一定的噪声数据。如果过早地将噪声数据加入原始训练数据，噪声数据将会一直传播卜去，从而影响总体分类精度。同时，随着数据量的增加，存储空问、计算模型的复杂度和计算速度会在一定程度上有所提高，从而影响整个模型的效率。同时，在运用在线学习时，先训练已有数据，然后训练小断得到的数据，但由于每次训练的数据小一样，会影响分类器的准确度，即会影响分类器的性能。因此，在分类器在测试集S上的分类精度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于智能分析的海量数据样本增量分析方法，其特征在于，包括如下步骤：

步骤1、利用原始训练数据集D学习出当前分类器C；

步骤2、用当前分类器对未标注类别标签的新增训P练集T进行分类，针对每一个未标记的新增训练样例，利用Q一学习算法计算其Q值，从T中选择有利于提高当前分类器精度的新增训练实例，并赋予其标签CP，添加到训练集D中；

步骤3、利用新增样本修正分类器参数，直到新增训练集T中的全部实例加入训练集D中。

2.根据权利要求1所述的海量数据样本增量分析方法，其特征在于，衡量分类器精度的标准是分类器在测试集S上的分类精度。

3.根据权利要求1所述的海量数据样本增量分析方法，其特征在于，步骤2中，构建基于Q－学习的增量分类模型的马尔科夫决策过程(MDP)，进行相关元祖的计算。

4.根据权利要求3所述的海量数据样本增量分析方法，其特征在于，所述增量分类模型，其对应一个五元组E＝<X,A,P,R,γ>，X为状态空间，表示智能分析代理所感知的状态，A为动作空间，说明机器学习过程中当前状态可以采用的动作，P则是状态转移概率，R是奖励函数，用于限制机器学习的走向，γ是折扣因子，用于认为的对机器学习过程进行限制。

5.根据权利要求3所述的海量数据样本增量分析方法，其特征在于，计算过程中，将现有数据集定义为D，增量数据标记为T，设定一个W参数，使得系统在特定状态下出现负无穷值，出现死循环。

6.根据权利要求3所述的海量数据样本增量分析方法，其特征在于，在构建过程中，需要输入数据集D，增量数据T＝{t₁...t_m}，折扣因子γ，动作空间ε∈P，输出的结果是用于之后分析的分类器C。

7.根据权利要求6所述的海量数据样本增量分析方法，其特征在于，构建过程为：

初始化Q＝0

For ep isode＝1，2，...，m do

Forj＝1，2，...，m do

若