CN114880536A

CN114880536A - 基于动量的数据评估方法、系统及存储介质

Info

Publication number: CN114880536A
Application number: CN202210372479.6A
Authority: CN
Inventors: 陶蔚; 彭宝云; 范晓宸; 陇盛; 邹军华
Original assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Current assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-09

Abstract

本发明公开了一种基于动量的数据评估方法、系统与存储介质。输入机器学习中常见的流式数据；根据动量的变化来判断数据样本对分类模型的贡献大小，其中动量采用重球动量算法，根据相邻两步迭代去计算动量的变化值；动态的调整原始数据样本，根据所述的动量变化值对数据样本进行评估，设置一个阈值，对当前迭代输入的数据样本与之前数据样本进行加权，形成新的数据样本集；模型根据标签来判断分类是否正确，并输出分类结果。本发明更加适用于深度学习背景下的算法框架，可以针对数据的冗余性和不平衡性的进行有效评估，针对资源受限条件下的文本、视频、语音等训练样本数据进行有效评估，在数据集不平衡的情况下，动量算法的性能依然可以超越SGD。

Description

基于动量的数据评估方法、系统及存储介质

技术领域

本发明涉及一种数据评估方法和系统，更具体地说，涉及一种基于动量的数据评估方法、评估系统及存储介质。

背景技术

数据、模型和训练优化算法是机器学习的三要素。目前，机器学习领域的评估研究主要围绕模型和训练优化算法层面展开，但对数据的评估问题却很少有学者研究。对模型的评估指标有正确率、F1值等；对算法的评估指标有收敛速度、迭代次数、CPU时间以及循环次数等。对于数据评估的研究还很少。

标准数据质量评估体系主要参考以下指标：完整性、准确性、有效性、时效性、一致性。由于机器学习的发展对数据评估提出了更高的要求，特别是数据的冗余性和不平衡性方面还缺乏有效的评估方法。从机器学习的角度来看，现有的数据评估的技术和系统主要是基于梯度的方法。当前随着深度学习技术的发展，自适应动量优化算法已经成为主流优化方法。基于梯度的评估方法已经不能满足对当前大规模训练样本数据进行有效评估，主要体现在动量变化比梯度变化能够更加准确衡量训练样本数据对目标函数的贡献大小，因此，动量可以看作基于深度学习技术的数据质量评估中的关键性因素。

当前，深度强化学习已经在围棋、德州扑克、星际争霸、王者荣耀取得成功，究其原因主要是游戏中数据样本众多，可以不计代价的获取数据。现实生活中一些领域的数据并非容易获取，特别是在军事领域，数据具有价值高、数量少等特点，无法不计代价的获取数据，因此在资源受限的条件下如何进行高效学习是亟待解决的重要问题。此外，现实应用中的数据。因此，在训练过程中对样本数据进行有效评估显得尤为重要。

此外，机器学习领域的评估研究主要围绕模型和训练优化算法层面展开，但对训练数据样本的评估问题却很少有学者研究。当前，深度学习技术快速发展，在计算机视觉和自然语言处理等领域取得巨大成功。数据的冗余性和不平衡性成为了影响模型和算法的重要因素。算法方面，自适应步长算法和动量方法分别取得了成功，当前综合使用两种策略的自适应型步长算法成为了主流方法。机器学习，特别是深度学习的角度而言，传统基于梯度的方法已经不能很好评估数据的冗余性和不平衡性，取而代之的是基于动量的方法。在数据评估领域还没有注意到动量的变化可以更好的评估数据样本的质量以及重要性。深度学习技术快速发展对训练样本数据的要求越来越高，标准的数据质量体系评估缺乏冗余性和不平衡性的指标。

现实中机器学习任务中很多数据是以流的形式先后到达，一方面，对于海量高维的训练数据，一次性获得所有训练样本是不可能的，而且也可能没有足够的内存空间来存储。另一方面，具体应用中所包含的高质量数据样本较少，存在冗余性和不平衡性的问题。在线学习指的是这样一类学习算法：它们在顺序到达的数据流实例中学习优化预测模型。这种动态学习使得在线学习更具有可扩展性和更高的内存效用，目前在线学习模型已经广泛应用于机器学习中。在线学习分类模型的一般流程指(如图1所示)：①输入数据样本(文本，图像，语音等流式数据)；②通过优化算法和分类模型进行训练；③模型根据标签来判断分类是否正确，并输出分类结果。

受物理学“动量”原理的启发，机器学习中可以根据动量的变化来判断数据样本对目标函数贡献的大小。在物理学中，动量是刻画质点惯性的物理量，动量方法已经成为计算机学科深度学习领域中的主流优化算法。

发明内容

1、本发明的目的

本发明旨在面向数据资源受限条件的问题，从机器学习的角度提出一种基于动量的数据评估评价方法和系统，从而有效评估数据样本的冗余性和不平衡性问题。

2、本发明所采用的技术方案

本发明提出了一种基于动量的数据评估方法，包括：

输入机器学习中常见的流式数据；

根据动量的变化来判断数据样本对分类模型的贡献大小，其中动量采用重球动量算法，根据相邻两步迭代去计算动量的变化值；

动态的调整原始数据样本，根据所述的动量变化值对数据样本进行评估，设置一个阈值，对当前迭代输入的数据样本与之前数据样本进行加权，形成新的数据样本集；

模型根据标签来判断分类是否正确，并输出分类结果。

优选的，所述的输入流式数据包括文本，图像，语音一种或多种。

优选的，所述的根据动量的变化来判断数据样本对分类模型的贡献大小，采用通过自适应动量优化算法和在线学习模型进行训练。

优选的，使用重球动量算法迭代，显示累积的梯度信息。

更进一步，

步骤1、输入数据样本(文本，图像，语音等流式数据)；

步骤2、通过自适应动量优化算法和在线学习模型进行训练，迭代次数t从1到T；

使用重球动量算法：w_t+1＝w_t-αg_t+β(w_t-w_t-1)，其中α是学习率，β代表动量系数，w是优化变量，w_t指优化算法迭代第t步的优化变量。可以看出M_t+1＝β(w_t-w_t-1)为当前t+1步的动量项，显示了前t+1步累积的梯度的信息。

更进一步，根据相邻两步迭代去计算动量的变化值，具体为：

步骤3、算法训练过程，根据相邻两步迭代去计算动量的变化值，

M_t+1-M_t＝β(w_t-w_t-1)-β(w_t-1-w_t-2)。

更进一步，

根据动量的变化值对数据样本进行评估，设置一个阈值ε，体现数据样本的重要性，M_t+1-M_t≥ε是重要的数据样本，M_t+1-M_t＜ε说明样本重要性程度低。对第t步迭代输入的数据样本与之前t-1步的数据样本进行加权，形成新的数据样本集；

本发明提出了一种基于动量的数据评估系统，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的方法步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现所述的方法步骤。

3、本发明所采用的有益效果

(1)本发明提出了一种新型基于动量的数据评估方法，更加适用于深度学习背景下的算法框架，可以针对数据的冗余性和不平衡性的进行有效评估，并填补了两个标准数据质量体系评估指标缺乏的指标。

(2)本发明提出的基于动量的数据评估系统，针对资源受限条件下的文本、视频、语音等训练样本数据进行有效评估，在数据集不平衡的情况下，动量算法的性能依然可以超越SGD。

综上所述，本发明可以满足当前机器学习，特别是深度学习对数据质量的要求，同时使得标准评估体系指标更加完善。

附图说明

图1为在线学习分类模型一般流程；

图2为基于动量的数据评估系统流程图；

图3为文本分类数据集训练损失与测试精度对比图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

动量优化算法指的是在原来梯度下降方法的基础上又添加了动量运算的一种方法，动量所表示的是当前迭代与前一步迭代之差，体现了对先前迭代产生“惯性”的充分利用。根据动量的变化可以有效观察数据样本对模型分类的重要程度。在动量方法的基础上结合自适应型步长策略形成自适应型优化算法。针对基于深度学习的任务，自适应策略的动量优化方法均展现了良好的性能。

本发明主要针对资源条件下的应用提出一种新的评估方法和系统。具体而言，对于机器学习中常见的流式数据(包括文本、视频、音频等)，根据动量的变化来判断数据样本对分类模型的贡献大小，进而动态的调整原始数据样本。

需要说明的是，数据的冗余性与唯一性的含义并不相同，冗余的数据并不一定是指重复的数据样本或属性，而是该数据对于分类模型性能不起作用。

表1数据评估体系指标与含义

实施例1

本发明在机器学习训练一般流程中添加数据评估的模块，即在模型训练的过程中实时对训练数据样本进行评估，从而进一步动态调整数据样本。基于动量的数据评估系统一般流程指(如图2所示)：

步骤1、输入数据样本(文本，图像，语音等流式数据)；

使用重球动量算法：w_t+1＝w_t-αg_t+β(w_t-w_t-1)，可以看出M_t+1＝β(w_t-w_t-1)为当前t+1步的动量项，显示了前t+1步累积的梯度的信息。

M_t+1-M_t＝β(w_t-w_t-1)-β(w_t-1-w_t-2)；

步骤4、根据动量的变化对数据样本进行评估，设置一个阈值ε，体现数据样本的重要性，M_t+1-M_t≥ε是重要的数据样本，M_t+1-M_t＜ε说明样本重要性程度低。对第t步迭代输入的数据样本与之前t-1步的数据样本进行加权，形成新的数据样本集；

步骤5、模型根据标签来判断分类是否正确，并输出分类结果。

可以发现，数据系统并不改变机器学习训练的一般流程，仅仅是添加了步骤3和步骤4步骤。具体而言，数据评估方法的核心主要是基于动量的变化来判断数据对于目标函数贡献的大小，其中动量变化大说明数据样本对模型分类的作用大，动量变化小说明该数据样本在分类中作用小。此时，在判断动量的变化以后对数据样本进行加权，形成新的数据样本，从而动态地调整或者产生新的训练数据样本。

(1)验证动量可以评估数据冗余性的实验方案

数据采用关于文本的基准数据集THUCNews，是根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。文本长度在20到30之间。一共10个类别，每类2万条。类别分为：财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐，训练集有18万，验证集1万，测试集1万。使用随机优化方法可以模拟给定数据集的在线学习模式，即在给定的数据中一次抽取小批量(mini-batch)的数据进行训练，对比方法为最基本的随机梯度下降SGD方法和基于动量的随机梯度下降Momentum方法，实验可以验证基于动量的方法比基于梯度的方法在文本分类数据集上的优势，可以说明动量可以加速收敛，提升模型的分类性能。

(2)验证动量可以评估数据不平衡性的实验方案

waimai_10k为中文的关于情感分类的语料库，收集了某外卖平台收集的用户评价，正向4000条，负向约8000条。数据字段包含：Label：1表示正向评论，0表示负向评论。Review：评论内容正、负样本数量不均衡，属于不平衡数据集。依然使用随机优化方法：SGD和Momentum方法进行对比，验证动量对于不平衡数据可以更加有效。

(3)仿真实验结果

两种数据集的实验结果如图3所示。深色曲线代表了动量算法，浅色曲线是经典的SGD算法。可以看出对于大规模文本分类数据集而言，动量算法可以更快的收敛以及更高的测试精度。说明了动量可以有效地克服数据冗余性带来的影响。Waimai_10k数据集是不平衡数据集，动量算法的性能依然可以超越SGD，说明动量也可以克服数据不平衡性带来的影响。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于动量的数据评估方法，其特征在于：

输入机器学习中常见的流式数据；

模型根据标签来判断分类是否正确，并输出分类结果。

2.根据权利要求1所述的基于动量的数据评估方法，其特征在于：所述的输入流式数据包括文本，图像，语音一种或多种。

3.根据权利要求2所述的基于动量的数据评估方法，其特征在于：所述的根据动量的变化来判断数据样本对分类模型的贡献大小，采用通过自适应动量优化算法和在线学习模型进行训练。

4.根据权利要求3所述的基于动量的数据评估方法，其特征在于：使用重球动量算法迭代，显示累积的梯度信息。

5.根据权利要求1或4所述的基于动量的数据评估方法，其特征在于：

步骤1、输入数据样本(文本，图像，语音等流式数据)；

6.根据权利要求1所述的基于动量的数据评估方法，其特征在于根据相邻两步迭代去计算动量的变化值，具体为：步骤3、算法训练过程，根据相邻两步迭代去计算动量的变化值：M_t+1-M_t＝β(w_t-w_t-1)-β(w_t-1-w_t-2)。

7.根据权利要求6所述的基于动量的数据评估方法，其特征在于：根据动量的变化值对数据样本进行评估，设置一个阈值ε，体现数据样本的重要性，M_t+1-M_t≥ε是重要的数据样本，M_t+1-M_t＜ε说明样本重要性程度低。对第t步迭代输入的数据样本与之前t-1步的数据样本进行加权，形成新的数据样本集。

8.一种基于动量的数据评估系统，包括存储器和处理器，存储器存储有计算机程序，其特征在于；所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的方法步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时实现如权利要求1-7任一所述的方法步骤。