CN113282747A

CN113282747A - 一种基于自动机器学习算法选择的文本分类方法

Info

Publication number: CN113282747A
Application number: CN202110465097.3A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 方长婷; 胡毅奇; 李树桥
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-20
Anticipated expiration: 2041-04-28
Also published as: CN113282747B

Abstract

本发明公开一种基于自动机器学习算法选择的文本分类方法，基于级联式自动机器学习的思想，从多种机器学习算法中为文本分类任务配置最优算法，包括：(1)采用文本向量嵌入方法将文本语料数据编码成向量表示，生成文本分类数据集；(2)利用多摇臂赌博机算法从多个机器学习分类算法中选择一个算法；(3)利用超参优化方法自动为所选择的算法搜索一组超参数；(4)基于搜索到的超参数初始化相应算法的超参，并在文本分类数据集上训练模型；(5)重复步骤(2)到步骤(4)，直到达到设定的迭代次数，将训练得到的多个分类模型中预测性能最好的模型用于文本分类任务。本方法能自动的为任务文本训练一个鲁棒的分类模型。

Description

一种基于自动机器学习算法选择的文本分类方法

技术领域

本发明涉及一种基于自动机器学习算法选择的文本分类方法，属于自动机器学习和文本分类技术领域。

背景技术

文本分类是自然语言处理中的一项基本任务，在搜索引擎、问答系统、意图识别、情感分析等众多领域都会涉及文本分类。现有的文本分类方法，其主要思想是利用某种机器学习分类算法，基于任务文本数据集训练一个分类模型判断待预测文本的类别。然而分类算法种类繁多，且没有一种算法适用于所有文本分类任务，需要专家利用丰富的知识和经验，根据任务文本数据的特性选择合适的算法，只有这样才能避免将时间浪费在尝试不适用的算法上。除此之外，每种算法都有或多或少的超参，超参的取值对模型最终的性能有着很大影响，因此需要人工对超参取值进行调节，这也是一项耗时繁琐的任务。

近年来自动机器学习技术取得了极大的进步，不同于传统机器学习，自动机器学习在训练分类模型的过程中可以利用数据自动的作出选择算法以及超参搜索的决策而不需要人的参与。但是以往的自动机器学习方法在搜索超参数时面临搜索空间维度过高的问题，无梯度优化方法对搜索空间的维度又非常敏感，因此以往的自动机器学习方法效率有待提升。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明将级联式自动机器学习方法应用于文本分类。级联式自动机器学习将算法选择和超参搜索分级处理，上级利用策略选择算法，下级负责为所选算法搜索超参数，分级方式可以降低超参搜索空间维度，提升搜索效率。通过多次决策自主训练并优化多个分类模型，从而获得最适用于任务文本的模型。并且本发明使用的级联式自动机器学习方法，能够确保获得鲁棒性不输于人工训练的模型，同时也能够大幅度降低文本分类任务的人工成本。

技术方案：一种基于自动机器学习算法选择的文本分类方法，分级处理训练文本分类模型过程中的算法选择和超参搜索，上级采取策略选择算法，下级为所选算法搜索超参数。利用多摇臂赌博机算法自主选择机器学习算法，并用无梯度优化方法为所选算法搜索超参数，配置好超参数的算法在文本分类数据集上训练得到分类模型。重复选择算法、搜索超参数和训练模型的过程，可以得到多个不同配置的算法训练的模型，将其中性能最好的模型用于待预测文本。主要包括以下步骤：

步骤一：基于任务文本环境收集文本语料数据集，生成文本分类数据集。

步骤二：选择多种机器学习算法构建摇臂，由于为一个算法搜索超参数的过程是多摇臂赌博机的一个摇臂，选择K种算法可以构建K个摇臂(Arm)。

步骤三：初始化每个摇臂的回报集，回报集D_i中存放选择摇臂Arm_i获得的回报，起初为空集。依次从K个摇臂中选择，基于文本分类数据集训练K个模型M_i，t，i＝1，2，...，K，t表示当前时间步，即当前选择摇臂的次数。其中模型M_i，t对文本的分类准确率X_i，t存放到回报集D_i中，X_i，t也表示第i个摇臂的回报。

步骤四：基于各个摇臂的回报集D₁，D₂，，...D_K，级联式自动机器学习的上级利用多摇臂赌博机算法从K个摇臂中选择一个，记I_t表示第t轮迭代被选择的摇臂。具体步骤如下：

(1)根据回报集D_i中的所有单次回报X_i，t计算得到Y_i，t＝X_i，t-α，Z_i，t＝(X_i，t-α)²，并计算获得：

其中α＞0，是多摇臂赌博机算法的超参。用于平衡增加期望回报所带来的影响。T_i(t)表示直到第t轮迭代Arm_i被选择的次数。

(2)根据

和

计算得到：

其中θ＞0，是多摇臂赌博机算法的超参，表示该算法中Extreme-Region的最大界限。

(3)最终多摇臂赌博机算法在第t轮迭代选择μ_i(t)和g_i(t)总和最大的摇臂：

其中β是任意大于0的实数，用于调节μ_i(t)和g_i(t)的重要程度。

步骤五：在步骤四中级联式自动机器学习的上级选择出一个摇臂，记该摇臂由算法A_i构建，算法A_i的超参搜索空间为H_i。下级利用无梯度优化方法为算法A_i从H_i中搜索一组超参数

步骤六：算法A_i的超参用

赋值，然后在文本分类数据集上训练一个分类模型M_i，t，其中t＝K+1，K+2...。将模型M_i，t的文本分类准确率X_i，t存放到回报集D_i中。

步骤七：重复步骤四到步骤六，直到迭代次数达到设定的值，返回所有训练的模型中分类准确率最高的模型。该模型用于预测待分类文本的类别。

所述步骤一中，为文本语料数据集中的每条文本语料数据标注类别，生成文本分类数据集。

所述机器学习算法，可以是支持向量机、K近邻、决策树等多种分类算法，可选的算法数量不作限定。并且每个算法包含的超参数量、类型以及超参的取值范围都不一定相同，各算法的超参构成了其超参搜索空间。

与现有技术相比，本发明具有的益处有：

(1)本发明采用自动机器学习技术，可以自主选择适合任务文本环境的分类算法，也可以自动调节算法的超参数，相比于传统的机器学习方法能够大大减少人工调参和选择分类算法的成本。

(2)本发明采用级联式自动机器学习方法，相比于其他机器学习方法，可以降低超参搜索空间的维度，提高搜索效率，且多摇臂赌博机算法能够确保获得泛化性能极佳的分类模型。

附图说明

图1为级联式自动机器学习的整体框架图；

图2为无梯度优化方法流程图；

图3为整个基于级联式自动机器学习文本分类方法的关键步骤流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明针对现实场景中的文本分类，采取自动机器学习技术训练适用于任务文本环境的分类模型，并且自动训练的模型的分类准确率不输于经过专家训练和调参的模型。该方法使用的级联式自动机器学习的整体框架如图1所示，主要分为上下级，上级利用多摇臂赌博机算法自主选择机器学习算法，下级利用无梯度优化方法为所选算法搜索超参数。无梯度优化方法搜索超参数的主要流程如图2所示。重复多次自动选择算法、搜索超参数和训练模型的过程，将其中性能最好的模型用于任务文本的分类。

图3是整个基于级联式自动机器学习文本分类方法的关键步骤流程图。其中：

步骤一：首先要获取带类别标记的文本分类数据集，数据集规模可以是几千条甚至上万条，为其中每条数据标注一个类别，数据的类别数依据任务环境设定。主要包括：

(1)根据任务环境收集标注文本语料数据集，利用jieba分词将文本语料中的每条文本序列切分成由词组成的序列。例如，文本“今天天气很好，我想去爬山。”可以切分成“今天天气很好，我想去爬山。”。

(2)统计所有序列的词频并构建词典，词典中是“词：序号”的对应，并根据所有文本的类别标记构建关于类别标记的词典，该词典中是“类别标记：类别序号”的对应。

(3)将步骤(1)中分好词的文本序列转换成编码序列，并利用文本向量嵌入方法训练的词向量将编码序列转换成向量表示，得到了文本分类数据集；将该数据集分为训练集和验证集，一条文本的向量表示是其所有词的词向量的平均值。

至此获得了用于训练模型的文本分类数据集，记为data。

图1是级联式自动机器学习的流程图，下级是摇臂的内部结构，即无梯度优化方法搜索超参数的整个流程，上级是选择摇臂的策略。

步骤二：实现K种机器学习算法，即构建K个摇臂。由图1摇臂的内部结构可知，一个摇臂包括一种算法，该算法生成的超参数搜索空间和无梯度优化方法。比如K近邻算法，它有n_neighbors、weights和p三种超参，每个超参的取值范围记为δ₁，δ₂，δ₃，则该算法的超参搜索空间H＝δ₁×δ₂×δ₃

步骤三：

初始化每个摇臂的回报集D，回报集D_i中存放选择Arm_i获得的回报，起初为空集。依次从K个摇臂中选择，基于文本分类数据集训练K个模型M_i，t，i＝1，2，...，K，表t示当前时间步，即当前选择摇臂的次数。其中模型M_i，t对文本的分类准确率X_i，t存放到回报集D_i中。

步骤四：

上级基于各个摇臂的回报集，利用多摇臂赌博机算法从多个摇臂中作出选择。主要包括：

(2)根据

和

计算得到：

步骤五：

记上一步被选择的摇臂由算法A_i构成，利用无梯度优化方法为算法A_i从其超参搜索空间H_i中搜索一组超参数

搜索超参数的流程如图2所示，仍以步骤三中的K近邻算法为例，从δ₁，δ₂，δ₃中各自选取一个值ω₁，ω₂，ω₃作为三个超参的值，得到h_i＝(ω₁，ω₂，ω₃)构成一个样本，共采样m个样本。经过某组超参数配置的算法

在文本分类数据集data上训练得到模型，该模型的性能可以衡量该组超参数的好坏。记L为评估模型性能的方法，则通过优化目标函数得到最优的样本即为搜索到的超参数

其中目标函数为：

步骤六：

将文本分类数据集划分为训练集data^train和验证集data^valid，用上一步搜索到的超参数

为K近邻算法的三个超参赋值，配置好超参数的算法

在data^train上训练一个分类模型M_i，t：

其中t＝K+1，K+2...，该模型在data^valid上分类准确率X_i，t存放到回报集Di中。

步骤七：

重复步骤四到步骤六，直到达到设定的迭代次数，返回所有训练的模型中分类准确率最高的模型。该模型可以用于预测待分类文本的类别。

Claims

1.一种基于自动机器学习算法选择的文本分类方法，其特征在于，分级处理训练文本分类模型过程中的算法选择和超参搜索，上级采取策略选择算法，下级为所选算法搜索超参数；具体来说，利用多摇臂赌博机算法自动的从多个机器学习算法中作出选择，并用无梯度优化方法为所选算法搜索超参数，配置好超参数的算法在文本分类数据集上训练得到分类模型；重复选择算法、搜索超参数和训练模型的过程，可以得到多个不同配置的算法训练的模型，将其中性能最好的模型用于待预测文本；包括以下步骤：

(1)基于任务文本环境收集文本语料数据集，生成文本分类数据集；

(2)挑选K个用于训练分类模型的机器学习算法，并利用每一种算法形成多摇臂赌博机中的一个摇臂，共构建K个摇臂；

(3)初始化每个摇臂的回报集，回报集用于存放各个摇臂获得的回报；

(4)基于每个摇臂的回报集，利用多摇臂赌博机算法从K个摇臂中选择一个摇臂，也就选择了一种算法；

(5)针对被选择的算法，使用无梯度优化方法该算法搜索一组超参数；

(6)步骤(4)中被选择算法的超参用步骤(5)中搜索到的一组超参数赋值，然后在文本分类数据集上训练模型，并评估该模型的分类准确率；

(7)用该模型的分类准确率更新步骤(4)中被选择的摇臂的回报集；

(8)重复执行步骤(4)到步骤(7)，直到达到设定的迭代次数，返回所有被训练的模型中分类准确率最高的模型，用于对待预测的文本数据进行分类。

2.根据权利要求1所述的基于自动机器学习算法选择的文本分类方法，其特征在于，基于任务文本环境收集文本语料数据集，为其中每条数据标注一个类别；根据所有的类别建立一个字典，字典中的每个元素是“类别：序号”的对应，根据语料数据集的词频也建立一个词典，词典中的每个元素是“词：序号”的对应；然后根据词典将数据集中的每条文本序列转换成编码表示，并利用文本向量嵌入方法训练的词向量将编码序列转换成向量表示，得到了文本分类数据集；将该数据集分为训练集和验证集。

3.根据权利要求1所述的基于自动机器学习算法选择的文本分类方法，其特征在于，所述步骤(2)中的机器学习算法，包括支持向量机、K近邻和决策树分类算法；各算法的超参构成了其超参搜索空间。

4.根据权利要求1所述的基于自动机器学习算法选择的文本分类方法，其特征在于，所述算法选择过程中，初始化每个摇臂的回报集，回报集D_i中存放选择摇臂Arm_i获得的回报，起初为空集；依次从K个摇臂中选择，基于文本分类数据集训练K个模型M_i，t，i＝1，2，...，K，t表示当前时间步，即当前选择摇臂的次数；其中模型M_i，t对文本的分类准确率X_i，t存放到回报集D_i中，X_i，t也表示第i个摇臂的回报。

5.根据权利要求1所述的基于自动机器学习算法选择的文本分类方法，其特征在于，所述步骤(4)中：基于各个摇臂的回报集D₁，D₂，，...D_K，级联式自动机器学习的上级利用多摇臂赌博机算法从K个摇臂中选择一个，记I_t表示第t轮迭代被选择的摇臂；具体步骤如下：

其中α＞0，是多摇臂赌博机算法的超参，用于平衡增加期望平均回报所带来的影响；T_i(t)表示直到第t轮迭代Arm_i被选择的次数；

(2)根据

和

计算得到：

6.根据权利要求1所述的基于自动机器学习算法选择的文本分类方法，其特征在于，所述步骤(5)中：在级联式自动机器学习的上级选择出一个摇臂，记该摇臂由算法A_i构建，算法A_i的超参搜索空间为H_i；下级利用无梯度优化方法为算法A_i从H_i中搜索一组超参数

7.根据权利要求6所述的基于自动机器学习算法选择的文本分类方法，其特征在于，所述步骤(6)-(7)中，算法A_i的超参用

赋值，然后在文本分类数据集上训练一个分类模型M_i，t，将模型M_i，t的文本分类准确率X_i，t存放到回报集D_i中。