CN107169001A

CN107169001A - 一种基于众包反馈和主动学习的文本分类模型优化方法

Info

Publication number: CN107169001A
Application number: CN201710205306.4A
Authority: CN
Inventors: 杨静; 陈博闻; 江雨
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2017-09-15

Abstract

本发明公开了一种基于众包反馈和主动学习的文本分类模型优化方法，包括：选取文本数据集，将文本数据集分为初始训练集和剩余数据集；从文本数据集中获得词；构建文本数据集的特征集，向量化文本数据集；在分类模型上引入主动学习，预测已向量化的文本数据集的情感极性，结合众包反馈信息优化模型获得文本分类结果。本发明利用众包收集人工标注理由，获取更多用户信息，挖掘人的主观感受，并以更改权重的方式将众包反馈信息融入模型中，优化文本分类模型，从而提升模型分类性能。本发明还引入主动学习算法，挑选最有价值的标注样本交由众包平台进行标注，从而降低标注成本，在有限的预算下，提高标注准确率，解决缺少含标签数据的文本分类任务的难题。

Description

一种基于众包反馈和主动学习的文本分类模型优化方法

技术领域

本发明涉及众包和机器学习领域，具体地说是一种基于众包反馈和主动学习的文本分类模型优化方法。

背景技术

众包是近年来兴起的一个研究点，大量机器难以处理的问题都可以通过众包平台将其分配给互联网上的在线用户来完成。目前已有的利用众包来优化文本分类的方法，往往只是通过众包收集一部分未标注数据的标签，加入到训练集中，并没有深入学习到人的主观感受及其理解能力，限制了分类模型的最终性能。因此本发明提出一种关于文本分类模型的优化方法，通过收集人工标注理由从而优化模型，在有限的预算下能够尽可能的提高文本分类准确率。

主动学习作为一种新的机器学习算法，其主要目标是在大量未标注数据集中有效地发现最有价值信息量最大的一部分样本交由人工标注，从而扩充训练集提高分类模型性能。与传统的监督方法相比，主动学习能够很好地处理较大数据集、从中选择有辨别能力的样本并且减少人工标注成本。当面对一个仅有少量训练集却要对大量测试集进行预测的文本分类任务时，本发明引入主动学习算法，挑选最优的样本交由众包平台进行人工标注，从而降低标注成本，实现在有限的预算下，提高模型分类准确率。

发明内容

本发明的目的是解决一个现实情况下的常见分类问题，只包含少量含标签数据的文本分类任务，克服现有的基于众包的文本分类方法的不足之处，利用众包平台收集的标注理由，提出了一种模型优化方法，并且引入主动学习减少开销。

本发明提出了一种基于众包反馈和主动学习的文本分类模型优化方法，包括以下步骤：

步骤一：选取文本数据集，将文本数据集分为初始训练集和剩余数据集；

步骤二：对所述文本数据集进行预处理，从中获得词；

步骤三：以每个词为特征，构建所述文本数据集的特征集，并计算特征对应的权重值以向量化所述文本数据集；

步骤四：在分类模型上引入主动学习，对已向量化的所述文本数据集进行情感极性预测，并且结合众包反馈信息优化模型，获得优化的文本分类结果。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，步骤四包含如下步骤：

使用初始训练集训练原始的分类模型，使用所述分类模型对所述剩余数据集进行预测；

在所述分类模型中引入主动学习，在所述剩余数据集中挑选出若干最有价值的样本，交给众包平台，进行人工标注并收集标注理由；

获取人工标注理由中的关键词，提升关键词对应词的权重，同时将已标注的样本从剩余数据集中剔除，放入初始训练集中；

使用更新后的初始训练集和已向量化的所述文本数据集重新训练所述分类模型，所述分类模型继续用于预测所述剩余数据集；

返回进行步骤b到d并迭代，直至用完预算或满足预先设置的终止学习指标为止，得到优化的文本分类结果。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，所述最有价值的样本是对于所述分类模型最不确定的样本，所述分类模型所述最有价值的样本所预测出的分类结果的置信度低。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，所述挑选样本的方法包括随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，所述众包反馈是通过众包平台获取的人工标注结果以及标注理由。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，所述标注理由是在由自动化的方式对原始文本进行处理后形成的若干个特征词中，通过众包平台人工地筛选出的少量特征词。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，计算特征对应的权重值的方法包括：基于词的方法、基于词频的方法和基于TFIDF的方法。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，所述分类模型包括：支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中，所述的权重值根据众包反馈的内容进行改进，权重值以w＝w₀×k×ε表示，其中w₀为上一次迭代中的权重值，k为所述众包反馈中特征词出现的次数，ε为经验系数。

本发明的有益效果在于：本发明引入众包，在让用户给出标签的同时，收集用户的标注理由，扩充众包平台收集的内容形式，挖掘更多用户信息，以合理的方式将用户信息融入分类模型，从而优化模型提升数据标注准确率。

附图说明

图1是本发明基于众包反馈和主动学习的文本分类模型优化方法流程图。

图2是本发明基于众包反馈和主动学习的文本分类模型优化方法较优化前方法的效果对比图表。

图3是本发明基于众包反馈和主动学习的文本分类模型优化方法在迭代过程中的分类准确率变化曲线。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

在图1中，根据本发明实施例所述的一种基于众包反馈和主动学习的文本分类模型优化方法，包括以下步骤：

步骤一：选取文本数据集，将文本数据集分为初始训练集和剩余数据集。

步骤二：对所述文本数据集进行预处理，从中获得词；

步骤四：在分类模型上引入主动学习，对已向量化的所述文本数据集进行情感极性预测，并且结合众包反馈信息优化模型获得优化的众包反馈信息。其中，步骤四包含如下步骤：

a.使用初始训练集训练原始的分类模型，使用所述分类模型对所述剩余数据集进行预测；

b.在所述分类模型中引入主动学习，在所述剩余数据集中挑选出若干最有价值的样本，交给众包平台，进行人工标注并收集标注理由；

c.获取人工标注理由中的关键词，提升关键词对应词的权重，同时将已标注的样本从剩余数据集中剔除，放入初始训练集中；

d.使用更新后的初始训练集和已向量化的所述文本数据集重新训练所述分类模型，所述分类模型继续用于预测所述剩余数据集；

e.返回进行步骤b到d并迭代，直至用完预算或满足预先设置的终止学习指标为止，得到优化的文本分类结果。

对于所述步骤一中挑选文本数据集，本发明选用了两种含标准类别标签的文本数据集，分别是10000条酒店评论数据和4688条微博评论数据。本发明旨在解决一个现实生活中的常见分类问题，只包含少量含标签数据的文本分类任务，因此挑选0.5％的数据模拟为含标签数据作为初始训练集I_u，剩余的数据模拟为需要预测的数据集。

对于所述步骤二中对文本进行预处理操作，具体步骤包括：先用现有的结巴中文分词工具在精确模式下对文本进行分词；再利用哈工大提供的停用词表对文本中的停用词进行过滤，并且去除掉文本中的数字和字母。

对于所述步骤三中确定特征集，计算特征权重，将文本向量化。预处理后的文本中的每个词作为一个特征，特征集就是样本中出现的所有词组成的词典，计算特征权重的方法包括：基于词的方法、基于词频的方法和基于TFIDF的方法。本实施例中特征权重计算方法为基于TFIDF(term frequency–inverse document frequency)的方法。

所述基于词的方法是根据词本身设置权重值，如果词存在则对应的权重值设为1，反之，则为0。

所述基于词频的方法是利用词在文本中出现的频率来计算权重值，具体公式如下：

其中，m表示文本D中关键词出现的次数，M表示文本D的总单词数。

使用TF-IDF方法计算特征对应的权重值。TF-IDF的概念最开始用于信息检索中，这里将其运用于文本分类，TF(term frequency)指的是词频，即关键词在某一篇文本中出现的频率；IDF(inversed document frequency)指的是逆文本频率指数，用这个来计算词的权重，如果一个词只在很少的文本中出现，那么它对所属类别的贡献就大一些，权重也要大一些，如果一个词在大多数文本中都出现过，那么它的出现对所述哪个类的影响并不大，权重就应该小一些。

计算TF(词频)具体公式如下：

其中m表示文本D中关键词出现的次数，M表示文本D的总单词数。

计算IDF(逆文本频率指数)具体公式如下：

其中N为总文本数，n为包含词关键词的文本数量。

最后计算TF和IDF的乘积作为词的权重：

w＝TF×IDF

权重值w与一个词在该文本中出现次数成正比，与该词在所有文本中出现次数成反比。

对于所述步骤四中在分类模型上引入主动学习对向量化的文本进行情感极性的预测，并且结合众包反馈信息优化模型，具体实施步骤如下：

首先使用常用的机器学习分类模型对初始训练集I_u进行训练，得到一个原始分类模型，用该模型对剩余数据集T进行预测。这里选择的分类模型有：支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。

引入主动学习，从剩余数据集中挑选出少量的最有价值的样本进行标注，然后扩充训练集。主动学习是机器学习的一个分支，属于人工智能的范畴，主要思想是让分类模型在学习的过程中主动地提出标注请求，对于模型提出的数据进行标注后放回入训练集，让模型重新学习从而优化模型。在学习过程中，模型本身提出更有意义的标注请求，能够较少大量的训练数据的同时，也能使得模型达到很好的表现。最有价值的样本是对于分类模型最不确定的样本，分类模型最有价值的样本所预测出的分类结果的置信度低。本发明运用的挑选策略有：随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。随机选择策略是指在T中随机抽取少量样本。基于边缘的选择策略是指挑选对分类模型最不确定的一批数据样本。基于后验概率的选择策略是指后验概率能够反映预测样本类别的确信度，其思想同样是挑选最不确定样本。

基于边缘抽样的方法主要用于支持向量机模型的主动学习中，数据点距分类超平面间的距离，即决策函数的绝对值，能够直观地估计出未标记样本的确定性程度。通过以下公式来得到未标注的样本：

其中min|f(x_i,v)|表示样本点到分类超平面的距离。距离分类界面越近的样本，分类模型对其确信度越低，对分类模型而言，该样本所包含的信息量越大。

对于其他分类模型，类似基于概率的朴素贝叶斯分类器便可以选用基于后验概率的挑选策略。Breaking Ties算法专注于挑选后验概率最小差异的样本，具体公式如下：

其中m+指的是使式子前半部分取最大值的m，后半部分取最大值时去掉这个m。该式前半部分得到模型预测的最可能分类的概率，后半部分得到模型预测的第二可能分类的概率，若两个概率值差异值很近，意味着模型很难区分到底属于哪一类，这样的样本被认为是信息量大的数据，交由人工标注。

通过主动学习算法挑选样本交给众包平台进行人工的标注并且收集其标注理由。本发明设计一套众包任务，给用户提供自动化处理过后的文本，即样本中的一些词语，让用户提供标签的同时在其中挑选最能够影响其判断的词语，可以选择多个但不能不选。

发布众包任务。从众包平台获取到两部分信息，一是标签；二是标注理由，即一些关键词。发布的是二分类任务，每题两个选项，每题收集5个答案，用多数投票的策略得到每道题的正确标签，然后收集答对的用户反馈的标注理由，答错的则自动丢弃，提升收集到的关键词对应的权重值，与此同时将已标注的样本加入训练集I_u中并将其从剩余的测试集T中去除。这里的多数投票策略指的是将收集的5个答案中个数较多的那个选项作为问题的正确答案。这里提升权重的方式是将原本的关键词权重乘上一个经验系数。

进行上述操作后，得到了一个扩充后的训练集并更新了每个样本的向量，然后重新训练出一个分类模型，预测剩余数据集。

不断利用主动学习算法从剩余数据集中挑选出最有价值的样本交给众包平台标注，反复跌代，每次挑选出2-10个样本，直到预算用尽或整体标注准确率达到阈值。

图2中，表现了本发明相对于现有技术利用优化后的文本分类模型分类所取得的技术效果。图2中显示的是分别在所述两种主动学习的挑选策略，即随机选择策略和基于边缘的选择策略上，利用所述优化方法后分类准确率的提升效果。

图3中，表现了本发明相对于现有技术利用优化后的文本分类模型分类所取得的技术效果。图3中显示了迭代多次过程中优化前与优化后的分类准确率的对比，优化后的模型性能更稳定并且较优化前的模型性能有一定的提升。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，包括以下步骤：

步骤二：对所述文本数据集进行预处理，从中获得词；

2.如权利要求1所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，步骤四包含如下步骤：

3.如权利要求2所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，所述最有价值的样本是对于所述分类模型最不确定的样本，所述分类模型所述最有价值的样本所预测出的分类结果的置信度低。

4.如权利要求3所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，所述挑选样本的方法包括随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。

5.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，所述众包反馈是通过众包平台获取的人工标注结果以及标注理由。

6.如权利要求5所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，所述标注理由是在由自动化的方式对原始文本进行处理后形成的若干个特征词中，通过众包平台人工地筛选出的少量特征词。

7.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，计算特征对应的权重值的方法包括：基于词的方法、基于词频的方法和基于TFIDF的方法。

8.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，所述分类模型包括：支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。

9.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法，其特征在于，所述的权重值根据众包反馈的内容进行改进，权重值以w＝w₀×k×ε表示，其中w₀为上一次迭代中的权重值，k为所述众包反馈中特征词出现的次数，ε为经验系数。