CN108062331A

CN108062331A - 基于终生学习的增量式朴素贝叶斯文本分类方法

Info

Publication number: CN108062331A
Application number: CN201610983203.6A
Authority: CN
Inventors: 夏睿; 潘振春
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-11-08
Filing date: 2016-11-08
Publication date: 2018-05-22
Anticipated expiration: 2036-11-08
Also published as: CN108062331B

Abstract

本发明涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法，该方法包括：获取初始文本；提取文本的特征词，保存文本集的特征词表以及文本数量；计算文本中各特征词的词频，将文本集分为训练集和验证集两个部分；通过朴素贝叶斯分类器训练上一步生成的训练集向量模型，得出朴素贝叶斯模型的先验概率和特征类条件概率并保存；如果有新文本，增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率，若没有，从验证集中选取测试语料，并根据朴素贝叶斯模型得到测试语料的预测文本类别，计算预测的准确率。本发明不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习，而且具有新特征处理和领域自适应能力。

Description

基于终生学习的增量式朴素贝叶斯文本分类方法

技术领域

本发明属于数据挖掘与机器学习领域，具体涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法。

背景技术

随着信息时代的到来，我们能够获得的信息与日剧增，而如何处理和利用这些海量数据就显得尤为重要。尽管如今硬件的性能越来越高，但是信息量也呈爆炸式的增长，许多传统的分类方法在处理数据时都是一次性将所有数据读入内存，这种方式大大的限制了算法的泛化性和可扩展性。此外，在大多数自然语言处理任务中，训练集都是不完备的，为了改善模型性能，训练集需要不断加入和更新训练样本。传统分类方法每次更新样本都需要重新整合所有样本，重新训练，这必然导致重复训练，带来不必要的巨大时间开销。

在大数据时代，一个高效的分类算法，需要能在克服数据量过大问题的基础上充分利用数据，以提高分类的准确率。然而，目前已知的许多分类算法并不具备这种能力，缺乏增量式的参数学习方式。朴素贝叶斯分类算法作为分类中一种常用的算法，并不具备增量学习的能力。为了让朴素贝叶斯算法拥有更好的增量或者在线学习能力，国内外学者展开了广泛且深入的研究。相关主要有两类：一是通过不同的策略筛选样本，选择对分类有益的样本进行增量学习；二是更改朴素贝叶斯的参数更新方式，使其具备更好的增量学习能力。前者采用不同策略筛选样本来优化增量学习的方法，并没有从根本上改变模型，因此参数更新公式也仅仅是基于传统的朴素贝叶斯模型，基于这种方法的增量研究都是围绕着如何筛选样本进行的。后者，更改朴素贝叶斯模型参数方法的工作相对较少，然而此类方法仍然基于现有的朴素贝叶斯模型，其性能并不能得到提高。

发明内容

本发明的目的是提供一种基于终生学习的增量式朴素贝叶斯文本分类方法。

实现本发明目的的技术方案为：一种基于终生学习的增量式朴素贝叶斯文本分类方法，包括下列步骤：

步骤1，获取初始文本，构成文本集；

步骤2，提取文本的特征词，将文本进行分词，保存文本集的特征词表以及文本数量；

步骤3，计算文本中各特征词的词频，将文本用向量模型进行表示，并将文本集分为训练集和验证集两个部分；

步骤4，通过朴素贝叶斯分类器训练上一步生成的训练集向量模型，得出朴素贝叶斯模型的先验概率和特征类条件概率并保存；

步骤5，判断是否有新文本，若有，增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率，若没有则执行步骤6；

步骤6，从验证集中选取测试语料，并根据朴素贝叶斯模型得到测试语料的预测文本类别，计算预测的准确率。

与现有技术相比，本发明具有如下优点：

本发明提出的基于终生学习的增量式朴素贝叶斯文本分类方法，不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习并提高文本分类的准确率，而且还具有较好的新特征处理和领域自适应能力。

附图说明

图1为本发明基于终生学习的增量式朴素贝叶斯文本分类方法流程图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

本发明的终生学习过程：首先传统分类器根据历史数据学习得到的部分模型参数被保存到过去任务知识存储中，然后新任务增量学习根据过去任务知识以及增量数据更新模型参数，同时依据该参数更新过去任务知识存储。当训练下一批数据时，重复以上流程以达到终生学习的目的。终生学习机制中，分类模型在根据增量数据被不断优化的同时，也能随时被用于分类任务。

如附图1所示，本发明基于终生学习的增量式朴素贝叶斯文本分类方法包括以下步骤：

步骤1，获取初始文本，构成文本集S；

步骤2，提取文本的特征词，将文本进行分词，然后保存文本集的特征词表以及文本数量N；

步骤3，计算文本中各特征词的词频，并将文本用向量模型进行表示，然后将文本集分为训练集和验证集两个部分；

采用五倍交叉验证方法，每次选取4份文本作为训练集，一份文本作为验证集。

步骤4，通过朴素贝叶斯分类器训练上一步生成的训练集向量模型，得出朴素贝叶斯的模型参数π_j和θ_i|j并保存；其中π_j表示文本中j类文本的先验概率，而θ_i|j代表特征i在j类文本中出现的条件概率；

步骤5，判断是否有新文本T，若有，增量式训练新数据并更新朴素贝叶斯模型的先验概率和特征类条件概率，若没有则执行步骤6；增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率的具体过程为：

步骤5-1，对新文本进行特征词提取，将特征词表中没有的特征词加入特征词表，并统计新文本总数M；

步骤5-2，计算文本中各特征词的词频，并将文本用向量模型进行表示；

步骤5-3，结合保存的朴素贝叶斯模型的先验概率π_j和特征类条件概率θ_i|j以及新文本T的向量模型使用增量式朴素贝叶斯更新方式更新参数得到新的先验概率π_j′和特征类条件概率θ_i|j′；

步骤5-4，更新参数π_j＝π_j′和θ_i|j＝θ_i|j′，并且更新文本集S中文本总数N＝N+M。

所述的增量式朴素贝叶斯参数更新方式可以表示为：

公式(1)中N_j和M_j分别表示在文本集S和新文本T在j类中的文本总数，1≤j≤C，C为文本类别数，在不重新训练文本集S的情况下N_j是未知的，通过N_j＝π_j*N还原得到；1≤k≤M，M为新文本总数；

公式(2)中T_j ^s和T_j ^t分别表示文本集S和新文本T在j类中的特征规模，其中V为特征词表的长度，I(y_k＝c_j)表示k文本的真实类别为c_j，N(t_i,x_k)表示k文本中第i个特征出现的次数；t_i为第i个特征，x_k为第k个文本的特征向量，y_k为第k个文本对应的类别标签；

通过特征规模缩放的方式得到：

所述的增量式参数更新中还加入了一个平衡系数，通过加权平衡原始数据与新的增量数据，进而更加侧重于有利于未来任务学习部分的知识。平衡系数的加入有两种方式，分别为通用平衡系数和每个类别的平衡系数两种方式：

λ为通用平衡系数，0＜λ＜1；

λ_j为第j个类别的平衡系数，0＜λ_j＜1。

在公式(3)中，每个类别下的参数调节遵循同一个标准。而考虑到每个类别下的情况不可能完全一样，我们又在公式(3)基础上在每个类别引入不同的参数得到公式(4)。

下面结合具体实施例对本发明作进一步说明。

实验例

本实施例采用文本分类经典数据集3分类任务、Movie review dataset和Multi-domain sentiment datasets对基于终生学习的增量式朴素贝叶斯文本分类方法进行了性能分析；其中3分类任务包括movie3、network3和health3，Multi-domain sentimentdatasets包括book、dvd、electronics和kitchen。

实验又分为两种数据条件，领域特定和领域变化。领域特定指历史数据与增量数据来自同一个领域，即最普遍的文本分类任务。而领域变化中历史数据与增量数据来自不同的相关领域，也就是领域适应的分类任务。

(1)领域特定文本分类

领域特定的文本分类和情感分类分别在上述8个领域的语料上进行，验证集样本固定为200个，S和T的比例设为8:2，剩余部分作为测试样本。在语料的预处理阶段，选用unigrams+bigrams作为特征，并通过特征选择选取80％的特征。为了得到稳定的结果，实验中采用5倍交叉验证的方法，取平均准确率作为最终结果。

为了验证增量式贝叶斯分类的有效性及增量之后的分类性能，采用传统分类器在3组数据上的实验对分类器性能进行比较，其中3组数据分别为S、T以及二者的叠加数据。传统分类器在这三组数据上训练得到三个模型，并用这些模型对测试数据进行分类预测，预测准确率分别用acc_s、acc_t和acc_st表示。

分别使用公式(2)-(4)的参数更新方式进行增量学习生成的模型，并对测试文本进行分类，实验结果如表2所示，其中acc_in_n、acc_in_s和acc_in_m分别对应用公式(2)-(4)的参数更新方式生成的模型用于测试样本分类的结果，得到的分类结果如下表所示：

表1领域特定文本分类表

对比表中8个任务上的实验结果，发现acc_in_m明显优于其它所有结果，该增量式贝叶斯分类器性能有了显著的提高。在三个对比实验上的结果，代表了面对大量历史数据与少量增量标注数据时传统的处理方法，可以看到不仅性能低于增量学习方法，而且需要重复训练。

(2)领域适应增量学习实验

在领域适应中，使用Movie review dataset作为源领域的数据，Multi-domainsentiment datasets的每一个领域分别作为目标领域，共4个领域适应增量学习任务。源领域样本S固定为2000个，在目标领域中随机选取200个样本作为选取加权参数的验证集，并从中选取200个作为T，剩余部分作为测试样本。对比实验分别采用acc_s、acc_t和acc_st。在4个领域适应任务上的增量学习结果如下表所示：

表2领域适应文本分类表

表中A->B表示A作为源领域数据，B作为目标领域数据。acc_in_m表示采用公式(4)的参数学习方式生成的模型预测测试样本的分类准确率，其中参数在验证集上选取的。acc_in_a同样采用的公式(4)，但参数直接在测试集上选取的。结果表明，acc_in_m明显优于三组对比实验结果，平均准确率提高了5个点左右，证明本文的方法在跨领域任务上效果尤为显著。而acc_in_m虽然低于acc_in_a,但都优于对比实验结果。通常在测试集上调参是不恰当的，这里提出来是为了证明在验证集上调参的有效性。显而易见，在验证集上加权调参的结果在测试集上同样适用，说明本发明的方法具有普遍适用性。

由实验一和实验二可知本发明的方法在领域特定和领域适应的增量实验中都能取得较好的效果，证明了该方法不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习，而且还具有较好的领域自适应能力。

Claims

1.一种基于终生学习的增量式朴素贝叶斯文本分类方法，其特征在于，包括以下步骤：

步骤1，获取初始文本，构成文本集；

2.根据权利要求1所述的基于终生学习的增量式朴素贝叶斯文本分类方法，其特征在于，步骤3中将文本集分为训练集和验证集两个部分的具体过程为：采用五倍交叉验证方法，每次选取4份文本作为训练集，一份文本作为验证集。

3.根据权利要求1所述的基于终生学习的增量式朴素贝叶斯文本分类方法，其特征在于，步骤5中增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率的具体过程为：

4.根据权利要求3所述的基于终生学习的增量式朴素贝叶斯文本分类方法，其特征在于，所述增量式朴素贝叶斯更新方式为：

<mrow> <msup> <msub> <mi>&pi;</mi> <mi>j</mi> </msub> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mi>j</mi> </msub> <mo>+</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> </mrow> <mrow> <mi>N</mi> <mo>+</mo> <mi>M</mi> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&pi;</mi> <mi>j</mi> </msub> <mo>*</mo> <mi>N</mi> <mo>+</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> </mrow> <mrow> <mi>N</mi> <mo>+</mo> <mi>M</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

公式(2)中和分别表示文本集S和新文本T在j类中的特征规模，其中V为特征词表的长度，I(y_k＝c_j)表示k文本的真实类别为c_j，N(t_i,x_k)表示k文本中第i个特征出现的次数；t_i为第i个特征，x_k为第k个文本的特征向量，y_k为第k个文本对应的类别标签；

通过特征规模缩放的方式得到：

加入平衡系数，包括通用平衡系数和每个类别的平衡系数两种方式：

<mrow> <msubsup> <mi>&theta;</mi> <mrow> <mi>i</mi> <mo>|</mo> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&lambda;T</mi> <mi>j</mi> <mi>s</mi> </msubsup> <mo>*</mo> <msub> <mi>&theta;</mi> <mrow> <mi>i</mi> <mo>|</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&lambda;</mi> </mrow> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>I</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>N</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&lambda;T</mi> <mi>j</mi> <mi>s</mi> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&lambda;</mi> </mrow> <mo>)</mo> </mrow> <msubsup> <mi>T</mi> <mi>j</mi> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

λ为通用平衡系数，0＜λ＜1；

<mrow> <msub> <msup> <mi>&theta;</mi> <mo>&prime;</mo> </msup> <mrow> <mi>i</mi> <mo>|</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msubsup> <mi>T</mi> <mi>j</mi> <mi>s</mi> </msubsup> <mo>*</mo> <msub> <mi>&theta;</mi> <mrow> <mi>i</mi> <mo>|</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>I</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>N</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msubsup> <mi>T</mi> <mi>j</mi> <mi>s</mi> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <msubsup> <mi>T</mi> <mi>j</mi> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

λ_j为第j个类别的平衡系数，0＜λ_j＜1。