CN107644057B

CN107644057B - 一种基于迁移学习的绝对不平衡文本分类方法

Info

Publication number: CN107644057B
Application number: CN201710675091.2A
Authority: CN
Inventors: 王宝亮; 么素素
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-08-09
Filing date: 2017-08-09
Publication date: 2020-03-03
Anticipated expiration: 2037-08-09
Also published as: CN107644057A

Abstract

本发明涉及一种基于迁移学习的绝对不平衡文本分类方法，包括：文本数据预处理：划分目标领域数据与辅助领域数据，其中辅助领域数据与目标领域数据分布不同,但是相关；文本向量化；级联结构各节点分类模型训练：采用改进的Tradaboost算法，用辅助领域数据平衡训练集，并通过级联结构逐渐平衡领域间权重以及不同类别样本权重，对于不同领域不同类别的样本采取不同的权重更新方式；最终分类结果由所有节点的分类器加权投票得出。

Description

一种基于迁移学习的绝对不平衡文本分类方法

技术领域

本发明涉及一种文本分类方法。

背景技术

文本分类方面：

文本分类是自然语言处理中一个非常重要的应用领域。面对庞大的文本数据群，文本分类在文本信息的处理方面有着举足轻重的作用。同时文本分类时信息检索、信息过滤、搜索引擎等领域的基础。

随着web文本的海量增长，文本信息呈爆炸式增长趋势，已有的样本不足以训练一个可靠的模型，而新样本数据的标注费时费力。现实数据往往存在数据不平衡现象，目前针对不平衡问题研究，主要包含两种方法，一种是从数据层面平衡数据集,另一种是设计或改进学习算法，降低算法对类别不平衡度的敏感度，从而增强算法的鲁棒性。但是当训练数据绝对不平衡，少数类样本包含的信息不足以训练一个分类器，利用传统的不平衡学习方法，如直接训练分类器或者利用抽样方法平衡训练集都不能达到理想的分类效果。因此可以利用迁移学习在训练数据中引入辅助领域数据，帮助训练分类模型。

文本分类的整体流程如图(1)所示，主要包括：收集文本数据、分词、去停用词、特征选择，分类模型设计，分类模型性能评价。

迁移学习方面：

迁移学习是机器学习的一个重要分支，其打破了传统机器学习算法中训练数据与测试数据独立同分布的假设条件，使得可以有效利用过期数据进行学习。迁移学习主要包括实例迁移，特征迁移，参数迁移。TrAdaBoost算法是基于boosting技术的实例迁移算法，算法将辅助领域与目标领域数据直接组合作为训练集训练分类器模型。采用boosting技术可以将弱分类器算法通过组合提升为强学习算法，从而有效提升学习效果。但是该方法容易加重类别不平衡问题，目前针对上述问题提出了许多解决方案，但是这些方案没能同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题。

发明内容

本发明针对目标领域样本绝对不平衡问题，提供一种同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题的绝对不平衡文本分类方法。本发明融合级联模型与集成迁移学习思想，提出基于级联模型的集成迁移学习算法，可以有效提高分类模型对目标领域少数类样本的识别率，从而实现更准确的文本分类。技术方案如下：

一种基于迁移学习的绝对不平衡文本分类方法，包括下列步骤：

1)文本数据预处理

划分目标领域数据与辅助领域数据，其中辅助领域数据与目标领域数据分布不同,但是相关，辅助领域中存在更为适合训练目标领域分类模型的样本；经过数据清洗后在目标领域数据中随机选择80％的数据作为目标领域训练数据，剩余20％作为分类模型性能评估的测试数据，辅助领域全部数据均参与分类器训练；

2)文本向量化

3)采取词袋模型对目标领域数据进行分词，并生成文本词典；将每篇文献表示为字典长度的向量，每个特征的权重利用词频-反文档频率TF-IDF进行加权；

4)级联结构各节点分类模型训练

采用改进的Tradaboost算法，用辅助领域数据平衡训练集，并通过级联结构逐渐平衡领域间权重以及不同类别样本权重，对于不同领域不同类别的样本采取不同的权重更新方式，改进如下：

a.目标领域数据

对目标领域数据，采取Adaboost算法的权重更新方法，权重更新因子大于1，将错分样本视为对分类模型训练有益样本，增加权重；

b.辅助领域负类样本

对不平衡学习，目标领域数据中负类样本数量远多于正类样本数量，权重更新因子小于 1，错分样本权重降低；

c.辅助领域正类样本

对于辅助领域正类样本，引入权重恢复因子σ动态调整权重更新因子，σ与目标领域正负类样本分类准确率相关，当目标领域正负类分类准确率一致时，σ趋近于1，此时权重更新因子趋近于β_src，其中ns为辅助领域样本数量，m为迭代次数；当目标领域正类样本的准确率高于负类样本的准确率时，σ<1,此时权重更新因子降低，降低正类错分样本权重；当目标领域正类样本准确率低于负类样本准确率时，σ>1,此时权重更新因子增加，提高正类错分样本权重；

5)利用级联结构逐渐平衡数据集

除第一个节点外，每个节点都要利用上一节点训练的分类器和样本权重对辅助领域样本进行筛选，对于权重小于阈值的辅助领域数据，将其视为不相关样本进行删除；对于正确分类的辅助领域样本，将其视为冗余样本进行删除；

6)级联结构分类模型融合

最终分类结果由所有节点的分类器加权投票得出。

本发明的有益效果如下：

1.本发明提出了一种基于级联结构的集成迁移学习文本分类算法。解决了Tradaboost 算法中辅助领域样本权重不可恢复问题。同时利用级联结构逐步删除辅助领域中噪声样本与冗余样本，在保证目标领域主导作用的同时充分利用辅助领域数据。可以在一定程度上解决数据绝对不平衡问题，并预防负迁移的发生。

2.文本分类器的构造者在构造算法时，可以根据本发明提供的分类算法模型，根据实际应用场景合理选择辅助领域数据避免负迁移。同时调整算法参数，提升分类性能。

附图说明

图1本发明采用的程序流程图。

图2本发明采用的文本分类模型。

具体实施方式

本发明的基本思想：通过对TrAdaBoost算法引入权重恢复因子，动态调整辅助领域样本权重，解决了算法中辅助领域样本权重不可恢复问题。随后，将改进的算法作为级联结构各节点分类器基分类器，并利用级联结构对辅助领域数据进行样本选择。最终集成各节点分类器作为最终分类器。通过该模型，可以有效提高分类模型对目标领域少数类样本的识别率，从而实现更准确的文本分类。本发明的程序流程如图1所示。采用的文本分类模型如图2所示。下面对本发明进行详细说明。

1数据预处理

1)数据描述

在本发明中，划分目标领域数据与辅助领域数据。其中辅助领域数据与目标领域数据分布不同,但是相关。也就是说,辅助领域中存在一部分比较适合训练目标领域分类模型的样本。

2)构造训练数据和测试数据

经过数据清洗之后，在目标领域数据中随机选择80％的数据作为目标领域训练数据。剩余20％作为分类模型性能评估的测试数据。辅助领域全部数据均参与分类器训练。

2文本向量化

对目标领域数据进行分词，并生成文本词典。本发明采取词袋模型对词语进行统计。将每篇文献表示为字典长度的向量，每个特征的权重利用TF-IDF(词频-反文档频率)进行加权。

3基于迁移学习的绝对不平衡文本分类模型设计

本发明用辅助领域数据平衡训练集，并通过级联结构逐渐平衡领域间权重以及不同类别样本权重，并通过集成各节点分类器提升模型性能。算法框架如图2所示。

3.1级联结构中各节点分类器的设计

将目标领域训练集与辅助领域训练集混合作为训练集，并初始化样本权重。迭代训练弱分类器，并更新样本权重，直到达到指定迭代次数m：

1)样本权重归一化，训练弱分类器

2)引入辅助领域权重恢复因子

式中，

分别为目标领域负类样本与正类样本的分类准确率

3)针对辅助领域与目标领域数据采取不同的权重更新策略

辅助领域样本权重更新因子

其中ns为辅助领域样本数量，m为迭代次数。目标领域权重更新因子

其中ε_tar为目标领域训练样本加权错误率。

对于目标领域数据，对错分样本利用β_tar更新权重，增加了权重，提高其对模型训练的影响。对于辅助领域负类(多数类)样本，对错分样本利用β_src更新权重，减弱辅助领域错分样本对模型训练的影响。对于辅助领域正类(少数类)样本，利用σβ_src更新样本权重。当目标领域不同类别准确率一致度较高时，σ≈1；当少数类样本权重过高导致模型偏向少数，σ<1；当利用当目标领域中少数类样本错误率较高时，σ>1。利用目标领域中不同类别样本分类正确率之间的相对大小动态调节辅助领域权重更新因子，减弱了算法对样本不平衡度的敏感度。

4)得到弱分类器组：

3.2辅助领域数据筛选策略

其中，N_s代表辅助领域中的负类样本(即多数类样本)，H_i-1代表级联结构中第i-1个节点训练的基分类器。

利用上一节点训练的分类器H_i-1及样本权重对进入下一节点的辅助领域样本进行筛选，从而实现更为有效的样本迁移。首先，对于权重小于阈值w_min的辅助领域数据，将其视为不相关样本进行删除。其次，对于正确分类的辅助领域样本，将其视为冗余样本进行删除，从而保证目标领域样本逐渐占优。同时将保留样本作为下一节点的辅助领域训练数据。

3.3级联模型融合

经过n个节点训练，得到一个分类器组{H₁，H₂，...，H_n}，最终得到的分类器根据加权投票策略产生。采用集成学习思想，通过组合将模型提升为强学习算法，可以有效提升模型性能。组合方式如下所示：

其中，

代表节点i训练得到的分类器；

代表级联结构中第i个节点中第j个弱分类器的权重；h_i，j代表级联结构中第i个节点第j次迭代训练的基分类器。

4模型性能评估

对于不平衡数据集而言，本发明利用F-measure、G-Mean作为算法性能评价指标。G-mean 用于评价分类器在两个类别上的平均性能。F-measure是查全率与召回率的调和平均值，其取值与二者较小者较为接近。

Claims

1.一种基于迁移学习的绝对不平衡文本分类方法，包括下列步骤：