CN103218405A

CN103218405A - 基于维数约简的集成迁移文本分类方法

Info

Publication number: CN103218405A
Application number: CN2013100900960A
Authority: CN
Inventors: 王爽; 焦李成; 刘婷婷; 李鹏; 侯彪; 刘芳
Original assignee: Xidian University; Kunshan Innovation Institute of Xidian University
Current assignee: Xidian University; Kunshan Innovation Institute of Xidian University
Priority date: 2013-03-20
Filing date: 2013-03-20
Publication date: 2013-07-24

Abstract

本发明公开了一种基于维数约简的集成迁移文本分类方法，包括步骤：1.入源域文本数据和目标域文本数据，进行预处理，将文本数据转化为单词向量形式；2.标记的源域数据集进行Boostrap随机采样遍，获取相应的个源域子集，再别与目标域测试样本组合成新的数据子集；3.个新的数据子集进行SVD分解并降维，投影到低维空间；4.低维空间中，采用近邻分类器作为基本分类器，由降维后的源域样本预测目标域测试样本的标签,每个测试样本得到个预测标签；5.多数投票的集成方式，得到测试文本数据的最终预测标签。本发明利用过期的源域样本对目标域文本分类，经维数约简后集成，大大提高了分类的正确率，并减少分类时间，降低分类复杂度。

Description

基于维数约简的集成迁移文本分类方法

技术领域

本发明属于计算机文本处理技术；特别是涉及迁移学习的文本分类技术，为一种基于维数约简的集成迁移文本分类方法。

背景技术

机器学习已经广泛的应用到各个领域中，并取得了丰硕的成果，但它还具有训练数据与测试数据分布的局限性，即要求训练数据和测试数据服从相同分布的条件，根据已有的标记样本建立分类模型，对测试样本进行分类预测。随着科学技术的飞速发展，人们每天都会收集大量的数据，其中，web网页文本数据是其中重要的一种，数据信息的更新也越来越快，常常导致数据过期，传统的机器学习算法需要从零开始，重新标注大量的训练文本数据，但是标注新数据需要耗费大量的财力、人力及物力，若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。

(1) 文本分类

文本分类是文本挖掘中的一个重要问题，是在给定的分类体系中，将大量的文本数据划分为两类或多类。文本分类的步骤主要包括获取训练文本，文本特征提取与表示，利用训练文本训练分类器，选择性能评价标准，为了保证文本分类的准确率，还包括测试文本的获取，测试问题的特征提取与表示，由训练分类器去预测测试文本的类别标签，并由性能评价标准评价分类器的性能。

(2)迁移学习

迁移学习是一种新的机器学习框架，旨在将一个环境中的知识应用到新环境的领域与任务中。因此，迁移学习不需要服从数据同分布假设的条件。迁移学习(Transfer Learning)是机器学习领域中崭新的分支，不再要求训练数据和测试数据服从同分布的假设，它强调的是在不同但相似领域、任务和分布间进行知识的迁移。

在许多实际应用值，文本信息不仅数量庞大，包含的内容也在快速的变化更新，例如，web网页的内容经常变化主题。

我们称目标任务的文本为目标域文本或新文本，称以往积累的大量的已分类的文本为源域文本或旧文本。如何最大限度地利用源域文本的分类信息，对目标域文本进行分类，成为一个急需解决的问题。迁移学习成为文本分类挖掘领域的热门研究方向。

在大量的过期的源域文本数据作为训练文本的情况下，对新的目标域文本进行分类，往往不很很好的利用源域样本的信息，分类性能不理想。所以，通过文本数据重组后经维数约简并集成，可以充分利用降维后差异性变小源域样本，来对目标域文本分类。

发明内容

基于上述现有技术存在的问题，本发明提出了一种基于维数约简的集成迁移文本分类方法，针对训练文本中仅有大量旧的源域文本的情况，利用迁移学习思想解决文本二分类问题，能有效地提高分类的准确率。

具体实现步骤包括如下：

(1) 输入源域文本数据和目标域文本数据，进行初步预处理，将文本数据转化为单词向量形式：

1a) 统计每个文本中不同单词出现的次数，并将出现次数小于2的词语对应的次数定为0；

1b) 使用TF-IDF作为特征选取度量的方式，得到文本中词语的权重；

1c)将权重作为样本特征值，得到每个文本样本的特征向量；

1d) 将每一个特征向量形式的样本归一化，使得该向量的模值为单位1。

(2) 将提取到的特征输入到目标域测试样本集和源域有标记的样本集，其中，

和中的样本数目分别为

和

。

(3) 对有标记的源域样本集

进行Boostrap随机采样得到相应的源域子集，并与目标域测试文本数据集重新组合成新的数据子集：

3a) 设定采样次数为T次，并以K近邻算法作为基本分类算法，其中K值由参数分析后确定；

3b) 以概率p从所述源域文本集

中有放回的随机选取源域样本子集

，样本数目为

；

3d) 将上步得到的源域子集分别与目标域样本集

组合成新的数据子集

，其中矩阵

，每行表示一个样本向量，前

行表示源域样本，后

行表示目标域测试样本，则

；

(4) 分别将数据子集

中的两领域样本进行SVD奇异值分解：

；

(5) 将数据集投影到低维空间

，得到降维后的数据集

：

；

(6)在低维空间

中，分别利用降维后的各数据子集中的源域样本对测试样本分类；

(7)检查所述算法的采样次数是否达到T，若已达到，则执行步骤(8)；否则，返回步骤3b)；

(8)采用投票的集成方式判定当前测试样本的标签，得票数多的预测结果作为最终的预测标签。

有益效果

与现有技术相比，本发明在SVD的维数约简的基础上引入了源域文本与目标域文本重组集成的思想，与传统的分类方法相比，拉近了源域文本与目标域文本之间的差异性，并且充分利用文本重组集成带来多样性的优势，使得文本分类的效果更好。

附图说明

图1为本发明的框架图；

图2为本发明的基本流程图。

具体实施措施

如图2所示，本发明的具体实施步骤如下：

步骤1. 输入源域文本数据和目标域文本数据，进行初步预处理，将文本数据转化为单词向量形式：

1a) 统计文本中不同单词出现的次数，并将出现次数小于2的词语对应的次数定为0；

1b) 使用TF-IDF作为特征选取度量的方式，得到文本中词语的权重：

TF(Term Frequency)是指词语在某篇文本中出现的频率，频率越大，则该词语对于这篇文本的表示贡献越大，表示对文本中某一词语局部重要性的度量；IDF(Inverse Document Frequency)为倒排文本频率，表示某一词语在整个文本集中的分布情况，文本集中含有该词语的文本数量越少，则该词语越能区分文本的不同类别，IDF 的计算公式为：

其中，表示文本集中所包含的文本总量，

表示在文本集中含有词语的文本数量。

能够通过提高文本集中少见词语的重要性来增加文本分类的区分度。TF-IDF方法利用公式TF*IDF来衡量词语的权重，较为常见的有：

其中为词语

在文本

中出现的次数，

为经过文本预处理后文本

的词语总数，

为文本集中含有词语

的文本数量。

1c)将权重作为样本特征值，得到每个文本样本的特征向量；

1d) 将每一个特征向量形式的样本归一化，使得该向量的模值为单位1；

步骤2.将提取到的特征输入到目标域测试样本集

和源域有标记的样本集

，其中，

和

中的样本数目分别为

和

；

步骤3.对有标记的源域样本集

3b) 以概率p从所述源域文本集

中有放回的随机选取源域样本子集，样本数目为

；

3d) 将上步得到的源域子集分别与目标域样本集

组合成新的数据子集

，其中矩阵，每行表示一个样本向量，前

行表示源域样本，后

行表示目标域测试样本，则

；

步骤4.分别将数据子集

中的两领域样本进行SVD奇异值分解：

；

步骤5.将数据集

投影到低维空间

，得到降维后的数据集

：

；

步骤6.在低维空间

中，分别利用降维后的各数据子集中的源域样本对测试样本分类：

6a) 对于低维空间

中的每个目标域测试样本

，根据相似度衡量方法中的余弦相似度计算

与各个源域样本间的相似度值

，并将其作为对应源域样本的权重；

6b) 降相似度值降序排列，抽取相似度值最高的前

个源域样本；

6c) 用这

个样本对

加权投票，得到预测的标签

；

步骤7.检查所述算法的采样次数是否达到T，若已达到，则执行步骤(8)；否则，返回步骤3b)；

步骤8.采用投票的集成方式判定当前测试样本的标签，得票数多的预测结果作为最终的预测标签。