CN104199857A

CN104199857A - 一种基于多标签分类的税务文档层次分类方法

Info

Publication number: CN104199857A
Application number: CN201410400522.0A
Authority: CN
Inventors: 刘均; 马健; 郑庆华; 张未展; 吴蓓
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2014-08-14
Filing date: 2014-08-14
Publication date: 2014-12-10
Anticipated expiration: 2034-08-14
Also published as: CN104199857B

Abstract

一种基于多标签分类的税务文档层次分类方法，先从隐含狄利克雷分布模型中抽取生成的主题分布，构建税务文档的隐含狄利克雷分布主题特征。然后构建训练数据对应的tf·idf特征向量，计算包含训练数据和待分类文档的tf·idf特征向量，计算相似度获取候选类别标签。最后对候选类别标签节点的源数据补充辅助数据，用迁移学习算法TrAdaBoost构建基于迁移学习的多标签分类模型，对待分类文档进行分类。该方法将层次分类问题转换成“搜索-分类”两阶段过程，使用增量式候选类别搜索大大减少计算量，降低计算复杂度，用基于迁移学习的多标签分类模型将税务文档映射到税种层次类别上，有效利用了辅助数据，提升了分类性能。

Description

一种基于多标签分类的税务文档层次分类方法

技术领域

本发明属于数据挖掘领域，具体涉及一种基于多标签分类的税务文档层次分类方法。

背景技术

随着互联网的迅猛发展，各种资源以指数形式迅速增长，税务文档也大量涌现在网络中，造成了人们获取过程中的信息过载问题。如何有效的对税务文档进行组织和管理是解决税务资源获取过程中信息过载问题的关键，是对税收有重要意义的一项工作。

为了有效组织和管理互联网上的海量税务文档，通常按照一个主题类别层次或大规模的概念或对税务文档进行分类，以更好地访问和搜索这些税务文档。税收分类是按一定标准对各种税收进行的分类，一个国家的税收体系通常是由许多不同的税种构成的。将税务文档按照税收进行分类是一种有效的组织方式。

申请人经过查新，没有找到有关对税务文档进行层次分类的专利，因而检索了一篇与本专利相关的已授权专利：一种使用本体进行文本文档自动分类的方法[专利号:ZL201010210107.0]；在该专利中，发明人使用带权重的关键词集合表示文本文档的特征信息，通过计算文本文档和分类目录之间的相似值对文本文档进行自动分类。该发明所述方法使用简单的相似度来进行分类，且只能分到一种类别里，无法对有多个主题的文档进行分类，而且难以分到层次类别里面。

发明内容

本发明的目的在于提供一种基于多标签分类的税务文档层次分类方法，能够有效的对税务文档进行组织和管理，解决税务资源获取过程中信息过载的问题。

为达到上述目的，本发明采用的技术方案为：

一种基于多标签分类的税务文档层次分类方法，包括以下步骤：

1)税务文档主题特征构建：

1-1)对待分类的税务文档进行去噪预处理，得到待分类文档；

1-2)指定待分类文档的主题个数，从隐含狄利克雷分布模型中抽取生成的主题分布，构建待分类文档的隐含狄利克雷分布主题特征，得到待分类文档的主题分布以及每个主题对应词的分布；

2)增量式候选类别搜索：

2-1)将若干篇已经标过分类标签的税务文档作为训练数据，去除训练数据中的停用词，构建训练数据的tf·idf特征向量，将tf矩阵中不为0的词表进行存储，并将生成的词汇列表、tf列表、idf值列表按序存储；

2-2)对于待分类文档r，根据保存的词汇列表计算tf_r值，tf_r值是待分文档r的tf向量，将待分类文档r中出现但在当前词汇列表中未出现的词汇添加到词汇列表后面，然后根据tf_r值重新计算idf值，重新计算tf·idf特征向量，得到包含训练数据和待分类文档的tf·idf特征向量；

2-3)计算待分类文档r和训练数据的相似度，获取候选类别标签；

3)基于迁移学习的训练数据构建及多标签分类：

3-1)对于每个候选类别标签节点，其本身对应的训练数据为源数据，借助其祖先节点和孩子节点对应的训练数据对源数据进行补充，补充的训练数据为辅助数据；

3-2)利用迁移学习算法TrAdaBoost从辅助数据中选择出适合用于构建分类模型的数据，并构建基于迁移学习的多标签分类模型；

3-3)利用基于迁移学习的多标签分类模型，结合隐含狄利克雷分布主题特征，对待分类文档进行分类，得到待分类文档所属的税种层次类别。

所述的步骤1-1)中对待分类的税务文档进行去噪预处理的具体步骤为：先将待分类的税务文档转换成文本格式，对转换后的税务文档进行数据清洗，删除由于转换导致的乱码文档，去除重复文档，同时去除元数据信息，其中元数据信息包括文档标题和作者。

所述的步骤1-2)中指定待分类文档的主题个数为10～20个。

所述的步骤1-2)中隐含狄利克雷分布模型中所有隐藏变量和可见变量的联合分布如下：

P (w_{i}, z_{i}, θ_{i}, φ | α, η) = Π_{j = 1}^{N} P (θ_{i} | α) P (z_{i, j} | θ_{i}) P (φ | η) P (w_{i, j} | φ_{z_{i, j}})

其中α、η表示狄利克雷分布，i表示第i篇税务文档，j表示第j个词，N表示文档的总词数，P()表示多项式分布的共轭先验概率，w_i表示从税务文档i中抽取生成的词语，z_i表示从税务文档i中抽取生成的主题，θ_i表示税务文档i的主题多项式分布，表示词语分布，z_i,j表示从主题多项式分布θ_i中抽取生成税务文档i第j个词的主题，表示从狄利克雷分布η中抽取生成主题z_i,j的词语多项式分布，w_i,j表示从词语多项式分布中抽样生成的词语。

所述的步骤2-3)中使用余弦相似度计算待分类文档r和训练数据的相似度，选择并得到最相似的k个候选类别标签，k＝5～20。

对于向量γ和向量λ，余弦相似度计算公式为：

\cos (γ, λ) = \frac{Σ_{s = 1}^{S} γ_{s} λ_{s}}{\sqrt{Σ_{s = 1}^{S} {γ_{s}}^{2}} \sqrt{Σ_{s = 1}^{S} {λ_{s}}^{2}}}

其中：s表示向量分量的下标，即该分量位于向量中的位置，S表示向量分量的总个数，即向量的维度，γ_s表示向量γ的第s个分量，λ_s表示向量λ的第s个分量。

所述的步骤3-1)的具体操作为：对于候选类别标签节点C_a和其他任意的候选类别标签节点C_b，对于C_a的任意祖先节点P_a，在满足时，将P_a对应的训练数据补充到C_a的源数据中，并将P_a的其他非候选类别标签节点的孩子节点对应的训练数据补充到C_a的源数据中，同时将C_a的孩子节点对应的训练数据补充到C_a的源数据中，其中P(C_b)表示C_b的祖先节点的集合。

所述的步骤3-2)的具体操作为：

①输入辅助数据T_a(sy_k)、源数据T_b(sy_k)、待分类文档、多标签k-近邻算法、迭代总次数N和训练数据集T，T＝T_a(sy_k)∪T_b(sy_k)；

②初始化：设置初始权重向量其中为初始权重向量中的第j个向量，其值为0～1的随机数，n为T_a(sy_k)中数据的个数，m为T_b(sy_k)中数据的个数；并设置

③迭代计算：

ⅰ设置迭代次数t＝1,…,N；

ⅱ设置权重分布p^t，使其满足

p^{t} = \frac{w^{t}}{Σ_{j = 1}^{n + m} w_{j}^{t}}

其中w^t是第t次迭代后的权重向量，是w^t的第j个向量；

ⅲ调用多标签k-近邻算法，依据训练数据集T以及T上的权重分布p^t和待分类文档，得到分类器h_t；

ⅳ计算h_t在T_b(sy_k)上的错误率ε_t，

ϵ_{t} = Σ_{j = n + 1}^{n + m} \frac{w_{j}^{t} {hloss}_{T_{b}} (h_{t})}{Σ_{j = n + 1}^{n + m} w_{j}^{t}}

其中是分类器h_t在T_b(sy_k)上的汉明损失；

ⅴ设置β_t＝ε_t/(1-ε_t)；

ⅵ设置迭代后的权重向量为：

④输出基于迁移学习的多标签分类模型：

h_{f} (x) = {y | Σ_{t = N / 2}^{N} \ln (1 / β_{t}) f_{t} (x, y) &GreaterEqual; \frac{1}{2} Σ_{t = N / 2}^{N} \ln (1 / β_{t})}

其中f_t(x,y)是分类器h_t在标签类别y上的预测值，x是待分类文档的主题特征，h_f(x)是标签分类器。

所述的迭代总次数N＝50～100次。

相对于现有技术，本发明的有益效果为：

本发明提供的基于多标签分类的税务文档层次分类方法，主要包括税务文档主题特征构建、增量式候选类别搜索、基于迁移学习的训练数据构建及多标签分类这三个部分，通过构建税务文档的主题特征，将层次分类问题转换成“搜索-分类”两阶段过程，使用增量式候选类别搜索，根据构建的待分类文档的隐含狄利克雷分布主题特征，针对每个需要进行税务分类的待分类文档，只计算该待分类文档的文本特征，采用tf·idf向量来表示文档，并基于此采用余弦相似度来计算待分类文档r和训练数据的相似度，获取候选类别标签，大大减少计算量，降低计算复杂度，基于改进传统的Adaboost算法，使用迁移学习算法TrAdaBoost(Transfer AdaBoost)构建基于迁移学习的多标签分类模型，依据待分类文档的数据逐步调整辅助数据和源数据的权重，利用不同权重的数据进行训练，充分利用辅助数据帮助待分类文档进行分类，达到了有效迁移知识的目的，大大提升了分类性能，并且能够有效的对税务文档进行组织和管理，解决税务资源获取过程中信息过载的问题。

附图说明

图1是基于多标签分类的税务文档层次分类方法流程图；

图2是增量式候选类别搜索流程图；

图3是税种类别层次树状样例图；

图4是训练数据辅助选择示例图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

税务文档是指在税务领域中对税务进行描述、分析和研究的资料和文章。税种层次类别是指按照一定标准对各种税种进行分类所构成的税收体系。

本发明提供的基于多标签分类的税务文档层次分类方法，包括如下3个过程：

1)税务文档主题特征构建，包括2个步骤：

1-1)对待分类的税务文档进行去噪预处理，即将不同类型的待分类的税务文档全部转换成文本类型，对文档进行数据清洗，删除由于转换导致的乱码文档，去除重复文档，同时去除文档标题、作者等元数据信息，得到待分类文档；

1-2)由若干待分类文档构成文档集合，针对文档集合，指定主题的个数(一般为10～20个)，从隐含狄利克雷分布模型中抽取生成的主题分布，构建每篇待分类文档的隐含狄利克雷分布主题特征，即给出每篇文档的主题分布以及每个主题对应词的分布。其中主题是指文档的一个概念、一个方面，它表现为一系列相关的词语。隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)，LDA首先由Blei,David M.、吴恩达和Jordan,Michael I于2003年提出。隐含狄利克雷分布模型中所有隐藏变量和可见变量的联合分布如下：

P (w_{i}, z_{i}, θ_{i}, φ | α, η) = Π_{j = 1}^{N} P (θ_{i} | α) P (z_{i, j} | θ_{i}) P (φ | η) P (w_{i, j} | φ_{z_{i, j}})

其中α、η表示狄利克雷分布，i表示第i篇税务文档，j表示第j个词，N表示文档的字数，P()表示多项式分布的共轭先验概率，w_i表示从税务文档i中抽取生成的词语，z_i表示从税务文档i中抽取生成的主题，θ_i表示税务文档i的主题多项式分布，表示词语分布，z_i,j表示从主题多项式分布θ_i中抽取生成税务文档i第j个词的主题，表示从狄利克雷分布η中抽取生成主题z_i,j的词语多项式分布，w_i,j表示从词语多项式分布中抽样生成的词语。

2)增量式候选类别搜索，包括3个步骤：

2-1)将若干篇已经标过分类标签的税务文档作为训练数据，去除训练数据中的停用词(在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后回自动过滤掉某些字或词，即停用词。在这里，停用词是指出现频率很高但实际意义不大的词，比如我你他等等。)，构建训练数据的tf·idf特征向量，tf矩阵是一个稀疏矩阵，为了存储简约，只将tf矩阵中不为0的词表进行存储，格式为【词编号：词频】，将生成的词汇列表、tf列表、idf列表按序存储，如果列表较小，则将其直接保存到内存中，最终全部分类完成后再更新到硬盘上面，而这些文件在磁盘上所占空间开销很小，如果列表较大，则直接存到磁盘；

2-2)对于待分类文档r，进行主体部分的抽取，根据保存的词汇列表计算tf_r值(tf值从小到大排序，前r个tf值构成tf_r值)，tf_r值是待分类文档r的tf向量，并将待分类文档r中出现但在当前词汇列表中未出现的词汇添加到词汇列表后面，然后根据tf_r值重新计算idf值，再读取保存的tf列表，重新计算tf·idf特征向量，得到包含训练数据和待分类文档的tf·idf特征向量；

2-3)采用步骤2-2)计算得到的tf·idf特征向量来表示文档(训练数据和待分类文档)，使用余弦相似度计算待分类文档r和训练数据的相似度，选择并得到最相似的k个候选类别标签，k＝5～20。

对于向量γ和向量λ，余弦相似度计算公式为：

\cos (γ, λ) = \frac{Σ_{s = 1}^{S} γ_{s} λ_{s}}{\sqrt{Σ_{s = 1}^{S} {γ_{s}}^{2}} \sqrt{Σ_{s = 1}^{S} {λ_{s}}^{2}}}

3)基于迁移学习的训练数据构建及多标签分类，包括3个步骤：

3-1)层次分类是指将一篇税务文档挂载到税种层次类别中的一个或多个节点上面，从而得到一个或多个分类标签。对于候选类别标签节点C_a和其他任意的候选类别标签节点C_b，C_a本身对应的训练数据(未补充的)为源数据，对于C_a的任意祖先节点P_a，只要其中P(C_b)表示C_b的祖先节点集合，那么P_a的对应训练数据就可以补充到C_a的源数据中，并且将P_a的其他非候选类别标签节点的孩子节点对应的训练数据补充到C_a的源数据中，同时将候选类别标签节点C_a的孩子节点对应的训练数据补充到C_a的源数据中。如附图4所示，候选类别标签节点Q向上补充两层到节点O和M，然后添加相应的孩子节点R、W、Y、Z。该节点能够补充的所有祖先节点和孩子节点为该节点的辅助节点，所有补充的训练数据为辅助数据，所以候选类别标签节点Q对应的辅助节点为f_a(Q)＝{M,O,R,W,Y,Z}，其中f_a(Q)表示节点Q的辅助节点；

3-2)使用迁移学习算法TrAdaboost去除掉辅助数据中与源数据不相关的数据，对于预测正确的辅助数据，将其权重增加，而对于预测错误的辅助数据，将其权重减小，充分利用辅助数据帮助待分类文档进行分类。

迁移学习算法TrAdaBoost的具体步骤为：

①输入辅助数据T_a(sy_k)、源数据T_b(sy_k)、待分类文档、多标签k-近邻算法、迭代总次数N＝50～100和训练数据集T，T＝T_a(sy_k)∪T_b(sy_k)；

③迭代计算：

ⅰ设置迭代次数t＝1,…,N；

ⅱ设置权重分布p^t，使其满足

p^{t} = \frac{w^{t}}{Σ_{j = 1}^{n + m} w_{j}^{t}}

其中w^t是第t次迭代后的权重向量，是w^t的第j个向量；

ⅳ计算h_t在T_b(sy_k)上的错误率ε_t，

ϵ_{t} = Σ_{j = n + 1}^{n + m} \frac{w_{j}^{t} {hloss}_{T_{b}} (h_{t})}{Σ_{j = n + 1}^{n + m} w_{j}^{t}}

其中是分类器h_t在T_b(sy_k)上的汉明损失；

ⅴ设置β_t＝ε_t/(1-ε_t)；

ⅵ设置迭代后的权重向量为：

④输出基于迁移学习的多标签分类模型：

h_{f} (x) = {y | Σ_{t = N / 2}^{N} \ln (1 / β_{t}) f_{t} (x, y) &GreaterEqual; \frac{1}{2} Σ_{t = N / 2}^{N} \ln (1 / β_{t})}

表1给出了多标签TrAdaBoost算法(迁移学习算法TrAdaboost)的程序。

表1 多标签TrAdaBoost算法

3-3)利用步骤3-2)构建的基于迁移学习的多标签分类模型，结合步骤1-2)得到的隐含狄利克雷分布主题特征，对待分类文档进行分类预测，得到待分类文档所属的税种层次类别。

Claims

1.一种基于多标签分类的税务文档层次分类方法，其特征在于，包括以下步骤：

1)税务文档主题特征构建：

1-1)对待分类的税务文档进行去噪预处理，得到待分类文档；

2)增量式候选类别搜索：

3)基于迁移学习的训练数据构建及多标签分类：

2.如权利要求1所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的步骤1-1)中对待分类的税务文档进行去噪预处理的具体步骤为：先将待分类的税务文档转换成文本格式，对转换后的税务文档进行数据清洗，删除由于转换导致的乱码文档，去除重复文档，同时去除元数据信息，其中元数据信息包括文档标题和作者。

3.如权利要求1所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的步骤1-2)中指定待分类文档的主题个数为10～20个。

4.如权利要求1所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的步骤1-2)中隐含狄利克雷分布模型中所有隐藏变量和可见变量的联合分布如下：

P (w_{i}, z_{i}, θ_{i}, φ | α, η) = Π_{j = 1}^{N} P (θ_{i} | α) P (z_{i, j} | θ_{i}) P (φ | η) P (w_{i, j} | φ_{z_{i, j}})

5.如权利要求1所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的步骤2-3)中使用余弦相似度计算待分类文档r和训练数据的相似度，选择并得到最相似的k个候选类别标签，k＝5～20。

6.如权利要求5所述的基于多标签分类的税务文档层次分类方法，其特征在于：对于向量γ和向量λ，余弦相似度计算公式为：

\cos (γ, λ) = \frac{Σ_{s = 1}^{S} γ_{s} λ_{s}}{\sqrt{Σ_{s = 1}^{S} {γ_{s}}^{2}} \sqrt{Σ_{s = 1}^{S} {λ_{s}}^{2}}}

其中：s表示向量分量的下标，即该分量位于向量中的位置，S表示向量的维度，γ_s表示向量γ的第s个分量，λ_s表示向量λ的第s个分量。

7.如权利要求1所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的步骤3-1)的具体操作为：对于候选类别标签节点C_a和其他任意的候选类别标签节点C_b，对于C_a的任意祖先节点P_a，在满足时，将P_a对应的训练数据补充到C_a的源数据中，并将P_a的其他非候选类别标签节点的孩子节点对应的训练数据补充到C_a的源数据中，同时将C_a的孩子节点对应的训练数据补充到C_a的源数据中，其中P(C_b)表示C_b的祖先节点的集合。

8.如权利要求1所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的步骤3-2)的具体操作为：

③迭代计算：

ⅰ设置迭代次数t＝1,…,N；

ⅱ设置权重分布p^t，使其满足

p^{t} = \frac{w^{t}}{Σ_{j = 1}^{n + m} w_{j}^{t}}

其中w^t是第t次迭代后的权重向量，是w^t的第j个向量；

ⅳ计算h_t在T_b(sy_k)上的错误率ε_t，

ϵ_{t} = Σ_{j = n + 1}^{n + m} \frac{w_{j}^{t} {hloss}_{T_{b}} (h_{t})}{Σ_{j = n + 1}^{n + m} w_{j}^{t}}

其中是分类器h_t在T_b(sy_k)上的汉明损失；

ⅴ设置β_t＝ε_t/(1-ε_t)；

ⅵ设置迭代后的权重向量为：

④输出基于迁移学习的多标签分类模型：

h_{f} (x) = {y | Σ_{t = N / 2}^{N} \ln (1 / β_{t}) f_{t} (x, y) &GreaterEqual; \frac{1}{2} Σ_{t = N / 2}^{N} \ln (1 / β_{t})}

9.如权利要求8所述的基于多标签分类的税务文档层次分类方法，其特征在于：所述的迭代总次数N＝50～100次。