CN104199857A - 一种基于多标签分类的税务文档层次分类方法 - Google Patents

一种基于多标签分类的税务文档层次分类方法 Download PDF

Info

Publication number
CN104199857A
CN104199857A CN201410400522.0A CN201410400522A CN104199857A CN 104199857 A CN104199857 A CN 104199857A CN 201410400522 A CN201410400522 A CN 201410400522A CN 104199857 A CN104199857 A CN 104199857A
Authority
CN
China
Prior art keywords
document
tax
sorted
theme
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410400522.0A
Other languages
English (en)
Other versions
CN104199857B (zh
Inventor
刘均
马健
郑庆华
张未展
吴蓓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410400522.0A priority Critical patent/CN104199857B/zh
Publication of CN104199857A publication Critical patent/CN104199857A/zh
Application granted granted Critical
Publication of CN104199857B publication Critical patent/CN104199857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于多标签分类的税务文档层次分类方法,先从隐含狄利克雷分布模型中抽取生成的主题分布,构建税务文档的隐含狄利克雷分布主题特征。然后构建训练数据对应的tf·idf特征向量,计算包含训练数据和待分类文档的tf·idf特征向量,计算相似度获取候选类别标签。最后对候选类别标签节点的源数据补充辅助数据,用迁移学习算法TrAdaBoost构建基于迁移学习的多标签分类模型,对待分类文档进行分类。该方法将层次分类问题转换成“搜索-分类”两阶段过程,使用增量式候选类别搜索大大减少计算量,降低计算复杂度,用基于迁移学习的多标签分类模型将税务文档映射到税种层次类别上,有效利用了辅助数据,提升了分类性能。

Description

一种基于多标签分类的税务文档层次分类方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于多标签分类的税务文档层次分类方法。
背景技术
随着互联网的迅猛发展,各种资源以指数形式迅速增长,税务文档也大量涌现在网络中,造成了人们获取过程中的信息过载问题。如何有效的对税务文档进行组织和管理是解决税务资源获取过程中信息过载问题的关键,是对税收有重要意义的一项工作。
为了有效组织和管理互联网上的海量税务文档,通常按照一个主题类别层次或大规模的概念或对税务文档进行分类,以更好地访问和搜索这些税务文档。税收分类是按一定标准对各种税收进行的分类,一个国家的税收体系通常是由许多不同的税种构成的。将税务文档按照税收进行分类是一种有效的组织方式。
申请人经过查新,没有找到有关对税务文档进行层次分类的专利,因而检索了一篇与本专利相关的已授权专利:一种使用本体进行文本文档自动分类的方法[专利号:ZL201010210107.0];在该专利中,发明人使用带权重的关键词集合表示文本文档的特征信息,通过计算文本文档和分类目录之间的相似值对文本文档进行自动分类。该发明所述方法使用简单的相似度来进行分类,且只能分到一种类别里,无法对有多个主题的文档进行分类,而且难以分到层次类别里面。
发明内容
本发明的目的在于提供一种基于多标签分类的税务文档层次分类方法,能够有效的对税务文档进行组织和管理,解决税务资源获取过程中信息过载的问题。
为达到上述目的,本发明采用的技术方案为:
一种基于多标签分类的税务文档层次分类方法,包括以下步骤:
1)税务文档主题特征构建:
1-1)对待分类的税务文档进行去噪预处理,得到待分类文档;
1-2)指定待分类文档的主题个数,从隐含狄利克雷分布模型中抽取生成的主题分布,构建待分类文档的隐含狄利克雷分布主题特征,得到待分类文档的主题分布以及每个主题对应词的分布;
2)增量式候选类别搜索:
2-1)将若干篇已经标过分类标签的税务文档作为训练数据,去除训练数据中的停用词,构建训练数据的tf·idf特征向量,将tf矩阵中不为0的词表进行存储,并将生成的词汇列表、tf列表、idf值列表按序存储;
2-2)对于待分类文档r,根据保存的词汇列表计算tfr值,tfr值是待分文档r的tf向量,将待分类文档r中出现但在当前词汇列表中未出现的词汇添加到词汇列表后面,然后根据tfr值重新计算idf值,重新计算tf·idf特征向量,得到包含训练数据和待分类文档的tf·idf特征向量;
2-3)计算待分类文档r和训练数据的相似度,获取候选类别标签;
3)基于迁移学习的训练数据构建及多标签分类:
3-1)对于每个候选类别标签节点,其本身对应的训练数据为源数据,借助其祖先节点和孩子节点对应的训练数据对源数据进行补充,补充的训练数据为辅助数据;
3-2)利用迁移学习算法TrAdaBoost从辅助数据中选择出适合用于构建分类模型的数据,并构建基于迁移学习的多标签分类模型;
3-3)利用基于迁移学习的多标签分类模型,结合隐含狄利克雷分布主题特征,对待分类文档进行分类,得到待分类文档所属的税种层次类别。
所述的步骤1-1)中对待分类的税务文档进行去噪预处理的具体步骤为:先将待分类的税务文档转换成文本格式,对转换后的税务文档进行数据清洗,删除由于转换导致的乱码文档,去除重复文档,同时去除元数据信息,其中元数据信息包括文档标题和作者。
所述的步骤1-2)中指定待分类文档的主题个数为10~20个。
所述的步骤1-2)中隐含狄利克雷分布模型中所有隐藏变量和可见变量的联合分布如下:
P ( w i , z i , θ i , φ | α , η ) = Π j = 1 N P ( θ i | α ) P ( z i , j | θ i ) P ( φ | η ) P ( w i , j | φ z i , j )
其中α、η表示狄利克雷分布,i表示第i篇税务文档,j表示第j个词,N表示文档的总词数,P()表示多项式分布的共轭先验概率,wi表示从税务文档i中抽取生成的词语,zi表示从税务文档i中抽取生成的主题,θi表示税务文档i的主题多项式分布,表示词语分布,zi,j表示从主题多项式分布θi中抽取生成税务文档i第j个词的主题,表示从狄利克雷分布η中抽取生成主题zi,j的词语多项式分布,wi,j表示从词语多项式分布中抽样生成的词语。
所述的步骤2-3)中使用余弦相似度计算待分类文档r和训练数据的相似度,选择并得到最相似的k个候选类别标签,k=5~20。
对于向量γ和向量λ,余弦相似度计算公式为:
cos ( γ , λ ) = Σ s = 1 S γ s λ s Σ s = 1 S γ s 2 Σ s = 1 S λ s 2
其中:s表示向量分量的下标,即该分量位于向量中的位置,S表示向量分量的总个数,即向量的维度,γs表示向量γ的第s个分量,λs表示向量λ的第s个分量。
所述的步骤3-1)的具体操作为:对于候选类别标签节点Ca和其他任意的候选类别标签节点Cb,对于Ca的任意祖先节点Pa,在满足时,将Pa对应的训练数据补充到Ca的源数据中,并将Pa的其他非候选类别标签节点的孩子节点对应的训练数据补充到Ca的源数据中,同时将Ca的孩子节点对应的训练数据补充到Ca的源数据中,其中P(Cb)表示Cb的祖先节点的集合。
所述的步骤3-2)的具体操作为:
①输入辅助数据Ta(syk)、源数据Tb(syk)、待分类文档、多标签k-近邻算法、迭代总次数N和训练数据集T,T=Ta(syk)∪Tb(syk);
②初始化:设置初始权重向量其中为初始权重向量中的第j个向量,其值为0~1的随机数,n为Ta(syk)中数据的个数,m为Tb(syk)中数据的个数;并设置
③迭代计算:
ⅰ设置迭代次数t=1,…,N;
ⅱ设置权重分布pt,使其满足
p t = w t Σ j = 1 n + m w j t
其中wt是第t次迭代后的权重向量,是wt的第j个向量;
ⅲ调用多标签k-近邻算法,依据训练数据集T以及T上的权重分布pt和待分类文档,得到分类器ht
ⅳ计算ht在Tb(syk)上的错误率εt
ϵ t = Σ j = n + 1 n + m w j t hloss T b ( h t ) Σ j = n + 1 n + m w j t
其中是分类器ht在Tb(syk)上的汉明损失;
ⅴ设置βt=εt/(1-εt);
ⅵ设置迭代后的权重向量为:
④输出基于迁移学习的多标签分类模型:
h f ( x ) = { y | Σ t = N / 2 N ln ( 1 / β t ) f t ( x , y ) ≥ 1 2 Σ t = N / 2 N ln ( 1 / β t ) }
其中ft(x,y)是分类器ht在标签类别y上的预测值,x是待分类文档的主题特征,hf(x)是标签分类器。
所述的迭代总次数N=50~100次。
相对于现有技术,本发明的有益效果为:
本发明提供的基于多标签分类的税务文档层次分类方法,主要包括税务文档主题特征构建、增量式候选类别搜索、基于迁移学习的训练数据构建及多标签分类这三个部分,通过构建税务文档的主题特征,将层次分类问题转换成“搜索-分类”两阶段过程,使用增量式候选类别搜索,根据构建的待分类文档的隐含狄利克雷分布主题特征,针对每个需要进行税务分类的待分类文档,只计算该待分类文档的文本特征,采用tf·idf向量来表示文档,并基于此采用余弦相似度来计算待分类文档r和训练数据的相似度,获取候选类别标签,大大减少计算量,降低计算复杂度,基于改进传统的Adaboost算法,使用迁移学习算法TrAdaBoost(Transfer AdaBoost)构建基于迁移学习的多标签分类模型,依据待分类文档的数据逐步调整辅助数据和源数据的权重,利用不同权重的数据进行训练,充分利用辅助数据帮助待分类文档进行分类,达到了有效迁移知识的目的,大大提升了分类性能,并且能够有效的对税务文档进行组织和管理,解决税务资源获取过程中信息过载的问题。
附图说明
图1是基于多标签分类的税务文档层次分类方法流程图;
图2是增量式候选类别搜索流程图;
图3是税种类别层次树状样例图;
图4是训练数据辅助选择示例图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
税务文档是指在税务领域中对税务进行描述、分析和研究的资料和文章。税种层次类别是指按照一定标准对各种税种进行分类所构成的税收体系。
本发明提供的基于多标签分类的税务文档层次分类方法,包括如下3个过程:
1)税务文档主题特征构建,包括2个步骤:
1-1)对待分类的税务文档进行去噪预处理,即将不同类型的待分类的税务文档全部转换成文本类型,对文档进行数据清洗,删除由于转换导致的乱码文档,去除重复文档,同时去除文档标题、作者等元数据信息,得到待分类文档;
1-2)由若干待分类文档构成文档集合,针对文档集合,指定主题的个数(一般为10~20个),从隐含狄利克雷分布模型中抽取生成的主题分布,构建每篇待分类文档的隐含狄利克雷分布主题特征,即给出每篇文档的主题分布以及每个主题对应词的分布。其中主题是指文档的一个概念、一个方面,它表现为一系列相关的词语。隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),LDA首先由Blei,David M.、吴恩达和Jordan,Michael I于2003年提出。隐含狄利克雷分布模型中所有隐藏变量和可见变量的联合分布如下:
P ( w i , z i , θ i , φ | α , η ) = Π j = 1 N P ( θ i | α ) P ( z i , j | θ i ) P ( φ | η ) P ( w i , j | φ z i , j )
其中α、η表示狄利克雷分布,i表示第i篇税务文档,j表示第j个词,N表示文档的字数,P()表示多项式分布的共轭先验概率,wi表示从税务文档i中抽取生成的词语,zi表示从税务文档i中抽取生成的主题,θi表示税务文档i的主题多项式分布,表示词语分布,zi,j表示从主题多项式分布θi中抽取生成税务文档i第j个词的主题,表示从狄利克雷分布η中抽取生成主题zi,j的词语多项式分布,wi,j表示从词语多项式分布中抽样生成的词语。
2)增量式候选类别搜索,包括3个步骤:
2-1)将若干篇已经标过分类标签的税务文档作为训练数据,去除训练数据中的停用词(在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后回自动过滤掉某些字或词,即停用词。在这里,停用词是指出现频率很高但实际意义不大的词,比如我你他等等。),构建训练数据的tf·idf特征向量,tf矩阵是一个稀疏矩阵,为了存储简约,只将tf矩阵中不为0的词表进行存储,格式为【词编号:词频】,将生成的词汇列表、tf列表、idf列表按序存储,如果列表较小,则将其直接保存到内存中,最终全部分类完成后再更新到硬盘上面,而这些文件在磁盘上所占空间开销很小,如果列表较大,则直接存到磁盘;
2-2)对于待分类文档r,进行主体部分的抽取,根据保存的词汇列表计算tfr值(tf值从小到大排序,前r个tf值构成tfr值),tfr值是待分类文档r的tf向量,并将待分类文档r中出现但在当前词汇列表中未出现的词汇添加到词汇列表后面,然后根据tfr值重新计算idf值,再读取保存的tf列表,重新计算tf·idf特征向量,得到包含训练数据和待分类文档的tf·idf特征向量;
2-3)采用步骤2-2)计算得到的tf·idf特征向量来表示文档(训练数据和待分类文档),使用余弦相似度计算待分类文档r和训练数据的相似度,选择并得到最相似的k个候选类别标签,k=5~20。
对于向量γ和向量λ,余弦相似度计算公式为:
cos ( γ , λ ) = Σ s = 1 S γ s λ s Σ s = 1 S γ s 2 Σ s = 1 S λ s 2
其中:s表示向量分量的下标,即该分量位于向量中的位置,S表示向量分量的总个数,即向量的维度,γs表示向量γ的第s个分量,λs表示向量λ的第s个分量。
3)基于迁移学习的训练数据构建及多标签分类,包括3个步骤:
3-1)层次分类是指将一篇税务文档挂载到税种层次类别中的一个或多个节点上面,从而得到一个或多个分类标签。对于候选类别标签节点Ca和其他任意的候选类别标签节点Cb,Ca本身对应的训练数据(未补充的)为源数据,对于Ca的任意祖先节点Pa,只要其中P(Cb)表示Cb的祖先节点集合,那么Pa的对应训练数据就可以补充到Ca的源数据中,并且将Pa的其他非候选类别标签节点的孩子节点对应的训练数据补充到Ca的源数据中,同时将候选类别标签节点Ca的孩子节点对应的训练数据补充到Ca的源数据中。如附图4所示,候选类别标签节点Q向上补充两层到节点O和M,然后添加相应的孩子节点R、W、Y、Z。该节点能够补充的所有祖先节点和孩子节点为该节点的辅助节点,所有补充的训练数据为辅助数据,所以候选类别标签节点Q对应的辅助节点为fa(Q)={M,O,R,W,Y,Z},其中fa(Q)表示节点Q的辅助节点;
3-2)使用迁移学习算法TrAdaboost去除掉辅助数据中与源数据不相关的数据,对于预测正确的辅助数据,将其权重增加,而对于预测错误的辅助数据,将其权重减小,充分利用辅助数据帮助待分类文档进行分类。
迁移学习算法TrAdaBoost的具体步骤为:
①输入辅助数据Ta(syk)、源数据Tb(syk)、待分类文档、多标签k-近邻算法、迭代总次数N=50~100和训练数据集T,T=Ta(syk)∪Tb(syk);
②初始化:设置初始权重向量其中为初始权重向量中的第j个向量,其值为0~1的随机数,n为Ta(syk)中数据的个数,m为Tb(syk)中数据的个数;并设置
③迭代计算:
ⅰ设置迭代次数t=1,…,N;
ⅱ设置权重分布pt,使其满足
p t = w t Σ j = 1 n + m w j t
其中wt是第t次迭代后的权重向量,是wt的第j个向量;
ⅲ调用多标签k-近邻算法,依据训练数据集T以及T上的权重分布pt和待分类文档,得到分类器ht
ⅳ计算ht在Tb(syk)上的错误率εt
ϵ t = Σ j = n + 1 n + m w j t hloss T b ( h t ) Σ j = n + 1 n + m w j t
其中是分类器ht在Tb(syk)上的汉明损失;
ⅴ设置βt=εt/(1-εt);
ⅵ设置迭代后的权重向量为:
④输出基于迁移学习的多标签分类模型:
h f ( x ) = { y | Σ t = N / 2 N ln ( 1 / β t ) f t ( x , y ) ≥ 1 2 Σ t = N / 2 N ln ( 1 / β t ) }
其中ft(x,y)是分类器ht在标签类别y上的预测值,x是待分类文档的主题特征,hf(x)是标签分类器。
表1给出了多标签TrAdaBoost算法(迁移学习算法TrAdaboost)的程序。
表1 多标签TrAdaBoost算法
3-3)利用步骤3-2)构建的基于迁移学习的多标签分类模型,结合步骤1-2)得到的隐含狄利克雷分布主题特征,对待分类文档进行分类预测,得到待分类文档所属的税种层次类别。

Claims (9)

1.一种基于多标签分类的税务文档层次分类方法,其特征在于,包括以下步骤:
1)税务文档主题特征构建:
1-1)对待分类的税务文档进行去噪预处理,得到待分类文档;
1-2)指定待分类文档的主题个数,从隐含狄利克雷分布模型中抽取生成的主题分布,构建待分类文档的隐含狄利克雷分布主题特征,得到待分类文档的主题分布以及每个主题对应词的分布;
2)增量式候选类别搜索:
2-1)将若干篇已经标过分类标签的税务文档作为训练数据,去除训练数据中的停用词,构建训练数据的tf·idf特征向量,将tf矩阵中不为0的词表进行存储,并将生成的词汇列表、tf列表、idf值列表按序存储;
2-2)对于待分类文档r,根据保存的词汇列表计算tfr值,tfr值是待分文档r的tf向量,将待分类文档r中出现但在当前词汇列表中未出现的词汇添加到词汇列表后面,然后根据tfr值重新计算idf值,重新计算tf·idf特征向量,得到包含训练数据和待分类文档的tf·idf特征向量;
2-3)计算待分类文档r和训练数据的相似度,获取候选类别标签;
3)基于迁移学习的训练数据构建及多标签分类:
3-1)对于每个候选类别标签节点,其本身对应的训练数据为源数据,借助其祖先节点和孩子节点对应的训练数据对源数据进行补充,补充的训练数据为辅助数据;
3-2)利用迁移学习算法TrAdaBoost从辅助数据中选择出适合用于构建分类模型的数据,并构建基于迁移学习的多标签分类模型;
3-3)利用基于迁移学习的多标签分类模型,结合隐含狄利克雷分布主题特征,对待分类文档进行分类,得到待分类文档所属的税种层次类别。
2.如权利要求1所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的步骤1-1)中对待分类的税务文档进行去噪预处理的具体步骤为:先将待分类的税务文档转换成文本格式,对转换后的税务文档进行数据清洗,删除由于转换导致的乱码文档,去除重复文档,同时去除元数据信息,其中元数据信息包括文档标题和作者。
3.如权利要求1所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的步骤1-2)中指定待分类文档的主题个数为10~20个。
4.如权利要求1所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的步骤1-2)中隐含狄利克雷分布模型中所有隐藏变量和可见变量的联合分布如下:
P ( w i , z i , θ i , φ | α , η ) = Π j = 1 N P ( θ i | α ) P ( z i , j | θ i ) P ( φ | η ) P ( w i , j | φ z i , j )
其中α、η表示狄利克雷分布,i表示第i篇税务文档,j表示第j个词,N表示文档的总词数,P()表示多项式分布的共轭先验概率,wi表示从税务文档i中抽取生成的词语,zi表示从税务文档i中抽取生成的主题,θi表示税务文档i的主题多项式分布,表示词语分布,zi,j表示从主题多项式分布θi中抽取生成税务文档i第j个词的主题,表示从狄利克雷分布η中抽取生成主题zi,j的词语多项式分布,wi,j表示从词语多项式分布中抽样生成的词语。
5.如权利要求1所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的步骤2-3)中使用余弦相似度计算待分类文档r和训练数据的相似度,选择并得到最相似的k个候选类别标签,k=5~20。
6.如权利要求5所述的基于多标签分类的税务文档层次分类方法,其特征在于:对于向量γ和向量λ,余弦相似度计算公式为:
cos ( γ , λ ) = Σ s = 1 S γ s λ s Σ s = 1 S γ s 2 Σ s = 1 S λ s 2
其中:s表示向量分量的下标,即该分量位于向量中的位置,S表示向量的维度,γs表示向量γ的第s个分量,λs表示向量λ的第s个分量。
7.如权利要求1所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的步骤3-1)的具体操作为:对于候选类别标签节点Ca和其他任意的候选类别标签节点Cb,对于Ca的任意祖先节点Pa,在满足时,将Pa对应的训练数据补充到Ca的源数据中,并将Pa的其他非候选类别标签节点的孩子节点对应的训练数据补充到Ca的源数据中,同时将Ca的孩子节点对应的训练数据补充到Ca的源数据中,其中P(Cb)表示Cb的祖先节点的集合。
8.如权利要求1所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的步骤3-2)的具体操作为:
①输入辅助数据Ta(syk)、源数据Tb(syk)、待分类文档、多标签k-近邻算法、迭代总次数N和训练数据集T,T=Ta(syk)∪Tb(syk);
②初始化:设置初始权重向量其中为初始权重向量中的第j个向量,其值为0~1的随机数,n为Ta(syk)中数据的个数,m为Tb(syk)中数据的个数;并设置
③迭代计算:
ⅰ设置迭代次数t=1,…,N;
ⅱ设置权重分布pt,使其满足
p t = w t Σ j = 1 n + m w j t
其中wt是第t次迭代后的权重向量,是wt的第j个向量;
ⅲ调用多标签k-近邻算法,依据训练数据集T以及T上的权重分布pt和待分类文档,得到分类器ht
ⅳ计算ht在Tb(syk)上的错误率εt
ϵ t = Σ j = n + 1 n + m w j t hloss T b ( h t ) Σ j = n + 1 n + m w j t
其中是分类器ht在Tb(syk)上的汉明损失;
ⅴ设置βt=εt/(1-εt);
ⅵ设置迭代后的权重向量为:
④输出基于迁移学习的多标签分类模型:
h f ( x ) = { y | Σ t = N / 2 N ln ( 1 / β t ) f t ( x , y ) ≥ 1 2 Σ t = N / 2 N ln ( 1 / β t ) }
其中ft(x,y)是分类器ht在标签类别y上的预测值,x是待分类文档的主题特征,hf(x)是标签分类器。
9.如权利要求8所述的基于多标签分类的税务文档层次分类方法,其特征在于:所述的迭代总次数N=50~100次。
CN201410400522.0A 2014-08-14 2014-08-14 一种基于多标签分类的税务文档层次分类方法 Active CN104199857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410400522.0A CN104199857B (zh) 2014-08-14 2014-08-14 一种基于多标签分类的税务文档层次分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410400522.0A CN104199857B (zh) 2014-08-14 2014-08-14 一种基于多标签分类的税务文档层次分类方法

Publications (2)

Publication Number Publication Date
CN104199857A true CN104199857A (zh) 2014-12-10
CN104199857B CN104199857B (zh) 2017-06-27

Family

ID=52085150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410400522.0A Active CN104199857B (zh) 2014-08-14 2014-08-14 一种基于多标签分类的税务文档层次分类方法

Country Status (1)

Country Link
CN (1) CN104199857B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389327A (zh) * 2015-09-21 2016-03-09 中国人民解放军国防科学技术大学 一种大规模开源软件标签层次自动构建方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN108268560A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种文本分类方法及装置
CN108549907A (zh) * 2018-04-11 2018-09-18 武汉大学 一种基于多源迁移学习的数据校验方法
CN108563638A (zh) * 2018-04-13 2018-09-21 武汉大学 一种基于主题识别和集成学习的微博情感分析方法
CN108763361A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于主题模型的多标签分类框架方法
CN108764537A (zh) * 2018-05-14 2018-11-06 浙江工业大学 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
CN109408713A (zh) * 2018-10-09 2019-03-01 哈尔滨工程大学 一种基于用户反馈信息的软件需求检索系统
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN109740634A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 分类模型训练方法和终端设备
CN109977988A (zh) * 2018-12-29 2019-07-05 天津南大通用数据技术股份有限公司 针对海量类别数据进行分批分类的机器学习方法及系统
CN105389327B (zh) * 2015-09-21 2019-07-16 中国人民解放军国防科学技术大学 一种大规模开源软件标签层次自动构建方法
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN111078877A (zh) * 2019-12-05 2020-04-28 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111191011A (zh) * 2020-04-17 2020-05-22 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111767439A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 基于页面分类标签的推荐方法、设备和介质
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591915A (zh) * 2011-12-15 2012-07-18 南京大学 一种基于标签迁移学习的推荐方法
US20120259801A1 (en) * 2011-04-06 2012-10-11 Microsoft Corporation Transfer of learning for query classification
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN103500159A (zh) * 2013-09-06 2014-01-08 西安交通大学 基于实例获取的非平衡交互文本的话题识别方法
CN103514443A (zh) * 2013-10-15 2014-01-15 中国矿业大学 一种基于lpp特征提取的单样本人脸识别迁移学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120259801A1 (en) * 2011-04-06 2012-10-11 Microsoft Corporation Transfer of learning for query classification
CN102591915A (zh) * 2011-12-15 2012-07-18 南京大学 一种基于标签迁移学习的推荐方法
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN103500159A (zh) * 2013-09-06 2014-01-08 西安交通大学 基于实例获取的非平衡交互文本的话题识别方法
CN103514443A (zh) * 2013-10-15 2014-01-15 中国矿业大学 一种基于lpp特征提取的单样本人脸识别迁移学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
戴文渊: ""基于实例和特征的迁移学习算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
沈伟: ""多标签文本分类系统的研究与实现"", 《北京大学机构知识库》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389327A (zh) * 2015-09-21 2016-03-09 中国人民解放军国防科学技术大学 一种大规模开源软件标签层次自动构建方法
CN105389327B (zh) * 2015-09-21 2019-07-16 中国人民解放军国防科学技术大学 一种大规模开源软件标签层次自动构建方法
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107818092B (zh) * 2016-09-12 2023-05-26 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN108268560A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种文本分类方法及装置
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107577785B (zh) * 2017-09-15 2020-02-07 南京大学 一种适用于法律识别的层次多标签分类方法
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108549907B (zh) * 2018-04-11 2021-11-16 武汉大学 一种基于多源迁移学习的数据校验方法
CN108549907A (zh) * 2018-04-11 2018-09-18 武汉大学 一种基于多源迁移学习的数据校验方法
CN108563638A (zh) * 2018-04-13 2018-09-21 武汉大学 一种基于主题识别和集成学习的微博情感分析方法
CN108563638B (zh) * 2018-04-13 2021-08-10 武汉大学 一种基于主题识别和集成学习的微博情感分析方法
CN108764537A (zh) * 2018-05-14 2018-11-06 浙江工业大学 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
CN108764537B (zh) * 2018-05-14 2021-11-23 浙江工业大学 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
CN108763361A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于主题模型的多标签分类框架方法
CN109408713A (zh) * 2018-10-09 2019-03-01 哈尔滨工程大学 一种基于用户反馈信息的软件需求检索系统
CN109408713B (zh) * 2018-10-09 2020-12-04 哈尔滨工程大学 一种基于用户反馈信息的软件需求检索系统
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN109740634A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 分类模型训练方法和终端设备
CN109977988A (zh) * 2018-12-29 2019-07-05 天津南大通用数据技术股份有限公司 针对海量类别数据进行分批分类的机器学习方法及系统
CN110347839B (zh) * 2019-07-18 2021-07-16 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN111078877B (zh) * 2019-12-05 2023-03-21 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111078877A (zh) * 2019-12-05 2020-04-28 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111191011A (zh) * 2020-04-17 2020-05-22 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111191011B (zh) * 2020-04-17 2024-02-23 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111767439A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 基于页面分类标签的推荐方法、设备和介质
CN111767439B (zh) * 2020-06-28 2023-12-15 百度在线网络技术(北京)有限公司 基于页面分类标签的推荐方法、设备和介质
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备

Also Published As

Publication number Publication date
CN104199857B (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN104199857A (zh) 一种基于多标签分类的税务文档层次分类方法
Moldagulova et al. Using KNN algorithm for classification of textual documents
CN102567464A (zh) 基于扩展主题图的知识资源组织方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
Zu et al. Resume information extraction with a novel text block segmentation algorithm
Mishra et al. Text document clustering on the basis of inter passage approach by using K-means
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN111522950A (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
CN105404677A (zh) 一种基于树形结构的检索方法
Zhou et al. Learning transferable node representations for attribute extraction from web documents
Xiao A Survey of Document Clustering Techniques & Comparison of LDA and moVMF
Ding et al. The research of text mining based on self-organizing maps
Sendhilkumar et al. Generation of word clouds using document topic models
Kadam et al. A survey on HTML structure aware and tree based web data scraping technique
CN109145089B (zh) 一种基于自然语言处理的层次化专题属性抽取方法
de Oliveira et al. A syntactic-relationship approach to construct well-informative knowledge graphs representation
Sharma et al. Resume Classification using Elite Bag-of-Words Approach
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
CN105426490A (zh) 一种基于树形结构的索引方法
Qian et al. Multi-modal supervised latent dirichlet allocation for event classification in social media
Wang et al. Research on a frequent maximal induced subtrees mining method based on the compression tree sequence
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
Rehman et al. Text Document Classification Using Deep Learning Techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant