CN108763361A - 一种基于主题模型的多标签分类框架方法 - Google Patents

一种基于主题模型的多标签分类框架方法 Download PDF

Info

Publication number
CN108763361A
CN108763361A CN201810470714.7A CN201810470714A CN108763361A CN 108763361 A CN108763361 A CN 108763361A CN 201810470714 A CN201810470714 A CN 201810470714A CN 108763361 A CN108763361 A CN 108763361A
Authority
CN
China
Prior art keywords
theme
tag
label
document
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810470714.7A
Other languages
English (en)
Inventor
吴骏
谭龙海
陆恒杨
徐鸣
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201810470714.7A priority Critical patent/CN108763361A/zh
Publication of CN108763361A publication Critical patent/CN108763361A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题模型的多标签分类框架方法,包括如下步骤:1)标签文档生成阶段:a提取训练集标签集合;b生成新文档;2)获取标签文档‑主题分布阶段:a更新模型参数;b训练主题模型;3)标签文档‑主题分布离散化阶段:a获取主题概率最值;b离散化主题;4)预测测试实例主题阶段:a生成主题为标签的数据集;b预测测试实例主题;5)预测测试实例标签阶段:a组合属性主题;b预测测试实例标签。本发明能以较少的复杂度考虑了标签之间的关系,有效提高多标签分类预测效果。

Description

一种基于主题模型的多标签分类框架方法
技术领域
本发明涉及多标签分类领域,具体是一种多标签分类框架方法,使用LDA、BTM或者WNTM等主题建模方法挖掘标签之间的关系,从而以较小的复杂度实现多标签分类预测功能。
背景技术
标签间的相互关系在多标签分类算法中有着非常重要的作用。传统的多标签分类算法通过分析标签集合中的子集或者标签链的方法考虑标签间的相互关系,会有子集所含标签数量少或者复杂度随着标签集合增大非线性增加的缺点。本发明采用的基于主题模型的方法,在标签集合之上建立一层隐式“主题”层,使用主题模型来挖掘标签间的相互关系并与传统的多标签分类算法相结合形成基于主题模型的多标签分类算法框架。本发明使用了LDA(Latent Dirichlet Allocation)、BTM(Biterm Topic Model)、WNMT(Word NetworkTopic Model)三种主题建模方法实现多标签分类算法框架。LDA是一种三层贝叶斯概率形式的文档主题生成模型,其包括词、主题和文档三层结构。它是非监督机器学习技术,采用不考虑词与词之间顺序的词袋(bag of words)方法,识别大规模语料库和文档集合中潜藏的主题信息。LDA认为一篇文档的生成过程是通过“先以一定概率从待选主题中选择某个主题,然后在这个主题中以一定概率选择某个词语”这样的循环步骤得到的。文档与主题以及主题和词之间都服从多项式分布。在使用LDA挖掘标签之间关系时,将模型中的词替代为标签,每一个多标签数据集中的实例对应的标签集合作为一个文档,由此将生成的主题层描述为标签关系的信息集成,然后将其加入属性中,以便传统的多标签分类算法可以更好的进行预测过程。BTM是为了解决LDA对短文本组成的文档集合主题建模效果不佳的问题,多标签数据集合中每一个实例对应的标签集合往往包含相对少数的标签。BTM基于词对的思想,将整个文档集合对应一个文档-主题概率分布,并将文档表示为词对组合的形式,有效缓解了文档集合中单个文档长度较短的问题,对短文本的主题建模有较好的效果。由于在多标签数据集合中存在大量实例对应的标签集合只有一个标签的情况下,BTM建模需要清洗数据,所以可用WNTM构建标签间的主题模型挖掘标签间的关系,WNTM通过构建词网络重新生成基于词邻接表的文档集合,继而在新的文档集合中使用LDA构建词与主题间的概率分布。同时本发明引入了词频(Term Frequency,TF)信息来衡量标签的重要性。
发明内容
发明目的:为了解决多标签分类算法中复杂度低的算法对标签间关系考虑不充分,对标签间关系考虑充分的算法复杂度过大的问题,使用主题模型挖掘标签之间的关系,实现面对大数据量时复杂度相对较小的目的。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于主题模型的多标签分类框架方法,包括如下步骤:
步骤1,标签文档生成阶段:提取训练集数据中每个实例对应的标签集合;根据标签集合各个标签得到标签名称,然后组成生成新文档;每个实例对应的标签集合为一个文档;
步骤2,获取标签文档-主题分布阶段;计算每个标签的频次相关属性值,将其乘比例系数加到主题建模时标签的先验参数中;根据更新后的参数值以及设定的主题数等参数训练主题模型,得到标签文档与主题的分布θ={θ12,…,θm},m为训练集实例总数
步骤3,标签文档-主题分布离散化阶段:根据标签文档与主题的分布θ获取每个文档对应的主题分布的统计值;遍历主题分布的概率值,根据统计设置阈值,满足阈值则保留主题,不满足则去除
步骤4,预测测试实例主题阶段:将每个文档保留的主题作为标签,组成以主题为标签的多标签分类数据集;使用多标签分类算法在多标签分类数据集中训练并预测测试实例主题;
步骤5,预测测试实例标签阶段:将文档原来的属性和获取的主题合并成新的属性,与原标签组成多标签分类算法;对组成的多标签分类算法使用传统多标签分类算法预测测试实例标签。
优选的:骤2)中计算标签频次相关值的方法如下:
S201,计算标签c的词频TFc的公式如下:
其中,fc,D为标签c在文档集合D中出现的次数,
S202,设原主题模型中标签对应的超参数为β,则更新后标签c对应的超参数为βc′=β+η*TFc,η表示标签c的词频TFc系数。
优选的:步骤1)中提取实例对应的标签集合的方法:将每个实例的标签部分分离出来并组合为新的集合。
优选的:骤2)中计算标签频次相关值为词频。
优选的:步骤2)中主题模型的选取根据数据集特点选取LDA、BTM或者WNTM主题建模方法。
优选的:步骤3)中阈值的计算的方法为求取最大最小值的平均值。
优选的:步骤4)中组成以主题为标签的多标签数据集,其中数据集中每个实例的主题指原实例对应的主题分布离散化后的主题集合。
优选的:步骤4)通过多标签学习算法基于组成以主题为标签的多标签数据集训练的学习器预测出的是测试实例的主题集合。
优选的:步骤5)中主题加入属性的新多标签数据集具体指将主题集合加入最初数据集的属性部分,标签部分不变形成的多标签分类数据集,测试实例的属性也要加上预测出来的主题集合组成新的测试实例。
优选的:步骤5)最终通过多标签分类算法对生成的新的多标签分类数据集训练并获得对应测试实例标签集合。
本发明相比现有技术,具有以下有益效果:
本发明基于主题模型挖掘多标签分类数据集中标签之间的关系,并以主题的形式展现,由于主题之间的关联性较小,所以使用传统多标签分类算法预测测试实例主题时可以使用不充分考虑主体间相互关系的复杂度较小的算法。最后,由于包含标签之间关系的主题属性被加入了实例的属性集合中,在预测测试实例标签集合时便同样可以采用对标签之间关联性考虑较少的复杂度低的算法进行预测,最终实现在低复杂度取得较好预测结果的效果。
附图说明
图1是基于主题模型的多标签分类框架方法流程图;
图2是主题分布离散化流程图;
图3是带有更新参数过程的WNMT主题建模流程图;
图4是将主题集合加入属性后的多标签数据集示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于主题模型的多标签分类框架方法,包括以下步骤:
步骤1,标签文档生成阶段:
步骤1a,提取训练集数据中每个实例对应的标签集合;提取实例对应的标签集合,即是将每个实例的标签部分分离出来;
步骤1b,若标签使用0/1表示,则将值为1的标签转化为标签名称,然后组成生成新文档,每个实例对应的标签集合为一个文档;
步骤1c,结束;
步骤2,获取标签文档-主题分布阶段:
步骤2a,计算每个标签的频次相关属性值,将其以一定的比例系数加到主题建模时标签的先验参数中;计算标签频次相关值可以为词频(TF)等;
步骤2b,根据更新后的参数值以及设定的主题数等参数训练主题模型,得到标签文档与主题的分布θ={θ12,…,θm},m为训练集实例总数;主题模型的选取根据数据集特点可以选取LDA、BTM或者WNTM等主题建模方法,此实施方案选取LDA。
步骤2c,结束;
步骤3,标签文档-主题分布离散化阶段:
步骤3a,根据θ获取每个文档对应的主题分布的统计值;
步骤3b,遍历主题分布的概率值,根据统计设置阈值,满足阈值则保留主题,不满足则去除;阈值的计算有多种方法,其中一种方法为求取最大最小值的平均值。
步骤3c结束;
步骤4,预测测试实例主题阶段:
步骤4a,将每个文档保留的主题作为标签,组成以主题为标签的多标签分类数据集;组成以主题为标签的多标签数据集,其中数据集中每个实例的主题指原实例对应的主题分布离散化后的主题集合。
步骤4b,使用简单的多标签分类算法在4a中生成的数据集中训练并预测测试实例主题;通过多标签学习算法基于4a中组成的以主题为标签的多标签数据集训练的学习器预测出的是测试实例的主题集合。
步骤4c,结束;
步骤5,预测测试实例标签阶段:
步骤5a,将文档原来的属性和获取的主题合并成新的属性,与原标签组成多标签分类算法;主题加入属性的新多标签数据集具体指将主题集合加入最初数据集的属性部分,标签部分不变形成的多标签分类数据集,测试实例的属性也要加上预测出来的主题集合组成新的测试实例。
步骤5b,对5a中的多标签分类算法使用传统多标签分类算法预测测试实例标签;最终通过多标签分类算法对5a生成的新的多标签分类数据集训练并获得对应测试实例标签集合。步骤5c,结束;
设多标签分类数据集为D={(xi,Yi)|1≤i≤m},m为数据集实例数;共有q个标签,Yi={yi1,yi2,…,yiq};xt为测试实例;K为主题数目;Mtopic用于预测实例主题的多标签算法;M用于最后预测测试实例标签的多标签算法。
图1是基于主题模型的多标签分类框架方法流程图。
步骤1中提取实例对应的标签集合,即是将D中的Y={Y1,Y2,…,Ym}分离出来;
步骤2中将分类出来的Y名词化,即将值为1(表示标签存在)的标签转化为对应位置的标签名称,最终生成新文档;
步骤3中通过计算标签对应的词频对主题建模时标签的先验参数修改;
步骤4中使用修改过后的参数进行LDA建模,并获得文本-主题概率分布θ;
步骤5中遍历主题概率,获取最大值和最小值;
步骤6中求取最大值和最小值的平均值,保留概率大于平均值的主题;
步骤7中组成以主题为标签的多标签数据集DT={(xi,Ti)|1≤i≤m},其中Ti是指第i个文档对应的主题分布离散化后的主题集合;
步骤8中通过多标签学习算法基于DT训练的学习器预测出的是xt的主题集合,即
YT=Mtopic(xt);YT表示测试实例的主题集合,Mtopic表示用于预测测试实例主题的多标签算法,xt表示测试实例。
步骤9中将主题加入属性的新多标签数据集为Dnew={(xiTi,Yi)|1≤i≤m},如图4所示,且 表示集合了预测主题后的测试实例。
步骤10中最终通过多标签分类算法M获得测试实例标签集合
图2是对步骤3和步骤4的详细描述。
步骤11计算各个标签的TF值,标签c的TF值计算公式如下:
步骤12更新各个标签的对应的超参数值。设主题模型中主题与标签分布的超参数为β,则更新后标签c对应的超参数为βc′=β+η*TFc。其中TFc表示标签c的TF值,fc,D为标签c在文档集合D中出现的次数,η表示标签c的词频TFc系数。
步骤13使用吉布斯采样训练并获得文档-主题分布θ={θ1,…,θm};
图3是对第6步骤和第7步骤的详细描述。
步骤14获取文档最大主题概率值和最小主题概率值;
步骤15获取最大概率值和最小概率值的平均值;
步骤16遍历主题概率,判断是否大于平均值,大于则跳步骤17,否则判断下一个,θdi为文档d上第i个主题的概率,i∈(1,K),K为主题数目;
步骤17中将满足条件的主题名词化后加入当前文本的主题集合;
步骤18表示当所有的概率遍历结束后,开始下一个文本,若所有文本已经遍历结束,则结束流程。
本发明基于主题模型的多标签分类框架方法以较少的复杂度考虑了标签之间的关系,有效提高多标签分类预测效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于主题模型的多标签分类框架方法,其特征在于,包括如下步骤:
步骤1,标签文档生成阶段:提取训练集数据中每个实例对应的标签集合;根据标签集合各个标签得到标签名称,然后组成生成新文档;每个实例对应的标签集合为一个文档;
步骤2,获取标签文档-主题分布阶段;计算每个标签的频次相关属性值,将其乘比例系数加到主题建模时标签的先验参数中;根据更新后的参数值以及设定的主题数等参数训练主题模型,得到标签文档与主题的分布θ={θ12,…,θm},m为训练集实例总数
步骤3,标签文档-主题分布离散化阶段:根据标签文档与主题的分布θ获取每个文档对应的主题分布的统计值;遍历主题分布的概率值,根据统计设置阈值,满足阈值则保留主题,不满足则去除
步骤4,预测测试实例主题阶段:将每个文档保留的主题作为标签,组成以主题为标签的多标签分类数据集;使用多标签分类算法在多标签分类数据集中训练并预测测试实例主题;
步骤5,预测测试实例标签阶段:将文档原来的属性和获取的主题合并成新的属性,与原标签组成多标签分类算法;对组成的多标签分类算法使用传统多标签分类算法预测测试实例标签。
2.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:骤2)中计算标签频次相关值的方法如下:
S201,计算标签c的词频TFc的公式如下:
其中,fc,D为标签c在文档集合D中出现的次数,
S202,设原主题模型中标签对应的超参数为β,则更新后标签c对应的超参数为β′c=β+η*TFc,η表示标签c的词频TFc系数。
3.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤1)中提取实例对应的标签集合的方法:将每个实例的标签部分分离出来并组合为新的集合。
4.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:骤2)中计算标签频次相关值为词频。
5.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤2)中主题模型的选取根据数据集特点选取LDA、BTM或者WNTM主题建模方法。
6.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤3)中阈值的计算的方法为求取最大最小值的平均值。
7.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤4)中组成以主题为标签的多标签数据集,其中数据集中每个实例的主题指原实例对应的主题分布离散化后的主题集合。
8.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤4)通过多标签学习算法基于组成以主题为标签的多标签数据集训练的学习器预测出的是测试实例的主题集合。
9.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤5)中主题加入属性的新多标签数据集具体指将主题集合加入最初数据集的属性部分,标签部分不变形成的多标签分类数据集,测试实例的属性也要加上预测出来的主题集合组成新的测试实例。
10.根据权利要求1所述基于主题模型的多标签分类框架方法,其特征在于:步骤5)最终通过多标签分类算法对生成的新的多标签分类数据集训练并获得对应测试实例标签集合。
CN201810470714.7A 2018-05-17 2018-05-17 一种基于主题模型的多标签分类框架方法 Pending CN108763361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810470714.7A CN108763361A (zh) 2018-05-17 2018-05-17 一种基于主题模型的多标签分类框架方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810470714.7A CN108763361A (zh) 2018-05-17 2018-05-17 一种基于主题模型的多标签分类框架方法

Publications (1)

Publication Number Publication Date
CN108763361A true CN108763361A (zh) 2018-11-06

Family

ID=64006972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810470714.7A Pending CN108763361A (zh) 2018-05-17 2018-05-17 一种基于主题模型的多标签分类框架方法

Country Status (1)

Country Link
CN (1) CN108763361A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685158A (zh) * 2019-01-08 2019-04-26 东北大学 一种基于强项集的聚类结果语义特征提取与可视化方法
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567464A (zh) * 2011-11-29 2012-07-11 西安交通大学 基于扩展主题图的知识资源组织方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567464A (zh) * 2011-11-29 2012-07-11 西安交通大学 基于扩展主题图的知识资源组织方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUE PENG 等: "Multi-Label learning by exploiting label correlations for TCM Diagnosing Parkinson’s Disease", 《IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685158A (zh) * 2019-01-08 2019-04-26 东北大学 一种基于强项集的聚类结果语义特征提取与可视化方法
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统
CN113672736B (zh) * 2021-09-09 2023-08-22 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统

Similar Documents

Publication Publication Date Title
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN103970863B (zh) 基于lda主题模型的微博用户兴趣的挖掘方法及系统
CN103207856B (zh) 一种本体概念及层次关系生成方法
CN107578292B (zh) 一种用户画像构建系统
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN108073677A (zh) 一种基于人工智能的多级文本多标签分类方法及系统
CN107315738B (zh) 一种文本信息的创新度评估方法
CN112417880A (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN110825721A (zh) 大数据环境下高血压知识库构建与系统集成方法
JP6403382B2 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN109766544A (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN108038205A (zh) 针对中文微博的观点分析原型系统
CN107978373A (zh) 一种基于共训练的半监督生物医学事件抽取方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN109189926A (zh) 一种科技论文语料库的构建方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN107506377A (zh) 基于推荐系统的互动绘本生成系统
CN105654144A (zh) 一种基于机器学习的社交网络本体构建方法
CN112559734A (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN113343690B (zh) 一种文本可读性自动评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106