CN108763361A

CN108763361A - 一种基于主题模型的多标签分类框架方法

Info

Publication number: CN108763361A
Application number: CN201810470714.7A
Authority: CN
Inventors: 吴骏; 谭龙海; 陆恒杨; 徐鸣; 张雷
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-11-06

Abstract

本发明公开了一种基于主题模型的多标签分类框架方法，包括如下步骤：1)标签文档生成阶段：a提取训练集标签集合；b生成新文档；2)获取标签文档‑主题分布阶段：a更新模型参数；b训练主题模型；3)标签文档‑主题分布离散化阶段：a获取主题概率最值；b离散化主题；4)预测测试实例主题阶段：a生成主题为标签的数据集；b预测测试实例主题；5)预测测试实例标签阶段：a组合属性主题；b预测测试实例标签。本发明能以较少的复杂度考虑了标签之间的关系，有效提高多标签分类预测效果。

Description

一种基于主题模型的多标签分类框架方法

技术领域

本发明涉及多标签分类领域，具体是一种多标签分类框架方法，使用LDA、BTM或者WNTM等主题建模方法挖掘标签之间的关系，从而以较小的复杂度实现多标签分类预测功能。

背景技术

标签间的相互关系在多标签分类算法中有着非常重要的作用。传统的多标签分类算法通过分析标签集合中的子集或者标签链的方法考虑标签间的相互关系，会有子集所含标签数量少或者复杂度随着标签集合增大非线性增加的缺点。本发明采用的基于主题模型的方法，在标签集合之上建立一层隐式“主题”层，使用主题模型来挖掘标签间的相互关系并与传统的多标签分类算法相结合形成基于主题模型的多标签分类算法框架。本发明使用了LDA(Latent Dirichlet Allocation)、BTM(Biterm Topic Model)、WNMT(Word NetworkTopic Model)三种主题建模方法实现多标签分类算法框架。LDA是一种三层贝叶斯概率形式的文档主题生成模型，其包括词、主题和文档三层结构。它是非监督机器学习技术，采用不考虑词与词之间顺序的词袋(bag of words)方法，识别大规模语料库和文档集合中潜藏的主题信息。LDA认为一篇文档的生成过程是通过“先以一定概率从待选主题中选择某个主题，然后在这个主题中以一定概率选择某个词语”这样的循环步骤得到的。文档与主题以及主题和词之间都服从多项式分布。在使用LDA挖掘标签之间关系时，将模型中的词替代为标签，每一个多标签数据集中的实例对应的标签集合作为一个文档，由此将生成的主题层描述为标签关系的信息集成，然后将其加入属性中，以便传统的多标签分类算法可以更好的进行预测过程。BTM是为了解决LDA对短文本组成的文档集合主题建模效果不佳的问题，多标签数据集合中每一个实例对应的标签集合往往包含相对少数的标签。BTM基于词对的思想，将整个文档集合对应一个文档-主题概率分布，并将文档表示为词对组合的形式，有效缓解了文档集合中单个文档长度较短的问题，对短文本的主题建模有较好的效果。由于在多标签数据集合中存在大量实例对应的标签集合只有一个标签的情况下，BTM建模需要清洗数据，所以可用WNTM构建标签间的主题模型挖掘标签间的关系，WNTM通过构建词网络重新生成基于词邻接表的文档集合，继而在新的文档集合中使用LDA构建词与主题间的概率分布。同时本发明引入了词频(Term Frequency,TF)信息来衡量标签的重要性。

发明内容

发明目的：为了解决多标签分类算法中复杂度低的算法对标签间关系考虑不充分，对标签间关系考虑充分的算法复杂度过大的问题，使用主题模型挖掘标签之间的关系，实现面对大数据量时复杂度相对较小的目的。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于主题模型的多标签分类框架方法，包括如下步骤：

步骤1，标签文档生成阶段：提取训练集数据中每个实例对应的标签集合；根据标签集合各个标签得到标签名称，然后组成生成新文档；每个实例对应的标签集合为一个文档；

步骤2，获取标签文档-主题分布阶段；计算每个标签的频次相关属性值，将其乘比例系数加到主题建模时标签的先验参数中；根据更新后的参数值以及设定的主题数等参数训练主题模型，得到标签文档与主题的分布θ＝{θ₁,θ₂,…,θ_m}，m为训练集实例总数

步骤3，标签文档-主题分布离散化阶段：根据标签文档与主题的分布θ获取每个文档对应的主题分布的统计值；遍历主题分布的概率值，根据统计设置阈值，满足阈值则保留主题，不满足则去除

步骤4，预测测试实例主题阶段：将每个文档保留的主题作为标签，组成以主题为标签的多标签分类数据集；使用多标签分类算法在多标签分类数据集中训练并预测测试实例主题；

步骤5，预测测试实例标签阶段：将文档原来的属性和获取的主题合并成新的属性，与原标签组成多标签分类算法；对组成的多标签分类算法使用传统多标签分类算法预测测试实例标签。

优选的：骤2)中计算标签频次相关值的方法如下：

S201，计算标签c的词频TF_c的公式如下：

其中，f_c,D为标签c在文档集合D中出现的次数，

S202，设原主题模型中标签对应的超参数为β，则更新后标签c对应的超参数为β_c′＝β+η*TF_c，η表示标签c的词频TF_c系数。

优选的：步骤1)中提取实例对应的标签集合的方法：将每个实例的标签部分分离出来并组合为新的集合。

优选的：骤2)中计算标签频次相关值为词频。

优选的：步骤2)中主题模型的选取根据数据集特点选取LDA、BTM或者WNTM主题建模方法。

优选的：步骤3)中阈值的计算的方法为求取最大最小值的平均值。

优选的：步骤4)中组成以主题为标签的多标签数据集，其中数据集中每个实例的主题指原实例对应的主题分布离散化后的主题集合。

优选的：步骤4)通过多标签学习算法基于组成以主题为标签的多标签数据集训练的学习器预测出的是测试实例的主题集合。

优选的：步骤5)中主题加入属性的新多标签数据集具体指将主题集合加入最初数据集的属性部分，标签部分不变形成的多标签分类数据集，测试实例的属性也要加上预测出来的主题集合组成新的测试实例。

优选的：步骤5)最终通过多标签分类算法对生成的新的多标签分类数据集训练并获得对应测试实例标签集合。

本发明相比现有技术，具有以下有益效果：

本发明基于主题模型挖掘多标签分类数据集中标签之间的关系，并以主题的形式展现，由于主题之间的关联性较小，所以使用传统多标签分类算法预测测试实例主题时可以使用不充分考虑主体间相互关系的复杂度较小的算法。最后，由于包含标签之间关系的主题属性被加入了实例的属性集合中，在预测测试实例标签集合时便同样可以采用对标签之间关联性考虑较少的复杂度低的算法进行预测，最终实现在低复杂度取得较好预测结果的效果。

附图说明

图1是基于主题模型的多标签分类框架方法流程图；

图2是主题分布离散化流程图；

图3是带有更新参数过程的WNMT主题建模流程图；

图4是将主题集合加入属性后的多标签数据集示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于主题模型的多标签分类框架方法，包括以下步骤：

步骤1，标签文档生成阶段：

步骤1a，提取训练集数据中每个实例对应的标签集合；提取实例对应的标签集合，即是将每个实例的标签部分分离出来；

步骤1b，若标签使用0/1表示，则将值为1的标签转化为标签名称，然后组成生成新文档，每个实例对应的标签集合为一个文档；

步骤1c，结束；

步骤2，获取标签文档-主题分布阶段：

步骤2a，计算每个标签的频次相关属性值，将其以一定的比例系数加到主题建模时标签的先验参数中；计算标签频次相关值可以为词频(TF)等；

步骤2b，根据更新后的参数值以及设定的主题数等参数训练主题模型，得到标签文档与主题的分布θ＝{θ₁,θ₂,…,θ_m}，m为训练集实例总数；主题模型的选取根据数据集特点可以选取LDA、BTM或者WNTM等主题建模方法，此实施方案选取LDA。

步骤2c，结束；

步骤3，标签文档-主题分布离散化阶段：

步骤3a，根据θ获取每个文档对应的主题分布的统计值；

步骤3b，遍历主题分布的概率值，根据统计设置阈值，满足阈值则保留主题，不满足则去除；阈值的计算有多种方法，其中一种方法为求取最大最小值的平均值。

步骤3c结束；

步骤4，预测测试实例主题阶段：

步骤4a，将每个文档保留的主题作为标签，组成以主题为标签的多标签分类数据集；组成以主题为标签的多标签数据集，其中数据集中每个实例的主题指原实例对应的主题分布离散化后的主题集合。

步骤4b，使用简单的多标签分类算法在4a中生成的数据集中训练并预测测试实例主题；通过多标签学习算法基于4a中组成的以主题为标签的多标签数据集训练的学习器预测出的是测试实例的主题集合。

步骤4c，结束；

步骤5，预测测试实例标签阶段：

步骤5a，将文档原来的属性和获取的主题合并成新的属性，与原标签组成多标签分类算法；主题加入属性的新多标签数据集具体指将主题集合加入最初数据集的属性部分，标签部分不变形成的多标签分类数据集，测试实例的属性也要加上预测出来的主题集合组成新的测试实例。

步骤5b，对5a中的多标签分类算法使用传统多标签分类算法预测测试实例标签；最终通过多标签分类算法对5a生成的新的多标签分类数据集训练并获得对应测试实例标签集合。步骤5c，结束；

设多标签分类数据集为D＝{(x_i,Y_i)|1≤i≤m}，m为数据集实例数；共有q个标签，Y_i＝{y_i1,y_i2,…,y_iq}；x_t为测试实例；K为主题数目；M_topic用于预测实例主题的多标签算法；M用于最后预测测试实例标签的多标签算法。

图1是基于主题模型的多标签分类框架方法流程图。

步骤1中提取实例对应的标签集合，即是将D中的Y＝{Y₁,Y₂,…,Y_m}分离出来；

步骤2中将分类出来的Y名词化，即将值为1(表示标签存在)的标签转化为对应位置的标签名称，最终生成新文档；

步骤3中通过计算标签对应的词频对主题建模时标签的先验参数修改；

步骤4中使用修改过后的参数进行LDA建模，并获得文本-主题概率分布θ；

步骤5中遍历主题概率，获取最大值和最小值；

步骤6中求取最大值和最小值的平均值，保留概率大于平均值的主题；

步骤7中组成以主题为标签的多标签数据集D_T＝{(x_i,T_i)|1≤i≤m}，其中T_i是指第i个文档对应的主题分布离散化后的主题集合；

步骤8中通过多标签学习算法基于D_T训练的学习器预测出的是x_t的主题集合，即

Y_T＝M_topic(x_t)；Y_T表示测试实例的主题集合，M_topic表示用于预测测试实例主题的多标签算法，x_t表示测试实例。

步骤9中将主题加入属性的新多标签数据集为D_new＝{(x_iT_i,Y_i)|1≤i≤m}，如图4所示，且表示集合了预测主题后的测试实例。

步骤10中最终通过多标签分类算法M获得测试实例标签集合

图2是对步骤3和步骤4的详细描述。

步骤11计算各个标签的TF值，标签c的TF值计算公式如下:

步骤12更新各个标签的对应的超参数值。设主题模型中主题与标签分布的超参数为β，则更新后标签c对应的超参数为β_c′＝β+η*TF_c。其中TF_c表示标签c的TF值，f_c,D为标签c在文档集合D中出现的次数，η表示标签c的词频TF_c系数。

步骤13使用吉布斯采样训练并获得文档-主题分布θ＝{θ₁,…,θ_m}；

图3是对第6步骤和第7步骤的详细描述。

步骤14获取文档最大主题概率值和最小主题概率值；

步骤15获取最大概率值和最小概率值的平均值；

步骤16遍历主题概率，判断是否大于平均值，大于则跳步骤17，否则判断下一个，θ_di为文档d上第i个主题的概率，i∈(1,K)，K为主题数目；

步骤17中将满足条件的主题名词化后加入当前文本的主题集合；

步骤18表示当所有的概率遍历结束后，开始下一个文本，若所有文本已经遍历结束，则结束流程。

本发明基于主题模型的多标签分类框架方法以较少的复杂度考虑了标签之间的关系，有效提高多标签分类预测效果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于主题模型的多标签分类框架方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：骤2)中计算标签频次相关值的方法如下：

S201，计算标签c的词频TF_c的公式如下：

其中，f_c,D为标签c在文档集合D中出现的次数，

S202，设原主题模型中标签对应的超参数为β，则更新后标签c对应的超参数为β′_c＝β+η*TF_c，η表示标签c的词频TF_c系数。

3.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤1)中提取实例对应的标签集合的方法：将每个实例的标签部分分离出来并组合为新的集合。

4.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：骤2)中计算标签频次相关值为词频。

5.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤2)中主题模型的选取根据数据集特点选取LDA、BTM或者WNTM主题建模方法。

6.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤3)中阈值的计算的方法为求取最大最小值的平均值。

7.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤4)中组成以主题为标签的多标签数据集，其中数据集中每个实例的主题指原实例对应的主题分布离散化后的主题集合。

8.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤4)通过多标签学习算法基于组成以主题为标签的多标签数据集训练的学习器预测出的是测试实例的主题集合。

9.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤5)中主题加入属性的新多标签数据集具体指将主题集合加入最初数据集的属性部分，标签部分不变形成的多标签分类数据集，测试实例的属性也要加上预测出来的主题集合组成新的测试实例。

10.根据权利要求1所述基于主题模型的多标签分类框架方法，其特征在于：步骤5)最终通过多标签分类算法对生成的新的多标签分类数据集训练并获得对应测试实例标签集合。