CN108829776A - 一种基于梯度提升树的慕课论坛主题分类方法 - Google Patents
一种基于梯度提升树的慕课论坛主题分类方法 Download PDFInfo
- Publication number
- CN108829776A CN108829776A CN201810537535.0A CN201810537535A CN108829776A CN 108829776 A CN108829776 A CN 108829776A CN 201810537535 A CN201810537535 A CN 201810537535A CN 108829776 A CN108829776 A CN 108829776A
- Authority
- CN
- China
- Prior art keywords
- forum
- boosted tree
- gradient boosted
- user
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于梯度提升树的慕课论坛主题分类方法。首先收集并记录慕课论坛用户的行为数据,设计并提取慕课论坛的用户行为特征,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的用户行为组合特征,然后使用独热编码对该特征进行编码,最后使用逻辑回归分类器对样本进行分类。本发明方法使用梯度提升树对慕课论坛用户行为特征进行融合,不需要人工筛选、划分、组合特征,从而降低人工设计特征所需的成本。并且该方法无需数据的先验知识,提高了慕课论坛主题分类的效率和准确率。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于梯度提升树的慕课论坛主题分类方法。
背景技术
大规模在线教育(Massive open online Course,MOOC)简称慕课,是一种新兴的在线教育模式,受到世界各国的学习者的热烈推崇。慕课论坛主题是用户针对课程发表的问题,包括作业、讨论、课程反馈、交友等主题类别,自动准确地为海量的论坛主题数据分类是提高在线教育课程质量的关键方法之一。不同课程论坛内容差异巨大且论坛交流语言多样,导致基于自然语言处理的传统数据挖掘技术不再适用。不同类别的论坛主题用户行为特征差别巨大,如作业类别的主题和交友类别的主题在帖子数量、得到的点赞数量、浏览次数等方面有很大的差异,因此用户行为特征可以作为论坛主题的分类依据。
如何根据现有慕课论坛用户行为数据设计和筛选出有区分性的用户行为特征需要极大的工作量与极强的先验知识。梯度提升树的每一个分支都是对特征的选择和划分,每一个分支都可以被看作是一个新的特征。每一个决策节点对特征进行筛选都是基于上一个特征对于数据集划分的结果,因此大多数时候都能筛选出符合人们认知的重要特征,从而降低人工设计特征所需的成本
发明内容
本发明实施例提供一种基于梯度提升树的慕课论坛主题分类方法,该方法利用梯度提升树得到判别能力更强的用户行为组合特征。使用梯度提升树对慕课论坛用户行为特征进行融合,不需要人工筛选、划分、组合特征,从而降低人工设计特征所需的成本,提高慕课论坛主题分类效率。
本发明提供的一种基于梯度提升树的慕课论坛主题分类方法,包括以下步骤:
步骤S101:收集并记录慕课论坛用户的行为数据,设计并提取慕课论坛用户的行为特征;通过提取与文本信息无关的慕课论坛用户行为特征,获得不同论坛板块下主题的交互特点;
步骤S102:根据不同论坛主题的特点,使用梯度提升树对用户特征进行融合,得到判别能力更强的组合特征;
步骤S103:使用独热编码对组合特征进行编码,将编码结果作为样本的特征表示,使用逻辑回归分类器和新特征实现对论坛主题的有效分类。
优选的,所述步骤S102,根据不同论坛主题的特点,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的组合特征。
优选的,利用梯度提升树发现有区分性的特征和组合特征,通过前一个强学习器的损失函数的负梯度来指导下一个基学习器的训练,从而不断提高组合而成的强学习器的分类性能;
设最终训练得到的最优学习器估计为F*(x),则F*(x)满足如下公式:
其中xi,yi是第i个样本的特征和标签,L是损失函数,F(x)是多个基学习器组合的强学习器,组合规则如下:
h(x;θm)是第m个基学习器,θm是基学习器的参数,βm是基学习器的权重;通过不断迭代优化得到强学习器。
优选的,所述步骤S103:使用独热编码对组合特征进行编码,将编码结果作为样本的特征表示,使用逻辑回归分类器和新特征实现对慕课论坛主题的有效分类。
有益效果:本发明设计并提取慕课论坛的用户行为数据特征,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的用户行为组合特征。然后使用独热编码对该特征进行编码,最后使用逻辑回归分类器对样本进行分类,得到满意的结果。本发明方法使用梯度提升树对慕课论坛用户行为特征进行融合,不需要人工筛选、划分、组合特征,从而降低人工设计特征所需的成本。并且该种方法无需数据的先验知识,提高了慕课论坛主题分类的效率和准确率。
附图说明
图1为本发明基于梯度提升树的慕课论坛主题分类方法流程图。
图2为本发明基于梯度提升树的慕课论坛主题分类方法的具体实施例图。
图3为本发明步骤S103的编码过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明提出的基于梯度提升树的慕课论坛主题分类方法,主要包括:
首先收集并记录慕课论坛用户的行为数据,设计并提取慕课论坛的用户行为特征。
其次,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的用户行为组合特征。
最后,使用独热编码对梯度提升树的叶子节点进行编码,并使用逻辑回归分类器对编码后的样本进行分类。编码的过程如图3所示。
样本x根据其标签最终被划分到叶子节点li,i∈(1,2,3,4),假设i=3,使用独热编码对叶子节点进行编码,编码后样本x的融合特征表示为{0,0,1,0}。
为了更好地反映不同慕课论坛主题类别的特点,设计并提取以下四个方面的论坛主题特征:
(1)主题结构,包括主题提出时间、主题深度、课程类型。
(2)主题潜在社会网络,包括主题参与学生数量、指导者数量、服务者数量、匿名用户数量。
(3)主题热度,包括主题浏览量、包含帖子数量、平均评论数量。
(4)主题内容质量,包含主题总共的点赞数量、单篇帖子的最大点赞数量。
图2所示,本实施例的基于梯度提升树的慕课论坛主题分类方法,包括:
步骤201、收集并记录慕课论坛用户的行为数据,设计并提取与文本信息无关的慕课论坛用户行为特征,获得不同论坛板块下主题的交互特点。
步骤202、对数据进行预处理,包括异常数据处理和对分布不平衡数据的过采样处理。
步骤203、构建梯度提升树,样本从根节点被划分到叶子节点的过程涵盖了对特征的选择、划分和组合,从而实现对论坛主题特征的融合,得到判别能力更强的组合特征。梯度提升树的构建过程是使模型的损失函数不断减小的过程,通过前一个强学习器的损失函数的负梯度方向来指导下一个基学习器的训练,从而不断提高组合而成的强学习器的分类性能。最终训练得到的最优学习器估计为F*(x),则F*(x)满足如下公式:
其L是损失函数,F(x)是多个基学习器组合的强学习器,组合规则如下:
h(x;θm)是第m个基学习器,θm是基学习器的参数,βm是基学习器的权重。通过不断迭代优化可以得到强学习器。
步骤204、样本从根节点被划分到叶子节点的过程涵盖了对特征的选择、划分和组合,不同样本被划分到不同的叶子节点,样本经特征融合之后可以用叶子节点的索引值表示。由于不同叶子节点的索引值不存在次序关系,因此对叶子节点的索引值进行独热编码,并将编码后的特征作为样本特征的表示。
步骤205、将样本编码后的新特征作为逻辑回归分类器的输入,根据分类效果不断调整分类器参数,直至达到最优分类效果。
步骤206、使用逻辑回归模型实现对待分类论坛主题样本的有效分类。
在本发明中,使用梯度提升树的叶子节点作为最后融合的慕课论坛用户行为特征的表示。样本从根节点被划分到叶子节点的过程涵盖了对特征的选择、划分和组合,不同样本被划分到不同的叶子节点,样本特征经融合之后可以用叶子节点的索引值表示。由于不同叶子节点的索引值不存在次序关系,因此对叶子节点的索引值进行独热编码。
独热编码(One Hot Encoding)又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且任意时候只有一位有效。从而将一个具有M个可能值的特征编码为一个M个二元特征,并且特征之间互斥,每次只有一个激活,实现对慕课论坛用户行为特征的有效表示和稀疏化处理。
本实施例,设计并提取慕课论坛的用户行为数据特征,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的用户行为组合特征。然后使用独热编码对该特征进行编码,最后使用逻辑回归分类器对样本进行分类,得到满意的结果。本发明方法使用梯度提升树对慕课论坛用户行为特征进行融合,不需要人工筛选、划分、组合特征,从而降低人工设计特征所需的成本。并且该种方法无需数据的先验知识,提高了慕课论坛主题分类的效率和准确率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (4)
1.一种基于梯度提升树的慕课论坛主题分类方法,包括以下步骤:
步骤S101:收集并记录慕课论坛用户的行为数据,设计并提取慕课论坛用户的行为特征;通过提取与文本信息无关的慕课论坛用户行为特征,获得不同论坛板块下主题的交互特点;
步骤S102:根据不同论坛主题的特点,使用梯度提升树对用户特征进行融合,得到判别能力更强的组合特征;
步骤S103:使用独热编码对组合特征进行编码,将编码结果作为样本的特征表示,使用逻辑回归分类器和新特征实现对论坛主题的有效分类。
2.根据权利要求1所述基于梯度提升树的慕课论坛主题分类方法,其特征在于,所述步骤S102,根据不同论坛主题的特点,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的组合特征。
3.根据权利要求2所述基于梯度提升树的慕课论坛主题分类方法,其特征在于,利用梯度提升树发现有区分性的特征和组合特征,通过前一个强学习器的损失函数的负梯度来指导下一个基学习器的训练,从而不断提高组合而成的强学习器的分类性能;
设最终训练得到的最优学习器估计为F*(x),则F*(x)满足如下公式:
其中xi,yi是第i个样本的特征和标签,L是损失函数,F(x)是多个基学习器组合的强学习器,组合规则如下:
h(x;θm)是第m个基学习器,θm是基学习器的参数,βm是基学习器的权重;通过不断迭代优化得到强学习器。
4.根据权利要求3所述基于梯度提升树的慕课论坛主题分类方法,其特征在于,所述步骤S103:使用独热编码对组合特征进行编码,将编码结果作为样本的特征表示,使用逻辑回归分类器和新特征实现对慕课论坛主题的有效分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810537535.0A CN108829776A (zh) | 2018-05-30 | 2018-05-30 | 一种基于梯度提升树的慕课论坛主题分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810537535.0A CN108829776A (zh) | 2018-05-30 | 2018-05-30 | 一种基于梯度提升树的慕课论坛主题分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108829776A true CN108829776A (zh) | 2018-11-16 |
Family
ID=64146227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810537535.0A Pending CN108829776A (zh) | 2018-05-30 | 2018-05-30 | 一种基于梯度提升树的慕课论坛主题分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829776A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800888A (zh) * | 2019-01-08 | 2019-05-24 | 浙江大学 | 一种基于群智能机器学习的采煤机在线故障诊断系统 |
CN110390041A (zh) * | 2019-07-02 | 2019-10-29 | 上海上湖信息技术有限公司 | 在线学习方法及装置、计算机可读存储介质 |
CN111309817A (zh) * | 2020-01-16 | 2020-06-19 | 秒针信息技术有限公司 | 行为识别方法、装置及电子设备 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
CN112115334A (zh) * | 2020-09-28 | 2020-12-22 | 北京百度网讯科技有限公司 | 网络社区热点内容的判别方法、装置、设备以及存储介质 |
CN115862188A (zh) * | 2022-12-01 | 2023-03-28 | 西部科学城智能网联汽车创新中心(重庆)有限公司 | 一种基于云端感知异常驾驶的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160330223A1 (en) * | 2015-05-07 | 2016-11-10 | Qualcomm Incorporated | Methods and Systems for Using Causal Analysis for Boosted Decision Stumps to Identify and Respond to Non-Benign Behaviors |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
-
2018
- 2018-05-30 CN CN201810537535.0A patent/CN108829776A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160330223A1 (en) * | 2015-05-07 | 2016-11-10 | Qualcomm Incorporated | Methods and Systems for Using Causal Analysis for Boosted Decision Stumps to Identify and Respond to Non-Benign Behaviors |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
Non-Patent Citations (3)
Title |
---|
JEROME H. FRIEDMAN: "Greedy function approximation: a gradient boosting machine", 《ANNALS OF STATISTICS,ACM》 * |
LORENZO A. ROSSI等: "Language independent analysis and classification of discussion threads in Coursera MOOC forums", 《PROCEEDINGS OF THE 2014 IEEE 15TH INTERNATIONAL CONFERENCE ON INFORMATION REUSE AND INTEGRATION》 * |
XINRAN HE等: "Practical lessons from predicting clicks on ads at facebook", 《PROCEEDINGS OF THE EIGHTH INTERNATIONAL WORKSHOP ON DATA MINING FOR ONLINE ADVERTISING》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800888A (zh) * | 2019-01-08 | 2019-05-24 | 浙江大学 | 一种基于群智能机器学习的采煤机在线故障诊断系统 |
CN110390041A (zh) * | 2019-07-02 | 2019-10-29 | 上海上湖信息技术有限公司 | 在线学习方法及装置、计算机可读存储介质 |
CN110390041B (zh) * | 2019-07-02 | 2022-05-20 | 上海上湖信息技术有限公司 | 在线学习方法及装置、计算机可读存储介质 |
CN111309817A (zh) * | 2020-01-16 | 2020-06-19 | 秒针信息技术有限公司 | 行为识别方法、装置及电子设备 |
CN111309817B (zh) * | 2020-01-16 | 2023-11-03 | 秒针信息技术有限公司 | 行为识别方法、装置及电子设备 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
CN112115334A (zh) * | 2020-09-28 | 2020-12-22 | 北京百度网讯科技有限公司 | 网络社区热点内容的判别方法、装置、设备以及存储介质 |
CN112115334B (zh) * | 2020-09-28 | 2023-07-21 | 北京百度网讯科技有限公司 | 网络社区热点内容的判别方法、装置、设备以及存储介质 |
CN115862188A (zh) * | 2022-12-01 | 2023-03-28 | 西部科学城智能网联汽车创新中心(重庆)有限公司 | 一种基于云端感知异常驾驶的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829776A (zh) | 一种基于梯度提升树的慕课论坛主题分类方法 | |
CN104794212B (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN106294568A (zh) | 一种基于bp网络的中文文本分类规则生成方法及系统 | |
CN108108355A (zh) | 基于深度学习的文本情感分析方法和系统 | |
Dye et al. | Constant comparison method: A kaleidoscope of data | |
Dai et al. | Eigentransfer: a unified framework for transfer learning | |
CN111339754B (zh) | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 | |
Qian et al. | Hierarchical CVAE for fine-grained hate speech classification | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN107025299B (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
CN108363816A (zh) | 基于句义结构模型的开放式实体关系抽取方法 | |
Walker et al. | Evolutionary transitions and top-down causation | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN105740227B (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN109657947A (zh) | 一种面向企业行业分类的异常检测方法 | |
CN106682236A (zh) | 基于机器学习的专利数据处理方法及其处理系统 | |
CN107145514A (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN108664512A (zh) | 文本对象分类方法及装置 | |
Ji et al. | Attention based meta path fusion for heterogeneous information network embedding | |
Sadr et al. | Improving the performance of text sentiment analysis using deep convolutional neural network integrated with hierarchical attention layer | |
Ghalehtaki et al. | A combinational method of fuzzy, particle swarm optimization and cellular learning automata for text summarization | |
CN110135846A (zh) | 一种区块链节点的行为序列自动分类方法 | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
CN112508108B (zh) | 一种基于字根的零样本汉字识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181116 |
|
WD01 | Invention patent application deemed withdrawn after publication |