CN106682208A - 基于融合特征筛选与随机森林的微博转发行为预测方法 - Google Patents

基于融合特征筛选与随机森林的微博转发行为预测方法 Download PDF

Info

Publication number
CN106682208A
CN106682208A CN201611260965.XA CN201611260965A CN106682208A CN 106682208 A CN106682208 A CN 106682208A CN 201611260965 A CN201611260965 A CN 201611260965A CN 106682208 A CN106682208 A CN 106682208A
Authority
CN
China
Prior art keywords
feature
user
blog article
blog
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611260965.XA
Other languages
English (en)
Other versions
CN106682208B (zh
Inventor
黄文明
周先亭
孙晓洁
邓珍荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201611260965.XA priority Critical patent/CN106682208B/zh
Publication of CN106682208A publication Critical patent/CN106682208A/zh
Application granted granted Critical
Publication of CN106682208B publication Critical patent/CN106682208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于融合特征筛选与随机森林的微博转发行为预测方法,首先,从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过Filter特征选择法与Wrapper特征选择法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利袋外数据误差估计设置随机森林中决策树和特征数。本发明有效解决了目前微博转发行为预测特征选择任意性,准确率不高的问题。

Description

基于融合特征筛选与随机森林的微博转发行为预测方法
技术领域
本发明涉及社交网络转发行为预测方法,具体是一种基于融合特征筛选与随机森林的微博转发行为预测方法。
背景技术
微博,即微型博客的简称,是一种通过关注机制分享实时信息的广播式的社交网络平台。其具有便捷性、背对脸、原创性、草根性的特点,同时具有反腐、打拐、营销、自媒体等效应。
转发是微博的一个重要机制。微博网络中,信息的传播主要是通过微博的转发实现的。当微博上某用户发布一条博文,该博文会被推送给该用户的全部粉丝,而当其粉丝看到这条博文后,可以选择转发这条博文,系统会将此博文再推送给这个粉丝用户的全部粉丝。微博信息通过用户的转发行为在微博平台上实现了持续的传播。因此,研究微博的转发行为对研究信息在微博中传播,比如微博用户行为和兴趣、突发事件预测、控制敏感信息、网络舆情监控、产品营销、以及用户推荐等方面具有重要意义。
在微博转发行为预测中,能采集到的特征众多,而数据集中存在本身与预测无关的特征以及冗余特征,如果选择了几乎不具辨别能力的特征,将导致设计的预测模型性能低下,但若是选择的特征具有充分辨别能力,则会极大提高预测模型的预测精度。
近年来,针对微博转发行为预测准确率不高,特征选择任意性的问题,国内外学者展开了广泛和深入的研究。Petrovic等人通过人工实验证明了微博转发预测的可行性,然后利用改进的passive-aggressive算法预测转发,但正确率仅为46.6%。Morchid等人的研究表明选取的特征如果有较高的辨别能力,预测算法的性能会得到有效的提高。张旸等人提出了一种微博转发行为预测的方法。首先将微博转发转换为二元分类问题,然后使用支持向量机(Support Vector Machine,SVM)算法对加权后的各特征进行训练,但该模型未考虑微博主题特征,且仅有85.9%的总体命中率。
发明内容
本发明的目的在于克服上述现有方法中存在的问题和不足,提供一种基于融合特征筛选与随机森林的微博转发行为预测方法,主要解决目前微博转发行为预测特征选择任意性,准确率不高的问题。
实现本发明目的的技术方案是:
一种基于融合特征筛选与随机森林的微博转发行为预测方法,包括以下步骤:
步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;
步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;
步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;
步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;
步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;
步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。
作为本发明的进一步改进,步骤1中,采集数据使用爬虫程序按照广度优先的策略,从一个特定的用户开始,编写网络爬虫,爬取用户基本信息,以及最近发表的N条微博,然后按该用户关注列表爬取其他用户数据,生成用户数据库并对数据库中的数据进行基础清洗,清洗后处理数据为所需格式。该方法不受微博API的功能限制,且速度快、可并行化处理。
采集的数据至少包括:是否使用昵称、用户关注他人数量、用户性别、拥有粉丝的数量、教育经历、工作经历;博文发布时间、是否分享图片、是否为分享、是否为收藏、是否为转发以及具体博文内容。
所述提取用户基本特征、博文基本特征、博文主题特征采用现有技术。
所述博文基本特征提取采用LDA(Latent Dirichlet Allocation),根据隐含狄利克雷分布主题模型的生成过程,给定一篇文档集合,文档m中的第n个单词Wm,n的生成概率为:
而LDA模型生成文档m,即产生全部Nm个单词的生成概率为:
多篇文档共同组成语料库,其似然计算如下:
LDA主题模型生成算法如下:
将每个用户发布或转发的博文作为文本语料,将语料进行预处理后,即可用来训练博文主题模型。
预处理过程:首先通过中文分词效果较好的“结巴分词”对语料进行分词处理;其次通过停用词字典去掉停用词,并去掉标点符号;然后将英语单词词干化,最后去掉低频词汇。
设置超参数α,β,话题数K,构建主题模型,根据构建好的主题模型推断博文主题分布概率,将其作为转发预测模型特征之一。
所述用户活跃度和博文影响力,主要体现了用户在微博社交网络上的活动状态。用户的活动行为对扩大其影响力具有积极作用,如添加新的关注、发布新的信息等。将用户关注他人数量、博文总量、粉丝数量特征结合考虑,按照不同的权重通过计算得到用户活跃度。
作为本发明的进一步改进,步骤3中,由于不同数据产生的方式不同,需要根据数据的特点进行相应处理,对于用户博文数量使用式(1)计算其日平均发微博数量,对于用户关注数、用户粉丝数则使用式(2)进行取对数处理,
其中,xi表示用户i日平均发微博数量,Xi表示获取到的用户i的博文总数,Tlast,i表示获取到的用户i最新发微博日期,Tfirst,i表示获取到的用户i最早发微博日期,
xi,j=log(Xi,j+1) (2)
其中Xi,j是第j类特征的第i个数据,由于不同用户的粉丝数量和用户关注数量差别很大,所以使用式(2)将不同数量级的差别调整到合适的范围进行预处理。
为了定量评测各个特征的重要性,采用了比其他特征算法更简洁有效的相对熵来计算,它在特征选择中被广泛使用。特征越重要其相对熵越大,该特征相应的在接下来的加权模型中就会发挥更大的作用。对于某特征ji,设它取值为x0,x1,…,xn,则该特征相对熵计算公式为式(3),其中cl代表类别,m代表类别数目,
不同特征对于一条微博是否会被转发有着显著不同的影响,为了得到更好的结果,需要考虑不同特征的差异,赋予各个特征不同的权重,对特征进行预处理后,就可以计算各类特征的权重,权重计算方法如式(4)所示,
其中,w(ji)表示用户i的特征j的权重,D(ji)表示用户i的特征j的相对熵,其计算方法如式(3),DMEAN表示所有特征的平均相对熵,式中的开平方是为了缓和该特征对加权机制的影响;
给定用户v的日均发微博数量Xwb、粉丝数量Xfans、关注数量Xfollow以及对应特征的权重w(wb)、w(fan)、w(fol),用户v的活跃度ActiveValue为:
博文影响力体现了用户博文在微博平台上的感召力与说服力,影响力大小会对转发行为产生影响。博文影响力与用户粉丝数量,博文平均被评论数量、被转发数量、被点赞数量有密切的关系,将这些特征按照不同权重通过计算得到博文影响力。
所述博文影响力的计算方法:
首先,需要对数据根据其特点进行相应预处理,将用户粉丝数量,博文平均被评论数量、被转发数量、被点赞数量通过式(2)处理,将较大数量级的差别调整到一个合适的范围内;
其次,基于相对熵可以定量分析出各特征关键性的区分度,对不同的特征,需要采用不同的权重,以更好地区分其关键性,通过式(3)计算相对熵,通过式(4)计算出不同特征的权重;
最后,给定用户v的粉丝数量Xfans、博文的平均被评论数量Xcomm、博文的平均被转发数量Xretweet、博文的平均被点赞数量Xlike,及对应特征的权重w(fan)、w(comm)、w(ret)、w(like),用户v的博文影响力InfluenceValue为:
作为本发明的进一步改进,步骤4中,首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优 化选取。具体是,首先采用奇异值分解(Singular ValueDecomposition,SVD)方法对数据降维去噪,使得后续特征搜索规模得到有效缩减;然后利用随机森林分类器的分类准确率作为特征可分性判据,基于随机森林算法本身的变量重要性度量进行特征重要性排序,利用可回溯的贪婪搜索扩张,选取最优特征子集,得到关键特征组。
作为本发明的进一步改进,步骤5中,异常检测是一个非监督学习算法。通过高斯分布异常检测来提升随机森林算法在微博转发预测方面的性能。虽然多元高斯分布能够自动捕捉特征间的相关性,但是计算代价高且协方差必须要可逆,所以最终选择原高斯分布模型,虽然它不能捕捉特征间的相关性,但可以通过将特征线性组合来解决,并且它计算代价低,适应大规模特征,训练集较小时也适用。
高斯分布异常检测提升预测结果算法如下:
Step 1,Choose features xi that might be indicative of anomalousexamples.And converting data to fit Gauss distribution by
X=log(x+1)
Step 2,Training set of random forest which will be right predicted isused as the training set to fit parameters μ1,…,μn,by
And then construct the p(χ)function.
Step 3,Extract data which Random forest algorithm predicted theretweet probability below 0.6,they can be used as the data set to bedetected.
Step 4,Data obtained from step 3detected by Gauss anomalydetection.Compute
Anomaly if p(χ)<e
Step 5,If the data is determined to be anomaly,the prediction resultsof the random forest need to be reversed。
选择的特征需要近似服从高斯分布,如果明显不服从高斯分布,可以做适当的转换,例如等。将随机森林不能很好预测转发行为的部分数据作为异常来对待,通过异常检测的方式来提高该部分的转发预测准确率,使用log(x+1)来处理不服从高斯分布的数据,而异常数据极易被随机森林算法错误预测,将其预测结果反转以期修正。
本发明方法主要解决目前微博转发行为预测特征选择任意性,准确率不高的问题。由于可提取的特征较多,所以根据经验首先分析了用户活跃度、博文主题、博文影响力以及其它,如粉丝数量与用户性别等基本特征;其次,因为弱辨别能力的特征会导致设计的预测模型性能低下,所以通过Filter特征选择法与Wrapper特征选择法,进行实验分析得到关键特征组;最后,基于筛选后的关键特征,提出一个融合特征筛选与随机森林微博转发行为预测算法,实现对微博转发行为较好的预测。
附图说明
图1为本发明基于融合特征筛选与随机森林的微博转发行为预测方法整体流程图。
图2为博文影响力等频离散化后直方图。
图3为选定特征组相对熵直方图。
图4为不同交叉验证折数下的准确率比较图。
图5为使用不同预测算法及不同预测数据量的耗时对比图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步详细说明,但不是对本发明的限定。
参照图1,基于融合特征筛选与随机森林的微博转发行为预测方法,包括如下步骤:
步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;
采集数据使用爬虫程序按照广度优先的策略,从一个特定的用户开始,编写网络爬虫,爬取用户基本信息,以及最近发表的N条微博,然后按该用户关注列表爬取其他用户数据,生成用户数据库并对数据库中的数据进行基础清洗,清洗后处理数据为所需格式;
采集的数据至少包括:是否使用昵称、用户关注他人数量、用户性别、拥有粉丝的数量、教育经历、工作经历;博文发布时间、是否分享图片、是否为分享、是否为收藏、是否为转发以及具体博文内容。
步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;
步骤2.1:提取用户基本特征:是否使用昵称、用户关注他人数量、用户性别、拥有粉丝的数量、教育经历、工作经历、用户博文平均被点赞数量、用户博文平均被转发数量、用户博文平均被评论数量、用户个性标签数量、日均发微博数;
步骤2.2:提取博文基本特征:博文发布月份、发布星期、发布小时、是否分享图片、是否为分享、是否为收藏、是否为转发、是否包含关键字“红包”、“抽奖”、“转发”、“教程”、包含话题的数量、“@”他人的数量、包含外链的数量、博文长度;
步骤2.3:每个用户发布或转发的博文作为文本语料,将语料进行预处理后,可用来训练博文主题模型。首先通过中文分词效果较好的“结巴分词”对语料进行分词处理,其次通过停用词字典去掉停用词,并去掉标点符号,然后将英语单词词干化,最后去掉低频词汇。令超参 数,话题数K=50,根据构建好的主题模型推断博文主题分布概率,将其作为转发预测模型特征之一。
步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;
步骤3.1:对特征进行预处理,使用式(1)计算用户日均发微博数量,对于用户关注数、用户粉丝数则使用式(2)进行取对数处理,通过式(3)计算特征相对熵。考虑到不同特征的差异,赋予各个特征不同的权重,对特征进行预处理后,通过式(4)计算各类特征的权重,继而通过公式(5)计算用户活跃度。
步骤3.2:首先对数据根据其特点进行相应预处理。将用户粉丝数量,博文平均被评论数量、被转发数量、被点赞数量通过式(2)处理,将较大数量级的差别调整到一个合适的范围内。对不同的特征,需要采用不同的权重,以更好地区分其关键性,通过式(3)计算相对熵,通过式(4)计算出不同特征的权重,继而通过公式(6)计算博文影响力。
步骤3.3:将数据划分为训练集和测试集。
步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;
具体是,首先采用奇异值分解(Singular Value Decomposition,SVD)方法对数据降维去噪,使得后续特征搜索规模得到有效缩减,然后利用随机森林分类器的分类准确率作为特征可分性判据,基于随机森林算法本身的变量重要性度量进行特征重要性排序,利用可回溯的贪婪搜索扩张,最好优先原则选取特征子集。除主题特征外,筛选出关键特征组为:用户活跃度、博文影响力、是否使用昵称、用户性别、关注他人数量、粉丝数量、教育经历、用户博文平均被点赞数量、用户博文平均被转发 数量、用户个性标签数量、日均发微博数、博文发布月份、是否为转发、是否含关键字“转发”、包含话题的数量、博文长度。
步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过分别固定特征数量、决策树数量,对OOB误差估计进行观察,最终选择6个特征,45个决策树数;通过实验设置异常检测的阈值e=0.03。
步骤6:依据筛选后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。预测效果如图4、图5所示。
参照图2,博文影响力等频离散化后直方图,证明了基于相对熵计算的博文影响力特征有较高的预测能力。
参照图3,选定特征组相对熵,可以对特征重要性做辅助参考,同时可以看出用户活跃度与博文影响力对后续预测有积极作用。
参照图4,不同交叉验证折数下的准确率比较,随机森林算法效果优于其它基本算法,说明选取的基准预测算法是有效的,同时筛选后多特征的使用效果也好于使用未筛选特征,而在不同的交叉验证折数下算法的运行效果也比较稳定。
参照图5,使用不同预测算法及不同预测数据量的耗时对比,本发明方法耗时略高于随机森林方法,但准确率、ROC曲线等各项指标均好于随机森林方法。

Claims (5)

1.一种基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:包括以下步骤:
步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;
步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;
步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;
步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;
步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;
步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。
2.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤1所述采集数据使用爬虫程序按照广度优先的策略,从一个特定的用户开始,编写网络爬虫,爬取用户基本信息,以及最近发表的N条微博,然后按该用户关注列表爬取其他用户数据,生成用户数据库并对数据库中的数据进行基础清洗,清洗后处理数据为所需格式。
3.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤3中,由于不同数据产生的方式不同,需要根据数据的特点进行相应处理,对于用户博文数量使用式(1)计算其日平均发微博数量,对于用户关注数、用户粉丝数则使用式(2)进行取对数处理,
x i = X i T l a s t , i - T f i r s t , i - - - ( 1 )
其中,xi表示用户i日平均发微博数量,Xi表示获取到的用户i的博文总数,Tlast,i表示获取到的用户i最新发微博日期,Tfirst,i表示获取到的用户i最早发微博日期,
xi,j=log(Xi,j+1) (2)
其中Xi,j是第j类特征的第i个数据,由于不同用户的粉丝数量和用户关注数量差别很大,所以使用式(2)将不同数量级的差别调整到合适的范围进行预处理;
为了定量评测各个特征的重要性,采用相对熵来计算,特征越重要其相对熵越大;对于某特征ji,设它取值为x0,x1,…,xn,则该特征相对熵计算公式为式(3),其中cl代表类别,m代表类别数目,
D ( j i ) = &Sigma; k = 1 n ( P ( j i = x k ) &Sigma; l = 1 m P ( c l | j i = x k ) log P ( c l | j i = x k ) P ( c l ) - - - ( 3 )
考虑不同特征的差异,赋予各个特征不同的权重,对特征进行预处理后,就可以计算各类特征的权重,权重计算方法如式(4)所示,
w ( j i ) = D ( j i ) / D M E A N - - - ( 4 )
其中,w(ji)表示用户i的特征j的权重,D(ji)表示用户i的特征j的相对熵,其计算方法如式(3),DMEAN表示所有特征的平均相对熵,式中的开平方是为了缓和该特征对加权机制的影响;
给定用户v的日均发微博数量Xwb、粉丝数量Xfans、关注数量Xfollow以及对应特征的权重w(wb)、w(fan)、w(fol),用户v的活跃度ActiveValue为:
ActiveValue(v)=
w(wb)×Xwb+w(fan)×lg(Xfans+1)
+w(fol)×lg(Xfollow+1) (5)。
4.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤3中,博文影响力的合成方法:
首先,需要对数据根据其特点进行相应预处理,将用户粉丝数量,博文平均被评论数量、被转发数量、被点赞数量通过式(2)处理,将较大数量级的差别调整到一个合适的范围内;
其次,基于相对熵可以定量分析出各特征关键性的区分度,对不同的特征,需要采用不同的权重,以更好地区分其关键性,通过式(3)计算相对熵,通过式(4)计算出不同特征的权重;
最后,给定用户v的粉丝数量Xfans、博文的平均被评论数量Xcomm、博文的平均被转发数量Xretweet、博文的平均被点赞数量Xlike,及对应特征的权重w(fan)、w(comm)、w(ret)、w(like),用户v的博文影响力InfluenceValue为:
InfluenceValue(v)=
w(fan)×lg(Xfans+1)+w(comm)×lg(Xcomm+1)
+w(ret)×lg(Xretweet+1)+w(like)×lg(Xlike+1) (6)。
5.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤4,具体是,首先采用奇异值分解方法对数据降维去噪,使得后续特征搜索规模得到有效缩减;然后利用随机森林分类器的分类准确率作为特征可分性判据,基于随机森林算法本身的变量重要性度量进行特征重要性排序,利用可回溯的贪婪搜索扩张,选取最优特征子集,得到关键特征组。
CN201611260965.XA 2016-12-30 2016-12-30 基于融合特征筛选与随机森林的微博转发行为预测方法 Active CN106682208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611260965.XA CN106682208B (zh) 2016-12-30 2016-12-30 基于融合特征筛选与随机森林的微博转发行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611260965.XA CN106682208B (zh) 2016-12-30 2016-12-30 基于融合特征筛选与随机森林的微博转发行为预测方法

Publications (2)

Publication Number Publication Date
CN106682208A true CN106682208A (zh) 2017-05-17
CN106682208B CN106682208B (zh) 2020-04-03

Family

ID=58850040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611260965.XA Active CN106682208B (zh) 2016-12-30 2016-12-30 基于融合特征筛选与随机森林的微博转发行为预测方法

Country Status (1)

Country Link
CN (1) CN106682208B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596205A (zh) * 2018-03-20 2018-09-28 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108628936A (zh) * 2018-03-20 2018-10-09 重庆邮电大学 一种结合用户重叠行为的微博重叠社团划分方法
CN109063927A (zh) * 2018-08-28 2018-12-21 成都信息工程大学 一种基于ts-lstm和dnn的微博转发量预测方法
CN109146700A (zh) * 2018-08-14 2019-01-04 西华大学 一种针对社交网络领袖的影响力特征提取方法
CN109818961A (zh) * 2019-01-30 2019-05-28 广东工业大学 一种网络入侵检测方法、装置和设备
CN111898038A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于人机协作的社交媒体假新闻检测方法
CN112362368A (zh) * 2021-01-14 2021-02-12 西门子交通技术(北京)有限公司 列车牵引电机的故障诊断方法、装置、系统和可读介质
CN113592058A (zh) * 2021-07-05 2021-11-02 西安邮电大学 一种定量预测微博转发广度与深度的方法
CN108304324B (zh) * 2018-01-22 2022-07-19 百度在线网络技术(北京)有限公司 测试用例生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
US10275628B2 (en) * 2016-05-27 2019-04-30 Adobe Inc. Feature summarization filter with applications using data analytics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
US10275628B2 (en) * 2016-05-27 2019-04-30 Adobe Inc. Feature summarization filter with applications using data analytics

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谢娟英等: "基于特征子集区分度与支持向量机的特征选择算法", 《计算机学报》 *
赵煜等: "面向不平衡微博数据集的转发行为预测方法", 《计算机应用》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304324B (zh) * 2018-01-22 2022-07-19 百度在线网络技术(北京)有限公司 测试用例生成方法、装置、设备及存储介质
CN108628936B (zh) * 2018-03-20 2021-03-19 重庆邮电大学 一种结合用户重叠行为的微博重叠社团划分方法
CN108628936A (zh) * 2018-03-20 2018-10-09 重庆邮电大学 一种结合用户重叠行为的微博重叠社团划分方法
CN108596205B (zh) * 2018-03-20 2022-02-11 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108596205A (zh) * 2018-03-20 2018-09-28 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN109146700B (zh) * 2018-08-14 2021-11-02 西华大学 一种针对社交网络领袖的影响力特征提取方法
CN109146700A (zh) * 2018-08-14 2019-01-04 西华大学 一种针对社交网络领袖的影响力特征提取方法
CN109063927B (zh) * 2018-08-28 2021-12-07 成都信息工程大学 一种基于ts-lstm和dnn的微博转发量预测方法
CN109063927A (zh) * 2018-08-28 2018-12-21 成都信息工程大学 一种基于ts-lstm和dnn的微博转发量预测方法
CN109818961A (zh) * 2019-01-30 2019-05-28 广东工业大学 一种网络入侵检测方法、装置和设备
CN111898038A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于人机协作的社交媒体假新闻检测方法
CN111898038B (zh) * 2020-07-04 2023-03-14 西北工业大学 一种基于人机协作的社交媒体假新闻检测方法
CN112362368A (zh) * 2021-01-14 2021-02-12 西门子交通技术(北京)有限公司 列车牵引电机的故障诊断方法、装置、系统和可读介质
CN113592058A (zh) * 2021-07-05 2021-11-02 西安邮电大学 一种定量预测微博转发广度与深度的方法
CN113592058B (zh) * 2021-07-05 2024-03-12 西安邮电大学 一种定量预测微博转发广度与深度的方法

Also Published As

Publication number Publication date
CN106682208B (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN106682208A (zh) 基于融合特征筛选与随机森林的微博转发行为预测方法
CN107577688A (zh) 基于媒体信息采集的原创文章影响力分析系统
Yin et al. Structural link analysis and prediction in microblogs
CN107357793A (zh) 信息推荐方法和装置
Aher et al. Comparative study of classification algorithms
Jain et al. A particle swarm optimized learning model of fault classification in Web-Apps
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
Basnet et al. Improving Nepali news recommendation using classification based on LSTM recurrent neural networks
CN107368516A (zh) 一种基于层次聚类的日志审计方法及装置
Naeem et al. Machine learning-based USD/PKR exchange rate forecasting using sentiment analysis of Twitter data
Zheng et al. Deep learning in economics: a systematic and critical review
Narra et al. Selective feature sets based fake news detection for COVID-19 to manage infodemic
Alouffi et al. An optimized hybrid deep learning model to detect COVID-19 misleading information
Gao et al. Popularity prediction in microblogging network
Badi et al. Sentiment analysis and prediction of polarity vaccines based on Twitter data using deep NLP techniques
Kumar et al. Friend Recommendation using graph mining on social media
Billah et al. Rainfall prediction system for Bangladesh using long short-term memory
She et al. Research on advertising click-through rate prediction based on CNN-FM hybrid model
Midhunchakkaravarthy et al. A novel approach for feature fatigue analysis using HMM stemming and adaptive invasive weed optimisation with hybrid firework optimisation method
Domeniconi et al. Learning to predict the stock market dow jones index detecting and mining relevant tweets
Kumar et al. Depression detection in Twitter tweets using machine learning classifiers
Devi et al. Racist tweets-based sentiment analysis using individual and ensemble classifiers
Mulahuwaish et al. Topic modeling based on two-step flow theory: Application to Tweets about bitcoin
Trithipkaiwanpon et al. Sensitivity Analysis of Random Forest Hyperparameters
Babar et al. Real-time fake news detection using big data analytics and deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170517

Assignee: Guilin Hanchen Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000390

Denomination of invention: Prediction method of micro blog forwarding behavior based on fusion feature filtering and random forest

Granted publication date: 20200403

License type: Common License

Record date: 20221226