CN108876058B - 一种基于微博的新闻事件影响力预测方法 - Google Patents

一种基于微博的新闻事件影响力预测方法 Download PDF

Info

Publication number
CN108876058B
CN108876058B CN201810839521.4A CN201810839521A CN108876058B CN 108876058 B CN108876058 B CN 108876058B CN 201810839521 A CN201810839521 A CN 201810839521A CN 108876058 B CN108876058 B CN 108876058B
Authority
CN
China
Prior art keywords
event
microblog
influence
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810839521.4A
Other languages
English (en)
Other versions
CN108876058A (zh
Inventor
黄圣君
唐英鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201810839521.4A priority Critical patent/CN108876058B/zh
Publication of CN108876058A publication Critical patent/CN108876058A/zh
Application granted granted Critical
Publication of CN108876058B publication Critical patent/CN108876058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于微博的新闻事件影响力预测方法,首先,获取足量新闻事件微博数据提取特征并计算影响力以训练预测模型f(x);其次,当预测模型训练好后,根据输入的新事件关键词p与事件发生日期获取早期微博讨论数据Tp;然后,从获得早期数据Tp中提取特征xp;最后,将新样本的特征向量xp输入训练好的模型中得到其未来影响力的预测值f(xp)。采用本发明对新闻事件影响力的计算更加合理、全面,能够提升对网络内容的预测精度,预测效果更好。

Description

一种基于微博的新闻事件影响力预测方法
技术领域
本发明属于机器学习技术领域,具体涉及一种基于微博的新闻事件影响力预测方法。
背景技术
新闻事件反映了社会的方方面面,从人民群众的心愿,呼声到国家政策方针,发展规划,乃至世界上的重大事件都由新闻来传播。新闻作为一个权威,客观的消息传播媒体,其传播的信息对社会有重大影响力,对国家来说,新闻具有舆论引导,维护社会安定的作用,对构建和谐社会起了关键作用。预测新闻事件的影响力是一个重要的任务,能在事件发生早期就发现该事件最终的影响力,就可尽早判断舆情发展走向,引导舆论,以便适时作出应对策略上的调整。同时该发明不仅能与新闻内容结合提供更可信的决策支持,且对于政府的舆情监控、企业的危机公关、投资机构的投资决策都有重要的意义。
评价一个新闻事件的影响力是困难的,需要多位资深专家才能给出较为客观地评价,社交网络上的数据尽管粗糙,但随着社交网络的普及,用户对新闻事件的讨论情况能够较好地量化为计算影响力的指标,本发明拟从社交网络数据中挖掘出新闻事件的影响力,社交网络中大量的新闻数据也为研究新闻影响力预测提供了很好的数据源。使用传统的流行度度量方法来代表影响力是不全面的,有些事件因为其本身更有趣,所以会更热门,但是真正具有影响力的事件不止于此,新闻事件本身不同于娱乐报道,由于新闻实事求是,客观公正,这使得其讨论通常低于娱乐性的新闻,若只考虑流行度作为新闻的影响力显然是不全面的,应该考虑多方面的因素来计算影响力的分值。其次,由于社交网络的复杂性,传统的基于早期流行度的预测方法可能并不适用于社交网络的背景,信息在社交网络上的传播与其他环境下大不相同。
发明内容
发明目的:本发明提供一种计算更加合理、全面,能够提升对网络内容的预测精度,预测效果更好的基于微博的新闻事件影响力预测方法。
技术方案:本发明所述的一种基于微博的新闻事件影响力预测方法,包括以下步骤:
(1)获取足量新闻事件微博数据提取特征并计算影响力以训练预测模型 f(x);
(2)预测模型训练好后,根据输入的新事件关键词p与事件发生日期获取早期微博讨论数据Tp
(3)从获得早期数据Tp中提取特征xp
(4)将新样本的特征向量xp输入训练好的模型中得到其未来影响力的预测值f(xp)。
步骤(1)所述的数据主要包括每个过去事件k自发生起N天的热门微博Hk与自事件发生日期起,前E天的早期微博Tk
所述步骤(1)包括以下步骤:
(11)利用事件的热门微博Hk来计算影响力Ik
Figure GDA0003007131680000021
其中,Hk是与事件k相关的,自事件发生起N天内的所有热门微博的集合,对于其中的每一条微博m,α1,α2,α3分别是转发数rm,评论数cm,点赞数lm的系数,h(·)是关于发布者与热门转发用户的粉丝数fm的函数;
(12)通过按时间排序的早期微博讨论数据Tk提取得到的特征xk
Figure GDA0003007131680000022
其中,
Figure GDA0003007131680000023
为每个事件的相关原创微博数的时间序列,
Figure GDA0003007131680000024
为微博讨论热度趋势的特征,
Figure GDA0003007131680000025
为每个事件发生时间的One-Hot编码,
Figure GDA0003007131680000026
为每小时内的微博数中博主加V用户的数量,
Figure GDA0003007131680000027
为事件发生当天和第二天的所有相关微博数量,
Figure GDA0003007131680000028
为基于微博文本内容的特征;
(13)使用步骤(1)得到的数据来训练支持向量回归模型,得到一个函数f(·) 使得对模型输入事件的早期讨论数据特征xk,所得到的输出f(xk)能够尽可能地逼近计算得到的未来的影响力大小Ik
所述步骤(13)通过以下式子实现:
f(x)=wTx+b
Figure GDA0003007131680000031
Figure GDA0003007131680000032
其中,w、b、ε和C都为模型的参数,xi为提取得到的特征向量,yi为样本对应的影响力,ξ为松弛变量。
有益效果:与现有技术相比,本发明的有益效果:1、本发明考虑了社交网络中综合性的指标来计算新闻事件的影响力,更加合理、全面;2、本发明从早期微博上对事件的讨论情况提取特征,包括前期事件相关微博的时间序列数据,讨论的趋势变化特征(KSC)、事件的发生时间、讨论者的情况,微博正文的特征等,并在社交网络的环境下进行的预测工作,加入的社交网络数据能够提升对网络内容的预测精度;3、本发明使用支持向量回归模型对时间序列的数据进行预测,效果更好。
附图说明
图1为本发明流程图;
图2为网络爬虫的流程图;
图3为训练模型的流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
图1为本发明的流程图,包括以下步骤:
基于微博的新闻事件影响力预测方法,包括以下步骤:
1、获取足量新闻事件微博数据提取特征并计算影响力以训练模型f(x)
数据获取方面可以通过编写网页爬虫将微博网页的源代码爬到本地。实现网页爬虫的形式不限,只需得到需要的信息即可。例如,爬取社交网络数据,首先需要模拟登录。在登录后利用获得的cookie与微博服务器进行通信:即写代码将关键词进行URL编码并带上一些参数,模拟浏览器向微博服务器发送http请求,就能得到该关键词相关的微博数据。
数据获取包括每个事件k自发生起N天内的热门微博Hk与自事件发生日期起,前E天的早期微博Tk,其中N>>E。本实施方式中,N=30,E=1。因此对于训练用的事件k,必须发生过后至少30天才可获取到Hk并计算其影响力大小。热门微博是微博平台首先过滤了大部分质量不高的,互动的人少的微博,返回给用户评论转发数相对较多的,内容更优质的原创微博。这部分数据可通过在使用爬虫进行微博搜索时设置检索内容的起止时间以及约束条件(如:将http请求字符串中“热门”选项参数设为1)来完成。对于自事件发生日期起,前E天的早期微博Tk,这部分数据可以设置检索微博的起止时间以及“按时间排序”和“原创”选项开关设为1即可得到按倒序排列的时间段内的原创微博数据。本发明利用事件的热门微博Hk来计算影响力Ik,然后通过按时间排序的原创微博Tk提取特征xk来训练模型以预测新事件的影响力f(xk)。对于本实施方案所使用的网络爬虫可参考附图2。
图2为网络爬虫流程图。本实施方式中,每次启动爬虫首先会检测本地存储的cookie是否过期,即带上本地cookie发送一次http请求,若返回的网页源代码为:File notfound则代表过期。若过期则重新模拟登录得到新的cookie,并更新本地cookie,模拟登录的源代码有若干开源代码实现。随后通过拼接URL 字符串,带上相关条件参数,如微博起止时间,热门过滤开关等和有效的cookie 和http头部,向weibo.cn发起请求,就能获取到指定条件的微博网页源代码。本实施方案使用了Python的session模块来实现该功能,可以调用session的 get方法,参数为URL地址和指定的http头部,该方法会自动带上cookie,每次更新cookie可以用Python的pickle模块将整个session对象以二进制的方式存成文件,下次读取文件直接调用get方法会自动带上存储的cookie。获取得到的网页源代码数据包括:每条微博的博主昵称,博主主页URL,博主头像,博主是否是VIP,是否有V认证,微博正文,微博转发,评论,点赞数以及对应的列表URL(可查看所有评论等),微博带的图片URL,发布时间,发布平台(PC/ 移动端)。本实施方案使用Python的BeautifulSoup库解析网页源代码,将每一条微博的各个字段提取出来,如博主信息,转发量,微博正文等,并将对应字段存入数据库。由于网站有许多反爬虫手段,例如返回空数据,假数据,封锁ip等等,因此需要判断返回的数据是否真实,若判断数据为正常,则将获得的数据存入本地,否则等待几秒后重新发送请求重试。关于检测数据是否正常可通过检查数据的格式是否满足正常微博网页的格式,如每一页8-10条微博,每条微博字段是否齐全等,这一步可判断出除了假数据以外的情况,对于假数据可记录每次返回数据得到的所有微博条数是否变化,以及通过更换账号和IP多次请求来解决,本次的请求数据解析完毕后判断是否收集完所有数据,若没有则进入下一轮循环。
本发明通过考虑微博多方面的特征,综合地评价一个新闻事件的影响力。对于事件k,其最终的影响力为:
Figure GDA0003007131680000051
其中,Hk是与事件k相关的,自事件发生起30天内的所有热门微博的集合, |Hk|为集合内元素的个数。对于其中的每一条微博m,α1,α2,α3分别是转发数rm,评论数cm,点赞数lm的系数,h(·)是关于发布者与热门转发用户的粉丝数fm的函数,具体形式为粉丝数除以12000,上限500,这是因为一些新闻媒体公众号粉丝数过多,不设置上限会使得该项分数过大。系数是为了不让某一项主导影响力评分。本发明将计算的影响力事件排名与中央人民广播电台发布的最具影响力新闻事件进行对比,取α1=5,α2=4,α3=3。通过爬虫得到特定的原始微博数据后,可以用正则表达式或其他的工具,如Python的BeautifulSoup库来从中解析提取所需要的字段信息(转发量,粉丝数等),即可通过上述公式计算得到事件的影响力大小。
对于按时间排序的原创微博Tk的特征提取方法,本发明从按时间排序的自事件发生起24小时内的原创微博Tk提取了以下特征:
(1)每个事件的相关原创微博数的时间序列
Figure GDA0003007131680000052
本发明使用自事件发生起24小时内的早期微博数据。即在事件发生24小时就能给出其未来最终的影响力预测。这部分特征可以将Tk中的所有微博发送时间做直方图统计,区间大小为 1小时,仅统计距离最早一条相关微博的时间小于24小时的微博数。如 (23,247,104,...,66,65,44)代表事件发生后的1小时内有23条相关微博,第1 至2小时内有247条,以此类推。
(2)每个事件发生的星期几和几点钟的One-Hot编码,记为
Figure GDA0003007131680000053
该组特征将事件的发生时间用一个稀疏向量表示,例如某事件发生在星期三上午10点,则他对应的星期编码为(0,0,1,0,0,0,0),几点钟同理。
(3)每个事件的讨论热度趋势的特征
Figure GDA0003007131680000061
本实施方式利用K SpectralCentroid Clustering(KSC)聚类算法对所有事件的时间序列进行聚类,得到K 个聚类中心。对于每一个新闻事件的时间序列
Figure GDA0003007131680000062
计算其到每个聚类中心的距离即可得到其趋势的特征。具体来说,KSC聚类算法能将趋势变化相同的两条曲线聚为一类,即对时间序列中的项进行循环位移和等比放缩时,仍然会与变化前的曲线聚为一类。该聚类算法的距离定义为:
Figure GDA0003007131680000063
距离计算的公式中,sd′(q)是对时间序列sd′的时间轴位移q个单位的操作, ||·||是L2范数。对于一个固定的q,u通过求解dist的最小值可以得到闭式解:
Figure GDA0003007131680000064
然而该算法没有一种简单的方法来计算得到位移参数q,因此,本实施方式实现KSC的时候考虑了所有q的可能取值来找到最佳的q。KSC算法的实现可在提出的论文中找到源代码URL。对于每一个新闻事件的时间序列,计算其到每个聚类中心的距离作为其趋势的特征,这样,对于每一个样本都有K 维代表趋势的特征
Figure GDA0003007131680000065
(4)每个事件的加V博主数时间序列
Figure GDA0003007131680000066
如在事件发生的头一小时中有 200条原创微博,其中博主是加V用户发出的共有20条,则该向量的第一维是 20,以此类推。
(5)每个事件发生当天和第二天的所有相关微博数量
Figure GDA0003007131680000067
例如,事件发生当天共有5000条相关微博,则该向量的第一维是5000,以此类推。
(6)每个事件的基于微博文本内容的特征
Figure GDA0003007131680000068
本实施方式利用doc2vec 算法提取基于文本的特征。该算法能从变长的文本提取得到定长的向量特征,且向量长度可自由设定。算法实质上是使用了一个三层的神经网络模型。训练时,采用的Distributed Memory方法会随机地以一个固定大小的滑动窗口在随机选择的句子中进行采样,如使用一个句子中的前三个词与其出现的文档编号paragraph_id(当作一个词)作为模型的输入x,紧接着的下一个词作为其对应的y值。其中,每个词都被表示为一个定长的向量,这些向量实际上是网络连接层的权值,在初始化时,向量被随机赋值,经过大量的训练后,这些向量被优化成有助于模型预测的值。可以看出,这个模型本质上是用在给定语境下预测下一个出现的词,而副产物得到的对文档的特征考虑了词序以及上下文的因素,因此用该模型提取的文本特征做进一步的机器学习任务时效果会比传统方法好。本实施方式将每一个事件的所有微博拼合在一起作为一篇paragraph,并将词向量长度设为500,利用步骤1获得的训练数据来训练doc2vec模型,随后利用该模型提取新事件的文本特征。doc2vec方法在若干工具包有开源实现,例如Python 的gensim库。
综上所述,本发明的特征可以表示为:
Figure GDA0003007131680000071
通过热门微博Hk计算每个事件k的影响力大小Ik,以及通过按时间排序的原创微博Tk提取得到的特征xk,本发明使用这部分数据来训练支持向量回归模型来找到一个函数f(·)使得对模型输入事件的早期讨论数据特征xk,所得到的输出 f(xk)能够尽可能地逼近计算得到的未来的影响力大小Ik
图3所示为训练模型的流程图。初始有事件关键词集合K与用于训练的样本集合X。X是一个集合,其中每一个元素是一个元组:具体为每一个事件的特征向量与其对应的影响力大小(xk,Ik);遍历集合K来获取所有事件的微博数据,对于每个事件k,获取每个事件k自发生起30天内的热门微博Hk,以及事件发生当天起,按时间排序的2天内的与事件相关的原创微博数据Tk;利用事件的热门微博Hk通过上述的方法来计算影响力Ik;通过按时间排序的原创微博Tk按上述的方法提取特征xk,就能得到事件k的样本(xk,Ik);将获得的新样本添加进训练集合 X同时开始下一轮的数据获取工作。当所有事件的数据都已经获取完毕,使用X来训练支持向量回归模型。
支持向量回归是基于支持向量机来进行回归的一种算法,其函数形式为 f(x)=wTx+b,为了得到参数w和b的值,可以优化下面的目标:
Figure GDA0003007131680000072
Figure GDA0003007131680000081
参数w、b通过优化上述式子得到,参数C、ε通过划分验证集进行选择,优化问题中,函数的目标是找到一组参数w、b使得所有的样本xi的预测值距离其计算得到的影响力yi越小越好,并至多有ε的偏移,同时保证模型不至于太复杂,参数C平衡了模型复杂度与训练误差。换句话说,距离分界面小于ε的样本损失为0,不允许有偏移大于该值的样本,为了应对有样本无论如何都会在ε范围外的情况,本发明应用了软间隔损失函数,即加入松弛变量ξ,通过加入该变量,使得优化问题允许样本在ε范围外,但超出的值应越小越好。经过多次实验,推荐将C设置为0.5,ε设置为0.1,核函数使用RBF核,核函数的参数γ使用
Figure GDA0003007131680000082
该训练算法在多个开源工具包中均有实现,如Python的sklearn库。经过训练后,参数w和b的值固定,当给定新的xp向量,计算f(xp)来得到其对应的影响力预测值。
2、模型训练好后,根据输入的新事件关键词p与事件发生日期获取微博早期讨论数据Tp。获取关键词p的微博早期讨论数据Tp均与训练模型时,对事件k所使用的方法相同。
3、从输入关键词的早期数据Tp中提取特征xp的步骤与训练模型时所使用的方法相同。
4、将新样本的特征向量xp输入训练好的模型中得到其未来影响力的预测值 f(xp)。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于微博的新闻事件影响力预测方法,其特征在于,包括以下步骤:
(1)获取足量新闻事件微博数据提取特征并计算影响力以训练预测模型f(x);
(2)预测模型训练好后,根据输入的新事件关键词p与事件发生日期获取早期微博讨论数据Tp
(3)从获得早期数据Tp中提取特征xp
(4)将新样本的特征向量xp输入训练好的模型中得到其未来影响力的预测值f(xp);
所述步骤(1)包括以下步骤:
(11)利用事件的热门微博Hk来计算影响力Ik
Figure FDA0003007131670000011
其中,Hk是与事件k相关的,自事件发生起N天内的所有热门微博的集合,对于其中的每一条微博m,α1,α2,α3分别是转发数rm,评论数cm,点赞数lm的系数,h(·)是关于发布者与热门转发用户的粉丝数fm的函数;
(12)通过按时间排序的早期微博讨论数据Tk提取得到的特征xk
Figure FDA0003007131670000012
其中,
Figure FDA0003007131670000013
为每个事件的相关原创微博数的时间序列,
Figure FDA0003007131670000014
为微博讨论热度趋势的特征,
Figure FDA0003007131670000015
为每个事件发生时间的0ne-Hot编码,
Figure FDA0003007131670000016
为每小时内的微博数中博主加V用户的数量,
Figure FDA0003007131670000017
为事件发生当天和第二天的所有相关微博数量,
Figure FDA0003007131670000018
为基于微博文本内容的特征;
(13)使用步骤(1)得到的数据来训练支持向量回归模型,得到一个函数f(·)使得对模型输入事件的早期讨论数据特征xk,所得到的输出f(xk)能够尽可能地逼近计算得到的未来的影响力大小Ik
2.根据权利要求1所述的一种基于微博的新闻事件影响力预测方法,其特征在于,步骤(1)所述的数据主要包括每个过去事件k自发生起N天的热门微博Hk与自事件发生日期起,前E天的早期微博Tk
3.根据权利要求1所述的一种基于微博的新闻事件影响力预测方法,其特征在于,所述步骤(13)通过以下式子实现:
f(x)=wTx+b
Figure FDA0003007131670000021
Figure FDA0003007131670000022
其中,w、b、ε和C都为模型的参数,xi为提取得到的特征向量,yi为样本对应的影响力,ξ为松弛变量。
CN201810839521.4A 2018-07-27 2018-07-27 一种基于微博的新闻事件影响力预测方法 Active CN108876058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810839521.4A CN108876058B (zh) 2018-07-27 2018-07-27 一种基于微博的新闻事件影响力预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810839521.4A CN108876058B (zh) 2018-07-27 2018-07-27 一种基于微博的新闻事件影响力预测方法

Publications (2)

Publication Number Publication Date
CN108876058A CN108876058A (zh) 2018-11-23
CN108876058B true CN108876058B (zh) 2021-07-27

Family

ID=64305988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810839521.4A Active CN108876058B (zh) 2018-07-27 2018-07-27 一种基于微博的新闻事件影响力预测方法

Country Status (1)

Country Link
CN (1) CN108876058B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035068B (zh) * 2019-03-14 2021-10-01 微梦创科网络科技(中国)有限公司 一种反抓站系统的禁封方法及装置
CN111222051B (zh) * 2020-01-16 2023-09-12 深圳市华海同创科技有限公司 一种趋势预测模型的训练方法及装置
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN111552882B (zh) * 2020-05-09 2022-07-01 重庆邮电大学 一种新闻影响力计算方法、装置、计算机设备及存储介质
CN113190733B (zh) * 2021-04-27 2023-09-12 中国科学院计算技术研究所 基于多平台的网络事件流行度预测方法与系统
CN113191624A (zh) * 2021-04-28 2021-07-30 上海核工程研究设计院有限公司 一种用于核电设计研发的工作量预估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6338066B1 (en) * 1998-09-25 2002-01-08 International Business Machines Corporation Surfaid predictor: web-based system for predicting surfer behavior
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6338066B1 (en) * 1998-09-25 2002-01-08 International Business Machines Corporation Surfaid predictor: web-based system for predicting surfer behavior
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及系统

Also Published As

Publication number Publication date
CN108876058A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108876058B (zh) 一种基于微博的新闻事件影响力预测方法
Okura et al. Embedding-based news recommendation for millions of users
US9449271B2 (en) Classifying resources using a deep network
Zhao et al. Connecting social media to e-commerce: Cold-start product recommendation using microblogging information
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN107862022B (zh) 文化资源推荐系统
US8255414B2 (en) Search assist powered by session analysis
CN107784066A (zh) 信息推荐方法、装置、服务器及存储介质
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN111709052B (zh) 一种隐私数据识别和处理方法、装置、设备和可读介质
CN102667761A (zh) 可扩展的集群数据库
CN103577504A (zh) 一种投放个性化内容的方法和装置
CN112734104B (zh) 一种融合生成对抗网络和自编码器的跨域推荐方法
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN110209921B (zh) 媒体资源的推送方法和装置、以及存储介质和电子装置
CN107368499B (zh) 一种客户标签建模及推荐方法及装置
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN105447148B (zh) 一种Cookie标识关联方法及装置
Pavlo et al. A sentiment and emotion annotated dataset for bitcoin price forecasting based on reddit posts
CN101655853A (zh) 建立模型的装置和方法
WO2008131698A1 (fr) Procédé de recherche d'informations et dispositif correspondant
CN111310453A (zh) 一种基于深度学习的用户主题向量化表示方法和系统
CN112231547A (zh) 一种基于知识图谱的内容推荐方法和系统
CN117033751A (zh) 推荐信息处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant