CN110020374A - 一种发布信息的转发量预测方法和装置 - Google Patents

一种发布信息的转发量预测方法和装置 Download PDF

Info

Publication number
CN110020374A
CN110020374A CN201711458948.1A CN201711458948A CN110020374A CN 110020374 A CN110020374 A CN 110020374A CN 201711458948 A CN201711458948 A CN 201711458948A CN 110020374 A CN110020374 A CN 110020374A
Authority
CN
China
Prior art keywords
information
prediction model
forwarding amount
prediction
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711458948.1A
Other languages
English (en)
Other versions
CN110020374B (zh
Inventor
王晓春
高芳
马军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shanxi Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711458948.1A priority Critical patent/CN110020374B/zh
Publication of CN110020374A publication Critical patent/CN110020374A/zh
Application granted granted Critical
Publication of CN110020374B publication Critical patent/CN110020374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及数据处理技术领域,尤其涉及一种发布信息的转发量预测方法和装置,用于实现提高发布信息转发量的预测准确性。获取预设周期内的发布信息;针对每个发布信息,确定发布信息的特征向量;由于根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型,预测出发布信息的预测转发量;第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的;根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量,修正第一预测模型得到第二预测模型;第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。如此,可以实现提高发布信息转发量的预测准确性。

Description

一种发布信息的转发量预测方法和装置
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种发布信息的转发量预测方法和装置。
背景技术
随着网络技术的发展,社交媒体中微博、腾讯说说等通过转发行为传播信息的发布信息的用户数量越来越多。发布信息作为一种基于用户关系的信息分享、传播平台,产生了海量图片、文字、音视频信息。转发行为是主要的信息传播方式,对于发布信息转发行为的研究可以用于舆情分析、用户兴趣挖掘、以及用于防范网络造谣、网络诈骗等。
现有技术中,通过离线模型预测发布信息转发量,这种离线模型采用离线数据进行离线预测,比如,采用一个月前的发布信息构建转发量预测模型,用来预测当前发布的发布信息的转发量,使用的数据并不是近期的发布信息,预测结果不准确。而且离线模型中的模型结构参数只经过一次训练而成,没有根据发布信息数据的变化或者用户转发行为的变化而适应性变化,难以保证发布信息转发量的预测结果的准确率。
发明内容
本发明实施例提供一种发布信息的转发量预测方法和装置,用以实现提高发布信息转发量的预测准确性。
本发明实施例提供一种发布信息的转发量预测方法,包括:
获取预设周期内的发布信息;
针对所述预设周期内的每个发布信息,确定所述发布信息的特征向量;根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型,预测出所述发布信息的预测转发量;所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的;
根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型;所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。
可选的,所述预设周期内包括N个发布信息;所述根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型,包括:针对所述N个发布信息中每个发布信息,根据所述发布信息的预测转发量和所述发布信息的实际转发量,确定出所述发布信息的预测转发量的预测相对误差;根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差,确定所述预设周期对应的预测转发量的预测相对误差;若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。
可选的,所述若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型,包括:若所述发布信息的预测转发量的预测相对误差大于等于预设阈值,则:针对所述第一预测模型的特征向量的每个特征信息,根据所述特征信息的第一权重和所述特征信息的预设权重,确定出所述预设周期内的所述特征信息的第二权重;将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重,得到所述第二预测模型。
可选的,所述根据所述预设周期内的每个发布信息,确定每个发布信息的特征向量,包括:确定出影响发布信息的转发量的至少一个特征信息;针对所述预设周期内的每个发布信息,执行:根据所述发布信息和所述至少一个特征信息,确定出所述发布信息对应的每个特征信息的特征值;将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值,作为所述发布信息的特征向量。
可选的,在所述获取预设周期内的每个发布信息之前,还包括:获取历史发布信息;确定出所述历史发布信息的特征向量和实际转发量;根据每个历史发布信息的特征向量、实际转发量和向量回归模型,构建初始预测模型;所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。
本发明实施例提供一种发布信息的转发量预测装置,包括:
获取模块,用于获取预设周期内的发布信息;
模型预测模块,用于针对所述预设周期内的每个发布信息,确定所述发布信息的特征向量;根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型,预测出所述发布信息的预测转发量;所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的;
模型修正模块,用于根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型;所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。
可选的,所述模型修正模块,用于:针对所述N个发布信息中每个发布信息,根据所述发布信息的预测转发量和所述发布信息的实际转发量,确定出所述发布信息的预测转发量的预测相对误差;根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差,确定所述预设周期对应的预测转发量的预测相对误差;若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。
可选的,所述模型修正模块,用于:若所述发布信息的预测转发量的预测相对误差大于等于预设阈值,则:针对所述第一预测模型的特征向量的每个特征信息,根据所述特征信息的第一权重和所述特征信息的预设权重,确定出所述预设周期内的所述特征信息的第二权重;将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重,得到所述第二预测模型。
可选的,所述模型预测模块,用于:确定出影响发布信息的转发量的至少一个特征信息;针对所述预设周期内的每个发布信息,执行:根据所述发布信息和所述至少一个特征信息,确定出所述发布信息对应的每个特征信息的特征值;将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值,作为所述发布信息的特征向量。
可选的,还包括模型构建模块,用于:获取历史发布信息;确定出所述历史发布信息的特征向量和实际转发量;根据每个历史发布信息的特征向量、实际转发量和向量回归模型,构建初始预测模型;所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。
本发明实施例中,获取预设周期内的发布信息;针对预设周期内的每个发布信息,确定发布信息的特征向量;由于根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型,预测出发布信息的预测转发量;第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的;根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量,修正第一预测模型得到第二预测模型;第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。因此,每个预测周期内的发布信息的预测转发量是根据该预测周期的前一个预测周期的预测模型预测得到的,而且根据每个预测周期内的预测转发量和实际转发量修正前一个预测周期的预测模型得到该预测周期的预测模型,并用于预测下一个预测周期的发布信息的转发量。如此,本发明实施例中考虑了影响发布信息转发量的因素随着时间变化可能发生动态变化,进而连续、动态的修正每个预测周期的预测模型,得到的用于预测每个预测周期的发布信息的转发量的预测模型都考虑了前一预测周期的转发量情况,进而可以实现提高发布信息转发量的预测准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍。
图1为本发明实施例提供的一种发布信息的转发量预测方法流程示意图;
图2为本发明实施例提供的预测模型构建和修正过程示意图;
图3为本发明实施例提供的转发量预测模型和现有技术中的逻辑回归模型预测转发量的示意图;
图4为本发明实施例提供的一种发布信息的转发量预测装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,发布信息可以为微博,比如国内常用的新浪微博、国外常用的推特(Twitter),发布信息也可以为腾讯说说,也可以为其它具有转发行为特征的信息。由于发布信息的转发量是未知的,而且不同时间的转发量是动态变化的,现有技术中的离线模型很难准确预测出转发量。为了解决如何提高发布信息的预测准确性的问题,通过动态的修正预测模型,采用前一周期的预测模型预测出当前周期的发布信息的转发量。下面对发布信息的转发量预测方法进行详细介绍。
图1示例性示出了本发明实施例提供的一种发布信息的转发量预测方法流程示意图。如图1所示,该方法包括以下步骤:
步骤101:获取预设周期内的发布信息;
步骤102:针对预设周期内的每个发布信息,确定发布信息的特征向量;
步骤103:根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型,预测出发布信息的预测转发量;第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的;
步骤104:根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量,修正第一预测模型得到第二预测模型;第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。
本发明实施例中,获取预设周期内的发布信息;针对预设周期内的每个发布信息,确定发布信息的特征向量;由于根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型,预测出发布信息的预测转发量;第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的;根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量,修正第一预测模型得到第二预测模型;第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。因此,每个预测周期内的发布信息的预测转发量是根据该预测周期的前一个预测周期的预测模型预测得到的,而且根据每个预测周期内的预测转发量和实际转发量修正前一个预测周期的预测模型得到该预测周期的预测模型,并用于预测下一个预测周期的发布信息的转发量。如此,本发明实施例中考虑了影响发布信息转发量的因素随着时间变化可能发生动态变化,进而连续、动态的修正每个预测周期的预测模型,得到的用于预测每个预测周期的发布信息的转发量的预测模型都考虑了前一预测周期的转发量情况,进而可以实现提高发布信息转发量的预测准确性。
上述实施例中,一个预测周期可以根据实际需要进行设置,比如设置为1天,再比如设置为12小时等,本发明对此不进行具体数值的限定。
针对上述预测模型进行修正的具体方式举如下示例。
举个例子,根据历史发布信息训练出初始预测模型,根据n个预测周期的发布信息进行预测模型修正,n个预测周期中的每个预测周期以一天为例,图2示例性示出了本发明实施例提供的预测模型构建和修正过程示意图。
如图2所示,采集第一天的发布信息得到数据D1,采用向量回归模型训练数据D1得到预测模型M1;采集第二天的发布信息得到数据D2,使用数据D2测试预测模型M1,并修正预测模型M1得到预测模型M2;采集第三天的发布信息得到数据D3,使用数据D3测试预测模型M2,并修正预测模型M2得到预测模型M3;依次类推,采集第n+1天的发布信息得到数据Dn+1,使用数据Dn+1测试预测模型Mn,并修正预测模型Mn得到预测模型Mn+1
由于发布信息每个时刻动态变化特征,为了捕捉预测模型每天的演变过程,由图2可见,采用第一天的数据D1进行一次模型构建得到预测模型M1,预测模型M1反应第一天的发布信息的转发量规律;然后使用第二天的数据D2对预测模型M1进行测试并修正,得到了反应第二天的发布信息的转发量规律的预测模型M2,到了第n+1天,就可以得到反应第n+1天的发布信息的转发量规律的预测模型Mn+1,预测模型M1经过n次修正,预测的准确性越来越高。
由于每个预测周期的发布信息的转发量根据该预测周期的前一个预测周期修正的预测模型,因此,在第一预测周期之前,需要构建一个初始预测模型用于预测第一个预测周期内的发布信息的转发量。
可选的,基于上述步骤101,在获取预设周期内的每个发布信息之前,该发布信息的转发量预测方法还包括:获取历史发布信息;确定出历史发布信息的特征向量和实际转发量;根据每个历史发布信息的特征向量、实际转发量和向量回归模型,构建初始预测模型;初始预测模型用于预测第一个预测周期内的发布信息的转发量。
本发明实施例中,历史发布信息的获取方式有多种。一种可选的方式为,历史发布信息可以为第一个预测周期之前的一段时间内的发布信息;另一种可选的方式为,历史发布信息可以为第一个预测周期之前的任一个或任多个预测周期内的发布信息。由于历史发布信息在第一个预测周期之前与第一个预测周期越邻近,根据历史发布信息得到的初始预测模型的预测效果越准确。因此为了提高初始预测模型的预测效果,较佳的,历史发布信息可以为第一个预测周期的前一个预测周期内的发布信息。如此,构建的初始预测模型反映了第一个预测周期的前一个预测周期内的发布信息的特征信息和转发量的规律,也比较接近第一个预测周期内的发布信息的特征信息和转发量的规律,可以更准确的预测第一个预测周期的发布信息的转发量。
下面对如何确定发布信息的特征向量进行详细介绍。
一种实现步骤102的可选的实施例中,根据预设周期内的每个发布信息,确定每个发布信息的特征向量,包括:确定出影响发布信息的转发量的至少一个特征信息;针对预设周期内的每个发布信息,执行:根据发布信息和至少一个特征信息,确定出发布信息对应的每个特征信息的特征值;将至少一个特征信息和发布信息对应的每个特征信息的特征值,作为发布信息的特征向量。
以发布信息为微博为例,为了保证每个微博的转发量的预测准确性,本发明实施例中,通过分析影响微博的转发量的各种因素以及微博的用户特征,确定出影响微博的转发量的特征信息。
可选的,微博对应的特征信息包括:该微博账号累计发布微博数量(特征值为x1)、微博账号注册时间(特征值为x2)、该微博账号登录地点(特征值为x3)、该微博账号关注的微博好友数(特征值为x4),该微博账号被关注的用户数(特征值为x5),本次微博与本用户前一条微博的内容相关性(特征值为x6),本次微博与前一个星期所发微博的内容相关性(特征值为x7),本微博内容与社会热点话的内容相关性(特征值为x8),以往发布原创性微博的数量占微博总量的百分率(特征值为x9),该微博获得点赞的数量(特征值为x10),该微博发布当天是否是节假日(特征值为x11),该微博的内容是否属于销售类(特征值为x12),微博内容是否属于游戏类(特征值为x13),该微博的内容是否属于体育类(特征值为x14),该微博的内容是否属娱乐八卦类(特征值为x15),该微博的内容是否属于投资理财类(特征值为x16),该微博的内容是否属教育类(特征值为x17),该微博的内容是否属于养生保健类(特征值为x18),该微博的内容是否属于旅游类(特征值为x19),该微博的发布的时间是否上午(特征值为x20),该微博的发布时间是否为下午(特征值为x21)该微博的发布时间是否为晚上(特征值为x22),该微博的内容的字符长度(特征值为x23),用户性别(特征值为x24),用户年龄(特征值为x25),用户职业(特征值为x26),用户是否学生(特征值为x27)等。
本发明实施例中,预测模型可以基于多种可反映发布信息的转发量规律的模型进行构建,以下以向量回归模型为例进行构建,根据上述发布信息的特征信息确定出特征向量以及转发量,基于向量回归模型对每个发布信息的特征向量和转发量进行训练,构建预测模型,而构建的预测模型是将发布信息的特征向量和转发量之间建立了映射关系。比如发布信息为微博,以上述特征向量为特征信息对应的27个特征值x1、x2……至x27为例,特征向量与微博的转发量对应的映射关系g=f(x1,x2,x3,…,x27)。
以下介绍构建预测模型的具体过程。
已知训练数据其中X表示输入空间(X=Rd),ε-支持向量回归模型的训练目标是求解一个函数f(x)使得训练数据的预测值y*与真实值y之间的偏差不超过ε。对线性回归来说,函数f(x)=<w,x>+b,x∈X,b∈R,通过该函数来拟合(xi,yi),i=1,2,…l。ε-支持向量回归模型如下公式(1):
约束条件为
如上述公式(1)中,ξi,ξi*是松弛因子,若没有误差则为零。正常数C表示对超出误差ε的样本的惩罚程度。ε-支持向量回归模型求解函数f(x)属于带有约束的最优化问题,常利用拉格朗日对偶性质(Lagrange duality)将原问题转化为对偶问题,具体如下述公式(2)和公式(3):
其中公式(2)和公式(3)中,αi=α12,…,αl得到的线性回归函数表示为下述公式(4):
对于微博转发量预测模型来说,训练数据的{xi}和{yi}(1≤i≤l)分别表示微博的特征信息和微博转发量,经过训练过程二者建立如公式(4)所示的映射函数f(x),当有新的样本出现时可以根据该映射函数预测微博转发量,比如存在性的输入特征向量X=(x1,x2,x3,…,xn),到上述公式(4)中,生成预测转发量。
本发明实施例中,每个预测周期根据该预测周期内的发布信息进行模型修正。本发明实施例提供一种可选的实施方式,预设周期内包括N个发布信息;根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量,修正第一预测模型得到第二预测模型,包括:针对N个发布信息中每个发布信息,根据发布信息的预测转发量和发布信息的实际转发量,确定出发布信息的预测转发量的预测相对误差;根据N个发布信息中每个发布信息的预测转发量的预测相对误差,确定预设周期对应的预测转发量的预测相对误差;若预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。如此,本发明实施例中考虑了影响发布信息转发量的因素随着时间变化可能发生动态变化,进而连续、动态的修正每个预测周期的预测模型;进一步的,根据每个预测周期的预测转发量和实际转发量的预测相对误差,确定是否需要修正前一个周期的预测模型,如此可以更准确的确定每个预测周期的预测模型是否需要修正,进而提高转发量预测精度。
本发明实施例中,预设阈值可以根据实际需要进行设置,本发明对预设阈值的具体值不进行限定;比如预设阈值为3%,再比如预设阈值为5%。上述实施例中,预设周期内的每个发布信息的预测转发量是根据第一预测模型预测的,而该发布信息的实际转发量是根据该预设周期结束后统计转发量获得的。
举个例子,以预设阈值为3%为例,针对预设周期内每个发布信息,若第i个发布信息的预测转发量为yi,实际转发量为y,则第i个发布信息的预测转发量的预测相对误差Rei可采用下述公式(5)进行计算:
比如,第i个发布信息的预测转发量为0.41,实际转发量为0.52,则采用下述公式(5)可计算出Rei为21.2%。
上述实施例中确定预设周期对应的预测转发量的预测相对误差的具体实现方式有多种。以下提供几种可选的实施方式:
第一种可选的实施方式,计算预设周期中的N个发布信息中每个发布信息的预测相对误差,再计算N个发布信息的平均预测相对误差,作为预设周期对应的预测转发量的预测相对误差。如此,可以每个预测周期修正一次预测模型,得到反映一个预测周期内的发布信息的转发量预测模型,进而可以提高预测精度。
第二种可选的实施方式,将预设周期按时间段分为M个时间段,针对每个时间段内的发布信息计算一个平均预测相对误差,M个时间段中的第一个时间段采用预设周期的前一个预测周期的第M个时间段的修正后预测模型进行转发量预测;M个时间段中除第一个时间之外的每个时间段,执行:若该时间段的平均预测相对误差大于等于预设阈值,则调整调整前预测模型的特征向量的每个特征信息的权重,得到该时间段的修正后预测模型;若该时间段的平均预测相对误差小于预设阈值,该时间段的调整后预测模型与该时间段修正前预测模型,该时间段的修正后预测模型作为该时间段的后一个时间段的调整前预测模型。如此,预设周期内的每个时间段修正一次预测模型,相对于第一种可选的实施方式,第二种可选的实施方式中的预测模型修正模型的周期更短,每个时间段内的修正后预测模型更能反映该时间段内的转发量变化规律,对于下一个时间段的发布信息的转发量预测也更准确。
第三种可选的实施方式,采用预设周期的前一个预测周期的修正后预测模型作为第一预测模型,采用第一预测模型预测N个发布信息中的第一个发布信息的预测转发量,若第一个发布信息的预测转发量的预测相对误差大于等于预设阈值,则调整第一预测模型得到第一次修正后预测模型,使用第一次修正后预测模型预测第二个发布信息的转发量;若第一个发布信息的预测转发量的预测相对误差小于预设阈值,则继续使用第一预测模型预测第二个发布信息的转发量;之后,依次类推,针对N个发布信息中除第一个发布信息之外的每个发布信息,执行:若该发布信息的预测转发量的预测相对误差大于等于预设阈值,则调整该发布信息对应的调整前预测模型的特征向量的每个特征信息的权重,得到修正后预测模型;修正前预测模型为根据发布信息的前一个发布信息的修正后预测模型调整权重得到的;N个发布信息中的最后一个发布信息对应的修正后模型为第二预测模型。如此,根据每个发布信息修正一次预测模型,相对于前两种可选的实施方式,第二种可选的实施方式中的预测模型修正模型的周期更短,每个发布信息的修正后预测模型对于下一个发布信息的转发量预测也更准确。
本发明实施例中,在确定出预设周期对应的预测转发量的预测相对误差之后,主要包括两种情况:
第一种情况,预设周期对应的预测转发量的预测相对误差大于等于预设阈值,调整第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。
若发布信息的预测转发量的预测相对误差大于等于预设阈值,则:针对第一预测模型的特征向量的每个特征信息,根据该特征信息的第一权重和该特征信息的预设权重,确定出预设周期内的该特征信息的第二权重;将第一预测模型的特征向量的每个特征信息的第一权重调整为第二权重,得到第二预测模型。
具体实施例中,采用迭代计算的方法,使得每个预测模型的特征向量中的每个特征信息的权重,都在该特征信息的前一次值的基础上变化,如此修正预测模型可以避免个别的噪声数据对模型的破坏,使得预测转发量随着迭代次数的增加而越来越精确。比如,预设阈值为3%,针对每个特征信息,每个调整时刻对该特征信息的权重进行调整,每个时刻的特征信息的权重的调整,是在上一个时刻的该特征信息的权重的基础上进行调整,具体按下述公式(6)进行调整:
其中,为第i个特征信息在t时刻的调整后权重,为第i个特征信息在t时刻的权重,为第i个特征信息在t-1时刻的权重,为0到1之间的数值;如果a=1,那么表示特征信息在t时刻的调整后权重不考虑t-1时刻的权重;如果a为0到1之间的数值,那么表示特征信息在t时刻的调整后权重将在t-1时刻的权重和t时刻的权重之间变化。
举个例子,比如t-1时刻,第i个特征信息的权重为第i个特征信息在t时刻的权重那么第i个特征信息t时刻的权重
第二种情况,预设周期对应的预测转发量的预测相对误差小于预设阈值,不改变第一预测模型的特征向量的每个特征信息的权重,也就是说,第二预测模型即为第一预测模型。
为了更清楚的描述上述过程,本发明实施例提供发布信息以Twitter为例的实施例。
第一步,采集Twitter上的数据,包括以下步骤:
使用开发者账户登录Twitter,通过应用程序编程接口(ApplicationProgramming Interface,简称API)获取Twitter上数据。推特爬虫的API部分负责获取监控用户的推文详细信息与其推文转发详细信息,只有用开发者账户的信息才能成功获取与用API。流式API可以获取监控用户的实时信息(发布推文、删除推文、关注新用户…),流式API用于获取用户的最新的推文。以2017年5月2日至5月8日的内容为Twiter训练数据和测试数据,共计3349212行记录,涉及39842个用户。
第二步,对采集的数据进行预处理:过滤掉不完整的信息、编码转换、广告信息,得到标准化的twitter数据。经过预处理,共有3024412行记录。
第三步,训练和测试数据:以24小时为一个预测周期对指定话题的Twiter进行数据采集,统计指定话题的Twiter在这段时间内的转发量,按照数据到来的先后顺序对转发预测模型训练、测试、修正、测试、修正、如此往复。
第四步,特征重要性分析。通过查看特征信息的重要性,发现以下特征信息相对重要,按照重要性先后顺序:粉丝数、评论数、发布博文总量、发布时间、出生日期等。
第五步,以最后一次的测试结果为准,采用本发明提供的转发量预测模型,如图3中的天气研究与预测模型(Weather Research and Forecasting Model,简称WRF),以及现有技术中的随机森林(random forests,简称RF)模型、逻辑(Logistic)模型(如图3中Logistic模型)对Twiter的转发量进行分别预测,并进行精确度、召回率和F值的比对,其中F值即为精确度和召回率的调和平均值。、。
图3为本发明实施例提供的转发量预测模型与现有技术的模型预测转发量的示意图。如图3所示,本发明的转发量预测方法提供的WRF模型中,预测的精确度为0.909,召回率为0.914,F值为0.912。现有技术中的RF模型中,预测的精确度为0.869,召回率为0.873,F值为0.871。现有技术中的Logistic模型中,预测的精确度为0.75,召回率为0.84,F值为0.792。可见,本发明提供的WRF模型比现有技术中的RF模型和Logistic模型的转发量预测精确度、召回率和F值高,也就是说,本发明提供的WRF模型转发行为有更好、更准确的预测能力。
基于以上实施例以及相同构思,图4为本发明实施例提供的一种发布信息的转发量预测装置结构示意图,该转发量预测装置可以实现如上图1中所示的任一项或任多项对应的方法中的步骤。该转发量预测装置400可以包括获取模块401、模型预测模块402、模型修正模块403;可选的,还可以包括模型构建模块404。
获取模块401,用于获取预设周期内的发布信息;
模型预测模块402,用于针对所述预设周期内的每个发布信息,确定所述发布信息的特征向量;根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型,预测出所述发布信息的预测转发量;所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的;
模型修正模块403,用于根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型;所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。
本发明实施例中,获取预设周期内的发布信息;针对预设周期内的每个发布信息,确定发布信息的特征向量;由于根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型,预测出发布信息的预测转发量;第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的;根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量,修正第一预测模型得到第二预测模型;第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。因此,每个预测周期内的发布信息的预测转发量是根据该预测周期的前一个预测周期的预测模型预测得到的,而且根据每个预测周期内的预测转发量和实际转发量修正前一个预测周期的预测模型得到该预测周期的预测模型,并用于预测下一个预测周期的发布信息的转发量。如此,本发明实施例中考虑了影响发布信息转发量的因素随着时间变化可能发生动态变化,进而连续、动态的修正每个预测周期的预测模型,得到的用于预测每个预测周期的发布信息的转发量的预测模型都考虑了前一预测周期的转发量情况,进而可以实现提高发布信息转发量的预测准确性。
可选的,所述模型修正模块403,用于:针对所述N个发布信息中每个发布信息,根据所述发布信息的预测转发量和所述发布信息的实际转发量,确定出所述发布信息的预测转发量的预测相对误差;根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差,确定所述预设周期对应的预测转发量的预测相对误差;若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。
可选的,所述模型修正模块403,用于:若所述发布信息的预测转发量的预测相对误差大于等于预设阈值,则:针对所述第一预测模型的特征向量的每个特征信息,根据所述特征信息的第一权重和所述特征信息的预设权重,确定出所述预设周期内的所述特征信息的第二权重;将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重,得到所述第二预测模型。
可选的,所述模型预测模块402,用于:确定出影响发布信息的转发量的至少一个特征信息;针对所述预设周期内的每个发布信息,执行:根据所述发布信息和所述至少一个特征信息,确定出所述发布信息对应的每个特征信息的特征值;将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值,作为所述发布信息的特征向量。
可选的,转发量预测装置400还包括模型构建模块404,用于:获取历史发布信息;确定出所述历史发布信息的特征向量和实际转发量;根据每个历史发布信息的特征向量、实际转发量和向量回归模型,构建初始预测模型;所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。
该转发量预测装置400所涉及的与本发明实施例提供的技术方案相关的概念,解释和详细说明及其它步骤请参见前述发布信息的转发量预测方法或其它实施例中关于这些内容的描述,此处不做赘述。
需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在本发明的实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种发布信息的转发量预测方法,其特征在于,包括:
获取预设周期内的发布信息;
针对所述预设周期内的每个发布信息,确定所述发布信息的特征向量;根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型,预测出所述发布信息的预测转发量;所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的;
根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型;所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。
2.如权利要求1所述的方法,其特征在于,所述预设周期内包括N个发布信息;所述根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型,包括:
针对所述N个发布信息中每个发布信息,根据所述发布信息的预测转发量和所述发布信息的实际转发量,确定出所述发布信息的预测转发量的预测相对误差;
根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差,确定所述预设周期对应的预测转发量的预测相对误差;
若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。
3.如权利要求2所述的方法,其特征在于,所述若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型,包括:
若所述发布信息的预测转发量的预测相对误差大于等于预设阈值,则:
针对所述第一预测模型的特征向量的每个特征信息,根据所述特征信息的第一权重和所述特征信息的预设权重,确定出所述预设周期内的所述特征信息的第二权重;
将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重,得到所述第二预测模型。
4.如权利要求1所述的方法,其特征在于,所述根据所述预设周期内的每个发布信息,确定每个发布信息的特征向量,包括:
确定出影响发布信息的转发量的至少一个特征信息;
针对所述预设周期内的每个发布信息,执行:
根据所述发布信息和所述至少一个特征信息,确定出所述发布信息对应的每个特征信息的特征值;
将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值,作为所述发布信息的特征向量。
5.如权利要求1至4中任一权利要求所述的方法,其特征在于,在所述获取预设周期内的每个发布信息之前,还包括:
获取历史发布信息;
确定出所述历史发布信息的特征向量和实际转发量;
根据每个历史发布信息的特征向量、实际转发量和向量回归模型,构建初始预测模型;所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。
6.一种发布信息的转发量预测装置,其特征在于,包括:
获取模块,用于获取预设周期内的发布信息;
模型预测模块,用于针对所述预设周期内的每个发布信息,确定所述发布信息的特征向量;根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型,预测出所述发布信息的预测转发量;所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的;
模型修正模块,用于根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量,修正所述第一预测模型得到第二预测模型;所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。
7.如权利要求6所述的装置,其特征在于,所述模型修正模块,用于:
针对所述N个发布信息中每个发布信息,根据所述发布信息的预测转发量和所述发布信息的实际转发量,确定出所述发布信息的预测转发量的预测相对误差;
根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差,确定所述预设周期对应的预测转发量的预测相对误差;
若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值,则调整所述第一预测模型的特征向量的每个特征信息的权重,得到第二预测模型。
8.如权利要求7所述的装置,其特征在于,所述模型修正模块,用于:
若所述发布信息的预测转发量的预测相对误差大于等于预设阈值,则:
针对所述第一预测模型的特征向量的每个特征信息,根据所述特征信息的第一权重和所述特征信息的预设权重,确定出所述预设周期内的所述特征信息的第二权重;
将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重,得到所述第二预测模型。
9.如权利要求6所述的装置,其特征在于,所述模型预测模块,用于:
确定出影响发布信息的转发量的至少一个特征信息;
针对所述预设周期内的每个发布信息,执行:
根据所述发布信息和所述至少一个特征信息,确定出所述发布信息对应的每个特征信息的特征值;
将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值,作为所述发布信息的特征向量。
10.如权利要求6至9中任一权利要求所述的装置,其特征在于,还包括模型构建模块,用于:
获取历史发布信息;
确定出所述历史发布信息的特征向量和实际转发量;
根据每个历史发布信息的特征向量、实际转发量和向量回归模型,构建初始预测模型;所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。
CN201711458948.1A 2017-12-28 2017-12-28 一种发布信息的转发量预测方法和装置 Active CN110020374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711458948.1A CN110020374B (zh) 2017-12-28 2017-12-28 一种发布信息的转发量预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711458948.1A CN110020374B (zh) 2017-12-28 2017-12-28 一种发布信息的转发量预测方法和装置

Publications (2)

Publication Number Publication Date
CN110020374A true CN110020374A (zh) 2019-07-16
CN110020374B CN110020374B (zh) 2021-06-08

Family

ID=67187125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711458948.1A Active CN110020374B (zh) 2017-12-28 2017-12-28 一种发布信息的转发量预测方法和装置

Country Status (1)

Country Link
CN (1) CN110020374B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874612A (zh) * 2019-10-23 2020-03-10 浙江大搜车软件技术有限公司 时段预测方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394798A (zh) * 2011-11-16 2012-03-28 北京交通大学 一种基于多元特征的微博信息传播行为预测方法及系统
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN104899405A (zh) * 2014-03-04 2015-09-09 携程计算机技术(上海)有限公司 数据预测方法和系统以及报警方法和系统
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
KR20170075312A (ko) * 2015-12-23 2017-07-03 (주) 우림인포텍 전후방향 동향 통합 시계열 예측 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394798A (zh) * 2011-11-16 2012-03-28 北京交通大学 一种基于多元特征的微博信息传播行为预测方法及系统
CN104899405A (zh) * 2014-03-04 2015-09-09 携程计算机技术(上海)有限公司 数据预测方法和系统以及报警方法和系统
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
KR20170075312A (ko) * 2015-12-23 2017-07-03 (주) 우림인포텍 전후방향 동향 통합 시계열 예측 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874612A (zh) * 2019-10-23 2020-03-10 浙江大搜车软件技术有限公司 时段预测方法、装置、计算机设备和存储介质
CN110874612B (zh) * 2019-10-23 2022-09-27 浙江大搜车软件技术有限公司 时段预测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110020374B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
US9252961B2 (en) Identify experts and influencers in a social network
US11068789B2 (en) Dynamic model data facility and automated operational model building and usage
CN110033314B (zh) 广告数据处理方法及装置
CN110781321B (zh) 一种多媒体内容推荐方法及装置
KR101961711B1 (ko) 온라인 소셜 네트워크 내 네트워크-인지 제품 시판
US10313456B2 (en) Multi-stage filtering for recommended user connections on online social networks
CA2881780C (en) System and method for measuring and improving the efficiency of social media campaigns
US10079901B2 (en) Electronic notifications
TW201443811A (zh) 社群媒體影響性評估(一)
WO2014193399A1 (en) Influence score of a brand
US20120226521A1 (en) Utilize Experts and Influencers in a Social Network
US9996852B2 (en) System and method for measuring and improving the efficiency of social media campaigns
JP2017509960A (ja) コンテンツ推奨のための方法、装置およびシステム
US20150324844A1 (en) Advertising marketplace systems and methods
CN113656681B (zh) 一种对象评价方法、装置、设备及存储介质
CN111783810A (zh) 用于确定用户的属性信息的方法和装置
CN110766184A (zh) 订单量预测方法和装置
US20230011954A1 (en) Device, method, and system for business plan management
CN110020374B (zh) 一种发布信息的转发量预测方法和装置
CN110781929B (zh) 信用预测模型的训练方法、预测方法及装置、介质和设备
CN116992265A (zh) 碳排放量估算方法、装置、设备和存储介质
WO2021061798A1 (en) Methods and apparatus to train a machine learning model
US11811615B1 (en) Systems and methods for dynamic modification of events based on bandwidth availability
US20240248956A1 (en) Systems and methods for label quality assurance using consistency scores
CN115037655A (zh) 压测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant