CN111666486B - 热度值获取方法及装置 - Google Patents
热度值获取方法及装置 Download PDFInfo
- Publication number
- CN111666486B CN111666486B CN201910172723.2A CN201910172723A CN111666486B CN 111666486 B CN111666486 B CN 111666486B CN 201910172723 A CN201910172723 A CN 201910172723A CN 111666486 B CN111666486 B CN 111666486B
- Authority
- CN
- China
- Prior art keywords
- information
- candidate information
- reading
- reading time
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000000875 corresponding effect Effects 0.000 claims description 175
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 17
- 230000006399 behavior Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 235000019633 pungent taste Nutrition 0.000 description 5
- 230000001747 exhibiting effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供了热度值获取方法及装置,同时考虑了表征候选信息的点击率的第一参数及候选信息的阅读时长,即候选信息的点击率越大且候选信息的阅读时长越长,候选信息的热度值越大,候选信息的排序可能越靠前。若候选信息的点击率较大,但是候选信息的阅读时长较小,候选信息的热度值不一定较大,候选信息的排序可能不是很靠前,避免了由于对象误点击候选信息,导致候选信息的点击率变大的情况的干扰。
Description
技术领域
本发明涉及信息推荐技术领域,更具体的说,是涉及热度值获取方法及装置。
背景技术
随着互联网技术的发展,数以百万计的信息能够借由互联网被推送给对象,例如,对象阅读新闻客户端时,新闻客户端向对象推荐热门新闻;或者,对象观看视频客户端时,视频客户端向对象推荐热门视频;或者,对象观看股票客户端时,股票客户端向对象推荐资讯。
现有的信息推荐方法是基于点击率进行推荐,即通过统计一段时间内对象对信息的点击率,对信息进行排序,将排序后的信息推荐给对象。即将信息的点击率作为信息的热度值,信息的点击率是指该信息的点击量与展现量之比,基于信息的点击率排序的结果有时并不能反应对象阅读信息的真实情况,例如,若对象并不想阅读该信息,但是误点击该信息,尽管对象可能立即退出阅读该信息,也会导致该信息对应的点击率提高。
综上,本领域需要提供一种能够体现对象阅读信息的真实情况的热度值
发明内容
有鉴于此,本发明提供了一种热度值获取方法及装置。
为实现上述目的,本发明提供如下技术方案:
一种热度值获取方法,包括:
获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
获取所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
一种热度值获取装置,包括:
第一获取模块,用于获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
第二获取模块,用于获取所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
第三获取模块,用于基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
经由上述的技术方案可知,与现有技术相比,本申请实施例提供的热度值获取方法,同时考虑了表征候选信息的点击率的第一参数及候选信息的阅读时长,即候选信息的点击率越大且候选信息的阅读时长越长,候选信息的热度值越大,候选信息的排序可能越靠前。若候选信息的点击率较大,但是候选信息的阅读时长较小,候选信息的热度值不一定较大,候选信息的排序可能不是很靠前,避免了由于对象误点击候选信息,导致候选信息的点击率变大的情况的干扰。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示例了由服务器和终端所构成的硬件环境示意图;
图2为本申请实施例公开的一种热度值获取方法流程图;
图3示例了基于多个历史信息分别对应的阅读时长构建累积分布函数示意图;
图4a-4b示例了基于多个历史信息分别对应的字数和阅读时长构建拟合函数曲线的过程示意图;
图5示例了热度值获取方法的一种具体实现方式的流程图;
图6为本申请实施例提供的一种热度值获取装置结构示意图;
图7为本申请实施例提供的一种热度值获取设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了热度值获取方法及装置。上述热度值获取装置可包括运行于终端中的热度值获取装置和运行于后台服务器/平台中的热度值获取装置。
上述终端可以是诸如台式机、移动终端(例如智能手机)、ipad等电子设备。在一个示例中,运行于终端中的热度值获取装置可为运行在终端中的客户端,例如新闻客户端或视频客户端或股票客户端。该客户端可以是应用程序客户端,也可以是网页客户端。
运行于后台服务器/平台中的热度值获取装置可为服务器/平台的一个硬件组成部分,也可为功能模块或组件。
上述后台服务器或平台可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
本申请中的信息可以包括以下任一种:视频、资讯、图片、广告、新闻。
在一可选实施例中,上述热度值获取方法可以应用于图1所示的由服务器101和终端102所构成的硬件环境中。如图1所示,服务器101通过网络与终端102进行连接。该网络包括但不限于:广域网、城域网或局域网。
服务器101可以用于为终端或终端上安装的客户端提供服务(例如游戏服务、应用服务、通讯服务或内容服务等),在服务器101提供服务情况下,对象可以基于终端102或终端上安装的客户端享受相应的服务,例如,玩游戏、与朋友进行通信、浏览新闻或咨询或广告或视频等信息。
对象可以在终端102或终端上安装的客户端浏览信息或者点击进入某个信息;终端根据对象浏览信息的行为获得对象行为信息,并上传至服务器101。
可选的,对象行为数据包括以下至少一种:信息的点击率、信息的点击量、信息的展现量、信息的阅读时长。
可选的,可以在服务器101上或独立于服务器101设置数据库103。数据库103用于存储数据,例如存储至少一个对象针对至少一个信息的对象行为数据。
服务器101可以至少基于表征信息的点击率的第一参数以及信息的阅读时长权重得到信息的热度值。服务器101可以基于各信息的热度值对信息进行排序,可选的服务器101可以向终端102或终端102上安装的客户端推荐排序后的信息,以供对象浏览;可选的,服务器101可以基于各信息的热度值对信息进行粗排召回,然后再基于粗排召回的结果进行精排个性化排序,然后将精排个性化排序的结果推荐给终端102或终端102上安装的客户端,以供对象浏览。
下面对粗排召回和精排个性化排序进行说明。
粗排召回是指基于海量的信息的热度值,对海量信息进行排序;精排个性化排序是指从粗排召回的排序结果取前L名(L为大于或等于1的正整数),使用较复杂的排序模型和特征对前L名信息进行排序。例如,对前L名信息基于对象的偏好信息,进行排序,以得精排个性化的排序结果;可以理解的是,不同对象前L名的排序结果可能不同。
可选的,对象的偏好信息可以包括对象点击信息的种类。信息的种类可以包括下列任一种:婚姻类、股票类、犯罪类等等。
综上,由于粗排召回减小了精排个性化排序的信息量(仅前L名信息,不是海量信息),所以缩小了精排个性化的计算量。
在一可选实施例中,假设服务器101直接向终端102或终端102上安装的客户端推荐基于各信息的热度值对信息进行排序的结果,假设排序的结果为:信息1、信息2、信息3、信息4等等,可以如图1所示。
可以理解的是,由于终端102的显示屏的显示区域有限,可选的,可能一次可以显示部分信息,对象可以通过滑动显示屏查看排序靠后的信息。
图1是以罗列的方式展示信息的,可选的,本申请并不对信息的展示方式进行限定,可选的,一页(可以将显示屏的显示区域称为一页)显示一个信息,对象可以通过向左滑或右滑或上滑或下滑的方式查看另一信息。
目前的信息推荐方法为:统计一段时间内对象点击信息的次数(即点击量)与展示该信息的次数(即展现量)之比,即通过统计一段时间内对象对信息的点击率,并基于点击率对信息进行排序,进而将排序后的信息推荐给对象,这里的对信息的点击率即作为信息的热度值。
在上述方法中,基于信息的点击率,对信息进行排序,可以有效为对象推荐其更感兴趣的信息。但是上述方法存在以下缺点:由于该方法仅依靠对象对信息的点击率对信息进行排序,而未考虑对象阅读该信息的时长,从而在对象误点击信息的情况下使得对该信息的点击率提高,导致该信息的排序靠前。
综上,目前的信息推荐方法得到的信息的排序结果不可靠,信息推荐效果较差。接下来,结合附图1对本申请提出的热度值获取方法进行介绍。
如图2所示,为本申请实施例提供的热度值获取方法的一种实现方式的流程图,该方法可以包括:
步骤S200,获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率。
可选的,本申请实施例中候选信息为待排序的信息。
可选的,多个对象可以基于终端102或终端102上安装的客户端浏览信息,终端102或终端102上安装的客户端可以将不同对象针对信息的对象行为数据上传至服务器101。服务器101可以将对象行为数据存储在数据库103中。
可选的,服务器101可以直接从数据库103中获得候选信息的点击率,以得到第一参数。
在一可选实施例中,候选信息的第一参数即为候选信息的点击率。
点击率是指候选信息的点击量与展现量之比。例如,在一段时间内,至少一个对象对候选信息的总的点击量为6次,终端102或终端102上安装的客户端展示候选信息总的展现量为10次,则候选信息的点击率为0.6。
步骤S210,获取所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关。
本步骤可以基于候选信息的阅读时长,为其分配合理的阅读时长权重,以便基于阅读时长权重及第一参数得到更优的排序结果。这里的合理的阅读时长权重可以与阅读时长呈正相关,即阅读时长越长,阅读时长权重相对越大;阅读时长越短,阅读时长权重相对越小。
步骤S220,基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
可选的,候选信息的热度值可以反映一个或多个对象对候选信息感兴趣的程度,其中候选信息的热度值越大,一个或多个对象对该候选信息可能越感兴趣;同理,候选信息的热度值越小,一个或多个对象对该候选信息可能越不感兴趣。基于此,可以基于多个候选信息的热度值对候选信息进行排序,从而更好地为对象推荐其可能更感兴趣的信息。
可选的,本步骤可以基于第一参数以及阅读时长权重,获取候选信息的热度值。可选的,候选信息的点击率越高,得到的热度值可能越高;候选信息的阅读时长越长,即阅读时长权重越大,得到的热度值可能越高。
在一可选实施例中,步骤S220包括:基于所述候选信息的第一参数、阅读时长权重以及时长权重参数,获取所述候选信息的热度值;所述时长权重参数为大于0小于或等于1的正整数。
时长权重参数可以基于实际应用场景进行设置,阅读时长权重和第一参数是热度值的两个维度,在实际的业务中,往往希望信息既有较高的点击率又有较长的阅读时长,阅读时长对热度值的影响程度,取决于业务对其目标的设定,如果业务以对象较长时间停留为关键指标,则时长权重参数应该调大,如果业务以对象点击率为关键指标,则时长权重参数应该调小(实际应用中单独以点击率为目标可能出现较多标题党)。
在一可选实施例中,热度值=第一参数*(1+时长权重参数*阅读时长权重)。
本申请实施例提供的热度值获取方法,同时考虑了表征候选信息的点击率的第一参数及候选信息的阅读时长,即候选信息的点击率越大且候选信息的阅读时长越长,候选信息的热度值越大,候选信息的排序可能越靠前。若候选信息的点击率较大,但是候选信息的阅读时长较小,候选信息的热度值不一定较大,候选信息的排序可能不是很靠前,避免了由于对象误点击候选信息,导致候选信息的点击率变大的情况的干扰。
本申请的一个实施例,对上述步骤S210,获取所述候选信息的阅读时长权重的过程进行说明。
可选的,可以预先设置多个阅读时长区间,并预先设置各阅读时长区间分别对应的阅读时长权重;从而基于候选信息的阅读时长所属的目标阅读时长区间,将目标阅读时长区间对应的阅读时长权重作为候选信息的阅读时长权重。则上述步骤S210,获取所述候选信息的阅读时长权重的过程可以包括:
A1、获取所述候选信息的阅读时长。
在一可选实施例中,若有多个对象分别阅读了该候选信息,那么该候选信息对应多个实际的阅读时长,A1提及的候选信息的阅读时长是多个实际的阅读时长基于一定的运算得到的,例如,A1提及的候选信息的阅读时长是多个实际阅读时长的平均值。
假设,对象A阅读候选信息的实际阅读时长为30000ms;对象B阅读候选信息的实际阅读时长为5000ms;对象C阅读候选信息的实际阅读时长为10000ms,那么候选信息的阅读时长=(30000ms+5000ms+10000ms)/3=15000ms。
A2、从预设的各阅读时长区间中,确定所述候选信息的阅读时长所属的目标阅读时长区间。
在一可选实施例中,不同的阅读时长区间没有交集,若将阅读时长区间按照升序排序,可选的,位于第一的阅读时长区间的下限值可以为第一预设值,上限值可以为下一阅读时长区间的下限值。第一预设值可以基于实际情况而定,可选的,第一预设值可以为0。位于最后一位的阅读时长区间的上限值可以为第二预设值,下限值可以为上一阅读时长区间的上限值。第二预设值可以基于实际情况而定,可选的,第二预设值可以为正无穷+∞。
对于非第一个阅读时长区间和最后一个阅读时长区间而言,其他阅读时长区间的上限值为下一阅读时长区间的下限值。
可选的,假设将一个阅读时长区间的下限值定义为a,上限值定义为b,则阅读时长区间的格式可以[a,b),或者为(a,b]。以格式[a,b)为例,假设总共10个阅读时长区间,按照升序排序的结果可以如下:[0,b1),[b1,b2),[b2,b3),[b3,b4),[b4,b5),[b5,b6),[b6,b7),[b7,b8),[b8,b9),[b9,+∞)。
其中,0<b1<b2<b3<b4<b5<b6<b7<b8<b9<+∞。
在一可选实施例中,上述阅读时长区间的获取方法可以如下:
统计一段时间内一个或多个对象阅读多个历史信息分别对应的阅读时长,进而基于各历史信息分别对应的阅读时长,得到N个阅读时长区间,其中,N为大于等于2的正整数。
可以理解的是,一个历史信息可能对应多个实际阅读时长,本申请实施例提及的历史信息的阅读时长可以是历史信息对应的多个实际阅读时长进行一定运算得到的,例如,历史信息的阅读时长=多个实际阅读时长的平均值。
假设,对象A阅读历史信息1的实际阅读时长为50000ms;对象B阅读历史信息1的实际阅读时长为6000ms;对象C阅读历史信息1的实际阅读时长为20000ms,那么历史信息1的阅读时长=(50000ms+6000ms+20000ms)/3=25333.33ms。
在一可选实施例中,不同阅读时长区间对应的历史信息的数目相同。例如,一共有1000万个历史信息,若N=10,那么每个阅读时长区间对应的历史信息数目为100万个历史信息。每个阅读时长区间的上限值和下限值是基于自身对应的100万个历史信息对应的阅读时长得到的。
需要说明的是,本申请对阅读时长区间的数目不做具体限定,可以根据实际需要预设不同数目的阅读时长区间。
可选的,假设将一个阅读时长区间的下限值定义为a,上限值定义为b,则阅读时长区间的格式可以[a,b),或者为(a,b]。
在一可选实施例中,各阅读时长区间总和,可以覆盖整个阅读时长时间轴,例如,[0,+∞),即对于相邻的两个阅读时长区间,第i-1个阅读时长区间的上限值等于第i个阅读时长区间的下限值,且第一个阅读时长区间的下限值为0,第N个阅读时长区间的上限值为正无穷,其中,2≤i≤N。
综上,上述N个阅读时长区间中必然存在与候选信息的阅读时长对应的目标阅读时长区间,且存在一个对应的阅读时长区间,这里″对应″是指阅读时长区间中包含候选信息的阅读时长。基于此,可选的,可以根据候选信息的阅读时长,确定其所属的目标候选时长区间,这里,目标候选时长区间即为与候选信息的阅读时长对应的阅读时长区间。
例如,基于历史信息的阅读时长,预设的10个阅读时长区间(单位:ms)分别为:[0,3598.23),[3598.23,7177.46),[7177.46,17915.16),[17915.16,28652.86),[28652.86,42969.79),[42969.79,57286.72),[57286.72,75182.88),[75182.88,96658.27),[96658.27,139609.06),[139609.06,∞)。假设,候选信息的阅读时长为70182ms,则与该70182ms对应的目标候选时长区间为[57286.72,75182.88)。
A3、将所述目标阅读时长区间对应的预设的阅读时长权重,确定为所述候选信息的阅读时长权重。
可选的,针对不同的阅读时长区间,可以预先设置不同的阅读时长权重,也即不同的阅读时长区间对应的阅读时长权重不同;可选的,同一阅读时长区间可以对应一个阅读时长权重。
需要说明的是,针对不同的阅读时长区间,其中包含的阅读时长越大,对应的阅读时长权重越大。
可选的,可以将目标阅读时长区间对应的预设的阅读时长权重,确定为候选信息的阅读时长权重。
例如,针对上述10个阅读时长区间[0,3598.23),[3598.23,7177.46),[7177.46,17915.16),[17915.16,28652.86),[28652.86,42969.79),[42969.79,57286.72),[57286.72,75182.88),[75182.88,96658.27),[96658.27,139609.06),[139609.06,∞),若预设的阅读时长权重分别为11.1、22.2、33.3、44.4、55.6、66.7、77.8、88.9、100.0,则可以确定与候选信息的阅读时长70182ms对应的目标阅读时长区间为[57286.72,75182.88),进而确定目标阅读时长区间[57286.72,75182.88)对应的预设的阅读时长权重为77.8,则可以将77.8作为候选信息的阅读时长权重。
本实施例提供的方法,可以根据实际应用场景,确定各阅读时长区间上限值和下限值,以及阅读时长区间的数目N;针对不同的阅读时长区间,还可以根据实际应用场景,预设不同的阅读时长权重,更具有自适应性;可选的,若N个阅读时长区间升序排序后,第一个阅读时长区间的下限值为0,第N个阅读时长区间的上限值为+∞,若候选信息的阅读时长为极大值,候选信息的阅读时长可以对应第N个阅读时长区间;若候选信息的阅读时长为极小值,候选信息的阅读时长可以对应第一个阅读时长区间,避免了若候选信息的阅读时长为极大值导致阅读时长权重过大的情况,以及避免了若候选信息的阅读时长为极小值导致阅读时长权重过小的情况。
在实际应用中,以下情况可能导致候选信息的阅读时长为极大值,例如,对象利用智能手机正在阅读候选信息的过程中,接到来电对象通话5小时,对象通话完成后退出阅读候选信息模式,此时该候选信息的阅读时长可能出现极大值,例如5小时。
在实际应用中,以下情况可能导致候选信息的阅读时长为极小值,例如,对象刚刚点击候选信息准备阅读,却误操作退出阅读模式,此时,该候选信息的阅读时长可能出现极小值,例如,1ms。
在上述实施例的基础上,本申请实施例进一步对阅读时长区间的获取方法进行说明,该过程具体可以包括:
B1、获取多个有序的信息集合,每个信息集合对应有相同数目的历史信息;一个信息集合对应的历史信息中最小阅读时长大于上一信息集合对应的历史信息中最大阅读时长。
假设,总共有1000万个历史信息,假设总共N个信息集合,那么每个信息集合对应有1000万/N个历史信息。由于N个信息集合是有序的,第i个信息集合对应的历史信息中最小阅读时长(即1000万/N个历史信息分别对应的阅读时长中最小阅读时长)大于第i-1个信息集合对应的历史信息中最大阅读时长(即1000万/N个历史信息分别对应的阅读时长中最大阅读时长)。I为大于或等于2小于或等于N的正整数。
B2、获取各信息集合分别对应的阅读时长区间。
第一个信息集合对应的阅读时长区间的下限值为第一预设值,除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值为上一信息集合对应的阅读时长区间的上限值;最后一个信息集合对应的阅读时长区间的上限值为第二预设值,除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值为下一信息集合对应的阅读时长区间的下限值。
除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值小于或等于该信息集合对应的历史信息中最小阅读时长且大于或等于上一信息集合对应的历史信息中最大阅读时长,除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值大于或等于该信息集合对应的历史信息中最大阅读时长且小于或等于下一信息集合对应的历史信息中最小阅读时长;所述第一预设值小于或等于第一个信息集合对应的历史信息中最小阅读时长,所述第二预设值大于或等于最后一个信息集合对应的历史信息中最大阅读时长。
在一可选实施例中,第一预设值为0,第二预设值为+∞。
假设总共N个信息集合,N个信息集合对应有N个阅读时长区间;假设N=10,第一预设值为0,第二预设值为+∞,那么10个阅读时长区间依次为:[0,b1),[b1,b2),[b2,b3),[b3,b4),[b4,b5),[b5,b6),[b6,b7),[b7,b8),[b8,b9),[b9,+∞)。
其中,0<b1<b2<b3<b4<b5<b6<b7<b8<b9<+∞。
其中,b1大于[0,b1)对应的第一个信息集合对应的历史信息中最大阅读时长;b2大于[b1,b2)对应的第二个信息集合对应的历史信息中最大阅读时长,且,小于或等于[b2,b3)对应的第三个信息集合对应的历史信息中最小阅读时长;依次类推,b9小于或等于[b9,+∞)对应的第十个信息集合对应的历史信息中最小阅读时长,且,大于第九个信息集合对应的历史信息中最大阅读时长。
可以理解的是,由于阅读时长区间的格式为右侧是开区间,所以b1应该大于[0,b1)对应的第一个信息集合对应的历史信息中最大阅读时长,若b1等于[0,b1)对应的第一个信息集合对应的历史信息中最大阅读时长,那么[0,b1)就不对应第一个信息集合对应的历史信息中最大阅读时长了;若阅读时长区间的格式为右侧是闭区间,那么b1应该大于或等于[0,b1)对应的第一个信息集合对应的历史信息中最大阅读时长。由于阅读时长区间的格式为左侧是闭区间,所以b2可以小于[b2,b3)对应的第三个信息集合对应的历史信息中最小阅读时长,也可以等于[b2,b3)对应的第三个信息集合对应的历史信息中最小阅读时长。
综上,除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值具体取值是大于该信息集合对应的历史信息中最大阅读时长,还是大于或等于该信息集合对应的历史信息中最大阅读时长,取决于阅读时长区间的格式。
除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值的具体取值是小于下一信息集合对应的历史信息中最小阅读时长,还是小于或等于下一信息集合对应的历史信息中最小阅读时长,取决于阅读时长区间的格式。
同理除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值的具体取值同理,这里不再赘述。
为了本领域技术人员进一步理解本申请实施例提供的阅读时长区间的获取方法,下面举一具体例子进行说明。
参见图3所示,可以基于多个历史信息分别对应的阅读时长构建函数,例如,累积分布函数(Cumulative Distribution Function,CDF)即y=P(X≤x)(单位:ms);假设图3所示的横坐标x轴为阅读时长,纵坐标y轴为阅读时长小于或等于x的历史信息的数目与历史信息总数目的比值。
首先,通过等分y轴的方式,获取多个有序的信息集合。
假设等分y轴,得到多个有序的比值区间,假设,将y轴等分成以下有序的比值区间:
[0,0.1),[0.1,0.2),[0.2,0.3),[0.3,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8),[0.8,0.9),[0.9,1)。可以理解的是,每个比值区间的上限值与下限值的差值相等,所以每个比值区间对应的历史信息的数目相同,仍以上述为例,每个比值区间对应的历史信息的数目为历史信息总数目的0.1倍。
可选的,信息集合为比值区间;可选的,可以基于比值区间得到信息集合。
本申请实施例中,每个信息集合对应的历史信息的数目相同,确保统计意义的有效性。
其次,获得各信息集合分别对应的阅读时长区间。
由于y=0对应的x为0;y=1对应的x为+∞。假设y=0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9依次对应的x为:3598.23、7177.46、17915.16、28652.86、42969.79、57286.72、75182.88、96658.27、139609.06,那么得到的10个有序的信息集合分别对应的阅读时长区间依次为:[0,3598.23),[3598.23,7177.46),[7177.46,17915.16),[17915.16,28652.86),[28652.86,42969.79),[42969.79,57286.72),[57286.72,75182.88),[75182.88,96658.27),[96658.27,139609.06),[139609.06,∞)。
在一可选实施例中,随着时间的推移,历史信息在不段更新;可选的,可以每隔预设时间,基于多个更新后的历史信息分别对应的阅读时长构建函数,通过图3所示的方式,重新得到多个阅读时长区间。
B3、分别为各阅读时长区间分配阅读时长权重。
在一可选实施例中,上述多个信息集合分别对应的阅读时长区间不交叉且不重叠,且各阅读时长区间之和覆盖整个时间轴x。
可选的,可以为上述多个信息集合分别对应的阅读时长区间分配阅读时长权重。可选的,针对不同的阅读时长区间,其中包含的阅读时长越长,对应的阅读时长权重越大。
在一可选实施例中,若阅读时长权重的范围为[0,100]。仍以图3为例进行说明。若将图3所示的y轴等分为十段,则对应得到十个阅读时长区间,分别为[0,3598.23),[3598.23,7177.46),[7177.46,17915.16),[17915.16,28652.86),[28652.86,42969.79),[42969.79,57286.72),[57286.72,75182.88),[75182.88,96658.27),[96658.27,139609.06),[139609.06,∞),进一步本步骤还可以根据实际需要,为该十个阅读时长区间分配十个阅读时长权重,可选的,可以分别为11.1、22.2、33.3、44.4、55.6、66.7、77.8、88.9、100.0。
在一可选实施例中,阅读时长权重的范围还可以为[0,1],或,[0,50],本申请实施例对阅读时长权重的范围不进行限定。
本申请的又一个实施例,对上述步骤A1,获取所述候选信息的阅读时长的过程进行说明。
可以理解的是,不同的候选信息包含的字数不同,则对应的阅读时长可能不同。本实施例可以根据候选信息包含的字数,确定候选信息的阅读时长,该过程具体可以包括:
基于预设的字数以及阅读时长的关联关系,获得具有目标字数的所述候选信息的阅读时长权重。
可选的,预设的字数与阅读时长的关联关系为字数区间与阅读时长的对应关系。例如,表1所示的各字数区间与阅读时长的对应关系。
表1各字数区间与阅读时长的对应关系
字数 | 阅读时长 |
[0,99] | 1200ms |
[100,199] | 2370ms |
[200,299] | 3500ms |
[300,399] | 4600ms |
[400,499] | 5650ms |
需要说明的是,上述表1仅为预设的字数与阅读时长的关联关系的一种示例,本申请实施例并不对字数与阅读时长的关联关系进行具体限定。
上述实施例根据预设的字数与阅读时长的关联关系,确定候选信息的阅读时长的一种可选实施例,除此之外,还可以基于历史信息中包含的字数与对应的阅读时长,建立字数与阅读时长的函数关系,进而基于该函数关系,得到候选信息的阅读时长。该过程具体可以包括:
C1、获取各历史信息分别对应的字数以及各历史信息分别对应的阅读时长。
可以理解的是,一个历史信息可能有多个对象阅读,不同对象的实际阅读时长不同,一个历史信息的阅读时长可以为多个实际阅读时长经过一定运算得到的,例如,一个历史信息的阅读时长为多个实际阅读时长的平均值。
可选的,可以统计一段时间内对象阅读的各历史信息,得到各历史信息分别对应的字数以及各历史信息分别对应的阅读时长。
C2、针对任一历史信息,基于该历史信息的字数、阅读时长以及待确定参数,获得该历史信息对应的误差值,以得到各历史信息分别对应的误差值的误差总和;所述待确定参数表征字数与阅读时长的关联关系。
C3、在所述误差总和最小情况下,确定所述待确定参数的值。
可选的,可以以各历史信息分别对应的字数为x轴,以各历史信息分别对应的阅读时长为y轴,建立坐标系,将上述得到的各历史信息分别对应的字数以及各历史信息分别对应的阅读时长,分别对应到该坐标系中,参见图4a所示。
可选的,可以对图4a所示的各历史信息的字数以及阅读时长进行拟合,得到图4b所示的函数曲线。针对任一历史信息,将该历史信息对应的字数作为x,将该历史信息对应的阅读时长作为y,则图4b所示的拟合函数曲线的表达式可以用下式表示。
y=ax+b
其中,a、b为拟合过程中的两个待确定参数。
则可以通过最小二乘法,求解上述两个待确定参数,具体过程如下:
针对任一历史信息,基于该历史信息的字数xk、阅读时长yk以及待确定参数a、b,可以得到该历史信息对应的误差值为yk-(axk+b),其中,1≤k≤Q,Q表示历史信息的总数目。
则各历史信息分别对应的误差值的误差总和E表示如下。
对上述误差总和E求偏导数,可以得到的公式如下。
通过求解上述两个偏导数,可以得到待确定参数的公式如下。
可选的,得到的a=23,b=30162,那么,y=23*x+30162。
本申请的又一个实施例,对上述本申请实施例确定候选信息的阅读时长的过程进行介绍。
可以理解的是,在统计的一段时间内,一个或多个对象可能阅读候选信息多次,则可选的,上述本申请实施例中的候选信息的阅读时长可以为一个或多个对象阅读候选信息实际阅读时长经过一定运算得到的,例如,候选信息的阅读时长是多个实际阅读时长的平均值。
可选的,考虑到一个或多个对象阅读候选信息的实际阅读次数较少时,得到的候选信息的平均阅读时长可靠性交差,即统计意义无效,可选的,候选信息的阅读时长可以是基于上述实施例中介绍的预设的字数以及阅读时长的关联关系得到的。
可选的,本申请实施例还可以设置第一阈值,并根据对象阅读候选信息的次数与第一阈值的大小关系,确定候选信息的阅读时长,该过程具体可以包括:
若所述候选信息的阅读次数大于或等于第一阈值,所述候选信息的阅读时长是所述候选信息的多个实际阅读时长进行预设运算得到的;
若所述信息的阅读次数小于第一阈值,所述候选信息的阅读时长是基于预设的字数以及阅读时长的关联关系得到的。
可选的,若候选信息的阅读次数大于或等于第一阈值,表示对象阅读候选信息的次数较多,该情况下基于候选信息的多个实际阅读时长进行预设运算得到的阅读时长具有较高的可靠性,即统计意义有效,例如可以将该多次阅读候选信息的平均阅读时长作为候选信息的阅读时长。
可选的,若候选信息阅读次数小于第一阈值,表示对象阅读候选信息的次数较少,该情况下基于候选信息的多个实际阅读时长进行预设运算得到的阅读时长不可靠,即统计意义无效,因此可以基于预设的字数以及阅读时长的关联关系得到候选信息的阅读时长。
本申请的又一个实施例,对上述步骤S200,获取候选信息的第一参数的过程进行说明。
可选的,考虑到候选信息的展现量及点击量较大时,候选信息的点击率可以反映对象阅读信息的真实情况,在这种情况下,候选信息的第一参数可以为候选信息的点击率。
可选的,考虑到候选信息的展现量及点击量较小时,候选信息的点击率不能反映对象阅读信息的真实情况,例如,若候选信息仅被展示一次就获得了一次点击,则得到的点击率为1,显然信息的展现量较少的情况下,点击率不能反映对象阅读信息的真实情况,为此本申请实施例可以基于候选信息的点击率以及展现量,得到候选信息的第一参数,该候选信息的第一参数可以更好地反对象阅读信息的真实情况。可选的,候选信息的展现量及点击量较大时也可以通过以下方法,获得候选信息的第一参数。
该过程具体可以包括:
D1、获取所述候选信息的点击率以及展现量。
可选的,可以统计一段时间内,候选信息的展现量,以及候选信息的点击量,进而得到候选信息的点击率。
D2、基于所述候选信息的点击率以及所述候选信息的展现量,获得所述候选信息的第二参数;所述候选信息的第二参数为指定置信水平下所述候选信息的置信区间的下限值。
在一可选实施例中,本步骤可以利用威尔逊区间获得第二参数。假设候选信息的点击率服从正太分布。威尔逊区间如下。
其中,为候选资讯的点击率,n为候选资讯的展现量,zα/2为指定置信水平下的z统计量,α为显著性水平。
可选的,第二参数为威尔逊区间的下限值。
可以理解的是,目前仅基于候选资讯的点击率进行排序,即点击率越大,越应该排列在前面。但是,点击率的可信性,取决于候选资讯的展现量,如果候选资讯的展现量较少,即样本太小,候选资讯的点击率就不可信。对于展现量较少的候选资讯可以计算点击率的置信区间,即以某个概率而言(置信水平),点击率会落在哪个区间(置信区间)。置信区间的实质,就是进行点击率的可信度的修正,弥补展现量过小的影响。如果候选资讯的展现量较大,即样本较多,就说明该候选资讯的点击率比较可信,不需要很大的修正,所以置信区间会比较窄。如果候选资讯的展现量较小,即样本较少,就说明该候选资讯的点击率比较不可信,必须进行较大的修正,所以置信区间比较宽。置信区间较宽,置信区间的下限值越小;置信区间较窄,置信区间的下限值越大。
通过上述方法得到的第二参数,在候选资讯的展现量较少时,其第二参数的值越小,若用第二参数表征候选信息的点击率可以较合理反映对象阅读信息的真实情况。
D3、基于所述候选信息的第二参数、所述候选信息的展现量以及预设的补偿值,获得所述候选信息的第一参数;所述补偿值用于修正所述候选信息的第二参数。
所述补偿值用于修正候选信息的第二参数,以得到修正后的第一参数;补偿值的作用用于降低展现量对第二参数的影响。
基于威尔逊区间,展现量较少的候选资讯的第二参数将被大幅度拉低,且若展现量为0,第二参数为0。资讯的排行榜的榜首总是展现量较多的资讯,展现量较少的资讯,甚至展现量为0的资讯很难排到前面。
可以理解的是,对象在浏览终端102或终端102上安装的客户端上展现的信息的过程中,习惯浏览排序靠前的信息,不常浏览排序靠后的信息;例如,对于终端102而言其显示屏的显示区域是有限的,一般情况下,对象可能仅浏览终端102的显示屏的显示区域当前展现的信息,对于未展现的信息对象不会浏览,也就造成了未展示的信息点击量很低;可以理解的是,有可能有的对象偶尔会浏览排序靠后的信息,但是也使得排序靠后的信息的展现量很低。
相对之前已经多次被点击的″旧的″信息(本申请实施例中″旧的″信息是指信息被推送给终端102或终端102上安装的客户端的时间大于第三阈值)而言,一般情况下,″新的″信息(本申请实施例中″新的″信息是指信息被推送给终端102或终端102上安装的客户端的时间小于或等于第三阈值,或者,信息还未被推荐给终端102或终端102上安装的客户端,或,信息被推送给终端102或终端102上安装的客户端的时间大于第三阈值且信息的展现量小于第二阈值)被点击和展现的次数较少,即点击量和展现量较低,若基于第二参数以及阅读时长权重得到的热度值对信息进行排序,往往导致″新的″信息的排序靠后。
为了解决上述问题,可选的,可以基于贝叶斯平均方法,得到第一参数。
在一可选实施例中,第一参数的计算公式可以如下:
其中,C为所有信息的平均展现量,m为所有信息的平均点击率,n为候选信息的展现量,wilson_score为前式计算得到的候选信息对应的威尔逊区间下限值。该方法借鉴了贝叶斯推断思想。
本申请实施例中,可以称b_ctr为先验贝叶斯值。
在上述例子中,是基于所有信息的平均展现量、所有信息的平均点击率得到的补偿值。
综上,本申请实施例提供的热度值获取方法中的第一参数可以为候选信息的点击率,也可以为先验贝叶斯值;本申请实施例提供的热度值获取方法中的阅读时长权重涉及的阅读时长可以是基于候选信息对应的多个实际阅读时长进行预设运算得到的,也可以是基于预设的字数与阅读时长关联关系得到的。具体参见图5所示,为本申请实施例提供的热度值获取方法的一种具体实现方式的流程图。
假设第一阈值为f,第二阈值为e。
步骤S501:获取候选信息的展现量以及阅读次数。
步骤S502:比较候选信息的展现量与第二阈值e,若候选信息的展现量大于第二阈值e,执行步骤S503,若候选信息的展现量小于或等于第二阈值e,执行步骤S504。
步骤S503:将候选信息的点击率作为候选信息的第一参数。
步骤S504:获取候选信息的先验贝叶斯值b_ctr,将先验贝叶斯值b_ctr作为候选信息的第一参数。
步骤S505:比较候选信息的阅读次数与第一阈值f,若候选信息的阅读次数大于或等于第一阈值f,执行步骤S506;若候选信息的阅读次数小于第一阈值f执行步骤S507。
步骤S506:将候选信息对应的多个实际阅读时长进行预设运算得到阅读时长。
例如,一个或多个对象阅读候选信息的阅读次数为3次,且3次阅读的实际阅读时长分别为实际阅读时长1、实际阅读时长2以及实际阅读时长3。
可选的,候选信息的阅读时长=(实际阅读时长1+实际阅读时长2+实际阅读时长3)/3,即候选信息的阅读时长=平均阅读时长。
步骤S507:基于预设的字数与阅读时长的关联关系,得到候选信息的阅读时长。
例如,候选信息的阅读时长=23*候选信息的字数+30162。
步骤S508:从预设的各阅读时长区间中,确定所述候选信息的阅读时长所属的目标阅读时长区间;将所述目标阅读时长区间对应的预设的阅读时长权重,确定为所述候选信息的阅读时长权重。
在一可选实施例中,在执行步骤S508之前还可以包括:
对预设的各阅读时长区间中至少一个阅读时长区间对应的阅读时长权重进行调整。
在一可选实施例中,在执行步骤S508之前还可以包括:
是否变更预设的各阅读时长区间中至少一个阅读时长区间的长度以及对变更长度的阅读时长区间重新设置阅读时长权重;
若否执行步骤S508;若是,基于变更后的阅读时长区间对应的阅读时长权重,确定候选信息对应的阅读时长权重。
一个阅读时长区间的长度是指阅读时长区间的上限值与下限值的差值。
在一可选实施例中,可以直接基于预设的各阅读时长区间分别对应的阅读时长权重,得到候选信息对应的阅读时长权重;若出现其他情况如期望人为干预设置候选信息的阅读时长权重,可以人为变更阅读时长区间的长度,以及变更阅读时长区间对应的阅读时长权重。
仍以阅读时长区间(单位:ms)如下:[0,3598.23),[3598.23,7177.46),[7177.46,17915.16),[17915.16,28652.86),[28652.86,42969.79),[42969.79,57286.72),[57286.72,75182.88),[75182.88,96658.27),[96658.27,139609.06),[139609.06,∞),相应的阅读时长权重依次为11.1、22.2、33.3、44.4、55.6、66.7、77.8、88.9、100.0,为例进行说明。
假设,人为期望阅读时长区间[0,600)对应的阅读时长权重为0,那么阅读时长区间增加1个,发生变更的阅读时长区间如下:[0,600)、[600,3598.23),[0,600)对应的阅读时长权重为0,可选的[600,3598.23)对应的阅读时长权重可以仍为11.1。
步骤S509:基于阅读时长权重、时长权重参数、第一参数获得候选信息的热度值。
在一可选实施例中,上述步骤S501至步骤S509中可以不包括步骤S502以及步骤S503;在另一可选实施例中,上述步骤S501至步骤S509中可以不包括步骤S505以及步骤S506;在又一可选实施例中,上述步骤S501至步骤S509中可以不包括步骤S501、步骤S502、步骤S503、步骤S505以及步骤S506。
结合上述热度值获取方法实施例,下面举具体例子对图5所示的热度值获取方法进行说明。下面以终端102或终端102上安装的客户端为股票客户端为例进行说明。
假设股票客户端对应的服务器101有3个待排序的候选资讯;这3个新的资讯分别为:候选资讯1、候选资讯2以及候选资讯3。
1、从多个终端102或多个终端102上安装的股票客户端或者从服务器102上获得候选资讯1、候选资讯2以及候选资讯3分别对应的点击率和展现量。
假设候选资讯1的点击率为100%,候选资讯2的点击率为50%,候选资讯3的点击率为0%;候选资讯1的展现量为1,候选资讯2的展现量为10000,候选资讯3的展现量为0。
2、假设第二阈值为9000,那么候选资讯2的展现量大于第二阈值,所以可以候选资讯2的点击率ctr2=点击率50%。
由于候选资讯1和候选资讯3的展现量均小于第二阈值,所以执行步骤3。
3、计算候选资讯1的先验贝叶斯值1以及候选资讯3的先验贝叶斯值3。
假设股票客户端的资讯的点击率服从正太分布。
计算候选资讯的第二参数。假设置信水平为95%,那么显著性水平α=1-0.95=0.05。候选资讯对应的置信区间如下:
其中,为候选资讯的点击率,n为候选资讯的展现量,zα/2为置信水平为95%下的z统计量。
候选资讯的第二参数为置信区间的下限值。上述置信区间为威尔逊区间。
候选资讯1的第二参数候选资讯3的第二参数3wilson_score=0。
基于威尔逊区间,展现量较少的候选资讯的第二参数将被大幅度拉低,且若展现量为0,第二参数为0。资讯的排行榜的榜首总是展现量较多的资讯,展现量较少的资讯,甚至展现量为0的资讯很难排到前面。例如,候选资讯3很难排到前面。
为了解决上述问题,可选的,可以基于贝叶斯平均方法,先验贝叶斯值的具体公式如下:
其中,C为所有资讯的平均展现量,m为所有资讯的平均点击率,n为该条资讯展现量,wilson_score为前式计算得到的威尔逊区间下限值。该方法借鉴了贝叶斯推断思想。
假设C=20000,m=0.6。
候选资讯1的先验贝叶斯值b_ctr1=0.599;候选资讯3的先验贝叶斯值b_ctr3=0.6。
4、获取候选资讯1、候选资讯2以及候选资讯3的阅读次数。
假设候选资讯1的阅读次数为200000次,候选资讯2的阅读次数为2次,候选资讯3的阅读次数为10000次。
仍以上述阅读时长区间为例,阅读时长区间(单位ms)依次为:[0,3598.23),[3598.23,7177.46),[7177.46,17915.16),[17915.16,28652.86),[28652.86,42969.79),[42969.79,57286.72),[57286.72,75182.88),[75182.88,96658.27),[96658.27,139609.06),[139609.06,∞);对应的阅读时长权重依次为:11.1、22.2、33.3、44.4、55.6、66.7、77.8、88.9、100.0。
假设第一阈值为100000次,由于候选资讯1的阅读次数大于第一阈值,那么,可以基于200000次的平均阅读时长确定候选资讯1的阅读时长权重1。假设候选资讯1的平均阅读时长为70182ms,那么候选资讯1的平均阅读时长属于[57286.72,75182.88),那么候选资讯1的阅读时长权重1=阅读时长区间[57286.72,75182.88)对应的阅读时长权重ω1=77.8。
由于候选资讯2和候选资讯3的阅读次数小于第一阈值,因此,基于预设的字数以及阅读时长的关联关系,获得候选资讯2和候选资讯3的阅读时长。
在一可选实施例中,预设的字数以及阅读时长的关联关系如下:
阅读时长=23*num_words+30162(单位:ms),其中,num_words为候选资讯包含的字数。
假设候选资讯2的字数为200,候选资讯3的字数为300,那么候选资讯2的阅读时长=23*200+30162=34762;候选资讯3的阅读时长=23*300+30162=37062。
候选资讯2与候选资讯3均属于阅读时长区间[28652.86,42969.79),候选资讯2的阅读时长权重ω2=候选资讯3的阅读时长权重ω3=55.6。
5、在一可选实施例中,热度值w_ctr=H*(1+β*ω)。
其中,β为时长权重参数,ω为阅读时长权重,H为第一参数,β用于调节点击率和阅读时长权重对热度值的影响。
阅读时长权重和第一参数是热度值的两个维度,在实际的业务中,往往希望信息既有较高的点击率又有较长的阅读时长,阅读时长对热度值的影响程度,取决于业务对其目标的设定,如果业务以对象较长时间停留为关键指标,则阅读时长的影响权重应该调大,如果业务以对象点击率为关键指标,则点击率的影响权重相对要大(实际应用中单独以点击率为目标可能出现较多标题党)。
假设,β=1。
那么,候选资讯1的热度值w_ctr1=b_ctr1*(1+ω1)=0.599*(1+77.8)=47.2。
候选资讯2的热度值w_ctr2=ctr2*(1+ω2)=0.5*(1+55.6)=28.3。
候选资讯3的热度值w_ctr3=b_ctr3*(1+ω3)=0.6*(1+55.6)=33.9。
6、对候选资讯1、候选资讯2以及候选资讯3进行排序,得到的排序结果为:候选资讯1、候选资讯3、候选资讯2。
上述本申请实施例中详细描述了方法,对于本申请实施例的方法可采用多种形式的装置实现,因此本申请实施例还提供了一种装置,下面给出具体的实施例进行详细说明。
参见图6,图6为本申请实施例提供的一种热度值获取装置结构示意图。
如图6所示,该装置可以包括:
第一获取模块61,用于获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
第二获取模块62,用于获取所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
第三获取模块63,用于基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
可选的,上述第二获取模块可以包括:
第一获取单元,用于获取所述候选信息的阅读时长;
第一确定单元,用于从预设的各阅读时长区间中,确定所述候选信息的阅读时长所属的目标阅读时长区间;
第二确定单元,用于将所述目标阅读时长区间对应的预设的阅读时长权重,确定为所述候选信息的阅读时长权重。
可选的,本申请实施例装置还可以包括:
第二获取单元,用于获取多个有序的信息集合,每个信息集合对应有相同数目的历史信息;一个信息集合对应的历史信息中最小阅读时长大于上一信息集合对应的历史信息中最大阅读时长;
第三获取单元,用于获取各信息集合分别对应的阅读时长区间;第一个信息集合对应的阅读时长区间的下限值为第一预设值,除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值为上一信息集合对应的阅读时长区间的上限值;最后一个信息集合对应的阅读时长区间的上限值为第二预设值;除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值小于或等于该信息集合对应的历史信息中最小阅读时长且大于上一信息集合对应的历史信息中最大阅读时长,除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值大于或等于该信息集合对应的历史信息中最大阅读时长且小于下一信息集合对应的历史信息中最小阅读时长;所述第一预设值小于或等于第一个信息集合对应的历史信息中最小阅读时长,所述第二预设值大于或等于最后一个信息集合对应的历史信息中最大阅读时长;
权重分配单元,用于分别为各阅读时长区间分配阅读时长权重。
可选的,上述第一获取单元可以包括:
参考单元,用于基于预设的字数以及阅读时长的关联关系,获得具有目标字数的所述候选信息的阅读时长。
可选的,本申请实施例装置还可以包括:
第四获取单元,用于获取各历史信息分别对应的字数以及各历史信息分别对应的阅读时长;
第五获取单元,用于针对任一历史信息,基于该历史信息的字数、阅读时长以及待确定参数,获得该历史信息对应的误差值,以得到各历史信息分别对应的误差值的误差总和;所述待确定参数用于表征字数与阅读时长的关联关系;
第三确定单元,用于在所述误差总和最小情况下,确定所述待确定参数的值。
可选的,
若所述候选信息的阅读次数大于或等于第一阈值,所述候选信息的阅读时长是所述候选信息的多个实际阅读时长进行预设运算得到的;
若所述信息的阅读次数小于所述第一阈值,所述候选信息的阅读时长是基于预设的字数以及阅读时长的关联关系得到的。
可选的,上述第一获取模块可以包括:
第六获取单元,用于获取所述候选信息的点击率以及展现量;
第七获取单元,用于基于所述候选信息的点击率以及所述候选信息的展现量,获得所述候选信息的第二参数;所述候选信息的第二参数为指定置信水平下所述候选信息的置信区间的下限值;
第八获取单元,用于基于所述候选信息的第二参数、所述候选信息的展现量以及预设的补偿值,获得所述候选信息的第一参数;所述补偿值用于修正所述候选信息的第二参数。
可选的,本申请实施例装置还可以包括:
第九获取单元,用于若所述候选信息的展现量小于或等于第二阈值,执行第七获取单元;
第十获取单元,用于若所述候选信息的展现量大于所述第二阈值,确定所述第一参数为所述候选信息的点击率。
可选的,第三获取模块包括:
第十一获取单元,用于基于所述候选信息的第一参数、阅读时长权重以及时长权重参数,获取所述候选信息的热度值;所述时长权重参数为大于0小于或等于1的正整数。
本申请实施例提供的热度值获取装置可应用于电子设备,如移动终端、PC终端、云平台、服务器及服务器集群等。可选的,图7示出了电子设备的硬件结构框图,参照图7,电子设备的硬件结构可以包括:至少一个处理器71,至少一个通信接口72,至少一个存储器73和至少一个通信总线74;
在本申请实施例中,处理器71、通信接口72、存储器73、通信总线74的数量为至少一个,且处理器71、通信接口72、存储器73通过通信总线74完成相互间的通信;
处理器71可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路,或者是EC,或者是处理组件等;
存储器73可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
获取所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述热度值获取方法实施例包含的各个步骤。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句″包括一个......″限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (16)
1.一种热度值获取方法,其特征在于,包括:
获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
基于预设的字数以及阅读时长的关联关系,获得具有目标字数的所述候选信息的阅读时长;
从预设的各阅读时长区间中,确定所述候选信息的阅读时长所属的目标阅读时长区间;
将所述目标阅读时长区间对应的预设的阅读时长权重,确定为所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
2.根据权利要求1所述热度值获取方法,其特征在于,还包括:
获取多个有序的信息集合,每个信息集合对应有相同数目的历史信息;一个信息集合对应的历史信息中最小阅读时长大于上一信息集合对应的历史信息中最大阅读时长;
获取各信息集合分别对应的阅读时长区间;第一个信息集合对应的阅读时长区间的下限值为第一预设值,除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值为上一信息集合对应的阅读时长区间的上限值;最后一个信息集合对应的阅读时长区间的上限值为第二预设值;
除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值小于或等于该信息集合对应的历史信息中最小阅读时长且大于或等于上一信息集合对应的历史信息中最大阅读时长,除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值大于或等于该信息集合对应的历史信息中最大阅读时长且小于或等于下一信息集合对应的历史信息中最小阅读时长;所述第一预设值小于或等于第一个信息集合对应的历史信息中最小阅读时长,所述第二预设值大于或等于最后一个信息集合对应的历史信息中最大阅读时长;
分别为各阅读时长区间分配阅读时长权重。
3.根据权利要求1所述热度值获取方法,其特征在于,还包括:
获取各历史信息分别对应的字数以及各历史信息分别对应的阅读时长;
针对任一历史信息,基于该历史信息的字数、阅读时长以及待确定参数,获得该历史信息对应的误差值,以得到各历史信息分别对应的误差值的误差总和;所述待确定参数用于表征字数与阅读时长的关联关系;
在所述误差总和最小情况下,确定所述待确定参数的值。
4.根据权利要求1所述热度值获取方法,其特征在于,
若所述候选信息的阅读次数大于或等于第一阈值,所述候选信息的阅读时长是所述候选信息的多个实际阅读时长进行预设运算得到的;
若所述信息的阅读次数小于所述第一阈值,所述候选信息的阅读时长是基于预设的字数以及阅读时长的关联关系得到的。
5.根据权利要求1所述热度值获取方法,其特征在于,所述获取候选信息的第一参数包括:
获取所述候选信息的点击率以及展现量;
基于所述候选信息的点击率以及所述候选信息的展现量,获得所述候选信息的第二参数;所述候选信息的第二参数为指定置信水平下所述候选信息的置信区间的下限值;
基于所述候选信息的第二参数、所述候选信息的展现量以及预设的补偿值,获得所述候选信息的第一参数;所述补偿值用于修正所述候选信息的第二参数。
6.根据权利要求5所述热度值获取方法,其特征在于,还包括:
若所述候选信息的展现量小于或等于第二阈值,执行步骤基于所述候选信息的点击率以及所述候选信息的展现量,获得所述候选信息的第二参数;
若所述候选信息的展现量大于所述第二阈值,确定所述第一参数为所述候选信息的点击率。
7.根据权利要求1所述热度值获取方法,其特征在于,所述基于所述候选信息的第一参数以及阅读时长权重,获取所述候选信息的热度值包括:
基于所述候选信息的第一参数、阅读时长权重以及时长权重参数,获取所述候选信息的热度值;所述时长权重参数为大于0小于或等于1的正整数。
8.一种热度值获取装置,其特征在于,包括:
第一获取模块,用于获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
第二获取模块,用于基于预设的字数以及阅读时长的关联关系,获得具有目标字数的所述候选信息的阅读时长;从预设的各阅读时长区间中,确定所述候选信息的阅读时长所属的目标阅读时长区间;将所述目标阅读时长区间对应的预设的阅读时长权重,确定为所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
第三获取模块,用于基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
9.根据权利要求8所述热度值获取装置,其特征在于,所述装置还包括:
第二获取单元,用于获取多个有序的信息集合,每个信息集合对应有相同数目的历史信息;一个信息集合对应的历史信息中最小阅读时长大于上一信息集合对应的历史信息中最大阅读时长;
第三获取单元,用于获取各信息集合分别对应的阅读时长区间;第一个信息集合对应的阅读时长区间的下限值为第一预设值,除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值为上一信息集合对应的阅读时长区间的上限值;最后一个信息集合对应的阅读时长区间的上限值为第二预设值;除第一个信息集合以外的其他信息集合对应的阅读时长区间的下限值小于或等于该信息集合对应的历史信息中最小阅读时长且大于或等于上一信息集合对应的历史信息中最大阅读时长,除最后一个信息集合以外的其他信息集合对应的阅读时长区间的上限值大于或等于该信息集合对应的历史信息中最大阅读时长且小于或等于下一信息集合对应的历史信息中最小阅读时长;所述第一预设值小于或等于第一个信息集合对应的历史信息中最小阅读时长,所述第二预设值大于或等于最后一个信息集合对应的历史信息中最大阅读时长;
权重分配单元,用于分别为各阅读时长区间分配阅读时长权重。
10.根据权利要求8所述热度值获取装置,其特征在于,所述装置还包括:
第四获取单元,用于获取各历史信息分别对应的字数以及各历史信息分别对应的阅读时长;
第五获取单元,用于针对任一历史信息,基于该历史信息的字数、阅读时长以及待确定参数,获得该历史信息对应的误差值,以得到各历史信息分别对应的误差值的误差总和;所述待确定参数用于表征字数与阅读时长的关联关系;
第三确定单元,用于在所述误差总和最小情况下,确定所述待确定参数的值。
11.根据权利要求8所述热度值获取装置,其特征在于,若所述候选信息的阅读次数大于或等于第一阈值,所述候选信息的阅读时长是所述候选信息的多个实际阅读时长进行预设运算得到的;
若所述信息的阅读次数小于所述第一阈值,所述候选信息的阅读时长是基于预设的字数以及阅读时长的关联关系得到的。
12.根据权利要求8所述热度值获取装置,其特征在于,所述第一获取模块包括:
第六获取单元,用于获取所述候选信息的点击率以及展现量;
第七获取单元,用于基于所述候选信息的点击率以及所述候选信息的展现量,获得所述候选信息的第二参数;所述候选信息的第二参数为指定置信水平下所述候选信息的置信区间的下限值;
第八获取单元,用于基于所述候选信息的第二参数、所述候选信息的展现量以及预设的补偿值,获得所述候选信息的第一参数;所述补偿值用于修正所述候选信息的第二参数。
13.根据权利要求12所述热度值获取装置,其特征在于,所述装置还包括:
第九获取单元,用于若所述候选信息的展现量小于或等于第二阈值,执行步骤基于所述候选信息的点击率以及所述候选信息的展现量,获得所述候选信息的第二参数;
第十获取单元,用于若所述候选信息的展现量大于所述第二阈值,确定所述第一参数为所述候选信息的点击率。
14.根据权利要求8所述热度值获取装置,其特征在于,所述第三获取模块包括:
第十一获取单元,用于基于所述候选信息的第一参数、阅读时长权重以及时长权重参数,获取所述候选信息的热度值;所述时长权重参数为大于0小于或等于1的正整数。
15.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、至少一个通信接口、至少一个存储器以及至少一个通信总线,处理器、通信接口和存储器通过通信总线完成相互间的通信;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取候选信息的第一参数,所述第一参数表征所述候选信息的点击率;
基于预设的字数以及阅读时长的关联关系,获得具有目标字数的所述候选信息的阅读时长;
从预设的各阅读时长区间中,确定所述候选信息的阅读时长所属的目标阅读时长区间;
将所述目标阅读时长区间对应的预设的阅读时长权重,确定为所述候选信息的阅读时长权重获取所述候选信息的阅读时长权重,所述阅读时长权重与所述阅读时长呈现正相关;
基于所述第一参数以及所述阅读时长权重,获取所述候选信息的热度值。
16.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如上述权利要求1-7任一项所述的热度值获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172723.2A CN111666486B (zh) | 2019-03-07 | 2019-03-07 | 热度值获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172723.2A CN111666486B (zh) | 2019-03-07 | 2019-03-07 | 热度值获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666486A CN111666486A (zh) | 2020-09-15 |
CN111666486B true CN111666486B (zh) | 2023-10-03 |
Family
ID=72382114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910172723.2A Active CN111666486B (zh) | 2019-03-07 | 2019-03-07 | 热度值获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666486B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886517B (zh) * | 2021-12-08 | 2022-08-19 | 深圳市活力天汇科技股份有限公司 | 基于阅读时长的关键词加权方法、系统、设备及介质 |
CN114884916A (zh) * | 2022-04-22 | 2022-08-09 | 维沃移动通信有限公司 | 消息处理方法、装置、设备、介质及产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095399A (zh) * | 2015-07-06 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 搜索结果推送方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238225B2 (en) * | 2015-01-16 | 2022-02-01 | Hewlett-Packard Development Company, L.P. | Reading difficulty level based resource recommendation |
-
2019
- 2019-03-07 CN CN201910172723.2A patent/CN111666486B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095399A (zh) * | 2015-07-06 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 搜索结果推送方法及装置 |
Non-Patent Citations (2)
Title |
---|
Priyanka Rameshpant Gulhane 等.《TensorFlow Based Website Click through Rate (CTR) Prediction Using Heat maps》.《International Conference on Recent Trends in Advanced Computing (ICRTAC-CPS 2018)》.2018,全文. * |
王忠义 等.《基于点击率预测的微信公众号广告精准投放研究》.《知识管理论坛》.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111666486A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10405016B2 (en) | Recommending media items based on take rate signals | |
CN109145210B (zh) | 一种信息推荐的方法、装置及存储介质 | |
CN111767429B (zh) | 一种视频推荐方法、装置及电子设备 | |
CN109274987B (zh) | 一种视频集合排序方法、服务器及可读存储介质 | |
US10846613B2 (en) | System and method for measuring and predicting content dissemination in social networks | |
CN109359217B (zh) | 一种用户兴趣度计算方法、服务器及可读存储介质 | |
CN105095431A (zh) | 根据用户的行为信息推送视频的方法和装置 | |
CN108965951B (zh) | 广告的播放方法及装置 | |
WO2022007626A1 (zh) | 视频内容推荐方法、装置及计算机设备 | |
CN110933473A (zh) | 一种视频播放热度确定方法及装置 | |
CN111666486B (zh) | 热度值获取方法及装置 | |
CN106897398B (zh) | 一种视频展示方法及装置 | |
CN111107416A (zh) | 一种弹幕屏蔽方法、装置及电子设备 | |
CN111753239B (zh) | 一种资源分发方法、装置、电子设备及存储介质 | |
US11182418B2 (en) | Media content recommendation method and apparatus and storage medium | |
CN109348260B (zh) | 一种直播间推荐方法、装置、设备及介质 | |
CN109688217B (zh) | 一种消息推送方法、装置及电子设备 | |
CN112733014A (zh) | 推荐方法、装置、设备及存储介质 | |
CN110020129B (zh) | 点击率校正方法、预估方法、装置、计算设备及存储介质 | |
CN111565322B (zh) | 一种用户情感倾向信息获得方法、装置及电子设备 | |
CN110309361B (zh) | 一种视频评分的确定方法、推荐方法、装置及电子设备 | |
CN110674412A (zh) | 资源的推荐信息推送方法及装置、电子设备 | |
CN113129067B (zh) | 信息筛选方法、装置、设备、存储介质及计算机程序产品 | |
CN110309398A (zh) | 用户数据处理方法、装置、计算设备以及存储介质 | |
CN110347918A (zh) | 基于用户行为数据的数据推荐方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |