CN112291297B - 资讯数据的处理方法、装置、存储介质以及电子设备 - Google Patents

资讯数据的处理方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN112291297B
CN112291297B CN202010921384.6A CN202010921384A CN112291297B CN 112291297 B CN112291297 B CN 112291297B CN 202010921384 A CN202010921384 A CN 202010921384A CN 112291297 B CN112291297 B CN 112291297B
Authority
CN
China
Prior art keywords
parameter
data
click
target information
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010921384.6A
Other languages
English (en)
Other versions
CN112291297A (zh
Inventor
黄海峰
张皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010921384.6A priority Critical patent/CN112291297B/zh
Publication of CN112291297A publication Critical patent/CN112291297A/zh
Application granted granted Critical
Publication of CN112291297B publication Critical patent/CN112291297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Abstract

本申请公开了一种资讯数据的处理方法、装置、存储介质以及电子设备,该方法根据当前周期内的用户点击数据和上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数;并根据当前周期内的用户曝光数据和上一个周期的衰减曝光参数,计算得到当前周期的衰减曝光参数;根据当前周期的衰减点击参数和衰减曝光参数,计算得到在当前周期的资讯质量参数,作为评估当前目标资讯的推荐程度的参数。本申请中的资讯质量参数是使用当前周期的用户点击数据、衰减曝光参数、以及上一个周期的衰减点击参数和衰减曝光参数得到的,计算出的资讯质量参数可靠性更高,且由于不需人工参与设置,效率更高。

Description

资讯数据的处理方法、装置、存储介质以及电子设备
技术领域
本申请涉及资讯推荐技术领域,尤其涉及一种资讯数据的处理方法、装置、存储介质以及电子设备。
背景技术
资讯质量参数是一个用于说明资讯质量的优劣的参数,通常应用于资讯推荐系统中。具体地,为服务器中需要下发的每一个资讯设置了资讯质量参数后,资讯推荐系统即可通过资讯所对应的资讯质量参数,使用推荐算法,计算得到资讯的推荐度,并按照资讯推荐度,向用户推荐资讯。
现有技术中,资讯质量参数通常是人为进行设置的。工作人员根据当前的资讯热点以及个人经验等因素,设置资讯对应的资讯质量参数。然而,当需要进行设置的新闻、短视频、音乐等资讯的数目非常多时,设置资讯质量参数所需耗费的人力太大,设置效率较低。且人为设置资讯质量参数的方式主要依赖于个人的经验,设置标准不够明确,最终设置出的资讯质量参数的可靠性较低,不能够很好的反映资讯质量的优劣。
发明内容
基于上述现有技术的缺点,本申请提供一种资讯数据的处理方法、装置、存储介质以及电子设备,以提高资讯质量参数的可靠性。
本申请第一方面公开了一种资讯数据的处理方法,包括:
实时获取目标资讯在当前周期内的用户点击数据和用户曝光数据、以及所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数;其中,所述用户点击数据为用户点击所述目标资讯时产生的数据;所述用户曝光数据为向用户展示所述目标资讯时所产生的数据;所述目标资讯在上一个周期的衰减点击参数根据当前周期之前的每一个周期的用户点击数据计算得到;所述目标资讯在上一个周期的衰减曝光参数根据当前周期之前的每一个周期的用户曝光数据计算得到;
根据所述目标资讯在当前周期内的用户点击数据和所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数;并根据所述目标资讯在当前周期内的用户曝光数据和所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减曝光参数;
根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数;
将所述目标资讯在当前周期的资讯质量参数作为评估当前所述目标资讯的推荐程度的参数。
可选地,在上述资讯数据的处理方法中,所述实时获取目标资讯在当前周期的用户点击数据和用户曝光数据、以及所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数,包括:
从所述开源数据流处理平台实时收集到的用户点击数据和用户曝光数据中,实时读取所述目标资讯在当前周期内的用户点击数据和用户曝光数据;并从写入所述开源数据流处理平台的当前周期之前的每一个周期的衰减点击参数和衰减曝光参数中,读取所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数。
可选地,在上述资讯数据的处理方法中,所述根据所述目标资讯在当前周期的用户点击数据和所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数;并根据所述目标资讯在当前周期的用户曝光数据和所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减曝光参数之后,还包括:
将所述目标资讯在当前周期的衰减点击参数以及所述目标资讯在当前周期的衰减曝光参数写入所述开源数据流处理平台。
可选地,在上述资讯数据的处理方法中,所述从所述开源数据流处理平台实时收集到的用户点击数据和用户曝光数据中,实时读取所述目标资讯在当前周期内的用户点击数据和用户曝光数据;并从写入所述开源数据流处理平台的当前周期之前的每一个周期的衰减点击参数和衰减曝光参数中,读取所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数,包括:
若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入所述存储空间的数据的游标位置;
从所述开源数据流处理平台中的、所述最后一次写入所述存储空间的数据的游标位置的下一个游标位置开始读取数据;所述读取的数据包括:用户点击数据、用户曝光数据、衰减点击参数和衰减曝光参数。
可选地,在上述资讯数据的处理方法中,所述根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数之后,还包括:
将所述目标资讯在所述当前周期的衰减点击参数、所述当前周期的衰减曝光参数、以及所述当前周期的资讯质量参数备份存储至所述存储空间;
其中,若出现宕机状态、且处于宕机状态的时间大于宕机阈值,则在宕机状态结束时,从所述存储空间中加载出最后一次备份存储的衰减点击参数和衰减曝光参数,并从所述开源数据流处理平台中加载出处于宕机状态的时间段内的所有用户点击数据和用户曝光数据;通过加载出的备份存储的衰减点击参数和衰减曝光参数、以及处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,计算得到所述目标资讯在当前周期的资讯质量参数。
可选地,在上述资讯数据的处理方法中,所述根据所述目标资讯在当前周期的用户点击数据和所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数,包括:
根据所述目标资讯在当前周期的用户点击数据、以及经过衰减系数进行衰减处理过的所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数;
所述根据所述目标资讯在当前周期的用户曝光数据和所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减曝光参数,包括:
根据所述目标资讯在当前周期的用户曝光数据、以及经过衰减系数进行衰减处理过的所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减点击参数。
可选地,在上述资讯数据的处理方法中,所述根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数,包括:
根据所述目标资讯在当前周期的衰减点击参数与衰减曝光参数的比值,计算得到所述目标资讯在当前周期的资讯质量参数。
本申请第二方面公开了一种资讯数据的处理装置,包括:
第一获取单元,用于实时获取目标资讯在当前周期内的用户点击数据和用户曝光数据、以及所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数;其中,所述用户点击数据为用户点击所述目标资讯时产生的数据;所述用户曝光数据为向用户展示所述目标资讯时所产生的数据;所述目标资讯在上一个周期的衰减点击参数根据当前周期之前的每一个周期的用户点击数据计算得到;所述目标资讯在上一个周期的衰减曝光参数根据当前周期之前的每一个周期的用户曝光数据计算得到;
第一计算单元,用于根据所述目标资讯在当前周期内的用户点击数据和所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数;并根据所述目标资讯在当前周期内的用户曝光数据和所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减曝光参数;
第二计算单元,用于根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数;
评估单元,用于将所述目标资讯在当前周期的资讯质量参数作为评估当前所述目标资讯的推荐程度的参数。
可选地,在上述资讯数据的处理装置中,所述第一获取单元,包括:
第一读取子单元,用于从所述开源数据流处理平台实时收集到的用户点击数据和用户曝光数据中,实时读取所述目标资讯在当前周期内的用户点击数据和用户曝光数据;并从写入所述开源数据流处理平台的当前周期之前的每一个周期的衰减点击参数和衰减曝光参数中,读取所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数。
可选地,在上述资讯数据的处理装置中,还包括:
写入单元,用于将所述目标资讯在当前周期的衰减点击参数以及所述目标资讯在当前周期的衰减曝光参数写入所述开源数据流处理平台。
可选地,在上述资讯数据的处理装置中,所述第一读取子单元,包括:
第二读取子单元,用于若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入所述存储空间的数据的游标位置;
第三读取子单元,用于从所述开源数据流处理平台中的、所述最后一次写入所述存储空间的数据的游标位置的下一个游标位置开始读取数据;所述读取的数据包括:用户点击数据、用户曝光数据、衰减点击参数和衰减曝光参数。
可选地,在上述资讯数据的处理装置中,还包括:
存储单元,用于将所述目标资讯在所述当前周期的衰减点击参数、所述当前周期的衰减曝光参数、以及所述当前周期的资讯质量参数备份存储至所述存储空间;其中,若出现宕机状态、且处于宕机状态的时间大于宕机阈值,则在宕机状态结束时,从所述存储空间中加载出最后一次备份存储的衰减点击参数和衰减曝光参数,并从所述开源数据流处理平台中加载出处于宕机状态的时间段内的所有用户点击数据和用户曝光数据;通过加载出的备份存储的衰减点击参数和衰减曝光参数、以及处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,计算得到所述目标资讯在当前周期的资讯质量参数。
可选地,在上述资讯数据的处理装置中,所述第一计算单元执行根据所述目标资讯在当前周期的用户点击数据和所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数时,用于:
第一计算子单元,用于根据所述目标资讯在当前周期的用户点击数据、以及经过衰减系数进行衰减处理过的所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数;
所述第一计算单元执行根据所述目标资讯在当前周期的用户曝光数据和所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减曝光参数时,用于:
根据所述目标资讯在当前周期的用户曝光数据、以及经过衰减系数进行衰减处理过的所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减点击参数。
可选地,在上述资讯数据的处理装置中,所述第二计算单元,包括:
第二计算子单元,用于根据所述目标资讯在当前周期的衰减点击参数与衰减曝光参数的比值,计算得到所述目标资讯在当前周期的资讯质量参数。
本申请第三方面公开了一种计算机存储介质,用于存储程序,所述程序被执行时,用于实现如上述第一方面任意一项所述的资讯数据的处理方法。
本申请第四方面公开了一种电子设备,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述第一方面任意一项所述的资讯数据的处理方法。
从上述技术方案可以看出,本申请实施例提出的一种资讯数据的处理方法中,由于目标资讯在当前周期的资讯质量参数是由目标资讯在当前周期的衰减点击参数、以及目标资讯在当前周期的衰减曝光参数得到的,而目标资讯在当前周期的衰减点击参数又是根据目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数计算得到的,目标资讯在当前周期的衰减曝光参数又是根据目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数计算得到的,因此相较于现有技术中按照个人经验人工设置目标资讯的资讯质量参数,本申请实施例中的目标资讯的资讯质量参数使用到了当前周期的用户点击数据、当前周期的衰减曝光参数、上一个周期的衰减点击参数以及上一个周期的衰减曝光参数计算得到,因此计算出的目标资讯的资讯质量参数可靠性更高,且效率更高。并且由于本申请实施例中的目标资讯的资讯质量参数是按照周期实时计算得到的,将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数,能够更好的反映资讯质量的优劣。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种资讯数据的处理方法的流程示意图;
图2为本申请实施例公开的一种资讯数据的处理系统的结构示意图;
图3为本申请实施例公开的一种资讯数据的处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,本申请实施例公开了一种资讯数据的处理方法,应用于服务器,该方法具体包括以下步骤:
S101、实时获取目标资讯在当前周期内的用户点击数据和用户曝光数据、以及目标资讯在上一个周期的衰减点击参数和衰减曝光参数。
其中,用户点击数据为用户点击目标资讯时产生的数据,用户曝光数据为向用户展示目标资讯时所产生的数据。目标资讯在上一个周期的衰减点击参数根据当前周期之前的每一个周期的用户点击数据计算得到。目标资讯在上一个周期的衰减曝光参数根据当前周期之前的每一个周期的用户曝光数据计算得到。
具体地,目标资讯指的是需要计算资讯质量参数的资讯。资讯指的是新闻、短视频、音乐等等可供用户进行浏览的信息。用户通过用户终端看到了服务器下发的资讯,即产生了用户曝光数据。举例说明,用户通过启动、下拉、刷新、滑屏等行为,触发生成资讯请求,并向服务器发送资讯请求,服务器响应资讯请求为向用户对应的用户终端下发资讯。如果服务器给用户下发了8条资讯,但是受用户终端的显示屏尺寸限制,最多展示了5条资讯,则这5条资讯均分别产生了曝光数据,这5条资讯的曝光次数均为1。而另外 3条资讯由于没有被展示给用户看,因此这3条资讯均没有产生曝光数据,曝光次数均为0。而用户在看到服务器下发的资讯后,点击该资讯进行浏览,即产生了该资讯的用户点击数据。
可选地,为了提高最终计算得到的资讯质量参数的可靠性,服务器下发的资讯曝光展示在用户终端后,用户对该资讯重复进行点击所产生的用户点击数据仅获取第一次点击时产生的用户点击数据。即周期内实时获取到的用户曝光数据的数量会大于或等于用户点击数据。如果资讯的质量越好,那么获取到的用户点击数据的个数就会越接近于获取到的用户曝光数据的次数。即资讯展示给用户之后,选择点击浏览该资讯的概率越大,代表着资讯的质量越好。
可选地,用户曝光数据可以由用户的标识、目标资讯曝光的时间等数据组成。用户点击数据也可以由用户的标识、目标资讯被用户点击的时间等数据组成。
执行步骤S101的过程中,服务器获取的目标资讯在上一个周期的衰减点击参数是根据当前周期之前的每一个周期的用户点击数据计算得到,能够衡量目标资讯在当前周期之前的点击情况。而目标资讯在上一个周期的衰减曝光参数是根据当前周期之前的每一个周期的用户曝光数据计算得到的,能够衡量目标资讯在当前周期之前的曝光情况。
可选地,在本申请一具体实施例中,目标资讯在上一个周期的衰减点击参数
Figure BDA0002666860300000081
其中,sum-click(n-1)为目标资讯上一个周期的衰减点击参数,上一个周期为第n-1个周期,click(j)为第j个周期内的用户点击数据的总数,γ为衰减系数。
可选地,在本申请一具体实施例中,目标资讯在上一个周期的衰减曝光参数
Figure BDA0002666860300000082
其中,sum-impression(n-1)为目标资讯上一个周期的衰减点击参数,上一个周期为第n-1个周期, sum-impression(n-1)为第j个周期内的用户点击数据的总数,γ为衰减系数。
可选地,在本申请一具体实施例中,执行步骤S101的一种实施方式,包括:
从开源数据流处理平台实时收集到的用户点击数据和用户曝光数据中,实时读取目标资讯在当前周期内的用户点击数据和用户曝光数据,并从写入开源数据流处理平台的当前周期之前的每一个周期的衰减点击参数和衰减曝光参数中,读取目标资讯在上一个周期的衰减点击参数和衰减曝光参数。
具体地,用户终端实时向服务器中的开源数据流处理平台上报目标资讯的用户点击数据和用户曝光数据,开源数据流处理平台实时对上报的目标资讯的用户点击数据和用户曝光数据进行收集并存储。进而能够在计算当前周期的衰减点击参数和衰减曝光参数的过程中,从开源数据流处理平台中实时读取目标资讯在当前周期内的用户点击数据和用户曝光数据。
并且服务器在计算每一个周期的衰减点击参数和衰减曝光参数之后,会将计算得到的每一个周期的衰减点击参数和衰减曝光参数写入开源数据流处理平台中。进而使得服务器在计算当前周期的资讯质量参数的过程中,能够从开源数据流处理平台中实时读取目标资讯在当前周期内的用户点击数据和用户曝光数据,并从开源数据流处理平台中读取到目标资讯在上一个周期的衰减点击参数和衰减曝光参数。
可选地,从开源数据流处理平台中实时读取目标资讯在当前周期内的用户点击数据和用户曝光数据之后,还可以将读取到的用户点击数据和用户曝光数据处理成标准格式,便于后续使用用户点击数据和用户曝光数据进行计算。
可选地,在本申请一具体实施例中,从开源数据流处理平台实时收集到的用户点击数据和用户曝光数据中,实时读取目标资讯在当前周期内的用户点击数据和用户曝光数据,并从写入开源数据流处理平台的当前周期之前的每一个周期的衰减点击参数和衰减曝光参数中,读取目标资讯在上一个周期的衰减点击参数和衰减曝光参数的一种实施方式,包括:
若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入存储空间的数据的游标位置,从开源数据流处理平台中的、最后一次写入存储空间的数据的游标位置的下一个游标位置开始读取数据。
其中,读取的数据包括:用户点击数据、用户曝光数据、衰减点击参数和衰减曝光参数。具体地,将当前读取到的数据的游标位置写入存储空间中。数据的游标位置用于说明当前读取到的数据在所有需要读取的数据中的次序。在当前周期内,读取到的数据有用户点击数据、用户曝光数据以及上一个周期的衰减点击参数和衰减曝光参数,通过写入当前读取到的数据的游标位置,记录当前读取到的数据在需要读取到的所有数据中的次序,进而能够实现当出现宕机状态时,可以在宕机状态结束时通过从存储空间中读取查看最后一次写入的数据的游标位置,确定出最后读取到的是哪一个数据,进而可以从该数据次序之后的数据开始继续读取,使得宕机状态可不影响开源集群运算框架在恢复正常工作状态之后的工作。
具体的,若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入存储空间的数据的游标位置,并从开源数据流处理平台中的最后一次写入存储空间的数据的游标位置的下一个游标位置所对应的数据开始读取。
其中,宕机阈值可人为进行设置。处于宕机状态的时间段内,不能够对数据进行任何的处理。如果出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则认为开源集群运算框架仅仅是少读取了一些数据,即宕机状态延误执行步骤S101,仅仅影响到了读取任务步骤。因此只需在重新启动后即可恢复正常运作,结束宕机状态。在宕机状态结束时,从存储空间中读取最后一次写入存储空间的数据的游标位置,确定出了在宕机状态出现之前最后一次读取到的数据,即读取任务的具体进度,进而可以接着开源数据流处理平台中的、最后一次写入存储空间的数据的游标位置的下一个游标位置开始读取数据,回复到正常运行状态。
现有技术中,如果出现宕机状态,则很容易出现丢失实时读取数据的任务进度的情况,导致无法继续执行任务。而本申请实施例中,由于实时将读取到的数据的游标位置写入存储空间中,实现了实时记录读取任务进度,使得在出现宕机状态时,可以在宕机状态结束时从存储空间中读取到最后一次写入存储空间的数据的游标位置,进而可接着从开源数据流处理平台中的最后一次写入存储空间的数据的游标位置的下一个游标位置所对应的数据开始读取,继续执行读取任务。
S102、根据目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数,并根据目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减曝光参数。
本申请实施例中,目标资讯的衰减点击参数是周期性进行更新计算的。当前周期内所获取到的用户点击数据能够在一定程度上反映目标资讯在当前周期内的点击情况。而上一个周期的衰减点击参数又是根据当前周期之前的每一个周期的用户点击数据计算得到的,能够整体反映出目标资讯在当前周期之前的点击水平。进而通过目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数所计算得到的目标资讯在当前周期的衰减点击参数,能够准确反映出目标资讯的点击水平。目标资讯在当前周期的衰减点击参数是考虑了当前周期内获取到的用户点击数据、以及当前周期之前的每一个周期内所获取到的用户点击数据计算得到的,因此可准确的衡量目标资讯整体的点击水平。
同样的,目标资讯的衰减曝光参数也是周期性进行更新计算的。当前周期内所获取到的用户曝光数据能够在一定程度上反映目标资讯在当前周期内的曝光情况。而上一个周期的衰减曝光参数又是根据当前周期之前的每一个周期的用户曝光数据计算得到的,能够整体反映出目标资讯在当前周期之前的曝光水平。进而通过目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数所计算得到的目标资讯在当前周期的衰减曝光参数,能够准确反映出目标资讯的曝光水平。目标资讯在当前周期的衰减曝光参数是考虑了当前周期内获取到的用户曝光数据、以及当前周期之前的每一个周期内所获取到的用户曝光数据计算得到的,因此可准确的衡量目标资讯整体的曝光水平。
可选地,在本申请一具体实施例中,执行步骤S102中根据所述目标资讯在当前周期的用户点击数据和所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数的一种实施方式,包括:
根据目标资讯在当前周期的用户点击数据、以及经过衰减系数进行衰减处理过的上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数。
由于上一个周期的衰减点击参数所具有的效用是有所衰减的,因此考虑到效用衰减的问题,使用衰减系数对上一个周期的衰减点击参数进行衰减处理,得到处理过的上一个周期的衰减点击参数。通过目标资讯在当前周期的用户点击数据、以及经过衰减系数进行衰减处理过的上一个周期的衰减点击参数进行计算所计算得到的目标资讯在当前周期的衰减点击参数能够准确反映出目标资讯的点击水平,进而能够得到更为准确的目标资讯的资讯质量参数。
可选地,在本申请一具体实施例中,执行步骤S102中的根据目标资讯在当前周期的用户点击数据和上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数,包括:
将目标资讯在当前周期的用户点击数据和上一个周期的衰减点击参数代入至第一公式中,计算得到目标资讯在当前周期的衰减点击参数。
其中,第一公式为:
Figure BDA0002666860300000121
sum-click(n)为目标资讯在当前周期的衰减点击参数,当前周期为第n个周期,sum-click(n-1)为目标资讯上一个周期的衰减点击参数,上一个周期为第 n-1个周期,γ为衰减系数,click(n)为第n个周期内的用户点击数据的总数, click(j)为第j个周期内的用户点击数据的总数。
衰减系数γ的值说明了目标资讯在多少个周期后效用将衰减成原来的一半,可人为通过多次试验进行设定。目标资讯的用户点击数据和用户曝光数据均会受到时间的影响,通常目标资讯在刚出现时的用户点击数据会较高,多个周期之后,目标资讯的关注度就会下降,用户点击数据也会相应的减少。因此,在计算目标资讯在当前周期的衰减点击参数,也需要考虑目标资讯的效用会随时间衰减的因素。由于第一公式中使用到了衰减系数,考虑到了目标资讯的效用会随时间衰减,因此得到的目标资讯在当前周期的衰减点击参数能够准确反映出目标资讯的点击水平,进而能够得到更为准确的目标资讯的资讯质量参数。
可选地,在本申请一具体实施例中,根据目标资讯在当前周期的用户曝光数据和上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减曝光参数的一种实施方式,包括:
根据目标资讯在当前周期的用户曝光数据、以及经过衰减系数进行衰减处理过的上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减点击参数。
由于上一个周期的衰减曝光参数所具有的效用是有所衰减的,因此考虑到效用衰减的问题,使用衰减系数对上一个周期的衰减曝光参数进行衰减处理,得到处理过的上一个周期的衰减曝光参数。通过目标资讯在当前周期的用户点击数据、以及经过衰减系数进行衰减处理过的上一个周期的衰减曝光参数进行计算所计算得到的目标资讯在当前周期的衰减曝光参数能够准确反映出目标资讯的曝光水平,进而能够得到更为准确的目标资讯的资讯质量参数。
可选地,在本申请一具体实施例中,根据目标资讯在当前周期的用户曝光数据和上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减曝光参数的一种实施方式,包括:
将目标资讯在当前周期的用户曝光数据和上一个周期的衰减曝光参数代入至第二公式中,计算得到目标资讯在当前周期的衰减曝光参数。其中,第二公式为:
Figure BDA0002666860300000131
sum-impression(n)为目标资讯在当前周期的衰减曝光参数,当前周期为第n 个周期,sum-impression(n-1)为目标资讯上一个周期的衰减曝光参数,上一个周期为第n-1个周期,γ为衰减系数,impression(n)为第n个周期内的用户曝光数据的总数,impression(j)为第j个周期内的用户曝光数据的总数。
目标资讯的用户点击数据和用户曝光数据均会受到时间的影响,通常目标资讯在刚出现时的用户曝光数据会较高,多个周期之后,目标资讯的关注度就会下降,用户曝光数据也会相应的减少。因此,在计算目标资讯在当前周期的衰减曝光参数,也需要考虑目标资讯的效用会随时间衰减的因素。由于第一公式中使用到了衰减系数,考虑到了目标资讯的效用会随时间衰减,因此得到的目标资讯在当前周期的衰减曝光参数能够准确反映出目标资讯的曝光水平,进而能够得到更为准确的目标资讯的资讯质量参数。
需要说明的是,计算目标资讯在当前周期的衰减点击参数和计算目标资讯在当前周期的衰减曝光参数的先后顺序不影响本申请实施例的实现。
可选地,在本申请一具体实施例中,执行步骤S102之后,还包括:
将目标资讯在当前周期的衰减点击参数以及目标资讯在当前周期的衰减曝光参数写入开源数据流处理平台。
将目标资讯在当前周期的衰减点击参数以及目标资讯在当前周期的衰减曝光参数写入开源数据流处理平台,即将每一个周期计算得到的衰减点击参数和衰减曝光参数写入至开源数据流处理平台中,使得开源数据流处理平台中存储有每一个周期计算得到的衰减点击参数和衰减曝光参数。当需要计算当前周期的衰减点击参数和计算目标资讯在当前周期的衰减曝光参数时,则可以从开源数据流处理平台中读取到当前周期的用户点击数据、用户曝光数据、以及上一个周期的衰减点击参数和衰减曝光参数,进而实现计算出当前周期的资讯质量参数。
S103、根据目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数。
通过步骤S101和步骤S102可知,本申请实施例中的当前周期的衰减点击参数是通过当前周期的用户点击数据以及上一个周期的衰减点击参数计算得到的,因此当前周期的用户点击数据所反映出的目标资讯的点击情况,能够体现到目标资讯在当前周期的衰减点击参数上。
同样的,本申请实施例中的当前周期的衰减曝光参数是通过当前周期的用户曝光数据以及上一个周期的衰减曝光数据计算得到的,因此当前周期的用户曝光数据所反映出的用户资讯的曝光情况,能够体现到目标资讯在当前周期的衰减曝光参数上。因此执行步骤S103时,通过目标资讯在当前周期的衰减点击参数和衰减曝光参数,所计算得到的目标资讯在当前周期的资讯质量参数,能够让当前用户作用在资讯的用户点击数据和用户曝光数据反馈到了当前周期的资讯质量参数上,通过实时更新最新一个周期的资讯质量参数的方式,提高了资讯质量参数的准确性和可靠性,使得资讯质量参数能够更好的反映出资讯质量的优劣。
可选地,在本申请一具体实施例中,执行步骤S103之后,还包括:
将目标资讯在当前周期的衰减点击参数、当前周期的衰减曝光参数、以及当前周期的资讯质量参数备份存储至存储空间。其中,若出现宕机状态、且处于宕机状态的时间大于宕机阈值,则在宕机状态结束时,从存储空间中加载出最后一次备份存储的衰减点击参数和衰减曝光参数,并从开源数据流处理平台中加载出处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,通过加载出的备份存储的衰减点击参数和衰减曝光参数、以及处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,计算得到目标资讯在当前周期的资讯质量参数。
由于本申请实施例中的资讯质量参数是一个历史累积用户点击数据和用户曝光数据的计算值,因此任意一次数据丢失都会影响到资讯质量参数的计算。将目标资讯在当前周期的衰减点击参数、当前周期的衰减曝光参数、以及当前周期的资讯质量参数备份存储至存储空间中,可以使得当出现数据丢失的情况时,能够通过存储空间中备份存储的衰减点击参数、衰减曝光参数、处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,可以消除数据丢失对计算资讯质量参数的影像,提供系统的容错率。
具体的,如果出现宕机状态、且处于宕机状态的时间大于宕机阈值,则说明宕机时间过长,除了影响到读取任务,还影响到了计算资讯质量参数的计算任务,即处于宕机状态的时间内,除了缺少实时需读取的数据,还缺少需计算的周期的资讯质量参数。因此需要在宕机状态结束时,通过开源集群运算框架从存储空间中加载出最后一次备份存储的目标资讯的衰减点击参数和衰减曝光参数,并从开源数据流处理平台中加载出处于宕机状态的时间段内的所有用户点击数据和用户曝光数据。
将目标资讯在每一个周期的衰减点击参数、衰减曝光参数、以及资讯质量参数均备份存储至了存储空间,因此能够在处于宕机状态的时间大于宕机阈值的情况下,从存储空间中加载出最后一次备份存储的目标资讯的衰减点击参数和衰减曝光参数,然后结合开源数据流处理平台中加载出开源集群运算框架处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,迭代算出当前周期的资讯质量参数。到下一个周期开始正常执行步骤S101至步骤 S104。
由于本申请实施例中,为了增加目标资讯的资讯质量参数的可靠性以及准确性,所计算出的资讯质量参数是会按照周期实时更新的,且计算出的最新的资讯质量参数有考虑到了之前每一个周期的用户点击数据和用户曝光数据,因此如果出现宕机状态,且处于宕机状态的时间大于阈值,就会导致没有计算得到上一个周期的衰减点击参数和衰减曝光参数,无法计算出当前周期的资讯质量参数。因此为了在处于宕机状态的时间大于宕机阈值的情况下,能够计算出当前周期的资讯质量参数,需要对每一个周期的衰减点击参数、衰减曝光参数、以及资讯质量参数进行备份存储,使得在开源集群运算框架的宕机状态结束时,能够从存储空间中加载出最后一次备份存储的目标资讯的衰减点击参数和衰减曝光参数,并从开源数据流处理平台中加载出开源集群运算框架处于宕机状态的时间段内的所有用户点击数据和用户曝光数据。
通过最后一次备份存储的目标资讯的衰减点击参数和衰减曝光参数、以及处于宕机状态的时间段内的所有用户点击数据和用户曝光数据快速迭代计算出当前周期的衰减点击参数和衰减曝光参数,然后根据当前周期的衰减点击参数和衰减曝光参数,计算得到当前周期的目标资讯的资讯质量参数。得到当前周期的资讯质量参数后,服务器继续执行步骤S101至步骤S104。
可选地,在本申请一具体实施例中,执行步骤S103的一种实施方式,包括:
根据目标资讯在当前周期的衰减点击参数与衰减曝光参数的比值,计算得到目标资讯在当前周期的资讯质量参数。
相同的衰减曝光参数下,衰减点击参数越高,说明目标资讯的质量越高,因此可以使用目标资讯在当前周期的衰减点击参数与衰减曝光参数的比值,来计算目标资讯在当前周期的资讯质量参数。
可选地,可以将目标资讯在当前周期的衰减点击参数和衰减曝光参数代入至第三公式中,计算得到所述目标资讯在当前周期的资讯质量参数。其中,第三公式为:
Figure RE-GDA0002864532550000161
GMP(n)为目标资讯在当前周期的资讯质量参数。sum-click(n)为目标资讯在当前周期的衰减点击参数, sum-impression(n)为目标资讯在当前周期的衰减曝光参数,当前周期为第n 个周期。GMP(n)的值越大,则说明目标资讯的质量越高。
S104、将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数。
用于计算目标资讯的资讯质量参数所使用到的用户点击数据和用户曝光数据越多,所得到的目标资讯的资讯质量参数的可靠性和准确性会越高,由于当前周期的资讯质量参数除了使用到了当前周期之前的每一个周期的用户点击数据和用户曝光数据,还使用到了当前周期的点击数据和曝光数据,因此目标资讯在当前周期的资讯质量参数的可靠性和准确性会高于之前周期所计算得到的资讯质量参数。因此使用目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数,更能够准确评估出目标资讯的推荐程度。
需要说明的是,评估目标资讯推荐程度的参数除了有当前周期的资讯质量参数之外,还可以有其他的参数,即既可以仅由当前周期的资讯质量参数来评估目标资讯的推荐程度,也可以通过当前周期的资讯质量参数和其他参数共同评估目标资讯的推荐程度。
将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数之后,可以按照目标资讯的推荐程度,对多个目标资讯进行排序,服务器在为用户下发目标资讯时,可以优先下发推荐程度高的目标资讯,使得推荐程度高的目标资讯能够优先曝光,体用用户浏览目标资讯的使用体验。
除此之外,将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数之后,也可以根据目标资讯的推荐程度,筛选出推荐程度高的多个目标资讯,作为热点资讯。服务器可以为用户下发推送热点资讯,提高用户的浏览体验。
可选地,在本申请一具体实施例中,执行图1示出的实施例的可以是服务器中的开源集群运算框架。其中,开源集群运算框架可以使用火花流(Spark Streaming)框架,开源数据流处理平台可以使用卡夫卡(Kafka),存储空间可以是远程字典服务(Redis)、分布式文件系统(HDFS)、分布式系统的可靠协调系统(Zookeeper)等实现数据存储。
举例说明,参阅图2,本申请实施例的资讯数据的处理过程可以是:卡夫卡实时收集上报的用户点击数据和用户曝光数据,并将收集到的用户点击数据存储在点击主题中以及将收集到的用户曝光数据存储在曝光主题中。此外,火花流中的资讯质量参数流任务部分会不断将每一个周期的衰减点击参数和衰减曝光参数写入至卡夫卡中,由卡夫卡中的历史资讯质量参数主题进行接收并存储。火花流启动数据流任务之后,点击数据流任务会不断从卡夫卡中的点击主题中实时读取当前周期内的用户点击数据,而曝光数据流任务则从卡夫卡中的曝光主题中实时读取当前周期内的用户曝光数据,历史资讯质量参数流任务则从卡夫卡中的历史资讯质量参数主题中读取上一个周期的衰减点击参数和衰减曝光参数。火花流读取并处理完当前周期内的用户曝光数据、用户点击数据以及上一个周期的衰减点击参数和衰减曝光参数之后,会执行资讯质量参数流任务,根据目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数,并根据目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减曝光参数,然后根据目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到目标资讯在当前周期的资讯质量参数。火花流中的资讯质量参数流任务将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数,写入到存储空间内的远程字典服务中。推荐系统可以从远程字典服务中读取到每一个周期的资讯质量参数,然后用于计算目标资讯的推荐程度等应用场景中。火花流中的资讯质量参数任务还将目标资讯在当前周期的衰减点击参数和衰减曝光参数写入到卡夫卡中的历史资讯质量参数主题中,以便在下一个周期的资讯质量参数的计算中使用。
图2示出的实施例中,火花流中的点击数据流任务、曝光数据流任务以及历史资讯质量参数流任务中读取到的数据的游标位置还会被写入分布式系统的可靠协调系统,以使得在火花流出现宕机状态,且处于宕机状态的时间小于或等于宕机阈值时,可以从分布式系统的可靠协调系统读取最后一次写入的游标位置,然后接着下一个游标位置开始继续从卡夫卡中读取数据。火花流中的资讯质量参数流任务还将目标资讯在当前周期的衰减点击参数、衰减曝光参数以及资讯质量参数备份存储至存储空间中的分布式文件系统中,以使得在火花流出现宕机状态,且处于宕机状态的时间大于宕机阈值时,可以从分布式文件系统中加载出最后一次备份的衰减点击参数和收件曝光参数,并从卡夫卡中的点击主题和曝光主题中加载出处于宕机状态的时间内的用户点击数据和用户曝光数据,进而使得资讯质量参数流任务能够根据加载出的数据迭代算出当前周期的衰减点击参数和衰减曝光参数,最终计算出当前周期的资讯质量参数。
需要说明的是,本申请实施例中所提出的资讯数据处理方法中,对每一个周期的资讯数据的处理过程均是相同的,均是执行步骤S101至步骤S104,通过本申请实施例中所提出的资讯数据处理方法可以得到每一个周期的资讯质量参数,不断更新用于评估目标资讯的推荐程度的资讯质量参数。
本申请实施例提出的一种资讯数据的处理方法中,由于目标资讯在当前周期的资讯质量参数是由目标资讯在当前周期的衰减点击参数、以及目标资讯在当前周期的衰减曝光参数得到的,而目标资讯在当前周期的衰减点击参数又是根据目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数计算得到的,目标资讯在当前周期的衰减曝光参数又是根据目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数计算得到的,因此相较于现有技术中按照个人经验设置目标资讯的资讯质量参数,本申请实施例中的目标资讯的资讯质量参数使用到了当前周期的用户点击数据、当前周期的衰减曝光参数、上一个周期的衰减点击参数以及上一个周期的衰减曝光参数计算得到,因此计算出的目标资讯的资讯质量参数可靠性更高,且效率更高。并且由于本申请实施例中的目标资讯的资讯质量参数是按照周期实时计算得到的,将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数,能够更好的反映资讯质量的优劣。
参阅图3,基于上述本申请实施例提出的资讯数据的处理方法,本申请实施例对应公开了一种资讯数据的处理装置,包括:第一获取单元301、第一计算单元302、第二计算单元303以及评估单元304。
第一获取单元301,用于实时获取目标资讯在当前周期内的用户点击数据和用户曝光数据、以及目标资讯在上一个周期的衰减点击参数和衰减曝光参数。其中,用户点击数据为用户点击目标资讯时产生的数据,用户曝光数据为向用户展示目标资讯时所产生的数据,目标资讯在上一个周期的衰减点击参数根据当前周期之前的每一个周期的用户点击数据计算得到,目标资讯在上一个周期的衰减曝光参数根据当前周期之前的每一个周期的用户曝光数据计算得到。
可选地,在本申请一具体实施例中,第一获取单元301,包括:
第一读取子单元,用于从开源数据流处理平台实时收集到的用户点击数据和用户曝光数据中,实时读取目标资讯在当前周期内的用户点击数据和用户曝光数据,并从写入开源数据流处理平台的当前周期之前的每一个周期的衰减点击参数和衰减曝光参数中,读取目标资讯在上一个周期的衰减点击参数和衰减曝光参数。
可选地,在本申请一具体实施例中,第一读取子单元,包括:第二读取子单元。
第二读取子单元,用于若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入存储空间的数据的游标位置。
第三读取子单元,用于从开源数据流处理平台中的、最后一次写入存储空间的数据的游标位置的下一个游标位置开始读取数据,读取的数据包括:用户点击数据、用户曝光数据、衰减点击参数和衰减曝光参数。
第一计算单元302,用于根据目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数,并根据目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减曝光参数。
可选地,在本申请一具体实施例中,第一计算单元302执行根据目标资讯在当前周期的用户点击数据和上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数时,用于:
第一计算子单元,用于根据目标资讯在当前周期的用户点击数据、以及经过衰减系数进行衰减处理过的上一个周期的衰减点击参数,计算得到目标资讯在当前周期的衰减点击参数。
第一计算单元302执行根据目标资讯在当前周期的用户曝光数据和上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减曝光参数时,用于:
根据目标资讯在当前周期的用户曝光数据、以及经过衰减系数进行衰减处理过的上一个周期的衰减曝光参数,计算得到目标资讯在当前周期的衰减点击参数。
第二计算单元303,用于根据目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到目标资讯在当前周期的资讯质量参数。
可选地,在本申请一具体实施例中,第二计算单元303,包括:
第二计算子单元,用于根据目标资讯在当前周期的衰减点击参数与衰减曝光参数的比值,计算得到目标资讯在当前周期的资讯质量参数。
评估单元304,用于将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数。
可选地,在本申请一具体实施例中,还包括:
写入单元,用于将目标资讯在当前周期的衰减点击参数以及目标资讯在当前周期的衰减曝光参数写入开源数据流处理平台。
可选地,在本申请一具体实施例中,还包括:
存储单元,用于将所述目标资讯在当前周期的衰减点击参数、当前周期的衰减曝光参数、以及当前周期的资讯质量参数备份存储至存储空间。其中,若出现宕机状态、且处于宕机状态的时间大于宕机阈值,则在宕机状态结束时,从存储空间中加载出最后一次备份存储的衰减点击参数和衰减曝光参数,并从开源数据流处理平台中加载出处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,通过加载出的备份存储的衰减点击参数和衰减曝光参数、以及处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,计算得到目标资讯在当前周期的资讯质量参数。
上述本申请实施例公开的资讯数据的处理装置中的具体的原理和执行过程,与上述本申请实施例公开的资讯数据的处理方法相同,可参见上述本申请实施例公开的资讯数据的处理方法中相应的部分,这里不再进行赘述。
本申请实施例提出的一种资讯数据的处理装置中,由于目标资讯在当前周期的资讯质量参数是由第二计算单元303通过目标资讯在当前周期的衰减点击参数、以及目标资讯在当前周期的衰减曝光参数得到的,而目标资讯在当前周期的衰减点击参数又是第一计算单元302根据目标资讯在当前周期内的用户点击数据和上一个周期的衰减点击参数计算得到的,目标资讯在当前周期的衰减曝光参数又是第一计算单元302根据目标资讯在当前周期内的用户曝光数据和上一个周期的衰减曝光参数计算得到的,因此相较于现有技术中按照个人经验人工设置目标资讯的资讯质量参数,本申请实施例中的目标资讯的资讯质量参数使用到了当前周期的用户点击数据、当前周期的衰减曝光参数、上一个周期的衰减点击参数以及上一个周期的衰减曝光参数计算得到,因此计算出的目标资讯的资讯质量参数可靠性更高,且效率更高。并且由于本申请实施例中的目标资讯的资讯质量参数是按照周期实时计算得到的,将目标资讯在当前周期的资讯质量参数作为评估当前目标资讯的推荐程度的参数,能够更好的反映资讯质量的优劣。
本申请实施例还提供一种计算机存储介质,用于存储程序,程序被执行时,具体用于实现本申请任一实施例所述的资讯数据的处理方法。
本申请实施例还提供一种电子设备,该电子设备包括存储器和处理器。
其中,存储器用于存储计算机程序,处理器用于执行上述计算机程序,具体用于实现本申请任一实施例所提供的资讯数据的处理方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种资讯数据的处理方法,其特征在于,应用于开源集群运算框架,所述开源集群运算框架使用火花流框架,开源数据流处理平台使用卡夫卡,包括:
卡夫卡实时收集用户点击数据和用户曝光数据,并将收集到的用户点击数据存储在点击主题中以及将收集到的用户曝光数据存储在曝光主题中;
实时获取目标资讯在当前周期内的用户点击数据和用户曝光数据、以及所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数;其中,所述用户点击数据为用户点击所述目标资讯时产生的数据;所述用户曝光数据为向用户展示所述目标资讯时所产生的数据;所述目标资讯在上一个周期的衰减点击参数根据当前周期之前的每一个周期的用户点击数据计算得到;所述目标资讯在上一个周期的衰减曝光参数根据当前周期之前的每一个周期的用户曝光数据计算得到;
根据所述目标资讯在当前周期内的用户点击数据、所述上一个周期的衰减点击参数以及第一公式,计算得到所述目标资讯在当前周期的衰减点击参数;并根据所述目标资讯在当前周期内的用户曝光数据、所述上一个周期的衰减曝光参数以及第二公式,计算得到所述目标资讯在当前周期的衰减曝光参数,其中,所述第一公式为:
Figure FDA0003528383830000011
sum-click(n)为目标资讯在当前周期的衰减点击参数,当前周期为第n个周期,sum-click(n-1)为目标资讯上一个周期的衰减点击参数,上一个周期为第n-1个周期,γ为衰减系数,click(n)为第n个周期内的用户点击数据的总数,click(j)为第j个周期内的用户点击数据的总数,所述第二公式为:
Figure FDA0003528383830000012
sum-impression(n)为目标资讯在当前周期的衰减曝光参数,当前周期为第n个周期,sum-impression(n-1)为目标资讯上一个周期的衰减曝光参数,上一个周期为第n-1个周期,γ为衰减系数,impression(n)为第n个周期内的用户曝光数据的总数,impression(j)为第j个周期内的用户曝光数据的总数;
根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数;
将所述目标资讯在当前周期的资讯质量参数作为评估当前所述目标资讯的推荐程度的参数,并将所述资讯质量参数写入到存储空间内的远程字典服务中,以使从远程字典服务中读取到每一个周期的资讯质量参数用于计算目标资讯的推荐程度,将目标资讯在当前周期的衰减点击参数和衰减曝光参数写入到卡夫卡中的历史资讯质量参数主题中,以便在下一个周期的资讯质量参数的计算中使用,以及将目标资讯在当前周期的衰减点击参数、衰减曝光参数以及资讯质量参数备份存储至存储空间中的分布式文件系统中;
其中,所述实时获取目标资讯在当前周期的用户点击数据和用户曝光数据、以及所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数,包括:
若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入所述存储空间的数据的游标位置;
从所述开源数据流处理平台中的、所述最后一次写入所述存储空间的数据的游标位置的下一个游标位置开始读取数据;所述读取的数据包括:用户点击数据、用户曝光数据、衰减点击参数和衰减曝光参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标资讯在当前周期的用户点击数据、所述上一个周期的衰减点击参数以及第一公式,计算得到所述目标资讯在当前周期的衰减点击参数;并根据所述目标资讯在当前周期的用户曝光数据、所述上一个周期的衰减曝光参数以及第二公式,计算得到所述目标资讯在当前周期的衰减曝光参数之后,还包括:
将所述目标资讯在当前周期的衰减点击参数以及所述目标资讯在当前周期的衰减曝光参数写入所述开源数据流处理平台。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标资讯在当前周期的衰减点击参数、衰减曝光参数以及第二公式,计算得到所述目标资讯在当前周期的资讯质量参数之后,还包括:
将所述目标资讯在所述当前周期的衰减点击参数、所述当前周期的衰减曝光参数、以及所述当前周期的资讯质量参数备份存储至所述存储空间;
其中,若出现宕机状态、且处于宕机状态的时间大于宕机阈值,则在宕机状态结束时,从所述存储空间中加载出最后一次备份存储的衰减点击参数和衰减曝光参数,并从所述开源数据流处理平台中加载出处于宕机状态的时间段内的所有用户点击数据和用户曝光数据;通过加载出的备份存储的衰减点击参数和衰减曝光参数、以及处于宕机状态的时间段内的所有用户点击数据和用户曝光数据,计算得到所述目标资讯在当前周期的资讯质量参数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标资讯在当前周期的用户点击数据、所述上一个周期的衰减点击参数以及第一公式,计算得到所述目标资讯在当前周期的衰减点击参数,包括:
根据所述目标资讯在当前周期的用户点击数据、第一公式以及经过衰减系数进行衰减处理过的所述上一个周期的衰减点击参数,计算得到所述目标资讯在当前周期的衰减点击参数;
所述根据所述目标资讯在当前周期的用户曝光数据、所述上一个周期的衰减曝光参数以及第二公式,计算得到所述目标资讯在当前周期的衰减曝光参数,包括:
根据所述目标资讯在当前周期的用户曝光数据、第二公式以及经过衰减系数进行衰减处理过的所述上一个周期的衰减曝光参数,计算得到所述目标资讯在当前周期的衰减点击参数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数,包括:
根据所述目标资讯在当前周期的衰减点击参数与衰减曝光参数的比值,计算得到所述目标资讯在当前周期的资讯质量参数。
6.一种资讯数据的处理装置,其特征在于,应用于开源集群运算框架,所述开源集群运算框架使用火花流框架,开源数据流处理平台使用卡夫卡,包括:
第一获取单元,用于卡夫卡实时收集用户点击数据和用户曝光数据,并将收集到的用户点击数据存储在点击主题中以及将收集到的用户曝光数据存储在曝光主题中;实时获取目标资讯在当前周期内的用户点击数据和用户曝光数据、以及所述目标资讯在上一个周期的衰减点击参数和衰减曝光参数;其中,所述用户点击数据为用户点击所述目标资讯时产生的数据;所述用户曝光数据为向用户展示所述目标资讯时所产生的数据;所述目标资讯在上一个周期的衰减点击参数根据当前周期之前的每一个周期的用户点击数据计算得到;所述目标资讯在上一个周期的衰减曝光参数根据当前周期之前的每一个周期的用户曝光数据计算得到;
第一计算单元,用于根据所述目标资讯在当前周期内的用户点击数据、所述上一个周期的衰减点击参数以及第一公式,计算得到所述目标资讯在当前周期的衰减点击参数;并根据所述目标资讯在当前周期内的用户曝光数据、所述上一个周期的衰减曝光参数以及第二公式,计算得到所述目标资讯在当前周期的衰减曝光参数,其中,所述第一公式为:
Figure FDA0003528383830000041
sum-click(n)为目标资讯在当前周期的衰减点击参数,当前周期为第n个周期,sum-click(n-1)为目标资讯上一个周期的衰减点击参数,上一个周期为第n-1个周期,γ为衰减系数,click(n)为第n个周期内的用户点击数据的总数,click(j)为第j个周期内的用户点击数据的总数,所述第二公式为:
Figure FDA0003528383830000042
sum-impression(n)为目标资讯在当前周期的衰减曝光参数,当前周期为第n个周期,sum-impression(n-1)为目标资讯上一个周期的衰减曝光参数,上一个周期为第n-1个周期,γ为衰减系数,impression(n)为第n个周期内的用户曝光数据的总数,impression(j)为第j个周期内的用户曝光数据的总数;
第二计算单元,用于根据所述目标资讯在当前周期的衰减点击参数和衰减曝光参数,计算得到所述目标资讯在当前周期的资讯质量参数;
评估单元,用于将所述目标资讯在当前周期的资讯质量参数作为评估当前所述目标资讯的推荐程度的参数,并将所述资讯质量参数写入到存储空间内的远程字典服务中,以使从远程字典服务中读取到每一个周期的资讯质量参数用于计算目标资讯的推荐程度,将目标资讯在当前周期的衰减点击参数和衰减曝光参数写入到卡夫卡中的历史资讯质量参数主题中,以便在下一个周期的资讯质量参数的计算中使用,以及将目标资讯在当前周期的衰减点击参数、衰减曝光参数以及资讯质量参数备份存储至存储空间中的分布式文件系统中;
其中,所述第一获取单元具体用于:
若出现宕机状态、且处于宕机状态的时间小于或等于宕机阈值,则在宕机状态结束时,从存储空间中读取最后一次写入所述存储空间的数据的游标位置;
从所述开源数据流处理平台中的、所述最后一次写入所述存储空间的数据的游标位置的下一个游标位置开始读取数据;所述读取的数据包括:用户点击数据、用户曝光数据、衰减点击参数和衰减曝光参数。
7.一种计算机存储介质,其特征在于,用于存储程序,所述程序被执行时,用于实现如权利要求1至5任意一项所述的资讯数据的处理方法。
8.一种电子设备,其特征在于,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至5任意一项所述的资讯数据的处理方法。
CN202010921384.6A 2020-09-04 2020-09-04 资讯数据的处理方法、装置、存储介质以及电子设备 Active CN112291297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010921384.6A CN112291297B (zh) 2020-09-04 2020-09-04 资讯数据的处理方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010921384.6A CN112291297B (zh) 2020-09-04 2020-09-04 资讯数据的处理方法、装置、存储介质以及电子设备

Publications (2)

Publication Number Publication Date
CN112291297A CN112291297A (zh) 2021-01-29
CN112291297B true CN112291297B (zh) 2022-04-26

Family

ID=74419745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010921384.6A Active CN112291297B (zh) 2020-09-04 2020-09-04 资讯数据的处理方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN112291297B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844525A (zh) * 2017-10-12 2018-03-27 广州艾媒数聚信息咨询股份有限公司 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN110730369A (zh) * 2019-10-15 2020-01-24 青岛聚看云科技有限公司 一种视频推荐方法及服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3389948B2 (ja) * 1998-11-27 2003-03-24 日本電気株式会社 表示広告選択システム
CN105183904B (zh) * 2015-09-30 2020-01-10 北京金山安全软件有限公司 一种信息推送方法、装置及电子设备
CN106777354A (zh) * 2017-01-17 2017-05-31 腾讯科技(深圳)有限公司 推广信息新鲜度确定方法及装置
CN109274987B (zh) * 2018-08-30 2021-04-27 武汉斗鱼网络科技有限公司 一种视频集合排序方法、服务器及可读存储介质
CN109559158A (zh) * 2018-11-06 2019-04-02 北京奇虎科技有限公司 推广信息投放方法、装置、电子设备及可读存储介质
CN111353089A (zh) * 2018-12-24 2020-06-30 阿里巴巴集团控股有限公司 信息推荐方法、装置、电子设备及计算机存储介质
CN110532468B (zh) * 2019-08-26 2021-12-07 北京齐尔布莱特科技有限公司 一种网站资源的推荐方法、装置和计算设备
CN111159541B (zh) * 2019-12-11 2023-08-25 微民保险代理有限公司 一种帐号行为偏好的确定方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844525A (zh) * 2017-10-12 2018-03-27 广州艾媒数聚信息咨询股份有限公司 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN110730369A (zh) * 2019-10-15 2020-01-24 青岛聚看云科技有限公司 一种视频推荐方法及服务器

Also Published As

Publication number Publication date
CN112291297A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
US11144352B2 (en) Correlation of thread intensity and heap usage to identify heap-hoarding stack traces
CN107341098B (zh) 软件性能测试方法、平台、设备及存储介质
CN110413483B (zh) 批量作业数据的监控方法、装置、电子设备及存储介质
CN110149540B (zh) 多媒体资源的推荐处理方法、装置、终端及可读介质
CN108363657B (zh) 监控app客户端埋点数据采集完整性的方法、设备以及介质
CN109408105A (zh) 用户行为数据的采集方法、装置、计算装置和存储介质
US10025878B1 (en) Data lineage analysis
CN112559475B (zh) 数据实时捕获和传输方法及系统
CN110647447B (zh) 用于分布式系统的异常实例检测方法、装置、设备和介质
CN109684320B (zh) 监测数据在线清洗的方法和设备
CN110909306A (zh) 业务异常检测方法、装置、电子设备和存储设备
CN112347092B (zh) 生成数据分析看板的方法、装置和计算机设备
CN112291297B (zh) 资讯数据的处理方法、装置、存储介质以及电子设备
CN110796505B (zh) 一种业务对象推荐方法以及装置
CN115114275A (zh) 一种数据采集方法、设备及介质
CN115309638A (zh) 协助模型优化的方法及装置
CN112306870A (zh) 一种基于直播app的数据处理方法和装置
CN111966557A (zh) 监测浏览器帧率的方法及装置
CN110968993A (zh) 信息的处理方法及装置、存储介质和处理器
CN109947765B (zh) 数据源检测方法和装置
CN109729393B (zh) 数据的处理方法及装置
CN115526663A (zh) 一种策划文案的推广效果量化方法、设备及介质
CN117591384A (zh) 程序运行状态的展示方法及装置、存储介质和电子设备
CN117234804A (zh) 一种备份与清理数据库的方法、装置、设备和存储介质
CN117591586A (zh) 一种电影票房信息的采集方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant