CN113269577B - 数据获取方法、装置、服务器及存储介质 - Google Patents

数据获取方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN113269577B
CN113269577B CN202010096992.8A CN202010096992A CN113269577B CN 113269577 B CN113269577 B CN 113269577B CN 202010096992 A CN202010096992 A CN 202010096992A CN 113269577 B CN113269577 B CN 113269577B
Authority
CN
China
Prior art keywords
behavior data
target
user
data
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010096992.8A
Other languages
English (en)
Other versions
CN113269577A (zh
Inventor
余东瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010096992.8A priority Critical patent/CN113269577B/zh
Publication of CN113269577A publication Critical patent/CN113269577A/zh
Application granted granted Critical
Publication of CN113269577B publication Critical patent/CN113269577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开关于一种数据获取方法、装置、服务器及存储介质。本公开通过基于历史行为数据来预测与某一过滤行为数据相对应的关注行为数据的回流时长,并将过滤行为数据缓存至该回流时长,来对关注行为数据进行等待,并基于等待到的数据进行聚合,以得到聚合后的数据,可以保证训练数据的采集不会由于转化时间的延迟而造成采集错误等情况,提高了样本的均衡性,提高了后续模型的识别准确性。

Description

数据获取方法、装置、服务器及存储介质
技术领域
本公开涉及网络技术领域,尤其涉及一种数据获取方法、装置、服务器及存储介质。
背景技术
在基于内容项的推荐领域中,例如,广告领域,往往需要对某个广告的点击率或者转化率进行预估。目前通常会使用历史上广告的展示以及点击等行为构造一批样本,然后通过排序模型的训练,最终在线预测广告的点击率或者转化率,从而实现推荐功能。
随着推荐场景的复杂化,一些复杂类或转化类的正样本的回传往往不及时,传统做法是以天为单位更新样本来进行训练,但是,这种以天为单位的样本,滞后性比较强,最终会导致基于这种样本所训练的模型的预测准确性差。
发明内容
本公开提供一种数据获取方法、装置、服务器及存储介质,以至少解决相关技术中训练样本的时效性差以及模型的识别准确性差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种数据获取方法,包括:
接收过滤行为数据,所述过滤行为数据用于指示目标内容项不符合第一用户的喜好;
根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长;
对所述过滤行为数据进行存储;
当到达所述回流时长时,若获取到所述目标关注行为数据,将所述目标关注行为数据和所述过滤行为数据聚合,将聚合后的目标关注行为数据发送至所述目标设备。
在一种可能实现方式中,所述根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长包括:
将所述过滤行为数据输入目标预测模型,所述目标预测模型基于历史行为数据训练得到,通过所述目标预测模型输出所述过滤行为数据对应的目标关注行为数据。
在一种可能实现方式中,所述根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长包括:
根据所述过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,所述第一内容项与所述目标内容项之间的相似性符合第一目标相似条件;
根据所述第一内容项的历史投放时间以及所述第一历史关注行为数据中各个第一用户对所述第一内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,所述根据所述过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史行为数据包括:
根据所述目标内容项的内容类型,确定属于所述内容类型的第一内容项;
从行为对象为第一内容项的第一历史行为数据中,获取所述第一关注行为数据。
在一种可能实现方式中,所述根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长包括:
根据所述过滤行为数据所指示的目标用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据,所述第二用户与所述目标用户之间的相似性符合第二目标相似条件;
根据所述多个第二内容项的历史投放时间以及所述第二历史关注行为数据中对所述多个第二内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,根据所述过滤行为数据所指示的第二用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据包括:
根据所述目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与所述目标用户之间的相似性符合第二目标相似条件的第二用户;
从所述第二用户的第二历史行为数据中,获取所述第二关注行为数据。
在一种可能实现方式中,所述对所述过滤行为数据进行存储包括:
将所述过滤行为数据存储至等待队列,对所述过滤行为数据进行目标时长的缓存,所述目标时长为所述过滤行为数据的达到时间与所述回流时长之间的时间差。
在一种可能实现方式中,所述将所述目标关注行为数据和所述过滤行为数据聚合包括:
根据所述目标关注行为数据,将所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。
在一种可能实现方式中,所述方法还包括:
若未获取到所述目标关注行为数据,将所存储的所述过滤行为数据发送至目标设备。
根据本公开实施例的第二方面,提供了一种数据获取装置,包括:
接收单元,被配置为执行接收过滤行为数据,所述过滤行为数据被配置为执行指示目标内容项不符合第一用户的喜好;
预测单元,被配置为执行根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长;
存储单元,被配置为执行对所述过滤行为数据进行存储;
聚合单元,被配置为执行当到达所述回流时长时,若获取到所述目标关注行为数据,将所述目标关注行为数据和所述过滤行为数据聚合;
发送单元,被配置为执行将聚合后的目标关注行为数据发送至所述目标设备。
在一种可能实现方式中,所述预测单元用于:
将所述过滤行为数据输入目标预测模型,所述目标预测模型基于历史行为数据训练得到,通过所述目标预测模型输出所述过滤行为数据对应的目标关注行为数据。
在一种可能实现方式中,所述预测单元包括:
第一获取子单元,被配置为执行根据所述过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,所述第一内容项与所述目标内容项之间的相似性符合第一目标相似条件;
第一预测子单元,被配置为执行根据所述第一内容项的历史投放时间以及所述第一历史关注行为数据中各个第一用户对所述第一内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,所述第一获取子单元被配置为执行根据所述目标内容项的内容类型,确定属于所述内容类型的第一内容项;从行为对象为第一内容项的第一历史行为数据中,获取所述第一关注行为数据。
在一种可能实现方式中,所述预测单元包括:
第二获取子单元,被配置为执行根据所述过滤行为数据所指示的目标用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据,所述第二用户与所述目标用户之间的相似性符合第二目标相似条件;
第二预测子单元,被配置为执行根据所述多个第二内容项的历史投放时间以及所述第二历史关注行为数据中对所述多个第二内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,所述第二获取子单元,被配置为执行根据所述目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与所述目标用户之间的相似性符合第二目标相似条件的第二用户;从所述第二用户的第二历史行为数据中,获取所述第二关注行为数据。
在一种可能实现方式中,所述存储单元被配置为执行将所述过滤行为数据存储至等待队列,对所述过滤行为数据进行目标时长的缓存,所述目标时长为所述过滤行为数据的达到时间与所述回流时长之间的时间差。
在一种可能实现方式中,所述聚合单元,被配置为根据所述目标关注行为数据,所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。
在一种可能实现方式中,所述发送单元还被配置为执行若未获取到所述目标关注行为数据,将所存储逇所述过滤行为数据发送至目标设备。
根据本公开实施例的第三方面,提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如上述任一项的数据获取方法。
根据本公开实施例的第四方面,提供一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一项的数据获取方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括可执行指令,当计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一项的数据获取方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过基于历史行为数据来预测与某一过滤行为数据相对应的关注行为数据的回流时长,并将过滤行为数据缓存至该回流时长,来对关注行为数据进行等待,并基于等待到的数据进行聚合,以得到聚合后的数据,可以保证训练数据的采集不会由于转化时间的延迟而造成采集错误等情况,提高了样本的均衡性,提高了后续模型的识别准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种数据获取方法的流程图。
图2是根据一示例性实施例示出的一种数据获取方法的流程图。
图3是根据一示例性实施例示出的一种数据获取方法的流程图。
图4是根据一示例性实施例示出的一种实施架构的框图。
图5是根据一示例性实施例示出的一种目标预测模型的生成流程示意的框图。
图6是根据一示例性实施例示出的一种等待消费模块的实施流程示意的框图。
图7是根据一示例性实施例示出的一种到达回流时长时的实施流程示意的框图。
图8是根据一示例性实施例示出的一种数据获取装置的框图。
图9是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户行为数据以及用户画像等可以为经用户授权或者经过各方充分授权的信息。
图1是根据一示例性实施例示出的一种数据获取方法的流程图,如图1所示,该数据获取方法用于第一终端中,包括以下步骤。
在步骤101中,接收过滤行为数据,所述过滤行为数据用于指示目标内容项不符合第一用户的喜好;
在步骤102中,根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长;
在步骤103中,对所述过滤行为数据进行存储;
在步骤104中,当到达所述回流时长时,若获取到所述目标关注行为数据,将所述目标关注行为数据和所述过滤行为数据聚合,将聚合后的目标关注行为数据发送至目标设备。
本公开实施例提供的方法,通过基于历史行为数据来预测与某一过滤行为数据相对应的关注行为数据的回流时长,并将过滤行为数据缓存至该回流时长,来对关注行为数据进行等待,并基于等待到的数据进行聚合,以得到聚合后的数据,可以保证训练数据的采集不会由于转化时间的延迟而造成采集错误等情况,提高了后续模型的识别准确性。
在一种可能实现方式中,所述根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长包括:
根据所述过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,所述第一内容项与所述目标内容项之间的相似性符合第一目标相似条件;
根据所述第一内容项的历史投放时间以及所述第一历史关注行为数据中各个第一用户对所述第一内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,所述根据所述过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史行为数据包括:
根据所述目标内容项的内容类型,确定属于所述内容类型的第一内容项;
从行为对象为第一内容项的第一历史行为数据中,获取所述第一关注行为数据。
在一种可能实现方式中,所述根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长包括:
根据所述过滤行为数据所指示的目标用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据,所述第二用户与所述目标用户之间的相似性符合第二目标相似条件;
根据所述多个第二内容项的历史投放时间以及所述第二历史关注行为数据中对所述多个第二内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,根据所述过滤行为数据所指示的第二用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据包括:
根据所述目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与所述目标用户之间的相似性符合第二目标相似条件的第二用户;
从所述第二用户的第二历史行为数据中,获取所述第二关注行为数据。
在一种可能实现方式中,所述对所述过滤行为数据进行存储包括:
将所述过滤行为数据存储至等待队列,对所述过滤行为数据进行目标时长的缓存,所述目标时长为所述过滤行为数据的达到时间与所述回流时长之间的时间差。
在一种可能实现方式中,所述将所述目标关注行为数据和所述过滤行为数据聚合包括:
根据所述目标关注行为数据,将所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。
在一种可能实现方式中,所述方法还包括:
若未获取到所述目标关注行为数据,将所存储的所述过滤行为数据发送至目标设备。
图2是根据一示例性实施例示出的一种数据获取方法的流程图,如图2所示,该数据获取方法以服务器为执行主体为例进行说明,包括以下步骤。
在步骤201中,服务器接收过滤行为数据,该过滤行为数据用于指示目标内容项不符合第一用户的喜好。
在本公开实施例中,该过滤行为数据可以包括一些能够反映用户对内容项没有观看兴趣、甚至讨厌观看的行为数据,例如,曝光但未播放行为、负面评价行为等。相对于过滤行为数据,还可以有关注行为数据,该关注行为数据用于指示目标内容项符合第一用户的喜好,可以包括一些能够反映用户对内容项有观看兴趣的数据,例如,播放、点赞、投币以及推荐等操作。终端可以基于终端上曝光的内容项以及基于已曝光内容项的用户行为,生成终端的日志数据,并基于用户的授权,将该日志数据回传给服务器,由服务器对该日志数据中所记录的行为数据进行分析,以确定该日志数据属于哪类数据。
在一种可能实现方式中,服务器在接收到日志数据后,可以根据该日志数据中所包括的行为标签,确定日志数据的类型,当行为标签为过滤行为标签,则该日志数据为过滤行为数据,当行为标签为关注行为标签,则该日志数据为关注行为数据。该日志数据中还包括目标内容项的内容项标识以及时间信息,以便对行为对象以及行为发生时间等进行记录。
在步骤202中,该服务器根据该过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,该第一内容项与该目标内容项之间的相似性符合第一目标相似条件。
对于过滤行为数据来说,可以基于其行为对象相关的历史数据,来预测大约多久以后该过滤行为数据对应的关注行为数据会被用户反馈回来,也即是,可以基于相似的内容项来进行预测。在本公开实施例中,其相似性符合第一目标相似条件可以是指下述任一种情况:(1)内容项属于相同的内容类型,例如,均属于娱乐类型。(2)内容项具有相同或相似标签,例如,两个内容项均具有“明星小A”“假唱”的标签,则确定其具有相同标签,(3)内容项的主题相同或相似。下面以第(1)种情况为例,对该获取为对象为第一内容项的第一历史关注行为数据的过程进行介绍:根据该目标内容项的内容类型,确定属于该内容类型的第一内容项;从行为对象为第一内容项的第一历史行为数据中,获取该第一关注行为数据。具体地,服务器可以根据目标内容项的内容类型,从内容项数据库查询属于相同内容类型的第一内容项,再基于该第一内容项的内容项标识以及关注行为标签,从历史行为数据库中获取包括该关注行为标签和第一内容项的内容项标识的行为数据,作为第一关注行为数据。上述第(2)、(3)种情况与第(1)种情况同理,本公开实施例对此不做限定。
当然,对于上述如何确定作为参考的行为数据时,可以结合上述三种情况中的至少两种情况,也即是,将不同情况的相似度基于预先设置的权重来进行加权,以得到对应的相似度,在基于相似度阈值来衡量是否符合相似条件,从而得到符合相似条件的关注行为数据,本公开实施例对此不做限定。
在步骤203中,该服务器根据该第一内容项的历史投放时间以及该第一历史关注行为数据中各个第一用户对该第一内容项的关注时间,预测该目标关注行为数据的回流时长。
投放时间可以是指服务器向终端推送内容项的时间,服务器可以基于一个内容项的投放时间以及第一历史关注行为数据中发生关注行为的关注时间,来获取其时间差,并基于所获取到的多个时间差,来预测该目标关注行为数据的回流时长。例如,该回流时长可以为多个时间差的均值,还可以为基于多个时间差的加权值,其权重可以基于任一类可能影响到该时间差的可靠性的信息来确定,本公开实施例对此不做具体限定。
例如,对于一个第一内容项来说,其投放时间可以是2019年11月11日,10:10:33,而其关注行为发生的时间,也即是关注时间可以为2019年11月12日,22:15:30。
在步骤204中,该服务器将该过滤行为数据存储至等待队列,对该过滤行为数据进行目标时长的缓存,该目标时长为该过滤行为数据的达到时间与该回流时长之间的时间差。
当预测得到目标关注行为数据的回流时长后,则可以对过滤行为数据进行缓存,以便等待该目标关注行为数据的到来。本公开实施例可以通过一等待队列来对数据进行缓存,并设置定时器来对其缓存时长进行计时,当定时器计时停止,则可以触发服务器读取等待队列中所缓存的过滤行为数据。当然,还可以将该过滤行为数据存储至目标存储空间,并记录过滤行为数据与目标存储空间之间的对应关系,以便为后续对目标关注行为数据的检测提供处理依据。
在步骤205中,当到达该回流时长时,若获取到该目标关注行为数据,该服务器将该目标关注行为数据和过滤行为数据进行聚合,将聚合后的目标关注行为数据发送至目标设备。
在对过滤行为数据进行了缓存之后,该服务器每接收到一个关注行为数据,则可以检测是否是与该过滤行为数据对应的目标关注行为数据,该检测可以包括:检测所接收到的关注行为数据的行为对象是否为已存储的过滤行为数据的行为对象,且,发生关注行为数据的用户是否为已存储的过滤行为数据的用户,若两者的判定结果均为是,则可以确定该关注行为数据是经过滤行为数据转化得到,为上述目标关注行为数据。该检测还可以包括:检测所接收到的关注行为数据的日志标识是否能够命中已缓存的过滤行为数据的日志标识,若是,则可以确定该关注行为数据是经过滤行为数据转化得到,为上述目标关注行为数据。其中,日志标识用于唯一标识一个用户的日志,当任一用户终端进行日志数据的上报时,均可以基于该日志标识确定其之前已经上传的日志数据。
当在该回流时长到达时获取到目标关注行为数据,则说明该过滤行为数据已经转化为关注行为数据,其行为对象的内容项已经被用户所关注,实际上此次投放结果是正面的成功的,只是发生了延迟,因此,通过这种延时处理,可以大大避免这种转化行为的延时所造成的样本采集的错误。
在本公开实施例中,该服务器可以对过滤行为数据和关注行为数据进行聚合,以作为正样本发送给目标设备,以提供内容更加丰富的样本数据,该聚合的具体过程可以包括:根据目标关注行为数据,将该目标关注行为数据更新至该过滤行为数据中,例如,根据所述目标关注行为数据,所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。可选地,该服务器还可以丢弃该过滤行为数据,并将该目标关注行为数据作为正样本发送至目标设备。
在步骤206中,当到达该回流时长时,若未获取到该目标关注行为数据,该服务器将该过滤行为数据发送至目标设备。
若未获取到目标关注行为数据,则可以不再继续等待,而是将过滤行为数据作为负样本来发送,目标设备可以为样本采集设备,也可以为模型训练设备,本公开实施例对此不做限定,对于服务器来说,其可以作为用于收集正负样本的前端设备,来采集各个终端上所产生的样本数据,本公开实施例对目标设备的具体用途不做限定。
本公开实施例提供的方法,通过基于历史行为数据来预测与某一过滤行为数据相对应的关注行为数据的回流时长,并将过滤行为数据缓存至该回流时长,来对关注行为数据进行等待,并基于等待到的数据进行聚合,以得到聚合后的数据,可以保证训练数据的采集不会由于转化时间的延迟而造成采集错误等情况,提高了样本的均衡性,提高了后续模型的识别准确性。进一步地,通过基于内容项之间的关联来参考具有相似性的内容项的正样本回流时长,从而能够确定所需延时的时长,相似的内容项会有较强的参考性,因此,所预测的回流时长准确性较高,相应地,基于所预测的回流时长进行上述处理后所得到的正负样本更为均衡。
图3是根据一示例性实施例示出的一种数据获取方法的流程图,如图3所示,该数据获取方法以服务器为执行主体为例进行说明,包括以下步骤。
在步骤301中,服务器接收过滤行为数据,该过滤行为数据用于指示目标内容项不符合第一用户的喜好。
该步骤与上述步骤201同理,在此不做赘述。
在步骤302中,该服务器根据该过滤行为数据所指示的目标用户,获取该第二用户对多个第二内容项的第二历史关注行为数据,该第二用户与该目标用户之间的相似性符合第二目标相似条件。
对于过滤行为数据来说,可以基于其产生行为的用户相关的历史数据,来预测大约多久以后该过滤行为数据对应的关注行为数据会被用户反馈回来,也即是,可以基于相似的用户来进行预测。在本公开实施例中,其相似性符合第二目标相似条件可以是指下述任一种情况:(1)用户属于相同的用户类型,例如,均属于白领类型。(2)用户具有相同或相似的用户画像或偏好信息。下面以第(2)种情况为例,对获取该第二用户对多个第二内容项的第二历史关注行为数据的过程进行介绍:根据该目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与该目标用户之间的相似性符合第二目标相似条件的第二用户;从该第二用户的第二历史行为数据中,获取该第二关注行为数据。具体地,服务器可以根据目标用户的用户类型,从用户数据库查询属于相同用户类型的第二用户,再从历史行为数据库中获取包括该关注行为标签和第二用户的用户标识的行为数据,作为第二关注行为数据。上述第(2)种情况与第(1)种情况同理,本公开实施例对此不做限定。
当然,对于上述如何确定作为参考的行为数据时,可以结合上述两种情况,也即是,将不同情况的相似度基于预先设置的权重来进行加权,以得到对应的相似度,在基于相似度阈值来衡量是否符合相似条件,从而得到符合相似条件的关注行为数据,本公开实施例对此不做限定。
在步骤303中,该服务器根据该多个第二内容项的历史投放时间以及该第二历史关注行为数据中对该多个第二内容项的关注时间,预测该目标关注行为数据的回流时长。
投放时间可以是指服务器向终端推送内容项的时间,服务器可以基于一个内容项的投放时间以及第二历史关注行为数据中发生关注行为的关注时间,来获取其时间差,并基于所获取到的多个时间差,来预测该目标关注行为数据的回流时长。例如,该回流时长可以为多个时间差的均值,还可以为基于多个时间差的加权值,其权重可以基于任一类可能影响到该时间差的可靠性的信息来确定,本公开实施例对此不做具体限定。
在步骤304中,该服务器将该过滤行为数据存储至等待队列,对该过滤行为数据进行目标时长的缓存,该目标时长为该过滤行为数据的达到时间与该回流时长之间的时间差。
在步骤305中,当到达该回流时长时,若获取到该目标关注行为数据,该服务器将该目标关注行为数据和过滤行为数据进行聚合,将聚合后的目标关注行为数据发送至目标设备。
在步骤306中,当到达该回流时长时,若未获取到该目标关注行为数据,该服务器将该过滤行为数据发送至目标设备。
上述步骤304至306与步骤204至206同理,在此不做赘述。
本公开实施例提供的方法,通过基于历史行为数据来预测与某一过滤行为数据相对应的关注行为数据的回流时长,并将过滤行为数据缓存至该回流时长,来对关注行为数据进行等待,并基于等待到的数据进行聚合,以得到聚合后的数据,可以保证训练数据的采集不会由于转化时间的延迟而造成采集错误等情况,提高了样本的均衡性,提高了后续模型的识别准确性。进一步地,通过基于用户之间的关联来参考具有相似性的用户的正样本回流时长,从而能够确定所需延时的时长,相似的用户的行为数据会有较强的参考性,因此,所预测的回流时长准确性较高,相应地,基于所预测的回流时长进行上述处理后所得到的正负样本更为均衡。
当然,对于上述如何确定作为参考的行为数据时,可以结合上述两种情况,也即是,将不同情况的相似度基于预先设置的权重来进行加权,以得到对应的相似度,在基于相似度阈值来衡量是否符合相似条件,从而得到符合相似条件的关注行为数据,本公开实施例对此不做限定。
下面,基于一种示例性的实施框架,来对上述实施例所提供的数据获取方法进行说明,如图4所示,该图4示出了一种实施框架,其中包括延时预测模块、延时等待模块以及等待消费模块,在本公开实施例中,延时预测模块和延时等待模块可以提供在服务器上,而等待消费模块可以提供在目标设备上,当然,对于数据采集和模型训练在同一个设备上进行的情况,上述延时预测模块、延时等待模块以及等待消费模块还可以提供在同一个设备上。基于该实施框架,服务器接收日志数据,延时等待模块基于延时预测模块的预测结果,对日志数据进行处理,在预测到需等待的时间后,将日志数据缓存至等待队列,再等待结束,若未接收到对应的日志数据,则可以将所缓存的日志数据发送至等待消费模块,以进行例如数据清洗、数据检测、数据标签等处理,从而得到训练数据流。
其中,延时预测模块可以用于进行回流时长的预测,也即是,该延时预测模块可以用于执行上述实施例中的步骤202至203以及步骤302至303,当然,在一种可能实现方式中,参见图5,该延时预测模块还可以基于目标预测模型来进行预测,该目标预测模型可以是基于历史上作为正样本的关注行为数据来进行训练,在训练完成后,将训练所得到的目标预测模型以预测服务接口的形式提供给服务器,由服务器在需要预测的时候进行调用。
而延时等待模块对于日志数据的处理包括对日志数据的行为类型的判定,当判定为关注行为数据,则可以直接输出给目标设备,而当判定为过滤行为数据,则可以经过预测,再基于预测的回流时长进行缓存,例如图6所示的log1和log2,即为在预测的回流时长为19:24的日志数据,在到达19:24后,该日志数据可以出列,基于是否接收到对应的关注行为数据,来进行后续处理。
而等待消费模块执行如图7的过程,例如,在日志数据从等待队列中出列时,对其进行例如聚合等处理,从而输出训练样本。
图8是根据一示例性实施例示出的一种数据获取装置的框图。参照图8,该装置包括接收单元801、预测单元802、存储单元803、聚合单元804以及发送单元805。
接收单元801,被配置为执行接收过滤行为数据,所述过滤行为数据被配置为执行指示目标内容项不符合第一用户的喜好;
预测单元802,被配置为执行根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长;
存储单元803,被配置为执行对所述过滤行为数据进行存储;
聚合单元804,被配置为执行当到达所述回流时长时,若获取到所述目标关注行为数据,将所述目标关注行为数据和所述过滤行为数据聚合;
发送单元805,被配置为执行将聚合后的目标关注行为数据发送至所述目标设备。
在一种可能实现方式中,所述预测单元802用于:
将所述过滤行为数据输入目标预测模型,所述目标预测模型基于历史行为数据训练得到,通过所述目标预测模型输出所述过滤行为数据对应的目标关注行为数据。
在一种可能实现方式中,所述预测单元802包括:
第一获取子单元,被配置为执行根据所述过滤行为数据所指示的目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,所述第一内容项与所述目标内容项之间的相似性符合第一目标相似条件;
第一预测子单元,被配置为执行根据所述第一内容项的历史投放时间以及所述第一历史关注行为数据中各个第一用户对所述第一内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,所述第一获取子单元被配置为执行根据所述目标内容项的内容类型,确定属于所述内容类型的第一内容项;从行为对象为第一内容项的第一历史行为数据中,获取所述第一关注行为数据。
在一种可能实现方式中,所述预测单元包括:
第二获取子单元,被配置为执行根据所述过滤行为数据所指示的目标用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据,所述第二用户与所述目标用户之间的相似性符合第二目标相似条件;
第二预测子单元,被配置为执行根据所述多个第二内容项的历史投放时间以及所述第二历史关注行为数据中对所述多个第二内容项的关注时间,预测所述目标关注行为数据的回流时长。
在一种可能实现方式中,所述第二获取子单元,被配置为执行根据所述目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与所述目标用户之间的相似性符合第二目标相似条件的第二用户;从所述第二用户的第二历史行为数据中,获取所述第二关注行为数据。
在一种可能实现方式中,所述存储单元被配置为执行将所述过滤行为数据存储至等待队列,对所述过滤行为数据进行目标时长的缓存,所述目标时长为所述过滤行为数据的达到时间与所述回流时长之间的时间差。
在一种可能实现方式中,所述聚合单元,被配置为根据所述目标关注行为数据,所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。
在一种可能实现方式中,所述发送单元还被配置为执行若未获取到所述目标关注行为数据,将所存储的所述过滤行为数据发送至目标设备。
需要说明的是:上述实施例提供的数据获取装置在数据获取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据获取装置与数据获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9是根据一示例性实施例示出的一种服务器的框图。该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有至少一条指令,至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的数据获取方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种数据获取方法,其特征在于,包括:
接收过滤行为数据,所述过滤行为数据用于指示目标内容项不符合第一用户的喜好;
根据所述过滤行为数据所指示的目标内容项或目标用户以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长,所述目标关注行为数据用于指示目标项内容符合第一用户的喜好;其中,根据所述目标内容项预测所述回流时长包括:根据所述目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,所述第一内容项与所述目标内容项之间的相似性符合第一目标相似条件;根据所述第一内容项的历史投放时间以及所述第一历史关注行为数据中各个第一用户对所述第一内容项的关注时间,预测所述回流时长;根据所述目标用户预测所述回流时长包括:根据所述目标用户,获取第二用户对多个第二内容项的第二历史关注行为数据,所述第二用户与所述目标用户之间的相似性符合第二目标相似条件;根据所述多个第二内容项的历史投放时间以及所述第二历史关注行为数据中对所述多个第二内容项的关注时间,预测所述回流时长;
对所述过滤行为数据进行存储;
当到达所述回流时长时,若获取到所述目标关注行为数据,将所述目标关注行为数据和所述过滤行为数据聚合,将聚合后的目标关注行为数据发送至目标设备。
2.根据权利要求1所述的数据获取方法,其特征在于,所述根据所述过滤行为数据以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长包括:
将所述过滤行为数据输入目标预测模型,所述目标预测模型基于历史行为数据训练得到,通过所述目标预测模型输出所述过滤行为数据对应的目标关注行为数据。
3.根据权利要求1所述的数据获取方法,其特征在于,根据所述目标内容项预测所述回流时长的过程中,所述根据所述目标内容项,获取行为对象为第一内容项的第一历史行为数据包括:
根据所述目标内容项的内容类型,确定属于所述内容类型的第一内容项;
从行为对象为第一内容项的第一历史行为数据中,获取所述第一历史关注行为数据。
4.根据权利要求1所述的数据获取方法,其特征在于,根据所述目标用户预测所述回流时长的过程中,所述根据所述目标用户,获取所述第二用户对多个第二内容项的第二历史关注行为数据包括:
根据所述目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与所述目标用户之间的相似性符合第二目标相似条件的第二用户;
从所述第二用户的第二历史行为数据中,获取所述第二历史关注行为数据。
5.根据权利要求1所述的数据获取方法,其特征在于,所述对所述过滤行为数据进行存储包括:
将所述过滤行为数据存储至等待队列,对所述过滤行为数据进行目标时长的缓存,所述目标时长为所述过滤行为数据的达到时间与所述回流时长之间的时间差。
6.根据权利要求1所述的数据获取方法,其特征在于,所述将所述目标关注行为数据和所述过滤行为数据聚合包括:
根据所述目标关注行为数据,将所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。
7.根据权利要求1所述的数据获取方法,其特征在于,所述方法还包括:
若未获取到所述目标关注行为数据,将所存储的所述过滤行为数据发送至目标设备。
8.一种数据获取装置,其特征在于,包括:
接收单元,被配置为执行接收过滤行为数据,所述过滤行为数据被配置为执行指示目标内容项不符合第一用户的喜好;
预测单元,被配置为执行根据所述过滤行为数据所指示的目标内容项或目标用户以及与所述过滤行为数据对应的历史行为数据,预测所述过滤行为数据对应的目标关注行为数据的回流时长,所述目标关注行为数据用于指示目标项内容符合第一用户的喜好;其中,所述预测单元被配置为执行根据所述目标内容项预测所述回流时长时,所述预测单元包括:第一获取子单元,被配置为执行根据所述目标内容项,获取行为对象为第一内容项的第一历史关注行为数据,所述第一内容项与所述目标内容项之间的相似性符合第一目标相似条件;第一预测子单元,被配置为执行根据所述第一内容项的历史投放时间以及所述第一历史关注行为数据中各个第一用户对所述第一内容项的关注时间,预测所述回流时长;所述预测单元被配置为执行根据所述目标用户预测所述回流时长时,所述预测单元包括:第二获取子单元,被配置为执行根据所述目标用户,获取第二用户对多个第二内容项的第二历史关注行为数据,所述第二用户与所述目标用户之间的相似性符合第二目标相似条件;第二预测子单元,被配置为执行根据所述多个第二内容项的历史投放时间以及所述第二历史关注行为数据中对所述多个第二内容项的关注时间,预测所述回流时长;
存储单元,被配置为执行对所述过滤行为数据进行存储;
聚合单元,被配置为执行当到达所述回流时长时,若获取到所述目标关注行为数据,将所述目标关注行为数据和所述过滤行为数据聚合;
发送单元,被配置为执行将聚合后的目标关注行为数据发送至目标设备。
9.根据权利要求8所述的数据获取装置,其特征在于,所述预测单元用于:
将所述过滤行为数据输入目标预测模型,所述目标预测模型基于历史行为数据训练得到,通过所述目标预测模型输出所述过滤行为数据对应的目标关注行为数据。
10.根据权利要求8所述的数据获取装置,其特征在于,所述预测单元被配置为执行根据所述目标内容项预测所述回流时长时,所述第一获取子单元被配置为执行根据所述目标内容项的内容类型,确定属于所述内容类型的第一内容项;从行为对象为第一内容项的第一历史行为数据中,获取所述第一历史关注行为数据。
11.根据权利要求8所述的数据获取装置,其特征在于,所述预测单元被配置为执行根据所述目标用户预测所述回流时长时,所述第二获取子单元,被配置为执行根据所述目标用户的用户画像以及偏好信息,确定用户画像以及偏好信息与所述目标用户之间的相似性符合第二目标相似条件的第二用户;从所述第二用户的第二历史行为数据中,获取所述第二历史关注行为数据。
12.根据权利要求8所述的数据获取装置,其特征在于,所述存储单元被配置为执行将所述过滤行为数据存储至等待队列,对所述过滤行为数据进行目标时长的缓存,所述目标时长为所述过滤行为数据的达到时间与所述回流时长之间的时间差。
13.根据权利要求8所述的数据获取装置,其特征在于,所述聚合单元,被配置为根据所述目标关注行为数据,所述过滤行为数据中的行为类型修改为所述目标关注行为数据的行为类型。
14.根据权利要求8所述的数据获取装置,其特征在于,所述发送单元还被配置为执行若未获取到所述目标关注行为数据,将所存储的所述过滤行为数据发送至目标设备。
15.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的数据获取方法。
16.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的数据获取方法。
CN202010096992.8A 2020-02-17 2020-02-17 数据获取方法、装置、服务器及存储介质 Active CN113269577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010096992.8A CN113269577B (zh) 2020-02-17 2020-02-17 数据获取方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096992.8A CN113269577B (zh) 2020-02-17 2020-02-17 数据获取方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN113269577A CN113269577A (zh) 2021-08-17
CN113269577B true CN113269577B (zh) 2023-10-13

Family

ID=77227457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096992.8A Active CN113269577B (zh) 2020-02-17 2020-02-17 数据获取方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN113269577B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962316A (zh) * 2021-10-27 2022-01-21 维沃移动通信有限公司 模型训练方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241984A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种访客分类方法及装置
CN108647962A (zh) * 2018-04-27 2018-10-12 腾讯科技(深圳)有限公司 征信系统、征信数据的存储方法、装置、设备及介质
CN109460427A (zh) * 2018-11-08 2019-03-12 广东工业大学 一种面向用户动态偏好挖掘的节目嵌入方法
CN109840782A (zh) * 2017-11-24 2019-06-04 腾讯科技(深圳)有限公司 点击率预测方法、装置、服务器以及存储介质
CN110008399A (zh) * 2019-01-30 2019-07-12 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110399550A (zh) * 2019-03-14 2019-11-01 腾讯科技(深圳)有限公司 一种信息推荐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241984A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种访客分类方法及装置
CN109840782A (zh) * 2017-11-24 2019-06-04 腾讯科技(深圳)有限公司 点击率预测方法、装置、服务器以及存储介质
CN108647962A (zh) * 2018-04-27 2018-10-12 腾讯科技(深圳)有限公司 征信系统、征信数据的存储方法、装置、设备及介质
CN109460427A (zh) * 2018-11-08 2019-03-12 广东工业大学 一种面向用户动态偏好挖掘的节目嵌入方法
CN110008399A (zh) * 2019-01-30 2019-07-12 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110399550A (zh) * 2019-03-14 2019-11-01 腾讯科技(深圳)有限公司 一种信息推荐方法及装置

Also Published As

Publication number Publication date
CN113269577A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
US11711447B2 (en) Method and apparatus for real-time personalization
EP3231199B1 (en) Notifications on mobile devices
CN109168052B (zh) 服务满意度的确定方法、装置及计算设备
US20110117537A1 (en) Usage estimation device
WO2018205845A1 (zh) 一种数据处理方法及服务器、计算机存储介质
CN107767153B (zh) 一种数据处理方法及装置
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN112115169B (zh) 用户画像生成、对象分发、内容推荐方法、装置及介质
CN112995690A (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN112559923A (zh) 网址资源推荐方法、装置、电子设备及计算机存储介质
CN114756537A (zh) 一种基于数据埋点的用户画像的方法、系统和装置
CN113269577B (zh) 数据获取方法、装置、服务器及存储介质
CN114398560B (zh) 基于web平台的营销界面设置方法、装置、设备及介质
CN114245185B (zh) 视频推荐方法、模型训练方法、装置、电子设备及介质
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN114629929A (zh) 一种日志记录方法、装置及系统
CN112884529B (zh) 一种广告竞价方法、装置、设备及介质
CN114297478A (zh) 一种页面推荐方法、装置、设备以及存储介质
CN110276650A (zh) 广告到达率确定方法、广告发布方法及装置
CN116016365B (zh) 一种加密流量下基于数据包长度信息的网页识别方法
CN109597941B (zh) 排序方法及装置、电子设备和存储介质
CN111241821A (zh) 确定用户的行为特征的方法和装置
CN113705629B (zh) 一种训练样本生成方法、装置、存储介质及电子设备
CN114722280A (zh) 基于用户画像的课程推荐方法、装置、设备及存储介质
CN114329055A (zh) 搜索推荐方法及推荐装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant