CN110929206B - 点击率预估方法、装置、计算机可读存储介质和设备 - Google Patents

点击率预估方法、装置、计算机可读存储介质和设备 Download PDF

Info

Publication number
CN110929206B
CN110929206B CN201911139390.XA CN201911139390A CN110929206B CN 110929206 B CN110929206 B CN 110929206B CN 201911139390 A CN201911139390 A CN 201911139390A CN 110929206 B CN110929206 B CN 110929206B
Authority
CN
China
Prior art keywords
click
content
historical
features
sparse data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911139390.XA
Other languages
English (en)
Other versions
CN110929206A (zh
Inventor
凌程
王亚龙
王瑞
夏锋
林乐宇
张亚霏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911139390.XA priority Critical patent/CN110929206B/zh
Publication of CN110929206A publication Critical patent/CN110929206A/zh
Application granted granted Critical
Publication of CN110929206B publication Critical patent/CN110929206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种点击率预估方法、装置、计算机可读存储介质和设备,方法包括:获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征;根据候选内容特征、用户画像特征及聚合特征,提取输出特征,并根据输出特征确定目标用户对应候选内容的预估点击率。本申请提供的方案可以极大提升预估点击率的准确性。

Description

点击率预估方法、装置、计算机可读存储介质和设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种点击率预估方法、装置、计算机可读存储介质和计算机设备,还涉及一种分享率预估方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着互联网技术的发展,越来越多的用户通过互联网获取信息,比如,用户可以持续地从更新的图文公众号浏览文章、视频、新闻等内容,用户还可以从一些内容客户端获取内容。后台通常会结合用户的历史行为来预测该用户对候选内容的预估行为,比如预估点击率、预估分享率或是预估用户停留时长等,从而根据预测结果选取出推送至该用户的内容。
用户的历史行为可以反映用户的偏好,每个用户的历史行为包括多方面的信息,传统技术中对用户在候选内容上采取的行为进行预估时,所参考的用户历史行为不够全面,导致对用户在候选内容上所采取行为的预估不够准确,存在较大的偏差。
发明内容
基于此,有必要针对现有技术中对用户在候选内容上所采取行为的预估不够准确的技术问题,提供一种点击率预估方法、装置、计算机可读存储介质和计算机设备,以及一种分享率预估方法、装置、计算机可读存储介质和计算机设备。
一种点击率预估方法,包括:
获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
将所述历史点击内容序列特征与所述点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;
基于所述候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史点击内容序列的聚合特征;
根据所述候选内容特征、所述用户画像特征及所述聚合特征,提取输出特征,并根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率。
一种点击率预估装置,所述装置包括:
获取模块,用于获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
融合模块,用于将所述历史点击内容序列特征与所述点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;
聚合模块,用于基于所述候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史点击内容序列的聚合特征;
特征组合模块,用于根据所述候选内容特征、所述用户画像特征及所述聚合特征,提取输出特征;
确定模块,用于根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述点击率预估方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述点击率预估方法的步骤。
上述点击率预估方法、装置、计算机可读存储介质及计算机设备,在预估目标用户对候选内容的点击率时,将目标用户对应的历史点击内容序列特征与相应的点击时间序列特征融合,获得携带点击时间信息的融合特征,不仅考虑目标用户的历史点击行为,还充分考虑了用户历史点击行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带点击时间信息的融合特征、候选内容特征为目标用户的历史点击内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估点击率更为准确。
一种分享率预估方法,包括:
获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据;
分别将所述候选内容稀疏数据、所述用户画像稀疏数据、所述历史分享内容序列稀疏数据及所述分享时间序列稀疏数据转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征;
将所述历史分享内容序列特征与所述分享时间序列特征融合,获得历史分享内容序列中各历史分享内容所对应的携带分享时间信息的融合特征;
基于所述候选内容特征、各历史分享内容对应的融合特征,确定各历史分享内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史分享内容序列的聚合特征;
根据所述候选内容特征、所述用户画像特征及所述聚合特征,提取输出特征,并根据所述输出特征确定所述目标用户对应所述候选内容的预估分享率;
获取所述目标用户对应各候选内容的预估分享率;
当所述预估分享率满足预设推送条件时,向所述目标用户推送所述预估分享率对应的候选内容。
一种分享率预估装置,包括:
获取模块,用于获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据;分别将所述候选内容稀疏数据、所述用户画像稀疏数据、所述历史分享内容序列稀疏数据及所述分享时间序列稀疏数据转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征;
融合模块,用于将所述历史分享内容序列特征与所述分享时间序列特征融合,获得历史分享内容序列中各历史分享内容所对应的携带分享时间信息的融合特征;
聚合模块,用于基于所述候选内容特征、各历史分享内容对应的融合特征,确定各历史分享内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史分享内容序列的聚合特征;
特征组合模块,用于根据所述候选内容特征、所述用户画像特征及所述聚合特征,提取输出特征;
确定模块,用于根据所述输出特征确定所述目标用户对应所述候选内容的预估分享率;
推送模块,用于获取所述目标用户对应各候选内容的预估分享率;当所述预估分享率满足预设推送条件时,向所述目标用户推送所述预估分享率对应的候选内容。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述分享率预估方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述分享率预估方法的步骤。
上述分享率预估方法、装置、计算机可读存储介质和计算机设备,在预估目标用户对候选内容的分享率时,首先获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据,依次转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征后,将目标用户对应的历史分享内容序列特征与相应的分享时间序列特征融合,获得携带分享时间信息的融合特征,不仅考虑目标用户的历史分享行为,还充分考虑了用户历史分享行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带分享时间信息的融合特征、候选内容特征为目标用户的历史分享内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史分享内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估分享率更为准确,基于确定的预估分享率向该目标用户推送的候选内容也更为准确。
附图说明
图1为一个实施例中点击率预估方法的应用环境图;
图2为一个实施例中向用户推送内容的用户界面示意图;
图3为一个实施例中点击率预估方法的流程示意图;
图4为一个实施例中将稀疏数据转化为嵌入特征向量的示意图;
图5为一个实施例中历史点击内容序列的示意图;
图6为一个实施例中融合历史点击内容序列特征与点击时间序列特征的示意图;
图7为一个实施例中获得历史点击内容序列的聚合特征的流程示意图;
图8为一个实施例中通过注意力网络输出聚合特征的示意图;
图9为一个实施例中通过内积单元与深度神经网络提取组合特征的示意图;
图10为一个实施例中Deep-FM模型框架的网络结构示意图;
图11为一个实施例中点击率预估模型的网络结构示意图;
图12为一个实施例中点击率预估模型的训练方法的流程示意图;
图13为一个具体的实施例中点击率预估方法的流程示意图;
图14为一个实施例中点击率预估装置的结构框图;
图15为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中点击率预估方法的应用环境图。参照图1,该点击率预估方法应用于点击率预估系统。该点击率预估系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
服务器120可以获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征;根据候选内容特征、用户画像特征及聚合特征,提取输出特征,并根据输出特征确定目标用户对应候选内容的预估点击率。服务器120可以根据候选内容的点击率从候选内容中确定推送至目标用户的内容,并将确定的内容推送至终端110。
需要说明的是,上述的应用环境只是一个示例,在一些实施例中,也可以由终端110执行上述点击率预估方法的步骤。例如,终端可以直接利用配置的点击率预估装置运行事先训练好的点击率预估模型,通过该点击率预估模型获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征;根据候选内容特征、用户画像特征及聚合特征,提取输出特征,并根据输出特征确定目标用户对应候选内容的预估点击率。
在一些实施例中,终端110上安装和运行有支持内容推送功能的应用程序(客户端),当终端110运行该应用程序时,终端110的屏幕上显示有用于展示推送内容的用户界面,终端可以通过执行上述点击率预估方法的步骤从大量的候选内容中选取待推送至当前登录用户的内容,并通过该用户界面展示给当前登录用户,用户可通过该用户界面浏览、查看推送的内容。比如,用户可以持续地从订阅号获取更新的内容。
如图2所示,为一个实施例中向用户推送内容的用户界面示意图。参照图2,终端可以向用户推送图文公众号、视频、新闻等不同的内容后呈现给用户,终端在推送内容时,可以对每篇文章、每部视频、每篇新闻进行点击率预估,并按照预估的点击率进行排序,从而将具有较高点击率的内容推送至给用户。
如图3所示,在一个实施例中,提供了一种点击率预估方法。本实施例以该方法应用于计算机设备(如上述图1中的终端110或服务器120)来举例说明。参照图3,该点击率预估方法具体包括如下步骤S302至S308:
S302,获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征。
其中,目标用户是待推送内容的目标对象,比如,在用户登录了用于浏览内容的客户端之后,目标用户为当前登录用户。候选内容包括待推送至目标用户的内容,包括即时生成内容或事先生成的内容,候选内容可以是新闻、视频、文章或商品等等。候选内容的数量可以按照需求进行设置,在本实施例中,是预估目标用户对某一个候选内容的点击率,这样可以按照本实施例依次预估目标用户对所有的候选内容的点击率,然后按照点击率进行排序,从候选内容中选取推送至目标用户的目标内容。在另一些实施例中,也可以是直接一次性预估目标用户对所有候选内容的点击率,直接得到目标用户对每一候选内容的点击率,再按照各个候选内容的点击率进行排序,从候选内容中选取推送至目标用户的目标内容。
候选内容特征,是待推送的候选内容对应的嵌入特征向量(Embedding Feature)。候选内容特征是根据候选内容稀疏数据转化得到的,计算机设备可以获取候选内容在每个统计维度(field)对应的稀疏数据,并将每个稀疏数据转换到一个向量空间,得到相应的候选内容特征。候选内容稀疏数据是按照一系列统计维度对候选内容进行描述得到的稀疏特征向量(Sparse Feature),候选内容的统计维度可以包括候选内容的一级类别、二级类别、关键词、曝光次数、被点赞、被收藏、被分享或不喜欢的次数等等,具体可以按照实际需要来设置。
在一些实施例中,可以采用独热编码方式(one-hot)对候选内容在每个统计维度下的值进行编码,得到相应的稀疏数据。以统计维度为“一级类别”来举例说明,“一级类别”包括“体育、科教、娱乐、游戏”这4个类别,那么在“一级类别”这个统计维度下,稀疏数据的取值是一个长度为4的one-hot向量:当候选内容的一级类别为“体育”时,与“一级类别”对应的稀疏数据为{1,0,0,0};当候选内容的一级类别为“科教”时,与“一级类别”对应的稀疏数据为{0,1,0,0};当候选内容的一级类别为“娱乐”时,与“一级类别”对应的稀疏数据为{0,0,1,0};当候选内容的一级类别为“游戏”时,与“一级类别”对应的稀疏数据为{0,0,0,1}。
可以理解的是,由于不同的统计维度下取值的类别数量不同,导致用于描述候选内容在不同统计维度下的稀疏数据的向量长度也就不同,候选内容稀疏数据包括每个统计维度下的稀疏数据。可见每个统计维度下的稀疏数据是一个十分稀疏的特征数据,而通过计算机设备转化得到的嵌入特征向量是一个稠密的特征向量,且具有相同的长度,以便于将不同统计维度下的特征进行交叉组合,提取深度信息。
类似地,用户画像特征,是目标用户的画像信息对应的嵌入特征向量(EmbeddingFeature)。用户的画像信息的统计维度可以包括用户年龄、性别、喜好、收入、地理位置等等。用户画像特征是根据用户画像稀疏数据转化得到的,计算机设备可以获取目标用户在上述统计维度对应的稀疏数据,并将每个稀疏数据转换到一个向量空间,得到用户画像特征。
历史点击内容序列特征,是目标用户的历史点击内容序列对应的嵌入特征向量(Embedding Feature),历史点击内容序列是目标用户在过去一段时间内点击的多个内容的构成的序列,可以理解的是,目标用户在不同时刻所对应的历史点击内容序列是随着时间地推进动态变化的。和候选内容一样,每个历史点击内容对应的统计维度可以包括一级类别、二级类别、关键词、曝光次数、被点赞、被收藏、被分享或不喜欢的次数等等。历史点击内容序列特征是根据历史点击内容序列稀疏数据转化得到的,计算机设备可以获取历史点击内容序列中各历史点击内容在上述统计维度对应的稀疏数据,并将每个稀疏数据转换到一个向量空间,得到各历史点击内容对应历史点击内容特征,将各历史点击内容特征拼接得到历史点击内容序列特征。
点击时间序列特征,是目标用户的历史点击内容序列中各历史点击内容的点击时间信息对应的嵌入特征向量(Embedding Feature)。点击时间信息可以用目标用户点击历史内容的时间距离当前时间的时差来表示,点击时间信息可以用1个统计维度来描述,在这1个统计维度下的取值可以按照实际需要进行设置,比如包括“两天前、一天前、半天前、刚刚”等等。目标用户的历史点击内容的点击时间信息能够在一定程度上反应目标用户当前的兴趣和偏好。点击时间序列特征是根据点击时间序列稀疏数据转化得到的,计算机设备可以获取各历史点击内容在点击时间信息这一统计维度对应的稀疏数据,并将每个稀疏数据转换到一个向量空间,得到点击时间序列特征。
在一个实施例中,步骤S302,获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征,包括:获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据;通过与各类稀疏数据对应的权重矩阵,分别将候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征。
其中,权重矩阵是将高维的稀疏数据映射到低维且向量元素都不为零的空间向量中所使用的矩阵。不仅候选内容、用户画像信息、历史点击内容、点击时间信息所对应的权重矩阵不同,候选内容在不同统计维度下的权重矩阵也是不同的,也就是说,每一统计维度(field)下都对应了相应的权重矩阵。比如,候选内容稀疏数据中第i个field对应的稀疏数据是一个1×d的onehot向量,与第i个field对应的权重矩阵是一个d×n的矩阵Wi,则第i个field对应的嵌入特征是一个1×n的向量。当每个field对应的权重矩阵的维度都是n时,则可以将不同长度的稀疏数据转化为相同长度的嵌入特征向量。在一个实施例中,当候选内容与历史点击内容具有相同的统计维度时,候选内容与历史点击内容可以共享权重矩阵,也就是将候选内容稀疏数据、历史点击内容序列稀疏数据映射至同一个向量空间,比如,若待推送的内容、历史点击内容均为与化妆相关的文章,又比如,待推送的内容、历史点击内容均为游戏类视频。
在一个实施例中,本申请所提供的点击率预估方法可以是通过事先训练好的点击率预估模型执行,点击率预估模型通过训练样本进行学习而具备对候选内容进行点击率预估的能力,计算机设备可以通过点击率预估模型的输入层获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,再通过点击率预估模型的特征嵌入层中与各类特征对应的权重矩阵,分别将候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征。
具体地,点击率预估模型的输入层获取到稀疏数据之后,再通过点击率预估模型的特征嵌入层中与各类稀疏数据对应的权重矩阵,将相应的稀疏数据转换为相同长度的嵌入特征。输入层中的稀疏数据是按照统计维度(field)划分的,比如第1个field至第5个field描述的是候选内容,第6个field至第15个field描述的是用户画像信息,一共有10个历史点击内容,每个历史点击内容用5个field描述,则第16个field至第65个field描述的是历史点击内容序列,第66个field至第75个field描述的是历史点击内容时间序列,那么特征嵌入层一共有75个权重矩阵,这75个权重矩阵需要通过事先训练点击率预估模型来确定。
如图4所示,为一个实施例中将稀疏数据转化为嵌入特征向量的示意图。参照图4,点击率预估模型的输入层获得稀疏数据(Sparse Feature),稀疏数据包括候选内容稀疏数据、目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,稀疏数据按照统计维度(field)进行划分,每个field的长度可以不一致,通过事先训练好的点击率预估模型的特征嵌入层中与各field对应的权重矩阵,将每个field的稀疏数据转化为长度相同的嵌入特征向量(Embedding Feature)。
S304,将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征。
用户在当前时刻的兴趣与用户不久前点击的内容有较强的关联,为了充分挖掘目标用户当前时刻的兴趣,计算机设备可以将目标用户的历史点击内容与相应的点击时间信息融合,使得在挖掘历史点击内容的特征时,还充分考虑了点击时间信息,从而使得挖掘得到的特征因携带时间信息而更为准确。
具体地,历史点击内容序列特征包括各历史点击内容特征,点击时间序列特征包括与各历史点击内容相应的点击时间信息对应的特征,在得到历史点击内容序列特征与点击时间序列特征后,计算机设备可以将历史点击内容序列特征中各历史点击内容特征与相应的点击时间特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征。
如图5所示,为一个实施例中历史点击内容序列的示意图。参照图5,呈现了两个不同用户对应的历史点击内容序列,并给出了每个历史点击内容所对应的点击时间信息。从图5可知,对表达用户当前兴趣的权重而言,距离当前时刻越近的历史点击内容应该比距离当前时刻远的历史点击内容权重更大,因此,对于用户A而言,用户A当前兴趣更倾向于XX财经类的内容,对于用户B而言,用户B当前兴趣更倾向于游戏类的内容。可见,用户历史点击内容对应的点击时间信息对于捕获和预测用户当前兴趣非常重要。
在一个实施例中,步骤S304,将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征,包括:从历史点击内容序列特征获得各历史点击内容的历史点击内容特征;从点击时间序列特征获得各历史点击内容的点击时间特征;将各历史点击内容特征与相应的点击时间特征拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征。
其中,全连接网络用于将拼接(Concat)后的高维度特征进行融合后获得维数较小的特征,即融合特征,融合特征综合了历史点击内容本身的信特征与相应的点击时间信息。计算机设备可以将各历史点击内容特征与相应的点击实际特征进行拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征。
如图6所示,为一个实施例中将历史点击内容序列特征与点击时间序列特征融合的示意图。参照图6,历史点击内容序列特征为HIS,点击时间序列特征为POS,从HIS中提取各历史点击内容对应的历史点击内容特征his1、his2、his3、…、hisN,从POS中提取各历史点击内容对应的时间特征pos1、pos2、pos3、…、posN,将his1与相应的pos1拼接、his2与相应的pos2拼接、his3与相应的pos3拼接…hisN与相应的posN拼接后,获得各历史点击内容所对应的携带了点击时间信息的融合特征hispos1、hispos2、hispos3、…、hisposN。
S306,基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征。
其中,注意力权重系数用于表示历史点击内容对目标用户当前兴趣的影响力,历史点击内容对应的注意力权重系数越大,则该历史点击内容对目标用户当前兴趣的影响就越大,反之,历史点击内容对应的注意力权重系数越小,则该历史点击内容对目标用户当前兴趣的影响就越小。注意力权重系数是依据各历史点击内容对应的融合特征确定的,融合特征携带了历史点击内容的点击时间信息,说明目标用户对各历史点击内容的点击时间信息也会对分配的注意力权重系数产生影响;同时,注意力权重系数也依据候选内容特征确定,注意力权重系数也能够反映出目标用户当前对该候选内容的感兴趣程度。
前文提及的融合特征是与各历史点击内容对应的,融合特征是通过将各历史点击内容本身的特征与相应的点击时间信息融合得到的,而此处的聚合特征是与历史点击内容序列对应的,聚合特征是在注意力权重系数的影响下将各历史点击内容对应的融合特征聚合在一起得到的,聚合特征作为一个整体特征反应了目标用户的历史点击行为的偏好。
具体地,计算机设备在获得各历史点击内容对应的携带时间信息的融合特征后,可以依据候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据确定的注意力权重系数获得目标用户对应历史点击内容序列的聚合特征。
在一个实施例中,如图7所示,步骤S306,基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,包括:
S702,获取候选内容特征与各历史点击内容对应的融合特征之间的相似度。
S704,根据相似度确定各历史点击内容对应的注意力权重系数。
在本实施例中,历史点击内容对应的注意力权重系数可以用候选内容的候选内容特征与历史点击内容对应的融合特征之间的相似度来表示,相似度越大,注意力权重系数越大,说明历史点击内容对目标用户当前兴趣的影响越大,相似度越大,同时也说明候选内容与历史点击内容较为相似,那么目标用户对该候选内容采取点击行为的可能性也就越大。很显然,由于各历史点击内容对应的融合特征不同,其与候选内容对应的候选内容特征之间的相似度也不同,对应的注意力权重系数也就不同。
在一个实施例中,相似度可以用候选内容特征与各历史点击内容对应的融合特征之间的距离来表示,比如余弦相似度。
S706,对各历史点击内容对应的注意力权重系数与相应的融合特征进行加权求和处理,获得目标用户对应历史点击内容序列的聚合特征。
具体地,在计算机设备为各历史点击内容分配了相应的注意力权重系数后,依据注意力权重系数对携带了点击时间信息的融合特征进行线性加权求和,获得从整体上表达目标用户的历史点击行为的聚合特征。
可选地,计算机设备可以通过事先训练好的点击率预估模型中的注意力网络(attention network)获取候选内容特征与各历史点击内容对应的融合特征,根据候选内容特征与融合特征分别确定各历史点击内容对应的注意力权重系数,再依据注意力权重系数对各历史点击内容对应的融合特征进行线性加权求和,获得历史点击内容序列的聚合特征。
如图8所示,为一个实施例中通过注意力网络输出聚合特征的示意图。参照图8,候选内容特征为CAND,各历史点击内容对应的融合特征依次为hispos1、hispos2、hispos3、…、hisposN,将每个历史点击内容的融合特征与CAND输入至注意力网络,依次通过注意力网络确定每个历史点击内容的注意力权重系数后,再依据注意力权重系数与融合特征输出历史点击内容序列对应的聚合特征,即hisout。
在本实施例中,通过为携带点击时间信息的历史点击行为分配对应的注意力权重,再依据注意力权重对各历史点击内容对应的融合特征进行聚合得到的聚合特征也就隐含携带了点击时间信息,使得后续基于该聚合特征所进行的点击率预估因为有了更多参考信息而更为准确。
S308,根据候选内容特征、用户画像特征及聚合特征,提取输出特征,并根据输出特征确定目标用户对应候选内容的预估点击率。
其中,输出特征不仅融合了候选内容信息、目标用户的用户画像信息、目标用户的历史点击内容及点击时间信息,而且还隐含着这些信息之间更深层次的联系,以一种特征向量的形式较为全面、准确地表达了目标用户当前对候选内容的感兴趣程度。
具体地,计算机设备在获得目标用户对应历史点击内容序列的聚合特征后,进一步挖掘这些特征之间的组合特征,也就是对获得的聚合特征、候选内容特征与用户画像特征进行特征提取,获得输出特征,并基于最后的输出特征确定目标用户对应候选内容的预估点击率。
上述点击率预估方法,在预估目标用户对候选内容的点击率时,将目标用户对应的历史点击内容序列特征与相应的点击时间序列特征融合,获得携带点击时间信息的融合特征,不仅考虑目标用户的历史点击行为,还充分考虑了用户历史点击行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带点击时间信息的融合特征、候选内容特征为目标用户的历史点击内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估点击率更为准确。
可选地,对于点击率预估而言,从候选内容特征、用户画像特征及聚合特征中获得的高阶组合特征与低阶组合特征都非常重要,同时基于这两种组合特征进行预估的准确率要比只考虑其中一种的准确率高。因此,计算机设备可以提取候选内容特征、用户画像特征及聚合特征两两之间的低阶组合特征与高级组合特征,再依据低阶组合特征与高级组合特征获得输出特征。
在一个实施例中,步骤S308,根据候选内容特征、用户画像特征及聚合特征,提取输出特征,包括:提取候选内容特征、用户画像特征及聚合特征间的二阶组合特征;提取候选内容特征、用户画像特征及聚合特征间的高阶组合特征;将二阶组合特征与高阶组合特征拼接后获得输出特征。
在一个实施例中,点击率预估方法可以通过点击率预估模型来实现,计算机设备可以将候选内容特征、用户画像特征及聚合特征拼接后输入至点击率预估模型中的内积单元和深度神经网络,通过内积单元提取二阶组合特征,并通过深度神经网络提取高阶组合特征。如图9所示,为一个实施例中通过点击率预估模型中的内积单元与深度神经网络提取组合特征的示意图。参照图9,用户画像特征为USER,候选内容特征为CAND,聚合特征为hisout,将USER、CAND与hisout拼接(CONCAT)后得到的向量分别输入至内积单元与深度神经网络,通过内积单元提取两个互异特征分量之间的二阶关系,即二阶组合特征,通过深度神经网络中的多个隐藏层提取两个互异特征分量之间的更高阶关系,即高阶组合特征,将二阶组合特征与高阶组合特征拼接即为输出特征。需要说明的是,如前文提及的,各类特征是按统计维度划分的,因此这里的互异特征分量也是按统计维度划分的,是不同统计维度对应的特征分量,比如,可以是候选内容特征中两个不同统计维度上的两个互异特征分量,也可以是候选内容特征与用户画像特征中两个不同统计维度上的两个互异特征分量。
在一个实施例中,计算机设备可以基于Deep-FM(Factorization-Machine basedNeural Network,基于神经网络的因子分解机)模型框架实现组合特征提取,利用该模型框架中的因子分解机中的内积单元对候选内容特征、用户画像特征及聚合特征进行二阶特征交叉,获得二阶组合特征,利用该模型框架中的深度神经网络对候选内容特征、用户画像特征及聚合特征进行深度特征交叉,获得高阶组合特征。如图10所示,为一个实施例中Deep-FM模型框架的网络结构示意图,参照图10,Deep-FM包含两部分:深度神经网络(Hiddenlayer)与因子分解机(FM layer),这两部分共享相同的Dense Embeddings(即EmbeddingFeatures),分别负责对Dense Embeddings进行低阶特征提取和高阶特征提取。应用到本申请中,Dense Embeddings包括候选内容特征、用户画像特征及聚合特征,FM layer中的内积单元(Inner Product)用于提取这些特征之间的二阶组合特征,Hidden layer用于提取这些特征之间的高阶组合特征,最后通过输出单元(Output Units)获得预估点击率。
在一个实施例中,上述点击率预估方法还包括:获取候选内容稀疏数据和用户画像稀疏数据;将候选内容稀疏数据转化为候选内容一阶特征;将用户画像稀疏数据转化为用户画像一阶特征;则将二阶组合特征与高阶组合特征拼接后获得输出特征,包括:将候选内容一阶特征、用户画像一阶特征、二阶组合特征与高阶组合特征拼接后,获得输出特征。
具体地,为了提升点击率预估的准确性,还可以在输出特征中进一步补充一阶特征信息,计算机设备可以将候选内容稀疏数据转化为低维度的候选内容一阶特征,将用户画像稀疏数据转化为低维度的用户画像一阶特征,将候选内容一阶特征、用户画像一阶特征直接与提取的二阶组合特征、高阶组合特征拼接后,获得输出特征。该输出特征由于补充了一阶特征信息,使得基于该输出特征确定的预估点击率更为准确。
在一个实施例中,根据输出特征确定目标用户对应候选内容的预估点击率,包括:将输出特征输入至点击率预估模型中的输出层;通过点击率预估模型中的输出层,根据输出特征确定目标用户对应候选内容的预估点击率。
具体地,计算机设备将获得的输出特征输入至点击率预估模型中的输出层,通过输出层依据输出特征确定目标用户对候选内容的预估点击率。预估点击率是一个[0,1]之间的值,预估点击率越大,代表目标用户对候选内容采取点击行为的可能性越大,反之,预估点击率越小,代表目标用户对候选内容采取点击行为的可能性越小。
在一个实施例中,输出层包括全连接网络与激活层。当点击率预估模型的输入中只包括1个候选内容对应的稀疏数据时,则输出特征是一个向量,全连接网络用于将该向量中的每个元素进行糅合获得该候选内容的得分,当点击率预估模型的输入中包括k个候选内容对应的稀疏数据时,则输出特征是一个向量矩阵,全连接网络用于将该向量矩阵转化为一个k维向量,该向量中每个元素代表了每个候选内容对应的得分。激活层具体可以采用Sigmoid函数实现,通过Sigmoid函数将全连接层输出的得分映射为一个[0,1]区间的数值,即为预估点击率。
在一个实施例中,当点击率预估模型的输入包括多个候选内容对应的稀疏数据时,那么点击率预估模型对这多个候选内容进行点击率预估时,通过输出层直接获得各候选内容的预估点击率。
在一个实施例中,上述方法还包括:获取目标用户对应各候选内容的预估点击率;当预估点击率满足预设推送条件时,向目标用户推送预估点击率对应的候选内容。
具体地,计算机设备可以按照预估点击率的大小对候选内容进行排序,从中挑选出预估点击率大于阈值的候选内容或者是挑选出排名大于阈值的候选内容,并将挑选出的候选内容推送至目标用户。
在一个实施例中,计算机设备可以获取事先训练好的点击率预估模型,通过该点击率预估模型实现本申请提供的点击率预估方法的步骤,如图11所示,为一个实施例中点击率预估模型的网络结构示意图,该点击率预估模型包括输入层、一阶特征提取层、特征嵌入层、特征融合层,注意力网络、内积单元、深度神经网络和输出层,其中:
输入层用于获取候选内容稀疏数据cand,并获取目标用户对应的用户画像稀疏数据user、历史点击内容序列稀疏数据his_sequence及相应的点击时间序列稀疏数据pos_sequence;一阶特征提取层用于将候选内容稀疏数据转化为候选内容一阶特征;将用户画像稀疏数据转化为用户画像一阶特征;特征嵌入层用于通过与各类稀疏数据对应的权重矩阵,分别将候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及点击时间序列稀疏数据转化为候选内容特征CAND、用户画像特征USER、历史点击内容序列特征HIS及相应的点击时间序列特征POS;特征融合层用于将历史点击内容序列特征HIS与点击时间序列特征融合POS,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征hispos;注意力网络用于基于候选内容特征、各历史点击内容对应的融合特征hispos,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征hisout;内积单元用于提取候选内容特征、用户画像特征及聚合特征间的二阶组合特征;深度神经网络用于提取候选内容特征、用户画像特征及聚合特征间的高阶组合特征;输出层用于获取根据候选内容一阶特征、用户画像一阶特征、二阶组合特征与高阶组合特征拼接(CONCAT)而成的输出特征,根据输出特征确定目标用户对应候选内容的预估点击率CTR。
如图12所示,该点击率预估模型的训练方法具体包括如下步骤S1202至S1208:
S1202,获取训练样本集中的样本数据,样本数据包括候选内容稀疏数据、样本用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,还包括样本用户对候选内容所采取的真实点击行为所对应的真实点击率。
S1204,将样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型进行训练,得到样本用户对候选内容的预测点击率。
在按照图11所示的网络结构构造了初始的点击率预估模型后,可以将训练样本集中的各个样本数据输入到初始的点击率预估模型中进行模型的训练,获得模型参数,模型参数包括特征嵌入层中的权重矩阵、一阶特征提取层中的权重矩阵、深度学习网络中的隐藏层的权重矩阵、各全连接网络中的权重矩阵以及输出层的权重矩阵等等。在训练的过程中,模型参数是根据每次点击率预估模型输出的预测点击率与真实点击率之间的差异不断调整确定的。
按照图11所示的模型的内部结构,步骤S1204,将样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型进行训练,得到样本用户对候选内容的预测点击率的步骤具体包括:
分别将样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;从历史点击内容序列特征获得各历史点击内容的历史点击内容特征;从点击时间序列特征获得各历史点击内容的点击时间特征;将各历史点击内容特征与相应的点击时间特征拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征;获取候选内容特征与各历史点击内容对应的融合特征之间的相似度;根据相似度确定各历史点击内容对应的注意力权重系数;对各历史点击内容对应的注意力权重系数与相应的融合特征进行加权求和处理,获得目标用户对应历史点击内容序列的聚合特征;将候选内容稀疏数据转化为候选内容一阶特征;将用户画像稀疏数据转化为用户画像一阶特征;提取候选内容特征、用户画像特征及聚合特征间的二阶组合特征;提取候选内容特征、用户画像特征及聚合特征间的高阶组合特征;将候选内容一阶特征、用户画像一阶特征、二阶组合特征与高阶组合特征拼接后,获得输出特征;将输出特征输入至点击率预估模型中的输出层;通过点击率预估模型中的输出层,根据输出特征确定目标用户对应候选内容的预测点击率。
S1206,根据真实点击率和预测点击率构建损失函数。
其中,损失函数用于评估当前点击率预估模型输出的预测点击率与真实点击率之间的差异程度,可以依据该差异程度去调整模型参数。
S1208,将损失函数最小化时的模型参数作为点击率预估模型的最新模型参数,并返回获取训练样本集中的样本数据的步骤继续训练,直至根据最新模型参数所确定的点击率预估模型满足训练停止条件。
具体地,对于每一次训练得到的每个样本数据对应的损失函数,取损失最小化时的模型参数作为点击率预估模型的最新模型参数,然后继续采用下一个样本数据进行训练,直至根据得到的模型参数所得到的点击率预估模型满足训练停止条件。该训练停止条件可以是迭代次数,也可以是损失函数的评估分数满足要求。
如图13所示,在一个具体的实施例中,点击率预估方法包括以下步骤:
S1302,将获取的候选内容对应的候选内容稀疏数据、目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型;
S1304,通过点击率预估模型的特征嵌入层中与各类稀疏数据对应的权重矩阵,分别将候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
S1306,通过点击率预估模型的特征融合层,从历史点击内容序列特征获得各历史点击内容的历史点击内容特征;从点击时间序列特征获得各历史点击内容的点击时间特征;将各历史点击内容特征与相应的点击时间特征拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征。
S1308,通过点击率预估模型的注意力网络,获取候选内容特征与各历史点击内容对应的融合特征之间的相似度;根据相似度确定各历史点击内容对应的注意力权重系数;对各历史点击内容对应的注意力权重系数与相应的融合特征进行加权求和处理,获得目标用户对应历史点击内容序列的聚合特征。
S1310,通过点击率预估模型的内积单元,提取候选内容特征、用户画像特征及聚合特征间的二阶组合特征;
S1312,通过点击率预估模型的深度学习网络,提取候选内容特征、用户画像特征及聚合特征间的高阶组合特征;
S1314,通过点击率预估模型的一阶特征提取层,将候选内容稀疏数据转化为候选内容一阶特征;将用户画像稀疏数据转化为用户画像一阶特征;
S1316,通过点击率预估模型的拼接层,将候选内容一阶特征、用户画像一阶特征、二阶组合特征与高阶组合特征拼接后,获得输出特征。
S1318,通过点击率预估模型中的输出层,根据输出特征确定目标用户对应候选内容的预估点击率。
S1320,获取目标用户对应各候选内容的预估点击率;当预估点击率满足预设推送条件时,向目标用户推送预估点击率对应的候选内容。
上述点击率预估方法,在预估目标用户对候选内容的点击率时,将目标用户对应的历史点击内容序列特征与相应的点击时间序列特征融合,获得携带点击时间信息的融合特征,不仅考虑目标用户的历史点击行为,还充分考虑了用户历史点击行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带点击时间信息的融合特征、候选内容特征为目标用户的历史点击内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估点击率更为准确。
图13为一个实施例中点击率预估方法的流程示意图。应该理解的是,虽然图13的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图13中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,图11中的点击率预估模型的网络结构还可以用于对目标用户的分享率进行预估。
具体地,按照图11中的网络结构搭建好分享率预估模型,在训练分享率预估模型时所使用的训练样本集中的样本数据包括候选内容稀疏数据,还包括样本用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据,还包括样本用户对候选内容所采取的真实分享行为所对应的真实分享率。根据该训练样本集中的各样本数据进行训练就可以获得对候选内容进行分享率预估的分享率预估模型。当然,若无法轻易获取到历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据,但由于用户点击行为在一定程度上与用户分享行为具备一定的联系,也可以使用历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据来代替。
分享率预估模型的训练步骤具体包括:将样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据输入至分享率预估模型进行训练,得到样本用户对候选内容的预测分享率;根据真实分享率和预测分享率构建损失函数;将损失函数最小化时的模型参数作为分享率预估模型的最新模型参数,并返回获取训练样本集中的样本数据的步骤继续训练,直至根据最新模型参数所确定的分享率预估模型满足训练停止条件。
在一个实施例中,提供了一种分享率预估方法,本实施例以该方法应用于计算机设备(如上述图1中的终端110或服务器120)来举例说明。该点击率预估方法可以通过训练好的分享率预估模型执行,具体包括如下步骤:
获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据;分别将候选内容稀疏数据、用户画像稀疏数据、历史分享内容序列稀疏数据及分享时间序列稀疏数据转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征;将历史分享内容序列特征与分享时间序列特征融合,获得历史分享内容序列中各历史分享内容所对应的携带分享时间信息的融合特征;基于候选内容特征、各历史分享内容对应的融合特征,确定各历史分享内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史分享内容序列的聚合特征;根据候选内容特征、用户画像特征及聚合特征,提取输出特征,并根据输出特征确定目标用户对应候选内容的预估分享率;获取目标用户对应各候选内容的预估分享率;当预估分享率满足预设推送条件时,向目标用户推送预估分享率对应的候选内容。
需要说明的是,关于分享率预估方法的具体实施例可以参考前文对点击率预估方法的描述,此处不再重复描述。
上述分享率预估方法,在预估目标用户对候选内容的分享率时,首先获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据,依次转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征后,将目标用户对应的历史分享内容序列特征与相应的分享时间序列特征融合,获得携带分享时间信息的融合特征,不仅考虑目标用户的历史分享行为,还充分考虑了用户历史分享行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带分享时间信息的融合特征、候选内容特征为目标用户的历史分享内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史分享内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估分享率更为准确,基于确定的预估分享率向该目标用户推送的候选内容也更为准确。
在一个实施例中,图11中的点击率预估模型的网络结构还可以用于对用户停留时长进行预估。
同样地,按照上述网络结构搭建好停留时长率预估模型,在训练停留时长率预估模型时所使用的训练样本集中的样本数据包括候选内容稀疏数据,还包括样本用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,还包括样本用户在候选内容上的停留行为所对应的真实停留时长。根据该训练样本集中的各样本数据进行训练就可以获得对候选内容进行停留时长率预估的停留时长率预估模型。
停留时长率预估模型的训练步骤具体包括:将样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型进行训练,得到样本用户对候选内容的预测停留时长;根据真实停留时长和预测停留时长构建损失函数;将损失函数最小化时的模型参数作为点击率预估模型的最新模型参数,并返回获取训练样本集中的样本数据的步骤继续训练,直至根据最新模型参数所确定的停留时长预估模型满足训练停止条件。
在一个实施例中,提供了一种停留时长预估方法,本实施例以该方法应用于计算机设备(如上述图1中的终端110或服务器120)来举例说明。该停留时长预估方法可以通过训练好的停留时长预估模型执行,具体包括如下步骤:
获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;将历史点击容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带分享时间信息的融合特征;基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征;根据候选内容特征、用户画像特征及聚合特征,提取输出特征,并根据输出特征确定目标用户对应候选内容的预估停留时长。
需要说明的是,关于停留时长预估方法的具体实施例可以参考前文对点击率预估方法的描述,此处亦不再重复描述。
上述停留时长预估方法,在预估目标用户对候选内容的停留时长时,将目标用户对应的历史点击内容序列特征与相应的点击时间序列特征融合,获得携带点击时间信息的融合特征,不仅考虑目标用户的历史点击行为,还充分考虑了用户历史点击行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带点击时间信息的融合特征、候选内容特征为目标用户的历史点击内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估停留时长更为准确。
与点击率预估模型一样,训练得到的分享率预估模型、停留时长预估模型也可以应用到候选内容的推送场景中,可以用于预估用户对候选内容的分享率与停留时长,从而为计算机设备向用户推送内容提供参考依据。
在一个实施例中,如图14所示,提供了一种点击率预估装置1400,该装置包括获取模块1402、融合模块1404、聚合模块1406、特征组合模块1408和确定模块1410,其中:
获取模块1402,用于获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
融合模块1404,用于将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;
聚合模块1406,用于基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征;
特征组合模块1408,用于根据候选内容特征、用户画像特征及聚合特征,提取输出特征;
确定模块1410,用于根据输出特征确定目标用户对应候选内容的预估点击率。
在一个实施例中,获取模块1402具体用于获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据;通过与各类稀疏数据对应的权重矩阵,分别将候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征。
在一个实施例中,融合模块1404具体用于从历史点击内容序列特征获得各历史点击内容的历史点击内容特征;从点击时间序列特征获得各历史点击内容的点击时间特征;将各历史点击内容特征与相应的点击时间特征拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征。
在一个实施例中,聚合模块1406具体用于获取候选内容特征与各历史点击内容对应的融合特征之间的相似度;根据相似度确定各历史点击内容对应的注意力权重系数;对各历史点击内容对应的注意力权重系数与相应的融合特征进行加权求和处理,获得目标用户对应历史点击内容序列的聚合特征。
在一个实施例中,特征组合模块1408用于提取候选内容特征、用户画像特征及聚合特征间的二阶组合特征;提取候选内容特征、用户画像特征及聚合特征间的高阶组合特征;将二阶组合特征与高阶组合特征拼接后获得输出特征。
在一个实施例中,上述点击率预估装置1400还包括一阶特征提取模块,用于获取候选内容稀疏数据和用户画像稀疏数据;将候选内容稀疏数据转化为候选内容一阶特征;将用户画像稀疏数据转化为用户画像一阶特征;特征组合模块1408还用于将候选内容一阶特征、用户画像一阶特征、二阶组合特征与高阶组合特征拼接后,获得输出特征。
在一个实施例中,确定模块1410具体用于将输出特征输入至点击率预估模型中的输出层;通过点击率预估模型中的输出层,根据输出特征确定目标用户对应候选内容的预估点击率。
在一个实施例中,上述点击率预估装置1400还包括推送模块,用于获取目标用户对应各候选内容的预估点击率;当预估点击率满足预设推送条件时,向目标用户推送预估点击率对应的候选内容。
在一个实施例中,上述点击率预估装置1400还包括训练模块,用于获取训练样本集中的样本数据,样本数据包括候选内容稀疏数据、样本用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,还包括样本用户对候选内容所采取的真实点击行为所对应的真实点击率;将样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型进行训练,得到样本用户对候选内容的预测点击率;根据真实点击率和预测点击率构建损失函数;将损失函数最小化时的模型参数作为点击率预估模型的最新模型参数,并返回获取训练样本集中的样本数据的步骤继续训练,直至根据最新模型参数所确定的点击率预估模型满足训练停止条件。
上述点击率预估装置1400,在预估目标用户对候选内容的点击率时,将目标用户对应的历史点击内容序列特征与相应的点击时间序列特征融合,获得携带点击时间信息的融合特征,不仅考虑目标用户的历史点击行为,还充分考虑了用户历史点击行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带点击时间信息的融合特征、候选内容特征为目标用户的历史点击内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估点击率更为准确。
在一个实施例中,提供了一种分享率预估装置,该装置包括获取模块、融合模块、聚合模块、特征组合模块和确定模块,其中:
获取模块,用于获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据;分别将候选内容稀疏数据、用户画像稀疏数据、历史分享内容序列稀疏数据及分享时间序列稀疏数据转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征;
融合模块,用于将历史分享内容序列特征与分享时间序列特征融合,获得历史分享内容序列中各历史分享内容所对应的携带分享时间信息的融合特征;
聚合模块,用于基于候选内容特征、各历史分享内容对应的融合特征,确定各历史分享内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史分享内容序列的聚合特征;
特征组合模块,用于根据候选内容特征、用户画像特征及聚合特征,提取输出特征;
确定模块,用于根据输出特征确定目标用户对应候选内容的预估分享率
推送模块,用于获取目标用户对应各候选内容的预估分享率;当预估分享率满足预设推送条件时,向目标用户推送预估分享率对应的候选内容。
上述分享率预估装置,在预估目标用户对候选内容的分享率时,首先获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据,依次转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征后,将目标用户对应的历史分享内容序列特征与相应的分享时间序列特征融合,获得携带分享时间信息的融合特征,不仅考虑目标用户的历史分享行为,还充分考虑了用户历史分享行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带分享时间信息的融合特征、候选内容特征为目标用户的历史分享内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史分享内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估分享率更为准确,基于确定的预估分享率向该目标用户推送的候选内容也更为准确。
在一个实施例中,提供了一种停留时长预估装置,该装置包括获取模块、融合模块、聚合模块、特征组合模块和确定模块,其中:
获取模块,用于获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
融合模块,用于将历史点击内容序列特征与点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;
聚合模块,用于基于候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据注意力权重系数获得目标用户对应历史点击内容序列的聚合特征;
特征组合模块,用于根据候选内容特征、用户画像特征及聚合特征,提取输出特征;
确定模块,用于根据输出特征确定目标用户对应候选内容的预估停留时长。
上述停留时长预估装置,在预估目标用户对候选内容的停留时长时,将目标用户对应的历史点击内容序列特征与相应的点击时间序列特征融合,获得携带点击时间信息的融合特征,不仅考虑目标用户的历史点击行为,还充分考虑了用户历史点击行为的时间信息,从而更为准确地捕获了目标用户当前的兴趣;接着,基于该携带点击时间信息的融合特征、候选内容特征为目标用户的历史点击内容分配相应的注意力权重系数,并依据该注意力权重系数获得目标用户对应历史点击内容序列的聚合特征,该聚合特征可以反映目标用户当前兴趣的注意力分配情况,继而根据该聚合特征、候选内容特征、用户画像特征提取的输出特征,能够更为准确地表达目标用户的当前兴趣,使得根据输出特征确定的对应候选内容的预估停留时长更为准确。
需要说明的是,关于分享率预估装置与停留时长预估装置的具体实施例可以参考前文对点击率预估装置的描述,此处不再重复描述。
图15示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图15所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。当该计算机设备为终端110时,还可以包括与系统总线连接的显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现点击率预估方法、分享率预估方法或停留时长预估方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行点击率预估方法或分享率预估方法或停留时长预估方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的点击率预估装置、分享率预估装置及停留时长预估装置可以实现为一种计算机程序的形式,计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成上述各装置的各个程序模块,比如,可以存储组成图14所示的点击率预估装置1400的获取模块1402、融合模块1404、聚合模块1406、特征组合模块1408和确定模块1410。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的点击率预估方法中的步骤。
例如,图15所示的计算机设备可以通过如图14所示的点击率预估装置1400中的获取模块1402执行步骤S302。计算机设备可通过融合模块1404执行步骤S304。计算机设备可通过聚合模块1406执行步骤S306。计算机设备可通过特征组合模块1408和确定模块1410执行步骤S308。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述点击率预估方法、分享率预估方法或停留时长预估方法的步骤。此处点击率预估方法可以是上述各个实施例的点击率预估方法的步骤。此处分享率预估方法可以是上述各个实施例的分享率预估方法的步骤。此处的停留时长预估方法可以是上述各个实施例的停留时长预估方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述点击率预估方法、分享率预估方法或停留时长预估方法的步骤。此处点击率预估方法可以是上述各个实施例的点击率预估方法的步骤。此处分享率预估方法可以是上述各个实施例的分享率预估方法的步骤。此处的停留时长预估方法可以是上述各个实施例的停留时长预估方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (21)

1.一种点击率预估方法,包括:
获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
将所述历史点击内容序列特征与所述点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;
基于所述候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史点击内容序列的聚合特征;
提取所述候选内容特征、所述用户画像特征及所述聚合特征间的二阶组合特征,提取所述候选内容特征、所述用户画像特征及所述聚合特征间的高阶组合特征,将所述二阶组合特征与所述高阶组合特征拼接后获得输出特征,并根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率。
2.根据权利要求1所述的方法,其特征在于,所述获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征,包括:
获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据;
通过与各类稀疏数据对应的权重矩阵,分别将所述候选内容稀疏数据、所述用户画像稀疏数据、所述历史点击内容序列稀疏数据及所述点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征。
3.根据权利要求1所述的方法,其特征在于,所述将所述历史点击内容序列特征与所述点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征,包括:
从所述历史点击内容序列特征获得各历史点击内容的历史点击内容特征;
从所述点击时间序列特征获得各历史点击内容的点击时间特征;
将各所述历史点击内容特征与相应的点击时间特征拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征。
4.根据权利要求1所述的方法,其特征在于,所述基于所述候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史点击内容序列的聚合特征,包括:
获取所述候选内容特征与各历史点击内容对应的融合特征之间的相似度;
根据所述相似度确定各历史点击内容对应的注意力权重系数;
对各历史点击内容对应的注意力权重系数与相应的融合特征进行加权求和处理,获得所述目标用户对应所述历史点击内容序列的聚合特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取候选内容稀疏数据和用户画像稀疏数据;
将所述候选内容稀疏数据转化为候选内容一阶特征;
将所述用户画像稀疏数据转化为用户画像一阶特征;
所述将所述二阶组合特征与所述高阶组合特征拼接后获得输出特征,包括:
将所述候选内容一阶特征、所述用户画像一阶特征、所述二阶组合特征与所述高阶组合特征拼接后,获得输出特征。
6.根据权利要求1所述的方法,其特征在于,所述根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率,包括:
将所述输出特征输入至点击率预估模型中的输出层;
通过所述点击率预估模型中的输出层,根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标用户对应各候选内容的预估点击率;
当所述预估点击率满足预设推送条件时,向所述目标用户推送所述预估点击率对应的候选内容。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法通过点击率预估模型执行,所述点击率预估模型的训练步骤包括:
获取训练样本集中的样本数据,所述样本数据包括候选内容稀疏数据、样本用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,还包括所述样本用户对候选内容所采取的真实点击行为所对应的真实点击率;
将所述样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型进行训练,得到样本用户对候选内容的预测点击率;
根据所述真实点击率和所述预测点击率构建损失函数;
将所述损失函数最小化时的模型参数作为所述点击率预估模型的最新模型参数,并返回所述获取训练样本集中的样本数据的步骤继续训练,直至根据最新模型参数所确定的点击率预估模型满足训练停止条件。
9.一种分享率预估方法,包括:
获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据;
分别将所述候选内容稀疏数据、所述用户画像稀疏数据、所述历史分享内容序列稀疏数据及所述分享时间序列稀疏数据转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征;
将所述历史分享内容序列特征与所述分享时间序列特征融合,获得历史分享内容序列中各历史分享内容所对应的携带分享时间信息的融合特征;
基于所述候选内容特征、各历史分享内容对应的融合特征,确定各历史分享内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史分享内容序列的聚合特征;
提取所述候选内容特征、所述用户画像特征及所述聚合特征间的二阶组合特征,提取所述候选内容特征、所述用户画像特征及所述聚合特征间的高阶组合特征,将所述二阶组合特征与所述高阶组合特征拼接后获得输出特征,并根据所述输出特征确定所述目标用户对应所述候选内容的预估分享率;
获取所述目标用户对应各候选内容的预估分享率;
当所述预估分享率满足预设推送条件时,向所述目标用户推送所述预估分享率对应的候选内容。
10.根据权利要求9所述的方法,其特征在于,所述方法通过分享率预估模型执行,所述分享率预估模型的训练步骤包括:
获取训练样本集中的样本数据,所述样本数据包括候选内容稀疏数据、样本用户对应的用户画像容稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列容稀疏数据,还包括所述样本用户对候选内容所采取的真实分享行为所对应的真实分享率;
将所述样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据输入至分享率预估模型进行训练,得到样本用户对候选内容的预测分享率;
根据所述真实分享率和所述预测分享率构建损失函数;
将所述损失函数最小化时的模型参数作为所述分享率预估模型的最新模型参数,并返回所述获取训练样本集中的样本数据的步骤继续训练,直至根据最新模型参数所确定的分享率预估模型满足训练停止条件。
11.一种点击率预估装置,所述装置包括:
获取模块,用于获取候选内容特征,并获取目标用户对应的用户画像特征、历史点击内容序列特征及相应的点击时间序列特征;
融合模块,用于将所述历史点击内容序列特征与所述点击时间序列特征融合,获得历史点击内容序列中各历史点击内容所对应的携带点击时间信息的融合特征;
聚合模块,用于基于所述候选内容特征、各历史点击内容对应的融合特征,确定各历史点击内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史点击内容序列的聚合特征;
特征组合模块,用于提取所述候选内容特征、所述用户画像特征及所述聚合特征间的二阶组合特征,提取所述候选内容特征、所述用户画像特征及所述聚合特征间的高阶组合特征,将所述二阶组合特征与所述高阶组合特征拼接后获得输出特征;
确定模块,用于根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率。
12.根据权利要求11所述的装置,其特征在于,所述获取模块用于获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据;通过与各类稀疏数据对应的权重矩阵,分别将所述候选内容稀疏数据、所述用户画像稀疏数据、所述历史点击内容序列稀疏数据及所述点击时间序列稀疏数据转化为候选内容特征、用户画像特征、历史点击内容序列特征及相应的点击时间序列特征。
13.根据权利要求11所述的装置,其特征在于,所述融合模块用于从所述历史点击内容序列特征获得各历史点击内容的历史点击内容特征;从所述点击时间序列特征获得各历史点击内容的点击时间特征;将各所述历史点击内容特征与相应的点击时间特征拼接后再通过全连接网络进行融合,获得各历史点击内容所对应的携带点击时间信息的融合特征。
14.根据权利要求11所述的装置,其特征在于,所述聚合模块用于获取所述候选内容特征与各历史点击内容对应的融合特征之间的相似度;根据所述相似度确定各历史点击内容对应的注意力权重系数;对各历史点击内容对应的注意力权重系数与相应的融合特征进行加权求和处理,获得所述目标用户对应所述历史点击内容序列的聚合特征。
15.根据权利要求11所述的装置,其特征在于,所述装置还包括一阶特征提取模块,用于获取候选内容稀疏数据和用户画像稀疏数据;将所述候选内容稀疏数据转化为候选内容一阶特征;将所述用户画像稀疏数据转化为用户画像一阶特征;所述特征组合模块还用于将所述候选内容一阶特征、所述用户画像一阶特征、所述二阶组合特征与所述高阶组合特征拼接后,获得输出特征。
16.根据权利要求11所述的装置,其特征在于,所述确定模块用于将所述输出特征输入至点击率预估模型中的输出层;通过所述点击率预估模型中的输出层,根据所述输出特征确定所述目标用户对应所述候选内容的预估点击率。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括推送模块,用于获取所述目标用户对应各候选内容的预估点击率;当所述预估点击率满足预设推送条件时,向所述目标用户推送所述预估点击率对应的候选内容。
18.根据权利要求11至17任一项所述的装置,其特征在于,所述装置还包括训练模块,用于获取训练样本集中的样本数据,所述样本数据包括候选内容稀疏数据、样本用户对应的用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据,还包括所述样本用户对候选内容所采取的真实点击行为所对应的真实点击率;将所述样本数据中的候选内容稀疏数据、用户画像稀疏数据、历史点击内容序列稀疏数据及相应的点击时间序列稀疏数据输入至点击率预估模型进行训练,得到样本用户对候选内容的预测点击率;根据所述真实点击率和所述预测点击率构建损失函数;将所述损失函数最小化时的模型参数作为所述点击率预估模型的最新模型参数,并获取训练样本集中的样本数据继续训练,直至根据最新模型参数所确定的点击率预估模型满足训练停止条件。
19.一种分享率预估装置,包括:
获取模块,用于获取待推送的候选内容对应的候选内容稀疏数据,并获取目标用户对应的用户画像稀疏数据、历史分享内容序列稀疏数据及相应的分享时间序列稀疏数据;分别将所述候选内容稀疏数据、所述用户画像稀疏数据、所述历史分享内容序列稀疏数据及所述分享时间序列稀疏数据转化为候选内容特征、用户画像特征、历史分享内容序列特征及相应的分享时间序列特征;
融合模块,用于将所述历史分享内容序列特征与所述分享时间序列特征融合,获得历史分享内容序列中各历史分享内容所对应的携带分享时间信息的融合特征;
聚合模块,用于基于所述候选内容特征、各历史分享内容对应的融合特征,确定各历史分享内容对应的注意力权重系数,并依据所述注意力权重系数获得所述目标用户对应所述历史分享内容序列的聚合特征;
特征组合模块,用于提取所述候选内容特征、所述用户画像特征及所述聚合特征间的二阶组合特征,提取所述候选内容特征、所述用户画像特征及所述聚合特征间的高阶组合特征,将所述二阶组合特征与所述高阶组合特征拼接后获得输出特征;
确定模块,用于根据所述输出特征确定所述目标用户对应所述候选内容的预估分享率;
推送模块,用于获取所述目标用户对应各候选内容的预估分享率;当所述预估分享率满足预设推送条件时,向所述目标用户推送所述预估分享率对应的候选内容。
20.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
CN201911139390.XA 2019-11-20 2019-11-20 点击率预估方法、装置、计算机可读存储介质和设备 Active CN110929206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911139390.XA CN110929206B (zh) 2019-11-20 2019-11-20 点击率预估方法、装置、计算机可读存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911139390.XA CN110929206B (zh) 2019-11-20 2019-11-20 点击率预估方法、装置、计算机可读存储介质和设备

Publications (2)

Publication Number Publication Date
CN110929206A CN110929206A (zh) 2020-03-27
CN110929206B true CN110929206B (zh) 2023-04-07

Family

ID=69850349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911139390.XA Active CN110929206B (zh) 2019-11-20 2019-11-20 点击率预估方法、装置、计算机可读存储介质和设备

Country Status (1)

Country Link
CN (1) CN110929206B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162703B (zh) * 2019-05-13 2024-08-20 深圳市雅阅科技有限公司 内容推荐方法、训练方法、装置、设备及存储介质
CN111177575B (zh) * 2020-04-07 2020-07-24 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN111222722B (zh) * 2020-04-24 2020-07-24 支付宝(杭州)信息技术有限公司 针对业务对象进行业务预测的方法、神经网络模型和装置
CN111563201A (zh) * 2020-04-29 2020-08-21 北京三快在线科技有限公司 内容推送方法、装置、服务器及存储介质
CN113743636B (zh) * 2020-05-28 2024-05-14 北京达佳互联信息技术有限公司 一种目标操作预测方法、装置、电子设备及存储介质
CN112749330B (zh) * 2020-06-05 2023-12-12 腾讯科技(深圳)有限公司 信息推送方法、装置、计算机设备和存储介质
CN111784062A (zh) * 2020-07-07 2020-10-16 上海携旅信息技术有限公司 点击概率预测方法、系统、电子设备和介质
WO2022011553A1 (en) * 2020-07-14 2022-01-20 Alibaba Group Holding Limited Feature interaction via edge search
CN111898904B (zh) * 2020-07-28 2024-03-22 拉扎斯网络科技(上海)有限公司 一种数据处理方法及装置
CN112084447B (zh) * 2020-08-17 2024-05-24 北京字节跳动网络技术有限公司 一种数据分配方法、装置、介质和电子设备
CN112000822B (zh) * 2020-08-21 2024-05-14 北京达佳互联信息技术有限公司 多媒体资源排序方法、装置、电子设备及存储介质
CN112132622B (zh) * 2020-09-25 2021-07-16 北京达佳互联信息技术有限公司 数据预估方法及装置
CN112328779B (zh) * 2020-11-04 2024-02-13 中国平安人寿保险股份有限公司 训练样本构建方法、装置、终端设备及存储介质
CN112381581B (zh) * 2020-11-17 2022-07-08 东华理工大学 一种基于改进Transformer的广告点击率预估方法
CN112307257B (zh) * 2020-11-25 2021-06-15 中国计量大学 一种基于多信息节点图网络的短视频点击率预测方法
CN113761338A (zh) * 2021-01-12 2021-12-07 北京沃东天骏信息技术有限公司 信息推送方法、装置和计算机可读存储介质
CN113778979A (zh) * 2021-01-21 2021-12-10 北京沃东天骏信息技术有限公司 一种直播点击率的确定方法和装置
CN112905839A (zh) * 2021-02-10 2021-06-04 北京有竹居网络技术有限公司 模型训练方法、模型使用方法、装置、存储介质及设备
CN113158026B (zh) * 2021-03-08 2024-03-15 咪咕文化科技有限公司 物品分发方法、电子设备和存储介质
CN112884529B (zh) * 2021-03-24 2024-04-26 杭州网易云音乐科技有限公司 一种广告竞价方法、装置、设备及介质
CN113297486B (zh) * 2021-05-24 2024-04-19 广州虎牙科技有限公司 一种点击率预测方法及相关装置
CN113626683B (zh) * 2021-06-30 2023-05-30 北京三快在线科技有限公司 一种ctr预估处理方法、装置、电子设备及存储介质
CN113595874B (zh) * 2021-07-09 2023-03-24 北京百度网讯科技有限公司 即时通讯群组的搜索方法、装置、电子设备和存储介质
CN114216712B (zh) * 2021-12-15 2024-03-08 深圳先进技术研究院 一种机械通气人机异步数据获取方法、检测方法及其设备
CN114707488B (zh) * 2022-02-25 2024-02-09 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN116611497B (zh) * 2023-07-20 2023-10-03 深圳须弥云图空间科技有限公司 一种点击率预估模型训练方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145245A (zh) * 2018-07-26 2019-01-04 腾讯科技(深圳)有限公司 预测点击率的方法、装置、计算机设备及存储介质
CN109670121A (zh) * 2018-12-18 2019-04-23 辽宁工程技术大学 基于注意力机制的项目级和特征级深度协同过滤推荐算法
CN109862432A (zh) * 2019-01-31 2019-06-07 厦门美图之家科技有限公司 点击率预测方法和装置
CN110162698A (zh) * 2019-04-18 2019-08-23 腾讯科技(深圳)有限公司 一种用户画像数据处理方法、装置及存储介质
CN110162701A (zh) * 2019-05-10 2019-08-23 腾讯科技(深圳)有限公司 内容推送方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180012251A1 (en) * 2016-07-11 2018-01-11 Baidu Usa Llc Systems and methods for an attention-based framework for click through rate (ctr) estimation between query and bidwords

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145245A (zh) * 2018-07-26 2019-01-04 腾讯科技(深圳)有限公司 预测点击率的方法、装置、计算机设备及存储介质
CN109670121A (zh) * 2018-12-18 2019-04-23 辽宁工程技术大学 基于注意力机制的项目级和特征级深度协同过滤推荐算法
CN109862432A (zh) * 2019-01-31 2019-06-07 厦门美图之家科技有限公司 点击率预测方法和装置
CN110162698A (zh) * 2019-04-18 2019-08-23 腾讯科技(深圳)有限公司 一种用户画像数据处理方法、装置及存储介质
CN110162701A (zh) * 2019-05-10 2019-08-23 腾讯科技(深圳)有限公司 内容推送方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Huifeng Guo et al..DeepFM: A Factorization-Machine based Neural Network for CTR Prediction.《https://doi.org/10.48550/arXiv.1703.04247 》.2017,1-8. *
常明.搜索广告点击率预测算法研究与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,I138-5131. *

Also Published As

Publication number Publication date
CN110929206A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929206B (zh) 点击率预估方法、装置、计算机可读存储介质和设备
CN111538912B (zh) 内容推荐方法、装置、设备及可读存储介质
CN110941740B (zh) 视频推荐方法及计算机可读存储介质
CN111680219B (zh) 内容推荐方法、装置、设备及可读存储介质
CN110263265B (zh) 用户标签生成方法、装置、存储介质和计算机设备
CN110321422B (zh) 在线训练模型的方法、推送方法、装置以及设备
CN110162701B (zh) 内容推送方法、装置、计算机设备和存储介质
US10789620B2 (en) User segment identification based on similarity in content consumption
CN111191092B (zh) 标签确定方法和标签确定模型训练方法
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN113254679B (zh) 多媒体资源推荐方法、装置、电子设备以及存储介质
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
CN117836765A (zh) 基于多模态超图的点击预测
CN113641835B (zh) 多媒体资源推荐方法、装置、电子设备及介质
CN107291845A (zh) 一种基于预告片的电影推荐方法及系统
CN113704509B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN113704511B (zh) 多媒体资源的推荐方法、装置、电子设备及存储介质
CN112269943B (zh) 一种信息推荐系统及方法
CN108563648B (zh) 数据显示方法和装置、存储介质及电子装置
CN109656433B (zh) 类目信息处理方法、装置、计算机设备和存储介质
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
CN113360744B (zh) 媒体内容的推荐方法、装置、计算机设备和存储介质
CN113987262A (zh) 一种视频推荐信息确定方法、装置、电子设备及存储介质
CN111831890A (zh) 用户相似度生成方法、装置、存储介质和计算机设备
CN118332196B (zh) 基于用户兴趣标签的信息推送方法、设备与介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021587

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant