CN110933499B - 一种视频点击率的预估方法及装置 - Google Patents
一种视频点击率的预估方法及装置 Download PDFInfo
- Publication number
- CN110933499B CN110933499B CN201811094189.XA CN201811094189A CN110933499B CN 110933499 B CN110933499 B CN 110933499B CN 201811094189 A CN201811094189 A CN 201811094189A CN 110933499 B CN110933499 B CN 110933499B
- Authority
- CN
- China
- Prior art keywords
- video
- user
- click rate
- data
- estimation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
Abstract
本发明公开了一种视频点击率的预估方法及装置,当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;提取所述用户数据中的用户特征和待预估视频的视频特征,调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果。本发明采用通过深度学习的方式构建的视频点击率预估模型处理特征数据,能够充分的利用非连续性特征数据,得到精准的点击率预估结果。
Description
技术领域
本发明涉及数据处理领域,具体为一种视频点击率的预估方法及装置。
背景技术
点击率是指网站页面上某一内容被点击的次数与被显示次数之比,能够反映网页上某一内容的受关注程度,点击率越高表明受关注程度越高。视频网站管理者经常通过预估点击率的方式,将点击率较高的视频优先投放在网页内,从而提高用户的真实点击率。
目前市场上的视频点击率的预估方法一般采用梯度提升决策树(GradientBoosting Decision Tree,GBDT)和逻辑回归模型(Logistic regression,LR)的融合模型进行视频点击率预估。但随着用户行为所产生的数据越来越多,个性化特征越来越明显,用户行为特征也呈现出高纬度、高稀疏、高度非线性关联的特点,GBDT因其只适合处理连续性特征的局限性,已经无法有效的完成用户行为特征的提取工作,导致视频点击率预估结果不准确。
发明内容
本发明提供了一种视频点击率的预估方法及装置,可以解决现有技术中由于采用GBDT提取用户行为特征,导致视频点击率预估结果不准确的问题。
为达到上述目的,本发明提供了如下技术方案:
一种视频点击率的预估方法,包括:
当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;
提取所述用户数据中的用户特征,所述用户特征为非连续性特征;
提取待预估视频的视频特征,所述视频特征为非连续性特征;
调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果;所述第一视频点击率预估模型基于能够处理非线性特征的深度学习模型构建而成。
可选的,所述提取所述用户数据中的用户特征,包括:
根据第一预设提取规则提取所述用户数据中的特征,得到第一特征组;
删除所述第一特征组中相关性小的特征,得到第二特征组;
对所述第二特征组进行连续特征离散化处理,得到第三特征组;
对所述第三特征组中的特征进行离散变量编码,得到编码后的第三特征组,所述编码后的第三特征组即为所述用户特征。
可选的,所述提取待预估视频的视频特征,包括:
根据第二预设提取规则提取所述待预付视频中的特征,得到第四特征组;
删除所述第四特征组中相关性小的特征,得到第五特征组;
对所述第五特征组进行连续特征离散化处理,得到第六特征组;
对所述第六特征组中的特征进行离散变量编码,得到编码后的第六特征组,所述编码后的第六特征组即为所述视频特征。
可选的,所述视频点击率预估模型的构建过程,包括:
采集用户历史行为数据,所述用户历史行为数据包括用户历史数据、所述用户历史数据对应的视频历史数据、以及所述用户历史数据中的用户点击视频时的点击时间;
提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征;
对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型。
可选的,所述对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型,包括:
将所述用户历史特征、所述视频历史特征和所述点击时间分为训练数据、测试数据和验证数据,所述训练数据、测试数据和验证数据中均包含一个或多个数据组,每个所述数据组包括互相对应的一个用户历史特征、一个视频历史特征和一个点击时间;
对所述训练数据中的用户历史特征、视频历史特征和点击时间进行深度学习,获得初始视频点击率预估模型;
通过所述验证数据中的用户历史特征、视频历史特征和点击时间对所述初始视频点击率预估模型进行验证,若得到的预估结果与所述验证数据对应的视频点击率相同或在第一预设偏差范围内,则验证通过;若得到的预估结果在所述第一预设偏差范围外,则验证不通过,对所述初始视频点击率预估模型进行参数调整,直到验证通过,得到验证通过的视频点击率预估模型;
通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述验证通过的视频点击率预估模型进行测试,若得到的预估结果与所述测试数据对应的视频点击率相同或在第二预设偏差范围内,则测试通过;若得到的预估结果在所述第二预设偏差范围外,则测试不通过,对所述验证通过的视频点击率预估模型进行参数调整,直到测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,在所述得到测试通过的视频点击率预估模型之后,还包括:
将所述测试通过的视频点击率预估模型与所述初始视频点击率预估模型设置于相同的两个应用场景中进行在线A/B测试,若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度大于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度小于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述初始视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,所述预估方法,还包括:
实时获取并储存在线用户的用户行为数据,所述用户行为数据包括用户数据、所述用户数据对应的视频数据及用户点击视频的点击时间;
当所述用户行为数据达到预设大小时,根据所述用户行为数据对所述第一视频点击率预估模型进行在线学习,得到第二视频点击率预估模型;
通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述第二视频点击率预估模型进行测试,若得到的预估结果的偏差值小于所述第一视频点击率预估模型进行测试时的预估结果的偏差值,则将所述第二视频点击率预估模型替代所述第一视频点击率预估模型。
一种视频点击率的预估装置,包括:
第一采集单元,用于当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;
第一提取单元,用于提取所述用户数据中的用户特征,所述用户特征为非连续性特征;
第二提取单元,用于提取待预估视频的视频特征,所述视频特征为非连续性特征;
第一处理单元,用于调用第一视频点击率预估模型处理所述用户特征、所述待预估视频的视频特征和所述操作时间,得到所述待预估视频的点击率的预估结果;所述第一视频点击率预估模型基于能够处理非线性特征的深度学习模型构建而成。
可选的,所述第一提取单元,包括:
第三提取单元,用于根据第一预设提取规则提取所述用户数据中的特征,得到第一特征组;
第一删除单元,用于删除所述第一特征组中相关性小的特征,得到第二特征组;
第二处理单元,用于对所述第二特征组进行连续特征离散化处理,得到第三特征组;
第一编码单元,用于对所述第三特征组中的特征进行离散变量编码,得到编码后的第三特征组,所述编码后的第三特征组即为所述用户特征。
可选的,所述第二提取单元,包括:
第四提取单元,用于根据第二预设提取规则提取所述待预估视频中的特征,得到第四特征组;
第二删除单元,用于删除所述第四特征组中相关性小的特征,得到第五特征组;
第三处理单元,用于对所述第五特征组进行连续特征离散化处理,得到第六特征组;
第二编码单元,用于对所述第六特征组中的特征进行离散变量编码,得到编码后的第六特征组,所述编码后的第六特征组即为所述视频特征。
可选的,所述预估装置,还包括:
第二采集单元,用于采集用户历史行为数据,所述用户历史行为数据包括用户历史数据、所述用户历史数据对应的视频历史数据、以及所述用户历史数据中的用户点击视频时的点击时间;
第五提取单元,用于提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征;
第一学习单元,用于对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型。
可选的,所述第一学习单元,包括:
划分单元,用于将所述用户历史特征、所述视频历史特征和所述点击时间划分为训练数据、测试数据和验证数据,所述训练数据、测试数据和验证数据中均包含一个或多个数据组,每个所述数据组包括互相对应的一个用户历史特征、一个视频历史特征和一个点击时间;
第二学习单元,用于对所述训练数据中的用户历史特征、视频历史特征和点击时间进行深度学习,获得初始视频点击率预估模型;
验证单元,用于通过所述验证数据中的用户历史特征、视频历史特征和点击时间对所述初始视频点击率预估模型进行验证,若得到的预估结果与所述验证数据对应的视频点击率相同或在第一预设偏差范围内,则验证通过;若得到的预估结果在所述第一预设偏差范围外,则验证不通过,对所述初始视频点击率预估模型进行参数调整,直到验证通过,得到验证通过的视频点击率预估模型;
第一测试单元,用于通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述验证通过的视频点击率预估模型进行测试,若得到的预估结果与所述测试数据对应的视频点击率相同或在第二预设偏差范围内,则测试通过;若得到的预估结果在所述第二预设偏差范围外,则测试不通过,对所述验证通过的视频点击率预估模型进行参数调整,直到测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,所述预估装置,还包括:
第二测试单元,用于将所述测试通过的视频点击率预估模型与所述初始视频点击率预估模型设置于相同的两个应用场景中进行在线A/B测试,若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度大于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度小于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述初始视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,所述预估装置,还包括:
获取单元,用于实时获取并储存在线用户的用户行为数据,所述用户行为数据包括用户数据、所述用户数据对应的视频数据及用户点击视频的点击时间;
第三学习单元,用于当所述用户行为数据达到预设大小时,根据所述用户行为数据对所述第一视频点击率预估模型进行在线学习,得到第二视频点击率预估模型;
第三测试单元,用于通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述第二视频点击率预估模型进行测试,若得到的预估结果的偏差值小于所述第一视频点击率预估模型进行测试时的预估结果的偏差值,则将所述第二视频点击率预估模型替代所述第一视频点击率预估模型。
经由上述技术方案可知,本发明公开了一种视频点击率的预估方法及装置,当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;提取所述用户数据中的用户特征和待预估视频的视频特征,调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果。本发明采用通过深度学习的方式构建的视频点击率预估模型处理特征数据,能够充分的利用非连续性特征数据,得到精准的点击率预估结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种视频点击率的预估方法的流程图;
图2为提取用户数据中的用户特征的流程图;
图3为提取待预估视频的视频特征的流程图;
图4为视频点击率预估模型的构建过程的流程图;
图5为深度学习模型的结构图;
图6为本发明实施例公开的一种视频点击率的预估装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种视频点击率的预估方法及装置,可以解决现有技术中由于采用GBDT提取用户行为特征,导致视频点击率预估结果不准确的问题。
如图1所示,为本发明实施例公开了一种视频点击率的预估方法的流程图,该方法包括以下步骤:
S101、当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间。
其中,所述触发条件可以根据需要自行设定,如用户点击刷新按钮,或者下滑屏幕进行页面刷新操作。
S102、提取所述用户数据中的用户特征,所述用户特征为非连续性特征。
可选的,如图2所示,所述提取所述用户数据中的用户特征,包括:
S201、根据第一预设提取规则提取所述用户数据中的特征,得到第一特征组。
具体的,所述第一预设提取规则可以为按照第一预设维度对用户数据中的特征进行提取,所述第一预设维度可以为用户的ID、一级类特征、二级类特征、用户的操作平台、活跃天数、性别、地域等,其中,所述一级类特征可以为视频所属的范围较大的分类,如新闻、综艺、电影、电视剧等,所述二级类特征可以为一级类特征的细化,如将一级类中的新闻细化后的时政新闻、娱乐新闻等,再如将一级类中的电视剧细化后的古装剧、都市剧等。
S202、删除所述第一特征组中相关性小的特征,得到第二特征组。
S203、对所述第二特征组进行连续特征离散化处理,得到第三特征组。
具体的,可以采用独热码对所述第二特征组进行连续特征离散化处理。
S204、对所述第三特征组中的特征进行离散变量编码,得到编码后的第三特征组,所述编码后的第三特征组即为所述用户特征。
S103、提取待预估视频的视频特征,所述视频特征为非连续性特征。
需要说明的是,本实施例并不限定提取待预估视频的视频特征和提取用户数据中的用户特征两个步骤的先后顺序,可以根据具体情况自行设置。
可选的,如图3所示,所述提取待预估视频的视频特征,包括:
S301、根据第二预设提取规则提取所述待预估视频中的特征,得到第四特征组。
具体的,所述第二预设提取规则可以为按照第二预设维度对用户数据中的特征进行提取,所述第二预设维度可以为视频的ID、一级类特征、二级类特征、视频的标题、图片、上传时间、展示次数、点击次数等,其中,所述一级类特征可以为视频所属的范围较大的分类,如新闻、综艺、电影、电视剧等,所述二级类特征可以为一级类特征的细化,如将一级类中的新闻细化后的时政新闻、娱乐新闻等,再如将一级类中的电视剧细化后的古装剧、都市剧等。
S302、删除所述第四特征组中相关性小的特征,得到第五特征组。
S303、对所述第五特征组进行连续特征离散化处理,得到第六特征组。
具体的,可以采用独热码对所述第五特征组进行连续特征离散化处理。
S304、对所述第六特征组中的特征进行离散变量编码,得到编码后的第六特征组,所述编码后的第六特征组即为所述视频特征。
S104、调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果。
在步骤S104中,所述第一视频点击率预估模型基于能够处理非线性特征的深度学习模型构建而成。
具体的,如图4所示,所述视频点击率预估模型的构建过程,包括:
S401、采集用户历史行为数据,所述用户历史行为数据包括用户历史数据、所述用户历史数据对应的视频历史数据、以及所述用户历史数据中的用户点击视频时的点击时间。
需要说明的是,可以从日志服务器的用户行为日志中采集用户历史行为数据,用户在使用视频软件或者网页时进行的观看、滑动、点击某一视频等行为都会被记录下来,形成用户行为日志并上传到日志服务器。
可选的,对用户历史行为数据进行清洗。
具体的,去除用户历史行为数据中的重复数据、错误数据和不完整的数据。数据清洗可以保证用户历史行为数据中只包含有效数据,能够保证后续构建的视频点击率预估模型具有更准确的预估能力。
S402、提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征。
需要说明的是,提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征的过程与上述步骤S201-S204、S301-S304的原理相同,此处不再赘述。
S403、对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型。
具体的,如图5所示,为深度学习模型的结构图。
从图5中可以看到,首先将用户历史特征、视频历史特征和点击时间作输入到深度学习模型中,然后将用户历史特征和视频历史特征中的一级类、二级类特征生成交叉特征,发送到深度学习模型的回归层,然后将用户历史特征、视频历史特征和点击时间发送到嵌入层(Embedding)进行处理,得到特征向量,此时,若用户历史特征或视频历史特征中存在无法离散化的连续性特征,则将该连续性特征放在所述特征向量中的非连续性特征之后,构成新的特征向量,再通过三层线性整流函数(Rectified LinearUnit,ReLU)对所述特征向量进行表示学习,将学习后的特征发送到深度学习模型的回归层,与交叉特征一起作为最终特征,完成深度学习,得到视频点击率预估模型。
其中,所述回归层可以采用逻辑回归模型(Logistic regression,LR)。
需要说明的是,深度学习是通过多层网络学习抽象特征,在最后输出层(即回归层)使用得到的抽象特征完成最终的学习任务。这种学习到的特征可以较好的降低问题的非线性程度。深度学习的强大在于利用反向传播可以将目标函数的误差回传,逐层向输出层的方向传播从而矫正网络参数,经过多次迭代,网络参数会被训练的很好。同时,深度学习能够得到人工特征提取难以得到的隐含特征,所以通过深度学习得到的预估模型的预估能力会有明显提升,预估效果会更好。
可选的,所述对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型,包括:
将所述用户历史特征、所述视频历史特征和所述点击时间分为训练数据、测试数据和验证数据。
需要说明的是,所述训练数据、测试数据和验证数据中均包含一个或多个数据组,每个所述数据组包括互相对应的一个用户历史特征、一个视频历史特征和一个点击时间。
其中,所述训练数据用于建立预估模型,测试数据和验证数据用于对建立好的预估模型进行测试和验证。由于测试数据和验证数据均为历史数据,我们可以通过计算得到测试数据和验证数据相应的视频点击率数据,从而在已知视频点击率的情况下,对预估模型的预估能力进行测试和验证。
对所述训练数据中的用户历史特征、视频历史特征和点击时间进行深度学习,获得初始视频点击率预估模型。
通过所述验证数据中的用户历史特征、视频历史特征和点击时间对所述初始视频点击率预估模型进行验证,若得到的预估结果与所述验证数据对应的视频点击率相同或在第一预设偏差范围内,则验证通过,得到验证通过的视频点击率预估模型;若得到的预估结果在所述第一预设偏差范围外,则验证不通过,对所述初始视频点击率预估模型进行参数调整,直到验证通过,得到验证通过的视频点击率预估模型。
可选的,通过网格搜索(grid search)、随机搜索(random search)或者hyperopt工具来进行参数调整和优化。
通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述验证通过的视频点击率预估模型进行测试,若得到的预估结果与所述测试数据对应的视频点击率相同或在第二预设偏差范围内,则测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若得到的预估结果在所述第二预设偏差范围外,则测试不通过,对所述验证通过的视频点击率预估模型进行参数调整,直到测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,在所述得到测试通过的视频点击率预估模型之后,还包括:
将所述测试通过的视频点击率预估模型与所述初始视频点击率预估模型设置于相同的两个应用场景中进行在线A/B测试,若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度大于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度小于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述初始视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,所述预估方法,还包括:
实时获取并储存在线用户的用户行为数据,所述用户行为数据包括用户数据、所述用户数据对应的视频数据及用户点击视频的点击时间。其中,在储存在线用户的用户行为数据之前,可以对在线用户的用户行为数据进行过滤,以保证存储的在线用户用户行为数据的有效性。
当所述用户行为数据达到预设大小时,根据所述用户行为数据对所述第一视频点击率预估模型进行在线学习,得到第二视频点击率预估模型。
通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述第二视频点击率预估模型进行测试,若得到的预估结果的偏差值小于所述第一视频点击率预估模型进行测试时的预估结果的偏差值,则将所述第二视频点击率预估模型替代所述第一视频点击率预估模型。
需要说明的是,在预估模型的预估效果达到预期目标后,将预估模型以服务的形式上线进行使用,在预估模型提供预估服务期间,可以根据在线用户的用户行为数据对预估模型进行优化,进一步提高预估模型的准确性。
本发明实施例公开了一种视频点击率的预估方法,当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;提取所述用户数据中的用户特征和待预估视频的视频特征,调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果。本发明采用通过深度学习构建的视频点击率预估模型处理特征数据,能够充分的利用非连续性特征数据,得到精准的点击率预估结果。
基于上述本发明实施例公开的视频点击率的预估方法,图6具体公开了应用该视频点击率的预估方法的视频点击率的预估装置。
如图6所示,本发明实施例公开了一种视频点击率的预估装置的示意图,该装置包括:
第一采集单元601,用于当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间。
第一提取单元602,用于提取所述用户数据中的用户特征,所述用户特征为非连续性特征。
第二提取单元603,用于提取待预估视频的视频特征,所述视频特征为非连续性特征。
第一处理单元604,用于调用第一视频点击率预估模型处理所述用户特征、所述待预估视频的视频特征和所述操作时间,得到所述待预估视频的点击率的预估结果;所述第一视频点击率预估模型基于能够处理非线性特征的深度学习模型构建而成。
可选的,所述第一提取单元602,包括:
第三提取单元,用于根据第一预设提取规则提取所述用户数据中的特征,得到第一特征组。
第一删除单元,用于删除所述第一特征组中相关性小的特征,得到第二特征组。
第二处理单元,用于对所述第二特征组进行连续特征离散化处理,得到第三特征组。
第一编码单元,用于对所述第三特征组中的特征进行离散变量编码,得到编码后的第三特征组,所述编码后的第三特征组即为所述用户特征。
可选的,所述第二提取单元603,包括:
第四提取单元,用于根据第二预设提取规则提取所述待预估视频中的特征,得到第四特征组。
第二删除单元,用于删除所述第四特征组中相关性小的特征,得到第五特征组。
第三处理单元,用于对所述第五特征组进行连续特征离散化处理,得到第六特征组。
第二编码单元,用于对所述第六特征组中的特征进行离散变量编码,得到编码后的第六特征组,所述编码后的第六特征组即为所述视频特征。
可选的,所述预估装置,还包括:
第二采集单元,用于采集用户历史行为数据,所述用户历史行为数据包括用户历史数据、所述用户历史数据对应的视频历史数据、以及所述用户历史数据中的用户点击视频时的点击时间。
第五提取单元,用于提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征。
第一学习单元,用于对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型。
可选的,所述第一学习单元,包括:
划分单元,用于将所述用户历史特征、所述视频历史特征和所述点击时间划分为训练数据、测试数据和验证数据,所述训练数据、测试数据和验证数据中均包含一个或多个数据组,每个所述数据组包括互相对应的一个用户历史特征、一个视频历史特征和一个点击时间。
第二学习单元,用于对所述训练数据中的用户历史特征、视频历史特征和点击时间进行深度学习,获得初始视频点击率预估模型。
验证单元,用于通过所述验证数据中的用户历史特征、视频历史特征和点击时间对所述初始视频点击率预估模型进行验证,若得到的预估结果与所述验证数据对应的视频点击率相同或在第一预设偏差范围内,则验证通过;若得到的预估结果在所述第一预设偏差范围外,则验证不通过,对所述初始视频点击率预估模型进行参数调整,直到验证通过,得到验证通过的视频点击率预估模型。
第一测试单元,用于通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述验证通过的视频点击率预估模型进行测试,若得到的预估结果与所述测试数据对应的视频点击率相同或在第二预设偏差范围内,则测试通过;若得到的预估结果在所述第二预设偏差范围外,则测试不通过,对所述验证通过的视频点击率预估模型进行参数调整,直到测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,所述预估装置,还包括:
第二测试单元,用于将所述测试通过的视频点击率预估模型与所述初始视频点击率预估模型设置于相同的两个应用场景中进行在线A/B测试,若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度大于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度小于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述初始视频点击率预估模型作为所述第一视频点击率预估模型。
可选的,所述预估装置,还包括:
获取单元,用于实时获取并储存在线用户的用户行为数据,所述用户行为数据包括用户数据、所述用户数据对应的视频数据及用户点击视频的点击时间。
第三学习单元,用于当所述用户行为数据达到预设大小时,根据所述用户行为数据对所述第一视频点击率预估模型进行在线学习,得到第二视频点击率预估模型。
第三测试单元,用于通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述第二视频点击率预估模型进行测试,若得到的预估结果的偏差值小于所述第一视频点击率预估模型进行测试时的预估结果的偏差值,则将所述第二视频点击率预估模型替代所述第一视频点击率预估模型。
以上本发明实施例公开的视频点击率的预估装置中第一采集单元601、第一提取单元602、第二提取单元603和第一处理单元604的具体执行过程以及执行原理可参见本发明上述实施例公开的视频点击率的预估方法中相应的部分,这里不再进行赘述。
综上所述,本发明实施例公开了一种视频点击率的预估装置,当第一采集单元判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;第一提取单元和第二提取单元分别提取所述用户数据中的用户特征和待预估视频的视频特征,第一处理单元调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果。本发明采用通过深度学习构建的视频点击率预估模型处理特征数据,能够充分的利用非连续性特征数据,得到精准的点击率预估结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种视频点击率的预估方法,其特征在于,包括:
当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;
提取所述用户数据中的用户特征,所述用户特征为非连续性特征;
提取待预估视频的视频特征,所述视频特征为非连续性特征;
调用第一视频点击率预估模型对所述用户特征、所述待预估视频的视频特征和所述操作时间进行处理,得到所述待预估视频的点击率的预估结果;所述第一视频点击率预估模型基于能够处理非线性特征的深度学习模型构建而成;
所述第一视频点击率预估模型的构建过程,包括:
采集用户历史行为数据,所述用户历史行为数据包括用户历史数据、所述用户历史数据对应的视频历史数据、以及所述用户历史数据中的用户点击视频时的点击时间;
提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征;
对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型。
2.根据权利要求1所述的预估方法,其特征在于,所述提取所述用户数据中的用户特征,包括:
根据第一预设提取规则提取所述用户数据中的特征,得到第一特征组;
删除所述第一特征组中相关性小的特征,得到第二特征组;
对所述第二特征组进行连续特征离散化处理,得到第三特征组;
对所述第三特征组中的特征进行离散变量编码,得到编码后的第三特征组,所述编码后的第三特征组即为所述用户特征。
3.根据权利要求1所述的预估方法,其特征在于,所述提取待预估视频的视频特征,包括:
根据第二预设提取规则提取所述待预付视频中的特征,得到第四特征组;
删除所述第四特征组中相关性小的特征,得到第五特征组;
对所述第五特征组进行连续特征离散化处理,得到第六特征组;
对所述第六特征组中的特征进行离散变量编码,得到编码后的第六特征组,所述编码后的第六特征组即为所述视频特征。
4.根据权利要求1所述的预估方法,其特征在于,所述对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型,包括:
将所述用户历史特征、所述视频历史特征和所述点击时间分为训练数据、测试数据和验证数据,所述训练数据、测试数据和验证数据中均包含一个或多个数据组,每个所述数据组包括互相对应的一个用户历史特征、一个视频历史特征和一个点击时间;
对所述训练数据中的用户历史特征、视频历史特征和点击时间进行深度学习,获得初始视频点击率预估模型;
通过所述验证数据中的用户历史特征、视频历史特征和点击时间对所述初始视频点击率预估模型进行验证,若得到的预估结果与所述验证数据对应的视频点击率相同或在第一预设偏差范围内,则验证通过;若得到的预估结果在所述第一预设偏差范围外,则验证不通过,对所述初始视频点击率预估模型进行参数调整,直到验证通过,得到验证通过的视频点击率预估模型;
通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述验证通过的视频点击率预估模型进行测试,若得到的预估结果与所述测试数据对应的视频点击率相同或在第二预设偏差范围内,则测试通过;若得到的预估结果在所述第二预设偏差范围外,则测试不通过,对所述验证通过的视频点击率预估模型进行参数调整,直到测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型。
5.根据权利要求4所述的预估方法,其特征在于,在所述得到测试通过的视频点击率预估模型之后,还包括:
将所述测试通过的视频点击率预估模型与所述初始视频点击率预估模型设置于相同的两个应用场景中进行在线A/B测试,若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度大于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度小于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述初始视频点击率预估模型作为所述第一视频点击率预估模型。
6.根据权利要求4所述的预估方法,其特征在于,还包括:
实时获取并储存在线用户的用户行为数据,所述用户行为数据包括用户数据、所述用户数据对应的视频数据及用户点击视频的点击时间;
当所述用户行为数据达到预设大小时,根据所述用户行为数据对所述第一视频点击率预估模型进行在线学习,得到第二视频点击率预估模型;
通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述第二视频点击率预估模型进行测试,若得到的预估结果的偏差值小于所述第一视频点击率预估模型进行测试时的预估结果的偏差值,则将所述第二视频点击率预估模型替代所述第一视频点击率预估模型。
7.一种视频点击率的预估装置,其特征在于,包括:
第一采集单元,用于当判断用户操作满足预设的预估点击率的触发条件时,采集所述用户的用户数据和所述用户操作的操作时间;
第一提取单元,用于提取所述用户数据中的用户特征,所述用户特征为非连续性特征;
第二提取单元,用于提取待预估视频的视频特征,所述视频特征为非连续性特征;
第一处理单元,用于调用第一视频点击率预估模型处理所述用户特征、所述待预估视频的视频特征和所述操作时间,得到所述待预估视频的点击率的预估结果;所述第一视频点击率预估模型基于能够处理非线性特征的深度学习模型构建而成;
第二采集单元,用于采集用户历史行为数据,所述用户历史行为数据包括用户历史数据、所述用户历史数据对应的视频历史数据、以及所述用户历史数据中的用户点击视频时的点击时间;
第五提取单元,用于提取所述用户历史数据中的用户历史特征和所述视频历史数据中的视频历史特征;
第一学习单元,用于对所述用户历史特征、所述视频历史特征和所述点击时间进行深度学习,获得所述第一视频点击率预估模型。
8.根据权利要求7所述的预估装置,其特征在于,所述第一提取单元,包括:
第三提取单元,用于根据第一预设提取规则提取所述用户数据中的特征,得到第一特征组;
第一删除单元,用于删除所述第一特征组中相关性小的特征,得到第二特征组;
第二处理单元,用于对所述第二特征组进行连续特征离散化处理,得到第三特征组;
第一编码单元,用于对所述第三特征组中的特征进行离散变量编码,得到编码后的第三特征组,所述编码后的第三特征组即为所述用户特征。
9.根据权利要求7所述的预估装置,其特征在于,所述第二提取单元,包括:
第四提取单元,用于根据第二预设提取规则提取所述待预估视频中的特征,得到第四特征组;
第二删除单元,用于删除所述第四特征组中相关性小的特征,得到第五特征组;
第三处理单元,用于对所述第五特征组进行连续特征离散化处理,得到第六特征组;
第二编码单元,用于对所述第六特征组中的特征进行离散变量编码,得到编码后的第六特征组,所述编码后的第六特征组即为所述视频特征。
10.根据权利要求7所述的预估装置,其特征在于,所述第一学习单元,包括:
划分单元,用于将所述用户历史特征、所述视频历史特征和所述点击时间划分为训练数据、测试数据和验证数据,所述训练数据、测试数据和验证数据中均包含一个或多个数据组,每个所述数据组包括互相对应的一个用户历史特征、一个视频历史特征和一个点击时间;
第二学习单元,用于对所述训练数据中的用户历史特征、视频历史特征和点击时间进行深度学习,获得初始视频点击率预估模型;
验证单元,用于通过所述验证数据中的用户历史特征、视频历史特征和点击时间对所述初始视频点击率预估模型进行验证,若得到的预估结果与所述验证数据对应的视频点击率相同或在第一预设偏差范围内,则验证通过;若得到的预估结果在所述第一预设偏差范围外,则验证不通过,对所述初始视频点击率预估模型进行参数调整,直到验证通过,得到验证通过的视频点击率预估模型;
第一测试单元,用于通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述验证通过的视频点击率预估模型进行测试,若得到的预估结果与所述测试数据对应的视频点击率相同或在第二预设偏差范围内,则测试通过;若得到的预估结果在所述第二预设偏差范围外,则测试不通过,对所述验证通过的视频点击率预估模型进行参数调整,直到测试通过,得到测试通过的视频点击率预估模型,将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型。
11.根据权利要求10所述的预估装置,其特征在于,还包括:
第二测试单元,用于将所述测试通过的视频点击率预估模型与所述初始视频点击率预估模型设置于相同的两个应用场景中进行在线A/B测试,若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度大于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述测试通过的视频点击率预估模型作为所述第一视频点击率预估模型;若使用所述测试通过的视频点击率预估模型的应用场景用户点击率增加幅度小于使用所述初始视频点击率预估模型的应用场景用户点击率增加幅度,则将所述初始视频点击率预估模型作为所述第一视频点击率预估模型。
12.根据权利要求10所述的预估装置,其特征在于,还包括:
获取单元,用于实时获取并储存在线用户的用户行为数据,所述用户行为数据包括用户数据、所述用户数据对应的视频数据及用户点击视频的点击时间;
第三学习单元,用于当所述用户行为数据达到预设大小时,根据所述用户行为数据对所述第一视频点击率预估模型进行在线学习,得到第二视频点击率预估模型;
第三测试单元,用于通过所述测试数据中的用户历史特征、视频历史特征和点击时间对所述第二视频点击率预估模型进行测试,若得到的预估结果的偏差值小于所述第一视频点击率预估模型进行测试时的预估结果的偏差值,则将所述第二视频点击率预估模型替代所述第一视频点击率预估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094189.XA CN110933499B (zh) | 2018-09-19 | 2018-09-19 | 一种视频点击率的预估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094189.XA CN110933499B (zh) | 2018-09-19 | 2018-09-19 | 一种视频点击率的预估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110933499A CN110933499A (zh) | 2020-03-27 |
CN110933499B true CN110933499B (zh) | 2021-12-24 |
Family
ID=69855994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811094189.XA Active CN110933499B (zh) | 2018-09-19 | 2018-09-19 | 一种视频点击率的预估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110933499B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654200A (zh) * | 2015-12-30 | 2016-06-08 | 上海珍岛信息技术有限公司 | 一种基于深度学习的广告点击率预测方法及装置 |
CN107767174A (zh) * | 2017-10-19 | 2018-03-06 | 厦门美柚信息科技有限公司 | 一种广告点击率的预测方法及装置 |
CN108182597A (zh) * | 2017-12-27 | 2018-06-19 | 银橙(上海)信息技术有限公司 | 一种基于决策树和逻辑回归的点击率预估方法 |
CN108681915A (zh) * | 2018-04-18 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种点击率预估方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070157228A1 (en) * | 2005-12-30 | 2007-07-05 | Jason Bayer | Advertising with video ad creatives |
CN105809462A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 一种广告点击率的估算方法和装置 |
CN106446015A (zh) * | 2016-08-29 | 2017-02-22 | 北京工业大学 | 一种基于用户行为偏好的视频内容访问预测与推荐方法 |
CN107515909B (zh) * | 2017-08-11 | 2020-05-19 | 深圳市云网拜特科技有限公司 | 一种视频推荐方法及系统 |
CN108228824A (zh) * | 2017-12-29 | 2018-06-29 | 暴风集团股份有限公司 | 一种视频的推荐方法、装置、电子设备、介质和程序 |
-
2018
- 2018-09-19 CN CN201811094189.XA patent/CN110933499B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654200A (zh) * | 2015-12-30 | 2016-06-08 | 上海珍岛信息技术有限公司 | 一种基于深度学习的广告点击率预测方法及装置 |
CN107767174A (zh) * | 2017-10-19 | 2018-03-06 | 厦门美柚信息科技有限公司 | 一种广告点击率的预测方法及装置 |
CN108182597A (zh) * | 2017-12-27 | 2018-06-19 | 银橙(上海)信息技术有限公司 | 一种基于决策树和逻辑回归的点击率预估方法 |
CN108681915A (zh) * | 2018-04-18 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种点击率预估方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110933499A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451199B (zh) | 问题推荐方法及装置、设备 | |
CN103686237B (zh) | 推荐视频资源的方法及系统 | |
CN111225234B (zh) | 视频审核方法、视频审核装置、设备和存储介质 | |
TWI733217B (zh) | 登入方式的推播、顯示方法、裝置及設備 | |
CN111369299B (zh) | 识别的方法、装置、设备及计算机可读存储介质 | |
CN109447246B (zh) | 用于生成模型的方法和装置 | |
CN110442788A (zh) | 一种信息推荐方法及装置 | |
US20230004608A1 (en) | Method for content recommendation and device | |
CN111061945A (zh) | 推荐方法、装置、电子设备,存储介质 | |
CN112468853B (zh) | 电视资源推荐方法、装置、计算机设备及存储介质 | |
CN105430505A (zh) | 一种基于组合策略的iptv节目推荐方法 | |
CN114637911B (zh) | 一种注意力融合感知网络的下一个兴趣点推荐方法 | |
CN108595526B (zh) | 资源推荐方法及装置 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN105095258A (zh) | 一种媒体信息排序方法、装置和媒体信息推荐系统 | |
CN111083469A (zh) | 一种视频质量确定方法、装置、电子设备及可读存储介质 | |
CN113836406A (zh) | 信息流推荐方法及装置 | |
CN110933499B (zh) | 一种视频点击率的预估方法及装置 | |
CN112804566A (zh) | 节目推荐方法、设备及计算机可读存储介质 | |
CN113033500B (zh) | 动作片段检测方法、模型训练方法及装置 | |
CN104123337A (zh) | 一种预测报考信息的方法和装置 | |
CN115858911A (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
CN114417817B (zh) | 一种会话信息切割方法和装置 | |
CN110020234B (zh) | 确定宽带网络接入点信息的方法和装置 | |
CN117135402A (zh) | 视频流量预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |