CN110515904A - 媒体文件的质量预测模型训练方法、质量预测方法及装置 - Google Patents

媒体文件的质量预测模型训练方法、质量预测方法及装置 Download PDF

Info

Publication number
CN110515904A
CN110515904A CN201910745502.XA CN201910745502A CN110515904A CN 110515904 A CN110515904 A CN 110515904A CN 201910745502 A CN201910745502 A CN 201910745502A CN 110515904 A CN110515904 A CN 110515904A
Authority
CN
China
Prior art keywords
media file
behavioural characteristic
feature vector
vector sample
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910745502.XA
Other languages
English (en)
Other versions
CN110515904B (zh
Inventor
刘永起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201910745502.XA priority Critical patent/CN110515904B/zh
Publication of CN110515904A publication Critical patent/CN110515904A/zh
Application granted granted Critical
Publication of CN110515904B publication Critical patent/CN110515904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供一种媒体文件的质量预测模型训练方法、媒体文件的质量预测方法、装置、存储介质及电子设备,用以提高媒体文件的质量预测的准确性,该媒体文件的质量预测模型训练方法包括:获取输入特征样本集;所述输入特征样本集中的各个输入特征样本包括:媒体文件属性特征和用户属性特征;将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,并获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;针对每一所述输入特征样本,以该输入特征样本对应的目标层次的前一层行为特征组中的各行为特征对应的标签值和该输入特征样本作为输入、且以所述目标层次的行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到媒体文件的质量预测模型。

Description

媒体文件的质量预测模型训练方法、质量预测方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种媒体文件的质量预测模型训练方法、媒体文件的质量预测方法、装置、存储介质及电子设备。
背景技术
随着互联网的发展,网络媒体文件(如网络广告)几乎成为各大互联网产品的主要宣传方式之一,其重要性不言而喻。为了预估广告流水、从而为广告主和其他相关运营人员提供决策依据,对广告投放质量的预估变得越来越重要。
相关技术中,为了预估广告投放质量,一般采用神经网络进行建模,对于用户对广告的所有的行为特征,模型采用相同的特征输入,在隐含层同时输出用户对广告的各种行为特征的概率,因此,预估的广告投放质量不准确。
发明内容
本公开提供一种媒体文件的质量预测模型训练方法、媒体文件的质量预测方法、装置、存储介质及电子设备,用以提高媒体文件的质量预测的准确性。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种媒体文件的质量预测模型训练方法,包括:
获取输入特征样本集;所述输入特征样本集中的各个输入特征样本包括:媒体文件属性特征和用户属性特征;
将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,并获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
针对每一所述输入特征样本,以该输入特征样本对应的目标层次的前一层行为特征组中的各行为特征对应的标签值和该输入特征样本作为输入、且以所述目标层次的行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到媒体文件的质量预测模型。
在一可能的实现方式中,所述获取输入特征样本集,包括:
获取单位时间中投放的各媒体文件的媒体文件属性特征、浏览媒体文件的各用户的用户属性特征;
将任一所述用户的用户属性特征和该用户浏览的任一所述媒体文件的媒体文件属性特征作为一个输入特征样本,得到输入特征样本集。
在一可能的实现方式中,所述获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,包括:
获取单位时间中浏览媒体文件的每一用户对每一浏览的媒体文件的行为数据;
基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值;
根据划分的所述各层次的行为特征组对各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值进行划分,得到每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值。
在一可能的实现方式中,所述标签值包括:用于表征行为特征存在的第一标识和用于表征行为特征不存在的第二标识;
所述基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值,包括:
针对任一所述用户对该用户浏览的任一所述媒体文件的任一行为特征,基于所述行为数据判断是否存在该行为特征;
若存在,则该行为特征对应所述第一标识;
若不存在,则该行为特征对应所述第二标识。
在一可能的实现方式中,所述方法还包括:
针对每一所述输入特征样本,以该输入特征样本作为输入、且以该输入特征样本对应的首层的行为特征组中各行为特征对应的标签值作为输出,对所述待训练模型进行训练。
在一可能的实现方式中,所述方法还包括:
获取最新的输入特征样本集、以及所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
根据所述最新的输入特征样本集和所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,更新所述媒体文件的质量预测模型。
根据本公开实施例的第二方面,提供一种媒体文件的质量预测方法,包括:
获取目标媒体文件的媒体文件属性特征和目标用户的用户属性特征;
将所述媒体文件属性特征和所述用户属性特征输入到已训练的媒体文件的质量预测模型;所述媒体文件的质量预测模型是根据第一方面或第一方面的任意可能的实现方式中的媒体文件的质量预测模型训练方法训练生成的;
获得通过所述媒体文件的质量预测模型预测出的所述目标用户对所述目标媒体文件的各种行为特征的概率。
根据本公开实施例的第三方面,提供一种媒体文件的质量预测模型训练装置,包括用于执行第一方面或第一方面的任意可能的实现方式中的媒体文件的质量预测模型训练方法的模块。
根据本公开实施例的第四方面,提供一种媒体文件的质量预测装置,包括用于执行第二方面或第二方面的任意可能的实现方式中的媒体文件的质量预测方法的模块。
根据本公开实施例的第五方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第二方面或第二方面的任意可能的实现方式中的媒体文件的质量预测方法的步骤。
根据本公开实施例的第六方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现第二方面或第二方面的任意可能的实现方式中的媒体文件的质量预测方法的步骤。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述程序被处理器执行时实现第二方面或第二方面的任意可能的实现方式中的媒体文件的质量预测方法的步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,目标层次的行为特征组中的各行为特征的概率的预测依赖于该目标层次的前一层的行为特征组中的各行为特征的概率,即在进行媒体文件的质量预测时,考虑到了不同的行为特征之间的时序关系,相比于相关技术中不考虑各行为特征之间的关联性的方案,可以提高媒体文件的质量预测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据相关技术示出的一种媒体文件的质量预测模型的结构示意图;
图2是根据一示例性实施例示出的一种媒体文件的质量预测模型训练方法的流程图;
图3是根据一示例性实施例示出的一种媒体文件的质量预测模型的结构示意图;
图4是根据一示例性实施例示出的媒体文件的质量预测模型训练及更新的总体流程图;
图5是根据一示例性实施例示出的一种媒体文件的质量预测方法的流程图;
图6是根据一示例性实施例示出的一种媒体文件的质量预测模型训练装置的结构示意图;
图7是根据一示例性实施例示出的媒体文件的质量预测模型训练装置中行为特征处理模块的结构示意图;
图8是根据另一示例性实施例示出的一种媒体文件的质量预测模型训练装置的结构示意图;
图9是根据一示例性实施例示出的一种媒体文件的质量预测装置的结构示意图;
图10是根据一示例性实施例示出的一种电子设备的结构示意图;
图11是根据另一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本方案所涉及的用户相关信息,均是经用户充分授权而采集并进行后续处理或分析的。
一般来说,在媒体文件(例如广告)的投放过程中,用户对媒体文件的行为特征包括:点击、评论、媒体文件播放5秒、媒体文件所宣传内容的APP的下载、APP激活、APP的注册、APP付费、表单提交、次日留存、七日留存、金融授信等。相关技术中,采用神经网络进行建模,如图1所示,神经网络模型包括:输入层01、隐含层02和输出层03,对于用户对媒体文件的各种行为特征,模型采用相同的特征输入,经隐含层02处理后,输出层03同时输出用户对媒体文件的各种行为特征的概率。
然而,在用户对媒体文件的行为特征中,有些行为特征之间存在时序上的异步关系,例如短视频媒体文件的评论区和视频播放页在同一个展示页面上,用户评论和媒体文件播放5秒就没有先后的顺序关系,也就是说用户评论和媒体文件播放5秒之间存在时序上的异步关系,有些行为特征之间存在时序上的同步关系,比如一定是先有点击才有APP下载,先有APP下载才有APP激活,先有APP激活才有APP付费,也就是说APP下载、APP激活和APP付费之间存在时序上的同步关系,通常而言,存在同步关系的行为特征之间是关联的,例如,如果预估到用户的点击概率很低,那么说明用户对该媒体文件不感兴趣,很大概率上用户后续的APP激活或者APP付费概率也很低。而相关技术中的方法,对于每一种用户对媒体文件的行为特征,隐含层02都是同等处理,因此,预估的媒体文件投放质量不准确。
为了解决上述的问题,本公开实施例提出了一种媒体文件的质量预测模型训练方法、媒体文件的质量预测方法、装置、存储介质及电子设备。
图2是根据一示例性实施例示出的一种媒体文件的质量预测模型训练方法的流程图,如图2所示,该媒体文件的质量预测模型训练方法可以用于电子设备中,该电子设备可以为服务器、终端,该方法包括以下步骤。
S101、获取输入特征样本集,所述输入特征样本集中的各个输入特征样本包括:媒体文件属性特征和用户属性特征。
作为一种示例,媒体文件属性特征包括:广告文案、层级结构、广告主行业等,广告文案可以是广告的标语,比如九块九包邮、注册送红包等,广告主行业包括:网络媒体类、IT类产品、电子商务类、食品饮料类、金融服务类、通讯产品类、家用电器类、家庭用品类、交通工具类、房产家居类、教育出国类、美容护肤类、服装饰品类、休闲场所类、旅游服务类、报刊书籍类、办公用品类、体育健身类、礼仪服务类等。用户属性特征包括:性别、年龄、地域、收入状况等,可以通过用户的注册信息获取用户属性特征,也可以通过第三方的人群画像来获取用户属性特征。
在一些实施例中,步骤S101中获取输入特征样本集,可以包括:
获取单位时间(例如7天)中投放的各媒体文件的媒体文件属性特征、浏览媒体文件的各用户的用户属性特征;
将任一所述用户的用户属性特征和该用户浏览的任一所述媒体文件的媒体文件属性特征作为一个输入特征样本,得到输入特征样本集。
例如,第一用户浏览了第一广告和第二广告,第二用户浏览了第一广告,可以将第一用户的用户属性特征和第一广告的广告属性特征作为一个输入特征样本;将第二用户的用户属性特征和第一广告的广告属性特征作为一个输入特征样本;将第一用户的用户属性特征和第二广告的广告属性特征作为一个输入特征样本。
S102、将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,并获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值。
其中,行为特征组的划分不是固定的,可以按照需求进行划分。
作为一种示例,可以将用户对广告的各种行为特征按照时序关系划分为两种层次的行为特征组,比如分为浅层行为特征组和深层行为特征组,浅层行为特征组包括点击、播放等行为特征,深层行为特征组包括APP激活、APP付费、APP注册等行为特征。
作为另一种示例,可以将用户对广告的各种行为特征按照时序关系划分为三种层次的行为特征组,比如分为第一行为特征组、第二行为特征组和第三行为特征组,第一行为特征组包括点击、播放等行为特征,第二行为特征组包括APP下载、APP激活等行为特征,第三行为特征组包括APP注册、APP付费、次日留存等行为特征。
在一些实施例中,步骤S102中获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,可以包括:
获取单位时间中浏览媒体文件的每一用户对每一浏览的媒体文件的行为数据;
基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值;
根据划分的所述各层次的行为特征组对各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值进行划分,得到每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值。
本公开实施例中,标签值可以包括:用于表征行为特征存在的第一标识(例如1)和用于表征行为特征不存在的第二标识(例如0)。
在一些实施例中,上述基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值,包括:
针对任一所述用户对该用户浏览的任一所述媒体文件的任一行为特征,基于所述行为数据判断是否存在该行为特征;
若存在,则该行为特征对应所述第一标识;
若不存在,则该行为特征对应所述第二标识。
例如,第一用户对第一广告的行为特征包括点击、APP激活、APP注册,模型中将用户对广告的各种行为特征划分为浅层行为特征组和深层行为特征组,浅层行为特征组包括点击、播放,深层行为特征组包括APP激活、APP付费、APP注册,则第一用户对第一广告的点击对应的标签值为1,播放对应的标签值为0,APP激活对应的标签值为1,APP付费对应的标签值为0,APP注册对应的标签值为1,根据划分的行为特征组对标签值进行划分,可以得到由第一用户的用户属性特征和第一广告的广告属性特征构成的一个输入特征样本对应的浅层行为特征组中点击对应的标签值为1,播放对应的标签值为0,以及深层行为特征组中APP激活对应的标签值为1,APP付费对应的标签值为0,APP注册对应的标签值为1。
S103、针对每一所述输入特征样本,以该输入特征样本对应的目标层次的前一层行为特征组中的各行为特征对应的标签值和该输入特征样本作为输入、且以所述目标层次的行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到所述媒体文件的质量预测模型。
在一些实施例中,所述方法还可以包括:
针对每一所述输入特征样本,以该输入特征样本作为输入、且以该输入特征样本对应的首层的行为特征组中各行为特征对应的标签值作为输出,对所述待训练模型进行训练。
例如:对于某一输入特征样本,以该输入特征样本作为输入、且以该输入特征样本对应的浅层行为特征组中各行为特征(如点击、播放)对应的标签值作为输出,对待训练模型进行训练,以便确定模型中用于预测浅层行为特征组中各行为特征的概率的损失函数的参数。
本公开实施例中,媒体文件的质量预测模型可以为神经网络模型、逻辑回归模型、GBDT模型等,神经网络模型包括多层感知机、ResNet,DeepFM等。
在一些实施例中,如图3所示,媒体文件的质量预测模型包括:输入层31、第一隐含层32、第二隐含层33、第一输出层34和第二输出层35,输入层31的输入为媒体文件属性特征和用户属性特征,媒体文件属性特征和用户属性特征经第一隐含层32处理后分别输出给第一输出层34和第二隐含层33,第一输出层34输出浅层行为特征组中的各行为特征的概率,第一输出层34的输出和第二隐含层33的输出一起输入到第二输出层35,第二输出层35输出深层行为特征组中的各行为特征的概率。该媒体文件的质量预测模型的损失函数可以定义为浅层行为特征损失与深层行为特征损失之和。
设总样本数为m,Θ1为隐含层1的网络参数,Θ1,2为隐含层1和隐含层2的网络参数,浅层行为特征损失为深层行为特征损失为浅层行为特征组中的行为特征类型数为n1,深层行为特征组中的行为特征类型数为n2,yij为第i个样本的第j个行为特征的真实标签,为第i个样本的第j个行为特征的预估值,Logloss为交叉熵损失函数,则总体损失定义如下:
其中,
在一些实施例中,可以采用tensorflow对模型进行自动求导优化。
在一些实施例中,所述方法还可以包括:
获取最新的输入特征样本集、以及所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
根据所述最新的输入特征样本集和所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,更新所述媒体文件的质量预测模型。
在一些实施例中,获取最新的输入特征样本集,可以包括:
获取最近的单位时间中投放的各媒体文件的媒体文件属性特征、浏览媒体文件的各用户的用户属性特征;
将任一所述用户的用户属性特征和该用户浏览的任一所述媒体文件的媒体文件属性特征作为一个输入特征样本,得到最新的输入特征样本集。
例如,若模型每8天更新一次,则可以用最近7天的数据来更新模型。
再例如,若模型每天更新一次,则可以用最近一天的数据替代上一次更新中最早的一天的数据来更新模型。
下面以用户对广告的各种行为特征划分为浅层行为特征组和深层行为特征组为例,结合图4说明本公开实施例提供的媒体文件的质量预测模型训练及更新的总体流程。
S201、获取单位时间(例如7天)中投放的各广告的广告属性特征、浏览广告的各用户的用户属性特征、以及每一所述用户对每一浏览的广告的行为数据;
S202、将任一所述用户的用户属性特征和该用户浏览的任一所述广告的广告属性特征作为一个输入特征样本,得到输入特征样本集;
S203、将用户对广告的各种行为特征按照时序关系划分为浅层行为特征组和深层行为特征组;
S204、基于所述行为数据确定各个所述用户对每一浏览的广告的各种行为特征对应的标签值;
S205、根据划分的浅层行为特征组和深层行为特征组对各个所述用户对每一浏览的广告的各种行为特征对应的标签值进行划分,得到每一所述输入特征样本对应的浅层行为特征组中的各行为特征对应的标签值、以及每一所述输入特征样本对应的深层行为特征组中的各行为特征对应的标签值;
S206、针对每一所述输入特征样本,以该输入特征样本作为输入、且以该输入特征样本对应的浅层行为特征组中各行为特征对应的标签值作为输出,以及以该输入特征样本对应的浅层行为特征组中各行为特征对应的标签值和该输入特征样本作为输入、且以该输入特征样本对应的深层行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到媒体文件的质量预测模型;
S207、获取最新的输入特征样本集、所述最新的输入特征样本集中的每一输入特征样本对应的浅层行为特征组中的各行为特征对应的标签值、以及每一所述输入特征样本对应的深层行为特征组中的各行为特征对应的标签值;
S208、根据所述最新的输入特征样本集、所述最新的输入特征样本集中的每一输入特征样本对应的浅层行为特征组中的各行为特征对应的标签值、以及每一所述输入特征样本对应的深层行为特征组中的各行为特征对应的标签值,更新所述媒体文件的质量预测模型。
基于同一发明构思,本公开实施例还提供了一种媒体文件的质量预测方法,如图5所示,该媒体文件的质量预测方法可以用于电子设备中,该电子设备可以为服务器、终端,该方法包括以下步骤:
S301、获取目标媒体文件的媒体文件属性特征和目标用户的用户属性特征;
S302、将所述媒体文件属性特征和所述用户属性特征输入到已训练的媒体文件的质量预测模型;
其中,媒体文件的质量预测模型是根据本公开任一实施例提供的媒体文件的质量预测模型训练方法训练生成的。
S303、获得通过所述媒体文件的质量预测模型预测出的所述目标用户对所述目标媒体文件的各种行为特征的概率。
本公开实施例中,媒体文件的质量预测模型中隐含了用户对媒体文件的各行为特征之间的时序关系,采用该模型预测用户对媒体文件的各种行为特征的概率时,目标层次的行为特征组中的各行为特征的概率的预测依赖于该目标层次的前一层的行为特征组中的各行为特征的概率,即在进行媒体文件的质量预测时,考虑到了不同的行为特征之间的时序关系,相比于相关技术中不考虑各行为特征之间的关联性的方案,可以提高媒体文件的质量预测的准确性。
基于同一发明构思,本公开实施例还提供了一种媒体文件的质量预测模型训练装置,图6是根据一示例性实施例示出的一种媒体文件的质量预测模型训练装置框图。参照图6,该媒体文件的质量预测模型训练装置包括:样本获取模块11、行为特征处理模块12和模型训练模块13。
样本获取模块11,被配置为获取输入特征样本集;所述输入特征样本集中的各个输入特征样本包括:媒体文件属性特征和用户属性特征;
行为特征处理模块12,被配置为将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,并获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
模型训练模块13,被配置为针对每一所述输入特征样本,以该输入特征样本对应的目标层次的前一层行为特征组中的各行为特征对应的标签值和该输入特征样本作为输入、且以所述目标层次的行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到媒体文件的质量预测模型。
在一可能的实现方式中,样本获取模块11被配置为:
获取单位时间中投放的各媒体文件的媒体文件属性特征、浏览媒体文件的各用户的用户属性特征;
将任一所述用户的用户属性特征和该用户浏览的任一所述媒体文件的媒体文件属性特征作为一个输入特征样本,得到输入特征样本集。
在一可能的实现方式中,如图7所示,行为特征处理模块12包括:
行为数据获取模块121,被配置为获取单位时间中浏览媒体文件的每一用户对每一浏览的媒体文件的行为数据;
标签确定模块122,被配置为基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值;
标签分组模块123,被配置为根据划分的所述各层次的行为特征组对各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值进行划分,得到每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值。
在一可能的实现方式中,标签值包括:用于表征行为特征存在的第一标识和用于表征行为特征不存在的第二标识;
标签确定模块122被配置为:
针对任一所述用户对该用户浏览的任一所述媒体文件的任一行为特征,基于所述行为数据判断是否存在该行为特征;
若存在,则该行为特征对应所述第一标识;
若不存在,则该行为特征对应所述第二标识。
在一可能的实现方式中,模型训练模块13还被配置为:
针对每一所述输入特征样本,以该输入特征样本作为输入、且以该输入特征样本对应的首层的行为特征组中各行为特征对应的标签值作为输出,对所述待训练模型进行训练。
在一可能的实现方式中,如图8所示,上述媒体文件的质量预测模型训练装置还可以包括:更新模块14;
更新模块14被配置为:
获取最新的输入特征样本集、以及所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
根据所述最新的输入特征样本集和所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,更新所述媒体文件的质量预测模型。
基于同一发明构思,本公开实施例还提供了一种媒体文件的质量预测装置,图9是根据一示例性实施例示出的一种媒体文件的质量预测装置框图。参照图9,该媒体文件的质量预测装置包括:特征获取模块21和预测模块22。
特征获取模块21,被配置为获取目标媒体文件的媒体文件属性特征和目标用户的用户属性特征;
预测模块22,被配置为将所述媒体文件属性特征和所述用户属性特征输入到已训练的媒体文件的质量预测模型,所述媒体文件的质量预测模型是根据本公开任一实施例提供的媒体文件的质量预测模型训练方法训练生成的;获得通过所述媒体文件的质量预测模型预测出的所述目标用户对所述目标媒体文件的各种行为特征的概率。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
基于同一发明构思,本公开实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意可能的实现方式中的媒体文件的质量预测模型训练方法的步骤。
可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
基于同一发明构思,本公开实施例还提供了一种计算机程序产品,包括计算机程序,所述程序被处理器执行时实现上述任意可能的实现方式中的媒体文件的质量预测模型训练方法的步骤。
基于同一发明构思,参见图10,本公开实施例还提供了一种电子设备,包括存储器71(例如非易失性存储器)、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序,处理器72执行所述程序时实现上述任意可能的实现方式中的媒体文件的质量预测模型训练方法的步骤。该电子设备例如可以为终端、服务器等。
如图10所示,该电子设备一般还可以包括:内存73、网络接口74、以及内部总线75。除了这些部件外,还可以包括其他硬件,对此不再赘述。
需要指出的是,上述媒体文件的质量预测模型训练装置可以通过软件实现,其作为一个逻辑意义上的装置,是通过其所在的电子设备的处理器72将非易失性存储器中存储的计算机程序指令读取到内存73中运行形成的。
基于同一发明构思,本公开实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意可能的实现方式中的媒体文件的质量预测方法的步骤。
基于同一发明构思,本公开实施例还提供了一种计算机程序产品,包括计算机程序,所述程序被处理器执行时实现上述任意可能的实现方式中的媒体文件的质量预测方法的步骤。
基于同一发明构思,参见图11,本公开实施例还提供了一种电子设备,包括存储器71(例如非易失性存储器)、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序,处理器72执行所述程序时实现上述任意可能的实现方式中的媒体文件的质量预测方法的步骤。该电子设备例如可以为终端、服务器等。
如图11所示,该电子设备一般还可以包括:内存73、网络接口74、以及内部总线75。除了这些部件外,还可以包括其他硬件,对此不再赘述。
需要指出的是,上述媒体文件的质量预测装置可以通过软件实现,其作为一个逻辑意义上的装置,是通过其所在的电子设备的处理器72将非易失性存储器中存储的计算机程序指令读取到内存73中运行形成的。
需要说明的是,上述的媒体文件的质量预测模型训练装方法与媒体文件的质量预测方法可以在同一个电子设备中执行,例如媒体文件的质量预测模型的训练和媒体文件的质量预测都可在终端执行。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种媒体文件的质量预测模型训练方法,其特征在于,包括:
获取输入特征样本集;所述输入特征样本集中的各个输入特征样本包括:媒体文件属性特征和用户属性特征;
将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,并获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
针对每一所述输入特征样本,以该输入特征样本对应的目标层次的前一层行为特征组中的各行为特征对应的标签值和该输入特征样本作为输入、且以所述目标层次的行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到所述媒体文件的质量预测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取输入特征样本集,包括:
获取单位时间中投放的各媒体文件的媒体文件属性特征、浏览媒体文件的各用户的用户属性特征;
将任一所述用户的用户属性特征和该用户浏览的任一所述媒体文件的媒体文件属性特征作为一个输入特征样本,得到输入特征样本集。
3.根据权利要求1或2所述的方法,其特征在于,所述获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,包括:
获取单位时间中浏览媒体文件的每一用户对每一浏览的媒体文件的行为数据;
基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值;
根据划分的所述各层次的行为特征组对各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值进行划分,得到每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值。
4.根据权利要求3所述的方法,其特征在于,所述标签值包括:用于表征行为特征存在的第一标识和用于表征行为特征不存在的第二标识;
所述基于所述行为数据确定各个所述用户对每一浏览的媒体文件的各种行为特征对应的标签值,包括:
针对任一所述用户对该用户浏览的任一所述媒体文件的任一行为特征,基于所述行为数据判断是否存在该行为特征;
若存在,则该行为特征对应所述第一标识;
若不存在,则该行为特征对应所述第二标识。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取最新的输入特征样本集、以及所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
根据所述最新的输入特征样本集和所述最新的输入特征样本集中的每一输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值,更新所述媒体文件的质量预测模型。
6.一种媒体文件的质量预测方法,其特征在于,包括:
获取目标媒体文件的媒体文件属性特征和目标用户的用户属性特征;
将所述媒体文件属性特征和所述用户属性特征输入到已训练的媒体文件的质量预测模型;所述媒体文件的质量预测模型是根据权利要求1-5中任一项所述的方法训练生成的;
获得通过所述媒体文件的质量预测模型预测出的所述目标用户对所述目标媒体文件的各种行为特征的概率。
7.一种媒体文件的质量预测模型训练装置,其特征在于,包括:
样本获取模块,被配置为获取输入特征样本集;所述输入特征样本集中的各个输入特征样本包括:媒体文件属性特征和用户属性特征;
行为特征处理模块,被配置为将用户对媒体文件的各种行为特征按照时序关系划分为至少两种层次的行为特征组,并获取每一所述输入特征样本对应的每一层次的行为特征组中的各行为特征对应的标签值;
模型训练模块,被配置为针对每一所述输入特征样本,以该输入特征样本对应的目标层次的前一层行为特征组中的各行为特征对应的标签值和该输入特征样本作为输入、且以所述目标层次的行为特征组中的各行为特征对应的标签值作为输出,对待训练模型进行训练,得到媒体文件的质量预测模型。
8.一种媒体文件的质量预测装置,其特征在于,包括:
特征获取模块,被配置为获取目标媒体文件的媒体文件属性特征和目标用户的用户属性特征;
预测模块,被配置为将所述媒体文件属性特征和所述用户属性特征输入到已训练的媒体文件的质量预测模型,所述媒体文件的质量预测模型是根据权利要求1-6中任一项所述的方法训练生成的;获得通过所述媒体文件的质量预测模型预测出的所述目标用户对所述目标媒体文件的各种行为特征的概率。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求6所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求6所述方法的步骤。
CN201910745502.XA 2019-08-13 2019-08-13 媒体文件的质量预测模型训练方法、质量预测方法及装置 Active CN110515904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910745502.XA CN110515904B (zh) 2019-08-13 2019-08-13 媒体文件的质量预测模型训练方法、质量预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910745502.XA CN110515904B (zh) 2019-08-13 2019-08-13 媒体文件的质量预测模型训练方法、质量预测方法及装置

Publications (2)

Publication Number Publication Date
CN110515904A true CN110515904A (zh) 2019-11-29
CN110515904B CN110515904B (zh) 2022-04-29

Family

ID=68625620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910745502.XA Active CN110515904B (zh) 2019-08-13 2019-08-13 媒体文件的质量预测模型训练方法、质量预测方法及装置

Country Status (1)

Country Link
CN (1) CN110515904B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507471A (zh) * 2020-03-03 2020-08-07 上海喜马拉雅科技有限公司 一种模型训练方法、装置、设备及存储介质
CN111523032A (zh) * 2020-04-22 2020-08-11 贝壳技术有限公司 确定用户偏好的方法、装置、介质和电子设备
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN113672783A (zh) * 2021-08-11 2021-11-19 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514266A (zh) * 2013-09-04 2014-01-15 快传(上海)广告有限公司 一种面向移动终端的网络信息投放方法和系统
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN107767174A (zh) * 2017-10-19 2018-03-06 厦门美柚信息科技有限公司 一种广告点击率的预测方法及装置
CN107944913A (zh) * 2017-11-21 2018-04-20 重庆邮电大学 基于大数据用户行为分析的高潜在用户购买意向预测方法
CN108280682A (zh) * 2018-01-16 2018-07-13 深圳市和讯华谷信息技术有限公司 广告投放方法、终端及计算机可读存储介质
CN108446374A (zh) * 2018-03-16 2018-08-24 北京三快在线科技有限公司 用户意图预测方法、装置、电子设备、存储介质
CN108614845A (zh) * 2016-12-13 2018-10-02 腾讯科技(深圳)有限公司 基于媒体文件的行为预估方法和装置
CN109213847A (zh) * 2018-09-14 2019-01-15 广州神马移动信息科技有限公司 答案的分层方法及其装置、电子设备、计算机可读介质
US20190050890A1 (en) * 2017-08-09 2019-02-14 Viscovery (Cayman) Holding Company Limited Video dotting placement analysis system, analysis method and storage medium
CN109460513A (zh) * 2018-10-31 2019-03-12 北京字节跳动网络技术有限公司 用于生成点击率预测模型的方法和装置
CN109509033A (zh) * 2018-12-14 2019-03-22 重庆邮电大学 一种消费金融场景下的用户购买行为大数据预测方法
CN109598544A (zh) * 2018-11-21 2019-04-09 优估(上海)信息科技有限公司 一种媒体目标匹配方法及系统
CN109978606A (zh) * 2019-03-04 2019-07-05 北京达佳互联信息技术有限公司 广告点击率数据的处理方法、装置和计算机可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN103514266A (zh) * 2013-09-04 2014-01-15 快传(上海)广告有限公司 一种面向移动终端的网络信息投放方法和系统
CN108614845A (zh) * 2016-12-13 2018-10-02 腾讯科技(深圳)有限公司 基于媒体文件的行为预估方法和装置
US20190050890A1 (en) * 2017-08-09 2019-02-14 Viscovery (Cayman) Holding Company Limited Video dotting placement analysis system, analysis method and storage medium
CN107767174A (zh) * 2017-10-19 2018-03-06 厦门美柚信息科技有限公司 一种广告点击率的预测方法及装置
CN107944913A (zh) * 2017-11-21 2018-04-20 重庆邮电大学 基于大数据用户行为分析的高潜在用户购买意向预测方法
CN108280682A (zh) * 2018-01-16 2018-07-13 深圳市和讯华谷信息技术有限公司 广告投放方法、终端及计算机可读存储介质
CN108446374A (zh) * 2018-03-16 2018-08-24 北京三快在线科技有限公司 用户意图预测方法、装置、电子设备、存储介质
CN109213847A (zh) * 2018-09-14 2019-01-15 广州神马移动信息科技有限公司 答案的分层方法及其装置、电子设备、计算机可读介质
CN109460513A (zh) * 2018-10-31 2019-03-12 北京字节跳动网络技术有限公司 用于生成点击率预测模型的方法和装置
CN109598544A (zh) * 2018-11-21 2019-04-09 优估(上海)信息科技有限公司 一种媒体目标匹配方法及系统
CN109509033A (zh) * 2018-12-14 2019-03-22 重庆邮电大学 一种消费金融场景下的用户购买行为大数据预测方法
CN109978606A (zh) * 2019-03-04 2019-07-05 北京达佳互联信息技术有限公司 广告点击率数据的处理方法、装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GEORGE AD. PSARROS: "Probabilistic modeling of navigation bridge officer"s behavior", 《2014 IEEE SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE IN VEHICLES AND TRANSPORTATION SYSTEMS (CIVTS)》 *
吴华意 等: "公共地图服务的群体用户访问行为时序特征模型及预测", 《武汉大学学报(信息科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507471A (zh) * 2020-03-03 2020-08-07 上海喜马拉雅科技有限公司 一种模型训练方法、装置、设备及存储介质
CN111507471B (zh) * 2020-03-03 2023-11-17 上海喜马拉雅科技有限公司 一种模型训练方法、装置、设备及存储介质
CN111523032A (zh) * 2020-04-22 2020-08-11 贝壳技术有限公司 确定用户偏好的方法、装置、介质和电子设备
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN113672783A (zh) * 2021-08-11 2021-11-19 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法
CN113672783B (zh) * 2021-08-11 2023-07-11 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法

Also Published As

Publication number Publication date
CN110515904B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110515904A (zh) 媒体文件的质量预测模型训练方法、质量预测方法及装置
US20220391773A1 (en) Method and system for artificial intelligence learning using messaging service and method and system for relaying answer using artificial intelligence
Golder et al. Growing, growing, gone: Cascades, diffusion, and turning points in the product life cycle
CN110245301A (zh) 一种推荐方法、装置及存储介质
CN107871244A (zh) 一种广告效果的检测方法和装置
CN102073956A (zh) 一种基于数据挖掘的定向广告投放方法、系统和设备
Qiu et al. Pricing strategies under behavioral observational learning in social networks
CN109934619A (zh) 用户画像标签建模方法、装置、电子设备及可读存储介质
CN108962238A (zh) 基于结构化神经网络的对话方法、系统、设备及存储介质
US20120123867A1 (en) Location Event Advertising
CN108665064A (zh) 神经网络模型训练、对象推荐方法及装置
Lee Effects of sport mega-events on city brand awareness and image: using the 2009 world games in Kaohsiung as an example
CN110019699B (zh) 域间通过语法槽的分类
CN103795697B (zh) 一种网络媒介信息投放效果模拟方法和系统
CN109360020A (zh) 一种广告的生成方法及装置
CN108427708A (zh) 数据处理方法、装置、存储介质和电子装置
CN104834641A (zh) 网络媒介信息的处理方法和相关系统
Noseworthy et al. How context shapes category inferences and attribute preference for new ambiguous products
CN103238164A (zh) 网络化广告交换
CN108268573A (zh) 用于推送信息的方法和装置
CN108305181A (zh) 社交影响力确定、信息投放方法及装置、设备及存储介质
CN103971257A (zh) 一种互联网媒体组合投放效果的估计方法及系统
CN107480124A (zh) 广告投放方法和装置
CN108921624A (zh) 广告融合方法、装置、存储介质和终端设备
CN103700004A (zh) 一种微博广告服务信息推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant