CN114298403A - 预测作品的关注度的方法和装置 - Google Patents

预测作品的关注度的方法和装置 Download PDF

Info

Publication number
CN114298403A
CN114298403A CN202111614662.4A CN202111614662A CN114298403A CN 114298403 A CN114298403 A CN 114298403A CN 202111614662 A CN202111614662 A CN 202111614662A CN 114298403 A CN114298403 A CN 114298403A
Authority
CN
China
Prior art keywords
attention
prediction
value
data
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111614662.4A
Other languages
English (en)
Inventor
师晋辉
吉万鹏
王方舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111614662.4A priority Critical patent/CN114298403A/zh
Publication of CN114298403A publication Critical patent/CN114298403A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开关于一种预测作品的关注度的方法和装置,该方法包括:获取作品的先前关注度数据和影响作品关注度的属性数据;将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值;将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测。根据本公开的预测方法能够提高作品的关注度的预测精度。

Description

预测作品的关注度的方法和装置
技术领域
本公开涉及计算机技术领域,更具体地说,涉及一种关注度预测模型的训练方法和装置以及使用该模型预测作品的关注度的方法和装置。
背景技术
多媒体作品(例如,短视频内容、音频内容)被作者上传到作品播放平台之后,平台的用户可以观看或收听该作品。如果用户在观看作品之后对作品的作者产生兴趣而发生一次关注行为,则该作者的关注度会提高。例如,通常可以用作品被观看的次数和作者被关注的次数来评估作品的关注度,即,作品的关注度=该作品被关注的次数/该作品的观看次数。
针对作品的关注度预测,通常可通过该作品在前面的所有时间周期内获得的关注度数据以及该作品的一些属性数据来预测当前周期的关注度。如果预测结果不准确,往往是从模型调参或者数据分布层面进行处理,预测结果不可控且成本较高。
发明内容
本公开提供一种预测作品的关注度的方法和装置,以至少解决上述相关技术中预测精度不高的问题。
根据本公开实施例的第一方面,提供一种关注度预测模型的训练方法,包括:获取多个作品的先前关注度数据和影响作品关注度的属性数据;将所述多个作品的先前关注度数据和属性数据作为特征输入第一预测模型,以获得每个作品的第一预测关注度值,并基于所述多个作品的第一预测关注度值和真实关注度值来调整第一预测模型的参数;将所述多个作品中的每个作品的真实关注度值和第一预测关注度值组成样本对,以预定顺序将与所述多个作品对应的多个样本对分为M个组,并分别确定所述M个组的每个组中所有样本对的真实关注度值的均值和第一预测关注度值的均值,作为新的M个样本数据的第二真实关注度值和第二预测关注度值;将所述M个样本数据的每个样本数据的第二预测关注度值作为特征输入第二预测模型,以获得所述M个样本数据的每个样本数据的第三预测关注度值,并基于所述M个样本数据的每个样本数据的第三预测关注度值和第二真实关注度值来调整M的数值和第二关注度模型的参数。
根据本公开实施例的第一方面,以预定顺序将所述多个样本对分为M个组包括:按照所述多个样本对的真实关注度值或第一预测关注度值的大小升序或降序来排列所述多个样本;将排列后的所述多个样本平均划分到所述M个组中。
根据本公开实施例的第一方面,第一预测模型为具有针对先前关注度数据和属性数据的预定权重的线性模型或非线性模型,其中,调整第一预测模型的参数包括:基于所述多个作品的第一预测关注度值和真实关注度值计算评价指标;根据所述评价指标来调整第一预测模型的所述预定权重。
根据本公开实施例的第一方面,第二预测模型为具有针对第二预测关注度值的预定权重的线性模型或非线性模型,其中,调整M的数值和第二预测模型的参数包括:基于所述M个样本数据的第三预测关注度值和第二真实关注度值计算评价指标;根据所述评价指标来调整M的数量和第二预测模型的所述预定权重。
根据本公开实施例的第一方面,所述评价指标为均方根误差RMSE或者R方值。
根据本公开实施例的第一方面,所述属性数据包括关于作品的以下信息中的至少一项:是否有标题、是否有字幕、是否有标签、是否有背景音乐。
根据本公开实施例的第二方面,提供了一种关注度预测模型的训练装置,包括:数据获取单元,被配置为获取多个作品的先前关注度数据和影响作品关注度的属性数据;第一预测单元,被配置为将所述多个作品的先前关注度数据和属性数据作为特征输入第一预测模型,以获得每个作品的第一预测关注度值,并基于所述多个作品的第一预测关注度值和真实关注度值来调整第一预测模型的参数;样本生成单元,被配置将所述多个作品中的每个作品的真实关注度值和第一预测关注度值组成样本对,以预定顺序将与所述多个作品对应的多个样本对分为M个组,并分别确定所述M个组的每个组中所有样本对的真实关注度值的均值和第一预测关注度值的均值,作为新的M个样本数据的第二真实关注度值和第二预测关注度值;第二预测单元,被配置为将所述M个样本数据的每个样本数据的第二预测关注度值作为特征输入第二预测模型,以获得所述M个样本数据的每个样本数据的第三预测关注度值,并基于所述M个样本数据的每个样本数据的第三预测关注度值和第二真实关注度值来调整M的数值和第二关注度模型的参数。
根据本公开实施例的第二方面,样本生成被配置为:按照所述多个样本对的真实关注度值或第一预测关注度值的大小升序或降序来排列所述多个样本;将排列后的所述多个样本平均划分到所述M个组中。
根据本公开实施例的第二方面,第一预测模型为具有针对先前关注度数据和属性数据的预定权重的线性模型或非线性模型,其中,第一预测单元被配置为:基于所述多个作品的第一预测关注度值和真实关注度值计算预定评价指标;根据所述预定评价指标来调整第一预测模型的所述预定权重。
根据本公开实施例的第二方面,第二预测模型为具有针对第二预测关注度值的预定权重的线性模型或非线性模型,其中,第二预测单元被配置为:基于所述M个样本数据的第三预测关注度值和第二真实关注度值计算预定评价指标;根据所述预定评价指标来调整M的数量和第二预测模型的所述预定权重。
根据本公开实施例的第二方面,所述评价指标为均方根误差RMSE或者R方值。
根据本公开实施例的第二方面,所述属性数据包括关于作品的以下信息中的至少一项:是否有标题、是否有字幕、是否有标签、是否有背景音乐。
根据本公开实施例的第三方面,提供了一种关注度预测方法,包括:获取作品的先前关注度数据和影响作品关注度的属性数据;将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值;将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测,其中,所述第一预测模型和所述第二预测模型是根据如上所述的训练方法训练得到的。
根据本公开实施例的第三方面,响应于没有获取到所述作品的先前关注度数据和/或属性数据,返回用于指示执行其他操作的默认标识值。
根据本公开实施例的第三方面,所述属性数据包括关于作品的以下信息中的至少一项:是否有标题、是否有字幕、是否有标签、是否有背景音乐。
根据本公开实施例的第四方面,提供了一种关注度预测装置,包括:数据获取单元,被配置为获取作品的先前关注度数据和影响作品关注度的属性数据;第一预测单元,被配置为将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值;第二预测单元,被配置为将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测,其中,所述第一预测模型和所述第二预测模型是根据如上所述的训练方法训练得到的。
根据本公开实施例的第四方面,第一预测单元被配置为:响应于数据获取单元没有获取到所述作品的先前关注度数据和/或属性数据,输出用于指示执行其他操作的默认标识值。
根据本公开实施例的第四方面,所述属性数据包括关于作品的以下信息中的至少一项:是否有标题、是否有字幕、是否有标签、是否有背景音乐。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现根据本公开所述的关注度预测模型的训练方法以及关注度预测方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行根据本公开所述的关注度预测模型的训练方法以及关注度预测方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据本公开所述的关注度预测模型的训练方法以及关注度预测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据作品的历史关注度数据,通过多个预测模型对预测数据进行纠偏来提高预测精度,从而能够获得更为准确的关注度预测值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的关注度预测方法的整体示意图;
图2是示出根据本公开的示例性实施例的一种关注度预测模型的训练方法的流程图;
图3是示出根据本公开的示例性实施例的一种关注度预测模型的训练装置是框图;
图4是示出根据本公开的示例性实施例的一种关注度预测方法的流程图;
图5是示出根据本公开的示例性实施例的一种关注度预测装置的框图;
图6是示出根据本公开的示例性实施例的一种电子设备的示意图。
图7是示出根据本公开的示例性实施例的另一电子设备的示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
由于通常作品或直播间的观看和关注人数数据会存在严重不均衡的现象,导致关注度计算时会存在数据分布不均以及严重的不置信情况,例如:在1天内作品A被观看两次产生了一次关注行为,作品B被观看二十万次产生了十万次关注行为,如果直接使用关注次数/观看次数的计算方式,那么作品A和作品B的关注度都是0.5,然而常识告诉我们作品A的关注度明显不置信;另外平台内作品的关注次数和观看次数存在头部效应,头部作品比尾部作品的关注次数和观看次数量级往往要高很多,这些都会提高关注度预测的难度。
相关技术中,针对关注度预测,常规方法一般是先从对稀疏样本采样、对关注度数据做贝叶斯平滑,再建立回归或者分类任务对关注度数据进行预测。本公开的实施例在常规对关注度数据进行回归建模任务后,增加一个分桶多模型集成预测校准的步骤,将预测值和真实值组成样本对,再按照预测值进行降序排序后分桶,计算分桶内样本预测值和真实值的均值组成新的训练样本集合,再使用线性或者非线性模型进行回归预测。
图1是示出根据本公开的示例性实施例的关注度预测方法的整体示意图。
如图1所示,根据本公开的示例性实施例的关注度预测方法可分为两个阶段,即线下模型训练阶段和线上模型使用阶段。
在训练阶段,可预先设定统计周期(例如,N天),并统计作品的先前关注度数据(例如,前N-1天作品的关注度数据)以及作品对应的属性特征。例如,可从数据库存储的作品历史关注度数据表和作品属性表中分别获取先前关注度数据和属性数据。
然后,将前N-1天作品的关注度数据和属性数据作为样本特征,并将第N天作品的关注度数据作为样本标签,将训练样本输入模型M1,并训练得到模型M1。用M1预测出的作品关注度数据和真实关注度数据组成样本对并执行校准。具体地,可根据M1输出的预测值将样本对排序后分成X个桶,每个桶内包含的<预测值,真实值>样本对的个数为Y,计算出每个桶内Y个样本对预测值和真实值的均值,组成新的X个均值样本数据,再用模型M2去训练新的样本对集合。
在线上使用阶段,将训练完成的模型M1和M2加载到线上。每当收到针对作品的关注度预测的请求,可根据作品的ID从数据库中获取该作品的历史关注度数据和属性作为特征,使用模型M1对该作品的特征(例如,前N-1天的关注度和属性数据)执行预测获得预测值,并将预测值输入到模型M2,得到新的预测值,并返回新的预测值作为最终的作品关注度预测值。这里,如果没有获取到历史关注度数据,则可直接返回默认的预测结果(例如,可以是根据其他预测方法预测的结果或者提示无法进行预测)。
以上的训练阶段和线上阶段可以在诸如服务器和客户端中以预定的形式(例如,软件应用)实现。
下面将参照图2来说明根据本公开的示例性实施例的关注度预测模型的训练方法。
如图2所示,首先,在步骤S210,获取多个作品的先前关注度数据和影响作品关注度的属性数据。这里,先前关注度数据可以是在当前周期之前的作品的累计关注度数据。假设作品的总共的统计周期为N天,统计间隔为1天,则可将前N-1天的关注度数据作为该作品的先前关注度数据用于预测第N天的关注度。例如,可以统计前N-1天该作品的被点击次数和该作品的作者被关注的次数,作为先前关注度数据。根据本公开的示例性实施例,统计周期的时间通常需要大于15天。
属性数据可以是与影响作品关注度的属性相关的以数值形式表示的任何数据。例如,可采用二值化(1/0)表示的属性:是否有标题、是否有字母、是否有标签、是否有背景音乐。在以上属性数据中,可以用1表示“是”,用“0”表示否。应理解,除了二值化属性,也可以采用其他可能的多值化属性,例如,评价分数1~5等等,在此不进行限制。
接下来,在步骤S220,将多个作品的先前关注度数据和属性数据作为特征输入第一预测模型,以获得每个作品的第一预测关注度值,并基于所述多个作品的第一预测关注度值和真实关注度值来调整第一预测模型的参数。
根据本公开的示例性实施例,可对先前关注度数据和属性数据进行处理以提高数据的可用性。数据处理例如可包括以下中的至少一个操作:
1)异常值过滤:包含去除空值、去除无意义的值等,避免模型根据异常数据学习到异常权重;
2)归一化:统一不同特征值的量纲,避免不同量纲的特征对模型学习产生较大影响;
3)离散化:对部分特征(例如,作品发布时间)进行分段离散化,从而加强模型记忆性。
应理解,数据处理不限于上述示例,本领域的技术人员可根据需要增加其他数据处理过程。在处理数据之后,将处理后的数据作为特征输入到第一预测模型,以获得每个作品的第一预测关注度值,进而可以基于第一预测关注度值和作品的真实关注度值来调整第一预测模型的参数。
根据本公开的示例性实施例,第一预测模型可以是具有预定权重的线性模型或非线性模型。根据本公开的示例性实施例,线性模型例如可以是线性回归模型,非线性模型例如可包括对数回归模型、指数回归模型等。
例如,假设处理后的数据的特征值为x1、x2和x3,输出的预测关注度值为y,则第一预测模型可以表示为:y=w1*x1+w2*x2+w3*x3,其中,w1、w2、w3为线性模型的权重。或者,第一预测模型可以表示为y=w4*x1+w5*x2 2+w6*x3 3,其中,w4、w5、w6为非线性模型的权重。应理解,第一预测模型还可以采用其他的预测模型,诸如基于人工智能神经网络的预测模型,本公开对此不进行限制。在通过第一预测模型获得了关于作品的预测关注度值之后,可根据基于多个作品的第一预测关注度值和真实关注度值计算评价指标,并根据所述评价指标来调整第一预测模型的权重。根据本公开的示例性实施例,可采用诸如均方根误差(RMSE)或者R方值作为评价指标。即,可根据作品的第一预测关注度值和真实关注度值之间的RMSE值或R方值来调整以上的线性模型或非线性模型的权重,从而使第一预测模型的预测效果达到最优。训练好的第一预测模型可被保存并在后续线上预测过程中使用。
接下来,在步骤S230,将所述多个作品中的每个作品的真实关注度值和第一预测关注度值组成样本对,以预定顺序将与所述多个作品对应的多个样本对分为M个组,并分别确定所述M个组的每个组中所有样本对的真实关注度值的均值和第一预测关注度值的均值,作为新的M个样本数据的第二真实关注度值和第二预测关注度值。
根据本公开的示例性实施例,在步骤S230,可以按照所述多个样本对的真实关注度值或第一预测关注度值的大小升序或降序来排列所述多个样本,并将排列后的所述多个样本平均划分到所述M个组中。
例如,可将第一预测模型输出的作品的第一关注度预测值y_pred和真实关注度值y_real组成样本对,根据第一关注度预测值y_pred或真实关注度值y_real的大小,以升序或降序排列所有作品的样本对之后将样本对分成M个桶,每个桶内包含Y个样本对<y_pred,y_real>。例如,假设作品的数量为10000,将所有作品分为100个桶,则每个桶内包含100个样本对。
在分桶之后,可对桶内的所有样本对进行遍历,计算每个桶内的Y个样本对的第一预测关注度值和真实关注度值的均值作为上述的第二预测关注度值和第二真实关注度值,分别表示为<y_pred_mean,y_real_mean>,从而总共得到M个新的样本。
接下来,在步骤S240,将所述M个样本数据的每个样本数据的第二预测关注度值作为特征输入第二预测模型,以获得所述M个样本数据的每个样本数据的第三预测关注度值,并基于所述M个样本数据的每个样本数据的第三预测关注度值和第二真实关注度值来调整M的数值和第二关注度模型的参数。
根据本公开的示例性实施例,第二预测模型可以为具有针对第二预测关注度值的预定权重的线性模型或非线性模型,其中,调整M的数值和第二预测模型的参数包括:基于所述M个样本数据的第三预测关注度值和第二真实关注度值计算评价指标,并根据所述评价指标来调整M的数量和第二预测模型的所述预定权重。也就是说,第二预测模型可以是与第一预测模型相同类型的模型,也可以是不同类型的模型。评价指标例如可以是均方根误差(RMSE)或者R方值。
通过调整M的数值(即,分桶个数)和第二预测模型的参数(例如,第二预测模型的权重),可以使第二预测模型的预测效果达到最优。也就是说,在调整M的数量之后,可以再次执行步骤S230来重新生成M个样本数据并再次执行S240,直到第二预测模型的评价指标达到最优。
通过以上的预测模型的训练方法,在第一次预测之后的关注度数据的基础上,通过诸如分桶、求平均和第二次预测对先前得到的预测数据进行偏差纠正,可以得到更为精确的预测模型,从而在后续的线上使用过程中得到更为准确的关注度预测。
图3是示出根据本公开的示例性实施例的关注度预测模型的训练装置。如图3所示,根据本公开的示例性实施例的关注度预测模型的训练装置300可包括数据获取单元310、第一预测单元320、样本生成单元330和第二预测单元340。
数据获取单元310被配置为获取多个作品的先前关注度数据和影响作品关注度的属性数据。根据本公开的示例性实施例,先前关注度数据可以是在当前周期之前的作品的累计关注度数据,属性数据可以是影响作品关注度的属性相关的以数值形式表示的数据。根据本公开的示例性实施例,所述属性数据包括关于作品的以下信息中的至少一项:是否有标题、是否有字幕、是否有标签、是否有背景音乐。
第一预测单元320被配置为将所述多个作品的先前关注度数据和属性数据作为特征输入第一预测模型,以获得每个作品的第一预测关注度值,并基于所述多个作品的第一预测关注度值和真实关注度值来调整第一预测模型的参数。根据本公开的示例性实施例,第一预测单元320可对先前关注度数据和属性数据进行处理以提高数据的可用性。根据本公开的示例性实施例,第一预测模型可以是具有预定权重的线性模型或非线性模型。根据本公开的示例性实施例,线性模型例如可以是线性回归模型,非线性模型例如可包括对数回归模型、指数回归模型等。
样本生成单元330被配置将所述多个作品中的每个作品的真实关注度值和第一预测关注度值组成样本对,以预定顺序将与所述多个作品对应的多个样本对分为M个组,并分别确定所述M个组的每个组中所有样本对的真实关注度值的均值和第一预测关注度值的均值,作为新的M个样本数据的第二真实关注度值和第二预测关注度值。
第二预测单元340被配置为将所述M个样本数据的每个样本数据的第二预测关注度值作为特征输入第二预测模型,以获得所述M个样本数据的每个样本数据的第三预测关注度值,并基于所述M个样本数据的每个样本数据的第三预测关注度值和第二真实关注度值来调整M的数值和第二关注度模型的参数。
根据本公开的示例性实施例,第二预测模型为具有针对第二预测关注度值的预定权重的线性模型或非线性模型,其中,第二预测单元340被配置为:基于所述M个样本数据的第三预测关注度值和第二真实关注度值计算预定评价指标,并根据所述预定评价指标来调整M的数量和第二预测模型的所述预定权重。所述评价指标可以为均方根误差RMSE或者R方值。
在调整M的数量之后,样本生成单元330可重新对所有作品的样本对执行分组并计算分组内的样本对的预测关注度值和真实关注度值的均值,从而产生新的M个样本数据,第二预测单元340可基于新的样本数据来重新预测并继续调整第二预测模型的参数和M的数量,直到第二预测模型的评价指标的达到最优。
下面将参照图4来说明根据本公开的示例性实施例的用于预测作品的关注度的方法。
如上所述,在根据如图2和图3所述的训练方法和装置训练得到了第一预测模型和第二预测模型之后,可使用第一预测模型和第二预测模型来对作品的关注度进行预测。
如图4所示,在步骤S410,获取作品的先前关注度数据和影响作品关注度的属性数据。以上已经参照图2详细说明了作品的先前关注度数据和属性数据的示例,在此不再重复。
接下来,在步骤S420,将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值。
然后,在步骤S430,将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测。
这里,第一预测模型和第二预测模型是根据如图2所述的训练方法训练得到的。
根据本公开的示例性实施例,响应于在步骤S410没有获取到所述作品的先前关注度数据和/或属性数据,则返回默认标识值以指示进行其他操作而不执行后续的步骤S420和S430。例如,可返回指示采用其他相关技术的预测算法来预测作品的关注度,或者提示不能预测该作品的关注度。
通过以上的预测方法,可以根据作品的历史关注度数据,通过多个预测模型对预测数据进行纠偏来提高预测精度,从而能够获得更为准确的关注度预测值。
图5是示出根据本公开的示例性实施例的关注度预测装置的框图。
如图5所示,根据本公开的示例性实施例的关注度预测装置500可包括数据获取单元510、第一预测单元520和第二预测单元530。
数据获取单元510被配置为获取作品的先前关注度数据和影响作品关注度的属性数据。
第一预测单元520被配置为将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值。
第二预测单元530被配置为将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测。
这里,第一预测模型和第二预测模型是根据如图2所描述的训练方法训练得到的。另外,已经参照图2作品的先前关注度数据和属性数据的示例,在此不再重复。
另外,根据本公开的示例性实施例,第一预测单元520还被配置为:响应于数据获取单元没有获取到所述作品的先前关注度数据和/或属性数据,输出用于指示执行其他操作的默认标识值。
图6是的一种用于关注度预测的电子设备的结构框图。该电子设备600例如可以是:智能手机、平板电脑、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本公开的如图2和图4所示的方法实施例提供的关注度预测模型训练方法和/或关注度预测方法。
在一些实施例中,电子设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在电子设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位电子设备600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置电子设备600的正面、背面或侧面。当电子设备600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在电子设备600的前面板。接近传感器616用于采集用户与电子设备600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7所示为另一种电子设备700的结构框图。例如,电子设备700可以被提供为一服务器。参照图7,电子设备700包括一个或多个处理处理器710以及存储器720。存储器720可以包括用于执行以上的关注度预测模型训练方法和/或关注度预测方法的一个或一个以上的程序。电子设备700还可以包括一个电源组件730被配置为执行电子设备700的电源管理,一个有线或无线网络接口740被配置为将电子设备700连接到网络,和一个输入输出(I/O)接口750。电子设备700可以操作基于存储在存储器720的操作系统,例如WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM或类似。
根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的关注度预测模型训练方法和/或关注度预测方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述的关注度预测模型训练方法和/或关注度预测方法。
根据本公开的关注度预测模型训练方法和关注度预测方法能够根据作品的历史关注度数据,通过对预测数据进行纠偏来提高预测精度,从而能够获得更为准确的关注度预测。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种关注度预测模型的训练方法,其特征在于,包括:
获取多个作品的先前关注度数据和影响作品关注度的属性数据;
将所述多个作品的先前关注度数据和属性数据作为特征输入第一预测模型,以获得每个作品的第一预测关注度值,并基于所述多个作品的第一预测关注度值和真实关注度值来调整第一预测模型的参数;
将所述多个作品中的每个作品的真实关注度值和第一预测关注度值组成样本对,以预定顺序将与所述多个作品对应的多个样本对分为M个组,并分别确定所述M个组的每个组中所有样本对的真实关注度值的均值和第一预测关注度值的均值,作为新的M个样本数据的第二真实关注度值和第二预测关注度值;
将所述M个样本数据的每个样本数据的第二预测关注度值作为特征输入第二预测模型,以获得所述M个样本数据的每个样本数据的第三预测关注度值,并基于所述M个样本数据的每个样本数据的第三预测关注度值和第二真实关注度值来调整M的数值和第二关注度模型的参数。
2.如权利要求1所述的训练方法,其特征在于,以预定顺序将所述多个样本对分为M个组包括:
按照所述多个样本对的真实关注度值或第一预测关注度值的大小升序或降序来排列所述多个样本;
将排列后的所述多个样本平均划分到所述M个组中。
3.如权利要求1所述的训练方法,其特征在于,第一预测模型为具有针对先前关注度数据和属性数据的预定权重的线性模型或非线性模型,
其中,调整第一预测模型的参数包括:
基于所述多个作品的第一预测关注度值和真实关注度值计算评价指标;
根据所述评价指标来调整第一预测模型的所述预定权重。
4.如权利要求1所述的训练方法,其特征在于,第二预测模型为具有针对第二预测关注度值的预定权重的线性模型或非线性模型,
其中,调整M的数值和第二预测模型的参数包括:
基于所述M个样本数据的第三预测关注度值和第二真实关注度值计算评价指标;
根据所述评价指标来调整M的数量和第二预测模型的所述预定权重。
5.一种关注度预测模型的训练装置,其特征在于,包括:
数据获取单元,被配置为获取多个作品的先前关注度数据和影响作品关注度的属性数据;
第一预测单元,被配置为将所述多个作品的先前关注度数据和属性数据作为特征输入第一预测模型,以获得每个作品的第一预测关注度值,并基于所述多个作品的第一预测关注度值和真实关注度值来调整第一预测模型的参数;
样本生成单元,被配置将所述多个作品中的每个作品的真实关注度值和第一预测关注度值组成样本对,以预定顺序将与所述多个作品对应的多个样本对分为M个组,并分别确定所述M个组的每个组中所有样本对的真实关注度值的均值和第一预测关注度值的均值,作为新的M个样本数据的第二真实关注度值和第二预测关注度值;
第二预测单元,被配置为将所述M个样本数据的每个样本数据的第二预测关注度值作为特征输入第二预测模型,以获得所述M个样本数据的每个样本数据的第三预测关注度值,并基于所述M个样本数据的每个样本数据的第三预测关注度值和第二真实关注度值来调整M的数值和第二关注度模型的参数。
6.一种关注度预测方法,其特征在于,包括:
获取作品的先前关注度数据和影响作品关注度的属性数据;
将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值;
将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测,
其中,所述第一预测模型和所述第二预测模型是根据如权利要求1-4中的任意一个权利要求的训练方法训练得到的。
7.如权利要求6所述的方法,其特征在于,响应于没有获取到所述作品的先前关注度数据和/或属性数据,则返回用于指示执行其他操作的默认标识值。
8.一种关注度预测装置,其特征在于,包括:
数据获取单元,被配置为获取作品的先前关注度数据和影响作品关注度的属性数据;
第一预测单元,被配置为将所述作品的先前关注度数据和属性数据作为特征输入第一预测模型以获得关于所述作品的第一关注度预测值;
第二预测单元,被配置为将第一关注度预测值输入第二预测模型以得到关于所述作品的第二关注度预测值,作为针对所述作品的关注度预测,
其中,所述第一预测模型和所述第二预测模型是根据如权利要求1-4中的任意一个权利要求的训练方法训练得到的。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-4中任意一个所述的关注度预测模型训练方法以及如权利要求6至7中任一项所述的关注度预测方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-4中任意一个所述的关注度预测模型训练方法以及如权利要求6至7中任一项所述的关注度预测方法。
CN202111614662.4A 2021-12-27 2021-12-27 预测作品的关注度的方法和装置 Pending CN114298403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111614662.4A CN114298403A (zh) 2021-12-27 2021-12-27 预测作品的关注度的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111614662.4A CN114298403A (zh) 2021-12-27 2021-12-27 预测作品的关注度的方法和装置

Publications (1)

Publication Number Publication Date
CN114298403A true CN114298403A (zh) 2022-04-08

Family

ID=80969277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111614662.4A Pending CN114298403A (zh) 2021-12-27 2021-12-27 预测作品的关注度的方法和装置

Country Status (1)

Country Link
CN (1) CN114298403A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819000A (zh) * 2022-06-29 2022-07-29 北京达佳互联信息技术有限公司 反馈信息预估模型训练方法、装置以及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819000A (zh) * 2022-06-29 2022-07-29 北京达佳互联信息技术有限公司 反馈信息预估模型训练方法、装置以及电子设备
CN114819000B (zh) * 2022-06-29 2022-10-21 北京达佳互联信息技术有限公司 反馈信息预估模型训练方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
CN110277106B (zh) 音频质量确定方法、装置、设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111291200B (zh) 多媒体资源展示方法、装置、计算机设备及存储介质
CN111078521A (zh) 异常事件的分析方法、装置、设备、系统及存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN111738365B (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN114154068A (zh) 媒体内容推荐方法、装置、电子设备及存储介质
CN111416996B (zh) 多媒体文件检测方法、播放方法、装置、设备及存储介质
CN111708944A (zh) 多媒体资源识别方法、装置、设备及存储介质
CN111263009B (zh) 电话录音的质检方法、装置、设备及介质
CN113792943B (zh) 一种群体决策方法和装置
CN111984803A (zh) 多媒体资源处理方法、装置、计算机设备及存储介质
CN110765182A (zh) 数据统计方法、装置、电子设备及存储介质
CN110166275B (zh) 信息处理方法、装置及存储介质
CN112699268A (zh) 训练评分模型的方法、设备及存储介质
CN114298403A (zh) 预测作品的关注度的方法和装置
CN112529871A (zh) 评价图像的方法、装置及计算机存储介质
CN111563201A (zh) 内容推送方法、装置、服务器及存储介质
CN113987326B (zh) 资源推荐方法、装置、计算机设备及介质
CN113377976B (zh) 资源搜索方法、装置、计算机设备及存储介质
CN111294253B (zh) 测试数据处理方法、装置、计算机设备及存储介质
CN113407774A (zh) 封面确定方法、装置、计算机设备及存储介质
CN114385854A (zh) 资源推荐方法、装置、电子设备及存储介质
CN114691860A (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN112949709A (zh) 图像数据标注方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination