CN111984899A - 多媒体数据的处理方法、装置、设备及存储介质 - Google Patents

多媒体数据的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111984899A
CN111984899A CN202010839669.5A CN202010839669A CN111984899A CN 111984899 A CN111984899 A CN 111984899A CN 202010839669 A CN202010839669 A CN 202010839669A CN 111984899 A CN111984899 A CN 111984899A
Authority
CN
China
Prior art keywords
information
multimedia data
data
batch
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010839669.5A
Other languages
English (en)
Inventor
施隽瑶
罗喆
马茗
郭君健
于冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010839669.5A priority Critical patent/CN111984899A/zh
Publication of CN111984899A publication Critical patent/CN111984899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开关于一种多媒体数据的处理方法、装置、设备及存储介质,所述方法包括:获取多媒体数据的特征信息,根据多媒体数据的特征信息判断多媒体数据是否会被批量下载,当判定多媒体数据会被批量下载时,对多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。本公开中,仅对预测出的会被批量下载的多媒体数据进行预处理,由于这类多媒体数据被大量下载的可能性较高,因此对这类多媒体数据进行预处理,可以有效降低用户体验到多媒体数据下载耗时长的概率。由于对多媒体数据进行选择性预处理,而并非对所有多媒体数据进行预处理,因此减少了处理资源的消耗量,从而达到处理资源消耗和多媒体数据下载耗时的平衡。

Description

多媒体数据的处理方法、装置、设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种多媒体数据的处理方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,越来越多的用户使用短视频应用程序观看视频等作品,用户在看到感兴趣的作品时,可以从视频服务器下载作品至用户设备。
当作品下载量较大时,由于服务器需要对要下载的作品进行一些处理且服务器资源有限,可能会导致用户需要等待的时间过长,如何降低作品下载等待时间并且不过度消耗服务器资源,是本领域技术人员亟待解决的技术问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种多媒体数据的处理方法、装置及系统。
根据本公开实施例的第一方面,提供一种多媒体数据的处理方法,所述方法包括:
获取所述多媒体数据的特征信息,所述特征信息包括所述多媒体数据的数据属性信息和/或所述多媒体数据发布账户的社交属性信息;
根据所述特征信息判断所述多媒体数据是否会被批量下载;
当判定所述多媒体数据会被批量下载时,对所述多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。
在一实施例中,所述对所述多媒体数据进行预处理,包括:
在所述多媒体数据中添加水印信息,其中,所述水印信息用于标识所述多媒体数据发布账户的信息。
在一实施例中,所述对所述多媒体数据进行预处理,包括:
将所述多媒体数据发送至内容分发节点,以供所述内容分发节点在接收到所述多媒体数据的下载请求时,发送所述多媒体数据。
在一实施例中,所述多媒体数据的数据属性信息包括以下至少一项:
所述多媒体数据的分辨率信息、所述多媒体数据的帧率信息、发布所述多媒体数据的客户端信息、所述多媒体数据的内容分类信息;
所述多媒体数据发布账户的社交属性信息包括以下至少一项:
所述发布账户的地理位置信息、所述发布账户的自然属性信息、所述发布账户的兴趣属性信息、所述发布账户的行为属性信息。
在一实施例中,所述根据所述特征信息判断所述多媒体数据是否会被批量下载,包括:
将所述特征信息输入到批量下载预测模型,得到所述批量下载预测模型输出的所述多媒体数据被批量下载的概率信息,当所述概率信息大于或等于预设阈值时,确定所述多媒体数据会被批量下载。
在一实施例中,所述批量下载预测模型通过以下方式训练得到:
获取多媒体样本数据集合,所述多媒体样本数据集合包括多个多媒体样本数据以及与每个多媒体样本数据对应的标签信息,所述标签信息用于表示所述多媒体样本数据是否被批量下载;
获取所述多媒体样本数据的特征信息,将获取的特征信息输入待训练的批量下载预测模型,以得到所述待训练的批量下载预测模型输出的多媒体样本数据的批量下载预测信息;
根据所述批量下载预测信息和所述标签信息,确定所述待训练的批量下载预测模型输出的预测信息的准确率,根据所述准确率信息调整所述待训练的批量下载预测模型的参数信息。
根据本公开实施例的第二方面,提供一种多媒体数据的处理装置,所述装置包括:
信息获取模块,被配置为获取所述多媒体数据的特征信息,所述特征信息包括所述多媒体数据的数据属性信息和/或所述多媒体数据发布账户的社交属性信息;
数据判断模块,被配置为根据所述特征信息判断所述多媒体数据是否会被批量下载;
数据预处理模块,被配置为当判定所述多媒体数据会被批量下载时,对所述多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。
在一实施例中,所述数据预处理模块,包括:
水印信息添加子模块,被配置为在所述多媒体数据中添加水印信息,其中,所述水印信息用于标识所述多媒体数据发布账户的信息。
在一实施例中,所述数据预处理模块,包括:
数据发送子模块,被配置为将所述多媒体数据发送至内容分发节点,以供所述内容分发节点在接收到所述多媒体数据的下载请求时,发送所述多媒体数据。
在一实施例中,所述多媒体数据的数据属性信息包括以下至少一项:
所述多媒体数据的分辨率信息、所述多媒体数据的帧率信息、发布所述多媒体数据的客户端信息、所述多媒体数据的内容分类信息;
所述多媒体数据发布账户的社交属性信息包括以下至少一项:
所述发布账户的地理位置信息、所述发布账户的自然属性信息、所述发布账户的兴趣属性信息、所述发布账户的行为属性信息。
在一实施例中,所述数据判断模块,被配置为将所述特征信息输入到批量下载预测模型,得到所述批量下载预测模型输出的所述多媒体数据被批量下载的概率信息,当所述概率信息大于或等于预设阈值时,确定所述多媒体数据会被批量下载。
在一实施例中,所述装置还包括:
集合获取模块,被配置为获取多媒体样本数据集合,所述多媒体样本数据集合包括多个多媒体样本数据以及与每个多媒体样本数据对应的标签信息,所述标签信息用于表示所述多媒体样本数据是否被批量下载;
特征信息获取模块,被配置为获取所述多媒体样本数据的特征信息,将获取的特征信息输入待训练的批量下载预测模型,以得到所述待训练的批量下载预测模型输出的多媒体样本数据的批量下载预测信息;
准确率确定模块,被配置为根据所述批量下载预测信息和所述标签信息,确定所述待训练的批量下载预测模型输出的预测信息的准确率;
参数信息调整模块,被配置为根据所述准确率信息调整所述待训练的批量下载预测模型的参数信息。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的多媒体数据的处理方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一项所述的多媒体数据的处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行时,使得所述电子设备能够执行第一方面以及第一方面的可能实现方式中任一项所述的多媒体数据的处理方法所执行的操作。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开获取多媒体数据的特征信息,根据多媒体数据的特征信息判断多媒体数据是否会被批量下载,当判定多媒体数据会被批量下载时,对多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。本公开中,仅对预测出的会被批量下载的多媒体数据进行预处理,由于这类多媒体数据被大量下载的可能性较高,因此对这类多媒体数据进行预处理,可以有效降低用户体验到多媒体数据下载耗时长的概率。由于对多媒体数据进行选择性预处理,而并非对所有多媒体数据进行预处理,因此减少了处理资源的消耗量,从而达到处理资源消耗和多媒体数据下载耗时的平衡。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多媒体数据的处理方法的流程图;
图2是根据一示例性实施例示出的一种批量下载预测模型的训练方法的流程图;
图3是根据一示例性实施例示出的一种多媒体数据的处理装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种多媒体数据的处理方法的流程图。如图1所示,多媒体数据的处理方法包括以下步骤S101-S103。
在步骤S101中,获取多媒体数据的特征信息,多媒体数据的特征信息包括多媒体数据的数据属性信息和/或多媒体数据发布账户的社交属性信息。
多媒体数据有多种,例如视频、音频、图像、文本等。
多媒体数据的数据属性信息有多种,例如,多媒体数据的数据属性信息包括以下至少一项:多媒体数据的分辨率信息、多媒体数据的帧率信息、发布多媒体数据的客户端信息、多媒体数据的内容分类信息。
其中,发布多媒体数据的客户端信息有多种,例如,客户端信息可以包括以下至少一项:客户端的型号、客户端所使用的系统种类、客户端的售价等。
多媒体数据发布账户的社交属性信息有多种,例如,多媒体数据发布账户的社交属性信息包括以下至少一项:发布账户的地理位置信息、发布账户的自然属性信息、发布账户的兴趣属性信息、发布账户的行为属性信息。
其中,发布账户的地理位置信息有多种,例如,发布账户的地理位置信息可以包括以下至少一项:所在的具体位置、常驻城市等。
发布账户的自然属性信息有多种,例如,发布账户的自然属性信息包括以下至少一项:发布者的性别、发布者的年龄、发布者的职业等。
发布账户的兴趣属性信息有多种,例如,发布者的兴趣爱好。
发布账户的行为属性信息有多种,例如,发布账户的行为属性信息包括以下至少一项:粉丝量、被点击量、播放量等。
在步骤S102中,根据多媒体数据的特征信息判断多媒体数据是否会被批量下载。
可以根据多媒体数据的特征信息确定多媒体数据被批量下载的概率信息,当多媒体数据被批量下载的概率信息满足预设概率条件时,如当多媒体数据被批量下载的概率大于预设的概率阈值时,确定多媒体数据会被批量下载。
在一个实施例中,存在训练好的批量下载预测模型,批量下载预测模型用于预测多媒体数据被批量下载的概率信息,批量下载预测模型的输入是多媒体数据的特征信息,批量下载预测模型的输出是多媒体数据被批量下载的概率信息。
在执行本步骤时,可以将多媒体数据的特征信息输入到批量下载预测模型,得到批量下载预测模型输出的多媒体数据被批量下载的概率信息,当概率信息大于或等于预设阈值时,确定多媒体数据会被批量下载。
在一个实施例中,预设阈值可以通过下面方式获得:
第一种方式:预先获取了多个概率阈值,在批量下载预测模型训练结束后,确定在使用各概率阈值时训练好的批量下载预测模型的召回率,基于多组概率阈值及其对应的召回率,建立召回率和概率阈值的关系曲线。
可以接收输入的召回率,确定关系曲线上接收的召回率对应的概率阈值,将关系曲线上接收的召回率对应的概率阈值确定为预设阈值。
本方式中,可以根据需求,根据待生成的包括水印信息的多媒体数据的数量,对预设阈值进行动态调整。
第二种方式:获取参考信息,使用批量下载预测模型预测多媒体测试数据集合中各多媒体测试数据被批量下载的概率,根据参考信息和预测出的各多媒体测试数据被批量下载的概率,确定目标概率阈值,参考信息可以包括以下至少一项:能够进行水印处理的设备的资源信息、业务信息,业务信息可以包括:待生成的包括水印信息的多媒体数据的数量。
例如,在参考信息包括能够进行水印处理的设备的资源信息的情况下,根据参考信息,确定数量N,N为能够进行水印处理的设备的最大数量,按照预测的概率从大到小的顺序,对多媒体测试数据集合中的多个多媒体测试数据进行排序,确定排序为N的多媒体测试数据对应的概率,将排序为N的多媒体测试数据对应的概率确定为预设阈值。
本方式中,当能够进行水印处理的设备资源发生变化时,可以根据当前可用的设备资源,对预设阈值进行动态调整。
在一个实施例中,批量下载预测模型可以是分类模型,如支持向量机(supportvector machine,SVM)模型、随机森林(random forest)模型、梯度提升决策树(gradientboosting decision tree,GBDT)模型等。可以对上述的多种分类模型进行训练和测试,从中选出拟合效果好的分类模型使用。
在步骤S103中,当判定多媒体数据会被批量下载时,对多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。
在一个实施例中,当判定多媒体数据会被批量下载时,可以在多媒体数据中添加水印信息,其中,水印信息用于标识多媒体数据发布账户的信息。
在一个实施例中,当判定多媒体数据会被批量下载时,可以将多媒体数据发送至内容分发节点,以供内容分发节点在接收到多媒体数据的下载请求时,发送多媒体数据。
例如,在判定多媒体数据会被批量下载后,直接将多媒体数据发送至内容分发节点,由内容分发节点在多媒体数据中添加水印信息。
又如,在判定多媒体数据会被批量下载后,在多媒体数据中添加水印信息,将添加了水印信息的多媒体数据发送给内容分发节点。
在一个实施例中,本公开实施例提供的多媒体数据的处理方法可以应用于CDN(Content Delivery Network,内容分发网络)网络系统中的源站。
CDN网络系统还包括内容分发节点即CDN节点。源站在预测出会被批量下载的多媒体数据后,可以在预测出的会被批量下载的多媒体数据中添加水印信息,进一步,还可以将添加了水印信息的多媒体数据发送至CDN节点。或者,源站在预测出会被批量下载的多媒体数据后,可以直接将预测出的会被批量下载的多媒体数据发送至CDN节点,由CDN节点在多媒体数据中添加水印信息。
本公开实施例对预测出的会被批量下载的多媒体数据进行预热,在处理资源有限的情况下,能够高效利用处理资源,用较少的处理资源,实现下载耗时的较大降低。
本公开获取多媒体数据的特征信息,根据多媒体数据的特征信息判断多媒体数据是否会被批量下载,当判定多媒体数据会被批量下载时,对多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。本公开中,仅对预测出的会被批量下载的多媒体数据进行预处理,由于这类多媒体数据被大量下载的可能性较高,因此对这类多媒体数据进行预处理,可以有效降低用户体验到多媒体数据下载耗时长的概率。由于对多媒体数据进行选择性预处理,而并非对所有多媒体数据进行预处理,因此减少了处理资源的消耗量,从而达到处理资源消耗和多媒体数据下载耗时的平衡。
图2是根据一示例性实施例示出的一种批量下载预测模型的训练方法的流程图。如图2所示,批量下载预测模型的训练方法包括以下步骤S101-S103。
在步骤S201中,获取多媒体样本数据集合,多媒体样本数据集合包括多个多媒体样本数据以及与每个多媒体样本数据对应的标签信息,与多媒体样本数据对应的标签信息用于表示多媒体样本数据是否被批量下载。
在一个实施例中,可以通过下面方式获取多媒体样本数据集合:统计一段时间内(如一天、一周或一个月等)多媒体数据被下载的次数,并确定统计的次数是否大于或等于设定次数,如果统计的次数大于或等于设定次数,则判定在这一段时间内多媒体数据被批量下载,给该多媒体数据配置标签信息,标签信息指示该多媒体数据被批量下载,如果统计的次数小于设定次数,则判定在这一段时间内该多媒体数据未被批量下载,给该多媒体数据配置标签信息,标签信息指示该多媒体数据未被批量下载,将配置了标签信息的多媒体数据作为多媒体样本数据。
标签信息的形式有多种,例如,标签可以是1或0,其中,1表示多媒体样本数据被批量下载,0表示多媒体数据未被批量下载。
在一个实施例中,使用多媒体样本数据集合对批量下载预测模型进行训练,多媒体样本数据集合包括的多媒体样本数据的数量越多,批量下载预测模型的训练效果越好。在使用多媒体样本数据集合对批量下载预测模型进行训练之前,可以对存在异常的多媒体样本数据进行处理,以保证使用模型的训练效果。
例如,当一个多媒体样本数据携带的标签信息缺失时,可以舍去该多媒体样本数据,使用正常的多媒体样本数据进行模型训练,或者,可以对多个多媒体样本数据的标签信息进行统计,确定出现次数最高的标签信息,给缺失标签信息的多媒体样本数据配置出现次数最高的标签信息。
又如,当一个多媒体样本数据携带的标签信息异常时,可以参照上个例子中的处理方法,舍去该多媒体样本数据,或者,给该多媒体样本数据新配置一标签信息。
在步骤S202中,获取多媒体样本数据的特征信息,将多媒体样本数据的特征信息输入待训练的批量下载预测模型,以得到待训练的批量下载预测模型输出的多媒体样本数据的批量下载预测信息。
在一个实施例中,批量下载预测模型可以输出多媒体样本数据被批量下载的概率信息。
在步骤S203中,根据批量下载预测模型输出的多媒体样本数据的批量下载预测信息和与该多媒体样本数据对应的标签信息,确定待训练的批量下载预测模型输出的预测信息的准确率,根据确定的准确率调整待训练的批量下载预测模型的参数信息。
在一个实施例中,可以判断批量下载预测模型输出的多媒体样本数据被批量下载的概率信息是否大于或等于预设阈值,若概率信息大于或等于预设阈值,则确定多媒体样本数据会被批量下载,若概率信息小于预设阈值,则确定多媒体样本数据不会被批量下载。
当根据批量下载预测信息确定的信息与多媒体样本数据的标签信息一致时,确定待训练的批量下载预测模型输出的预测信息准确;当根据批量下载预测信息确定的信息与多媒体样本数据的标签信息不一致时,确定待训练的批量下载预测模型输出的预测信息不准确。
在一个实施例中,调整待训练的批量下载预测模型的参数信息的方式有多种。例如,可以根据确定的准确率调整待训练的批量下载预测模型的参数信息,直至准确率大于预设的准确率阈值时,将调整后的批量下载预测模型作为训练好的批量下载预测模型。又如,可以根据确定的准确率调整待训练的批量下载预测模型的参数信息,直至调整次数达到预设次数时,将调整后的批量下载预测模型作为训练好的批量下载预测模型。
在一个实施例中,在批量下载预测模型训练结束后,还可以执行以下操作:
第一步骤:获取多媒体训练数据集合和多媒体测试数据集合。
多媒体训练数据集合包括多个多媒体训练数据以及与每个多媒体训练数据对应的标签信息,与多媒体训练数据对应的标签信息用于表示多媒体训练数据是否被批量下载。
多媒体测试数据集合包括多个多媒体测试数据以及与每个多媒体测试数据对应的标签信息,与多媒体测试数据对应的标签信息用于表示多媒体训练数据是否被批量下载。
多媒体训练数据集合可以是上述的多媒体样本数据集合,或者,多媒体训练数据集合可以是另外获取的集合。
第二步骤:针对每个多媒体训练数据,获取多媒体训练数据的特征信息,将多媒体训练数据的特征信息输入训练后的批量下载预测模型,以得到训练后的批量下载预测模型输出的多媒体训练数据的批量下载预测信息,根据各多媒体训练数据的批量下载预测信息、预设的一组概率阈值和各多媒体训练数据对应的标签信息,确定训练后的批量下载预测模型的第一预测结果准确度信息。
批量下载预测模型输出的多媒体训练数据的批量下载预测信息包括:多媒体训练数据被批量下载的概率信息。
第一预测结果准确度信息有多种,例如,准确度、AUC(即ROC曲线下方的面积)。准确度有多种,例如,准确度可以由F1分数(又称F1 Score)表示,模型的F1分数可以理解为模型的精确率和召回率的调和平均数,F1分数越大说明模型的预测结果越准确。
当第一预测结果准确度信息包括准确度时,可以通过下面方式确定批量下载预测模型的第一预测结果准确度信息:针对一组概率阈值中的每个概率阈值,根据训练后的批量下载预测模型输出的各多媒体训练数据被批量下载的概率信息与该概率阈值的比较结果,以及根据各多媒体训练数据的标签信息,确定使用该概率阈值时训练后的批量下载预测模型输出的预测信息的准确度(下称第一准确度);从确定的一组第一准确度中确定出最大第一准确度,将最大第一准确度确定为第一预测结果准确度信息,或者,生成包括最大第一准确度的第一预测结果准确度信息。
可以通过上述方法确定批量下载预测模型的F1 Score。
当第一预测结果准确度信息包括AUC时,可以通过下面方式确定批量下载预测模型的第一预测结果准确度信息:针对一组概率阈值中的每个概率阈值,根据训练后的批量下载预测模型输出的各多媒体训练数据被批量下载的概率信息和该概率阈值的比较结果,以及根据各多媒体训练数据的标签信息,确定该概率阈值对应的第一比例和第二比例,根据各个概率阈值对应的第一比例和第二比例,获得批量下载预测模型对应的受试者工作特征ROC曲线(下称第一ROC曲线),确定第一ROC曲线下方的面积大小,从而确定出批量下载预测模型的AUC。
可以将每个概率阈值对应的第一比例和第二比例作为一坐标点,根据不同概率阈值对应的多个坐标点绘制第一ROC曲线。
其中,第一比例是多媒体数据训练集合中的负样本被批量下载预测模型预测为正样本的个数与负样本总数的比例,第二比例是多媒体数据训练集合中的正样本被批量下载预测模型预测为正样本的个数与正样本总数的比例;
正样本为被批量下载预测模型预测为会被批量下载且实际上被批量下载的样本,负样本为被批量下载预测模型预测为会被批量下载而实际上未被批量下载的样本。
通常AUC越大表明模型的预测结果越准确。
第三步骤:针对每个多媒体测试数据,获取多媒体测试数据的特征信息,将多媒体测试数据的特征信息输入训练后的批量下载预测模型,以得到批量下载预测模型输出的多媒体测试数据的批量下载预测信息,根据各多媒体测试数据的批量下载预测信息、预设的一组概率阈值和各多媒体测试数据对应的标签信息,确定训练后的批量下载预测模型的第二预测结果准确度信息。
第三步骤中使用的一组概率阈值与第二步骤中使用的一组概率阈值相同。
第二预测结果准确度信息有多种,例如,准确度(如F1-Score)、AUC(即ROC曲线下方的面积)。
当第二预测结果准确度信息包括准确度时,可以通过下面方式确定批量下载预测模型的第二预测结果准确度信息:针对一组概率阈值中的每个概率阈值,根据练后的批量下载预测模型输出的各多媒体测试数据被批量下载的概率信息与该概率阈值的比较结果,以及根据各多媒体测试数据的标签信息,确定使用该概率阈值时训练后的批量下载预测模型输出的预测信息的准确度(下称第二准确度);从确定的一组第二准确度中确定出最大第二准确度,将最大第二准确度确定为第二预测结果准确度信息,或者,生成包括最大第二准确度的第二预测结果准确度信息。
可以通过上述方法确定批量下载预测模型的F1 Score。
当第二预测结果准确度信息包括AUC时,可以通过下面方式确定批量下载预测模型的第二预测结果准确度信息:针对一组概率阈值中的每个概率阈值,根据批量下载预测模型输出的各多媒体测试数据被批量下载的概率信息和该概率阈值的比较结果,以及根据各多媒体测试数据的标签信息,确定每个概率阈值对应的第三比例和第四比例,根据各个概率阈值对应的第三比例和第四比例,获得批量下载预测模型对应的受试者工作特征ROC曲线(下称第二ROC曲线),确定第二ROC曲线下方的面积大小,从而确定出批量下载预测模型的AUC。
可以将每个概率阈值对应的第三比例和第四比例作为一坐标点,根据不同概率阈值对应的多个坐标点绘制第二ROC曲线。
其中,第三比例是多媒体数据测试集合中的负样本被批量下载预测模型预测为正样本的个数与负样本总数的比例,第四比例是多媒体数据测试集合中的正样本被批量下载预测模型预测为正样本的个数与正样本总数的比例;
正样本为被批量下载预测模型预测为会被批量下载且实际上被批量下载的样本,负样本为被批量下载预测模型预测为会被批量下载而实际上未被批量下载的样本。
第四步骤:根据第一预测结果准确度信息和第二预测结果准确度信息之间的差异,调整训练后的批量下载预测模型的参数信息。
图3是根据一示例性实施例示出的一种多媒体数据的处理装置的框图。如图3所示,该装置包括:信息获取模块31、数据判断模块32和数据预处理模块33;其中,
所述信息获取模块31,被配置为获取所述多媒体数据的特征信息,所述特征信息包括所述多媒体数据的数据属性信息和/或所述多媒体数据发布账户的社交属性信息;
所述数据判断模块32,被配置为根据所述特征信息判断所述多媒体数据是否会被批量下载;
所述数据预处理模块33,被配置为当判定所述多媒体数据会被批量下载时,对所述多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。
在一实施例中,所述数据预处理模块33,可以包括:水印信息添加子模块;
所述水印信息添加子模块,被配置为在所述多媒体数据中添加水印信息,其中,所述水印信息用于标识所述多媒体数据发布账户的信息。
在一实施例中,所述数据预处理模块33,可以包括:数据发送子模块;
所述数据发送子模块,被配置为将所述多媒体数据发送至内容分发节点,以供所述内容分发节点在接收到所述多媒体数据的下载请求时,发送所述多媒体数据。
在一实施例中,所述多媒体数据的数据属性信息可以包括以下至少一项:
所述多媒体数据的分辨率信息、所述多媒体数据的帧率信息、发布所述多媒体数据的客户端信息、所述多媒体数据的内容分类信息;
所述多媒体数据发布账户的社交属性信息包括以下至少一项:
所述发布账户的地理位置信息、所述发布账户的自然属性信息、所述发布账户的兴趣属性信息、所述发布账户的行为属性信息。
在一实施例中,所述数据判断模块32,可以被配置为将所述特征信息输入到批量下载预测模型,得到所述批量下载预测模型输出的所述多媒体数据被批量下载的概率信息,当所述概率信息大于或等于预设阈值时,确定所述多媒体数据会被批量下载。
在一实施例中,所述装置还可以包括:集合获取模块、特征信息获取模块、准确率确定模块和参数信息调整模块;其中,
所述集合获取模块,被配置为获取多媒体样本数据集合,所述多媒体样本数据集合包括多个多媒体样本数据以及与每个多媒体样本数据对应的标签信息,所述标签信息用于表示所述多媒体样本数据是否被批量下载;
所述特征信息获取模块,被配置为获取所述多媒体样本数据的特征信息,将获取的特征信息输入待训练的批量下载预测模型,以得到所述待训练的批量下载预测模型输出的多媒体样本数据的批量下载预测信息;
所述准确率确定模块,被配置为根据所述批量下载预测信息和所述标签信息,确定所述待训练的批量下载预测模型输出的预测信息的准确率;
所述参数信息调整模块,被配置为根据所述准确率信息调整所述待训练的批量下载预测模型的参数信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
值得说明的是,上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本公开的多媒体数据的处理装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的,其中计算机程序用于执行上述图1和图2所示实施例提供的多媒体数据的处理方法。从硬件层面而言,如图4所示,为本公开的电子设备的硬件结构图,除了图4所示的处理器、网络接口、内存以及非易失性存储器之外,所述电子设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
另一方面,本公开还提供了一种计算机可读存储介质,当该存储介质中存储的计算机程序由电子设备的处理器执行时,使得电子设备能够执行上述图1和图2所示实施例提供的多媒体数据的处理方法。
另一方面,本公开还提供了一种计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行时,使得电子设备能够执行上述图1和图2所示实施例提供的多媒体数据的处理方法。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种多媒体数据的处理方法,其特征在于,包括:
获取所述多媒体数据的特征信息,所述特征信息包括所述多媒体数据的数据属性信息和/或所述多媒体数据发布账户的社交属性信息;
根据所述特征信息判断所述多媒体数据是否会被批量下载;
当判定所述多媒体数据会被批量下载时,对所述多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述多媒体数据进行预处理,包括:
在所述多媒体数据中添加水印信息,其中,所述水印信息用于标识所述多媒体数据发布账户的信息。
3.根据权利要求1或2的方法,其特征在于,所述对所述多媒体数据进行预处理,包括:
将所述多媒体数据发送至内容分发节点,以供所述内容分发节点在接收到所述多媒体数据的下载请求时,发送所述多媒体数据。
4.根据权利要求1所述的方法,其特征在于,所述多媒体数据的数据属性信息包括以下至少一项:
所述多媒体数据的分辨率信息、所述多媒体数据的帧率信息、发布所述多媒体数据的客户端信息、所述多媒体数据的内容分类信息;
所述多媒体数据发布账户的社交属性信息包括以下至少一项:
所述发布账户的地理位置信息、所述发布账户的自然属性信息、所述发布账户的兴趣属性信息、所述发布账户的行为属性信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述特征信息判断所述多媒体数据是否会被批量下载,包括:
将所述特征信息输入到批量下载预测模型,得到所述批量下载预测模型输出的所述多媒体数据被批量下载的概率信息,当所述概率信息大于或等于预设阈值时,确定所述多媒体数据会被批量下载。
6.根据权利要求5所述的方法,其特征在于,所述批量下载预测模型通过以下方式训练得到:
获取多媒体样本数据集合,所述多媒体样本数据集合包括多个多媒体样本数据以及与每个多媒体样本数据对应的标签信息,所述标签信息用于表示所述多媒体样本数据是否被批量下载;
获取所述多媒体样本数据的特征信息,将获取的特征信息输入待训练的批量下载预测模型,以得到所述待训练的批量下载预测模型输出的多媒体样本数据的批量下载预测信息;
根据所述批量下载预测信息和所述标签信息,确定所述待训练的批量下载预测模型输出的预测信息的准确率,根据所述准确率信息调整所述待训练的批量下载预测模型的参数信息。
7.一种多媒体数据的处理装置,其特征在于,所述装置包括:
信息获取模块,被配置为获取所述多媒体数据的特征信息,所述特征信息包括所述多媒体数据的数据属性信息和/或所述多媒体数据发布账户的社交属性信息;
数据判断模块,被配置为根据所述特征信息判断所述多媒体数据是否会被批量下载;
数据预处理模块,被配置为当判定所述多媒体数据会被批量下载时,对所述多媒体数据进行预处理,以得到符合批量下载数据条件的目标多媒体数据。
8.根据权利要求7所述的装置,其特征在于,所述数据预处理模块,包括:
水印信息添加子模块,被配置为在所述多媒体数据中添加水印信息,其中,所述水印信息用于标识所述多媒体数据发布账户的信息。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的多媒体数据的处理方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的多媒体数据的处理方法。
CN202010839669.5A 2020-08-19 2020-08-19 多媒体数据的处理方法、装置、设备及存储介质 Pending CN111984899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010839669.5A CN111984899A (zh) 2020-08-19 2020-08-19 多媒体数据的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010839669.5A CN111984899A (zh) 2020-08-19 2020-08-19 多媒体数据的处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111984899A true CN111984899A (zh) 2020-11-24

Family

ID=73435184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010839669.5A Pending CN111984899A (zh) 2020-08-19 2020-08-19 多媒体数据的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111984899A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571839A (zh) * 2010-12-15 2012-07-11 北京邮电大学 基于用户社会属性的p2p内容分发方法及系统
CN104796449A (zh) * 2014-01-22 2015-07-22 腾讯科技(深圳)有限公司 内容分发方法、装置及设备
CN104850434A (zh) * 2015-04-30 2015-08-19 腾讯科技(深圳)有限公司 多媒体资源下载方法及装置
CN108268232A (zh) * 2018-02-09 2018-07-10 腾讯数码(天津)有限公司 一种图片显示方法、装置、系统和存储介质
CN109509010A (zh) * 2017-09-15 2019-03-22 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
CN111125388A (zh) * 2019-12-30 2020-05-08 北京达佳互联信息技术有限公司 多媒体资源的检测方法、装置及设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571839A (zh) * 2010-12-15 2012-07-11 北京邮电大学 基于用户社会属性的p2p内容分发方法及系统
CN104796449A (zh) * 2014-01-22 2015-07-22 腾讯科技(深圳)有限公司 内容分发方法、装置及设备
CN104850434A (zh) * 2015-04-30 2015-08-19 腾讯科技(深圳)有限公司 多媒体资源下载方法及装置
CN109509010A (zh) * 2017-09-15 2019-03-22 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
CN108268232A (zh) * 2018-02-09 2018-07-10 腾讯数码(天津)有限公司 一种图片显示方法、装置、系统和存储介质
CN111125388A (zh) * 2019-12-30 2020-05-08 北京达佳互联信息技术有限公司 多媒体资源的检测方法、装置及设备和存储介质

Similar Documents

Publication Publication Date Title
CN110458220B (zh) 人群定向方法、装置、服务器及存储介质
CN107885796B (zh) 信息推荐方法及装置、设备
CN111125574B (zh) 用于生成信息的方法和装置
CN107426328B (zh) 信息推送方法和装置
CN110245069B (zh) 页面版本的测试方法和装置、页面的展示方法和装置
CN112262386B (zh) 数据处理装置执行的方法、内容分析系统和计算机存储介质
CN112104505B (zh) 应用推荐方法、装置、服务器和计算机可读存储介质
CN112241327A (zh) 分享信息处理方法、装置、存储介质与电子设备
CN112733023A (zh) 资讯推送方法、装置、电子设备及计算机可读存储介质
CN113205362A (zh) 确定推广方的方法、装置、设备、存储介质和程序产品
CN114398560B (zh) 基于web平台的营销界面设置方法、装置、设备及介质
CN113127723B (zh) 用户画像处理方法、装置、服务器及存储介质
CN110245684B (zh) 数据处理方法、电子设备和介质
CN110020108B (zh) 网络资源推荐方法、装置、计算机设备及存储介质
CN106817296B (zh) 信息推荐的测试方法、装置以及电子设备
CN112132609A (zh) 一种推广效果的校验方法、装置及存储介质
CN112749327A (zh) 内容推送方法和装置
CN111984899A (zh) 多媒体数据的处理方法、装置、设备及存储介质
CN114238777B (zh) 基于行为分析的负反馈流量分配方法、装置、设备及介质
CN115080835A (zh) 信息推荐方法、装置、用户端及设备
US10110535B1 (en) Methods for paid placement of promotional e-mail messages
CN109033343B (zh) 用于生成信息的方法和装置
CN113269577A (zh) 数据获取方法、装置、服务器及存储介质
CN112565904A (zh) 视频片段推送方法、装置、服务器以及存储介质
CN109064216B (zh) 一种模拟广告订单的曝光量的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination