CN114417028A - 媒体数据确定方法、装置、电子设备及存储介质 - Google Patents

媒体数据确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114417028A
CN114417028A CN202210021045.1A CN202210021045A CN114417028A CN 114417028 A CN114417028 A CN 114417028A CN 202210021045 A CN202210021045 A CN 202210021045A CN 114417028 A CN114417028 A CN 114417028A
Authority
CN
China
Prior art keywords
media data
target
data
media
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210021045.1A
Other languages
English (en)
Inventor
李宽
李云锴
丁文奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202210021045.1A priority Critical patent/CN114417028A/zh
Publication of CN114417028A publication Critical patent/CN114417028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种媒体数据确定方法、装置、电子设备及存储介质,该方法包括:获取第一媒体数据集合和第二媒体数据集合,第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,第二媒体数据集合包括多个第二媒体数据,第二媒体数据携带有用户行为数据;确定第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据;根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据;将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据确定为目标数据集合。本公开保证了确定的媒体数据的丰富性,解决了确定媒体数据的数据源单一的问题。

Description

媒体数据确定方法、装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种媒体数据确定方法、装置、电子设备及存储介质。
背景技术
随着近几年互联网和视频等媒体应用程序的迅速发展,媒体数据的消费需求日新月异,在站内可以较好地进行个性化、定制化的媒体数据获取与推荐,以满足用户的需求。
但是,在特定的需求场景下,例如推广媒体应用程序时,无法针对某个用户进行个性化的推荐,只能基于已有的媒体数据确定相似的媒体数据,确定媒体数据的数据源较为单一。
发明内容
本公开提供一种媒体数据确定方法、装置、电子设备及存储介质,以至少解决相关技术中确定媒体数据的数据源单一的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种媒体数据确定方法,包括:
获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据;
确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,所述第三媒体数据是满足预设条件的媒体数据;
根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,所述目标动态指标特征用于表征获取的第二目标媒体数据所对应的动态指标特征,所述动态指标特征是与用户行为数据相关联的特征;
将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合。
可选的,确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,包括:
对所述第一媒体数据集合中的第一媒体数据进行特征提取,得到第一媒体数据特征;
根据所述第一媒体数据特征,在检索库中进行检索,其中,所述检索库包括所述第三媒体数据所对应的第三媒体数据特征;
若所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征,则确定所述第一媒体数据为所述第一目标媒体数据。
可选的,根据所述第一媒体数据特征,在检索库中进行检索,包括:
确定所述第一媒体数据特征与所述检索库中每个第三媒体数据特征的第一相似度;
若存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征。
可选的,在根据所述第一媒体数据特征,在检索库中进行检索之前,还包括:
分别对所述媒体数据库中的第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征;
根据所述每个第三媒体数据对应的第三媒体数据特征,构建所述检索库。
可选的,根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,包括:
获取所述第二媒体数据集合中第二媒体数据的用户行为数据,并获取所述目标动态指标特征所对应的目标动态指标特征向量;
根据所述第二媒体数据的用户行为数据,确定所述第二媒体数据的动态指标特征向量;
确定所述动态指标特征向量与所述目标动态指标特征向量的第二相似度;
若所述第二相似度大于或等于第二相似度阈值,则确定所述第二媒体数据为所述第二目标媒体数据。
可选的,将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合,包括:
将所述第一目标媒体数据和所述第二目标媒体数据发送至人工审核系统,并获取人工审核结果;
将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至所述媒体数据库;
将所述媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及所述第三媒体数据,确定为所述目标数据集合。
可选的,将所述目标数据集合展示到目标应用程序的界面中。
根据本公开实施例的第二方面,提供一种媒体数据确定装置,包括:
数据集合获取模块,被配置为执行获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据;
第一目标数据确定模块,被配置为执行确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,所述第三媒体数据是满足预设条件的媒体数据;
第二目标数据获取模块,被配置为执行根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,所述目标动态指标特征用于表征获取的第二目标媒体数据所对应的动态指标特征,所述动态指标特征是与用户行为数据相关联的特征;
目标数据集合确定模块,被配置为执行将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合。
可选的,所述第一目标数据确定模块包括:
特征提取单元,被配置为执行对所述第一媒体数据集合中的第一媒体数据进行特征提取,得到第一媒体数据特征;
检索单元,被配置为执行根据所述第一媒体数据特征,在检索库中进行检索,其中,所述检索库包括所述第三媒体数据所对应的第三媒体数据特征;
第一目标数据确定单元,被配置为执行若所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征,则确定所述第一媒体数据为所述第一目标媒体数据。
可选的,所述检索单元被配置为执行:
确定所述第一媒体数据特征与所述检索库中每个第三媒体数据特征的第一相似度;
若存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征。
可选的,所述装置还包括:
种子数据特征提取模块,被配置为执行分别对所述媒体数据库中的第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征;
检索库构建模块,被配置为执行根据所述每个第三媒体数据对应的第三媒体数据特征,构建所述检索库。
可选的,所述第二目标数据获取模块包括:
用户行为数据获取单元,被配置为执行获取所述第二媒体数据集合中第二媒体数据的用户行为数据,并获取所述目标动态指标特征所对应的目标动态指标特征向量;
动态特征向量确定单元,被配置为执行根据所述第二媒体数据的用户行为数据,确定所述第二媒体数据的动态指标特征向量;
相似度确定单元,被配置为执行确定所述动态指标特征向量与所述目标动态指标特征向量的第二相似度;
第二目标数据确定单元,被配置为执行若所述第二相似度大于或等于第二相似度阈值,则确定所述第二媒体数据为所述第二目标媒体数据。
可选的,所述召回数据集合确定模块包括:
人工审核单元,被配置为执行将所述第一目标媒体数据和所述第二目标媒体数据发送至人工审核系统,并获取人工审核结果;
种子库数据添加单元,被配置为执行将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至所述媒体数据库;
目标数据集合确定单元,被配置为执行将所述媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及所述第三媒体数据,确定为所述目标数据集合。
可选的,所述装置还包括:
数据展示模块,用于将所述目标数据集合展示到目标应用程序的界面中。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的媒体数据确定方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的媒体数据确定方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现第一方面所述的媒体数据确定方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过获取第一媒体数据集合和第二媒体数据集合,确定第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,并根据第二媒体数据的用户行为数据获取第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,将第一目标媒体数据和第二目标媒体数据以及媒体数据库中的第三媒体数据确定为目标数据集合,由于使用了媒体数据本身的特征来确定第一目标媒体数据,并使用媒体数据的动态特征来确定第二目标媒体数据,保证了确定的媒体数据的丰富性,解决了确定媒体数据的数据源单一的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种媒体数据确定方法的流程图;
图2是根据一示例性实施例示出的一种媒体数据确定方法的流程图;
图3是本公开实施例中的媒体数据确定方法的实现示意图;
图4是根据一示例性实施例示出的一种媒体数据确定装置的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种媒体数据确定方法的流程图,如图1所示,该媒体数据确定方法用于服务器等电子设备中,包括以下步骤。
在步骤S11中,获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据。
其中,第一媒体数据集合中可以包括一个或多个第一媒体数据,每个第一媒体数据均是预设时间内接收到的媒体数据,是未展示过的媒体数据,均不具有用户行为数据,第一媒体数据也就是是新上传的媒体数据,还没有用户行为数据(例如浏览行为、转发行为等)。第二媒体数据集合中可以包括一个或多个第二媒体数据,每个第二媒体数据均携带有用户行为数据,也就是每个第二媒体数据均被用户浏览过。第一媒体数据和第二媒体数据可以是视频、图片、音频等。
该媒体数据确定方法可以定时触发,也可以根据指令触发,在到达定时时间时或者接收到数据确定指令时,获取不具有用户行为数据的第一媒体数据所组成的第一媒体数据集合以及携带有用户行为数据的第二媒体数据所组成的第二媒体数据集合。
在步骤S12中,确定所述第一媒体数据集合中与媒体数据库中的媒体数据相匹配的第一目标媒体数据,所述第三媒体数据是满足预设条件的媒体数据。
其中,所述媒体数据库包括多个第三媒体数据,媒体数据库可以基于历史和人工的先验知识进行构建,包含了用户感兴趣的丰富的媒体数据,包含的第三媒体数据具有多样性,可以满足不同用户的需求。
在媒体数据刚生产完成时,还无法获取到媒体数据的消费表现,可以通过静态特征来挖掘相似的媒体数据。静态特征是媒体数据的固有特征,不会随着时间的推移而发生变化。
将第一媒体数据集合中的每个第一媒体数据分别与媒体数据库中的第三媒体数据进行匹配,获取第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一媒体数据,将这些第一媒体数据确定为第一目标媒体数据。
在一个示例性实施例中,确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,包括:对所述第一媒体数据集合中的第一媒体数据进行特征提取,得到第一媒体数据特征;根据所述第一媒体数据特征,在检索库中进行检索,其中,所述检索库包括所述第三媒体数据所对应的第三媒体数据特征;若所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征,则确定所述第一媒体数据为所述第一目标媒体数据。
可以使用已有的自监督模型或强监督模型(如提取音乐特征、图像特征、文本特征等的模型)来提取媒体数据的静态特征,即使用该自监督模型或强监督模型来对第一媒体数据集合中的每个第一媒体数据进行特征提取,得到每个第一媒体数据的第一媒体数据特征,在检索库中检索所述第一媒体数据特征,如果检索库中存在与第一媒体数据特征相匹配的第三媒体数据特征,则将该第一媒体数据特征所对应的第一媒体数据确定为第一目标媒体数据,如果检索库中不存在与第一媒体数据特征相匹配的第三媒体数据特征,则丢弃该第一媒体数据特征所对应的第一媒体数据。
通过提取第一媒体数据集合中的第一媒体数据的第一媒体数据特征,并将第一媒体数据特征与媒体数据库中的第三媒体数据的特征进行匹配,保证确定与第三媒体数据相似的第一媒体数据,由于媒体数据库中的第三媒体数据是用户感兴趣的媒体数据,从而召回的第一媒体数据也能满足用户的需求,而且媒体数据库中的第三媒体数据是面向大部分用户的,具有多样性,从而召回的第一媒体数据也具有多样性。
在一个示例性实施例中,根据所述第一媒体数据特征,在检索库中进行检索,包括:确定所述第一媒体数据特征与所述检索库中每个第三媒体数据特征的第一相似度;若存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征。
计算第一媒体数据特征与检索库中每个第三媒体数据特征的第一相似度,如果检索库中存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定第一媒体数据特征与该第三媒体数据特征相匹配,即检索库中存在与第一媒体数据特征相匹配的第三媒体数据特征,如果检索库中不存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定检索库中不存在与第一媒体数据特征相匹配的第三媒体数据特征。通过基于第一媒体数据特征与检索库中第三媒体数据特征的第一相似度是否大于第一相似度阈值,来确定检索库中是否存在与第一媒体数据特征相匹配的第三媒体数据特征,可以提高媒体数据匹配的准确性,保证确定的第一目标媒体数据与媒体数据库中的第三媒体数据相似。
在步骤S13中,根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,所述目标动态指标特征用于表征获取的第二目标媒体数据所对应的动态指标特征,所述动态指标特征是与用户行为数据相关联的特征。
其中,目标动态指标特征的数量可以是多个,以确定具有多种动态指标特征的第二目标媒体数据,满足不同用户的需求。动态特征是会随着时间的推移发生变化的特征。
基于第二媒体数据集合中每个第二媒体数据的用户行为数据,确定每个第二媒体数据的动态指标特征,将具有目标动态指标特征的第二媒体数据确定为第二目标媒体数据。其中,目标动态指标特征例如可以是用户下载多的媒体数据、分享多的媒体数据等等。
在一个示例性实施例中,根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,包括:获取所述第二媒体数据集合中第二媒体数据的用户行为数据,并获取所述目标动态指标特征所对应的目标动态指标特征向量;根据所述第二媒体数据的用户行为数据,确定所述第二媒体数据的动态指标特征向量;确定所述动态指标特征向量与所述目标动态指标特征向量的第二相似度;若所述第二相似度大于或等于第二相似度阈值,则确定所述第二媒体数据为所述第二目标媒体数据。
首先可以收集生产后投入到当前的媒体数据平台的媒体数据所对应的用户行为数据,并基于这些用户行为数据在媒体数据平台的各种消费动态指标特征来训练机器学习模型,使得机器学习模型可以获取到能够区分不同动态指标特征的动态指标特征向量。在机器学习模型训练完成后可以来确定具有不同动态指标特征的媒体数据所对应的动态指标特征向量,即得到不同动态指标特征所对应的动态指标特征向量,还可以用来确定第二媒体数据的动态指标特征向量。不同动态指标特征所对应的动态指标特征向量可以用来与第二媒体数据的动态指标特征向量进行匹配。
第二媒体数据集合中的每个第二媒体数据都携带有用户行为数据,即具有动态指标特征,第二媒体数据是生产完成投入到当前的媒体数据平台并产生了用户行为数据,这时可以获取每个第二媒体数据对应的用户行为数据,并将第二媒体数据对应的用户行为数据输入机器学习模型,通过机器学习模型生成该第二媒体数据对应的动态指标特征向量。获取目标动态指标特征所对应的目标动态指标特征向量,计算第二媒体数据的动态指标特征向量与目标动态指标特征向量的第二相似度,如果第二相似度大于或等于第二相似度阈值,则确定该第二媒体数据为第二目标媒体数据,如果第二相似度小于第二相似度阈值,则丢弃该第二媒体数据。
通过根据第二媒体数据的用户行为数据来确定第二媒体数据的动态指标特征向量,并与目标动态指标特征向量计算第二相似度,若第二相似度大于或等于第二相似度阈值,则将该第二媒体数据确定为第二目标媒体数据,可以保证确定的第二目标媒体数据具有特定的目标动态指标特征,提高确定的数据的准确性。
在步骤S14中,将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合。
第一目标媒体数据和第二目标媒体数据是按照不同的特征召回的媒体数据,具有多样性,可以满足不同用户的需求。将第一目标媒体数据、第二目标媒体数据和媒体数据库中的第三媒体数据共同确定为目标数据集合,这样目标数据集合中可以包括新上传的第一目标媒体数据,保证时效性,而且包括具有目标动态指标特征的第二目标媒体数据,以满足用户的需求。
在一个示例性实施例中,将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合,包括:将所述第一目标媒体数据和所述第二目标媒体数据发送至人工审核系统,并获取人工审核结果;将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至所述媒体数据库;将所述媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及所述第三媒体数据,确定为所述目标数据集合。
确定的第一目标媒体数据和第二目标媒体数据可能存在异常数据,这时可以通过人工审核剔除异常数据。在得到第一目标媒体数据和第二目标媒体数据后,将第一目标媒体数据和第二目标媒体数据发送至人工审核系统,人工审核系统显示第一目标媒体数据和第二目标媒体数据,并获取人工审核结果,对于异常的第一目标媒体数据和第二目标媒体数据人工审核结果为审核不通过,这样可以剔除异常数据,将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至媒体数据库,以对媒体数据库进行更新,保证媒体数据库中的媒体数据的时效性,并将媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及第三媒体数据,确定为目标数据集合。在向其他平台投放媒体数据时,可以从目标数据集合中获取待投放的媒体数据,并投放在其他平台中,以对当前的媒体数据平台进行推广。
由于静态特征对媒体数据库中的媒体数据有强依赖的关系,所以在第一目标媒体数据和第二目标媒体数据进入媒体数据库前必须进行人工二次校验,剔除一些异常数据,即人工对第一目标媒体数据和第二目标媒体数据进行校验,校验通过后才添加至媒体数据库,保证整个媒体数据库的干净程度,避免引入异常数据。
本示例性实施例提供的媒体数据确定方法,通过获取第一媒体数据集合第二媒体数据集合,确定第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,并根据第二媒体数据的用户行为数据获取第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,将第一目标媒体数据和第二目标媒体数据以及媒体数据库中的第三媒体数据确定为目标数据集合,由于使用了媒体数据本身的特征来确定第一目标媒体数据,并使用媒体数据的动态特征来确定第二目标媒体数据,保证了确定的媒体数据的丰富性,解决了确定媒体数据的数据源单一的问题。
在上述实施例的基础上,在根据所述第一媒体数据特征,在检索库中进行检索之前,还包括:分别对所述媒体数据库中的第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征;根据所述每个第三媒体数据对应的第三媒体数据特征,构建所述检索库。
在使用检索库对第一媒体数据特征进行检索之前,需要根据媒体数据库来构建检索库。可以使用已有的自监督模型或强监督模型来对媒体数据库中的每个第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征,将每个第三媒体数据对应的第三媒体数据特征构建为检索库,从而可以使用检索库来检索与第一媒体数据相匹配的第三媒体数据。其中,已有的自监督模型或强监督模型与上述的对第一媒体数据进行特征提取的模型是同一模型,这样保证数据匹配的准确性。
通过预先对媒体数据库中的第三媒体数据进行特征提取并构建检索库,可以保证媒体数据的确定效率。
在上述技术方案的基础上,在将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合之后,还包括:将所述目标数据集合展示到目标平台界面中。
其中,目标平台可以是当前的媒体数据平台以外的其他平台。
在确定目标数据集合后,可以将目标数据集合中的媒体数据展示到目标平台界面中,例如可以定时投放到目标平台中。通过在目标平台界面中展示目标数据集合,使得目标数据集合可以展示在更多的目标平台上,扩展了数据的展示平台。
图2是根据一示例性实施例示出的一种媒体数据确定方法的流程图,如图2所示,该媒体数据确定方法用于服务器等电子设备中,包括以下步骤。
在步骤S21中,获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据。
在步骤S22中,对所述第一媒体数据集合中的第一媒体数据进行特征提取,得到第一媒体数据特征。
在步骤S23中,根据所述第一媒体数据特征,在检索库中进行检索,其中,所述检索库包括所述第三媒体数据所对应的第三媒体数据特征。
其中,根据所述第一媒体数据特征,在检索库中进行检索,包括:确定所述第一媒体数据特征与所述检索库中每个第三媒体数据特征的第一相似度;若存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征。
其中,在根据所述第一媒体数据特征,在检索库中进行检索之前,还包括:分别对所述媒体数据库中的第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征;根据所述每个第三媒体数据对应的第三媒体数据特征,构建所述检索库。
在步骤S24中,若所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征,则确定所述第一媒体数据为所述第一目标媒体数据。
在步骤S25中,获取所述第二媒体数据集合中第二媒体数据的用户行为数据,并获取所述目标动态指标特征所对应的目标动态指标特征向量。
在步骤S26中,根据所述第二媒体数据的用户行为数据,确定所述第二媒体数据的动态指标特征向量。
在步骤S27中,确定所述动态指标特征向量与所述目标动态指标特征向量的第二相似度。
在步骤S28中,若所述第二相似度大于或等于第二相似度阈值,则确定所述第二媒体数据为所述第二目标媒体数据。
在步骤S29中,将所述第一目标媒体数据和所述第二目标媒体数据发送至人工审核系统,并获取人工审核结果;
在步骤S210中,将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至所述媒体数据库。
在步骤S211中,将所述媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及所述第三媒体数据,确定为所述目标数据集合。
在步骤S212中,将所述目标数据集合展示到目标平台界面中。
各个步骤的具体内容与上述实施例相同,这里不再赘述。
本示例性实施例提供的媒体数据确定方法,由于使用了媒体数据本身的特征来确定第一目标媒体数据,并使用媒体数据的动态特征来确定第二目标媒体数据,保证了确定的媒体数据的丰富性,解决了确定媒体数据的数据源单一的问题,而且对于不具有用户行为数据的第一媒体数据也可以及时的确定并召回,提高了召回的媒体数据的时效性,提高了媒体数据召回效率。
图3是本公开实施例中的媒体数据确定方法的实现示意图,如图3所示,在实现该媒体数据确定方法时,可以由静态特征媒体数据确定模块、动态特征媒体数据确定模块和人工审核模块来实现。首先,基于历史和人工的先验知识构建一个媒体数据库,通过已有模型提取媒体数据库中的第三媒体数据的特征并构建检索库。在静态特征媒体数据确定模块中,用相同模型提取新上传的第一媒体数据的特征,得到第一媒体数据特征,并在检索库中进行检索,以一个相对置信的经验值(如第一相似度阈值)为判别条件,判断新上传的第一媒体数据是否和感兴趣的第三媒体数据相似,判断相似后进行人工校验,通过人工校验后可加入到媒体数据库中,并将该第一媒体数据特征加入到检索库中,这样便可以循环得迭代媒体数据库中的媒体数据。在动态特征媒体数据确定模块中,首先使用机器学习模型确定媒体数据的历史用户行为数据所对应的动态指标特征向量,并构建历史消费数据库,对于具有用户行为数据的第二媒体数据,使用机器学习模型来确定第二媒体数据的动态指标特征向量,并与历史消费数据库中的目标动态指标特征向量进行匹配,来召回具有目标动态指标特征的第二目标媒体数据,在第二目标媒体数据通过人工校验后加入到媒体数据库中。这样,在媒体数据库中既有新上传的媒体数据,也有历史上具有一定目标动态指标特征的媒体数据,而且可以不断的循环迭代。
本公开在使用特征相似的方式的基础上又增加了动态特征召回源,配合人工审核机制增加了召回数据的丰富性,可以解决由于特征相似性单一召回链路的召回数据单一的问题,并且通过动态特征召回的数据本身是媒体数据的动态消费指标的体现,丰富性和实效性较静态特征都有较大改善,能够高效、快速、具有时效的对感兴趣的媒体数据进行挖掘。
图4是根据一示例性实施例示出的一种媒体数据确定装置的框图。参照图4,该装置包括数据集合获取模块41、第一目标数据确定模块42、第二目标数据获取模块43和目标数据集合确定模块44。
该数据集合获取模块41被配置为执行获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据;
该第一目标数据确定模块42被配置为执行确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,所述第三媒体数据是满足预设条件的媒体数据;
该第二目标数据获取模块43被配置为执行根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,所述目标动态指标特征用于表征获取的第二目标媒体数据所对应的动态指标特征,所述动态指标特征是与用户行为数据相关联的特征;
该目标数据集合确定模块44被配置为执行将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合。
可选的,所述第一目标数据确定模块包括:
特征提取单元,被配置为执行对所述第一媒体数据集合中的第一媒体数据进行特征提取,得到第一媒体数据特征;
检索单元,被配置为执行根据所述第一媒体数据特征,在检索库中进行检索,其中,所述检索库包括所述第三媒体数据所对应的第三媒体数据特征;
第一目标数据确定单元,被配置为执行若所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征,则确定所述第一媒体数据为所述第一目标媒体数据。
可选的,所述检索单元被配置为执行:
确定所述第一媒体数据特征与所述检索库中每个第三媒体数据特征的第一相似度;
若存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征。
可选的,所述装置还包括:
种子数据特征提取模块,被配置为执行分别对所述媒体数据库中的第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征;
检索库构建模块,被配置为执行根据所述每个第三媒体数据对应的第三媒体数据特征,构建所述检索库。
可选的,所述第二目标数据获取模块包括:
用户行为数据获取单元,被配置为执行获取所述第二媒体数据集合中第二媒体数据的用户行为数据,并获取所述目标动态指标特征所对应的目标动态指标特征向量;
动态特征向量确定单元,被配置为执行根据所述第二媒体数据的用户行为数据,确定所述第二媒体数据的动态指标特征向量;
相似度确定单元,被配置为执行确定所述动态指标特征向量与所述目标动态指标特征向量的第二相似度;
第二目标数据确定单元,被配置为执行若所述第二相似度大于或等于第二相似度阈值,则确定所述第二媒体数据为所述第二目标媒体数据。
可选的,所述召回数据集合确定模块包括:
人工审核单元,被配置为执行将所述第一目标媒体数据和所述第二目标媒体数据发送至人工审核系统,并获取人工审核结果;
种子库数据添加单元,被配置为执行将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至所述媒体数据库;
目标数据集合确定单元,被配置为执行将所述媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及所述第三媒体数据,确定为所述目标数据集合。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备500可以被提供为一服务器。参照图5,电子设备500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述的媒体数据确定方法。
电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理,一个有线或无线网络接口550被配置为将电子设备500连接到网络,和一个输入输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器532,上述指令可由电子设备500的处理组件522执行以完成上述媒体数据确定方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现上述的媒体数据确定方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种媒体数据确定方法,其特征在于,包括:
获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据;
确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,所述第三媒体数据是满足预设条件的媒体数据;
根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,所述目标动态指标特征用于表征获取的第二目标媒体数据所对应的动态指标特征,所述动态指标特征是与用户行为数据相关联的特征;
将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合。
2.根据权利要求1所述的方法,其特征在于,确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,包括:
对所述第一媒体数据集合中的第一媒体数据进行特征提取,得到第一媒体数据特征;
根据所述第一媒体数据特征,在检索库中进行检索,其中,所述检索库包括所述第三媒体数据所对应的第三媒体数据特征;
若所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征,则确定所述第一媒体数据为所述第一目标媒体数据。
3.根据权利要求2所述的方法,其特征在于,根据所述第一媒体数据特征,在检索库中进行检索,包括:
确定所述第一媒体数据特征与所述检索库中每个第三媒体数据特征的第一相似度;
若存在所述第一相似度大于或等于第一相似度阈值的第三媒体数据特征,则确定所述检索库中存在与所述第一媒体数据特征相匹配的第三媒体数据特征。
4.根据权利要求2所述的方法,其特征在于,在根据所述第一媒体数据特征,在检索库中进行检索之前,还包括:
分别对所述媒体数据库中的第三媒体数据进行特征提取,得到每个第三媒体数据对应的第三媒体数据特征;
根据所述每个第三媒体数据对应的第三媒体数据特征,构建所述检索库。
5.根据权利要求1-4任一项所述的方法,其特征在于,根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,包括:
获取所述第二媒体数据集合中第二媒体数据的用户行为数据,并获取所述目标动态指标特征所对应的目标动态指标特征向量;
根据所述第二媒体数据的用户行为数据,确定所述第二媒体数据的动态指标特征向量;
确定所述动态指标特征向量与所述目标动态指标特征向量的第二相似度;
若所述第二相似度大于或等于第二相似度阈值,则确定所述第二媒体数据为所述第二目标媒体数据。
6.根据权利要求1-4任一项所述的方法,其特征在于,将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合,包括:
将所述第一目标媒体数据和所述第二目标媒体数据发送至人工审核系统,并获取人工审核结果;
将人工审核结果为审核通过的第一目标媒体数据和第二目标媒体数据添加至所述媒体数据库;
将所述媒体数据库中审核通过的第一目标媒体数据和第二目标媒体数据,以及所述第三媒体数据,确定为所述目标数据集合。
7.一种媒体数据确定装置,其特征在于,包括:
数据集合获取模块,被配置为执行获取第一媒体数据集合和第二媒体数据集合,所述第一媒体数据集合包括预设时间内接收到的多个第一媒体数据,所述第二媒体数据集合包括多个第二媒体数据,所述第二媒体数据携带有用户行为数据;
第一目标数据确定模块,被配置为执行确定所述第一媒体数据集合中与媒体数据库中的第三媒体数据相匹配的第一目标媒体数据,所述第三媒体数据是满足预设条件的媒体数据;
第二目标数据获取模块,被配置为执行根据所述用户行为数据,获取所述第二媒体数据集合中具有目标动态指标特征的第二目标媒体数据,所述目标动态指标特征用于表征获取的第二目标媒体数据所对应的动态指标特征,所述动态指标特征是与用户行为数据相关联的特征;
目标数据集合确定模块,被配置为执行将所述第一目标媒体数据、所述第二目标媒体数据以及所述第三媒体数据,确定为目标数据集合。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6任一项所述的媒体数据确定方法。
9.一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6任一项所述的媒体数据确定方法。
10.一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或计算机指令被处理器执行时实现权利要求1至6任一项所述的媒体数据确定方法。
CN202210021045.1A 2022-01-10 2022-01-10 媒体数据确定方法、装置、电子设备及存储介质 Pending CN114417028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210021045.1A CN114417028A (zh) 2022-01-10 2022-01-10 媒体数据确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210021045.1A CN114417028A (zh) 2022-01-10 2022-01-10 媒体数据确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114417028A true CN114417028A (zh) 2022-04-29

Family

ID=81270548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210021045.1A Pending CN114417028A (zh) 2022-01-10 2022-01-10 媒体数据确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114417028A (zh)

Similar Documents

Publication Publication Date Title
US20230297581A1 (en) Method and system for ranking search content
CN102222103B (zh) 视频内容的匹配关系的处理方法及装置
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
CN109213655B (zh) 针对告警的解决方案确定方法、装置、存储介质和设备
WO2009061420A1 (en) Object recognition and database population
CN109168047B (zh) 视频推荐方法、装置、服务器及存储介质
WO2009061434A1 (en) System and method for processing digital media
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN105574030B (zh) 一种信息搜索方法及装置
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
CN110769267B (zh) 一种视频的展示方法、装置、电子设备及存储介质
CN111241381A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN111294620A (zh) 视频的推荐方法及装置
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
JP2020042771A (ja) データ分析方法及びデータ分析システム
CN113596352A (zh) 视频的处理方法、处理装置和电子设备
CN113204697A (zh) 一种搜索方法、装置、电子设备及存储介质
CN106202222B (zh) 热点事件的确定方法及装置
CN114417028A (zh) 媒体数据确定方法、装置、电子设备及存储介质
CN106934007B (zh) 关联信息的推送方法及装置
CN111291259B (zh) 一种数据筛选方法、装置、电子设备和存储介质
CN113742524A (zh) 视频快速检索方法、系统和视频快速推荐方法
CN112579912A (zh) 一种搜索方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination