CN110516084B - 多媒体关联信息确定方法、装置、存储介质及设备 - Google Patents

多媒体关联信息确定方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN110516084B
CN110516084B CN201910717414.9A CN201910717414A CN110516084B CN 110516084 B CN110516084 B CN 110516084B CN 201910717414 A CN201910717414 A CN 201910717414A CN 110516084 B CN110516084 B CN 110516084B
Authority
CN
China
Prior art keywords
multimedia
sample data
item
data pair
multimedia item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910717414.9A
Other languages
English (en)
Other versions
CN110516084A (zh
Inventor
成梭宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Himalaya Technology Co ltd
Original Assignee
Shanghai Himalaya Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Himalaya Technology Co ltd filed Critical Shanghai Himalaya Technology Co ltd
Priority to CN201910717414.9A priority Critical patent/CN110516084B/zh
Publication of CN110516084A publication Critical patent/CN110516084A/zh
Application granted granted Critical
Publication of CN110516084B publication Critical patent/CN110516084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了多媒体关联信息确定方法、装置、存储介质及设备。该方法包括:获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,采用预设白名单对第一样本数据对集合进行过滤,以保留包含预设白名单中的多媒体项目的样本数据对,并据此确定有效用户集合,采用有效用户集合对第一样本数据对集合进行过滤,以保留包含有效用户集合中的用户的样本数据对,得到训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。本发明实施例通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本集合,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。

Description

多媒体关联信息确定方法、装置、存储介质及设备
技术领域
本发明实施例涉及计算机技术领域,尤其涉及多媒体关联信息确定方法、装置、存储介质及设备。
背景技术
随着互联网技术的快速发展,大量的信息可以通过互联网推送给用户,而随着信息爆炸产生的海量数据,各个公司的数据正在迅速膨胀,这些数据背后隐藏着许多规律,如何利用这些数据,极大地影响着企业未来的发展。
在多媒体领域的信息流推荐中,协同过滤算法能够较好地使用全量用户的播放数据,学习到多媒体之间的相关程度,从而根据用户的播放历史进行相关多媒体信息的精准化推荐。然而上亿的用户规模和千万级别的多媒体规模会限制算法的可行性,该任务需要的运行时间很长,且要消耗集群大量的内存和算力。在曝光的时候,又需要经过白名单的过滤,采用一定的算法来增加过滤速度的同时,又会消耗大量的集群内存,因此,现有的多媒体关联信息确定方案需要改进。
发明内容
本发明实施例提供了多媒体关联信息确定方法、装置、存储介质及设备,可以优化现有的多媒体关联信息确定方案。
第一方面,本发明实施例提供了一种多媒体关联信息确定方法,包括:
获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。
第二方面,本发明实施例提供了一种多媒体关联信息确定装置,包括:
样本生成模块,用于获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
有效用户确定模块,用于采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
样本获取模块,用于采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
关联信息确定模块,用于以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的多媒体关联信息确定方法。
第四方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的多媒体关联信息确定方法。
本发明实施例中提供的多媒体关联信息确定方案,获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系,采用预设白名单对第一样本数据对集合进行过滤,以保留包含预设白名单中的多媒体项目的样本数据对,进而确定有效用户集合,采用有效用户集合对第一样本数据对集合进行过滤,以保留包含有效用户集合中的用户的样本数据对,得到第三样本数据对集合,以第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本集合,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。
附图说明
图1为本发明实施例一提供的一种多媒体关联信息确定方法的流程示意图;
图2为本发明实施例二提供的一种多媒体关联信息确定方法的流程示意图;
图3为本发明实施例三提供的一种多媒体关联信息确定方法的流程示意图;
图4为本发明实施例四提供的一种多媒体关联信息确定装置的结构框图;
图5为本发明实施例六提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种多媒体关联信息确定方法的流程示意图,该方法可以由多媒体关联信息确定装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中。如图1所示,该方法包括:
步骤101、获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系。
示例性的,本发明实施例中的多媒体可包括如音乐、广播、评书以及有声读物等声音,也可包括如短视频、电视剧或电影等视频,也可包括图片等,不做具体限定。随着互联网技术的快速发展,人们在日常生活中可轻松获取大量的多媒体资源,并在电脑或手机等终端中进行播放。通常情况下,用户可通过互联网下载多媒体资源,然后通过终端中安装的多媒体播放器等应用进行播放;或者在联网状态下,直接通过多媒体播放器等应用在线播放喜爱的多媒体资源。本发明实施例中的多媒体项目可以是多媒体播放应用程序中的可以进行播放的多媒体对象。
示例性的,对于多媒体播放应用程序来说,一般存在与其对应的后台服务器,为多媒体播放应用程序提供丰富的多媒体资源以及其他服务或功能。可通过服务器来记录并存储使用多媒体播放应用程序的用户针对多媒体项目的播放信息,如播放项目、播放时间以及播放次数等,这些信息具体可存储在对应的数据库中。
本发明实施例中,预设用户集合可包括使用多媒体播放应用程序的所有用户或部分用户,当包括部分用户时,可根据实际情况进行设置,如根据性别、年龄段以及职业等,本发明实施例不做限定。预设时间段一般为距离当前时刻较近的一段时间,如最近两周。可以理解的是,预设时间段越长,训练结果越准确,但数据量也越大,可根据实际情况选择合适的预设时间段。示例性的,当需要进行训练时,可从服务器对应的数据库中获取预设时间段内预设用户集合对应的多媒体项目播放记录,多媒体播放记录可包括用户在预设时间段内收听过的多媒体项目。
示例性的,可根据获取到的多媒体项目播放记录生成“用户-多媒体项目”形式的数据对,用来表示用户与多媒体项目的一对一关系,进而得到第一样本数据对集合。示例性的,用户A属于预设用户集合,在预设时间段内,用户A收听过多媒体项目a、多媒体项目b和多媒体项目c,那么可得到A-a,A-b和A-c三个样本数据对。
步骤102、采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合。
示例性的,多媒体播放应用程序中一般包含多个板块,如小说板块、直播板块、儿童板块、音乐板块以及英语板块等等。所述多媒体项目播放记录可对应于多媒体播放应用程序中所有版块包含的多媒体项目,也即预设用户集合中用户所播放过的所有板块中的多媒体项目均会存在于该多媒体项目播放记录中。所述预设白名单可对应于所述多媒体播放应用程序中的目标版块包含的多媒体项目。其中,目标板块可以是当前有针对性地进行训练的板块,例如小说板块,那么预设白名单中的多媒体项目可包括小说板块中的所有多媒体项目。需要说明的是,预设白名单还可以有其他设置方式,可根据实际情况进行设置。
示例性的,采用预设白名单对所述第一样本数据对集合进行过滤可以通过将第一样本数据对集合与预设白名单做内连接的方式进行,这样,就可以过滤掉不属于预设白名单的样本数据对,也即过滤掉第一样本数据对集合中不包含预设白名单中的多媒体项目的样本数据对,保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合。可以理解的是,第二样本数据对集合中每个样本数据对中的用户都曾经播放过预设白名单中的多媒体项目,因此,可以根据第二样本数据对集合确定有效用户,即将第二样本数据对集合中包含的用户确定为有效用户。
步骤103、采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合。
示例性的,采用所述有效用户集合对所述第一样本数据对集合进行过滤可以通过将第一样本数据对集合与有效用户集合做内连接的方式进行,这样,就可以过滤掉不属于有效用户集合的样本数据对,也即过滤掉第一样本数据对集合中不包含有效用户集合中的有效用户的样本数据对,保留包含有效用户集合中的有效用户的样本数据对,得到第三样本数据对集合。
步骤104、以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。
示例性的,协同过滤(Collaborative Filtering,CF)算法的原理一般是汇总所有<用户,项目>的行为对,利用集体智慧做推荐,可分为用户协同过滤(UserCF)和项目协同过滤(ItemCF)。本发明实施例可以采用ItemCF,先计算多媒体项目和多媒体项目的相似度,再根据用户播放的多媒体项目去推荐相似多媒体项目。选择ItemCF的好处在于是多媒体项目数目是千万级别的,用户数目是上亿级别,ItemCF计算量远比UserCF少。本发明实施例对具体的训练过程不做限定,可根据实际情况对协同过滤算法进行应用。
本发明实施例中提供的多媒体关联信息确定方法,获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系,采用预设白名单对第一样本数据对集合进行过滤,以保留包含预设白名单中的多媒体项目的样本数据对,进而确定有效用户集合,采用有效用户集合对第一样本数据对集合进行过滤,以保留包含有效用户集合中的用户的样本数据对,得到第三样本数据对集合,以第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本集合,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。
在上述实施例基础上,在得到第三样本数据对集合之后,还可包括:对所述第三样本数据对集合进行清洗操作,以过滤掉无效样本数据对。这样设置的好处在于,可进一步减少样本数据量,并保证样本数据的准确性。示例性的,可统计第三样本数据对集合中各个用户的播放多媒体项目的数目,删除数目大于第一预设阈值(如100)的用户对应的样本数据对,得到训练数据。比如某人一天播放了100条声音,每条收听10分钟,收听了接近16个小时,这种情况存在刷单现象,需要过滤掉。示例性的,还可删除数目小于第二预设阈值(如2)的用户对应的样本数据对,这些数据太稀疏,包含的信息较少,增加的计算量较大,不太具有价值。
实施例二
图2为本发明实施例二提供的一种多媒体关联信息确定方法的流程示意图,该方法在上述实施例基础上针对协同过滤算法的训练过程进行优化。
示例性的,所述以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息,包括:以所述第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个多媒体项目之间的相关程度;根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目,其中,所述关联多媒体项目中包含与对应的多媒体项目最相关的第一预设数量的多媒体项目。这样设置的好处在于,能够合理准确地确定多媒体项目的关联信息。
具体的,该方法包括如下步骤:
步骤201、获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系。
步骤202、采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合。
步骤203、采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合。
步骤204、以所述第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个多媒体项目之间的相关程度。
示例性的,所述杰卡德系数对应的算法由以下表达式确定:
Figure BDA0002155923330000091
其中,wji表示多媒体项目i和多媒体项目j的相似度,N(i)表示播放过多媒体项目i的用户数,N(j)表示播放过多媒体项目j的用户数,|N(i)∩N(i)|表示同时播放过多媒体项目i和多媒体项目j的用户数,|N(i)∪N(j)|表示播放过多媒体项目i或多媒体项目j的用户数,ɑ表示抑制冷门多媒体项目冒出的参数。ɑ可以根据实际需求进行设置,具体数值不做限定,冷门多媒体项目可以用被用户收听的频次等因素进行衡量,如若一个多媒体项目在设定时段内被播放的次数小于第一预设次数阈值,则该多媒体项目为冷门多媒体项目。某首歌曲在过去的两周内仅被播放过10次,可认为是冷门歌曲。
步骤205、根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目,其中,所述关联多媒体项目中包含与对应的多媒体项目最相关的第一预设数量的多媒体项目。
进一步的,在所述根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目之后,还包括:统计所述第三样本数据对集合中包含的各多媒体项目对应的相关多媒体项目的分布信息;在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目来自预设热门多媒体项目集合的比例高于第一预设比例阈值,和/或,在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目的出现次数与所有相关多媒体项目的出现次数的比值高于第二预设比例阈值时,对所述表达式进行校正,并基于矫正后的表达式重新确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目。这样设置的好处在于,当训练结果不够满意时,可以进一步通过调参的方式修改训练模型,进而得到更准确的训练结果。
示例性的,第二预设数量、第一预设比例阈值和第二预设比例阈值的具体数值不做限定。例如,第二预设数量为10,第一预设比例阈值为60%,第二预设比例阈值为10%。
示例性的,所述对所述表达式进行校正,包括:
将所述表达式校正为如下的新表达式:
Figure BDA0002155923330000101
其中,β表示抑制热门多媒体项目集合的参数。热门多媒体项目可以以被用户收听的频次等因素进行衡量,如若一个多媒体项目在设定时段内被播放的次数大于第二预设次数阈值,则该多媒体项目为热门多媒体项目,由热门多媒体项目构成热门多媒体项目集合,如热门专辑。某首歌曲在过去的两周内仅被播放过10万次,可认为是热门歌曲。
可选的,还可对ɑ进行调节,进而抑制冷门声音。示例性的,在所述根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目之后,还包括:在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目来自预设冷门多媒体项目集合的比例高于第三预设比例阈值,则对ɑ进行调节。可选的,对ɑ进行调节可包括在ɑ基础上乘以预设系数,得到新的ɑ,然后重新以第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到第三样本数据中包含的每两个多媒体项目之间的相关程度。其中,预设系数大于1。例如,第二预设数量为10,10个目标多媒体项目来自预设冷门多媒体项目集合的比例为0.7,高于第三预设比例阈值(如0.6),那么需要提高杰卡德公式中的ɑ,如乘以1.5,来抑制冷门声音。
可选的,也可通过人为肉眼查看的方式对训练结果进行抽查,如从标题或类别等方面判断两个多媒体项目之间的关联性是否合理。
本发明实施例提供的多媒体关联信息确定方法,在确定训练数据后,采用杰卡德系数对应的算法进行训练,得到每两个多媒体项目之间的相关程度,并根据相关程度确定各多媒体项目分别对应的关联多媒体项目,可以快速准确地确定关联多媒体项目,提高训练效率。
实施例三
图3为本发明实施例三提供的一种多媒体关联信息确定方法的流程示意图,该方法在上述实施例基础上进行优化,在得到多媒体项目的关联信息之后,增加了根据当前用户的多媒体项目播放记录和关联信息确定目标推荐项目的相关内容。
具体的,该方法可包括如下步骤:
步骤301、获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系。
示例性的,若多媒体播放应用程序为声音播放应用程序,你们样本数据对可表示为用户-声音对。例如,获取数据库内用户的声音播放记录,生成最近两周所有的用户-声音对。
步骤302、采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合。
示例性的,将所有的用户-声音对和白名单声音做内连接,过滤掉不属于白名单的用户-声音对,留下的用户都是有效用户。
步骤303、采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合。
示例性的,将所有的用户-声音对和有效用户做内连接,留下的用户-声音对作为训练数据。
步骤304、以所述第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个多媒体项目之间的相关程度。
步骤305、根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目,其中,所述关联多媒体项目中包含与对应的多媒体项目最相关的第一预设数量的多媒体项目。
步骤306、根据当前用户的多媒体项目播放记录和关联多媒体项目确定目标推荐项目,其中,所述目标推荐项目包含于所述预设白名单中。
示例性的,当前用户的多媒体项目播放记录可以包括当前用户正在播放的多媒体项目,也可包括当前用户在预设历史时段内播放的多媒体项目。在确定目标推荐项目之后,可以将目标推荐项目推荐给用户,例如自动加入带播放列表中,或者在多媒体播放应用程序的首页或专门的推荐页面进行显示等,本发明实施例对具体的推荐形式不做限定。
示例性的,本步骤可具体包括:
利用如下公式根据当前用户的多媒体项目播放记录和所述关联信息确定用户与预设白名单中的多媒体项目的相关性,并将相关性排名靠前的第三预设数量的多媒体项目确定为目标推荐项目:
Figure BDA0002155923330000131
其中,puj表示用户与多媒体项目j的相关性,N(u)表示当前用户u播放过的多媒体项目的集合,S(j,K)表示与多媒体项目j最相关的第一预设数量的多媒体项目集合,K表示第一预设数量,wji表示多媒体项目i和多媒体项目j的相似度,rui表示当前用户u对多媒体项目i的兴趣程度。
可选的,当前用户u对多媒体项目i的兴趣程度可以根据当前用户u针对多媒体项目i的历史操作来确定。例如,用户u是否对多媒体项目i有播放行为,若有,则rui=1;又如,还可根据是否有收藏行为以及播放次数等进一步丰富rui的取值。
本发明实施例提供的多媒体关联信息确定方法,可以认为是一种在白名单限制条件下协同过滤的近似方法,取有播放过预设白名单内多媒体项目的用户作为有效用户,取有效用户的播放记录代替所有用户的播放记录作为训练数据,因此该训练数据中既保留了预设白名单中的多媒体项目和它的相关多媒体项目的播放记录,又去除了预设白名单外的多媒体项目和它的相关多媒体项目的记录,这样,在根据用户收听历史来推荐相关多媒体项目的时候,可以只召回白名单内多媒体项目,可以克服现有算法在海量数据的场景和白名单限制的条件下,消耗太多集群内存和算力的缺陷,并极大地减少相关任务运行的时间,同时有利于减少曝光时刻集群内存的消耗。
图4为本发明实施例四提供的一种多媒体关联信息确定装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中,可通过执行多媒体关联信息确定方法来进行多媒体关联信息确定。如图4所示,该装置包括:
样本生成模块401,用于获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
有效用户确定模块402,用于采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
样本获取模块403,用于采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
关联信息确定模块404,用于以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。
本发明实施例中提供的多媒体关联信息确定装置,获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系,采用预设白名单对第一样本数据对集合进行过滤,以保留包含预设白名单中的多媒体项目的样本数据对,进而确定有效用户集合,采用有效用户集合对第一样本数据对集合进行过滤,以保留包含有效用户集合中的用户的样本数据对,得到第三样本数据对集合,以第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本集合,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。
可选的,所述以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息,包括:
以所述第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个多媒体项目之间的相关程度;
根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目,其中,所述关联多媒体项目中包含与对应的多媒体项目最相关的第一预设数量的多媒体项目。
可选的,所述杰卡德系数对应的算法由以下表达式确定:
Figure BDA0002155923330000151
其中,wji表示多媒体项目i和多媒体项目j的相似度,N(i)表示播放过多媒体项目i的用户数,N(j)表示播放过多媒体项目j的用户数,|N(i)∩N(i)|表示同时播放过多媒体项目i和多媒体项目j的用户数,|N(i)∪N(j)|表示播放过多媒体项目i或多媒体项目j的用户数,ɑ表示抑制冷门多媒体项目冒出的参数。
可选的,该装置还包括:
统计模块,用于在所述根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目之后,统计所述第三样本数据对集合中包含的各多媒体项目对应的相关多媒体项目的分布信息;
校正模块,用于在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目来自预设热门多媒体项目集合的比例高于第一预设比例阈值,和/或,在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目的出现次数与所有相关多媒体项目的出现次数的比值高于第二预设比例阈值时,对所述表达式进行校正;
所述关联信息确定模块,还用于基于矫正后的表达式重新确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目。
可选的,所述对所述表达式进行校正,包括:
将所述表达式校正为如下的新表达式:
Figure BDA0002155923330000161
其中,β表示抑制热门多媒体项目集合的参数。
可选的,该装置还包括:
推荐模块,用于在所述得到多媒体项目的关联信息之后,根据当前用户的多媒体项目播放记录和所述关联多媒体项目确定目标推荐项目,其中,所述目标推荐项目包含于所述预设白名单中。
可选的,所述根据当前用户的多媒体项目播放记录和所述关联多媒体项目确定目标推荐项目,包括:
利用如下公式根据当前用户的多媒体项目播放记录和所述关联多媒体项目确定用户与预设白名单中的多媒体项目的相关性:
Figure BDA0002155923330000162
其中,puj表示用户与多媒体项目j的相关性,N(u)表示当前用户u播放过的多媒体项目的集合,S(j,K)表示与多媒体项目j最相关的第一预设数量的多媒体项目集合,K表示第一预设数量,ωji表示多媒体项目i和多媒体项目j的相似度,rui表示当前用户u对多媒体项目i的兴趣程度;
将相关性排名靠前的第三预设数量的多媒体项目确定为目标推荐项目。
实施例五
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行多媒体关联信息确定方法,该方法包括:
获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的多媒体关联信息确定操作,还可以执行本发明任意实施例所提供的多媒体关联信息确定方法中的相关操作。
实施例六
本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的多媒体关联信息确定装置。图5为本发明实施例六提供的一种计算机设备的结构框图。计算机设备500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器运行的计算机程序,所述处理器502执行所述计算机程序时实现如本发明实施例所述的多媒体关联信息确定方法,该方法包括:
获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息。
本发明实施例提供的计算机设备,可以更加合理地筛选出用于协同过滤算法训练的样本集合,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。
上述实施例中提供的多媒体关联信息确定装置、存储介质以及计算机设备可执行本发明任意实施例所提供的多媒体关联信息确定方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的多媒体关联信息确定方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种多媒体关联信息确定方法,其特征在于,包括:
获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息;
所述以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息,包括:
以所述第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个多媒体项目之间的相关程度;
根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目,其中,所述关联多媒体项目中包含与对应的多媒体项目最相关的第一预设数量的多媒体项目;
所述杰卡德系数对应的算法由以下表达式确定:
Figure FDA0004062904710000011
其中,wji表示多媒体项目i和多媒体项目j的相似度,N(i)表示播放过多媒体项目i的用户数,N(j)表示播放过多媒体项目j的用户数,|N(i)∩N(i)|表示同时播放过多媒体项目i和多媒体项目j的用户数,|N(i)∪N(j)|表示播放过多媒体项目i或多媒体项目j的用户数,ɑ表示抑制冷门多媒体项目冒出的参数。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目之后,还包括:
统计所述第三样本数据对集合中包含的各多媒体项目对应的相关多媒体项目的分布信息;
在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目来自预设热门多媒体项目集合的比例高于第一预设比例阈值,和/或,在根据所述分布信息确定出现频率最高的第二预设数量的目标多媒体项目的出现次数与所有相关多媒体项目的出现次数的比值高于第二预设比例阈值时,对所述表达式进行校正,并基于矫正后的表达式重新确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目。
3.根据权利要求2所述的方法,其特征在于,所述对所述表达式进行校正,包括:
将所述表达式校正为如下的新表达式:
Figure FDA0004062904710000021
其中,β表示抑制热门多媒体项目集合的参数。
4.根据权利要求1所述的方法,其特征在于,在所述得到多媒体项目的关联信息之后,还包括:
根据当前用户的多媒体项目播放记录和所述关联多媒体项目确定目标推荐项目,其中,所述目标推荐项目包含于所述预设白名单中。
5.根据权利要求2所述的方法,其特征在于,所述根据当前用户的多媒体项目播放记录和所述关联多媒体项目确定目标推荐项目,包括:
利用如下公式根据当前用户的多媒体项目播放记录和所述关联多媒体项目确定用户与预设白名单中的多媒体项目的相关性:
Figure FDA0004062904710000031
其中,puj表示用户与多媒体项目j的相关性,N(u)表示当前用户u播放过的多媒体项目的集合,S(j,K)表示与多媒体项目j最相关的第一预设数量的多媒体项目集合,K表示第一预设数量,wji表示多媒体项目i和多媒体项目j的相似度,rui表示当前用户u对多媒体项目i的兴趣程度;
将相关性排名靠前的第三预设数量的多媒体项目确定为目标推荐项目。
6.一种多媒体关联信息确定装置,其特征在于,包括:
样本生成模块,用于获取预设时间段内预设用户集合对应的多媒体项目播放记录,并生成第一样本数据对集合,其中,所述第一样本数据对集合中的每个样本数据对包含用户与多媒体项目的一对一关系;
有效用户确定模块,用于采用预设白名单对所述第一样本数据对集合进行过滤,以保留包含所述预设白名单中的多媒体项目的样本数据对,得到第二样本数据对集合,并根据所述第二样本数据对集合中包含的用户确定有效用户集合;
样本获取模块,用于采用所述有效用户集合对所述第一样本数据对集合进行过滤,以保留包含所述有效用户集合中的用户的样本数据对,得到第三样本数据对集合;
关联信息确定模块,用于以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息;
所述以所述第三样本数据对集合为训练数据,采用协同过滤算法进行训练,得到多媒体项目的关联信息,包括:
以所述第三样本数据对集合为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个多媒体项目之间的相关程度;
根据所述相关程度,确定所述第三样本数据对集合中包含的各多媒体项目分别对应的关联多媒体项目,其中,所述关联多媒体项目中包含与对应的多媒体项目最相关的第一预设数量的多媒体项目;
所述杰卡德系数对应的算法由以下表达式确定:
Figure FDA0004062904710000041
其中,wji表示多媒体项目i和多媒体项目j的相似度,N(i)表示播放过多媒体项目i的用户数,N(j)表示播放过多媒体项目j的用户数,|N(i)∩N(i)|表示同时播放过多媒体项目i和多媒体项目j的用户数,|N(i)∪N(j)|表示播放过多媒体项目i或多媒体项目j的用户数,ɑ表示抑制冷门多媒体项目冒出的参数。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。
CN201910717414.9A 2019-08-05 2019-08-05 多媒体关联信息确定方法、装置、存储介质及设备 Active CN110516084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910717414.9A CN110516084B (zh) 2019-08-05 2019-08-05 多媒体关联信息确定方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910717414.9A CN110516084B (zh) 2019-08-05 2019-08-05 多媒体关联信息确定方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN110516084A CN110516084A (zh) 2019-11-29
CN110516084B true CN110516084B (zh) 2023-06-06

Family

ID=68624361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910717414.9A Active CN110516084B (zh) 2019-08-05 2019-08-05 多媒体关联信息确定方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN110516084B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101828393A (zh) * 2007-08-24 2010-09-08 谷歌公司 基于媒体的推荐
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN109740068A (zh) * 2019-01-29 2019-05-10 腾讯科技(北京)有限公司 媒体数据推荐方法、装置及存储介质
CN109829063A (zh) * 2019-01-29 2019-05-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101828393A (zh) * 2007-08-24 2010-09-08 谷歌公司 基于媒体的推荐
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN109740068A (zh) * 2019-01-29 2019-05-10 腾讯科技(北京)有限公司 媒体数据推荐方法、装置及存储介质
CN109829063A (zh) * 2019-01-29 2019-05-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN110516084A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
Benson et al. Modeling user consumption sequences
CN109511015B (zh) 多媒体资源推荐方法、装置、存储介质及设备
CN107766360B (zh) 一种视频热度预测方法和装置
CN110941738A (zh) 推荐方法、装置、电子设备及计算机可读存储介质
CN105574199B (zh) 搜索引擎的虚假搜索行为的识别方法和装置
CN104699696A (zh) 文件推荐方法和装置
US20150032673A1 (en) Artist Predictive Success Algorithm
CN111522886A (zh) 一种信息推荐方法、终端及存储介质
WO2022095661A1 (zh) 推荐模型的更新方法、装置、计算机设备和存储介质
CN107967280A (zh) 一种标签推荐歌曲的方法及系统
CN114490741A (zh) 基于可信区块链的时间排序方法、装置、电子设备及介质
US20200135156A1 (en) Method and apparatus for correcting delay between accompaniment audio and unaccompanied audio, and storage medium
KR20170120661A (ko) 인간의 개입 없이 알고리즘적으로 어린이들에게 적절한 콘텐츠의 식별
CN108366274A (zh) 一种刷播放量的检测方法和装置
CN109688217B (zh) 一种消息推送方法、装置及电子设备
CN110516084B (zh) 多媒体关联信息确定方法、装置、存储介质及设备
CN110569447B (zh) 一种网络资源的推荐方法、装置及存储介质
CN109963174B (zh) 流量相关指标预估方法、装置及计算机可读存储介质
CN108764021B (zh) 一种作弊视频识别方法和装置
CN108495150B (zh) 一种视频点击满意度的确定方法及装置
CN113496422B (zh) 一种基于区块链的推广资源分配方法及大数据信息云平台
CN105653645B (zh) 网络信息关注度评估方法及装置
US11838600B2 (en) System and method for modelling access requests to multi-channel content sharing platforms
CN107404657B (zh) 一种广告推荐方法和装置
CN117079667B (zh) 一种场景分类方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant