CN109982155B - 一种播单推荐方法及系统 - Google Patents

一种播单推荐方法及系统 Download PDF

Info

Publication number
CN109982155B
CN109982155B CN201910227980.1A CN201910227980A CN109982155B CN 109982155 B CN109982155 B CN 109982155B CN 201910227980 A CN201910227980 A CN 201910227980A CN 109982155 B CN109982155 B CN 109982155B
Authority
CN
China
Prior art keywords
playlist
sample
target
user
click rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910227980.1A
Other languages
English (en)
Other versions
CN109982155A (zh
Inventor
宁宇光
王建兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910227980.1A priority Critical patent/CN109982155B/zh
Publication of CN109982155A publication Critical patent/CN109982155A/zh
Application granted granted Critical
Publication of CN109982155B publication Critical patent/CN109982155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种播单推荐方法及系统,根据历史交互数据和内容属性信息对播单数据库进行筛选,得到用于推送的目标播单,相对于传统方案只适合推动因素较为单一的内容,本发明在确定目标播单时,同时结合了历史交互数据和内容属性信息两方面内容,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。

Description

一种播单推荐方法及系统
技术领域
本发明涉及视频技术领域,更具体的说,涉及一种播单推荐方法及系统。
背景技术
在内容推送类软件产品中,随着可推送内容数量不断丰富,用户对内容推荐引擎使用率的快速提升。当用户进行内容搜索时,内容推荐引擎可以为用户推荐包含多个符合搜索条件的播单。
播单作为一种封装有多项内容的合集形式,已经广泛应用于内容推送类软件产品中。由于播单中包含的特征数据更加多元化,现有的推荐技术通常只适合推送因素较为单一的内容,而无法很好地匹配播单形式的推荐,从而影响用户体验。
发明内容
有鉴于此,本发明公开一种播单推荐方法及系统,以实现在确定目标播单时,同时结合历史交互数据和内容属性信息两方面内容,使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高用户体验。
一种播单推荐方法,包括:
根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单;
推送所述目标播单。
可选的,所述根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单,具体包括:
根据用户标签和用户标签置信度构建用户特征向量;
根据播单标签和播单标签置信度构建播单特征向量;
采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度;
基于相似度数值和第一预设筛选规则选取所述目标播单。
可选的,所述根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单,具体包括:
获取预设时间段内的历史交互数据,构建历史交互数据向量;
基于所述播单中各个内容属性,构建播单向量;
基于所述历史交互数据向量和所述播单向量,计算有过历史交互数据的内容在每个播单中的占比;
选取占比大于或等于占比阈值的播单,得到所述目标播单。
可选的,所述根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单,具体包括:
根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集;
从预设数据库中,查找所述播单候选集中每个所述播单的特征数据,所述特征数据包括:用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数;
将每个所述播单的特征数据作为点击率预估模型的输入,得到每个所述播单的点击率预估值,所述点击率预估模型为,以对播单的特征数据作为训练样本,以所述特征数据对应的点击率预估值作为样本标签进行训练得到;
基于第二预设筛选规则,从所述播单候选集中选取所述目标播单。
可选的,所述点击率预估模型的建立过程包括:
从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值,非热度用户样本和所述非热度用户样本对应的目标值,构成模型训练集,其中,所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同,所述样本数据集包括:播单样本集和播单样本集中每个样本对应的目标值,所述目标值为播单的点击率;
将所述模型训练集中各个样本的离散特征用one-hot表示,得到目标模型训练集;
将所述目标模型训练集带入初始点击率预估模型,得到所述点击率预估模型的模型参数;
基于所述模型参数建立点击率预估模型。
一种播单推荐系统,包括:
筛选单元,用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单;
推送单元,用于推送所述目标播单。
可选的,所述筛选单元具体包括:
第一构建子单元,用于根据用户标签和用户标签置信度构建用户特征向量;
第二构建子单元,用于根据播单标签和播单标签置信度构建播单特征向量;
第一计算子单元,用于采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度;
第一筛选子单元,用于基于相似度数值和第一预设筛选规则选取所述目标播单。
可选的,所述筛选单元具体包括:
第三构建子单元,用于获取预设时间段内的历史交互数据,构建历史交互数据向量;
第四构建子单元,用于基于所述播单中各个内容属性,构建播单向量;
第二计算子单元,用于基于所述历史交互数据向量和所述播单向量,计算有过历史交互数据的内容在每个播单中的占比;
第一选取子单元,用于选取占比大于或等于占比阈值的播单,得到所述目标播单。
可选的,所述筛选单元具体包括:
第二筛选子单元,用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集;
查找子单元,用于从预设数据库中,查找所述播单候选集中每个所述播单的特征数据,所述特征数据包括:用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数;
点击率预估值获取子单元,用于将每个所述播单的特征数据作为点击率预估模型的输入,得到每个所述播单的点击率预估值,所述点击率预估模型为,以对播单的特征数据作为训练样本,以所述特征数据对应的点击率预估值作为样本标签进行训练得到;
第二选取子单元,用于基于第二预设筛选规则,从所述播单候选集中选取所述目标播单。
可选的,所述筛选单元还包括:点击率预估模型建立子单元,所述点击率预估模型建立子单元用于:
从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值,非热度用户样本和所述非热度用户样本对应的目标值,构成模型训练集,其中,所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同,所述样本数据集包括:播单样本集和播单样本集中每个样本对应的目标值,所述目标值为播单的点击率;
将所述模型训练集中各个样本的离散特征用one-hot表示,得到目标模型训练集;
将所述目标模型训练集带入初始点击率预估模型,得到所述点击率预估模型的模型参数;
基于所述模型参数建立点击率预估模型。
从上述的技术方案可知,本发明公开了一种播单推荐方法及系统,根据历史交互数据和内容属性信息对播单数据库进行筛选,得到用于推送的目标播单,相对于传统方案只适合推动因素较为单一的内容,本发明在确定目标播单时,同时结合了历史交互数据和内容属性信息两方面内容,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种播单推荐方法流程图;
图2为本发明实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图;
图3为本发明实施例公开的另一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图;
图4为本发明实施例公开的另一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图;
图5为本发明实施例公开的一种基于样本数据建立点击率预估模型的方法流程图;
图6为本发明实施例公开的一种播单推荐系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种播单推荐方法及系统,根据历史交互数据和内容属性信息对播单数据库进行筛选,得到用于推送的目标播单,相对于传统方案只适合推动因素较为单一的内容,本发明在确定目标播单时,同时结合了历史交互数据和内容属性信息两方面内容,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
参见图1,本发明一实施例公开的一种播单推荐方法流程图,该方法包括步骤:
步骤S101、根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单;
其中,历史交互数据指的是用户在客户端中通过交互产生的历史数据。
内容属性信息指的是播单中封装的内容的属性信息,比如,目标播单为视频播单,则内容属性信息指的是视频属性信息,包括:视频ID,视频标签等等;目标播单为文本播单,则内容属性信息指的是文本属性信息,包括:文本ID、文本标签等等;目标播单为图形播单,则内容属性信息指的是图形属性信息,包括:图形ID、图形标签等等。
步骤S102、推送所述目标播单。
当从播单数据库中筛选出目标播单后,就可以将该目标播单推送给用户,以供用户从目标播单中选取所需内容。
综上可知,本发明公开的播单推荐方法,根据历史交互数据和内容属性信息对播单数据库进行筛选,得到用于推送的目标播单,相对于传统方案只适合推动因素较为单一的内容,本发明在确定目标播单时,同时结合了历史交互数据和内容属性信息两方面内容,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
需要说明的是,根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的过程有多种实现方式。
因此,为进一步优化上述实施例,参见图2,本发明一实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图,该方法包括步骤:
步骤S201、根据用户标签和用户标签置信度构建用户特征向量;
其中,用户标签是根据用户在客户端中通过交互产生的历史数据来进行评判,并从标签全集中将符合评判结果的标签赋予给用户而形成的一种专属于该用户的标签组合。
用户标签置信度表示:一个标签对于用户的表示程度,比如,用户喜欢浏览明星类内容,则此类标签对应的用户标签置信度会相应提高,例如:为0.56。若用户没有被赋予某一个标签,则对应的用户标签置信度为0。
需要说明的是,在实际应用中,可以根据历史交互数据,从标签全集中赋予用户新的标签,并对已经赋予的标签及其对应的用户标签置信度进行实时更新。
具体的,根据公式(1)构建用户特征向量,公式(1)如下:
useri=(tag1:b1,tag2:b2,…,tagn:bn) (1);
式中,useri表示第i个用户,tag1~tagn表示标签全集,tag1表示标签1,tag2表示标签2,tagn表示标签n,b1表示标签1对应的用户标签置信度,b2表示标签2对应的用户标签置信度,bn表示标签n对应的用户标签置信度,n表示标签全集的数量。
基于公式(1)可知,useri的分量由标签和用户标签置信度组成。
步骤S202、根据播单标签和播单标签置信度构建播单特征向量;
其中,播单标签是后台管理人员预先根据播单中所包含的内容的属性信息,并从标签全集中将符合属性信息的标签赋予给播单而形成的一种专属于该播单的标签组合。通过统计学方式获取播单标签置信度。在实际应用中,可以根据播单内容的增减变化,实时更新播单标签和播单标签置信度。
具体的,根据公式(2)构建播单特征向量,公式(2)如下:
playj=(tag1:a1,tag2:a2,…,tagn:an) (2);
式中,playj表示第j个播单,tag1~tagn表示标签全集,tag1表示标签1,tag2表示标签2,tagn表示标签n,a1表示标签1对应的播单标签置信度,a2表示标签2对应的播单标签置信度,an表示标签n对应的播单标签置信度,ai=tagi出现次数/播单中的内容数量,n表示标签全集的数量。
步骤S203、采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度;
具体的,根据公式(3)计算所述用户特征向量和所述播单特征向量的相似度sim(useri,playj),公式(3)如下:
Figure BDA0002005817870000071
式中,u(tagi)表示用户useri对标签tagi的置信度,p(tagi)表示播单playj对标签tagi的置信度,n表示标签全集的数量。
步骤S204、基于相似度数值和第一预设筛选规则选取所述目标播单。
其中,第一预设筛选规则可以为选取第一预设数量的相似度数值大的播单作为目标播单。
具体的,可以按照相似度值从大到小的顺序,对各个播单进行排序,然后选取第一预设数量的排名靠前的播单作为目标播单。
或者,选取相似度值大于预设数值的播单作为目标播单。
其中,目标播单中的每一个播单的相似度数值均大于任意一个未被选取的播单的相似度数值。
综上可知,本发明在根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单时,根据用户标签和用户标签置信度构建用户特征向量,根据播单标签和播单标签置信度构建播单特征向量,并采用余弦公式计算用户特征向量和播单特征向量的相似度,并选取相似度高的播单作为目标播单。由于本发明在选取目标播单时,综合了用户标签、用户标签置信度以及播单标签置信度,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
为进一步优化上述实施例,参见图3,本发明另一实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图,该方法包括步骤:
步骤S301、获取预设时间段内的历史交互数据,构建历史交互数据向量;
具体的,根据公式(4)构建历史交互数据向量,公式(4)如下:
useri=(mi1,mi2,…,mik) (4);
式中,useri表示第i个用户,mik表示用户i看过的第k个内容;
步骤S302、基于所述播单中各个内容属性,构建播单向量;
其中,播单中的各个内容属性,比如视频、文本等。
具体的,根据公式(5)构建播单向量,公式(5)如下:
playj=(m1,m2,…,mt) (5);
式中,playj表示第j个播单,mjt表示播单j中第t个内容。
步骤S303、基于所述历史交互数据向量和所述播单向量,计算有过历史交互数据的内容在每个播单中的占比;
具体的,根据公式(6)计算有过历史交互数据的内容在每个播单中的占比,公式(6)如下:
Figure BDA0002005817870000081
式中,perij表示用户useri有过历史交互数据的内容在播单playj中的占比。
步骤S304、选取占比大于或等于占比阈值的播单,得到所述目标播单。
在实际应用中,占比阈值可以认为设定,或是将全量perij的平均值作为占比阈值。
综上可知,本发明在根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单时,获取预设时间段内的历史交互数据,构建历史交互数据向量,基于所述播单中各个内容属性,构建播单向量,基于所述历史交互数据向量和所述播单向量,计算有过历史交互数据的内容在每个播单中的占比,并选取占比大于或等于占比阈值的播单,得到所述目标播单。由于本发明选取目标播单时,综合了利用交互数据以及播单中的各个内容属性,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
为进一步优化上述实施例,参见图4,本发明另一实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图,该方法包括步骤:
步骤S401、根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集;
步骤S402、从预设数据库中,查找所述播单候选集中每个所述播单的特征数据;
所述特征数据包括:离散特征和连续特征,离散特征和连续特征均分别由用户特征和播单特征组成。
离散特征中的用户特征包括:用户ID和用户历史交互数据,比如用户所观看的视频ID;离散特征中的播单特征包括:播单ID和播单内容ID。
连续特征中的用户特征包括:标签置信度,标签置信度表示对用户的表示程度,比如,用户的喜欢明星标签,用户的视频观看标签。连续特征中的播单特征包括:播单标签出现次数。
在预设数据库中存储有各个播单以及各个播单的特征数据,因此,通过将播单候选集中每个播单与预设数据库中的各个播单进行匹配,即可确定播单候选集中每个播单的特征数据。
步骤S403、将每个所述播单的特征数据作为点击率预估模型的输入,得到每个所述播单的点击率预估值;
其中,所述点击率预估模型为,以对播单的特征数据作为训练样本,以所述特征数据对应的点击率预估值作为样本标签进行训练得到。
具体的,点击率预估模型的建立过程如下:
(一)确定点击率预估模型的样本数据集;
需要说明的是,点击率(click-through rate,CTR)预估模型基于深度学习wide&deep类型,本申请选用deepFM模型进行点击率预估模型的确定。
首先,为deepFM模型构建特征数据,具体特征数据如表1所示,表1如下:
表1
Figure BDA0002005817870000101
从表1中可以看出,为deepFM模型构建的特征数据也即播单的特征数据。
其次,构建播单样本集,播单样本集中的每个样本包括表1中所示的内容,包括离散特征和连续特征,具体为:用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数。需要说明的是,同一个用户ID可以对应多个不同的播单ID。
最后,确定播单样本集中每个样本对应的目标值,该目标值为:播单的点击率。
需要说明的是,没有播单的点击记录,则用户观看的视频在播单中的占比超过阈值,则假定播单被用户点击过。
(二)基于样本数据集建立点击率预估模型;
参见图5,本发明一实施例公开的一种基于样本数据建立点击率预估模型的方法流程图,该方法包括步骤:
步骤S501、从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值,非热度用户样本和所述非热度用户样本对应的目标值,构成模型训练集,所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同;
其中,样本数据集包括:播单样本集和播单样本集中每个样本对应的目标值。
本实施例中所述的热度用户样本指的是:在预设时间段内,热度用户样本中的用户ID有历史交互数据,比如,用户ID在七天内有过视频观看行为。
非热度用户样本指的是:在预设时间段内,非热度用户样本中的用户ID没有历史交互数据,比如,用户ID在七天内没有过视频观看行为。
需要说明的是,从样本数据集中选取的热度用户样本和非热度用户样本为随机选取的。
步骤S502、将所述模型训练集中各个样本的离散特征用one-hot表示,得到目标模型训练集;
one-hot是一种有效编码,这种编码主要用于深度学习的特征处理阶段,用来构造特征向量以作为模型的输入。
步骤S503、将所述目标模型训练集带入初始点击率预估模型,得到所述点击率预估模型的模型参数;
步骤S504、基于所述模型参数建立点击率预估模型。
需要说明的是,为保证所建立的点击率预估模型的准确性,在建立点击率预估模型后,还可以采用模型测试集对点击率预估模型的性能进行评估,评估过程具体如下:
在从样本数据集中选取模型训练集时,还可以从样本数据集中选取模型测试集,该过程具体为:
从样本数据集中选取等数量的热度用户样本和非热度用户样本,以及热度用户样本对应的目标值和非热度用户样本对应的目标值。
用选取的70%热度用户样本及其对应的目标值,和选取的70%非热度用户样本及其对应的目标值,构成模型训练集。
用选取的剩余的30%热度用户样本及其对应的目标值,和选取的剩余的30%非热度用户样本及其对应的目标值,构成模型测试集。
将模型测试集中的每个播单样本输入至建立的点击率预估模型,得到对应的预估目标值;
通过将模型测试集中的每个播单样本的目标值和预估目标值进行比较,对点击率预估模型的准确性进行校验。
步骤S404、基于第二预设筛选规则,从所述播单候选集中选取所述目标播单。
其中,第二预设筛选规则可以为选取第二预设数量的点击率预估值大的播单作为目标播单。
在实际应用中,可以将播单候选集中的播单,按照点击率预估值由大到小的顺序进行排序,将排名靠前的,比如top50的播单选为目标播单。
或者,选取点击率预估值大于预设数值的播单作为目标播单。
综上可知,本发明根据历史交互数据和内容属性信息对播单数据库进行了初步筛选,得到播单候选集,然后将播单候选集中的每个播单的特征数据作为点击率预估模型的输入,得到每个播单的点击率预估值,选取满足第二预设筛选规则的播单作为目标播单。由于本发明在确定目标播单时,综合考虑了播单的用户特征和播单特征的多方面因素,用户特征包括:离散特征中的用户ID和用户历史交互数据,以及连续特征中的标签置信度;播单特征包括:离散特征中的播单ID和播单内容ID,以及连续特征中的播单标签出现次数,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
与上述方法实施例相对应,本发明还公开了一种单播推荐系统。
参见图6,本发明一实施例公开的一种播单推荐系统的结构示意图,该系统包括:
筛选单元601,用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单;
其中,历史交互数据指的是用户在客户端中通过交互产生的历史数据。
内容属性信息指的是播单中封装的内容的属性信息,比如,目标播单为视频播单,则内容属性信息指的是视频属性信息,包括:视频ID,视频标签等等;目标播单为文本播单,则内容属性信息指的是文本属性信息,包括:文本ID、文本标签等等;目标播单为图形播单,则内容属性信息指的是图形属性信息,包括:图形ID、图形标签等等。
推送单元602,用于推送所述目标播单。
当从播单数据库中筛选出目标播单后,就可以将该目标播单推送给用户,以供用户从目标播单中选取所需内容。
综上可知,本发明公开的播单推荐系统,根据历史交互数据和内容属性信息对播单数据库进行筛选,得到用于推送的目标播单,相对于传统方案只适合推动因素较为单一的内容,本发明在确定目标播单时,同时结合了历史交互数据和内容属性信息两方面内容,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
需要说明的是,根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的过程有多种实现方式。
因此,为进一步优化上述实施例,筛选单元601具体可以包括:第一构建子单元、第二构建子单元、第一计算子单元和第一筛选子单元。
其中:
第一构建子单元,用于根据用户标签和用户标签置信度构建用户特征向量;
其中,用户标签是根据用户在客户端中通过交互产生的历史数据来进行评判,并从标签全集中将符合评判结果的标签赋予给用户而形成的一种专属于该用户的标签组合。
用户标签置信度表示:一个标签对用户的表示程度,比如,用户喜欢浏览明星类内容,则此类标签对应的用户标签置信度会相应提高,例如:为0.56。若用户没有被赋予某一个标签,则对应的用户标签置信度为0。
第二构建子单元,用于根据播单标签和播单标签置信度构建播单特征向量;
其中,播单标签是后台管理人员预先根据播单中所包含的内容的属性信息,并从标签全集中将符合属性信息的标签赋予给播单而形成的一种专属于该播单的标签组合。通过统计学方式获取播单标签置信度。在实际应用中,可以根据播单内容的增减变化,实时更新播单标签和播单标签置信度。
第一计算子单元,用于采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度;
第一筛选子单元,用于基于相似度数值和第一预设筛选规则选取所述目标播单。
其中,第一预设筛选规则可以为选取第一预设数量的相似度数值大的播单作为目标播单。
具体的,可以按照相似度值从大到小的顺序,对各个播单进行排序,然后选取第一预设数量的排名靠前的播单作为目标播单。
或者,选取相似度值大于预设数值的播单作为目标播单。
其中,目标播单中的每个播单的相似度数值大于任意一个未被选取的播单的相似度数值。
综上可知,本发明在根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单时,根据用户标签和用户标签置信度构建用户特征向量,根据播单标签和播单标签置信度构建播单特征向量,并采用余弦公式计算用户特征向量和播单特征向量的相似度,并选取相似度高的播单作为目标播单。由于本发明在选取目标播单时,综合了用户标签、用户标签置信度以及播单标签置信度,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
为进一步优化上述实施例,筛选单元601具体还可以包括:第三构建子单元、第四构建子单元、第二计算子单元和第一选取子单元。
其中:
第三构建子单元,用于获取预设时间段内的历史交互数据,构建历史交互数据向量;
第四构建子单元,用于基于所述播单中各个内容属性,构建播单向量;
第二计算子单元,用于基于所述历史交互数据向量和所述播单向量,计算有过历史交互数据的内容在每个播单中的占比;
第一选取子单元,用于选取占比大于或等于占比阈值的播单,得到所述目标播单。
在实际应用中,占比阈值可以认为设定,或是将全量perij的平均值作为占比阈值。
综上可知,本发明在根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单时,获取预设时间段内的历史交互数据,构建历史交互数据向量,基于所述播单中各个内容属性,构建播单向量,基于所述历史交互数据向量和所述播单向量,计算有过历史交互数据的内容在每个播单中的占比,并选取占比大于或等于占比阈值的播单,得到所述目标播单。由于本发明选取目标播单时,综合了利用交互数据以及播单中的各个内容属性,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
为进一步优化上述实施例,筛选单元601具体还可以包括:第二筛选子单元、查找子单元、点击率预估值获取子单元和第二选取子单元。
其中:
第二筛选子单元,用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集;
查找子单元,用于从预设数据库中,查找所述播单候选集中每个所述播单的特征数据,所述特征数据包括:用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数;
点击率预估值获取子单元,用于将每个所述播单的特征数据作为点击率预估模型的输入,得到每个所述播单的点击率预估值,所述点击率预估模型为,以对播单的特征数据作为训练样本,以所述特征数据对应的点击率预估值作为样本标签进行训练得到;
第二选取子单元,用于基于第二预设筛选规则,从所述播单候选集中选取所述目标播单。
上述实施例中,筛选单元601还包括:点击率预估模型建立子单元,所述点击率预估模型建立子单元用于:
从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值,非热度用户样本和所述非热度用户样本对应的目标值,构成模型训练集,其中,所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同,所述样本数据集包括:播单样本集和播单样本集中每个样本对应的目标值,所述目标值为播单的点击率;
将所述模型训练集中各个样本的离散特征用one-hot表示,得到目标模型训练集;
将所述目标模型训练集带入初始点击率预估模型,得到所述点击率预估模型的模型参数;
基于所述模型参数建立点击率预估模型。
综上可知,本发明根据历史交互数据和内容属性信息对播单数据库进行了初步筛选,得到播单候选集,然后将播单候选集中的每个播单的特征数据作为点击率预估模型的输入,得到每个播单的点击率预估值,选取满足第二预设筛选规则的播单作为目标播单。由于本发明在确定目标播单时,综合考虑了播单的用户特征和播单特征的多方面因素,用户特征包括:离散特征中的用户ID和用户历史交互数据,以及连续特征中的标签置信度;播单特征包括:离散特征中的播单ID和播单内容ID,以及连续特征中的播单标签出现次数,因此使得推荐的目标播单更为准确,可以很好地匹配播单形式的推荐,从而提高了用户体验。
需要特别说明的是,系统实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种播单推荐方法,其特征在于,包括:
根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单;
推送所述目标播单;
其中,所述根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单具体包括:
根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集;
从预设数据库中,查找所述播单候选集中每个所述播单的特征数据,所述特征数据包括:用户特征和播单特征;
将每个所述播单的特征数据作为点击率预估模型的输入,得到每个所述播单的点击率预估值,所述点击率预估模型为,以对播单的特征数据作为训练样本,以所述特征数据对应的点击率预估值作为样本标签进行训练得到;
基于第二预设筛选规则,从所述播单候选集中选取所述目标播单。
2.根据权利要求1所述的播单推荐方法,其特征在于,所述用户特征包括:用户ID、用户历史交互数据和标签置信度,所述播单特征包括:播单ID、播单内容ID和播单标签出现次数。
3.根据权利要求2所述的播单推荐方法,其特征在于,所述点击率预估模型的建立过程包括:
从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值,非热度用户样本和所述非热度用户样本对应的目标值,构成模型训练集,其中,所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同,所述样本数据集包括:播单样本集和播单样本集中每个样本对应的目标值,所述目标值为播单的点击率;
将所述模型训练集中各个样本的离散特征用one-hot表示,得到目标模型训练集;
将所述目标模型训练集带入初始点击率预估模型,得到所述点击率预估模型的模型参数;
基于所述模型参数建立点击率预估模型。
4.一种播单推荐系统,其特征在于,包括:
筛选单元,用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单;
推送单元,用于推送所述目标播单;
其中,所述筛选单元具体包括:
第二筛选子单元,用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集;
查找子单元,用于从预设数据库中,查找所述播单候选集中每个所述播单的特征数据,所述特征数据包括:用户特征和播单特征;
点击率预估值获取子单元,用于将每个所述播单的特征数据作为点击率预估模型的输入,得到每个所述播单的点击率预估值,所述点击率预估模型为,以对播单的特征数据作为训练样本,以所述特征数据对应的点击率预估值作为样本标签进行训练得到;
第二选取子单元,用于基于第二预设筛选规则,从所述播单候选集中选取所述目标播单。
5.根据权利要求4所述的播单推荐系统,其特征在于,所述用户特征包括:用户ID、用户历史交互数据和标签置信度,所述播单特征包括:播单ID、播单内容ID和播单标签出现次数。
6.根据权利要求5所述的播单推荐系统,其特征在于,所述筛选单元还包括:点击率预估模型建立子单元,所述点击率预估模型建立子单元用于:
从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值,非热度用户样本和所述非热度用户样本对应的目标值,构成模型训练集,其中,所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同,所述样本数据集包括:播单样本集和播单样本集中每个样本对应的目标值,所述目标值为播单的点击率;
将所述模型训练集中各个样本的离散特征用one-hot表示,得到目标模型训练集;
将所述目标模型训练集带入初始点击率预估模型,得到所述点击率预估模型的模型参数;
基于所述模型参数建立点击率预估模型。
CN201910227980.1A 2019-03-25 2019-03-25 一种播单推荐方法及系统 Active CN109982155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910227980.1A CN109982155B (zh) 2019-03-25 2019-03-25 一种播单推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910227980.1A CN109982155B (zh) 2019-03-25 2019-03-25 一种播单推荐方法及系统

Publications (2)

Publication Number Publication Date
CN109982155A CN109982155A (zh) 2019-07-05
CN109982155B true CN109982155B (zh) 2021-10-12

Family

ID=67080337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910227980.1A Active CN109982155B (zh) 2019-03-25 2019-03-25 一种播单推荐方法及系统

Country Status (1)

Country Link
CN (1) CN109982155B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851647B (zh) * 2019-09-29 2022-10-18 广州荔支网络技术有限公司 音频内容流量智能分配方法、装置、设备及可读存储介质
CN111026904B (zh) * 2019-11-07 2023-06-23 广州荔支网络技术有限公司 一种基于内容画像的播单评分方法
CN111259190B (zh) * 2020-01-04 2023-12-15 央广智能网联汽车数字媒体(上海)有限公司 一种音频电台流的编排及展示方法
CN111475721B (zh) * 2020-03-31 2023-12-29 百度在线网络技术(北京)有限公司 信息推送方法、装置、设备及存储介质
EP3916585A4 (en) 2020-03-31 2022-04-13 Baidu Online Network Technology (Beijing) Co., Ltd INFORMATION OUTPUT METHOD AND DEVICE, DEVICE AND STORAGE MEDIUM
CN112804080B (zh) * 2020-12-24 2022-09-30 中国科学院信息工程研究所 一种访问控制初始化智能推荐方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262398A (ja) * 2007-04-12 2008-10-30 Toshiba Corp 情報推薦システムおよび情報推薦方法
CN102402625A (zh) * 2011-12-28 2012-04-04 深圳市五巨科技有限公司 一种音乐推荐的方法及系统
CN102654860A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN104486295A (zh) * 2014-11-26 2015-04-01 小米科技有限责任公司 音频播放方法和装置
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN104991900A (zh) * 2015-06-09 2015-10-21 腾讯科技(深圳)有限公司 一种音乐数据推送方法及装置
CN105787069A (zh) * 2016-03-01 2016-07-20 中山大学深圳研究院 一种个性化的音乐推荐方法
CN105812937A (zh) * 2014-12-30 2016-07-27 Tcl集团股份有限公司 一种电视节目推荐方法和电视节目推荐装置
CN106028126A (zh) * 2016-05-17 2016-10-12 Tcl集团股份有限公司 一种节目推送方法及系统
CN106844504A (zh) * 2016-12-27 2017-06-13 广州酷狗计算机科技有限公司 一种发送歌单标识的方法和装置
CN108509534A (zh) * 2018-03-15 2018-09-07 华南理工大学 基于深度学习的个性化音乐推荐系统及其实现方法
CN109408665A (zh) * 2018-12-29 2019-03-01 咪咕音乐有限公司 一种信息推荐方法及装置、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100997541B1 (ko) * 2008-10-08 2010-11-30 인하대학교 산학협력단 신상품 추천문제 해결을 위한 내용기반 필터링과 협업 필터링을 혼합한 사용자 프로파일 기반 이미지 추천 방법 및 장치
US9678993B2 (en) * 2013-03-14 2017-06-13 Shutterstock, Inc. Context based systems and methods for presenting media file annotation recommendations

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262398A (ja) * 2007-04-12 2008-10-30 Toshiba Corp 情報推薦システムおよび情報推薦方法
CN102654860A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN102402625A (zh) * 2011-12-28 2012-04-04 深圳市五巨科技有限公司 一种音乐推荐的方法及系统
CN104486295A (zh) * 2014-11-26 2015-04-01 小米科技有限责任公司 音频播放方法和装置
CN105812937A (zh) * 2014-12-30 2016-07-27 Tcl集团股份有限公司 一种电视节目推荐方法和电视节目推荐装置
CN104991900A (zh) * 2015-06-09 2015-10-21 腾讯科技(深圳)有限公司 一种音乐数据推送方法及装置
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN105787069A (zh) * 2016-03-01 2016-07-20 中山大学深圳研究院 一种个性化的音乐推荐方法
CN106028126A (zh) * 2016-05-17 2016-10-12 Tcl集团股份有限公司 一种节目推送方法及系统
CN106844504A (zh) * 2016-12-27 2017-06-13 广州酷狗计算机科技有限公司 一种发送歌单标识的方法和装置
CN108509534A (zh) * 2018-03-15 2018-09-07 华南理工大学 基于深度学习的个性化音乐推荐系统及其实现方法
CN109408665A (zh) * 2018-12-29 2019-03-01 咪咕音乐有限公司 一种信息推荐方法及装置、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于标签的音乐推荐系统设计与实现";张嘉威;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;全文 *

Also Published As

Publication number Publication date
CN109982155A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109982155B (zh) 一种播单推荐方法及系统
CN108629665B (zh) 一种个性化商品推荐方法和系统
CN108694223B (zh) 一种用户画像库的构建方法及装置
CN104317835B (zh) 视频终端的新用户推荐方法
CN104199896B (zh) 基于特征分类的视频相似度确定及视频推荐方法
Shani et al. Evaluating recommendation systems
CN108875022B (zh) 一种视频推荐方法及装置
CN110941740A (zh) 视频推荐方法及计算机可读存储介质
CN107888950A (zh) 一种推荐视频的方法和系统
US20090006368A1 (en) Automatic Video Recommendation
US20080294625A1 (en) Item recommendation system
CN104462573A (zh) 一种视频搜索结果展示方法及装置
US20110208750A1 (en) Information processing device, importance calculation method, and program
CN110929052A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
KR101620748B1 (ko) 아이템 추천 방법 및 아이템 추천 장치
CN109168047B (zh) 视频推荐方法、装置、服务器及存储介质
CN109165847B (zh) 一种基于推荐系统的项目推荐方法、装置及设备
CN105430505B (zh) 一种基于组合策略的iptv节目推荐方法
CN103886090A (zh) 基于用户喜好的内容推荐方法及装置
CN106127506B (zh) 一种基于主动学习解决商品冷启动问题的推荐方法
US20090144226A1 (en) Information processing device and method, and program
CN112579913A (zh) 一种视频推荐方法、装置、设备和计算机可读存储介质
CN107105349A (zh) 一种视频推荐方法
CN112100513A (zh) 基于知识图谱的推荐方法、装置、设备及计算机可读介质
CN106162351A (zh) 一种视频推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant