CN108650532B - 有线电视点播节目推荐方法及系统 - Google Patents

有线电视点播节目推荐方法及系统 Download PDF

Info

Publication number
CN108650532B
CN108650532B CN201810241067.2A CN201810241067A CN108650532B CN 108650532 B CN108650532 B CN 108650532B CN 201810241067 A CN201810241067 A CN 201810241067A CN 108650532 B CN108650532 B CN 108650532B
Authority
CN
China
Prior art keywords
program
user
similarity
behavior data
programs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810241067.2A
Other languages
English (en)
Other versions
CN108650532A (zh
Inventor
王妍
柴剑平
李波
冯熙
殷复莲
江茜
檀雷雷
韩晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201810241067.2A priority Critical patent/CN108650532B/zh
Publication of CN108650532A publication Critical patent/CN108650532A/zh
Application granted granted Critical
Publication of CN108650532B publication Critical patent/CN108650532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/252Processing of multiple end-users' preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供一种有线电视点播节目推荐方法及系统,包括:采集用户收视行为数据和节目元数据;将收视行为数据一部分用于训练,一部分用于测试;转化训练收视行为数据为用户对节目评分,构成用户‑节目的评分矩阵;标准化节目元数据;根据评分矩阵和元数据采用多种分析方法获得多个节目候选集;对多个待推荐的节目候选集进行加权组合,根据测试集判断各种加权组合准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。上述推荐方法及系统实现对用户的个性化推荐,提高推荐精度与效率。

Description

有线电视点播节目推荐方法及系统
技术领域
本发明涉及有线电视技术领域,更为具体地,涉及一种有线电视点播节目推荐方法及系统。
背景技术
推荐系统常被用户解决信息过载问题,为用户提供个性化的服务。现有的推荐方法主要包括协同过滤方法和基于内容推荐方法两大类,其中以协同过滤应用最为广泛。具体地,协同过滤方法大致分为基于内存的方法和基于模型的方法两种,前者以基于用户/项目相似度的近邻推荐为代表,后者以基于矩阵分解的推荐为代表。
大数据时代,用户行为数据呈现海量增长趋势,推荐系统的稀疏性问题日益凸显。
稀疏性问题是指,系统中的用户和项目数量非常大,用户之间的行为重叠非常少。并且,数据稀疏度定义为用户对项目的已有行为数量占所有可能存在的行为数量的百分比。现有的解决稀疏性问题的办法包括:扩散方法,从一阶关联提升为二阶关联、高阶关联;添加缺省评分方法;迭代寻优方法;转移相似性方法等。
此外,单一的推荐方法往往不能取得理想的效果。
发明内容
鉴于上述问题,本发明的目的是提供一种实现对用户的个性化推荐,提高推荐精度与效率的有线电视点播节目推荐方法及系统。
根据本发明的一个方面,提供一种有线电视点播节目推荐系统,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;将第二采集单元采集的元数据进行标准化;节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;推荐列表生成部,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
所述的有线电视点播节目推荐系统,其中,所述数据预处理部包括:第一数据清洗模块,对训练集的训练收视行为数据进行清洗;第二数据清洗模块,对第二采集单元采集的元数据数据进行清洗;转化模块,对清洗后的训练收视行为数据和元数据进行转化,包括筛选单元,对用户和节目进行筛选,去除不活跃的用户和冷门节目;收视行为转化单元,用户的训练收视行为数据转化为用户对节目的评分;评分变换单元,根据四舍五入法将评分转换为取值为0或1的整数;评分矩阵构建单元,将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵;元数据处理单元,对节目的元数据的变量进行预处理,所述预处理包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。
所述的有线电视点播节目推荐系统,其中,所述第一数据清洗模块包括:第一判断单元,判断同一用户的训练收视行为数据起始时间是否相同,将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元;第一筛选单元,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;第二判断单元,判断同一用户的训练收视行为数据结束时间是否相同,将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元;第二筛选单元,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;排序单元,对训练用户收视行为数据按用户、起始时间降序排列;第三判断单元,判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,将重叠的训练收视行为数据发送给第三筛选单元;第三筛选单元,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。
所述的有线电视点播节目推荐系统,其中,所述第二数据清洗模块包括:编辑距离获得单元,计算原始点播节目名称与爬取的节目名称之间的编辑距离;第四判断单元,判断所述编辑距离是否大于设定阈值,当所述编辑距离大于设定阈值时,发送信号给第四筛选单元;第四筛选单元,删除编辑距离大于设定阈值的爬取的节目的元数据。
所述的有线电视点播节目推荐系统,其中,所述节目候选集获得部还包括:相似度获得模块,计算用户相似度和节目相似度,包括:
相似度模型构建单元,根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,
Figure BDA0001605245040000031
其中,pearsonij为节目i和节目j的皮尔逊相关系数;U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,
Figure BDA0001605245040000032
表示所有用户对节目i的平均评分;
利用余弦相似度根据下式(2)构建第二相似度模型,
Figure BDA0001605245040000033
其中,cosineij为节目i和节目j的余弦相似度;
利用Jaccard相似度根据下式(3)构建第三相似度模型,
Figure BDA0001605245040000034
其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;
邻居集合确定单元,运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;
邻居评分确定单元,根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure BDA0001605245040000035
其中,
Figure BDA0001605245040000036
是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;
节目候选集确定单元,根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。
所述的有线电视点播节目推荐系统,其中,所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元,其中:
加权组合单元,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;
准确度计算单元,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,
Figure BDA0001605245040000037
其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;
召回率计算单元,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,
Figure BDA0001605245040000041
其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;
推荐列表生成单元,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
根据本发明的另一个方面,提供一种有线电视点播节目推荐方法,包括:步骤S1,采集有线电视用户的收视行为数据,爬取网上节目的元数据;步骤S2,将所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;步骤S3,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;步骤S4,将节目的元数据进行标准化;步骤S5,根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集,所述分析方法包括下述方法中的两种或多种:采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;步骤S6,对多个待推荐的节目候选集按照多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
所述的有线电视点播节目推荐方法,其中,所述步骤S3包括:对用户的训练收视行为数据进行清洗;对用户和节目进行筛选,去除不活跃的用户和冷门节目;用户的训练收视行为数据转化为用户对节目的评分;根据四舍五入法将评分转换为取值为0或1的整数,构成各用户对各节目的用户-评分矩阵。
所述的有线电视点播节目推荐方法,其中,所述对用户的训练收视行为数据进行清洗的方法包括:判断同一用户的训练收视行为数据起始时间是否相同,如果相同,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;判断同一用户的训练收视行为数据结束时间是否相同,如果相同,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;对用户的训练收视行为数据按用户、起始时间降序排列;判断同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,如果重叠,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。
所述的有线电视点播节目推荐方法,其中,所述步骤S4包括:对节目的元数据进行清洗;对清洗后的节目的元数据的变量进行预处理,包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。
所述的有线电视点播节目推荐方法,其中,所述对节目的元数据进行清洗的方法包括:计算原始点播节目名称与爬取的节目名称之间的编辑距离;判断所述编辑距离是否大于设定阈值,删除编辑距离大于设定阈值的爬取的节目的元数据。
所述的有线电视点播节目推荐方法,其中,在步骤S5中,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的节目候选集的方法包括:
根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,
Figure BDA0001605245040000051
其中,pearsonij为节目i和节目j的皮尔逊相关系数;表示对节目评分的用户集合,U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,
Figure BDA0001605245040000052
表示所有用户对节目i的平均评分;
利用余弦相似度根据下式(2)构建第二相似度模型,
Figure BDA0001605245040000053
其中,cosineij为节目i和节目j的余弦相似度;
利用Jaccard相似度根据下式(3)构建第三相似度模型,
Figure BDA0001605245040000054
其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;
运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;
根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure BDA0001605245040000055
其中,
Figure BDA0001605245040000061
是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;
根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。
所述的有线电视点播节目推荐方法,其中,所述步骤S6包括加权组合步骤、准确度计算步骤或/和召回率计算步骤以及推荐列表生成步骤,其中:
加权组合步骤,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;
准确度计算步骤,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,
Figure BDA0001605245040000062
其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;
召回率计算步骤,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,
Figure BDA0001605245040000063
其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;
推荐列表生成步骤,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
本发明所述有线电视点播节目推荐方法及系统,运用多种矩阵分解方法对比、混合以保证一定的推荐精度与效率,并为用户生成个性化的电影推荐列表。所述有线电视点播节目推荐方法及系统能够帮助网络运营商为用户提供针对性服务,提升用户点播体验。
附图说明
通过参考以下结合附图的说明,随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是本发明所述有线电视点播节目推荐系统的构成框图;
图2是本发明所述有线电视点播节目推荐方法的流程图。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明有线电视点播节目推荐系统的构成框图,如图1所示,所述有线电视点播节目推荐系统包括:
采集部1,包括第一采集单元11和第二采集单元12,所述第一采集单元11采集有线电视用户的收视行为数据,所述收视行为数据包括收看起始时间、结束时间、收看时长、评分、评价等用户对电视节目的收视行为,第二采集单元12爬取网上节目的元数据,所述元数据包括节目名称、导演、主演、演员、国家、年代、地区、类型、时长、评分、票房等;
分类部2,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;
数据预处理部3,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;将第二采集单元采集的元数据进行标准化,例如,数据的归一化处理,即将元数据统一映射到[0,1]区间上,比如min-max标准化(离差标准化),是对原始元数据的线性变换,使结果落到[0,1]区间;
节目候选集获得部4,根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集,包括第一分析模块41、第二分析模块42、第三分析模块43和第四分析模块44,其中,第一分析模块41采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块42采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块43根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块44,根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;
推荐列表生成部5,对节目候选集获得部4的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表,所述推荐列表包括用户、节目的有序列表、相似用户列表和相似节目列表。
在本发明的一个实施例中,数据预处理部3从收视行为数据中去除无效的收视记录,例如无收视行为的记录、异常收视记录(例如一直开机的收视行为等极端收视行为)等,对元数据进行匹配、判断并去除不一致的信息,例如,将用户的收视行为数据存储到收视库,将节目的播出数据存储到播出库,去除播出库、收视库或/和节目单中的信息不一致的信息,并将有效的收视行为数据转换为合适的形式,具体地,包括:
第一数据清洗模块31,对训练集的训练收视行为数据进行清洗;
第二数据清洗模块32,对第二采集单元采集的元数据数据进行清洗;
转化模块33,对清洗后的训练收视行为数据和元数据进行转化,包括筛选单元331,对用户和节目进行筛选,去除不活跃的用户和冷门节目;收视行为转化单元332,用户的训练收视行为数据转化为用户对节目的评分;评分变换单元333,根据四舍五入法将评分转换为取值为0或1的整数;评分矩阵构建单元334,将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵;元数据处理单元335,对节目的元数据的变量进行预处理,所述预处理包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类,优选地,对字符属性的变量进行人工分类,例如,对电影类型进行分类,将电影分成动作/冒险/科幻等类型,采用人工分类的原因是担心爬虫数据质量不高。
上述数据预处理部3通过对用户点播节目数据的收集与清洗,可以提高推荐精度与效率。
优选地,第一数据清洗模块31包括:
第一判断单元311,判断同一用户的训练收视行为数据起始时间是否相同,将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元;
第一筛选单元312,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;
第二判断单元313,判断同一用户的训练收视行为数据结束时间是否相同,将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元;
第二筛选单元314,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;
排序单元315,对训练用户收视行为数据按用户、起始时间降序排列;
第三判断单元316,判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,将重叠的训练收视行为数据发送给第三筛选单元;
第三筛选单元317,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。
另外,优选地,第二数据清洗模块32包括:
编辑距离获得单元321,计算原始点播节目名称与爬取的节目名称之间的编辑距离;
第四判断单元322,判断所述编辑距离是否大于设定阈值,当所述编辑距离大于设定阈值时,发送信号给第四筛选单元;
第四筛选单元323,删除编辑距离大于设定阈值的爬取的节目的元数据。
在本发明的一个实施例中,节目候选集获得部4还包括:
相似度获得模块45,计算用户相似度和节目相似度,包括:
相似度模型构建单元451,根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,
Figure BDA0001605245040000091
其中,pearsonij为节目i和节目j的皮尔逊相关系数;U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,
Figure BDA0001605245040000092
表示所有用户对节目i的平均评分;
利用余弦相似度根据下式(2)构建第二相似度模型,
Figure BDA0001605245040000093
其中,cosineij为节目i和节目j的余弦相似度;
利用Jaccard相似度根据下式(3)构建第三相似度模型,
Figure BDA0001605245040000094
其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;
邻居集合确定单元452,运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;
邻居评分确定单元453,根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure BDA0001605245040000095
其中,
Figure BDA0001605245040000096
是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;
节目候选集确定单元454,根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。
在本发明的一个实施例中,推荐列表生成部5包括加权组合单元51、准确度计算单元52或/和召回率计算单元53以及推荐列表生成单元54,其中:
加权组合单元51,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;
准确度计算单元52,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,
Figure BDA0001605245040000097
其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;
召回率计算单元53,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,
Figure BDA0001605245040000101
其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;
推荐列表生成单元54,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
图2是本发明所述有线电视点播节目推荐方法的流程图,如图2所示,所述有线电视点播节目推荐方法包括:
步骤S1,采集有线电视用户的收视行为数据,爬取网上节目的元数据;
步骤S2,将所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;
步骤S3,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,即
Figure BDA0001605245040000102
每个用户对每个节目的评分构成用户-节目的评分矩阵;
步骤S4,将节目的元数据进行标准化;
步骤S5,根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集,所述分析方法包括下述方法中的两种或多种:采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度(例如利用皮尔逊相关系数、余弦相似度、平方距离倒数相似度以及Jaccard相似度等计算用户相似度或电影节目相似度),运用邻域推荐模型生成待推荐的第二节目候选集C2;根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;
步骤S6,对多个待推荐的节目候选集按照多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表,所述推荐列表包括用户、节目的有序列表、相似用户列表和相似节目列表。
在本发明的一个实施例中,步骤S3包括:
步骤S31,对用户的训练收视行为数据进行清洗;
步骤S32,对用户和节目进行筛选,去除不活跃的用户和冷门节目,例如,不活跃的用户可以是点播节目个数较少或/和时长较短的用户,也可以对用户按照点播节目个数进行排序,最后设定百分比(例如5%)的用户;冷门节目可以是被点播次数较少、点播时长较短的节目,也可以对节目按照被点播次数进行排序,最后设定百分比(例如5%)的节目;
步骤S33,用户的训练收视行为数据转化为用户对节目的评分;
步骤S34,根据四舍五入法将评分转换为取值为0或1的整数,构成各用户对各节目的用户-评分矩阵。
优选地,步骤S31包括:
判断同一用户的训练收视行为数据起始时间是否相同,如果相同,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;
判断同一用户的训练收视行为数据结束时间是否相同,如果相同,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;
对用户的训练收视行为数据按用户、起始时间降序排列;
判断同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,如果重叠,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。
在本发明的一个实施例中,步骤S4包括:
步骤S41,对节目的元数据进行清洗;
步骤S42对清洗后的节目的元数据的变量进行预处理,包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。
优选地,步骤S41包括:
计算原始点播节目名称与爬取的节目名称之间的编辑距离;
判断所述编辑距离是否大于设定阈值,删除编辑距离大于设定阈值的爬取的节目的元数据。
在本发明的一个实施例中,在步骤S5中,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的节目候选集的方法包括:
根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,
Figure BDA0001605245040000111
其中,pearsonij为节目i和节目j的皮尔逊相关系数;表示对节目评分的用户集合,U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,
Figure BDA0001605245040000112
表示所有用户对节目i的平均评分;
利用余弦相似度根据下式(2)构建第二相似度模型,
Figure BDA0001605245040000113
其中,cosineij为节目i和节目j的余弦相似度;
利用Jaccard相似度根据下式(3)构建第三相似度模型,
Figure BDA0001605245040000121
其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;
运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;
根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure BDA0001605245040000122
其中,
Figure BDA0001605245040000123
是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;
根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。
在本发明的一个实施例中,步骤S6包括加权组合步骤、准确度计算步骤或/和召回率计算步骤以及推荐列表生成步骤,其中:
加权组合步骤,对节目候选集获得部的多个待推荐的节目候选集按多种策略(例如,交集、取并集、加权等策略)进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;
准确度计算步骤,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,
Figure BDA0001605245040000124
其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;
召回率计算步骤,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,
Figure BDA0001605245040000125
其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;
推荐列表生成步骤,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
优选地,步骤S6还包括:对于待推荐电影候选集为空的用户,选取热门节目和节目评价好的电影作为推荐结果,其中,可以按点播时长由长到短对电影进行排序,取排序靠前的设定数量的节目作为节目;节目评价是指根据票房、评分、获奖次数、播放次数计算节目的综合得分,得分高的节目即为节目评价好的节目。
以上内容示出了本发明所述有线电视点播节目推荐方法及系统的多个实施例,但是本发明并不限于此,例如:
考虑不同用户评分尺度的差别,利用余弦相似度根据下式(7)构建第二相似度模型,
Figure BDA0001605245040000131
其中,cosine_advancedij为节目i和节目j的余弦相似度;
又如,考虑全局用户行为的影响,根据下式(8)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure BDA0001605245040000132
其中,bui为偏置项,bui=b+bu+bi,b表示全部用户评分项的均值,bu代表用户u的平均评分与全局评分的偏差,bi代表节目i的平均评分与全局评分的偏差。
本发明所述有线电视点播节目推荐方法及系统通过有效的数据处理与分析,能够判定用户对未收视节目感兴趣的程度,提高节目的投放效率,达到精准化营销与个性化服务的目的。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (13)

1.一种有线电视点播节目推荐系统,其特征在于,包括:
采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;
分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;
数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;将第二采集单元采集的元数据进行标准化;
节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据元数据,计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;
推荐列表生成部,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
2.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述数据预处理部包括:
第一数据清洗模块,对训练集的训练收视行为数据进行清洗;
第二数据清洗模块,对第二采集单元采集的元数据数据进行清洗;
转化模块,对清洗后的训练收视行为数据和元数据进行转化,包括筛选单元,对用户和节目进行筛选,去除不活跃的用户和冷门节目;收视行为转化单元,用户的训练收视行为数据转化为用户对节目的评分;评分变换单元,根据四舍五入法将评分转换为取值为0或1的整数;评分矩阵构建单元,将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵;元数据处理单元,对节目的元数据的变量进行预处理,所述预处理包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。
3.根据权利要求2所述的有线电视点播节目推荐系统,其特征在于,所述第一数据清洗模块包括:
第一判断单元,判断同一用户的训练收视行为数据起始时间是否相同,将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元;
第一筛选单元,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;
第二判断单元,判断同一用户的训练收视行为数据结束时间是否相同,将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元;
第二筛选单元,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;
排序单元,对训练用户收视行为数据按用户、起始时间降序排列;
第三判断单元,判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,将重叠的训练收视行为数据发送给第三筛选单元;
第三筛选单元,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。
4.根据权利要求2所述的有线电视点播节目推荐系统,其特征在于,所述第二数据清洗模块包括:
编辑距离获得单元,计算原始点播节目名称与爬取的节目名称之间的编辑距离;
第四判断单元,判断所述编辑距离是否大于设定阈值,当所述编辑距离大于设定阈值时,发送信号给第四筛选单元;
第四筛选单元,删除编辑距离大于设定阈值的爬取的节目的元数据。
5.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述节目候选集获得部还包括:
相似度获得模块,计算用户相似度和节目相似度,包括:
相似度模型构建单元,根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,
Figure FDA0002418969380000021
其中,pearsonij为节目i和节目j的皮尔逊相关系数;U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,
Figure FDA0002418969380000024
表示所有用户对节目i的平均评分;
利用余弦相似度根据下式(2)构建第二相似度模型,
Figure FDA0002418969380000022
其中,cosineij为节目i和节目j的余弦相似度;
利用Jaccard相似度根据下式(3)构建第三相似度模型,
Figure FDA0002418969380000023
其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;
邻居集合确定单元,运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;
邻居评分确定单元,根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure FDA0002418969380000031
其中,
Figure FDA0002418969380000032
是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;
节目候选集确定单元,根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。
6.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元,其中:
加权组合单元,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;
准确度计算单元,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,
Figure FDA0002418969380000033
其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;
召回率计算单元,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,
Figure FDA0002418969380000034
其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;
推荐列表生成单元,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
7.一种有线电视点播节目推荐方法,其特征在于,包括:
步骤S1,采集有线电视用户的收视行为数据,爬取网上节目的元数据;
步骤S2,将所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;
步骤S3,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;
步骤S4,将节目的元数据进行标准化;
步骤S5,根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集,所述分析方法包括下述方法中的两种或多种:采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;根据元数据,计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;
步骤S6,对多个待推荐的节目候选集按照多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
8.根据权利要求7所述的有线电视点播节目推荐方法,其特征在于,所述步骤S3包括:
对用户的训练收视行为数据进行清洗;
对用户和节目进行筛选,去除不活跃的用户和冷门节目;
用户的训练收视行为数据转化为用户对节目的评分;
根据四舍五入法将评分转换为取值为0或1的整数,构成各用户对各节目的用户-评分矩阵。
9.根据权利要求8所述的有线电视点播节目推荐方法,其特征在于,所述对用户的训练收视行为数据进行清洗的方法包括:
判断同一用户的训练收视行为数据起始时间是否相同,如果相同,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;
判断同一用户的训练收视行为数据结束时间是否相同,如果相同,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;
对用户的训练收视行为数据按用户、起始时间降序排列;
判断同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,如果重叠,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。
10.根据权利要求7所述的有线电视点播节目推荐方法,其特征在于,所述步骤S4包括:
对节目的元数据进行清洗;
对清洗后的节目的元数据的变量进行预处理,包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。
11.根据权利要求10所述的有线电视点播节目推荐方法,其特征在于,所述对节目的元数据进行清洗的方法包括:
计算原始点播节目名称与爬取的节目名称之间的编辑距离;
判断所述编辑距离是否大于设定阈值,删除编辑距离大于设定阈值的爬取的节目的元数据。
12.根据权利要求7所述的有线电视点播节目推荐方法,其特征在于,在步骤S5中,计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的节目候选集的方法包括:
根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,
Figure FDA0002418969380000051
其中,pearsonij为节目i和节目j的皮尔逊相关系数;表示对节目评分的用户集合,U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,
Figure FDA0002418969380000052
表示所有用户对节目i的平均评分;
利用余弦相似度根据下式(2)构建第二相似度模型,
Figure FDA0002418969380000053
其中,cosineij为节目i和节目j的余弦相似度;
利用Jaccard相似度根据下式(3)构建第三相似度模型,
Figure FDA0002418969380000054
其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;
运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;
根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分
Figure FDA0002418969380000055
其中,
Figure FDA0002418969380000056
是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;
根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。
13.根据权利要求7所述的有线电视点播节目推荐方法,其特征在于,所述步骤S6包括加权组合步骤、准确度计算步骤或/和召回率计算步骤以及推荐列表生成步骤,其中:
加权组合步骤,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;
准确度计算步骤,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,
Figure FDA0002418969380000061
其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;
召回率计算步骤,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,
Figure FDA0002418969380000062
其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;
推荐列表生成步骤,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。
CN201810241067.2A 2018-03-22 2018-03-22 有线电视点播节目推荐方法及系统 Active CN108650532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810241067.2A CN108650532B (zh) 2018-03-22 2018-03-22 有线电视点播节目推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810241067.2A CN108650532B (zh) 2018-03-22 2018-03-22 有线电视点播节目推荐方法及系统

Publications (2)

Publication Number Publication Date
CN108650532A CN108650532A (zh) 2018-10-12
CN108650532B true CN108650532B (zh) 2020-06-12

Family

ID=63744710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810241067.2A Active CN108650532B (zh) 2018-03-22 2018-03-22 有线电视点播节目推荐方法及系统

Country Status (1)

Country Link
CN (1) CN108650532B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508407A (zh) * 2019-01-14 2019-03-22 上海电机学院 融合时间与兴趣相似度的电视产品推荐方法
CN110147853A (zh) * 2019-02-26 2019-08-20 国网吉林省电力有限公司 一种用于电网调控仿真培训的测试教案生成方法及系统
CN110430471B (zh) * 2019-07-24 2021-05-07 山东海看新媒体研究院有限公司 一种基于瞬时计算的电视推荐方法和系统
CN112365447B (zh) * 2020-10-20 2022-08-19 四川长虹电器股份有限公司 一种多维度影视评分方法
CN112836600B (zh) * 2021-01-19 2023-12-22 新华智云科技有限公司 一种视频相似度的计算方法与系统
CN114222170A (zh) * 2021-12-06 2022-03-22 深圳Tcl新技术有限公司 电视节目推荐方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN103106285A (zh) * 2013-03-04 2013-05-15 中国信息安全测评中心 一种基于信息安全专业社交网络平台的推荐算法
CN105430505A (zh) * 2015-11-13 2016-03-23 云南大学 一种基于组合策略的iptv节目推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN103106285A (zh) * 2013-03-04 2013-05-15 中国信息安全测评中心 一种基于信息安全专业社交网络平台的推荐算法
CN105430505A (zh) * 2015-11-13 2016-03-23 云南大学 一种基于组合策略的iptv节目推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RESEARCH OF USERS" VIEWING HABITS BASED ON CLUSTERING METHOD;江茜等;《Proceedings of CCIS2014》;20141130;全文 *
Spark框架下的受众分群及矩阵分解的推荐算法研究;周虹君等;《中国新通信》;20161130;全文 *

Also Published As

Publication number Publication date
CN108650532A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108650532B (zh) 有线电视点播节目推荐方法及系统
CN103559206B (zh) 一种信息推荐方法及系统
CN110704674B (zh) 一种视频播放完整度预测方法及装置
US9875441B2 (en) Question recommending method, apparatus and system
CN101489107B (zh) 一种基于人口属性关键字向量的协作过滤推荐方法
CN107483982B (zh) 一种主播推荐方法与装置
US20120323725A1 (en) Systems and methods for supplementing content-based attributes with collaborative rating attributes for recommending or filtering items
CN110337012B (zh) 基于互联网电视平台的智能推荐方法和装置
US20080294625A1 (en) Item recommendation system
CN105653572A (zh) 一种资源的处理方法及装置
CN105095187A (zh) 一种搜索意图识别方法及装置
CN102737029A (zh) 搜索方法及系统
CN102053971A (zh) 用于面向排序的协同过滤的推荐方法和设备
CN107341268A (zh) 一种热搜榜排序方法及系统
CN109982155B (zh) 一种播单推荐方法及系统
CN112468853A (zh) 电视资源推荐方法、装置、计算机设备及存储介质
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN106604068B (zh) 一种更新媒体节目的方法及其系统
CN115760202A (zh) 一种基于人工智能的产品运营管理系统及方法
KR101780237B1 (ko) 온라인 상에 공개된 질의응답 데이터를 기초로 한 사용자 질의에 대한 응답 방법 및 장치
CN111861550A (zh) 一种基于ott设备的家庭画像构建方法及系统
KR101976056B1 (ko) 추천 시스템 및 추천 방법
EP2151799A1 (en) Recommander method and system, in particular for IPTV
CN116861063B (zh) 一种发掘社媒热搜商业价值度的方法
CN115965439A (zh) 数据召回方法、数据召回装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant