CN108650532B

CN108650532B - 有线电视点播节目推荐方法及系统

Info

Publication number: CN108650532B
Application number: CN201810241067.2A
Authority: CN
Inventors: 王妍; 柴剑平; 李波; 冯熙; 殷复莲; 江茜; 檀雷雷; 韩晶晶
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2020-06-12
Anticipated expiration: 2038-03-22
Also published as: CN108650532A

Abstract

本发明提供一种有线电视点播节目推荐方法及系统，包括：采集用户收视行为数据和节目元数据；将收视行为数据一部分用于训练，一部分用于测试；转化训练收视行为数据为用户对节目评分，构成用户‑节目的评分矩阵；标准化节目元数据；根据评分矩阵和元数据采用多种分析方法获得多个节目候选集；对多个待推荐的节目候选集进行加权组合，根据测试集判断各种加权组合准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。上述推荐方法及系统实现对用户的个性化推荐，提高推荐精度与效率。

Description

有线电视点播节目推荐方法及系统

技术领域

本发明涉及有线电视技术领域，更为具体地，涉及一种有线电视点播节目推荐方法及系统。

背景技术

推荐系统常被用户解决信息过载问题，为用户提供个性化的服务。现有的推荐方法主要包括协同过滤方法和基于内容推荐方法两大类，其中以协同过滤应用最为广泛。具体地，协同过滤方法大致分为基于内存的方法和基于模型的方法两种，前者以基于用户/项目相似度的近邻推荐为代表，后者以基于矩阵分解的推荐为代表。

大数据时代，用户行为数据呈现海量增长趋势，推荐系统的稀疏性问题日益凸显。

稀疏性问题是指，系统中的用户和项目数量非常大，用户之间的行为重叠非常少。并且，数据稀疏度定义为用户对项目的已有行为数量占所有可能存在的行为数量的百分比。现有的解决稀疏性问题的办法包括：扩散方法，从一阶关联提升为二阶关联、高阶关联；添加缺省评分方法；迭代寻优方法；转移相似性方法等。

此外，单一的推荐方法往往不能取得理想的效果。

发明内容

鉴于上述问题，本发明的目的是提供一种实现对用户的个性化推荐，提高推荐精度与效率的有线电视点播节目推荐方法及系统。

根据本发明的一个方面，提供一种有线电视点播节目推荐系统，包括：采集部，包括第一采集单元和第二采集单元，所述第一采集单元采集有线电视用户的收视行为数据，第二采集单元，爬取网上节目的元数据；分类部，将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据，组成训练集，另一部分作为测试收视行为数据，组成测试集；数据预处理部，将所述训练集的用户的训练收视行为数据转化为用户对节目的评分，所述评分为用户对节目的收视时长与节目的播出时长的比值，每个用户对每个节目的评分构成用户-节目的评分矩阵；将第二采集单元采集的元数据进行标准化；节目候选集获得部，包括第一分析模块、第二分析模块、第三分析模块和第四分析模块，其中，第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵，根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1；第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第二节目候选集C2；第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第三节目候选集C3；第四分析模块，根据电影元数据，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第四节目候选集C4；推荐列表生成部，对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合，根据分类部分出的测试集判断各种加权组合的准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

所述的有线电视点播节目推荐系统，其中，所述数据预处理部包括：第一数据清洗模块，对训练集的训练收视行为数据进行清洗；第二数据清洗模块，对第二采集单元采集的元数据数据进行清洗；转化模块，对清洗后的训练收视行为数据和元数据进行转化，包括筛选单元，对用户和节目进行筛选，去除不活跃的用户和冷门节目；收视行为转化单元，用户的训练收视行为数据转化为用户对节目的评分；评分变换单元，根据四舍五入法将评分转换为取值为0或1的整数；评分矩阵构建单元，将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵；元数据处理单元，对节目的元数据的变量进行预处理，所述预处理包括：判断变量的属性，对数值属性的变量进行归一化处理，对字符属性的变量进行分类。

所述的有线电视点播节目推荐系统，其中，所述第一数据清洗模块包括：第一判断单元，判断同一用户的训练收视行为数据起始时间是否相同，将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元；第一筛选单元，选择结束时间大的所述训练收视行为数据，删除其余训练收视行为数据；第二判断单元，判断同一用户的训练收视行为数据结束时间是否相同，将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元；第二筛选单元，选择起始时间小的所述训练收视行为数据，删除其余训练收视行为数据；排序单元，对训练用户收视行为数据按用户、起始时间降序排列；第三判断单元，判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠，将重叠的训练收视行为数据发送给第三筛选单元；第三筛选单元，删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。

所述的有线电视点播节目推荐系统，其中，所述第二数据清洗模块包括：编辑距离获得单元，计算原始点播节目名称与爬取的节目名称之间的编辑距离；第四判断单元，判断所述编辑距离是否大于设定阈值，当所述编辑距离大于设定阈值时，发送信号给第四筛选单元；第四筛选单元，删除编辑距离大于设定阈值的爬取的节目的元数据。

所述的有线电视点播节目推荐系统，其中，所述节目候选集获得部还包括：相似度获得模块，计算用户相似度和节目相似度，包括：

相似度模型构建单元，根据相似度算法构建相似度模型，所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度，其中，利用皮尔逊相关系数根据下式(1)构建第一相似度模型，

其中，pearson_ij为节目i和节目j的皮尔逊相关系数；U(i)表示对节目i评分的用户集合，r_ui表示用户u对节目i的评分，

表示所有用户对节目i的平均评分；

利用余弦相似度根据下式(2)构建第二相似度模型，

其中，cosine_ij为节目i和节目j的余弦相似度；

利用Jaccard相似度根据下式(3)构建第三相似度模型，

其中，jaccard_pq为用户p和用户q的Jaccard相似度，|U(p)∩U(q)|为用户p和用户q共同评分节目的数量，|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和；

邻居集合确定单元，运用邻域推荐模型，根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合；

邻居评分确定单元，根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分

其中，

是用户u对节目i的预测得分，R(u)是用户u产生行为的节目集合，S^k(i)是与节目i最为相似的k个节目，sim(i,j)表示节目i和节目j之间的相似度；

节目候选集确定单元，根据用户对各节目的邻居集合的预测得分，按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。

所述的有线电视点播节目推荐系统，其中，所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元，其中：

加权组合单元，对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合；

准确度计算单元，根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度，

其中，Precision为一种加权组合的准确度，n表示测试集上的用户个数，hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数，L表示推荐列表的长度；

召回率计算单元，根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率，

其中，Recall为一种加权组合的召回率，hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数，test(p)表示用户p在测试集上实际点播的节目个数；

推荐列表生成单元，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

根据本发明的另一个方面，提供一种有线电视点播节目推荐方法，包括：步骤S1，采集有线电视用户的收视行为数据，爬取网上节目的元数据；步骤S2，将所述收视行为数据一部分作为训练收视行为数据，组成训练集，另一部分作为测试收视行为数据，组成测试集；步骤S3，将所述训练集的用户的训练收视行为数据转化为用户对节目的评分，所述评分为用户对节目的收视时长与节目的播出时长的比值，每个用户对每个节目的评分构成用户-节目的评分矩阵；步骤S4，将节目的元数据进行标准化；步骤S5，根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集，所述分析方法包括下述方法中的两种或多种：采用矩阵分解方法分解用户-节目的评分矩阵，根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1；采用矩阵分解方法分解用户-节目的评分矩阵，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第二节目候选集C2；根据用户-节目的评分矩阵计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第三节目候选集C3；根据电影元数据，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第四节目候选集C4；步骤S6，对多个待推荐的节目候选集按照多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合，根据测试集判断各种加权组合的准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

所述的有线电视点播节目推荐方法，其中，所述步骤S3包括：对用户的训练收视行为数据进行清洗；对用户和节目进行筛选，去除不活跃的用户和冷门节目；用户的训练收视行为数据转化为用户对节目的评分；根据四舍五入法将评分转换为取值为0或1的整数，构成各用户对各节目的用户-评分矩阵。

所述的有线电视点播节目推荐方法，其中，所述对用户的训练收视行为数据进行清洗的方法包括：判断同一用户的训练收视行为数据起始时间是否相同，如果相同，选择结束时间大的所述训练收视行为数据，删除其余训练收视行为数据；判断同一用户的训练收视行为数据结束时间是否相同，如果相同，选择起始时间小的所述训练收视行为数据，删除其余训练收视行为数据；对用户的训练收视行为数据按用户、起始时间降序排列；判断同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠，如果重叠，删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。

所述的有线电视点播节目推荐方法，其中，所述步骤S4包括：对节目的元数据进行清洗；对清洗后的节目的元数据的变量进行预处理，包括：判断变量的属性，对数值属性的变量进行归一化处理，对字符属性的变量进行分类。

所述的有线电视点播节目推荐方法，其中，所述对节目的元数据进行清洗的方法包括：计算原始点播节目名称与爬取的节目名称之间的编辑距离；判断所述编辑距离是否大于设定阈值，删除编辑距离大于设定阈值的爬取的节目的元数据。

所述的有线电视点播节目推荐方法，其中，在步骤S5中，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的节目候选集的方法包括：

根据相似度算法构建相似度模型，所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度，其中，利用皮尔逊相关系数根据下式(1)构建第一相似度模型，

其中，pearson_ij为节目i和节目j的皮尔逊相关系数；表示对节目评分的用户集合，U(i)表示对节目i评分的用户集合，r_ui表示用户u对节目i的评分，

表示所有用户对节目i的平均评分；

利用余弦相似度根据下式(2)构建第二相似度模型，

其中，cosine_ij为节目i和节目j的余弦相似度；

利用Jaccard相似度根据下式(3)构建第三相似度模型，

运用邻域推荐模型，根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合；

根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分

其中，

根据用户对各节目的邻居集合的预测得分，按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。

所述的有线电视点播节目推荐方法，其中，所述步骤S6包括加权组合步骤、准确度计算步骤或/和召回率计算步骤以及推荐列表生成步骤，其中：

加权组合步骤，对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合；

准确度计算步骤，根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度，

召回率计算步骤，根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率，

推荐列表生成步骤，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

本发明所述有线电视点播节目推荐方法及系统，运用多种矩阵分解方法对比、混合以保证一定的推荐精度与效率，并为用户生成个性化的电影推荐列表。所述有线电视点播节目推荐方法及系统能够帮助网络运营商为用户提供针对性服务，提升用户点播体验。

附图说明

通过参考以下结合附图的说明，随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1是本发明所述有线电视点播节目推荐系统的构成框图；

图2是本发明所述有线电视点播节目推荐方法的流程图。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。

以下将结合附图对本发明的具体实施例进行详细描述。

图1是本发明有线电视点播节目推荐系统的构成框图，如图1所示，所述有线电视点播节目推荐系统包括：

采集部1，包括第一采集单元11和第二采集单元12，所述第一采集单元11采集有线电视用户的收视行为数据，所述收视行为数据包括收看起始时间、结束时间、收看时长、评分、评价等用户对电视节目的收视行为，第二采集单元12爬取网上节目的元数据，所述元数据包括节目名称、导演、主演、演员、国家、年代、地区、类型、时长、评分、票房等；

分类部2，将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据，组成训练集，另一部分作为测试收视行为数据，组成测试集；

数据预处理部3，将所述训练集的用户的训练收视行为数据转化为用户对节目的评分，所述评分为用户对节目的收视时长与节目的播出时长的比值，每个用户对每个节目的评分构成用户-节目的评分矩阵；将第二采集单元采集的元数据进行标准化，例如，数据的归一化处理，即将元数据统一映射到[0，1]区间上，比如min-max标准化(离差标准化)，是对原始元数据的线性变换，使结果落到[0，1]区间；

节目候选集获得部4，根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集，包括第一分析模块41、第二分析模块42、第三分析模块43和第四分析模块44，其中，第一分析模块41采用矩阵分解方法分解用户-节目的评分矩阵，根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1；第二分析模块42采用矩阵分解方法分解用户-节目的评分矩阵，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第二节目候选集C2；第三分析模块43根据用户-节目的评分矩阵计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第三节目候选集C3；第四分析模块44，根据电影元数据，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第四节目候选集C4；

推荐列表生成部5，对节目候选集获得部4的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合，根据分类部分出的测试集判断各种加权组合的准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表，所述推荐列表包括用户、节目的有序列表、相似用户列表和相似节目列表。

在本发明的一个实施例中，数据预处理部3从收视行为数据中去除无效的收视记录，例如无收视行为的记录、异常收视记录(例如一直开机的收视行为等极端收视行为)等，对元数据进行匹配、判断并去除不一致的信息，例如，将用户的收视行为数据存储到收视库，将节目的播出数据存储到播出库，去除播出库、收视库或/和节目单中的信息不一致的信息，并将有效的收视行为数据转换为合适的形式，具体地，包括：

第一数据清洗模块31，对训练集的训练收视行为数据进行清洗；

第二数据清洗模块32，对第二采集单元采集的元数据数据进行清洗；

转化模块33，对清洗后的训练收视行为数据和元数据进行转化，包括筛选单元331，对用户和节目进行筛选，去除不活跃的用户和冷门节目；收视行为转化单元332，用户的训练收视行为数据转化为用户对节目的评分；评分变换单元333，根据四舍五入法将评分转换为取值为0或1的整数；评分矩阵构建单元334，将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵；元数据处理单元335，对节目的元数据的变量进行预处理，所述预处理包括：判断变量的属性，对数值属性的变量进行归一化处理，对字符属性的变量进行分类，优选地，对字符属性的变量进行人工分类，例如，对电影类型进行分类，将电影分成动作/冒险/科幻等类型，采用人工分类的原因是担心爬虫数据质量不高。

上述数据预处理部3通过对用户点播节目数据的收集与清洗，可以提高推荐精度与效率。

优选地，第一数据清洗模块31包括：

第一判断单元311，判断同一用户的训练收视行为数据起始时间是否相同，将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元；

第一筛选单元312，选择结束时间大的所述训练收视行为数据，删除其余训练收视行为数据；

第二判断单元313，判断同一用户的训练收视行为数据结束时间是否相同，将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元；

第二筛选单元314，选择起始时间小的所述训练收视行为数据，删除其余训练收视行为数据；

排序单元315，对训练用户收视行为数据按用户、起始时间降序排列；

第三判断单元316，判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠，将重叠的训练收视行为数据发送给第三筛选单元；

第三筛选单元317，删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。

另外，优选地，第二数据清洗模块32包括：

编辑距离获得单元321，计算原始点播节目名称与爬取的节目名称之间的编辑距离；

第四判断单元322，判断所述编辑距离是否大于设定阈值，当所述编辑距离大于设定阈值时，发送信号给第四筛选单元；

第四筛选单元323，删除编辑距离大于设定阈值的爬取的节目的元数据。

在本发明的一个实施例中，节目候选集获得部4还包括：

相似度获得模块45，计算用户相似度和节目相似度，包括：

相似度模型构建单元451，根据相似度算法构建相似度模型，所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度，其中，利用皮尔逊相关系数根据下式(1)构建第一相似度模型，

表示所有用户对节目i的平均评分；

利用余弦相似度根据下式(2)构建第二相似度模型，

其中，cosine_ij为节目i和节目j的余弦相似度；

利用Jaccard相似度根据下式(3)构建第三相似度模型，

邻居集合确定单元452，运用邻域推荐模型，根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合；

邻居评分确定单元453，根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分

其中，

节目候选集确定单元454，根据用户对各节目的邻居集合的预测得分，按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。

在本发明的一个实施例中，推荐列表生成部5包括加权组合单元51、准确度计算单元52或/和召回率计算单元53以及推荐列表生成单元54，其中：

加权组合单元51，对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合；

准确度计算单元52，根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度，

召回率计算单元53，根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率，

推荐列表生成单元54，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

图2是本发明所述有线电视点播节目推荐方法的流程图，如图2所示，所述有线电视点播节目推荐方法包括：

步骤S1，采集有线电视用户的收视行为数据，爬取网上节目的元数据；

步骤S2，将所述收视行为数据一部分作为训练收视行为数据，组成训练集，另一部分作为测试收视行为数据，组成测试集；

步骤S3，将所述训练集的用户的训练收视行为数据转化为用户对节目的评分，所述评分为用户对节目的收视时长与节目的播出时长的比值，即

每个用户对每个节目的评分构成用户-节目的评分矩阵；

步骤S4，将节目的元数据进行标准化；

步骤S5，根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集，所述分析方法包括下述方法中的两种或多种：采用矩阵分解方法分解用户-节目的评分矩阵，根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1；采用矩阵分解方法分解用户-节目的评分矩阵，计算用户相似度以及电影节目相似度(例如利用皮尔逊相关系数、余弦相似度、平方距离倒数相似度以及Jaccard相似度等计算用户相似度或电影节目相似度)，运用邻域推荐模型生成待推荐的第二节目候选集C2；根据用户-节目的评分矩阵计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第三节目候选集C3；根据电影元数据，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的第四节目候选集C4；

步骤S6，对多个待推荐的节目候选集按照多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合，根据测试集判断各种加权组合的准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表，所述推荐列表包括用户、节目的有序列表、相似用户列表和相似节目列表。

在本发明的一个实施例中，步骤S3包括：

步骤S31，对用户的训练收视行为数据进行清洗；

步骤S32，对用户和节目进行筛选，去除不活跃的用户和冷门节目，例如，不活跃的用户可以是点播节目个数较少或/和时长较短的用户，也可以对用户按照点播节目个数进行排序，最后设定百分比(例如5％)的用户；冷门节目可以是被点播次数较少、点播时长较短的节目，也可以对节目按照被点播次数进行排序，最后设定百分比(例如5％)的节目；

步骤S33，用户的训练收视行为数据转化为用户对节目的评分；

步骤S34，根据四舍五入法将评分转换为取值为0或1的整数，构成各用户对各节目的用户-评分矩阵。

优选地，步骤S31包括：

判断同一用户的训练收视行为数据起始时间是否相同，如果相同，选择结束时间大的所述训练收视行为数据，删除其余训练收视行为数据；

判断同一用户的训练收视行为数据结束时间是否相同，如果相同，选择起始时间小的所述训练收视行为数据，删除其余训练收视行为数据；

对用户的训练收视行为数据按用户、起始时间降序排列；

判断同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠，如果重叠，删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。

在本发明的一个实施例中，步骤S4包括：

步骤S41，对节目的元数据进行清洗；

步骤S42对清洗后的节目的元数据的变量进行预处理，包括：判断变量的属性，对数值属性的变量进行归一化处理，对字符属性的变量进行分类。

优选地，步骤S41包括：

计算原始点播节目名称与爬取的节目名称之间的编辑距离；

判断所述编辑距离是否大于设定阈值，删除编辑距离大于设定阈值的爬取的节目的元数据。

在本发明的一个实施例中，在步骤S5中，计算用户相似度以及电影节目相似度，运用邻域推荐模型生成待推荐的节目候选集的方法包括：

表示所有用户对节目i的平均评分；

利用余弦相似度根据下式(2)构建第二相似度模型，

其中，cosine_ij为节目i和节目j的余弦相似度；

利用Jaccard相似度根据下式(3)构建第三相似度模型，

其中，

在本发明的一个实施例中，步骤S6包括加权组合步骤、准确度计算步骤或/和召回率计算步骤以及推荐列表生成步骤，其中：

加权组合步骤，对节目候选集获得部的多个待推荐的节目候选集按多种策略(例如，交集、取并集、加权等策略)进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合；

优选地，步骤S6还包括：对于待推荐电影候选集为空的用户，选取热门节目和节目评价好的电影作为推荐结果，其中，可以按点播时长由长到短对电影进行排序，取排序靠前的设定数量的节目作为节目；节目评价是指根据票房、评分、获奖次数、播放次数计算节目的综合得分，得分高的节目即为节目评价好的节目。

以上内容示出了本发明所述有线电视点播节目推荐方法及系统的多个实施例，但是本发明并不限于此，例如：

考虑不同用户评分尺度的差别，利用余弦相似度根据下式(7)构建第二相似度模型，

其中，cosine_advanced_ij为节目i和节目j的余弦相似度；

又如，考虑全局用户行为的影响，根据下式(8)确定不同用户对各节目的邻居集合中的节目的预测评分

其中，b_ui为偏置项，b_ui＝b+b_u+b_i，b表示全部用户评分项的均值，b_u代表用户u的平均评分与全局评分的偏差，b_i代表节目i的平均评分与全局评分的偏差。

本发明所述有线电视点播节目推荐方法及系统通过有效的数据处理与分析，能够判定用户对未收视节目感兴趣的程度，提高节目的投放效率，达到精准化营销与个性化服务的目的。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种有线电视点播节目推荐系统，其特征在于，包括：

采集部，包括第一采集单元和第二采集单元，所述第一采集单元采集有线电视用户的收视行为数据，第二采集单元，爬取网上节目的元数据；

分类部，将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据，组成训练集，另一部分作为测试收视行为数据，组成测试集；

数据预处理部，将所述训练集的用户的训练收视行为数据转化为用户对节目的评分，所述评分为用户对节目的收视时长与节目的播出时长的比值，每个用户对每个节目的评分构成用户-节目的评分矩阵；将第二采集单元采集的元数据进行标准化；

节目候选集获得部，包括第一分析模块、第二分析模块、第三分析模块和第四分析模块，其中，第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵，根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1；第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵，计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第二节目候选集C2；第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第三节目候选集C3；第四分析模块，根据元数据，计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第四节目候选集C4；

推荐列表生成部，对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合，根据分类部分出的测试集判断各种加权组合的准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

2.根据权利要求1所述的有线电视点播节目推荐系统，其特征在于，所述数据预处理部包括：

第一数据清洗模块，对训练集的训练收视行为数据进行清洗；

第二数据清洗模块，对第二采集单元采集的元数据数据进行清洗；

转化模块，对清洗后的训练收视行为数据和元数据进行转化，包括筛选单元，对用户和节目进行筛选，去除不活跃的用户和冷门节目；收视行为转化单元，用户的训练收视行为数据转化为用户对节目的评分；评分变换单元，根据四舍五入法将评分转换为取值为0或1的整数；评分矩阵构建单元，将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵；元数据处理单元，对节目的元数据的变量进行预处理，所述预处理包括：判断变量的属性，对数值属性的变量进行归一化处理，对字符属性的变量进行分类。

3.根据权利要求2所述的有线电视点播节目推荐系统，其特征在于，所述第一数据清洗模块包括：

第一判断单元，判断同一用户的训练收视行为数据起始时间是否相同，将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元；

第一筛选单元，选择结束时间大的所述训练收视行为数据，删除其余训练收视行为数据；

第二判断单元，判断同一用户的训练收视行为数据结束时间是否相同，将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元；

第二筛选单元，选择起始时间小的所述训练收视行为数据，删除其余训练收视行为数据；

排序单元，对训练用户收视行为数据按用户、起始时间降序排列；

第三判断单元，判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠，将重叠的训练收视行为数据发送给第三筛选单元；

第三筛选单元，删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。

4.根据权利要求2所述的有线电视点播节目推荐系统，其特征在于，所述第二数据清洗模块包括：

编辑距离获得单元，计算原始点播节目名称与爬取的节目名称之间的编辑距离；

第四判断单元，判断所述编辑距离是否大于设定阈值，当所述编辑距离大于设定阈值时，发送信号给第四筛选单元；

第四筛选单元，删除编辑距离大于设定阈值的爬取的节目的元数据。

5.根据权利要求1所述的有线电视点播节目推荐系统，其特征在于，所述节目候选集获得部还包括：

相似度获得模块，计算用户相似度和节目相似度，包括：

表示所有用户对节目i的平均评分；

利用余弦相似度根据下式(2)构建第二相似度模型，

其中，cosine_ij为节目i和节目j的余弦相似度；

利用Jaccard相似度根据下式(3)构建第三相似度模型，

其中，

6.根据权利要求1所述的有线电视点播节目推荐系统，其特征在于，所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元，其中：

7.一种有线电视点播节目推荐方法，其特征在于，包括：

步骤S3，将所述训练集的用户的训练收视行为数据转化为用户对节目的评分，所述评分为用户对节目的收视时长与节目的播出时长的比值，每个用户对每个节目的评分构成用户-节目的评分矩阵；

步骤S4，将节目的元数据进行标准化；

步骤S5，根据用户-节目的评分矩阵和标准化的元数据采用多种分析方法获得多个节目候选集，所述分析方法包括下述方法中的两种或多种：采用矩阵分解方法分解用户-节目的评分矩阵，根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1；采用矩阵分解方法分解用户-节目的评分矩阵，计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第二节目候选集C2；根据用户-节目的评分矩阵计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第三节目候选集C3；根据元数据，计算用户相似度以及节目相似度，运用邻域推荐模型生成待推荐的第四节目候选集C4；

步骤S6，对多个待推荐的节目候选集按照多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合，根据测试集判断各种加权组合的准确度或/和召回率，将准确度或/和召回率高的加权组合作为推荐结果，生成推荐列表。

8.根据权利要求7所述的有线电视点播节目推荐方法，其特征在于，所述步骤S3包括：

对用户的训练收视行为数据进行清洗；

对用户和节目进行筛选，去除不活跃的用户和冷门节目；

用户的训练收视行为数据转化为用户对节目的评分；

根据四舍五入法将评分转换为取值为0或1的整数，构成各用户对各节目的用户-评分矩阵。

9.根据权利要求8所述的有线电视点播节目推荐方法，其特征在于，所述对用户的训练收视行为数据进行清洗的方法包括：

对用户的训练收视行为数据按用户、起始时间降序排列；

10.根据权利要求7所述的有线电视点播节目推荐方法，其特征在于，所述步骤S4包括：

对节目的元数据进行清洗；

对清洗后的节目的元数据的变量进行预处理，包括：判断变量的属性，对数值属性的变量进行归一化处理，对字符属性的变量进行分类。

11.根据权利要求10所述的有线电视点播节目推荐方法，其特征在于，所述对节目的元数据进行清洗的方法包括：