CN107818183B

CN107818183B - 一种基于特征相似性度量的三阶段组合党建视频推荐方法

Info

Publication number: CN107818183B
Application number: CN201711266644.5A
Authority: CN
Inventors: 曹子成; 王顺芳; 李维华; 阮小利; 何敏
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2021-07-13
Anticipated expiration: 2037-12-05
Also published as: CN107818183A

Abstract

本发明公开一种应用于党建视频推送的三阶段组合特征相似性度量的推荐方法，第一阶段，设计了基于内容的方法，目的是提取党建视频集中的目标特征；并根据训练用户集的偏好，历史行为特征对测试用户集推送党建视频。第二阶段，设计了基于用户的协同过滤方法，以用户属性特征及兴趣相似度为依据，对相似用户集进行有效的聚类划分。第三阶段，将党建视频推送至相似用户集，并计算不同职业属性的党员群体与相似用户子集间的隶属度，将已推送至各相似用户子集的视频逐一匹配推送至党员群体中。本发明考虑到党建信息化工作中，以党员的职业性质与视频源的用户相似度为根据，更有效的将来自社会媒体中的党建视频精准的推送到党员群体中。

Description

一种基于特征相似性度量的三阶段组合党建视频推荐方法

技术领域

本发明属于数据挖掘技术领域，特别涉及一种个性化的推荐技术。基于党建视频源观看人群的历史行为记录，用户属性特征，偏好特征，向具有不同职业背景的党员群体推送领域相关的党建视频。

技术背景

随着大数据科学，人工智能等领域的稳步发展，信息化和智能化成为党建工作随时代潮流兴起的必然趋势。网络媒体中各种党建相关的视频，其中的内容非常丰富。应该将这些网民关注度高，点击量大，制作精良的党建视频推送到党员群体队伍中。这对于党员群体在各自的职业工作中，能够及时接收并认真学习到有关理论方法，作风建设，组织建设及反腐倡廉等主题的优秀党建视频提供了推送途径。90年代中期产生的推荐系统，目前在各种商业，科学研究，工业技术等领域急速发展。针对于推荐介质上，比如：文本，视频，音频等非结构化数据。目前，在推荐技术上主要包括：基于用户的协同过滤算法（UserCF），基于物品的协同过滤算法（ItemCF）以及基于内容特征的推荐算法等。这三种推荐算法广泛运用于推荐系统的设计之中，各自的优缺点也较为突出，本发明结合了基于用户的协同过滤算法，基于内容特征的推荐算法以及文本分析相关算法，意在分成三个阶段，处理推送过程中独立模块的研究内容，具体到第一个阶段：运用基于内容的推荐算法将党建视频推送到单一用户个体层面。第二阶段则是将用户群体的属性特征与偏好相似度作为依据，以此来做聚类分析。结合第一阶段具体到每一用户上的推荐，生成相似用户群体各自独立的党建视频推送系统。最后的阶段，主要是结合党员群体中不同职业属性，运用文本挖掘的相关算法将相似用户群体已推荐的党建视频匹配到不同职业的党员群体中去。本发明的实质是对特定内容范围的视频，通过基于内容，基于用户协同过滤的推荐技术与文本挖掘方法的改进与组合，将特定内容范围的视频推送至特定的，具有不同属性值的人群之中。

尹子都等提出了“一种Web 文本个性化推荐方法”（2017年8月11日授权公告，授权公告为：CN104615779A），通过用户行为的历史数据来获得用户偏好，向用户推荐感兴趣和潜在兴趣的Web文本；胡勋等提出的“一种融合项目特征和移动用户信任关系的推荐算法”（<软件学报>，2014年）提出了一种基于移动用户间信任度的评分预测算法；付畅俭等提出了“挖掘视频层次结构,改善视频管理”（<计算机应用研究>，2007年）对视频数据挖掘的理论，结构，语法，语义上面探讨了数据挖掘的方法及应用；金亮等提出了“基于聚类层次模型的视频推荐算法”（<计算机应用>，2017年）详细阐述了在视频推荐系统中运用聚类层次模型构建推荐算法。

然而，现有的视频推荐技术基本都是在待推荐系统上针对用户偏好、历史行为记录，在该系统上对意向用户进行推荐，并未从不同源视频地址，挖掘出对应用户偏好行为，属性特征；并分析此类特征匹配的人群，以此推广至拟推送的特定人群之中。因此，本专利的特点在于丰富了党建信息化精准推送领域；针对广大不同职业背景的党员群体，将最相关公共媒体视频推送至此类人群中；本专利中涉及的算法创新之处在于：主要依据党建视频内容特征，用户群体属性特征与偏好特征，提出了用户属性匹配度与偏好相似度的加权组合计算；并分阶段运用两种不同的推荐算法，提取以内容特征为依据的个体用户内容推荐推广到以用户集相似度为依据的用户子集关联推荐，而后，融合文本挖掘算法计算用户子集与党员群体的隶属度，精准地匹配最相关内容特征的党建视频推送至此类特定群体。

发明内容

针对现有技术中存在的不足，本发明的目的在于提出一种针对特定内容推荐至特定人群中的推荐方法：基于三阶段组合推荐技术的党建视频推送方法。具体来说，本发明的具体技术方案包括：

第一阶段：基于视频内容的方法：提取党建视频集中的目标特征并根据训练用户集的偏好，历史行为特征对测试用户集推送党建视频；

步骤1：对党建视频集进行初始定义

，其中

表示第

个源视频。每个源视频都具有的相关属性：标题

，内容

，点击量

及时长

。针对党建视频观看的用户集进行初始定义

，其中

表示已观看党建视频某一个用户，

为提取的视频集关联的所有用户。党建视频推送的最终对象：党员群体，是已知不同职业范围的特定人群

，其中

表示已知某职业属性的一个党员；

步骤2：对党建视频内容进行特征筛选与提取，内容特征表示为

，其中

表示为第

个党建视频内容提取出来的

条特征表达；并对内容特征数据进行结构化处理，生成党建视频目标内容特征

，其中

为第

个党建视频目标内容特征；

步骤2.1：对于网络中存储的海量党建视频，首先应对其进行相关特征的筛选；筛选的相关特征包括：目标年限，字幕，时长；

步骤2.2：抽取字幕内容

，将其作为源视频文本内容特征主要的源提取目标特征；

步骤2.3：将抽取出的每个字幕内容文本，逐一分割成句子，去除文本中的格式，标点，停用词；遍历所有字幕内容文本生成内容特征：

；

步骤3：根据单一用户对党建视频的历史偏好记录来学习出偏好特征

。遍历用户集的偏好记录，提取用户集的偏好特征表达

；运用Rocchio算法生成对应每一用户拟推荐的党建视频；

步骤3.1：设某用户

对党建视频

作出相关点击观看，已知此用户对某类党建视频点击（记为偏好喜欢

），将其他党建视频标记为偏好不喜欢

；则拟计算该用户的偏好为：

；

步骤3.2：运用Rocchio反馈算法：

；其中

与

分别表示正负反馈权重，其目的是控制判定结果和原始用户偏好向量之间的平衡；

，

分别表示偏好集

与

中的已知实例；

步骤3.3：应用余弦相似度计算

与

的相似性，对于某个给定的

，使用

与

的相似度来代表用户

对党建视频

的喜好度；

步骤3.4：遍历所有训练用户集，找出对应于用户测试集中每一用户拟推荐的党建视频；

步骤4：根据用户在党建视频内容特征中历史行为记录的变化来生成反馈偏好特征，重新将此类偏好特征加入偏好特征学习过程中。跳转步骤3并更新偏好特征；

步骤4.1：初始化单一用户的反馈特征为空，即

；

步骤4.2：将此用户观看的首个党建视频的目标内容特征添加至

中；

步骤4.3：依次遍历所用此用户观看过的党建视频，逐一将目标内容特征更新至

中；

步骤4.4：遍历

，去除冗余内容特征；

步骤4.5：重复上述步骤4.4，直到提取出用户集中每一用户的反馈特征；

第二阶段：基于用户的协同过滤方法：以用户性质特征及兴趣相似度为依据，对相似用户集进行有效的聚类划分；

步骤5：对用户集属性与偏好进行特征筛选与提取；提取用户集中相同党建视频重复点击量

及视频跳跃观看时长

，以此作为用户属性特征；计算属性特征的匹配度：

；其中，

表示与用户

有相同用户特征信息的用户子集；

为权重阈值；遍历用户集并计算用户间的特征信息匹配度。而后，计算用户集中每一用户的偏好相似度。设定用户

，浏览党建视频的集合

。用户

，浏览党建视频的集合

，其偏好相似度的计算为：

；遍历用户集并计算用户间的偏好相似度；

步骤6：根据用户属性特征的匹配度与用户的偏好相似度，设置阈值权重：

；运用k-means算法对相似特征的用户群体：

进行有效聚类划分；并对离群用户进行相关处理；离群用户与其他用户属性特征不同，根据测量

值超出拟定阈值，即认定为离群用户；将离群用户视为噪声点删除后更新相似属性特征的用户群体；

第三阶段：将党建视频推送至相似用户集，并计算不同职业属性的党员群体与相似用户子集间的隶属度，将已推送至各相似用户子集的视频逐一匹配推送至党员群体中；

步骤7：结合步骤3生成的单一用户拟推送视频与步骤5用户偏好相似度生成的相似用户群体，重新聚类生成对相似用户集推送的党建视频；而后，提取党建视频标题

中的关键词，将这些关键词运用余弦相似度度量算法来匹配不同职业党员群体的属性值，以此作为不同职业党员群体的属性标识符；

步骤7.1：对党员群体以职业性质进行有效划分；

步骤7.2：针对以职业性质划分完成的党员子集，建立各子集对应的职业关键词词典，将词典中的每一个关键词赋予唯一标识符；

步骤7.3：将拟推荐视频的标题关键词提取出来，并记录每个标题关键词所属的党建视频，分别为这些标题关键词分配唯一的标识符；

步骤7.4：统计标题关键词与词典中关键词相同的词及对应的词频；

步骤7.5：相似度计算：假设出现的某个标题关键词：

；出现的词频：

。某一职业关键词词典中出现的关键词：

；出现的词频：

；

其中，

表示两个关键词集中同一个词，

是它们分别对应的词频，则，它们之间的余弦相似度可以表示为：

；

步骤7.6：重复上述步骤，计算所有视频标题关键词与各子集职业关键词的相似度；记录相似度最大值的标题关键词与词典对应元组；

步骤7.7：将视频标题所属的党建视频归属为党员子集的属性标识符；

步骤8：结合步骤7相似用户集推荐视频的标题关键词与已生成的党员群体属性标签标识符，计算两者的相似度，最终将党建视频推送至目标群体：具有不同职业身份的党员群体中；

附图说明

图1为本发明的具体实施方式流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例：

图1为本发明实施例提供的方法流程图，如图1所示，该方法可以包括以下步骤：首先将待处理特征对象进行命名，以便后续步骤使用；党建视频集的初始定义

，其中

表示第

个源视频。每个源视频都具有的相关属性：标题

，内容

，点击量

及时长

。针对党建视频观看的用户集进行初始定义

，其中

表示某一个用户；党建视频推送的最终对象：党员群体，是已知不同职业的特定人群

，其中

表示某职业属性的一个党员；

第二步，对党建视频内容进行特征筛选与提取，内容特征表示为

，其中

表示为第

个党建视频内容提取出来的

条特征表达。这些从党建视频中提取出来的内容特征包括三大方面：学习性质内容：其中的内容重点为：领导人讲话，部门党建工作总结，个人学习成果与思想汇报；地区性质内容：可分为：国家层面，省市层面，部门及单位层面：理论与技能观点；内容特征提取包括：党的理论知识，专业技能知识，党政科普；

步骤2.1：网络中存储了海量的党建视频，首先应对其进行筛选，主要的筛选特征包括：目标年限，字幕，时长；

步骤2.2：抽取字幕内容

，将其作为源视频文本内容特征主要的源提取目标；

步骤2.3：将抽取出的每个字幕内容文本，逐一分割成句子，去除文本中的格式，标点，停用词等；遍历所有字幕内容文本生成内容特征：

；将内容特征数据进行结构化处理；数据结构化处理主要是为了提高数据存储效率及索引化后快速搜索目标特征的能力，而后，生成党建视频目标内容特征

，其中

为第

个党建视频目标内容特征；

步骤3：根据单一用户对党建视频的历史偏好记录学习偏好特征

；遍历至用户集的偏好记录，提取用户集的偏好特征表达

。假设某用户

的历史偏好中发现对领导人讲话此类视频内容特征观看数量及时长较高，则将此类学习性质内容偏好设置为学习特征序列组中；对已提取出的用户集偏好特征，运用Rocchio算法生成对应每一用户拟推荐的党建视频；

步骤3.1：设某用户

对党建视频

作出相关点击观看，已知此用户对某内容的党建视频点击（记为偏好喜欢

），这其他党建视频则记为偏好不喜欢

则拟计算该用户的偏好为：

；

步骤3.2：运用Rocchio反馈算法：

其中

与

为正负反馈权重，其目的是控制判定结果和原始用户偏好向量之间的平衡。

，

分别表示偏好集

与

中的已知实例；

步骤3.3：应用余弦相似度计算

与

的相似性，对于某个给定的

，使用

与

的相似度来代表用户

对党建视频

的喜好度；

步骤3.4：遍历所有用户，找出对应每一用户拟推荐的党建视频；

步骤4：用户在党建视频内容特征中历史行为记录的变化生成反馈偏好特征，重新将此类偏好特征加入偏好特征学习过程中。跳转步骤3并更新偏好特征；假设用户

观看另外党建视频中涉及到的内容特征表现为理论知识的学习，则此类特征计数后加入学习特征序列，知道遍历此用户观看所有的党建视频；

步骤5：对用户集属性进行特征筛选与提取；提取用户集中相同党建视频重复点击量

及视频跳跃观看时长

，以此作为用户特征信息；计算特征信息匹配度：

其中，

表示与用户

有相同用户特征信息的用户子集；

，浏览党建视频的集合

。用户

，浏览党建视频的集合

，其偏好相似度的计算为：

；遍历用户集并计算用户间的偏好相似度。

；运用k-means算法对相似属性用户群体：

进行有效聚类分析。并对离群用户进行相关处理。离群用户与其他用户属性特征不同，即测量

值超出拟定阈值，认定为离群用户；将离群用户视为噪声点删除后更新相似用户群体；

步骤7：结合步骤3生成的单一用户拟推送视频与步骤5以用户属性相似度生成的相似用户群体，重新聚类生成对相似用户集推送的党建视频；提取党建视频标题

中的关键词，并将这些关键词分配到不同职业党员群体的属性值中，以此来作为不同职业党员群体的属性标识符；

步骤7.1：对党员群体以职业性质进行有效划分；

步骤7.5：相似度计算：假设出现的某个标题关键词：

；出现的词频：

。某一职业关键词词典中出现的关键词：

；出现的词频：

；

其中，

表示两个关键词集中同一个词，

；

步骤7.6：重复上述步骤，计算所有视频标题关键词与各子集职业关键词的相似度。记录相似度最大值的标题关键词与词典对应元组；

步骤8：结合步骤7生成的党员群体属性标签与相似用户集推荐视频的标题关键词，计算两者的相似度，此时的相似度测量对象是步骤7中推荐视频关键词与归属不同职业人群（目标党员的职业属性：如学生党员，工人党员，教师党员），最终将党建视频推送至目标群体：具有不同职业身份的党员群体中。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于特征相似性度量的三阶段组合党建视频推荐方法，其特征在于包括以下步骤：

步骤1：对党建视频内容进行特征筛选与提取，并对内容特征数据进行结构化处理；

步骤1.1：对党建视频集进行初始定义

，其中

表示第

个源视频，每个源视频都具有的相关属性：标题

，内容

，点击量

与时长

，针对党建视频观看的用户集进行初始定义

，其中

表示某一个用户，提取视频关联的用户总数为

，党建视频推送的最终对象：党员群体，是已知具有不同职业的特定人群

，其中

表示某职业属性的某个党员；

步骤1.2：对于网络中存储的海量党建视频，对其进行筛选，主要筛选的特征包括：目标年限，字幕，时长；

步骤1.3：抽取字幕内容

，将其作为源视频文本内容特征主要的源提取目标；

步骤1.4：将抽取出的每个字幕内容文本，逐一分割成句子，去除文本中的格式，标点，停用词，遍历所有字幕内容文本生成内容特征：

；

步骤1.5：将内容特征数据进行结构化处理；而后，生成党建视频目标内容特征

，其中

为第

个党建视频目标内容特征；

步骤2：提取单一用户

对党建视频的历史偏好记录学习偏好特征，遍历用户集

的偏好记录后，提取用户集

中用户的偏好特征并运用Rocchio算法生成对应每一用户拟推荐的党建视频；

步骤2.1：设某用户

对某个党建视频

做出相关点击观看，已知此用户对某个内容特征的党建视频点击，记为偏好喜欢

，这对其他党建视频记为偏好不喜欢

，拟计算该用户的偏好记为：

；

步骤2.2：运用Rocchio反馈算法：

；其中

与

为正负反馈权重，目的是控制判定结果和原始用户偏好向量之间的平衡，

，

分别表示偏好集

与

中的已知实例；

步骤2.3：应用余弦相似度计算

与

的相似性，对于某个给定的

，使用

与

的相似度来代表用户

对党建视频

的喜好度；

步骤2.4：遍历所有用户，得到对应每一用户拟推荐的党建视频；

步骤3：将用户在党建视频内容特征中历史行为记录的变化转化为反馈偏好特征，重新将此类偏好特征加入偏好特征学习过程中；跳转步骤2并更新偏好特征；

步骤3.1：初始化单一用户的反馈特征为空，即

；

步骤3.2：将此用户观看的首个党建视频的目标内容特征添加至

中；

步骤3.3：依次遍历所用此用户观看过的党建视频，逐一将目标内容特征更新至

中；

步骤3.4：遍历

，去除冗余内容特征；

步骤3.5：重复上述步骤3.4，直到提取出用户集中所有用户的反馈特征；

步骤4：对用户属性与偏好进行特征提取；提取用户集中相同党建视频重复点击量

及视频跳跃观看时长

，以此作为用户属性特征；计算属性特征的匹配度：

；其中，

表示与用户

有相同用户特征信息的用户子集；

为权重阈值；遍历用户集并计算用户间的特征信息匹配度；而后，计算用户集中每一用户的偏好相似度；设定用户

，浏览党建视频的集合

；用户

，浏览党建视频的集合

，其偏好相似度的计算为：

；遍历用户集并计算用户间的偏好相似度；

步骤5：根据用户属性特征的匹配度与用户的偏好相似度，设置阈值权重：

；运用k-means算法对相似特征的用户集进行有效聚类分析，并对离群用户进行相关处理；

步骤6：结合步骤2生成的对应每一用户拟推荐的党建视频和步骤4中的用户间的偏好相似度，重新聚类生成对相似用户集推送的党建视频；提取党建视频标题

中的关键词，将关键词运用余弦相似度度量算法来匹配不同职业党员群体的属性值，以此作为不同职业党员群体的属性标识符；

步骤6.1：以职业属性划分党员群体；

步骤6.2：针对以职业性质划分完成的党员子集，建立各子集对应的职业关键词词典，并将词典中的每一个关键词赋予唯一标识符；

步骤6.3：将拟推荐视频的标题关键词提取出来，并记录每个标题关键词所属的党建视频，分别为这些标题关键词分配唯一的标识符；

步骤6.4：统计标题关键词与词典中关键词相同的词及对应的词频；

步骤6.5：相似度计算：假设出现的某个标题关键词：

；出现的词频：

；某一职业关键词词典中出现的关键词：

；出现的词频：

；

其中，

表示两个关键词集中同一个词，

；

步骤6.6：重复上述步骤6.5，计算所有视频标题关键词与各子集职业关键词的相似度；记录相似度最大值的标题关键词与词典对应元组；

步骤6.7：将视频标题所属的党建视频归属为党员子集的属性标识符；

步骤7：计算相似用户集拟推荐视频的标题关键词与已生成的党员群体属性标签标识符的相似度，最终将党建视频推送至目标群体：具有不同职业身份的党员群体中。