CN107818183B - 一种基于特征相似性度量的三阶段组合党建视频推荐方法 - Google Patents

一种基于特征相似性度量的三阶段组合党建视频推荐方法 Download PDF

Info

Publication number
CN107818183B
CN107818183B CN201711266644.5A CN201711266644A CN107818183B CN 107818183 B CN107818183 B CN 107818183B CN 201711266644 A CN201711266644 A CN 201711266644A CN 107818183 B CN107818183 B CN 107818183B
Authority
CN
China
Prior art keywords
user
party
video
preference
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711266644.5A
Other languages
English (en)
Other versions
CN107818183A (zh
Inventor
曹子成
王顺芳
李维华
阮小利
何敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201711266644.5A priority Critical patent/CN107818183B/zh
Publication of CN107818183A publication Critical patent/CN107818183A/zh
Application granted granted Critical
Publication of CN107818183B publication Critical patent/CN107818183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Abstract

本发明公开一种应用于党建视频推送的三阶段组合特征相似性度量的推荐方法,第一阶段,设计了基于内容的方法,目的是提取党建视频集中的目标特征;并根据训练用户集的偏好,历史行为特征对测试用户集推送党建视频。第二阶段,设计了基于用户的协同过滤方法,以用户属性特征及兴趣相似度为依据,对相似用户集进行有效的聚类划分。第三阶段,将党建视频推送至相似用户集,并计算不同职业属性的党员群体与相似用户子集间的隶属度,将已推送至各相似用户子集的视频逐一匹配推送至党员群体中。本发明考虑到党建信息化工作中,以党员的职业性质与视频源的用户相似度为根据,更有效的将来自社会媒体中的党建视频精准的推送到党员群体中。

Description

一种基于特征相似性度量的三阶段组合党建视频推荐方法
技术领域
本发明属于数据挖掘技术领域,特别涉及一种个性化的推荐技术。基于党建视频源观看人群的历史行为记录,用户属性特征,偏好特征,向具有不同职业背景的党员群体推送领域相关的党建视频。
技术背景
随着大数据科学,人工智能等领域的稳步发展,信息化和智能化成为党建工作随时代潮流兴起的必然趋势。网络媒体中各种党建相关的视频,其中的内容非常丰富。应该将这些网民关注度高,点击量大,制作精良的党建视频推送到党员群体队伍中。这对于党员群体在各自的职业工作中,能够及时接收并认真学习到有关理论方法,作风建设,组织建设及反腐倡廉等主题的优秀党建视频提供了推送途径。90年代中期产生的推荐系统,目前在各种商业,科学研究,工业技术等领域急速发展。针对于推荐介质上,比如:文本,视频,音频等非结构化数据。目前,在推荐技术上主要包括:基于用户的协同过滤算法(UserCF),基于物品的协同过滤算法(ItemCF)以及基于内容特征的推荐算法等。这三种推荐算法广泛运用于推荐系统的设计之中,各自的优缺点也较为突出,本发明结合了基于用户的协同过滤算法,基于内容特征的推荐算法以及文本分析相关算法,意在分成三个阶段,处理推送过程中独立模块的研究内容,具体到第一个阶段:运用基于内容的推荐算法将党建视频推送到单一用户个体层面。第二阶段则是将用户群体的属性特征与偏好相似度作为依据,以此来做聚类分析。结合第一阶段具体到每一用户上的推荐,生成相似用户群体各自独立的党建视频推送系统。最后的阶段,主要是结合党员群体中不同职业属性,运用文本挖掘的相关算法将相似用户群体已推荐的党建视频匹配到不同职业的党员群体中去。本发明的实质是对特定内容范围的视频,通过基于内容,基于用户协同过滤的推荐技术与文本挖掘方法的改进与组合,将特定内容范围的视频推送至特定的,具有不同属性值的人群之中。
尹子都等提出了“一种Web 文本个性化推荐方法”(2017年8月11日授权公告,授权公告为:CN104615779A),通过用户行为的历史数据来获得用户偏好,向用户推荐感兴趣和潜在兴趣的Web文本;胡勋等提出的“一种融合项目特征和移动用户信任关系的推荐算法”(<软件学报>,2014年)提出了一种基于移动用户间信任度的评分预测算法;付畅俭等提出了“挖掘视频层次结构,改善视频管理”(<计算机应用研究>,2007年)对视频数据挖掘的理论,结构,语法,语义上面探讨了数据挖掘的方法及应用;金亮等提出了“基于聚类层次模型的视频推荐算法”(<计算机应用>,2017年)详细阐述了在视频推荐系统中运用聚类层次模型构建推荐算法。
然而,现有的视频推荐技术基本都是在待推荐系统上针对用户偏好、历史行为记录,在该系统上对意向用户进行推荐,并未从不同源视频地址,挖掘出对应用户偏好行为,属性特征;并分析此类特征匹配的人群,以此推广至拟推送的特定人群之中。因此,本专利的特点在于丰富了党建信息化精准推送领域;针对广大不同职业背景的党员群体,将最相关公共媒体视频推送至此类人群中;本专利中涉及的算法创新之处在于:主要依据党建视频内容特征,用户群体属性特征与偏好特征,提出了用户属性匹配度与偏好相似度的加权组合计算;并分阶段运用两种不同的推荐算法,提取以内容特征为依据的个体用户内容推荐推广到以用户集相似度为依据的用户子集关联推荐,而后,融合文本挖掘算法计算用户子集与党员群体的隶属度,精准地匹配最相关内容特征的党建视频推送至此类特定群体。
发明内容
针对现有技术中存在的不足,本发明的目的在于提出一种针对特定内容推荐至特定人群中的推荐方法:基于三阶段组合推荐技术的党建视频推送方法。具体来说,本发明的具体技术方案包括:
第一阶段:基于视频内容的方法:提取党建视频集中的目标特征并根据训练用户集的偏好,历史行为特征对测试用户集推送党建视频;
步骤1:对党建视频集进行初始定义
Figure 384706DEST_PATH_IMAGE001
,其中
Figure RE-DEST_PATH_IMAGE002
表示第
Figure 948280DEST_PATH_IMAGE003
个源视频。每个源视频都具有的相关属性:标题
Figure RE-DEST_PATH_IMAGE004
,内容
Figure 100002_DEST_PATH_IMAGE005
,点击量
Figure RE-DEST_PATH_IMAGE006
及时长
Figure 100002_DEST_PATH_IMAGE007
。针对党建视频观看的用户集进行初始定义
Figure RE-DEST_PATH_IMAGE008
,其中
Figure 35054DEST_PATH_IMAGE009
表示已观看党建视频某一个用户,
Figure RE-DEST_PATH_IMAGE010
为提取的视频集关联的所有用户。党建视频推送的最终对象:党员群体,是已知不同职业范围的特定人群
Figure 788115DEST_PATH_IMAGE011
,其中
Figure RE-DEST_PATH_IMAGE012
表示已知某职业属性的一个党员;
步骤2:对党建视频内容进行特征筛选与提取,内容特征表示为
Figure 463685DEST_PATH_IMAGE013
,其中
Figure RE-DEST_PATH_IMAGE014
表示为第
Figure 699625DEST_PATH_IMAGE015
个党建视频内容提取出来的
Figure RE-DEST_PATH_IMAGE016
条特征表达;并对内容特征数据进行结构化处理,生成党建视频目标内容特征
Figure 100002_DEST_PATH_IMAGE017
,其中
Figure RE-DEST_PATH_IMAGE018
为第
Figure 398329DEST_PATH_IMAGE015
个党建视频目标内容特征;
步骤2.1:对于网络中存储的海量党建视频,首先应对其进行相关特征的筛选;筛选的相关特征包括:目标年限,字幕,时长;
步骤2.2:抽取字幕内容
Figure 79715DEST_PATH_IMAGE019
,将其作为源视频文本内容特征主要的源提取目标特征;
步骤2.3:将抽取出的每个字幕内容文本,逐一分割成句子,去除文本中的格式,标点,停用词;遍历所有字幕内容文本生成内容特征:
Figure RE-DEST_PATH_IMAGE020
步骤3:根据单一用户对党建视频的历史偏好记录来学习出偏好特征
Figure 100002_DEST_PATH_IMAGE021
。遍历用户集的偏好记录,提取用户集的偏好特征表达
Figure RE-DEST_PATH_IMAGE022
;运用Rocchio算法生成对应每一用户拟推荐的党建视频;
步骤3.1:设某用户
Figure 100002_DEST_PATH_IMAGE023
对党建视频
Figure RE-DEST_PATH_IMAGE024
作出相关点击观看,已知此用户对某类党建视频点击(记为偏好喜欢
Figure 993198DEST_PATH_IMAGE025
),将其他党建视频标记为偏好不喜欢
Figure RE-DEST_PATH_IMAGE026
;则拟计算该用户的偏好为:
Figure 164154DEST_PATH_IMAGE027
步骤3.2:运用Rocchio反馈算法:
Figure RE-DEST_PATH_IMAGE028
;其中
Figure 648356DEST_PATH_IMAGE029
Figure RE-DEST_PATH_IMAGE030
分别表示正负反馈权重,其目的是控制判定结果和原始用户偏好向量之间的平衡;
Figure 8800DEST_PATH_IMAGE031
Figure RE-DEST_PATH_IMAGE032
分别表示偏好集
Figure 455699DEST_PATH_IMAGE025
Figure 236704DEST_PATH_IMAGE026
中的已知实例;
步骤3.3:应用余弦相似度计算
Figure 706738DEST_PATH_IMAGE033
Figure 480659DEST_PATH_IMAGE031
的相似性,对于某个给定的
Figure 158896DEST_PATH_IMAGE031
,使用
Figure 360070DEST_PATH_IMAGE033
Figure 317400DEST_PATH_IMAGE031
的相似度来代表用户
Figure RE-DEST_PATH_IMAGE034
对党建视频
Figure 442482DEST_PATH_IMAGE035
的喜好度;
步骤3.4:遍历所有训练用户集,找出对应于用户测试集中每一用户拟推荐的党建视频;
步骤4:根据用户在党建视频内容特征中历史行为记录的变化来生成反馈偏好特征,重新将此类偏好特征加入偏好特征学习过程中。跳转步骤3并更新偏好特征;
步骤4.1:初始化单一用户的反馈特征为空,即
Figure RE-DEST_PATH_IMAGE036
步骤4.2:将此用户观看的首个党建视频的目标内容特征添加至
Figure 614706DEST_PATH_IMAGE037
中;
步骤4.3:依次遍历所用此用户观看过的党建视频,逐一将目标内容特征更新至
Figure 986781DEST_PATH_IMAGE037
中;
步骤4.4:遍历
Figure 369090DEST_PATH_IMAGE037
,去除冗余内容特征;
步骤4.5:重复上述步骤4.4,直到提取出用户集中每一用户的反馈特征;
第二阶段:基于用户的协同过滤方法:以用户性质特征及兴趣相似度为依据,对相似用户集进行有效的聚类划分;
步骤5:对用户集属性与偏好进行特征筛选与提取;提取用户集中相同党建视频重复点击量
Figure RE-DEST_PATH_IMAGE038
及视频跳跃观看时长
Figure 297863DEST_PATH_IMAGE039
,以此作为用户属性特征;计算属性特征的匹配度:
Figure RE-DEST_PATH_IMAGE040
Figure 573861DEST_PATH_IMAGE041
;其中,
Figure RE-DEST_PATH_IMAGE042
表示与用户
Figure 929887DEST_PATH_IMAGE043
有相同用户特征信息的用户子集;
Figure RE-DEST_PATH_IMAGE044
为权重阈值;遍历用户集并计算用户间的特征信息匹配度。而后,计算用户集中每一用户的偏好相似度。设定用户
Figure 100002_DEST_PATH_IMAGE045
,浏览党建视频的集合
Figure RE-DEST_PATH_IMAGE046
。用户
Figure 100002_DEST_PATH_IMAGE047
,浏览党建视频的集合
Figure RE-DEST_PATH_IMAGE048
,其偏好相似度的计算为:
Figure 845497DEST_PATH_IMAGE049
;遍历用户集并计算用户间的偏好相似度;
步骤6:根据用户属性特征的匹配度与用户的偏好相似度,设置阈值权重:
Figure RE-DEST_PATH_IMAGE050
;运用k-means算法对相似特征的用户群体:
Figure 577961DEST_PATH_IMAGE051
进行有效聚类划分;并对离群用户进行相关处理;离群用户与其他用户属性特征不同,根据测量
Figure RE-DEST_PATH_IMAGE052
值超出拟定阈值,即认定为离群用户;将离群用户视为噪声点删除后更新相似属性特征的用户群体;
第三阶段:将党建视频推送至相似用户集,并计算不同职业属性的党员群体与相似用户子集间的隶属度,将已推送至各相似用户子集的视频逐一匹配推送至党员群体中;
步骤7:结合步骤3生成的单一用户拟推送视频与步骤5用户偏好相似度生成的相似用户群体,重新聚类生成对相似用户集推送的党建视频;而后,提取党建视频标题
Figure 646149DEST_PATH_IMAGE053
中的关键词,将这些关键词运用余弦相似度度量算法来匹配不同职业党员群体的属性值,以此作为不同职业党员群体的属性标识符;
步骤7.1:对党员群体以职业性质进行有效划分;
步骤7.2:针对以职业性质划分完成的党员子集,建立各子集对应的职业关键词词典,将词典中的每一个关键词赋予唯一标识符;
步骤7.3:将拟推荐视频的标题关键词提取出来,并记录每个标题关键词所属的党建视频,分别为这些标题关键词分配唯一的标识符;
步骤7.4:统计标题关键词与词典中关键词相同的词及对应的词频;
步骤7.5:相似度计算:假设出现的某个标题关键词:
Figure RE-DEST_PATH_IMAGE054
;出现的词频:
Figure 173076DEST_PATH_IMAGE055
。某一职业关键词词典中出现的关键词:
Figure RE-DEST_PATH_IMAGE056
;出现的词频:
Figure 592294DEST_PATH_IMAGE057
其中,
Figure RE-DEST_PATH_IMAGE058
表示两个关键词集中同一个词,
Figure RE-DEST_PATH_IMAGE059
是它们分别对应的词频,则,它们之间的余弦相似度可以表示为:
Figure DEST_PATH_IMAGE060
步骤7.6:重复上述步骤,计算所有视频标题关键词与各子集职业关键词的相似度;记录相似度最大值的标题关键词与词典对应元组;
步骤7.7:将视频标题所属的党建视频归属为党员子集的属性标识符;
步骤8:结合步骤7相似用户集推荐视频的标题关键词与已生成的党员群体属性标签标识符,计算两者的相似度,最终将党建视频推送至目标群体:具有不同职业身份的党员群体中;
附图说明
图1为本发明的具体实施方式流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例:
图1为本发明实施例提供的方法流程图,如图1所示,该方法可以包括以下步骤:首先将待处理特征对象进行命名,以便后续步骤使用;党建视频集的初始定义
Figure RE-DEST_PATH_IMAGE061
,其中
Figure DEST_PATH_IMAGE062
表示第
Figure 299088DEST_PATH_IMAGE003
个源视频。每个源视频都具有的相关属性:标题
Figure RE-DEST_PATH_IMAGE063
,内容
Figure DEST_PATH_IMAGE064
,点击量
Figure 284099DEST_PATH_IMAGE065
及时长
Figure DEST_PATH_IMAGE066
。针对党建视频观看的用户集进行初始定义
Figure 247507DEST_PATH_IMAGE067
,其中
Figure DEST_PATH_IMAGE068
表示某一个用户;党建视频推送的最终对象:党员群体,是已知不同职业的特定人群
Figure 911879DEST_PATH_IMAGE069
,其中
Figure DEST_PATH_IMAGE070
表示某职业属性的一个党员;
第二步,对党建视频内容进行特征筛选与提取,内容特征表示为
Figure 986145DEST_PATH_IMAGE071
,其中
Figure DEST_PATH_IMAGE072
表示为第
Figure 763346DEST_PATH_IMAGE073
个党建视频内容提取出来的
Figure DEST_PATH_IMAGE074
条特征表达。这些从党建视频中提取出来的内容特征包括三大方面:学习性质内容:其中的内容重点为:领导人讲话,部门党建工作总结,个人学习成果与思想汇报;地区性质内容:可分为:国家层面,省市层面,部门及单位层面:理论与技能观点;内容特征提取包括:党的理论知识,专业技能知识,党政科普;
步骤2.1:网络中存储了海量的党建视频,首先应对其进行筛选,主要的筛选特征包括:目标年限,字幕,时长;
步骤2.2:抽取字幕内容
Figure RE-DEST_PATH_IMAGE075
,将其作为源视频文本内容特征主要的源提取目标;
步骤2.3:将抽取出的每个字幕内容文本,逐一分割成句子,去除文本中的格式,标点,停用词等;遍历所有字幕内容文本生成内容特征:
Figure DEST_PATH_IMAGE076
;将内容特征数据进行结构化处理;数据结构化处理主要是为了提高数据存储效率及索引化后快速搜索目标特征的能力,而后,生成党建视频目标内容特征
Figure 271557DEST_PATH_IMAGE077
,其中
Figure DEST_PATH_IMAGE078
为第
Figure 901253DEST_PATH_IMAGE073
个党建视频目标内容特征;
步骤3:根据单一用户对党建视频的历史偏好记录学习偏好特征
Figure 949849DEST_PATH_IMAGE079
;遍历至用户集的偏好记录,提取用户集的偏好特征表达
Figure DEST_PATH_IMAGE080
。假设某用户
Figure 348600DEST_PATH_IMAGE081
的历史偏好中发现对领导人讲话此类视频内容特征观看数量及时长较高,则将此类学习性质内容偏好设置为学习特征序列组中;对已提取出的用户集偏好特征,运用Rocchio算法生成对应每一用户拟推荐的党建视频;
步骤3.1:设某用户
Figure DEST_PATH_IMAGE082
对党建视频
Figure 152346DEST_PATH_IMAGE083
作出相关点击观看,已知此用户对某内容的党建视频点击(记为偏好喜欢
Figure DEST_PATH_IMAGE084
),这其他党建视频则记为偏好不喜欢
Figure 3758DEST_PATH_IMAGE085
则拟计算该用户的偏好为:
Figure DEST_PATH_IMAGE086
步骤3.2:运用Rocchio反馈算法:
Figure 918363DEST_PATH_IMAGE087
其中
Figure DEST_PATH_IMAGE088
Figure 437200DEST_PATH_IMAGE089
为正负反馈权重,其目的是控制判定结果和原始用户偏好向量之间的平衡。
Figure DEST_PATH_IMAGE090
Figure 146268DEST_PATH_IMAGE091
分别表示偏好集
Figure DEST_PATH_IMAGE092
Figure 750555DEST_PATH_IMAGE093
中的已知实例;
步骤3.3:应用余弦相似度计算
Figure 891687DEST_PATH_IMAGE086
Figure 701249DEST_PATH_IMAGE090
的相似性,对于某个给定的
Figure 269633DEST_PATH_IMAGE090
,使用
Figure 298900DEST_PATH_IMAGE086
Figure 243722DEST_PATH_IMAGE090
的相似度来代表用户
Figure 907791DEST_PATH_IMAGE082
对党建视频
Figure DEST_PATH_IMAGE094
的喜好度;
步骤3.4:遍历所有用户,找出对应每一用户拟推荐的党建视频;
步骤4:用户在党建视频内容特征中历史行为记录的变化生成反馈偏好特征,重新将此类偏好特征加入偏好特征学习过程中。跳转步骤3并更新偏好特征;假设用户
Figure 912656DEST_PATH_IMAGE095
观看另外党建视频中涉及到的内容特征表现为理论知识的学习,则此类特征计数后加入学习特征序列,知道遍历此用户观看所有的党建视频;
步骤5:对用户集属性进行特征筛选与提取;提取用户集中相同党建视频重复点击量
Figure DEST_PATH_IMAGE096
及视频跳跃观看时长
Figure 225957DEST_PATH_IMAGE097
,以此作为用户特征信息;计算特征信息匹配度:
Figure DEST_PATH_IMAGE098
Figure RE-DEST_PATH_IMAGE099
其中,
Figure DEST_PATH_IMAGE100
表示与用户
Figure 895841DEST_PATH_IMAGE101
有相同用户特征信息的用户子集;
Figure DEST_PATH_IMAGE102
为权重阈值;遍历用户集并计算用户间的特征信息匹配度。而后,计算用户集中每一用户的偏好相似度。设定用户
Figure 555362DEST_PATH_IMAGE103
,浏览党建视频的集合
Figure DEST_PATH_IMAGE104
。用户
Figure RE-DEST_PATH_IMAGE105
,浏览党建视频的集合
Figure DEST_PATH_IMAGE106
,其偏好相似度的计算为:
Figure 652500DEST_PATH_IMAGE107
;遍历用户集并计算用户间的偏好相似度。
步骤6:根据用户属性特征的匹配度与用户的偏好相似度,设置阈值权重:
Figure DEST_PATH_IMAGE108
;运用k-means算法对相似属性用户群体:
Figure 640047DEST_PATH_IMAGE109
进行有效聚类分析。并对离群用户进行相关处理。离群用户与其他用户属性特征不同,即测量
Figure DEST_PATH_IMAGE110
值超出拟定阈值,认定为离群用户;将离群用户视为噪声点删除后更新相似用户群体;
步骤7:结合步骤3生成的单一用户拟推送视频与步骤5以用户属性相似度生成的相似用户群体,重新聚类生成对相似用户集推送的党建视频;提取党建视频标题
Figure 238256DEST_PATH_IMAGE111
中的关键词,并将这些关键词分配到不同职业党员群体的属性值中,以此来作为不同职业党员群体的属性标识符;
步骤7.1:对党员群体以职业性质进行有效划分;
步骤7.2:针对以职业性质划分完成的党员子集,建立各子集对应的职业关键词词典,将词典中的每一个关键词赋予唯一标识符;
步骤7.3:将拟推荐视频的标题关键词提取出来,并记录每个标题关键词所属的党建视频,分别为这些标题关键词分配唯一的标识符;
步骤7.4:统计标题关键词与词典中关键词相同的词及对应的词频;
步骤7.5:相似度计算:假设出现的某个标题关键词:
Figure DEST_PATH_IMAGE112
;出现的词频:
Figure 440699DEST_PATH_IMAGE113
。某一职业关键词词典中出现的关键词:
Figure DEST_PATH_IMAGE114
;出现的词频:
Figure 98951DEST_PATH_IMAGE115
其中,
Figure DEST_PATH_IMAGE116
表示两个关键词集中同一个词,
Figure 386844DEST_PATH_IMAGE117
是它们分别对应的词频,则,它们之间的余弦相似度可以表示为:
Figure DEST_PATH_IMAGE060A
步骤7.6:重复上述步骤,计算所有视频标题关键词与各子集职业关键词的相似度。记录相似度最大值的标题关键词与词典对应元组;
步骤7.7:将视频标题所属的党建视频归属为党员子集的属性标识符;
步骤8:结合步骤7生成的党员群体属性标签与相似用户集推荐视频的标题关键词,计算两者的相似度,此时的相似度测量对象是步骤7中推荐视频关键词与归属不同职业人群(目标党员的职业属性:如学生党员,工人党员,教师党员),最终将党建视频推送至目标群体:具有不同职业身份的党员群体中。
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (1)

1.一种基于特征相似性度量的三阶段组合党建视频推荐方法,其特征在于包括以下步骤:
步骤1:对党建视频内容进行特征筛选与提取,并对内容特征数据进行结构化处理;
步骤1.1:对党建视频集进行初始定义
Figure DEST_PATH_IMAGE001
,其中
Figure 248623DEST_PATH_IMAGE002
表示第
Figure DEST_PATH_IMAGE003
个源视频,每个源视频都具有的相关属性:标题
Figure 352714DEST_PATH_IMAGE004
,内容
Figure DEST_PATH_IMAGE005
,点击量
Figure 257085DEST_PATH_IMAGE006
与时长
Figure DEST_PATH_IMAGE007
,针对党建视频观看的用户集进行初始定义
Figure 776928DEST_PATH_IMAGE008
,其中
Figure DEST_PATH_IMAGE009
表示某一个用户,提取视频关联的用户总数为
Figure 528984DEST_PATH_IMAGE010
,党建视频推送的最终对象:党员群体,是已知具有不同职业的特定人群
Figure DEST_PATH_IMAGE011
,其中
Figure 476080DEST_PATH_IMAGE012
表示某职业属性的某个党员;
步骤1.2:对于网络中存储的海量党建视频,对其进行筛选,主要筛选的特征包括:目标年限,字幕,时长;
步骤1.3:抽取字幕内容
Figure DEST_PATH_IMAGE013
,将其作为源视频文本内容特征主要的源提取目标;
步骤1.4:将抽取出的每个字幕内容文本,逐一分割成句子,去除文本中的格式,标点,停用词,遍历所有字幕内容文本生成内容特征:
Figure 930064DEST_PATH_IMAGE014
步骤1.5:将内容特征数据进行结构化处理;而后,生成党建视频目标内容特征
Figure DEST_PATH_IMAGE015
,其中
Figure 253598DEST_PATH_IMAGE016
为第
Figure DEST_PATH_IMAGE017
个党建视频目标内容特征;
步骤2:提取单一用户
Figure 47110DEST_PATH_IMAGE018
对党建视频的历史偏好记录学习偏好特征,遍历用户集
Figure DEST_PATH_IMAGE019
的偏好记录后,提取用户集
Figure 165108DEST_PATH_IMAGE019
中用户的偏好特征并运用Rocchio算法生成对应每一用户拟推荐的党建视频;
步骤2.1:设某用户
Figure 919437DEST_PATH_IMAGE020
对某个党建视频
Figure DEST_PATH_IMAGE021
做出相关点击观看,已知此用户对某个内容特征的党建视频点击,记为偏好喜欢
Figure 781083DEST_PATH_IMAGE022
,这对其他党建视频记为偏好不喜欢
Figure DEST_PATH_IMAGE023
,拟计算该用户的偏好记为:
Figure 242151DEST_PATH_IMAGE024
步骤2.2:运用Rocchio反馈算法:
Figure DEST_PATH_IMAGE025
;其中
Figure 796629DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
为正负反馈权重,目的是控制判定结果和原始用户偏好向量之间的平衡,
Figure 162889DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
分别表示偏好集
Figure 624963DEST_PATH_IMAGE030
Figure 206117DEST_PATH_IMAGE023
中的已知实例;
步骤2.3:应用余弦相似度计算
Figure 728234DEST_PATH_IMAGE024
Figure 457156DEST_PATH_IMAGE028
的相似性,对于某个给定的
Figure 473653DEST_PATH_IMAGE028
,使用
Figure 158581DEST_PATH_IMAGE024
Figure 867911DEST_PATH_IMAGE028
的相似度来代表用户
Figure DEST_PATH_IMAGE031
对党建视频
Figure 5500DEST_PATH_IMAGE032
的喜好度;
步骤2.4:遍历所有用户,得到对应每一用户拟推荐的党建视频;
步骤3:将用户在党建视频内容特征中历史行为记录的变化转化为反馈偏好特征,重新将此类偏好特征加入偏好特征学习过程中;跳转步骤2并更新偏好特征;
步骤3.1:初始化单一用户的反馈特征为空,即
Figure DEST_PATH_IMAGE033
步骤3.2:将此用户观看的首个党建视频的目标内容特征添加至
Figure 12640DEST_PATH_IMAGE034
中;
步骤3.3:依次遍历所用此用户观看过的党建视频,逐一将目标内容特征更新至
Figure 365123DEST_PATH_IMAGE034
中;
步骤3.4:遍历
Figure 245355DEST_PATH_IMAGE034
,去除冗余内容特征;
步骤3.5:重复上述步骤3.4,直到提取出用户集中所有用户的反馈特征;
步骤4:对用户属性与偏好进行特征提取;提取用户集中相同党建视频重复点击量
Figure DEST_PATH_IMAGE035
及视频跳跃观看时长
Figure 807923DEST_PATH_IMAGE036
,以此作为用户属性特征;计算属性特征的匹配度:
Figure DEST_PATH_IMAGE037
Figure 415491DEST_PATH_IMAGE038
;其中,
Figure DEST_PATH_IMAGE039
表示与用户
Figure 12694DEST_PATH_IMAGE040
有相同用户特征信息的用户子集;
Figure DEST_PATH_IMAGE041
为权重阈值;遍历用户集并计算用户间的特征信息匹配度;而后,计算用户集中每一用户的偏好相似度;设定用户
Figure 63827DEST_PATH_IMAGE042
,浏览党建视频的集合
Figure DEST_PATH_IMAGE043
;用户
Figure 113691DEST_PATH_IMAGE044
,浏览党建视频的集合
Figure DEST_PATH_IMAGE045
,其偏好相似度的计算为:
Figure 462633DEST_PATH_IMAGE046
;遍历用户集并计算用户间的偏好相似度;
步骤5:根据用户属性特征的匹配度与用户的偏好相似度,设置阈值权重:
Figure DEST_PATH_IMAGE047
;运用k-means算法对相似特征的用户集进行有效聚类分析,并对离群用户进行相关处理;
步骤6:结合步骤2生成的对应每一用户拟推荐的党建视频和步骤4中的用户间的偏好相似度,重新聚类生成对相似用户集推送的党建视频;提取党建视频标题
Figure 734518DEST_PATH_IMAGE048
中的关键词,将关键词运用余弦相似度度量算法来匹配不同职业党员群体的属性值,以此作为不同职业党员群体的属性标识符;
步骤6.1:以职业属性划分党员群体;
步骤6.2:针对以职业性质划分完成的党员子集,建立各子集对应的职业关键词词典,并将词典中的每一个关键词赋予唯一标识符;
步骤6.3:将拟推荐视频的标题关键词提取出来,并记录每个标题关键词所属的党建视频,分别为这些标题关键词分配唯一的标识符;
步骤6.4:统计标题关键词与词典中关键词相同的词及对应的词频;
步骤6.5:相似度计算:假设出现的某个标题关键词:
Figure DEST_PATH_IMAGE049
;出现的词频:
Figure 143503DEST_PATH_IMAGE050
;某一职业关键词词典中出现的关键词:
Figure DEST_PATH_IMAGE051
;出现的词频:
Figure 493713DEST_PATH_IMAGE052
其中,
Figure DEST_PATH_IMAGE053
表示两个关键词集中同一个词,
Figure 646345DEST_PATH_IMAGE054
是它们分别对应的词频,则,它们之间的余弦相似度可以表示为:
Figure DEST_PATH_IMAGE055
步骤6.6:重复上述步骤6.5,计算所有视频标题关键词与各子集职业关键词的相似度;记录相似度最大值的标题关键词与词典对应元组;
步骤6.7:将视频标题所属的党建视频归属为党员子集的属性标识符;
步骤7:计算相似用户集拟推荐视频的标题关键词与已生成的党员群体属性标签标识符的相似度,最终将党建视频推送至目标群体:具有不同职业身份的党员群体中。
CN201711266644.5A 2017-12-05 2017-12-05 一种基于特征相似性度量的三阶段组合党建视频推荐方法 Active CN107818183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711266644.5A CN107818183B (zh) 2017-12-05 2017-12-05 一种基于特征相似性度量的三阶段组合党建视频推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711266644.5A CN107818183B (zh) 2017-12-05 2017-12-05 一种基于特征相似性度量的三阶段组合党建视频推荐方法

Publications (2)

Publication Number Publication Date
CN107818183A CN107818183A (zh) 2018-03-20
CN107818183B true CN107818183B (zh) 2021-07-13

Family

ID=61605103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711266644.5A Active CN107818183B (zh) 2017-12-05 2017-12-05 一种基于特征相似性度量的三阶段组合党建视频推荐方法

Country Status (1)

Country Link
CN (1) CN107818183B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647334B (zh) * 2018-05-11 2021-10-19 电子科技大学 一种spark平台下的视频社交网络同源性分析方法
CN109831684B (zh) * 2019-03-11 2022-08-19 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN112256916B (zh) * 2020-11-12 2021-06-18 中国计量大学 一种基于图胶囊网络的短视频点击率预测方法
CN114598905A (zh) * 2021-11-25 2022-06-07 浙江光辉工具有限公司 一种视频推送方法
CN115037791A (zh) * 2022-04-13 2022-09-09 中国电信股份有限公司 事件推送方法、装置、系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045866A (zh) * 2015-07-14 2015-11-11 深圳市云宙多媒体技术有限公司 一种基于短url查询的cdn节点跳转方法及系统
US9262470B1 (en) * 2013-06-25 2016-02-16 Amazon Technologies, Inc. Application recommendations based on application and lifestyle fingerprinting
CN105376648A (zh) * 2015-11-13 2016-03-02 云南大学 一种用于推荐技术的用户配置文件更新方法
CN105915949A (zh) * 2015-12-23 2016-08-31 乐视网信息技术(北京)股份有限公司 一种视频内容推荐方法、设备和系统
CN106294783A (zh) * 2016-08-12 2017-01-04 乐视控股(北京)有限公司 一种视频推荐方法及装置
CN106960030A (zh) * 2017-03-21 2017-07-18 北京百度网讯科技有限公司 基于人工智能的推送信息方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101519879B1 (ko) * 2013-07-22 2015-05-14 광주과학기술원 계층적 컨텍스트 모델을 이용하여 컨텐츠를 추천하기 위한 장치 및 그 방법
US20160253325A1 (en) * 2014-12-30 2016-09-01 Socialtopias, Llc Method and apparatus for programmatically adjusting the relative importance of content data as behavioral data changes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262470B1 (en) * 2013-06-25 2016-02-16 Amazon Technologies, Inc. Application recommendations based on application and lifestyle fingerprinting
CN105045866A (zh) * 2015-07-14 2015-11-11 深圳市云宙多媒体技术有限公司 一种基于短url查询的cdn节点跳转方法及系统
CN105376648A (zh) * 2015-11-13 2016-03-02 云南大学 一种用于推荐技术的用户配置文件更新方法
CN105915949A (zh) * 2015-12-23 2016-08-31 乐视网信息技术(北京)股份有限公司 一种视频内容推荐方法、设备和系统
CN106294783A (zh) * 2016-08-12 2017-01-04 乐视控股(北京)有限公司 一种视频推荐方法及装置
CN106960030A (zh) * 2017-03-21 2017-07-18 北京百度网讯科技有限公司 基于人工智能的推送信息方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于主题与用户偏好分析的查询推荐研究》;陆伟;《情报学报》;20130129;全文 *
《基于党建领域社交网络的协同主题回归推荐方法研究》;赵婧;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;全文 *

Also Published As

Publication number Publication date
CN107818183A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
CN107818183B (zh) 一种基于特征相似性度量的三阶段组合党建视频推荐方法
US10417576B2 (en) Information processing apparatus and method, and program thereof
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
Gupta et al. An overview of social tagging and applications
CN108304493B (zh) 一种基于知识图谱的上位词挖掘方法及装置
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Rangaswamy et al. Metadata extraction and classification of YouTube videos using sentiment analysis
Yang et al. Pinterest board recommendation for twitter users
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
US11841914B2 (en) System and method for topological representation of commentary
Amin et al. A method for video categorization by analyzing text, audio, and frames
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
Cui et al. A barrage sentiment analysis scheme based on expression and tone
Neamah et al. Design and evaluation of a course recommender system using content-based approach
CN114328799A (zh) 数据处理方法、装置以及计算机可读存储介质
Taheri et al. DeepMovRS: a unified framework for deep learning-based movie recommender systems
WO2017135889A1 (en) Ontology determination methods and ontology determination devices
Nosshi et al. Hybrid recommender system via personalized users’ context
Ibrahim et al. Large-scale text-based video classification using contextual features
Varma et al. Social media summarization
Xu et al. Identify user variants based on user behavior on social media
Poornima et al. Automatic Annotation of Educational Videos for Enhancing Information Retrieval.
Liu et al. A review of feature fusion-based media popularity prediction methods
Advani et al. A novel method for music recommendation using social media tags
Weese et al. Parody Detection: An Annotation, Feature Construction, and Classification Approach to the Web of Parody

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant