CN111914182A - 一种个性化内容推荐系统及其方法 - Google Patents
一种个性化内容推荐系统及其方法 Download PDFInfo
- Publication number
- CN111914182A CN111914182A CN202010956314.4A CN202010956314A CN111914182A CN 111914182 A CN111914182 A CN 111914182A CN 202010956314 A CN202010956314 A CN 202010956314A CN 111914182 A CN111914182 A CN 111914182A
- Authority
- CN
- China
- Prior art keywords
- content
- user
- recommended
- contents
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 20
- 238000007477 logistic regression Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种个性化内容推荐系统及其方法,获取用户指定周期内的行为数据;基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;采用逻辑回归算法将备选集中的内容进行优先级排序得到算法推荐内容,获取当前实时数据以及管理员人工输入的平台推荐内容,将实时数据和平台推荐内容按照用户偏好插入算法推荐内容得到综合推荐内容;将综合推荐内容根据用户显示记录和阅读记录过滤重复内容;对过滤后的综合推荐内容进行分页,形成并输出对应推荐列表页。本发明根据不同用户特点推荐不同内容,方便快捷且高效。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种个性化内容推荐系统及其方法。
背景技术
现有的首页推荐内容使用的是热门数据,即根据主贴周期时间内的浏览数、点赞数、评论数等参数来提取热门内容,并推荐给平台用户。这么处理的好处是能让大部分用户看到周期时间内优质的内容,能节省去淘内容的时间。但缺点也不少:所有用户只能看到相同的推荐内容;更新效率低,用户无法看到最新内容;热门推荐存在消息滞后性;每天新增内容总数远大于用户阅读量;个体用户兴趣垂直度不同,热门数据无法覆盖完全。
发明内容
本发明的目的在于提供一种个性化内容推荐系统及其方法。
本发明采用的技术方案是:
一种个性化内容推荐方法,其包括以下步骤:
步骤1,获取用户指定周期内的行为数据;
步骤2,基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;
步骤3,采用逻辑回归算法将备选集中的内容进行优先级排序得到算法推荐内容;
步骤4,获取当前实时数据以及管理员人工输入的平台推荐内容,将实时数据和平台推荐内容按照用户偏好插入算法推荐内容得到综合推荐内容;
步骤5,将综合推荐内容根据用户显示记录和阅读记录过滤重复内容;
步骤6,对过滤后的综合推荐内容进行分页,形成并输出对应推荐列表页。
作为一种优选实施方式,进一步地,步骤1中的指定周期为一星期。
作为一种优选实施方式,进一步地,步骤2中采用三种以上的协同过滤算法取备选内容共同形成备选集。
作为一种优选实施方式,进一步地,协同过滤算法包括TF-IDF文章相似算法、UserCF算法、ItemCF算法和ALS矩阵分解的隐因子算法。
作为一种优选实施方式,进一步地,步骤3中采用逻辑回归算法基于用户特征条件、内容特征条件或上下特征条件进行优先级排序。
作为一种优选实施方式,进一步地,用户特征条件采用根据用户历史行为偏好排序,内容特征条件则根据用户内容偏好排序,上下特征条件则根据使用场景、时段背景进行排序。
作为一种优选实施方式,进一步地,步骤4中将特定的平台推荐内容强制插入指定单页的具体位置。
进一步地,本发明还公开了一种个性化内容推荐系统,采用了所述的一种个性化内容推荐方法,系统包括备选集提取模块、排序模块、实时数据获取模块、平台推荐内容模块、过滤器、分页模块和推荐列表页模块,
选集提取模块:获取用户指定周期内的行为数据并基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;
排序模块:将备选集中的内容根据用户兴趣行为做优先级排序;
实时数据获取模块:用于采用相似内容算法和阅读记录的方式周期性获取当前实时数据并更新推荐;
平台推荐内容模块:用于平台管理员将精选的内容或者广告类型的内容插入到推荐列表页中;
过滤器:通过用户访问日志,获取在用户端已展示的内容和用户已读的内容,将系统推荐过来的备选集、实时数据和平台推荐数据做统一过滤处理,剔除已加展示的和已阅读的内容得到过滤后的综合推荐内容;
分页模块:用于根据设定条目对综合推荐内容进行分页;
推荐列表页模块:按照设定显示条目向用户显示推荐列表页。
作为一种优选实施方式,进一步地,实时数据获取模块每5分钟更新一次数据。
本发明采用以上技术方案,具有如下优点:1、千人千面,根据不同用户特点推荐不同内容;2、实时更新数据,及时推荐用户关心的内容;3、计算并更新用户兴趣,并根据用户周期内的阅读兴趣更新推荐内容。4、通过用户行为记录,不断优化迭代推荐算法,来提高用户的阅读质量。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种个性化内容推荐系统结构示意图;
图2为本发明h(x)即sigmoid函数图像示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1或2所示,本发明公开了一种个性化内容推荐方法,其包括以下步骤:
步骤1,获取用户指定周期内的行为数据;
步骤2,基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;
步骤3,采用逻辑回归算法将备选集中的内容进行优先级排序得到算法推荐内容;
步骤4,获取当前实时数据以及管理员人工输入的平台推荐内容,将实时数据和平台推荐内容按照用户偏好插入算法推荐内容得到综合推荐内容;
步骤5,将综合推荐内容根据用户显示记录和阅读记录过滤重复内容;
步骤6,对过滤后的综合推荐内容进行分页,形成并输出对应推荐列表页。
作为一种优选实施方式,进一步地,步骤1中的指定周期为一星期。
作为一种优选实施方式,进一步地,步骤2中采用三种以上的协同过滤算法取备选内容共同形成备选集。
作为一种优选实施方式,进一步地,协同过滤算法包括TF-IDF文章相似算法、UserCF算法、ItemCF算法和ALS矩阵分解的隐因子算法。
作为一种优选实施方式,进一步地,步骤3中采用逻辑回归算法基于用户特征条件、内容特征条件或上下特征条件进行优先级排序。
作为一种优选实施方式,进一步地,用户特征条件采用根据用户历史行为偏好排序,内容特征条件则根据用户内容偏好排序,上下特征条件则根据使用场景、时段背景进行排序。
作为一种优选实施方式,进一步地,步骤4中将特定的平台推荐内容强制插入指定单页的具体位置。
下面对相关算法做简要的说明:
备选集算法-TFIDF文章相似算法:TF是指某个特定词语在内容中出现的次数,该次数会被正规化,防止偏向更长的内容。IDF是某个词语普遍重要性的度量。由内容中总文件数目除以包含该词语的文件数目,将得到的商取对数获得。TF-IDF是自然语言处理中计算词或短语权重的方法,是词频和逆转文档频率的乘积。TFIDF文章相似算法通过分析每篇内容中的TF-IDF得到对应的权重,再通过权重获得与目标内容语义相似的的内容,最后得到对应内容的相似文章推荐列表。
TF算法公式&参数说明:
参数说明:词频(Term Frequency,TF);TFij:i在文档j中的词频;fij:表示关键词i在文档j中出现的次数;Fdj:表示文档j中出现的词语总数。
IDF算法公式&参数说明:
参数说明:逆文档频率(Inverse Document Frequency,IDF);IDF(i,D):词i在文章集合D的逆文档频率;DF(i,D):词i在文章集合D中出现的次数;D:文章集合大小。
备选集算法-UserCF算法:通过余弦相似度的方式找到和目标用户兴趣相似的用户集合。兴趣相似的分析维度有:对文章的点赞、收藏、评论、打赏等用户操作行为。找到这个集合中的用户(用户样本数量为K)都喜欢的有过反馈操作的,且目标用户还没阅读过的内容推荐给用户。通过准确率、召回率、流行度、覆盖率等推荐系统的精度指标来纠正和优化推荐精度。
UserCF算法公式&参数说明:
备选集算法-ItemCF算法:通过用户访问日志,提取和分析用户历史行为记录。通过用户的历史行为记录,计算内容和内容之间的相似度。针对目标用户,根据内容的相似度和用户的历史行为给用户生成推荐列表。通过准确率、召回率、流行度、覆盖率等推荐系统的精度指标调整和优化推荐结果。
ItemCF算法公式&参数说明:
参数说明:ruj:表示用户u对文章j的喜好程度;rui:表示用户u对文章i的偏好程度(对于隐式反馈数据集,如果用户u对文章i有过行为,则rui=1)。
备选集算法-ALS矩阵分解的隐因子算法:定义用户和内容的关系,可以抽象为如下的三元组:<User,Item,Rating>。其中,Rating是用户对内容的行为评分,表示用户对该内容的喜好程度。通过数据清洗,将其中包含m个User和n个Item,定义为Rating矩阵,其中的元素表示第u个User对第i个Item的评分。通过数据降维得到训练结果矩阵。最后可得到相应的评分预测值。((预测分-真实分)的平方+预测分)/n计算得出标准差,通过标准差来不断迭代优化参数,让推荐数据的评分接近用于真是操作评分。
ALS矩阵分解的隐因子算法公式&参数说明:
偏导数:
梯度迭代直到算法最终收敛
利用上述的过程可以得到矩阵Ui Vj,这样便可以为用户i对商品j进行打分。
排序算法-逻辑回归:用户特征:根据用户历史行为偏好排序;内容特征:根据内容偏好排序。上下文特征:据使用场景、时段等背景排序。
逻辑回归算法公式&参数说明:
模型的假设为
P(y=1|x;θ)=g(θTX)
将以上三种特征合并成一组新的特征,根据训练样本计算出每个特征对应的权重θ,将待预测特征与权重带入下式计算获得h(x)值:
y=θ0+θ1X1+θ2X2+θ3X3=θTX
如图2所示,为h(x)图像,被称作sigmoid函数;sigmoid的函数输出是介于(0,1)之间的,中间值是0.5;hθ(x)<0.5则说明当前数据属于A类;hθ(x)>0.5则说明当前数据属于B类;根据sigmoid的计算结果排序取出被点击概率最大的物品。
进一步地,本发明还公开了一种个性化内容推荐系统,采用了所述的一种个性化内容推荐方法,系统包括备选集提取模块、排序模块、实时数据获取模块、平台推荐内容模块、过滤器、分页模块和推荐列表页模块,
选集提取模块:获取用户指定周期内的行为数据并基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;
排序模块:将备选集中的内容根据用户兴趣行为做优先级排序;
实时数据获取模块:用于采用相似内容算法和阅读记录的方式周期性获取当前实时数据并更新推荐;
平台推荐内容模块:用于平台管理员将精选的内容或者广告类型的内容插入到推荐列表页中;
过滤器:通过用户访问日志,获取在用户端已展示的内容和用户已读的内容,将系统推荐过来的备选集、实时数据和平台推荐数据做统一过滤处理,剔除已加展示的和已阅读的内容得到过滤后的综合推荐内容;
分页模块:用于根据设定条目对综合推荐内容进行分页;
推荐列表页模块:按照设定显示条目向用户显示推荐列表页。
作为一种优选实施方式,进一步地,实时数据获取模块每5分钟更新一次数据。
本发明采用以上技术方案,具有如下优点:1、千人千面,根据不同用户特点推荐不同内容;2、实时更新数据,及时推荐用户关心的内容;3、计算并更新用户兴趣,并根据用户周期内的阅读兴趣更新推荐内容。4、通过用户行为记录,不断优化迭代推荐算法,来提高用户的阅读质量。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (9)
1.一种个性化内容推荐方法,其特征在于:其包括以下步骤:
步骤1,获取用户指定周期内的行为数据;
步骤2,基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;
步骤3,采用逻辑回归算法将备选集中的内容进行优先级排序得到算法推荐内容;
步骤4,获取当前实时数据以及管理员人工输入的平台推荐内容,将实时数据和平台推荐内容按照用户偏好插入算法推荐内容得到综合推荐内容;
步骤5,将综合推荐内容根据用户显示记录和阅读记录过滤重复内容;
步骤6,对过滤后的综合推荐内容进行分页,形成并输出对应推荐列表页。
2.根据权利要求1所述的一种个性化内容推荐方法,其特征在于:步骤1中的指定周期为一星期。
3.根据权利要求1所述的一种个性化内容推荐方法,其特征在于:步骤2中采用三种以上的协同过滤算法取备选内容共同形成备选集。
4.根据权利要求3所述的一种个性化内容推荐方法,其特征在于:协同过滤算法包括TF-IDF文章相似算法、UserCF算法、ItemCF算法和ALS矩阵分解的隐因子算法。
5.根据权利要求1所述的一种个性化内容推荐方法,其特征在于:步骤3中采用逻辑回归算法综合基于用户特征条件、内容特征条件和上下特征条件进行优先级排序。
6.根据权利要求5所述的一种个性化内容推荐方法,其特征在于:用户特征条件采用根据用户历史行为偏好排序,内容特征条件则根据用户内容偏好排序,上下特征条件则根据使用场景、时段背景进行排序。
7.根据权利要求1所述的一种个性化内容推荐方法,其特征在于:步骤4中将特定的平台推荐内容强制插入指定单页的具体位置。
8.一种个性化内容推荐系统,采用了权利要求1至7任一所述的一种个性化内容推荐方法,其特征在于:系统包括备选集提取模块、排序模块、实时数据获取模块、平台推荐内容模块、过滤器、分页模块和推荐列表页模块,
选集提取模块:获取用户指定周期内的行为数据并基于用户的行为数据综合应用多种过滤算法提取备选内容共同形成备选集;
排序模块:将备选集中的内容根据用户兴趣行为做优先级排序;
实时数据获取模块:用于采用相似内容算法和阅读记录的方式周期性获取当前实时数据并更新推荐;
平台推荐内容模块:用于平台管理员将精选的内容或者广告类型的内容插入到推荐列表页中;
过滤器:通过用户访问日志,获取在用户端已展示的内容和用户已读的内容,将系统推荐过来的备选集、实时数据和平台推荐数据做统一过滤处理,剔除已加展示的和已阅读的内容得到过滤后的综合推荐内容;
分页模块:用于根据设定条目对综合推荐内容进行分页;
推荐列表页模块:按照设定显示条目向用户显示推荐列表页。
9.根据权利要求8所述的一种个性化内容推荐系统,其特征在于:实时数据获取模块每5分钟更新一次数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010956314.4A CN111914182A (zh) | 2020-09-11 | 2020-09-11 | 一种个性化内容推荐系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010956314.4A CN111914182A (zh) | 2020-09-11 | 2020-09-11 | 一种个性化内容推荐系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914182A true CN111914182A (zh) | 2020-11-10 |
Family
ID=73267604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010956314.4A Pending CN111914182A (zh) | 2020-09-11 | 2020-09-11 | 一种个性化内容推荐系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914182A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150120722A1 (en) * | 2013-10-31 | 2015-04-30 | Telefonica Digital Espana, S.L.U. | Method and system for providing multimedia content recommendations |
CN109670104A (zh) * | 2018-11-12 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 基于机器学习的信息推送方法、设备、装置及存储介质 |
CN111008321A (zh) * | 2019-11-18 | 2020-04-14 | 广东技术师范大学 | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 |
CN111061945A (zh) * | 2019-11-11 | 2020-04-24 | 汉海信息技术(上海)有限公司 | 推荐方法、装置、电子设备,存储介质 |
-
2020
- 2020-09-11 CN CN202010956314.4A patent/CN111914182A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150120722A1 (en) * | 2013-10-31 | 2015-04-30 | Telefonica Digital Espana, S.L.U. | Method and system for providing multimedia content recommendations |
CN109670104A (zh) * | 2018-11-12 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 基于机器学习的信息推送方法、设备、装置及存储介质 |
CN111061945A (zh) * | 2019-11-11 | 2020-04-24 | 汉海信息技术(上海)有限公司 | 推荐方法、装置、电子设备,存储介质 |
CN111008321A (zh) * | 2019-11-18 | 2020-04-14 | 广东技术师范大学 | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107424043B (zh) | 一种产品推荐方法及装置,电子设备 | |
US9058394B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN109829108B (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
WO2019056661A1 (zh) | 一种搜索词推送方法、装置及终端 | |
CN105159932B (zh) | 一种数据检索引擎和排序系统和方法 | |
US9015158B2 (en) | Contents creating device and contents creating method | |
CN106156111B (zh) | 专利文件检索方法、装置和系统 | |
CN111914172A (zh) | 一种基于用户标签的医学信息推荐方法及系统 | |
CN111259173A (zh) | 一种搜索信息推荐方法及装置 | |
CN112862567B (zh) | 一种在线展会的展品推荐方法与系统 | |
US20140032539A1 (en) | Method and system to discover and recommend interesting documents | |
CN111191112A (zh) | 一种电子读物数据处理方法、装置及存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
US20190065611A1 (en) | Search method and apparatus | |
CN117076692A (zh) | 一种档案在线管理方法及系统 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
CN106933993B (zh) | 一种资讯处理方法及装置 | |
CN103514237B (zh) | 一种获取用户和文档个性化特征的方法和系统 | |
CN111914182A (zh) | 一种个性化内容推荐系统及其方法 | |
KR102082900B1 (ko) | 판매 상품의 최적 검색어 제공 시스템 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN112989196A (zh) | 基于个性化召回算法lfm的图书推荐方法 | |
CN111737568B (zh) | 一种网络文学书籍个性化推荐方法及系统 | |
CN111191126A (zh) | 一种基于关键词的科技成果精准推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201110 |
|
RJ01 | Rejection of invention patent application after publication |