CN116226539A - 一种自动化内容推荐方法及系统 - Google Patents
一种自动化内容推荐方法及系统 Download PDFInfo
- Publication number
- CN116226539A CN116226539A CN202310489281.0A CN202310489281A CN116226539A CN 116226539 A CN116226539 A CN 116226539A CN 202310489281 A CN202310489281 A CN 202310489281A CN 116226539 A CN116226539 A CN 116226539A
- Authority
- CN
- China
- Prior art keywords
- user
- reading
- weight
- data
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种自动化内容推荐方法及系统,方法包括:采集预设时间内单独用户行为数据和全局用户行为数据构建私域和全域;预设各阅读维度的维度权重,构建各阅读维度的行为权重;根据各阅读维度的维度权重以及行为权重计算主题综合权重值;采集当天单独用户行为数据,计算各个主题综合权重值;预设个人和集体对比权重,计算得出主题最终权重并进行内容推荐;预设权重波动值以及观察周期,在观察周期内各个预设参数根据权重波动值进行波动,判断用户行为分是否增加,若增加,则更新各权重值。本申请的有益效果:预设参数个性化波动,提高用户画像构建准确性,避免老用户浏览固化,以有限的行为数据完善新用户画像,提升用户的使用体验。
Description
技术领域
本申请涉及数据处理技术,尤其涉及一种自动化内容推荐方法及系统。
背景技术
“个性化推荐”是近年来新兴的管理科学技术名词,根据用户的兴趣特点,通过人工智能的大数据和算法,推荐其感兴趣的商品、内容等各类信息。如图1所示,相关技术中通常基于用户行为如数据浏览、浏览时长、用户动作(点赞、点踩)、数据内容提取、权重生成的方式方法来给用户进行画像创建,进而通过创建的画像为用户进行个性化推荐。
然而用于画像创建的用户数据具有时效性,仅依靠当前用户浏览数据进行行为数据提取仅能展现当前用户行为习惯,无法结合历史行为习惯对于当前行为数据进行修正;同时用户行为数据提取时,缺少去噪处理,存在大量无效数据干扰;且相关技术中用户兴趣点提取仅基于关键字获取,无法进一步分析内容关联,以上问题就容易导致用户画像创建时存在偏差且无法修正。
进而,根据用户画像对用户进行内容推荐,容易造成用户画像固化,如基于用户画像认为用户对于某一标签的内容感兴趣,为用户不断推荐该内容,造成用户浏览数据中该内容权重较大,又不断为用户推荐该标签内容,老用户难以导向新数据。
浏览平台同时会不断有新用户或次新用户进行浏览,此时由于新用户和次新用户的行为数据较少,无法全面分析用户的行为喜欢,导致新用户或者次新用户的用户画像残缺,不利于内容自动化推荐。
中国专利《一种个性化推荐方法、系统以及存储介质》,公开号:CN 115687786 A,公开日:2023年02月03日,公开了根据用户的多维信息标签建立用户画像,采集一段时间内线下全部用户的活动数据,基于全部用户的活动数据和用户画像来分析邻近用户的兴趣偏好的影响从而对用户画像进行重构,根据重构的用户画像为用户提供个性化推荐,然而该技术是以当前用户画像的兴趣偏好作为兴趣偏好的影响源并建立领域模型,也就是说,该技术方案中虽然引用了全部用户的活动数据和用户画像,但仅局限于用全部用户的兴趣数据扩大用户画像中兴趣偏好的范围从而达到修正的效果,仍然无法实现用户自身历史习惯对当前行为数据的修正、将老用户导向新数据以及补充新用户的用户画像的效果。
中国专利《文章推荐方法、装置、设备及存储介质》,公开号:CN 112825089 A,公开日:2021年05月21日,公开了从待推荐对象的画像信息中,提取至少两个兴趣标签;根据每一兴趣标签的权重,对至少两个兴趣标签进行采样,得到索引词集合;确定与索引词集合中的索引词相匹配的候选文章集合;确定候选文章集合中每一候选文章与画像信息之间的匹配度;根据匹配度,对候选文章集合进行采样,得到待推荐的目标文章集合;从而,通过对多个兴趣标签采样,能够在得到的目标文章中涉及到画像信息中尾部的兴趣,从而将包含与画像信息中尾部的兴趣匹配的文章的目标文章集合反馈给待推荐对象。该方案通过权重排列获得采样概率,再通过采样概率获得兴趣标签中的索引词,进而通过索引词进行匹配候选文章,然而这虽然提高了尾部兴趣文章推荐可能性,但采样概率仍然被权重影响,即用户对新标签的感兴趣程度仍然以自身历史行为数据为标准,仍然无法为用户推荐突发的时事热点内容。
发明内容
本申请针对现有技术中存在用户画像准确性低、老用户画像固化以及新用户画像错误率高的问题,提供一种自动化内容推荐方法,以一定时间内单独用户行为数据建立私域,以一定时间内全局用户行为数据建立全域,通过自反馈算法提高当前用户画像建立的准确性,并设置维度权重值,以当前用户画像与私域以及全域的权重进行比较,获得当前用户画像中最符合用户行为习惯同时又符合全部用户关注重点的内容标签排行,不仅达到了对用户画像修正的效果,同时能将老用户导向其有可能感兴趣的新数据,并且通过有限的用户数据,依托大数据平台进行矩阵计算,能够推演出新用户的喜好和分类,将新用户的用户画像填充完整。
为实现上述技术目的,作为本申请的第一方面,提供一种自动化内容推荐方法,用于根据用户浏览情况自主推荐喜好内容,包括如下步骤:S1:采集预设时间内单独用户行为数据,构建基于单独用户行为数据分析得出的私域;S2:采集预设时间内全局用户行为数据,构建基于全局用户行为数据分析得出的全域;S3:预设阅读维度以及各阅读维度的维度权重,构建层次分析法计算各阅读维度的行为权重;S4:根据各阅读维度的维度权重以及各阅读维度的行为权重计算主题综合权重值;S5:采集当天单独用户行为数据,计算当天主题综合权重值、全域主题综合权重值以及私域主题综合权重值;S6:预设个人对比权重以及集体对比权重,结合当天主题综合权重值、全域主题综合权重值以及私域主题综合权重值计算得出主题最终权重,以主题最终权重作为推荐标签,根据推荐标签优先级进行内容推荐;S7:预设权重波动值以及观察周期,在观察周期内维度权重、行为权重、个人对比权重以及集体对比权重根据权重波动值进行波动,判断推荐标签的浏览数据在用户行为数据中占比是否增加,若增加,则更新各权重参数。
可选的,还包括如下步骤:S8:以推荐数据和用户当前行为数据作为反馈数据,更新私域以及全域。
可选的,S1包括:S11:对单独用户行为数据提取关键词,根据关键词权重获得内容标签集;S12:以历史阅读数据构建义原树,根据义原树获得与内容标签集相关联的关联词汇集;S13:以若干个内容标签集与关联词汇集映射结果取交集,附以高关键词权重加入至内容标签集,获得初始用户行为画像。
可选的,S1还包括S14:设置循环策略,重复S11至S13,获取多层映射结果取交集,修正初始用户行为画像。
可选的,S3中阅读维度至少包括:主题受欢迎度、主题阅读深度、主题点赞率以及延伸阅读率。
可选的,S3包括:S31:获取用户行为数据中有效阅读人次、有效阅读文章数量以及文章转发量,计算阅读转换率以及分享转换率,根据层次分析法得出两者的权重,计算主题受欢迎度的行为权重。
可选的,S3还包括:S32:获取用户行为数据中有效阅读时间以及有效阅读人次,计算主题阅读深度。
可选的,S3还包括:S33:获取用户行为数据中有效阅读数量以及有效点赞数量,计算主题点赞率。
可选的,S3还包括:S34:获取用户行为数据中有效延伸阅读数量以及总延伸阅读数量,计算延伸阅读率。
作为本申请的另一方面,提供一种自动化内容推荐系统,用于实现上述的一种自动化内容推荐方法,包括:业务系统,用于发送用户行为数据以及接收推荐结果;推荐系统,计算用户画像,得出推荐结果;消息中间件,用于实现业务系统以及推荐系统之间的消息传递;存储数据库,用于存储用户行为数据、计算过程数据以及推荐结果数据。
本申请的有益效果:预设参数个性化波动,符合不同用户的实际阅读习惯,提高用户画像构建准确性,避免特殊情况下用户浏览情况影响到当天的用户画像构建从而造成推荐内容出错,避免老用户浏览固化,以有限的行为数据完善新用户画像,提升用户的使用体验。
附图说明
图1为相关技术中用户画像构建方法流程图。
图2为本申请一种实施例情况下的自动化内容推荐方法流程图。
图3为本申请如图2所示的自动化内容推荐方法的初始用户行为画像构建流程图。
图4为本申请另一种实施例情况下的自动化内容推荐系统架构示意图。
具体实施方式
为使本申请的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本申请作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本申请的一种最佳实施例,仅用以解释本申请,并不限定本申请的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图2所示,本申请提供一种自动化内容推荐方法,用于根据用户浏览情况自主推荐喜好内容,至少包括如下步骤:
S1:采集预设时间内单独用户行为数据,构建基于单独用户行为数据分析得出的私域;
S2:采集预设时间内全局用户行为数据,构建基于全局用户行为数据分析得出的全域;
S3:预设阅读维度以及各阅读维度的维度权重,构建层次分析法计算各阅读维度的行为权重;
S4:根据各阅读维度的维度权重以及各阅读维度的行为权重计算主题综合权重值;
S5:采集当天单独用户行为数据,计算当天主题综合权重值、全域主题综合权重值以及私域主题综合权重值;
S6:预设个人对比权重以及集体对比权重,结合当天主题综合权重值、全域主题综合权重值以及私域主题综合权重值计算得出主题最终权重,以主题最终权重作为推荐标签,根据推荐标签优先级进行内容推荐;
S7:预设权重波动值以及观察周期,在观察周期内维度权重、行为权重、个人对比权重以及集体对比权重根据权重波动值进行波动,判断推荐标签的浏览数据在用户行为数据中占比是否增加,若增加,则更新各权重参数;
S8:以推荐数据和用户当前行为数据作为反馈数据,更新私域以及全域。
具体的,当新用户进入浏览平台时为了保证用户的个人隐私,所有用户在平台系统中对应的信息只有一个hash ID值的代号,并且不可反向逆转无法通过代号的ID值来获知真实用户,无论是平台系统管理员还是后台数据库管理员都无法通过这一ID值来识别用户现实信息。
同时为了保护用户的隐私,当新用户进入浏览平台时,向新用户提示是否允许平台采集浏览数据并自动化推荐内容,在用户允许的前提下进行数据采集。优选的,用户可以通过平台上允许访问选项随时改变平台的采集权限,当用户关闭平台的采集权限时,数据库自动清除该用户的历史浏览数据,包括通过上述步骤生成的用户推荐内容优先级,从而保证在用户不授予平台对自身浏览信息采集权限时,平台也无法调用用户历史浏览数据进行分析,进一步确保用户的隐私安全。
更为优选的,考虑到用户对自身历史浏览数据也存在回顾需求,在用户关闭平台的采集权限时,向用户提示是否清除历史浏览数据,若用户选择否,则将用户历史浏览数据调取存储至未授权数据库中,未授权数据库仅支持用户自身调取历史浏览数据,而在原本的数据库中对该用户的历史浏览数据以及推荐内容优先级进行删除,从而保证在全域数据收集时并不会收集未授权用户的历史浏览数据。在此方案中,未授权数据库在接收到调取指令时,判断调取指令是否包含用户授权信息,若未包含,则拒绝输出历史浏览数据,从而保护用户隐私安全的同时方便用户回顾自己的浏览历史。
可选的,当用户为个人时,需要询问每个用户的授权意愿;当用户为团队时,即一个公司或团队共同在平台上以公司或团队的形式进行活动,此时认为该团队所有账号的行为都为团队行为,此时并不需要逐一进行授权,会增加用户的实际体验。由此,当用户以团队的形式入驻平台时,平台提示主账号与分账号选择,由用户确定同一管理的主账号,此时主账号的权限修改会统一到每一个分账号上,无需用户再逐一修改分账号的权限信息,便于团队使用。
优选的,如果团队需要主账号与分账号关联又想授予不同的权限,此时主账号的授权界面设有分账号ID信息以及对应的授权情况,可以通过主账号的授权界面对分账号进行授权管理,适用于用户对团队内多个账号的不同管理。
进一步,通过在客户页面端进行埋点,新用户在进行浏览时,能够获取到新用户阅读行为数据,然而此时的阅读行为数据较为有限,不利于构建用户画像,由此引入协同过滤算法,通过寻找共同点,筛选出优质的内容推荐给新用户。基于浏览平台上大量的用户行为数据,采用交替最小二乘法以及矩阵分解结合计算,并不断迭代,从而推演出新用户的喜好和分类,从而进行用户画像的构建。
可选的,在进行迭代计算前,对于获取到的用户行为数据包括新用户行为数据以及其余用户行为数据进行数据预处理,排除用户行为数据中无用数据的同时得到用户ID、喜好与喜好矩阵列号的对应关系、分类矩阵与分类矩阵的转置以便于后续的矩阵计算推演。
更为优选的,在用户行为数据提取时,进行去噪处理。设定阅读阈值Filter(X)->{true,false},Filter为浏览过程中的各参数信息如文章文字数、阅读时长等,例如将人类阅读上限设置为100字/秒时,当一篇文章Filter(文章文字数=1000,9秒)->false,即可判断此浏览行为不符合人类正常阅读速度,则将该阅读数据作为无效数据进行过滤处理,减少运算量,避免干扰数据影响用户行为分的计算。
更进一步,如图3所示,在用户具有大量浏览行为数据后,对用户基于自身兴趣进行自动化内容推荐,此时构建初始用户画像,初始用户画像的构建分为以下步骤:
S11:对单独用户行为数据提取关键词,根据关键词权重获得内容标签集;
S12:以历史阅读数据构建义原树,根据义原树获得与内容标签集相关联的关联词汇集;
S13:以若干个内容标签集与关联词汇集映射结果取交集,附以高关键词权重加入至内容标签集,获得初始用户行为画像;
S14:设置循环策略,重复S11至S13,获取多层映射结果取交集,修正初始用户行为画像。
具体的,获取单独用户行为数据,提取访问内容的喜好数据,即关键词,此时能获得关键词集合,进而获取关键词对应的权重值,得到内容标签集,内容标签集包括关键词以及关键词所占权重值。
可选的,关键词所占权重值可通过关键词提及次数或关键词占内容比例获得。
优选的,采用tfidf算法对浏览内容所反馈的喜好进行初步提取,tfidf算法是一种用于信息检索的加权技术,可以用于评估一字词对于一个文件集或者一个语料库中的其中一份文件的重要程度,即可以通过tfidf算法获得关键词权重,从而获得内容标签集。
进一步,构建义原树,义原在语言学中是指最小的不可再分的语义单位,可以通过对浏览平台上历史阅读数据提取关键词构建义原树,并不断完善义原树。
可选的,义原树也可以是现有的义原知识库,通过现有的义原知识库与系统构建联系,获取义原知识库中义原之间的关联。
根据内容标签集中的各个标签内容,从义原树中寻找关联词汇集,在这里,将内容标签集定义为A,关联词汇集定义为B,义原树定义为f(x),可知的,每一个内容标签集中的标签内容A1、A2、A3…Am都对应至少一个关联词汇B1、B2、B3…BN,将第一次关联的映射结果f(A1)、f(A2)…f(Am)取交集,将交集部分设置为高权重作为标签加入到原来的A集合中,即将每个标签内容都关联到的关联词汇作为高权重标签加入到内容标签集中,将以上过程记为A’=G(x),如下所示:
……
某一用户针对某一内容产生喜好,将对应的A’保存到对应用户画像库中,丰满用户的画像,此时获得初始用户行为画像。
更为优选的,为了提高初始用户行为画像的准确性,对A’=G(x)进行循环,即F(x)=f(x) U f(f(x)),如下所示:
通过不断对结果进行映射,获得多次循环下的多层含义映射。
可选的,循环次数可以根据服务器算力的快慢自动调节。每天采集数据运算G(x)的总耗时,并对总耗时进行评估,设定G(x)运算最大时间是凌晨1点至4点三个小时进行全局刷新一次,然后在其他时间段采用根据服务器CPU负载来动态调节算力运算G(x),在系统运行过程中不停刷新用户画像库中的内容标签以及所占权重。通常情况下,凌晨1点至4点属于服务器运行负载最低的时间段,此时进行全局刷新可以避免服务器负载过高,确保服务器的正常运行的同时提高用户画像构建准确性。
优选的,根据关键词所占权重将关键词分为初始关键词以及候补关键词,设定用户初始关键词的数量,其余均作为候补关键词,此时根据算力大小以及用户存量动态调整实际用于用户构建用户画像的关键词数量,如初始关键词数量为50,候选关键词数量为160,而当前用户存量和算力大小可以支撑关键词数量达到120,此时根据关键词所占权重在候选关键词中提取权重靠前的70个关键词补入初始关键词中,提高用户画像构建准确度的同时确保服务器的运行稳定度,提高用户的使用体验。
同时,在通过微服务方式横向扩充服务器增加算力时能够自动增加关键词来提高用户画像构建的准确性,无需人为调整。
具体的,设置用户画像大小,Y(x)=(预设计算时间/实际运算时间),其中Z1为常量系数,设定D(x)的上限值大小,避免在用户数量较小时,构建的用户画像过于复杂,影响服务器的正常运行。例如,Z1初始设定为50,D(x)<=1000,在初始化系统、用户初始化情况下,没有预设计算时间与实际运算时间,即D(x)=Z1=50,预设预算时间为3小时(凌晨1.30到4.30),实际运算时间在第一天,数据量少用户量少时,实际运算时间会非常小,Y(x)可能会非常大,此时D(x)将达到上限阈值1000,而随着系统开始运行,随着用户数量、用户行为数据量增长,Y(x)迅速收敛达到一个平衡值,用户画像大小也符合实际服务器的运算能力。
更为优选的,遍历义原树过程中,即寻找用户感兴趣的内容标签时,遍历义原树一层与二层,将会出现画像数量的指数级增长,从而导致在每晚凌晨计算数据反馈与第二天推荐内容的计算量出现巨大波动。此时设定计算时长,如每天凌晨1点半到4点半,3个小时的计算时长,如果当前用户量少、画像关键词较少,能在短时间计算完成,那么就可以增加义原树的扩展深度,来丰富用户画像,进一步确保在微服务方式横向扩充服务器增加算力时能够自动增加关键词来提高用户画像构建的准确性。
为了进一步提高用户画像构建准确性,考虑到在用户进行浏览时可能会因为特殊情况浏览或停留在平时并不感兴趣的内容界面,这就会造成当前浏览内容并不属于用户平时的浏览情况,出现不感兴趣的内容所占权重较高的问题,由此本申请采集当天单独用户行为数据计算得出当天主题综合权重值,同时计算一定时间内的主题综合权重值,并将当天主题综合权重值与一定时间内的主题综合权重值进行比较,从而得出主题最终权重,以主题最终权重作为推荐标签,并根据推荐标签优先级进行内容推荐。
具体的,需要计算得出用户浏览主题综合权重,首先,预设阅读维度以及阅读维度的维度权重。阅读维度主要根据用户行为数据中主要行为进行预设,在本实施例中,预设的阅读维度包括:主题受欢迎度、主题阅读深度、主题点赞率以及延伸阅读率。可以理解的是,也可以根据实际平台进行阅读维度的调整,如消费平台可以预设购买、加入的阅读维度。
优选的,在采集用户历史浏览各篇文章时间以及各篇文章字数,计算用户浏览速度,根据用户浏览速度以及当前文章字数,获得用户阅读时间,设定阅读时间阈值,阅读时间阈值即为正常浏览完该篇文章所需要的时间,将用户阅读时间与阅读时间阈值的比值在设定范围内时,认为当前阅读有效,若用户阅读时间与阅读时间阈值的比值不在设定范围内,则认为当前阅读无效,在去噪处理时将阅读无效的数据均当做噪音数据进行过滤,减少运算量,排除用户无效行为造成的失真。
进一步,考虑到不同用户的阅读速度会有区别,根据用户历史阅读数据计算行为系数,即计算该用户阅读速度较正常速度的快慢比值,弥补不同用户阅读速度差异,以行为系数修正阅读时间,从而确保有效阅读计算的准确性。
主题受欢迎度主要根据有效阅读人次、有效阅读文章数量以及文章转发量进行计算,有效阅读人次、有效阅读文章数量以及文章转发量在一定程度上展现了用户对于该主题的兴趣。
有效阅读人次以阅读时间、行为系数以及阅读时间阈值计算得出:
其中,m为该用户阅读记录总数,?:为条件运算符,即条件表达式 ? 真值:假值,如果条件表达式的值为真,则整个表达式的值为“真值”的值,反之为“假值”的值。在此式中若,则有效阅读人次为1,否则有效阅读人次为0。
有效阅读文章数量以有效主阅读人次、有效延伸阅读人次、主阅读人次阈值以及延伸阅读人次阈值计算得出:
文章转发数量即为当天文章转发的数量。
由此,可以得出阅读转换率以及分享转换率为:
根据层次分析算法计算阅读转换率以及分享转换率的行为权重,层次分析算法是一种解决多目标的复杂问题额定性与定量相结合的决策分析方法,该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标之间能否实现的标准之间的相对重要程度,并合理地给出每个决策方案的每个标准的权数,利用权数求出各方案的优劣次序,在本申请中通过预设各个维度的重要程度,生成具体的权重值,并能检验这个重要程度关系是否合理。
将计算得出的阅读转换率的行为权重记为wrc,分享转换率的行为权重记为wsc,主题受欢迎度为:
主题阅读深度根据有效阅读时间以及有效阅读人次进行计算,计算用户的有效阅读时间为:
其中,k为有效阅读记录的数量。
得出主题阅读深度为:
主题点赞率根据点赞次数以及有效阅读数量进行计算,得出主题点赞率为:
延伸阅读率即为主题吸引用户阅读其他文章的程度,根据有效延伸阅读数量以及总延伸阅读数量进行计算,得出延伸阅读率为:
进而,预设以上四个阅读维度的重要性,通过层次分析法获得阅读维度的维度权重,将主题受欢迎度的维度权重记为wwc,将主题阅读深度的维度权重记为wdc,将主题点赞率的维度权重记为wlc,将延伸阅读率的维度权重记为wec,通过维度权重与上述计算得出的四个阅读维度值计算得出主题综合权重值为:
在获得单独用户当天主题综合权重值后,再计算单独用户一定时间内的主题综合权重值,将基于预设时间内构建的基于单独用户行为数据得到的用户画像记作私域,可以理解的是私域中也同样包含单独用户当天行为数据得出的用户初始画像。将单独用户当天主题综合权重值排行与私域主题综合权重值排行进行比较,从而获得单独用户当天用户画像基于私域的偏离情况,根据私域的主题综合权重值排行对于最终主题标签排行进行修正,从而修正推荐标签的优先级,确保即使在某一天用户在特殊情况下偏离兴趣内容进行浏览,后续推荐内容仍然围绕用户的兴趣喜好进行推荐。
可以理解的是,无论是私域还是全域都是一定范围内的用户画像构成,均适用于上述用户画像的构建方法,即步骤S11至步骤S14。
同时,在用户浏览过程中,常常因为浏览的喜好内容过于局限,即因为用户初始画像获得了用户的兴趣喜好而导致后续推荐内容都以用户初始画像作为基准进行推荐,不断固化老用户的画像,当有新内容数据出现时,并不能将其推荐给老用户,会出现即使老用户对新数据有兴趣,但因为新数据标签在老用户画像中所占权重较低并不会推荐给老用户,此时就会无法将老用户导向新数据,由此,采集预设时间内全局用户行为数据,构建介于全局用户行为数据的集体画像,记作全域。
通过计算全域主题综合权重值,并将单独用户当天主题综合权重值排行与全域主题综合权重值进行比较,从而获取是否存在用户可能感兴趣的新数据内容,从而根据全域的主题综合权重值排行对最终主题标签排行进行修正,从而修正推荐标签的优先级,通过全域主题综合权重排行即全部或大部分用户的行为数据提高新数据的推荐优先级,将老用户导向新数据内容,避免老用户画像固化,提高老用户的浏览兴趣,提升用户的使用体验。
进一步,将私域和全域对于用户初始画像的修正进行结合,通过计算某个用户当天的主题综合权重排行榜,计算某个用户预设时间内的主题综合权重平均值排行榜即私域主题综合权重排行榜,计算全体用户预设时间内的主题综合权重平均值排行榜即全域主题综合权重排行榜。根据主题将三个排行榜一一对应,将当前用户当天的主题综合权重排行榜与私域主题权重排行榜、全域主题综合权重排行榜进行比较,获得当天浏览内容相较于用户历史浏览内容和全部用户历史浏览内容的情况,并通过层次分析法获得个人对比权重wic以及集体对比权重wcc,结合个人当天主题综合权重排行榜、个人历史主题综合权重排行榜以及集体历史主题综合权重获得主题最终权重为:
获得主题最终权重排行榜后,根据主题最终权重作为推荐标签,在排行榜的前后顺序得出推荐标签优先级,根据优先级进行主题内容推荐。
进一步,上述根据主题的优先级进行内容推荐,但同一主题情况下具有大数量的内容,此时即使是相同主题下也需要对推荐主题的多篇文章进行优先级排序。设定关键词数据库,对常用的关键词进行权重编辑,并根据相关业务特性将与业务相关的关键词权重进行加权处理,通过TF-IDF技术即关键词提取技术提取关键词作为用户与文章的第二画像,此时设定每个画像均采集X个关键词和Y个候补关键词。在针对某一用户进行推荐相同主题下N篇文章时,将两者画像关键词进行对比,相同关键词背后的权重值相加作为匹配度,N篇文章得到N个匹配度,将匹配度进行倒排,推荐匹配度最大的文章给用户,进一步细化了用户的兴趣内容,推荐最贴合用户浏览情况的内容给用户,提高用户的使用体验。
以下通过一个具体的实施例解释本申请中的层次分析法:
采集用户行为数据,得到用户行为定义以及系数,其中系数可根据实际情况进行定义:
1.用户选中复制文本内容:10
2.点赞:4
3.点踩:2
4.不点赞也不点踩:1
5.分享:5
7.主阅读人数阈值:5
8.延伸阅读人数阈值:3
构建层次分析法计算各个维度以及权重值如下表1、表2:
构建分组领域,将用户行为数据分为个人与集体行为数据,同时通过层次分析法计算权重值如下表3:
通过层次分析法获得维度权重、行为权重、个人对比权重以及集体对比权重,进而计算用户对主题的兴趣排行。
优选的,考虑到根据不同用户在不同时间点对于主题兴趣也各不相同,为确保设置的各种初始参数如维度权重、行为权重、个人对比权重以及集体对比权重等准确,本申请设置观察周期和权重波动值,在观察周期内,将各个参数对应权重波动值进行波动调整,此时将旧参数信息以及对应的旧推荐标签优先级进行记录,同时记录波动调整后的新标签优先级,获取用户根据新标签优先级浏览的行为分,用户行为分指代的是用户浏览某一内容时兴趣程度,判断优先级较高的标签内容的用户行为分是否增加,即用户是否对新标签优先级所推荐的内容有更高的浏览兴趣,推荐标签的浏览数据在用户行为数据中的占比是否增加,如果增加,则可以认为用户对于新标签优先级中优先级较高的内容更感兴趣,新标签优先级更符合当前用户的浏览需求,此时将波动调整后的各个参数替换旧的参数,以确保设定系数符合实际需求。例如,针对主题综合权重值中的行为权重,我们对其中之一如wwc自动随意波动1%,再通过反馈的用户行为数据来判断波动方向是否正确,通过判断波动后的结果来决定波动调整后的系数是否替换老系数,或者回退回原来系数。确保了每个用户实际权重系数的设定符合自身的浏览情况,更符合个性化推荐的需求并确保了推荐结果的准确性。
更为优选的,在去噪处理中同样采用波动算法,由于每个人的阅读情况不同,可以设置阅读波动值,在观察周期内对单个用户的阅读阈值添加阅读波动值,经过观察周期内一段时间的反馈数据,得到单个用户的阅读粘性是否增加判断波动方向的准确性。例如针对100字/秒进行上下浮动观察用户行为数据阅读数据是否增加来判断该向哪个方向调整阅读阈值,从而避免因为部分用户的阅读速度较快导致该用户的有效阅读数据被判定为无效的问题发生。
本申请通过ALS填充新用户数据,构建完整的新用户初始画像,建立A’=G(x)获得用户浏览内容关键词关联内容,扩大用户的兴趣范围,避免用户画像仅局限于特定的内容关键词中,同时将阅读时间、时长、用户阅读时的动作等等行为数据采集经过权重计算得出主题综合权重,将主题综合权重与A’=G(x)进行结合,得出最终带权重的用户画像标签,在用户当前画像数据存在时效性的情况下,通过用户历史行为习惯修正用户当前画像,并且通过集体浏览历史情况提高新内容所占权重值,将老用户导向新数据,使得当前热门讨论、浏览内容也会推荐给老用户,避免老用户画像固化,提高用户的使用感受。同时通过波动权重调整集体浏览行为在推荐计算中的占比,避免集体浏览行为过多影响到单个用户实际画像的同时确保了能够将用户感兴趣的热点信息推荐给用户。
如图4所示,本申请还提供一种自动化内容推荐系统,用于实现上述的方法,包括:业务系统,用于发送用户行为数据以及接收推荐结果;推荐系统,计算用户画像,得出推荐结果;消息中间件(MQ),用于实现业务系统以及推荐系统之间的消息传递;存储数据库(MySQL),用于存储用户行为数据、计算过程数据以及推荐结果数据。
具体的,业务系统发送用户行为数据至MQ,MQ推送数据给推荐系统,推荐系统进行数据处理存储至MySQL,MySQL将数据存储完成信号反馈至推荐系统,推荐系统分组触发数据统计计算,将每组计算指令发送至MQ,MQ服务消费到计算请求,至推荐系统进行多节点计算,推荐系统按天计算用户爱好数据后将数据存储至MySQL,MySQL将数据存储完成信号反馈至推荐系统,推荐系统分组触发画像计算,将每组计算指令发送至MQ,服务消费到计算请求,至推荐系统进行多节点计算,推荐系统计算画像并将计算结果存储至MySQL,MySQL反馈存储完成信号至推荐系统,推荐系统根据画像推荐文章与最佳运营策略并存储数据,存储完成后将推荐结果推送至MQ,MQ将推荐结果发送至业务系统,业务系统为用户推荐相应内容。
以上之具体实施方式为本申请一种自动化内容推荐方法及系统的较佳实施方式,并非以此限定本申请的具体实施范围,本申请的范围包括并不限于本具体实施方式,凡依照本申请之形状、结构所作的等效变化均在本申请的保护范围内。
Claims (10)
1.一种自动化内容推荐方法,用于根据用户浏览情况自主推荐喜好内容,其特征在于:包括如下步骤:
S1:采集预设时间内单独用户行为数据,构建基于单独用户行为数据分析得出的私域;
S2:采集预设时间内全局用户行为数据,构建基于全局用户行为数据分析得出的全域;
S3:预设阅读维度以及各阅读维度的维度权重,构建层次分析法计算各阅读维度的行为权重;
S4:根据各阅读维度的维度权重以及各阅读维度的行为权重计算主题综合权重值;
S5:采集当天单独用户行为数据,计算当天主题综合权重值、全域主题综合权重值以及私域主题综合权重值;
S6:预设个人对比权重以及集体对比权重,结合当天主题综合权重值、全域主题综合权重值以及私域主题综合权重值计算得出主题最终权重,以主题最终权重作为推荐标签,根据推荐标签优先级进行内容推荐;
S7:预设权重波动值以及观察周期,在观察周期内所述维度权重、行为权重、个人对比权重以及集体对比权重根据所述权重波动值进行波动,判断推荐标签的浏览数据在用户行为数据中占比是否增加,若增加,则更新各权重参数。
2.如权利要求1所述的一种自动化内容推荐方法,其特征在于:还包括如下步骤:
S8:以推荐数据和用户当前行为数据作为反馈数据,更新私域以及全域。
3.如权利要求1所述的一种自动化内容推荐方法,其特征在于:
所述S1包括:
S11:对单独用户行为数据提取关键词,根据关键词权重获得内容标签集;
S12:以历史阅读数据构建义原树,根据义原树获得与内容标签集相关联的关联词汇集;
S13:以若干个内容标签集与关联词汇集映射结果取交集,附以高关键词权重加入至内容标签集,获得初始用户行为画像。
4.如权利要求3所述的一种自动化内容推荐方法,其特征在于:
所述S1还包括:
S14:设置循环策略,重复S11至S13,获取多层映射结果取交集,修正初始用户行为画像。
5.如权利要求1所述的一种自动化内容推荐方法,其特征在于:
所述S3中阅读维度至少包括:主题受欢迎度、主题阅读深度、主题点赞率以及延伸阅读率。
6.如权利要求5所述的一种自动化内容推荐方法,其特征在于:
所述S3包括:
S31:获取用户行为数据中有效阅读人次、有效阅读文章数量以及文章转发量,计算阅读转换率以及分享转换率,根据层次分析法得出两者的权重,计算主题受欢迎度的行为权重。
7.如权利要求5所述的一种自动化内容推荐方法,其特征在于:
所述S3还包括:
S32:获取用户行为数据中有效阅读时间以及有效阅读人次,计算主题阅读深度。
8.如权利要求5所述的一种自动化内容推荐方法,其特征在于:
所述S3还包括:
S33:获取用户行为数据中有效阅读数量以及有效点赞数量,计算主题点赞率。
9.如权利要求5所述的一种自动化内容推荐方法,其特征在于:
所述S3还包括:
S34:获取用户行为数据中有效延伸阅读数量以及总延伸阅读数量,计算延伸阅读率。
10.一种自动化内容推荐系统,用于实现如权利要求1至权利要求9任意一项所述的一种自动化内容推荐方法,其特征在于:包括:
业务系统,用于发送用户行为数据以及接收推荐结果;
推荐系统,计算用户画像,得出推荐结果;
消息中间件,用于实现业务系统以及推荐系统之间的消息传递;
存储数据库,用于存储用户行为数据、计算过程数据以及推荐结果数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310489281.0A CN116226539B (zh) | 2023-05-04 | 2023-05-04 | 一种自动化内容推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310489281.0A CN116226539B (zh) | 2023-05-04 | 2023-05-04 | 一种自动化内容推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226539A true CN116226539A (zh) | 2023-06-06 |
CN116226539B CN116226539B (zh) | 2023-07-18 |
Family
ID=86580856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310489281.0A Active CN116226539B (zh) | 2023-05-04 | 2023-05-04 | 一种自动化内容推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226539B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886090A (zh) * | 2014-03-31 | 2014-06-25 | 北京搜狗科技发展有限公司 | 基于用户喜好的内容推荐方法及装置 |
WO2018036272A1 (zh) * | 2016-08-22 | 2018-03-01 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法、电子装置及计算机可读存储介质 |
CN110866805A (zh) * | 2019-11-13 | 2020-03-06 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和系统 |
CN113392200A (zh) * | 2021-06-18 | 2021-09-14 | 中国工商银行股份有限公司 | 基于用户学习行为的推荐方法及装置 |
US20210349919A1 (en) * | 2020-05-07 | 2021-11-11 | Carrier Corporation | System and a method for recommending feature sets for a plurality of equipment to a user |
CN114756671A (zh) * | 2022-04-25 | 2022-07-15 | 平安普惠企业管理有限公司 | 文章推荐方法、装置、计算机设备及存储介质 |
CN115525838A (zh) * | 2022-09-28 | 2022-12-27 | 海南小鹏健康互联网医院股份有限公司 | 一种基于大数据用户画像的健康知识推荐方法及系统 |
CN115687786A (zh) * | 2022-11-18 | 2023-02-03 | 广东大比特网络科技有限公司 | 一种个性化推荐方法、系统以及存储介质 |
-
2023
- 2023-05-04 CN CN202310489281.0A patent/CN116226539B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886090A (zh) * | 2014-03-31 | 2014-06-25 | 北京搜狗科技发展有限公司 | 基于用户喜好的内容推荐方法及装置 |
WO2018036272A1 (zh) * | 2016-08-22 | 2018-03-01 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法、电子装置及计算机可读存储介质 |
CN110866805A (zh) * | 2019-11-13 | 2020-03-06 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和系统 |
US20210349919A1 (en) * | 2020-05-07 | 2021-11-11 | Carrier Corporation | System and a method for recommending feature sets for a plurality of equipment to a user |
CN113392200A (zh) * | 2021-06-18 | 2021-09-14 | 中国工商银行股份有限公司 | 基于用户学习行为的推荐方法及装置 |
CN114756671A (zh) * | 2022-04-25 | 2022-07-15 | 平安普惠企业管理有限公司 | 文章推荐方法、装置、计算机设备及存储介质 |
CN115525838A (zh) * | 2022-09-28 | 2022-12-27 | 海南小鹏健康互联网医院股份有限公司 | 一种基于大数据用户画像的健康知识推荐方法及系统 |
CN115687786A (zh) * | 2022-11-18 | 2023-02-03 | 广东大比特网络科技有限公司 | 一种个性化推荐方法、系统以及存储介质 |
Non-Patent Citations (3)
Title |
---|
YANMEI ZHANG 等: "《Service Recommendation Based on User Dynamic Preference Extraction and Prediction》", 《 2019 IEEE WORLD CONGRESS ON SERVICES (SERVICES)》, pages 121 - 126 * |
刘海鸥等: "《面向信息茧房的用户画像多样化标签推荐》", 《图书馆 》, pages 83 - 89 * |
陈学辉;陈少镇;王培彬;蓝汝琪;熊梓韬;: "基于内容推荐的资讯推荐系统的设计与实现", 电脑知识与技术, no. 09, pages 20 - 22 * |
Also Published As
Publication number | Publication date |
---|---|
CN116226539B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Collins et al. | Trends in combating fake news on social media–a survey | |
Zimdars et al. | Using temporal data for making recommendations | |
Teo et al. | Adaptive, personalized diversity for visual discovery | |
CN108154395B (zh) | 一种基于大数据的客户网络行为画像方法 | |
Sun et al. | Learning multiple-question decision trees for cold-start recommendation | |
Li et al. | Scene: a scalable two-stage personalized news recommendation system | |
US8706664B2 (en) | Determining relevant information for domains of interest | |
US8005832B2 (en) | Search document generation and use to provide recommendations | |
Rajendran et al. | Using topic models with browsing history in hybrid collaborative filtering recommender system: Experiments with user ratings | |
CN105095279B (zh) | 文件推荐方法和装置 | |
Chehal et al. | Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations | |
US20130325769A1 (en) | Providing recommendations using information determined for domains of interest | |
Cai et al. | Behavior‐based personalization in web search | |
US20210271724A1 (en) | System and method for integrating content into webpages | |
Bouadjenek et al. | Persador: personalized social document representation for improving web search | |
Velásquez | Web site keywords: A methodology for improving gradually the web site text content | |
US10019520B1 (en) | System and process for using artificial intelligence to provide context-relevant search engine results | |
Carnegie et al. | Variable selection and parameter tuning for BART modeling in the fragile families challenge | |
Gisselbrecht et al. | Whichstreams: A dynamic approach for focused data capture from large social media | |
CN116226539B (zh) | 一种自动化内容推荐方法及系统 | |
Xie et al. | Attentive preference personalized recommendation with sentence-level explanations | |
Gao et al. | [Retracted] Construction of Digital Marketing Recommendation Model Based on Random Forest Algorithm | |
CN116431895A (zh) | 安全生产知识个性化推荐方法及系统 | |
Zhao et al. | News recommendation via jointly modeling event matching and style matching | |
Madadipouya | A location-based movie recommender system using collaborative filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |