CN113204705A - 文章推荐方法、装置、电子设备和计算机介质 - Google Patents
文章推荐方法、装置、电子设备和计算机介质 Download PDFInfo
- Publication number
- CN113204705A CN113204705A CN202110560244.5A CN202110560244A CN113204705A CN 113204705 A CN113204705 A CN 113204705A CN 202110560244 A CN202110560244 A CN 202110560244A CN 113204705 A CN113204705 A CN 113204705A
- Authority
- CN
- China
- Prior art keywords
- article
- score
- word vector
- target user
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及一种文章推荐方法、装置、电子设备和计算机介质,该方法包括:获取目标用户的行为数据;对每一历史文章提取关键词,并根据关键词生成第一词向量;对每一历史文章,根据历史文章的浏览操作数据,计算历史文章的得分;将各历史文章的得分,确定各历史文章关键词的第一词向量的权重,并根据权重对各第一词向量进行加权平均计算,得到表征目标用户文章偏好的目标词向量;对每一推荐备选文章计算推荐分值,其包括用于表征目标词向量与推荐备选文章的文章词向量的相似度的第一分值;将推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给目标用户。如此,在目标用户的行为数据较少的情况下能准确推荐文章。
Description
技术领域
本公开涉及推荐算法技术领域,具体地,涉及一种文章推荐方法、装置、电子设备和计算机介质。
背景技术
为了让用户能够准确阅读到用户感兴趣的文章,提高用户粘性,推荐系统服务也逐渐地被运用到资讯类网站或移动应用中。文章推荐系统可以根据用户数据与文章内容,为用户匹配文章资讯,使得用户可以不受其他多余信息的干扰,直接查看到自身感兴趣的文章资讯。目前的文章推荐系统主要采用的是基于内容的推荐算法。
基于内容的推荐算法主要根据用户的当前及历史的行为内容通过机器学习的方法计算得出当前用户的相关内容标签,然后再根据用户的内容标签进行内容的推荐。但是在用户行为数据较少的情况下,得出的用户内容标签不够准确,使文章内容的推荐精度较低。
发明内容
本公开的目的是提供一种文章推荐方法、装置、电子设备和计算机介质,以解决现有技术中在用户行为数据较少的情况下文章内容的推荐精度较低的问题。
为了实现上述目的,本公开第一方面提供一种文章推荐方法,该方法包括:
获取目标用户的行为数据,所述行为数据包括所述目标用户浏览的历史文章以及所述目标用户对所述历史文章的浏览操作数据;
对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量;
针对每一所述历史文章,根据所述历史文章对应的所述浏览操作数据,计算所述历史文章的得分;
将各所述历史文章的得分,确定各所述历史文章的关键词对应的所述第一词向量的权重,并根据所述权重对各所述第一词向量进行加权平均计算,得到表征所述目标用户的文章偏好的目标词向量;
对每一推荐备选文章计算推荐分值,所述推荐分值包括第一分值,所述第一分值用于表征所述目标词向量与所述推荐备选文章的文章词向量之间的相似度;
将所述推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给所述目标用户。
可选地,所述方法还包括:
对所述行为数据按照预设时长划分成多个时间段,并针对每一所述时间段内的历史文章,执行所述对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量,至所述得到表征所述目标用户的文章偏好的目标词向量的步骤,以得到对应每一所述时间段的目标词向量;
针对每一所述目标词向量,根据所述目标词向量对应的所述时间段的权重,对所述目标词向量进行加权处理,其中,所述时间段的权重随着所述时间段在所述多个时间段内的早晚顺序从早到晚依次增加;
所述第一分值是对每一加权处理后的所述目标词向量与所述推荐备选文章的文章词向量之间的相似度进行求和得到的。
可选地,所述推荐备选文章的文章词向量的计算包括:
提取所述推荐备选文章的关键词,并根据提取出的每一关键词生成对应所述每一关键词的第二词向量;
对所述每一关键词的第二词向量求均值,得到所述文章词向量。
可选地,所述行为数据还包括所述目标用户浏览过的栏目以及所述目标用户对所述栏目的浏览操作数据,相应地,所述推荐备选文章是通过如下方式选择的:
根据所述目标用户对所述栏目的浏览操作数据,确定所述栏目的浏览操作分值;
根据预设的推荐备选文章总数量,以及每个所述栏目的浏览操作分值与所有栏目的浏览操作分值的和的比例关系,从每个所述栏目下选取推荐备选文章。
可选地,所述推荐分值还包括第二分值,所述第二分值的计算包括:
将所述推荐备选文章的文章词向量以及所述目标用户的行为数据输入训练完成的协同过滤模型中,得到所述协同过滤模型输出的所述第二分值,所述协同过滤模型是基于所有用户的行为数据训练得到的。
可选地,所述推荐分值还包括第三分值,所述第三分值的计算包括:
根据所述推荐备选文章的发布时间确定所述推荐备选文章对应的时间权重,其中,所述时间权重用于表征所述推荐备选文章按照时间的衰减程度;
将预设的第一基础分值与所述时间权重的乘积为所述第三分值。
可选地,所述推荐分值还包括第四分值,所述第四分值的计算包括:
根据所述推荐备选文章所在的栏目中的文章数量,确定所述栏目对应的预设分值;
将预设的第二基础分值与所述预设分值的差作为所述第四分值。
可选地,所述行为数据还包括所述历史文章所属的行业以及所述目标用户对所述行业的浏览操作数据,相应地,所述推荐分值还包括第五分值,所述第五分值的计算包括:
根据所述目标用户对所述行业的浏览操作数据,确定所述行业的浏览操作分值;
确定每个所述行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系;
根据预设的第三基础分值与所述行业的比例关系,确定所述行业对应的分值;
将所述推荐备选文章所属行业的分值作为所述第五分值。
本公开第二方面提供一种文章推荐装置,包括:
获取模块,被配置为获取目标用户的行为数据,所述行为数据包括所述目标用户浏览的历史文章以及所述目标用户对所述历史文章的浏览操作数据;
计算模块,被配置为对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量;
所述计算模块还被配置为针对每一所述历史文章,根据所述历史文章对应的所述浏览操作数据,计算所述历史文章的得分;
所述计算模块还被配置为将各所述历史文章的得分,确定各所述历史文章的关键词对应的所述第一词向量的权重,并根据所述权重对各所述词向量进行加权平均计算,得到表征所述目标用户的文章偏好的目标词向量;
所述计算模块还被配置为对每一推荐备选文章计算推荐分值,所述推荐分值包括第一分值,所述第一分值用于表征所述目标词向量与所述推荐备选文章的文章词向量之间的相似度;
推荐模块,被配置为将所述推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给所述目标用户。
可选地,所述计算模块还被配置为:
对所述行为数据按照预设时长划分成多个时间段,并针对每一所述时间段内的历史文章,执行所述对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量,至所述得到表征所述目标用户的文章偏好的目标词向量的步骤,以得到对应每一所述时间段的目标词向量;
针对每一所述目标词向量,根据所述目标词向量对应的所述时间段的权重,对所述目标词向量进行加权处理,其中,所述时间段的权重随着所述时间段在所述多个时间段内的早晚顺序从早到晚依次增加;
所述第一分值是对每一加权处理后的所述目标词向量与所述推荐备选文章的文章词向量之间的相似度进行求和得到的。
可选地,所述计算模块被配置为通过以下方式计算所述推荐备选文章的文章词向量:
提取所述推荐备选文章的关键词,并根据提取出的每一关键词生成对应所述每一关键词的第二词向量;
对所述每一关键词的第二词向量求均值,得到所述文章词向量。
可选地,所述行为数据还包括所述目标用户浏览过的栏目以及所述目标用户对所述栏目的浏览操作数据,相应地,所述计算模块被配置为通过以下方式选择所述推荐备选文章:
根据所述目标用户对所述栏目的浏览操作数据,确定所述栏目的浏览操作分值;
根据预设的推荐备选文章总数量,以及每个所述栏目的浏览操作分值与所有栏目的浏览操作分值的和的比例关系,从每个所述栏目下选取推荐备选文章。
可选地,所述推荐分值还包括第二分值,所述计算模块被配置为通过以下方式计算所述第二分值:
将所述推荐备选文章的文章词向量输入训练完成的协同过滤模型中,得到所述协同过滤模型输出的所述第二分值,所述协同过滤模型是基于所述目标用户的行为数据训练得到的。
可选地,所述推荐分值还包括第三分值,所述计算模块被配置为通过以下方式计算所述第三分值:
根据所述推荐备选文章的发布时间确定所述推荐备选文章对应的时间权重,其中,所述时间权重用于表征所述推荐备选文章按照时间的衰减程度;
将预设的第一基础分值与所述时间权重的乘积为所述第三分值。
可选地,所述推荐分值还包括第四分值,所述计算模块被配置为通过以下方式计算所述第四分值:
根据所述推荐备选文章所在的栏目中的文章数量,确定所述栏目对应的预设分值;
将预设的第二基础分值与所述预设分值的差作为所述第四分值。
可选地,所述行为数据还包括所述历史文章所属的行业以及所述目标用户对所述行业的浏览操作数据,相应地,所述推荐分值还包括第五分值,所述计算模块被配置为通过以下方式所述第五分值:
根据所述目标用户对所述行业的浏览操作数据,确定所述行业的浏览操作分值;
确定每个所述行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系;
根据预设的第三基础分值与所述行业的比例关系,确定所述行业对应的分值;
将所述推荐备选文章所属行业的分值作为所述第五分值。
本公开第三方面提供一种文章推荐装置,包括:
存储器,其上存储有计算机程序;
处理器,该程序被所述处理器执行时,能实现本公开第一方面所提供的方法的步骤。
本公开第四方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现本公开第一方面所提供的方法的步骤。
通过上述技术方案,能够根据目标用户对历史文章的浏览操作数据确定该历史文章的得分,并根据该历史文章的得分确定历史文章中关键词的权重,进而能够根据权重对关键词的第一词向量进行加权平均计算,以得到表征目标用户的文章偏好的目标词向量,并根据目标词向量确定第一分值,以根据包括第一分值的推荐分值筛选出目标推荐文章。如此,在目标用户的行为数据较少的情况下能够精准确定目标用户的目标词向量,便于根据目标词向量精确确定推荐备选文章,提高对目标用户的文章推荐精度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例示出的文章推荐方法的流程图;
图2是本公开另一示例性实施例示出的文章推荐方法的流程图;
图3是本公开一示例性实施例示出的文章推荐装置的结构框图;
图4是本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是本公开一示例性实施例示出的文章推荐方法的流程图。参照图1,本公开第一方面提供一种文章推荐方法,该方法可以包括步骤S11至步骤S16。
在步骤S11中,获取目标用户的行为数据,行为数据包括目标用户浏览的历史文章以及目标用户对历史文章的浏览操作数据。
例如,可以通过获取目标用户对历史文章的点击行为埋点数据,获取目标用户浏览的历史文章以及目标用户对于历史文章的浏览操作数据。目标用户对于历史文章的浏览操作数据可以包括用户的浏览、分享、点赞、收藏、评论等行为。可见,目标用户对历史文章的浏览操作数据可以反映目标用户对该历史文章的喜好程度。
当然,目标用户对于历史文章的浏览操作数据还可以包括其他操作,例如打赏等,本公开中对此不作限制。
在步骤S12中,对每一历史文章提取关键词,并根据关键词生成第一词向量。
例如,可以对历史文章进行分词,计算每个词的tf-idf值,然后对每个词的tf-idf值根据分值进行倒序排序,选取分值最高的若干词作为该历史文章的关键词。或者,历史文章也可以预设有关键词信息,预设的关键词信息可以包括历史文章的标签中的关键词、标题关键词、主旨关键词。
本实例中第一词向量与关键词一一对应,即通过步骤S12可以获得每一历史文章的关键词的第一词向量。
在步骤S13中,针对每一历史文章,根据历史文章对应的浏览操作数据,计算历史文章的得分。
由于目标用户对历史文章对应的浏览操作数据反映了目标用户对历史文章的喜好程度。例如,若第一历史文章对应的浏览操作数据包括目标用户的浏览行为,第二历史文章对应的浏览操作数据包括目标用户的浏览、点赞和收藏行为,则目标用户对于第二历史文章的喜好程度明显高于第一历史文章。
鉴于此,根据历史文章对应的浏览操作数据,计算历史文章的得分,即能将目标用户对于每篇历史文章的喜好程度进行量化。
具体来说,可以对于目标用户的不同浏览操作行为(例如浏览、分享、点赞、收藏、评论等)赋予不同的分值,并将目标用户对历史文章的浏览操作行为的分值进行加和,以得到历史文章的得分。
例如,若预设浏览为1分、分享为2分、点赞为2分、收藏为2分、评论为1分,若目标用户对于历史文章的操作行为包括浏览、分享和点赞,则该历史文章的得分为5分;若目标用户对于历史文章的操作行为包括浏览、分享、收藏和评论,则该历史文章的得分为6分。
在步骤S14中,将各历史文章的得分,确定各历史文章的关键词对应的第一词向量的权重,并根据权重对各第一词向量进行加权平均计算,得到表征目标用户的文章偏好的目标词向量。
根据历史文章的得分确定该历史文章的关键词对应的第一向量词的权重,并根据权重对各第一词向量进行加权平均计算,如此,能够在对第一向量词进行加权平均计算时考虑目标用户对各个关键词所属历史文章的喜好程度,使最终得到的目标词向量能够体现目标用户的喜好。如此,在目标用户的行为数据减小的情况下,通过对目标用户行为数据中对历史文章的操作行为进行量化(即计算历史文章的得分,并根据历史文章的得分确定该历史文章的关键词对应的第一向量词的权重),目标词向量能够与目标用户的文章偏好更加贴合。
在步骤S15中,对每一推荐备选文章计算推荐分值,推荐分值包括第一分值,第一分值用于表征目标词向量与推荐备选文章的文章词向量之间的相似度。
由于第一词向量表征目标用户的文章偏好,因而第一词向量与推荐备选文章的文章词向量之间的相似度反映出推荐备选文章是否符合目标用户的文章偏好,即第一分值能够反映出推荐备选文章是否符合目标用户的文章偏好。这样,包括第一分值的推荐分值也能反映推荐备选文章与目标用户文章偏好的重合程度。
在步骤S16中,将推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给目标用户。
如此,此在目标用户的行为数据较少的情况下能够精准确定目标用户的目标词向量,便于根据目标词向量精确确定推荐备选文章,提高对目标用户的文章推荐精度。
示例性地,历史文章的关键词对应的第一向量词的权重可以通过以下方式确定:
在确定历史文章的得分之后,确定历史文章的得分与预设的标准数的商作为该历史文章关键词的第一词向量的权重。例如,标准数可以设置为5,若历史文章的得分为30,则该历史文章关键词的第一词向量的权重为6。
为简化计算,也可以对历史文章的得分与标准数的商进行取整。例如标准数为5的情况下,若历史文章的得分为32,则该历史文章关键词的第一词向量的权重为6。
可见,本实例中,历史文章的得分越高,该历史文章关键词的第一词向量的权重也越高,同时,目标用户对于该历史文章的喜好程度也越高,以使根据该权重计算的目标词向量能够更精准得反映用户的文章偏好。
示例性地,该方法还可以包括:对行为数据按照预设时长划分成多个时间段,并针对每一时间段内的历史文章,执行对每一历史文章提取关键词,并根据关键词生成第一词向量,至得到表征目标用户的文章偏好的目标词向量的步骤,以得到对应每一时间段的目标词向量。
例如,可以将多个时间段可以按照以下方式划分:
当日零点至当前时间点的第一时间段、当前时间点之前24小时的第二时间段、当前时间点前7天的第三时间段以及当前时间点前30天的第四时间段。
在确定多个时间段之后,可以分别对第一时间段至第四时间段执行以下步骤:
对当前时间段内的每一历史文章提取关键词,并根据关键词生成第一词向量;针对每一历史文章,根据历史文章对应的浏览操作数据,计算历史文章的得分;将各历史文章的得分,确定各历史文章的关键词对应的第一词向量的权重,并根据权重对各第一词向量进行加权平均计算,得到当前时间段对应的表征目标用户的文章偏好的目标词向量。
如此,可以得到第一时间段的目标词向量、第二时间段的目标词向量、第三时间段的目标词向量以及第四时间段的目标词向量。
针对每一目标词向量,根据目标词向量对应的时间段的权重,对目标词向量进行加权处理,其中,时间段的权重随着时间段在多个时间段内的早晚顺序从早到晚依次增加。
通过对目标词向量进行加权处理,能考虑目标用户对文章喜好程度的时效性,避免向目标用户推送信息已过时的文章。
仍以上述第一时间段至第四时间段为例,例如可以确定第一时间段、第二时间段、第三时间段和第四时间段的权重分别为0.85、0.1、0.04和0.01。
第一分值是对每一加权处理后的目标词向量与推荐备选文章的文章词向量之间的相似度进行求和得到的。
仍以上述第一时间段至第四时间段为例,在计算第一分值时,分别确定每一个加权处理后的目标词向量与文章词向量的相似度,再将得到的相似度进行求和,以得到第一分值。
通过上述方案,可以考虑信息的时效性,避免向目标用户推荐信息过时的文章,以提高文章推送的精准度。
图2是本公开另一示例性实施例示出的文章推荐方法的流程图。参照图2,该方法还可以包括步骤S17和步骤S18,以计算推荐备选文章的文章词向量。
在步骤S17中,提取推荐备选文章的关键词,并根据提取出的每一关键词生成对应每一关键词的第二词向量。
例如,可以对述推荐备选文章进行分词,计算每个词的tf-idf值,然后对每个词的tf-idf值根据分值进行倒序排序,选取分值最高的若干词作为该述推荐备选文章的关键词。
随后,根据该推荐备选文章的关键词生成对应每一关键词的第二词向量。
在步骤S18中,对每一关键词的第二词向量求均值,得到文章词向量。
如此,能够根据推荐备选文章关键词的第二词向量确定推荐备选文章的文章词向量,使文章词向量能够与推荐备选文章的内容贴合。
同时,通过文章词向量表示推荐备选文章,还便于对推荐备选文章与目标用户文章喜好的相似度进行准确量化计算,以便于准确推进文章。
需要指出,虽然在图2所示的实施例中步骤S17和步骤S18在步骤S11至步骤S14之后,也可以将步骤S17和步骤S18先于步骤S11至步骤S14执行,或者将步骤S17和步骤S18与步骤S11至步骤S14同步执行,本公开中不做限定。
示例性地,行为数据还可以包括目标用户浏览过的栏目以及目标用户对栏目的浏览操作数据,相应地,推荐备选文章可以是通过如下方式选择的:
根据目标用户对栏目的浏览操作数据,确定栏目的浏览操作分值。
例如,目标用户对栏目的浏览操作数据可以包括目标用户的浏览、分享、点赞、收藏、评论等行为。可见,目标用户对栏目的浏览操作数据可以反映目标用户对该栏目的喜好程度。
根据预设的推荐备选文章总数量,以及每个栏目的浏览操作分值与所有栏目的浏览操作分值的和的比例关系,从每个栏目下选取推荐备选文章。
即,本方案中,目标用户对栏目的喜爱程度决定了该栏目中推荐备选文章数量占推荐备选文章总数的比例。
例如,若所有栏目的浏览操作分值为30分,若栏目的分值为6分,则该栏目占所有栏目的浏览操作分值的20%,若推荐备选文章总数为100篇,则可以从该栏目中选取20篇文章作为推荐备选文章。如此,在推荐备选文章的选取时根据目标用户对不同栏目的喜好程度从不同栏目选取相对应数量的推荐备选文章,使推荐备选文章整体与目标用户的喜好匹配,便于提高文章推荐的准确性。
示例性地,可以将根据栏目中的文章的发布时间,对栏目中的文章按照从晚到早的顺序排序,在确定该栏目下选取的推荐备选文章的数量后,按照排列次序从先到后的顺序选取该栏目下的文章作为推荐备选文章,即,选取该栏目下最新的文章作为推荐备选文章。如此,可以保证推荐备选文章的时效性。
示例性地,推荐分值还可以包括第二分值,第二分值的计算可以包括:将推荐备选文章的文章词向量以及目标用户的行为数据输入训练完成的协同过滤模型中,得到协同过滤模型输出的第二分值,协同过滤模型是基于所有用户的行为数据训练得到的。
本方案中,将目标用户的行为数据输入训练完成的协同过滤模型中后,协同过滤模型可以根据目标用户的行为数据确定与目标用户匹配的匹配用户,并分别计算出目标用户与匹配用户的相似度、以及匹配用户的行为数据下推荐备选文章的得分(例如可以通过计算匹配用户的文章偏好的目标词向量与推荐备选文章的文章词向量的相似度来计算该得分),随后将该得分与目标用户与匹配用户的相似度相乘,以得到第二分值。
如此,可以通过基于用户的协同召回为推荐备选文章进行打分,便于提高文章推荐的精度。
通过第一分值,能够考虑目标用户的目标词向量与推荐备选文章的文章词向量的相似度,通过第二分值,能考虑基于用户的协同召回下推荐备选文章与目标用户的匹配程度,通过包括第一分值和第二分值的推荐分值筛选推荐备选文章,能够更准确地确定目标推荐文章。
示例性地,可以间隔预设间隔获取最新的所有用户的行为数据,并根据获取的所有用户的行为数据重新训练协同过滤模型。如此,可以提高协同过滤模型的时效性,使文章推送更加准确。
例如,可以每天重新获取最新的所有用户的行为数据,并根据获取的所有用户的行为数据重新训练协同过滤模型。
示例性地,可以通过获取目标用户的点击行为埋点数据来获取行为数据,由于用户的点击行为埋点数据通常由大数据处理流程每日定时拉取,为提高埋点数据读取的效率,可以将拉取的埋点数据转存至mySQL数据库中,避免因数据格式以及网络波动导致从大数据服务器读取埋点数据的时间过长的情况。
示例性地,推荐分值还可以包括第三分值,第三分值的计算可以包括:根据推荐备选文章的发布时间确定推荐备选文章对应的时间权重,其中,时间权重用于表征推荐备选文章按照时间的衰减程度;
例如,可以通过以下公式计算推荐备选文章的时间权重:
式中,a为推荐备选文章的时间权重,T1为预设的基准时间,T2为推荐备选文章的发布时间。
在得到推荐备选文章的时间权重后,将预设的第一基础分值与时间权重的乘积为第三分值。
通过第三分值,能够考虑推荐备选文章的时效性,以避免向目标用户推送信息过时的文章。
其中,第一基础分值为预设值,本领域人员可以根据需要设置第一基础分值,以使推荐分值能被推荐备选文章的时间权重适当影响,对于第一基础分值的具体数值,本公开中不做限定。
示例性地,推荐分值还可以包括第四分值,第四分值的计算可以包括:
根据推荐备选文章所在的栏目中的文章数量,确定栏目对应的预设分值;将预设的第二基础分值与预设分值的差作为第四分值。
本方案中,能够根据推荐备选文章所在的栏目中的文章数量,确定栏目对应的预设分值,并将第二基础分值与预设分值的差作为第四分值。
例如,在栏目中的文章数量越多时,该栏目对应的预设分值可以越小。如此,便于向目标用户推荐热点栏目的推荐备选文章。
其中,第二基础分值为预设值,本领域人员可以根据需要设置第二基础分值,以使推荐分值能被栏目中的文章数量适当影响,对于第二基础分值的具体数值,本公开中不做限定。
示例性地,行为数据还包括历史文章所属的行业以及目标用户对行业的浏览操作数据,相应地,推荐分值还包括第五分值,第五分值的计算包括:
根据目标用户对行业的浏览操作数据,确定行业的浏览操作分值;
例如,目标用户对行业的浏览操作数据可以包括目标用户的浏览、分享、点赞、收藏、评论等行为。可见,目标用户对行业的浏览操作数据可以反映目标用户对该行业的喜好程度。
确定每个行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系。
根据预设的第三基础分值与行业的比例关系,确定行业对应的分值。
例如,若所有行业的浏览操作分值为30分,若某一个行业的分值为6分,则该行业占所有行业的浏览操作分值的20%,则该行业对应的分值为第三基础分值与20%的乘积。
随后将推荐备选文章所属行业的分值作为第五分值。如此,能够考虑目标用户对推荐备选文章所属行业的喜爱程度,以便于更加准确地确定目标推荐文章。
其中,第三基础分值为预设值,本领域人员可以根据需要设置第三基础分值,以使推荐分值能被目标用户对推荐备选文章所属行业的喜爱程度适当影响,对于第三基础分值的具体数值,本公开中不做限定。
示例性地,对目标用户的行为数据可以按照预设时长划分成多个预设时间段,并针对每一预设时间段内目标用户浏览的行业,执行以下步骤:
根据目标用户对行业的浏览操作数据,确定行业的浏览操作分值;
确定每个行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系;
根据预设的第三基础分值与行业的比例关系,确定该预设时间段内行业对应的分值;
根据预设的所有预设时间段的权重,将预设时间段内行业对应的分值与权重相乘,得到该行业在该预设时间段内的时间段分值,随后将该行业的所有时间段分值相加,以得到该行业的分值。
例如,可以将多个预设时间段可以按照以下方式划分:
当日零点至当前时间点的第一时间段、当前时间点之前24小时的第二时间段、当前时间点前7天的第三时间段以及当前时间点前30天的第四时间段。
在确定多个预设时间段之后,可以分别对第一时间段至第四时间段执行以下步骤:
根据目标用户对行业的浏览操作数据,确定行业的浏览操作分值;
确定每个行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系;
根据预设的第三基础分值与行业的比例关系,确定该预设时间段内行业对应的分值;
根据预设的所有预设时间段的权重,将预设时间段内行业对应的分值与权重相乘,得到该行业在该预设时间段内的分值。
如此,可以得到行业在第一时间段至第四时间段内的四个分值,随后根据预设的第一时间段至第四时间段的权重(例如第一时间段至第四时间段的权重可以依次为0.85、0.1、0.04、0.01),以及该行业在各个时间段内的分值,确定该行业在第一时间段至第四时间段内的时间段分值,并最终确定该行业所有时间段分值的加和为该行业的分值。
或者,也可以先将预设的预设时间段的权重与第三基础分值相乘,得到各个预设时间段的时间段基础分值,随后将预设时间段的时间段基础分值、以及行业在该预设时间段内浏览操作分值与所有行业的浏览操作分值的和的比例关系的乘积,作为该行业在该预设时间段内的时间段分值。
如此,可以考虑目标用户对行业喜爱程度的时效性,便于使文章的推荐更加精准。
示例性地,若存储器中未存储有目标用户的行为数据的情况下,可以向目标用户推荐当前热度文章以及当前最新文章。
示例性地,当前热度文章可以通过以下方式确定:
获取文章在预设时间段内的浏览操作信息,浏览操作信息包括所有用户对于该文章的浏览、点赞、分享、收藏等操作。
对于每一个浏览、点赞、分享、收藏等操作,分别赋予对应的分值,并根据操作的次数以及该操作对应的分值,确定每一种操作的总分,将所有操作的总分加和,得到文章的第四基础分值。
随后可以根据上述公式(1)计算文章的时间权重,并将第四基础分值与时间权重的乘积作为文章的热度分值,将文章按照热度分值降序排列,可以取预设数量的排序靠前的文章作为热度文章。
示例性地,在对行为数据按照预设时长划分时间段时,若时间段内没有目标用户的行为数据,可以确定存储器中未存储有目标用户的行为数据。
图3是本公开一示例性实施例示出的文章推荐装置400的结构框图。参照图3,该装置400可以包括:
获取模块401,被配置为获取目标用户的行为数据,行为数据包括目标用户浏览的历史文章以及目标用户对历史文章的浏览操作数据;
计算模块402,被配置为对每一历史文章提取关键词,并根据关键词生成第一词向量;
计算模块402还被配置为针对每一历史文章,根据历史文章对应的浏览操作数据,计算历史文章的得分;
计算模块402还被配置为将各历史文章的得分,确定各历史文章的关键词对应的第一词向量的权重,并根据权重对各词向量进行加权平均计算,得到表征目标用户的文章偏好的目标词向量;
计算模块402还被配置为对每一推荐备选文章计算推荐分值,推荐分值包括第一分值,第一分值用于表征目标词向量与推荐备选文章的文章词向量之间的相似度;
推荐模块403,被配置为将推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给目标用户。
本方案中,能够根据目标用户对历史文章的浏览操作数据确定该历史文章的得分,并根据该历史文章的得分确定历史文章中关键词的权重,进而能够根据权重对关键词的第一词向量进行加权平均计算,以得到表征目标用户的文章偏好的目标词向量,并根据目标词向量确定第一分值,以根据包括第一分值的推荐分值筛选出目标推荐文章。如此,在目标用户的行为数据较少的情况下能够精准确定目标用户的目标词向量,便于根据目标词向量精确确定推荐备选文章,提高对目标用户的文章推荐精度。
示例性地,计算模块402还可以被配置为:
对行为数据按照预设时长划分成多个时间段,并针对每一时间段内的历史文章,执行对每一历史文章提取关键词,并根据关键词生成第一词向量,至得到表征目标用户的文章偏好的目标词向量的步骤,以得到对应每一时间段的目标词向量;
针对每一目标词向量,根据目标词向量对应的时间段的权重,对目标词向量进行加权处理,其中,时间段的权重随着时间段在多个时间段内的早晚顺序从早到晚依次增加;
第一分值是对每一加权处理后的目标词向量与推荐备选文章的文章词向量之间的相似度进行求和得到的。
示例性地,计算模块402还可以被配置为通过以下方式计算推荐备选文章的文章词向量:
提取推荐备选文章的关键词,并根据提取出的每一关键词生成对应每一关键词的第二词向量;
对每一关键词的第二词向量求均值,得到文章词向量。
示例性地,行为数据还可以包括目标用户浏览过的栏目以及目标用户对栏目的浏览操作数据,相应地,计算模块402可以被配置为通过以下方式选择推荐备选文章:
根据目标用户对栏目的浏览操作数据,确定栏目的浏览操作分值;
根据预设的推荐备选文章总数量,以及每个栏目的浏览操作分值与所有栏目的浏览操作分值的和的比例关系,从每个栏目下选取推荐备选文章。
示例性地,推荐分值还可以包括第二分值,计算模块402还可以被配置为通过以下方式计算第二分值:
将推荐备选文章的文章词向量输入训练完成的协同过滤模型中,得到协同过滤模型输出的第二分值,协同过滤模型是基于目标用户的行为数据训练得到的。
示例性地,推荐分值还可以包括第三分值,计算模块402还可以被配置为通过以下方式计算第三分值:
根据推荐备选文章的发布时间确定推荐备选文章对应的时间权重,其中,时间权重用于表征推荐备选文章按照时间的衰减程度;
将预设的第一基础分值与时间权重的乘积为第三分值。
示例性地,推荐分值还可以包括第四分值,计算模块402还可以被配置为通过以下方式计算第四分值:
根据推荐备选文章所在的栏目中的文章数量,确定栏目对应的预设分值;
将预设的第二基础分值与预设分值的差作为第四分值。
示例性地,行为数据还可以包括历史文章所属的行业以及目标用户对行业的浏览操作数据,相应地,推荐分值还包括第五分值,计算模块402还可以被配置为通过以下方式第五分值:
根据目标用户对行业的浏览操作数据,确定行业的浏览操作分值;
确定每个行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系;
根据预设的第三基础分值与行业的比例关系,确定行业对应的分值;
将推荐备选文章所属行业的分值作为第五分值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备500的框图。例如,电子设备500可以被提供为一服务器。参照图4,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的文章推荐方法。
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文章推荐方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述的文章推荐方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的文章推荐方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (11)
1.一种文章推荐方法,其特征在于,包括:
获取目标用户的行为数据,所述行为数据包括所述目标用户浏览的历史文章以及所述目标用户对所述历史文章的浏览操作数据;
对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量;
针对每一所述历史文章,根据所述历史文章对应的所述浏览操作数据,计算所述历史文章的得分;
将各所述历史文章的得分,确定各所述历史文章的关键词对应的所述第一词向量的权重,并根据所述权重对各所述第一词向量进行加权平均计算,得到表征所述目标用户的文章偏好的目标词向量;
对每一推荐备选文章计算推荐分值,所述推荐分值包括第一分值,所述第一分值用于表征所述目标词向量与所述推荐备选文章的文章词向量之间的相似度;
将所述推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述行为数据按照预设时长划分成多个时间段,并针对每一所述时间段内的历史文章,执行所述对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量,至所述得到表征所述目标用户的文章偏好的目标词向量的步骤,以得到对应每一所述时间段的目标词向量;
针对每一所述目标词向量,根据所述目标词向量对应的所述时间段的权重,对所述目标词向量进行加权处理,其中,所述时间段的权重随着所述时间段在所述多个时间段内的早晚顺序从早到晚依次增加;
所述第一分值是对每一加权处理后的所述目标词向量与所述推荐备选文章的文章词向量之间的相似度进行求和得到的。
3.根据权利要求1所述的方法,其特征在于,所述推荐备选文章的文章词向量的计算包括:
提取所述推荐备选文章的关键词,并根据提取出的每一关键词生成对应所述每一关键词的第二词向量;
对所述每一关键词的第二词向量求均值,得到所述文章词向量。
4.根据权利要求1所述的方法,其特征在于,所述行为数据还包括所述目标用户浏览过的栏目以及所述目标用户对所述栏目的浏览操作数据,相应地,所述推荐备选文章是通过如下方式选择的:
根据所述目标用户对所述栏目的浏览操作数据,确定所述栏目的浏览操作分值;
根据预设的推荐备选文章总数量,以及每个所述栏目的浏览操作分值与所有栏目的浏览操作分值的和的比例关系,从每个所述栏目下选取推荐备选文章。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述推荐分值还包括第二分值,所述第二分值的计算包括:
将所述推荐备选文章的文章词向量以及所述目标用户的行为数据输入训练完成的协同过滤模型中,得到所述协同过滤模型输出的所述第二分值,所述协同过滤模型是基于所有用户的行为数据训练得到的。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述推荐分值还包括第三分值,所述第三分值的计算包括:
根据所述推荐备选文章的发布时间确定所述推荐备选文章对应的时间权重,其中,所述时间权重用于表征所述推荐备选文章按照时间的衰减程度;
将预设的第一基础分值与所述时间权重的乘积为所述第三分值。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述推荐分值还包括第四分值,所述第四分值的计算包括:
根据所述推荐备选文章所在的栏目中的文章数量,确定所述栏目对应的预设分值;
将预设的第二基础分值与所述预设分值的差作为所述第四分值。
8.根据权利要求1-4中任一项所述的方法,其特征在于,所述行为数据还包括所述历史文章所属的行业以及所述目标用户对所述行业的浏览操作数据,相应地,所述推荐分值还包括第五分值,所述第五分值的计算包括:
根据所述目标用户对所述行业的浏览操作数据,确定所述行业的浏览操作分值;
确定每个所述行业的浏览操作分值与所有行业的浏览操作分值的和的比例关系;
根据预设的第三基础分值与所述行业的比例关系,确定所述行业对应的分值;
将所述推荐备选文章所属行业的分值作为所述第五分值。
9.一种文章推荐装置,其特征在于,包括:
获取模块,被配置为获取目标用户的行为数据,所述行为数据包括所述目标用户浏览的历史文章以及所述目标用户对所述历史文章的浏览操作数据;
计算模块,被配置为对每一所述历史文章提取关键词,并根据所述关键词生成第一词向量;
所述计算模块还被配置为针对每一所述历史文章,根据所述历史文章对应的所述浏览操作数据,计算所述历史文章的得分;
所述计算模块还被配置为将各所述历史文章的得分,确定各所述历史文章的关键词对应的所述第一词向量的权重,并根据所述权重对各所述词向量进行加权平均计算,得到表征所述目标用户的文章偏好的目标词向量;
所述计算模块还被配置为对每一推荐备选文章计算推荐分值,所述推荐分值包括第一分值,所述第一分值用于表征所述目标词向量与所述推荐备选文章的文章词向量之间的相似度;
推荐模块,被配置为将所述推荐分值满足预设筛选条件的推荐备选文章作为目标推荐文章推荐给所述目标用户。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现如权利要求1-8中任一项所述方法的步骤。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能实现如权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560244.5A CN113204705A (zh) | 2021-05-21 | 2021-05-21 | 文章推荐方法、装置、电子设备和计算机介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560244.5A CN113204705A (zh) | 2021-05-21 | 2021-05-21 | 文章推荐方法、装置、电子设备和计算机介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113204705A true CN113204705A (zh) | 2021-08-03 |
Family
ID=77023019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110560244.5A Withdrawn CN113204705A (zh) | 2021-05-21 | 2021-05-21 | 文章推荐方法、装置、电子设备和计算机介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204705A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851671A (zh) * | 2024-01-04 | 2024-04-09 | 国家电投集团科学技术研究院有限公司 | 一种科技情报资讯推送方法及系统 |
-
2021
- 2021-05-21 CN CN202110560244.5A patent/CN113204705A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851671A (zh) * | 2024-01-04 | 2024-04-09 | 国家电投集团科学技术研究院有限公司 | 一种科技情报资讯推送方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330023B (zh) | 基于关注点的文本内容推荐方法和装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN109190023B (zh) | 协同推荐的方法、装置及终端设备 | |
CN102799591B (zh) | 一种提供推荐词的方法及装置 | |
CN110598086B (zh) | 文章推荐方法、装置、计算机设备及存储介质 | |
CN102902753B (zh) | 用于补全搜索词及建立个体兴趣模型的方法及装置 | |
CN112837106A (zh) | 商品推荐方法、装置、计算机设备 | |
CN108491540B (zh) | 文本信息推送方法、装置及智能终端 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
KR101220557B1 (ko) | 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템 | |
CN112307344B (zh) | 对象推荐模型、对象推荐方法、装置及电子设备 | |
CN111078971A (zh) | 简历文件的筛选方法、装置、终端及存储介质 | |
CN108776684A (zh) | 知识图谱中边权重的优化方法、装置、介质、设备及系统 | |
CN108345601B (zh) | 搜索结果排序方法及装置 | |
WO2011008848A2 (en) | Activity based users' interests modeling for determining content relevance | |
WO2011086043A1 (en) | Personalized tag ranking | |
CN102243647A (zh) | 从结构化数据中提取高阶知识 | |
CN104991966A (zh) | 媒体内容排序方法及系统 | |
CA3059929C (en) | Text searching method, apparatus, and non-transitory computer-readable storage medium | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
CN110765348B (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
CN105447005B (zh) | 一种对象推送方法及装置 | |
CN111754278A (zh) | 物品推荐方法、装置、计算机存储介质和电子设备 | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
CN112488781A (zh) | 搜索推荐方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210803 |