CN113392329A - 内容推荐方法、装置、电子设备及存储介质 - Google Patents
内容推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113392329A CN113392329A CN202110818646.0A CN202110818646A CN113392329A CN 113392329 A CN113392329 A CN 113392329A CN 202110818646 A CN202110818646 A CN 202110818646A CN 113392329 A CN113392329 A CN 113392329A
- Authority
- CN
- China
- Prior art keywords
- user
- label
- contents
- behavior
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种内容推荐方法、装置、电子设备及存储介质,涉及数据分析领域。方法包括:获取用户的基础信息、行为信息以及多个内容的属性信息;根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容;根据基础信息和行为信息生成用户的标签以及标签权重;根据用户的标签从多个召回集中筛选出至少一个目标召回集;根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。本申请实施例提供的内容推荐方法,能够提高了向没有明确需求的用户推荐的内容的准确率,有利于提高该部分用户的留存时间。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种内容推荐方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,人们已经进入了信息爆炸的时代,为了满足人们对于信息的需求,资讯类网站应运而生。资讯类网站通常会将收集到的信息分为多种类型,用户可以自由选择类型,从而便捷地获取自己感兴趣的信息。
现有技术中,很多资讯类网站会通过协同过滤算法计算出用户可能会感兴趣的内容并将其推荐给用户,协同过滤算法简单来说是利用相似用户群体的喜好向用户推荐其可能感兴趣的内容,如此以提高用户的留存时间。
然而,协同过滤算法较为依赖相似用户群体,难以准确地向没有明确需求的用户,也即没有相似用户群体的用户推荐内容,容易造成该部分用户的留存时间过短甚至流失。
发明内容
有鉴于此,本申请的目的在于提供一种内容推荐方法、装置、电子设备及存储介质,以提高向没有明确需求的用户推荐内容的准确率,提高该部分用户的留存时间。
第一方面,本申请实施例提供了一种内容推荐方法,包括:
获取用户的基础信息、行为信息以及多个内容的属性信息,基础信息包括用户的年龄、性别、偏好以及所在地区中的至少一项,行为信息包括用户的点击行为、浏览行为、收藏行为、分享行为、评论行为中的至少一项,属性信息包括内容的标题、类型中的至少一项以及内容的行为权重;
根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容;
根据基础信息和行为信息生成用户的标签以及标签权重;
根据用户的标签从多个召回集中筛选出至少一个目标召回集;
根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。
可选地,在一种具体地实施方式中,根据基础信息和行为信息生成用户的标签以及标签权重,包括:
分别从各内容中提取第一预设数量的关键词;
从关键词中筛选出与行为信息和基础信息关联的关键词,作为用户的标签;
计算用户的标签对应的内容的行为权重之和与预设的时间衰减函数的乘积,作为标签对应的标签权重。
可选地,在一种具体地实施方式中,根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果,包括:
根据用户的标签权重对目标召回集中的内容进行排序,提取排序结果中序号为前第二预设数量的内容作为内容推荐结果,以及,输出内容推荐结果。
可选地,在一种具体地实施方式中,方法还包括:
向第一预设比例的用户推荐内容推荐结果,并获取第一预设比例的用户的评价数据;
根据评价数据调整第一预设比例的用户中各用户的标签以及标签权重;
根据调整后的用户的标签以及标签权重生成新的内容推荐结果。
可选地,在一种具体地实施方式中,根据评价数据调整用户的标签以及标签权重,包括:
在用户离线时,构建用户的训练样本,训练样本包括用户的标签、标签权重以及对应的评价数据;
基于训练样本训练得到机器学习模型;
基于机器学习模型调整用户的标签以及标签权重。
可选地,在一种具体地实施方式中,根据各内容的属性信息确定各内容之间的相似度,包括:
分别从各内容中提取第一预设数量的关键词;
根据各内容中提取的第一预设数量的关键词计算各内容的相似度。
可选地,在一种具体地实施方式中,分别从各内容中提取第一预设数量的关键词,包括:
基于第一关键词提取算法,分别从各内容中提取第三预设数量的关键词以及每个关键词对应的权重;
基于第二关键词提取算法,分别从各内容中提取第四预设数量的关键词以及每个关键词对应的权重;
基于每个关键词对应的权重,对各内容对应的第二预设数量的关键词和第三预设数量的关键词进行排序,并筛选出第一预设数量的关键词。
可选地,在一种具体地实施方式中,根据各内容中提取的第一预设数量的关键词计算各内容的相似度,包括:
根据各内容对应的第一预设数量的关键词,生成各内容对应的词向量;
基于局部敏感哈希算法,根据各内容对应的词向量计算各内容的相似度。
可选地,在一种具体地实施方式中,各内容的相似度包括关键词的相似度以及主题的相似度中的至少一项。
第二方面,本申请实施例提供了一种内容推荐装置,包括:
信息获取模块,用于获取用户的基础信息、行为信息以及多个内容的属性信息,基础信息包括用户的年龄、性别、偏好以及所在地区中的至少一项,行为信息包括用户的点击行为、浏览行为、收藏行为、分享行为、评论行为中的至少一项,属性信息包括内容的标题、类型中的至少一项以及内容的行为权重;
召回集生成模块,用于根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容;
标签生成模块,用于根据基础信息和行为信息生成用户的标签以及标签权重;
第一筛选模块,用于根据用户的标签从多个召回集中筛选出至少一个目标召回集;
第二筛选模块,用于根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行如第一方面任一方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如第一方面任一方法的步骤。
本申请实施例提供的内容推荐方法、装置、电子设备及存储介质,首先根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集;然后根据基础信息和行为信息生成用户的标签以及标签权重;并根据用户的标签从多个召回集中筛选出至少一个目标召回集;最后根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。本申请实施例提供的内容推荐方法,能够提高向没有明确需求的用户推荐的内容的准确率,有利于提高该部分用户的留存时间。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的内容推荐方法的流程图;
图2示出了本申请实施例所提供的生成内容推荐结果的流程图;
图3示出了本申请实施例所提供的一种内容推荐装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
在对本申请进行详细地解释之前,先对本申请的应用场景予以介绍。
随着互联网的发展,人们已经进入了信息爆炸的时代,为了满足人们对于信息的需求,资讯类网站应运而生。资讯类网站通常会将收集到的信息分为多种类型,用户可以自由选择类型,从而便捷地获取自己感兴趣的信息。现有技术中,很多资讯类网站会通过协同过滤算法计算出用户可能会感兴趣的内容并将其推荐给用户,协同过滤算法简单来说是利用相似用户群体的喜好向用户推荐其可能感兴趣的内容,如此以提高用户的留存时间。然而,协同过滤算法较为依赖相似用户群体,难以准确地向没有明确需求的用户,也即没有相似用户群体的用户推荐内容,容易造成该部分用户的留存时间过短甚至流失。
为了解决这一问题,本申请提供了一种内容推荐方法,能够提高了向没有明确需求的用户推荐的内容的准确率,有利于提高该部分用户的留存时间。
请参阅图1,本申请实施例提供了一种内容推荐方法,包括:
S101:获取用户的基础信息、行为信息以及多个内容的属性信息,基础信息包括用户的年龄、性别、偏好以及所在地区中的至少一项,行为信息包括用户的点击行为、浏览行为、收藏行为、分享行为、评论行为中的至少一项,属性信息包括内容的标题、类型中的至少一项以及内容的行为权重。
具体地,本申请实施例中的内容可以包括文章、新闻等包含文字信息的内容,本申请对此不做具体限定。
业务系统数据通常包括用户的基础信息和多个内容的属性信息,可选地,可以预先将业务系统数据通过Sqoop工具导入Hive数据库,如此,可以避免直接操作业务系统数据,有利于提高数据的安全性。其中,Sqoop工具是一款开源的工具,主要用于在基于Hadoop的数据库与传统的数据库间进行数据的传递,基于Hadoop的数据库例如为Hive,传统的数据库例如为MySQL,Oracle,Postgres等,Sqoop可以将MySQL,Oracle,Postgres等传统数据库中的数据导入Hive等基于Hadoop的数据库中,也可以将Hive等基于Hadoop的数据库中的数据导入MySQL,Oracle,Postgres等传统数据库中。
可选地,可以通过日志采集工具Flume收集用户的行为日志,得到用户的行为信息,将用户的行为信息存储至Hive数据库。其中,Flume是一日志采集工具,可以从数据源上采集日志数据传输到大数据生态的存储系统例如Hive数据库中。
需要说明的是,内容的行为权重是指用户点击、浏览、收藏、分享行、评论该内容分别对应的权重。
S102:根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容。
具体地,预设阈值可以为根据需要设定的值,例如预设阈值可以为80%,本申请对此不做限定。
可选地,在一种具体地实施方式中,各内容的相似度包括关键词的相似度以及主题的相似度中的至少一项。当各内容的相似度包括关键词的相似度和主题的相似度时,确定各内容之间的相似度包括:确定各内容之间关键词的相似度以及确定各内容之间主题的相似度。进而可以根据相似度生成多个召回集,例如关键词的相似度大于预设阈值的召回集和主体的相似度大于预设阈值的召回集。
可选地,确定各内容之间的相似度的具体过程可以为:分别构建各内容的画像,即分别提取各内容中的关键词,然后通过NLP(Natural Language Processing,自然语言处理)中的Word2vec将各关键词处理为多维词向量;确定各内容中关键词的各维度的相似度。进而,可以根据各内容中关键词的各维度的相似度生成多个召回集,例如某一维度的相似度大于预设阈值的召回集。
S103:根据基础信息和行为信息生成用户的标签以及标签权重。
具体地,可以提取用户的行为信息以及基础信息中的关键词作为用户的标签,例如用户的行为信息中显示用户浏览过较多的手机相关的内容,或用户的基础信息显示用户偏好浏览数码产品,则可以将手机或数码产品爱好者作为该用户的标签。当然,这里只是示例性说明,并不代表本申请局限于此。
用户的标签权重是指用户的标签对应的内容的行为权重之和与预设的时间衰减函数的乘积。
S104:根据用户的标签从多个召回集中筛选出至少一个目标召回集。
例如用户的标签为数码产品爱好者、旅游爱好者,则可以从多个召回集中筛选出与数码产品相关的召回集和与旅游相关的召回集。
S105:根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。
可选地,在一种具体地实施方式中,根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果,包括:根据用户的标签权重对目标召回集中的内容进行排序,提取排序结果中序号为前第二预设数量的内容作为内容推荐结果,以及,输出内容推荐结果。
具体地,第二预设数量可以为根据需要设定的值,本申请对此不做限定。另外,可以在不同的时间点分别将内容推荐结果中的不同的内容分别推荐给用户,也可以在同一时间点将内容推荐结果中的全部内容推荐给用户,本申请对此不做限定。
本申请实施例提供的内容推荐方法,首先根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集;然后根据基础信息和行为信息生成用户的标签以及标签权重;并根据用户的标签从多个召回集中筛选出至少一个目标召回集;最后根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果,从而能够提高向没有明确需求的用户推荐的内容的准确率,有利于提高该部分用户的留存时间。
可选地,在一种具体地实施方式中,根据基础信息和行为信息生成用户的标签以及标签权重,包括:分别从各内容中提取第一预设数量的关键词;从关键词中筛选出与行为信息和基础信息关联的关键词,作为用户的标签;计算用户的标签对应的内容的行为权重之和与预设的时间衰减函数的乘积,作为标签对应的标签权重。
具体地,第二预设数量可以为根据需要设定的值,例如20,本申请对此不做限定。
另外,用户的标签对应着从各内容中提取的第一预设数量的关键词中的某些关键词,这些关键词均具有对应的内容,用户的标签对应的内容即是指用户的标签对应的关键词所对应的内容。
时间衰减函数可以为根据需要预先设定的函数,只要为随着时间衰减的函数即可,本申请对此不做具体限定。
可选地,从关键词中筛选出与行为信息和基础信息关联的关键词具体是指,判断关键词是否包含于行为信息和基础信息之中,若是,则将该关键词作为出与行为信息和基础信息关联的关键词。当然,这里只是示例性说明,并不代表本申请局限于此。
可选地,在一种具体地实施方式中,方法还包括:向第一预设比例的用户推荐内容推荐结果,并获取第一预设比例的用户的评价数据;根据评价数据调整第一预设比例的用户中各用户的标签以及标签权重;根据调整后的用户的标签以及标签权重生成新的内容推荐结果。
如果直接向所有用户推荐内容推荐结果,可能会由于各种原因导致部分用户流失,风险较大。因此,本申请实施例中,先向第一预设比例的用户推荐内容推荐结果,并获取第一预设比例的用户的评价数据;根据评价数据调整第一预设比例的用户中各用户的标签以及标签权重;根据调整后的用户的标签以及标签权重生成新的内容推荐结果。如此,有利于降低用户流失的风险。具体地,可以进行ABTest多层分流,以向第一预设比例的用户推荐内容推荐结果。当然,这里只是示例性说明,并不代表本申请局限于此。
请参阅图2,需要说明的是,这里生成新的内容推荐结果之后可以是一个循环的过程,即,向第一预设比例的用户推荐内容推荐结果,并获取第一预设比例的用户的评价数据;判断评价数据是否满足预设条件;若满足则将对应的内容推荐结果推荐给用户,若不满足,则根据评价数据调整第一预设比例的用户中各用户的标签以及标签权重;根据调整后的用户的标签以及标签权重生成新的内容推荐结果;如此经过一轮循环,然后再向第一预设比例的用户推荐新的内容推荐结果开始新一轮循环。
可选地,在一种具体地实施方式中,根据评价数据调整用户的标签以及标签权重,包括:在用户离线时,构建用户的训练样本,训练样本包括用户的标签、标签权重以及对应的评价数据;基于训练样本训练得到机器学习模型;基于机器学习模型调整用户的标签以及标签权重。
根据评价数据调整用户的标签以及标签权重这一过程较为耗时,在用户离线时进行有利于提高效率。
可选地,在一种具体地实施方式中,根据各内容的属性信息确定各内容之间的相似度,包括:分别从各内容中提取第一预设数量的关键词;根据各内容中提取的第一预设数量的关键词计算各内容的相似度。
各内容的相似度可以是指各内容中的关键词的重合率,举例来说,内容A中包括手机、电脑两个关键词,内容B中包括手机、衣服两个关键词,则内容A和内容B的相似度为50%。
可选地,在一种具体地实施方式中,分别从各内容中提取第一预设数量的关键词,包括:基于第一关键词提取算法,分别从各内容中提取第三预设数量的关键词以及每个关键词对应的权重;基于第二关键词提取算法,分别从各内容中提取第四预设数量的关键词以及每个关键词对应的权重;基于每个关键词对应的权重,对各内容对应的第三预设数量的关键词和第四预设数量的关键词进行排序,并筛选出第一预设数量的关键词。
第三预设数量以及第四预设数量可以为根据需要设定的值,本申请对此不做限定。
本申请实施例中,当第一关键词提取算法为TF-IDF(term frequency-inversedocument frequency,词频-逆文本频率指数)算法时,第二关键词提取算法可以为TextRank算法;当第一关键词提取算法为TextRank算法时,第二关键词提取算法可以为TF-IDF算法,本申请对此不做限定。其中,TF-IDF是一种统计算法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。而TextRank算法是一种可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词的算法。
可选地,在一种具体地实施方式中,根据各内容中提取的第一预设数量的关键词计算各内容的相似度,包括:根据各内容对应的第一预设数量的关键词,生成各内容对应的词向量;基于局部敏感哈希算法,根据各内容对应的词向量计算各内容的相似度。
具体地,可以通过NLP中的Word2vec将各关键词处理为多维词向量。局部敏感哈希算法即LSH(Locality Sensitive Hashing)算法,其基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。通过局部敏感哈希算法能够有利于快速得到各内容对应的词向量计算各内容的相似度。
另外,需要说明的是,由于用户的行为信息是不断更新的,因此,本申请实施例中,可以定时对用户的行为信息更新,从而定时生成新的内容推荐列表,具体的生成方法此处不再赘述。
可选地,本申请实施例中,还可以将预设时间段内的热门文章,新发表的文章等按一定的比例加入内容推荐列表推荐给用户,本申请对此不做限定。
请参阅图3,本申请实施例提供了一种内容推荐装置30,包括:
信息获取模块301,用于获取用户的基础信息、行为信息以及多个内容的属性信息,基础信息包括用户的年龄、性别、偏好以及所在地区中的至少一项,行为信息包括用户的点击行为、浏览行为、收藏行为、分享行为、评论行为中的至少一项,属性信息包括内容的标题、类型中的至少一项以及内容的行为权重。
召回集生成模块302,用于根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容。
标签生成模块303,用于根据基础信息和行为信息生成用户的标签以及标签权重。
第一筛选模块304,用于根据用户的标签从多个召回集中筛选出至少一个目标召回集。
第二筛选模块305,用于根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。
可选地,在一种具体地实施方式中,标签生成模块303具体用于分别从各内容中提取第一预设数量的关键词;从关键词中筛选出与行为信息和基础信息关联的关键词,作为用户的标签;计算用户的标签对应的内容的行为权重之和与预设的时间衰减函数的乘积,作为标签对应的标签权重。
可选地,在一种具体地实施方式中,第二筛选模块305具体用于根据用户的标签权重对目标召回集中的内容进行排序,提取排序结果中序号为前第二预设数量的内容作为内容推荐结果,以及,输出内容推荐结果。
可选地,在一种具体地实施方式中,装置还包括:调整模块,用于向第一预设比例的用户推荐内容推荐结果,并获取第一预设比例的用户的评价数据;根据评价数据调整第一预设比例的用户中各用户的标签以及标签权重;根据调整后的用户的标签以及标签权重生成新的内容推荐结果。
可选地,在一种具体地实施方式中,调整模块具体用于在用户离线时,构建用户的训练样本,训练样本包括用户的标签、标签权重以及对应的评价数据;基于训练样本训练得到机器学习模型;基于机器学习模型调整用户的标签以及标签权重。
可选地,在一种具体地实施方式中,召回集生成模块302具体用于分别从各内容中提取第一预设数量的关键词;根据各内容中提取的第一预设数量的关键词计算各内容的相似度。
可选地,在一种具体地实施方式中,召回集生成模块302具体用于基于第一关键词提取算法,分别从各内容中提取第三预设数量的关键词以及每个关键词对应的权重;基于第二关键词提取算法,分别从各内容中提取第四预设数量的关键词以及每个关键词对应的权重;基于每个关键词对应的权重,对各内容对应的第三预设数量的关键词和第四预设数量的关键词进行排序,并筛选出第一预设数量的关键词。
可选地,在一种具体地实施方式中,召回集生成模块302具体用于根据各内容对应的第一预设数量的关键词,生成各内容对应的词向量;基于局部敏感哈希算法,根据各内容对应的词向量计算各内容的相似度。
可选地,在一种具体地实施方式中,各内容的相似度包括关键词的相似度以及主题的相似度中的至少一项。
本申请实施例所提供的内容推荐装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
请参阅图4,本申请实施例提供了一种电子设备40,包括:处理器401、存储介质402和总线403,存储介质402存储有处理器401可执行的机器可读指令,当电子设备40运行时,处理器401与存储介质402之间通过总线403通信,处理器401执行机器可读指令,以执行如前述任一实施方式的步骤。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如前述任一实施方式的步骤。
具体实现可参见方法实施例,在此不再赘述。
本申请实施例提供的内容推荐方法、装置、电子设备及存储介质,首先根据各内容的属性信息确定各内容之间的相似度,并根据相似度生成多个召回集;然后根据基础信息和行为信息生成用户的标签以及标签权重;并根据用户的标签从多个召回集中筛选出至少一个目标召回集;最后根据用户的标签权重对目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。从而提高了向没有明确需求的用户推荐的内容的准确率,有利于提高该部分用户的留存时间。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种内容推荐方法,其特征在于,包括:
获取用户的基础信息、行为信息以及多个内容的属性信息,所述基础信息包括所述用户的年龄、性别、偏好以及所在地区中的至少一项,所述行为信息包括所述用户的点击行为、浏览行为、收藏行为、分享行为、评论行为中的至少一项,所述属性信息包括内容的标题、类型中的至少一项以及内容的行为权重;
根据各所述内容的属性信息确定各所述内容之间的相似度,并根据所述相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容;
根据所述基础信息和行为信息生成所述用户的标签以及标签权重;
根据所述用户的标签从所述多个召回集中筛选出至少一个目标召回集;
根据所述用户的标签权重对所述目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述基础信息和行为信息生成所述用户的标签以及标签权重,包括:
分别从各内容中提取第一预设数量的关键词;
从所述关键词中筛选出与所述行为信息和基础信息关联的关键词,作为所述用户的标签;
计算所述用户的标签对应的内容的行为权重之和与预设的时间衰减函数的乘积,作为所述标签对应的标签权重。
3.根据权利要求1所述的方法,其特征在于,所述根据所述用户的标签权重对所述目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果,包括:
根据所述用户的标签权重对所述目标召回集中的内容进行排序,提取排序结果中序号为前第二预设数量的内容作为内容推荐结果,以及,输出所述内容推荐结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向第一预设比例的用户推荐所述内容推荐结果,并获取所述第一预设比例的用户的评价数据;
根据所述评价数据调整所述第一预设比例的用户中各用户的标签以及标签权重;
根据调整后的用户的标签以及标签权重生成新的内容推荐结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述评价数据调整所述用户的标签以及标签权重,包括:
在所述用户离线时,构建所述用户的训练样本,所述训练样本包括所述用户的标签、标签权重以及对应的评价数据;
基于所述训练样本训练得到机器学习模型;
基于所述机器学习模型调整所述用户的标签以及标签权重。
6.根据权利要求1所述的方法,其特征在于,所述根据各所述内容的属性信息确定各所述内容之间的相似度,包括:
分别从各内容中提取第一预设数量的关键词;
根据所述各内容中提取的第一预设数量的关键词计算各内容的相似度。
7.根据权利要求6所述的方法,其特征在于,所述分别从各内容中提取第一预设数量的关键词,包括:
基于第一关键词提取算法,分别从各内容中提取第三预设数量的关键词以及每个关键词对应的权重;
基于第二关键词提取算法,分别从各内容中提取第四预设数量的关键词以及每个关键词对应的权重;
基于每个关键词对应的权重,对各内容对应的第三预设数量的关键词和第四预设数量的关键词进行排序,并筛选出第一预设数量的关键词。
8.一种内容推荐装置,其特征在于,包括:
信息获取模块,用于获取用户的基础信息、行为信息以及多个内容的属性信息,所述基础信息包括所述用户的年龄、性别、偏好以及所在地区中的至少一项,所述行为信息包括所述用户的点击行为、浏览行为、收藏行为、分享行为、评论行为中的至少一项,所述属性信息包括内容的标题、类型中的至少一项以及内容的行为权重;
召回集生成模块,用于根据各所述内容的属性信息确定各所述内容之间的相似度,并根据所述相似度生成多个召回集,每个召回集中包括多个相似度大于预设阈值的内容;
标签生成模块,用于根据所述基础信息和行为信息生成所述用户的标签以及标签权重;
第一筛选模块,用于根据所述用户的标签从所述多个召回集中筛选出至少一个目标召回集;
第二筛选模块,用于根据所述用户的标签权重对所述目标召回集中的内容进行筛选,并根据筛选结果生成并输出内容推荐结果。
9.一种电子设备,其特征在于,所述电子设备包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818646.0A CN113392329A (zh) | 2021-07-20 | 2021-07-20 | 内容推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818646.0A CN113392329A (zh) | 2021-07-20 | 2021-07-20 | 内容推荐方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392329A true CN113392329A (zh) | 2021-09-14 |
Family
ID=77626528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110818646.0A Pending CN113392329A (zh) | 2021-07-20 | 2021-07-20 | 内容推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392329A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564496A (zh) * | 2022-03-01 | 2022-05-31 | 北京有竹居网络技术有限公司 | 一种内容推荐方法及装置 |
-
2021
- 2021-07-20 CN CN202110818646.0A patent/CN113392329A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564496A (zh) * | 2022-03-01 | 2022-05-31 | 北京有竹居网络技术有限公司 | 一种内容推荐方法及装置 |
CN114564496B (zh) * | 2022-03-01 | 2023-09-19 | 北京有竹居网络技术有限公司 | 一种内容推荐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271512B (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
JP4637969B1 (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
WO2018069449A1 (en) | Machine learning-based data aggregation using social media content | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
CN111310011B (zh) | 一种信息推送方法、装置、电子设备及存储介质 | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
JP6097126B2 (ja) | レコメンド情報生成装置及びレコメンド情報生成方法 | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
CN106407316B (zh) | 基于主题模型的软件问答推荐方法和装置 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN108763961B (zh) | 一种基于大数据的隐私数据分级方法和装置 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN113806660A (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
CN109726292A (zh) | 面向大规模多语种数据的文本分析方法和装置 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN117593089A (zh) | 信用卡推荐方法、装置、设备、存储介质及程序产品 | |
US20230090601A1 (en) | System and method for polarity analysis | |
US20220292127A1 (en) | Information management system | |
CN108628875B (zh) | 一种文本标签的提取方法、装置及服务器 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
US10606875B2 (en) | Search support apparatus and method | |
KR102041915B1 (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |