内容推荐方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及内容推荐领域,特别涉及一种内容推荐方法、装置、设备及可读存储介质。
背景技术
推荐系统应用在对视频、新闻、电商等内容进行推荐的领域,用于向用户推荐用户可能感兴趣的内容。示意性的,用户观看过导演a导演的电影A,则根据电影A的导演推断用户对导演a的电影感兴趣,则向用户推荐导演a导演的其他电影。
相关技术中,在进行内容推荐时,根据用户设定的标签,向用户推荐与标签对应的内容,如:用户设定标签“武侠”,则在向用户推荐内容,推荐与武侠相关的内容。
然后,通过上述方式进行内容推荐时,导致推荐内容趋向同质化,缩小了用户阅览的内容的视野,当用户对同一标签的内容阅览过多时,易产生视觉疲劳,从而导致内容推荐的准确率较低。
发明内容
本申请实施例提供了一种内容推荐方法、装置、设备及可读存储介质,可以避免推荐内容趋向同质化,提高内容推荐的准确率。所述技术方案如下:
一方面,提供了一种内容推荐方法,所述方法包括:
获取目标账号的账号数据,所述账号数据用于指示所述目标账号的内容阅览偏好,所述账号数据中包括所述目标账号对应的兴趣标签;
以所述账号数据作为分析参数,预测得到所述目标账号对应的个性化推荐内容,所述个性化推荐内容为与所述目标账号的所述内容阅览偏好对应的内容;
获取与所述兴趣标签存在关联关系的关联标签;
以所述关联标签作为分析参数,预测得到所述目标账号对应的扩展推荐内容;
根据所述个性化推荐内容与所述扩展推荐内容,生成向所述目标账号推荐的目标内容。
另一方面,提供了一种内容推荐装置,所述装置包括:
获取模块,用于获取目标账号的账号数据,所述账号数据用于指示所述目标账号的内容阅览偏好,所述账号数据中包括所述目标账号对应的兴趣标签;
预测模块,用于以所述账号数据作为分析参数,预测得到所述目标账号对应的个性化推荐内容,所述个性化推荐内容为与所述目标账号的所述内容阅览偏好对应的内容;
所述获取模块,还用于获取与所述兴趣标签存在关联关系的关联标签;
所述预测模块,还用于以所述关联标签作为分析参数,预测得到所述目标账号对应的扩展推荐内容;
生成模块,用于根据所述个性化推荐内容与所述扩展推荐内容,生成向所述目标账号推荐的目标内容。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的内容推荐方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的内容推荐方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中任一所述的内容推荐方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
根据目标账号的账号数据生成个性化推荐内容,并根据目标账号的兴趣标签获取关联标签,以关联标签为基础生成扩展推荐内容,从而将个性化推荐内容和扩展推荐内容结合向目标账号进行推荐,在确保内容推荐准确率的同时,提高了内容推荐的多样性,避免推荐内容趋向同质化,缩小了用户阅览的内容的视野。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的内容推荐方法的整体过程示意图;
图3是本申请一个示例性实施例提供的内容推荐方法的流程图;
图4是基于图3示出的实施例提供的兴趣标签选择界面示意图;
图5是基于图3示出的实施例提供的通过知识图谱确定关联标签的过程示意图;
图6是本申请另一个示例性实施例提供的内容推荐方法的流程图;
图7是本申请另一个示例性实施例提供的内容推荐方法的流程图;
图8是基于图7示出的实施例提供的模型框架示意图;
图9是本申请一个示例性实施例提供的内容分类装置的结构框图;
图10是本申请另一个示例性实施例提供的内容分类装置的结构框图;
图11是本申请一个示例性的实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
内容推荐:是指根据用户信息向用户推荐内容的功能,通常,推荐系统应用在对视频、新闻、电商等内容进行推荐的领域,用于向用户推荐用户可能感兴趣的内容。示意性的,用户观看过导演a导演的电影A,则根据电影A的导演推断用户对导演a的电影感兴趣,则向用户推荐导演a导演的其他电影。相关技术中,在实现内容推荐时,包括如下方式中的至少一种方式:
第一,基于用户(User-based)推荐:也即利用用户之间的相似性,向用户推荐相似用户所喜欢的内容,如:用户A与用户C性别相同,且所处年龄段相同,则将用户C喜欢的内容推荐至用户A;
第二,基于内容(Item-based)推荐:也即,根据已确定的用户感兴趣的内容,预测不确定的用户感兴趣的内容,如:用户A阅读过《天龙八部》,而该小说属于武侠类小说,则向用户A推荐相似的武侠类小说;
第三,基于协同过滤(Collaborative Filtering-based)推荐:是指利用用户相似性,向用户推荐内容,而该方式下,用户相似性通过用户历史阅览内容确定;
第四,基于模型(Model-based)推荐:是指利用机器学习算法进行内容推荐,示意性的,以逻辑回归模型为例,构建影响用户行为的特征属性对应的标签数据,通过标签数据和特征属性拟合得到一个函数,并得到每个特征属性的权重,基于特征属性对未知的用户和内容的内容关系进行打分,分数与用户对内容的感兴趣程度呈正相关。
知识图谱(Knowledge Graph):是显示知识发展进程与结构关系的一系列各种不同的图形,通过可视化描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识以及各知识之间的相互联系。具体来说,知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
结合上述名词简介,对本申请实施例的应用场景进行举例说明:
第一,在视频播放应用程序中,在用户观看视频的过程中,或者用户观看结束一个视频后,向用户进行视频内容推荐,其中,该视频播放应用程序可以实现普通视频播放程序,用于播放用户生成内容(User Generated Content,UGC)、电影、电视剧、综艺等视频内容,也可以实现为小视频应用程序,其中,小视频通常是指视频长度小于预设时长,且通过指定小视频应用程序生成的视频内容。
在视频播放应用程序中,根据用户账号的账号数据进行分析,其中,账号数据中包括用户账号标注的兴趣标签,其中,根据账号数据分析得到用户的个性化推荐视频,符合用户账号的视频观看偏好,获取与兴趣标签对应的关联标签,并通过关联标签获取扩展推荐视频,根据个性化推荐视频和扩展推荐视频生成向用户账号推荐的视频;
第二,在新闻阅读应用程序中,当用户在新闻阅读界面中以瀑布流的形式刷新新闻内容时,根据用户账号的账号数据进行分析,其中,账号数据中包括用户账号标注的兴趣标签,其中,根据账号数据分析得到用户的个性化推荐新闻,符合用户账号的新闻阅读偏好,获取与兴趣标签对应的关联标签,并通过关联标签获取扩展推荐新闻,根据个性化推荐新闻和扩展推荐新闻生成向用户账号推荐的新闻内容;
其中,上述新闻推荐可以实现在如上所述的新闻阅读应用程序中,也可以应用于其他应用程序中的新闻阅读版块,如:即时通讯应用程序、浏览器、游戏、工具类应用程序等,本申请实施例对此不加以限定。
上述两种应用场景仅为本申请示意性的举例,本申请实施例提供的内容推荐方法还可以应用于其他通过兴趣标签确定关联标签,并根据关联标签获取扩展推荐内容的方案中,本申请实施例对此不加以限定。
值得注意的是,本申请实施例提供的内容推荐方法,可以由终端实现,也可以由服务器实现,还可以由终端和服务器协同实现。其中,终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种,服务器可以是物理服务器,也可以是提供云计算服务的云服务器,且服务器可以实现为一台服务器,也可以是多个服务器构成的服务器集群或分布式系统。其中,当终端和服务器协同实现本申请实施例提供的方案时,终端和服务器可以通过有线或无线通信方式进行直接或间接连接,本申请实施例对此不加以限定。
请参考图1,其示出了本申请一个示例性实施例提供的实施环境示意图,如图1所示,该实施环境中包括终端110、服务器120,终端110和服务器120之间通过通信网络130连接;
其中,终端110中安装有内容阅览程序,且内容阅览程序中登录有目标账号。该内容阅览程序可以实现为视频播放程序、电子书阅读程序、即时通讯应用程序、浏览器、游戏、工具类应用程序等,本申请实施例对此不加以限定。可选地,终端110将目标账号的账号信息(如:帐号标识、兴趣标签、基本信息等)通过通行网络130上传至服务器120中进行存储,以终端110将目标账号在内容阅览过程中产生的阅览数据上传至服务器120中,存储得到目标账号的历史阅览记录。
可选地,服务器120可以根据终端110发送的内容推荐请求,生成与目标账号对应的推荐内容,并将推荐内容反馈至终端110;或,服务器120每隔预设时长生成推荐内容,并向终端110发送推荐内容;或,服务器120根据终端中内容的刷新数量,在向终端110刷新预设数量的内容A后,生成推荐内容B,并向终端110发送该推荐内容B。
可选地,服务器120中包括内容推荐库121,在生成目标账号的推荐内容时,根据目标账号的兴趣标签从内容推荐库121中预测得到个性化推荐内容;以及根据与兴趣标签对应的关联标签,从内容推荐库121中预测得到扩展推荐内容,最后根据个性化推荐内容和扩展推荐内容,生成推荐内容向目标账号推荐。
值得注意的是,上述通信网络130可以实现为有线网络,也可以实现为无线网络,且通信网络130可以实现为局域网、城域网或广域网中的任意一种,本申请实施例对此不加以限定。
示意性的,请参考图2,其示出了本申请一个示例性实施例提供的内容推荐方法的整体过程示意图,如图2所示,该过程中应用融合推荐系统200进行内容推荐。当本申请实施例提供的内容推荐方法由终端作为执行主体执行实现时,融合推荐系统200实现为终端安装的客户端中的存储的程序,并根据客户端中生成的用户数据生成推荐内容向用户推荐;当内容推荐方法由服务器作为执行主体执行实现时,融合推荐系统200实现为服务器中安装的程序,其中,服务器可以从已存储的数据中获取用户数据(如:阅览数据、个人信息等),也可以接收终端通过已安装的客户端上传的用户数据,从而生成向用户进行推荐的推荐内容;或,当内容推荐方法一部分由终端作为执行主体执行实现,另一部分由服务器作为执行主体执行实现时,则融合推荐系统200中,由终端实现的部分对应的程序存储在终端中,而由服务器实现的部分对应的程序存储在服务器中,在生成推荐内容时,将终端生成的推荐内容和服务器生成的推荐内容融合,得到最终向用户推荐的推荐内容。
其中,融合推荐系统200中包括扩展内容推荐系统210和个性化推荐系统220,融合推荐系统200中还包括知识图谱230;
其中,扩展内容推荐系统210用于生成扩展推荐内容211,其中,扩展推荐内容211为不直接与用户标注的兴趣标签对应的推荐内容;可选地,根据用户标注的兴趣标签首先生成与之关联的关联标签,并确定与关联标签对应的扩展推荐内容211;
个性化推荐系统220用于生成个性化推荐内容221,其中,个性化推荐内容221为与用户标注的兴趣标签对应的推荐内容,也即,符合用户内容阅览偏好的推荐内容;
知识图谱230为与内容库中的内容对应的网状关系图谱,结合知识图谱230通过扩展内容推荐系统210生成扩展推荐内容211;结合知识图谱230通过个性化推荐系统220生成个性化推荐内容221。
将扩展推荐内容211与个性化推荐内容221进行融合后,得到融合推荐结果240,以融合推荐结果中的内容作为向用户推荐的内容。
结合上述名词简介以及应用场景,对本申请实施例提供的内容推荐方法进行说明,以由服务器执行以完成该方法为例进行说明,如图3所示,该方法包括:
步骤301,获取目标账号的账号数据,账号数据用于指示目标账号的内容阅览偏好。
可选地,账号数据中包括目标账号对应的兴趣标签,其中,兴趣标签的标注方式包括如下方式中的至少一种:
第一,用户在使用应用程序时,对兴趣标签进行选择,并将选择的兴趣标签发送至服务器中,由服务器对目标账号与兴趣标签之间的对应关系进行存储;
可选地,对兴趣标签的选择过程可以在用户在应用程序中注册目标账号时实现,如:用户在注册目标账号时,显示兴趣标签选择页面,并在兴趣标签选择页面中对感兴趣的标签进行选择;也可以在用户使用应用程序的过程中实现,如:用户在使用应用程序的过程中,在兴趣标签选择功能中对目标账号对应的兴趣标签进行增加或修改或删除。
示意性的,请参考图4,在兴趣标签选择页面400中包括多个候选标签410,用户通过对候选标签410进行选择,将候选标签410确定为对应的兴趣标签,从而向服务器发送兴趣标签进行存储。
第二,根据目标账号的历史阅览记录,生成与目标账号对应的兴趣标签,其中,根据目标账号的历史阅览记录对目标账号阅览过的内容对应的标签进行标注,并当某个标签被标注的次数达到次数要求时,将该标签作为目标账号的兴趣标签。
可选地,目标账号的账号数据中还包括用户年龄、性别、职业、历史阅览记录等信息中的至少一种。
可选地,目标账号的账号数据中还包括目标账号标注的回避标签,其中,回避标签用于指示不符合目标账号的内容阅览偏好的内容。可选地,回避标签的标注方式包括如下方式中的至少一种:
第一,用户在使用应用程序时,对回避标签进行选择,并将不感兴趣的标签发送至服务器中,由服务器对目标账号与回避账号之间的对应关系进行存储;
第二,根据目标账号在对内容进行阅览时的跳过情况,生成与目标账号对应的回避标签,示意性的,当目标账号在阅览内容时,对内容的阅览时长小于时长要求,则对内容对应的标签进行记录,当某个标签被记录的次数达到次数要求时,将该标签作为目标账号的回避标签。
可选地,目标账号的账号数据在数据库中以键值对(key-value)的形式进行存储,其中,以目标账号的账号标识作为key,以目标账号的账号数据作为value进行存储。则,获取目标账号的账号数据时,根据需要生成推荐内容的目标账号的账号标识,直接在数据库中获取与账号标识对应的账号数据。
可选地,目标账号的账号数据可以直接存储在服务器的存储空间中,也可以存储在云存储空间中,由服务器从云存储空间中获取与目标账号的账号标识对应的账号数据。其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
步骤302,以账号数据作为分析参数,预测得到目标账号对应的个性化推荐内容。
可选地,预测个性化推荐内容时,包括如下情况中的至少一种:
第一,构建机器学习模型,以账号数据作为机器学习模型的输入参数,并输出得到目标账号对应候选内容的兴趣概率;
示意性的,以该过程基于倒排的思路实现为例进行说明,则包括召回和排序两个阶段,其中,召回阶段中根据目标账号的兴趣标签获取与该兴趣标签对应的候选内容;排序阶段中,通过机器学习模型将目标账号、候选内容和知识图谱作为输入内容,进行兴趣概率预测,并输出得到目标账号对输入的候选内容感兴趣的概率。
第二,直接获取与兴趣标签对应的候选内容,并根据阅览量由高到低对候选内容进行排序,并过滤目标账号已阅览过的内容,也即目标账号的历史阅览记录中所记录过的内容,将排序后前k个内容作为向目标账号推荐的个性化推荐内容,k为正整数;
第三,利用用户之间的相似性,通过账号数据确定与目标账号相似度较高的相似账号,并向目标账号推荐相似账号所喜欢的内容,如:账号A与账号C性别相同,且所处年龄段相同,则将账号C喜欢的内容作为个性化推荐内容;
第四,根据账号数据中已确定的目标账号感兴趣的内容,预测不确定的目标账号感兴趣的内容,如:目标账号阅读过《天龙八部》,而该小说属于武侠类小说,则将其他武侠类小说作为个性化推荐内容;
第五,利用用户相似性,通过账号数据确定与目标账号相似度较高的相似账号,向目标账号推荐相似账号的历史阅览内容。
步骤303,获取与兴趣标签存在关联关系的关联标签。
可选地,获取兴趣标签的标签属性,并获取与兴趣标签对应的候选标签,其中,兴趣标签与候选标签对应相同的标签属性,从候选标签中确定关联标签。其中,标签属性用于指示兴趣标签所属的领域类型。
可选地,融合推荐系统中还包括知识图谱,其中,知识图谱中存储有内容对应的标签,以及标签对应的标签属性。对应相同标签属性的标签在知识图谱中的距离较近。示意性的,当两个标签中包括相同的标签属性,则这两个标签的相似度较高,如:标签A为“人物a电影”,利用知识图谱确定人物a的标签属性为“导演”,则确定与该标签A对应的关联标签,且关联标签的标签属性也包括“导演”。
示意性的,请参考图5,根据用户标签510和知识图谱520进行知识推理,得到关联标签530。
可选地,从候选标签中确定关联标签时,通过随机选择的方式从候选标签中选择j个作为关联标签;或,从候选标签中选择被标注次数最多的j个标签作为关联标签,j为正整数。
步骤304,以关联标签作为分析参数,预测得到目标账号对应的扩展推荐内容。
可选地,预测扩展推荐内容时,包括如下情况中的至少一种:
第一,构建机器学习模型,以目标账号的账号数据、关联标签对应的候选内容以及知识图谱作为机器学习模型的输入参数,并输出得到目标账号对应候选内容的兴趣概率;
示意性的,以该过程基于倒排的思路实现为例进行说明,则包括召回和排序两个阶段,其中,召回阶段中根据关联标签获取与该关联标签对应的候选内容;排序阶段中,通过机器学习模型将目标账号、候选内容和知识图谱作为输入内容,进行兴趣概率预测,并输出得到目标账号对输入的候选内容感兴趣的概率。
第二,直接获取与关联标签对应的候选内容,并根据阅览量由高到低对候选内容进行排序,过滤目标账号已阅览过的内容,也即目标账号的历史阅览记录中所记录过的内容,将排序后前k个内容作为向目标账号推荐的扩展推荐内容,k为正整数。
步骤305,根据个性化推荐内容与扩展推荐内容,生成向目标账号推荐的目标内容。
可选地,将个性化推荐内容和扩展推荐内容结合后,生成向目标账号推荐的目标内容。
可选地,将个性化推荐内容与扩展推荐内容混合随机排序后,生成向目标账号推荐的目标内容。其中,首先将确定的个性化推荐内容和扩展推荐内容以预设比例进行混合,如:个性化推荐内容和扩展推荐内容以20:1的比例进行混合后,向目标账号推荐混合后的目标内容。
综上所述,本实施例提供的内容推荐方法,根据目标账号的账号数据生成个性化推荐内容,并根据目标账号的兴趣标签获取关联标签,以关联标签为基础生成扩展推荐内容,从而将个性化推荐内容和扩展推荐内容结合向目标账号进行推荐,在确保内容推荐准确率的同时,提高了内容推荐的多样性,避免推荐内容趋向同质化,缩小了用户阅览的内容的视野。
在一个可选的实施例中,上述关联标签与兴趣标签对应有同样的标签属性,图6是本申请另一个示例性实施例提供的内容推荐方法的流程图,以由服务器执行以完成该方法为例进行说明,如图6所示,该方法包括:
步骤601,获取目标账号的账号数据,账号数据用于指示目标账号的内容阅览偏好。
可选地,账号数据中包括目标账号对应的兴趣标签,其中,兴趣标签的标注方式包括如下方式中的至少一种:
第一,用户在使用应用程序时,对兴趣标签进行选择,并将选择的兴趣标签发送至服务器中,由服务器对目标账号与兴趣标签之间的对应关系进行存储;
第二,根据目标账号的历史阅览记录,生成与目标账号对应的兴趣标签。
可选地,目标账号的账号数据中还包括用户年龄、性别、职业、历史阅览记录等信息中的至少一种。
可选地,目标账号的账号数据中还包括目标账号对应的回避标签,其中,回避标签用于指示不符合目标账号的内容阅览偏好的内容。
步骤602,以账号数据作为分析参数,预测得到目标账号对应的个性化推荐内容。
可选地,本实施例中,以构建机器学习模型的方式预测个性化推荐内容。示意性的,以该过程基于倒排的思路实现为例进行说明,则包括召回和排序两个阶段,其中,召回阶段中根据目标账号的兴趣标签获取与该兴趣标签对应的候选内容;排序阶段中,通过机器学习模型将目标账号、候选内容和知识图谱作为输入内容,进行兴趣概率预测,并输出得到目标账号对输入的候选内容感兴趣的概率。
步骤603,获取兴趣标签的标签属性,标签属性用于指示兴趣标签所属的领域类型。
可选地,从知识图谱中确定兴趣标签对应的标签属性。
示意性的,知识图谱中以图谱三元组的形式对内容进行存储,如:图谱三元组(h,r,t),其中,h用于指示内容名称,r用于指示标签属性,t用于指示标签,举例说明(ForrestGump,film.star,Tom),其中“Forrest Gump”指示电影名称《阿甘正传》,“film.star”指示标签属性“电影明星”,“Tom”指示标签“汤姆”。
可选地,内容、标签之间可以是一对一关系,也即一个内容对应一个标签,也可以是一对多关系,也即一个内容对应多个标签。标签与标签属性之间可以是一对一关系,也即一个标签对应一种标签属性,也可以是一对多关系,也即一个标签对应多种标签属性。
步骤604,获取与兴趣标签对应的候选标签。
可选地,以兴趣标签对应有n个标签属性为例进行说明,n为正整数,则获取对应n个标签属性的候选标签,也即,当标签对应的标签属性中包括兴趣标签对应的n个标签属性时,将该标签确定为候选标签;或,获取对应的标签属性达到要求比例的候选标签,其中,要求比例用于指示标签属性与n个标签属性的重合比例,也即,当标签对应的标签属性中至少包括n个标签属性中,与要求比例对应数量的标签属性时,将该标签确定为候选标签。
可选地,目标账号的账号数据中还包括目标账号标注的回避标签,回避标签用于指示不符合目标账号的内容阅览偏好的标签,在获取候选标签后,从候选标签中过滤并丢弃被标注为回避标签的标签。
步骤605,从候选标签中确定关联标签。
可选地,从候选标签中确定关联标签时,通过随机选择的方式从候选标签中选择j个作为关联标签;或,从候选标签中选择被标注次数最多的j个标签作为关联标签,j为正整数。
步骤606,以关联标签作为分析参数,预测得到目标账号对应的扩展推荐内容。
可选地,首先以关联标签作为分析参数,预测得到目标账号对应的候选推荐内容,并以候选推荐内容的阅览量对候选推荐内容进行排序,得到候选推荐内容序列,将候选推荐内容序列中阅览量最高的m个候选推荐内容作为扩展推荐内容,m为正整数。
其中,以关联标签作为分析参数,预测得到目标账号对应的候选推荐内容时,包括如下情况中的至少一种:
第一,构建机器学习模型,以目标账号的账号数据、关联标签对应的候选内容以及知识图谱作为机器学习模型的输入参数,并输出得到目标账号对应候选内容的兴趣概率;
示意性的,以该过程基于倒排的思路实现为例进行说明,则包括召回和排序两个阶段,其中,召回阶段中根据关联标签获取与该关联标签对应的候选内容;排序阶段中,通过机器学习模型将目标账号、候选内容和知识图谱作为输入内容,进行兴趣概率预测,并输出得到目标账号对输入的候选内容感兴趣的概率。
将兴趣概率大于要求概率的候选内容确定为候选推荐内容。
第二,直接获取标注有关联标签的候选推荐内容。
步骤607,根据个性化推荐内容与扩展推荐内容,生成向目标账号推荐的目标内容。
可选地,将个性化推荐内容与扩展推荐内容混合随机排序后,生成向目标账号推荐的目标内容。其中,首先将确定的个性化推荐内容和扩展推荐内容以预设比例进行混合,如:个性化推荐内容和扩展推荐内容以20:1的比例进行混合后,向目标账号推荐混合后的目标内容。
综上所述,本实施例提供的内容推荐方法,根据目标账号的账号数据生成个性化推荐内容,并根据目标账号的兴趣标签获取关联标签,以关联标签为基础生成扩展推荐内容,从而将个性化推荐内容和扩展推荐内容结合向目标账号进行推荐,在确保内容推荐准确率的同时,提高了内容推荐的多样性,避免推荐内容趋向同质化,缩小了用户阅览的内容的视野。
本实施例提供的方法,根据标签属性确定与兴趣标签存在关联关系的关联标签,并根据关联标签获取扩展推荐内容向目标账号推荐,在确保扩展推荐内容不会距离目标账号的兴趣点较远的同时,避免推荐内容趋向同质化,提高了内容推荐的准确率。
在一个可选的实施例中,基于倒排的思路预测得到个性化推荐内容,图7是本申请另一个示例性实施例提供的内容推荐方法的流程图,以由服务器执行以完成该方法为例进行说明,如图7所示,该方法包括:
步骤701,获取目标账号的账号数据,账号数据用于指示目标账号的内容阅览偏好。
可选地,账号数据中包括目标账号对应的兴趣标签,其中,兴趣标签的标注方式包括如下方式中的至少一种:
第一,用户在使用应用程序时,对兴趣标签进行选择,并将选择的兴趣标签发送至服务器中,由服务器对目标账号与兴趣标签之间的对应关系进行存储;
第二,根据目标账号的历史阅览记录,生成与目标账号对应的兴趣标签。
可选地,目标账号的账号数据中还包括用户年龄、性别、职业、历史阅览记录等信息中的至少一种。
可选地,目标账号的账号数据中还包括目标账号标注的回避标签,其中,回避标签用于指示不符合目标账号的内容阅览偏好的内容。
步骤702,获取内容推荐库,内容推荐库中包括用于向目标账号推荐的内容。
可选地,内容推荐库实现为数据库;或,内容推荐库实现为知识图谱。
可选地,内容推荐库中的内容对应标注有标签,用于指示内容所对应的相关方面,如:内容A为电影,标注有标签“喜剧”,则表示该内容A为喜剧电影。
步骤703,从内容推荐库中获取标注有兴趣标签的候选内容。
可选地,当目标账号对应标注有多个兴趣标签时,从内容推荐库中获取与多个兴趣标签中的每个兴趣标签都对应的候选内容;或,从内容推荐库中获取与其中至少一个兴趣标签对应的候选内容;或,从内容推荐库中获取与其中部分兴趣标签对应的候选内容,其中,对应的兴趣标签的数量要求可以是目标账号中预先设置的,也可以是系统设定的。
步骤704,以历史阅览记录对候选内容的阅览概率进行预测。
可选地,获取知识图谱,该知识图谱中包括内容推荐库中的内容之间的网状关联关系,将历史阅览记录在知识图谱中以波纹形式表达,并确定候选内容与波纹形式表达上采样点之间的归一化相似度,根据归一化相似度确定候选内容的预览概率。
可选地,预测过程中输入与输出内容分别如下:
输入内容:目标账号、候选内容、知识图谱,示意性的,知识图谱中以图谱三元组的形式对内容进行存储,如:图谱三元组(h,r,t),其中,h用于指示内容名称,r用于指示标签属性,t用于指示标签。
输出内容:目标账号对应候选内容的阅览概率。
在模型的预测流程中,包括如下阶段:
第零阶段:构建目标账号的seed集合,seed集合中包括目标账号的历史阅览内容的标识;
可选地,在训练过程中,当候选内容为历史阅览内容中的内容时,则将候选内容作为正例训练数据对模型进行训练,也即目标账号对候选内容感兴趣的概率值为1;当候选内容不是历史阅览内容中的内容时,则将候选内容作为负例训练数据对模型进行训练,也即目标账号对候选内容感兴趣的概率值为0。
第一阶段:获取目标账号的第一次波纹(ripple)形式表达。
可选地,构建目标账号相关的第一次偏好传播的波纹形式表达,以初始seed集合在知识图谱中向外进行扩展,可选地,在扩展时,为了避免波纹过大,通常设定有最大扩展长度进行截断。可选地,知识图谱为有向图。
可选地,通过embedding层,计算候选内容与第一层波纹上的采样点(h,r)的归一化相似度,根据归一化相似度,对第一层波纹的采样点的图谱三元组中的t进行加权求和,得到阶段输出结果。
第二阶段:重复第一阶段的过程,将第一层波纹的尾部作为第二层波纹的头部,通过第二层波纹与候选内容的相似度进行加权表示作为阶段输出结果。
第H阶段:重复上述第一阶段和第二阶段的过程,迭代进行H次。其中,H为正整数。
预测阶段:通过候选内容的embedding和上述H次的阶段输出结果累加进行内积,得到目标账号对应候选内容的阅览概率。
示意性的,请参考图8,其示出了本申请一个示例性实施例提供的模型框架示意图,将目标账号810和候选内容820输入模型,经过多个阶段的embedding后,输出得到目标账号810对候选内容820的阅览概率830。
步骤705,将阅览概率达到概率要求的候选内容确定为个性化推荐内容。
可选地,概率要求可以是预先设定的,也可以是根据候选内容的阅览概率进行排序后确定的,如:将阅览概率前20的候选内容确定为个性化推荐内容时,则第20个候选内容的阅览概率则为概率要求。
步骤706,获取与兴趣标签存在关联关系的关联标签。
可选地,获取兴趣标签的标签属性,并获取与兴趣标签对应相同标签属性的候选标签,从候选标签中确定关联标签。其中,标签属性用于指示兴趣标签所属的领域类型。
步骤707,以关联标签作为分析参数,预测得到目标账号对应的扩展推荐内容。
可选地,预测扩展推荐内容时,包括如下情况中的至少一种:
第一,构建机器学习模型,以目标账号的账号数据、关联标签对应的候选内容以及知识图谱作为机器学习模型的输入参数,并输出得到目标账号对应候选内容的兴趣概率;
第二,直接获取与关联标签对应的候选内容,并根据阅览量由高到低对候选内容进行排序,过滤目标账号已阅览过的内容,也即目标账号的历史阅览记录中所记录过的内容,将排序后前k个内容作为向目标账号推荐的扩展推荐内容,k为正整数。
值得注意的是,上述步骤703至步骤705,与步骤706至步骤707为两组并列的步骤,可以先执行步骤703至步骤705,也可以先执行步骤706至步骤707,还可以同时执行步骤703至步骤705和步骤706至步骤707。
步骤708,根据个性化推荐内容与扩展推荐内容,生成向目标账号推荐的目标内容。
可选地,将个性化推荐内容与扩展推荐内容混合随机排序后,生成向目标账号推荐的目标内容。其中,首先将确定的个性化推荐内容和扩展推荐内容以预设比例进行混合,如:个性化推荐内容和扩展推荐内容以20:1的比例进行混合后,向目标账号推荐混合后的目标内容。
综上所述,本实施例提供的内容推荐方法,根据目标账号的账号数据生成个性化推荐内容,并根据目标账号的兴趣标签获取关联标签,以关联标签为基础生成扩展推荐内容,从而将个性化推荐内容和扩展推荐内容结合向目标账号进行推荐,在确保内容推荐准确率的同时,提高了内容推荐的多样性,避免推荐内容趋向同质化,缩小了用户阅览的内容的视野。
本实施例提供的方法,通过建立模型,并以在知识图谱中的ripple表达对目标账号与候选内容之间的阅览概率进行预测,从而确定与目标账号对应的个性化推荐内容,提高了推荐准确率。
图9是本申请一个示例性实施例提供的内容分类装置的结构框图,如图9所示,该装置包括:
获取模块910,用于获取目标账号的账号数据,所述账号数据用于指示所述目标账号的内容阅览偏好,所述账号数据中包括所述目标账号对应的兴趣标签;
预测模块920,用于以所述账号数据作为分析参数,预测得到所述目标账号对应的个性化推荐内容,所述个性化推荐内容为与所述目标账号的所述内容阅览偏好对应的内容;
所述获取模块910,还用于获取与所述兴趣标签存在关联关系的关联标签;
所述预测模块920,还用于以所述关联标签作为分析参数,预测得到所述目标账号对应的扩展推荐内容;
生成模块930,用于根据所述个性化推荐内容与所述扩展推荐内容,生成向所述目标账号推荐的目标内容。
在一个可选的实施例中,所述获取模块910,具体用于获取所述兴趣标签的标签属性,所述标签属性用于指示所述兴趣标签所属的领域类型;
所述获取模块910,具体用于获取与所述兴趣标签对应相同的所述标签属性的候选标签;
所述获取模块910,具体用于从所述候选标签中确定所述关联标签。
在一个可选的实施例中,所述账号数据中还包括所述目标账号标注的回避标签,所述回避标签用于指示不符合所述目标账号的内容阅览偏好的标签;
如图10所示,所述装置,还包括:
过滤模块940,用于从所述候选标签中过滤并丢弃被标注为所述回避标签的标签。
在一个可选的实施例中,所述兴趣标签对应有n个标签属性,n为正整数;
所述获取模块910,具体用于获取对应所述n个标签属性的所述候选标签;
或,
所述获取模块910,具体用于获取对应的所述标签属性达到要求比例的所述候选标签,其中,所述要求比例用于指示对应的标签属性与所述n个标签属性的重合比例。
在一个可选的实施例中,所述预测模块920,具体用于以所述关联标签作为所述分析参数,预测得到所述目标账号对应的候选推荐内容;以所述候选推荐内容的阅览量对所述候选推荐内容进行排序,得到候选推荐内容序列;从所述候选推荐内容序列中确定所述阅览量最高的m个候选推荐内容作为所述扩展推荐内容,m为正整数。
在一个可选的实施例中,所述账号数据中还包括所述目标账号的历史阅览记录;
所述获取模块910,具体用于获取内容推荐库,所述内容推荐库中包括用于向所述目标账号推荐的内容;从所述内容推荐库中获取标注有所述兴趣标签的候选内容;
所述预测模块920,具体用于以所述历史阅览记录对所述候选内容的阅览概率进行预测,所述阅览概率用于指示所述目标账号对所述候选内容进行阅览的概率;将所述阅览概率达到概率要求的所述候选内容确定为所述个性化推荐内容。
在一个可选的实施例中,所述获取模块910,具体用于获取知识图谱,所述知识图谱中包括所述内容推荐库中的内容之间的网状关联关系;将所述历史阅览记录在所述知识图谱中以波纹形式表达;确定所述候选内容与所述波纹形式表达上采样点之间的归一化相似度;根据所述归一化相似度确定所述候选内容的所述阅览概率。
综上所述,本实施例提供的内容推荐装置,根据目标账号的账号数据生成个性化推荐内容,并根据目标账号的兴趣标签获取关联标签,以关联标签为基础生成扩展推荐内容,从而将个性化推荐内容和扩展推荐内容结合向目标账号进行推荐,在确保内容推荐准确率的同时,提高了内容推荐的多样性,避免推荐内容趋向同质化,缩小了用户阅览的内容的视野。
需要说明的是:上述实施例提供的内容推荐装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的内容推荐装置与内容推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲:
服务器1100包括中央处理单元(Central Processing Unit,CPU)1101、包括随机存取存储器(Random Access Memory,RAM)1102和只读存储器(Read Only Memory,ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1106。
大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1106及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,大容量存储设备1106可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。
根据本申请的各种实施例,服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的内容推荐方法。可选地,该计算机设备可以是终端,也可以是服务器。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的内容推荐方法。
本申请的实施例还提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行以实现上述各方法实施例提供的内容推荐方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。