CN112231563A - 一种内容推荐方法、装置及存储介质 - Google Patents
一种内容推荐方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112231563A CN112231563A CN202011100957.5A CN202011100957A CN112231563A CN 112231563 A CN112231563 A CN 112231563A CN 202011100957 A CN202011100957 A CN 202011100957A CN 112231563 A CN112231563 A CN 112231563A
- Authority
- CN
- China
- Prior art keywords
- content
- target
- user
- interest point
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种内容推荐方法、装置及存储介质;获取目标用户针对目标内容的目标互动内容;确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,所述已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点,其中,兴趣库中已知兴趣点的确定可以基于人工智能领域中的自然语言处理技术实现;基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点,其中,可以将目标兴趣点存储到云服务器中,以便后续进行兴趣点读取;根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户;向所述待推荐用户对应的终端推荐所述目标内容。本方案可以提高内容推荐的准确率。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种内容推荐方法、装置及存储介质。
背景技术
随着信息技术的飞速发展,可以基于挖掘到的用户针对浏览内容感兴趣的兴趣点,来进行内容的推荐,在实际生活中可以利用云服务器来辅助挖掘内容的兴趣点。
在对相关技术的研究和实践过程中,本申请的发明人发现目前对内容进行的兴趣点挖掘是通过人工标记的方式,但是由于每个人对内容的理解不同,人工标记时很难标记足够的兴趣点,内容推荐的准确率较差。
发明内容
本申请实施例提供一种内容推荐方法、装置及存储介质,可以提高内容推荐的准确率。
本申请实施例提供了一种内容推荐方法,包括:
获取目标用户针对目标内容的目标互动内容;
确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,所述已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;
基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点;
根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户;
向所述待推荐用户对应的终端推荐所述目标内容。
相应的,本申请实施例提供了一种内容推荐装置,包括:
获取单元,用于获取目标用户针对目标内容的目标互动内容;
第一相似度确定单元,用于确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,所述已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;
兴趣点确定单元,用于基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点;
用户确定单元,用于根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户;
推荐单元,用于向所述待推荐用户对应的终端推荐所述目标内容。
在一实施例中,所述第一相似度确定单元,包括:
第一获取子单元,用于获取所述目标内容对应的内容标签,所述内容标签表征所述目标内容的语义;
第一融合子单元,用于对所述目标互动内容与所述内容标签进行融合,得到所述目标内容的内容关联信息,所述内容关联信息表征所述目标内容与所述目标互动内容的内容关联程度;
第一计算子单元,用于计算所述内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,第一融合子单元还用于提取所述目标内容的目标互动内容与所述内容标签对应的词向量,得到目标互动内容词向量与内容标签词向量;对所述目标互动内容词向量与所述内容标签词向量进行融合,得到内容关联词向量,所述内容关联词向量表征所述目标内容的内容关联信息。
在一实施例中,第一融合子单元还用于采用所述相似度计算模型,对所述目标互动内容与所述内容标签进行融合,得到所述目标内容的内容关联信息。
在一实施例中,第一计算子单元还用于计算所述内容关联词向量与兴趣点数据库中已知兴趣点对应的兴趣点词向量之间的向量相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,第一计算子单元还用于采用所述相似度计算模型,计算所述内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,所述兴趣点确定单元,包括:
兴趣点确定子单元,用于若所述目标相似度在预设相似度范围内,则从所述兴趣点数据库中,确定所述目标相似度对应的兴趣点,为所述目标用户针对所述目标内容的目标兴趣点。
在一实施例中,所述用户确定单元,包括:
提取子单元,用于基于历史上候选用户与所述历史内容的互动,从所述候选用户对应的用户画像中提取用户兴趣点标签;
匹配子单元,用于将所述目标兴趣点与所述用户兴趣点标签进行匹配;
用户确定子单元,用于当所述目标兴趣点与所述用户兴趣点标签相匹配时,从所述候选用户中确定待推荐用户。
在一实施例中,内容推荐装置,还包括:
提取单元,用于提取历史互动内容对应的互动内容主题,所述历史互动内容为历史用户针对历史内容的互动内容;
聚类单元,用于对所述互动内容主题与所述历史内容对应的预设互动内容主题进行聚类分析,得到所述历史用户针对所述历史内容的兴趣点,将所述兴趣点存储到兴趣点数据库中;
第二相似度确定单元,用于确定所述历史互动内容与所述兴趣点的内容相似度;
调整单元,用于基于所述内容相似度,对原始相似度计算模型进行参数调整,得到所述相似度计算模型。
在一实施例中,所述第二相似度确定单元,包括:
第二获取子单元,用于获取所述历史内容的历史内容标签,所述历史内容标签表征所述历史内容的语义;
第二融合子单元,用于将所述历史内容标签与所述历史互动内容进行融合,得到所述历史内容的历史内容关联信息,所述历史内容关联信息表征所述历史内容与所述历史互动内容的内容关联程度;
第二计算子单元,用于计算所述内容关联信息与所述兴趣点的相似度,得到所述历史互动内容与所述兴趣点的内容相似度。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的内容推荐方法中的步骤。
相应的,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的内容推荐方法中的步骤。
本申请实施例可以获取目标用户针对目标内容的目标互动内容;确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,所述已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点;根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户;向所述待推荐用户对应的终端推荐所述目标内容。本方案通过用户针对内容产生的互动内容,挖掘内容的兴趣点,可以丰富对内容的内容理解,在基于挖掘出的兴趣点向待推荐用户对应的终端进行内容推荐时,可以提高内容推荐的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的内容推荐方法的场景示意图;
图2a是本申请实施例提供的内容推荐方法的流程图;
图2b是本申请实施例提供的内容推荐方法的系统流程图;
图2c是本申请实施例提供的内容推荐方法的相似度计算模型示意图;
图3是本申请实施例提供的内容推荐方法的另一流程图;
图4a是本申请实施例提供的内容推荐方法的装置图;
图4b是本申请实施例提供的内容推荐方法的另一装置图;
图4c是本申请实施例提供的内容推荐方法的另一装置图;
图4d是本申请实施例提供的内容推荐方法的另一装置图;
图4e是本申请实施例提供的内容推荐方法的另一装置图;
图5是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种内容推荐方法、装置、计算机设备及存储介质。具体地,本申请实施例提供适用于计算机设备的内容推荐装置。其中,该计算机设备可以为终端或服务器等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
参考图1,以计算机设备为云服务器为例,该云服务器可以获取目标用户针对目标内容的目标互动内容;确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点;根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户;向待推荐用户对应的终端推荐目标内容。
其中,目标内容的目标互动内容可以基于云平台技术进行获取,而云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。本实施例中的云平台可以理解为基于上述云服务器构成的平台,该平台可以为用户提供各种需要的服务,例如为用户提供公司网站构建和运营服务等等,用户可以在该云平台上购买云服务器资源,例如存储资源和计算资源等等,用户可以基于购买的资源和云服务器提供的各种组件,完成各种任务。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费,本实施例中,目标账户的历史操作,可以是利用云服务器中分布式的服务器实现的,可以理解的是,目标账户的不同历史操作,可以是通过云服务器中的不同实体服务器实现,本实施例对此没有限制。
其中,兴趣点数据库中已知兴趣点的确定可以基于人工智能领域中的自然语言处理技术实现,比如,可以提取历史互动内容对应的互动内容主题,然后,可以通过自然语言处理技术对互动内容主题与历史内容对应的预设互动内容主题进行聚类分析,得到历史用户针对历史内容的兴趣点,最后,将兴趣点存储到兴趣点数据库中,得到兴趣点数据库中已知兴趣点。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模型、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳效果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,集有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括自然语言处理、机器学习/深度学习等方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
由以上可知,本申请实施例可以通过用户针对内容产生的互动内容,挖掘内容的兴趣点,可以丰富对内容的内容理解,在基于挖掘出的兴趣点向待推荐用户对应的终端进行内容推荐时,可以提高内容推荐的准确率。
本实施例可以以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种内容推荐方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以内容推荐方法由服务器执行为例来进行说明,具体的,由集成在服务器中的内容推荐装置来执行。如图2a所示,该内容推荐方法的具体流程可以如下:
201、获取目标用户针对目标内容的目标互动内容。
其中,目标内容的表现形式可以为视频、图像、文本、图文等,目标内容可以包括各种内容创作机构,比如,自媒体和机构的PGC(Professional Generated Content,专业生产内容的机构或者组织)、UGC(User Generated Content,用户原创内容)内容。
其中,目标互动内容为目标用户与目标内容进行交互产生的内容,比如,目标用户在浏览目标内容时,对目标内容进行的评论、点赞等交互,这些评论、点赞等就是目标用户针对目标内容的目标互动内容。
在一实施例中,目标互动内容可以从评论内容数据库中获取得到,如图2b所示,在兴趣点挖掘系统中,评论内容数据库可以保存用户发布的目标互动内容等,比如,保存用户发布的原始评论内容和发布的时间及发布者相关信息。评论内容数据库还可以为相似度计算模型,比如兴趣点挖掘模型提供目标互动内容,还可以给兴趣点挖掘模型提供训练的原始样本数据服务。
202、确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点。
其中,兴趣点数据库可以用于存储已知兴趣点,比如,可以获取历史用户针对历史内容的历史互动内容,然后挖掘出历史互动内容的兴趣点,可以把挖掘到的兴趣点存储到兴趣点数据库中。
在一实施例中,步骤“确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度”,可以包括:
获取目标内容对应的内容标签,内容标签表征目标内容的语义;
对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息,内容关联信息表征目标内容与目标互动内容的内容关联程度;
计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
其中,内容标签可以为人工事先设置好的,也可以是通过其他方式设置的,可以通过内容标签来代表目标内容,比如,内容标签可以表征目标内容的语义。
其中,对目标互动内容与内容标签进行融合,可以使目标互动内容与内容标签语义关联更强,后续进行相似度计算的时候更加准确,比如,对目标互动内容与内容标签融合后,目标互动内容与内容标签的语义关联更强,再向量化的空间会更接近,更容易处理。
在一实施例中,具体步骤“对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息”,可以包括:
提取目标内容的目标互动内容与内容标签对应的词向量,得到目标互动内容词向量与内容标签词向量;
对目标互动内容词向量与内容标签词向量进行融合,得到内容关联词向量,内容关联词向量表征目标内容的内容关联信息。
在一示例中,如图2c所示,在相似度计算模型中,可以将内容标签对应的词向量与目标互动内容对应的词向量输入全连接层(FC)进行融合,可以输出内容关联词向量。
在一实施例中,步骤“计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度”,可以包括:
计算内容关联词向量与兴趣点数据库中已知兴趣点对应的兴趣点词向量之间的向量相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
在一示例中,如图2c所示,在相似度计算模型中,可以将兴趣点数据库中已知兴趣点对应的兴趣点词向量输入全连接层后,再与内容关联词向量进行相似度计算,比如,通过余弦相似度,即通过计算两个向量的夹角余弦值来评估他们的相似度。
在一实施例中,步骤“对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息”,可以包括:
采用相似度计算模型,对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息;
在一实施例中,步骤“计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度”,可以包括:
采用相似度计算模型,计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,内容推荐方法还可以包括:
提取历史互动内容对应的互动内容主题,历史互动内容为历史用户针对历史内容的互动内容;
对互动内容主题与历史内容对应的预设互动内容主题进行聚类分析,得到历史用户针对历史内容的兴趣点,将兴趣点存储到兴趣点数据库中;
确定历史互动内容与兴趣点的内容相似度;
基于内容相似度,对原始相似度计算模型进行参数调整,得到相似度计算模型。
在一实施例中,基于历史互动内容与兴趣点的相似度,调整得到的相似度计算模型,在对新生成的互动内容进行新的兴趣点的预测的时候,可以用来辅助召回已知的兴趣点,从而完成兴趣点的挖掘补充。
在一实施例中,步骤“确定历史互动内容与兴趣点的内容相似度”,可以包括:
获取历史内容的历史内容标签,历史内容标签表征历史内容的语义;
将历史内容标签与历史互动内容进行融合,得到历史内容的历史内容关联信息,历史内容关联信息表征历史内容与历史互动内容的内容关联程度;
计算内容关联信息与兴趣点的相似度,得到历史互动内容与兴趣点的内容相似度。
在一实施例中,以目标互动内容与历史互动内容分别为用户针对目标内容、以及历史内容产生的评论为例进行说明,兴趣点的来源可以通过评论的大规模聚类和人工筛选,选择以后,构建评论和兴趣点的相似度计算模型,比如,匹配双塔模型,然后对于新生成的内容评论,进行新的兴趣点的预测,其中核心的部分就是兴趣点样本构建,包括2个主要途径:
(1)从互动内容数据库读取评论,然后通过先验知识引入正则模板处理评论,抽取评论关键词比如代表用户消费内容视角的关键词,比如,身材不错,沙雕就是多等,有强烈情感倾向的评论。
(2)无监督方法,无监督模型主要用了LDA(Latent Dirichlet Allocation,文档主题生成模型)聚类,它的特点是成本比较低,无需标注的数据。但是准确性会比较不可控,同时对挖掘出来的标签还需要进行人工的筛选。
其中,兴趣点选择的标准和方法可以为:通过评论氛围来挖掘,比如恶搞视频;通过pattern来挖掘名场面。其中,Pattern是java.util.regex(一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包)中的一个类,一个Pattern是一个正则表达式经编译后的表现模式。这里对应双塔模型中的用户tower(塔),评论是用户角度内容的表达,代表用户对内容的理解,兴趣点标签就是总结出来的,下表为列举的一些评论样本:
可以理解的是,可以通过多条评论得到和映射到兴趣点标签,还可以根据单条评论得到和映射到兴趣点标签。
其中,兴趣点的匹配,如图2c所示,本申请可以通过相似度计算模型,比如,双塔模型来建模,对于user tower(用户塔)将用户发表评论内容对应的内容标签和内容标签与对应的评论信息,统一编码到左端,目标候选兴趣点item tower(项目塔)信息编码到右端,利用深度语义匹配来训练网络。
可选的,所有评论数据在使用之前,可以进行预处理过滤,主要是去掉评论当中的噪声,评论噪音可以包括:
(1)重复单字无意义,比如,“哈哈哈哈哈哈”等;
(2)重复拼音,比如,“红红火火恍恍惚惚”等;
(3)重复人名,比如,“小明小明小明小明”等;
(4)不通顺评论,比如,“三大几乎是大街上的骄傲快速建立”等,可以通过单独的不通顺模型识别;
(5)全表情评论;
(6)长度较短评论,比如,3个字及以内的评论;
(7)低俗,谩骂,灌水等低质量评论,有单独模型可以识别过滤掉。
在一示例中,以双塔模型为例,双塔模型的训练过程可以包括:训练时使用平台的内容对应的评论(可以是单句评论,也可以是多句评论)和内容Tag(标签)构造训练数据,目标平台的内容tag和对应兴趣点的处理后的评论放在左端,即将目标平台的内容tag和对应兴趣点的处理后的评论输入user tower,右端采用的是候选兴趣点的BERT(BidirectionalEncoder Representation from Transformers,语言表征模型)向量,即将候选兴趣点的BERT输入item tower。
203、基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点。
其中,目标兴趣点可以作为目标内容新增的兴趣点,从而完成目标内容兴趣点的挖掘补充。
在一实施例中,步骤“基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点”,可以包括:
若目标相似度在预设相似度范围内,则从兴趣点数据库中,确定目标相似度对应的兴趣点,为目标用户针对目标内容的目标兴趣点。
在一实施例中,以目标互动内容与历史互动内容分别为用户针对目标内容、以及历史内容产生的评论为例进行说明,对于新生成的内容评论进行新的兴趣点的预测,其中,预测过程可以包括:预测时先将平台的兴趣点embedding(一种将离散变量转变为连续向量的方式)部署到KNN(临近算法)服务中(兴趣点可以是一个短文本,编码方式可以是BERT模型来进行向量化),然后对于需要补充兴趣点的利用对应内容的Tag(标签)和用户的评论,用左端前馈网络生成内容表示也就是这里的doc vectors(Word Vector,词向量)向量,然后去KNN服务中召回最相关的平台兴趣点,从而完成兴趣点的挖掘补充。
其中,K最近邻(KNN,K-Nearest Neighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,即每个样本都可以用它最接近的k个邻近的值来代表。KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。这里用来召回最接近的N个已知兴趣点,具体可以依据业务策略选择N为1或者2。
204、根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户。
其中,用户画像是一个用以描述候选用户需求的工具,比如,可以根据用户人口学特征、网络浏览内容、网络社交活动和消费行为等信息抽象出的一个标签化的用户模型。
在一实施例中,步骤“根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户”,可以包括:
基于历史上候选用户与历史内容的互动,从候选用户对应的用户画像中提取用户兴趣点标签;
将目标兴趣点与用户兴趣点标签进行匹配;
当目标兴趣点与用户兴趣点标签相匹配时,从候选用户中确定待推荐用户。
在一实施例中,推荐引擎基于用户的画像特征,通过推荐算法比如协同推荐,矩阵分解,监督学习算法Logistic Regression(逻辑回归)模型,基于深度学习的模型,Factorization Machine(因子分解机)和GBDT(Gradient Boosting Decision Tree,梯度提升决策树)等,推荐出来的内容,用户会点击和消费,通过用户与内容的行为交互来抽取用户的兴趣画像,画像沉淀在这些内容对应的标签上。
可以理解的是,用户兴趣点包括短期兴趣和长期兴趣,通过用户与内容交互(点击,分享,转发,收藏,评论)的行为日志来挖掘的,兴趣点沉淀载体来源内容理解的标签。
205、向待推荐用户对应的终端推荐目标内容。
其中,待推荐用户是通过将用户兴趣点画像与目标兴趣点进行匹配确定的,目标内容推荐的准确率可以得到提高。
在一实施例中,可以通过预设接口将终端上的目标内容、以及目标用户针对目标内容的目标互动内容上报到互动内容数据库中,然后可以从互动内容数据库中下载目标内容、以及目标互动内容,比如,以目标互动内容与历史互动内容分别为用户针对目标内容、以及历史内容产生的评论为例进行说明,如图2c所示,在兴趣点挖掘系统中,利用用户与内容交互的评论数据,发现用户与内容的交互当中会对内容中提及的内容看点发表评论,可以通过机器模型来识别评论中提及的兴趣点来增加内容维度的深度理解。例如“军训趣闻”,“交通事故”,“美女运动员”等。挖掘评论中用户表达的兴趣点,补充内容的关键用户看点标签信息。
其中,在如图2c的兴趣点挖掘系统中,各个服务模块的主要功能如下:
(一)内容生产和消费端
(1)PUC或者UGC,MCN(Multi-Channel Network,一种多频道网络的产品形态)或者PUGC(Professional User Generated Content,专业用户生产内容)的内容生产者,通过移动端或者后端接口API系统,提供本地或者拍摄的图文内容,视频或者图集内容,这些都是分发内容的主要内容来源。
(2)通过和上下行内容接口服务的通讯,先获取上传服务器接口地址,然后在上传本地文件,拍摄过程当中本地图文内容可以选择搭配的音乐,滤镜模板和图文的美化功能等等。
(3)作为消费者,和上下行内容接口服务器通讯,获取访问图文或者视频文件的索引信息,然后下载对应的流媒体文件并且通过本地播放器来播放观看。
(4)同时将上传和下载过程当中用户播放的行为数据,卡顿,加载时间,播放点击等上报给服务器。
(5)消费端消费内容的互动信息,重点是对内容的评论UGC短文本,点赞,转发,收藏等互动信息通过UGC互动及统计上报接口上报。
(二)上下行内容接口服务器
(1)和内容生产端直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,或者是拍摄的图文直接通过该服务器进入服务端,把文件存入内容数据库。
(2)将图文内容的元信息,比如图文文件大小,封面图链接,码率,文件格式,标题,发布时间,作者等信息写入内容数据库。
(3)将上传的文件提交给调度中心服务器,进行后续的内容处理和流转。
(三)内容数据库
(1)图文内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是图文内容本身的元信息频文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息)。
(2)上下行内容接口服务在收到视频文件的时候对内容进行标准的转码操作,转码完成后异步返回元信息主要是文件大小,码率,规格,截取封面图这些信息都会保存在内容数据库当中。
(3)人工审核过程当中会会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库,来更新内容数据库当中内容的元信息。
(4)调度中心对内容处理主要包括机器处理和人工审核处理,这里机器处理核心就是调用排重服务包括完全重复和相似的内容,排重的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理。
(四)调度中心
(1)负责图文内容流转的整个调度过程,通过上下行内容接口服务器接收入库的图文内容,然后从内数据库中获取图文的元信息。
(2)调度人工审核系统和机器处理系统,控制调度的顺序和优先级。
(3)对于图文内容,先和图文排重服务服务通讯,后者对不同码率,不同清晰度,不同尺寸,部分黑屏,有无滤镜,有无logo和在相似图文内容当中插入部分广告内容和片头片尾的裁剪都可以进行处理,有效建设进入人工审核过程当中需要处理的内容。
(4)调度进入人工审核系统需要进行人工审核的图文内容,过滤掉重复的内容。
(5)最后通过人工审核系统的内容启用通过内容出口分发服务通常是推荐引擎或者搜索引擎或者运营直接的展示页面提供给终端的内容消费者。
(五)人工审核系统
(1)需要读取内容数据库中图文内容本身的原始信息,通常是一个业务复杂的基于web数据库开发的系统,通过人工来对图文内容是否涉及色情,赌博,政治敏感的特性进行一轮初步过滤。
(2)在初步审核的基础之上,对内容进行二次审核,主要是对内容进行分类和标签的标注或者确认,由于图文内容本身完全通过机器学习比如深度学习还不完全成熟,所以需要通过在机器处理的机器上进行二次的人工审核处理,通过人机协作,提升图文本身标注的准确性和效率。
(3)接收调度中心同步的审核任务同时也接收POP复核队列服务同步统计监控到内容及兴趣点挖掘服务挖掘到的兴趣点;对同步监控的低质内容复核后,满足下架条件的直接下架,然后通过调用重复相似内容召回服务将线上启用的相似内容也直接下架。
(六)排重服务
(1)提供图文,视频和图集的排重服务,主要是对图文和图集及视频进行向量化,然后建立向量的索引,然后通过比较向量之间的距离来确定相似程度。
(2)对于图文内容通常将图文通过BERT向量化,所有排重任务之前,先对标题短文本进行排重。
(七)UGC评论及统计上报接口服务
(1)和内容消费端通讯,接收上报上来的内容评论UGC短文本,点赞,转发,收藏等互动信息,并且写入互动内容数据库。
(2)下载完成的文件调用抽帧服务从图文源文件当中获取必要的图文文件关键帧,作为后续构造图文指纹和音频指纹来服务。
(八)评论内容数据库
(1)按照上面提到的算法和策略,保存用户发布的原始评论内容和发布时间及发布者相关信息。
(2)给兴趣点挖掘模型提供训练的原始样本数据服务。
(九)统计监控服务
(1)按照上面的统计监控描述,针对消费端上报的互动信息和分发的统计进行监控分析,主要是C测表现异常的统计信息。包括内容对应的评论快速增长,pv(Page View,浏览量)/vv(Video View,播放数)增速过快,转发次数增长过快,评论点赞增长很快等。统计监控到满足条件后调用送审接口推送到POP复核队列。
(十)人工复核服务
(1)接收统计监控服务监控到的内容,然后将复核的内容推送到人工审核系统。
(2)接收兴趣点挖掘服务挖掘到的结果,然后将兴趣点推送到人工审核系统。
(十一)兴趣点挖掘服务
(1)将上面描述的兴趣点挖掘模型服务化,接收UGC互动及统计上报接口同步的评论信息,然后通过兴趣点挖掘服务来补充视频内容的兴趣点。
(2)对于匹配挖掘的兴趣服务,可以增加一个环节(不是必须的)给人工复核,人工复核通过的作为样本继续输入到模型当中训练。当模型挖掘解决的准确率达到一定阀值之后,可以去掉这个环节。
(十二)兴趣点挖掘模型
(2)读取互动内容数据库当中的样本数据,按照上面描述的算法构建响应的兴趣点挖掘模型。
(2)模型通常会定期更新重建,重建的周期可以自定义,通常按照天为单位。
通过本申请,可以得到更多对内容的兴趣点描述,在视频分类和标签信息之外,能够更多深层级语义理解兴趣点;对内容的理解能够从先验审核编辑的视角切换到用户视角,利用用户评论数据作为基础,更细粒度加深对各内容的理解;补充和丰富人工事先难以明确和定义的兴趣点,助力各内容的推荐分发;同时丰富推荐体系兴趣点,帮助和引导内容创作者提供更多创作的灵感。
由以上可知,本申请实施例可以通过用户针对内容产生的互动内容,挖掘内容的兴趣点,可以丰富对内容的内容理解,在基于挖掘出的兴趣点向待推荐用户对应的终端进行内容推荐时,可以提高内容推荐的准确率。
根据上述介绍的内容,下面将举例来进一步说明本申请的内容推荐方法。参考图3,一种内容推荐方法,具体流程可以如下:
301、服务器提取历史互动内容对应的互动内容主题,历史互动内容为历史用户针对历史内容的互动内容。
在一示例中,以历史互动内容为“军训的时候有两床被子,一床是用来给人看的,一床是用来睡的,睡完放柜子里”为例,可以提取其主题,然后对得到的主题进行聚类分析,得到历史用户针对历史内容的兴趣点。
302、服务器对互动内容主题与历史内容对应的预设互动内容主题进行聚类分析,得到历史用户针对历史内容的兴趣点,将兴趣点存储到兴趣点数据库中,其中,兴趣点表征历史用户针对历史内容感兴趣的内容特征点。
在一示例中,互动内容主题可以包括从历史互动内容中抽取的,还可以包括预设的,对这些主题进行聚类分析后,可以得到历史内容的兴趣点,然后可以抽取一些兴趣点对应互动内容模板,然后通过互动模板抽取和兴趣点对应的单条互动内容或者多条互动内容作为样本,再通过互动内容与兴趣点的语义匹配映射来构造机器学习模型,比如,双塔模型。
在一示例中,目标互动内容与历史互动内容可以分别为用户针对目标内容、以及历史内容产生的评论,其中,可以通过pattern抽取一些兴趣对应评论内容模板,其中,互动内容模板可以理解为一种范式规律,是产品或者业务总结,比如美女运动员这种主题,可以设定一种模板比如漂亮身材好的运动员,如果评论当中出现这样的评论就是命中了这种模板,或者军训被子这样也是一种模板,通过这种模板可以抽取出军训趣闻的样本。
在一实施例中,互动内容是动态产生的,动态产生的互动内容作为输入来驱动预测产生补充新的兴趣点,比如以上面美女运动员为例,评论当中出现了对画面人物身材和外表讨论就可以关联预测美女运动员的标签,这个过程就是语义匹配。
303、服务器确定历史互动内容与兴趣点的内容相似度。
在一实施例中,可以对历史互动内容与兴趣点进行向量化,得到历史互动内容对应的词向量与兴趣点对应的词向量,然后通过计算两词向量之间的夹角余弦值来评估他们的相似度,进而可以确定历史互动内容与兴趣点的内容相似度。
304、服务器基于内容相似度,对原始相似度计算模型进行参数调整,得到相似度计算模型。
在一实施例中,对原始相似度计算模型进行参数调整,得到的相似度计算模型可以用来对某个内容具体新输入的互动内容,比如,评论等互动内容,进行预测来获取对应的新的兴趣点,作为该内容的兴趣点的补充。
305、服务器获取目标用户针对目标内容的目标互动内容。
在一实施例中,可以对目标互动内容进行向量化,得到目标内容词向量,再获取目标内容的内容标签,提取内容标签对应的内容标签词向量,对目标内容词向量与内容标签词向量进行融合,之后再与兴趣点数据库中已知兴趣点进行相似度计算,可以得到目标相似度,以基于目标相似度确定目标互动内容对应的兴趣点。
306、服务器采用相似度计算模型,计算目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,可以获取目标内容的内容标签,然后采用相似度计算模型对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息,然后再采用相似度计算模型,计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
307、服务器基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点。
在一实施例中,可以计算目标互动内容与兴趣点数据库中多个已知兴趣点之间的相似度,得到多个目标相似度,之后确定相似度在预设相似度范围内的目标相似度,最后选择该目标相似度对应的已知兴趣点,作为目标用户针对目标内容的目标兴趣点。
308、服务器根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户。
在一实施例中,推荐引擎可以基于用户的画像特征,通过推荐算法对内容进行推荐,具体可以基于历史上候选用户与历史内容的互动,从候选用户对应的用户画像中提取用户兴趣点标签,然后将目标兴趣点与用户兴趣点标签进行匹配,当目标兴趣点与用户兴趣点标签相匹配时,可以从候选用户中确定待推荐用户。
309、服务器向待推荐用户对应的终端推荐目标内容。
在一实施例中,可以通过终端上传各创作者的创作的内容,比如,文章、视频等,在视频上传的流程中,视频会经过重转码,将视频文件进行规范化,保存视频的元信息,提升视频在各个平台播放兼容性,然后视频会进行人工审核,人工审核的同时机器也会通过算法对内容进行一些辅助特征的获取比如分类,标签等等,然后在机器算法处理的基础上进行人工标准化标注,对视频填充相关的信息,例如视频的标签,类别,明星信息,这就是内容的标准化启用,启用后构建一个内容池给到推荐引擎,最后推荐引擎基于用户的画像特征,通过推荐算法进行内容推荐。
由以上可知,本申请实施例可以通过用户针对内容产生的互动内容,挖掘内容的兴趣点,可以丰富对内容的内容理解,在基于挖掘出的兴趣点向待推荐用户对应的终端进行内容推荐时,可以提高内容推荐的准确率。
为了更好地实施以上方法,相应的,本申请实施例还提供一种内容推荐装置,其中,该内容推荐装置具体可以集成在服务器中,参考图4a,该内容推荐装置可以包括获取单元401、第一相似度确定单元402、兴趣点确定单元403、用户确定单元404和推荐单元405,如下:
(1)获取单元401;
获取单元401,用于获取目标用户针对目标内容的目标互动内容。
(2)第一相似度确定单元402;
第一相似度确定单元402,用于确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点。
在一实施例中,如图4b所示,第一相似度确定单元402,包括:
第一获取子单元4021,用于获取目标内容对应的内容标签,内容标签表征目标内容的语义;
第一融合子单元4022,用于对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息,内容关联信息表征目标内容与目标互动内容的内容关联程度;
第一计算子单元4023,用于计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,第一融合子单元4022还用于提取目标内容的目标互动内容与内容标签对应的词向量,得到目标互动内容词向量与内容标签词向量;对目标互动内容词向量与内容标签词向量进行融合,得到内容关联词向量,内容关联词向量表征目标内容的内容关联信息。
在一实施例中,第一融合子单元4022还用于采用相似度计算模型,对目标互动内容与内容标签进行融合,得到目标内容的内容关联信息。
在一实施例中,第一计算子单元4023还用于计算内容关联词向量与兴趣点数据库中已知兴趣点对应的兴趣点词向量之间的向量相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
在一实施例中,第一计算子单元4023还用于采用相似度计算模型,计算内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度。
(3)兴趣点确定单元403;
兴趣点确定单元403,用于基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点。
在一实施例中,如图4c所示,兴趣点确定单元403,包括:
兴趣点确定子单元4031,用于若目标相似度在预设相似度范围内,则从兴趣点数据库中,确定目标相似度对应的兴趣点,为目标用户针对目标内容的目标兴趣点。
(4)用户确定单元404;
用户确定单元404,用于根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户。
在一实施例中,如图4d所示,用户确定单元404,包括:
提取子单元4041,用于基于历史上候选用户与历史内容的互动,从候选用户对应的用户画像中提取用户兴趣点标签;
匹配子单元4042,用于将目标兴趣点与用户兴趣点标签进行匹配;
用户确定子单元4043,用于当目标兴趣点与用户兴趣点标签相匹配时,从候选用户中确定待推荐用户。
(5)推荐单元405;
推荐单元405,用于向待推荐用户对应的终端推荐目标内容。
在一实施例中,内容推荐装置,还包括:
提取单元406,用于提取历史互动内容对应的互动内容主题,历史互动内容为历史用户针对历史内容的互动内容;
聚类单元407,用于对互动内容主题与历史内容对应的预设互动内容主题进行聚类分析,得到历史用户针对历史内容的兴趣点,将兴趣点存储到兴趣点数据库中;
第二相似度确定单元408,用于确定历史互动内容与兴趣点的内容相似度;
调整单元409,用于基于内容相似度,对原始相似度计算模型进行参数调整,得到相似度计算模型。
在一实施例中,如图4e所示,第二相似度确定单元408,包括:
第二获取子单元4081,用于获取历史内容的历史内容标签,历史内容标签表征历史内容的语义;
第二融合子单元4082,用于将历史内容标签与历史互动内容进行融合,得到历史内容的历史内容关联信息,历史内容关联信息表征历史内容与历史互动内容的内容关联程度;
第二计算子单元4083,用于计算内容关联信息与兴趣点的相似度,得到历史互动内容与兴趣点的内容相似度。
由以上可知,本申请实施例的内容推荐装置的获取单元401获取目标用户针对目标内容的目标互动内容;然后,由第一相似度确定单元402确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;由兴趣点确定单元403基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点;由用户确定单元404根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户;由推荐单元405向待推荐用户对应的终端推荐目标内容。该方案可以通过用户针对内容产生的互动内容,挖掘内容的兴趣点,可以丰富对内容的内容理解,在基于挖掘出的兴趣点向待推荐用户对应的终端进行内容推荐时,可以提高内容推荐的准确率。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取目标用户针对目标内容的目标互动内容;确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点;根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户;向待推荐用户对应的终端推荐目标内容。
由以上可知,本申请实施例可以通过用户针对内容产生的互动内容,挖掘内容的兴趣点,可以丰富对内容的内容理解,在基于挖掘出的兴趣点向待推荐用户对应的终端进行内容推荐时,可以提高内容推荐的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种内容推荐方法中的步骤。例如,该指令可以执行如下步骤:
获取目标用户针对目标内容的目标互动内容;确定目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;基于目标相似度,从兴趣点数据库中确定目标用户针对目标内容的目标兴趣点;根据目标兴趣点和候选用户对应的用户画像,从候选用户中确定待推荐用户;向待推荐用户对应的终端推荐目标内容。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种内容推荐方法中的步骤,因此,可以实现本申请实施例所提供的任一种内容推荐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述发明内容和实施例中提供的内容推荐方法。
以上对本申请实施例所提供的一种内容推荐方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种内容推荐方法,其特征在于,包括:
获取目标用户针对目标内容的目标互动内容;
确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,所述已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;
基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点;
根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户;
向所述待推荐用户对应的终端推荐所述目标内容。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,包括:
获取所述目标内容对应的内容标签,所述内容标签表征所述目标内容的语义;
对所述目标互动内容与所述内容标签进行融合,得到所述目标内容的内容关联信息,所述内容关联信息表征所述目标内容与所述目标互动内容的内容关联程度;
计算所述内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标互动内容与所述内容标签进行融合,得到所述目标内容的内容关联信息,包括:
提取所述目标内容的目标互动内容与所述内容标签对应的词向量,得到目标互动内容词向量与内容标签词向量;
对所述目标互动内容词向量与所述内容标签词向量进行融合,得到内容关联词向量,所述内容关联词向量表征所述目标内容的内容关联信息;
所述计算所述内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度,包括:
计算所述内容关联词向量与兴趣点数据库中已知兴趣点对应的兴趣点词向量之间的向量相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度。
4.根据权利要求2所述的方法,其特征在于,所述对所述目标互动内容与所述内容标签进行融合,得到所述目标内容的内容关联信息,包括:
采用相似度计算模型,对所述目标互动内容与所述内容标签进行融合,得到所述目标内容的内容关联信息;
所述计算所述内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度,包括:
采用所述相似度计算模型,计算所述内容关联信息与兴趣点数据库中已知兴趣点的相似度,得到所述目标互动内容与所述兴趣点数据库中已知兴趣点之间的目标相似度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
提取历史互动内容对应的互动内容主题,所述历史互动内容为历史用户针对历史内容的互动内容;
对所述互动内容主题与所述历史内容对应的预设互动内容主题进行聚类分析,得到所述历史用户针对所述历史内容的兴趣点,将所述兴趣点存储到兴趣点数据库中;
确定所述历史互动内容与所述兴趣点的内容相似度;
基于所述内容相似度,对原始相似度计算模型进行参数调整,得到所述相似度计算模型。
6.根据权利要求5所述的方法,其特征在于,所述确定所述历史互动内容与所述兴趣点的内容相似度,包括:
获取所述历史内容的历史内容标签,所述历史内容标签表征所述历史内容的语义;
将所述历史内容标签与所述历史互动内容进行融合,得到所述历史内容的历史内容关联信息,所述历史内容关联信息表征所述历史内容与所述历史互动内容的内容关联程度;
计算所述内容关联信息与所述兴趣点的相似度,得到所述历史互动内容与所述兴趣点的内容相似度。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点,包括:
若所述目标相似度在预设相似度范围内,则从所述兴趣点数据库中,确定所述目标相似度对应的兴趣点,为所述目标用户针对所述目标内容的目标兴趣点。
8.根据权利要求1所述的方法,其特征在于,所述根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户,包括:
基于历史上候选用户与所述历史内容的互动,从所述候选用户对应的用户画像中提取用户兴趣点标签;
将所述目标兴趣点与所述用户兴趣点标签进行匹配;
当所述目标兴趣点与所述用户兴趣点标签相匹配时,从所述候选用户中确定待推荐用户。
9.一种内容推荐装置,其特征在于,包括:
获取单元,用于获取目标用户针对目标内容的目标互动内容;
第一相似度确定单元,用于确定所述目标互动内容与兴趣点数据库中已知兴趣点之间的目标相似度,其中,所述已知兴趣点表征历史用户针对历史内容感兴趣的内容特征点;
兴趣点确定单元,用于基于所述目标相似度,从所述兴趣点数据库中确定所述目标用户针对所述目标内容的目标兴趣点;
用户确定单元,用于根据所述目标兴趣点和候选用户对应的用户画像,从所述候选用户中确定待推荐用户;
推荐单元,用于向所述待推荐用户对应的终端推荐所述目标内容。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的内容推荐方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100957.5A CN112231563B (zh) | 2020-10-15 | 2020-10-15 | 一种内容推荐方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100957.5A CN112231563B (zh) | 2020-10-15 | 2020-10-15 | 一种内容推荐方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231563A true CN112231563A (zh) | 2021-01-15 |
CN112231563B CN112231563B (zh) | 2023-10-13 |
Family
ID=74113698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011100957.5A Active CN112231563B (zh) | 2020-10-15 | 2020-10-15 | 一种内容推荐方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231563B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220737A (zh) * | 2021-05-28 | 2021-08-06 | 平安科技(深圳)有限公司 | 一种数据推荐方法、装置、电子设备及存储介质 |
CN113626712A (zh) * | 2021-08-19 | 2021-11-09 | 云南腾云信息产业有限公司 | 一种基于用户互动行为的内容确定方法及装置 |
CN113886711A (zh) * | 2021-10-29 | 2022-01-04 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、服务器及存储介质 |
CN113987326A (zh) * | 2021-12-28 | 2022-01-28 | 北京达佳互联信息技术有限公司 | 资源推荐方法、装置、计算机设备及介质 |
CN114546199A (zh) * | 2022-02-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063383A (zh) * | 2013-03-19 | 2014-09-24 | 北京三星通信技术研究有限公司 | 信息推荐方法及装置 |
CN104281622A (zh) * | 2013-07-11 | 2015-01-14 | 华为技术有限公司 | 一种社交媒体中的信息推荐方法和装置 |
CN110020145A (zh) * | 2017-11-23 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
CN110110201A (zh) * | 2018-01-09 | 2019-08-09 | 苏州跃盟信息科技有限公司 | 一种内容推荐方法和系统 |
CN111144952A (zh) * | 2019-12-31 | 2020-05-12 | 随手(北京)信息技术有限公司 | 基于用户兴趣的广告推荐方法、装置、服务器及存储介质 |
CN111444428A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
-
2020
- 2020-10-15 CN CN202011100957.5A patent/CN112231563B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063383A (zh) * | 2013-03-19 | 2014-09-24 | 北京三星通信技术研究有限公司 | 信息推荐方法及装置 |
CN104281622A (zh) * | 2013-07-11 | 2015-01-14 | 华为技术有限公司 | 一种社交媒体中的信息推荐方法和装置 |
CN110020145A (zh) * | 2017-11-23 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
CN110110201A (zh) * | 2018-01-09 | 2019-08-09 | 苏州跃盟信息科技有限公司 | 一种内容推荐方法和系统 |
CN111144952A (zh) * | 2019-12-31 | 2020-05-12 | 随手(北京)信息技术有限公司 | 基于用户兴趣的广告推荐方法、装置、服务器及存储介质 |
CN111444428A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220737A (zh) * | 2021-05-28 | 2021-08-06 | 平安科技(深圳)有限公司 | 一种数据推荐方法、装置、电子设备及存储介质 |
CN113626712A (zh) * | 2021-08-19 | 2021-11-09 | 云南腾云信息产业有限公司 | 一种基于用户互动行为的内容确定方法及装置 |
CN113886711A (zh) * | 2021-10-29 | 2022-01-04 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、服务器及存储介质 |
CN113987326A (zh) * | 2021-12-28 | 2022-01-28 | 北京达佳互联信息技术有限公司 | 资源推荐方法、装置、计算机设备及介质 |
CN113987326B (zh) * | 2021-12-28 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 资源推荐方法、装置、计算机设备及介质 |
CN114546199A (zh) * | 2022-02-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN114546199B (zh) * | 2022-02-17 | 2023-09-26 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112231563B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112203122B (zh) | 基于人工智能的相似视频处理方法、装置及电子设备 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
US10341461B2 (en) | System and method for automatically recreating personal media through fusion of multimodal features | |
CN111507097B (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
WO2021190174A1 (zh) | 信息确定方法、装置、计算机设备及存储介质 | |
CN112131472B (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
Wang et al. | Discovering attractive segments in the user-generated video streams | |
CN116702737B (zh) | 文案生成方法、装置、设备、存储介质及产品 | |
EP3732592A1 (en) | Intelligent routing services and systems | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
CN113469152B (zh) | 相似视频检测方法及装置 | |
CN113590928A (zh) | 内容推荐方法、装置及计算机可读存储介质 | |
CN111723295A (zh) | 一种内容分发方法、装置和存储介质 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN113704506A (zh) | 一种媒体内容排重方法和相关装置 | |
CN111368141A (zh) | 视频标签的扩展方法、装置、计算机设备和存储介质 | |
CN114372414A (zh) | 多模态模型构建方法、装置和计算机设备 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN117011745A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN113392315A (zh) | 一种主题类型挖掘方法、装置、设备及存储介质 | |
CN112989167B (zh) | 搬运账号的识别方法、装置、设备及计算机可读存储介质 | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
CN116977992A (zh) | 文本信息识别方法、装置、计算机设备和存储介质 | |
CN113656560B (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |