CN111324733A - 内容推荐方法、装置、设备及存储介质 - Google Patents
内容推荐方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111324733A CN111324733A CN202010082582.8A CN202010082582A CN111324733A CN 111324733 A CN111324733 A CN 111324733A CN 202010082582 A CN202010082582 A CN 202010082582A CN 111324733 A CN111324733 A CN 111324733A
- Authority
- CN
- China
- Prior art keywords
- content
- label
- user
- preset
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012163 sequencing technique Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 13
- 230000003796 beauty Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000001568 sexual effect Effects 0.000 description 4
- 201000004569 Blindness Diseases 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种内容推荐方法、装置、设备及存储介质。该方法包括:采用标签图片识别模型确定内容中每个图片和/或每个视频的标签;根据每个内容中包括的图片和/或视频以及每个内容中的每个图片和/或每个视频的标签,按照预设规则确定每个内容的标签;根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容;将该偏好度以及第一内容输入内容排序模型中,按照第一内容在排序结果中的顺序向用户推荐该第一内容。该方法实现了根据内容的标签以及用户的使用偏好向用户进行精准的内容推荐,满足了不同用户的使用需求。
Description
技术领域
本发明涉及信息推荐技术,尤其涉及一种内容推荐方法、装置、设备及存储介质。
背景技术
随着互联网的飞速发展,用户可以从网络中获取大量的包括图片、视频和文本等的内容以进行阅读浏览,各种内容产品会按照一定的推荐策略在用户浏览时为用户进行内容推荐。
当前的推荐策略通常是按照内容的标签向用户进行内容推荐,而内容的标签通常是通过对内容中所包括的文本进行解析获得的,例如通过文本分类的方法确定内容标签。
然而,当内容中包括大量的图片和/或视频,而文本较少甚至不包括文本时,采用文本解析的方式得到的标签不能准确的表达内容的画风,即内容标签不够准确,导致推荐的内容不满足用户的喜好。
发明内容
本发明提供一种内容推荐方法、装置、设备及存储介质,以实现对用户进行精准的内容推荐,满足不同用户的使用需求。
第一方面,本发明提供一种内容推荐方法,每个所述内容包括至少一个图片和/或至少一个视频,所述方法包括:
采用标签识别模型确定所述内容中每个图片和/或每个视频的标签;
根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签;
根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,所述第一内容为具有所述预设标签的内容;所述第一数量与所述偏好度正相关;
将所述偏好度以及所述第一内容输入内容排序模型中,按照所述第一内容在排序结果中的顺序向用户推荐所述第一内容;所述第一内容在排序结果中的顺序号与所述偏好度负相关。
可选的,所述根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签,包括:
若第二内容包括的图片和/或视频中具有第一标签的图片和/或视频的数量大于或等于第一阈值,则将所述第一标签确定为所述第二内容的标签。
可选的,所述根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签,包括:
若第三内容包括的图片和/或视频中具有第二标签的图片和/或视频的占比大于或等于第二阈值,则将所述第二标签确定为所述第三内容的标签。
可选的,所述根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签,包括:
将第四内容中的预设图片或预设视频的第三标签确定为所述第四内容的标签。
可选的,所述根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容之前,所述方法还包括:
获取所述用户对预设标签的偏好度。
可选的,所述获取所述用户对预设标签的偏好度,包括:
根据所述用户对预设标签的第一点击率以及所述用户对所有标签的第二点击率确定所述用户对预设标签的偏好度。
可选的,所述根据所述用户对预设标签的点击率以及所述用户的标签点击率确定所述用户对预设标签的偏好度,包括:
获取预设时间段内曝光至所述用户的内容所包括的标签的第二数量、所述用户点击的内容所包括的标签的第三数量,以及,所述用户点击的内容所包括的预设标签的第四数量;
将所述第四数量除以所述第二数量得到所述第一点击率,将所述第三数量除以所述第二数量得到所述第二点击率;
将所述第一点击率减去所述第二点击率后再除以所述第二点击率,并对结果进行归一化处理,得到所述预设时间段内所述用户对所述预设标签的偏好度。
可选的,所述方法还包括:
获取多个预设时间段内所述用户对所述预设标签的偏好度;
将所述多个预设时间段内所述用户对所述预设标签的偏好度,按时间衰减进行加权处理,得到所述用户对所述预设标签的偏好度。
可选的,所述根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,包括:
根据内容的标签以及用户对预设标签的偏好度,在预设标签召回通道中召回第一数量的第一内容;所述第一数量在所述预设标签召回通道的召回数量预设范围内。
第二方面,本发明提供一种内容推荐装置,每个所述内容包括至少一个图片和/或至少一个视频,所述装置包括:
识别模块,用于采用标签识别模型确定所述内容中每个图片和/或每个视频的标签;
确定模块,用于根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签;
获取模块,用于根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,所述第一内容为具有所述预设标签的内容;所述第一数量与所述偏好度正相关;
推荐模块,用于将所述偏好度以及所述第一内容输入内容排序模型中,按照所述第一内容在排序结果中的顺序向用户推荐所述第一内容;所述第一内容在排序结果中的顺序号与所述偏好度负相关。
可选的,所述确定模块具体用于:
若第二内容包括的图片和/或视频中具有第一标签的图片和/或视频的数量大于或等于第一阈值,则将所述第一标签确定为所述第二内容的标签。
可选的,所述确定模块具体用于:
若第三内容包括的图片和/或视频中具有第二标签的图片和/或视频的占比大于或等于第二阈值,则将所述第二标签确定为所述第三内容的标签。
可选的,所述确定模块具体用于将第四内容中的预设图片或预设视频的第三标签确定为所述第四内容的标签。
可选的,所述获取模块还用于:
获取所述用户对预设标签的偏好度。
可选的,所述获取模块具体用于:
根据所述用户对预设标签的第一点击率以及所述用户对所有标签的第二点击率确定所述用户对预设标签的偏好度。
可选的,所述获取模块具体用于:
获取预设时间段内曝光至所述用户的内容所包括的标签的第二数量、所述用户点击的内容所包括的标签的第三数量,以及,所述用户点击的内容所包括的预设标签的第四数量;
将所述第四数量除以所述第二数量得到所述第一点击率,将所述第三数量除以所述第二数量得到所述第二点击率;
将所述第一点击率减去所述第二点击率后再除以所述第二点击率,并对结果进行归一化处理,得到所述预设时间段内所述用户对所述预设标签的偏好度。
可选的,所述获取模块还用于:
获取多个预设时间段内所述用户对所述预设标签的偏好度;
将所述多个预设时间段内所述用户对所述预设标签的偏好度,按时间衰减进行加权处理,得到所述用户对所述预设标签的偏好度。
可选的,所述获取模块用于:
根据内容的标签以及用户对预设标签的偏好度,在预设标签召回通道中召回第一数量的第一内容;所述第一数量在所述预设标签召回通道的召回数量预设范围内。
第三方面,本发明提供一种内容推荐设备,包括存储器和处理器;
所述存储器和所述处理器连接;
所述存储器用于存储计算机程序;
所述处理器用于在计算机程序执行时,实现如上述第一方面中任一项所述的内容推荐方法。
第四方面,本发明提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面中任一项所述的内容推荐方法。
本发明提供一种内容推荐方法、装置、设备及存储介质,该方法包括采用标签图片识别模型确定内容中每个图片和/或每个视频的标签;根据每个内容中包括的图片和/或视频以及每个内容中的每个图片和/或每个视频的标签,按照预设规则确定每个内容的标签,实现了一体化从图片和/或视频打标到内容打标,在内容领域大幅提升内容结构化能力,而不再受限于内容文本字数要求,同时也提高了内容标签的准确性。进一步的,根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,使得对于具有预设标签的第一内容,若用户的偏好度越高,则相应的推荐数量越多;并且通过将偏好度以及第一内容输入内容排序模型中,按照第一内容在排序结果中的顺序向用户推荐第一内容,使得用户偏好度越高,则相应的第一内容排序也越靠前,从而实现了根据用户的使用偏好向用户进行内容推荐和排序,避免了内容推荐的盲目性,满足了不同用户的使用需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种旅行类APP首页推荐内容示意图;
图2为本发明提供的一种内容推荐方法的流程示意图一;
图3为本发明提供的一种内容推荐方法的流程示意图二;
图4为本发明提供的一种内容召回与排序流程示意图;
图5为本发明提供的一种内容推荐装置的结构示意图;
图6为本发明提供的一种内容推荐设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
各种内容产品,例如提供旅行笔记、游记、新闻、帖子等内容的产品,通常会按照一定的推荐策略在用户浏览时为用户进行内容推荐。例如,一个旅行类手机软件(Application,APP)会在首页向用户推荐热门旅行目的地、周边旅行目的地的游记、旅行攻略等,如图1中所示的是一个旅行类APP在首页中显示的推荐内容,用户在终端设备上打开该APP时,该APP的内容服务器会根据预设规则将首页推荐推送至用户的终端设备。然而,当前的推荐策略中普遍存在的一个问题是向用户推荐的内容存在盲目性。例如,向用户推荐的内容中存在暴露、美女等典型画风的内容,部分用户喜欢浏览观看,也有相当一部分用户认为这些信息较为低俗,污染了整个内容。或者,用户偶然浏览了某一内容后,大量向用户推荐与该内容接近的内容,但用户实际已经不想再浏览相关内容。又或者,向所有用户均推荐当前热度排名较高的内容,缺乏针对性。
针对上述问题,目前存在的一种解决方式是通过人工打标的方式对内容添加标签,将容易引起用户反感的标签,例如低俗暴露等标签的内容加入黑名单,被加入黑名单的内容不能再推荐给用户。这种方式可以避免向用户推荐低俗内容,但是需要较高的人力成本且效率低下,并且这种一刀切的黑名单方式没有考虑到有这方面浏览需求的用户诉求,无法实现对用户进行精准推荐。
另一种解决方式是通过对内容中所包括的文本进行解析获得内容标签,例如通过文本分类的方法确定内容标签。然而,这种方式只适用于纯文本类型的内容,当内容中包括大量的图片和/或视频,而文本较少甚至不包括文本时,采用文本解析的方式得到的标签不能准确的表达内容的画风,即内容标签不够准确,从而导致推荐的内容不能满足用户的喜好。
为了满足不同用户的使用需求,实现对用户进行精准的内容推荐,本发明提供一种内容推荐方法,根据内容中包括的图片和/视频为内容添加标签,并根据内容的标签以及用户对不同标签的偏好度来为用户进行内容推荐,用户偏好度高的标签的内容多推荐且向用户推荐时排序靠前,用户偏好度低的标签的内容少推荐且向用户推荐时排序靠后,从而使得向每个用户推荐的内容都能满足该用户的偏好。以下结合具体实施例对本发明提供的方法进行示例说明。
图2为本发明提供的一种内容推荐方法的流程示意图一。该方法的执行主体为内容推荐装置,该装置可以通过软件和/或硬件的方式实现,例如该装置为提供内容服务的服务器。如图2所示,本实施例的方法包括:
S201、采用标签识别模型确定内容中每个图片和/或每个视频的标签。
本实施例中的标签识别模型可以为现有技术中的任意类型的识别模型,例如视觉几何群网络(Visual Geometry Group Network,VGG)-16模型。不同的标签采用不同的标签识别模型进行识别,例如采用标签识别模型1识别性感标签,采用标签识别模型1识别风景标签,采用标签识别模型3识别动物标签。内容的标签体系可以通过分析产品内容调性,结合用户调研、客服中心用户投诉等进行提炼,示例的,如风光大片、美女、帅哥、猎奇、暴露、低俗等,针对每个标签可以预先训练相应的标签识别模型。
在针对某个标签进行标签识别模型训练时,重点在于从内容中找到具有该标签的图片和/或视频作为训练集进行针对性训练,避免过度拟合,达到良好泛化效果。以下以训练用于识别具有性感标签的图片的标签识别模型为例进行说明。
在训练数据准备阶段采用人工打标的方式对性感类的内容进行打标,积累数千条具有性感标签的内容,导出这些内容的全部图片并从中筛选符合性感标签的图片,作为训练集的正样本,同时从其他类型标签中选择易混淆图片作为训练集的负样本。
若内容服务器中获取的内部训练集不够,也可先爬取外站符合该标签的图片,并利用这些图片预训练图片识别模型,之后采用该预训练的模型对内容服务器的内容图片进行筛选,获得初筛样本,之后人工再从初筛样本中筛选正式训练模型的训练集样本。
按照上述方法准备正负样本各1500-2000张后,使用VGG-16模型进行训练,并根据模型的识别情况补充正负样本强化泛化效果,并采用测试集评估识别准确率。
示例的,将测试集1中的图片输入性感标签的图片识别模型,若输出的图片权重分大于或等于预设识别阈值,例如0.85分,则表示图片足够准确且具备性感标签。
将测试集2的图片分别输入性感标签的图片识别模型,当输出的图片权重分大于或等于预设识别阈值0.85的数量占比大于或等于准确率阈值,例如90%,则表示模型准确率达到上线标准。
按照上述方法可以完成对每个标签的图片识别模型的训练,之后可以采用训练完成的模型识别内容中每个图片的标签,并存储在相应的图片库中,每个图片可以具有一个或多个标签,图片库中的每个图片可以具有如下图片信息中的一种或多种:图片标识、图片所属内容标识、分辨率、图片尺寸、是否封面、图片质量等级、图片标签1,图片标签2,…,图片标签n。其中,是否封面表示该图片是否为该图片所属内容的封面图片,例如对于一个旅行笔记类的内容,其中包括了大量的图片,在用户终端设备上显示该内容时封面仅显示其中的一张图片,该封面图片即该内容的图片中图片信息“是否封面”为“是”的图片。
S202、根据每个内容中包括的图片和/或视频以及每个内容中的每个图片和/或每个视频的标签,按照预设规则确定每个内容的标签。
每个内容中包括一张或多张图片,和/或一个或多个视频,以内容中包括多张图片为例,当内容中包括了多张图片时,这多张图片可能分别具有不同的标签,且每张图片可能具有多个标签,因此需要根据预设规则从不同图片的标签中确定出内容的标签。该预设规则可以通过预先对部分内容和其中包括的图片以及标签的数量进行总结提炼获得。
在一种可能的实现方式中,若第二内容包括的图片中具有第一标签的图片的数量大于或等于第一阈值,则将该第一标签确定为该第二内容的标签。
示例的,第二内容中包括10张图片,这10张图片中,6张图片具有性感和美女两个标签,2张图片具有风景和美女两个标签,2张图片具有风景标签。即,第二内容中具有美女标签的图片为8张,具有性感标签的图片为6张,具有风景标签的图片为4张。若第一阈值为7,则第二内容的标签为美女;若第一阈值为6,则第二内容的标签为美女和性感。
在另一种可能的实现方式中,若第三内容包括的图片中具有第二标签的图片的占比大于或等于第二阈值,则将该第二标签确定为该第三内容的标签。
示例的,第三内容中包括50张图片,这50张图片中,30张图片具有风景和建筑物两个标签,10张图片具有建筑物标签,5张图片具有城堡标签,5张图片具有风景和动物标签。即,第三内容中具有风景标签的图片为35张,具有建筑物标签的图片为40张,具有城堡标签的图片为5张,具有动物标签的图片为5张。若第二阈值为80%,则第三内容的标签为建筑物;若第二阈值为70%,则第二内容的标签为建筑物和风景。
在又一种可行的实现方式中,还可以将第四内容中的预设图片或预设视频的第三标签确定为该第四内容的标签。
示例的,将第四内容的封面图片或者轮播图片等的标签确定为第四内容的标签,或者若第四内容中除了包括图片还还包括一个视频,还可以将该视频的标签确定为第四内容的标签,采用这种方法可以快速为内容进行打标,提高了打标的效率。
S203、根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,第一内容为具有预设标签的内容。
其中,第一数量与用户对预设标签的偏好度正相关。
本实施例中的内容可以包括图片、文字、音频、视频中的一种或多种,例如旅行类内容通常包括图片、视频和文字中的一种或多种,本实施例对此不作限定。内容的标签指示了内容具有的特征或属性等,例如标签可以为风光大片、美女、帅哥、性感、猎奇、暴露、低俗等。
内容的标签可以是内容上传者将内容上传至内容服务器时手动添加的标签,也可以是内容服务器对内容进行分析后确定的标签。用户对预设标签的偏好度可以是用户自己设置的使用偏好,例如用户通过APP的个人设置中输入的关注关键字、关注的标签等,也可以是内容服务器对用户的浏览历史进行分析所确定的,例如用户浏览过的内容中有百分之八十的内容具有美女的标签,百分之十的内容具有建筑物的标签,则确定用户对美女这个标签的偏好度较高,对建筑物这个标签的偏好度较低。实际应用中可以设置规则采用具体数值表示该用户对标签的偏好度,例如确定该用户对美女标签的偏好度为0.8,对建筑物标签的偏好度为0.1。
内容服务器向用户推荐具有预设标签的第一内容时,推荐的数量,即第一数量,按照用户对预设标签的偏好度确定。偏好度越高,则第一数量越大;相反的,偏好度越低,则第一数量越小,这样就实现了用户喜欢的标签多推荐,用户不喜欢的标签少推荐或不推荐。
S204、将该偏好度以及第一内容输入内容排序模型中,按照第一内容在排序结果中的顺序向用户推荐该第一内容。
其中,第一内容在排序结果中的顺序号与偏好度负相关。
内容服务器向用户推荐内容时,会通过多种策略获取多种即将向用户推荐的内容,并将获取到的所有即将向用户推荐的内容通过内容排序模型进行排序。例如内容服务器获取到了当前最热门的20个内容、上述S201中具有预设标签的第一内容20个、用户上一次浏览记录相近的内容10个,内容服务器通过内容排序模型对上述所有内容进行排序。内容服务器向用户推荐内容时可以按照实际情况分批次推荐,例如,用户的终端设备的APP中每页可显示10条内容,则内容服务器首先向终端设备推送顺序1-10的内容,用户在终端设备上滑动继续浏览时,内容服务器继续向终端设备推送顺序11-20的内容,以此类推。
内容排序模型的输入除了上述内容外,还包括各种内容的排序特征,例如各种内容的排序权重等。本实施例中,用户对预设标签的偏好度作为第一内容相关的排序特征输入内容排序模型中,用户对预设标签的偏好度越高,则第一内容在排序结果中的顺序号越小,即排序越靠前;相反的,用户对预设标签的偏好度越低,则第一内容在排序结果中的顺序号越大,即排序越靠后,实现了向用户推荐内容时按照用户的偏好度排序的前端效果。
本实施例提供的内容推荐方法,结合内容的场景提炼标签体系,通过训练标签识别模型对内容中的图片和/或视频打标签,再进一步根据可灵活配置的规则,根据图片和/或视频标签完成内容打标,提高了打标效率,一体化实现从图片和/或视频打标到内容打标,在内容领域大幅提升内容结构化能力,不再受限于内容文本字数要求,同时也提高了内容标签的准确性。进一步的,根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,使得对于具有预设标签的第一内容,若用户的偏好度越高,则相应的推荐数量越多;并且通过将偏好度以及第一内容输入内容排序模型中,按照第一内容在排序结果中的顺序向用户推荐第一内容,使得用户偏好度越高,则相应的第一内容排序也越靠前,从而实现了根据用户的使用偏好向用户进行内容推荐和排序,避免了内容推荐的盲目性,满足了不同用户的使用需求。
在上述实施例中根据内容的标签以及用户对预设标签的偏好度进行内容推荐和排序,而推荐的内容是否真正满足用户的需求,还与所获取的用户对预设标签的偏好度是否准确相关。图3为本发明提供的一种内容推荐方法的流程示意图二。如图3所示,该方法包括:
S301、获取用户对预设标签的偏好度。
用户对预设标签的偏好度可以根据用户的历史浏览记录确定。示例的,根据用户对预设标签的第一点击率以及该用户对所有标签的第二点击率确定用户对预设标签的偏好度。
可选的,第一点击率、第二点击率以及偏好率可以按照以下方法进行计算:
获取预设时间段内曝光至该用户的内容所包括的标签的第二数量、该用户点击的内容所包括的标签的第三数量,以及,该用户点击的内容所包括的预设标签的第四数量;将该第四数量除以该第二数量得到第一点击率,将该第三数量除以该第二数量得到第二点击率;将该第一点击率减去该第二点击率后再除以该第二点击率,并对结果进行归一化处理,得到该预设时间段内该用户对该预设标签的偏好度。
预设时间段内曝光至该用户的内容即在该预设时间段内内容服务器向用户的终端设备推送的所有内容,示例的,预设时间段内曝光至该用户的内容为90条,其中所包括的标签的数量为100。用户点击浏览了该90条内容中的40条,这40条内容中包括的标签的数量为45,其中,预设标签风景标签的数量为30。即第二数量为100、第三数量为45,第四数量为30,则第一点击率为0.3,第二点击率为0.45。将第一点击率减去该第二点击率后再除以该第二点击率,并对结果进行归一化处理,假设归一化处理结果为0.55,则表示用户对风景标签的偏好度为0.55。
用户在浏览内容时,其偏好可能随着时间产生变化,若仅获取用户在一个预设时间段内对预设标签的偏好度,则该结果可能未必能有反映用户当前真实的浏览喜好。因此,为了提高用户对预设标签的偏好度的准确性,可以按照上述方法获取多个预设时间段内该用户对该预设标签的偏好度;将该多个预设时间段内该用户对该预设标签的偏好度,按时间衰减进行加权处理,得到该用户对该预设标签的偏好度。
示例的,可以采用时间衰减函数对多个预设时间段内该用户对该预设标签的偏好度进行加权处理,例如可以采用linear函数、exp函数或gauss函数等对多个预设时间段内的偏好度进行加权处理,本实施例中对于时间衰减函数的选择不做具体限定。可选的,还可以自定义多个预设时间段的权重。例如,获取三个预设时间段内用户对该预设标签的偏好度,其中,时间段1为最接近当前时间的时间段,权重为0.6,对应的偏好度1为0.5;间段3为距离当前时间最远的时间段,权重为0.1,对应的偏好度3为0.8;时间段2为在时间段1和时间段3之间的时间段,权重为0.3,对应的偏好度2为0.3。则用户对该预设标签的偏好度为0.6*0.5+0.1*0.8+0.3*0.3=0.47。
本步骤中计算用户对预设标签的偏好度的方法中采用用户对预设标签的第一点击率减去用户对所有标签的第二点击率,能更好的凸显用户的偏好强弱,此外,选择多个时间点按照权重加权的方式能连续的追踪用户一段时间内的画风偏好,根据时间远近起到衰减效果,使得所计算的偏好度更符合用户的实际情况。
S302、根据内容的标签以及用户对预设标签的偏好度,在预设标签召回通道中召回第一数量的第一内容。
其中,第一数量在该预设标签召回通道的召回数量预设范围内,第一内容为具有预设标签的内容,第一数量与用户对预设标签的偏好度正相关。
内容服务器获取向用户推荐的内容时可以在内容召回层采用一个或多个召回通道进行内容召回,不同的召回通道按照不同的规则召回内容。参照图4,示例的,召回通道1用于按照内容的访问热度召回,召回通道2用于按照用户行为进行召回,预设标签召回通道用于召回具有预设标签的第一内容,且在除预设标签召回通道之外的其他召回通道中过滤具有预设标签的内容,即在其他召回通道中不召回具有预设标签的内容,从而保证了召回预设标签的第一内容的数量可控。预设标签召回通道的召回数量预设范围可以根据实际需要进行设置。假设预设范围下限为X,上限为Y,当用户对预设标签的偏好度为0时,第一数量为X,当用户对预设标签的偏好度为1时,第一数量为Y。
S303、将该偏好度以及第一内容输入内容排序模型中,按照第一内容在排序结果中的顺序向用户推荐该第一内容。
其中,第一内容在排序结果中的顺序号与偏好度负相关。
继续参照图4,预设标签召回通道召回的第一内容与其他召回通道召回的内容均进入内容排序模型中进行排序,内容服务器将排序后的内容推送至用户终端设备中的APP中,以供用户浏览。用户对预设标签的偏好度越高,则第一内容在排序结果中的顺序号越小,即排序越靠前;相反的,用户对预设标签的偏好度越低,则第一内容在排序结果中的顺序号越大,即排序越靠后。
本实施例提供的内容推荐方法,结合用户画像,根据用户浏览行为确定用户浏览偏好度,通过召回通道嗅探并调整召回排序,使得用户偏好的内容排序靠前,实现对用户进行精准的个性化推荐,满足不同用户的使用需求。
可以理解的是,本申请上述实施例所示例的内容推荐方法除了用于进行内容推荐外,上述各实施例中按照用户偏好度进行召回内容以及排序的方法也可以应用于搜索引擎的搜索结果召回和排序中。
图5为本发明提供的一种内容推荐装置的结构示意图。如图5所示,内容推荐装置50包括:
识别模块501,用于采用标签识别模型确定内容中每个图片和/或每个视频的标签;
确定模块502,用于根据每个内容中包括的图片和/或视频以及每个内容中的每个图片和/或每个视频的标签,按照预设规则确定每个内容的标签;
获取模块503,用于根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,该第一内容为具有该预设标签的内容;该第一数量与该偏好度正相关;
推荐模块504,用于将该偏好度以及该第一内容输入内容排序模型中,按照该第一内容在排序结果中的顺序向用户推荐该第一内容;该第一内容在排序结果中的顺序与该偏好度正相关。
可选的,该确定模块502具体用于:
若第二内容包括的图片和/或视频中具有第一标签的图片和/或视频的数量大于或等于第一阈值,则将该第一标签确定为该第二内容的标签。
可选的,该确定模块502具体用于:
若第三内容包括的图片和/或视频中具有第二标签的图片和/或视频的占比大于或等于第二阈值,则将该第二标签确定为该第三内容的标签。
可选的,该确定模块502具体用于:
将第四内容中的预设图片或预设视频的第三标签确定为该第四内容的标签。
可选的,该获取模块503还用于:
获取该用户对预设标签的偏好度。
可选的,该获取模块503具体用于:
根据该用户对预设标签的第一点击率以及该用户对所有标签的第二点击率确定该用户对预设标签的偏好度。
可选的,该获取模块503具体用于:
获取预设时间段内曝光至该用户的内容所包括的标签的第二数量、该用户点击的内容所包括的标签的第三数量,以及,该用户点击的内容所包括的预设标签的第四数量;
将该第四数量除以该第二数量得到该第一点击率,将该第三数量除以该第二数量得到该第二点击率;
将该第一点击率减去该第二点击率后再除以该第二点击率,并对结果进行归一化处理,得到该预设时间段内该用户对该预设标签的偏好度。
可选的,该获取模块503还用于:
获取多个预设时间段内该用户对该预设标签的偏好度;
将该多个预设时间段内该用户对该预设标签的偏好度,按时间衰减进行加权处理,得到该用户对该预设标签的偏好度。
可选的,该获取模块503用于:
根据内容的标签以及用户对预设标签的偏好度,在预设标签召回通道中召回第一数量的第一内容;该第一数量在该预设标签召回通道的召回数量预设范围内。
本实施例的装置,可以用于执行图2或图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明提供的一种内容推荐设备的结构示意图。如图6所示,内容推荐设备60包括存储器601和处理器602;
其中,存储器601可以是独立的物理单元,与处理器602通过总线603连接。存储器601和处理器602也可以继承在一起,通过硬件实现等。
存储器601用于存储计算机程序;处理器602用于在计算机程序执行时,实现如上述任一实施例中的内容推荐方法。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上述任一实施例中的内容推荐方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (12)
1.一种内容推荐方法,其特征在于,每个所述内容包括至少一个图片和/或至少一个视频,所述方法包括:
采用标签识别模型确定所述内容中每个图片和/或每个视频的标签;
根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签;
根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,所述第一内容为具有所述预设标签的内容;所述第一数量与所述偏好度正相关;
将所述偏好度以及所述第一内容输入内容排序模型中,按照所述第一内容在排序结果中的顺序向用户推荐所述第一内容;所述第一内容在排序结果中的顺序号与所述偏好度负相关。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签,包括:
若第二内容包括的图片和/或视频中具有第一标签的图片和/或视频的数量大于或等于第一阈值,则将所述第一标签确定为所述第二内容的标签。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签,包括:
若第三内容包括的图片和/或视频中具有第二标签的图片和/或视频的占比大于或等于第二阈值,则将所述第二标签确定为所述第三内容的标签。
4.根据权利要求1所述的方法,其特征在于,所述根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签,包括:
将第四内容中的预设图片或预设视频的第三标签确定为所述第四内容的标签。
5.根据权利要求1所述的方法,其特征在于,所述根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容之前,所述方法还包括:
获取所述用户对预设标签的偏好度。
6.根据权利要求5所述的方法,其特征在于,所述获取所述用户对预设标签的偏好度,包括:
根据所述用户对预设标签的第一点击率以及所述用户对所有标签的第二点击率确定所述用户对预设标签的偏好度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述用户对预设标签的点击率以及所述用户的标签点击率确定所述用户对预设标签的偏好度,包括:
获取预设时间段内曝光至所述用户的内容所包括的标签的第二数量、所述用户点击的内容所包括的标签的第三数量,以及,所述用户点击的内容所包括的预设标签的第四数量;
将所述第四数量除以所述第二数量得到所述第一点击率,将所述第三数量除以所述第二数量得到所述第二点击率;
将所述第一点击率减去所述第二点击率后再除以所述第二点击率,并对结果进行归一化处理,得到所述预设时间段内所述用户对所述预设标签的偏好度。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取多个预设时间段内所述用户对所述预设标签的偏好度;
将所述多个预设时间段内所述用户对所述预设标签的偏好度,按时间衰减进行加权处理,得到所述用户对所述预设标签的偏好度。
9.根据权利要求1所述的方法,其特征在于,所述根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,包括:
根据内容的标签以及用户对预设标签的偏好度,在预设标签召回通道中召回第一数量的第一内容;所述第一数量在所述预设标签召回通道的召回数量预设范围内。
10.一种内容推荐装置,其特征在于,每个所述内容包括至少一个图片和/或至少一个视频,所述装置包括:
识别模块,用于采用标签识别模型确定所述内容中每个图片和/或每个视频的标签;
确定模块,用于根据每个所述内容中包括的图片和/或视频以及每个所述内容中的每个图片和/或每个视频的标签,按照预设规则确定每个所述内容的标签;
获取模块,用于根据内容的标签以及用户对预设标签的偏好度,获取第一数量的第一内容,所述第一内容为具有所述预设标签的内容;所述第一数量与所述偏好度正相关;
推荐模块,用于将所述偏好度以及所述第一内容输入内容排序模型中,按照所述第一内容在排序结果中的顺序向用户推荐所述第一内容;所述第一内容在排序结果中的顺序号与所述偏好度负相关。
11.一种内容推荐设备,其特征在于,包括存储器和处理器;所述存储器和所述处理器连接;
所述存储器用于存储计算机程序;
所述处理器用于在所述计算机程序执行时,实现如上述权利要求1-9中任一项所述的内容推荐方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上述权利要求1-9中任一项所述的内容推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082582.8A CN111324733A (zh) | 2020-02-07 | 2020-02-07 | 内容推荐方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082582.8A CN111324733A (zh) | 2020-02-07 | 2020-02-07 | 内容推荐方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111324733A true CN111324733A (zh) | 2020-06-23 |
Family
ID=71165158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082582.8A Pending CN111324733A (zh) | 2020-02-07 | 2020-02-07 | 内容推荐方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324733A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114071237A (zh) * | 2021-11-23 | 2022-02-18 | 四川长虹电器股份有限公司 | 一种基于用户画像的智能电视个性化专题推荐方法 |
CN115168637A (zh) * | 2022-06-17 | 2022-10-11 | 杭州晶彩数字科技有限公司 | 一种图片添加标签方法、系统及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590224A (zh) * | 2017-09-04 | 2018-01-16 | 北京京东尚科信息技术有限公司 | 基于大数据的用户偏好分析方法与装置 |
CN108694217A (zh) * | 2017-04-12 | 2018-10-23 | 合信息技术(北京)有限公司 | 视频的标签确定方法及装置 |
CN109033180A (zh) * | 2018-06-26 | 2018-12-18 | 深圳市爱的网络科技有限公司 | 一种信息推送方法、装置、计算机装置及计算机可读存储介质 |
CN109587568A (zh) * | 2018-11-01 | 2019-04-05 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、计算机可读存储介质 |
CN110309353A (zh) * | 2018-02-06 | 2019-10-08 | 上海全土豆文化传播有限公司 | 视频索引方法及装置 |
CN110418200A (zh) * | 2018-04-27 | 2019-11-05 | Tcl集团股份有限公司 | 一种视频推荐方法、装置及终端设备 |
CN110445817A (zh) * | 2018-05-02 | 2019-11-12 | 孙毅 | 有利于批量推送新闻的方法 |
CN110457581A (zh) * | 2019-08-02 | 2019-11-15 | 达而观信息科技(上海)有限公司 | 一种资讯推荐方法、装置、电子设备及存储介质 |
CN110737783A (zh) * | 2019-10-08 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110753247A (zh) * | 2019-10-18 | 2020-02-04 | 重庆空间视创科技有限公司 | 一种信息推送策略生成系统及方法 |
-
2020
- 2020-02-07 CN CN202010082582.8A patent/CN111324733A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694217A (zh) * | 2017-04-12 | 2018-10-23 | 合信息技术(北京)有限公司 | 视频的标签确定方法及装置 |
CN107590224A (zh) * | 2017-09-04 | 2018-01-16 | 北京京东尚科信息技术有限公司 | 基于大数据的用户偏好分析方法与装置 |
CN110309353A (zh) * | 2018-02-06 | 2019-10-08 | 上海全土豆文化传播有限公司 | 视频索引方法及装置 |
CN110418200A (zh) * | 2018-04-27 | 2019-11-05 | Tcl集团股份有限公司 | 一种视频推荐方法、装置及终端设备 |
CN110445817A (zh) * | 2018-05-02 | 2019-11-12 | 孙毅 | 有利于批量推送新闻的方法 |
CN109033180A (zh) * | 2018-06-26 | 2018-12-18 | 深圳市爱的网络科技有限公司 | 一种信息推送方法、装置、计算机装置及计算机可读存储介质 |
CN109587568A (zh) * | 2018-11-01 | 2019-04-05 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、计算机可读存储介质 |
CN110457581A (zh) * | 2019-08-02 | 2019-11-15 | 达而观信息科技(上海)有限公司 | 一种资讯推荐方法、装置、电子设备及存储介质 |
CN110737783A (zh) * | 2019-10-08 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110753247A (zh) * | 2019-10-18 | 2020-02-04 | 重庆空间视创科技有限公司 | 一种信息推送策略生成系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114071237A (zh) * | 2021-11-23 | 2022-02-18 | 四川长虹电器股份有限公司 | 一种基于用户画像的智能电视个性化专题推荐方法 |
CN115168637A (zh) * | 2022-06-17 | 2022-10-11 | 杭州晶彩数字科技有限公司 | 一种图片添加标签方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321422B (zh) | 在线训练模型的方法、推送方法、装置以及设备 | |
CN106326391B (zh) | 多媒体资源推荐方法及装置 | |
CN107832437B (zh) | 音/视频推送方法、装置、设备及存储介质 | |
CN111178970B (zh) | 广告投放的方法及装置、电子设备和计算机可读存储介质 | |
CN110929052A (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN111767429B (zh) | 一种视频推荐方法、装置及电子设备 | |
CN110489639A (zh) | 一种内容推荐方法及装置 | |
CN106878405B (zh) | 一种调整推送项目的方法及装置 | |
US20170169040A1 (en) | Method and electronic device for recommending video | |
CN111125528B (zh) | 信息推荐方法及装置 | |
CN110543598A (zh) | 信息推荐方法、装置及终端 | |
CN113382301A (zh) | 视频的处理方法、存储介质和处理器 | |
CN111258484A (zh) | 一种视频播放方法、装置、电子设备及存储介质 | |
CN107103028A (zh) | 一种信息处理方法及装置 | |
CN114218482A (zh) | 信息推送方法及装置 | |
CN112445970A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111581435B (zh) | 一种视频封面图像生成方法、装置、电子设备及存储介质 | |
CN111324733A (zh) | 内容推荐方法、装置、设备及存储介质 | |
CN117407598A (zh) | 直播推荐方法及系统 | |
CN106980666B (zh) | 一种推荐视频的方法和装置 | |
CN113626638A (zh) | 短视频推荐处理方法、装置、智能终端及存储介质 | |
CN114707502A (zh) | 虚拟空间处理方法、装置、电子设备及计算机存储介质 | |
CN117436956A (zh) | 基于广告推送的智能营销管理系统 | |
CN108960958B (zh) | 物品推荐方法和装置 | |
CN115374348A (zh) | 一种信息推荐方法、信息推荐装置和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200623 |
|
RJ01 | Rejection of invention patent application after publication |