CN108021708A - 内容推荐方法、装置与计算机可读存储介质 - Google Patents

内容推荐方法、装置与计算机可读存储介质 Download PDF

Info

Publication number
CN108021708A
CN108021708A CN201711458428.0A CN201711458428A CN108021708A CN 108021708 A CN108021708 A CN 108021708A CN 201711458428 A CN201711458428 A CN 201711458428A CN 108021708 A CN108021708 A CN 108021708A
Authority
CN
China
Prior art keywords
content
user
interest
degree
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711458428.0A
Other languages
English (en)
Other versions
CN108021708B (zh
Inventor
欧锦华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Priority to CN201711458428.0A priority Critical patent/CN108021708B/zh
Publication of CN108021708A publication Critical patent/CN108021708A/zh
Application granted granted Critical
Publication of CN108021708B publication Critical patent/CN108021708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种内容推荐方法、装置与计算机可读存储介质,通过对内容项提取标签,形成内容标签关联矩阵,实现内容项的特征化;通过收集用户的操作行为数据,并将这些操作行为数据转变成用户的标签,形成用户标签兴趣度矩阵,实现用户特征化;根据内容项的特征(容标签关联矩阵)与用户的特征(用户标签兴趣度矩阵),采用隐语义模型(LFM)得到用户内容兴趣度矩阵,并获取用户对所述推荐内容集中的各个内容项的兴趣度,在终端上向用户推荐其感兴趣的内容项,能够精准定位用户感兴趣的内容,提高内容推荐的效率和转化率。

Description

内容推荐方法、装置与计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种内容推荐方法、装置与计算机可读存储介质。
背景技术
随着互联网技术的发展,人们可以通过互联网进行越来越多的活动,例如获取新闻消息、收发邮件、在线上平台购物等等。为了提升为用户提供内容的效率,在用户通过互联网访问网络资源的时候,网站或平台可以向用户推荐用户可能感兴趣的内容。
现有的内容推荐方法通常会根据用户的历史浏览记录、搜索记录等网络行为数据来甄别用户可能感兴趣的内容类型,进而向用户推荐对应类型的内容。然而这种方法仅能够确定推荐的内容的类型,无法进一步判断该类型的内容中是否包含用户感兴趣的内容,用户需要在被推荐的该类型的内容中进一步进行筛选或浏览其他类型的内容。因此,现有的内容推荐方法无法精准定位用户感兴趣的内容,内容推荐的效率和转化率有待提升。
发明内容
本发明的目的是提出一种内容推荐方法、装置与计算机可读存储介质,能够精准定位用户感兴趣的内容,提高内容推荐的效率和转化率。
为了达到上述的目的,本发明实施例一方面提供了一种内容推荐方法,包括:
响应于获取到用户的操作行为,根据用户的操作行为获取用户标签兴趣度矩阵;所述用户标签兴趣度矩阵的矩阵值为用户对标签集中的各个标签的兴趣度;
将所述用户标签兴趣度矩阵与预先配置的内容标签权重矩阵输入到隐语义模型,得到用户内容兴趣度矩阵;所述内容标签权重矩阵的矩阵值为所述标签集中的各个标签在推荐内容集中的不同内容项中的权重;
根据所述用户内容兴趣度矩阵获取用户对所述推荐内容集中的各个内容项的兴趣度;
根据用户对所述推荐内容集中的各个内容项的兴趣度向用户推荐所述推荐内容集中的若干个内容项。
优选地,所述响应于获取到用户的操作行为,根据用户的操作行为获取用户标签兴趣度矩阵,包括:
响应于获取到用户的操作行为,根据用户的操作行为获取与用户的操作行为相关的行为关键词以及用户对每个行为关键词的兴趣度;
将所述行为关键词输入到预先配置的同类词模型,得到每个所述行为关键词的行为同类词及每个行为同类词的兴趣度模型值;
将每个行为同类词的兴趣度模型值乘以与所述行为同类词相对应的行为关键词的兴趣度,得到用户对每个行为同类词的兴趣度;
根据用户对每个所述行为关键词的兴趣度以及对每个所述行为同类词的兴趣度,更新用户对所述标签集中各个标签的兴趣度;
根据用户对标签集中的各个标签的兴趣度构建用户标签兴趣度矩阵。
优选地,所述根据用户对标签集中的各个标签的兴趣度构建用户标签兴趣度矩阵,包括:
将用户对所述标签集中各个标签的兴趣度与各个标签的兴趣度更新持续时长输入到时间梯度衰减模型,得到用户对所述标签集中各个标签的实际兴趣度;所述兴趣度更新持续时长为用户对所述标签的兴趣度更新的时间到当前时间的时间差;
对所述标签集中的所有标签根据所述实际兴趣度从大到小进行排序,将前N个标签作为用户行为标签并将所述标签集中的其他标签作为非用户行为标签,将所述非用户行为标签的实际兴趣度配置为0;
将所述用户行为标签的实际兴趣度和所述非用户行为标签的实际兴趣度作为矩阵值构建所述用户标签兴趣度矩阵。
优选地,所述方法还包括:
通过TFIDF算法获取所述推荐内容集中的每个内容项的内容关键词与每个所述内容关键词在对应的内容项中的权重;
对于同一内容项,将每个所述内容关键词输入到预先配置的同类词模型,得到每个所述内容关键词的内容同类词及每个所述内容同类词的权重模型值;
将同一内容项中的每个所述内容同类词的权重模型值乘以与所述内容同类词相对应的内容关键词在所述内容项中的权重,得到每个内容同类词在所述内容项中的权重;
根据所述推荐内容集中的每个内容项的内容关键词与内容同类词在所述内容项中的权重,确定所述标签集中的各个标签在所述推荐内容集中的不同内容项的权重;
将所述标签集中各个标签在所述推荐内容集中的不同内容项中的权重作为矩阵值构建内容标签权重矩阵。
优选地,所述将所述标签集中各个标签在所述推荐内容集中的不同内容项中的权重作为矩阵值构建内容标签权重矩阵,包括:
当所述标签集中的第i个标签在所述推荐内容集中的第j个内容项的权重大于0,将所述内容标签权重矩阵中相对应的矩阵值配置为1;
当所述标签集中的第i个标签在所述推荐内容集中的第j个内容项的权重等于0,将所述内容标签权重矩阵中相对应的矩阵值配置为0。
优选地,所述将所述用户标签兴趣度矩阵与预先配置的内容标签权重矩阵输入到隐语义模型,得到用户内容兴趣度矩阵,包括:
获取所述用户标签兴趣度矩阵中矩阵值大于0的标签,并将获取到的标签归入用户行为标签集;
根据所述内容标签权重矩阵获取与所述用户行为标签集存在交集的内容,并将确定到的内容归入有效内容集;
根据所述用户行为标签集的各个标签在所述用户标签兴趣度矩阵中的矩阵值,裁剪所述用户标签兴趣度矩阵;
根据所述用户行为标签集的各个标签在所述有效内容集的各个内容中的权重,裁剪所述内容标签权重矩阵;
将裁剪后的所述用户标签兴趣度矩阵乘以裁剪后的所述内容标签权重矩阵,得到所述用户内容兴趣度矩阵。
优选地,所述根据用户对所述推荐内容集中的各个内容项的兴趣度向用户推荐所述推荐内容集中的若干个内容项,包括:
将所述推荐内容集中用户的兴趣度大于0的内容项归入到第一推荐内容子集,将所述推荐内容集中用户的兴趣度等于0的内容项归入到第二推荐内容子集;
从所述第一推荐内容子集中选取兴趣度排名最前的N个内容项,从所述第二推荐内容子集中随机选取M个内容项,将所述N个内容项和所述M个内容项推荐给用户;其中,N大于M。
优选地,所述方法还包括:
将数据库中的各个内容项划分成N个内容集,并对所述N个内容集进行循环排列;
响应于获取到用户的操作行为,将用户上次的操作行为所对应的推荐内容集的下一个内容集作为本次操作行为所对应的推荐内容集。
本发明实施例第二方面提供一种内容推荐装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的内容推荐方法。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的内容推荐方法。
相比于现有技术,本发明实施例的有益效果在于:本发明实施例通过对内容项提取标签,形成内容标签关联矩阵,实现内容项的特征化;通过收集用户的操作行为数据,并将这些操作行为数据转变成用户的标签,形成用户标签兴趣度矩阵,实现用户特征化;根据内容项的特征(容标签关联矩阵)与用户的特征(用户标签兴趣度矩阵),采用隐语义模型(LFM)得到用户内容兴趣度矩阵,并获取用户对所述推荐内容集中的各个内容项的兴趣度,在终端上向用户推荐其感兴趣的内容项,能够精准定位用户感兴趣的内容,提高内容推荐的效率和转化率。
附图说明
图1是本发明实施例提供的一种内容推荐方法的流程示意图;
图2是用户内容兴趣度矩阵的矩阵计算图;
图3是步骤S1在一种可选的实施方式中的流程示意图;
图4是步骤S5在一种可选的实施方式中的流程示意图;
图5是经过归一化处理的矩阵计算图;
图6是经过矩阵裁剪的矩阵计算图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其是本发明实施例提供的一种内容推荐方法的流程示意图。所述方法包括:
S1,响应于获取到用户的操作行为,根据用户的操作行为获取用户标签兴趣度矩阵;所述用户标签兴趣度矩阵的矩阵值为用户对标签集中的各个标签的兴趣度;
S2,将所述用户标签兴趣度矩阵与预先配置的内容标签权重矩阵输入到隐语义模型,得到用户内容兴趣度矩阵;所述内容标签权重矩阵的矩阵值为所述标签集中的各个标签在推荐内容集中的不同内容项中的权重;
S3,根据所述用户内容兴趣度矩阵获取用户对所述推荐内容集中的各个内容项的兴趣度;
S4,根据用户对所述推荐内容集中的各个内容项的兴趣度向用户推荐所述推荐内容集中的若干个内容项。
其中,所述内容项可以是文章、广告、商品等任何可以被标签化的内容。
隐语义模型(latent factor model,LFM)的原理是对物品基于权重进行分类,并同时依据用户对每一类的兴趣来确定用户感兴趣的物品。
隐语义模型的具体计算方式是:R=PQ。
R矩阵是用户内容兴趣度矩阵,矩阵值表示的是用户对内容项的兴趣度,当计算出他对所有内容项的兴趣度后,就可以进行排序并作出推荐。将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是用户标签兴趣度矩阵,矩阵值表示的是用户对标签集中的各个标签的兴趣度;Q矩阵是内容标签权重矩阵,矩阵值表示的是所述标签集中的各个标签在推荐内容集中的不同内容项中的权重。所以LFM根据上述公式来计算用户对内容项的兴趣度,对兴趣度进行排序后,提取前N个内容项进行推荐。
如图2所示,其是用户内容兴趣度矩阵的矩阵计算图。其中,R11~R14为R矩阵的矩阵值,表示的是用户1对内容1~内容4的兴趣度;P11~P13为P矩阵的矩阵值,表示的是用户1对标签1~标签3的兴趣度;Q11~Q14、Q21~Q24、Q31~Q34均为Q矩阵的矩阵值,Q11~Q14表示标签1在内容1~内容4的权重,Q21~Q24表示标签2在内容1~内容4的权重,Q31~Q34表示标签3在内容1~内容4的权重。需要说的是,标签1~标签3表示的是标签集中的所有标签,这里为了简要说明而以3个标签表示;内容1~内容4表示的是推荐内容集中的所有内容项,这里为了简要说明而以4个内容项表示。
本发明实施例通过对内容项提取标签,形成内容标签关联矩阵,实现内容项的特征化;通过收集用户的操作行为数据,并将这些操作行为数据转变成用户的标签,形成用户标签兴趣度矩阵,实现用户特征化;根据内容项的特征(容标签关联矩阵)与用户的特征(用户标签兴趣度矩阵),采用隐语义模型(LFM)得到用户内容兴趣度矩阵,并获取用户对所述推荐内容集中的各个内容项的兴趣度,在终端上向用户推荐其感兴趣的内容项,能够精准定位用户感兴趣的内容,提高内容推荐的效率和转化率。
如图3所示,其是步骤S1在一种可选的实施方式中的流程示意图。所述步骤S1所述的响应于获取到用户的操作行为,根据用户的操作行为获取用户标签兴趣度矩阵,包括:
S11,响应于获取到用户的操作行为,根据用户的操作行为获取与用户的操作行为相关的行为关键词以及用户对每个行为关键词的兴趣度。
在前端系统捕捉用户的操作行为,这些操作行为能产生相应的行为关键词。例如,用户点击某个疾病,病友圈或某篇已经特征化的文章,即可至少得到一个关于该疾病的关键词。
S12,将所述行为关键词输入到预先配置的同类词模型,得到每个所述行为关键词的行为同类词及每个行为同类词的兴趣度模型值。
所述同类词模型可以是由word2vec算法训练得到的。word2vec是google的研究人员发布的一个工具包,利用神经网络为单词寻找一个连续向量空间中的表示。经过语料库的训练,可以得到同类词的相关模型,对该模型输入词汇,可以得到该词汇的同类词。
S13,将每个行为同类词的兴趣度模型值乘以与所述行为同类词相对应的行为关键词的兴趣度,得到用户对每个行为同类词的兴趣度;
S14,根据用户对每个所述行为关键词的兴趣度以及对每个所述行为同类词的兴趣度,更新用户对所述标签集中各个标签的兴趣度;
S15,根据用户对标签集中的各个标签的兴趣度构建用户标签兴趣度矩阵。
在本发明实施例中,所述行为关键词的兴趣度都设为1,表示同等重要,因为在单次用户行为产生的关键词中如果包含有多个关键词,并不知道用户本次行为对哪个关键词更感兴趣。
例如,用户的操作行为所产生的行为关键词是宝宝,通过Word2vec模型得到的行为同类词及其兴趣度模型值如下:
宝宝:[[小宝宝,0.89],[宝贝,0.88],[小宝贝,0.79],[孩子,0.78],[妈妈,0.72]]
经过步骤S13和步骤S14最终计算出的本次操作行为的标签(行为关键词与行为同类词)及其兴趣度是:
[[宝宝,1.0],[小宝宝,0.89],[宝贝,0.88],[小宝贝,0.79],[孩子,0.78],[妈妈,0.72]]
由于用户的操作行为并不是单次的,在本发明实施例中进一步考虑到用户的历史的操作行为会影响到用户对标签的兴趣度,当用户对某个标签的兴趣度发生变化时,将新的兴趣度覆盖原来的兴趣度,从而更新用户对所述标签集中各个标签的兴趣度。因此,所述标签集中的各个标签的兴趣度并不是仅由当前的操作行为产生的,但如果标签集中的一个标签不属于用户的任何一次操作行为的标签,则该标签的兴趣度为0。
如图4所示,其是步骤S5在一种可选的实施方式中的流程示意图。步骤S15所述根据用户对标签集中的各个标签的兴趣度构建用户标签兴趣度矩阵,包括:
S151,将用户对所述标签集中各个标签的兴趣度与各个标签的兴趣度更新持续时长输入到时间梯度衰减模型,得到用户对所述标签集中各个标签的实际兴趣度;所述兴趣度更新持续时长为用户对所述标签的兴趣度更新的时间到当前时间的时间差;
S152,对所述标签集中的所有标签根据所述实际兴趣度从大到小进行排序,将前N个标签作为用户行为标签并将所述标签集中的其他标签作为非用户行为标签,将所述非用户行为标签的实际兴趣度配置为0;
S153,将所述用户行为标签的实际兴趣度和所述非用户行为标签的实际兴趣度作为矩阵值构建所述用户标签兴趣度矩阵。
如步骤S14所述,用户的每次的操作行为会更新对标签集中的一些标签的兴趣度,因此标签集中的每个标签会有一个兴趣度更新持续时长。用户的操作行为在时间轴上分布,理论上最近的行为与兴趣的相关度越大,而很久以前的行为与兴趣的相关度越小,比较符合人的行为习惯。因此通过步骤S151对所述标签集中的每个标签的兴趣度进行时间衰减处理,得到每个标签的实际兴趣度,通过这种处理方式可以更准确地表现出用户对标签集的各个标签的兴趣度。
在一种可选的实施方式中,所述时间梯度衰减模型所采用的公式为:
其中,Dk表示用户对标签集中的第k个标签的兴趣度,Δt为第k个标签的兴趣度更新持续时长,Tk为第k个标签的实际兴趣度。
在一种可选的实施方式中,所述方法还包括:
通过TFIDF算法获取所述推荐内容集中的每个内容项的内容关键词与每个所述内容关键词在对应的内容项中的权重;
对于同一内容项,将每个所述内容关键词输入到预先配置的同类词模型,得到每个所述内容关键词的内容同类词及每个所述内容同类词的权重模型值;
将同一内容项中的每个所述内容同类词的权重模型值乘以与所述内容同类词相对应的内容关键词在所述内容项中的权重,得到每个内容同类词在所述内容项中的权重;
根据所述推荐内容集中的每个内容项的内容关键词与内容同类词在所述内容项中的权重,确定所述标签集中的各个标签在所述推荐内容集中的不同内容项的权重;
将所述标签集中各个标签在所述推荐内容集中的不同内容项中的权重作为矩阵值构建内容标签权重矩阵。
TFIDF算法:在词频的基础上,要对每个词分配一个"重要性"权重。一个词在文章中出现的频率叫"词频"(TF)。较常见的词给予较小的权重,较少见的词给予较大的权重。这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。知道了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。因此通过TFIDF算法可以获取所述推荐内容集中的每个内容项的内容关键词及在对应的内容项的权重。
例如,TFIDF算法得到同一内容项的3个内容关键词及其权重为:
[[空调,0.57],[宝宝,0.38],[补水,0.12]]
通过同类词模型得到的同类词如下:
空调:[[风扇,0.83],[电风扇,0.81],[冷气,0.81],[电扇,0.78],[暖气,0.76]]
宝宝:[[小宝宝,0.89],[宝贝,0.88],[小宝贝,0.79],[孩子,0.78],[妈妈,0.72]]
补水:[[保湿,0.86],[锁水,0.81],[控油,0.77],[补湿,0.75],[化妆水,0.74]]
最终计算出的内容项标签(内容关键词和内容同类词)及其权重是:
[[空调,0.57],[风扇,0.48],[电风扇,0.46],[冷气,0.46],[电扇,0.45],[暖气,0.44],[宝宝,0.38],[小宝宝,0.34],[宝贝,0.33],[小宝贝,0.3]]
通过上述方式可以获取推荐内容集中的各个内容项的内容关键词和内容同类词及权重,即可确定所述标签集中的各个标签在所述推荐内容集中的不同内容项的权重,从而构建内容标签权重矩阵。
在一种可选的实施方式中,所述将所述标签集中各个标签在所述推荐内容集中的不同内容项中的权重作为矩阵值构建内容标签权重矩阵,包括:
当所述标签集中的第i个标签在所述推荐内容集中的第j个内容项的权重大于0,将所述内容标签权重矩阵中相对应的矩阵值配置为1;
当所述标签集中的第i个标签在所述推荐内容集中的第j个内容项的权重等于0,将所述内容标签权重矩阵中相对应的矩阵值配置为0。
由于P矩阵值表示的是用户对标签的兴趣度,而我们是希望得到用户对内容项的兴趣度,起直接作用的是P矩阵,那么P矩阵是不能简化的。Q矩阵代表内容项主要由哪些标签构成,以及这些标签的具体权重值。对用户来说,只需要关心内容项包含有这些标签,而不必关心标签对内容项的意思表达有多大。
例如在内容特征化流程中的例子,最终计算出的内容项标签是
[[空调,0.57],[风扇,0.48],[电风扇,0.46],[冷气,0.46],[电扇,0.45],[暖气,0.44],[宝宝,0.38],[小宝宝,0.34],[宝贝,0.33],[小宝贝,0.3]],虽然空调权重值最大,小宝贝的权重值最小,但不代表用户感兴趣的标签不是小宝贝,重要的是这两个标签一起出现。因此Q矩阵的标签可以简化成一样重要,也就是全部大于0的内容标签的权重值都设为1。我们把该方法称为归一化处理。
基于以上的结论,填入具体的矩阵值,P和Q矩阵变成如下图5所示,图5为经过归一化处理的矩阵计算图。图5中的数据仅用于示例,用于表示归一化处理后,Q矩阵中的所有矩阵值均为0或1。
在一种可选的实施方式中,所述将所述用户标签兴趣度矩阵与预先配置的内容标签权重矩阵输入到隐语义模型,得到用户内容兴趣度矩阵,包括:
获取所述用户标签兴趣度矩阵中矩阵值大于0的标签,并将获取到的标签归入用户行为标签集;
根据所述内容标签权重矩阵获取与所述用户行为标签集存在交集的内容,并将确定到的内容归入有效内容集;
根据所述用户行为标签集的各个标签在所述用户标签兴趣度矩阵中的矩阵值,裁剪所述用户标签兴趣度矩阵;
根据所述用户行为标签集的各个标签在所述有效内容集的各个内容中的权重,裁剪所述内容标签权重矩阵;
将裁剪后的所述用户标签兴趣度矩阵乘以裁剪后的所述内容标签权重矩阵,得到所述用户内容兴趣度矩阵。
从图5可以看到,如果对P矩阵和Q矩阵求标签的交集,集合等于{标签1,标签2},那么P矩阵的标签3,以及Q矩阵的内容3、内容4可以不参与计算(不参与计算的内容3和内容4在R矩阵中的值R13,R14可以直接设为0)。因此,在LFM计算前只要先求出P矩阵标签跟Q矩阵文章标签的交集,然后只需计算该交集的计算结果,从而减少大量运算,我们把该方法称为矩阵裁剪。最后得到的经过矩阵裁剪的矩阵计算图为如图6所示。
经过归一化处理以及矩阵裁剪方法简化后,假设有效内容集的内容项个数为x(x<推荐内容集的内容项总数m),用户行为标签集的标签个数为y(y<标签集的标签总数n),时间复杂度简化为x*y次加法。
在一种可选的实施方式中,所述根据用户对所述推荐内容集中的各个内容项的兴趣度向用户推荐所述推荐内容集中的若干个内容项,包括:
将所述推荐内容集中用户的兴趣度大于0的内容项归入到第一推荐内容子集,将所述推荐内容集中用户的兴趣度等于0的内容项归入到第二推荐内容子集;
从所述第一推荐内容子集中选取兴趣度排名最前的N个内容项,从所述第二推荐内容子集中随机选取M个内容项,将所述N个内容项和所述M个内容项推荐给用户;其中,N大于M。
如果完全按照兴趣度的前N个来推荐内容项,推荐列表应该是{内容2,内容1},实际的用户体验并不好,原因是会造成因推荐而导致用户可接触内容范围的收窄。本发明实施例采用分段推荐法,分段推荐法在简化LFM的基础上,有交集的内容项归为第一推荐内容子集{内容2,内容1},并按兴趣度进行正向排序,把没有交集的内容项归为第二推荐内容子集{内容3,内容4}。
假设推荐内容项总数为m篇,则其中70%从第一推荐内容子集中抽取,另外30%从第二推荐内容子集中抽取。保证有一定比例的内容项是用户兴趣列表以外的,让用户有接触陌生内容的机会。
在一种可选的实施方式中,所述方法还包括:
将数据库中的各个内容项划分成N个内容集,并对所述N个内容集进行循环排列;
响应于获取到用户的操作行为,将用户上次的操作行为所对应的推荐内容集的下一个内容集作为本次操作行为所对应的推荐内容集。
由于数据库中的内容项的数量较多,并不需要全部内容项都参与推荐,只需要把内容项分成若干个小集合,保证每个小集合有足够数量的内容项,每次推荐时在小集合中匹配到用户最感兴趣的内容,并且在推荐后,轮换下一个小集合即可,所以本方案采用事先分桶的方式对文章标签进行管理。
假设分成n个内容集,编号为0~n-1。当对单个用户进行推荐的时候,从当前的推荐内容集中取出内容标签进行隐语义模型(LFM)计算,推荐完毕后,记录该用户的当前内容集编号,然后在下一次推荐时当前内容集编号在0~n-1之间循环。
相应地,本发明实施例还提供了一种内容推荐装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的内容推荐方法实施例中的步骤,例如图1所示的步骤S1~S4。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述内容推荐装置中的执行过程。
所述内容推荐装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述内容推荐装置可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述内容推荐装置的控制中心,利用各种接口和线路连接整个内容推荐装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述内容推荐装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述内容推荐装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。
相应地,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的内容推荐方法实施例中的步骤,例如图1所示的步骤S1~S4。
基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
相比于现有技术,本发明实施例的有益效果在于:本发明实施例通过对内容项提取标签,形成内容标签关联矩阵,实现内容项的特征化;通过收集用户的操作行为数据,并将这些操作行为数据转变成用户的标签,形成用户标签兴趣度矩阵,实现用户特征化;根据内容项的特征(容标签关联矩阵)与用户的特征(用户标签兴趣度矩阵),采用隐语义模型(LFM)得到用户内容兴趣度矩阵,并获取用户对所述推荐内容集中的各个内容项的兴趣度,在终端上向用户推荐其感兴趣的内容项,能够精准定位用户感兴趣的内容,提高内容推荐的效率和转化率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种内容推荐方法,其特征在于,包括:
响应于获取到用户的操作行为,根据用户的操作行为获取用户标签兴趣度矩阵;所述用户标签兴趣度矩阵的矩阵值为用户对标签集中的各个标签的兴趣度;
将所述用户标签兴趣度矩阵与预先配置的内容标签权重矩阵输入到隐语义模型,得到用户内容兴趣度矩阵;所述内容标签权重矩阵的矩阵值为所述标签集中的各个标签在推荐内容集中的不同内容项中的权重;
根据所述用户内容兴趣度矩阵获取用户对所述推荐内容集中的各个内容项的兴趣度;
根据用户对所述推荐内容集中的各个内容项的兴趣度向用户推荐所述推荐内容集中的若干个内容项。
2.如权利要求1所述的内容推荐方法,其特征在于,所述响应于获取到用户的操作行为,根据用户的操作行为获取用户标签兴趣度矩阵,包括:
响应于获取到用户的操作行为,根据用户的操作行为获取与用户的操作行为相关的行为关键词以及用户对每个行为关键词的兴趣度;
将所述行为关键词输入到预先配置的同类词模型,得到每个所述行为关键词的行为同类词及每个行为同类词的兴趣度模型值;
将每个行为同类词的兴趣度模型值乘以与所述行为同类词相对应的行为关键词的兴趣度,得到用户对每个行为同类词的兴趣度;
根据用户对每个所述行为关键词的兴趣度以及对每个所述行为同类词的兴趣度,更新用户对所述标签集中各个标签的兴趣度;
根据用户对标签集中的各个标签的兴趣度构建用户标签兴趣度矩阵。
3.如权利要求2所述的内容推荐方法,其特征在于,所述根据用户对标签集中的各个标签的兴趣度构建用户标签兴趣度矩阵,包括:
将用户对所述标签集中各个标签的兴趣度与各个标签的兴趣度更新持续时长输入到时间梯度衰减模型,得到用户对所述标签集中各个标签的实际兴趣度;所述兴趣度更新持续时长为用户对所述标签的兴趣度更新的时间到当前时间的时间差;
对所述标签集中的所有标签根据所述实际兴趣度从大到小进行排序,将前N个标签作为用户行为标签并将所述标签集中的其他标签作为非用户行为标签,将所述非用户行为标签的实际兴趣度配置为0;
将所述用户行为标签的实际兴趣度和所述非用户行为标签的实际兴趣度作为矩阵值构建所述用户标签兴趣度矩阵。
4.如权利要求1所述的内容推荐方法,其特征在于,所述方法还包括:
通过TFIDF算法获取所述推荐内容集中的每个内容项的内容关键词与每个所述内容关键词在对应的内容项中的权重;
对于同一内容项,将每个所述内容关键词输入到预先配置的同类词模型,得到每个所述内容关键词的内容同类词及每个所述内容同类词的权重模型值;
将同一内容项中的每个所述内容同类词的权重模型值乘以与所述内容同类词相对应的内容关键词在所述内容项中的权重,得到每个内容同类词在所述内容项中的权重;
根据所述推荐内容集中的每个内容项的内容关键词与内容同类词在所述内容项中的权重,确定所述标签集中的各个标签在所述推荐内容集中的不同内容项的权重;
将所述标签集中各个标签在所述推荐内容集中的不同内容项中的权重作为矩阵值构建内容标签权重矩阵。
5.如权利要求4所述的内容推荐方法,其特征在于,所述将所述标签集中各个标签在所述推荐内容集中的不同内容项中的权重作为矩阵值构建内容标签权重矩阵,包括:
当所述标签集中的第i个标签在所述推荐内容集中的第j个内容项的权重大于0,将所述内容标签权重矩阵中相对应的矩阵值配置为1;
当所述标签集中的第i个标签在所述推荐内容集中的第j个内容项的权重等于0,将所述内容标签权重矩阵中相对应的矩阵值配置为0。
6.如权利要求1所述的内容推荐方法,其特征在于,所述将所述用户标签兴趣度矩阵与预先配置的内容标签权重矩阵输入到隐语义模型,得到用户内容兴趣度矩阵,包括:
获取所述用户标签兴趣度矩阵中矩阵值大于0的标签,并将获取到的标签归入用户行为标签集;
根据所述内容标签权重矩阵获取与所述用户行为标签集存在交集的内容,并将确定到的内容归入有效内容集;
根据所述用户行为标签集的各个标签在所述用户标签兴趣度矩阵中的矩阵值,裁剪所述用户标签兴趣度矩阵;
根据所述用户行为标签集的各个标签在所述有效内容集的各个内容中的权重,裁剪所述内容标签权重矩阵;
将裁剪后的所述用户标签兴趣度矩阵乘以裁剪后的所述内容标签权重矩阵,得到所述用户内容兴趣度矩阵。
7.如权利要求1所述的内容推荐方法,其特征在于,所述根据用户对所述推荐内容集中的各个内容项的兴趣度向用户推荐所述推荐内容集中的若干个内容项,包括:
将所述推荐内容集中用户的兴趣度大于0的内容项归入到第一推荐内容子集,将所述推荐内容集中用户的兴趣度等于0的内容项归入到第二推荐内容子集;
从所述第一推荐内容子集中选取兴趣度排名最前的N个内容项,从所述第二推荐内容子集中随机选取M个内容项,将所述N个内容项和所述M个内容项推荐给用户;其中,N大于M。
8.如权利要求1所述的内容推荐方法,其特征在于,所述方法还包括:
将数据库中的各个内容项划分成N个内容集,并对所述N个内容集进行循环排列;
响应于获取到用户的操作行为,将用户上次的操作行为所对应的推荐内容集的下一个内容集作为本次操作行为所对应的推荐内容集。
9.一种内容推荐装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的内容推荐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至8中任意一项所述的内容推荐方法。
CN201711458428.0A 2017-12-27 2017-12-27 内容推荐方法、装置与计算机可读存储介质 Active CN108021708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711458428.0A CN108021708B (zh) 2017-12-27 2017-12-27 内容推荐方法、装置与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711458428.0A CN108021708B (zh) 2017-12-27 2017-12-27 内容推荐方法、装置与计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108021708A true CN108021708A (zh) 2018-05-11
CN108021708B CN108021708B (zh) 2020-07-17

Family

ID=62072041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711458428.0A Active CN108021708B (zh) 2017-12-27 2017-12-27 内容推荐方法、装置与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108021708B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325191A (zh) * 2018-10-10 2019-02-12 拉扎斯网络科技(上海)有限公司 对象标签值确定方法、装置、电子设备及可读存储介质
CN111401057A (zh) * 2018-12-29 2020-07-10 深圳Tcl新技术有限公司 一种语义解析方法、存储介质及终端设备
CN111651696A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 产品标签的定制方法及装置、计算机存储介质、电子设备
CN112699159A (zh) * 2020-11-13 2021-04-23 杭州海康威视系统技术有限公司 一种数据显示方法、装置及设备
CN112950242A (zh) * 2019-12-10 2021-06-11 深圳云天励飞技术有限公司 一种信息推送方法、装置及电子设备
CN113159184A (zh) * 2021-04-23 2021-07-23 武汉陌青春创意科技有限公司 一种用户兴趣特征识别方法及装置
CN113382279A (zh) * 2021-06-15 2021-09-10 北京百度网讯科技有限公司 直播推荐方法、装置、设备、存储介质以及计算机程序产品
CN113688626A (zh) * 2021-09-02 2021-11-23 北京方正阿帕比技术有限公司 一种提取读者兴趣标签的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794367A (zh) * 2015-05-12 2015-07-22 宁波克诺普信息科技有限公司 基于隐语义模型的就医资源评分与推荐方法
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN106846106A (zh) * 2017-01-16 2017-06-13 南京师范大学 一种图构建框架下的矩阵分解推荐方法
WO2017101317A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 智能推荐的全端显示方法及装置
CN107273337A (zh) * 2017-05-24 2017-10-20 南京师范大学 一种图构建与矩阵分解联合学习的推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN104794367A (zh) * 2015-05-12 2015-07-22 宁波克诺普信息科技有限公司 基于隐语义模型的就医资源评分与推荐方法
WO2017101317A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 智能推荐的全端显示方法及装置
CN106846106A (zh) * 2017-01-16 2017-06-13 南京师范大学 一种图构建框架下的矩阵分解推荐方法
CN107273337A (zh) * 2017-05-24 2017-10-20 南京师范大学 一种图构建与矩阵分解联合学习的推荐方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325191A (zh) * 2018-10-10 2019-02-12 拉扎斯网络科技(上海)有限公司 对象标签值确定方法、装置、电子设备及可读存储介质
CN111401057A (zh) * 2018-12-29 2020-07-10 深圳Tcl新技术有限公司 一种语义解析方法、存储介质及终端设备
CN111401057B (zh) * 2018-12-29 2023-11-14 深圳Tcl新技术有限公司 一种语义解析方法、存储介质及终端设备
CN112950242A (zh) * 2019-12-10 2021-06-11 深圳云天励飞技术有限公司 一种信息推送方法、装置及电子设备
CN111651696A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 产品标签的定制方法及装置、计算机存储介质、电子设备
CN111651696B (zh) * 2020-05-29 2023-06-02 泰康保险集团股份有限公司 产品标签的定制方法及装置、计算机存储介质、电子设备
CN112699159A (zh) * 2020-11-13 2021-04-23 杭州海康威视系统技术有限公司 一种数据显示方法、装置及设备
CN113159184A (zh) * 2021-04-23 2021-07-23 武汉陌青春创意科技有限公司 一种用户兴趣特征识别方法及装置
CN113382279A (zh) * 2021-06-15 2021-09-10 北京百度网讯科技有限公司 直播推荐方法、装置、设备、存储介质以及计算机程序产品
CN113382279B (zh) * 2021-06-15 2022-11-04 北京百度网讯科技有限公司 直播推荐方法、装置、设备、存储介质以及计算机程序产品
CN113688626A (zh) * 2021-09-02 2021-11-23 北京方正阿帕比技术有限公司 一种提取读者兴趣标签的方法

Also Published As

Publication number Publication date
CN108021708B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN108021708A (zh) 内容推荐方法、装置与计算机可读存储介质
Ledford Search engine optimization bible
CN105302810B (zh) 一种信息搜索方法和装置
CN106372249B (zh) 一种点击率预估方法、装置及电子设备
CN104268292B (zh) 画像系统的标签词库更新方法
CN110532479A (zh) 一种信息推荐方法、装置及设备
Demchuk et al. Methods and means of web content personalization for commercial information products distribution
CN110147882A (zh) 神经网络模型的训练方法、人群扩散方法、装置及设备
US20190019233A1 (en) Real time recommendation engine
CN106557480A (zh) 查询改写的实现方法及装置
KR102464783B1 (ko) 소비자의 비정형 평가 정보를 이용한 소비자 니즈 분석 방법 및 장치
CN107656918B (zh) 获取目标用户的方法及装置
CN105917364A (zh) 对问答论坛中讨论话题的排名
Wells Foraging: An ecology model of consumer behaviour?
CN109460519A (zh) 浏览对象推荐方法及装置、存储介质、服务器
CN109376873A (zh) 运维方法、装置、电子设备及计算机可读存储介质
CN113077317A (zh) 基于用户数据的物品推荐方法、装置、设备及存储介质
CN111966900A (zh) 基于局部敏感哈希的用户冷启动产品推荐方法及系统
CN111680213B (zh) 信息推荐方法、数据处理方法及装置
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
Velàsquez et al. Building a knowledge base for implementing a web-based computerized recommendation system
KR102585895B1 (ko) 오픈마켓에서의 키워드 마케팅 효율 증가를 위한 방법 및 시스템
Mandal et al. Finding experts in community question answering services: a theme based query likelihood language approach
CN109062551A (zh) 基于大数据开发命令集的开发框架
CN114119078A (zh) 目标资源确定方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 1101, No. 13, Zhujiang East Road, Tianhe District, Guangzhou City, Guangdong Province (office only)

Patentee after: GUANGZHOU QISHENG INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 510000, tenth, eleventh floor, No. 13 Zhujiang East Road, Guangzhou, Guangdong, Tianhe District

Patentee before: GUANGZHOU QISHENG INFORMATION TECHNOLOGY Co.,Ltd.