CN111581492B - 一种内容推荐方法、计算设备及可读存储介质 - Google Patents

一种内容推荐方法、计算设备及可读存储介质 Download PDF

Info

Publication number
CN111581492B
CN111581492B CN202010249940.XA CN202010249940A CN111581492B CN 111581492 B CN111581492 B CN 111581492B CN 202010249940 A CN202010249940 A CN 202010249940A CN 111581492 B CN111581492 B CN 111581492B
Authority
CN
China
Prior art keywords
user
content
keyword
keywords
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010249940.XA
Other languages
English (en)
Other versions
CN111581492A (zh
Inventor
韩龙
侯礼鹏
张少俭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chezhi Interconnection Beijing Technology Co ltd
Original Assignee
Chezhi Interconnection Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chezhi Interconnection Beijing Technology Co ltd filed Critical Chezhi Interconnection Beijing Technology Co ltd
Priority to CN202010249940.XA priority Critical patent/CN111581492B/zh
Publication of CN111581492A publication Critical patent/CN111581492A/zh
Application granted granted Critical
Publication of CN111581492B publication Critical patent/CN111581492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种内容推荐方法,适于在计算设备中执行,计算设备与数据存储装置相连接,数据存储装置中存储有用户标识与推荐内容的第一关联关系和用户分类标识与推荐内容的第二关联关系,该方法包括:接收用户的访问请求时,获取用户的的用户标识;根据用户标识查找第一关联关系,判断是否存在对应用户标识的推荐内容;若是,获取所述对应用户的推荐内容并输出给用户;若否,确定用户的用户分类标识,根据用户分类标识查找第二关联关系,获取对应用户分类标识的推荐内容并输出给用户。本发明一并公开了相应的计算设备和可读存储介质。

Description

一种内容推荐方法、计算设备及可读存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种内容推荐方法、计算设备及可读存储介质。
背景技术
随着互联网的迅速发展,网络应用中关于同一内容的相关信息越来越多,这让用户面对众多的信息无所适从,不能准确搜索出匹配自己目标内容的信息,浪费用户的精力。因此,需要对大量的网络信息进行分类,将精选分类后的内容推送给用户,尤其对于一些专业内容的推送,这一工作需要利用专业人员的领域经验完成,因为需要持续输出精选内容,同时筛选工作琐碎且重复,限于专业人员精力的持续消耗,精选内容的质量容易起伏不定,无法持续稳定输出,同时,由于专业人员精力有限,无法大规模的产生精选内容,精选内容也不能做到针对多用户的精准化,只能做到有限的分类。也从而产生了利用深度学习的方法学习用户和网络信息之间的内在联系,建立推荐模型,通过调整模型参数,给不同用户推送不同内容,虽然该方式推荐效果较好,但是深度学习方法的模型需要专业的机器学习、统计学知识,需要对Tensorflow等框架的熟练应用,如果没有一定的基础,学习路径较为陡峭,开发难度较大,研发周期较长;通过深度学习得到的推荐模型参数较多,很多参数为模型自动生成,没有很好的解释性,对人类不友好,不能很好的进行调整。
发明内容
为此,本发明提供了一种内容推荐方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的问题。
根据本发明的第一个方面,提供一种内容推荐方法,适于在计算设备中执行,计算设备与数据存储装置相连接,数据存储装置中存储有用户标识与推荐内容的第一关联关系和用户分类标识与推荐内容的第二关联关系,方法包括:接收用户的访问请求时,获取用户的的用户标识;根据用户标识查找第一关联关系,判断是否存在对应用户的推荐内容;若是,获取对应用户的推荐内容并输出给用户;若否,确定用户的用户分类标识,根据用户分类标识查找第二关联关系,获取对应用户分类标识的推荐内容并输出给用户。
可选的,在根据本发明的内容推荐方法中,确定用户的用户分类包括:获取用户的用户属性信息;根据用户属性信息对用户进行分类得到用户分类标识。
可选的,在根据本发明的内容推荐方法中,根据用户属性信息对用户进行分类得到用户分类是通过分类算法完成的。
可选的,在根据本发明的内容推荐方法中,用户属性包括用户所属地理位置信息,用户设备信息。
可选的,在根据本发明的内容推荐方法中,方法还包括第一关联关系的计算步骤,步骤包括:获取用户的用户浏览历史;根据用户浏览历史计算用户的用户偏好关键词;根据用户偏好关键词计算用户的用户推荐内容;将用户推荐内容与用户的用户标识的对应关系存储到第一关联关系中。
可选的,在根据本发明的内容推荐方法中,根据用户浏览历史计算用户的用户偏好关键词的步骤包括:根据用户浏览历史中的浏览内容查找内容-关键词数据表,获取用户浏览历史中的每一项浏览内容对应的关键词;读取内容热度数据表,获取用户浏览历史中的所有浏览内容的内容热度,将包含同一关键词的用户浏览历史中的浏览内容的内容热度求和,并作为用户对该关键词的偏好;计算用户对所有关键词的偏好;将用户对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户偏好关键词。
可选的,在根据本发明的内容推荐方法中,根据用户偏好关键词计算用户推荐内容的步骤包括:根据用户偏好关键词查找关键词-内容排行数据表,获取所有热门内容;对所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
可选的,在根据本发明的内容推荐方法中,方法还包括第二关联关系的计算步骤,步骤包括:根据用户分类标识计算对应该用户分类标识的用户分类的偏好关键词;根据用户分类偏好关键词计算用户分类推荐内容;将用户分类推荐内容与用户分类标识的对应关系存储到第二关联关系中。
可选的,在根据本发明的内容推荐方法中,根据用户分类标识计算用户分类偏好关键词包括:根据用户分类标识查找该用户分类标识对应用户分类包含用户的浏览历史;根据用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词;读取内容热度数据表,获取用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为用户分类对该关键词的偏好;计算用户分类对所有关键词的偏好;将用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户分类偏好关键词。
可选的,在根据本发明的内容推荐方法中,根据用户分类偏好关键词计算用户分类推荐内容,包括:根据用户分类偏好关键词查找关键词-内容排行数据表,获取所有热门内容;对所有热门内容根据内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
根据本发明的第二个方面,提供一种推荐内容的计算方法,适于在计算设备中执行,计算设备与数据存储装置连接,数据存储装置存储有用户的浏览历史,计算方法包括:获取用户的用户浏览历史;根据用户浏览历史计算用户的用户偏好关键词;根据用户偏好关键词计算用户的用户推荐内容。
可选的,在根据本发明的内容推荐方法中,根据用户浏览历史计算用户的用户偏好关键词的步骤包括:根据用户浏览历史中的浏览内容查找内容-关键词数据表,获取用户浏览历史中的每一项浏览内容对应的关键词;读取内容热度数据表,获取用户浏览历史中的所有浏览内容的内容热度,将包含同一关键词的用户浏览历史中的浏览内容的内容热度求和,并作为用户对该关键词的偏好;计算用户对所有关键词的偏好;将用户对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户偏好关键词。
可选的,在根据本发明的内容推荐方法中,内容-关键词数据表的创建步骤包括:从内容资源池获取待处理内容;移除待处理内容中的无用词和停用词;使用关键词算法提取待处理内容的关键词,将关键词和待处理内容存储到内容-关键词数据表;将关键词单独存储到关键词数据表。
可选的,在根据本发明的内容推荐方法中,内容热度数据表的创建过程包括:获取内容资源池中的每一项内容的阅读日志;统计阅读日志中的唯一访问用户数,浏览次数,用户在该内容的停留时长;根据统计的唯一访问用户数,浏览次数,用户在该内容的停留时长及热度计算公式计算内容热度;将所得内容热度与对应内容保存至内容热度数据表。
可选的,在根据本发明的内容推荐方法中,热度计算公式为,hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2,
其中,hot为内容热度,uv是唯一访问用户数,pv是内容浏览次数,duration是用户在该内容的停留时长。
可选的,在根据本发明的内容推荐方法中,根据用户偏好关键词计算用户推荐内容的步骤包括:根据用户偏好关键词查找关键词-内容排行数据表,获取所有内容;对所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
可选的,在根据本发明的内容推荐方法中,关键词-内容排行数据表的创建步骤包括:读取关键词数据表;根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;将该关键词和对应的该关键词下的热门内容存储到关键词-内容排行数据表。
根据本发明的第三个方面,提供一种推荐内容的计算方法,适于在计算设备中执行,计算设备与数据存储装置连接,数据存储装置存储有用户的浏览历史,计算方法包括:根据用户属性信息对用户进行分类得到用户分类及对应用户分类的用户分类标识;根据用户分类计算用户分类偏好关键词;根据用户分类偏好关键词计算用户分类推荐内容;将用户分类推荐内容与用户分类标识的对应关系存储到第二关联关系。
可选的,在根据本发明的内容推荐方法中,根据用户分类计算用户分类偏好关键词包括:根据用户分类查找该用户分类包含用户的浏览历史;根据用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词;读取内容热度数据表,获取用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为用户分类对该关键词的偏好;计算用户分类对所有关键词的偏好;将用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户分类偏好关键词。
可选的,在根据本发明的内容推荐方法中,内容-关键词数据表的创建步骤包括:从内容资源池获取待处理内容;移除待处理内容中的无用词和停用词;使用关键词算法提取待处理内容的关键词,将关键词和待处理内容存储到内容-关键词数据表;将关键词单独存储到关键词数据表。
可选的,在根据本发明的内容推荐方法中,内容热度数据表的创建过程包括:获取内容资源池中的每一项内容的阅读日志;统计阅读日志中的唯一访问用户数,浏览次数,用户在该内容的停留时长;根据统计的唯一访问用户数,浏览次数,用户在该内容的停留时长及热度计算公式计算内容热度;将所得内容热度与对应内容保存至内容热度数据表。
可选的,在根据本发明的内容推荐方法中,热度计算公式为,hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2
其中,hot为内容热度,uv是唯一访问用户数,pv是页面阅读次数,duration是用户在内容的停留时长。
可选的,在根据本发明的内容推荐方法中,根据用户分类偏好关键词计算用户分类推荐内容,包括:根据用户分类偏好关键词查找关键词-内容排行数据表,获取所有热门内容;对所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
可选的,在根据本发明的内容推荐方法中,关键词-内容排行数据表的创建步骤包括:读取关键词数据表;根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;将该关键词和对应的该关键词下的热门内容存储到关键词-内容排行数据表。
可选的,在根据本发明的内容推荐方法中,根据用户属性信息对用户进行分类得到用户分类的步骤是通过KNN算法完成的。
根据本发明的第四各方面,提供一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行如上所述的内容推荐方法的指令。
根据本发明的第五个方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行如上所述的内容推荐方法。
根据本发明的内容推荐方法,对于有访问历史的用户来说,根据用户浏览历史提取出用户偏好关键词,根据用户偏好关键词及内容热度来确定对应用户的推荐内容,对于新用户来说,则根据用户的属性信息进行分类,根据分类用户的浏览历史确定这一用户类别的偏好关键词,进而确定该用户分类的推荐内容。这样,无论对于新用户、还是老用户都能准确的给用户推荐符合用户目标内容的内容。同时,本发明的内容推荐方法相对于深度学习等复杂分类方法实现起来比较简单,而且更容易理解。
同时,对于一些需要专业分类的内容来说,需要利用专业编辑完成内容的选定,根据本发明的内容推荐方法,能够节省相当的人力资源,并且能够保证推荐内容的稳定性。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的内容推荐系统100的示意图;
图2示出了根据跟发明一个实施例的计算设备200的结构框图;
图3示出了根据本发明一个实施例的推荐内容的计算方法300的流程图。
图4示出了根据本发明一个实施例的推荐内容的计算方法400的流程图。
图5示出了根据本发明一个实施例的内容推荐方法500的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的一个实施例的内容推荐系统100的示意图。应当指出,图1中的内容推荐系统100仅是示例性的,在具体的实践情况中,内容推荐系统100中可以有不同数量的移动终端和网络服务器,本发明对内容推荐系统100中所包括的移动终端和网络服务器的数量不做限制。如图1所示,内容推荐系统100包括用户终端120(包括120-1,120-2……120-N)和计算设备200。其中,移动终端120与计算设备200通信连接,移动终端120可以是智能手机、平板电脑等,但不限于此。
计算设备200是具备通信、计算、存储功能的设备,其可以实现为服务器,例如应用服务器、Web服务器等,但不限于此。应当指出,计算设备200可以实现为一台服务器,也可以实现为由多台服务器所构成的集群或分布式系统;当其是多台服务器时,这多台服务器可以部署于同一地理位置,也可以分散布置于多个地理位置,本发明对计算设备200所包括的服务器的数量以及各服务器的部署位置均不做限制。
数据存储装置110可以是关系型数据库例如MySQL、ACCESS等,也可以是非关系型数据库例如NoSQL等;可以是驻留于计算设备200中的本地数据库,也可以作为分布式数据库例如HBase等设置于多个地理位置处,总之,数据存储装置110用于存储数据,本发明对数据存储装置110的具体部署、配置情况不做限制。
用户终端120例如可以是桌面计算机、笔记本计算机等个人配置的计算机,也可以是手机、平板电脑、多媒体播放器、智能可穿戴设备等移动终端,还可以是智能电视、智能门禁、工控设备等物联网(Internet of Things,IoT)设备,但不限于此。
计算设备200与数据存储装置110连接,其可以向数据存储装置110中写入数据,以及获取数据存储装置110中所存储的数据。例如,计算设备200可以直接读取数据存储装置110中的数据(在数据存储装置110为计算设备200的本地数据库时),也可以通过有线或无线的方式接入互联网,并通过数据接口来获取数据存储装置110中的数据。
用户终端120中通常安装有多个应用,例如购物应用、资讯类应用、即时通信应用等,但不限于此。计算设备200是用户终端120中安装的某一应用的服务端,其用于向该应用提供方法及数据调用。例如,用户终端120中安装有应用A,计算设备200是应用A的服务端。
在本发明的实施例中,计算设备200可以确定针对该用户的推荐内容,将推荐内容返回给用户终端,推荐内容例如可以是广告、文章等,但不限于此。
在本发明的实施例中,当用户终端120访问某一应用时,该应用对应的服务端计算设备200会收集用户的浏览数据,将收集到的数据作为用户浏览历史存储到数据存储装置中,该数据存储装置可以是图1中的数据存储装置110,也可以是其它的与计算设备200连接的数据存储装置,同时计算设备200也将收集服务端资源池中每一项内容的浏览日志,包括内容的唯一访问用户数、内容浏览次数、用户在该内容的停留时长等数据,并存储到数据存储装置中,同样,该数据存储装置可以是图1中的数据存储装置110也可以是其它的与计算设备200连接的数据存储装置。计算设备200根据这些数据可以最终生成对应用户的推荐内容和对应用户分类的推荐内容并存储在数据存储装置110中,当计算设备200接收到用户访问请求时,将根据预设条件将数据存储装置中的相应的推荐内容推荐给用户。
图2示出了根据本发明一个实施例的计算设备200的示意图。需要说明的是,图2所示的计算设备200仅为一个示例,在实践中,用于实施本发明的内容推荐方法的计算设备可以是任意型号的设备,其硬件配置情况可以与图2所示的计算设备200相同,也可以与图2所示的计算设备200不同。实践中用于实施本发明的内容推荐方法的计算设备可以对图2所示的计算设备200的硬件组件进行增加或删减,本发明对计算设备的具体硬件配置情况不做限制。
如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器204读取。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。操作系统220例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用222包括用于实现各种用户期望的功能的程序指令,应用222例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用222被安装到计算设备200中时,可以向操作系统220添加驱动模块。
在计算设备200启动运行时,处理器204会从存储器206中读取操作系统220的程序指令并执行。应用222运行在操作系统220之上,利用操作系统220以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用222时,应用222会加载至存储器206中,处理器204从存储器206中读取并执行应用222的程序指令。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备142包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在根据本发明的计算设备200中,应用222包括用于执行本发明的内容推荐方法300和/或内容推荐方法400和/或内容推荐方法500的指令,该指令可以指示处理器104执行本发明的内容推荐方法300和/或内容推荐方法400和/或内容推荐方法500,以向用户推荐内容。
图3示出了根据本发明的推荐内容计算方法300的一个实施例的流程图,方法300在计算设备中执行,该计算设备与存储有用户浏览历史的数据存储装置连接,方法300可以通过获取数据存储装置中的用户浏览历史,计算有访问历史的用户的推荐内容。
如图3所示,方法300始于步骤S310,获取用户的用户浏览历史,用户的浏览历史为该用户在登录某个应用时,一定时间段内浏览过的内容,需要说明的是,用户可以任意一个在数据存储装置中存储有浏览历史的用户,而不特指某一用户。在一个具体示例中,例如,用户user1在过去24小时内登录应用APP1时的浏览内容有A、B、C。
根据本发明的实施例,在执行步骤S310之前,还包括提取资源池中每一项内容的关键词的步骤,包括读取资源池中的内容,通过关键词算法提取出每一项内容对应的关键词,该资源池存储在与计算设备200连接的数据存储装置中(图1中未示出),将每一项内容和该内容对应的关键词存储为内容-关键词数据表,表1是内容-关键词数据表的一个示例。
表1
tag1 tag2 tag3 tag4 tag5 tag6
A 1 0 1 1 0 0
B 1 1 0 0 1 0
C 0 1 1 0 0 1
D 0 1 0 0 1 0
E 0 0 1 0 1 0
F 0 1 0 0 0 1
G 1 1 0 0 0 1
H 0 1 1 0 0 0
I 0 0 1 1 0 0
J 0 0 1 0 1 0
表1中,每一行表示一个内容,每一列表示一个关键词,内容与关键词的交叉点的数值为1表示该内容中通过关键词算法提取出了该关键词,为0表示该内容没有提取出该关键词,在该过程中中,会同时创建关键词数据表。
根据本发明的一个实施例,对于文章这一类内容中关键词的提取算法包括TextRank、TF-IDF等,当提取的关键词为品牌关键词时,例如关于汽车的文章中,提取关于汽车品牌的关键词,称为品牌关键词,品牌关键词的提取采用条件随机场算法(CRF)来实现。
随后进入步骤S320,根据用户浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户浏览历史中的每一项浏览内容对应的关键词。
继续以用户user1为例,用户user1的浏览历史中包含内容A、B、C,根据表1确定,内容A、B、C包含关键词tag1、tag2、tag3、tag4、tag5、tag6。
在进入步骤S330前,还包括统计资源池中每项内容热度的步骤,通过定时对每一项内容的浏览日志进行数据统计,计算每项内容的热度。统计内容包括:每个内容的唯一访问用户数、阅读次数、在该内容的停留时长等信息。将统计得到的数据由热度计算公式得到对应内容的热度,并保存到内容热度数据表中。热度计算公式为:
hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2 (1)
其中,hot为内容热度,uv是唯一访问用户数,pv是内容浏览次数,duration是用户在该内容的停留时长,参数0.5,0.3,0.2为分配的权重值。
sigmoid为S形曲线函数,主要对UV、Duration这些数字做平滑处理,并映射到0~1的区间范围,目前常用的sigmoid函数为:
表2为内容热度数据表的一个示例。
表2
随后进入步骤S330,读取内容热度数据表,获取用户浏览历史中的所有浏览内容的内容热度,将包含同一关键词的用户浏览历史中的浏览内容的内容热度求和,并作为用户对该关键词的偏好,将用户对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户偏好关键词,本发明对预定数量值不做限制。用户对单个关键词的偏好的计算公式为:
其中,m为包含关键词tag_useri的内容总数,hot为内容热度。
仍以用户user1为例,结合表1和表2中的数据,根据公式(3)求得用户对tag1、tag2、tag3、tag4、tag5、tag6的偏好程度如表3所示。
表3
关键词 P1 P2 P3 P4 P5 P6
偏好度 0.9 1.0 1.1 0.5 0.4 0.6
其中P1、P2、P3、P4、P5、P6分别为用户user1对tag1、tag2、tag3、tag4、tag5、tag6的偏好程度。
为了便于理解和说明,取排列在前的两个关键词作为用户关键词,则用户user的偏好关键词为tag2与tag3。
在进入步骤S340之前,还包括关键词-内容排行数据表的计算,读取关键词数据表;根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;将该关键词和对应的所述该关键词下的热门内容存储到关键词-内容排行数据表。
继续以用户user1为例,user1的偏好关键词tag2和tag3,以关键词tag2为例说明关键词对应的热门内容的计算方法,对表1统计可以得出tag2下面对应内容B、C、D、F、G、H,内容热度从表2中可得到,分别为0.4、0.6、0.7、0.8、0.53、0.55,将这6个内容按照热度排序,例如这里取排列在前的5个内容作为关键词tag2的热门内容,则关键词tag2对应的热门内容为FDCHG,并将关键词与相应的热门内容存储到关键词-内容排行表中。同样的方法,得到关键词tag3对应的热门内容为JECHI。表4是关键词-内容排行表的一个示例。
表4
关键词 热门内容
tag2 FDCHG
tag3 JECHI
随后进入步骤S350,对所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
继续以用户user1为例,用户user1的偏好关键词是tag2和tag3,这两个关键词下面对应的内容为CDEFGHIJ,根据表2对这些内容进行排序,排序结果是JFEDCHGI,例如,这里取前5项内容作为用户user1的推荐内容,则用户user1对应的推荐内容为JFEDC,将用户标识与对应的推荐内容存储到第一关联关系中,第一关联关系可以以表5形式存储。
表5
用户标识 推荐内容
user1 JFEDC
图4示出了根据本发明的推荐内容计算方法400的一个实施例的流程图,方法400在计算设备中执行,该计算设备与存储有用户浏览历史的数据存储装置连接,计算设备通过获取到的用户分类表以及用户分类中用户的浏览历史可以计算出某应用新的访问用户的推荐内容。
该方法开始于S410,获取用户属性信息,用户属性信息可以是用户注册时收集到的信息,这里的用户属性信息包括地域、用户设备号等。
随后进入S420,根据用户属性对用户进行分类,可以通过KNN算法完成对用户的分类。
随后进入S430,根据用户分类查找该用户分类包含用户的浏览历史。在一个具体示例中,比如,用户user2属于类别C1,C1类别包含3个用户user3、user4、user5,三个用户的浏览历史见表6,根据user3、user4、user5的浏览历史获得,C1类别的浏览历史包括内容h、i、j、k、l、m。
表6
User3 h、i
User4 J、k
User5 l、m
随后进入步骤S440,根据用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词。
继续以user2为例,用户分类C1所包含用户的浏览历史为:h、i、j、k、l、m、n,结合内容-关键词数据表获得用户分类C1关键词为tag10、tag11、tag12、tag13,具体的计算方法和计算过程可以参照前边所述的内容推荐方法300实施例。
随后进入S450,读取内容热度数据表(见表7),获取用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为用户分类对该关键词的偏好,将用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户分类偏好关键词。
用户分类对关键词的偏好的计算公式为:
其中,tag_cluster为用户分类对关键词的偏好,m为某用户分类下浏览过包含此关键词内容的用户总数,n为用户浏览的包含此内容的内容总数,hot为内容热度。
表7
tag10 tag11 tag12 tag13
h 1 0 1 0
i 1 1 0 0
j 0 1 1 1
k 0 0 1 1
l 0 1 0 1
m 0 1 0 0
n 1 0 1 0
o 1 1 0 1
p 0 0 1 1
q 0 0 1 1
根据内容-关键词数据表(见表8)以及内容热度数据表表7利用公式(4)计算出用户分类C1对tag10、tag11、tag12、tag13的偏好分别为0.9、1.65、1.45、1.5,取排列在前的两个关键词作为用户分类C1的偏好关键词,得到的用户分类C1的偏好关键词为tag11、tag12。
表8
内容 h i j k l m n o p q
热度 0.55 0.35 0.40 0.5 0.6 0.3 0.55 0.45 0.55 0.70
随后进入步骤S460,根据用户分类偏好关键词查找关键词-内容排行数据表,获取所有热门内容。比如,对于用户user2经过步骤S460由tag11、tag12获得对应的热门内容为h、i、j、k、l、m、n、o、p、q。
随后进入步骤S470,对步骤S460中所获得的所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
继续以user2为例,对所有热门内容排序后为q、p、l、h、k、n、j、i、m、o,取排列在前的5个内容作为用户分类的推荐内容即q、p、l、h、k,同时将q、p、l、h、k与用户分类标识C1存储到关联关系表2中。
图5示出了内容推荐方法500的一个实施例的流程图,方法500在计算设备中执行,该计算设备与数据存储装置相连接,数据存储装置中存储有用户标识与推荐内容的第一关联关系和用户分类标识与推荐内容的第二关联关系。
方法500始于S510,计算设备接收到用户的访问请求。
随后执行步骤S520,获取访问用户的用户标识。
随后执行步骤S530,由计算设备从数据存储装置中获取第一关联关系。第一关联关系中存储了用户标识与用户推荐内容的对应关系。表9给出了第一关联关系的一个示例,以推送10个内容为例。
表9
根据本发明实施例的具体示例,步骤S520获取到的用户标识为user20,则执行完步骤S530后,执行步骤S540,从第一关联关系中获取对应用户标识的推荐内容。
本具体示例中,根据user20获取到的推荐内容为B、D、F、G、L、M、N、O、P、Q。
随后执行步骤S590,将推荐内容输出给用户。
以user20为例,将内容B、D、F、G、L、M、N、O、P、Q推送给用户user20。
根据本发明的另一个实施例,步骤S520获取到的用户标识为user60。
随后执行的步骤S530时,获取不到对应user60的推荐内容。
随后执行步骤S550,获取用户属性。用户属性信息可以是用户注册时收集到的信息,这里的用户属性信息包括地域、用户设备号等。
随后进入S560,根据用户属性对用户进行分类,可以通过KNN算法完成对用户的分类。
本具体示例中,比如访问用户user60属于C5分类。
随后进入步骤S570,计算设备200从数据存储装置中获取第二关联关系,第二关联关系中存储有用户分类标志与推荐内容的对应关系。表8示出了第二关联关系的一个示例,以10个推荐内容为例。
用户分类标识 推荐内容
C1 A、B、C、D、E、F、G、H、I、J
C2 B、D、F、G、L、M、N、O、P、Q
C3 C、F、H、L、O、P、Q、R、T、U
C4 E、G、J、K、L、M、N、V、W、X
C5 Q、W、E、R、T、Y、U、I、Z、S
随后执行步骤S580,获取第二关联关系中的推荐内容。
对于用户user60来说,为C5分类,本步骤中获得的推荐内容为Q、W、E、R、T、Y、U、I、Z、S。
随后执行步骤S590,将获取到的推荐内容推荐给用户。
对用户user60而言,此次访问中将把推荐内容Q、W、E、R、T、Y、U、I、Z、S推荐给用户user60。
根据本发明的内容推荐方法,对于有访问历史的用户来说,根据用户浏览历史提取出用户偏好关键词,根据用户偏好关键词及内容热度来确定对应用户的推荐内容,对于新用户来说,则根据用户的属性信息进行分类,根据分类用户的浏览历史确定这一用户类别的偏好关键词,进而确定该用户分类的推荐内容。这样,无论对于新用户、还是老用户都能准确的给用户推荐符合用户目标内容的内容。同时,本发明的内容推荐方法相对于深度学习等复杂分类方法实现起来比较简单,而且更容易理解。
同时,对于一些需要专业分类的内容来说,需要利用专业编辑完成内容的选定,根据本发明的内容推荐方法,能够节省相当的人力资源,并且能够保证推荐内容的稳定性。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的内容推荐方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
A7、如A5所述的方法,其中,所述根据所述用户偏好关键词计算用户推荐内容的步骤包括:
根据所述用户偏好关键词查找关键词-内容排行数据表,获取所有热门内容;
对所述所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
A8、如A1-7任意一项所述的方法,其中,所述方法还包括第二关联关系的计算步骤,所述步骤包括:
根据所述用户分类标识计算对应该用户分类标识的用户分类的偏好关键词;
根据所述用户分类偏好关键词计算用户分类推荐内容;
将所述用户分类推荐内容与所述用户分类标识的对应关系存储到第二关联关系中。
A9、如A8所述的方法,其中,所述根据所述用户分类标识计算用户分类偏好关键词包括:
根据所述用户分类标识查找该用户分类标识对应用户分类包含用户的浏览历史;
根据所述用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的所述用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为所述用户分类对该关键词的偏好;
计算所述用户分类对所有关键词的偏好;
将所述用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为所述用户分类偏好关键词。
A10、如A8或A9所述的方法,其中,所述根据所述用户分类偏好关键词计算用户分类推荐内容,包括:
根据所述用户分类偏好关键词查找所述关键词-内容排行数据表,获取所有热门内容;
对所述所有热门内容根据内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
B12、如B11所述的方法,其中,所述根据所述用户浏览历史计算用户的用户偏好关键词的步骤包括:
根据所述用户浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户浏览历史中的所有浏览内容的内容热度,将包含同一关键词的所述用户浏览历史中的浏览内容的内容热度求和,并作为用户对该关键词的偏好;
计算用户对所有关键词的偏好;
将用户对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户偏好关键词。
B13、如B12所述的方法,其中,所述内容-关键词数据表的创建步骤包括:
从内容资源池获取待处理内容;
移除所述待处理内容中的无用词和停用词;
使用关键词算法提取所述待处理内容的关键词,将所述关键词和所述待处理内容存储到内容-关键词数据表;
将关键词单独存储到关键词数据表。
B14、如B12或B13所述的方法,其中,所述内容热度数据表的创建过程包括:
获取所述内容资源池中的每一项内容的阅读日志;
统计所述阅读日志中的唯一访问用户数,浏览次数,用户在该内容的停留时长;
根据所述统计的唯一访问用户数,浏览次数,用户在该内容的停留时长及热度计算公式计算内容热度;
将所得内容热度与对应内容保存至内容热度数据表。
B15、如B14所述的方法,其中,所述热度计算公式为,hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2,
其中,hot为内容热度,uv是唯一访问用户数,pv是内容浏览次数,duration是用户在该内容的停留时长。
B16、如B11-15中任意一项所述的方法,其中,所述根据所述用户偏好关键词计算用户推荐内容的步骤包括:
根据所述用户偏好关键词查找关键词-内容排行数据表,获取所有内容;
对所述所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
B17、如B16中所述的方法,其中,所述关键词-内容排行数据表的创建步骤包括:
读取所述关键词数据表;
根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;
根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;
将该关键词和对应的所述该关键词下的热门内容存储到关键词-内容排行数据表。
C19、如C18所述的方法,其中,所述根据所述用户分类计算用户分类偏好关键词包括:
根据所述用户分类查找该用户分类包含用户的浏览历史;
根据所述用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的所述用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为所述用户分类对该关键词的偏好;
计算所述用户分类对所有关键词的偏好;
将所述用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为所述用户分类偏好关键词。
C20、如C19所述的方法,其中,所述内容-关键词数据表的创建步骤包括:
从内容资源池获取待处理内容;
移除所述待处理内容中的无用词和停用词;
使用关键词算法提取所述待处理内容的关键词,将所述关键词和所述待处理内容存储到内容-关键词数据表;
将关键词单独存储到关键词数据表。
C21、如C19或C20所述的方法,其中,所述内容热度数据表的创建过程包括:
获取所述内容资源池中的每一项内容的阅读日志;
统计所述阅读日志中的唯一访问用户数,浏览次数,用户在该内容的停留时长;
根据所述统计的唯一访问用户数,浏览次数,用户在该内容的停留时长及热度计算公式计算内容热度;
将所得内容热度与对应内容保存至内容热度数据表。
C22、如C21所述的方法,其中,所述热度计算公式为,hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2
其中,hot为内容热度,uv是唯一访问用户数,pv是页面阅读次数,duration是用户在内容的停留时长。
C23、如C18-22任意一项所述的方法,其中,所述根据所述用户分类偏好关键词计算用户分类推荐内容,包括:
根据所述用户分类偏好关键词查找所述关键词-内容排行数据表,获取所有热门内容;
对所述所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
C24、如C23中所述的方法,其中,所述关键词-内容排行数据表的创建步骤包括:
读取所述关键词数据表;
根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;
根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;
将该关键词和对应的所述该关键词下的热门内容存储到关键词-内容排行数据表。
C25、如C18-24任意一项所述的方法,其中,所述根据所述用户属性信息对用户进行分类得到用户分类的步骤是通过KNN算法完成的。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (20)

1.一种内容推荐方法,适于在计算设备中执行,所述计算设备与数据存储装置相连接,所述数据存储装置中存储有用户标识与推荐内容的第一关联关系和用户分类标识与推荐内容的第二关联关系,所述方法包括:
接收用户的访问请求时,获取用户的用户标识;
根据所述用户标识查找第一关联关系,判断是否存在对应用户的推荐内容;
若是,获取所述对应用户的推荐内容并输出给用户;
若否,确定用户的用户分类标识,根据所述用户分类标识查找第二关联关系,获取对应所述用户分类标识的推荐内容并输出给用户;
其中,所述第一关联关系按照如下方式计算:
获取用户的用户浏览历史;
根据所述用户浏览历史计算用户的用户偏好关键词;
根据所述用户偏好关键词计算用户的用户推荐内容;
将所述用户推荐内容与所述用户的用户标识的对应关系存储到第一关联关系中;
其中,所述根据所述用户浏览历史计算用户的用户偏好关键词,包括:
根据所述用户浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户浏览历史中的所有浏览内容的内容热度,将包含同一关键词的所述用户浏览历史中的浏览内容的内容热度求和,并作为用户对该关键词的偏好,所述内容热度数据表包括内容热度和内容的关联关系;
计算用户对所有关键词的偏好;
将用户对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户偏好关键词;
其中,所述根据所述用户偏好关键词计算用户推荐内容,包括:
根据所述用户偏好关键词查找关键词-内容排行数据表,获取所有热门内容,所述关键词-内容排行数据表包括关键词和热门内容的关联关系;
对所述所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
2.如权利要求1所述的方法,其中,所述确定用户的用户分类包括:
获取用户的用户属性信息;
根据所述用户属性信息对用户进行分类得到用户分类标识。
3.如权利要求2所述的方法,其中,所述根据所述用户属性信息对用户进行分类得到用户分类是通过分类算法完成的。
4.如权利要求2或3所述的方法,其中,用户属性包括用户所属地理位置信息,用户设备信息。
5.如权利要求1-3任意一项所述的方法,其中,所述方法还包括第二关联关系的计算步骤,所述步骤包括:
根据所述用户分类标识计算对应该用户分类标识的用户分类的偏好关键词;
根据所述用户分类偏好关键词计算用户分类推荐内容;
将所述用户分类推荐内容与所述用户分类标识的对应关系存储到第二关联关系中。
6.如权利要求5所述的方法,其中,所述根据所述用户分类标识计算用户分类偏好关键词包括:
根据所述用户分类标识查找该用户分类标识对应用户分类包含用户的浏览历史;
根据所述用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的所述用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为所述用户分类对该关键词的偏好;
计算所述用户分类对所有关键词的偏好;
将所述用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为所述用户分类偏好关键词。
7.如权利要求5所述的方法,其中,所述根据所述用户分类偏好关键词计算用户分类推荐内容,包括:
根据所述用户分类偏好关键词查找所述关键词-内容排行数据表,获取所有热门内容;
对所述所有热门内容根据内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
8.一种推荐内容的计算方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置存储有用户的浏览历史,所述计算方法包括:
获取用户的用户浏览历史;
根据所述用户浏览历史计算用户的用户偏好关键词;
根据所述用户偏好关键词计算用户的用户推荐内容;
其中,所述根据所述用户浏览历史计算用户的用户偏好关键词,包括:
根据所述用户浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户浏览历史中的所有浏览内容的内容热度,将包含同一关键词的所述用户浏览历史中的浏览内容的内容热度求和,并作为用户对该关键词的偏好,所述内容热度数据表包括内容热度和内容的关联关系;
计算用户对所有关键词的偏好;
将用户对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为用户偏好关键词;
其中,所述根据所述用户偏好关键词计算用户推荐内容,包括:
根据所述用户偏好关键词查找关键词-内容排行数据表,获取所有内容,所述关键词-内容排行数据表包括关键词和热门内容的关联关系;
对所述所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户推荐内容。
9.如权利要求8所述的方法,其中,所述内容-关键词数据表的创建步骤包括:
从内容资源池获取待处理内容;
移除所述待处理内容中的无用词和停用词;
使用关键词算法提取所述待处理内容的关键词,将所述关键词和所述待处理内容存储到内容-关键词数据表;
将关键词单独存储到关键词数据表。
10.如权利要求8或9所述的方法,其中,所述内容热度数据表的创建过程包括:
获取所述内容资源池中的每一项内容的阅读日志;
统计所述阅读日志中的唯一访问用户数,浏览次数,用户在该内容的停留时长;
根据所述统计的唯一访问用户数,浏览次数,用户在该内容的停留时长及热度计算公式计算内容热度;
将所得内容热度与对应内容保存至内容热度数据表。
11.如权利要求10所述的方法,其中,所述热度计算公式为,
hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2,
其中,hot为内容热度,uv是唯一访问用户数,pv是内容浏览次数,duration是用户在该内容的停留时长。
12.如权利要求8中所述的方法,其中,所述关键词-内容排行数据表的创建步骤包括:
读取所述关键词数据表;
根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;
根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;
将该关键词和对应的所述该关键词下的热门内容存储到关键词-内容排行数据表。
13.一种推荐内容的计算方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置存储有用户的浏览历史,所述计算方法包括:
根据用户属性信息对用户进行分类得到用户分类及对应所述用户分类的用户分类标识;
根据所述用户分类计算用户分类偏好关键词;
根据所述用户分类偏好关键词计算用户分类推荐内容;
将所述用户分类推荐内容与所述用户分类标识的对应关系存储到第二关联关系,
其中,所述根据所述用户分类计算用户分类偏好关键词,包括:
根据所述用户分类查找该用户分类包含用户的浏览历史;
根据所述用户分类包含用户的浏览历史中的浏览内容查找内容-关键词数据表,获取所述用户分类包含用户的浏览历史中的每一项浏览内容对应的关键词;
读取内容热度数据表,获取所述用户分类包含用户的浏览历史中的所有浏览内容的内容热度,将包含同一个关键词的所述用户分类包含用户的浏览历史中的浏览内容的内容热度求和,并作为所述用户分类对该关键词的偏好,所述内容热度数据表包括内容热度和内容的关联关系;
计算所述用户分类对所有关键词的偏好;
将所述用户分类对所有关键词的偏好降序排列,取排列在前的预定数量的关键词作为所述用户分类偏好关键词;
其中,所述根据所述用户分类偏好关键词计算用户分类推荐内容,包括:
根据所述用户分类偏好关键词查找所述关键词-内容排行数据表,获取所有热门内容,所述关键词-内容排行数据表包括关键词和热门内容的关联关系;
对所述所有热门内容按照内容热度降序排列,取排列在前的预定数量的热门内容作为用户分类推荐内容。
14.如权利要求13所述的方法,其中,所述内容-关键词数据表的创建步骤包括:
从内容资源池获取待处理内容;
移除所述待处理内容中的无用词和停用词;
使用关键词算法提取所述待处理内容的关键词,将所述关键词和所述待处理内容存储到内容-关键词数据表;
将关键词单独存储到关键词数据表。
15.如权利要求13或14所述的方法,其中,所述内容热度数据表的创建过程包括:
获取所述内容资源池中的每一项内容的阅读日志;
统计所述阅读日志中的唯一访问用户数,浏览次数,用户在该内容的停留时长;
根据所述统计的唯一访问用户数,浏览次数,用户在该内容的停留时长及热度计算公式计算内容热度;
将所得内容热度与对应内容保存至内容热度数据表。
16.如权利要求15所述的方法,其中,所述热度计算公式为,hot=sigmoid(log(uv)×0.5+sigmoid(log(duration)))×0.3+pv/uv×0.2
其中,hot为内容热度,uv是唯一访问用户数,pv是页面阅读次数,duration是用户在内容的停留时长。
17.如权利要求13中所述的方法,其中,所述关键词-内容排行数据表的创建步骤包括:
读取所述关键词数据表;
根据关键词查找内容-关键词数据表,获取每一个关键词下的所有内容;
根据内容热度数据表,对某一关键词下的所有内容按照内容热度进行排列,取排列在前的预定数量的内容作为该关键词下的热门内容;
将该关键词和对应的所述该关键词下的热门内容存储到关键词-内容排行数据表。
18.如权利要求13或14所述的方法,其中,所述根据所述用户属性信息对用户进行分类得到用户分类的步骤是通过KNN算法完成的。
19.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-18中任一项所述方法的指令。
20.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-18中任一项所述方法。
CN202010249940.XA 2020-04-01 2020-04-01 一种内容推荐方法、计算设备及可读存储介质 Active CN111581492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249940.XA CN111581492B (zh) 2020-04-01 2020-04-01 一种内容推荐方法、计算设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249940.XA CN111581492B (zh) 2020-04-01 2020-04-01 一种内容推荐方法、计算设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111581492A CN111581492A (zh) 2020-08-25
CN111581492B true CN111581492B (zh) 2024-02-23

Family

ID=72126119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249940.XA Active CN111581492B (zh) 2020-04-01 2020-04-01 一种内容推荐方法、计算设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111581492B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379482B (zh) * 2021-05-28 2023-12-01 车智互联(北京)科技有限公司 一种物品推荐方法、计算设备以及存储介质
CN113884167B (zh) * 2021-09-15 2024-03-01 湖南库特智能科技有限公司 一种移动式破碎机工作产能计量方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246980A (zh) * 2012-02-02 2013-08-14 阿里巴巴集团控股有限公司 信息输出方法及服务器
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN104111941A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN104391999A (zh) * 2014-12-15 2015-03-04 北京国双科技有限公司 信息推荐方法和装置
CN105447731A (zh) * 2016-01-07 2016-03-30 上海携程商务有限公司 站外用户站内动态广告生成方法及系统
CN105677682A (zh) * 2014-11-21 2016-06-15 中国移动通信集团浙江有限公司 配置多媒体信息的方法、推送多媒体信息的方法和设备
CN106326431A (zh) * 2016-08-25 2017-01-11 乐视控股(北京)有限公司 一种信息推荐方法和装置
CN107368488A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种确定用户行为偏好的方法、推荐信息的展示方法和装置
CN107862553A (zh) * 2017-11-15 2018-03-30 平安科技(深圳)有限公司 广告实时推荐方法、装置、终端设备及存储介质
WO2019041521A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
WO2020057022A1 (zh) * 2018-09-18 2020-03-26 深圳壹账通智能科技有限公司 关联推荐方法、装置、计算机设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246980A (zh) * 2012-02-02 2013-08-14 阿里巴巴集团控股有限公司 信息输出方法及服务器
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN104111941A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN105677682A (zh) * 2014-11-21 2016-06-15 中国移动通信集团浙江有限公司 配置多媒体信息的方法、推送多媒体信息的方法和设备
CN104391999A (zh) * 2014-12-15 2015-03-04 北京国双科技有限公司 信息推荐方法和装置
CN105447731A (zh) * 2016-01-07 2016-03-30 上海携程商务有限公司 站外用户站内动态广告生成方法及系统
CN107368488A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种确定用户行为偏好的方法、推荐信息的展示方法和装置
CN106326431A (zh) * 2016-08-25 2017-01-11 乐视控股(北京)有限公司 一种信息推荐方法和装置
WO2019041521A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN107862553A (zh) * 2017-11-15 2018-03-30 平安科技(深圳)有限公司 广告实时推荐方法、装置、终端设备及存储介质
WO2020057022A1 (zh) * 2018-09-18 2020-03-26 深圳壹账通智能科技有限公司 关联推荐方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
F.O.Isinkaye.Recommend systems:Principles,method and evalution.Egyptian Informatics Journal.2015,第261-273页. *
基于协同过滤的新闻推荐系统在Hadoop上的研究与实现;让家恒;中国优秀硕士学位论文全文数据库;第I138-472页 *

Also Published As

Publication number Publication date
CN111581492A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111178950B (zh) 一种用户画像构建方法、装置及计算设备
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
US8103667B2 (en) Ranking results of multiple intent queries
WO2017097231A1 (zh) 话题处理方法及装置
WO2018053966A1 (zh) 点击率预估
US8700621B1 (en) Generating query suggestions from user generated content
WO2018040069A1 (zh) 信息推荐系统及方法
CN108021708B (zh) 内容推荐方法、装置与计算机可读存储介质
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
JP2009211697A (ja) 情報配信システムおよび情報配信方法
EP2359259A1 (en) Method and system for semantic distance measurement
CN111008265A (zh) 企业信息搜索方法及装置
WO2017121272A1 (zh) 用户行为数据的处理方法及装置
CN112632359A (zh) 信息推荐方法、装置、电子设备和存储介质
US9767417B1 (en) Category predictions for user behavior
US20180181625A1 (en) Systems and Methods for Intelligent Prospect Identification Using Online Resources and Neural Network Processing to Classify Organizations based on Published Materials
US9767204B1 (en) Category predictions identifying a search frequency
CN106557480A (zh) 查询改写的实现方法及装置
CN111581492B (zh) 一种内容推荐方法、计算设备及可读存储介质
Zhu et al. A recommendation engine for travel products based on topic sequential patterns
JP2017220204A (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
Huang et al. An empirical study of personalized advertising recommendation based on DBSCAN clustering of sina weibo user-generated content
CN107766537B (zh) 一种职位搜索排序方法及计算设备
CN107515904B (zh) 一种职位搜索方法和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant