CN110196940A - 向用户显示热点网络内容的方法、装置、显示引擎和介质 - Google Patents
向用户显示热点网络内容的方法、装置、显示引擎和介质 Download PDFInfo
- Publication number
- CN110196940A CN110196940A CN201810542539.8A CN201810542539A CN110196940A CN 110196940 A CN110196940 A CN 110196940A CN 201810542539 A CN201810542539 A CN 201810542539A CN 110196940 A CN110196940 A CN 110196940A
- Authority
- CN
- China
- Prior art keywords
- hot spot
- user
- content
- label
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种向用户显示热点网络内容的方法、装置、显示引擎和介质。该方法包括:获取用户的分类和标签;获取候选的热点网络内容的分类和标签;基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内容。本公开实施例能够提高向用户推荐热点网络内容的个性化,提高热点网络内容被用户点击的几率。
Description
技术领域
本公开涉及互联网领域,具体涉及一种向用户显示热点网络内容的方 法、装置、显示引擎和介质。
背景技术
目前,在互联网领域,在用户登录一个网站或打开一个互联网应用, 但还没有来得及搜索感兴趣的网络内容(例如视频、新闻、文章等)之前, 通常会根据用户的历史浏览行为、用户画像等,为用户推荐显示用户可能 会感兴趣的网络内容。随着实践的发展,发现除了向用户推荐显示个性化 的网络内容之外,向用户推荐一些最新的热点网络内容(如热点视频、热 点文章等),比单纯向用户推荐显示个性化的网络内容,更能增加用户好 感,改善用户粘着度,延长用户消费时长。
热点网络内容即网络上当前热度比较高的网络内容,包括网络上的视 频、新闻、文章等。目前,向用户推荐显示热点网络内容的方法主要是: 网络编辑进行人工判断,挑选出部分认为质量较高的热点网络内容,放入 一个热点网络内容池中。然后,根据人工运营规则,将热点网络内容池中 的热点网络内容对全体人群进行大范围无差别投放。对于热点网络内容池 中的网络内容,也是依靠编辑的人工规则判断,对于不再有效的网络内容 进行淘汰。
这种做法存在三个问题:1.编辑人工选取的热点网络内容,虽然被有 专业素养的编辑人员判断为高质量热点网络内容,但是却不一定符合多数 受众用户的喜好,人工操作的方式效率低,且网络内容来源有限。2.大范 围无差别地投放,具有高效率曝光的优势,但是个性化却不足,容易导致 曝光效率低。比如,向一个对足球并不感兴趣的人,推送最新足球比赛报 道视频,其可能就不会点击。3.对热点网络内容池中不再有效的网络内容 进行淘汰,依靠人工经验规则,准确度不高。
发明内容
本公开的一个目的在于提出一种向用户推荐显示热点网络内容的技 术,其能提高向用户推荐的个性化,提高向用户推荐的热点网络内容被用 户点击的几率。
根据本公开实施例的第一方面,公开了一种向用户显示热点网络内容 的方法,包括:
获取用户的分类和标签;
获取候选的热点网络内容的分类和标签;
基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配 度,确定向用户显示的热点网络内容。
根据本公开实施例的第二方面,公开了一种向用户显示热点网络内容 的装置,包括:
用户分类和标签获取单元,用于获取用户的分类和标签;
候选的热点网络内容分类和标签获取单元,用于获取候选的热点网络 内容的分类和标签;
显示确定单元,用于基于用户的分类和标签与候选的热点网络内容的 分类和标签的匹配度,确定向用户显示的热点网络内容。
根据本公开实施例的第三方面,公开了一种网页显示引擎,包括:存 储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指 令,以执行如上所述的方法。
根据本公开实施例的第四方面,公开了一种计算机程序介质,其上存 储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时, 使计算机执行如上所述的方法。
本公开实施例中,考虑到候选的热点网络内容具有分类和标签,而相 应地,用户也可以具有分类和标签,如果用户的分类和标签与候选的热点 网络内容的分类和标签的匹配度很高,则很有可能该候选的热点网络内容 推送给用户后,被用户接受。因此,提高了向用户推荐的个性化,提高了 向用户推荐的热点网络内容被用户点击的几率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地 通过本公开的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并 不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特 征及优点将变得更加显而易见。
图1A-C示出了根据本公开一示例实施方式的向用户显示热点网络内容 的方法应用的三个典型场景的网页界面图,其中,图1A示出了在用户登录 网站或打开互联网应用之后选择某种网络内容类型的情况下,为用户自动 推荐显示这种类型的网络内容的应用场景页面,其中针对用户的个性化网 络内容与热点网络内容混合显示;图1B示出了在用户登录网站或打开互联 网应用之后选择观看热点的情况下,为用户显示热点网络内容的应用场景 页面,其中显示的全部是热点网络内容;图1C显示在用户登录网站或打开 互联网应用之后用关键词搜索的情况下,搜索结果中掺有少量热点网络内 容的应用场景页面。
图2示出了根据本公开一示例实施方式的向用户显示热点网络内容的 方法应用的系统构架图。
图3示出了根据本公开一示例实施方式的图2中的网页显示引擎的具 体结构图。
图4示出了根据本公开一示例实施方式的向用户显示热点网络内容的 方法流程图。
图5示出了根据本公开一示例实施方式的基于用户的分类和标签与候 选的热点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内 容的具体流程图。
图6示出了根据本公开一示例实施方式的获取用户的分类和标签的具 体流程图。
图7示出了根据本公开一示例实施方式的向用户显示热点网络内容的 方法流程图。
图8示出了根据本公开一示例实施方式的向用户显示热点网络内容的 方法流程图。
图9示出了根据本公开一示例实施方式的在确定所述用户的分类和标 签各自的权重不符合预定条件的情况下执行的后续处理的流程图。
图10示出了根据本公开一示例实施方式的建立候选的热点网络内容库 的具体流程图。
图11示出了根据本公开一示例实施方式的确定将网络内容作为候选的 热点网络内容加入候选的热点网络内容库的具体流程图。
图12示出了根据本公开一示例实施方式的向用户显示热点网络内容的 方法流程图。
图13示出了根据本公开一示例实施方式的基于候选的热点网络内容的 点击数和点击率确定有效分值的具体流程图。
图14示出了根据本公开一示例实施方式的向用户显示热点网络内容的 装置模块图。
图15示出了根据本公开一示例实施方式的网页显示引擎的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能 够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这 些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式 的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解, 并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因 而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个 或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对 本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可 以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以 采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知 结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模 糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独 立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多 个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器 装置和/或微控制器装置中实现这些功能实体。
下面,先参照图1A-C描述本公开实施例所应用的三种应用场景。应当 注意,这些应用场景只是示例性的。本领域技术人员在受益于本公开实施 例的构思后,可以将本公开应用于其它的场景。
图1A示出了在用户登录网站或打开互联网应用之后选择某种网络内容 类型的情况下,为用户自动推荐显示这种类型的网络内容的应用场景页面。
当用户登录互联网网站,或者打开互联网应用之后,在用户没开始任 何其它动作之前,通常,互联网网站或应用会为用户推荐一些网络内容, 显示在页面上。如图1A所示,有的时候,用户还可以选择页面上的网络内 容类型选项102(如图1A中的“视频”)。这时,互联网网站或应用会为 用户仅推荐显示这一类型的网络内容103,104(如图1A中的视频),其中 包括针对用户个性化推荐的网络内容104、以及混杂在针对用户个性化推荐 的网络内容104间的热点网络内容103。热点网络内容103在页面上的显示 位置可以是预定的。例如,在图1A中,事先规定从上到下第2和第4个位 置是显示热点网络内容103的位置,其它位置用于显示针对用户个性化推 荐的网络内容104。在该例子中,每个显示的网络内容103,104包括网络内 容题目106和图片105(在视频的情况下,该图片可以是视频截图;如果网 络内容是文章的情况下,可能没有图片105)。如果用户没有选择网络内容 类型选项102,也可以给用户推荐显示类似于图1A的页面。在该情况下, 推荐显示的网络内容可能是不止一种类型的(例如,有视频、新闻和文章), 但也可以包括针对用户个性化推荐的网络内容104、以及混杂在针对用户个 性化推荐的网络内容104间的热点网络内容103。热点网络内容103在页面 上的显示位置可以是预定的。
图1B示出了在用户登录网站或打开互联网应用之后选择观看热点的情 况下,为用户显示热点网络内容的应用场景页面。
当用户登录互联网网站,或者打开互联网应用之后,除了选择网络内 容类型选项102外,还可以选择观看热点,即,选择“热点”选项,如图 1B所示。这时,互联网网站或应用会为用户推荐显示各种类型的热点网络 内容103,这时页面上显示的网络内容不再有针对用户个性化推荐的内容。 在图1B的例子中,每个显示的网络内容103,104包括网络内容题目106和 图片105(在视频的情况下,该图片可以是视频截图;如果网络内容是文章 的情况下,可能没有图片105)。
图1C显示在用户登录网站或打开互联网应用之后用关键词搜索的情 况下,搜索结果中掺有少量热点网络内容的应用场景页面。
当用户登录互联网网站,或者打开互联网应用之后,如果用户不打算 接受网站或应用推荐给自己的网络内容,而打算自己搜索网络内容,则在 图1C的搜索框101中输入关键词。互联网网站或应用后台服务器会根据输 入的关键词,获得一些搜索结果107。少量根据本公开实施例的用户显示热 点网络内容的方法确定的向用户显示的热点网络内容103会混入搜索结果 107中,伪装成搜索结果显示在互联网网站或应用的页面上,如图1C所示。这有利于吸引用户眼球,从而使用户不仅仅点击用户的搜索结果,还被这 些热点网络内容吸引,点击这些热点网络内容103,增加用户在网站或应用 上的驻留时间。该热点网络内容在页面上的显示位置可以是预定的。该热 点网络内容在页面上的显示数量不宜过多,因为用户最主要关心的还是其 搜索结果。在该例子中,显示的搜索结果107和热点网络内容103的每一 个包括网络内容题目106和图片105(在视频的情况下,该图片可以是视频 截图;如果网络内容是文章的情况下,可能没有图片105)。在图1C的例 子中,用户输入搜索关键词“张学友”。仅在显示的页面上的最下面的二 个位置,呈现为用户推荐的热点网络内容,其余位置都留给关于“张学友” 的搜索结果。
下面结合图2描述根据本公开一个实施例的向用户显示热点网络内容 的方法应用的系统构架。该系统构架包括网络内容提供商平台200和用户 终端210
用户终端210是用户用来打开互联网网站或互联网应用的终端。它可 以是任何能够上网的终端,包括台式电脑、手机、PDA、笔记本电脑、车载 设备等。
网络内容提供商平台200是该互联网网站或互联网应用的运营平台, 它在互联网网站或互联网应用上提供显示给用户的内容。其可以由单台计 算机或多台联网的计算机实现,也可以由多台联网的计算机各自一部分联 合实现。例如,它可以采用虚拟机集群的形式,即从多台物理机上分别划 分出一部分作为虚拟机,集体行使网络内容提供商平台200的功能。在云 环境下,它可以由云环境中的多台分布式计算设备联合实现。
网络内容提供商平台200包括后台处理服务器201、网页显示引擎202。 网页显示引擎202用于确定向用户的显示的网页内容,向这些网页内容渲 染成页面向用户显示,并完成与用户的各种交互。后台处理服务器201用 于用户大数据和互联网大数据的存储、以及网站或应用的维护等,为前端 的网页显示引擎202提供后台支持。后台处理服务器201、网页显示引擎 202可以由单台计算机或多台联网的计算机实现,也可以由多台联网的计算机各自一部分联合实现。在云环境下,它们可以分别由云环境中的多台分 布式计算设备联合实现。
图3示出了根据本公开一示例实施方式的图2中的网页显示引擎202 的具体结构图。其只是网页显示引擎202的一种具体结构,不是对于网页 显示引擎202的结构的限制。为了更清楚地描述,其每一模块将结合下面 所述的方法实施例详细描述。
图4示出了根据本公开一示例实施方式的向用户显示热点网络内容的 方法流程图。该向用户显示热点网络内容的方法主要由网页显示引擎202 执行。
网络内容是指互联网网站或应用上向用户推送、希望用户点开观看的 内容,它包括视频、新闻、文章、音乐等等。热点网络内容是行业术语, 是指当前网上用户普遍感兴趣的网络内容,包括网络上的视频、新闻、文 章等。向用户显示热点网络内容的方法包括如图1B所示的向用户仅显示热 点网络内容的方法,也包括图1A和图1C所示的在向用户显示的网络内容 中包含有一部分热点网络内容的方法。
如图4所示,根据本公开一个实施例的向用户显示热点网络内容的方 法,包括:
步骤310、获取用户的分类和标签;
步骤320、获取候选的热点网络内容的分类和标签;
步骤330、基于用户的分类和标签与候选的热点网络内容的分类和标签 的匹配度,确定向用户显示的热点网络内容。
下面对这些步骤进行详细描述。
在步骤310中,获取用户的分类和标签。
用户的分类和标签分别与网络内容的分类和标签对应。因此,在定义 用户的分类和标签之前,先讨论一下网络内容的分类和标签。
网络内容的分类是指网络内容所属的类别。在一个实施例中,网络内 容的分类包括网络内容的一级分类和二级分类。一级分类是指网络内容所 属的总体类别,二级分类是指一级分类下的子分类。例如,一级分类可以 包括搞笑、音乐、游戏、国家大事、社会奇闻、访谈等。对于搞笑的一级 分类,其二级分类可以包括脱口秀搞笑、接头采访搞笑、动作视频搞笑、 笑话等。对于音乐的二级分类,其二级分类可以包括流行、民谣、爵士、 摇滚、说唱等。对游戏、国家大事、社会奇闻、访谈等,也有相应的二级 分类。
网络内容的标签是指用一些关键词对网络内容的简单标注。它起到的 作用是:第一,它标注在网络内容的旁边,使不了解该网络内容的用户能 快速了解该网络内容;第二,它可以是搜索时的依据,当用户进行关键词 搜索时,如果用户搜索的关键词与网络内容的标签匹配,则有可能为用户 推荐该网络内容。在一个实施例中,可以通过以下方法为网络内容打标签:
预先设置标签库,标签库中的标签预先人工设置;
针对标签库中的标签,确定该标签在该网络内容和网络内容的用户评 论中的命中次数;
如果所述命中次数超过命中次数阈值,为所述网络内容打上所述标签。
在该实施例中,标签库存储有预先人工设置的标签,如“颜值”、“脱 口秀”、“户外”、“搞笑”、“恐怖”、“音乐”。然后,根据每一标 签与该网络内容和网络内容的用户评论中的命中次数,确定是否给网络内 容打上该标签。一个网络内容可以被打上多个标签。例如,某视频中主角 颜值高,同时该主角又在表演脱口秀,则可能同时被打上“颜值”、“脱 口秀”两个标签。
在一个实施例中,该标签在该网络内容和网络内容的用户评论中的命 中次数按如下方式确定:
将网络内容和网络内容的用户评论分词;
对于该标签,确定分成的词中与该标签对应的词的数目,作为命中次 数。
如果网络内容包含文字,将网络内容的文字和用户评论分词。如果网 络内容不包含文章(例如网络内容是纯视频),仅将用户评论分词。
确定分成的词中与该标签对应的词的数目可以采用查找预先设置的词 语标签对应关系表来确定。例如,在对应关系表中,“帅”、“漂亮”、 “美”、“美丽”等词都对应于“颜值”这个标签;“搞笑”、“幽默”、 “好笑”、“滑稽”等词都对应于“搞笑”这个标签,等等。如果网络内 容和该网络内容的用户评论中含有比较多的“帅”、“漂亮”、“美”、 “美丽”这样的词,很可能是反映了网络内容的主角颜值比较高。如果网 络内容和该网络内容的用户评论中含有比较多的“搞笑”、“幽默”、“好 笑”、“滑稽”这样的词,很可能是该网络内容是一个幽默搞笑的网络内 容。分成的词中含有这样的词越多,则命中次数越高。如果该命中次数超 过命中次数阈值,为所述网络内容打上所述标签。
上述利用命中次数来判断是否为网络内容打标签的实施例的好处是, 命中次数是网络内容和网络内容的用户评论分成的词中与该标签对应的词 的数目,这些词中与该标签对应的词的数目,直接反映了该网络内容与该 标签的匹配性。因此,该实施例简单易行且准确率高,提高了为网络内容 打标签的效率和准确性。同时,由于该实施例不止考虑网络内容本身的词 与标签的匹配性,还考虑用户评论的词与标签的匹配性,减少了网络内容 本身带有虚假宣传对打标签结果造成的影响。
在网络内容的分类和标签的基础上,讨论用户的分类和标签。
用户的分类是指用户历史上倾向于点击查看的网络内容的分类。在一 个实施例中,用户的分类包括用户的一级分类和二级分类。用户的一级分 类是指用户历史上倾向于点击查看的网络内容的一级分类。用户的二级分 类是指用户历史上倾向于点击查看的网络内容的二级分类。用户的标签是 指用户历史上倾向于点击查看的网络内容的标签。也就是说,用户的分类 和标签仍然建立在网络内容的分类和标签的基础上,它是用户最偏好的网 络内容的分类和标签。
在一个实施例中,如图6所示,所述获取用户的分类和标签包括:
步骤3101、获取用户历史上点击过的网络内容的分类和标签;
步骤3102、针对每一分类或标签,确定用户历史上点击过的该分类或 标签的网络内容数;
步骤3103、如果该网络内容数超过网络内容数阈值,将该分类或标签 作为用户的分类或标签。
在步骤3101,由于用户历史上点击过的网络内容的记录都在后台处理 服务器201存储,可以从后台处理服务器201调取用户历史上点击过的网 络内容记录。由于对于所有网络内容,都按如上所述打上分类和标签,因 此,可以从用户历史上点击过的网络内容记录中,获得户历史上点击过的 网络内容的分类和标签。
在步骤3102,由于已经获取到用户历史上点击过的网络内容的分类和 标签,就可以针对每一分类或标签,确定用户历史上点击过的该分类或标 签的网络内容数。
例如,用户历史上点击过10个网络内容,即网络内容1-10,这10个 网络内容的一级分类、二级分类和标签如下表:
表1用户历史上点击过的网络内容与分类和标签对应关系示例
从表1中可以看出,对于一级分类“搞笑”,用户历史上点击过的网 络内容数是5;对于一级分类“音乐”,用户历史上点击过的网络内容数是 3;对于一级分类“社会奇闻”,用户历史上点击过的网络内容数是1;对 于一级分类“访谈”,用户历史上点击过的网络内容数是1。
对于二级分类“脱口秀搞笑”,用户历史上点击过的网络内容数是3; 对于二级分类“接头采访搞笑”,用户历史上点击过的网络内容数是2; 对于二级分类“流行音乐”,用户历史上点击过的网络内容数是2;对于 二级分类“民谣音乐”,用户历史上点击过的网络内容数是1;对于二级 分类“犯罪类社会奇闻”,用户历史上点击过的网络内容数是1;对于二级分类“名人访谈”,用户历史上点击过的网络内容数是1。
对于标签“颜值”,用户历史上点击过的网络内容数是7;对于标签 “搞笑”,用户历史上点击过的网络内容数是6;对于标签“音乐”,用户 历史上点击过的网络内容数是3;对于标签“恐怖”,用户历史上点击过的 网络内容数是1。
假设网络内容数阈值为2.5。将“搞笑”、“音乐”、“社会奇闻”作 为用户的一级分类。将“脱口秀搞笑”作为用户的二级分类。将“颜值”、 “搞笑”、“音乐”作为用户的标签。
上面描述了针对一级分类、二级分类和标签,设置统一的网络内容数 阈值的示例,实际上,也可以针对一级分类、二级分类和标签,分别设置 不同的网络内容数阈值。
上述实施例的好处是,它巧妙地利用了用户历史上点击过的网络内容 的分类和标签,根据用户历史上对哪些分类和标签的网络内容最偏好,来 设置用户的分类和标签,保证了用户的分类和标签与网络内容的分类和标 签的对应性。同时,由于用户点击的网络内容的历史随着时间的推移会逐 渐变化,因此,使得用户的分类和标签动态随着其观看的网络内容的变化 而变化,使用户的分类和标签更客观反映实时的变化,准确率更高。
在步骤320中,获取候选的热点网络内容的分类和标签。
候选的热点网络内容是指作为向用户显示的热点网络内容的候选的热 点网络内容。它可以由后台编辑人员人工筛选,然后,通过接受人工输入 的方式来获取候选的热点网络内容。由于如上所述,每个网络内容都可以 按上述方式打上分类和标签,因此,可以获取到候选的热点网络内容的分 类和标签。
上述方式是通过后台编辑人员零散输入的方式实现获取候选的热点网 络内容的分类和标签。在一个更高效的实施例中,步骤320包括:
建立候选的热点网络内容库;
从候选的热点网络内容库中顺序取出候选的热点网络内容;
获取取出的候选的热点网络内容的分类和标签。
也就是说,该实施例不是由后台编辑人员零散地一个一个输入候选的 热点网络内容,而是统一建立候选的热点网络内容库,该候选的热点网络 内容库事先存储所有候选的热点网络内容。这时,就可以从中一个一个取 出候选的热点网络内容,再按如上所述的方式获取其打好的分类和标签。 相对于通过后台编辑人员零散输入的方式,该实施例通过预先建立的热点 网络内容库,以及顺序取出热点网络内容并处理的方式,提高了获取候选的热点网络内容的分类和标签的效率。
在步骤330中,基于用户的分类和标签与候选的热点网络内容的分类 和标签的匹配度,确定向用户显示的热点网络内容。
匹配度是指用户的分类和标签与候选的热点网络内容的分类和标签的 匹配程度。它可以有多种计算方式。
在一个实施例中,匹配度等于用户的一级分类与候选热点内容的一级 分类重合的个数、用户的二级分类与候选热点内容的二级分类重合的个数、 用户的标签与候选热点内容的标签重合的个数的和。用户有一个或多个一 级分类,候选热点内容也有一个或多个一级分类,这两者可能会有重合。 用户有一个或多个二级分类,候选热点内容也有一个或多个二级分类,这 两者可能会有重合。用户有一个或多个标签,候选热点内容也有一个或多 个标签,这两者可能会有重合。将这三种重合的个数加在一起,就是匹配 度。
例如,用户的一级分类是“搞笑”、“音乐”,二级分类是“脱口秀 搞笑”,标签是“音乐”、“颜值”、“户外”。候选热点内容一级分类 是“搞笑”、,二级分类是“接头采访搞笑”,标签是“颜值”、“户外”、 “搞笑”。用户的一级分类与候选热点内容的一级分类重合的有“搞笑”, 重合个数为1;用户的二级分类与候选热点内容的二级分类没有重合,重合 个数为0;用户的标签与候选热点内容的标签重合的有“颜值”、“户外”, 重合个数为2。因此,匹配度=1+0+2=3。
在一个实施例中,匹配度等于用户的一级分类与候选热点内容的一级 分类重合的个数、用户的二级分类与候选热点内容的二级分类重合的个数、 用户的标签与候选热点内容的标签重合的个数的加权和。即,为用户的一 级分类与候选热点内容的一级分类重合的个数、用户的二级分类与候选热 点内容的二级分类重合的个数、用户的标签与候选热点内容的标签重合的 个数分别分配一个权值,计算它们的加权和。例如,如果为用户的一级分 类与候选热点内容的一级分类重合的个数、用户的二级分类与候选热点内 容的二级分类重合的个数、用户的标签与候选热点内容的标签重合的个数 分配的权值分别为0.4,0.1,0.5。即,认为二级分类重合个数不如一级分类 重合个数、和标签重合个数重要。在上述用户的一级分类与候选热点内容 的一级分类重合个数为1、用户的二级分类与候选热点内容的二级分类的重 合个数为0、用户的标签与候选热点内容的标签重合个数为2的情况下,匹 配度=1×0.4+0×0.1+2×0.5=1.4。
该实施例相对于用用户的一级分类与候选热点内容的一级分类重合的 个数、用户的二级分类与候选热点内容的二级分类重合的个数、用户的标 签与候选热点内容的标签重合的个数的和作为匹配度的实施例,优点是, 充分考虑到了一级分类、二级分类、标签在确定基于用户的分类和标签与 候选的热点网络内容的分类和标签的匹配度中的不同作用,将对于确定匹 配度的因素突出出来,使得确定的匹配度更为反映客观实际。
基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配 度,确定向用户显示的热点网络内容也有多种实施方式。
在一种实施方式中,设置匹配度阈值。如果所述匹配度大于匹配度阈 值,确定向用户显示所述候选的热点网络内容。
在另一种实施方式中,将用户的分类和标签与每个候选的热点网络内 容的分类和标签的匹配度进行从大到小排名,将从大到小前预定数目个候 选的热点网络内容确定为向用户显示的候选的热点网络内容。在一个实施 例中,预定数目等于向用户显示网络内容的页面中允许用来显示热点网络 内容的个数。例如,在图1A中,向用户显示网络内容的页面中只有2个位 置用来显示热点网络内容;在图1C中,向用户显示网络内容的页面中也只 有2个位置用来显示热点网络内容。在这样的情况下,预定数目为2。即, 将从大到小前2名候选的热点网络内容确定为向用户显示的候选的热点网 络内容。
该实施例与设置匹配度阈值的实施例相比,好处在于,按照向用户显 示网络内容的页面中允许用来显示热点网络内容的个数,来选取匹配度高 的候选的热点网络内容,避免了按照匹配度阈值筛选有可能入选的候选的 热点网络内容的数目与能够在页面中显示的热点网络内容数不一致而无法 显示。
在一个实施例中,步骤330包括:基于用户的分类和标签与候选的热 点网络内容的分类和标签的匹配度、以及候选的热点网络内容的热度,确 定向用户显示的热点网络内容。
候选的热点网络内容的热度是反映了候选的热点网络内容受用户欢迎 程度的度量。
该实施例的优点在于,与仅考虑用户的分类和标签与候选的热点网络 内容的分类和标签的匹配度来确定向用户显示的热点网络内容的实施例相 比,该实施例还考虑到每个候选的热点网络内容的固有热度可能本身就不 一样,也会对是否应向用户推荐所述候选的热点网络内容造成影响。如果 某一候选的热点网络内容的分类和标签方面与用户的分类和标签的匹配度 不算太高,但该热点网络内容热度非常高,只要一向用户推送,就非常受 用户欢迎,则在某些情况下,也需要向用户推送。因此,除了考虑用户的 分类和标签与候选的热点网络内容的分类和标签的匹配度,还考虑候选的 热点网络内容本身的热度,提高了推送热点网络内容的效果。
在一个实施例中,基于用户的分类和标签与候选的热点网络内容的分 类和标签的匹配度、以及候选的热点网络内容的热度,确定向用户显示所 述候选的热点网络内容,可以采取基于用户的分类和标签与候选的热点网 络内容的分类和标签的匹配度、以及候选的热点网络内容的热度的和、以 及预定的和阈值的比较的方式。如果所述匹配度和所述热度相加后的结果 高于预定的和阈值,则确定向用户显示所述候选的热点网络内容。
在另一个实施例中,如图5所示,所述基于用户的分类和标签与候选 的热点网络内容的分类和标签的匹配度、以及候选的热点网络内容的热度, 确定向用户显示的热点网络内容,具体包括:
步骤3301、确定所述匹配度和热度的加权和;
步骤3302、如果所述加权和满足预定条件,确定向用户显示所述候选 的热点网络内容。
该实施例的好处在于:用户的分类和标签与候选的热点网络内容的分 类和标签的匹配度对于判定是否向用户显示该热点网络内容的贡献、与候 选的热点网络内容的热度对于判定是否向用户显示该热点网络内容的贡献 可能是不一样的。基于加权和来确定是否向用户显示热点网络内容,充分 考虑到了用户的分类和标签与候选的热点网络内容的分类和标签的匹配度 对于判定是否向用户显示该热点网络内容的贡献、与候选的热点网络内容 的热度对于判定是否向用户显示该热点网络内容的贡献的不同,使得推送 结果被用户接受的几率更大。
在一个实施例中,所述预定条件包括:所述加权和大于预定加权和阈 值。
在另一实施例中,所述预定条件包括:所述候选的热点网络内容的所 述加权和在全部候选的热点网络内容的所述加权和中从大到小排在前预定 数目内,所述预定数目等于向用户显示网络内容的页面中允许用来显示热 点网络内容的个数。
该实施例与判断所述加权和是否大于预定加权和阈值的实施例相比,好 处在于,按照向用户显示网络内容的页面中允许用来显示热点网络内容的 个数,来选取加权和大的候选的热点网络内容,避免了按照加权和阈值筛 选有可能入选的候选的热点网络内容的数目与能够在页面中显示的热点网 络内容数不一致而无法显示。
在一个实施例中,所述热度是按照点击数的增函数产生的,其中所述 点击数是所述候选的热点网络内容在网络上被点击总次数。也就是说,该 实施例仅根据点击数来确定热度。候选的热点网络内容的热度是反映了候 选的热点网络内容受用户欢迎程度的度量。该实施例仅认为候选的热点网 络内容受用户欢迎程度与点击数有关。实际上,将该网络内容向用推送100 万次被用户点击了1000次和将该网络内容向用推送1500次被用户点击了1000次,是截然不同的。
在另一个实施例中,所述热度为点击数分值与点击数随曝光数变化分 值的和,其中所述点击数分值是按照点击数的增函数产生的,所述点击数 随曝光数变化分值是按照点击数的增函数、曝光数的减函数产生的,所述 点击数是所述候选的热点网络内容在网络上被点击总次数,所述曝光数是 所述候选的热点网络内容在网络上显示给用户的总次数。
该实施例的好处在于,它没有简单地只根据点击数来确定热度,而是 包括两项的和,前一项主要反映点击数的贡献,后一项主要反映点击数随 曝光数的增长的贡献。因此,它比较全面地反映了对于衡量热度来说,点 击数和曝光数的关系。这样计算出的热度,增加了向用户推送热点网络内 容被用户接受的几率。
在一个实施例中,可以简单地规定,让点击数分值与点击数成正比, 点击数随曝光数变化分值与点击数除以曝光数的比率成正比,即:
S1=k1c(公式1)
其中,S1是所述点击数分值;c是所述点击数;k1为正的常数。
其中,S2是所述点击数随曝光数变化分值;c是所述点击数;p是所述 点击数;k2为正的常数。
在另一个实施例中,所述点击数分值按照下式计算:
其中,S1是所述点击数分值;c是所述点击数;c0是点击数阈值;sgn() 是符号函数,在()中为正数取值为1,在()中为负数取值为0;a1和 u1为正的常数。
公式3相对于公式1的一个优点在于,它对较小的点击数进行控制。 由于在c不超过c0的情况下,sgn(c-c0)=0,点击数分值为一个固定值。它可 以避免样本量较小引入的统计量不可信的问题。另外,它用这样一个函数替代了简单的S1=k1c,是因为相对于线性函数 可以更好地描摹点击数变化与是否应推荐给用户的强烈程度的关系,使得 推荐的热点网络内容被用户接受的几率增大。
在另一个实施例中,所述点击数随曝光数变化分值按照下式计算:
其中,S2是所述点击数随曝光数变化分值;c是所述点击数;c0是点击 数阈值;p是所述点击数;p0是点击数阈值;sgn()是符号函数,在() 中为正数取值为1,在()中为负数取值为0;a2和u2为正的常数。
公式4相对于公式2的一个优点在于,它对曝光数不足的候选的热点 网络内容给予保护。对于曝光数不足的候选的热点网络内容,其被用户点 击的可能性自然会小,因此,在p不超过p0的情况下,sgn(p-p0)=0,S2为 0。这样,对于曝光数不足的候选的热点网络内容,点击数随曝光数变化分 值这项是无差别的,因此对这些曝光数不足的候选的热点网络内容而言, 是一种保护。而当p超过p0的情况下,c还达不到c0,S2仍然为0,加大了 对曝光率足够却仍然不受欢迎的热点网络内容的惩罚。另外,它也可以避 免样本量较小引入的统计量不可信的问题。
另外,在一个实施例中,用户的分类和标签与候选的热点网络内容的 分类和标签的匹配度的计算可以引入向量点积的方式,即所述匹配度按照 下式计算:
其中,M为所述匹配度;
vec(User_Cate1)是用户的一级分类向量,该向量的元素数等于一级分类 全部种类数,该向量的元素值为1或0,1表示相应位置的一级分类种类是 所述用户的一级分类,0表示相应位置的一级分类种类不是所述用户的一级 分类;
vec(User_Cate2)是用户的二级分类向量,该向量的元素数等于二级分类 全部种类数,该向量的元素值为1或0,1表示相应位置的二级分类种类是 所述用户的二级分类,0表示相应位置的二级分类种类不是所述用户的二级 分类;
vec(User_Tag)是用户的标签向量,该向量的元素数等于标签全部种类 数,该向量的元素值为1或0,1表示相应位置的标签种类是所述用户的标 签,0表示相应位置的标签种类不是所述用户的标签;
vec(Content_Cate1)是候选的热点网络内容的一级分类向量,该向量的元 素数等于一级分类全部种类数,该向量的元素值为1或0,1表示相应位置 的一级分类种类是所述候选的热点网络内容的一级分类,0表示相应位置的 一级分类种类不是所述候选的热点网络内容的一级分类;
vec(Content_Cate2)是候选的热点网络内容的二级分类向量,该向量的元 素数等于二级分类全部种类数,该向量的元素值为1或0,1表示相应位置 的二级分类种类是所述候选的热点网络内容的二级分类,0表示相应位置的 二级分类种类不是所述候选的热点网络内容的二级分类;
vec(Content_Tag)是候选的热点网络内容的标签向量,该向量的元素数等 于标签全部种类数,该向量的元素值为1或0,1表示相应位置的标签种类 是所述候选的热点网络内容的标签,0表示相应位置的标签种类不是所述候 选的热点网络内容的标签。
举一个简单的例子。假设一级分类全部种类只包括搞笑、音乐两个一 级分类,二级分类全部种类只包括脱口秀搞笑、接头采访搞笑、流行音乐、 民谣音乐四个一级分类、标签全部种类只包括颜值、恐怖两个标签。这时,vec(User_Cate1)只包括两个元素,元素值为1或0;vec(User_Cate2)只包括四 个元素,元素值为1或0;vec(User_Tag)只包括两个元素,元素值为1或0; vec(Content_Cate1)只包括两个元素,元素值为1或0;vec(Content_Cate2)只包 括四个元素,元素值为1或0;vec(Content_Tag)只包括两个元素,元素值为 1或0。用户的一级分类为搞笑,二级分类为脱口秀搞笑,标签为颜值、恐 怖。候选的热点网络内容的一级分类为搞笑,二级分类为接头采访搞笑, 标签为颜值。这时:
M=(1,0,1,0,0,0,1,1)·(1,0,0,1,0,0,1,0)T=1×1+0×0+1×0+0×1+0×0+0×0+1×1+1×0=2。
从上述计算过程可以看出,如果用户具有某种一级分类,而候选的热 点网络内容也具有该一级分类,则向量点积中相应元素相乘项为1×1。除 此之外的元素相乘项都为1×0、0×1、0×0。因此,公式5可以正确计算 出用户的一级分类、二级分类、标签中与候选的热点网络内容的相应一级 分类、二级分类、标签恰好重合的数量。
该实施方式的好处是,通过向量点积的方式计算匹配度,由于计算机 存储向量数据是容易的,向量之间的计算会减少计算机处理资源的占用, 该实施方式大大提高了推荐热点网络内容的效率。
另外,在一个实施例中,如图7所示,所述方法在步骤330之后还包 括:步骤340、将所确定的热点网络内容加入向用户显示网络内容的页面中 的预定位置显示。该预定位置例如图1A中的页面显示的网络内容从上到下 第2、4个位置,或者图1C中的页面显示的网络内容最下面的2个位置。
另外,在一个实施例中,如图8所示,在步骤320之前,所述方法还 包括:步骤307、获取用户的分类和标签各自的权重。步骤320是在确定出 所述用户的分类和标签各自的权重符合预定条件的情况下执行。虽然在图8 中,将步骤307示出在步骤320之前,本领域技术人员应当理解,将步骤 307设置在步骤310之前,或者设置在流程的其它时序,都是可能的。
分类或标签权重是反映用户历史上观看带有该分类或标签的网络内容 的频度的量。如上所述,用户的分类和标签是与网络内容的分类和标签对 应的。用户的分类实际上是其观看得比较多的网络内容的分类。用户的标 签实际上是其观看得比较多的网络内容的标签。用户有多个分类或多个标 签,证明这多个分类或标签的网络内容是用户比较经常观看的,但对于这 多个分类或标签来说,用户观看的次数或频度也不一样。例如,用户有两个标签“颜值”和“恐怖”。用户历史上观看了带有“颜值”标签的网络 内容6000个,观看了带有“恐怖”标签的网络内容4000个。这时“颜值” 这个标签显然比“恐怖”这个标签对用户更重要。相应地,“颜值”这个 标签的权重就要比“恐怖”这个标签的权重要大一些。
本公开的发明人发现,如上所述的基于用户的分类和标签与候选的热 点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内容的方 式,或者,基于用户的分类和标签与候选的热点网络内容的分类和标签的 匹配度、以及候选的热点网络内容的热度,确定向用户显示的热点网络内 容的方式,对于经常有互联网行为的用户,例如经常对网络内容点击或选 择的用户,效果特别明显。对于一些不常上互联网,或者上互联网之后也 对网络内容不点击的用户,效果不是很明显。因为上述方法基于用户的分 类和标签与候选的热点网络内容的分类和标签的匹配度来为用户个性化推 送候选的热点网络内容,但如果该用户不常有网络行为,或者不常对网络 内容进行点击,其行为样本偏少,在此基础上给用户贴的分类或标签就不 准确,基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配 度来为用户个性化推送热点网络内容效果就稍差。基于用户的分类和标签 各自的权重,就能确定用户是否是不经常有网络行为的用户,或者用户是 否是不常对网络内容进行点击的用户。因为,如果用户不常对网络内容进 行点击,其一级分类权重、二级分类权重、标签权重往往比较分散,其偏 好看不出什么规律,因为样本太小。反之,如果用户常常对网络内容进行 点击,其一级分类权重、二级分类权重、标签权重中往往有的权重会特别 高,因为用户经常对网络内容点击,就容易就某些类型或标签的网络内容 表现出强烈的偏好。这时,其一级分类权重、二级分类权重、标签权重往 往比较集中,而且大小有时差距较大。因此,通过确定所述用户的分类和 标签各自的权重是否符合预定条件,就能判断出用户是常对网络内容进行 点击的用户,还是不常对网络内容进行点击的用户,从而采取不同的策略, 提高向用户推荐热点网络内容的效果。
一级分类权重是反映用户的一级分类在该用户的全部一级分类中的重 要性的度量。如果用户只有一个一级分类,它的权重就是100%。如果用户 有多个一级分类,每个一级分类的权重之和为100%。例如,用户有两个一 级分类,其中一个一级分类的权重是60%,另一个一级分类的权重是40%, 则前者对于用户的重要性更高,或者说,与用户的匹配度更高。
二级分类权重是反映用户的二级分类在该用户的全部二级分类中的重 要性的度量。如果用户只有一个二级分类,它的权重就是100%。如果用户 有多个二级分类,每个二级分类的权重之和为100%。例如,用户有两个二 级分类,其中一个二级分类的权重是60%,另一个二级分类的权重是40%, 则前者对于用户的重要性更高,或者说,与用户的匹配度更高。
标签权重是反映用户的标签在该用户的全部标签中的重要性的度量。 如果用户只有一个标签,它的权重就是100%。如果用户有多个标签,每个 标签的权重之和为100%。例如,用户有两个标签,其中一个标签的权重是 60%,另一个标签的权重是40%,则前者对于用户的重要性更高,或者说, 与用户的匹配度更高。
在一个实施例中,可以如下确定所述用户的分类和标签各自的权重。
w(User_Cate1i)是用户的第i个一级分类的权重,其中i=1,……,N1, N1是用户的一级分类数。w(User_Cate1i)如下确定:
获取用户历史上点击过的网络内容的一级分类;
针对用户的每个一级分类,确定用户历史上点击过的该一级分类的网 络内容数;
用用户历史上点击过的第i个一级分类的网络内容数除以用户历史上 点击过的所有该N1个一级分类的网络内容数,得到w(User_Cate1i)。
由于从后台处理服务器201可以获得用户历史上点击过的网络内容的 记录,而如上所述,对于每一个网络内容,其一级分类是分好的,因此, 可以从用户历史上点击过的网络内容的记录中获取用户历史上点击过的网 络内容的一级分类。这样,针对用户的每个一级分类,就可以确定用户历 史上点击过的该一级分类的网络内容数。对于用户的每个一级分类而言, 用户历史上点击过的该一级分类的网络内容数越多,说明该用户越偏好该 一级分类,因此,用用户历史上点击过的第i个一级分类的网络内容数除 以用户历史上点击过的所有该N1个一级分类的网络内容数,是能够反映用 户对各一级分类的偏好度比例关系的,用其作为权重能够提高不常点击网 络内容的用户的检出效率。
例如,用户有2个一级分类:搞笑和音乐。用户历史上点击过100个 网络内容,其中60个网络内容的一级分类是搞笑,20个网络内容的一级分 类是音乐,10个网络内容的一级分类是游戏,10个网络内容的一级分类是 社会奇闻。对于搞笑这个一级分类来说,其权重w(User_Cate11)=60/(60+20)=75%。对于音乐这个一级分类来说,其权重 w(User_Cate12)=20/(60+20)=25%。
w(User_Cate2i)是用户的第i个二级分类的权重,其中i=1,……,N2。 N2是用户的二级分类数。w(User_Cate2i)如下确定:
获取用户历史上点击过的网络内容的二级分类;
针对用户的每个二级分类,确定用户历史上点击过的该二级分类的网 络内容数;
用用户历史上点击过的第i个二级分类的网络内容数除以用户历史上 点击过的所有该N2个二级分类的网络内容数,得到w(User_Cate2i)。
由于从后台处理服务器201可以获得用户历史上点击过的网络内容的 记录,而如上所述,对于每一个网络内容,其二级分类是分好的,因此, 可以从用户历史上点击过的网络内容的记录中获取用户历史上点击过的网 络内容的二级分类。这样,针对用户的每个二级分类,就可以确定用户历 史上点击过的该二级分类的网络内容数。对于用户的每个二级分类而言, 用户历史上点击过的该二级分类的网络内容数越多,说明该用户越偏好该 二级分类,因此,用用户历史上点击过的第i个二级分类的网络内容数除 以用户历史上点击过的所有该N2个二级分类的网络内容数,是能够反映用 户对各二级分类的偏好度比例关系的,用其作为权重能够提高不常点击网 络内容的用户的检出效率。
例如,用户有2个二级分类:脱口秀搞笑和流行音乐。用户历史上点 击过100个网络内容,其中60个网络内容的二级分类是脱口秀搞笑,20个 网络内容的二级分类是流行音乐,10个网络内容的二级分类是接头采访搞 笑,10个网络内容的二级分类是民谣音乐。对于脱口秀搞笑这个二级分类 来说,其权重w(User_Cate21)=60/(60+20)=75%。对于流行音乐这个二级分类 来说,其权重w(User_Cate22)=20/(60+20)=25%。
w(User_Tagi)是用户的第i个标签的权重,其中i=1,……,N3。N3是用 户的标签数。w(User_Tagi)如下确定:
获取用户历史上点击过的网络内容的标签;
针对用户的每个标签,确定用户历史上点击过的该标签的网络内容数;
用用户历史上点击过的第i个标签的网络内容数除以用户历史上点击 过的所有该N3个标签的网络内容数,得到w(User_Tagi)。
由于从后台处理服务器201可以获得用户历史上点击过的网络内容的 记录,而如上所述,对于每一个网络内容,其标签是确定好的,因此,可 以从用户历史上点击过的网络内容的记录中获取用户历史上点击过的网络 内容的标签。这样,针对用户的每个标签,就可以确定用户历史上点击过 的该标签的网络内容数。对于用户的每个标签而言,用户历史上点击过的 该标签的网络内容数越多,说明该用户越偏好该标签,因此,用用户历史 上点击过的第i个标签的网络内容数除以用户历史上点击过的所有该N3个 标签的网络内容数,是能够反映用户对各标签的偏好度比例关系的,用其 作为权重能够提高不常点击网络内容的用户的检出效率。
例如,用户有2个标签:颜值和户外。用户历史上点击过90个网络内 容,其中60个网络内容的标签是颜值,20个网络内容的标签是户外,10 个网络内容的标签是恐怖。对于颜值这个标签来说,其权重 w(User_Tag1)=60/(60+20)=75%。对于户外这个标签来说,其权重 w(User_Tag2)=20/(60+20)=25%。
在一个实施例中,所述预定条件包括:基于所述用户的分类和标签各 自的权重确定出的用户的分类和标签集中度高于预定集中度阈值。
用户的分类和标签集中度是反映用户的分类和权重的集中程度的度 量。如下所述,它可以按多种方式计算。
在一个实施例中,用户的分类和标签集中度按照下式确定:
其中,C是用户的分类和标签集中度;N1、N2、N3分别是用户的一级 分类数、二级分类数、标签数;w(User_Cate1i)是用户的第i个一级分类的 权重,其中i=1,……,N1;w(User_Cate2i)是用户的第i个二级分类的权重, 其中i=1,……,N2;w(User_Tagi)是用户的第i个标签的权重,其中 i=1,……,N3,w1、w2、w3是正的常数。
在公式6中,将用户的每个一级分类的权重取平均值,将用户的每个 二级分类的权重取平均值、将用户的每个标签的权重取平均值,再求三个 平均值的加权和,能够反映出用户的分类和标签各自的权重的集中程度。 由于不常点击网络内容的用户对互联网网站或应用的网络内容的利用次数 不多,其一级分类、二级分类、标签中可能都没有明显的偏好,各一级分 类、二级分类、标签的权重可能取值比较离散,没有明显一个权重特别高。因此,这些平均值相对来说可能比较低,公式6计算出的分类和标签集中 度也会比较低。
在另一实施例中,用户的分类和权重集中度按照下式确定:
其中,C是用户的分类和标签集中度;N1、N2、N3分别是用户的一级 分类数、二级分类数、标签数;w(User_Cate1i)是用户的第i个一级分类的 权重,其中i=1,……,N1;w(User_Cate2i)是用户的第i个二级分类的权重, 其中i=1,……,N2;w(User_Tagi)是用户的第i个标签的权重,其中 i=1,……,N3,w1、w2、w3是正的常数。
该实施例采用了公式7计算用户的分类和标签集中度,相对于公式6, 公式7各权重平方和取平均,最后相加并开方的方式,接近于方差的计算 公式,能够更精确地反映各权重之间的集中程度,使得向用户推荐热点网 络内容的效果更好。
该实施例通过自动确定所述用户的分类和标签各自的权重是否符合预 定条件,来确定是否执行基于用户的分类和标签与候选的热点网络内容的 分类和标签的匹配度向用户推送热点网络内容的处理,与人工判定该用户 是否是不常点击网络内容的用户相比,提高了自动化处理程度,提高了为 用户推荐热点网络内容的效率。
在一个实施例中,所述方法还包括:
如果确定出所述用户的分类和标签各自的权重不符合预定条件,按照 向用户显示网络内容的页面中允许用来显示热点网络内容的个数,从候选 的热点网络内容库选择候选的热点网络内容向用户显示。
对于不常点击网络内容的用户,其对网络内容的偏好不是十分明显。 因此,对于这些用户,可以从候选的热点网络内容库随机选择候选的热点 网络内容向用户显示。对于偏好不明显的用户,向其推送随机候选的热点 网络内容更有利于使推送内容被其接受。因此,该实施例提高了向用户推 送热点网络内容的效果。
如图3所示,基于用户的分类和标签与候选的热点网络内容的分类和 标签的匹配度,确定向用户显示的热点网络内容,或者,基于用户的分类 和标签与候选的热点网络内容的分类和标签的匹配度、以及候选的热点网 络内容的热度,确定向用户显示的热点网络内容,主要是在流处理单元2025 进行的。公式1-4中需要的点击数和曝光数,主要是在点击数收集模块2027 和曝光数收集模块2028中进行的。点击数收集模块2027和曝光数收集模块2028从页面接口2029收集用户对网络内容的点击信息和向用户曝光的 网络内容。由于候选的热点网络内容库是存储在分布式处理平台2024上的。 分布式处理平台2024包括分布式的多台计算机设备,因此候选的热点网络 内容库可能存储在多台计算机设备上。由于每台计算机设备存储热点网络 内容的数目不同,这样,选择一些计算机设备来提取热点网络内容,就从 概率上不是真正随机的。为了从分布式计算机设备上提取热点网络内容, 还要保证随机的效果,在一个实施例中,如图9所示,所述方法还包括:
步骤410、如果确定出所述用户的分类和标签各自的权重不符合预定条 件,从候选的热点网络内容库取候选的热点网络内容到缓冲池2026,直到 取出的候选的热点网络内容达到所述允许用来显示热点网络内容的个数;
步骤420、从候选的热点网络内容库中取未取过的一个候选的热点网络 内容,随机替换掉缓冲池2026中的一个候选的热点网络内容,直到候选的 热点网络内容库中没有未取过的候选的热点网络内容;
步骤430、将缓冲池2026中的候选的热点网络内容向用户显示。
在该实施例中,设置了一个缓冲池2026,只要是从候选的热点网络内 容库取候选的热点网络内容,无论是从哪个分布式计算设备取出候选的热 点网络内容,都存储在该缓冲池2026。这样,缓冲池2026的存在模糊了候 选的热点网络内容的来源。在取出的候选的热点网络内容未达到所述允许 用来显示热点网络内容的个数之前,一条一条地取候选的热点网络内容到 缓冲池2026。一旦达到,就从候选的热点网络内容库中取未取过的一个候选的热点网络内容,随机替换掉缓冲池2026中的一个候选的热点网络内容, 直到候选的热点网络内容库中没有未取过的候选的热点网络内容。这样, 缓冲池中一直保持所述允许用来显示热点网络内容的个数,最后缓冲池中 留下的候选的热点网络内容就可以向用户显示。由于每次取候选的热点网 络内容替换掉缓冲池2026中的一个候选的热点网络内容是随机的,这样, 就保证了缓冲池中最后留下的候选的热点网络内容是随机的。从而,实现了从存储在分布式计算设备上的候选的热点网络内容库中,随机提取热点 网络内容的问题。
在一个实施例中,候选的热点网络内容库可以通过编辑人员人工选择 候选的热点网络内容来建立。但在另一个实施例中,也可以通过机器自动 化的方式来建立。机器选择的方式消除了人的主观判断的干扰,使得选出 的加入候选的热点网络内容库的候选的热点网络内容更客观。而且,机器 选择的方式扩展了网络内容的来源。
如图10所示,在机器实现建立候选的热点网络内容库的一个实施例中, 候选的热点网络内容库是如下建立的:
步骤510、获取热点词;
步骤520、获取网络内容;
步骤530、基于网络内容的题目与热点词的匹配度、网络内容的标签与 热点词的匹配度,确定将所述网络内容作为候选的热点网络内容,加入候 选的热点网络内容库。
热点词即网络热词,为行业内通用术语,指互联网中最近一段时间出 现的、在互联网中具有高热度的词语。获取热点词有多种方式。
一种获取热点词的方式可以是接收编辑人员的输入。即,编辑人员主 观判断热点词,将其通过编辑人员的界面输入。在一个实施例中,编辑人 员输入的热点词存储在如图3所示的配置文件2021中。
另一种获取热点词的方式是从网站的热点词排行榜中抓取热点词。该 网站可以是当前网站,也可以从其它网站。由于许多网站都有热点词排行 榜,从这些网站的热点词排行榜中都可以抓取热点词。在一个实施例中, 将抓取的热点词放置在如图3所示的抓取热点词库2022中。
另一种方式是将网络最新近的大量文章进行分词,然后对相邻的分成 的词进行组合,组合成候选短语,对于分出的词和候选短语,统计它们各 自在网络最新近的一些文章组成的库中出现的次数,出现次数超过一定阈 值时,则可以认为是热点词。最后一种方式,相对于前两种方式,具有能 够实时跟踪网络内容的最新变化的优点。
在一个实施例中,网络内容可以从一个预先设置的网络内容库获取。
一般来说,互联网上向用户推送的网络内容就有一个题目。在网络内 容是文章时,网络内容的题目是指文章标题。在网络内容是视频时,视频 旁边也会有题目,表明视频的内容。在网络内容是新闻时,网络内容的题 目是指新闻标题,等等。在一个实施例中,网络内容的题目和标签统称为 网络内容的索引,存储在图3所示的网络内容索引库2023中。
网络内容的题目与热点词的匹配度是指网络内容的题目与热点词的匹 配的程度。如下所述,它可能有多种计算方式。
网络内容的标签与热点词的匹配度是指网络内容的标签与热点词的匹 配的程度。如下所述,它可能有多种计算方式。
该实施例的优点是,在确定将所述网络内容作为候选的热点网络内容, 加入候选的热点网络内容库时,不止考虑了网络内容的题目与热点词的匹 配度,还考虑了网络内容的标签与热点词的匹配度,提高了候选的热点网 络内容的质量。
如图11所示,在一个实施例中,步骤530可以包括:
步骤5301、基于网络内容的题目与热点词的匹配度、网络内容的标签 与热点词的匹配度,确定网络内容与热点词的匹配度;
步骤5302、如确定网络内容与热点词的匹配度高于匹配度阈值,将所 述网络内容作为候选的热点网络内容,加入候选的热点网络内容库。
在一个实施例中,步骤530由图3的分布式处理平台2024执行。分布 式处理平台2024可由多台分布式计算机组成,其既具有处理功能,有具有 存储功能。其从配置文件2021或抓取热度词库2022取出热点词,从网络 内容索引库2023取出网络内容的题目和标签,执行步骤5301-5302的功能。 同时,候选的热点网络内容库也分布式存储于分布式处理平台2024的多台 分布式计算机上。当将所述网络内容作为候选的热点网络内容后,加入到该多台分布式计算机上存储。
网络内容与热点词的匹配度是指网络内容与热点词的综合匹配程度。 它有多种计算方式。
在一个实施例中,网络内容与热点词的匹配度可以用网络内容的题目 与热点词的匹配度、网络内容的标签与热点词的匹配度的和来计算。
在另一个实施例中,网络内容与热点词的匹配度可以用网络内容的题 目与热点词的匹配度、网络内容的标签与热点词的匹配度的平均数来计算。
在另一个实施例中,网络内容与热点词的匹配度可以用网络内容的题 目与热点词的匹配度、网络内容的标签与热点词的匹配度的加权和来计算。 相对于前两种计算方式,该实施例充分考虑到了网络内容的题目与热点词 的匹配度、网络内容的标签与热点词的匹配度,对于确定网络内容整体与 热点词的匹配度来说,贡献可能是不一样的。因此,该实施例大大提高了 候选的热点网络内容库中候选的热点网络内容的质量。
在一个实施例中,网络内容的题目与热点词的匹配度如下确定:
确定网络内容的题目含有热点词的数目;
用所述数目除以全部热点词数目,得到所述匹配度。
也就是说,该实施例中,认为网络内容的题目含有热点词,算作一个 匹配。该网络内容的题目含有热点词越多,则匹配越多。然后,计算找到 的匹配数占全部热点词数目的比例,作为匹配度。
然而,网络内容的题目与热点词存在不完全匹配的情况,例如部分连 续字符相同。例如,网络内容的题目是“我好香菇”,热点词与“蓝瘦香 菇”。虽然网络内容的题目不完全包含热点词,但显然也与热点词有一定 的相关度。这种情况下,该网络内容也有可能是比较热点的网络内容。因 此,在另一个实施例中,充分考虑网络内容的题目与热点词部分连续字符 相同对热点网络内容的识别的影响,提高找出候选的热点网络内容的准确 度。
在该实施例中,网络内容的题目与热点词的匹配度按下式计算:
其中,P1是热点词的个数;Length(Wordi)是第i个热点词的字符数, i=1,……P1;Length(Title)是网络内容的题目的字符数; Continue_Match(Content_Title,Hot_Wordi)是第i个热点词与网络内容的题目连 续匹配的字符数。
热点词的字符数是指热点词包括的字符的数目。在热点词既有中文, 又有英文或标点符号的情况下,中文字算2个字符,英文字母或标点符号 算1个字符。如果有其它外文符号或运算符号等的情况下,按预定方式折 算成字符数。连续匹配是指第i个热点词与网络内容的题目中连续若干个 字符都相同。例如,网络内容的题目是“真坑爹,好香菇”,热点词是“蓝 瘦香菇”,“香菇”是连续匹配的字符。由于中文字按2个字符计,因此, 网络内容的题目与该热点词连续匹配的字符数为4。假设网络内容的题目是 “真坑爹,好香菇”,热点词有两个,分别是“蓝瘦香菇”和“坑爹”, 则按照公式8,网络内容的题目与热点词的匹配度为
由于热点词越长,网络内容的题目越长,网络内容和热点词之间越容 易有连续匹配,因此该实施例中,用第i个热点词与网络内容的题目连续 匹配的字符数除以第i个热点词与网络内容的题目各自的字符数的乘积, 再求平均。这样的算法客观地反映了网络内容题目和热点词之间的连续匹 配字符数、网络内容题目字符数、热点词字符数的综合影响,提高了获得 的候选的热点网络内容的准确性。
在一个实施例中,网络内容的标签与热点词的匹配度可以如下确定:
针对网络内容的每个标签,确定该标签包含的热点词数目;
将针对网络内容的全部标签确定出的热点词数目加和,得到所述匹配 度。
网络内容可以有多个标签,热点词也是多个热点词。可以将每个标签 与多个热点词比对,确定该标签包含的热点词数目。将针对网络内容的全 部标签确定出的热点词数目加和,得到所述匹配度。也就是说,在该实施 例中,只要网络内容的一个标签包含一个热点词,就认为发生一次匹配。 统计每个标签包含的热点词数,即每个标签发生的匹配数。再统计该网络 内容的所有标签发生的匹配数,得到匹配度。
然而,网络内容的多个标签重要性程度可能不一样,也就是说每个标 签的权重不一样。因此,在另一个实施例中,充分考虑了网络内容的每个 标签的权重不同对候选的热点网络内容的识别产生的影响,提高了确定出 的候选的热点网络内容的质量。
在该实施例中,网络内容的标签与热点词的匹配度按下式计算:
其中,P1是热点词的个数;Q1是该网络内容的标签数; Match(Hot_Wordi,Content_Tagj)是第i个热点词与该网络内容的第j个标签的 匹配函数,其中,若第i个热点词与该网络内容的第j个标签匹配,则 Match(Hot_Wordi,Content_Tagj)=1,若不匹配,则 Match(Hot_Wordi,Content_Tagj)=0,i=1,……P1,j=1,……Q1,w(Content_Tagj) 是该网络内容的第j个标签的权重。
公式9中,若第i个热点词与该网络内容的第j个标签不匹配, Match(Hot_Wordi,Content_Tagj)=0,相应地 若第i个热点词与该 网络内容的第j个标签匹配,Match(Hot_Wordi,Content_Tagj)=1,这时, w(Content_Tagj)越大,即该标签的权重越大,该项越大。如果发生匹配的都 是权重大的标签,即重要标签,则计算出的匹配度就会越大。如果发生匹 配的都是权重小的标签,即不重要标签,则计算出的匹配度就会越小。
上述实施例涉及网络内容标签的权重。在一个实施例中,网络内容的 标签的权重如下确定。
当网络内容被打上多个标签时,每个标签对这个网络内容来说的重要 性是不一样的,或者说,虽然每个标签与该网络内容都匹配,但匹配度可 能仍然有区别。在一个实施例中,还可以基于为不同标签确定的在该网络 内容和网络内容的用户评论中的命中次数,确定各标签的权重。标签的权 重是衡量在网络内容的全部标签中各标签的相对重要性的指标。在网络内 容的全部标签中,各标签的权重之和为1。
在一个实施例中,在网络内容打有多个标签的情况下,可以按以下方 式确定标签的权重:
确定该标签在该网络内容和网络内容的用户评论中的命中次数占所述 多个标签在该网络内容和网络内容的用户评论中的命中次数的总和的比, 作为该标签的权重。
在一个实施例中,标签在网络内容和网络内容的用户评论中的命中次 数可以如下确定:
将网络内容和网络内容的用户评论分词;
参考分词与标签对应关系表,确定分成的词与标签是否命中;
确定分成的词中命中的词的数目,作为所述命中次数。
分词与标签对应关系表是预先设定的、存储分成的词与标签的对应关 系的列表。例如,将“帅”、“美”、“美丽”、“漂亮”等词都设置为 与“颜值”这个标签对应;将“吓人”、“害怕”、“可怕”等词都设置 为与“恐怖”这个标签对应。如果分成的词与标签对应,则认为命中。然 后,确定分成的词中命中的词的数目,作为所述命中次数。
例如,某一网络内容被打上“颜值”和“脱口秀”两个标签。在网络 内容和网络内容的用户评论分成的词中,有60个词与“颜值”命中,有40 个词与“脱口秀”命中。因此,“颜值”在该网络内容和网络内容的用户 评论中的命中次数为60,“脱口秀”在该网络内容和网络内容的用户评论 中的命中次数为40,则“颜值”的权重是60/(60+40)=60%,而“脱口秀”的权重是40/(60+40)=40%。
该确定标签的权重的方式的优点在于,利用简单的命中次数的统计, 能够快速准确地确定网络内容打上的多个标签各自的权重。同时,由于不 仅考虑标签在网络内容本身中的命中次数,还考虑在网络内容的用户评论 中的命中次数,提高了确定出的标签的权重的准确率。
另外,在一个实施例中,建立的候选的热点网络内容库不是固定不变 的,而是定期将其中无效的网络内容删除,从而使得候选的热点网络内容 库中维护的候选的热点网络内容都是比较有热度的,提高该候选的热点网 络内容库的质量,从而提高为用户推荐热点网络内容的效率。
在一个实施例中,可以由编辑人员定期对候选的热点网络内容库中的 候选的热点网络内容的热度进行人工判断,如果人工判断该网络内容不再 有热度,则由编辑人员将其删除。
在另一个实施例中,为了避免人工将候选的热点网络内容库中的热度 已经不在的网络内容删除导致的低效、以及人为判断造成的误判,可以由 机器为候选的热点网络内容库中的候选的热点网络内容,基于该候选的热 点网络内容的点击数和点击率,确定有效分值,如果有效分值低于有效分 值阈值,则将该候选的热点网络内容从候选的热点网络内容库中删除。
如图12所示,在一个实施例中,所述方法还包括:
步骤350、为候选的热点网络内容库中的候选的热点网络内容,基于该 候选的热点网络内容的点击数和点击率,确定有效分值,其中,所述点击 数是所述候选的热点网络内容在网络上被点击总次数,所述点击率等于点 击数除以曝光数,所述曝光数是所述候选的热点网络内容在网络上显示给 用户的总次数;
步骤360、如果该候选的热点网络内容的有效分值低于有效分值阈值, 则将该候选的热点网络内容从候选的热点网络内容库删除。
该实施例综合考虑了点击数和点击率来确定有效分值,相对于只考虑 点击数确定有效分值的方案,避免了一些候选的热点网络内容由于曝光数 不足导致点击数不够而被错误地从候选的热点网络内容库删除。如果一些 候选的热点网络内容由于曝光数不足导致点击数不够,但有可能该热点网 络内容在相同次数曝光后得到的点击次数是高的,这种情况下点击率这个 指标会比较高,因而有效分值不会太低,不会被错误地从候选的热点网络 内容库删除。
一个实施例中,可以将候选的热点网络内容的点击数和点击率的加权 和,确定为有效分值。
在另一个实施例中,如图13所示,步骤350包括:
步骤3501、基于该候选的热点网络内容的点击数,确定点击数有效分 值,其中,所述点击数有效分值是按照点击数的增函数、候选的热点网络 内容上线时长的减函数产生的;
步骤3502、基于该候选的热点网络内容的点击率,确定点击率有效分 值,其中,所述点击率有效分值是按照点击率的增函数、候选的热点网络 内容上线时长的减函数产生的;
步骤3503、计算点击数有效分值和点击率有效分值的加权和,作为所 述有效分值。
候选的热点网络内容上线时长是指自从候选的热点网络内容进入候选 的热点网络内容库中开始作为候选向用户推荐的时间点到目前为止的时 间。由于只要网络内容进入该候选的热点网络内容库,如上所述,其是否 被选中向用户推荐是由其与用户的匹配度、本身的热度等决定的,因此, 可以认为其进入候选的热点网络内容库的时间点就是上线时长的起算点。
有效分值是指反映该候选的热点网络内容在多大程度上应继续留在候 选的热点网络内容库中的度量。该有效分值越高,说明该候选的热点网络 内容越应该留在该候选的热点网络内容库中。
该实施例的优点在于,该实施例的有效分值不仅与点击数和点击率有 关,还与候选的热点网络内容上线时长有关,因而可以更客观地衡量该该 候选的热点网络内容是否应继续留在该候选的热点网络内容库中。因为, 如果一个该候选的热点网络内容点击数和点击率都不高,只是因为其上线 时长太短,其实应给与一定的观察期,不宜过早淘汰。而当其上线时长足 够长后,其点击数和点击率仍然无法随着上线时长升得足够快,则说明其是一个用户不太感兴趣的网络内容。该实施例提高了向用户推送的热点网 络内容被用户接受的几率。
在一个实施例中,所述点击数有效分值按下式确定:
其中,V1是所述点击数有效分值,c是该候选的热点网络内容的点击数, T是候选的热点网络内容上线时长,h1是正的常数。
类似地,在一个实施例中,所述点击率有效分值按下式确定:
其中,V2是所述点击率有效分值,CTR是该候选的热点网络内容的点 击率,CTR=c/p,c是该候选的热点网络内容的点击数,p是该候选的热点 网络内容的曝光数,T是候选的热点网络内容上线时长,h2是正的常数。
在另一个实施例中,所述点击率有效分值按下式确定:
其中,V2是所述点击率有效分值,CTR是该候选的热点网络内容的点 击率,CTR=c/p,c是该候选的热点网络内容的点击数,p是该候选的热点 网络内容的曝光数,T是候选的热点网络内容上线时长,h2是正的常数。
公式12相对于公式11的优点是,由于CTR随时间T不是线性增长, 而是往往随着时间T的对数进行线性增长。因此,该公式相比于公式11更 能有效提高留在候选的热点网络内容库中的候选的热点网络内容的质量。
如图15所示,根据本公开的一个实施例,还提供了一种向用户显示热 点网络内容的装置,包括:
用户分类和标签获取单元610,用于获取用户的分类和标签;
候选的热点网络内容分类和标签获取单元620,用于获取候选的热点网 络内容的分类和标签;
显示确定单元630,用于基于用户的分类和标签与候选的热点网络内容 的分类和标签的匹配度,确定向用户显示的热点网络内容。
在一个实施例中,所述显示确定单元630进一步用于:
基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配 度、以及候选的热点网络内容的热度,确定向用户显示的热点网络内容。
在一个实施例中,所述基于用户的分类和标签与候选的热点网络内容 的分类和标签的匹配度、以及候选的热点网络内容的热度,确定向用户显 示的热点网络内容,具体包括:
确定所述匹配度和热度的加权和;
如果所述加权和满足预定条件,确定向用户显示的热点网络内容。
在一个实施例中,所述预定条件包括:所述候选的热点网络内容的所 述加权和在全部候选的热点网络内容的所述加权和中从大到小排在前预定 数目内,所述预定数目等于向用户显示网络内容的页面中允许用来显示热 点网络内容的个数。
在一个实施例中,所述热度为点击数分值与点击数随曝光数变化分值 的和,其中所述点击数分值是按照点击数的增函数产生的,所述点击数随 曝光数变化分值是按照点击数的增函数、曝光数的减函数产生的,所述点 击数是所述候选的热点网络内容在网络上被点击总次数,所述曝光数是所 述候选的热点网络内容在网络上显示给用户的总次数。
在一个实施例中,所述点击数分值按照下式计算:
其中,S1是所述点击数分值;c是所述点击数;c0是点击数阈值;sgn() 是符号函数,在()中为正数取值为1,在()中为负数取值为0;a1和 u1为正的常数。
在一个实施例中,所述点击数随曝光数变化分值按照下式计算:
其中,S2是所述点击数随曝光数变化分值;c是所述点击数;c0是点击 数阈值;p是所述点击数;p0是点击数阈值;sgn()是符号函数,在() 中为正数取值为1,在()中为负数取值为0;a2和u2为正的常数。
在一个实施例中,所述候选的热点网络内容的分类包括候选的热点网 络内容的一级分类和二级分类,二级分类是一级分类的子分类,用户的分 类包括用户的一级分类和二级分类,用户的一级分类和二级分类的种类与 候选的热点网络内容的一级分类和二级分类的种类一致。所述匹配度按照 下式计算:
M=(vec(User_Cate1),vec(User_Cate2),vec(User_Tag))·
(vec(Content_Cate1),vec(Content_Cate2),vec(Content_Tag))T
其中,M为所述匹配度;
vec(User_Cate1)是用户的一级分类向量,该向量的元素数等于一级分类 全部种类数,该向量的元素值为1或0,1表示相应位置的一级分类种类是 所述用户的一级分类,0表示相应位置的一级分类种类不是所述用户的一级 分类;
vec(User_Cate2)是用户的二级分类向量,该向量的元素数等于二级分类 全部种类数,该向量的元素值为1或0,1表示相应位置的二级分类种类是 所述用户的二级分类,0表示相应位置的二级分类种类不是所述用户的二级 分类;
vec(User_Tag)是用户的标签向量,该向量的元素数等于标签全部种类 数,该向量的元素值为1或0,1表示相应位置的标签种类是所述用户的标 签,0表示相应位置的标签种类不是所述用户的标签;
vec(Content_Cate1)是候选的热点网络内容的一级分类向量,该向量的元 素数等于一级分类全部种类数,该向量的元素值为1或0,1表示相应位置 的一级分类种类是所述候选的热点网络内容的一级分类,0表示相应位置的 一级分类种类不是所述候选的热点网络内容的一级分类;
vec(Content_Cate2)是候选的热点网络内容的二级分类向量,该向量的元 素数等于二级分类全部种类数,该向量的元素值为1或0,1表示相应位置 的二级分类种类是所述候选的热点网络内容的二级分类,0表示相应位置的 二级分类种类不是所述候选的热点网络内容的二级分类;
vec(Content_Tag)是候选的热点网络内容的标签向量,该向量的元素数等 于标签全部种类数,该向量的元素值为1或0,1表示相应位置的标签种类 是所述候选的热点网络内容的标签,0表示相应位置的标签种类不是所述候 选的热点网络内容的标签。
在一个实施例中,所述用户分类和标签获取单元610进一步用于:
获取用户历史上点击过的网络内容的分类和标签;
针对每一分类或标签,确定用户历史上点击过的该分类或标签的网络 内容数;
如果该网络内容数超过网络内容数阈值,将该分类或标签作为用户的 分类或标签。
在一个实施例中,所述装置还包括:
加入预定位置单元(未示),用于将所述候选的热点网络内容加入向 用户显示网络内容的页面中的预定位置显示。
在一个实施例中,所述装置还包括:
权重获取单元(未示),用于获取用户的分类和标签各自的权重;
所述候选的热点网络内容分类和标签获取单元620在确定出所述用户 的分类和标签各自的权重符合预定条件的情况下,才获取候选的热点网络 内容的分类和标签。
在一个实施例中,所述预定条件包括:
基于所述用户的分类和标签各自的权重确定出的用户的分类和标签集 中度高于预定集中度阈值。
用户的分类和标签集中度按照下式确定:
其中,C是用户的分类和标签集中度;N1、N2、N3分别是用户的一级 分类数、二级分类数、标签数;w(User_Cate1i)是用户的第i个一级分类的 权重,其中i=1,……,N1;w(User_Cate2i)是用户的第i个二级分类的权重, 其中i=1,……,N2;w(User_Tagi)是用户的第i个标签的权重,其中 i=1,……,N3,w1、w2、w3是正的常数。
在一个实施例中,w(User_Cate1i)如下确定:
获取用户历史上点击过的网络内容的一级分类;
针对用户的每个一级分类,确定用户历史上点击过的该一级分类的网 络内容数;
用用户历史上点击过的第i个一级分类的网络内容数除以用户历史上 点击过的所有该N1个一级分类的网络内容数,得到w(User_Cate1i);
w(User_Cate2i)如下确定:
获取用户历史上点击过的网络内容的二级分类;
针对用户的每个二级分类,确定用户历史上点击过的该二级分类的网 络内容数;
用用户历史上点击过的第i个二级分类的网络内容数除以用户历史上 点击过的所有该N2个二级分类的网络内容数,得到w(User_Cate2i);
w(User_Tagi)如下确定:
获取用户历史上点击过的网络内容的标签;
针对用户的每个标签,确定用户历史上点击过的该标签的网络内容数;
用用户历史上点击过的第i个标签的网络内容数除以用户历史上点击 过的所有该N3个标签的网络内容数,得到w(User_Tagi)。
在一个实施例中,所述装置还包括:
选择显示单元(未示),用于如果确定出所述用户的分类和标签各自 的权重不符合预定条件,按照向用户显示网络内容的页面中允许用来显示 热点网络内容的个数,从候选的热点网络内容库选择候选的热点网络内容 向用户显示。
在一个实施例中,所述选择显示单元进一步用于:
从候选的热点网络内容库取候选的热点网络内容到缓冲池,直到取出 的候选的热点网络内容达到所述允许用来显示热点网络内容的个数;
从候选的热点网络内容库中取未取过的一个候选的热点网络内容,随 机替换掉缓冲池中的一个候选的热点网络内容,直到候选的热点网络内容 库中没有未取过的候选的热点网络内容;
将缓冲池中的候选的热点网络内容向用户显示。
在一个实施例中,所述候选的热点网络内容是从候选的热点网络内容 库中选出的,其中所述候选的热点网络内容库通过如下建立:
获取热点词;
获取网络内容;
基于网络内容的题目与热点词的匹配度、网络内容的标签与热点词的 匹配度,确定是否将所述网络内容作为候选的热点网络内容,加入候选的 热点网络内容库。
在一个实施例中,所述基于网络内容的题目与热点词的匹配度、网络 内容的标签与热点词的匹配度,确定是否将所述网络内容作为候选的热点 网络内容,加入候选的热点网络内容库,具体包括:
基于网络内容的题目与热点词的匹配度、网络内容的标签与热点词的 匹配度,确定网络内容与热点词的匹配度;
如确定网络内容与热点词的匹配度高于匹配度阈值,将所述网络内容 作为候选的热点网络内容,加入候选的热点网络内容库。
在一个实施例中,所述基于网络内容的题目与热点词的匹配度、网络 内容的标签与热点词的匹配度,确定网络内容与热点词的匹配度,具体包 括:
将网络内容的题目与热点词的匹配度、网络内容的标签与热点词的匹 配度的加权和,作为网络内容与热点词的匹配度。
在一个实施例中,网络内容的题目与热点词的匹配度按下式计算:
其中,P1是热点词的个数;Length(Wordi)是第i个热点词的字符数, i=1,……P1;Length(Title)是网络内容的题目的字符数; Continue_Match(Content_Title,Hot_Wordi)是第i个热点词与网络内容的题目连 续匹配的字符数。
在一个实施例中,网络内容的标签与热点词的匹配度按下式计算:
其中,P1是热点词的个数;Q1是该网络内容的标签数; Match(Hot_Wordi,Content_Tagj)是第i个热点词与该网络内容的第j个标签的 匹配函数,其中,若第i个热点词与该网络内容的第j个标签匹配,则 Match(Hot_Wordi,Content_Tagj)=1,若不匹配,则 Match(Hot_Wordi,Content_Tagj)=0,i=1,……P1,j=1,……Q1,w(Content_Tagj) 是该网络内容的第j个标签的权重。
在一个实施例中,所述装置还包括:
有效分值确定单元,用于为候选的热点网络内容库中的候选的热点网 络内容,基于该候选的热点网络内容的点击数和点击率,确定有效分值, 其中,所述点击数是所述候选的热点网络内容在网络上被点击总次数,所 述点击率等于点击数除以曝光数,所述曝光数是所述候选的热点网络内容 在网络上显示给用户的总次数;
删除单元,用于如果该候选的热点网络内容的有效分值低于有效分值 阈值,则将该候选的热点网络内容从候选的热点网络内容库删除。
在一个实施例中,所述有效分值确定单元进一步用于:
基于该候选的热点网络内容的点击数,确定点击数有效分值,其中, 所述点击数有效分值是按照点击数的增函数、候选的热点网络内容上线时 长的减函数产生的;
基于该候选的热点网络内容的点击率,确定点击率有效分值,其中, 所述点击率有效分值是按照点击率的增函数、候选的热点网络内容上线时 长的减函数产生的;
计算点击数有效分值和点击率有效分值的加权和,作为所述有效分值。
在一个实施例中,所述点击数有效分值按下式确定:
其中,V1是所述点击数有效分值,c是该候选的热点网络内容的点击数, T是候选的热点网络内容上线时长,h1是正的常数。
在一个实施例中,所述点击率有效分值按下式确定:
其中,V2是所述点击率有效分值,CTR是该候选的热点网络内容的点 击率,CTR=c/p,c是该候选的热点网络内容的点击数,p是该候选的热点 网络内容的曝光数,T是候选的热点网络内容上线时长,h2是正的常数。
根据本公开实施例的主播标签建立方法可以由图2的网页显示引擎202 实现。下面参照图15来描述根据本公开实施例的网页显示引擎202。图15 显示的网页显示引擎202仅仅是一个示例,不应对本公开实施例的功能和 使用范围带来任何限制。
如图15所示,网页显示引擎202以通用计算设备的形式表现。网页 显示引擎202的组件可以包括但不限于:上述至少一个处理单元810、上 述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理 单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理 单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描 述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理 单元810可以执行如图4中所示的各个步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存 取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包 括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程 序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一 个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个 或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总 线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多 种总线结构中的任意总线结构的局域总线。
网页显示引擎202也可以与一个或多个外部设备700(例如键盘、指 向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该网页显 示引擎202交互的设备通信,和/或与使得该网页显示引擎202能与一个 或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等) 通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,网页显 示引擎202还可以通过网络适配器860与一个或者多个网络(例如局域网 (LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示, 网络适配器860通过总线830与网页显示引擎202的其它模块通信。应当 明白,尽管图中未示出,可以结合网页显示引擎202使用其它硬件和/或 软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAI D系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述 的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方 式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式 体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM, U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可 以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开 实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机程序介质,其上存 储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时, 使计算机执行上述方法实施例部分描述的方法。
根据本公开的一个实施例,还提供了一种用于实现上述方法实施例中 的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括 程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程 序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序 的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结 合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可 以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于 电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以 上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一 个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只 读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、 便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述 的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种 形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信 号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发 送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合 使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限 于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明 操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似 的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在 用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部 分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在 涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包 括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连 接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若 干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的 实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一 个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征 和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤, 但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是 必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以 省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤 分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描 述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件 的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品 的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算 设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根 据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想 到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或 者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原 理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说 明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权 利要求指出。
Claims (10)
1.一种向用户显示热点网络内容的方法,其特征在于,包括:
获取用户的分类和标签;
获取候选的热点网络内容的分类和标签;
基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内容。
2.根据权利要求1所述的方法,其特征在于,所述基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内容,包括:
基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度、以及候选的热点网络内容的热度,确定向用户显示的所述热点网络内容。
3.根据权利要求2所述的方法,其特征在于,所述基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度、以及候选的热点网络内容的热度,确定向用户显示的热点网络内容,具体包括:
确定所述匹配度和热度的加权和;
如果所述加权和满足预定条件,确定向用户显示的所述热点网络内容。
4.根据权利要求3所述的方法,其特征在于,所述热度为点击数分值与点击数随曝光数变化分值的和,其中所述点击数分值是按照点击数的增函数产生的,所述点击数随曝光数变化分值是按照点击数的增函数、曝光数的减函数产生的,所述点击数是所述候选的热点网络内容在网络上被点击总次数,所述曝光数是所述候选的热点网络内容在网络上显示给用户的总次数。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取用户的分类和标签的各自的权重;
其中,所述获取候选的热点网络内容的分类和标签的步骤在确定出所述用户的分类和标签各自的权重符合预定条件的情况下执行。
6.根据权利要求1所述的方法,其特征在于,所述候选的热点网络内容是从候选的热点网络内容库中选出的,其中所述候选的热点网络内容库的建立方法包括::
获取热点词;
获取网络内容;
基于网络内容的题目与热点词的匹配度、网络内容的标签与热点词的匹配度,确定将所述网络内容作为候选的热点网络内容,加入候选的热点网络内容库。
7.根据权利要求6所述的方法,其特征在于,在基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内容之后,所述方法还包括:
为候选的热点网络内容库中的候选的热点网络内容,基于该候选的热点网络内容的点击数和点击率,确定有效分值,其中,所述点击数是所述候选的热点网络内容在网络上被点击总次数,所述点击率等于点击数除以曝光数,所述曝光数是所述候选的热点网络内容在网络上显示给用户的总次数;
如果该候选的热点网络内容的有效分值低于有效分值阈值,则将该候选的热点网络内容从候选的热点网络内容库删除。
8.一种向用户显示热点网络内容的装置,其特征在于,包括:
用户分类和标签获取单元,用于获取用户的分类和标签;
候选的热点网络内容分类和标签获取单元,用于获取候选的热点网络内容的分类和标签;
显示确定单元,用于基于用户的分类和标签与候选的热点网络内容的分类和标签的匹配度,确定向用户显示的热点网络内容。
9.一种网页显示引擎,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-7中的任一个所述的方法。
10.一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810542539.8A CN110196940B (zh) | 2018-05-30 | 2018-05-30 | 向用户显示热点网络内容的方法、装置、显示引擎和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810542539.8A CN110196940B (zh) | 2018-05-30 | 2018-05-30 | 向用户显示热点网络内容的方法、装置、显示引擎和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110196940A true CN110196940A (zh) | 2019-09-03 |
CN110196940B CN110196940B (zh) | 2022-11-04 |
Family
ID=67751356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810542539.8A Active CN110196940B (zh) | 2018-05-30 | 2018-05-30 | 向用户显示热点网络内容的方法、装置、显示引擎和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196940B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020012443A1 (en) * | 1999-05-19 | 2002-01-31 | Rhoads Geoffrey B. | Controlling operation of a device using a re-configurable watermark detector |
CN106294775A (zh) * | 2016-08-11 | 2017-01-04 | 合智能科技(深圳)有限公司 | 内容推送方法及装置 |
WO2017101734A1 (zh) * | 2015-12-15 | 2017-06-22 | 腾讯科技(深圳)有限公司 | 内容项推荐方法及装置 |
CN106982256A (zh) * | 2017-03-31 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 信息推送方法、装置、设备及存储介质 |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN107562884A (zh) * | 2017-09-04 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 一种信息流展现方法、装置、服务器和存储介质 |
-
2018
- 2018-05-30 CN CN201810542539.8A patent/CN110196940B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020012443A1 (en) * | 1999-05-19 | 2002-01-31 | Rhoads Geoffrey B. | Controlling operation of a device using a re-configurable watermark detector |
WO2017101734A1 (zh) * | 2015-12-15 | 2017-06-22 | 腾讯科技(深圳)有限公司 | 内容项推荐方法及装置 |
CN106294775A (zh) * | 2016-08-11 | 2017-01-04 | 合智能科技(深圳)有限公司 | 内容推送方法及装置 |
CN106982256A (zh) * | 2017-03-31 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 信息推送方法、装置、设备及存储介质 |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN107562884A (zh) * | 2017-09-04 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 一种信息流展现方法、装置、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110196940B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3779841B1 (en) | Method, apparatus and system for sending information, and computer-readable storage medium | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和系统 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
Nigam et al. | Towards a robust metric of opinion | |
CN109189904A (zh) | 个性化搜索方法及系统 | |
CN107862553A (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
CN106982256A (zh) | 信息推送方法、装置、设备及存储介质 | |
JP7208595B2 (ja) | 映画成功指数の予測 | |
CN108885624A (zh) | 信息推荐系统及方法 | |
CN110474944B (zh) | 网络信息的处理方法、装置及存储介质 | |
CN115878841B (zh) | 一种基于改进秃鹰搜索算法的短视频推荐方法及系统 | |
CN111597446B (zh) | 基于人工智能的内容推送方法、装置、服务器和存储介质 | |
CN110597987A (zh) | 一种搜索推荐方法及装置 | |
CN111046225A (zh) | 音频资源处理方法、装置、设备及存储介质 | |
CN103177129A (zh) | 互联网实时信息推荐预测系统 | |
CN115659008B (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN118250516B (zh) | 一种针对用户的分级处理方法 | |
CN114155004A (zh) | 客户管理方法及装置 | |
Deshpande | Prediction & evaluation of online news popularity using machine intelligence | |
Doshi et al. | Predicting movie prices through dynamic social network analysis | |
CN108108912A (zh) | 互动低质量用户的判别方法、装置、服务器及存储介质 | |
Nigam et al. | Towards a robust metric of polarity | |
Li et al. | Identification and evaluation of competitive products based on online user-generated content | |
CN1996301A (zh) | 一种直接针对用户的相关信息的发布方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221114 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000 Patentee after: Shenzhen Yayue Technology Co.,Ltd. Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |