CN110245293B - 一种网络内容召回方法和装置 - Google Patents
一种网络内容召回方法和装置 Download PDFInfo
- Publication number
- CN110245293B CN110245293B CN201910451826.2A CN201910451826A CN110245293B CN 110245293 B CN110245293 B CN 110245293B CN 201910451826 A CN201910451826 A CN 201910451826A CN 110245293 B CN110245293 B CN 110245293B
- Authority
- CN
- China
- Prior art keywords
- long
- term
- feature
- user
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了一种网络内容召回方法和装置,根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组。根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量。根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量,由此使得用户特征向量中符合用户浏览兴趣偏好的信息能够较为突出,其他的信息也一定程度的保留,通过该用户特征向量确定出的推荐候选项符合用户实际浏览兴趣的可能性更高,而且还具有一定的泛化性,提高了为该用户推荐网络内容的质量,提高了用户的浏览体验。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种网络内容召回方法和装置。
背景技术
用户可以通过智能终端浏览各类网络内容。例如阅读、播放、查看网络内容等。在浏览的过程中,智能终端或者智能终端的应用可以为用户推荐网络内容。以期望将用户感兴趣的网络内容推荐给用户,提高用户的浏览体验。
目前主要基于用户的历史浏览数据为用户进行个性化推荐。用户的历史浏览数据体现了用户曾经浏览过的网络内容,可以在一定程度上表征用户的浏览兴趣。个性化推荐方法的主要思路是从用户历史阅读的文章(观看的视频)中抽取关键词(Tags),使用Tags来召回推荐候选项,或者是通过计算Item-Item(Item为一个浏览单元)相似度的方法,利用用户阅读过的文章或者视频来计算与之最相似的K个Item进行推荐。
然而,目前这类个性化推荐方式均没有考虑用户对阅读历史的偏好关系。导致以此推荐的网络内容实际满足用户浏览兴趣的程度不高。
发明内容
为了解决上述技术问题,本申请提供了一种网络内容召回方法,提高了为用户推荐网络内容的质量。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种网络内容召回方法,所述方法包括:
根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量;
根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
第二方面,本申请实施例提供了一种网络内容召回装置,所述装置包括第一确定单元、第二确定单元、第三确定单元和第四确定单元:
所述第一确定单元,用于根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;
所述第二确定单元,用于根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
所述第三确定单元,用于根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量;
所述第四确定单元,用于根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
第三方面,本申请实施例提供了一种用于网络内容召回的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的网络内容召回方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的网络内容召回方法。
由上述技术方案可以看出,根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组。也就是说,长期特征组能够体现该用户的长期浏览兴趣,近期特征组能够体现该用户的近期浏览兴趣。根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量,由于长期编码向量是基于长期特征组中元素间相似程度得到,导致相似程度较高的元素在该长期编码向量中体现更多的信息,由于用户对符合浏览兴趣的类似网络内容会有较多的浏览行为,而确定出的高相似度元素即属于符合该用户浏览兴趣的类似网络内容,从而该长期编码向量可以更突出的体现该用户浏览兴趣的偏好程度。根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量,由此使得用户特征向量中符合用户浏览兴趣偏好的信息能够较为突出,其他的信息也一定程度的保留,通过该用户特征向量确定出的推荐候选项符合用户实际浏览兴趣的可能性更高,而且还具有一定的泛化性,提高了为该用户推荐网络内容的质量,提高了用户的浏览体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络内容召回方法的应用场景示意图;
图2为本申请实施例提供的一种网络内容召回方法的流程图;
图3为本申请实施例提供的一种长期特征组和近期特征组的组成示意图;
图4为本申请实施例提供的一种长期特征组的组成示意图;
图5为本申请实施例提供的一种为子长期特征向量进行多头标度点积的自注意力网络模型计算的方法示意图;
图6为本申请实施例提供的一种近期特征组的组成示意图;
图7为本申请实施例提供的一种确定近期关键词类型特征组对应的子近期特征向量的过程示意图;
图8为本申请实施例提供的一种画像特征包括的特征组示意图;
图9为本申请实施例提供的一种画像特征的元素组成示意图;
图10为本申请实施例提供的一种网络内容召回方法对应的召回框架网络结构图;
图11为本申请实施例提供的一种应用召回框架网络结构的推荐系统结构图;
图12为本申请实施例提供的一种网络内容召回装置的结构示意图;
图13为本申请实施例提供的一种用于网络内容召回方法的设备的结构图;
图14为本申请实施例提供的服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
目前,主要基于用户的历史浏览数据为用户进行个性化推荐,由于这类个性化推荐方式并未考虑用户对阅读历史的偏好关系,举例来说:若用户的历史浏览数据中包括该用户的被动浏览行为(比如用户误操作而导致的浏览行为),则在为该用户进行个性化推荐时,也会将以此生成的浏览数据作为用户个性化推荐的基础,这样将导致推荐的网络内容实际满足用户浏览兴趣的程度不高。
为此,本申请实施例提供了一种网络内容召回方法,其核心思路为:根据用户的历史浏览数据,确定出更能突出用户浏览兴趣偏好的用户特征向量,由此,根据该用户特征向量确定出作为推荐候选项的网络内容。该方法可以提高推荐候选项符合用户实际浏览兴趣的可能性、以及提高为该用户推荐网络内容的质量,从而提高用户的浏览体验。
接下来,对本申请实施例的应用场景进行介绍。本申请实施例提供的方法可以应用到数据处理设备中,该数据处理设备可以是服务器。所述服务器101可以是仅用于召回网络内容的专用服务器,所述服务器101也可以是还包含其它数据处理功能的公用服务器,本申请实施例不做限定。
为了便于理解本申请的技术方案,下面结合实际应用场景对本申请实施例提供的网络内容召回方法进行介绍。
参见图1,该图示出了本申请实施例提供的一种网络内容召回方法的应用场景示意图。该应用场景中包括服务器101,其中,所述服务器101中可以保存有每个用户的历史浏览数据。则,针对于某一个用户来说,服务器101可以根据该用户的历史浏览数据中元素的生成时间,确定出长期特征组和近期特征组。其中,所述元素可以是与用户的历史浏览内容有关的单元,比如元素可以是用户浏览过的网络内容中的关键词等,所述长期特征组中的元素可以是根据长期的历史浏览数据中确定出的,长期特征组可以体现用户长期的浏览兴趣,近期特征组中的元素可以是根据近期的历史浏览数据中确定出的,近期特征组可以体现用户近期的浏览兴趣。例如:用户在近半年内浏览过关于体育方面的新闻,则可以将“体育”这个词语作为该用户的长期特征组中的一个元素,且该用户在近1天内浏览过关于时政方面的新闻,则可以将“时政”这个词语作为该用户的近期特征组中的一个元素。
可以理解,用户会更多的浏览符合其兴趣偏好的类似网络内容,这样,该用户的历史浏览数据中即可以包括更多的符合用户兴趣偏好的浏览数据,从而,对于基于用户的历史浏览数据确定出的长期特征组来说,其中会包括更多的属于那些符合该用户浏览兴趣的类似网络内容的元素。由此,对于这部分符合用户兴趣偏好的元素,由于其在长期特征组中的数量较高,因此它们中的每个元素会与其他元素之间具有更高的相似程度。
也就是说,对应确定出的长期特征组,其中的相似程度高的元素即属于符合该用户浏览兴趣的类似网络内容。举例来说,假设相比于时政相关的网络内容,用户更偏好与体育相关的网络内容,那么该用户会浏览更多的与体育相关的网络内容,而浏览较少的与时政相关的网络内容,由此,确定出的长期特征组中可能包括较多的关于体育的元素和较少的关于时政的元素,比如:长期特征组中包括8个关于体育的元素和2个关于时政的元素,则,因为该长期特征组中的关于体育的元素的数量更高,因此每个关于体育的元素都可以与其他元素间具有较高的相似程度。可见,相似程度高的元素更能突出用户的浏览兴趣偏好。
基于此,可以根据长期特征组中各个元素间的相似程度,确定出该长期特征组对应的长期编码向量。其中,由于长期编码向量是根据长期特征组中元素间的相似程度得到的,因此相似程度较高的元素可以在该长期编码向量中体现更多的信息,从而,该长期编码向量可以更突出的体现该用户浏览兴趣的偏好程度。
由于用户的兴趣偏好可能会随着时间的推移发生变化,比如用户在近期产生了新的兴趣偏好,因此还可以将近期特征组中的元素考虑进来,则,接下来,可以根据长期编码向量与近期特征组中元素间的相似程度,确定近期特征组对应的用户特征向量。由于用户特征向量是基于长期编码向量与近期特征组中每个元素间的相似程度确定出的,因此使得确定出的用户特征向量不仅可以突出符合用户长期以来的浏览兴趣偏好的信息,还对其他信息进行了一定程度的保留。
举例说明,假设长期以来用户对与体育相关的网络内容比较感兴趣,且几乎未浏览过与网络购物相关的网络内容。如果用户近期除了浏览关于体育方面的网络内容外,还浏览了较多的与网络购物相关的网络内容。则,相应的,确定出的近期特征组中可以包括较多关于网络购物的元素,若确定出的长期特征组中不包括用户的关于网络购物的信息,则,通过根据长期编码向量与近期特征组中元素间的相似程度,确定近期特征组对应的用户特征向量。由于用户特征向量是基于长期编码向量与近期特征组中每个元素间的相似程度确定出的,因此,该确定出的用户特征向量仍然可以突出体现符合用户长期以来的浏览兴趣偏好(与体育相关)的信息,还可以相应的保留用户近期新增的兴趣偏好(与网络购物相关)信息。
由此,通过该用户特征向量确定出的作为推荐候选项的网络内容,该候选项符合用户实际浏览兴趣的可能性更高,而且还具有一定的泛化性,从而提高了为该用户推荐网络内容的质量,提高了用户的浏览体验。
接下来,将结合附图对本申请实施例提供的网络内容召回方法进行介绍。
参见图2,该图示出了本申请实施例提供的一种网络内容召回方法的流程图,所述方法包括:
S201:根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组。
可以理解,用户在浏览一些网络内容时,服务器101可以相应的生成并保存对应于该用户的浏览数据。这样,服务器101中可以保存有不同用户在以往较长一段时间段内生成的历史浏览数据。
在本申请实施例中,对于某一用户来说,可以基于该用户历史浏览数据中元素的生成时间,从历史浏览数据中确定出在以往较长一段时间段内生成的历史浏览数据的元素,作为长期特征组中的元素,从而确定出长期特征组;以及,可以基于该用户历史浏览数据中元素的生成时间,从历史浏览数据中确定在近期生成的历史浏览数据的元素,作为近期特征组中的元素,从而确定出近期特征组。
在具体实现中,针对于用户近期特征组的确定,比如可以将用户近期阅读的文档对应的历史浏览数据作为确定依据。
需要说明,由于用户的基本属性信息可以较为长久的影响用户的浏览兴趣,因此可以将用户的基本属性信息作为长期特征组中的元素。其中,用户的基本属性信息比如可以包括用户的性别、年龄、以及省份等信息。
接下来以具体示例进行说明:针对于用户U1来说,假设该用户U1最近点击进入了文章A1,文章A2和文章A3。当为其预测其下一篇可能阅读的文A4时,可以根据该用户U1的历史浏览数据中元素的生成时间,从历史浏览数据中确定长期特征组和近期特征组。
参见图3,该图示出了本申请实施例提供的一种长期特征组和近期特征组的组成示意图,如图3所示,长期特征组可以是根据用户长期的历史浏览数据确定出的。该长期特征组中可以包括:关键词1、关键词2、关键词3、关键词1’、关键词2’、关键词3’、类目1、类目2、类目3、类目1’、类目2’、类目3’、男(性别)、34岁(年龄)和北京(省份)。
其中,所述关键词比如可以是从用户历史浏览的网络内容(比如文章标题或正文)中抽取出的一组词语,所述关键词可以用于表示该网络内容的核心内容。所述类目比如可以是对用户历史浏览的网络内容的抽象描述,比如可以将介绍体育运动的多篇文章都归属于体育这一个类目。
近期特征组可以是根据用户近期的历史浏览数据(文章A1、文章A2和文章A3)确定出的。该近期特征组中可以包括:关键词1”、关键词2”、关键词3”、类目1”、类目2”、类目3”、文档标识号码(Identity,ID)1、文档ID2和文档ID3。其中,所述文档ID可以是用于标识文档的号码。
S202:根据长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量。
在本申请实施例中,可以根据长期特征组中元素之间的相似程度,确定出长期特征组对应的长期编码向量(Long Term Encoding vector)。
下面基于图3对应的示例进行举例说明,假设图3所示的长期特征组中的与体育方面相关的元素占总数的80%;与时政方面相关的元素占总数的15%;与用户的基本属性信息相关的元素占总数的5%。由此可知,用户更偏好与体育方面相关的网络内容。
基于此,针对于该长期特征组,由于其中包括的与体育方面相关的元素所占的数量比例更高,因此这些与体育方面相关的元素和其他元素之间的相似程度会更高,从而,根据长期特征组中的元素间的相似程度,确定出长期编码向量。由于该长期编码向量是基于长期特征组中的元素间的相似程度确定出的,因此该长期编码向量中可以更多的体现出相似程度高(即与体育方面相关)的元素的信息。
S203:根据长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量。
可以理解,用户的兴趣偏好可能会发生变化,因此,在确定出长期特征组对应的长期编码向量之后,还可以根据长期编码向量与近期特征组中的每个元素间的相似程度,确定近期特征组对应的用户特征向量(User Embedding vector)。
举例说明,基于S202中对应的示例,假设在近期,由于用户近期需要购买一些用品,因此用户在近期也浏览了一些网络的网络内容,这样,针对于所确定出的近期特征组,比如其中包括的与体育方面相关的元素占总数的70%;与时政方面相关的元素占总数的10%;与网络购物方面相关的元素占总数的20%。
为此,可以根据S202中确定出的长期编码向量与近期特征组中的每个元素的相似程度,以确定近期特征组对应的用户特征向量。由于近期特征组中包括的与体育方面相关的元素所占的数量比例仍然很高,该长期编码向量中体现的与体育方面相关的信息也较多,因此该长期编码向量与体育方面相关的元素之间的相似程度会很高。从而,以此确定出的用户特征向量中仍然能够突出体现符合用户浏览兴趣偏好(即与体育方面相关)的信息。
此外,虽然近期特征组中包括的与网络购物方面相关的元素所占的数量比例较低,在该长期编码向量中体现的与网络购物方面相关的信息也较少,由此该长期编码向量与网络购物方面相关的元素的相似程度较低,但由于用户特征向量是根据长期编码向量与近期特征组中每个元素间的相似程度确定的,从而该确定出的用户特征向量中依然保留有与网络购物相关的信息。
由此可知,确定出的用户特征向量中不仅突出体现了符合用户浏览兴趣偏好的信息,还在一定程度上的保留了其他信息(比如用户在近期新增的兴趣偏好信息)。
S204:根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
由此,可以根据充分体现用户浏览兴趣偏好的用户特征向量,以为该用户确定出作为推荐候选项的网络内容,以提高为该用户推荐网络内容的质量。
综上,根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组。也就是说,长期特征组能够体现该用户的长期浏览兴趣,近期特征组能够体现该用户的近期浏览兴趣。根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量,由于长期编码向量是基于长期特征组中元素间相似程度得到,导致相似程度较高的元素在该长期编码向量中体现更多的信息,由于用户对符合浏览兴趣的类似网络内容会有较多的浏览行为,而确定出的高相似度元素即属于符合该用户浏览兴趣的类似网络内容,从而该长期编码向量可以更突出的体现该用户浏览兴趣的偏好程度。根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量,由此使得用户特征向量中符合用户浏览兴趣偏好的信息能够较为突出,其他的信息也一定程度的保留,通过该用户特征向量确定出的推荐候选项符合用户实际浏览兴趣的可能性更高,而且还具有一定的泛化性,提高了为该用户推荐网络内容的质量,提高了用户的浏览体验。
为了更充分的体现用户长期以来的浏览兴趣偏好,在一种可能的实现方式中,可以根据元素的类型,对长期特征组中的元素进行进一步的分类,从而使得长期特征组中包括多个子类型长期特征组,其中,每种子类型长期特征组中包括相应类型的元素。下面结合具体示例进行说明:
参见图4,该图示出了本申请实施例提供的一种长期特征组的组成示意图,基于图3的所对应的示例,可以为长期特征组中的元素,分别根据以下的5个类型进行分类,即:从用户长期的历史浏览数据确定出的关键词和类目,从用户近7天的历史浏览数据确定出的关键词和类目、以及用户基本属性信息。
由此,进行分类后的长期特征组包括的子类型长期特征组可以分别为:长期关键词(Tag)类型特征组、长期类目(Category)类型特征组、近7天关键词(Tag)类型特征组、近7天类目(Category)类型特征组、用户基本属性信息。
其中,长期关键词类型特征组中可以包括关键词这一类型的元素,比如可以包括关键词1、关键词2和关键词3。长期类目类型特征组中可以包括类目这一类型的元素,比如可以包括类目1、类目2和类目3。近7天关键词类型特征组中可以包括关键词这一类型的元素,比如可以包括关键词1’、关键词2’和关键词3’。近7天类目类型特征组中可以包括类目这一类型的元素,比如可以包括类目1’、类目2’和类目3’。用户基本属性信息可以包括男(性别)、34岁(年龄)和北京(省份)。
则,在S202中根据长期特征组中元素间的相似程度,确定长期特征组对应的长期编码向量的方法,可以包括:
S301:根据每个子类型长期特征组中元素间的相似程度,确定所述多个子类型长期特征组分别对应的子长期特征向量。
相应的,对于每个子类型长期特征组来说,其中的相似程度高的元素可以更符合该用户浏览兴趣的类似网络内容。
基于此,针对于多个子类型长期特征组中的每一个子类型长期特征组,可以根据该子类型长期特征组中元素间的相似程度,以为该子类型长期特征组确定出对应的子长期特征向量。
这样,对于每个子类型长期特征组,其中的相似程度较高的元素可以在其对应的子长期特征向量中体现更多的信息,从而,该子长期特征向量可以更突出的体现该用户对于该种类型元素的浏览兴趣的偏好程度。
举例来说,针对于长期关键词类型特征组,假设其中包括的关键词1、关键词2和关键词3分别为“篮球比赛”、“篮球明星”和“足球比赛”,其中,可以理解,相对于足球,用户更偏好与篮球相关的网络内容。那么,根据这三个关键词间的相似程度可知,篮球相对应的相似程度更高,由此确定出的该子类型特征组对应的子长期特征向量可以更突出与篮球相关的信息,即该子长期特征向量更突出了用户更偏好篮球方面的网络内容的信息。
可见,针对于长期特征组包括的每一个子类型长期特征组,都根据其中的元素间的相似度,以确定出每个子类型长期特征组对应的子长期特征向量,使得每个子长期特征向量中可以更突出的体现该组内的相似程度高的元素的信息,从而,使得子长期特征向量更能充分体现用户针对于对应子类型长期特征组内的各元素的兴趣偏好程度。
S302:根据所述子长期特征向量间的相似程度,确定所述长期特征组对应的长期编码向量。
可以理解,用户对不同的子类型长期特征组的兴趣偏好也可以是不同的,为此,还可以根据每个子长期特征向量间的相似程度,以确定出长期特征组对应的长期编码向量。
这样,确定出的长期编码向量可以更突出体现用户对不同的子类型长期特征组的兴趣偏好程度,该长期编码向量可以更准确的表示用户长期以来的浏览兴趣。
在本申请实施例中,针对于S202中的长期特征组中元素间的相似程度的确定方法,S301中的每个子类型长期特征组中元素间的相似程度的确定方法,以及S302中的子长期特征向量间的相似程度的确定方法,在一种可能的实现方式中,都可以基于注意力网络模型进行相应的相似程度的确定,其中,注意力网络模型(Attention)可以用于通过对输入信息进行相似程度的计算,以得到输入信息的相似程度的分布差异,从而确定出对当前任务更重要的信息。
那么,对于S202中的根据长期特征组中元素间的相似程度,确定长期特征组对应的长期编码向量的方法,可以包括:
S401:根据注意力网络模型,确定长期特征组中元素间的相似程度。
在本申请实施例中,可以将确定出的长期特征组中的每个元素分别映射为对应的嵌入向量(Embedding vector),以便于通过注意力网络模型,确定出长期特征组中每个元素间的相似程度。
S402:根据长期特征组中元素间的相似程度,确定长期特征组对应的长期编码向量。
下面对S401和S402提供的方法进行详细介绍。
首先,注意力网络模型的计算方法如公式(1)所示:
如公式(1)所示,其中的Q可以表示查询(Query),K可以表示键(Key),V可以表示值(Value)。
注意力网络模型的原理可以为:首先,对Q和每个K使用点积(QKT)的运算方式计算出Q与每个K的相似程度,并通过的运算,以对点积进行缩放,其中,/>可以是Q、K及V这些向量的维度。然后,通过softmax()函数,对/>进行归一化,以得到Q与每个K的相似概率;最后,将归一化后的概率与对应的V相乘再求和,从而得到对应于Q的第一向量。
简单来说,在输入Q、K、V所对应的向量之后,即可以根据上述公式(1)计算得到一个对应于Q的第一向量,该第一向量可以体现Q与K和V的相似程度。
下面以根据注意力网络模型确定长期特征组中元素间的相似程度为例,对注意力网络模型的方法进行介绍:
由于注意力网络模型的输入变量为长期特征组中的元素,也就是同源数据,对于这种计算同源数据的注意力网络模型,可以将其记为自注意力网络模型。在本实施例中,针对于长期特征组中的每个元素Xi,在为该元素Xi确定该元素Xi与其他元素的相似程度时,可以将元素Xi对应的嵌入向量作为Q,将长期特征组中的其余元素对应的嵌入向量作为K和V。则,通过上述自注意力网络模型、即公式(1)就可以确定出元素Xi对应的第一向量,该第一向量中可以包括元素Xi与长期特征组中的其余元素的相似程度。
在本申请实施例中,可以基于多头标度点积(multi-head Scale Dot-Product)的注意力网络模型来确定Q的向量。其中,多头标度点积中的每一个头如公式(2)表示:
headi=Attention(QWi Q,KWi K,VWi V) (2)
其中,对于多头标度点积中的任意一个头的注意力机制可以是:在为Q、K、V输入注意力网络模型、即公式(1)之前,对于每个Q、K、V,可以首先通过QWi Q、KWi K、VWi V对它们进行线性变换,以将它们映射至某一个空间中,从而分别得到它们(Q、K、V)的第二向量,其中,Wi Q、Wi K、Wi V可以是用于线性变换的映射矩阵,再将这些第二向量输入至注意力网络模型、即公式(1),以得到对应于该头的Q的第一向量。
这样,可以将Q、K、V通过不同的线性变换,以将它们映射至不同的空间中,进而得到对应于不同的头的Q的第一向量。
在确定出每个头的对应于Q的第一向量之后,如公式(3)所示,可以将这些对应于不同的头的Q的第一向量进行拼接,并乘以相应的映射矩阵W0,从而将以此得到的新向量作为Q的第三向量。
Hi=[head1,head2,head3,...headn]W0 (3)
在本申请实施例中,可以为长期特征组中的每个元素Xi,通过相同的多头标度点积的自注意力网络模型,确定出每个元素Xi的第三向量,其中,长期特征组中的每个元素Xi的第三向量都融入了其余元素的信息,且每个元素Xi的第三向量可以被映射至同一个多维空间中。
接下来,在确定出长期特征组中的每个元素Xi的第三向量之后,可以基于每个元素Xi与其他元素的相似程度,确定每个元素Xi对应的权重,确定每个元素Xi的权重的方式可以如公式(4)所示:
ai=soft max(vatanh(WaHT)) (4)
其中,公式(4)中的HT可以为公式(3)的输出结果得到的,Wa可以为映射矩阵,va可以为权重映射向量,再通过对vatanh(WaHT)进行softmax()函数的归一化,从而得到每个元素Xi的权重。
最后,将每个元素Xi的权重分别分配到相应的元素Xi对应的第三向量中,从而得到包括权重信息的每个元素Xi的目标向量,其中,所对应的运算方式如公式(5)所示:
c=HaT (5)
并对每个元素Xi的目标向量进行加权平均(average pooling),从而得到该长期特征组对应的长期编码向量。
相应的,S301-S302对应的实施例的方法,可以包括:
S501:根据注意力网络模型,确定每个子类型长期特征组中元素间的相似程度。
S502:根据每个子类型长期特征组中元素间的相似程度,确定多个子类型长期特征组分别对应的子长期特征向量。
在本申请实施例中,可以根据上述实施例中的多头标度点积的自注意力网络模型,确定出每个子类型长期特征组中元素间的相似程度。并根据每个子类型长期特征组中元素间的相似程度,确定出多个子类型长期特征组中的每个子类型长期特征组对应的子长期特征向量。
下面以为一个子类型长期特征组确定其对应的子长期特征向量为例,对S501-S502提供的方法进行说明:可以根据前述公式(1)、公式(2)和公式(3),以分别确定出该特征组内每个元素的第三向量,且每个元素的第三向量可以包括其与其他元素间的相似程度的关系。接着,可以根据前述公式(4)得到每个元素的权重,以及根据前述公式(5),将每个元素的权重分别分配到该元素对应的第三向量中,以得到每个元素的目标向量。最后,对每个元素的目标向量进行加权平均,以得到该子类型长期特征组对应的子长期特征向量。
此外,还可以将子类型长期特征组中的权重极低的元素作为用户的噪声数据,从而,在为每个子类型长期特征组确定子长期特征向量时,可以将这部分噪声数据去除。
S503:根据注意力网络模型,确定子长期特征向量间的相似程度。
S504:根据子长期特征向量间的相似程度,确定长期特征组对应的长期编码向量。
在本申请实施例中,针对于每个子类型长期特征组来说,在确定每个子类型长期特征组对应的子长期特征向量之后,针对于每个子类型特征组对应的子长期特征向量,还可以为其进行多头标度点积的自注意力网络模型的计算(Group Attention)。
参见图5,该图示出了本申请实施例提供的一种为子长期特征向量进行多头标度点积的自注意力网络模型计算的方法示意图,如图5所示,在为每个子类型长期特征组确定出对应的子长期特征向量(即确定出的子长期特征向量1、子长期特征向量2、子长期特征向量3……子长期特征向量n)之后,可以为这些向量通过多头标度点积的自注意力层进行计算,从而得到每个子类型长期特征组对应的目标向量(即子长期特征向量1、子长期特征向量2、子长期特征向量3……子长期特征向量n)。
下面对确定每个子类型长期特征组对应的目标向量的方法进行详细介绍:可以根据前述公式(1)、公式(2)和公式(3),以确定出每个子类型长期特征组对应的第三向量,且每个子类型长期特征组的第三向量可以包括其与其他子类型长期特征组间的相似程度的关系。接着,可以根据前述公式(4)得到每个子类型长期特征组的权重,以及根据前述公式(5),将每个子类型长期特征组的权重分别分配到该子类型长期特征组素对应的第三向量中,从而得到每个子类型长期特征组的目标向量。
在得到每个子类型长期特征组对应的目标向量之后,可以对每个子类型长期特征组对应的目标向量进行拼接(Concat)操作,以得到一个长维度的特征向量,并将该长维度的特征向量经过一个多层的前馈神经网络,从而得到长期编码向量。
需要说明,得到的该长期编码向量可以与近期特征组中的各个元素的维度相同,从而便于进行S203中根据该得到的长期编码向量与近期特征组中元素间的相似程度,确定近期特征组对应的用户特征向量。
可以理解,针对于确定出的权重较低的子类型长期特征组,它们有更大的概率属于噪声数据,因此,通过该方法可以对这样的子类型长期特征组进行有效的降权,保证了确定出的长期编码向量更为准确。
此外,为了更充分体现用户近期的浏览兴趣偏好,在一种可能的实现方式中,还可以根据近期特征组中的元素的类型,对近期特征组中的元素进行分类,从而使得近期特征组中包括多个子类型近期特征组,其中,每个子类型近期特征组中包括相应类型的元素。下面结合具体示例进行说明:
参见图6该图示出了本申请实施例提供的一种近期特征组的组成示意图,基于图3的所对应的示例,可以为近期特征组中的元素,分别根据以下的3类型进行分类,即:从用户近期的历史浏览数据确定出的文档ID、关键词以及类目。从而,进行分类后的长期特征组包括的子类型长期特征组可以分别为:近期关键词类型特征组、近期类目类型特征组、以及近期文档ID类型特征组。
其中,近期关键词类型特征组中可以包括关键词这一类型的元素,比如可以包括关键词1”、关键词2”和关键词3”。长期类目类型特征组中可以包括类目这一类型的元素,比如可以包括类目1”、类目2”和类目3”。近期文档类型特征组中可以包括用户近期浏览的文档ID这一类型的元素,比如可以包括文档ID1、文档ID2和文档ID3。
则,针对于S203中根据长期编码向量与近期特征组中元素间的相似程度,确定近期特征组对应的用户特征向量的方法,所述方法可以包括:
S601:根据长期编码向量与每个子类型近期特征组中元素间的相似程度,确定所述多个子类型近期特征组分别对应的子近期特征向量。
在本申请实施例中,可以根据S202中确定出的长期编码向量与每个子类型近期特征组中元素间的相似程度,确定多个子类型近期特征组分别对应的子近期特征向量。
S602:根据所述子近期特征向量间的相似程度,确定所述近期特征组对应的用户特征向量。
在本申请实施例中,在为每个子类型近期特征组确定出其对应的子近期特征向量之后,可以根据子近期特征向量间的相似程度,确定出近期特征组对应的用户特征向量。
在具体实现中,在为每个子类型近期特征组确定出其对应的子近期特征向量之后,比如还可以将这些子近期特征向量拼接为一个向量,并将该拼接的向量经过一个全连接网络,以得到用户特征向量。
由此,使得得到的用户特征向量更能够突出用户的浏览兴趣偏好。
在本申请实施例中,针对于S203中的长期编码向量与近期特征组中元素间的相似程度的确定方法,S601中的长期编码向量与每个子类型近期特征组中元素间的相似程度的确定方法,以及S602中的子近期特征向量之间的相似程度间的相似程度的确定方法,在一种可能的实现方式中,都可以基于注意力网络模型进行相应的相似程度的确定。
如此,对于S203中的根据长期编码向量与近期特征组中元素间的相似程度,确定近期特征组对应的用户特征向量方法,可以包括:
S701:根据注意力网络模型,确定所述长期编码向量与所述近期特征组中元素间的相似程度。
S702:根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量。
下面对S701-S702的方法进行详细介绍:可以根据前述公式(1)、公式(2)和公式(3),以确定出长期编码向量对应的第三向量,其中,长期编码向量的第三向量可以体现其与近期特征组中每个元素间的相似程度。接着,可以根据前述公式(4)得到长期编码向量与近期特征组中的每个元素间对应的权重,以及可以根据前述公式(5),将长期编码向量与近期特征组中每个元素间的权重分别分配到近期特征组的每个元素中,从而得到每个元素的目标向量。进而,根据确定出的近期特征组的每个元素的目标向量,确定出近期特征组对应的用户特征向量。
相应的,S601-S602对应的实施例的方法,可以包括:
S801:根据注意力网络模型,确定长期编码向量与每个子类型近期特征组中元素间的相似程度。
S802:根据长期编码向量与每个子类型近期特征组中元素间的相似程度,确定多个子类型近期特征组分别对应的子近期特征向量。
在本申请实施例中,可以根据上述实施例中的多头标度点积的注意力网络模型,确定出长期编码向量与每个子类型近期特征组中元素间的相似程度。并根据长期编码向量与每个子类型近期特征组中元素间的相似程度,确定多个子类型近期特征组分别对应的子近期特征向量。
下面以确定近期关键词类型特征组对应的子近期特征向量为例进行说明:参见图7,该图示出了本申请实施例提供的一种确定近期关键词类型特征组对应的子近期特征向量的过程示意图,如图7所示,假设近期关键词类型特征组这一子近期特征组中共包括n个近期关键词,这n个近期关键词分别为:近期关键词1”、近期关键词2”、近期关键词3”、……近期关键词n”。则,首先,可以根据前述公式(1)、公式(2)和公式(3),以确定出长期编码向量对应的第三向量’,其中,长期编码向量的第三向量’可以体现其与每个关键词m”对应的向量的相似程度。其中,m=1,2,3…n。接着,可以根据前述公式(4)得到长期编码向量与每个关键词m”对应的向量的权重,以及可以根据前述公式(5),将长期编码向量与每个关键词m”对应的向量的权重,以分别分配到每个关键词m”对应的向量中,从而得到每个关键词m”对应的目标向量(即关键词m”’对应的向量)。进而,对确定出的每个关键词m”对应的目标向量进行加权平均,确定出该近期关键词类型特征组对应的子近期特征向量。
可见,针对于确定出的长期编码向量与每个子类型近期特征组中的权重较低的元素,它们有更大的概率属于用户近期新增的浏览兴趣偏好,因此,虽然通过该方法对这样的元素进行了降权,但确定出的每个子类型近期特征组对应的子近期特征向量中依然保留有它们的信息。
S803:根据注意力网络模型,确定子近期特征向量间的相似程度。
S804:根据子近期特征向量间的相似程度,确定近期特征组对应的用户特征向量。
在本申请实施例中,针对于每个子类型近期特征组来说,在确定每个子类型近期特征组对应的子近期特征向量之后,针对于每个子类型特征组对应的子近期特征向量,还可以为其进行多头标度点积的自注意力网络模型的计算。
举例来说,针对于近期关键词类型特征组、近期类目类型特征组、以及近期文档ID类型特征组这三个子类型近期特征组,在为它们分别确定出对应的子近期特征向量之后,可以根据前述公式(1)、公式(2)和公式(3),以确定出每个子类型近期特征组对应的第三向量,且每个子类型近期特征组的第三向量可以包括其与其他子类型近期特征组间的相似程度的关系。接着,可以根据前述公式(4)得到每个子类型近期特征组的权重,以及根据前述公式(5),将每个子类型近期特征组的权重分别分配到该子类型长期特征组素对应的第三向量中,从而得到每个子类型近期特征组的目标向量。
在得到每个子类型近期特征组对应的目标向量之后,可以将长期编码向量以及每个子类型近期特征组对应的目标向量进行拼接(Concat)操作,以得到一个长维度的特征向量,并将该长维度的特征向量经过一个多层的全连接网络,得到用户特征向量。
可以理解,针对于确定出的权重较低的子类型近期特征组,它们有更大的概率属于噪声数据,因此,通过该方法可以对这样的子类型近期特征组进行有效的降权,保证了确定出的用户特征向量更为准确。
在确定出可以突出体现用户浏览兴趣偏好的用户特征向量之后,针对于S204中根据用户特征向量为用户确定作为推荐候选项的网络内容的方法可以包括:
S901:确定待定网络内容与用户特征向量间的相似性。
在本申请实施例中,可以预先精选优质的网络内容作为待定网络内容,并确定每个待定网络内容与用户特征向量间的相似性。其中,这些待定网络内容可以用于,从中挑选出更符合用户浏览兴趣偏好的待定网络内容以推荐给用户。
在具体实现中,比如可以通过计算待定网络内容与用户特征向量间的余弦(Cosine)相似度,以确定待定网络内容与用户特征向量间的相似性。其中,余弦相似度可以通过计算两个向量的夹角余弦值来确定它们之间的相似度。
举例说明:假设当前精选的待定网络内容分别为X1、X2、X3……XN,则,可以将每个待定网络内容对应的向量与用户特征向量进行余弦相似度的计算。其中,余弦相似度的公式如下所示:
为了便于描述,可以将用户特征向量记为Eu,将任意一个待定网络内容对应的向量记为Ev,那么,公式(6)中的ui和vi可以分别为Eu和Ev的相同维度的向量,n为Eu和Ev的维度数量。如此,可以根据公式(6)确定出每个待定网络内容与用户特征向量的相似度,确定出的相似度即可表示为该待定网络内容与用户特征向量的相似性。
S902:将相似性满足预设条件的待定网络内容确定为推荐候选项。
在本申请实施例中,可以预先设置一个预设条件,该预设条件可以是用于确定待定网络内容与用户特征向量相似性高的条件。由此,在确定出待定网络内容与用户特征向量间的相似性之后,可以将相似性满足预设条件的待定网络内容确定为推荐候选项,以推荐给该用户。
例如:对于10个待定网络内容X1、X2、X3……X10,若其中的待定网络内容X3、X5、X7与用户特征向量的相似性满足预设条件,则可以将待定网络内容X3、X5、X7确定为推荐候选项。
接下来,将结合具体应用场景对本申请实施例提供的网络内容召回方法进行介绍。
假设针对于用户U1,可以根据该用户U1的历史浏览数据,确定该用户U1的画像特征,其中,该画像特征中可以包括长期特征组和近期特征组,且长期特征组和近期特征组是根据历史浏览数据中元素的生成时间确定的。在具体实现中,近期特征组中的元素比如可以是根据用户U1近期浏览的几篇文章确定的。
如图8所示,该图示出了本申请实施例提供的一种画像特征包括的特征组示意图。其中,长期特征组可以包括:长期关键词(Tag)类型特征组、长期类目(Category)类型特征组、近7天关键词(Tag)类型特征组、近7天类目(Category)类型特征组、用户基本属性信息。近期特征组可以包括:近期关键词类型特征组、近期类目类型特征组、以及近期文档ID类型特征组。
参见图9,该图示出了本申请实施例提供的一种画像特征的元素组成示意图。其中,图9展示了用户U1的画像特征中各个子类型长期特征组、以及各个子类型近期特征组的元素。
在确定出用户U1的画像特征之后,参见图10,该图示出了本申请实施例提供的一种网络内容召回方法对应的召回框架网络结构图。如图10所示,首先,可以根据前述公式(1)-(5)所对应的自注意力网络模型,基于各个子类型长期特征组中的元素,以分别确定出各个子类型长期特征组对应的子长期特征向量。接着,根据子类型长期特征组间的多头标度点积自注意力层,以确定出每个子类型长期特征组对应的目标向量,并将这些子类型长期特征组对应的目标向量进行拼接,以得到一个长维度的特征向量,最后经过多层的前馈神经网络得到对应该用户U1的长期编码向量.其中,每层前馈神经网络的激活函数可以为线性整流函数(Rectified Linear Unit,RELU)。
在确定出长期编码向量之后,可以基于注意力网络模型,根据长期编码向量与每个子类型近期特征组中元素间的相似程度,确定每个子类型近期特征组分别对应的子近期特征向量;并将长期编码向量与每个子近期特征向量进行拼接得到一个新的向量,再将这个新的向量经过一个全连接网络,以得到该用户U1对应的用户特征向量。
由此,可以将该用户U1对应的用户特征向量输入至K最近邻(K-NearestNeighbor,KNN)分类器中,进而实现候选项的召回。此外,还可以对该用户特征向量进行归一化,将归一化后的用户特征向量与其他待定网络内容对应的向量进行相似性的计算,并将相似性的结果发送至KNN服务器中。
在本申请实施例中,该召回框架网络结构图可以应用在一些线上推荐系统中,举例来说,参见图11,该图示出了本申请实施例提供的一种应用召回框架网络结构的推荐系统结构图,图11所示的推荐系统可以包括召回逻辑,初选逻辑和排序逻辑。
其中,召回逻辑中的序列化召回模型可以通过从数据系统中获取用户最近的阅读序列和用户的画像特征,使用训练好的网络进行编码,从而确定出用户特征向量,然后从待定网络内容中确定出符合预设条件的候选项进行召回推荐。
初选逻辑可以用于对大量的召回结果按照特定规则(例如:用户文档相关性,时效性,地域,多样性等)进行初步筛选,从而减小下一步排序逻辑的计算量。此外,还可以将用户特征向量作为初选逻辑中的一个特征,以为初选提供较为精细的语义特征。
排序逻辑可以按照点击率预估模型来对最终结果排序,从而将排序后的推荐项呈现给用户。
基于前述实施例提供的一种网络内容召回方法,本申请实施例还提供一种网络内容召回装置,参见图12,该图示出了本申请实施例提供的一种网络内容召回装置的结构示意图,所述装置1200包括第一确定单元1201、第二确定单元1202、第三确定单元1203和第四确定单元1204:
所述第一确定单元1201,用于根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;
所述第二确定单元1202,用于根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
所述第三确定单元1203,用于根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量;
所述第四确定单元1204,用于根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
可选的,所述第二确定单元1202,具体用于:
根据每个子类型长期特征组中元素间的相似程度,确定所述多个子类型长期特征组分别对应的子长期特征向量,其中,所述长期特征组包括多个子类型长期特征组;
根据所述子长期特征向量间的相似程度,确定所述长期特征组对应的长期编码向量。
可选的,所述第二确定单元1202,还具体用于:
根据注意力网络模型,确定所述长期特征组中元素间的相似程度;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量。
可选的,所述第三确定单元1203,具体用于:
根据所述长期编码向量与每个子类型近期特征组中元素间的相似程度,确定所述多个子类型近期特征组分别对应的子近期特征向量,其中,所述近期特征组包括多个子类型近期特征组;
根据所述子近期特征向量间的相似程度,确定所述近期特征组对应的用户特征向量。
可选的,所述第三确定单元1203,还具体用于:
根据注意力网络模型,确定所述长期编码向量与所述近期特征组中元素间的相似程度;
根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量。
可选的,所述第四确定单元1204,具体用于:
确定待定网络内容与所述用户特征向量间的相似性;
将相似性满足预设条件的待定网络内容确定为推荐候选项。
综上,根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组。也就是说,长期特征组能够体现该用户的长期浏览兴趣,近期特征组能够体现该用户的近期浏览兴趣。根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量,由于长期编码向量是基于长期特征组中元素间相似程度得到,导致相似程度较高的元素在该长期编码向量中体现更多的信息,由于用户对符合浏览兴趣的类似网络内容会有较多的浏览行为,而确定出的高相似度元素即属于符合该用户浏览兴趣的类似网络内容,从而该长期编码向量可以更突出的体现该用户浏览兴趣的偏好程度。根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量,由此使得用户特征向量中符合用户浏览兴趣偏好的信息能够较为突出,其他的信息也一定程度的保留,通过该用户特征向量确定出的推荐候选项符合用户实际浏览兴趣的可能性更高,而且还具有一定的泛化性,提高了为该用户推荐网络内容的质量,提高了用户的浏览体验。
本申请实施例还提供了一种用于网络内容召回的设备,下面结合附图对用于网络内容召回的设备进行介绍。请参见图13所示,本申请实施例提供了一种用于网络内容召回的设备1300,该设备1300还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13,手机包括:射频(Radio Frequency,简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity,简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解,图13中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图13对手机的各个构成部件进行具体的介绍:
RF电路1310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1380处理;另外,将设计上行的数据发送给基站。通常,RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1320可用于存储软件程序以及模块,处理器1380通过运行存储在存储器1320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1380,并能接收处理器1380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331,输入单元1330还可以包括其他输入设备1332。具体地,其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1341。进一步的,触控面板1331可覆盖显示面板1341,当触控面板1331检测到在其上或附近的触摸操作后,传送给处理器1380以确定触摸事件的类型,随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中,触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1360、扬声器1361,传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出;另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出处理器1380处理后,经RF电路1310以发送给比如另一手机,或者将音频数据输出至存储器1320以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1320内的软件程序和/或模块,以及调用存储在存储器1320内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1380可包括一个或多个处理单元;优选的,处理器1380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1380中。
手机还包括给各个部件供电的电源1390(比如电池),优选的,电源可以通过电源管理系统与处理器1380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器1380还具有以下功能:
根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量;
根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
本申请实施例提供的用于网络内容召回的设备可以是服务器,请参见图14所示,图14为本申请实施例提供的服务器1400的结构图,服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。
根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
根据所述长期编码向量与所述近期特征组中元素间的相似程度,确定所述近期特征组对应的用户特征向量;
根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种网络内容召回方法,其特征在于,所述方法包括:
根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;所述近期特征组包括多个子类型近期特征组;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
根据所述长期编码向量与每个子类型近期特征组中元素间的相似程度,确定所述多个子类型近期特征组分别对应的子近期特征向量;根据所述子近期特征向量间的相似程度,确定所述近期特征组对应的用户特征向量;
根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
2.根据权利要求1所述的方法,其特征在于,所述长期特征组包括多个子类型长期特征组,所述根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量,包括:
根据每个子类型长期特征组中元素间的相似程度,确定所述多个子类型长期特征组分别对应的子长期特征向量;
根据所述子长期特征向量间的相似程度,确定所述长期特征组对应的长期编码向量。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量,包括:
根据注意力网络模型,确定所述长期特征组中元素间的相似程度;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述长期编码向量与每个子类型近期特征组中元素间的相似程度,确定所述多个子类型近期特征组分别对应的子近期特征向量;根据所述子近期特征向量间的相似程度,确定所述近期特征组对应的用户特征向量,包括:
根据注意力网络模型,确定所述长期编码向量与每个子类型近期特征组中元素间的相似程度;
根据所述长期编码向量与每个子类型近期特征组中元素间的相似程度,确定所述多个子类型近期特征组分别对应的子近期特征向量;
根据注意力网络模型,确定所述子近期特征向量间的相似程度;
根据所述子近期特征向量间的相似程度,确定近期特征组对应的用户特征向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容,包括:
确定待定网络内容与所述用户特征向量间的相似性;
将相似性满足预设条件的待定网络内容确定为推荐候选项。
6.一种网络内容召回装置,其特征在于,所述装置包括第一确定单元、第二确定单元、第三确定单元和第四确定单元:
所述第一确定单元,用于根据用户的历史浏览数据中元素的生成时间,从所述历史浏览数据中确定长期特征组和近期特征组;所述近期特征组包括多个子类型近期特征组;
所述第二确定单元,用于根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量;
所述第三确定单元,用于根据所述长期编码向量与每个子类型近期特征组中元素间的相似程度,确定所述多个子类型近期特征组分别对应的子近期特征向量;根据所述子近期特征向量间的相似程度,确定所述近期特征组对应的用户特征向量;
所述第四确定单元,用于根据所述用户特征向量为所述用户确定作为推荐候选项的网络内容。
7.根据权利要求6所述的装置,其特征在于,所述第二确定单元,具体用于:
根据每个子类型长期特征组中元素间的相似程度,确定所述多个子类型长期特征组分别对应的子长期特征向量,其中,所述长期特征组包括多个子类型长期特征组;
根据所述子长期特征向量间的相似程度,确定所述长期特征组对应的长期编码向量。
8.根据权利要求6或7所述的装置,其特征在于,所述第二确定单元,还具体用于:
根据注意力网络模型,确定所述长期特征组中元素间的相似程度;
根据所述长期特征组中元素间的相似程度,确定所述长期特征组对应的长期编码向量。
9.根据权利要求6所述的装置,其特征在于,所述第四确定单元,用于:
确定待定网络内容与所述用户特征向量间的相似性;
将相似性满足预设条件的待定网络内容确定为推荐候选项。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的网络内容召回方法。
11.一种用于网络内容召回的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的网络内容召回方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910451826.2A CN110245293B (zh) | 2019-05-28 | 2019-05-28 | 一种网络内容召回方法和装置 |
PCT/CN2020/092575 WO2020238951A1 (zh) | 2019-05-28 | 2020-05-27 | 网络内容处理方法、装置、设备及计算机存储介质 |
US17/359,874 US11714864B2 (en) | 2019-05-28 | 2021-06-28 | Method and apparatus for processing web content, device, and computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910451826.2A CN110245293B (zh) | 2019-05-28 | 2019-05-28 | 一种网络内容召回方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245293A CN110245293A (zh) | 2019-09-17 |
CN110245293B true CN110245293B (zh) | 2023-07-11 |
Family
ID=67885245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910451826.2A Active CN110245293B (zh) | 2019-05-28 | 2019-05-28 | 一种网络内容召回方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11714864B2 (zh) |
CN (1) | CN110245293B (zh) |
WO (1) | WO2020238951A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245293B (zh) | 2019-05-28 | 2023-07-11 | 深圳市雅阅科技有限公司 | 一种网络内容召回方法和装置 |
CN111046298B (zh) * | 2020-03-13 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 推送应用程序的方法、装置、计算机设备和存储介质 |
CN111625710B (zh) * | 2020-04-09 | 2021-12-24 | 北京百度网讯科技有限公司 | 推荐内容的处理方法、装置、电子设备及可读存储介质 |
CN112749330B (zh) * | 2020-06-05 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN111538912B (zh) * | 2020-07-07 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
US12014029B2 (en) * | 2021-05-26 | 2024-06-18 | Intuit Inc. | Smart navigation |
CN115374369B (zh) * | 2022-10-20 | 2023-04-07 | 暨南大学 | 基于图神经网络的新闻多样性推荐方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572734A (zh) * | 2013-10-23 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 问题推荐方法、装置及系统 |
CN106375369A (zh) * | 2016-08-18 | 2017-02-01 | 南京邮电大学 | 基于用户行为分析的移动Web业务推荐方法及协同推荐系统 |
CN108509493A (zh) * | 2018-02-13 | 2018-09-07 | 北京邮电大学 | 一种ar视觉搜索推荐服务方法 |
CN109767301A (zh) * | 2019-01-14 | 2019-05-17 | 北京大学 | 推荐方法及系统、计算机装置、计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8539359B2 (en) * | 2009-02-11 | 2013-09-17 | Jeffrey A. Rapaport | Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic |
US20170140051A1 (en) * | 2015-11-16 | 2017-05-18 | Facebook, Inc. | Ranking and Filtering Comments Based on Labelling |
US11443008B2 (en) * | 2018-06-11 | 2022-09-13 | International Business Machines Corporation | Advanced web page content management |
CN109087130A (zh) * | 2018-07-17 | 2018-12-25 | 深圳先进技术研究院 | 一种基于注意力机制的推荐系统及推荐方法 |
CN109492157B (zh) * | 2018-10-24 | 2021-08-31 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN110245293B (zh) * | 2019-05-28 | 2023-07-11 | 深圳市雅阅科技有限公司 | 一种网络内容召回方法和装置 |
-
2019
- 2019-05-28 CN CN201910451826.2A patent/CN110245293B/zh active Active
-
2020
- 2020-05-27 WO PCT/CN2020/092575 patent/WO2020238951A1/zh active Application Filing
-
2021
- 2021-06-28 US US17/359,874 patent/US11714864B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572734A (zh) * | 2013-10-23 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 问题推荐方法、装置及系统 |
CN106375369A (zh) * | 2016-08-18 | 2017-02-01 | 南京邮电大学 | 基于用户行为分析的移动Web业务推荐方法及协同推荐系统 |
CN108509493A (zh) * | 2018-02-13 | 2018-09-07 | 北京邮电大学 | 一种ar视觉搜索推荐服务方法 |
CN109767301A (zh) * | 2019-01-14 | 2019-05-17 | 北京大学 | 推荐方法及系统、计算机装置、计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
zhang shuai等.Next Item Recommendation with Self-Attention.《https://arkiv.org/abs/1808.06414》.2018,1-10. * |
Also Published As
Publication number | Publication date |
---|---|
WO2020238951A1 (zh) | 2020-12-03 |
US11714864B2 (en) | 2023-08-01 |
US20210326400A1 (en) | 2021-10-21 |
CN110245293A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245293B (zh) | 一种网络内容召回方法和装置 | |
CN109241431B (zh) | 一种资源推荐方法和装置 | |
CN110069715B (zh) | 一种信息推荐模型训练的方法、信息推荐的方法及装置 | |
CN106792003B (zh) | 一种智能广告插播方法、装置及服务器 | |
CN108121803B (zh) | 一种确定页面布局的方法和服务器 | |
US20190188275A1 (en) | Method, device, storage medium, terminal for serching and retrieving applications | |
CN111177371B (zh) | 一种分类方法和相关装置 | |
CN109033156B (zh) | 一种信息处理方法、装置及终端 | |
CN111125523B (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN110209810B (zh) | 相似文本识别方法以及装置 | |
CN111090877B (zh) | 数据生成、获取方法及对应的装置、存储介质 | |
CN110083742B (zh) | 一种视频查询方法和装置 | |
CN110929882A (zh) | 一种基于人工智能的特征向量计算方法和相关装置 | |
CN112925878A (zh) | 数据处理方法和装置 | |
CN116957585A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN112329462B (zh) | 一种数据排序方法、装置、电子设备及存储介质 | |
CN111666485B (zh) | 一种信息推荐方法、装置及终端 | |
CN115080840A (zh) | 一种内容推送方法、装置及存储介质 | |
CN113626683B (zh) | 一种ctr预估处理方法、装置、电子设备及存储介质 | |
CN113704447B (zh) | 一种文本信息的识别方法以及相关装置 | |
CN116450808B (zh) | 一种数据的处理方法、装置以及存储介质 | |
CN112685578B (zh) | 一种多媒体信息内容提供方法及装置 | |
CN111914113B (zh) | 一种图像检索的方法以及相关装置 | |
CN117725408A (zh) | 一种模型训练方法、装置、智能终端及存储介质 | |
CN116663538A (zh) | 基于文本的语种识别方法、相关装置,设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221129 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Yayue Technology Co.,Ltd. Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |