CN113641919A

CN113641919A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN113641919A
Application number: CN202111184623.5A
Authority: CN
Inventors: 马双剑; 谭博仁; 王辉; 王璐
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2021-11-12
Anticipated expiration: 2041-10-12
Also published as: CN113641919B

Abstract

本公开关于一种数据处理方法、装置、电子设备及存储介质，涉及数据处理技术领域。该方法包括：确定每一类内容的兴趣用户账户，兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户；确定每两类内容之间兴趣用户账户的重合度；生成内容网络，内容网络包括多个节点以及至少一个连接边，多个节点中的每个节点用于表征每一类内容中的一类内容，连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度；确定内容网络中每一个节点的关联节点，以基于关联节点表征的内容生成目标用户账户的推荐内容，目标用户账户为消费每一个节点表征的内容的用户账户，关联节点为与每一个节点能够通过连接边连通的节点。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

相关技术中，内容提供平台在做与内容相关的兴趣探索和内容推荐时，主要依赖于协调过滤的算法模型。具体的，计算机设备将用户账户消费的每个内容的海量特征输入该模型，该模型会输出每个内容的特征向量。之后，计算机设备根据每个内容的特征向量，确定不同内容间的特征相似度，将特征相似度满足预设条件的两个内容确定为关联内容，并在用户账户消费内容时，向用户账户推荐该内容的关联内容。

然而，这种利用不同内容间的特征相似度，挖掘每个内容的待推荐的相关内容的方法，无法挖掘到与当前内容的类型不同的相关内容。

发明内容

本公开提供一种数据处理方法、装置、电子设备及存储介质，以至少解决相关技术中，无法挖掘到与当前内容的类型不同的相关内容的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种数据处理方法，包括：确定每一类内容的兴趣用户账户，兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户；确定每两类内容之间兴趣用户账户的重合度，重合度用于表征每两类内容之间相同兴趣用户账户的数量在每两类内容中的每一类内容的兴趣用户账户数量的占比；生成内容网络，内容网络包括多个节点以及至少一个连接边，多个节点中的每个节点用于表征每一类内容中的一类内容，连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度；确定内容网络中每一个节点的关联节点，以基于关联节点表征的内容生成目标用户账户的推荐内容，目标用户账户为消费每一个节点表征的内容的用户账户，关联节点为与每一个节点能够通过连接边连通的节点。

在一种可能的实施方式中，确定每两类内容之间兴趣用户账户的重合度，包括：确定第一类内容与第二类内容之间的兴趣用户账户的交集；第一类内容和第二类内容为任意两类内容；确定交集与第一类内容的兴趣用户账户的第一占比，以及交集与第二类内容的兴趣用户账户的第二占比，重合度包括第一占比和第二占比。

另一种可能的实施方式中，生成内容网络，包括：遍历每两类内容之间兴趣用户账户的重合度，在每两类内容之间兴趣用户账户的重合度大于重合度阈值的情况下，确定每两类内容对应的节点之间有连接边；根据连接边和节点，生成内容网络。

另一种可能的实施方式中，数据处理方法还包括：确定每一类内容的兴趣用户账户的数量；根据每两类内容之间兴趣用户账户的重合度的统计分布，确定每两个量级之间的重合度阈值，量级为兴趣用户账户的数量所属的量级；根据每两个量级之间的重合度阈值，得到重合度阈值表。

另一种可能的实施方式中，在每两个类型的内容之间的兴趣用户账户的重合度大于对应预设阈值的情况下，确定两个类型的内容对应的节点之间有连接边，包括：在每两类内容之间的第一占比大于第一重合度阈值的情况下，确定第一类内容对应的节点到第二类内容对应的节点之间有第一有向连接边；第一占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第一类内容的兴趣用户账户数量中的占比；在每两类内容之间的第二占比大于第二重合度阈值的情况下，确定第二类内容对应的节点到第一类内容对应的节点之间有第二有向连接边；第二占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第二类内容的兴趣用户账户数量中的占比。

另一种可能的实施方式中，确定内容网络中每一个节点的关联节点，包括：确定内容网络的关键节点的内容兴趣圈；内容兴趣圈包括关键节点、以及与关键节点通过一条目标连接边连接的节点；关键节点用于表征内容网络中节点出度或入度满足预设条件的节点，目标连接边为第一有向连接边或第二有向连接边；确定目标节点的关联节点，关联节点包括内容兴趣圈中除目标节点以外的其他节点，目标节点为内容兴趣圈中的任意一个节点。

另一种可能的实施方式中，关键节点包括节点出度≥第一阈值且第二阈值≤节点入度＜第三阈值的节点；和/或关键包括节点出度≥第四阈值且节点入度＜第三阈值的节点。

另一种可能的实施方式中，关键节点包括节点入度≥第三阈值的节点；和/或关键节点包括存在两个方向不同的有向连接边的两个节点。

根据本公开实施例的第二方面，提供一种数据处理装置，包括：确定模块，被配置为执行确定每一类内容的兴趣用户账户，兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户；重合度模块，被配置为执行确定每两类内容之间兴趣用户账户的重合度，重合度用于表征每两类内容之间相同兴趣用户账户的数量在每两类内容中的每一类内容的兴趣用户账户数量的占比；生成模块，被配置为执行生成内容网络，内容网络包括多个节点以及至少一个连接边，多个节点中的每个节点用于表征每一类内容中的一类内容，连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度；关联模块，被确定为执行确定内容网络中每一个节点的关联节点，以基于关联节点表征的内容生成目标用户账户的推荐内容，目标用户账户为消费每一个节点表征的内容的用户账户，关联节点为与每一个节点能够通过连接边连通的节点。

在一种可能的实施方式中，重合度模块，具体被配置为执行：确定第一类内容与第二类内容之间的兴趣用户账户的交集；第一类内容和第二类内容为任意两类内容；确定交集与第一类内容的兴趣用户账户的第一占比，以及交集与第二类内容的兴趣用户账户的第二占比，重合度包括第一占比和第二占比。

另一种可能的实施方式中，生成模块，具体被配置为执行：遍历每两类内容之间兴趣用户账户的重合度，在每两类内容之间兴趣用户账户的重合度大于重合度阈值的情况下，确定每两类内容对应的节点之间有连接边；根据连接边和节点，生成内容网络。

另一种可能的实施方式中，数据处理装置还包括阈值模块，被配置为执行：确定每一类内容的兴趣用户账户的数量；根据每两类内容之间兴趣用户账户的重合度的统计分布，确定每两个量级之间的重合度阈值，量级为兴趣用户账户的数量所属的量级；根据每两个量级之间的重合度阈值，得到重合度阈值表。

另一种可能的实施方式中，生成模块，具体被配置为执行：在每两类内容之间的第一占比大于第一重合度阈值的情况下，确定第一类内容对应的节点到第二类内容对应的节点之间有第一有向连接边；第一占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第一类内容的兴趣用户账户数量中的占比；在每两类内容之间的第二占比大于第二重合度阈值的情况下，确定第二类内容对应的节点到第一类内容对应的节点之间有第二有向连接边；第二占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第二类内容的兴趣用户账户数量中的占比。

另一种可能的实施方式中，关联模块具体被配置为执行：确定内容网络的关键节点的内容兴趣圈；内容兴趣圈包括关键节点、以及与关键节点通过一条目标连接边连接的节点；关键节点用于表征内容网络中节点出度或入度满足预设条件的节点，目标连接边为第一有向连接边或第二有向连接边；确定目标节点的关联节点，关联节点包括内容兴趣圈中除目标节点以外的其他节点，目标节点为内容兴趣圈中的任意一个节点。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述第一方面及其任一种可能的实施方式的数据处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中及其任一种可能的实施方式的数据处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面及其任一种可能的实施方式的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过以内容的类型构建节点，以不同类型的内容之间兴趣用户账户的重合度构建连接边，并根据节点和连接边生成内容网络，使得内容网络能够直观的表现不同类型的内容之间的关联关系，从而实现通过确定内容网络上每一个节点的关联节点，能够直接确定每一类内容的关联类型内容。通过确定每一类内容的关联类型内容，能够在内容推荐时，向目标用户账户推荐与当前查看内容的类型具有关联关系的内容类型，从而通过提高待推荐内容的类型多样性，实现提高用户账户消费内容的多样性，进而提高用户账户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据处理方法的流程图；

图2是根据一示例性实施例示出的一种内容网络的节点的示意图；

图3是根据一示例性实施例示出的另一种数据处理方法的流程图；

图4是根据一示例性实施例示出的兴趣用户账户的交集的示意图；

图5是根据一示例性实施例示出的另一种数据处理方法的流程图；

图6是根据一示例性实施例示出的另一种数据处理方法的流程图；

图7是根据一示例性实施例示出的一种内容兴趣圈的示意图；

图8是根据一示例性实施例示出的一种关键节点的示意图；

图9是根据一示例性实施例示出的另一种关键节点的示意图；

图10是根据一示例性实施例示出的另一种关键节点的示意图；

图11是根据一示例性实施例示出的另一种关键节点的示意图；

图12是根据一示例性实施例示出的一种数据处理装置的框图；

图13是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在对本公开提供的数据处理方法进行详细介绍之前，先对本公开涉及的应用场景和实施环境进行简单介绍。

首先，对本公开涉及的应用场景进行简单介绍。

内容提供平台为了优化内容推荐效果，通常会做与内容相关的兴趣探索和兴趣泛化。其中，内容至少包括音频、视频、图像和文本。

相关技术中，在做兴趣探索和内容推荐时，主要依赖于协调过滤的算法模型。具体的，计算机设备将用户账户消费的每个内容的海量特征输入该模型，该模型会输出每个内容的特征向量。之后，计算机设备根据每个内容的特征向量，确定不同内容间的特征相似度，将特征相似度满足预设条件的两个内容确定为关联内容，并在用户账户消费内容时，向用户账户推荐该内容的关联内容。其中，消费是指观看或使用。

具体来说，产检内容与怀孕内容之间特征相似度比较高，可以确定产检内容和怀孕内容为关联内容，可以理解的，产检内容与怀孕内容都属于孕产类别中的内容。而怀孕内容和饮食内容之间的特征相似度比较低，怀孕内容和饮食内容无法确定为关联内容，可以理解的，怀孕内容属于孕产类别中的内容，饮食内容属于美食日常类别中的内容。也就是说，由于不同类内容之间的特征相似度通常比较低，通过不同内容之间的特征相似度确定关联内容的方式，很难将属于不同类别的两个内容确定为关联内容，从而达到很难挖掘到与当前内容的类别不同的相关内容作为关联内容。针对上述问题，本公开提供了一种数据处理方法，通过以内容的类型构建节点，以不同类型的内容之间兴趣用户账户的重合度构建连接边，并根据节点和连接边生成内容网络，使得内容网络能够直观的表现不同类型的内容之间的关联关系，从而实现通过确定内容网络上每一个节点的关联节点，能够直接确定每一类内容的关联类型内容。通过确定每一类内容的关联类型内容，能够在内容推荐时，向目标用户账户推荐与当前查看内容的类型具有关联关系的内容类型，从而通过提高待推荐内容的类型多样性，实现提高用户账户消费内容的多样性，进而提高用户账户体验。

其次，下面对本公开涉及的实施环境（实施架构）进行简单介绍。

本公开实施例提供的信息处理方法可以应用于电子设备。电子设备可以是终端设备或服务器。其中，终端设备可以是智能手机、平板电脑、掌上电脑、车载终端、台式电脑以及笔记本电脑等。服务器可以是任意一个服务器或服务器集群，本公开对此不做限定。

此外，需要说明的是，本公开所涉及的用户账户信息（包括但不限于用户账户设备信息、用户账户个人信息、用户账户消费的内容、用户账户对每个内容的消费时长等），均为经用户账户授权或者经过各方充分授权的信息。

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

图1是根据一示例性实施例示出的一种数据处理方法的流程图。数据处理方法用于电子设备中，包括S101-S104。

在S101中，确定每一类型内容的兴趣用户账户，兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户。

可选地，内容包括音频、视频、图像和文本信息等。

在一种实施方式中，消费时长可以是播放音频或视频的时长。

在另一种实施方式中，消费时长可以是查看图像或文本信息的时长。

可选地，确定每一类内容的兴趣用户账户，可以是确定每一类内容的兴趣用户账户的数量。

在一种实施方式中，获取目标用户账户对每一类内容中的第一类内容的第一消费时长，在第一消费时长满足预设条件的情况下，确定目标用户账户为第一类内容的兴趣用户账户。进一步地，获取目标用户账户对每一类内容中的第二类内容的第二消费时长，在第二消费时长满足预设条件的情况下，确定目标用户账户为第二类内容的兴趣用户账户。

需要说明的，每个用户账户可以同时是每一类内容中多个类别内容的兴趣用户账户。

可选地，在确定每一类内容的兴趣用户账户之前，还包括：获取每一类内容的历史数据。历史数据包括用户账户对每一类内容的消费时长。

在一种实施方式中，美食类内容包括10个内容，例如，可以是第一内容、第二内容、……、第十内容。通过获取用户账户对第一内容的第一消费时长、第二内容的第二消费时长、……、第十内容的第十消费时长，并将第一消费时长、第二消费时长、……、第十消费时长进行累加，得到用户账户对美食类型的内容的消费时长，进而在该用户账户对美食类型的内容的消费时长满足预设条件时，确定该用户账户属于美食类内容的兴趣用户账户。

可选地，预设条件包括：第一条件、第二条件和第三条件中的至少一个。

第一条件包括：用户账户对一类内容的消费时长大于第一时长，第一时长用于表征该类内容的人均消费时长。

示例性的，人均消费时长可以是一类内容的总消费时长与总消费人数的比值。

第二条件包括：用户账户对一类内容的消费时长在该类内容的总时长中的占比，大于该类内容的人均消费时长在该类内容的总时长中的占比。

第三条件包括：用户账户对一类内容的消费时长在该类内容的消费时长的排序中，排名大于或等于预设阈值。

示例性的，预设阈值可以是20，也即，当用户账户对一类内容的消费时长在该类内容的消费时长的排序中，位于前20名（包括第20名），则该用户账户的消费时长满足第三条件。

在S102中，确定每两类内容之间兴趣用户账户的重合度。

其中，重合度用于表征每两类内容之间相同兴趣用户账户的数量在每两类内容中的每一类内容的兴趣用户账户数量的占比。

可选地，重合度的大小表征两类内容之间的连接强度。可以理解的，两类内容之间的连接强度越大，两类内容之间的关联关系越强。在一种实施方式中，每两类内容包括第一类内容和第二类内容。每两类内容之间相同兴趣用户账户的数量在第一类内容的兴趣用户账户数量的占比为第一占比。每两类内容之间相同兴趣用户账户的数量在第二类内容的兴趣用户账户数量的占比为第二占比。重合度包括第一占比和第二占比。

在S103中，生成内容网络，内容网络包括多个节点以及至少一个连接边，多个节点中的每个节点用于表征每一类内容中的一类内容，连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度。

可选地，一个连接边用于表征重合度的一个占比。在每两类内容之间具有的重合度包括第一占比和第二占比的情况下，每两类内容对应的两个节点之间具有两个连接边。

在一种实施方式中，如图2所示，节点可以是内容的类型标签。例如，节点可以是美食探店、烹饪教学、吃播或网红。通过将内容的类型标签作为节点，能够直接表达节点对应的类型的自然语义，有利于直观的确定不同类型内容之间连接关系。进一步地，可以根据每两类内容之间的重合度的值确定连接边的线宽值，其中，重合度的值与连接边线宽值成正比，进而可以通过连接边的线宽值表达每两类内容之间的连接强度，其中，连接边的线宽值越大，则两个节点的连接强度越强，也即，关联关系越强。

在一种可能的实施方式中，还可以通过每类内容对应的粉丝关系来生成社交关系网络。

在S104中，确定内容网络中每一个节点的关联节点，以基于关联节点表征的内容生成目标用户账户的推荐内容。

其中，目标用户账户为消费每一个节点表征的内容的用户账户，关联节点为与每一个节点能够通过连接边连通的节点。

在一种实施方式中，以图2所示的内容网络为例进行说明，可以看出，美食探店节点的关联节点包括烹饪教学节点、吃播节点和网红节点。对于消费美食探店内容的用户账户，可以向其推荐烹饪教学内容、吃播内容和网红内容。

可选地，可以根据节点之间的连接关系，确定每一个节点的关联节点。例如，可以将通过至少一个连接边连接的两个节点，确定为关联节点。

在一种实施方式中，第一节点和第二节点通过一条连接边进行连接，此时，第一节点与第二节点互为关联节点。也即，互为关联节点是指第一节点是第二节点的关联节点，同样的，第二节点也是第一节点的关联节点。

在另一种实施方式中，第一节点和第二节点通过二条连接边进行连接，此时，第一节点与第二节点互为关联节点。

在另一个示例中，第三节点通过一条连接与第二节点进行连接，第一节点和第二节点通过至少一条连接边进行连接。此时，第三与第一节点互为关联节点。

上述实施例中，通过以内容的类型构建节点，以不同类型的内容之间兴趣用户账户的重合度构建连接边，并根据节点和连接边生成内容网络，使得内容网络能够直观的表现不同类型的内容之间的关联关系，从而实现通过确定内容网络上每一个节点的关联节点，能够直接确定每一类内容的关联类型内容。通过确定每一类内容的关联类型内容，能够在内容推荐时，向目标用户账户推荐与当前查看内容的类型具有关联关系的内容类型，从而通过提高待推荐内容的类型多样性，实现提高用户账户消费内容的多样性，进而提高用户账户体验。

在一种可能的实施方式中，结合图1，如图3所示，S102包括S102a-S102b。

在S102a中，确定第一类内容与第二类内容之间的兴趣用户账户的交集；

其中，第一类内容和第二类内容为任意两类内容。

如图4所示，第一类内容的兴趣用户账户对应图中的Ua区域，第二类内容的兴趣用户账户对应图中的Ub区域，第一类内容与第二类内容之间的兴趣用户账户的交集对应图中的UC区域，其中，UC为Ua&Ub交集区域。

可选地，可以根据每个兴趣用户账户对应的账户标识，确定第一类内容与第二类内容之间的兴趣用户账户的交集。

在S102b中，确定交集与第一类内容的兴趣用户账户的第一占比，以及交集与第二类内容的兴趣用户账户的第二占比，重合度包括第一占比和第二占比。

可选地，交集与第一类内容的兴趣用户账户的第一占比，可以是第一类内容出发达到第二类内容的兴趣用户账户的重合度。例如，在生成内容网络时，基于第一占比可以构建第一类内容出发到达第二类内容的有向连接边。

可选地，交集与第二类内容的兴趣用户账户的第二占比，可以是第二类内容出发到达第一类内容的兴趣用户账户的重合度。例如，在生成内容网络时，基于第二占比可以构建第二类内容出发到达第一类内容的有向连接边。

上述实施例中，通过确定交集与第一类内容的兴趣用户账户的第一占比，交集与第二类内容的兴趣用户账户的第二占比，以及重合度包括第一占比和第二占比，实现构建两个节点之间的有向连接边，从而能够根据有向连接边确定每个节点的出度和入度，进而更加准确的确定每个节点表征的内容与其他节点表征的内容之间的关联关系。

在一种可能的实施方式中，结合图3，如图5所示，S103包括：S103a-S103b。

在S103a中，遍历每两类内容之间兴趣用户账户的重合度，在每两类内容之间兴趣用户账户的重合度大于重合度阈值的情况下，确定每两类内容对应的节点之间有连接边。

可选地，重合度阈值包括第一重合度阈值和第二重合度阈值。第一占比对应第一重合度阈值，第二占比对应第二重合度阈值。

在一个示例中，在第一占比大于或等于第一重合度阈值时，确定具有第一类内容出发到达第二类内容的有向连接边。

在另一个示例中，在第二占比大于或等于第二重合度阈值时，确定具有第二类内容出发到达第一类内容的有向连接边。

在S103b中，根据连接边和节点，生成内容网络。

上述实施例中，通过每两类内容之间兴趣用户账户的重合度与重合度阈值的关系，确定两类内容对应的节点之间是否有连接边，能够提高连接边构建的准确性，进而提高不同类型内容之间关联关系的准确性。

在一种可能的实施方式中，数据处理方法还包括：确定每一类内容兴趣用户账户的数量；根据每两类内容之间兴趣用户账户的重合度的统计分布，确定每两个量级之间的重合度阈值。根据每两个量级之间的重合度阈值，得到重合度阈值表。其中。重合度阈值表如表1所示。

其中，量级为每一类内容的兴趣用户账户的数量所属的量级，例如，第一类内容的兴趣用户账户的数量为1235，则第一类内容的量级属于1k。第二类内容的兴趣用户账户的数量为22654，则第二类内容的量级属于1w。可以理解的，本公开的量级是指兴趣用户账户的数量值的最高位对应的级别，例如，第一类内容的兴趣用户账户的数量值的最高位是千位，千位对应的量级为1k，第二类内容的兴趣用户账户的数量值的最高位是万位，万位对应的量级为1k，以此类推。

表1

需要说明的，确定每两个量级之间的重合度阈值是指，确定每两类内容所属的量级之间的重合度阈值。其中，每一类内容所属的量级与每一类内容的兴趣用户账户的数量所属的量级相同。

重合度阈值表用于表征不同量级的每两类内容之间的兴趣用户账户的重合度阈值。

如表1所示，在第一类内容的兴趣用户账户的数量属于1k的量级，第二类内容的兴趣用户账户的数量属于1w的量级时，第一类内容出发到达第二类内容的重合度（即第一占比）对应的第一重合度阈值为22%，第二类内容出发到达第一类内容的重合度（即第二占比）对应的第二重合度阈值为18%。

上述实施例中，通过每两类内容之间兴趣用户账户的重合度的统计分布，确定不同量级的每两类内容之间的重合度阈值，并以此建立重合度阈值表，对构建内容网络中连接边的重合度进行筛选，避免受到分子、分母量级影响存在偏差的重合度用于构建内容网络的连接边，从而提高连接边在表达两个节点之间关联关系时的准确性。

以如下示例进行说明，假如第一类内容的兴趣用户账户的数量是100，第二类内容的兴趣用户账户的数量是10000000，第一类内容和第二类内容相同兴趣用户账户的数量是90。可以得出，第一占比为90%（即90除以100），第二占比为0.0009%（即90除以10000000）。可见，由于受到分子和分母量级的影响而存在偏差，导致第二占比的值极小，也即，从第二类内容出发到达第一类内容的兴趣用户账户的占比极少。此时，使用第二占比对应的连接边构建内容网络时，该连接边并不能准确的表达两个节点的关联关系。

进一步地，如表1所示，第一重合度阈值为100出发达到1kw对应的30%，第二重合度阈值为1kw出发达到100对应的10%。使用如表1所示的重合度阈值对重合度进行筛选时，可以将第二占比筛选掉，从而避免存在偏差的重合度用于构建内容网络的连接边。在一种可能的实施方式中，在每两类内容之间的兴趣用户账户的重合度大于预设阈值的情况下，确定两类内容对应的节点之间有连接边，包括：在每两类内容之间的第一占比大于第一重合度阈值的情况下，确定第一类内容对应的节点到第二类内容对应的节点之间有第一有向连接边；第一占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第一类内容的兴趣用户账户数量中的占比；在每两类内容之间的第二占比大于第二重合度阈值的情况下，确定第二类内容对应的节点到第一类内容对应的节点之间有第二有向连接边；第二占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第二类内容的兴趣用户账户数量中的占比。

上述实施例中，通过确定每两类内容之间的有向连接边，构建有向的内容网络，从而能根据每个节点的出度和入度，更加准确的确定每个节点与其他节点之间的关联关系，进而提高确定的每个节点的关联节点的准确性。

在一种可能的实施方式中，结合图5，如图6所示，S104包括S104a-S104b。

在S104a中，确定内容网络的关键节点的内容兴趣圈。

其中，内容兴趣圈包括关键节点以及与关键节点通过一条目标连接边连接的节点。关键节点用于表征内容网络中节点出度或入度满足预设条件的节点，目标连接边为第一有向连接边或第二有向连接边。关键节点的确定方式在下方描述，此处暂时不表。

需要说明的，与关键节点通过一条目标连接边连接的节点，为关键节点表征的一类内容的泛化内容。

如图7所示，内容兴趣圈中的孕产·怀孕节点为关键节点。内容兴趣圈中除关键节点外的节点与关键节点均为通过一条连接边连接，即除关键节点之外的任一个节点与关键节点之间均为1度连接（即步长为1，不区分出度和入度）。

在S104b中，确定目标节点的关联节点，目标节点的关联节点包括内容兴趣圈中除目标节点以外的其他节点。

其中，目标节点为内容兴趣圈中的任意一个节点。

可选的，内容兴趣圈上的任意两个节点互为关联节点。例如，如图7所示，晒娃4与晒娃0互为关联节点。

上述实施例中，通过构建关键节点的内容兴趣圈，挖掘关键节点表征内容的泛化内容的类型，从而实现对用户账户做兴趣探索和兴趣泛化，能够基于内容兴趣圈优化内容推荐类型的多样性，以提升用户账户的消费时长和消费内容的类型多样性。

在一种可能的实施方式中，关键节点包括节点出度≥第一阈值且第二阈值≤节点入度＜第三阈值的节点。和/或关键包括节点出度≥第四阈值且节点入度＜第三阈值的节点。

可选地，第一阈值可以是2。可选地，第二阈值可以是3。

可选地，第三阈值可以是50。

可选地，第四阈值可以是5。

如图8所示，美食探店节点的出度≥2，且3≤美食探店节点的入度＜50，美食探店节点为内容网络的关键节点。进一步地，可以定义该类节点为内容网络的桥梁点。

如图9所示，彩妆评论节点出度≥5，且彩妆评论节点入度＜50，确定彩妆评论节点为内容网络的关键节点。进一步地，可以定义该类节点为内容网络的辐射点。

上述实施例中，通过节点的出度和入度确定内容网络的关键节点，能够为维护平台的关键内容提供依据，从而为维护关键内容提供依据，以便平台能够提供更多类型的内容，进而提高用户账户的使用体验。

在一种可能的实施方式中，数据处理方法还包括：关键节点包括节点入度≥第三阈值的节点；和/或关键节点包括存在两个方向不同的有向连接边的两个节点。

可选地，第三阈值可以是50。

如图10所示，短剧节点的节点入度≥50，确定短剧节点为关键节点。进一步地，可以定义该类节点为内容网络的汇聚点。需要说明的，图10中仅示出部分出发到达短剧节点的节点。

需要说明的，内容网络的汇聚点一般是大众内容，覆盖用户账户通常比较群大，兴趣用户账户的数量也比较大。

如图11所示，育儿亲子周边节点和育儿玩具短剧节点之间存在两个方向不同的有向连接边，确定育儿亲子周边节点和育儿玩具短剧节点为关键节点。进一步地，可以定义该类节点为内容网络的情侣点。

上述实施例中，通过确定内容网络的关键节点，能够为维护平台的关键内容提供依据，从而为维护关键内容提供依据，以便平台提供更多类型的内容，进而提高用户账户的使用体验。

在一种可能的实施方式中，数据处理方法还包括：监测关键节点的参数，参数包括一下参数信息中的至少一个：关键节点对应的内容兴趣圈的节点数量、关键节点对应的兴趣用户账户数量、关键节点的数量以及关键节点的流量。

上述实施例中，通过监测关键节点表征的参数，从而对内容网络的网络健康度进行监控，进而为内容网络的维护提供依据。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本公开实施例还提供一种数据处理装置。

图12是根据一示例性实施例示出的一种数据处理装置框图。参照图12，该数据处理装置120包括确定模块121，重合度模块122、生成模块123和关联模块124。

确定模块121，被配置为执行确定每一类内容的兴趣用户账户，兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户。例如，结合图1，确定模块121可以用于执行S101。

重合度模块122，被配置为执行确定每两类内容之间兴趣用户账户的重合度，重合度用于表征每两类内容之间相同兴趣用户账户的数量在每两类内容中的每一类内容的兴趣用户账户数量的占比。例如，结合图1，重合度模块122可以用于执行S102。

生成模块123，被配置为执行生成内容网络，内容网络包括多个节点以及至少一个连接边，多个节点中的每个节点用于表征每一类内容中的一类内容，连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度。例如，结合图1，生成模块123可以用于执行S103。

关联模块124，被确定为执行确定内容网络中每一个节点的关联节点，以基于关联节点表征的内容生成目标用户账户的推荐内容，目标用户账户为消费每一个节点表征的内容的用户账户，关联节点为与每一个节点能够通过连接边连通的节点。例如，结合图1，关联模块124可以用于执行S104。

在一种可能的实施方式中，重合度模块122，具体被配置为执行：确定第一类内容与第二类内容之间的兴趣用户账户的交集；第一类内容和第二类内容为任意两类内容；确定交集与第一类内容的兴趣用户账户的第一占比，以及交集与第二类内容的兴趣用户账户的第二占比，重合度包括第一占比和第二占比。如，结合图3，重合度模块122可以用于执行S102a-S102b。

另一种可能的实施方式中，生成模块123，具体被配置为执行：遍历每两类内容之间兴趣用户账户的重合度，在每两类内容之间兴趣用户账户的重合度大于重合度阈值的情况下，确定每两类内容对应的节点之间有连接边；根据连接边和节点，生成内容网络。例如，结合图5，生成模块123可以用于执行S103a-S103b。

另一种可能的实施方式中，生成模块123，具体被配置为执行：在每两类内容之间的第一占比大于第一重合度阈值的情况下，确定第一类内容对应的节点到第二类内容对应的节点之间有第一有向连接边；第一占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第一类内容的兴趣用户账户数量中的占比；在每两类内容之间的第二占比大于第二重合度阈值的情况下，确定第二类内容对应的节点到第一类内容对应的节点之间有第二有向连接边；第二占比用于表征第一类内容和第二类内容之间相同兴趣用户账户的数量在第二类内容的兴趣用户账户数量中的占比。

另一种可能的实施方式中，关联模块124，具体被配置为执行：确定内容网络的关键节点的内容兴趣圈；内容兴趣圈包括关键节点、以及与关键节点通过一条目标连接边连接的节点；关键节点用于表征内容网络中节点出度或入度满足预设条件的节点，目标连接边为第一有向连接边或第二有向连接边；确定目标节点的关联节点，关联节点包括内容兴趣圈中除目标节点以外的其他节点，目标节点为内容兴趣圈中的任意一个节点。例如，如图6所示，关联模块124可以执行S104a-S104b。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种用于电子设备130的框图。如图13所示，电子设备130包括但不限于：处理器131和存储器132。

其中，上述的存储器132，用于存储上述处理器131的可执行指令。可以理解的是，上述处理器131被配置为执行指令，以实现上述实施例的图1、图3、图5或图6中任一项所示的数据处理方法。

需要说明的是，本领域技术人员可以理解，图13中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图13所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器131是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器132内的软件程序和/或模块，以及调用存储在存储器132内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器131可包括一个或多个处理单元；可选的，处理器131可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户账户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器131中。

存储器132可用于存储软件程序以及各种数据。存储器132可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能模块所需的应用程序（比如确定模块121、重合度模块122、生成模块123和关联模块124等）等。此外，存储器132可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在示例性实施例中，本公开实施例还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器132，上述指令可由电子设备130的处理器131执行以完成上述S101-S104中的数据处理方法。

在实际实现时，确定模块121、重合度模块122、生成模块123和关联模块124可以由图13所示的处理器131调用存储器132中的程序代码来实现。其具体的执行过程可参考图1、图3、图5或图6任一所示的数据处理方法部分的描述，这里不再赘述。

可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存储存储器（Random Access Memory，RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本公开实施例还提供了一种包括一条或多条指令的计算机程序产品，该一条或多条指令可以由电子设备130的处理器131执行以完成上述S101-S104中的数据处理方法。

需要说明的是，上述计算机可读存储介质中的指令或计算机程序产品中的一条或多条指令被电子设备130的处理器131执行时实现上述任务处理方法实施例的各个过程，且能达到与上述数据处理方法S101-S104相同的技术效果，为避免重复，这里不再赘述。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

确定每一类内容的兴趣用户账户，所述兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户；

确定每两类内容之间兴趣用户账户的重合度，所述重合度用于表征所述每两类内容之间相同兴趣用户账户的数量在所述每两类内容中的每一类内容的兴趣用户账户数量的占比；

生成内容网络，所述内容网络包括多个节点以及至少一个连接边，所述多个节点中的每个节点用于表征所述每一类内容中的一类内容，所述连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度；

确定所述内容网络中每一个节点的关联节点，以基于所述关联节点表征的内容生成目标用户账户的推荐内容，所述目标用户账户为消费所述每一个节点表征的内容的用户账户，所述关联节点为与所述每一个节点能够通过连接边连通的节点。

2.根据权利要求1所述的数据处理方法，其特征在于，所述确定每两类内容之间兴趣用户账户的重合度，包括：

确定第一类内容与第二类内容之间的兴趣用户账户的交集；所述第一类内容和所述第二类内容为任意两类内容；

确定所述交集与所述第一类内容的兴趣用户账户的第一占比，以及所述交集与所述第二类内容的兴趣用户账户的第二占比，所述重合度包括所述第一占比和所述第二占比。

3.根据权利要求2所述的数据处理方法，其特征在于，所述生成内容网络，包括：

遍历每两类内容之间兴趣用户账户的重合度，在每两类内容之间兴趣用户账户的重合度大于重合度阈值的情况下，确定每两类内容对应的节点之间有连接边；

根据所述连接边和所述节点，生成所述内容网络。

4.根据权利要求3所述的数据处理方法，其特征在于，所述数据处理方法还包括：

确定每一类内容的兴趣用户账户的数量；

根据每两类内容之间兴趣用户账户的重合度的统计分布，确定每两个量级之间的重合度阈值，所述量级为所述兴趣用户账户的数量所属的量级；

根据每两个量级之间的重合度阈值，得到重合度阈值表。

5.根据权利要求3所述的数据处理方法，其特征在于，所述在每两类内容之间的兴趣用户账户的重合度大于重合度阈值的情况下，确定每两类内容对应的节点之间有连接边，包括：

在每两类内容之间的第一占比大于第一重合度阈值的情况下，确定第一类内容对应的节点到第二类内容对应的节点之间有第一有向连接边；所述第一占比用于表征所述第一类内容和所述第二类内容之间相同兴趣用户账户的数量在所述第一类内容的兴趣用户账户数量中的占比；

在每两类内容之间的第二占比大于第二重合度阈值的情况下，确定第二类内容对应的节点到第一类内容对应的节点之间有第二有向连接边；所述第二占比用于表征所述第一类内容和所述第二类内容之间相同兴趣用户账户的数量在所述第二类内容的兴趣用户账户数量中的占比。

6.根据权利要求5所述的数据处理方法，其特征在于，所述确定所述内容网络中每一个节点的关联节点，包括：

确定所述内容网络的关键节点的内容兴趣圈；所述内容兴趣圈包括所述关键节点以及与所述关键节点通过一条目标连接边连接的节点；所述关键节点用于表征所述内容网络中节点出度或入度满足预设条件的节点，所述目标连接边为所述第一有向连接边或所述第二有向连接边；

确定目标节点的关联节点，所述关联节点包括所述内容兴趣圈中除所述目标节点以外的其他节点，所述目标节点为所述内容兴趣圈中的任意一个节点。

7.根据权利要求6所述的数据处理方法，其特征在于，

所述关键节点包括节点出度≥第一阈值且第二阈值≤节点入度＜第三阈值的节点；

和/或所述关键包括节点出度≥第四阈值且节点入度＜第三阈值的节点。

8.根据权利要求6所述的数据处理方法，其特征在于，

所述关键节点包括节点入度≥第三阈值的节点；和/或

所述关键节点包括存在两个方向不同的有向连接边的两个节点。

9.一种数据处理装置，其特征在于，包括：

确定模块，被配置为执行确定每一类内容的兴趣用户账户，所述兴趣用户账户用于表征对每一类内容的消费时长满足预设条件的用户账户；

重合度模块，被配置为执行确定每两类内容之间兴趣用户账户的重合度，所述重合度用于表征所述每两类内容之间相同兴趣用户账户的数量在所述每两类内容中的每一类内容的兴趣用户账户数量的占比；

生成模块，被配置为执行生成内容网络，所述内容网络包括多个节点以及至少一个连接边，所述多个节点中的每个节点用于表征所述每一类内容中的一类内容，所述连接边用于表征连接的两个节点表征的两类内容之间兴趣用户账户的重合度；

关联模块，被确定为执行确定所述内容网络中每一个节点的关联节点，以基于所述关联节点表征的内容生成目标用户账户的推荐内容，所述目标用户账户为消费所述每一个节点表征的内容的用户账户，所述关联节点为与所述每一个节点能够通过连接边连通的节点。

10.根据权利要求9所述的数据处理装置，其特征在于，所述重合度模块，具体被配置为执行：

11.根据权利要求10所述的数据处理装置，其特征在于，所述生成模块，具体被配置为执行：

根据所述连接边和所述节点，生成所述内容网络。

12.根据权利要求11所述的数据处理装置，其特征在于，所述数据处理装置还包括阈值模块，被配置为执行：

确定每一类内容的兴趣用户账户的数量；

根据每两个量级之间的重合度阈值，得到重合度阈值表。

13.根据权利要求11所述的数据处理装置，其特征在于，所述生成模块，具体被配置为执行：

14.根据权利要求13所述的数据处理装置，其特征在于，所述关联模块具体被配置为执行：

确定所述内容网络的关键节点的内容兴趣圈；所述内容兴趣圈包括所述关键节点、以及与所述关键节点通过一条目标连接边连接的节点；所述关键节点用于表征所述内容网络中节点出度或入度满足预设条件的节点，所述目标连接边为第一有向连接边或第二有向连接边；

15.根据权利要求14所述的数据处理装置，其特征在于，

16.根据权利要求14所述的数据处理装置，其特征在于，

所述关键节点包括节点入度≥第三阈值的节点；和/或

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的数据处理方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的数据处理方法。