CN113255801B

CN113255801B - 一种数据处理的方法、装置、计算机设备及存储介质

Info

Publication number: CN113255801B
Application number: CN202110616387.3A
Authority: CN
Inventors: 陈维识
Original assignee: Douyin Vision Co Ltd
Current assignee: Douyin Vision Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2024-07-02
Anticipated expiration: 2041-06-02
Also published as: CN113255801A

Abstract

本公开提供了一种数据处理的方法、装置、计算机设备及存储介质，该方法包括：获取历史阅读数据；基于历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量；基于各个作者的多维特征向量，从各个作者中，选择符合目标筛选条件的目标作者。本公开实施例通过使用阅读用户信息、作者信息、阅读行为信息，确定作者的多维特征向量，得到的作者的画像更加准确，从而可以确定出更符合需求的作者。

Description

一种数据处理的方法、装置、计算机设备及存储介质

技术领域

本公开涉及信息技术领域，具体而言，涉及一种数据处理的方法、装置、计算机设备及存储介质。

背景技术

随着互联网的不断发展，通过媒体平台阅读文章、了解热点资讯已经逐步成为人们日常生活的一部分，因此，在媒体平台发布作品的作者是平台的重要资源，维护好作者资源，对平台阅读用户的积累非常重要。

为了更好地进行作者资源的管理，需要准确了解作者画像，目前一般是通过作者个人上传的信息、作者的作品来描述作者画像，进而进行作者的筛选。

上述方式确定的作者画像并不准确，容易出现作者资源管理不合理的情况。

发明内容

本公开实施例至少提供一种数据处理的方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种数据处理的方法，其特征在于，包括：

获取历史阅读数据；

基于所述历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量；

基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者。

一种可选的实施方式中，基于所述历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量，包括：

针对多个阅读用户中的每个阅读用户，以同一阅读用户在至少一次阅读中对应的阅读用户信息、作者信息、以及阅读行为信息作为目标预测模型的输入数据，以该阅读用户在所述至少一次阅读之后的一次阅读中的作者信息作为所述目标预测模型的输出数据，训练所述目标预测模型；

在训练完成所述目标预测模型后，得到所述目标预测模型中的特征提取层输出的、所述历史阅读数据关联的各个作者的多维特征向量。

一种可选的实施方式中，所述目标预测模型至少包括特征提取层和预测层；

所述特征提取层，用于基于所述阅读用户信息和所述作者信息提取阅读用户特征向量和作者的多维特征向量，并将所述阅读用户特征向量、作者的多维特征向量、以及作者的多维特征向量与阅读行为信息对应的影响因子的乘积进行拼接，得到融合特征向量；所述影响因子为小于或等于1的值，用于反映阅读用户对作者作品的喜好程度；

所述预测层，用于基于所述融合特征向量，确定所述阅读用户在所述至少一次阅读之后的一次阅读中的作者信息。

一种可选的实施方式中，基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

基于所述各个作者的多维特征向量，确定所述各个作者的平均多维特征向量；

基于所述各个作者的多维特征向量，以及所述平均多维特征向量，从所述各个作者中，确定多个核心作者；所述核心作者的多维特征向量与所述平均多维特征向量之间的距离小于设定阈值；

将确定的多个核心作者作为所述符合目标筛选条件的目标作者。

一种可选的实施方式中，确定多个核心作者之后，还包括：

采用文本主题模型对所述各个作者的作品进行聚类，得到多个作品集合，每个作品集合对应同一类话题；分别确定每个所述作品集合对应的各个作者，得到每类话题对应的作者集合；

根据确定的所述多个核心作者，从每类话题对应的所述作者集合中筛选出核心作者，确定核心作者的话题分布。

一种可选的实施方式中，确定多个核心作者之后，还包括：

基于所述历史阅读数据，确定阅读用户所阅读作品对应的各个作者信息；

基于阅读用户所阅读作品对应的各个作者信息，以及确定的所述多个核心作者，确定所述阅读用户的核心作者覆盖比率。

基于所述各个作者的多维特征向量，将所述各个作者进行聚类，确定多个作者簇；

根据确定的所述多个作者簇，从所述各个作者中，选择符合目标筛选条件的目标作者。

一种可选的实施方式中，根据确定的所述多个作者簇，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

根据所述多个作者簇中每个作者簇关联的阅读用户数量，和/或，关联的作品数量，从所述作者簇中选择目标作者簇；

将所述目标作者簇中的作者确定为所述符合目标筛选条件的目标作者。

一种可选的实施方式中，确定所述目标作者之后，还包括：

向所述目标作者推送目标激励资源信息。

针对任一作者簇，根据该作者簇关联的各阅读用户的阅读用户信息，确定与该作者簇关联的阅读用户类型；

针对所述阅读用户类型下的任一阅读用户，将所述阅读用户类型关联的作者簇中的各个作者作为所述符合目标筛选条件的目标作者。

针对任一阅读用户，确定该阅读用户的历史阅读数据涉及的各个关联作者；

从所述多个作者簇中，确定包含所述关联作者的数量最多的目标作者簇，将所述目标作者簇中的作者确定为所述符合目标筛选条件的目标作者。

一种可选的实施方式中，确定所述目标作者之后，还包括：

向所述任一阅读用户推送与所述目标作者关联的作者信息和/或作品信息。

第二方面，本公开实施例还提供一种数据处理的装置，包括：

获取模块，用于获取历史阅读数据；

确定模块，用于基于所述历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量；

选择模块，用于基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本公开实施例提供的一种数据处理的方法、装置、计算机设备及存储介质，包括：获取历史阅读数据；基于历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量；基于各个作者的多维特征向量，从各个作者中，选择符合目标筛选条件的目标作者。本公开实施例可以通过使用阅读用户信息、作者信息、阅读行为信息，来确定作者的多维特征向量，这样得到的作者画像中加入了受众用户信息，更加容易匹配用户需求。

进一步，本公开实施例提供的数据处理的方法，还可以针对媒体平台对作者的激励需求，基于各个作者的多维特征向量，确定出多维特征向量符合目标筛选条件的作者，实现对作者资源的管理。

进一步，本公开实施例提供的数据处理的方法，还可以针对阅读用户，基于阅读用户信息，从作者簇中确定出与阅读用户类型关联的目标作者，进而实现向阅读用户推送目标作者关联的作者信息或作品信息，实现对作者资源的管理。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种数据处理的方法的流程图；

图2示出了本公开实施例所提供的目标预测模型的训练流程示意图；

图3示出了本公开实施例所提供的一种数据处理的装置的示意图；

图4示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，为了更好地进行作者资源的管理，需要准确了解作者画像，目前一般是通过作者个人上传的信息、作者的作品来描述作者画像，进而进行作者的筛选。这种方式确定的作者画像并不准确，容易出现作者资源管理不合理的情况。

基于上述研究，本公开实施例提供的一种数据处理的方法、装置、计算机设备及存储介质，包括：获取历史阅读数据；基于历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量；基于各个作者的多维特征向量，从各个作者中，选择符合目标筛选条件的目标作者。本公开实施例通过使用阅读用户信息、作者信息、阅读行为信息，确定作者的多维特征向量，这样得到的作者画像中加入了受众用户信息，从而可以确定出更符合需求的作者。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种数据处理的方法进行详细介绍，本公开实施例所提供的数据处理的方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：服务器或其它处理设备。在一些可能的实现方式中，该数据处理的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为服务器为例对本公开实施例提供的数据处理的方法加以说明。

首先说明，本公开实施例中的作品包括但不限于文章、视频、图片、音频等任何形式的作品，也即任何需要作者创作的发布内容都属于作品。阅读用户是指通过观看、浏览、收听等以任何形式获取到发布内容的用户。

参见图1所示，为本公开实施例提供的一种数据处理的方法的流程图，所述方法包括：

S101：获取历史阅读数据。

本实施例中，历史阅读数据指的是目标媒体平台上的用户在历史时间段(例如一个月)内阅读作品的阅读数据。

历史阅读数据可以包括阅读用户信息、作者信息、以及阅读行为信息。

其中，阅读用户信息指的是对发表在目标媒体平台上的作品发生阅读行为的用户的属性信息。阅读用户信息具体可以包括阅读用户的身份信息。阅读用户的身份信息具体可以是阅读用户在目标媒体平台上所使用的用户名、昵称、设备唯一标识码、目标媒体平台为每个阅读用户生成的用户身份标识号(Identity document，ID)等。基于阅读用户信息可以确定出唯一对应的阅读用户。

上述作者信息可以包括作者的身份信息、及其他属性信息等。作者的身份信息可以是作者在目标媒体平台上所使用的用户名、笔名、昵称、设备唯一标识码、目标媒体平台为每个作者生成的作者ID等。在本实施例中，基于上述作者信息可以确定出唯一对应的作者。

上述阅读行为信息指的是阅读用户对发表在目标媒体平台上的作品信息进行阅读的行为信息，阅读行为信息可以包括阅读完成率、阅读时长、阅读后的转发信息以及评论信息等。这里，阅读完成率指的是阅读用户对发表在目标媒体平台上的作品信息中的某个作品信息进行一次阅读后所完成阅读的部分在该作品信息中的占比。例如作品信息A共有两千个字，阅读用户第一次阅读后阅读了八百个字，则阅读用户第一次对作品信息A的阅读完成率为40％，阅读用户第二次阅读后阅读了两千字，则阅读用户第二次对作品信息A的阅读完成率为100％。阅读时长指的是阅读用户对某个作品信息进行一次阅读的时长信息。当阅读用户打开某个作品信息到关闭该作品信息(这里可以是在阅读完该作品信息之前的任意时刻操作的关闭行为)的时长信息即为进行一次阅读后的时长信息；一般地，阅读时长越长，表示阅读用户对作品越感兴趣。阅读后的转发信息指的是阅读用户对某个作品信息进行一次阅读后的转发的次数信息、转发到媒体平台的信息等。阅读后的评论信息指的是阅读用户对某个作品信息进行一次阅读后进行评论的次数信息、内容信息等。

在具体实施中，可以基于这些阅读行为信息确定一个综合的影响因子来表征阅读用户对作者作品的喜好程度，或者，也可以直接采用上述阅读完成率作为该影响因子，其中影响因子为小于或等于1的值，下面以阅读完成率作为影响因子为例进行介绍。

在本实施例中，历史阅读数据中的阅读用户信息、作者信息以及阅读行为信息是相互对应的。例如在一个月内，阅读用户信息为IDa的阅读用户a阅读了作者信息为IDb的作者b发表的文章X，阅读用户a在一个月内某一次阅读文章X的阅读完成率为N％(N为0～100之间的实数)，由此可见，作者信息IDb是阅读用户信息为IDa的阅读用户a所阅读的文章X的作者b的作者信息，即作者信息IDb与阅读用户信息IDa是对应的，阅读完成率为N％是阅读用户信息为IDa的阅读用户a在一个月内某一次阅读文章X的阅读完成率，即阅读完成率与阅读用户信息IDa也是对应的，因此阅读用户信息IDa、作者信息IDb以及阅读完成率N％是相互对应的。

在具体实施中，服务器可以从目标媒体平台的数据库中，获取目标阅读用户的历史阅读数据，历史阅读数据中包括了用户每次的阅读记录数据，可以从中提取阅读的作品的作者信息、以及每次的阅读行为信息。

例如，阅读用户分别阅读了媒体平台1的文章1、媒体平台1的文章2、媒体平台2的文章3，那么我们可以分别获取阅读用户对应的文章1的作者信息ID1，文章2的作者信息ID2，文章3的作者信息ID3，以及阅读文章1的阅读完成率N1，文章2的阅读完成率N2，文章2的阅读完成率N3。

S102：基于历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量。

在本实施例中，针对各个作者，可以基于阅读该作者发表的作品的阅读用户所对应的阅读用户信息、该作者的作者信息、以及阅读用户每次阅读该作者发表的作品的阅读行为信息，确定该作者的多维特征向量。

本公开实施例中，多维特征向量指的是向量形式表示的作者的多个维度特征。作者的多维特征向量可以从整体上反映作者的作品类型、作品风格、发文数量、受众群体特征等，也即两个作者之间的多维特征向量相似度越高，这两个作者之间的作品类型、作品风格、发文数量、受众群体特征等越接近。

其中，作品类型指的是作品表现的类型，具体可以包括文字、图片、视频等类型。作品风格指的是作品的特点，作品内容、表现形式、社会功用不同时，作品风格则不相同。发文数量指的是作品在预设时间段内的发文数量，发文数量可以是同一作者在同一发文平台上发表的文章总数量，或者是分别在各个发文平台上发表的文章的数量。发文的数量也可以按照作者的作品类型分别统计。受众群体特征指的是阅读某一作者的阅读用户的特征。

在一种可能的实施方式中，可以通过训练模型，来确定各个作者的多维特征向量，具体地，通过训练用于预测阅读用户在阅读中的作者信息的目标预测模型，在训练完成之后，通过目标预测模型中的特征提取层得到各个作者的多维特征向量。具体可以按照如下所述的步骤11～步骤12的过程执行：

步骤11：针对多个阅读用户中的每个阅读用户，以同一阅读用户在至少一次阅读中对应的阅读用户信息、作者信息、以及阅读行为信息作为目标预测模型的输入数据，以该阅读用户在至少一次阅读之后的一次阅读中的作者信息作为目标预测模型的输出数据，训练目标预测模型。

步骤12：在训练完成目标预测模型后，得到目标预测模型中的特征提取层输出的、历史阅读数据关联的各个作者的多维特征向量。

在上述实施方式中，可以针对多个阅读用户中的每个阅读用户分别生成一个训练样本，每个训练样本中包括同一阅读用户在至少一次阅读中对应的阅读用户信息、作者信息、阅读行为信息、以及该阅读用户在至少一次阅读之后的一次阅读中的作者信息。针对同一阅读用户，当该阅读用户对同一作者的同一作品进行多次阅读时，则可以将每次该阅读用户发生阅读行为时，将此次阅读对应的阅读用户信息、作者信息、以及阅读行为信息作为一个训练样本中的输入数据。

在训练过程中，如图2所示的目标预测模型的训练流程示意图，目标预测模型至少可以包括特征提取层和预测层，可以将多个训练样本输入至未训练好的目标预测模型中，在目标预测模型的特征提取层，分别提取阅读用户特征向量及作者的多维特征向量，并将作者的多维特征向量与阅读完成率(阅读行为信息对应的影响因子)相乘，将阅读用户特征向量、作者的多维特征向量、以及作者的多维特征向量与阅读完成率的乘积进行向量拼接，得到融合特征向量，输入到目标预测模型的预测层，最后在预测层，基于融合特征向量，预测每个阅读用户在至少一次阅读之后的一次阅读中可能阅读的作者信息。

在训练过程中，可以将目标预测模型的预测结果(也即预测的阅读用户在至少一次阅读之后的一次阅读中的作者信息)与实际结果(也即实际中阅读用户在至少一次阅读之后的一次阅读中的作者信息)进行比较，得到比较结果，基于比较结果调整目标预测模型的参数，也即调整上述特征提取层和预测层的网络参数，并重复执行上述特征提取和预测的训练过程，达到训练截止条件后，可以得到训练完成的目标预测模型。

在本公开实施例中，最终将训练完成的目标预测模型的特征提取层提取的作者的多维特征向量作为后续使用的各个作者的多维特征向量。

在得到各个作者的多维特征向量之后，可以基于作者的多维特征向量选择目标作者，即执行S103的步骤。

S103：基于各个作者的多维特征向量，从各个作者中，选择符合目标筛选条件的目标作者。

在本实施例中，目标筛选条件可以是根据目标媒体平台选择作者的需求而对作者的多维特征设置的筛选条件，或者是根据阅读用户选择作者的需求而对作者的多维特征设置的筛选条件。这里的目标筛选条件可以为受众群体年龄、作品数量、受欢迎程度等条件。例如，目标媒体平台期望对作品数量达到预设值的目标作者进行激励，那么目标筛选条件可以为作者的作品数量达到预设值。再如，孕期的阅读用户期望阅读育儿作品，那么目标筛选条件可以为作者的作品类型为育儿类型。

在筛选出目标作者之后，当目标筛选条件为根据目标媒体平台选择作者的需求而对作者的多维特征设置的筛选条件时，可以基于目标媒体平台对作者的筛选目的，向目标作者推送目标激励资源信息等方式对目标作者进行评价、激励等；当目标筛选条件为根据阅读用户选择作者的需求而对作者的多维特征设置的筛选条件，可以向阅读用户推送目标作者、目标作者的作品等。

在一种可能的实施方式中，当目标筛选条件为根据目标媒体平台选择作者的需求而对作者的多维特征设置的筛选条件时，S103还可以按照以下步骤执行：

步骤21：基于各个作者的多维特征向量，确定各个作者的平均多维特征向量；

步骤22：基于各个作者的多维特征向量，以及平均多维特征向量，从各个作者中，确定多个核心作者；核心作者的多维特征向量与平均多维特征向量之间的距离小于设定阈值；

步骤23：将确定的多个核心作者作为符合目标筛选条件的目标作者。

在上述实施方式中，可以将各个作者的多维特征向量中对应维度上的元素值取平均，得到各个作者的平均多维特征向量。平均多维特征向量为各个作者的多维特征向量的几何重心，反映了各个阅读用户所阅读作品的作者分布中心；因此，通过计算每个作者的多维特征向量与该平均多维特征向量之间的距离，可以得到与作者分布中心相距较近的多个核心作者。

基于上述方式筛选出的核心作者是符合目标媒体平台的选择要求的作者，是覆盖目标媒体平台绝大部分用户的阅读需求的作者，也即，核心作者可以认为是贡献了目标媒体平台的大部分用户阅读量的作者。针对上述核心作者，可以向其定期推送相关激励资源，以鼓励核心作者进行持续创作，满足用户需求。

另外，在确定出上述核心作者之后，可以确定核心作者的话题分布，以确定各个话题对应的核心作者数量，以便有针对性地维护各个话题的核心作者。比如若某个话题对应的核心作者数量较少，可以向该话题对应的各个核心作者推送较多的激励资源，以维护好该话题下的核心作者的创作积极性，更好地满足用户需求。

具体地，可以采用文本主题模型对所述各个作者的作品进行聚类，得到多个作品内容集合，每个作品集合对应同一类话题；分别确定每个所述作品集合对应的各个作者，得到每类话题对应的作者集合；根据确定的所述多个核心作者，从每类话题对应的所述作者集合中筛选出核心作者，确定核心作者的话题分布。

这里，文本主题模型可以采用隐含狄利克雷分布(Latent DirichletAllocation，LDA)模型。将各个作者的作品内容(也即各个文档)输入LDA模型进行话题聚类，得到多个作品集合，每个作品集合也即对应一类话题；然后确定每个作品集合的各个作者，也即得到每类话题对应的作者集合。这里，每个作者集合中可能包含核心作者，也可能包含非核心作者。由于我们重点关注的是核心作者的话题分布，因此可以在每个作者集合中，筛选出各个核心作者，将从每个作者集合中筛选出的核心作者作为与该作者集合对应的话题类型下的核心作者，也即得到了分布在各个话题类型下的核心作者。

在又一种实施方式中，确定多个核心作者之后，还可以针对任一阅读用户，确定该阅读用户所阅读作品对应的多个作者中核心作者的比率。具体地，可以基于所述历史阅读数据，确定阅读用户所阅读作品对应的各个作者信息；基于阅读用户所阅读作品对应的各个作者信息，以及确定的所述多个核心作者，确定所述阅读用户的核心作者覆盖比率。也即，将阅读用户所阅读作品对应的各个作者中属于核心作者的比率，作为所述阅读用户的核心作者覆盖比率。

这里，若该阅读用户的核心作者覆盖比率比较大，说明该阅读用户为目标媒体平台的大众用户，否则，说明该阅读用户为目标媒体平台的小众用户。针对小众用户，因为平台的核心作者无法满足这类用户的阅读需求，可以根据这类用户的用户属性(比如职业类型)，确定是否有针对性地激励相关作者为其创作作品；比如针对品酒师这类小众用户，目标媒体平台若存在扩展这类用户的需求，可以有针对性地向发表品酒类文章的相关作者进行激励资源推送，以提高资源的有效利用率。

步骤31：基于各个作者的多维特征向量，将各个作者进行聚类，确定多个作者簇；

步骤32：根据确定的多个作者簇，从各个作者中，选择符合目标筛选条件的目标作者。

在上述实施方式中，通过对作者进行聚类，可以得到多个特征类型的作者簇。这里可以利用K均值聚类算法(k-means clustering algorithm)对各个作者进行聚类，得到多个作者簇。同一个作者簇中任一作者与其他作者的距离是满足一定条件的，也就是同一个作者簇中的任一作者与其他作者在同一个特征维度下的特征是相同或相近的。例如某一作者簇中的作者都是受年轻女性阅读用户喜欢的、作品类型都是言情小说的作者。

这里，目标筛选条件指的是目标特征类型(例如作者的受众群体为中年男性等)，根据每个作者簇对应的特征类型，即可选择出符合目标特征类型的目标作者。

进一步地，在一种可能的实施方式中，在对作者进行聚类，得到多个作者簇之后，可以结合与作者簇关联的阅读用户数量，和/或，关联的作品数量选择目标作者，具体可以包括以下步骤：

步骤41：根据多个作者簇中每个作者簇关联的阅读用户数量，和/或，关联的作品数量，从作者簇中选择目标作者簇；

步骤42：将目标作者簇中的作者确定为符合目标筛选条件的目标作者。

在上述实施方式中，阅读用户数量可以指的是每个作者簇对应的所有阅读用户数量总和，也可以是每个作者簇对应的平均阅读用户数量，其中平均阅读用户数量是所有阅读用户总和与作者数量的比值。

作品数量可以指的是每个作者簇对应的所有作品数量总和，也可以是每个作者簇对应的平均作品数量，其中平均作品数量是所有作品数量总和与作者数量的比值。

在本实施例中，可以根据多个作者簇中每个作者簇关联的阅读用户数量，从作者簇中选择目标作者簇，也可以根据多个作者簇中每个作者簇关联的作品数量，从作者簇中选择目标作者簇，还可以根据多个作者簇中每个作者簇关联的阅读用户数量和关联的作品数量，从作者簇中选择目标作者簇。

针对根据多个作者簇中每个作者簇关联的阅读用户数量，从作者簇中选择目标作者簇的情况，作者簇关联的阅读用户数量越多，说明该作者簇中的作者越受阅读用户欢迎，因此确定的符合目标筛选条件的目标作者是根据作者受阅读用户的欢迎程度选择的。

针对根据多个作者簇中每个作者簇关联的作品数量，从作者簇中选择目标作者簇的情况，作者簇关联的作品数量越多，说明该作者簇中的作者的产出能力越强，因此确定的符合目标筛选条件的目标作者是根据作者的产出能力选择的。

针对根据多个作者簇中每个作者簇关联的阅读用户数量和关联的作品数量，从作者簇中选择目标作者簇的情况，确定的符合目标筛选条件的目标作者是根据作者受阅读用户的欢迎程度以及作者的产出能力选择的。

前文中介绍了目标筛选条件可以是根据目标媒体平台选择作者的需求而对作者的多维特征设置的筛选条件的情况下，基于各个作者的多维特征向量，从各个作者中，选择符合目标筛选条件的目标作者的过程，通过目标媒体平台选择作者的需求，可以筛选出符合目标媒体平台要求的目标作者，从而实现目标媒体平台对作者的激励需求。下面将介绍目标筛选条件是根据阅读用户选择作者的需求而对作者的多维特征设置的筛选条件的情况下，基于各个作者的多维特征向量，从各个作者中，选择符合目标筛选条件的目标作者的过程。

在一种可能的实施方式中，当目标筛选条件是根据阅读用户选择作者的需求而对作者的多维特征设置的筛选条件时，S103可以按照以下步骤执行：

步骤51：针对任一作者簇，根据该作者簇关联的各阅读用户的阅读用户信息，确定与该作者簇关联的阅读用户类型。

步骤52：针对阅读用户类型下的任一阅读用户，将阅读用户类型关联的作者簇中的各个作者作为符合目标筛选条件的目标作者。

在上述实施方式中，阅读用户类型指的是根据阅读用户的至少一种属性特征对阅读用户进行聚类，得到的阅读用户类型；同一阅读用户类型下的各个阅读用户具有至少一种相同的属性特征。

需要说明的是，本公开实施例涉及的用户相关数据均为用户授权数据。

这里与作者簇关联的阅读用户类型指的是与作者簇的特征类型相同的阅读用户类型。

这里的目标筛选条件指的是作者的特征类型与阅读用户类型相同，当阅读用户类型与作者簇的特征类型相同时，针对阅读用户类型下的任一阅读用户，相同特征类型的作者簇中的作者都可以作为该阅读用户的目标作者。

通过确定出符合目标筛选条件的目标作者，可以向阅读用户类型下的任一阅读用户推荐该作者簇中的目标作者，从而对作者资源进行合理分配，实现对作者资源的管理。

在一种可能的实施方式中，当目标筛选条件是根据阅读用户选择作者的需求而对作者的多维特征设置的筛选条件时，S103还可以按照以下步骤执行：

步骤61：针对任一阅读用户，确定该阅读用户的历史阅读数据涉及的各个关联作者。

步骤62：从多个作者簇中，确定包含关联作者的数量最多的目标作者簇，将目标作者簇中的作者确定为符合目标筛选条件的目标作者。

在上述实施方式中，关联作者指的是阅读用户所阅读的文章的作者。针对任一阅读用户，可以根据该阅读用户的历史阅读数据中获取该阅读用户阅读的文章，进而根据该阅读用户阅读的文章确定对应的关联作者。

如前所述，作者簇是基于各个作者的多维特征向量进行聚类得到的。每个作者簇中包含的作者数量可以是不相同的，当作者簇中包含的作者数量越多，则说明该作者簇中属性相同或者相似的作者数量越多。这里可以选择出作者簇中包含关联作者的数量最多的目标作者簇。这里目标筛选条件即从多个作者簇中筛选出关联作者的数量最多的目标作者簇中的作者。

在本实施例中，在确定出与阅读用户类型相同的目标作者之后，可以仅仅向任一阅读用户推送与目标作者关联的作者信息；或者仅仅向任一阅读用户推送与目标作者关联的作品信息；或者同时向任一阅读用户推送与目标作者关联的作者信息和作品信息。

通过向任一阅读用户推送与目标作者关联的作者信息，可以提高阅读用户对目标作者的关注度。通过向任一阅读用户推送与目标作者关联的作品信息，可以提高阅读用户阅读目标作者的作品的概率，实现对作者资源的合理配置。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与数据处理的方法对应的数据处理的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据处理的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，公开实施例提供的一种数据处理的装置的架构示意图，所述装置包括：获取模块301、确定模块302、选择模块303；其中，

获取模块301，用于获取历史阅读数据；

确定模块302，用于基于所述历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量；

选择模块303，用于基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者。

本公开实施例提供的上述技术方案中，通过使用阅读用户信息、作者信息、阅读行为信息，确定作者的高维特征，这样得到的作者画像中加入了受众用户信息，从而可以确定出更符合需求的作者。

一种可能的实施方式中，确定模块302，具体用于针对多个阅读用户中的每个阅读用户，以同一阅读用户在至少一次阅读中对应的阅读用户信息、作者信息、以及阅读行为信息作为目标预测模型的输入数据，以该阅读用户在所述至少一次阅读之后的一次阅读中的作者信息作为所述目标预测模型的输出数据，训练所述目标预测模型；

一种可能的实施方式中，选择模块303，具体用于基于所述各个作者的多维特征向量，确定所述各个作者的平均多维特征向量；

根据所述目标筛选条件对应的至少一个特征维度下的目标数据范围，确定目标搜索半径；

在所述各个作者的多维特征向量中，确定以所述平均多维特征向量为中心、以所述目标搜索半径为半径的范围内的目标多维特征向量；

将所述目标多维特征向量对应的作者，确定为所述符合目标筛选条件的目标作者。

一种可能的实施方式中，所述目标预测模型至少包括特征提取层和预测层；

一种可能的实施方式中，选择模块303，具体用于采用文本主题模型对所述各个作者的作品进行聚类，得到多个作品集合，每个作品集合对应同一类话题；分别确定每个所述作品集合对应的各个作者，得到每类话题对应的作者集合；

一种可能的实施方式中，选择模块303，具体用于基于所述历史阅读数据，确定阅读用户所阅读作品对应的各个作者信息；

一种可能的实施方式中，选择模块303，具体用于基于所述各个作者的多维特征向量，将所述各个作者进行聚类，确定多个作者簇；

一种可能的实施方式中，选择模块303，具体用于根据所述多个作者簇中每个作者簇关联的阅读用户数量，和/或，关联的作品数量，从所述作者簇中选择目标作者簇；

一种可能的实施方式中，还包括：第一推送模块，用于向所述目标作者推送目标激励资源信息。

一种可能的实施方式中，选择模块303，具体用于针对任一作者簇，根据该作者簇关联的各阅读用户的阅读用户信息，确定与该作者簇关联的阅读用户类型；

一种可能的实施方式中，选择模块303，具体用于针对任一阅读用户，确定该阅读用户的历史阅读数据涉及的各个关联作者；

一种可能的实施方式中，还包括：第二推送模块，用于向所述任一阅读用户推送与所述目标作者关联的作者信息和/或作品信息。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图4所示，为本公开实施例提供的计算机设备400的结构示意图，包括处理器401、存储器402、和总线403。其中，存储器402用于存储执行指令，包括内存4021和外部存储器4022；这里的内存4021也称内存储器，用于暂时存放处理器401中的运算数据，以及与硬盘等外部存储器4022交换的数据，处理器401通过内存4021与外部存储器4022进行数据交换，当计算机设备400运行时，处理器401与存储器402之间通过总线403通信，使得处理器401在执行以下指令：

获取历史阅读数据；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的数据处理的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的数据处理的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取历史阅读数据；

基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者；

其中，基于所述历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量，包括：

针对每个所述作者，基于阅读所述作者的作品的阅读用户对应的阅读用户信息、所述作者的作者信息、以及所述阅读用户在每次阅读所述作者的作品时的阅读行为信息，确定所述作者的多维特征向量；

其中，基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述历史阅读数据中包括的阅读用户信息、作者信息、以及阅读行为信息，确定各个作者的多维特征向量，包括：

3.根据权利要求2所述的方法，所述目标预测模型至少包括特征提取层和预测层；

4.根据权利要求1所述的方法，其特征在于，确定多个核心作者之后，还包括：

5.根据权利要求1所述的方法，其特征在于，确定多个核心作者之后，还包括：

6.根据权利要求1所述的方法，其特征在于，基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

7.根据权利要求6所述的方法，其特征在于，根据确定的所述多个作者簇，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

8.根据权利要求1～7任一所述的方法，其特征在于，确定所述目标作者之后，还包括：

向所述目标作者推送目标激励资源信息。

9.根据权利要求6所述的方法，其特征在于，根据确定的所述多个作者簇，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

10.根据权利要求6所述的方法，其特征在于，根据确定的所述多个作者簇，从所述各个作者中，选择符合目标筛选条件的目标作者，包括：

11.根据权利要求9或10所述的方法，其特征在于，确定所述目标作者之后，还包括：

12.一种数据处理的装置，其特征在于，包括：

获取模块，用于获取历史阅读数据；

选择模块，用于基于所述各个作者的多维特征向量，从所述各个作者中，选择符合目标筛选条件的目标作者；

其中，所述确定模块进一步配置为：

其中，所述选择模块进一步配置为：

13.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至11任一项所述的数据处理的方法的步骤。

14.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任一项所述的数据处理的方法的步骤。