CN108093273B

CN108093273B - 数据的排序方法、装置及系统

Info

Publication number: CN108093273B
Application number: CN201611048880.5A
Authority: CN
Inventors: 郭涛
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2020-10-02
Anticipated expiration: 2036-11-22
Also published as: CN108093273A

Abstract

本发明公开了一种数据的排序方法、装置及系统，涉及数据处理技术领域，主要目的在于解决现有技术中中心节点在接收并对该些观看次数较小的视频数据进行重新排名计算时，需要浪费大量的网络带宽资源，使得中心节点由于网络带宽资源的浪费，可能存在网络阻塞的情况发生的问题。本发明的主要技术方案包括：中心节点接收各个分布式节点发送的待处理数据，待处理数据至少包括第一部分待处理数据；根据属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；根据属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出目标排名数的待处理数据。

Description

数据的排序方法、装置及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据的排序方法、装置及系统。

背景技术

在对业务数据按照某一个属性维度进行排名时，通常需要把所有的数据进行计算后，再对计算后的数据进行排名。在分布式系统中，包含多个分布式节点及一个中心节点，在对数据进行排名时，由各个分布式节点进行数据的排名计算，将确定的排名数据发送至中心节点，由中心节点对各个发送的排名数据再次进行排名计算，得到最终的排名结果。

现有技术中，数据的排名统计可应用于对当前直播视频的频道排名、收视人数占比、当前点播视频的排名及收视率人数占比的实时系统中，在实施系统中，需结合分布式系统的应用场景。以对当前点播视频的排名为例进行说明，在实际应用中，观看视频的人数较多，点播的视频条目数也随之增多，但是，用户观看的视频也很分散，其中分散的视频中有大量观看次数较小的视频，该些观看次数较小的视频数据占总播放数据的比重较大。在分布式系统中心节点对所有的当前点播数据进行排名后，要统计出排名前几的点播数据时，很可能会将观看次数较小的视频数据进行丢弃，但是，该些观看次数较小的视频数据仍然会由各个分布式节点发送至中心节点。

发明人在执行上述实施过程时发现，现有技术中，各个分布式节点将观看次数较小的视频数据发送至中心节点在时，会占用大量的网络带宽资源，中心节点在接收并对该些观看次数较小的视频数据进行重新排名计算时，仍然需要浪费大量的网络带宽资源，使得中心节点由于网络带宽资源的浪费，可能存在网络阻塞的情况发生，进而无法确保中心节点输出当前点播视频的排名的稳定性、实时性。

发明内容

有鉴于此，本发明提供的一种数据的排序方法、装置及系统，主要目的在于解决现有技术中中心节点在接收并对该些观看次数较小的视频数据进行重新排名计算时，需要浪费大量的网络带宽资源，使得中心节点由于网络带宽资源的浪费，可能存在网络阻塞的情况发生的问题。

为了解决上述问题，本发明主要提供如下技术方案：

第一方面，本发明提供了一种数据的排序方法，所述方法应用于分布式系统中，包括：

中心节点接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；

根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；

根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出所述目标排名数的待处理数据。

可选的，所述待处理数据还包括第二部分待处理数据；所述第二部分待处理数据为每个所述分布式节点所处理的全部数据中位于所述第一部分待处理数据后的数据，合并得到的数据，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量。

可选的，所述属性维度为视频，所述属性指标为视频播放次数。

可选的，根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合具体包括：

获取所述视频对应的视频标识，并根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数；

根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名具体包括：

按照播放次数大小，对聚合后的各个视频对应的播放次数进行排名。

可选的，在获取所述视频对应的视频标识，根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数之后，所述方法还包括：

获取所述第二部分待处理数据中记录的合计播放次数，所述第二部分待处理数据中携带有各个视频的合计播放次数；

将所述第一部分待处理数据中各个视频对应的播放次数与所述合计播放次数加和，得到视频播放总次数；

根据所述第一部分待处理数据中各个视频的播放次数与所述播放总次数，分别计算不同视频对应的收视人数占比；

根据所述收视人数占比对所述视频标识对应的视频进行排名；

从排名结果中筛选出目标排名数的视频。

第二方面，本发明还提供一种数据的排序方法，所述方法应用于分布式系统中，包括：

分布式节点获取待处理数据，并对所述待处理数据按照属性维度中的属性指标进行排序，获得排序数据；

将排序数据的数量与预设排序数量进行比对；其中，所述预设排序数量等于所述分布式系统中分布式节点个数与目标排名数的乘积；

若所述排序数据的数量大于所述预设排序数量，则从所述排序数据中获取与所述预设排序数量相同的数据，作为第一部分待处理数据；

将所述第一部分待处理数据发送至中心节点，以便所述中心节点根据各个分布式节点发送的第一部分待处理数据按照目标排名数进行排名。

可选的，在从所述排序数据中获取与所述预设排序数量相同的数据之后，所述方法还包括：

将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并，作为第二部分待处理数据；其中，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量；

将所述第一部分待处理数据发送至中心节点包括：

将所述第一部分待处理数据及所述第二部分待处理数据发送至所述中心节点。

可选的，所述方法还包括：

若所述排序数据的数量小于所述预设排序数量，则将所述排序数据作为第二部分待处理数据；

将所述第一部分待处理数据发送至中心节点包括：

将所述第二部分待处理数据发送至所述中心节点。

可选的，在将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并之后，所述方法包括：

计算所述第二部分待处理数据的各个视频的合计播放次数，并将所述合计播放次数标记于所述第二部分待处理数据中。

第三方面，本发明还提供一种数据的排序装置，所述装置应用于分布式系统中，包括：

接收单元，用于接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；

聚合单元，用于根据所述属性维度对所述接收单元接收到的不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；

第一排名单元，用于根据所述属性指标对所述聚合单元聚合后的待处理数据中的第一部分待处理数据进行排名；

第一筛选单元，用于从所述排名单元的排名结果中筛选出所述目标排名数的待处理数据。

可选的，所述聚合单元，还用于获取所述视频对应的视频标识，并根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数；

所述第一排名单元，还用于按照播放次数大小，对所述聚合单元聚合后的各个视频对应的播放次数进行排名。

可选的，所述装置还包括：

第一获取单元，用于在所述聚合单元获取所述视频对应的视频标识，根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数之后，获取所述第二部分待处理数据中记录的合计播放次数，所述第二部分待处理数据中携带有各个视频的合计播放次数；

第一计算单元，用于将所述第一部分待处理数据中各个视频对应的播放次数与所述第一获取单元获取的所述合计播放次数加和，得到视频播放总次数；

第二计算单元，用于根据所述第一部分待处理数据中各个视频的播放次数与所述第一计算单元计算的所述播放总次数，分别计算不同视频对应的收视人数占比；

第二排名单元，用于根据所述收视人数占比对所述视频标识对应的视频进行排名；

第二筛选单元，用于从排名结果中筛选出目标排名数的视频。

第四方面，本发明还提供一种数据的排序装置，所述装置应用于分布式系统中，包括：

第二获取单元，用于获取待处理数据；

排序单元，用于对所述第二获取单元获取的所述待处理数据按照属性维度中的属性指标进行排序，获得排序数据；

比对单元，用于将所述排序单元获得的排序数据的数量与预设排序数量进行比对；其中，所述预设排序数量等于所述分布式系统中分布式节点个数与目标排名数的乘积；

第三获取单元，用于当所述比对单元确定所述排序数据的数量大于所述预设排序数量时，从所述排序数据中获取与所述预设排序数量相同的数据，作为第一部分待处理数据；

发送单元，用于将所述第三获取单元获取的所述第一部分待处理数据发送至中心节点，以便所述中心节点根据各个分布式节点发送的第一部分待处理数据按照目标排名数进行排名。

可选的，所述装置还包括：

合并单元，用于在所述第三获取单元从所述排序数据中获取与所述预设排序数量相同的数据之后，将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并，作为第二部分待处理数据；其中，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量；

所述发送单元，还用于将所述第一部分待处理数据及所述合并单元合并的所述第二部分待处理数据发送至所述中心节点。

可选的，所述装置还包括：

处理单元，用于当所述比对单元确定所述排序数据的数量小于所述预设排序数量时，将所述排序数据作为第二部分待处理数据；

所述发送单元，还用于将所述处理单元得到的所述第二部分待处理数据发送至所述中心节点。

可选的，所述装置包括：

第三计算单元，用于在所述合并单元将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并之后，计算所述第二部分待处理数据的各个视频的合计播放次数；

标记单元，用于将所述第三计算单元计算的所述合计播放次数标记于所述第二部分待处理数据中。

第五方面，本发明提供一种数据的排序系统，所述系统包括中心节点及分布式节点，其中，所述中心节点为如第三方面任一项所述的装置，所述分布式节点为如第四方面任一项所述的装置。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供的一种数据的排序方法、装置及系统，应用于分布式系统中，首先，中心节点接收各个分布式节点发送的待处理数据，所述待处理数据为所述各个分布式节点根据属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；其次，中心节点根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；最后，中心节点根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出所述目标排名数的待处理数据；与现有技术相比，本发明中中心节点在对各个分布式节点进行排序时，只对各个分布式节点已排序好，并且数据数量个数较少的数据进行总和排名，大大降低了中心节点网络带宽资源的开销，减小了中心节点发生网络延迟的概率，进而提高了中心节点输出排名结果的稳定性、实时性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种数据的排序方法的流程图；

图2示出了本发明实施例提供的一种分布式系统的架构示意图；

图3示出了本发明实施例提供的另一种数据的排序方法的流程图；

图4示出了本发明实施例提供的一种数据的排序装置的组成框图；

图5示出了本发明实施例提供的第二种数据的排序装置的组成框图；

图6示出了本发明实施例提供的第三种数据的排序装置的组成框图；

图7示出了本发明实施例提供的第四种数据的排序装置的组成框图；

图8示出了本发明实施例提供的一种数据的排序系统的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种数据的排序方法，该方法应用于分布式系统中，如图1所示，所述方法包括：

101、中心节点接收各个分布式节点发送的待处理数据。

本发明实施例所述的方法应用于服务器侧的分布式系统中，用于用客户端中的各个业务数据进行汇总、排名。图2示出了本发明实施例提供的一种分布式系统的架构示意图，如图2所示，包含多个分布式节点以及一个中心节点，每个分布式节点用于接收客户端发送的待处理数据，并且在分布式系统中，同一个中心节点会存储同一个客户端的待处理数据，而不会出现同一个客户端发送的待处理数据被存储于两个分布式节点中，提高了聚合待处理数据的准确性。在中心节点执行对待处理数据的聚合、排序时，采用层层向上递进的方式(沿虚线方向)进行，最后由分布式系统中最上层的中心节点进行聚合、排名。需要说明的是，图2仅为示例性的举例，对分布式系统中分布式节点的个数，及分布式节点之间的层级关系的实际数量不作限定。

中心节点接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积。在实际应用中，所述属性维度包括但不局限于以下内容，例如：视频、播放类型(例如直播、点播、回放等等)、地域、频道等等，所述属性维度中的属性指标包含但不局限于视频播放次数、视频播放时长等信息，以下示例会以属性维度为视频、属性指标为视频播放次数为例进行说明，但是，应当明确的是，该种说明方式并非意在限定属性维度只能为视频、属性指标只能为视频播放次数。

本发明实施例中，中心节点接收到的待处理数据为各个分布式节点已经经过一次或者多次排序后的数据，例如，对客户端中视频的播放次数进行的排名Top 20，或者，对某个频道播放量的排名Top 10等等，该些排序后的数据作为第一部分待处理数据，具体的，本发明实施例对分布式节点中进行的排名不作限定。

在实际应用中，用户观看视频的人数较多，其观看的视频种类也较大，在各个分布式节点对所有的视频进行统计分析时，需要获取所有播放的视频，但是，较多的视频其播放次数较小，在分布式节点对该类播放次数较少的视频统计时，会将其进行丢弃，但是，在分布式节点对播放次数较少的视频进行统计时，会浪费大量的网络带宽资源。在本发明实施例中，当分布式节点对客户端中播放的视频进行统计排名之后，会将播放次数较少的待处理数据进行标记，作为第二部分数据，在中心节点对各个分布式节点发送的待处理数据进行排名时，只针对第一部分待处理数据进行排名，而不关心第二部分待处理数据的排名、具体数量等情况，以节省中心节点的网络资源开销。

示例性的，为了便于对预设排名数量进行更好的理解，以下将以示例的形式对预设排名数量进行详细说明。所述预设排序数量为分布式系统中分布式节点的节点数与目标排名个数的乘积，设置预设排序数量的目的在于，避免同一视频在不同分布式节点中一个播放次数极多，一个播放次数极少的情况，导致统计的排名情况出现差错，所述目标排名个数为中心节点欲取得的实际排名个数。示例性的，假设，分布式系统中分布式节点的节点数为10，预设排名个数为Top 20，那么，预设排序数量为10*20＝200，若分布式系统的某个分布式节点中包含10000个待处理数据，那么，所述第一部分待处理数据为10000个待处理数据中的排名前200的数据，位于10000个待处理数据后的9800数据作为第二部分待处理数据，在此需要强调的是，第二部分待处理数据中不进行根据属性指标进行排序。具体的，本发明实施例对分布式系统中分布式节点的个数、预设排序数量及目标排名个数不作具体限定。

102、中心节点根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合。

步骤101中中心节点接收到各个分布式节点发送的待处理数据，本步骤中，将各个分布式节点发送的待处理数据进行进一步的累加聚合。

示例性的，假设分布式节点A中包含：视频标识1对应的视频播放量(播放次数)为1000万，视频标识2对应的视频播放量为202万，视频标识3中对应的视频播放量为201万，视频标识4对应的视频播放量为198万，分布式节点B中包含：视频标识1对应的视频播放量为2000万，视频标识2对应的视频播放量为302万，视频标识3中对应的视频播放量为300万，视频标识4对应的视频播放量为200万，中心节点将分布式节点A与分布式节点B中的待处理数据进行聚合，聚合后的结果为：视频标识1对应的视频播放量为3000万，视频标识2对应的视频播放量为505万，视频标识3中对应的视频播放量为601万，视频标识4对应的视频播放量为398万。

103、中心节点根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出所述目标排名数的待处理数据。

在本步骤，基于聚合后的第一部分待处理数据根据播放次数的大小进行排序，在实际应用过程中，各个分布式节点发送的第一部分待处理数据中可能包含20个不同的视频，在经过步骤102数据的聚合之后，聚合后的第一部分待处理数据中可能会包含大于20个不同的视频类型。本发明实施例对中心节点对各个分布式节点中聚合前后的视频类型不作限定。

示例性的，假设，各个分布式节点发送的第一部分待处理数据为15个视频的排名后的数据，在中心节点对各个分布式节点的第一部分待处理数据聚合后，获取包含25个视频的数据，对聚合后的数据进行排名，并从排名后的25个视频数据中获得TOP 10的数据排名情况。以上仅为示例性的说明，本发明实施例对中心节点聚合数据的数量大小、目标排名数等不作限定。

本发明实施例提供的一种数据的排序方法，应用于分布式系统中，首先，中心节点接收各个分布式节点发送的待处理数据，所述待处理数据为所述各个分布式节点根据属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；其次，中心节点根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；最后，中心节点根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出所述目标排名数的待处理数据；与现有技术相比，本发明实施例中中心节点在对各个分布式节点进行排序时，只对各个分布式节点已排序好，并且数据数量个数较少的数据进行总和排名，大大降低了中心节点网络带宽资源的开销，减小了中心节点发生网络延迟的概率，进而提高了中心节点输出排名结果的稳定性、实时性。

需要说明的是，中心节点接收到的所述待处理数据中还包含有第二部分待处理数据，该第二部分待处理数据为每个所述分布式节点所处理的全部数据中位于所述第一部分待处理数据后的数据，合并得到的数据，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量，该预设排序数量根据与分布式系统中分布式节点的个数及目标排名数量的乘积确定。需要说明的是，各个分布式节点在向中心节点发送待处理数据时，将第一部分待处理数据及第二部分待处理数据同时发送至中心节点，但是，在发送之间各个分布式节点需要将其所处理的全部数据中位于所述第一部分待处理数据后的数据，合并得到的数据，所述第二部分待处理数据为合并后的数据，其目的在于，减小分布式节点向中心节点发送待处理数据的网络资源开销。

在得到第二部分待处理数据之前，需将属于第二部分待处理数据的多条数据进行合并，合并数据的条数必须要少于第一部分待处理数据的条数，在实际应用中，为了进一步节省各个分布式节点发送待处理数据的网络开销，可将其处理的全部数据中位于所述第一部分待处理数据后的数据，合并为一条数据，得到一条第二部分待处理数据。可选的，也可以将各个分布式节点所处理的全部数据中位于所述第一部分待处理数据后的数据，合并为两条数据，或者三条数据等等，具体的，本发明实施例对合并得到的第二部分待处理数据的具体条数不作限定。

进一步的，作为对上述实施例的细化及扩展，当所述属性维度为视频标识，所述属性指标为视频播放次数时，根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合具体为：获取所述视频对应的视频标识，并根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数；根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名具体包括：按照播放次数大小，对聚合后的各个视频对应的播放次数进行排名。

进一步的，在获取所述视频对应的视频标识，根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数之后，还包括：获取所述第二部分待处理数据中记录的合计播放次数，所述第二部分待处理数据中携带有各个视频的合计播放次数；将所述第一部分待处理数据中各个视频对应的播放次数与所述合计播放次数加和，得到视频播放总次数；根据所述第一部分待处理数据中各个视频的播放次数与所述播放总次数，分别计算不同视频对应的收视人数占比；根据所述收视人数占比对所述视频标识对应的视频进行排名；从排名结果中筛选出目标排名数的视频。

需要说明的是，在图1所示的方法中进行视频的排名时，无需使用待处理数据中第二部分待处理数据，能够节省中心节点及各个分布式节点的网络资源开销。在上述实施例中，在计算视频对应的收视人数占比时，需要使用待处理数据中第二部分待处理数据，该第二部分待处理数据中标注有对应的视频的合计播放总次数，收视人数占比＝视频播放次数/播放总次数，得到该视频对应的点播占比，将各个视频对饮过的收视人数占比按照降序排列，统计出目标排名个数的排名情况。

进一步的，本发明实施例还提供一种数据的排序方法，该方法应用于分布式系统中，如图3所示，所述方法包括：

301、分布式节点获取待处理数据，并对所述待处理数据按照属性维度中的属性指标进行排序，获得排序数据。

分布式节点接收客户端中软件开发工具包(Software Development Kit，SDK)发送的业务数据，获取该业务数据中的属性维度，并根据该属性维度对SDK发送的业务数据(待处理数据)进行累加，累加的过程是将不同客户端中不同的SDK发送不同属性维度的数据进行累计加和；加和完成后按照属性维度中的属性指标对累加后的待处理数据进行排序。本发明实施例中，所述属性维度为视频标识，所述属性指标为视频播放次数，有关属性维度及属性指标的详细说明请参考步骤101中的相关说明，本发明实施例在此不再进行一一赘述。

302、分布式节点将排序数据的数量与预设排序数量进行比对。

其中，所述预设排序数量等于所述分布式系统中分布式节点个数与目标排名数的乘积。有关预设排序数量的相关说明请参考步骤101中的相关说明，本发明实施例在此不再进行赘述。

303、若所述排序数据的数量大于所述预设排序数量，则从所述排序数据中获取与所述预设排序数量相同的数据，作为第一部分待处理数据。

示例性的，假设预设排序数量为10*20，排序数据中已排名的数据个数为800，于本步骤，从已排名的排序数据中获取排名前200的待处理数据，作为第一部分处理数据。

304、分布式节点将所述第一部分待处理数据发送至中心节点，以便所述中心节点根据各个分布式节点发送的第一部分待处理数据按照目标排名数进行排名。

承由步骤304中的示例，在分布式节点将第一部分待处理数据发送至中心节点时，只将排名前200的第一部分待处理数据发送至中心节点，以节省分布式节点发送待处理数据的网络资源消耗。

在实际应用中，为了确保中心节点统计待处理数据的准确性，在从所述排序数据中获取与所述预设排序数量相同的数据之后，将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并，作为第二部分待处理数据；其中，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量；并将所述第一部分待处理数据及所述第二部分待处理数据发送至所述中心节点。所述第二部分待处理数据的数量少于第一部分待处理数据，其目的在于，减小各个分布式节点在向中心节点发送待处理时所消耗的网络带宽资源，同时，能够提高中心节点对待处理数据进行排名的效率；在实际应用中，可以将第二部分待处理数据合并为一条数据，也可以将第二部分待处理合并为两条或者三条数据，具体的，本发明实施例对第二部分待处理数据的具体数量不作限定。

在实际应用中，还可能存在第一部分待处理数据的数量小于或者等于预设排序数量的情况，说明第一部分待处理数据均不满足中心节点需要排序的条件，因此，将第一部分待处理数据作为第二部分待处理数据，只将第二部分待处理数据发送至中心节点，以便于中心节点通过各个分布式节点中视频的总播放次数，进而计算视频对应的收视人数占比。

在中心节点计算视频对应的收视人数占比时，需要根据当前视频的播放次数及各个分布式节点中所有视频的总播放次数，所述视频播放总次数包括第二部分待处理数据对应的视频播放次数，虽然，视频播放次数排名时，无关第二部分待处理数据，但是，在计算视频收视人数占比时，需要第二部分待处理数据，因此，在将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并之后，需计算第二部分待处理数据的各个视频的合计播放次数，并将所述合计播放次数标记于所述第二部分待处理数据中，所述合计播放次数为第二部分待处理数据中所有视频播放次数的总和。示例性的，假设，第二部分待处理数据中包含200个视频，那么在计算合计播放次数时，分别计算200个视频对应的播放次数，以上仅为示例性的举例，本发明实施例对第二部分待处理数据中包含的具体视频种类、个数等内容不进行限定。

进一步的，作为对上述图1所示方法的实现，本发明另一实施例还提供了一种数据的排序装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供一种数据的排序装置，如图4所示，所述装置应用于分布式系统中，包括：

接收单元41，用于接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；

聚合单元42，用于根据所述属性维度对所述接收单元41接收到的不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；

第一排名单元43，用于根据所述属性指标对所述聚合单元42聚合后的待处理数据中的第一部分待处理数据进行排名；

第一筛选单元44，用于从所述排名单元43的排名结果中筛选出所述目标排名数的待处理数据。

进一步的，所述待处理数据还包括第二部分待处理数据；所述第二部分待处理数据为每个所述分布式节点所处理的全部数据中位于所述第一部分待处理数据后的数据，合并得到的数据，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量。

进一步的，所述属性维度为视频，所述属性指标为视频播放次数。

进一步的，如图5所示，所述聚合单元42，还用于获取所述视频对应的视频标识，并根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数；

所述第一排名单元43，还用于按照播放次数大小，对所述聚合单元聚合后的各个视频对应的播放次数进行排名。

进一步的，如图5所示，所述装置还包括：

第一获取单元45，用于在所述聚合单元42获取所述视频对应的视频标识，根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数之后，获取所述第二部分待处理数据中记录的合计播放次数，所述第二部分待处理数据中携带有各个视频的合计播放次数；

第一计算单元46，用于将所述第一部分待处理数据中各个视频对应的播放次数与所述第一获取单元45获取的所述合计播放次数加和，得到视频播放总次数；

第二计算单元47，用于根据所述第一部分待处理数据中各个视频的播放次数与所述第一计算单元46计算的所述播放总次数，分别计算不同视频对应的收视人数占比；

第二排名单元48，用于根据所述收视人数占比对所述视频标识对应的视频进行排名；

第二筛选单元49，用于从排名结果中筛选出目标排名数的视频。

进一步的，本发明实施例还提供一种数据的排序装置，如图6所示，所述装置应用于分布式系统，包括：

第二获取单元61，用于获取待处理数据；

排序单元62，用于对所述第二获取单元61获取的所述待处理数据按照属性维度中的属性指标进行排序，获得排序数据；

比对单元63，用于将所述排序单元62获得的排序数据的数量与预设排序数量进行比对；其中，所述预设排序数量等于所述分布式系统中分布式节点个数与目标排名数的乘积；

第三获取单元64，用于当所述比对单元63确定所述排序数据的数量大于所述预设排序数量时，从所述排序数据中获取与所述预设排序数量相同的数据，作为第一部分待处理数据；

发送单元65，用于将所述第三获取单元64获取的所述第一部分待处理数据发送至中心节点，以便所述中心节点根据各个分布式节点发送的第一部分待处理数据按照目标排名数进行排名。

进一步的，如图7所示，所述装置还包括：

合并单元66，用于在所述第三获取单元64从所述排序数据中获取与所述预设排序数量相同的数据之后，将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并，作为第二部分待处理数据；其中，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量；

所述发送单元65，还用于将所述第一部分待处理数据及所述合并单元合并的所述第二部分待处理数据发送至所述中心节点。

进一步的，如图7所示，所述装置还包括：

处理单元67，用于当所述比对单元63确定所述排序数据的数量小于所述预设排序数量时，将所述排序数据作为第二部分待处理数据；

所述发送单元64，还用于将所述处理单元得到的所述第二部分待处理数据发送至所述中心节点。

进一步的，如图7所示，所述装置包括：

第三计算单元68，用于在所述合并单元66将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并之后，计算所述第二部分待处理数据的各个视频的合计播放次数；

标记单元69，用于将所述第三计算单元68计算的所述合计播放次数标记于所述第二部分待处理数据中。

进一步的，本发明实施例提供一种数据的排序系统，如图8所示，所述系统包括中心节点81及分布式节点82，其中，所述中心节点为如图4或图5中任一幅所示的数据的排序的装置，所述分布式节点为如图6或图7中任一幅所示的数据的排序装置。

本发明实施例提供的一种数据的排序装置及系统，应用于分布式系统中，首先，中心节点接收各个分布式节点发送的待处理数据，所述待处理数据为所述各个分布式节点根据属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；其次，中心节点根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；最后，中心节点根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出所述目标排名数的待处理数据；与现有技术相比，本发明实施例中中心节点在对各个分布式节点进行排序时，只对各个分布式节点已排序好，并且数据数量个数较少的数据进行总和排名，大大降低了中心节点网络带宽资源的开销，减小了中心节点发生网络延迟的概率，进而提高了中心节点输出排名结果的稳定性、实时性。

所述数据的排序装置包括处理器和存储器，上述接收单元、聚合单元、第一排名单元及第一筛选单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中中心节点在接收并对该些观看次数较小的视频数据进行重新排名计算时，需要浪费大量的网络带宽资源，使得中心节点由于网络带宽资源的浪费，可能存在网络阻塞的情况发生的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：中心节点接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合；根据所述属性指标对聚合后的待处理数据中的第一部分待处理数据进行排名，并从排名结果中筛选出所述目标排名数的待处理数据。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据的排序方法，其特征在于，所述方法应用于分布式系统中，包括：

中心节点接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分待处理数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；其中，同一个中心节点会存储同一个客户端的待处理数据；

2.根据权利要求1所述的方法，其特征在于，

所述待处理数据还包括第二部分待处理数据；所述第二部分待处理数据为每个所述分布式节点所处理的全部数据中位于所述第一部分待处理数据后的数据，合并得到的数据，所述第二部分待处理数据的数量少于所述第一部分待处理数据的数量。

3.根据权利要求2所述的方法，其特征在于，所述属性维度为视频，所述属性指标为视频播放次数。

4.根据权利要求3所述的方法，其特征在于，

根据所述属性维度对不同分布式节点中的待处理数据中的第一部分待处理数据进行聚合具体包括：

5.根据权利要求4所述的方法，其特征在于，在获取所述视频对应的视频标识，根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数之后，所述方法还包括：

从排名结果中筛选出目标排名数的视频。

6.一种数据的排序方法，其特征在于，所述方法应用于分布式系统，包括：

将所述第一部分待处理数据发送至中心节点，以便所述中心节点根据各个分布式节点发送的第一部分待处理数据按照目标排名数进行排名，其中，同一个中心节点会存储同一个客户端的待处理数据。

7.根据权利要求6所述的方法，其特征在于，在从所述排序数据中获取与所述预设排序数量相同的数据之后，所述方法还包括：

将所述第一部分待处理数据发送至中心节点包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

将所述第一部分待处理数据发送至中心节点包括：

将所述第二部分待处理数据发送至所述中心节点。

9.根据权利要求8所述的方法，其特征在于，所述属性维度为视频，所述属性指标为视频播放次数。

10.根据权利要求9所述的方法，其特征在于，在将所述排序数据中除所述第一部分待处理数据外的所有数据进行合并之后，所述方法包括：

11.一种数据的排序装置，其特征在于，所述装置应用于分布式系统中，包括：

接收单元，用于接收各个分布式节点发送的待处理数据，所述待处理数据至少包括第一部分待处理数据；所述第一部分待处理数据为根据预设属性维度中的属性指标排序后的数据，且所述第一部分待处理数据的数量为预设排序数量，所述预设排序数量等于所述分布式系统中的分布式节点的个数与目标排名数的乘积；其中，同一个中心节点会存储同一个客户端的待处理数据；

12.根据权利要求11所述的装置，其特征在于，

13.根据权利要求12所述的装置，其特征在于，所述属性维度为视频，所述属性指标为视频播放次数。

14.根据权利要求13所述的装置，其特征在于，所述聚合单元，还用于获取所述视频对应的视频标识，并根据所述视频标识计算各个分布式节点中第一部分待处理数据中各个视频对应的播放次数；

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.一种数据的排序装置，其特征在于，所述装置应用于分布式系统，包括：

第二获取单元，用于获取待处理数据；

发送单元，用于将所述第三获取单元获取的所述第一部分待处理数据发送至中心节点，以便所述中心节点根据各个分布式节点发送的第一部分待处理数据按照目标排名数进行排名，其中，同一个中心节点会存储同一个客户端的待处理数据。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

19.根据权利要求18所述的装置，其特征在于，所述属性维度为视频，所述属性指标为视频播放次数。

20.根据权利要求19所述的装置，其特征在于，所述装置包括：

21.一种数据的排序系统，其特征在于，所述系统包括中心节点及分布式节点，其中，所述中心节点为如权利要求11-15中任一项所述的装置，所述分布式节点为如权利要求16-20中任一项所述的装置。

22.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求10中任意一项所述的数据的排序方法。

23.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求10中任意一项所述的数据的排序方法。