CN106294427A

CN106294427A - 稿件统计方法和稿件统计系统

Info

Publication number: CN106294427A
Application number: CN201510275573.XA
Authority: CN
Inventors: 高顺利
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2017-01-04

Abstract

本发明提出了一种稿件统计方法和一种稿件统计系统，其中，所述方法包括：对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。通过调用至少一个线程对分布式存储的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率，进而提升了用户体验，同时，可以充分利用CPU多核计算能力。

Description

稿件统计方法和稿件统计系统

技术领域

本发明涉及稿件统计技术领域，具体而言，涉及一种稿件统计方法和一种稿件统计系统。

背景技术

目前，在CMS(Content Management System，内容管理系统)在关系型数据库中保存了大量的稿件的信息，如稿件所属栏目编号、稿件编号和稿件点击量等信息，不同的栏目对应有不同的稿件，且栏目又有树形结构，在相关的技术方案中，通过对关系型数据库中涉及到得表进行连接查询，并采取聚类函数按栏目确定统计稿件数量和统计稿件点击量。

但是相关技术中的确定统计稿件数量和统计稿件点击量的方案有以下几点缺点：

(1)关系型数据库中的多个表的连接查询不能充分利用服务器的CPU多核计算能力；

(2)由于关系型数据库中存储有大量的稿件，采用多个表连接查询的统计方案运行速度比较慢，特别是在大数据规模的情况下，确定统计稿件数量和统计稿件点击量需要耗费很长的时间，严重影响用户的体验。

因此，如何充分利用CPU多核计算能力，以及在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时，如何提高统计的效率，从而提升用户体验成为亟待解决的问题。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，通过调用至少一个线程对分布式存储的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率，进而提升了用户体验，同时，可以充分利用CPU多核计算能力。

有鉴于此，本发明的一方面提出了一种稿件统计方法，包括：对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。

在该技术方案中，对当前稿件进行归纳统计得到稿件归纳信息，这样，当接收到用户输入的统计参数信息进行统计时，就可以调用线程直接对稿件归纳信息进行统计，而且可以使用多个线程同时对稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的速度和效率，进而提升了用户体验。

在上述技术方案中，优选地，对所述当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息，具体包括：每隔预设时间获取关系型数据库中的所述当前稿件，其中，所述当前稿件为所述预设时间内生成的稿件；对所述当前稿件进行归纳统计，以确定所述当前稿件的所述稿件归纳信息，并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。

在该技术方案中，可以每隔预设时间对当前稿件进行及时归纳统计，例如，在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息，从而可以充分利用服务器的资源，而且在服务器空闲的时候进行归纳统计的速度比较快，另外，将归纳统计出的稿件归纳信息分布式存储在多个稿件归纳文件中，这样，当根据用户输入的统计参数信息统计出稿件统计信息时，就可以使用至少一个线程对多个稿件归纳文件进行分布式地统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度，进而提升了用户体验。

在上述技术方案中，优选地，调度至少一个所述线程，具体包括：根据所述统计参数信息，确定总线程数；根据系统硬件参数信息，在所述总线程数中确定目标线程数。

在该技术方案中，根据统计参数信息和系统硬件参数信息确定调用的目标线程数，例如，系统硬件参数信息为服务器CPU核的数量，因此，根据服务器CPU核的数量确定目标线程数，即使用多核进行统计，从而充分利用服务器多核资源，同时在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时还可以提高统计的效率和速度。

在上述技术方案中，优选地，根据所述统计参数信息，调度至少一个所述线程对所述归纳信息集合进行统计，具体包括：分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件，以形成稿件归纳文件集合；获取所述稿件归纳文件集合中的所有所述稿件归纳信息，以形成所述归纳信息集合；调度至少一个所述线程对所述归纳信息集合进行统计，以确定所述稿件统计信息。

在上述技术方案中，优选地，所述稿件归纳信息包括：稿件所属栏目编号、稿件编号和稿件点击量；所述统计参数信息包括：统计栏目编号、统计开始时间和统计结束时间；所述稿件统计信息包括：在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量，和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。

在该技术方案中，通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度，进而提升了用户体验，具体地，获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合，其中，归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息，并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计，从而得到多个当前稿件的稿件统计信息。

本发明的另一方面提出了一种稿件统计系统，包括：归纳统计单元，用于对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；第一获取单元，用于根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；确定单元，用于根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。

在上述技术方案中，优选地，所述归纳统计单元包括：第二获取单元，用于每隔预设时间获取关系型数据库中的所述当前稿件，其中，所述当前稿件为所述预设时间内生成的稿件；所述归纳统计单元具体用于：对所述当前稿件进行归纳统计，以确定所述当前稿件的所述稿件归纳信息，并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。

在上述技术方案中，优选地，所述确定单元具体用于：根据所述统计参数信息，确定总线程数，根据系统硬件参数信息，在所述总线程数中确定目标线程数。

在上述技术方案中，优选地，所述确定单元包括：第三获取单元，用于分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件，以形成稿件归纳文件集合；第四获取单元，用于获取所述稿件归纳文件集合中的所有所述稿件归纳信息，以形成所述归纳信息集合；调度单元，调度至少一个所述线程对所述归纳信息集合进行统计，以确定所述稿件统计信息。

在该技术方案中，通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度，进而提升了用户体验，具体地，获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合，其中，归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息，并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计，从而得到多个当前稿件的稿件统计信息。通过本发明的技术方案，通过调用至少一个线程对分布式存储的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率，进而提升了用户体验，同时，可以充分利用CPU多核计算能力。

附图说明

图1示出了根据本发明的一个实施例的稿件统计方法的流程示意图；

图2示出了根据本发明的一个实施例的稿件统计系统的结构示意图；

图3示出了根据本发明的一个实施例的存储稿件归纳信息的格式的示意图；

图4示出了根据本发明的一个实施例的稿件统计系统的原理示意图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的一个实施例的稿件统计方法的流程示意图。

如图1所示，根据本发明的一个实施例的稿件统计方法，包括：

步骤102，对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；

步骤104，根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；

步骤106，根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。

在上述技术方案中，优选地，步骤102具体包括：每隔预设时间获取关系型数据库中的所述当前稿件，其中，所述当前稿件为所述预设时间内生成的稿件；对所述当前稿件进行归纳统计，以确定所述当前稿件的所述稿件归纳信息，并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。

在上述技术方案中，优选地，步骤106具体包括：分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件，以形成稿件归纳文件集合；获取所述稿件归纳文件集合中的所有所述稿件归纳信息，以形成所述归纳信息集合；调度至少一个所述线程对所述归纳信息集合进行统计，以确定所述稿件统计信息。

图2示出了根据本发明的一个实施例的稿件统计系统的结构示意图。

如图2所示，根据本发明的一个实施例的稿件统计系统200，包括：归纳统计单元202，用于对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；第一获取单元204，用于根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；确定单元206，用于根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。

在上述技术方案中，优选地，所述归纳统计单元202包括：第二获取单元2024，用于每隔预设时间获取关系型数据库中的所述当前稿件，其中，所述当前稿件为所述预设时间内生成的稿件；所述归纳统计单元202具体用于：对所述当前稿件进行归纳统计，以确定所述当前稿件的所述稿件归纳信息，并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。

在上述技术方案中，优选地，所述确定单元206具体用于：根据所述统计参数信息，确定总线程数，根据系统硬件参数信息，在所述总线程数中确定目标线程数。

在上述技术方案中，优选地，所述确定单元206包括：第三获取单元2062，用于分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件，以形成稿件归纳文件集合；第四获取单元2064，用于获取所述稿件归纳文件集合中的所有所述稿件归纳信息，以形成所述归纳信息集合；调度单元2066，调度至少一个所述线程对所述归纳信息集合进行统计，以确定所述稿件统计信息。

在该技术方案中，通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度，进而提升了用户体验，具体地，获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合，其中，归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息，并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计，从而得到多个当前稿件的稿件统计信息。图3示出了根据本发明的一个实施例的存储稿件归纳信息的格式的示意图，图4示出了根据本发明的一个实施例的稿件统计系统的原理示意图。

下面结合图3和图4详细说明本发明的技术方案：

首先开启定时任务在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息，并将归纳统计的结果分布式存储在多个稿件归纳文件中，文件内存储的格式如图3所示，即稿件归纳信息包括：栏目ID(稿件所属栏目编号)、稿件ID(稿件编号)和稿件点击量。

接收到的用户输入的统计参数信息，其中，统计参数信息包括：统计栏目编号、统计开始时间和统计结束时间，并根据统计参数信息统计出的稿件统计信息具体如下：

(1)调度程序根据统计开始时间和统计结束时间计算出总线程数，并根据CPU核的数量在总线程数中确定目标线程数，以及采用Java线程池技术开启目标线程数的线程。

(2)调度程序调用目标线程数的线程读取指定时间内的多个稿件归纳文件，并筛选出指定栏目的稿件ID，并返回稿件的ID为Key，以及点击量为Value的Map对象给调度程序，如图4所示，其中，指定时间为从统计开始时间至统计结束时间中的时间段。

(3)调度程序接收到线程返回的结果后，将此次调度程序统计的结果和上次调度程序统计的结果进行合并，当上次调度程序统计的结果中有指定稿件时，更新指定稿件的点击量，否则上次调度程序统计的结果中插入该指定稿件的统计结果。

(4)重复执行(2)和(3)步骤，直到统计开始时间至统计结束时间内的稿件归纳信息统计完毕。

在上述技术方案中，采用并行算法，可以充分利用服务器的多核资源，避免了关系型数据库成为系统的瓶颈。

以上结合附图详细说明了本发明的技术方案，通过调用至少一个线程对分布式存储的稿件归纳信息进行统计，从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率，进而提升了用户体验，同时，可以充分利用CPU多核计算能力。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种稿件统计方法，其特征在于，包括：

对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；

根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；

根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。

2.根据权利要求1所述的稿件统计方法，其特征在于，对所述当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息，具体包括：

每隔预设时间获取关系型数据库中的所述当前稿件，其中，所述当前稿件为所述预设时间内生成的稿件；

对所述当前稿件进行归纳统计，以确定所述当前稿件的所述稿件归纳信息，并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。

3.根据权利要求2所述的稿件统计方法，其特征在于，调度至少一个所述线程，具体包括：

根据所述统计参数信息，确定总线程数；

根据系统硬件参数信息，在所述总线程数中确定目标线程数。

4.根据权利要求3所述的稿件统计方法，其特征在于，根据所述统计参数信息，调度至少一个所述线程对所述归纳信息集合进行统计，具体包括：

分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件，以形成稿件归纳文件集合；

获取所述稿件归纳文件集合中的所有所述稿件归纳信息，以形成所述归纳信息集合；

调度至少一个所述线程对所述归纳信息集合进行统计，以确定所述稿件统计信息。

5.根据权利要求1至4中任一项所述的稿件统计方法，其特征在于，

所述稿件归纳信息包括：稿件所属栏目编号、稿件编号和稿件点击量；

所述统计参数信息包括：统计栏目编号、统计开始时间和统计结束时间；

所述稿件统计信息包括：在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量，和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。

6.一种稿件统计系统，其特征在于，包括：

归纳统计单元，用于对当前稿件进行归纳统计，以确定所述当前稿件的稿件归纳信息；

第一获取单元，用于根据接收到的用户输入的统计参数信息，分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息，以形成归纳信息集合；

确定单元，用于根据所述统计参数信息，调度至少一个线程对所述归纳信息集合进行统计，以确定所述归纳信息集合的稿件统计信息。

7.根据权利要求6所述的稿件统计系统，其特征在于，所述归纳统计单元包括：

第二获取单元，用于每隔预设时间获取关系型数据库中的所述当前稿件，其中，所述当前稿件为所述预设时间内生成的稿件；

所述归纳统计单元具体用于：对所述当前稿件进行归纳统计，以确定所述当前稿件的所述稿件归纳信息，并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。

8.根据权利要求7所述的稿件统计系统，其特征在于，所述确定单元具体用于：

根据所述统计参数信息，确定总线程数，根据系统硬件参数信息，在所述总线程数中确定目标线程数。

9.根据权利要求8所述的稿件统计系统，其特征在于，所述确定单元包括：

第三获取单元，用于分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件，以形成稿件归纳文件集合；

第四获取单元，用于获取所述稿件归纳文件集合中的所有所述稿件归纳信息，以形成所述归纳信息集合；

调度单元，调度至少一个所述线程对所述归纳信息集合进行统计，以确定所述稿件统计信息。

10.根据权利要求6至9中任一项所述的稿件统计系统，其特征在于，