CN106294427A - 稿件统计方法和稿件统计系统 - Google Patents

稿件统计方法和稿件统计系统 Download PDF

Info

Publication number
CN106294427A
CN106294427A CN201510275573.XA CN201510275573A CN106294427A CN 106294427 A CN106294427 A CN 106294427A CN 201510275573 A CN201510275573 A CN 201510275573A CN 106294427 A CN106294427 A CN 106294427A
Authority
CN
China
Prior art keywords
contribution
statistics
information
statistical
conclusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510275573.XA
Other languages
English (en)
Inventor
高顺利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201510275573.XA priority Critical patent/CN106294427A/zh
Publication of CN106294427A publication Critical patent/CN106294427A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出了一种稿件统计方法和一种稿件统计系统,其中,所述方法包括:对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。通过调用至少一个线程对分布式存储的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率,进而提升了用户体验,同时,可以充分利用CPU多核计算能力。

Description

稿件统计方法和稿件统计系统
技术领域
本发明涉及稿件统计技术领域,具体而言,涉及一种稿件统计方法和一种稿件统计系统。
背景技术
目前,在CMS(Content Management System,内容管理系统)在关系型数据库中保存了大量的稿件的信息,如稿件所属栏目编号、稿件编号和稿件点击量等信息,不同的栏目对应有不同的稿件,且栏目又有树形结构,在相关的技术方案中,通过对关系型数据库中涉及到得表进行连接查询,并采取聚类函数按栏目确定统计稿件数量和统计稿件点击量。
但是相关技术中的确定统计稿件数量和统计稿件点击量的方案有以下几点缺点:
(1)关系型数据库中的多个表的连接查询不能充分利用服务器的CPU多核计算能力;
(2)由于关系型数据库中存储有大量的稿件,采用多个表连接查询的统计方案运行速度比较慢,特别是在大数据规模的情况下,确定统计稿件数量和统计稿件点击量需要耗费很长的时间,严重影响用户的体验。
因此,如何充分利用CPU多核计算能力,以及在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时,如何提高统计的效率,从而提升用户体验成为亟待解决的问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,通过调用至少一个线程对分布式存储的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率,进而提升了用户体验,同时,可以充分利用CPU多核计算能力。
有鉴于此,本发明的一方面提出了一种稿件统计方法,包括:对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。
在该技术方案中,对当前稿件进行归纳统计得到稿件归纳信息,这样,当接收到用户输入的统计参数信息进行统计时,就可以调用线程直接对稿件归纳信息进行统计,而且可以使用多个线程同时对稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的速度和效率,进而提升了用户体验。
在上述技术方案中,优选地,对所述当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息,具体包括:每隔预设时间获取关系型数据库中的所述当前稿件,其中,所述当前稿件为所述预设时间内生成的稿件;对所述当前稿件进行归纳统计,以确定所述当前稿件的所述稿件归纳信息,并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。
在该技术方案中,可以每隔预设时间对当前稿件进行及时归纳统计,例如,在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息,从而可以充分利用服务器的资源,而且在服务器空闲的时候进行归纳统计的速度比较快,另外,将归纳统计出的稿件归纳信息分布式存储在多个稿件归纳文件中,这样,当根据用户输入的统计参数信息统计出稿件统计信息时,就可以使用至少一个线程对多个稿件归纳文件进行分布式地统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验。
在上述技术方案中,优选地,调度至少一个所述线程,具体包括:根据所述统计参数信息,确定总线程数;根据系统硬件参数信息,在所述总线程数中确定目标线程数。
在该技术方案中,根据统计参数信息和系统硬件参数信息确定调用的目标线程数,例如,系统硬件参数信息为服务器CPU核的数量,因此,根据服务器CPU核的数量确定目标线程数,即使用多核进行统计,从而充分利用服务器多核资源,同时在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时还可以提高统计的效率和速度。
在上述技术方案中,优选地,根据所述统计参数信息,调度至少一个所述线程对所述归纳信息集合进行统计,具体包括:分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件,以形成稿件归纳文件集合;获取所述稿件归纳文件集合中的所有所述稿件归纳信息,以形成所述归纳信息集合;调度至少一个所述线程对所述归纳信息集合进行统计,以确定所述稿件统计信息。
在上述技术方案中,优选地,所述稿件归纳信息包括:稿件所属栏目编号、稿件编号和稿件点击量;所述统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间;所述稿件统计信息包括:在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量,和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。
在该技术方案中,通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验,具体地,获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合,其中,归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息,并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计,从而得到多个当前稿件的稿件统计信息。
本发明的另一方面提出了一种稿件统计系统,包括:归纳统计单元,用于对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;第一获取单元,用于根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;确定单元,用于根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。
在该技术方案中,对当前稿件进行归纳统计得到稿件归纳信息,这样,当接收到用户输入的统计参数信息进行统计时,就可以调用线程直接对稿件归纳信息进行统计,而且可以使用多个线程同时对稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的速度和效率,进而提升了用户体验。
在上述技术方案中,优选地,所述归纳统计单元包括:第二获取单元,用于每隔预设时间获取关系型数据库中的所述当前稿件,其中,所述当前稿件为所述预设时间内生成的稿件;所述归纳统计单元具体用于:对所述当前稿件进行归纳统计,以确定所述当前稿件的所述稿件归纳信息,并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。
在该技术方案中,可以每隔预设时间对当前稿件进行及时归纳统计,例如,在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息,从而可以充分利用服务器的资源,而且在服务器空闲的时候进行归纳统计的速度比较快,另外,将归纳统计出的稿件归纳信息分布式存储在多个稿件归纳文件中,这样,当根据用户输入的统计参数信息统计出稿件统计信息时,就可以使用至少一个线程对多个稿件归纳文件进行分布式地统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验。
在上述技术方案中,优选地,所述确定单元具体用于:根据所述统计参数信息,确定总线程数,根据系统硬件参数信息,在所述总线程数中确定目标线程数。
在该技术方案中,根据统计参数信息和系统硬件参数信息确定调用的目标线程数,例如,系统硬件参数信息为服务器CPU核的数量,因此,根据服务器CPU核的数量确定目标线程数,即使用多核进行统计,从而充分利用服务器多核资源,同时在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时还可以提高统计的效率和速度。
在上述技术方案中,优选地,所述确定单元包括:第三获取单元,用于分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件,以形成稿件归纳文件集合;第四获取单元,用于获取所述稿件归纳文件集合中的所有所述稿件归纳信息,以形成所述归纳信息集合;调度单元,调度至少一个所述线程对所述归纳信息集合进行统计,以确定所述稿件统计信息。
在上述技术方案中,优选地,所述稿件归纳信息包括:稿件所属栏目编号、稿件编号和稿件点击量;所述统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间;所述稿件统计信息包括:在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量,和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。
在该技术方案中,通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验,具体地,获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合,其中,归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息,并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计,从而得到多个当前稿件的稿件统计信息。通过本发明的技术方案,通过调用至少一个线程对分布式存储的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率,进而提升了用户体验,同时,可以充分利用CPU多核计算能力。
附图说明
图1示出了根据本发明的一个实施例的稿件统计方法的流程示意图;
图2示出了根据本发明的一个实施例的稿件统计系统的结构示意图;
图3示出了根据本发明的一个实施例的存储稿件归纳信息的格式的示意图;
图4示出了根据本发明的一个实施例的稿件统计系统的原理示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的稿件统计方法的流程示意图。
如图1所示,根据本发明的一个实施例的稿件统计方法,包括:
步骤102,对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;
步骤104,根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;
步骤106,根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。
在该技术方案中,对当前稿件进行归纳统计得到稿件归纳信息,这样,当接收到用户输入的统计参数信息进行统计时,就可以调用线程直接对稿件归纳信息进行统计,而且可以使用多个线程同时对稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的速度和效率,进而提升了用户体验。
在上述技术方案中,优选地,步骤102具体包括:每隔预设时间获取关系型数据库中的所述当前稿件,其中,所述当前稿件为所述预设时间内生成的稿件;对所述当前稿件进行归纳统计,以确定所述当前稿件的所述稿件归纳信息,并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。
在该技术方案中,可以每隔预设时间对当前稿件进行及时归纳统计,例如,在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息,从而可以充分利用服务器的资源,而且在服务器空闲的时候进行归纳统计的速度比较快,另外,将归纳统计出的稿件归纳信息分布式存储在多个稿件归纳文件中,这样,当根据用户输入的统计参数信息统计出稿件统计信息时,就可以使用至少一个线程对多个稿件归纳文件进行分布式地统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验。
在上述技术方案中,优选地,调度至少一个所述线程,具体包括:根据所述统计参数信息,确定总线程数;根据系统硬件参数信息,在所述总线程数中确定目标线程数。
在该技术方案中,根据统计参数信息和系统硬件参数信息确定调用的目标线程数,例如,系统硬件参数信息为服务器CPU核的数量,因此,根据服务器CPU核的数量确定目标线程数,即使用多核进行统计,从而充分利用服务器多核资源,同时在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时还可以提高统计的效率和速度。
在上述技术方案中,优选地,步骤106具体包括:分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件,以形成稿件归纳文件集合;获取所述稿件归纳文件集合中的所有所述稿件归纳信息,以形成所述归纳信息集合;调度至少一个所述线程对所述归纳信息集合进行统计,以确定所述稿件统计信息。
在上述技术方案中,优选地,所述稿件归纳信息包括:稿件所属栏目编号、稿件编号和稿件点击量;所述统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间;所述稿件统计信息包括:在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量,和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。
在该技术方案中,通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验,具体地,获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合,其中,归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息,并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计,从而得到多个当前稿件的稿件统计信息。
图2示出了根据本发明的一个实施例的稿件统计系统的结构示意图。
如图2所示,根据本发明的一个实施例的稿件统计系统200,包括:归纳统计单元202,用于对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;第一获取单元204,用于根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;确定单元206,用于根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。
在该技术方案中,对当前稿件进行归纳统计得到稿件归纳信息,这样,当接收到用户输入的统计参数信息进行统计时,就可以调用线程直接对稿件归纳信息进行统计,而且可以使用多个线程同时对稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的速度和效率,进而提升了用户体验。
在上述技术方案中,优选地,所述归纳统计单元202包括:第二获取单元2024,用于每隔预设时间获取关系型数据库中的所述当前稿件,其中,所述当前稿件为所述预设时间内生成的稿件;所述归纳统计单元202具体用于:对所述当前稿件进行归纳统计,以确定所述当前稿件的所述稿件归纳信息,并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。
在该技术方案中,可以每隔预设时间对当前稿件进行及时归纳统计,例如,在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息,从而可以充分利用服务器的资源,而且在服务器空闲的时候进行归纳统计的速度比较快,另外,将归纳统计出的稿件归纳信息分布式存储在多个稿件归纳文件中,这样,当根据用户输入的统计参数信息统计出稿件统计信息时,就可以使用至少一个线程对多个稿件归纳文件进行分布式地统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验。
在上述技术方案中,优选地,所述确定单元206具体用于:根据所述统计参数信息,确定总线程数,根据系统硬件参数信息,在所述总线程数中确定目标线程数。
在该技术方案中,根据统计参数信息和系统硬件参数信息确定调用的目标线程数,例如,系统硬件参数信息为服务器CPU核的数量,因此,根据服务器CPU核的数量确定目标线程数,即使用多核进行统计,从而充分利用服务器多核资源,同时在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时还可以提高统计的效率和速度。
在上述技术方案中,优选地,所述确定单元206包括:第三获取单元2062,用于分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件,以形成稿件归纳文件集合;第四获取单元2064,用于获取所述稿件归纳文件集合中的所有所述稿件归纳信息,以形成所述归纳信息集合;调度单元2066,调度至少一个所述线程对所述归纳信息集合进行统计,以确定所述稿件统计信息。
在上述技术方案中,优选地,所述稿件归纳信息包括:稿件所属栏目编号、稿件编号和稿件点击量;所述统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间;所述稿件统计信息包括:在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量,和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。
在该技术方案中,通过调度至少一个线程对符合统计参数信息的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率和速度,进而提升了用户体验,具体地,获取在统计开始时间和统计结束时间之内且与统计栏目编号对应的多个当前稿件的归纳信息集合,其中,归纳信息集合中包括多个当前稿件的每个当前稿件的稿件归纳信息,并调度至少一个线程对每个当前稿件的稿件归纳信息进行统计,从而得到多个当前稿件的稿件统计信息。图3示出了根据本发明的一个实施例的存储稿件归纳信息的格式的示意图,图4示出了根据本发明的一个实施例的稿件统计系统的原理示意图。
下面结合图3和图4详细说明本发明的技术方案:
首先开启定时任务在每天晚上服务器空闲的时候归纳统计出当天的当前稿件的稿件归纳信息,并将归纳统计的结果分布式存储在多个稿件归纳文件中,文件内存储的格式如图3所示,即稿件归纳信息包括:栏目ID(稿件所属栏目编号)、稿件ID(稿件编号)和稿件点击量。
接收到的用户输入的统计参数信息,其中,统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间,并根据统计参数信息统计出的稿件统计信息具体如下:
(1)调度程序根据统计开始时间和统计结束时间计算出总线程数,并根据CPU核的数量在总线程数中确定目标线程数,以及采用Java线程池技术开启目标线程数的线程。
(2)调度程序调用目标线程数的线程读取指定时间内的多个稿件归纳文件,并筛选出指定栏目的稿件ID,并返回稿件的ID为Key,以及点击量为Value的Map对象给调度程序,如图4所示,其中,指定时间为从统计开始时间至统计结束时间中的时间段。
(3)调度程序接收到线程返回的结果后,将此次调度程序统计的结果和上次调度程序统计的结果进行合并,当上次调度程序统计的结果中有指定稿件时,更新指定稿件的点击量,否则上次调度程序统计的结果中插入该指定稿件的统计结果。
(4)重复执行(2)和(3)步骤,直到统计开始时间至统计结束时间内的稿件归纳信息统计完毕。
在上述技术方案中,采用并行算法,可以充分利用服务器的多核资源,避免了关系型数据库成为系统的瓶颈。
以上结合附图详细说明了本发明的技术方案,通过调用至少一个线程对分布式存储的稿件归纳信息进行统计,从而在大数据规模下按照稿件所属栏目确定统计稿件数量和统计稿件点击量时可以提高统计的效率,进而提升了用户体验,同时,可以充分利用CPU多核计算能力。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种稿件统计方法,其特征在于,包括:
对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;
根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;
根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。
2.根据权利要求1所述的稿件统计方法,其特征在于,对所述当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息,具体包括:
每隔预设时间获取关系型数据库中的所述当前稿件,其中,所述当前稿件为所述预设时间内生成的稿件;
对所述当前稿件进行归纳统计,以确定所述当前稿件的所述稿件归纳信息,并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。
3.根据权利要求2所述的稿件统计方法,其特征在于,调度至少一个所述线程,具体包括:
根据所述统计参数信息,确定总线程数;
根据系统硬件参数信息,在所述总线程数中确定目标线程数。
4.根据权利要求3所述的稿件统计方法,其特征在于,根据所述统计参数信息,调度至少一个所述线程对所述归纳信息集合进行统计,具体包括:
分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件,以形成稿件归纳文件集合;
获取所述稿件归纳文件集合中的所有所述稿件归纳信息,以形成所述归纳信息集合;
调度至少一个所述线程对所述归纳信息集合进行统计,以确定所述稿件统计信息。
5.根据权利要求1至4中任一项所述的稿件统计方法,其特征在于,
所述稿件归纳信息包括:稿件所属栏目编号、稿件编号和稿件点击量;
所述统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间;
所述稿件统计信息包括:在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量,和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。
6.一种稿件统计系统,其特征在于,包括:
归纳统计单元,用于对当前稿件进行归纳统计,以确定所述当前稿件的稿件归纳信息;
第一获取单元,用于根据接收到的用户输入的统计参数信息,分别获取多个所述当前稿件中的每个所述当前稿件的所述稿件归纳信息,以形成归纳信息集合;
确定单元,用于根据所述统计参数信息,调度至少一个线程对所述归纳信息集合进行统计,以确定所述归纳信息集合的稿件统计信息。
7.根据权利要求6所述的稿件统计系统,其特征在于,所述归纳统计单元包括:
第二获取单元,用于每隔预设时间获取关系型数据库中的所述当前稿件,其中,所述当前稿件为所述预设时间内生成的稿件;
所述归纳统计单元具体用于:对所述当前稿件进行归纳统计,以确定所述当前稿件的所述稿件归纳信息,并将所述稿件归纳信息分布式存储在多个稿件归纳文件中。
8.根据权利要求7所述的稿件统计系统,其特征在于,所述确定单元具体用于:
根据所述统计参数信息,确定总线程数,根据系统硬件参数信息,在所述总线程数中确定目标线程数。
9.根据权利要求8所述的稿件统计系统,其特征在于,所述确定单元包括:
第三获取单元,用于分别获取多个所述当前稿件中的每个所述当前稿件的所述多个稿件归纳文件,以形成稿件归纳文件集合;
第四获取单元,用于获取所述稿件归纳文件集合中的所有所述稿件归纳信息,以形成所述归纳信息集合;
调度单元,调度至少一个所述线程对所述归纳信息集合进行统计,以确定所述稿件统计信息。
10.根据权利要求6至9中任一项所述的稿件统计系统,其特征在于,
所述稿件归纳信息包括:稿件所属栏目编号、稿件编号和稿件点击量;
所述统计参数信息包括:统计栏目编号、统计开始时间和统计结束时间;
所述稿件统计信息包括:在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件数量,和在所述统计开始时间和所述统计结束时间之内的与所述统计栏目编号对应的统计稿件点击量。
CN201510275573.XA 2015-05-26 2015-05-26 稿件统计方法和稿件统计系统 Pending CN106294427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510275573.XA CN106294427A (zh) 2015-05-26 2015-05-26 稿件统计方法和稿件统计系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510275573.XA CN106294427A (zh) 2015-05-26 2015-05-26 稿件统计方法和稿件统计系统

Publications (1)

Publication Number Publication Date
CN106294427A true CN106294427A (zh) 2017-01-04

Family

ID=57634841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510275573.XA Pending CN106294427A (zh) 2015-05-26 2015-05-26 稿件统计方法和稿件统计系统

Country Status (1)

Country Link
CN (1) CN106294427A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159592A (zh) * 2007-08-10 2008-04-09 北大方正集团有限公司 互联网数据信息点击量的统计方法和装置
CN102323942A (zh) * 2011-09-01 2012-01-18 北京中创信测科技股份有限公司 一种统计查询方法
CN102446117A (zh) * 2011-09-06 2012-05-09 北京数码大方科技有限公司 多线程数据的保存方法及装置
CN102509251A (zh) * 2011-09-27 2012-06-20 宇龙计算机通信科技(深圳)有限公司 数据统计的方法及装置
CN103345527A (zh) * 2013-07-23 2013-10-09 深圳市博瑞得科技有限公司 数据智能统计系统
CN103500170A (zh) * 2013-09-02 2014-01-08 上海淼云文化传播有限公司 一种报表生成方法及系统
CN104182438A (zh) * 2014-02-25 2014-12-03 无锡天脉聚源传媒科技有限公司 一种消息的统计方法及装置
CN104252532A (zh) * 2014-09-11 2014-12-31 北京优特捷信息技术有限公司 一种统计网站信息的方法及装置
CN104317820A (zh) * 2014-09-28 2015-01-28 网神信息技术(北京)股份有限公司 报表的统计方法和装置
CN104462121A (zh) * 2013-09-18 2015-03-25 腾讯科技(深圳)有限公司 数据处理方法、装置及系统
CN104504077A (zh) * 2014-12-22 2015-04-08 北京国双科技有限公司 网页访问数据的统计方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159592A (zh) * 2007-08-10 2008-04-09 北大方正集团有限公司 互联网数据信息点击量的统计方法和装置
CN102323942A (zh) * 2011-09-01 2012-01-18 北京中创信测科技股份有限公司 一种统计查询方法
CN102446117A (zh) * 2011-09-06 2012-05-09 北京数码大方科技有限公司 多线程数据的保存方法及装置
CN102509251A (zh) * 2011-09-27 2012-06-20 宇龙计算机通信科技(深圳)有限公司 数据统计的方法及装置
CN103345527A (zh) * 2013-07-23 2013-10-09 深圳市博瑞得科技有限公司 数据智能统计系统
CN103500170A (zh) * 2013-09-02 2014-01-08 上海淼云文化传播有限公司 一种报表生成方法及系统
CN104462121A (zh) * 2013-09-18 2015-03-25 腾讯科技(深圳)有限公司 数据处理方法、装置及系统
CN104182438A (zh) * 2014-02-25 2014-12-03 无锡天脉聚源传媒科技有限公司 一种消息的统计方法及装置
CN104252532A (zh) * 2014-09-11 2014-12-31 北京优特捷信息技术有限公司 一种统计网站信息的方法及装置
CN104317820A (zh) * 2014-09-28 2015-01-28 网神信息技术(北京)股份有限公司 报表的统计方法和装置
CN104504077A (zh) * 2014-12-22 2015-04-08 北京国双科技有限公司 网页访问数据的统计方法和装置

Similar Documents

Publication Publication Date Title
CN105900064B (zh) 调度数据流任务的方法和装置
CN105320690B (zh) 一种基于元数据的统计表单快速生成方法及系统
CN105791447B (zh) 一种面向视频服务的云资源调度方法及装置
CN103139287B (zh) 一种基于分布式计算的地图聚合车辆刷新方法
CN109597685A (zh) 任务分配方法、装置和服务器
EP2453357A3 (en) Event-based orchestration in distributed order orchestration system
CN104778185B (zh) 异常结构化查询语言sql语句确定方法及服务器
CN103324566A (zh) 一种网页产品多版本测试方法及装置
CN103336771B (zh) 基于滑动窗口的数据相似检测方法
CN104951509A (zh) 一种大数据在线交互式查询方法及系统
CN103810223A (zh) 一种基于数据分组的内存数据组织查询方法
CN110163455A (zh) 一种直播间综合评价方法、存储介质、设备及系统
CN102081624B (zh) 一种数据查询的方法及装置
CN111768174A (zh) 一种活动管理方法、装置、设备及介质
CN108520329A (zh) 基于经纪人画像的二手房客户精准自动分配方法及装置
CN109885384B (zh) 任务并行度优化方法、装置、计算机设备及存储介质
CN102385576A (zh) 博主影响力计算方法及系统
CN102521413B (zh) 基于网络报表的取数装置和方法
CN111126779B (zh) 客服工单派发方法及装置
CN106294427A (zh) 稿件统计方法和稿件统计系统
CN107818519A (zh) 一种分时序省级土地利用数据处理方法及系统
CN103354506A (zh) 一种物联网业务架构以及业务组合方法
CN109660623A (zh) 一种云服务资源的分配方法、装置和计算机可读存储介质
CN112003900B (zh) 实现分布式系统中高负载场景下服务高可用的方法、系统
CN108647939A (zh) 一种农作业供需服务系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104