CN107844459A - 统计分析方法及装置 - Google Patents

统计分析方法及装置 Download PDF

Info

Publication number
CN107844459A
CN107844459A CN201610835256.3A CN201610835256A CN107844459A CN 107844459 A CN107844459 A CN 107844459A CN 201610835256 A CN201610835256 A CN 201610835256A CN 107844459 A CN107844459 A CN 107844459A
Authority
CN
China
Prior art keywords
result
calculation
user
packet
calculate node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610835256.3A
Other languages
English (en)
Inventor
葛鑫
王胜春
路曜宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Sinopec Geophysical Research Institute
Original Assignee
China Petroleum and Chemical Corp
Sinopec Geophysical Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Sinopec Geophysical Research Institute filed Critical China Petroleum and Chemical Corp
Priority to CN201610835256.3A priority Critical patent/CN107844459A/zh
Publication of CN107844459A publication Critical patent/CN107844459A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种统计分析方法及装置,其中方法包括:对指定存储位置进行扫描,以获取扫描结果;对扫描结果进行划分,以获取一个或多个分组;对各分组进行调度,以为每个分组分配计算节点;利用计算节点对分组进行计算,以获取计算结果;对计算结果进行统计,以获得统计结果。本发明提供的统计分析方法及装置,统计效率高,且大大节省了人力,能够快速的给用户提供有效的数据报表,从而监控数据中心的存储资源使用情况,来为用户决策提供参考。

Description

统计分析方法及装置
技术领域
本发明涉及信息统计领域,尤其涉及一种统计分析方法及装置。
背景技术
从1960年代开始,计算机技术即被应用于石油地球物理勘探。40多年来,几乎所有油气公司、地球物理服务公司、石油地球物理研究机构都建立了用于地震勘探数据处理与分析的数据中心。在从事地球物理领域的科研生产中,会产生大量的地震勘探数据,这些数据无规则的存放在各个存储中,无法使用关系型数据库进行管理,并且这些数据量也在不断扩大,目前总量已超过5PB(5000TB)。
系统管理员需要对这些数据进行详细的统计分析,通过统计分析来监控数据中心的资源使用情况,来提供给决策者资源使用报表。随着地震数据的不断加大,存储空间的也不断的扩容,给系统管理人员在数据的统计分析上增加了困难,获得统计结果往往需要耗费大量的人力,导致统计效率低下。
发明内容
本发明提供一种统计分析方法及装置,用于解决现有技术中随着数据不断增加导致统计效率低下的技术问题。
本发明一方面提供一种统计分析方法,包括:
扫描步骤,对指定存储位置进行扫描,以获取扫描结果,其中,扫描结果包括一个或多个文件;
划分步骤,对扫描结果进行划分,以获取一个或多个分组;
调度步骤,对各分组进行调度,以为每个分组分配计算节点;
计算步骤,利用计算节点对分组进行计算,以获取计算结果;
统计步骤,对计算结果进行统计,以获得统计结果。
进一步的,调度步骤具体包括:
判断计算节点的状态是否为空,若是,将分组根据预设算法分配到计算节点上,同时标记该计算节点的状态为满。
进一步的,计算步骤具体包括:
利用计算节点对分组中的文件按照用户进行分类,以获得第一用户分组;
对第一用户分组中各文件进行计算,以获得计算结果,其中,计算结果包括第一用户分组中各文件的存储总量。
进一步的,统计步骤具体包括:
获取各计算节点的计算结果,并对计算结果按照用户进行分组,以获得第二用户分组;
对第二用户分组中的各计算结果进行统计,以获得各用户的文件存储情况的统计结果。
进一步的,计算结果还包括文件的详细信息,其中,详细信息包括用户名、权限、创建时间、最后修改时间和存储大小。
本发明另一方面提供一种统计分析装置,包括:
扫描模块,用于对指定存储位置进行扫描,以获取扫描结果,其中,扫描结果包括一个或多个文件;
划分模块,用于对扫描结果进行划分,以获取一个或多个分组;
调度模块,用于对各分组进行调度,以为每个分组分配计算节点;
计算模块,用于利用计算节点对分组进行计算,以获取计算结果;
统计模块,用于对计算结果进行统计,以获得统计结果。
进一步的,调度模块具体包括:
判断子模块,用于判断计算节点的状态是否为空,若是,触发分配子模块;
分配子模块,用于将分组根据预设算法分配到计算节点上,同时标记计算节点的状态为满。
进一步的,计算模块具体包括:
第一分组子模块,用于利用计算节点对分组中的文件按照用户进行分类,以获得第一用户分组;
计算结果获取子模块,用于对第一用户分组中各文件进行计算,以获得计算结果,其中,计算结果包括第一用户分组中各文件的存储总量。
进一步的,统计模块具体包括:
第二分组子模块,用于获取各计算节点的计算结果,并对计算结果按照用户进行分组,以获得第二用户分组;
统计结果获取子模块,用于对第二用户分组中的各计算结果进行统计,以获得各用户的文件存储情况的统计结果。
进一步的,计算结果还包括文件的详细信息,其中,详细信息包括用户名、权限、创建时间、最后修改时间和存储大小。
本发明提供的统计分析方法及装置,统计效率高,且大大节省了人力,能够快速的给用户提供有效的数据报表,从而监控数据中心的存储资源使用情况,来为用户决策提供参考。
附图说明
在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中:
图1为本发明实施例一提供的统计分析方法的流程示意图;
图2为本发明实施例二提供的统计分析方法的流程示意图;
图3为本发明实施例三提供的统计分析装置的结构示意图;
图4为本发明实施例四提供的统计分析装置的结构示意图。
在附图中,相同的部件使用相同的附图标记。附图并未按照实际的比例绘制。
具体实施方式
下面将结合附图对本发明作进一步说明。
实施例一
本实施例用于地球物理领域的地震勘探数据的统计,当然对于其他领域的数据统计也可使用本方法。由于存储地震勘探数据的数据中心往往有多套存储设备,对于每一套存储设备,均可使用本实施例中的方法进行数据统计分析。
图1为本发明实施例一提供的统计分析方法的流程示意图;如图1所示,本实施例提供一种统计分析方法,包括步骤101至步骤105。
步骤101,对指定存储位置进行扫描,以获取扫描结果,其中,扫描结果包括一个或多个文件。
具体的,指定存储位置可定位到文件夹也可定位到具体的文件,通过对指定存储位置进行扫描,以将指定位置的所有文件扫描一遍,从而获得扫描结果,扫描结果包括扫描到的所有文件的列表。
步骤102,对扫描结果进行划分,以获取一个或多个分组。
对扫描结果进行划分,如可将扫描出来的所有文件的列表按照每1000个依次进行划分,以获得一个或多个分组,即每个分组包括1000个文件,最后一个分组可能不足1000个文件。每个分组中的文件数量可以相等也可以不等。
步骤103,对各分组进行调度,以为每个分组分配计算节点。
为每个分组分配计算节点,如计算节点有100个,分组有130个,那么可以为前100个分组依次分配这100个计算节点,对于后30个分组的分配,可在某个计算节点处理完毕分配的分组之后,再次分配未处理的分组,即计算节点依照先处理完毕先分配分组的方式,当然也可以按照其他的方式对分组进行计算节点的分配。
步骤104,利用计算节点对分组进行计算,以获取计算结果。结算节点分配到分组之后,对分组进行计算,计算包括获取分组中各文件的存储容量,统计各文件的文件信息等。
步骤105,对计算结果进行统计,以获得统计结果。
计算节点完成计算之后,获得计算结果,计算结果包括文件的存储容量和文件信息等,在本步骤中,需要对同一个用户的文件的存储容量和文件信息进行统计,以便获得该用户的数据存储使用情况。
本实施例提供的统计分析方法,通过对指定存储位置进行扫描,再对扫描结果进行分组,然后为每个分组分配计算节点进行计算,最后对获得的计算结果进行统计,以获得用户在指定存储位置的数据存储使用情况,本实施例提供的方法能够快速的给用户提供有效的数据报表。
实施例二
本实施例是在上述实施例的基础上进行的补充说明。
图2为本发明实施例二提供的统计分析方法的流程示意图;如图2所示,本实施例提供一种统计分析方法,包括步骤201至步骤2052。
步骤201,对指定存储位置进行扫描,以获取扫描结果,其中,扫描结果包括一个或多个文件。
步骤202,对扫描结果进行划分,以获取一个或多个分组。
步骤201-步骤202具体可参考实施例一中的步骤101-步骤102,在此不再赘述。
步骤2031,为分组分配计算节点。
步骤2032,判断计算节点的状态是否为空,若是,转步骤2033执行,若否,转步骤2031执行。
步骤2033,将分组根据预设算法分配到计算节点上,同时标记该计算节点的状态为满。
预设算法可根据实际情况进行设置,如可设置为空闲的计算节点优先分配分组,或者处理能力强的计算节点优先分配分组,当给计算节点分配到分组之后,需要标记该计算节点的状态,以标记该计算节点有任务在处理,无法再接受新的分组。当计算节点对分配的分组计算完毕后,还需要标记该计算节点的状态为空,以便分配新的分组到该计算节点。
步骤2041,利用计算节点对分组中的文件按照用户进行分类,以获得第一用户分组。
具体的,分组中可能包括多个用户的文件,因此,为了对同一用户的文件进行统计分析,需要对文件进行分组,以使分组中相同用户的文件分在同一组,即第一用户分组。
步骤2042,对第一用户分组中各文件进行计算,以获得计算结果,其中,计算结果包括第一用户分组中各文件的存储总量。
对第一用户分组中的各文件进行计算,如计算各文件的存储总量,进一步的,计算结果还包括文件的详细信息,其中,详细信息包括用户名、权限、创建时间、最后修改时间和存储大小。即计算节点还需要对第一用户分组中的各文件的详细信息进行统计,以供后续用户制作数据报表使用。
步骤2051,获取各计算节点的计算结果,并对计算结果按照用户进行分组,以获得第二用户分组。
当所有分组均被计算节点计算完成之后,将各计算结果进行汇总,再次按照用户进行分组,将计算结果中所有相同的用户分为一组,即第二用户分组。
步骤2052,对第二用户分组中的各计算结果进行统计,以获得各用户的文件存储情况的统计结果。
通过对第二用户分组中的计算结果进行统计,可获得用户在该指定存储下的文件存储情况,如用户的文件存储总量,各文件的详细信息等,并根据该统计结果制作成数据报表,以后用户对数据进行分析研究,作出相应决策。
实施例三
本实施例为装置实施例,用于执行上述实施例一中的方法。
图3为本发明实施例三提供的统计分析装置的结构示意图;如图3所示,本实施例提供一种统计分析装置,包括顺次连接的扫描模块301、划分模块302、调度模块303、计算模块304和统计模块305。
其中,扫描模块301,用于对指定存储位置进行扫描,以获取扫描结果,其中,扫描结果包括一个或多个文件;
划分模块302,用于对扫描结果进行划分,以获取一个或多个分组;
调度模块303,用于对各分组进行调度,以为每个分组分配计算节点;
计算模块304,用于利用计算节点对分组进行计算,以获取计算结果;
统计模块305,用于对计算结果进行统计,以获得统计结果
本实施例是与方法实施例一对应的装置实施例,具体可参见实施例一中的描述,在此不再赘述。
实施例四
本实施例是在实施例三的基础上进行的补充说明,用于执行上述实施例二中的方法。
图4为本发明实施例四提供的统计分析装置的结构示意图;如图4所示,本实施例提供一种统计分析装置,其中,调度模块303具体包括彼此连接的第一分配子模块3031、判断子模块3032和第二分配子模块3033。
其中,第一分配子模块3031,用于为分组分配计算节点。
判断子模块3031,用于判断计算节点的状态是否为空,若是,触发第二分配子模块3033,若否,触发第一分配子模块3031;
分配子模块3033,用于将分组根据预设算法分配到计算节点上,同时标记该计算节点的状态为满。
进一步的,计算模块304具体包括彼此连接的第一分组子模块3041和计算结果获取子模块3042。
其中,第一分组子模块3041,用于利用计算节点对分组中的文件按照用户进行分类,以获得第一用户分组;
计算结果获取子模块3042,用于对第一用户分组中各文件进行计算,以获得计算结果,其中,计算结果包括第一用户分组中各文件的存储总量。
进一步的,统计模块305具体包括彼此连接的第二分组子模块3051和统计结果获取子模块3052。
其中,第二分组子模块3051,用于获取各计算节点的计算结果,并对计算结果按照用户进行分组,以获得第二用户分组;
统计结果获取子模块3052,用于对第二用户分组中的各计算结果进行统计,以获得各用户的文件存储情况的统计结果。
进一步的,计算结果还包括文件的详细信息,其中,详细信息包括用户名、权限、创建时间、最后修改时间和存储大小。
本实施例是与方法实施例二对应的装置实施例,具体可参见实施例二中的描述,在此不再赘述。
虽然已经参考优选实施例对本发明进行了描述,但在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

Claims (10)

1.一种统计分析方法,其特征在于,包括:
扫描步骤,对指定存储位置进行扫描,以获取扫描结果,其中,所述扫描结果包括一个或多个文件;
划分步骤,对所述扫描结果进行划分,以获取一个或多个分组;
调度步骤,对各所述分组进行调度,以为每个所述分组分配计算节点;
计算步骤,利用所述计算节点对所述分组进行计算,以获取计算结果;
统计步骤,对所述计算结果进行统计,以获得统计结果。
2.根据权利要求1所述的统计分析方法,其特征在于,所述调度步骤具体包括:
判断所述计算节点的状态是否为空,若是,将所述分组根据预设算法分配到所述计算节点上,同时标记所述计算节点的状态为满。
3.根据权利要求2所述的统计分析方法,其特征在于,所述计算步骤具体包括:
利用所述计算节点对所述分组中的所述文件按照用户进行分类,以获得第一用户分组;
对所述第一用户分组中各所述文件进行计算,以获得所述计算结果,其中,所述计算结果包括所述第一用户分组中各所述文件的存储总量。
4.根据权利要求3所述的统计分析方法,其特征在于,所述统计步骤具体包括:
获取各所述计算节点的所述计算结果,并对所述计算结果按照用户进行分组,以获得第二用户分组;
对所述第二用户分组中的各所述计算结果进行统计,以获得各用户的文件存储情况的统计结果。
5.根据权利要求3所述的统计分析方法,其特征在于,所述计算结果还包括所述文件的详细信息,其中,所述详细信息包括用户名、权限、创建时间、最后修改时间和存储大小。
6.一种统计分析装置,其特征在于,包括:
扫描模块,用于对指定存储位置进行扫描,以获取扫描结果,其中,所述扫描结果包括一个或多个文件;
划分模块,用于对所述扫描结果进行划分,以获取一个或多个分组;
调度模块,用于对各所述分组进行调度,以为每个所述分组分配计算节点;
计算模块,用于利用所述计算节点对所述分组进行计算,以获取所述计算结果;
统计模块,用于对所述计算结果进行统计,以获得统计结果。
7.根据权利要求6所述的统计分析装置,其特征在于,所述调度模块具体包括:
判断子模块,用于判断所述计算节点的状态是否为空,若是,触发分配子模块;
分配子模块,用于将所述分组根据预设算法分配到所述计算节点上,同时标记所述计算节点的状态为满。
8.根据权利要求7所述的统计分析装置,其特征在于,所述计算模块具体包括:
第一分组子模块,用于利用所述计算节点对分组中的所述文件按照用户进行分类,以获得第一用户分组;
计算结果获取子模块,用于对所述第一用户分组中各所述文件进行计算,以获得计算结果,其中,所述计算结果包括第一用户分组中各文件的存储总量。
9.根据权利要求8所述的统计分析装置,其特征在于,所述统计模块具体包括:
第二分组子模块,用于获取各所述计算节点的计算结果,并对所述计算结果按照用户进行分组,以获得第二用户分组;
统计结果获取子模块,用于对所述第二用户分组中的各所述计算结果进行统计,以获得各用户的文件存储情况的统计结果。
10.根据权利要求8所述的统计分析装置,其特征在于,所述计算结果还包括文件的详细信息,其中,所述详细信息包括用户名、权限、创建时间、最后修改时间和存储大小。
CN201610835256.3A 2016-09-20 2016-09-20 统计分析方法及装置 Pending CN107844459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610835256.3A CN107844459A (zh) 2016-09-20 2016-09-20 统计分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610835256.3A CN107844459A (zh) 2016-09-20 2016-09-20 统计分析方法及装置

Publications (1)

Publication Number Publication Date
CN107844459A true CN107844459A (zh) 2018-03-27

Family

ID=61656674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610835256.3A Pending CN107844459A (zh) 2016-09-20 2016-09-20 统计分析方法及装置

Country Status (1)

Country Link
CN (1) CN107844459A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399821A (zh) * 2007-09-28 2009-04-01 国际商业机器公司 记录/重放系统、记录器/播放器、和方法
CN104572648A (zh) * 2013-10-11 2015-04-29 中国石油化工股份有限公司 一种基于高性能计算的存储统计系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399821A (zh) * 2007-09-28 2009-04-01 国际商业机器公司 记录/重放系统、记录器/播放器、和方法
CN104572648A (zh) * 2013-10-11 2015-04-29 中国石油化工股份有限公司 一种基于高性能计算的存储统计系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
九天科技: "《新手学电脑从入门到精通视频教学版》", 31 October 2013 *
王维新 等: "《人大代表手册》", 31 December 1989 *

Similar Documents

Publication Publication Date Title
Cordeau et al. A tabu search heuristic for periodic and multi‐depot vehicle routing problems
CN105630847B (zh) 数据存储方法、数据查询方法、装置及系统
WO2020211300A1 (zh) 资源分配方法、装置、计算机设备和存储介质
CN104731647B (zh) 任务处理方法及系统
CN107103025A (zh) 一种数据处理方法及数据处理平台
CN113010576A (zh) 云计算系统容量评估的方法、装置、设备和存储介质
CN110209348A (zh) 数据存储方法、装置、电子设备及存储介质
CN106250303A (zh) 业务日志收集及预警系统和业务日志收集及预警方法
CN111507479A (zh) 特征分箱方法、装置、设备及计算机可读存储介质
CN108900434A (zh) 数据收集分发方法及装置
CN106790482A (zh) 资源调度方法及资源调度系统
CN104317942A (zh) 一种基于Hadoop云平台的海量数据比对方法及系统
CN107832109A (zh) 一种应用图标排序方法和装置
CN103778203B (zh) 一种网络管理数据无损压缩存储与检索的方法与系统
CN106982441A (zh) 一种小区扩容的确定方法及装置
CN107423336A (zh) 一种数据处理方法、装置及计算机存储介质
CN114357085A (zh) 基于区块链的财务数据存储方法、装置及存储介质
CN107844459A (zh) 统计分析方法及装置
CN106789147A (zh) 一种流量分析方法及装置
Gavish Optimization models for configuring distributed computer systems
CN105187490B (zh) 一种物联网数据的中转处理方法
CN106326400A (zh) 基于多维数据集的数据处理系统
CN111680046B (zh) 用于高频电力数据的快速存储方法
CN107179959A (zh) 一种预测计算机运行故障的方法、装置和一种存储介质
CN110276508A (zh) 用于分配任务信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180327