CN104572648B - 一种基于高性能计算的存储统计系统及方法 - Google Patents
一种基于高性能计算的存储统计系统及方法 Download PDFInfo
- Publication number
- CN104572648B CN104572648B CN201310473958.8A CN201310473958A CN104572648B CN 104572648 B CN104572648 B CN 104572648B CN 201310473958 A CN201310473958 A CN 201310473958A CN 104572648 B CN104572648 B CN 104572648B
- Authority
- CN
- China
- Prior art keywords
- calculate node
- subfile
- file
- module
- absolute path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于高性能计算的存储统计系统及方法,属于信息技术领域。本系统包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;所述调度模块将子文件调度到计算节点上;在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于高性能计算的存储统计系统及方法,用于高性能存储中用户使用情况的统计。
背景技术
从1960年代开始,计算机技术即被应用于石油地球物理勘探。40多年来,几乎所有油气公司、地球物理服务公司、石油地球物理研究机构都建立了用于地震勘探数据处理与分析的计算中心。随着计算机性能得不断提高,磁盘存储的性能和容量也在不断的加大,因此系统管理人员在对磁盘存储的用户使用统计时,耗时太长。
shell是一种具备特殊功能的程序,它是介于使用者和UNIX/Linux操作系统之核心程序(kernel)间的一个接口。上述技术已比较成熟,可直接用于本发明。可通过程序在半个小时之内统计完PB级(1000TB容量以上)存储的用户使用情况,例如每套存储中每个用户所使用容量,每个用户总共使用的容量等。
但是,现有技术存在的问题是:需要系统管理员干预选择程序运行节点,程序还未实现自主选择节点。
发明内容
本发明的目的在于解决上述现有技术中存在的难题,提供一种基于高性能计算的存储统计系统及方法,缩短高性能存储的用户使用统计时间,提高系统管理员的工作效率。
本发明是通过以下技术方案实现的:
一种基于高性能计算的存储统计系统,包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;
所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;
所述调度模块将子文件调度到计算节点上;
在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;
在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息。
所述详细信息包括与绝对路径相对应的文件的所属用户、所属组、文件的创建时间、文件的大小和文件的权限。
所述调度模块将子文件调度到计算节点上的同时对该计算节点进行加锁,直到被计算的子文件在该计算节点上的运算结束后,调度模块才对该计算节点进行解锁。
一种基于高性能计算的存储统计方法,包括:
(1)在指定存储中进行扫描,检索目录树第三层的所有文件和目录,将其记录到结果文件(即find文件)中;
(2)对结果文件进行切割,形成N个子文件;
(3)将子文件调度到计算节点上进行运算。
所述步骤(3)包括:
(31)将子文件分发到计算节点上;
(32)判断该计算节点的锁是否存在,如果是,则返回步骤(31);如果否,则转入步骤(33);
(33)给该计算节点加锁;
(34)建立列表,记录该子文件和该计算节点的对应关系;
(35)计算节点根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小,然后计算与该绝对路径相对应的文件的详细信息,得到统计结果;
(36)对该计算节点进行解锁。
与现有技术相比,本发明的有益效果是:实现了半个小时之内统计完1.5P的存储使用情况,而且统计时间并没有随存储容量的增加而增加,也可以将不同厂商的存储一起统计。
附图说明
图1hostfile表。
图2程序运行日志。
图3用户使用存储统计信息。
图4本发明方法的步骤框图。
图5本发明中调度模块的工作原理图。
图6本发明系统的结构图。
具体实施方式
下面结合附图对本发明作进一步详细描述:
如图4所示,本发明主要是提供一种方法来进行高性能存储的统计,将并行计算的思想移植到统计算法上(利用并行计算的思想,使用调度模块将一个大文件平均分成若干小文件后,分发到不同的计算单元进行计算。),将符合条件的文件路径搜索出来,统一到索引文件中(创建一个索引文件),将检索出的路径记录到里面,并利用调度模块,将索引文件切割分发(按照参数平均分成若干份)到并行节点中进行计算统计(通过size模块计算文件大小,通过info模块统计文件的详细信息)。
如图6所示,本发明的系统包括四个模块:路径检索模块(简称为find模块)、存储空间计算模块(简称为size模块)、信息计算模块(简称为info模块)和调度模块。
find模块:利用linux中的find命令搜索,在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到文件find中。扫描结束后,按照设定的参数将文件find平均分成若干份,形成若干文件fx(f1、f2、f3等)。
size模块:利用linux中的du命令,根据文件fx中提供的绝对路径,计算与绝对路径相对应的文件所占存储空间的大小。
info模块:利用linux中的1s、awk、sed等工具,根据文件fx中提供的绝对路径,计算与绝对路径相对应的文件的详细信息,比如文件的所属用户,文件的所属组等。
程序是在共享存储上,也可以看成每个计算节点上都有这两个计算模块。
调度模块:将若干文件fx调度到计算节点上进行size模块的运算和info模块的运算。将f1调度到sghpdw002节点上进行运算,同时建立锁文件,不允许调度系统将别的fx文件发送到sghpdw002上进行运算,直到f1在sghpdw002上运算结束,解锁后,调度模块发现该节点被解锁后,调度模块才会将别的fx文件发送到sghpdw002上进行运算。调度模块的工作流程如图5所示。
本发明需要将一个大文件,按照设定的参数(在find模块中设定,系统管理员根据经验以及不断的调试设定,确定每个子文件所含路径大概在多少范围内,程序运行效率最高)切割成若干小文件,然后通过调度模块将小文件分发到各个节点(计算单元)上进行运算。总共可以在哪些节点上做运算是需要管理员手动编辑hostfile表,如图1所示,调度模块只能在hostfile表的范围内进行调度。图2显示的是程序的运行时间,存储统计时间为29分40秒,图3是最终的显示界面,展示统计的结果。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
Claims (3)
1.一种基于高性能计算的存储统计系统,其特征在于:所述系统包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;
所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;
所述调度模块将子文件调度到计算节点上;
在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;
在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息;
其中,所述调度模块将子文件调度到计算节点上的同时对该计算节点进行加锁,直到被计算的子文件在该计算节点上的运算结束后,调度模块才对该计算节点进行解锁。
2.根据权利要求1所述的基于高性能计算的存储统计系统,其特征在于:所述详细信息包括与绝对路径相对应的文件的所属用户、所属组、文件的创建时间、文件的大小和文件的权限。
3.一种基于高性能计算的存储统计方法,其特征在于:所述方法包括:
(1)在指定存储中进行扫描,检索目录树第三层的所有文件和目录,将其记录到结果文件中;
(2)对结果文件进行切割,形成N个子文件;
(3)将子文件调度到计算节点上进行运算;
其中,所述步骤(3)包括:
(31)将子文件分发到计算节点上;
(32)判断该计算节点的锁是否存在,如果是,则返回步骤(31);如果否,则转入步骤(33);
(33)给该计算节点加锁;
(34)建立列表,记录该子文件和该计算节点的对应关系;
(35)计算节点根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小,然后计算与该绝对路径相对应的文件的详细信息,得到统计结果;
(36)对该计算节点进行解锁。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310473958.8A CN104572648B (zh) | 2013-10-11 | 2013-10-11 | 一种基于高性能计算的存储统计系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310473958.8A CN104572648B (zh) | 2013-10-11 | 2013-10-11 | 一种基于高性能计算的存储统计系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572648A CN104572648A (zh) | 2015-04-29 |
CN104572648B true CN104572648B (zh) | 2018-01-16 |
Family
ID=53088750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310473958.8A Active CN104572648B (zh) | 2013-10-11 | 2013-10-11 | 一种基于高性能计算的存储统计系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572648B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844459A (zh) * | 2016-09-20 | 2018-03-27 | 中国石油化工股份有限公司 | 统计分析方法及装置 |
CN108038425A (zh) * | 2017-11-28 | 2018-05-15 | 无锡十月中宸科技有限公司 | 一种模式识别索引系统及其索引方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101795211A (zh) * | 2010-01-13 | 2010-08-04 | 北京中创信测科技股份有限公司 | 一种数据存储方法及系统 |
CN102129394A (zh) * | 2010-01-14 | 2011-07-20 | 优必达科技有限公司 | 分布式计算方法及系统 |
CN102855284A (zh) * | 2012-08-03 | 2013-01-02 | 北京联创信安科技有限公司 | 一种集群存储系统的数据管理方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195705B2 (en) * | 2001-12-11 | 2012-06-05 | International Business Machines Corporation | Hybrid search memory for network processor and computer systems |
JP2010097359A (ja) * | 2008-10-15 | 2010-04-30 | Hitachi Ltd | ファイル管理方法および階層管理ファイルシステム |
-
2013
- 2013-10-11 CN CN201310473958.8A patent/CN104572648B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101795211A (zh) * | 2010-01-13 | 2010-08-04 | 北京中创信测科技股份有限公司 | 一种数据存储方法及系统 |
CN102129394A (zh) * | 2010-01-14 | 2011-07-20 | 优必达科技有限公司 | 分布式计算方法及系统 |
CN102855284A (zh) * | 2012-08-03 | 2013-01-02 | 北京联创信安科技有限公司 | 一种集群存储系统的数据管理方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于WEB模式的存储统计监控系统;姜游 等;《计算机系统应用》;20120630;第21卷(第6期);136-139 * |
高性能计算机在石油勘探开发领域的应用;郭江;《当代石油石化》;20050831;第13卷(第8期);30-32 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572648A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183735A (zh) | 数据的查询方法及查询装置 | |
CN111159180A (zh) | 一种基于数据资源目录构建的数据处理方法及系统 | |
CN109446230A (zh) | 一种光伏发电影响因素的大数据分析系统及方法 | |
CN106534784A (zh) | 一种用于视频分析数据结果集的采集分析存储统计系统 | |
CN104219088A (zh) | 一种基于Hive的网络告警信息OLAP方法 | |
Mohamed et al. | A review on big data management and decision-making in smart grid | |
Singh et al. | Spatial data analysis with ArcGIS and MapReduce | |
CN103365923B (zh) | 用于评估数据库的分区方案的方法和装置 | |
CN104462349B (zh) | 一种文件处理方法及装置 | |
CN115640300A (zh) | 一种大数据管理方法、系统、电子设备和存储介质 | |
Yin et al. | An industrial dynamic skyline based similarity joins for multidimensional big data applications | |
CN110134646A (zh) | 知识平台服务数据存储与集成方法及系统 | |
CN104572648B (zh) | 一种基于高性能计算的存储统计系统及方法 | |
CN116680090B (zh) | 一种基于大数据的边缘计算网络管理方法及平台 | |
Priyanka et al. | Fundamentals of wireless sensor networks using machine learning approaches: Advancement in big data analysis using Hadoop for oil pipeline system with scheduling algorithm | |
Shen et al. | Meteorological sensor data storage mechanism based on timescaledb and kafka | |
CN117609341A (zh) | 一种电网的数字孪生系统 | |
Wadhera et al. | A systematic Review of Big data tools and application for developments | |
Punn et al. | Testing big data application | |
Savant et al. | Hadoop based weblog analysis: a review | |
Yang et al. | Research on Cloud-Based Mass Log Data Management Mechanism. | |
Lisowski et al. | Tools for the Storage and Analysis of Spatial Big Data | |
Wang | Research on the design of large data storage structure of database based on Data Mining | |
Zhu et al. | Research and Implementation of Geography Information Query System Based on Hbase | |
Prasad et al. | A novel study on big data: Issues, Challenges, Tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |