CN108446352A

CN108446352A - 一种处理海量数据的方法以及系统

Info

Publication number: CN108446352A
Application number: CN201810194422.5A
Authority: CN
Inventors: 王立; 雷雨林
Original assignee: SHENZHEN ONETOUCH CO Ltd
Current assignee: SHENZHEN ONETOUCH CO Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-08-24

Abstract

本发明公开了一种处理海量数据的方法以及系统，方法包括：利用多个主机组建电脑集群，将需处理的数据文件存储在集群中控制台的共享的硬盘区域上；控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件；其他主机根据所述命令文件处理接收到的待处理的数据文件，本发明利用组建的电脑集群处理共同分担处理需要处理的数据文件，且基于操作系统自带的批处理语言，不需要额外开发其他的工具及系统，就可以简单快速的组建电脑集群，建立数据文件处理任务，整个方案架构简单，成本低。

Description

一种处理海量数据的方法以及系统

技术领域

本发明涉及通信领域，尤其涉及一种处理海量数据的方法以及系统。

背景技术

对于4/5移动通信网络的测量报告数据，移动通信设备商通常以xml文件存储保存。由于移动通信网络小区(移动通信网络基本通信单元)数量众多，移动通信设备商通常以小区为基本单位，建立测量报告xml文件，并且测量报告数据量巨大，所以，测量报告数据的处理的工作量非常巨大。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述数据处理缺陷，提供一种处理海量数据的方法以及系统。

本发明解决其技术问题所采用的技术方案是：构造一种处理海量数据的方法，方法包括：

利用多个主机组建电脑集群，将需处理的数据文件存储在集群中控制台的共享的硬盘区域上；

控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件；

其他主机根据所述命令文件处理接收到的待处理的数据文件。

在本发明所述的处理海量数据的方法中，所述的利用多个主机组建电脑集群，将需处理的数据文件存储在集群中控制台的共享的硬盘区域上，包括：

在进行数据处理之前，搭建局域网络，将用于组建电脑集群的主机安装windows操作系统，并配置所有的主机使其连接到所述局域网络；

将其中一台主机配置为控制台，并选择控制台的一块硬盘区域设置为共享；

配置其余的主机，使其可以访问控制台上的共享的硬盘区域；

将需处理的数据文件存储在控制台的共享的硬盘区域上。

在本发明所述的处理海量数据的方法中，所述的控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件，包括：

控制台使用批处理语言，遍历共享的硬盘区域上的待处理的数据文件的存储目录，得到待处理的数据文件的文件名；

根据所述存储目录的结构，以及遍历得到的待处理的数据文件的文件名，建立文件索引列表文件；

控制台对所述局域网络中的其他主机进行编号，并在共享的硬盘区域上，为每个主机建立对应的目录文件，并在所述目录文件中建立任务转换文件；

控制台使用批处理语言，建立任务分配任务，将共享的硬盘区域上所有待处理的数据文件的处理任务分配给所述局域网络中的其他主机，并在所述目录文件中存放相关的命令文件；

当控制台分配完所有待处理的数据文件时，在其他主机位于共享的硬盘区域上的目录文件中建立一个结束标示文件，退出任务分配任务。

在本发明所述的处理海量数据的方法中，所述的将共享的硬盘区域上所有待处理的数据文件的处理任务分配给所述局域网络中的其他主机，并在所述目录文件中存放相关的命令文件，包括：

控制台读取索引列表文件的内容，根据其中的各个待处理的数据文件的文件名及其所对应的存储目录，将各个待处理的数据文件分别依次分配给他主机处理，且在向其他主机发送数据文件之前，检查要接收数据文件的主机在共享的硬盘区域上对应的目录中，是否已经有正在执行文件；

如果没有，则生成正在执行文件，并将要运行的命令语句加入到所述正在执行文件中；如果有，则检查是否存在等待执行文件，如果存在，则将要运行的命令语句追加到所述等待执行文件中，否则生成等待执行文件，并将要运行的命令语句加入所述等待执行文件中。

在本发明所述的处理海量数据的方法中，所述的其他主机根据所述命令文件处理接收到的待处理的数据文件，包括：其他主机各自建立并启动等待任务，所述等待任务包括：

定期检查本机在共享的硬盘区域上的目录文件中是否有正在执行文件；

如果没有，则保持所述等待任务；

如果有，则运行所述正在执行文件，正在执行文件中的命令语句运行完毕后，调用任务转换文件启动任务转换任务；

在本发明所述的处理海量数据的方法中，所述任务转换任务包括：

删除正在执行文件，检查当前目录中是否有等待执行文件；

如果有，则将所述等待执行文件命名为正在执行文件，退出任务转换任务；

如果没有，则检查本机在在共享的硬盘区域上的目录文件中是否存在结束标志文件，如不存在，则保持等待任务；如存在，则退出等待任务。

在本发明所述的处理海量数据的方法中，所述数据文件为4/5移动通信网络的测量报告数据。

本发明还公开了一种处理海量数据的系统，包括多个主机组建的电脑集群，将其中一个主机作为控制台，并在控制台的共享的硬盘区域上存储需处理的数据文件；

其中，控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件；其他主机根据所述命令文件处理接收到的待处理的数据文件。

在本发明所述的处理海量数据的系统中，所述的控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件，包括：

控制台使用批处理语言，建立任务分配任务，读取索引列表文件的内容，根据其中的各个待处理的数据文件的文件名及其所对应的存储目录，将各个待处理的数据文件分别依次分配给他主机处理，且在向其他主机发送数据文件之前，检查要接收数据文件的主机在共享的硬盘区域上对应的目录中，是否已经有正在执行文件，如果没有，则生成正在执行文件，并将要运行的命令语句加入到所述正在执行文件中；如果有，则检查是否存在等待执行文件，如果存在，则将要运行的命令语句追加到所述等待执行文件中，否则生成等待执行文件，并将要运行的命令语句加入所述等待执行文件中；

在本发明所述的处理海量数据的系统中，所述的其他主机根据所述命令文件处理接收到的待处理的数据文件，包括：其他主机各自建立并启动等待任务，所述等待任务包括：

如果没有，则保持所述等待任务；

如果有，则运行所述正在执行文件，正在执行文件中的命令语句运行完毕后，调用任务转换文件启动任务转换任务，所述任务转换任务包括：删除正在执行文件，检查当前目录中是否有等待执行文件；如果有，则将所述等待执行文件命名为正在执行文件，退出任务转换任务；如果没有，则检查本机在在共享的硬盘区域上的目录文件中是否存在结束标志文件，如不存在，则保持等待任务；如存在，则退出等待任务。

实施本发明的处理海量数据的方法以及系统，具有以下有益效果：本发明利用组建的电脑集群处理共同分担处理需要处理的数据文件，且基于操作系统自带的批处理语言，不需要额外开发其他的工具及系统，就可以简单快速的组建电脑集群，建立数据文件处理任务，整个方案架构简单，成本低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1是本发明处理海量数据的方法的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

参考图1，本发明总的思路是：构建一种处理海量数据的方法，方法包括：

S101、利用多个主机组建电脑集群，将需处理的数据文件存储在集群中控制台的共享的硬盘区域上；

S102、控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件；

S103、其他主机根据所述命令文件处理接收到的待处理的数据文件。

为了更好的理解上述技术方案，下面将结合具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

较佳实施例中的处理海量数据的方法包括：

S201：在进行数据处理之前，搭建局域网络，将用于组建电脑集群的主机安装windows操作系统，并配置所有的主机使其连接到所述局域网络，保证主机之间可以通过所述局域网络互相联接；

S202：将其中一台主机配置为控制台，并选择控制台的一块硬盘区域(建议大小为2T以上)，设置为共享，使得同网络中的其他主机可以远程访问其上的数据文件；

S203：配置其余的主机，使其可以访问控制台上的共享的硬盘区域；

S204：将需处理的数据文件存储在控制台的共享的硬盘区域上。

需要说明的是，所述数据文件可以是4/5移动通信网络的测量报告数据，也可以是其他需要处理的数据文件，对此并不做限制。

S205：控制台使用批处理语言，遍历共享的硬盘区域上的待处理的数据文件的存储目录，得到待处理的数据文件的文件名；

例如，批处理语言中有tree命令，使用tree命令，在命令参数中输入要遍历的目录，就会列出指定目录下的目录树(以树状结构显示该目录下的所有文件)，即得到所有的待处理文件。另外，此过程也可手动操作为：在开始菜单输入框中输入“CMD”进入CMD窗口，在窗口中输入tree命令。

S206：根据所述存储目录的结构，以及遍历得到的待处理的数据文件的文件名，建立文件索引列表文件；

S207：控制台对所述局域网络中的其他主机进行编号(例如B1至Bn)，并在共享的硬盘区域上，为每个主机建立对应的目录文件(用于存放控制台下发给对应主机运行的批处理命令文件)，并在所述目录文件中建立任务转换文件；

S208：控制台使用批处理语言，建立任务分配任务，将共享的硬盘区域上所有待处理的数据文件的处理任务分配给所述局域网络中的其他主机，并在所述目录文件中存放相关的命令文件，具体包括：

1)控制台读取索引列表文件的内容，根据其中的各个待处理的数据文件的文件名及其所对应的存储目录，将各个待处理的数据文件分别依次分配给他主机处理，例如，将第一个文件分配给B1主机处理，分配完一个文件后，再分配下一个文件给B2主机处理，分配完一个文件后，再分配下一个文件给B3主机处理，以此类推。

2)在向其他主机发送数据文件之前，检查要接收数据文件的主机在共享的硬盘区域上对应的目录中，是否已经有正在执行文件；

如果没有，则生成正在执行文件，并将要运行的命令语句加入到所述正在执行文件中；

如果有，则检查是否存在等待执行文件，如果存在，则将要运行的命令语句追加到所述等待执行文件中，否则生成等待执行文件，并将要运行的命令语句加入所述等待执行文件中。

S209：当控制台分配完所有待处理的数据文件时，在其他主机位于共享的硬盘区域上的目录文件中建立一个结束标示文件，退出任务分配任务。

S210：其他主机各自建立并启动等待任务。

其中，所述等待任务包括：

S2101：定期检查本机在共享的硬盘区域上的目录文件中是否有正在执行文件，其中，相邻两次检查之间的间隔根据本机的实际运行速度设定。

S2102：如果没有，则保持所述等待任务；

S2103：如果有，则运行所述正在执行文件，正在执行文件中的命令语句运行完毕后，调用任务转换文件启动任务转换任务；

其中，所述任务转换任务包括：

S2104：删除正在执行文件，检查当前目录中是否有等待执行文件；

S2105：如果有，则将所述等待执行文件命名为正在执行文件，退出任务转换任务；

S2106：如果没有，则检查本机在在共享的硬盘区域上的目录文件中是否存在结束标志文件，如不存在，则保持等待任务；如存在，则退出等待任务。

基于同一发明构思，本发明还公开了一种处理海量数据的系统，包括多个主机组建的电脑集群，将其中一个主机作为控制台，并在控制台的共享的硬盘区域上存储需处理的数据文件。

其中，控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件，具体过程为：

1)控制台使用批处理语言，遍历共享的硬盘区域上的待处理的数据文件的存储目录，得到待处理的数据文件的文件名；

2)根据所述存储目录的结构，以及遍历得到的待处理的数据文件的文件名，建立文件索引列表文件；

3)控制台对所述局域网络中的其他主机进行编号，并在共享的硬盘区域上，为每个主机建立对应的目录文件，并在所述目录文件中建立任务转换文件；

4)控制台使用批处理语言，建立任务分配任务，读取索引列表文件的内容，根据其中的各个待处理的数据文件的文件名及其所对应的存储目录，将各个待处理的数据文件分别依次分配给他主机处理，且在向其他主机发送数据文件之前，检查要接收数据文件的主机在共享的硬盘区域上对应的目录中，是否已经有正在执行文件，如果没有，则生成正在执行文件，并将要运行的命令语句加入到所述正在执行文件中；如果有，则检查是否存在等待执行文件，如果存在，则将要运行的命令语句追加到所述等待执行文件中，否则生成等待执行文件，并将要运行的命令语句加入所述等待执行文件中；

5)当控制台分配完所有待处理的数据文件时，在其他主机位于共享的硬盘区域上的目录文件中建立一个结束标示文件，退出任务分配任务。

其中，其他主机根据所述命令文件处理接收到的待处理的数据文件，具体过程为：其他主机各自建立并启动等待任务，所述等待任务包括：

1)定期检查本机在共享的硬盘区域上的目录文件中是否有正在执行文件；

2)如果没有，则保持所述等待任务；

3)如果有，则运行所述正在执行文件，正在执行文件中的命令语句运行完毕后，调用任务转换文件启动任务转换任务；

其中，所述任务转换任务包括：

1)删除正在执行文件，检查当前目录中是否有等待执行文件；

2)如果有，则将所述等待执行文件命名为正在执行文件，退出任务转换任务；

3)如果没有，则检查本机在在共享的硬盘区域上的目录文件中是否存在结束标志文件，如不存在，则保持等待任务；如存在，则退出等待任务。

综上所述，实施本发明的处理海量数据的方法以及系统，具有以下有益效果：本发明利用组建的电脑集群处理共同分担处理需要处理的数据文件，且基于操作系统自带的批处理语言，不需要额外开发其他的工具及系统，就可以简单快速的组建电脑集群，建立数据文件处理任务，整个方案架构简单，成本低。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种处理海量数据的方法，其特征在于，方法包括：

2.根据权利要求1所述的处理海量数据的方法，其特征在于，所述的利用多个主机组建电脑集群，将需处理的数据文件存储在集群中控制台的共享的硬盘区域上，包括：

在进行数据处理之前，搭建局域网络，将用于组建电脑集群的主机安装操作系统，并配置所有的主机使其连接到所述局域网络；

将需处理的数据文件存储在控制台的共享的硬盘区域上。

3.根据权利要求1所述的处理海量数据的方法，其特征在于，所述的控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件，包括：

控制台在共享的硬盘区域上，为每个主机建立对应的目录文件，并在所述目录文件中建立任务转换文件；

4.根据权利要求3述的处理海量数据的方法，其特征在于，所述的将共享的硬盘区域上所有待处理的数据文件的处理任务分配给所述局域网络中的其他主机，并在所述目录文件中存放相关的命令文件，包括：

5.根据权利要求1所述的处理海量数据的方法，其特征在于，所述的其他主机根据所述命令文件处理接收到的待处理的数据文件，包括：其他主机各自建立并启动等待任务，所述等待任务包括：

如果没有，则保持所述等待任务；

如果有，则运行所述正在执行文件，正在执行文件中的命令语句运行完毕后，调用任务转换文件启动任务转换任务。

6.根据权利要求5所述的处理海量数据的方法，其特征在于，所述任务转换任务包括：

删除正在执行文件，检查当前目录中是否有等待执行文件；

7.根据权利要求1所述的处理海量数据的方法，其特征在于，所述数据文件为4/5移动通信网络的测量报告数据。

8.一种处理海量数据的系统，其特征在于，包括多个主机组建的电脑集群，将其中一个主机作为控制台，并在控制台的共享的硬盘区域上存储需处理的数据文件；

9.根据权利要求7所述的处理海量数据的系统，其特征在于，所述的控制台使用批处理语言将共享的硬盘区域上所有待处理的数据文件的处理任务分别分配给所述局域网络中的其他主机，且在共享的硬盘区域上为其他主机生成目录并存放相关的命令文件，包括：

10.根据权利要求7所述的处理海量数据的系统，其特征在于，所述的其他主机根据所述命令文件处理接收到的待处理的数据文件，包括：其他主机各自建立并启动等待任务，所述等待任务包括：

如果没有，则保持所述等待任务；