CN112333274B

CN112333274B - 基于云计算平台的地空时间域电磁响应并行加速方法

Info

Publication number: CN112333274B
Application number: CN202011236093.XA
Authority: CN
Inventors: 关珊珊; 李子涵; 嵇艳鞠; 吴琼; 王远
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-01-21
Anticipated expiration: 2040-11-09
Also published as: CN112333274A

Abstract

本发明属于地球物理勘探技术领域，具体涉及一种基于云计算平台的地空时间域电磁响应并行加速方法，通过Hadoop搭建云计算平台，利用Hadoop核心组件MapReduce编写计算程序，利用HDFS存储相关的输入和输出的数据，提高地空时间域电磁响应的计算效率。

Description

基于云计算平台的地空时间域电磁响应并行加速方法

技术领域

本发明属于地球物理勘探技术领域，具体涉及一种基于云计算平台的地空时间域电磁响应并行加速方法，尤其适用于均匀半空间模型地空时间域电磁响应的并行计算的方法。

背景技术

时间域地空电磁探测方法由传统的航空电磁法演变而来，它具有以下优势：发射源位于地面，可以获得更大的发射功率和发射磁矩，从而加大勘探深度；减小了电磁响应对飞行高度的敏感性；相对于地面电磁法，它具有效率高、范围广、深度大等优点，能够以极高的效率完成广大区域的勘探，例如：森林覆盖区、沙漠等地形条件复杂的区域。如今国内外对地空瞬变电磁进行了一系列研究，也取得了一定的进展，但是地空瞬变电磁仍处于推广阶段，数据解释水平还相对落后，实际在工程中的应用还很少，未来的发展空间很大。

在进行地空时间域电磁响应计算时，当测点数量很大，对于均匀半空间模型来说，若需要更改变量的数据量也十分巨大时，采用串行计算的计算量是非常惊人的，严重造成在时间上的浪费。在云计算的时代背景下，串行计算的弊端显而易见，因此可见它已经不适合当下人们的需求，会逐渐的退出历史舞台。而并行计算则弥补了串行计算速度慢的缺点，是一种提高计算效率的有效方法，并行计算发展至今，可以采取很多方法去实现，例如MPI、OpenMP、OpenCL、GPU等，同时可以组合使用，如CPU+GPU、MPI+OpenMP等，这些有他们各自的优点，同时也存在一定的缺点。云计算也是一种并行计算方法，是当下最为前沿的一项技术，应用十分广泛。

中国专利2018100955699公开了一种面向大数据平台的海量关系数据高效并行迁移方法，包括以下步骤：输入迁移表名、划分列、并行度；迁移任务决策器从RDBMS中获取迁移表的元数据；根据迁移表的元数据对迁移表进行分区划分；计算划分的各分区的数据密度；判断各分区划分是否均匀；若分区划分均匀则将划分结果发送至Hadoop；若分区划分不均匀，则迁移任务决策器对分区进行重划分，并将新划分结果发送至Hadoop；Hadoop根据接收信息创建、执行数据迁移作业，实现数据从RDBMS高效并行迁移至HDFS、HBase。通过Hadoop实现了高效的计算。

中国专利2016110706759公开了一种异构计算中的并行加速方法及系统，该方法包括：预先根据GPU的个数确定GPU之间数据传输的拓扑结构；所述拓扑结构中的各GPU获取当前任务，并对所述当前任务中的数据进行计算，得到对应当前任务的计算结果；各GPU将自己得到的对应当前任务的计算结果分享给所述拓扑结构中的所有其它GPU；各GPU得到所述拓扑结构中的所有其它GPU的计算结果后，开始执行下一任务。利用本发明，可以在提高GPU并行计算能力的同时，降低各GPU节点的带宽需求。

中国专利2013101667291公开了一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法，属于云计算和模式识别领域。以Hadoop云计算框架为基础，由内层、中间层和外层三层构成。内层用于存放海量的人脸图像及身份信息与提供分布式计算资源，中间层用于搜索引擎的索引表的建立与维护，外层用于接收任务与分配任务。可以使用廉价的普通服务器组构建海量人脸识别搜索引擎，并且采用经过大量实践证明的Hadoop云计算框架为基础实现，具有良好的稳定性，方法简单，易于实施。

中国专利2020101187970一种基于云计算技术的中长期电力负荷组合预测系统及方法，该系统主要包括数据预处理部分、基于GEP的负荷预测部分、基于Elman神经网络负荷预测部分、子负荷预测模型优化组合部分。该方法上传存储电力负荷数据到云环境下的数据库中，Hadoop系统平台读取电力数据，运行分布式计算程序对数据进行筛查以及修复处理。其中分布式系统计算程序包括基于相关系数k means聚类算法、数据中位值滤波算法、基因表达式算法、Elman神经网络以及子负荷组合优化算法。通过Hadoop分布式计算提高计算效率。

上述四个专利都采取的并行计算的方式来提高计算效率，包括GPU和Hadoop。但是在地空时间域电磁响应的计算领域，并没有通过并行计算来实现，没有应用Hadoop云计算平台架构来提高计算效率。

发明内容

为了解决上述技术问题，本发明提供一种基于云计算平台的地空时间域电磁响应并行加速方法，旨在提高计算效率，节省计算时间。

本发明是这样实现的，基于云计算平台的地空时间域电磁响应并行加速方法，包括如下步骤：

1)搭建云计算平台：

101)选取4台或者多台计算机，本次专利设计采取了4台，在计算机中通过软件Vmware安装Linux操作系统的虚拟机作为云计算平台的基本组件；

102)安装Hadoop；

2)利用JAVA语言编写计算的算法和程序；

3)将均匀半空间模型的地空时间域电磁响应中的电导率作为变量，即输入数据，将该数据创建成一个文本并上传到HDFS中；

4)基于步骤1)、步骤2)和步骤3)分别进行串行计算和并行计算；

5)计算相对加速比，分析计算的效率。

优选地，上述方法具体实现步骤如下：

步骤101)中，采用4台计算机作为Hadoop集群的基本组件，在每个计算机中安装1个Linux操作系统的虚拟机，作为集群中的基本节点，4个虚拟机中有一个作为主节点，其余3个作为子节点；

步骤102)中，每个节点都需要安装Hadoop；

步骤2)中，均匀半空间模型程序的编写依据的原理如下：

接地长导线源z方向频率域磁场响应表达式为：

其中，L为接地导线的半长度，I为发射电流，x为观测点的x坐标，y为观测点的y坐标，z为观测点的z坐标，R＝[(x-x′)²+y²]^1/2，λ、x′均为被积变量，J₁为贝塞尔函数，均匀半空间模型的反射系数为

i²＝-1，ω为角频率，σ为电导率，μ₀为真空介质的磁导率，对式(1)进行积分后再进行频时变换，即可得到时间域电磁响应V_z；

程序编写过程中将电导率作为输入的数据，时间域电磁响应作为输出，整个程序作为一个方法，采取调用的方式，输入的量为1个电导率，输出的量为一个3维数组，数组中的数代表时间域电磁响应；之后将程序和Hadoop的MapReduce框架进行结合，以实现程序在Hadoop集群的运行，即并行计算；

步骤3)中，vim新建一个文本，输入需要计算的电导率数据，每一行一个数据，之后保存，在Hadoop集群启动的基础上，将该文本上传到HDFS中；

步骤4)中，串行计算和并行计算：

搭建一个4个服务器的集群进行串行计算，若需要实现串行计算，需要开起3个服务器，开启主节点以及任意两个计算节点，其中有一台map和reduce任务的管理者(mrAppmaster)，用于向其他节点分配Map任务，节点本身不参与MapReduce运算，实际参与MapReduce运算只有1个数据节点(DateNode)；

当开启4个服务器的时候，实际参加计算的只有2个节点，因此只需要将任务总数，即分片数splits，分成2个即可，并行计算和串行计算任务数保持一致；

任务数的更该需要手动更改mapred-site.xml文件中的mapred.min.split.size和mapred.max.split.size的值，使得输入本文数据的大小介于最大值和最小值之间；

共计算了10种不同大小计算模型的串行计算时间和并行计算时间，计算时间如表1所示：

表1、不同计算模型的串行计算和并行计算时间

步骤5)中，相对加速比：

Hadoop系统的相对加速比S为时间域电磁响应计算程序在单个节点的执行时间T_s和该计算程序在2个计算节点的执行时间T_m的比值，S越大则表示并行计算的效率越高，计算公式如下：

根据公式(2)分别计算输入数据为20、40、60、80、100、120、140、160、180、200的相对加速比，得到结果如表2：

表2：不同计算模型的相对加速比

计算模型大小	相对加速比
		20	1.64
40	1.8
		60	1.8363636363
80	1.8552631578947
		100	1.8762886597938
120	1.8965517241379
		140	1.9264705882352
160	1.9294871794871
		180	1.9540229885057
200	1.9794871794871

从表格可以看出随着输入数据模型的增加相对加速比逐渐变大，而且，并行计算相对于串行计算节省了大量的计算时间，提高了计算的效率。

进一步优选，步骤102)中，首先在主节点安装Hadoop，之后将文件夹传给其他的节点即可，不需要对Hadoop集群中的子节点再进行相同的操作。

与现有技术相比，本发明的优点在于：

通过Hadoop搭建云计算平台，利用Hadoop核心组件MapReduce编写计算程序，利用HDFS存储相关的输入和输出的数据，提高地空时间域电磁响应的计算效率。

附图说明

图1为本发明的总体流程图；

图2为Hadoop集群搭建的总流程图；

图3为计算模型大小和串行计算时间的关系；

图4为计算模型大小和并行计算时间的关系；

图5为计算模型大小和串行计算及并行计算时间的关系对比；

图6为计算模型大小和相对加速比的关系。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于云计算平台的地空时间域电磁响应并行加速方法，总体流程如图1。

步骤101)中，采用4台物理主机作为Hadoop集群的基本组件，在每个主机中都需要安装1个Linux操作系统的虚拟机，作为集群中的基本节点。

安装Linux操作系统的虚拟机需要在主机Windows操作系统下安装VMware软件，利用该软件创建一个新的虚拟机，按照提示进行创建即可。操作系统选择Centos7，Centos7需要提前下载好，存放在主机的文件夹中，并在安装的过程中更改主机名称。每个物理主机都安装一样的虚拟机，但是主机名一定不能一样，为后续的通信打好基础。本实施例中，虚拟机的主机名分别为Hadoop00，Hadoop01，Hadoop02，Hadoop03。这其中的hadoop00作为Master(主节点)，其余Hadoop01，Hadoop02，Hadoop03个作为Slave(计算节点)。

在安装Hadoop前，需要进行Hadoop搭建的前期准备工作，主要包括以下几个方面：

(1)网络配置：

上述4个虚拟机的IP都需要进行配置，配置网络的步骤如下：

设置虚拟机的网络模式为桥接模式，首先需键入命令：vi/etc/sysconfig/network-scripts/ifcfg-ens33进入网络配置的文件，在该配置文件末尾加入相关配置的内容，需要配置的内容包括：BOOTPROTO、ONBOOT、IPADDR、NETMASK、GATEWAY、DNS1、DNS2。其中IPADDR的配置需要根据当下物理主机的IP进行修改，修改的过程中要确保4台虚拟机的IP地址不同。

完成上述步骤后需要键入命令：sudo service network restart来重启网络服务。可以键入通过命令：ping baidu.com来验证该虚拟机的网络是否配置成功。最后验证4个虚拟机之间是否可以相互ping通。

(2)关闭防火墙。

Hadoop集群中所有的节点都需要关闭防火墙，也就是对4个虚拟机都需要进行如下的操作：在获取管理员权限的前提下，键入关闭防火墙的命令：systemctl stopfirewalld.service和systemctl disable firewalld.service，对防火墙进行关闭。如果防火墙没有进行关闭的话，内网集群的通讯将会出现很多问题，对Hadoop集群是不利的。

(3)主机名和IP的进行映射。

所有节点都需要进行主机名和IP的映射，获取管理员权限后键入命令：vim/etc/hosts，进入hosts文件，在文件前两行的内容前输入“#”，实现屏蔽的作用，之后按照IP和主机名的格式在这两行内容的下面写入所有虚拟机的IP和主机名。

(4)生成秘钥并配置免密登录。

每个节点都生成各自的秘钥，生成秘钥的流程如下：

键入命令：ssh-keygen-t rsa生成秘钥，之后键入命令：cd～/.ssh进入秘钥存放的目录下，在这个目录下共含有两个文件：id_rsa和id_rsa.pub，之后将公钥中的内容追加到authorized_keys文件中，输入的命令为：cat id_rsa.pub>>authorized_keys。

上述操作后，键入命令：systemctl restart sshd.service，来重启sshd服务。

之后将每个虚拟机生成的公钥全都存放在authorized_keys文件中以完成各个虚拟机之间的通信。

(5)配置JAVA编译环境

Linux系统一般会安装Open JDK，可以键入命令：java-version来查看系统是否安装JDK，本文选择的Centos7操作系统安装了Open JDK，之后键入命令：rpm-qa|grep java，将显示的文件用命令：rpm-e–nodeps全部删除。上传JDK安装文件，本文通过软件Xftp6实现了将物理主机的文件传输给虚拟机，之后找到文件的位置，键入命令：tar-zxvf jdk-8u241-linux-x64.tar.gz-C～/app，将JDK的压缩包解压到指定的安装目录(app)中。键入命令：vim～/.bash_profile，编辑～/.bash_profile文件，在文件末尾加入环境变量的配置，本文根据JDK的安装路径加入的内容如下：

export JAVA_HOME＝/home/lizihan/app/jdk1.8.0_241/

PATH＝$JAVA_HOME/bin:$PATH

修改后退出并保存，之后需要使配置的环境变量生效。生效的命令为：source～/.bash_profile。

步骤102)中，每个节点都需要安装Hadoop，首先在主节点安装，之后将文件夹传给其他的节点即可，不需要对Hadoop集群中的子节点再进行相同的操作，安装Hadoop的步骤如下：

(1)解压Hadoop安装包。

通过文件传输软件Xftp6将安装文件传到主节点hadoop00，之后找到压缩包的存放目录，通过命令：tar-zxvf hadoop-2.8.5.tar.gz-C～/app/hadoop将Hadoop安装包解压到app/hadoop文件夹下，进入文件夹hadoop的目录下新建一个文件夹，文件夹名为tmp。

(2)配置Hadoop环境变量。

该步骤需要对每个节点进行操作，同样编辑～/.bash_profile文件，键入命令：vim～/.bash_profile，之后在文件末尾配置环境变量，本文根据Hadoop的安装路径加入的内容如下：

ExportHADOOP_HOME＝/home/lizihan/app/hadoop2/hadoop-2.8.5/

PATH＝$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

完成该环境变量配置之后需要键入命令：source～/.bash_profile，使配置文件生效。

(3)配置文件hadoop-env.sh和yarn-env.sh。

本文根据JDK的安装路径信息，分别在这个两个文件中加入的内容如下：

export JAVA_HOME＝/home/lizihan/app/jdk1.8.0_241/

(4)配置slaves文件。

首先删除该配置文件中原有的内容，添加Hadoop集群中子节点的主机名称，本文添加的内容为：hadoop01、hadoop02、hadoop03。

(5)配置core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml4个主要文件。

这部分文件的配置是Hadoop集群搭建最为关键的，配置文件mapred-site.xml最初是不存在的，需要将文件mapred-site.xml.template复制出一份，取名为mapred-site.xml，键入的命令为：cp mapred-site.xml.template mapred-site.xml，之后在完成对该文件的配置。上述步骤3-5中的配置文件均可以在/home/lizihan/app/hadoop/hadoop-2.7.7/etc/hadoop目录下找到。

(6)将hadoop文件夹发送给其他子节点。

这步骤是本设计搭建Hadoop集群的最后一步，按顺序分别键入如下的4个命令：

scp-r/home/lizihan/app/hadoop/hadoop01:/home/lizihan/app

scp-r/home/lizihan/app/hadoop/hadoop02:/home/lizihan/app

scp-r/home/lizihan/app/hadoop/hadoop03:/home/lizihan/app

该步骤实现的是将Hadoop的安装文件分别传输给集群中的所有子节点，每个文件传输时间都会很久，等待即可。传输完毕后即完成Hadoop集群的搭建。

(7)初始化HDFS。

在主节点hadoop00进行操作，进入/home/lizihan/app/hadoop/hadoop-2.7.7/bin目录下，键入命令：./hadoop namenode-format执行初始化操作，当在末尾处显示“Exiting with status 0”，则表示初始化成功。初始化操作执行一次即可。若初始化失败则需要删除初始化生成的相关文件后在进行初始化操作。

(8)启动Hadoop集群。

在NameNode上执行启动命令，进入到/home/lizihan/app/hadoop/hadoop-2.7.7/sbin目录下，执行命令：./start-all.sh则可以启动整个Hadoop集群。

(9)验证Hadoop集群。

在主节点键入命令jps，若显示：SecondaryNameNode、NameNode、ResourceManager、jps则代表主节点相关进程启动成功。在子节点键入命令jps，若显示：DateNode、NodeManager、jps则表示子节点的相关进程启动成功。只有在主节点和集群中的子节点相对应的进程全部启动无误时，证明Hadoop集群启动成功。以上是搭建Hadoop集群的步骤，如图2所示。

步骤2)，编写程序的前提需要先安装程序的开发环境，安装的步骤如下：

首先需要安装Eclipse，Eclipse是一个开发java程序的软件。软件的版本选择受到Hadoop版本的影响，版本选择不当会导致Eclipse-Hadoop插件安装失败，使得插件无法正常运行。安装包的名称如下：

eclipse–java–photon-R-linux-gtk-x86_64.tar

利用Xftp6将压缩包上传到主机hadoop00，将压缩包解压至app文件下即可完成软件的安装。

之后需要安装插件，插件有助于程序的调试工作。部分Hadoop版本的插件可以直接从官网下载，本专利中采用地Hadoop版本为Hadoop2.7.7，所下载的插件压缩包的名称为：hadoop-eclipse-plugin-2.7.7。获得插件安装压缩包后，将hadoop-eclipse-plugin-2.7.7压缩包上传至主机hadoop00后进行解压，将解压后的文件复制到/home/lizihan/app/eclipse/plugins目录下。则插件安装完成。

之后打开软件Eclipse，选择Windows-preferences，找到Hadoop Map/Reduce，添加Hadoop的安装路径，本专利的Hadoop的安装路径如下：

/home/lizihan/app/hadoop/hadoop-2.7.7

当插件安装成功后，会在Eclipse界面显示DFS Locations、Map/ReduceLocations等信息。

之后编写均匀半空间模型地空时间域电磁相应的计算程序，程序采用的算法如下：

接地长导线源z方向频率域磁场响应表达式为：

步骤4)中，串行计算和并行计算：

之后分别运行jar程序包，计算不同大小计算模型的串行计算时间和并行计算时间，计算时间可以在网页中程序的历史记录中找到。

本专利计算了不同模型大小的串行计算时间和并行计算时间：计算模型大小和串行计算时间的关系如图3所示；计算模型大小和并行计算时间的关系如图4所示。之后以计算模型大小为变量，查看串行计算和并行计算的时间的关系，如图5所示。

步骤5)中，相对加速比

根据公式(2)分别得到输入数据为20、40、60、80、100、120、140、160、180、200的串行计算时间和并行计算时间，之后带入公式，计算相对加速比。以输入数据(计算模型)为变量，计算输入数据和相对加速比的关系，如图6所示。

Claims

1.基于云计算平台的地空时间域电磁响应并行加速方法，其特征在于，包括如下步骤：

1)搭建云计算平台：

101)选取4台计算机，在计算机中通过软件Vmware安装Linux操作系统的虚拟机作为云计算平台的基本组件；

102)安装Hadoop；

2)利用JAVA语言编写计算的算法和程序；

5)计算相对加速比，分析计算的效率；

具体实现步骤如下：

步骤102)中，每个节点都需要安装Hadoop；

步骤2)中，均匀半空间模型程序的编写依据的原理如下：

接地长导线源z方向频率域磁场响应表达式为：

ω为角频率，σ为电导率，μ₀为真空介质的磁导率，对式(1)进行积分后再进行频时变换，即可得到时间域电磁响应V_z；

步骤4)中，串行计算和并行计算：

搭建一个4个服务器的集群进行串行计算，若需要实现串行计算，需要开起3个服务器，开启主节点以及任意两个计算节点，其中有一台作为map和reduce的管理者，用于向其他节点分配Map任务，节点本身不参与MapReduce运算，实际参与MapReduce运算只有1个数据节点；

任务数的更改需要手动更改mapred-site.xml文件中的mapred.min.split.size和mapred.max.split.size的值，使得输入本文数据的大小介于最大值和最小值之间；

表1、不同计算模型的串行计算和并行计算时间

计算模型大小串行计算时间(5) 并行计算时间(s) 20 25 41 40 40 72 60 55 101 80 76 141 100 97 182 120 116 220 140 136 262 160 156 301 180 174 340 200 195 386

步骤5)中，相对加速比：

表2：不同计算模型的相对加速比

2.如权利要求1所述的基于云计算平台的地空时间域电磁响应并行加速方法，其特征在于，步骤102)中，首先在主节点安装Hadoop，之后将文件夹传给其他的节点即可，不需要对Hadoop集群中的子节点再进行相同的操作。