CN112333274B - 基于云计算平台的地空时间域电磁响应并行加速方法 - Google Patents

基于云计算平台的地空时间域电磁响应并行加速方法 Download PDF

Info

Publication number
CN112333274B
CN112333274B CN202011236093.XA CN202011236093A CN112333274B CN 112333274 B CN112333274 B CN 112333274B CN 202011236093 A CN202011236093 A CN 202011236093A CN 112333274 B CN112333274 B CN 112333274B
Authority
CN
China
Prior art keywords
hadoop
calculation
computation
parallel
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011236093.XA
Other languages
English (en)
Other versions
CN112333274A (zh
Inventor
关珊珊
李子涵
嵇艳鞠
吴琼
王远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202011236093.XA priority Critical patent/CN112333274B/zh
Publication of CN112333274A publication Critical patent/CN112333274A/zh
Application granted granted Critical
Publication of CN112333274B publication Critical patent/CN112333274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于地球物理勘探技术领域,具体涉及一种基于云计算平台的地空时间域电磁响应并行加速方法,通过Hadoop搭建云计算平台,利用Hadoop核心组件MapReduce编写计算程序,利用HDFS存储相关的输入和输出的数据,提高地空时间域电磁响应的计算效率。

Description

基于云计算平台的地空时间域电磁响应并行加速方法
技术领域
本发明属于地球物理勘探技术领域,具体涉及一种基于云计算平台的地空时间域电磁响应并行加速方法,尤其适用于均匀半空间模型地空时间域电磁响应的并行计算的方法。
背景技术
时间域地空电磁探测方法由传统的航空电磁法演变而来,它具有以下优势:发射源位于地面,可以获得更大的发射功率和发射磁矩,从而加大勘探深度;减小了电磁响应对飞行高度的敏感性;相对于地面电磁法,它具有效率高、范围广、深度大等优点,能够以极高的效率完成广大区域的勘探,例如:森林覆盖区、沙漠等地形条件复杂的区域。如今国内外对地空瞬变电磁进行了一系列研究,也取得了一定的进展,但是地空瞬变电磁仍处于推广阶段,数据解释水平还相对落后,实际在工程中的应用还很少,未来的发展空间很大。
在进行地空时间域电磁响应计算时,当测点数量很大,对于均匀半空间模型来说,若需要更改变量的数据量也十分巨大时,采用串行计算的计算量是非常惊人的,严重造成在时间上的浪费。在云计算的时代背景下,串行计算的弊端显而易见,因此可见它已经不适合当下人们的需求,会逐渐的退出历史舞台。而并行计算则弥补了串行计算速度慢的缺点,是一种提高计算效率的有效方法,并行计算发展至今,可以采取很多方法去实现,例如MPI、OpenMP、OpenCL、GPU等,同时可以组合使用,如CPU+GPU、MPI+OpenMP等,这些有他们各自的优点,同时也存在一定的缺点。云计算也是一种并行计算方法,是当下最为前沿的一项技术,应用十分广泛。
中国专利2018100955699公开了一种面向大数据平台的海量关系数据高效并行迁移方法,包括以下步骤:输入迁移表名、划分列、并行度;迁移任务决策器从RDBMS中获取迁移表的元数据;根据迁移表的元数据对迁移表进行分区划分;计算划分的各分区的数据密度;判断各分区划分是否均匀;若分区划分均匀则将划分结果发送至Hadoop;若分区划分不均匀,则迁移任务决策器对分区进行重划分,并将新划分结果发送至Hadoop;Hadoop根据接收信息创建、执行数据迁移作业,实现数据从RDBMS高效并行迁移至HDFS、HBase。通过Hadoop实现了高效的计算。
中国专利2016110706759公开了一种异构计算中的并行加速方法及系统,该方法包括:预先根据GPU的个数确定GPU之间数据传输的拓扑结构;所述拓扑结构中的各GPU获取当前任务,并对所述当前任务中的数据进行计算,得到对应当前任务的计算结果;各GPU将自己得到的对应当前任务的计算结果分享给所述拓扑结构中的所有其它GPU;各GPU得到所述拓扑结构中的所有其它GPU的计算结果后,开始执行下一任务。利用本发明,可以在提高GPU并行计算能力的同时,降低各GPU节点的带宽需求。
中国专利2013101667291公开了一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法,属于云计算和模式识别领域。以Hadoop云计算框架为基础,由内层、中间层和外层三层构成。内层用于存放海量的人脸图像及身份信息与提供分布式计算资源,中间层用于搜索引擎的索引表的建立与维护,外层用于接收任务与分配任务。可以使用廉价的普通服务器组构建海量人脸识别搜索引擎,并且采用经过大量实践证明的Hadoop云计算框架为基础实现,具有良好的稳定性,方法简单,易于实施。
中国专利2020101187970一种基于云计算技术的中长期电力负荷组合预测系统及方法,该系统主要包括数据预处理部分、基于GEP的负荷预测部分、基于Elman神经网络负荷预测部分、子负荷预测模型优化组合部分。该方法上传存储电力负荷数据到云环境下的数据库中,Hadoop系统平台读取电力数据,运行分布式计算程序对数据进行筛查以及修复处理。其中分布式系统计算程序包括基于相关系数k means聚类算法、数据中位值滤波算法、基因表达式算法、Elman神经网络以及子负荷组合优化算法。通过Hadoop分布式计算提高计算效率。
上述四个专利都采取的并行计算的方式来提高计算效率,包括GPU和Hadoop。但是在地空时间域电磁响应的计算领域,并没有通过并行计算来实现,没有应用Hadoop云计算平台架构来提高计算效率。
发明内容
为了解决上述技术问题,本发明提供一种基于云计算平台的地空时间域电磁响应并行加速方法,旨在提高计算效率,节省计算时间。
本发明是这样实现的,基于云计算平台的地空时间域电磁响应并行加速方法,包括如下步骤:
1)搭建云计算平台:
101)选取4台或者多台计算机,本次专利设计采取了4台,在计算机中通过软件Vmware安装Linux操作系统的虚拟机作为云计算平台的基本组件;
102)安装Hadoop;
2)利用JAVA语言编写计算的算法和程序;
3)将均匀半空间模型的地空时间域电磁响应中的电导率作为变量,即输入数据,将该数据创建成一个文本并上传到HDFS中;
4)基于步骤1)、步骤2)和步骤3)分别进行串行计算和并行计算;
5)计算相对加速比,分析计算的效率。
优选地,上述方法具体实现步骤如下:
步骤101)中,采用4台计算机作为Hadoop集群的基本组件,在每个计算机中安装1个Linux操作系统的虚拟机,作为集群中的基本节点,4个虚拟机中有一个作为主节点,其余3个作为子节点;
步骤102)中,每个节点都需要安装Hadoop;
步骤2)中,均匀半空间模型程序的编写依据的原理如下:
接地长导线源z方向频率域磁场响应表达式为:
Figure BDA0002766718910000041
其中,L为接地导线的半长度,I为发射电流,x为观测点的x坐标,y为观测点的y坐标,z为观测点的z坐标,R=[(x-x′)2+y2]1/2,λ、x′均为被积变量,J1为贝塞尔函数,均匀半空间模型的反射系数为
Figure BDA0002766718910000042
i2=-1,ω为角频率,σ为电导率,μ0为真空介质的磁导率,对式(1)进行积分后再进行频时变换,即可得到时间域电磁响应Vz
程序编写过程中将电导率作为输入的数据,时间域电磁响应作为输出,整个程序作为一个方法,采取调用的方式,输入的量为1个电导率,输出的量为一个3维数组,数组中的数代表时间域电磁响应;之后将程序和Hadoop的MapReduce框架进行结合,以实现程序在Hadoop集群的运行,即并行计算;
步骤3)中,vim新建一个文本,输入需要计算的电导率数据,每一行一个数据,之后保存,在Hadoop集群启动的基础上,将该文本上传到HDFS中;
步骤4)中,串行计算和并行计算:
搭建一个4个服务器的集群进行串行计算,若需要实现串行计算,需要开起3个服务器,开启主节点以及任意两个计算节点,其中有一台map和reduce任务的管理者(mrAppmaster),用于向其他节点分配Map任务,节点本身不参与MapReduce运算,实际参与MapReduce运算只有1个数据节点(DateNode);
当开启4个服务器的时候,实际参加计算的只有2个节点,因此只需要将任务总数,即分片数splits,分成2个即可,并行计算和串行计算任务数保持一致;
任务数的更该需要手动更改mapred-site.xml文件中的mapred.min.split.size和mapred.max.split.size的值,使得输入本文数据的大小介于最大值和最小值之间;
共计算了10种不同大小计算模型的串行计算时间和并行计算时间,计算时间如表1所示:
表1、不同计算模型的串行计算和并行计算时间
Figure BDA0002766718910000051
Figure BDA0002766718910000061
步骤5)中,相对加速比:
Hadoop系统的相对加速比S为时间域电磁响应计算程序在单个节点的执行时间Ts和该计算程序在2个计算节点的执行时间Tm的比值,S越大则表示并行计算的效率越高,计算公式如下:
Figure BDA0002766718910000062
根据公式(2)分别计算输入数据为20、40、60、80、100、120、140、160、180、200的相对加速比,得到结果如表2:
表2:不同计算模型的相对加速比
计算模型大小 相对加速比
20 1.64
40 1.8
60 1.8363636363
80 1.8552631578947
100 1.8762886597938
120 1.8965517241379
140 1.9264705882352
160 1.9294871794871
180 1.9540229885057
200 1.9794871794871
从表格可以看出随着输入数据模型的增加相对加速比逐渐变大,而且,并行计算相对于串行计算节省了大量的计算时间,提高了计算的效率。
进一步优选,步骤102)中,首先在主节点安装Hadoop,之后将文件夹传给其他的节点即可,不需要对Hadoop集群中的子节点再进行相同的操作。
与现有技术相比,本发明的优点在于:
通过Hadoop搭建云计算平台,利用Hadoop核心组件MapReduce编写计算程序,利用HDFS存储相关的输入和输出的数据,提高地空时间域电磁响应的计算效率。
附图说明
图1为本发明的总体流程图;
图2为Hadoop集群搭建的总流程图;
图3为计算模型大小和串行计算时间的关系;
图4为计算模型大小和并行计算时间的关系;
图5为计算模型大小和串行计算及并行计算时间的关系对比;
图6为计算模型大小和相对加速比的关系。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于云计算平台的地空时间域电磁响应并行加速方法,总体流程如图1。
步骤101)中,采用4台物理主机作为Hadoop集群的基本组件,在每个主机中都需要安装1个Linux操作系统的虚拟机,作为集群中的基本节点。
安装Linux操作系统的虚拟机需要在主机Windows操作系统下安装VMware软件,利用该软件创建一个新的虚拟机,按照提示进行创建即可。操作系统选择Centos7,Centos7需要提前下载好,存放在主机的文件夹中,并在安装的过程中更改主机名称。每个物理主机都安装一样的虚拟机,但是主机名一定不能一样,为后续的通信打好基础。本实施例中,虚拟机的主机名分别为Hadoop00,Hadoop01,Hadoop02,Hadoop03。这其中的hadoop00作为Master(主节点),其余Hadoop01,Hadoop02,Hadoop03个作为Slave(计算节点)。
在安装Hadoop前,需要进行Hadoop搭建的前期准备工作,主要包括以下几个方面:
(1)网络配置:
上述4个虚拟机的IP都需要进行配置,配置网络的步骤如下:
设置虚拟机的网络模式为桥接模式,首先需键入命令:vi/etc/sysconfig/network-scripts/ifcfg-ens33进入网络配置的文件,在该配置文件末尾加入相关配置的内容,需要配置的内容包括:BOOTPROTO、ONBOOT、IPADDR、NETMASK、GATEWAY、DNS1、DNS2。其中IPADDR的配置需要根据当下物理主机的IP进行修改,修改的过程中要确保4台虚拟机的IP地址不同。
完成上述步骤后需要键入命令:sudo service network restart来重启网络服务。可以键入通过命令:ping baidu.com来验证该虚拟机的网络是否配置成功。最后验证4个虚拟机之间是否可以相互ping通。
(2)关闭防火墙。
Hadoop集群中所有的节点都需要关闭防火墙,也就是对4个虚拟机都需要进行如下的操作:在获取管理员权限的前提下,键入关闭防火墙的命令:systemctl stopfirewalld.service和systemctl disable firewalld.service,对防火墙进行关闭。如果防火墙没有进行关闭的话,内网集群的通讯将会出现很多问题,对Hadoop集群是不利的。
(3)主机名和IP的进行映射。
所有节点都需要进行主机名和IP的映射,获取管理员权限后键入命令:vim/etc/hosts,进入hosts文件,在文件前两行的内容前输入“#”,实现屏蔽的作用,之后按照IP和主机名的格式在这两行内容的下面写入所有虚拟机的IP和主机名。
(4)生成秘钥并配置免密登录。
每个节点都生成各自的秘钥,生成秘钥的流程如下:
键入命令:ssh-keygen-t rsa生成秘钥,之后键入命令:cd~/.ssh进入秘钥存放的目录下,在这个目录下共含有两个文件:id_rsa和id_rsa.pub,之后将公钥中的内容追加到authorized_keys文件中,输入的命令为:cat id_rsa.pub>>authorized_keys。
上述操作后,键入命令:systemctl restart sshd.service,来重启sshd服务。
之后将每个虚拟机生成的公钥全都存放在authorized_keys文件中以完成各个虚拟机之间的通信。
(5)配置JAVA编译环境
Linux系统一般会安装Open JDK,可以键入命令:java-version来查看系统是否安装JDK,本文选择的Centos7操作系统安装了Open JDK,之后键入命令:rpm-qa|grep java,将显示的文件用命令:rpm-e–nodeps全部删除。上传JDK安装文件,本文通过软件Xftp6实现了将物理主机的文件传输给虚拟机,之后找到文件的位置,键入命令:tar-zxvf jdk-8u241-linux-x64.tar.gz-C~/app,将JDK的压缩包解压到指定的安装目录(app)中。键入命令:vim~/.bash_profile,编辑~/.bash_profile文件,在文件末尾加入环境变量的配置,本文根据JDK的安装路径加入的内容如下:
export JAVA_HOME=/home/lizihan/app/jdk1.8.0_241/
PATH=$JAVA_HOME/bin:$PATH
修改后退出并保存,之后需要使配置的环境变量生效。生效的命令为:source~/.bash_profile。
步骤102)中,每个节点都需要安装Hadoop,首先在主节点安装,之后将文件夹传给其他的节点即可,不需要对Hadoop集群中的子节点再进行相同的操作,安装Hadoop的步骤如下:
(1)解压Hadoop安装包。
通过文件传输软件Xftp6将安装文件传到主节点hadoop00,之后找到压缩包的存放目录,通过命令:tar-zxvf hadoop-2.8.5.tar.gz-C~/app/hadoop将Hadoop安装包解压到app/hadoop文件夹下,进入文件夹hadoop的目录下新建一个文件夹,文件夹名为tmp。
(2)配置Hadoop环境变量。
该步骤需要对每个节点进行操作,同样编辑~/.bash_profile文件,键入命令:vim~/.bash_profile,之后在文件末尾配置环境变量,本文根据Hadoop的安装路径加入的内容如下:
ExportHADOOP_HOME=/home/lizihan/app/hadoop2/hadoop-2.8.5/
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
完成该环境变量配置之后需要键入命令:source~/.bash_profile,使配置文件生效。
(3)配置文件hadoop-env.sh和yarn-env.sh。
本文根据JDK的安装路径信息,分别在这个两个文件中加入的内容如下:
export JAVA_HOME=/home/lizihan/app/jdk1.8.0_241/
(4)配置slaves文件。
首先删除该配置文件中原有的内容,添加Hadoop集群中子节点的主机名称,本文添加的内容为:hadoop01、hadoop02、hadoop03。
(5)配置core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml4个主要文件。
这部分文件的配置是Hadoop集群搭建最为关键的,配置文件mapred-site.xml最初是不存在的,需要将文件mapred-site.xml.template复制出一份,取名为mapred-site.xml,键入的命令为:cp mapred-site.xml.template mapred-site.xml,之后在完成对该文件的配置。上述步骤3-5中的配置文件均可以在/home/lizihan/app/hadoop/hadoop-2.7.7/etc/hadoop目录下找到。
(6)将hadoop文件夹发送给其他子节点。
这步骤是本设计搭建Hadoop集群的最后一步,按顺序分别键入如下的4个命令:
scp-r/home/lizihan/app/hadoop/hadoop01:/home/lizihan/app
scp-r/home/lizihan/app/hadoop/hadoop02:/home/lizihan/app
scp-r/home/lizihan/app/hadoop/hadoop03:/home/lizihan/app
该步骤实现的是将Hadoop的安装文件分别传输给集群中的所有子节点,每个文件传输时间都会很久,等待即可。传输完毕后即完成Hadoop集群的搭建。
(7)初始化HDFS。
在主节点hadoop00进行操作,进入/home/lizihan/app/hadoop/hadoop-2.7.7/bin目录下,键入命令:./hadoop namenode-format执行初始化操作,当在末尾处显示“Exiting with status 0”,则表示初始化成功。初始化操作执行一次即可。若初始化失败则需要删除初始化生成的相关文件后在进行初始化操作。
(8)启动Hadoop集群。
在NameNode上执行启动命令,进入到/home/lizihan/app/hadoop/hadoop-2.7.7/sbin目录下,执行命令:./start-all.sh则可以启动整个Hadoop集群。
(9)验证Hadoop集群。
在主节点键入命令jps,若显示:SecondaryNameNode、NameNode、ResourceManager、jps则代表主节点相关进程启动成功。在子节点键入命令jps,若显示:DateNode、NodeManager、jps则表示子节点的相关进程启动成功。只有在主节点和集群中的子节点相对应的进程全部启动无误时,证明Hadoop集群启动成功。以上是搭建Hadoop集群的步骤,如图2所示。
步骤2),编写程序的前提需要先安装程序的开发环境,安装的步骤如下:
首先需要安装Eclipse,Eclipse是一个开发java程序的软件。软件的版本选择受到Hadoop版本的影响,版本选择不当会导致Eclipse-Hadoop插件安装失败,使得插件无法正常运行。安装包的名称如下:
eclipse–java–photon-R-linux-gtk-x86_64.tar
利用Xftp6将压缩包上传到主机hadoop00,将压缩包解压至app文件下即可完成软件的安装。
之后需要安装插件,插件有助于程序的调试工作。部分Hadoop版本的插件可以直接从官网下载,本专利中采用地Hadoop版本为Hadoop2.7.7,所下载的插件压缩包的名称为:hadoop-eclipse-plugin-2.7.7。获得插件安装压缩包后,将hadoop-eclipse-plugin-2.7.7压缩包上传至主机hadoop00后进行解压,将解压后的文件复制到/home/lizihan/app/eclipse/plugins目录下。则插件安装完成。
之后打开软件Eclipse,选择Windows-preferences,找到Hadoop Map/Reduce,添加Hadoop的安装路径,本专利的Hadoop的安装路径如下:
/home/lizihan/app/hadoop/hadoop-2.7.7
当插件安装成功后,会在Eclipse界面显示DFS Locations、Map/ReduceLocations等信息。
之后编写均匀半空间模型地空时间域电磁相应的计算程序,程序采用的算法如下:
接地长导线源z方向频率域磁场响应表达式为:
Figure BDA0002766718910000131
其中,L为接地导线的半长度,I为发射电流,x为观测点的x坐标,y为观测点的y坐标,z为观测点的z坐标,R=[(x-x′)2+y2]1/2,λ、x′均为被积变量,J1为贝塞尔函数,均匀半空间模型的反射系数为
Figure BDA0002766718910000132
i2=-1,ω为角频率,σ为电导率,μ0为真空介质的磁导率,对式(1)进行积分后再进行频时变换,即可得到时间域电磁响应Vz
程序编写过程中将电导率作为输入的数据,时间域电磁响应作为输出,整个程序作为一个方法,采取调用的方式,输入的量为1个电导率,输出的量为一个3维数组,数组中的数代表时间域电磁响应;之后将程序和Hadoop的MapReduce框架进行结合,以实现程序在Hadoop集群的运行,即并行计算;
步骤3)中,vim新建一个文本,输入需要计算的电导率数据,每一行一个数据,之后保存,在Hadoop集群启动的基础上,将该文本上传到HDFS中;
步骤4)中,串行计算和并行计算:
搭建一个4个服务器的集群进行串行计算,若需要实现串行计算,需要开起3个服务器,开启主节点以及任意两个计算节点,其中有一台map和reduce任务的管理者(mrAppmaster),用于向其他节点分配Map任务,节点本身不参与MapReduce运算,实际参与MapReduce运算只有1个数据节点(DateNode);
当开启4个服务器的时候,实际参加计算的只有2个节点,因此只需要将任务总数,即分片数splits,分成2个即可,并行计算和串行计算任务数保持一致;
任务数的更该需要手动更改mapred-site.xml文件中的mapred.min.split.size和mapred.max.split.size的值,使得输入本文数据的大小介于最大值和最小值之间;
之后分别运行jar程序包,计算不同大小计算模型的串行计算时间和并行计算时间,计算时间可以在网页中程序的历史记录中找到。
本专利计算了不同模型大小的串行计算时间和并行计算时间:计算模型大小和串行计算时间的关系如图3所示;计算模型大小和并行计算时间的关系如图4所示。之后以计算模型大小为变量,查看串行计算和并行计算的时间的关系,如图5所示。
步骤5)中,相对加速比
Hadoop系统的相对加速比S为时间域电磁响应计算程序在单个节点的执行时间Ts和该计算程序在2个计算节点的执行时间Tm的比值,S越大则表示并行计算的效率越高,计算公式如下:
Figure BDA0002766718910000141
根据公式(2)分别得到输入数据为20、40、60、80、100、120、140、160、180、200的串行计算时间和并行计算时间,之后带入公式,计算相对加速比。以输入数据(计算模型)为变量,计算输入数据和相对加速比的关系,如图6所示。

Claims (2)

1.基于云计算平台的地空时间域电磁响应并行加速方法,其特征在于,包括如下步骤:
1)搭建云计算平台:
101)选取4台计算机,在计算机中通过软件Vmware安装Linux操作系统的虚拟机作为云计算平台的基本组件;
102)安装Hadoop;
2)利用JAVA语言编写计算的算法和程序;
3)将均匀半空间模型的地空时间域电磁响应中的电导率作为变量,即输入数据,将该数据创建成一个文本并上传到HDFS中;
4)基于步骤1)、步骤2)和步骤3)分别进行串行计算和并行计算;
5)计算相对加速比,分析计算的效率;
具体实现步骤如下:
步骤101)中,采用4台计算机作为Hadoop集群的基本组件,在每个计算机中安装1个Linux操作系统的虚拟机,作为集群中的基本节点,4个虚拟机中有一个作为主节点,其余3个作为子节点;
步骤102)中,每个节点都需要安装Hadoop;
步骤2)中,均匀半空间模型程序的编写依据的原理如下:
接地长导线源z方向频率域磁场响应表达式为:
Figure FDA0003270230340000011
其中,L为接地导线的半长度,I为发射电流,x为观测点的x坐标,y为观测点的y坐标,z为观测点的z坐标,R=[(x-x′)2+y2]1/2,λ、x′均为被积变量,J1为贝塞尔函数,均匀半空间模型的反射系数为
Figure FDA0003270230340000021
ω为角频率,σ为电导率,μ0为真空介质的磁导率,对式(1)进行积分后再进行频时变换,即可得到时间域电磁响应Vz
程序编写过程中将电导率作为输入的数据,时间域电磁响应作为输出,整个程序作为一个方法,采取调用的方式,输入的量为1个电导率,输出的量为一个3维数组,数组中的数代表时间域电磁响应;之后将程序和Hadoop的MapReduce框架进行结合,以实现程序在Hadoop集群的运行,即并行计算;
步骤3)中,vim新建一个文本,输入需要计算的电导率数据,每一行一个数据,之后保存,在Hadoop集群启动的基础上,将该文本上传到HDFS中;
步骤4)中,串行计算和并行计算:
搭建一个4个服务器的集群进行串行计算,若需要实现串行计算,需要开起3个服务器,开启主节点以及任意两个计算节点,其中有一台作为map和reduce的管理者,用于向其他节点分配Map任务,节点本身不参与MapReduce运算,实际参与MapReduce运算只有1个数据节点;
当开启4个服务器的时候,实际参加计算的只有2个节点,因此只需要将任务总数,即分片数splits,分成2个即可,并行计算和串行计算任务数保持一致;
任务数的更改 需要手动更改mapred-site.xml文件中的mapred.min.split.size和mapred.max.split.size的值,使得输入本文数据的大小介于最大值和最小值之间;
共计算了10种不同大小计算模型的串行计算时间和并行计算时间,计算时间如表1所示:
表1、不同计算模型的串行计算和并行计算时间
计算模型大小 串行计算时间(5) 并行计算时间(s) 20 25 41 40 40 72 60 55 101 80 76 141 100 97 182 120 116 220 140 136 262 160 156 301 180 174 340 200 195 386
步骤5)中,相对加速比:
Hadoop系统的相对加速比S为时间域电磁响应计算程序在单个节点的执行时间Ts和该计算程序在2个计算节点的执行时间Tm的比值,S越大则表示并行计算的效率越高,计算公式如下:
Figure FDA0003270230340000031
根据公式(2)分别计算输入数据为20、40、60、80、100、120、140、160、180、200的相对加速比,得到结果如表2:
表2:不同计算模型的相对加速比
Figure FDA0003270230340000032
Figure FDA0003270230340000041
从表格可以看出随着输入数据模型的增加相对加速比逐渐变大,而且,并行计算相对于串行计算节省了大量的计算时间,提高了计算的效率。
2.如权利要求1所述的基于云计算平台的地空时间域电磁响应并行加速方法,其特征在于,步骤102)中,首先在主节点安装Hadoop,之后将文件夹传给其他的节点即可,不需要对Hadoop集群中的子节点再进行相同的操作。
CN202011236093.XA 2020-11-09 2020-11-09 基于云计算平台的地空时间域电磁响应并行加速方法 Active CN112333274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011236093.XA CN112333274B (zh) 2020-11-09 2020-11-09 基于云计算平台的地空时间域电磁响应并行加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011236093.XA CN112333274B (zh) 2020-11-09 2020-11-09 基于云计算平台的地空时间域电磁响应并行加速方法

Publications (2)

Publication Number Publication Date
CN112333274A CN112333274A (zh) 2021-02-05
CN112333274B true CN112333274B (zh) 2022-01-21

Family

ID=74316833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011236093.XA Active CN112333274B (zh) 2020-11-09 2020-11-09 基于云计算平台的地空时间域电磁响应并行加速方法

Country Status (1)

Country Link
CN (1) CN112333274B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306370A (zh) * 2011-08-26 2012-01-04 浙江大学 一种基于云计算的数字图像处理系统
CN102394894A (zh) * 2011-11-28 2012-03-28 武汉大学 一种基于云计算的网络虚拟磁盘文件安全管理方法
CN102985922A (zh) * 2010-06-18 2013-03-20 诺基亚公司 在计算空间中管理分布计算的方法和装置
US9317542B2 (en) * 2011-10-04 2016-04-19 International Business Machines Corporation Declarative specification of data integration workflows for execution on parallel processing platforms
CN106970830A (zh) * 2017-03-22 2017-07-21 佛山科学技术学院 一种分布式虚拟机的存储控制方法、及虚拟机

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209989B (zh) * 2016-06-29 2019-04-16 山东大学 基于spark平台的空间数据并行计算系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102985922A (zh) * 2010-06-18 2013-03-20 诺基亚公司 在计算空间中管理分布计算的方法和装置
CN102306370A (zh) * 2011-08-26 2012-01-04 浙江大学 一种基于云计算的数字图像处理系统
US9317542B2 (en) * 2011-10-04 2016-04-19 International Business Machines Corporation Declarative specification of data integration workflows for execution on parallel processing platforms
CN102394894A (zh) * 2011-11-28 2012-03-28 武汉大学 一种基于云计算的网络虚拟磁盘文件安全管理方法
CN106970830A (zh) * 2017-03-22 2017-07-21 佛山科学技术学院 一种分布式虚拟机的存储控制方法、及虚拟机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时域地空电性源的三维电磁数值模拟及噪声抑制方法研究;黎东升;《中国博士学位论文全文数据库 基础科学辑》;20170331;第A011-24页 *

Also Published As

Publication number Publication date
CN112333274A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
US11621998B2 (en) Dynamic creation and execution of containerized applications in cloud computing
Fan et al. The Case Against Specialized Graph Analytics Engines.
US8572575B2 (en) Debugging a map reduce application on a cluster
US20190057119A1 (en) Supporting graph database backed object unmarshalling
Docan et al. Activespaces: Exploring dynamic code deployment for extreme scale data processing
CN116783581A (zh) 在云平台中配置的数据中心上部署软件发布
US11960923B2 (en) Geo-distributed computation and analytics using an input graph
Goncalves et al. Data analytics in the cloud with flexible MapReduce workflows
CN112333274B (zh) 基于云计算平台的地空时间域电磁响应并行加速方法
Zarei et al. Past, present and future of Hadoop: A survey
Shi et al. Research on cloud computing and services framework of marine environmental information management
Brady et al. SmartGridRPC: The new RPC model for high performance Grid computing
Cao et al. An attack graph generation method based on parallel computing
CN110018830A (zh) 一种基于分布式集群的大型软件编译装置
Kim et al. Efficient auto-scaling scheme for rapid storage service using many-core of desktop storage virtualization based on IoT
Villalobos Running parallel applications on a heterogeneous environment with accessible development practices and automatic scalability
VasanthaKumari et al. Reorganizing virtual machines as docker containers for efficient data centres
Browne et al. General parallel computations on desktop grid and p2p systems
US20230229800A1 (en) Content variation to track documents
US11240107B1 (en) Validation and governance of a cloud computing platform based datacenter
US20220237503A1 (en) Machine learning model deployment within a database management system
US20240112062A1 (en) Quantum circuit service
Qun et al. Design of cloud services platform based on JSON
Castillo-García et al. Design of a Dynamic Horizontal Fragmentation Method for Multimedia Databases
Arora et al. A Novel Framework for Distributed Stream Processing and Analysis of Twitter Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant