CN109726354A - 一种面向海量数据的并行互相关计算方法 - Google Patents

一种面向海量数据的并行互相关计算方法 Download PDF

Info

Publication number
CN109726354A
CN109726354A CN201811545983.1A CN201811545983A CN109726354A CN 109726354 A CN109726354 A CN 109726354A CN 201811545983 A CN201811545983 A CN 201811545983A CN 109726354 A CN109726354 A CN 109726354A
Authority
CN
China
Prior art keywords
cross
correlation calculation
waveform element
data collection
distributed data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811545983.1A
Other languages
English (en)
Other versions
CN109726354B (zh
Inventor
司冠南
蔡寅
张明
周风余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huayu Information Technology Co ltd
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN201811545983.1A priority Critical patent/CN109726354B/zh
Publication of CN109726354A publication Critical patent/CN109726354A/zh
Application granted granted Critical
Publication of CN109726354B publication Critical patent/CN109726354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

一种面向海量数据的并行互相关计算方法,包括如下步骤:a)分割成

Description

一种面向海量数据的并行互相关计算方法
技术领域
本发明涉及互相关计算领域,具体涉及一种面向海量数据的并行互相关计算方法。
背景技术
互相关是信号分析里的概念,它表示的是两个时间序列之间相关程度。互相关函数给出了在频域内两个信号是否相关的一个判断指标,把两测点之间信号的互谱与各自的自谱联系了起来。它能用来确定输出信号有多大程度来自输入信号,对修正测量中接入噪声源而产生的误差非常有效。
目前互相关算法已广泛应用于地震波形处理、音视频信号、等领域。主要步骤包括信号滤波和互相关函数计算。但随着计算机技术的飞速发展,数据量大大增加,传统的串行化互相关算法面向海量数据时存在计算速度慢、消耗时间长等问题,已不能满足日常业务的需求。
发明内容
本发明为了克服以上技术的不足,提供了一种提高互相关计算速度的面向海量数据的并行互相关计算方法。
本发明克服其技术问题所采用的技术方案是:
一种面向海量数据的并行互相关计算方法,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。优选的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
本发明的有益效果是:通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。
具体实施方式
下面对本发明做进一步说明。
一种面向海量数据的并行互相关计算方法,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。本发明的面向海量数据的并行互相关计算方法通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。进一步的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
下面以地震波形处理为例,样本数据时间跨度为1周,采样周期为1ms,总数据量7×24×60×60×1000=604800000条。采用3个计算节点进行处理,每个计算节点配置10核心CPU和32GB内存。处理步骤如下:
1.为进行并行计算,首先需要将信号的波形文件按照时间序列分割成多个波形单元,每个波形单元的时间单位要比数据采样的时间单位大两个以上,采样周期单位为毫秒,因此采用小时为分割时间单位,即:每1小时数据分割为一个数据文件,共分为7×24×60=10080个文件,每个文件占用6MB存储空间。
2.按照波形的实际时间顺序为步骤1中的每个波形单元做时间戳标记,该标记与整个流程结束后各波形单元计算结果中的时间戳一一对应。时间戳格式为××××-××-××_××:00:00。
3.根据公式NC=S×C×5、NM=U×C×Vu/Vm
将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量。本实施例中计算节点的数量为3,计算节点的CPU核心数为10,波形单元数量为10080,每个计算节点的内存容量32GB,每个波形单元所占用存储空间的容量为6MB。经计算,数据集的数量为100。
4.将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C。为每个计算节点的CPU核心分配一个算法执行队列,共计30个。
5.将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;6.按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。

Claims (2)

1.一种面向海量数据的并行互相关计算方法,其特征在于,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。
2.根据权利要求1所述的面向海量数据的并行互相关计算方法,其特征在于:步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
CN201811545983.1A 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法 Active CN109726354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545983.1A CN109726354B (zh) 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545983.1A CN109726354B (zh) 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法

Publications (2)

Publication Number Publication Date
CN109726354A true CN109726354A (zh) 2019-05-07
CN109726354B CN109726354B (zh) 2022-12-20

Family

ID=66297636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545983.1A Active CN109726354B (zh) 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法

Country Status (1)

Country Link
CN (1) CN109726354B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275203A (zh) * 2019-06-25 2019-09-24 山东交通学院 面向海量数据的相对波速变化计算的并行化方法及应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734829A (en) * 1995-10-20 1998-03-31 International Business Machines Corporation Method and program for processing a volume of data on a parallel computer system
CN101770542A (zh) * 2010-02-25 2010-07-07 中国科学院上海光学精密机械研究所 集群计算机模拟电磁波传播的方法
CN102599977A (zh) * 2011-01-19 2012-07-25 通用电气公司 用于显示波形信息的系统、方法和用户接口
US20120203523A1 (en) * 2011-02-09 2012-08-09 Advanced Geophysical Technology Inc. Method and System to Reduce: Memory Requirements, Device-to-Host Transfer Bandwidth Requirements, and Setup Time, for Seismic Modeling on Graphics Processing Units
CN107656307A (zh) * 2016-07-26 2018-02-02 中国石油化工股份有限公司 全波形反演计算方法及系统
CN108228970A (zh) * 2017-12-11 2018-06-29 上海交通大学 结构动力学分析显式异步长并行计算方法
CN108398719A (zh) * 2018-01-25 2018-08-14 中国科学技术大学 地震波数据的处理方法及装置
CN108470155A (zh) * 2018-03-06 2018-08-31 中国船舶重工集团公司第七二四研究所 一种雷达辐射源个体识别的大规模流式数据处理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734829A (en) * 1995-10-20 1998-03-31 International Business Machines Corporation Method and program for processing a volume of data on a parallel computer system
CN101770542A (zh) * 2010-02-25 2010-07-07 中国科学院上海光学精密机械研究所 集群计算机模拟电磁波传播的方法
CN102599977A (zh) * 2011-01-19 2012-07-25 通用电气公司 用于显示波形信息的系统、方法和用户接口
US20120203523A1 (en) * 2011-02-09 2012-08-09 Advanced Geophysical Technology Inc. Method and System to Reduce: Memory Requirements, Device-to-Host Transfer Bandwidth Requirements, and Setup Time, for Seismic Modeling on Graphics Processing Units
CN107656307A (zh) * 2016-07-26 2018-02-02 中国石油化工股份有限公司 全波形反演计算方法及系统
CN108228970A (zh) * 2017-12-11 2018-06-29 上海交通大学 结构动力学分析显式异步长并行计算方法
CN108398719A (zh) * 2018-01-25 2018-08-14 中国科学技术大学 地震波数据的处理方法及装置
CN108470155A (zh) * 2018-03-06 2018-08-31 中国船舶重工集团公司第七二四研究所 一种雷达辐射源个体识别的大规模流式数据处理方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HONGWEI GAO: "Parallel 3-D simulation of seismic wave propagation in heterogeneous anisotropic media: a grid method approach", 《EOPHYSICAL JOURNAL INTERNATIONAL》 *
关雪峰: "时空大数据背景下并行数据处理分析挖掘的进展及趋势", 《地理科学进展》 *
司冠南: "面向移动应用软件信息泄露的模型检测研究", 《计算机学报》 *
朱丽: "老年人动作识别系统研究", 《计算机工程与应用》 *
王鹏: "2017年九寨沟MS7.0地震序列活动特征分析", 《中国地震》 *
邹锐: "利用祁连山主动源资料研究2016 年门源6.4 级地震前后波速变化", 《中国地震》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275203A (zh) * 2019-06-25 2019-09-24 山东交通学院 面向海量数据的相对波速变化计算的并行化方法及应用

Also Published As

Publication number Publication date
CN109726354B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
Clark et al. Evaluation of subgrid-scale models using an accurately simulated turbulent flow
Tikir et al. PSINS: An open source event tracer and execution simulator for MPI applications
CN102411091B (zh) 检测多路信号稳定度的装置和检测方法
Fielitz Stationarity of random data: some implications for the distribution of stock price changes
Schehr et al. Exact record and order statistics of random walks via first-passage ideas
Chaudhry et al. A simple and complete computational analysis of MAP/R/1 queue using roots
CN109033439B (zh) 流式数据的处理方法和装置
CN104407510B (zh) 一种授时的方法和装置
CN108020282A (zh) 基于复系数滤波的科氏质量流量计信号处理方法
CN103365965A (zh) 一种数据的汇总处理方法和装置
Wei et al. Queue size distribution and capacity optimum design for N-policy Geo (λ1, λ2, λ3)/G/1 queue with setup time and variable input rate
Krishnaiah Developments in statistics
CN109726354A (zh) 一种面向海量数据的并行互相关计算方法
CN105242873B (zh) 云计算系统的性能数据的采集与存储方法及装置
CN107121581A (zh) 一种数据采集系统的数据处理方法
Lehmer et al. An application of high-speed computing to Fermat's last theorem
Ki et al. Variational phylodynamic inference using pandemic-scale data
CN202230133U (zh) 频率信号稳定度多路检定装置
CN201331680Y (zh) 基于fpga的时间间隔测量仪
Ikram et al. Measuring power and energy consumption of programs running on kepler GPUs
Zhou et al. Improving design of a PVDF grain loss sensor for combine harvester
Jacoby et al. Parameter value computation by least square method and evaluation of software availability and reliability at service-operation by the hyper-geometric distribution software reliability growth model (HGDM)
Li et al. Spectral simulations of wall-bounded flows on massively-parallel computers
CN110502331A (zh) 一种临床医疗数据的异构计算方法
CN111324868A (zh) 一种超声波水表滤除异常干扰的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240709

Address after: 1210-12, 12th Floor, Hanyu Jingu Artificial Intelligence Building, High tech Zone, Jinan City, Shandong Province, 250000

Patentee after: Shandong Huayu Information Technology Co.,Ltd.

Country or region after: China

Address before: 250357 No.5 Jiaoxiao Road, Jinan City, Shandong Province

Patentee before: SHANDONG JIAOTONG University

Country or region before: China