CN109726354A - 一种面向海量数据的并行互相关计算方法 - Google Patents
一种面向海量数据的并行互相关计算方法 Download PDFInfo
- Publication number
- CN109726354A CN109726354A CN201811545983.1A CN201811545983A CN109726354A CN 109726354 A CN109726354 A CN 109726354A CN 201811545983 A CN201811545983 A CN 201811545983A CN 109726354 A CN109726354 A CN 109726354A
- Authority
- CN
- China
- Prior art keywords
- cross
- correlation calculation
- waveform element
- data collection
- distributed data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 39
- 238000013480 data collection Methods 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
一种面向海量数据的并行互相关计算方法,包括如下步骤:a)分割成
Description
技术领域
本发明涉及互相关计算领域,具体涉及一种面向海量数据的并行互相关计算方法。
背景技术
互相关是信号分析里的概念,它表示的是两个时间序列之间相关程度。互相关函数给出了在频域内两个信号是否相关的一个判断指标,把两测点之间信号的互谱与各自的自谱联系了起来。它能用来确定输出信号有多大程度来自输入信号,对修正测量中接入噪声源而产生的误差非常有效。
目前互相关算法已广泛应用于地震波形处理、音视频信号、等领域。主要步骤包括信号滤波和互相关函数计算。但随着计算机技术的飞速发展,数据量大大增加,传统的串行化互相关算法面向海量数据时存在计算速度慢、消耗时间长等问题,已不能满足日常业务的需求。
发明内容
本发明为了克服以上技术的不足,提供了一种提高互相关计算速度的面向海量数据的并行互相关计算方法。
本发明克服其技术问题所采用的技术方案是:
一种面向海量数据的并行互相关计算方法,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。优选的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
本发明的有益效果是:通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。
具体实施方式
下面对本发明做进一步说明。
一种面向海量数据的并行互相关计算方法,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。本发明的面向海量数据的并行互相关计算方法通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。进一步的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
下面以地震波形处理为例,样本数据时间跨度为1周,采样周期为1ms,总数据量7×24×60×60×1000=604800000条。采用3个计算节点进行处理,每个计算节点配置10核心CPU和32GB内存。处理步骤如下:
1.为进行并行计算,首先需要将信号的波形文件按照时间序列分割成多个波形单元,每个波形单元的时间单位要比数据采样的时间单位大两个以上,采样周期单位为毫秒,因此采用小时为分割时间单位,即:每1小时数据分割为一个数据文件,共分为7×24×60=10080个文件,每个文件占用6MB存储空间。
2.按照波形的实际时间顺序为步骤1中的每个波形单元做时间戳标记,该标记与整个流程结束后各波形单元计算结果中的时间戳一一对应。时间戳格式为××××-××-××_××:00:00。
3.根据公式NC=S×C×5、NM=U×C×Vu/Vm、
将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量。本实施例中计算节点的数量为3,计算节点的CPU核心数为10,波形单元数量为10080,每个计算节点的内存容量32GB,每个波形单元所占用存储空间的容量为6MB。经计算,数据集的数量为100。
4.将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C。为每个计算节点的CPU核心分配一个算法执行队列,共计30个。
5.将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;6.按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。
Claims (2)
1.一种面向海量数据的并行互相关计算方法,其特征在于,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。
2.根据权利要求1所述的面向海量数据的并行互相关计算方法,其特征在于:步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811545983.1A CN109726354B (zh) | 2018-12-18 | 2018-12-18 | 一种面向海量数据的并行互相关计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811545983.1A CN109726354B (zh) | 2018-12-18 | 2018-12-18 | 一种面向海量数据的并行互相关计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726354A true CN109726354A (zh) | 2019-05-07 |
CN109726354B CN109726354B (zh) | 2022-12-20 |
Family
ID=66297636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811545983.1A Active CN109726354B (zh) | 2018-12-18 | 2018-12-18 | 一种面向海量数据的并行互相关计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726354B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275203A (zh) * | 2019-06-25 | 2019-09-24 | 山东交通学院 | 面向海量数据的相对波速变化计算的并行化方法及应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5734829A (en) * | 1995-10-20 | 1998-03-31 | International Business Machines Corporation | Method and program for processing a volume of data on a parallel computer system |
CN101770542A (zh) * | 2010-02-25 | 2010-07-07 | 中国科学院上海光学精密机械研究所 | 集群计算机模拟电磁波传播的方法 |
CN102599977A (zh) * | 2011-01-19 | 2012-07-25 | 通用电气公司 | 用于显示波形信息的系统、方法和用户接口 |
US20120203523A1 (en) * | 2011-02-09 | 2012-08-09 | Advanced Geophysical Technology Inc. | Method and System to Reduce: Memory Requirements, Device-to-Host Transfer Bandwidth Requirements, and Setup Time, for Seismic Modeling on Graphics Processing Units |
CN107656307A (zh) * | 2016-07-26 | 2018-02-02 | 中国石油化工股份有限公司 | 全波形反演计算方法及系统 |
CN108228970A (zh) * | 2017-12-11 | 2018-06-29 | 上海交通大学 | 结构动力学分析显式异步长并行计算方法 |
CN108398719A (zh) * | 2018-01-25 | 2018-08-14 | 中国科学技术大学 | 地震波数据的处理方法及装置 |
CN108470155A (zh) * | 2018-03-06 | 2018-08-31 | 中国船舶重工集团公司第七二四研究所 | 一种雷达辐射源个体识别的大规模流式数据处理方法 |
-
2018
- 2018-12-18 CN CN201811545983.1A patent/CN109726354B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5734829A (en) * | 1995-10-20 | 1998-03-31 | International Business Machines Corporation | Method and program for processing a volume of data on a parallel computer system |
CN101770542A (zh) * | 2010-02-25 | 2010-07-07 | 中国科学院上海光学精密机械研究所 | 集群计算机模拟电磁波传播的方法 |
CN102599977A (zh) * | 2011-01-19 | 2012-07-25 | 通用电气公司 | 用于显示波形信息的系统、方法和用户接口 |
US20120203523A1 (en) * | 2011-02-09 | 2012-08-09 | Advanced Geophysical Technology Inc. | Method and System to Reduce: Memory Requirements, Device-to-Host Transfer Bandwidth Requirements, and Setup Time, for Seismic Modeling on Graphics Processing Units |
CN107656307A (zh) * | 2016-07-26 | 2018-02-02 | 中国石油化工股份有限公司 | 全波形反演计算方法及系统 |
CN108228970A (zh) * | 2017-12-11 | 2018-06-29 | 上海交通大学 | 结构动力学分析显式异步长并行计算方法 |
CN108398719A (zh) * | 2018-01-25 | 2018-08-14 | 中国科学技术大学 | 地震波数据的处理方法及装置 |
CN108470155A (zh) * | 2018-03-06 | 2018-08-31 | 中国船舶重工集团公司第七二四研究所 | 一种雷达辐射源个体识别的大规模流式数据处理方法 |
Non-Patent Citations (6)
Title |
---|
HONGWEI GAO: "Parallel 3-D simulation of seismic wave propagation in heterogeneous anisotropic media: a grid method approach", 《EOPHYSICAL JOURNAL INTERNATIONAL》 * |
关雪峰: "时空大数据背景下并行数据处理分析挖掘的进展及趋势", 《地理科学进展》 * |
司冠南: "面向移动应用软件信息泄露的模型检测研究", 《计算机学报》 * |
朱丽: "老年人动作识别系统研究", 《计算机工程与应用》 * |
王鹏: "2017年九寨沟MS7.0地震序列活动特征分析", 《中国地震》 * |
邹锐: "利用祁连山主动源资料研究2016 年门源6.4 级地震前后波速变化", 《中国地震》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275203A (zh) * | 2019-06-25 | 2019-09-24 | 山东交通学院 | 面向海量数据的相对波速变化计算的并行化方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN109726354B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Clark et al. | Evaluation of subgrid-scale models using an accurately simulated turbulent flow | |
Tikir et al. | PSINS: An open source event tracer and execution simulator for MPI applications | |
CN102411091B (zh) | 检测多路信号稳定度的装置和检测方法 | |
Fielitz | Stationarity of random data: some implications for the distribution of stock price changes | |
Schehr et al. | Exact record and order statistics of random walks via first-passage ideas | |
Chaudhry et al. | A simple and complete computational analysis of MAP/R/1 queue using roots | |
CN109033439B (zh) | 流式数据的处理方法和装置 | |
CN104407510B (zh) | 一种授时的方法和装置 | |
CN108020282A (zh) | 基于复系数滤波的科氏质量流量计信号处理方法 | |
CN103365965A (zh) | 一种数据的汇总处理方法和装置 | |
Wei et al. | Queue size distribution and capacity optimum design for N-policy Geo (λ1, λ2, λ3)/G/1 queue with setup time and variable input rate | |
Krishnaiah | Developments in statistics | |
CN109726354A (zh) | 一种面向海量数据的并行互相关计算方法 | |
CN105242873B (zh) | 云计算系统的性能数据的采集与存储方法及装置 | |
CN107121581A (zh) | 一种数据采集系统的数据处理方法 | |
Lehmer et al. | An application of high-speed computing to Fermat's last theorem | |
Ki et al. | Variational phylodynamic inference using pandemic-scale data | |
CN202230133U (zh) | 频率信号稳定度多路检定装置 | |
CN201331680Y (zh) | 基于fpga的时间间隔测量仪 | |
Ikram et al. | Measuring power and energy consumption of programs running on kepler GPUs | |
Zhou et al. | Improving design of a PVDF grain loss sensor for combine harvester | |
Jacoby et al. | Parameter value computation by least square method and evaluation of software availability and reliability at service-operation by the hyper-geometric distribution software reliability growth model (HGDM) | |
Li et al. | Spectral simulations of wall-bounded flows on massively-parallel computers | |
CN110502331A (zh) | 一种临床医疗数据的异构计算方法 | |
CN111324868A (zh) | 一种超声波水表滤除异常干扰的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240709 Address after: 1210-12, 12th Floor, Hanyu Jingu Artificial Intelligence Building, High tech Zone, Jinan City, Shandong Province, 250000 Patentee after: Shandong Huayu Information Technology Co.,Ltd. Country or region after: China Address before: 250357 No.5 Jiaoxiao Road, Jinan City, Shandong Province Patentee before: SHANDONG JIAOTONG University Country or region before: China |