CN109726354B - 一种面向海量数据的并行互相关计算方法 - Google Patents

一种面向海量数据的并行互相关计算方法 Download PDF

Info

Publication number
CN109726354B
CN109726354B CN201811545983.1A CN201811545983A CN109726354B CN 109726354 B CN109726354 B CN 109726354B CN 201811545983 A CN201811545983 A CN 201811545983A CN 109726354 B CN109726354 B CN 109726354B
Authority
CN
China
Prior art keywords
cross
waveform
correlation
distributed data
correlation calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811545983.1A
Other languages
English (en)
Other versions
CN109726354A (zh
Inventor
司冠南
蔡寅
张明
周风余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jiaotong University
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN201811545983.1A priority Critical patent/CN109726354B/zh
Publication of CN109726354A publication Critical patent/CN109726354A/zh
Application granted granted Critical
Publication of CN109726354B publication Critical patent/CN109726354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

一种面向海量数据的并行互相关计算方法,包括如下步骤:a)分割成

Description

一种面向海量数据的并行互相关计算方法
技术领域
本发明涉及互相关计算领域,具体涉及一种面向海量数据的并行互相关计算方法。
背景技术
互相关是信号分析里的概念,它表示的是两个时间序列之间相关程度。互相关函数给出了在频域内两个信号是否相关的一个判断指标,把两测点之间信号的互谱与各自的自谱联系了起来。它能用来确定输出信号有多大程度来自输入信号,对修正测量中接入噪声源而产生的误差非常有效。
目前互相关算法已广泛应用于地震波形处理、音视频信号、等领域。主要步骤包括信号滤波和互相关函数计算。但随着计算机技术的飞速发展,数据量大大增加,传统的串行化互相关算法面向海量数据时存在计算速度慢、消耗时间长等问题,已不能满足日常业务的需求。
发明内容
本发明为了克服以上技术的不足,提供了一种提高互相关计算速度的面向海量数据的并行互相关计算方法。
本发明克服其技术问题所采用的技术方案是:
一种面向海量数据的并行互相关计算方法,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm
Figure BDA0001909552880000011
将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。优选的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
本发明的有益效果是:通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。
具体实施方式
下面对本发明做进一步说明。
一种面向海量数据的并行互相关计算方法,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm
Figure BDA0001909552880000021
将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。本发明的面向海量数据的并行互相关计算方法通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。进一步的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
下面以地震波形处理为例,样本数据时间跨度为1周,采样周期为1ms,总数据量7×24×60×60×1000=604800000条。采用3个计算节点进行处理,每个计算节点配置10核心CPU和32GB内存。处理步骤如下:
1.为进行并行计算,首先需要将信号的波形文件按照时间序列分割成多个波形单元,每个波形单元的时间单位要比数据采样的时间单位大两个以上,采样周期单位为毫秒,因此采用小时为分割时间单位,即:每1小时数据分割为一个数据文件,共分为7×24×60=10080个文件,每个文件占用6MB存储空间。
2.按照波形的实际时间顺序为步骤1中的每个波形单元做时间戳标记,该标记与整个流程结束后各波形单元计算结果中的时间戳一一对应。时间戳格式为××××-××-××_××:00:00。
3.根据公式NC=S×C×5、NM=U×C×Vu/Vm
Figure BDA0001909552880000031
将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量。本实施例中计算节点的数量为3,计算节点的CPU核心数为10,波形单元数量为10080,每个计算节点的内存容量32GB,每个波形单元所占用存储空间的容量为6MB。经计算,数据集的数量为100。
4.将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C。为每个计算节点的CPU核心分配一个算法执行队列,共计30个。
5.将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;6.按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。

Claims (2)

1.一种面向海量数据的并行互相关计算方法,其特征在于,包括如下步骤:
a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;
b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;
c)根据公式NC=S×C×5、NM=U×C×Vu/Vm
Figure FDA0001909552870000011
将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;
d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;
e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;
f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。
2.根据权利要求1所述的面向海量数据的并行互相关计算方法,其特征在于:步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。
CN201811545983.1A 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法 Active CN109726354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545983.1A CN109726354B (zh) 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545983.1A CN109726354B (zh) 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法

Publications (2)

Publication Number Publication Date
CN109726354A CN109726354A (zh) 2019-05-07
CN109726354B true CN109726354B (zh) 2022-12-20

Family

ID=66297636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545983.1A Active CN109726354B (zh) 2018-12-18 2018-12-18 一种面向海量数据的并行互相关计算方法

Country Status (1)

Country Link
CN (1) CN109726354B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275203B (zh) * 2019-06-25 2020-11-24 山东交通学院 面向海量数据的相对波速变化计算的并行化方法及应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734829A (en) * 1995-10-20 1998-03-31 International Business Machines Corporation Method and program for processing a volume of data on a parallel computer system
CN101770542A (zh) * 2010-02-25 2010-07-07 中国科学院上海光学精密机械研究所 集群计算机模拟电磁波传播的方法
CN102599977A (zh) * 2011-01-19 2012-07-25 通用电气公司 用于显示波形信息的系统、方法和用户接口
CN107656307A (zh) * 2016-07-26 2018-02-02 中国石油化工股份有限公司 全波形反演计算方法及系统
CN108228970A (zh) * 2017-12-11 2018-06-29 上海交通大学 结构动力学分析显式异步长并行计算方法
CN108398719A (zh) * 2018-01-25 2018-08-14 中国科学技术大学 地震波数据的处理方法及装置
CN108470155A (zh) * 2018-03-06 2018-08-31 中国船舶重工集团公司第七二四研究所 一种雷达辐射源个体识别的大规模流式数据处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972234B2 (en) * 2011-02-09 2015-03-03 Advanced Geophysical Technology Inc. Method and system to reduce: memory requirements, device-to-host transfer bandwidth requirements, and setup time, for seismic modeling on graphics processing units

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734829A (en) * 1995-10-20 1998-03-31 International Business Machines Corporation Method and program for processing a volume of data on a parallel computer system
CN101770542A (zh) * 2010-02-25 2010-07-07 中国科学院上海光学精密机械研究所 集群计算机模拟电磁波传播的方法
CN102599977A (zh) * 2011-01-19 2012-07-25 通用电气公司 用于显示波形信息的系统、方法和用户接口
CN107656307A (zh) * 2016-07-26 2018-02-02 中国石油化工股份有限公司 全波形反演计算方法及系统
CN108228970A (zh) * 2017-12-11 2018-06-29 上海交通大学 结构动力学分析显式异步长并行计算方法
CN108398719A (zh) * 2018-01-25 2018-08-14 中国科学技术大学 地震波数据的处理方法及装置
CN108470155A (zh) * 2018-03-06 2018-08-31 中国船舶重工集团公司第七二四研究所 一种雷达辐射源个体识别的大规模流式数据处理方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
2017年九寨沟MS7.0地震序列活动特征分析;王鹏;《中国地震》;20171215;第33卷(第04期);435-462 *
Parallel 3-D simulation of seismic wave propagation in heterogeneous anisotropic media: a grid method approach;Hongwei Gao;《eophysical Journal International》;20060630;第165卷(第3期);875–888 *
利用祁连山主动源资料研究2016 年门源6.4 级地震前后波速变化;邹锐;《中国地震》;20180615;第34卷(第2期);283-292 *
时空大数据背景下并行数据处理分析挖掘的进展及趋势;关雪峰;《地理科学进展》;20181015;第37卷(第10期);1314-1327 *
老年人动作识别系统研究;朱丽;《计算机工程与应用》;20170715;第53卷(第14期);24-38 *
面向移动应用软件信息泄露的模型检测研究;司冠南;《计算机学报》;20161115;第39卷(第11期);2325-2343 *

Also Published As

Publication number Publication date
CN109726354A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN108874535B (zh) 一种任务调节方法、计算机可读存储介质及终端设备
US8898422B2 (en) Workload-aware distributed data processing apparatus and method for processing large data based on hardware acceleration
CN109726354B (zh) 一种面向海量数据的并行互相关计算方法
CN109033439A (zh) 流式数据的处理方法和装置
CN109669995A (zh) 数据存储、质量计算方法、装置、存储介质及服务器
CN110265002A (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN109194307A (zh) 数据处理方法及系统
CN110069444A (zh) 一种计算单元、阵列、模块、硬件系统及实现方法
CN109271133A (zh) 一种数据处理方法及系统
Zhu et al. DCASE 2019 challenge task1 technical report
CN101025919B (zh) 音频解码中的合成子带滤波方法和合成子带滤波器
CN104202209B (zh) 一种基于cuda的多体制信号频率快速捕获实现方法
KR101307337B1 (ko) 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법
CN102684831B (zh) 一种数字多通道相关处理系统及用于该系统中的缓存模块的输出方法
Wu et al. A new data-grouping-aware dynamic data placement method that take into account jobs execute frequency for Hadoop
Lin et al. Hard-odt: Hardware-friendly online decision tree learning algorithm and system
CN109359109A (zh) 一种基于分布式流计算的数据处理方法及系统
CN106021188A (zh) 浮点矩阵求逆的并行硬件架构和并行计算方法
CN109597680A (zh) 任务排队响应参数估算方法及装置
Zhou et al. A tandem network with a sharing buffer
CN104598600B (zh) 一种基于分布式内存的并行数字地形分析优化方法
CN107220166A (zh) 一种cpu占用率的统计方法及装置
WO2021164145A1 (zh) 基于fpga的大型射电干涉阵列相关器的实现方法及装置
CN104068851B (zh) 基于fpga的脑电信号采集系统和方法
Yamaguchi et al. Matched filtering accelerated by tensor cores on volta gpus with improved accuracy using half-precision variables

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant