CN114443883A - 一种基于大数据和云计算的数据处理方法、系统及介质 - Google Patents

一种基于大数据和云计算的数据处理方法、系统及介质 Download PDF

Info

Publication number
CN114443883A
CN114443883A CN202210123859.6A CN202210123859A CN114443883A CN 114443883 A CN114443883 A CN 114443883A CN 202210123859 A CN202210123859 A CN 202210123859A CN 114443883 A CN114443883 A CN 114443883A
Authority
CN
China
Prior art keywords
data
preset
observation
observation data
seismic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210123859.6A
Other languages
English (en)
Other versions
CN114443883B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Distributed Software Co ltd
Original Assignee
Beijing Yongli Xinda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yongli Xinda Technology Co ltd filed Critical Beijing Yongli Xinda Technology Co ltd
Priority to CN202210123859.6A priority Critical patent/CN114443883B/zh
Publication of CN114443883A publication Critical patent/CN114443883A/zh
Application granted granted Critical
Publication of CN114443883B publication Critical patent/CN114443883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请实施例提供的一种基于大数据和云计算的数据处理方法、系统及介质,解决了现有的地震观测数据处理方法不能有效的识别海量数据中的异常数据的技术问题。方法包括:基于预设MapReduce算法将地震观测数据文件处理为对应的标准地震观测数据,并导入到预设HBase数据库中;基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图;通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定匹配率;在匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。本申请通过上述方法可以有效的识别海量数据中的异常数据。

Description

一种基于大数据和云计算的数据处理方法、系统及介质
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种基于大数据和云计算的数据处理方法、系统及介质。
背景技术
地震观测数据的异常判定是地震预报的基础,对观测数据异常实质的认识是提高地震预报水平的关键所在。通过历史数据的积累和数字化地震观测网的观测产出,形成了海量的地震观测数据。近年来,为了能够快速、有效地从这些海量的观测资料中提取可用的地震前兆信息,寻找大地震前各种作为可能前兆的观测量或其导出量的变化特征和规律,从而逐步提高地震预测的客观性和可靠性,人们正努力于利用计算机系统和计算机处理方法对海量的地震观测数据进行分析处理,旨在能够自动识别异常。
随着地震观测数据库的不断增大、观测数据种类和时间跨度不断增加,相应地网络中待综合分析的数据量也急剧增加。如何利用大数据和云计算在观测数据中准确地识别各种异常数据,为地震监测预报和科学研究服务成为亟待解决的问题。
发明内容
本申请实施例提供了一种基于大数据和云计算的数据处理方法、系统及介质,解决了现有的地震观测数据处理方法不能有效的识别海量数据中的异常数据的技术问题。
第一方面,本申请实施例提供了一种基于大数据和云计算的数据处理方法,其特征在于,方法包括:基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据;通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中;基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图;通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定第一特征点序列与第二特征点序列的匹配率;其中,第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。
本申请实施例提供的一种基于大数据和云计算的数据处理方法,在将大量地震观测设备生成的地震观测数据文件导入到预设HBase数据库中后,通过利用预设HBase数据库的快速读写功能,可以实现对地震观测数据文件及时处理。本申请在地震观测数据文件对应的标准地震观测数据导入到预设HBase数据库中后,通过预设的曲线生成算法将标准地震观测数据中的噪点剔除,并生成对应的地震观测波形图;然后通过预设的SURF算法对地震波形图进行分析,确定该地震观测波形图对应的地震观测数据文件中的数据是否是异常数据,从而实现对地震的监测预报。
在本申请的一种实现方式中,基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据,具体包括:基于预设MapReduce算法,将地震观测数据文件中包含的文件头信息与观测数据内容进行分割处理,以得到分离的文件头信息与观测数据内容;其中,文件头信息包括地震观测设备的编号、经纬度,以及地震观测数据文件的生成时间;观测数据内容包括若干个观测数据,观测数据包括观测数值及相应的观测时间;基于预设MapReduce算法中预设的行键格式、分离的文件头信息与观测数据内容,确定地震观测数据文件对应的标准地震观测数据;其中,行键格式为预设HBase数据库对应的存储数据结构,文件头信息构成标准地震观测数据的行,观测数据内容构成标准地震观测数据的键。
在本申请的一种实现方式中,基于预设MapReduce算法,将地震观测数据文件中包含的文件头信息与观测数据内容进行分割处理,以得到分离的文件头信息与观测数据内容,具体包括:基于预设MapReduce算法,对地震观测数据文件的进行自上向下的读取,并同时将读取内容与预设MapReduce算法中包含的文件头信息结束标识进行匹配;在确定读取得到地震观测数据文件中的文件头信息结束标识的情况下,将地震观测数据文件中文件头信息结束标识的前后内容进行分割处理,以得到分离的文件头信息与观测数据内容。
在本申请的一种实现方式中,通过SURF算法,提取地震观测波形图中的第一特征点序列,具体包括:确定第一地震观测波形图对应的图像金字塔;其中,图像金字塔用于描述不同分辨率下的第一地震观测波形图;将图像金字塔各层图像中的像素点均通过黑塞矩阵处理,以确定各像素点的黑塞值;在任一像素点的黑塞值均大于或小于邻近的第一预设数量个像素点以及相应上下图像层中邻近的第二预设数量个像素点的情况下,确定该像素点为一个特征点。
在本申请的一种实现方式中,确定第一特征点序列与第二特征点序列的匹配率,具体包括:将第一特征点序列中各特征点的黑塞值与第二特征点序列中相应序号特征点的黑塞值进行作差比较;其中,第一特征点序列中的特征点数量等于第二特征点序列中的特征点数量;在确定差的绝对值均小于第二预设阈值的情况下,确定第一特征点序列与第二特征点序列相似;在确定第一特征点序列与第二特征点序列相似的情况下,分别确定第一特征点序列与第二特征点序列中各相邻特征点间的趋势变化时间以及各相邻特征点在地震观测波形图中所构成线段的斜率,并基于趋势变化时间与斜率,确定第一特征点序列与第二特征点序列的匹配率。
在本申请的一种实现方式中,基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图,具体包括:将标准地震观测数据中的观测数据内容通过聚类分析处理,以得到相关数据集;对相关数据集通过最小二乘法拟合,生成第一地震观测波形图。
在本申请的一种实现方式中,将标准地震观测数据中的观测数据内容通过聚类分析处理,以得到相关数据集,具体包括:在若干个观测数据中,确定相同观测数值出现次数最多的观测数据为相关数据,并将相关数据加入到相关数据集;根据预设的聚类规则,在若干个观测数据的剩余观测数据中,将与相关数据存在相关性的观测数据加入到相关数据集;基于预设的聚类规则与相关数据集中的相关数据,循环遍历剩余观测数据,直至剩余观测数据与相关数据集中的相关数据均无相关性。
在本申请的一种实现方式中,确定地震观测数据文件为异常数据文件之后,方法还包括:基于第一特征点序列与第二特征点序列的匹配率确定告警等级,并基于标准地震观测数据对应的文件头信息以及告警等级,向监控中心发送告警信息。
第二方面,本申请实施例还提供了一种基于大数据和云计算的数据处理系统,其特征在于,系统包括:预处理模块、数据导入模块、数据转换模块、序列匹配模块、异常数据文件确定模块;预处理模块,用于基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据;数据导入模块,用于通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中;数据转换模块,用于基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图;序列匹配模块,用于通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定第一特征点序列与第二特征点序列的匹配率;其中,第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;异常数据文件确定模块,用于在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。
第三方面吧,本申请实施例还提供了一种基于大数据和云计算的数据处理的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,计算机可执行指令设置为:基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据;通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中;基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图;通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定第一特征点序列与第二特征点序列的匹配率;其中,第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于大数据和云计算的数据处理方法流程图;
图2为本申请实施例提供的一种基于大数据和云计算的数据处理系统结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
地震具有极其强大的破坏力,自古以来,大地震对我国造成社会经济损失与百姓伤亡都是巨大的。我国地理位置特殊,被印度洋板块、菲律宾板块、太平洋板块所夹持,是世界上地震发生最为频繁的国家之一。如此巨大的危害自然引起了我国对于地震灾害的高度重视,自八十年代开启了“九五”数字化台网建设计划,截止到现在,地震数字化台网已经基本覆盖了全国范围,积累了大量高精度的地电、地磁等观测数据。随着地震前兆观测数据库的不断增大、观测数据种类和时间跨度不断增加,相应地网络中待综合分析的数据量也急剧增加。如何有效排除噪声和干扰,在观测数据中准确地识别各种异常模式,为地震监测预报和科学研究服务,是一项非常有意义的工作。
本申请实施例提供了一种基于大数据和云计算的数据处理方法、系统及介质,解决了现有的地震观测数据处理方法不能有效的识别海量数据中的异常数据的技术问题。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种基于大数据和云计算的数据处理方法流程图。如图1所示,本申请实施例提供的一种基于大数据和云计算的数据处理方法,具体包括以下步骤:
步骤101、基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据。
需要说明的是,现有的地震观测设备观测的地震观测数据包括大地形变场、应力应变场、重力场、地下流体、地磁场等多种观测数据。地震观测设备通过观测相应物理量生成的地震观测数据文件由文件头信息和观测数据内容构成;其中文件头信息包括地震观测设备的编号、经纬度,以及地震观测数据文件的生成时间;观测数据内容包括若干个观测数据,观测数据包括观测数值及相应的观测时间。
在本身的一个实施例中,在若干个地震观测设备通过观测相应物理量生成地震观测数据文件之后,首先基于预设MapReduce算法,对地震观测数据文件的进行自上向下的读取,并同时将读取内容与预设MapReduce算法中包含的文件头信息结束标识进行匹配。可以理解的是,在地震观测数据文件中包含用于区分文件头信息与观测数据内容的文件头信息结束标识。
预设MapReduce算法,在确定读取得到地震观测数据文件中的文件头信息结束标识的情况下,将地震观测数据文件中文件头信息结束标识的前后内容进行分割,并剔除文件头信息结束标识,保留分离的文件头信息与观测数据内容。
在本申请的一个实施例中,在将地震观测数据文件中的文件头信息与观测数据内容进行分割处理后,基于预设MapReduce算法中预设的行键格式,预设MapReduce算法将分割的文件头信息与观测数据内容转换为对应的标准地震观测数据;其中,行键格式为预设HBase数据库对应的存储数据结构,文件头信息构成标准地震观测数据的行,观测数据内容构成标准地震观测数据的键。
步骤102、通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中。
在本身的一个实施例中,在将地震观测数据文件转换为对应的标准地震观测数据之后,通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中。
需要说明的是,HBase数据库是基于Hadoop分布式文件系统构建的面向列的分布式数据库,HBase数据库允许使用键值对数据实时对大型数据集执行读写操作。凭借键值存储和高效的读写操作,HBase被公认为是最出色的分布式存储之一。它具有灵活性,可伸缩性的特点,可以动态增加丰富的接口,可以很好地集成到Hadoop的工作流中。因此本申请采用HBase数据库对地震观测设备生成的地震观测数据文件进行存储。
步骤103、基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图。
在本申请的一个实施例中,在将标准地震观测数据导入到预设HBase数据库中之后,基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图。
具体地,首先在标准地震观测数据包含的干个观测数据中,确定相同观测数值出现次数最多的观测数据为相关数据,并将相关数据加入到相关数据集。可以理解的是,拥有相同观测数值且出现次数最多的观测数据包含若干个,因此加入到相关数据集中的相关数据也包含若干个,即在若干个观测数据中,确定相同观测数值出现次数最多的观测数据均为相关数据。
另外,需要说明的是,由于采集到的地震观测数据均为按照不规则频率震荡的震荡数据,即使是异常数据也是存在某种上升趋势或者下降趋势情况下的震荡数据,而噪点数据是一些与震荡数据在时间和数值上与震荡数据没有相关性的数据,因此,可以选择观测数据中相同观测数值出现次数最多的观测数据为相关数据。
在确定相同观测数值出现次数最多的观测数据为相关数据并加入到相关数据集之后,根据预设的聚类规则,在若干个观测数据的剩余观测数据中,将与相关数据存在相关性的观测数据加入到相关数据集。然后,基于预设的聚类规则与相关数据集中的相关数据,循环遍历剩余观测数据,直至剩余观测数据与相关数据集中的相关数据均无相关性。
在本身的一个实施例中,预设的聚类规则为判断剩余观测数据中的各观测数据,其观测数值是否与某一相关数据的观测数值差值小于第三预设阈值,且其观测时间与该相关数据的观测时间间隔小于第四预设阈值。在确定剩余观测数据中存在某一观测数据的观测数值与相关数据集中的某一相关数据的观测数值差值小于第三预设阈值且,其观测时间与该相关数据的观测时间间隔小于第四预设阈值的情况下,确定该观测数据与该相关数据存在相关性,并将该观测数据加入到相关数据集中。
在本身的一个实施例中,在将所述标准地震观测数据中的观测数据内容通过聚类分析处理,以得到相关数据集之后,通过最小二乘法对离散数列的相关数据集进行曲线拟合,以生成第一地震观测波形图。
步骤104、通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定第一特征点序列与第二特征点序列的匹配率。
在本身的一个实施例中,在将标准地震观测数据转换为第一地震观测波形图后,为提取出第一地震观测波形图中的局部描述性特征点,本申请实施例通过SURF算法,提取地震观测波形图中的特征点。需要说明的是,采用SURF算法在第一地震观测波形图提取特征点仍然会具有良好的鲁棒性。
具体地,首先根据SURF算法中预设的图像金字塔模板,对第一地震观测波形图进行卷积运算,以确定第一地震观测波形图对应的图像金字塔;其中,图像金字塔用于描述不同分辨率下的第一地震观测波形图,即将第一地震观测波形图转换成若干个不同像素的第一地震观测波形图,图像金字塔的每层对应一个分辨率,由上到下依次增加,图像金子塔的底层即第一地震观测波形图的原图像。
在确定第一地震观测波形图对应的图像金字塔后,首先将图像金字塔各层图像中的每个像素点均通过黑塞矩阵处理,以确定各像素点的黑塞值。然后遍历图像金子塔中所有像素点,以检测得到第一地震观测波形图对应的第一特征点序列。本申请实施例采用非极大值抑制的方法来检测特征点:在任一像素点的黑塞值均大于或小于邻近的第一预设数量个像素点以及相应上下图像层中邻近的第二预设数量个像素点的情况下,确定该像素点为一个特征点。例如:假设该像素点不是边缘像素点且其上层的邻近范围也不是边缘像素点,在确定邻近范围为1(即直接与上述任一像素点相邻的其他像素点)的情况下,则将该像素点的黑塞值与其所在图像层的8个像素点以及上下两层图像层中9*2个像素点的黑塞值进行比较,如果该像素点的黑塞值均大于或小于这26个像素的黑塞值(即在包括该像素点在内的这27个像素点中,该像素点的黑塞值为最大值或最小值)的情况下,确定该像素点为特征点。
在得到第一特征序列后,首先在震例库中确定与第一特征序列特征点个数相同的第二特征序列;其中,第二特征点序列为基于震例观测数据生成的第二地震观测波形图所对应的特征点序列。然后,将第一特征点序列中各特征点的黑塞值与第二特征点序列中特征点的黑塞值按照对应特征点在特征序列中的序号进行一一作差比较。如果确定第一特征序列与第二特征序列在相应特征点的作差之后,所有差的绝对值均小于第二预设阈值的情况下,确定第一特征点序列与第二特征点序列相似。然后,再分别确定第一特征点序列与第二特征点序列中各相邻特征点间的趋势变化时间以及各相邻特征点在地震观测波形图中所构成线段的斜率,并基于趋势变化时间与斜率,确定第一特征点序列与第二特征点序列的匹配率。
在本申请的一个实施例中,第一特征点序列与第二特征点序列的匹配率可以由以下公式确定:
Figure BDA0003499571270000101
其中,rate为第一特征点序列与第二特征点序列的匹配率,β为斜率的权重,1-α为趋势变化时间的权重,A为第一特征点序列中的特征点数量,ki为第一特征点序列对应线段斜率中的第i个线段的斜率,li为第二特征点序列对应线段斜率中的第i个线段的斜率,ti为第一特征点序列中对应的第i个趋势变化时间,si为第一特征点序列中对应的第i个趋势变化时间。
步骤105、在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。
在本申请的一个实施例中,在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,则确定地震观测数据文件为异常数据文件。然后,基于第一特征点序列与第二特征点序列的匹配率确定告警等级。例如,匹配率在大于60%的情况下确定地震观测数据文件为异常数据文件,则确定匹配率61%-70%为四级告警,确定匹配率71%-80%为三级告警,确定匹配率81%-90%为二级告警,确定匹配率91%-100%为一级告警。
在确定告警等级后,基于该告警等级以及预设Hbase库中,标准地震观测数据对应的文件头信息,向监控中心发送相应的告警信息。
基于同样的发明构思,本申请实施例还提供了一种基于大数据和云计算的数据处理系统,其结构示意图如图2所示。
图2为本申请实施例提供的一种基于大数据和云计算的数据处理系统结构示意图。如图2所示,本申请实施例提供的一种基于大数据和云计算的数据处理系统200包括:预处理模块201、数据导入模块202、数据转换模块203、序列匹配模块204、异常数据文件确定模块205。
本领域技术人员可以理解,图2显示出的一种基于大数据和云计算的数据处理系统结构并不构成对基于大数据和云计算的数据处理系统的限定,实际上,基于大数据和云计算的数据处理系统可以包括比图2所示更多或更少的部件,或者组合某些部件,或者不同部件的布置。
在本申请的一个实施例中,预处理模块201,用于基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据;数据导入模块202,用于通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中;数据转换模块203,用于基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图;序列匹配模块204,用于通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定第一特征点序列与第二特征点序列的匹配率;其中,第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;异常数据文件确定模块205,用于在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。
本申请的一些实施例提供的对应于图1的一种基于大数据和云计算的数据处理的非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定地震观测数据文件对应的标准地震观测数据;
通过预设HBase数据库上的数据导入接口,将标准地震观测数据导入到预设HBase数据库中;
基于预设的曲线生成算法,将标准地震观测数据转换为第一地震观测波形图;
通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定第一特征点序列与第二特征点序列的匹配率;其中,第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;
在确定第一特征点序列与第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定地震观测数据文件为异常数据文件。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于物联网设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的系统和介质与方法是一一对应的,因此,系统和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述系统和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(trans itory med i a),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于大数据和云计算的数据处理方法,其特征在于,所述方法包括:
基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定所述地震观测数据文件对应的标准地震观测数据;
通过预设HBase数据库上的数据导入接口,将所述标准地震观测数据导入到预设HBase数据库中;
基于预设的曲线生成算法,将所述标准地震观测数据转换为第一地震观测波形图;
通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将所述第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定所述第一特征点序列与所述第二特征点序列的匹配率;其中,所述第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;
在确定所述第一特征点序列与所述第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定所述地震观测数据文件为异常数据文件。
2.根据权利要求1所述的一种基于大数据和云计算的数据处理方法,其特征在于,基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定所述地震观测数据文件对应的标准地震观测数据,具体包括:
基于所述预设MapReduce算法,将所述地震观测数据文件中包含的文件头信息与观测数据内容进行分割处理,以得到分离的文件头信息与观测数据内容;其中,所述文件头信息包括所述地震观测设备的编号、经纬度,以及所述地震观测数据文件的生成时间;所述观测数据内容包括若干个观测数据,所述观测数据包括观测数值及相应的观测时间;
基于所述预设MapReduce算法中预设的行键格式、分离的文件头信息与观测数据内容,确定所述地震观测数据文件对应的标准地震观测数据;其中,所述行键格式为所述预设HBase数据库对应的存储数据结构,所述文件头信息构成标准地震观测数据的行,所述观测数据内容构成标准地震观测数据的键。
3.根据权利要求2所述的一种基于大数据和云计算的数据处理方法,其特征在于,基于所述预设MapReduce算法,将所述地震观测数据文件中包含的文件头信息与观测数据内容进行分割处理,以得到分离的文件头信息与观测数据内容,具体包括:
基于所述预设MapReduce算法,对所述地震观测数据文件的进行自上向下的读取,并同时将读取内容与预设MapReduce算法中包含的文件头信息结束标识进行匹配;
在确定读取得到地震观测数据文件中的文件头信息结束标识的情况下,将地震观测数据文件中文件头信息结束标识的前后内容进行分割处理,以得到分离的文件头信息与观测数据内容。
4.根据权利要求3所述的一种基于大数据和云计算的数据处理方法,其特征在于,通过SURF算法,提取地震观测波形图中的第一特征点序列,具体包括:
确定所述第一地震观测波形图对应的图像金字塔;其中,所述图像金字塔用于描述不同分辨率下的所述第一地震观测波形图;
将所述图像金字塔各层图像中的像素点均通过黑塞矩阵处理,以确定各像素点的黑塞值;
在任一像素点的黑塞值均大于或小于邻近的第一预设数量个像素点以及相应上下图像层中邻近的第二预设数量个像素点的情况下,确定该像素点为一个特征点。
5.根据权利要求4所述的一种基于大数据和云计算的数据处理方法,其特征在于,确定所述第一特征点序列与所述第二特征点序列的匹配率,具体包括:
将所述第一特征点序列中各特征点的黑塞值与所述第二特征点序列中相应序号特征点的黑塞值进行作差比较;其中,所述第一特征点序列中的特征点数量等于所述第二特征点序列中的特征点数量;
在确定差的绝对值均小于第二预设阈值的情况下,确定所述第一特征点序列与所述第二特征点序列相似;
在确定所述第一特征点序列与所述第二特征点序列相似的情况下,分别确定所述第一特征点序列与所述第二特征点序列中各相邻特征点间的趋势变化时间以及各相邻特征点在地震观测波形图中所构成线段的斜率,并基于所述趋势变化时间与所述斜率,确定所述第一特征点序列与所述第二特征点序列的匹配率。
6.根据权利要求3所述的一种基于大数据和云计算的数据处理方法,其特征在于,基于预设的曲线生成算法,将所述标准地震观测数据转换为第一地震观测波形图,具体包括:
将所述标准地震观测数据中的观测数据内容通过聚类分析处理,以得到相关数据集;
对所述相关数据集通过最小二乘法拟合,生成所述第一地震观测波形图。
7.根据权利要求6所述的一种基于大数据和云计算的数据处理方法,其特征在于,将所述标准地震观测数据中的观测数据内容通过聚类分析处理,以得到相关数据集,具体包括:
在所述若干个观测数据中,确定相同观测数值出现次数最多的观测数据为相关数据,并将所述相关数据加入到相关数据集;
根据预设的聚类规则,在所述若干个观测数据的剩余观测数据中,将与所述相关数据存在相关性的观测数据加入到所述相关数据集;
基于所述预设的聚类规则与所述相关数据集中的相关数据,循环遍历所述剩余观测数据,直至所述剩余观测数据与所述相关数据集中的相关数据均无相关性。
8.根据权利要求5所述的一种基于大数据和云计算的数据处理方法,其特征在于,确定所述地震观测数据文件为异常数据文件之后,所述方法还包括:
基于所述第一特征点序列与所述第二特征点序列的匹配率确定告警等级,并基于所述标准地震观测数据对应的文件头信息以及所述告警等级,向监控中心发送告警信息。
9.一种基于大数据和云计算的数据处理系统,其特征在于,所述系统包括:预处理模块、数据导入模块、序列匹配模块、异常数据文件确定模块;
所述预处理模块,用于基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定所述地震观测数据文件对应的标准地震观测数据;
所述数据导入模块,用于通过预设HBase数据库上的数据导入接口,将所述标准地震观测数据导入到预设HBase数据库中;
所述数据转换模块,用于基于预设的曲线生成算法,将所述标准地震观测数据转换为第一地震观测波形图;
所述序列匹配模块,用于通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将所述第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定所述第一特征点序列与所述第二特征点序列的匹配率;其中,所述第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;
所述异常数据文件确定模块,用于在确定所述第一特征点序列与所述第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定所述地震观测数据文件为异常数据文件。
10.一种基于大数据和云计算的数据处理的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
基于预设MapReduce算法,将若干个地震观测设备生成的地震观测数据文件进行预处理,以确定所述地震观测数据文件对应的标准地震观测数据;
通过预设HBase数据库上的数据导入接口,将所述标准地震观测数据导入到预设HBase数据库中;
基于预设的曲线生成算法,将所述标准地震观测数据转换为第一地震观测波形图;
通过预设的SURF算法,提取第一地震观测波形图中的第一特征点序列,并将所述第一特征点序列与第二地震观测波形图中包含的第二特征点序列进行匹配,以确定所述第一特征点序列与所述第二特征点序列的匹配率;其中,所述第二地震观测波形图是基于震例库中的震例观测数据生成的波形图;
在确定所述第一特征点序列与所述第二特征点序列的匹配率大于预设第一预设阈值的情况下,确定所述地震观测数据文件为异常数据文件。
CN202210123859.6A 2022-02-10 2022-02-10 一种基于大数据和云计算的数据处理方法、系统及介质 Active CN114443883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210123859.6A CN114443883B (zh) 2022-02-10 2022-02-10 一种基于大数据和云计算的数据处理方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210123859.6A CN114443883B (zh) 2022-02-10 2022-02-10 一种基于大数据和云计算的数据处理方法、系统及介质

Publications (2)

Publication Number Publication Date
CN114443883A true CN114443883A (zh) 2022-05-06
CN114443883B CN114443883B (zh) 2023-07-21

Family

ID=81372470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210123859.6A Active CN114443883B (zh) 2022-02-10 2022-02-10 一种基于大数据和云计算的数据处理方法、系统及介质

Country Status (1)

Country Link
CN (1) CN114443883B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035131A (zh) * 2014-05-23 2014-09-10 中国科学院电子学研究所 一种地壳偏移量估计方法及装置
CN105930794A (zh) * 2016-04-20 2016-09-07 东北大学 一种基于云计算的室内场景识别方法
CN106447775A (zh) * 2016-09-18 2017-02-22 电子科技大学 基于云计算的大规模曲面重建系统
CN107943843A (zh) * 2017-10-31 2018-04-20 上海交通大学 水下边坡勘测多源数据融合及集成显示系统及方法
CN108872962A (zh) * 2018-05-10 2018-11-23 南京航空航天大学 基于分数阶傅里叶变换的激光雷达微弱信号提取和分解方法
CN108921893A (zh) * 2018-04-24 2018-11-30 华南理工大学 一种基于在线深度学习slam的图像云计算方法及系统
CN110968636A (zh) * 2018-09-28 2020-04-07 广州威阿科技有限公司 面向地震预警的多维大数据分析与处理系统
CN111025400A (zh) * 2018-10-10 2020-04-17 中国石油化工股份有限公司 基于Hadoop的地震偏移成像作业续航方法及系统
CN111915128A (zh) * 2020-06-17 2020-11-10 西安交通大学 一种对地震诱发的次生滑坡灾后评估与救援辅助系统
CN112684497A (zh) * 2019-10-17 2021-04-20 中国石油天然气集团有限公司 地震波形聚类方法和装置
CN113791444A (zh) * 2021-09-15 2021-12-14 江苏科技大学 一种基于聚类分析的地震动记录选取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035131A (zh) * 2014-05-23 2014-09-10 中国科学院电子学研究所 一种地壳偏移量估计方法及装置
CN105930794A (zh) * 2016-04-20 2016-09-07 东北大学 一种基于云计算的室内场景识别方法
CN106447775A (zh) * 2016-09-18 2017-02-22 电子科技大学 基于云计算的大规模曲面重建系统
CN107943843A (zh) * 2017-10-31 2018-04-20 上海交通大学 水下边坡勘测多源数据融合及集成显示系统及方法
CN108921893A (zh) * 2018-04-24 2018-11-30 华南理工大学 一种基于在线深度学习slam的图像云计算方法及系统
CN108872962A (zh) * 2018-05-10 2018-11-23 南京航空航天大学 基于分数阶傅里叶变换的激光雷达微弱信号提取和分解方法
CN110968636A (zh) * 2018-09-28 2020-04-07 广州威阿科技有限公司 面向地震预警的多维大数据分析与处理系统
CN111025400A (zh) * 2018-10-10 2020-04-17 中国石油化工股份有限公司 基于Hadoop的地震偏移成像作业续航方法及系统
CN112684497A (zh) * 2019-10-17 2021-04-20 中国石油天然气集团有限公司 地震波形聚类方法和装置
CN111915128A (zh) * 2020-06-17 2020-11-10 西安交通大学 一种对地震诱发的次生滑坡灾后评估与救援辅助系统
CN113791444A (zh) * 2021-09-15 2021-12-14 江苏科技大学 一种基于聚类分析的地震动记录选取方法

Also Published As

Publication number Publication date
CN114443883B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111738244B (zh) 图像检测方法、装置、计算机设备和存储介质
CN104142946A (zh) 一种同款业务对象聚合、搜索的方法和系统
CN113326862A (zh) 审计大数据融合聚类与风险数据检测方法、介质、设备
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
Prabhakaran et al. Investigating spatial heterogeneity within fracture networks using hierarchical clustering and graph distance metrics
CN114443883B (zh) 一种基于大数据和云计算的数据处理方法、系统及介质
CN111092873B (zh) 非对称卷积网络的流量检测模型的训练方法及检测方法
Zhang et al. Quantification and classification of grainflow morphology on natural dunes
CN110990889A (zh) 一种基于区块链公证婚前财产的方法、设备及介质
CN109739840A (zh) 数据空值处理方法、装置及终端设备
Kalliantzis et al. Efficient Distributed Outlier Detection in Data Streams
Basnet et al. Analysis of multifactorial social unrest events with spatio-temporal k-dimensional tree-based dbscan
CN113869423A (zh) 一种营销响应模型构建方法、设备及介质
CN110955760B (zh) 判决结果的评价方法和相关装置
CN116881687B (zh) 一种基于特征提取的电网敏感数据识别方法及装置
CN106897301A (zh) 一种搜索质量的评测方法、装置及电子设备
CN116737854B (zh) 基于多源遥感数据的时空数据湖管理系统及其安全防护方法
US11983297B2 (en) Efficient statistical techniques for detecting sensitive data
CN112860824B (zh) 一种高分辨率dem地形特征提取的尺度适应性评价方法
AlMarzooqi et al. Increase the exploitation of mars satellite images via deep learning techniques
US20230153462A1 (en) Efficient statistical techniques for detecting sensitive data
Li Big data storage optimization and parallel processing technology for power equipment surveillance under cloud platform
Zhang et al. Blind forensics of median filtering based on markov statistics in median-filtered residual domain
CN115049484A (zh) 风险账户预测方法、装置以及电子设备
Muthamizharasan et al. Spatio-Temporal Analysis of Archived Web News for Precise Political Event Detection and Impact Analysis in India's Southern States

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230628

Address after: Room 226, 2nd Floor, Block A, Building 1, No. 8 Science Avenue, Huangpu District, Guangzhou City, Guangdong Province, 510700

Applicant after: Guangzhou Distributed Software Co.,Ltd.

Address before: 100020 courtyard a 1, tuofangying Road, Chaoyang District, Beijing (1135 Jiangtai incubator)

Applicant before: Beijing Yongli Xinda Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant