CN109165202A - 一种多源异构大数据的预处理方法 - Google Patents

一种多源异构大数据的预处理方法 Download PDF

Info

Publication number
CN109165202A
CN109165202A CN201810721885.2A CN201810721885A CN109165202A CN 109165202 A CN109165202 A CN 109165202A CN 201810721885 A CN201810721885 A CN 201810721885A CN 109165202 A CN109165202 A CN 109165202A
Authority
CN
China
Prior art keywords
data
source
file system
entity
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810721885.2A
Other languages
English (en)
Inventor
赵跃龙
张豫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810721885.2A priority Critical patent/CN109165202A/zh
Publication of CN109165202A publication Critical patent/CN109165202A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多源异构大数据的预处理方法,包括步骤:1、异构数据存储:根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;2、数据清洗:采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;3、实体识别:对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;4、去除冗余:采用基于哈希值的重复数据删除技术,去除冗余数据。本发明方法能够降低存储资源和网络带宽,提高数据存储效率,且能提高后续数据分析工作的质量。

Description

一种多源异构大数据的预处理方法
技术领域
本发明涉及大数据处理的技术领域,尤其是指一种多源异构大数据的预处理方法。
背景技术
大数据往往由大量源头产生,常包含图像、视频、音频、数据流、文本、网页等等不同的数据格式。这些数据具有高维、海量、复杂等特征,加剧了数据分析、信息提取和知识表示的困难性和复杂性。此外,在数据采集和上传过程中容易产生问题数据,即不满足数据质量要求的数据,例如缺失数据、不一致数据、重复数据、异常数据等。这些问题数据不仅浪费大量的存储空间,提高了存储成本,而且对之后进行大数据分析产生的结果造成严重的影响。所以,对大数据进行预处理是有重要意义的。
大数据预处理,就是将多个异构数据源中的数据上传到存储器统一存储,然后对数据进行清洗、集成、转换和规约,将数据转换成适用于数据挖掘的数据形式的过程。
现有的大数据预处理方法存在以下问题:主要是针对结构化数据,对于半结构化、非结构化的数据预处理研究不足,并且通常只包含数据采集和数据清洗两个模块,而且数据清洗的方法也比较简单,不能很好地满足用户需求。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种多源异构大数据的预处理方法,该方法基于Spark大数据框架,利用分布式系统中存储节点富裕的计算资源对大数据进行预处理,不仅可以降低存储资源和网络带宽,提高数据存储效率,而且能够提高后续数据分析工作的质量。
为实现上述目的,本发明所提供的技术方案为:一种多源异构大数据的预处理方法,包括以下步骤:
步骤1、异构数据存储:根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;
步骤2、数据清洗:采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;
步骤3、实体识别:对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;
步骤4、去除冗余:采用基于哈希值的重复数据删除技术,去除冗余数据。
在步骤1中,从异构数据源中读取结构化、半结构化、非结构化大数据,上传到分布式文件系统HDFS进行存储;
所述异构数据源的格式包括:Txt、Csv、Xsl、数据库数据、jpg、mp4,并提供接口标准以便扩展新数据源;
对于文本文件,包括Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中;
对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中;
对于数据库数据,包括MySQL、Oracle,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中;
对于其他类型的文件,包括jpg、mp4,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。
在步骤2中,所述数据清洗是指基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作,具体过程如下:
步骤2.1、读取数据:基于Spark RDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame;
步骤2.2、清除重复数据:读取步骤2.1生成的数据,通过设计函数或使用内置的函数清除重复数据;
步骤2.3、清除噪声数据:采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失;
步骤2.4、进行格式变换,将不同格式的数据转化为统一格式。
在步骤3中,所述实体识别是指对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,具体过程如下:
步骤3.1、给读入的每一条输入数据加上一个唯一的序号;
步骤3.2、读取步骤3.1生成的数据,按照相同属性值进行初步聚类,生成属性索引表;
步骤3.3、对实体进行识别,对同一属性索引表中的实体对计算相似度并与阈值进行比较,大于阈值的相似对输出成相似对集合文件;
步骤3.4、依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
在步骤4中,所述去除冗余是指采用重复数据删除技术,去除冗余数据,具体过程如下:
步骤4.1、数据划分:将数据划分成若干块,根据SHA-1算法计算出每个数据块的哈希值,也称为指纹;
步骤4.2、数据删除:将新产生的指纹与已存储数据的指纹进行对比,具有相同指纹的数据即为重复数据,它的内容被丢弃,相应位置由一个指向系统中已存在数据的指针代替。
所述HDFS是Hadoop分布式文件系统,为海量的数据提供了存储,具有低成本、高可靠性、高吞吐量的特点。
所述Spark是一种分布式大数据处理框架,可以运行在Hadoop分布式文件系统HDFS上。Spark通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,解决了HadoopMapReduce反复读写文件系统从而效率低下的问题,将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
本发明与现有技术相比,具有如下优点与有益效果:
本发明方法采用Spark大数据处理框架对大数据进行预处理,不仅可以降低存储资源和网络带宽,提高数据存储效率,而且能够提高后续数据分析工作的质量。Spark框架通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,能够提高读写速度。计算节点由Spark调度,完成分布式计算,能够实现更高效地数据预处理,实用性强,适用范围广。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的多源异构大数据的预处理方法,包括以下步骤:
步骤1:异构数据的存储。抽取多个异构数据源中的数据上传到分布式文件系统HDFS进行存储。本发明对多种数据源格式提供支持,包括:Txt、Csv、Xsl、数据库数据、jpg、mp4等,并提供接口标准以便扩展新数据源。
对于文本文件,如Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中。
对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中。
对于数据库数据,如MySQL、Oracle等,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中。
对于其他类型的文件,如jpg、mp4等,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。
步骤2:数据清洗。基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作;其具体过程如下:
步骤2.1:读取数据。基于Spark RDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame。
步骤2.2:清除重复数据。读取上述步骤生成的数据,通过设计函数或使用内置的函数清除重复数据。
步骤2.3:清除噪声数据。采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失。
步骤2.4:进行格式变换,将不同格式的数据转化为统一格式。
步骤3:实体识别。对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体;其具体过程如下:
步骤3.1:给读入的每一条输入数据加上一个唯一的序号;
步骤3.2:读取上述步骤生成的数据,按照相同属性值进行初步聚类,生成属性索引表;
步骤3.3:对实体进行识别,对同一属性索引表中的实体对计算相似度并与阈值进行比较,大于阈值的相似对输出成相似对集合文件。
步骤3.4:依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
步骤4:去除冗余。采用基于哈希值的重复数据删除技术,去除冗余数据;其具体过程如下:
步骤4.1:数据划分。将数据划分成若干块,根据SHA-1算法计算出每个数据块的哈希值(也称为指纹)。
步骤4.2:数据删除。将新产生的指纹与已存储数据的指纹进行对比,具有相同指纹的数据即为重复数据,它的内容被丢弃,相应位置由一个指向系统中已存在数据的指针代替。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (5)

1.一种多源异构大数据的预处理方法,其特征在于,包括以下步骤:
步骤1、异构数据存储:根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;
步骤2、数据清洗:采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;
步骤3、实体识别:对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;
步骤4、去除冗余:采用基于哈希值的重复数据删除技术,去除冗余数据。
2.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤1中,从异构数据源中读取结构化、半结构化、非结构化大数据,上传到分布式文件系统HDFS进行存储;
所述异构数据源的格式包括:Txt、Csv、Xsl、数据库数据、jpg、mp4,并提供接口标准以便扩展新数据源;
对于文本文件,包括Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中;
对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中;
对于数据库数据,包括MySQL、Oracle,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中;
对于其他类型的文件,包括jpg、mp4,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。
3.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤2中,所述数据清洗是指基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作,具体过程如下:
步骤2.1、读取数据:基于Spark RDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame;
步骤2.2、清除重复数据:读取步骤2.1生成的数据,通过设计函数或使用内置的函数清除重复数据;
步骤2.3、清除噪声数据:采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失;
步骤2.4、进行格式变换,将不同格式的数据转化为统一格式。
4.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤3中,所述实体识别是指对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,具体过程如下:
步骤3.1、给读入的每一条输入数据加上一个唯一的序号;
步骤3.2、读取步骤3.1生成的数据,按照相同属性值进行初步聚类,生成属性索引表;
步骤3.3、对实体进行识别,对同一属性索引表中的实体对计算相似度并与阈值进行比较,大于阈值的相似对输出成相似对集合文件;
步骤3.4、依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
5.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤4中,所述去除冗余是指采用重复数据删除技术,去除冗余数据,具体过程如下:
步骤4.1、数据划分:将数据划分成若干块,根据SHA-1算法计算出每个数据块的哈希值,也称为指纹;
步骤4.2、数据删除:将新产生的指纹与已存储数据的指纹进行对比,具有相同指纹的数据即为重复数据,它的内容被丢弃,相应位置由一个指向系统中已存在数据的指针代替。
CN201810721885.2A 2018-07-04 2018-07-04 一种多源异构大数据的预处理方法 Pending CN109165202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810721885.2A CN109165202A (zh) 2018-07-04 2018-07-04 一种多源异构大数据的预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810721885.2A CN109165202A (zh) 2018-07-04 2018-07-04 一种多源异构大数据的预处理方法

Publications (1)

Publication Number Publication Date
CN109165202A true CN109165202A (zh) 2019-01-08

Family

ID=64897301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810721885.2A Pending CN109165202A (zh) 2018-07-04 2018-07-04 一种多源异构大数据的预处理方法

Country Status (1)

Country Link
CN (1) CN109165202A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783698A (zh) * 2019-01-15 2019-05-21 辽宁大学 基于Merkle-tree的工业生产数据实体识别方法
CN109828859A (zh) * 2019-01-23 2019-05-31 网易(杭州)网络有限公司 移动终端内存分析方法、装置、存储介质及电子设备
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN110275868A (zh) * 2019-06-21 2019-09-24 厦门嵘拓物联科技有限公司 一种智能工厂中多模态制造数据预处理的方法
CN110275919A (zh) * 2019-06-18 2019-09-24 合肥工业大学 数据集成方法及装置
CN110347734A (zh) * 2019-06-11 2019-10-18 重庆工商大学融智学院 一种多源异构生态空间数据的集成方法
CN110413622A (zh) * 2019-08-01 2019-11-05 国网内蒙古东部电力有限公司信息通信分公司 一种基于电力大数据平台的数据处理方法
CN110489475A (zh) * 2019-08-14 2019-11-22 广东电网有限责任公司 一种多源异构数据处理方法、系统及相关装置
CN110851513A (zh) * 2019-10-16 2020-02-28 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN111339081A (zh) * 2020-02-10 2020-06-26 山东海联讯信息科技有限公司 一种异构数据库库表目录的自动采集方法及系统
CN111552685A (zh) * 2019-12-27 2020-08-18 广东电网有限责任公司电力科学研究院 基于Spark的电能质量数据清洗方法及装置
CN111966571A (zh) * 2020-08-12 2020-11-20 重庆邮电大学 基于arm-fpga协处理器异构平台的时间估算协同处理方法
CN112015724A (zh) * 2019-09-25 2020-12-01 国网湖北省电力有限公司黄石供电公司 一种对电力运营数据计量异常进行分析的方法
CN112164430A (zh) * 2020-10-12 2021-01-01 深圳晶泰科技有限公司 面向药物研发的数据处理方法及系统
CN112905845A (zh) * 2021-03-17 2021-06-04 重庆大学 离散智能制造应用的多源非结构化数据清洗方法
CN113220943A (zh) * 2021-06-04 2021-08-06 上海天旦网络科技发展有限公司 一种半结构化流量数据中的目标信息定位方法及系统
CN113407723A (zh) * 2021-07-16 2021-09-17 湖南五凌电力科技有限公司 多源异构电力负荷数据融合方法、装置、设备和存储介质
CN113641739A (zh) * 2021-07-05 2021-11-12 南京联创信息科技有限公司 一种基于Spark的智能数据转换方法
WO2022077166A1 (zh) * 2020-10-12 2022-04-21 深圳晶泰科技有限公司 面向药物研发的数据处理方法及系统
CN114880690A (zh) * 2022-06-08 2022-08-09 浙江省交通运输科学研究院 一种基于边缘计算的源数据时序精化方法
CN116166655A (zh) * 2023-04-25 2023-05-26 尚特杰电力科技有限公司 大数据清洗系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239553A (zh) * 2014-09-24 2014-12-24 江苏名通信息科技有限公司 一种基于Map-Reduce框架的实体识别方法
CN104361110A (zh) * 2014-12-01 2015-02-18 广东电网有限责任公司清远供电局 海量用电数据分析系统及其实时计算、数据挖掘方法
CN105868365A (zh) * 2016-03-30 2016-08-17 浪潮通信信息系统有限公司 一种基于Hadoop的传统网管数据处理方法
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN106611035A (zh) * 2016-06-12 2017-05-03 四川用联信息技术有限公司 一种云存储中重复数据删除的检索算法
CN106845678A (zh) * 2016-12-19 2017-06-13 国家电网公司 一种电力通信备件资源全网一体化动态调配方法及装置
CN106874482A (zh) * 2017-02-20 2017-06-20 山东鲁能软件技术有限公司 一种基于大数据技术的图形化的数据预处理的装置及方法
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法
CN107566341A (zh) * 2017-07-31 2018-01-09 南京邮电大学 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统
CN107944041A (zh) * 2017-12-14 2018-04-20 成都雅骏新能源汽车科技股份有限公司 一种hdfs的存储结构优化方法
CN108121785A (zh) * 2017-12-15 2018-06-05 华中师范大学 一种基于教育大数据的分析方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239553A (zh) * 2014-09-24 2014-12-24 江苏名通信息科技有限公司 一种基于Map-Reduce框架的实体识别方法
CN104361110A (zh) * 2014-12-01 2015-02-18 广东电网有限责任公司清远供电局 海量用电数据分析系统及其实时计算、数据挖掘方法
CN105868365A (zh) * 2016-03-30 2016-08-17 浪潮通信信息系统有限公司 一种基于Hadoop的传统网管数据处理方法
CN106611035A (zh) * 2016-06-12 2017-05-03 四川用联信息技术有限公司 一种云存储中重复数据删除的检索算法
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN106845678A (zh) * 2016-12-19 2017-06-13 国家电网公司 一种电力通信备件资源全网一体化动态调配方法及装置
CN106874482A (zh) * 2017-02-20 2017-06-20 山东鲁能软件技术有限公司 一种基于大数据技术的图形化的数据预处理的装置及方法
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法
CN107566341A (zh) * 2017-07-31 2018-01-09 南京邮电大学 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统
CN107944041A (zh) * 2017-12-14 2018-04-20 成都雅骏新能源汽车科技股份有限公司 一种hdfs的存储结构优化方法
CN108121785A (zh) * 2017-12-15 2018-06-05 华中师范大学 一种基于教育大数据的分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔钦: "大数据下数据预处理方法研究", 《计算机技术与发展》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783698B (zh) * 2019-01-15 2023-05-26 辽宁大学 基于Merkle-tree的工业生产数据实体识别方法
CN109783698A (zh) * 2019-01-15 2019-05-21 辽宁大学 基于Merkle-tree的工业生产数据实体识别方法
CN109828859A (zh) * 2019-01-23 2019-05-31 网易(杭州)网络有限公司 移动终端内存分析方法、装置、存储介质及电子设备
CN109828859B (zh) * 2019-01-23 2023-03-07 网易(杭州)网络有限公司 移动终端内存分析方法、装置、存储介质及电子设备
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN110347734A (zh) * 2019-06-11 2019-10-18 重庆工商大学融智学院 一种多源异构生态空间数据的集成方法
CN110275919A (zh) * 2019-06-18 2019-09-24 合肥工业大学 数据集成方法及装置
CN110275868A (zh) * 2019-06-21 2019-09-24 厦门嵘拓物联科技有限公司 一种智能工厂中多模态制造数据预处理的方法
CN110413622A (zh) * 2019-08-01 2019-11-05 国网内蒙古东部电力有限公司信息通信分公司 一种基于电力大数据平台的数据处理方法
CN110413622B (zh) * 2019-08-01 2023-01-24 国家电网有限公司 一种基于电力大数据平台的数据处理方法
CN110489475A (zh) * 2019-08-14 2019-11-22 广东电网有限责任公司 一种多源异构数据处理方法、系统及相关装置
CN112015724A (zh) * 2019-09-25 2020-12-01 国网湖北省电力有限公司黄石供电公司 一种对电力运营数据计量异常进行分析的方法
CN110851513B (zh) * 2019-10-16 2021-06-08 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN110851513A (zh) * 2019-10-16 2020-02-28 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN111552685A (zh) * 2019-12-27 2020-08-18 广东电网有限责任公司电力科学研究院 基于Spark的电能质量数据清洗方法及装置
CN111552685B (zh) * 2019-12-27 2022-02-15 广东电网有限责任公司电力科学研究院 基于Spark的电能质量数据清洗方法及装置
CN111339081A (zh) * 2020-02-10 2020-06-26 山东海联讯信息科技有限公司 一种异构数据库库表目录的自动采集方法及系统
CN111966571A (zh) * 2020-08-12 2020-11-20 重庆邮电大学 基于arm-fpga协处理器异构平台的时间估算协同处理方法
CN111966571B (zh) * 2020-08-12 2023-05-12 重庆邮电大学 基于arm-fpga协处理器异构平台的时间估算协同处理方法
CN112164430A (zh) * 2020-10-12 2021-01-01 深圳晶泰科技有限公司 面向药物研发的数据处理方法及系统
CN112164430B (zh) * 2020-10-12 2024-05-31 深圳晶泰科技有限公司 面向药物研发的数据处理方法及系统
WO2022077166A1 (zh) * 2020-10-12 2022-04-21 深圳晶泰科技有限公司 面向药物研发的数据处理方法及系统
CN112905845A (zh) * 2021-03-17 2021-06-04 重庆大学 离散智能制造应用的多源非结构化数据清洗方法
CN113220943A (zh) * 2021-06-04 2021-08-06 上海天旦网络科技发展有限公司 一种半结构化流量数据中的目标信息定位方法及系统
CN113641739A (zh) * 2021-07-05 2021-11-12 南京联创信息科技有限公司 一种基于Spark的智能数据转换方法
CN113407723A (zh) * 2021-07-16 2021-09-17 湖南五凌电力科技有限公司 多源异构电力负荷数据融合方法、装置、设备和存储介质
CN114880690A (zh) * 2022-06-08 2022-08-09 浙江省交通运输科学研究院 一种基于边缘计算的源数据时序精化方法
CN116166655A (zh) * 2023-04-25 2023-05-26 尚特杰电力科技有限公司 大数据清洗系统

Similar Documents

Publication Publication Date Title
CN109165202A (zh) 一种多源异构大数据的预处理方法
Jensen et al. Time series management systems: A survey
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
CN110147357A (zh) 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN102222092B (zh) 一种MapReduce平台上的海量高维数据聚类方法
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN109753502B (zh) 一种基于NiFi的数据采集方法
Ismail et al. Big Data prediction framework for weather Temperature based on MapReduce algorithm
CN104679738A (zh) 互联网热词挖掘方法及装置
CN110990467B (zh) 一种bim模型格式转换方法及转换系统
CN116680423B (zh) 电力供应链多源异构数据的管理方法、装置、设备及介质
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
EP3872703A2 (en) Method and device for classifying face image, electronic device and storage medium
CN105589908A (zh) 用于事务集合的关联规则计算方法
CN118013364A (zh) 一种多维数据智能标识方法
CN117785841A (zh) 多源异构数据的处理方法及装置
CN107506475A (zh) 一种基于Spark的海量电力客服文本分类方法
CN112817930A (zh) 一种数据迁移的方法和装置
Shen et al. Massive power device condition monitoring data feature extraction and clustering analysis using MapReduce and graph model
CN112015952A (zh) 数据处理系统及方法
CN109739883A (zh) 提升数据查询性能的方法、装置和电子设备
Diao et al. An improved DBSCAN algorithm using local parameters
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190108

WD01 Invention patent application deemed withdrawn after publication