CN109165202A - 一种多源异构大数据的预处理方法 - Google Patents
一种多源异构大数据的预处理方法 Download PDFInfo
- Publication number
- CN109165202A CN109165202A CN201810721885.2A CN201810721885A CN109165202A CN 109165202 A CN109165202 A CN 109165202A CN 201810721885 A CN201810721885 A CN 201810721885A CN 109165202 A CN109165202 A CN 109165202A
- Authority
- CN
- China
- Prior art keywords
- data
- source
- file system
- entity
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多源异构大数据的预处理方法,包括步骤:1、异构数据存储:根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;2、数据清洗:采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;3、实体识别:对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;4、去除冗余:采用基于哈希值的重复数据删除技术,去除冗余数据。本发明方法能够降低存储资源和网络带宽,提高数据存储效率,且能提高后续数据分析工作的质量。
Description
技术领域
本发明涉及大数据处理的技术领域,尤其是指一种多源异构大数据的预处理方法。
背景技术
大数据往往由大量源头产生,常包含图像、视频、音频、数据流、文本、网页等等不同的数据格式。这些数据具有高维、海量、复杂等特征,加剧了数据分析、信息提取和知识表示的困难性和复杂性。此外,在数据采集和上传过程中容易产生问题数据,即不满足数据质量要求的数据,例如缺失数据、不一致数据、重复数据、异常数据等。这些问题数据不仅浪费大量的存储空间,提高了存储成本,而且对之后进行大数据分析产生的结果造成严重的影响。所以,对大数据进行预处理是有重要意义的。
大数据预处理,就是将多个异构数据源中的数据上传到存储器统一存储,然后对数据进行清洗、集成、转换和规约,将数据转换成适用于数据挖掘的数据形式的过程。
现有的大数据预处理方法存在以下问题:主要是针对结构化数据,对于半结构化、非结构化的数据预处理研究不足,并且通常只包含数据采集和数据清洗两个模块,而且数据清洗的方法也比较简单,不能很好地满足用户需求。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种多源异构大数据的预处理方法,该方法基于Spark大数据框架,利用分布式系统中存储节点富裕的计算资源对大数据进行预处理,不仅可以降低存储资源和网络带宽,提高数据存储效率,而且能够提高后续数据分析工作的质量。
为实现上述目的,本发明所提供的技术方案为:一种多源异构大数据的预处理方法,包括以下步骤:
步骤1、异构数据存储:根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;
步骤2、数据清洗:采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;
步骤3、实体识别:对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;
步骤4、去除冗余:采用基于哈希值的重复数据删除技术,去除冗余数据。
在步骤1中,从异构数据源中读取结构化、半结构化、非结构化大数据,上传到分布式文件系统HDFS进行存储;
所述异构数据源的格式包括:Txt、Csv、Xsl、数据库数据、jpg、mp4,并提供接口标准以便扩展新数据源;
对于文本文件,包括Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中;
对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中;
对于数据库数据,包括MySQL、Oracle,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中;
对于其他类型的文件,包括jpg、mp4,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。
在步骤2中,所述数据清洗是指基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作,具体过程如下:
步骤2.1、读取数据:基于Spark RDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame;
步骤2.2、清除重复数据:读取步骤2.1生成的数据,通过设计函数或使用内置的函数清除重复数据;
步骤2.3、清除噪声数据:采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失;
步骤2.4、进行格式变换,将不同格式的数据转化为统一格式。
在步骤3中,所述实体识别是指对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,具体过程如下:
步骤3.1、给读入的每一条输入数据加上一个唯一的序号;
步骤3.2、读取步骤3.1生成的数据,按照相同属性值进行初步聚类,生成属性索引表;
步骤3.3、对实体进行识别,对同一属性索引表中的实体对计算相似度并与阈值进行比较,大于阈值的相似对输出成相似对集合文件;
步骤3.4、依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
在步骤4中,所述去除冗余是指采用重复数据删除技术,去除冗余数据,具体过程如下:
步骤4.1、数据划分:将数据划分成若干块,根据SHA-1算法计算出每个数据块的哈希值,也称为指纹;
步骤4.2、数据删除:将新产生的指纹与已存储数据的指纹进行对比,具有相同指纹的数据即为重复数据,它的内容被丢弃,相应位置由一个指向系统中已存在数据的指针代替。
所述HDFS是Hadoop分布式文件系统,为海量的数据提供了存储,具有低成本、高可靠性、高吞吐量的特点。
所述Spark是一种分布式大数据处理框架,可以运行在Hadoop分布式文件系统HDFS上。Spark通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,解决了HadoopMapReduce反复读写文件系统从而效率低下的问题,将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
本发明与现有技术相比,具有如下优点与有益效果:
本发明方法采用Spark大数据处理框架对大数据进行预处理,不仅可以降低存储资源和网络带宽,提高数据存储效率,而且能够提高后续数据分析工作的质量。Spark框架通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,能够提高读写速度。计算节点由Spark调度,完成分布式计算,能够实现更高效地数据预处理,实用性强,适用范围广。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的多源异构大数据的预处理方法,包括以下步骤:
步骤1:异构数据的存储。抽取多个异构数据源中的数据上传到分布式文件系统HDFS进行存储。本发明对多种数据源格式提供支持,包括:Txt、Csv、Xsl、数据库数据、jpg、mp4等,并提供接口标准以便扩展新数据源。
对于文本文件,如Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中。
对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中。
对于数据库数据,如MySQL、Oracle等,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中。
对于其他类型的文件,如jpg、mp4等,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。
步骤2:数据清洗。基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作;其具体过程如下:
步骤2.1:读取数据。基于Spark RDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame。
步骤2.2:清除重复数据。读取上述步骤生成的数据,通过设计函数或使用内置的函数清除重复数据。
步骤2.3:清除噪声数据。采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失。
步骤2.4:进行格式变换,将不同格式的数据转化为统一格式。
步骤3:实体识别。对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体;其具体过程如下:
步骤3.1:给读入的每一条输入数据加上一个唯一的序号;
步骤3.2:读取上述步骤生成的数据,按照相同属性值进行初步聚类,生成属性索引表;
步骤3.3:对实体进行识别,对同一属性索引表中的实体对计算相似度并与阈值进行比较,大于阈值的相似对输出成相似对集合文件。
步骤3.4:依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
步骤4:去除冗余。采用基于哈希值的重复数据删除技术,去除冗余数据;其具体过程如下:
步骤4.1:数据划分。将数据划分成若干块,根据SHA-1算法计算出每个数据块的哈希值(也称为指纹)。
步骤4.2:数据删除。将新产生的指纹与已存储数据的指纹进行对比,具有相同指纹的数据即为重复数据,它的内容被丢弃,相应位置由一个指向系统中已存在数据的指针代替。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.一种多源异构大数据的预处理方法,其特征在于,包括以下步骤:
步骤1、异构数据存储:根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;
步骤2、数据清洗:采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;
步骤3、实体识别:对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;
步骤4、去除冗余:采用基于哈希值的重复数据删除技术,去除冗余数据。
2.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤1中,从异构数据源中读取结构化、半结构化、非结构化大数据,上传到分布式文件系统HDFS进行存储;
所述异构数据源的格式包括:Txt、Csv、Xsl、数据库数据、jpg、mp4,并提供接口标准以便扩展新数据源;
对于文本文件,包括Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中;
对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中;
对于数据库数据,包括MySQL、Oracle,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中;
对于其他类型的文件,包括jpg、mp4,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。
3.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤2中,所述数据清洗是指基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作,具体过程如下:
步骤2.1、读取数据:基于Spark RDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame;
步骤2.2、清除重复数据:读取步骤2.1生成的数据,通过设计函数或使用内置的函数清除重复数据;
步骤2.3、清除噪声数据:采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失;
步骤2.4、进行格式变换,将不同格式的数据转化为统一格式。
4.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤3中,所述实体识别是指对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,具体过程如下:
步骤3.1、给读入的每一条输入数据加上一个唯一的序号;
步骤3.2、读取步骤3.1生成的数据,按照相同属性值进行初步聚类,生成属性索引表;
步骤3.3、对实体进行识别,对同一属性索引表中的实体对计算相似度并与阈值进行比较,大于阈值的相似对输出成相似对集合文件;
步骤3.4、依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
5.根据权利要求1所述的一种多源异构大数据的预处理方法,其特征在于:在步骤4中,所述去除冗余是指采用重复数据删除技术,去除冗余数据,具体过程如下:
步骤4.1、数据划分:将数据划分成若干块,根据SHA-1算法计算出每个数据块的哈希值,也称为指纹;
步骤4.2、数据删除:将新产生的指纹与已存储数据的指纹进行对比,具有相同指纹的数据即为重复数据,它的内容被丢弃,相应位置由一个指向系统中已存在数据的指针代替。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810721885.2A CN109165202A (zh) | 2018-07-04 | 2018-07-04 | 一种多源异构大数据的预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810721885.2A CN109165202A (zh) | 2018-07-04 | 2018-07-04 | 一种多源异构大数据的预处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109165202A true CN109165202A (zh) | 2019-01-08 |
Family
ID=64897301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810721885.2A Pending CN109165202A (zh) | 2018-07-04 | 2018-07-04 | 一种多源异构大数据的预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165202A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783698A (zh) * | 2019-01-15 | 2019-05-21 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN109828859A (zh) * | 2019-01-23 | 2019-05-31 | 网易(杭州)网络有限公司 | 移动终端内存分析方法、装置、存储介质及电子设备 |
CN110147357A (zh) * | 2019-05-07 | 2019-08-20 | 浙江科技学院 | 一种基于大数据环境下的多源数据聚合抽样方法及系统 |
CN110275868A (zh) * | 2019-06-21 | 2019-09-24 | 厦门嵘拓物联科技有限公司 | 一种智能工厂中多模态制造数据预处理的方法 |
CN110275919A (zh) * | 2019-06-18 | 2019-09-24 | 合肥工业大学 | 数据集成方法及装置 |
CN110347734A (zh) * | 2019-06-11 | 2019-10-18 | 重庆工商大学融智学院 | 一种多源异构生态空间数据的集成方法 |
CN110413622A (zh) * | 2019-08-01 | 2019-11-05 | 国网内蒙古东部电力有限公司信息通信分公司 | 一种基于电力大数据平台的数据处理方法 |
CN110489475A (zh) * | 2019-08-14 | 2019-11-22 | 广东电网有限责任公司 | 一种多源异构数据处理方法、系统及相关装置 |
CN110851513A (zh) * | 2019-10-16 | 2020-02-28 | 中盈优创资讯科技有限公司 | 基于Spark计算引擎的多源异构数据读取方法及装置 |
CN111339081A (zh) * | 2020-02-10 | 2020-06-26 | 山东海联讯信息科技有限公司 | 一种异构数据库库表目录的自动采集方法及系统 |
CN111552685A (zh) * | 2019-12-27 | 2020-08-18 | 广东电网有限责任公司电力科学研究院 | 基于Spark的电能质量数据清洗方法及装置 |
CN111966571A (zh) * | 2020-08-12 | 2020-11-20 | 重庆邮电大学 | 基于arm-fpga协处理器异构平台的时间估算协同处理方法 |
CN112015724A (zh) * | 2019-09-25 | 2020-12-01 | 国网湖北省电力有限公司黄石供电公司 | 一种对电力运营数据计量异常进行分析的方法 |
CN112164430A (zh) * | 2020-10-12 | 2021-01-01 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
CN112905845A (zh) * | 2021-03-17 | 2021-06-04 | 重庆大学 | 离散智能制造应用的多源非结构化数据清洗方法 |
CN113220943A (zh) * | 2021-06-04 | 2021-08-06 | 上海天旦网络科技发展有限公司 | 一种半结构化流量数据中的目标信息定位方法及系统 |
CN113407723A (zh) * | 2021-07-16 | 2021-09-17 | 湖南五凌电力科技有限公司 | 多源异构电力负荷数据融合方法、装置、设备和存储介质 |
CN113641739A (zh) * | 2021-07-05 | 2021-11-12 | 南京联创信息科技有限公司 | 一种基于Spark的智能数据转换方法 |
WO2022077166A1 (zh) * | 2020-10-12 | 2022-04-21 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
CN114880690A (zh) * | 2022-06-08 | 2022-08-09 | 浙江省交通运输科学研究院 | 一种基于边缘计算的源数据时序精化方法 |
CN116166655A (zh) * | 2023-04-25 | 2023-05-26 | 尚特杰电力科技有限公司 | 大数据清洗系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239553A (zh) * | 2014-09-24 | 2014-12-24 | 江苏名通信息科技有限公司 | 一种基于Map-Reduce框架的实体识别方法 |
CN104361110A (zh) * | 2014-12-01 | 2015-02-18 | 广东电网有限责任公司清远供电局 | 海量用电数据分析系统及其实时计算、数据挖掘方法 |
CN105868365A (zh) * | 2016-03-30 | 2016-08-17 | 浪潮通信信息系统有限公司 | 一种基于Hadoop的传统网管数据处理方法 |
CN106372185A (zh) * | 2016-08-31 | 2017-02-01 | 广东京奥信息科技有限公司 | 一种异构数据源的数据预处理方法 |
CN106611035A (zh) * | 2016-06-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种云存储中重复数据删除的检索算法 |
CN106845678A (zh) * | 2016-12-19 | 2017-06-13 | 国家电网公司 | 一种电力通信备件资源全网一体化动态调配方法及装置 |
CN106874482A (zh) * | 2017-02-20 | 2017-06-20 | 山东鲁能软件技术有限公司 | 一种基于大数据技术的图形化的数据预处理的装置及方法 |
CN107193967A (zh) * | 2017-05-25 | 2017-09-22 | 南开大学 | 一种多源异构行业领域大数据处理全链路解决方案 |
CN107315809A (zh) * | 2017-06-27 | 2017-11-03 | 山东浪潮通软信息科技有限公司 | 一种基于Spark平台的集团新闻数据预处理方法 |
CN107566341A (zh) * | 2017-07-31 | 2018-01-09 | 南京邮电大学 | 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统 |
CN107944041A (zh) * | 2017-12-14 | 2018-04-20 | 成都雅骏新能源汽车科技股份有限公司 | 一种hdfs的存储结构优化方法 |
CN108121785A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 一种基于教育大数据的分析方法 |
-
2018
- 2018-07-04 CN CN201810721885.2A patent/CN109165202A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239553A (zh) * | 2014-09-24 | 2014-12-24 | 江苏名通信息科技有限公司 | 一种基于Map-Reduce框架的实体识别方法 |
CN104361110A (zh) * | 2014-12-01 | 2015-02-18 | 广东电网有限责任公司清远供电局 | 海量用电数据分析系统及其实时计算、数据挖掘方法 |
CN105868365A (zh) * | 2016-03-30 | 2016-08-17 | 浪潮通信信息系统有限公司 | 一种基于Hadoop的传统网管数据处理方法 |
CN106611035A (zh) * | 2016-06-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种云存储中重复数据删除的检索算法 |
CN106372185A (zh) * | 2016-08-31 | 2017-02-01 | 广东京奥信息科技有限公司 | 一种异构数据源的数据预处理方法 |
CN106845678A (zh) * | 2016-12-19 | 2017-06-13 | 国家电网公司 | 一种电力通信备件资源全网一体化动态调配方法及装置 |
CN106874482A (zh) * | 2017-02-20 | 2017-06-20 | 山东鲁能软件技术有限公司 | 一种基于大数据技术的图形化的数据预处理的装置及方法 |
CN107193967A (zh) * | 2017-05-25 | 2017-09-22 | 南开大学 | 一种多源异构行业领域大数据处理全链路解决方案 |
CN107315809A (zh) * | 2017-06-27 | 2017-11-03 | 山东浪潮通软信息科技有限公司 | 一种基于Spark平台的集团新闻数据预处理方法 |
CN107566341A (zh) * | 2017-07-31 | 2018-01-09 | 南京邮电大学 | 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统 |
CN107944041A (zh) * | 2017-12-14 | 2018-04-20 | 成都雅骏新能源汽车科技股份有限公司 | 一种hdfs的存储结构优化方法 |
CN108121785A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 一种基于教育大数据的分析方法 |
Non-Patent Citations (1)
Title |
---|
孔钦: "大数据下数据预处理方法研究", 《计算机技术与发展》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783698B (zh) * | 2019-01-15 | 2023-05-26 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN109783698A (zh) * | 2019-01-15 | 2019-05-21 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN109828859A (zh) * | 2019-01-23 | 2019-05-31 | 网易(杭州)网络有限公司 | 移动终端内存分析方法、装置、存储介质及电子设备 |
CN109828859B (zh) * | 2019-01-23 | 2023-03-07 | 网易(杭州)网络有限公司 | 移动终端内存分析方法、装置、存储介质及电子设备 |
CN110147357A (zh) * | 2019-05-07 | 2019-08-20 | 浙江科技学院 | 一种基于大数据环境下的多源数据聚合抽样方法及系统 |
CN110347734A (zh) * | 2019-06-11 | 2019-10-18 | 重庆工商大学融智学院 | 一种多源异构生态空间数据的集成方法 |
CN110275919A (zh) * | 2019-06-18 | 2019-09-24 | 合肥工业大学 | 数据集成方法及装置 |
CN110275868A (zh) * | 2019-06-21 | 2019-09-24 | 厦门嵘拓物联科技有限公司 | 一种智能工厂中多模态制造数据预处理的方法 |
CN110413622A (zh) * | 2019-08-01 | 2019-11-05 | 国网内蒙古东部电力有限公司信息通信分公司 | 一种基于电力大数据平台的数据处理方法 |
CN110413622B (zh) * | 2019-08-01 | 2023-01-24 | 国家电网有限公司 | 一种基于电力大数据平台的数据处理方法 |
CN110489475A (zh) * | 2019-08-14 | 2019-11-22 | 广东电网有限责任公司 | 一种多源异构数据处理方法、系统及相关装置 |
CN112015724A (zh) * | 2019-09-25 | 2020-12-01 | 国网湖北省电力有限公司黄石供电公司 | 一种对电力运营数据计量异常进行分析的方法 |
CN110851513B (zh) * | 2019-10-16 | 2021-06-08 | 中盈优创资讯科技有限公司 | 基于Spark计算引擎的多源异构数据读取方法及装置 |
CN110851513A (zh) * | 2019-10-16 | 2020-02-28 | 中盈优创资讯科技有限公司 | 基于Spark计算引擎的多源异构数据读取方法及装置 |
CN111552685A (zh) * | 2019-12-27 | 2020-08-18 | 广东电网有限责任公司电力科学研究院 | 基于Spark的电能质量数据清洗方法及装置 |
CN111552685B (zh) * | 2019-12-27 | 2022-02-15 | 广东电网有限责任公司电力科学研究院 | 基于Spark的电能质量数据清洗方法及装置 |
CN111339081A (zh) * | 2020-02-10 | 2020-06-26 | 山东海联讯信息科技有限公司 | 一种异构数据库库表目录的自动采集方法及系统 |
CN111966571A (zh) * | 2020-08-12 | 2020-11-20 | 重庆邮电大学 | 基于arm-fpga协处理器异构平台的时间估算协同处理方法 |
CN111966571B (zh) * | 2020-08-12 | 2023-05-12 | 重庆邮电大学 | 基于arm-fpga协处理器异构平台的时间估算协同处理方法 |
CN112164430A (zh) * | 2020-10-12 | 2021-01-01 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
CN112164430B (zh) * | 2020-10-12 | 2024-05-31 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
WO2022077166A1 (zh) * | 2020-10-12 | 2022-04-21 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
CN112905845A (zh) * | 2021-03-17 | 2021-06-04 | 重庆大学 | 离散智能制造应用的多源非结构化数据清洗方法 |
CN113220943A (zh) * | 2021-06-04 | 2021-08-06 | 上海天旦网络科技发展有限公司 | 一种半结构化流量数据中的目标信息定位方法及系统 |
CN113641739A (zh) * | 2021-07-05 | 2021-11-12 | 南京联创信息科技有限公司 | 一种基于Spark的智能数据转换方法 |
CN113407723A (zh) * | 2021-07-16 | 2021-09-17 | 湖南五凌电力科技有限公司 | 多源异构电力负荷数据融合方法、装置、设备和存储介质 |
CN114880690A (zh) * | 2022-06-08 | 2022-08-09 | 浙江省交通运输科学研究院 | 一种基于边缘计算的源数据时序精化方法 |
CN116166655A (zh) * | 2023-04-25 | 2023-05-26 | 尚特杰电力科技有限公司 | 大数据清洗系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165202A (zh) | 一种多源异构大数据的预处理方法 | |
Jensen et al. | Time series management systems: A survey | |
CN109684352B (zh) | 数据分析系统、方法、存储介质及电子设备 | |
CN110147357A (zh) | 一种基于大数据环境下的多源数据聚合抽样方法及系统 | |
CN102222092B (zh) | 一种MapReduce平台上的海量高维数据聚类方法 | |
CN105956015A (zh) | 一种基于大数据的服务平台整合方法 | |
CN106126601A (zh) | 一种社保大数据分布式预处理方法及系统 | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN109753502B (zh) | 一种基于NiFi的数据采集方法 | |
Ismail et al. | Big Data prediction framework for weather Temperature based on MapReduce algorithm | |
CN104679738A (zh) | 互联网热词挖掘方法及装置 | |
CN110990467B (zh) | 一种bim模型格式转换方法及转换系统 | |
CN116680423B (zh) | 电力供应链多源异构数据的管理方法、装置、设备及介质 | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
EP3872703A2 (en) | Method and device for classifying face image, electronic device and storage medium | |
CN105589908A (zh) | 用于事务集合的关联规则计算方法 | |
CN118013364A (zh) | 一种多维数据智能标识方法 | |
CN117785841A (zh) | 多源异构数据的处理方法及装置 | |
CN107506475A (zh) | 一种基于Spark的海量电力客服文本分类方法 | |
CN112817930A (zh) | 一种数据迁移的方法和装置 | |
Shen et al. | Massive power device condition monitoring data feature extraction and clustering analysis using MapReduce and graph model | |
CN112015952A (zh) | 数据处理系统及方法 | |
CN109739883A (zh) | 提升数据查询性能的方法、装置和电子设备 | |
Diao et al. | An improved DBSCAN algorithm using local parameters | |
CN113641705A (zh) | 一种基于计算引擎的营销处置规则引擎方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190108 |
|
WD01 | Invention patent application deemed withdrawn after publication |