CN115168512A - 多维数据元融合实现数据收集和共享的时空数据湖方法 - Google Patents

多维数据元融合实现数据收集和共享的时空数据湖方法 Download PDF

Info

Publication number
CN115168512A
CN115168512A CN202211063642.7A CN202211063642A CN115168512A CN 115168512 A CN115168512 A CN 115168512A CN 202211063642 A CN202211063642 A CN 202211063642A CN 115168512 A CN115168512 A CN 115168512A
Authority
CN
China
Prior art keywords
data
lake
source
sharing
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211063642.7A
Other languages
English (en)
Inventor
王立宝
王英石
张琛
王茂法
梁靖
白佳朔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huichuang Information Technology Co ltd
Original Assignee
Shandong Huichuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huichuang Information Technology Co ltd filed Critical Shandong Huichuang Information Technology Co ltd
Priority to CN202211063642.7A priority Critical patent/CN115168512A/zh
Publication of CN115168512A publication Critical patent/CN115168512A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/128Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了多维数据元融合实现数据收集和共享的时空数据湖方法,涉及数据处理技术领域,包括以下步骤:S1、数据收集;S2、建立数据仓管理模型;S3、数据分类;S4、数据融合;S5、数据湖的建立。该多维数据元融合实现数据收集和共享的时空数据湖方法,采用构建存储数据的数据湖使其能够存储大量的原始数据,利用数据仓对数据进行处理通过数据仓的建立不仅能够降低数据存储的成本同时能够去除数据的重复性,同时能够对数据进行补偿补充数据的完整性,在存储数据的过程中每一次存储前后均会自动生成时间戳,从而可以实现在仅查询某个时间点之后成功提交的数据或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据。

Description

多维数据元融合实现数据收集和共享的时空数据湖方法
技术领域
本发明涉及数据处理技术领域,具体为多维数据元融合实现数据收集和共享的时空数据湖方法。
背景技术
多元融合技术是指多种数据的融合或集成技术,数据融合是20世纪80年代形成和发展起来的一种综合信息处理技术,它充分利用多源数据的互补性和计算机的高速运算与智能来提高结果信息的质量。
到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT应用的主流。在这个阶段,企业的IT应用主要还是着重于业务职能的自动化及信息的存储、汇总、统计、查询等方面,而分析能力是比较薄弱的,因此这样的信息处理模式称之为事务处理。
数据湖和数据库、数据仓库一样,都是数据存储的设计模式,现在企业的数据仓库都会通过分层的方式将数据存储在文件夹、文件中,数据湖是一个集中式数据存储库,用来存储大量的原始数据,使用平面架构来存储数据,定义:一个以原始格式(通常是对象块或文件)存储数据的系统或存储库,通常是所有企业数据的单一存储,数据湖中数据,用于报告、可视化、高级分析和机器学习等任务,数据湖具有以下特点:a)容量大:数据湖汇聚吸收各个业务数据源流,容纳散落在各处的数据,理论上,存储空间巨大,b)格式多:数据湖架构面向多数据源的信息存储,可以快速高效地采集、存储、处理大量来源不同、格式不同的原始数据,这其中包括文本、图片、视频、音频、网页等各类无序的非结构化数据,能把不同种类的数据汇聚存储在一起,并对汇聚后的数据进行管理,建立数据之间的关联关系,具有很强的兼容性,c)处理速度快:数据湖技术能将各类原始数据快速转化为可以直接提取的、分析、使用的标准格式,统一优化数据结构并对数据进行分类存储,根据业务需求,对存储的数据进行快速的查询、挖掘、关联和处理,并实时传输给末端用户。
现有的数据湖技术作为用来存储大量的原始数据,因此没有良好的数据的优化与处理,在读取使用的过程中容易造成搜索共享混乱的情况,为此,我们提出多维数据元融合实现数据收集和共享的时空数据湖方法。
发明内容
针对现有技术的不足,本发明提供了多维数据元融合实现数据收集和共享的时空数据湖方法,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现多维数据元融合实现数据收集和共享的时空数据湖方法,包括以下步骤:
S1、数据收集
从移动设备、网站、移动应用程序、社交媒体和企业应用程序中获取非关系与关系数据,其中获取的数据包括储存结构化数据、半结构化数据、非结构化数据和二进制数据,得到的数据为源数据;
S2、建立数据仓管理模型
建立数据仓管理模型并将获取的源数据导入其中,利用数据仓管理模型对导入的源数据进行预处理,其中数据的预处理包括数据的清洗、数据补偿与数据格式处理统一,使得源数据能够精炼标准;
S3、数据分类
将数据仓中的源数据进行分类,并根据源数据的类型进行分类,然后对分类后的源数据根据数据的相似程度和相关性进行归类;
S4、数据融合
将归类后的源数据进行数据融合;
S5、数据湖的建立
基于HDFS可以构建存储数据的数据湖,并利用Spark引擎将融合后的源数据摄取到数据湖中进行储存,并以数据湖为基础架构建时空大数据分析云平台,用于时空湖内部存储数据的共享;
S6、资源共享
在时空大数据分析云平台中接入共享登录入口,其中共享登录入口需要个人注册账号登录使用,账号的唯一性与等级性作为读取数据湖内部数据的基础,根据账号等级的权限用于读取获取对数据湖内部数据的操作,其中账号的等级根据使用者的使用时长权限决定,并建立搜索引擎,利用搜索引擎搜索共享数据湖中存储的信息。
进一步的,所述在步骤S1数据收集过程中采用的储存结构化数据为关系型数据库中的表,半结构化数据为CSV、日志、XML和JSON文件,非结构化数据为电子邮件、文档和PDF,二进制数据为图形、音频和视频数据。
进一步的,所述在步骤S2建立数据仓管理模型过程中的将获取的源数据进行处理,其中处理过程为数据清洗将源数据中重复性相似性较多的数据删除,并在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,接着将补偿后的源数据进行规格统一,保证数据流通格式的一致性。
进一步的,所述在步骤S3数据分类过程中对于源数据的分类首先根据数据的类型进行分类,并在分类后将源数据再次整合根据源数据中数据的相关性进行单元的归类。
进一步的,所述在步骤S5数据湖的建立过程中采用的数据湖允许存储大量的原始数据,不会拒绝任何数据的包容性,从源头获取源数据时不受数据结构的约束。
进一步的,所述在步骤S5数据湖的建立过程中利用引擎Spark将融合后的源数据摄取到数据湖中进行储存,并在存储时加入时间轴,根据时间,在每一次存储前后均会自动生成时间戳,从而可以实现在仅查询某个时间点之后成功提交的数据,或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据。
进一步的,所述在S6资源共享的过程中采用的搜索引擎分别为快照查询、增量查询和读优化查询,即快照查询为查询某个增量提交操作中数据集的最新快照,先进行动态合并最新的基本文件和增量文件来提供近实时数据集,增量查询为仅查询新写入数据集的文件,需要指定一个即时时间作为条件,来查询此条件之后的新数据,读优化查询为直接查询基本文件。
本发明提供了多维数据元融合实现数据收集和共享的时空数据湖方法,具备以下有益效果:该多维数据元融合实现数据收集和共享的时空数据湖方法采用构建存储数据的数据湖使其能够存储大量的原始数据,利用数据仓对数据进行处理通过数据仓的建立不仅能够降低数据存储的成本,同时能够去除数据的重复性,同时能够对数据进行补偿补充数据的完整性,利用分类将数据根据类型相关性进行分类方便后续数据的提取存储过程,并提取在存储数据的过程中每一次存储前后均会自动生成时间戳,从而可以实现在仅查询某个时间点之后成功提交的数据,或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据,并在数据湖的基础上建立时空大数据分析云平台,利用登录入口使得能够共享数据湖内部数据,并接入搜索引擎根据快照查询、增量查询和读优化查询三种不同查询表的方式,实现共享查询数据的效率,方便使用者使用。
具体实施方式
多维数据元融合实现数据收集和共享的时空数据湖方法,包括以下步骤:
S1、数据收集
从移动设备、网站、移动应用程序、社交媒体和企业应用程序中获取非关系与关系数据,其中获取的数据包括储存结构化数据、半结构化数据、非结构化数据和二进制数据,得到的数据为源数据,采用的储存结构化数据为关系型数据库中的表,半结构化数据为CSV、日志、XML和JSON文件,非结构化数据为电子邮件、文档和PDF,二进制数据为图形、音频和视频数据;
S2、建立数据仓管理模型
建立数据仓管理模型并将获取的源数据导入其中,利用数据仓管理模型对导入的源数据进行预处理,其中数据的预处理包括数据的清洗、数据补偿与数据格式处理统一,使得源数据能够精炼标准,获取的源数据进行处理,其中处理过程为数据清洗将源数据中重复性相似性较多的数据删除,并在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,接着将补偿后的源数据进行规格统一,保证数据流通格式的一致性;
S3、数据分类
将数据仓中的源数据进行分类,并根据源数据的类型进行分类,然后对分类后的源数据根据数据的相似程度和相关性进行归类,对于源数据的分类首先根据数据的类型进行分类,并在分类后将源数据再次整合根据源数据中数据的相关性进行单元的归类;
S4、数据融合
将归类后的源数据进行数据融合;
S5、数据湖的建立
基于HDFS可以构建存储数据的数据湖,并利用Spark引擎将融合后的源数据摄取到数据湖中进行储存,并以数据湖为基础架构建时空大数据分析云平台,用于时空湖内部存储数据的共享,利用引擎Spark将融合后的源数据摄取到数据湖中进行储存,并在存储时加入时间轴,根据时间,在每一次存储前后均会自动生成时间戳,从而可以实现在仅查询某个时间点之后成功提交的数据,或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据;
S6、资源共享
在时空大数据分析云平台中接入共享登录入口,其中共享登录入口需要个人注册账号登录使用,账号的唯一性与等级性作为读取数据湖内部数据的基础,根据账号等级的权限用于读取获取对数据湖内部数据的操作,其中账号的等级根据使用者的使用时长权限决定,并建立搜索引擎,利用搜索引擎搜索共享数据湖中存储的信息,采用的搜索引擎分别为快照查询、增量查询和读优化查询,即快照查询为查询某个增量提交操作中数据集的最新快照,先进行动态合并最新的基本文件和增量文件来提供近实时数据集,增量查询为仅查询新写入数据集的文件,需要指定一个即时时间作为条件,来查询此条件之后的新数据,读优化查询为直接查询基本文件。
综上所述,该多维数据元融合实现数据收集和共享的时空数据湖方法,使用时多维数据元融合实现数据收集和共享的时空数据湖方法包括以下具体步骤:
S1、数据收集:选移动设备、网站、移动应用程序、社交媒体和企业应用程序中获取非关系与关系数据,其中获取的数据包括储存结构化数据、半结构化数据、非结构化数据和二进制数据,得到的数据为源数据,采用的储存结构化数据为关系型数据库中的表,半结构化数据为CSV、日志、XML和JSON文件,非结构化数据为电子邮件、文档和PDF,二进制数据为图形、音频和视频数据;
S2、建立数据仓管理模型并将获取的源数据导入其中,建立数据仓管理模型并将获取的源数据导入其中,利用数据仓管理模型对导入的源数据进行预处理,其中数据的预处理包括数据的清洗、数据补偿与数据格式处理统一,使得源数据能够精炼标准,获取的源数据进行处理,其中处理过程为数据清洗将源数据中重复性相似性较多的数据删除,并在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,接着将补偿后的源数据进行规格统一,保证数据流通格式的一致性;
S3、数据分类:将数据仓中的源数据进行分类,并根据源数据的类型进行分类,然后对分类后的源数据根据数据的相似程度和相关性进行归类,对于源数据的分类首先根据数据的类型进行分类,并在分类后将源数据再次整合根据源数据中数据的相关性进行单元的归类;
S4、数据融合:将归类后的源数据进行数据融合;
S5、数据湖的建立:基于HDFS可以构建存储数据的数据湖,并利用Spark引擎将融合后的源数据摄取到数据湖中进行储存,并以数据湖为基础架构建时空大数据分析云平台,用于时空湖内部存储数据的共享,利用引擎Spark将融合后的源数据摄取到数据湖中进行储存,并在存储时加入时间轴,根据时间,在每一次存储前后均会自动生成时间戳,从而可以实现在仅查询某个时间点之后成功提交的数据,或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据;
S6、资源共享:在时空大数据分析云平台中接入共享登录入口,其中共享登录入口需要个人注册账号登录使用,账号的唯一性与等级性作为读取数据湖内部数据的基础,根据账号等级的权限用于读取获取对数据湖内部数据的操作,其中账号的等级根据使用者的使用时长权限决定,并建立搜索引擎,利用搜索引擎搜索共享数据湖中存储的信息,采用的搜索引擎分别为快照查询、增量查询和读优化查询,即快照查询为查询某个增量提交操作中数据集的最新快照,先进行动态合并最新的基本文件和增量文件来提供近实时数据集,增量查询为仅查询新写入数据集的文件,需要指定一个即时时间作为条件,来查询此条件之后的新数据,读优化查询为直接查询基本文件。

Claims (7)

1.多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于,包括以下步骤:
S1、数据收集
从移动设备、网站、移动应用程序、社交媒体和企业应用程序中获取非关系与关系数据,其中获取的数据包括储存结构化数据、半结构化数据、非结构化数据和二进制数据,得到的数据为源数据;
S2、建立数据仓管理模型
建立数据仓管理模型并将获取的源数据导入其中,利用数据仓管理模型对导入的源数据进行预处理,其中数据的预处理包括数据的清洗、数据补偿与数据格式处理统一,使得源数据能够精炼标准;
S3、数据分类
将数据仓中的源数据进行分类,并根据源数据的类型进行分类,然后对分类后的源数据根据数据的相似程度和相关性进行归类;
S4、数据融合
将归类后的源数据进行数据融合;
S5、数据湖的建立
基于HDFS可以构建存储数据的数据湖,并利用Spark引擎将融合后的源数据摄取到数据湖中进行储存,并以数据湖为基础架构建时空大数据分析云平台,用于时空湖内部存储数据的共享;
S6、资源共享
在时空大数据分析云平台中接入共享登录入口,其中共享登录入口需要个人注册账号登录使用,账号的唯一性与等级性作为读取数据湖内部数据的基础,根据账号等级的权限用于读取获取对数据湖内部数据的操作,其中账号的等级根据使用者的使用时长权限决定,并建立搜索引擎,利用搜索引擎搜索共享数据湖中存储的信息。
2.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于:所述在步骤S1数据收集过程中采用的储存结构化数据为关系型数据库中的表,半结构化数据为CSV、日志、XML和JSON文件,非结构化数据为电子邮件、文档和PDF,二进制数据为图形、音频和视频数据。
3.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于:所述在步骤S2建立数据仓管理模型过程中的将获取的源数据进行处理,其中处理过程为数据清洗将源数据中重复性相似性较多的数据删除,并在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,接着将补偿后的源数据进行规格统一,保证数据流通格式的一致性。
4.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于:所述在步骤S3数据分类过程中对于源数据的分类首先根据数据的类型进行分类,并在分类后将源数据再次整合根据源数据中数据的相关性进行单元的归类。
5.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于:所述在步骤S5数据湖的建立过程中采用的数据湖允许存储大量的原始数据,不会拒绝任何数据的包容性,从源头获取源数据时不受数据结构的约束。
6.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于:所述在步骤S5数据湖的建立过程中利用引擎Spark将融合后的源数据摄取到数据湖中进行储存,并在存储时加入时间轴,根据时间,在每一次存储前后均会自动生成时间戳,从而可以实现在仅查询某个时间点之后成功提交的数据,或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据。
7.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法,其特征在于:所述在S6资源共享的过程中采用的搜索引擎分别为快照查询、增量查询和读优化查询,即快照查询为查询某个增量提交操作中数据集的最新快照,先进行动态合并最新的基本文件和增量文件来提供近实时数据集,增量查询为仅查询新写入数据集的文件,需要指定一个即时时间作为条件,来查询此条件之后的新数据,读优化查询为直接查询基本文件。
CN202211063642.7A 2022-09-01 2022-09-01 多维数据元融合实现数据收集和共享的时空数据湖方法 Pending CN115168512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211063642.7A CN115168512A (zh) 2022-09-01 2022-09-01 多维数据元融合实现数据收集和共享的时空数据湖方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211063642.7A CN115168512A (zh) 2022-09-01 2022-09-01 多维数据元融合实现数据收集和共享的时空数据湖方法

Publications (1)

Publication Number Publication Date
CN115168512A true CN115168512A (zh) 2022-10-11

Family

ID=83481655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211063642.7A Pending CN115168512A (zh) 2022-09-01 2022-09-01 多维数据元融合实现数据收集和共享的时空数据湖方法

Country Status (1)

Country Link
CN (1) CN115168512A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809249A (zh) * 2023-02-03 2023-03-17 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
CN116501788A (zh) * 2023-06-20 2023-07-28 东华软件智能科技有限公司 一种库仓湖一体化数据管控平台
CN116737854A (zh) * 2023-05-26 2023-09-12 上海优异达机电有限公司 基于多源遥感数据的时空数据湖管理系统及其安全防护方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221887A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种对数据湖服务器中的数据进行管理和访问的方法
CN111459908A (zh) * 2020-03-08 2020-07-28 中国科学院城市环境研究所 一种基于数据湖的多源异构生态环境大数据处理方法及系统
US10795895B1 (en) * 2017-10-26 2020-10-06 EMC IP Holding Company LLC Business data lake search engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10795895B1 (en) * 2017-10-26 2020-10-06 EMC IP Holding Company LLC Business data lake search engine
CN111221887A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种对数据湖服务器中的数据进行管理和访问的方法
CN111459908A (zh) * 2020-03-08 2020-07-28 中国科学院城市环境研究所 一种基于数据湖的多源异构生态环境大数据处理方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809249A (zh) * 2023-02-03 2023-03-17 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
CN116737854A (zh) * 2023-05-26 2023-09-12 上海优异达机电有限公司 基于多源遥感数据的时空数据湖管理系统及其安全防护方法
CN116737854B (zh) * 2023-05-26 2024-04-30 上海优异达机电有限公司 基于多源遥感数据的时空数据湖管理系统及其安全防护方法
CN116501788A (zh) * 2023-06-20 2023-07-28 东华软件智能科技有限公司 一种库仓湖一体化数据管控平台
CN116501788B (zh) * 2023-06-20 2023-10-27 东华软件智能科技有限公司 一种库仓湖一体化数据管控平台

Similar Documents

Publication Publication Date Title
US20230041672A1 (en) Enterprise data processing
CN109213756B (zh) 数据存储、检索方法、装置、服务器和存储介质
CN115168512A (zh) 多维数据元融合实现数据收集和共享的时空数据湖方法
US8924373B2 (en) Query plans with parameter markers in place of object identifiers
WO2017170459A1 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
Chandra et al. Comprehensive survey on data warehousing research
KR20090035545A (ko) 초대형 데이터베이스 상의 데이터 처리
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN107341199B (zh) 一种基于文献信息共性模式的推荐方法
US11461333B2 (en) Vertical union of feature-based datasets
JP6159908B6 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
Prasad et al. uCLUST-a new algorithm for clustering unstructured data
Efthymiou et al. Benchmarking blocking algorithms for web entities
JPWO2017170459A6 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN102955802A (zh) 从数据报表中获取数据的方法和装置
KR102541934B1 (ko) 빅데이터 증강분석 프로파일링 시스템
CN111125045B (zh) 一种轻量级etl处理平台
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN111680072B (zh) 基于社交信息数据的划分系统及方法
CN112667663A (zh) 一种数据查询方法及系统
Li et al. A Comparative Study of Row and Column Storage for Time Series Data
Chantaranimi et al. Evaluation of Candidate Pair Generation Strategies in Entity Matching
Dai Research on the Decision-making Model of Value Information Selection in the Context of Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination