CN111460236A - 基于数据湖的大数据采集治理快速检索系统 - Google Patents

基于数据湖的大数据采集治理快速检索系统 Download PDF

Info

Publication number
CN111460236A
CN111460236A CN202010340728.4A CN202010340728A CN111460236A CN 111460236 A CN111460236 A CN 111460236A CN 202010340728 A CN202010340728 A CN 202010340728A CN 111460236 A CN111460236 A CN 111460236A
Authority
CN
China
Prior art keywords
data
module
database
service
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010340728.4A
Other languages
English (en)
Inventor
李光
李延波
张建军
俞光日
夏连杰
刘金栋
李延勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin 712 Communication and Broadcasting Co Ltd
Original Assignee
Tianjin 712 Communication and Broadcasting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin 712 Communication and Broadcasting Co Ltd filed Critical Tianjin 712 Communication and Broadcasting Co Ltd
Priority to CN202010340728.4A priority Critical patent/CN111460236A/zh
Publication of CN111460236A publication Critical patent/CN111460236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Abstract

本发明提供了一种基于数据湖的大数据采集治理快速检索系统,包括数据采集前端模块、数据关联元数据提取模块、数据资源池模块、数据治理模块、数据服务模块和数据业务模块;数据关联元数据提取模块用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中;所述数据服务模块具备冷数据的自动清除功能。本发明提出的系统充分利用大数据技术、数据治理技术、不同类型数据库的特性实现的基于数据湖的数据采集治理快速检索系统,可以有效的避免数据资源碎片化、数据检索效率低的问题,还有避免数据存储资源庞大、存储资源浪费的问题。

Description

基于数据湖的大数据采集治理快速检索系统
技术领域
本发明属于大数据技术领域,尤其是涉及一种基于数据湖的大数据采集治理快速检索系统。
背景技术
所谓的数据湖就是通过原始数据分类存储到不同的数据池,然后在各个数据池中将数据整合转化为容易分析的统一存储格式进行存储。这种方式极大的方便用户对数据进行分析和利用,从而产生经济效益。
数据湖实现的常用手段是利用Hadoop技术,数据湖把原始数据按照类别进行存储,在各数据池中可将数据转化为统一的可直接提取的格式,这种方式具有极大的商业价值,对大数据分析做出了极大贡献。
但是,现有的数据湖架构也存在一些问题和挑战,比如:数据来源不同造成数据碎片化、检索效率低;还有数据湖中很多数据永远不会删除,所需要的存储空间庞大,造成资源浪费等问题。
例如现有技术的中国专利:一种基于数据湖的数据治理方法及装置,专利申请号:201910570011.6;一种面向全数据形态开放共享的数据湖系统,专利申请号:201810963494.1;工业数据湖系统,专利申请号:201910944246.7;上述三个专利只描述了一种基于数据湖思想的数据系统的实现方式,在专利中均未涉及如何避免数据存储资源庞大、存储资源浪费、数据资源碎片化、检索效率低等问题。
发明内容
有鉴于此,本发明旨在提出一种基于数据湖的大数据采集治理快速检索系统,基于Hadoop、快速检索、分布式数据库等技术实现的具备多源异构数据采集、治理、快速检索系统,有效的避免了上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
基于数据湖的大数据采集治理快速检索系统,其特征在于,包括:
数据采集前端模块,用于完成多源异构数据的采集,并将采集到的数据存储在数据资源池中;
数据资源池模块,包括分布式文件系统、非关系型数据库、关系型数据库,用于存储数据采集前端模块输出的数据;
数据治理模块,用于批量或实时治理存储在数据资源池模块中的数据,并将治理后的数据按照用户的需求形成数据主题库,并存储在数据服务模块的分布式分析型数据库中;
数据服务模块,包括分布式全文检索数据库、分布式分析型数据库、分布式内存型数据库三个部分;
数据业务模块,用于为用户提供数据业务服务;
数据关联元数据提取模块,用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中。
进一步的,所述数据关联元数据提取模块提取的元数据包括如下关键参数:数据的版本信息、类型、来源、采集时间、数据结构信息、存储位置信息;所述数据采集前端模块和数据关联元数据提取模块分别实现数据储存及元数据提取的步骤如下:
步骤A:多个数据采集前端模块分别部署在不同的数据源前端,每个数据采集前端模块采集一种数据来源的数据;
步骤B:采集到的数据通过采集前端模块的数据版本信息检测模块监测出数据相关的版本信息;通过采集前端模块的数据标签处理模块将数据进行打标签,标签信息包括:类型、来源、采集时间、数据结构信息、存储位置;
步骤C:数据按照不同数据来源、不同数据类型分类存储到数据资源池中的分布式文件系统、非关系型数据库和关系型数据库;
步骤D:数据存储完后,同时数据关联元数据提取模块将数据存储位置、数据版本信息、类型、来源、采集时间、数据结构信息、数据之间的关联关系元数据信息存储在分布式全文检索数据库中。
进一步的,所述数据服务模块具备冷数据的自动清除功能,具体的实施步骤如下:
步骤A:数据业务模块向数据服务模块发送数据业务请求,其中数据服务模块包括数据检索服务模块和数据分发服务模块;
步骤B:数据服务模块按照不同业务类型,将任务分发给不同的数据业务处理模块进行处理;
步骤C:数据业务处理模块完成数据相关业务处理后将处理结果反馈给数据业务模块;
步骤D:数据业务处理模块,记录当前处理的数据,并更新分布式全文检索数据库中相应数据的数据更新时间为当前时间;
步骤E:数据服务模块在启动时,启动定时检查冷数据任务,该任务按照周期工作的方式定时检测分布式全文检索数据库中的数据更新时间;
步骤F:定时检查冷数据任务根据当前时间与数据更新时间的差值判断数据是否为冷数据,其中判断冷数据的时间差可配置;
步骤G:如果是冷数据,则根据数据存储在分布式全文检索数据库中的数据关联关系、存储位置等信息检索出数据,并删除数据;如果不是冷数据则结束。
进一步的,所述分布式分析型数据库中存储的是用户通过数据治理模块完成数据清洗、数据治理、数据提取后的主题类数据。
进一步的,所述分布式内存型数据库中存储的是用户高频次、高速率需求的数据,
当用户在进行高速计算类业务时,首先从分布式内存型数据库中查找数据,当分布式内存型数据库中有该类数据时,直接将数据反馈给用户;当分布式内存型数据库中不存储数据时,数据服务模块会自动从数据资源池模块中检索相关数据,并将检索到的数据存储在分布式内存型数据库中,再反馈给用户。
进一步的,所述数据业务模块用于为用户提供数据快速检索、数据分析、数据计算、数据目录、数据可视化、数据血缘关系的业务服务。
相对于现有技术,本发明具有以下优势:
本发明提出的系统充分利用大数据技术、数据治理技术、不同类型数据库的特性实现的基于数据湖的数据采集治理快速检索系统,可以有效的避免数据资源碎片化、数据检索效率低的问题,还有避免数据存储资源庞大、存储资源浪费的问题。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述基于数据湖的大数据采集治理快速检索系统的各个组成模块的数据交互示意图;
图2为本发明实施例所述的数据关联元数据提取模块的功能使用图;
图3为本发明实施例所述数据服务模块的冷热数据自动识别流程图;
图4为本发明实施例所述数据服务模块的冷热数据处理流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
本实施例的基于数据湖的大数据采集治理快速检索系统,如图1所示,包括数据采集前端模块、数据关联元数据提取模块、数据资源池模块、数据治理模块、数据服务模块和数据业务模块,覆盖数据采集、数据存储、数据治理、数据血缘关系管理、数据快速查询检索、数据应用服务等数据全生命周期的处理与监控过程;
数据采集前端模块:
完成多源异构数据的采集,并将采集到的数据存储在数据资源池中相应的数据文件系统中。数据采集前端支持采集的数据类型有:非结构化数据、半结构化数据、结构化数据;数据来源有:网页、设备、数据库等多种来源,此处属于现有技术。
数据关联元数据提取模块:
完成多源数据的元数据提取,提取的元数据包括:数据的版本信息、类型、来源、采集时间、数据结构信息、存储位置等关键参数,并将上述关键信息存储在分布式全局索引数据库中,便于后续数据的快速检索,解决大量数据碎片化,数据关联不清晰,数据检索效率低的问题。
数据资源池模块:
采用大数据技术,提供分布式文件系统、非关系型数据库、关系型数据库存储能力,解决海量异构数据的存储问题,同时系统支持横向可扩展,纵向单体资源可升级的能力,此处的实现属于现有技术。
数据治理模块:
为系统提供图形化的数据批量治理能力,同时提供流式实时数据的治理能力;可以支持批量或实时的方式治理存储在数据资源池中的数据,并将治理后的数据按照用户的需求形成数据主题库,此处属于现有技术,存储在数据服务模块中的分布式分析型数据库、分布式内存型数据库中,为业务部门提供数据资源服务。
数据服务模块:
包括分布式全文检索数据库、分布式分析型数据库、内存型数据库三个部分,其中,
分布式全文检索数据库中保存存储在数据资源池中的数据元数据信息,通过分布式全文检索数据库中的元数据信息可以快速检索定位出相应的数据原始资源,为业务系统提供快速查询检索服务;
分布式分析型数据库中存储的是用户通过数据治理模块完成数据清洗、数据治理、数据提取后的主题类数据,形成支持用户特点业务需求的主题库,为用户业务平台提供数据服务;
分布式内存型数据库中存储的是用户高频次、高速率需求的数据,通常用户在进行高速计算类业务时,首先从分布式内存数据库查找数据,当分布式内存数据库中有该类数据时,直接将数据反馈给用户;当分布式内存数据库中不存储数据时,数据服务模块会自动从数据资源池中检索相关数据,并将检索到的数据存储在分布式内存数据库数据中,再反馈给用户,用下次用户再检索相关数据时,即可直接从分布式内存数据库获得数据,以此提高用户数据获取的效率。
同时,数据服务模块具备冷数据自动清除功能,本实施例的数据服务模块可以将近三个月(周期可配置)用户未使用数据进行自动删除,解决数据存储资源庞大、存储资源浪费的问题。
数据业务模块:
在数据服务模块、数据治理模块、数据资源池模块、数据关联元数据提取等模块的基础上,为用户提供数据快速检索、数据分析、数据计算、数据目录、数据可视化、数据血缘关系等业务服务。便于数据用户方便快捷检索数据、治理数据、应用数据、管理数据。数据业务模块的具体实现属于现有技术。
本发明的基于数据湖的大数据采集治理快速检索系统,在系统运行过程中可分为:数据采集存储元数据提取过程、数据清洗与数据治理过程、数据服务业务过程三个部分,三个部分可以异步并行执行,具体的数据交互流转如图1所示。
其中,所述数据采集存储元数据提取过程具体实施步骤如下:
步骤A:数据采集前端模块从多类型的异构数据源采集数据;
步骤B:数据采集前端模块将采集到的多源异构数据存储到数据资源池中;
步骤C:数据采集前端模块在进行数据存储时,会通过所述数据关联元数据提取模块提取存储数据的元数据信息,并通过数据关联元数据提取模块将数据的元数据存储在数据服务摸块的分布式全文检索数据库中。
数据清洗与数据治理过程可以分为手动配置与自动执行两个阶段:
具体实施步骤如下:
步骤A:用户通过数据检索业务,快速从数据资源池中查找出所需要的原始数据;
步骤B:用户通过数据治理模块提供的图形化数据治理工具,配置数据清洗、数据治理规则,完成原始数据的数据清洗、治理与数据提取;
步骤C:用户将治理后的数据指定存储到数据服务模块中的特定主题库中,形成特定的主题资源库;
步骤D:用户可以将配置的数据清洗、治理、提取规则,通过数据治理模块提供的保存功能,形成固定的数据处理规则,以便针对后续相关数据处理直接调用或以此为模板;同时也可以将该规则配置成自动任务,设置为按照固定周期运行的方式,不断自动清洗、治理、提取数据,并将数据保存在指定的主题库中。
数据服务业务过程:
主要由数据业务模块和数据服务模块支撑提供,其中数据业务模块为用户提供可视化的人机交互界面,主要提供的功能有数据目录展示、数据血缘关系展示、数据可视化、数据快速检索服务、数据分析业务、数据计算业务等;数据服务模块为数据业务提供数据的快速查询检索、数据分析、数据计算的基础支撑;并与数据治理模块、数据资源池交互,完成数据原始数据提取、数据治理、数据入库等数据服务功能。
本发明涉及的数据储存元信息提取模块功能,可以解决数据碎片化问题,具体实施方式如图2示意,具体步骤如下:
步骤A:数据采集前端模块可以分别部署在不同的数据源前端,每个数据采集前端模块采集一种数据来源的数据;
步骤B:采集到的数据通过采集前端模块的数据版本信息检测模块监测出数据相关的版本信息;通过采集前端模块的数据标签处理模块将数据进行打标签(标签信息包括:类型、来源、采集时间、数据结构信息、存储位置等;
步骤C:数据按照不同数据来源、不同数据类型分类存储到数据资源池中的分布式文件系统(HDFS)、非关系型数据库(HBASE)中。其中存储的在HDFS中的数据,以数据的版本信息、类型、来源、采集时间作为存储文件名;数据存储在HBASE时,首先按照数据类型、来源等信息检索HBASE中是否存在相应数据,如果存在则直接将数据存储在现有的表中,并同时将数据版本信息、采集时间等信息存储在HBASE中;如果不存在则在HBASE中新建表,并同时将数据版本信息、采集时间等信息存储在HBASE中;
步骤D:数据存储完后同时将数据存储位置、数据版本信息、数据之间的关联关系等元数据信息存储在分布式全文检索数据库中,以便后续数据分类快速检索。
本发明系统的数据服务模块具备冷数据自动清除功能,涉及的解决冷热数据处理流程具体实施方式如图3、图4示意,具体步骤如下:
步骤A:数据业务模块向数据服务模块发送数据业务请求(检索、数据下载、数据分发等业务);其中数据服务模块包括数据检索服务模块和数据分发服务模块;
步骤B:数据服务模块按照不同业务类型,将任务分发给不同的数据业务处理模块进行处理;
步骤C:数据业务处理模块完成数据相关业务处理后将处理结果反馈给数据业务模块;
步骤D:数据业务处理模块,记录当前处理的数据,并更新分布式全文检索数据库中相应数据的数据更新时间为当前时间。
步骤E:数据服务模块在启动时,启动定时检查冷数据任务,该任务按照周期工作的方式(工作时间间隔可配置)定时检测分布式全文检索数据库中的数据更新时间;
步骤F:定时检查冷数据任务根据当前时间与数据更新时间的差值判断数据是否为冷数据,其中判断冷数据的时间差可配置;
步骤G:如果是冷数据,则根据数据存储在分布式全文检索数据库中的数据关联关系、存储位置等信息检索出数据,并删除数据;如果不是冷数据则结束。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于数据湖的大数据采集治理快速检索系统,其特征在于,包括:
数据采集前端模块,用于完成多源异构数据的采集,并将采集到的数据存储在数据资源池中;
数据资源池模块,包括分布式文件系统、非关系型数据库、关系型数据库,用于存储数据采集前端模块输出的数据;
数据治理模块,用于批量或实时治理存储在数据资源池模块中的数据,并将治理后的数据按照用户的需求形成数据主题库,并存储在数据服务模块的分布式分析型数据库中;
数据服务模块,包括分布式全文检索数据库、分布式分析型数据库、分布式内存型数据库三个部分;
数据业务模块,用于为用户提供数据业务服务;
数据关联元数据提取模块,用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中。
2.根据权利要求1所述的系统,其特征在于:所述数据关联元数据提取模块提取的元数据包括如下关键参数:数据的版本信息、类型、来源、采集时间、数据结构信息、存储位置信息;
所述数据采集前端模块和数据关联元数据提取模块分别实现数据储存及元数据提取的步骤如下:
步骤A:多个数据采集前端模块分别部署在不同的数据源前端,每个数据采集前端模块采集一种数据来源的数据;
步骤B:采集到的数据通过采集前端模块的数据版本信息检测模块监测出数据相关的版本信息;通过采集前端模块的数据标签处理模块将数据进行打标签,标签信息包括:类型、来源、采集时间、数据结构信息、存储位置;
步骤C:数据按照不同数据来源、不同数据类型分类存储到数据资源池中的分布式文件系统、非关系型数据库和关系型数据库;
步骤D:数据存储完后,同时数据关联元数据提取模块将数据存储位置、数据版本信息、类型、来源、采集时间、数据结构信息、数据之间的关联关系元数据信息存储在分布式全文检索数据库中。
3.根据权利要求1所述的系统,其特征在于:所述数据服务模块具备冷数据的自动清除功能,具体的实施步骤如下:
步骤A:数据业务模块向数据服务模块发送数据业务请求,其中数据服务模块包括数据检索服务模块和数据分发服务模块;
步骤B:数据服务模块按照不同业务类型,将任务分发给不同的数据业务处理模块进行处理;
步骤C:数据业务处理模块完成数据相关业务处理后将处理结果反馈给数据业务模块;
步骤D:数据业务处理模块,记录当前处理的数据,并更新分布式全文检索数据库中相应数据的数据更新时间为当前时间;
步骤E:数据服务模块在启动时,启动定时检查冷数据任务,该任务按照周期工作的方式定时检测分布式全文检索数据库中的数据更新时间;
步骤F:定时检查冷数据任务根据当前时间与数据更新时间的差值判断数据是否为冷数据,其中判断冷数据的时间差可配置;
步骤G:如果是冷数据,则根据数据存储在分布式全文检索数据库中的数据关联关系、存储位置等信息检索出数据,并删除数据;如果不是冷数据则结束。
4.根据权利要求1所述的系统,其特征在于:所述分布式分析型数据库中存储的是用户通过数据治理模块完成数据清洗、数据治理、数据提取后的主题类数据。
5.根据权利要求1所述的系统,其特征在于:所述分布式内存型数据库中存储的是用户高频次、高速率需求的数据,
当用户在进行高速计算类业务时,首先从分布式内存型数据库中查找数据,当分布式内存型数据库中有该类数据时,直接将数据反馈给用户;当分布式内存型数据库中不存储数据时,数据服务模块会自动从数据资源池模块中检索相关数据,并将检索到的数据存储在分布式内存型数据库中,再反馈给用户。
6.根据权利要求1所述的系统,其特征在于:所述数据业务模块用于为用户提供数据快速检索、数据分析、数据计算、数据目录、数据可视化、数据血缘关系的业务服务。
CN202010340728.4A 2020-04-26 2020-04-26 基于数据湖的大数据采集治理快速检索系统 Pending CN111460236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010340728.4A CN111460236A (zh) 2020-04-26 2020-04-26 基于数据湖的大数据采集治理快速检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010340728.4A CN111460236A (zh) 2020-04-26 2020-04-26 基于数据湖的大数据采集治理快速检索系统

Publications (1)

Publication Number Publication Date
CN111460236A true CN111460236A (zh) 2020-07-28

Family

ID=71682605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010340728.4A Pending CN111460236A (zh) 2020-04-26 2020-04-26 基于数据湖的大数据采集治理快速检索系统

Country Status (1)

Country Link
CN (1) CN111460236A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858483A (zh) * 2020-07-29 2020-10-30 湖南泛联新安信息科技有限公司 基于多种数据库与文件系统的软件样本混合存储系统
CN111984436A (zh) * 2020-08-25 2020-11-24 中央广播电视总台 一种数据采集系统
CN112255984A (zh) * 2020-10-28 2021-01-22 河北时代电子有限公司 一种基于分布式工业协议解析技术的多源数据采集系统
CN112417018A (zh) * 2020-11-23 2021-02-26 中国工商银行股份有限公司 一种数据共享方法及装置
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN112883091A (zh) * 2021-01-12 2021-06-01 平安资产管理有限责任公司 因子数据获取方法、装置、计算机设备和存储介质
CN113064891A (zh) * 2021-04-09 2021-07-02 中电科数字科技(集团)有限公司 物联时空数据计算与管理系统及方法
CN113420021A (zh) * 2021-07-14 2021-09-21 苏州峰之鼎信息科技有限公司 一种数据存储方法、装置、设备及介质
CN115936296A (zh) * 2022-12-20 2023-04-07 北京航天智造科技发展有限公司 基于工业互联网大数据湖的离散制造企业生产制造数据驾驶舱系统
CN112435022B (zh) * 2020-11-19 2023-09-22 上海领健信息技术有限公司 基于用户实时数据的动态检索系统、及方法
DE112022000538T5 (de) 2021-01-07 2023-11-09 Abiomed, Inc. Netzwerkbasierte Medizinische Gerätesteuerung und Datenverwaltungssysteme

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528649A (zh) * 2016-10-14 2017-03-22 宁波华太车载技术有限公司 一种新能源汽车的海量数据存储检索系统和方法
US10303690B1 (en) * 2016-11-23 2019-05-28 EMC IP Holding Company LLC Automated identification and classification of critical data elements
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528649A (zh) * 2016-10-14 2017-03-22 宁波华太车载技术有限公司 一种新能源汽车的海量数据存储检索系统和方法
US10303690B1 (en) * 2016-11-23 2019-05-28 EMC IP Holding Company LLC Automated identification and classification of critical data elements
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858483A (zh) * 2020-07-29 2020-10-30 湖南泛联新安信息科技有限公司 基于多种数据库与文件系统的软件样本混合存储系统
CN111984436A (zh) * 2020-08-25 2020-11-24 中央广播电视总台 一种数据采集系统
CN112255984A (zh) * 2020-10-28 2021-01-22 河北时代电子有限公司 一种基于分布式工业协议解析技术的多源数据采集系统
CN112435022B (zh) * 2020-11-19 2023-09-22 上海领健信息技术有限公司 基于用户实时数据的动态检索系统、及方法
CN112417018A (zh) * 2020-11-23 2021-02-26 中国工商银行股份有限公司 一种数据共享方法及装置
CN112417018B (zh) * 2020-11-23 2023-09-22 中国工商银行股份有限公司 一种数据共享方法及装置
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN112540975B (zh) * 2020-12-29 2021-08-31 中科大数据研究院 一种基于petri网的多源异构数据质量检测方法及系统
DE112022000538T5 (de) 2021-01-07 2023-11-09 Abiomed, Inc. Netzwerkbasierte Medizinische Gerätesteuerung und Datenverwaltungssysteme
CN112883091A (zh) * 2021-01-12 2021-06-01 平安资产管理有限责任公司 因子数据获取方法、装置、计算机设备和存储介质
CN113064891A (zh) * 2021-04-09 2021-07-02 中电科数字科技(集团)有限公司 物联时空数据计算与管理系统及方法
CN113420021A (zh) * 2021-07-14 2021-09-21 苏州峰之鼎信息科技有限公司 一种数据存储方法、装置、设备及介质
CN115936296A (zh) * 2022-12-20 2023-04-07 北京航天智造科技发展有限公司 基于工业互联网大数据湖的离散制造企业生产制造数据驾驶舱系统

Similar Documents

Publication Publication Date Title
CN111460236A (zh) 基于数据湖的大数据采集治理快速检索系统
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN109299102A (zh) 一种基于Elastcisearch的HBase二级索引系统及方法
CN102184222B (zh) 一种在大数据量存储中快速检索的方法
CN110162522B (zh) 一种分布式数据搜索系统及方法
CN107783985B (zh) 一种分布式数据库查询方法、装置及管理系统
CN109947796B (zh) 一种分布式数据库系统查询中间结果集的缓存方法
CN101196900A (zh) 一种基于元数据的信息检索方法
CN104239377A (zh) 跨平台的数据检索方法及装置
US9734177B2 (en) Index merge ordering
CN104111958A (zh) 一种数据查询方法及装置
CN103984726A (zh) 一种数据库执行计划的局部修正方法
CN103020322A (zh) 查询方法
CN108984583A (zh) 一种基于日志文件的搜索方法
CN103226609A (zh) 一种web聚焦搜索系统的搜索方法
CN106484694B (zh) 基于分布式数据库的全文搜索方法及系统
CN114238388A (zh) 一种基于多协议的异构数据收集及检索系统
CN112800058A (zh) 一种HBase二级索引的实现方法
CN101957860A (zh) 一种发布、搜索信息的方法及装置
CN109739885A (zh) 基于本地缓存的数据查询方法、装置、设备及存储介质
CN107291951B (zh) 数据处理方法、装置、存储介质和处理器
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
CN111611222A (zh) 一种基于分布式存储的数据动态处理方法
CN109684331A (zh) 一种基于Kudu的对象存储元数据管理装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728