CN112732467A - 一种大规模数据共享方法、装置及存储介质 - Google Patents
一种大规模数据共享方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112732467A CN112732467A CN202110337488.7A CN202110337488A CN112732467A CN 112732467 A CN112732467 A CN 112732467A CN 202110337488 A CN202110337488 A CN 202110337488A CN 112732467 A CN112732467 A CN 112732467A
- Authority
- CN
- China
- Prior art keywords
- data
- sharing
- layer
- storage
- requester
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种大规模数据共享方法、装置及存储介质,所述大规模数据共享方法,包括以下步骤:共享数据接收,连接至少一个数据源,从数据源中接收原始数据;共享层构建,将接收到的原始数据进行存储,构建所述共享层;数据共享,接收数据传输请求,响应于所述数据传输请求,从所述共享层中输出数据。所述数据源可以为电信运营商中的各个部门,将所述数据源的数据构建为共享层,当需要使用共享层中的数据时,根据数据传输请求从共享层中传输对应数据,使各部门之间数据互通,解决了数据孤岛问题,且提高了数据利用效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种大规模数据共享方法、装置及存储介质。
背景技术
大数据时代的到来,对于电信运营商而言,增加了许多可提高的方向。而且电信各部门对数据的依赖性也与日俱增,各部门通过建设大数据平台,对大数数据进行分析和应用的开发,使得管理水平和运营效率得到了显著提高。
但是一个电信运营商里往往存在众多部门,各部门均存在各自的运营数据,每个部门会对自己部分的运营数据进行处理,并存储为各自的数据库,但是运营商部门各自为政,部门之间的数据并不互通,彼此之间的数据不能共享,形成数据孤岛,数据利用效率低。
因此,本领域亟需一种大规模数据共享方法、装置及存储介质。
因此,有鉴于此,提出本申请。
发明内容
本申请的目的在于提供一种大规模数据共享方法、装置及存储介质,使各部门之间数据互通,提高数据利用效率。
本申请的第一方面提供了一种大规模数据共享方法,包括以下步骤:
共享数据接收,连接至少一个数据源,从数据源中接收原始数据;
共享层构建,将接收到的原始数据进行存储,构建所述共享层;
数据共享,接收数据传输请求,响应于所述数据传输请求,从所述共享层中输出数据。
采用上述方案,所述数据源可以为电信运营商中的各个部门,将所述数据源的数据构建为共享层,当需要使用共享层中的数据时,根据数据传输请求从共享层中传输对应数据,使各部门之间数据互通,解决了数据孤岛问题,且提高了数据利用效率。
进一步地,所述数据源可以为电信运营商中的各个部门,也可以为公司中的各个部门。
进一步地,所述共享数据接收步骤为通过数据出口从数据源中接收原始数据,所述数据出口包括但不限于第三方数据出口、省网出口、Cache出口、IDC出口或城域网出口。
采用上述方案,从多种接口中接收数据,提高数据全面性。
进一步地,所述共享层构建的步骤还包括数据预处理,所述数据预处理的步骤包括:
数据溯源,接收所述原始数据的五元组数据,根据所述五元组数据中的IP地址得出对于对应的数据地址,记录所述数据地址;
数据格式统一,将接收到的原始数据进行处理,统一数据格式;
业务ID矫正,相同的所述数据源设置有相同的业务ID,对同一数据源的业务ID进行统一。
采用上述方案,所述数据溯源步骤通过IP地址得出数据地址,并记录,便于后期查找数据地址;所述数据格式统一为接收到的不同格式的原始数据进行处理,便于对数据进行统一存储;所述业务ID矫正为相同的所述数据源对应相同的业务ID,解决了后期难以溯源的问题。
优选地,所述数据预处理的步骤还包括数据清洗,删除所述原始数据中的异常数据。
采用上述方案,对异常数据进行删除,所述异常数据可以为数据大小异常或者数据长度异常的数据,降低存储压力。
进一步地,所述数据预处理的步骤还包括业务宽表生成:所述业务宽表生成步骤包括,合并从不同数据源接收的原始数据的相同部分,生成表格。
采用上述方案,对相同部分的数据进行合并,降低数据存储压力,提高存储资源利用率。
进一步地,所述共享层构建的步骤还包括数据存储,所述共享层包括至少一个存储部,所述存储部包括但不限于HDFS存储部、kafka存储部、MPP存储部和ElasticSearch存储部。
进一步地,不同的存储部内的数据可以为有交集的数据。
采用上述方案,将数据存储于不同的存储部中,不同的存储部为用户提供的服务不同,可以为用户提供更为便捷的存储部,便于为用户提供对应服务,提高数据利用率。
进一步地,所述存储部设置有数据接口,所述HDFS存储部的接口包括hive和/或spark sql接口;所述kafka存储部的接口包括kafka接口;所述MPP存储部的接口包括MPPsql接口;所述ElasticSearch存储部的接口包括restful接口。
采用上述方案,为不同的存储部提供不同格式接口,便于用户进行数据提取。
进一步地,所述数据共享的步骤还包括:
租户管理,判断所述数据传输请求的请求方是否在所述共享层中备案,若没有备案则对该数据传输请求不予响应。
采用上述方案,若请求方没有备案则该请求方没有权利接入共享层,提供数据安全性。
进一步地,所述数据共享的步骤还包括:
策略管理,所述请求方能够对所述共享层进行操作,所述在共享层中备案的请求方,同时备案有禁用操作集,判断所述请求方的操作是否被记录在禁用操作集中,若是,则不对该操作进行响应;
权限管理,所述在共享层中备案的请求方,同时备案有可用权限,所述可用权限为该请求方能够操作的存储部及该存储部下的子存储部,判断所述数据传输请求所请求的数据是否在可用权限内,若不在,则不予提供该数据传输请求所请求的数据。
采用上述方案,对不同的请求方的操作,以及可操作的范围进行控制,提高数据安全性。
优选地,所述大规模数据共享方法还包括:日志记录,所述日志中记录有对所述共享层操作记录,所述操作记录包括对数据传输请求进行记录,并保存。
采用上述方案,对所述操作记录进行保存,便于后期工作人员对所述操作记录进行审查,提高安全性。
本申请的第二方面提供了一种大规模数据共享系统,包括:
共享数据接收模块,用于连接至少一个数据源,从数据源中接收原始数据;
共享层构建模块,用于将接收到的原始数据进行存储,构建所述共享层;
数据共享模块,用于接收数据传输请求,响应于所述数据传输请求,从所述共享层中输出数据。
采用上述方案,所述数据源可以为电信运营商中的各个部门,将所述数据源的数据构建为共享层,当需要使用共享层中的数据时,根据数据传输请求从共享层中传输对应数据,使各部门之间数据互通,解决了数据孤岛问题,且提高了数据利用效率。
进一步地,所述数据源可以为电信运营商中的各个部门,也可以为公司中的各个部门。
进一步地,所述共享数据接收模块用于通过数据出口从数据源中接收原始数据,所述数据出口包括但不限于第三方数据出口、省网出口、Cache出口、IDC出口或城域网出口。
进一步地,所述共享层构建模块还包括数据预处理模块,所述数据预处理模块包括:
数据溯源模块,用于接收所述原始数据的五元组数据,根据所述五元组数据中的IP地址得出对于对应的数据地址,记录所述数据地址;
数据格式统一模块,用于将接收到的原始数据进行处理,统一数据格式;
业务ID矫正模块,相同的所述数据源设置有相同的业务ID,用于对同一数据源的业务ID进行统一。
优选地,所述数据预处理模块还包括数据清洗模块,用于删除所述原始数据中的异常数据。
进一步地,所述数据预处理模块还包括业务宽表生成模块:用于合并从不同数据源接收的原始数据的相同部分,生成表格。
进一步地,所述共享层构建模块还包括数据存储模块,所述共享层包括至少一个存储部,所述存储部包括但不限于HDFS存储部、kafka存储部、MPP存储部和ElasticSearch存储部。
进一步地,不同的存储部内的数据可以为有交集的数据。
进一步地,所述存储部设置有数据接口,所述HDFS存储部的接口包括hive和/或spark sql接口;所述kafka存储部的接口包括kafka接口;所述MPP存储部的接口包括MPPsql接口;所述ElasticSearch存储部的接口包括restful接口。
进一步地,所述数据共享模块还包括:
租户管理模块,用于判断所述数据传输请求的请求方是否在所述共享层中备案,若没有备案则对该数据传输请求不予响应。
进一步地,所述数据共享模块还包括:
策略管理模块,所述请求方能够对所述共享层进行操作,所述在共享层中备案的请求方,同时备案有禁用操作集,判断所述请求方的操作是否被记录在禁用操作集中,若是,则不对该操作进行响应;
权限管理模块,所述在共享层中备案的请求方,同时备案有可用权限,所述可用权限为该请求方能够操作的存储部及该存储部下的子存储部,判断所述数据传输请求所请求的数据是否在可用权限内,若不在,则不予提供该数据传输请求所请求的数据。
优选地,所述大规模数据共享系统还包括:日志记录模块,所述日志中记录有对所述共享层操作记录,所述操作记录包括对数据传输请求进行记录,并保存。
本申请的第三方面提供了一种大规模数据共享装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的大规模数据共享方法。
本申请的第四方面提供了一种存储介质,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成上述的大规模数据共享方法。
综上所述,本申请具有以下有益效果:
1、本申请的大规模数据共享方法,所述数据源可以为电信运营商中的各个部门,将所述数据源的数据构建为共享层,当需要使用共享层中的数据时,根据数据传输请求从共享层中传输对应数据,使各部门之间数据互通,解决了数据孤岛问题,且提高了数据利用效率;
2、本申请的大规模数据共享方法,所述数据溯源步骤通过IP地址得出数据地址,并记录,便于后期查找数据地址;所述数据格式统一为接收到的不同格式的原始数据进行处理,便于对数据进行统一存储;所述业务ID矫正为相同的所述数据源对应相同的业务ID,解决了后期难以溯源的问题;
3、本申请的大规模数据共享方法,若请求方没有备案则该请求方没有权利接入共享层,提供数据安全性;对不同的请求方的操作,以及可操作的范围进行控制,提高数据安全性;
4、本申请的大规模数据共享方法,对所述操作记录进行保存,便于后期工作人员对所述操作记录进行审查,提高安全性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请大规模数据共享方法一种实施方式的流程图;
图2为本申请大规模数据共享方法细化步骤的流程图;
图3为本申请大规模数据共享方法一种优选实施方式的流程图;
图4为本申请大规模数据共享方法另一种优选实施方式的流程图;
图5为进一步优化图4流程的流程图;
图6为进一步优化图1流程的流程图;
图7为本申请大规模数据共享系统一种实施方式的示意图;
图8为图7模块细化的示意图;
图9为本申请大规模数据共享系统另一种实施方式的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
如图1所示,本申请的第一方面提供了一种大规模数据共享方法,包括以下步骤:
S100、共享数据接收,连接至少一个数据源,从数据源中接收原始数据;
在具体实施过程中,所述原始数据可以为XDR话单、CDR话单(Call DetailedRecord、语音呼叫业务的详细记录)、TDR话单(Transaction Detailed Record、事务详细记录)、以及资管数据和资源数据等;DR为是详细记录的缩写,XDR,意思就是某DR。
S200、共享层构建,将接收到的原始数据进行存储,构建所述共享层;
在具体实施过程中,所述共享层可以设置有多个服务器,用于存储所述原始数据。
S300、数据共享,接收数据传输请求,响应于所述数据传输请求,从所述共享层中输出数据。
在具体实施过程中,所述数据传输请求由用户向所述共享层发出,所述用户与共享层的连接方式可以为有线连接或者无线连接。
采用上述方案,所述数据源可以为电信运营商中的各个部门,将所述数据源的数据构建为共享层,当需要使用共享层中的数据时,根据数据传输请求从共享层中传输对应数据,使各部门之间数据互通,解决了数据孤岛问题,且提高了数据利用效率。
在具体实施过程中,所述数据源可以为电信运营商中的各个部门,也可以为公司中的各个部门。
在具体实施过程中,所述数据源可以为各个部门的服务器、电脑或者手机等。
在具体实施过程中,所述S100、共享数据接收步骤为通过数据出口从数据源中接收原始数据,所述数据出口包括但不限于第三方数据出口、省网出口、Cache出口、IDC出口或城域网出口。
Cache存储器,电脑中为高速缓冲存储器,是位于CPU和主存储器DRAM(DynamicRandom Access Memory)之间,规模较小,但速度很高的存储器,通常由SRAM(StaticRandom Access Memory 静态存储器)组成。
互联网数据中心(Internet Data Center,简称IDC)。
采用上述方案,从多种接口中接收数据,提高数据全面性。
如图2、4所示,在具体实施过程中,所述S200、共享层构建的步骤还包括S210、数据预处理,所述数据预处理的步骤包括:
S211、数据溯源,接收所述原始数据的五元组数据,根据所述五元组数据中的IP地址得出对于对应的数据地址,记录所述数据地址;
在具体实施过程中,所述五元组数据包括源IP地址、源端口、目的IP地址、目的端口和传输层协议。
在具体实施过程中,可以直接将所述IP地址记录为数据地址。
S212、数据格式统一,将接收到的原始数据进行处理,统一数据格式;
所述数据格式可以为数据的列数或者行数等。
S213、业务ID矫正,相同的所述数据源设置有相同的业务ID,对同一数据源的业务ID进行统一。
在具体实施过程中,对数据源设置业务ID,所述业务ID可以为数字和/或字母的组合,便于记录和存储。
采用上述方案,所述数据溯源步骤通过IP地址得出数据地址,并记录,便于后期查找数据地址;所述数据格式统一为接收到的不同格式的原始数据进行处理,便于对数据进行统一存储;所述业务ID矫正为相同的所述数据源对应相同的业务ID,解决了后期难以溯源的问题。
如图2、5所示,在具体实施过程中,所述S210、数据预处理的步骤还包括S214、数据清洗,删除所述原始数据中的异常数据。
采用上述方案,对异常数据进行删除,所述异常数据可以为数据大小异常或者数据长度异常的数据,降低存储压力。
如图2、5所示,在具体实施过程中,所述S210、数据预处理的步骤还包括S215、业务宽表生成:所述S215、业务宽表生成步骤包括,合并从不同数据源接收的原始数据的相同部分,生成表格。
在本发明一个优选的实施方式中,所述S210、数据预处理的步骤还包括非对称关联,所述话单包括请求话单和响应话单,所述请求话单和响应话单相对应,所述非对称关联即为将所述请求话单和响应话单进行匹配,并统一存储。
在具体实施过程中,所述业务宽表格式可以如表一所示。
表一
interface_id | user_group_id | net_id | icp_id | server_ip | server_port | host | |
1 | |||||||
2 | |||||||
… |
采用上述方案,对相同部分的数据进行合并,降低数据存储压力,提高存储资源利用率。
如图3、4所示,在具体实施过程中,所述S200、共享层构建的步骤还包括S220、数据存储,所述共享层包括至少一个存储部,所述存储部包括但不限于HDFS存储部、kafka存储部、MPP存储部和ElasticSearch存储部。
在具体实施过程中,Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System);Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息;大规模并行处理计算机:Massive Parallel Processor。由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理;Elasticsearch是一个基于Lucene的搜索服务器。
在具体实施过程中,不同的存储部内的数据可以为有交集的数据。
采用上述方案,将数据存储于不同的存储部中,不同的存储部为用户提供的服务不同,可以为用户提供更为便捷的存储部,便于为用户提供对应服务,提高数据利用率。
在具体实施过程中,所述存储部设置有数据接口,所述HDFS存储部的接口包括hive和/或spark sql接口;所述kafka存储部的接口包括kafka接口;所述MPP存储部的接口包括MPP sql接口,所述MPP sql接口即为MPP存储部的接口;所述ElasticSearch存储部的接口包括restful接口。
在具体实施过程中,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制;Spark是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等;restful是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义restful适用于移动互联网厂商作为业务接口的场景,实现第三方OTT调用移动网络资源的功能,动作类型为新增、变更、删除所调用资源。
采用上述方案,为不同的存储部提供不同格式接口,便于用户进行数据提取。
如图2、5所示,在本发明一个优选的实施方式中,所述S300、数据共享的步骤还包括:
S310、租户管理,判断所述数据传输请求的请求方是否在所述共享层中备案,若没有备案则对该数据传输请求不予响应。
在具体实施过程中,获得所述共享层使用资格的用户会在所述共享层中备案,若没有备案则没有使用资格。
在具体实施过程中,若有备案,则根据数据传输请求进行下一步判断策略管理和/或权限管理,或者直接反馈数据。
采用上述方案,若请求方没有备案则该请求方没有权利接入共享层,提供数据安全性。
在具体实施过程中,所述S300、数据共享的步骤还包括:
S320、策略管理,所述请求方能够对所述共享层进行操作,所述在共享层中备案的请求方,同时备案有禁用操作集,判断所述请求方的操作是否被记录在禁用操作集中,若是,则不对该操作进行响应;
若否,则执行该操作。
在具体实施过程中,所述请求方即为用户,所述请求方对所述共享层的操作可以为allow_all、allow_sshd、crontab或者login_all等。所述禁用操作集中的可以为上述操作中的任一种,所述禁用操作集中可以不设置禁用操作。
在具体实施过程中,对每个用户均设置有禁用操作集。
S330、权限管理,所述在共享层中备案的请求方,同时备案有可用权限,所述可用权限为该请求方能够操作的存储部及该存储部下的子存储部,判断所述数据传输请求所请求的数据是否在可用权限内,若不在,则不予提供该数据传输请求所请求的数据。
若在,则予提供该数据传输请求所请求的数据。
所述子存储部可以为存储部中的文件。
在具体实施过程中,所述可用权限可以为打开HDFS存储部、kafka存储部、MPP存储部和ElasticSearch存储部中的任一个或者几个,或者打开HDFS存储部的部分。
采用上述方案,对不同的请求方的操作,以及可操作的范围进行控制,提高数据安全性。
如图6所示,在本发明一个优选的实施方式中,所述大规模数据共享方法还包括:S400、日志记录,所述日志中记录有对所述共享层操作记录,所述操作记录包括对数据传输请求进行记录,并保存。
在本发明一个优选的实施方式中,对每个用户的日志单独存储为用户日志,所述用户日志记录该用户在共享层的操作,以及操作时间等,并在该日志上附有该用户的标签,所述标签可以为该用户的备案名称。
所述备案名称可以为数字和/或字母的组合。
采用上述方案,对所述操作记录进行保存,便于后期工作人员对所述操作记录进行审查,提高安全性。
在本发明一个优选的实施方式中,所述S300、数据共享的步骤还包括:
若所述请求方在单位时间内持续使用同一禁用操作;
判断在单位时间内持续使用同一禁用操作的操作次数是否大于警告阈值;
若是,则向该所述请求方发送操作警报;
若否,则不予警报。
采用上述方案,避免重复操作加重服务器工作量,降低服务器工作负担。
在本发明一个优选的实施方式中,若向该请求方发送操作警报后的单位时间内,该请求方持续使用同一禁用操作的操作次数再次大于警告阈值的,则禁用该请求方使用该禁用操作操作对应数据库的使用权限。
采用上述方案,若该用户在接到警告后继续重复操作,则该用户可能在进行恶意操作,禁用该请求方使用该禁用操作操作对应数据库的使用权限,防止数据库被恶意攻击,造成数据损失。
在具体实施过程中,所述单位时间可以为10、20或30分钟;所述警告阈值可以为10、20、30次。
在具体实施过程中,所述操作警报向所述请求方的计算机发送信息,使所述请求方的计算机弹出警报对话框。
在具体实施过程中,若请求方在所述HDFS存储部使用禁用操作在单位时间10分钟内,操作20次,而所述警告阈值为10次,则向该请求方发送操作警报;若该请求方在之后的10分钟内再次使用禁用操作15次,15次超过警告阈值10次,则禁用该请求方再次使用所述HDFS存储部。
在具体实施过程中,所述禁用该请求方使用该禁用操作操作对应数据库的使用权限,可以为在单位时间内禁用。
如图7所示,本申请的第二方面提供了一种大规模数据共享系统,包括:
共享数据接收模块100,用于连接至少一个数据源,从数据源中接收原始数据;
共享层构建模块200,用于将接收到的原始数据进行存储,构建所述共享层;
数据共享模块300,用于接收数据传输请求,响应于所述数据传输请求,从所述共享层中输出数据。
采用上述方案,所述数据源可以为电信运营商中的各个部门,将所述数据源的数据构建为共享层,当需要使用共享层中的数据时,根据数据传输请求从共享层中传输对应数据,使各部门之间数据互通,解决了数据孤岛问题,且提高了数据利用效率。
在具体实施过程中,所述共享数据接收模块100用于通过数据出口从数据源中接收原始数据,所述数据出口包括但不限于第三方数据出口、省网出口、Cache出口、IDC出口或城域网出口。
如图8所示,在本发明一个优选的实施方式中,所述共享层构建模块200还包括数据预处理模块210,所述数据预处理模块210包括:
数据溯源模块211,用于接收所述原始数据的五元组数据,根据所述五元组数据中的IP地址得出对于对应的数据地址,记录所述数据地址;
数据格式统一模块212,用于将接收到的原始数据进行处理,统一数据格式;
业务ID矫正模块213,相同的所述数据源设置有相同的业务ID,用于对同一数据源的业务ID进行统一。
如图8所示,在本发明一个优选的实施方式中,所述数据预处理模块210还包括数据清洗模块214,用于删除所述原始数据中的异常数据。
如图8所示,在本发明一个优选的实施方式中,所述数据预处理模块210还包括业务宽表生成模块215:用于合并从不同数据源接收的原始数据的相同部分,生成表格。
如图8所示,在具体实施过程中,所述共享层构建模块200还包括数据存储模块220。
在本发明一个优选的实施方式中,所述共享层包括至少一个存储部,所述存储部包括但不限于HDFS存储部、kafka存储部、MPP存储部和ElasticSearch存储部。
在具体实施过程中,所述存储部设置有数据接口,所述HDFS存储部的接口包括hive和/或spark sql接口;所述kafka存储部的接口包括kafka接口;所述MPP存储部的接口包括MPP sql接口;所述ElasticSearch存储部的接口包括restful接口。
如图8所示,在本发明一个优选的实施方式中,所述数据共享模块300还包括:
租户管理模块310,用于判断所述数据传输请求的请求方是否在所述共享层中备案,若没有备案则对该数据传输请求不予响应。
如图8所示,在本发明一个优选的实施方式中,所述数据共享模块300还包括:
策略管理模块320,所述请求方能够对所述共享层进行操作,所述在共享层中备案的请求方,同时备案有禁用操作集,判断所述请求方的操作是否被记录在禁用操作集中,若是,则不对该操作进行响应;
权限管理模块330,所述在共享层中备案的请求方,同时备案有可用权限,所述可用权限为该请求方能够操作的存储部及该存储部下的子存储部,判断所述数据传输请求所请求的数据是否在可用权限内,若不在,则不予提供该数据传输请求所请求的数据。
如图9所示,在本发明一个优选的实施方式中,所述大规模数据共享系统还包括:日志记录模块400,所述日志中记录有对所述共享层操作记录,所述操作记录包括对数据传输请求进行记录,并保存。
本申请的第三方面提供了一种大规模数据共享装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的大规模数据共享方法。
本申请的第四方面提供了一种存储介质,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成上述的大规模数据共享方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种大规模数据共享方法,其特征在于,包括以下步骤:
共享数据接收,连接至少一个数据源,从数据源中接收原始数据;
共享层构建,将接收到的原始数据进行存储,构建所述共享层;
数据共享,接收数据传输请求,响应于所述数据传输请求,从所述共享层中输出数据,
所述数据共享的步骤还包括:策略管理,请求方能够对所述共享层进行操作,在所述共享层中备案的请求方,同时备案有禁用操作集,判断所述请求方的操作是否被记录在禁用操作集中,若是,则不对该操作进行响应。
2.根据权利要求1所述的大规模数据共享方法,其特征在于:
若所述请求方在单位时间内持续使用同一禁用操作;
判断在单位时间内持续使用同一禁用操作的操作次数是否大于警告阈值;
若是,则向该所述请求方发送操作警报;
若否,则不予警报。
3.根据权利要求1或2所述的大规模数据共享方法,其特征在于:所述共享层构建的步骤还包括数据预处理,所述数据预处理的步骤包括:
数据溯源,接收所述原始数据的五元组数据,根据所述五元组数据中的IP地址得出对于对应的数据地址,记录所述数据地址;
数据格式统一,将接收到的原始数据进行处理,统一数据格式;
业务ID矫正,相同的所述数据源设置有相同的业务ID,对同一数据源的业务ID进行统一。
4.根据权利要求3所述的大规模数据共享方法,其特征在于:所述数据预处理的步骤还包括业务宽表生成:所述业务宽表生成步骤包括,合并从不同数据源接收的原始数据的相同部分,生成表格。
5.根据权利要求4所述的大规模数据共享方法,其特征在于:所述共享层构建的步骤还包括数据存储,所述共享层包括至少一个存储部,所述存储部包括但不限于HDFS存储部、kafka存储部、MPP存储部和ElasticSearch存储部。
6.根据权利要求5所述的大规模数据共享方法,其特征在于:所述数据共享的步骤还包括:
租户管理,判断所述数据传输请求的请求方是否在所述共享层中备案,若没有备案则对该数据传输请求不予响应;
权限管理,在所述共享层中备案的请求方,同时备案有可用权限,所述可用权限为该请求方能够操作的存储部及该存储部下的子存储部,判断所述数据传输请求所请求的数据是否在可用权限内,若不在,则不予提供该数据传输请求所请求的数据。
7.根据权利要求2或6所述的大规模数据共享方法,其特征在于:若向该请求方发送操作警报后的单位时间内,该请求方持续使用同一禁用操作的操作次数再次大于警告阈值的,则禁用该请求方使用该禁用操作操作对应数据库的使用权限。
8.根据权利要求7所述的大规模数据共享方法,其特征在于:所述大规模数据共享方法还包括:日志记录,所述日志中记录有对所述共享层操作记录,所述操作记录包括对数据传输请求进行记录,并保存。
9.一种大规模数据共享装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-8任一项所述的大规模数据共享方法。
10.一种存储介质,其特征在于,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成如权利要求1-8任一项所述的大规模数据共享方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110337488.7A CN112732467A (zh) | 2021-03-30 | 2021-03-30 | 一种大规模数据共享方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110337488.7A CN112732467A (zh) | 2021-03-30 | 2021-03-30 | 一种大规模数据共享方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732467A true CN112732467A (zh) | 2021-04-30 |
Family
ID=75596026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110337488.7A Pending CN112732467A (zh) | 2021-03-30 | 2021-03-30 | 一种大规模数据共享方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732467A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256560A (zh) * | 2007-02-26 | 2008-09-03 | 中国航空工业第二集团公司科学技术委员会 | 基于网格的分布存储数据文件共享系统构建方法 |
CN102999379A (zh) * | 2012-12-14 | 2013-03-27 | 东莞宇龙通信科技有限公司 | 终端和数据共享方法 |
CN103546502A (zh) * | 2012-07-11 | 2014-01-29 | 中国电信股份有限公司 | 元数据共享的方法和云存储服务器 |
CN112511599A (zh) * | 2020-11-10 | 2021-03-16 | 南京莱斯信息技术股份有限公司 | 一种基于区块链的人防数据共享系统及方法 |
CN112527895A (zh) * | 2020-11-30 | 2021-03-19 | 吉林农业大学 | 一种智慧城市数据共享方法 |
-
2021
- 2021-03-30 CN CN202110337488.7A patent/CN112732467A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256560A (zh) * | 2007-02-26 | 2008-09-03 | 中国航空工业第二集团公司科学技术委员会 | 基于网格的分布存储数据文件共享系统构建方法 |
CN103546502A (zh) * | 2012-07-11 | 2014-01-29 | 中国电信股份有限公司 | 元数据共享的方法和云存储服务器 |
CN102999379A (zh) * | 2012-12-14 | 2013-03-27 | 东莞宇龙通信科技有限公司 | 终端和数据共享方法 |
CN112511599A (zh) * | 2020-11-10 | 2021-03-16 | 南京莱斯信息技术股份有限公司 | 一种基于区块链的人防数据共享系统及方法 |
CN112527895A (zh) * | 2020-11-30 | 2021-03-19 | 吉林农业大学 | 一种智慧城市数据共享方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11921873B1 (en) | Authenticating data associated with a data intake and query system using a distributed ledger system | |
CN109558748B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US10452998B2 (en) | Cognitive blockchain automation and management | |
US20240073190A1 (en) | Secure electronic messaging systems generating alternative queries | |
CN110532799B (zh) | 数据脱敏控制方法、电子装置及计算机可读存储介质 | |
US20130013534A1 (en) | Hardware-assisted approach for local triangle counting in graphs | |
US10554701B1 (en) | Real-time call tracing in a service-oriented system | |
CN112100277A (zh) | 一种企业数据上链预言机实现方法、系统、设备及产品 | |
US11720708B2 (en) | Privacy preserving data collection and analysis | |
US11799892B2 (en) | Methods for public cloud database activity monitoring and devices thereof | |
CN111949912B (zh) | 一种基于标签的消息推送方法、装置和系统 | |
CN112286930A (zh) | redis业务方资源共享的方法、装置、存储介质及电子设备 | |
CN110365533B (zh) | 数字资产交易方法、系统和计算机可读存储介质 | |
CN112732467A (zh) | 一种大规模数据共享方法、装置及存储介质 | |
CN110443068A (zh) | 隐私保护方法和装置 | |
CN116244751A (zh) | 数据脱敏方法、装置、电子设备、存储介质和程序产品 | |
CN115658745A (zh) | 数据处理方法、装置、计算机设备和计算机可读存储介质 | |
CN114595481A (zh) | 一种应答数据的处理方法、装置、设备和存储介质 | |
CN113316109A (zh) | 用户信息监测方法及路由器 | |
CN112528339A (zh) | 一种基于Caché数据库的数据脱敏方法及电子设备 | |
CN116647412B (zh) | 一种Web服务器的安全防御方法和系统 | |
EP4092610A1 (en) | Information processing method, device, system, and computer-readable storage medium | |
CN117078392A (zh) | 授信额度的确定方法、授信服务器、电子设备及介质 | |
CN114239016A (zh) | 一种数据安全处理方法、系统及存储介质 | |
CN116450583A (zh) | 容器日志采集管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |
|
RJ01 | Rejection of invention patent application after publication |