CN117874795A - 一种用于系统安全访问的控制装置、方法 - Google Patents
一种用于系统安全访问的控制装置、方法 Download PDFInfo
- Publication number
- CN117874795A CN117874795A CN202311455638.XA CN202311455638A CN117874795A CN 117874795 A CN117874795 A CN 117874795A CN 202311455638 A CN202311455638 A CN 202311455638A CN 117874795 A CN117874795 A CN 117874795A
- Authority
- CN
- China
- Prior art keywords
- online
- data
- document data
- offline
- warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000005057 refrigeration Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000003672 processing method Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007334 memory performance Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种冷热数据处理方法、系统、电子设备和计算机可读存储介质,方法包括步骤:接收待写入的文档数据,存储至在线热库,在线热库存储用于在线计算的文档数据;将待写入的文档数据与在线热库中已有的文档数据合并;将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库。上述方案在常规的单一分布式数据库存储结构的基础上,采用不同的数据库存储结构,分别支撑在线计算应用和离线计算应用,确保整体性能的同时有效降低了整体成本,可以满足较高的写入、更新、查询吞吐量,支持单表千亿级别规模的文档数据的处理,并支持分布式结构、具备较好的横向扩展性。
Description
技术领域
本申请属于大数据技术领域,具体涉及一种冷热数据处理方法、系统、电子设备和计算机可读存储介质。
背景技术
文档型数据库是现有技术中常见的数据库类型之一,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据,文档数据(document data)是文档型数据库的最小单元。分布式文档型数据库是当前流行的文档型数据库结构,然而在特定写入、更新、查询吞吐量的场景下,分布式文档型数据库很容易出现存储性能瓶颈。常规的优化措施包括增加数据表分区、增加数据节点、增加硬件设备等,然而这些措施成本较高,无法获得较高的性价比。
发明内容
针对上述现有技术中存在的问题,本发明第一方面提出一种冷热数据处理方法,包括步骤:接收待写入的文档数据,存储至在线热库,在线热库存储用于在线计算的文档数据;将待写入的文档数据与在线热库中已有的文档数据合并;将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库。
优选地,待写入的文档数据还被存储至离线热库,离线热库存储用于离线计算的文档数据。
优选地,待写入的文档数据还被存储为离线文件,离线文件用于以文件方式提供文档数据。
优选地,待写入的文档数据以固定时间间隔分批存储至在线热库、离线热库或存储为离线文件。
优选地,在线热库为文档型数据库。
优选地,在线冷库为索引数据库。
优选地,待写入的文档数据经过预处理,预处理包括步骤:在第一时间窗口内进行流计算,获得第一合并文档数据;在第二时间窗口内进行离线计算,获得待写入的文档数据,第二时间窗口大于第一时间窗口。
本发明第二方面提出一种冷热数据处理系统,包括:
数据存储模块,配置用于接收待写入的文档数据,存储至在线热库,在线热库存储用于在线分析的文档数据;
数据处理模块,配置用于将待写入的文档数据与在线热库中已有的文档数据合并;
数据转移模块,配置用于将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库。
本发明第三方面提出一种电子设备,电子设备包括处理器和存储器,处理器用于执行存储器中存储的计算机程序时实现如第一方面中任意一项所述的冷热数据处理方法。
本发明第四方面提出一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如第一方面中任意一项所述的冷热数据处理方法。
上述方案在常规的单一分布式数据库存储结构的基础上,采用不同的数据库存储结构,分别支撑在线计算应用和离线计算应用,从而可以根据实际需要,用成本最高的硬件存储数据量有限的在线热库,用成本居中的硬件存储在线冷库,用成本最低的硬件存储离线冷热库,确保整体性能的同时有效降低了整体成本。该方案通过合理规划在线冷热库、离线冷热库,可以满足较高的写入、更新、查询吞吐量,支持单表千亿级别规模的文档数据的处理,并支持分布式结构、具备较好的横向扩展性,同时具备较高的性价比,即可以用较低成本获得较好的性能指标。
附图说明
附图帮助进一步理解本申请。附图的元件不一定是相互按照比例的。为了便于描述,附图中仅示出了与有关发明相关的部分。
图1为本发明一具体实施例中冷热数据处理方法的步骤示意图;
图2为本发明另一具体实施例中在离线冷热数据处理方法的具体流程图;
图3为本发明另一具体实施例中冷热数据处理系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。
本发明综合考虑在线计算和离线计算、冷数据和热数据的不同特点构建文档数据的存储结构。在线计算和离线计算是大数据处理的实际需求中常见的两类不同需求,在线计算表示实时或者低延时的流数据处理过程,通常应用在实时性要求高的场景;离线计算表示通常也称为“批处理”,表示离线批量、延时较高的静态数据处理过程,通常用于实时性要求不高的场景,比如离线报表、数据分析等。冷数据和热数据一般是根据数据访问频次的区别进行的分类,热数据是一段时间以内被频繁访问的在线类数据,冷数据则是非频繁访问的离线类数据。热数据对访问频率和响应速度要求较高,可以部署在CPU驱动器附近,以便就近计算;冷数据对访问频率和响应速度要求较低,可以集中化部署,保存在硬盘或远离数据中心的驱动器上。
基于上述不同属性数据的区别,在一具体实施例中,对于单表千亿级别规模的文档数据的处理,将现有技术中常见的单一的分布式文档型数据库针对性地扩展为四个库,其是针对在线、离线计算特点和不同的性能要求,用不同成本的数据库构建。具体地,将分布式文档型数据库扩展为四个库,分别是:
在线热库,保存最近N年的热数据,按年建表、按需建分区,支撑在线即席查询业务,确保最新数据的查询性能,采用分布式文档型数据库搭建,硬件成本最高;
在线冷库,保存N年以前的冷数据,按年建表、按需建分区,支撑在线即席查询业务,需确保历史数据的查询性能,采用分布式索引数据库搭建,硬件成本居中;
离线热库,保存最近N年的热数据,按年建分区,支撑离线模型分析业务,确保最新数据与当年数据的合并性能,采用分布式数据仓库搭建,硬件成本最低;
离线冷库,保存N年以前的冷数据,按年建分区,支撑离线模型分析业务,采用分布式数据仓库搭建;
其中,根据实际业务的需要,N∈[1-2),即热数据定义为最近1~2年的数据。在其他实施例中,在线库和离线库所支撑的业务可以根据实际需要确定。
本实施例中,将冷、热数据分别采用数据库和数据仓库的结构搭建在线库和离线库,控制成本的同时可满足不同应用类型的需要。
图1为一具体实施例中冷热数据处理方法的步骤示意图,方法具体包括:
S1,接收待写入的文档数据,存储至在线热库,在线热库存储用于在线计算的文档数据。为满足在线计算的需求,可以采用分布式文档型数据库构建在线热库。
同时,待写入的文档数据还被存储至离线热库,离线热库存储用于离线计算的文档数据,采用数据仓库构建。
优选地,待写入的文档数据还被同时存储为离线文件,以文件方式对外提供数据,不影响在线冷热库、离线冷热库的性能。
待写入的文档数据一般需要经过预处理,进行数据合并等操作,以降低数据量。在一具体实施例中,预处理包括步骤:
S11,在第一时间窗口内进行流计算,获得第一合并文档数据;
S12,在第二时间窗口内进行离线计算,获得待写入的文档数据,第二时间窗口大于第一时间窗口。
具体地,上述文档数据在执行预处理后,以固定时间间隔,如每日,分批存储至在线热库、离线热库或存储为离线文件。
S2,将待写入的文档数据与在线热库中已有的文档数据合并。此步完成了在线热库的数据更新。
S3,将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库,优选地,在线冷库为索引数据库。归档时限根据实际业务确定,如2年等。
图2为另一具体实施例中在离线冷热数据处理方法的具体流程图,其具体包括:
1、接入原始的日志数据,进入流计算环节,后续的文档数据将从该日志数据中提取生成。
2、从日志数据中提取生成的文档数据在流计算环节的时间窗口内进行合并计算,包括去除重复数据、累加次数、记录首末次时间以及其他业务相关的计算。一般情况下,合并计算后文档数据的记录数会降低1~2个数量级。该时间窗口一般为分钟级别,可根据计算资源调整,比如5分钟~60分钟。
3、当天提取生成的文档数据进入离线计算环节,在此环节按更大的时间窗口,即一天进行合并计算,也包括去除重复数据、累加次数、记录首末次时间以及其他业务相关的计算。一般情况下,合并计算后文档数据的记录数会再降低1~2个数量级。至此,文档数据的提取和计算已完成,后续将写入数据库或落盘为文件。
4、按天合并好的文档数据每天闲时、一次性、批量写入在线热库、并通过在线热库的插入和更新机制与已有数据完成合并。在线热库以分布式文档型数据库承载,按年建表,按节点数量建分区,仅保存最近N年的数据。
5、同时,按天合并好的文档数据每天闲时、一次性、批量写入离线热库,并通过离线计算与已有数据完成合并。离线热库以分布式数据仓库承载,按年建分区,仅保存最近N年的数据。如果该步骤用于合并每天数据和已有数据的离线计算量太大,无法在每天闲时完成,也可以将离线热库改为按天建分区。
6、同时,按天合并好的文档数据可根据实际业务需要,落盘为离线文件,以文件方式对外提供数据,不影响在线冷热库、离线冷热库的性能。
7、对于达到归档时间要求的表,即(N+1)年的表,每年闲时从在线热库、一次性、批量写入在线冷库。在线热库在步骤4已经完成一整年数据的合并,无需额外的合并计算。在线冷库以分布式索引数据库承载,同样按年建表,按节点数量建分区,保存(N+1)年及更早之前的数据。
8、同时,对于达到归档时间要求的表,即(N+1)年的表,每年闲时从在线热库、一次性、批量写入离线冷库。离线冷库以分布式数据仓库承载,按年建分区,保存(N+1)年及更早之前的数据。
本实施例中,数据延迟一天可见,包括在线热库、离线热库,相关的业务,如即席查询业务和模型分析业务等只能使用昨天及以前的数据,当天的数据不可见。
本实施例中,部分功能,如跨年的在线库查询、离线库建模等存在数据重复问题,因此,优选地,在上层应用做去除重复数据的处理。
图3为另一具体实施例中冷热数据处理系统300的结构示意图,包括:
数据存储模块301,配置用于接收待写入的文档数据,存储至在线热库,在线热库存储用于在线分析的文档数据;
数据处理模块302,配置用于将待写入的文档数据与在线热库中已有的文档数据合并;
数据转移模块303,配置用于将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库。
上述实施例提供的方案通过合理规划在线冷热库、离线冷热库,可以满足较高的写入、更新、查询吞吐量,整体上支持分布式结构、具备较好的横向扩展性,同时具备较高的性价比,可以广泛应用在单表千亿条记录的文档数据的计算和存储,适用于各行业大数据项目中类似的应用场景,具有广泛的应用前景。
尽管结合优选实施方案具体展示和介绍了本申请的内容,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本申请的精神和范围内,没有做出创造性劳动的情况下,在形式上和细节上对本申请做出的各种变化,均为本申请的保护范围。
Claims (10)
1.一种冷热数据处理方法,其特征在于,包括步骤:
接收待写入的文档数据,存储至在线热库,所述在线热库存储用于在线计算的文档数据;
将待写入的文档数据与在线热库中已有的文档数据合并;
将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库。
2.根据权利要求1所述的冷热数据处理方法,其特征在于,所述待写入的文档数据还被存储至离线热库,所述离线热库存储用于离线计算的文档数据,所述离线热库为数据仓库。
3.根据权利要求1所述的冷热数据处理方法,其特征在于,所述待写入的文档数据还被存储为离线文件,所述离线文件用于以文件方式提供所述文档数据。
4.根据权利要求1-3中任一所述的冷热数据处理方法,其特征在于,所述待写入的文档数据以固定时间间隔分批存储至所述在线热库、离线热库或存储为离线文件。
5.根据权利要求1所述的冷热数据处理方法,其特征在于,所述在线热库为文档型数据库。
6.根据权利要求1所述的冷热数据处理方法,其特征在于,所述在线冷库为索引数据库。
7.根据权利要求1所述的冷热数据处理方法,其特征在于,所述待写入的文档数据经过预处理,所述预处理包括步骤:
在第一时间窗口内进行流计算,获得第一合并文档数据;
在第二时间窗口内进行离线计算,获得待写入的文档数据,所述第二时间窗口大于所述第一时间窗口。
8.一种冷热数据处理系统,其特征在于,包括:
数据存储模块,配置用于接收待写入的文档数据,存储至在线热库,所述在线热库存储用于在线分析的文档数据;
数据处理模块,配置用于将待写入的文档数据与在线热库中已有的文档数据合并;
数据转移模块,配置用于将在线热库中存储时长达到归档时限的文档数据转移至在线冷库和离线冷库,其中,在线冷库和离线冷库分别为数据库和数据仓库。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的冷热数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的冷热数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311455638.XA CN117874795A (zh) | 2023-11-03 | 2023-11-03 | 一种用于系统安全访问的控制装置、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311455638.XA CN117874795A (zh) | 2023-11-03 | 2023-11-03 | 一种用于系统安全访问的控制装置、方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117874795A true CN117874795A (zh) | 2024-04-12 |
Family
ID=90581891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311455638.XA Pending CN117874795A (zh) | 2023-11-03 | 2023-11-03 | 一种用于系统安全访问的控制装置、方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117874795A (zh) |
-
2023
- 2023-11-03 CN CN202311455638.XA patent/CN117874795A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Santos et al. | Real-time data warehouse loading methodology | |
US7418544B2 (en) | Method and system for log structured relational database objects | |
US20160110110A1 (en) | System and method for providing high availability data | |
US20100257181A1 (en) | Dynamic Hash Table for Efficient Data Access In A Relational Database System | |
US20090089334A1 (en) | Lazy updates to indexes in a database | |
US20190384845A1 (en) | Using computing resources to perform database queries according to a dynamically determined query size | |
EP2062125A2 (en) | System and method for providing high availability data | |
CN106933511B (zh) | 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统 | |
US8380663B2 (en) | Data integrity in a database environment through background synchronization | |
US20170270149A1 (en) | Database systems with re-ordered replicas and methods of accessing and backing up databases | |
CN109154933B (zh) | 分布式数据库系统以及分布和访问数据的方法 | |
CN102968456B (zh) | 一种栅格数据读取处理方法和装置 | |
CN111159176A (zh) | 一种海量流数据的存储和读取的方法和系统 | |
CN110727406A (zh) | 一种数据存储调度方法及装置 | |
US11609910B1 (en) | Automatically refreshing materialized views according to performance benefit | |
CN111708895B (zh) | 一种知识图谱系统的构建方法及装置 | |
CN115114294A (zh) | 数据库存储模式的自适应方法、装置、计算机设备 | |
US11449521B2 (en) | Database management system | |
KR101747262B1 (ko) | 동적인 알고리즘 변경을 통하여 쿼리 처리 시간을 축소시키기 위한 방법, 장치 및 컴퓨터-판독가능 매체 | |
CN111666302A (zh) | 用户排名的查询方法、装置、设备及存储介质 | |
CN117874795A (zh) | 一种用于系统安全访问的控制装置、方法 | |
US8290935B1 (en) | Method and system for optimizing database system queries | |
CN114895850A (zh) | 一种数据湖优化写的方法 | |
CN113326335A (zh) | 数据存储系统、方法、装置、电子设备及计算机存储介质 | |
CN115718571B (zh) | 一种基于多维度特征的数据管理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |