CN115203750B - 基于Hive插件对Hive数据权限管控及安全审计方法及系统 - Google Patents

基于Hive插件对Hive数据权限管控及安全审计方法及系统 Download PDF

Info

Publication number
CN115203750B
CN115203750B CN202211134582.3A CN202211134582A CN115203750B CN 115203750 B CN115203750 B CN 115203750B CN 202211134582 A CN202211134582 A CN 202211134582A CN 115203750 B CN115203750 B CN 115203750B
Authority
CN
China
Prior art keywords
hive
strategy
hql
plug
authority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211134582.3A
Other languages
English (en)
Other versions
CN115203750A (zh
Inventor
南金豆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bizhi Technology Co ltd
Original Assignee
Hangzhou Bizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bizhi Technology Co ltd filed Critical Hangzhou Bizhi Technology Co ltd
Priority to CN202211134582.3A priority Critical patent/CN115203750B/zh
Publication of CN115203750A publication Critical patent/CN115203750A/zh
Application granted granted Critical
Publication of CN115203750B publication Critical patent/CN115203750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2445Data retrieval commands; View definitions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/425Lexical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hive插件对Hive数据权限管控及安全审计方法及系统,包括如下步骤:S1.Hive请求通过JDBC连接或ODBC连接进入Hive集群中,连接到Thirft服务器(用于链接管理),然后进去到Hive驱动模块中;S2.在Hive驱动模块2中,依次进行抽象语法树解析、逻辑优化器优化、物理执行计划生成与优化、权限校验和提交到yarn运行;S3.HQL执行成功以后,异步通知到Admin服务器中;通过Antrl4来解析SQL,获取HQL的操作类型、表和字段;S4.对于操作类型为创建表的情况,则授予创建人全部的表权限;S5.更改完策略以后,策略信息保存到mysql中,同时添加标识标记该策略已经变更;Hive插件定时拉取策略,根据变更标识来刷新Hive插件中缓存。

Description

基于Hive插件对Hive数据权限管控及安全审计方法及系统
技术领域
本发明涉及计算机、网络通信技术及大数据处理领域,具体涉一种基于Hive插件对Hive数据权限管控及安全审计方法及系统。
背景技术
近年来,随着企业数据量爆炸式增长,越来越多的企业运用以Hadoop为核心的大数据技术生态来分析处理企业中有价值的数据。进行OLAP(Online Analysis Process,OLAP)分析后的数据可以方便企业划分用户群体,寻找企业的增长点,提升企业的竞争力。保障企业的数据安全是企业竞争力的最基础的保证,只有通过事前身份验证,事中权限管控和事后安全审计全链路管控,才能保证数据在使用期间的数据安全。
Hive是Hadoop生态中最基础的离线分析组件,保障Hive数据权限是最基础的方案,现在业内中已经常有的有Apache Sentry和Apache Ranger这2种大数据权限管控组件。它们都是通过将插件安装到Hive底层,当一个SQL请求Hive的时候首先通过Hive对HQL进行解析,将HQL拆分成库,表,字段,然后对该HQL的请求方进行校验,判断请求方是否拥有该HQL的执行权限,若没有权限则抛出异常,最后会把HQL鉴权的结果发送到对应的admin客户端上保存下来。
现有的插件方案对于使用者是非常不方便的,每次创建表后都需要数据管理员在客户端中授予数据开发刚创建表的权限,数据开发才有权限使用该创建表,如果上百个数据开发需要开发上千个任务,那么管理成本就会非常高。若将数据管理员的权限授予数据开发使用,这样数据非常容易泄漏造成安全漏洞。
本方案是创建表后异步通知admin客户端让表的创建者默认拥有表的全部权限,而数据管理员可以通过变更策略来限制创建者对表的使用权限。后期删除表时候也会通知admin客户端,同步变更策略,防止出现ABA问题。(ABA问题是指创建一张表,同时授予用户该表权限,后续该表被管理员删除。然后创建相同表名的另一张表,而用户同样拥有新表的权限)。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于Hive插件对Hive数据权限管控及安全审计方法及系统,用于解决上述存在的问题,使得放开使用权限的同时防止数据泄露,实现数据管控和安全,形成更完善的数据安全体系。
为实现上述目的,本发明提供一种Hive插件对Hive数据权限管控及安全审计方法,所述方法包括如下步骤:
S1.Hive请求通过JDBC连接或ODBC连接进入Hive集群中,连接到Thirft服务器(用于链接管理),然后进去到Hive驱动模块中;
S2.在Hive驱动模块2中,依次进行抽象语法树解析、逻辑优化器优化、物理执行计划生成与优化、权限校验和提交到集群yarn运行;
S3.HQL执行成功以后,异步通知到Admin服务器中;通过Antrl4来解析SQL,获取HQL的操作类型、表和字段;
S4.对于操作类型为创建表的情况,则授予创建人全部的表权限;若是操作类型为删除表,则变更表策略去掉策略中被删除的表;
S5. 更改完策略以后,策略信息保存到mysql中,同时添加标识标记该策略已经变更;Hive插件定时拉取策略,根据变更标识来刷新Hive插件中缓存。
进一步,步骤S2中,权限校验是指调用鉴权插件接口来判断用户的操作,鉴权结束需要将审计日志同步到服务器中;鉴权流程包括如下子步骤:
S21.检验是否有表的操作权限;
S22.校验是否有字段的查询权限;
S23.审计权限校验日志。
进一步,步骤S3中,解析流程包括如下子步骤:
S31.使用词法分析器生成Token序列;
S32.使用语法分析器将Token序列串联成AST;通过Visitor模式遍历AST解析HQL中表节点,字段节点,以及HQL对应的操作类型;
S33.根据操作类型来判断是否需要变更策略;
S34.获取到表的元数据信息,以及策略中原本的字段信息,调整数据库中原本存储的策略。
进一步,步骤S3中,Antrl4通过.g4文件生成了6个基础文件,分别为词法分析器、语法分析器、监听接口、Listener默认实现、Visitor 接口以及Visitor 默认实现。
进一步,为了防止Admin客户端无法连接,将策略同步保存到磁盘上,若请求不到Admin客户端,则从磁盘中读取策略文件,按照权限的最小原则,管控用户对Hive数据的使用权限。
另一方面,本发明提供一种基于Hive插件对Hive数据权限管控及安全审计系统,所述系统用于实现根据本发明所述的方法,所述系统包括Hive请求模块,通过Hive请求进入Hive驱动模块。
进一步,Hive驱动模块包括HQL解析单元、HQL优化单元、权限校验单元、物理计划执行单元和提交单元;通过所述HQL解析单元进行抽象语法树解析、逻辑优化器优化、理执行计划生成与优化、权限校验和提交到yarn运行。
进一步,权限校验在在HQL解析和HQL优化之后;此时HQL已经在Hive中被拆解成表、字段和操作类型,调用鉴权插件接口来判断用户的操作,鉴权结束将审计日志同步到服务器中。
进一步,Admin服务器中包括Antr解析SQL单元、元数据获取字段单元、创建表操作添加策略单元和变更表操作修改策略单元。
进一步,每次HQL运行成功后发送Kafka记录下来,便于记录数据血缘和元数据操作记录变更。
本发明通过对运行成功后的HQL进行解析,同步变更数据权限中的策略,让数据开发人员更加便捷的开发Hive任务,方便用户使用。表删除以及字段删除和变更时候的同步策略,防止出现安全上的漏洞以及制度上的缺失,可以让数据更加安全,快捷的使用。通过对HQL执行成功的审计记录,可以帮助企业搭建血缘记录,形成更完善的数据安全体系。
附图说明
图 1 为根据本发明实施例的一种基于Hive插件对Hive数据权限管控及安全审计方法及系统的架构设计示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,根据本发明实施例的基于Hive插件对Hive数据权限管控及安全审计方法及系统,所述系统包括Hive请求模块,通过Hive请求进入Hive驱动模块,在Hive驱动模块中依次进行抽象语法树解析、逻辑优化器优化、物理执行计划生成与优化、权限校验和提交到集群yarn运行。
Hive驱动模块的具体工作流程如下:
S100.利用Antlr框架定义的预发规则,对HQL完成语法解析,将HQL转换为抽象语法树AST(Abstract Syntax Tree)。
S200.遍历抽象语法树AST,抽象出查询的基本构成单元查询块(QueryBlock),查询块为最小查询执行单元,接着遍历查询块,将其转换为操作树 (OperatorTree),可以理解成不可拆分的逻辑执行单元。
S300.逻辑优化器对操作树进行逻辑优化;具体地,将操作树进行优化,包括分区裁剪、列裁剪和谓词下推。列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。谓词下推(Predicate Pushdown,PPD)是将SQL语句中的where谓词逻辑都尽可能提前执行,减少下游处理的数据量。
S400. 将操作树转换为TaskTree,翻译成MR任务,将逻辑执行计划转换为物理执行计划;
S500.物理优化器对TaskTree进行物理优化,主要是对join的优化,比如join查询时候有一张表是小表(小表指数据量较小的,Hive中根据参数hive.auto.convert.join.nonconditionaltask.size来确定小表,一般大小默认25M。大于该数据量的则为大表),那么可以在大表通过map的时候将小表完全放到内存中。Hive可以在map端执行连接的过程称之为map-side JOIN。因为Hive可以和内存中的小表进行逐一匹配,从而省略掉常规连接操作所需要的reduce过程。即使对于很小的数据集,也会快于常规的连接操作,这样不仅减少了reduce过程,而且有时还可以同时减少map过程的执行步骤。
现有技术中所使用的流程,每个表都需要进过map(并行处理),Shuffle Sort(分区,排序,规约,分组)和Reduce(汇总整理) 3个步骤。
比如执行sql语句:
select u.name, o.orderid from order o join user u on o.uid = u.uid;
需要将每个表进行map处理,然后再根据条件重新排序分组,最后汇总整理才能得到结果。
本发明进行优化后,只需要在Map阶段将小表读入内存,顺序扫描大表完成Join。这样只需要一个Map流程就处理完成,不需要后面的Shuffle Sort以及Reduce步骤,大大减少了执行时间,提升了效率。
S600.对数据库、表和字段进行权限校验;
S700.生成最终的执行计划,提交到集群yarn上面进行运行。
具体地,本系统中,Hive驱动模块包括HQL解析单元、HQL优化单元、权限校验单元、物理计划执行单元和提交单元;通过所述HQL解析单元进行抽象语法树解析;所述HQL优化单元进行逻辑执行计划生成与优化;提交单元提交到yarn运行。其中权限校验在HQL解析和HQL优化之后;此时HQL已经在Hive中被拆解成表、字段和操作类型等详细的信息,需要调用鉴权插件接口来判断用户的操作,鉴权结束需要将审计日志同步到服务器中。鉴权流程如下:
首先从权限配置中拉取数据权限策略,数据权限策略的数据一般存储在mysql中,将数据权限根据用户-数据库-表-字段的重新组装成map结构,便于从map中获取到某个用户的权限
然后根据session中获取请求的访客(即用户),根据用户获取到该用户的数据权限。
接着根据已经拆分后的表,字段和操作类型,对照着数据权限策略,对比该用户在数据库中是否拥有权限,在该数据库中的表是否拥有权限。根据查询,删除,创建,编辑等用户权限对比用户是否有操作权限。
最后,无论是鉴权成功还是失败,都要记录下日志,发送到审计日志中,用于后期对用户行为进行审计判断。
HQL执行成功以后,异步通知到Admin服务器中,Admin服务器中首先需要通过Antrl4来解析SQL,获取HQL的操作类型、表和字段。所述操作类型主要为表创建、表删除。对于操作类型为创建表的情况,则授予创建人全部的表权限;若是操作类型为删除表,则变更表策略去掉策略中被删除的表。
具体地,Admin服务器中包括Antrl解析SQL单元、元数据获取字段单元、创建表操作添加策略单元和变更表操作修改策略单元,用于实现上述功能。
安装在Hive中的鉴权插件需要实时拉取Admin客户端中的策略,若策略已经变更,需要刷新Hive插件的策略信息。为了防止Admin客户端无法连接,需要将策略同步保存到磁盘上,若请求不到Admin客户端,则从磁盘中读取策略文件,按照权限的最小原则,严格管控用户对Hive数据的使用权限,防止出现权限泄漏情况。
本发明中使用Antrl4来解析HQL中的基础语法。Antrl4是解析器生成工具,可用来读取、处理、执行和翻译结构化文本或二进制文件,一般通过在.g4 中编写产生式 ,来生成相应的词法分析器和语法分析器代码。
Antrl4通过.g4文件生成了6个基础文件,分别为Lexer(词法分析器),Parser(语法分析器), Listener(监听接口),BaseListener(Listener默认实现), Visitor(Visitor接口)以及BaseVisitor(Visitor 默认实现)。
解析流程如下:
首先使用词法分析器生成Token序列:通过词法分析器分析sql中的所有字符,将所有的单词或字符都转化成符合规范的Token,规范化的token分为两种类型:1.sql中的关键字 ,比如select * from table_test;语句中关键字就有select,from,*。2.自定义的名称,比如表名称,字段名称,函数名称等
然后使用语法分析器将Token序列串联成抽象语法树(Abstract Syntax Tree),抽象语法树是一种用来描述程序代码语法结构的树形表示方式,语法树的的每一个节点都代表着一个语法结构;本发明中通过Visitor模式遍历AST解析HQL中表节点,字段节点,以及HQL对应的操作类型;
需要根据操作类型来判断是否需要变更策略;
操作类型为创建表,删除表这2个操作类型需要更改策略,创建表时方便用户操作,需要添加用户对创建表具有全部操作权限(即删除,查询,变更,清空)。删除表是需要更改数据权限策略,需要将该表的策略删除,防止后续创建重复的表名时仍拥有表的权限。
比如某个用户拥有的数据权限策略为{"isNeedAuth":true,"resource":{"database":"simbatest","tables":[{"columns":["*"],"name":"message","permissions":["DROP","ALTER","TRUNCATE ","SELECT"]}],"isGrantAll":false}}。isNeedAuth:是否需要鉴权,不需要鉴权则放过,默认需要鉴权。resource指资源,即鉴权的内容。Database指的是数据库,放的是数据库的名称。isGrantAll 指数据库是否具有全量权限,即可以拥有该数据库下全部表的权限。tables是表鉴权信息的列表,里面信息为:name:表名称,columns:字段列表(“*”指的是表中的全部字段),permissions:操作类型权限(现阶段为“drop”删除表权限,“alter”变更表权限,“select”查询表权限,“TRUNCATE”清空表权限)。
假设该用户在hive集群中的simbatest数据库新创建一张【tabletest】表。
create table `simbatest`.`tabletest`(
id int,
address string,
phone string
)
PARTITIONED BY(ds STRING)
row format delimited fields terminated by ',' stored as textfile;
在sql执行成功后,通过解析sql获取到信息:数据库为simbatest,表为tabletest,操作类型为创建表【create table】。需要将该表的【删除,变更,查询,清空】操作权限赋予给创建该表的用户上,需要查询出用户所拥有的数据权限策略,在该数据权限策略中的tables添加信息:
{"columns":["*"],"name":"tabletest","permissions":["DROP","ALTER","TRUNCATE ","SELECT"]},重新组装策略,将策略变更为
{"isNeedAuth":true,"resource":{"database":"simbatest","tables":[{"columns":["*"],"name":"message","permissions":["DROP","ALTER","TRUNCATE","SELECT"]},{"columns":["*"],"name":"tabletest","permissions":["DROP","ALTER","TRUNCATE ","SELECT"]}],"isGrantAll":false}}。
更改完策略以后,将策略持久化保存到mysql中,同时添加标识标记该策略已经变更。标识一般存放在redis缓存中,如果策略已经变更则在redis缓存中添加key为isUpdate,值为true,失效时间设置为1天。拉取策略后设置isUpdate的值为false,意味着策略未发生变动。
Hive插件会定时【10s】拉取策略,根据变更标识来判断是否刷新hive插件中缓存,通过缓存可减少数据权限鉴权的时间,提升效率。拉取策略时发现策略已经变动,即根据新的数据权限进行鉴权,这样用户就拥有了刚刚创建的表的权限。
根据本发明实施例的基于Hive插件对Hive数据权限管控及安全审计方法,所述方法包括如下步骤:
S1.Hive请求通过JDBC连接或ODBC连接进入Hive集群中,连接到Thirft服务器(用于链接管理),然后进去到Hive驱动模块中;
S2.在Hive驱动模块2中,依次进行抽象语法树解析、逻辑优化器优化、物理执行计划生成与优化、权限校验和提交到yarn运行;
S3.HQL执行成功以后,异步通知到Admin服务器中;通过Antrl4来解析SQL,获取HQL的操作类型、表和字段;
S4.对于操作类型为创建表的情况,则授予创建人全部的表权限;若是操作类型为删除表,则变更表策略去掉策略中被删除的表;
S5. 更改完策略以后,策略信息保存到mysql中,同时添加标识标记该策略已经变更;Hive插件定时拉取策略,根据变更标识来刷新Hive插件中缓存。
其中步骤S2中,权限校验是指调用鉴权插件接口来判断用户的操作,鉴权结束需要将审计日志同步到服务器中。鉴权流程包括如下子步骤:
S21.检验是否有表的操作权限;
S22.校验是否有字段的查询权限;
S23.审计权限校验日志。
进一步,步骤S3中,解析流程包括如下子步骤:
S31.使用词法分析器生成Token序列;
S32.使用语法分析器将Token序列串联成AST;通过Visitor模式遍历AST解析HQL中表节点,字段节点,以及HQL对应的操作类型;
S33.根据操作类型来判断是否需要变更策略;
本发明通过对运行成功后的HQL进行解析,同步变更数据权限中的策略,让数据开发人员更加便捷的开发Hive任务,方便用户使用。表创建和表删除的同步策略,防止出现安全上的漏洞以及制度上的缺失,可以让数据更加安全,快捷的使用。
在其他大数据权限管控组件中,审计记录只是记录下操作人,操作行为,sql,数据库,表,字段以及鉴权结果等信息,不知道HQL是否真实执行成功。可能会出现在创建名称重复表的时候,数据权限鉴权是成功的,但是实际HQ因为表是重复的,导致执行结果是失败的。这种时候元数据的变更记录是不精准。需要记录下HQL执行成功的日志记录,这样帮助企业搭建更完善的数据安全体系。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。

Claims (10)

1.一种基于Hive插件对Hive数据权限管控及安全审计方法,其特征在于,所述方法包括如下步骤:
S1.Hive请求通过JDBC连接或ODBC连接进入Hive集群中,连接到Thirft服务器,然后进去到Hive驱动模块中;
S2.在Hive驱动模块中,依次进行抽象语法树解析、逻辑优化器优化、物理执行计划生成与优化、权限校验和提交到集群yarn运行;
S3.HQL执行成功以后,异步通知到Admin服务器中;通过Antrl4来解析SQL,获取HQL的操作类型、表和字段;
S4.对于操作类型为创建表的情况,则授予创建人全部的表权限;若是操作类型为删除表,则变更表策略去掉策略中被删除的表;
S5.更改完策略以后,策略信息保存到mysql中,同时添加标识标记该策略已经变更;Hive插件定时拉取策略,根据变更标识来刷新Hive插件中缓存。
2.根据权利要求1所述的一种基于Hive插件对Hive数据权限管控及安全审计方法,其特征在于,步骤S2中,权限校验是指调用鉴权插件接口来判断用户的操作,鉴权结束需要将审计日志同步到服务器中;鉴权流程包括如下子步骤:
S21.检验是否有表的操作权限;
S22.校验是否有字段的查询权限;
S23.审计权限校验日志。
3.根据权利要求2所述的一种基于Hive插件对Hive数据权限管控及安全审计方法,其特征在于,步骤S3中,解析流程包括如下子步骤:
S31.使用词法分析器生成Token序列;
S32.使用语法分析器将Token序列串联成AST;通过Visitor模式遍历AST解析HQL中表节点,字段节点,以及HQL对应的操作类型;
S33.根据操作类型来判断是否需要变更策略;
S34.获取到表的元数据信息,以及策略中原本的字段信息,调整数据库中原本存储的策略。
4.根据权利要求3所述的一种基于Hive插件对Hive数据权限管控及安全审计方法,其特征在于,步骤S3中,Antrl4通过.g4文件生成了6个基础文件,分别为词法分析器、语法分析器、监听接口、Listener默认实现、Visitor 接口以及Visitor 默认实现。
5.根据权利要求4所述的一种基于Hive插件对Hive数据权限管控及安全审计方法,其特征在于,为了防止Admin客户端无法连接,将策略同步保存到磁盘上,若请求不到Admin客户端,则从磁盘中读取策略文件,按照权限的最小原则,管控用户对Hive数据的使用权限。
6.一种基于Hive插件对Hive数据权限管控及安全审计系统,其特征在于,所述系统用于实现根据权利要求1-5任一项所述的方法,所述系统包括Hive请求模块,通过Hive请求进入Hive驱动模块。
7.根据权利要求6所述的一种基于Hive插件对Hive数据权限管控及安全审计系统,其特征在于,Hive驱动模块包括HQL解析单元、HQL逻辑优化器单元、权限校验单元、物理计划执行单元和提交单元;通过所述HQL解析单元进行抽象语法树解析;所述HQL逻辑优化器单元进行逻辑执行计划生成与优化;提交单元提交到yarn运行。
8.根据权利要求7所述的一种基于Hive插件对Hive数据权限管控及安全审计系统,其特征在于,权限校验在HQL解析和HQL优化之后;此时HQL已经在Hive中被拆解成表、字段和操作类型,调用鉴权插件接口来判断用户的操作,鉴权结束将审计日志同步到服务器中。
9.根据权利要求8所述的一种基于Hive插件对Hive数据权限管控及安全审计系统,其特征在于,Admin服务器中包括Antrl4解析SQL单元、元数据获取字段单元、创建表操作添加策略单元和变更表操作修改策略单元。
10.根据权利要求9所述的一种基于Hive插件对Hive数据权限管控及安全审计系统,其特征在于,每次HQL运行成功后发送Kafka记录下来,便于记录数据血缘和元数据操作记录变更。
CN202211134582.3A 2022-09-19 2022-09-19 基于Hive插件对Hive数据权限管控及安全审计方法及系统 Active CN115203750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134582.3A CN115203750B (zh) 2022-09-19 2022-09-19 基于Hive插件对Hive数据权限管控及安全审计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134582.3A CN115203750B (zh) 2022-09-19 2022-09-19 基于Hive插件对Hive数据权限管控及安全审计方法及系统

Publications (2)

Publication Number Publication Date
CN115203750A CN115203750A (zh) 2022-10-18
CN115203750B true CN115203750B (zh) 2022-12-16

Family

ID=83573699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134582.3A Active CN115203750B (zh) 2022-09-19 2022-09-19 基于Hive插件对Hive数据权限管控及安全审计方法及系统

Country Status (1)

Country Link
CN (1) CN115203750B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809249B (zh) * 2023-02-03 2023-04-25 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
CN116303372B (zh) * 2023-05-19 2023-08-04 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于Hive的前置知识库优化方法
CN116521686B (zh) * 2023-05-22 2023-10-27 美云智数科技有限公司 动态数据表处理方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959867A (zh) * 2018-06-05 2018-12-07 浙江大学 一种基于Hive Matedata的多用户数据资产权限安全访问控制方法
CN114168930A (zh) * 2021-11-22 2022-03-11 度小满科技(北京)有限公司 一种Hive权限控制方法、装置、设备及可读存储介质
CN114861229A (zh) * 2022-06-08 2022-08-05 杭州比智科技有限公司 一种Hive动态脱敏方法及系统
CN114896584A (zh) * 2022-07-13 2022-08-12 杭州比智科技有限公司 一种Hive数据权限控制代理层方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098573A1 (en) * 2014-10-03 2016-04-07 Zettaset, Inc. Securing a Distributed File System
CN109977690A (zh) * 2017-12-28 2019-07-05 中国移动通信集团陕西有限公司 一种数据处理方法、装置和介质
CN111026045B (zh) * 2019-11-05 2021-01-22 广东电网有限责任公司 一种工作管控方法及系统
CN111400297B (zh) * 2020-03-19 2023-11-03 上海德拓信息技术股份有限公司 基于Hadoop的海量数据数据质量校验方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959867A (zh) * 2018-06-05 2018-12-07 浙江大学 一种基于Hive Matedata的多用户数据资产权限安全访问控制方法
CN114168930A (zh) * 2021-11-22 2022-03-11 度小满科技(北京)有限公司 一种Hive权限控制方法、装置、设备及可读存储介质
CN114861229A (zh) * 2022-06-08 2022-08-05 杭州比智科技有限公司 一种Hive动态脱敏方法及系统
CN114896584A (zh) * 2022-07-13 2022-08-12 杭州比智科技有限公司 一种Hive数据权限控制代理层方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大数据平台访问控制方法的设计与实现;陆艳军等;《信息安全研究》;20161005(第10期);全文 *

Also Published As

Publication number Publication date
CN115203750A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115203750B (zh) 基于Hive插件对Hive数据权限管控及安全审计方法及系统
US11755628B2 (en) Data relationships storage platform
US8762395B2 (en) Evaluating event-generated data using append-only tables
US8131696B2 (en) Sequence event processing using append-only tables
EP2849098B1 (en) Cross system analytics for in memory data warehouse
US7840575B2 (en) Evaluating event-generated data using append-only tables
US8078595B2 (en) Secure normal forms
US7493344B2 (en) Method and system for dynamic data merge in databases
US8065323B2 (en) Offline validation of data in a database system for foreign key constraints
US9679021B2 (en) Parallel transactional-statistics collection for improving operation of a DBMS optimizer module
US7401085B2 (en) System and method for controlling the release of updates to a database configuration
US6772137B1 (en) Centralized maintenance and management of objects in a reporting system
EP2849097A2 (en) A method for operating storage resources in an in-memory warehouse system
US7693845B2 (en) Database systems, methods and computer program products using type based selective foreign key association to represent multiple but exclusive relationships in relational databases
US7559048B1 (en) System and method for managing objects between projects
CN114168930A (zh) 一种Hive权限控制方法、装置、设备及可读存储介质
US11567957B2 (en) Incremental addition of data to partitions in database tables
CN116821098A (zh) 数据仓库管理方法、服务系统和存储介质
US20230306030A1 (en) Row-level permissioning based on evaluated policies
US11822531B2 (en) Method and system for using auxiliary tables for RDF data stored in a relational database
CN118035985A (zh) 一种基于数据模块化的mis系统
Krogh et al. Developing Applications Using SQL with MySQL NDB Cluster
CN116755958A (zh) 数据库服务流量回放方法、电子设备及存储介质
Bentley et al. SAS-Oracle Options and Efficiency: What You Don’t Know Can Hurt You
Mostafa et al. Investigation cloud data storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant