CN111985207A - 一种访问控制策略的获取方法、装置及电子设备 - Google Patents

一种访问控制策略的获取方法、装置及电子设备 Download PDF

Info

Publication number
CN111985207A
CN111985207A CN202010824419.4A CN202010824419A CN111985207A CN 111985207 A CN111985207 A CN 111985207A CN 202010824419 A CN202010824419 A CN 202010824419A CN 111985207 A CN111985207 A CN 111985207A
Authority
CN
China
Prior art keywords
attribute
access control
statement
sentence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010824419.4A
Other languages
English (en)
Other versions
CN111985207B (zh
Inventor
杜学绘
陈性元
王娜
刘敖迪
任志宇
单棣斌
王文娟
秦若熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202010824419.4A priority Critical patent/CN111985207B/zh
Publication of CN111985207A publication Critical patent/CN111985207A/zh
Application granted granted Critical
Publication of CN111985207B publication Critical patent/CN111985207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种访问控制策略的获取方法、装置及电子设备,方法包括:获得项目文档对应的语句集合,语句集合中包含多个语句;利用基于深度学习的语句提取模型,获得语句集合中包含访问控制信息的目标语句;语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;获得目标语句中的访问控制属性,目标语句中的访问控制属性包含主体属性、客体属性和操作属性,目标语句中的主体属性、客体属性和操作属性组成目标语句对应的访问控制策略。

Description

一种访问控制策略的获取方法、装置及电子设备
技术领域
本申请涉及计算机信息安全技术领域,尤其涉及一种访问控制策略的获取方法、装置及电子设备。
背景技术
作为保护数据安全的重要手段之一,访问控制技术能够通过对用户权限的管理,使得合法用户依照其所拥有的权限访问计算机系统内的相应资源,禁止非法用户对资源的非授权访问,从而有效的保障数据安全及业务系统的正常运转。
其中,基于属性的访问控制机制(Attribute based access control,ABAC)使用属性作为访问控制的基本要素,能够灵活利用实体所拥有的属性集合来决定是否赋予其访问权限,具有较强的语义表达能力,且兼容多种传统访问控制机制,适用于解决开放计算环境中的细粒度访问控制和大规模动态授权问题。因此,访问控制策略是执行访问控制机制的核心与基础,特别是在信息系统建立初期,如何在满足系统安全需求的前提下,配置正确、完备且一致的访问控制策略是安全管理人员对资源实施访问控制的前提。
而实际上,在大多数组织机构的信息系统内部,都存在着以自然语言形式描述的系统项目规范类文档(如项目需求文档、用户手册、使用须知等),这些项目文档中蕴含了系统预置的与访问控制相关的策略信息。
因此,亟需一种能够从项目规范类文档中提取ABAC访问控制策略的技术方案。
发明内容
有鉴于此,本申请提供一种访问控制策略的获取方法、装置及电子设备,包括:
一种访问控制策略的获取方法,所述方法包括:
获得项目文档对应的语句集合,所述语句集合中包含多个语句;
利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句;所述语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;
获得所述目标语句中的访问控制属性,所述目标语句中的访问控制属性包含主体属性、客体属性和操作属性,所述目标语句中的主体属性、客体属性和操作属性组成所述目标语句对应的访问控制策略。
上述方法,优选的,所述语句提取模型包含输入层、隐含层和输出层,所述隐含层包含基于门限循环神经网络构建的第一层、基于卷积神经网络构建的第二层、基于注意力机制所构建的第三层。
上述方法,优选的,利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句,至少包括:
利用所述输入层,获得所述语句集合中的语句的词向量;
利用所述第一层,对所述语句的词向量进行特征提取,以得到所述语句的特征向量;
利用所述第二层,对所述语句的特征向量进行卷积处理;
利用所述第三层,对所述语句的特征向量利用注意力机制进行调整;
利用所述输出层,对所述语句的特征向量进行处理,以得到所述语句的识别结果,所述识别结果表征所述语句是否包含访问控制信息,其中,所述识别结果表征包含访问控制信息的语句为目标语句。
上述方法,优选的,所述获得所述目标语句中的访问控制属性,包括:
利用基于深度学习的属性挖掘模型,提取所述目标语句中的访问控制属性;其中,所述属性挖掘模型利用多个具有属性标签的第二语句样本进行训练得到,所述属性标签包括主体标签、客体标签和操作标签。
上述方法,优选的,所述属性挖掘模型至少包括基于长短期记忆神经网络构建的第一子模型,所述第一子模型利用所述第二语句样本进行训练得到;
其中,利用基于深度学习的属性挖掘模型,提取所述目标语句中的访问控制属性,包括:
利用所述第一子模型,对所述目标语句中的访问控制属性进行识别,以得到所述目标语句中的主体属性、客体属性和操作属性。
上述方法,优选的,所述属性挖掘模型至少包括基于长短期记忆神经网络构建的第一子模型和基于条件随机场构建的第二子模型,所述第一子模型利用所述第二语句样本进行训练得到,所述第二子模型利用所述第二语句样本具有的属性依赖关系标签进行训练得到;
其中,利用基于深度学习的属性挖掘模型,提取所述目标语句中的访问控制属性,包括:
利用所述第一子模型,对所述目标语句中的访问控制属性进行识别,以得到所述目标语句中的主体属性、客体属性和操作属性;
利用所述第二子模型,对所述目标语句中的主体属性、客体属性和操作属性进行调整。
上述方法,优选的,所述方法还包括:
保存所述访问控制策略。
一种访问控制策略的获取装置,所述装置包括:
语句获得单元,用于获得项目文档对应的语句集合,所述语句集合中包含多个语句;
语句提取单元,用于利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句;所述语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;
属性获得单元,用于获得所述目标语句中的访问控制属性,所述目标语句中的访问控制属性包含主体属性、客体属性和操作属性,所述目标语句中的主体属性、客体属性和操作属性组成所述目标语句对应的访问控制策略。
上述装置,优选的,所述语句提取模型包含输入层、隐含层和输出层,所述隐含层包含基于门限循环神经网络构建的第一层、基于卷积神经网络构建的第二层、基于注意力机制所构建的第三层;
其中,所述语句提取单元具体用于:利用所述输入层,获得所述语句集合中的语句的词向量;利用所述第一层,对所述语句的词向量进行特征提取,以得到所述语句的特征向量;利用所述第二层,对所述语句的特征向量进行卷积处理,得到所述语句的向量卷积结果;利用所述第三层,对所述语句的特征向量利用注意力机制进行调整;利用所述输出层,对所述语句的特征向量进行处理,以得到所述语句的识别结果,所述识别结果表征所述语句是否包含访问控制信息,其中,所述识别结果表征包含访问控制信息的语句为目标语句。
一种电子设备,包括:
存储器,用于存储应用程序和所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现:获得项目文档对应的语句集合,所述语句集合中包含多个语句;利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句;所述语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;获得所述目标语句中的访问控制属性,所述目标语句中的访问控制属性包含主体属性、客体属性和操作属性,所述目标语句中的主体属性、客体属性和操作属性组成所述目标语句对应的访问控制策略。
由上述方案可知,本申请提供的一种访问控制策略的获取方法、装置及电子设备中,在获得到项目文档对应的语句集合后,利用基于深度学习的语句提取模型对语句集合中包含访问控制信息的目标语句进行筛选,再获取到这些目标语句中的访问控制属性,如主体属性、客体属性和操作属性,这些属性组成目标语句对应的访问控制策略。可见,本申请中利用基于深度学习的语句提取模型对包含访问控制信息的目标语句进行识别及筛选,从而获取到目标语句中的主体属性、客体属性和操作属性,由此获取到ABAC的访问控制策略。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种访问控制策略的获取方法的流程图;
图2及图3分别为本申请实施例一提供的一种访问控制策略的获取方法的部分流程图;
图4为本申请实施例二提供的一种访问控制策略的获取装置的结构示意图;
图5为本申请实施例三提供的一种电子设备的结构示意图;
图6-图14分别为本申请实施例实际应用中的示例图。
具体实施方式
随着大数据、云计算等新型计算范式不断发展,极大地提高了数据共享与利用的效率,使得数据成为了重要的资产宝库。通过分析与利用数据资源,能够创造出巨大的社会价值和经济价值。然而,数据的共享与利用在带来新的发展机遇的同时,也面临着严峻的安全挑战,导致各类安全事故频发。因此,数据的非授权共享将会对用户数据带来巨大的安全威胁,实现安全、可控的数据资源共享与利用是数据应用及发展的前提与基础。
作为保护数据安全的重要手段之一,访问控制技术能够通过对用户权限的管理,使得合法用户依照其所拥有的权限访问系统内的相应资源,禁止非法用户对资源的非授权访问,从而有效的保障数据安全及业务系统的正常运转。其中,基于属性的访问控制机制ABAC使用属性作为访问控制的基本要素,能够灵活利用实体所拥有的属性集合来决定是否赋予其访问权限,具有较强的语义表达能力,且兼容多种传统访问控制机制,适用于解决开放计算环境中的细粒度访问控制和大规模动态授权问题。
访问控制策略是执行访问控制机制的核心与基础。特别是在信息系统建立初期,如何在满足系统安全需求的前提下,配置正确、完备且一致的访问控制策略是安全管理人员对资源实施访问控制的前提。
本申请的发明人经过研究发现:现有的策略生成技术主要包括自上向下 (Top-down)与自下向上(Bottom-up)两种模式。其中,自上向下模式是依靠安全专家的专业知识,从系统的业务需求和安全需求出发,通过人工分析来得到系统访问控制策略。但该模式是一项需要专业知识且容易出错的劳动密集型工作,策略生成质量不稳定,可靠性与准确性直接与安全专家的专业水平相关。并且,针对不同业务系统这种方式难以移植,可扩展能力较弱,容易导致过度授权和授权不足现象的发生。与自上向下模式不同,自下向上模式依据信息系统中已有的访问控制信息(用户-权限关系),利用数据挖掘等手段实现策略的自动生成,减少了对专家的人工依赖,该方式也被称为角色挖掘技术。但是,现有角色挖掘技术得到的角色信息通常是无语义信息,难以与真实世界中访问控制需求相结合。并且,其主要用于解决基于角色的访问控制(Role-Based Access Control,RBAC)的策略生成问题,无法通过角色表达出ABAC模型丰富的属性语义信息(主体属性、动作属性、客体属性),无法应用到ABAC的策略生成工作。
本申请的发明人同时发现:实际上,在大多数组织机构的信息系统内部,都存在着以自然语言形式描述的系统项目规范类文档(如项目需求文档、用户手册、使用须知等),这些项目文档中蕴含了系统预置的与访问控制相关的策略信息。它们是安全专家了解应用环境与应用背景、分析安全需求的重要依据和信息来源。手动筛选现有文档以提取隐藏的访问控制策略可能是一项冗长、耗时且容易出错的工作,且需要具有专业安全知识的专家才能够顺利完成。因此,如何从项目规范类文档中提取访问控制策略信息,自动化生成ABAC策略,对于基于属性的访问控制研究具有重要意义。
鉴于以上无法实现ABAC的策略生成的技术现状以及手动筛选包含控制信息的文档或语句存在较大缺陷的问题,本申请的发明人经过进一步研究发现,基于ABAC的特点,可以基于深度网络模型对包含访问控制信息的语句进行筛选,再提取语句中的访问控制属性,如主体属性、客体属性及操作属性,从而得到ABAC的访问控制策略,既可以避免手动筛选语句存在效率低和准确率低的技术问题,也可以实现ABAC的访问控制策略生成。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请实施例一提供的一种访问控制策略的获取方法的实现流程图。该方法可以适用于能够进行数据处理的电子设备中,如计算机或者服务器等。本实施例中的技术方案主要用于实现ABAC的访问控制策略生成。
具体的,本实施例中的方法可以包括以下步骤:
步骤101:获得项目文档对应的语句集合。
其中,项目文档是指以自然语言形式描述的系统项目规范类文档,如项目需求文档、用户手册、使用须知等。
在一种实现方式中,本实施例可以使用计算机程序如通过Pandas包的 read_csv函数读取文档数据库中的项目文档。
基于此,本实施例中可以对这些自然语言形式项目文档中的文本进行分句解析,例如,可以按照句号、叹号、分号、问号等标点符号对项目文档中的文本段落依次进行分句处理,以得到语句集合,语句集合中包含有分句得到的多个语句。
步骤102:利用基于深度学习的语句提取模型,获得语句集合中包含访问控制信息的目标语句。
其中,语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到。具体的,在语句提取模型基于深度学习网络如神经网络等初始构建之后,将多个具有访问控制标签的第一语句样本依次输入到语句提取模型中,在得到语句提取模型的输出结果之后,根据输出结果与访问控制标签之间的差异对语句提取模型中的模型参数如神经网络的神经元参数等进行调整,直到差异满足收敛,得到训练完成的语句提取模型。
基于此,本实施例中将语句集合中的每个语句输入到语句提取模型中,以得到语句提取模型所输出的识别结果,该识别结果表征语句为包含访问控制信息的语句的概率或者识别结果表征语句是否为包含访问控制信息的语句,由此,根据识别结果获得到包含访问控制信息的目标语句。
步骤103:获得目标语句中的访问控制属性。
其中,目标语句中的访问控制属性包含主体属性、客体属性和操作属性,目标语句中的主体属性、客体属性和操作属性组成目标语句对应的访问控制策略。
在一种实现方式中,本实施例中可以对目标语句中的字符、词等进行识别,以识别出目标语句中各访问控制属性如主题属性、客体属性和操作属性对应的词,由此得到目标语句对应的访问控制策略。
由上述方案可知,本申请实施例一提供的一种访问控制策略的获取方法中,在获得到项目文档对应的语句集合后,利用基于深度学习的语句提取模型对语句集合中包含访问控制信息的目标语句进行筛选,再获取到这些目标语句中的访问控制属性,如主体属性、客体属性和操作属性,这些属性组成目标语句对应的访问控制策略。可见,本实施例中利用基于深度学习的语句提取模型对包含访问控制信息的目标语句进行识别及筛选,从而获取到目标语句中的主体属性、客体属性和操作属性,由此获取到ABAC的访问控制策略。
在一种实现方式,本实施例中的语句提取模型中可以包含有输入层、隐含层和输出层,其中,输入层用于将输入到语句提取模型的语句进行向量提取,以得到每个语句中的词向量,而隐含层用于对语句中的词向量进行处理,以得到每个语句的特征向量;基于此,输出层用于对语句的特征向量进行处理,以得到语句的识别结果,识别结果表征语句是否包含访问控制信息,基于此,识别结果表征包含访问控制信息的语句为目标语句,由此,利用语句提取模型能够对语句集合中的每个语句进行识别,以得到语句集合中的一个或多个目标语句,这些目标语句中包含有访问控制信息。
具体实现中,隐含层中包含有基于门限循环神经网络构建的第一层、基于卷积神经网络构建的第二层、基于注意力机制所构建的第三层。
其中,基于门限循环神经网络构建的第一层可以用于对每个语句的词向量进行特征提取,以得到每个语句的特征向量;基于卷积神经网络构建的第二层可以用于对每个语句的特征向量进行卷积处理;基于注意力机制所构建的第三层可以用于对每个语句的特征向量利用注意力机制进行调整。
在可选的实现方案中,语句提取模型中的隐含层还可以包含有池化层,其中,池化层用于先对每个语句的特征向量进行降维,再由第二层对每个语句的特征向量进行卷积处理,由此提高语句提取模型的精度;另外,语句提取模型的隐含层中还可以包含有全连接成,其中,全连接层用于对语句的特征向量进行综合,再将特征向量综合后的结果输出给输出层,由输出层根据综合处理的特征向量得到每个语句的识别结果。
基于此,步骤102中在利用基于深度学习的语句提取模型,获得语句集合中包含访问控制信息的目标语句时,可以通过以下方式实现,如图2中所示:
步骤201:利用输入层,获得语句集合中的语句的词向量。
其中,输出层可以通过能够进行词向量训练及识别的模型实现,如预训练模型BERT(Bidirectional Encoder Representation from Transformer),本实施例中预先利用具有词向量标签的训练样本对BERT模型进行训练,再利用训练好的BERT模型对语句集合中的每个语句中的词向量进行识别,以得到每个语句的词向量。
步骤202:利用第一层,对语句的词向量进行特征提取,以得到语句的特征向量。
其中,基于门限循环神经网络GRU(Gated Recurrent Unit)构建的第一层也可以称为GRU层,GRU层用于对每个语句的词向量进行特征提取,以得到每个语句的特征向量。
可选的方案中,第一层可以是基于双向的双门限循环神经网络BiGRU(Bidirectional Gated Recurrent Unit)构建,此时的第一层也可以称为BiGRU 层,由此,第一层可以对每个语句的词向量进行深层次特征的提取,以得到每个语句的更为精确的特征向量。
步骤203:利用第二层,对语句的特征向量进行卷积处理。
其中,基于卷积神经网络CNN(Convolutional Neural Networks)构建的第二层具体可以分为卷积层和池化层,其中,卷积层用于对每个语句的特征向量进行卷积,以降低语句提取模型进行训练和识别的模型复杂度和模型参数数量,而池化层则用于对每个语句的特征向量进行降维。
步骤204:利用第三层,对语句的特征向量利用注意力机制进行调整。
其中,在基于注意力机制所构建的第三层中,可以通过对语句的特征向量进行调整,来确定需要收到注意的特征向量,相应的,为这些特征向量分配相对较重的权值,以提高语句提取模型对语句是否包含访问控制信息的识别的准确性。
进一步的,本实施例中在步骤204之后,还可以利用语句提取模型中的全连接层对语句的特征向量进行特征综合,以综合各个特征向量的特点,由此使得输出的特征向量更加准确。
步骤205:利用输出层,对语句的特征向量进行处理,以得到语句的识别结果。
其中,每个语句的识别结果表征该语句是否包含访问控制信息,而识别结果表征包含访问控制信息的语句即为目标语句,由此,通过语句提取模型得到语句集合中的目标语句。
具体的,本实施例中可以利用输出层对语句的特征向量进行分类,以识别结果表征语句的分类结果,即是否为包含访问控制信息的语句。
在一种实现方式中,步骤103在获得目标语句中的访问控制属性时,具体可以通过以下方式实现:
利用基于深度学习的属性挖掘模型,提取目标语句中的访问控制属性;其中,属性挖掘模型利用多个具有属性标签的第二语句样本进行训练得到,属性标签包括主体标签、客体标签和操作标签。
具体的,在属性挖掘模型基于深度学习网络如神经网络等初始构建之后,将多个具有属性标签如主体属性标签、客体属性标签和操作属性标签的第二语句样本依次输入到属性挖掘模型中,在得到属性挖掘模型的输出结果之后,根据输出结果与属性标签之间的差异对属性挖掘模型中的模型参数如神经网络的神经元参数等进行调整,直到差异满足收敛,得到训练完成的属性挖掘模型。
基于此,本实施例中将每个目标语句输入到属性挖掘模型中,以得到属性挖掘模型所输出的识别结果,该识别结果表征目标语句中的词是否为访问控制属性如主体属性、客体属性和操作属性的概率的概率或者识别结果表征目标语句中的词是否为访问控制属性如主体属性、客体属性和操作属性,由此,根据识别结果获得到目标语句中的访问控制属性,如主体属性、客体属性和操作属性。
其中,在一种实现方式中,属性挖掘模型至少包括基于长短期记忆神经网络LSTM(Long Short-Term Memory)构建的第一子模型,第一子模型利用第二语句样本进行训练得到;
基于此,本实施例中利用基于深度学习的属性挖掘模型,提取目标语句中的访问控制属性具体可以为:利用第一子模型,对目标语句中的访问控制属性进行识别,以得到目标语句中的主体属性、客体属性和操作属性。
可选的实现方案中,第一子模型可以是基于双向的长短期记忆神经网络 BiLSTM(Bi-directional Long Short-Term Memory)构建得到。此时的第一子模块可以对每个目标语句进行词识别,以得到目标语句中的属于主体属性、客体属性和操作属性的词,由此得到目标语句的访问控制策略,该访问控制策略由主体属性、客体属性和操作属性各自对应的词组成,如主体属性“用户A”、操作属性“修改”和客体属性“数据组B”组成一条访问控制策略。
在另一种实现方式中,属性挖掘模型除了包含有基于长短期记忆神经网络LSTM构建的第一子模型和基于条件随机场CRF(conditional random field) 构建的第二子模型,其中,第一子模型利用具有属性标签的第二语句样本进行训练得到,而第二子模型利用第二语句样本所具有的属性依赖关系标签进行训练得到。也就是说,第二语句样本不仅具有访问控制属性的属性标签,还具有访问控制属性标签之间的属性依赖关系标签,如语句中属性标签E必须出现在属性标签B之后的依赖关系,基于此,第一子模型能够对目标语句中所包含的各个访问控制属性进行识别获取,而第二子模型能够根据学习出的属性依赖关系对访问控制属性进行调整,从而提高所获得到的访问控制属性的准确性。
具体的,本实施例中利用基于深度学习的属性挖掘模型,提取目标语句中的访问控制属性可以通过以下方式实现,如图3中所示:
步骤301:利用第一子模型,对目标语句中的访问控制属性进行识别,以得到目标语句中的主体属性、客体属性和操作属性。
例如,第一子模块可以对每个目标语句进行词识别,以得到目标语句中的属于主体属性、客体属性和操作属性的词,如主体属性“用户A”、操作属性“修改”和客体属性“数据组B”。
步骤302:利用第二子模型,对目标语句中的主体属性、客体属性和操作属性进行调整。
其中,本实施例中可以利用第二子模型获得到目标语句中各种访问控制属性之间的属性依赖关系,如操作属性“修改”在主体属性“用户A”之后的属性依赖关系等,进而根据这一属性依赖关系,对第一子模型所获得到的三种访问控制属性进行调整,由此提高所获得到的访问控制属性的准确性。
在一种实现方式中,本实施例中在获得到访问控制策略之后,可以将这些访问控制策略进行保存,如保存访问控制策略到云端或者本地数据库中,以便于用于对数据的安全访问控制中。
例如,在对某个访问请求语句中的访问主体、访问客体和访问类型的词进行提取之后,将这些访问主体、访问客体与访问类型与访问控制策略进行比对,从而得到是否允许访问主体以访问类型对访问客体进行访问的比对结果,从而实现安全的访问控制;
再如,根据访问控制策略构建网络模型,由网络模型对访问请求语句进行分类,从而得到表征是否允许访问主体以访问类型对访问客体进行访问的分类结果,从而实现安全的访问控制。
参考图4,为本申请实施例二提供的一种访问控制策略的获取装置的结构示意图,该装置可以配置在能够进行数据处理的电子设备中,如计算机或者服务器等。本实施例中的技术方案主要用于实现ABAC的访问控制策略生成。
具体的,本实施例中的装置可以包括以下单元:
语句获得单元401,用于获得项目文档对应的语句集合,语句集合中包含多个语句;
语句提取单元402,用于利用基于深度学习的语句提取模型,获得语句集合中包含访问控制信息的目标语句;语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;
属性获得单元403,用于获得目标语句中的访问控制属性,目标语句中的访问控制属性包含主体属性、客体属性和操作属性,目标语句中的主体属性、客体属性和操作属性组成目标语句对应的访问控制策略。
由上述方案可知,本申请实施例二提供的一种访问控制策略的获取装置中,在获得到项目文档对应的语句集合后,利用基于深度学习的语句提取模型对语句集合中包含访问控制信息的目标语句进行筛选,再获取到这些目标语句中的访问控制属性,如主体属性、客体属性和操作属性,这些属性组成目标语句对应的访问控制策略。可见,本实施例中利用基于深度学习的语句提取模型对包含访问控制信息的目标语句进行识别及筛选,从而获取到目标语句中的主体属性、客体属性和操作属性,由此获取到ABAC的访问控制策略。
在一种实现方式中,语句提取模型包含输入层、隐含层和输出层,隐含层包含基于门限循环神经网络构建的第一层、基于卷积神经网络构建的第二层、基于注意力机制所构建的第三层。
基于此,语句提取单元402具体用于利用输入层,获得语句集合中的语句的词向量;利用第一层,对语句的词向量进行特征提取,以得到语句的特征向量;利用第二层,对语句的特征向量进行卷积处理;利用第三层,对语句的特征向量利用注意力机制进行调整;利用输出层,对语句的特征向量进行处理,以得到语句的识别结果,识别结果表征语句是否包含访问控制信息,其中,识别结果表征包含访问控制信息的语句为目标语句。
在一种实现方式中,属性获得单元403具体用于:利用基于深度学习的属性挖掘模型,提取目标语句中的访问控制属性;其中,属性挖掘模型利用多个具有属性标签的第二语句样本进行训练得到,属性标签包括主体标签、客体标签和操作标签。
其中,属性挖掘模型至少包括基于长短期记忆神经网络构建的第一子模型,第一子模型利用第二语句样本进行训练得到;
基于此,属性获得单元403具体用于:利用第一子模型,对目标语句中的访问控制属性进行识别,以得到目标语句中的主体属性、客体属性和操作属性。
在另一种实现方式中,属性挖掘模型至少包括基于长短期记忆神经网络构建的第一子模型和基于条件随机场构建的第二子模型,第一子模型利用第二语句样本进行训练得到,第二子模型利用第二语句样本具有的属性依赖关系标签进行训练得到;
基于此,属性获得单元403具体用于:利用第一子模型,对目标语句中的访问控制属性进行识别,以得到目标语句中的主体属性、客体属性和操作属性;利用第二子模型,对目标语句中的主体属性、客体属性和操作属性进行调整。
在一种实现方式中,本实施例中的装置还可以保存访问控制策略,以便于实现安全的访问控制。
需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。
参考图5,为本申请实施例三提供的一种电子设备的结构示意图,该电子设备可以为能够进行数据处理的电子设备,如计算机或者服务器等。本实施例中的技术方案主要用于实现ABAC的访问控制策略生成。
具体的,本实施例中的电子设备可以包括以下结构:
存储器501,用于存储应用程序和应用程序运行所产生的数据;
处理器502,用于执行应用程序,以实现:获得项目文档对应的语句集合,语句集合中包含多个语句;利用基于深度学习的语句提取模型,获得语句集合中包含访问控制信息的目标语句;语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;获得目标语句中的访问控制属性,目标语句中的访问控制属性包含主体属性、客体属性和操作属性,目标语句中的主体属性、客体属性和操作属性组成目标语句对应的访问控制策略。
由上述方案可知,本申请实施例三提供的一种电子设备中,在获得到项目文档对应的语句集合后,利用基于深度学习的语句提取模型对语句集合中包含访问控制信息的目标语句进行筛选,再获取到这些目标语句中的访问控制属性,如主体属性、客体属性和操作属性,这些属性组成目标语句对应的访问控制策略。可见,本实施例中利用基于深度学习的语句提取模型对包含访问控制信息的目标语句进行识别及筛选,从而获取到目标语句中的主体属性、客体属性和操作属性,由此获取到ABAC的访问控制策略。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合实际应用的细节附图和相应实施例对本申请作进一步详细的说明。
首先,本申请中涉及的定义如下:
属性,用于描述参与到访问控制过程中的实体的特征信息;特征信息由属性名与属性值构成,包括主体属性S、客体属性O以及操作属性A。其中,主体属性S描述访问请求发起方所具有的属性信息(如角色、单位等)。客体属性O描述能够被访问的资源所具有属性信息(如名称、安全等级等)。操作属性A描述主体对客体的各种操作行为(如读取、写入等)。
属性元组,用于刻画访问控制实体特定类别属性的集合,是属性动态指派关系的体现,可表示为X-tuple={a1,a2,…an},X∈{S,O,A}。
访问控制策略是主体访问客体的规则和主体对客体授权逻辑的具体体现,可表示为四元组ACP=(S-tuple,A-tuple,O-tuple,Sign)的形式, Sign∈{permit,deny}表示允许访问或禁止访问。
访问请求是对资源的请求访问者、被访问的客体以及被请求操作的描述,可以表示成三元组AR=(S-tuple,A-tuple,O-tuple)的形式。访问请求中至少包含一个主体属性、一个客体属性和一个操作属性。
权限判决是在给定的访问控制策略评估环境中,针对用户的访问请求,做出用户允许或禁止访问相应资源的判决响应,可表示为一个映射函数: Decision:AR→{permit,deny}。
参照图6-14,基于本申请中的技术方案,所实现的一种基于深度学习的 ABAC访问控制策略自动化生成方案,如下:
如图6所示,给出了基于属性的访问控制策略的生命周期。在传统专家知识驱动的策略管理过程中,信息系统所有者负责定义访问控制保护用例(阶段1),安全人员负责为给定的用例收集访问控制需求、定义访问控制属性、编写相应的访问控制策略(阶段2、3、4)。再由应用程序开发人员进行策略用例的测试、访问控制框架和访问控制策略的部署,最后由审计员负责进行 ABAC的访问控制审计(阶段5、6、7、8)。本申请聚焦在收集访问控制需求(阶段2)、获取访问控制所需属性(阶段3)、编写访问控制策略(阶段 4)这三个阶段。具体的,本申请中利用深度学习技术实现自动化、智能化的策略生成访问控制策略。
访问控制策略生成框架如图7中的1-6所示:首先,对待处理的自然语言文档进行解析,在访问控制策略语句识别引擎(即前文中的语句提取模型) 中提取出包含访问控制信息的语句,即目标语句,也可以称为访问控制策略语句,这些语句描述了拥有哪些属性的主体能够以何种方式访问具有哪些属性的客体。一旦访问控制策略语句被提取出来之后,对语句中所包含的主体属性、操作属性以及客体属性进行挖掘,生成相应策略元素。之后,即可直接将这些策略元素转化为可读、可执行的标准格式ABAC策略。再经过进一步的策略修正和验证步骤之后,将最终的ABAC策略存储到访问控制策略数据库中,完成从自然语言文本中提取访问控制策略的全部流程。下面将对访问控制语句识别和访问控制属性挖掘两项核心任务的解决方案进行详细说明。
1、访问控制策略语句识别引擎
本申请提出了一种混合神经网络模型BiGRU-CNN-Attention来实现访问控制策略语句的识别。该模型由Word embedding(输入)层、隐含层和输出层三部分组成。其中,隐含层包含BiGRU层、卷积层、池化层、注意力Attention 层以及全连接层等结构,从而构成了一个如图8所示的7层神经网络结构。从左到右依次是:Word embedding层、BiGRU层、卷积层convolution layer、池化与注意力层(global_max_pooling attention global_average_pooling)、合并操作(concatenate)、全连接层(fully connected layer)、输出层(outputlayer),如下:
Word embedding层是访问控制语句识别模型的数据输入层,在该层中使用了预训练模型BERT。BERT将传统大量在下游具体自然语言处理NLP (Natural LanguageProcessing)任务中做的操作转移到预训练的语言模型中,进一步增加了词向量模型的泛化能力,充分地对字符级、词级、句子级关系特征进行了描述。BERT模型基于双向transformer技术进行词向量模型的训练,具有更深的层数和更好的并行性,在多项NLP自然语言处理任务中都具有非常优异的性能。本申请基于BERT预训练语言模型将自然语言文档中的词及其对应的特征进行编码,转化为词向量形式作为模型输入。
门限循环神经网络结构GRU是一种继承了长短期记忆网络LSTM特性的神经网络结构,在某些应用场景下有近似LSTM的性能,但却具有更加简单的网络结构。在整体神经网络模型规模较大时,它拥有更少的参数和更好的收敛效果。双向门限循环神经网络结构BiGRU由正反两个方向的GRU组成,相比单向GRU能够提取出更加全面的语句特征。因此,本申请中选取BiGRU 来获取文本语句的深层次特征表示。
其中,GRU由更新门和重置门两个门组成。更新门用于控制前一时刻输出对后一时刻输出的影响程度,更新门的值越大则说明前一时刻输出对后一时刻输出的影响越大。重置门用于控制前一时刻输出被后一时刻忽略的程度,重置门的值越小说明后一时刻忽略的信息越多。GRU结构单元的更新方法如下式(1):
Figure RE-RE-GDA0002730561770000181
其中,z(t)、r(t)
Figure RE-RE-GDA0002730561770000182
h(t)分别表示时刻t的更新门、重置门、候选激活状态、激活状态,h(t-1)表示时刻t-1的隐藏层状态,WZ为是权重,X(t)是t时刻的输入,Uz为h(t-1)的权重,Wr是权重,Ur为h(t-1)的权重,Wh是权重,Uh是r(t)⊙h(t-1)的权重。由式(1)可知,z(t)由当前时刻输入的信息与上一时刻需要被遗忘的信息共同决定,r(t)由当前时刻输入的信息与上一时刻需要被继承的信息共同决定。
BiGRU将两个方向相反的GRU输出进行合并,计算方法如下式(2):
Figure RE-RE-GDA0002730561770000183
其中,
Figure RE-RE-GDA0002730561770000184
Figure RE-RE-GDA0002730561770000185
分别表示前向GRU和反向GRU中结构单元输出的隐藏层向量,
Figure RE-RE-GDA0002730561770000186
Figure RE-RE-GDA0002730561770000187
分别是
Figure RE-RE-GDA0002730561770000188
Figure RE-RE-GDA0002730561770000189
对应的权重,b(t)表示时刻t的偏置。
卷积神经网络CNN利用空间局部感知和权值共享网络结构降低了神经网络模型训练的复杂程度和参数数量,主要包括卷积层和池化层。其中,卷积层可以有效减少训练参数的数量,同时保留数据的主要特征。该方法能够有效避免过拟合,提高模型的泛化能力。输入是多个映射,输出是降维后的映射。每个映射都是属于上层的输入映射卷积值的组合,计算方法如下式(3):
Figure RE-RE-GDA0002730561770000191
其中,
Figure RE-RE-GDA0002730561770000192
为输出映射的集合,
Figure RE-RE-GDA0002730561770000193
是卷积值的组合,Nj是输入映射的集合,
Figure RE-RE-GDA0002730561770000194
是用于连接第i个输入特征映射和第j个输出特征映射的卷积核,
Figure RE-RE-GDA0002730561770000195
是第j 个特征映射的偏置项,f是激活函数。
池化层也被称为下采样层,一般取池化区域中的最大值或平均值(分别称作最大池化、平均池化)。该层能够减弱数据变形的影响,降低特征映射维度,提高模型的精度,避免过拟合的发生。在CNN中,下采样层的输出a(l)如下式(4):
Figure RE-RE-GDA0002730561770000196
其中,
Figure RE-RE-GDA0002730561770000197
为权重系数;
全连接层的计算与普通神经网络的计算一致,其输出a(l+1)如下式(5):
a(l+1)=f(w(l+1)a(l)+b(l+1)) (5)
其中,a(l)为该层的输入数据,w(l+1)为该层的权重,b(l+1)为偏置,a(l+1)为该层的输出。
Attention层用于进行访问控制语句的识别,Attention机制通过对数据进行加权处理,把不同的部分间数据联系起来,能够对语句中的重点词汇进行着重的关注与处理,从而提高系统的整体性能。使用Attention机制在输入语句中分配不同的关注度,突出局部的重要信息,从而使重要信息得到更多的关注。一般情况下,如果BiGRU和CNN得到的所有词向量在句子S中都被平等的处理,那么在一些不重要的词上将会浪费过多的计算时间。因此,通过对语句中的重点词进行着重关注,对输入序列中的每个元素赋予权重,并将注意力集中在输入语句中最重要的信息部分,计算方法如下式(6):
Figure RE-RE-GDA0002730561770000201
其中,α是句子中新的隐藏层的状态所占的权重,hi是向Attention机制中输入的初始隐藏层状态,ei是时刻i隐藏层状态的能量值,wi是权重系数,bi是对应时刻i的偏置,s是输出值;
最重要的信息部分为包含重点词的信息。
2、访问控制属性挖掘引擎
本申请将属性挖掘问题转化为主体属性、客体属性以及动作属性的序列标注问题,提出的访问控制属性挖掘神经网络模型AM(attribute mining) -BiLSTM-CRF如图9所示。AM-BiLSTM-CRF网络模型是一个具有CRF的双向LSTM模型,即前文中的属性挖掘模型。首先,将访问控制语句中的单词进行向量化处理。本模型同样使用BERT预训练模型将访问控制语句中的词映射到高维向量空间,得到词向量W=[w1,w2,…,wn]。然后,将Wordembedding层中的词向量W输入到前向LSTM和反向LSTM之间,依据上下文语义环境对特征进行学习,并将前向LSTM和反向LSTM的输出进行拼接得到CRF层的输入。最后,由CRF层学习不同词中属性标签间的依赖关系,生成面向访问控制语句的属性挖掘模型。
构建AM-BiLSTM-CRF网络模型,包括如下步骤:
A、采用OBM属性标记方案对访问控制语句中的词进行属性标注,其中,标记O用于标注与访问控制无关的属性。标记B用于标注属性的起初位置。标记M用于标注属性的非起初位置。访问控制语句中共有主体属性、客体属性、动作属性3类属性需要进行标注,共包括7类标记,如下表1所示。
表1属性标记方案
Figure RE-RE-GDA0002730561770000202
Figure RE-RE-GDA0002730561770000211
对于中文访问控制语句“注册的教授可以访问他的课程信息”的标注结果如下:
/B_subject_attribute:注/M_subject_attribute:册/M_subject_attribute:的/B_subject_attribute:教/M_subject_attribute:授/O:可/O:以/B_action_attribute:访 /M_action_attribute:问/B_object_attribute:他/M_object_attribute:的 /B_object_attribute:课/M_object_attribute:程/M_object_attribute:信 /M_object_attribute:息。
由于英文的表达形式与中文存在一定差异,因此标注情况略有不同,对于英文访问控制语句“A registered professor can access his course information”的标注结果如下:
/O:A/B_subject_attribute:registered/B_subject_attribute:professor/O:can/B_a ction_attribute:access/B_object_attribute:his/B_object_attribute:course/M_object_ attribute:information。
B、建立BiLSTM网络模型
长短期记忆网络LSTM是一种特殊的RNN模型,能够解决传统循环神经网络中存在的上下文长期依赖问题,更适用于处理时序数据,其结构如图10 所示。考虑到访问控制文本中的上下文词语存在相关性,一个词语可能与其前一个和下一个词语都存在相应关联。而LSTM只能利用历史的数据信息,而无法利用数据中未来的数据信息。因此,在这种情况下,使用BiLSTM将两个时序方向相反的LSTM链接到同一个网络输出中。通过这种结构,BiLSTM增加了LSTM中的可计算信息,使得网络模型即可以获取历史信息,也能够获取未来信息。
BiLSTM中包括输入门i、遗忘门f、输出门o和细胞状态c四部分内容,单个LSTM结构单元的更新如下式(7):
Figure RE-RE-GDA0002730561770000221
其中,i(t)、f(t)、o(t)、c(t)分别表示在t时刻的输入门、遗忘门、输出门和细胞状态的值,x(t)表示t时刻的输入词向量,h(t)表示t时刻的隐藏层向量,σ表示sigmoid激活函数,W和b分别是权重矩阵和偏置向量,Wi为x(t)的权重, Ui为h(t-1)的权重,Bi表示偏置,Wf表示x(t)的权重,Uf表示h(t-1)的权重,Bf表示偏置,Wo表示x(t)的权重,Uo表示h(t-1)的权重,Bo表示偏置,Wg表示x(t)的权重, Ug表示h(t-1)的权重,Bg表示偏置,C(t-1)表示t-1时刻细胞状态的值。
hforward和hbackward分别是BiLSTM中前向LSTM和反向LSTM中结构单元输出的隐藏层向量,g(t)表示的是什么表示t时刻细胞状态的增量信息,将hforward和hbackward链接得到BiLSTM在t时刻的输出,如下式(8)所示:
Ct=concat(hforward,hbackward) (8)
其中,hforward和hbackward分别对应访问控制语句2个方向上的上下文信息。
C、构建CRF网络,用于实现对属性标签之间依赖关系的学习
在属性挖掘过程中,当前词的属性标签通常与其周围词的属性标签是相关联的,例如属性标签E必须出现在属性标签B之后。CRF网络通过计算相邻标签间的转移矩阵来得到一个属性标签在一个访问控制语句序列中转移到另一个属性标签的条件概率。从而,通过对转移矩阵的训练能够实现对属性标签之间依赖关系的学习。通过引入CRF层,将使属性挖掘的计算结果更准确。对于给定的访问控制语句,即前文中的目标语句形成的集合,如式(9):
ACP=(a1,a2,…,an) (9)
其中,ACP表示访问控制语句集,ai(1<i<n)表示访问控制语句。
ai(1<i<n)对应的属性标签预测结果序列ti(1<i<n),如式(10):
A_tag=(t1,t2,…,tn) (10)
属性标签预测结果的评估分数如式(11):
Figure RE-RE-GDA0002730561770000231
其中,i表示第i条访问控制语句,T表示属性预测标签的转移概率矩阵, Tn,m表示属性标签n与属性标签m间的转移概率得分,T的维度是(k+2)×(k+2), k是不同类别属性标签的数目。t0=START与tn+1=END分别对应访问控制语句的起始标签与终止标签。C为BiLSTM网络的输出矩阵,其维度是n×k。
Figure RE-RE-GDA0002730561770000236
表示第i个词被预测为第ti个属性标签的得分。对ACP语句的属性标签进行预测时,使用柔性最大值计算方法(softmax)对结果进行归一化处理,计算方法如下式(12):
Figure RE-RE-GDA0002730561770000232
其中,score(ACP,A_tag)是属性标签A_tag预测结果的评估分数,
Figure RE-RE-GDA0002730561770000238
属性标签
Figure RE-RE-GDA0002730561770000237
预测结果的评估分数,TAGS表示ACP语句中所有可能的属性标签序列。在属性挖掘的训练过程中,需要最大化预测结果为正确的属性标签序列的似然概率,计算方法如下式(13):
Figure RE-RE-GDA0002730561770000233
其中,score(ACP,A_tag)与
Figure RE-RE-GDA0002730561770000234
相减计算得到预测结果为正确的属性标签序列的似然概率。
最后,在模型输出端将预测得分最高的属性标签序列作为最终的属性标签序列输出,如下式(14):
Figure RE-RE-GDA0002730561770000235
为了验证上述方法的可靠性,本实施例中在表2所列出的公开数据集、条件下进行实验,该数据集共包括iTrust、IBM App、Cyberchair、Collected ACP 四个类别的数据集,共2477条文本数据。其中,iTrust是一个以病人为中心的应用程序,用于维护电子健康记录。IBM App是一款课程管理系统。Cyberchair是一个会议管理系统。Collected ACP是由收集的访问控制策略语句组合而成的数据集。由于单一数据集的数据量有限,本实施例将四类数据集的数据汇总进行实验,并且按70%、15%、15%的比例将数据集划分为训练集、验证集和测试集。同时,为了尽可能地降低数据随机性对实验结果的带来的影响,本实施例在已标注的数据集上采用五折交叉验证进行多次实验。实验的软硬件环境如下:操作系统为Win10 64位,CPU为Intel(R)Core(TM) i7-4710MQ@2.5GHz,GPU为GeForce GTX 850M,内存大小为16GB, Tensorflow版本为1.14.0,Keras版本为2.1.3,python版本为3.6。
表2数据集描述
Dataset Domain ACP sentences Non-ACP sentences Total
iTrust Healthcare 967 664 1631
IBM App Education 169 232 401
Cyberchair Conference 140 163 303
Collected ACP Multiple 125 17 142
Total 1401 1076 2477
其中,表2中第2、3、4、5列分别代表领域、访问控制语句的数目、非访问控制语句的数目,总数。
本申请中使用准确率(Accuracy)、精确率(Precision)、召回率(Recall) 和F1值(F1-score)作为实验性能的评估指标。Accuracy表示文本识别结果是正确的样本数占样本总数的比例。Precision表示被正确识别为访问控制策略语句的样本数占被识别为访问控制策略语句的样本数的比例。Recall表示被正确识别为访问控制策略语句的样本数占真实情况为访问控制策略语句的样本数的比例,是覆盖范围的度量。F1-score是Precision和Recall的加权调和平均值。为了计算这些评估指标,分类器的预测结果被分为四类:TP(True positives)是被正确识别为访问控制策略语句的样本数。TN(True negatives) 是被正确识别为非访问控制策略语句的样本数。False positives(FP)是被错误识别为访问控制策略语句的样本数。False negatives(FN)是被错误识别为非访问控制策略语句的样本数。评价指标对应的计算方法如下式(15):
Figure RE-RE-GDA0002730561770000251
acc表示准确率,pre表示精确率、re表示召回率,F1是精确率与召回率的加权平均值。
3、实验结果与分析:本可以通过实施两组实验对访问控制语句识别性能与访问控制属性挖掘性能进行评估。
(1)不同神经网络模型识别准确率和Loss值评估。为了比较不同神经网络模型在访问控制语句识别任务的性能,本实施例中可以选取4个常用的神经网络模型作为基准对比模型。本实施例中的基准对比模型描述如下:
a)CNN_LSTM模型:先添加一个CNN网络,再添加一个LSTM网络。
b)BiLSTM模型:单一BiLSTM网络。
c)CNN_GRU模型:先添加一个CNN网络,再添加一个GRU网络。
d)BiGRU模型:单一BiGRU网络。
所有网络模型均采用BERT预训练语言模型作为词向量的输入。实验结果如图11和图12中的(a)和(b)所示,与其它网络模型相比,在验证集中本文所提出的方法BiGRU-CNN-Attention虽然存在一定程度的波动,但总体的性能是最优的,能够达到最高95.97%的准确率和最低0.1772的Loss值,基本能够满足真实环境下访问控制策略语句识别的性能要求。
(2)与以上基准ACP识别方法的比较。如表3所示,为与访问控制语句识别方法在精确率、召回率和F1值上进行的对比。由实验结果可知,本实施例中BiGRU-CNN-Attention的模型在三项指标上均为最优。平均F1-score 指标能够达到0.941,比当前的state-of-the-art方法性能提高了4.1%。
表3 ACP句子识别性能对比
Figure RE-RE-GDA0002730561770000261
为了增加对中文访问控制语句的访问控制属性挖掘性能进行评估,本实施例中将表2数据集中的访问控制语句进行翻译,得到了对应的中文数据集。
(1)不同基准神经网络模型性能的对比。如图13和图14中的(a)和 (b)所示,在训练集和验证集的结果中,本实施例中AM-BiLSTM-CRF模型性能最优,在英文数据集和中文数据集中分别能够达到最高95.41%和96.88%的准确率。BiLSTM模型的性能居中,CNN_LSTM模型的性能最差。另外,从表4和表5中实验结果可知,在英文实验数据集中,本实施例的方案在 Subject-Attribute、Action-Attribute、Object-Attribute的性能上均达到最优。在中文实验数据集中,局部性能虽然不都是最优,但是整体的性能是较好的。
这是因为与CNN_LSTM模型相比,BiLSTM能够从正向和反向两个方向上同时对访问控制策略的属性特征进行学习,这能比单方向学习能够更好的利用文本内上下文的约束信息。与BiLSTM模型相比,本实施例中通过引入 CRF模型来提升性能,这是因为访问控制属性信息通常为连续的文本片段,文本内相邻词间具有更强的依赖关系,CRF模型能够通过转移概率的计算更好地捕捉到相邻文本元素标签之间的依赖关系,弥补单一BiLSTM模型所存在的相信标签关联能力不足的问题,从而,进一步的提高系统的性能。
(2)不同标记方案对系统性能的影响。除了OBM标记方案,本实施例中还使用了OB标记方案来对文本属性进行标记,从而对比不同标记方案对系统性能的影响。其中,O标记无关属性,B标记相关属性。由表4和表5可知,本文所采取的OBM标记方案在不同的数据集中各项性能更优。
表4英文数据集下不同标记方案的性能对比
Figure RE-RE-GDA0002730561770000271
表5中文数据集下不同标记方案的性能对比
Figure RE-RE-GDA0002730561770000272
表6英文数据集属性挖掘性能对比
Figure RE-RE-GDA0002730561770000273
表7中文数据集属性挖掘性能对比
Figure RE-RE-GDA0002730561770000281
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种访问控制策略的获取方法,其特征在于,所述方法包括:
获得项目文档对应的语句集合,所述语句集合中包含多个语句;
利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句;所述语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;
获得所述目标语句中的访问控制属性,所述目标语句中的访问控制属性包含主体属性、客体属性和操作属性,所述目标语句中的主体属性、客体属性和操作属性组成所述目标语句对应的访问控制策略。
2.根据权利要求1所述的方法,其特征在于,所述语句提取模型包含输入层、隐含层和输出层,所述隐含层包含基于门限循环神经网络构建的第一层、基于卷积神经网络构建的第二层、基于注意力机制所构建的第三层。
3.根据权利要求2所述的方法,利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句,至少包括:
利用所述输入层,获得所述语句集合中的语句的词向量;
利用所述第一层,对所述语句的词向量进行特征提取,以得到所述语句的特征向量;
利用所述第二层,对所述语句的特征向量进行卷积处理;
利用所述第三层,对所述语句的特征向量利用注意力机制进行调整;
利用所述输出层,对所述语句的特征向量进行处理,以得到所述语句的识别结果,所述识别结果表征所述语句是否包含访问控制信息,其中,所述识别结果表征包含访问控制信息的语句为目标语句。
4.根据权利要求1或2所述的方法,其特征在于,所述获得所述目标语句中的访问控制属性,包括:
利用基于深度学习的属性挖掘模型,提取所述目标语句中的访问控制属性;其中,所述属性挖掘模型利用多个具有属性标签的第二语句样本进行训练得到,所述属性标签包括主体标签、客体标签和操作标签。
5.根据权利要求4所述的方法,其特征在于,所述属性挖掘模型至少包括基于长短期记忆神经网络构建的第一子模型,所述第一子模型利用所述第二语句样本进行训练得到;
其中,利用基于深度学习的属性挖掘模型,提取所述目标语句中的访问控制属性,包括:
利用所述第一子模型,对所述目标语句中的访问控制属性进行识别,以得到所述目标语句中的主体属性、客体属性和操作属性。
6.根据权利要求4所述的方法,其特征在于,所述属性挖掘模型至少包括基于长短期记忆神经网络构建的第一子模型和基于条件随机场构建的第二子模型,所述第一子模型利用所述第二语句样本进行训练得到,所述第二子模型利用所述第二语句样本具有的属性依赖关系标签进行训练得到;
其中,利用基于深度学习的属性挖掘模型,提取所述目标语句中的访问控制属性,包括:
利用所述第一子模型,对所述目标语句中的访问控制属性进行识别,以得到所述目标语句中的主体属性、客体属性和操作属性;
利用所述第二子模型,对所述目标语句中的主体属性、客体属性和操作属性进行调整。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
保存所述访问控制策略。
8.一种访问控制策略的获取装置,其特征在于,所述装置包括:
语句获得单元,用于获得项目文档对应的语句集合,所述语句集合中包含多个语句;
语句提取单元,用于利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句;所述语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;
属性获得单元,用于获得所述目标语句中的访问控制属性,所述目标语句中的访问控制属性包含主体属性、客体属性和操作属性,所述目标语句中的主体属性、客体属性和操作属性组成所述目标语句对应的访问控制策略。
9.根据权利要求8所述的装置,其特征在于,所述语句提取模型包含输入层、隐含层和输出层,所述隐含层包含基于门限循环神经网络构建的第一层、基于卷积神经网络构建的第二层、基于注意力机制所构建的第三层;
其中,所述语句提取单元具体用于:利用所述输入层,获得所述语句集合中的语句的词向量;利用所述第一层,对所述语句的词向量进行特征提取,以得到所述语句的特征向量;利用所述第二层,对所述语句的特征向量进行卷积处理,得到所述语句的向量卷积结果;利用所述第三层,对所述语句的特征向量利用注意力机制进行调整;利用所述输出层,对所述语句的特征向量进行处理,以得到所述语句的识别结果,所述识别结果表征所述语句是否包含访问控制信息,其中,所述识别结果表征包含访问控制信息的语句为目标语句。
10.一种电子设备,其特征在于,包括:
存储器,用于存储应用程序和所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现:获得项目文档对应的语句集合,所述语句集合中包含多个语句;利用基于深度学习的语句提取模型,获得所述语句集合中包含访问控制信息的目标语句;所述语句提取模型利用多个具有访问控制标签的第一语句样本进行训练得到;获得所述目标语句中的访问控制属性,所述目标语句中的访问控制属性包含主体属性、客体属性和操作属性,所述目标语句中的主体属性、客体属性和操作属性组成所述目标语句对应的访问控制策略。
CN202010824419.4A 2020-08-17 2020-08-17 一种访问控制策略的获取方法、装置及电子设备 Active CN111985207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824419.4A CN111985207B (zh) 2020-08-17 2020-08-17 一种访问控制策略的获取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824419.4A CN111985207B (zh) 2020-08-17 2020-08-17 一种访问控制策略的获取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111985207A true CN111985207A (zh) 2020-11-24
CN111985207B CN111985207B (zh) 2023-06-06

Family

ID=73435493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824419.4A Active CN111985207B (zh) 2020-08-17 2020-08-17 一种访问控制策略的获取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111985207B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076454A (zh) * 2021-04-25 2021-07-06 上海德衡数据科技有限公司 基于人工智能的元数分析方法及服务器
CN113546426A (zh) * 2021-07-21 2021-10-26 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN115994184A (zh) * 2023-03-23 2023-04-21 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
US20200004822A1 (en) * 2018-06-30 2020-01-02 Wipro Limited Method and device for extracting attributes associated with centre of interest from natural language sentences
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法
CN111506722A (zh) * 2020-06-16 2020-08-07 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
US20200004822A1 (en) * 2018-06-30 2020-01-02 Wipro Limited Method and device for extracting attributes associated with centre of interest from natural language sentences
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法
CN111506722A (zh) * 2020-06-16 2020-08-07 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MANAR ALOHALY等: "A Deep Learning Approach for Extracting Attributes of ABAC Policies", 《SACMAT \'18: PROCEEDINGS OF THE 23ND ACM ON SYMPOSIUM ON ACCESS CONTROL MODELS AND TECHNOLOGIES》 *
MASOUD NAROUEI等: "Towards a Top-down Policy Engineering Framework for Attribute-based Access Control", 《SACMAT \'17 ABSTRACTS: PROCEEDINGS OF THE 22ND ACM ON SYMPOSIUM ON ACCESS CONTROL MODELS AND TECHNOLOGIES》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076454A (zh) * 2021-04-25 2021-07-06 上海德衡数据科技有限公司 基于人工智能的元数分析方法及服务器
CN113076454B (zh) * 2021-04-25 2022-10-14 上海德衡数据科技有限公司 基于人工智能的元数分析方法及服务器
CN113546426A (zh) * 2021-07-21 2021-10-26 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN113546426B (zh) * 2021-07-21 2023-08-22 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN115994184A (zh) * 2023-03-23 2023-04-21 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统
CN115994184B (zh) * 2023-03-23 2023-05-16 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统

Also Published As

Publication number Publication date
CN111985207B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN110276068B (zh) 法律案情分析方法及装置
CN111985207B (zh) 一种访问控制策略的获取方法、装置及电子设备
CN110569356B (zh) 基于智能面试交互系统的面试方法、装置和计算机设备
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
Zhao et al. The study on the text classification for financial news based on partial information
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113887580B (zh) 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置
Chan et al. Reading China: predicting policy change with machine learning
Markou et al. Ex Machina Lex: Exploring the Limits of Legal Computability
CN112163099A (zh) 基于知识图谱的文本识别方法、装置、存储介质和服务器
Li et al. Multi-modal gated recurrent units for image description
Nowotny Two challenges of correct validation in pattern recognition
Sharma et al. Improving visual question answering by combining scene-text information
Hao et al. A novel method using LSTM-RNN to generate smart contracts code templates for improved usability
CN117349437A (zh) 基于智能ai的政府信息管理系统及其方法
CN116318845B (zh) 一种正负样本比例不平衡条件下的dga域名检测方法
Wang et al. Interpret neural networks by extracting critical subnetworks
Anish et al. Implementation-centric classification of Business Rules from documents
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
Bahrami et al. Bert-sort: A zero-shot mlm semantic encoder on ordinal features for automl
Kwon et al. Detecting textual adversarial examples through text modification on text classification systems
CN113312920A (zh) 基于图对比学习的验证方法、系统、设备和存储介质
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant