CN116069847A - 基于人工智能的数据访问管控方法及相关设备 - Google Patents
基于人工智能的数据访问管控方法及相关设备 Download PDFInfo
- Publication number
- CN116069847A CN116069847A CN202310140555.5A CN202310140555A CN116069847A CN 116069847 A CN116069847 A CN 116069847A CN 202310140555 A CN202310140555 A CN 202310140555A CN 116069847 A CN116069847 A CN 116069847A
- Authority
- CN
- China
- Prior art keywords
- data
- server
- category
- target database
- port information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000013523 data management Methods 0.000 claims abstract description 12
- 238000007726 management method Methods 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000005538 encapsulation Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于人工智能的数据访问管控方法、装置、电子设备及存储介质,基于人工智能的数据访问管控方法包括:查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别;依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;获取所述目标数据库的类别,依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。该方法可以实现自动化的数据访问管控,从而能够提升数据访问管控的效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的数据访问管控方法、装置、电子设备及存储介质。
背景技术
随着大数据技术的发展,越来越多的行业倾向于利用大数据技术提升产业质量,对于大量数据的传输、计算、访问等需求也越来越多。与此同时,数据安全问题受到的关注也与日俱增。
目前,通常采取组织内部逐层审批的方式管控数据访问,而这种方式通常会造成数据访问的便利性与数据安全管控的精准度之间的冲突,且人工审批会导致对于数据访问的管控效率较低。
发明内容
鉴于以上内容,有必要提供一种基于人工智能的数据访问管控方法及相关设备,以解决如何提高数据访问管控的效率这一技术问题,其中,相关设备包括基于人工智能的数据访问管控装置、电子设备及存储介质。
本申请实施例提供一种基于人工智能的数据访问管控方法,所述方法包括:
查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端;
依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;
解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;
根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
在一些实施例中,所述依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型,包括:
依据所述服务器的端口信息构建所述服务器的特征数据;
依据所述服务器的类别构建所述服务器的标签数据;
将所述特征数据与所述标签数据一一对应作为训练数据集;
构建初始服务器分类模型,并将所述训练数据集中的特征数据输入到所述初始分类模型中,获得预测分类数据,将所述预测分类数据与所述标签数据输入预设的损失函数以计算所述初始服务器分类模型的损失值;
利用梯度下降法更新所述初始服务器分类模型,响应于所述初始服务器分类模型的损失值停止变化,则停止更新并获得服务器分类模型。
在一些实施例中,所述解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据,包括:
查询所述预设集群中的通信协议;
依据所述通信协议拆分所述数据访问请求,获得请求头和请求报文;
依据所述通信协议的数据封装规则从所述请求头中提取源端口信息和目标数据库的信息,所述源端口信息至少包括源端口IP,所述目标数据库的信息至少包括目标数据库的存储地址;
依据所述源端口IP构建待识别特征数据。
在一些实施例中,响应于所述数据访问请求,所述方法还包括:
查询所述预设集群中每个类别为云端的服务器中的用户数量,并计算所述用户数量的均值;
若所述用户数量的均值大于预设的扩容阈值,则创建新的云端服务器以进行集群扩容;
若所述用户数量的均值不大于预设的扩容阈值,则随机删除至少一个类别为云端的服务器以进行集群缩容。
在一些实施例中,所述获取所述目标数据库的类别,包括:
依据所述目标数据库的存储地址查询所述目标数据库中的数据源,所述数据源用于表征所述目标数据库中数据的来源,所述目标数据库包括至少一个数据来源;
依次对比所述数据源与预设的敏感源名单,若至少一个所述数据源在所述预设的敏感源名单中,则将所述目标数据库的类别标记为管控;
若所有所述数据源均不在所述预设的敏感源名单中,则将所述目标数据库的类别标记为非管控。
在一些实施例中,所述依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策,包括:
将所述待识别特征数据输入所述服务器分类模型,获得所述待识别特征数据的类别,所述类别包括本地和云端;
若所述待识别特征数据的类别为云端,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为非管控数据库,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为管控数据库,则拒绝所述数据访问请求。
在一些实施例中,响应于放行所述数据访问请求,所述方法还包括:
依据预设的数据提取比例从所述目标数据库中随机抽取样例数据;
将所述样例数据、所述源端口信息和所述目标数据库的信息作为数据导出请求,并将所述数据导出请求发送至预设的审批方以进行审批。
本申请实施例还提供一种基于人工智能的数据访问管控装置,所述装置包括:
分类单元,用于查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端;
模型训练单元,用于依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;
特征构建单元,用于解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;
对比决策单元,用于根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
本申请实施例还提供一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述基于人工智能的数据访问管控方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述基于人工智能的数据访问管控方法。
上述基于人工智能的数据访问管控方法依据集群中服务器的端口信息和类别构建训练数据集,并利用训练数据集训练服务器分类模型,进而通过服务器分类模型对访问请求中的源端口进行分类,并基于数据库中的数据源的敏感程度将数据库分类为管控数据库与非管控数据库,最终对比源端口的类别与访问请求中目标数据库的类别制定数据管控决策,能够依据访问请求中的数据自动化地进行数据访问管控,从而能够提升数据访问管控的效率。
附图说明
图1是本申请所涉及的一种基于人工智能的数据访问管控方法的较佳实施例的流程图。
图2是本申请所涉及的基于人工智能的数据访问管控装置的较佳实施例的功能模块图。
图3是本申请所涉及的基于人工智能的数据访问管控方法的较佳实施例的电子设备的结构示意图。
图4是本申请实施例提供的IP配置文件的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请,所述描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请实施例提供一种基于人工智能的数据访问管控方法,可应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
如图1所示,是本申请基于人工智能的数据访问管控方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S10,查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端。
该可选的实施例中,所述预设集群指由多个数据库组合提供服务的集群,所述集群可以是Hadoop集群、Elasticsearch集群等现有的服务器集群,本申请对此不做限定,所述集群的功能是存储并管理数据。所述集群包括多个数据库和多个服务器,每个所述数据库用于存储业务数据,所述业务数据可以是金融数据、医疗数据、天气数据、地理数据等,本申请对此不做限定。
该可选的实施例中,所述数据库包括至少一个数据来源,所述数据来源包括银行、证券交易系统、医疗咨询系统、辅助医疗系统、天气预报系统、地图系统等,本申请对此不做限定。
该可选的实施例中,可依据预设的查询工具查询所述预设集群中每个所述服务器的端口信息,所述端口信息至少包括所述服务器的IP地址。所述预设的查询工具可以是由Java语言、Python语言、C语言等现有的编程语言编写的具备数据查询功能的程序,本申请对此不做限定。
该可选的实施例中,可从预设的IP配置文件中查询每个所述服务器对应的IP地址的类别,并将所述IP地址的类别作为所述服务器对应的类别,所述类别至少包括本地和云端,如图4所示为所述预设的IP配置文件的示意图。
如此,通过服务器的端口信息对预设集群中的服务器进行分类,获得每个服务器的类别,能够为后续训练服务器分类模型提供数据支撑,从而能够提高后续数据访问管控的效率。
S11,依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型。
由于集群中的服务器数量众多,在数据访问管控的过程中一一对比判断可能消耗时间,因此可首先利用服务器的端口信息和类别训练服务器分类模型,以提升数据管控过程中判断服务器类别的效率。
在一个可选的实施例中,所述依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型,包括:
依据所述服务器的端口信息构建所述服务器的特征数据;
依据所述服务器的类别构建所述服务器的标签数据;
将所述特征数据与所述标签数据一一对应作为训练数据集;
构建初始服务器分类模型,并将所述训练数据集中的特征数据输入到所述初始分类模型中,获得预测分类数据,将所述预测分类数据与所述标签数据输入预设的损失函数以计算所述初始服务器分类模型的损失值;
利用梯度下降法更新所述初始服务器分类模型,响应于所述初始服务器模型的损失值停止变化,则停止更新并获得服务器分类模型。
该可选的实施例中,所述服务器的端口信息至少包括所述服务器的IP地址,所述IP地址包含四位数字,示例性的,所述服务器的IP地址的形式可以是192.168.0.123、10.1.1.8等。可将所述IP地址中的四位数字依据其在IP地址中的顺序组合为所述服务器的特征数据,示例性的,当所述服务器的IP地址为192.168.0.123时,则该服务器的特征数据为[192,168,0,123];当所述IP地址为10.1.1.8时,所述服务器的特征数据为[10,1,1,8]。
该可选的实施例中,可依据所述服务器的类别构建所述服务器的标签数据,所述标签数据的形式可以是概率列表,示例性的,当所述服务器的类别为本地,则该服务器对应的标签数据为[1,0],该概率列表用于表征所述服务器属于本地服务器的概率为100%,且属于云端服务器的概率为0;当所述服务器的类别为云端,则该服务器对应的标签数据为[0,1],该概率列表用于表征所述服务器属于本地服务器的概率为0,且属于云端服务器的概率为100%。
该可选的实施例中,可将属于同一个服务器的所述特征数据与所述标签数据一一对应以构建训练数据,并将所有服务器对应的训练数据作为训练数据集。
示例性的,当某一个服务器的所述特征数据为[192,168,0,123]且该服务器对应的标签数据为[1,0],则该服务器对应的训练数据为{[192,168,0,123],[1,0]}。
该可选的实施例中,所述初始服务器分类模型可以是决策树模型、逻辑回归模型、全连接神经网络模型等现有的分类模型,本申请对此不做限定。所述初始服务器分类模型的输入是所述训练数据集中的特征数据,输出为所述特征数据对应的预测概率列表,所述预测概率列表用于表征所述特征数据属于某一个类别的概率,示例性的,当所述预测概率列表为[0.2,0.8]时,则表明所述特征数据对应的服务器属于本地服务器的概率为0.2,属于云端服务器的概率为0.8。
该可选的实施例中,可将所述训练数据集中的特征数据依次输入所述初始服务器分类模型以获得所述特征数据对应的预测概率列表,并将所述预测概率列表与所述标签数据输入预设的损失函数以计算所述初始服务器分类模型的损失值,所述损失值用于表征所述预测概率列表与所述标签数据的相似程度,所述损失值越小则表明所述预测概率列表与所述标签数据越相似,则所述初始服务器分类模型的性能越好;所述预设的损失函数取决于所述初始服务器分类模型的类别,示例性的,当所述初始服务器分类模型为决策树模型时,所述预设的损失函数可以是交叉熵函数;当所述初始服务器分类模型为逻辑回归模型时,所述预设的损失函数可以是均方根误差函数;当所述初始服务器分类模型为全连接网络模型时,所述预设的损失函数可以是欧式距离函数。
该可选的实施例中,可依据梯度下降法迭代更新所述初始服务器分类模型,直到所述初始服务器分类模型的损失值不再变化,则表明所述初始服务器分类模型输出的预测概率列表与所述标签数据之间的相似程度较高,则停止更新并获得服务器分类模型,所述服务器分类模型用于接收所述服务器的特征数据,并输出所述特征数据对应的预测概率列表。
如此,通过大量的服务器的端口信息构建训练数据集以训练服务器分类模型,能够提升服务器分类模型的精准度,且后续判断服务器类型时无需在集群中进行查询,根据服务器的端口信息即可获得待识别的服务器的类别,提升了服务器的分类效率,能够降低集群的负载。
S12,解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据。
在一个可选的实施例中,所述解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据,包括:
查询所述预设集群中的通信协议;
依据所述通信协议拆分所述数据访问请求,获得请求头和请求报文;
依据所述通信协议的数据封装规则从所述请求头中提取源端口信息和目标数据库的信息,所述源端口信息至少包括源端口IP,所述目标数据库的信息至少包括目标数据库的存储地址;
依据所述源端口IP构建待识别特征数据。
该可选的实施例中,所述数据访问请求指用户通过云端服务器或本地服务器向所述预设集群中的数据库发送的数据查询请求。所述数据访问请求包括请求头和请求报文,所述请求头中的信息至少包括:发送所述预设访问请求的服务器的源端口IP、源端口名称,以及所述访问请求要查询的数据所在的目标数据库的信息,所述目标数据库的信息至少包括目标数据库名称和目标数据库的存储地址;所述请求报文用于记载所述访问请求需要访问的数据所在的数据表等相关信息。
其中,所述源端口IP用于表征所述访问请求的来源,即所述预设集群中的某一个服务器,所述源端口的名称用于表征该服务器的名称,所述目标数据库的名称用于表征所述访问请求想要查询的数据所在的数据库。
该可选的实施例中,可查询所述预设集群的默认通信协议,并依据所述通信协议的种类分解所述数据访问请求,以获得请求头与请求报文,示例性的,当所述默认通信协议为TCP协议时,则所述访问请求的首个字节至第20个字节为所述请求头,且第21个字节至末位字节为请求报文;当所述默认通信协议为UDP协议时,则所述访问请求的首个字节至第8个字节位所述请求头,且第9个字节至末位字节为请求报文。
该可选的实施例中,可依据所述通信协议的数据封装规则从所述请求头中提取源端口信息和目标数据库的信息,示例性的,当所述通信协议为TCP协议时,所述请求头中首位字节存储的信息与第二位字节存储的信息分别为所述源端口IP和所述源端口名称,所述请求头中第三位字节和第四位字节存储的信息为所述目标数据库的名称和存储地址;所述UDP协议对于源端口信息和目标数据库的信息的封装规则与所述TCP协议相同,此处不再赘述。
该可选的实施例中,所述源端口IP包含四位数字,可将所述源端口IP中的四位数字依据其在所述源端口IP中的顺序组合为待识别特征数据,示例性的,当所述源端口IP为192.168.1.121时,所述待识别特征数据可以是[192,168,1,121]。
为了在所述预设集群中存在数据流转时对所述预设集群的负载进行优化,还可以在接收到所述数据访问请求后对所述预设集群进行扩容或缩容。
在一个可选的实施例中,响应于所述数据访问请求,所述方法还包括:
查询所述预设集群中每个类别为云端的服务器中的用户数量,并计算所述用户数量的均值;
若所述用户数量的均值大于预设的扩容阈值,则创建新的云端服务器以进行集群扩容;
若所述用户数量的均值不大于预设的扩容阈值,则随机删除至少一个类别为云端的服务器以进行集群缩容。
该可选的实施例中,可依据预设的统计脚本实时统计所述预设集群中每个标记为云端的服务器中的用户数量,所述预设的统计脚本可以是由Java语言、SQL语言、Python语言等现有的编程语言编写的具备用户数量统计功能的程序。
该可选的实施例中,可计算所有类别为云端的服务器中用户数量的均值,若所述用户数量的均值大于预设的扩容阈值,则表明所述类别为云端的服务器的负载过大,则可创建新的云端服务器以进行云端服务器的扩容;若所述用户数量的均值不大于预设的扩容阈值,则表明所述类别为云端的服务器的负载较小,可能造成集群资源浪费,因此可随机删除至少一个类别为的云端服务器,以进行云端服务器的缩容。
如此,对于请求访问进行解析获得源端口信息对应的待识别特征数据,便于后续根据利用待识别特征数据对源端口进行分类,能够便捷判别访问请求,从而能够提升数据访问的安全性。
S13,根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
在一个可选的实施例中,所述根据所述目标数据库的信息获取所述目标数据库的类别,包括:
依据所述目标数据库的存储地址查询所述目标数据库中的数据源,所述数据源用于表征所述目标数据库中数据的来源,所述目标数据库包括至少一个数据来源;
依次对比所述数据源与预设的敏感源名单,若至少一个所述数据源在所述预设的敏感源名单中,则将所述目标数据库的类别标记为管控;
若所有所述数据源均不在所述预设的敏感源名单中,则将所述目标数据库的类别标记为非管控。
该可选的实施例中,可将所述目标数据库的存储地址输入预设的脚本以查询所述目标数据库的数据来源,所述预设的脚本可以是Python脚本、Java脚本、SQL脚本等现有的编程语言编写的脚本,本申请对此不做限定。
该可选的实施例中,所述预设的敏感源名单用于记载敏感业务数据的来源,示例性的,所述敏感业务数据的来源可以是银行、证券交易系统、医疗咨询系统等包含用户隐私数据或金融数据的数据来源。而诸如天气预报系统、地图系统等公开数据来源则为非敏感数据源。
在一个可选的实施例中,所述依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策,包括:
将所述待识别特征数据输入所述服务器分类模型,获得所述待识别特征数据的类别,所述类别包括本地和云端;
若所述待识别特征数据的类别为云端,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为非管控数据库,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为管控数据库,则拒绝所述数据访问请求。
该可选的实施例中,可将所述待识别特征数据输入所述服务器分类模型以获得所述待识别特征数据对应的预测概率列表,将所述预测概率列表中的最大值对应的类别作为所述待识别特征数据对应的类别,所述类别包括本地和云端。
示例性的,当所述待识别特征数据为[192,108,1,236],且该待识别特征数据对应的预测概率列表为[0.1,0.9]时,则该待识别特征数据对应的类别为云端;当所述待识别特征数据为[192,108,0,233],且该待识别特征数据对应的预测概率列表为[0.9,0.1]时,则该待识别特征数据对应的类别为本地。
该可选的实施例中,若所述待识别特征数据的类别为云端,则表明所述待识别特征数据对应的访问请求来自于云端服务器,则可对所述待识别特征数据对应的访问请求进行放行,并依据所述访问请求中的请求报文从所述目标服务器中查询待查询的数据。
该可选的实施例中,若所述待识别特征数据的类别为本地,则表明所述待识别特征对应的访问请求来自于本地服务器。进而可判断所述请求报文中记载的目标数据库的类别是否为管控,若所述目标数据库为非管控数据库,则可放行所述数据访问请求,并依据所述请求报文中记载的信息查询数据;若该数据库为管控数据库,则拒绝该访问请求,并可发送非法访问告警。
在一个可选的实施例中,响应于放行所述数据访问请求,所述方法还包括:
依据预设的数据提取比例从所述目标数据库中随机抽取样例数据;
将所述样例数据、所述源端口信息和所述目标数据库的信息作为数据导出请求,并将所述数据导出请求发送至预设的审批方以进行审批。
该可选的实施例中,当所述数据访问请求被放行时,则可依据预设的数据提取比例从所述目标数据库中随机抽取样例数据,所述预设的数据提取比例的取值范围可以是(0,0.5),所述样例数据用于向预设的审批方提供示例信息以便于所述预设的审批方对数据内容做出评估,以便于审批数据导出请求。
所述预设的审批方可以是企业内部的数据安全管理机构、第三方数据安全管理机构等具备数据管控权限的个体或组织,本申请对此不做限定。
如此,通过对比源端口信息的类别与目标数据库的类别以制定访问请求的放行决策,无需经过人工审批即可精准管控数据访问请求,从而能够提升数据访问管控的效率。
上述基于人工智能的数据访问管控方法依据集群中服务器的端口信息和类别构建训练数据集,并利用训练数据集训练服务器分类模型,进而通过服务器分类模型对访问请求中的源端口进行分类,并基于数据库中的数据源的敏感程度将数据库分类为管控数据库与非管控数据库,最终对比源端口的类别与访问请求中目标数据库的类别制定数据管控决策,能够依据访问请求中的数据自动化地进行数据访问管控,从而能够提升数据访问管控的效率。
本申请实施例所提供的数据访问管控方法可应用于任意数据安全管控场景中,所述预设集群中的数据库可用于存储企业内部的业务数据,例如企业的账目流水数据、员工个人信息、企业组织架构等。工作人员登录云桌面或企业内部的本地桌面后通过向集群递交数据访问请求以访问集群中的业务数据。当集群解析数据访问请求中的IP地址后,利用服务器分类模型判别工作人员递交数据访问请求的端口为云桌面,则表明工作人员的登录渠道符合企业的数据安全准则,则放行数据访问请求;若集群利用服务器分类模型判别工作人员递交数据访问请求的端口为本地端口,则表明工作人员的登录渠道可能具备安全隐患,则需要判别工作人员要查看的目标数据库是否受到管控,若该目标数据库中存储了诸如企业账目、员工个人信息等敏感数据,则该目标数据库受到管控,拒绝数据访问请求,若该目标数据库中未存储敏感数据,则可放行数据访问请求。本申请实施例可通过员工的访问渠道便捷地管理数据访问请求,降低了对数据访问请求的层层审批所导致的业务效率低下,同时能够保障企业敏感数据的安全性。
如图2所示,是本申请实施例提供的基于人工智能的数据访问管控装置的较佳实施例的功能模块图。基于人工智能的数据访问管控装置11包括分类单元110、模型训练单元111、特征构建单元112、对比决策单元113。本申请所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
所述分类单元110,用于查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端;
所述模型训练单元111,用于依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;
所述特征构建单元112,用于解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;
所述对比决策单元113,用于根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
在一个可选的实施例中,所述模型训练单元111,还用于:
依据所述服务器的端口信息构建所述服务器的特征数据;
依据所述服务器的类别构建所述服务器的标签数据;
将所述特征数据与所述标签数据一一对应作为训练数据集;
构建初始服务器分类模型,并将所述训练数据集中的特征数据输入到所述初始分类模型中,获得预测分类数据,将所述预测分类数据与所述标签数据输入预设的损失函数以计算所述初始服务器分类模型的损失值;
利用梯度下降法更新所述初始服务器分类模型,响应于所述初始服务器分类模型的损失值停止变化,则停止更新并获得服务器分类模型。
在一个可选的实施例中,所述特征构建单元112,还用于:
查询所述预设集群中的通信协议;
依据所述通信协议拆分所述数据访问请求,获得请求头和请求报文;
依据所述通信协议的数据封装规则从所述请求头中提取源端口信息和目标数据库的信息,所述源端口信息至少包括源端口IP,所述目标数据库的信息至少包括目标数据库的存储地址;
依据所述源端口IP构建待识别特征数据。
在一个可选的实施例中,响应于所述数据访问请求,所述特征构建单元112,还用于:
查询所述预设集群中每个类别为云端的服务器中的用户数量,并计算所述用户数量的均值;
若所述用户数量的均值大于预设的扩容阈值,则创建新的云端服务器以进行集群扩容;
若所述用户数量的均值不大于预设的扩容阈值,则随机删除至少一个类别为云端的服务器以进行集群缩容。
在一个可选的实施例中,所述对比决策单元113,还用于:
依据所述目标数据库的存储地址查询所述目标数据库中的数据源,所述数据源用于表征所述目标数据库中数据的来源,所述目标数据库包括至少一个数据来源;
依次对比所述数据源与预设的敏感源名单,若至少一个所述数据源在所述预设的敏感源名单中,则将所述目标数据库的类别标记为管控;
若所有所述数据源均不在所述预设的敏感源名单中,则将所述目标数据库的类别标记为非管控。
在一个可选的实施例中,所述对比决策单元113,还用于:
将所述待识别特征数据输入所述服务器分类模型,获得所述待识别特征数据的类别,所述类别包括本地和云端;
若所述待识别特征数据的类别为云端,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为非管控数据库,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为管控数据库,则拒绝所述数据访问请求。
在一个可选的实施例中,响应于放行所述数据访问请求,所述对比决策单元113,还用于:
依据预设的数据提取比例从所述目标数据库中随机抽取样例数据;
将所述样例数据、所述源端口信息和所述目标数据库的信息作为数据导出请求,并将所述数据导出请求发送至预设的审批方以进行审批。
如图3所示,是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令,处理器13用执行储器中存储的计算机可读指令以实现上述任一实施例的基于人工智能的数据访问管控方法。
在一个可选的实施例中,电子设备1还包括总线、存储在存储器12中并可在处理器13上运行的计算机程序,例如基于人工智能的数据访问管控程序。
图3仅示出了具有存储器12和处理器13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,电子设备1中的存储器12存储多个计算机可读指令以实现一种基于人工智能的数据访问管控方法,处理器13可执行多个指令从而实现:
查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端;
依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;
解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;
根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
具体地,处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,电子设备1既可以是总线型结构,也可以是星形结构,电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质可以是非易失性的,也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的数据访问管控程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在存储器12内的程序或者模块(例如执行基于人工智能的数据访问管控程序等),以及调用存储在存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行电子设备1的操作系统以及安装的各类应用程序。处理器13执行所述应用程序以实现上述各个基于人工智能的数据访问管控方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在存储器12中,并由处理器13执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如,所述计算机程序可以被分割成分类单元110、模型训练单元111、特征构建单元112、对比决策单元113。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述基于人工智能的数据访问管控方法的部分。
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存储器及其他存储器等。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现存储器12以及至少一个处理器13等之间的连接通信。
本申请实施例还提供一种计算机可读存储介质(图未示),计算机可读存储介质中存储有计算机可读指令,计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的数据访问管控方法。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的数据访问管控方法,其特征在于,所述方法包括:
查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端;
依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;
解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;
根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
2.如权利要求1所述的基于人工智能的数据访问管控方法,其特征在于,所述依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型,包括:
依据所述服务器的端口信息构建所述服务器的特征数据;
依据所述服务器的类别构建所述服务器的标签数据;
将所述特征数据与所述标签数据一一对应作为训练数据集;
构建初始服务器分类模型,并将所述训练数据集中的特征数据输入到所述初始分类模型中,获得预测分类数据,将所述预测分类数据与所述标签数据输入预设的损失函数以计算所述初始服务器分类模型的损失值;
利用梯度下降法更新所述初始服务器分类模型,响应于所述初始服务器分类模型的损失值停止变化,则停止更新并获得服务器分类模型。
3.如权利要求1所述的基于人工智能的数据访问管控方法,其特征在于,所述解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据,包括:
查询所述预设集群中的通信协议;
依据所述通信协议拆分所述数据访问请求,获得请求头和请求报文;
依据所述通信协议的数据封装规则从所述请求头中提取源端口信息和目标数据库的信息,所述源端口信息至少包括源端口IP,所述目标数据库的信息至少包括目标数据库的存储地址;
依据所述源端口IP构建待识别特征数据。
4.如权利要求3所述的基于人工智能的数据访问管控方法,其特征在于,响应于所述数据访问请求,所述方法还包括:
查询所述预设集群中每个类别为云端的服务器中的用户数量,并计算所述用户数量的均值;
若所述用户数量的均值大于预设的扩容阈值,则创建新的云端服务器以进行集群扩容;
若所述用户数量的均值不大于预设的扩容阈值,则随机删除至少一个类别为云端的服务器以进行集群缩容。
5.如权利要求3所述的基于人工智能的数据访问管控方法,其特征在于,所述获取所述目标数据库的类别,包括:
依据所述目标数据库的存储地址查询所述目标数据库中的数据源,所述数据源用于表征所述目标数据库中数据的来源,所述目标数据库包括至少一个数据来源;
依次对比所述数据源与预设的敏感源名单,若至少一个所述数据源在所述预设的敏感源名单中,则将所述目标数据库的类别标记为管控;
若所有所述数据源均不在所述预设的敏感源名单中,则将所述目标数据库的类别标记为非管控。
6.如权利要求1所述的基于人工智能的数据访问管控方法,其特征在于,所述依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策,包括:
将所述待识别特征数据输入所述服务器分类模型,获得所述待识别特征数据的类别,所述类别包括本地和云端;
若所述待识别特征数据的类别为云端,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为非管控数据库,则放行所述数据访问请求;
若所述待识别特征数据的类别为本地且所述目标数据库为管控数据库,则拒绝所述数据访问请求。
7.如权利要求6所述的基于人工智能的数据访问管控方法,其特征在于,响应于放行所述数据访问请求,所述方法还包括:
依据预设的数据提取比例从所述目标数据库中随机抽取样例数据;
将所述样例数据、所述源端口信息和所述目标数据库的信息作为数据导出请求,并将所述数据导出请求发送至预设的审批方以进行审批。
8.一种基于人工智能的数据访问管控装置,其特征在于,所述装置包括:
分类单元,用于查询预设集群中每个服务器的端口信息,根据所述端口信息标记所述服务器的类别,所述服务器的类别至少包括本地和云端;
模型训练单元,用于依据所述服务器的端口信息和类别构建训练数据集,并利用所述训练数据集训练服务器分类模型;
特征构建单元,用于解析数据访问请求获得源端口信息和目标数据库的信息,依据所述源端口信息构建待识别特征数据;
对比决策单元,用于根据所述目标数据库的信息获取所述目标数据库的类别,所述目标数据库的类别包括管控与非管控,并依据所述服务器分类模型判别所述待识别特征数据的类别,对比所述待识别特征数据的类别与所述目标数据库的类别以制定数据管控决策。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的数据访问管控方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的基于人工智能的数据访问管控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310140555.5A CN116069847A (zh) | 2023-02-15 | 2023-02-15 | 基于人工智能的数据访问管控方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310140555.5A CN116069847A (zh) | 2023-02-15 | 2023-02-15 | 基于人工智能的数据访问管控方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116069847A true CN116069847A (zh) | 2023-05-05 |
Family
ID=86181904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310140555.5A Pending CN116069847A (zh) | 2023-02-15 | 2023-02-15 | 基于人工智能的数据访问管控方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116069847A (zh) |
-
2023
- 2023-02-15 CN CN202310140555.5A patent/CN116069847A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112564988B (zh) | 告警处理方法、装置及电子设备 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
WO2022048210A1 (zh) | 命名实体识别方法、装置、电子设备及可读存储介质 | |
US20200304540A1 (en) | Identifying Legitimate Websites to Remove False Positives from Domain Discovery Analysis | |
US10585864B2 (en) | Computing the need for standardization of a set of values | |
WO2023016192A1 (zh) | 一种防止泄露敏感信息的数据共享开放方法及系统 | |
US9600602B2 (en) | Combined deterministic and probabilistic matching for data management | |
CN110569298A (zh) | 一种数据对接、可视化方法和系统 | |
CN110855648B (zh) | 一种网络攻击的预警控制方法及装置 | |
WO2021189769A1 (zh) | 低负载信息预测方法、装置、计算机系统及可读存储介质 | |
CN114244611B (zh) | 异常攻击检测方法、装置、设备及存储介质 | |
CN113535677B (zh) | 数据分析查询管理方法、装置、计算机设备及存储介质 | |
CN112148701A (zh) | 一种文件检索的方法及设备 | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
US11334603B2 (en) | Efficiently finding potential duplicate values in data | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN117215796A (zh) | 一种基于多并发数据处理的内存数据库管控系统及方法 | |
CN112507170A (zh) | 基于智能决策的数据资产目录构建方法、及其相关设备 | |
CN117009353B (zh) | 一种基于云平台的金融大数据信息存储方法及设备 | |
CN117093619A (zh) | 一种规则引擎处理方法、装置、电子设备及存储介质 | |
CN115168848B (zh) | 基于大数据分析拦截的拦截反馈处理方法 | |
CN116069847A (zh) | 基于人工智能的数据访问管控方法及相关设备 | |
CN113420050B (zh) | 数据查询管理方法、装置、计算机设备及可读存储介质 | |
CN113037555B (zh) | 风险事件标记方法、风险事件标记装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |