CN117473431A - 一种基于知识图谱的机场数据分类分级方法及系统 - Google Patents
一种基于知识图谱的机场数据分类分级方法及系统 Download PDFInfo
- Publication number
- CN117473431A CN117473431A CN202311774435.7A CN202311774435A CN117473431A CN 117473431 A CN117473431 A CN 117473431A CN 202311774435 A CN202311774435 A CN 202311774435A CN 117473431 A CN117473431 A CN 117473431A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- airport
- model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000013145 classification model Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 238000013135 deep learning Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000003064 k means clustering Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000002265 prevention Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010998 test method Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 7
- 238000007689 inspection Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于机场数据分类分级技术领域,公开了一种基于知识图谱的机场数据分类分级方法及系统。该方法包括确定分类目标、收集数据、数据预处理、特征提取与表示、构建分类模型、模型训练与评估、模型应用与反馈,以及持续优化和更新,获取最终的机场数据分类分级数据。本发明按照一定的原则对分类后的数据进行定级,为数据全生命周期管理的安全策略制定提供支撑。本发明基于知识图谱理论,实现机场数据分类分级,提高了数据分类分级的效率和准确率,提供更清晰的数据结构,使机场业务用户能够更方便地访问和使用数据。
Description
技术领域
本发明属于机场数据分类分级技术领域,尤其涉及一种基于知识图谱的机场数据分类分级方法及系统。
背景技术
随着对数据的不断重视、数据利用的不断深入,数据泄露、滥用等风险正日益凸显,在合理利用数据的同时,保障数据安全成为数字经济时代最紧迫和最基础的问题。各地机场也在逐步落实智慧民航发展理念,推进智慧机场、平安机场标准化建设,加强数据安全管理。因此,在数据作为新的生产要素的数字化机场建设中,基于分类分级的安全防护成为解决数据安全精细化管理的有效途径。在大数据应用场景下,如何有效利用数据作为新的生产要素发挥价值,同时又避免数据的泄露成为当下亟待解决的问题。
按照机场数据分类分级辅助关键词,进行了相应技术方案的检索,具体如下:
专利公告号:CN109784819A,发明名称为:货运安检分类分级系统及其分级方法的专利:本发明对代理人进行诚信考核,采用分级制度对货物预分配安检通道,针对货物制定不同安检策略,规范机场货运管理、优化安检流程,实现安检前置、提高航空货运安检效率。该方案重点在于对规范机场货运管理,提高货运安检效率,未对机场数据分类分级给出解决方案。
通过上述分析,现有技术存在的问题及缺陷为:现有技术中,因机场业务系统众多,各系统功能独立、差异较大,产生的机场业务数据量大,且种类繁杂,数据统筹和利用率低,数据安全得不到保障。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种基于知识图谱的机场数据分类分级方法及系统。
所述技术方案如下:一种基于知识图谱的机场数据分类分级方法,该方法包括以下步骤:
S1,确定分类目标:根据数据维度、类别和级别,确定机场数据分类;
S2,收集数据:对于采集的机场数据,根据不同影响因素以及影响因素的权重得到数据安全等级因子;
S3,数据预处理:对采集的机场数据进行缺失数据处理、特征选择、特征工程处理;
S4,特征提取与表示:进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取;对特征提取的数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别和级别;其中,结构化数据包括表格或数据库,非结构化数据包括文本和图像;
S5,构建分类模型:基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,预测数据所属的类别和级别;
S6,模型训练与评估:使用已标注的训练数据对分类模型进行训练,并使用测试数据评估分类模型;评估指标包括准确率、精确率和召回率;
S7,模型应用与反馈:将训练好的分类模型应用于机场数据分类分级;形成机场数据分类分级词库、语料库、规则库以及模型库;根据分析结果,对分类结果进行反馈和调整;
S8,持续优化和更新:随着机场新数据的不断产生和分类需求的变化,不断优化和更新分类模型,获取最终的机场数据分类分级数据。
在步骤S1中,所述数据维度包括:敏感程度、影响程度、业务重要程度以及变化频率,对应的权重分别为1、2、3、4;
所述级别包括四个级别,分别为:4级敏感数据、3级较敏感数据、2级低敏感数据、1级不敏感数据;
所述机场数据分类包括:按业务划分为一级类别、二级类别和数据项。
在步骤S2中,对于采集的机场数据为,/>,/>为机场业务系统的集合,/>为机场业务系统1,/>为机场业务系统2,/>为机场业务系统n;每个系统收集到的数据为/>,/>,/>为机场业务系统的数据集合,/>为业务数据1,/>为业务数据2,/>为业务数据n;根据敏感程度、影响程度、业务重要程度、变化频率四个影响因素,对数据中的每个字段从1到4进行评分,打分的数值记为/>,分数取值范围为/>,得分之和乘以影响因素的权重为/>,/>,/>为影响因素权重1,/>为影响因素权重2,/>为影响因素权重n;除以权重之和得到数据安全等级因子/>,,/>为数据字段根据影响因素的打分数值,/>为影响因素的权重;将的取值划分为四个等级,分别为:权重为3-4的四级、权重为2-3的三级、权重为1-2的二级、权重为0-1的一级。
在步骤S3中,对采集的机场数据进行缺失数据处理、特征选择、特征工程处理,包括:基于卡方检验法进行特性选择,如果两个相邻的区间具有相同的类分布,则这两个区间合并;否则,两个相邻的区间分开;利用低卡方值表示两个相邻的区间具有相同的类分布,从而过滤掉与分类目的无关的特征;其中,基于卡方检验法进行特性选择的步骤如下:
S31:预先设置一个卡方的阈值;数据类别和属性独立时有90%的可能性,计算得到的卡方值小于4.6;大于阈值4.6的卡方值属性和类不相互独立;
S32:初始化,根据要离散的属性对实例进行排序,每个实例属于一个区间;
S33:合并区间,计算每一对相邻区间的卡方值,表达式为:
;
式中,为第/>区间第/>类的实例的数量,/>为/>的期望频率,期望频率/>的表达式为:
;
式中,为第/>组的样本数,/>为第/>类样本在全体中的比例,/>为总样本数;
将卡方值最小的一对区间合并。
在步骤S4中,进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取,具体为:
S41:识别结构化和非结构化数据;
S42:对于结构化数据,根据数据库表、表含义、字段、字段含义,识别实体和关系;对于非结构化数据,通过分词、词性标注、命名实体识别、句法分析、关键词抽取、文本分类识别的自然语言处理方法,识别实体和关系;
S43:根据知识图谱理论,使用节点和边来表示实体和关系,对这些节点和边进行标注和分类;
S44:将数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别或级别。
在步骤S5中,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,包括:自动编码器通过编码学习到输入数据的隐含特征,利用解码将学习到的新特征重构出原始输入数据,自动编码器为包含三层的神经网络:输入层、编码层和解码层,利用自动编码器获取适合的数据格式,然后进行聚类;
编码层中的编码器为:
;
解码层中的解码器:
;
损失函数用于衡量重构输出和输入数据之间的差异,损失函数为:
;
式中,为编码器,/>为编码器的激活函数,/>为函数表达式,/>为编码器的权重矩阵,/>为输入机场数据,/>为编码器的偏置向量,/>为解码器,/>为解码器的激活函数,/>为解码器的权重矩阵,/>为解码器的偏置向量,/>为损失函数,/>为机场数据的维度,/>为输入数据,/>为解码器的重构输出。
进一步,所述K-Means聚类算法用于将数据集划分为k个不同的簇或群集,将数据点划分为与之最近的k个质心,直到达到收敛条件;具体包括:
S51:选择要划分的簇的数量k;
S52:随机选择k个数据点作为初始质心;
S53:计算每个数据点与每个质心之间的距离,将数据点分配给距离最近的簇;
S54:更新每个簇的质心,计算每个簇中所有数据点的平均值作为新的质心;
S55:重复步骤S53和步骤S54,直到簇的分配不再改变或达到预定的迭代次数;
S56:输出最终的簇分配结果,为最小化每个数据点与所属簇质心之间的欧氏距离之和,表达式为:
;
式中,为欧氏距离,/>为样本数量,/>为输入机场样本数据,/>表示第/>个簇中的所有数据点。
在步骤S6中,使用已标注的训练数据对分类模型进行训练,包括:
S201:基于机场数据收集和预处理,构建机场数据分类分级规则、机场数据分类分级模板、机场业务数据和元数据和机场标准法规,形成机场业务知识库,作为样本数据集;
S202:对收集的机场样本数据进行特征标记,得到标记的样本数据;将样本数据导入深度学习训练算法v1模块,对样本数据进行训练,构建分类模型v1版本,通过输出的验证结果v1评估模型的性能和准确性;根据分析验证结果,优化分类模型和流程;利用深度学习训练算法,不断迭代训练和学习,构建分类模型v2版本、v3版本;持续对机场数据分类和分级的规则进行适配、更新和维护,核验规则合理性,动态完善规则库;
S203:根据学习训练库,建立机场数据智能知识库,包括机场数据分类分级词库、机场数据分类分级语料库、机场数据分类分级规则库、分类模型库和标准法规库;
S204,利用机场数据安全分级标签,建立机场数据全过程安全保护策略,针对不同的数据级别,从数据传输、数据存储、数据应用、用户记录和防泄漏方面制定相应的数据保护策略,对机场数据的差异化安全防护。
在步骤S8中,不断优化和更新分类模型,包括:
S81:根据定义的损失函数来衡量分类模型在训练数据上的性能,衡量分类模型预测值与真实值之间差异的指标;
S82:计算损失函数对于分类模型参数的梯度,包括:前向传播、计算损失、反向传播;
其中,前向传播包括:将输入数据输入到神经网络中,逐层计算每层的输出值;从输入层开始,通过每一层的权重和偏置计算下一层的输入,并应用激活函数;在每一层中,将当前层的输出作为下一层的输入,一直传递到输出层;
计算损失包括:通过比较网络的输出和期望的目标值,计算出损失函数值;损失函数计算均方误差;
反向传播包括:从输出层开始,计算每层的误差梯度;使用链式法则将误差梯度从输出层向输入层传播;在每一层中,根据当前层的误差梯度和激活函数的导数,计算出上一层的误差梯度;
S83:使用梯度下降法来更新分类模型的参数;
S84:重复执行以上步骤,直到达到预定的停止条件。
本发明的另一目的在于提供一种基于知识图谱的机场数据分类分级系统,该系统通过所述的基于知识图谱的机场数据分类分级方法实现,该系统包括:
确定分类目标模块,用于根据数据维度、类别和级别,确定机场数据分类;
收集数据模块,用于对于采集的机场数据,根据不同影响因素以及影响因素的权重得到数据安全等级因子;
数据预处理模块,用于对采集的机场数据进行缺失数据处理、特征选择、特征工程处理;
特征提取与表示模块,用于进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取;对特征提取的数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别和级别;其中,结构化数据包括表格或数据库,非结构化数据包括文本和图像;
构建分类模型模块,用于基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,预测数据所属的类别和级别;
模型训练与评估模块,用于使用已标注的训练数据对分类模型进行训练,并使用测试数据评估分类模型;评估指标包括准确率、精确率和召回率;
模型应用与反馈模块,用于将训练好的分类模型应用于机场数据分类分级;形成机场数据分类分级词库、语料库、规则库以及模型库;根据分析结果,对分类结果进行反馈和调整;
持续优化和更新模块,用于随着机场新数据的不断产生和分类需求的变化,不断优化和更新分类模型,获取最终的机场数据分类分级数据。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明对机场数据进行分类分级,根据机场数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用数据。按照一定的原则对分类后的数据进行定级,为数据全生命周期管理的安全策略制定提供支撑。本发明基于知识图谱理论,实现机场数据分类分级,提高了数据分类分级的效率和准确率,提供更清晰的数据结构,使机场业务用户能够更方便地访问和使用数据。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;
图1是本发明实施例提供的基于知识图谱的机场数据分类分级方法流程图;
图2是本发明实施例提供的使用已标注的训练数据对分类模型进行训练流程图;
图3是本发明实施例提供的基于知识图谱的机场数据分类分级系统示意图;
图中:1、确定分类目标模块;2、收集数据模块;3、数据预处理模块;4、特征提取与表示模块;5、构建分类模型模块;6、模型训练与评估模块;7、模型应用与反馈模块;8、持续优化和更新模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做相同改进,因此本发明不受下面公开的具体实施的限制。
本发明实施例提供的基于知识图谱的机场数据分类分级方法及系统创新点在于:本发明通过知识图谱、深度学习等技术,构建分类模型,通过迭代不断训练优化,实现对数据进行自动分类分级。降低人工分类分级的成本,提高数据分类分级的效率和准确性,同时可以全天候分类,增加分类分级的持久性。
实施例1,基于知识图谱的机场数据分类分级方法,包括机场数据分类维度和级别定义规则、方法、流程及保护策略。对机场业务系统的结构化和非结构化海量数据,进行分类分级,所使用的样本收集、数据预处理、特征提取、模型构建与训练等技术。
如图1所示,具体包括以下步骤:
S1,确定分类目标:根据数据维度、类别和级别,确定机场数据分类;
S2,收集数据:对于采集的机场数据,根据不同影响因素以及影响因素的权重得到数据安全等级因子;
S3,数据预处理:对采集的机场数据进行缺失数据处理、特征选择、特征工程处理;
S4,特征提取与表示:进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取;对特征提取的数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别和级别;其中,结构化数据包括表格或数据库,非结构化数据包括文本和图像;
S5,构建分类模型:基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,预测数据所属的类别和级别;
S6,模型训练与评估:使用已标注的训练数据对分类模型进行训练,并使用测试数据评估分类模型;评估指标包括准确率、精确率和召回率;
S7,模型应用与反馈:将训练好的分类模型应用于机场数据分类分级;形成机场数据分类分级词库、语料库、规则库以及模型库;根据分析结果,对分类结果进行反馈和调整;
S8,持续优化和更新:随着机场新数据的不断产生和分类需求的变化,不断优化和更新分类模型,获取最终的机场数据分类分级数据。
在本发明实施例步骤S1中,确定分类目标。确定机场数据分类的维度、类别和级别。根据数据破坏后对公共安全、社会秩序、公共利益以及对公民、法人和其他组织的合法权益(受侵害客体)的危害程度来确定数据的安全级别,可将机场数据由高至低划分为:4级、3级、2级、1级共四个级别。
在本发明实施例步骤S2中,对于采集的机场数据为,/>,/>为机场业务系统的集合,/>为机场业务系统1,/>为机场业务系统2,/>为机场业务系统n;每个系统收集到的数据为/>,/>,/>为机场业务系统的数据集合,/>为业务数据1,/>为业务数据2,/>为业务数据n;根据敏感程度、影响程度、业务重要程度、变化频率四个影响因素,对数据中的每个字段从1到4进行评分,打分的数值记为/>,分数取值范围为/>,得分之和乘以影响因素的权重为/>,/>,/>为影响因素权重1,/>为影响因素权重2,/>为影响因素权重n;除以权重之和得到数据安全等级因子/>,/>,/>为数据字段根据影响因素的打分数值,/>为影响因素的权重;将/>的取值划分为四个等级,分别为:权重为3-4的四级、权重为2-3的三级、权重为1-2的二级、权重为0-1的一级。
本发明创新的提出采集的机场系统,通过建立的数据安全等级因子,为后续的数据分类分级模型构建提供依据。
在本发明实施例步骤S3中,对采集数据进行特征选择和特征工程处理,基于卡方检验法进行特性选择,如果两个相邻的区间具有相同的类分布,则这两个区间合并;否则,两个相邻的区间分开;利用低卡方值表示两个相邻的区间具有相同的类分布,从而过滤掉与分类目的无关的特征,所述基于卡方检验法进行特性选择步骤如下:
S31:预先设置一个卡方的阈值;
数据类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6。大于阈值4.6的卡方值就说明属性和类不是相互独立的,不能合并。
S32:初始化,根据要离散的属性对实例进行排序,每个实例属于一个区间;
S33:合并区间,计算每一对相邻区间的卡方值,表达式为:
;
式中,为第/>区间第/>类的实例的数量,/>为/>的期望频率,期望频率/>的表达式为:
;
式中,为第/>组的样本数,/>为第/>类样本在全体中的比例,/>为总样本数;
将卡方值最小的一对区间合并。
在本发明实施例步骤S3中,收集到的数据包含待分类机场数据的样本,待分类机场数据的样本包括:结构化数据以及非结构化数据,机场系统包括旅客、航班、保障、物流机场业务系统;
所述结构化数据包括表格或数据库,非结构化数据包括文本、图像。
根据数据治理的理念,对采集数据进行清洗、去除噪声和异常值,处理缺失数据,以及进行特征选择和特征工程等步骤,全面提升数据质量,以便进一步处理和分析。
在本发明实施例步骤S4中,进行实体和关系抽取,从数据中识别出实体(如人物、地点、物体等)以及实体之间的关系,构建知识图谱中的节点和边。实体识别和构建知识图谱步骤如下:
S41:识别结构化和非结构化数据;
S42:对于结构化数据,根据数据库表、表含义、字段、字段含义,识别实体和关系;对于非结构化数据,通过分词、词性标注、命名实体识别、句法分析、关键词抽取、文本分类识别的自然语言处理方法,识别实体和关系;
S43:根据知识图谱理论,使用节点和边来表示实体和关系,对这些节点和边进行标注和分类。
S44:将数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别或级别。
在本发明实施例步骤S5中,构建分类模型。根据数据的特点和分类目标选择适当的分类模型。基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,以预测数据所属的类别或级别。
自动编码器通过编码,学习到输入数据的隐含特征;同时利用解码,将学习到的新特征重构出原始输入数据。
自动编码器为包含三层的神经网络:输入层、编码层和解码层。利用自动编码器获取适合的数据格式,然后进行聚类。
编码层中的编码器为:
;
解码层中的解码器:
;
损失函数用于衡量重构输出和输入数据之间的差异,损失函数为:
;
式中,为编码器,/>为编码器的激活函数,/>为编码器的权重矩阵,/>为输入机场数据,/>为编码器的偏置向量,/>为解码器,/>为解码器的激活函数,也可以看作是数据的压缩表示。/>为解码器的权重矩阵,/>为解码器的偏置向量,/>为损失函数,为机场数据的维度,/>为解码器的重构输出,与输入数据尽可能接近。
可以理解,上述公式技术作用为:通过训练自编码器,可以从原始数据中自动学习到最重要的特征,有利于后续的分类、聚类任务。
在本发明实施例中,通过K-Means聚类算法用于将数据集划分为k个不同的簇或群集。它是一种迭代的算法,将数据点划分为与之最近的k个质心(簇中心),直到达到收敛条件。
以下是K-Means聚类算法模型构建的基本步骤:
S51:选择要划分的簇的数量k。
S52:随机选择k个数据点作为初始质心。
S53:对于每个数据点,计算其与每个质心之间的距离,将数据点分配给距离最近的簇。
S54:更新每个簇的质心,计算每个簇中所有数据点的平均值作为新的质心。
S55:重复步骤S53和S54,直到簇的分配不再改变或达到预定的迭代次数。
S56:输出最终的簇分配结果。
其中,K-Means聚类算法的目标是最小化每个数据点与所属簇质心之间的欧氏距离之和(误差平方和):
;
式中,为欧氏距离,/>为样本数量,/>为输入机场样本数据,/>表示第/>个簇中的所有数据点。
可以理解,K-Means算法认为两个目标的距离越近,相同度越大,按照数据内部存在的数据特征将数据集划分为多个不同的类别,用于数据分类。
在本发明实施例步骤S7中,模型应用与反馈。将训练好的分类模型应用于机场数据分类分级。形成机场数据分类分级词库、语料库、规则库以及模型库。根据分析结果,可以对分类结果进行反馈和调整,即对分类模型参数调优,进一步优化分类模型和流程。
在本发明实施例步骤S8中,持续优化和更新。数据分类分级是一个持续的过程,随着机场新数据的不断产生和分类需求的变化,需要不断优化和更新分类模型和流程,以保持分类分级的准确性和实用性。最终实现机场数据分类分级自动化、智能化。
模型优化更新流程:
S81:根据定义的损失函数来衡量分类模型在训练数据上的性能,衡量分类模型预测值与真实值之间差异的指标;
S82:计算损失函数对于分类模型参数的梯度;
S82:计算损失函数对于分类模型参数的梯度,包括:
S821:前向传播:
将输入数据输入到神经网络中,逐层计算每层的输出值;
从输入层开始,通过每一层的权重和偏置计算下一层的输入,并应用激活函数;
在每一层中,将当前层的输出作为下一层的输入,一直传递到输出层;
S822:计算损失:
通过比较网络的输出和期望的目标值,计算出损失函数值;
损失函数计算均方误差;
S823:反向传播:
从输出层开始,计算每层的误差梯度;
使用链式法则将误差梯度从输出层向输入层传播;
在每一层中,根据当前层的误差梯度和激活函数的导数,计算出上一层的误差梯度;
S83:使用梯度下降法来更新分类模型的参数,包括:
根据计算得到的误差梯度,使用梯度下降法,更新网络中的参数;
通过学习率来控制每次参数更新的步长;
参数更新公式为:新参数=旧参数-学习率×梯度;
S83:使用梯度下降法来更新分类模型的参数;
S84:重复执行以上步骤,直到达到预定的停止条件。
通过上述实施例可知,本发明降低了分类分级的成本,提升企业数据资产价值,加快推进机场数据资产开放平台的规范建设,有利于促进机场数据共享和流动,提升企业工作效率;
本发明填补了机场业务领域数据分类分级的技术空白;
本发明提高了机场数据分类分级的效率和准确率,解决数据分类分级普遍存在的分类分级准确率低、研发周期长的问题;
本发明有利于提升企业数据资产安全性,加强对机场数据安全的保护。
实施例2,作为本发明的另一种实施方式,本发明实施例提供的基于知识图谱的机场数据分类分级方法主要包含如下的步骤S101至步骤S108。
步骤S101:确定分类目标。确定机场数据分类的维度、类别和级别。机场数据按业务分类,划分为一级类别、二级类别和数据项。一级类别包含旅客服务、生产协同、安全与安保、综合交通、商业管理、能源管理和航空物流七大类。一级大类下设置二级类别,每个类别包含多个数据项。
表1机场数据分级
。
表1将机场数据分为4级(敏感数据)、3级(较敏感数据)、2级(低敏感数据)、1级(不敏感数据)共四个级别。
4级数据:数据一旦被泄露或篡改、损坏或非法获取、非法利用,对个人合法权益、组织合法权益造成严重危害。或可能对公共利益造成轻微危害。4级数据按照批准的授权列表严格管理,仅能在受控范围内经过严格审批、评估后才可共享或传播。
3级数据:数据一旦被泄露或篡改、损坏或非法获取、非法利用,对个人合法权益、组织合法权益造成一般危害。3级数据仅能由授权的内部机构或人员访问,如要将数据共享到外部,需满足相关条件并获得相关方的授权。
2级数据:数据一旦被泄露或篡改、损坏或非法获取、非法利用,对个人合法权益、组织合法权益造成轻微危害。2级数据通常在组织内部、关联方共享和使用,相关方授权后可向组织外部共享。
1级数据:数据一旦被泄露或篡改、损坏或非法获取、非法利用,不会对个人合法权益、组织合法权益造成危害。1级数据具有公共传播属性,可对外公开发布、转发传播,但也需考虑公开的数据量及类别,避免由于类别较多或数据量过大被用于关联分析。
步骤S102:收集数据。收集包含待分类机场数据的样本,包括结构化数据,如表格或数据库,以及非结构化数据,如文本、图像等。采集包括旅客、航班、保障、物流等多个机场数据。
步骤S103:数据预处理。对采集到的机场数据进行清洗和预处理。包括去除重复数据、缺失值处理、异常值处理等,以确保数据的准确性和一致性。
步骤S104:特征提取与表示。机场业务数据实体关系抽取,基于规则的方法,利用预定义的机场数据分类分级规则和模式匹配来识别实体和关系。实体链接,基于文本相同度的方法,计算实体名称与知识图谱中实体描述的相同度,选择相同度最高的实体作为链接结果。基于上下文的方法,利用实体周围的上下文信息,如句子中的其他词语、实体之间的关系等,来更准确地进行链接。对于结构化数据,使用统计指标、数值特征、文本特征等进行特征提取。对于非结构化数据,使用自然语言处理(NLP)技术进行特征提取。
根据特征提取结果,为数据分配适当的标签或级别。定义实体标签,包括旅客标签、数据标签、账号标签、应用标签、设施标签等。标签又可以包括多个属性字段,例如,旅客标签可以包括旅客ID、证件号、姓名、性别等信息;数据标签可包括数据ID、数据名、数据大小、数据所有者、数据使用者、数据类型、数据级别、保密期限等。
步骤S105:构建分类模型。将已标记的机场数据集划分为训练集和测试集。训练集用于构建分类模型,测试集用于评估模型的性能和准确度。基于知识图谱和提取的特征,将实体、关系和属性信息转化成图谱数据模型的形式,通过深度学习自动编码器和K-Means聚类算法,预测数据所属的类别或级别。
步骤S106:模型训练与评估。根据训练集的数据,构建分类模型,并进行模型的训练和优化,对分类模型进行评估,计算模型的准确度、精确度等指标。根据评估结果,对分类模型进行调整和改进。
步骤S107:模型应用与反馈。根据机场数据分类和分级的结果,进行进一步的分析和应用。使用训练好的分类模型应用于新的未分类分级的机场数据,对不同类别或级别的数据采取相应的措施和处理。
步骤S108:持续优化和更新。定期监督和更新分类模型,以应对新的机场数据和需求变化。
图2为本发明实施例提供的使用已标注的训练数据对分类模型进行训练步骤如下:
S201:基于机场数据收集和预处理,构建机场数据分类分级规则、机场数据分类分级模板、机场业务数据和元数据和机场标准法规,形成机场业务知识库,作为样本数据集。
S202:对收集的机场样本数据进行特征标记,得到标记的样本数据;将样本数据导入深度学习训练算法v1模块,对样本数据进行训练,构建分类模型v1版本,通过输出的验证结果v1评估模型的性能和准确性;所述深度学习训练算法包括步骤S1至步骤S6;
根据分析验证结果,重复步骤S1至步骤S6,进一步优化分类模型和流程;利用深度学习训练算法,不断迭代训练和学习,构建分类模型v2版本、v3版本;持续对机场数据分类和分级的规则进行适配、更新和维护,核验规则合理性,动态完善规则库。
S203:根据学习训练库,建立机场数据智能知识库。包括机场数据分类分级词库、机场数据分类分级语料库、机场数据分类分级规则库、分类模型库和标准法规库。
以旅客数据为例,最后得到分类分级结果如表2所示。
表2分类分级结果
。
S204,最后利用机场数据安全分级标签,建立机场数据全过程安全保护策略,实现对机场数据的差异化安全防护。表3是根据机场数据安全分级标签制定的数据保护策略,针对不同的数据级别,从数据传输、数据存储、数据应用、用户记录和防泄漏方面制定了相应的数据保护策略。
表3数据保护策略
。
实施例3,如图3所示,基于知识图谱的机场数据分类分级系统,包括:
确定分类目标模块1,用于根据数据维度、类别和级别,确定机场数据分类;
收集数据模块2,用于对于采集的机场数据,根据不同影响因素以及影响因素的权重得到数据安全等级因子;
数据预处理模块3,用于对采集的机场数据进行缺失数据处理、特征选择、特征工程处理;
特征提取与表示模块4,用于进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取;对特征提取的数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别和级别;其中,结构化数据包括表格或数据库,非结构化数据包括文本和图像;
构建分类模型模块5,用于基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,预测数据所属的类别和级别;
模型训练与评估模块6,用于使用已标注的训练数据对分类模型进行训练,并使用测试数据评估分类模型;评估指标包括准确率、精确率和召回率;
模型应用与反馈模块7,用于将训练好的分类模型应用于机场数据分类分级;形成机场数据分类分级词库、语料库、规则库以及模型库;根据分析结果,对分类结果进行反馈和调整;
持续优化和更新模块8,用于随着机场新数据的不断产生和分类需求的变化,不断优化和更新分类模型,获取最终的机场数据分类分级数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。
本发明实施例还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
本发明实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
为进一步说明本发明实施例相关效果,进行如下实验:针对某机场旅客移动端系统,包含结构化及非结构化数据,大约1T左右的数据量,按照二级分类、四级分级的预设规则,经过16轮深度模型训练,在18个小时内完成分类分级,在效率方面提升了85%,准确度高达95%,分类分级结果如下表4。
表4订座旅客数据项
。
实验表明,本发明对机场数据分析之后,可将机场业务庞大数据进行归类整理,并分类后的数据进行定级,达到机场数据精细化管理的目的,并为机场数据全生命周期管理的安全策略制定提供支撑。使机场数据分类分级更加智能化、准确化,极大提升了机场业务数据的应用价值和安全防护水平。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于知识图谱的机场数据分类分级方法,其特征在于,该方法包括以下步骤:
S1,确定分类目标:根据数据维度、类别和级别,确定机场数据分类;
S2,收集数据:对于采集的机场数据,根据不同影响因素以及影响因素的权重得到数据安全等级因子;
S3,数据预处理:对采集的机场数据进行缺失数据处理、特征选择、特征工程处理;
S4,特征提取与表示:进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取;对特征提取的数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别和级别;其中,结构化数据包括表格或数据库,非结构化数据包括文本和图像;
S5,构建分类模型:基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,预测数据所属的类别和级别;
S6,模型训练与评估:使用已标注的训练数据对分类模型进行训练,并使用测试数据评估分类模型;评估指标包括准确率、精确率和召回率;
S7,模型应用与反馈:将训练好的分类模型应用于机场数据分类分级;形成机场数据分类分级词库、语料库、规则库以及模型库;根据分析结果,对分类结果进行反馈和调整;
S8,持续优化和更新:随着机场新数据的不断产生和分类需求的变化,不断优化和更新分类模型,获取最终的机场数据分类分级数据。
2.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S1中,所述数据维度包括:敏感程度、影响程度、业务重要程度以及变化频率,对应的权重分别为1、2、3、4;
所述级别包括四个级别,分别为:4级敏感数据、3级较敏感数据、2级低敏感数据、1级不敏感数据;
所述机场数据分类包括:按业务划分为一级类别、二级类别和数据项。
3.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S2中,对于采集的机场数据为,/>,/>为机场业务系统的集合,/>为机场业务系统1,/>为机场业务系统2,/>为机场业务系统/>;每个系统收集到的数据为/>,,/>为机场业务系统的数据集合,/>为业务数据1,/>为业务数据2,/>为业务数据/>;
根据敏感程度、影响程度、业务重要程度、变化频率四个影响因素,对数据中的每个字段从1到4进行评分,打分的数值记为,分数取值范围为/>,得分之和乘以影响因素的权重为/>,/>,/>为影响因素权重1,/>为影响因素权重2,/>为影响因素权重/>;除以权重之和得到数据安全等级因子/>,/>,/>为数据字段根据影响因素的打分数值,/>为影响因素的权重;将/>的取值划分为四个等级,分别为:权重为3-4的四级、权重为2-3的三级、权重为1-2的二级、权重为0-1的一级。
4.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S3中,对采集的机场数据进行缺失数据处理、特征选择、特征工程处理,包括:基于卡方检验法进行特性选择,如果两个相邻的区间具有相同的类分布,则这两个区间合并;否则,两个相邻的区间分开;利用低卡方值表示两个相邻的区间具有相同的类分布,从而过滤掉与分类目的无关的特征;
其中,基于卡方检验法进行特性选择的步骤如下:
S31:预先设置一个卡方的阈值;数据类别和属性独立时有90%的可能性,计算得到的卡方值小于4.6;大于阈值4.6的卡方值属性和类不相互独立;
S32:初始化,根据要离散的属性对实例进行排序,每个实例属于一个区间;
S33:合并区间,计算每一对相邻区间的卡方值,表达式为:
;
式中,为第/>区间第/>类的实例的数量,/>为/>的期望频率;
期望频率的表达式为:
;
式中,为第/>组的样本数,/>为第/>类样本在全体中的比例,/>为总样本数;
将卡方值最小的一对区间合并。
5.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S4中,进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取,具体为:
S41:识别结构化和非结构化数据;
S42:对于结构化数据,根据数据库表、表含义、字段、字段含义,识别实体和关系;对于非结构化数据,通过分词、词性标注、命名实体识别、句法分析、关键词抽取、文本分类识别的自然语言处理方法,识别实体和关系;
S43:根据知识图谱理论,使用节点和边来表示实体和关系,对这些节点和边进行标注和分类;
S44:将数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别或级别。
6.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S5中,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,包括:自动编码器通过编码学习到输入数据的隐含特征,利用解码将学习到的新特征重构出原始输入数据,自动编码器为包含三层的神经网络:输入层、编码层和解码层,利用自动编码器获取适合的数据格式,然后进行聚类;
编码层中的编码器为:
;
解码层中的解码器:
;
损失函数用于衡量重构输出和输入数据之间的差异,损失函数为:
;
式中,为编码器,/>为编码器的激活函数,/>为函数表达式,/>为编码器的权重矩阵,/>为输入机场数据,/>为编码器的偏置向量,/>为解码器,/>为解码器的激活函数,为解码器的权重矩阵,/>为解码器的偏置向量,/>为损失函数,/>为机场数据的维度,/>为输入数据,/>为解码器的重构输出。
7.根据权利要求6所述的基于知识图谱的机场数据分类分级方法,其特征在于,所述K-Means聚类算法用于将数据集划分为个不同的簇或群集,将数据点划分为与之最近的/>个质心,直到达到收敛条件;具体包括:
S51:选择要划分的簇的数量;
S52:随机选择个数据点作为初始质心;
S53:计算每个数据点与每个质心之间的距离,将数据点分配给距离最近的簇;
S54:更新每个簇的质心,计算每个簇中所有数据点的平均值作为新的质心;
S55:重复步骤S53和步骤S54,直到簇的分配不再改变或达到预定的迭代次数;
S56:输出最终的簇分配结果,为最小化每个数据点与所属簇质心之间的欧氏距离之和,表达式为:
;
式中,为欧氏距离,/>为样本数量,/>为输入机场样本数据,/>表示第/>个簇中的所有数据点。
8.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S6中,使用已标注的训练数据对分类模型进行训练,包括:
S201:基于机场数据收集和预处理,构建机场数据分类分级规则、机场数据分类分级模板、机场业务数据和元数据和机场标准法规,形成机场业务知识库,作为样本数据集;
S202:对收集的机场样本数据进行特征标记,得到标记的样本数据;将样本数据导入深度学习训练算法v1模块,对样本数据进行训练,构建分类模型v1版本,通过输出的验证结果v1评估模型的性能和准确性;根据分析验证结果,优化分类模型和流程;利用深度学习训练算法,不断迭代训练和学习,构建分类模型v2版本、v3版本;持续对机场数据分类和分级的规则进行适配、更新和维护,核验规则合理性,动态完善规则库;
S203:根据学习训练库,建立机场数据智能知识库,包括机场数据分类分级词库、机场数据分类分级语料库、机场数据分类分级规则库、分类模型库和标准法规库;
S204,利用机场数据安全分级标签,建立机场数据全过程安全保护策略,针对不同的数据级别,从数据传输、数据存储、数据应用、用户记录和防泄漏方面制定相应的数据保护策略,对机场数据的差异化安全防护。
9.根据权利要求1所述的基于知识图谱的机场数据分类分级方法,其特征在于,在步骤S8中,不断优化和更新分类模型,包括:
S81:根据定义的损失函数来衡量分类模型在训练数据上的性能,衡量分类模型预测值与真实值之间差异的指标;
S82:计算损失函数对于分类模型参数的梯度,包括:前向传播、计算损失、反向传播;
其中,前向传播包括:将输入数据输入到神经网络中,逐层计算每层的输出值;从输入层开始,通过每一层的权重和偏置计算下一层的输入,并应用激活函数;在每一层中,将当前层的输出作为下一层的输入,一直传递到输出层;
计算损失包括:通过比较网络的输出和期望的目标值,计算出损失函数值;损失函数计算均方误差;
反向传播包括:从输出层开始,计算每层的误差梯度;使用链式法则将误差梯度从输出层向输入层传播;在每一层中,根据当前层的误差梯度和激活函数的导数,计算出上一层的误差梯度;
S83:使用梯度下降法来更新分类模型的参数;
S84:重复执行以上步骤,直到达到预定的停止条件。
10.一种基于知识图谱的机场数据分类分级系统,其特征在于,该系统通过权利要求1-9任意一项所述的基于知识图谱的机场数据分类分级方法实现,该系统包括:
确定分类目标模块(1),用于根据数据维度、类别和级别,确定机场数据分类;
收集数据模块(2),用于对于采集的机场数据,根据不同影响因素以及影响因素的权重得到数据安全等级因子;
数据预处理模块(3),用于对采集的机场数据进行缺失数据处理、特征选择、特征工程处理;
特征提取与表示模块(4),用于进行实体和关系抽取,从数据中识别出实体以及实体之间的关系,构建知识图谱中的节点和边;对于结构化数据、非结构化数据进行特征提取;对特征提取的数据进行标记并打上分类的标签,根据分类目标,为每个数据样本分配相应的类别和级别;其中,结构化数据包括表格或数据库,非结构化数据包括文本和图像;
构建分类模型模块(5),用于基于知识图谱和提取的特征,通过深度学习自动编码器和K-Means聚类算法,构建分类模型,预测数据所属的类别和级别;
模型训练与评估模块(6),用于使用已标注的训练数据对分类模型进行训练,并使用测试数据评估分类模型;评估指标包括准确率、精确率和召回率;
模型应用与反馈模块(7),用于将训练好的分类模型应用于机场数据分类分级;形成机场数据分类分级词库、语料库、规则库以及模型库;根据分析结果,对分类结果进行反馈和调整;
持续优化和更新模块(8),用于随着机场新数据的不断产生和分类需求的变化,不断优化和更新分类模型,获取最终的机场数据分类分级数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311774435.7A CN117473431B (zh) | 2023-12-22 | 2023-12-22 | 一种基于知识图谱的机场数据分类分级方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311774435.7A CN117473431B (zh) | 2023-12-22 | 2023-12-22 | 一种基于知识图谱的机场数据分类分级方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117473431A true CN117473431A (zh) | 2024-01-30 |
CN117473431B CN117473431B (zh) | 2024-08-06 |
Family
ID=89639835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311774435.7A Active CN117473431B (zh) | 2023-12-22 | 2023-12-22 | 一种基于知识图谱的机场数据分类分级方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473431B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992809A (zh) * | 2024-04-07 | 2024-05-07 | 江苏开博科技有限公司 | 一种用于银行多数据库运维信息的分级防护方法 |
CN118013376A (zh) * | 2024-04-09 | 2024-05-10 | 安徽思高智能科技有限公司 | 基于知识图谱的rpa多任务多标签分类方法、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784819A (zh) * | 2019-03-19 | 2019-05-21 | 东部机场集团有限公司 | 货运安检分类分级系统及其分级方法 |
WO2021107447A1 (ko) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
WO2021223882A1 (en) * | 2020-05-08 | 2021-11-11 | Huawei Technologies Co., Ltd. | Prediction explanation in machine learning classifiers |
CN114331122A (zh) * | 2021-12-28 | 2022-04-12 | 天津汇智星源信息技术有限公司 | 重点人员风险等级评估方法及相关设备 |
CN115374106A (zh) * | 2022-07-15 | 2022-11-22 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分级方法 |
CN116069951A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种施工工人安全知识抽取和知识图谱构建方法 |
CN116089873A (zh) * | 2023-02-10 | 2023-05-09 | 北京百度网讯科技有限公司 | 模型训练方法、数据分类分级方法、装置、设备及介质 |
CN116108167A (zh) * | 2022-11-11 | 2023-05-12 | 电子科技大学 | 一种结合知识图谱的个人敏感信息分类分级方法 |
CN117077071A (zh) * | 2023-07-07 | 2023-11-17 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据分级的数据分析方法及系统 |
CN117076691A (zh) * | 2023-10-16 | 2023-11-17 | 青岛文达通科技股份有限公司 | 一种面向智慧社区的商品资源知识图谱算法模型 |
-
2023
- 2023-12-22 CN CN202311774435.7A patent/CN117473431B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784819A (zh) * | 2019-03-19 | 2019-05-21 | 东部机场集团有限公司 | 货运安检分类分级系统及其分级方法 |
WO2021107447A1 (ko) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
WO2021223882A1 (en) * | 2020-05-08 | 2021-11-11 | Huawei Technologies Co., Ltd. | Prediction explanation in machine learning classifiers |
CN114331122A (zh) * | 2021-12-28 | 2022-04-12 | 天津汇智星源信息技术有限公司 | 重点人员风险等级评估方法及相关设备 |
CN115374106A (zh) * | 2022-07-15 | 2022-11-22 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分级方法 |
CN116108167A (zh) * | 2022-11-11 | 2023-05-12 | 电子科技大学 | 一种结合知识图谱的个人敏感信息分类分级方法 |
CN116089873A (zh) * | 2023-02-10 | 2023-05-09 | 北京百度网讯科技有限公司 | 模型训练方法、数据分类分级方法、装置、设备及介质 |
CN116069951A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种施工工人安全知识抽取和知识图谱构建方法 |
CN117077071A (zh) * | 2023-07-07 | 2023-11-17 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据分级的数据分析方法及系统 |
CN117076691A (zh) * | 2023-10-16 | 2023-11-17 | 青岛文达通科技股份有限公司 | 一种面向智慧社区的商品资源知识图谱算法模型 |
Non-Patent Citations (2)
Title |
---|
KARUNA PANDE JOSHI ET AL.: "An Integrated Knowledge Graph to Automate Cloud Data Compliance", 《IEEE ACCESS》, vol. 8, 13 July 2020 (2020-07-13), pages 1 - 15 * |
娄培;刘莉;陈先来;安莹;李忠民;: "基于问卷调查的医疗数据分类分级研究", 中华医学图书情报杂志, no. 06, 15 June 2018 (2018-06-15), pages 25 - 30 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992809A (zh) * | 2024-04-07 | 2024-05-07 | 江苏开博科技有限公司 | 一种用于银行多数据库运维信息的分级防护方法 |
CN118013376A (zh) * | 2024-04-09 | 2024-05-10 | 安徽思高智能科技有限公司 | 基于知识图谱的rpa多任务多标签分类方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117473431B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN107967575B (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN117473431B (zh) | 一种基于知识图谱的机场数据分类分级方法及系统 | |
Holton | Identifying disgruntled employee systems fraud risk through text mining: A simple solution for a multi-billion dollar problem | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN112182246A (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
CN112036842B (zh) | 一种科技服务智能匹配装置 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN115794798A (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
CN116402512A (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN117573876A (zh) | 一种业务数据分类分级方法及装置 | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
Font-Pomarol et al. | Socially disruptive periods and topics from information-theoretical analysis of judicial decisions | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
US20210240937A1 (en) | System and method for artificial intelligence driven document analysis, including automated reuse of predictive coding rules based on management and curation of datasets or models | |
Sabo et al. | Unsupervised factor extraction from pretrial detention decisions by Italian and Brazilian supreme courts | |
CN118093881B (zh) | 一种基于知识图谱的审计对象画像建模方法和系统 | |
CN117150245B (zh) | 一种企业智能诊断信息生成方法、装置、设备和存储介质 | |
US12111754B1 (en) | Dynamically validating AI applications for compliance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |