CN115168345B - 数据库分级分类方法、系统、装置及存储介质 - Google Patents

数据库分级分类方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN115168345B
CN115168345B CN202210734483.2A CN202210734483A CN115168345B CN 115168345 B CN115168345 B CN 115168345B CN 202210734483 A CN202210734483 A CN 202210734483A CN 115168345 B CN115168345 B CN 115168345B
Authority
CN
China
Prior art keywords
identification
database
field information
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210734483.2A
Other languages
English (en)
Other versions
CN115168345A (zh
Inventor
袁征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iMusic Culture and Technology Co Ltd
Original Assignee
iMusic Culture and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iMusic Culture and Technology Co Ltd filed Critical iMusic Culture and Technology Co Ltd
Priority to CN202210734483.2A priority Critical patent/CN115168345B/zh
Publication of CN115168345A publication Critical patent/CN115168345A/zh
Application granted granted Critical
Publication of CN115168345B publication Critical patent/CN115168345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据库分级分类方法、系统、装置及存储介质,首先对数据库中数据属性字段对应的数据进行抽取,获得字段信息;根据数据属性字段和字段信息,构建数据库综合信息体;对数据库综合信息体内的字段信息进行数据识别,获得字段信息对应的识别标签;根据识别标签和预设的分级分类关联树,确定字段信息对应的分级分类结果;对分级分类结果进行展示。本申请实施例在对数据库进行分级分类时,考虑到数据库数据的属性信息,在数据库刚上线没有数据值等情况下,能够对数据库中的数据进行有效的分级分类。本方案中抽取部分数据进行数据识别,能够有效解决相关数据中识别海量数据的耗时较长的问题。

Description

数据库分级分类方法、系统、装置及存储介质
技术领域
本申请涉及数据库技术领域,尤其涉及一种数据库分级分类方法、系统、装置及存储介质。
背景技术
随着大数据技术的发展,越来越多的数据被收集起来用于进行大数据分析。为了存储在数据库中的海量数据进行筛选,相关技术主要通过字典、正则匹配、人工标识的方式针对数据库中存储的数据值进行分类分级识别,但是相关技术的方案的准确度和效率都比较底下,难以匹配当前数据量极速增长的现状。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种数据库分级分类方法、系统、装置及存储介质。
第一方面,本申请实施例提供了一种数据库分级分类方法,包括:对数据库中数据属性字段对应的数据进行抽取,获得字段信息;根据所述数据属性字段和所述字段信息,构建数据库综合信息体;对所述数据库综合信息体内的所述字段信息进行数据识别,获得所述字段信息对应的识别标签;根据所述识别标签和预设的分级分类关联树,确定所述字段信息对应的分级分类结果;对所述分级分类结果进行展示。
可选地,所述识别标签包括第一标签和第二标签,所述对所述数据库综合信息体内的数据进行数据识别,获得所述字段信息对应的识别标签,包括:将所述字段信息输入字典识别模型进行第一识别,获得所述第一标签;将在所述第一识别中的未识别字段信息输入关键字识别模型中进行第二识别,获得所述第二标签。
可选地,所述识别标签还包括第三标签,所述将所述第一识别中的未识别字段信息输入关键字识别模型中进行第二识别,获得所述第二标签这一步骤之后,还包括:将在所述第二识别中的所述未识别字段信息输入规则识别模型进行第三识别,获得第三标签;其中,所述第三识别包括正向规则匹配和逆向规则匹配。
可选地,所述识别标签还包括第四标签,将在所述第二识别中的未识别字段信息输入规则识别模型进行第三识别,获得第三标签这一步骤之后,还包括:将在所述第三识别中的所述未识别字段信息进行聚类,确定多组字段信息簇;其中,所述字段信息簇中包含多个所述字段信息;对所述字段信息簇的聚类中心进行人工识别,确定所述字段信息簇中所有字段信息对应的第四标签。
可选地,所述对所述数据库综合信息体内的所述字段信息进行数据识别,获得所述字段信息对应的识别标签,包括:根据所述识别过程中的命中频率和所述所述识别标签的权重,确定各个识别过程的置信度;根据所述置信度,确定需要进行下一阶段识别的所述未识别字段信息。
可选地,所述方法还包括:根据所述分级分类结果配置安全存储策略;根据所述安全存储策略,确定数据库中的敏感分级分类;对所述敏感分级分类进行安全处理;其中,所述安全处理包括定时扫描、数据加密和数据脱敏;完成安全处理后,输出稽核报告。
可选地,所述方法还包括:存储所述敏感分级分类的访问记录;限制所述敏感分级分类的访问权限;存储所述敏感分级分类的数据的流向路径。
第二方面,本申请实施例提供了一种数据库分级分类系统,包括:第一模块,用于对数据库中数据属性字段对应的数据进行抽取,获得字段信息;第二模块,用于根据所述数据属性字段和所述字段信息,构建数据库综合信息体;第三模块,用于对所述数据库综合信息体内的所述字段信息进行数据识别,获得所述字段信息对应的识别标签;第四模块,用于根据所述识别标签和预设的分级分类关联树,确定所述字段信息对应的分级分类结果;第五模块,用于对所述分级分类结果进行展示。
第三方面,本申请实施例提供了一种数据库分级分类装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的数据库分级分类方法。
第四方面,本申请实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现上述的数据库分级分类方法。
本申请实施例的有益效果如下:首先,对数据库中数据属性字段对应的数据进行抽取,获得字段信息;根据数据属性字段和字段信息,构建数据库综合信息体;对数据库综合信息体内的字段信息进行数据识别,获得字段信息对应的识别标签;根据识别标签和预设的分级分类关联树,确定字段信息对应的分级分类结果;对分级分类结果进行展示。本申请实施例在对数据库进行分级分类时,考虑到数据库数据的属性信息,在数据库刚上线没有数据值。或者是数据库中不同字段下的数据值具有相似性的情况下,能够对数据库中的数据进行有效的分级分类。并且,由于本方案中抽取部分数据进行数据识别,能够有效解决相关数据中识别海量数据的耗时较长的问题。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的一种实施环境的示意图;
图2为本申请实施例提供的数据库分级分类方法的步骤流程;
图3为本申请实施例中的识别过程的步骤流程图;
图4为本申请实施例提供的数据库分级分类系统的示意图;
图5为本申请实施例提供的数据库分级分类装置的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
随着大数据技术的发展,越来越多的数据被收集起来用于进行大数据分析。为了存储在数据库中的海量数据进行筛选,相关技术主要通过字典、正则匹配、人工标识的方式针对数据库中存储的数据值进行分类分级识别,但是相关技术的方案的准确度和效率都比较底下,难以匹配当前数据量极速增长的现状。
基于此,本申请实施例提供了一种数据库分级分类方法、系统、装置及存储介质,首先,对数据库中数据属性字段对应的数据进行抽取,获得字段信息;根据数据属性字段和字段信息,构建数据库综合信息体;对数据库综合信息体内的字段信息进行数据识别,获得字段信息对应的识别标签;根据识别标签和预设的分级分类关联树,确定字段信息对应的分级分类结果;对分级分类结果进行展示。本申请实施例在对数据库进行分级分类时,考虑到数据库数据的属性信息,在数据库刚上线没有数据值。或者是数据库中不同字段下的数据值具有相似性的情况下,能够对数据库中的数据进行有效的分级分类。并且,由于本方案中抽取部分数据进行数据识别,能够有效解决相关数据中识别海量数据的耗时较长的问题。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请实施例提供的一种实施环境的示意图,该实施环境中包括应用层、资产系统和识别系统。其中,应用层用于获取资产系统的分级分类信息,并根据分级分类信息执行数据感知、数据稽核、数据防泄漏等多种策略。资产系统中包括数据库和展示界面,资产系统需要对数据库中的数据进行分级分类,并将分级分类结果展示在展示界面中,供用户查阅。识别系统用于对资产系统中获取到的数据进行识别,确定数据对应的识别标签,由资产系统根据识别标签和分级分类关联树确定数据对应的分级分类结果。
图1所示的实施环境中还包括应用层、资产系统和识别系统之间的数据处理过程,该数据处理过程将在下文中完成数据库分级分类方法的阐述后再展开阐述。
基于图1所示的实施环境,实现如图2的数据库分级分类方法。图2为本申请实施例提供的数据库分级分类方法的步骤流程图,该方法包括但不限于步骤S200-S250:
S200、对数据库中数据属性字段对应的数据进行抽取,获得字段信息;
具体地,相关技术中通常针对数据库中数据的具体值进行识别,例如在银行资产系统中,通常需要识别用户的银行卡号,则一般直接对数据进行位数或者是数字排列格式的匹配,确定当前数据是不是银行卡号。但是实际上,录入数据库中的数据库可能为空值,可能有缺位,或者数据值通过了加密或脱敏,在这些情况下,相关技术中根据数据值来进行识别的方案准确率很低。为了完成需要数据识别,还需要花费大量的人力进行人工识别,成本高,效率低。
因此,本申请实施例提出一种数据库分级分类方法,自动完成数据库中数据的分级分类。首先,为了提高分级分类的准确度,本申请实施例提出在识别中结合数据的属性信息。数据的属性信息包括但不限于库名、表名、字段名、字段备注和表备注等等,这些属性信息具体体现为一个个数据属性字段。另外,为了减少分级分类的数据计算量,抽取数据属性字段中的部分数据进行后续识别,这些抽取得到的数据称为字段信息。
在本申请实施例中,可以根据需要调节抽样比例或是抽样个数,例如是抽取当前数据属性字段中10%的数据,或者是抽取当前数据属性字段中的100个数据,本申请实施例不对数据抽取的具体方式作具体限制。
S210、根据数据属性字段和字段信息,构建数据库综合信息体;
具体地,根据步骤S200获取到的数据属性字段和字段信息,构建数据库综合信息体,该数据库综合信息体中存储有数据属性字段和字段信息,以及数据属性字段和字段信息之间的对应关系。由于数据库综合信息体中只包含部分的数据库数据,结构更加灵巧,在进行数据识别的效率也更高。
在一些实施例中,数据库综合信息体为JSON格式,其中schema表示库名,tableName表示表名,tableComment表示表备注,columnName表示字段名称,columnValue表示字段数据值,columnComment表示字段备注。
S220、对数据库综合信息体内的字段信息进行数据识别,获得字段信息对应的识别标签;
具体地,通过上述步骤S210构建好数据库综合信息体后,对对数据库综合信息体内的字段信息进行数据识别。在本申请实施例中,实现的是一种漏斗式的逐层识别,具体识别过程在下文中展开阐述。
参照图3,图3为本申请实施例中的识别过程的步骤流程图,该方法包括但不限于步骤S300-S340:
S300、将字段信息输入字典识别模型进行第一识别,获得第一标签;
具体地,由于本申请实施例实现的是多级的识别过程,对于每一级识别过程所确定的标签,分别确定为第一标签、第二标签、第三标签和第四标签。首先对数据库综合信息体中的字段信息进行字典识别,也就是第一识别。对于不同的行业,预设大量的字典,将这些字典表示为{Key1,Key2....Keyi},将字段信息与字典进行匹配,可以字段信息确定命中字典的频率,再根据该频率确定当前字段的具体识别标签。在不同的识别步中,识别标签的内容可能相同也可能不同,例如在字段识别模型中,识别标签可以是银行名,然后字典中具体列举银行的名称,例如是A银行B分行,A银行C分行,D银行总行等等,通过字段匹配确定当前字段信息是不是属于当前识别标签的内容。
进一步地,由于机器识别可能存在分词或分句方面的错误,在本申请实施例的识别阶段,还引入置信度这一内容。上述内容中提及,数据库综合信息体为JSON格式,其中schema表示库名,tableName表示表名,tableComment表示表备注,columnName表示字段名称,columnValue表示字段数据值,columnComment表示字段备注。则针对每个数据属性信息下的字段信息,都可以得到一个命中频率Freq,Freq满足
Figure BDA0003715187160000051
为了表示不同数据属性信息在数据库中可能存在的比例差异,为不同的数据属性信息设置不同的权重。例如,设tableComment权重为0.05,则命中字典的频率表示为FreqtableComment;设tableName权重为0.05,则命中字典的频率表示为FreqtableName;设columnComment权重为0.2,则命中字典的频率表示为FreqcolumnComment;设columnName权重为0.25,则命中字典的频率表示为FreqcolumnName;设columnValue权重为0.45,则命中字典的频率表示为FreqcolumnValue
根据上述内容,可以计算得到各个识别标签的置信度。用F(tag)表示某一个识别标签的置信度,则F(tag)满足下式:
F(tag)=FreqtableComment×0.05+FreqtableName×0.05+FreqcolumnComment×0.2+FreqcolumnName×0.25+FreqcolumnValue×0.45
根据上式,可以计算出每个识别标签在当前识别步骤中的置信度,也就是得到多个F(tag)。可以理解的是,由于每个字段信息应该只对应一个识别标签,因此,当有多个F(tag)满足预设的置信度阈值,则当前字段信息的识别标签难以确定,作为未识别字段信息进入下一轮的识别中;而当没有一个F(tag)满足预设的置信度阈值,则当前字段信息的识别标签无法通过字典识别进行确定,也作为未识别字段信息进入下一轮的识别中;而当只有一个F(tag)满足预设的置信度阈值,则将该F(tag)对应的识别标签作为当前字段信息的标签。
通过上述字典识别模型进行的第一识别,数据库综合信息体中的部分数据确定了对应的第一标签,而经过第一识别之后,数据库综合信息体还存在一些没有识别完成的字段信息,则这些未识别字段信息自动进入下一阶段的识别。
S310、将在第一识别中的未识别字段信息输入关键字识别模型中进行第二识别,获得第二标签。
具体地,完成第一识别后,第二识别为关键字识别,由关键字识别模型进行识别。在关键字识别模型中预设了大量的关键字,类似于上述步骤S300,对未识别字段信息进行关键字的识别,根据关键字的命中概率确定字段信息对应的识别标签。同样地,也可以根据上述权重,计算本次关键字识别阶段中各个识别标签的置信度,从而确定当前字段信息对应其中一个识别标签,又或是确定当前字段信息依然为未识别字段信息,继续进入下一轮的识别过程中。
本步骤中计算识别标签命中概率和置信度的具体步骤与上述步骤S300中展示的基本相同,在此不再赘述。
S320、将在第二识别中的未识别字段信息输入规则识别模型进行第三识别,获得第三标签;
具体地,通过第一识别和第二识别后,数据库综合信息体中还没有确定识别标签的未识别字段信息将被输入规则识别模型进行第三识别。为了加强对相似内容的识别能力,本申请实施例中的第三识别包括正向规则匹配和逆向规则匹配。例如,对于“用户姓名”这一识别标签,正向规则可以设定为“包含中文”。但是这一正向规则就可能会筛选到其他包含中文的字段内容,因此另外设定逆向规则:不包含除了·以外的特殊符号,且长度不超过25个汉字,且不包含英文字母。又例如,对于“网络账户”这一识别标签,正向规则可以是:包含“中文、英文、数字”中的任意字符,逆向规则就设置为:不包含“″/\[]:;|=,+*?<>”等特殊字符。
这样一来,本申请实施例正向和逆向两个方面加强对字段信息的识别能力,进一步提高第三识别的识别准确度。
另外需要说明的是,第三识别也可以参照上述步骤S310-S320计算识别标签的概率和置信度。但是需要注意,在第三识别这一阶段,频率在正向和逆向规则全部满足的情况下为1,否则为0。其他计算内容与上述步骤相似,在此不再赘述。
S330、将在第三识别中的未识别字段信息进行聚类,确定多组字段信息簇;
具体地,经过上述三层识别,已经可以为数据库综合信息体中的大部分字段信息确定对应的识别标签。而对于经过上述三层识别之后还不能完成识别的未识别字段信息,提供人工识别。
为了降低人工识别的复杂程度,首先对剩余的未识别字段信息进行聚类,可以用相关技术中常见的聚类方法(如k-means聚类方法)进行聚类,聚类完毕后,得到多个字段信息簇,其中,字段信息簇中包含多个字段信息。
S340、对字段信息簇的聚类中心进行人工识别,确定字段信息簇中所有字段信息对应的第四标签。
具体地,若是使用k-means聚类方法进行聚类,每个字段信息簇都会包含一个聚类中心,该聚类中心能够代表当前字段信息簇中所有字段信息。也就是说,只要对该聚类中心进行人工识别,则该聚类中心对应的字段信息簇中的其他字段信息也相当于被识别完毕。本次人工识别得到的识别标签称为第四标签。
在另一些实施例中,由于短文本对于聚类算法的效果较差,因此可以采用拼接文本的方式构造更长的聚类文本。例如,设定分词对象为Content[columnName],则Content[columnName]可以表示为Content[columnName]=TableName+”_”+TableComment+”_”+ColumnValue+”_”+ColumnComment+”_”+ColumnName。对Content[columnName]进行标准化处理,例如同一去除去除特殊字符、去除如“我”、“的”之类的无用词、对“-”“,”“_”等进行切词,对大小写的驼峰点进行切词得到一个词列表WordList[columnName]={word1,word2,....wordn}。
对WordList[columnName]进行去重汇总,得到词汇库,假设其长度为Len,针对每个文本构建文本向量矩阵Matrix[columnName]=[0 1 0 1...0Len]。然后构建权值矩阵,具体是通过TF-IDF将文本向量矩阵转换成对应的词对于全文的权值矩阵,该全文的权值矩阵IMPi具体符合下式:
Figure BDA0003715187160000081
其中,词频
Figure BDA0003715187160000082
表示词条在WordList[columnName]中出现的次数,
Figure BDA0003715187160000083
表示包含的词条的Column的数量+1,j表示Column的总数。
然后,使用层次聚类算法进行分类。采用自底向上的模式,把每个样本当成初始独立的簇,然后找出两个最小距离
Figure BDA0003715187160000084
Ci,Cj表示任意的两个簇,x和y分别表示两个簇中的元素,令最近的簇进行聚类并不断重复,直到类别等于Cluster即可停止。然后,针对Cluster±20进行多次聚类,观察DBI指数(DBI指数是指任意两个簇内样本的平均距离之和除以两个簇的中心点距离,并取最大值)及DI指数(DI指数是指任意两个簇的最近样本间的距离除以簇内样本的最远距离的最大值,并取最小值),根据DBI指数越小越好,DI指数越大越好的原则,找到综合性能拐点,此时的Cluster即为最优分类类别数。根据最优Cluster运行的标签结果,关联分类分级策略,反馈资产系统,由人工对同一类中的某一个字段进行标识与确认,同一类中的其他字段自动继承该类别与级别。
通过上述步骤S300-S340,本申请实施例提供了字段信息的具体识别过程。上述步骤S220的内容已经通过S300-S340阐述完毕,下面开始阐述步骤S230。
S230、根据识别标签和预设的分级分类关联树,确定字段信息对应的分级分类结果;
具体地,完成对字段信息的识别后,根据字段对应的识别标签在预设的分级分类关联树中进行匹配,可以确定字段信息对应的分级分类结果。该分级分类关联树可以表现为以识别标签为节点,以识别标签之间的关系作为边的树形结构。因此确定字段信息的识别标签后,就可以对应确定数据库中同一数据属性字段下的数据的分级分类结果。
S240、对分级分类结果进行展示;
具体地,完成对数据库的分级分类之后,在电脑、手机等前端设备的展示界面中展示分级分类结果,并允许用户对分级分类结果进行纠错。可以理解的是,纠错结果将会反馈到上述的识别过程中,帮助改进识别模型的参数,进一步提升分级分类的准确度。
S250、根据分级分类结果执行稽核流程以及数据防泄漏流程;
具体地,完成对数据库的分级分类之后,就可以根据分级分类结果,对数据库中的数据执行稽核以及数据防泄漏的流程。这部分流程主要在图1中的应用层进行配置。
首先是稽核流程,应用层根据分级分类结果配置安全存储策略,该策略中包括不同类别和不同级别的数据所对应的敏感度,根据敏感度可以确定数据库中的敏感分级分类,这部分敏感分级分类可以是对安全要求比较高的数据,或者是更新频繁的数据。为了保障这部分敏感分级分类的数据的安全,由应用层配置安全处理的相关参数。其中,安全处理包括定时扫描、数据加密和数据脱敏等等内容。每次完成安全处理后,在展示界面输出对应的稽核报告。
其次是数据防泄漏流程,对于敏感分级分类,应用层配置对应的访问控制策略,例如是确定敏感分级分类的访问频率、访问次数等等,又或者是对于大量的导出变更操作进行二次授权,又或者是限制敏感分级分类的访问权限等等。再者,对敏感分级分类的访问记录进行存储,例如记录其访问时间、访问主体、访问对象、操作类型,访问IP等。另外,存储敏感分级分类的数据的流向路径,方便路径溯源策略。
根据上述步骤S200-S250,本申请实施例提供了一种数据库分级分类方法、系统、装置及存储介质,首先,对数据库中数据属性字段对应的数据进行抽取,获得字段信息;根据数据属性字段和字段信息,构建数据库综合信息体;对数据库综合信息体内的字段信息进行数据识别,获得字段信息对应的识别标签;根据识别标签和预设的分级分类关联树,确定字段信息对应的分级分类结果;对分级分类结果进行展示。本申请实施例在对数据库进行分级分类时,考虑到数据库数据的属性信息,在数据库刚上线没有数据值。或者是数据库中不同字段下的数据值具有相似性的情况下,能够对数据库中的数据进行有效的分级分类。并且,由于本方案中抽取部分数据进行数据识别,能够有效解决相关数据中识别海量数据的耗时较长的问题。
另外,结合图1和图2,阐述结合图1所示的实施环境以及图2所示的数据库分级分类方法,阐述该数据库分级分类方法在图1所示的实施环境中的具体过程。首先,在应用层配置安全存储策略用于数据稽核和数据防泄漏;然后,资产系统录入需要扫描的数据库信息,并构建分级分类关建树,抽取数据库数据属性信息下的部分字段信息构建得到数据库综合信息体。将构建好的数据库综合信息体中的字段信息发送到识别系统中进行识别,依次由字典识别模型进行第一识别,由关键字识别模型进行第二识别,由规则识别模型进行第三识别,然后对三轮识别过后仍未确定识别标签的未识别字段信息进行聚类,将聚类得到的字段信息簇返回到资产系统,由人工对聚类中心进行识别;人工识别的结果返回识别系统,获得第四标签返回到资产系统。资产系统经过多轮漏斗式识别后确定了所有识别标签,根据识别标签和分级分类关联树确定分级分类结果。将分级分类结果发送到应用层展示,并由应用层配置的安全存储策略执行数据稽核和数据防泄漏流程。
参照图4,图4为本申请实施例提供的数据库分级分类系统的示意图。该系统400包括第一模块410、第二模块420、第三模块430、第四模块440和第五模块450。第一模块用于对数据库中数据属性字段对应的数据进行抽取,获得字段信息;第二模块用于根据数据属性字段和字段信息,构建数据库综合信息体;第三模块用于对数据库综合信息体内的字段信息进行数据识别,获得字段信息对应的识别标签;第四模块用于根据识别标签和预设的分级分类关联树,确定字段信息对应的分级分类结果;第五模块用于对分级分类结果进行展示。
参考图5,图5为本申请实施例提供的数据库分级分类装置的示意图,该装置500包括至少一个处理器510,还包括至少一个存储器520,用于存储至少一个程序;图5中以一个处理器及一个存储器为例。
处理器和存储器可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请实施例还公开了一种计算机存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现本申请提出的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种数据库分级分类方法,其特征在于,包括:
对数据库中数据属性字段对应的数据进行抽取,获得字段信息;
根据所述数据属性字段和所述字段信息,构建数据库综合信息体;
对所述数据库综合信息体内的所述字段信息进行数据识别,获得所述字段信息对应的识别标签,所述数据识别包括漏斗式的逐层识别,其中包括根据识别过程中的命中频率和所述识别标签的权重,确定各个识别过程的置信度;根据所述置信度,确定需要进行下一阶段识别的未识别字段信息;
根据所述识别标签和预设的分级分类关联树,确定所述字段信息对应的分级分类结果;
对所述分级分类结果进行展示。
2.根据权利要求1所述的数据库分级分类方法,其特征在于,所述识别标签包括第一标签和第二标签,所述对所述数据库综合信息体内的数据进行数据识别,获得所述字段信息对应的识别标签,包括:
将所述字段信息输入字典识别模型进行第一识别,获得所述第一标签;
将在所述第一识别中的未识别字段信息输入关键字识别模型中进行第二识别,获得所述第二标签。
3.根据权利要求2所述的数据库分级分类方法,其特征在于,所述识别标签还包括第三标签,所述将所述第一识别中的未识别字段信息输入关键字识别模型中进行第二识别,
获得所述第二标签这一步骤之后,还包括:
将在所述第二识别中的所述未识别字段信息输入规则识别模型进行第三识别,获得第三标签;
其中,所述第三识别包括正向规则匹配和逆向规则匹配。
4.根据权利要求3所述的数据库分级分类方法,其特征在于,所述识别标签还包括第四标签,将在所述第二识别中的未识别字段信息输入规则识别模型进行第三识别,获得第三标签这一步骤之后,还包括:
将在所述第三识别中的所述未识别字段信息进行聚类,确定多组字段信息簇;
其中,所述字段信息簇中包含多个所述字段信息;
对所述字段信息簇的聚类中心进行人工识别,确定所述字段信息簇中所有字段信息对应的第四标签。
5.根据权利要求1所述的数据库分级分类方法,其特征在于,所述方法还包括:
根据所述分级分类结果配置安全存储策略;
根据所述安全存储策略,确定数据库中的敏感分级分类;
对所述敏感分级分类进行安全处理;
其中,所述安全处理包括定时扫描、数据加密和数据脱敏;
完成安全处理后,输出稽核报告。
6.根据权利要求5所述的数据库分级分类方法,其特征在于,所述方法还包括:
存储所述敏感分级分类的访问记录;
限制所述敏感分级分类的访问权限;
存储所述敏感分级分类的数据的流向路径。
7.一种数据库分级分类系统,其特征在于,包括:
第一模块,用于对数据库中数据属性字段对应的数据进行抽取,获得字段信息;
第二模块,用于根据所述数据属性字段和所述字段信息,构建数据库综合信息体;
第三模块,用于对所述数据库综合信息体内的所述字段信息进行数据识别,获得所述字段信息对应的识别标签,所述数据识别包括漏斗式的逐层识别,其中包括根据识别过程中的命中频率和所述识别标签的权重,确定各个识别过程的置信度;根据所述置信度,确定需要进行下一阶段识别的未识别字段信息;
第四模块,用于根据所述识别标签和预设的分级分类关联树,确定所述字段信息对应的分级分类结果;
第五模块,用于对所述分级分类结果进行展示。
8.一种数据库分级分类装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6中任一项所述的数据库分级分类方法。
9.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-6任一项所述的数据库分级分类方法。
CN202210734483.2A 2022-06-27 2022-06-27 数据库分级分类方法、系统、装置及存储介质 Active CN115168345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210734483.2A CN115168345B (zh) 2022-06-27 2022-06-27 数据库分级分类方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210734483.2A CN115168345B (zh) 2022-06-27 2022-06-27 数据库分级分类方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115168345A CN115168345A (zh) 2022-10-11
CN115168345B true CN115168345B (zh) 2023-04-18

Family

ID=83487088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210734483.2A Active CN115168345B (zh) 2022-06-27 2022-06-27 数据库分级分类方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115168345B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010376B (zh) * 2022-12-30 2023-07-25 北京三维天地科技股份有限公司 一种基于继承策略的主数据建模方法
CN117951747A (zh) * 2024-03-26 2024-04-30 成都飞机工业(集团)有限责任公司 一种自适应脱敏方法、系统、设备及介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760235A (zh) * 2011-04-25 2012-10-31 中国科学院声学研究所 一种基于多视的水下目标分类系统及方法
CN103400159A (zh) * 2013-08-05 2013-11-20 中国科学院上海微系统与信息技术研究所 快速移动场景中的目标分类识别方法及分类器获取方法
CN106022280A (zh) * 2016-05-26 2016-10-12 西安空间无线电技术研究所 一种基于分级不变性特征的典型舰船目标识别方法
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN108959305A (zh) * 2017-05-22 2018-12-07 北京国信宏数科技有限公司 一种基于互联网大数据的事件抽取方法及系统
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置
EP3540641A1 (en) * 2018-03-14 2019-09-18 Bliot Oy Real-time monitoring
CN110427375A (zh) * 2019-07-29 2019-11-08 北京明略软件系统有限公司 字段类别的识别方法及装置
CN111726353A (zh) * 2020-06-17 2020-09-29 华中科技大学 基于数控系统的敏感数据分级保护方法及分级保护系统
CN111723136A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格事件分类分级处置的单维聚类分析方法
CN111783045A (zh) * 2020-06-22 2020-10-16 厦门市美亚柏科信息股份有限公司 基于分级分类的数据授权方法和装置
CN113079069A (zh) * 2021-06-04 2021-07-06 南京邮电大学 一种面向大规模加密网络流量的混合粒度训练及分类方法
CN113095442A (zh) * 2021-06-04 2021-07-09 成都信息工程大学 基于半监督学习在多维度雷达数据下的冰雹识别方法
CN113515771A (zh) * 2021-03-19 2021-10-19 卓望数码技术(深圳)有限公司 数据敏感度判定方法、电子设备及计算机可读存储介质
CN113704306A (zh) * 2021-08-31 2021-11-26 上海观安信息技术股份有限公司 数据库的数据处理方法、装置、存储介质及电子设备
CN114595689A (zh) * 2022-02-28 2022-06-07 深圳依时货拉拉科技有限公司 数据处理方法、装置、存储介质和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946924B2 (en) * 2015-06-10 2018-04-17 Accenture Global Services Limited System and method for automating information abstraction process for documents
CN113795773A (zh) * 2019-03-08 2021-12-14 欧司朗股份有限公司 用于lidar传感器系统的部件,lidar传感器系统,lidar传感器装置,用于lidar传感器系统的方法和用于lidar传感器装置的方法
CN111104466B (zh) * 2019-12-25 2023-07-28 中国长峰机电技术研究设计院 一种海量数据库表快速分类的方法
CN111314292A (zh) * 2020-01-15 2020-06-19 上海观安信息技术股份有限公司 一种基于敏感数据识别的数据安全检查方法
CN114021184A (zh) * 2021-10-28 2022-02-08 深圳乐信软件技术有限公司 一种数据管理方法、装置、电子设备及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760235A (zh) * 2011-04-25 2012-10-31 中国科学院声学研究所 一种基于多视的水下目标分类系统及方法
CN103400159A (zh) * 2013-08-05 2013-11-20 中国科学院上海微系统与信息技术研究所 快速移动场景中的目标分类识别方法及分类器获取方法
CN106022280A (zh) * 2016-05-26 2016-10-12 西安空间无线电技术研究所 一种基于分级不变性特征的典型舰船目标识别方法
CN108959305A (zh) * 2017-05-22 2018-12-07 北京国信宏数科技有限公司 一种基于互联网大数据的事件抽取方法及系统
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
EP3540641A1 (en) * 2018-03-14 2019-09-18 Bliot Oy Real-time monitoring
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置
CN110427375A (zh) * 2019-07-29 2019-11-08 北京明略软件系统有限公司 字段类别的识别方法及装置
CN111723136A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格事件分类分级处置的单维聚类分析方法
CN111726353A (zh) * 2020-06-17 2020-09-29 华中科技大学 基于数控系统的敏感数据分级保护方法及分级保护系统
CN111783045A (zh) * 2020-06-22 2020-10-16 厦门市美亚柏科信息股份有限公司 基于分级分类的数据授权方法和装置
CN113515771A (zh) * 2021-03-19 2021-10-19 卓望数码技术(深圳)有限公司 数据敏感度判定方法、电子设备及计算机可读存储介质
CN113079069A (zh) * 2021-06-04 2021-07-06 南京邮电大学 一种面向大规模加密网络流量的混合粒度训练及分类方法
CN113095442A (zh) * 2021-06-04 2021-07-09 成都信息工程大学 基于半监督学习在多维度雷达数据下的冰雹识别方法
CN113704306A (zh) * 2021-08-31 2021-11-26 上海观安信息技术股份有限公司 数据库的数据处理方法、装置、存储介质及电子设备
CN114595689A (zh) * 2022-02-28 2022-06-07 深圳依时货拉拉科技有限公司 数据处理方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟旭阳等.文献摘要结构功能识别在关键词抽取中的应用.情报工程.2022,79-89. *

Also Published As

Publication number Publication date
CN115168345A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN115168345B (zh) 数据库分级分类方法、系统、装置及存储介质
US20200081899A1 (en) Automated database schema matching
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
CN112445915A (zh) 一种基于机器学习的文书图谱抽取方法、装置及存储介质
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115186650B (zh) 数据检测方法及相关装置
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN115952770A (zh) 一种数据标准化的处理方法、装置、电子设备及存储介质
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN116401343A (zh) 一种数据合规分析方法
CN115878927A (zh) 一种诈骗网站的识别方法、装置、存储介质和电子设备
CN112541075A (zh) 一种警情文本的标准案发时间提取方法及系统
CN112269852A (zh) 生成舆情专题方法、系统及存储介质
US20240143632A1 (en) Extracting information from documents using automatic markup based on historical data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant