CN115599988A - 一种数据识别方法、装置及相关设备 - Google Patents
一种数据识别方法、装置及相关设备 Download PDFInfo
- Publication number
- CN115599988A CN115599988A CN202110774699.7A CN202110774699A CN115599988A CN 115599988 A CN115599988 A CN 115599988A CN 202110774699 A CN202110774699 A CN 202110774699A CN 115599988 A CN115599988 A CN 115599988A
- Authority
- CN
- China
- Prior art keywords
- data
- label
- column
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据识别方法,包括对各列数据进行特征提取,获得特征画像;根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合;对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征;计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度;将所述特征相似度超出第一阈值的标签特征对应的标签作为所述未知列数据的推荐标签;该数据识别方法可以实现更为快速高效的数据识别,进一步实现了更为安全有效的数据管理。本申请还公开了一种数据识别装置、系统及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本申请涉及计算机数据处理技术领域,特别涉及一种数据识别方法,还涉及一种数据识别装置、系统及计算机可读存储介质。
背景技术
数据分类是数据挖掘领域的基本任务,也是数据治理的基本手段之一。据统计,一般中小型企业一个月内积累的数据量可达PB级别,显然,要对如此多的数据做识别、治理、管控、防泄漏,仅通过人力手段效率极为低下。此外,由于数据多样性、管理员水平等诸多限制,更是让有效、安全的数据管理难以实现。
因此,如何实现更为快速高效的数据识别,进而实现更为安全有效的数据管理是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据识别方法,该数据识别方法可以实现更为快速高效的数据识别,进一步实现了更为安全有效的数据管理;本申请的另一目的是提供一种数据识别装置、系统及计算机可读存储介质,均具有上述有益效果。
第一方面,本申请提供了一种数据识别方法,包括:
对各列数据进行特征提取,获得特征画像;
根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合;
对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征;
计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度;
将所述特征相似度超出第一阈值的标签特征对应的标签作为所述未知列数据的推荐标签。
优选地,所述根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合,包括:
在所述列数据中获取所述特征画像命中正则表达式规则的列数据,生成第一聚类簇;
在所述列数据中获取所述特征画像命中枚举规则且枚举值相似度超出第二阈值的列数据,生成第二聚类簇;
对所述列数据中不命中所述正则表达式规则且不命中所述枚举规则的列数据进行聚类,生成第三聚类簇;
对同一聚类簇内的各列数据进行相似度计算,并将所述相似度超出第三阈值的列数据组合生成所述相似列组合。
优选地,所述对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征,包括:
若所述标签列数据的特征画像命中正则表达式规则,则将所述正则表达式规则作为所述标签列数据的标签特征;
若所述标签列数据的特征画像命中枚举规则,则计算各所述标签列数据之间的枚举值相似度,并将所述枚举值相似度超出第四阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的枚举值,将所述合并后的枚举值作为所述合并后的标签列数据的标签特征;
若所述标签列数据的特征画像不命中所述正则表达式规则且不命中所述枚举规则,则计算各所述标签列数据的特征值以及各所述标签列数据之间的相似度,并将所述相似度超出第五阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的特征值,将所述合并后的特征值作为所述合并后的标签列数据的标签特征。
优选地,所述计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度,包括:
若所述未知列数据的特征画像命中正则表达式规则,则计算所述未知列数据的特征画像与命中所述正则表达式规则的各标签特征的相似度;
若所述未知列数据的特征画像命中枚举规则,则计算未知列数据的特征画像与命中所述枚举规则的各标签特征的相似度;
若所述未知列数据的特征画像不命中所述正则表达式规则且不命中所述枚举规则,则计算未知列数据的特征画像与不命中所述正则表达式规则且不命中所述枚举规则的标签特征的相似度。
优选地,所述数据识别方法还包括:
根据所述推荐标签确定对应列数据的机密等级;
当所述机密等级超出预设等级时,发出告警提示。
优选地,所述发出告警提示之前,还包括:
对所述机密等级超出所述预设等级的列数据进行数据源分析,确认所述机密等级所否超出所述预设等级,若是,则执行所述的步骤。
优选地,所述对各列数据进行特征提取,获得特征画像之前,还包括:
对各所述列数据进行预处理;其中,所述预处理包括数据清洗操作、数据过滤操作以及数据采样操作。
第二方面,本申请还公开了一种数据识别装置,包括:
特征提取模块,用于对各列数据进行特征提取,获得特征画像;
相似列计算模块,用于根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合;
特征计算模块,用于对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征;
特征相似度计算模块,用于计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度;
标签推荐模块,用于将所述特征相似度超出第一阈值的标签特征对应的标签作为所述未知列数据的推荐标签。
第三方面,本申请还公开了一种数据识别系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的任一种数据识别方法的步骤。
第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任一种数据识别方法的步骤。
本申请所提供的一种数据识别方法,包括对各列数据进行特征提取,获得特征画像;根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合;对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征;计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度;将所述特征相似度超出第一阈值的标签特征对应的标签作为所述未知列数据的推荐标签。
可见,本申请所提供的数据识别方法,首先利用列数据的特征画像进行数据分类识别,进而基于识别结果进行相似列数据识别,进一步,通过对列数据进行标注计算得到标签特征,最后利用标签特征给未知列数据识别标签,从而实现列数据识别,相较于人工管理方式,该方法可以实现更为快速高效的数据识别,更加有助于实现更为安全有效的数据管理。
本申请所提供的一种数据识别装置、系统及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。
图1为本申请所提供的一种数据识别方法的流程示意图;
图2为本申请所提供的一种数据识别系统的整体架构图;
图3为本申请所提供的一种数据识别方法的数据流图;
图4为本申请所提供的一种特征画像的类别划分示意图;
图5为本申请所提供的一种列数据聚类方法的流程图;
图6为本申请所提供的一种相似标签推荐方法的流程图;
图7为本申请所提供的一种涉密分析方法的流程图;
图8为本申请所提供的一种数据识别装置的结构示意图;
图9为本申请所提供的一种数据识别系统的结构示意图。
具体实施方式
本申请的核心是提供一种数据识别方法,该数据识别方法可以实现更为快速高效的数据识别,进一步实现了更为安全有效的数据管理;本申请的另一核心是提供一种数据识别装置、系统及计算机可读存储介质,也具有上述有益效果。
为了对本申请实施例中的技术方案进行更加清楚、完整地描述,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据识别方法。
请参考图1,图1为本申请所提供的一种数据识别方法的流程示意图,该数据识别方法可包括:
S101:对各列数据进行特征提取,获得特征画像;
本步骤旨在实现列数据的特征提取,以获得各列数据的特征画像(schema)。具体而言,首先可通过梳理数据所在位置(如企业内部数据等)以将各类数据存储至数据仓库形成公共目录;进一步,对公共目录中的数据进行扫描获取各列数据;最后,即可利用特征提取算法对各列数据进行特征提取,获得各自对应的特征画像。其中,特征提取算法的具体类型并不影响本技术方案的实施,本申请对此不做限定。
作为一种优选实施例,上述对各列数据进行特征提取,获得特征画像之前,还可以包括:对各列数据进行预处理;其中,预处理包括数据清洗操作、数据过滤操作以及数据采样操作。
为进一步提高数据识别效率,在对各列数据进行特征提取之前,可以先对各列数据进行预处理操作,该预处理操作包括但不限于数据清洗操作、数据过滤操作以及数据采样操作等,以便于有效去除空数据、重复数据等。由此,通过对列数据进行预处理,可以使数据识别的效率得到有效提升。
S102:根据各特征画像对各列数据进行相似列计算,获得相似列组合;
本步骤旨在实现各列数据之间的相似列计算,即根据特征画像计算任意一列数据与其他列数据之间的相似度,以筛选获得相似度大于预设阈值的列数据作为该列数据的相似列,由此,该列数据与其他与之相似度超出预设阈值的列数据组合为相似列组合。例如,获取到的列数据共有10列,对于每一列数据,均计算其与其他列数据之间的相似度,得到与第一列数据相似度超出预设阈值的列数据为第三列数据、第五列数据以及第七列数据,由此,第一列数据与第三列数据、第五列数据以及第七列数据生成相似列组合,组合内的具体形式可以为“第一列数据--第三列数据、第五列数据、第七列数据”。其中,预设阈值的具体取值并不唯一,由技术人员根据实际需求进行设置即可。
作为一种优选实施例,上述根据各特征画像对各列数据进行相似列计算,获得相似列组合,可以包括:在列数据中获取特征画像命中正则表达式规则的列数据,生成第一聚类簇;在列数据中获取特征画像命中枚举规则且枚举值相似度超出第二阈值的列数据,生成第二聚类簇;对列数据中不命中正则表达式规则且不命中枚举规则的列数据进行聚类,生成第三聚类簇;对同一聚类簇内的各列数据进行相似度计算,并将相似度超出第三阈值的列数据组合生成相似列组合。
本优选实施例提供了一种相似列计算方法。可以理解的是,列数据的特征画像中可包含各种规则与特征,其中,规则可包含正则表达式或枚举,特征可包含统计特征、语义特征甚至是由深度学习训练出的特征等等,因此,可基于这些规则与特征实现相似列计算。具体而言,在获得各列数据的特征画像之后,首先将所有获取的列数据中,其特征画像命中特征表达式规则的列数据筛选出来,生成第一聚类簇。其次,在剩余的列数据中,将特征画像命中枚举规则的列数据筛选出来,并对首次筛选出来的每一列数据进行枚举值计算,进而计算筛选出来的各列数据之间枚举值的相似度,从而二次筛选出来枚举值相似度超出预设阈值(第二阈值)的列数据,由此,将二次筛选出来的列数据生成第二聚类簇。然后,对于既不命中正则表达式规则,也不命中枚举规则的列数据,则可以直接利用聚类算法对其进行聚类,生成第三聚类簇。最后,对于上述获得的每一个聚类簇,均计算聚类簇内各列数据之间的相似度,由此,将相似度超出预设阈值(第三阈值)的列数据组合生成相似列组合。
可以理解的是,上述各类阈值以及后文中所涉及到的各类阈值的具体取值并不影响本技术方案的实施,均可由技术人员根据实际需求进行设定,本申请对此不做限定。
S103:对列数据中设有标签的标签列数据进行特征计算,获得标签特征;
本步骤旨在实现标签特征计算,即对所有列数据中设置有标签的列数据(标签列数据)进行特征计算,获得对应的标签特征。其中,标签列数据中的标签是由用户根据实际情况自主打上的标签,例如,用户将某一列数据标记为标签“姓名”,由此,即可利用特征算法对该列数据进行计算,获得“姓名”标签特征。由此,即可利用标签列数据的标签特征对没有打标签的列数据(下述未知列数据)进行标签推荐,从而实现数据识别。
作为一种优选实施例,上述对列数据中设有标签的标签列数据进行特征计算,获得标签特征,可以包括:若标签列数据的特征画像命中正则表达式规则,则将正则表达式规则作为标签列数据的标签特征;若标签列数据的特征画像命中枚举规则,则计算各标签列数据之间的枚举值相似度,并将枚举值相似度超出第四阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的枚举值,将合并后的枚举值作为合并后的标签列数据的标签特征;若标签列数据的特征画像不命中正则表达式规则且不命中枚举规则,则计算各标签列数据的特征值以及各标签列数据之间的相似度,并将相似度超出第五阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的特征值,将合并后的特征值作为合并后的标签列数据的标签特征。
具体而言,标签特征的计算同样可基于上述规则(正则表达式、枚举等)与特征(统计特征、语义特征等)实现相似列计算。首先,对于特征画像命中正则表达式规则的标签列数据,可以直接将该正则表达式作为标签列数据的标签特征;进一步,对于命中枚举规则的标签列数据,则可以先计算各标签列数据的枚举值,进而计算各标签列数据之间枚举值的相似度,并将枚举值相似度超出预设阈值的标签列数据进行合并,且同时将二者的枚举值合并,由此获得合并后的标签列数据以及合并后的枚举值,此时,将合并后的枚举值作为合并后的标签列数据的标签特征即可;最后,对于既不命中正则表达式规则,也不命中枚举规则的标签列数据,则可以直接计算各标签列数据之间的相似度,同时计算各标签列数据的特征值,当两标签列数据之间的相似度超出预设阈值时,即可将二者进行合并,同时将二者的特征值进行合并,获得合并后的标签列数据以及合并后的特征值,此时,将合并后的特征值作为合并后的标签列数据的标签特征即可。由此,实现了各标签列数据标签特征的计算。
S104:计算相似列组合中未设有标签的未知列数据的特征画像与各标签特征的特征相似度;
S105:将特征相似度超出第一阈值的标签特征对应的标签作为未知列数据的推荐标签。
以上步骤旨在通过对未知列数据(即获取到的列数据中没有设置标签的列数据)的特征画像与各标签特征之间的特征相似度进行计算,以便于将特征相似度超出预设阈值(第一阈值)时的标签特征对应的标签推荐给对应的未知列数据,从而实现未知列数据的标签推荐,完成数据识别。
作为一种优选实施例,上述计算相似列组合中未设有标签的未知列数据的特征画像与各标签特征的特征相似度,可以包括:若未知列数据的特征画像命中正则表达式规则,则计算未知列数据的特征画像与命中正则表达式规则的各标签特征的相似度;若未知列数据的特征画像命中枚举规则,则计算未知列数据的特征画像与命中枚举规则的各标签特征的相似度;若未知列数据的特征画像不命中正则表达式规则且不命中枚举规则,则计算未知列数据的特征画像与不命中正则表达式规则且不命中枚举规则的标签特征的相似度。
本优选实施例提供了一种特征相似度的计算方法。具体而言,对于特征画像命中正则表达式的未知列数据,将其特征画像与同样命中相同正则表达式规则的标签特征进行特征相似度计算,并将特征相似度超出相应阈值的标签特征的标签推荐给该未知列数据,作为该未知列数据的推荐标签,实现对该未知列数据的识别。对于特征画像命中枚举规则的未知列数据,先计算未知列数据的枚举值与同样命中枚举规则的标签特征的枚举值,继而计算二者之间的枚举值相似度,由此,即可将枚举值相似度超出相应阈值的标签特征的标签推荐给该未知列数据,作为该未知列数据的推荐标签,实现对该未知列数据的识别。对于特征画像既不命中正则表达式规则,也不命中枚举规则的未知列数据,则同样获取既不命中正则表达式规则,也不命中枚举规则的标签特征,计算二者之间特征值的相似度,由此,即可将特征值相似度超出相应阈值的标签特征的标签推荐给该未知列数据,作为该未知列数据的推荐标签,实现对该未知列数据的识别。
作为一种优选实施例,该数据识别方法还可以包括:根据推荐标签确定对应列数据的机密等级;当机密等级超出预设等级时,发出告警提示。
为有效保证数据安全,在完成数据识别之后,还可以进一步识别其机密等级,对于机密等级超出预设等级的列数据,可以发出告警提示,以避免数据泄露,保证数据安全。具体而言,可以预先建立数据标签与机密等级之间的映射关系,并在识别获得列数据的推荐标签后,参照该映射关系确定相应的机密等级,进而在机密等级超出预设等级时发出告警提示;当然,若列数据的机密等级未超出预设等级,则直接退出即可。其中,预设等级的具体取值由技术人员根据实际情况进行设定即可。
作为一种优选实施例,上述发出告警提示之前,还可以包括:对机密等级超出预设等级的列数据进行数据源分析,确认机密等级所否超出预设等级,若是,则执行的步骤。
为有效降低告警误报,在发出告警提示之前,还可以对机密等级进行二次确认,即二次分析确定列数据的机密等级是否真的超出预设等级,该过程可利用用户自定义的应用实现,如流量审计等。进一步,在二次确认机密等级确实超出预设等级时,再执行发出告警提示的步骤。
可见,本申请所提供的数据识别方法,首先利用列数据的特征画像进行数据分类识别,进而基于识别结果进行相似列数据识别,进一步,通过对列数据进行标注计算得到标签特征,最后利用标签特征给未知列数据识别标签,从而实现列数据识别,相较于人工管理方式,该方法可以实现更为快速高效的数据识别,更加有助于实现更为安全有效的数据管理。
基于以上各实施例,本申请实施例提供了另一种数据识别方法。
首先,参照图2,图2为本申请所提供的一种数据识别系统的整体架构图,该系统架构包括数据目录生成模块、数据识别与推荐模块以及涉密分析模块。其中,数据目录生成模块用于梳理数据所在位置并将各类数据存储于数据仓库形成数据目录。数据识别与推荐模块用于对待处理数据进行数据特征提取,生成该列数据的特征画像,并利用特征画像计算相似列,得到相似列推荐结果;同时,对用户标注的列数据进行计算得到标签特征;最后,通过载入标签特征与数据特征,计算得到最相似标签并给予推荐。涉密分析模块用于在确认数据类别后,与该类别的机密等级关联得到数据的机密等级,并根据应用分析结果选择是否告警。
进一步,参照图3,图3为本申请所提供的一种数据识别方法的数据流图,其实现流程大致包括:首先,读入列数据,生成该列的特征画像;进一步,批量将列数据及其特征画像输入到列推荐模块,通过聚类产生相似簇后,通过计算列间的相似度推荐出最相似的列,同时根据用户打标签的列数据进行标签特征计算,获得各标签特征,由此,载入标签特征即未知标签列数据,计算与该列最相似的标签并进行标签推荐;最后,确认标签类别后获取到该数据的机密等级,根据应用情况选择是否告警。
以下结合图3,对图2中各模块的具体功能进行展开介绍:
1、数据目录生成模块:
该模块负责梳理企业内部数据整体情况,并将数据按照类型分开,比如结构化数据、文档、图片、加密数据等。需要说明的是,本申请以处理结构化数据为例,后文所有数据均指代结构化数据。此外,该模块还负责将各异构数据源数据处理到统一数据仓库,形成公共数据目录以方便使用管理,其中,在算法读入数据前,还可以负责对数据进行清洗、过滤、采样等操作。
2、数据识别与推荐模块:
(1)数据特征生成单元:
该单元用于生成列数据的特征画像(schema),如图4所示,图4为本申请所提供的一种特征画像的类别划分示意图,schema中可包含各种规则与特征,其中,规则可包含正则表达式或枚举,特征可包含统计特征、语义特征甚至是由深度学习训练出的特征等;当然,除上述列举以外,schema可包含任何可描述该数据的规则、特征或其他。
(2)相似列推荐单元:
可以从特征存储表中加载特征进行特征匹配,具体实现过程可包括:
若一列schema命中规则-正则表达式,则获取所有命中相同规则-正则表达式的列,作为聚类簇;
若一列schema命中规则-枚举,则计算所有列schema枚举值的相似度,并将枚举值相似度大于阈值P0的列,作为聚类簇;其中,枚举值相似度的计算方式可以采用单元格或字符级介卡德距离,也可以直接将枚举值按自然序拼接为字符串计算字符串相似度,比如jaro-levenstein距离;
若一列schema既没有命中规则-正则表达式,又没有命中规则-枚举,则将schema传入聚类算法进行聚类,如图5所示,图5为本申请所提供的一种列数据聚类方法的流程图,通过将数据特征输入聚类算法生成聚类簇;其中,聚类算法可以选择层次聚类,DBSCAN(Density-Based Spatial Clustering of Applications with Noise,一种基于密度的聚类算法),BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies,利用层次方法的平衡迭代规约和聚类)等,在选择聚类算法时可以是单算法,也可以是多个算法结合,比如当数据量小于N_AGG时,可以采用层次聚类,反之采用DBSCAN,另外,不同的聚类算法适用于不同的场景,可按需进行选择;
将各聚类簇进行合并,获得最终的聚类簇结果;对于每一个聚类簇,对其中的列数据两两计算相似度,获得任意一列与其他列的相似度后,过滤出相似度大于阈值P1的列作为该列的相似列推荐结果。其中,规则-正则表达式默认推荐相似度值可自由设置(比如为1);规则-枚举默认推荐相似度值可自由设置(比如为0.99),当然也可以将上述计算的枚举值相似度作为相似度结果;聚类算法产生的簇则可以利用欧式距离或js散度(衡量两个分布的相似性)来计算相似度。
(3)标签特征生成单元:
该单元需要与用户进行交互,即用户针对上述已提取特征的列打标签,比如将数据库d1第3列以及数据库d2第1列标记为标签“姓名”,那么把对应列特征输入算法,即可计算“姓名”标签特征,具体实现过程可以包括:
若某一列schema命中规则-正则表达式,则该规则-正则表达式即可作为标签特征的规则-正则表达式,否则该标签特征的规则-正则表达式为空;
若某一列schema命中规则-枚举,则计算规则-枚举值的相似度,并将枚举值相似度大于阈值P2的列的枚举值合并,合并方式为列表合并,否则不合并,进而将合并后的枚举值作为标签特征;
若某一列既没有命中规则-正则表达式,又没有命中规则-枚举,则计算列间的相似度,若相似度大于阈值P3,则将特征值合并,合并方式为取均值或中位数,否则不合并,进而将合并后的特征值作为标签特征。
(4)相似标签推荐单元:
请参考图6,图6为本申请所提供的一种相似标签推荐方法的流程图,通过加载标签特征表与未知数据特征存储表,读入相关数据,进行相似标签分析与推荐,其具体实现流程可以包括:
若某一列schema命中规则-正则表达式,且匹配到某一标签特征同样命中该规则-正则表达式,则可以将该标签作为该列的推荐标签;
若某一列schema命中规则-枚举,则计算所有标签特征下规则-枚举值的相似度,并将枚举值相似度最大且大于阈值P4的标签作为该列的推荐标签;
若某一列既没有命中规则-正则表达式,又没有命中规则-枚举,则可以直接利用标签特征值计算相似度,并将相似度最高且大于阈值P5的前M个标签作为该列的推荐标签。
3、涉密分析模块:
请参考图7,图7为本申请所提供的一种涉密分析方法的流程图,从数据识别与推荐模块获取到数据类别之后,根据数据类别与机密等级之间的映射关系获取到该类别数据的机密等级,若机密等级低则可以直接退出,并分析下一份文件;若机密等级高,则进入到数据源分析,该数据源分析可以是用户自定义的应用,如流量审计等,以尽可能降低告警误报,确认机密等级是否的确过高,若是则产生告警,同时可以输出安全事件提交给用户,否则直接退出,分析下一份文件。
基于上述数据识别系统执行数据识别方法,例如,参考表1,表1为本申请所提供的一种列数据信息表:
表1一种列数据信息表
序号 | 名称 | 数据量 | 敏感级别 |
0 | 姓名 | 10万 | 低 |
1 | 联系方式1 | 10万 | 高 |
2 | 居住地址 | 10万 | 高 |
3 | 身份证号 | 10万 | 高 |
4 | 银行卡号 | 10万 | 高 |
5 | 紧急联系方式2 | 10万 | 高 |
6 | 紧急联系人 | 10万 | 高 |
根据表1可知,该批未知数据包含6个字段,每个字段10万数据,假设上述数据已做好数据目录,可直接调用算法,那么利用上述方案实现数据识别与涉密告警的具体步骤可以包括:
1、将上述每个字段经过采样后输入到数据特征生成模块,每个列生成1个schema,每个schema中包含规则-正则表达式或规则-枚举或特征值;
2、将上述字段生成的schema输入到相似列推荐单元,分别根据规则-正则表达式、规则-枚举、特征值生成对应的聚类簇,最后根据聚类簇生成相应列推荐,比如0和6互相推荐,1和5互相推荐,其他列无推荐;
3、用户分别对0和1打标签为姓名和电话,通过根据标签特征生成单元计算姓名和电话的标签特征;
4、对于其余列,分别计算其与姓名和电话的相似度,发现5可以推荐为电话,6可以推荐为姓名,用户接受;
5、确认数据标签与机密等级,根据用户自定义数据源,比如通过流量审计发现有人在微信里批量发送了紧急联系方式2(标签为电话),则需要告警生成安全事件,反馈给客户。
可见,本申请实施例所提供的数据识别方法,首先利用列数据的特征画像进行数据分类识别,进而基于识别结果进行相似列数据识别,进一步,通过对列数据进行标注计算得到标签特征,最后利用标签特征给未知列数据识别标签,从而实现列数据识别,相较于人工管理方式,该方法可以实现更为快速高效的数据识别,更加有助于实现更为安全有效的数据管理。
为解决上述技术问题,本申请还提供了一种数据识别装置,请参考图8,图8为本申请所提供的一种数据识别装置的结构示意图,该数据识别装置可包括:
特征提取模块1,用于对各列数据进行特征提取,获得特征画像;
相似列计算模块2,用于根据各特征画像对各列数据进行相似列计算,获得相似列组合;
特征计算模块3,用于对列数据中设有标签的标签列数据进行特征计算,获得标签特征;
特征相似度计算模块4,用于计算相似列组合中未设有标签的未知列数据的特征画像与各标签特征的特征相似度;
标签推荐模块5,用于将特征相似度超出第一阈值的标签特征对应的标签作为未知列数据的推荐标签。
可见,本申请实施例所提供的数据识别装置,首先利用列数据的特征画像进行数据分类识别,进而基于识别结果进行相似列数据识别,进一步,通过对列数据进行标注计算得到标签特征,最后利用标签特征给未知列数据识别标签,从而实现列数据识别,相较于人工管理方式,该方法可以实现更为快速高效的数据识别,更加有助于实现更为安全有效的数据管理。
作为一种优选实施例,上述相似列计算模块2可具体用于在列数据中获取特征画像命中正则表达式规则的列数据,生成第一聚类簇;在列数据中获取特征画像命中枚举规则且枚举值相似度超出第二阈值的列数据,生成第二聚类簇;对列数据中不命中正则表达式规则且不命中枚举规则的列数据进行聚类,生成第三聚类簇;对同一聚类簇内的各列数据进行相似度计算,并将相似度超出第三阈值的列数据组合生成相似列组合。
作为一种优选实施例,上述特征计算模块3可具体用于若标签列数据的特征画像命中正则表达式规则,则将正则表达式规则作为标签列数据的标签特征;若标签列数据的特征画像命中枚举规则,则计算各标签列数据之间的枚举值相似度,并将枚举值相似度超出第四阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的枚举值,将合并后的枚举值作为合并后的标签列数据的标签特征;若标签列数据的特征画像不命中正则表达式规则且不命中枚举规则,则计算各标签列数据的特征值以及各标签列数据之间的相似度,并将相似度超出第五阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的特征值,将合并后的特征值作为合并后的标签列数据的标签特征。
作为一种优选实施例,上述特征相似度计算模块4可具体用于若未知列数据的特征画像命中正则表达式规则,则计算未知列数据的特征画像与命中正则表达式规则的各标签特征的相似度;若未知列数据的特征画像命中枚举规则,则计算未知列数据的特征画像与命中枚举规则的各标签特征的相似度;若未知列数据的特征画像不命中正则表达式规则且不命中枚举规则,则计算未知列数据的特征画像与不命中正则表达式规则且不命中枚举规则的标签特征的相似度。
作为一种优选实施例,该数据识别装置还可包括告警模块,用于根据推荐标签确定对应列数据的机密等级;当机密等级超出预设等级时,发出告警提示。
作为一种优选实施例,该数据识别装置还可包括告警确认模块,用于在上述发出告警提示之前,对机密等级超出预设等级的列数据进行数据源分析,确认机密等级所否超出预设等级,若是,则执行的步骤。
作为一种优选实施例,该数据识别装置还可包括数据预处理模块,用于在上述对各列数据进行特征提取,获得特征画像之前,对各列数据进行预处理;其中,预处理包括数据清洗操作、数据过滤操作以及数据采样操作。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述技术问题,本申请还提供了一种数据识别系统,请参考图9,图9为本申请所提供的一种数据识别系统的结构示意图,该数据识别设备可包括:
存储器10,用于存储计算机程序;
处理器20,用于执行计算机程序时可实现如上述任意一种数据识别方法的步骤。
对于本申请提供的系统的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种数据识别方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请的保护范围内。
Claims (10)
1.一种数据识别方法,其特征在于,包括:
对各列数据进行特征提取,获得特征画像;
根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合;
对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征;
计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度;
将所述特征相似度超出第一阈值的标签特征对应的标签作为所述未知列数据的推荐标签。
2.根据权利要求1所述的数据识别方法,其特征在于,所述根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合,包括:
在所述列数据中获取所述特征画像命中正则表达式规则的列数据,生成第一聚类簇;
在所述列数据中获取所述特征画像命中枚举规则且枚举值相似度超出第二阈值的列数据,生成第二聚类簇;
对所述列数据中不命中所述正则表达式规则且不命中所述枚举规则的列数据进行聚类,生成第三聚类簇;
对同一聚类簇内的各列数据进行相似度计算,并将所述相似度超出第三阈值的列数据组合生成所述相似列组合。
3.根据权利要求1所述的数据识别方法,其特征在于,所述对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征,包括:
若所述标签列数据的特征画像命中正则表达式规则,则将所述正则表达式规则作为所述标签列数据的标签特征;
若所述标签列数据的特征画像命中枚举规则,则计算各所述标签列数据之间的枚举值相似度,并将所述枚举值相似度超出第四阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的枚举值,将所述合并后的枚举值作为所述合并后的标签列数据的标签特征;
若所述标签列数据的特征画像不命中所述正则表达式规则且不命中所述枚举规则,则计算各所述标签列数据的特征值以及各所述标签列数据之间的相似度,并将所述相似度超出第五阈值的标签列数据进行合并,获得合并后的标签列数据和合并后的特征值,将所述合并后的特征值作为所述合并后的标签列数据的标签特征。
4.根据权利要求3所述的数据识别方法,其特征在于,所述计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度,包括:
若所述未知列数据的特征画像命中正则表达式规则,则计算所述未知列数据的特征画像与命中所述正则表达式规则的各标签特征的相似度;
若所述未知列数据的特征画像命中枚举规则,则计算未知列数据的特征画像与命中所述枚举规则的各标签特征的相似度;
若所述未知列数据的特征画像不命中所述正则表达式规则且不命中所述枚举规则,则计算未知列数据的特征画像与不命中所述正则表达式规则且不命中所述枚举规则的标签特征的相似度。
5.根据权利要求1至4任意一项所述的数据识别方法,其特征在于,还包括:
根据所述推荐标签确定对应列数据的机密等级;
当所述机密等级超出预设等级时,发出告警提示。
6.根据权利要求5所述的数据识别方法,其特征在于,所述发出告警提示之前,还包括:
对所述机密等级超出所述预设等级的列数据进行数据源分析,确认所述机密等级所否超出所述预设等级,若是,则执行所述的步骤。
7.根据权利要求1所述的数据识别方法,其特征在于,所述对各列数据进行特征提取,获得特征画像之前,还包括:
对各所述列数据进行预处理;其中,所述预处理包括数据清洗操作、数据过滤操作以及数据采样操作。
8.一种数据识别装置,其特征在于,包括:
特征提取模块,用于对各列数据进行特征提取,获得特征画像;
相似列计算模块,用于根据各所述特征画像对各所述列数据进行相似列计算,获得相似列组合;
特征计算模块,用于对所述列数据中设有标签的标签列数据进行特征计算,获得标签特征;
特征相似度计算模块,用于计算所述相似列组合中未设有所述标签的未知列数据的特征画像与各所述标签特征的特征相似度;
标签推荐模块,用于将所述特征相似度超出第一阈值的标签特征对应的标签作为所述未知列数据的推荐标签。
9.一种数据识别系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774699.7A CN115599988A (zh) | 2021-07-08 | 2021-07-08 | 一种数据识别方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774699.7A CN115599988A (zh) | 2021-07-08 | 2021-07-08 | 一种数据识别方法、装置及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115599988A true CN115599988A (zh) | 2023-01-13 |
Family
ID=84841500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110774699.7A Pending CN115599988A (zh) | 2021-07-08 | 2021-07-08 | 一种数据识别方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599988A (zh) |
-
2021
- 2021-07-08 CN CN202110774699.7A patent/CN115599988A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765603B (zh) | 一种结合系统日志与起源图的异常溯源方法 | |
CN111178005B (zh) | 数据处理系统、方法及存储介质 | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
CN113268768B (zh) | 一种敏感数据的脱敏方法、装置、设备及介质 | |
CN113011889A (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN112765673A (zh) | 一种敏感数据统计方法及相关装置 | |
CN110046188A (zh) | 业务处理方法及其系统 | |
CN113435859A (zh) | 信访件处理方法、装置、电子设备和计算机可读介质 | |
CN112016317A (zh) | 基于人工智能的敏感词识别方法、装置及计算机设备 | |
US11822578B2 (en) | Matching machine generated data entries to pattern clusters | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116361840A (zh) | 一种银行自助设备数据安全管理系统 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN115599988A (zh) | 一种数据识别方法、装置及相关设备 | |
CN111428041A (zh) | 案件摘要生成方法、装置、系统和存储介质 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN113361585A (zh) | 一种基于有监督学习算法优化筛选线索的方法 | |
CN113987206A (zh) | 异常用户的识别方法、装置、设备及存储介质 | |
CN112132693A (zh) | 交易验证方法、装置、计算机设备与计算机可读存储介质 | |
CN117493466B (zh) | 财务数据同步方法及系统 | |
CN112732948B (zh) | 身份验证方法、装置及存储介质 | |
CN114328271A (zh) | 测试方法、装置、设备及存储介质 | |
CN117610037A (zh) | 基于聚类模型的敏感文件识别处置方法及系统 | |
CN111753331A (zh) | 数据漂白方法和装置 | |
CN117037167A (zh) | 基于人工智能的敏感信息检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |