CN115618415A - 敏感数据识别方法、装置、电子设备和存储介质 - Google Patents

敏感数据识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115618415A
CN115618415A CN202211316411.2A CN202211316411A CN115618415A CN 115618415 A CN115618415 A CN 115618415A CN 202211316411 A CN202211316411 A CN 202211316411A CN 115618415 A CN115618415 A CN 115618415A
Authority
CN
China
Prior art keywords
data
sensitive data
sensitive
target
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211316411.2A
Other languages
English (en)
Inventor
常青
郭小宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211316411.2A priority Critical patent/CN115618415A/zh
Publication of CN115618415A publication Critical patent/CN115618415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明实施例提供敏感数据识别方法、装置、电子设备和存储介质,该方法包括:当接收到数据脱敏指令时,获取待识别数据,并将其导入至基于场景和类别构建得到的识别模型;通过识别模型识别待识别数据,得到初始敏感数据;提取初始敏感数据的特征关键词,并将特征关键词转换为特征向量;计算初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;当根据目标余弦值,确定初始敏感数据为目标敏感数据时,针对目标敏感数据进行脱敏处理。本发明实施例基于场景和类别构建识别模型,识别模型具有针对性,然后结合特征向量进一步识别处理,可极大提高识别效率和准确性,由此解决现有技术中无法对敏感数据进行高效且精准的识别问题。

Description

敏感数据识别方法、装置、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种敏感数据识别方法、一种敏感数据识别装置、一种电子设备和一种计算机可读存储介质。
背景技术
敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。敏感数据包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP(Internet Protocol Address,互联网协议地址)地址列表等。因此,对敏感数据的保护尤为重要,敏感数据保护方案的核心部分就是从海量的数据中挑选出敏感数据,完成对敏感数据的精准识别。
现有技术中一般是基于字典匹配方法和人工识别方法,对敏感数据进行识别发现,虽然其可以进行简单的敏感数据发现,但是现有技术中均存在着识别精度低、识别效率不高的问题,无法对不同的敏感数据进行高效精准的识别。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的敏感数据识别方法。
本发明实施例还提供了一种敏感数据识别装置、电子设备和存储介质,以保证上述方法的实施。
为了解决上述问题,本发明实施例公开了一种敏感数据识别方法,所述方法包括:
当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
可选地,所述根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据,包括:
比较所述目标余弦值和预设余弦值;
若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。
可选地,所述提取所述初始敏感数据的特征关键词,包括:
根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
可选地,所述将所述特征关键词转换为特征向量,包括:
采用词频-逆向文件频率TF-IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
可选地,所述获取待识别数据,包括:
获取待识别文本;
确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;
基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。
可选地,所述识别模型通过如下方式构建得到:
获取应用场景信息;
从所述应用场景信息中提取多个场景关键词;
基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据;
根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息;
采用所述应用场景信息和所述类别信息构建识别模型。
可选地,所述根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息,包括:
基于所述各个场景关键词在所述预置敏感数据样本中进行场景匹配,分别获得所述各个场景关键词对应场景的目标敏感样本;
将所述多个敏感关联数据和所述对应场景的目标敏感样本进行聚类;
若某一敏感关联数据与所述对应场景的目标敏感样本聚为一类,则依据所述对应场景的目标敏感样本所属的类别,为所述某一敏感关联数据生成标记信息;
将所述多个敏感关联数据对应的标记信息作为类别信息。
可选地,所述方法还包括:
对所述目标敏感数据进行特性分析,得到目标特性数据;
采用所述目标特性数据对所述识别模型进行更新,以优化所述识别模型。
本发明实施例还公开了一种敏感数据识别装置,所述装置包括:
待识别数据导入模块,用于当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
待识别数据识别模块,用于通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
转换模块,用于提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
目标余弦值计算模块,用于计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
目标敏感数据确定模块,用于根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
脱敏处理模块,用于当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
可选地,所述目标敏感数据确定模块包括:
比较子模块,用于比较所述目标余弦值和预设余弦值;
初始敏感数据为目标敏感数据的确定子模块,若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
初始敏感数据不为目标敏感数据的确定子模块,若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。
可选地,所述转换模块包括:
特征关键词提取子模块,用于根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
可选地,所述转换模块包括:
转换子模块,用于采用词频-逆向文件频率TF-IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
可选地,所述待识别数据导入模块包括:
待识别文本获取子模块,用于获取待识别文本;
识别场景确定子模块,用于确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;
文本数据抓取子模块,用于基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。
可选地,所述识别模型通过如下模块构建得到:
应用场景信息获取模块,用于获取应用场景信息;
场景关键词提取模块,用于从所述应用场景信息中提取多个场景关键词;
敏感关联数据获得模块,用于基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据;
敏感关联数据分类模块,用于根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息;
识别模型构建模块,用于采用所述应用场景信息和所述类别信息构建识别模型。
可选地,所述敏感关联数据分类模块包括:
目标敏感样本获得子模块,用于基于所述各个场景关键词在所述预置敏感数据样本中进行场景匹配,分别获得所述各个场景关键词对应场景的目标敏感样本;
聚类子模块,用于将所述多个敏感关联数据和所述对应场景的目标敏感样本进行聚类;
标记信息生成子模块,用于若某一敏感关联数据与所述对应场景的目标敏感样本聚为一类,则依据所述对应场景的目标敏感样本所属的类别,为所述某一敏感关联数据生成标记信息;
类别信息确定子模块,用于将所述多个敏感关联数据对应的标记信息作为类别信息。
可选地,所述装置还包括:
特性分析模块,用于对所述目标敏感数据进行特性分析,得到目标特性数据;
识别模型更新模块,用于采用所述目标特性数据对所述识别模型进行更新,以优化所述识别模型。
本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的敏感数据识别方法。
本发明实施例还公开了一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的敏感数据识别方法。
与现有技术相比,本发明实施例包括以下优点:
在本发明实施例中,当接收到数据脱敏指令时,获取待识别数据,并将待识别数据导入至预先构建的识别模型;识别模型基于应用场景信息和类别信息进行构建得到;通过识别模型对待识别数据进行识别,得到初始敏感数据;提取初始敏感数据的特征关键词,并将特征关键词转换为特征向量;计算初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;根据目标余弦值,确定初始敏感数据是否为目标敏感数据;当确定初始敏感数据为目标敏感数据时,针对目标敏感数据进行脱敏处理。本发明实施例基于场景和类别构建识别模型,识别模型具有针对性,然后结合特征向量进一步识别处理,可极大提高识别效率和准确性,由此解决现有技术中无法对敏感数据进行高效且精准的识别问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种敏感数据识别方法的步骤流程图;
图2是本发明实施例提供的识别模型构建方法的步骤流程图;
图3是本发明实施例提供的一种敏感数据识别装置的结构框图;
图4是本发明实施例中提供的识别模型构建装置的结构框图;
图5是本发明实施例提供的电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明实施例提供的一种敏感数据识别方法的步骤流程图,该方法具体可以包括如下步骤:
步骤101,当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到。
在本发明实施例中,可以应用于敏感数据识别系统,敏感数据识别系统包含有预先构建的识别模型,识别模型可以包括多个,每个识别模型分别基于不同的应用场景信息以及不同的类别信息进行构建得到。
当用户想要针对敏感数据进行脱敏处理时,可以向敏感数据识别系统发送数据脱敏指令,敏感数据识别系统响应数据脱敏指令,先从海量的文本数据中获取待识别数据,然后将待识别数据导入到识别模型中进行处理。具体地,可以将待识别数据分别导入到不同的识别模型中进行处理。
本发明的一个可选实施例中,步骤101可以包括以下子步骤:
子步骤S11,获取待识别文本;
子步骤S12,确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;
子步骤S13,基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。
在本发明实施例中,为了进一步提高场景识别的精度,可以基于历史场景下的数据识别情况,预先设定不同的识别场景所对应的识别抓取范围,识别抓取范围可以用于限定每次抓取待识别数据的数据量长短大小,从而提高对应场景下的数据抓取后的识别效率。
在具体实现中,可以先获取待识别文本,待识别文本包含有海量的文本数据,其中,有些文本数据是属于普通数据,即非敏感数据,但是有些文本数据是属于敏感数据,所以需要从中识别出属于敏感数据的文本数据。具体地,可以先确定待识别文本所属的识别场景,不同的识别场景具有不同的识别抓取范围,在确定待识别文本所属的识别场景后,可以基于所确定的识别抓取范围,从待识别文本中抓取特定数据量的文本数据,再将每次抓取的文本数据作为待识别数据。
步骤102,通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据。
在本发明实施例中,可以将待识别数据分别导入到不同的识别模型中进行处理,也可以基于在先确定的待识别文本所属的识别场景,将待识别数据导入到相应的识别模型中进行处理。
每个识别模型均可以用于对待识别数据进行初始识别,由此得到初始敏感数据。其中,由于识别模型是基于场景和类别进行构建得到的,因此在将待识别数据分别导入到不同的识别模型中进行处理后,不同的识别模型所输出的初始敏感数据的识别精度是不同的。特别地,同一场景的识别模型的识别精度最高。换言之,基于在先确定的待识别文本所属的识别场景,将待识别数据导入到相应的识别模型中进行处理,该相应的识别模型所输出的初始敏感数据的识别精度是最高的,因此本发明实施例可以优选选取与待识别文本的场景匹配的识别模型所输出的初始敏感数据。
步骤103,提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量。
在本发明实施例中,虽然通过识别模型进行识别可以得到初始敏感数据,但是为了进一步提高识别精准性,可以结合特征向量进一步对初始敏感数据进行识别处理。具体地,可以先提取初始敏感数据的特征关键词,然后可以将特征关键词转换为特征向量,由此得到初始敏感数据的特征向量。
本发明的一个可选实施例中,步骤103可以包括以下子步骤:
子步骤S21,根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
在本发明实施例中,可以预先基于对历史识别场景下的历史敏感数据进行分析,提取得到历史敏感数据对应的敏感数据特征,然后可以将提取得到的敏感数据特征作为预置敏感数据特征。
在获得初始敏感数据后,可以基于预置敏感数据特征,针对初始敏感数据进行特征关键词的提取,以便进行后续的进一步分析识别,大大提高识别效率,同时也可减少计算资源消耗。
本发明的一个可选实施例中,步骤103可以包括以下子步骤:
子步骤S31,采用词频-逆向文件频率TF-IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
为了将机器学习算法或统计技术应用到任何形式的文本上,可以将文本转化为数字表示或向量表示,这种数字表示或向量表示能够描绘出文本的显著特征。本发明实施例可以采用TF-IDF算法,对初始敏感数据的特征关键词进行计算,由此初始敏感数据可以使用向量表示,得到初始敏感数据的特征向量,以便进行下一步的目标确定。
需要说明的是,TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)是一种用于信息检索(Information Retrieval)与文本挖掘(Text Mining)的常用加权技术,它是一种用于将文本转化为有意义的数字表示或向量表示的算法。
步骤104,计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值。
在本发明实施例中,可以将历史敏感数据以及常见的敏感数据作为预置敏感数据样本,预置敏感数据样本包含有不同类别的敏感数据样本,本发明实施例可以将初始敏感数据的特征向量分别与每个类别的敏感数据样本的特征向量进行计算,得到不同的目标余弦值。特别地,同一类别的目标余弦值的值最大,因此本发明实施例可以优选选取与初始敏感数据的类别匹配的目标余弦值。
步骤105,根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据。
在本发明实施例中,在计算得到目标余弦值后,可以根据目标余弦值,确定初始敏感数据是否为目标敏感数据。本发明实施例通过余弦相似值进一步确定目标敏感数据,由此进一步提高识别精度。
本发明的一个可选实施例中,步骤105可以包括以下子步骤:
子步骤S41,比较所述目标余弦值和预设余弦值;
子步骤S42,若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
子步骤S43,若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。
在本发明实施例中,可以预先设定一预设余弦值,通过比较目标余弦值和预设余弦值,确定初始敏感数据是否为目标敏感数据。
如果目标余弦值大于或等于预设余弦值,说明识别模型识别准确,由此可以确定初始敏感数据是目标敏感数据;如果目标余弦值小于预设余弦值,说明识别模型识别存在误差,由此可以确定初始敏感数据不是目标敏感数据,即初始敏感数据属于非敏感数据。
步骤106,当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
在本发明实施例中,在确定初始敏感数据是目标敏感数据后,敏感数据识别系统可以针对目标敏感数据进行脱敏处理,以便确保数据安全。
需要说明的是,数据脱敏是指对敏感数据通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等个人隐私数据都需要进行数据脱敏,又如企业的经营情况,企业的网络结构、IP地址列表等企业或社会机构不适合公布的数据都需要进行数据脱敏。
在目标敏感数据进行脱敏处理中,可以根据不同的数据使用场景,选择相应的数据脱敏方式,数据脱敏方式可以包括数据替换、掩码屏蔽、随机化、泛化、平均化、偏移取整中的任一种。示例性地,掩码屏蔽方式可以使用* 掩盖部分数据,如保留身份证号码前6位代表地区信息的数字,其余用*代替,被掩码屏蔽的部分可以根据需要进行调整。
参照图2,示出了本发明实施例提供的识别模型构建方法的步骤流程图,所述识别模型可以通过如下方式构建得到:
步骤201,获取应用场景信息。
在本发明实施例中,可以预先构建不同的识别模型,每个识别模型分别基于不同的应用场景信息以及不同的类别信息进行构建得到。具体地,可以先向敏感数据识别系统录入应用场景信息,应用场景信息可以包括场景类别、应用领域、场景需求、应用区间中的至少一种。
在一种示例中,比如5G行业应用领域中的医疗、教育场景下的一些敏感数据识别,其中,医疗和教育领域对敏感数据的定义是不一样的,标准也不同,且即使在同一领域,也是分了不同的应用场景,比如在教育领域中,学生的上网信息、学生的学籍管理信息、学生的防控信息以及学校的增值业务的数据信息等,均属于不同场景类型的信息。
本发明实施例可以将不同场景类型的信息作为不同的应用场景信息,比如学生的上网信息可以作为应用场景信息1,学生的学籍管理信息可以作为应用场景信息2,学生的防控信息可以作为应用场景信息3,学校的增值业务的数据信息可以作为应用场景信息4,然后可以将应用场景信息1~4 分别录入到敏感数据识别系统,以构建不同的识别模型。
需要说明的是,应用场景信息是从样本文本数据中抓取得到的,在抓取应用场景信息前,可以预先设定数据抓取阈值,数据抓取阈值可以通过历史待识别数据的抓取信息及其对应的历史敏感数据的识别结果,来确定数据抓取阈值,从而将数据抓取阈值作为参数指标对识别模型进行优化。
在具体实现中,为了进一步提高对敏感数据识别的效率,可以基于历史数据进行分析统计,得到合理的数据抓取阈值。其中,数据抓取阈值可以用于限定每次抓取应用场景信息的数据量长短大小,进而确定识别模型的每一次的识别处理数量,对识别模型进行优化,从而提高后续的识别效率,避免数据量过大造成数据识别误差。
步骤202,从所述应用场景信息中提取多个场景关键词。
在本发明实施例中,每个应用场景信息均涉及一些敏感数据,比如姓名、身份证号码、手机号码、IP地址等敏感数据,本发明实施例可以从每个应用场景信息中提取多个敏感数据,每个敏感数据均可以作为场景关键词。
步骤203,基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据。
在本发明实施例中,在提取得到多个场景关键词后,可以基于每个场景关键词,在预置的敏感关联数据库中进行场景匹配,由此得到对应的敏感关联数据。其中,敏感关联数据可以包括场景信息、敏感词、词性、词频、相似词、相同语义词中的至少一种。
本发明实施例根据场景关键词匹配对应场景下关联的多个敏感关联数据,以便后续基于不同场景快速地进行数据分类。
步骤204,根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息。
在本发明实施例中,在得到敏感关联数据后,可以基于每个场景关键词和预置敏感数据样本,对多个敏感关联数据进行分类,由此得到这些敏感关联数据的类别信息。
本发明的一个可选实施例中,步骤204可以包括以下子步骤:
子步骤S51,基于所述各个场景关键词在所述预置敏感数据样本中进行场景匹配,分别获得所述各个场景关键词对应场景的目标敏感样本;
子步骤S52,将所述多个敏感关联数据和所述对应场景的目标敏感样本进行聚类;
子步骤S53,若某一敏感关联数据与所述对应场景的目标敏感样本聚为一类,则依据所述对应场景的目标敏感样本所属的类别,为所述某一敏感关联数据生成标记信息;
子步骤S54,将所述多个敏感关联数据对应的标记信息作为类别信息。
在本发明实施例中,为了快速地对敏感关联数据进行分类处理,以便后续构建针对性的识别模型,本发明实施例可以基于每个场景关键词在预置敏感数据样本中进行场景匹配,由此得到每个场景关键词对应场景的目标敏感样本,从而提供更为精准的样本数据,然后采用聚类算法对敏感关联数据和目标敏感样本进行聚类处理,得到聚类结果,然后根据聚类结果对敏感关联数据进行标记,以生成标记信息,从而根据标记信息和预置类别参数对敏感关联数据进行分类,由此得到类别信息。
在具体实现中,在得到对应场景的目标敏感样本后,可以将多个敏感关联数据和其对应场景的目标敏感样本进行聚类,如果某一敏感关联数据与其对应场景的目标敏感样本聚为一类,那么可以说明该敏感关联数据与该目标敏感样本属于同一类别,进而可以依据该目标敏感样本所属的类别,为该敏感关联数据生成标记信息,从而基于标记信息区分不同类别的敏感关联数据,以便后续构建对应的识别模型;如果某一敏感关联数据与其对应场景的目标敏感样本没有聚为一类,那么可以说明该敏感关联数据与该目标敏感样本属于不同类别,进而可以将该敏感关联数据标记为待分类,以便后续进行下一次的类别标记。
按照上述标记方法,得到多个敏感关联数据对应的标记信息,再将这些标记信息作为类别信息。
步骤205,采用所述应用场景信息和所述类别信息构建识别模型。
在本发明实施例中,在得到类别信息后,可以根据应用场景信息和类别信息构建得到不同的识别模型。具体地,可以将应用场景信息和类别信息及其对应的数据进行关联,建立对应的连接匹配通道,进而构建完整的识别模型,为后续识别提供数据支撑。
本发明的一个可选实施例中,所述方法还可以包括:
对所述目标敏感数据进行特性分析,得到目标特性数据;采用所述目标特性数据对所述识别模型进行更新,以优化所述识别模型。
在本发明实施例中,为了进一步提高识别模型的识别精度和识别效率,本发明实施例可以对每一次识别得到的目标敏感数据进行特性分析,由此得到目标特性数据,然后基于目标特性数据对识别模型进行更新,通过每一次的更新,可以为后续数据识别提供更为有利的支撑。
由此可见,相对现有技术而言,本发明实施例具有如下优点:
1.基于场景和类别构建具有针对性的识别模型,大大提高识别效率和精准性;
2.本发明实施例结合数据特征进行数据识别处理,进一步提高敏感数据的识别精准性;
3.基于每一次的识别结果提取对应的数据特性,进而对识别模型进行优化,大大提高识别模型的识别精准性;
4.基于不同的识别场景进行对应数据的抓取并进行识别,大大提高场景识别精度。
另外,本发明实施例具有如下潜在价值:
1.有效提高敏感数据的识别精度,减少数据处理量,进一步节约计算资源;
2.可广泛应用于特定数据的识别场景中,满足多方面的识别需求;
3.基于本发明实施例的技术启发,可在建模、模型框架优化等方面起到支撑作用。
综上,在本发明实施例中,当接收到数据脱敏指令时,获取待识别数据,并将待识别数据导入至预先构建的识别模型;识别模型基于应用场景信息和类别信息进行构建得到;通过识别模型对待识别数据进行识别,得到初始敏感数据;提取初始敏感数据的特征关键词,并将特征关键词转换为特征向量;计算初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;根据目标余弦值,确定初始敏感数据是否为目标敏感数据;当确定初始敏感数据为目标敏感数据时,针对目标敏感数据进行脱敏处理。本发明实施例基于场景和类别构建识别模型,识别模型具有针对性,然后结合特征向量进一步识别处理,可极大提高识别效率和准确性,由此解决现有技术中无法对敏感数据进行高效且精准的识别问题。
参考图3,示出了本发明实施例提供的一种敏感数据识别装置的结构框图,具体可以包括如下模块:
待识别数据导入模块301,用于当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
待识别数据识别模块302,用于通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
转换模块303,用于提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
目标余弦值计算模块304,用于计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
目标敏感数据确定模块305,用于根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
脱敏处理模块306,用于当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
本发明的一个可选实施例中,所述目标敏感数据确定模块305可以包括:
比较子模块,用于比较所述目标余弦值和预设余弦值;
初始敏感数据为目标敏感数据的确定子模块,若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
初始敏感数据不为目标敏感数据的确定子模块,若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。
本发明的一个可选实施例中,所述转换模块303可以包括:
特征关键词提取子模块,用于根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
本发明的一个可选实施例中,所述转换模块303可以包括:
转换子模块,用于采用词频-逆向文件频率TF-IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
本发明的一个可选实施例中,所述待识别数据导入模块301可以包括:
待识别文本获取子模块,用于获取待识别文本;
识别场景确定子模块,用于确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;
文本数据抓取子模块,用于基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。
参考图4,示出了本发明实施例中提供的识别模型构建装置的结构框图,所述识别模型可以通过如下模块构建得到:
应用场景信息获取模块401,用于获取应用场景信息;
场景关键词提取模块402,用于从所述应用场景信息中提取多个场景关键词;
敏感关联数据获得模块403,用于基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据;
敏感关联数据分类模块404,用于根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息;
识别模型构建模块405,用于采用所述应用场景信息和所述类别信息构建识别模型。
本发明的一个可选实施例中,所述敏感关联数据分类模块404可以包括:
目标敏感样本获得子模块,用于基于所述各个场景关键词在所述预置敏感数据样本中进行场景匹配,分别获得所述各个场景关键词对应场景的目标敏感样本;
聚类子模块,用于将所述多个敏感关联数据和所述对应场景的目标敏感样本进行聚类;
标记信息生成子模块,用于若某一敏感关联数据与所述对应场景的目标敏感样本聚为一类,则依据所述对应场景的目标敏感样本所属的类别,为所述某一敏感关联数据生成标记信息;
类别信息确定子模块,用于将所述多个敏感关联数据对应的标记信息作为类别信息。
本发明的一个可选实施例中,所述装置还可以包括:
特性分析模块,用于对所述目标敏感数据进行特性分析,得到目标特性数据;
识别模型更新模块,用于采用所述目标特性数据对所述识别模型进行更新,以优化所述识别模型。
综上,在本发明实施例中,当接收到数据脱敏指令时,获取待识别数据,并将待识别数据导入至预先构建的识别模型;识别模型基于应用场景信息和类别信息进行构建得到;通过识别模型对待识别数据进行识别,得到初始敏感数据;提取初始敏感数据的特征关键词,并将特征关键词转换为特征向量;计算初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;根据目标余弦值,确定初始敏感数据是否为目标敏感数据;当确定初始敏感数据为目标敏感数据时,针对目标敏感数据进行脱敏处理。本发明实施例基于场景和类别构建识别模型,识别模型具有针对性,然后结合特征向量进一步识别处理,可极大提高识别效率和准确性,由此解决现有技术中无法对敏感数据进行高效且精准的识别问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,如图5所示,其包括存储器501,用于存储一个或多个程序;处理器502,当一个或多个程序被处理器502执行时,实现如上述实施例中任一所述的敏感数据识别方法。
还包括通信接口503,该存储器501、处理器502和通信接口503相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器501可用于存储软件程序及模块,处理器502通过执行存储在存储器501内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口503可用于与其他节点设备进行信令或数据的通信。
其中,存储器501可以是但不限于,随机存取存储器 (Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory, EEPROM)等。
处理器502可以是一种集成电路芯片,具有信号处理能力。该处理器502 可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的敏感数据识别方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的敏感数据识别方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的敏感数据识别方法、装置、电子设备和计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种敏感数据识别方法,其特征在于,所述方法包括:
当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据,包括:
比较所述目标余弦值和预设余弦值;
若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。
3.根据权利要求1所述的方法,其特征在于,所述提取所述初始敏感数据的特征关键词,包括:
根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
4.根据权利要求1所述的方法,其特征在于,所述将所述特征关键词转换为特征向量,包括:
采用词频-逆向文件频率TF-IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述获取待识别数据,包括:
获取待识别文本;
确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;
基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。
6.根据权利要求1所述的方法,其特征在于,所述识别模型通过如下方式构建得到:
获取应用场景信息;
从所述应用场景信息中提取多个场景关键词;
基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据;
根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息;
采用所述应用场景信息和所述类别信息构建识别模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息,包括:
基于所述各个场景关键词在所述预置敏感数据样本中进行场景匹配,分别获得所述各个场景关键词对应场景的目标敏感样本;
将所述多个敏感关联数据和所述对应场景的目标敏感样本进行聚类;
若某一敏感关联数据与所述对应场景的目标敏感样本聚为一类,则依据所述对应场景的目标敏感样本所属的类别,为所述某一敏感关联数据生成标记信息;
将所述多个敏感关联数据对应的标记信息作为类别信息。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标敏感数据进行特性分析,得到目标特性数据;
采用所述目标特性数据对所述识别模型进行更新,以优化所述识别模型。
9.一种敏感数据识别装置,其特征在于,所述装置包括:
待识别数据导入模块,用于当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
待识别数据识别模块,用于通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
转换模块,用于提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
目标余弦值计算模块,用于计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
目标敏感数据确定模块,用于根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
脱敏处理模块,用于当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
10.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的敏感数据识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的敏感数据识别方法的步骤。
CN202211316411.2A 2022-10-26 2022-10-26 敏感数据识别方法、装置、电子设备和存储介质 Pending CN115618415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211316411.2A CN115618415A (zh) 2022-10-26 2022-10-26 敏感数据识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211316411.2A CN115618415A (zh) 2022-10-26 2022-10-26 敏感数据识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115618415A true CN115618415A (zh) 2023-01-17

Family

ID=84863829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211316411.2A Pending CN115618415A (zh) 2022-10-26 2022-10-26 敏感数据识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115618415A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776390A (zh) * 2023-08-15 2023-09-19 上海观安信息技术股份有限公司 一种数据泄漏行为的监测方法、装置、存储介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776390A (zh) * 2023-08-15 2023-09-19 上海观安信息技术股份有限公司 一种数据泄漏行为的监测方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN107818344B (zh) 用户行为进行分类和预测的方法和系统
CN107066616B (zh) 用于账号处理的方法、装置及电子设备
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
WO2021031825A1 (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
CN110502694B (zh) 基于大数据分析的律师推荐方法及相关设备
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN113435196B (zh) 意图识别方法、装置、设备及存储介质
CN112035599A (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US20230410222A1 (en) Information processing apparatus, control method, and program
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN111552865A (zh) 用户兴趣画像方法及相关设备
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN112464670A (zh) 识别方法、识别模型的训练方法、装置、设备、存储介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN112015762A (zh) 案件检索方法、装置、计算机设备和存储介质
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination