CN112765673A - 一种敏感数据统计方法及相关装置 - Google Patents

一种敏感数据统计方法及相关装置 Download PDF

Info

Publication number
CN112765673A
CN112765673A CN202110281436.2A CN202110281436A CN112765673A CN 112765673 A CN112765673 A CN 112765673A CN 202110281436 A CN202110281436 A CN 202110281436A CN 112765673 A CN112765673 A CN 112765673A
Authority
CN
China
Prior art keywords
data
desensitization
registration information
sensitive
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110281436.2A
Other languages
English (en)
Inventor
李国喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202110281436.2A priority Critical patent/CN112765673A/zh
Publication of CN112765673A publication Critical patent/CN112765673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种敏感数据统计方法,包括:对接收到的原始数据进行源数据匹配,得到对应的注册信息;根据注册信息对应的脱敏策略对原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;根据与脱敏数据匹配的注册信息对业务库中的脱敏数据进行识别并统计,得到统计结果。通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计。本申请还公开了一种敏感数据统计装置、服务器以及计算机可读存储介质,具有以上有益效果。

Description

一种敏感数据统计方法及相关装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种敏感数据统计方法、敏感数据统计装置、服务器以及计算机可读存储介质。
背景技术
随着信息技术的不断发展,在互联网环境中出现了越来越多的数据,大数据概念孕育而生。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。其中,在对数据进行处理的过程中,需要将数据交由专业的数据处理平台和专业的数据处理人员来对数据进行分析和挖掘,以输出有价值的结果。然而在数据处理过程中,数据处理方由于管理因素或其它利益因素,经常会利用数据中与挖掘目标无关的敏感信息进获利,如:涉及个人信息的姓名、电话、住址、身份证号、银行卡号等;涉及企业信息的购方信息、交易金额等,进而造成个人隐私或商业敏感信息的泄漏。因此,在对数据进行处理的过程中,需要将数据进行脱敏处理。
相关技术中,存在多种数据脱敏方式。其中,文本数据脱敏是根据预设词典或正则方式自动识别敏感数据类型和脱敏的处理方式。该方式是对所有已确定是敏感数据的内容进行脱敏,脱敏粒度较粗,无法通过敏感数据上下文关系进行筛选脱敏。此外,SQL(Structured Query Language,结构化查询语言)脱敏是指定敏感数据所在列,通过SQL查询涉及到该列的数据结果进行过滤以实现脱敏。该方式虽然可以对列数据进行指定脱敏,但脱敏后数据不能用来做数据分析,风控审计等场景。最后,通过加密、解密方式对原始数据进行脱敏和恢复,虽然可以支撑数据安全产品的风控分析和审计等业务场景,但是只要有脱敏数据恢复的动作就会存在敏感数据泄漏的风险。可见,以上对数据进行脱敏的方式都不同程度的存在脱敏颗粒度较大的问题,降低了数据在脱敏处理进行统计的效果,使得无法进行数据统计。
因此,如何避免脱敏后数据无法进行数据统计是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种敏感数据统计方法、敏感数据统计装置、服务器以及计算机可读存储介质,通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计,保持敏感数据安全性,避免无法数据统计的问题。
为解决上述技术问题,本申请提供一种敏感数据统计方法,包括:
对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;
根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,所述脱敏策略是对注册信息进行策略配置得到的执行策略;
根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果。
可选的,根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果,包括:
根据预设标识字符提取所述业务库中多个脱敏数据的脱敏字符串;
对每个所述脱敏字符串的第一元素进行匹配,得到对应的注册信息;
对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果。
可选的,对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果,包括:
将注册信息中敏感数据类型相同的脱敏字符串的第二元素添加至集合中;
对所述集合进行去重处理,得到去重集合;
将所述去重集合的元素总数作为该敏感数据类型对应的数据统计结果。
可选的,对接收到的原始数据进行源数据匹配,得到对应的注册信息,包括:
根据多个注册信息的源数据字段对所述原始数据进行匹配,确定所述对应的注册信息。
可选的,所述脱敏策略包括筛选条件、脱敏字段、脱敏模式以及脱敏方式;
可选的,根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库,包括:
根据所述注册信息对应的脱敏策略的脱敏内容对所述原始数据进行提取,得到待脱敏字段;
根据所述脱敏策略的脱敏模式和脱敏方式对所述待脱敏字段进行脱敏处理,得到所述脱敏数据;
将所述脱敏数据存入所述业务库。
可选的,根据所述脱敏策略的脱敏模式和脱敏方式对所述待脱敏字段进行脱敏处理,得到所述脱敏数据,包括:
当所述脱敏模式为部分脱敏时,对所述待脱敏字段进行正则匹配,得到部分脱敏字段;
对所述部分脱敏字段进行加密计算,得到所述脱敏数据。
本申请还提供一种敏感数据统计装置,包括:
匹配模块,用于对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;
脱敏处理模块,用于根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,所述脱敏策略是对注册信息进行策略配置得到的执行策略;
数据统计模块,用于根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的敏感数据统计方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的敏感数据统计方法的步骤。
本申请所提供的一种敏感数据统计方法,包括:对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,所述脱敏策略是对注册信息进行策略配置得到的执行策略;根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果。
通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计,保持敏感数据安全性,避免无法数据统计的问题。
本申请还提供一种敏感数据统计装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种敏感数据统计方法的流程图;
图2为本申请实施例所提供的一种敏感数据统计装置的结构示意图。
具体实施方式
本申请的核心是提供一种敏感数据统计方法、敏感数据统计装置、服务器以及计算机可读存储介质,通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计,保持敏感数据安全性,避免无法数据统计的问题。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,存在多种数据脱敏方式。其中,文本数据脱敏是根据预设词典或正则方式自动识别敏感数据类型和脱敏的处理方式。该方式是对所有已确定是敏感数据的内容进行脱敏,脱敏粒度较粗,无法通过敏感数据上下文关系进行筛选脱敏。此外,SQL脱敏是指定敏感数据所在列,通过SQL查询涉及到该列的数据结果进行过滤以实现脱敏。该方式虽然可以对列数据进行指定脱敏,但脱敏后数据不能用来做数据分析,风控审计等场景。最后,通过加密、解密方式对原始数据进行脱敏和恢复,虽然可以支撑数据安全产品的风控分析和审计等业务场景,但是只要有脱敏数据恢复的动作就会存在敏感数据泄漏的风险。可见,以上对数据进行脱敏的方式都不同程度的存在脱敏颗粒度较大的问题,降低了数据在脱敏处理进行统计的效果,使得无法进行数据统计。
因此,本申请提供一种敏感数据统计方法,通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计,保持敏感数据安全性,避免无法数据统计的问题。
以下通过一个实施例,对本申请提供的一种敏感数据统计方法进行说明。
请参考图1,图1为本申请实施例所提供的一种敏感数据统计方法的流程图。
本实施例中,该方法可以包括:
S101,对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;
本步骤旨在对接收到的原始数据进行源数据匹配,得到对应的注册信息。并且,该注册信息是根据源数据类别对原始源数据进行注册得到的。
也就是说,在本实施例执行前就已经对每个原始源数据注册了对应的注册信息,进而采用该注册信息对接收到的原始数据进行相应的匹配处理,以便确定该原始数据对应的注册信息。
其中,原始数据是从不同的数据源中获取到的未经加工的数据。该数据源包括但不限于网络设备、安全设备以及流量探针。
其中,针对不同的数据源,存在不同的数据获取方式。在具体实施例可以选用每个数据源对应的数据收集方式即可,在此不做具体限定。例如,当数据源是网络设备时,则采用网路接口的方式获取原始数据。当数据源是安全设备时,则采用数据加密或加密断后的方式获取该原始数据。当数据源为流量探针时,由于探针的数据量巨大数据随机性较高,则直接提供数据存放的空间,使流量探针发送的原始数据可以直接存储。进一步的,本步骤中的原始数据可以是单个数据源的原始数据,也可以不同的多个数据源的原始数据,在此不做具体限定。
进一步的,其中根据源数据类别对原始数据进行注册得到对应的注册信息的过程,可以是接收原始数据,然后将该原始数据进行显示,以便技术人员查看后输入对应的注册信息。也可以是,对接收到的原始数据进行分析,确定其中包含的一种或多种不同数据类型的数据,根据确定的数据类型对该原始数据进行源数据注册,得到注册信息。其中,该注册信息包括源数据主题和源数据字段。其中,该源数据主题以唯一键的形式进行存储。其中,源数据字段为该源数据特定的数字字段。例如,包含手机号的源数据其中有11位数字作为相应的源数据字段,包含身份证的源数据有18位数字或最后一位为x的字段作为相应的源数据字段,还可以是包含手机号和身份证的字段共同作为该源数据的源数据字段。
可以想到的是,从不同的数据来源获取到的原始数据或不同类型的数据,存在不同的数据构成。有的原始数据中存在手机号作为敏感数据,有的原始数据中存在收货地址作为敏感数据,有的原始数据中存在身份证号码和手机号作为敏感数据。因此,需要通过不同的源数据字段匹配不同的源数据,即匹配对应的注册信息。
进一步的,为了提高匹配注册信息的效率,本步骤可以包括:
根据多个注册信息的源数据字段对原始数据进行匹配,确定对应的注册信息。
可见,本可选方案中主要是通过多个注册信息中的源数据字段对该原始数据进行相应的匹配,以便确定该原始数据对应的注册信息。
S102,根据注册信息对应的脱敏策略对原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,脱敏策略是对注册信息进行策略配置得到的执行策略;
在S101的基础上,本步骤旨在根据注册信息对应的脱敏策略对原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,脱敏策略是对注册信息进行策略配置得到的执行策略。很显然,本步骤中就是对匹配出注册信息的原始数据进行脱敏处理。也就是说,该原始数据中存在相应的敏感数据,需要对敏感数据进行脱敏。
上一步骤中,接收到的多个数据源的原始数据,可以是单个数据源发送的原始数据,也可以多个不同的数据源发送的原始数据。无论是单个数据源发送的原始数据,还是多个数据源发送的原始数据。原始数据和原始数据之间可以通过数据源的不同将不同的数据源进行区别。
因此,本步骤中首先根据匹配到的注册信息确定对应的脱敏策略,然后根据该脱敏策略对原始数据进行脱敏处理,得到对应的脱敏数据。
其中,脱敏策略是对注册信息进行策略配置得到的执行策略。进一步的,为了提高脱敏策略进行脱敏处理的效果和准确性,还可以根据多个敏感数据维度对注册信息进行策略配置得到对应的脱敏策略其中,多个敏感数据维度包括但不限于身份证、手机号、邮箱、银行卡、驾驶证。可见,其中敏感数据的维度,不仅包括数字还包括字符,也包括字段。因此,基于该脱敏策略对数据进行脱敏处理,可以在不同的数据维度中将数据进行脱敏,以便提高数据脱敏的效果。
进一步的,该脱敏策略可以包括筛选条件、脱敏字段、脱敏模式以及脱敏方式。
本步骤中还根据注册信息对应的脱敏策略对原始数据进行脱敏处理,得到脱敏数据,并存储至业务库。进一步的,本实施例中的脱敏策略还是根据多个敏感数据维度进行配置得到的,因此在脱敏处理过程中,痛殴多个敏感数据维度中对原始数据进行脱敏处理,得到的脱敏数据。并且,可以识别不同的数据维度的敏感数据,因此进行脱敏的效果更好。最后在存储至业务库中,可见,本申请中对数据进行的是入库前脱敏,避免了敏感数据被窃取的问题。
进一步的,为了提高本实施例中对脱敏数据进行匹配的准确性,本步骤可以包括:
步骤1,根据预设的多个敏感数据类型对原始数据进行正则匹配,得到原始数据对应的敏感数据;
步骤2,采用脱敏策略对敏感数据进行脱敏处理,得到脱敏数据。
可见,本可选方案中主要是通过正则匹配的方式确定到原始数据中的敏感数据,进一步的采用该脱敏策略对敏感数据进行脱敏处理,得到脱敏数据。其中,采用正则匹配的方式确定到敏感数据,可以提高敏感数据确定的准确性,进一步提高数据脱敏的准确性。
进一步的,为了提高数据脱敏的效果,S102可以包括:
步骤1,根据注册信息对应的脱敏策略的脱敏内容对原始数据进行提取,得到待脱敏字段;
步骤2,根据脱敏策略的脱敏模式和脱敏方式对待脱敏字段进行脱敏处理,得到脱敏数据;
步骤3,将脱敏数据存入业务库。
可见,本可选方案中主要是对如何进行数据脱敏进行说明。本可选方案中首先根据注册信息对应的脱敏策略的脱敏内容对原始数据进行提取,得到待脱敏字段。也就是说,在原始数据中存在正常数据和敏感数据,因此需要从原始数据中提取出需要处理的敏感数据,即待脱敏字段,也就是敏感数据的实际内容。然后,根据脱敏策略的脱敏模式和脱敏方式对待脱敏字段进行脱敏处理,得到脱敏数据。也就是,通过脱敏策略中的脱敏模式和脱敏方式进行脱敏处理。最后,将脱敏数据存入业务库。也就是说,本实施例执行的是入库前脱敏,保持数据在业务库中已经对敏感数据进行了处理,避免了敏感数据暴露,提高了数据处理过程的安全性。
进一步的,上可选技术方案中的步骤2可以包括:
步骤1,当脱敏模式为部分脱敏时,对待脱敏字段进行正则匹配,得到部分脱敏字段;
步骤2,对部分脱敏字段进行加密计算,得到脱敏数据。
可见,本可选方案中主要是对如何根据脱敏模式和脱敏方式进行脱敏进行说明。本可选方案中首先当脱敏模式为部分脱敏时,对待脱敏字段进行正则匹配,得到部分脱敏字段。可见,本可选方案中采用的脱敏模式是部分脱敏,采用的脱敏方式加密脱敏。最后,对部分脱敏字段进行加密计算,得到脱敏数据。
其中,加密处理包括但不限于遮掩、Hash、加密。
S103,根据与脱敏数据匹配的注册信息对业务库中的脱敏数据进行识别并统计,得到统计结果。
在S102的基础上,本步骤旨在根据与脱敏数据匹配的注册信息对业务库中的脱敏数据进行识别并统计,得到统计结果。也就是说,从业务库中获取到的脱敏数据中并不知道具体的敏感数据是什么。因此,需要通过提前注册号的字段识别出对应的脱敏后的敏感数据,在对该敏感数据进行统计。很显然,本步骤中不是对实际的敏感数据进行统计,而是对脱敏处理后的数据进行统计,避免敏感数据泄露的问题。
进一步的,为了提高数据统计的效果,本步骤可以包括:
步骤1,根据预设标识字符提取业务库中多个脱敏数据的脱敏字符串;
步骤2,对每个脱敏字符串的第一元素进行匹配,得到对应的注册信息;
步骤3,对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果。
可见,本可选方案中主要是如何进行相应的数据统计进行说明。本可选方案中首先根据预设标识字符提取业务库中多个脱敏数据的脱敏字符串;其中,预设标识字符可以是“^^^”“$$$”等特殊字符串组成的标识字符,也可以是其他字符按照特定规则设定的字符串,并不唯一在此不做具体赘述。然后,对每个脱敏字符串的第一元素进行匹配,得到对应的注册信息。也就是说提取出来的脱敏字符串中可以通过字符区分为多个元素。例如,可以分为第一元素和第二元素。其中,第一元素表示该敏感字符的类型,该类型包括手机号、身份证号或名称。第二元素表示脱敏后的实际内容。通过第一元素就可以确定当前是对什么类型的数据进行统计,以便实施该类型的统计处理。最后,对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果。
进一步的,为了提高统计处理的效果,上一可选方案中的步骤3可以包括:
步骤1,将注册信息中敏感数据类型相同的脱敏字符串的第二元素添加至集合中;
步骤2,对集合进行去重处理,得到去重集合;
步骤3,将去重集合的元素总数作为该敏感数据类型对应的数据统计结果。
可见,本可选方案主要是如何对第二元素进行统计进行说明。本可选方案中首先注册信息中敏感数据类型相同的脱敏字符串的第二元素添加至集合中。也就是,将相同类型的第二元素添加至集合中,也就是将相同类型的敏感数据字段放到一个集合中进行统计。然后,对集合进行去重处理,得到去重集合。最后,将去重集合的元素总数作为该敏感数据类型对应的数据统计结果。也就是统计出了脱敏数据中一共出现了多少个该敏感数据,而不用知道敏感数据的具体内容,提高了统计效果。
综上,本实施例通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计,保持敏感数据安全性,避免无法数据统计的问题。
以下通过一个具体的实施例,对本申请提供的一种敏感数据统计方法进行说明。
本实施例中,首先进行对应的配置操作,可以包括:
首先对敏感数据类型进行定义,敏感数据类型可以包括:身份证、手机号、邮箱、银行卡、驾驶证等。通过对原始数据进行正则匹配从不同的原始数据中提取出对应的敏感数据类型。例如:
字段1:410101204901012336,可以通过敏感数据类型正则识别为身份证。
字段2:15158112926,可以通过敏感数据类型正则识别为手机号。
然后,对不同类别源数据进行注册,注册内容包括源数据主题(唯一键)、源数据字段。
最后,对不同的注册信息配置对应的脱敏策略。
其中,配置脱敏策略的流程可以包括:
步骤1,选择某个源数据对应的注册信息;
步骤2,配置脱敏数据筛选条件、脱敏内容、脱敏模式、脱敏方式。
基于以上的配置好的脱敏策略,本实施例中在确定脱敏策略的基础上对获取到的原始数据进行如下的数据脱敏流程,可以包括:
步骤1,筛选需要脱敏的原始数据。
也就是,根据源数据的注册信息对获取到的原始数据进行匹配,确定该原始数据对应的注册信息。
步骤2,根据注册信息确定该原始数据对应的脱敏策略。
步骤3,根据脱敏策略对该原始数据进行脱敏处理,得到脱敏数据。也就是,找到该原始数据对应的脱敏策略后,根据脱敏策略配置进行脱敏。具体的,匹配到对应的原始数据,然后取出原始数据中脱敏内容中指定的字段,然后根据脱敏模式和脱敏方式对脱敏内容中指定的字段进行脱敏。
其中,脱敏后的数据可以如下:
{
“RecTimeReq”:15675767420000,
“DstlPReq”:“124.250.100.128”,
“DstlPortReq”:80,
“HttpBodyReq”:“phone=^^^11#b73d9e196ee6dea0c297541a207d64e9#1********1$$$”
}
其中,^^^表示已脱敏数据开始符,$$$表示已脱敏数据结尾符。11表示敏感数据类型主键ID,b73d9e196ee6dea0c297541a207d64e9表示敏感数据对应的hash值,1********1表示页面展示数据。
最后,当各产品线接收数据源时,若需要入库存储,则将打标字段对应的整个value值整个入库即可。产品线前端展示时,则需要判断当前字段值是否以^^^开头、$$$结尾,若是,则为敏感数据且需要页面展示时,则将^^^和$$$中间部分数据根据#分隔解析成数组,取数组最后一个元素展示到页面即可。
进一步的,本实施例进行脱敏后的数据还可以支持相应的数据分析过程。通过以下实例进行说明。
首先对相关技术中采用原始数据进行分析的过程进行说明,数据获取到的原始数据如下:
原始数据1:app=confluence&phone=13510001001
原始数据2:app=confluence&phone=13510001002
原始数据3:app=confluence&phone=13510001003
对原始数据中的敏感数据进行分析,分析过程如下:
1)解析应用为confluence;
2)根据正则匹配判断出敏感数据类型为手机号,且手机号分别为:13510001001、13510001002、13510001003;
数据分析结果,可以是应用【confluence】中流出手机号总共有【3】个,但是出现了敏感数据。
此处,采用脱敏后的数据进行数据分析,分析过程如下:
首先获取原始数据。
原始数据1:
app=confluence&phone=^^^11#b73d9e196ee6dea0c297541a207d64e9#1*********1$$$;
原始数据2:
app=confluence&phone=^^^11#951ba07a328e05d83406eb7fae545960#1*********1$$$;
原始数据3:
app=confluence&phone=^^^11#2fa846155089cc99174be1863fbff980#1*********1$$$;
对脱敏后的数据进行数据分析,过程如下:
步骤1,解析应用为confluence。
步骤2,通过判断phone字段是否以^^^开头、$$$结尾,若是则为敏感数据,然后取^^^和$$$中间字符串并解析为数组,取数组第一个元素(示例中为11,此时11为敏感数据类型主键)作为查询条件,查询敏感数据类型为手机号。
步骤3,提取数组第二个元素(示例中为b73d9e196ee6dea0c297541a207d64e9、951ba07a328e05d83406eb7fae545960、2fa846155089cc99174be1863fbff980)到集合中并去重,去重后集合元素总数为3,元素值分别为:b73d9e196ee6dea0c297541a207d64e9、951ba07a328e05d83406eb7fae545960、2fa846155089cc99174be1863fbff980。
最后,数据分析结果为:应用【confluence】中流出不同手机号总共有【3】个。
可见,敏感数据并未流出,并完成了数据分析处理,得到了相同的数据分析结果。所以,通过本实施例脱敏后数据同样可以被用来做数据分析或者数据审计。
可见,本实施例通过对接收到的原始数据进行源数据匹配,得到与源数据类别对应的注册信息,进一步采用该注册信息对应的脱敏策略进行数据脱敏,最后采用与脱敏数据匹配的注册信息对脱敏数据的敏感数据类型进行识别,进一步再进行统计,实现了对敏感数据脱敏后再进行统计,保持敏感数据安全性,避免无法数据统计的问题。
下面对本申请实施例提供的敏感数据统计装置进行介绍,下文描述的敏感数据统计装置与上文描述的敏感数据统计方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种敏感数据统计装置的结构示意图。
本实施例中,该装置可以包括:
匹配模块100,用于对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;
脱敏处理模块200,用于根据注册信息对应的脱敏策略对原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,脱敏策略是对注册信息进行策略配置得到的执行策略;
数据统计模块300,用于根据与脱敏数据匹配的注册信息对业务库中的脱敏数据进行识别并统计,得到统计结果。
可选的,该数据统计模块300,可以包括:
脱敏字符串提取单元,用于根据预设标识字符提取业务库中多个脱敏数据的脱敏字符串;
第一元素匹配单元,用于对每个脱敏字符串的第一元素进行匹配,得到对应的注册信息;
第二元素统计单元,用于对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果。
可选的,该第二元素统计单元,具体用于将注册信息中敏感数据类型相同的脱敏字符串的第二元素添加至集合中;对集合进行去重处理,得到去重集合;将去重集合的元素总数作为该敏感数据类型对应的数据统计结果。
可选的,该匹配模块100,具体用于根据多个注册信息的源数据字段对原始数据进行匹配,确定对应的注册信息。
可选的,该脱敏策略包括筛选条件、脱敏字段、脱敏模式以及脱敏方式;
可选的,该脱敏处理模块200,包括:
待脱敏字段提取单元,用于根据注册信息对应的脱敏策略的脱敏内容对原始数据进行提取,得到待脱敏字段;
脱敏处理单元,用于根据脱敏策略的脱敏模式和脱敏方式对待脱敏字段进行脱敏处理,得到脱敏数据;
入库存储单元,用于将脱敏数据存入业务库。
可选的,该脱敏处理单元,具体用于当脱敏模式为部分脱敏时,对待脱敏字段进行正则匹配,得到部分脱敏字段;对部分脱敏字段进行加密计算,得到脱敏数据。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的敏感数据统计方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的敏感数据统计方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种敏感数据统计方法、敏感数据统计装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种敏感数据统计方法,其特征在于,包括:
对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;
根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,所述脱敏策略是对注册信息进行策略配置得到的执行策略;
根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果。
2.根据权利要求1所述的敏感数据统计方法,其特征在于,根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果,包括:
根据预设标识字符提取所述业务库中多个脱敏数据的脱敏字符串;
对每个所述脱敏字符串的第一元素进行匹配,得到对应的注册信息;
对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果。
3.根据权利要求2所述的敏感数据统计方法,其特征在于,对注册信息中敏感数据类型相同的脱敏字符串的第二元素进行统计,得到该敏感数据类型对应的数据统计结果,包括:
将注册信息中敏感数据类型相同的脱敏字符串的第二元素添加至集合中;
对所述集合进行去重处理,得到去重集合;
将所述去重集合的元素总数作为该敏感数据类型对应的数据统计结果。
4.根据权利要求1所述的敏感数据统计方法,其特征在于,对接收到的原始数据进行源数据匹配,得到对应的注册信息,包括:
根据多个注册信息的源数据字段对所述原始数据进行匹配,确定所述对应的注册信息。
5.根据权利要求1所述的敏感数据统计方法,其特征在于,所述脱敏策略包括筛选条件、脱敏字段、脱敏模式以及脱敏方式。
6.根据权利要求1所述的敏感数据统计方法,其特征在于,根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库,包括:
根据所述注册信息对应的脱敏策略的脱敏内容对所述原始数据进行提取,得到待脱敏字段;
根据所述脱敏策略的脱敏模式和脱敏方式对所述待脱敏字段进行脱敏处理,得到所述脱敏数据;
将所述脱敏数据存入所述业务库。
7.根据权利要求6所述的敏感数据统计方法,其特征在于,根据所述脱敏策略的脱敏模式和脱敏方式对所述待脱敏字段进行脱敏处理,得到所述脱敏数据,包括:
当所述脱敏模式为部分脱敏时,对所述待脱敏字段进行正则匹配,得到部分脱敏字段;
对所述部分脱敏字段进行加密计算,得到所述脱敏数据。
8.一种敏感数据统计装置,其特征在于,包括:
匹配模块,用于对接收到的原始数据进行源数据匹配,得到对应的注册信息;其中,注册信息是根据源数据类别对原始源数据进行注册得到的;
脱敏处理模块,用于根据所述注册信息对应的脱敏策略对所述原始数据进行脱敏处理,得到脱敏数据,并存储至业务库;其中,所述脱敏策略是对注册信息进行策略配置得到的执行策略;
数据统计模块,用于根据与脱敏数据匹配的注册信息对所述业务库中的脱敏数据进行识别并统计,得到统计结果。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的敏感数据统计方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的敏感数据统计方法的步骤。
CN202110281436.2A 2021-03-16 2021-03-16 一种敏感数据统计方法及相关装置 Pending CN112765673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281436.2A CN112765673A (zh) 2021-03-16 2021-03-16 一种敏感数据统计方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281436.2A CN112765673A (zh) 2021-03-16 2021-03-16 一种敏感数据统计方法及相关装置

Publications (1)

Publication Number Publication Date
CN112765673A true CN112765673A (zh) 2021-05-07

Family

ID=75691062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281436.2A Pending CN112765673A (zh) 2021-03-16 2021-03-16 一种敏感数据统计方法及相关装置

Country Status (1)

Country Link
CN (1) CN112765673A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297623A (zh) * 2021-06-23 2021-08-24 天道金科股份有限公司 基于数据库的敏感数据脱敏系统
CN113486392A (zh) * 2021-06-07 2021-10-08 四川新网银行股份有限公司 一种基于大数据平台的敏感数据识别与脱敏方法
CN115080827A (zh) * 2022-07-01 2022-09-20 中银金融科技有限公司 一种敏感数据处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252458A (zh) * 2013-06-25 2014-12-31 博雅网络游戏开发(深圳)有限公司 数据分析方法和装置
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN109558462A (zh) * 2018-11-02 2019-04-02 深圳智链物联科技有限公司 数据统计方法及装置
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN109711189A (zh) * 2018-12-19 2019-05-03 上海晶赞融宣科技有限公司 数据脱敏方法及装置、存储介质、终端
CN110598442A (zh) * 2019-09-11 2019-12-20 国网浙江省电力有限公司信息通信分公司 一种敏感数据自适应的脱敏方法、系统
CN111241578A (zh) * 2020-01-07 2020-06-05 北京启明星辰信息安全技术有限公司 用于Vertica的脱敏方法及脱敏系统
CN111752969A (zh) * 2020-06-23 2020-10-09 上海观安信息技术股份有限公司 一种保持统计特征的算法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252458A (zh) * 2013-06-25 2014-12-31 博雅网络游戏开发(深圳)有限公司 数据分析方法和装置
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN109558462A (zh) * 2018-11-02 2019-04-02 深圳智链物联科技有限公司 数据统计方法及装置
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN109711189A (zh) * 2018-12-19 2019-05-03 上海晶赞融宣科技有限公司 数据脱敏方法及装置、存储介质、终端
CN110598442A (zh) * 2019-09-11 2019-12-20 国网浙江省电力有限公司信息通信分公司 一种敏感数据自适应的脱敏方法、系统
CN111241578A (zh) * 2020-01-07 2020-06-05 北京启明星辰信息安全技术有限公司 用于Vertica的脱敏方法及脱敏系统
CN111752969A (zh) * 2020-06-23 2020-10-09 上海观安信息技术股份有限公司 一种保持统计特征的算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵国生等: "《Python网络爬虫技术与实战》", 31 January 2021, 机械工业出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486392A (zh) * 2021-06-07 2021-10-08 四川新网银行股份有限公司 一种基于大数据平台的敏感数据识别与脱敏方法
CN113486392B (zh) * 2021-06-07 2023-06-06 四川新网银行股份有限公司 一种基于大数据平台的敏感数据识别与脱敏方法
CN113297623A (zh) * 2021-06-23 2021-08-24 天道金科股份有限公司 基于数据库的敏感数据脱敏系统
CN113297623B (zh) * 2021-06-23 2022-05-10 天道金科股份有限公司 基于数据库的敏感数据脱敏系统
CN115080827A (zh) * 2022-07-01 2022-09-20 中银金融科技有限公司 一种敏感数据处理方法及装置
CN115080827B (zh) * 2022-07-01 2024-05-24 中银金融科技有限公司 一种敏感数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN112765673A (zh) 一种敏感数据统计方法及相关装置
AU2014237406B2 (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
US8234283B2 (en) Search reporting apparatus, method and system
CN112685771A (zh) 日志脱敏方法、装置、设备及存储介质
CN114398665A (zh) 一种数据脱敏方法、装置、存储介质及终端
CN108009435A (zh) 数据脱敏方法、装置及存储介质
CN109711189B (zh) 数据脱敏方法及装置、存储介质、终端
CN115238286A (zh) 一种数据防护方法、装置、计算机设备及存储介质
CN111178005A (zh) 数据处理系统、方法及存储介质
CN116340989A (zh) 一种数据脱敏方法、装置、电子设备及存储介质
KR101742041B1 (ko) 개인정보를 보호하는 장치, 개인정보를 보호하는 방법 및 개인정보를 보호하는 프로그램을 저장하는 저장매체
CN116450745B (zh) 基于多设备的笔记文件操作方法、系统和可读存储介质
CN112199483B (zh) 信息录入辅助方法、装置、电子设备及存储介质
CN113642025A (zh) 接口数据处理方法、装置、设备及存储介质
CN110532805B (zh) 数据脱敏方法及装置
CN114996708B (zh) 涉诈手机应用研判方法、装置、电子设备及存储介质
CN114630314B (zh) 终端信息库的更新方法、装置、设备及存储介质
CN115688184B (zh) 日志脱敏方法、装置、电子设备和存储介质
TWI539323B (zh) Personal data inventory system and method
CN116361363B (zh) 用于科学工艺评估系统的审计追踪记录生成方法及相关装置
Kim et al. Lessons learned from the construction of a Korean software reference data set for digital forensics
CN117081725A (zh) 一种基于md5不可逆算法的隐私增强效能评估方法及系统
CN116340607A (zh) 外部安全信息重组方法、装置、设备及存储介质
CN115688159A (zh) 一种数据脱敏方法及装置
CN115599988A (zh) 一种数据识别方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507