CN111310224A - 日志脱敏方法、装置、计算机设备及计算机可读存储介质 - Google Patents

日志脱敏方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111310224A
CN111310224A CN202010045773.7A CN202010045773A CN111310224A CN 111310224 A CN111310224 A CN 111310224A CN 202010045773 A CN202010045773 A CN 202010045773A CN 111310224 A CN111310224 A CN 111310224A
Authority
CN
China
Prior art keywords
desensitization
parameter sets
chain
desensitized
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010045773.7A
Other languages
English (en)
Other versions
CN111310224B (zh
Inventor
濮琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202010045773.7A priority Critical patent/CN111310224B/zh
Publication of CN111310224A publication Critical patent/CN111310224A/zh
Application granted granted Critical
Publication of CN111310224B publication Critical patent/CN111310224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种日志脱敏方法、装置、计算机设备及计算机可读存储介质,涉及日志数据处理技术领域,对待脱敏日志进行拆分,得到多个参数集合,基于脱敏链条包括的至少两个用于脱敏不同类型数据的脱敏节点,对参数集合进行脱敏,得到脱敏结果,使得基于一个脱敏链条完成待脱敏日志中多种类型敏感信息的脱敏,避免遗漏任何脱敏信息,保证对日志的脱敏完全,将信息泄露的风险降到最低。所述方法包括:基于标点符号,对待脱敏日志进行拆分,得到多个参数集合;将多个参数集合输入至脱敏链条,基于脱敏链条,对多个参数集合进行脱敏处理;接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果。

Description

日志脱敏方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明涉及日志数据处理技术领域,特别是涉及一种日志脱敏方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着国家、公众对信息安全关注度越来越高,系统的日志中存在特定规则的字符串时,比如手机号码、身份证号码,可能成为用户信息泄露的一种重要原因,因此,需要对日志中含有的敏感信息进行脱敏处理。
相关技术中,一般来说,敏感信息类型较多,脱敏策略也不一致,例如姓名、身份证号码、手机号码的脱敏策略要求就不一致,对于姓名,需要显示姓氏,遮蔽名字;对于身份证号码,需要显示前4位和后4位,其余数字均用“*”遮蔽;电子邮件需要将“@”前部分用“*”遮蔽等等。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
为了保证将日志中不同类型的敏感信息均提取出来,需要遍历整个日志对日志中的敏感信息进行识别,而通常日志包括的内容较多,很可能在对敏感信息识别的过程中发生遗漏某些敏感信息的情况,导致对日志的脱敏不够完全,存在信息泄露的风险。
发明内容
有鉴于此,本发明提供了一种日志脱敏方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前对日志的脱敏不够完全,存在信息泄露的风险的问题。
依据本发明第一方面,提供了一种日志脱敏方法,该方法包括:
基于标点符号,对待脱敏日志进行拆分,得到多个参数集合;
将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,所述脱敏链条包括至少两个用于脱敏不同类型数据的脱敏节点;
接收所述脱敏链条输出的脱敏后的所述多个参数集合,将脱敏后的所述多个参数集合进行组合,得到脱敏结果。
在另一个实施例中,所述基于标点符号,对待脱敏日志进行拆分,得到多个参数集合,包括:
对待脱敏日志中的所述标点符号进行检测,将每相邻两个所述标点符号之间的内容作为一个所述参数集合,得到所述多个参数集合。
在另一个实施例中,所述将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,包括:
将所述多个参数集合输入至所述脱敏链条的至少两个脱敏节点;
在所述多个参数集合中分别为所述至少两个脱敏节点确定与其可脱敏的数据类型一致的目标参数集合;
基于所述至少两个脱敏节点,在对应的所述目标参数集合中确定敏感内容,采用指定符号对所述目标参数集合中的所述敏感内容进行替换,得到脱敏后的所述多个参数集合。
在另一个实施例中,所述将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,包括:
获取关键字模板,在所述多个参数集合中提取与所述关键字模板一致的多个集合关键字;
在所述脱敏链条中确定可脱敏的数据类型与所述多个集合关键字匹配的多个目标脱敏节点;
将所述多个参数集合依次输入至所述多个目标节点中进行脱敏处理。
在另一个实施例中,所述方法还包括:
当接收到用户的脱敏要求时,获取关键字模板,在所述脱敏要求中提取与所述关键字模板一致的至少一个要求关键字;
确定所述至少一个要求关键字指示的至少一个指定脱敏节点;
将所述至少一个指定脱敏节点进行组合,生成自定义脱敏链条;
对所述自定义脱敏链条进行编号,将编号后的所述自定义脱敏链条存储在缓存空间。
在另一个实施例中,所述方法还包括:
每隔清理周期,统计所述缓存空间中存储的全部自定义脱敏链条的使用次数;
按照使用次数从大到小的顺序对所述缓存空间中存储的全部自定义脱敏链条进行排序,将所述使用次数排在末尾的指定数目的自定义脱敏链条进行清理。
在另一个实施例中,所述方法还包括:
当接收到链条导出请求时,基于所述链条导出请求携带的链条编号,在所述缓存空间中查找目标自定义脱敏链条;
将所述目标自定义脱敏链条导出,并基于所述目标自定义脱敏链条对接收到的日志进行脱敏处理。
依据本发明第二方面,提供了一种日志脱敏装置,该装置包括:
拆分模块,用于基于标点符号,对待脱敏日志进行拆分,得到多个参数集合;
脱敏模块,用于将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,所述脱敏链条包括至少两个用于脱敏不同类型数据的脱敏节点;
第一组合模块,用于接收所述脱敏链条输出的脱敏后的所述多个参数集合,将脱敏后的所述多个参数集合进行组合,得到脱敏结果。
在另一个实施例中,所述拆分模块,用于对待脱敏日志中的所述标点符号进行检测,将每相邻两个所述标点符号之间的内容作为一个所述参数集合,得到所述多个参数集合。
在另一个实施例中,所述脱敏模块,包括:
第一输入单元,用于将所述多个参数集合输入至所述脱敏链条的至少两个脱敏节点;
第一确定单元,用于在所述多个参数集合中分别为所述至少两个脱敏节点确定与其可脱敏的数据类型一致的目标参数集合;
脱敏单元,用于基于所述至少两个脱敏节点,在对应的所述目标参数集合中确定敏感内容,采用指定符号对所述目标参数集合中的所述敏感内容进行替换,得到脱敏后的所述多个参数集合。
在另一个实施例中,所述脱敏模块,包括:
提取单元,用于获取关键字模板,在所述多个参数集合中提取与所述关键字模板一致的多个集合关键字;
第二确定单元,用于在所述脱敏链条中确定可脱敏的数据类型与所述多个集合关键字匹配的多个目标脱敏节点;
第二输入单元,用于将所述多个参数集合依次输入至所述多个目标节点中进行脱敏处理。
在另一个实施例中,所述装置还包括:
提取模块,用于当接收到用户的脱敏要求时,获取关键字模板,在所述脱敏要求中提取与所述关键字模板一致的至少一个要求关键字;
确定模块,用于确定所述至少一个要求关键字指示的至少一个指定脱敏节点;
第二组合模块,用于将所述至少一个指定脱敏节点进行组合,生成自定义脱敏链条;
存储模块,用于对所述自定义脱敏链条进行编号,将编号后的所述自定义脱敏链条存储在缓存空间。
在另一个实施例中,所述装置还包括:
统计模块,用于每隔清理周期,统计所述缓存空间中存储的全部自定义脱敏链条的使用次数;
清理模块,用于按照使用次数从大到小的顺序对所述缓存空间中存储的全部自定义脱敏链条进行排序,将所述使用次数排在末尾的指定数目的自定义脱敏链条进行清理。
在另一个实施例中,所述装置还包括:
查找模块,用于当接收到链条导出请求时,基于所述链条导出请求携带的链条编号,在所述缓存空间中查找目标自定义脱敏链条;
导出模块,用于将所述目标自定义脱敏链条导出,并基于所述目标自定义脱敏链条对接收到的日志进行脱敏处理。
依据本发明第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
依据本发明第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
借由上述技术方案,本发明提供的一种日志脱敏方法、装置、计算机设备及计算机可读存储介质,本发明基于标点符号,对待脱敏日志进行拆分,得到多个参数集合,将多个参数集合输入至脱敏链条,基于脱敏链条包括的至少两个用于脱敏不同类型数据的脱敏节点,对多个参数集合进行脱敏处理,并接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果,使得基于一个脱敏链条就可以实现对整个待脱敏日志的遍历,完成待脱敏日志中多种类型敏感信息的脱敏,避免遗漏任何脱敏信息,保证对日志的脱敏完全,将信息泄露的风险降到最低。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种日志脱敏方法流程示意图;
图2A示出了本发明实施例提供的一种日志脱敏方法流程示意图;
图2B示出了本发明实施例提供的一种日志脱敏方法流程示意图;
图3A示出了本发明实施例提供的一种日志脱敏装置的结构示意图;
图3B示出了本发明实施例提供的一种日志脱敏装置的结构示意图;
图3C示出了本发明实施例提供的一种日志脱敏装置的结构示意图;
图3D示出了本发明实施例提供的一种日志脱敏装置的结构示意图;
图3E示出了本发明实施例提供的一种日志脱敏装置的结构示意图;
图3F示出了本发明实施例提供的一种日志脱敏装置的结构示意图;
图4示出了本发明实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种日志脱敏方法,如图1所示,该方法包括:
101、基于标点符号,对待脱敏日志进行拆分,得到多个参数集合。
102、将多个参数集合输入至脱敏链条,基于脱敏链条,对多个参数集合进行脱敏处理,脱敏链条包括至少两个用于脱敏不同类型数据的脱敏节点。
103、接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果。
本发明实施例提供的方法,基于标点符号,对待脱敏日志进行拆分,得到多个参数集合,将多个参数集合输入至脱敏链条,基于脱敏链条包括的至少两个用于脱敏不同类型数据的脱敏节点,对多个参数集合进行脱敏处理,并接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果,使得基于一个脱敏链条就可以实现对整个待脱敏日志的遍历,完成待脱敏日志中多种类型敏感信息的脱敏,避免遗漏任何脱敏信息,保证对日志的脱敏完全,将信息泄露的风险降到最低。
本发明实施例提供了一种日志脱敏方法,如图2A所示,该方法包括:
201、基于标点符号,对待脱敏日志进行拆分,得到多个参数集合。
发明人认识到,在日常的书写习惯中,为了避免文字冗长而导致的描述不清楚,通常日志中会采用大量的标点符号进行分句,从而将很长的一句话分割为多句简洁明了的短句,所以目前每个日志中都会包括诸如逗号、句号、分号等大量的标点符号。标点符号不仅实现了日志语句的通顺,还实现了对日志内容的大致划分,使得使用标点符号隔开的内容可以作为一次脱敏的脱敏对象,因此,可按照标点符号对日志进行拆分,得到多个参数集合,以便后续分别对多个参数集合进行脱敏,保证脱敏的完整性。
在对待脱敏日志进行拆分时,首先,从开头遍历该待脱敏日志,对待脱敏日志进行检测。随后,当检测到待脱敏日志出现首个标点符号时,将待脱敏日志的开头至首个标点符号之间的内容作为第一个参数集合。继续对待脱敏日志进行检测,当检测到待脱敏日志出现首个标点符号的下一个标点符号时,将首个标点符号和下一个标点符号之间的内容作为第二个参数集合。后续重复执行上述生成参数集合的过程,直至待脱敏日志的结尾,从而得到多个参数集合。也即将每相邻两个标点符号之间的内容作为一个参数集合,得到多个参数集合。例如,设待脱敏日志为“张三,210xxxxxxxxxxxxxxx,185xxxxxxxx”,则按照标点符号(也即逗号)对待脱敏日志进行拆分后,得到的参数集合可为【张三】、【210xxxxxxxxxxxxxxx】和【185xxxxxxxx】。
202、将多个参数集合输入至脱敏链条,基于脱敏链条,对多个参数集合进行脱敏处理。
在本发明实施例中,当对待脱敏日志进行拆分得到多个参数集合后,便可以对多个参数集合进行脱敏处理,从而实现对待脱敏日志的脱敏。为了实现对多种包括不同数据类型数据的参数集合的脱敏,本发明构建了一个脱敏链条,并基于脱敏链条实现对不同参数集合的脱敏。脱敏链条中包括至少两个用于脱敏不同类型数据的脱敏节点,每个脱敏节点可以脱敏的数据类型都是不同的。例如,脱敏链条中可以包括用于对姓名类数据进行脱敏的脱敏节点A,用于对身份证号码类数据进行脱敏的脱敏节点B,用于对手机号码类数据进行脱敏的脱敏节点C。需要说明的是,本发明对于脱敏链条中包括的脱敏节点个数不进行具体限定,一般来说,脱敏链条中需要包括身份证号码类数据脱敏节点、手机号码类数据脱敏节点、邮箱类数据脱敏节点、姓名类数据脱敏节点等等。需要说明的是,多个脱敏节点的排列顺序也是不确定的,可以自由修改脱敏节点的顺序。
在实际应用的过程中,考虑到待脱敏日志中不仅具有文字的说明,还具有一些键值对形式的数据,这种形式的数据不能够按照正常的文字脱敏方法进行脱敏,需要采用独立的键值对脱敏方式,因此,脱敏链条中还可以设置键值对类数据的脱敏节点,并将键值对类数据的脱敏节点放在首位,实现对输入至脱敏链条中的参数集合的初步识别。如果识别出参数集合是键值对形式的数据,则可以直接按照键值对的脱敏方式实现脱敏;如果识别出参数集合不是键值对形式的数据,则继续按照文字脱敏的方式进行正常的脱敏流程即可。
其中,脱敏链条中的每个脱敏节点都具有自身的脱敏规则,当有参数集合输入至脱敏节点中时,脱敏节点会按照自身的脱敏规则对参数集合进行脱敏。例如,假设姓名类数据的脱敏节点的脱敏规则为【判断参数集合是三个字还是两个字,如果是三个字,则将末2位隐藏;如果是两个字,则将末1位隐藏】,这样,如果确定该脱敏节点的目标参数集合为【张三】,则可以将该目标参数集合脱敏为【张*】;如果确定该脱敏节点的目标参数集合为【李明明】,则可以将该目标参数集合脱敏为【李**】。需要说明的是,在实际应用的过程中,每个脱敏节点中都可以设置一系列很复杂的脱敏规则,例如,姓名类数据的脱敏节点的脱敏规则可为【判断参数集合是否完全中文】→【判断首两位是否含复姓】→【判断首位是否是单姓】→【判断是否含有特殊值·】→【判断姓名中是否含有少数名族名字词组】等等,本发明对脱敏节点的脱敏规则的具体内容不进行限定。
这样,将多个参数集合输入至脱敏链条后,即可开始基于脱敏链条,对多个参数集合进行脱敏处理。具体过程如下:首先,将多个参数集合输入至脱敏链条的至少两个脱敏节点,在多个参数集合中分别为至少两个脱敏节点确定与其可脱敏的数据类型一致的目标参数集合。随后,基于至少两个脱敏节点自身的脱敏规则,在与其对应的目标参数集合中确定敏感内容,采用指定符号对目标参数集合中的敏感内容进行替换,得到脱敏后的多个参数集合。
在实际应用的过程中,有些参数集合中可能会存在一些用于描述参数集合的数据类型的关键字,例如,“身份证号码”、“姓名”、“年龄”等等,因此,为了缩短待脱敏日志脱敏时间,还可以设置诸如“身份证号码”、“姓名”、“年龄”等等的用于描述数据类型的关键字模板,在划分得到多个参数集合后,先分别在多个参数集合中提取与关键字模板一致的集合关键字,在脱敏链条中确定可脱敏的数据类型与多个集合关键字匹配的多个目标脱敏节点,并将多个参数集合直接依次输入至多个目标节点中进行脱敏处理,从而避免经过过多无用的脱敏节点而造成时间的浪费。例如,假设提取到的参数集合的集合关键字为“身份证号码”,则可以直接将该参数集合输入至身份证号码类数据的脱敏节点进行脱敏。其中,可能存在在一个参数集合中提取到多个关键字的情况,则依次将该参数集合输入至相应的目标脱敏节点即可。需要说明的是,上面描述的提取集合关键字的过程仅为一种可选的方案,可以执行也可以不执行。
203、接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果。
在本发明实施例中,当多个参数集合进行脱敏处理完毕后,脱敏链条会输出的脱敏后的多个参数集合,此时,多个参数集合中的敏感内容已经隐藏,为了还原待脱敏日志脱敏后的日志,需要将已经完成脱敏的多个参数集合按照待脱敏日志的文字顺序重新组合起来,得到敏感内容隐藏后的日志,将敏感内容隐藏后的日志作为脱敏结果。其中,为了便于后续将脱敏后的多个参数集合组合起来,在将多个参数集合输入至脱敏链条中时,可以按照拆分的顺序输入,以便参数集合可以按照输入的顺序直接输出脱敏后的多个参数集合并直接进行组合。
在实际应用的过程中,考虑到多个参数集合脱敏处理是存在时差的,不会同一时间将脱敏处理后的多个参数集合输出,因此,当任一参数集合脱敏处理完毕后,可以先将该脱敏后的参数集合缓存起来,在检测到多个参数集合均脱敏完毕后,再通过组合的方式输出脱敏结果。
需要说明的是,如果经过脱敏链条后发现多个参数集合无需进行脱敏处理,则脱敏链条直接将原始的待脱敏日志输出即可。
在本发明中,考虑到有些场景下需要提升对日志的脱敏效率,使得用户存在对脱敏链条进行设计的需求,因此,本发明还提供对脱敏链条进行自定义的功能,用户可以按照工作的要求自定义脱敏链条,从而缩短脱敏链条的长度,提高对日志的脱敏效率,如图2B所示,该方法包括:
204、当接收到用户的脱敏要求时,对脱敏要求进行解析,提取脱敏要求的至少一个要求关键字,确定至少一个要求关键字指示的至少一个指定脱敏节点。
在本发明实施例中,由于不同的业务场景下,需要依赖的脱敏规则是不同的,但是同一场景下的脱敏规则是固定的,例如,对于仅需要提供身份证号码的场景,只需要固定对身份证号码进行脱敏即可,因此,本发明还提供脱敏链条自定义的功能。
本方案的脱敏系统可以提供一个脱敏设定界面,在脱敏设定界面上设置一个输入框,用户可以在输入框中输入指定脱敏规则。当检测到用户对输入框进行确认时,确定接收到脱敏要求,获取用户在输入框中输入的脱敏要求。由于系统中设置有用于提取集合关键字的关键字模板,关键字模板描述了数据类型,而用户输入的脱敏要求中也会存在用于描述数据类型的内容,因此,随后可以对该脱敏要求进行解析,在脱敏要求中提取与关键字模板一致的至少一个要求关键字,并确定至少一个要求关键字指示的至少一个指定脱敏节点,以便后续基于该至少一个指定脱敏节点组成自定义脱敏链条。
205、将至少一个指定脱敏节点进行组合,生成自定义脱敏链条。
在本发明实施例中,当确定了至少一个指定脱敏节点后,便可以将至少一个指定脱敏节点进行组合,生成自定义脱敏链条。其中,用户还可以设置指定脱敏节点的顺序,这样,在将指定脱敏节点进行组合时,按照用户设置的顺序将至少一个指定脱敏节点进行组合并生成脱敏链条即可,实现脱敏链条的灵活运用,使得脱敏链条更加适配不同的业务场景。
206、对自定义脱敏链条进行编号,将编号后的自定义脱敏链条存储在缓存空间。
在本发明实施例中,当生成自定义脱敏链条后,考虑到可能存在大量的用户自行定义的自定义脱敏链条,为了对这些自定义脱敏链条进行区分,可以对自定义脱敏链条进行编号,将编号后的自定义脱敏链条存储在缓存空间,以便后续用户请求再次使用时,可以直接获取到正确的自定义脱敏链条返回给用户进行使用,无需再次定义。这样,当接收到用户的链条导出请求时,基于链条导出请求携带的链条编号,在缓存空间中查找目标自定义脱敏链条,并将目标自定义脱敏链条导出,基于目标自定义脱敏链条对后续接收到的日志进行脱敏处理即可。
另外,考虑到将历史自定义的脱敏链条缓存起来会占用大量的存储空间,还可以设置清理周期,每隔清理周期,统计缓存空间中存储的全部自定义脱敏链条的使用次数,按照使用次数从大到小的顺序对缓存空间中存储的全部自定义脱敏链条进行排序,将使用次数排在末尾的指定数目的自定义脱敏链条进行清理,也即将不常用的指定书目的自定义脱敏链条清理,保证缓存空间中可以保留存储新进的自定义脱敏链条的空间。
本发明实施例提供的方法,基于标点符号,对待脱敏日志进行拆分,得到多个参数集合,将多个参数集合输入至脱敏链条,基于脱敏链条包括的至少两个用于脱敏不同类型数据的脱敏节点,对多个参数集合进行脱敏处理,并接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果,使得基于一个脱敏链条就可以实现对整个待脱敏日志的遍历,完成待脱敏日志中多种类型敏感信息的脱敏,避免遗漏任何脱敏信息,保证对日志的脱敏完全,将信息泄露的风险降到最低。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种日志脱敏装置,如图3A所示,所述装置包括:拆分模块301,脱敏模块302和第一组合模块303。
该拆分模块301,用于基于标点符号,对待脱敏日志进行拆分,得到多个参数集合;
该脱敏模块302,用于将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,所述脱敏链条包括至少两个用于脱敏不同类型数据的脱敏节点;
该第一组合模块303,用于接收所述脱敏链条输出的脱敏后的所述多个参数集合,将脱敏后的所述多个参数集合进行组合,得到脱敏结果。
在具体的应用场景中,该拆分模块301,用于对待脱敏日志中的所述标点符号进行检测,将每相邻两个所述标点符号之间的内容作为一个所述参数集合,得到所述多个参数集合。
在具体的应用场景中,如图3B所示,该脱敏模块302,包括:第一输入单元3021、第一确定单元3022和脱敏单元3023。
该第一输入单元3021,用于将所述多个参数集合输入至所述脱敏链条的至少两个脱敏节点;
该第一确定单元3022,用于在所述多个参数集合中分别为所述至少两个脱敏节点确定与其可脱敏的数据类型一致的目标参数集合;
该脱敏单元3023,用于基于所述至少两个脱敏节点,在对应的所述目标参数集合中确定敏感内容,采用指定符号对所述目标参数集合中的所述敏感内容进行替换,得到脱敏后的所述多个参数集合。
在具体的应用场景中,如图3C所示,该脱敏模块302,包括:提取单元3024,第二确定单元3025和第二输入单元3026。
该提取单元3024,用于获取关键字模板,在所述多个参数集合中提取与所述关键字模板一致的多个集合关键字;
该第二确定单元3025,用于在所述脱敏链条中确定可脱敏的数据类型与所述多个集合关键字匹配的多个目标脱敏节点;
该第二输入单元3026,用于将所述多个参数集合依次输入至所述多个目标节点中进行脱敏处理。
在具体的应用场景中,如图3D所示,该装置还包括:提取模块304,确定模块305,第二组合模块306和存储模块307。
该提取模块304,用于当接收到用户的脱敏要求时,获取关键字模板,在所述脱敏要求中提取与所述关键字模板一致的至少一个要求关键字;
该确定模块305,用于确定所述至少一个要求关键字指示的至少一个指定脱敏节点;
该第二组合模块306,用于将所述至少一个指定脱敏节点进行组合,生成自定义脱敏链条;
该存储模块307,用于对所述自定义脱敏链条进行编号,将编号后的所述自定义脱敏链条存储在缓存空间。
在具体的应用场景中,如图3E所示,该装置还包括:统计模块308和清理模块309。
该统计模块308,用于每隔清理周期,统计所述缓存空间中存储的全部自定义脱敏链条的使用次数;
该清理模块309,用于按照使用次数从大到小的顺序对所述缓存空间中存储的全部自定义脱敏链条进行排序,将所述使用次数排在末尾的指定数目的自定义脱敏链条进行清理。
在具体的应用场景中,如图3F所示,该装置还包括:查找模块310和导出模块311。
该查找模块310,用于当接收到链条导出请求时,基于所述链条导出请求携带的链条编号,在所述缓存空间中查找目标自定义脱敏链条;
该导出模块311,用于将所述目标自定义脱敏链条导出,并基于所述目标自定义脱敏链条对接收到的日志进行脱敏处理。
本发明实施例提供的装置,基于标点符号,对待脱敏日志进行拆分,得到多个参数集合,将多个参数集合输入至脱敏链条,基于脱敏链条包括的至少两个用于脱敏不同类型数据的脱敏节点,对多个参数集合进行脱敏处理,并接收脱敏链条输出的脱敏后的多个参数集合,将脱敏后的多个参数集合进行组合,得到脱敏结果,使得基于一个脱敏链条就可以实现对整个待脱敏日志的遍历,完成待脱敏日志中多种类型敏感信息的脱敏,避免遗漏任何脱敏信息,保证对日志的脱敏完全,将信息泄露的风险降到最低。
需要说明的是,本发明实施例提供的一种日志脱敏装置所涉及各功能单元的其他相应描述,可以参考图1和图2A至图2B中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备400包括通信总线、处理器、存储器和通信接口,还可以包括、输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的日志脱敏方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的日志脱敏方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种日志脱敏方法,其特征在于,包括:
基于标点符号,对待脱敏日志进行拆分,得到多个参数集合;
将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,所述脱敏链条包括至少两个用于脱敏不同类型数据的脱敏节点;
接收所述脱敏链条输出的脱敏后的所述多个参数集合,将脱敏后的所述多个参数集合进行组合,得到脱敏结果。
2.根据权利要求1所述的方法,其特征在于,所述基于标点符号,对待脱敏日志进行拆分,得到多个参数集合,包括:
对待脱敏日志中的所述标点符号进行检测,将每相邻两个所述标点符号之间的内容作为一个所述参数集合,得到所述多个参数集合。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,包括:
将所述多个参数集合输入至所述脱敏链条的至少两个脱敏节点;
在所述多个参数集合中分别为所述至少两个脱敏节点确定与其可脱敏的数据类型一致的目标参数集合;
基于所述至少两个脱敏节点,在对应的所述目标参数集合中确定敏感内容,采用指定符号对所述目标参数集合中的所述敏感内容进行替换,得到脱敏后的所述多个参数集合。
4.根据权利要求1所述的方法,其特征在于,所述将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,包括:
获取关键字模板,在所述多个参数集合中提取与所述关键字模板一致的多个集合关键字;
在所述脱敏链条中确定可脱敏的数据类型与所述多个集合关键字匹配的多个目标脱敏节点;
将所述多个参数集合依次输入至所述多个目标节点中进行脱敏处理。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当接收到用户的脱敏要求时,获取关键字模板,在所述脱敏要求中提取与所述关键字模板一致的至少一个要求关键字;
确定所述至少一个要求关键字指示的至少一个指定脱敏节点;
将所述至少一个指定脱敏节点进行组合,生成自定义脱敏链条;
对所述自定义脱敏链条进行编号,将编号后的所述自定义脱敏链条存储在缓存空间。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
每隔清理周期,统计所述缓存空间中存储的全部自定义脱敏链条的使用次数;
按照使用次数从大到小的顺序对所述缓存空间中存储的全部自定义脱敏链条进行排序,将所述使用次数排在末尾的指定数目的自定义脱敏链条进行清理。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当接收到链条导出请求时,基于所述链条导出请求携带的链条编号,在所述缓存空间中查找目标自定义脱敏链条;
将所述目标自定义脱敏链条导出,并基于所述目标自定义脱敏链条对接收到的日志进行脱敏处理。
8.一种日志脱敏装置,其特征在于,包括:
拆分模块,用于基于标点符号,对待脱敏日志进行拆分,得到多个参数集合;
脱敏模块,用于将所述多个参数集合输入至脱敏链条,基于所述脱敏链条,对所述多个参数集合进行脱敏处理,所述脱敏链条包括至少两个用于脱敏不同类型数据的脱敏节点;
第一组合模块,用于接收所述脱敏链条输出的脱敏后的所述多个参数集合,将脱敏后的所述多个参数集合进行组合,得到脱敏结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010045773.7A 2020-01-16 2020-01-16 日志脱敏方法、装置、计算机设备及计算机可读存储介质 Active CN111310224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045773.7A CN111310224B (zh) 2020-01-16 2020-01-16 日志脱敏方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045773.7A CN111310224B (zh) 2020-01-16 2020-01-16 日志脱敏方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111310224A true CN111310224A (zh) 2020-06-19
CN111310224B CN111310224B (zh) 2023-06-02

Family

ID=71160395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045773.7A Active CN111310224B (zh) 2020-01-16 2020-01-16 日志脱敏方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111310224B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688184A (zh) * 2022-12-26 2023-02-03 平安银行股份有限公司 日志脱敏方法、装置、电子设备和存储介质
CN116545776A (zh) * 2023-07-06 2023-08-04 中航金网(北京)电子商务有限公司 数据传输方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229154A (zh) * 2017-12-12 2018-06-29 顺丰科技有限公司 敏感数据操作日志记录方法、装置、存储介质及设备
CN109388965A (zh) * 2018-09-10 2019-02-26 全球能源互联网研究院有限公司 一种混合数据的脱敏方法及系统
CN109446173A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 日志数据处理方法、装置、计算机设备和存储介质
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109525608A (zh) * 2019-01-07 2019-03-26 Oppo广东移动通信有限公司 日志上报方法和装置、日志管理方法和装置及终端设备
CN109726590A (zh) * 2018-12-24 2019-05-07 平安普惠企业管理有限公司 系统日志脱敏方法、脱敏系统、计算机设备及存储介质
CN110175465A (zh) * 2019-04-15 2019-08-27 深圳壹账通智能科技有限公司 日志脱敏方法、装置、计算机设备和计算机可读存储介质
CN110610196A (zh) * 2019-08-14 2019-12-24 平安科技(深圳)有限公司 脱敏方法、系统、计算机设备和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229154A (zh) * 2017-12-12 2018-06-29 顺丰科技有限公司 敏感数据操作日志记录方法、装置、存储介质及设备
CN109388965A (zh) * 2018-09-10 2019-02-26 全球能源互联网研究院有限公司 一种混合数据的脱敏方法及系统
CN109446173A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 日志数据处理方法、装置、计算机设备和存储介质
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109726590A (zh) * 2018-12-24 2019-05-07 平安普惠企业管理有限公司 系统日志脱敏方法、脱敏系统、计算机设备及存储介质
CN109525608A (zh) * 2019-01-07 2019-03-26 Oppo广东移动通信有限公司 日志上报方法和装置、日志管理方法和装置及终端设备
CN110175465A (zh) * 2019-04-15 2019-08-27 深圳壹账通智能科技有限公司 日志脱敏方法、装置、计算机设备和计算机可读存储介质
CN110610196A (zh) * 2019-08-14 2019-12-24 平安科技(深圳)有限公司 脱敏方法、系统、计算机设备和计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688184A (zh) * 2022-12-26 2023-02-03 平安银行股份有限公司 日志脱敏方法、装置、电子设备和存储介质
CN116545776A (zh) * 2023-07-06 2023-08-04 中航金网(北京)电子商务有限公司 数据传输方法、装置、计算机设备及存储介质
CN116545776B (zh) * 2023-07-06 2023-10-03 中航金网(北京)电子商务有限公司 数据传输方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111310224B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Lee et al. Cleansing data for mining and warehousing
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN109726274B (zh) 问题生成方法、装置及存储介质
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US10691769B2 (en) Methods and apparatus for removing a duplicated web page
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN103631783B (zh) 一种前端页面的生成方法及系统
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
Ferrari et al. Using clustering to improve the structure of natural language requirements documents
CN111310224A (zh) 日志脱敏方法、装置、计算机设备及计算机可读存储介质
CN114942971B (zh) 一种结构化数据的抽取方法及装置
CN107229694A (zh) 一种基于大数据的数据信息一致性处理方法、系统及装置
JP2022042495A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーション
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN110413996B (zh) 构造零指代消解语料的方法及装置
CN107992402A (zh) 日志管理方法及日志管理装置
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN112612810A (zh) 慢sql语句识别方法及系统
CN111160445A (zh) 投标文件相似度计算方法及装置
CN115859932A (zh) 一种日志模板提取方法、装置、电子设备及存储介质
CN105095276B (zh) 一种挖掘最大重复序列的方法及装置
CN114780098A (zh) Gauss Db数据库程序语法的检测方法及相关设备
CN112395865A (zh) 报关单校验方法及装置
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220525

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant