CN112307512A - 一种日志脱敏方法、装置及存储介质 - Google Patents

一种日志脱敏方法、装置及存储介质 Download PDF

Info

Publication number
CN112307512A
CN112307512A CN202011251132.3A CN202011251132A CN112307512A CN 112307512 A CN112307512 A CN 112307512A CN 202011251132 A CN202011251132 A CN 202011251132A CN 112307512 A CN112307512 A CN 112307512A
Authority
CN
China
Prior art keywords
field
sensitive information
desensitization
type
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011251132.3A
Other languages
English (en)
Inventor
汪双双
杨建旭
周国威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinqing Technology Co ltd
Original Assignee
Yinqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinqing Technology Co ltd filed Critical Yinqing Technology Co ltd
Priority to CN202011251132.3A priority Critical patent/CN112307512A/zh
Publication of CN112307512A publication Critical patent/CN112307512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Telephone Function (AREA)

Abstract

本说明书实施例提供一种日志脱敏方法、装置及存储介质。所述方法包括:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息,从而保证日志脱敏后依旧具有重复使用的价值。

Description

一种日志脱敏方法、装置及存储介质
技术领域
本说明书实施例涉及信息安全技术领域,特别涉及一种日志脱敏方法、装置及存储介质。
背景技术
随着计算机技术的飞速发展,大数据技术也应运而生,在大数据时代,数据共享的背景下,对于个人信息等敏感数据的安全性的保证也是研究的重要方向之一,对于个人信息等敏感数据的安全保证采取的措施是根据法定规则对个人信息等敏感数据进行加密,以此进行数据的脱敏操作。
特别是在支付系统中,生产线上的应用日志对业务分析及业务测试有着重大意义,但生产线上的日志通常会涉及到用户的真实信息,如账号、姓名、身份证号、电话、地址等。若直接将身份信息导入日志中会将用户的真实信息都展现出来,从而导致用户的信息外泄。因此,可以对这些敏感信息进行脱敏操作。现有技术中,通常由人工处理的方式,在每个涉及敏感信息的地方进行脱敏处理,使敏感信息隐去部分或者全部。
但是,人工处理的脱敏方式依赖于人的经验,需要对大量的日志中的敏感信息进行排查和修改。这种方式耗时费力,且还会存在遗漏情况导致部分敏感信息未能进行脱敏加密,导致前后关联业务断连。
因此,现有的日志脱敏方式效率低下,且无法有效保证日志的复用性。
发明内容
本说明书实施例的目的是提供一种日志脱敏方法、装置及存储介质,以提高日志脱敏的效率的同时,保证日志脱敏后依旧具有重复使用的价值。
为解决上述问题,本说明书实施例提供一种日志脱敏方法,所述方法包括:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
为解决上述问题,本说明书实施例还提供一种日志脱敏装置,所述装置包括:解析模块,用于对获取的日志文件进行解析,得到预设格式的报文数据;确定模块,用于根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;匹配模块,用于在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;脱敏模块,用于使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
为解决上述问题,本说明书实施例还提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
为解决上述问题,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,可以对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。本说明书实施例提供的方法,和传统的人工处理的脱敏方式相比,提高了脱敏效率,且完成了日志不可逆的脱敏,保证了业务数据前后的关联性,使得日志脱敏后依旧具有重复使用的价值,为测试或是业务分析提供了真实有效的数据。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种日志脱敏方法的流程图;
图2为本说明书实施例一种电子设备的功能结构示意图;
图3为本说明书实施例一种日志脱敏装置的功能结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在本说明书实施例中,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
不同的应用系统、设备对应的日志系统中保留了大量的敏感数据。比如用户的会话中携带的身份证号、用户名、用户标识等,例如:请求结构化查询语言(StructuredQueryLanguage,SQL)语句中的银行卡号、客户端IP地址、服务端的IP等等。当日志需要进行查询、分析时,这些敏感数据将会暴露给非授权用户,导致信息安全隐患。现有技术一般通过人工处理的方式在日志敏感信息写入过程中对敏感数据进行加密或替换等方式处理,使其转换为不可识别的数据,再写入日志系统。但是,人工处理的脱敏方式依赖于人的经验,需要对大量的日志中的敏感信息进行排查和修改。这种方式耗时费力,且还会存在遗漏情况导致部分敏感信息未能进行脱敏加密,导致前后关联业务断连。基于此,本说明书实施例提供一种日志脱敏方法、装置及存储介质,以提高日志脱敏的效率的同时,保证日志脱敏后依旧具有重复使用的价值。
请参阅图1。本说明实施例还提供一种日志脱敏方法。在本说明书实施例中,执行所述日志脱敏方法的主体可以是具有逻辑运算功能的电子设备,所述电子设备可以是服务器。所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然,所述服务器并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。所述方法可以包括以下步骤。
S110:对获取的日志文件进行解析,得到预设格式的报文数据。
在一些实施例中,所述日志文件是用于记录系统操作事件的记录文件或文件集合,可分为事件日志和消息日志。具有处理历史数据、诊断问题的追踪以及理解系统的活动等重要作用。在计算机中,所述日志文件是记录在操作系统或其他软件运行中发生的事件或在通信软件的不同用户之间的消息的文件。记录是保持日志的行为。在最简单的情况下,消息被写入单个日志文件。
在一些实施例中,报文(message)是网络中交换与传输的数据单元,即站点一次性要发送的数据块。报文包含了将要发送的完整的数据信息,其长短很不一致,长度不限且可变。报文可以由报文头和报文域组成。通过报文头可以确定报文的报文类型、报文版本、报文长度、报文实体等信息,报文域中包括报文所携带的数据内容。
在一些实施例中,服务器可以通过以下方式获取日志文件:用户可以在所述服务器中导入获取日志文件。所述服务器可以接受导入的日志文件。例如,所述服务器可以向用户提供交互界面,用户可以在所述交互界面中导入日志文件,以使所述服务器可以获取日志文件。或者,用户还可以在客户端中导入日志文件。所述客户端可以接收用户导入的日志文件,并向所述服务器发送日志文件。所述服务器可以获取客户端发送的日志文件。例如,所述客户端可以向用户提供交互界面,用户可以在所述交互界面中导入日志文件,从而使得所述客户端可以接收用户导入的日志文件,并向所述服务器发送日志文件。所述客户端例如可以为智能手机、平板电脑、笔记本电脑、台式电脑等等。所述客户端能够与所述服务器进行通信,例如可以通过有线网络和/或无线网络与所述服务器进行通信。当然,所述服务器还可以通过其他方式获取日志文件,在本说明书实施例中,对服务器采用何种方式获取日志文件不作限定。
在一些实施例中,所述日志文件可能是大文件,例如为4G大小的文件,不能像普通文件那样一次读入内存中,为提高对日志文件的解析效率,可以对所述日志文件进行分块解析,得到多个预设格式的报文数据块。具体的,在读取日志文件时,可以在缓冲区对日志文件进行分块读取,例如缓冲区大小可以为2M、3M、5M等大小,再分别对分块数据进行解析,得到多个预设格式的报文数据块。其中,所述预设格式可以为可扩展标记语言(extensiblemarkup language,XML)格式。
在一些实施例中,通常日志文件中可以包括大量的数据,有一些数据为需要的数据,有些数据则为不需要的数据。根据系统类型以及节点类型的不同,需要的数据也不同。因此,可以根据系统类型以及节点类型配置截取符,在所述日志文件中预先设置截取符,其中,所述截取符用于标记所述日志文件中报文串文本开始位置的字符串和结束位置的字符串。根据系统类型以及节点类型可以获取日志文件中对应的截取符。相应的,所述对所述日志文件进行分块解析,得到多个预设格式的报文数据块包括:解析得到多个截取符之间的报文数据块。
S120:根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型。
在一些实施例中,所述敏感信息的类型可以包括姓名、电话、身份证、账号、地址等信息。当然,所述敏感信息的类型还可以包括其他类型,例如邮箱、性别等信息。本说明书实施例对敏感信息的类型不做限定。
在一些实施例中,服务器得到预设格式的报文数据后,可以基于预设的与所述报文数据对应的格式特征字符确定敏感信息对应的字段。例如,所述报文数据的格式为XML格式时,所述报文数据可以包括<>、</>等字符,可以将这些标志性的字符设置为格式特征字符。
服务器可以根据获取到的特征字符,从所述报文数据中确定敏感信息对应的字段,敏感信息对应的字段可以为一个或多个,具体可以由所述报文数据中包含的数据内容而定。例如,预先将姓名、电话、身份证、账号、地址等信息设置为敏感信息,服务器可以根据<>、</>等字符,从XML格式的报文数据中确定敏感信息对应的字段和这些字段的属性值。例如可以为<name>张三</name>,<sex>男</sex>,<address>北京市</address>。当然,若所述报文数据为其他格式的文件,也可以使用类似的方法确定敏感信息对应的字段,或者将其他格式的报文数据转换为XML格式的报文数据,从而根据上述方式确定敏感信息对应的字段。
在一些实施例中,可以根据所述敏感信息对应的字段的名称来确定所述敏感信息的类型,例如字段名称为name,则该字段敏感信息的类型为姓名,字段名称为phone,则该字段敏感信息的类型为电话,字段名称为,address则该字段敏感信息的类型为地址。
在一些实施例中,所述字段类型包括数字类型的字段和文本类型的字段。例如名称为phone的字段,其属性值一般由数字组成。这些属性值由数字组成的字段的字段类型为数字类型。例如名称为name的字段,其属性值一般有文字或者字母组成,这些属性值由文字或者字母等组成的字段的字段类型为文本类型。
在一些实施例中,可以根据所述敏感信息对应的字段的名称来确定所述所述字段的字段类型。例如名称为phone的字段,其属性值一般由数字组成,可以确定名称为phone的字段的字段类型为数字类型;名称为name的字段,其属性值一般有文字或者字母组成,可以确定名称为name的字段的字段类型为文本类型。当然,还可以通过其他方式确定所述所述字段的字段类型,例如根据所述字段的属性值来确定,当字段的属性值由数字组成,则可以确定该字段的字段类型为数字类型;当字段的属性值由文字或字母组成,则可以确定该字段的字段类型为文本类型。
S130:在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同。
关系型数据库中的一条记录中有若干个属性,若其中某一个属性组能唯一标识一条记录,该属性组就可以成为一个主键。比如,学生表中包括属性学号、姓名、性别、班级。其中每个学生的学号是唯一的,学号就是一个主键;课程表中包括属性课程编号、课程名、学分。其中课程编号是唯一的,课程编号就是一个主键;成绩表中包括属性学号、课程号、成绩。其中,成绩表中单一一个属性无法唯一标识一条记录,学号和课程号的组合才可以唯一标识一条记录,所以学号和课程号的属性组是一个主键。也就是说,主键是能确定一条记录的唯一标识,比如,一条记录包括身份证号、姓名、年龄。身份证号能唯一确定某一个人,而其他信息如姓名、年龄都有可能与其他人重复,所以身份证号是主键。
在一些实施例中,所述报文数据中的字段中可以设置有主键标识。所述主键标识用于标识该字段是否为主键。服务器可以根据所述报文数据中字段是否带有主键标识判断敏感信息对应的字段是否为主键。
在一些实施例中,可以基于所述敏感信息对应的字段是否为主键,对所述敏感信息使用不同的脱敏处理方式进行脱敏处理。在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同。
具体的,不同的敏感信息的类型和字段类型对应不同的第一脱敏规则。例如,对于姓名类型的敏感信息,字段类型为文本类型,可以将该敏感信息对应的字段替换为指定字段。例如对于姓名“张三”,可以根据第一脱敏规则将其替换为“李四”,在后续字段中,将字段属性值为“张三”的字段均替换为指定字段“李四”,从而保证了业务前后的关联系。替换后的字段与替换前的字段对应的信息类型相同。也就是说,替换前的所述敏感信息对应的字段与替换后的指定字段具有相同的外观表现形式,但所表达的具体内容不同。例如替换前的字段对应的信息类型为电话号码,则替换后的字段的属性值为一串数字,替换后的字段的信息类型也为电话号码的形式;若替换前的字段对应的信息类型为姓名,则替换后的字段的属性值为文字,替换后的字段对应的信息类型为姓名的形式。
在一些实施例中,为使替换后的指定字段尽可能减少在后续的日志分析中的影响,所述指定字段与所述敏感信息对应的字段等长。例如,对于姓名“张三”,可以根据第一脱敏规则将其替换为“李四”,替换前后的字段等长。
在一些实施例中,为进一步使替换后的指定字段尽可能减少在后续的日志分析中的影响,所述指定字段与所述敏感信息对应的字段的字段类型相同。例如替换前后的字段同为数字类型的字段或者同为文本类型的字段。
当然,根据敏感信息的类型和字段类型的不同,可以对应着不同的第一脱敏规则。如表1所示,表1示例性的给出了不同敏感信息对应的脱敏规则,以及脱敏前后字段属性值的变化。
表1
Figure BDA0002771647180000071
Figure BDA0002771647180000081
其中,n和G的含义如表2所示。
表2
Figure BDA0002771647180000082
在一些实施例中,所述从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则包括:预先将所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则进行关联存储,以便于在确定所述敏感信息的类型和所述字段的字段类型后,查找出所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则。具体的,将将所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则进行关联存储可以包括:通过数据表的方式关联存储敏感信息的类型和字段类型对应的第一脱敏规则,数据表中的一列存储敏感信息的类型和字段类型,另一列存储第一脱敏规则,相关联的敏感信息的类型和字段类型与第一脱敏规则处于同一行。或者,可以将敏感信息的类型和字段类型与第一脱敏规则的索引关联存储。具体举例为数据库中预先存储有第一脱敏规则集,为第一脱敏规则集中的每个第一脱敏规则制定编号,该编号即为对应的敏感信息的类型和字段类型的索引,通过该索引可以唯一确定对应的第一脱敏规则。将敏感信息的类型和字段类型与第一脱敏规则的索引关联存储,便可以唯一确定与敏感信息的类型和字段类型相关联的第一脱敏规则。当然,敏感信息的类型和字段类型与第一脱敏规则关联存储的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在一些实施例中,在所述敏感信息对应的字段为非主键的情况下,从第二脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第二脱敏规则;其中,所述第二脱敏规则集中包括多个第二脱敏规则,所述第二脱敏规则包括将所述敏感信息对应的字段替换为随机字段;所述随机字段对应的信息的类型与所述敏感信息的类型相同。
具体的,不同的敏感信息的类型和字段类型对应不同的第二脱敏规则。例如,对于姓名类型的敏感信息,字段类型为文本类型,可以将该敏感信息对应的字段替换为随机字段。例如对于姓名“张三”,可以根据第一脱敏规则将其替换为“王五”。在后续字段中,由于第二脱敏规则为替换为随机字段,若后续字段中出现字段属性值同为“张三”的字段,基于第二脱敏规则,可能替换为“李四”、“赵一”等不同的字段。替换后的字段与替换前的字段对应的信息类型相同。也就是说,替换前的所述敏感信息对应的字段与替换后的随机字段具有相同的外观表现形式,但所表达的具体内容不同。例如替换前的字段对应的信息类型为电话号码,则替换后的字段的属性值为一串数字,替换后的字段的信息类型也为电话号码的形式;若替换前的字段对应的信息类型为姓名,则替换后的字段的属性值为文字,替换后的字段对应的信息类型为姓名的形式。
在一些实施例中,为使替换后的指定字段尽可能减少在后续的日志分析中的影响,所述随机字段与所述敏感信息对应的字段等长。例如,对于姓名“张三”,可以根据第一脱敏规则将其替换为“李四”,替换前后的字段等长。
在一些实施例中,为进一步使替换后的随机字段尽可能减少在后续的日志分析中的影响,所述指定字段与所述敏感信息对应的字段的字段类型相同。例如替换前后的字段同为数字类型的字段或者同为文本类型的字段。
当然,根据敏感信息的类型和字段类型的不同,可以对应着不同的第二脱敏规则。如表3所示,表3示例性的给出了不同敏感信息对应的脱敏规则,以及脱敏前后字段属性值的变化。
表3
Figure BDA0002771647180000091
在一些实施例中,从第二脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第二脱敏规则,与从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则所采用的方法类似,具体可以参照从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则所采用的方法。
S140:使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
在一些实施例中,在所述敏感信息对应的字段为主键的情况下,可以使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息;在所述敏感信息对应的字段为非主键的情况下,使用所述第二脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
在一些实施例中,所述方法还可以包括将所述敏感信息对应的脱敏信息转换为脱敏后的日志进行输出。具体的,可以将所述敏感信息对应的脱敏信息替换报文数据块中的原数据,返回替换后的报文数据块,再将读取并处理完成的块数据追加的方式写入输出文件。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,可以对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。本说明书实施例提供的方法,和传统的人工处理的脱敏方式相比,提高了脱敏效率,且完成了日志不可逆的脱敏,保证了业务数据前后的关联性,使得日志脱敏后依旧具有重复使用的价值,为测试或是业务分析提供了真实有效的数据。
图2为本说明书实施例一种电子设备的功能结构示意图,所述电子设备可以包括存储器和处理器。
在一些实施例中,所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现日志脱敏方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据用户终端的使用所创建的数据。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述处理器可以执行所述计算机指令实现以下步骤:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
在本说明书实施例中,该电子设备具体实现的功能和效果,可以与其它实施例对照解释,在此不再赘述。
图3为本说明书实施例一种信息采集装置的功能结构示意图,该装置具体可以包括以下的结构模块。
解析模块310,用于对获取的日志文件进行解析,得到预设格式的报文数据;
确定模块320,用于根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;
匹配模块330,用于在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;
脱敏模块340,用于使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
本说明书实施例还提供了一种信息采集方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
在本说明书实施例中,上述存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块,所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据用户终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。在本说明书实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (15)

1.一种日志脱敏方法,其特征在于,所述方法包括:
对获取的日志文件进行解析,得到预设格式的报文数据;
根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;
在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;
使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
2.根据权利要求1所述的方法,其特征在于,所述指定字段与所述敏感信息对应的字段等长。
3.根据权利要求1所述的方法,其特征在于,所述指定字段与所述敏感信息对应的字段的字段类型相同。
4.根据权利要求1所述的方法,其特征在于,在所述敏感信息对应的字段为非主键的情况下,从第二脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第二脱敏规则;其中,所述第二脱敏规则集中包括多个第二脱敏规则,所述第二脱敏规则包括将所述敏感信息对应的字段替换为随机字段;所述随机字段对应的信息的类型与所述敏感信息的类型相同;
使用所述第二脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
5.根据权利要求4所述的方法,其特征在于,所述随机字段与所述敏感信息对应的字段等长。
6.根据权利要求4所述的方法,其特征在于,所述随机字段与所述敏感信息对应的字段的字段类型相同。
7.根据权利要求1所述的方法,其特征在于,所述对获取的日志文件进行解析,得到预设格式的报文数据包括:
对所述日志文件进行分块解析,得到多个预设格式的报文数据块。
8.根据权利要求7所述的方法,其特征在于,所述日志文件中还包括截取符,其中,所述截取符用于标记所述日志文件中报文串文本开始位置的字符串和结束位置的字符串;
相应的,所述对所述日志文件进行分块解析,得到多个预设格式的报文数据块包括:解析得到多个截取符之间的报文数据块。
9.根据权利要求1所述的方法,其特征在于,所述字段类型包括数字类型的字段和文本类型的字段。
10.根据权利要求1所述的方法,其特征在于,所述敏感信息的类型包括姓名、电话、身份证、账号、地址中的至少一种。
11.根据权利要求1所述的方法,其特征在于,根据所述报文数据中字段是否带有主键标识判断敏感信息对应的字段是否为主键。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述敏感信息对应的脱敏信息转换为脱敏后的日志进行输出。
13.一种日志脱敏装置,其特征在于,所述装置包括:
解析模块,用于对获取的日志文件进行解析,得到预设格式的报文数据;
确定模块,用于根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;
匹配模块,用于在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;
脱敏模块,用于使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
14.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现:对获取的日志文件进行解析,得到预设格式的报文数据;根据所述报文数据中敏感信息对应的字段确定所述敏感信息的类型和所述字段的字段类型;在所述敏感信息对应的字段为主键的情况下,从第一脱敏规则集中匹配所述敏感信息的类型和所述字段的字段类型对应的第一脱敏规则;其中,所述第一脱敏规则集中包括多个第一脱敏规则,所述第一脱敏规则包括将所述敏感信息对应的字段替换为指定字段;所述指定字段对应的信息的类型与所述敏感信息的类型相同;使用所述第一脱敏规则对所述敏感信息进行脱敏处理得到所述敏感信息对应的脱敏信息。
CN202011251132.3A 2020-11-11 2020-11-11 一种日志脱敏方法、装置及存储介质 Pending CN112307512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011251132.3A CN112307512A (zh) 2020-11-11 2020-11-11 一种日志脱敏方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011251132.3A CN112307512A (zh) 2020-11-11 2020-11-11 一种日志脱敏方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112307512A true CN112307512A (zh) 2021-02-02

Family

ID=74325665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011251132.3A Pending CN112307512A (zh) 2020-11-11 2020-11-11 一种日志脱敏方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112307512A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569291A (zh) * 2021-08-02 2021-10-29 京东科技控股股份有限公司 日志掩码方法及装置
CN113704820A (zh) * 2021-08-11 2021-11-26 中国银联股份有限公司 一种应用日志打码方法、装置及计算机可读存储介质
CN114116644A (zh) * 2021-11-26 2022-03-01 北京字节跳动网络技术有限公司 一种日志文件处理方法、装置、设备及存储介质
CN114707180A (zh) * 2022-03-31 2022-07-05 马上消费金融股份有限公司 日志脱敏方法和装置
CN115688151A (zh) * 2023-01-05 2023-02-03 恒丰银行股份有限公司 一种针对敏感信息的脱敏复敏方法、系统及终端机
WO2023015670A1 (zh) * 2021-08-12 2023-02-16 广东艾檬电子科技有限公司 日志内容的脱敏方法、装置、设备和介质
CN116186785A (zh) * 2023-04-28 2023-05-30 中国工商银行股份有限公司 日志脱敏方法、装置、设备、介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN108418676A (zh) * 2018-01-26 2018-08-17 山东超越数控电子股份有限公司 一种基于权限的数据脱敏方法
CN109525608A (zh) * 2019-01-07 2019-03-26 Oppo广东移动通信有限公司 日志上报方法和装置、日志管理方法和装置及终端设备
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN111339559A (zh) * 2020-02-25 2020-06-26 北京同邦卓益科技有限公司 一种日志脱敏的数据处理方法及装置
CN111651784A (zh) * 2020-04-28 2020-09-11 中国平安财产保险股份有限公司 日志脱敏方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN108418676A (zh) * 2018-01-26 2018-08-17 山东超越数控电子股份有限公司 一种基于权限的数据脱敏方法
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN109525608A (zh) * 2019-01-07 2019-03-26 Oppo广东移动通信有限公司 日志上报方法和装置、日志管理方法和装置及终端设备
CN111339559A (zh) * 2020-02-25 2020-06-26 北京同邦卓益科技有限公司 一种日志脱敏的数据处理方法及装置
CN111651784A (zh) * 2020-04-28 2020-09-11 中国平安财产保险股份有限公司 日志脱敏方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘永山: "《计算机(软件)工程导论》", pages: 195 - 196 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569291A (zh) * 2021-08-02 2021-10-29 京东科技控股股份有限公司 日志掩码方法及装置
CN113569291B (zh) * 2021-08-02 2024-04-05 京东科技控股股份有限公司 日志掩码方法及装置
CN113704820A (zh) * 2021-08-11 2021-11-26 中国银联股份有限公司 一种应用日志打码方法、装置及计算机可读存储介质
WO2023015853A1 (zh) * 2021-08-11 2023-02-16 中国银联股份有限公司 一种应用日志打码方法、装置及计算机可读存储介质
WO2023015670A1 (zh) * 2021-08-12 2023-02-16 广东艾檬电子科技有限公司 日志内容的脱敏方法、装置、设备和介质
CN114116644A (zh) * 2021-11-26 2022-03-01 北京字节跳动网络技术有限公司 一种日志文件处理方法、装置、设备及存储介质
CN114116644B (zh) * 2021-11-26 2024-01-30 抖音视界有限公司 一种日志文件处理方法、装置、设备及存储介质
CN114707180A (zh) * 2022-03-31 2022-07-05 马上消费金融股份有限公司 日志脱敏方法和装置
CN115688151A (zh) * 2023-01-05 2023-02-03 恒丰银行股份有限公司 一种针对敏感信息的脱敏复敏方法、系统及终端机
CN115688151B (zh) * 2023-01-05 2023-04-07 恒丰银行股份有限公司 一种针对敏感信息的脱敏复敏方法、系统及终端机
CN116186785A (zh) * 2023-04-28 2023-05-30 中国工商银行股份有限公司 日志脱敏方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN112307512A (zh) 一种日志脱敏方法、装置及存储介质
US11093490B2 (en) Recommending data enrichments
US9703675B2 (en) Structured logging and instrumentation framework
US9576005B2 (en) Search system
CN109479061B (zh) 遵从性违反检测
CN108564339A (zh) 一种账户管理方法、装置、终端设备及存储介质
CN107832277A (zh) 用于提供网页的二进制表示的系统和方法
CN110597814B (zh) 结构化数据的序列化、反序列化方法以及装置
US10445370B2 (en) Compound indexes for graph databases
CN111586695B (zh) 短信识别方法及相关设备
CN106557974B (zh) 一种imix协议数据的处理方法及系统
CN110069604B (zh) 文本搜索方法、装置和计算机可读存储介质
WO2021189766A1 (zh) 数据可视化方法及相关设备
CN105354506B (zh) 隐藏文件的方法和装置
CN108170867B (zh) 一种元数据服务系统
CN112149391B (zh) 信息处理方法、信息处理装置、终端设备及存储介质
CN113472686A (zh) 信息识别方法、装置、设备及存储介质
CN112416875A (zh) 日志管理方法、装置、计算机设备及存储介质
CN111914065B (zh) 短信内容验证方法、装置、计算机系统和计算机可读介质
CN112148953B (zh) 差异数据的访问方法以及装置
CN112202822B (zh) 数据库注入检测方法、装置、电子设备及存储介质
US20230409815A1 (en) Document processing method and apparatus, and device and medium
CN117492752A (zh) 一种页面动态配置方法、装置、计算机设备及存储介质
CN112134925A (zh) 一种校企合作教育协同通讯系统
CN117931774A (zh) 数据中台的数据处理方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination