CN116304223A - 基于日志的敏感信息筛选展示方法、装置、设备及介质 - Google Patents

基于日志的敏感信息筛选展示方法、装置、设备及介质 Download PDF

Info

Publication number
CN116304223A
CN116304223A CN202310254879.1A CN202310254879A CN116304223A CN 116304223 A CN116304223 A CN 116304223A CN 202310254879 A CN202310254879 A CN 202310254879A CN 116304223 A CN116304223 A CN 116304223A
Authority
CN
China
Prior art keywords
log
sensitive information
logs
filtering
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310254879.1A
Other languages
English (en)
Inventor
杨文韬
许园园
王烨
王文轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pingan Payment Technology Service Co Ltd
Original Assignee
Pingan Payment Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pingan Payment Technology Service Co Ltd filed Critical Pingan Payment Technology Service Co Ltd
Priority to CN202310254879.1A priority Critical patent/CN116304223A/zh
Publication of CN116304223A publication Critical patent/CN116304223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及日志监控技术领域,公开了一种基于日志的敏感信息筛选展示方法、装置、设备及介质,包括:通过日志采集器采集各个系统产生的日志;统一收集日志,并根据日志的来源将其存储至不同的主题topic中;依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;将获取的敏感信息储存至时序数据库中;通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。本发明解决了敏感信息难以全盘发现的业务痛点,解决了多套系统叠加才能实现覆盖的技术现状。

Description

基于日志的敏感信息筛选展示方法、装置、设备及介质
技术领域
本发明涉及日志监控技术领域,尤其涉及一种基于日志的敏感信息筛选展示方法、装置、设备及介质。
背景技术
敏感信息为一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成危害的数据和以电子或其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息,包括但不仅限于个人银行卡号、身份证号、手机号、邮箱地址。
在现代软件系统模型下,企业通过软件系统对外开展各项业务时,用户提交的敏感信息将通过网页浏览器、手机APP等用户客户端进行发送。
敏感信息经加密传输到达企业对外开放的网络入口后,由于系统处理的需要,将对敏感信息进行解密。解密后的敏感信息将流经企业软件系统的各个环节,最终到达数据库进行存储。在敏感信息流转过程中,网络日志、应用系统日志、数据库日志、数据存储记录等都有可能存在未经匿名化、加密处理的敏感信息明文。
为了满足安全需要,企业需要敏感信息的发现手段,在软件系统的各个环节及时发现明文形式的敏感信息,可以帮助企业及时的进行整治。
当前敏感信息发现解决方案普遍专注于某一特定场景或特定环节,比如针对网络流量的敏感信息发现,又或者是针对系统接口访问的敏感信息发现。从而导致为了针对多样的敏感信息,企业往往需要部署多套不同的解决方案,以此来覆盖尽可能多的环节,多套系统不仅重复消耗成本,加重整体系统架构和管理人员的负担,并且互不相容,无法互相替代,为企业的投入带来了额外的风险。
发明内容
本发明提供一种基于日志的敏感信息筛选展示方法、装置、设备及介质,以解决为了针对多样的敏感信息,企业往往需要部署多套不同的解决方案,以此来覆盖尽可能多的环节,多套系统不仅重复消耗成本,加重整体系统架构和管理人员的负担,并且互不相容,无法互相替代,为企业的投入带来了额外的风险的技术问题。
第一方面,本发明提出了一种基于日志的敏感信息筛选展示方法,包括:
通过日志采集器采集各个系统产生的日志;
统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
将获取的敏感信息储存至时序数据库中;
通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。
第二方面,本发明还提出了一种基于日志的敏感信息筛选展示装置,包括:
日志收集模块,用于通过日志采集器采集各个系统产生的日志,并统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
日志过滤模块,用于依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
敏感信息存储模块,用于将获取的敏感信息储存至时序数据库中;
报表展示模块,用于通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。
第三方面,本发明还提出一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述基于日志的敏感信息筛选展示方法的步骤。
第四方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于日志的敏感信息筛选展示方法的步骤。
上述基于日志的敏感信息筛选展示方法、装置、设备及介质所实现的方案中,基于日志的敏感信息筛选展示方法在复杂多样的软件系统架构中找到了各个设备、系统所具有的共性,即日志,并且该共性可被用以全面的反映其所属设备、系统存在敏感信息的真实情况,通过配置一种日志收集器收集来自软件系统架构中各个环节的日志,并将其统一收集至Kafka中,再通过topic对收集到的所有日志按照其来源的不同划分成不同类别,再通过匹配不同的过滤规则对来自不同来源的日志进行匹配过滤,以筛选出日志中的敏感信息,并将该敏感信息及敏感信息的相关信息,例如敏感信息的类型、敏感信息的位置,存储至influxdb中,最后通过Grafana读取所述influxdb中的敏感信息及所述敏感信息的相关信息并通过报表展示,使其可以实现以一套敏感信息发现装置覆盖软件系统架构中绝大部分的环节,解决了敏感信息难以全盘发现的业务痛点,解决了多套系统叠加才能实现覆盖的技术现状,因此可以使得企业投入更少的资源达到更好的敏感信息发现效果,帮助更有效的进行敏感信息治理工作。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中敏感信息发现方法的一应用环境示意图;
图2为本发明实施例提供的基于日志的敏感信息筛选展示方法的一个流程示意图;
图3为本发明实施例提供的对日志进行过滤获取敏感信息的一个流程示意图;
图4为本发明实施例提供的过滤身份信息的敏感信息的一个流程示意图;
图5为本发明实施例提供的过滤银行信息的敏感信息的一个流程示意图;
图6为本发明实施例提供的过滤邮件信息的敏感信息的一个流程示意图;
图7为本发明实施例提供的过滤手机信息的敏感信息的一个流程示意图;
图8显示了通过Grafana实现敏感信息的报表展示示意图;
图9是本发明一实施例中敏感信息发现装置的结构框图;
图10为本发明一实施例中计算机设备的一结构示意图;
图11为本发明一实施例中计算机设备的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于日志的敏感信息筛选展示方法,可应用在如图1的应用环境中,其中,敏感信息发现装置与现有的软件系统进行交互,整个软件系统以“网络访问及转发系统”为基础支撑,以“前端服务系统”、“后端服务系统”、“数据库系统”为“内外部访问用户提供”服务,在其整个服务过程中用户敏感信息将流经软件系统的各个环节,通过敏感信息发现装置收集软件系统中各个环节中产生的日志,并将其统一收集并储存后,将收集到的日志按照其来源进行分类,再通过匹配不同的过滤规则对不同来源的日志进行过滤筛选,以筛选出所有日志中的敏感信息后将其记录并存储后进行展示,使其在复杂多样的软件系统架构中找到了各个设备、系统所具有的共性,即日志,并且该共性可被用以全面的反映其所属设备、系统存在敏感信息的真实情况,通过基于该共性构建敏感信息发现方法,可以实现以一套敏感信息发现系统覆盖软件系统架构中绝大部分的环节,解决了敏感信息难以全盘发现的业务痛点,解决了多套系统叠加才能实现覆盖的技术现状,因此可以使得企业投入更少的资源达到更好的敏感信息发现效果,帮助更有效的进行敏感信息治理工作。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。下面通过具体的实施例对本发明进行详细的描述。
请参阅图2所示,图2为本发明实施例提供的基于日志的敏感信息筛选展示方法的一个流程示意图,包括如下步骤:
S10、通过日志采集器采集各个系统产生的日志;
请参阅图1及图2所示,在本实施例中,所述待筛选系统例如为软件系统,其子系统包括网络访问及转发系统、前端服务系统、后端服务系统、数据库系统和内外部访问用户提供,其以“网络访问及转发系统”为基础支撑,以“前端服务系统”、“后端服务系统”、“数据库系统”为“内外部访问用户提供”服务,在其整个服务过程中用户敏感信息将流经软件系统的各个环节,通过所述日志采集器采集所述软件系统中各个子系统所述产生的日志,包括用户访问所产生的“访问日志”;应用被访问后产生的“应用日志”;数据库存储和查询产生的“数据库日志”;网络流量转发产生的“流量日志”。
请参阅图2所示,在本实施例中,在所述通过日志采集器采集各个系统产生的日志包括:通过filebeat日志采集器采集各个系统产生的日志;其中,所述filebeat日志采集器的输出组件为Kafka组件。需要说明的是,本实施例采用的是日志采集器为Filebeat日志采集器,Filebeat是一个用于转发和集中日志数据的轻量级传送工具,Filebeat监视所指定的日志文件或位置,收集日志事件。将kafka配置为Filebeat日志采集器的输出组件,即通过搭建Kafka集群,接收日志采集器推送的日志消息,Kafka集群是一个支持分区存储、多副本的分布式消息系统,采用发布/订阅的消息处理模式,能有效应对代理宕机后的日志数据存储问题。Kafka模块中以顺序写的方式写入磁盘,因而速度要比随机写入磁盘的方式快得多。
S20、统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
请参阅图2所示,在本实施例中,所述统一收集日志,并根据日志的来源将其存储至不同的主题topic中包括:
通过所述Kafka组件统一收集日志;
按照所述日志的来源将其存储至不同的主题topic中;其中,所述来源包括:用户访问所产生的访问日志、应用被访问后产生的应用日志、数据库存储和查询产生的数据库日志和/或网络流量转发产生的流量日志。
请参阅图2所示,在本实施例中,利用kafka集群接收用户来自不同数据源的日志数据,并对接收到的来自不同数据源的数据进行存储,即本实施例中,通过kafka集群接收filebeat日志采集器采集到的来自用户访问所产生的“访问日志”;应用被访问后产生的“应用日志”;数据库存储和查询产生的“数据库日志”;网络流量转发产生的“流量日志”,并将其统一收集起来,并且通过Topic将Kafka集群收集到的日志按照其来源进行划分,即通过Topic将Kafka集群收集到的日志按照其来源的不同划分为访问日志、应用日志、数据库日志和流量日志。
S30、依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
请参阅图3所示,图3为本发明实施例提供的对日志进行过滤获取敏感信息的一个流程示意图。在本实施例中,依据不同的主题topic匹配不同的过滤插件对日志进行过滤,以获取日志中的敏感信息包括:
S31、根据不同的主题topic,在配置页面配置对应的过滤插件;
S32、通过所述过滤插件过滤对应的主题topic中的日志,获取日志中的敏感信息。
请参阅图2及图3所示,在本实施例中,通过依据其主题topic在配置页面中配置对应的过滤插件,将对应的过滤插件分别作用于对应的主题topic中的日志,例如作用于访问日志、应用日志、数据库日志和流量日志进行过滤,以获取日志中的敏感信息。即对不同主题topic中的日志匹配不同的过滤插件,且不同的过滤插件中配置有不同的过滤规则,在过滤不同日志中的敏感信息时,只需要修改和调配匹配规则即可同时作用到所有类型的日志,以使其筛选出访问日志、应用日志、数据库日志和流量日志中的敏感信息。
请参阅图4所示,图4为本发明实施例提供的过滤身份信息的敏感信息的一个流程示意图。在本实施例中,所述敏感信息为身份信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息及敏感信息的相关信息的步骤包括:
S310、通过正则表达式提取所述日志中与身份信息长度对应的字符串;例如通过正则表达式从所述日志中提取18位或15位符合身份信息长度的字符串,包括“X”字符。
S311、对提取的字符串按照身份信息格式拆分为多个子字符串;例如根据字符串长度是第一代身份证还是第二代身份证,按身份证格式拆分为6位地址码的子字符串,8位出生日期的子字符串,3位顺序码的子字符串以及1位校验码的子字符串。
S312、对多个子字符串按照身份信息规则进行校验;例如,依照身份证号规则,依次检查顺序码长度是否为3,生日码是否符合日期规范,地址码是否符合现行地址码,以及若是第二代身份证,最后根据前17位数字,按照ISO7064:1983.MOD 11-2计算出校验码,与当前字符串中为校验码的子字符串进行对比,判断是否一致。
S313、若校验成功,则提取的字符串为敏感信息;若校验失败,则所述日志中无敏感信息。
请参阅图5所示,图5为本发明实施例提供的过滤银行信息的敏感信息的一个流程示意图。在本实施例中,所述敏感信息为银行信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息的步骤包括:
S320、通过正则表达式提取日志中的银行卡号数字串,并在数字串的边界增加标识符;例如,通过正则表达式从日志中提取16和/或17和/或19位长度的数字串,并在该数字串的边界增加标识符\b,以控制符合规则的数字串边界,从而避免提取到长数字串中符合正则的片段,从而提高准确率,提高代码效率。
S321、采用luhn算法校验数字串是否为有效银行卡号:
S322、若否,则所述日志中无敏感信息;若是,则判断所述数字串的起始段是否与银行卡的BIN匹配;即通过将提取到的所述数字串的起始段与银行卡的BIN进行匹配,以进一步减少误报率
S323、若匹配,则提取的数字串为敏感信息;若不匹配,则所述日志中无敏感信息。
请参阅图6所示,图6为本发明实施例提供的过滤邮件信息的敏感信息的一个流程示意图。在本实施例中,所述敏感信息为邮件信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息的步骤包括:
S331、通过正则表达式提取所述日志中“@”之前和“@”之后的字符串;例如通过正则表达式从所述日志中提取在“@”符号前,包含字母、点、下划线、百分号、加号、减号中的一种或多种的字符串以及“@”之后的字符串。
S332、对提取的“@”之后的字符串按照域名命名规范进行校验:
S333、若校验成功,则提取的所有字符串为敏感信息;若校验失败,则所述日志中无敏感信息。
请参阅图7所示,图7为本发明实施例提供的过滤手机信息的敏感信息的一个流程示意图。在本实施例中,在本实施例中,所述敏感信息为手机信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息的步骤包括:
S341、通过正则表达式提取日志中的手机号数字串,并在数字串的边界增加标识符;例如,通过正则表达式从日志中提取11位长度的数字串,并在该数字串的边界增加标识符\b,以控制符合规则的数字串边界,从而避免提取到长数字串中符合正则的片段,从而提高准确率,提高代码效率。
S342、将提取到的数字串与当前运营商支持的手机号段前缀进行匹配;
S343、若匹配,则提取的数字串为敏感信息;若不匹配,则所述日志中无敏感信息。
S40、将获取的敏感信息储存至时序数据库中;
需要说明的是,在通过正则提取敏感信息的同时,还记录所述敏感信息的类型及位置,例如记录提取到的敏感信息属于身份信息、银行信息、邮件信息或手机信息,同时记录提取到的敏感信息的位置,例如位于访问日志、应用日志、数据库日志或流量日志中,并将其和提取的敏感信息一并存储。
请参阅图2所示,在本实施例中,将通过步骤S30获取的敏感信息,例如银行卡号、身份证号码、手机号码和邮箱地址,以及所述敏感信息的相关信息,例如敏感信息的类型、敏感信息的位置存储至influxdb中。
S50、通过Grafana读取所述时序数据库中的敏感信息及所述敏感信息的相关信息并通过报表展示;
请参阅图2及图8所示,图8显示了通过Grafana实现敏感信息的报表展示示意图。在本实施例中,通过Grafana读取存储在influxdb中的敏感信息及所述敏感信息的相关信息,并通过报表的方式将敏感信息、敏感信息的类型、敏感信息的位置进行展示。还需要说明的是,还报表的方式将当前topic下的敏感信息数量、不同敏感信息的数量以及敏感信息的总数量等信息进行展示,使得可以直观的查看敏感信息。
在复杂多样的软件系统架构中找到了各个设备、系统所具有的共性,即日志,并且该共性可被用以全面的反映其所属设备、系统存在敏感信息的真实情况,通过基于该共性构建敏感信息发现方法、装置及电子设备,可以实现以一套敏感信息发现系统覆盖软件系统架构中绝大部分的环节,从上述方案可以看出,本发明提高的基于日志的敏感信息筛选展示方法能够实现以一套敏感信息发现系统覆盖软件系统架构中绝大部分的环节,解决了敏感信息难以全盘发现的业务痛点,解决了多套系统叠加才能实现覆盖的技术现状,因此可以使得企业投入更少的资源达到更好的敏感信息发现效果,帮助更有效的进行敏感信息治理工作。
在一实施例中,提供一种基于日志的敏感信息筛选展示装置,该基于日志的敏感信息筛选展示装置与上述实施例中基于日志的敏感信息筛选展示方法一一对应。请参阅图9所示,图9是本发明一实施例中敏感信息发现装置的结构框图。该敏感信息发现装置包括日志收集模块101、日志过滤模块102、敏感信息存储模块103和报表展示模块104。各功能模块详细说明如下:
请参阅图9所示,所述日志收集模块101用于通过日志采集器采集各个系统产生的日志,以及用于统一收集日志,并根据日志的来源将其存储至不同的主题topic中,具体的,所述日志收集模块101配置filebeat日志采集器配置文件,设定所要采集的日志文件或位置以及输出组件,其中,将Kafka配置为所述filebeat日志采集器的输出组件,所述filebeat日志采集器采集各个子系统的日志并通过所述Kafka统一收集,通过topic将收集的日志按照其来源的不同划分为访问日志、应用日志、数据库日志和流量日志。
请参阅图9所示,所述日志过滤模块102用于依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息,具体的,所述日志过滤模块102用于通过在配置页面中依据日志的主题topic来配置对应的过滤插件,将对应的过滤插件分别作用于不同主题topic中的日志中,例如作用于访问日志、应用日志、数据库日志和流量日志中,对其进行过滤,以获取日志中的敏感信息、敏感信息的位置以及敏感信息的类型。
请参阅图9所示,敏感信息存储模块103用于将获取的敏感信息储存至时序数据库中,将通过所述日志过滤模块102获取的敏感信息,例如银行卡号、身份证号码、手机号码和邮箱地址,以及所述敏感信息的类型、敏感信息的位置存储至influxdb中。
请参阅图9所示,报表展示模块104用于通过Grafana读取所述时序数据库中的敏感信息并通过报表展示,具体的,报表展示模块104用于通过Grafana读取存储在influxdb中的敏感信息,并通过报表的方式将敏感信息、不同敏感信息的数量以及敏感信息的总数量等信息进行展示,使得可以直观的查看敏感信息;还用于读取所述敏感信息的相关信息,并通过报表的方式将敏感信息的类型、敏感信息的位置等信息进行展示。
从上述方案可以看出,本发明提出一种基于日志的敏感信息筛选展示装置,通过配置日志采集器采集软件系统中各个环节的日志并通过Kafka统一收集,再利用topic按照日志的来源划分成不同类别,再对日志中的敏感信息进行筛选展示,以一套敏感信息发现装置覆盖软件系统架构中绝大部分的环节,避免了现有技术中普遍专注于某一环节的敏感信息发现,需要通过多套系统来实现各环节的全覆盖,解决了敏感信息难以全盘发现的业务痛点,解决了多套系统叠加才能实现覆盖的技术现状。
关于敏感信息发现装置的具体限定可以参见上文中对于基于日志的敏感信息筛选展示方法的限定,在此不再赘述。上述敏感信息发现装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于日志的敏感信息筛选展示方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于日志的敏感信息筛选展示方法客户端侧的功能或步骤
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
通过日志采集器采集各个系统产生的日志;
统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
将获取的敏感信息储存至时序数据库中;
通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过日志采集器采集各个系统产生的日志;
统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
将获取的敏感信息储存至时序数据库中;
通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
综上所述,本发明提出一种基于日志的敏感信息筛选展示方法、装置、设备及介质所实现的方案中,通过配置一种日志收集器收集来自软件系统架构中各个环节的日志,并将其统一收集至Kafka中,再通过topic对收集到的所有日志按照其来源的不同划分成不同类别,再通过匹配不同的过滤规则对来自不同来源的日志进行匹配过滤,以筛选出日志中的敏感信息,并将该敏感信息及敏感信息的相关信息存储至influxdb中,最后通过Grafana读取所述influxdb中的敏感信息及所述敏感信息的相关信息并通过报表展示,使其可以实现以一套敏感信息发现装置覆盖软件系统架构中绝大部分的环节,解决了敏感信息难以全盘发现的业务痛点,解决了多套系统叠加才能实现覆盖的技术现状,因此可以使得企业投入更少的资源达到更好的敏感信息发现效果,帮助更有效的进行敏感信息治理工作。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于日志的敏感信息筛选展示方法,其特征在于,包括:
通过日志采集器采集各个系统产生的日志;
统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
将获取的敏感信息储存至时序数据库中;
通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。
2.根据权利要求1所述的基于日志的敏感信息筛选展示方法,其特征在于,在所述通过日志采集器采集各个系统产生的日志包括:
通过filebeat日志采集器采集各个系统产生的日志;其中,所述filebeat日志采集器的输出组件为Kafka组件。
3.根据权利要求2所述的基于日志的敏感信息筛选展示方法,其特征在于,所述统一收集日志,并根据日志的来源将其存储至不同的主题topic中包括:
通过所述Kafka组件统一收集日志;
按照所述日志的来源将其存储至不同的主题topic中;其中,所述来源包括:用户访问所产生的访问日志、应用被访问后产生的应用日志、数据库存储和查询产生的数据库日志和/或网络流量转发产生的流量日志。
4.根据权利要求1所述的基于日志的敏感信息筛选展示方法,其特征在于,依据不同的主题topic匹配不同的过滤插件对日志进行过滤,以获取日志中的敏感信息包括:
根据不同的主题topic,在配置页面配置对应的过滤插件;
通过所述过滤插件过滤对应的主题topic中的日志,获取日志中的敏感信息。
5.根据权利要求4所述的基于日志的敏感信息筛选展示方法,其特征在于,所述敏感信息为身份信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息及敏感信息的相关信息的步骤包括:
通过正则表达式提取所述日志中与身份信息长度对应的字符串;
对提取的字符串按照身份信息格式拆分为多个子字符串;
对多个子字符串按照身份信息规则进行校验:
若校验成功,则提取的字符串为敏感信息;
若校验失败,则所述日志中无敏感信息。
6.根据权利要求4所述的基于日志的敏感信息筛选展示方法,其特征在于,所述敏感信息为银行信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息的步骤包括:
通过正则表达式提取日志中的银行卡号数字串,并在数字串的边界增加标识符;
采用luhn算法校验数字串是否为有效银行卡号:
若否,则所述日志中无敏感信息;
若是,则判断所述数字串的起始段是否与银行卡的BIN匹配:若匹配,则提取的数字串为敏感信息;若不匹配,则所述日志中无敏感信息。
7.根据权利要求4所述的基于日志的敏感信息筛选展示方法,其特征在于,所述敏感信息为邮件信息;所述通过所述过滤插件过滤对应的主题topic中的所述日志,获取所述日志中的敏感信息的步骤包括:
通过正则表达式提取所述日志中“@”之前和“@”之后的字符串;
对提取的“@”之后的字符串按照域名命名规范进行校验:
若校验成功,则提取的所有字符串为敏感信息;
若校验失败,则所述日志中无敏感信息。
8.一种基于日志的敏感信息筛选展示装置,其特征在于,包括:
日志收集模块,用于通过日志采集器采集各个系统产生的日志,并用于统一收集日志,并根据日志的来源将其存储至不同的主题topic中;
日志过滤模块,用于依据不同的主题topic匹配不同的过滤插件,并对日志进行过滤以获取日志中的敏感信息;
敏感信息存储模块,用于将获取的敏感信息储存至时序数据库中;
报表展示模块,用于通过Grafana读取所述时序数据库中的敏感信息并通过报表展示。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于日志的敏感信息筛选展示方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于日志的敏感信息筛选展示方法的步骤。
CN202310254879.1A 2023-03-08 2023-03-08 基于日志的敏感信息筛选展示方法、装置、设备及介质 Pending CN116304223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310254879.1A CN116304223A (zh) 2023-03-08 2023-03-08 基于日志的敏感信息筛选展示方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310254879.1A CN116304223A (zh) 2023-03-08 2023-03-08 基于日志的敏感信息筛选展示方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116304223A true CN116304223A (zh) 2023-06-23

Family

ID=86786572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310254879.1A Pending CN116304223A (zh) 2023-03-08 2023-03-08 基于日志的敏感信息筛选展示方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116304223A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522401A (zh) * 2023-07-04 2023-08-01 成都乐超人科技有限公司 基于云数据安全的信息去标识化处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522401A (zh) * 2023-07-04 2023-08-01 成都乐超人科技有限公司 基于云数据安全的信息去标识化处理方法及系统
CN116522401B (zh) * 2023-07-04 2023-08-29 成都乐超人科技有限公司 基于云数据安全的信息去标识化处理方法及系统

Similar Documents

Publication Publication Date Title
Saldamli et al. Health care insurance fraud detection using blockchain
CN110909073B (zh) 基于智能合约分享隐私数据的方法及系统
US11907199B2 (en) Blockchain based distributed file systems
CN107798037A (zh) 用户特征数据的获取方法及服务器
CN112819617B (zh) 数据上链方法及装置、电子设备、存储介质
CN109815051A (zh) 区块链的数据处理方法和系统
CN110610430B (zh) 票据信息处理方法、装置、计算机设备和存储介质
CN102339301A (zh) 基于用户信息的内容个性化
CN112017007A (zh) 用户行为数据的处理方法及装置、计算机设备、存储介质
CN109542764B (zh) 网页自动化测试方法、装置、计算机设备和存储介质
CN115238286A (zh) 一种数据防护方法、装置、计算机设备及存储介质
CN116304223A (zh) 基于日志的敏感信息筛选展示方法、装置、设备及介质
US11868339B2 (en) Blockchain based distributed file systems
CN112150113A (zh) 档案数据的借阅方法、装置和系统、资料数据的借阅方法
CN113469866A (zh) 数据处理方法、装置和服务器
CN110245059A (zh) 一种数据处理方法、设备及存储介质
US20240031157A1 (en) Multi-level Access Distributed Ledger System
CN113779609A (zh) 数据管理方法、装置、电子设备及存储介质
Sachdev et al. A new framework for securing, extracting and analyzing big forensic data
Samet et al. Forensic investigation in Mobile Cloud environment
CN113987574A (zh) 一种区块链私密交易方法、装置、设备及可读存储介质
CN114240349A (zh) 一种基于区块链的生态环境监管方法及其系统
CN115221125A (zh) 文件处理方法、装置、电子设备及可读存储介质
CN112417508A (zh) 一种数据脱敏方法、数据存储系统及存储介质和服务器
CN112528339A (zh) 一种基于Caché数据库的数据脱敏方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination