CN113783849B - 一种敏感信息的检测方法及终端 - Google Patents

一种敏感信息的检测方法及终端 Download PDF

Info

Publication number
CN113783849B
CN113783849B CN202110981929.7A CN202110981929A CN113783849B CN 113783849 B CN113783849 B CN 113783849B CN 202110981929 A CN202110981929 A CN 202110981929A CN 113783849 B CN113783849 B CN 113783849B
Authority
CN
China
Prior art keywords
sensitive information
information
result
initial
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110981929.7A
Other languages
English (en)
Other versions
CN113783849A (zh
Inventor
刘德建
王张浩
陈宏�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Tianquan Educational Technology Ltd
Original Assignee
Fujian Tianquan Educational Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Tianquan Educational Technology Ltd filed Critical Fujian Tianquan Educational Technology Ltd
Priority to CN202110981929.7A priority Critical patent/CN113783849B/zh
Publication of CN113783849A publication Critical patent/CN113783849A/zh
Application granted granted Critical
Publication of CN113783849B publication Critical patent/CN113783849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种敏感信息的检测方法及终端,接收敏感信息的检测请求,所述检测请求包括日志集群;根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;将所述最终敏感信息按照预设时间周期进行统计,得到统计结果,从而提高了检测服务器日志中用户敏感信息的准确率和效率。

Description

一种敏感信息的检测方法及终端
技术领域
本发明涉及网络安全技术领域,尤其涉及一种敏感信息的检测方法及终端。
背景技术
Tomcat是一个基于Java语言(一种计算机语言)的开源的轻量级Web(万维网)应用服务器,在中小型系统和并发量小的场合下被普遍使用。同时,它也是一款免费开源的Servlet(Server Applet,小服务程序)容器,可实现JavaWeb(用Java技术来解决相关Web互联网领域的技术栈)程序的装载。部署在Tomcat中的JavaWeb服务运行期间所产生的日志,我们通常称为Tomcat日志,该日志是当网络服务发生故障时开发人员用于查错排错的重要依据。
但是,由于个别开发人员网络安全意识不强,常将一些不必要的信息输出到Tomcat日志中,这些信息可能包含用户身份证号码、银行卡号、手机号码、电子邮箱地址等个人敏感信息。这些用户敏感信息一旦泄露,一方面会危害用户隐私安全,另一方面也会给公司带来法律风险。
目前,业界多使用开源的ELK stack(简称ELK)对Tomcat这样的大规模网络服务日志进行采集、处理和分析。ELK是三种不同日志处理工具(Elasticsearch、Logstash、Kibana)的首字母缩写,它们三者分工各不相同:Elasticsearch是个分布式的搜索引擎,负责日志的存储和检索;Logstash主要负责对数据的采集和过滤;Kibana提供了一个友好的Web界面,负责对日志进行可视化分析和汇总;三个工具相辅相成,常常被放在一起使用,作为网络日志统一采集、管理、分析处理的整体解决方案。
但ELK仍然存在不可避免的问题:
1、ELK对大规模数据的实时查询响应慢。Elasticsearch作为一个分析处理日志的全文搜索引擎,它会存储所有采集到的日志数据。目前,公司一天产生的Tomcat日志规模就能达到TB(Terabyte,太字节)级别,当日志规模非常庞大的情况下,从这么庞大的数据中进行检索会非常耗时。如果同时间有多个用户在进行查询,会导致Elasticsearch后台的内存资源消耗殆尽,导致服务不可用。
2、ELK正则匹配语法书写复杂,且误判率较高。开发人员通过ELK查询用户敏感信息,每回都要写正则表达式进行查询,同时缺少辅助校验的手段,导致匹配得到的数据实则为误判。
发明内容
本发明所要解决的技术问题是:提供一种敏感信息的检测方法及终端,能够提高检测服务器日志中用户敏感信息的准确率和效率。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种敏感信息的检测方法,包括:
接收敏感信息的检测请求,所述检测请求包括日志集群;
根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
将所述最终敏感信息按照预设时间周期进行统计,得到统计结果。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种敏感信息的检测终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收敏感信息的检测请求,所述检测请求包括日志集群;
根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
将所述最终敏感信息按照预设时间周期进行统计,得到统计结果。
本发明的有益效果在于:流式读取日志集群中的服务器日志,并基于读取到的服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息,对初始敏感信息进行辅助校验,当辅助校验成功后,才将初始敏感信息确定为最终敏感信息,最后统计预设时间周期内的最终敏感信息,得到统计结果,通过流式读取日志,大大节省了本地的磁盘储存空间和成本,提高了效率,在使用正则匹配表达式检测之后进行辅助校验,提高了检测的准确率,按照预设时间周期统计敏感信息,有利于开发人员基于统计结果采取应对措施,从而提高了检测服务器日志中用户敏感信息的准确率和效率。
附图说明
图1为本发明实施例的一种敏感信息的检测方法的步骤流程图;
图2为本发明实施例的一种敏感信息的检测方法的结构示意图;
图3为本发明实施例敏感信息的检测方法中的流程示意图;
图4为本发明实施例敏感信息的检测方法中的统计结果的展示示意图;
图5为本发明实施例敏感信息的检测方法中的详情信息的展示示意图;
图6为本发明实施例敏感信息的检测方法中的样例敏感信息的展示示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明实施例提供了一种敏感信息的检测方法,包括:
接收敏感信息的检测请求,所述检测请求包括日志集群;
根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
将所述最终敏感信息按照预设时间周期进行统计,得到统计结果。
从上述描述可知,本发明的有益效果在于:流式读取日志集群中的服务器日志,并基于读取到的服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息,对初始敏感信息进行辅助校验,当辅助校验成功后,才将初始敏感信息确定为最终敏感信息,最后统计预设时间周期内的最终敏感信息,得到统计结果,通过流式读取日志,大大节省了本地的磁盘储存空间和成本,提高了效率,在使用正则匹配表达式检测之后进行辅助校验,提高了检测的准确率,按照预设时间周期统计敏感信息,有利于开发人员基于统计结果采取应对措施,从而提高了检测服务器日志中用户敏感信息的准确率和效率。
进一步地,所述接收敏感信息的检测请求之前包括:
接收日志采集指令,所述日志采集指令包括多个服务器信息;
根据所述多个服务器信息确定多个服务器;
从所述多个服务器实时获取服务器日志;
将所述服务器日志按照预设格式存储至日志集群中。
由上述描述可知,从多个服务器实时获取服务器日志,能够实现服务器日志的实时采集,避免遗漏服务器日志,进一步提高了检测服务器日志中用户敏感信息的准确率。
进一步地,所述基于读取到的所述服务器日志使用预设正则匹配表达式进行检测包括:
根据读取到的所述服务器日志获取与每一服务器日志对应的哈希值;
将所述哈希值与第一预设值进行除运算,得到除运算结果;
判断所述除运算结果中的余数是否为第二预设值,若否,则不处理所述哈希值对应的服务器日志,若是,则将所述哈希值对应的服务器日志确定为待检测服务器日志;
对所述待检测服务器日志使用预设正则匹配表达式进行检测。
由上述描述可知,由于服务器日志的数据量很大,实时处理所有的服务器日志,需要配置较多的计算资源,且用户敏感信息在日志中一般会频繁重复出现,根据读取到的服务器日志获取与每一服务器日志对应的哈希值,将哈希值与第一预设值进行除运算,当除运算结果中的余数为第二预设值,则将哈希值对应的服务器日志确定为待检测服务器日志,实现了对服务器日志的抽样检测,提高了数据处理效率,从而提高了检测服务器日志中用户敏感信息的效率。
进一步地,所述对所述初始敏感信息进行辅助校验,得到辅助校验结果包括:
获取所述初始敏感信息对应的信息类型;
根据所述初始敏感信息对应的信息类型获取与所述信息类型对应的辅助校验方法;
使用所述辅助校验方法对所述初始敏感信息进行辅助校验,得到辅助校验结果。
由上述描述可知,根据不同的敏感信息的类型选择对应的辅助校验方法,能够提高辅助校验的可靠性和准确度,进而提高了检测服务器日志中用户敏感信息的准确率。
进一步地,所述将所述初始敏感信息确定为最终敏感信息之后包括:
获取所述最终敏感信息对应的信息类型;
按照所述信息类型对所述最终敏感信息进行聚合,得到与所述敏感信息对应的聚合结果;
从每一信息类型对应的最终敏感信息中随机选取任一最终敏感信息,得到样例敏感信息;
获取与所述样例敏感信息对应的详情信息;
将所述最终敏感信息、所述聚合结果以及所述详情信息保存至敏感信息库中;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果包括:
按照预设时间周期根据所述敏感信息库中的所述聚合结果对所述最终敏感信息进行统计,得到初始统计结果;
基于所述初始统计结果与所述第一预设值进行乘运算,得到乘运算结果;
将所述乘运算结果与第三预设值进行加运算,得到统计结果;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果之后包括:
接收敏感信息展示请求;
根据所述敏感信息展示请求获取所述统计结果以及所述详情信息,并对所述统计结果以及所述详情信息进行展示。
由上述描述可知,将初始敏感信息确定为最终敏感信息之后,随机选取得到样例敏感信息,将最终敏感信息、聚合结果以及样例敏感信息对应的详情信息保存至敏感信息库中,得到统计结果之后,对统计结果以及详情信息进行展示,有利于开发人员基于统计结果和详情信息采取应对措施,并且,按照预设时间周期根据聚合结果对最终敏感信息进行统计,基于初始统计结果与第一预设值进行乘运算,将乘运算结果与第三预设值进行加运算,得到统计结果,该统计结果为上述抽样检测的最终近似结果,能够以尽可能少的计算资源实现服务器日志的实时处理。
请参照图2,本发明另一实施例提供了一种敏感信息的检测终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收敏感信息的检测请求,所述检测请求包括日志集群;
根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
将所述最终敏感信息按照预设时间周期进行统计,得到统计结果。
从上述描述可知,本发明的有益效果在于:流式读取日志集群中的服务器日志,并基于读取到的服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息,对初始敏感信息进行辅助校验,当辅助校验成功后,才将初始敏感信息确定为最终敏感信息,最后统计预设时间周期内的最终敏感信息,得到统计结果,通过流式读取日志,大大节省了本地的磁盘储存空间和成本,提高了效率,在使用正则匹配表达式检测之后进行辅助校验,提高了检测的准确率,按照预设时间周期统计敏感信息,有利于开发人员基于统计结果采取应对措施,从而提高了检测服务器日志中用户敏感信息的准确率和效率。
进一步地,所述接收敏感信息的检测请求之前包括:
接收日志采集指令,所述日志采集指令包括多个服务器信息;
根据所述多个服务器信息确定多个服务器;
从所述多个服务器实时获取服务器日志;
将所述服务器日志按照预设格式存储至日志集群中。
由上述描述可知,从多个服务器实时获取服务器日志,能够实现服务器日志的实时采集,避免遗漏服务器日志,进一步提高了检测服务器日志中用户敏感信息的准确率。
进一步地,所述基于读取到的所述服务器日志使用预设正则匹配表达式进行检测包括:
根据读取到的所述服务器日志获取与每一服务器日志对应的哈希值;
将所述哈希值与第一预设值进行除运算,得到除运算结果;
判断所述除运算结果中的余数是否为第二预设值,若否,则不处理所述哈希值对应的服务器日志,若是,则将所述哈希值对应的服务器日志确定为待检测服务器日志;
对所述待检测服务器日志使用预设正则匹配表达式进行检测。
由上述描述可知,由于服务器日志的数据量很大,实时处理所有的服务器日志,需要配置较多的计算资源,且用户敏感信息在日志中一般会频繁重复出现,根据读取到的服务器日志获取与每一服务器日志对应的哈希值,将哈希值与第一预设值进行除运算,当除运算结果中的余数为第二预设值,则将哈希值对应的服务器日志确定为待检测服务器日志,实现了对服务器日志的抽样检测,提高了数据处理效率,从而提高了检测服务器日志中用户敏感信息的效率。
进一步地,所述对所述初始敏感信息进行辅助校验,得到辅助校验结果包括:
获取所述初始敏感信息对应的信息类型;
根据所述初始敏感信息对应的信息类型获取与所述信息类型对应的辅助校验方法;
使用所述辅助校验方法对所述初始敏感信息进行辅助校验,得到辅助校验结果。
由上述描述可知,根据不同的敏感信息的类型选择对应的辅助校验方法,能够提高辅助校验的可靠性和准确度,进而提高了检测服务器日志中用户敏感信息的准确率。
进一步地,所述将所述初始敏感信息确定为最终敏感信息之后包括:
获取所述最终敏感信息对应的信息类型;
按照所述信息类型对所述最终敏感信息进行聚合,得到与所述敏感信息对应的聚合结果;
从每一信息类型对应的最终敏感信息中随机选取任一最终敏感信息,得到样例敏感信息;
获取与所述样例敏感信息对应的详情信息;
将所述最终敏感信息、所述聚合结果以及所述详情信息保存至敏感信息库中;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果包括:
按照预设时间周期根据所述敏感信息库中的所述聚合结果对所述最终敏感信息进行统计,得到初始统计结果;
基于所述初始统计结果与所述第一预设值进行乘运算,得到乘运算结果;
将所述乘运算结果与第三预设值进行加运算,得到统计结果;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果之后包括:
接收敏感信息展示请求;
根据所述敏感信息展示请求获取所述统计结果以及所述详情信息,并对所述统计结果以及所述详情信息进行展示。
由上述描述可知,将初始敏感信息确定为最终敏感信息之后,随机选取得到样例敏感信息,将最终敏感信息、聚合结果以及样例敏感信息对应的详情信息保存至敏感信息库中,得到统计结果之后,对统计结果以及详情信息进行展示,有利于开发人员基于统计结果和详情信息采取应对措施,并且,按照预设时间周期根据聚合结果对最终敏感信息进行统计,基于初始统计结果与第一预设值进行乘运算,将乘运算结果与第三预设值进行加运算,得到统计结果,该统计结果为上述抽样检测的最终近似结果,能够以尽可能少的计算资源实现服务器日志的实时处理。
本发明上述敏感信息的检测方法及终端能够适用于Tomcat日志(服务器日志)的用户敏感信息的检测,以下通过具体实施方式进行说明:
实施例一
请参照图1、3,本实施例的一种敏感信息的检测方法,包括:
S0、接收日志采集指令,所述日志采集指令包括多个服务器信息;
根据所述多个服务器信息确定多个服务器;
从所述多个服务器实时获取服务器日志;
将所述服务器日志按照预设格式存储至日志集群中;
具体的,如图3所示,使用FileBeat(日志采集工具)从多个服务器实时获取Tomcat日志,将Tomcat日志按照预设格式存储至Kafka集群(一种日志集群)中,比如在每条Tomcat日志的开头显示日志的级别、发生时间、所属类名等信息;
S1、接收敏感信息的检测请求,所述检测请求包括日志集群;
S2、根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
具体的,如图3所示,采用Spark Streaming(大数据实时处理工具)流式读取Kafka集群中的Tomcat日志;
S3、对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
S4、将所述最终敏感信息按照预设时间周期进行统计,得到统计结果。
实施例二
请参照图1、3,本实施例在实施例一的基础上进一步限定了如何基于读取到的服务器日志进行检测,具体为:
所述S2中所述基于读取到的所述服务器日志使用预设正则匹配表达式进行检测包括:
根据读取到的所述服务器日志获取与每一服务器日志对应的哈希值;
具体的,对每一读取到的Tomcat日志调用hashCode()方法,获取与每一Tomcat日志对应的哈希值;
将所述哈希值与第一预设值进行除运算,得到除运算结果;
其中,所述第一预设值可根据实际需要进行灵活设置,本实施例中,所述第一预设值为5,即对Tomcat日志进行1/5抽样;
具体的,将所述哈希值除以5,得到除运算结果;
判断所述除运算结果中的余数是否为第二预设值,若否,则不处理所述哈希值对应的服务器日志,若是,则将所述哈希值对应的服务器日志确定为待检测服务器日志;
其中,所述第二预设值为1;
具体的,判断除运算结果中的余数是否为1,若否,则不处理该哈希值对应的Tomcat日志,若是,则将该哈希值对应的Tomcat日志确定为待检测Tomcat日志;
对所述待检测服务器日志使用预设正则匹配表达式进行检测;
其中,由于Tomcat日志通常出现的敏感信息包括身份证号、手机号、电子邮箱以及银行卡号,所述预设正则匹配表达式包括身份证号正则匹配表达式、手机号正则匹配表达式、电子邮箱正则匹配表达式以及银行卡号正则匹配表达式;
具体的,如图3所示,对待检测Tomcat日志使用身份证号正则匹配表达式、手机号正则匹配表达式、电子邮箱正则匹配表达式以及银行卡号正则匹配表达式进行检测;
我国目前现存的一代身份证的号码为15位,最新的二代身份证号码为18位,我国在1999年底已经陆续推广二代身份证,如今已过去20年,鉴于生活中普遍存在的二代身份证使用场景(住酒店、乘火车),加之产品用户多为可以熟练使用智能手机的年轻人群,所以可以推断目前用户群体中仍然使用第一代身份证的人应该较少,因此以二代身份证的18位号码为标准进行正则匹配;
身份证号正则匹配表达式为:
"\\W((([1][1-5])|([2][1-3])|([3][1-7])|([4][1-6])|([5][1-4])|([6][1-5])|([7][1])|([8][1-2])|([9][1]))\\d{4}(19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx])\\W",从身份证号正则匹配表达式可以看出头尾都有“\\W”,“\\W”表示匹配任何非单词字符,即除大小写英文字母和数字之外的其他字符,这是为了排除掉身份证号码恰巧出现在一堆无序乱码或数字码中间的情况,这种情况下人工也很难鉴别是否是真实的身份证号码,表达式中对我国所有省、直辖市、自治区的身份证号码前两位进行了穷举匹配,且对出生日期的格式进行了匹配,以此提高识别的准确率;
手机号正则匹配表达式为:
\\W([1](([3][0-9])|([4][5-9])|([5][0-3,5-9])|([6][5,6])|([7][0-8])|([8][0-9])|([9][1,8,9]))[0-9]{8})\\W,从手机号正则匹配表达式可以看出首尾也加了“\\W”,避免目标字符串恰好出现在一堆无序的乱码和数字码中间,在我国,手机号码的位数为11位,第一位为1,第二位和第三位数字与运营商运营的号段有关,因此对国内的几家运营商现有的号段进行了穷举匹配,而最后的8位数字则没有做要求;
电子邮箱正则匹配表达式为\\W[\\w-]+@([a-z0-9-_]+\\.)+[a-z]{2,3}\\W,电子邮箱地址中间都会带有@符号,@符号之前为邮箱名称,一般要求由大小写字母、数字、下划线以及中横线组成,表达式中的“\\w”可以用于匹配大小写字母、数字和下划线,紧跟着邮箱@符号后面的一般为服务商的服务名,例如qq、126、hotmail等,目前市面上常用的邮箱多为小写字母和数字组成,另外,邮箱最后的后缀一般为机构或者公司的简称标识,由2-3位的小字字母组成,这样可以避免将日志中大量变量的物理地址误识别为邮箱地址,例如,org.springframework.http.converter.json.MappingJackson2HttpMessageConverter@669fd421就很容易被错误地识别为邮箱地址;
银行卡号正则匹配表达式为\\W(3|4|5|6|9)\\d{15,18}\\W,大部分现有的中国银行卡的开头一般是3、4、5、6、9这几位数字,位数是16-19位不等。
实施例三
请参照图1、3,本实施例在实施例一或实施例二的基础上进一步限定了如何对初始敏感信息进行辅助校验,具体为:
如图3所示,所述S3具体为:
获取所述初始敏感信息对应的信息类型;
其中,所述信息类型包括身份证号信息、手机号信息、电子邮箱信息和银行卡号信息;
根据所述初始敏感信息对应的信息类型获取与所述信息类型对应的辅助校验方法;
其中,与信息类型对应的辅助校验方法包括身份证号辅助校验方法、手机号辅助校验方法、电子邮箱辅助校验方法和银行卡号辅助校验方法;
使用所述辅助校验方法对所述初始敏感信息进行辅助校验,得到辅助校验结果;
比如,所述初始敏感信息的信息类型为身份证号信息,则使用身份证号辅助校验方法进行辅助校验,18位身份证号的最后一位数字是将前面17位数字按照一定算法计算得到的校验数字,可根据此设计身份证号辅助校验方法,即将初始敏感信息前面的17位数分别乘以不同的系数,得到17个相乘结果,从第一位到第十七位的系数分别为:7、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2,然后将这17个相乘结果相加,得到和,将和除以11,得到余数,余数只可能有为0、1、2、3、4、5、6、7、8、9或10,这十一个数字分别对应的身份证号码最后一位数字为1、0、X、9、8、7、6、5、4、3、2,假设初始敏感信息得到的余数为2,那么初始敏感信息的最后一位应该为X,如果是,则校验成功,如果不是,则校验失败,同样的,假设初始敏感信息得到的余数为10,那么初始敏感信息的最后一位应该为2,如果是,则校验成功,如果不是,则校验失败,依此类推;
比如,所述初始敏感信息的信息类型为手机号信息,由于手机号的不容易被误判,因此可以无需对其进行辅助校验;
比如,所述初始敏感信息的信息类型为电子邮箱信息,则使用电子邮箱辅助校验方法进行辅助校验,由于有些公开的邮箱地址会出现在HTTP(超文本传输协议,Hyper TextTransfer Protocol)请求的url(统一资源定位符,uniform resource locator)路径中,电子邮箱辅助校验方法为判断初始敏感信息的开头和结尾的字符是否为“/”,如果是,则校验失败,如果不是,则校验成功;
比如,所述初始敏感信息的信息类型为银行卡号信息,则使用银行卡号辅助校验方法进行辅助校验,但由于很多数字串都会被认为是银行卡号,误判率会很高,所述银行卡号辅助校验方法包括第一银行卡号辅助校验方法、第二银行卡号辅助校验方法和第三银行卡号辅助校验方法,其中,第一银行卡号辅助校验方法为Luhn算法(一个专门用于校验是否为真实银行卡号的算法),即从右到左给初始敏感信息的字符串编号,最右边第一位是1,最右边第二位是2,最右边第三位是3,依此类推,从右往左遍历,对于遍历到的目标字符,假设为t,判断t的编号是否为奇数,若是,则计算结果为t,若否,则将t乘以2得到n,判断n是否为一位数(小于10),若是,则计算结果为n,否则,将n的个位数与十位数相加得到m,将m作为计算结果,然后将每一位字符的计算结果相加,得到s,最后判断s是否能够整除10,若是,则初始敏感信息有效,否则无效;
将经过第一银行卡号辅助校验方法校验后有效的初始敏感信息使用第二银行卡号辅助校验方法进行第二次校验,即从预设校验表中查找初始敏感信息的前三位字符,所述预设校验表中记录了目前中国常见银行的银行卡开头三位数字,若查询得到,则初始敏感信息有效,否则无效;
将经过第二银行卡号辅助校验方法校验后的有效的初始敏感信息使用第三银行卡号辅助校验方法进行第三此校验,即判断初始敏感信息开头和结尾的字符是否为“/”,若是,则校验失败,否则校验成功,以此排除恰好出现在RestFul(REpresentation StateTransfer Ful,满足架构约束条件和原则的应用程序或设计)风格url中的id值。
实施例四
请参照图3-6,本实施例在实施例一、实施例二或实施例三的基础上进一步限定了如何对最终敏感信息进行统计和展示,具体为:
所述S3中所述将所述初始敏感信息确定为最终敏感信息之后包括:
获取所述最终敏感信息对应的信息类型;
按照所述信息类型对所述最终敏感信息进行聚合,得到与所述敏感信息对应的聚合结果;
其中,所述聚合结果包括信息类型和每一信息类型对应的最终敏感信息的数量;
从每一信息类型对应的最终敏感信息中随机选取任一最终敏感信息,得到样例敏感信息;
获取与所述样例敏感信息对应的详情信息;
其中,所述详情信息包括所述样例敏感信息对应的Tomcat日志的日志文件名和日志偏移量信息;
将所述最终敏感信息、所述聚合结果以及所述详情信息保存至敏感信息库中;
具体的,如图3所示,将所述最终敏感信息、所述聚合结果以及所述详情信息保存至Hive数据仓库(基于Hadoop的一个数据仓库工具)中,以此方便开发者事后查看统计数据时,可以快速查询找到含有样例敏感信息的样例日志,通过样例日志中的上下文信息可以快速查找定位到程序中的输出位置;
如图3所示,所述S4具体为:
按照预设时间周期根据所述敏感信息库中的所述聚合结果对所述最终敏感信息进行统计,得到初始统计结果;
其中,所述预设时间周期可以根据实际需求进行灵活设置,本实施例中,所述预设时间周期为每天;
具体的,每天零点一过根据Hive数据仓库中的聚合结果对最终敏感信息进行统计,得到初始统计结果,所述初始统计结果包括每一Tomcat日志中每一信息类型的最终敏感信息的数量;
基于所述初始统计结果与所述第一预设值进行乘运算,得到乘运算结果;
具体的,将初始统计结果中的数量乘以5,得到乘运算结果;
将所述乘运算结果与第三预设值进行加运算,得到统计结果;
其中,所述第三预设值为0~4之间的任意整数;
具体的,将乘运算结果与0、1、2、3或4进行加运算,得到统计结果;
还包括将统计结果保存至MySql(开放源代码的关系型数据库管理系统)数据库中,便于前端展示;
S5、接收敏感信息展示请求;
根据所述敏感信息展示请求获取所述统计结果以及所述详情信息,并对所述统计结果以及所述详情信息进行展示;
另外,开发者可对展示的统计结果以及详情信息进行查询,得到某一时间段内各个服务器的Tomcat日志出现敏感信息的数量,如图4所示;
点击图4中的查看详情,即出现如图5所示的界面,从图5可以看出,其展示了某一服务器下不同Tomcat日志名称、路径信息以及不同类型的敏感信息的数量,点击界面中的数量后,后台将根据Hive数据仓库中的样例敏感信息的日志文件名和偏移量信息通过ELK精准地找到含有样例敏感信息的样例日志原文,方便开发者对日志详情进行追溯,如图6所示,从图6可以看出,其展示了某条含有用户身份证号信息的日志原文,可以看出这里打印的是某个JSON字符串,从敏感信息前面的“identity_number”字段也可以推知后面跟着的这串数字是用户的身份证号码,从而开发者就可以根据日志的上下文信息找到程序中对应的输出位置进行规避。
实施例五
请参照图2,一种敏感信息的检测终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例一、实施例二、实施例三或实施例四中的敏感信息的检测方法中的各个步骤。
综上所述,本发明提供的一种敏感信息的检测方法及终端,根据接收的检测请求流式读取日志集群中的服务器日志,并基于读取到的服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息,对初始敏感信息进行辅助校验,得到辅助校验结果,当辅助校验结果成功时,则将初始敏感信息确定为最终敏感信息,将最终敏感信息按照预设时间周期进行统计,得到统计结果,通过流式读取日志,大大节省了本地的磁盘储存空间和成本,提高了效率,在使用正则匹配表达式检测之后进行辅助校验,提高了检测的准确率;基于读取到的服务器日志进行检测时,获取与每一服务器日志对应的哈希值,将哈希值与第一预设值进行除运算,当除运算结果中的余数为第二预设值,则将哈希值对应的服务器日志确定为待检测服务器日志,对其使用预设正则匹配表达式进行检测,实现了对服务器日志的抽样检测,提高了数据处理效率,从而提高了检测服务器日志中用户敏感信息的效率;将初始敏感信息确定为最终敏感信息之后,随机选取得到样例敏感信息,将最终敏感信息、聚合结果以及样例敏感信息对应的详情信息保存至敏感信息库中,得到统计结果之后,对统计结果以及详情信息进行展示,有利于开发人员基于统计结果和详情信息采取应对措施,从而提高了检测服务器日志中用户敏感信息的准确率和效率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种敏感信息的检测方法,其特征在于,包括:
接收敏感信息的检测请求,所述检测请求包括日志集群;
根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
将所述最终敏感信息按照预设时间周期进行统计,得到统计结果;
所述基于读取到的所述服务器日志使用预设正则匹配表达式进行检测包括:
根据读取到的所述服务器日志获取与每一服务器日志对应的哈希值;
将所述哈希值与第一预设值进行除运算,得到除运算结果;
判断所述除运算结果中的余数是否为第二预设值,若否,则不处理所述哈希值对应的服务器日志,若是,则将所述哈希值对应的服务器日志确定为待检测服务器日志;
对所述待检测服务器日志使用预设正则匹配表达式进行检测;
所述将所述初始敏感信息确定为最终敏感信息之后包括:
获取所述最终敏感信息对应的信息类型;
按照所述信息类型对所述最终敏感信息进行聚合,得到与所述敏感信息对应的聚合结果;
从每一信息类型对应的最终敏感信息中随机选取任一最终敏感信息,得到样例敏感信息;
获取与所述样例敏感信息对应的详情信息;
将所述最终敏感信息、所述聚合结果以及所述详情信息保存至敏感信息库中;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果包括:
按照预设时间周期根据所述敏感信息库中的所述聚合结果对所述最终敏感信息进行统计,得到初始统计结果;
基于所述初始统计结果与所述第一预设值进行乘运算,得到乘运算结果;
将所述乘运算结果与第三预设值进行加运算,得到统计结果;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果之后包括:
接收敏感信息展示请求;
根据所述敏感信息展示请求获取所述统计结果以及所述详情信息,并对所述统计结果以及所述详情信息进行展示。
2.根据权利要求1所述的一种敏感信息的检测方法,其特征在于,所述接收敏感信息的检测请求之前包括:
接收日志采集指令,所述日志采集指令包括多个服务器信息;
根据所述多个服务器信息确定多个服务器;
从所述多个服务器实时获取服务器日志;
将所述服务器日志按照预设格式存储至日志集群中。
3.根据权利要求1所述的一种敏感信息的检测方法,其特征在于,所述对所述初始敏感信息进行辅助校验,得到辅助校验结果包括:
获取所述初始敏感信息对应的信息类型;
根据所述初始敏感信息对应的信息类型获取与所述信息类型对应的辅助校验方法;
使用所述辅助校验方法对所述初始敏感信息进行辅助校验,得到辅助校验结果。
4.一种敏感信息的检测终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
接收敏感信息的检测请求,所述检测请求包括日志集群;
根据所述检测请求流式读取所述日志集群中的服务器日志,并基于读取到的所述服务器日志使用预设正则匹配表达式进行检测,得到初始敏感信息;
对所述初始敏感信息进行辅助校验,得到辅助校验结果,并判断所述辅助校验结果是否成功,若是,则将所述初始敏感信息确定为最终敏感信息,若否,则将所述初始敏感信息确定为非敏感信息;
将所述最终敏感信息按照预设时间周期进行统计,得到统计结果;
所述基于读取到的所述服务器日志使用预设正则匹配表达式进行检测包括:
根据读取到的所述服务器日志获取与每一服务器日志对应的哈希值;
将所述哈希值与第一预设值进行除运算,得到除运算结果;
判断所述除运算结果中的余数是否为第二预设值,若否,则不处理所述哈希值对应的服务器日志,若是,则将所述哈希值对应的服务器日志确定为待检测服务器日志;
对所述待检测服务器日志使用预设正则匹配表达式进行检测;
所述将所述初始敏感信息确定为最终敏感信息之后包括:
获取所述最终敏感信息对应的信息类型;
按照所述信息类型对所述最终敏感信息进行聚合,得到与所述敏感信息对应的聚合结果;
从每一信息类型对应的最终敏感信息中随机选取任一最终敏感信息,得到样例敏感信息;
获取与所述样例敏感信息对应的详情信息;
将所述最终敏感信息、所述聚合结果以及所述详情信息保存至敏感信息库中;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果包括:
按照预设时间周期根据所述敏感信息库中的所述聚合结果对所述最终敏感信息进行统计,得到初始统计结果;
基于所述初始统计结果与所述第一预设值进行乘运算,得到乘运算结果;
将所述乘运算结果与第三预设值进行加运算,得到统计结果;
所述将所述最终敏感信息按照预设时间周期进行统计,得到统计结果之后包括:
接收敏感信息展示请求;
根据所述敏感信息展示请求获取所述统计结果以及所述详情信息,并对所述统计结果以及所述详情信息进行展示。
5.根据权利要求4所述的一种敏感信息的检测终端,其特征在于,所述接收敏感信息的检测请求之前包括:
接收日志采集指令,所述日志采集指令包括多个服务器信息;
根据所述多个服务器信息确定多个服务器;
从所述多个服务器实时获取服务器日志;
将所述服务器日志按照预设格式存储至日志集群中。
6.根据权利要求4所述的一种敏感信息的检测终端,其特征在于,所述对所述初始敏感信息进行辅助校验,得到辅助校验结果包括:
获取所述初始敏感信息对应的信息类型;
根据所述初始敏感信息对应的信息类型获取与所述信息类型对应的辅助校验方法;
使用所述辅助校验方法对所述初始敏感信息进行辅助校验,得到辅助校验结果。
CN202110981929.7A 2021-08-25 2021-08-25 一种敏感信息的检测方法及终端 Active CN113783849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110981929.7A CN113783849B (zh) 2021-08-25 2021-08-25 一种敏感信息的检测方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110981929.7A CN113783849B (zh) 2021-08-25 2021-08-25 一种敏感信息的检测方法及终端

Publications (2)

Publication Number Publication Date
CN113783849A CN113783849A (zh) 2021-12-10
CN113783849B true CN113783849B (zh) 2023-07-11

Family

ID=78839212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110981929.7A Active CN113783849B (zh) 2021-08-25 2021-08-25 一种敏感信息的检测方法及终端

Country Status (1)

Country Link
CN (1) CN113783849B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471823B (zh) * 2014-09-03 2018-10-26 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统
CN107391746A (zh) * 2017-08-10 2017-11-24 深圳前海微众银行股份有限公司 日志分析方法、设备和计算机可读存储介质
CN110690984A (zh) * 2018-07-05 2020-01-14 上海宝信软件股份有限公司 基于Spark的大数据网络日志采集分析和预警的方法、系统
CN110347716B (zh) * 2019-05-27 2024-04-02 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端设备及存储介质
CN110888972A (zh) * 2019-10-27 2020-03-17 北京明朝万达科技股份有限公司 一种基于Spark Streaming的敏感内容识别方法及装置
CN112784298A (zh) * 2021-01-21 2021-05-11 平安普惠企业管理有限公司 日志脱敏方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113783849A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
US11119833B2 (en) Identifying behavioral patterns of events derived from machine data that reveal historical behavior of an information technology environment
WO2020233015A1 (zh) 一种链路跟踪方法及装置
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN102171702B (zh) 机密信息的检测
CN109637000B (zh) 发票检验方法及装置、存储介质、电子终端
US20110040733A1 (en) Systems and methods for generating statistics from search engine query logs
CN110928718A (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN108647357B (zh) 数据查询的方法及装置
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
US20150341771A1 (en) Hotspot aggregation method and device
CN110569214A (zh) 用于日志文件的索引构建方法、装置及电子设备
JP6823265B2 (ja) 分析装置、分析システム、分析方法および分析プログラム
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
US20220284045A1 (en) Matching machine generated data entries to pattern clusters
CN113779481A (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN111581057B (zh) 一种通用日志解析方法、终端设备及存储介质
CN114116811B (zh) 日志处理方法、装置、设备及存储介质
CN113783849B (zh) 一种敏感信息的检测方法及终端
CN111831528A (zh) 一种计算机系统日志关联方法及相关装置
CN113742208B (zh) 一种软件检测方法、装置、设备及计算机可读存储介质
WO2021129849A1 (zh) 日志处理方法、装置、设备和存储介质
CN111352751A (zh) 数据文件生成方法、装置、计算机设备及存储介质
CN115987803B (zh) 一种自治系统的组织机构确定方法及相关装置
CN114756901B (zh) 操作性风险监控方法及装置
CN113836457B (zh) 一种基于信息识别分析的移动互联网终端缓存管理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant