CN109766719A - 一种敏感信息检测方法、装置及电子设备 - Google Patents
一种敏感信息检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109766719A CN109766719A CN201811624706.XA CN201811624706A CN109766719A CN 109766719 A CN109766719 A CN 109766719A CN 201811624706 A CN201811624706 A CN 201811624706A CN 109766719 A CN109766719 A CN 109766719A
- Authority
- CN
- China
- Prior art keywords
- apocrypha
- sensitive information
- file
- account
- login
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本申请提供了一种敏感信息检测方法、装置及电子设备,该方法包括:获得与敏感信息关键词匹配的可疑文件集合;从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;再基于预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。本发明提供的方法,对可疑文件集合进行进一步的筛选,有效减少了由于关键词模糊查询造成的误报数量,进而减少了后续审核的数据量,提高了筛查效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种敏感信息检测方法、装置、电子设备及计算机可读存储介质。
背景技术
当前,网络上敏感信息泄漏已经屡见不鲜,一些安全意识薄弱的工作人员可能会将公司的重要程序代码、所管理的账户和密码等敏感信息提交到各种平台,从而给企业和个人带来一系列的安全隐患。因此,需要一种扫描工具,通过扫描企业工作人员在平台提交的信息,来检测其中是否包含敏感信息。
当前通常用到的扫描工具的检测过程为:首先通过扫描工具进行敏感信息关键词的模糊查询,得到与敏感信息关键词匹配的可疑文件集合,然后将可疑文件集合中可疑文件的文件内容与公司内敏感信息库中的敏感信息进行逐一比对,从而确定出包含敏感信息的目标文件。
然而,在实际应用中,由于敏感信息关键词查询为模糊查询,导致查询结果中存在大量的误报,使得可疑文件集合中的可疑文件数量较多,后续与公司内敏感信息库中的敏感信息逐一比对耗时较长。
发明内容
本发明实施例提供一种敏感信息检测方法及系统,用以解决现有技术中检测结果存在大量误报的问题。
本发明实施例提供了一种敏感信息检测方法,该方法包括:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
在一实施方式中,所述敏感信息识别模型,是通过下述方法建立的:
获取与敏感信息关键词匹配的文件集合;
对所述文件集合内文件进行审核,确定审核结果,所述审核结果分为文件包含敏感信息和文件不包含敏感信息;
将所述文件集合中每个文件和对应的审核结果作为一个样本,构建样本集;
将所述样本集划分为训练集和测试集,利用训练集和随机森林模型构建所述敏感信息识别模型;
利用测试集对所述敏感信息识别模型进行测试。
在一实施方式中,在获取包含敏感信息的第二目标文件之后,所述方法还包括:
将所述第一目标文件和第二目标文件的相关数据存储于数据库,所述相关数据包括下述至少一种:
文件名称、文件地址、文件描述信息、文件创建时间和所触发的敏感信息关键词。
在一实施方式中,在获取包含敏感信息的第二目标文件之后,所述方法还包括:向所述第一目标文件和第二目标文件关联人员发送预警邮件。
在一实施方式中,所述可疑文件集合包括文件名称与敏感信息关键词匹配的可疑文件,和/或文件内容与敏感信息关键词匹配的可疑文件;则,
获取可疑文件集合,具体包括:
根据敏感信息关键词对文件名称和文件内容进行扫描,根据扫描结果获取文件名称与敏感信息关键词匹配的可疑文件,和/或文件内容与敏感信息关键词匹配的可疑文件。
在一实施方式中,在获取可疑文件集合之前,所述方法还包括:
根据历史统计所确定的误报优先级顺序设定敏感信息关键词;则,
获取可疑文件集合,具体包括:根据所设定的敏感信息关键词对文件进行扫描,获取所述可疑文件集合。
本发明实施例还提供了一种敏感信息检测装置,所述装置包括:信息获取单元、登录单元和敏感信息识别单元,其中:
信息获取单元,用于获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
登录单元,用于从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
敏感信息识别单元,用于通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
在一实施方式中,在获取可疑文件集合之前,具体还包括:
根据历史统计所确定的误报优先级顺序设定敏感信息关键词;则,
获取可疑文件集合,具体包括:根据所设定的敏感信息关键词对文件进行扫描,获取所述可疑文件集合。
本发明实施例还提供了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
获取可疑文件集合,从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;再通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。通过对可疑文件集合进行进一步筛查,大大减少了可疑文件集合中可疑文件的数量,有效减少了误报数量,进而减少了后续审核的数据量,提高了筛查效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例提供的一种敏感信息检测方法的流程图;
图2为本发明实施例提供的一种敏感信息检测装置的结构示意图。
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
如上所述,网络上敏感信息泄漏已经屡见不鲜,例如,GitHub已经是敏感信息泄漏的重灾区。一些缺乏安全意识的工作人员能会将公司的重要程序代码、所管理的账户和密码等敏感信息提交到各种平台,造成敏感信息的泄漏,从而给企业和个人带来一系列安全隐患。因此,需要一种扫描工具,通过扫描企业工作人员提交的信息,来检测其中是否包含企业敏感信息。
当前通常采用的扫描工具,在整个检测过程中,首先通过扫描工具进行敏感信息关键词的模糊查询,用于确定出与关键字相关的疑似项目;然后对疑似项目进行进一步筛查,得到与敏感信息关键词匹配的可疑文件集合,然后将可疑文件集合中可疑文件的文件内容与公司内敏感信息库中的敏感信息进行逐一比对,从而确定出包含敏感信息的目标文件。
然而,在实际应用中,由于扫描工具进行敏感信息关键词的模糊查询所得到的查询结果中存在大量的误报,使得可疑文件集合中的可疑文件数量较多,导致敏感信息检测的准确率低,后续再与公司内敏感信息库进行逐一比对时,由于可疑文件数量较多,导致比对效率低。
基于此,本发明实施例1提供了一种敏感信息检测方法,该方法能够用于解决现有技术中检测结果存在大量误报的问题。如图1所示,该方法包括下述步骤:
步骤S11:获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件。
可疑文件集合可以是由可疑文件构成的集合,且集合内包括至少一个可疑文件,可疑文件可以为搜索得到的与敏感信息关键词匹配的文件。
通常可疑文件集合可以根据敏感信息关键词进行搜索得到,优选地,在获取可疑文件集合之前,先设定敏感信息关键词。
这里的敏感信息关键词可以是与企业内敏感文件名称和敏感文件内容相关的字符,即可以是敏感文件名称相关字符,也可以是敏感文件内容相关字符。
在实际情况中,通常为了便于搜索,可以预先建立一个数据库,用于存储敏感信息关键词,设定敏感信息关键词进行搜索时,可以从该数据库选取敏感信息关键词。
此外,优选地,建立一个黑名单数据库,用于存储极易导致误报的敏感信息关键词,极易导致误报的敏感信息关键词,如容易匹配出实际不存在敏感信息泄漏的文件的关键词,由历史获取的误报统计得到;设定敏感信息关键词时,可以预先将存储了敏感信息关键词的数据库,与存储了极易导致误报的敏感信息关键词的黑名单数据库进行比对,排除黑名单数据库中的敏感信息关键词,再进行搜索,能够有效减少搜索结果中的误报数量。
当然,还可以进一步设定,使在平台进行搜索时,支持多个敏感信息关键词联合搜索,关键词之间可以用空格隔开;例如,若想进行敏感信息关键词zhishi和password的联合搜索,则输入“zhishi password”,即可搜索得到与“zhishi password”匹配的信息。
根据设定好的敏感信息关键词,进行搜索,得到与敏感信息关键词匹配的可疑文件集合;可疑文件集合中包括与敏感信息关键词匹配的可疑文件,匹配方式可以有多种,可以是文件名称与敏感信息关键词匹配,也可以是文件内容与敏感信息关键词匹配,还可以是文件名称与文件内容都与敏感信息关键词匹配。
在实际应用中,可以通过设定网络爬虫的抓取策略,以期高效顺利地在平台抓取到与敏感信息关键词匹配的可疑文件。
网络爬虫是一个自动提取网页的程序,它为搜索引擎下载网页,是搜索引擎的重要组成。在网络爬虫的系统框架中,主过程由控制器、解析器、资源库三部分组成;控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务;解析器的主要工作是下载网页,进行页面的处理,爬虫的基本工作是由解析器完成;资源库是用来存放下载的网页资源,并对其建立索引。在本实施例中,各个爬虫线程分配的工作任务为搜索与敏感信息关键词匹配的可疑文件,解析器对所述可疑文件进行下载,并建立数据库存储这些可疑文件相关数据,可疑文件相关数据可以包括文件名称、文件地址、文件描述信息、文件创建时间和所触发的敏感信息关键词等,所触发的敏感信息关键词为搜索得到该可疑文件时设定的敏感信息关键词。
然而,由于网络爬虫技术通常会造成大量IP访问网站,侵占带宽资源,一般网站都会有针对爬虫禁止访问的限制。一般会有下面几种限制:1、一定时间内单个IP访问次数;2、一定时间内单个账号访问次数,等等。在本实施例中,可以采取多种措施以应对反爬机制,例如,可以采用大量不规则代理IP形成一个代理池,随机从代理池中选择代理IP,模拟访问;还可以采用大量行为正常的账号,设定合理抓取时间间隔和抓取页数,以应对反爬机制,以期顺利高效抓取目标信息。
在网络爬虫启动工作的过程中,同一个网页被多次下载,不仅会浪费中央处理器机时,增加搜索引擎系统负荷,还会浪费存储空间。在本实施例中,在网络爬虫抓取一个与敏感信息关键词匹配的可疑文件前,可以先与数据库中已存在的信息进行比对,可以是对文件名称、文件地址或文件内容等进行比对;若数据库中不存在爬虫当前即将抓取的可疑文件,则爬虫继续抓取并存储当前可疑文件相关数据,若数据库中已存在爬虫当前即将抓取的可疑文件,则爬虫放弃抓取当前可疑文件,以避免重复抓取和存储,这个过程可以称为去重爬取;通过去重爬取,能够减少搜索引擎系统负荷,节约存储空间,并减少了后续进一步筛查可疑文件时的工作量,提高了效率。
在本实施例中,还可以设置网络爬虫的抓取规则。一般来说,信息的抓取方式可以分为深度优先、广度优先和最佳优先三种,目前常见的是广度优先和最佳优先方法。广度优先搜索方式是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索,为覆盖尽可能多的网页,一般使用广度优先搜索方法。最佳优先搜索方式是按照一定的网页分析算法,预测待抓取信息与目标信息的相似度、相关性,并选取评价最好的一个或几个进行抓取,它只访问经过分析算法预测为“有用”的信息。针对本实施例而言,所设置的爬取策略可以视实际情况而定,在这里不做限定,例如,可以使用广度优先搜索方式抓取与敏感信息关键词匹配的可疑文件。
步骤S12:从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件。
所述可疑文件内容可能包含rsync、memcache、redis、后台帐号密码等可登陆信息,优选地,可以预先建立一个账号密码提取模型,用于提取可疑文件内容中的登录账号和登录密码。通过账号密码提取模型从所述可疑文件内容中提取出的登录账号和登录密码可以为一个,也可以为多个。将提取出的登录账号和登录密码进行账号登录;若从该可疑文件中提取出的登录账号和登录密码中至少有一个登录成功,则确定该可疑文件内容包含敏感信息,该敏感信息为登陆成功的登录账号和登录密码,并且该登录账号和登录密码当前可用,属于敏感信息泄漏,将该可疑文件确定为第一目标文件;若从该可疑文件中提取出的登录账号和登录密码均登陆失败,则该可疑文件内中的登录账号和登录密码当前不可用,可能已过期,此时,不存在账号密码类信息的泄漏,但是该可疑文件内容中的其他信息是否包含敏感信息不能确定,因此,针对所述可疑文件集合中登录账号和登录密码均登陆失败的可疑文件,需要进一步筛查。
步骤S13:通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
所述敏感信息识别模型基于机器学习分类算法建立,优选地,基于机器学习分类算法中的随机森林分类算法建立。
在机器学习中,随机森林是用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间没有关联,利用多棵树对样本进行训练。在构建森林完成后,当有一个新的输入样本进入时,随机森林中的每一棵决策树分别对其进行判断,预测新样本的类别,最终输出的类别是由个别树输出的类别的众数而定。在本实施例中,基于随机森林算法建立敏感信息识别模型,模型构建步骤包括:
获取与敏感信息关键词匹配的文件集合;
对所述文件集合内文件进行审核,确定审核结果,所述审核结果分为文件包含敏感信息和文件不包含敏感信息;
将所述文件集合中每个文件和审核结果作为样本,构建样本集;
将所述样本集划分为训练集和测试集,例如可以按照70%和30%的比例分成训练集和测试集,利用训练集和随机森林模型生成所述敏感信息识别模型;
利用测试集对所述敏感信息识别模型进行测试。
通过构建的敏感信息识别模型对所述可疑文件集合中所述第一目标文件之外的可疑文件进行进一步识别,所述第一目标文件之外的可疑文件包括:未提取到登陆账号和登录密码的可疑文件和以提取到的登录账号和登录密码进行账号登录时均登陆失败的可疑文件。通过所述敏感信息识别模型对可疑文件集合中第一目标文件之外的可疑文件进行识别,以确定所述可疑文件是否包含模型训练内容中的敏感信息,例如,可以是重要的程序代码等。若所述可疑文件包含敏感信息,则将该可疑文件确定为包含敏感信息的第二目标文件,若所述可疑文件不包含敏感信息,则属于发生误报情况,进一步地,可以将搜索得到该可疑文件时设定的敏感信息关键词归于容易导致误报的关键词,存储于黑名单数据库中,设定敏感信息关键词进行搜索时,排除此容易导致误报的关键词,以避免此误报的重复出现,减少误报数量。
优选地,在获取包含敏感信息的第二目标文件之后,输出包含敏感信息的目标文件(包括第一目标文件和第二目标文件)相关数据,存储于数据库;所述包含敏感信息的目标文件相关数据包括:文件名称、文件地址、文件描述信息、文件创建时间和所触发的敏感信息关键词等。
所述数据库,有多种,例如MongoDB。MongoDB是一个基于分布式文件存储的数据库,它的特点是高性能、易部署、易使用,存储数据非常方便,可以面向集合存储,易存储对象类型的数据,模式自由,支持查询,支持完全索引,支持复制和故障恢复等。在本实施例中,可以将目标文件相关数据存储于MongoDB,方便后续对目标文件的追溯验证和应急响应。
当然,将目标文件相关数据存储于数据库时,还可以提供web页面进行显示,方便可视化审核和浏览。
优选地,在获取包含敏感信息的第二目标文件之后,还包括:向所述第一目标文件和第二目标文件关联人员发送预警邮件。可以预先设置发件邮箱账号和密码,当获取目标文件之后,发送预警邮件至预设的邮箱,进行预警和进一步的审核;所述邮件内容可以包含目标文件的文件名称、文件地址、文件描述信息、文件创建时间和所触发的敏感信息关键词等信息。
当然,所述第一目标文件和第二目标文件关联人员可以是所述第一目标文件和第二目标文件的创建者,提醒其泄漏了公司的敏感信息;也可以是公司内负责敏感信息检测的管理人员,提醒公司敏感信息已泄漏,以期第一时间采取应对措施;还可以是其他任意指定人员。
在实际应用中,通过预警邮件或web页面进行审核后,还可以根据不同的审核结果设置不同的操作。例如,若经过邮件或web页面审核后,判断目标文件当前为可忽略信息,则忽略此文件,根据需要可以选择是否把搜索得到此文件时设定的敏感信息关键词存于黑名单数据库中;若经过预警邮件或web页面进行审核后,判断目标文件当前需要采取应对措施,则自动建立提案通过预设的邮箱分配给相应的责任人。
本实施例所提供的敏感信息检测方法,通过获取可疑文件集合,将所述可疑文件集合中可疑文件的文件内容作为登陆账号和登录密码进行账号登录,并将登录成功的可疑文件作为包含敏感信息的第一目标文件;进一步地,再由敏感信息识别模型对可疑文件集合中登录失败的可疑文件进行识别,获取包含敏感信息的第二目标文件。通过对可疑文件集合进行进一步筛查,大大减少了可疑文件集合中可疑文件的数量,即有效减少了误报数量,提高了敏感信息检测的准确率,进而减少了后续审核的数据量,提高了审核效率。
实施例2
基于与实施例1相同的发明构思,本发明实施例2提供了一种敏感信息检测装置,其中对实施例2所提到的各个词语的说明,若有不清楚之处,可以参考实施例1。如图2所示,所述装置20包括:信息获取单元201、登录单元202和敏感信息识别单元203,其中:
信息获取单元201,用于获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
登录单元202,用于从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
敏感信息识别单元203,用于通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
装置20的信息获取单元201,用于获取可疑文件集合。优选地,先设定敏感信息关键词,敏感信息关键词与公司内敏感信息相关,根据设定好的敏感信息关键词在各平台进行搜索。优选地,还可以设置两个数据库,一个数据库用于存储敏感信息关键词,设定敏感信息关键词进行搜索时,可以从该数据库选取敏感信息关键词;另一个数据库为黑名单数据库,用于存储极易导致误报的敏感信息关键词,设定关键词时优先排除黑名单中极易导致误报的关键词,以减少误报。此外,还可以还支持多个敏感信息关键词联合搜索。
根据设定好的与企业敏感信息相关的关键词,进行搜索,得到与敏感信息关键词匹配的可疑文件集合;可疑文件集合中包括与敏感信息关键词匹配的可疑文件,可疑文件可以是文件名称与敏感信息关键词匹配的文件,也可以是文件内容与敏感信息关键词匹配的文件,还可以是文件名称与文件内容都与敏感信息关键词匹配的文件。
在实际应用中,可以利用网络爬虫在各平台抓取与敏感信息关键词匹配的可疑文件,以获取可疑文件集合;同时通过各种抓取策略的设定,以达到高效顺利获取可疑文件的效果。例如,一般网站都会有针对爬虫禁止访问的限制,如一定时间内限制单个IP的访问次数,或一定时间内限制单个账号的访问次数等;在本实施例中可以采用各种反反爬策略,以应对反爬机制,例如:采用大量不规则代理IP形成一个代理池,随机从代理池中选择代理IP,模拟访问,或采用大量行为正常的账号,设定合理抓取时间间隔和抓取页数。当然,在爬虫工作时,还可以设置去重爬取,以减少中央处理器机时,减少搜索引擎系统的负荷,以及节约存储空间等。
装置20的敏感信息识别单元203,通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。在实际应用中,敏感信息识别模型可以基于机器学习分类算法建立,优选地,基于随机森林算法建立;在本实施例中,可以预先建立一个基于随机森林算法的敏感信息识别模型,对可疑文件集合中未提取到登陆账号和登录密码的可疑文件和以提取到的登录账号和登录密码进行账号登录时均登陆失败的可疑文件进行识别,以确定所述可疑文件是否包含敏感信息,若包含敏感信息,则将该可疑文件确定为第二目标文件。
获取第二目标文件后,优选地,将目标文件(包括第一目标文件和第二目标文件)的相关数据存储于数据库中,目标文件的相关数据包括:文件名称、文件地址、文件描述信息、文件创建时间和所触发的敏感信息关键词等;还可以提供web页面进行显示,方便可视化审核和浏览。
获取第二目标文件后,优选地,向第一目标文件和第二目标文件关联人员发送预警邮件。
在实际应用中,通过预警邮件或web页面进行审核后,若判断目标文件当前为可忽略信息,则忽略此文件;若判断目标文件当前需要采取应对措施,则自动建立提案通过预设的邮箱分配给相应的责任人。
基于本发明实施例中提供的装置20,该装置20在进行敏感信息检测时,先通过信息获取单元201得到与敏感信息关键词匹配的可疑文件集合,再通过登录单元202和敏感信息识别单元203获取包含敏感信息的目标文件。利用本发明实施例提供的敏感信息检测装置,大大减少了可疑文件集合中可疑文件的数量,进而有效减少了误报数量,进一步地,减少了后续审核的数据量,提高了筛查效率。
需要说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
实施例3
基于与实施例1相同的发明构思,本发明实施例3提供了一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成应用数据存储装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
上述如本申请图1所示实施例揭示的敏感信息检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中数据存储装置执行的方法,并具体用于执行:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种敏感信息检测方法,其特征在于,所述方法包括:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
2.根据权利要求1所述的方法,其特征在于,所述敏感信息识别模型,是通过下述方法建立的:
获取与敏感信息关键词匹配的文件集合;
对所述文件集合内文件进行审核,确定审核结果,所述审核结果分为文件包含敏感信息和文件不包含敏感信息;
将所述文件集合中每个文件和对应的审核结果作为一个样本,构建样本集;
将所述样本集划分为训练集和测试集,利用训练集和随机森林模型构建所述敏感信息识别模型;
利用测试集对所述敏感信息识别模型进行测试。
3.根据权利要求1所述的方法,其特征在于,在获取包含敏感信息的第二目标文件之后,所述方法还包括:
将所述第一目标文件和第二目标文件的相关数据存储于数据库,所述相关数据包括下述至少一种:
文件名称、文件地址、文件描述信息、文件创建时间和所触发的敏感信息关键词。
4.根据权利要求1所述的方法,其特征在于,在获取包含敏感信息的第二目标文件之后,所述方法还包括:向所述第一目标文件和第二目标文件关联人员发送预警邮件。
5.根据权利要求1所述的方法,其特征在于,所述可疑文件集合包括文件名称与敏感信息关键词匹配的可疑文件,和/或文件内容与敏感信息关键词匹配的可疑文件;则,
获取可疑文件集合,具体包括:
根据敏感信息关键词对文件名称和文件内容进行扫描,根据扫描结果获取文件名称与敏感信息关键词匹配的可疑文件,和/或文件内容与敏感信息关键词匹配的可疑文件。
6.根据权利要求1所述的方法,其特征在于,在获取可疑文件集合之前,所述方法还包括:
根据历史统计所确定的误报优先级顺序设定敏感信息关键词;则,
获取可疑文件集合,具体包括:根据所设定的敏感信息关键词对文件进行扫描,获取所述可疑文件集合。
7.一种敏感信息检测装置,其特征在于,所述装置包括:信息获取单元、登录单元和敏感信息识别单元,其中:
信息获取单元,用于获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
登录单元,用于从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
敏感信息识别单元,用于通过预先建立的敏感信息识别模型,对所述所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
8.根据权利要求7所述的装置,其特征在于,在获取可疑文件集合之前,具体还包括:
根据历史统计所确定的误报优先级顺序设定敏感信息关键词;则,
获取可疑文件集合,具体包括:根据所设定的敏感信息关键词对文件进行扫描,获取所述可疑文件集合。
9.一种电子设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取可疑文件集合,所述可疑文件集合包括至少一个可疑文件;
从每一个可疑文件的文件内容中提取登陆账号和登录密码进行账号登录,
当所述可疑文件中至少一个账号登陆成功时,将所述可疑文件确定为包含敏感信息的第一目标文件;
通过预先建立的敏感信息识别模型,对所述所述可疑文件集合中所述第一目标文件之外的可疑文件进行识别,获取包含敏感信息的第二目标文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624706.XA CN109766719B (zh) | 2018-12-28 | 2018-12-28 | 一种敏感信息检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624706.XA CN109766719B (zh) | 2018-12-28 | 2018-12-28 | 一种敏感信息检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109766719A true CN109766719A (zh) | 2019-05-17 |
CN109766719B CN109766719B (zh) | 2021-03-02 |
Family
ID=66451750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811624706.XA Active CN109766719B (zh) | 2018-12-28 | 2018-12-28 | 一种敏感信息检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766719B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362968A (zh) * | 2019-07-16 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 信息检测方法、装置及服务器 |
CN110636038A (zh) * | 2019-07-29 | 2019-12-31 | 奇安信科技集团股份有限公司 | 账号解析方法、装置、安全网关及系统 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
CN111198983A (zh) * | 2019-12-30 | 2020-05-26 | 中国银行股份有限公司 | 一种敏感资讯信息检测方法、装置及存储介质 |
CN112487458A (zh) * | 2020-12-09 | 2021-03-12 | 浪潮云信息技术股份公司 | 使用政务开放敏感数据的实现方法及系统 |
CN112691379A (zh) * | 2020-12-31 | 2021-04-23 | 完美世界(北京)软件科技发展有限公司 | 游戏资源文本审核方法及装置、存储介质、计算机设备 |
CN113496035A (zh) * | 2020-04-08 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 信息、笔记信息、代码检测方法、设备及存储介质 |
CN113962712A (zh) * | 2021-10-29 | 2022-01-21 | 深圳市珍爱捷云信息技术有限公司 | 一种诈骗团伙的预测方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101304426A (zh) * | 2008-07-10 | 2008-11-12 | 腾讯科技(深圳)有限公司 | 一种可疑文件的识别上报方法和装置 |
US20110078795A1 (en) * | 2004-09-22 | 2011-03-31 | Bing Liu | Threat protection network |
CN102970283A (zh) * | 2012-10-31 | 2013-03-13 | 北京奇虎科技有限公司 | 文件扫描系统 |
CN103309937A (zh) * | 2013-04-19 | 2013-09-18 | 无锡成电科大科技发展有限公司 | 一种云平台内容监管的方法 |
CN103347009A (zh) * | 2013-06-20 | 2013-10-09 | 新浪网技术(中国)有限公司 | 一种信息过滤方法及装置 |
CN107862214A (zh) * | 2017-06-16 | 2018-03-30 | 平安科技(深圳)有限公司 | 防止敏感信息泄露的方法、装置及存储介质 |
-
2018
- 2018-12-28 CN CN201811624706.XA patent/CN109766719B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078795A1 (en) * | 2004-09-22 | 2011-03-31 | Bing Liu | Threat protection network |
CN101304426A (zh) * | 2008-07-10 | 2008-11-12 | 腾讯科技(深圳)有限公司 | 一种可疑文件的识别上报方法和装置 |
CN102970283A (zh) * | 2012-10-31 | 2013-03-13 | 北京奇虎科技有限公司 | 文件扫描系统 |
CN103309937A (zh) * | 2013-04-19 | 2013-09-18 | 无锡成电科大科技发展有限公司 | 一种云平台内容监管的方法 |
CN103347009A (zh) * | 2013-06-20 | 2013-10-09 | 新浪网技术(中国)有限公司 | 一种信息过滤方法及装置 |
CN107862214A (zh) * | 2017-06-16 | 2018-03-30 | 平安科技(深圳)有限公司 | 防止敏感信息泄露的方法、装置及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362968A (zh) * | 2019-07-16 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 信息检测方法、装置及服务器 |
CN110636038A (zh) * | 2019-07-29 | 2019-12-31 | 奇安信科技集团股份有限公司 | 账号解析方法、装置、安全网关及系统 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
CN111198983A (zh) * | 2019-12-30 | 2020-05-26 | 中国银行股份有限公司 | 一种敏感资讯信息检测方法、装置及存储介质 |
CN113496035A (zh) * | 2020-04-08 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 信息、笔记信息、代码检测方法、设备及存储介质 |
CN112487458A (zh) * | 2020-12-09 | 2021-03-12 | 浪潮云信息技术股份公司 | 使用政务开放敏感数据的实现方法及系统 |
CN112487458B (zh) * | 2020-12-09 | 2023-01-20 | 浪潮云信息技术股份公司 | 使用政务开放敏感数据的实现方法及系统 |
CN112691379A (zh) * | 2020-12-31 | 2021-04-23 | 完美世界(北京)软件科技发展有限公司 | 游戏资源文本审核方法及装置、存储介质、计算机设备 |
CN113962712A (zh) * | 2021-10-29 | 2022-01-21 | 深圳市珍爱捷云信息技术有限公司 | 一种诈骗团伙的预测方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109766719B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766719A (zh) | 一种敏感信息检测方法、装置及电子设备 | |
US11036867B2 (en) | Advanced rule analyzer to identify similarities in security rules, deduplicate rules, and generate new rules | |
KR20200057903A (ko) | 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법 | |
CN106888211A (zh) | 一种网络攻击的检测方法及装置 | |
CN107657177A (zh) | 一种漏洞检测方法及装置 | |
CN106033516B (zh) | 一种检测终端源代码安全的方法、装置及系统 | |
CN107392022A (zh) | 爬虫识别、处理方法及相关装置 | |
CN107016298B (zh) | 一种网页篡改监测方法及装置 | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN107665164A (zh) | 安全数据检测方法和装置 | |
CN108509561A (zh) | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 | |
KR102124935B1 (ko) | 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램 | |
CN109067587B (zh) | 关键信息基础设施的确定方法及装置 | |
CN110472866A (zh) | 一种工单质检分析方法及装置 | |
CN110222523A (zh) | 检测方法、装置、系统及计算机可读存储介质 | |
CN106330811A (zh) | 域名可信度确定的方法及装置 | |
CN110866700A (zh) | 确定企业员工信息泄露源的方法及装置 | |
CN107104944A (zh) | 一种网络入侵的检测方法及装置 | |
KR102516819B1 (ko) | 빅데이터를 기반으로 위협 이벤트를 분석하고 대응하도록 지원하는 방법 및 이를 이용한 서버 | |
CN109409094A (zh) | 一种路由器自动化漏洞利用的方法、系统及电子设备 | |
Starita et al. | Assessing urban rail transit systems vulnerability: metrics vs. interdiction models | |
CN112199573B (zh) | 一种非法交易主动探测方法及系统 | |
CN116186716A (zh) | 一种面向持续集成部署的安全分析方法及装置 | |
CN109583210A (zh) | 一种水平权限漏洞的识别方法、装置及其设备 | |
CN106326769A (zh) | 一种野外监测信息处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |