CN112257100A - 敏感数据保护效果的检测方法、装置及存储介质 - Google Patents

敏感数据保护效果的检测方法、装置及存储介质 Download PDF

Info

Publication number
CN112257100A
CN112257100A CN202010754668.0A CN202010754668A CN112257100A CN 112257100 A CN112257100 A CN 112257100A CN 202010754668 A CN202010754668 A CN 202010754668A CN 112257100 A CN112257100 A CN 112257100A
Authority
CN
China
Prior art keywords
detected
cookie file
text
website
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010754668.0A
Other languages
English (en)
Inventor
陈文博
胡星儒
洪敬风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010754668.0A priority Critical patent/CN112257100A/zh
Publication of CN112257100A publication Critical patent/CN112257100A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种敏感数据保护效果的检测方法、装置及存储介质。其中,方法包括:获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。

Description

敏感数据保护效果的检测方法、装置及存储介质
技术领域
本发明涉及敏感数据保护领域,尤其涉及一种敏感数据保护效果的检测方法、装置及存储介质。
背景技术
随着国家陆续出台信息安全标准,对敏感数据的分类变得越来越细致,对敏感数据的保护也变得越来越重要。相关技术中,大多数网站主要通过账号分级体系对敏感数据进行保护,即将用户账号根据权限的不同划分为:普通账号、高权限账号和管理员账号等;其中,普通账号没有权限访问敏感数据,高权限账号只有权限访问自身权限对应的敏感数据,管理员账号有权限管理普通账号和高权限账号。然而,有大量网站由于网站设计不完善等原因,出现普通账号也可以访问到敏感数据的情况,极易导致敏感数据泄露事件的发生,从而会对企业造成巨大的经济损失和品牌损失。因此,检测网站对敏感数据的保护效果是非常重要的。
然而,相关技术中,检测网站对敏感数据的保护效果的方法尚需优化。
发明内容
为解决相关技术问题,本发明实施例提供一种敏感数据保护效果的检测方法、装置及存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种敏感数据保护效果的检测方法,包括:
获取至少一个小型文字档案(Cookie)文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;
确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
上述方案中,所述对所述至少一个待检测文本进行敏感数据检测,包括:
将所述至少一个待检测文本与敏感数据关键词库中的敏感数据关键词进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待检测网站对敏感数据的保护效果。
上述方案中,所述确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括以下之一:
通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过光学字符识别(OCR,Optical Character Recognition)的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
上述方案中,所述通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
针对所述至少一个Cookie文件中的每个Cookie文件,基于第一值和相应Cookie文件,对处于第一状态的所述待检测网站进行网络爬虫,以确定所述相应Cookie文件对应的待检测文本;所述第一值表征对处于第一状态的所述待检测网站进行网络爬虫的层数;所述第一状态表征利用所述相应Cookie文件登陆所述待检测网站后所述待检测网站的状态。
上述方案中,所述通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
针对所述至少一个Cookie文件中的每个Cookie文件,获取相应Cookie文件对应的至少一级网页对应的图像,得到多个图像;每一级网页对应的图像表征利用所述相应Cookie文件登陆所述待检测网站后点击相应级别的菜单项时所述待检测网站呈现的画面;
通过OCR的方式识别所述多个图像中每个图像包含的文字信息,得到至少一个文本片段;
利用所述至少一个文本片段,合成所述相应Cookie文件对应的待检测文本。
上述方案中,所述通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第一类待检测文本;
对所述至少一个第一类待检测文本进行敏感数据检测,得到第一检测结果;
在所述第一检测结果满足第一条件的情况下,通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第二类待检测文本;
对所述至少一个第二类待检测文本进行敏感数据检测。
上述方案中,所述通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
针对所述至少一个Cookie文件中的每个Cookie文件,在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程满足第二条件的情况下,通过网络爬虫的方式,确定相应Cookie文件对应的待检测文本。
本发明实施例还提供了一种敏感数据保护效果的检测装置,包括:
获取单元,用于获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;
第一处理单元,用于确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
第二处理单元,用于对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
本发明实施例还提供了一种敏感数据保护效果的检测装置,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,所述介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
本发明实施例提供的敏感数据保护效果的检测方法、装置及存储介质,获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。本发明实施例的方案,基于至少一个Cookie文件,对至少一个第一类账号登陆待检测网站后所述待检测网站呈现的文字信息进行敏感数据检测,也就是说,在没有权限访问敏感数据的账号登陆待检测网站的模拟场景下,检测这些没有权限访问敏感数据的账号是否能够在待检测网站越权访问敏感数据,从而确定待检测网站对敏感数据的保护效果,如此,能够及时降低网站泄露敏感数据的风险,提升用户体验。
附图说明
图1为本发明实施例敏感数据保护效果的检测方法的流程示意图;
图2为本发明实施例一级网页对应的图像示意图一;
图3为本发明实施例一级网页对应的图像示意图二;
图4为本发明实施例二级网页对应的图像示意图;
图5为本发明应用实施例敏感数据保护效果的检测装置的结构示意图;
图6为本发明应用实施例敏感数据保护效果的检测方法的流程示意图;
图7为本发明实施例敏感数据保护效果的检测装置的结构示意图;
图8为本发明实施例敏感数据保护效果的检测装置的硬件结构示意图。
具体实施方式
以下结合说明书附图及实施例对本发明的技术方案作进一步详细的阐述。
相关技术中,可以通过安全开发生命周期(SDL,Security DevelopmentLifecycle)的方式避免没有权限访问敏感数据的账号(即上述普通账号)在网站中访问到敏感数据。具体地,SDL是一种从安全角度指导软件开发过程的管理模式,也就是说,首先,可以在网站的需求和分析阶段设计完善的用户账号分级机制,并设计相关的权限认证;然后,在网站的设计、编码和测试等阶段实现对用户账号对应的权限进行认证的过程;最后,在网站的测试阶段对权限不同的用户账号是否能够访问到敏感数据进行测试,从而确保普通账号无法访问到敏感数据。可见,通过SDL的方式避免普通账号在网站中访问到敏感数据,是一种事前避免的手段,只能在网站的测试阶段(即未上线的网站)检测网站对敏感数据的保护效果,无法检测已上线网站对敏感数据的保护效果。并且,SDL只是一种安全管理模式,并没有很强的约束力,也就是说,网站对敏感数据的保护效果完全依赖于产品经理、研发人员、测试人员和运营人员的安全意识,如果在网站的需求分析、开发、测试和运营过程中的任一环节未严格控制用户对敏感数据的访问权限,都有可能会出现普通账号也可以访问到敏感数据的情况。
相关技术中,还可以通过网络数据丢失保护(NDLP,Network Data LossProtection)的方式检测网站对敏感数据的保护效果。具体地,NDLP方案通常部署在内部网络和外部网络连接的出口处,对进出内部网络的所有数据进行检测;也就是说,获取网络七层超文本传输协议(HTTP,HyperText Transfer Protocol)流量,采用字符串匹配等方式在响应报文中检测敏感数据,同时,结合从获取到的流量中识别出的用户账号信息,判断是否存在普通账号访问敏感数据的行为。可见,通过NDLP的方式检测网站对敏感数据的保护效果,是一种事中监控的手段,只能在普通账号已经访问到敏感数据后才能检测到普通账号访问敏感数据的行为,无法在普通账号访问到敏感数据之前检测到存在普通账号访问敏感数据的风险,依旧有可能导致敏感数据的泄露。并且,由于通过NDLP的方式检测网站对敏感数据的保护效果时需要接入全部流量,因此,需要使用分光器等硬件设备,并占用大量的计算、存储和网络带宽等资源,实现成本较高。
基于此,在本发明的各种实施例中,在普通账号登陆待检测网站的模拟场景下,检测这些普通账号是否能够在待检测网站越权访问敏感数据,从而确定待检测网站对敏感数据的保护效果,如此,对于未上线和已上线的网站,都能够在普通账号访问到敏感数据之前及时降低网站泄露敏感数据的风险,提升用户体验。并且,无需使用分光器等硬件设备,也无需占用大量的计算、存储和网络带宽等资源,实现成本较低。
需要说明的是,在本发明的各种实施例中,敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、网际互连协议(IP,Internet Protocol)地址列表等。
本发明实施例提供了一种敏感数据保护效果的检测方法,如图1所示,所述方法包括以下步骤:
步骤101:获取至少一个Cookie文件;
这里,所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;所述第一类账号也可称为普通账号;
步骤102:确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;
这里,所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
步骤103:对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
需要说明的是,本发明实施例提供的敏感数据保护效果的检测方法,应用于检测未上线的网站或已上线的网站对敏感数据的保护效果的应用场景。示例性地,对于一个未上线的网站(后续的描述中记作第一网站),可以为所述第一网站模拟设置至少一个第一类账号,并生成所述至少一个第一类账号中每个第一类账号对应的Cookie文件,得到至少一个Cookie文件;在所述第一网站上线之前,可以获取所述至少一个Cookie文件,基于所述至少一个Cookie文件,确定所述第一网站对敏感数据的保护效果,进而确定所述第一网站是否具备上线资格。对于一个已上线的网站(后续的描述中记作第二网站),可以在新增加一个所述第二网站对应的第一类账号时,生成新增加的第一类账号对应的Cookie文件;在所述新增加的第一类账号供用户正常使用之前,可以获取所述新增加的第一类账号对应的Cookie文件,基于所述Cookie文件,确定所述第二网站对敏感数据的保护效果,即确定所述新增加的第一类账号是否能够在所述第二网站越权访问敏感数据,进而确定所述新增加的第一类账号是否合格或所述第二网站是否需要升级。或者,对于所述第二网站,可以基于预设时长(比如1天、1个月、三个月等),周期性地获取所述第二网站对应的全部的第一类账号中每个第一类账号对应的Cookie文件,基于获取到的多个Cookie文件,确定所述第二网站对敏感数据的保护效果,进而可以周期性地确定所述第二网站是否需要升级。
在步骤101中,实际应用时,所述Cookie文件可以是相应第一类账号实际登陆所述待检测网站时产生的Cookie文件;也可以是基于相应第一类账号,利用预设的第一脚本程序生成的Cookie文件。获取至少一个Cookie文件的方式可以根据需要设置。比如,可以从本地获取所述至少一个Cookie文件;再比如,可以从所述待检测网站对应的服务器获取所述至少一个Cookie文件。
在步骤102中,实际应用时,确定至少一个待检测文本的方式可以根据需要设置。比如,为了避免对敏感数据的遗漏,提高所述待检测文本包含的文字信息相对于所述待检测网站实际呈现的文字信息的完整性,进而提高确定所述待检测网站对敏感数据的保护效果的准确性,可以通过网络爬虫的方式确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;如此,能够识别以图片形式呈现的敏感数据,避免对敏感数据的遗漏,提高所述待检测文本包含的文字信息相对于所述待检测网站实际呈现的文字信息的完整性,进而提高确定所述待检测网站对敏感数据的保护效果的准确性。
基于此,在一实施例中,所述确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,可以包括:
通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
具体地,在一实施例中,所述通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,可以包括:
针对所述至少一个Cookie文件中的每个Cookie文件,基于第一值和相应Cookie文件,对处于第一状态的所述待检测网站进行网络爬虫,以确定所述相应Cookie文件对应的待检测文本;所述第一值表征对处于第一状态的所述待检测网站进行网络爬虫的层数;所述第一状态表征利用所述相应Cookie文件登陆所述待检测网站后所述待检测网站的状态。
实际应用时,所述第一值可以根据需要设置。示例性地,在所述第一值等于2的情况下,针对所述至少一个Cookie文件中的每个Cookie文件,首先,可以基于相应Cookie文件,利用预设的第二脚本程序爬取所述待检测网站的首页包含的文字信息,得到第一文本片段;然后,可以从所述第一文本片段中提取全部链接,将提取出的多个链接中的每个链接确定为第一层子链接,得到多个第一层子链接;针对所述多个第一层子链接中的每个第一层子链接,可以基于相应Cookie文件,利用所述第二脚本程序继续爬取相应第一层子链接对应的网页包含的文字信息,得到多个第二文本片段;再从所述多个第二文本片段中的每个第二文本片段提取全部链接,将提取出的多个链接中的每个链接确定为第二层子链接,得到多个第二层子链接;针对所述多个第二层子链接中的每个第二层子链接,可以基于相应Cookie文件,利用所述第二脚本程序继续爬取相应第二层子链接对应的网页包含的文字信息,得到多个第三文本片段;最后,可以利用所述第一文本片段、所述多个第二文本片段和所述多个第三文本片段,合成所述相应Cookie文件对应的待检测文本。
在步骤102中,实际应用时,为了提高确定至少一个待检测文本的速度,进而提高对所述至少一个待检测文本进行敏感数据检测的效率,可以通过OCR的方式确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
基于此,在一实施例中,所述确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,可以包括:
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
具体地,在一实施例中,所述通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,可以包括:
针对所述至少一个Cookie文件中的每个Cookie文件,获取相应Cookie文件对应的至少一级网页对应的图像,得到多个图像;每一级网页对应的图像表征利用所述相应Cookie文件登陆所述待检测网站后点击相应级别的菜单项时所述待检测网站呈现的画面;
通过OCR的方式识别所述多个图像中每个图像包含的文字信息,得到至少一个文本片段;
利用所述至少一个文本片段,合成所述相应Cookie文件对应的待检测文本。
这里,每一级网页对应的图像表征利用所述相应Cookie文件登陆所述待检测网站后点击相应级别的菜单项时所述待检测网站呈现的画面是指:利用所述相应Cookie文件登陆所述待检测网站后,所述待检测网站呈现的画面中包含菜单项,在所述待检测网站中点击M级菜单项后所述待检测网站所呈现的画面即为M级网页对应的图像,M为大于0的整数。示例性地,如图2所示,图2为一个新闻网站的首页对应的图像,所述首页对应的图像中包含菜单栏201,菜单栏201中包含6个一级菜单项,点击所述6个一级菜单项中任一个一级菜单项后所述新闻网站呈现的画面即为一个一级网页对应的图像,由于所述菜单栏201包含一级菜单项“首页”,即点击一级菜单项“首页”时,所述新闻网站仍会呈现所述首页对应的图像,因此,所述首页对应的图像也是一个一级网页对应的图像。当一个一级菜单项包括多个子菜单项时,也就是说,当一个一级菜单项对应多个二级菜单项时,如图3所示,图3为一级菜单项“其他新闻”对应的一级网页对应的图像,图3所示的图像中包含子菜单栏301,子菜单栏301中包含4个二级菜单项,点击所述4个二级菜单项中任一个二级菜单项后所述新闻网站呈现的画面即为一个二级网页对应的图像,如图4所示,图4为二级菜单项“娱乐新闻”对应的二级网页对应的图像。
实际应用时,获取相应Cookie文件对应的网页图像的级数可以根据需要设置(即M的取值可以根据需要设置)。示例性地,针对所述至少一个Cookie文件中的每个Cookie文件,在获取相应Cookie文件对应的网页图像的级数等于2的情况下,即获取相应Cookie文件对应的至少二级网页对应的图像时,首先,可以基于相应Cookie文件,利用预设的第三脚本程序获取所述待检测网站的首页图像,通过OCR的方式识别所述首页图像包含的文字信息,得到第四文本片段;然后,可以在所述第四文本片段中检测全部的菜单项,将检测到的多个菜单项中的每个菜单项确定为一级菜单项,得到多个一级菜单项;针对所述多个一级菜单项中的每个一级菜单项,可以利用所述第三脚本程序模拟点击相应一级菜单项的操作,并获取点击相应一级菜单项后所处待检测网站呈现的一级网页对应的图像,得到多个一级网页对应的图像;针对所述多个一级网页对应的图像中每个一级网页对应的图像,通过OCR的方式识别相应一级网页对应的图像包含的文字信息,得到多个第五文本片段;再在所述多个第五文本片段中的每个第五文本片段检测除所述一级菜单项外的菜单项,将检测到的多个菜单项中的每个菜单项确定为二级菜单项,得到多个二级菜单项;针对所述多个二级菜单项中的每个二级菜单项,可以利用所述第三脚本程序模拟点击相应二级菜单项的操作,并获取点击相应二级菜单项后所处待检测网站呈现的二级网页对应的图像,得到多个二级网页对应的图像;针对所述多个二级网页对应的图像中每个二级网页对应的图像,通过OCR的方式识别相应二级网页对应的图像包含的文字信息,得到多个第六文本片段;最后,可以利用所述第四文本片段、所述多个第五文本片段和所述多个第六文本片段,合成所述相应Cookie文件对应的待检测文本。
实际应用时,可以根据需要设置在文本片段中检测菜单项的方式。比如,可以在文本片段中通过语义分析的方式检测菜单项;再比如,可以在文本片段中通过格式识别的方式检测菜单项。
在步骤102中,实际应用时,为了即能够避免对敏感数据的遗漏、提高所述待检测文本包含的文字信息相对于所述待检测网站实际呈现的文字信息的完整性、进而提高确定所述待检测网站对敏感数据的保护效果的准确性,也能够提高确定至少一个待检测文本的速度、进而提高对所述至少一个待检测文本进行敏感数据检测的效率,可以通过OCR和网络爬虫的方式确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
基于此,在一实施例中,所述确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,可以包括:
通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
实际应用时,可以根据需要设置通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本的具体方式。比如,可以先通过OCR的方式,确定所述至少一个Cookie文件对应的至少一个待检测文本(后续的描述中记作第一类待检测文本),在对至少一个第一类待检测文本进行敏感数据检测的结果不满足预设的第一条件的情况下,再通过网络爬虫的方式,确定所述至少一个Cookie文件对应的至少一个待检测文本(后续的描述中记作第二类待检测文本),对至少一个第二类待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
基于此,在一实施例中,所述通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,可以包括:
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第一类待检测文本;
对所述至少一个第一类待检测文本进行敏感数据检测,得到第一检测结果;
在所述第一检测结果满足第一条件的情况下,通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第二类待检测文本;
相应地,在步骤103中,所述对所述至少一个待检测文本进行敏感数据检测,包括:
对所述至少一个第二类待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
实际应用时,在所述第一检测结果不满足第一条件的情况下,可以根据所述第一检测结果确定所述待检测网站对敏感数据的保护效果。
实际应用时,所述第一条件可以根据需要设置。比如,所述第一条件可以表征所述至少一个第一类待检测文本不包含敏感数据;再比如,所述第一条件可以表征所述至少一个第一类待检测文本包含的敏感数据在所述至少一个第一类待检测文本中所占的比例小于或等于第二值(比如0.01)。
在一实施例中,所述通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,也可以包括:
针对所述至少一个Cookie文件中的每个Cookie文件,在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程满足第二条件的情况下,通过网络爬虫的方式,确定相应Cookie文件对应的待检测文本。
具体地,针对所述至少一个Cookie文件中的每个Cookie文件,在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程中,需要获取相应Cookie文件对应的至少一级网页对应的图像,为了提高确定所述待检测网站对敏感数据的保护效果的准确性,可以根据需要设置针对“获取相应Cookie文件对应的至少一级网页对应的图像”过程的第二条件。比如,所述第二条件可以表征在所述第四文本片段中未检测到菜单项,即仅获取到一个一级网页对应的图像(首页图像);再比如,所述第二条件可以表征获取的图像的数量小于或等于第三值(比如10)。在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程满足第二条件的情况下,可以通过网络爬虫的方式,确定相应Cookie文件对应的待检测文本;在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程不满足第二条件的情况下,可以继续通过OCR的方式,确定相应Cookie文件对应的待检测文本。如此,即能够避免对敏感数据的遗漏、提高所述待检测文本包含的文字信息相对于所述待检测网站实际呈现的文字信息的完整性、进而提高确定所述待检测网站对敏感数据的保护效果的准确性,也能够提高确定至少一个待检测文本的速度、进而提高对所述至少一个待检测文本进行敏感数据检测的效率。
在步骤103中,在一实施例中,所述对所述至少一个待检测文本进行敏感数据检测,可以包括:
将所述至少一个待检测文本与敏感数据关键词库中的敏感数据关键词进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待检测网站对敏感数据的保护效果。
实际应用时,可以根据需要设置敏感数据关键词库中的敏感数据关键词,比如身份证号、手机号、银行卡号、住址等。还可以根据需要设置将所述至少一个待检测文本与敏感数据关键词库中的敏感数据关键词进行匹配的方式,比如多模字符串匹配、正则匹配等。
实际应用时,对所述至少一个待检测文本进行敏感数据检测的时机也可以根据需要设置。比如,可以在每确定一个Cookie文件对应的待检测文本后,对当前确定的待检测文本进行敏感数据检测;再比如,可以在得到全部的Cookie文件对应的全部待检测文本后,对所述至少一个待检测文本进行敏感数据检测。
在步骤103中,实际应用时,可以根据需要设置对所述至少一个待检测文本进行敏感数据检测得到的检测结果与所述待检测网站对敏感数据的保护效果之间的对应关系。
比如,可以将所述检测结果与预设的多个阈值进行比较,根据比较结果确定所述待检测网站对敏感数据的保护效果对应的级别。示例性地,可以预先设置第一阈值(所述第一阈值为0)、第二阈值和第三阈值,在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例等于第一阈值的情况下,确定所述待检测网站对敏感数据的保护效果为一级保护效果;在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例大于第一阈值、小于或等于第二阈值的情况下,确定所述待检测网站对敏感数据的保护效果为二级保护效果;在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例大于第二阈值、小于或等于第三阈值的情况下,确定所述待检测网站对敏感数据的保护效果为三级保护效果;在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例大于第三阈值的情况下,确定所述待检测网站对敏感数据的保护效果为四级保护效果。
再比如,可以基于所述检测结果生成对所述待检测网站对敏感数据的保护效果的评分。示例性地,在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例的情况下,可以将1减去所述检测结果得到的值乘以100作为对所述待检测网站对敏感数据的保护效果的评分;在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例为0的情况下,所述待检测网站对敏感数据的保护效果的评分为100分;在所述检测结果表征所述至少一个待检测文本包含的敏感数据在所述至少一个待检测文本中所占的比例为0.3的情况下,所述待检测网站对敏感数据的保护效果的评分为70分。
实际应用时,对所述至少一个待检测文本进行敏感数据检测得到的检测结果还可以包括检测到的敏感数据的内容以及与所述检测到的敏感数据的内容对应的第一类账号;并且,在确定所述待检测网站对敏感数据的保护效果后,可以对所述检测结果以及所述待检测网站对敏感数据的保护效果进行存储和呈现。这里,可以通过网页呈现所述检测结果以及所述待检测网站对敏感数据的保护效果。
本发明实施例提供的敏感数据保护效果的检测方法,获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果;如此,能够及时降低网站泄露敏感数据的风险,提升用户体验。
下面结合应用实施例对本发明再作进一步详细的描述。
本应用实施例提供一种敏感数据保护效果的检测装置,如图5所示,所述敏感数据保护效果的检测装置包括:配置模块510、核心检测模块520、网络(Web)前端和数据库模块530;其中,
所述配置模块510是所述敏感数据保护效果的检测装置的输入源,用于供用户输入固定资产信息表(即公司网站域名列表,相当于上述待检测网站的列表)、普通账号列表(相当于上述至少一个第一类账号)和敏感数据表;所述固定资产信息表包含需要进行敏感数据保护效果检测的网站域名;所述普通账号列表包含没有敏感数据访问权限的普通账号;所述敏感数据表包含敏感数据关键词(例如:身份证号、手机号、银行卡号、住址等,相当于上述敏感数据关键词库);所述敏感数据表还可以包含用于匹配敏感数据关键词的匹配方式(例如多模字符串匹配、正则匹配等)。实际应用时,用户可以通过所述配置模块510修改配置信息,即自定义进行敏感数据保护效果检测的网站的范围、敏感数据的内容、用于匹配敏感数据关键词的算法以及网络爬虫的最高层数N(N为大于0的整数)等信息,从而实现检测网站对敏感数据的保护效果的快速扫描或全面扫描。
所述核心检测模块520是所述敏感数据保护效果的检测装置的核心,用于通过OCR和网络爬虫的方式检测待检测网站呈现的文字内容是否包含敏感数据;所述核心检测模块520包括:截图模块521、OCR模块522、模拟点击模块523、匹配模块524和爬虫模块525;其中,所述截图模块521,用于获取待检测网站的网页的截图;所述OCR模块522,用于将截图转换为文字;所述模拟点击模块523,用于从截图转换的文字中识别出菜单栏,模拟鼠标操作展开菜单栏,模拟鼠标点击菜单栏中的菜单项,并模拟鼠标点击展开后的子菜单栏中的子菜单项;所述匹配模块524,用于通过与匹配敏感数据关键词进行匹配(例如多模字符串匹配、正则匹配等),检测所述OCR模块522得到的文字内容和所述爬虫模块525得到的文字内容是否包含敏感数据;所述爬虫模块525,用于对待检测网站进行N层爬虫;具体地,获取待检测网站的文字内容,从获取的内容中抽取第1层链接,对第1层链接再进行爬虫获取第1层链接的文字内容,并从第1层链接的文字内容中抽取第2层链接,再对第2层链接进行递归爬取,直到第N层链接为止。
所述Web前端和数据库模块530是所述敏感数据保护效果的检测装置的输出部分;所述Web前端和数据库模块530包括用于展示检测结果的Web前端531和用于存储检测结果的数据库532;具体地,所述Web前端531,用于展示所述核心检测模块520检测到可供普通账号访问敏感数据的网站的统一资源定位符(URL,Uniform Resource Locator)、检测到的敏感数据的内容以及所述检测到的敏感数据的内容对应的普通账号等信息;所述检测到的敏感数据的内容对应的普通账号即为能够访问所述检测到的敏感数据的普通账号;所述数据库532,用于存储所述核心检测模块520检测到可供普通账号访问敏感数据的网站的URL、检测到的敏感数据的内容以及所述检测到的敏感数据的内容对应的普通账号等信息。
下面基于上述敏感数据保护效果的检测装置,详细描述本应用实施例提供的敏感数据保护效果的检测方法。如图6所示,本应用实施例提供的敏感数据保护效果的检测方法具体可以包括以下步骤:
步骤601:获取待检测网站列表和普通账号列表;之后执行步骤602。
具体地,所述核心检测模块520从所述配置模块510获取用户自定义的固定资产信息表和普通账号列表,并从固定资产信息表中获取待检测网站列表(也可以是待检测的域名列表)。
步骤602:模拟普通账号登录待检测网站,获取Cookie文件;之后执行步骤603。
具体地,针对普通账号列表包含的多个普通账号中的每个普通账号,所述核心检测模块520模拟相应普通账号登陆待检测网站列表中的任一个待检测网站,得到相应普通账号对应的Cookie文件。
这里,利用相应普通账号对应的Cookie文件可以登陆待检测网站列表中的每个待检测网站。
步骤603:获取敏感数据关键词以及用于匹配敏感数据关键词的匹配方式;之后执行步骤604。
具体地,所述核心检测模块520从所述配置模块510获取用户自定义的敏感数据表,所述敏感数据表包括敏感数据关键词以及用于匹配敏感数据关键词的匹配方式。
步骤604:获取待检测网站的首页截图;之后执行步骤605。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,所述核心检测模块520中的所述截图模块521基于相应普通账号对应的Cookie文件模拟登陆相应待检测网站,获取相应普通账号登陆相应待检测网站后相应待检测网站的首页截图。
步骤605:将首页截图转换为文字内容;之后执行步骤606。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,所述核心检测模块520中的所述OCR模块522将相应普通账号登陆相应待检测网站后相应待检测网站的首页截图转换为文字内容。
步骤606:判断是否在首页截图对应的文字内容中检测到菜单栏;若是,执行步骤607;若否,则执行步骤610。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,所述OCR模块522判断是否在相应的首页截图对应的文字内容中检测到菜单栏;若所述OCR模块522确定在相应的首页截图对应的文字内容中检测到菜单栏,执行步骤607;若所述OCR模块522确定在相应的首页截图对应的文字内容中未检测到菜单栏,则执行步骤610。
步骤607:提取菜单栏的坐标,模拟点击各个菜单项和子菜单项;之后执行步骤608。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,在所述OCR模块522确定在相应的首页截图对应的文字内容中检测到菜单栏的情况下,所述核心检测模块520中的所述模拟点击模块523从所述OCR模块522读取(即提取)检测到的菜单栏的二维坐标,模拟鼠标执行展开菜单、点击菜单项和子菜单项按钮的操作。
步骤608:获取模拟点击各个菜单项和子菜单项之后待检测网站的网页截图,并转换为文字内容;之后执行步骤609。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,在所述OCR模块522确定在相应的首页截图对应的文字内容中检测到菜单栏的情况下,并在所述模拟点击模块523模拟鼠标执行展开菜单、点击菜单项和子菜单项按钮的操作的过程中,所述截图模块521获取模拟点击各个菜单项和子菜单项之后待检测网站的网页截图,并由所述OCR模块522将各网页截图转换为对应的文字内容。
步骤609:确定待检测网站对应的正文内容;之后执行步骤612。
具体地,针对每一个待检测网站,所述核心检测模块520中的所述匹配模块524将相应待检测网站为每个普通账号呈现的全部网页对应的文字内容进行合成,得到相应待检测网站对应的正文内容。
步骤610:对待检测网站进行网络爬虫;之后执行步骤611。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,所述核心检测模块520中的所述爬虫模块525基于相应普通账号对应的Cookie文件对相应待检测网站进行网络爬虫。
步骤611:判断对待检测网站进行的网络爬虫是否遍历完指定的层级;若是,执行步骤609;若否,则返回步骤610。
具体地,对于每一个待检测网站,针对普通账号列表包含的多个普通账号中的每个普通账号,所述爬虫模块525判断对相应待检测网站进行的网络爬虫是否遍历完指定的层级N;若所述爬虫模块525确定对相应待检测网站进行的网络爬虫遍历完指定的层级N,执行步骤609;若所述爬虫模块525确定对相应待检测网站进行的网络爬虫未遍历完指定的层级N,则返回步骤610。
步骤612:判断待检测网站对应的正文内容是否包含敏感数据;若是,执行步骤613;若否,则返回步骤601。
具体地,针对每一个待检测网站,所述匹配模块524基于从所述配置模块510获取的用于匹配敏感数据关键词的匹配方式,将相应待检测网站对应的正文内容与敏感数据关键词进行匹配,以判断相应待检测网站对应的正文内容是否包含敏感数据;若所述匹配模块524确定相应待检测网站对应的正文内容包含敏感数据,执行步骤613;若所述匹配模块524确定相应待检测网站对应的正文内容不包含敏感数据,则返回步骤601,继续对其他待检测网站进行敏感数据保护效果的检测。
步骤613:将检测结果存储到数据库,并同步展示到Web页面。
具体地,针对每一个待检测网站,在所述匹配模块524确定相应待检测网站对应的正文内容包含敏感数据的情况下,所述匹配模块524将相应的检测结果存储到数据库532,并通过所述Web前端531对所述检测结果进行呈现;所述检测结果可以包含相应待检测网站的URL、检测到的敏感数据的内容以及所述检测到的敏感数据的内容对应的普通账号等信息。
在本应用实施例提供的敏感数据保护效果的检测方法中,初始化流程包括步骤601至步骤603;在所述初始化流程中,所述核心检测模块520需要从所述配置模块510的固定资产信息表中获取待检测网站列表(也可以是待检测的域名列表)和普通账号列表,然后依次使用普通账号列表中的普通账号登录待检测网站,获得对应的Cookie文件;然后所述核心检测模块520还需要从所述配置模块510的敏感信息表中获取用户自定义的敏感信息关键词、用于匹配敏感数据关键词的匹配方式以及网络爬虫的最高层数N等数据,这些数据都用于进行下一步的检测流程。
检测流程包括步骤604至步骤612,所述检测流程是本应用实施例提供的敏感数据保护效果的检测方法的核心部分;所述检测流程包括两个子流程:OCR检测子流程和爬虫检测子流程;其中,所述OCR检测子流程包括步骤604至步骤609以及步骤612;所述爬虫检测子流程包括步骤610至步骤612。
具体地,在OCR检测子流程中,首先,所述核心检测模块520通过初始化流程中得到的Cookie文件登录待检测网站,使用所述截图模块521截取待检测网站的首页图片,使用所述OCR模块522将首页图片转为文字,通过分析文字的内容和排版来找出菜单栏,如果有菜单栏,则使用所述OCR模块522读取菜单栏的二维坐标,使用所述模拟点击模块523模拟鼠标执行展开菜单和点击菜单项按钮的操作,然后对待检测网站中刷新后的网页正文重复进行截图和文字转换,最后使用所述匹配模块524按照初始化流程中用户自定义的匹配方式来寻找(即检测)敏感数据。
如果在OCR检测子流程中没有发现菜单栏和敏感数据,在爬虫检测子流程中,所述爬虫模块525则使用初始化流程中得到的Cookie文件直接爬取待检测网站的首页内容,从首页内容中提取所有链接作为第1层子链接,对第1层链接再进行爬虫获取第1层链接的文字内容,并从第1层链接的文字内容中抽取第2层链接,再对第2层链接进行递归爬取,直到第N层链接为止,最后使用所述匹配模块524按照初始化流程中用户自定义的匹配方式来检测所述爬虫模块525爬取的待检测网站的全部内容是否存在敏感数据。或者,所述爬虫模块525爬取待检测网站的首页内容、从首页内容中提取所有链接作为第1层子链接后,可以先使用所述匹配模块524从首页内容中寻找敏感数据,如果没找到敏感数据,则爬取第1层子链接的网页内容,从第1层子链接的网页内容中提取所有链接作为第2层链接,然后使用所述匹配模块524从第1层子链接的网页内容中寻找敏感数据,循环执行直到找到敏感数据或到第N层链接。
最后,存储和展示流程包括步骤613;对于检测流程中发现的敏感数据,需要将相应的待检测网站的网页URL、敏感数据的内容、相应的普通账号信息等记录到数据库中,并同步展示到Web前端;当然,也可以加上对网站运营方的邮件或短信告警等功能,以提醒运营方及时对网站进行升级和维护。
需要说明的是,步骤601至步骤613的具体实现过程与图1所示的敏感数据保护效果的检测方法中步骤101至步骤103的具体实现过程相同,这里不多赘述。
本应用实施例提供的敏感数据保护效果的检测方法,结合了OCR技术和网络爬虫技术检测了网站对敏感数据的保护效果:先使用OCR技术识别网站的菜单栏,通过模拟操作展开菜单栏,直接访问子菜单链接(即获取点击相应子菜单连接后的网站截图),从而快速识别隐藏在众多子菜单链接中以图片形式展示的敏感数据;使用OCR技术未识别到网站的菜单栏的情况下,通过网络爬虫的方式获取网站呈现的文字内容,并检测获取的文字内容中是否存在敏感数据;如此,兼顾了对网站进行敏感数据保护效果检测的速度和全面性(即避免对敏感数据的遗漏)。与相关技术中通过SDL的方式避免普通账号在网站中访问到敏感数据的方案相比,采用本应用实施例提供的敏感数据保护效果的检测方法,用户能够根据自定义的敏感数据类型,主动检测网站是否有敏感数据、普通账号能否访问到敏感数据;并且,不论网站处于开发中的状态还是已上线的状态,都可以对网站对敏感数据的保护效果进行检测。与相关技术中通过NDLP的方式检测网站对敏感数据的保护效果的方案相比,采用本应用实施例提供的敏感数据保护效果的检测方法,能够做到事前发现,即通过定期检测固定资产信息表中的所有网站,主动发现对普通账号开放敏感数据的网站,从而极大降低了数据泄露的风险;并且,无需占用大量的存储和带宽等资源,也无需采购分光器等硬件设备,实现成本较低,用户体验较好。
为了实现本发明实施例的方法,本发明实施例还提供了一种敏感数据保护效果的检测装置,如图7所示,所述敏感数据保护效果的检测装置包括获取单元71、第一处理单元72和第二处理单元73;其中,
所述获取单元71,用于获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;
所述第一处理单元72,用于确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
所述第二处理单元73,用于对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
在一实施例中,所述第二处理单元73,具体用于:
将所述至少一个待检测文本与敏感数据关键词库中的敏感数据关键词进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待检测网站对敏感数据的保护效果。
在一实施例中,所述第一处理单元72,具体用于以下之一:
通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
在一实施例中,所述第一处理单元72,还用于:
针对所述至少一个Cookie文件中的每个Cookie文件,基于第一值和相应Cookie文件,对处于第一状态的所述待检测网站进行网络爬虫,以确定所述相应Cookie文件对应的待检测文本;所述第一值表征对处于第一状态的所述待检测网站进行网络爬虫的层数;所述第一状态表征利用所述相应Cookie文件登陆所述待检测网站后所述待检测网站的状态。
在一实施例中,所述第一处理单元72,还用于:
针对所述至少一个Cookie文件中的每个Cookie文件,获取相应Cookie文件对应的至少一级网页对应的图像,得到多个图像;每一级网页对应的图像表征利用所述相应Cookie文件登陆所述待检测网站后点击相应级别的菜单项时所述待检测网站呈现的画面;
通过OCR的方式识别所述多个图像中每个图像包含的文字信息,得到至少一个文本片段;
利用所述至少一个文本片段,合成所述相应Cookie文件对应的待检测文本。
在一实施例中,所述第一处理单元72,还用于:
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第一类待检测文本;
对所述至少一个第一类待检测文本进行敏感数据检测,得到第一检测结果;
在所述第一检测结果满足第一条件的情况下,通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第二类待检测文本;
对所述至少一个第二类待检测文本进行敏感数据检测。
在一实施例中,所述第一处理单元72,还用于:
针对所述至少一个Cookie文件中的每个Cookie文件,在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程满足第二条件的情况下,通过网络爬虫的方式,确定相应Cookie文件对应的待检测文本。
这里,所述获取单元71、所述第一处理单元72和所述第二处理单元73的功能相当于本发明应用实施例中核心检测模块520的功能。
实际应用时,所述获取单元71可由所述敏感数据保护效果的检测装置中的处理器结合通信接口实现;所述第一处理单元72和所述第二处理单元73可由所述敏感数据保护效果的检测装置中的处理器实现。
需要说明的是:上述实施例提供的敏感数据保护效果的检测装置在检测网站对敏感数据的保护效果时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将敏感数据保护效果的检测装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的敏感数据保护效果的检测装置与敏感数据保护效果的检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种敏感数据保护效果的检测装置,如图8所示,所述敏感数据保护效果的检测装置80包括:
通信接口81,能够与其他电子设备进行信息交互;
处理器82,与所述通信接口81连接,以实现与其他电子设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的方法;
存储器83,用于存储能够在所述处理器82上运行的计算机程序。
具体地,所述处理器82用于执行以下操作:
获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;
确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
在一实施例中,所述处理器82,还用于执行以下操作:
将所述至少一个待检测文本与敏感数据关键词库中的敏感数据关键词进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待检测网站对敏感数据的保护效果。
在一实施例中,所述处理器82,还用于执行以下操作之一:
通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
在一实施例中,所述处理器82,还用于执行以下操作:
针对所述至少一个Cookie文件中的每个Cookie文件,基于第一值和相应Cookie文件,对处于第一状态的所述待检测网站进行网络爬虫,以确定所述相应Cookie文件对应的待检测文本;所述第一值表征对处于第一状态的所述待检测网站进行网络爬虫的层数;所述第一状态表征利用所述相应Cookie文件登陆所述待检测网站后所述待检测网站的状态。
在一实施例中,所述处理器82,还用于执行以下操作:
针对所述至少一个Cookie文件中的每个Cookie文件,获取相应Cookie文件对应的至少一级网页对应的图像,得到多个图像;每一级网页对应的图像表征利用所述相应Cookie文件登陆所述待检测网站后点击相应级别的菜单项时所述待检测网站呈现的画面;
通过OCR的方式识别所述多个图像中每个图像包含的文字信息,得到至少一个文本片段;
利用所述至少一个文本片段,合成所述相应Cookie文件对应的待检测文本。
在一实施例中,所述处理器82,还用于执行以下操作:
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第一类待检测文本;
对所述至少一个第一类待检测文本进行敏感数据检测,得到第一检测结果;
在所述第一检测结果满足第一条件的情况下,通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第二类待检测文本;
对所述至少一个第二类待检测文本进行敏感数据检测。
在一实施例中,所述处理器82,还用于执行以下操作:
针对所述至少一个Cookie文件中的每个Cookie文件,在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程满足第二条件的情况下,通过网络爬虫的方式,确定相应Cookie文件对应的待检测文本。
需要说明的是:所述处理器82具体执行上述操作的过程详见方法实施例,这里不再赘述。
当然,实际应用时,所述敏感数据保护效果的检测装置80中的各个组件通过总线系统84耦合在一起。可理解,总线系统84用于实现这些组件之间的连接通信。总线系统84除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统84。
本发明实施例中的存储器83用于存储各种类型的数据以支持所述敏感数据保护效果的检测装置80的操作。这些数据的示例包括:用于在所述敏感数据保护效果的检测装置80上操作的任何计算机程序。
上述本发明实施例揭示的方法可以应用于处理器82中,或者由处理器82实现。处理器82可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器82中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器82可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器82可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器83,处理器82读取存储器83中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,所述敏感数据保护效果的检测装置80可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,本发明实施例的存储器83可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其他适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器83,上述计算机程序可由所述敏感数据保护效果的检测装置80的处理器82执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种敏感数据保护效果的检测方法,其特征在于,包括:
获取至少一个小型文字档案Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;
确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个待检测文本进行敏感数据检测,包括:
将所述至少一个待检测文本与敏感数据关键词库中的敏感数据关键词进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待检测网站对敏感数据的保护效果。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括以下之一:
通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过光学字符识别OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本;
通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本。
4.根据权利要求3所述的方法,其特征在于,所述通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
针对所述至少一个Cookie文件中的每个Cookie文件,基于第一值和相应Cookie文件,对处于第一状态的所述待检测网站进行网络爬虫,以确定所述相应Cookie文件对应的待检测文本;所述第一值表征对处于第一状态的所述待检测网站进行网络爬虫的层数;所述第一状态表征利用所述相应Cookie文件登陆所述待检测网站后所述待检测网站的状态。
5.根据权利要求3所述的方法,其特征在于,所述通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
针对所述至少一个Cookie文件中的每个Cookie文件,获取相应Cookie文件对应的至少一级网页对应的图像,得到多个图像;每一级网页对应的图像表征利用所述相应Cookie文件登陆所述待检测网站后点击相应级别的菜单项时所述待检测网站呈现的画面;
通过OCR的方式识别所述多个图像中每个图像包含的文字信息,得到至少一个文本片段;
利用所述至少一个文本片段,合成所述相应Cookie文件对应的待检测文本。
6.根据权利要求3所述的方法,其特征在于,所述通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
通过OCR的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第一类待检测文本;
对所述至少一个第一类待检测文本进行敏感数据检测,得到第一检测结果;
在所述第一检测结果满足第一条件的情况下,通过网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,得到至少一个第二类待检测文本;
对所述至少一个第二类待检测文本进行敏感数据检测。
7.根据权利要求3所述的方法,其特征在于,所述通过OCR和网络爬虫的方式,确定所述至少一个Cookie文件中的每个Cookie文件对应的待检测文本,包括:
针对所述至少一个Cookie文件中的每个Cookie文件,在通过OCR的方式确定相应Cookie文件对应的待检测文本的过程满足第二条件的情况下,通过网络爬虫的方式,确定相应Cookie文件对应的待检测文本。
8.一种敏感数据保护效果的检测装置,其特征在于,包括:
获取单元,用于获取至少一个Cookie文件;所述至少一个Cookie文件中的每个Cookie文件包含一个第一类账号登陆待检测网站产生的数据;所述至少一个Cookie文件中的每个Cookie文件对应的第一类账号不同;所述第一类账号包括能够登陆所述待检测网站的所有账号中没有权限访问敏感数据的账号;
第一处理单元,用于确定所述至少一个Cookie文件中每个Cookie文件对应的待检测文本,得到至少一个待检测文本;所述待检测文本包含利用相应Cookie文件登陆所述待检测网站后所述待检测网站呈现的文字信息;
第二处理单元,用于对所述至少一个待检测文本进行敏感数据检测,以确定所述待检测网站对敏感数据的保护效果。
9.一种敏感数据保护效果的检测装置,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202010754668.0A 2020-07-30 2020-07-30 敏感数据保护效果的检测方法、装置及存储介质 Pending CN112257100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010754668.0A CN112257100A (zh) 2020-07-30 2020-07-30 敏感数据保护效果的检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010754668.0A CN112257100A (zh) 2020-07-30 2020-07-30 敏感数据保护效果的检测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112257100A true CN112257100A (zh) 2021-01-22

Family

ID=74223917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010754668.0A Pending CN112257100A (zh) 2020-07-30 2020-07-30 敏感数据保护效果的检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112257100A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883951A (zh) * 2021-02-10 2021-06-01 支付宝(杭州)信息技术有限公司 一种保护敏感内容的方法、系统和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883951A (zh) * 2021-02-10 2021-06-01 支付宝(杭州)信息技术有限公司 一种保护敏感内容的方法、系统和存储介质

Similar Documents

Publication Publication Date Title
US20210382949A1 (en) Systems and methods for web content inspection
Liao et al. Measuring the effectiveness of privacy policies for voice assistant applications
US9762598B1 (en) Automatic dynamic vetting of browser extensions and web applications
Karie et al. Toward a general ontology for digital forensic disciplines
US8621613B1 (en) Detecting malware in content items
WO2007063547A2 (en) System and method for appending security information to search engine results
US8407766B1 (en) Method and apparatus for monitoring sensitive data on a computer network
CN114144798A (zh) 安全事故调查事件捕获
US11637863B2 (en) Detection of user interface imitation
CN107403108A (zh) 一种数据处理的方法及系统
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN110619075A (zh) 一种网页识别方法与设备
CN114356747A (zh) 显示内容的测试方法、装置、设备、存储介质及程序产品
CN112257100A (zh) 敏感数据保护效果的检测方法、装置及存储介质
CN116662987A (zh) 业务系统监控方法、装置、计算机设备及存储介质
CN105354506B (zh) 隐藏文件的方法和装置
Liu et al. Evaluating the privacy policy of android apps: A privacy policy compliance study for popular apps in china and europe
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
CN111368231B (zh) 一种异构冗余架构网站的测试方法及装置
US9965744B1 (en) Automatic dynamic vetting of browser extensions and web applications
RU2762241C2 (ru) Система и способ выявления мошеннических активностей при взаимодействии пользователя с банковскими сервисами
CN114282097A (zh) 一种信息识别方法及其装置
Njoku et al. URL Based Phishing Website Detection Using Machine Learning.
Ou et al. Viopolicy-detector: An automated approach to detecting GDPR suspected compliance violations in websites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination