CN107579976A - 自定义检测网站敏感信息的方法及装置 - Google Patents
自定义检测网站敏感信息的方法及装置 Download PDFInfo
- Publication number
- CN107579976A CN107579976A CN201710794987.2A CN201710794987A CN107579976A CN 107579976 A CN107579976 A CN 107579976A CN 201710794987 A CN201710794987 A CN 201710794987A CN 107579976 A CN107579976 A CN 107579976A
- Authority
- CN
- China
- Prior art keywords
- sensitive information
- website
- detected
- phrase
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种自定义检测网站敏感信息的方法及装置,该方法包括:获取待检测网站的页面信息的文件表格;接收用户发送的敏感信息词组;根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接;根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。本发明的检测方法中,用户能够根据自身的检测需要方便的输入要检测的敏感信息词组,进而根据用户输入的敏感信息词组对待检测网站进行检测,使用方便,操作过程简单,对用户的操作技术要求低,能够满足普通用户的使用需求,缓解了传统的敏感信息检测方法使用不便,操作过程复杂以及对用户的操作技术要求高的技术问题。
Description
技术领域
本发明涉及信息安全的技术领域,尤其是涉及一种自定义检测网站敏感信息的方法及装置。
背景技术
互联网飞速发展的时代,高新技术的深入发展与广泛运用,正在深刻地改变着人们几千年来形成的生活习惯,例如信息传递方式、生产结构方式、人际交流方式、社会方式,也深刻地改变着生活运作方式。互联网敏感信息的识别过滤对促进互联网舆情技术发展有重要意义。
目前使用的敏感信息检测产品中,检测产品自带敏感信息特征库,用户在对网站中的信息进行检测时,只能按照敏感信息特征库中的信息进行检测。用户若想检测其它的敏感信息,需要将敏感信息特征库中的信息进行替换,使用不便,操作过程复杂,并且对于用户的操作技术要求高,无法满足普通用户的使用需求。
发明内容
有鉴于此,本发明的目的在于提供一种自定义检测网站敏感信息的方法及装置,以缓解传统的敏感信息检测方法使用不便,操作过程复杂以及对用户的操作技术要求高的技术问题。
第一方面,本发明实施例提供了一种自定义检测网站敏感信息的方法,所述方法包括:
根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,所述文件表格中包含:所述待检测网站的文本信息与所述待检测网站的URL链接之间的匹配关系;
接收所述用户发送的敏感信息词组,其中,所述敏感信息词组的数量至少一个;
根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接;
根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,根据用户的触发操作获取待检测网站的页面信息的文件表格包括:
接收所述用户发送的安装爬虫应用程序的安装指令,以创建所述爬虫应用程序的爬虫环境;
接收所述用户发送的所述待检测网站的站点信息;
基于所述爬虫环境对所述待检测网站中的URL链接进行爬取,得到多个URL链接;
对所述多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
获取所述待检测网站中的多个文本信息,并对所述多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
按照所述多个文本信息与所述多个URL链接的原始匹配关系,建立所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系;
将所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系作为所述待检测网站的所述文件表格。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接包括:
对所述敏感信息词组进行分词处理,得到分词后的敏感信息词组;
在所述文件表格中查找与所述分词后的敏感信息词组相匹配的所述敏感信息;
根据所述敏感信息确定与所述敏感信息相对应的目标URL链接。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接还包括:
如果所述文件表格中不包含与所述分词后的敏感信息词组相匹配的所述敏感信息,则输出未发现所述敏感信息的结果。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,在根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量之后,所述方法还包括:
标记所述敏感信息在所述待检测网站中的出现位置和所述敏感信息的数量;
向所述用户发送提示信息,其中,所述提示信息用于提示所述用户对所述待检测网站进行修补。
第二方面,本发明实施例还提供了一种自定义检测网站敏感信息的装置,所述装置包括:
获取模块,用于根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,所述文件表格中包含:所述待检测网站的文本信息与所述待检测网站的URL链接之间的匹配关系;
接收模块,用于接收所述用户发送的敏感信息词组,其中,所述敏感信息词组的数量至少一个;
查找模块,用于根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接;
确定模块,用于根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述获取模块包括:
第一接收单元,用于接收所述用户发送的安装爬虫应用程序的安装指令,以创建所述爬虫应用程序的爬虫环境;
第二接收单元,用于接收所述用户发送的所述待检测网站的站点信息;
爬取单元,基于所述爬虫环境对所述待检测网站中的URL链接进行爬取,得到多个URL链接;
过滤单元,用于对所述多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
获取单元,用于获取所述待检测网站中的多个文本信息,并对所述多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
建立单元,用于按照所述多个文本信息与所述多个URL链接的原始匹配关系,建立所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系;
设定单元,用于将所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系作为所述待检测网站的所述文件表格。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述查找模块包括:
分词处理单元,用于对所述敏感信息词组进行分词处理,得到分词后的敏感信息词组;
查找单元,用于在所述文件表格中查找与所述分词后的敏感信息词组相匹配的所述敏感信息;
确定单元,用于根据所述敏感信息确定与所述敏感信息相对应的目标URL链接。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述查找模块还包括:
输出单元,如果所述文件表格中不包含与所述分词后的敏感信息词组相匹配的所述敏感信息,则输出未发现所述敏感信息的结果。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方式,其中,所述装置还包括:
标记模块,用于标记所述敏感信息在所述待检测网站中的出现位置和所述敏感信息的数量;
发送模块,用于向所述用户发送提示信息,其中,所述提示信息用于提示所述用户对所述待检测网站进行修补。
本发明实施例带来了以下有益效果:本发明实施例提供了一种自定义检测网站敏感信息的方法及装置,该方法包括:根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,文件表格中包含:待检测网站的文本信息与待检测网站的URL链接之间的匹配关系;接收用户发送的敏感信息词组,其中,敏感信息词组的数量至少一个;根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接;根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。
传统的敏感信息检测方法中,是基于敏感信息特征库进行的,一般情况下,只能按照敏感信息特征库中的信息进行检测。与传统的敏感信息检测方法相比,在本发明中的自定义检测网站敏感信息的方法中,先根据用户的触发操作获取待检测网站的页面信息的文件表格,然后,接收用户发送的敏感信息词组,进而,根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,同时,确定出与敏感信息相对应的目标URL链接,最后,根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。本发明的自定义检测网站敏感信息的方法中,用户能够根据自身的检测需要方便的输入要检测的敏感信息词组,进而根据用户输入的敏感信息词组对待检测网站进行检测,使用方便,操作过程简单,并且对用户的操作技术要求低,能够满足普通用户的使用需求,缓解了传统的敏感信息检测方法使用不便,操作过程复杂以及对用户的操作技术要求高的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自定义检测网站敏感信息的方法的流程图;
图2为本发明实施例提供的根据用户的触发操作获取待检测网站的页面信息的文件表格的流程图;
图3为本发明实施例提供的根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接的流程图;
图4为本发明实施例提供的一种自定义检测网站敏感信息的装置的结构示意图。
图标:
11-获取模块;12-接收模块;13-查找模块;14-确定模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种自定义检测网站敏感信息的方法及装置进行详细介绍。
实施例一:
本发明实施例提供了一种自定义检测网站敏感信息的方法,参考图1,该方法包括:
S101、根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,文件表格中包含:待检测网站的文本信息与待检测网站的URL链接之间的匹配关系;
在本发明实施例中,自定义检测网站敏感信息的方法具体为自定义检测网站敏感信息系统所执行的检测方法。该自定义检测网站敏感信息系统可以以软件的形式(像QQ客户端一样)安装在用户终端上,从而在用户终端上运行,也可以像WEBQQ一样,安装在服务器上,从而在服务器上运行,本发明实施例对其不做具体限制。下面以软件形式的自定义检测网站敏感信息系统为例进行说明:用户在自身的电脑上安装自定义检测网站敏感信息软件,安装完成后,用户选择待检测网站,也就是在软件中输入待检测网站的站点信息。
输入完成后,该软件就能够获取待检测网站的页面信息的文件表格,其中,文件表格中包含待检测网站的文本信与待检测网站的URL链接之间的匹配关系。也就是,得到与每一个URL链接所对应的文本信息。
S102、接收用户发送的敏感信息词组,其中,敏感信息词组的数量至少一个;
在得到待检测网站的页面信息的文件表格后,接收用户发送的敏感信息词组。也就是,用户可以根据自身的检测需要自定义输入要检测的敏感信息词组。
S103、根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接;
在接收到用户发送的敏感信息词组后,就能够根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息。其中,敏感信息实际为文件表格中的目标文本信息,该目标文本信息与用户发送的敏感信息相匹配。
在得到敏感信息后,因为文件表格的存在,就能够确定出与敏感信息相对应的目标URL链接。
S104、根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。
在得到目标URL链接后,就能够根据目标URL链接进一步确定敏感信息在待检测网站中的显示位置,进而统计出敏感信息的数量。
传统的敏感信息检测方法中,是基于敏感信息特征库进行的,一般情况下,只能按照敏感信息特征库中的信息进行检测。与传统的敏感信息检测方法相比,在本发明中的自定义检测网站敏感信息的方法中,先根据用户的触发操作获取待检测网站的页面信息的文件表格,然后,接收用户发送的敏感信息词组,进而,根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,同时,确定出与敏感信息相对应的目标URL链接,最后,根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。本发明的自定义检测网站敏感信息的方法中,用户能够根据自身的检测需要方便的输入要检测的敏感信息词组,进而根据用户输入的敏感信息词组对待检测网站进行检测,使用方便,操作过程简单,并且对用户的操作技术要求低,能够满足普通用户的使用需求,缓解了传统的敏感信息检测方法使用不便,操作过程复杂以及对用户的操作技术要求高的技术问题。
在本发明实施例中,在根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量之后,该方法还包括:
标记敏感信息在待检测网站中的出现位置和敏感信息的数量;
具体的,标记敏感信息在待检测网站中的出现位置可以为高亮显示敏感信息在待检测网站中的出现位置,也可以为其他标记方式,本发明实施例对其不做具体限制。进而,输出敏感信息的位置和敏感信息的数量的结果。
向用户发送提示信息,其中,提示信息用于提示用户对待检测网站进行修补。
在得到敏感信息的位置和敏感信息的数量后,进一步向用户发送提示信息,以提示用户对待检测网站进行修补。
在一个可选的实施方式中,参考图2,根据用户的触发操作获取待检测网站的页面信息的文件表格具体包括以下步骤:
S201、接收用户发送的安装爬虫应用程序的安装指令,以创建爬虫应用程序的爬虫环境;
本发明中的自定义检测网站敏感信息系统是在爬虫环境中运行的,所以,在进行检测前,先要接收用户发送的安装爬虫应用程序的安装指令,以创建爬虫应用程序的爬虫环境。
S202、接收用户发送的待检测网站的站点信息;
在得到爬虫的环境后,接收用户发送的待检测网站的站点信息。
S203、基于爬虫环境对待检测网站中的URL链接进行爬取,得到多个URL链接;
用户输入待检测网站的站点信息后,爬虫环境就能够对待检测网站中的URL链接进行爬取,得到多个URL链接。
S204、对多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
在得到URL链接后,按照预设过滤规则进行过滤,其中,预设过滤规则包括:过滤掉重复的URL链接,过滤掉待检测网站上的按键所对应的链接,过滤掉待检测网站上的标签所对应的链接,因为这些链接不会产生敏感信息。过滤完成后,得到过滤后的多个URL链接。
S205、获取待检测网站中的多个文本信息,并对多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
进一步获取待检测网站中的多个文本信息,通常网站的编码格式多种多样,为了使得系统能够识别,所以需要进行转译。其中,预设格式可以为UTF-8的格式。
S206、按照多个文本信息与多个URL链接的原始匹配关系,建立过滤后的多个URL链接与转译后的多个文本信息之间的匹配关系;
网站中的每个文本信息和URL链接都存在原始匹配关系,按照原始匹配关系建立过滤后的多个URL链接与转译后的多个文本信息之间的匹配关系。
S207、将过滤后的多个URL链接与转译后的多个文本信息之间的匹配关系作为待检测网站的文件表格。
在一个可选地实施方式中,参考图3,根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接包括以下步骤:
S301、对敏感信息词组进行分词处理,得到分词后的敏感信息词组;
在查找与敏感信息词组相匹配的敏感信息时,先对敏感信息词组进行分词处理,得到分词后的敏感信息词组。这样,能够使得查找的结果更加全面。
S302、在文件表格中查找与分词后的敏感信息词组相匹配的敏感信息;
因为文件表格中的信息是待检测网站的信息,所以,在文件表格中查找与分词后的敏感信息词组相匹配的敏感信息实际为对待检测网站进行的检测,
S303、根据敏感信息确定与敏感信息相对应的目标URL链接。
在得到敏感信息后,因为文件表格的存在,能够根据敏感信息确定与敏感信息相对应的目标URL链接。
可选地,根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接还包括:
如果文件表格中不包含与分词后的敏感信息词组相匹配的敏感信息,则输出未发现敏感信息的结果。
实施例二:
一种自定义检测网站敏感信息的装置,参考图4,该装置包括:
获取模块11,用于根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,文件表格中包含:待检测网站的文本信息与待检测网站的URL链接之间的匹配关系;
接收模块12,用于接收用户发送的敏感信息词组,其中,敏感信息词组的数量至少一个;
查找模块13,用于根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,并确定出与敏感信息相对应的目标URL链接;
确定模块14,用于根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。
在本发明中的自定义检测网站敏感信息的装置中,先根据用户的触发操作获取待检测网站的页面信息的文件表格,然后,接收用户发送的敏感信息词组,进而,根据敏感信息词组在文件表格中查找与敏感信息词组相匹配的敏感信息,同时,确定出与敏感信息相对应的目标URL链接,最后,根据目标URL链接确定敏感信息在待检测网站中的显示位置,并统计敏感信息的数量。本发明的自定义检测网站敏感信息的装置中,用户能够根据自身的检测需要方便的输入要检测的敏感信息词组,进而根据用户输入的敏感信息词组对待检测网站进行检测,使用方便,操作过程简单,并且对用户的操作技术要求低,能够满足普通用户的使用需求,缓解了传统的敏感信息检测方法使用不便,操作过程复杂以及对用户的操作技术要求高的技术问题。
可选地,获取模块包括:
第一接收单元,用于接收用户发送的安装爬虫应用程序的安装指令,以创建爬虫应用程序的爬虫环境;
第二接收单元,用于接收用户发送的待检测网站的站点信息;
爬取单元,基于爬虫环境对待检测网站中的URL链接进行爬取,得到多个URL链接;
过滤单元,用于对多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
获取单元,用于获取待检测网站中的多个文本信息,并对多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
建立单元,用于按照多个文本信息与多个URL链接的原始匹配关系,建立过滤后的多个URL链接与转译后的多个文本信息之间的匹配关系;
设定单元,用于将过滤后的多个URL链接与转译后的多个文本信息之间的匹配关系作为待检测网站的文件表格。
可选地,查找模块包括:
分词处理单元,用于对敏感信息词组进行分词处理,得到分词后的敏感信息词组;
查找单元,用于在文件表格中查找与分词后的敏感信息词组相匹配的敏感信息;
确定单元,用于根据敏感信息确定与敏感信息相对应的目标URL链接。
可选地,查找模块还包括:
输出单元,如果文件表格中不包含与分词后的敏感信息词组相匹配的敏感信息,则输出未发现敏感信息的结果。
可选地,该装置还包括:
标记模块,用于标记敏感信息在待检测网站中的出现位置和敏感信息的数量;
发送模块,用于向用户发送提示信息,其中,提示信息用于提示用户对待检测网站进行修补。
该实施例二中的内容可以参考上述实施例一中的内容,在此不再进行赘述。
本发明实施例所提供的自定义检测网站敏感信息的方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种自定义检测网站敏感信息的方法,其特征在于,所述方法包括:
根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,所述文件表格中包含:所述待检测网站的文本信息与所述待检测网站的URL链接之间的匹配关系;
接收所述用户发送的敏感信息词组,其中,所述敏感信息词组的数量至少一个;
根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接;
根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量。
2.根据权利要求1所述的方法,其特征在于,根据用户的触发操作获取待检测网站的页面信息的文件表格包括:
接收所述用户发送的安装爬虫应用程序的安装指令,以创建所述爬虫应用程序的爬虫环境;
接收所述用户发送的所述待检测网站的站点信息;
基于所述爬虫环境对所述待检测网站中的URL链接进行爬取,得到多个URL链接;
对所述多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
获取所述待检测网站中的多个文本信息,并对所述多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
按照所述多个文本信息与所述多个URL链接的原始匹配关系,建立所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系;
将所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系作为所述待检测网站的所述文件表格。
3.根据权利要求1所述的方法,其特征在于,根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接包括:
对所述敏感信息词组进行分词处理,得到分词后的敏感信息词组;
在所述文件表格中查找与所述分词后的敏感信息词组相匹配的所述敏感信息;
根据所述敏感信息确定与所述敏感信息相对应的目标URL链接。
4.根据权利要求3所述的方法,其特征在于,根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接还包括:
如果所述文件表格中不包含与所述分词后的敏感信息词组相匹配的所述敏感信息,则输出未发现所述敏感信息的结果。
5.根据权利要求1所述的方法,其特征在于,在根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量之后,所述方法还包括:
标记所述敏感信息在所述待检测网站中的出现位置和所述敏感信息的数量;
向所述用户发送提示信息,其中,所述提示信息用于提示所述用户对所述待检测网站进行修补。
6.一种自定义检测网站敏感信息的装置,其特征在于,所述装置包括:
获取模块,用于根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,所述文件表格中包含:所述待检测网站的文本信息与所述待检测网站的URL链接之间的匹配关系;
接收模块,用于接收所述用户发送的敏感信息词组,其中,所述敏感信息词组的数量至少一个;
查找模块,用于根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接;
确定模块,用于根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量。
7.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
第一接收单元,用于接收所述用户发送的安装爬虫应用程序的安装指令,以创建所述爬虫应用程序的爬虫环境;
第二接收单元,用于接收所述用户发送的所述待检测网站的站点信息;
爬取单元,基于所述爬虫环境对所述待检测网站中的URL链接进行爬取,得到多个URL链接;
过滤单元,用于对所述多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
获取单元,用于获取所述待检测网站中的多个文本信息,并对所述多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
建立单元,用于按照所述多个文本信息与所述多个URL链接的原始匹配关系,建立所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系;
设定单元,用于将所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系作为所述待检测网站的所述文件表格。
8.根据权利要求6所述的装置,其特征在于,所述查找模块包括:
分词处理单元,用于对所述敏感信息词组进行分词处理,得到分词后的敏感信息词组;
查找单元,用于在所述文件表格中查找与所述分词后的敏感信息词组相匹配的所述敏感信息;
确定单元,用于根据所述敏感信息确定与所述敏感信息相对应的目标URL链接。
9.根据权利要求8所述的装置,其特征在于,所述查找模块还包括:
输出单元,如果所述文件表格中不包含与所述分词后的敏感信息词组相匹配的所述敏感信息,则输出未发现所述敏感信息的结果。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
标记模块,用于标记所述敏感信息在所述待检测网站中的出现位置和所述敏感信息的数量;
发送模块,用于向所述用户发送提示信息,其中,所述提示信息用于提示所述用户对所述待检测网站进行修补。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710794987.2A CN107579976A (zh) | 2017-09-06 | 2017-09-06 | 自定义检测网站敏感信息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710794987.2A CN107579976A (zh) | 2017-09-06 | 2017-09-06 | 自定义检测网站敏感信息的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107579976A true CN107579976A (zh) | 2018-01-12 |
Family
ID=61031386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710794987.2A Pending CN107579976A (zh) | 2017-09-06 | 2017-09-06 | 自定义检测网站敏感信息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107579976A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109617880A (zh) * | 2018-12-17 | 2019-04-12 | 杭州安恒信息技术股份有限公司 | 主动保护隐私信息的方法和装置 |
CN110399554A (zh) * | 2019-07-12 | 2019-11-01 | 苏州浪潮智能科技有限公司 | 一种网站内容特定信息的检测方法、装置和存储系统 |
CN111209459A (zh) * | 2019-12-27 | 2020-05-29 | 中移(杭州)信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN111723400A (zh) * | 2020-06-16 | 2020-09-29 | 杭州安恒信息技术股份有限公司 | 一种js敏感信息泄露检测方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095530A (zh) * | 2013-01-21 | 2013-05-08 | 中国科学院信息工程研究所 | 一种基于前置网关的敏感信息监测及防泄漏方法及系统 |
CN103279476A (zh) * | 2013-04-11 | 2013-09-04 | 深圳市易聆科信息技术有限公司 | 一种web应用系统敏感文字的检测方法及系统 |
US20160142426A1 (en) * | 2014-11-17 | 2016-05-19 | International Business Machines Corporation | Endpoint traffic profiling for early detection of malware spread |
CN106326734A (zh) * | 2015-06-30 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 一种检测敏感信息的方法和设备 |
-
2017
- 2017-09-06 CN CN201710794987.2A patent/CN107579976A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095530A (zh) * | 2013-01-21 | 2013-05-08 | 中国科学院信息工程研究所 | 一种基于前置网关的敏感信息监测及防泄漏方法及系统 |
CN103279476A (zh) * | 2013-04-11 | 2013-09-04 | 深圳市易聆科信息技术有限公司 | 一种web应用系统敏感文字的检测方法及系统 |
US20160142426A1 (en) * | 2014-11-17 | 2016-05-19 | International Business Machines Corporation | Endpoint traffic profiling for early detection of malware spread |
CN106326734A (zh) * | 2015-06-30 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 一种检测敏感信息的方法和设备 |
Non-Patent Citations (1)
Title |
---|
张晓梅等: "基于搜索引擎的有害信息监控系统的设计与实现", 《铁路计算机应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109617880A (zh) * | 2018-12-17 | 2019-04-12 | 杭州安恒信息技术股份有限公司 | 主动保护隐私信息的方法和装置 |
CN110399554A (zh) * | 2019-07-12 | 2019-11-01 | 苏州浪潮智能科技有限公司 | 一种网站内容特定信息的检测方法、装置和存储系统 |
CN111209459A (zh) * | 2019-12-27 | 2020-05-29 | 中移(杭州)信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN111723400A (zh) * | 2020-06-16 | 2020-09-29 | 杭州安恒信息技术股份有限公司 | 一种js敏感信息泄露检测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107579976A (zh) | 自定义检测网站敏感信息的方法及装置 | |
CN106445484B (zh) | 通过软件开发工具包实现数据跟踪的方法及系统 | |
CN102622463B (zh) | 基于图模一致性的设计图自动检查校验的方法 | |
CN104750795A (zh) | 一种智能语义检索系统和方法 | |
CN103197948A (zh) | 一种电力智能设备通信规约脚本解析方法 | |
CN103324470A (zh) | 一种Web系统生成的方法和装置 | |
CN105574092A (zh) | 信息挖掘方法和装置 | |
CN102664925B (zh) | 一种展现搜索结果的方法及装置 | |
CN104715181A (zh) | 应用软件的登入系统及方法 | |
CN109408561A (zh) | 业务名称匹配方法及装置 | |
CN104579748A (zh) | Scd在线校核的网络分析方法及系统 | |
CN110245145A (zh) | 关系型数据库到Hadoop数据库的结构同步方法和装置 | |
CN102298617A (zh) | 一种用于获取目标页面的方法与设备 | |
CN112394908A (zh) | 埋点页面自动生成的方法、装置、计算机设备及存储介质 | |
CN107608583A (zh) | 应用间交互方法、装置、移动终端及计算机可读存储介质 | |
CN104361040A (zh) | 一种定制查询的方法及装置 | |
CN108109071A (zh) | 基于人员社会关系动态关联的监控方法及电子设备 | |
CN104166545A (zh) | 一种网页资源的嗅探方法以及装置 | |
CN103246846A (zh) | 检测定制rom的安全性的方法和装置 | |
CN108920377A (zh) | 一种日志回放测试方法、系统、装置及可读存储介质 | |
CN104765747A (zh) | 网页处理方法及装置 | |
CN107403386A (zh) | 基于银行网点的投保管理方法和系统 | |
CN103984540A (zh) | 生成硬件接口运行程序的方法及装置 | |
CN106855850A (zh) | 基于手持式设备智能变电站二次虚端子图实相符检测方法 | |
CN115567316A (zh) | 访问数据的异常检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180112 |