CN112347331B

CN112347331B - 一种js敏感信息泄露检测方法、装置、设备及介质

Info

Publication number: CN112347331B
Application number: CN202011254914.2A
Authority: CN
Inventors: 陈超; 张梦林
Original assignee: Fujian Youdu Network Security Technology Co ltd
Current assignee: Fujian Youdu Network Security Technology Co ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-07-12
Anticipated expiration: 2040-11-11
Also published as: CN112347331A

Abstract

本发明涉及JS敏感信息技术领域，且公开了一种JS敏感信息泄露检测方法、装置、设备及介质，包括以下步骤：1)获取待检测网站的URL；2)通过聚焦网络爬虫搜索URL，聚焦JS文件，抓取出JS文件；3)再利用增量式爬虫技术提取敏感信息源，根据现有敏感信息源标准建立数据字典，并排出免检信息。本发明的优点在于，通过提取JS文件源代码中.html、.do与.action关键词，将这些主要包含敏感信息的关键词汇进行扫描，可以绕开一些与敏感信息无关的词汇，从而提检测速度，降低对资源的占用，而对未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描，提高对敏感信息泄露的检测的全面性准确性，同时提高了检测效率。

Description

一种JS敏感信息泄露检测方法、装置、设备及介质

技术领域

本发明涉及JS敏感信息技术领域，具体为一种JS敏感信息泄露检测方法、装置、设备及介质。

背景技术

JavaScript作为一种相当简单但功能强大的客户端脚本语言，本质是一种解释型语言。所以，其执行原理是边解释边运行。上述特性就决定了 JavaScript与一些服务器脚本语言(如ASP、PHP)以及编译型语言(如C、 C++)不同，其源代码可以轻松被任何人获取到。一些粗心的开发者将各式敏感信息存储在JavaScript脚本中，由于JS的特性，攻击者可以对这些信息一览无余，从而导致对WEB服务和用户隐私造成不同程度的威胁。

目前的的检测方法的还存在以下问题：

目前的的检测方法依然需要人工对每一个网页源代码进行查看，并进行搜索，非常费时费力；

目前检测对照敏感信息的关键词都是当下的敏感信息，但是敏感信息的范围是随时间推移而发生变化的，当下检测未发现敏感信息JS文件在将来可能会出现敏感信息，而现有方式就会导致其逃脱检测。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种JS敏感信息泄露检测方法、装置、设备及介质，具备检测速度快等优点，解决了检测效率低的问题。

(二)技术方案

为实现上述检测速度快的目的，本发明提供如下技术方案：一种JS敏感信息泄露检测方法，包括以下步骤：

1)获取待检测网站的URL；

2)通过聚焦网络爬虫搜索URL，聚焦JS文件，抓取出JS文件；

3)再利用增量式爬虫技术提取敏感信息源，根据现有敏感信息源标准建立数据字典，并排出免检信息；

4)将所有JS文件的源代码编组，录入数据库，并列出.html、.do与.action 的关键词单元；

6)将带有.html、.do与.action的关键词单元导入数据字典进行一次扫描；

5)带有敏感信息的.html、.do与.action关键词将在数据库中所对应的 JS文件进行标注，未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描；

6)将二次扫描后带有敏感信息的词组所对应的JS文件进行标注，其他文件保留于数据库中；

7)将所标注JS文件通过抓包软件查看服务器响应内容，从而获取敏感信息。

优选的，所述增量式爬虫技术提取敏感信息源，其所只在需要的时候爬行更新的页面，并不重新爬行没有发生改变的页面。

优选的，所述通过聚焦网络爬虫搜索URL，其只向设定好的与JS文件相关的网页进行选择性爬行。

优选的，所述JS文件的源代码编组，将所有的源代码进行集中统计整理，所述.html、.do与.action的关键词单元与其母体编组对应。

优选的，所述抓包软件其主要检测ajax响应的内容，同时查找出。

优选的，所述.html、.do与.action关键词可以根据需要进行增加其他关键词，所述.html、.do与.action关键词使用关键词提取技术进行抓取。

一种JS敏感信息泄露检测装置，包括聚焦网络爬虫模块、增量式爬虫模块、数据字典模块、数据库模块、抓包软件模块。

一种JS敏感信息泄露检测设备，包括数据储存器与计算机，所述计算机利用其处理器来执行权利要求1至7中的任意一项JS敏感信息泄露检测方法。

一种JS敏感信息泄露检测介质，包括计算机程序储存装置，并可被计算机读取并执行。

(三)附图说明

图1为本发明的检测方法示意图；

图2为本发明的检测装置示意图；

图3为本发明的检测设备示意图；

图4为本发明的计算机程序示意图。

(四)有益效果

与现有技术相比，本发明提供了一种JS敏感信息泄露检测方法、装置、设备及介质，具备以下有益效果：

1、该JS敏感信息泄露检测方法、装置、设备及介质，通过提取JS文件源代码中.html、.do与.action关键词，将这些主要包含敏感信息的关键词汇进行扫描，可以绕开一些与敏感信息无关的词汇，从而提检测速度，降低对资源的占用，而对未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描，则可以防止有漏网之鱼，提高对JS文件敏感信息泄露的检测的全面性准确性，同时提高了检测效率。

2、该JS敏感信息泄露检测方法、装置、设备及介质，通过采用增量式爬虫技术提取敏感信息源，并且根据现有敏感信息源标准建立数据字典，并排出免检信息，可以将数据字典中敏感信息的关键字数据随着时间的推移进行更新，而且增量式爬虫技术提取敏感信息源，其所只在需要的时候爬行更新的页面，并不重新爬行没有发生改变的页面，可以更新数据的同时，可以防止重复数据的录入，同时将未扫描出敏感信息的JS文件保留在数据库，可以在数据字典数据更新后对其再次进行扫描，防止随时间推移造成其出现敏感信息，节约了排查时间。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种JS敏感信息泄露检测方法，包括以下步骤：

1)获取待检测网站的URL；

在具体实施时，通过分批次获取URL。

2)通过聚焦网络爬虫搜索URL，聚焦JS文件，抓取出JS文件；

在具体实施时通过聚焦网络爬虫搜索URL，选择性地爬行那些与JS文件主题相关页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足需求

在具体实施时，先录入现有敏感信息源，然后可自由设定时间来录入增量式爬虫所爬到的新的敏感信息关键词。

具体实施时，将罗列的JS文件的源代码文件与其中所提取的.html、.do 与.action关键词与JS文件的源代码文件对应，这样方便统计查找。

具体实施是，将对代码中.html、.do与.action的整段导入数据字典进行扫描，.html、.do与.action关键词为主要包含敏感信息内容，可以绕开一些与敏感信息无关的词汇，从而提检测速度，降低对资源的占用。

在具体实施时将排除.html、.do与.action等段落，进行二次扫描，防止有漏网之鱼，提高对JS文件敏感信息泄露的检测的全面性准确性。

具体实施时，留在数据库中得文件将在下一次得数据字典更新内容后将再次进行扫描。

通过抓包软件查看URL响应内容，可确定其敏感信息泄露。

优选的，所述增量式爬虫技术提取敏感信息源，其所只在需要的时候爬行更新的页面，并不重新爬行没有发生改变的页面，这样可以节省空间，并且效率更高。

如图2所示，一种JS敏感信息泄露检测装置，包括聚焦网络爬虫模块、增量式爬虫模块、数据字典模块、数据库模块、抓包软件模块。

如图3所示，一种JS敏感信息泄露检测设备，包括数据储存器与计算机，所述计算机利用其处理器来执行权利要求1至7中的任意一项JS敏感信息泄露检测方法。

如图4所示，一种JS敏感信息泄露检测介质，包括计算机程序储存装置，并可被计算机读取并执行。

本发明的有益效果是：该JS敏感信息泄露检测方法、装置、设备及介质，通过提取JS文件源代码中.html、.do与.action关键词，将这些主要包含敏感信息的关键进行扫描，可以绕开一些与敏感信息无关的词汇，从而提检测速度，降低对资源的占用，而对未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描，则可以防止有漏网之鱼，提高对JS文件敏感信息泄露的检测的全面性准确性，同时提高了检测效率，再通过采用增量式爬虫技术提取敏感信息源，并且根据现有敏感信息源标准建立数据字典，并排出免检信息，可以将数据字典中敏感信息的关键字数据随着时间的推移进行更新，而且增量式爬虫技术提取敏感信息源，其所只在需要的时候爬行更新的页面，并不重新爬行没有发生改变的页面，可以更新数据的同时，可以防止重复数据的录入，同时将未扫描出敏感信息的JS文件保留在数据库，可以在数据字典数据更新后对其再次进行扫描，防止随时间推移造成其出现敏感信息，节约了排查时间

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种JS敏感信息泄露检测方法，其特征在于，包括以下步骤：

1)获取待检测网站的URL；

2)通过聚焦网络爬虫搜索URL，聚焦JS文件，抓取出JS文件；

4)将所有JS文件的源代码编组，录入数据库，并列出.html、.do与.action的关键词单元；

5)带有敏感信息的.html、.do与.action关键词将在数据库中所对应的JS文件进行标注，未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描；

6)将二次扫描后带有敏感信息的词组所对应的JS文件进行标注，所述其他源代码保留于数据库中；

7)将所标注JS文件通过抓包软件查看服务器响应内容，从而获取敏感信息；

所述增量式爬虫技术提取敏感信息源，其所只在需要的时候爬行更新的页面，并不重新爬行没有发生改变的页面；所述数据字典汇入现有敏感信息，并定期汇入增量式爬虫技术提取的新的敏感信息。

2.根据权利要求1所述的一种JS敏感信息泄露检测方法，其特征在于，所述通过聚焦网络爬虫搜索URL，其只向设定好的与JS文件相关的网页进行选择性爬行。

3.根据权利要求1所述的一种JS敏感信息泄露检测方法，其特征在于，所述JS文件的源代码编组，将所有的源代码进行集中统计整理，所述.html、.do与.action的关键词单元与其母体编组对应。

4.根据权利要求1所述的一种JS敏感信息泄露检测方法，其特征在于，所述抓包软件其主要检测ajax响应的内容。

5.根据权利要求1所述的一种JS敏感信息泄露检测方法，其特征在于，所述.html、.do与.action关键词可以根据需要进行增加其他关键词，所述.html、.do与.action关键词使用关键词提取技术进行抓取。