CN112347331B - 一种js敏感信息泄露检测方法、装置、设备及介质 - Google Patents

一种js敏感信息泄露检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN112347331B
CN112347331B CN202011254914.2A CN202011254914A CN112347331B CN 112347331 B CN112347331 B CN 112347331B CN 202011254914 A CN202011254914 A CN 202011254914A CN 112347331 B CN112347331 B CN 112347331B
Authority
CN
China
Prior art keywords
sensitive information
html
file
action
information leakage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011254914.2A
Other languages
English (en)
Other versions
CN112347331A (zh
Inventor
陈超
张梦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Youdu Network Security Technology Co ltd
Original Assignee
Fujian Youdu Network Security Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Youdu Network Security Technology Co ltd filed Critical Fujian Youdu Network Security Technology Co ltd
Priority to CN202011254914.2A priority Critical patent/CN112347331B/zh
Publication of CN112347331A publication Critical patent/CN112347331A/zh
Application granted granted Critical
Publication of CN112347331B publication Critical patent/CN112347331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及JS敏感信息技术领域,且公开了一种JS敏感信息泄露检测方法、装置、设备及介质,包括以下步骤:1)获取待检测网站的URL;2)通过聚焦网络爬虫搜索URL,聚焦JS文件,抓取出JS文件;3)再利用增量式爬虫技术提取敏感信息源,根据现有敏感信息源标准建立数据字典,并排出免检信息。本发明的优点在于,通过提取JS文件源代码中.html、.do与.action关键词,将这些主要包含敏感信息的关键词汇进行扫描,可以绕开一些与敏感信息无关的词汇,从而提检测速度,降低对资源的占用,而对未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描,提高对敏感信息泄露的检测的全面性准确性,同时提高了检测效率。

Description

一种JS敏感信息泄露检测方法、装置、设备及介质
技术领域
本发明涉及JS敏感信息技术领域,具体为一种JS敏感信息泄露检测方法、装置、设备及介质。
背景技术
JavaScript作为一种相当简单但功能强大的客户端脚本语言,本质是一种解释型语言。所以,其执行原理是边解释边运行。上述特性就决定了 JavaScript与一些服务器脚本语言(如ASP、PHP)以及编译型语言(如C、 C++)不同,其源代码可以轻松被任何人获取到。一些粗心的开发者将各式敏感信息存储在JavaScript脚本中,由于JS的特性,攻击者可以对这些信息一览无余,从而导致对WEB服务和用户隐私造成不同程度的威胁。
目前的的检测方法的还存在以下问题:
目前的的检测方法依然需要人工对每一个网页源代码进行查看,并进行搜索,非常费时费力;
目前检测对照敏感信息的关键词都是当下的敏感信息,但是敏感信息的范围是随时间推移而发生变化的,当下检测未发现敏感信息JS文件在将来可能会出现敏感信息,而现有方式就会导致其逃脱检测。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种JS敏感信息泄露检测方法、装置、设备及介质,具备检测速度快等优点,解决了检测效率低的问题。
(二)技术方案
为实现上述检测速度快的目的,本发明提供如下技术方案:一种JS敏感信息泄露检测方法,包括以下步骤:
1)获取待检测网站的URL;
2)通过聚焦网络爬虫搜索URL,聚焦JS文件,抓取出JS文件;
3)再利用增量式爬虫技术提取敏感信息源,根据现有敏感信息源标准建立数据字典,并排出免检信息;
4)将所有JS文件的源代码编组,录入数据库,并列出.html、.do与.action 的关键词单元;
6)将带有.html、.do与.action的关键词单元导入数据字典进行一次扫描;
5)带有敏感信息的.html、.do与.action关键词将在数据库中所对应的 JS文件进行标注,未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描;
6)将二次扫描后带有敏感信息的词组所对应的JS文件进行标注,其他文件保留于数据库中;
7)将所标注JS文件通过抓包软件查看服务器响应内容,从而获取敏感信息。
优选的,所述增量式爬虫技术提取敏感信息源,其所只在需要的时候爬行更新的页面,并不重新爬行没有发生改变的页面。
优选的,所述通过聚焦网络爬虫搜索URL,其只向设定好的与JS文件相关的网页进行选择性爬行。
优选的,所述JS文件的源代码编组,将所有的源代码进行集中统计整理,所述.html、.do与.action的关键词单元与其母体编组对应。
优选的,所述抓包软件其主要检测ajax响应的内容,同时查找出。
优选的,所述.html、.do与.action关键词可以根据需要进行增加其他关键词,所述.html、.do与.action关键词使用关键词提取技术进行抓取。
一种JS敏感信息泄露检测装置,包括聚焦网络爬虫模块、增量式爬虫模块、数据字典模块、数据库模块、抓包软件模块。
一种JS敏感信息泄露检测设备,包括数据储存器与计算机,所述计算机利用其处理器来执行权利 要求1至7中的任意一项JS敏感信息泄露检测方法。
一种JS敏感信息泄露检测介质,包括计算机程序储存装置,并可被计算机读取并执行。
(三)附图说明
图1为本发明的检测方法示意图;
图2为本发明的检测装置示意图;
图3为本发明的检测设备示意图;
图4为本发明的计算机程序示意图。
(四)有益效果
与现有技术相比,本发明提供了一种JS敏感信息泄露检测方法、装置、设备及介质,具备以下有益效果:
1、该JS敏感信息泄露检测方法、装置、设备及介质,通过提取JS文件源代码中.html、.do与.action关键词,将这些主要包含敏感信息的关键词汇进行扫描,可以绕开一些与敏感信息无关的词汇,从而提检测速度,降低对资源的占用,而对未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描,则可以防止有漏网之鱼,提高对JS文件敏感信息泄露的检测的全面性准确性,同时提高了检测效率。
2、该JS敏感信息泄露检测方法、装置、设备及介质,通过采用增量式爬虫技术提取敏感信息源,并且根据现有敏感信息源标准建立数据字典,并排出免检信息,可以将数据字典中敏感信息的关键字数据随着时间的推移进行更新,而且增量式爬虫技术提取敏感信息源,其所只在需要的时候爬行更新的页面,并不重新爬行没有发生改变的页面,可以更新数据的同时,可以防止重复数据的录入,同时将未扫描出敏感信息的JS文件保留在数据库,可以在数据字典数据更新后对其再次进行扫描,防止随时间推移造成其出现敏感信息,节约了排查时间。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种JS敏感信息泄露检测方法,包括以下步骤:
1)获取待检测网站的URL;
在具体实施时,通过分批次获取URL。
2)通过聚焦网络爬虫搜索URL,聚焦JS文件,抓取出JS文件;
在具体实施时通过聚焦网络爬虫搜索URL,选择性地爬行那些与JS文件主题相关页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足需求
3)再利用增量式爬虫技术提取敏感信息源,根据现有敏感信息源标准建立数据字典,并排出免检信息;
在具体实施时,先录入现有敏感信息源,然后可自由设定时间来录入增量式爬虫所爬到的新的敏感信息关键词。
4)将所有JS文件的源代码编组,录入数据库,并列出.html、.do与.action 的关键词单元;
具体实施时,将罗列的JS文件的源代码文件与其中所提取的.html、.do 与.action关键词与JS文件的源代码文件对应,这样方便统计查找。
6)将带有.html、.do与.action的关键词单元导入数据字典进行一次扫描;
具体实施是,将对代码中.html、.do与.action的整段导入数据字典进行扫描,.html、.do与.action关键词为主要包含敏感信息内容,可以绕开一些与敏感信息无关的词汇,从而提检测速度,降低对资源的占用。
5)带有敏感信息的.html、.do与.action关键词将在数据库中所对应的 JS文件进行标注,未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描;
在具体实施时将排除.html、.do与.action等段落,进行二次扫描,防止有漏网之鱼,提高对JS文件敏感信息泄露的检测的全面性准确性。
6)将二次扫描后带有敏感信息的词组所对应的JS文件进行标注,其他文件保留于数据库中;
具体实施时,留在数据库中得文件将在下一次得数据字典更新内容后将再次进行扫描。
7)将所标注JS文件通过抓包软件查看服务器响应内容,从而获取敏感信息。
通过抓包软件查看URL响应内容,可确定其敏感信息泄露。
优选的,所述增量式爬虫技术提取敏感信息源,其所只在需要的时候爬行更新的页面,并不重新爬行没有发生改变的页面,这样可以节省空间,并且效率更高。
优选的,所述通过聚焦网络爬虫搜索URL,其只向设定好的与JS文件相关的网页进行选择性爬行。
优选的,所述JS文件的源代码编组,将所有的源代码进行集中统计整理,所述.html、.do与.action的关键词单元与其母体编组对应。
优选的,所述抓包软件其主要检测ajax响应的内容,同时查找出。
优选的,所述.html、.do与.action关键词可以根据需要进行增加其他关键词,所述.html、.do与.action关键词使用关键词提取技术进行抓取。
如图2所示,一种JS敏感信息泄露检测装置,包括聚焦网络爬虫模块、增量式爬虫模块、数据字典模块、数据库模块、抓包软件模块。
如图3所示,一种JS敏感信息泄露检测设备,包括数据储存器与计算机,所述计算机利用其处理器来执行权利 要求1至7中的任意一项JS敏感信息泄露检测方法。
如图4所示,一种JS敏感信息泄露检测介质,包括计算机程序储存装置,并可被计算机读取并执行。
本发明的有益效果是:该JS敏感信息泄露检测方法、装置、设备及介质,通过提取JS文件源代码中.html、.do与.action关键词,将这些主要包含敏感信息的关键进行扫描,可以绕开一些与敏感信息无关的词汇,从而提检测速度,降低对资源的占用,而对未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描,则可以防止有漏网之鱼,提高对JS文件敏感信息泄露的检测的全面性准确性,同时提高了检测效率,再通过采用增量式爬虫技术提取敏感信息源,并且根据现有敏感信息源标准建立数据字典,并排出免检信息,可以将数据字典中敏感信息的关键字数据随着时间的推移进行更新,而且增量式爬虫技术提取敏感信息源,其所只在需要的时候爬行更新的页面,并不重新爬行没有发生改变的页面,可以更新数据的同时,可以防止重复数据的录入,同时将未扫描出敏感信息的JS文件保留在数据库,可以在数据字典数据更新后对其再次进行扫描,防止随时间推移造成其出现敏感信息,节约了排查时间
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种JS敏感信息泄露检测方法,其特征在于,包括以下步骤:
1)获取待检测网站的URL;
2)通过聚焦网络爬虫搜索URL,聚焦JS文件,抓取出JS文件;
3)再利用增量式爬虫技术提取敏感信息源,根据现有敏感信息源标准建立数据字典,并排出免检信息;
4)将所有JS文件的源代码编组,录入数据库,并列出.html、.do与.action的关键词单元;
6)将带有.html、.do与.action的关键词单元导入数据字典进行一次扫描;
5)带有敏感信息的.html、.do与.action关键词将在数据库中所对应的JS文件进行标注,未带有敏感信息的.html、.do与.action关键词则将其所对应的JS文件其他源代码导入数据字典进行二次扫描;
6)将二次扫描后带有敏感信息的词组所对应的JS文件进行标注,所述其他源代码保留于数据库中;
7)将所标注JS文件通过抓包软件查看服务器响应内容,从而获取敏感信息;
所述增量式爬虫技术提取敏感信息源,其所只在需要的时候爬行更新的页面,并不重新爬行没有发生改变的页面;所述数据字典汇入现有敏感信息,并定期汇入增量式爬虫技术提取的新的敏感信息。
2.根据权利要求1所述的一种JS敏感信息泄露检测方法,其特征在于,所述通过聚焦网络爬虫搜索URL,其只向设定好的与JS文件相关的网页进行选择性爬行。
3.根据权利要求1所述的一种JS敏感信息泄露检测方法,其特征在于,所述JS文件的源代码编组,将所有的源代码进行集中统计整理,所述.html、.do与.action的关键词单元与其母体编组对应。
4.根据权利要求1所述的一种JS敏感信息泄露检测方法,其特征在于,所述抓包软件其主要检测ajax响应的内容。
5.根据权利要求1所述的一种JS敏感信息泄露检测方法,其特征在于,所述.html、.do与.action关键词可以根据需要进行增加其他关键词,所述.html、.do与.action关键词使用关键词提取技术进行抓取。
CN202011254914.2A 2020-11-11 2020-11-11 一种js敏感信息泄露检测方法、装置、设备及介质 Active CN112347331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011254914.2A CN112347331B (zh) 2020-11-11 2020-11-11 一种js敏感信息泄露检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011254914.2A CN112347331B (zh) 2020-11-11 2020-11-11 一种js敏感信息泄露检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112347331A CN112347331A (zh) 2021-02-09
CN112347331B true CN112347331B (zh) 2022-07-12

Family

ID=74363408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011254914.2A Active CN112347331B (zh) 2020-11-11 2020-11-11 一种js敏感信息泄露检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112347331B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929185A (zh) * 2019-10-15 2020-03-27 中国平安人寿保险股份有限公司 网站目录检测方法、装置、计算机设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106251A1 (en) * 2001-10-24 2009-04-23 Harris Scott C Web based communication of information with reconfigurable format
US20110099185A1 (en) * 2009-10-28 2011-04-28 Yahoo! Inc. System for Querying and Consuming Web-Based Data and Associated Methods
CN104142985B (zh) * 2014-07-23 2018-02-06 哈尔滨工业大学(威海) 一种半自动化的垂直爬虫生成工具及方法
CN106446190B (zh) * 2016-09-29 2019-07-12 华南理工大学 一种模拟网页浏览的动态定制检索方法
CN111723400A (zh) * 2020-06-16 2020-09-29 杭州安恒信息技术股份有限公司 一种js敏感信息泄露检测方法、装置、设备及介质
CN111737627A (zh) * 2020-06-28 2020-10-02 北京明略软件系统有限公司 一种页面敏感性检测方法、装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929185A (zh) * 2019-10-15 2020-03-27 中国平安人寿保险股份有限公司 网站目录检测方法、装置、计算机设备及计算机存储介质

Also Published As

Publication number Publication date
CN112347331A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
Opara et al. HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN107786537B (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN104683328A (zh) 一种跨站漏洞扫描方法及系统
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
US11263062B2 (en) API mashup exploration and recommendation
CN103455758A (zh) 恶意网站的识别方法及装置
CN113779571B (zh) WebShell检测装置、WebShell检测方法及计算机可读存储介质
CN110619075B (zh) 一种网页识别方法与设备
CN101895517B (zh) 一种脚本语义提取方法和提取装置
Jisha et al. Mobile applications recommendation based on user ratings and permissions
US9665574B1 (en) Automatically scraping and adding contact information
CN112347331B (zh) 一种js敏感信息泄露检测方法、装置、设备及介质
CN111949849B (zh) 鱼类信息的获取方法、装置、电子设备及可读存储介质
CN104965902A (zh) 一种富集化url的识别方法和装置
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
KR102214990B1 (ko) 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법
CN107766237A (zh) 网络爬虫的测试方法、装置、服务器和存储介质
US11341205B1 (en) Generating interactive screenshot based on a static screenshot
CN107239704A (zh) 恶意网页发现方法及装置
CN112131374B (zh) 文本的识别方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant