CN113554023A - 一种网页自动取证的方法 - Google Patents

一种网页自动取证的方法 Download PDF

Info

Publication number
CN113554023A
CN113554023A CN202110819971.9A CN202110819971A CN113554023A CN 113554023 A CN113554023 A CN 113554023A CN 202110819971 A CN202110819971 A CN 202110819971A CN 113554023 A CN113554023 A CN 113554023A
Authority
CN
China
Prior art keywords
information
website
key information
webpage
evidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110819971.9A
Other languages
English (en)
Inventor
李辉
谭健铸
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Digital Network Technology Co ltd
Original Assignee
Guangzhou Digital Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Digital Network Technology Co ltd filed Critical Guangzhou Digital Network Technology Co ltd
Priority to CN202110819971.9A priority Critical patent/CN113554023A/zh
Publication of CN113554023A publication Critical patent/CN113554023A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Educational Administration (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Technology Law (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页自动取证的方法,包括以下步骤:捕获待取证网站流量,还原出待取证网站原始信息;预设取证关键信息;从原始的网站信息中识别出具有预设关键信息的网页;保存所有匹配关键信息的网页截图。通过自动取证的方法,解决现有技术中被动取证的问题,同时,对一些需要登陆权限才可获取的网页犯罪证据也能实现快速取证,取证的方式简单,能适合应用于互联网上搜查更多的犯罪证据,起到了很好的网络监控效果。

Description

一种网页自动取证的方法
技术领域
本发明涉及互联网技术领域,具体为一种网页自动取证的方法。
背景技术
随着互联网技术的普及,传统的网下违法犯罪经过“互联网+”摇身变成网络犯罪形态并呈爆炸式发酵,分工精细的网络黑灰产业链随之而来,因此,越来越多违法犯罪证据以网页的形式存在。目前网页取证方法需要用户登录取证装置平台再由取证用户主动访问待取证网页来实现取证,无自动网页取证方式。
发明内容
为了克服现有技术方案的不足,本发明提供一种网页自动取证的方法,能有效的解决背景技术提出的问题。
本发明解决其技术问题所采用的技术方案是:
一种网页自动取证的方法,包括以下步骤:
步骤S101,捕获待取证网站流量,还原出待取证网站原始信息,其中,待取证网站流量为互联网数据流量,待取证网站为含违法犯罪事实信息网页的网站,通过镜像的网络流量还原待取证网页信息,还原出需要登录授权才可访问的违法网站内容信息;
步骤S102,预设取证关键信息,根据不同类型的网络违法犯罪网页内容的特性,需要预设不同的关键信息;
步骤S103,从原始的网站信息中识别出具有预设关键信息的网页,根据预设关键信息的差异采用不同的识别方式;
步骤S104,保存所有匹配关键信息的网页截图,网页截图包括与违法活动有关的网页内容,并通过图片形式保存下来作为电子证物使用。
进一步地,在步骤S101中,捕获待取证网站流量为通过镜像互联网上的流量,可以为数据中心机房网络流量、城域网网络流量、电信运营商网络流量中任意一种。
进一步地,在步骤S101中,还原出待取证网站原始信息的方式,包括:
(1)通过网络流量解码,网络会话跟踪,数据重组,再进行协议深度解析,最终还原出待取证网站原始信息;
(2)通过镜像网络流量还原的待取证网页信息,可以还原出需要登录授权才可访问的网站内容信息。
进一步地,在步骤S102中,预设取证的关键信息包括违法犯罪事实信息、违法用户操作信息和网络信息,关键信息的类型包括页面属性、文本、图片、音频和视频。
进一步地,在步骤S103中,识别具有预设关键信息网页的方式,包括:
(1)预设关键信息为页面属性时,采用正则匹配;
(2)预设关键信息为文本内容时,采用文本识别;
(3)预设关键信息为图片时,采用图像识别;
(4)预设关键信息为音频时,采用语音识别。
进一步地,在步骤S104中,网页截图前,需要获取流量中该网站所有资源,包括html(超文本标记语言)、图片、css(层叠样式表)、js(JavaScript),截图需要使用web自动化工具Selenium操作浏览器进行截屏。
与现有技术相比,本发明的有益效果是:
本发明通过自动取证的方法,解决现有技术中被动取证的问题,同时,对一些需要登陆权限才可获取的网页犯罪证据也能实现快速取证,取证的方式简单,能适合应用于互联网上搜查更多的犯罪证据,起到了很好的网络监控效果,实用性强。
附图说明
图1为本发明自动取证方法步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种网页自动取证的方法,包括以下步骤:
步骤S101,捕获待取证网站流量,还原出待取证网站原始信息。
在本实施例中,捕获待取证网站流量为通过镜像互联网上的流量,待取证网站流量为互联网数据流量,可以为数据中心机房网络流量、城域网网络流量、电信运营商网络流量中任意一种,待取证网站为含违法犯罪事实信息网页的网站,通过镜像的网络流量还原待取证网页信息,还原出需要登录授权才可访问的违法网站内容信息,如管理员登录认证授权成功后的管理后台网页内容。
具体地,通过捕获镜像IDC数据中心机房的网络流量进行解码、网络会话跟踪、数据重组,再对重组后的数据进行网络协议解析,对网站超文本传输协议http进行深度解析,最终还原出待取证网站原始信息,还原出待取证网站原始信息的方式,包括:
(1)通过网络流量解码,网络会话跟踪,数据重组,再进行协议深度解析,最终还原出待取证网站原始信息;
(2)通过镜像网络流量还原的待取证网页信息,可以还原出需要登录权限才可访问的网站内容信息。
步骤S102,预设取证关键信息。
在本实施例中,网络违法犯罪信息呈现多样化,如网络赌博、色情、网络诈骗、非法清算等,根据不同类型的网络违法犯罪网页内容的特性,需要预设不同的关键信息,预设取证的关键信息包括违法犯罪事实信息、用户操作信息和网络信息,关键信息的类型包括页面属性、文本、图片、音频和视频。
具体地,当需要取证网络赌博时,首先通过预设违法犯罪事实关键文本信息如‘幸运飞艇’取证违法犯罪事实网页截图;其次通过预设用户操作页面关键属性信息如用户充值操作,可以采用预设表单input属性name为‘create_order’取证用户在违法犯罪平台充值事实网页截图;进一步通过预设获取网络信息关键文字如‘操作日志’,从操作日志页面中取证用户登录的IP、端口及登录时间等相关的网络信息网页截图。
步骤S103,从原始的网站信息中识别出具有预设关键信息的网页。
在本实施例中,从原始的网站信息中识别出具有预设关键信息的网页,根据预设关键信息的差异采用不同的识别方式,识别具有预设关键信息网页的方式,包括:
(1)预设关键信息为页面属性时,采用正则匹配;
(2)预设关键信息为文本内容时,采用文本识别;
(3)预设关键信息为图片时,采用图像识别;
(4)预设关键信息为音频时,采用语音识别。
具体地,在S102欲取证网络赌博时,预设关键信息为文本类型的网络赌博犯罪事实关键信息;当原始网页中含有预设赌博犯罪事实关键文本信息时,调用文本识别算法如cherry分类,识别出赌博犯罪事实网页。同样当预设关键信息为文本类型网络信息;当原始网页中含有预设网络信息关键文本时,也通过调用文本识别算法识别出网页中包含用户登录的IP、端口及登录时间等网络信息。预设关键信息为页面属性类的用户操作信息;当原始网页中含有预设用户操作关键页面属性信息时,使用正则匹配方式匹配用户的操作。预设关键信息为图片类信息;当原始网页中含有预设违法图片特征信息时,采用图像识别来识别出违法犯罪图片。预设关键信息为音频类信息;当原始网页中含有预设违法音频特征信息时,使用语音识别来识别出违法犯罪语音信息。
步骤S104,保存所有匹配关键信息的网页截图。
在本实施例中,网页截图包括与违法活动有关的网页内容,并通过图片形式保存下来作为电子证物使用;网页截图前,需要获取流量中该网站所有资源,包括html(超文本标记语言)、图片、css(层叠样式表)、js(JavaScript),截图需要使用web自动化工具Selenium操作浏览器进行截屏。
具体地,在S101中还原的待取证网站原始信息有该网站所有资源,通过S103匹配出待取证原始网站中包含预设关键信息时,调用web自动化工具Selenium,再通过浏览器插件操作设置截图操作的属性,如浏览器后台自动运行、隐藏滚动条、设置页面大小等;最后调用截屏操作,把截取的图片保存下来作为电子证据。
与传统技术相比,本技术方案通过自动取证的方法,解决现有技术中被动取证的问题,同时,对一些需要登陆权限才可获取的网页犯罪证据也能实现快速取证,取证的方式简单,能适合应用于互联网上搜查更多的犯罪证据,起到了很好的网络监控效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种网页自动取证的方法,其特征在于,包括以下步骤:
步骤S101,捕获待取证网站流量,还原出待取证网站原始信息,其中,待取证网站流量为互联网数据流量,待取证网站为含违法犯罪事实信息网页的网站,通过镜像的网络流量还原待取证网页信息,还原出需要登录授权才可访问的违法网站内容信息;
步骤S102,预设取证关键信息,根据不同类型的网络违法犯罪网页内容的特性,需要预设不同的关键信息;
步骤S103,从原始的网站信息中识别出具有预设关键信息的网页,根据预设关键信息的差异采用不同的识别方式;
步骤S104,保存所有匹配关键信息的网页截图,网页截图包括与违法活动有关的网页内容,并通过图片形式保存下来作为电子证物使用。
2.根据权利要求1所述的一种网页自动取证的方法,其特征在于,在步骤S101中,捕获待取证网站流量为通过镜像互联网上的流量,可以为数据中心机房网络流量、城域网网络流量、电信运营商网络流量中任意一种。
3.根据权利要求1所述的一种网页自动取证的方法,其特征在于,在步骤S101中,还原出待取证网站原始信息的方式,包括:
(1)通过网络流量解码,网络会话跟踪,数据重组,再进行协议深度解析,最终还原出待取证网站原始信息;
(2)通过镜像网络流量还原的待取证网页信息,可以还原出需要登录授权才可访问的网站内容信息。
4.根据权利要求1所述的一种网页自动取证的方法,其特征在于,在步骤S102中,预设取证的关键信息包括违法犯罪事实信息、违法用户操作信息和网络信息,关键信息的类型包括页面属性、文本、图片、音频和视频。
5.根据权利要求1所述的一种网页自动取证的方法,其特征在于,在步骤S103中,识别具有预设关键信息网页的方式,包括:
(1)预设关键信息为页面属性时,采用正则匹配;
(2)预设关键信息为文本内容时,采用文本识别;
(3)预设关键信息为图片时,采用图像识别;
(4)预设关键信息为音频时,采用语音识别。
6.根据权利要求1所述的一种网页自动取证的方法,其特征在于,在步骤S104中,网页截图前,需要获取流量中该网站所有资源,包括html(超文本标记语言)、图片、css(层叠样式表)、js(JavaScript),截图需要使用web自动化工具Selenium操作浏览器进行截屏。
CN202110819971.9A 2021-07-20 2021-07-20 一种网页自动取证的方法 Pending CN113554023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110819971.9A CN113554023A (zh) 2021-07-20 2021-07-20 一种网页自动取证的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110819971.9A CN113554023A (zh) 2021-07-20 2021-07-20 一种网页自动取证的方法

Publications (1)

Publication Number Publication Date
CN113554023A true CN113554023A (zh) 2021-10-26

Family

ID=78103534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110819971.9A Pending CN113554023A (zh) 2021-07-20 2021-07-20 一种网页自动取证的方法

Country Status (1)

Country Link
CN (1) CN113554023A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120230540A1 (en) * 2011-03-08 2012-09-13 Bank Of America Corporation Dynamically indentifying individuals from a captured image
CN104021349A (zh) * 2014-04-03 2014-09-03 福建伊时代信息科技股份有限公司 网络证据事前保全方法及保全装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN108449319A (zh) * 2018-02-09 2018-08-24 秦玉海 一种识别诈骗网站及远程木马取证的方法及装置
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120230540A1 (en) * 2011-03-08 2012-09-13 Bank Of America Corporation Dynamically indentifying individuals from a captured image
CN104021349A (zh) * 2014-04-03 2014-09-03 福建伊时代信息科技股份有限公司 网络证据事前保全方法及保全装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN108449319A (zh) * 2018-02-09 2018-08-24 秦玉海 一种识别诈骗网站及远程木马取证的方法及装置
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法

Similar Documents

Publication Publication Date Title
CN113098870B (zh) 一种网络诈骗检测方法、装置、电子设备及存储介质
US8286248B1 (en) System and method of web application discovery via capture and analysis of HTTP requests for external resources
US8712043B2 (en) Secure provisioning of a portable device using a representation of a key
CN112468520B (zh) 一种数据检测方法、装置、设备及可读存储介质
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN109104456A (zh) 一种基于浏览器指纹的用户追踪与传播统计分析方法
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
US20140380477A1 (en) Methods and devices for identifying tampered webpage and inentifying hijacked web address
CN113407886A (zh) 网络犯罪平台识别方法、系统、设备和计算机存储介质
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN102065147A (zh) 一种基于企业应用系统获取用户登录信息的方法及装置
CN108337269B (zh) 一种WebShell检测方法
CN103401849A (zh) 一种网站日志异常会话分析方法
CN111404937B (zh) 一种服务器漏洞的检测方法和装置
CN114692049A (zh) 基于浏览器的录屏方法及装置、电子设备、存储介质
CN113038153A (zh) 金融直播违规检测方法、装置、设备及可读存储介质
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN113554023A (zh) 一种网页自动取证的方法
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN116450383A (zh) 一种通过网页调用操作系统的方法
CN113742631B (zh) 一种基于cdn的网站图片防盗链方法
CN113965408B (zh) 一种http报文的提取方法、装置、介质及设备
CN114265759A (zh) 一种数据信息泄露后的溯源方法、系统及电子设备
CN113824644A (zh) Https业务内容识别方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination