CN113554023A

CN113554023A - 一种网页自动取证的方法

Info

Publication number: CN113554023A
Application number: CN202110819971.9A
Authority: CN
Inventors: 李辉; 谭健铸; 郭伟
Original assignee: Guangzhou Digital Network Technology Co ltd
Current assignee: Guangzhou Digital Network Technology Co ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-26

Abstract

本发明公开了一种网页自动取证的方法，包括以下步骤：捕获待取证网站流量，还原出待取证网站原始信息；预设取证关键信息；从原始的网站信息中识别出具有预设关键信息的网页；保存所有匹配关键信息的网页截图。通过自动取证的方法，解决现有技术中被动取证的问题，同时，对一些需要登陆权限才可获取的网页犯罪证据也能实现快速取证，取证的方式简单，能适合应用于互联网上搜查更多的犯罪证据，起到了很好的网络监控效果。

Description

一种网页自动取证的方法

技术领域

本发明涉及互联网技术领域，具体为一种网页自动取证的方法。

背景技术

随着互联网技术的普及，传统的网下违法犯罪经过“互联网+”摇身变成网络犯罪形态并呈爆炸式发酵，分工精细的网络黑灰产业链随之而来，因此，越来越多违法犯罪证据以网页的形式存在。目前网页取证方法需要用户登录取证装置平台再由取证用户主动访问待取证网页来实现取证，无自动网页取证方式。

发明内容

为了克服现有技术方案的不足，本发明提供一种网页自动取证的方法，能有效的解决背景技术提出的问题。

本发明解决其技术问题所采用的技术方案是：

一种网页自动取证的方法，包括以下步骤：

步骤S101，捕获待取证网站流量，还原出待取证网站原始信息，其中，待取证网站流量为互联网数据流量，待取证网站为含违法犯罪事实信息网页的网站，通过镜像的网络流量还原待取证网页信息，还原出需要登录授权才可访问的违法网站内容信息；

步骤S102，预设取证关键信息，根据不同类型的网络违法犯罪网页内容的特性，需要预设不同的关键信息；

步骤S103，从原始的网站信息中识别出具有预设关键信息的网页，根据预设关键信息的差异采用不同的识别方式；

步骤S104，保存所有匹配关键信息的网页截图，网页截图包括与违法活动有关的网页内容，并通过图片形式保存下来作为电子证物使用。

进一步地，在步骤S101中，捕获待取证网站流量为通过镜像互联网上的流量，可以为数据中心机房网络流量、城域网网络流量、电信运营商网络流量中任意一种。

进一步地，在步骤S101中，还原出待取证网站原始信息的方式，包括：

（1）通过网络流量解码，网络会话跟踪，数据重组，再进行协议深度解析，最终还原出待取证网站原始信息；

（2）通过镜像网络流量还原的待取证网页信息，可以还原出需要登录授权才可访问的网站内容信息。

进一步地，在步骤S102中，预设取证的关键信息包括违法犯罪事实信息、违法用户操作信息和网络信息，关键信息的类型包括页面属性、文本、图片、音频和视频。

进一步地，在步骤S103中，识别具有预设关键信息网页的方式，包括：

（1）预设关键信息为页面属性时，采用正则匹配；

（2）预设关键信息为文本内容时，采用文本识别；

（3）预设关键信息为图片时，采用图像识别；

（4）预设关键信息为音频时，采用语音识别。

进一步地，在步骤S104中，网页截图前，需要获取流量中该网站所有资源，包括html（超文本标记语言）、图片、css（层叠样式表）、js（JavaScript），截图需要使用web自动化工具Selenium操作浏览器进行截屏。

与现有技术相比，本发明的有益效果是：

本发明通过自动取证的方法，解决现有技术中被动取证的问题，同时，对一些需要登陆权限才可获取的网页犯罪证据也能实现快速取证，取证的方式简单，能适合应用于互联网上搜查更多的犯罪证据，起到了很好的网络监控效果，实用性强。

附图说明

图1为本发明自动取证方法步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种网页自动取证的方法，包括以下步骤：

步骤S101，捕获待取证网站流量，还原出待取证网站原始信息。

在本实施例中，捕获待取证网站流量为通过镜像互联网上的流量，待取证网站流量为互联网数据流量，可以为数据中心机房网络流量、城域网网络流量、电信运营商网络流量中任意一种，待取证网站为含违法犯罪事实信息网页的网站，通过镜像的网络流量还原待取证网页信息，还原出需要登录授权才可访问的违法网站内容信息，如管理员登录认证授权成功后的管理后台网页内容。

具体地，通过捕获镜像IDC数据中心机房的网络流量进行解码、网络会话跟踪、数据重组，再对重组后的数据进行网络协议解析，对网站超文本传输协议http进行深度解析，最终还原出待取证网站原始信息，还原出待取证网站原始信息的方式，包括：

（2）通过镜像网络流量还原的待取证网页信息，可以还原出需要登录权限才可访问的网站内容信息。

步骤S102，预设取证关键信息。

在本实施例中，网络违法犯罪信息呈现多样化，如网络赌博、色情、网络诈骗、非法清算等，根据不同类型的网络违法犯罪网页内容的特性，需要预设不同的关键信息，预设取证的关键信息包括违法犯罪事实信息、用户操作信息和网络信息，关键信息的类型包括页面属性、文本、图片、音频和视频。

具体地，当需要取证网络赌博时，首先通过预设违法犯罪事实关键文本信息如‘幸运飞艇’取证违法犯罪事实网页截图；其次通过预设用户操作页面关键属性信息如用户充值操作，可以采用预设表单input属性name为‘create_order’取证用户在违法犯罪平台充值事实网页截图；进一步通过预设获取网络信息关键文字如‘操作日志’,从操作日志页面中取证用户登录的IP、端口及登录时间等相关的网络信息网页截图。

步骤S103，从原始的网站信息中识别出具有预设关键信息的网页。

在本实施例中，从原始的网站信息中识别出具有预设关键信息的网页，根据预设关键信息的差异采用不同的识别方式，识别具有预设关键信息网页的方式，包括：

（1）预设关键信息为页面属性时，采用正则匹配；

（2）预设关键信息为文本内容时，采用文本识别；

（3）预设关键信息为图片时，采用图像识别；

（4）预设关键信息为音频时，采用语音识别。

具体地，在S102欲取证网络赌博时，预设关键信息为文本类型的网络赌博犯罪事实关键信息；当原始网页中含有预设赌博犯罪事实关键文本信息时，调用文本识别算法如cherry分类，识别出赌博犯罪事实网页。同样当预设关键信息为文本类型网络信息；当原始网页中含有预设网络信息关键文本时，也通过调用文本识别算法识别出网页中包含用户登录的IP、端口及登录时间等网络信息。预设关键信息为页面属性类的用户操作信息；当原始网页中含有预设用户操作关键页面属性信息时，使用正则匹配方式匹配用户的操作。预设关键信息为图片类信息；当原始网页中含有预设违法图片特征信息时，采用图像识别来识别出违法犯罪图片。预设关键信息为音频类信息；当原始网页中含有预设违法音频特征信息时，使用语音识别来识别出违法犯罪语音信息。

步骤S104，保存所有匹配关键信息的网页截图。

在本实施例中，网页截图包括与违法活动有关的网页内容，并通过图片形式保存下来作为电子证物使用；网页截图前，需要获取流量中该网站所有资源，包括html（超文本标记语言）、图片、css（层叠样式表）、js（JavaScript），截图需要使用web自动化工具Selenium操作浏览器进行截屏。

具体地，在S101中还原的待取证网站原始信息有该网站所有资源，通过S103匹配出待取证原始网站中包含预设关键信息时，调用web自动化工具Selenium，再通过浏览器插件操作设置截图操作的属性，如浏览器后台自动运行、隐藏滚动条、设置页面大小等；最后调用截屏操作，把截取的图片保存下来作为电子证据。

与传统技术相比，本技术方案通过自动取证的方法，解决现有技术中被动取证的问题，同时，对一些需要登陆权限才可获取的网页犯罪证据也能实现快速取证，取证的方式简单，能适合应用于互联网上搜查更多的犯罪证据，起到了很好的网络监控效果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种网页自动取证的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种网页自动取证的方法，其特征在于，在步骤S101中，捕获待取证网站流量为通过镜像互联网上的流量，可以为数据中心机房网络流量、城域网网络流量、电信运营商网络流量中任意一种。

3.根据权利要求1所述的一种网页自动取证的方法，其特征在于，在步骤S101中，还原出待取证网站原始信息的方式，包括：

(1)通过网络流量解码，网络会话跟踪，数据重组，再进行协议深度解析，最终还原出待取证网站原始信息；

(2)通过镜像网络流量还原的待取证网页信息，可以还原出需要登录授权才可访问的网站内容信息。

4.根据权利要求1所述的一种网页自动取证的方法，其特征在于，在步骤S102中，预设取证的关键信息包括违法犯罪事实信息、违法用户操作信息和网络信息，关键信息的类型包括页面属性、文本、图片、音频和视频。

5.根据权利要求1所述的一种网页自动取证的方法，其特征在于，在步骤S103中，识别具有预设关键信息网页的方式，包括：

(1)预设关键信息为页面属性时，采用正则匹配；

(2)预设关键信息为文本内容时，采用文本识别；

(3)预设关键信息为图片时，采用图像识别；

(4)预设关键信息为音频时，采用语音识别。

6.根据权利要求1所述的一种网页自动取证的方法，其特征在于，在步骤S104中，网页截图前，需要获取流量中该网站所有资源，包括html(超文本标记语言)、图片、css(层叠样式表)、js(JavaScript)，截图需要使用web自动化工具Selenium操作浏览器进行截屏。