CN111797355A - 基于定制浏览器的网页固定存证方法 - Google Patents

基于定制浏览器的网页固定存证方法 Download PDF

Info

Publication number
CN111797355A
CN111797355A CN202010638755.XA CN202010638755A CN111797355A CN 111797355 A CN111797355 A CN 111797355A CN 202010638755 A CN202010638755 A CN 202010638755A CN 111797355 A CN111797355 A CN 111797355A
Authority
CN
China
Prior art keywords
webpage
evidence
browser
customized browser
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010638755.XA
Other languages
English (en)
Inventor
陆道宏
陆琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Honglian Network Technology Co ltd
Original Assignee
Shanghai Honglian Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Honglian Network Technology Co ltd filed Critical Shanghai Honglian Network Technology Co ltd
Priority to CN202010638755.XA priority Critical patent/CN111797355A/zh
Publication of CN111797355A publication Critical patent/CN111797355A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开基于定制浏览器的网页固定存证方法,主要通过以下步骤来实现:S1发起存证请求:所述定制浏览器提供插件模块,用户对当前浏览页面进行固定和存证请求;S2存证环境监测:定制浏览器检测系统及网络环境,无异常则正常执行,若发现异常则中断存证任务并告警;S3网页数据固定:定制浏览器保存网页文件及交互数据,并对当前网页完整页面进行截图;S4数据校验同步:定制浏览器对网页存证文件计算完整性校验值,并上传同步至电子数据存证平台。本发明通过增加网络环境监测、添加网页提取内容、记录网络交互数据等方式,提高了存证网页的可用性,杜绝了网页篡改、数据包伪造等行为对于网页存证结果的真实性影响。

Description

基于定制浏览器的网页固定存证方法
技术领域
本发明涉及取证分析技术领域,尤其是适用于特定数据处理设备的基于定制浏览器的网页固定存证方法。
背景技术
两高一部《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》(法发〔2016〕22号)中明确规定,网页、博客、微博客、朋友圈、贴吧、网盘等网络平台发布的信息属于电子数据。最高人民法院《关于民事诉讼证据的若干规定》(法释〔2019〕19号)中明确了网页、博客、微博客等网络平台发布的信息属于电子数据。随着人们法律意识的不断提高,随着电子数据在司法领域的应用不断深化,电子数据的保全,尤其是网络平台发布信息的固定和存证,在网络监管执法、知识产权保护、广告治理、网购纠纷、负面谣言等不同场景得到了充分的应用。
对于网页固定和存证,传统方法的流程是:首先,提交网页的统一资源定位符;然后,对该网页进行截图保存;最后生成完整性校验值,随同截图证据一同保存。利用此方法对网页进行固定和存证,有两个问题:一是网页本身属于易灭失证据,可能因为网页内容调整、账号权限变更、网络环境改变等造成无法复现,单张截图本身无法作为电子证据承载足够的信息量;二是网页是可以伪造和仿冒的,没有完整的交互过程记录和验证,无法保证存证数据的可信程度,容易被污染甚至被用于不法目的。
发明内容
为了解决上述技术问题,本发明提供一种基于定制浏览器的网页固定存证方法,解决了传统网页固定方式只截取页面图片不能提取网页内容交互过程的问题,同时通过多项技术措施解决了保存的网页容易被仿冒和篡改的问题。
本发明解决其技术问题所采取的技术方案是:
基于定制浏览器的网页固定存证方法,主要通过以下步骤来实现:
S1发起存证请求
根据所述定制浏览器提供插件模块,对用户对当前所使用浏览页面进行固定和存证请求;
S2存证环境监测
定制浏览器检测系统及网络环境,无异常则正常执行,若发现异常则中断存证任务并告警;
S3网页数据固定
定制浏览器保存网页文件及交互数据,并对当前网页完整页面进行截图;
S4数据校验同步
定制浏览器对网页存证文件计算完整性校验值,并上传同步至电子数据存证平台。
其中步骤S2具体包括如下子步骤:
S21定制浏览器自检,检查定制浏览器完整性;
S22系统信息提取,获取系统信息保证存证需求的真实性;
S23网络设置检测,记录系统网络软硬件设置;
S24可信时间戳获取,保障存证时间节点的真实可靠;
S25网页缓存清理,避免缓存对网页加载产生影响;
S26代理服务器设置,针对某些需要局域网取证或网络加速的场景;
S27路由服务检查,防止DNS欺骗、ARP攻击等手段对存证结果产生影响,降低网页被篡改风险。
本发明的有益效果是,
通过增加网络环境监测、添加网页提取内容、记录网络交互数据等方式,提高了存证网页的可用性,杜绝了网页篡改、数据包伪造等行为对于网页存证结果的真实性影响。
附图说明
图1为本发明定制浏览器网页存证过程总流程图。
图2为本发明定制浏览器存证环境监测流程图。
图3为本发明定制浏览器路由服务器检查流程图。
图4为本发明定制浏览器网页固定存证系统组成框图。
具体实施方式
下面结合附图对本发明进行进一步说明。
本发明使用浏览器客户端进行网页的固定和存证,如图1所示,具体实施方式通过如下四个步骤来实现:
S1发起存证请求
用户打开定制浏览器,在浏览器工具栏提供存证插件,存证插件提供登陆跳转功能,需用户凭借电子数据存证平台账号登陆后方可使用。存证插件登陆完成后,用户正常浏览网页,当发现需要存证的网页时,通过点击存证插件中的控件按钮就可以对当前网页进行固定并存证。
S2存证环境监测
定制存证浏览器接收到存证请求后,根据规则生成唯一序列号,并在本地以序列号为名称建立缓存文件夹,存放存证过程中产生的数据。如图二所示,存证环境监测包含以下步骤:
S21定制浏览器自检
定制浏览器自动联网检查,通过核心文件比对确认浏览器存证插件是否损坏S211,通过本地软件版本与服务发布的最新软件版本号校验确认是否需要更新版本S212。
S22系统信息提取
定制浏览器调用系统接口获取操作系统信息、系统登陆用户名、系统时间等,并保存于缓存文件夹中,其中用户名只保留第一个和最后一个字符,中间字符以*代替。
S23网络设置检测
S231硬件信息获取
定制浏览器读取系统中的网络适配器(包括有线网卡、无线网卡、虚拟网卡)的名称、描述、驱动版本、媒体状态(是否连接)、活动状态(是否启用)、物理地址(Mac地址);
S232TCP/IP设置
定制浏览器读取TCP/IP设置,包括IP设置、网关设置、DNS设置、WINS设置、NETBIOS设置、是否启用IPv6;
S233活动连接状态
定制浏览器读取当前所有活动连接状态,包括网络协议、本地地址及端口、外部地址及端口、状态、PID等。
S24可信时间戳获取
定制浏览器通过接口获取国家授时中心(ntp.ntsc.ac.cn)或其他第三方授时中心的实时数据,准确记录当前北京时间。
S25网页缓存清理
清理定制浏览器中缓存的网页文字、图片、Cookie等数据。
S26代理服务器设置
检查定制浏览器使用的代理服务器IP、协议和端口,对代理服务器进行网络通信测试,如果不能进行网络通信,浏览器及时告警提醒用户。
S27路由服务检查
为了最大程度降低网页数据被篡改的可能,需要对网络路由服务进行详细的检查,如图三,包括以下几个子步骤:
S271清除系统和浏览器DNS缓存;
S272获取系统Hosts文件,检查每条host记录,确认是否有与所需保存的网页相关的URL;
S273使用arp命令查看系统中缓存的arp信息;
S274使用ping命令连接目标网页url或域名,获取解析的IP地址并记录;
S275使用nslookup命令连接目标网页url或域名,获取DNS服务器地址和解析的IP地址;
S276使用traceroute命令连接目标网页url或域名,比对解析IP地址是否一致,并且记录每跳的路由地址;
S277比对通过ping、nslookup和traceroute获取的目标IP地址,一致的记录后继续执行,不一致的告警提示。由于存在CDN等因素的可能,因此告警后由客户选择是否继续进行存证,如果继续存证,需要分别记录不同的IP解析结果,并于显著位置展示不同。
S3网页数据固定
对网页数据进行保全,分为三个步骤:交互数据记录、网站数据固定、网页截屏保存。
S31交互过程记录
这里主要指的是应用层数据的记录,值得注意的是,也可以在网络层通过数据包分析技术进行完整记录,考虑到实现和开销,本实例使用应用层记录模式。包括以下几个子步骤:
S311记录请求应答过程,包括TCP三次握手数据(SYN/ACK)、web服务器请求(GET/POST)、web服务器应答(HTTP头信息、HTTP体信息);
S312解析HTML标记并构建DOM Tree;
S313处理CSS内容并构建CSS Rule Tree;
S314调用脚本执行引擎执行JS代码;
S315根据DOM Tree和CSS Rule Tree生成Render Tree;
S316根据Render Tree渲染网页;
S317下载静态资源;
S318再次渲染完成页面加载。
S32网站数据固定
完整保存网页的HTML头信息和体信息、资源文件(脚本、图片、视频等)、Localstorage、SessionStorage、CacheStorage、Cookie以及IndexedDB、WebSQL等数据到本地。
S33网页截屏保存,利用网页智能适配技术,自动计算网页截图的宽度(像素),避免截屏产生大量空白区域,随后利用模拟点击技术不断对页面进行下拉,完整获取整个页面内容,如果网页可以无限下拉(如Twitter网页等),则默认截取前100页内容,最后利用页面渲染技术和图像压缩技术,将网页保存为本地图片。
S4数据校验并同步
如图四所示,对获取数据进行计算机完整性校验值,使用MD5和SHA256对所有保存文件计算Hash值,并将所有数据连同hash校验结果上传同步至电子数据存证平台账号下。
具体地,计算本地缓存文件夹中文件的hash值,生成校验记录文件。随后将整个缓存文件夹打包成压缩文件,通过定制浏览器与电子数据存证平台的数据同步接口,将压缩文件保存到电子数据存证平台,同时将本地存证任务基本信息和执行状态同步到服务器。
电子数据存证平台将所接收到的数据保存在相应用户目录下,随后对压缩文件进行解压,读取任务信息、截屏文件、网站数据、交互过程、环境参数等,录入到证据存储模块中,并提供相应页面进行证据详情的查看(出证展示模块)。录入完成后,更新存证任务记录,并将任务状态同步到定制浏览器。
定制浏览器接收到存证平台的状态同步信息,记录在本地任务管理模块中,并通过浏览器工具栏的存证插件功能向用户展示本地任务信息。
用户可以通过存证插件跳转到存证平台查看网页存证结果,也可以通过电子数据存证平台的web页面,登陆后查看相关网页存证的出证展示。
下面详细介绍本发明中使用的定制浏览器,如下:
本发明采用基于Chromium内核的网镜浏览器,该定制浏览器提供了一种插件(Extension)机制,用来增强浏览器功能,实现存证的目的。可以将存证插件看作是一种运行在Chromium中的应用,开发语言是JavaScript,并且UI通过HTML描述。通过使用Chromium提供的API,Extension可以访问网络,修改浏览器行为,操作和固定网页的内容等。 定制(网镜)浏览器的存证插件是由Extension Page和Content Script构成的,并且包含有一个清单文件manifest.json。定制浏览器在启动时,会创建一个启动任务。这个启动任务会初始化一个扩展服务,扩展服务在初始化的过程中,会通过一个安装加载进程加载当前用户安装的所有设置为Enabled的扩展插件。这些扩展插件形成一个列表,保存在一个插件列表中。以后通过这个插件列表,就可以获得当前启用的所有插件的信息,包括存证插件信息。定制浏览器进程初始化好浏览器窗口之后,会发送一个OnBrowserWindowReady通知。这个通知会触发浏览器进程创建一个插件宿主对象。这个插件宿主对象又会通过WebContents类的静态成员函数创建加载指定的背景页。WebContents类是定制浏览器的Content层向外提供的一个API。通过这个API,就可以使用定制浏览器来加载一个指定的网页了。
在本申请的描述中,尽管在方法权利要求中以一定顺序列出了各个步骤,但是这些步骤并不一定以所列出的步骤来执行,相反在不背离本发明的精神和主旨的情况下可以以相反或并行的方式执行。措词‘包括’并不排除在权利要求未列出的元件或步骤的存在。在相互不同从属权利要求中记载某些措施的简单事实不表明这些措施的组合不能被用于改进。在权利要求中的任何参考符号不应当被解释为限制范围。

Claims (2)

1.基于定制浏览器的网页固定存证方法,其特征是:主要通过以下步骤来实现:
S1发起存证请求
根据所述定制浏览器提供插件模块,对用户对当前所使用浏览页面进行固定和存证请求;
S2存证环境监测
定制浏览器检测系统及网络环境,无异常则正常执行,若发现异常则中断存证任务并告警;
S3网页数据固定
定制浏览器保存网页文件及交互数据,并对当前网页完整页面进行截图;
S4数据校验同步
定制浏览器对网页存证文件计算完整性校验值,并上传同步至电子数据存证平台。
2.根据权利要求1所述的基于定制浏览器的网页固定存证方法,其特征是:其中步骤S2具体包括如下步骤:其中步骤
S21定制浏览器自检,检查定制浏览器完整性;
S22系统信息提取,获取系统信息保证存证需求的真实性;
S23网络设置检测,记录系统网络软硬件设置;
S24可信时间戳获取,保障存证时间节点的真实可靠;
S25网页缓存清理,避免缓存对网页加载产生影响;
S26代理服务器设置,针对某些需要局域网取证或网络加速的场景;
S27路由服务检查,防止DNS欺骗、ARP攻击等手段对存证结果产生影响,降低网页被篡改风险。
CN202010638755.XA 2020-07-06 2020-07-06 基于定制浏览器的网页固定存证方法 Withdrawn CN111797355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010638755.XA CN111797355A (zh) 2020-07-06 2020-07-06 基于定制浏览器的网页固定存证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010638755.XA CN111797355A (zh) 2020-07-06 2020-07-06 基于定制浏览器的网页固定存证方法

Publications (1)

Publication Number Publication Date
CN111797355A true CN111797355A (zh) 2020-10-20

Family

ID=72810245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010638755.XA Withdrawn CN111797355A (zh) 2020-07-06 2020-07-06 基于定制浏览器的网页固定存证方法

Country Status (1)

Country Link
CN (1) CN111797355A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951130A (zh) * 2020-08-19 2020-11-17 重庆市合川区公安局 一种电子设备的数据取证分析方法及系统
CN113032655A (zh) * 2021-04-14 2021-06-25 中国刑事警察学院 一种暗网电子数据提取固定方法
CN115758013A (zh) * 2023-01-10 2023-03-07 广东星神科技有限公司 智能化可视办公方法及装置
CN117494116A (zh) * 2023-11-15 2024-02-02 上海弘连网络科技有限公司 辅助取证方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951130A (zh) * 2020-08-19 2020-11-17 重庆市合川区公安局 一种电子设备的数据取证分析方法及系统
CN113032655A (zh) * 2021-04-14 2021-06-25 中国刑事警察学院 一种暗网电子数据提取固定方法
CN115758013A (zh) * 2023-01-10 2023-03-07 广东星神科技有限公司 智能化可视办公方法及装置
CN117494116A (zh) * 2023-11-15 2024-02-02 上海弘连网络科技有限公司 辅助取证方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US20200195688A1 (en) Systems And Methods For Takedown Of Counterfeit Websites
CN111797355A (zh) 基于定制浏览器的网页固定存证方法
US20210058354A1 (en) Determining Authenticity of Reported User Action in Cybersecurity Risk Assessment
CN104486140B (zh) 一种检测网页被劫持的装置及其检测方法
US9680850B2 (en) Identifying bots
Burnett et al. Encore: Lightweight measurement of web censorship with cross-origin requests
US20180212972A1 (en) Online Privacy Management System with Enhanced Automatic Information Detection
US8560669B2 (en) Tracking identifier synchronization
CN112468360A (zh) 一种基于指纹的资产发现识别和检测方法及系统
US20220188402A1 (en) Real-Time Detection and Blocking of Counterfeit Websites
CN112468520B (zh) 一种数据检测方法、装置、设备及可读存储介质
CN105933268A (zh) 一种基于全量访问日志分析的网站后门检测方法及装置
CN107209831B (zh) 用于识别网络攻击的系统和方法
CA2823530A1 (en) Online privacy management
CN107800686B (zh) 一种钓鱼网站识别方法和装置
CN112822147B (zh) 一种用于分析攻击链的方法、系统及设备
CN108667770A (zh) 一种网站的漏洞测试方法、服务器及系统
Kaur et al. Browser fingerprinting as user tracking technology
Dabrowski et al. Browser history stealing with captive Wi-Fi portals
CN113469866A (zh) 数据处理方法、装置和服务器
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN113079157A (zh) 获取网络攻击者位置的方法、装置、电子设备
Noskov Smart City Webgis Applications: Proof of Work Concept For High-Level Quality-Of-Service Assurance
Wahlberg et al. Kepler--Raising Browser Security Awareness
CN118114309A (zh) 一种保障网页取证真实性的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201020

WW01 Invention patent application withdrawn after publication