CN114817798A - 一种网站监控方法、装置、存储介质及电子设备 - Google Patents

一种网站监控方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114817798A
CN114817798A CN202110121746.8A CN202110121746A CN114817798A CN 114817798 A CN114817798 A CN 114817798A CN 202110121746 A CN202110121746 A CN 202110121746A CN 114817798 A CN114817798 A CN 114817798A
Authority
CN
China
Prior art keywords
picture information
crawler
database
hash value
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110121746.8A
Other languages
English (en)
Inventor
李元超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wenyue Information Technology Co ltd
Original Assignee
Shanghai Wenyue Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wenyue Information Technology Co ltd filed Critical Shanghai Wenyue Information Technology Co ltd
Priority to CN202110121746.8A priority Critical patent/CN114817798A/zh
Publication of CN114817798A publication Critical patent/CN114817798A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Abstract

本发明提供一种网站监控方法、装置、存储介质及电子设备,方法包括以下步骤:步骤1,建立文字信息对比数据库和图片信息对比数据库;步骤2,建立图片信息对比哈希值数据库;步骤3,通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;步骤4,将爬虫文字信息与文字信息对比数据库中的数据进行对比,将爬虫图片信息的哈希值与图片信息对比哈希值数据库中的数据进行对比,如果不相同,则确定当前网站被篡改。本发明使用网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息,将爬虫文字信息跟原始文字信息对比,将爬虫图片信息跟原始图片信息对比,能及时得知当前网站是否被篡改,从很大程度上减少了审核员的工作强度。

Description

一种网站监控方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种网站监控方法、装置、存储介质及电子设备。
背景技术
在现有的网站监控技术中,审核员不断对网站的网站内容进行审核,继而在网站的网站内容被篡改时能够及时发现并采取相应的措施,然而,该过程必然会增加审核员的工作量。同时,审核员难免会出现审核疲劳或者疏忽等情况,若审核员由于疏忽或者审核疲劳而导致某个网站被篡改后而未被及时发现,则会导致比较严重的后果。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种网站监控方法、装置、存储介质及电子设备,用于解决现有技术中审核员由于疏忽或者审核疲劳导致网站内容被篡改后不能被及时发现的问题。
为解决上述技术问题,本发明是按如下方式实现的:一种网站监控方法,所述方法包括以下步骤:
步骤1,建立文字信息对比数据库,所述文字信息对比数据库存储有原始网站文字信息数据库中的文字信息;建立图片信息对比数据库,所述图片信息对比数据库存储有原始图片信息数据库中的图片信息;
步骤2,建立图片信息对比哈希值数据库,计算所述图片信息对比数据库中的图片信息的哈希值,并存储入所述图片信息对比哈希值数据库中;
步骤3,通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;
步骤4,将所述爬虫文字信息与所述文字信息对比数据库中的数据进行对比,如果不相同,则确定当前网站被篡改;
步骤5,计算所述爬虫图片信息的哈希值,将所述爬虫图片信息的哈希值与所述图片信息对比哈希值数据库中的数据进行对比,如果不相同,则确定当前网站被篡改。
进一步地,所述步骤2中,计算所述图片信息对比数据库中的图片信息的哈希值包括以下步骤:
步骤2.1,将每个图片进行离散余弦变换,获取对应的离散余弦矩阵;
步骤2.2,计算离散余弦矩阵的平均值;
步骤2.3,将离散余弦矩阵中的值与该矩阵的平均值进行对比,如果大于平均值则设置1,如果小于平均值侧设置0,形成图片信息的哈希值。
进一步地,所述步骤5中,计算所述爬虫图片信息的哈希值与所述步骤2中计算所述图片信息对比数据库中的图片信息的哈希值的步骤相同。
进一步地,所述步骤3中,包括每隔一小时进行网络爬虫。
进一步地,所述步骤4中,还包括根据网站中html的标签来确定所述爬虫文字信息在所述文字信息对比数据库中的对应字段。
进一步地,本发明还提供一种网站监控装置,包括:
数据建立模块,用于建立文字信息对比数据库、图片信息对比数据库、图片信息对比哈希值数据库;
计算模块,用于计算图片信息对比数据库中的图片信息的哈希值和爬虫图片信息的哈希值;
网络爬虫模块,用于通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;
对比判断模块,用于将爬虫文字信息与文字信息对比数据库中的数据进行对比,将爬虫图片信息的哈希值与图片信息对比哈希值数据库中的数据进行对比,判断网站是否被篡改。
进一步地,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的一种网站监控方法的步骤。
进一步地,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种网站监控方法的步骤。
如上所述,本发明的一种网站监控方法、装置、存储介质及电子设备,通过巧妙的设计,使用网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息,将爬虫文字信息跟原始文字信息对比,将爬虫图片信息跟原始图片信息对比,能及时得知当前网站是否被篡改,从很大程度上减少了审核员的工作强度。
附图说明
图1显示为本发明实施例中一种网站监控方法的流程图;
图2显示为本发明实施例中一种网站监控方法的计算图片信息的哈希值的流程图;
图3显示为本发明实施例中一种网站监控方法的应用场景的示意图;
图4显示为本发明实施例中一种网站监控方法的信息交互示意图;
图5显示为本发明实施例中一种网站监控装置的结构示意图;
图6显示为本发明实施例中一种电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1至图6,本发明提供一种网站监控方法,方法包括以下步骤:
步骤1,建立文字信息对比数据库,文字信息对比数据库存储有原始文字信息数据库中的文字信息。当维护升级更新时,原始文字信息数据库进行更新的同时,文字信息对比数据库也同时更新,确保文字信息对比数据库在最新状态。
建立图片信息对比数据库,图片信息对比数据库存储有原始图片信息数据库中的图片信息。当维护升级更新时,原始图片信息数据库进行更新的同时,图片信息对比数据库也同时更新,确保图片信息对比数据库在最新状态。
步骤2,建立图片信息对比哈希值数据库,计算图片信息对比数据库中的图片信息的哈希值,并存储入图片信息对比哈希值数据库中。计算图片信息对比数据库中的图片信息的哈希值包括以下步骤:
步骤2.1,将每个图片进行离散余弦变换,获取对应的离散余弦矩阵。离散余弦变换是常用的图像处理,在此将不再详述。
步骤2.2,计算离散余弦矩阵的平均值;
步骤2.3,将离散余弦矩阵中的值与该矩阵的平均值进行对比,如果大于平均值则设置1,如果小于平均值侧设置0,形成图片信息的哈希值。
步骤3,每隔一小时进行网络爬虫,通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;
步骤4,根据网站中html的标签来确定爬虫文字信息在文字信息对比数据库中的对应字段,例如HTML中的标签:html、head、title、meta、body、h1、h2、div、label、span等等。将爬虫文字信息与文字信息对比数据库中的数据进行对比,如果不相同,则确定当前网站被篡改。
步骤5,计算爬虫图片信息的哈希值,这里的计算步骤和步骤2中计算图片信息对比数据库中的图片信息的哈希值的步骤相同。将爬虫图片信息的哈希值与图片信息对比哈希值数据库中的数据进行对比,如果不相同,则确定当前网站被篡改。
在应用场景中,用户在用户终端的浏览器上输入网站地址或点击网站链接后,浏览器根据与网站地址或网站链接对应的URL解析出的IP地址,向服务器发送请求。用户终端可包括但不限于具有显示单元的以下任意设备:个人计算机、移动手机、平板电脑、等。服务器在接收到请求后进行处理,随后用户终端接收从服务器返回的信息,并显示页面。在示例性实施例中,网站监控装置可在浏览器显示页面的同时,对网站进行监控,从而确定网站是否被篡改。
本发明还提供一种网站监控装置,包括:
数据建立模块,用于建立文字信息对比数据库、图片信息对比数据库、图片信息对比哈希值数据库;
计算模块,用于计算图片信息对比数据库中的图片信息的哈希值和爬虫图片信息的哈希值;
网络爬虫模块,用于通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;
对比判断模块,用于将爬虫文字信息与文字信息对比数据库中的数据进行对比,将爬虫图片信息的哈希值与图片信息对比哈希值数据库中的数据进行对比,判断网站是否被篡改。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述一种网站监控方法的步骤。计算机可读介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部,便携式计算机盘盒,随机存取存储器,只读存储器,可擦除可编辑只读存储器,光纤装置,以及便携式光盘只读存储器。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中存储器和处理器之间可以通过总线连接,处理器用于执行存储器中存储的计算机程序时实现如上实施例中一种网站监控方法的步骤。
综上所述,本发明的一种网站监控方法、装置、存储介质及电子设备,通过巧妙的设计,使用网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息,将爬虫文字信息跟原始文字信息对比,将爬虫图片信息跟原始图片信息对比,能及时得知当前网站是否被篡改,从很大程度上减少了审核员的工作强度。所以,本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种网站监控方法,其特征在于:所述方法包括以下步骤:
步骤1,建立文字信息对比数据库,所述文字信息对比数据库存储有原始文字信息数据库中的文字信息;建立图片信息对比数据库,所述图片信息对比数据库存储有原始图片信息数据库中的图片信息;
步骤2,建立图片信息对比哈希值数据库,计算所述图片信息对比数据库中的图片信息的哈希值,并存储入所述图片信息对比哈希值数据库中;
步骤3,通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;
步骤4,将所述爬虫文字信息与所述文字信息对比数据库中的数据进行对比,如果不相同,则确定当前网站被篡改;
步骤5,计算所述爬虫图片信息的哈希值,将所述爬虫图片信息的哈希值与所述图片信息对比哈希值数据库中的数据进行对比,如果不相同,则确定当前网站被篡改。
2.根据权利要求1所述的一种网站监控方法,其特征在于:所述步骤2中,计算所述图片信息对比数据库中的图片信息的哈希值包括以下步骤:
步骤2.1,将每个图片进行离散余弦变换,获取对应的离散余弦矩阵;
步骤2.2,计算离散余弦矩阵的平均值;
步骤2.3,将离散余弦矩阵中的值与该矩阵的平均值进行对比,如果大于平均值则设置1,如果小于平均值侧设置0,形成图片信息的哈希值。
3.根据权利要求2所述的一种网站监控方法,其特征在于:所述步骤5中,计算所述爬虫图片信息的哈希值与所述步骤2中计算所述图片信息对比数据库中的图片信息的哈希值的步骤相同。
4.根据权利要求1所述的一种网站监控方法,其特征在于:所述步骤3中,包括每隔一小时进行网络爬虫。
5.根据权利要求1所述的一种网站监控方法,其特征在于:所述步骤4中,还包括根据网站中html的标签来确定所述爬虫文字信息在所述文字信息对比数据库中的对应字段。
6.一种网站监控装置,其特征在于:包括:
数据建立模块,用于建立文字信息对比数据库、图片信息对比数据库、图片信息对比哈希值数据库;
计算模块,用于计算图片信息对比数据库中的图片信息的哈希值和爬虫图片信息的哈希值;
网络爬虫模块,用于通过网络爬虫获取当前网站的爬虫文字信息和爬虫图片信息;
对比判断模块,用于将爬虫文字信息与文字信息对比数据库中的数据进行对比,将爬虫图片信息的哈希值与图片信息对比哈希值数据库中的数据进行对比,判断网站是否被篡改。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5任一项所述的一种网站监控方法的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种网站监控方法的步骤。
CN202110121746.8A 2021-01-28 2021-01-28 一种网站监控方法、装置、存储介质及电子设备 Pending CN114817798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121746.8A CN114817798A (zh) 2021-01-28 2021-01-28 一种网站监控方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121746.8A CN114817798A (zh) 2021-01-28 2021-01-28 一种网站监控方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114817798A true CN114817798A (zh) 2022-07-29

Family

ID=82525791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121746.8A Pending CN114817798A (zh) 2021-01-28 2021-01-28 一种网站监控方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114817798A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115796145A (zh) * 2022-11-16 2023-03-14 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、系统、服务器及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115796145A (zh) * 2022-11-16 2023-03-14 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、系统、服务器及可读存储介质
CN115796145B (zh) * 2022-11-16 2023-09-08 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、系统、服务器及可读存储介质

Similar Documents

Publication Publication Date Title
CN110674432B (zh) 二级缓存方法、装置及计算机可读存储介质
CN106294658B (zh) 网页快速展示方法和装置
CN106250454B (zh) 一种页面脚本的加载方法及装置
CN107038194B (zh) 一种页面跳转方法和装置
CN108874559A (zh) 电子装置、分布式系统业务链路分析方法及存储介质
CN105100119A (zh) 网址的检测方法及装置
CN104113567A (zh) 内容分发网络的数据处理方法、装置及系统
CN115757495A (zh) 缓存数据处理方法、装置、计算机设备及存储介质
CN112580315A (zh) 一种网页表格的显示方法、装置、终端设备及介质
CN112650905A (zh) 基于标签的反爬虫方法、装置、计算机设备及存储介质
CN115455058A (zh) 缓存数据的处理方法、装置、计算机设备及存储介质
CN114817798A (zh) 一种网站监控方法、装置、存储介质及电子设备
US20150106689A1 (en) Web server system, web server and web provding method
CN106156291A (zh) 基于Localstroage的静态资源的缓存方法及其系统
CN107329981B (zh) 页面检测的方法和装置
US20120173974A1 (en) Socialized help for computing applications
CN111046316B (zh) 一种应用上架状态监控方法、智能终端及存储介质
US9648381B2 (en) Method and system for managing display of web-based content on portable communication devices
CN115687826A (zh) 页面刷新方法、装置、计算机设备及存储介质
CN114330240A (zh) Pdf文档解析方法、装置、计算机设备及存储介质
CN114047999A (zh) 页面配置的方法、系统、电子设备和存储介质
CN114611046A (zh) 数据加载方法、装置、设备及介质
CN111968727A (zh) 影像数据显示方法、装置、计算机设备和存储介质
US20140067805A1 (en) Cloud-based information exchange using identifiers such as QR codes
CN110765377B (zh) 一种数据加载方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination