CN112765601A - 基于云端的网站首页结构监测方法 - Google Patents
基于云端的网站首页结构监测方法 Download PDFInfo
- Publication number
- CN112765601A CN112765601A CN202110059739.XA CN202110059739A CN112765601A CN 112765601 A CN112765601 A CN 112765601A CN 202110059739 A CN202110059739 A CN 202110059739A CN 112765601 A CN112765601 A CN 112765601A
- Authority
- CN
- China
- Prior art keywords
- home page
- website
- label
- similarity
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2119—Authenticating web pages, e.g. with suspicious links
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于云端的网站首页结构监测方法,S1、添加域名:确定要监测的网站和网站域名;S2、进行采集:间隔预设的时间访问一次S1中的网站首页;S3、进行保存:首页网页源代码中的文字、IMG标签的src属性、A标签的href属性、<SCRIPT>标签中的src属性过滤掉只保留标签;S4、进行计算:检查S3样本采集记录中是否存在当前网站首页的记录;S5、进行判断:通过计算相似度。本发明完善了网站监测的检测指标,提高监测的时效性,当网站首页发生形变或篡改时,快速通知网站管理员,快速发现问题,解决问题,同时,提升网站使用者的用户体验和网站的权威性,节约人工监测的成本。
Description
技术领域
本发明涉及网站监测技术领域,尤其涉及基于云端的网站首页结构监测方法。
背景技术
网站监测系统一般都会采用爬虫技术,爬取网站信息,判断网站首页是否能访问,首页内容的更新时间是否及时,首页上的链接是否可用,首页内容是否包含敏感信息。如果检测到上述项内容时给网站管理员发送消息进行预警,现有的网站监测系统只能监测首页面是否能连通,首页内容是否更新及时,首页上的链接是否可用,以及首页是否包含敏感信息等。无法监测首页是否发生形变,是否被篡改。出现类似问题时,只能通过人工发现,缺乏时效性,现有监测系统不能完全满足网站监测的真实需求。
同时,对页面是否发生形变,页面是否被篡改则无法感知和监测。当页面发生形变或被篡改时,现有的网站监测系统监测不到,只有人工访问网站的时候才能发现。对政府、高校、企业来说页面的连通性和内容安全只是最基本的保障,页面的有效可用才是最关键的,要保证为网友提供持续服务和良好的用户体验。因此,如何提供一种基于云端的网站首页结构监测方法是本领域技术人员亟需解决的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出基于云端的网站首页结构监测方法,本发明完善了网站监测的检测指标,提高监测的时效性,当网站首页发生形变或篡改时,快速通知网站管理员,快速发现问题,解决问题,同时,提升网站使用者的用户体验和网站的权威性,节约人工监测的成本。
根据本发明实施例的一种基于云端的网站首页结构监测方法,包括如下方法步骤:
S1、添加域名:确定要监测的网站和网站域名;
S2、进行采集:间隔预设的时间访问一次S1中的网站首页,使用HttpClient请求S1中的网页域名,保存首页网页源代码;
S3、进行保存:将S2中保存的首页网页源代码中的文字、IMG标签的src属性、A标签的href属性、<SCRIPT>标签中的src属性过滤掉只保留标签,从而生成首页标签代码文件,整个生成文件的过程称为一次数据样本采集;
S4、进行计算:检查S3样本采集记录中是否存在当前网站首页的记录;
如果不存在,则记为第一次采集,将采集下来的首页图片、首页网页代码、首页标签代码分别存储在首页标签代码历史目录、首页网页源代码历史目录下,然后记录样本采集记录;
如果存在,则将采集下来的首页标签代码、首页网页源代码与对应历史文件进行相似度计算;
S5、进行判断:通过计算相似度:
如果首页标签代码相似度大于预设的值A且首页网页代码相似度大于预设的值B,说明网站首页结构未发生改变,保存本次集采的文件至对应的目录,本次检测结束;
否则,则说明网站首页结构存在变化的风险,则给对应的网站管理员发送消息进行确认。
优选的,所述首页标签代码相似度计算方法如下:
S411、以本次采集的首页标签代码中的标签N[i]和上一次采集的首页标签代码中的标签O[j]为两个维度生成二维矩阵L,其中记N的长度为m,O的长度为n;
S412、判断S411中的矩阵L的行列数是否相等,即m和n是否相等,记标签变化数量为k;
S413、判断S411中的矩阵L是否为对称矩阵,即以主对角线为对称轴,各元素对应相等的矩阵,记矩阵L上下三角的元素之和为s;
S415、计算页面标签相似度fl为:
优选的,所述S411二维矩阵L中如果两个标签相同则记录矩阵元素L(i,j)为1,如果两个标签不相同则记录矩阵元素L(i,j)为0。
优选的,所述S412中m和n的判断标准为:
如果m=n,则k=0;
如果m≠n,则k=|m-n|。
优选的,所述S413中L是否为对称矩阵的判断结果为:
如果L是对称矩阵,则s=0;
优选的,所述首页网页源代码相似度计算方法如下:
S421、按照本次采集的首页标签代码结构将本次采集首页网页源码和最近一次采集到的首页网页源码中的标签替换成空字符串,将空格和换行液体换成空字符串,只保留文本内容,分别记为本次采集首页文本内容NC,和最近一次采集首页文本内容OC;
S422、查找本次采集首页文本内容NC和最近一次采集首页文本内容OC的公共字符串,计算公共字符串的总长度;
S423、记本次采集首页文本内容NC的长度为S1,和最近一次采集首页文本内容OC的长度为S2,则首页源码相似度fc为:
优选的,所述S5内A和B具体包括首页标签代码相似度fl>98%、首页网页代码相似度fc>70%。
与现有技术相比,本发明的有益效果是:
(1)本发明通过计算网站首页的页面标签代码与历史页面标签代码的相似度来初步判定页面结构是否发生变化,其次再计算网站首页网页源代码与历史首页网页源代码的相似度,进行二次确认。从而给网站管理员发送消息进行预警,大幅提高了网站首页的监测准确性和时效性;
(2)本发明完善了网站监测的检测指标,提高监测的时效性,当网站首页发生形变或篡改时,快速通知网站管理员,快速发现问题,解决问题,同时,提升网站使用者的用户体验和网站的权威性,节约人工监测的成本。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的基于云端的网站首页结构监测方法的方法流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于云端的网站首页结构监测方法,包括如下方法步骤:
S1、添加域名:确定要监测的网站和网站域名;
S2、进行采集:间隔预设的时间访问一次S1中的网站首页,使用HttpClient请求S1中的网页域名,保存首页网页源代码;
S3、进行保存:将S2中保存的首页网页源代码中的文字、IMG标签的src属性、A标签的href属性、<SCRIPT>标签中的src属性过滤掉只保留标签,从而生成首页标签代码文件,整个生成文件的过程称为一次数据样本采集;
S4、进行计算:检查S3样本采集记录中是否存在当前网站首页的记录;
如果不存在,则记为第一次采集,将采集下来的首页图片、首页网页代码、首页标签代码分别存储在首页标签代码历史目录、首页网页源代码历史目录下,然后记录样本采集记录;
如果存在,则将采集下来的首页标签代码、首页网页源代码与对应历史文件进行相似度计算;
首页标签代码相似度计算方法如下:
S411、以本次采集的首页标签代码中的标签N[i]和上一次采集的首页标签代码中的标签O[j]为两个维度生成二维矩阵L,二维矩阵L中如果两个标签相同则记录矩阵元素L(i,j)为1,如果两个标签不相同则记录矩阵元素L(i,j)为0其中记N的长度为m,O的长度为n;
S412、判断S411中的矩阵L的行列数是否相等,即m和n是否相等,记标签变化数量为k;
其中,m和n的判断标准为:
如果m=n,则k=0;
如果m≠n,则k=|m-n|。
S413、判断S411中的矩阵L是否为对称矩阵,即以主对角线为对称轴,各元素对应相等的矩阵,记矩阵L上下三角的元素之和为s;
其中,L是否为对称矩阵的判断结果为:
如果L是对称矩阵,则s=0;
S415、计算页面标签相似度fl为:
首页网页源代码相似度计算方法如下:
S421、按照本次采集的首页标签代码结构将本次采集首页网页源码和最近一次采集到的首页网页源码中的标签替换成空字符串,将空格和换行液体换成空字符串,只保留文本内容,分别记为本次采集首页文本内容NC,和最近一次采集首页文本内容OC;
S422、查找本次采集首页文本内容NC和最近一次采集首页文本内容OC的公共字符串,计算公共字符串的总长度;
S423、记本次采集首页文本内容NC的长度为S1,和最近一次采集首页文本内容OC的长度为S2,则首页源码相似度fc为:
S5、进行判断:通过计算相似度:
如果首页标签代码相似度大于预设的值A且首页网页代码相似度大于预设的值B,说明网站首页结构未发生改变,保存本次集采的文件至对应的目录,本次检测结束;
A和B具体包括首页标签代码相似度fl>98%、首页网页代码相似度fc>70%;
否则,则说明网站首页结构存在变化的风险,则给对应的网站管理员发送消息进行确认。
本发明的关键点是通过计算最近两次采集的首页标签代码、首页页面代码的相似度来判断页面结构是否发生变化或者篡改,主要依据为网站上线后网站的结构不会发生太大的变化,并且短时间内网站内容的更新情况也是可量化的,因此这三个指标能很好的反映网站首页的结构变化情况,从而给出页面结构是否发生变化或者篡改的预判。
实施例1:
在某个服务小程序产品中使用了本发明的系统,具体应用方法如下:
S1、添加域名:在系统中添加待监测的网站域名清单www.xjtu.edu.cn;
S2、进行采集:间隔5分钟访问一次域名对应的网站首页http://www.xjtu.edu.cn/index.htm,下载首页网页源代码,用程序过滤掉首页网页源代码代码中的文字,IMG标签的src属性、A标签的href属性、<SCRIPT>标签中的src属性,只保留标签,生成首页标签代码;
S3、进行保存:在数据库中检查域名www.xjtu.edu.cn是否存在采集记录,如果是第一次采集的话,将首页网页源代码保存在pageCode目录下,命名为2020-08-20-11-30_index_pageCode.txt;首页标签代码保存在labelCode目录下,命名为2020-08-20-11-30_index_labelCode.txt;
S4、进行计算:如果不是第一次采集,则分别计算下载下来的首页页面代码与pageCode目录下最近一次历史文件2020-08-20-11-25_index_pageCode.txt的相似度;计算方法如下:
(1)以两次采集的标签元素分别为行和列生成二维矩阵,矩阵的元素为两次生成的对应标签是否相等,如果相等则为1,不相等则为0,二维矩阵如下表1所示:
表1:
(2)计算两次标签变化数量为两次标签数量m和n的差值绝对值:
k=|m-n|=|13-13|=0;
(3)计算矩阵上下三角元素之和为:
(4)计算举证对角线元素之和:
(5)计算举证对角线为0的元素之和为:
(6)计算首页标签相似度:
S5、下载下来的首页标签代码与labelCode目录下最近一次历史文件2020-08-20-11-25index_labelCode.txt的相似度。计算方法如下:
(1)按照本次采集的首页标签代码结构将本次采集首页网页源码和最近一次采集到的首页网页源码中的标签替换成空字符串,然后将空格和换行液体换成空字符串,只保留文本内容。分别记为本次采集首页文本内容NC,和最近一次采集首页文本内容OC,如下表2所示:
表2:
NC | 首 | 页 | 交 | 大 | 概 | 况 | 交 | 大 | 简 | 介 | 元 | 旦 | 献 | 辞 | 校 | 庆 | 致 | 辞 |
OC | 首 | 页 | 交 | 大 | 概 | 况 | 交 | 大 | 简 | 介 | 统 | 计 | 数 | 据 | 校 | 庆 | 致 | 辞 |
(2)查找本次采集首页文本内容NC,和最近一次采集首页文本内容OC的公共字符串,计算公共字符串的总长度。具体方法如下:
A、将本次采集首页文本内容NC,和最近一次采集首页文本内容OC按照字符逐项匹配,直到出现不相同的字符位置,记做一次相同字符串S[i],长度为SL[i],具体如下表3所示:
表3:
B、跳过不同的字符继续进行匹配,再次执行步骤A操作。直到匹配到NC或者OC的最后一个字符;
C、计算所有相同字符串S[i]的总长度CL:
其中,m为相同字符串的总个数。
(3)记本次采集首页文本内容NC的长度为S1,和最近一次采集首页文本内容OC的长度为S2,则首页源码相似度fc为:
S6、判断首页标签代码相似度>98%,首页网页代码相似度>70%,两者同时满足时说明网站首页结构未发生改变。本次检测结束,将下载首页网页源代码命名为2020-08-20-11-30_index_pageCode.txt保存在pageCode目录下,首页标签代码命名为2020-08-20-11-30_index_labelCode.txt保存在labelCode目录下。如果有一者不满足时,则调用发送短信的功能,给站管理员发送预警消息。
由上述实施例1可以看出,本发明通过计算网站首页的页面标签代码与历史页面标签代码的相似度来初步判定页面结构是否发生变化,其次再计算网站首页网页源代码与历史首页网页源代码的相似度,进行二次确认。从而给网站管理员发送消息进行预警,大幅提高了网站首页的监测准确性和时效性。
对于网站来说,一旦网站上线,网站首页标签代码一般不会再发生变化。变化的只是首页上面的图片和文字。当网站首页发生形变或被篡改,那么网站首页的标签代码与历史标签代码相比较将会发生变化,例如标签不闭合,增加或者减少一些标签。也就是说首页的标签代码与历史标签代码相似度会比较差。再次比较首页的网页源代码,如果它们与历史保存的首页网页代码相似度依然很差的话,就可以判断网站页面结构发生变化,给网站管理员发送信息进行确认。
本发明完善了网站监测的检测指标,提高监测的时效性,当网站首页发生形变或篡改时,快速通知网站管理员,快速发现问题,解决问题,同时,提升网站使用者的用户体验和网站的权威性,节约人工监测的成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于云端的网站首页结构监测方法,其特征在于,包括如下方法步骤:
S1、添加域名:确定要监测的网站和网站域名;
S2、进行采集:间隔预设的时间访问一次S1中的网站首页,使用HttpClient请求S1中的网页域名,保存首页网页源代码;
S3、进行保存:将S2中保存的首页网页源代码中的文字、IMG标签的src属性、A标签的href属性、<SCRIPT>标签中的src属性过滤掉只保留标签,从而生成首页标签代码文件,整个生成文件的过程称为一次数据样本采集;
S4、进行计算:检查S3样本采集记录中是否存在当前网站首页的记录;
如果不存在,则记为第一次采集,将采集下来的首页图片、首页网页代码、首页标签代码分别存储在首页标签代码历史目录、首页网页源代码历史目录下,然后记录样本采集记录;
如果存在,则将采集下来的首页标签代码、首页网页源代码与对应历史文件进行相似度计算;
S5、进行判断:通过计算相似度:
如果首页标签代码相似度大于预设的值A且首页网页代码相似度大于预设的值B,说明网站首页结构未发生改变,保存本次集采的文件至对应的目录,本次检测结束;
否则,则说明网站首页结构存在变化的风险,则给对应的网站管理员发送消息进行确认。
3.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S411二维矩阵L中如果两个标签相同则记录矩阵元素L(i,j)为1,如果两个标签不相同则记录矩阵元素L(i,j)为0。
4.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S412中m和n的判断标准为:
如果m=n,则k=0;
如果m≠n,则k=|m-n|。
7.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S5内A和B具体包括首页标签代码相似度fl>98%、首页网页代码相似度fc>70%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110059739.XA CN112765601B (zh) | 2021-01-18 | 2021-01-18 | 基于云端的网站首页结构监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110059739.XA CN112765601B (zh) | 2021-01-18 | 2021-01-18 | 基于云端的网站首页结构监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765601A true CN112765601A (zh) | 2021-05-07 |
CN112765601B CN112765601B (zh) | 2023-04-18 |
Family
ID=75702354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110059739.XA Active CN112765601B (zh) | 2021-01-18 | 2021-01-18 | 基于云端的网站首页结构监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765601B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056584A (zh) * | 2023-10-08 | 2023-11-14 | 杭州海康威视数字技术股份有限公司 | 基于动态相似度阈值的信息系统异常变动监测方法及设备 |
CN117093260A (zh) * | 2023-10-16 | 2023-11-21 | 戎行技术有限公司 | 一种基于决策树分类算法的融合模型网站结构解析方法 |
CN117596054A (zh) * | 2023-11-29 | 2024-02-23 | 北京中电汇通科技有限公司 | 一种基于动态网络信息安全的网络安全方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186901A (ja) * | 2001-12-21 | 2003-07-04 | Nippon Telegr & Teleph Corp <Ntt> | Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体 |
CN101599118A (zh) * | 2009-06-26 | 2009-12-09 | 华中师范大学 | Html网页篡改检测与定位方法 |
CN103544213A (zh) * | 2013-09-16 | 2014-01-29 | 青岛英网资讯股份有限公司 | 网站内容更新检测评价方法及系统 |
US20140033023A1 (en) * | 2011-08-08 | 2014-01-30 | Tencent Technology (Shenzhen) Company Limited | Method and device for webpage browsing, and mobile terminal |
CN103577537A (zh) * | 2013-09-24 | 2014-02-12 | 上海交通大学 | 面向图像分享网站图片的多重配对相似度确定方法 |
CN105138907A (zh) * | 2015-07-22 | 2015-12-09 | 国家计算机网络与信息安全管理中心 | 一种主动探测被攻击网站的方法和系统 |
CN107092826A (zh) * | 2017-03-24 | 2017-08-25 | 北京国舜科技股份有限公司 | 网页内容安全实时监测方法 |
CN107145591A (zh) * | 2017-05-17 | 2017-09-08 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN109190412A (zh) * | 2018-09-17 | 2019-01-11 | 杭州安恒信息技术股份有限公司 | 网页篡改的检测方法和装置 |
-
2021
- 2021-01-18 CN CN202110059739.XA patent/CN112765601B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186901A (ja) * | 2001-12-21 | 2003-07-04 | Nippon Telegr & Teleph Corp <Ntt> | Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体 |
CN101599118A (zh) * | 2009-06-26 | 2009-12-09 | 华中师范大学 | Html网页篡改检测与定位方法 |
US20140033023A1 (en) * | 2011-08-08 | 2014-01-30 | Tencent Technology (Shenzhen) Company Limited | Method and device for webpage browsing, and mobile terminal |
CN103544213A (zh) * | 2013-09-16 | 2014-01-29 | 青岛英网资讯股份有限公司 | 网站内容更新检测评价方法及系统 |
CN103577537A (zh) * | 2013-09-24 | 2014-02-12 | 上海交通大学 | 面向图像分享网站图片的多重配对相似度确定方法 |
CN105138907A (zh) * | 2015-07-22 | 2015-12-09 | 国家计算机网络与信息安全管理中心 | 一种主动探测被攻击网站的方法和系统 |
CN107092826A (zh) * | 2017-03-24 | 2017-08-25 | 北京国舜科技股份有限公司 | 网页内容安全实时监测方法 |
CN107145591A (zh) * | 2017-05-17 | 2017-09-08 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN109190412A (zh) * | 2018-09-17 | 2019-01-11 | 杭州安恒信息技术股份有限公司 | 网页篡改的检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
熊忠阳 等: "基于网页正文结构和特征串的相似网页去重算法" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056584A (zh) * | 2023-10-08 | 2023-11-14 | 杭州海康威视数字技术股份有限公司 | 基于动态相似度阈值的信息系统异常变动监测方法及设备 |
CN117056584B (zh) * | 2023-10-08 | 2024-01-16 | 杭州海康威视数字技术股份有限公司 | 基于动态相似度阈值的信息系统异常变动监测方法及设备 |
CN117093260A (zh) * | 2023-10-16 | 2023-11-21 | 戎行技术有限公司 | 一种基于决策树分类算法的融合模型网站结构解析方法 |
CN117093260B (zh) * | 2023-10-16 | 2024-01-12 | 戎行技术有限公司 | 一种基于决策树分类算法的融合模型网站结构解析方法 |
CN117596054A (zh) * | 2023-11-29 | 2024-02-23 | 北京中电汇通科技有限公司 | 一种基于动态网络信息安全的网络安全方法及系统 |
CN117596054B (zh) * | 2023-11-29 | 2024-05-07 | 北京中电汇通科技有限公司 | 一种基于动态网络信息安全的网络安全方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112765601B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765601B (zh) | 基于云端的网站首页结构监测方法 | |
CA2610208C (en) | Learning facts from semi-structured text | |
US8683311B2 (en) | Generating structured data objects from unstructured web pages | |
US5941944A (en) | Method for providing a substitute for a requested inaccessible object by identifying substantially similar objects using weights corresponding to object features | |
CN101454748B (zh) | 用于改进对网页的信息检索的系统和方法 | |
KR100572576B1 (ko) | 구조화 문서부터의 정보 추출 | |
US20100268776A1 (en) | System and Method for Determining Information Reliability | |
JP2005284334A (ja) | Webページ更新通知方法及び装置 | |
CN101751457A (zh) | 信息处理设备、数据库系统、信息处理方法 | |
CN109739725A (zh) | 基于浏览器的监控方法、装置、系统及存储介质 | |
US8156141B1 (en) | Incorporated web page content | |
CN112052414A (zh) | 一种数据处理方法、装置以及可读存储介质 | |
CN113568995A (zh) | 基于检索条件的动态瓦片地图制作方法及瓦片地图系统 | |
CN108280102B (zh) | 上网行为记录方法、装置及用户终端 | |
US20130132368A1 (en) | Large scale analytical reporting from web content | |
CN105204806A (zh) | 移动终端网页个性化显示方法及装置 | |
CN112434250B (zh) | 一种基于在线网站的cms识别特征规则提取方法 | |
CN106156291A (zh) | 基于Localstroage的静态资源的缓存方法及其系统 | |
CN116127047B (zh) | 企业信息库的建立方法与装置 | |
CN110719344B (zh) | 域名获取方法、装置、电子设备及存储介质 | |
CN116680278A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN108629012B (zh) | 取证数据解析准确性的智能校验方法和系统 | |
CN109408704B (zh) | 基金数据关联方法、系统、计算机设备和存储介质 | |
CN101542467A (zh) | 聚合联合平台 | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |