CN106446118A - 一种页面变更模版自动生成方法 - Google Patents
一种页面变更模版自动生成方法 Download PDFInfo
- Publication number
- CN106446118A CN106446118A CN201610829171.4A CN201610829171A CN106446118A CN 106446118 A CN106446118 A CN 106446118A CN 201610829171 A CN201610829171 A CN 201610829171A CN 106446118 A CN106446118 A CN 106446118A
- Authority
- CN
- China
- Prior art keywords
- page
- snapshot
- change
- check code
- lcs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种页面变更模版自动生成方法,它涉及信息安全领域;它通过对目标页面进行远程抓取,获得首次快照,经过一段时间,一般是一天以后,进行第二次抓取,通过比较次抓取的页面不同,取其公共部分生成新的快照,以后再经过若干次抓取,均与原有快照比较,取其公共部分生成新的快照,反复迭代后可以形成最优的快照,异常变更告警模块随时对异常的页面篡改进行报警;本发明的有益效果为:本发明通过自动生成动态页面的变更模版,有效解决了页面变更检测只能检测静态页面,不能检测同态页面的问题,并通过实现网站页面的全面变更检测,过滤正常的页面变化,可以随时对异常的页面篡改进行报警,提升网站的安全性。
Description
技术领域
本发明涉及信息安全领域,具体涉及一种页面变更模版自动生成方法。
背景技术
经对现有技术的文献检索发现,中国专利申请号CN201310124832.X,专利名称“一种WEB应用系统内容变更的检测方法及系统”,提供了一种WEB应用系统内容变更的检测方法及系统,该方法及系统通过将抓取到的网站网页内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;利用保存的检测次数和抓取到的页面文件是否存在来判断该网站是否为新网站和该网页是否为新网页;判断该网页文件中所包含的存储元素与历史保存的该网页文件中所包含的存储元素是否相同,如果检测为发生变更则输出检测结果。但是它只能检测静态页面,不能检测同态页面,无法对WEB应用系统内容进行全方位的检测,网页检测的准确度低,并且对异常的页面篡改进行报警,安全性能低。本发明提供的方法及系统,对WEB应用系统内容进行了全方位的检测,从页面特征库码、页面内容元素和页面动态或者静态内容精细化定位页面内容变更的具体原因,从而取得网页检测的准确度,为WEB应用系统内容变更的检测提供了方便。
中国专利申请号CN201210299813.6,专利名称“一种检测内容变更的方法和装置”,公开一种检测内容变更的方法和装置,涉及自然语言处理领域,可以提高识别广告主内容变更的准确率,降低错误报警。本发明实施例通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本发明实施例适合检测广告主内容是否变更时采用。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种设计合理、使用方便的页面变更模版自动生成方法,用于在页面变更检测时,针对动态页面生成通用化的模版,可以只检测页面的静态部分,减少和避免误报发生。
为实现上述目的,本发明所述的页面变更模版自动生成方法,它包含如下步骤:
一、通过对目标页面进行远程抓取,获得首次快照;
二、经过一段时间,一般是一天以后,进行第二次抓取,通过计算MD5值并与快照的MD5值进行比较,确定页面是否发生变更;
三、如果页面发生变更,其公共部分生成新的快照,计算方法如下:
对页面逐行或逐标签生成校验码,为每行或每个标签生成一个64位二进制校验码,由此产生一个64位二进制数字组成的校验码数组;
校验码计算方法如下:
输入数据平均分为8段,每段内部所有字符进行异或运算,生成一个8位二进制数,各段结果连接在一起,生成校验码;
采用Needleman/Wunsch算法对两次抓取的页面进行比较,得到匹配的行或标签列表,Needleman/Wunsch算法举例说明如下:
假设生成的校验码数组是:
A=GGATCGA,B=GAATTCAGTTA
使用两个校验码数组组成二维表格,一个数组沿顶部展开,一个数组沿左侧展开,见表1:
表1.两个校验码数组组成二维表格
G | A | A | T | T | C | A | G | T | T | A | ||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
G | 0 | |||||||||||
G | 0 | |||||||||||
A | 0 | |||||||||||
T | 0 | |||||||||||
C | 0 | |||||||||||
G | 0 | |||||||||||
A | 0 |
采用公式计算填表:
若ai=bj,则LCS(i,j)=LCS(i-1,j-1)+1
若ai≠bj,则LCS(i,j)=Max(LCS(i-1,j-1),LCS(i-1,j),LCS(i,j-1))得到结果,见表2:
表2.两个校验码数组的计算结果
G | A | A | T | T | C | A | G | T | T | A | ||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
G | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
G | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 |
A | 0 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 |
T | 0 | 1 | 2 | 2 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 |
C | 0 | 1 | 2 | 2 | 3 | 3 | 4 | 4 | 4 | 4 | 4 | 4 |
G | 0 | 1 | 2 | 2 | 3 | 3 | 3 | 4 | 5 | 5 | 5 | 5 |
A | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 | 5 | 5 | 5 | 6 |
对以上矩阵进行回溯,若ai≠bj,回溯到左上角、上边、左边中值最大的单元格,若有相同最大值的单元格,优先级按照左上角、上边、左边的顺序,得到以下结果:
G_AATTCAGTTA
GGA_T_C_G__A
相同的部分就是需要获得的静态行或静态标签,将其存储下来,就获得需要的快照;
四、重复二和三步骤,就可以获得精确的变更快照。
本发明采用的系统为网络设备漏洞的地理分布评估系统;所述的网络设备漏洞的地理分布评估系统内设有页面变更监控管理中心;页面变更监控管理中心内设有页面抓取模块、页面分析检测模块/快照库、异常变更告警模块;页面抓取模块对目标页面进行远程抓取,获得首次快照,经过一段时间,一般是一天以后,进行第二次抓取;页面分析检测模块/快照库比较次抓取的页面不同,取其公共部分生成新的快照,以后再经过若干次抓取,均与原有快照比较,取其公共部分生成新的快照,反复迭代后可以形成最优的快照;异常变更告警模块随时对异常的页面篡改进行报警;
采用上述结构后,本发明有益效果为:本发明所述的一种页面变更模版自动生成方法,通过自动生成动态页面的变更模版,有效解决了页面变更检测只能检测静态页面,不能检测同态页面的问题,并通过实现网站页面的全面变更检测,过滤正常的页面变化,可以随时对异常的页面篡改进行报警,提升网站的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是网络设备漏洞的地理分布评估系统结构图。
具体实施方式
下面结合附图,对本发明作进一步的说明。
本发明实施例采用的方法包含如下步骤:
一、通过对目标页面进行远程抓取,获得首次快照;
二、经过一段时间,一般是一天以后,进行第二次抓取,通过计算MD5值并与快照的MD5值进行比较,确定页面是否发生变更;
三、如果页面发生变更,其公共部分生成新的快照,计算方法如下:
对页面逐行或逐标签生成校验码,为每行或每个标签生成一个64位二进制校验码,由此产生一个64位二进制数字组成的校验码数组;
校验码计算方法如下:
输入数据平均分为8段,每段内部所有字符进行异或运算,生成一个8位二进制数,各段结果连接在一起,生成校验码;
采用Needleman/Wunsch算法对两次抓取的页面进行比较,得到匹配的行或标签列表,Needleman/Wunsch算法举例说明如下:
假设生成的校验码数组是:
A=GGATCGA,B=GAATTCAGTTA
使用两个校验码数组组成二维表格,一个数组沿顶部展开,一个数组沿左侧展开,见表1:
表1.两个校验码数组组成二维表格
采用公式计算填表:
若ai=bj,则LCS(i,j)=LCS(i-1,j-1)+1
若ai≠bj,则LCS(i,j)=Max(LCS(i-1,j-1),LCS(i-1,j),LCS(i,j-1))
得到结果,见表2:
表2.两个校验码数组的计算结果
G | A | A | T | T | C | A | G | T | T | A | ||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
G | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
G | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 |
A | 0 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 |
T | 0 | 1 | 2 | 2 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 |
C | 0 | 1 | 2 | 2 | 3 | 3 | 4 | 4 | 4 | 4 | 4 | 4 |
G | 0 | 1 | 2 | 2 | 3 | 3 | 3 | 4 | 5 | 5 | 5 | 5 |
A | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 | 5 | 5 | 5 | 6 |
对以上矩阵进行回溯,若ai≠bj,回溯到左上角、上边、左边中值最大的单元格,若有相同最大值的单元格,优先级按照左上角、上边、左边的顺序,得到以下结果:
G_AATTCAGTTA
GGA_T_C_G__A
相同的部分就是需要获得的静态行或静态标签,将其存储下来,就获得需要的快照;
四、重复二和三步骤,就可以获得精确的变更快照。
参看图1所示,本发明实施例采用的系统为网络设备漏洞的地理分布评估系统;所述的网络设备漏洞的地理分布评估系统内设有页面变更监控管理中心;页面变更监控管理中心内设有页面抓取模块、页面分析检测模块/快照库、异常变更告警模块;页面抓取模块对目标页面进行远程抓取,获得首次快照,经过一段时间,一般是一天以后,进行第二次抓取;页面分析检测模块/快照库比较次抓取的页面不同,取其公共部分生成新的快照,以后再经过若干次抓取,均与原有快照比较,取其公共部分生成新的快照,反复迭代后可以形成最优的快照;异常变更告警模块随时对异常的页面篡改进行报警;
本发明实施例的有益效果为:通过自动生成动态页面的变更模版,有效解决了页面变更检测只能检测静态页面,不能检测同态页面的问题,并通过实现网站页面的全面变更检测,过滤正常的页面变化,可以随时对异常的页面篡改进行报警,提升网站的安全性。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.一种页面变更模版自动生成方法,其特征在于它的页面变更模版自动生成方法包含如下步骤:
一、通过对目标页面进行远程抓取,获得首次快照;
二、经过一段时间,一般是一天以后,进行第二次抓取,通过计算MD5值并与快照的MD5值进行比较,确定页面是否发生变更;
三、如果页面发生变更,其公共部分生成新的快照,计算方法如下:
对页面逐行或逐标签生成校验码,为每行或每个标签生成一个64位二进制校验码,由此产生一个64位二进制数字组成的校验码数组;
校验码计算方法如下:
输入数据平均分为8段,每段内部所有字符进行异或运算,生成一个8位二进制数,各段结果连接在一起,生成校验码;
采用Needleman/Wunsch算法对两次抓取的页面进行比较,得到匹配的行或标签列表,Needleman/Wunsch算法举例说明如下:
假设生成的校验码数组是:
A=GGATCGA,B=GAATTCAGTTA
使用两个校验码数组组成二维表格,一个数组沿顶部展开,一个数组沿左侧展开,见表1:
表1.两个校验码数组组成二维表格
采用公式计算填表:
若ai=bj,则LCS(i,j)=LCS(i-1,j-1)+1
若ai≠bj,则LCS(i,j)=Max(LCS(i-1,j-1),LCS(i-1,j),LCS(i,j-1))
得到结果,见表2:
表2.两个校验码数组的计算结果
对以上矩阵进行回溯,若ai≠bj,回溯到左上角、上边、左边中值最大的单元格,若有相同最大值的单元格,优先级按照左上角、上边、左边的顺序,得到以下结果:
G_AATTCAGTTA
GGA_T_C_G_A
相同的部分就是需要获得的静态行或静态标签,将其存储下来,就获得需要的快照;
四、重复二和三步骤,就可以获得精确的变更快照。
2.据权利要求1所述的一种页面变更模版自动生成方法,其特征在于它采用的系统为网络设备漏洞的地理分布评估系统;所述的网络设备漏洞的地理分布评估系统内设有页面变更监控管理中心;页面变更监控管理中心内设有页面抓取模块、页面分析检测模块/快照库、异常变更告警模块;页面抓取模块对目标页面进行远程抓取,获得首次快照,经过一段时间,一般是一天以后,进行第二次抓取;页面分析检测模块/快照库比较次抓取的页面不同,取其公共部分生成新的快照,以后再经过若干次抓取,均与原有快照比较,取其公共部分生成新的快照,反复迭代后可以形成最优的快照;异常变更告警模块随时对异常的页面篡改进行报警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610829171.4A CN106446118A (zh) | 2016-09-19 | 2016-09-19 | 一种页面变更模版自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610829171.4A CN106446118A (zh) | 2016-09-19 | 2016-09-19 | 一种页面变更模版自动生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106446118A true CN106446118A (zh) | 2017-02-22 |
Family
ID=58167971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610829171.4A Pending CN106446118A (zh) | 2016-09-19 | 2016-09-19 | 一种页面变更模版自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446118A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301355A (zh) * | 2017-06-20 | 2017-10-27 | 深信服科技股份有限公司 | 一种网页篡改监测方法及装置 |
CN110865843A (zh) * | 2018-08-09 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 页面回溯、信息备份与问题解决方法、系统及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1269336A1 (en) * | 2000-03-02 | 2003-01-02 | Accord Networks Ltd. | System and method of monitoring video and/or audio conferencing through a rapid-update website |
CN102169533A (zh) * | 2011-05-11 | 2011-08-31 | 华南理工大学 | 一种商用网页恶意篡改检测方法 |
CN102779245A (zh) * | 2011-05-12 | 2012-11-14 | 李朝荣 | 基于图像处理技术的网页异常检测方法 |
CN102902714A (zh) * | 2012-08-21 | 2013-01-30 | 盘古文化传播有限公司 | 一种检测内容变更的方法和装置 |
CN103279475A (zh) * | 2013-04-11 | 2013-09-04 | 广东电网公司信息中心 | 一种web应用系统内容变更的检测方法及系统 |
CN104484604A (zh) * | 2014-12-31 | 2015-04-01 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改识别方法、扫描器、装置及系统 |
CN104572056A (zh) * | 2013-10-24 | 2015-04-29 | 阿里巴巴集团控股有限公司 | 一种页面对比的方法及装置 |
CN105528416A (zh) * | 2015-12-07 | 2016-04-27 | 中南大学 | 一种网站更新内容的监测方法及系统 |
CN105630843A (zh) * | 2014-11-17 | 2016-06-01 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
-
2016
- 2016-09-19 CN CN201610829171.4A patent/CN106446118A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1269336A1 (en) * | 2000-03-02 | 2003-01-02 | Accord Networks Ltd. | System and method of monitoring video and/or audio conferencing through a rapid-update website |
CN102169533A (zh) * | 2011-05-11 | 2011-08-31 | 华南理工大学 | 一种商用网页恶意篡改检测方法 |
CN102779245A (zh) * | 2011-05-12 | 2012-11-14 | 李朝荣 | 基于图像处理技术的网页异常检测方法 |
CN102902714A (zh) * | 2012-08-21 | 2013-01-30 | 盘古文化传播有限公司 | 一种检测内容变更的方法和装置 |
CN103279475A (zh) * | 2013-04-11 | 2013-09-04 | 广东电网公司信息中心 | 一种web应用系统内容变更的检测方法及系统 |
CN104572056A (zh) * | 2013-10-24 | 2015-04-29 | 阿里巴巴集团控股有限公司 | 一种页面对比的方法及装置 |
CN105630843A (zh) * | 2014-11-17 | 2016-06-01 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
CN104484604A (zh) * | 2014-12-31 | 2015-04-01 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改识别方法、扫描器、装置及系统 |
CN105528416A (zh) * | 2015-12-07 | 2016-04-27 | 中南大学 | 一种网站更新内容的监测方法及系统 |
Non-Patent Citations (1)
Title |
---|
侯凯: "文本比较算法:Needleman/Wunsch算法", 《庖丁解牛》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301355A (zh) * | 2017-06-20 | 2017-10-27 | 深信服科技股份有限公司 | 一种网页篡改监测方法及装置 |
CN107301355B (zh) * | 2017-06-20 | 2021-07-02 | 深信服科技股份有限公司 | 一种网页篡改监测方法及装置 |
CN110865843A (zh) * | 2018-08-09 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 页面回溯、信息备份与问题解决方法、系统及设备 |
CN110865843B (zh) * | 2018-08-09 | 2024-03-26 | 阿里巴巴集团控股有限公司 | 页面回溯、信息备份与问题解决方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
IL265849B (en) | A system and method for improved anomaly detection by using graphs of relationships | |
CN107918762B (zh) | 一种公路遗撒物快速检测系统及方法 | |
CN108121945A (zh) | 一种多目标检测跟踪方法、电子设备及存储介质 | |
CN104270785A (zh) | 一种基于地理栅格聚合的无线网络区域问题定位方法 | |
CN106294076A (zh) | 一种服务器关联故障预测方法及其系统 | |
US20140019215A1 (en) | System for assessing procedure compliance level of human operators in nuclear power plants and method thereof | |
CN111428694A (zh) | 基于区块链的智慧工地异常烟雾监测系统 | |
CN116028499B (zh) | 检测信息生成方法、电子设备和计算机可读介质 | |
CN105844846A (zh) | 一种基于Ibeacon技术的安全监控方法、装置及系统 | |
CN106446118A (zh) | 一种页面变更模版自动生成方法 | |
CN111768022A (zh) | 煤机生产设备的设备检测方法及装置 | |
CN107548087A (zh) | 一种告警关联分析的方法及装置 | |
CN110471329B (zh) | 一种基于区块链系统的水质监管方法及装置、设备、介质 | |
CN105069158B (zh) | 数据挖掘方法及系统 | |
JP2015137866A (ja) | 漏水量推定装置及び方法並びにシステム | |
CN117455709A (zh) | 供水管网的漏损监测方法、装置、电子设备以及存储介质 | |
US10288547B2 (en) | Facility state analysis device, analysis method for facility state, storage medium, and facility management system | |
CN115860495A (zh) | 应急预案处理方法、装置、设备、介质及产品 | |
CN104463448A (zh) | 一种基于案例推理的应急预案评估系统 | |
CN103489067A (zh) | 一种洞庭湖生态事件实时监测方法及系统 | |
CN113807697A (zh) | 基于告警关联的派单方法及装置 | |
CN105117821A (zh) | 一种基于分区分域的工控系统信息安全资产识别方法 | |
CN106603560A (zh) | 一种基于网络验证码的模式识别方法 | |
Cevallos-Valdiviezo et al. | Non-Technical Loss Detection Based on Electricity Consumption Data: A Case Study in Ecuador | |
CN114967504B (zh) | 一种基于标识解析的环境监测运维平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170222 |
|
WD01 | Invention patent application deemed withdrawn after publication |