CN101599118A - Html网页篡改检测与定位方法 - Google Patents

Html网页篡改检测与定位方法 Download PDF

Info

Publication number
CN101599118A
CN101599118A CNA200910062858XA CN200910062858A CN101599118A CN 101599118 A CN101599118 A CN 101599118A CN A200910062858X A CNA200910062858X A CN A200910062858XA CN 200910062858 A CN200910062858 A CN 200910062858A CN 101599118 A CN101599118 A CN 101599118A
Authority
CN
China
Prior art keywords
web page
html web
watermark
source code
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200910062858XA
Other languages
English (en)
Other versions
CN101599118B (zh
Inventor
金聪
潘敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN200910062858XA priority Critical patent/CN101599118B/zh
Publication of CN101599118A publication Critical patent/CN101599118A/zh
Application granted granted Critical
Publication of CN101599118B publication Critical patent/CN101599118B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Editing Of Facsimile Originals (AREA)

Abstract

本发明提供了一种HTML网页篡改检测与定位方法,包括如下过程:(1)水印预嵌入过程,从原始的HTML网页源代码中的每一行和每一列,分别进行每位字符的数值抽取,得到相应的一维数组,然后将产生的一维数组分别转换成二维矩阵;生成行数字水印和列数字水印,将行数字水印和列数字水印中的认证码二位串接起来,得到网页数字水印;将网页数字水印预嵌入到原始的HTML网页源代码中,(2)篡改检测及定位过程,首先进行网页数字水印的提取和恢复,然后通过对预嵌入的网页数字水印和新的网页数字水印比较,如果两个网页数字水印完全匹配,则表示网页源代码没有经过篡改;两个网页数字水印不完全匹配,否则将两个网页数字水印中认证码不同的行列定位为篡改位置。

Description

HTML网页篡改检测与定位方法
技术领域
本发明是一种涉及HTML网页技术领域的方法,特别是HTML网页篡改检测与定位方法。
背景技术
现今互联网已经成为人们信息获取和信息交流不可或缺的工具。人们能通过互联网发布自己的作品,传递重要信息等。但是,它在给人们带来便利的同时也暴露出越来越严重的安全问题,利用现有的技术网页很容易被篡改,单纯靠人眼很难判断出网页是否被篡改。网页的真实性认证和篡改检测及定位变得越来越重要。传统的基于散列函数的文件摘要技术是通过对网页源文件进行散列计算得出消息认证码,将消息认证码追加在预保护的网页文件中,通过对预检测网页进行抽取得到消息认证码,将得到的认证码与预检测网页生成的消息认证码进行比对来判断出网页是否被篡改。然而在实际应用中,这种方法往往会有诸多弊端,例如增加了文件的大小、消息认证码容易被发现等。数字水印技术是直接将消息认证码通过在行末加入空格、ULC或改变标记的属性的位置来嵌入到目标网页本身中,它不会改变网页的功能、不增加文件的大小、容易嵌入和抽取。利用数字水印对网页的真实性进行认证时,通常是将网页数据的消息认证码或数字签名(称之为认证信息)直接嵌入在网页中。
数字水印解决了在文件加密后增加了文件的大小、消息认证码容易被发现的问题,但是现有的基于网页的数字水印方案只能实现真实性认证,而无法实现对篡改位置的定位,其原因在于,消息认证码的获取算法是逆向的,对预检测的网页中的消息只能判断是否匹配而无法还原,即无法知道何处被篡改,从而无法定位。
经对现有技术的文献检索发现,Hongtao Lu等2007年在PatternRecognition(模式识别)期刊第40卷第1334-1341页上发表的论文PCA-basedWebpage Watermarking(基于PCA的网页数字水印)中提出了一种基于PCA的网页数字水印方案,该方案利用数字水印技术可实现对HTML网页篡改的检测,其不足在于无法实现对篡改位置的定位。
发明内容
本发明目的在于提供一种HTML网页篡改检测与定位方法,实现对网页篡改检测的同时能定位出篡改的位置。
本发明提供的一种HTML网页篡改检测与定位方法,包括如下过程:
(1)水印预嵌入过程
步骤1.1,从原始的HTML网页源代码中的每一行和每一列,分别进行每位字符的数值抽取,得到相应的一维数组,然后将产生的一维数组分别转换成二维矩阵;
步骤1.2,认证信息的产生,包括针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印,针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印,将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,得到网页数字水印;
步骤1.3,采用大小写嵌入方式,逐行或逐列将网页数字水印预嵌入到原始的HTML网页源代码中;
(2)篡改检测及定位过程,
首先进行网页数字水印的提取和恢复,
所述网页数字水印的提取,即是逐行每二位分组将在水印预嵌入过程中预嵌入的网页数字水印从待检测的HTML网页源代码中提取出来,
所述网页数字水印的恢复,即对待检测的HTML网页源代码按照与水印预嵌入过程中步骤1.1~1.2一致的方式产生新的网页数字水印;
然后通过对预嵌入的网页数字水印和新的网页数字水印比较,如果两个网页数字水印完全匹配,则表示待检测的HTML网页源代码没有经过篡改,和原始HTML网页源代码一致;两个网页数字水印不完全匹配,则表示待检测的HTML网页源代码经过篡改,将两个网页数字水印中认证码不同的行列定位为篡改位置。
而且,所述从HTML网页源代码中进行每位字符的数值抽取,得到相应的一维数组,实现方式如下,
将HTML网页源代码的一行或一列中的字母、数字、符号按在HTML网页源代码中的顺序提取出来,然后将所有的字母、数字和符号转换为数值,转换规则为‘A’和‘a’转换为‘0’,‘B’和‘b’转换为‘1’,‘C’和‘c’转换为‘2’,…‘Z’和‘z’转换为25,‘0-9’转换为‘26-35’,符号按ASCII码表的位置排序后将序号加上35。
或者,所述从HTML网页源代码中进行每位字符的数值抽取,得到相应的一维数组,实现方式如下,
将HTML网页源代码的一行或一列中的有意义的字符按在HTML网页源代码中的顺序提取出来,然后将所有有意义的字符转换为数值,转换规则为根据常用字符与ASCII代码对照表,将字符对照所得的ASCII值减去32,如果减去后的ASCII值大于65的话再减去32,否则不减,最后得到的值即为对该字符数值抽取的结果。
而且,所述将产生的一维数组依次转换成二维矩阵的具体实现方式如下,
设对HTML网页源代码中的一行或一列进行每位字符的数值抽取所得一维数组记为m,一维数组m中元素个数为n,设
Figure A20091006285800092
即t等于T向上取整后平方;
用一维数组m循环填充直到得到元素个数为t的一维数组M,将一维数组M按元素顺序填充为阶数为
Figure A20091006285800093
的方阵,该方阵标记为H,将H×HT得到对称方阵Di,Di即为该行或列对应的二维矩阵。
而且,针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印,针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印,具体方式如下
对某行或列对应的二维矩阵进行卷积加密,即指通过对称方阵Di与密钥方阵K的卷积得到方阵I,即 I = D i ⊗ K , 其中,I∈F(R+N-1)×(R+N-1),F表示实数域,R表示实数域,N表示密钥‘k’的阶数,Di∈FR×R,K∈FN×N
然后将方阵I进行求向量均值后特征值分解求主成分,再将所得主成分转化为二进制码,将转换的二进制码连接起来作为该行或列的认证码;
所有行的认证码构成行数字水印,所有列的认证码构成列数字水印。
而且,所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,是指按照字符所在行从行数字水印中取对应认证码作为第一位,按照字符所在列从列数字水印中取对应认证码作为第二位,进行串接。
或者,所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,是指按照字符所在列从列数字水印中取对应认证码作为第一位,按照字符所在行从行数字水印中取对应认证码作为第二位,进行串接。
而且,所述大小写嵌入方式是HTML网页源代码中的标签中的字母每两个分组,指如果要嵌入的认证码是‘1’,则将HTML网页源代码的标签中对应的字母变为大写字母;如果要嵌入的认证码是‘0’,则将HTML网页源代码的标签中对应的字母变为小写字母;
所述网页数字水印的提取中,指将待检测的HTML网页源代码的标签中对应的大写字母抽取为认证码‘1’,小写字母抽取认证码为‘0’。
本发明通过增加行列数字水印同时嵌入机制来检测网页的篡改,并定位出被篡改的行列位置,并且提供的是盲检测技术方案即不需要原有的网页。由于这种方法不增加网页文件的大小,不影响网页文件的功能,使得数字水印的嵌入、认证和网页篡改检测与定位的运算更为高效,可用于实时的网页安全系统。并且,本发明还增加对网页中的数字、符号篡改的检测,实现对纯英文网页的全部支持;在原始数据处理中,应用行列分块提取的思想来避免大矩阵的繁琐运算,从而实现对容量更大的网页的支持。本发明特别适用于对网页信息安全和实时响应要求较高的领域,如政府网站、军事网站、纪实网站等。
附图说明
图1是本发明流程示意图。
具体实施方式
以下结合附图详细说明本发明技术方案:
(1)水印预嵌入过程
步骤1.1,从原始的HTML网页源代码中的每一行和每一列,分别进行每位字符的数值抽取,得到相应的一维数组,然后将产生的一维数组依次转换成二维矩阵。
以前的技术对于预嵌入数字水印的网页仅仅只提取字母,现在加入对数字和一些符号的数值抽取,因为在网页中数字和符号的信息也是非常的重要。因此本发明提供一种实现方式为:将HTML网页源代码的一行或一列中的字母、数字、符号按在HTML网页源代码中的顺序提取出来,然后将所有的字母、数字和符号转换为数值,转换规则为‘A’和‘a’转换为‘0’,‘B’和‘b’转换为‘1’,‘C’和‘c’转换为‘2’,…‘Z’和‘z’转换为25,‘0-9’转换为‘26-35’,符号按ASCII码表的位置排序后将序号加上35。这样可以得到一行数值范围为[0,100]的一维数组。这些数值将参与数字水印的生成,从而实现了对网页中的字母、数字、基本符号的全面保护,可以实现对纯英文网页的全部支持。
本发明还提供另一种数值抽取实现方式为:将HTML网页源代码的一行或一列中的有意义的字符按在HTML网页源代码中的顺序提取出来,然后将所有有意义的字符转换为数值,转换规则为根据常用字符与ASCII代码对照表,将字符对照所得的ASCII值减去32,如果减去后的ASCII值大于65的话再减去32,否则不减,最后得到的值即为对该字符数值抽取的结果。例如字符“+”,该字符的ASCII值为43,减去32后所得的抽取数值应该为11;字符“z”(小写的),该字符的ASCII值为122,减去32为90,由于90大于65,所以还要减去32,最后所得的抽取数值为58。
特殊的是,若源代码中有无效字符或空格则不考虑。
将产生的一维数组转换成二维矩阵,具体实施过程可为:设对HTML网页源代码中的一行或一列进行每位字符的数值抽取所得一维数组记为m,一维数组m中元素个数为n,设
Figure A20091006285800121
即t等于T向上取整后平方;用一维数组m循环填充直到得到元素个数为t的一维数组M,将一维数组M按元素顺序填充为阶数为
Figure A20091006285800123
的方阵,该方阵标记为H,将H×HT得到对称方阵Di,Di即为该行或列对应的二维矩阵。这样产生的方阵Di的大小将远远小于对源代码整个数值抽取生成的方阵E。相当于将E采用特殊的方法分块为D1,D2,D3,…,Dy(其中y为网页源代码行数和列数的一半之和)。从而使处理容量更大的网页成为现实。更值得注意的是D1,D2,D3,…,Dy全部参与生成数字水印的时间和空间需求要远远小于E参与生成数字水印的时间和空间。
步骤1.2,认证信息的产生,包括针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印,针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印,将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,得到用于预嵌入的网页真实性认证信息即网页数字水印。
针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印,针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印,具体方式如下:
对某行或列对应的二维矩阵进行卷积加密,即指通过对称方阵Di与密钥方阵K的卷积得到方阵I,即 I = D i ⊗ K , 其中,I∈F(R+N-1)×(R+N-1),F表示实数域,R表示实数域,N表示密钥‘k’的阶数,Di∈FR×R,K∈FN×N
然后将方阵I进行求向量均值后特征值分解求主成分,再将所得主成分转化为二进制码,将转换的二进制码连接起来作为该行或列的认证码;
所有行的认证码构成行数字水印,所有列的认证码构成列数字水印。
该过程借鉴了现有PCA技术,具体实现步骤可以按照以下运算方式:
(a)通过对称方阵Di(Di∈FR×R)与密钥方阵K(K∈FN×N)的卷积得到方阵I。
I = D i ⊗ K , I∈F(R+N-1)×(R+N-1)                                  (1)
建议密钥方阵K采用简化的二维数组,便于矩阵加密和优化大型矩阵计算时满足实时性,例如K[2][2]={{0.1,0.3},{0.2,0.1}}。
(b)生成向量均值IR和矩阵V。
I ‾ R = ( 1 / ( R + N - 1 ) ) Σ i = 1 R + N - 1 I i - - - ( 2 )
V = Σ i = 1 R + N - 1 ( I i - I ‾ R ) T ( I i - I ‾ R ) - - - ( 3 )
(c)将V进行特征值分解,
得到特征值λ1,λ2,...,λR+N-1和特征向量u1,u2,...,uR+N-1
其中λ1,λ2,...,λR+N-1是按照从大到小的顺序排列即λ1≥λ2≥...≥λR+N-1
V=ULU-1                                            (4)
其中L表述一个矩阵,其中对角线上为特征分解后的特征值,U标识特征分解后的特征向量。
(d)求出满足下列不等式的X的最小x。
Σ i = 1 x λ i / Σ i = 1 R + N - 1 λ i > 0.85 - - - ( 5 )
具体实施时取值可以在0.85左右,代表主要成分。
(e)得到预处理的水印Zi,其中Zi是由x个元素组成的一维向量。
Zi=(Ii-IR)[u1 u2...ux]  Zi∈F1×x                        (6)
(f)将Zi的每个元素依次分别转换成二进制数再连接起来得到一个二进制水印Wi,则可以得到
Figure A20091006285800135
W D i = W 1 W 2 W 3 · · · W R + N - 1 - - - ( 7 )
Figure A20091006285800141
即为某行(或某列)的认证码。所有行的认证码连接构成行数字水印,所有列的认证码连接构成列数字水印,然后合成网页数字水印,即为用于预嵌入的网页真实性认证信息。当连接后的二进制码长度大于相对应的源代码的长度时将二进制码长于源码的部分去掉,从而得到相应的认证码;当连接后的二进制码长度短于源码的长度时将该连接后的二进制码循环连接,直到长度达到源代码的长度时为止。具体实施时,可以是按照字符所在行从行数字水印中取对应认证码作为第一位,按照字符所在列从列数字水印中取对应认证码作为第二位,进行串接;也可以是按照字符所在列从列数字水印中取对应认证码作为第一位,按照字符所在行从行数字水印中取对应认证码作为第二位,进行串接。
步骤1.3,采用大小写嵌入方式,逐行或逐列将网页数字水印每二位分组预嵌入到原始的HTML网页源代码中;
本发明建议采用目前常用的大小写嵌入方式——ULC方式,即如果要嵌入的认证码是‘1’,则将HTML网页源代码的标签中对应的字母变为大写字母;如果要嵌入的认证码是‘0’,则将HTML网页源代码的标签中对应的字母变为小写字母。
以上过程即为附图1左边部分。
(2)篡改检测及定位过程
由于经过预嵌入后的原始的HTML网页源代码可能被篡改,因此对于提供给客户浏览的HTML网页源代码要进行检测,称为待检测的HTML网页源代码。
首先进行网页数字水印的提取和恢复,
所述网页数字水印的提取,即是逐行每二位分组将在水印预嵌入过程中预嵌入的网页数字水印从待检测的HTML网页源代码中提取出来。提前应该与预嵌入方式相应,也采用ULC方式提取。
所述网页数字水印的恢复,即对待检测的HTML网页源代码按照与水印预嵌入过程中步骤1.1~1.2一致的方式产生新的网页数字水印。具体的说,就是首先从待检测HTML网页源代码中的每一行和每一列,分别进行每位字符的数值抽取,得到相应的一维数组,然后将产生的一维数组分别转换成二维矩阵;然后针对所有行对应的二维矩阵生成行数字水印,针对所有列对应的二维矩阵生成列数字水印,将行数字水印和列数字水印中的认证码按照用于待检测的HTML网页源代码的字符位置二位串接起来,得到新的网页数字水印。
然后通过对预嵌入的网页数字水印和新的网页数字水印比较,如果两个网页数字水印完全匹配,则表示待检测的HTML网页源代码没有经过篡改,和原始HTML网页源代码一致;两个网页数字水印不完全匹配,则表示待检测的HTML网页源代码经过篡改,将两个网页数字水印中认证码不同的行列定位为篡改位置。具体实施时,可以逐行或逐列判断认证码是否不同。如果提取时被扫描的标签为大写的话,则得到“1”,否则得到“0”,这样可以得到一个元素为“1”或者“0”的二维矩阵P,同时将待检测的HTML网页源代码采用产生新的数字水印二维矩阵P′(P′的大小与P是匹配的),将P与P′中的元素(“1”或者“0”)进行比对,如果P′与P相同则表示网页没有被篡改,否则把在两者中位置相同而元素的值不同的行列坐标标示出来,那么这些被标示出来的行列的坐标就是网页被篡改的位置。
以上过程即为附图1右边部分。
为了便于实施参考,以下提供一个实施例:
原始的HTML网页源代码(google网页源码中抽取的一小段):
<td id=″gdt_td_cal_7″style=″display:none;″>
<div style=″position:relative;top:0px;left:0px;height:136px;overflow:hidden;″>
<div id=″gdt_cal_7″style=″height:272px;″>
<div id=″gdt_cal_placeholder_7″style=″padding-top:32px;″>
一、水印预嵌入过程
<a>源代码共4行,87列
<b>通过步骤1.1可以产生(4+87=93)个二维矩阵,以获取第一个二维矩阵的具体过程为例:
对第一行源码进行抽取可得长度为45的一维数组如下:
851903670803866906031967190367020011673369671819241104866903081815110024836713141304846987
由于长度为45则可得二维矩阵的阶数为
Figure A20091006285800161
将一维数组循环填充满64位,得到以下一维数组
85190367080386690603196719036702001167336967181924110486690308181511002483671314130484698785190367080386690603196719036702001167336967
将该一维数组按元素顺序填充为方阵:
8519036708038669
0603196719036702
0011673369671819
2411048669030818
1511002483671314
1304846987851903
6708038669060319
6719036702001167
<c>对行产生的4个二维矩阵分别进行卷积加密、采用PCA技术析提取主成分、将主成分转换为二进制再对接,可以得到某行认证码,例如第一行的认证码:
10101000101001000101010101010101010010010101
可以得到一个和源代码相匹配的行数字水印如下:
10101000101001000101010101010101010010010101
11110010010101010101001000011111101010100101010010100101001010101001010010010101001010
010100110100101010110010010101001010100101
110100101010000101001101001011010010100101001010101010001
<d>对列产生的87个二维矩阵按同样的方式处理得到一个和源代码相匹配的列数字水印如下:
010010110110010000111111010101001010101010011
10101110010101010010001010101001010101001010010100101010100101001001010100101010100010
010000111010010101010010110100101001010010
100101100101000010100110100100101011001001010101010100010
<e>将每组中第一个字母位置所对应的行数字水印和第二个字母位置所对应的列数字水印组成网页数字水印如下:
1110100111101000001111111111111101010111010101
1010011001010101000000100000101111111100011110101111011111000000010010100001111111001010
0100001100001111111100100101000010110000111
1001011011110000000001000001100000111000010111111100000000
将得到的网页数字水印按照ULC嵌入方式对源代码进行嵌入,即将源代码中的每行标签中的字母(’<’与’>’中的字母)按顺序两两一组,如果要嵌入的认证码是‘1’,则将HTML网页源代码的标签中对应的字母变为大写字母;如果要嵌入的认证码是‘0’,则将HTML网页源代码的标签中对应的字母变为小写字母,得到预嵌入后的原始的HTML网页源代码。
二、篡改检测及定位过程
<a>将待检测的HTML网页源代码(该源代码中已预嵌入网页数字水印,如下:)
    <TD Id=″GDT_Td_cal_7″STYLE=″DiSpLaY:NoNe;″>
    <dIv STylE=″pOsItIon:relatIvE;TOP:0pX;LeFt:0PX;HEIGHt:136pX;OvErflwE:
HIDDEn;″>
    <Div iD=″gdt_CAL_7″stYle=″HeighT:272px;″>
    <diV ID=″GDT_cal_placEholdeR_7″styLE=″padDiNG-TOP:32px;″>
按照ULC提取方式对源代码进行提取可得与该网页源代码对应的由元素为“1”或者“0”的二维矩阵P。
0010100111101000001111111111111101010111010101
101001100101010101010010000010110111110001111010111101111100000001001010000111111100101
0100001100001111111100100101000010110000111
1001011011110000000001000001100000111000010111111100000000
<b>将待检测的HTML网页源代码按照预嵌入过程中的方法生成预嵌入的数字水印二维矩阵P′。
1110100111101000001111111111111101010111010101
1010011001010101000000100000101111111100011110101111011111000000010010100001111111001010
0100001100001111111100100101000010110000111
1001011011110000000001000001100000111000010111111100000000
<c>将P与P′中的元素(“1”或者“0”)进行比对,如果P′与P相同则表示目标网页没有被篡改,否则把在两者中位置相同而元素的值不同的行列坐标标示出来,那么这些被标示出来的行列的坐标就是目标网页被篡改的位置。例如在比较P与P′后可以发现待检测的网页中被篡改的位置为:
**10100111101000001111111111111101010111010101
10100110010101010*0*001000001011*1111100011110101111011111000000010010100001111111001010
0100001100001111111100100101000010110000111
1001011011110000000001000001100000111000010111111100000000
其中用‘*’表示的位置即为被篡改的位置。

Claims (8)

1、HTML网页篡改检测与定位方法,其特征在于,包括如下过程:
(1)水印预嵌入过程
步骤1.1,从原始的HTML网页源代码中的每一行和每一列,分别进行每位字符的数值抽取,得到相应的一维数组,然后将产生的一维数组分别转换成二维矩阵;
步骤1.2,认证信息的产生,包括针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印,针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印,将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,得到网页数字水印;
步骤1.3,采用大小写嵌入方式,逐行或逐列将网页数字水印预嵌入到原始的HTML网页源代码中;
(2)篡改检测及定位过程
首先进行网页数字水印的提取和恢复,
所述网页数字水印的提取,即是逐行每二位分组将在水印预嵌入过程中预嵌入的网页数字水印从待检测的HTML网页源代码中提取出来,
所述网页数字水印的恢复,即对待检测的HTML网页源代码按照与水印预嵌入过程中步骤1.1~1.2一致的方式产生新的网页数字水印;
然后通过对预嵌入的网页数字水印和新的网页数字水印比较,如果两个网页数字水印完全匹配,则表示待检测的HTML网页源代码没有经过篡改,和原始HTML网页源代码一致;两个网页数字水印不完全匹配,则表示待检测的HTML网页源代码经过篡改,将两个网页数字水印中认证码不同的行列定位为篡改位置。
2、根据权利要求1所述的HTML网页篡改检测与定位方法,其特征在于:所述从HTML网页源代码中进行每位字符的数值抽取,得到相应的一维数组,实现方式如下,
将HTML网页源代码的一行或一列中的字母、数字、符号按在HTML网页源代码中的顺序提取出来,然后将所有的字母、数字和符号转换为数值,转换规则为‘A’和‘a’转换为‘0’,‘B’和‘b’转换为‘1’,‘C’和‘c’转换为‘2’,…‘Z’和‘z’转换为25,‘0-9’转换为‘26-35’,符号按ASCII码表的位置排序后将序号加上35。
3、根据权利要求1所述的HTML网页篡改检测与定位方法,其特征在于:所述从HTML网页源代码中进行每位字符的数值抽取,得到相应的一维数组,实现方式如下,
将HTML网页源代码的一行或一列中的有意义的字符按在HTML网页源代码中的顺序提取出来,然后将所有有意义的字符转换为数值,转换规则为根据常用字符与ASCII代码对照表,将字符对照所得的ASCII值减去32,如果减去后的ASCII值大于65的话再减去32,否则不减,最后得到的值即为对该字符数值抽取的结果。
4、根据权利要求1或2或3所述的HTML网页篡改检测与定位方法,其特征在于:所述将产生的一维数组分别转换成二维矩阵的具体实现方式如下,
设对HTML网页源代码中的一行或一列进行每位字符的数值抽取所得一维数组记为m,一维数组m中元素个数为n,设 T = n ,
Figure A2009100628580003C2
即t等于T向上取整后平方;
用一维数组m循环填充直到得到元素个数为t的一维数组M,将一维数组M按元素顺序填充为阶数为的方阵,该方阵标记为H,将H×HT得到对称方阵Di,Di即为该行或列对应的二维矩阵。
5、根据权利要求4所述的HTML网页篡改检测与定位方法,其特征在于:针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印,针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印,具体方式如下
对某行或列对应的二维矩阵进行卷积加密,即指通过对称方阵Di与密钥方阵K的卷积得到方阵I,即 I = D i &CircleTimes; K , 其中,I∈F(R+N-1)×(R+N-1),F表示实数域,R表示实数域,N表示密钥‘k’的阶数,Di∈FR×R,K∈FN×N;然后将方阵I进行求向量均值后特征值分解求主成分,再将所得主成分转化为二进制码,将转换的二进制码连接起来作为该行或该列的认证码;
所有行的认证码构成行数字水印,所有列的认证码构成列数字水印。
6、根据权利要求1所述的HTML网页篡改检测与定位方法,其特征在于:所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,是指按照字符所在行从行数字水印中取对应认证码作为第一位,按照字符所在列从列数字水印中取对应认证码作为第二位,进行串接。
7、根据权利要求1所述的HTML网页篡改检测与定位方法,其特征在于:所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来,是指按照字符所在列从列数字水印中取对应认证码作为第一位,按照字符所在行从行数字水印中取对应认证码作为第二位,进行串接。
8、根据权利要求1所述的HTML网页篡改检测与定位方法,其特征在于:
所述大小写嵌入方式是HTML网页源代码中的标签中的字母每两个分组,指如果要嵌入的认证码是‘1’,则将HTML网页源代码的标签中对应的字母变为大写字母;如果要嵌入的认证码是‘0’,则将HTML网页源代码的标签中对应的字母变为小写字母;
所述网页数字水印的提取中,指将待检测的HTML网页源代码的标签中对应的大写字母抽取为认证码‘1’,小写字母抽取认证码为‘0’。
CN200910062858XA 2009-06-26 2009-06-26 Html网页篡改检测与定位方法 Expired - Fee Related CN101599118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910062858XA CN101599118B (zh) 2009-06-26 2009-06-26 Html网页篡改检测与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910062858XA CN101599118B (zh) 2009-06-26 2009-06-26 Html网页篡改检测与定位方法

Publications (2)

Publication Number Publication Date
CN101599118A true CN101599118A (zh) 2009-12-09
CN101599118B CN101599118B (zh) 2011-03-16

Family

ID=41420560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910062858XA Expired - Fee Related CN101599118B (zh) 2009-06-26 2009-06-26 Html网页篡改检测与定位方法

Country Status (1)

Country Link
CN (1) CN101599118B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799752A (zh) * 2009-12-31 2010-08-11 深圳联友科技有限公司 一种html页面控件变化的定位方法和系统
CN102831570A (zh) * 2012-08-21 2012-12-19 西南交通大学 可在浏览器上定位篡改位置的网页水印生成与认证方法
CN103201749A (zh) * 2011-01-05 2013-07-10 株式会社东芝 网页篡改检测装置及存储介质
CN103888465A (zh) * 2014-03-28 2014-06-25 新浪网技术(中国)有限公司 一种网页劫持检测方法及装置
CN105471910A (zh) * 2015-12-30 2016-04-06 广东欧珀移动通信有限公司 一种网络页面的处理方法及装置
CN105630790A (zh) * 2014-10-28 2016-06-01 阿里巴巴集团控股有限公司 网页编码的分析方法及装置
CN105678166A (zh) * 2015-12-18 2016-06-15 北京神州绿盟信息安全科技股份有限公司 一种篡改引擎测试方法和装置
CN108363910A (zh) * 2018-01-23 2018-08-03 南通大学 一种基于html代码的网页水印的嵌入与提取方法
CN108805787A (zh) * 2018-04-17 2018-11-13 北京溯斐科技有限公司 一种纸质文档篡改鉴真的方法和装置
CN108881154A (zh) * 2018-04-20 2018-11-23 北京海泰方圆科技股份有限公司 网页被篡改检测方法、装置及系统
CN109190412A (zh) * 2018-09-17 2019-01-11 杭州安恒信息技术股份有限公司 网页篡改的检测方法和装置
CN109462585A (zh) * 2016-01-08 2019-03-12 北京京东尚科信息技术有限公司 一种自动过滤网络运营商嵌入http响应内容的方法和装置
CN109962926A (zh) * 2019-04-09 2019-07-02 苏州浪潮智能科技有限公司 一种验证方法、设备和系统
CN110071912A (zh) * 2019-03-26 2019-07-30 阿里巴巴集团控股有限公司 数据检验方法、装置以及系统
CN110321675A (zh) * 2018-03-29 2019-10-11 中移(苏州)软件技术有限公司 基于网页水印的生成、溯源方法及装置
CN110457874A (zh) * 2019-08-02 2019-11-15 中国工商银行股份有限公司 一种信息写入方法、信息读取方法及装置
CN110489943A (zh) * 2019-07-15 2019-11-22 贝壳技术有限公司 页面水印防篡改方法和系统
CN111597107A (zh) * 2020-04-22 2020-08-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
CN112463955A (zh) * 2020-11-25 2021-03-09 浪潮商用机器有限公司 一种文本摘要生成方法及相关装置
CN112765601A (zh) * 2021-01-18 2021-05-07 西安博达软件股份有限公司 基于云端的网站首页结构监测方法
CN114760078A (zh) * 2022-06-15 2022-07-15 北京亿赛通科技发展有限责任公司 一种防止恶意篡改页面请求参数的方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521536B (zh) * 2011-12-06 2014-08-27 杭州安恒信息技术有限公司 数据库内核对象入侵检测方法及系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799752A (zh) * 2009-12-31 2010-08-11 深圳联友科技有限公司 一种html页面控件变化的定位方法和系统
CN101799752B (zh) * 2009-12-31 2015-03-04 深圳联友科技有限公司 一种html页面控件变化的定位方法和系统
CN103201749B (zh) * 2011-01-05 2015-12-09 株式会社东芝 网页篡改检测装置及存储介质
CN103201749A (zh) * 2011-01-05 2013-07-10 株式会社东芝 网页篡改检测装置及存储介质
US9100434B2 (en) 2011-01-05 2015-08-04 Kabushiki Kaisha Toshiba Web page falsification detection apparatus and storage medium
CN102831570A (zh) * 2012-08-21 2012-12-19 西南交通大学 可在浏览器上定位篡改位置的网页水印生成与认证方法
CN102831570B (zh) * 2012-08-21 2014-08-13 西南交通大学 可在浏览器上定位篡改位置的网页水印生成与认证方法
CN103888465A (zh) * 2014-03-28 2014-06-25 新浪网技术(中国)有限公司 一种网页劫持检测方法及装置
CN105630790A (zh) * 2014-10-28 2016-06-01 阿里巴巴集团控股有限公司 网页编码的分析方法及装置
CN105630790B (zh) * 2014-10-28 2019-06-04 阿里巴巴集团控股有限公司 网页编码的分析方法及装置
CN105678166A (zh) * 2015-12-18 2016-06-15 北京神州绿盟信息安全科技股份有限公司 一种篡改引擎测试方法和装置
CN105678166B (zh) * 2015-12-18 2018-05-25 北京神州绿盟信息安全科技股份有限公司 一种篡改引擎测试方法和装置
CN105471910A (zh) * 2015-12-30 2016-04-06 广东欧珀移动通信有限公司 一种网络页面的处理方法及装置
CN109462585A (zh) * 2016-01-08 2019-03-12 北京京东尚科信息技术有限公司 一种自动过滤网络运营商嵌入http响应内容的方法和装置
CN108363910A (zh) * 2018-01-23 2018-08-03 南通大学 一种基于html代码的网页水印的嵌入与提取方法
CN108363910B (zh) * 2018-01-23 2020-01-10 南通大学 一种基于html代码的网页水印的嵌入与提取方法
CN110321675A (zh) * 2018-03-29 2019-10-11 中移(苏州)软件技术有限公司 基于网页水印的生成、溯源方法及装置
CN108805787A (zh) * 2018-04-17 2018-11-13 北京溯斐科技有限公司 一种纸质文档篡改鉴真的方法和装置
CN108805787B (zh) * 2018-04-17 2022-08-23 北京数科网维技术有限责任公司 一种纸质文档篡改鉴真的方法和装置
CN108881154A (zh) * 2018-04-20 2018-11-23 北京海泰方圆科技股份有限公司 网页被篡改检测方法、装置及系统
CN109190412A (zh) * 2018-09-17 2019-01-11 杭州安恒信息技术股份有限公司 网页篡改的检测方法和装置
CN110071912B (zh) * 2019-03-26 2021-05-04 创新先进技术有限公司 数据检验方法、装置以及系统
CN110071912A (zh) * 2019-03-26 2019-07-30 阿里巴巴集团控股有限公司 数据检验方法、装置以及系统
CN109962926A (zh) * 2019-04-09 2019-07-02 苏州浪潮智能科技有限公司 一种验证方法、设备和系统
CN110489943A (zh) * 2019-07-15 2019-11-22 贝壳技术有限公司 页面水印防篡改方法和系统
CN110489943B (zh) * 2019-07-15 2020-07-28 贝壳找房(北京)科技有限公司 页面水印防篡改方法和系统
CN110457874A (zh) * 2019-08-02 2019-11-15 中国工商银行股份有限公司 一种信息写入方法、信息读取方法及装置
CN111597107A (zh) * 2020-04-22 2020-08-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
CN111597107B (zh) * 2020-04-22 2023-04-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
CN112463955A (zh) * 2020-11-25 2021-03-09 浪潮商用机器有限公司 一种文本摘要生成方法及相关装置
CN112765601A (zh) * 2021-01-18 2021-05-07 西安博达软件股份有限公司 基于云端的网站首页结构监测方法
CN114760078A (zh) * 2022-06-15 2022-07-15 北京亿赛通科技发展有限责任公司 一种防止恶意篡改页面请求参数的方法和系统

Also Published As

Publication number Publication date
CN101599118B (zh) 2011-03-16

Similar Documents

Publication Publication Date Title
CN101599118B (zh) Html网页篡改检测与定位方法
CN100437613C (zh) 用户辨识系统和用户辨识方法
Alanazi et al. Efficient security and capacity techniques for Arabic text steganography via engaging Unicode standard encoding
Taleby Ahvanooey et al. An innovative technique for web text watermarking (AITW)
US20160321531A1 (en) Composite information bearing devices
Khairullah A novel text steganography system using font color of the invisible characters in microsoft word documents
Roslan et al. Systematic literature review and analysis for Arabic text steganography method practically
Zhang et al. Coverless text information hiding method based on the word rank map
CN112001467A (zh) 一种基于图片加解密的商品防伪码生成与识别方法
CN102831570B (zh) 可在浏览器上定位篡改位置的网页水印生成与认证方法
Zhao et al. PCA-based web page watermarking
CN101833747A (zh) 一种生成基于数字水印的安全字库的方法及系统
CN108960387A (zh) 一种防伪造二维码及其生成和识别方法
Yaghobi et al. Text steganography in webometrics
Dlamini et al. Mitigating the challenge of hardcopy document forgery
Koley et al. A novel approach of secret message passing through text steganography
CN117935375A (zh) 一种手写电子签名防伪造方法
Eskenazi et al. When document security brings new challenges to document analysis
Mandal et al. A mathematical model for secret message passing using Steganography
Chou et al. Research on E-book text copyright protection and anti-tampering technology
US11361177B2 (en) Composite information bearing devices
WO2015140562A1 (en) Steganographic document alteration
Zhao et al. A PCA-based watermarking scheme for tamper-proof of web pages
Jalil et al. Improved zero text watermarking algorithm against meaning preserving attacks
CN101075292B (zh) 一种计算复杂度低的人脸识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110316

Termination date: 20120626