CN101599118A

CN101599118A - Html网页篡改检测与定位方法

Info

Publication number: CN101599118A
Application number: CNA200910062858XA
Authority: CN
Inventors: 金聪; 潘敏
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2009-06-26
Filing date: 2009-06-26
Publication date: 2009-12-09
Anticipated expiration: 2029-06-26
Also published as: CN101599118B

Abstract

本发明提供了一种HTML网页篡改检测与定位方法，包括如下过程：(1)水印预嵌入过程，从原始的HTML网页源代码中的每一行和每一列，分别进行每位字符的数值抽取，得到相应的一维数组，然后将产生的一维数组分别转换成二维矩阵；生成行数字水印和列数字水印，将行数字水印和列数字水印中的认证码二位串接起来，得到网页数字水印；将网页数字水印预嵌入到原始的HTML网页源代码中，(2)篡改检测及定位过程，首先进行网页数字水印的提取和恢复，然后通过对预嵌入的网页数字水印和新的网页数字水印比较，如果两个网页数字水印完全匹配，则表示网页源代码没有经过篡改；两个网页数字水印不完全匹配，否则将两个网页数字水印中认证码不同的行列定位为篡改位置。

Description

HTML网页篡改检测与定位方法

技术领域

本发明是一种涉及HTML网页技术领域的方法，特别是HTML网页篡改检测与定位方法。

背景技术

现今互联网已经成为人们信息获取和信息交流不可或缺的工具。人们能通过互联网发布自己的作品，传递重要信息等。但是，它在给人们带来便利的同时也暴露出越来越严重的安全问题，利用现有的技术网页很容易被篡改，单纯靠人眼很难判断出网页是否被篡改。网页的真实性认证和篡改检测及定位变得越来越重要。传统的基于散列函数的文件摘要技术是通过对网页源文件进行散列计算得出消息认证码，将消息认证码追加在预保护的网页文件中，通过对预检测网页进行抽取得到消息认证码，将得到的认证码与预检测网页生成的消息认证码进行比对来判断出网页是否被篡改。然而在实际应用中，这种方法往往会有诸多弊端，例如增加了文件的大小、消息认证码容易被发现等。数字水印技术是直接将消息认证码通过在行末加入空格、ULC或改变标记的属性的位置来嵌入到目标网页本身中，它不会改变网页的功能、不增加文件的大小、容易嵌入和抽取。利用数字水印对网页的真实性进行认证时，通常是将网页数据的消息认证码或数字签名(称之为认证信息)直接嵌入在网页中。

数字水印解决了在文件加密后增加了文件的大小、消息认证码容易被发现的问题，但是现有的基于网页的数字水印方案只能实现真实性认证，而无法实现对篡改位置的定位，其原因在于，消息认证码的获取算法是逆向的，对预检测的网页中的消息只能判断是否匹配而无法还原，即无法知道何处被篡改，从而无法定位。

经对现有技术的文献检索发现，Hongtao Lu等2007年在PatternRecognition(模式识别)期刊第40卷第1334-1341页上发表的论文PCA-basedWebpage Watermarking(基于PCA的网页数字水印)中提出了一种基于PCA的网页数字水印方案，该方案利用数字水印技术可实现对HTML网页篡改的检测，其不足在于无法实现对篡改位置的定位。

发明内容

本发明目的在于提供一种HTML网页篡改检测与定位方法，实现对网页篡改检测的同时能定位出篡改的位置。

本发明提供的一种HTML网页篡改检测与定位方法，包括如下过程：

(1)水印预嵌入过程

步骤1.1，从原始的HTML网页源代码中的每一行和每一列，分别进行每位字符的数值抽取，得到相应的一维数组，然后将产生的一维数组分别转换成二维矩阵；

步骤1.2，认证信息的产生，包括针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印，针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印，将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来，得到网页数字水印；

步骤1.3，采用大小写嵌入方式，逐行或逐列将网页数字水印预嵌入到原始的HTML网页源代码中；

(2)篡改检测及定位过程，

首先进行网页数字水印的提取和恢复，

所述网页数字水印的提取，即是逐行每二位分组将在水印预嵌入过程中预嵌入的网页数字水印从待检测的HTML网页源代码中提取出来，

所述网页数字水印的恢复，即对待检测的HTML网页源代码按照与水印预嵌入过程中步骤1.1～1.2一致的方式产生新的网页数字水印；

然后通过对预嵌入的网页数字水印和新的网页数字水印比较，如果两个网页数字水印完全匹配，则表示待检测的HTML网页源代码没有经过篡改，和原始HTML网页源代码一致；两个网页数字水印不完全匹配，则表示待检测的HTML网页源代码经过篡改，将两个网页数字水印中认证码不同的行列定位为篡改位置。

而且，所述从HTML网页源代码中进行每位字符的数值抽取，得到相应的一维数组，实现方式如下，

将HTML网页源代码的一行或一列中的字母、数字、符号按在HTML网页源代码中的顺序提取出来，然后将所有的字母、数字和符号转换为数值，转换规则为‘A’和‘a’转换为‘0’，‘B’和‘b’转换为‘1’，‘C’和‘c’转换为‘2’，…‘Z’和‘z’转换为25，‘0-9’转换为‘26-35’，符号按ASCII码表的位置排序后将序号加上35。

或者，所述从HTML网页源代码中进行每位字符的数值抽取，得到相应的一维数组，实现方式如下，

将HTML网页源代码的一行或一列中的有意义的字符按在HTML网页源代码中的顺序提取出来，然后将所有有意义的字符转换为数值，转换规则为根据常用字符与ASCII代码对照表，将字符对照所得的ASCII值减去32，如果减去后的ASCII值大于65的话再减去32，否则不减，最后得到的值即为对该字符数值抽取的结果。

而且，所述将产生的一维数组依次转换成二维矩阵的具体实现方式如下，

设对HTML网页源代码中的一行或一列进行每位字符的数值抽取所得一维数组记为m，一维数组m中元素个数为n，设

即t等于T向上取整后平方；

用一维数组m循环填充直到得到元素个数为t的一维数组M，将一维数组M按元素顺序填充为阶数为

的方阵，该方阵标记为H，将H×HT得到对称方阵D_i，D_i即为该行或列对应的二维矩阵。

而且，针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印，针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印，具体方式如下

对某行或列对应的二维矩阵进行卷积加密，即指通过对称方阵D_i与密钥方阵K的卷积得到方阵I，即

I = D_{i} &CircleTimes; K,

其中，I∈F^{(R+N-1)×(R+N-1)}，F表示实数域，R表示实数域，N表示密钥‘k’的阶数，D_i∈F^R×R，K∈F^N×N；

然后将方阵I进行求向量均值后特征值分解求主成分，再将所得主成分转化为二进制码，将转换的二进制码连接起来作为该行或列的认证码；

所有行的认证码构成行数字水印，所有列的认证码构成列数字水印。

而且，所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来，是指按照字符所在行从行数字水印中取对应认证码作为第一位，按照字符所在列从列数字水印中取对应认证码作为第二位，进行串接。

或者，所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来，是指按照字符所在列从列数字水印中取对应认证码作为第一位，按照字符所在行从行数字水印中取对应认证码作为第二位，进行串接。

而且，所述大小写嵌入方式是HTML网页源代码中的标签中的字母每两个分组，指如果要嵌入的认证码是‘1’，则将HTML网页源代码的标签中对应的字母变为大写字母；如果要嵌入的认证码是‘0’，则将HTML网页源代码的标签中对应的字母变为小写字母；

所述网页数字水印的提取中，指将待检测的HTML网页源代码的标签中对应的大写字母抽取为认证码‘1’，小写字母抽取认证码为‘0’。

本发明通过增加行列数字水印同时嵌入机制来检测网页的篡改，并定位出被篡改的行列位置，并且提供的是盲检测技术方案即不需要原有的网页。由于这种方法不增加网页文件的大小，不影响网页文件的功能，使得数字水印的嵌入、认证和网页篡改检测与定位的运算更为高效，可用于实时的网页安全系统。并且，本发明还增加对网页中的数字、符号篡改的检测，实现对纯英文网页的全部支持；在原始数据处理中，应用行列分块提取的思想来避免大矩阵的繁琐运算，从而实现对容量更大的网页的支持。本发明特别适用于对网页信息安全和实时响应要求较高的领域，如政府网站、军事网站、纪实网站等。

附图说明

图1是本发明流程示意图。

具体实施方式

以下结合附图详细说明本发明技术方案：

(1)水印预嵌入过程

步骤1.1，从原始的HTML网页源代码中的每一行和每一列，分别进行每位字符的数值抽取，得到相应的一维数组，然后将产生的一维数组依次转换成二维矩阵。

以前的技术对于预嵌入数字水印的网页仅仅只提取字母，现在加入对数字和一些符号的数值抽取，因为在网页中数字和符号的信息也是非常的重要。因此本发明提供一种实现方式为：将HTML网页源代码的一行或一列中的字母、数字、符号按在HTML网页源代码中的顺序提取出来，然后将所有的字母、数字和符号转换为数值，转换规则为‘A’和‘a’转换为‘0’，‘B’和‘b’转换为‘1’，‘C’和‘c’转换为‘2’，…‘Z’和‘z’转换为25，‘0-9’转换为‘26-35’，符号按ASCII码表的位置排序后将序号加上35。这样可以得到一行数值范围为[0，100]的一维数组。这些数值将参与数字水印的生成，从而实现了对网页中的字母、数字、基本符号的全面保护，可以实现对纯英文网页的全部支持。

本发明还提供另一种数值抽取实现方式为：将HTML网页源代码的一行或一列中的有意义的字符按在HTML网页源代码中的顺序提取出来，然后将所有有意义的字符转换为数值，转换规则为根据常用字符与ASCII代码对照表，将字符对照所得的ASCII值减去32，如果减去后的ASCII值大于65的话再减去32，否则不减，最后得到的值即为对该字符数值抽取的结果。例如字符“+”，该字符的ASCII值为43，减去32后所得的抽取数值应该为11；字符“z”(小写的)，该字符的ASCII值为122，减去32为90，由于90大于65，所以还要减去32，最后所得的抽取数值为58。

特殊的是，若源代码中有无效字符或空格则不考虑。

将产生的一维数组转换成二维矩阵，具体实施过程可为：设对HTML网页源代码中的一行或一列进行每位字符的数值抽取所得一维数组记为m，一维数组m中元素个数为n，设

即t等于T向上取整后平方；用一维数组m循环填充直到得到元素个数为t的一维数组M，将一维数组M按元素顺序填充为阶数为

的方阵，该方阵标记为H，将H×H^T得到对称方阵D_i，D_i即为该行或列对应的二维矩阵。这样产生的方阵D_i的大小将远远小于对源代码整个数值抽取生成的方阵E。相当于将E采用特殊的方法分块为D₁，D₂，D₃，…，D_y(其中y为网页源代码行数和列数的一半之和)。从而使处理容量更大的网页成为现实。更值得注意的是D₁，D₂，D₃，…，D_y全部参与生成数字水印的时间和空间需求要远远小于E参与生成数字水印的时间和空间。

步骤1.2，认证信息的产生，包括针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印，针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印，将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来，得到用于预嵌入的网页真实性认证信息即网页数字水印。

针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印，针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印，具体方式如下：

I = D_{i} &CircleTimes; K,

该过程借鉴了现有PCA技术，具体实现步骤可以按照以下运算方式：

(a)通过对称方阵D_i(D_i∈F^R×R)与密钥方阵K(K∈F^N×N)的卷积得到方阵I。

I = D_{i} &CircleTimes; K,

I∈F^{(R+N-1)×(R+N-1)} (1)

建议密钥方阵K采用简化的二维数组，便于矩阵加密和优化大型矩阵计算时满足实时性，例如K[2][2]＝{{0.1，0.3}，{0.2，0.1}}。

(b)生成向量均值I_R和矩阵V。

{\overset{&OverBar;}{I}}_{R} = (1 / (R + N - 1)) Σ_{i = 1}^{R + N - 1} I_{i} - - - (2)

V = Σ_{i = 1}^{R + N - 1} {(I_{i} - {\overset{&OverBar;}{I}}_{R})}^{T} (I_{i} - {\overset{&OverBar;}{I}}_{R}) - - - (3)

(c)将V进行特征值分解，

得到特征值λ₁，λ₂，...，λ_R+N-1和特征向量u₁，u₂，...，u_R+N-1；

其中λ₁，λ₂，...，λ_R+N-1是按照从大到小的顺序排列即λ₁≥λ₂≥...≥λ_R+N-1。

V＝ULU^-1 (4)

其中L表述一个矩阵，其中对角线上为特征分解后的特征值，U标识特征分解后的特征向量。

(d)求出满足下列不等式的X的最小x。

Σ_{i = 1}^{x} λ_{i} / Σ_{i = 1}^{R + N - 1} λ_{i} > 0.85 - - - (5)

具体实施时取值可以在0.85左右，代表主要成分。

(e)得到预处理的水印Z_i，其中Z_i是由x个元素组成的一维向量。

Z_i＝(I_i-I_R)[u₁ u₂...u_x] Z_i∈F^1×x (6)

(f)将Z_i的每个元素依次分别转换成二进制数再连接起来得到一个二进制水印W_i，则可以得到

W_{D_{i}} = W_{1} W_{2} W_{3} \cdot \cdot \cdot W_{R + N - 1} - - - (7)

即为某行(或某列)的认证码。所有行的认证码连接构成行数字水印，所有列的认证码连接构成列数字水印，然后合成网页数字水印，即为用于预嵌入的网页真实性认证信息。当连接后的二进制码长度大于相对应的源代码的长度时将二进制码长于源码的部分去掉，从而得到相应的认证码；当连接后的二进制码长度短于源码的长度时将该连接后的二进制码循环连接，直到长度达到源代码的长度时为止。具体实施时，可以是按照字符所在行从行数字水印中取对应认证码作为第一位，按照字符所在列从列数字水印中取对应认证码作为第二位，进行串接；也可以是按照字符所在列从列数字水印中取对应认证码作为第一位，按照字符所在行从行数字水印中取对应认证码作为第二位，进行串接。

步骤1.3，采用大小写嵌入方式，逐行或逐列将网页数字水印每二位分组预嵌入到原始的HTML网页源代码中；

本发明建议采用目前常用的大小写嵌入方式——ULC方式，即如果要嵌入的认证码是‘1’，则将HTML网页源代码的标签中对应的字母变为大写字母；如果要嵌入的认证码是‘0’，则将HTML网页源代码的标签中对应的字母变为小写字母。

以上过程即为附图1左边部分。

(2)篡改检测及定位过程

由于经过预嵌入后的原始的HTML网页源代码可能被篡改，因此对于提供给客户浏览的HTML网页源代码要进行检测，称为待检测的HTML网页源代码。

首先进行网页数字水印的提取和恢复，

所述网页数字水印的提取，即是逐行每二位分组将在水印预嵌入过程中预嵌入的网页数字水印从待检测的HTML网页源代码中提取出来。提前应该与预嵌入方式相应，也采用ULC方式提取。

所述网页数字水印的恢复，即对待检测的HTML网页源代码按照与水印预嵌入过程中步骤1.1～1.2一致的方式产生新的网页数字水印。具体的说，就是首先从待检测HTML网页源代码中的每一行和每一列，分别进行每位字符的数值抽取，得到相应的一维数组，然后将产生的一维数组分别转换成二维矩阵；然后针对所有行对应的二维矩阵生成行数字水印，针对所有列对应的二维矩阵生成列数字水印，将行数字水印和列数字水印中的认证码按照用于待检测的HTML网页源代码的字符位置二位串接起来，得到新的网页数字水印。

然后通过对预嵌入的网页数字水印和新的网页数字水印比较，如果两个网页数字水印完全匹配，则表示待检测的HTML网页源代码没有经过篡改，和原始HTML网页源代码一致；两个网页数字水印不完全匹配，则表示待检测的HTML网页源代码经过篡改，将两个网页数字水印中认证码不同的行列定位为篡改位置。具体实施时，可以逐行或逐列判断认证码是否不同。如果提取时被扫描的标签为大写的话，则得到“1”，否则得到“0”，这样可以得到一个元素为“1”或者“0”的二维矩阵P，同时将待检测的HTML网页源代码采用产生新的数字水印二维矩阵P′(P′的大小与P是匹配的)，将P与P′中的元素(“1”或者“0”)进行比对，如果P′与P相同则表示网页没有被篡改，否则把在两者中位置相同而元素的值不同的行列坐标标示出来，那么这些被标示出来的行列的坐标就是网页被篡改的位置。

以上过程即为附图1右边部分。

为了便于实施参考，以下提供一个实施例：

原始的HTML网页源代码(google网页源码中抽取的一小段)：

一、水印预嵌入过程

<a>源代码共4行，87列

<b>通过步骤1.1可以产生(4+87＝93)个二维矩阵，以获取第一个二维矩阵的具体过程为例：

对第一行源码进行抽取可得长度为45的一维数组如下：

851903670803866906031967190367020011673369671819241104866903081815110024836713141304846987

由于长度为45则可得二维矩阵的阶数为

将一维数组循环填充满64位，得到以下一维数组

85190367080386690603196719036702001167336967181924110486690308181511002483671314130484698785190367080386690603196719036702001167336967

将该一维数组按元素顺序填充为方阵：

8519036708038669

0603196719036702

0011673369671819

2411048669030818

1511002483671314

1304846987851903

6708038669060319

6719036702001167

<c>对行产生的4个二维矩阵分别进行卷积加密、采用PCA技术析提取主成分、将主成分转换为二进制再对接，可以得到某行认证码，例如第一行的认证码：

10101000101001000101010101010101010010010101

可以得到一个和源代码相匹配的行数字水印如下：

10101000101001000101010101010101010010010101

11110010010101010101001000011111101010100101010010100101001010101001010010010101001010

010100110100101010110010010101001010100101

110100101010000101001101001011010010100101001010101010001

<d>对列产生的87个二维矩阵按同样的方式处理得到一个和源代码相匹配的列数字水印如下：

010010110110010000111111010101001010101010011

10101110010101010010001010101001010101001010010100101010100101001001010100101010100010

010000111010010101010010110100101001010010

100101100101000010100110100100101011001001010101010100010

<e>将每组中第一个字母位置所对应的行数字水印和第二个字母位置所对应的列数字水印组成网页数字水印如下：

1110100111101000001111111111111101010111010101

1010011001010101000000100000101111111100011110101111011111000000010010100001111111001010

0100001100001111111100100101000010110000111

1001011011110000000001000001100000111000010111111100000000

将得到的网页数字水印按照ULC嵌入方式对源代码进行嵌入，即将源代码中的每行标签中的字母(’<’与’>’中的字母)按顺序两两一组，如果要嵌入的认证码是‘1’，则将HTML网页源代码的标签中对应的字母变为大写字母；如果要嵌入的认证码是‘0’，则将HTML网页源代码的标签中对应的字母变为小写字母，得到预嵌入后的原始的HTML网页源代码。

二、篡改检测及定位过程

<a>将待检测的HTML网页源代码(该源代码中已预嵌入网页数字水印，如下：)

<dIv STylE＝″pOsItIon:relatIvE；TOP:0pX；LeFt:0PX；HEIGHt:136pX；OvErflwE:

HIDDEn；″>

按照ULC提取方式对源代码进行提取可得与该网页源代码对应的由元素为“1”或者“0”的二维矩阵P。

0010100111101000001111111111111101010111010101

101001100101010101010010000010110111110001111010111101111100000001001010000111111100101

0100001100001111111100100101000010110000111

1001011011110000000001000001100000111000010111111100000000

<b>将待检测的HTML网页源代码按照预嵌入过程中的方法生成预嵌入的数字水印二维矩阵P′。

1110100111101000001111111111111101010111010101

0100001100001111111100100101000010110000111

1001011011110000000001000001100000111000010111111100000000

<c>将P与P′中的元素(“1”或者“0”)进行比对，如果P′与P相同则表示目标网页没有被篡改，否则把在两者中位置相同而元素的值不同的行列坐标标示出来，那么这些被标示出来的行列的坐标就是目标网页被篡改的位置。例如在比较P与P′后可以发现待检测的网页中被篡改的位置为：

**10100111101000001111111111111101010111010101

10100110010101010*0*001000001011*1111100011110101111011111000000010010100001111111001010

0100001100001111111100100101000010110000111

1001011011110000000001000001100000111000010111111100000000

其中用‘*’表示的位置即为被篡改的位置。

Claims

1、HTML网页篡改检测与定位方法，其特征在于，包括如下过程：

(1)水印预嵌入过程

(2)篡改检测及定位过程

首先进行网页数字水印的提取和恢复，

2、根据权利要求1所述的HTML网页篡改检测与定位方法，其特征在于：所述从HTML网页源代码中进行每位字符的数值抽取，得到相应的一维数组，实现方式如下，

3、根据权利要求1所述的HTML网页篡改检测与定位方法，其特征在于：所述从HTML网页源代码中进行每位字符的数值抽取，得到相应的一维数组，实现方式如下，

4、根据权利要求1或2或3所述的HTML网页篡改检测与定位方法，其特征在于：所述将产生的一维数组分别转换成二维矩阵的具体实现方式如下，

T = \sqrt{n},

即t等于T向上取整后平方；

用一维数组m循环填充直到得到元素个数为t的一维数组M，将一维数组M按元素顺序填充为阶数为的方阵，该方阵标记为H，将H×H^T得到对称方阵D_i，D_i即为该行或列对应的二维矩阵。

5、根据权利要求4所述的HTML网页篡改检测与定位方法，其特征在于：针对步骤1.1产生的所有行对应的二维矩阵生成行数字水印，针对步骤1.1产生的所有列对应的二维矩阵生成列数字水印，具体方式如下

I = D_{i} &CircleTimes; K,

其中，I∈F^{(R+N-1)×(R+N-1)}，F表示实数域，R表示实数域，N表示密钥‘k’的阶数，D_i∈F^R×R，K∈F^N×N；然后将方阵I进行求向量均值后特征值分解求主成分，再将所得主成分转化为二进制码，将转换的二进制码连接起来作为该行或该列的认证码；

6、根据权利要求1所述的HTML网页篡改检测与定位方法，其特征在于：所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来，是指按照字符所在行从行数字水印中取对应认证码作为第一位，按照字符所在列从列数字水印中取对应认证码作为第二位，进行串接。

7、根据权利要求1所述的HTML网页篡改检测与定位方法，其特征在于：所述将行数字水印和列数字水印中的认证码按照原始的HTML网页源代码的字符位置二位串接起来，是指按照字符所在列从列数字水印中取对应认证码作为第一位，按照字符所在行从行数字水印中取对应认证码作为第二位，进行串接。

8、根据权利要求1所述的HTML网页篡改检测与定位方法，其特征在于：

所述大小写嵌入方式是HTML网页源代码中的标签中的字母每两个分组，指如果要嵌入的认证码是‘1’，则将HTML网页源代码的标签中对应的字母变为大写字母；如果要嵌入的认证码是‘0’，则将HTML网页源代码的标签中对应的字母变为小写字母；