CN101984620B

CN101984620B - 码本生成方法与隐蔽通信系统

Info

Publication number: CN101984620B
Application number: CN201010520021.8A
Authority: CN
Inventors: 谭庆丰; 时金桥; 王啸
Original assignee: Institute of Computing Technology of CAS
Current assignee: Shanghai Yinglian Information Technology Co ltd
Priority date: 2010-10-20
Filing date: 2010-10-20
Publication date: 2013-10-02
Anticipated expiration: 2030-10-20
Also published as: CN101984620A

Abstract

本发明提供一种码本生成方法，包括：收集用户的互联网访问历史记录；根据历史访问记录计算出推荐URL序列；由范围映射算法生成动态字典；根据推荐URL序列与动态字典生成最终的码本。本发明还提供了一种隐蔽通信系统，该系统包括隐蔽通信客户端、隐蔽通信服务器端；所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接，所述的隐蔽通信服务器端还通过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器。本发明能够有效降低隐蔽通信客户端与服务器端之间的交互次数，减少通信过程中的延时。

Description

码本生成方法与隐蔽通信系统

技术领域

本发明涉及信息安全领域，特别涉及一种码本生成方法与隐蔽通信系统。

背景技术

以信息隐藏技术为基础的隐蔽通信是当前技术发展的一个热点。与只能够让外部的第三方无法了解通信内容的加密通信相比，隐蔽通信不仅仅能够隐藏通信的内容，还能够隐蔽通信的发起者与接受者，甚至让第三方无法察觉到此次通信过程的存在。

现有技术中对隐蔽通信已经有一定的研究，Web通信作为目前互联网最为常见的通信行为已经成为进行隐蔽通信的主要方式之一。现有技术中基于Web通信行为实现的隐蔽通信方式又有多种。以往基于TCP/IP协议或者HTTP协议的隐蔽通信方式通常利用协议本身各个字段的特点，将信息隐藏在协议的各个字段中，这种方式往往会具有某种结构特征。而基于计时的隐蔽通信方式又往往具有某种流模式。由此，本领域技术人员提出了利用HTTP协议中上传隧道和下载隧道的不对称性进行隐蔽通信的方法。该方法将隐蔽通信协议的命令信息隐蔽在上传Web通信行为中，将信息传输过程中的内容信息利用隐写术隐蔽在下行网络流量中，从而抵御流量审查和流量规格化攻击。此外，在信息传输中还可采用加密认证的方式来保证信息内容的安全性，利用免费代理和志愿者代理来达到抵御追踪的目的，从而在隐蔽通信客户端和隐蔽通信服务端之间构成一条隐蔽隧道。

在参考文献1“Travis Gagie，Dynamic asymmetric communication，information processing letters，November 2008，Vol.108，no.6，pp.352-355”中，Adler和Maggs基于不对称通信理论提出了非对称通信模型，在该通信模型中，由于隐蔽通信服务端可以知道所有来自客户端的知识(即HTTP请求信息)，而客户端只知道它自己的请求信息，因此，服务器端可以精确计算出来自所有客户端请求信息的概率分布，这样就可以利用这种非对称通信通道维护掩体服务器上所有存在的web页面的频率分布，即客户可能发送到服务端的HTTP请求(URL)和该HTTP请求所对应的频率，以此来减少隐蔽通信客户端发送到隐蔽通信服务段的请求次数。

在参考文献2“M.Adler，B.Maggs，protocols for asymmetriccommunication channels，in proceeding of 39^th IEEE symposium onfoundations of computer science(FOCS)，Palo Alto，CA，1998”中，Feamster等人基于Adler与Maggs所提出的不对称通信模型设计出一个抗流量审查的隐蔽通信系统Infranet，该隐蔽通信系统中的客户端将用户实际需要的HTTP请求通过一系列为审查者可见的掩体HTTP请求隐藏起来，由服务器负责找出用户实际需要的目标内容，然后再将这些目标内容隐写在掩体资源文件中，审查者只能看到掩体资源文件而无法看到其中所隐写的内容，因此目标内容可在客户端被读出并返还给用户浏览器。这一系统的缺点在于HTTP交互次数过多，延时过长。

发明内容

本发明的目的是克服现有技术中的隐蔽通信方法和系统HTTP交互次数过多，延时过长等缺陷，从而提供一种用时短的隐蔽通信系统。

为了实现上述目的，本发明提供了一种码本生成方法，包括：

步骤1)、收集用户的互联网访问历史记录；

步骤2)、根据历史访问记录计算出推荐URL序列；

步骤3)、由范围映射算法生成动态字典；

步骤4)、根据步骤2)得到的推荐URL序列与步骤3)得到的动态字典生成最终的码本。

上述技术方案中，在所述的步骤1)中还包括对所述的互联网访问历史记录的预处理；所述预处理包括：

用于识别不同用户的活动以及同一用户不同访问的会话识别；

用于识别不同用户的用户识别；

用于识别用户所访问的网页的访问页识别。

上述技术方案中，所述的互联网访问历史记录包括IP地址、时间、请求、身份、大小、引用、代理；所述的会话识别根据请求的主机信息和引用信息实现；所述的用户识别根据所述的IP地址与代理信息实现；所述的访问页识别根据所述请求和引用实现。

上述技术方案中，所述的步骤2)包括：

步骤2-1)、计算出用户可能访问的目标页面的概率；

步骤2-2)、对步骤2-1)所得到的概率进行排序，按照从大到小的顺序选择某个阈值范围内的几个相应页面的URL作为推荐URL序列。

上述技术方案中，在所述的步骤2-1)中，采用增量学习的全K阶的马尔科夫树来计算概率；包括：

步骤2-1-1)、首先将由所述历史访问记录中所得到的用户历史上的HTTP请求序列增量插入到马尔科夫树中；

步骤2-1-2)、然后将前面若干次访问的URL作为一个会话序列传入所述马尔科夫树，根据所述马尔科夫树得到该用户在前面访问序列下，下一次访问某个页面的概率的大小。

上述技术方案中，在所述的步骤2-1-1)中，还包括对马尔科夫树做剪枝操作，剪去所述马尔科夫树中访问概率较低的页面。

上述技术方案中，所述的步骤4)包括：

步骤4-1)、对于所述推荐URL序列中的每一个URL执行下列步骤；

步骤4-2)、在所述动态字典中查找第i个候选的目标URL，使得该候选的目标URL在动态字典中的顺序刚好大于或等于该推荐URL，然后返回与该候选的目标URL所对应的掩体页面的URL；

步骤4-3)、将所返回的掩体页面的URL与所述的推荐URL组成一个URL对，将这一URL对添加到所述动态字典中。

本发明还提供了一种隐蔽通信系统，该系统包括隐蔽通信客户端、隐蔽通信服务器端；所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接，所述的隐蔽通信服务器端还通过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器；其中，

所述的隐蔽通信客户端根据隐蔽通信协议将用户的请求编码后发送给所述的隐蔽通信服务器端；所述的隐蔽通信服务器端采用根据用户的互联网访问历史记录来生成码本的码本生成方法生成码本，根据该码本找出所述的目标服务器，访问目标服务器获取用户的目标信息，访问掩体信息服务器获取掩体信息，将用户目标信息隐藏在掩体信息中，然后经由隐蔽通信客户端返回给用户。

上述技术方案中，还包括代理资源发布模块，所述代理资源发布模块位于所述隐蔽通信客户端上；它根据代理发布策略定时发布一批可用的代理资源列表，所述隐蔽通信客户端通过代理资源列表中的信息找寻代理服务器，通过找寻到的代理服务器连接到所述的隐蔽通信服务器端。

本发明的优点在于：

本发明能够有效降低隐蔽通信客户端与服务器端之间的交互次数，减少通信过程中的延时。

附图说明

图1为现有技术中的Infranet隐蔽通信系统的结构图；

图2为在现有的Infranet隐蔽通信系统中隐蔽访问一个网站的实例图；

图3为本发明的隐蔽通信系统的结构图；

图4为采用现有技术中的码本生成方法进行隐蔽通信时客户端与服务器端之间交换码本的次数与采用本发明的码本生成方法进行隐蔽通信时客户端与服务器端之间交换码本的次数的比较图；

图5为码本大小为8时，现有技术方法与本发明方法的迭代次数比较图；

图6为现有技术中的范围映射算法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

图1中为前述参考文献2中所提到的Infranet系统的结构图，从该图中可以看出，该系统包括位于用户浏览器端的Infranet客户端以及Infranet服务器，Infranet客户端与Infranet服务器通过网络连接，所述Infranet服务器还与用户真正希望访问的目标服务器通过网络连接。在背景技术中已经给出了Infranet系统的工作过程，其中的Infranet客户端将用户实际需要的HTTP请求通过一系列为审查者可见的掩体HTTP请求隐藏起来，由Infranet服务器负责找出用户实际需要的目标内容，然后再将这些目标内容隐写在掩体资源文件中，使得网络中的审查者只能看到掩体资源文件而无法看到其中所隐写的内容，因此目标内容可在Infranet客户端被读出并返还给用户浏览器。

在Infranet系统的上述工作过程中，如何编码HTTP请求，即如何用一系列掩体HTTP请求代替用户实际需要的目标HTTP请求，并能为Infranet服务器所理解是其中的关键问题。Infranet系统采用了范围映射算法来生成用于描述目标URL与掩体页面URL间对应关系的码本(codebook)，利用所述的码本解决这一问题。所述的范围映射算法如图6所示，其输入为掩体服务器的页面概率分布、当前收到的HTTP请求、上次计算出来字符串的上边界string_max和下边界string_min，所得到的结果为所述码本，具体实现步骤如下：

步骤1)、首先判断字符串的迭代范围(即字符串中字符的取值范围)是否为0，若为0(即上次的上界和下界相等)，则代表找到了目标页面，将所找到的目标页面信息保存在码本中，停止本算法的操作，若不为0，则执行下一步；

步骤2)、通过求字符串上边界与字符串下边界之差来计算总的迭代范围；然后初始化第一次迭代的下边界；

步骤3)、接着对于所有的掩体站点页面做如下操作：根据当前HTTP请求的页面概率设定本次迭代的字符串上边界，根据字符串的上边界计算出分割字符串，保存当前分割字符串和掩体页面，并把字符串上边界修改为本次计算的最小上边界；

步骤4)、对所有的掩体站点页面完成上述操作后，得到由分割字符和掩体页面所组成的对，由这些对形成码本，最后进入下一次迭代。

参考图2，假设有一个用户在Infranet系统中希望访问CNN的官方网站(www.cnn.com)，出于某种原因，他不希望被网络中的审查者知道他的这一请求，即他希望秘密请求访问CNN官方网站。客户端首先会请求隐蔽通信服务器(即图1中的Infranet服务器)，并从该服务器端接收到一个初始的码本，这一码本通常被隐写在一个图片中。所述码本中包括两个部分，一部分为目标URL候选集，例如图2中从左到右数第一个码本的左半部分；另一部分为掩体页面，如图2中的前述第一个码本的右半部分。目标URL候选集中包括有限个数的目标URL，客户端从目标URL候选集中寻找是否有他希望秘密访问的网站地址，如果没有的话则从目标URL候选集中寻找一个与其希望秘密访问的网站地址“最为接近的”URL，如图2的第一个码本中的“cctv.com”，根据码本，该URL所对应的掩体页面的URL为“url3.html”。在得到前述掩体页面的URL后，该掩体URL会通过一次正常的HTTP请求告知Infranet服务器，由该服务器从相应的内容服务器端寻址生成相应的掩体页面。与此同时，Infranet服务器需要根据前次的目标URL选择结果，根据前述的范围映射算法生成新的码本。所生成的新码本如图2中的从左到右数的第二个码本，所生成的新码本会被隐写到前述“url3.html”所对应的页面中，随着该页面传输到所述Infranet系统的客户端。客户端接收到新的码本后，继续寻找与所希望秘密访问的网站地址最为接近的URL，如图2中第二个码本中的“cnki.net”，与前面的操作相似，由该URL所对应的掩体页面隐写新生成的码本，如此循环往复，直到所希望秘密访问的网站CNN的URL地址被找到，从该网站所得到的信息被隐写在对应的隐藏页面中并返回给Infranet系统的客户端，由客户端读出被隐写的数据后返回给用户。在这一过程中，网络中的审查者只能看到掩体页面的内容，而无法看到包括码本、秘密访问的网站中的内容。

由于在诸如Infranet系统的非对称通信模型中，隐蔽通信服务端只知道所有来自客户端的HTTP请求信息，而不会利用客户端访问历史知识，预测下一次用户最有可能访问的URL，因此，隐蔽通信服务器端只能精确计算出来自所有客户端请求掩体资源信息的概率分布，而不知道目标资源的访问概率分布，造成了现有的Infranet系统具有HTTP交互次数过多，延时过长等缺陷。

从现有技术的上述缺陷来看，减少HTTP交互次数，缩短延时的关键在于如何提高服务器端新生成的码本与用户历史记录的耦合性，使得新生成的码本尽可能地包含用户希望秘密访问的网站的URL。因此在本发明中首先要提供一种新的码本生成方法。

下面首先对本发明中的生成新的码本的相关方法加以说明，这一方法也被称为自适应算法。

步骤1)、收集用户的互联网访问历史记录，并对其进行预处理。对于一个特定的用户，只要不是初次登录互联网，其对互联网上网站的访问情况都会有相应的历史记录。这些访问历史记录包括该用户过去经常访问哪些web网站，由这些访问历史记录还可以知道哪些web网站会被大多数人经常访问。本发明中需要收集这些访问历史记录并保存在与隐蔽通信有关的服务器端，所述服务器端得到这些访问历史记录后，在后续操作中就可以根据这些访问历史记录计算最有可能访问的web页面。

访问历史记录中包含有比较丰富的信息，在下面的表1中给出了预处理之前的访问历史记录的基本格式。

IP地址

时间

请求

身份

大小

引用

代理

表1

由于访问历史记录中的这些信息并非都是本发明所必需的，因此为了便于后续处理，需要对历史访问记录进行预处理。所述的预处理主要包括会话识别、用户识别和访问页识别。所述的会话识别主要是正确识别不同的用户活动，并正确分割同一个用户的不同访问，会话识别利用了访问历史记录中“请求”的主机信息与引用信息，会话识别的结果是得到会话序列。所述的用户识别通过将访问历史记录中的“IP地址”与“代理”信息相结合来识别各个用户，用户识别的结果是得到用户序列。所述的访问页识别是通过“请求”和“引用”来识别用户访问的web页面，识别的结果是所请求的目标页面。上述会话识别、用户识别以及访问页识别所得到的结果将在下一步得到应用。

步骤2)、根据访问历史记录计算推荐URL序列。

在得到用户的访问历史记录以后，当某一用户登录互联网时，就可以根据其以往的访问历史记录来计算推荐URL序列。所述的推荐URL序列是指用户下一次所要访问的可能性较大的那些网页的URL。

根据访问历史记录计算推荐URL序列可以采用概率计算的方式，首先计算出用户可能访问的目标页面的概率，然后按照概率排序，按照概率从大到小的顺序，选择某个阈值范围内的几个相应页面的URL作为推荐URL序列。此处所提到的阈值的大小可以由用户根据实际需要确定。

在计算页面的概率时，在理论上可以根据贝叶斯概率理论做概率计算。在计算过程中会用到之前预处理过程中会话识别、用户识别的结果。假设用W表示一个用户的web会话序列(即会话识别所得到的结果)，其长度为L，它表示在此之前该用户已经访问了L个web页面；用p()表示概率，T表示某个目标站点所有页面的集合，t表示某个页面，则p(t_i|W)可用来表示用户访问W以后下次访问页面t_i的概率；那么，下一个web访问页面t_L+1的概率计算公式如下面的公式(1)：

t_{L + 1} = \underset{t &Element; T}{\arg \max} {p (t_{L + 1} = t | W)} = \underset{t &Element; T}{\arg \max} {p (t_{L + 1} = t | t_{L}, t_{L - 1}, \cdot \cdot \cdot, t_{1})} - - - (1)

在本实施例中，可以采用一个增量学习的全K阶的马尔科夫树来计算概率。因此，首先要根据由访问页识别结果所得到的历史上用户所请求的访问页面序列(即用户以前的HTTP请求序列)增量插入到马尔科夫树。这一过程为本领域技术人员所公知，下文给出这一过程的伪代码以作为参考。

//将用户之前的HTTP请求序列增量插入马尔科夫树中

Procedure BuildMarkovTree(session，root)

Input:session为HTTP请求序列，root马尔科夫树的根节点

Output：马尔科夫树

Begin

Ptr＝root；

Count＝min(|session|，k)//k为马尔科夫阶数

For i＝0 to count

//把Session中请求序列页面从最后一个开始，插入到临时会话序列S

Copy(session.end()-i，session.end()，back_inserter(S))

If|S|＝＝0://如果S为空，则ptr所指向节点的页面数加1

Ptr-＞selfCount++

Else

For iter＝S.begin() to S.end()

Ptr-＞childCount++//将ptr所指孩子节点的页面访问计数加1

If not_exit_first_child(iter，ptr)

//如果ptr所指节点的孩子节点的页面不是iter，则将ptr所指节点的numChildren变量加1，并将iter添加到ptr的孩子节点。

Ptr-＞numChildren++ //为所有孩子节点访问计数

addFirstChildNode(iter，ptr)

else if not_exit_next_sibling(iter，ptr)

//如果ptr所指节点的兄弟节点中没有访问过iter，则将ptr所指节点的numChildren变量加1，并将iter添加到ptr的下一个兄弟节点中去

ptr-＞numchildren++

addNextSiblingNode(iter，ptr)

End If

If iter＝＝session.end()//如果iter为会话中的最后一个页面，即最近访问的页面则将ptr所指向的页面访问自计数加1

Ptr-＞selfCount++；

End if

End For

End If

End For

End

在得到马尔科夫树以后，就可以将上几次访问的URL作为一个会话序列传入马尔科夫树，根据马尔科夫树得到该用户在前面访问序列下，下一次访问某个页面的概率的大小。在下面的公式(2)中给出了通过马尔科夫树求某一页面概率的方法。

p (t_{i} | W) = \frac{Frequency (< W, t_{i} >)}{Frequency (W)} - - - (2)

上述公式中，W表示会话序列，t_i表示第i个页面，Frequency表示次数。

在本发明的一个优选实施例中，还可以对马尔科夫树做频率剪枝操作，从而提高预测精度，降低时间复杂度。所述的频率剪枝操作就是将马尔科夫树中具有较低访问概率(较低访问概率的范围可以由用户根据实际需要确定)的页面裁减掉，以减小马尔科夫树的规模，降低存储马尔科夫树所需要的存储空间。对马尔科夫树中某一页面的访问概率也可以通过之前的公式(2)计算得到。另外，频率剪枝操作可以与之前所提到的马尔科夫树的增量插入操作同时进行，即在一次或若干次增量插入操作以后做一次频率剪枝操作，然后继续进行增量插入操作。

步骤3)、由范围映射算法生成动态字典。

所述的动态字典实质上就是一种码本，只是该码本是动态生成的。在前文的背景技术部分已经就如何由范围映射算法生成动态字典的过程做了说明，因此本步骤中不再做详细说明。

对于推荐URL序列中的每一个URL(将推荐URL序列中的URL简称为推荐URL)，首先在动态字典中查找第i个候选的目标URL，使得该候选的目标URL在字典中的顺序刚好大于或等于该推荐URL，返回与该候选的目标URL所对应的掩体页面的URL；然后将所返回的掩体页面的URL与所述的推荐URL组成一个URL对，将这一URL对添加到动态字典中。对于推荐URL序列中的每一个URL都做如上操作后，所述的动态字典就转变为本发明中所要求的最终码本。

以上是对本发明如何生成码本的相关方法的说明。本发明的隐蔽通信系统与现有技术中的Infranet系统相比的最大差别在于，隐蔽通信系统中的隐蔽通信服务器端采用本发明的码本生成方法来生成码本。具体的说，在一个实施例中，本发明的隐蔽通信系统包括隐蔽通信客户端、隐蔽通信服务器端。所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接，所述的隐蔽通信服务器端还可通过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器。其中的目标服务器是用户真正希望访问的网站所在的服务器，而掩体信息服务器是掩体网站所在的服务器。本领域技术人员很容易理解，上述的目标服务器与掩体信息服务器在不同的通信过程中可能会有所不同，具体的目标服务器与掩体信息服务器与具体的通信过程有关。

隐蔽通信客户端通过隐蔽通信协议将用户的请求编码后发送给隐蔽通信服务器端，隐蔽通信客户端还要接受隐蔽通信服务器端所返回的结果，提取结果中的隐藏信息，通过排序、重组、解密等方法恢复原有信息，并提交给用户。此外，隐蔽通信客户端还要和服务器进行会话协商、协议初始化和认证等工作。

隐蔽通信服务器端的功能包括：通过客户端的通信行为解码获取用户目标资源信息，生成用于描述目标URL与掩体页面URL间对应关系的码本，并通过该码本找出目标服务器，访问目标服务器获取用户的目标信息，访问掩体网站获取掩体信息，将用户目标信息隐藏在掩体信息中，然后转发到客户端。此外，服务器还和客户端代理进行会话协商等工作，进行协议初始化和认证等工作。需要特别说明的是，隐蔽通信服务器端在生成码本时采用了前述的本发明的码本生成方法。

作为一个较佳实施例，本发明的隐蔽通信系统如图3所示，还包括有代理资源发布模块，该模块通常位于隐蔽通信客户端上。它的功能是根据代理发布策略定时发布一批可用的代理资源列表，隐蔽通信客户端通过代理资源列表中的信息找寻代理服务器，通过找寻到的代理服务器连接到隐蔽通信服务器端。这样使得隐蔽通信服务器端具有更好的私密性，不易于为网络中的审查者或其他无关节点发现隐蔽通信服务器端。在本实施例中，所述代理发布策略包括分区发布和分时发布，即对于同一个请求的IP在某一个时间间隔只能获取到相同的代理，而对于同一个地区即IP段发布的代理资源是不一样的。在其他实施例中，代理发布策略也可以根据实际情况有所不同。代理发布策略的使用能够使得恶意节点(如审查者部署的恶意节点)无法得到隐蔽通信客户端所发布的所有代理资源，避免代理资源被全部封堵或全部被流量审查。

上文中分别对本发明的码本生成方法以及隐蔽通信系统的结构做了说明，下面仍然以前面所提到的图2的例子为例，对一个用户要秘密访问CNN网站时，利用本发明的方法和系统如何实现隐蔽通信的过程加以说明。

当一个用户在本发明的诸如图3的系统中同样希望秘密访问CNN的官方网站(www.cnn.com即为目标URL)时，该用户通过隐蔽通信客户端向代理资源发布模块请求代理资源，然后根据这些代理资源找寻到一个代理服务器，通过该代理服务器连接到隐蔽通信服务器端上。隐蔽通信服务器端首先会向隐蔽通信客户端发送一个初始码本，该初始码本在生成过程中已经考虑到了该用户的历史访问记录，在目标URL候选集中包含有根据前述方法所生成的推荐URL序列。隐蔽通信客户端根据用户所请求的目标URL从所述目标URL候选集中找出最为接近的URL，根据码本找到该URL所对应的掩体页面的URL；隐蔽通信服务器端根据掩体页面的URL从掩体信息服务器得到掩体页面，并继续根据前述的码本生成方法生成包括有推荐URL序列的新的码本，将该码本隐写在掩体页面中后返回给隐蔽通信客户端。由于新的码本中包含有根据用户的访问历史记录所生成的推荐URL序列，因此隐蔽通信客户端根据从新的码本中找出目标URL的可能性很大，完全有可能通过2-3次交互就能找到目标URL。一旦找到目标URL，隐蔽通信服务器端就可从隐蔽通信目标的服务器中读取出相应的内容，隐写在掩体页面中，传输到隐蔽通信客户端，由客户端读出被隐写的数据然后返回给用户。

为了证明本发明的效果，申请人设计了一个原型系统，该系统服务器端的硬件平台为CPU主频3.0GHZ，内存1G；操作系统为Ubuntu发行版9.04；支撑环境：Java Runtime Environment 6.0、Tomcat服务器6.0、Squid2.6。客户端的硬件平台为：CPU主频3.0GHZ，内存1G；操作系统为：Linux Ubuntu发行版9.04。该系统主要测试了上行通信和下行通信过程中码本的交互次数，也就是迭代查找目标资源的次数。同时还测试了每次交互的时延。

图4给出了当采用现有技术中的码本生成方法进行隐蔽通信时客户端与服务器端之间交换码本的次数与采用本发明的码本生成方法进行隐蔽通信时客户端与服务器端之间交换码本的次数的比较图。该图中，无马尔科夫推荐表示之前背景技术中所提到的范围映射算法，而有马尔科夫推荐表示本发明的方法。从图中可以明显看出，在码本大小相同(都为16)的情况下，采用本发明方法所需要的迭代次数平均在2次左右，远远小于现有技术中的方法的迭代次数在6次的水平。

在图5中又给出了码本大小为8时，现有技术方法与本发明方法的迭代次数比较图，同样可以得出本发明方法的迭代次数远远小于现有技术方法的结论。

而在时延方面，背景技术中所提到的范围映射算法无论在第一次访问某个站点情况下还是后续的访问，请求每个页面的平均时延为4秒到5秒之间，而其码本大小为对时延没有明显影响。而本发明方法的平均时延在3.5秒到4.5秒之间。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于隐蔽通信系统的码本生成方法，包括：

步骤1）、收集用户的互联网访问历史记录；

步骤2）、根据历史访问记录计算出推荐URL序列；

步骤3）、由范围映射算法生成动态字典；

步骤4）、根据步骤2）得到的推荐URL序列与步骤3）得到的动态字典生成最终的码本；

其中，所述的步骤2）包括：

步骤2-1）、计算出用户可能访问的目标页面的概率；

步骤2-2）、对步骤2-1）所得到的概率进行排序，按照从大到小的顺序选择某个阈值范围内的几个相应页面的URL作为推荐URL序列；

所述的步骤4）包括：

步骤4-1）、对于所述推荐URL序列中的每一个URL执行下列步骤；

步骤4-2）、在所述动态字典中查找候选的目标URL，使得该候选的目标URL在动态字典中的顺序大于或等于该推荐URL，然后返回与该候选的目标URL所对应的掩体页面的URL；

步骤4-3）、将所返回的掩体页面的URL与所述的推荐URL组成一个URL对，将这一URL对添加到所述动态字典中。

2.根据权利要求1所述的方法，其特征在于，在所述的步骤1）中还包括对所述的互联网访问历史记录的预处理；所述预处理包括：

用于识别不同用户的用户识别；

用于识别用户所访问的网页的访问页识别。

3.根据权利要求2所述的方法，其特征在于，所述的互联网访问历史记录包括IP地址、时间、请求、身份、大小、引用、代理；所述的会话识别根据请求的主机信息和引用信息实现；所述的用户识别根据所述的IP地址与代理信息实现；所述的访问页识别根据所述请求和引用实现。

4.根据权利要求1所述的方法，其特征在于，在所述的步骤2-1）中，采用增量学习的全K阶的马尔科夫树来计算概率；包括：

步骤2-1-1）、首先将由所述历史访问记录中所得到的用户历史上的HTTP请求序列增量插入到马尔科夫树中；

步骤2-1-2）、然后将前面若干次访问的URL作为一个会话序列传入所述马尔科夫树，根据所述马尔科夫树得到该用户在前面访问序列下，下一次访问某个页面的概率的大小。

5.根据权利要求4所述的方法，其特征在于，在所述的步骤2-1-1）中，还包括对马尔科夫树做剪枝操作，剪去所述马尔科夫树中访问概率较低的页面。

6.一种隐蔽通信系统，其特征在于，该系统包括隐蔽通信客户端、隐蔽通信服务器端；所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接，所述的隐蔽通信服务器端还通过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器；其中，

所述的隐蔽通信客户端根据隐蔽通信协议将用户的请求编码后发送给所述的隐蔽通信服务器端；所述的隐蔽通信服务器端采用根据权利要求1-5之一所述的码本生成方法生成码本，根据该码本找出所述的目标服务器，访问目标服务器获取用户的目标信息，访问掩体信息服务器获取掩体信息，将用户目标信息隐藏在掩体信息中，然后经由隐蔽通信客户端返回给用户。

7.根据权利要求6所述的隐蔽通信系统，其特征在于，还包括代理资源发布模块，所述代理资源发布模块位于所述隐蔽通信客户端上；它根据代理发布策略定时发布一批可用的代理资源列表，所述隐蔽通信客户端通过代理资源列表中的信息找寻代理服务器，通过找寻到的代理服务器连接到所述的隐蔽通信服务器端。