CN111030963B

CN111030963B - 文档追踪方法、网关设备及服务器

Info

Publication number: CN111030963B
Application number: CN201811171153.7A
Authority: CN
Inventors: 曹镜云; 杨文青
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2021-06-08
Anticipated expiration: 2038-10-09
Also published as: WO2020073827A1; EP3852329A4; EP3852329A1; US20210258283A1; CN111030963A

Abstract

本申请提供一种文档追踪方法、网关设备及服务器，网关设备通过截获内网中的第一终端设备向外网中的第二终端设备发送的第一数据流，在该第一数据流中的第一文档中插入第一URL，得到包含第二文档的第二数据流并向第二终端设备。如此一来，当第二文档在第二终端设备上被打开时，访问第一URL对应的第一服务器，进而使得第一服务器根据第一URL判断出第二文档是通过网络传播泄密至第二终端设备上的，实现了对通过网络传播泄密的文档进行追踪的目的。

Description

文档追踪方法、网关设备及服务器

技术领域

本申请实施例涉及安全技术领域，尤其涉及一种文档追踪方法、网关设备及服务器。

背景技术

目前，商业竞争日益激烈、各种网络攻击事件时有发生，因而保护商业机密安全、防止公司重要电子文档泄密，成为公司信息安全工作的重中之重。同时，随着远程办公和移动设备的普及，防止文档泄密的工作也变的愈加复杂。

传统的防止文档泄密方法包括：方式一、采用文档加密技术对文档进行加密，通过加密，使得文档被有限的用户使用，而不知道密码的用户则无法打开文档。此时，即使文档被外传，也不存在泄漏风险。方法二、在文档中嵌入水印，该种方式能够防止文档被篡改，但是无法防止文档泄密。方法三，在交换机侧设置网关，通过网关对文档进行过滤拦截。

然而，上述传统的防止文档泄密的方法，倘若文档泄密后，均无法记录和追踪文档的使用信息，如打开时间、打开地点等。

发明内容

本申请实施例提供一种文档追踪方法、网关设备及服务器，以实现文档泄密后，第一时间追踪文档的目的。

第一方面，本申请实施例提供一种文档追踪方法，该方法可以应用于网关设备、也可以应用于网关设备中的芯片。下面以应用于网关设备为例对该方法进行描述，该方法包括：网关设备截获从内网向外网发送的第一数据流，该网关设备位于内网和外网的连接处，该第一数据流是内网中的第一终端设备向外网中的第二终端设备发送的数据流；网关设备获取该第一数据流中传输的第一文档；在该第一文档中插入第一统一资源定位符(uniformresource locator，URL)从而得到第二文档；然后网关设备将该第一数据流中的第一文档替换为第二文档从而得到第二数据流；并向第二终端设备发送该第二数据流。采用该种方案，网关设备通过截获内网中的第一终端设备向外网中的第二终端设备发送的第一数据流，在该第一数据流中的第一文档中插入第一URL，得到包含第二文档的第二数据流并向第二终端设备。如此一来，当第二文档在第二终端设备上被打开时，访问第一URL对应的第一服务器，进而使得第一服务器根据第一URL判断出第二文档是通过网络传播泄密至第二终端设备上的，实现了对通过网络传播泄密的文档进行追踪的目的。

一种可行的设计中，该网关设备在该第一文档中插入第一URL，从而得到第二文档，包括：如果第一文档包含初始的URL，则网关设备将该初始的URL替换为该第一URL，从而得到该第二文档；如果第一文档不包含初始的URL，则网关设备在该第一文档中添加该第一URL，从而得到第二文档。采用该种方案，通过在第一文档中添加第一URL或将第一文档中的初始的URL替换为第一URL，实现在第一文档中插入第二URL，得到第二文档的目的。

一种可行的设计中，第一URL包括：第一服务器的服务器地址和参数，该参数包括第一指示符、第一文档标识和第一文档的消息摘要算法MD5值，其中，第一指示符用于指示泄密方式为网络传播泄密。采用该种方案，通过在第一URL中设置服务器地址、第一文档标识和MD5值，实现当第一文档被泄密时，第一时间获取到第一文档的文档标识(即第一文档标识)以及第一文档的MD5值，从而确定出哪个文档被泄密了，以及泄密的内容

一种可行的设计中，该参数还包括下述信息中的至少一个：用户标识、源地址、目标地址、时间信息，其中，用户标识是第一终端设备的用户标识，源地址是第一终端设备的网络地址，目标地址是第二终端设备的网络地址，时间信息用于指示第二终端设备发送该第一文档的时间点。采用该种方案，通过将用户标识、源地址、目标地址、时间信息等设置在第一URL中，使得第一文档泄密后，第一时间获得泄密第一文档的用户、泄密第一文档的源终端设备以及泄密时间，实现对第一文档的追踪的目的。

一种可行的设计中，第一文档和第二文档为office文档，第一URL被写入该第二文档文件结构中的关联部件中。采用该种方案，实现在office文档中插入目标URL的目的。

一种可行的设计中，网关设备包括下述设备中的任意一种设备：防火墙、路由器或交换机。采用该种方案，实现灵活设置网关设备的目的。

第二方面，本申请实施例提供一种文档追踪方法，该方法可以应用于第二服务器、也可以应用于第二服务器中的芯片。下面以应用于第二服务器为例对该方法进行描述，该方法包括：第二服务器接收第一文档，根据该第一文档，确定目标URL，在第一文档中插入该目标URL；然后，第二服务器向第一终端设备发送已插入该目标URL的第一文档。采用该种方案，第二服务器通过接收第一文档，在第一文档中出入目标URL，并将插入目标URL的第一文档发布至第一终端设备，使得已插入目标URL被泄密后，第二服务器根据目标URL识别出该第一文档的泄密方式，实现当文档泄密后，第一时间追踪该文档的目的。

一种可行的设计中，第二服务器根据第一文档，确定目标URL，包括：第二服务器确定该第一文档所属的文档类型，文档类型包括敏感文档和诱饵文档；如果第二服务器确定出第一文档所属的文档类型为敏感文档，则确定目标URL为第二URL，该第二URL与该敏感文档相对应；如果第二服务器确定出第一文档所属的文档类型为敏感文档，则第二服务器确定目标URL为第三URL，该第三URL与该敏感文档相对应。采用该种方案，通过对不同的文档设置不同的URL，实现第一服务器根据URL，确定出泄密方式的目的。

一种可行的设计中，该第二URL包括：第一服务器的服务器地址和参数，参数包括第二指示符、第一文档标识和该第一文档的MD5值，其中，该第二指示符用于指示泄密方式为移动设备拷贝泄密。采用该种方案，通过为敏感文档设置相应的URL，实现当敏感文档通过移动设备泄密时，追踪敏感文档的目的。

一种可行的设计中，第三URL包括：第一服务器的服务器地址和参数，参数包括第三指示符、第一文档标识和该第一文档的MD5值，其中，该第三指示符用于指示泄密方式为黑客攻击泄密。采用该种方案，通过为诱饵文档设置相应的URL，实现当诱饵文档通过黑客攻击方式泄密时，追踪诱饵文档的目的。

一种可行的设计中，该第一文档为office文档，目标URL被写入该第一文档的关联部件中。采用该种方案，实现在office文档中插入目标URL的目的。

第三方面，本申请实施例提供一种文档追踪方法，该方法可以应用于第一服务器、也可以应用于第一服务器中的芯片。下面以应用于第一服务器为例对该方法进行描述，该方法包括：第一服务器接收第一终端设备发送的超文本传输协议HTTP访问请求，该HTTP访问请求包含该第一终端设备的网络地址和目标URL；第一服务器解析该HTTP访问请求，得到该目标URL和该网络地址，并根据该目标URL、以及保存的对应关系信息，确定目标泄密方式，进而确定已被插入该目标URL的文档通过该目标泄密方式被传输给使用该网络地址的终端设备，该对应关系信息保存所述目标URL和所述目标泄密方式的对应关系。采用该种方案，当被插入目标URL的文档在外网中的第二终端设备上被打开时，第二终端设备向第一服务器发送HTTP访问请求，第一服务器解析该HTTP访问请求，获得目标URL和第二终端设备的网络地址。由于不同泄密方式的URL不同，因此，第一服务器可以根据目标URL，确定出泄密方式，实现当文档泄密后，第一时间追踪该文档的目的。

一种可行的设计中，第一服务器根据该目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：当该目标URL为第一URL时，第一服务器确定该目标泄密方式是与该第一URL对应的网络传播方式，该第一URL包括服务器地址和参数，参数包括第一指示符、第一文档标识和第一文档的MD5值，其中，第一指示符用于指示泄密方式为网络传播泄密。采用该种方案，通过设置网络传播泄密方式对应的第一URL，实现第一服务器对通过网络传播泄密的文档进行追踪的目的。

一种可行的设计中，第一服务器根据该目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：当目标URL为第二URL时，第一服务器确定该目标泄密方式是与第二URL对应的移动设备传播方式，第二URL包括服务器地址和参数，参数包括第二指示符、第一文档标识和第一文档的MD5值，其中，第二指示符用于指示泄密方式为移动设备拷贝泄密。采用该种方案，通过设置移动设备拷贝泄密方式对应的第一URL，实现第一服务器对通过移动设备拷贝泄密的文档进行追踪的目的。

一种可行的设计中，第一服务器根据该目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：当目标URL为第三URL时，第一服务器确定该目标泄密方式是与第三URL对应的黑客攻击方式，该第三URL包括服务器地址和参数，参数包括第三指示符、第一文档标识和第一文档的MD5值，其中，第三指示符用于指示泄密方式为黑客攻击泄密。采用该种方案，通过设置黑客攻击泄密方式对应的第一URL，实现第一服务器对通过黑客攻击泄密的文档进行追踪的目的。

一种可行的设计中，第一文档为office文档，目标URL被写入该第一文档的关联部件中。采用该种方案，实现在office文档中插入目标URL的目的。

第四方面，本申请实施例提供一种网关设备，该网关设备具有实现上述方法实施例中网关设备的行为功能。该功能可以通过硬件实现，也可以通过硬件执行相应软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。该模块可以是软件和/或硬件。

在一个可能的设计中，网关设备的结构中包括接收器、处理器与发送器，该接收器用于截获从内网向外网发送的第一数据流，该网关设备位于该内网和该外网的连接处，该数据流是该内网中的第一终端设备向该外网中的第二终端设备发送的数据流，该处理器用于获取该接收器接收到的该第一数据流中传输的第一文档，在该第一文档中插入第一URL从而得到第二文档；将该第一数据流中的该第一文档替换为该第二文档从而得到第二数据流，该发送器用于向该第二终端设备发送处理器对该第一数据流进行处理得到的该第二数据流。

第五方面，本申请实施例提供一种第二服务器，该第二服务器用于实现上述方法实际中第二服务器的行为的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，第二服务器的结构包括接收器、处理器与发送器，该接收器用于接收第一文档；处理器用于根据该接收器接收到的该第一文档，确定目标URL，在该第一文档中插入该目标URL；发送器用于向第一终端设备发送已插入该目标URL的第一文档。

第六方面，本申请实施例提供一种第一服务器，该第一服务器用于实现上述方法实际中第一服务器的行为的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，第一服务器的结构包括处理器与收发器，收发器用于接收第一终端设备发送的超文本传输协议HTTP访问请求，该HTTP访问请求包含该第一终端设备的网络地址和目标URL；处理器，用于解析HTTP访问请求，得到目标URL和网络地址，根据目标URL、以及保存的对应关系信息，确定目标泄密方式，进而确定已被插入该目标URL的文档通过该目标泄密方式被传输给使用该网络地址的终端设备，其中，对应关系信息保存所述目标URL和所述目标泄密方式的对应关系。

第七方面，本申请实施例提供一种网关设备，包括用于执行以上第一方面或第一方面各可能的实现方式所提供的方法的单元、模块或电路。该网关设备可以为网关设备，也可以为应用于网关设备的一个模块，例如，可以为应用于网关设备的芯片。

第八方面，本申请实施例提供一种第二服务器，包括用于执行以上第二方面或第二方面各可能的实现方式所提供的方法的单元、模块或电路。该第二服务器可以为第二服务器，也可以为应用于第二服务器的一个模块，例如，可以为应用于第二服务器的芯片。

第九方面，本申请实施例提供一种第一服务器，包括用于执行以上第二方面或第二方面各可能的实现方式所提供的方法的单元、模块或电路。该第一服务器可以为第一服务器，也可以为应用于第一服务器的一个模块，例如，可以为应用于第一服务器的芯片。

第十方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面的各种可能的实现方式中的方法，或者，使得计算机执行上述第二方面或第二方面的各种可能的实现方式中的方法；或者，使得计算机执行上述第三方面或第三方面的各种可能的实现方式中的方法。

第十一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面的各种可能的实现方式中的方法，或者使得计算机执行上述第二方面或第二方面的各种可能的实现方式中的方法，或者使得计算机执行上述第三方面或第三方面的各种可能的实现方式中的方法。

第十二方面，本申请实施例提供一种文档追踪系统，包括如上第四方面或第四方面的任一种可行的实现方式实现的网关设备，以及如上第六方面或第六方面的任一种可行的实现方式实现的第一服务器。以及如上第六方面或第六方面的任一种可行的实现方式实现的第一服务器。

第十三方面，本申请实施例提供一种文档追踪系统，包括如上第五方面或第五方面的任一种可行的实现方式实现的第二服务器，

本申请实施例提供的文档追踪方法、网关设备及服务器，网关设备通过截获内网中的第一终端设备向外网中的第二终端设备发送的第一数据流，在该第一数据流中的第一文档中插入第一URL，得到包含第二文档的第二数据流并向第二终端设备。如此一来，当第二文档在第二终端设备上被打开时，访问第一URL对应的第一服务器，进而使得第一服务器根据第一URL判断出第二文档是通过网络传播泄密至第二终端设备上的，实现了对通过网络传播泄密的文档进行追踪的目的。

附图说明

图1是本申请实施例提供的文档追踪方法所适用的文档解压缩后的目录结构示意图；

图2是本申请实施例提供的文档追踪方法中的Word文档的document.xml文件的举例示意图；

图3是本申请实施例提供的文档追踪方法中的document.xml.rels文件的举例示意图；

图4A是本申请实施例提供的一种文档追踪系统的架构示意图；

图4B是本申请实施例提供的另一种文档追踪系统的架构示意图；

图4C是本申请实施例提供的又一种文档追踪系统的架构示意图；

图5是本申请实施例提供的一种文档追踪方法的流程图；

图6是本申请实施例提供的另一种文档追踪方法的流程图；

图7是本申请实施例提供的又一种文档追踪方法的流程图；

图8是本申请实施例提供的又一种文档追踪方法的流程图；

图9是本申请实施例提供的一种文档追踪方法中在document.xml.rels文件中插入第一URL的示意图；

图10是本申请实施例提供的又一种文档追踪方法的流程图；

图11是本申请实施例提供的又一种文档追踪方法的流程图；

图12为本申请实施例提供的一种网关设备的结构示意图；

图13为本申请实施例提供的一种第二服务器的结构示意图；

图14为本申请实施例提供的一种第一服务器的结构示意图；

图15为本申请实施例提供的一种网关设备的结构示意图；

图16为本申请实施例提供的一种第二服务器的结构示意图；

图17为本申请实施例提供的一种第一服务器的结构示意图。

具体实施方式

从安全的角度考虑，越来越多的场景对文档的打开等，有一定的限制和要求，倘若文档被打开，则需要追踪和记录该文档的使用信息，如打开时间、打开地点、被打开的文档的名称等。而传统的防止文档泄密的方法，一旦文档泄密，则无法追踪文档。例如，采用文档加密技术对文档加密，若密码泄露，则无法控制，无法审计文档的使用；再如，在文档中嵌入水印可以防止文档被篡改，但是无法防止文档内容泄密；又如，在交换机侧设置网关，可以防止明文方式的外发，但是对于加密隧道方式或通过移动设备(如U盘)拷贝等无法追踪，而且成本较高。有鉴于此，本申请实施例提供一种文档追踪方法、网关设备及服务器，以实现文档泄密后，第一时间追踪文档的目的。下面，对本申请实施例所述的文档进行详细说明。

本申请实施例中，文档指办公(office)文档，也称之为office Open XML文档，包括Word、Excel、PowerPoint、Visio、outlook、Access等，不同文档的格式不同。例如，Word文档为doc格式(即后缀为.doc)，Excel文档为xls(即后缀为.xls)。通常情况下，上述的文档以Open XML文件格式存储。以Word文档为例，一个后缀为.doc的文档实际被保存为包含多个文件夹的压缩文件。一个后缀为.doc的文档解压缩后，得到一些顶级的文件夹(即解压缩后呈现在用户眼前的文件夹)，该些顶级的文件夹称之为包(package)，package包含两种组件：部分(partes)和项目(items)。具体的，可参见图1，图1是本申请实施例提供的文档追踪方法所适用的文档解压缩后的目录结构示意图。请参照图1，压缩文件包含了多个文件夹，如_resl文件夹、word文件夹、customXml文件夹、docProps文件夹等，partes例如为/docProps/app.xml、/docProps/core.xml、/word/document.xml、/word/fontTable.xml、/word/settings.xml、/word/styles.xml、/word/theme/theme1.xml。items用来描述parts的元素关系。顶级的文件夹中的_rels文件夹中的.rels文件定义了顶级的文件夹与文件夹之间的关系，即package与package之间的关系，该.rels文件的路径为/_rels/.rels；而word文件夹下的_rels文件夹中的document.xml.rels文件定义了word文件夹下.xml文件之间的关系，即parts与parts之间的关系。本申请实施例中，将word文件夹下的_rels文件夹中的document.xml.rels文件称之为关联部件，该关联部件的路径为/word/_rels/。

上述顶级的文件中的Word文件夹包含了多个后缀为.xml的文件。该些后缀为.xml的文件中，包含一个首要的part，即document.xml。该document.xml文件用于描述文档的格式、标题以及内容等对用户而言有实际意义的数据。另外，该document.xml还包含一段引用说明，若存在引用说明，则word文档打开时，需要解析document.xml.rels文件。因此，打开文档时，先解析document.xml，然后根据引用说明解析/word/_rels/中的关联部件，即document.xml.rels文件。如此一来，Word文档每次被打开后时，都会自动访问该文档的关联部件，即document.xml.rels文件。该关联部件的类型可以是一个URL等。也就是说，当文档的关联部件是一个URL时，该文档被打开时，会自动访问该URL。该URL访问一个默认的地址，如默认访问微软的网站等。其他office文档也具备类似的特性。下面对Word文档包含的文件夹中document.xml文件进行详细说明。具体的，可参见图2和图3，图2是本申请实施例提供的文档追踪方法中的Word文档的document.xml文件的举例示意图；图3是本申请实施例提供的文档追踪方法中的document.xml.rels文件的举例示意图。图2中，方框内的内容是上述的引用说明，当某个文档的document.xml文件中不包含引用说明时，需要在该document.xml文件中添加引用说明。

本申请实施例中，针对不同的泄密方式设置不同的URL，基于office文档的上述特征，在以/word/_rels/中的document.xml.rels为例的文件中插入目标URL。本申请实施例中，在关联部件中新增目标URL或将关联部件中原本包含的一个URL(被简称为“初始的URL”)修改为目标URL。当约定将某个初始的URL修改为目标URL时，插入目标URL的过程中，根据约定的初始的URL的身份标识(Identity，ID)查询关联部件，若关联部件中存在该初始的URL，则将该初始的URL修改为目标URL，若关联部件中不存在初始的URL，则新增目标URL。由于目标URL对应第一服务器的地址，因此，文档打开时，根据目标URL，需要访问第一服务器。进一步的，由于不同泄密方式对应的目标URL不同，因此，第一服务器可以根据目标URL，确定出泄密方式。下面，对本申请实施例所述的文档追踪方法所适用的文档追踪系统进行详细说明。具体的，可参见图4A、图4B和图4C。

图4A是本申请实施例提供的一种文档追踪系统的架构示意图。该系统包括：第一服务器、设置在内网中的第一终端设备以及用于连接内网和外网的网关设备，设置在外网中的第二终端设备。该架构适用于需要第一时间对通过网络传播泄密的文档进行追踪的场景。

图4B是本申请实施例提供的另一种文档追踪系统的架构示意图。该系统包括：第一服务器、第二服务器、设置在内网中的第一终端设备、设置在外网中的第二终端设备。该架构适用于需要第一时间对通过移动设备拷贝泄密的文档进行追踪的场景；以及需要第一时间对黑客攻击泄密的文档进行追踪的场景。

图4C是本申请实施例提供的又一种文档追踪系统的架构示意图。该系统包括：第一服务器、第二服务器、设置在内网中的第一终端设备以及用于连接内网和外网的网关设备，外网中设置有第二终端设备。该架构中，第一服务器能够在第一时间对通过网络传播泄密、移动设备拷贝泄密以及黑客攻击泄密的文档进行追踪，该架构综合了上述图4A和上述图4B的功能。

上述图4A～图4C中，内网例如是企业内的局域网，外网例如为因特(Internet)网。第一服务器、第二服务器可以设置在内网，也可以设置在外网中，本申请实施例并不限制。下面，对上述各架构中的设备进行详细说明。

第一服务器：本申请实施例中，第一服务器是文档打开时需要访问的服务器。第一服务器具备接收HTTP访问请求并解析该HTTP访问请求的能力。第一服务器对HTTP访问请求进行解析后，从解析结果中获得HTTP访问请求包含的目标URL，确定出泄密方式。

网关设备：本申请实施例中，网关设备例如可以为防火墙、路由器或交换机等。当网关设备为图4A中的网关设备时，该网关设备具备在文档中插入URL的功能。例如，网关设备接收到第一终端设备发送给第二终端设备的邮件时，若该邮件包含office文档，则网关设备在office文档中插入第一URL。图4A所示架构主要用于第一时间对通过网络传播泄密的第一文档进行追踪。

当网关设备为图4B中的网关设备时，其可具备在文档中插入URL的功能，或者，该网关设备可以为普通网关设备，不具备在文档中插入URL的功能。

当网关设备为图4C中的网关设备时，其可具备在文档中插入URL的功能，以及识别诱饵文件的功能。此时，图4C所示架构中，当第一文档通过网络传播泄密、移动设备拷贝泄密或黑客攻击泄密时，第一服务器均可以对第一文档进行追踪。或者，网关设备可以为普通网关设备，不具备在文档中插入URL的功能。

第二服务器：本申请实施例中，第二服务器具备在文档中插入统一资源定位符(uniform resource locator，URL)的功能。例如，对于敏感文档，则插入敏感文档对应的URL，即第二URL；对于诱饵文档，则插入诱饵文档对应的URL，即第三URL。

第一终端设备：本申请实施例中，第一终端设备是设置在内网中的终端设备，例如是公司内部用于办公的主机、一体机等。

本申请实施例中，第二终端设备是设置在外网中的终端设备。

需要说明的是，虽然上述图4A～图4C中，第一服务器、第二服务器和网关设备均是独立部署的。然而，本申请实施例并不限制，在其他可行的实现方式中，第一服务器、第二服务器和网关设备中的一个或多个集成部署。例如，第一服务器和第二服务器集成部署，网关设备独立部署；再如，第一服务器和网关设备集成部署，第二服务器独立部署；又如，第一服务器、第二服务器和网关设备集成设置。

下面，基于上述架构，分别从网关设备、第一服务器和第二服务器的角度，对本申请实施例所述的文档追踪方法进行详细说明，具体可参见图5、图6和图7。

图5是本申请实施例提供的一种文档追踪方法的流程图。本实施例是从网关设备的角度对文档追踪方法进行详细说明的。图5所示的文档追踪方法包括以下步骤：

101、网关设备截获从内网向外网发送的第一数据流。

其中，网关设备位于内网和外网的连接处，所述第一数据流是内网中的第一终端设备向外网中的第二终端设备发送的数据流。

请参照图4A，内网中的第一终端设备向外网中的第二终端设备发送第一数据流，该第一数据流中包含第一文档。“第一数据流包含第一文档”是指第一数据流中的报文的载荷(payload)部分承载了第一文档的数据、或者第一文档的数据分片。例如，第一终端设备向第二终端设备发送邮件，该邮件中包含第一文档；再如，第一终端设备通过聊天工具向第二终端设备发送包含第一文档的第一数据流。网关设备截获该包含第一文档的第一数据流。其中，第一文档例如为word文档、Excel文档等任意一种office文档。

102、网关设备获取第一数据流中传输的第一文档。

本步骤中，网关设备判断第一数据流的传输方向是否符合内网到外网的方向，若符合，则从第一数据流中提取出第一文档。

103、网关设备在第一文档中插入第一URL，从而得到第二文档。

本步骤中提取出第一文档后，网关设备在第一文档中插入第一URL从而生成第二文档。

104、所述网关设备将所述第一数据流中的所述第一文档替换为所述第二文档从而得到第二数据流。

可选地，在步骤101中网关设备缓存第一数据流中的所有报文，对第一数据流中的报文进行流重组后得到第一文档。网关设备得到第一数据流的报文头中包含的信息，例如五元组信息(源互联网协议(internet protocol，IP)地址、目的IP地址、源端口号、目的端口号、协议类型)，重新生成一个新的数据流，新的数据流的报文头信息与第一数据流相同。将第二文档承载在新生成的数据流的报文的载荷部分，从而得到了第二数据流。

105、所述网关设备向所述第二终端设备发送所述第二数据流。

步骤104和105中，网关设备用第二文档替换第一数据流中的第一文档，从而得到第二数据流，并向第二终端设备发送第二数据流。

本申请实施例提供的文档追踪方法，网关设备通过截获内网中的第一终端设备向外网中的第二终端设备发送的第一数据流，在该第一数据流中的第一文档中插入第一URL，得到包含第二文档的第二数据流并向第二终端设备。如此一来，当第二文档在第二终端设备上被打开时，访问第一URL对应的第一服务器，进而使得第一服务器根据第一URL判断出第二文档是通过网络传播泄密至第二终端设备上的，实现了对通过网络传播泄密的文档进行追踪的目的。

下面对上述实施例中，如何在第一文档中插入第一URL，得到第二文档进行详细说明。

一种可行的实现方式中，所述网关设备在所述第一文档中插入第一URL从而得到第二文档，包括：如果第一文档包含初始的URL，网关设备将所述初始的URL替换为所述第一URL，从而得到所述第二文档；如果所述第一文档不包含初始的URL，所述网关设备在所述第一文档中添加所述第一URL，从而得到所述第二文档。

示例性的，当第一文档的关联部件包含初始的URL时，用第一URL替换该初始的URL；当关联部件不包含初始的URL时，在该文档的关联部件中插入第一URL。在本申请实施例中，初始的URL是指网关设备获得第一文档时，第一文档的关联部件中已存在的URL。

本实施例中，通过在第一文档中添加第一URL或将第一文档中的初始的URL替换为第一URL，实现在第一文档中插入第二URL，得到第二文档的目的。

进一步的，所述第一URL包括：第一服务器的服务器地址和参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。

本实施例中，通过在第一URL中设置服务器地址、第一文档标识和MD5值，实现当第一文档被泄密时，第一时间获取到第一文档的文档标识(即第一文档标识)以及第一文档的MD5值，从而确定出哪个文档被泄密了，以及泄密的内容。

更进一步的，所述参数还包括下述信息中的至少一个：用户标识、源地址、目标地址、时间信息，其中，所述用户标识是所述第一终端设备的用户标识，所述源地址是所述第一终端设备的网络地址，所述目标地址是所述第二终端设备的网络地址，所述时间信息用于指示所述第二终端设备发送所述第一文档的时间点。

本实施例中，通过将用户标识、源地址、目标地址、时间信息等设置在第一URL中，使得第一文档泄密后，第一时间获得泄密第一文档的用户、泄密第一文档的源终端设备以及泄密时间，实现对第一文档的追踪的目的。

图6是本申请实施例提供的另一种文档追踪方法的流程图，本实施例是从第二服务器的角度对文档追踪方法进行详细说明的。本实施例包括：

201、第二服务器接收第一文档。

本实施例中，第一文档可以为敏感文档或诱饵文档，敏感文档例如为仅供公司内部传阅的office文档；诱饵文档例如为检测是否有黑客攻击公司系统的文档。发布第一文档时，先将该第一文档发送至第二服务器。例如，将第一终端设备上的第一文档发送至第二服务器，由第二服务器对该第一文档插入目标URL后，再将插入目标URL的第一文档从服务器发布至第一终端设备或公司其他内部设备上。

202、第二服务器根据第一文档，确定目标统一资源定位符URL。

本步骤中，第二服务器根据第一文档，确定出目标URL，例如，若第一文档为敏感文档，则目标URL为第二URL；若第一文档为诱饵文档，则第一文档为第三URL。

203、第二服务器在第一文档中插入目标URL。

本步骤中，第二服务器在第一文档中插入目标URL，得到插入目标URL的第一文档。

204、第二服务器向第一终端设备发送已插入目标URL的第一文档。

本步骤中，第二服务器发布该已插入目标URL的第一文档，例如，将已插入目标URL的第一文档发布至第一终端设备或公司其他内部设备上。如此一来，当第一文档为敏感文档时，若该敏感文档通过U盘等移动设备拷贝至外网的第二终端设备上并被打开时，第二终端设备向第一服务器发送包含第二URL的HTTP访问请求，使得第一服务器根据第二URL识别出该第一文档通过移动设备拷贝泄密至第二终端设备；当第一文档为诱饵文档时，若该诱饵文档通过黑客袭击泄密至第二终端设备上并被打开时，第二终端设备向第一服务器发送包含第三URL的HTTP访问请求，使得第一服务器根据第三URL识别出该第一文档通过黑客袭击泄密至第二终端设备。

根据本申请实施例提供的文档追踪方法，第二服务器通过接收第一文档，在第一文档中出入目标URL，并将该插入目标URL的第一文档发布至第一终端设备，使得已插入目标URL被泄密后，第二服务器根据目标URL识别出该第一文档的泄密方式，实现当文档泄密后，第一时间追踪该文档的目的。

下面，对上述实施例中，第二服务器如何对第一文档插入目标URL进行详细说明。

一种可行的实现方式中，所述第二服务器根据所述第一文档，确定目标URL，包括：

第二服务器确定该第一文档所属的文档类型，文档类型包括敏感文档和诱饵文档；如果该第一文档所属的文档类型为敏感文档，则第二服务器确定目标URL为第二URL，该第二URL与敏感文档相对应；如果该第一文档所属的文档类型为诱饵文档，则第二服务器确定目标URL为第三URL，该第三URL与诱饵文档相对应。

示例性的，用户每次发布第一文档之前，将该第一文档发送至第二服务器。然后，根据用户的选择，第二服务器确定出目标URL，并将该目标URL插入至第一文档，得到插入目标URL的第一文档。例如，当第一文档为敏感文档时，在该第一文档中插入第二URL；当第一文档为诱饵文档时，在该第一文档中插入第三URL。本实施例中，第一URL携带的第一指示符、第二URL携带的第二指示符和第三URL中的第三指示符不同。因此，当第一服务器接收到包含目标URL的HTTP访问请求后，可以根据目标URL携带的指示符，确定出该目标URL是第一URL、第二URL还是第三URL，进一步的，根据确定出的目标URL，确定出泄密方式。

本实施例中，通过对不同类别的文档设置不同的URL，实现第一服务器根据URL，确定出泄密方式的目的。

进一步的，第二URL包括：第一服务器的服务器地址和参数，该参数包括第二指示符、第一文档标识和第一文档的消息摘要算法MD5值，其中，第二指示符用于指示泄密方式为移动设备拷贝泄密。

本实施例中，通过为敏感文档设置相应的URL，实现当敏感文档通过移动设备泄密时，追踪敏感文档的目的。

进一步的，第三URL包括：第一服务器的服务器地址和参数，该参数包括第三指示符、第一文档标识和第一文档的消息摘要算法MD5值，其中，第三指示符用于指示泄密方式为黑客攻击泄密。

本实施例中，通过为诱饵文档设置相应的URL，实现当诱饵文档通过黑客攻击方式泄密时，追踪诱饵文档的目的。

图7是本申请实施例提供的又一种文档追踪方法的流程图，本实施例是从第一服务器的角度对文档追踪方法进行详细说明的。图7所示的文档追踪方法包括以下步骤：

301、第一服务器接收第二终端设备发送的HTTP访问请求，该HTTP访问请求包含第二终端设备的网络地址和目标URL。

本步骤中，当已插入目标URL的文档在外网中的第二终端设备上被打开时，第二终端设备向第一服务器发送包含目标URL和第二终端设备的网络地址的HTTP访问请求；相应的，第一服务器接收到HTTP访问请求。

302、第一服务器解析所述HTTP访问请求，从解析结果中的得到目标URL和网络地址。可选地，本申请实施例中，HTTP访问请求包括以太头、IP头、传输控制协议(transmission control protocol，TCP)头、HTTP报文等，其中，HTTP报文包括请求行、请求头部以及请求数据等，第一服务器从HTTP访问请求的HTTP报文中的请求行部分得到URL，从HTTP访问请求的IP头部分的源地址字段中得到第二终端设备的网络地址。

303、第一服务器根据目标URL、以及保存的对应关系信息，确定目标泄密方式，对应关系信息保存所述目标URL和所述目标泄密方式的对应关系。

本步骤中，第一服务器上保存有对应关系信息，该对应关系信息例如为一个对应关系表格，该对应关系表格中存储泄密方式与URL的对应关系。本步骤中，第一服务器根据解析出的目标URL，遍历对应关系表，从而确定出与目标URL对应的目标泄密方式。

304、第一服务器确定已被插入目标URL的文档通过目标泄密方式被传输给使用上述网络地址的第二终端设备。

本步骤中，第一服务器可以根据步骤302中得到的网络地址，确定出第二终端设备，即文档被泄密至外网中的哪个终端设备(相当于泄密地点)上。结合步骤303，第一服务器根据HTTP访问请求解析得到的目标URL和网络地址，确定出文档的泄密方式和泄密地点。

本申请实施例提供的文档追踪方法，当被插入目标URL的文档在外网中的第二终端设备上被打开时，第二终端设备向第一服务器发送HTTP访问请求，第一服务器解析该HTTP访问请求，获得目标URL和第二终端设备的网络地址。由于不同泄密方式的URL不同，因此，第一服务器可以根据目标URL，确定出泄密方式，实现当文档泄密后，第一时间追踪该文档的目的。

下面，对第一服务器如何根据目标URL确定出泄密方式进行详细说明。

一种可行的实现方式中，所述第一服务器根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：

当所述目标URL为第一URL时，所述第一服务器确定所述目标泄密方式是与所述第一URL对应的网络传播方式，所述第一URL包括服务器地址和参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。

本实施例中，通过设置网络传播泄密方式对应的第一URL，实现第一服务器对通过网络传播泄密的文档进行追踪的目的。

一种可行的实现方式中，所述第一服务器根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：当所述目标URL为第二URL时，所述第一服务器确定所述目标泄密方式是与所述第二URL对应的移动设备传播方式，所述第二URL包括服务器地址和参数，所述参数包括第二指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第二指示符用于指示泄密方式为移动设备拷贝泄密。

本实施例中，通过设置移动设备拷贝泄密方式对应的第一URL，实现第一服务器对通过移动设备拷贝泄密的文档进行追踪的目的。

当所述目标URL为第三URL时，所述第一服务器确定所述目标泄密方式是与所述第三URL对应的黑客攻击方式，所述第三URL包括服务器地址和参数，所述参数包括第三指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第三指示符用于指示泄密方式为黑客攻击泄密。

本实施例中，通过设置黑客攻击泄密方式对应的第一URL，实现第一服务器对通过黑客攻击泄密的文档进行追踪的目的。

下面，用几个具体的实施例，对如何实现对通过网络传播方式泄密的文档、通过移动设备拷贝方式泄密的文档以及通过黑客袭击方式泄密的文档进行追踪，进行详细讲解。具体的，可参见图8～图11。

图8是本申请实施例提供的又一种文档追踪方法的流程图，本实施例实现对通过网络传播方式泄密的文档进行追踪的目的。请同时参照4A，本实施例包括：

401、第一终端设备向网关设备发送第一文档。

402、网关设备确定承载第一文档的数据流的传输方向，若是从内网向外网传输，则网关设备执行403；若是从外网向内网传输，则网关设备直接向第一终端设备发送承载第一文档的数据流。

本步骤中，第一终端设备对第一文档的传输方向进行匹配，如果传输方向是从内网向外网传输，则执行本申请方案，网关设备继续执行403；若传输方向是从外网向内网传输，则网关设备将接收到的数据流直接发送给第一终端设备。

403、网关设备根据第一文档，确定第一URL。

接收到从内网向外网传输的第一文档后，网关设备根据本地存储的第一服务器的地址以及参数等组装第一URL，其中，第一URL包括：第一服务器的服务器地址和参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。另外，可选的，第一URL的参数还可以包括用户标识、源地址、目标地址、时间信息等。网关设备将服务器地址和该些参数组装成第一URL。其中，服务器地址具体为第一服务器的地址，例如为第一服务器的域名、互联网协议(Internet Protocol，IP)等，第一指示符用于指示泄密方式为网络传播泄密，第一文档标识为第一文档的名称等，用户标识为通过第一终端设备向第二终端设备发送第一文档的用户的用户标识，源地址为第一终端设备的网络地址，目的地址为第二终端设备的网络地址。具体实现时，第一URL的格式如下：

http://第一服务器的地址/第一指示符/参数1％26参数2％26参数3％26参数4％26参数5。

假设第一服务器的地址为ww.report.com；第一指示符为transmit/report.html？；文件名称为account.doc；用户名为xiaoming；内网地址，即第一终端设备的地址为192.203.150.210；转换为数字为3234567890，外网地址为33.181.140.248，转换为数字为565546232；第一文档的(Message Digest，MD)5值为b024455bba952abc；时间信息为1999年2月21日16时18分38秒，转换为数字为919642718，则第一URL如下：

http://ww.report.com/transmit/report.html？filename＝account.doc％26usr＝xiaomin％26src＝3234567890％26dst＝565546232％26md5＝b2044556bba952abcd％26time＝919642718。

404、网关设备在第一文档中插入第一URL，得到第二文档。

本步骤中，当第一文档的关联部件包含初始的URL时，用第一URL替换该初始的URL；当关联部件不包含初始的URL时，在该文档的关联部件中插入第一URL。

请参照图1，对于一个具体的office文档插入第一URL的过程如下：首先，以RAR格式解压缩一个office文档，在word文件夹中找到document.xml文件，确定该document.xml文件的文件头中是否存在引用说明，如果没有引用说明，则插入引用说明。如果有引用说明，则不修改document.xml文件；然后，根据/word/_rels/路径，找到document.xml.rels文件，在该document.xml.rels文件中插入第一URL。例如，请参照图9，图9是本申请实施例提供的一种文档追踪方法中在document.xml.rels文件中插入第一URL的示意图。图9中，黑色方框中的URL是插入的第一URL。

405、网关设备向第二终端设备发送第二文档。

406、第二终端设备向第一服务器发送HTTP访问请求。

本步骤中，当第二文档在第二终端设备上被打开时，第二终端设备向第一服务器发送包含第一URL以及网络地址的HTTP访问请求。

407、第一服务器解析HTTP访问请求，得到第一URL和网络地址。

本步骤中，第一服务器按照上述的第一URL的格式解析HTTP访问请求，获得第一URL和发送所述HTTP访问请求的第二终端设备的网络地址，该网络地址也是第一URL中的目的地址。

408、第一服务器确定泄密方式。

本步骤中，第一服务器解析出第一URL后，根据第一URL携带的参数中的第一指示符，确定出泄密方式为网络传播泄密。另外，第一服务器还可以根据第一URL携带的参数，确定出其他使用信息。例如，第一服务器根据第一文档标识，确定出泄密文档的名称等，根据MD5值，确定出第一文档的内容等，根据用户标识，确定出泄密该第一文档的用户，根据源地址，确定出第一终端设备等。

409、第一服务器根据泄密方式进行处理。

本步骤中，第一服务器将第一URL携带的参数以及HTTP访问请求中包括的网络地址等，保存在本地或远程数据库，以备查询审计。并按照本地存储的策略，进行进一步的操作，例如，若第一文档的MD5值为K1，则短信通知管理员，使得管理员第一时间查询第一文档的泄密时间、泄密方式等。当管理员回复信息时，第一服务器还可以将管理员回复的信息展示在界面上。

需要说明的是，上述步骤403中，内网地址为源地址，即第一终端设备的地址，外网地址为目的地址，即第二终端设备的地址，该目的地址与步骤406中HTTP访问请求包含的网络地址可以相同或不同。当目的地址与HTTP访问请求包含的网络地址相同时，说明文档被泄密至第二终端设备，且在第二终端设备上被打开；当目的地址与HTTP访问请求包含的网络地址不同时，说明文档被泄密至第二终端设备，并且在该第二终端设备之外的其他终端设备上被打开。

图10是本申请实施例提供的又一种文档追踪方法的流程图，本实施例实现对通过移动设备拷贝泄密的文档进行追踪的目的。请同时参照4B，本实施例包括：

501、第一终端设备向第二服务器发送第一文档。

本步骤中，当公司内部发布一个重要的、只允许内部传阅的office文档，即第一文档。则第一终端设备将该第一文档发送至第二服务器；相应的，第二服务器接收该第一文档。

502、第二服务器在第一文档中插入第二URL。

本申请实施例中，第二服务器上设置有文档修改程序等，通过该文档修改程序，即可实现对第一文档插入第二URL的目的。本步骤中，接收到第一文档后，第二服务器组装第二URL地址，该第二URL包括：第一服务器的服务器地址和参数，参数包括第二指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第二指示符用于指示泄密方式为移动设备拷贝。

503、第二服务器向第一终端设备发送已插入第二URL的第一文档。

本步骤中，第二服务器将该已插入第二URL的第一文档发布至内网中的终端设备上，如第一终端设备上。具体实现时，第二URL的格式如下：

http://第一服务器的地址/第二指示符/参数1％26参数2。

假设第一服务器的地址为ww.report.com；第二指示符为usb/report.html？文件名称为account.doc；第一文档的(Message Digest，MD)5值为b024455bba952abc；则第二URL如下：

http://ww.report.com/usb/report.html？filename＝account.doc％26md5＝b2044556bba952abcd。

504、已插入第二URL的第一文档被拷贝至第二终端设备。

例如，已插入第二URL的第一文档，被通过U盘等移动设备拷贝至第二终端设备。

505、第二终端设备向第一服务器发送HTTP访问请求。

具体的，可参见上述图8步骤406，此处不再赘述。

506、第一服务器解析HTTP访问请求，得到第二URL和网络地址。

本步骤中，第一服务器按照上述的第二URL的格式解析HTTP访问请求，获得第二URL和发送所述HTTP访问请求的第二终端设备的网络地址。

507、第一服务器确定泄密方式。

本步骤中，第一服务器解析出第二URL后，根据第二URL携带的参数中的第二指示符，确定出泄密方式为移动设备拷贝泄密。另外，第一服务器还可以根据第二URL携带的参数，确定出其他使用信息。例如，第一服务器根据第一文档标识，确定出泄密文档的名称等，根据MD5值，确定出第一文档的内容等。

508、第一服务器根据泄密方式进行处理。

具体的，可参见上述图8步骤409，此处不再赘述。

相较于上述图8实施例，图8所示实施例中，是由网关设备在第一文档中插入第一URL，本实施例中，是由第二服务器在第一文档中插入第二URL。另外，本实施例中，组装第二URL时，无需获取用户标识、源地址、目的地址和时间信息等。

图11是本申请实施例提供的又一种文档追踪方法的流程图，本实施例实现对通过黑客袭击泄密的文档进行追踪的目的，本实施例的场景也称之为蜜罐场景。请同时参照4C，本实施例包括：

601、第一终端设备向第二服务器发送第一文档。

本步骤中，管理员通过第一终端设备向第二服务器发送第一文档，以生成诱饵文档；相应的，第二服务器接收该第一文档。

602、第二服务器子在第一文档中插入第三URL。

本申请实施例中，第二服务器上设置有文档修改程序等，通过该文档修改程序，即可实现对第一文档插入第三URL的目的。本步骤中，接收到第一文档后，第二服务器组装第三URL地址，该第三URL包括：第一服务器的服务器地址和参数，参数包括第三指示符、第一文档标识和所述第一文档的MD5值，其中，所述第三指示符用于指示泄密方式为黑客攻击泄密。该以插入第三URL的文档即为诱饵文档。

603、第二服务器向第一终端设备发送已插入第三URL的第一文档。

本步骤中，第二服务器将该已插入第三URL的第一文档发布至内网中的终端设备上，如第一终端设备上。具体实现时，第三URL的格式如下：

http://第一服务器的地址/第三指示符/参数1％26参数2。

假设第一服务器的地址为ww.report.com；第三指示符为deception/report.html？文件名称为account.doc；第一文档的(Message Digest，MD)5值为b024455bba952abc；则第二URL如下：

http://ww.report.com/deception/report.html？filename＝account.doc％26usr＝xiaomin％26src＝3234567890％26dst＝565546232％26md5＝b2044556bba952abcd％26time＝919642718。

604、黑客通过第二终端设备攻击内网。

本步骤中，外网中的第二终端设备攻击内网。

605、第一终端设备向网关设备发送已插入第三URL的第一文档。

本步骤中，黑客渗透到内网中，在第一终端设备上向第二终端设备发送已插入第二URL的。

本步骤中，若网关设备与图4A中的网关设备相同，为具备在第一文档中插入URL的功能的设备时，网关设备判断接收到的文档是否为诱饵文档，若是诱饵文档，则不对该诱饵文档插入第一URL，而是直接将该诱饵文档转发至第二终端设备，若网关设备接收到的文档并非诱饵文档，则对该文档插入第一URL。另外本步骤中，若网关设备不具备在第一文档中插入URL的功能的网关设备时，则直接将接收到的文档转发给第二终端设备。

606、网关设备向第二终端设备发送已插入第三URL的第一文档。

607、第二终端设备向第一服务器发送HTTP访问请求。

具体的，可参见上述图8步骤406，此处不再赘述。

608、第一服务器解析HTTP访问请求，得到第二URL和网络地址。

609、第一服务器确定泄密方式。

本步骤中，第一服务器解析出第三URL后，根据第三URL携带的参数中的第三指示符，确定出泄密方式为黑客袭击泄密。另外，第一服务器还可以根据第三URL携带的参数，确定出其他使用信息。例如，第一服务器根据第一文档标识，确定出泄密文档的名称等，根据MD5值，确定出第一文档的内容等。

610、第一服务器根据泄密方式进行处理。

具体的，可参见上述图8步骤409，此处不再赘述。

相较于上述图8实施例，图8所示实施例中，是由网关设备在第一文档中插入第一URL，本实施例中，是由第二服务器在第一文档中插入第三URL。另外，本实施例中，组装第三URL时，无需获取用户标识、源地址、目的地址和时间信息等。

相较于上述图10实施例，图11所示实施例适用于公司内网，保护的是公司内网中的敏感文件，审计的是文档的使用信息；本实施例适用于黑客袭击，目的是为了发现黑客，追踪黑客，保护内网。

需要说明的是，虽然上述实施例中，第一指示符、第二指示符和第三指示符中分别是以transmit、usb或deception作为标识区分网络传播泄密、移动设备拷贝泄密以及黑客攻击泄密的，然而，本申请实施例并不限制，在其他可行的实现方式中，也可以根据需求灵活设置第一指示符、第二指示符和第三指示符。

图12为本申请实施例提供的一种网关设备的结构示意图。该网关设备可以用于执行上述方法实施例中网关设备的功能。所述网关设备位于所述内网和所述外网的连接处。如图12所示，可选地，该网关设备100包括：接收模块11、处理模块12和发送模块13。其中，

接收模块11，用于截获从内网向外网发送的第一数据流，第一数据流是内网中的第一终端设备向外网中的第二终端设备发送的数据流。

处理模块12，用于获取所述接收模块11接收到的第一数据流中传输的第一文档，在所述第一文档中插入第一URL从而得到第二文档；将所述第一数据流中的所述第一文档替换为所述第二文档从而得到第二数据流。

发送模块13，用于向所述第二终端设备发送处理模块12对所述第一数据流进行处理得到的所述第二数据流。

一种可行的设计中，所述处理模块12，在所述第一文档中插入第一URL从而得到第二文档时，具体用于如果所述第一文档包含初始的URL，则将所述初始的URL替换为所述第一URL，从而得到所述第二文档；如果所述第一文档不包含初始的URL，则在所述第一文档中添加所述第一URL，从而得到所述第二文档。

一种可行的设计中，所述第一URL包括：第一服务器的服务器地址和参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。

一种可行的设计中，所述参数还包括下述信息中的至少一个：用户标识、源地址、目标地址、时间信息，其中，所述用户标识是所述第一终端设备的用户标识，所述源地址是所述第一终端设备的网络地址，所述目标地址是所述第二终端设备的网络地址，所述时间信息用于指示所述第二终端设备发送所述第一文档的时间点。

一种可行的设计中，所述第一文档和第二文档为office文档，所述第一URL被写入所述第二文档文件结构中的关联部件中。

一种可行的设计中，所述网关设备包括下述设备中的任意一种设备：防火墙、路由器或交换机。

本申请实施例提供的网关设备，可以执行上述方法实施例中终端设备的动作，其实现原理和技术效果类似，在此不再赘述。

图13为本申请实施例提供的一种第二服务器的结构示意图。本实施例所涉及的。该第二服务器可以用于执行上述方法实施例中第二服务器的功能。可选地，如图13所示，该第二服务器200可以包括：接收模块21、处理模块22和发送模块23。其中，

接收模块21，用于接收第一文档。

处理模块22，用于根据所述接收模块21接收到的所述第一文档，确定目标统一资源定位符URL，在所述第一文档中插入所述目标URL。

发送模块23，用于向第一终端设备发送已插入所述目标URL的第一文档。

一种可行的设计中，所述处理模块22，在根据所述第一文档，确定目标URL时，具体用于确定所述第一文档所属的文档类型，所述文档类型包括敏感文档和诱饵文档；如果所述第一文档所属的文档类型为敏感文档，则所述目标URL为第二URL，所述第二URL与所述敏感文档相对应；如果所述第一文档所属的文档类型为敏感文档，则所述目标URL为第三URL，所述第三URL与所述敏感文档相对应。

一种可行的设计中，所述第二URL包括：第一服务器的服务器地址和参数，所述参数包括第二指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第二指示符用于指示泄密方式为移动设备拷贝泄密。

一种可行的设计中，所述第三URL包括：第一服务器的服务器地址和参数，所述参数包括第三指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第三指示符用于指示泄密方式为黑客攻击泄密。

一种可行的设计中，所述第一文档为office文档，所述目标URL被写入所述第一文档的关联部件中。

本申请实施例提供的第二服务器，可以执行上述方法实施例中第二服务器的动作，其实现原理和技术效果类似，在此不再赘述。

图14为本申请实施例提供的一种第一服务器的结构示意图。该第一服务器可以用于执行上述方法实施例中第一服务器的功能。可选地，如图14所示，该第一服务器300包括：接收模块31和处理模块32。其中，

接收模块31，用于接收第一终端设备发送的超文本传输协议HTTP访问请求，所述HTTP访问请求包含所述第一终端设备的网络地址和目标统一资源定位符URL。

处理模块32，用于解析所述接收模块31接收到的所述HTTP访问请求，得到所述目标URL和所述网络地址，根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，所述对应关系信息保存所述目标URL和所述目标泄密方式的对应关系，确定已被插入所述目标URL的文档通过所述目标泄密方式被传输给使用所述网络地址的终端设备。

一种可行的设计中，所述处理模块32，在根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式时，具体用于当所述目标URL为第一URL时，确定所述目标泄密方式是与所述第一URL对应的网络传播方式，所述第一URL包括服务器地址和参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。

一种可行的设计中，所述处理模块32，在根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式时，具体用于当所述目标URL为第二URL时，确定所述目标泄密方式是与所述第二URL对应的移动设备传播方式，所述第二URL包括服务器地址和参数，所述参数包括第二指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第二指示符用于指示泄密方式为移动设备拷贝泄密。

一种可行的设计中，所述处理模块32，在根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式时，具体用于当所述目标URL为第三URL时，确定所述目标泄密方式是与所述第三URL对应的黑客攻击方式，所述第三URL包括服务器地址和参数，所述参数包括第三指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第三指示符用于指示泄密方式为黑客攻击泄密。

一种可行的设计中，所述第一文档为office文档，所述目标URL被写入所述第一文档的关联部件中

本申请实施例提供的第一服务器，可以执行上述方法实施例中第一服务器的动作，其实现原理和技术效果类似，在此不再赘述。

图15为本申请实施例提供的一种网关设备的结构示意图。可选的，如图15所示，该网关设备400可以包括：处理器41(例如CPU)、存储器42、转发芯片43和网络接口44。处理器41用于执行存储器42中的指令，判断第一数据流是否为从内网发送至外网的数据流，如果第一数据流的流向是从内网发送至外网，则处理器41执行指令控制网络接口路44截获从内网向外网发送的第一数据流，处理器41执行指令还控制转发芯片获取第一数据流中传输的第一文档，在所述第一文档中插入第一URL以得到第二文档，将所述第一数据流中的所述第一文档替换为所述第二文档以得到第二数据流，并通过网络接口44向所述第二终端设备发送所述第二数据流。存储器42可能包含高速随机存取存储器(random-access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器。存储器42中可以存储各种指令，以用于完成各种处理功能以及实现本申请的方法步骤。可选的，本申请涉及的网关设备还可以包括：电源45或通信总线46。通信总线46用于实现元件之间的通信连接。所述通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，上述存储器42用于存储计算机可执行程序代码，程序代码包括指令。当处理器41执行指令时，使网关设备的处理器41执行上述方法实施例中网关设备的处理动作，使转发芯片43执行上述实施例或可选实施例中网关设备的修改并发送文档动作，其实现原理和技术效果类似，在此不再赘述。

图16为本申请实施例提供的一种第二服务器的结构示意图。可选地，如图16所示，第二服务器500包括：处理器51(例如CPU)、存储器52、网络接口53。处理器51用于执行存储器52中的指令，通过网络接口53接收第一文档，根据所述第一文档，确定目标统一资源定位符URL，在所述第一文档中插入所述目标URL，并通过网络接口53向第一终端设备发送已插入所述目标URL的第一文档。存储器52可能包含高速随机存取存储器(random-accessmemory，RAM)，也可能还包括非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器，存储器52中可以存储各种指令，以用于完成各种处理功能以及实现本申请的方法步骤。可选的，本申请涉及的第二服务器还可以包括通信总线54。通信总线54用于实现元件之间的通信连接。上述通信端口56用于实现第二服务器与其他外设之间进行连接通信。

在本申请实施例中，上述存储器52用于存储计算机可执行程序代码，程序代码包括指令。当处理器51执行指令时，使第二服务器的处理器51执行上述实施例或可选实施例中第二服务器的处理动作，使网络接口53执行上述方法实施例中第二服务器的接收动作，其实现原理和技术效果类似，在此不再赘述。所述通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图17为本申请实施例提供的一种第一服务器的结构示意图。可选的，如图17所示，该第一服务器600可以包括：处理器61(例如CPU)、存储器62、网络接口63。处理器61用于执行存储器62中的程序代码，通过网络接口63接收第二终端设备发送的HTTP访问请求，解析所述HTTP访问请求，得到所述目标URL和所述网络地址，根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，并确定已被插入所述目标URL的文档通过所述目标泄密方式被传输给使用所述网络地址的终端设备；存储器62可能包含高速随机存取存储器(random-access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器。存储器62中可以存储程序代码和操作系统，以用于完成各种处理功能以及实现本申请的方法步骤。可选的，本申请涉及的第一服务器还可以包括通信总线64或显示器65。通信总线64用于实现元件之间的通信连接。所述通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。处理器61识别出泄密方式后通过网络接口63向管理员发送通知信息，并通过网络接口63接收管理员回复的信息，并将该信息展示在显示器器65上。

在本申请实施例中，上述存储器62用于存储计算机可执行程序代码，程序代码包括程序代码；当处理器61执行程序代码时，使第一服务器的处理器61执行上述实施例或可选实施例中第一服务器的处理动作，使网络接口63执行上述方法实施例中第一服务器的接收动作，其实现原理和技术效果类似，在此不再赘述。所述通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

可以理解的是，在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

Claims

1.一种文档追踪方法，其特征在于，包括：

网关设备截获从内网向外网发送的第一数据流，所述网关设备位于所述内网和所述外网的连接处，所述第一数据流是所述内网中的第一终端设备向所述外网中的第二终端设备发送的数据流；

所述网关设备获取所述第一数据流中传输的第一文档；

所述网关设备在所述第一文档的关联部件中插入第一统一资源定位符URL，从而得到第二文档，其中，所述第一文档的关联部件是在所述第一文档被打开时被自动访问的URL，所述第一URL包括第一服务器的服务器地址；

所述网关设备将所述第一数据流中的所述第一文档替换为所述第二文档从而得到第二数据流；

所述网关设备向所述第二终端设备发送所述第二数据流。

2.根据权利要求1所述的方法，其特征在于，所述网关设备在所述第一文档的关联部件中插入第一统一资源定位符URL，从而得到第二文档，包括：

如果所述第一文档的关联部件中包含初始的URL，所述网关设备将所述初始的URL替换为所述第一URL，从而得到所述第二文档；

如果所述第一文档的关联部件中不包含初始的URL，所述网关设备在所述第一文档的关联部件中添加所述第一URL，从而得到所述第二文档。

3.根据权利要求1或2所述的方法，其特征在于，所述第一URL还包括参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。

4.根据权利要求3所述的方法，其特征在于，所述参数还包括下述信息中的至少一个：用户标识、源地址、目标地址、时间信息，其中，所述用户标识是所述第一终端设备的用户标识，所述源地址是所述第一终端设备的网络地址，所述目标地址是所述第二终端设备的网络地址，所述时间信息用于指示所述第二终端设备发送所述第一文档的时间点。

5.一种文档追踪方法，其特征在于，包括：

第二服务器接收第一文档；

所述第二服务器根据所述第一文档，确定目标统一资源定位符URL，其中，所述目标URL包括第一服务器的服务器地址；

所述第二服务器在所述第一文档的关联部件中插入所述目标URL，所述第一文档的关联部件是在所述第一文档被打开时被自动访问的URL；

所述第二服务器向第一终端设备发送已插入所述目标URL的第一文档。

6.根据权利要求5所述的方法，其特征在于，所述第二服务器根据所述第一文档，确定目标URL，包括：

所述第二服务器确定所述第一文档所属的文档类型，所述文档类型包括敏感文档和诱饵文档；

如果所述第一文档所属的文档类型为敏感文档，则所述目标URL为第二URL，所述第二URL与所述敏感文档相对应；如果所述第一文档所属的文档类型为诱饵文档，则所述目标URL为第三URL，所述第三URL与所述诱饵文档相对应。

7.根据权利要求6所述的方法，其特征在于，所述第二URL还包括参数，所述参数包括第二指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第二指示符用于指示泄密方式为移动设备拷贝泄密。

8.根据权利要求6所述的方法，其特征在于，所述第三URL还包括参数，所述参数包括第三指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第三指示符用于指示泄密方式为黑客攻击泄密。

9.一种文档追踪方法，其特征在于，包括：

第一服务器接收第二终端设备发送的超文本传输协议HTTP访问请求，所述HTTP访问请求包含所述第二终端设备的网络地址和目标统一资源定位符URL，其中，所述目标URL中包括所述第一服务器的服务器地址；所述目标URL是所述第二终端设备打开的第一文档的关联部件中的URL，所述第一文档的关联部件是在所述第一文档被打开时被自动访问的URL；

所述第一服务器解析所述HTTP访问请求，得到所述目标URL和所述网络地址；

所述第一服务器根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，所述对应关系信息保存所述目标URL与所述目标泄密方式的对应关系；

所述第一服务器确定已被插入所述目标URL的文档通过所述目标泄密方式被传输给使用所述网络地址的终端设备。

10.根据权利要求9所述的方法，其特征在于，所述第一服务器根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：

11.根据权利要求9所述的方法，其特征在于，所述第一服务器根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：

当所述目标URL为第二URL时，所述第一服务器确定所述目标泄密方式是与所述第二URL对应的移动设备传播方式，所述第二URL包括所述第一服务器的服务器地址和参数，所述参数包括第二指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第二指示符用于指示泄密方式为移动设备拷贝泄密。

12.根据权利要求9所述的方法，其特征在于，所述第一服务器根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，包括：

当所述目标URL为第三URL时，所述第一服务器确定所述目标泄密方式是与所述第三URL对应的黑客攻击方式，所述第三URL包括所述第一服务器的服务器地址和参数，所述参数包括第三指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第三指示符用于指示泄密方式为黑客攻击泄密。

13.一种网关设备，其特征在于，包括：

接收模块，用于截获从内网向外网发送的第一数据流，所述网关设备位于所述内网和所述外网的连接处，所述第一数据流是所述内网中的第一终端设备向所述外网中的第二终端设备发送的数据流；

处理模块，用于获取所述接收模块接收到的所述第一数据流中传输的第一文档，在所述第一文档的关联部件中插入第一统一资源定位符URL从而得到第二文档；将所述第一数据流中的所述第一文档替换为所述第二文档从而得到第二数据流，其中，所述第一文档的关联部件是在所述第一文档被打开时被自动访问的URL，所述第一URL包括第一服务器的服务器地址；

发送模块，用于向所述第二终端设备发送处理模块对所述第一数据流进行处理得到的所述第二数据流。

14.根据权利要求13所述的设备，其特征在于，

所述处理模块，在所述第一文档的关联部件中插入第一统一资源定位符URL，从而得到第二文档时，具体用于如果所述第一文档的关联部件中包含初始的URL，则将所述初始的URL替换为所述第一URL，从而得到所述第二文档；如果所述第一文档的关联部件中不包含初始的URL，则在所述第一文档中添加所述第一URL，从而得到所述第二文档。

15.根据权利要求13或14所述的设备，其特征在于，所述第一URL还包括：参数，所述参数包括第一指示符、第一文档标识和所述第一文档的消息摘要算法MD5值，其中，所述第一指示符用于指示泄密方式为网络传播泄密。

16.根据权利要求15所述的设备，其特征在于，所述参数还包括下述信息中的至少一个：用户标识、源地址、目标地址、时间信息，其中，所述用户标识是所述第一终端设备的用户标识，所述源地址是所述第一终端设备的网络地址，所述目标地址是所述第二终端设备的网络地址，所述时间信息用于指示所述第二终端设备发送所述第一文档的时间点。

17.一种服务器，其特征在于，所述服务器为第二服务器，所述第二服务器包括：

接收模块，用于接收第一文档；

处理模块，用于根据所述接收模块接收到的所述第一文档，确定目标统一资源定位符URL，在所述第一文档的关联部件中插入所述目标URL，其中，所述第一文档的关联部件是在所述第一文档被打开时被自动访问的URL，所述目标URL包括第一服务器的服务器地址；

发送模块，用于向第一终端设备发送已插入所述目标URL的第一文档。

18.根据权利要求17所述的服务器，其特征在于，

所述处理模块，在根据所述第一文档，确定目标URL时，具体用于确定所述第一文档所属的文档类型，所述文档类型包括敏感文档和诱饵文档；如果所述第一文档所属的文档类型为敏感文档，则所述目标URL为第二URL，所述第二URL与所述敏感文档相对应；如果所述第一文档所属的文档类型为诱饵文档，则所述目标URL为第三URL，所述第三URL与所述诱饵文档相对应。

19.一种服务器，其特征在于，所述服务器为第一服务器，所述第一服务器包括：

接收模块，用于接收第二终端设备发送的超文本传输协议HTTP访问请求，所述HTTP访问请求包含所述第二终端设备的网络地址和目标统一资源定位符URL，其中，所述目标URL中包括所述第一服务器的服务器地址；所述目标URL是所述第二终端设备打开的第一文档的关联部件中的URL，所述第一文档的关联部件是在所述第一文档被打开时被自动访问的URL；

处理模块，用于解析所述接收模块接收到的所述HTTP访问请求，得到所述目标URL和所述网络地址，根据所述目标URL、以及保存的对应关系信息，确定目标泄密方式，所述对应关系信息保存所述目标URL和所述目标泄密方式的对应关系，确定已被插入所述目标URL的文档通过所述目标泄密方式被传输给使用所述网络地址的终端设备。

20.一种文档追踪系统，其特征在于，包括：如权利要求13~16任一项所述的网关设备以及如权利要求19所述的第一服务器。

21.一种文档追踪系统，其特征在于，包括：如权利要求17或18所述的第二服务器以及如权利要求19所述的第一服务器。