CN104715168A

CN104715168A - 一种基于数字指纹的文件安全管控和溯源的方法及系统

Info

Publication number: CN104715168A
Application number: CN201510079012.2A
Authority: CN
Inventors: 陈佳阳; 谢松文
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2015-06-17
Anticipated expiration: 2035-02-13
Also published as: CN104715168B

Abstract

本发明公开了一种基于数字指纹的文件安全管控和溯源的方法及系统，所述方法包括文件上传流程：在用户将文件上传到文件服务器时，文件服务器启动自然语言分析程序，对文件文本进行全文扫描和匹配分析，找到可插入数字指纹的位置，生成一张指纹特征位置表，与原始文件共同存储在文件服务器中，同时生成上传下载记录表，记录本次上传的信息；文件下载流程：在用户向文件服务器发起文件下载请求时，文件服务器根据指纹特征位置表的长度，生成一个同等长度的二进制随机码，该随机码对应位为1时，在对应位置的文本中插入数字指纹，生成新的文件发送给用户，同时本次下载的信息记录在上传下载记录表中。本发明可以实现对文本文件的溯源和安全管理。

Description

一种基于数字指纹的文件安全管控和溯源的方法及系统

技术领域

本发明涉及一种文件安全管控和溯源的方法，尤其是一种基于数字指纹的文件安全管控和溯源的方法与系统。属于信息安全管控领域。

背景技术

随着信息技术的进步，计算机和网络已成为日常办公、通信交流和协作互动的必备工具。但信息技术提高人们工作效率的同时，也对信息安全防范提出了更高的要求。目前大多数用户对办公网络的安全防范方式，仍然停留在采用防火墙、入侵检测、防病毒等被动防护阶段。而实际调查数据显示，公司或单位内部机密通过网络泄露的事件中，只有极少部分是被黑客窃取的，其余大多数都是由于内部员工有意或无意的泄密行为所导致。

防止网络泄密的手段主要包括两方面，一个是从系统和网络的角度防止数据泄露，另一个是从管理的角度提升员工的安全意识。

一、如何从系统和网络角度防止数据泄露。

在系统角度，企业实现数据泄露防护(Data leakage prevention，DLP)的成熟系统具有很多，主要都是基于以下3点控制来实现的：

1)网络以及物理隔离管控：将企业的内网和外部互联网，以及内网的不同敏感区域进行隔离和控制，在服务器端和用户端安装部署专用软件以控制用户行为，并且在网络的关键位置部署安全管控设备，使得企业机密文档不能通过网络或者U盘等途径传播到外部。

2)账号权限控制：通过集中的权限管控系统，给不同的用户分配不同的系统访问权限，只有级别足够的用户才能访问敏感文件，并且可以对企业外发的文件进行审批确认，以控制敏感文件外泄。

3)文档加密方式：对文档本身进行加密，在没有获得授权的情况下打开，只能看到加密后的密文乱码。

目前，市场上有众多的DLP数据泄密防护系统的厂家，其中有代表性的方案包括：

1)亿赛通公司，系统包括：数据资产内容安全管理系统(TA)，以数据透明加解密技术为基础，以内容安全管控技术为核心，整合数据安全管理DSM、终端安全管理TSM、移动设备管理MDM与应用安全管理ASM等子系统。而数据防泄露部分，主要是锐盾系统，包含四个子系统，分别为锐盾终端防护、锐盾网络防护、锐盾邮件防护和锐盾数据管理，对终端、网络、邮件泄露风险行为进行识别并及时阻止。

2)深圳虹安公司，其产品包括服务器端和客户端，以密码技术为支撑，数据保密为核心，身份认证为基础，通过内核级加密技术，整合端点控制技术，有效防止任何状态(使用、传输、存储)的内部资料和智慧资产泄漏，能够在数据和文件使用时便对其进行自动加密，确保以任何方式泄漏的数据和文件均是密文，同时能够有效防止数据和文件通过任何非法操作和传输路径(如：截屏和另存、共享和外设、邮件、和移动存储设备)等方式泄露。

从文档可溯源的角度来看，现有的DLP产品都没有对每一个流出的文件进行唯一的标识，也就是没有加上数字水印或者数字指纹，这样，当同样的一个文档通过不同渠道流出泄露之后，系统并不能直接标识出文档的泄露渠道。

二、如何从管理的角度提升员工的安全意识

在企业管理的角度，需要培训专业的安全管理人员，建立文档安全管理体系。而更关键的是需要提升全员的安全管控意识。为了提升员工的安全意识，对文档加上数字水印和数字指纹是一个可取的技术手段。

数字水印和数字指纹技术都是进行文件溯源的技术，这两者都是通过在数字文件中插入各种信息来对文件进行标识。本质上来说，数字指纹也属于数字水印技术的一种，它们之间主要的区别在于，数字水印技术会在所有外发的文件中都加入同样的信息，往往用于标识文件的版权和所有者信息，尤其是音视频产品的版权保护；而数字指纹则是为每一个用户插入独特的不同的信息，往往用于文件的溯源和安全管控。

目前，针对视频、图像的数字水印技术已经被深入研究，采用空域、频域的算法均已经非常成熟。但是，对于非视频、非图片的文档而言，而在数字水印算法方面的手段还相对较少，目前主流的水印算法包括：

1)行间距编码：在文本的每一页中，对每行的行间距进行微小调整，调整的数值和顺序作为嵌入的水印信息。

2)字间距编码：类似于行间距编码的思路，对每个字符进行水平移位，移位的数值和顺序作为嵌入的水印信息。

3)特征编码：通过改变文本中字符的特征(比如字体)来嵌入水印。

以上3种方法主要是针对带格式的文本，比如word、pdf等，而无法用于程序代码等纯文本环境，并且在经过打印复印后编码信息会难以辨识。

而针对无格式文本，主要的数字水印方法包括：

4)加入无效不可见字符：针对无格式的纯文本，可以通过在每行的末位加空格等方法加入水印信息。该方法的缺点是恶意用户可以很容易的清理掉数字文档中的这些字符，并且文档在被打印、复印、截屏、拍照后会损失水印。

5)同义词替换：通过同义词进行替换来插入水印，但是完全同义的词很少，该方法容易被阅读者察觉，并且在某些情况下会影响语义表达。

6)基于语言语法规则的编码：该方法的主要思想是通过对自然语言的分词、句法分析等等，对文字本身进行修改来嵌入水印信息。包括了purdue大学atallah教授提出的一种基于计算机自然语言处理技术的文本水印技术；基于汉字结构知识的鲁棒性文本数字水印算法；基于汉字数学表达式的文本数字水印算法。

这些方法的优点是直接改变文本本身的内容，水印信息不受文本格式的限制，也不受拷贝、打印、复印等等方法的影响。而分析检测手段单一，若仅仅采用其中一种方法，如果恶意用户了解到了水印的算法，实施对文本内容添加或者替换攻击，将非常容易的去除水印，对水印提取影响很大。

对于非格式的文本，如果采用单一的技术手段进行水印和指纹的插入，效果并不会很好。需要一种即适合于格式文本，也适用于非格式文本的数字水印算法，它的算法应该保持开放性，具备不断的可扩展性，支持各种复杂的语法规则，支持用户根据自身要求进行自定义配置，具备强大的鲁棒性来抵抗恶意用户的攻击。

并且，该算法和系统架构需要适合于现代企业网络化的环境，不仅需要处理快速，更需要系统配置简单，便于和现有的各种OA办公自动化系统和互联网应用进行集成。

以上是现有产品和通用的方法分析，专利系统中的类似专利文献主要包括以下三个：

1)申请人为西北大学，申请号为200910023743.X，名称为“一种基于中文句式模板变换的文本隐藏方法”的发明专利申请，其通过模板改写句子，避开对语法、语义的复杂理解和处理，使得载体文本符合语法、语义习惯，避免盲目的改写。

2)申请人为湖南大学，申请号为201010127144.5，名称为“一种基于同义词替换的文本可恢复水印方法和装置”的发明专利申请，其优点是在提取版权信息的同时恢复原始文本，能够在军事、法律和文学等对文本内容要求甚高的领域中，既保证文档的版权，又不会导致合法用户的歧义理解。

3)申请人为西北大学，申请号为201210148620.0，名称为“一种中文超短文本的水印嵌入和提取方法”的发明专利申请，其充分利用每一个嵌入单元，大大提高了超短文本的隐藏容量，在提取水印信息时，采用水印验证技术来分析待检测文本是否是经过嵌入处理的文本，有效地降低了提取水印信息时的虚警率。

但是以上三个类似方案采用的文本处理替换手段都比较单一，没有提出一种可以无限扩展的框架来容纳各种语法处理手段，都没有涉及到文件的上传和下载处理流程，没有一套易于和现有网络应用系统集成的方案，没有涉及到如何保持无缝感知的用户体验。

上述现有技术的主要缺点如下：

对于普通的企业来说，最重要的信息资产并不是音视频资料，而是各种基于文字的数字文件，比如WORD文本、EXCEL数字表格，PPT演示材料，PDF产品和客户目录，以及科技企业的源代码等等。

DLP(Data leakage prevention，数据泄露防护系统)供应商有很多，比如虹安、symantec等等，但这些成熟方案均有缺点，其中3点是：

1)部署和维护成本高昂。为了部署DLP系统，需要在数据库、服务器端、客户端均部署专用软件，甚至需要采购专用的网络安全设备以监控网络上敏感文件的流量，对于中小型企业来说，成本过高。特别是这些方案需要在每个员工的桌面端部署客户端管控软件，采购license费用不菲，并且每个终端软件均需要专人维护，导致企业的日常运维成本高昂。

2)没有实现对数字指纹的支持，通过不同途径下载的文件之间没有差异。现有主流的DLP系统主要关注于文件访问权限控制，而某个文件一旦被审核可以下载后，任何下载该文件的用户获得的文件便都是一样的，无法实现准确溯源。当多个下载用户中有一个人泄露敏感文件后，理论上便无法找出泄露者。

3)无法对离线文件进行溯源管控。DLP系统可以监控文档在系统和网络中的流向，并生成日志保存以备审计。但是，一旦文档被打印、拷贝、截屏、拍照之后，DLP系统便无法跟踪文档的流向，无法对泄密者进行溯源。

发明内容

本发明的目的是为了解决上述现有技术的缺陷，提供一种基于数字指纹的文件安全管控和溯源的方法，该方法是对DLP系统做出的有益补充，可以在现有的DLP系统中进行集成，作为其一个功能模块进行实施，也就是说加入该模块可以让DLP系统管控的文件具备数字指纹的特性，可以对文件进行准确的溯源跟踪管理，这可以显著的提升文档安全管控水平，尤其是可以实现文档精确的溯源。

本发明的另一目的在于提供一种基于数字指纹的文件安全管控和溯源的系统。

本发明的目的可以通过采取如下技术方案达到：

一种基于数字指纹的文件安全管控和溯源的方法，所述方法包括文件上传流程和文件下载流程，其中：

文件上传流程：在用户将文件上传到文件服务器时，文件服务器利用模式匹配词典，启动自然语言分析程序，对文件文本进行全文扫描和匹配分析，找到可插入数字指纹的位置，生成一张指纹特征位置表，该指纹特征位置表与原始文件共同存储在文件服务器中，同时生成上传下载记录表，记录本次上传的信息；

文件下载流程：在用户向文件服务器发起文件下载请求时，文件服务器根据指纹特征位置表的长度，生成一个同等长度的二进制随机码，若该随机码对应位为0，则表示该位不修改，若该随机码对应位为1，则表示该位按照指纹特征位置表上描述的算法，在对应位置的文本中插入数字指纹，生成新的文件发送给用户，同时本次下载的信息记录在上传下载记录表中，以对文件进行安全管控和溯源。

作为一种实施方案，所述可插入数字指纹的位置是可增加/删除/修改字符而保持原有语义的部分。

作为一种实施方案，所述可增加字符的方式包括增加“的、地、得”和增加助词；所述可删除字符的方式包括删除“的、地、得”和删除助词；所述可修改的方式包括替换同义字、替换助词、替换同义词、替换同义字段、简化词组、同音同型错别字替换和更改标点符号。

作为一种实施方案，所述自然语言分析程序所采用的自然语言分析算法是基于海量数据统计分析的词典匹配算法，基于海量数据统计分析的词典匹配算法具体如下：

通过对文学作品、科学论文以及互联网网络上的海量数据进行统计分析，并结合语文工作者的研究成果，获得大量的匹配模式，并生成常驻内存的匹配表，从而通过全文遍历和直接匹配的方法获得可插入数字指纹的位置。

作为一种实施方案，所述全文扫描和匹配分析的结果根据指纹处理模板进行编码，指纹处理模板的表格结构包括指纹编码、处理强度、处理语句和处理方式描述，其中每个指纹编码表示一种具体的增加/删除/修改规则，处理强度的数值范围从0～3，表示实施该处理方式对语义理解产生的影响程度，处理语句表示计算机处理的代码；

所述指纹特征位置表的结构包括序号、文本指针位置和指纹编码。

作为一种实施方案，所述指纹特征位置表的长度根据系统设计和编程的需要进行取整。

作为一种实施方案，所述模式匹配词典的基本格式包括词典序号、源文本、可替换文本、指纹编码和指针偏移量，其中源文本项和可替换文本项都是string类型的字符串，指纹编码和指纹处理模板中的指纹编码一致，表示可采用的指纹处理方法，指针偏移量表示处理的指纹点在匹配起点后的第几个字符中出现，用于标识指纹的位置。

作为一种实施方案，所述上传下载记录表的基本格式包括序号、用户名、上传/下载时间、文件路径、随机码和预留字段。

本发明方法相比于现有成熟DLP系统的围追堵截并用，在服务器、网络和客户端均需要部署监控软件的工作模式，实施流程具有以下3个特性：

1)仅需要在服务器端实施。企业只需要部署文件服务器(或集群)，当用户上传一个文件的时候，服务器将对该文件进行扫描和模式匹配运算，并形成指纹特征位置表。当用户下载文件的时候，服务器生成一个随机码，并根据该随机码对对应的指纹特征位置进行修改，生成下载文档，发送给用户。

2)服务器端采用标准的上传下载接口。所有的文件计算和修改操作都只在文件服务器内部完成，外部用户无需知道服务器内部的工作流程，只需要按照标准的文件访问接口(如FTP，NFS、CIFS、POSIX等文件协议接口)进行上传和下载。这样，该套系统将非常容易的和公司内部各种业务系统进行集成，比如公司网站、邮箱系统、OA系统等等。

3)每次上传下载均记录完整的日志。这些信息都存储在上传下载记录表中。对于用户上传的原始文件，文件服务器将存储该文件，并扫描分析得到指纹特征位置表，同时记录上传用户名、文件存储路径、文件属性、时间等信息。对于文件的下载，服务器将记录下载用户名、下载远端路径、随机码、下载时间等信息。

这样，文件服务器内将存储有原始文件、指纹特征位置表、上传下载记录表，这些信息将为文件溯源提供完整的支持。为便于数据查询，这两个表格均为数据库表。

本发明的另一目的可以通过采取如下技术方案达到：

一种基于数字指纹的文件安全管控和溯源的系统，所述系统包括文件服务器，所述文件服务器包括：

指纹特征位置表生成模块，用于在用户将文件上传时，利用模式匹配词典，启动自然语言分析算法，对文件文本进行全文扫描和匹配分析，找到可插入数字指纹的位置，生成一张指纹特征位置表；

随机码生成模块，用于在用户发起文件下载请求时，根据指纹特征位置表的长度，生成一个同等长度的二进制随机码；

文本处理模块，用于若生成的随机码对应位为0，则表示该位不修改，若生成的随机码对应位为1，则表示该位按照指纹特征位置表上描述的算法，在对应位置的文本中插入数字指纹，生成新的文件发送给用户；

数据库存储模块，用于存储指纹特征位置表，以及通过上传下载记录表记录文件上传的信息和文件下载的信息。

本发明相对于现有技术具有如下的有益效果：

1、本发明采用了自然语言分析算法，该算法通过全文扫描文本，找到可以进行增加/删除/修改且保持同义的文本字段，综合采用汉语言和其他语言的各种语法规则，具有一套语法规则库，也就是模式匹配词典，算法是开放的，可以不断的扩展匹配模式；数字指纹嵌入规则中加法、减法、替换三种规则并用，也就是既可以增加字符，也可以删除字符，或者修改字符，这样可以提高指纹算法的鲁棒性；对根据对语义的影响程度，来定义指纹检测和插入的强度，支持用户自定义编码规则，可以避免熟悉算法的人恶意修改文本；模式匹配词典支持使用通配符进行匹配，对于英文等字母语言可以使用正则表达式进行匹配，可以灵活的根据语言研究的成果进行灵活的匹配处理。

2、本发明对文本格式无要求，数字指纹是基于汉语语法规则对文本本身进行的修改，并不涉及文本的格式，因此既可以对WORD、PDF等格式文本实施，也可以对TXT、Java等纯文本实施，可以有效的保护软件企业对程序代码的所有权利。(程序代码中必然含有大量的注释，一般用#注释#字符进行识别，修改注释并不会影响代码的编译和运行。)

3、本发明采用非对称的计算，文件上传时需要计算可以插入指纹特征的位置，该算法是对文本全文的扫描和分析，需要大量的模板匹配和查表的计算，耗费的计算资源较多，但是每个文档仅仅需要在上传的时候计算一次即可。而文件下载时插入数字水印的算法极其简单，只需要在具有指纹特征的位置增删改对应字符便可，可以迅速的为每一个访问用户生成一份独一无二的数字文件。该特点使其非常适合于企业文档的一次上传多次下载的使用场景。

4、本发明在文件离线后仍然具备可溯源特性，相对于普通的数字指纹往往只能在电子文件中保存，文件内容一旦进入非电子状态后便会失去数字指纹，本发明的数字指纹算法是基于语言的自然特性，其指纹体现在文字内容本身，即使文档被打印、传真、复印、截屏、拍照、誊写之后仍然保留指纹水印，保留了可溯源特性。

5、本发明的指纹匹配模式开放，且可自定义，在保持语义不变的前提下，汉语可以有多种修改方式，该算法保持开放特性，支持所有的检测和修改算法，这些修改模式中，包含了汉字的增加/删除/修改，并且在具体使用场景中采用哪些模式是可以由管理员进行自定义的，只有企业管理员才知道配置脚本。因此恶意用户即使了解该算法并对文档进行修改，文本中也必然会存在恶意用户所不知道的细节，指纹特征点不可能被全部清除。

6、本发明指纹特征点的数据量足以支持复杂的校验和纠错算法，根据统计，日常语言中大约每30个汉字便可以检测出一个数字指纹的特征点，可以在此处插入一个比特的水印，只要文档长度足够长，可加入的水印比特量便足够多，可以在其中实施CDMA扩频、校验和纠错等等的算法，提高文档数字水印的鲁棒性。即使文档长度在1页以内，几百个汉字，一般也能插入超过8个比特的水印，这也足以标识出具体的用户了。

7、本发明对于安全投资预算不足的中小企业来说，文档安全管控溯源系统也可以单独实施，不必在网络侧部署专用设备，也不必在每个用户的终端部署客户端软件，便能实现有效的安全溯源管理，这样企业可以在减少物理设备和软件许可证采购的条件下，实现较高水平的文件安全管控。

8、本发明可以作为一种实现精确溯源的文件安全管理系统，它的实施在企业管理层面也会形成有利的影响，能通过心理压力来增强企业员工的安全意识。由于每一份下载的文件都具备独一无二的数字指纹，每一个员工都将意识到若文件外泄必然能够跟踪到泄密源，因此自然会对文件的安全管控更加负责，从而大大减少文件泄露的可能性。

附图说明

图1为本发明基于数字指纹的文件安全管控和溯源的方法流程示意图。

图2为本发明基于数字指纹的文件安全管控和溯源的系统原理框图。

具体实施方式

实施例1：

本实施例的基于数字指纹的文件安全管控和溯源的方法可以实现对文本文件的溯源和安全管理，它是一种基于自然语言分析处理的数字指纹算法，包括文件上传流程和文件下载流程。

首先，为了便于理解，获得一个感性的认识，举一篇文章作为例子，这个段落是中学课本《荷塘月色》中的一段，原文是这样的：

曲曲折折的荷塘上面，弥望的是田田的叶子。叶子出水很高，像亭亭的舞女的裙。层层的叶子中间，零星地点缀着些白花，有袅娜地开着的，有羞涩地打着朵儿的；正如一粒粒的明珠，又如碧天里的星星，又如刚出浴的美人。微风过处，送来缕缕清香，仿佛远处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动，像闪电一般，霎时传过荷塘的那边去了。叶子本是肩并肩密密地挨着，这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水，遮住了，不能见一些颜色；而叶子却更见风致了。

而经过数字指纹算法扫描后，可以得到特征位置，若对这些特征位置全部进行修改后，这段文字可以是这样的：

曲曲折折的荷塘的上面，弥望着是田田的叶子。叶子出水很高，像亭亭的舞女的裙。层层^叶子中间，零星的点缀着些白花，有袅娜的开着的，有羞涩的打着朵儿的；正如同一粒粒^明珠，又如同碧天里的星星，又如同刚出浴的美人。微风过处，送来缕缕的清香，仿佛远处的高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动，象闪电一般，霎时间传过荷塘^那边去了。叶子本是肩并肩密密的挨着，这便宛然有了一道凝碧的波痕。叶子的底下是脉脉的流水，遮住了，不能见到一些颜色；而叶子却更见风致了。

在上文中，加粗表示字符被修改，下划线表示增加了字符，^表示删除了字符。

这段文本包含了219个字符，使用了大量的汉语语法修改方法，修改后的文本一共插入了18个比特的水印，但是读起来段落的语义并未发生变化，甚至连优美文字中描写的氛围感也并未发生多少变化。而对于没有阅读过原文的普通读者来说，他几乎无法分辨这是不是被修改过。

由此可见，在汉语中是可以通过语法语义分析的方法插入大量指纹水印信息的，改哪些、不改哪些的选择中，标识了大量的信息。而这些信息可以用来进行数字指纹编码，进行文件溯源和安全管控。

如图1所示，本实施例的文件上传流程和文件下载流程，具体如下：

1)文件上传流程：在用户将文件上传到文件服务器时，文件服务器利用模式匹配词典，启动自然语言分析程序，对文件文本进行全文扫描和匹配分析，找到可插入数字指纹的位置(即可增加/删除/修改字符而保持原有语义的部分)，生成一张指纹特征位置表，该指纹特征位置表与原始文件共同存储在文件服务器中，同时生成上传下载记录表，记录本次上传的信息；

2)文件下载流程：在用户向文件服务器发起文件下载请求时，文件服务器根据指纹特征位置表的长度，生成一个同等长度的二进制随机码(一串二进制字符)，若该随机码对应位为0，则表示该位不修改，若该随机码对应位为1，则表示该位按照指纹特征位置表上描述的算法，在对应位置的文本中插入数字指纹，生成新的文件发送给用户，同时本次下载的信息记录在上传下载记录表中，以对文件进行安全管控和溯源。

针对纯文本的数字指纹检测和增加/删除/修改算法是本方案的核心，该算法综合了语言研究的各项成果，通过所有可能的语法模板对文本进行全文扫描和匹配分析，得出可以插入数字指纹的位置信息，并形成完整的指纹特征位置表。并且，该算法和编码方案是保持开放的，可以根据最新的成果不断的补充新的计算模板，并对文件服务器程序进行更新，支持进行快速的迭代。

以现代汉语为例，对文字的增加/删除/修改方式可以有很多，并且这些调整并不会影响语义的表达，相关的调整方式举例如下：

a、“的、地、得”的增加：提高运营成本->提高运营的成本；迅速跑开->迅速地跑开；高兴哭了->高兴得哭了。

b、“的、地、得”的删除：北京的戏院的文化->北京的戏院文化。

c、“的、地、得”的相互替换：激动的跳了起来->激动地跳了起来；快乐的像小孩子一样->快乐得像小孩子一样。

d、同义字的相互替换：幸福的像花儿一样->幸福的象花儿一样。

e、增加助词：这项改革涉及多个部门->这项改革涉及到多个部门。

f、删除助词：雾气在空中弥漫着->雾气在空中弥漫。

g、助词之间的替换：我们公司中标了->我们公司中标啦。

h、同义词、同义字段的替换：母亲->妈妈；拜会->拜见；霎时->霎时间；可以->可。

i、词组简化：工业控制计算机->工控计算机；革命委员会->革委会。

j、拼音输入法、五笔输入法导致的错别字替换：现代文本中，若用户使用拼音输入法，经常出现由于误选而导致的同音或类似发音的错别字。若用户使用五笔输入法，也经常会出现字型接近的错别字。这些错别字比例不大但是却几乎在每篇文档都存在，特意加上少部分的错别字，虽然会影响一些语义，但是会使得文档显得更真实更接地气。比如：推出->退出；限定->现定。

k、标点符号的更改：语句的部分地方可以使用逗号，也可以使用句号。

1、其他的既合乎语法，又几乎不改变语义的调整方式。

类似于这些分析和调整方式还有很多，这些调整几乎都具有合乎语法且基本不改变语义的特点，当用户并未获得原文，而仅仅是阅读带有指纹的文字的时候，几乎不会察觉到这段文字是被修改过的。

同样，在英文或者是其他的语言中也存在着很多这类的属性，可以采用类似的方法进行检测和处理，插入数字指纹信息。

为了计算机处理的方便考虑，需要在最大化水印的信息量和不改变文本的语义之间做一个平衡。为此，本实施例的算法支持用户自定义语言模块规则。

根据对语义理解的影响程度，所有可选的规则将进行预先的分级：1、完全不影响阅读理解，读者不可感知；2、保持语义，敏感读者可以感知；3、合乎语法但略影响语义，读者可感知。

上述分级是根据语文工作者的研究成果内置在文件服务器程序中的，对于每个企业单位的系统管理员在应用的时候，可以结合公司业务类型、文档类型、长度和复杂度的不同，根据加密强度的要求，设定文档的处理强度。

系统管理员可以在语言处理模块的界面中一项一项的勾选，对每一个语法模块进行完全的自定义，生成配置脚本。

作为算法的核心，自然语言分析算法将需要对文件的全文进行扫描和分析比对，分析的结果将根据指纹处理模板进行编码，最终生成一个指纹特征位置表。

指纹处理模板的表格结构包括指纹编码、处理强度、处理语句和处理方式描述，具体如下表1所示：

指纹编码	处理强度	处理语句	处理方式描述
				0	0	null	不进行处理
1	1	delete‘的’	删除‘的’
				2	2	delete‘地’	删除‘地’
3	2	delete‘得’	删除‘得’
				4	1	add‘的’	增加‘的’
5	2	add‘地’	增加‘地’
				6	2	add‘得’	增加‘得’
7	2	delete‘的’add‘地’	‘的’替换为‘地’
				8	2	delete‘的’add‘得’	‘的’替换为‘得’
9	1	delete‘地’add‘的’	‘地’替换为‘的’
				10	2	delete‘地’add‘得’	‘地’替换为‘得’
11	1	delete‘得’add‘的’	‘得’替换为‘的’
				12	3	delete‘得’add‘地’	‘得’替换为‘地’
13	2	delete‘像’add‘象’	‘像’替换为‘象’
				14	2	delete‘象’add‘像’	‘象’替换为‘像’
15	2	add‘到’	增加助词‘到’
				16	3	delete‘了’add‘啦’	助词‘了’替换为‘啦’
17	3	delete‘母亲’add‘妈妈’	‘母亲’替换为‘妈妈’
				18	3	delete‘拜会’add‘拜访’	‘拜会’替换为‘拜访’
……		……	……
				……		……	……

表1指纹处理模板表

在上表中，每一条指纹编码序号表示一种具体的增加/删除/修改规则，可以随着自然语言分析算法的进展不断的进行扩充；处理强度的数值范围从0到3，表示实施该修改规则会对语义理解产生的影响程度；处理语句表示计算机处理的代码，这里并不局限于某种具体的编程语言，可以用C++、Java、Python等；处理方式描述采用中文，便于后台开发和维护人员理解。

对于带格式的文档(如WORD、PPT、PDF等)，当它上传到文件服务器后，首先需要转换为纯文本的文件，对于C语言、C++、Java等程序文档，自然语言分析算法将仅仅分析其中的注释部分。这些具体的处理算法和文件格式接口，在本实施例中并不涉及，仅以纯文本为标准进行描述。

自然语言分析程序所采用的自然语言分析算法，按照基本思路分为两类，一类是基于语法结构的匹配分析算法，另一类是基于海量数据统计分析的词典匹配算法，本实施例采用的是后者。

基于语法结构的匹配分析算法，需要程序首先对文本全文进行句法和语义分析，进行合理的断句和分词，判断主、谓、宾、定、状、补语法结构，然后进一步判断可采用的增加/删除/修改字符而保持原有语义的方式。由于计算机程序的分析模式和人类大脑的自然语言模式存在较大的差别，这种分析程序不仅难以编写，并且很容易出现能被人类发觉的谬误之处，被修改之处和上下文语境产生冲突，从而被阅读者察觉。并且，全球不同语言的语法规则存在巨大的差异，该方案难以适配不同的语言环境。

而基于海量数据统计分析的词典匹配算法，可以通过对文学作品、科学论文以及互联网网络上的海量数据进行统计分析，并结合语文工作者的研究成果，获得大量(数以十万种)的匹配模式，并生成常驻内存的匹配表，从而通过全文遍历和直接匹配的方法获得可插入数字指纹的位置。使用这种方法，在生成模式匹配词典的过程中，需要开发人员创建一个较大的词典库，这个过程需要人力资源投入。但是，该方法只需要一次投入便可持续使用，并且很容易的通过词典库更新的方法进行持续的迭代更新。另一方面，该方法可以很容易的通过不同语言包的方法，获得对全球主流语言的支持。

由于现代计算机的存储空间不再紧缺，以每个模式匹配项100字节计算，存储一个包含100万个匹配字符对的词典也仅仅需要100多MB的内存空间。同时，模式匹配词典可以充分的使用通配符和正则表达式，获得最佳的匹配效果和最大的应用范围。基于模式匹配的分析算法，并不需要通过自然语言处理获得文档的语义信息，只需要确保加入指纹后的语义保持不变，因此，并不需要计算机程序非常智能化，不需要编制复杂的人工智能程序，只需要采用基本的查表和匹配的算法，便可以完成对文本的快速处理。

本实施例是基于模式匹配词典的算法对文本进行处理的，在引入外部的分词工具后，也可以实现对基于语法结构的算法的支持。

所述模式匹配词典的基本格式包括词典序号、源文本、可替换文本、指纹编码和指针偏移量，具体如下表2所示：

词典序号	源文本	可替换文本	指纹编码	指针偏移量
					1	程序编程思想	程序编程的思想	4	4
2	*用户的数量	*用户数量	1	4
					3	迅速的离开	迅速地离开	7	2
4	霎时间	霎时	36	2
					5	可以考虑	可考虑	21	1
6	？？得像？？一样	？？的像？？一样	11	2
					7	工业控制计算机	工控计算机	67	0
8	？？的时候	？？时	25	2
					9	像？？一样	象？？一样	13	0
10	？？的？？的*	？？？？的*	1	2
					11
……
					……

表2模式匹配词典表

在词典的数据结构中，源文本项和可替换文本项都是string类型的字符串，都可以使用通配符？和*(？表示一个任意字符，*表示多个任意字符)；而指纹编码和指纹处理模板中的指纹编码一致，表示这里可采用的指纹处理方法(比如去掉‘的’，在指纹处理模板中序号为1)；指针偏移量表示处理的指纹点在匹配起点后的第几个字符中出现，用于标识指纹的位置。

针对不同的业务类型，比如互联网行业、工业制造行业、日用化妆品行业、能源行业等等，可以制作针对性的专业词典，再导入文件服务器的内存进行处理，这样既可以节省内存空间，也能大大提高处理效率。

对于基于字母的表音语言，比如英语、德语、法语、西班牙语等，也可以使用正则表达式来进行更高效率的匹配。

在自然语言分析程序对文本完成处理分析后，将生成一个针对该文件的指纹特征位置表，并存储在文件服务器的数据库中，指纹特征位置表的结构包括序号、文本指针位置和指纹编码，具体如下表3所示：

序号	文本指针位置	指纹编码
			1	7	1
2	19	2
			3	33	3
4	41	8
			5	53	7
6	65	23
			7	77	12
8	89	9
			……	……

表3指纹特征位置表

上述指纹特征位置表的长度根据文档内容而不同，其中序号的最大值表示了文本中可以插入数字指纹的比特数。以上表中的第2行为例，这一行的意思为文本的第19个字节处，可以进行指纹编码为2的操作，即删除‘地’字。

指纹特征位置表的长度可以根据系统设计和编程的需要进行取整，比如取8的倍数、或者2的整数次幂，这样可以提高计算机处理和存储的效率。

在存储文件的同时，文件服务器将创建一个上传下载记录表，该表与文件同名(或者另分配一个唯一的键值，以便数据库检索使用)，其基本格式包括序号、用户名、上传/下载时间、文件路径、随机码和预留字段，具体如下表4所示：

序号	用户名	上传/下载时间	文件路径	随机码	预留字段
						0	apple	2013.12.1 14：00	\user1\file	0	……
1	bob	2014.1.2 9：00	10.1.1.1	10010001	……
						2	celina	2014.1.2 11：00	10.1.2.1	10100011	……
3
						4
……

表4上传下载记录表

在上表中，序号为0的行表示为上传文件的记录，表明用户apple在2013年12月1日14：00上传了该文件到服务器的\user1\file目录下，随机码为0表示原始文件没有任何的修改。

当计算生成指纹特征位置表，存储原始文件，创建上传下载记录表后，文件上传的任务完成，接下来可以提供给用户下载了。

当用户发起一个下载请求后，文件服务器首先需要使用随机码生成器，产生一个和指纹特征位置表等长的二进制随机码，与指纹特征位置表一一对应的，若随机码的某一位为1，则表示指纹特征位置表中对应的那条算法将被执行，例如若分析表的表长为8，那么这个随机码可能就是11000110，这表示指纹特征位置表中的第1，、2、6、7条将被执行。

以表3具有8行的指纹特征位置表为例，若随机码为11000110，则文件服务器对文件的操作如下表5所示：

序号	文本指针位置	指纹编码	指纹编码对应的操作	随机码	是否执行？
						1	7	1	删除‘的’	1	执行操作
2	19	2	删除‘地’	1	执行操作
						3	33	3	删除‘得’	0	不执行
4	41	8	‘的’替换为‘得’	0	不执行
						5	53	7	‘的’替换为‘地’	0	不执行
6	65	23	‘可以’替换为‘可’	1	执行操作
						7	77	12	‘得’替换为‘地’	1	执行操作
8	89	9	‘地’替换为‘的’	0	不执行

图5文件服务器对文件的操作表

随后，文件中的对应文字将执行增删改操作，然后生成一个唯一的带有数字指纹的文件给用户下载，而这个随机码将记录在上传下载记录表中，成为该文件的数字指纹，上传下载记录表中同时记录用户下载时的远端IP地址等下载信息。

需要说明的是，根据文件本身的特征，由于指纹特征位置表可能很长，随机码的位数也会同时增加，该随机码的数值空间会远比用户数目要大，如何生成和处理随机码将大有可为，可以使用CDMA扩频算法、校验码、纠错码等技术，也可以采用数字指纹技术中的抗合谋攻击算法。这样，在面对诸如文件缺失只剩片段，恶意用户修改文本，若干用户合谋攻击等等的情况时，也能通过剩余的那些水印指纹信息来进行溯源。

在上传和下载的过程完成后，文件服务器中将完整的保存着以下内容：原始文件、指纹特征位置表，以及上传下载记录表。

若某份文件副本被泄露，企业单位的系统管理员可以从泄露的副本中提取数字指纹信息，将它和上传下载记录表中的随机码进行比对，从而确定泄露者，进行下一步处理。如果文档被修改被攻击，或者只找到部分的文字段落，也可以采用人工分析比对的方法从其中找到部分指纹特征，结合其他辅助手段，最终确定泄露源。

综上所述，本发明方法将整个安全管控流程简化为文件上传和下载两个基本过程，在现代企业单位的IT化环境中使用标准的文件访问接口提供服务，因此很容易和现有的各种IT系统进行集成，也可以作为DLP数据防泄漏系统的一个模块。

实施例2：

本实施例主要说明本发明方法可以应用的场景，由于插入的数字指纹并不会影响文件的语义表达，所以除了那些带有法律效力的正式文件之外都可以使用该方案，其使用场景将非常广泛，如下：

公司OA公文系统：如果某公文只是内部公文，并不用于对外发布，那么在保持语义的情况下是可以接受轻微的文本水印的；在这种场景下，员工在查看下载的时候，OA系统将通过该方案的文件服务器为员工生成一份副本，这份副本含有一定量的指纹信息，因此每个员工均承担着保密的责任。

公司邮箱系统：邮箱系统的附件也是通过文件服务器存储的，在采用本方案的文件服务器完成系统集成之后，用户发出邮件时，其中的附件文件将上传到文件服务器中处理。在收件人阅读下载附件的时候，文件服务器将提供带有数字指纹的副本，该副本和收件人是一一对应的，可以进行溯源。若公司有需要，也可以在修改邮箱系统配置，将邮件正文当做文件进行处理，纳入该方案的文件服务；这样，当群发邮件发送之后，可以让每个收信人收到的邮件正文也具有数字指纹。

即时通讯群组：为了规范公司员工之间的文档共享和交换行为，公司制定严格的管理规范，要求员工必须通过邮件、内部即时通信群组等方式共享文档，而不允许通过U盘拷贝等点对点的方式共享文档；对于在即时通讯群组上的文件发送和共享而言，所有的文件均先上传到服务器，然后文件服务器将为每一位接收者生成带有数字指纹的副本。

公司内部论坛：只要将论坛的文件存储路径设置为本发明方法的文件服务器，当公司员工在内部论坛上传一个附件时，便会完成数字指纹特征的分析和记录，在其他用户下载该文件的时候，将会得到一个带有数字指纹的副本。

由于本发明方法的文件服务器是一个基础的共享的服务，采用业界标准的文件接口协议，只涉及到上传和下载两种标准操作。为了和本发明方法的可溯源文件服务器进行适配集成，业务系统唯一需要调整的地方，就是每次访问均需使用最终用户的账号密码来访问文件服务，而不是像以往那样采用一个程序账号。而本发明方法的文件服务器需要从业务系统那里将最终用户的账号信息同步过来，可以像普通的文件服务器一样进行用户的权限控制，因此本发明方法极易和企业现有的各种系统集成，而这些后台的集成都是对最终用户透明的，可以实现无缝的用户感知。

实施例3：

如图2所示，本实施例的基于数字指纹的文件安全管控和溯源的系统包括文件服务器，所述文件服务器包括：

上述模块的具体处理同实施例1。

根据上述实施例的描述，本发明与现有的三份类似专利文献比较的结论如下：

本发明与申请号为200910023743.X的专利文献相比，区别之处在于：

1)该文献的方案是基于句式变换的，采用了模板库、约束库、分词等等的处理技术，其目标是在不改变语义的前提下实现句式变换，而使用句式变换的方法会对原文本产生较大的修改，容易被用户察觉，并且一般只有文学作品才具有较多可以进行句式变换的地方，而科技类、商务类文档往往采用顺序叙事的行文结构，在这类文档中使用句式变换很容易导致文本风格突变；而本发明是采用同义字段进行匹配和替换，采用模式匹配词典，词典内容非常开放和兼容，不会变换语句的句式，算法占用计算资源更少，实施速度很快。

2)该文献的方案为了插入水印信息，对文本的每次调整都需要改变文本的很多个字符，顺序和长度均会发生较大的改变；而本发明的同义字段替换的方法，在实施指纹信息插入的时候，大部分情况下只改变文本的一个字符。

3)该文献的方案采用了水印加密等算法，目标是为文档插入水印版权信息，但是其算法并不适合于为每一个副本插入独特的用户指纹；而本发明的算法更简单明了，侧重于如何快速的为每一份副本插入唯一的指纹。

4)该文献的方案未涉及文件的上传和下载这些基本操作流程，从算法来看它并不适合于办公系统和互联网应用的环境，方案中未涉及如何和OA公文系统、邮件系统、即时通讯系统的集成。

本发明与申请号为201010127144.5的专利文献相比，区别之处在于：

1)该文献的方案基于同义词替换，也就是在发送端将原文本中的部分词语进行同义词替换，然后在接收端替换回来恢复原始文本，其间替换的部分含有了水印信息；而本发明完全不局限于同义词，可以是任何保持语义不变的字段，字段的长度不限，算法包括“的、地、得”的增加/删除/修改、助词的修改等，可以使用任何的语法规则。

2)该文献的方案的发送方和接收方需要有共同的秘钥，且共享同义语库和编码对应关系，只适合于防范外部非法用户获取，但是无法用于防范内部合法用户的泄密；而本发明的侧重点在于为每一份文件副本插入数字指纹。

本发明与申请号为201210148620.0的专利文献相比，区别之处在于：

1)该文献的方案基于虚词变换，也就是针对“的”、“了”字在汉语语法中的位置进行增删改，方法比较单一；而本发明完全不局限“的”、“了”这两个虚词，他可以是任何保持语义不变的字段，算法包括“的、地、得”的增加/删除/修改、助词的修改等等，字段的长度不限，可以使用任何的语法规则。

2)该文献的方案使用环境较为单一，主要是针对网络环境的短文本进行水印的插入，以表示原作者的所有权，专利文件中并未涉及如何用该方法对机密文件进行安全管控，没有提出一套用于文件安全管控的方法；而本发明主要是使用数字指纹技术对文件进行溯源，有一套完整的实施方案。

因此，与上述三份专利文献的技术方案相比，本发明的核心点在于：

1)采用了通用的开放的语法匹配模板，极大地扩展了自然语言修改的范围，既可以是“的”、“了”这些虚词，也可以是同义词替换，还包括助词、词组简化等等的方法，对字段的长度也没有限制，只要能够保持语义不变的所有方法，都可以被加入到匹配模板里面，以更新包的形式进行更新。

2)文件上传的流程，如何使用模式匹配词典，如何进行文件扫描和匹配，如何生成指纹特征位置表。

3)文件下载的流程，如何使用随机码进行指纹信息的插入，如何记录文件下载信息和文件指纹信息。

而本发明的独特优点在于：

1)算法的开放性。现阶段基于自然语言的指纹检测均受限于某些具体的语法规则，比如“的”、“了”的处理，而本方案的模式匹配算法具有极好的扩展性，是持续开放的，可以使用所有可行的语言模式。

2)基于模式匹配的算法，使得该技术不必基于复杂的人工智能算法来检测主谓宾定状补等语法结构，而仅仅通过查表和匹配的操作便可以确定文字中指纹特征点的位置。

3)非对称的指纹检测和生成，只需要在文件上传时进行一次相对耗费资源的扫描匹配过程，而文件下载时生成带有指纹的文件极其简单，使之非常适合用于一次上传多次下载的应用环境。

4)不必在服务器上存储文件副本，只需要一个随机码即可表示一个副本，所需的存储空间几乎和普通的文件服务器一样，只需要在数据库中多存储两个表格即可，节约文件服务器的存储空间。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述方法包括文件上传流程和文件下载流程，其中：

2.根据权利要求1所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述可插入数字指纹的位置是可增加/删除/修改字符而保持原有语义的部分。

3.根据权利要求2所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述可增加字符的方式包括增加“的、地、得”和增加助词；所述可删除字符的方式包括删除“的、地、得”和删除助词；所述可修改的方式包括替换同义字、替换助词、替换同义词、替换同义字段、简化词组、同音同型错别字替换和更改标点符号。

4.根据权利要求2所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述自然语言分析程序所采用的自然语言分析算法是基于海量数据统计分析的词典匹配算法，基于海量数据统计分析的词典匹配算法具体如下：

5.根据权利要求1-4任一项所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述全文扫描和匹配分析的结果根据指纹处理模板进行编码，指纹处理模板的表格结构包括指纹编码、处理强度、处理语句和处理方式描述，其中每个指纹编码表示一种具体的增加/删除/修改规则，处理强度的数值范围从0～3，表示实施该处理方式对语义理解产生的影响程度，处理语句表示计算机处理的代码；

6.根据权利要求5所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述指纹特征位置表的长度根据系统设计和编程的需要进行取整。

7.根据权利要求5所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述模式匹配词典的基本格式包括词典序号、源文本、可替换文本、指纹编码和指针偏移量，其中源文本项和可替换文本项都是string类型的字符串，指纹编码和指纹处理模板中的指纹编码一致，表示可采用的指纹处理方法，指针偏移量表示处理的指纹点在匹配起点后的第几个字符中出现，用于标识指纹的位置。

8.根据权利要求1-4任一项所述的一种基于数字指纹的文件安全管控和溯源的方法，其特征在于：所述上传下载记录表的基本格式包括序号、用户名、上传/下载时间、文件路径、随机码和预留字段。

9.一种基于数字指纹的文件安全管控和溯源的系统，其特征在于：所述系统包括文件服务器，所述文件服务器包括：