CN107239713A

CN107239713A - 一种敏感内容数据信息防护方法和系统

Info

Publication number: CN107239713A
Application number: CN201710349292.3A
Authority: CN
Inventors: 李晓妮
Original assignee: Individual
Current assignee: Li Xiaoni
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2017-10-10
Anticipated expiration: 2037-05-17
Also published as: CN107239713B

Abstract

本发明涉及一种敏感内容数据信息防护方法和系统。该方法包括：1)设计基因字库文件，包括字符和字符的安全编码，每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系；2)将基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装；3)将标准字库中的标准编码转换为基因字库中相应字符的安全编码，并将需要保护的敏感内容数据对应的标准编码的字符转换为安全编码的字符后存储；4)在客户端部署打印监控服务程序，实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。本发明解决了现有技术中通过安全字库加密技术防止数据泄密方面存在的安全性相对较低的问题。

Description

一种敏感内容数据信息防护方法和系统

技术领域

本发明属于安全文档防护技术领域，具体涉及一种敏感内容数据信息防护方法和系统。

背景技术

随着信息技术的发展，各行各业在生产、管理上信息化程度日益提高，以电子文档形式保存的商业涉密数据已经成为企业的重要资产。电子文档和传统的纸质文档相比，具有许多先天的优良特性，如：易于保存、节约资源、传播方便等。现在越来越多的企业，将企业涉密重要资料的保存已经开始由传统纸质文档向电子文档转移，如：企业战略计划书、工程设计图纸、重要名单资料等等。特别地，随着Web2.0技术为基础的博客、微博、电商、社交网络等新兴服务和物联网以前所未有的发展速度产生了类型繁多的数据，而云计算为数据的存储提供了基础平台，这一切造就了大数据的到来。大数据中蕴藏着巨大的价值，是企业的宝贵财富。但大数据同时也带来了巨大的挑战，比如日益显著的个人隐私数据泄密问题。个人隐私泄露的频繁发生威胁到个人的生活安全，也成为影响社会治安的主要因素。因此，随着企业拥有的数据量的不断增加，如果没有好的数据安全防护策略，尽力降低发生数据信息泄密的风险，将会对企业甚至整个社会都产生不良的影响。为此，很多研究机构和企事业单位对数据信息防泄密技术研究。

目前对于敏感内容数据信息的防护技术研究中，比较流行的做法是基于文件加密技术，即通过透明加解密技术进行敏感信息数据防泄密。基本原理为：操作系统上安装特殊的文件过滤驱动，当涉密文档在磁盘中发生读写操作时，能够在对文档完成透明加解密。当应用程序将涉密数据写入磁盘的时候过滤驱动对写入数据加密；当应用程序读取磁盘上的涉密数据时过滤驱动对读取数据解密。基于透明加解密技术的防泄密系统，能够在用户无感知状态下完成涉密数据的加解密，同时当涉密数据被窃取时，也只能得到加密后的涉密数据。在实现层次上，文件系统过滤驱动比较灵活，客户的接受程度高，但实现代价最高，也最复杂，而且速度上不占优势，尤其对于大数据量文件进行透明加解密时，文件的实时读取和存储的速度会受到影响。

专利申请“一种计算机文档内容保护的方法和系统”(申请号为200810239295.2)中，提出了一种计算机安全字库编码的文档加密方法。主要技术方案为：建立安全字库，包括字符和字符的安全编码，安全字库中每个字符的安全编码与标准编码形成一对一的映射关系；并把映射关系存储到编码转换模块中；计算机文档中的字符根据所述映射关系，从标准编码转换为安全编码，并存储。加密后的文档以安全编码方式进行传输和存储，当以标准字库打开该计算机文档时，该计算机文档的内容将显示无意义的字符；如果用安全字库作为计算机文档的显示字库，则可以显示该计算机文档输入时的正确内容，从而保证计算机文档内容不会泄密。上述方案可以实现对将录入和已有的计算机文档内容的自动默认保护，同时无需单独记录密钥，降低了加密难度。但是也存在一些致命缺点：1)文档在正确显示时，需要事先安装安全字库文件，安全字库中字符的安全编码都是明码显示，因此只要拿到安全字库文件，就相当于完全解密。2)字符在标准字库中的标准编码和安全字库中的安全编码是一一对应的，即使没有字库文件，通过在使用安全字库进行正确显示时，可以获取计算机文档中每一个字符的安全编码；同时通过字符的显示效果人工读取字符的标准编码(或者将文档页面全部转换为图片文件，通过OCR识别技术，批量获取字符的标准编码)，知道了标准编码和安全编码的一一映射关系，也就相当于获得了全部的文件加密密钥。3)如果在加密文件传输前，通过虚拟打印的方式转换为其他可以嵌入字体的电子格式文件，比如PDF文件，则文件接收方即使没有安全字库同样可以进行正确内容的显示。4)如果在加密文件使用安全字库进行显示时，通过电脑屏幕截屏或者手机屏幕拍照等操作进行文件泄密时，由于拍照后的字符显示效果都是标准字符编码图像，信息泄密的源头是无法进行追溯的。

总之，上述技术在敏感内容数据信息的防泄密保护方面还存在着很多需要改进之处。

发明内容

本发明提供一种敏感内容数据信息防护方法和系统，用以解决现有技术中通过安全字库加密技术防止数据泄密方面存在的安全性相对较低的问题；进一步地，通过使用标准字库中的字符标准编码的多个映射，既达到计算机文档中的敏感内容数据信息加密保护的目的，还可以额外隐藏秘密信息；进而解决了敏感内容数据信息通过电脑屏幕拍照或打印输出方式泄密后的溯源追踪技术难题。

本发明的构思在于：首先，设计基因字库文件，包括字符和字符的安全编码，其中标准字库中每个字符的标准编码和基因字库中的安全编码是一对多的关系，即每一个标准编码对应一组(个数多于一个，即至少为两个)安全编码，每个安全编码分别对应不同的字形轮廓曲线拓扑结构，两两之间不同，并和标准字符的字形轮廓曲线的拓扑结构也都不相同，但是字符识读的语义结果是一样的，也就是说用户看到的安全编码对应的字符显示效果和标准编码对应的字符显示效果是一样的。基因字库设置为禁止嵌入模式，文字处理软件系统不能够将基因字库嵌入到文档内容本身进行存储或者传输，防止加密的电子文件不通过基因字库也可以正常显示。基因字库不安装到操作系统的Fonts目录下，而是采用动态调用方式加载和释放，降低了字库文件外泄的风险。增加打印监控功能，防止经过加密后的电子文件通过打印的方式将敏感数据信息输出为其他电子格式文件或者纸质文件发生泄密事件。通过手机或数码相机将电脑屏幕拍照后进行敏感内容数据信息泄密时，通过拍照后的图片文件可以快速进行信息泄密源头追踪。进而得到了一种敏感内容数据信息防护的方法和系统。

本发明提供了一种敏感内容数据信息防护方法，包括如下步骤：

步骤一，首先，设计基因字库文件，所述的基因字库包括字符和字符的安全编码，所述的基因字库中每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系；

步骤二，将设计好的基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装；

步骤三，将标准字库中的标准编码转换为基因字库中相应字符的安全编码，并将需要保护的敏感内容数据对应的标准编码的字符转换为安全编码的字符后存储；

步骤四，在客户端安装部署打印监控服务程序，实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。

较佳地，所述的基因字库中，由标准字库中字符的同一个标准编码对应的一组安全编码分别对应不同拓扑结构的字形轮廓曲线；

较佳地，所述的同一个标准编码对应的一组安全编码，所对应的字形轮廓曲线的拓扑结构两两之间都是不同的，并和标准字库中相应的标准编码对应的字形轮廓曲线的拓扑结构也不相同；

较佳地，所述的安全编码经过加密处理后保存在基因字库中；

较佳地，所述的基因字库使用时，通过动态调用的方式将字体资源加载到内存空间进行解密，然后再调用系统的API函数AddFontResource将解密后的字体资源加载到系统字体表，文档显示完毕后，调用RemoveFontResource函数进行字体资源卸载；

较佳地，步骤3)中，当计算机上文档中的字符在输入时或文档内容转换时，将标准字库中的字符的标准编码转换为安全编码；

较佳地，步骤3)将读取的标准编码进行加密后得到安全编码；

较佳地，所述的打印监控服务程序，通过系统HOOK钩子机制，截获系统的打印操作命令，进而截获打印文档的内容数据，过滤其中包含的敏感内容数据信息，防止信息泄露；

本发明提供了一种敏感内容数据信息防护系统，包括如下部分：

字库设计模块：设计基因字库文件，所述的基因字库包括字符和字符的安全编码，所述的基因字库每个字符的安全编码与所述字符在标准字库中的标准编码形成多对一的映射关系；

字库加载模块：将字符设计模块中设计好的基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装，同时通过动态调用的方式将基因字库字体资源加载到系统字体表，供加密文档显示；

编码转换模块：负责将标准字库中的字符的标准编码转换为基因字库中相应字符的安全编码，并将需要保护的敏感内容数据对应的标准编码转换为安全编码后存储；

打印监控模块：在客户端安装部署打印监控服务程序，当经过编码转换模块处理后的计算机文档经过打印输出时，打印监控服务程序实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。

本发明提供了一种网站敏感内容数据信息防护方法，包括如下步骤：

步骤一，设计基因字库文件，并进行加密后保存在网站服务器上；

步骤二，在网页显示内容数据时，通过字符编码转换模块将待显示的敏感数据所对应字符的标准编码转换为安全编码；

步骤三，客户端不安装基因字库文件，通过网页嵌入字体的方式显示敏感内容数据；

步骤四，将显示敏感内容数据的网页设置为不可复制文本模式，防止通过常规的拷贝粘贴方式复制网页文本信息。

本发明有益效果如下：

本发明所述的敏感内容数据信息防护方法的安全性更高，主要体现在以下几个方面：1)由于本发明中，在显示敏感内容数据的客户端不安装基因字库，而是根据显示需要动态加载和卸载基因字库文件资源，相应地，字库文件资源泄露的风险大大降低；2)基因字库文件不允许设置字体嵌入，防止通过虚拟打印等方式将包含敏感内容数据的信息嵌入到其他电子格式文件中，而不需要基因字库就可以显示文档内容；3)基因字库文件在电脑硬盘中存储时处于密文状态，即使拿到字库文件也无法正常解析；4)标准字库中的标准编码与基因字库中的安全编码之间是一对多的关系，并且在将标准编码转换为安全编码时，可以针对某一个标准编码从相应的安全编码组中随机选择一个，因此，即使知道了屏幕显示的字符所对应的标准编码信息，也很难找到相对应的唯一安全编码，这大大降低了安全编码被破解的风险。

由于本发明中，对于某一特定字符的标准编码而言，相对应的安全编码组中的所有编码所对应的字形轮廓曲线拓扑结构是互不相同，并将不同字形进行编码。当选择不同的字形结构进行字符显示时，可以额外隐藏必要的水印信息，比如将登陆用户的身份信息和浏览电子文档的时间信息进行隐藏，一方面可以嵌入更多的加密信息，同时也可以作为敏感内容数据信息泄密后的溯源追踪。比如屏幕显示的文档内容被非法拍照或者电脑切屏后，从屏幕拍照或者屏幕切屏后的图片文件中，通过分析每个字符的拓扑结构判断出其所代表的编码信息，进而追溯到敏感内容数据信息泄密的源头，即什么时间从哪台机器的电脑屏幕上泄密。另一方面，如果加密保护后的文档作为隐秘通信的载体进行传输时，从文档内容显示的隐秘信息外，还可以隐藏更大的信息量。

附图说明

图1为实施例中一种文件敏感内容数据信息防护方法的主流程图；

图2为实施例中基因字库中安全编码所对应字符的字形结构设计方法示意图；

图3为实施例中安全编码所对应字符的字形拓扑结构编码方法示意图；

图4为实施例中加载基因字库前后的文档显示效果对比示意图：(a)为加载了基因字库的文档显示效果，(b)为卸载了基因字库的文档显示效果；

图5为实施例中一种文件敏感内容数据信息防护系统的结构示意图；

图6为实施例中一种网站敏感内容数据信息防护的方法示意图。

具体实施方式

本下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种文件敏感内容数据信息防护方法，主要包括如下步骤：

S101：首先，设计基因字库文件，所述的基因字库包括字符和字符的安全编码，所述的基因字库中每个字符的安全编码与所述字符在标准字库中的标准编码形成多对一的映射关系。

较佳地，所述的基因字库中，由标准字库中字符的同一个标准编码对应的一组安全编码分别对应不同拓扑结构的字形轮廓曲线。

根据字符模式识别理论，人们对字符的识别过程是一种视觉的刺激信息与记忆信息匹配的过程。在此过程中，人们对字符的结构变化有很好的调节功能。因此，同一字符的不同字形结构不会改变人们对字符的语义识别。在中文字符中，存在着大量具有特殊结构的特征点。通过修改特征点处的笔画连接数目、笔画之间角度以及特征点的有无等属性后生成新的字库，称之为基因字库，这样同一个汉字字符具有了不同的字形结构。

汉字字符的笔画之间形成的特征点主要包括交叉点、顶点和拐点三种情况。

1.交叉点：在字符结构图像中，不连续的两个笔画在组成字形的过程中，其中一个笔画与另一个笔画在非端点处连接的交汇点，其满足以下条件：

1)从该点出发具有三条或三条以上的连通笔画分支；

2)每一条连通笔画分支的长度大于阈值N1。N1一般为10个像素值。

2.顶点：在字符结构图像中笔画的端点处，从该点出发只有一个连通分支。

3.拐点：在字符结构图像中，一条笔画走向发生突变的局部点，从该点向两个相反方向延伸的直线段之间的夹角小于θ(0<θ<180°)。

具体的字形轮廓曲线修改方法为：通过修改一个字符结构图像中的特征点实现特殊基因字库的制作，比如图2所示的仿宋“顶”字，左侧的图是原始的字符结构点阵图像，右侧图是特征点修改后的示意图。其中矩形区域中表示的是一个交叉点处的笔画断开后退化为顶点情况，即所谓的交叉点去除；五边形区域表示的一个交叉点退化为拐点的情况；圆形区域表示顶点处的笔画通过延伸与其他笔画相交形成交叉点的情况，即交叉点的构造。将修改后的字符图像做归一化处理，并将四元组(T,x,y,n)保存在数据库文件中，其中T为该字符的Unicode编码，(x,y)是原始交叉点O在归一化图像块中的相对位置坐标，n为修改后的交叉点的笔画分支数目，当交叉点去除后，n＝0。

经过上述方法修改后，在标准字库中的字符“顶”，在基因字库中就有了三种不同的字形结构，相对应三个不同的安全编码，但是在语义识别上来讲，都是对应标准字符“顶”。每个字符的字形结构至少有一种变形，所以此处的映射关系是一对多的。根据汉字结构复杂程度的不同，设计的字形轮廓曲线的变形数目也不同。

较佳地，所述的同一组安全编码，所对应的字形轮廓曲线的拓扑结构两两之间都是不同的，并和标准字库中相应的标准编码对应的字形轮廓曲线的拓扑结构也不相同。

通过适当改变字符或者字符串的拓扑结构，设计出语义上相同的字符(串)的多种字形，每种字形赋予不同的字符编码，即安全编码。

如图3所示，楷体的中文字符“垦”，在基因字库中对应三种不同的字形结构(具体参见图中圆圈所识别部分的结构修改)，分别设定不同的安全编码。每一种安全编码可以代表不同的水印信息位串，比如标准字库中的字符代表“00”，其他三种安全编码分别对应“01”、“10”和“11”。当在文档内容中分别使用上述四种字符编码时，除了正常显示“垦”字信息外，还可以代表额外的2bits的隐秘信息，比如编码文档浏览者的用户身份和时间等信息，一旦电子文件被屏幕拍照或屏幕切屏的方式泄密后，可以快速地追溯泄密源头。

较佳地，所述的安全编码经过加密处理后保存在基因字库中。

比如“垦”字的Unicode码为“57A6”，安全编码的分配有两种方式：

1)随机分配法。对于“垦字”，随机生成三个不同的Unicode码值，然后把标准和安全编码对应关系以及每个安全编码字符所代表的水印信息位串一起保存在S103的编码转换模块中。

2)加密置乱法。这里，“垦”有三种不同的变形，则新生成三个不同编码为“57A61”、“57A62”和“57A63”，然后再分别经过相同密钥进行加密置乱，将加密后的密文作为安全编码信息存储在基因字库中。加密置乱方法只需要将每个安全编码所表示的水印信息位串保存在编码转换模块中，在使用时，编码对应关系可以通过加密方式动态得到。

经过上述两种方式为所有标准字符分配安全编码后，再将所有的安全编码和相应字形(与标准字符的字形结构不同)经过随机置乱，保存在基因字库文件中。这样可以保证同一个标准字符所对应的一组安全编码字符在基因字库中出现的位置不连续，从而降低通过基因字库文件破解映射关系的风险。

S102：将设计好的基因字库文件设置为禁止嵌入模式(可采用现有技术实现)，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装。

客户端不直接安装字库文件，一般用户很难通过基因字库文件本身获取标准编码和安全编码之间的映射关系，或者直接字库资源文件外泄。

较佳地，所述的基因字库使用时，通过动态调用的方式将字体资源加载到内存空间进行解密，然后再调用系统的API函数AddFontResource将解密后的字体资源加载到系统字体表，文档显示完毕后，调用RemoveFontResource函数进行字体资源卸载。

由于在服务器上保存的字库文件本身是加密的，即使非法用户获得字库文件，也无法正常分析字库中的字符编码和字形结构的映射关系，进一步提高基因字库文件的安全性。

S103：通过编码转换模块将标准字库中的字符转换为基因字库中相应的字符的安全编码，并将需要保护的敏感内容数据对应的字符转换为安全编码字符后存储。

较佳地，所述的编码转换模块，当计算机上文档中的字符在输入时或文档转换时，将标准字库中的字符标准编码转换为安全编码。

较佳地，所述的编码转换模块，通过将读取的标准编码进行加密后得到安全编码。

当用户打开新文档，启动系统自带的输入法发送标准编码至文档内容录入装置后，编码转换模块根据S101中的安全编码分配规则分别采用以下两种方法获得编码信息：

1)如果采用随机分配法，则直接从保存的映射关系表中查询获得；

2)如果采用加密置乱方法，则采用相同密钥将录入装置接收的标准编码加密后，获得密文编码信息，直接从基因字库中读取安全编码显示。

在已有技术中，标准编码和安全编码是一一映射的关系，而在本方案中，该映射关系是一对多的。因此，无论采用哪种方法都会面临从一组安全编码中选择特定编码进行屏幕显示的问题，处理方法也分为两种：

a)建立标准编码和安全编码的映射关系后，随机从一组安全编码中选择一个进行屏幕显示。由于每一个字符都有不同的安全编码，因此对于同一篇文档在不同的时间打开时，所转换的安全编码序列都是不一样的，这样既保证了屏幕显示的效果一致(不同安全编码的字形结构不同，但是语义相同)，同时增加了破解标准编码和安全编码之间对应关系的难度。

b)在正常加密文档内容的同时，额外隐藏文档溯源追踪信息。根据需要嵌入的水印信息位串的不同，在一组安全编码内选择相应的字形结构。比如在图3中，需要嵌入水印信息位串“11”时，则选择第四种字形结构对应的安全编码。当然为了保证在不同时段打开文档时安全编码序列的随机性，可以在文档溯源追踪信息中加入可变的时间信息，或者在待嵌入的水印信息位串尾部再次追加额外的随机数字段，每次用随机数字段去异或加密水印信息，同样可以达到整体水印信息的随机性。

比如，图4为实施例中加载基因字库前后的文档显示效果对比示意图：(a)为加载了基因字库的文档显示效果，(b)为卸载了基因字库的文档显示效果。其中身份证号和手机号码为敏感内容数据信息(仅用于示意和举例，非真实信息)，其他为正常显示内容。

S104：在客户端安装部署打印监控服务程序，实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。

较佳地，所述的打印监控模块，通过系统HOOK钩子机制，截获系统的打印操作命令，进而截获打印文档的内容数据，过滤其中包含的敏感内容数据信息，防止信息泄露。

比如，用户在正常的打印操作时，会选择实际的目标打印机进行打印输出，此时采用HOOK技术截获系统所有的打印操作消息，强制将用户待打印的文档内容先发送至虚拟的EMF打印机，获得EMF格式文件；进而读取每个EMF格式文件中记录的所有GDI函数及其参数信息得到所有的文本对象数据；分析文本对象中是否包含基因字库中的安全编码信息，如果存在，则表示该文档页面中包含敏感信息，直接将该文字对象过滤掉，否则为标准编码信息，直接正常输出；最后将修改后的EMF文件转换为其他电子格式文档，或者通过调用操作系统的API函数将EMF文件发送至实际物理打印机输出，而打印输出的文档内容是不完整的。从而达到对文档页面内容的敏感内容数据信息的过滤，从而防止重要信息通过计算机终端输出的方式进行非法泄露。

一旦发生通过屏幕拍照等方式进行泄密输出后，从拍照后的图片文件中提取识别文档溯源追踪信息，从而进行责任划定。具体的水印信息提取识别方法为：

Step1：首先调用OCR(Optical Character Recognition，光学字符识别)模块获取字符图像的字符编码，保存切分后的每个字符图像数据，并记录其外接矩形框区域为[RTop，RLeft，RBottom，RRight]，其中RTop，RLeft，RBottom和RRight分别为矩形的上、左、下、右四个边界；

Step2：接着将字符图像数据[RTop，RLeft，RBottom，RRight]进行二值化处理；

Step3:对字符图像进行相同的归一化处理，并采用经典的Hilditch算法进行字符图像细线化处理；

Step4:根据OCR得到的字符编码读取数据库中存储的四元组(T,x,y,n)，判断在(x,y)所示的点周围是否存在一个交叉点，并检查该点处的笔画分支数目是否为n。若相符，则判断其为修改后的字形结构，代表水印信息位串“1”，否则代表水印信息位串“0”，从而提取所有的水印信息。

图5为实施例中一种文件敏感内容数据信息防护系统的结构示意图，主要包括如下部分：

S501：字库设计模块：设计基因字库文件，所述的基因字库包括字符和字符的安全编码，所述的基因字库中每个字符的安全编码与所述字符在标准字库中的标准编码形成多对一的映射关系。

S502：字库加载模块：将字符设计模块中设计好的基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装，同时通过动态调用的方式将基因字库字体资源加载到系统字体表，供加密文档显示。

S503：编码转换模块：负责将标准字库中的字符转换为基因字库中相应的字符的安全编码，并将需要保护的敏感内容数据对应的字符转换为安全编码字符后存储。

S504：打印监控模块：在客户端安装部署打印监控服务程序，当经过编码转换模块处理后的计算机文档经过打印输出时，打印监控服务程序实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。

如图6所示，提供了一种网站敏感内容数据信息防护的方法，包括如下步骤：

S601：设计基因字库文件，并进行加密后保存在网站服务器上。

S602：在网页显示内容数据时，通过字符编码转换模块将待显示的敏感数据所对应字符的标准编码转换为安全编码。

S603：客户端不安装基因字库文件，通过网页嵌入字体的方式显示敏感内容数据。

由于不在客户端安装基因字库文件，需要采用网页嵌入字体(Web Embed Font)方式将需要显示的敏感内容数据推送到客户端的网页浏览器中。第一次嵌入字体时，需要将其他类型的字体转换为OpenType类型；并且在嵌入时，不需要全部嵌入完备的字符集，而是根据实际需要选择嵌入某个字符集的部分字体信息。

S604：将显示敏感内容数据的网页设置为不可复制文本模式，防止通过常规的拷贝粘贴方式复制网页文本信息。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

比如，基于本发明所述的方法，修改后的基因字库不经过加密直接安装在电脑客户端上，标准编码和安全编码之间的一对多的映射关系，在一定程度上增加字库文件破解难度。

比如，基于本发明所述的方法，开发专门的文字处理软件，集成编码转换模块，在文档编辑过程中动态加载基因字库文件资源，实现只有在特定软件系统中显示加密文件，通过其他软件无法正常浏览。

比如，基于本发明所述的方法，不是通过编码转换模块实现标准编码和安全编码之间的映射，而是开发专门的安全编码输入法，直接在文档编辑过程中输入安全编码信息。

Claims

1.一种敏感内容数据信息防护方法，其特征在于，包括以下步骤：

1)设计基因字库文件，所述基因字库包括字符和字符的安全编码，所述基因字库中每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系；

2)将基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装；

3)将标准字库中的标准编码转换为基因字库中相应字符的安全编码，并将需要保护的敏感内容数据对应的标准编码的字符转换为安全编码的字符后存储；

4)在客户端安装部署打印监控服务程序，实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。

2.如权利要求1所述的方法，其特征在于，所述基因字库中，由标准字库中字符的同一个标准编码对应的一组安全编码分别对应不同拓扑结构的字形轮廓曲线。

3.如权利要求1所述的方法，其特征在于，同一组安全编码所对应的字形轮廓曲线的拓扑结构两两之间不相同，并和标准字库中相应的标准编码对应的字形轮廓曲线的拓扑结构也不相同。

4.如权利要求1所述的方法，其特征在于，所述基因字库在使用时，通过动态调用的方式将字体资源加载到内存空间进行解密，然后再将解密后的字体资源加载到系统字体表，文档显示完毕后，进行字体资源卸载。

5.如权利要求1所述的方法，其特征在于，所述基因字库中字符的安全编码采用以下两种分配方式中的一种：随机分配法，加密置乱法；在为所有标准字符分配安全编码后，再将所有的安全编码和相应字形经过随机置乱，保存在加密基因字库文件中。

6.如权利要求1所述的方法，其特征在于，步骤3)中当计算机上文档中的字符在输入时或文档内容转换时，将标准字库中的字符的标准编码转换为安全编码。

7.如权利要求1所述的方法，其特征在于，从构成多对一的映射关系的安全编码中选择特定安全编码对文档进行屏幕显示时，采用以下方法中的一种：

a)随机从一组安全编码中选择一个进行屏幕显示；

b)在正常加密文档内容的同时，额外隐藏文档溯源追踪信息，并根据需要嵌入的水印信息位串的不同，在一组安全编码内选择相应的字形结构。

8.如权利要求1所述的方法，其特征在于，所述打印监控服务程序通过系统HOOK钩子机制，截获系统的打印操作命令，进而截获打印文档的内容数据，过滤其中包含的敏感内容数据信息，防止信息泄露。

9.一种敏感内容数据信息防护系统，其特征在于，包括：

字库设计模块，负责设计基因字库文件，所述基因字库包括字符和字符的安全编码，所述基因字库中每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系；

字库加载模块，负责将基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装，同时通过动态调用的方式将基因字库字体资源加载到系统字体表，供加密文档显示；

编码转换模块，负责将标准字库中的字符的标准编码转换为加密基因字库中相应字符的安全编码，并将需要保护的敏感内容数据对应的标准编码转换为安全编码后存储；

打印监控模块，负责在客户端安装部署打印监控服务程序，当经过编码转换模块处理后的计算机文档经过打印输出时，打印监控服务程序实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。

10.一种网站敏感内容数据信息防护的方法，其特征在于，包括如下步骤：

1)设计基因字库文件，并进行加密后保存在网站服务器上；

2)在网页显示内容数据时，将待显示的敏感数据所对应字符的标准编码转换为安全编码；

3)客户端不安装基因字库文件，通过网页嵌入字体的方式显示敏感内容数据；

4)将显示敏感内容数据的网页设置为不可复制文本模式，防止复制网页文本信息。