CN110781185A

CN110781185A - 一种文本文件内容像素化转换及还原方法

Info

Publication number: CN110781185A
Application number: CN201910971956.9A
Authority: CN
Inventors: 蒋海平; 刘爱江; 陈家明; 陈达; 曹峰; 尹心明; 邵旭东; 樊志杰; 王曦; 张重磊; 黄海晔; 蔡新玮; 曹志威
Original assignee: SHANGHAI CHENRUI INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI CHENRUI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-02-11
Anticipated expiration: 2039-10-14
Also published as: CN110781185B

Abstract

本发明提供一种文本文件内容像素化转换及还原方法，所述方法在物理隔离的不同网络间文本文件摆渡传输条件下，在源传输发起端，对文本文件内容进行像素化处理，生成PNG格式的图片文件，通过单向传输设备将PNG格式的图片文件摆渡到物理隔离的目标接收端，同时保留原始文本文件，并在目标端对该PNG图片文件内容进行解析处理，写入生成新的文本文件，同时保留图片文件。

Description

一种文本文件内容像素化转换及还原方法

技术领域

本发明属于信息安全技术领域，具体涉及一种文本文件内容像素化转换及还原方法。

背景技术

在文本文件内容转换技术领域中，相似的同类技术主要是通过OCR技术将文本字符与图像信息进行相互转换。OCR(Optical Character Recognition光学字符识别)技术，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，也即对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

但是，OCR是一种不确定的技术研究，正确率就像是一个无穷趋近函数，知道其趋近值，却只能靠近而无法达到100％正确率。从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

现有技术中，还有一种方式，是将文本文件内容编码转换为二维码图片显示，再隔离端另一边采用摄像头进行拍照解析，还原成文本文件内容，但这种方式有两个缺陷：1、文本内容容量受限于二维码图片大小，一般存储容量在120字节，最大存储1108字节；2、传输性能低下，每秒生成的图片张数受限于抓拍摄像头处理瓶颈，生成图片频率过快，会导致摄像头未能及时抓拍到完整图片而出现丢失，另外，摄像头运行时间过长会发热，导致抓拍图片失效，不能有效保证数据传输的稳定性。

发明内容

为了解决上述问题，本发明提供一种文本文件内容像素化转换及还原方法，所述方法在物理隔离的不同网络间文本文件摆渡传输条件下，在源传输发起端，对文本文件内容进行像素化处理，生成无损压缩的图片文件，通过单向传输设备将图片文件摆渡到物理隔离的目标接收端，同时保留原始文本文件，并在目标端对该图片文件内容进行解析处理，写入生成新的文本文件，同时保留图片文件；

进一步地，所述无损压缩的图片为PNG格式图片；

进一步地，所述方法包括：

S1：遍历GBK字符集的每个字符，通过一定算法将每个字符生成一个固定大小的点阵位图；

S2：通过哈希算法对S1中点阵位图生成唯一标识的特征值，如果特征值重复，则通过调整点阵位图使得特征值唯一，形成两张索引表；

S3：通过S1中的字符编码和S2中的索引表，将文本转换为图片；

S4：通过S1中的点阵位图将S3中的图片进行分割，再根据S2中的索引表，将图片还原为文本文件；

S5：输出文本文件；

进一步地，所述S1具体包括：

S11：读取输入的文本文件内容，对于每个字符以一定字体生成固定大小的点阵图，其中字符为汉字或ASCII码，点阵图大小为m*n，其中，m和n的取值范围由字体大小决定；

S12：将每个字符的点阵图按照输入文件中的先后顺序从左到右、从上到下拼接成一个W*H的图片，其中w＝m*k1，H＝n*k2，k1*k2≥(输入文件总字符数+1)，k1取值范围为100～150，k2根据文件字节大小计算得出；

S13：在输出最后一个字符后，紧接着输出一个文件结束符，以防止将图片尾部空白区域输出成多余的空格；

S14:对于大文本文件,先将大文本文件分割成多个小文件，每个小文件按照上述S11-S13生成图片；

S15：生成的图片文件保存为PNG格式、8Bit，通过单向设备进行传输

进一步地，所述S1中一定算法包括但不限于将GBK的每一个字符按照宋体5号,输出到m*n大小的画布点阵图上，得到该字符的对应的点阵位图；

进一步地，所述S1中GBK字符集中的不可见字符采用转义字符处理,包括但不限于回车符转“\r”,制表符转“\t”；

进一步地，所述S2中特征值重复处理采用包括但不限于在相同原始字符点阵位图额外添加角标以示区分，生成不同的特征值，所述两张索引表分别为正向索引表和逆向索引表，所述正向索引表通过字符编码对应点阵位图获得，所述逆向索引表通过特征值对应字符编码获得；

进一步地，S3具体为：遍历每个字符，获取它的字符编码，从正向索引表中找到该字符对应的点阵位图，然后再将所有字符对应的点阵位图拼接成一定格式的图片；

进一步地，拼接的图片的格式包括但不限于png、gif、tiff和webp；

进一步地，所述S4具体为：根据点阵位图的大小将图片进行分割，形成多个小的字符点阵位图，再通过哈希算法计算出每个字符点阵位图对应的特征值，然后通过查找逆向索引表找到每个特征值对应的字符编码；

进一步地，为了方便审计时查看图片，图片的宽度建议与显示器的水平分辨率大致相当。

本发明的有益效果如下：

1、本发明解决了在物理隔离的不同网络间文本文件摆渡传输条件下发生的文本文件数据夹带而导致信息泄露安全事件问题；

2、本发明降低信息在传输过程被窃取可能性，在单向安全传输系统中加入文本文件内容像素化转换及还原技术；

3、本发明文图互转效率远高于OCR技术，文图转换及还原技术的正确率为100％，转化后无需人工纠正，将该技术集成到单向安全传输系统中用于公安信息网到互联网的双向交互中，在保证信息安全的前提下，性能相较OCR技术有明显的优势，能满足用户的需求；

4、选择PNG格式图片，其压缩比高，减少传输带宽，提升传输吞吐率，无损压缩能保证在目标端还原图片时，其字符位图计算特征值保持一致，正常还原原始字符。

附图说明

图1为本发明所述方法的文图转换原理图；

图2为本发明具体实施方式中所述的文图转换示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合附图和具体实施例对本发明作进一步说明，但不作为对本发明的限定。下面为本发明的举出最佳实施例：

如图1-2图2所示，本发明提供了一种文本文件内容像素化转换及还原技术，将UTF-8编码格式的文本文件转化为PNG图片，有效过滤该文本文件所夹带非正常信息，并且可以将PNG图片内容还原回UTF-8编码格式的文本文件，解决了在物理隔离的不同网络间文本文件摆渡传输条件下发生的文本文件数据夹带而导致信息泄露安全事件问题。

所述方法在物理隔离的不同网络间文本文件摆渡传输条件下，在源传输发起端，对文本文件内容进行像素化处理，生成PNG格式的图片文件，通过单向传输设备将PNG格式的图片文件摆渡到物理隔离的目标接收端，同时保留原始文本文件，并在目标端对该PNG图片文件内容进行解析处理，写入生成新的文本文件，同时保留图片文件；

所述方法包括：

S5：输出文本文件；

所述S1中GBK字符集中的不可见字符采用转义字符处理,包括但不限于回车符转“\r”,制表符转“\t”；

所述S2中特征值重复处理采用包括但不限于在相同原始字符点阵位图额外添加角标以示区分，生成不同的特征值，所述两张索引表分别为正向索引表和逆向索引表，所述正向索引表通过字符编码对应点阵位图获得，所述逆向索引表通过特征值对应字符编码获得；

S3具体为：遍历每个字符，获取它的字符编码，从正向索引表中找到该字符对应的点阵位图，然后再将所有字符对应的点阵位图拼接成一定格式的图片；

所述S4具体为：根据点阵位图的大小将图片进行分割，形成多个小的字符点阵位图，再通过哈希算法计算出每个字符点阵位图对应的特征值，然后通过查找逆向索引表找到每个特征值对应的字符编码；

拼接的图片的格式包括但不限于png、gif、tiff和webp；

S1中一定算法包括但不限于将GBK的每一个字符按照指定字体,生成m*n固定大小的点阵图，得到该字符的对应的点阵位图。具体实施步骤如下：

1、读取输入的文本文件内容，对于每个字符(汉字或ASCII码)以一定字体生成固定大小(m*n)的点阵图；

2、将每个字符的点阵图按照输入文件中的先后顺序从左到右、从上到下拼接成一个W*H的图片，其中w＝m*k1，H＝n*k2，k1*k2≥(输入文件总字符数+1)。为了防止将图片尾部空白区域输出成多余的空格，在输出最后一个字符后，紧接着输出一个文件结束符。对于大文本文件可以分割成多个小文件，每个小文件按照上述方法生成图片；

3、生成的图片文件保存为PNG格式(8Bit)通过单向设备传输。

文图转换示例图如图2所示。

本发明所述方法在文图互转效率上远高于OCR技术，文图转换及还原技术的正确率为100％，转化后无需人工纠正，将该技术集成到单向安全传输系统中用于公安信息网到互联网的双向交互中，在保证信息安全的前提下，性能相较OCR技术有明显的优势，能满足用户的需求。

以上所述的实施例，只是本发明较优选的具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种文本文件内容像素化转换及还原方法，其特征在于，所述方法在物理隔离的不同网络间文本文件摆渡传输条件下，在源传输发起端，对文本文件内容进行像素化处理，生成无损压缩的图片文件，通过单向传输设备将图片文件摆渡到物理隔离的目标接收端，同时保留原始文本文件，并在目标端对该图片文件内容进行解析处理，写入生成新的文本文件，同时保留图片文件。

2.根据权利要求1所述方法，其特征在于，所述无损压缩的图片为PNG格式图片。

3.根据权利要求1所述方法，其特征在于，所述方法包括：

S5：输出文本文件。

4.根据权利要求3所述方法，其特征在于，所述S1具体包括：

S15：生成的图片文件保存为PNG格式、8Bit，通过单向设备进行传输。

5.根据权利要求4所述方法，其特征在于，所述S1中一定算法包括但不限于将GBK的每一个字符按照宋体5号,输出到m*n大小的画布点阵图上，得到该字符的对应的点阵位图。

6.根据权利要求5所述方法，其特征在于，所述S1中GBK字符集中的不可见字符采用转义字符处理,包括但不限于回车符转“\r”,制表符转“\t”。

7.根据权利要求3所述方法，其特征在于，所述S2中特征值重复处理采用包括但不限于在相同原始字符点阵位图额外添加角标以示区分，生成不同的特征值，所述两张索引表分别为正向索引表和逆向索引表，所述正向索引表通过字符编码对应点阵位图获得，所述逆向索引表通过特征值对应字符编码获得。

8.根据权利要求3所述方法，其特征在于，S3具体为：遍历每个字符，获取它的字符编码，从正向索引表中找到该字符对应的点阵位图，然后再将所有字符对应的点阵位图拼接成一定格式的图片。

9.根据权利要求8所述方法，其特征在于，拼接的图片的格式包括但不限于png、gif、tiff和webp。

10.根据权利要求8所述方法，其特征在于，所述S4具体为：根据点阵位图的大小将图片进行分割，形成多个小的字符点阵位图，再通过哈希算法计算出每个字符点阵位图对应的特征值，然后通过查找逆向索引表找到每个特征值对应的字符编码。