CN110781185A - 一种文本文件内容像素化转换及还原方法 - Google Patents
一种文本文件内容像素化转换及还原方法 Download PDFInfo
- Publication number
- CN110781185A CN110781185A CN201910971956.9A CN201910971956A CN110781185A CN 110781185 A CN110781185 A CN 110781185A CN 201910971956 A CN201910971956 A CN 201910971956A CN 110781185 A CN110781185 A CN 110781185A
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- file
- text file
- bitmap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 title abstract description 17
- 230000005540 biological transmission Effects 0.000 claims abstract description 22
- 230000000977 initiatory effect Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000010586 diagram Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 14
- 238000012015 optical character recognition Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种文本文件内容像素化转换及还原方法,所述方法在物理隔离的不同网络间文本文件摆渡传输条件下,在源传输发起端,对文本文件内容进行像素化处理,生成PNG格式的图片文件,通过单向传输设备将PNG格式的图片文件摆渡到物理隔离的目标接收端,同时保留原始文本文件,并在目标端对该PNG图片文件内容进行解析处理,写入生成新的文本文件,同时保留图片文件。
Description
技术领域
本发明属于信息安全技术领域,具体涉及一种文本文件内容像素化转换及还原方法。
背景技术
在文本文件内容转换技术领域中,相似的同类技术主要是通过OCR技术将文本字符与图像信息进行相互转换。OCR(Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,也即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
但是,OCR是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到100%正确率。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
现有技术中,还有一种方式,是将文本文件内容编码转换为二维码图片显示,再隔离端另一边采用摄像头进行拍照解析,还原成文本文件内容,但这种方式有两个缺陷:1、文本内容容量受限于二维码图片大小,一般存储容量在120字节,最大存储1108字节;2、传输性能低下,每秒生成的图片张数受限于抓拍摄像头处理瓶颈,生成图片频率过快,会导致摄像头未能及时抓拍到完整图片而出现丢失,另外,摄像头运行时间过长会发热,导致抓拍图片失效,不能有效保证数据传输的稳定性。
发明内容
为了解决上述问题,本发明提供一种文本文件内容像素化转换及还原方法,所述方法在物理隔离的不同网络间文本文件摆渡传输条件下,在源传输发起端,对文本文件内容进行像素化处理,生成无损压缩的图片文件,通过单向传输设备将图片文件摆渡到物理隔离的目标接收端,同时保留原始文本文件,并在目标端对该图片文件内容进行解析处理,写入生成新的文本文件,同时保留图片文件;
进一步地,所述无损压缩的图片为PNG格式图片;
进一步地,所述方法包括:
S1:遍历GBK字符集的每个字符,通过一定算法将每个字符生成一个固定大小的点阵位图;
S2:通过哈希算法对S1中点阵位图生成唯一标识的特征值,如果特征值重复,则通过调整点阵位图使得特征值唯一,形成两张索引表;
S3:通过S1中的字符编码和S2中的索引表,将文本转换为图片;
S4:通过S1中的点阵位图将S3中的图片进行分割,再根据S2中的索引表,将图片还原为文本文件;
S5:输出文本文件;
进一步地,所述S1具体包括:
S11:读取输入的文本文件内容,对于每个字符以一定字体生成固定大小的点阵图,其中字符为汉字或ASCII码,点阵图大小为m*n,其中,m和n的取值范围由字体大小决定;
S12:将每个字符的点阵图按照输入文件中的先后顺序从左到右、从上到下拼接成一个W*H的图片,其中w=m*k1,H=n*k2,k1*k2≥(输入文件总字符数+1),k1取值范围为100~150,k2根据文件字节大小计算得出;
S13:在输出最后一个字符后,紧接着输出一个文件结束符,以防止将图片尾部空白区域输出成多余的空格;
S14:对于大文本文件,先将大文本文件分割成多个小文件,每个小文件按照上述S11-S13生成图片;
S15:生成的图片文件保存为PNG格式、8Bit,通过单向设备进行传输
进一步地,所述S1中一定算法包括但不限于将GBK的每一个字符按照宋体5号,输出到m*n大小的画布点阵图上,得到该字符的对应的点阵位图;
进一步地,所述S1中GBK字符集中的不可见字符采用转义字符处理,包括但不限于回车符转“\r”,制表符转“\t”;
进一步地,所述S2中特征值重复处理采用包括但不限于在相同原始字符点阵位图额外添加角标以示区分,生成不同的特征值,所述两张索引表分别为正向索引表和逆向索引表,所述正向索引表通过字符编码对应点阵位图获得,所述逆向索引表通过特征值对应字符编码获得;
进一步地,S3具体为:遍历每个字符,获取它的字符编码,从正向索引表中找到该字符对应的点阵位图,然后再将所有字符对应的点阵位图拼接成一定格式的图片;
进一步地,拼接的图片的格式包括但不限于png、gif、tiff和webp;
进一步地,所述S4具体为:根据点阵位图的大小将图片进行分割,形成多个小的字符点阵位图,再通过哈希算法计算出每个字符点阵位图对应的特征值,然后通过查找逆向索引表找到每个特征值对应的字符编码;
进一步地,为了方便审计时查看图片,图片的宽度建议与显示器的水平分辨率大致相当。
本发明的有益效果如下:
1、本发明解决了在物理隔离的不同网络间文本文件摆渡传输条件下发生的文本文件数据夹带而导致信息泄露安全事件问题;
2、本发明降低信息在传输过程被窃取可能性,在单向安全传输系统中加入文本文件内容像素化转换及还原技术;
3、本发明文图互转效率远高于OCR技术,文图转换及还原技术的正确率为100%,转化后无需人工纠正,将该技术集成到单向安全传输系统中用于公安信息网到互联网的双向交互中,在保证信息安全的前提下,性能相较OCR技术有明显的优势,能满足用户的需求;
4、选择PNG格式图片,其压缩比高,减少传输带宽,提升传输吞吐率,无损压缩能保证在目标端还原图片时,其字符位图计算特征值保持一致,正常还原原始字符。
附图说明
图1为本发明所述方法的文图转换原理图;
图2为本发明具体实施方式中所述的文图转换示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
下面结合附图和具体实施例对本发明作进一步说明,但不作为对本发明的限定。下面为本发明的举出最佳实施例:
如图1-2图2所示,本发明提供了一种文本文件内容像素化转换及还原技术,将UTF-8编码格式的文本文件转化为PNG图片,有效过滤该文本文件所夹带非正常信息,并且可以将PNG图片内容还原回UTF-8编码格式的文本文件,解决了在物理隔离的不同网络间文本文件摆渡传输条件下发生的文本文件数据夹带而导致信息泄露安全事件问题。
所述方法在物理隔离的不同网络间文本文件摆渡传输条件下,在源传输发起端,对文本文件内容进行像素化处理,生成PNG格式的图片文件,通过单向传输设备将PNG格式的图片文件摆渡到物理隔离的目标接收端,同时保留原始文本文件,并在目标端对该PNG图片文件内容进行解析处理,写入生成新的文本文件,同时保留图片文件;
所述方法包括:
S1:遍历GBK字符集的每个字符,通过一定算法将每个字符生成一个固定大小的点阵位图;
S2:通过哈希算法对S1中点阵位图生成唯一标识的特征值,如果特征值重复,则通过调整点阵位图使得特征值唯一,形成两张索引表;
S3:通过S1中的字符编码和S2中的索引表,将文本转换为图片;
S4:通过S1中的点阵位图将S3中的图片进行分割,再根据S2中的索引表,将图片还原为文本文件;
S5:输出文本文件;
所述S1中GBK字符集中的不可见字符采用转义字符处理,包括但不限于回车符转“\r”,制表符转“\t”;
所述S2中特征值重复处理采用包括但不限于在相同原始字符点阵位图额外添加角标以示区分,生成不同的特征值,所述两张索引表分别为正向索引表和逆向索引表,所述正向索引表通过字符编码对应点阵位图获得,所述逆向索引表通过特征值对应字符编码获得;
S3具体为:遍历每个字符,获取它的字符编码,从正向索引表中找到该字符对应的点阵位图,然后再将所有字符对应的点阵位图拼接成一定格式的图片;
所述S4具体为:根据点阵位图的大小将图片进行分割,形成多个小的字符点阵位图,再通过哈希算法计算出每个字符点阵位图对应的特征值,然后通过查找逆向索引表找到每个特征值对应的字符编码;
拼接的图片的格式包括但不限于png、gif、tiff和webp;
S1中一定算法包括但不限于将GBK的每一个字符按照指定字体,生成m*n固定大小的点阵图,得到该字符的对应的点阵位图。具体实施步骤如下:
1、读取输入的文本文件内容,对于每个字符(汉字或ASCII码)以一定字体生成固定大小(m*n)的点阵图;
2、将每个字符的点阵图按照输入文件中的先后顺序从左到右、从上到下拼接成一个W*H的图片,其中w=m*k1,H=n*k2,k1*k2≥(输入文件总字符数+1)。为了防止将图片尾部空白区域输出成多余的空格,在输出最后一个字符后,紧接着输出一个文件结束符。对于大文本文件可以分割成多个小文件,每个小文件按照上述方法生成图片;
3、生成的图片文件保存为PNG格式(8Bit)通过单向设备传输。
文图转换示例图如图2所示。
本发明所述方法在文图互转效率上远高于OCR技术,文图转换及还原技术的正确率为100%,转化后无需人工纠正,将该技术集成到单向安全传输系统中用于公安信息网到互联网的双向交互中,在保证信息安全的前提下,性能相较OCR技术有明显的优势,能满足用户的需求。
以上所述的实施例,只是本发明较优选的具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种文本文件内容像素化转换及还原方法,其特征在于,所述方法在物理隔离的不同网络间文本文件摆渡传输条件下,在源传输发起端,对文本文件内容进行像素化处理,生成无损压缩的图片文件,通过单向传输设备将图片文件摆渡到物理隔离的目标接收端,同时保留原始文本文件,并在目标端对该图片文件内容进行解析处理,写入生成新的文本文件,同时保留图片文件。
2.根据权利要求1所述方法,其特征在于,所述无损压缩的图片为PNG格式图片。
3.根据权利要求1所述方法,其特征在于,所述方法包括:
S1:遍历GBK字符集的每个字符,通过一定算法将每个字符生成一个固定大小的点阵位图;
S2:通过哈希算法对S1中点阵位图生成唯一标识的特征值,如果特征值重复,则通过调整点阵位图使得特征值唯一,形成两张索引表;
S3:通过S1中的字符编码和S2中的索引表,将文本转换为图片;
S4:通过S1中的点阵位图将S3中的图片进行分割,再根据S2中的索引表,将图片还原为文本文件;
S5:输出文本文件。
4.根据权利要求3所述方法,其特征在于,所述S1具体包括:
S11:读取输入的文本文件内容,对于每个字符以一定字体生成固定大小的点阵图,其中字符为汉字或ASCII码,点阵图大小为m*n,其中,m和n的取值范围由字体大小决定;
S12:将每个字符的点阵图按照输入文件中的先后顺序从左到右、从上到下拼接成一个W*H的图片,其中w=m*k1,H=n*k2,k1*k2≥(输入文件总字符数+1),k1取值范围为100~150,k2根据文件字节大小计算得出;
S13:在输出最后一个字符后,紧接着输出一个文件结束符,以防止将图片尾部空白区域输出成多余的空格;
S14:对于大文本文件,先将大文本文件分割成多个小文件,每个小文件按照上述S11-S13生成图片;
S15:生成的图片文件保存为PNG格式、8Bit,通过单向设备进行传输。
5.根据权利要求4所述方法,其特征在于,所述S1中一定算法包括但不限于将GBK的每一个字符按照宋体5号,输出到m*n大小的画布点阵图上,得到该字符的对应的点阵位图。
6.根据权利要求5所述方法,其特征在于,所述S1中GBK字符集中的不可见字符采用转义字符处理,包括但不限于回车符转“\r”,制表符转“\t”。
7.根据权利要求3所述方法,其特征在于,所述S2中特征值重复处理采用包括但不限于在相同原始字符点阵位图额外添加角标以示区分,生成不同的特征值,所述两张索引表分别为正向索引表和逆向索引表,所述正向索引表通过字符编码对应点阵位图获得,所述逆向索引表通过特征值对应字符编码获得。
8.根据权利要求3所述方法,其特征在于,S3具体为:遍历每个字符,获取它的字符编码,从正向索引表中找到该字符对应的点阵位图,然后再将所有字符对应的点阵位图拼接成一定格式的图片。
9.根据权利要求8所述方法,其特征在于,拼接的图片的格式包括但不限于png、gif、tiff和webp。
10.根据权利要求8所述方法,其特征在于,所述S4具体为:根据点阵位图的大小将图片进行分割,形成多个小的字符点阵位图,再通过哈希算法计算出每个字符点阵位图对应的特征值,然后通过查找逆向索引表找到每个特征值对应的字符编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971956.9A CN110781185B (zh) | 2019-10-14 | 2019-10-14 | 一种文本文件内容像素化转换及还原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971956.9A CN110781185B (zh) | 2019-10-14 | 2019-10-14 | 一种文本文件内容像素化转换及还原方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781185A true CN110781185A (zh) | 2020-02-11 |
CN110781185B CN110781185B (zh) | 2024-03-29 |
Family
ID=69385260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910971956.9A Active CN110781185B (zh) | 2019-10-14 | 2019-10-14 | 一种文本文件内容像素化转换及还原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781185B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626554A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419715A (zh) * | 2008-11-28 | 2009-04-29 | 深圳创维数字技术股份有限公司 | 生成文字或图形点阵的方法与装置 |
CN101968814A (zh) * | 2010-10-29 | 2011-02-09 | 四川长虹电器股份有限公司 | 点阵字库制作方法 |
CN104428778A (zh) * | 2012-07-03 | 2015-03-18 | 维亚塞斯公司 | 用于对数字图书加标记的方法 |
US20150281739A1 (en) * | 2014-03-28 | 2015-10-01 | Mckesson Financial Holdings | Method, Apparatus, And Computer Program Product For Providing Automated Testing Of An Optical Character Recognition System |
-
2019
- 2019-10-14 CN CN201910971956.9A patent/CN110781185B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419715A (zh) * | 2008-11-28 | 2009-04-29 | 深圳创维数字技术股份有限公司 | 生成文字或图形点阵的方法与装置 |
CN101968814A (zh) * | 2010-10-29 | 2011-02-09 | 四川长虹电器股份有限公司 | 点阵字库制作方法 |
CN104428778A (zh) * | 2012-07-03 | 2015-03-18 | 维亚塞斯公司 | 用于对数字图书加标记的方法 |
US20150281739A1 (en) * | 2014-03-28 | 2015-10-01 | Mckesson Financial Holdings | Method, Apparatus, And Computer Program Product For Providing Automated Testing Of An Optical Character Recognition System |
Non-Patent Citations (1)
Title |
---|
肖峰;: "VC++下的BMP格式图像和PNG格式图像的转换" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626554A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
CN113626554B (zh) * | 2021-08-17 | 2023-08-25 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110781185B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11687739B2 (en) | Decoder and encoder for a digital fingerprint code | |
US5963966A (en) | Automated capture of technical documents for electronic review and distribution | |
RU2571378C2 (ru) | Устройство и способ поиска различий в документах | |
US6546136B1 (en) | Matching CCITT compressed document images | |
US7542605B2 (en) | Image processing apparatus, control method therefor, and program | |
US9928559B2 (en) | Method for watermarking the text portion of a document | |
US20060045386A1 (en) | Image processing method, system, program, program storage medium and information processing apparatus | |
CN111753717B (zh) | 用于提取文本的结构化信息的方法、装置、设备及介质 | |
JPH04225485A (ja) | バーコードを認識する方法 | |
CN101441713A (zh) | 一种pdf文件的光学字符识别方法及装置 | |
CN102915437A (zh) | 文本信息识别方法及系统 | |
WO2021141747A1 (en) | Method for generating a quick response code and printing apparatus | |
JPH01279368A (ja) | キャラクタデータの転送方式 | |
CN1770177A (zh) | 编码高密度几何符号集的系统和方法 | |
CN110781185B (zh) | 一种文本文件内容像素化转换及还原方法 | |
EP2482230B1 (en) | Apparatus and method for decoding matrix code symbol | |
EP3047353B1 (en) | Data-bearing medium | |
RU2648636C2 (ru) | Сохранение контента в конвертированных документах | |
US6798914B1 (en) | Neural-network-based method of image compression | |
KR101498546B1 (ko) | 문서 디지털 복원 시스템 및 방법 | |
CN114238731A (zh) | 一种国产cpu检索方法、系统、装置及计算机可读介质 | |
JP2005044052A (ja) | 携帯型文字認識装置 | |
JP2010218106A (ja) | 画像処理装置、画像処理方法及びプログラム | |
KR20120137006A (ko) | 휴대단말기에서 바코드 생성 및 인식할 수 있는 장치 및 방법 | |
US7463375B2 (en) | Copier encoding gray-level image data into format for storage and decoding to print remaining copies if memory has large enough storage capacity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 200031 No. 76, Yueyang Road, Shanghai, Xuhui District Applicant after: Shanghai Chen Rui Mdt InfoTech Ltd. Address before: 201204 4th / 5th floor, block B, 339 Bisheng Road, Pudong New Area, Shanghai Applicant before: SHANGHAI CHENRUI INFORMATION TECHNOLOGY Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |