CN107248134B - 一种文本文档中的信息隐藏方法和装置 - Google Patents

一种文本文档中的信息隐藏方法和装置 Download PDF

Info

Publication number
CN107248134B
CN107248134B CN201710278472.7A CN201710278472A CN107248134B CN 107248134 B CN107248134 B CN 107248134B CN 201710278472 A CN201710278472 A CN 201710278472A CN 107248134 B CN107248134 B CN 107248134B
Authority
CN
China
Prior art keywords
character
pixel
image
information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710278472.7A
Other languages
English (en)
Other versions
CN107248134A (zh
Inventor
李晓妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Li Xiaoni
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710278472.7A priority Critical patent/CN107248134B/zh
Publication of CN107248134A publication Critical patent/CN107248134A/zh
Application granted granted Critical
Publication of CN107248134B publication Critical patent/CN107248134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0065Extraction of an embedded watermark; Reliable detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种文本文档中的信息隐藏方法和装置。该方法包括:1)读取电子格式的文本文件中所有字符编码信息和文字排版属性信息;2)根据字符编码信息和文字排版属性信息将电子格式的文本文件转换为黑白二值文本图像文件;3)在黑白二值文本图像文件中提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘象素点集合;4)确定字符图像子块的边缘像素点的翻转规则,通过边缘象素点集合中的边缘像素点值的翻转来嵌入水印信息,从而实现文本文档中的信息隐藏。本发明通过修改字符图像边缘嵌入水印信息,嵌入水印信息后的文本图像视觉效果良好,并且信息嵌入容量可以得到大幅度提高。

Description

一种文本文档中的信息隐藏方法和装置
技术领域
本发明涉及一种文本文档中的信息隐藏方法和装置,具体涉及一种在黑白二值文本图像文档中的信息隐藏方法和装置。
背景技术
随着信息时代的到来,特别是互联网技术的快速普及,信息安全的保护问题日益突出。目前的信息安全技术基本上都是基于密码学理论的,无论是采用传统的密钥系统,还是公钥系统,其保护方式都是控制文件的存取,即将文件加密成密文,使得非法用户不能解读。但是随着计算机能力的不断提高,这种通过增加密钥长度来提高系统安全性的方法越来越不可靠,而且密文容易引起攻击者注意。因此,具有伪装特点的新兴的信息安全技术—信息隐藏(Information Hiding)应运而生,并成为隐藏通信和版权保护的有效手段,迅速成为国际上的研究热点。
目前,就信息隐藏技术而言,利用图像、声音和视频载体的研究较为广泛和深入,而基于文本方面的研究相对较少。由于文本文件是直接对文字数据进行编码,因而不存在数据冗余,就不能通过修改文件的有效数据进行信息隐藏。事实上,大多数的创意都是以文本的方式存储和传输,文本作为信息传递的一种手段,其应用大大地超过了图像、视频和音频的范围,再加上文本数据对互联网时代的政府办公和电子商务具有非常重要的作用,因此,研究基于文本的信息隐藏,对于互联网时代的隐藏通信是一个极具潜力的方向。
文本文档中的信息隐藏主要从以下三个方面来进行:
(1)矢量文件格式,即文本文档中主要包含文字编码信息。
该类格式文件的信息隐藏方法主要有:a)基于文档排版格式和属性信息的数字水印算法,比如利用字符行距/间距、字符大小缩放、字符颜色、不易见字符和全/半角标点等属性信息,但是此类方法的水印信息容量十分有限;b)基于自然语言处理技术的文本水印方法,即在不改变文本原意的情况下通过等价信息替换、语态转换等办法来实现水印嵌入。该类方法具有较好的不可见性,隐藏信息量相对大,但不适用于文本内容不宜更改的情况,从而不具有普适性。
(2)二值文本图像格式,即将电子格式的文本文件转换为黑白二值文本图像数据。
文本文档图像可以看作是二值的数字图像,与灰度图像具有丰富的灰度级不同,二值图像只有黑白两种颜色的像素,这个特点决定了对像素的任意修改都会造成视觉上的明显变化。例如在全黑或全白的区域翻转任意像素,在视觉上造成的影响的都是不可接受的。对于二值图像来说,所能利用的视觉冗余都是黑白区域的交接处,即图像的边界点。所以二值图像的水印方法都集中在对边界点的修改,不能孤立考虑一个像素,而应该考虑像素点的领域状况。
在现有的方法中,二值图像水印方法可以分为整体图像特征修改法和局部图像特征修改法两类。其中整体图像特征修改法是利用大块图像或大块图像之间的几何特征来隐藏信息,常见的方法包括文本行间距平移、文本字间距平移和字符结构微调等方法。但是这种方法藏入的信息量较少,并且嵌入的方式比较复杂;局部图像特征修改法是对分块图像的统计特征进行修改来隐藏信息,通常有奇偶嵌入法、步长奇偶法、比例修改法、游程修改法、边界修改法和字符特征修改法等。它们的共同特征都是通过对边界像素的修改,改变局部图像的统计特征,以达到信息隐藏的目的。但是目前的局部图像特征修改法的不足在于:水印信息容量明显不足。另外在选择像数点改变时还需要将某区域内的图像进行置乱处理,然后分块统计黑点个数,并根据一定的规则和待嵌入的位串信息,对图像的特定象素点进行修改,修改方式相对比较复杂。但是对于一般的文本文档来说,排版格式的差异使得无法准确定位区域,信息提取的困难较大。
(3)叠加额外底纹图像数据。即将电子文本文档页面数据下,叠加额外的底纹图像数据,信息不是隐藏在文本文档本身,而是隐藏在底纹图像数据中。一般实现时也有两种方法:a)在正常打印文件的同时额外叠加一层纹图像数据,采用不同的网点模式代表了不同的水印信息。这类方法的优点是水印信息容量大,并可以抵抗若干次复印;缺点是浪费油墨,从而使得打印成本升高;b)将所有的电子格式文件转换为电子的PDF文件,其中将待嵌入的水印信息嵌入到动态生成的背景底纹图像数据中,并作为一个页面对象插入到PDF文件页面的底部。虽然信息容量相对较大,但是文件体积也会变的很大,由于背景底纹图像数据的存在,文件的压缩比例相对较低。另外,这两类处理方式都是在文本文档底部叠加了额外的底纹图像数据,该数据是人眼可见的,在一定程度上还会影响文档的正常阅读效果。
综上所述,现有的文本水印方法并不能同时在保持理想视觉效果,不明显增加文件体积大小的前提下,实现文本文件中的大容量信息的嵌入和提取。针对上述缺陷,本发明提出一种用于文本文件的信息隐藏方法,该算法实现简单,将电子格式文本文档中所有的文字对象转换为二值文本图像,称之为字符图像,通过修改字符图像边缘嵌入水印信息,嵌入水印信息后的文本图像视觉效果良好,并且信息嵌入容量可以得到大幅度提高。
发明内容
本发明提供一种文本文档中的信息隐藏方法,用以解决现有技术中存在的文本文档中嵌入的水印信息量较少,视觉效果较差的问题,进一步的用于解决水印信息安全性低,嵌入和提取过程计算复杂度高以及检测准确率低的问题。
本发明的构思在于:首先将电子格式的文本文件转换为黑白二值文本图像文件;提取每个字符图像字块,并进行字符图像边缘检测;确定字符图像字块的边缘像素点的翻转规则,通过边缘像素点值的翻转来嵌入水印信息;水印信息提取识别时,首先通过OCR(OpticalCharacter Recognition,光学字符识别)来获取每个字符的编码信息和字符图像子块数据A;根据字符编码信息和文字排版属性信息重新生成操作系统字模图像的点阵数据B;通过比对图像块A和B的边缘的异同来提取水印信息。进而得到了一种文本文档中信息隐藏方法和装置。
本发明提供了一种文本文档中的信息隐藏方法,包括如下步骤:
步骤一,读取电子格式的文本文件中所有字符编码信息和文字排版属性信息;
步骤二,根据字符编码信息和文字排版属性信息将电子格式的文本文件转换为黑白二值文本图像文件;
步骤三,在黑白二值文本图像文件中提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘象素点集合U;
步骤四,确定字符图像子块的边缘像素点的翻转规则,通过U中的边缘像素点值的翻转来嵌入水印信息,从而实现文本文档中的信息隐藏。
进一步地,上述方法还包括以下步骤:
步骤五,将嵌入水印信息后的二值文本图像文件再进行文件数据压缩处理,以获得较小的文件体积。
进一步地,上述方法还包括以下步骤,以实现水印信息的提取识别:
步骤六,水印信息提取识别时,首先对压缩文件进行解压缩操作,然后通过OCR获取黑白二值文本图像文件中每个字符的编码信息和切分后的字符图像子块A;
步骤七,根据步骤六中获取的字符编码信息,以及步骤一中相同的文字排版属性信息,根据操作系统中预装的标准字模图像重新生成字符图像子块B;
步骤八,通过比对字符图像子块A和B的边缘点的像素值的异同来提取水印信息。
较佳地,所述的字符编码信息是指字符Unicode编码;所述的文字排版属性信息包括:字体名称、字体大小、字体方向、字体样式(偏斜体、斜体和正常)和字体粗细(粗体、细体和正常)信息。
较佳地,所述的文本文件转换为黑白二值文本图像文件时,图像分辨率为200dpi、300pdi、600dpi或1200dpi。
较佳地,所述的字符图像边缘像素点检测,遍历收集字符图像边缘的白色像素点或者黑色像素点,其中:
假设黑白二值文本图像中,前景图像(字符笔画所占区域)区域中像素点的像素值为1,背景图像像素点的像素值为0.位于字符图像中第i行第j列的图像边缘像素点的像素值为P(i,j)。
黑色像素点的判断法则为:
①像素点P(i,j)的像素值G(P(i,j))=1;
②G(P(i-1,j))-G(P(i+1,j))|=1,
G(P(i,j-1))-G(P(i,j+1))|=1。
白色像素点的判断法则为:
①像素点P(i,j)的像素值G(P(i,j))=0;
②|G(P(i-1,j))-G(P(i+1,j))|=1,
|G(P(i,j-1))-G(P(i,j+1))|=1。
较佳地,所述的字符图像子块的边缘像素点的翻转规则,根据水印信息位串将白色的像素点翻转为黑色像素点或者将黑色像素点翻转为白色像素点,具体操作为:
翻转黑色象素点,当嵌入的水印信息位串为0时,保持当前的黑色像素点不变,像素值为1;当嵌入的水印信息位串为1时,将当前的黑色像素点翻转为白色像素点,像素值变为0。
翻转白色象素点,当嵌入的水印信息位串为0时,保持当前的白色像素点不变,像素值为0;当嵌入的水印信息位串为1时,将当前的白色像素点翻转为黑色像素点,像素值变为1。
较佳地,所述的翻转集合U中的像素点,通过调节集合U中的嵌入密度参数k来进行翻转点的重采样,其中k为1≤k≤20的整数。即不是将集合中所有的像素点都用来翻转,而是仅对第k*n个象素点翻转,n=1,2,3...,k*n<N,其中N为集合U中所有象素点的个数。k越大时,用来翻转的像素点个数越少,字符图像的失真就越小,相应地,嵌入的水印信息容量越小;相反地,k越小时,用来翻转的像素点个数越多,字符图像的失真就越大,相应地,嵌入的水印信息容量越大。
较佳地,所述的文件数据压缩处理,将嵌入的水印后的二值文本图像文件进行数据压缩处理以获得较小的文件体积,压缩图像编码方法为:游程长度编码(run-lengthcoding,RLC)、跳白块编码、方块编码、识别编码、JBIG(Joint Bi-Level Image ExpertGroup)编码。
较佳地,所述的字符图像子块B,是指通过步骤六中获取的字符编码信息、步骤二中相同的图像分辨率设置以及步骤一中相同的文字排版属性信息,调用CreateFontIndirect()函数生成HFONT字体对象;然后调用GetGlyphOutline()函数生成标准的字符图像子块B。
较佳地,所述的比对字符图像子块A和B,将字符图像子块B按照步骤三中的方法进行图像边缘检测,得到像素点集合U;接着将图像块A和图像块B作对齐操作;然后按照U中记录的像素点的位置依次比较A和B中相同位置处的图像像素值,若相同,则嵌入的水印信息位串为0;否则为1。
本发明提供了一种文本文档中的信息隐藏装置,包括如下部分:
图像转换模块,用于读取电子格式的文本文件中所有字符编码信息和文字排版属性信息,将电子格式的文本文件转换为黑白二值文本图像文件;
边缘像素点检测模块,用于在黑白二值文本图像文件中提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘象素点集合;
水印信息嵌入模块,用于确定字符图像子块的边缘像素点的翻转规则,通过边缘象素点集合中的边缘像素点值的翻转来嵌入水印信息,从而实现文本文档中的信息隐藏。
进一步地,还包括文件数据压缩模块,用于对嵌入水印信息后的二值文本图像文件进行文件数据压缩处理。
进一步地,还包括水印信息提取识别模块,用于采用上面所述的方法实现水印信息的提取识别。
本发明的有益效果如下:
由于本发明中,水印信息的提取识别需要原始的字符图像数据作为参照标准,没有精确的原始字符图像数据不能正确提取水印信息。而原始的字符图像数据的生成需要多方面的信息:1)文字的字符编码信息和排版属性信息,比如字体名称、字体大小、字体方向、字体样式、字体的粗细;2)图像分辨率;3)象素的采样密度参数k。上述任何一个参数信息不一致,生成的字符图像B都不正确,水印信息无法正确提取。尤其对于字体大小和字体方向的些许变化,字符图像B都会差异很大;另外参数k的选择方式越复杂,水印信息为0的翻转的象素点的位置越隐蔽。因此,本发明所述方法的水印信息安全性较高。
由于本发明中,将字符图像块B作为参考图像,每个象素的修改可以代表1bit的信息,而每个字符图像含有大量可以翻转的边缘点,比如字体字号为四号,字体名称为仿宋的最简单的汉字字符“一”,最大可以嵌入24bits信息,而结构更加复杂的汉字字符嵌入的信息容量更大。因此,本发明所述方法的水印信息容量较高。
由于,本发明所述的通过字符图像边缘像素点翻转嵌入水印信息的方法,每1bit信息的嵌入只翻转了一个像素点,并且是字符图像边缘不易觉察的点,因此,嵌入水印信息后的二值文本图像视觉效果好。
由于本发明中,水印信息的嵌入只是通过象素值得比对和像素值的翻转运算,没有其他复杂运算,因此,水印信息嵌入和提取的算法实现简单,计算速度快,效率较高。
附图说明
图1为本发明文本文档中水印信息嵌入和提取的主流程图;
图2为本发明中字体名称为仿宋的汉字字符“一”的字符图像边缘可翻转点集合示意图;
图3为图2所示的字符图像块,水印信息嵌入前后的效果对比示意图,(a)为水印信息嵌入前,(b)为水印信息嵌入后;
图4为二值文本图像中水印信息嵌入前后的整体效果示意图,其中(a)水印信息嵌入前效果,(b)为水印信息嵌入后的效果;
图5为本发明中针对仿宋字体,汉字字符“大”,不同字体大小水印信息嵌入效果对比示意图,其中(a)为小三号字体,(b)为小四号字体;
图6为本发明中针对楷体,汉字字符“大”,小三号字体,水印信息嵌入效果示意图;
图7为本发明文本水印信息嵌入和提取的装置结构图。
具体实施方式
本下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,是文本文档中水印信息嵌入和提取方案的主流程图,包括以下步骤:
S101、首先读取电子格式的文本文件中所有字符编码信息和文字排版属性信息。
在本发明中,我们将电子格式的文本文件转化为黑白二值文本图像格式,然后切分出每一个独立的字符图像子块,通过字符图像边缘像素点的修改进行水印信息嵌入。因此,将黑白文字转为点阵图像时,需要事先界定文字排版属性信息,主要包括:字体名称、字体大小、字体方向、字体样式(偏斜体、斜体和正常)和字体粗细(粗体、细体和正常)信息。
S102、将电子格式的文本文件转换为黑白二值文本图像文件。
根据每个字符的编码信息以及上述的文字排版属性信息,就可以创建字体对象。获取新创建的字体对象的点阵图像数据时,还需要图像分辨率信息,不同的图像分辨率得到的点阵图像数据大小不同。通常情况下,文本文件转换为黑白二值文本图像文件时,图像分辨率为200dpi、300pdi、600dpi和1200dpi,当然原则上可以得到任何分辨率下的黑白二值文本图像数据。
S103、接着提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘象素点集合U。
本发明所述方法,主要是通过修改每个单独的字符图像块的笔画边缘像素点来嵌入水印信息,因此,在S102步骤得到黑白二值文本图像文件后,通过字符切分来获取每个字符图像子块。切分的方法主要有:标准切分法、基于识别的切分法、整体切分法以及前三种组合而成。标准切分方法通过对图像本身分析寻找字符之间较为合理的切分点,主要是采用静态的投影分析方法,该方法对于图像质量好、字与字之间有固定间距的文档处理效果好,而对于字符粘连情况处理的很不理想;基于识别的方法提供了多个切分假设,然后对切分结构进行选择得到最优的切分结果,这种方法效果好,但是相对比较复杂、耗时,在实际中应用得很少;整体切分法则是把一个单词作为一个整体来进行识别,这种方法虽然避免了单词内部切分的问题,但它依赖于现有的定义好的词典,这大大限制了该方法的应用范围。由于在本发明中,待切分的二值文本图像是直接从电子格式文件转换过来的,图像质量非常好,因此,优选采用了标准切分方法。
获取每个字符图像子块数据后,需要进行字符图像边缘检测。常用的图像边缘检测的方法有:1)简单边缘模型;2)Roberts边缘检测算子;3)Sobel边缘检测算子;4)Prewitt边缘检测算子;5)Laplacian of Guassian(LoG)算子;6)Canny算子;7)形态学边缘检测。在本方法中,形态学边缘检测更适合,因为能使用膨胀粘合单个汉字成为文字段落块,且算法简单,效果较好。为此,我们选择了形态学边缘检测方法,并对形态学的开闭运算做了如下改进:
基于数学形态学里的膨胀与腐蚀理论,我们就可以先将文字膨胀,因为文字段落里,文字间存在一定的间隔,但此间隔相对文字的宽度和高度是很细小的。因此先使用膨胀方法,将段落内的同行字横向连接起来,再腐蚀恢复到原始尺寸,这时由于间隔部分已经成为字符内的区域了,所以腐蚀方法不会将恢复原始间隔。
为了实现文字行间的融合,可以采用非正比的膨胀与腐蚀方法,多次膨胀后将不同行的文字融合成文字段落块,形成文字区域的整体,再适当相同次数的腐蚀,恢复文字段落的原始尺寸。
此外,在分离过程中的剔除图像内非文字图片区域的时候,图像识别敏感度大小的权衡也是个问题,如果敏感度太低,很多图片区域也可能被误认为文字区域,从而会进行接下来的区域检测,那么结果就是这部分图片区域也会被检测标示出来。如果敏感度太高,那么检测的效率又降低了,因此会就失去了很多应用的领域。
进行字符图像边缘像素点检测后,遍历收集字符图像边缘的白色像素点或者黑色像素点,其中:
假设黑白二值文本图像中,前景图像(字符笔画所占区域)区域中像素点的像素值为1,背景图像像素点的像素值为0.位于字符图像中第i行第j列的图像边缘像素点的像素值为P(i,j)。
黑色像素点的判断法则为:
①像素点P(i,j)的像素值G(P(i,j))=1;
②|G(P(i-1,j))-G(P(i+1,j))|=1,
|G(P(i,j-1))-G(P(i,j+1))|=1。
白色像素点的判断法则为:
①像素点P(i,j)的像素值G(P(i,j))=0;
②|G(P(i-1,j))-G(P(i+1,j))|=1,
|G(P(i,j-1))-G(P(i,j+1))|=1。
图2为字体名称为仿宋的汉字字符“一”的字符图像边缘黑色可翻转点集合U示意图。
S104、确定字符图像子块的边缘像素点的翻转规则,通过U中的边缘像素点值的翻转来嵌入水印信息。
所述的字符图像子块的边缘像素点的翻转规则,根据水印信息位串将白色的像素点翻转为黑色像素点或者将黑色像素点翻转为白色像素点,具体操作为:
翻转黑色象素点,当嵌入的水印信息位串为0时,保持当前的黑色像素点不变,像素值为1;当嵌入的水印信息位串为1时,将当前的黑色像素点翻转为白色像素点,像素值变为0。
翻转白色象素点,当嵌入的水印信息位串为0时,保持当前的白色像素点不变,像素值为0;当嵌入的水印信息位串为1时,将当前的白色像素点翻转为黑色像素点,像素值变为1。
所述的翻转集合U中的像素点,通过调节集合U中的嵌入密度参数k来进行翻转点的重采样,其中k为1≤k≤20的整数。即不是将集合中所有的边缘像素点都用来翻转,而是仅对第k*n个象素点翻转,n=1,2,3...,k*n<N,其中N为集合U中所有象素点的个数。k越大时,用来翻转的像素点个数越少,字符图像的失真就越小,相应地,嵌入的水印信息容量越小;相反地,k越小时,用来翻转的像素点个数越多,字符图像的失真就越大,相应地,嵌入的水印信息容量越大。
经过k值的选择,字符图像的失真程度降低,同时也提高了水印信息的安全性,因为保持不变的像素值中有一部分是废弃掉的,不代表水印信息位串“0”。当然k值的选择函数越复杂,水印信息的安全性越高。
由于本发明中,有标准字符图像块作为参照,只需要翻转单个象素点嵌入水印信息,因此图像失真小,视觉效果良好。比如图3为图2所示的字符图像块,水印信息嵌入前后的效果对比示意图,(a)为水印信息嵌入前,(b)为水印信息嵌入后。
图4为整幅面的二值文本图像中水印信息嵌入前后的整体效果示意图,其中(a)为水印信息嵌入前的效果,(b)为水印信息嵌入后的效果。
图5为本发明中针对仿宋字体,汉字字符“大”,不同字体大小水印信息嵌入效果对比示意图,其中(a)为小三号字体,可嵌入的水印信息容量上限为41bits;(b)为小四号字体,可嵌入的水印信息容量上限为33bits。
图6为本发明中针对楷体,汉字字符“大”,小三号字体,水印信息嵌入效果示意图,可嵌入的水印信息容量上限为39bits。
图5和图6中每一个子图的左边都为原始的字符图像子块显示效果,右边为翻转象素点嵌入水印信息后的字符图像字块显示效果。同时,该两图也再次说明文字排版属性信息不同,生成的字符图像子块是不同的,可修改的边缘点的集合也不同,进而水印信息容量也不同。
S105、将嵌入水印信息后的二值文本图像文件再进行文件数据压缩处理。
由于电子格式的文本文档经过了图像化处理,文件体积相对变大很多。为了衡量水印信息嵌入效率(水印信息容量除以文件体积大小),需要对嵌入水印信息后的二值文本图像文件进行数据压缩处理,以获得较小的文件体积。相应的压缩图像编码方法为:游程长度编码(run-length coding,RLC)、跳白块编码、方块编码、识别编码、JBIG(Joint Bi-Level Image ExpertGroup)编码。由于JBIG编码对于文字图像压缩比例最高,本发明中选择了JBIG编码方法进行图像压缩。
S106、水印信息提取识别时,首先对压缩文件进行解压缩操作,然后通过OCR获取黑白二值文本图像文件中每个字符的编码信息和切分后的字符图像子块A。
S107、根据步骤六中获取的字符编码信息,以及步骤一中相同的文字排版属性信息,根据操作系统中预装的标准字模图像重新生成字符图像子块B。
所述的字符图像子块B,是指通过步骤S106中获取的字符编码信息、步骤S102中相同的图像分辨率设置以及步骤一中相同的文字排版属性信息,调用CreateFontIndirect()函数生成HFONT字体对象;然后调用GetGlyphOutline()函数从系统安装的TureType字库中提取字符的位图数据,从而生成标准的字符图像块B。该函数的原型如下:
DWORD GetGlyphOutline(HDC hdc,UINT uChar,UINT uFormat,LPGLYPHMETRICSlpgm,DWORD cbBuffer,LPVOID lpvBuffer,CONST MAT2*lpmat2)。
其中uChar:指定被返回其数据的字符,即步骤六中获取的字符编码信息。
S108、通过比对字符图像块A和B的边缘点的像素值的异同来提取水印信息。
所述的比对字符图像块A和B,将字符图像块B按照步骤S103中的方法进行图像边缘检测,得到边缘像素点集合U;接着将图像块A和图像块B作对齐操作;然后按照U中记录的像素点的位置依次比较A和B中相同位置处的图像像素值,若相同,则嵌入的水印信息位串为0;否则为1。无论是黑点翻转和白点翻转,都是嵌入水印信息位串为“1”时,才进行翻转操作;嵌入水印信息位串为“0”时,保持像素值不变,所以水印信息提取时,只需要比较图像A和图B中相同位置处的像素值异同即可。
图7为本发明文本水印信息嵌入和提取的装置结构图。该装置包括:
图像转换模块201,用于读取电子格式的文本文件中所有字符编码信息和文字排版属性信息,将电子格式的文本文件转换为黑白二值文本图像文件;
边缘像素点检测模块202,用于在黑白二值文本图像文件中提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘象素点集合;
水印信息嵌入模块203,用于确定字符图像子块的边缘像素点的翻转规则,通过边缘象素点集合中的边缘像素点值的翻转来嵌入水印信息,从而实现文本文档中的信息隐藏;
文件数据压缩模块204,用于对嵌入水印信息后的二值文本图像文件进行文件数据压缩处理;
水印信息提取识别模块205,用于采用上面所述的方法实现水印信息的提取识别。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种文本文档中的信息隐藏方法,其特征在于,包括以下步骤:
1)读取电子格式的文本文件中所有字符编码信息和文字排版属性信息;
2)根据字符编码信息和文字排版属性信息将电子格式的文本文件转换为黑白二值文本图像文件;
3)在黑白二值文本图像文件中提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘像素点集合;其中的字符图像边缘像素点检测,采用形态学边缘检测方法,并对形态学的开闭运算做如下改进:先使用膨胀方法,将段落内的同行字横向连接起来,再腐蚀恢复到原始尺寸;为实现文字行间的融合,采用非正比的膨胀与腐蚀方法,多次膨胀后将不同行的文字融合成文字段落块,形成文字区域的整体,再进行相同次数的腐蚀,恢复文字段落的原始尺寸;
4)确定字符图像子块的边缘像素点的翻转规则,通过边缘像素点集合中的边缘像素点值的翻转来嵌入水印信息,从而实现文本文档中的信息隐藏;
所述字符图像子块的边缘像素点的翻转规则,是根据水印信息位串将白色的像素点翻转为黑色像素点或者将黑色像素点翻转为白色像素点,包括:
a)翻转黑色像素点,当嵌入的水印信息位串为0时,保持当前的黑色像素点不变,像素值为1;当嵌入的水印信息位串为1时,将当前的黑色像素点翻转为白色像素点,像素值变为0;
b)翻转白色像素点,当嵌入的水印信息位串为0时,保持当前的白色像素点不变,像素值为0;当嵌入的水印信息位串为1时,将当前的白色像素点翻转为黑色像素点,像素值变为1。
2.如权利要求1所述的方法,其特征在于,通过以下步骤实现水印信息的提取识别:
a)通过OCR获取黑白二值文本图像文件中每个字符的编码信息和切分后的字符图像子块A;
b)根据步骤a)中获取的字符编码信息,以及步骤1)中相同的文字排版属性信息,根据操作系统中预装的标准字模图像重新生成字符图像子块B;
c)通过比对字符图像子块A和B的边缘点的像素值的异同来提取水印信息。
3.如权利要求1或2所述的方法,其特征在于,所述文字排版属性信息包括:字体名称、字体大小、字体方向、字体样式和字体粗细;将文本文件转换为黑白二值文本图像文件时,图像分辨率为200dpi、300pdi、600dpi或1200dpi。
4.如权利要求1或2所述的方法,其特征在于,所述字符图像边缘像素点检测,遍历收集字符图像边缘的白色像素点或者黑色像素点,其中假设黑白二值文本图像中,前景图像区域中像素点的像素值为1,背景图像像素点的像素值为0,位于字符图像中第i行第j列的图像边缘像素点的像素值为P(i,j);黑色像素点的判断法则为:
①像素点P(i,j)的像素值G(P(i,j))=1;
②|G(P(i-1,j))-G(P(i+1,j))|=1,
|G(P(i,j-1))-G(P(i,j+1))|=1;
白色像素点的判断法则为:
①像素点P(i,j)的像素值G(P(i,j))=0;
②|G(P(i-1,j))-G(P(i+1,j))|=1,
|G(P(i,j-1))-G(P(i,j+1))|=1。
5.如权利要求1或2所述的方法,其特征在于,在翻转边缘像素点集合中的像素点时,通过调节边缘像素点集合中的嵌入密度参数k来进行翻转点的重采样,所述嵌入密度参数k为1≤k≤20的整数。
6.如权利要求2所述的方法,其特征在于,所述字符图像子块B,是指通过步骤a)中获取的字符编码信息、步骤2)中相同的图像分辨率设置以及步骤1)中相同的文字排版属性信息,调用CreateFontIndirect()函数生成HFONT字体对象;然后调用GetGlyphOutline()函数生成标准的字符图像子块B。
7.如权利要求2所述的方法,其特征在于,所述比对字符图像子块A和B,将字符图像子块B按照步骤3)中的方法进行图像边缘检测,得到边缘像素点集合;接着将A和B作对齐操作;然后按照边缘像素点集合中记录的像素点的位置依次比较A和B中相同位置处的图像像素值,若相同,则嵌入的水印信息位串为0,否则为1。
8.一种文本文档中的信息隐藏装置,其特征在于,包括:
图像转换模块,用于读取电子格式的文本文件中所有字符编码信息和文字排版属性信息,将电子格式的文本文件转换为黑白二值文本图像文件;
边缘像素点检测模块,用于在黑白二值文本图像文件中提取每个字符图像子块,并进行字符图像边缘像素点检测,获取边缘像素点集合;其中的字符图像边缘像素点检测,采用形态学边缘检测方法,并对形态学的开闭运算做如下改进:先使用膨胀方法,将段落内的同行字横向连接起来,再腐蚀恢复到原始尺寸;为实现文字行间的融合,采用非正比的膨胀与腐蚀方法,多次膨胀后将不同行的文字融合成文字段落块,形成文字区域的整体,再进行相同次数的腐蚀,恢复文字段落的原始尺寸;
水印信息嵌入模块,用于确定字符图像子块的边缘像素点的翻转规则,通过边缘像素点集合中的边缘像素点值的翻转来嵌入水印信息,从而实现文本文档中的信息隐藏;
所述字符图像子块的边缘像素点的翻转规则,是根据水印信息位串将白色的像素点翻转为黑色像素点或者将黑色像素点翻转为白色像素点,包括:
a)翻转黑色像素点,当嵌入的水印信息位串为0时,保持当前的黑色像素点不变,像素值为1;当嵌入的水印信息位串为1时,将当前的黑色像素点翻转为白色像素点,像素值变为0;
b)翻转白色像素点,当嵌入的水印信息位串为0时,保持当前的白色像素点不变,像素值为0;当嵌入的水印信息位串为1时,将当前的白色像素点翻转为黑色像素点,像素值变为1。
9.如权利要求8所述的装置,其特征在于,还包括水印信息提取识别模块,用于采用以下步骤实现水印信息的提取识别:
a)通过OCR获取黑白二值文本图像文件中每个字符的编码信息和切分后的字符图像子块A;
b)根据步骤a)中获取的字符编码信息,以及步骤1)中相同的文字排版属性信息,根据操作系统中预装的标准字模图像重新生成字符图像子块B;
c)通过比对字符图像子块A和B的边缘点的像素值的异同来提取水印信息。
CN201710278472.7A 2017-04-25 2017-04-25 一种文本文档中的信息隐藏方法和装置 Active CN107248134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710278472.7A CN107248134B (zh) 2017-04-25 2017-04-25 一种文本文档中的信息隐藏方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710278472.7A CN107248134B (zh) 2017-04-25 2017-04-25 一种文本文档中的信息隐藏方法和装置

Publications (2)

Publication Number Publication Date
CN107248134A CN107248134A (zh) 2017-10-13
CN107248134B true CN107248134B (zh) 2021-05-11

Family

ID=60016415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710278472.7A Active CN107248134B (zh) 2017-04-25 2017-04-25 一种文本文档中的信息隐藏方法和装置

Country Status (1)

Country Link
CN (1) CN107248134B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943784B (zh) * 2017-11-02 2020-12-29 南华大学 基于生成对抗网络的关系抽取方法
CN108040098B (zh) * 2017-12-05 2020-10-16 北京永亚普信科技有限责任公司 基于可视信息单向传输的网络隔离方法和系统
CN108055493B (zh) * 2017-12-13 2020-06-30 苏州科达科技股份有限公司 在视频图像中嵌入水印的方法及装置
CN111279338A (zh) * 2019-05-20 2020-06-12 阿里巴巴集团控股有限公司 使用嵌入式版权信息识别版权材料
CN110442521B (zh) * 2019-08-02 2023-06-27 腾讯科技(深圳)有限公司 控件单元检测方法及装置
CN111160335B (zh) * 2020-01-02 2023-07-04 腾讯科技(深圳)有限公司 基于人工智能的图像水印处理方法、装置及电子设备
CN112035804B (zh) * 2020-09-01 2024-03-15 珠海豹趣科技有限公司 一种在文档页面中插入水印标识的方法、装置、电子设备及存储介质
CN112258375B (zh) * 2020-10-20 2023-09-01 北京石油化工学院 一种将特定文本信息填充到关联图像边界的方法及系统
CN112990178B (zh) * 2021-04-13 2022-06-24 中国科学院大学 一种基于字符切分的文本数字信息嵌入、提取方法及系统
CN116340909B (zh) * 2023-03-31 2024-05-10 北京百度网讯科技有限公司 信息编码方法、信息追溯方法及装置
CN116433454B (zh) * 2023-06-12 2023-09-01 北京和人广智科技有限公司 基于微变字的文档水印嵌入方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119429A (zh) * 2006-08-01 2008-02-06 北京北大方正电子有限公司 一种数字水印嵌入与提取的方法及装置
CN101976428A (zh) * 2010-07-30 2011-02-16 南开大学 基于拓扑结构的二进制图像脆弱水印嵌入与提取方法
CN103942552A (zh) * 2014-02-11 2014-07-23 北京大学 一种基于骨架指导的文字图像矢量化方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080688A1 (en) * 2007-09-25 2009-03-26 The Hong Kong University Of Science And Technology Digital watermarking for few-color images
CN103268588B (zh) * 2013-05-24 2016-05-25 上海大学 基于载体图像校验码的加密域无损可逆信息隐藏方法
CN103500296B (zh) * 2013-09-29 2017-01-18 北京溯源鸿业科技有限公司 一种文本文档中数字水印的嵌入方法和装置
CN104217387B (zh) * 2014-01-22 2017-11-21 河南师范大学 一种基于量化嵌入的图像水印嵌入、提取的方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119429A (zh) * 2006-08-01 2008-02-06 北京北大方正电子有限公司 一种数字水印嵌入与提取的方法及装置
CN101976428A (zh) * 2010-07-30 2011-02-16 南开大学 基于拓扑结构的二进制图像脆弱水印嵌入与提取方法
CN103942552A (zh) * 2014-02-11 2014-07-23 北京大学 一种基于骨架指导的文字图像矢量化方法及系统

Also Published As

Publication number Publication date
CN107248134A (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
CN107248134B (zh) 一种文本文档中的信息隐藏方法和装置
Amano et al. A feature calibration method for watermarking of document images
CN101119429A (zh) 一种数字水印嵌入与提取的方法及装置
US6813381B2 (en) Method and apparatus for identification of documents, and computer product
KR101016712B1 (ko) 워터마크 정보검출 방법
US9230383B2 (en) Document image compression method and its application in document authentication
JP4904175B2 (ja) 低解像度のグリフ・イメージから高忠実度のグリフ・プロトタイプを作成するための方法および装置
JP5669957B2 (ja) 西洋語の透かし処理をするための透かし画像の分割方法と装置
EP3477578A1 (en) Watermark embedding and extracting method for protecting documents
JP4632443B2 (ja) 画像処理装置及び画像処理方法並びにプログラム
CN101122995A (zh) 二值图像中数字水印的嵌入、提取方法和装置
CN112907598A (zh) 一种基于注意力cnn文档证件类图像篡改检测方法
Tan et al. Print-Scan Resilient Text Image Watermarking Based on Stroke Direction Modulation for Chinese Document Authentication.
CN111738898A (zh) 文本数字水印嵌入\提取方法及装置
JP4380733B2 (ja) 原稿の複写履歴を管理する装置及びその方法
CN103985078A (zh) 一种抗打印扫描图文混合的数字水印嵌入与提取方法
Chotikakamthorn Electronic document data hiding technique using inter-character space
Wu et al. A printer forensics method using halftone dot arrangement model
Cu et al. A robust watermarking approach for security issue of binary documents using fully convolutional networks
CN101231742B (zh) 二值文本图像中数字水印的嵌入和提取的方法及装置
WO2008052430A1 (fr) Procédé d'incorporation et d'extraction de filigrane numérique et dispositif correspondant
CN100511277C (zh) 一种用于数字图像的数字水印方法及装置
Loc et al. Document images watermarking for security issue using fully convolutional networks
US20110158464A1 (en) Method for Embedding Messages into Structure Shapes
Cu et al. Watermarking for security issue of handwritten documents with fully convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180411

Address after: 100081 Zhongguancun science and technology development building C, No. 34, Zhongguancun South Street, Haidian District, Beijing 2205

Applicant after: Beijing ABB Technology Co., Ltd.

Address before: 266555, unit 1, building 26, Mount Lu Road, Huangdao District, Qingdao District, Shandong,

Applicant before: Li Xiaoni

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210305

Address after: 266555 unit 1, unit 26, Mount Lu Road, Mount Lu Road, Huangdao District, Qingdao, Shandong 602

Applicant after: Li Xiaoni

Address before: 100081 2205, block C, Zhongguancun Science and technology development building, 34 Zhongguancun South Street, Haidian District, Beijing

Applicant before: SOFOSOFI TECH. Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant