CN101727579A - 变形字的检测方法、变形字中水印信息的确定方法及装置 - Google Patents

变形字的检测方法、变形字中水印信息的确定方法及装置 Download PDF

Info

Publication number
CN101727579A
CN101727579A CN200810224455A CN200810224455A CN101727579A CN 101727579 A CN101727579 A CN 101727579A CN 200810224455 A CN200810224455 A CN 200810224455A CN 200810224455 A CN200810224455 A CN 200810224455A CN 101727579 A CN101727579 A CN 101727579A
Authority
CN
China
Prior art keywords
character
detected
deformation
deformed
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810224455A
Other languages
English (en)
Other versions
CN101727579B (zh
Inventor
康凯
宋勇刚
崔晓瑜
于权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Founder Electronics Chief Information Technology Co ltd
New Founder Holdings Development Co ltd
Peking University
Original Assignee
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd, Peking University, Peking University Founder Group Co Ltd filed Critical BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Priority to CN2008102244556A priority Critical patent/CN101727579B/zh
Publication of CN101727579A publication Critical patent/CN101727579A/zh
Application granted granted Critical
Publication of CN101727579B publication Critical patent/CN101727579B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了变形字的检测方法、变形字中水印信息的确定方法及装置,具体包括:根据预先指定的变形字集合,确定待检测图像中的待检测字符;获取待检测字符对应的变形描述信息;根据获取的变形描述信息以及待检测字符的外围区域对应的图像数据,统计待检测字符的特征值;当待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,确定待检测字符为变形字,并根据确定出的变形字的特征值和与该变形字对应的标准字符的特征值之间的相似度,确定该变形字对应的水印信息。通过该技术方案能够准确地检测出变形字以及准确地确定出通过变形字携带的水印信息。

Description

变形字的检测方法、变形字中水印信息的确定方法及装置
技术领域
本发明涉及数字水印信息技术领域,尤其涉及变形字的检测方法、变形字中水印信息的确定方法及装置。
背景技术
数字水印技术是信息处理领域的一个研究热点,其传统的研究方向主要是彩色图像、灰度图像以及视频、音频等,对于二值图像,尤其是文本二值图像的数字水印技术却并不多见。而随着全球信息数字化进程的日益加快,二值图像已经是一种非常常见的图像了,如个人档案、学历证书、专利证件、机要文件等扫描成的数字化文档以及电子信函、传真等,因此,数字水印技术已从传统的研究方向渐渐转移到对文本二值图像的研究上。
与本发明相关的一种现有技术提出了对电子公文或文档进行加密及鉴别真伪的方法,该方法中,将公文中选定的汉字或字母制作变形字并存入普通字库制作成专用字库,并对同一个汉字或字母的不同变形进行编号;把制作好的专用字库安装在电子公文或文档交换系统中,在公文或文档制作及交换或打印过程中,根据公文或文档编号以及专用字库确定使用的变形字,并替换公文或文档中的标准字;将加密后的电子公文或文档通过电子公文或文档交换系统传输并在计算机屏幕上显示或以书面的形式打印出来供接收者阅读;检测时,通过人工比较变形字来判断或OCR技术自动判断公文或文档的真伪。该方法中,对汉字或字母中的笔画做轻微变形,视觉隐藏效果好,数字水印的鲁棒性较高。但在实际应用中,在变形字的检测方面存在如下缺陷:
(1)通过人眼判断得到的判断结果具有主观性,并且人眼对细微差别的识别能力不高,因此,上述通过人工比较变形字的方法中,不能准确地确定出公文或文档中所使用的变形字以及对应的编码,从而不能准确地确定出公文或文档的真伪。而且,通过人工比较变形字需要耗费很大的工作量,工作效率很低。
(2)在对OCR技术的鲁棒性研究中,要求一般的OCR技术能够容忍待检测字符的轻微变形,这样才能在纸张有一定程度的污损或纸张被复印等情况下,仍然能够正确检测出公文或文档中的字符。因此,一般OCR技术不能准确区分出通过上述方法生成的变形字与正常字之间的差别,从而不能准确地确定出公文或文档的真伪。
综上所述,上述变形字的检测技术都不能准确地检测出公文或文档中所使用的变形字,进而无法准确确定出通过变形字携带的水印信息。
发明内容
本发明提供的变形字的检测方法及装置,用以解决现有技术不能准确检测出变形字的问题。
本发明提供的变形字中水印信息的确定方法及装置,用以解决现有技术由于不能准确检测出变形字而导致无法准确确定出通过变形字携带的水印信息的问题。
本发明实施例通过如下技术方案实现:
本发明实施例提供了一种变形字的检测方法,包括:
根据预先指定的变形字集合,确定待检测图像中的待检测字符;
获取所述待检测字符对应的变形描述信息;
根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,确定所述待检测字符为变形字。
本发明实施例还提供了一种变形字中水印信息的确定方法,包括:
根据预先指定的变形字集合,确定待检测图像中的待检测字符;
获取所述待检测字符对应的变形描述信息;
根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,根据所述待检测字符的特征值和所述标准字符的特征值之间的相似度,确定所述待检测字符对应的水印信息。
本发明实施例还提供了一种变形字的检测装置,包括:
待检测字符确定单元,用于根据预先指定的变形字集合,确定待检测图像中的待检测字符;
变形描述信息获取单元,用于获取所述待检测字符对应的变形描述信息;
特征值统计单元,用于根据所述变形描述信息获取单元获取的变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
变形字确定单元,用于当所述特征值统计单元统计出的待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,确定所述待检测字符为变形字。
本发明实施例还提供了一种变形字中水印信息的确定装置,包括:
待检测字符确定单元,用于根据预先指定的变形字集合,确定待检测图像中的待检测字符;
变形描述信息获取单元,用于获取所述待检测字符对应的变形描述信息;
特征值统计单元,用于根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
信息确定单元,用于当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,根据所述待检测字符的特征值和所述标准字符的特征值之间的相似度,确定所述待检测字符对应的水印信息。
本发明实施例通过上述技术方案,在检测变形字的过程中,首先根据预先指定的变形字集合,确定出待检测图像中的待检测字符,然后统计出待检测字符对应的特征值,并将统计出的待检测字符的特征值和与该待检测字符对应的标准字符的特征值进行比较,当比较结果为不一致时,确定该待检测字符为变形字。与现有技术相比,检测过程无需借助于人工或OCR技术完成,对变形字的检测结果准确度高,自动化程度高。并且,对变形字的变形程度要求低,从而提高了水印信息的隐蔽性。进一步地,本发明实施例中,当确定出变形字后,根据该变形字的特征值和相应的标准字符的特征值之间的相似度,确定该变形字对应的水印信息,从而可以根据变形字的变形程度精确地确定出变形字对应的水印信息,提高了变形字中可嵌入的信息量。
附图说明
图1为本发明实施例中提供的变形字示例一;
图2为本发明实施例中提供的变形字示例二;
图3为本发明实施例中提供的变形字示例三;
图4为本发明实施例中提供的变形字的检测以及变形字中水印信息的确定流程图;
图5为本发明实施例中提供的变形字的检测装置结构图一;
图6为本发明实施例中提供的变形字的检测装置结构图二;
图7为本发明实施例中提供的变形字中水印信息的确定装置结构图。
具体实施方式
针对上述方法不能准确检测出变形字以及不能准确确定出通过变形字携带的水印信息的问题,本发明实施例提出了变形字的检测方法、变形字中水印信息的确定方法及装置,下面结合说明书附图对本发明实施例的主要实现原理、具体实施过程及其对应能够达到的有益效果进行详细的阐述。
首先对本发明实施例所涉及的变形字的生成过程以及水印信息的嵌入过程进行简单描述:
目前,对字符进行变形的技术中主要的变形方法有两类,一是翻转字符笔画边缘的点以改变笔画的粗细;二是改变字符笔画的长短、位置等。其中改变字符笔画的长短、位置的变形方法运用较为广泛,在这种技术中,所有对笔画位置、长短的改变,都可以通过对笔画的整体或局部做“伸缩”、“移动”、“旋转”这3种变化中的一种或组合完成。本发明实施例提供的变形字的检测方法及变形字中水印信息的确定方法,适用于上述变形中的任何一种。为描述方便,以下叙述中,主要以通过第二类变形方法生成的变形字为例进行说明。
本发明实施例中,可以利用字库工具生成变形字,具体地,选择适合进行变形的字符,根据对字符进行的不同变形类型以及不同变形幅度生成不同的变形字,并对同一字符的不同变形进行编码,例如,对字符“生”进行变形,可根据其自身的字形特征改变其中间一横的长度,并根据改变幅度的不同生成不同的变形字。对不同幅度对应的变形字“生”进行编码,例如,编码为“1”、“2”、“3”......。实际应用中,可将制作好的变形字存入预先建立的专用字库中,该专用字库可以根据需要做成TureType字库或者Postscript字库。在保存变形字时,可对变形字建立索引以方便查找。
在通过上述过程制作变形字的过程中,需要对每个变形字进行标引,所谓的标引即记录每个变形字的变形描述信息的过程。其中,变形字的变形描述信息包括:
该变形字对应的嵌入点及对应的数目,每个嵌入点中的变形区域以及每个变形区域对应的区域描述信息。
变形字对应的嵌入点即该变形字中发生变形的笔画,一个变形字可以有一个或多个嵌入点,如图1所示的变形字“生”,该变形字的中间一横与标准字符“生”相比发生了变化,称该变形字的中间一横为该变形字的嵌入点,再如图2所示的变形字“我”,该变形字右下角的勾与标准字符“我”相比发生了变化,称该变形字的右下角的勾为该变形字的嵌入点;嵌入点的变形区域即该嵌入点的具体变形区域,每个嵌入点可以有一个或多个变形区域,如图3所示的变形字“生”,中间一横从笔画的两端被压缩,称该笔画有两个变形区域,再如图2所示的“我”,右下角的勾被旋转,称该笔画有一个变形区域;变形区域对应的区域描述信息包括该变形区域的变形类型、控制量等参数,如图3所示,两个变形区域都被压缩,即该变形区域的变形类型为“压缩”,其中,变形区域1向右压缩,即变形区域1的控制量为“向右压缩”,变形区域2向左压缩,即变形区域2的控制量为“向左压缩”。
为了在检测变形字时方便查找每个变形字的变形描述信息,本实施例中还包括建立映射表的过程,该映射表中记录了变形字与变形描述信息的对应关系,其中每个变形字可以通过其对应的内码和字体唯一标识,即给定了一个变形字的内码和字体,就可以通过该映射表查出该变形字对应的变形描述信息。映射表中所有变形字(内码+字体)的集合称为变形字字表。具体应用中,映射表的实体以磁盘文件或数据库的形式存在,称为数据字典,该数据字典可以安装在交换系统中,也可以安装在与交换系统连接的特定打印输出设备上,以供水印信息嵌入和检测时使用。
通过上述过程制作好变形字以及标引出每个变形字的变形描述信息后,在嵌入水印信息时,从用于保存变形字的专用字库中选取要使用的变形字替换文本或文档中的标准字符,同时建立所使用的变形字对应的编码与要嵌入的水印信息的对应关系,例如,编码为“1”的变形字对应的水印信息为“上海”、编码为“2”的变形字对应的水印信息为“北京”。
在对文本或文档进行检测时,首先根据映射表中的变形字字表,确定待检测图像中的待检测字符;然后获取确定出的待检测字符的外围区域(一般情况下,可以取字符的外围矩形区域作为该字符的外围区域)对应的图像数据,并根据获取的图像数据以及标引时记录的待检测字符的变形描述信息,统计待检测字符对应的特征值;当统计得到的待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,根据两个特征值的相似度确定待检测字符对应的水印信息。下面结合图4对该过程进行详细说明:
步骤100、对待检测图像进行OCR识别,获取图像中每个字符对应的内码、字体以及外围矩形。
该步骤中,待检测图像可以是扫描的复印件,进一步地,可以有一定的污损。
字符的外围矩形表示该字符在图像中的位置及大小,可以通过坐标系表示,例如,在以待检测图像的左上角为坐标原点,坐标轴以比特为单位的坐标系中,可以通过字符的外围矩形的四个顶点的坐标值表示该字符的外围矩形的位置及大小。
步骤200、根据步骤100中获取到的字符的内码和字体查询映射表中的变形字字表,确定待检测图像中待检测字符。
该步骤中,可以通过对比待检测图像中的字符对应的(内码+字体),以及变形字字表中变形字对应的(内码+字体),确定待检测图像中的待检测字符。例如,待检测图像中包含5个字符,分别为“A、B、C、I、J”,变形字字表中包含8个字符,分别为“A、B、C、D、E、F、G、H”,则确定出的待检测图像中的待检测字符即为“A、B、C”。
步骤300、根据步骤200确定出的待检测字符查询映射表,确定出每个待检测字符对应的变形描述信息。
该步骤中,根据待检测字符查询映射表,即根据待检测字符对应的(内码+字体),从映射表中查询相应的变形描述信息。其中,查询到的变形描述信息包括:该变形字对应的嵌入点及对应的数目,每个嵌入点中的变形区域以及每个变形区域对应的区域描述信息。
为方便描述,以下叙述以待检测字符A为例进行描述,并且假设待检测字符A中只有一个嵌入点i。
步骤400、获取待检测字符A的外围矩形区域对应的图像数据,并根据获取到的图像数据以及该待检测字符A的变形描述信息,统计待检测字符A对应的嵌入点i的特征值ei。
该步骤中,根据获取到的图像数据以及该待检测字符A的变形描述信息,统计待检测字符A对应的嵌入点i的特征值ei,具体为:
根据嵌入点i对应的变形区域的区域描述信息,确定变形区域对应的区域特征值的提取方法,然后根据确定出的提取方法从图像数据中提取该变形区域对应的区域特征值。例如,对笔画进行水平/垂直方向伸缩的变形,例如图3中的变形字“生”,可以采用投影法或直接扫描的方法,从对应的图像数据中提取变形区域1和变形区域2分别对应的区域特征值,对笔画进行旋转的变形,例如图2中的变形字“我”,可以采用提取骨架并做直线拟合的方法,从对应的图像数据中提取变形区域对应的区域特征值。
当嵌入点i对应的变形区域为一个时,将该区域特征值确定为该嵌入点i的特征值;当嵌入点i对应的变形区域为多个时,根据该多个变形区域分别对应的区域特征值以及设定的特征值函数,统计嵌入点i对应的特征值。例如,嵌入点i对应2个变形区域,这两个变形区域对应的区域特征值分别为v1和v2(该区域特征值可以是一个坐标值,也可以是一个向量),设定的特征值函数f(v1,v2)应能反应v1与v2的物理意义,当v1与v2表示坐标值时,可选用ei=f(v1,v2)=|v1±v2|或者
Figure G2008102244556D0000081
等。
上述过程是以待检测字符A只包括一个嵌入点进行说明的,如果待检测字符A包括多个嵌入点,则重复上面的过程,计算待检测字符A包括的多个嵌入点分别对应的特征值,也就是说,当待检测字符包括多个嵌入点时,该待检测字符对应的特征值也为多个。
步骤500、统计待检测字符A对应的标准字符a相应的嵌入点i的特征值es。
该步骤中,首先从系统(例如Windows)的标准字库中提取与待检测字符A的(内码+字体)对应的标准字符a的标准图像数据,然后,根据提取出的标准图像数据以及嵌入点i对应的变形区域以及每个变形区域的区域描述信息,统计标准字符a中相应的嵌入点i对应的特征值es。其中,统计特征值es的具体过程与上述步骤400中统计特征值ei所述的基本原理一致,此处不再详细描述。
上述过程是以待检测字符A只包括一个嵌入点进行说明的,如果待检测字符A包括多个嵌入点,例如包括嵌入点i以及嵌入点m,则需要重复上面的过程,计算标准字符a中相应的嵌入点i以及相应的嵌入点m分别对应的特征值。也就是说,待检测字符A对应的特征值数目与标准字符a对应的特征值数目一致,且一一对应。
进一步地,上述步骤400和步骤500的执行顺序可调换。
步骤600、判断待检测字符A中的嵌入点i对应的特征值ei和标准字符a中相应嵌入点i对应的特征值es是否一致,若一致,则执行步骤700;否则执行步骤800。
该步骤600中,判断特征值ei和特征值es是否一致,具体可以通过计算特征值ei和特征值es的相似度来判断,当计算得到的相似度在设定的阈值区间时,则确定特征值ei和特征值es一致,否则确定不一致,该阈值区间的选取具体视系统的精度等因素而定。其中,特征值ei和特征值es的相似度可以通过设定的相似度函数计算得到。例如,取相似度函数为特征值ei和特征值es间的欧氏距离,则计算公式为:
Figure G2008102244556D0000091
其中n为ei与es的维数。
进一步地,上述步骤600中,当待检测字符A中有多个嵌入点时,则需要将待检测字符A对应的多个嵌入点的特征值分别与标准字符a中相应的嵌入点的特征值进行比较,并且当得到的多个判断结果中至少有一个判断结果为不一致时,则确定待检测字符A的特征值和标准字符a的特征值不一致。
步骤700、确定待检测字符A没有发生变形。
步骤800、确定待检测字符A为变形字,根据特征值ei和特征值es之间的相似度,确定待检测字符A对应的水印信息。
该步骤800中,利用步骤600计算出的相似度结果确定待检测字符A对应的水印信息。设步骤600计算出的相似度为e,则判断e在预设的分段函数中对应的阈值区间,并确定该阈值区间在分段函数中对应的信息码值。具体地,可以根据设定的一组阈值T={t1,t2,t3......tm}和分段函数h(e,T)确定出该嵌入点的信息码值c,其中,阈值个数m可以是任意个,取决于对视觉效果、稳定性和嵌入容量的平衡,m越小,视觉效果越好,稳定性和嵌入容量越差;同理阈值的具体取值也由这3个指标平衡决定,一般来说,阈值的间隔越大稳定性越高,但相应的改动大,视觉效果变差。例如,取M=3,则有3个阈值:T={t1,t2,t3},c=h(e,T)。分段函数为:
h ( e , T ) = h ( e , t 1 , t 2 , t 3 ) = e 1 e < t 1 e 2 t 1 &le; e < t 2 e 3 t 2 &le; e < t 3 e 4 e &GreaterEqual; t 3
当相似度e位于t1与t2之间时,该嵌入点对应的信息码值c=h(e,T)=e2。
根据上述过程确定出信息码值后,根据嵌入水印信息时保存的信息码值与水印信息的对应关系,确定该信息码值对应的水印信息。
上述流程中,若步骤200确定出的待检测字符为多个,则针对每个待检测字符分别执行步骤400~步骤800。并且,步骤400中,待检测字符的外围矩形为归一化处理后的外围矩形,具体归一化过程可以为:将多个待检测字符的外围矩形的大小统一到一个设定大小,该设定的大小可以根据所有待检测字符的外围矩形的大小确定,例如取所有待检测字符的外围矩形的最大值;并且,将待检测字符的外围矩形通过统一的归一化坐标表示,即以每个字符的外围矩形的左上角为坐标原点,坐标轴可以以比特为单位。通过该归一化过程可以消除因打印、扫描等造成的图像大小不一致等问题。
下面,结合图3对本发明实施例中的变形字的检测过程以及变形字中水印信息的确定过程作进一步说明:
如图3所示的变形字“生”,嵌入点为“生”字的中间一横,提取该嵌入点对应的变形区域1的笔画端点的坐标值vi1(xi1,yi1)作为变形区域1的区域特征值,提取该嵌入点对应的变形区域2的笔画端点的坐标值vi2(xi2,yi2)作为变形区域2的区域特征值。预设的特征值函数
Figure G2008102244556D0000111
则此嵌入点对应的特征值
Figure G2008102244556D0000112
Figure G2008102244556D0000113
从系统的字库中提取标准字符“生”对应的标准图像数据,根据标准图像数据提取相应的嵌入点(“生”的中间一横)左边端点的坐标值vs1(xs1,ys1)作为该变形区域的区域特征值,提取相应的嵌入点(“生”的中间一横)左边端点的坐标值vs2(xs2,ys2)作为该变形区域的区域特征值。取与统计变形字“生”中的嵌入点对应的特征值时相同的特征值函数
Figure G2008102244556D0000114
则该标准字符“生”中相应的嵌入点对应的特征值
Figure G2008102244556D0000115
Figure G2008102244556D0000116
通过上述步骤中获得的ei值与es值后,计算两个特征值的相似度e,例如,相似度函数为:
g ( ei , es ) = &Sigma; k = 0 n ( ei k - es k ) 2
= ( xs 1 2 - xs 2 2 - xi 1 2 - xi 1 2 ) 2 + ( ys 1 2 - ys 2 2 - yi 1 2 - yi 1 2 ) 2 .
分段函数为:
h ( e , T ) = e 1 e < t 1 e 2 t 1 &le; e < t 2 e 3 t 2 &le; e < t 3 e 4 e &GreaterEqual; t 3 = 0 e < 5 1 5 &le; e < 9 2 9 &le; e < 14 3 e &GreaterEqual; 14
则假设计算出的e=18,则根据上述分段函数可得到信息码值c=h(e,T)=3。
下面,结合图2对本发明实施例中的变形字的检测过程以及变形字中水印信息的确定过程作进一步说明:
如图2所示的变形字“我”,嵌入点为“我”字右下角的勾,提取该嵌入点的斜率ei=pi弧度,作为该嵌入点的特征值。具体地,可以用扫描线扫描该区域,求扫描线与黑点区域的交集,变化不同的倾角扫描,可获得最合理的倾角;也可对该区域的黑点提取骨架,用骨架点做最小二乘拟合,可获得拟合直线,该直线的倾角即为勾的倾角;
从系统的字库中提取标准字符“我”对应的标准图像数据,根据标准图像数据提取相应的嵌入点(“我”的右下角的勾),提取相应的嵌入点的特征值为es=qs;
通过上述步骤中获得的ei值与es值后,计算两个特征值的相似度e,例如,相似度函数为:
g(ei,es)=|ei-es|;
分段函数为:
h ( e , T ) = e 1 e < t 1 e 2 t 1 &le; e < t 2 e 3 t 2 &le; e < t 3 e 4 e &GreaterEqual; t 3 = 0 e < &pi; / 32 1 &pi; / 32 &le; e < &pi; / 16 2 &pi; / 32 &le; e < &pi; / 8 3 e &GreaterEqual; &pi; / 8
则假设计算出的e=0.13,则根据上述分段函数可得到信息码值c=h(e,T)=1。
本发明实施例还提供了一种变形字的检测装置,如图5所示,一个实施例中,该检测装置包括:待检测字符确定单元501、变形描述信息获取单元502、特征值统计单元503以及变形字确定单元504。其中,
待检测字符确定单元501,用于根据预先指定的变形字集合,确定待检测图像中的待检测字符;
变形描述信息获取单元502,用于获取待检测字符对应的变形描述信息;
特征值统计单元503,用于根据变形描述信息获取单元502获取的变形描述信息以及待检测字符的外围矩形区域对应的图像数据,统计待检测字符的特征值;
变形字确定单元504,用于当特征值统计单元503统计出的待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,确定待检测字符为变形字。
一个实施例中,上述待检测字符确定单元501进一步用于,获取待检测图像中的字符分别对应的内码以及字体,当获取到的设定字符对应的内码以及字体与变形字集合中设定变形字对应的内码以及字体一致时,确定该设定字符为待检测字符。
一个实施例中,变形描述信息获取单元502获取到的变形描述信息包括:待检测字符对应的嵌入点的数目;上述特征值统计单元503进一步用于,当待检测字符对应的嵌入点为多个时,统计出该多个嵌入点分别对应的特征值作为该待检测字符的特征值。
一个实施例中,变形描述信息获取单元502获取到的变形描述信息还包括:变形字中每个嵌入点对应的变形区域以及每个变形区域的区域描述信息;上述特征值统计单元503进一步用于,根据变形区域的区域描述信息,确定该变形区域对应的区域特征值的提取方法,并根据确定出的提取方法从变形描述信息获取单元502获取到的图像数据中提取该变形区域对应的区域特征值;当该嵌入点对应的变形区域为一个时,将该区域特征值确定为该嵌入点的特征值;当该嵌入点对应的变形区域为多个时,根据该多个变形区域分别对应的区域特征值以及设定的特征值函数,统计该嵌入点对应的特征值。
一个实施例中,上述变形字确定单元504进一步用于,当待检测字符对应的嵌入点为多个、并且待检测字符对应的多个嵌入点分别对应的特征值和与该待检测字符对应的标准字符中相应嵌入点对应的特征值至少有一个不一致时,确定该待检测字符为变形字。
一个实施例中,上述变形描述信息获取单元502还用于,统计待检测字符对应的标准字符的特征值。
上述变形字的检测装置,如图6所示,还可以进一步包括归一化处理单元505,该单元用于当待检测字符为多个时,对该多个待检测字符的外围矩形进行归一化处理;相应地,上述特征值统计单元503进一步用于,根据变形描述信息获取单元502获取到的变形描述信息以及待检测字符归一化处理后的外围矩形区域对应的图像数据,统计待检测字符的特征值。
本发明实施例还提供了一种变形字中水印信息的确定装置,如图7所示,一个实施例中,该装置包括:待检测字符确定单元701、变形描述信息获取单元702、特征值统计单元703以及信息确定单元704。其中,
待检测字符确定单元701,用于根据预先指定的变形字集合,确定待检测图像中的待检测字符;
变形描述信息获取单元702,用于获取待检测字符确定单元701确定出的待检测字符对应的变形描述信息;
特征值统计单元703,用于根据变形描述信息获取单元702获取到的变形描述信息以及待检测字符的外围矩形区域对应的图像数据,统计待检测字符的特征值;
信息确定单元704,用于当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,根据该待检测字符的特征值和与该待检测字符对应的标准字符的特征值之间的相似度,确定该待检测字符对应的水印信息。
一个实施例中,变形描述信息获取单元702获取到的变形描述信息包括:待检测字符对应的嵌入点的数目;相应地,上述信息确定单元704进一步用于,根据设定的相似度函数计算待检测字符对应的多个嵌入点分别对应的特征值和对应的标准字符中相应嵌入点对应的特征值之间的相似度。
一个实施例中,上述信息确定单元704进一步用于,判断两个特征值的相似度在预设的分段函数中对应的阈值区间,并确定该阈值区间在所述分段函数中对应的信息码值,并根据预设的信息码值与水印信息的对应关系,确定该信息码值对应的水印信息。
本发明实施例通过上述技术方案,在检测变形字的过程中,首先根据预先指定的变形字集合,确定出待检测图像中的待检测字符,然后统计出待检测字符对应的特征值,并将统计出的待检测字符的特征值和与待检测字符对应的标准字符的特征值进行比较,当比较结果为不一致时,确定待检测字符为变形字。与现有技术相比,检测过程无需借助于人工或OCR技术完成,对变形字的检测结果准确度高,自动化程度高。并且,对变形字的变形程度要求低,从而提高了水印信息的隐蔽性。
进一步地,本发明实施例中,当确定出变形字后,根据该变形字的特征值和相应的标准字符的特征值之间的相似度,确定该变形字对应的水印信息,从而可以根据变形字的变形程度精确地确定出变形字对应的水印信息,提高了变形字中可嵌入的水印信息的信息量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种变形字的检测方法,其特征在于,包括:
根据预先指定的变形字集合,确定待检测图像中的待检测字符;
获取所述待检测字符对应的变形描述信息;
根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,确定所述待检测字符为变形字。
2.如权利要求1所述的方法,其特征在于,所述变形字集合中的变形字通过该变形字对应的内码以及字体进行标识;
根据预先指定的变形字集合,确定待检测图像中的待检测字符,包括:
获取所述待检测图像中的字符分别对应的内码以及字体;
当获取到的设定字符对应的内码以及字体与所述变形字集合中设定变形字对应的内码以及字体一致时,确定所述设定字符为待检测字符。
3.如权利要求1所述的方法,其特征在于,所述待检测字符的变形描述信息包括:所述待检测字符对应的嵌入点的数目;
当所述待检测字符对应的嵌入点为多个时,统计出的所述待检测字符的特征值包括:与所述多个嵌入点分别对应的特征值。
4.如权利要求3所述的方法,其特征在于,当所述待检测字符对应的嵌入点为多个时,所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致,包括:
所述待检测字符对应的多个嵌入点分别对应的特征值和所述标准字符中相应嵌入点对应的特征值至少有一个不一致。
5.如权利要求3所述的方法,其特征在于,所述待检测字符的变形描述信息还包括:所述嵌入点对应的变形区域以及每个变形区域的区域描述信息;
根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值,包括:
根据所述变形区域的区域描述信息,确定所述变形区域对应的区域特征值的提取方法;
根据确定出的所述提取方法从所述图像数据中提取所述变形区域对应的区域特征值;
当所述嵌入点对应的变形区域为一个时,将所述区域特征值确定为所述嵌入点的特征值;当所述嵌入点对应的变形区域为多个时,根据所述多个变形区域分别对应的区域特征值以及设定的特征值函数,统计所述嵌入点对应的特征值。
6.如权利要求1所述的方法,其特征在于,当所述待检测字符为多个时,在统计所述待检测字符的特征值之前,还包括:
对所述多个待检测字符的外围矩形进行归一化处理;
根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值,具体为:
根据所述变形描述信息以及所述待检测字符归一化处理后的外围区域对应的图像数据,统计所述待检测字符的特征值。
7.一种变形字中水印信息的确定方法,其特征在于,包括:
根据预先指定的变形字集合,确定待检测图像中的待检测字符;
获取所述待检测字符对应的变形描述信息;
根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,根据所述待检测字符的特征值和所述标准字符的特征值之间的相似度,确定所述待检测字符对应的水印信息。
8.如权利要求7所述的方法,其特征在于,根据所述待检测字符的特征值和所述标准字符的特征值之间的相似度,确定所述待检测字符对应的水印信息,包括:
判断所述相似度在预设的分段函数中对应的阈值区间,并确定该阈值区间在所述分段函数中对应的信息码值;
根据预设的信息码值与水印信息的对应关系,确定所述信息码值对应的水印信息。
9.一种变形字的检测装置,其特征在于,包括:
待检测字符确定单元,用于根据预先指定的变形字集合,确定待检测图像中的待检测字符;
变形描述信息获取单元,用于获取所述待检测字符对应的变形描述信息;
特征值统计单元,用于根据所述变形描述信息获取单元获取的变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
变形字确定单元,用于当所述特征值统计单元统计出的待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,确定所述待检测字符为变形字。
10.如权利要求9所述的装置,其特征在于,所述待检测字符确定单元,进一步用于,获取所述待检测图像中的字符分别对应的内码以及字体,当获取到的设定字符对应的内码以及字体与所述变形字集合中设定变形字对应的内码以及字体一致时,确定所述设定字符为待检测字符。
11.如权利要求9所述的装置,其特征在于,所述变形描述信息获取单元获取到的变形描述信息包括:所述待检测字符对应的嵌入点的数目;
所述特征值统计单元进一步用于,当所述待检测字符对应的嵌入点为多个时,统计出所述多个嵌入点分别对应的特征值作为所述待检测字符的特征值。
12.如权利要求11所述的装置,其特征在于,所述变形描述信息获取单元获取到的变形描述信息还包括:所述嵌入点对应的变形区域以及每个变形区域的区域描述信息;
所述特征值统计单元进一步用于,根据所述变形区域的区域描述信息,确定所述变形区域对应的区域特征值的提取方法,并根据确定出的提取方法从所述图像数据中提取所述变形区域对应的区域特征值;当所述嵌入点对应的变形区域为一个时,将所述区域特征值确定为所述嵌入点的特征值;当所述嵌入点对应的变形区域为多个时,根据所述多个变形区域分别对应的区域特征值以及设定的特征值函数,统计所述嵌入点对应的特征值。
13.如权利要求9所述的装置,其特征在于,所述变形字确定单元,进一步用于,当所述待检测字符对应的嵌入点为多个、并且所述待检测字符对应的多个嵌入点分别对应的特征值和所述标准字符中相应嵌入点对应的特征值至少有一个不一致时,确定所述待检测字符为变形字。
14.如权利要求9所述的装置,其特征在于,还包括:
归一化处理单元,用于当所述待检测字符为多个时,对所述多个待检测字符的外围矩形进行归一化处理;
所述特征值统计单元进一步用于,根据所述变形描述信息以及所述待检测字符归一化处理后的外围区域对应的图像数据,统计所述待检测字符的特征值。
15.一种变形字中水印信息的确定装置,其特征在于,包括:
待检测字符确定单元,用于根据预先指定的变形字集合,确定待检测图像中的待检测字符;
变形描述信息获取单元,用于获取所述待检测字符对应的变形描述信息;
特征值统计单元,用于根据所述变形描述信息以及所述待检测字符的外围区域对应的图像数据,统计所述待检测字符的特征值;
信息确定单元,用于当所述待检测字符的特征值和与该待检测字符对应的标准字符的特征值不一致时,根据所述待检测字符的特征值和所述标准字符的特征值之间的相似度,确定所述待检测字符对应的水印信息。
16.如权利要求15所述的装置,其特征在于,所述信息确定单元进一步用于,判断所述相似度在预设的分段函数中对应的阈值区间,并确定该阈值区间在所述分段函数中对应的信息码值,根据预设的信息码值与水印信息的对应关系,确定所述信息码值对应的水印信息。
CN2008102244556A 2008-10-15 2008-10-15 变形字的检测方法、变形字中水印信息的确定方法及装置 Expired - Fee Related CN101727579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102244556A CN101727579B (zh) 2008-10-15 2008-10-15 变形字的检测方法、变形字中水印信息的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102244556A CN101727579B (zh) 2008-10-15 2008-10-15 变形字的检测方法、变形字中水印信息的确定方法及装置

Publications (2)

Publication Number Publication Date
CN101727579A true CN101727579A (zh) 2010-06-09
CN101727579B CN101727579B (zh) 2012-01-11

Family

ID=42448453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102244556A Expired - Fee Related CN101727579B (zh) 2008-10-15 2008-10-15 变形字的检测方法、变形字中水印信息的确定方法及装置

Country Status (1)

Country Link
CN (1) CN101727579B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503954A (zh) * 2014-12-11 2015-04-08 康佳集团股份有限公司 一种文字组合显示方法及显示系统
CN109753968A (zh) * 2019-01-11 2019-05-14 北京字节跳动网络技术有限公司 字符识别模型的生成方法、装置、设备及介质
CN110197180A (zh) * 2019-05-30 2019-09-03 新华三技术有限公司 字符缺陷检测方法、装置及设备
CN112528624A (zh) * 2019-09-03 2021-03-19 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN116824598A (zh) * 2023-08-24 2023-09-29 强企宝典(山东)信息科技有限公司 数字化文字作品版权保护的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI277058B (en) * 2002-08-30 2007-03-21 Seiko Epson Corp Font processing device, terminal, font processing method and font processing program
CN100388309C (zh) * 2006-06-21 2008-05-14 北京交通大学 基于数字水印技术的印刷域商标防伪方法
CN100382098C (zh) * 2006-09-08 2008-04-16 华南理工大学 手写汉字首末笔段的联机提取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503954A (zh) * 2014-12-11 2015-04-08 康佳集团股份有限公司 一种文字组合显示方法及显示系统
CN109753968A (zh) * 2019-01-11 2019-05-14 北京字节跳动网络技术有限公司 字符识别模型的生成方法、装置、设备及介质
CN110197180A (zh) * 2019-05-30 2019-09-03 新华三技术有限公司 字符缺陷检测方法、装置及设备
CN110197180B (zh) * 2019-05-30 2022-03-01 新华三技术有限公司 字符缺陷检测方法、装置及设备
CN112528624A (zh) * 2019-09-03 2021-03-19 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN112528624B (zh) * 2019-09-03 2024-05-14 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN116824598A (zh) * 2023-08-24 2023-09-29 强企宝典(山东)信息科技有限公司 数字化文字作品版权保护的方法及装置
CN116824598B (zh) * 2023-08-24 2023-10-31 强企宝典(山东)信息科技有限公司 数字化文字作品版权保护的方法及装置

Also Published As

Publication number Publication date
CN101727579B (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US11538235B2 (en) Methods and apparatus to determine the dimensions of a region of interest of a target object from an image using target object landmarks
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US7999657B2 (en) Image registration method for image comparison and document authentication
CN101957919B (zh) 基于图像局部特征检索的文字识别方法
CN101377847B (zh) 一种文档图像的配准及特征点选取方法
Garz et al. Layout analysis for historical manuscripts using sift features
JP2000200321A (ja) 2次元バ―コ―ドを場所検知し及び読取るための方法
CN106874968B (zh) 一种二代身份证真伪鉴别方法
CN101727579B (zh) 变形字的检测方法、变形字中水印信息的确定方法及装置
WO2014086277A1 (zh) 方便电子化的专业笔记本及其页码自动识别方法
JPH01253077A (ja) 文字列検出方法
TWI751426B (zh) 影像處理系統、影像處理方法及程式產品
CN113887484B (zh) 一种卡片式文件图像识别方法和装置
Tardón et al. Optical music recognition for scores written in white mensural notation
CN110555435B (zh) 一种点读互动实现方法
Wu et al. A printer forensics method using halftone dot arrangement model
CN111046770B (zh) 一种照片档案人物自动标注方法
JP4140221B2 (ja) 画像照合装置および画像照合プログラム
JP4541995B2 (ja) 図形認識方法
CN111898402A (zh) 一种智能排版系统
Aouadi et al. Word spotting for arabic handwritten historical document retrieval using generalized hough transform
Liu et al. Document image retrieval based on density distribution feature and key block feature

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS CHIEF INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS CHIEF INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120111