CN112818301A - Ofd版式电子文档的隐藏信息嵌入及提取方法、装置 - Google Patents

Ofd版式电子文档的隐藏信息嵌入及提取方法、装置 Download PDF

Info

Publication number
CN112818301A
CN112818301A CN202110126308.0A CN202110126308A CN112818301A CN 112818301 A CN112818301 A CN 112818301A CN 202110126308 A CN202110126308 A CN 202110126308A CN 112818301 A CN112818301 A CN 112818301A
Authority
CN
China
Prior art keywords
hidden information
electronic document
font
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110126308.0A
Other languages
English (en)
Inventor
孙高健
陆猛
赵云
庄玉龙
朱静宇
张伟
谢文迅
孙肖辉
郭尚
杨瑞钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dianju Information Technology Co ltd
Original Assignee
Beijing Dianju Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dianju Information Technology Co ltd filed Critical Beijing Dianju Information Technology Co ltd
Priority to CN202110126308.0A priority Critical patent/CN112818301A/zh
Publication of CN112818301A publication Critical patent/CN112818301A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种OFD版式电子文档的隐藏信息嵌入及提取方法、装置。本发明能够将与用户关联的隐藏信息嵌入OFD版式电子文档中,并能够从OFD版式电子文档中提取出隐藏信息,从而实现OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等,保障OFD版式电子文档安全;并且,本发明将隐藏信息编码的标志位与电子文档中的字符进行映射,并根据标志位取值来动态地改变OFD版式电子文档中字符的字体,而且原始字体与改变后字体相似度高,从而使得隐藏信息不易被察觉,提高隐藏信息的隐蔽性;此外,本发明隐藏的信息容量大,并且隐藏信息提取效率高。

Description

OFD版式电子文档的隐藏信息嵌入及提取方法、装置
技术领域
本发明涉及信息安全技术领域,具体涉及一种OFD版式电子文档的隐藏信息嵌入及提取方法、装置、计算设备及存储介质。
背景技术
OFD(Open Fixed-layout Document)版式是由中国自主研发,独立于软件、硬件、操作系统、输出设备的版式文档格式,其具体为一种国家版式文档格式规范。OFD版式电子文档是一种格式独立、版面固定、固化呈现的电子文档。由于其具有不易被修改、在不同设备中显示效果不变等特点得到广泛应用。
目前针对OFD版式电子文档的盗用情况时有发生,但现有技术在OFD版式电子文档被盗用后无法精准地定位泄密者,从而严重威胁OFD版式电子文档的安全。
发明内容
为解决上述问题,本发明提供了一种OFD版式电子文档的隐藏信息嵌入及提取方法、装置、计算设备及存储介质。
第一方面,本发明公开了一种OFD版式电子文档的隐藏信息嵌入方法,所述方法包括:获取电子文档;根据用户信息生成隐藏信息编码;其中,所述隐藏信息编码包含多个标志位;建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系;针对于任一标志位,根据该标志位的取值确定该标志位映射的字符是否为目标字符;将所述电子文档中目标字符的字体由原始字体更改为预设字体;其中,所述原始字体与所述预设字体相似度大于预设阈值。
一种可选的实施方式中,所述建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系进一步包括:
从所述电子文档中提取出目标区块,建立所述隐藏信息编码中各个标志位与所述目标区块中字符的映射关系;其中,所述目标区块中字符个数与隐藏信息编码中标志位个数一致;
和/或,将所述电子文档划分为多个区块,针对于任一区块,建立所述隐藏信息编码中各个标志位与该区块中字符的映射关系;其中,每个区块中字符个数与隐藏信息编码中标志位个数一致。
一种可选的实施方式中,所述隐藏信息编码为二进制编码;则所述根据该标志位的取值确定该标志位映射的字符是否为目标字符进一步包括:若该标志位的取值为1,则确定该标志位映射的字符为目标字符。
第二方面,本发明公开了一种OFD版式电子文档的隐藏信息提取方法,所述方法包括:获取电子文档对应的文档图像;对所述文档图像进行图像处理,以识别出所述文档图像包含的多个字符;识别所述多个字符中每个字符的字体;根据所述每个字符的字体,确定每个字符映射的标志位取值;根据所述多个字符的排列顺序以及每个字符映射的标志位取值,提取隐藏信息编码;其中,所述隐藏信息编码包含多个标志位。
一种可选的实施方式中,所述根据所述每个字符的字体,确定每个字符映射的标志位取值进一步包括:若字符的字体为预设字体,则该字体映射的标志位取值为1;若字符的字体不是预设字体,则该字体映射的标志位取值为0。
一种可选的实施方式中,所述方法还包括:根据提取出的隐藏信息编码,识别所述文档图像对应的电子文档来源。
第三方面,本发明公开了一种OFD版式电子文档的隐藏信息嵌入装置,所述装置包括:
编码生成模块,用于根据用户信息生成隐藏信息编码;其中,所述隐藏信息编码包含多个标志位;
文档获取模块,用于获取电子文档;
映射关系建立模块,用于建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系;
目标字符识别模块,用于针对于任一标志位,根据该标志位的取值确定该标志位映射的字符是否为目标字符;
字体更改模块,用于将所述电子文档中目标字符的字体更改为预设字体。
一种可选的实施方式中,映射关系建立模块进一步用于:从所述电子文档中提取出目标区块,建立所述隐藏信息编码中各个标志位与所述目标区块中字符的映射关系;其中,所述目标区块中字符个数与隐藏信息编码中标志位个数一致;
和/或,将所述电子文档划分为多个区块,针对于任一区块,建立所述隐藏信息编码中各个标志位与该区块中字符的映射关系;其中,每个区块中字符个数与隐藏信息编码中标志位个数一致。
一种可选的实施方式中,所述隐藏信息编码为二进制编码;目标字符识别模块进一步用于:若该标志位的取值为1,则确定该标志位映射的字符为目标字符。
第四方面,本发明公开了一种OFD版式电子文档的隐藏信息提取装置,所述装置包括:
文档图像获取模块,用于获取电子文档对应的文档图像;
字符识别模块,用于对所述文档图像进行图像处理,以识别出所述文档图像包含的多个字符;
字体识别模块,用于识别所述多个字符中每个字符的字体;
标志位取值确定模块,用于根据所述每个字符的字体,确定每个字符映射的标志位取值;
编码提取模块,用于根据所述多个字符的排列顺序以及每个字符映射的标志位取值,提取隐藏信息编码;其中,所述隐藏信息编码包含多个标志位。
一种可选的实施方式中,标志位取值确定模块具体用于:若字符的字体为预设字体,则该字体映射的标志位取值为1;若字符的字体不是预设字体,则该字体映射的标志位取值为0。
一种可选的实施方式中,该装置还包括:来源识别模块,用于根据提取出的隐藏信息编码,识别所述文档图像对应的电子文档来源。
第五方面,本发明公开了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述OFD版式电子文档的隐藏信息嵌入方法对应的操作;和/或,所述可执行指令使所述处理器执行上述OFD版式电子文档的隐藏信息提取方法对应的操作。
第六方面,本发明公开了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述OFD版式电子文档的隐藏信息嵌入方法对应的操作;和/或,所述可执行指令使处理器执行上述OFD版式电子文档的隐藏信息提取方法对应的操作。
本发明公开了一种OFD版式电子文档的隐藏信息嵌入及提取方法、装置、计算设备及存储介质。本发明能够将与用户关联的隐藏信息嵌入OFD版式电子文档中,并能够从OFD版式电子文档中提取出隐藏信息,从而实现OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等;并且,本发明将隐藏信息编码的标志位与OFD版式电子文档中的字符进行映射,并根据标志位取值来动态地改变OFD版式电子文档中字符的字体,而且原始字体与改变后字体相似度高,从而使得隐藏信息不易被察觉,提高隐藏信息的隐蔽性;此外,本发明中隐藏的信息容量大,并且隐藏信息提取效率高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图:
图1为本发明实施例一提供的一种OFD版式电子文档的隐藏信息嵌入方法的流程图;
图2为本发明实施例一提供的一种预设字体示意图;
图3为本发明实施例二提供的一种OFD版式电子文档的隐藏信息提取方法的流程图;
图4为本发明实施例三提供的一种OFD版式电子文档的隐藏信息嵌入装置的结构图;
图5为本发明实施例四提供的一种OFD版式电子文档的隐藏信息提取装置的结构图;
图6为本发明实施例六提供的一种计算设备的结构图;
图7为本发明实施例七提供的一种OFD版式电子文档的隐藏信息处理系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
实施例一
图1为本发明实施例一提供的一种OFD版式电子文档的隐藏信息嵌入方法的流程图。本实施例所提供的OFD版式电子文档的隐藏信息嵌入方法能够将与用户关联的隐藏信息嵌入OFD版式电子文档中,从而便于OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等。
如图1所示,本实施例提供的隐藏信息嵌入方法具体包括如下步骤:
步骤S101,获取电子文档。
本发明中所述的电子文档具体为OFD版式电子文档。
可选的,随着电子文档的广泛应用,用户设备中的电子文档数量也不断增加,若将用户设备中存储的所有电子文档均作为待嵌入隐藏信息的电子文档,则将造成大量计算资源的浪费。基于此,本实施例通过以下识别方式中的一种或多种的组合来从用户设备存储的电子文档中识别出待嵌入隐藏信息的电子文档。
在一种可选的电子文档识别方式中,根据用户操作来确定待嵌入隐藏信息的电子文档。例如,在版权鉴定及防伪识别场景中,响应于用户的隐藏信息嵌入指令,呈现当前用户设备中可供选择的电子文档选项,继而根据用户针对电子文档选项的选择操作,识别出待嵌入隐藏信息的电子文档。采用该种电子文档识别方式能够根据用户需求来确定待嵌入隐藏信息的电子文档,从而满足不同用户的个性化需求,提升用户体验。
在又一种可选的电子文档识别方式中,根据电子文档的安全级别确定待嵌入隐藏信息的电子文档,电子文档的安全级别正相关于该电子文档的重要程度。例如,在泄密溯源场景中,可根据用户配置或者文档类型等为用户设备中的电子文档分配对应的安全级别,继而将安全级别为“中”或“高”的电子文档作为待嵌入隐藏信息的电子文档。在该种识别方式中,无需用户选择操作即可自动地识别出待嵌入隐藏信息的电子文档,从而简化用户操作;并且根据电子文档的安全级别确定待嵌入隐藏信息的电子文档,能够有效保障重要电子文档的安全性。
步骤S102,根据用户信息生成隐藏信息编码;其中,隐藏信息编码包含多个标志位。
为了便于根据隐藏信息来识别文档来源,以快速地确定出电子文档所对应的版权所有者,文档真伪结果和/或泄密用户等等,本实施例具体利用用户信息来生成隐藏信息。在不同的应用场景中,生成隐藏信息所需的用户信息也存在差异。举例来说,在版权鉴定场景中,用户信息具体为版权所有者的相关信息,如版权所有者的用户ID及版权号等等;在防伪识别场景中,用户信息具体为防伪识别码;而在泄密溯源场景中,用户信息具体为使用电子文档的相关用户的信息等等。
进一步地,本实施例根据用户信息生成的隐藏信息具体以隐藏信息编码的形式呈现。在实际的实施过程中,可将用户信息进行相应的运算来获得隐藏信息编码。例如,可将字符形式的用户信息转换为对应的ASCII编码值,在进行整型转换后,以二进制形式输出隐藏信息编码。
生成的隐藏信息编码包含多个标志位,每个标志位具有相应的取值。以隐藏信息编码为二进制编码为例,每个标志位取值为0或者1。
一种可选的实施方式中,为了便于后续隐藏信息的快速提取,本步骤生成的隐藏信息编码具体包含有起始标志位、内容标志位及终止标志位。不同的隐藏信息编码的起止标志位的取值相同,从而能够在隐藏信息提取过程中快速地确定出隐藏信息编码的起始位置;同理,不同的隐藏信息编码的终止标志位的取值相同,从而能够在隐藏信息提取过程中快速地确定出隐藏信息编码的结束位置。此外,不同的隐藏信息编码的内容标志位的取值不同。
进一步可选的,内容标志位中可以进一步包括内容主体标志位及校验位。其中,内容主体标志位的取值根据用户信息确定,而校验位的取值根据内容主体标志位的取值确定。采用该校验位能够有效检测出隐藏信息编码是否受到了恶意篡改。在实际的实施过程中,内容标志位可以分为多组,每组中包含多个内容主体标志及一个校验位,该一个校验位的取值根据该组其他多个内容主体标志的取值确定,采用该种方式能够快速地定位出隐藏信息编码发生篡改的位置。
以下以隐藏信息编码为48位的二进制编码为例来详细阐明隐藏信息编码的具体生成过程:
将用户信息转换为32位二进制码“10011101011010111010010100010110”,将该32位二进制码分别作为隐藏信息编码中32个内容主体标志位的取值。该32个内容主体标志位依次划分为4组,每组8个内容主体标志位。根据每组中8个内容主体标志位的取值计算该组中校验位的取值,进一步按照“8个内容主体标志位+1个校验位”的排列方式获得该组的9个内容标志位的取值,依次类推能够获得36位内容标志位的取值。进一步,将该36位内容标志位与6个起始标志位“111111”及6个终止标志位“110011”组合后生成48位隐藏信息编码。
其中,步骤S101及步骤S102可以并发执行,也可以按照先执行步骤S101或先执行步骤S102的次序顺次执行。本实施例对此不作限定。
步骤S103,建立隐藏信息编码中各个标志位与电子文档中字符的映射关系。
隐藏信息编码中每个标志位均与电子文档中的一个或多个字符具有映射关系。该字符具体为汉字或字母等。其中,映射关系的具体建立方式可采用以下方式中的一种或多种的组合:
建立方式一:从电子文档中提取出目标区块,建立隐藏信息编码中各个标志位与目标区块中字符的映射关系。
在该建立方式中,首先从电子文档中提取出目标区块,该目标区块具体为电子文档中的核心内容。目标区块中字符个数与隐藏信息编码中标志位个数一致。进一步建立隐藏信息编码中各个标志位与目标区块中字符的映射关系,目标区块中字符的排序次序与映射的标志位的排序次序一致。例如,将目标区块中第i个字符与隐藏信息编码中第i个标志位进行映射,1≤i≤隐藏信息编码中标志位个数。采用该种建立方式,在电子文档中的核心内容嵌入隐藏信息编码,大幅降低计算数据量,提升整体效率,并保障电子文档核心内容的安全性。
建立方式二:将电子文档划分为多个区块,针对于任一区块,建立隐藏信息编码中各个标志位与该区块中字符的映射关系。
在该建立方式中,可以先统计电子文档的总字符个数,并将该总字符个数对隐藏信息编码中标志位个数进行取余处理,根据取余处理获得的余数对电子文档中的部分字符进行剔除,剔除的字符个数与上述余数相同。继而将剔除后的电子文档平均划分为多个区块,每个区块中字符个数与隐藏信息编码中标志位个数一致。继而针对每个区块,建立隐藏信息编码中各个标志位与该区块中字符的映射关系。各个区块中字符的排序次序与映射的标志位的排序次序一致。例如,电子文档包含4802个字符,隐藏信息编码为48位二进制编码(即包含48个标志位),文档字符总数对标志位总数取余后为2,则剔除电子文档的首字符及尾字符共2个字符,剔除后获得4800个字符,进一步将该4800个字符依次划分为100个包含48个字符的区块,针对于每个区块,将该区块中第i个字符与隐藏信息编码中第i个标志位进行映射,1≤i≤隐藏信息编码中标志位个数。采用该建立方式,在隐藏信息提取过程中仅需获取电子文档中的片段即可提取隐藏信息,从而提升隐藏信息的提取效率。
步骤S104,针对于任一标志位,根据该标志位的取值确定该标志位映射的字符是否为目标字符。
目标字符为后续进行字体更改的字符。以隐藏信息编码为二进制编码为例,若标志位的取值为1,则确定该标志位映射的字符为目标字符;若标志位的取值为0,则确定该标志位映射的字符不是目标字符。
步骤S105,将电子文档中目标字符的字体由原始字体更改为预设字体;其中,原始字体与预设字体相似度大于预设阈值。
通过步骤S104的实施能够获得电子文档中所包含的目标字符,本步骤将电子文档中目标字符进行字体替换。在字体替换过程中,先识别目标字符的原始字体,继而从预先构建的预设字体库中查找与该原始字体相似度高的预设字体,并将目标字符的字体由原始字体更改为预设字体。由于目标字符的原始字体与预设字体相似度高,从而在字体更改后不影响用户的视觉体验。此外,电子文档中的非目标字符保持原始字体不变。
一种可选的实施方式中,预设字体并非是为用户提供的字体,而是为实现信息隐藏而额外配置的专属字体。从而在本步骤实施之前,预先根据现有的为用户提供的字体来生成预设字体,并将预设字体存储至预设字体库中。例如,根据现有的楷体生成预设字体1,根据现有的宋体生成预设字体2等等。现有字体与其对应的预设字体之间相似度高于预设阈值。
其中,在根据现有字体生成预设字体过程中可以采用人工配置的方式实现。然而采用该种方式预设字体的生成效率十分低下,并且具有人工成本高的弊端。为避免该技术弊端,本实施例具体采用以下方式实现预设字体的自动生成:
针对于任一现有字体中的字符,识别该字体下字符的笔画,继而移动至少一个笔画的位置以生成预设字体下的字符,其中移动幅度小于预设幅度。由于对现有字体中字体笔画位置的移动幅度微小,从而生成的预设字体与现有字体相似度较高,用户肉眼并无法分辨两者的区别。如图2所示,针对于现有楷体中的字符“二”,先识别出该字符的笔画为上笔画及下笔画,继而将下笔画的位置向下微调,从而生成预设字体1中的字符“二”。在此,本领域技术人员应当理解的是,图2仅仅是为展示两种不同的字体而做出的示例性呈现,在实际的实施过程中,现有楷体中的字符“二”与预设字体1中的字符“二”相似度高,用户肉眼并无法分辨两者的区别。
采用本实施例提供的OFD版式电子文档的隐藏信息嵌入方法,能够将与用户关联的隐藏信息嵌入到OFD版式电子文档中,从而便于OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等,保障电子文档的安全;而且本实施例将隐藏信息编码的标志位与OFD版式电子文档中的字符进行映射,并根据标志位取值来动态地改变OFD版式电子文档中字符的字体,而且原始字体与改变后字体相似度高,从而使得隐藏信息不易被察觉,提高隐藏信息的隐蔽性;此外,本实施例中隐藏的信息容量大,并且便于隐藏信息的提取。
实施例二
图3为本发明实施例二提供的一种OFD版式电子文档的隐藏信息提取方法的流程图。本实施例所提供的OFD版式电子文档的隐藏信息提取方法与实施例一提供的OFD版式电子文档的隐藏信息嵌入方法相对应。本实施例能够从OFD版式电子文档中提取出隐藏信息,继而实现对OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等。
如图3所示,本实施例提供的隐藏信息提取方法具体包括如下步骤:
步骤S301,获取电子文档对应的文档图像。
其中,该文档图像可以是针对电子文档本身的图像,例如通过电子文档所在设备中的截图软件获得的图像;或者,该文档图像还可以为通过外部图像采集设备获得的图像,如通过外部摄像头拍摄电子文档设备显示屏中显示的电子文档而获得的图像;此外,文档图像还可以是电子文档打印件、扫描件、复印件的图像等等。并且,电子文档对应的文档图像可以是包含电子文档所有内容的完整图像,也可以是电子文档中某片段的文档图像。本实施例对此不作限定。
步骤S302,对文档图像进行图像处理,以识别出文档图像包含的多个字符。
对字符的识别可采用OCR字符识别方式。具体先将文档图像进行二值化处理以获得二值化文档图像。具体是将文档图像中各像素点的灰度值与预设灰度阈值进行比对,若像素点的灰度值大于或等于该预设灰度阈值,则确定该像素点的二值化灰度为255;若像素点的灰度值小于该预设灰度阈值,则确定该像素点的二值化灰度为0。通过对文档图像的二值化处理能够凸显文档图像中字符的轮廓信息,并能够避免字符颜色对后续字符识别的干扰。
进一步地,针对于二值化文档图像进行去噪处理,如剔除背景纹理等。并对文档图像进行倾斜校准处理后,对文档图像进行字符分割。通过对字符的分割能够获得各个独立字符,从而针对于每个独立字符进行字符匹配,最终识别出文档图像包含的字符。
步骤S303,识别多个字符中每个字符的字体。
本步骤可以与步骤S302顺序执行或并发执行。优选的,本实施例可将步骤S302与步骤S303并发执行,例如,文档图像进行字符分割后获得多个独立字符,在对每个独立字符进行字符匹配过程中,具体是将图像中的字符与字体库中的字符进行匹配。从而在匹配过程中可直接获得每个字符的字体。例如,若图像中字符与楷体中某字符相匹配,则确定图像中该字符的字体为楷体;同理,若图像中字符与预设字体1中某字符相匹配,则确定图像中该字符的字体为预设字体1。
步骤S304,根据每个字符的字体,确定每个字符映射的标志位取值。
电子文档中嵌入有隐藏信息编码,隐藏信息编码包含多个标志位,电子文档中的字符具有相映射的标志位。根据字符的字体能够确定出相映射的标志位的标志位取值。以嵌入的隐藏信息编码为二进制编码为例,若字符的字体为预设字体,则该字体映射的标志位取值为1;若字符的字体不是预设字体,则该字体映射的标志位取值为0。该预设字体是为实现信息隐藏而额外配置的专属字体。
步骤S305,根据多个字符的排列顺序以及每个字符映射的标志位取值,提取隐藏信息编码;其中,隐藏信息编码包含多个标志位。
通过步骤S304可以获得文档图像中各字符所对应的标志位取值,结合文档图像中字符的排列顺序,可将文档图像转换为相应的候选编码。该候选编码中每一位均对应于一个字符。进一步地针对于获得的候选编码,从该候选编码中识别出起始标志位以及终止标志位,继而根据起始标志位以及终止标志位,从候选编码中识别出隐藏信息编码。
举例来说,文档图像包含60个字符,根据该60个字符的排列顺序及对应的字体获得的候选编码为60位的二进制编码“100111011111101001110101101011101001010001011011001110101001”,进一步根据预设的起始标志位“111111”及预设的终止标志位“110011”从该候选编码中确定出候选编码中第8位为隐藏信息编码的起始位,候选编码中第52位为隐藏信息编码的终止位,从而将起始位及终止位之间的编码(包含起始位及终止位)作为隐藏信息编码,最终获得隐藏信息编码“1111110100111010110101110100101000101101100 11”。
一种可选的实施方式中,若从该候选编码中无法识别出起始标志位以及终止标志位,则进一步执行步骤S301以获取电子文档的另一文档图像,并进一步执行步骤S302-步骤S305,依次循环,直至能够完整提取出隐藏信息编码。
在提取出隐藏信息编码之后,根据提取出的隐藏信息编码,识别文档图像对应的电子文档来源。具体地,可根据预先记录的隐藏信息编码与用户信息的对应关系,查找出该隐藏信息编码所对应的用户信息;又或者可将隐藏信息编码剔除起始标志位、终止标志位及校验位之后,进一步进行逆向处理(如将二进制码转换为相应字符)从而得到用户信息。最终确定文档图像对应的电子文档来源。
在确定出电子文档来源之后,能够快速地确定出文档图像对应的电子文档的版权归属,例如确定出该电子文档来源即为版权所有者;还可以确定出文档图像对应的电子文档的真伪,例如将该电子文档来源与防伪码进行比对,若比对一致则确定该电子文档为真,否则确定该电子文档为假;还可以确定出文档图像对应的电子文档的泄密用户,例如确定出该电子文档来源所指向的用户即为泄密用户,等等。
采用本实施例提供的OFD版式电子文档的隐藏信息提取方法,能够从OFD版式电子文档中提取出与用户关联的隐藏信息,从而便于OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等;并且本实施例依据文档图像中字符的排序顺序及映射的标志位取值来进行隐藏信息编码的提取,提取过程简单高效,并且在提取过程中不影响原有文档图像的显示,保障用户体验。
实施例三
图4为本发明实施例三提供的一种OFD版式电子文档的隐藏信息嵌入装置的结构图。如图4中所示,OFD版式电子文档的隐藏信息嵌入装置400包括:编码生成模块401、文档获取模块402、映射关系建立模块403、目标字符识别模块404、以及字体更改模块405。
具体地,各模块具体功能如下:
编码生成模块401,用于根据用户信息生成隐藏信息编码;其中,所述隐藏信息编码包含多个标志位;
文档获取模块402,用于获取电子文档;
映射关系建立模块403,用于建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系;
目标字符识别模块404,用于针对于任一标志位,根据该标志位的取值确定该标志位映射的字符是否为目标字符;
字体更改模块405,用于将所述电子文档中目标字符的字体更改为预设字体。
一种可选的实施方式中,映射关系建立模块403进一步用于:从所述电子文档中提取出目标区块,建立所述隐藏信息编码中各个标志位与所述目标区块中字符的映射关系;其中,所述目标区块中字符个数与隐藏信息编码中标志位个数一致;
和/或,将所述电子文档划分为多个区块,针对于任一区块,建立所述隐藏信息编码中各个标志位与该区块中字符的映射关系;其中,每个区块中字符个数与隐藏信息编码中标志位个数一致。
一种可选的实施方式中,所述隐藏信息编码为二进制编码;目标字符识别模块进一步用于:若该标志位的取值为1,则确定该标志位映射的字符为目标字符。
本实施例提供的隐藏信息嵌入装置中各模块的具体功能可以参照实施例一中隐藏信息嵌入方法的相应部分的描述,本实施例在此不做赘述。
采用本实施例提供的OFD版式电子文档的隐藏信息嵌入装置,能够将与用户关联的隐藏信息嵌入OFD版式电子文档中,从而便于OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等;并且,本装置将隐藏信息编码的标志位与OFD版式电子文档中的字符进行映射,并根据标志位取值来动态地改变OFD版式电子文档中字符的字体,而且原始字体与改变后字体相似度高,从而使得隐藏信息不易被察觉,提高隐藏信息的隐蔽性;此外,本装置中隐藏的信息容量大,并且便于隐藏信息的提取。
实施例四
图5为本发明实施例四提供的一种OFD版式电子文档的隐藏信息提取装置的结构图。如图5中所示,隐藏信息提取装置500包括:文档图像获取模块501、字符识别模块502、字体识别模块503、标志位取值确定模块504、以及编码提取模块505。
具体地,各模块具体功能如下:
文档图像获取模块501,用于获取电子文档对应的文档图像;
字符识别模块502,用于对所述文档图像进行图像处理,以识别出所述文档图像包含的多个字符;
字体识别模块503,用于识别所述多个字符中每个字符的字体;
标志位取值确定模块504,用于根据所述每个字符的字体,确定每个字符映射的标志位取值;
编码提取模块505,用于根据所述多个字符的排列顺序以及每个字符映射的标志位取值,提取隐藏信息编码;其中,所述隐藏信息编码包含多个标志位。
一种可选的实施方式中,标志位取值确定模块504具体用于:若字符的字体为预设字体,则该字体映射的标志位取值为1;若字符的字体不是预设字体,则该字体映射的标志位取值为0。
一种可选的实施方式中,该装置还包括:来源识别模块(图中未示出),用于根据提取出的隐藏信息编码,识别所述文档图像对应的电子文档来源。
本实施例提供的隐藏信息提取装置中各模块的具体功能可参照实施例二中隐藏信息提取方法的相应部分的描述,本实施例在此不做赘述。
采用本实施例提供的OFD版式电子文档的隐藏信息提取装置,能够从OFD版式电子文档中提取出与用户关联的隐藏信息,从而便于OFD版式电子文档的版权鉴定、防伪识别及泄密溯源等等;并且,本装置依据文档图像中字符的排序顺序及映射的标志位取值来进行隐藏信息编码的提取,提取过程简单高效,并且在提取过程中不影响原有文档图像的显示。
实施例五
本发明实施例五提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的OFD版式电子文档的隐藏信息嵌入方法和/或OFD版式电子文档的隐藏信息提取方法。
实施例六
图6为本发明实施例六提供的一种计算设备的结构图。该计算设备可以包括:处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603、以及通信总线604。
处理器601、通信接口602、以及存储器603通过通信总线604完成相互间的通信。通信接口602,用于与其它设备比如客户端或其它服务器等的网元通信。处理器601,用于执行程序605。程序605可以包括程序代码,该程序代码包括计算机操作指令。程序605具体可以用于使得处理器601执行上述任一方法实施例中的OFD版式电子文档的隐藏信息嵌入方法和/或OFD版式电子文档的隐藏信息提取方法。
此外,处理器601可以是中央处理器CPU,还可以是特定集成电路ASIC(Application Specific Integrated Circuit),又可以被配置成实施本发明实施例的一个或多个集成电路。本计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器603,用于存放程序605。存储器603可以包含高速RAM存储器和/或非易失性存储器(non-volatile memory)。
实施例七
图7为本发明实施例七提供的一种OFD版式电子文档的隐藏信息处理系统的结构图。如图7所示,隐藏信息处理系统700包括隐藏信息嵌入装置400及隐藏信息提取装置500。其中,隐藏信息嵌入装置400及隐藏信息提取装置500的具体结构可参照实施例三及实施例四中相应部分的描述,本实施例在此不做赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
此外,本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

Claims (10)

1.一种OFD版式电子文档的隐藏信息嵌入方法,其特征在于,所述方法包括:
获取电子文档;
根据用户信息生成隐藏信息编码;其中,所述隐藏信息编码包含多个标志位;
建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系;
针对于任一标志位,根据该标志位的取值确定该标志位映射的字符是否为目标字符;
将所述电子文档中目标字符的字体由原始字体更改为预设字体;其中,所述原始字体与所述预设字体相似度大于预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系进一步包括:
从所述电子文档中提取出目标区块,建立所述隐藏信息编码中各个标志位与所述目标区块中字符的映射关系;其中,所述目标区块中字符个数与隐藏信息编码中标志位个数一致;
和/或,将所述电子文档划分为多个区块,针对于任一区块,建立所述隐藏信息编码中各个标志位与该区块中字符的映射关系;其中,每个区块中字符个数与隐藏信息编码中标志位个数一致。
3.根据权利要求1或2所述的方法,其特征在于,所述隐藏信息编码为二进制编码;
则所述根据该标志位的取值确定该标志位映射的字符是否为目标字符进一步包括:若该标志位的取值为1,则确定该标志位映射的字符为目标字符。
4.一种OFD版式电子文档的隐藏信息提取方法,其特征在于,所述方法包括:
获取电子文档对应的文档图像;
对所述文档图像进行图像处理,以识别出所述文档图像包含的多个字符;
识别所述多个字符中每个字符的字体;
根据所述每个字符的字体,确定每个字符映射的标志位取值;
根据所述多个字符的排列顺序以及每个字符映射的标志位取值,提取隐藏信息编码;其中,所述隐藏信息编码包含多个标志位。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个字符的字体,确定每个字符映射的标志位取值进一步包括:
若字符的字体为预设字体,则该字体映射的标志位取值为1;
若字符的字体不是预设字体,则该字体映射的标志位取值为0。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
根据提取出的隐藏信息编码,识别所述文档图像对应的电子文档来源。
7.一种OFD版式电子文档的隐藏信息嵌入装置,其特征在于,所述装置包括:
编码生成模块,用于根据用户信息生成隐藏信息编码;其中,所述隐藏信息编码包含多个标志位;
文档获取模块,用于获取电子文档;
映射关系建立模块,用于建立所述隐藏信息编码中各个标志位与所述电子文档中字符的映射关系;
目标字符识别模块,用于针对于任一标志位,根据该标志位的取值确定该标志位映射的字符是否为目标字符;
字体更改模块,用于将所述电子文档中目标字符的字体更改为预设字体。
8.一种OFD版式电子文档的隐藏信息提取装置,其特征在于,所述装置包括:
文档图像获取模块,用于获取电子文档对应的文档图像;
字符识别模块,用于对所述文档图像进行图像处理,以识别出所述文档图像包含的多个字符;
字体识别模块,用于识别所述多个字符中每个字符的字体;
标志位取值确定模块,用于根据所述每个字符的字体,确定每个字符映射的标志位取值;
编码提取模块,用于根据所述多个字符的排列顺序以及每个字符映射的标志位取值,提取隐藏信息编码;其中,所述隐藏信息编码包含多个标志位。
9.一种计算设备,其特征在于,所述计算设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,
所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的OFD版式电子文档的隐藏信息嵌入方法对应的操作;和/或,所述可执行指令使所述处理器执行如权利要求4-6中任一项所述的OFD版式电子文档的隐藏信息提取方法对应的操作。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,
所述可执行指令使处理器执行如权利要求1-3中任一项所述的OFD版式电子文档的隐藏信息嵌入方法对应的操作;和/或,所述可执行指令使处理器执行如权利要求4-6中任一项所述的OFD版式电子文档的隐藏信息提取方法对应的操作。
CN202110126308.0A 2021-01-29 2021-01-29 Ofd版式电子文档的隐藏信息嵌入及提取方法、装置 Withdrawn CN112818301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110126308.0A CN112818301A (zh) 2021-01-29 2021-01-29 Ofd版式电子文档的隐藏信息嵌入及提取方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110126308.0A CN112818301A (zh) 2021-01-29 2021-01-29 Ofd版式电子文档的隐藏信息嵌入及提取方法、装置

Publications (1)

Publication Number Publication Date
CN112818301A true CN112818301A (zh) 2021-05-18

Family

ID=75860252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110126308.0A Withdrawn CN112818301A (zh) 2021-01-29 2021-01-29 Ofd版式电子文档的隐藏信息嵌入及提取方法、装置

Country Status (1)

Country Link
CN (1) CN112818301A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780924A (zh) * 2022-06-20 2022-07-22 北京和人广智科技有限公司 电子文本的溯源方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780924A (zh) * 2022-06-20 2022-07-22 北京和人广智科技有限公司 电子文本的溯源方法及装置

Similar Documents

Publication Publication Date Title
CN110502984B (zh) 图纸审查方法、装置、计算机设备和存储介质
JP6595714B2 (ja) 動的な効果を有する2次元コード画像を生成するための方法および装置
CN109753953B (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN106599940B (zh) 图片文字的识别方法及装置
CN103955660B (zh) 一种批量二维码图像识别方法
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN110008997B (zh) 图像纹理相似度识别方法、装置及计算机可读存储介质
CN102968582A (zh) 基于字符结构特征的文本水印嵌入和提取方法
CN112789650A (zh) 检测半透明图像水印
CN113657395B (zh) 文本识别方法、视觉特征提取模型的训练方法及装置
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN113887438A (zh) 人脸图像的水印检测方法、装置、设备及介质
CN112818301A (zh) Ofd版式电子文档的隐藏信息嵌入及提取方法、装置
CN110533020B (zh) 一种文字信息的识别方法、装置及存储介质
US9082175B2 (en) Method for retrieving associated information using an image
CN112270384B (zh) 一种回环检测方法、装置及电子设备和存储介质
CN114332809A (zh) 一种图像识别方法、装置、电子设备和存储介质
US20180336243A1 (en) Image Search Method, Apparatus and Storage Medium
KR20110087620A (ko) 레이아웃 기반의 인쇄매체 페이지 인식방법
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN111638792A (zh) Ar效果的呈现方法、装置、计算机设备及存储介质
CN115995092A (zh) 图纸文字信息提取方法、装置、设备
CN115565178A (zh) 一种字体识别的方法及装置
CN103824006B (zh) 一种手机应用软件自动生成水印的方法和系统
CN111476090B (zh) 水印识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210518

WW01 Invention patent application withdrawn after publication