CN116433454A

CN116433454A - 基于微变字的文档水印嵌入方法、装置及存储介质

Info

Publication number: CN116433454A
Application number: CN202310684924.7A
Authority: CN
Inventors: 李凤伟; 高峰; 陈秋彤; 彭聪乾
Original assignee: Beijing Heren Guangzhi Technology Co ltd
Current assignee: Beijing Heren Guangzhi Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-07-14
Anticipated expiration: 2043-06-12
Also published as: CN116433454B

Abstract

本申请实施例公开了一种基于微变字的文档水印嵌入方法、装置及存储介质，其中基于微变字的文档水印嵌入方法包括：获取包含若干常用字的微变字及其编码的字体文件，每个所述常用字分别包括2个对应的所述微变字，并且分别对应二进制代码的0和1作为其编码；获取待嵌入的水印信息，并将其转换为二进制形式，获取待嵌入所述水印信息的文档，依次遍历整个所述文档，当遍历到的字属于所述常用字时，根据对应的所述水印信息的二进制编码和所述字体文件，依次将遍历到的所述常用字的字体修改为对应的所述微变字，直至将全部的所述水印信息嵌入到所述文档中。以解决现有文档水印添加方法造成影响文档阅读、水印信息容易去除或者水印提取困难的问题。

Description

基于微变字的文档水印嵌入方法、装置及存储介质

技术领域

本申请涉及数字水印技术领域，具体涉及一种基于微变字的文档水印嵌入方法、装置及存储介质。

背景技术

目前文档加水印一般采取明水印的方法。即将读者的信息（如姓名工号或手机号）直接以倾斜的方式显示在文档上，当文档泄露后通过上面的明水印确定泄露源头，该方法的缺点是在文档上显示的明水印字符对阅读有一定的影响，而且泄露者知道有水印后会通过一定的手段去除水印信息。

另一种在文档里加水印的方式是将水印信息做成图案，然后以文档背景图的方式加到文档里，这种方式的缺点是图案太小的话水印提取困难，图案大的话会干扰对文档的阅读。

发明内容

本申请实施例的目的在于提供一种基于微变字的文档水印嵌入方法、装置及存储介质，用以解决现有技术中的文档水印添加方法造成影响文档阅读、水印信息容易去除或者水印提取困难的问题。

为实现上述目的，本申请实施例提供一种基于微变字的文档水印嵌入方法，包括：获取包含若干常用字的微变字及其编码的字体文件，每个所述常用字分别包括2个对应的所述微变字，并且分别对应二进制代码的0和1作为其编码；

获取待嵌入的水印信息，并将其转换为二进制形式，获取待嵌入所述水印信息的文档，依次遍历整个所述文档，当遍历到的字属于所述常用字时，根据对应的所述水印信息的二进制编码和所述字体文件，依次将遍历到的所述常用字的字体修改为对应的所述微变字，直至将全部的所述水印信息嵌入到所述文档中。

可选地，当提取所述文档中的所述水印信息时，包括：

依次遍历整个所述文档的所有字，识别出所述文档中的所述微变字并根据所述字体文件，按照次序判断出每个所述微变字所对应的二进制代码，最终得到二进制串，将得到的二进制串转换为十进制后即可得到所述水印信息。

可选地，所述获取包含若干常用字的微变字及其编码的字体文件，包括：

统计出所需的最常用的若干个字作为所述常用字；

获取现有字体文件，选择其中一个没有字的编码区域，根据预先制定的符号变形规则，将所述常用字的字形进行修改，每个所述常用字分别改出2个所述微变字，分别对应二进制代码的0和1，将增加的所述常用汉字的所述微变字及其对应的二进制编码放置在选择的编码区域中。

可选地，所述识别出所述文档中的所述微变字，包括：

采用计算机文字识别系统对所述文档中的所述常用字进行识别，以提取所述微变字，并基于所述字体文件得到所述微变字对应的二进制代码。

可选地，当从所述文档的截图中提取所述水印信息时，所述识别出所述文档中的所述微变字，包括：

将所述文档的截图图片切成文本行；将该文本行切成单个字图片；用模型分类单个所述字图片属于哪个字；确定当前所述字图片属于哪个所述微变字。

可选地，对所述计算机文字识别系统进行针对所使用的所述微变字识别的训练，以提高对所述微变字的识别能力。

可选地，所述符号变形规则包括：

改变符号字重、符号笔画偏移和符号整体旋转中的任意一种或多种；对应的符号变形的不同变形程度，分别包括改变符号字重、符号笔画偏移和符号整体旋转的步长数。

可选地，为每一变形规则建立相应坐标轴，并确定每一坐标轴的变形范围。

为实现上述目的，本申请还提供一种基于微变字的文档水印嵌入装置，包括：存储器；以及

与所述存储器连接的处理器，所述处理器被配置成执行如上所述的方法的步骤。

为实现上述目的，本申请还提供一种计算机存储介质，其上存储有计算机程序，其中所述计算机程序被机器执行时实现如上所述的方法的步骤。

本申请实施例具有如下优点：

本申请实施例提供一种基于微变字的文档水印嵌入方法，包括：获取包含若干常用字的微变字及其编码的字体文件，每个所述常用字分别包括2个对应的所述微变字，并且分别对应二进制代码的0和1作为其编码；获取待嵌入的水印信息，并将其转换为二进制形式，获取待嵌入所述水印信息的文档，依次遍历整个所述文档，当遍历到的字属于所述常用字时，根据对应的所述水印信息的二进制编码和所述字体文件，依次将遍历到的所述常用字的字体修改为对应的所述微变字，直至将全部的所述水印信息嵌入到所述文档中。

通过上述方法，嵌入文档的水印信息隐蔽性更好，不易察觉，对阅读无影响，且不易被破坏或篡改。

附图说明

为了更清楚地说明本申请的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

图1为本申请实施例提供的一种基于微变字的文档水印嵌入方法的流程图；

图2为本申请实施例提供的一种基于微变字的文档水印嵌入装置的模块框图。

具体实施方式

以下由特定的具体实施例说明本申请的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本申请一实施例提供一种基于微变字的文档水印嵌入方法，参考图1，图1为本申请的一实施方式中提供的一种基于微变字的文档水印嵌入方法的流程图，应当理解的是，该方法还可以包括未示出的附加框和/或可以省略所示出的框，本申请的范围在此方面不受限制。

在步骤101处，获取包含若干常用字的微变字及其编码的字体文件，每个所述常用字分别包括2个对应的所述微变字，并且分别对应二进制代码的0和1作为其编码。

在一些实施例中，所述获取包含若干常用字的微变字及其编码的字体文件，包括：

统计出所需的最常用的若干个字作为所述常用字；

具体地，制作一个字体文件：

1，统计出最常用的N个汉字（也可以是其他字符或符号，包括英文或者数字）；

2，根据某一字体文件，找出一个范围较大的没有字的编码区域。比如发现编码E100到EA00没有字，那么就可以选择这个区域；

3，根据预先制定的符号变形规则，将N个常用字的字形做一定幅度的修改（肉眼难以察觉的微小形变），每个字改出2个对应的微变字，分别对应二进制的0和1，将增加的N个常用字的微变字及其对应的二进制编码放置在选择出的区域中。

或者，在一些实施例中，也可以制作专用的字体文件。

在一些实施例中，所述符号变形规则包括：

在一些实施例中，还包括：为每一变形规则建立相应坐标轴，并确定每一坐标轴的变形范围。

具体地，以汉字为例，根据中文汉字结构特征，兼顾到水印字体的视觉隐蔽性，本实施例提供三种几何微形变为例：①改变字体字重，指连续变化笔画的粗细程度。②字符笔画偏移，指将选中的笔画进行左右平移或上下平移。③字符形整体旋转，指将字符形围绕字符中心顺时针或逆时针旋转指定度数。

在实际构建水印字体过程中，可应用单种几何微形变变换，或联合使用多种几何微形变变换。

在一个实施例中，所述根据每个标准符号（常用字），基于若干符号变形规则以及变形规则的不同变形程度，得到每个标准符号对应的多个替换符号（微变字），包括：为每一变形规则建立相应坐标轴，并确定每一坐标轴的变形范围；基于OpenType可变字体，根据每一变形方式的插值步长和变形范围，插值生成多个替换符号。

为选定的每一个几何微形变变换建立相应坐标轴。如仅采用②一种变换，字符变体空间是1维的。如采用①和②两种变换，则建立字重变换轴和偏移变换轴，所建立的字符变体设计空间是二维的，如联合使用三种变换，则字符变体设计空间是三维的。

通过上述方法可以从理论上生成无限多个平滑变化的字符形，但考虑到替换字符形应对人眼而言视觉隐蔽，而于机器而言可通过检测方法识别，因此可确定替换字符形（微变字）较之于标准字符形（对应的常用字）的差异阈值。该阈值满足人眼不可见而机器可识别。阈值的设定可通过检测实验确立，通过主观评价法确定字符形的不可见性，利用水印提取技术衡量机器的可检测性。

在步骤102处，获取待嵌入的水印信息，并将其转换为二进制形式，获取待嵌入所述水印信息的文档，依次遍历整个所述文档，当遍历到的字属于所述常用字时，根据对应的所述水印信息的二进制编码和所述字体文件，依次将遍历到的所述常用字的字体修改为对应的所述微变字，直至将全部的所述水印信息嵌入到所述文档中。

具体地，1，将要嵌入的水印信息（十进制）转化成二进制形式。水印信息可以是汉字或者字母的，可以先转换为对应的十进制编码，然后再转化为二进制的编码形式。

2，依次遍历整个文档，当遍历到的字属于常用的N字时，根据对应的水印信息0或1，将当前字体修改为对应的微变字体第一个或第二个，如遍历到的字是汉字“的”，对应的二进制水印信息是1，就将当前文档里的字“的”字修改为第二个微变字“的”。按次方法依次将全部的二进制水印信息都嵌入到文档里。

在一些实施例中，当提取所述文档中的所述水印信息时，包括：

具体地，遍历文档所有的字，如当前字属于常用的N字时，判断这个字的字形是属于第一个微变字还是第二个微变字，两个微变字分别对应二进制的0和1，依次遍历所有的字，得到一个二进制串，将二进制转换成十进制，此十进制就是文档里的水印信息。

例如，转换为二进制的水印信息为“1101”，则可分别用4个微变字来表示它，每个微变字分别选用对应二进制代码为1、1、0、1的变体。提取水印信息时，识别文档中的微变字并按照次序判断出每个微变字所对应的二进制代码为1、1、0、1，也就还原了水印信息为“1101”。

在一些实施例中，采用计算机文字识别系统对文档中的所述常用字进行识别，以提取微变字，并基于制作的字体文件得到微变字对应的二进制代码。

在一些实施例中，对计算机文字识别系统进行针对所使用的微变字识别的训练，以提高对微变字的识别能力。

具体地，使用基于计算机文字识别系统的水印提取模型提取所述文档中的所述水印信息，其中，通过解析识别和提取微变字的方法及模型的训练方法如下：（注：这里只说从一张文档的截图里提取水印的过程，从原文档里提取水印不需要模型，只要解析文档就行。）

在一些实施例中，解析的过程步骤为：1、将文档截图图片切成文本行；2、文本行切成单个字图片；3、用模型分类单个字图片属于哪个字；4、确定当前字图片属于哪个微变字。其中步骤1和2使用传统的方法就可以实现，步骤3和4需要使用深度学习的方法，都需要训练，这里的训练只详细介绍步骤4，而步骤3是一个很简单的分类任务，可以参考现有技术很容易得到。

每个解析的过程步骤的详细说明：

对于步骤1，先按水平投影的方式将文档截图图片切成行。过程是：用255减去图片的每个像素值，这样图片无字的地方将成为黑色，有字的地方将成为白色。再将所有像素按行相加，得到一个一维的数组，如一张宽400像素高600像素的图片按行相加后将得到一个长度600像素的数组，这个数组画在平面图上将呈山峰状，波谷的地方就是没有字行，以波谷为分界线，可以将整个文档图片切成N个文本行。

对于步骤2，再将每个文本行图片以垂直投影的方式切个单个字的图片。过程和步骤1类似，只是水印投影改为垂直投影。

对于步骤3，将得到的单个字的图片输入分类模型，确定该图片属于哪个字。（分类模型是一个提前训练好的深度学习模型，如选取的常用字是200个，那么模型就是201分类，多出的1个表示200字以外的所有字都属于这个类别）。

对于步骤4，步骤3已经确定了当前单个字图片属于哪个字，如确定了是一个“的”字，接下来的步骤就是确定当前的“的”字图片属于哪一个微变字。这里使用的一个深度学习模型叫孪生网络模型，该模型接受两个图片的输入，输出一个0到1之间的浮点数，越接近于1表示两个输入图片越相似，反之则表示越不相似。为了确定当前“的”字图片属于哪一个微变字，先将当前图片与第一个微变字的图片输入网络模型，得到一个相似度值S1，再将与第二个微变字输入模型得到另一个相似度值S2，对比S1与S2大小，如S1>S2，当前字的编码就是0，反之就是1。按此过程可以确定文档截图里所有微变字的编码。

通过上述方法，利用制作独立的字体文件，将原文档中的特定字符替换成字体文件中的对应字符即可完成水印的嵌入，嵌入文档的水印信息隐蔽性更好，不易察觉，对阅读无影响，且不易被破坏或篡改。

图2为本申请实施例提供的一种基于微变字的文档水印嵌入装置的模块框图。该装置包括：

存储器201；以及与所述存储器201连接的处理器202，所述处理器202被配置成：获取包含若干常用字的微变字及其编码的字体文件，每个所述常用字分别包括2个对应的所述微变字，并且分别对应二进制代码的0和1作为其编码；

在一些实施例中，所述处理器202还被配置成：当提取所述文档中的所述水印信息时，包括：

在一些实施例中，所述处理器202还被配置成：所述获取包含若干常用字的微变字及其编码的字体文件，包括：

统计出所需的最常用的若干个字作为所述常用字；

在一些实施例中，所述处理器202还被配置成：所述识别出所述文档中的所述微变字，包括：

在一些实施例中，所述处理器202还被配置成：当从所述文档的截图中提取所述水印信息时，所述识别出所述文档中的所述微变字，包括：

在一些实施例中，所述处理器202还被配置成：对所述计算机文字识别系统进行针对所使用的所述微变字识别的训练，以提高对所述微变字的识别能力。

在一些实施例中，所述处理器202还被配置成：所述符号变形规则包括：

在一些实施例中，所述处理器202还被配置成：为每一变形规则建立相应坐标轴，并确定每一坐标轴的变形范围。

具体实现方法参考前述方法实施例，此处不再赘述。

本申请可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

虽然，上文中已经用一般性说明及具体实施例对本申请作了详尽的描述，但在本申请基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本申请精神的基础上所做的这些修改或改进，均属于本申请要求保护的范围。

Claims

1.一种基于微变字的文档水印嵌入方法，其特征在于，包括：

获取包含若干常用字的微变字及其编码的字体文件，每个所述常用字分别包括2个对应的所述微变字，并且分别对应二进制代码的0和1作为其编码；

2.根据权利要求1所述的基于微变字的文档水印嵌入方法，其特征在于，当提取所述文档中的所述水印信息时，包括：

3.根据权利要求1所述的基于微变字的文档水印嵌入方法，其特征在于，所述获取包含若干常用字的微变字及其编码的字体文件，包括：

统计出所需的最常用的若干个字作为所述常用字；

4.根据权利要求2所述的基于微变字的文档水印嵌入方法，其特征在于，所述识别出所述文档中的所述微变字，包括：

5.根据权利要求4所述的基于微变字的文档水印嵌入方法，其特征在于，当从所述文档的截图中提取所述水印信息时，所述识别出所述文档中的所述微变字，包括：

6.根据权利要求5所述的基于微变字的文档水印嵌入方法，其特征在于，包括：

对所述计算机文字识别系统进行针对所使用的所述微变字识别的训练，以提高对所述微变字的识别能力。

7.根据权利要求3所述的基于微变字的文档水印嵌入方法，其特征在于，所述符号变形规则包括：

8.根据权利要求7所述的基于微变字的文档水印嵌入方法，其特征在于，包括：

为每一变形规则建立相应坐标轴，并确定每一坐标轴的变形范围。

9.一种基于微变字的文档水印嵌入装置，其特征在于，包括：

存储器；以及

与所述存储器连接的处理器，所述处理器被配置成执行如权利要求1至8中任一项所述的方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被机器执行时实现如权利要求1至8中任一项所述的方法的步骤。