CN115455966B

CN115455966B - 安全字库构建方法及其安全码提取方法

Info

Publication number: CN115455966B
Application number: CN202211417037.5A
Authority: CN
Inventors: 田辉; 朱鹏远; 郭玉刚; 张志翔
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-03-10
Anticipated expiration: 2042-11-14
Also published as: CN115455966A

Abstract

本发明特别涉及一种安全字库构建方法及其安全码提取方法，其中安全字库构建方法包括如下步骤：根据字频排序对前N个字符分别进行变形设计得到变形字；对每个字符的标准字及其变形字进行二进制编码；将N个字符分成K组；对于任一个安全码，以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字，所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。通过对字符设置不同个数的变形字，并对其进行编码，让字符可以出现在多个组别中，这样在嵌入或提取时，单个字符可以隐藏更多内容，在安全码位数一定的情况下，可以在较少的字符中进行嵌入，大幅提高安全字库的通用性和稳定性。

Description

安全字库构建方法及其安全码提取方法

技术领域

本发明涉及字库隐形水印技术领域，特别涉及一种安全字库构建方法及其安全码提取方法。

背景技术

在现有的文本水印技术中，为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能，基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串，字符变形数据会保存在特定的水印字库中，并在电子文本文档打印输出和屏幕显示的过程中，通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据，对于该用户来说，该特定的水印字库即构成其安全字库。

现有的安全字库存在很多缺陷，为了实现在不改变用户任何使用习惯的前提下，用以解决现有技术中水印加载通用性差、系统稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题，北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》（公布号：CN114708133A）中公开了如下方案：一种通用的文本水印方法，包括以下步骤：根据特定策略对选定字库中一定数目的字符进行分组；根据特定规则对每个分组中的所有字符进行变形设计，并生成水印字符数据临时文件；生成用户终端水印编码数据，用以标识用户终端的身份认证信息；依据水印编码数据，并结合水印字符数据临时文件和分组的字符，动态生成并实时加载水印字库文件；运行电子格式的文本文件，在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。但该方案依然存在不足之处：每个字符只会分在同一组中，这样每个字符只能代表一位安全码，待提取的数据中，必须在更多的内容中才能进行可靠的提取。

发明内容

本发明的首要目的在于提供一种安全字库构建方法，能够在较少的字符中嵌入安全码。

为实现以上目的，本发明采用的技术方案为：一种安全字库构建方法，包括如下步骤：根据字频排序选择前N个字符，对N个字符分别进行变形设计得到变形字；对每个字符的标准字及其变形字进行二进制编码，该二进制编码的位数x和该字符变形字个数

满足如下公式：

；将N个字符分成K组，每个字符所处组别数等于该字符对应的二进制编码的位数x，K为安全字库所表征的安全码编码成的二进制字符串的位数；对于任一个安全码，以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字，所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。

与现有技术相比，本发明存在以下技术效果：通过对字符设置不同个数的变形字，并对其进行编码，让字符可以出现在多个组别中，这样在嵌入或提取时，单个字符可以隐藏更多内容，在安全码位数一定的情况下，可以在较少的字符中进行嵌入，大幅提高安全字库的通用性和稳定性。

本发明的另一个目的在于提供一种准确率更高的安全字库的安全码提取方法。

为实现以上目的，本发明采用的技术方案为：一种针对前述安全字库的安全码提取方法，包括如下步骤：对待提取的素材进行处理得到Y张单字符图片；构建识别矩阵

，其中K为安全字库所表征的安全码编码成的二进制字符串的位数；遍历并识别每张单字符图片，得到每个字符的二进制编码；根据字符内容确定行数、根据该字符所属组别确定列数，将二进制编码填入识别矩阵

中；统计识别矩阵

中每列中的元素中1和0的个数，若1的个数大于0的个数，则该列对应的二进制数为1，若1的个数小于0的个数，则该列对应的二进制数为0；对得到的二进制字符串进行解码得到安全码。

与现有技术相比，本发明存在以下技术效果：在待提取的素材中，其会涉及多个字符，这些字符中，有很多字符归属于同一组，其所代表的嵌入信息也是同一个，一般来说，我们只需要提取其中一个即可；为了提高准确率，这里对归属于同一组的所有字符都进行了提取，并根据提取结果进行综合判断，降低了单个字符提取出错的情况，大幅提高提取的准确率。

附图说明

图1是本发明中安全字库构建方法流程图；

图2是本发明实施例一中字符分组流程图；

图3是本发明实施例二中字符分组流程图；

图4是本发明实施例三中字符分组流程图；

图5是本发明中安全码提取方法流程图。

具体实施方式

下面结合图1至图5，对本发明做进一步详细叙述。

参阅图1，本发明公开了一种安全字库构建方法，包括如下步骤：根据字频排序选择前N个字符，对N个字符分别进行变形设计得到变形字，N一般取1000~3000，总的来说，N选择的越大，后期进行安全码提取时会更加精准且适用更多场合。对每个字符的标准字及其变形字进行二进制编码，该二进制编码的位数x和该字符变形字个数

满足如下公式：

，现有技术中，很多安全字库在设计时，每个字符多表示一比特信息，这里通过设置多个变形字，将单个字符分在多个组别里，让每个字符能够携带更多比特信息。将N个字符分成K组，每个字符所处组别数等于该字符对应的二进制编码的位数x，K为安全字库所表征的安全码编码成的二进制字符串的位数，一般来说，安全码可以是设备的MAC地址，也可以是人员的ID，或者其他信息，我们对其进行加密后，让其转换成二进制字符串，还可以添加上校验位，这里所说的加密、转换成二进制、添加校验位都可以理解为编码。对于任一个安全码，以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字，所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。通过对字符设置不同个数的变形字，并对其进行编码，让字符可以出现在多个组别中，这样在嵌入或提取时，单个字符可以隐藏更多内容，在安全码位数一定的情况下，可以在较少的字符中进行嵌入，大幅提高安全字库的通用性和稳定性。

如果对所有的字都设置多个变形字，其前期的工作量非常大，而根据字频我们可以知道，每个字的出现概率是不同的。当我们截取任一段文字，字频较高的字更容易出现。因此，本发明中优选地，所述的对N个字符分别进行变形设计得到变形字包括：将N个字符按照字频分为高频字、中频字、低频字；高频字中有N1个字符，高频字中每个字符的变形字个数

且x=3；中频字中有N2个字符，中频字中每个字符的变形字个数

且x=2；低频字中有N3个字符，低频字中每个字符的变形字个数

且x=1。高频字出现的概率更大，因此可以设置多个变形字，比如7个，用来携带3位比特信息，可以分到三个组别中，中频字和低频字同理。这样做的好处是，在设计安全字库时，我们只需要对字频最高的N1个高频字设计7个变形字，对字频次高的N2个中频字设计3个变形字，对字频低的N3个低频字设计1个变形字，对于其他更低频的字符无需设计变形字，从而大大降低变形字设计的工作量。

进一步地，所述的将N个字符分成K组包括：将高频字中的字符分成

组，得到高频字中每个字符的初步分组i，第i组字符所属最终分组为第3i-2组、第3i-1组和第3i组；将中频字中的字符分成

组，得到中频字中每个字符的初步分组j，第j组字符所属最终分组为第2j-1组和第2j组；将低频字中的字符分成K组；其中，

为向下取整。这里的分组步骤中，相当于一开始是对高频字进行单字符分组，比如字符“的”分在第一组、字符“一”分在第二组、……，但这种分组只是初步的，最终字符“的”是属于K组中的第一组、第二组、第三组，“一”是属于K组中的第四组、第五组、第六组。然后再进行中频字的分组，比如字符“学”分在第一组、字符“法”分在第二组、……，同样地，这种分组也是初步的，最终字符“学”是属于K组中的第一组、第二组，字符“法”是属于K组中的第三组、第四组。而对于低频字，其仅分在某一组中，因此低频字中的字符分在了哪一组，其最终也属于K组中的哪一组。

如何对字符进行分组，可以使用背景技术中所提及的专利中记载的方案，也可以采用如下方案。

参阅图2，实施例一，所述的将N个字符分成K组中，依次对高频字、中频字、低频字按如下步骤进行分组：遍历语料库，统计N个字符中任意两个字符的出现次数得到二元字符频次矩阵

，二元字符频次矩阵

的元素

代表字符

后是字符

的频次；按字频从高到低逐一遍历字符，并按如下公式计算待分配字符c分配到第k组的权重：

式中，A为已分组字符和待分配字符c构成的集合，

和

为大于0的常数且

；将待分配字符c添加至权重最大的组，以此类推直到所有字符完成分组。该分组方案主要从二元字符的之间的关联来对字符进行分组，对于经常出现在一起的两个字符，尽量将它们分配在不同的组中，二元字符频次矩阵反应的就是两个字符出现在一起的频次，再通过权重计算公式，让经常出现在一起的两个字符分在不同组时的权重增大，这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组，从而实现了字符的合理分组，此种分组方式对每组中字符个数不做限制，从而更加合理。

参阅图3，实施例二，所述的将N个字符分成K组中，依次对高频字、中频字、低频字按如下步骤进行分组：遍历语料库，根据N个字符的出现频数计算各字符概率

，对语料库中的所有文本进行分词，根据N个字符所组成词语的出现频数计算各词语概率

；根据

和

计算一个字符后是另一个字符的概率得到状态转移矩阵

；对状态转移矩阵

进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵

；逐一遍历字符，计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组，该权重和随机二元字符包含组别数的期望值的增加量正相关，以此类推直到所有字符完成分组。该分组方案主要从词语之间的关联来对字符进行分组，对于常作为一个单词出现的多个字符，尽量将它们分配在不同的组中，状态转移矩阵反映的就是一个字符后是另一个字符的概率，再通过权重计算公式，让经常出现在一起的两个字符分在不同组时的权重增大，这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组，从而实现了字符的合理分组，此种分组方式对每组中字符个数不做限制，从而更加合理。

参阅图4，实施例三，所述的将N个字符分成K组中，依次对高频字、中频字、低频字按如下步骤进行分组：遍历语料库，对语料库中的所有文本进行分词，根据N个字符所组成词语的出现频数计算各词语概率

；按照字频从高到低，重复执行以下步骤直到所有字符完成分组；根据如下公式计算待分配字符c到第k组

中已分组字符c_i的词链和：

式中，

为包含字符c和字符c_i的所有词语；根据字频对字符进行排序，计算排序后待分配字符c到第k组

中已分组字符c_i的字距离和：

式中，

为字符c和字符c_i的距离；对所有组的词链和、字距离和分别进行归一化处理得到

和

；根据如下公式计算待分配字符c分配到第k组的权重：

式中，

为预设的权重系数。词链和反映的是待分配字符c和组内其他字符之间作为词语出现在一起的关系，这个值越大，就说明它们出现在一起的情况越多，应当分配到不同组；字距离和反映的是字频的关系，越是相近的高频字，应当分配到不同组；根据这两种关系计算得到的权重正好反映了上述关系。

进一步地，

按如下公式计算：

式中，

为待分配字符c以及与待分配字符c字距离小于等于设定阈值的所有字符的字符频次方差，这个设定阈值可以取10，代表的是按字频排序，计算字符c和排在其前方的10个字符、后方的10个字符共21个字符的方差，

为待分配字符c的字符频次。将待分配字符c添加到权重最小的组。通过以上公式计算得到的

，在字符频次较高时，相邻字符的频次差异也较大，计算得到的

值也越大，此时更多考虑的是字距和，尽量让高频字分在不同组；在字符频次较低时，相邻字符的频次差异也较小，计算得到的

值也越小，此时更多考虑的是词链和，让常出现在一起的字符分在不同组。

通过上述步骤将N个字符分为K组后，就需要根据该分组情况设计安全字库。具体地，所述的以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字包括：逐位遍历由安全码处理成的二进制字符串，对于每一位二进制数，选择属于该组中所有低频字、且与该位二进制数相同的二进制编码对应的标准字或变形字加入安全字库；按照两位一组遍历由安全码处理成的二进制字符串，对于每两位二进制数，选择属于该两组中所有中频字、且与该两位二进制数相同的二进制编码对应的标准字或变形字加入安全字库；按照三位一组遍历由安全码处理成的二进制字符串，对于每三位二进制数，选择属于该三组中所有高频字、且与该三位二进制数相同的二进制编码对应的标准字或变形字加入安全字库。通过上述步骤得到N个字符的安全字库，再加上未选择的其他字符的标准字即构成指定安全码对应的安全字库，该安全字库中，每个字要么是标准字，要么是变形字；对于不同的安全码，每个字符属于标准字还是变形字的情况不尽相同。上述步骤可以更方便的从字符的分组情况去构建安全字库，构建起来非常的迅速。

参阅图5，本发明还公开了一种针对前面所生成安全字库的安全码提取方法，包括如下步骤：对待提取的素材进行处理得到Y张单字符图片；构建识别矩阵

中；统计识别矩阵

中每列中的元素中1和0的个数，若1的个数大于0的个数，则该列对应的二进制数为1，若1的个数小于0的个数，则该列对应的二进制数为0；对得到的二进制字符串进行解码得到安全码，解码去前面的编码过程相对应。在待提取的素材中，其会涉及多个字符，这些字符中，有很多字符归属于同一组，其所代表的嵌入信息也是同一个，一般来说，我们只需要提取其中一个即可；为了提高准确率，这里对归属于同一组的所有字符都进行了提取，并根据提取结果进行综合判断，降低了单个字符提取出错的情况，大幅提高提取的准确率。

本发明还公开了一种计算机可读存储介质和一种电子设备。其中，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的安全字库构建方法或实现如前所述的安全码提取方法。一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现如前所述的安全字库构建方法或实现如前所述的安全码提取方法。

Claims

1.一种安全字库构建方法，其特征在于：包括如下步骤：

根据字频排序选择前N个字符，对N个字符分别进行变形设计得到变形字；

对每个字符的标准字及其变形字进行二进制编码，该二进制编码的位数x和该字符变形字个数

满足如下公式：

；至少有一个字符的二进制编码位数x＞1；

将N个字符分成K组，每个字符同时所处组别数等于该字符对应的二进制编码的位数x，K为安全字库所表征的安全码编码成的二进制字符串的位数；

对于任一个安全码，安全码的位数编号即为分组编号，以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字，所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。

2.如权利要求1所述的安全字库构建方法，其特征在于：所述的对N个字符分别进行变形设计得到变形字包括：

将N个字符按照字频分为高频字、中频字、低频字；

高频字中有N1个字符，高频字中每个字符的变形字个数

且x=3；

中频字中有N2个字符，中频字中每个字符的变形字个数

且x=2；

低频字中有N3个字符，低频字中每个字符的变形字个数

且x=1。

3.如权利要求2所述的安全字库构建方法，其特征在于：所述的将N个字符分成K组包括：

将高频字中的字符分成

组，得到高频字中每个字符的初步分组i，第i组字符所属最终分组为第3i-2组、第3i-1组和第3i组；

将中频字中的字符分成

组，得到中频字中每个字符的初步分组j，第j组字符所属最终分组为第2j-1组和第2j组；

将低频字中的字符分成K组；

其中，

为向下取整。

4.如权利要求3所述的安全字库构建方法，其特征在于：所述的将N个字符分成K组中，依次对高频字、中频字、低频字按如下步骤进行分组：

遍历语料库，统计N个字符中任意两个字符的出现次数得到二元字符频次矩阵

，二元字符频次矩阵

的元素

代表字符

后是字符

的频次；

按字频从高到低逐一遍历字符，并按如下公式计算待分配字符c分配到第k组的权重：

式中，A为已分组字符和待分配字符c构成的集合，

和

为大于0的常数且

；

将待分配字符c添加至权重最大的组，以此类推直到所有字符完成分组。

5.如权利要求3所述的安全字库构建方法，其特征在于：所述的将N个字符分成K组中，依次对高频字、中频字、低频字按如下步骤进行分组：

遍历语料库，根据N个字符的出现频数计算各字符概率

；

根据

和

计算一个字符后是另一个字符的概率得到状态转移矩阵

；

对状态转移矩阵

；

逐一遍历字符，计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组，该权重和随机二元字符包含组别数的期望值的增加量正相关，以此类推直到所有字符完成分组。

6.如权利要求3所述的安全字库构建方法，其特征在于：所述的将N个字符分成K组中，依次对高频字、中频字、低频字按如下步骤进行分组：

遍历语料库，对语料库中的所有文本进行分词，根据N个字符所组成词语的出现频数计算各词语概率

；

按照字频从高到低，重复执行以下步骤直到所有字符完成分组；

根据如下公式计算待分配字符c到第k组

中已分组字符c_i的词链和：

式中，

为包含字符c和字符c_i的所有词语；

根据字频对字符进行排序，计算排序后待分配字符c到第k组

中已分组字符c_i的字距离和：

式中，

为字符c和字符c_i的距离；

对所有组的词链和、字距离和分别进行归一化处理得到

和

；

根据如下公式计算待分配字符c分配到第k组的权重：

式中，

为预设的权重系数并按如下公式计算：

式中，

为待分配字符c以及与待分配字符c字距离小于等于设定阈值的所有字符的字符频次方差，

为待分配字符c的字符频次；

将待分配字符c添加到权重最小的组。

7.如权利要求3所述的安全字库构建方法，其特征在于：所述的以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字包括：

逐位遍历由安全码处理成的二进制字符串，对于每一位二进制数，选择属于该组中所有低频字、且与该位二进制数相同的二进制编码对应的标准字或变形字加入安全字库；

按照两位一组遍历由安全码处理成的二进制字符串，对于每两位二进制数，选择属于该两组中所有中频字、且与该两位二进制数相同的二进制编码对应的标准字或变形字加入安全字库；

按照三位一组遍历由安全码处理成的二进制字符串，对于每三位二进制数，选择属于该三组中所有高频字、且与该三位二进制数相同的二进制编码对应的标准字或变形字加入安全字库。

8.一种针对权利要求1所生成安全字库的安全码提取方法，其特征在于：包括如下步骤：

对待提取的素材进行处理得到Y张单字符图片；

构建识别矩阵

，其中K为安全字库所表征的安全码编码成的二进制字符串的位数；

遍历并识别每张单字符图片，得到每个字符的二进制编码；

根据字符内容确定行数、根据该字符所属组别确定列数，将二进制编码填入识别矩阵

中；

统计识别矩阵

中每列中的元素中1和0的个数，若1的个数大于0的个数，则该列对应的二进制数为1，若1的个数小于0的个数，则该列对应的二进制数为0；

对得到的二进制字符串进行解码得到安全码。

9.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的安全字库构建方法或实现如权利要求8中所述的针对权利要求1所生成安全字库的安全码提取方法。

10.一种电子设备，其特征在于：包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的安全字库构建方法或实现如权利要求8中所述的针对权利要求1所生成安全字库的安全码提取方法。