CN115409020A

CN115409020A - 基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质

Info

Publication number: CN115409020A
Application number: CN202211019353.7A
Authority: CN
Inventors: 吴国华; 朱强强; 张祯; 王玉娟; 袁理锋; 王秋华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-29

Abstract

本发明属于信息安全技术领域，具体涉及基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质。方法包括S1，获取中文文本数据集，做分词处理，统计字频与词频并排序，获得字频表和词频表；S2，计算需要进行分组的数量；S3，按字频将汉字分组，并排除高频词；所述高频词为词频大于设定阈值的词；S4，设定滑动窗口大小以及滑动距离，遍历步骤S1所得的中文文本数据集，计算分组的平均嵌入率。本发明具有能将汉字进行基于字词平衡的分组，使用滑动窗口方法对分组嵌入率进行测试，使溯源系统在载体包含字数较少情况下的嵌入率有效提升的特点。

Description

基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质

技术领域

本发明属于信息安全技术领域，具体涉及基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质。

背景技术

汉字字形水印算法是一种利用汉字字形来隐藏“0”或“1”的水印算法，该算法旨在为同一个汉字配备多个不同的字形和编码，这些字形是通过微调笔画生成的，在不同的电子文档中，通过使用不同的字形来隐藏水印信息。该水印算法不会改变文本的整体外观，拥有较强的不可见性，即使载体在经过拍照或截屏后，仍然可以识别出该字的编码，存在抗攻击性强，鲁棒性较高的优点，该方法通常被应用在溯源任务中。

在现有的溯源任务中，根据主机的MAC地址、IP地址、主机名、用户名、当前时间生成身份序列码，将身份序列码转化为二进制比特序列。选取常用汉字生成变形字集合，按照字频顺序从高到低分组，并将二进制比特序列按位嵌入到每组的汉字中。但仍存在以下问题：由于高频字之间的频率相差较大，顺序分组容易导致字频分布不均匀；且分组时未排除高频词，由于高频词的出现频率较高，如出现在不同组，可以提取2个分组的信息，反之如果在同一组，则只能提取1组信息，造成嵌入率降低；现有的方案中通常对所选汉字生成同样数量的变体，例如4种，包含2比特信息，称为2比特字。但一些高频字，如“大”等结构较简单的字最多只能生成2种变体，包含1比特信息，称为1比特字，这种字目前没有很好的应用方案。

因此，设计一种能将汉字进行基于字词平衡的分组，使用滑动窗口方法对分组嵌入率进行测试，使溯源系统在载体包含字数较少情况下的嵌入率有效提升的基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质，就显得十分重要。

例如，申请号为CN201911259549.1的中国专利文献描述的数据的水印嵌入方法、水印溯源方法及装置，该方法根据数字水印序列和预设素数序列，获取待嵌入的数字水印序列；采用密码分存算法，对其进行分割，得到预设数量的待嵌入的子数字水印，并采用预设分组算法，按照待处理数据的数据标识，对待处理数据进行分组，获取预设数量的待处理数据组与相应组标识，之后采用预设嵌入规则，将一个待嵌入的子数字水印嵌入一待处理组数据组的待处理数据中，得到嵌入数字水印的数据。在水印溯源过程中，按照水印嵌入的逆过程对嵌入数字水印的数据进行水印信息提取，比较提取的水印信息和原水印信息，实现数据的溯源。虽然降低了溯源的复杂度，提高了溯源的准确性，但是其缺点在于，由于分组不均匀，导致嵌入分组不全，最终造成提取时分组缺失的问题。

发明内容

本发明是为了克服现有技术中，现有的溯源系统嵌入水印时，由于分组不均匀，导致嵌入分组不全，最终造成提取时分组缺失的问题，提供了一种能将汉字进行基于字词平衡的分组，使用滑动窗口方法对分组嵌入率进行测试，使溯源系统在载体包含字数较少情况下的嵌入率有效提升的基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

基于字词平衡的汉字分组测试方法，包括如下步骤：

S1，获取中文文本数据集，做分词处理，统计字频与词频并排序，获得字频表和词频表；

S2，计算需要进行分组的数量；

S3，按字频将汉字分组，并排除高频词；所述高频词为词频大于设定阈值的词；

S4，设定滑动窗口大小以及滑动距离，遍历步骤S1所得的中文文本数据集，计算分组的平均嵌入率。

作为优选，步骤S1包括如下步骤：

S11，遍历中文文本数据集，统计汉字字频并进行排序；

S12，利用分词工具对中文文本数据集进行分词处理，统计汉字的词频并对齐进行排序。

作为优选，步骤S2包括如下步骤：

S21，根据主机的MAC地址、IP地址、主机名、用户名、当前时间生成身份序列码，转成为二进制比特序列，二进制比特序列长度为length；

S22，计算k＝length/2，k为只使用2比特字时的组数；

S23，将Ω_A分m组，Ω_B分2组，所以Ω_A组只需分k-1组，得出m＝k-1；

其中，作为输入的汉字编码文件中存在两种变形字，分别为2比特字和1比特字，标为Ω_A与Ω_B。

作为优选，步骤S3包括如下步骤：

S31，计算Ω_A、Ω_B中所有字的字频总和SUM_A与SUM_B，计算得出对应每组字的频率总和分别为SUM_A/m与SUM_B/2，并设定误差范围值

；

S32，顺序遍历集合Ω_A，取汉字放入分组，使字频均匀分布，且通过遍历词频表排除同组内的高频词；

S33，顺序遍历集合Ω_B，取汉字放入分组，使字频均匀分布，且通过遍历词频表排除同组内高频词，集合Ω_B分组数量固定为2组；

其中，在初始化字频表时，为每个汉字赋上一个初始值＝(SUM_A+SUM_A)/(m+2)。

作为优选，步骤S4包括如下步骤：

S41，设定窗口大小为e，滑动距离为g，首先截取坐标为[0,e-1]的字符串；若字符串包含每组中的至少一个字，则成功嵌入并计数，再重复滑动并截取坐标为[g,e+g-1]的字符串判断是否成功嵌入；

S42，按步骤S41遍历步骤S1所得的中文文本数据集；

S43，将成功嵌入的次数与判断次数相除，得出平均嵌入率。

本发明还提供了基于字词平衡的汉字分组测试系统，包括：

列表遍历模块，用于在变形字列表中取字；

分组存储模块，用于存储列表遍历模块已取的字；

词汇判断模块，用于判断列表遍历模块所取的字与分组存储模块中的字是否能组成词汇；

阈值判断模块，用于判断分组存储模块中的字频总和是否达到阈值。

作为优选，系统还包括：

分组判断模块，用于判断输入的分组是否包含所有变形字。

作为优选，系统还包括：

嵌入率测试模块，用于计算分组的平均嵌入率。

本发明还提供了计算机可读存储介质，包括计算机可执行指令，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述任一实施方式所述的基于字词平衡的汉字分组测试方法的步骤。

本发明与现有技术相比，有益效果是：(1)本发明统计了大量中文数据集，计算出字频，通过将字频均匀分布在每组中，使得高频字与低频字能够互相补充；将数据集进行分词处理，统计数据集中的词频，在分组时避免同一组中高频词的出现；(2)本发明还把结构简单的高频字单独地分为2组，承载了一部分比特信息，提高了整体分组的频率；(3)本发明还提供了一种计算平均嵌入率的方法，将本发明提出的方法与现有方法作对比，得到了较好的嵌入率结果。

附图说明

图1为本发明实施例所提供的基于字词平衡的汉字分组测试方法的一种应用场景示意图；

图2为本发明实施例所提供的汉字分组的一种过程示意图；

图3为本发明实施例所提供的汉字分组的一种流程图；

图4为本发明实施例所提供的分组嵌入率测试的一种流程图；

图5为本发明实施例所提供的分组判断模块的一种示意图；

图6为本发明实施例所提供的嵌入率测试模块的一种示意图。

图7为本发明实施例所提供的分组结果的一种示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

本发明提供了基于字词平衡的汉字分组测试方法，包括汉字分组过程和分组嵌入率测试过程。

S1，通过统计大量中文数据集得出的字频与词频对汉字进行分组，如图2所示，步骤S1包括：

S11，遍历大量中文数据集，统计汉字字频并对其进行排序；

S12，利用分词工具对数据集进行分词处理，统计汉字的词频并对齐进行排序；

S13，进行分组过程。

S2，计算分组数量，具体步骤包括：

S21，根据主机的MAC地址、IP地址、主机名、用户名、当前时间生成身份序列码，并转成为二进制比特序列，二进制比特序列长度为64比特，其中8比特为校验码；

S22，计算64/2＝32组，由于1比特字单独占了一组，2比特字分为31组；

S23，再将1比特字分为2组；

S3，对汉字进行分组，如图3所示，过程的具体步骤包括：

S31，统计字频与词频表。通过大型中文数据集统计汉字字频与词频，获得字频与词频表。

S32，设置遍历循环。循环结束条件为分组内包含所有变形字，如一次无法取完所有变形字，则随机打乱集合顺序，重复下面的步骤：

S321，初始化存储汉字的列表，分为两个列表，分别存储2比特字和1比特字，并初始化List₁与List₂；其中List₁为存储当前分组的列表，List₂为能与当前分组组成词语的汉字列表；

S322，遍历列表1，遍历当遍历到一个字符ε时，判断ε是否在List₂中，如果是，则遍历下一个字符ε+1；否，则将ε加入到List₁，同时遍历词频表前1000个词语，将能与ε组成词语的字加入List₂。当该组的频率和达到

时，初始化List₁与List₂，更新Ω_A＝Ω_A-List₁，进行下一次遍历，循环上述方法直到所有分组遍历结束。

S323，遍历列表2，遍历方法与步骤S322相同，由于列表2中存储1比特字，该列表分为两组。

S4，分组嵌入率测试模块用于计算分组在大型数据集下的平均嵌入率，如图4所示，步骤包括：

S41，设定参数。设定滑动窗口大小和滑动距离参数，一般设定窗口大小为300个字符，字符包括空格或标点符号，即计算分组在大量文档中的平均嵌入率，每滑动20个字符计算一次；

S42，数据遍历。遍历数据集，在每一个滑动窗口大小内判断是否嵌入成功，即所有分组是否都成功嵌入，并进行计数；

S43，计算平均嵌入率。将成功次数与总数相除，得出平均嵌入率。

基于实施例1，本发明还提供了基于字词平衡的汉字分组测试系统。

如图5所示，所述基于字词平衡的汉字分组测试系统包括以下模块：

列表遍历模块，用于在变形字列表中取字，具体地，按顺序将汉字列表读入内存，并将数据交给词汇判断模块。

分组存储模块，用于存储列表遍历模块已取的字，具体地，将列表遍历模块所取的字经过词汇判断和阈值判断之后，存储于分组存储模块。

词汇判断模块，用于判断列表遍历模块所取的字与分组存储模块中的字是否能组成词汇，具体地，列表遍历模块每取到一个字，若能与分组中已存在的字组成词语，则匹配失败并遍历下一个字，如不能，则匹配成功并将该字加入分组。

阈值判断模块，用于判断分组存储模块中的字频总和是否达到阈值，具体地，每取到一个字，判断该组字的字频总和是否超过(总字频/组数)+误差值，如超过，则放弃该字遍历下一个字，反之则将该字加入分组。

如图6所示，基于字词平衡的汉字分组测试系统还包括以下模块：

分组判断模块，用于判断输入的分组是否包含所有变形字，具体地，将所有分组中的字数相加，判断是否与变形字集合中包含的变形字数量匹配，若匹配成功，则生成一个新的分组；若匹配失败，则随机初始化变形字列表，重新完成分组步骤。

嵌入率测试模块，用于计算分组的平均嵌入率。

本发明实施例进一步给出实现上述方法实施例的应用场景和实施例的生成结果示意图。

参考图1，为本发明实施例的应用场景示意图。

如图1所示，给定一个待识别文档，溯源工具首先识别文档中变形字的字形编码，获取其对应的比特信息，再识别出该字所在的分组，组内纠错后得到该组的比特信息，最终按照分组顺序获取完整的身份码。当待识别文档中的字数较少或正确识别的变形字较少时，本发明实施例能够提供一种汉字平衡分布的分组，使得身份信息能够完整提取。

参考图7，为本发明实施例的分组结果示意图。

如图7所示，分组的结果作为一种配置文件在溯源工具中使用，保存的方式为txt文件，文件中的每一行为一组。在嵌入信息时，需要读取该分组文件，获取每个变形字的字形编码，在提取信息时，同样要读取该分组文件，以获取每一组对应的比特信息，最终组合成身份码。

基于实施例1，本发明还提供了计算机可读存储介质，包括计算机可执行指令，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述任一实施方式所述的汉字分组及测试方法的步骤。

为了进一步证明本方案具有普遍性，选取了THUCnews新闻文本数据集作为测试集；共选取了1000个汉字用作变形字，其中950字为2比特字，另50字为1比特字；每次选取300个字符，滑动距离设为20个字符；同时选取了目前使用较多的等长分组作为对照组，测试集的实验结果如下表1所示。可以看出，基于字词平衡的分组方法较等长分组的嵌入率提升了约9.9％，比只考虑字频的分组方法提升了4.9％。因此，本方案实现了不错的性能。

表1各类分组方法下的平均嵌入率数据表

本发明统计了大量中文数据集，计算出字频，通过将字频均匀分布在每组中，使得高频字与低频字能够互相补充；将数据集进行分词处理，统计数据集中的词频，在分组时避免同一组中高频词的出现；(2)本发明还把结构简单的高频字单独地分为2组，承载了一部分比特信息，提高了整体分组的频率；(3)本发明还提供了一种计算平均嵌入率的方法，将本发明提出的方法与现有方法作对比，得到了较好的嵌入率结果。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于字词平衡的汉字分组测试方法，其特征在于，包括如下步骤：

S2，计算需要进行分组的数量；

2.根据权利要求1所述的基于字词平衡的汉字分组测试方法，其特征在于，步骤S1包括如下步骤：

S11，遍历中文文本数据集，统计汉字字频并进行排序；

3.根据权利要求2所述的基于字词平衡的汉字分组测试方法，其特征在于，步骤S2包括如下步骤：

S22，计算k＝length/2，k为只使用2比特字时的组数；

4.根据权利要求3所述的基于字词平衡的汉字分组测试方法，其特征在于，步骤S3包括如下步骤：

5.根据权利要求4所述的基于字词平衡的汉字分组测试方法，其特征在于，步骤S4包括如下步骤：

S42，按步骤S41遍历步骤S1所得的中文文本数据集；

S43，将成功嵌入的次数与判断次数相除，得出平均嵌入率。

6.基于字词平衡的汉字分组测试系统，用于实现权利要求1-5任一项所述的基于字词平衡的汉字分组测试方法，其特征在于，所述基于字词平衡的汉字分组测试系统包括：

列表遍历模块，用于在变形字列表中取字；

分组存储模块，用于存储列表遍历模块已取的字；

7.根据权利要求6所述基于字词平衡的汉字分组测试系统，其特征在于，还包括：

分组判断模块，用于判断输入的分组是否包含所有变形字。

8.根据权利要求7所述基于字词平衡的汉字分组测试系统，其特征在于，还包括：

嵌入率测试模块，用于计算分组的平均嵌入率。

9.计算机可读存储介质，其特征在于，包括计算机可执行指令，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行权利要求1-5中任一项所述的基于字词平衡的汉字分组测试方法的步骤。