CN116956168B

CN116956168B - 文本水印处理方法、装置、电子设备及存储介质

Info

Publication number: CN116956168B
Application number: CN202311198457.3A
Authority: CN
Inventors: 吴海燕; 付大伟
Original assignee: Yunli Intelligent Technology Co ltd
Current assignee: Yunli Intelligent Technology Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-01-02
Anticipated expiration: 2043-09-18
Also published as: CN116956168A

Abstract

本发明提供一种文本水印处理方法、装置、电子设备及存储介质，涉及水印技术领域，该方法包括：获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；基于第一水印指纹信息向多个第二字符位置嵌入水印。本发明可以在提升水印处理效率的同时提升水印隐蔽性和安全性。

Description

文本水印处理方法、装置、电子设备及存储介质

技术领域

本发明涉及水印技术领域，尤其涉及一种文本水印处理方法、装置、电子设备及存储介质。

背景技术

数字水印作为一种新颖的信息隐藏技术，为解决开放性网络上的版权保护、来源认证、篡改认证、网上发行、用户跟踪和身份认证等一系列问题提供了崭新的解决思路。

目前，通常选择全量数据进行水印的嵌入，具体地，将全量数据按照主键进行分组，并逐条嵌入水印。然而，该方案的水印处理效率较低，并且会对文本数据造成大量污染，影响嵌入水印后的数据使用范围。

如果按照规律抽取固定一部分的数据进行水印嵌入，可以克服上述缺陷。通常做法是将文本数据的某行某列看作一个整体，再依据数据类型在最前或最后嵌入水印。例如字符串类型，一般是在文本数据的最后嵌入N个空格。然而，该方案在整行整列进行水印嵌入时，容易被用户发现并手动清除该特征，水印隐蔽性和安全性较低。

因此，现有技术的不足在于：不能在提升水印处理效率的同时提升水印隐蔽性和安全性。

发明内容

本发明提供一种文本水印处理方法、装置、电子设备及存储介质，用以解决现有技术中不能在提升水印处理效率的同时提升水印隐蔽性和安全性的缺陷。

本发明提供一种文本水印处理方法，包括：

获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；所述支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；所述多个第一字符位置形成预设形状，且所述多个第一字符位置处于所述原始文本矩阵的非边缘位置；

将所述目标文本矩阵中各字符的特征向量输入所述支持向量机模型中进行处理，得到所述目标文本矩阵中待嵌入水印的多个第二字符位置；

基于所述第一水印指纹信息向所述多个第二字符位置嵌入水印。

根据本发明提供的一种文本水印处理方法，通过以下步骤获取所述支持向量机模型：

针对原始文本训练集中的每个原始文本，基于所述原始文本中的各字符建立所述原始文本矩阵，并基于所述原始文本矩阵中每个字符的多个特征建立所述原始文本矩阵中每个字符的特征向量；

获取每个所述原始文本矩阵中需要嵌入水印的多个第一字符位置；所述多个第一字符位置形成预设形状，且所述多个第一字符位置处于所述原始文本矩阵的非边缘位置；

基于所述原始文本训练集对应的各所述原始文本矩阵中每个字符的特征向量和所述需要嵌入水印的多个第一字符位置，对初始支持向量机模型进行训练，得到所述支持向量机模型。

根据本发明提供的一种文本水印处理方法，在得到所述支持向量机模型之后，还包括：

采用原始文本测试集对所述支持向量机模型进行测试，得到所述支持向量机模型的准确度；

在所述支持向量机模型的准确度超过预设阈值的情况下，输出可执行的所述支持向量机模型。

根据本发明提供的一种文本水印处理方法，通过以下步骤获取所述第一水印指纹信息：

获取预设的水印内容，并基于所述预设的水印内容生成预设位数的0-1序列，作为所述第一水印指纹信息。

根据本发明提供的一种文本水印处理方法，所述基于所述第一水印指纹信息向所述多个第二字符位置嵌入水印，包括：

针对每个所述第二字符位置，基于所述预设的水印内容对应的水印密钥、所述第二字符位置的字符内容和所述第一水印指纹信息确定所述第二字符位置需要嵌入的空格的第一数量；

将所述第一数量的空格嵌入到所述第二字符位置的字符内容的前面或后面，得到所述第二字符位置嵌入水印后的内容；

将所述目标文本矩阵中所述第二字符位置的字符内容替换成所述第二字符位置嵌入水印后的内容，得到目标嵌入文本矩阵。

根据本发明提供的一种文本水印处理方法，所述基于所述预设的水印内容对应的水印密钥、所述第二字符位置的字符内容和所述第一水印指纹信息确定所述第二字符位置需要嵌入的空格的第一数量，包括：

对所述第二字符位置的字符内容和所述预设的水印内容对应的水印密钥的拼接序列进行哈希计算，得到第一哈希序列；

对所述预设的水印内容对应的水印密钥和所述第一哈希序列的拼接序列进行哈希计算，得到第二哈希序列；

将所述第二哈希序列与所述预设位数进行取模计算，得到第一数值；所述第一数值大于或等于0，且小于或等于所述预设位数减1得到的差值；

确定所述第一水印指纹信息中与所述第一数值对应的第一序列元素；

基于所述第一序列元素确定所述第二字符位置需要嵌入的空格的第一数量。

根据本发明提供的一种文本水印处理方法，所述方法还包括：

获取所述目标嵌入文本矩阵，并基于所述目标嵌入文本矩阵中每个字符的多个特征建立所述目标嵌入文本矩阵中每个字符的特征向量；

将所述目标嵌入文本矩阵中每个字符的特征向量输入所述支持向量机模型中进行处理，得到待提取水印的多个第三字符位置；

对所述第三字符位置的字符内容和所述预设的水印内容对应的水印密钥的拼接序列进行哈希计算，得到第三哈希序列；

对所述预设的水印内容对应的水印密钥和所述第三哈希序列的拼接序列进行哈希计算，得到第四哈希序列；

将所述第四哈希序列与所述预设位数进行取模计算，得到第二数值；所述第二数值大于或等于0，且小于或等于所述预设位数减1得到的差值；

根据每个所述第三字符位置的空格的第二数量确定所述第二数值对应的第二序列元素；

按照各所述第二数值，将各所述第二数值对应的第二序列元素进行拼接，得到第二水印指纹信息；

计算所述第二水印指纹信息与所述第一水印指纹信息之间的相似度，在所述相似度超过预设相似度阈值的情况下，确定所述第二水印指纹信息对应的水印内容为所述预设的水印内容。

本发明还提供一种文本水印处理装置，包括：

获取模块，用于获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；所述支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；所述多个第一字符位置形成预设形状，且所述多个第一字符位置处于所述原始文本矩阵的非边缘位置；

处理模块，用于将所述目标文本矩阵中各字符的特征向量输入所述支持向量机模型中进行处理，得到所述目标文本矩阵中待嵌入水印的多个第二字符位置；

嵌入模块，用于基于所述第一水印指纹信息向所述多个第二字符位置嵌入水印。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的文本水印处理方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的文本水印处理方法的步骤。

本发明提供的文本水印处理方法、装置、电子设备及存储介质，首先，获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；而后，将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；最后，基于第一水印指纹信息向多个第二字符位置嵌入水印；由于在模型训练时多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置，在模型应用时得到的多个第二字符位置也遵循这种规律，一方面，仅在预设形状覆盖的多个第二字符位置嵌入水印，可以提升水印处理效率；另一方面，多个第二字符位置处于目标文本矩阵的非边缘位置，不会轻易被发现，水印隐蔽性和安全性较高。因此，本发明可以在提升水印处理效率的同时提升水印隐蔽性和安全性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文本水印处理方法的流程示意图；

图2是本发明实施例提供的支持向量机模型的训练示意图；

图3是本发明实施例提供的原始文本矩阵的示意图之一；

图4是本发明实施例提供的原始文本矩阵的示意图之二；

图5是本发明实施例提供的原始文本矩阵的示意图之三；

图6是本发明实施例提供的文本水印提取方法的流程示意图；

图7是本发明实施例提供的文本水印处理装置的结构示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图5描述本发明的文本水印处理方法。

请参照图1，图1是本发明实施例提供的文本水印处理方法的流程示意图。如图1所示，该方法可以包括以下步骤：

步骤101、获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；

步骤102、将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；

步骤103、基于第一水印指纹信息向多个第二字符位置嵌入水印。

在步骤101中，支持向量机（Support Vector Machine，SVM）模型是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。

原始文本矩阵包括M行N列的矩阵元素，每个矩阵元素为一个字符，例如：中文、英文、数字、标点符号等字符。

原始文本矩阵中每个字符的特征向量由多个维度的特征值组成，每个维度的特征值为0或1。示例性地，多个维度可以包括：奇偶行、奇偶列、字段内容长度是否大于3、行号在总行号中是否超过50%、是否为第一列、是否为最末列、是否含数字、是否含字母、是否含中文、是否为空等二十个维度的向量。根据每个维度的特征确定该维度的特征值为0或1，最终得到二十个维度的特征向量[10110010111100001010]。

需要嵌入水印的多个第一字符位置，可以由人工标注得到。示例性地，人工标注预设形状为“Y”型的多个第一字符位置，且标注的多个第一字符位置处于原始文本矩阵的非边缘位置。本实施例不限于预设形状为“Y”型，还可以为其他形状。

支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的，可以学习到上述字符位置的标注规律，从而可以分辨出任意一个文本矩阵中哪些字符位置需要嵌入水印。

目标文本矩阵包括M1行N1列的矩阵元素，每个矩阵元素为一个字符，例如：中文、英文、数字、标点符号等字符。

目标文本矩阵中每个字符的特征向量也是由多个维度的特征值组成，每个维度的特征值为0或1。

可选地，通过以下步骤获取第一水印指纹信息：获取预设的水印内容，并基于预设的水印内容生成预设位数的0-1序列，作为第一水印指纹信息。

示例性地，预设的水印内容可以为“XX公司水印数据”，可以将预设的水印内容存入数据库中，作为生成水印密钥的依据。例如“XX公司水印数据”对应的水印密钥为“tyxhxx”。

预设位数可以为25，给“XX公司水印数据”分配一个25位的0-1序列，作为第一水印指纹信息。例如，第一水印指纹信息为“0110000001001010101010111”。

在步骤102中，将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，支持向量机模型将目标文本矩阵中的各字符进行分类，一类字符是需要添加水印，另一类字符是无需添加水印，最终得到目标文本矩阵中需要添加水印的多个字符的位置，即目标文本矩阵中待嵌入水印的多个第二字符位置。

在步骤103中，基于第一水印指纹信息向多个第二字符位置嵌入水印，由于在模型训练时多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置，在模型应用时得到的多个第二字符位置也遵循这种规律，一方面，仅在预设形状的多个第二字符位置嵌入水印，可以提升水印处理效率；另一方面，多个第二字符位置处于目标文本矩阵的非边缘位置，不会轻易被发现，水印隐蔽性和安全性较高。

本发明实施例提供的文本水印处理方法，首先，获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；而后，将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；最后，基于第一水印指纹信息向多个第二字符位置嵌入水印；由于在模型训练时多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置，在模型应用时得到的多个第二字符位置也遵循这种规律，一方面，仅在预设形状覆盖的多个第二字符位置嵌入水印，可以提升水印处理效率；另一方面，多个第二字符位置处于目标文本矩阵的非边缘位置，不会轻易被发现，水印隐蔽性和安全性较高。因此，本发明实施例可以在提升水印处理效率的同时提升水印隐蔽性和安全性。

在一种示例实施例中，如图2所示，可以通过以下步骤获取支持向量机模型：

步骤201、针对原始文本训练集中的每个原始文本，基于原始文本中的各字符建立原始文本矩阵，并基于原始文本矩阵中每个字符的多个特征建立原始文本矩阵中每个字符的特征向量；

步骤202、获取每个原始文本矩阵中需要嵌入水印的多个第一字符位置；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；

步骤203、基于原始文本训练集对应的各原始文本矩阵中每个字符的特征向量和需要嵌入水印的多个第一字符位置，对初始支持向量机模型进行训练，得到支持向量机模型。

在步骤201中，原始文本训练集中包括若干原始文本，原始文本通常包括多行多列的字符，以每个字符作为一个最小单元，可以将原始文本转换为原始文本矩阵。

示例性地，原始文本矩阵中每个字符的多个特征可以包括：奇偶行、奇偶列、字段内容长度是否大于3、行号在总行号中是否超过50%、是否为第一列、是否为最末列、是否含数字、是否含字母、是否含中文、是否为空等二十个维度的特征。根据字符的每个特征确定该维度的特征值为0或1，最终得到二十个维度的特征向量[10110010111100001010]。

在步骤202中，在模型训练之前，可以人工预先标注每个原始文本矩阵中需要嵌入水印的多个第一字符位置。示例性地，人工标注预设形状为“Y”型的多个第一字符位置，且标注的多个第一字符位置处于原始文本矩阵的非边缘位置。本实施例不限于预设形状为“Y”型，还可以为其他形状。

如图3所示，对于尺寸较小的原始文本矩阵，“Y”型覆盖的每个网格包括一个字符单元格，并且“Y”型覆盖的最外侧字符位置与原始文本矩阵的边缘位置至少间隔一个字符单元格。

如图4所示，对于中型尺寸的原始文本矩阵，“Y”型覆盖的每个网格包括2*2个字符单元格，并且“Y”型覆盖的最外侧字符位置与原始文本矩阵的边缘位置至少间隔一个字符单元格。

如图5所示，对于大型尺寸的原始文本矩阵，“Y”型覆盖的每个网格包括4*2个字符单元格，并且“Y”型覆盖的最外侧字符位置与原始文本矩阵的边缘位置至少间隔一个字符单元格。

需要说明的是，图3-图5仅用于教导本领域技术人员如何标注预设形状的多个第一字符位置，本实施例不限于此。

在步骤203中，基于原始文本训练集对应的各原始文本矩阵中每个字符的特征向量和需要嵌入水印的多个第一字符位置，对初始支持向量机模型进行训练，可以学习到上述字符位置的标注规律，从而可以分辨出任意一个文本矩阵中哪些字符位置需要嵌入水印。

在本实施例中，基于原始文本训练集对应的各原始文本矩阵中每个字符的特征向量和需要嵌入水印的多个第一字符位置，对初始支持向量机模型进行训练，由于在模型训练时多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置，支持向量机模型可以学习到上述字符位置的标注规律，从而可以分辨出任意一个文本矩阵中哪些字符位置需要嵌入水印。

在一种示例实施例中，在得到支持向量机模型之后，还包括：采用原始文本测试集对支持向量机模型进行测试，得到支持向量机模型的准确度；在支持向量机模型的准确度超过预设阈值的情况下，输出可执行的支持向量机模型。

示例性地，预设阈值可以为95%，采用原始文本测试集对支持向量机模型进行测试，当支持向量机模型的准确度超过95%时，认为支持向量机模型可用，输出可执行的支持向量机模型。

在本实施例中，在获得训练好的支持向量机模型之后，还对支持向量机模型的准确度进行了验证，在验证通过后才会使用支持向量机模型，可以获得更准确的支持向量机模型。

在一种示例实施例中，步骤103可以包括以下子步骤：

步骤1031、针对每个第二字符位置，基于预设的水印内容对应的水印密钥、第二字符位置的字符内容和第一水印指纹信息确定第二字符位置需要嵌入的空格的第一数量；

步骤1032、将第一数量的空格嵌入到第二字符位置的字符内容的前面或后面，得到第二字符位置嵌入水印后的内容；

步骤1033、将目标文本矩阵中第二字符位置的字符内容替换成第二字符位置嵌入水印后的内容，得到目标嵌入文本矩阵。

在步骤1031中，示例性地，预设的水印内容为“XX公司水印数据”，“XX公司水印数据”对应的水印密钥为“tyxhxx”，第二字符位置的字符内容为“hello”，第一水印指纹信息为“0110000001001010101010111”。

针对当前第二字符位置，基于“tyxhxx”、“XX公司水印数据”和“0110000001001010101010111”确定“hello”的字符位置需要嵌入的空格数量为2。

在步骤1032中，将2个空格嵌入到“hello”的后面，得到“hello ”。或者，将2个空格嵌入到“hello”的前面，得到“ hello”。

在步骤1033中，将目标文本矩阵中“hello”替换成“hello ”或“ hello”，在目标文本矩阵中所有第二字符位置的字符内容全部替换完毕后，得到目标嵌入文本矩阵。并将目标嵌入文本矩阵以逗号分隔值（Comma-Separated Values，csv）文件格式输出。

在本实施例中，可以基于第一水印指纹信息实现多个第二字符位置的水印嵌入。

在一种示例实施例中，步骤1031可以包括以下子步骤：

步骤10311、对第二字符位置的字符内容和预设的水印内容对应的水印密钥的拼接序列进行哈希计算，得到第一哈希序列；

步骤10312、对预设的水印内容对应的水印密钥和第一哈希序列的拼接序列进行哈希计算，得到第二哈希序列；

步骤10313、将第二哈希序列与预设位数进行取模计算，得到第一数值；第一数值大于或等于0，且小于或等于预设位数减1得到的差值；

步骤10314、确定第一水印指纹信息中与第一数值对应的第一序列元素；

步骤10315、基于第一序列元素确定第二字符位置需要嵌入的空格的第一数量。

在步骤10311中，通过Hash(Ks||row.Item)计算第一哈希序列，其中，Ks表示预设的水印内容对应的水印密钥，row.Item表示第二字符位置的字符内容，Ks||row.Item表示第二字符位置的字符内容和预设的水印内容对应的水印密钥的拼接序列，Hash（）表示哈希函数。

示例性地，第二字符位置的字符内容为“hello”，预设的水印内容为“XX公司水印数据”，“XX公司水印数据”对应的水印密钥为“tyxhxx”，“hello”与“tyxhxx”的拼接序列为“hellotyxhxx”，对“hellotyxhxx”进行哈希计算，得到第一哈希序列“172529503”。

在步骤10312中，通过Hash(Ks||Hash(Ks||row.Item))计算第二哈希序列。

示例性地，“tyxhxx”与“172529503”的拼接序列为“tyxhxx172529503”，对“tyxhxx172529503”进行哈希计算，得到第二哈希序列“449436401”。

在步骤10313中，通过Hash(Ks||Hash(Ks||row.Item))mod p计算第一数值，其中，p表示预设位数。

示例性地，预设位数为25，将“449436401”与25进行取模计算，得到1，即第一数值为1。

在步骤10314中，关于第一数值与第一水印指纹信息中各序列元素的对应关系，示例性地，第一数值为0，对应第一水印指纹信息中第1个序列元素；第一数值为1，对应第一水印指纹信息中第2个序列元素；…；第一数值为24，对应第一水印指纹信息中第25个序列元素。

假设第一水印指纹信息为“0110000001001010101010111”，第一数值“1”对应第一水印指纹信息中第2个序列元素，即第一序列元素为“1”。

在步骤10315中，示例性地，第一序列元素为“0”，第二字符位置需要嵌入的空格的第一数量为1；第一序列元素为“1”，第二字符位置需要嵌入的空格的第一数量为2。

假设第一序列元素为“1”，意味着第二字符位置需要嵌入的空格的第一数量为2。

在本实施例中，对第二字符位置的字符内容和预设的水印内容对应的水印密钥，进行两次哈希计算，可以很大程度避免数据相似性。比如，两个相似的数据（hello hallo），通过这种方法计算得到的哈希值差异很大，能够避免被其他人找到规律。

在通过上述实施例进行水印嵌入之后，下面对文本水印提取方法进行具体说明。

请参照图6，图6是本发明实施例提供的文本水印提取方法的流程示意图。如图6所示，该方法可以包括以下步骤：

步骤601、获取目标嵌入文本矩阵，并基于目标嵌入文本矩阵中每个字符的多个特征建立目标嵌入文本矩阵中每个字符的特征向量；

步骤602、将目标嵌入文本矩阵中每个字符的特征向量输入支持向量机模型中进行处理，得到待提取水印的多个第三字符位置；

步骤603、对第三字符位置的字符内容和预设的水印内容对应的水印密钥的拼接序列进行哈希计算，得到第三哈希序列；

步骤604、对预设的水印内容对应的水印密钥和第三哈希序列的拼接序列进行哈希计算，得到第四哈希序列；

步骤605、将第四哈希序列与预设位数进行取模计算，得到第二数值；第二数值大于或等于0，且小于或等于预设位数减1得到的差值；

步骤606、根据每个第三字符位置的空格的第二数量确定第二数值对应的第二序列元素；

步骤607、按照各第二数值，将各第二数值对应的第二序列元素进行拼接，得到第二水印指纹信息；

步骤608、计算第二水印指纹信息与第一水印指纹信息之间的相似度，在相似度超过预设相似度阈值的情况下，确定第二水印指纹信息对应的水印内容为预设的水印内容。

在步骤601中，读取上述步骤1033得到的csv文件，并解析csv文件可得到目标嵌入文本矩阵。

在步骤602中，将目标嵌入文本矩阵中每个字符的特征向量输入支持向量机模型中进行处理，得到待提取水印的多个第三字符位置，由于在模型训练时多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置，在模型应用时得到的多个第三字符位置也遵循这种规律。

在步骤603、通过Hash(Ks||row.Item1)计算第三哈希序列，其中，row.Item1表示第三字符位置的字符内容，Ks表示预设的水印内容对应的水印密钥，Ks||row.Item1表示第三字符位置的字符内容和预设的水印内容对应的水印密钥的拼接序列，Hash（）表示哈希函数。

在步骤604中，通过Hash(Ks||Hash(Ks||row.Item1))计算第二哈希序列。

在步骤605中，通过Hash(Ks||Hash(Ks||row.Item1))mod p计算第二数值。

在步骤606中，查询每个第三字符位置的空格的第二数量，示例性地，第二数量为“1”，第二序列元素为“0”；第二数量为“2”，第二序列元素为“1”。

在步骤607中，关于第二数值与序列元素的对应关系，示例性地，第二数值为0，对应第1个序列元素；第二数值为1，对应第2个序列元素；…；第二数值为24，对应第25个序列元素。将得到的25个序列元素按顺序进行拼接，可得到25位0-1序列，即第二水印指纹信息。

在步骤608中，示例性地，预设相似度阈值为70%。由于csv文件数据被更改或被移动而导致第二水印指纹信息与第一水印指纹信息无法完全一致，计算第二水印指纹信息与第一水印指纹信息之间的相似度，在相似度超过70%的情况下，确定第二水印指纹信息对应的水印内容为预设的水印内容。

在本实施例中，由于支持向量机模型在训练时多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置，在水印提取时得到的多个第三字符位置也遵循这种规律，一方面，仅在预设形状覆盖的多个第三字符位置提取水印，可以提升水印提取效率；另一方面，多个第三字符位置处于目标嵌入文本矩阵的非边缘位置，不会轻易被发现，水印隐蔽性和安全性较高。因此，本实施例可以在提升水印提取效率的同时提升水印隐蔽性和安全性。

下面对本发明提供的文本水印处理装置进行描述，下文描述的文本水印处理装置与上文描述的文本水印处理方法可相互对应参照。

请参照图7，图7是本发明实施例提供的文本水印处理装置的结构示意图。如图7所示，该装置可以包括：

获取模块10，用于获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；

处理模块20，用于将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；

嵌入模块30，用于基于第一水印指纹信息向多个第二字符位置嵌入水印。

在一种示例实施例中，获取模块10包括训练单元，训练单元具体用于：

针对原始文本训练集中的每个原始文本，基于原始文本中的各字符建立原始文本矩阵，并基于原始文本矩阵中每个字符的多个特征建立原始文本矩阵中每个字符的特征向量；

获取每个原始文本矩阵中需要嵌入水印的多个第一字符位置；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；

基于原始文本训练集对应的各原始文本矩阵中每个字符的特征向量和需要嵌入水印的多个第一字符位置，对初始支持向量机模型进行训练，得到支持向量机模型。

在一种示例实施例中，获取模块10还包括测试单元，测试单元具体用于：

采用原始文本测试集对支持向量机模型进行测试，得到支持向量机模型的准确度；

在支持向量机模型的准确度超过预设阈值的情况下，输出可执行的支持向量机模型。

在一种示例实施例中，获取模块10还包括：

获取单元，用于获取预设的水印内容，并基于预设的水印内容生成预设位数的0-1序列，作为第一水印指纹信息。

在一种示例实施例中，嵌入模块30包括：

确定单元，用于针对每个第二字符位置，基于预设的水印内容对应的水印密钥、第二字符位置的字符内容和第一水印指纹信息确定第二字符位置需要嵌入的空格的第一数量；

嵌入单元，用于将第一数量的空格嵌入到第二字符位置的字符内容的前面或后面，得到第二字符位置嵌入水印后的内容；

替换单元，用于将目标文本矩阵中第二字符位置的字符内容替换成第二字符位置嵌入水印后的内容，得到目标嵌入文本矩阵。

在一种示例实施例中，确定单元具体用于：

对第二字符位置的字符内容和预设的水印内容对应的水印密钥的拼接序列进行哈希计算，得到第一哈希序列；

对预设的水印内容对应的水印密钥和第一哈希序列的拼接序列进行哈希计算，得到第二哈希序列；

将第二哈希序列与预设位数进行取模计算，得到第一数值；第一数值大于或等于0，且小于或等于预设位数减1得到的差值；

确定第一水印指纹信息中与第一数值对应的第一序列元素；

基于第一序列元素确定第二字符位置需要嵌入的空格的第一数量。

在一种示例实施例中，该装置还包括提取模块，提取模块具体用于：

获取目标嵌入文本矩阵，并基于目标嵌入文本矩阵中每个字符的多个特征建立目标嵌入文本矩阵中每个字符的特征向量；

将目标嵌入文本矩阵中每个字符的特征向量输入支持向量机模型中进行处理，得到待提取水印的多个第三字符位置；

对第三字符位置的字符内容和预设的水印内容对应的水印密钥的拼接序列进行哈希计算，得到第三哈希序列；

对预设的水印内容对应的水印密钥和第三哈希序列的拼接序列进行哈希计算，得到第四哈希序列；

将第四哈希序列与预设位数进行取模计算，得到第二数值；第二数值大于或等于0，且小于或等于预设位数减1得到的差值；

根据每个第三字符位置的空格的第二数量确定第二数值对应的第二序列元素；

按照各第二数值，将各第二数值对应的第二序列元素进行拼接，得到第二水印指纹信息；

计算第二水印指纹信息与第一水印指纹信息之间的相似度，在相似度超过预设相似度阈值的情况下，确定第二水印指纹信息对应的水印内容为预设的水印内容。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行文本水印处理方法，该方法包括：获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；基于第一水印指纹信息向多个第二字符位置嵌入水印。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本水印处理方法，该方法包括：获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；基于第一水印指纹信息向多个第二字符位置嵌入水印。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本水印处理方法，该方法包括：获取支持向量机模型、目标文本矩阵中各字符的特征向量和第一水印指纹信息；支持向量机模型是基于多个原始文本矩阵中各字符的特征向量和需要嵌入水印的多个第一字符位置训练得到的；多个第一字符位置形成预设形状，且多个第一字符位置处于原始文本矩阵的非边缘位置；将目标文本矩阵中各字符的特征向量输入支持向量机模型中进行处理，得到目标文本矩阵中待嵌入水印的多个第二字符位置；基于第一水印指纹信息向多个第二字符位置嵌入水印。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本水印处理方法，其特征在于，包括：

基于所述第一水印指纹信息向所述多个第二字符位置嵌入水印；

其中，通过以下步骤获取所述第一水印指纹信息：

获取预设的水印内容，并基于所述预设的水印内容生成预设位数的0-1序列，作为所述第一水印指纹信息；

所述基于所述第一水印指纹信息向所述多个第二字符位置嵌入水印，包括：

将所述目标文本矩阵中所述第二字符位置的字符内容替换成所述第二字符位置嵌入水印后的内容，得到目标嵌入文本矩阵；

所述基于所述预设的水印内容对应的水印密钥、所述第二字符位置的字符内容和所述第一水印指纹信息确定所述第二字符位置需要嵌入的空格的第一数量，包括：

2.根据权利要求1所述的文本水印处理方法，其特征在于，通过以下步骤获取所述支持向量机模型：

3.根据权利要求2所述的文本水印处理方法，其特征在于，在得到所述支持向量机模型之后，还包括：

4.根据权利要求1所述的文本水印处理方法，其特征在于，所述方法还包括：

5.一种文本水印处理装置，其特征在于，包括：

嵌入模块，用于基于所述第一水印指纹信息向所述多个第二字符位置嵌入水印；

所述获取模块还包括：

获取单元，用于获取预设的水印内容，并基于所述预设的水印内容生成预设位数的0-1序列，作为所述第一水印指纹信息；

嵌入模块包括：

确定单元，用于针对每个所述第二字符位置，基于所述预设的水印内容对应的水印密钥、所述第二字符位置的字符内容和所述第一水印指纹信息确定所述第二字符位置需要嵌入的空格的第一数量；

嵌入单元，用于将所述第一数量的空格嵌入到所述第二字符位置的字符内容的前面或后面，得到所述第二字符位置嵌入水印后的内容；

替换单元，用于将所述目标文本矩阵中所述第二字符位置的字符内容替换成所述第二字符位置嵌入水印后的内容，得到目标嵌入文本矩阵；

所述确定单元具体用于：

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的文本水印处理方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的文本水印处理方法的步骤。