CN117668787B

CN117668787B - 基于卷积神经网络的电子文档识别加密及防伪检测方法

Info

Publication number: CN117668787B
Application number: CN202311654510.6A
Authority: CN
Inventors: 陈荣元; 王金; 钟炎容; 周鲜成; 周开军; 申立智
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-06-14
Anticipated expiration: 2043-12-04
Also published as: CN117668787A

Abstract

本发明公开了一种基于卷积神经网络的电子文档识别加密及防伪检测方法，通过对电子印章进行加密；获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类；根据待加密电子文档的分类，对待加密电子文档进行加密设计；在待加密电子文档中加入时间戳；获取电子文档建立和修改的时间并将其进行编码，作为时间戳信息指纹；提取待加密电子文档的文本信息指纹；结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印；将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定。本发明提高了数据和文档的安全性、可信度和可追溯性。

Description

基于卷积神经网络的电子文档识别加密及防伪检测方法

技术领域

本发明涉及电子文档加密和防伪检测技术领域，尤其公开了一种基于卷积神经网络的电子文档识别加密及防伪检测方法。

背景技术

电子文档加密是在电子文档上添加真实防伪技术，用于打假。纸质文件防伪，采取一些特殊的防伪打印技术和方法。采用各种防伪技术，让各类纸质输出的文件具有防止伪造、防复制、防篡改效果的特质，加密的防伪技术，添加到文件上，从而进行防伪。

申请公开号为CN111177666A的专利文献中公开了一种基于脆弱水印的司法文书防伪防篡改方法及系统，在生成PDF文档时，计算得到PDF文档中的需保护的内容的散列值，将其与从PDF文档中的特征要素文字合并，生成PDF文档的防伪防篡改特征指纹信息，经加密后作为水印添加到一个图片中，将添加了水印的图片添加到PDF文档中；验证PDF文档真实性时，计算得到待验证PDF文档中的需保护的内容的散列值，将其与从待验证PDF文档中的特征要素文字合并，生成待验证PDF文档的防伪防篡改特征指纹信息，然后将其与从待验证PDF文档中的图片中的水印中解密得到的防伪防篡改特征指纹信息进行对比，若一致，则待验证PDF文档真实未篡改，否则，待验证PDF文档伪造或被篡改。然而，该专利文献主要是PDF文档中的特征要素文字合并，生成PDF文档的防伪防篡改特征指纹信息，文档内容的安全性、可信度和可追溯性差。

因此，现有电子文档加密技术中存在的文档内容的安全性、可信度和可追溯性差，是目前亟待解决的技术问题。

发明内容

本发明提供了一种基于卷积神经网络的电子文档识别加密及防伪检测方法，旨在解决现有电子文档加密技术中存在的文档内容的安全性、可信度和可追溯性差的技术问题。

本发明涉及一种基于卷积神经网络的电子文档识别加密及防伪检测方法，包括以下步骤：

对电子印章进行加密；

获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类；

根据待加密电子文档的分类，对待加密电子文档进行加密设计；

提取待加密电子文档的时间戳信息，在加密电子文档中加入时间戳；将获取的电子文档建立和修改的时间进行编码作为时间戳信息指纹；

提取待加密电子文档的文本信息指纹；

结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印；

将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定；

将锁定页眉的加密电子文档与加密的电子印章进行融合；

将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改。

进一步地，对电子印章进行加密的步骤中，生成电子印章的量子随机数，并将生成的量子随机数作为密匙，采用非对称加密算法对密匙进行加密；同时设定电子印章密钥对的更新时间。

进一步地，获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类的步骤包括：

对输入的待加密电子文档进行预处理，将机密文档和非机密文档标记为不同的类型；

采用BERT模型对待加密电子文档进行编码，得到待加密电子文档的语义信息表示，并将其表示为向量形式；

采用CNN模型对BERT模型输出的文档向量进行卷积操作，CNN模型使用卷积核来提取文本的局部特征，采用池化操作将局部特征组合成全局特征；

将BERT模型输出的文档向量和CNN模型输出的全局特征向量拼接在一起，形成一个统一的特征表示；

对特征表示应用注意力机制，并对特征表示进行加权；

采用全连接层对特征表示进行分类，以对加密电子文档进行机密和非机密类型的分类。

进一步地，对输入的待加密电子文档进行预处理，将机密文档和非机密文档标记为不同的类型的步骤包括：

分词：采用最大匹配法将待加密电子文档按照设定的规则进行切分，得到词语的序列；

标记化：基于空格或标点符号划分，将分词后的词语转换为向量表示；

截断：采用定长截断方法对待加密电子文档进行处理，保证输入数据的维度一致；

填充：采用pad_sequences方法将所有句子的长度填充到相同的长度，以便输入到模型中进行处理；

去停用词：采用基于人工构建的停用词表，将常见的无实际含义的词汇通过加载停用词表进行去除；

对机密文档和非机密文档进行标记：将机密文档标记为1，非机密文档标记为0。

进一步地，采用BERT模型对待加密电子文档进行编码，得到待加密电子文档的语义信息表示，并将其表示为向量形式的步骤中，

将预处理后的文本序列作为BERT模型的输入，得到每个单词的向量表示，将所有单词的向量表示进行加权平均，得到整个文本序列的向量表示；将所有文本序列的向量进行加权平均，得到整个文档的向量表示；

采用BERT模型对每个文本序列进行处理，得到单词级别的向量表示：

其中，表示单词级别的向量表示，/>表示第i个单词的向量表示，m表示为第m个文本序列，/>表示每个文本序列的长度为n；

将每个单词的向量表示进行加权平均，得到文本序列的向量表示：

其中，表示整个文本序列S的向量表示，/>表示第i个单词的向量表示，/>表示第i个单词的权重；采用TF-IDFF算法计算单词的权重；

将每个文本序列的向量进行加权平均，得到整个文档的向量表示：

其中，表示整个文档的向量表示，/>表示第i个文本序列的向量表示，/>表示第i个文本序列的权重。

进一步地，采用CNN模型对BERT模型输出的文档向量进行卷积操作，CNN模型使用卷积核来提取文本的局部特征，采用池化操作将局部特征组合成全局特征的步骤中，

CNN模型将BERT模型输出的文档向量作为输入，采用多个不同大小的卷积核对输入进行卷积操作，得到一系列的卷积特征图，每个卷积核提取不同大小的局部特征，从而捕捉不同层次的语义信息；卷积操作将输入的向量序列转化为一系列的特征图，提取文本中的局部特征，CNN模型采用池化操作将局部特征组合成全局特征，采用最大池化提取局部特征中的最大值，将卷积特征图中的局部特征进行组合，得到全局特征，表示整个文本的语义信息。

进一步地，将BERT模型输出的文档向量和CNN模型输出的全局特征向量拼接在一起，形成一个统一的特征表示的步骤中，

对BERT模型输出的文本序列和CNN模型输出的局部及全局特征向量进行拼接，首先对BERT模型输出的文本序列和CNN模型输出的局部及全局特征向量进行维度匹配；然后BERT模型输出的文本序列和CNN模型输出的局部及全局特征向量拼接在一起；最后将拼接向量作为统一的特征表示；

对BERT模型的文档向量进行降维，使其与CNN模型的全局特征向量具有相同的维度，采用以下公式：

其中，是整个BERT模型的文档向量，/>是BERT模型输出的单个词向量，N是BERT的词向量数量；

使用线性变换来将转换为CNN模型输出的全局特征向量具有相同维度的向量，将两向量拼接在一起，采用以下公式：

其中，为统一的特征表示；/>是整个BERT模型的文档向量，/>是整个CNN模型的文档向量，[;]表示拼接操作，沿着行连接两个向量，得到concatenated_vector作为一个统一的特征表示。

进一步地，对特征表示应用注意力机制，并对特征表示进行加权的步骤包括：

首先将拼接后的特征作为输入，通过全连接层得到一个隐层向量；然后，将隐层向量作为注意力机制的输入，计算注意力权重，采用多头注意力机制，将隐层向量分为多个头，每个头都学习到不同的注意力权重，将注意力权重与拼接后的特征表示相乘，得到加权的特征表示；最后将加权后的特征表示通过一个输出层得到分类结果；

通过全连接层得到一个隐层向量H：

其中，为隐层向量，X为拼接后的特征矩阵，/>和/>分别为全连接层的权重和偏置，f为激活函数；

将隐藏向量作为注意力机制的输入，计算注意力权重为W：

其中，为注意力权重，/>为注意力机制的权重矩阵，g为激活函数，softmax为归一化函数；

采用多头注意力机制，将隐藏向量分为多个同意，每个头学习到不同的注意力权重，将注意力权重与拼接后的特征表示相乘，得到加权的特征表示：

其中，为加权的特征表示，/>表示第i个注意力头的输出，attn为点积注意力函数，/>表示第i个头的权重矩阵，concat为拼接函数，/>为多头注意力机制的权重矩阵；

将加权后的特征表示用过输出层得到分类结果：

其中，为分类结果，/>和/>分别为输出层的权重和偏置，softmax为归一化函数，g为激活函数，/>为加权的特征表示。

进一步地，根据待加密电子文档的分类，对待加密电子文档进行加密设计的步骤包括：

根据不同类型的电子文档进行不同的加密，判断电子文档是否为非机密类型，若是非机密类型，则采用对称加密算法方式进行加密；判断电子文档是否为机密类型，若是机密类型，则采用混合加密算法进行加密，混合加密算法是将对称加密算法和非对称加密算法相结合；

结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印的步骤包括：

获取文本信息指纹、以及文档的特征向量并将其编码为第一二进制序列；

采用SM3算法对第一二进制序列进行计算，得到一个固定长度的第一哈希值；

通过Unix时间戳获取创建电子文档时间和修改电子文档的时间，并将其编码为第二二进制序列；

将第一哈希值与第二二进制序列拼接在一起，形成第三二进制序列；

对第三二进制序列再次进行SM3计算，得到第二哈希值，作为第一防伪密文水印。

进一步地，将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定的步骤包括：

选取透明度较高的图片，调整其大小、颜色参数；

嵌入防伪密文水印，采用LSB将防伪密文水印嵌入到图片中；

将防伪密文水印图片嵌入到加密电子文档的页眉中，以便更好的防止文档数据的篡改；

将页眉数据锁定，再读取时进行解密以验证密文的完整性和正确性；

将锁定页眉的加密电子文档与加密的电子印章进行融合的步骤包括：

确定电子印章的放置位置，将PDF转换为图片格式，采用Canny算法确定电子印章放置位置；

采用图像合成方法融合电子印章与PDF文档；

将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改的步骤包括：

通过时间戳获取创建电子文档和修改电子文档的时间戳信息，将其转换为第四二进制序列，将加密电子文档内容编码为第五二进制序列，通过SM3算法计算第三哈希值，将获取的时间戳信息和第三哈希值重新结合采用SM3哈希算法计算重新生成密文数据；

通过比对从加密电子文档页眉中提取到的防伪密文和重新生成的密文数据，判别加密电子文档是否被篡改，若无法提取到防伪密文，则说明加密电子文档被篡改；若密文数据比对不一致，则说明加密电子文档被篡改；若密文数据比对一致，则说明加密电子文档没有被篡改。

本发明所取得的有益效果为：

本发明提供一种基于卷积神经网络的电子文档识别加密及防伪检测方法，对电子印章进行加密；获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类；根据待加密电子文档的分类，对待加密电子文档进行加密设计；提取加密电子文档的时间戳信息，在加密电子文档中加入时间戳；将获取的加密电子文档的编码作为时间戳信息指纹；提取加密电子文档的文本信息指纹；结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印；将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定；将锁定页眉的加密电子文档与加密的电子印章进行融合；将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改。本发明提供的基于卷积神经网络的电子文档识别加密及防伪检测方法，主要用以提高数据和文档的安全性、可信度和可追溯性，保护个人隐私和商业利益；采用量子随机数与非对称加密算法结合的方式对印章加密，自动识别电子文档的类型，根据电子文档的类型对其进行加密；在检测方面，本发明提取加密电子文档和时间戳的信息指纹，采用哈希函数对信息指纹进行计算，得到固定长度的哈希值作为防伪密文水印，将防伪密文水印嵌入到文档的页眉中，并将页眉锁定；接收者解密页眉，提取页眉中防伪密文水印与重新生成的防伪密文水印进行比对，完成对电子文档的防伪检测；本发明实现了较高的隐藏性，提高了检测效率和准确度。

附图说明

图1为本发明提供的基于卷积神经网络的电子文档识别加密及防伪检测方法一实施例的流程示意图；

图2为图1中所示的对电子印章进行加密的步骤一实施例的细化流程示意图；

图3为图1中所示的获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类的步骤一实施例的细化流程示意图；

图4为图1中所示的结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印的步骤一实施例的细化流程示意图；

图5为图1中所示的将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定的步骤一实施例的细化流程示意图；

图6为图1中所示的将锁定页眉的加密电子文档与加密的电子印章进行融合的步骤一实施例的细化流程示意图；

图7为图1中所示的将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改的步骤一实施例的细化流程示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

如图1所示，本发明第一实施例提出一种基于卷积神经网络的电子文档识别加密及防伪检测方法，包括以下步骤：

步骤S100、对电子印章进行加密。

采用量子随机数和非对称加密算法结合的方式对印章进行加密。具体地，电子印章的加密，通过生成量子随机数作为密匙，非对称加密算法对密匙进行加密。同时设定印章密钥对的更新时间，公钥可以发布到可信的存储库中，供外部用户获取和验证。

步骤S200、获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类。

传待加密电子文档，采用CNN模型对BERT模型提取的文本序列对待加密电子文档进行特征提取，同时使用注意力机制来强化重要区域的特征表达，最终获取待加密电子文档的特征信息；根据获取的特征信息，采用softmax方法对待加密电子文档进行分类。

待加密电子文档自动识别分类，上传的待加密电子文档格式固定为PDF格式。

模型训练与特征提取，采用CNN（Convolutional Neural Network，卷积神经网络）模型对待加密电子文档的特征进行提取，同时使用注意力机制来强化重要区域的特征表达，最终得到待加密电子文档的特征信息，根据待加密电子文档的特征信息对待加密电子文档进行分类。在本实施例中，待加密电子文档划分为非机密类型和机密类型。

步骤S300、根据待加密电子文档的分类，对待加密电子文档进行加密设计。

对不同类型的待加密电子文档进行不同的加密，具体地，判断待加密电子文档是否为非机密类型，若是，则采用对称加密算法方式进行加密。

判断待加密电子文档是否为机密类型，若是，则采用混合加密算法进行加密。其中，混合加密算法是将对称加密算法和非对称加密算法结合。

待加密电子文档加密后为加密电子文档。

步骤S400、提取待加密电子文档的时间戳信息，在待加密电子文档中加入时间戳；将获取的电子文档建立和修改的时间进行编码作为时间戳信息指纹。

提取加密电子文档的时间戳信息，在加密电子文档中加入时间戳；获取加密电子文档修改和建立文档的时间，并将获取的加密电子文档的编码作为时间戳信息指纹。

步骤S500、提取待加密电子文档的文本信息指纹。

提取加密电子文档的文本信息指纹，对加密电子文档进行哈希函数计算，得到加密电子文档固定长度的哈希值，将哈希值作为文本信息的文本信息指纹。

步骤S600、结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印。

结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，设计加密算法生成第一防伪密文水印。

步骤S700、将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定。

将第一防伪密文水印的嵌入到透明的图片中，将嵌入第一防伪密文水印的图片再次嵌入到加密电子文档的页眉中，将页眉锁定，防止篡改。

步骤S800、将锁定页眉的加密电子文档与加密的电子印章进行融合。

步骤S900、将在页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改。

将在页眉中提取的第二防伪密文水印与重新生成的第三防伪密文水印进行比对，检测测加密电子文档是否被篡改，从而完成对加密电子文档防伪的检测。

本实施例提供的基于卷积神经网络的电子文档识别加密及防伪检测方法，同现有技术相比，对电子印章进行加密；获取待加密电子文档的特征信息；根据特征信息对待加密电子文档进行分类；根据待加密电子文档的分类，对待加密电子文档进行加密设计；提取加密电子文档的时间戳信息，在加密电子文档中加入时间戳；将获取的加密电子文档的编码作为时间戳信息指纹；提取加密电子文档的文本信息指纹；结合文本信息指纹、时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印；将第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将页眉锁定；将锁定页眉的加密电子文档与加密的电子印章进行融合；将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改。本实施例提供的基于卷积神经网络的电子文档识别加密及防伪检测方法，主要用以提高数据和文档的安全性、可信度和可追溯性，保护个人隐私和商业利益；采用量子随机数与非对称加密算法结合的方式对印章加密，自动识别电子文档的类型，根据电子文档的类型对其进行加密；在检测方面，本发明提取加密电子文档和时间戳的信息指纹，采用哈希函数对信息指纹进行计算，得到固定长度的哈希值作为防伪密文水印，将防伪密文水印嵌入到文档的页眉中，并将页眉锁定；接收者解密页眉，提取页眉中防伪密文水印与重新生成的防伪密文水印进行比对，完成对电子文档的防伪检测；本实施例实现了较高的隐藏性，提高了检测效率和准确度。

进一步地，请见图2，图2为图1中所示的步骤S100一实施例的细化流程示意图，在本实施例中，步骤S100包括：

步骤S110、采用Qiskit的Quantum Circuit量子随机数生成器，生成256位的随机数，将随机数作为印章加密的对称密钥。

Qiskit为量子计算开源开发工具包。Quantum Circuit为量子电路，是一个（通过输入输出线路）非循环连接的量子门的集合。

步骤S120、上传待加密印章图片，将印章图片中的每个像素的RGB转换为8位二进制数，对该二进制数进行哈希运算，生成固定长度的哈希值，将其哈希值作为明文数据。

RGB是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是运用最广的颜色系统之一。

步骤S130、使用对称密钥对明文进行加密，得到密文数据，采用非对称加密算法的公钥对对称密钥进行加密，得到加密后的对称密钥。

步骤S140、将加密后的密钥和密文数据发送给接收方，接收方使用非对称加密算法的私钥得到对称密钥，使用对称密钥对密文数据进行解密。

本实施例提出的基于卷积神经网络的电子文档识别加密及防伪检测方法，使用Quantum Circuit量子随机数生成器产生的256位随机数是一个高强度的对称加密密钥，保证了传输数据的机密性。将每个像素的RGB转换为8位二进制数并进行哈希运算，可以加强数据的保密性和完整性，保护数据不被篡改或泄漏。利用非对称加密算法的公钥对对称密钥进行加密，避免了密钥在传输过程中被窃取或截获的风险。并且，在传输过程中，使用秘密的HTTPS（Hypertext Transfer Protocol Secure，超文本传输安全协议）协议或VPN（Virtual Private Network，虚拟专用网络）等安全通信协议来保护数据传输的安全性。通过量子随机数生成器生成的随机数作为印章加密的密钥，保证了密钥的安全性，并通过非对称加密算法对密钥进行加密，保证了密文在传输过程中的安全性。

优选地，参见图3，图3为图1中所示的步骤200一实施例的细化流程示意图，在本实施例中，步骤S200包括：

步骤S210、对输入的待加密电子文档进行预处理，将机密文档和非机密文档标记为不同的类型。

步骤S210包括：

步骤S211、分词：采用最大匹配法将待加密电子文档按照设定的规则进行切分，得到词语的序列。

步骤S212、标记化：基于空格或标点符号划分，将分词后的词语转换为向量表示。

步骤S213、截断：采用定长截断方法对待加密电子文档进行处理，保证输入数据的维度一致。

步骤S214、填充：采用pad_sequences方法将所有句子的长度填充到相同的长度，以便输入到模型中进行处理。

步骤S215、去停用词：采用基于人工构建的停用词表，将常见的无实际含义的词汇通过加载停用词表进行去除。

步骤S216、对机密文档和非机密文档进行标记：将机密文档标记为1，非机密文档标记为0。

步骤S220、采用BERT模型对待加密电子文档进行编码，得到待加密电子文档的语义信息表示，并将其表示为向量形式。

将预处理后的文本序列作为BERT（Bidirectional Encoder Representationsfrom Transformers）模型的输入，得到每个单词的向量表示，将所有单词的向量表示进行加权平均，得到整个文本序列的向量表示。将所有文本序列的向量进行加权平均，得到整个文档的向量表示。

（1）

公式（1）中，表示单词级别的向量表示，/>表示第i个单词的向量表示，m表示为第m个文本序列，/>表示每个文本序列的长度为n。

（2）

公式（2）中，表示整个文本序列S的向量表示，/>表示第i个单词的向量表示，/>表示第i个单词的权重；采用TF-IDFF算法计算单词的权重。

（3）

公式（3）中，表示整个文档的向量表示，/>表示第i个文本序列的向量表示，表示第i个文本序列的权重。

BERT模型产生的单词向量表示可以更好地捕捉单词的语义信息，使用加权平均方法可以较为准确地表示整个文本序列及文档的语义信息。

采用BERT模型对电子文档预处理，获取文本上下文的相关的表示，对BERT的输出采用TF-IDFF（term frequency–inverse document frequency，词频-逆文本频率指数）将文本中的每个词的重要性进行加权，采用TF-IDF将文本中的每个词赋予不同的权重，以考虑每个词再语料库中的重要性，加权平均后，最终得到一个固定长度的向量表达文本。所取得的有益效果为：

1、方便处理，将文本转换为向量后，可以使用CNN模型对文本进行处理，并且由于向量长度固定，便于存储和传输。

2、快速计算，采用TF-IDF统计方法计算每个词在文本中的重要性，相比简单的出现频次方法，能更准确地表达不同词汇在文本中的重要性，同时避免常见词汇对结果的影响。

3、提高效果，通过词袋模型和TF-IDF统计，可以突出文本中更加重要的词汇，并且弱化不重要的词汇，提高文本分类的效果。

4、BERT模型可以捕捉序列中每个词汇及其周围词汇之间的上下文关系，更好的理解文本信息，BERT模型可以经输入的文本转化为高质量的向量表示，从而可以作为CNN模型的输入，进一步提升文本分类的性能。

步骤S230、采用CNN模型对BERT模型输出的文档向量进行卷积操作，CNN模型使用卷积核来提取文本的局部特征，采用池化操作将局部特征组合成全局特征。

CNN模型将BERT模型输出的文档向量作为输入，采用多个不同大小的卷积核对输入进行卷积操作，得到一系列的卷积特征图，每个卷积核提取不同大小的局部特征，从而捕捉不同层次的语义信息，卷积操作将输入的向量序列转化为一系列的特征图，提取文本中的局部特征，CNN模型采用池化操作将局部特征组合成全局特征，采用最大池化提取局部特征中的最大值，将卷积特征图中的局部特征进行组合，得到全局特征，表示整个文本的语义信息。

步骤S240、将BERT模型输出的文档向量和CNN模型输出的全局特征向量拼接在一起，形成一个统一的特征表示。

对BERT模型输出的文本序列和CNN模型输出的局部及全局特征向量进行拼接，首先对BERT模型输出的文本序列和CNN模型输出的局部及全局特征向量进行维度匹配；然后BERT模型输出的文本序列和CNN模型输出的局部及全局特征向量拼接在一起；最后将拼接向量作为统一的特征表示。

（4）

公式（4）中，是整个BERT模型的文档向量，/>是BERT模型输出的单个词向量，N是BERT的词向量数量。

（5）

公式（5）中，为统一的特征表示；/>是整个BERT模型的文档向量，/>是整个CNN模型的文档向量，[;]表示拼接操作，沿着行连接两个向量，得到concatenated_vector作为一个统一的特征表示。

步骤S250、对特征表示应用注意力机制，并对特征表示进行加权。

首先将拼接后的特征作为输入，通过全连接层得到一个隐层向量；然后，将隐层向量作为注意力机制的输入，计算注意力权重，采用多头注意力机制，将隐层向量分为多个头，每个头都学习到不同的注意力权重，将注意力权重与拼接后的特征表示相乘，得到加权的特征表示；最后将加权后的特征表示通过一个输出层得到分类结果。

通过全连接层得到一个隐层向量H：

（6）

公式（6）中，为隐层向量，X为拼接后的特征矩阵，/>和/>分别为全连接层的权重和偏置，f为激活函数。

将隐藏向量作为注意力机制的输入，计算注意力权重为W：

（7）

公式（7）中，为注意力权重，/>为注意力机制的权重矩阵，g为激活函数，softmax为归一化函数。

采用多头注意力机制，将隐藏向量分为多个头，每个头学习到不同的注意力权重，将注意力权重与拼接后的特征表示相乘，得到加权的特征表示：

（8）

公式（8）中，为加权的特征表示，/>表示第i个注意力头的输出，attn为点积注意力函数，/>表示第i个头的权重矩阵，concat为拼接函数，/>为多头注意力机制的权重矩阵；

将加权后的特征表示用于过输出层得到分类结果：

（9）

公式（9）中，为分类结果，/>和/>分别为输出层的权重和偏置，softmax为归一化函数，g为激活函数，/>为加权的特征表示。

步骤S260、采用全连接层对特征表示进行分类，以对加密电子文档进行机密和非机密类型的分类。

本实施例提出的基于卷积神经网络的电子文档识别加密及防伪检测方法，采用BERT模型和CNN模型结合使用提高电子文档的分类效果。BERT模型可以提取文本的语义信息，CNN模型可以提取文本的局部和全局特征，注意力机制可以加强模型对重要部分的关注。引入注意力机制来对不同部分的特征进行加权，从而更好地捕捉重要信息。最终，可以使用softmax分类器将文档分为机密和非机密两类，从而提高分类准确率。

进一步地，请见图4，图4为图1中所示的步骤S600一实施例的细化流程示意图，在本实施例中，步骤S600包括：

步骤S610、获取文本信息指纹、以及文档的特征向量并将其编码为第一二进制序列。

在本实施例中，采用UTF-8编码方式，对加密电子文档进行哈希函数计算，得到固定长度的哈希值，将其作为文本信息的信息指纹。

步骤S620、采用SM3算法对第一二进制序列进行计算，得到一个固定长度的第一哈希值。

步骤S630、通过Unix时间戳获取创建电子文档时间和修改电子文档的时间，并将其编码为第二二进制序列。

步骤S640、将第一哈希值与第二二进制序列拼接在一起，形成第三二进制序列。

步骤S650、对第三二进制序列再次进行SM3计算，得到第二哈希值，作为第一防伪密文水印。

传统的数字签名机制通常仅使用文档摘要、私钥加密等信息来生成数字签名，但不包含文档的时间戳信息，这有可能导致在签名之后，如果文档被恶意篡改或伪造，那么签名仍然是有效的，无法保障文档的完整性和真实性。本实施例提出的基于卷积神经网络的电子文档识别加密及防伪检测方法，引入时间戳信息，则可以避免这种情况的发生，增强了文档的可靠性和安全性。

优选地，请见图5，图5为图1中所示的步骤S700一实施例的细化流程示意图，在本实施例中，步骤S700包括：

步骤S710、选取透明度较高的图片，调整其大小、颜色参数。

选取透明度较高的图片，调整其大小、颜色等参数

步骤S720、嵌入防伪密文水印，采用LSB将防伪密文水印嵌入到图片中。

嵌入防伪密文水印，采用LSB（最低有效位，least significant bit，最低有效位）将防伪密文水印嵌入到图片中。

首先将图片转换为二进制码，然后将防伪密文水印信息以二进制的形式嵌入到图片的最低比特位中，将含有水印的二进制图像转换位可视化图像，实现较高的隐藏性。

将水印数据的每个二进制数位嵌入到像素点的最低有效位（LSB）当中：

（10）

公式（10）中，是像素点/>在L位的二进制值，/>表示在L位插入水印数据之后的像素值，/>表示水印数据在L位上的值。

步骤S730、将防伪密文水印图片嵌入到加密电子文档的页眉中，以便更好的防止文档数据的篡改。

选择加密电子文档页眉位置，采用像素插值算法，对每个比特将其插入到页眉像素点的最低有效位中，完成嵌入操作。

步骤S740、将页眉数据锁定，再读取时进行解密以验证密文的完整性和正确性。

本实施例提出的基于卷积神经网络的电子文档识别加密及防伪检测方法，将防伪密文嵌入到透明度较高的图片中、再将其嵌入电子文档的页眉中，对选取的图片进行加密处理和嵌入位置的调整，能够更加安全和隐蔽地嵌入防伪密文，从而更好地保护文档和数据的安全性。相比将防伪密文嵌入到图片中并将其嵌入到文档中，需要对文档整体进行加密处理，对图片的嵌入位置和隐蔽性可控性较差，安全性无法达到同样的高度。

将防伪密文嵌入到透明度较高的图片中、再将其嵌入电子文档的页眉中，能够更好地实现数字水印的效果，在图片上更难被察觉，在文档中也能起到更好的防伪和保护作用。而将防伪密文嵌入到图片中并将其嵌入到文档中，存在一定的像素损失和位置不确定性，可能会导致数字水印的不稳定性和可靠性下降。

另外，将防伪密文嵌入电子文档的页眉中，与常规的添加水印的方式相比。这样可以避免防伪码或防伪标记覆盖了文本内容，影响文档的可读性，同时也可以提高防伪密文的安全性，因为用于验证防伪码的信息只有在查看文档时才能获得，而不是简单明文存储在文档中。

进一步地，请见图6，图6为图1中所示的步骤S800一实施例的细化流程示意图，在本实施例中，步骤S800包括：

步骤S810、确定电子印章的放置位置，将PDF转换为图片格式，采用Canny算法确定电子印章放置位置。

将加密电子文档转换位灰度图像，采用Canny（边缘检测的经典算法）算法提取图像的边缘，对于提取出的边缘进行处理和筛选，得到需要插入印章的位置和形状，将印章插入到指定位置，并保存新的电子文档。

灰度变换的固定公式为：

（11）

公式（11）中，表示灰度变换，/>表示红色，/>表示绿色，B表示蓝色。

Canny算法公式为：

（12）

公式（12）中，表示像素点/>处的梯度强度，/>和/>分别表示像素点/>处水平和竖直方向上的梯度值。

步骤S820、采用图像合成方法融合电子印章与PDF文档。

采用图像合成方法将电子印章与PDF文档进行融合。

进一步地，请见图7，图7为图1中所示的步骤S900一实施例的细化流程示意图，在本实施例中，步骤S900包括：

步骤S910、通过时间戳获取创建电子文档和修改电子文档的时间戳信息，将其转换为第四二进制序列，将加密电子文档内容编码为第五二进制序列，通过SM3算法计算第三哈希值，将获取的时间戳信息和第三哈希值重新结合采用SM3哈希算法计算重新生成密文数据。

步骤S920、通过比对从加密电子文档页眉中提取到的防伪密文和重新生成的密文数据，判别加密电子文档是否被篡改，若无法提取到防伪密文，则说明加密电子文档被篡改；若密文数据比对不一致，则说明加密电子文档被篡改；若密文数据比对一致，则说明加密电子文档没有被篡改。

总之，本实施例提出的基于卷积神经网络的电子文档识别加密及防伪检测方法，所取得的技术效果和优点为：

1、采用CNN模型与BERT模型相结合，通过对电子文档的局部特征、全局特征、文本特征以及重要特征分析对电子文档进行分类，对电子文档自动分类，将其电子文档分为机密和非机密两种类型，通过不同类型的电子文档进行不同的加密方法，根据其所包含的敏感信息种类进行个性化的加密处理，可以更好的保护数据的安全性和保密性。

2、对已加密电子文档进行信息指纹提取，同时通过时间戳获取电子文档的创建和修改时间，将其与信息指纹结合通过SM3进行哈希算法，提取哈希值，并将其作为防伪密文水印。

3、将防伪密文水印嵌入到页眉中，提高了电子文档的安全性、可追溯性和防伪性。通过提取页眉中的防伪密文水印与重新在加密电子文档和时间戳信息结合提取到的防伪密文进行比对，判别电子文档是否被篡改。

4、通过将电子文档进行加密后再对电子文档的内容进行信息指纹的提取，可以防止未经授权的防伪，篡改或泄露，增强了文档的机密性和完整性。

5、在防伪检测方面，信息指纹加入时间戳信息，可以记录文档的重要操作时间，有利于追踪和查证文档历史记录和合法性，保证了信息的安全性和完整性。将信息指纹和时间戳与哈希算法结合，使每一个文档都具有唯一的标识符，从而提高了文档信息指纹的唯一性和准确性。同时，由于电子文档的内容可能会被篡改或修改，加入时间戳可以增强文档的完整性和可信度。也可以提高电子文档的可靠性和安全性。将防伪密文水印嵌入到页眉中，进一步增强电子文档的真实性和完整性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，包括以下步骤：

对电子印章进行加密；

获取待加密电子文档的特征信息；根据所述特征信息对待加密电子文档进行分类；其中，所述获取待加密电子文档的特征信息；根据所述特征信息对待加密电子文档进行分类包括：对输入的待加密电子文档进行预处理，将机密文档和非机密文档标记为不同的类型；采用BERT模型对待加密电子文档进行编码，得到待加密电子文档的语义信息表示，并将其表示为向量形式；

采用CNN模型对BERT模型输出的文档向量进行卷积操作，CNN模型使用卷积核来提取文本的局部特征，采用池化操作将局部特征组合成全局特征；将BERT模型输出的文档向量和CNN模型输出的全局特征向量拼接在一起，形成一个统一的特征表示；对所述特征表示应用注意力机制，并对所述特征表示进行加权；采用全连接层对所述特征表示进行分类，以对加密电子文档进行机密和非机密类型的分类；

根据待加密电子文档的分类，对所述待加密电子文档进行加密设计，其中，所述根据待加密电子文档的分类，对待加密电子文档进行加密设计包括：根据不同类型的电子文档进行不同的加密，判断电子文档是否为非机密类型，若是非机密类型，则采用对称加密算法方式进行加密；判断电子文档是否为机密类型，若是机密类型，则采用混合加密算法进行加密，所述混合加密算法是将对称加密算法和非对称加密算法相结合；

提取待加密电子文档的时间戳信息，在待加密电子文档中加入时间戳；将获取的电子文档建立和修改的时间进行编码作为时间戳信息指纹；

提取待加密电子文档的文本信息指纹；

结合所述文本信息指纹、所述时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印；

将所述第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将所述页眉锁定；

将锁定页眉的加密电子文档与加密的电子印章进行融合；

将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改，其中，所述将在所述页眉中提取的第二防伪密文水印和重新生成的第三防伪密文水印进行比对，检测加密电子文档是否被篡改的步骤包括：

通过比对从加密电子文档页眉中提取到的防伪密文和重新生成的所述密文数据，判别加密电子文档是否被篡改，若无法提取到防伪密文，则说明加密电子文档被篡改；若所述密文数据比对不一致，则说明加密电子文档被篡改；若所述密文数据比对一致，则说明加密电子文档没有被篡改；

其中，所述对所述特征表示应用注意力机制，并对所述特征表示进行加权的步骤包括：

通过全连接层得到一个隐层向量H：

；

将隐藏向量作为注意力机制的输入，计算注意力权重为W：

；

将加权后的特征表示用于输出层得到分类结果：

；

2.如权利要求1所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，所述对电子印章进行加密的步骤中，生成电子印章的量子随机数，并将生成的所述量子随机数作为密匙，采用非对称加密算法对所述密匙进行加密；同时设定电子印章密钥对的更新时间。

3.如权利要求1所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，所述对输入的待加密电子文档进行预处理，将机密文档和非机密文档标记为不同的类型的步骤包括：

4.如权利要求1所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，所述采用BERT模型对待加密电子文档进行编码，得到待加密电子文档的语义信息表示，并将其表示为向量形式的步骤中，

；

其中，表示单词级别的向量表示，/>表示第i个单词的向量表示，m表示为第m个文本序列；/>表示每个文本序列的长度为n；

；

其中，表示整个文本序列S的向量表示，/>表示第i个单词的向量表示，/>表示第i个单词的权重；采用TF-IDF算法计算单词的权重；

；

5.如权利要求4所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，所述采用CNN模型对BERT模型输出的文档向量进行卷积操作，CNN模型使用卷积核来提取文本的局部特征，采用池化操作将局部特征组合成全局特征的步骤中，CNN模型将BERT模型输出的文档向量作为输入，采用多个不同大小的卷积核对输入进行卷积操作，得到一系列的卷积特征图，每个卷积核提取不同大小的局部特征，从而捕捉不同层次的语义信息；卷积操作将输入的向量序列转化为一系列的特征图，提取文本中的局部特征，CNN模型采用池化操作将局部特征组合成全局特征，采用最大池化提取局部特征中的最大值，将卷积特征图中的局部特征进行组合，得到全局特征，表示整个文本的语义信息。

6.如权利要求5所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，所述将BERT模型输出的文档向量和CNN模型输出的全局特征向量拼接在一起，形成一个统一的特征表示的步骤中，

；

7.如权利要求1所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，

所述结合所述文本信息指纹、所述时间戳信息指纹、以及加密电子文档的特征向量，生成第一防伪密文水印的步骤包括：

采用SM3算法对所述第一二进制序列进行计算，得到一个固定长度的第一哈希值；

将所述第一哈希值与所述第二二进制序列拼接在一起，形成第三二进制序列；

对所述第三二进制序列再次进行SM3计算，得到第二哈希值，作为第一防伪密文水印。

8.如权利要求1所述的基于卷积神经网络的电子文档识别加密及防伪检测方法，其特征在于，所述将所述第一防伪密文水印嵌入到透明的图片后再将其嵌入到加密电子文档的页眉中，并将所述页眉锁定的步骤包括：

选取透明度较高的图片，调整其大小、颜色参数；

嵌入防伪密文水印，采用LSB将防伪密文水印嵌入到所述图片中；

所述将锁定页眉的加密电子文档与加密的电子印章进行融合的步骤包括：

采用图像合成方法融合电子印章与PDF文档。