CN117688591B

CN117688591B - 一种用于ofd版式文档的加密方法及系统

Info

Publication number: CN117688591B
Application number: CN202410123662.1A
Authority: CN
Inventors: 杨瑞钦; 郭尚; 陆猛; 朱静宇; 赵云; 庄玉龙; 张伟
Original assignee: Beijing Dianju Information Technology Co ltd
Current assignee: Beijing Dianju Information Technology Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-09
Anticipated expiration: 2044-01-30
Also published as: CN117688591A

Abstract

本发明涉及文档加密技术领域，具体涉及一种用于OFD版式文档的加密方法及系统，该方法包括：采集OFD版式文档文本数据并进行分词处理得到分词数据；计算各分词对应的各词语的局部出现概率；基于局部出现概率构建各分词的词语分布密度价值；计算分词之间的相关性，根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值；获取文本数据的信息熵及加密时各分词的模拟信息熵，进而构建加密时各分词的词语加密价值；结合各分词的词语加密价值采用多轮加密方式完成OFD文档的加密。从而实现对OFD版式文档的加密，提高加密复杂度，保证加密效果，提升对文档信息的保护。

Description

一种用于OFD版式文档的加密方法及系统

技术领域

本发明涉及文档加密技术领域，具体涉及一种用于OFD版式文档的加密方法及系统。

背景技术

OFD文档是一种对标PDF文档的文件格式，具有格式独立、版面独立、固话呈现等版式文件的特点，不会因为设备的不同而出现不同显示效果，广泛用于电子商务、电子会议、档案管理等重要场合。由于OFD文档的使用过程中常用于传输重要文件，因此为保护文档信息安全，对OFD文档进行加密格外重要。

在对OFD文档数据进行加密过程中，有大量的文字信息是重复的低价值信息，并不能反应OFD文档的主要内容，如果对OFD文档中的所有文字内容都进行同样复杂度加密，会浪费大量的计算资源，并且增加OFD文档的传输消耗时间。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种用于OFD版式文档的加密方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种用于OFD版式文档的加密方法，该方法包括以下步骤：

采集OFD版式文档文本数据并进行分词处理，分词处理后的文本数据记为分词数据；

根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率；根据各分词在分词数据中的数量、分词数据中的词语总数量及各分词对应词语的局部出现概率得到各分词的词语分布密度价值；根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值；获取文本数据的信息熵及加密时各分词的模拟信息熵；根据信息熵及模拟信息熵结合分词的词语分布密度价值、词语关联信息价值构建加密时各分词的词语加密价值；

结合各分词的词语加密价值采用多轮加密方式完成OFD文档的加密。

进一步地，所述根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率，包括：

对于第种分词，统计第/>种分词的第/>个词语与其左、右两边最近出现第/>个词语之间间隔的词语数量之和，将2与所述词语数量之和的比值作为第/>种分词对应的第/>个词语的局部出现概率。

进一步地，所述各分词的词语分布密度价值包括：

对于第种分词，统计分词数据中第/>种分词的词语数量，计算第/>种分词的词语数量与分词数据中词语总数量的比值，将所述比值与第/>种分词中各词语的局部出现概率的差值绝对值，将第/>种分词中所有词语的所述差值绝对值的均值作为第/>种分词的词语分布密度价值。

进一步地，所述根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，包括：

统计分词数据中第种分词的词语数量/>以及分词数据中的词语总数量/>，第/>种分词与第/>种分词之间的相关性/>的表达式为：

式中，是第/>种分词的第/>个词语的局部出现概率；/>是与第/>种分词的第/>个词语距离最近的第/>种分词的词语的局部出现概率，/>是第/>种分词的第/>个词语与所述第/>种分词词语的距离，所述距离为两个词语之间间隔的词语数量；是分词数据中所述第/>种分词的词语数量。

进一步地，所述根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值，包括：

对于第种分词，分别计算第/>种分词与其他分词之间的相关性的最大值、和值，分别获取所述最大值减去第/>种分词与其他分词之间的相关性的结果，计算所述结果与所述和值的比值，计算所述其他分词的词语分布密度价值与所述比值的乘积，将所有所述其他分词的所述乘积的和值作为第/>种分词的词语关联信息价值。

进一步地，所述获取文本数据的信息熵及加密时各分词的模拟信息熵，包括：

将文本数据中各个乱码片段均作为同一种分词，文本数据中每种分词作为一种字符，计算整个文本数据的信息熵；

对第轮加密前还未进行加密的第/>种分词，将所述第/>种分词替换为乱码，对替换后的文本数据计算信息熵作为第/>轮加密时第/>种分词的模拟信息熵。

进一步地，所述根据信息熵及模拟信息熵结合分词的词语分布密度价值、词语关联信息价值构建加密时各分词的词语加密价值，包括：

式中，是第/>轮加密时第/>种分词的词语加密价值；/>是第/>轮加密前文本数据的信息熵；/>是第/>轮加密时第/>种分词的模拟信息熵；/>是第/>种分词的词语分布密度价值；/>是第/>种分词的词语关联信息价值；/>是分词数据中第/>种分词的词语数量。

进一步地，所述结合各分词的词语加密价值采用多轮加密方式完成OFD文档的加密，具体包括：

采用多轮加密的方式进行分级加密，每轮加密时选择词语加密价值最大的分词与已选择加密的数据一同进行加密过程，直到所有分词都进行加密为止。

进一步地，所述多轮加密包括：对每一轮加密采用RSA算法对数据进行加密。

第二方面，本发明实施例还提供了一种用于OFD版式文档的加密系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明至少具有如下有益效果：

本发明通过OFD文档中文本数据出现位置的分布情况进行特征提取，结合文本数据中各词语种类的局部出现概率和整体出现概率之差，表征各词语种类的密度分布情况，分辨出密度分布不均匀的词语种类，作为拥有高加密价值的词语数据。进一步，根据各词语种类与其它词语种类的局部出现概率之差和出现位置的差异，作为表征各词语种类与其它词语种类的相关性大小，并以此为权重构建词语关联信息价值，表征与该词语种类的关联词语种类的加密价值大小，作为该词语种类的加密价值。进一步模拟未被加密的各词语分级在当前轮加密前后的信息熵变化情况，以及加密该词语所消耗的计算资源大小，结合词语密度分布价值和词语关联信息价值，构建词语加密价值，作为每轮加密过程中选取新的加密词语种类的指标，完成分级加密；

相比与传统的所有文字信息同时加密的OFD文档加密方法，本发明根据OFD文档中文字之间的概率关系，计算出不同词语种类的加密价值，并根据对加密价值高的词语种类进行复杂度更高的加密；本发明与传统加密方法相比，在节约计算资源的同时，对加密价值高的信息进行更好的保护，获取了更好的加密效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种用于OFD版式文档的加密方法的步骤流程图；

图2为加密过程示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于OFD版式文档的加密方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于OFD版式文档的加密方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种用于OFD版式文档的加密方法的步骤流程图，该方法包括以下步骤：

步骤S001，对OFD文档的文本数据进行提取，并进行分词预处理。

具体的，本实施例旨在对OFD文档的文字数据进行加密，因此所采集数据为OFD文档中所有的文字数据。对于一个OFD文档中的文本数据，将文本数据作为输入，采用基于统计规则的分词算法，分词算法的语料库为本领域公开信息在此不做赘述，输出经过分词后的文本数据，将获得的文本数据记为分词数据。

至此，即可根据本实施例上述方法可获取分词处理后用于加密的OFD文档数据。

步骤S002，构建词语分布密度价值及词语关联信息价值，基于此计算词语组加密价值，完成分级加密。

本实施例对将OFD文档全部文字同级别加密导致的加密解密时间长、计算资源浪费的问题，采用对不同的文字进行分级加密的方式进行解决。显然对重要的文字信息采用复杂度更高的加密方法而对不重要的文字信息采用复杂度低的加密方法就能达到本发明所求效果。

在一段文本数据中，只在文本数据中的某一部分反复提及，而在文本数据的其它地方出现较少的词语，往往是哪些需要反复强调的重要的细节信息，该部分文字通常包含信息明确，对理解整个文本数据有着关键作用，具有较高的加密价值；而在整个文本中均匀出现的词语，通常是文本的主题信息，或日常通用文字词语，这部分的文字包含信息笼统，且容易通过文本数据的种类、来源等非文档内的先验信息被猜测到，加密价值较低。

针对OFD文档内加密价值与文字词语分布情况之间的关系，构建词语分布密度价值如下：

式中，是分词数据/>中第/>种分词的词语分布密度价值；/>是分词数据中第/>种分词的词语数量；/>是分词数据中的词语总数量；/>是在分词数据/>中第/>种分词的第/>个词语与其左、右两边最近出现第/>个词语之间间隔的词语数量之和，可通过统计获取；/>是第/>种分词的第/>个词语的局部出现概率。

式中，是分词数据/>中第/>种分词在整个文本中词语量占比，为第/>种分词在整个文本中的出现概率，/>用于表征第/>种分词的第/>个词语与其左右两边最近出现的第/>个词语在局部的词语量分布情况；分词数据/>中第/>种分词的局部出现概率与第/>种分词在分词数据中的占比的差异越大，代表第/>种分词在分词数据/>中局部区域越重复出现，而非在整个文本数据中均匀提及，说用第/>种分词越具有加密价值。最终对该差值求和得到第/>种分词的词语分布密度价值/>，值越大其第/>种分词的加密价值越大。

对分词数据中第/>种分词，其可能与其它种类的分词组合出现，也即当第/>种分词与第/>种分词在整个OFD文档数据中密集出现的位置相似时，则这两种分词存在很高的关联价值。对第/>种分词，其关联的第/>种分词处于较高加密等级时，意味这第/>种分词可能包含重要信息，而其关联的第/>种分词同样应该包含着重要信息，因此第/>种分词越具有加密价值。

因此构建词语关联信息价值如下式：

式中，是分词数据/>中第/>种分词与第/>种分词之间的相关性，/>越小代表第/>种分词相对于第/>种分词的相关性好；/>是分词数据/>中第/>种分词的词语数量；/>是第/>种分词的第/>个词语的局部出现概率；/>是与第/>种分词的第/>个词语距离最近的第/>种分词的词语的局部出现概率，所述距离为两个词语之间间隔的词语数量；/>是第/>种分词的第/>个词语与所述第/>种分词词语的距离，所述距离为两个词语之间间隔的词语数量；/>是分词数据中所述第/>种分词的词语数量；/>是分词数据中的词语总数量；/>是分词数据/>中第/>种分词的词语分布密度价值；/>是分词数据/>中第/>种分词的词语关联信息价值，M为分词数据中的分词种类。

式中，是将分词数据/>中第/>种分词第/>个词语的局部出现概率减去与其距离最近的第/>种分词的词语的局部出现概率的绝对值，该差值绝对值越小，代表在该局部中第/>种分词与第/>种分词出现密度越相似，对应的第/>种分词与第/>种分词的关联性就越大；/>越大代表两种分词在局部的距离越近，对应的第/>种分词与第/>种分词的关联性就越大；/>、/>是分词数据/>中第/>种分词和第/>种分词在整个文本中词语量占比，为第/>种分词和第/>种在整个文本中的出现概率，两者作差绝对值越大，代表在整个文本数据中第/>种分词与第/>种分词的出现概率差异越大，第/>种分词与第/>种分词的相关性就越小。于是得到/>表征第/>种分词相对于第/>种分词的相关性，值越大代表第/>种分词相对于第/>种分词的相关性好。进一步，/>值越大代表分词数据/>中第/>种分词越具有加密价值。

由于本实施例所使用分级加密方法是对OFD文档的文本数据进行多轮加密，每轮加密时，选择一部分未被加密的分词与已经被加密的分词共同加密，则越早被选择进行加密的分词的加密复杂度越高，完成分级加密。对于每一轮加密前后，在OFD文档中被加密后的词语呈乱码，而未被加密的词语保持原始状态，因此可以将文本中每一个乱码片段视为一个分词，所有乱码片段视为同一种分词；对第轮加密前，以每种分词为一种字符，计算整个文本数据的信息熵，记为/>；对第/>轮加密前还未进行加密的第/>种分词，将其替换为乱码，对替换后的文本数据计算信息熵作为第/>轮加密时第/>种分词的模拟信息熵/>；/>用于表征模拟将第/>种分词加入下一轮加密后，整个文本数据的信息熵变化，分析在该轮加密时对第/>种分词的加密价值的大小，/>越小，在第/>轮加密时第/>种分词的加密价值越大。

因此对于第轮加密，计算词语加密价值如下式：

式中，是第/>轮加密过程中，选择第/>种分词作为新加入的加密词语后，加密结果的信息熵减少量，信息熵减少量越大，加密效果越好，第/>种词语越具有加密价值；、/>都是表征第/>种分词的加密价值大小，值越大代表第/>种分词的加密价值越大，且两种特征值在设计时保证了尺度相同，因此此处采用相加的方式将两者作为评价第/>种分词加密价值的指标，构架词语加密价值；/>是第/>种分词的数量，其数量越多代表对其进行加密消耗的计算资源越多，其加密价值就越低，因此此处除以/>表征第/>种分词的加密价值。最终词语加密价值/>表征了在第/>轮加密时，第/>种分词的加密价值大小，值越大加密价值越大。

加密过程示意图如图2所示，在对分词数据进行加密时，采用多轮加密的方式进行分级加密，每轮加密时选择词语加密价值最大的词语种类，与已选择加密的数据一同加入本轮的加密过程，直到所有词语种类都进行加密为止；其中每一轮加密采用RSA算法对数据进行加密，具体为：加密时根据本地存储的OFD文档数据接收方公钥数据集，每一轮选择其中一个公钥，与被选择加密的文本数据作为输入，采用RSA算法，输出为加密后的数据；最终完成对OFD文档的加密。

在对加密数据解密时，由OFD文档的数据接收方根据加密过程进行逆向操作得到解密数据。

基于与上述方法相同的发明构思，本发明实施例还提供了一种用于OFD版式文档的加密系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种用于OFD版式文档的加密方法中任意一项所述方法的步骤。

综上所述，本发明实施例通过OFD文档中文本数据出现位置的分布情况进行特征提取，结合文本数据中各词语种类的局部出现概率和整体出现概率之差，表征各词语种类的密度分布情况，分辨出密度分布不均匀的词语种类，作为拥有高加密价值的词语数据；

然后，根据各词语种类与其它词语种类的局部出现概率之差和出现位置的差异，作为表征各词语种类与其它词语种类的相关性大小，并以此为权重构建词语关联信息价值，表征与该词语种类的关联词语种类的加密价值大小，作为该词语种类的加密价值；

进一步，模拟未被加密的各词语分级在当前轮加密前后的信息熵变化情况，以及加密该种词语所消耗的计算资源大小，结合词语密度分布价值和词语关联信息价值，构建词语加密价值，作为每轮加密过程中选取新的加密词语种类的指标，完成分级加密；

相比与传统的所有文字信息同时加密的OFD文档加密方法，本发明实施例根据OFD文档中文字之间的概率关系，计算出不同词语种类的加密价值，并根据对加密价值高的词语种类进行复杂度更高的加密；本发明实施例与传统加密方法相比，在节约计算资源的同时，对加密价值高的信息进行更好的保护，获取了更好的加密效果。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于OFD版式文档的加密方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率，包括：

3.如权利要求2所述的一种用于OFD版式文档的加密方法，其特征在于，所述各分词的词语分布密度价值包括：

对于第种分词，统计分词数据中第/>种分词的词语数量，计算第/>种分词的词语数量与分词数据中词语总数量的比值，计算所述比值与第/>种分词中各词语的局部出现概率的差值的绝对值，将第/>种分词中所有词语的所述差值绝对值的均值作为第/>种分词的词语分布密度价值。

4.如权利要求1所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，包括：

式中，是第/>种分词的第/>个词语的局部出现概率；/>是与第/>种分词的第/>个词语距离最近的第/>种分词的词语的局部出现概率，/>是第/>种分词的第个词语与所述第/>种分词词语的距离，所述距离为两个词语之间间隔的词语数量；/>是分词数据中所述第/>种分词的词语数量。

5.如权利要求4所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值，包括：

6.如权利要求5所述的一种用于OFD版式文档的加密方法，其特征在于，所述获取文本数据的信息熵及加密时各分词的模拟信息熵，包括：

7.如权利要求6所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据信息熵及模拟信息熵结合分词的词语分布密度价值、词语关联信息价值构建加密时各分词的词语加密价值，包括：

8.如权利要求1所述的一种用于OFD版式文档的加密方法，其特征在于，所述结合各分词的词语加密价值采用多轮加密方式完成OFD文档的加密，具体包括：

9.如权利要求8所述的一种用于OFD版式文档的加密方法，其特征在于，所述多轮加密包括：对每一轮加密采用RSA算法对数据进行加密。

10.一种用于OFD版式文档的加密系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。