CN117034327A

CN117034327A - 一种电子书内容加密防护方法

Info

Publication number: CN117034327A
Application number: CN202311293565.9A
Authority: CN
Inventors: 程爱珺
Original assignee: Guangdong Yuanheng Software Technology Co ltd
Current assignee: Guangdong Yuanheng Software Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-11-10
Anticipated expiration: 2043-10-09
Also published as: CN117034327B

Abstract

本发明涉及数据处理技术领域，具体涉及一种电子书内容加密防护方法，包括：获取预处理后的电子书文本数据；获得电子书文本数据中每个章节中每个句子元素的依存树和电子书文本数据的主题集合；获取电子书文本数据中每个章节中每个句子元素的主题权重及其对应的主题重要程度参数；获取电子书文本数据中每个章节中每个句子元素加密等级结合敏感词表得到每个句子元素最终加密轮数；根据每个句子元素最终加密轮数对电子书文本数据进行加密。本发明通过分析电子书文本的每章主题，通过分析电子书文本间关键词的依存性，获得了不同句文本的重要程度；对文本进行重要程度判断，对不同重要程度的文本进行不同轮次加密，节省计算量同时保证了安全性。

Description

一种电子书内容加密防护方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种电子书内容加密防护方法。

背景技术

随着计算机技术和互联网技术的发展，数字化出版、在线教育、电子商务等领域得到了迅速发展，同时也带来了信息安全方面的挑战。为了保护数字化信息的机密性和安全性，电子书加密技术应运而生。在数字化信息领域，常常使用对称式加密的方法，保护电子书的信息版权和信息的安全性。

现在在电子书商业领域，常常使用AES标准对电子书的内容进行加密，AES标准定义了三种不同的密钥长度，同时在加密过程中，AES的加密轮数也因此不同；通常，多轮数的秘钥加密安全性较高，但是与此而来的是更多的计算资源的需求，如果电子书内容较多，多轮加密需求的计算机性能可能较高，而客户手里特定的阅读终端可能性能较差，在使用过程中需要长时间的等待，会对用户的体验造成影响。

发明内容

本发明提供一种电子书内容加密防护方法，以解决现有的问题。

本发明的一种电子书内容加密防护方法采用如下技术方案：

本发明一个实施例提供了一种电子书内容加密防护方法，该方法包括以下步骤：

获取预处理后的电子书文本数据；

对预处理后的电子书文本数据进行分析，将电子书文本数据中每个章节中每个句子元素记为任意句子元素，获得任意句子元素的依存树，记为句子依存树；根据句子依存树得到任意句子元素的所有专有名词及专有名词在句子依存树的位置距离；获取电子书文本数据的主题集合；

根据任意句子元素的所有专有名词及专有名词在句子依存树的位置距离得到任意句子元素的主题权重；根据任意句子元素的主题权重得到任意句子元素对应的主题的重要程度参数；根据任意句子元素对应的主题的重要程度参数对任意句子元素加密等级划分，得到任意句子元素的加密等级；

获取电子书文本数据的敏感主题集合；根据任意句子元素的加密等级结合电子书文本数据的敏感主题集合得到任意句子元素的最终加密轮数；根据任意句子元素的最终加密轮数对任意句子元素的进行加密，最终完成电子书文本数据的加密。

优选的，所述根据句子依存树得到任意句子元素的所有专有名词及专有名词在句子依存树的位置距离，包括的具体步骤如下：

对于电子书文本数据任意一章节中第个句子元素，使用基于转移的依存句法分析，生成依存树；在依存树中，找到标记为NNP的节点，该节点上的词即为该句子元素专有名词并记录该专有名词在依存树中的位置，将所述的第/>个句子元素的所有专有名词及专有名词在依存树的位置，记为专有名词集合/>，其中/>表示第/>个句子元素的第/>个专有名词，/>表示第/>个句子元素的第/>个专有名词在依存树的位置距离。

优选的，所述获取电子书文本数据的主题集合，包括的具体步骤如下：

对于电子书文本数据任意一章节中第个句子元素的专有名词集合/>，使用预训练的词向量模型进行映射，得到语义相似的专有名词，记为相似词组；对相似词组进行特征扩展分析技术提取上位概念词，将上位概念词作为该句子元素的主题词；

对于电子书文本数据每个章节中每个句子元素，获取每个句子元素的主题词，对得到所有主题词进行相似度的聚类，重复单词进行去重得到电子书文本数据的主题集合。

优选的，所述根据任意句子元素的所有专有名词及专有名词在句子依存树的位置距离得到任意句子元素的主题权重，包括的具体步骤如下：

对于电子文本数据第章的第/>个句子元素的主题权重的计算表达式为：

；

式中，表示电子文本数据第/>章的第/>个句子元素的主题权重；/>表示电子文本数据第/>章的第/>个句子元素的主题对应的专有名词个数；/>表示电子文本数据第章的第/>个句子元素的主题对应的第/>个专有名词权重；/>表示电子文本数据第/>章的第/>个句子元素的主题对应的第/>个专有名词在依存树的位置距离。

优选的，所述根据任意句子元素的主题权重得到任意句子元素对应的主题的重要程度参数，包括的具体步骤如下：

电子文本数据第章的第/>个句子元素的对应的第/>种主题的重要程度参数的计算表达式为：

；

式中，表示电子文本数据第/>章的第/>个句子元素的对应的第/>种主题的重要程度参数；/>表示电子文本数据第/>章的第/>个句子元素的对应的第/>种主题在主题集合的频数；/>表示电子文本数据第/>章的第/>个句子元素的主题权重；/>表示电子文本数据第/>章的句子元素的数量；/>表示主题集合的主题类型数量；/>表示电子文本数据的章节总数量。

优选的，所述根据任意句子元素对应的主题的重要程度参数对任意句子元素加密等级划分，得到任意句子元素的加密等级，包括的具体步骤如下：

获得电子书文本数据中每个章节中每个句子元素对应的主题的重要程度参数，将所述主题的重要程度参数从大到小进行排序形成重要程度参数序列；将序列/>中前对应的句子元素划分为重要句子，记为第一等级句子；将序列/>中/>到/>对应的句子元素划分为次重要句子，记为第二等级句子；将序列/>中/>到/>对应的句子元素划分为一般句子，记为第三等级句子；将序列/>中后/>对应的句子元素划分为不重要句子，记为第四等级句子，其中th1、th2、th3为不同的预设阈值。

优选的，所述根据任意句子元素的加密等级结合电子书文本数据的敏感主题集合得到任意句子元素的最终加密轮数，包括的具体步骤如下：

根据电子书文本数据中每个章节中每个句子元素加密等级获取其基础加密轮数，第一等级句子的基础加密轮数为4；第二等级句子的基础加密轮数为3；第三等级句子的基础加密轮数为2；第四等级句子的基础加密轮数为1；

对于电子书文本数据中任意章节中任意一个句子元素，首先获取该句子元素的基础加密轮数，记为；若该句子元素所对应的主题属于敏感主题集合/>，则该句子元素的最终加密轮数/>；若该句子元素所对应的主题不属于敏感主题集合/>，则该句子元素的最终加密轮数/>。

本发明的技术方案的有益效果是：针对使用AES标准对电子书的内容进行加密，需要进行多轮加密，需要更多的计算资源，如果客户手里特定的阅读终端可能性能较差，则在使用过程中需要长时间的等待，会对用户的体验造成影响的问题，本发明通过分析电子书文本的每章主题，通过分析电子书文本间关键词的依存性，获得了不同句文本的重要程度；对文本进行重要程度判断，对不同重要程度的文本进行不同轮次加密，节省计算量同时保证了安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种电子书内容加密防护方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种电子书内容加密防护方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种电子书内容加密防护方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种电子书内容加密防护方法的步骤流程图，该方法包括以下步骤：

步骤S001：获取电子书文本数据，并对其进行预处理。

需要说明的是，在对电子书文本数据进行自然语言处理的概念检测过程中，通常需要进行一些预处理，以使文本适用于各种自然语言处理任务，首先应该去除噪声数据，如HTML标签，特殊符号（制表符、换行符、空格符），停顿词（“的”、“是”、“在”等），排除它们的干扰；对文本数据清洗完成之后，需要对文本进行分词操作，分词操作会将连续的中文文本分割为一个个独立短词，将一个句子分割有意义的词汇单元，是语言处理的基本单元，便于后续的语言分析；分词之后需要删除停用词，停用词是没有实际意义或对文本语义没有影响的词语，删除停用词可以减少文本的长度，提高带有信息的词汇单元的密度。

具体的，本实施例使用语言处理工具Stanford CoreNLP中的文本清洗模块实现删除文本中的干扰噪声等；使用CoreNLP工具进行分词处理，将文本分割为独立的词汇单元。将电子书文本数据都进行分词处理后，文章的章节和章节中的段落，都被划分为不同的词汇单元；停用词的删除可以通过比照停用词表进行删除操作，将文本中在停用词表中出现的词汇单元进行删除处理，本实施例中，英文停用词表使用斯坦福大学的词表，中文停用词表使用哈工大的词表。

至此，获得预处理后的电子书文本数据。

步骤S002：对预处理后的电子书文本数据进行分析，获得电子书文本数据中每个章节中每个句子元素的依存树和电子书文本数据的主题集合。

需要说明的是，对于电子书文本数据，我们可以根据章节和句子元素将其划分为不同的部分，在剔除无用词之后，每个句子元素保留的都是信息量高的词汇；对于每个句子元素可以进行基于转移的依存句法分析，生成依存树。在依存树中位于中心词位置的专有名词毫无疑问具有该句话中最高的重要程度，而距离中心词位置越远的语义类似的依存词的重要程度越低。所以可以将电子书文本数据中每一个句子元素都提取其中专有名词，根据该类专有名词距离中心词的位置设计相应的权重。对于电子书文本数据的整体，可以对于每一个句子元素提取其中专有名词，将所有的专有名词映射到相似词组集合，提取相似词组集合中词义相近的专有名词，将相似词组集合进行分类。对于不同主题种类的句子元素来说，在它自己所在的章节中，同种的主题的专有名词出现的频率越高，且在电子书文本数据出现的频率越低，则可以认为该专有名词在该章节中越重要，对于理解该章节具有重要意义，越需要保证安全性。同时，在电子书文本数据中，出现敏感词的章节，同样需要更高的安全性。

1.获取电子书文本数据每个章节中每个句子元素的所有专有名词及专有名词在依存树的位置。

具体的，对预处理后的电子书文本数据进行章节划分，得到若干个章节；在对每个章节进行划分，得到每个章节若干个句子元素。

对于电子书文本数据任意一章节中第个句子元素，使用基于转移的依存句法分析，生成依存树；在依存树中，找到标记为NNP的节点，该节点上的词即为该句子元素专有名词并记录该专有名词在依存树中的位置，将所述的第/>个句子元素的所有专有名词及专有名词在依存树的位置，记为专有名词集合/>，其中/>表示第/>个句子元素的第/>个专有名词，/>表示第/>个句子元素的第/>个专有名词在依存树的位置距离；其中基于转移的依存句法为现有技术，此处不作过多赘述。

至此，获得任意一个句子元素的所有专有名词及专有名词在依存树的位置距离。

2.获取电子书文本数据的主题集合。

具体的，对于电子书文本数据任意一章节中第个句子元素的专有名词集合/>，使用预训练的词向量模型进行映射，得到语义相似的专有名词，记为相似词组；对相似词组进行特征扩展分析技术提取上位概念词，将上位概念词作为该句子元素的主题词，其中特征扩展分析技术为现有技术，此处不作过多赘述。

对于电子书文本数据每个章节中每个句子元素通过上述方法获取每个句子元素的主题词，对得到所有主题词的重复词进行去重得到电子书文本数据的主题集合；将所述主题集合记为。

需要说明的是，其中，主题集合中的每一个主题词，对应电子书文本数据中每个章节中每个句子元素的主题，其对应一个上位概念词，对应一个相似词组，对应多个专有名词，对应多个专有名词在依存树的位置。

至此，获得电子书文本数据的主题集合。

步骤S003：获取电子书文本数据中每个章节中每个句子元素的主题权重，根据主题权重获得电子书文本数据中每个章节中每个句子元素对应的主题重要程度参数，根据主题重要程度参数得到电子书文本数据中每个章节中每个句子元素加密等级。

需要说明的是，对于电子书文本数据中任意章节中任意一个句子元素，其专有名词在依存树的位置距离越小则权重应该越大，该句子元素的重要程度越大；同时，对于一个主题来说，该类主题的句子元素的重要性和在整个电子书文本数据中的重要性都越高，则类主题的句子元素的重要程度才应该越高。即一个句子元素的重要程度参数值越高，表示句子元素在所在电子书文本数据章节重要性越高，并且在整个电子书文本数据中普遍程度越低，则该句子元素重要程度越高。

1.获取电子书文本数据中每个章节中每个句子元素的主题权重。

需要说明的是，为了计算电子书文本数据中任意章节中任意一个句子元素的主题权重，需要结合该句子元素对应的主题对应的专有名词在依存树上的位置进行计算；一个主题会存在多个专有名词，多个专有名词对应多个依存树的位置距离，位于依存树中心词位置的专有名词的权重为1，而如果主题对应的专有名词不在依存树的中心词的位置上，则专有名词的权重为该专有名词在依存树上的位置的倒数；主题对应的专有名词位置距离依存树的中心词越近则专有名词权重应该越大，距离越远专有名词权重越小；该句子元素的专有名词权重为所有专有名词权重的均值。且该均值的值一定小于等于1，越接近于1，说明该句子元素的主题对该句话元素的影响越大，越可以代表这句话元素。

具体的，对于电子文本数据第章的第/>个句子元素的主题权重的计算表达式为：

；

式中，表示电子文本数据第/>章的第/>个句子元素的主题权重；/>表示电子文本数据第/>章的第/>个句子元素的主题对应的专有名词个数；/>表示电子文本数据第/>章的第/>个句子元素的主题对应的第/>个专有名词权重；/>表示电子文本数据第/>章的第/>个句子元素的主题对应的第/>个专有名词在依存树的位置距离。

至此，获得电子书文本数据中每个章节中每个句子元素的主题权重。

2. 获取电子书文本数据中每个章节中每个句子元素对应的主题的重要程度参数。

需要说明的是，对于电子书文本数据中任意章节中任意一个句子元素，若该句子元素所对应的主题，在所在电子书文书数据的章节出现的频率越高，而在整个电子书文书数据中出现的频率越小，则说明该句子元素对于整个电子书文书数据重要程度越大。

具体的，电子文本数据第章的第/>个句子元素的对应的第/>种主题的重要程度参数的计算表达式为：

；

至此，获得电子书文本数据中每个章节中每个句子元素对应的主题的重要程度参数。

3. 根据电子书文本数据中每个章节中每个句子元素对应的主题的重要程度参数对每个句子元素加密等级划分。

具体的，根据上述获得电子书文本数据中每个章节中每个句子元素对应的主题的重要程度参数，将所述主题的重要程度参数从大到小进行排序形成重要程度参数序列；将序列/>中前/>对应的句子元素划分为重要句子，记为第一等级句子；将序列/>中到/>对应的句子元素划分为次重要句子，记为第二等级句子；将序列/>中到/>对应的句子元素划分为一般句子，记为第三等级句子；将序列/>中后对应的句子元素划分为不重要句子，记为第四等级句子，其中th1、th2、th3为不同的预设阈值，本实施例中的th1为20，th2为40，th3为60，因此本实施例将序列/>中前/>对应的句子元素划分为重要句子，记为第一等级句子；将序列/>中/>到/>对应的句子元素划分为次重要句子，记为第二等级句子；将序列/>中/>到/>对应的句子元素划分为一般句子，记为第三等级句子；将序列/>中后/>对应的句子元素划分为不重要句子，记为第四等级句子。

至此，完成电子书文本数据中每个章节中每个句子元素的加密等级划分。

步骤S004：根据电子书文本数据中每个章节中每个句子元素加密等级结合敏感词表，获得电子书文本数据中每个章节中每个句子元素最终加密轮数；根据电子书文本数据中每个章节中每个句子元素最终加密轮数对句子元素进行加密操作。

具体的，从服务器中获得电子书文本数据的敏感词表，使用预训练的词向量模型进行映射到主题集合中，在提取被映射到的主题词生成敏感主题集合，将敏感主题集合记为/>。

根据电子书文本数据中每个章节中每个句子元素加密等级获取其基础加密轮数，第一等级句子的基础加密轮数为4；第二等级句子的基础加密轮数为3；第三等级句子的基础加密轮数为2；第四等级句子的基础加密轮数为1。

则电子书文本数据中每个章节中每个句子元素的最终加密轮数的获取方式为：

对于电子书文本数据中任意章节中任意一个句子元素，首先获取该句子元素的基础加密轮数，记为；若该句子元素所对应的主题属于敏感主题集合/>，则该句子元素的最终加密轮数/>；若该句子元素所对应的主题不属于敏感主题集合，则该句子元素的最终加密轮数/>。

至此，获取电子文本数据中所有章节中所有句子元素的最终加密轮数。

根据电子文本数据中所有章节中所有句子元素的最终加密轮数对电子文本数据中所有章节中所有句子元素进行相应轮数的AES加密。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子书内容加密防护方法，其特征在于，该方法包括以下步骤：

获取预处理后的电子书文本数据；

2.根据权利要求1所述一种电子书内容加密防护方法，其特征在于，所述根据句子依存树得到任意句子元素的所有专有名词及专有名词在句子依存树的位置距离，包括的具体步骤如下：

对于电子书文本数据任意一章节中第个句子元素，使用基于转移的依存句法分析，生成依存树；在依存树中，找到标记为NNP的节点，该节点上的词即为该句子元素专有名词并记录该专有名词在依存树中的位置，将所述的第/>个句子元素的所有专有名词及专有名词在依存树的位置，记为专有名词集合/>，其中表示第/>个句子元素的第/>个专有名词，/>表示第/>个句子元素的第/>个专有名词在依存树的位置距离。

3.根据权利要求1所述一种电子书内容加密防护方法，其特征在于，所述获取电子书文本数据的主题集合，包括的具体步骤如下：

4.根据权利要求1所述一种电子书内容加密防护方法，其特征在于，所述根据任意句子元素的所有专有名词及专有名词在句子依存树的位置距离得到任意句子元素的主题权重，包括的具体步骤如下：

；

5.根据权利要求1所述一种电子书内容加密防护方法，其特征在于，所述根据任意句子元素的主题权重得到任意句子元素对应的主题的重要程度参数，包括的具体步骤如下：

；

6.根据权利要求1所述一种电子书内容加密防护方法，其特征在于，所述根据任意句子元素对应的主题的重要程度参数对任意句子元素加密等级划分，得到任意句子元素的加密等级，包括的具体步骤如下：

获得电子书文本数据中每个章节中每个句子元素对应的主题的重要程度参数，将所述主题的重要程度参数从大到小进行排序形成重要程度参数序列；将序列/>中前/>对应的句子元素划分为重要句子，记为第一等级句子；将序列/>中/>到/>对应的句子元素划分为次重要句子，记为第二等级句子；将序列/>中/>到/>对应的句子元素划分为一般句子，记为第三等级句子；将序列/>中后/>对应的句子元素划分为不重要句子，记为第四等级句子，其中th1、th2、th3为不同的预设阈值。

7.根据权利要求6所述一种电子书内容加密防护方法，其特征在于，所述根据任意句子元素的加密等级结合电子书文本数据的敏感主题集合得到任意句子元素的最终加密轮数，包括的具体步骤如下：