CN116595587B

CN116595587B - 一种基于保密业务的文档隐写方法及文档管理方法

Info

Publication number: CN116595587B
Application number: CN202310863095.9A
Authority: CN
Inventors: 樊丽平
Original assignee: Jiangxi Tongyou Technology Co ltd
Current assignee: Jiangxi Tongyou Technology Co ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-09-22
Anticipated expiration: 2043-07-14
Also published as: CN116595587A

Abstract

本发明公开了一种基于保密业务的文档隐写方法及文档管理方法，属于文档隐写与加密技术。该隐写方法通过对文本数据隐写敏感词得到第一文本，并对第一文本隐写识别词得到第二文本数据，对第二文本数据隐写对比词，并通过属性加密集对所述第二文本数据进行加密得到密文文本。另外，该隐写方法还基于识别词数量、对比词数量以及敏感词区间的长度为规则，分割隐写图像数据得到密文图像。进一步的，本发明通过基于保密业务的文档隐写方法的文档管理方法进行隐写文档的还原，该管理方法基于第二特征从数据存储端的存储区保存与提取隐写文档。

Description

一种基于保密业务的文档隐写方法及文档管理方法

技术领域

本发明涉及文档隐写与加密技术，尤其涉及一种基于保密业务的文档隐写方法及文档管理方法。

背景技术

云文档是现代化信息技术领域下的重要生产力支柱，云文档技术可以针对不同的用户需求提供针对性的服务。在云文档日均产出数量不断提升的背景下，云文档的保密与安全问题成为了重要的技术问题。现有技术中，云文档保密的技术问题基于加密措施、认证方法、区块链管理等技术手段有效解决了大部分应用场景下的技术问题。例如，CN106156654B公开了一种文档加密的装置，通过将电子文档转换为文档图像信息，并基于文档图像信息转换成像素矩阵的方式生成加密算法对文档实施安全管理。CN107426223B公开了一种面向云文档的加密方法，该方法通过文档密钥的分散存储的方式提升云文档的安全性。

信息隐藏技术广泛应用于机密消息的存储、隐蔽通信、版权保护等领域，信息隐藏技术可以作为文档加密的第二重保障。现有技术中，CN105847629B公开了一种加密图像的可逆信息隐藏方法，通过将原始图像打乱排列的方式进行加密，有效提高了图像的加密效果。现有技术缺乏一种适用于云文档的信息隐藏加密方法，综合利用传统密码学原理与信息隐藏进行深层加密是云文档安全与保密技术的发展方向。现有技术有必要进一步改进。

发明内容

针对上述问题，本发明提供了一种基于保密业务的文档隐写方法，该隐写方法对文本数据的敏感词、识别词、对比词进行隐写操作，再加密完成文档隐写过程。另外，基于识别词数量、对比词数量以及敏感词区间的长度为规则，分割隐写图像数据得到密文图像。进一步的，本发明还提供了一种用于基于保密业务的文档隐写方法的文档管理方法，通过识别文档的第二特征进行隐写文档的提取。

本申请的发明目的可通过以下技术手段实现：

一种基于保密业务的文档隐写方法，包括以下步骤：

步骤1：将目标文档划分为文本数据和图像数据，基于分类规则识别文本数据的敏感词，生成敏感词权重T，基于敏感词权重的大小确定敏感词区间，提取敏感词的基础属性α；

步骤2：识别敏感词区间内的文字，将该文字转换为二进制字符串，将二进制字符串嵌入文本数据的敏感词区间，构成第一文本数据；

步骤3：随机抽取第一文本的m个识别词并构建词集K，统计词集K中各识别词的词频f，根据词频生成条件属性δ；

步骤4：基于词集K替换识别词的同义词，得到第二文本数据，提取识别词的基础属性β；

步骤5：根据第一特征提取第二文本数据中的n个对比词，提取对比词的基础属性γ；

步骤6：基于主密钥与属性加密集U加密第二文本数据，得到密文文本，属性加密集U={α,β,γ,δ}；

步骤7：将一共享图像分割为 (m+1)×(m+1)个像素块，将共享图像的像素块中所有像素值替换为该像素块的平均像素值，生成母版图像；

步骤8：将所述图像数据分割为(n+1)×(n+1)个像素块，根据敏感词区间的长度L确定排序单元，重新排列排序单元内的像素块，生成编码图像，合成母版图像和编码图像，生成密文图像；

步骤9：将密文文本与密文图像嵌入目标文档，生成隐写文档。

在本发明中，所述分类规则为预设的敏感词集合，该敏感词集合包括至少一个的敏感词及该敏感词的敏感词权重。

在本发明中，基础属性α为敏感词的词义，基础属性β为同义词的词性、基础属性γ为对比词的词性，条件属性δ由识别词的词频f与识别词词义共同构成。

在本发明中，通过聚类分析在第二文本中筛选对比词特征，该对比词特征为第一特征。

在本发明中，在步骤8中，将排序单元内对称位置的像素块对调，排序单元内像素块的数量k= argmin(L-s×j)，s为编码图像像素块的长度，j为像素块的数量，j=1,2,3,...,(m+1)×(m+1)。

一种根据所述基于保密业务的文档隐写方法的文档管理方法，包括以下步骤：

步骤10：授权机构生成一初始安全参数λ，生成主密钥与公共参数，根据主密钥与属性加密集U生成私钥SK_U；

步骤20：数据生成端识别目标文档的第二特征，基于第二特征从数据存储端申请一存储区；

步骤30：根据所述基于保密业务的文档隐写方法生成隐写文档，将该隐写文档保存至所述存储区；

步骤40：数据访问端根据第二特征检索数据存储端的存储区，并读取该存储区的隐写文档，分割隐写文档的密文文本和密文图像；

步骤50：数据访问端从授权机构申请私钥SK_U，解密所述密文文本得到文本数据，根据文本数据确定敏感词区间、识别词的数量m以及对比词的数量n；

步骤60：根据共享图像生成母版图像，再根据母版图像的像素值从密文图像中拆出编码图像，反向排列编码图像中各排序单元的像素块，生成图像数据；

步骤70：将文本数据和图像数据拼接为目标文档。

在本发明中，数据访问端基于第二特征生成索引符，索引符遍历数据存储端的存储区内的标识符，若索引符与标识符配对，则读取该存储区的隐写文档。

在本发明中，授权机构预先将共享图像分配给数据生成端与数据访问端，共享图像在系统初始化过程中创建，并进行周期性更新。

实施本发明的一种基于保密业务的文档隐写方法及文档管理方法，其有益效果在于：通过对文档进行隐写处理，实现隐藏敏感词、替换同义词、在对比词内嵌入秘密信息的方式对文档进行加密操作，实现文本的隐写。通过敏感词、识别词、对比词的参数实现图像的隐写。进一步的，通过抽取敏感期、识别词、对比词的属性作为加密安全基础，通过属性重加密的方式实现文档的二次保密处理，文档的安全性更强。

附图说明

图1为本发明的基于保密业务的文档隐写方法的原理图；

图2为本发明的基于保密业务的文档隐写方法的流程图；

图3为本发明的基于基础属性与条件属性构建属性加密集的原理图；

图4为本发明的图像数据转化为密文图像的示意图；

图5为本发明的排序单元的像素块重新排列的示意图；

图6为本发明的文档管理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

医院中病历数据往往以云文档的形式存储，为了加强病例文档的安全性，尽可能保护患者隐私，应用到本实施例的属性加密的云文档隐写方法。一般而言，文本的冗余空间较小，文本信息隐写相对困难，且文本隐写的被破解率较高，攻击者不需要投入较多的花销就能够破解文档隐写。本实施例中涉及的云文档可以理解为存储在任意一终端存储设备并接入互联网的文档，文档中包含文本数据与图像数据，参照图1，将文本数据转换为密文文本，将图像数据转换为密文图像，该过程应用到本实施例详述的一种基于保密业务的文档隐写方法参照图2，包括以下步骤：

步骤1：将目标文档划分为文本数据和图像数据，基于分类规则识别文本数据的敏感词，生成敏感词权重T，基于敏感词权重的大小确定敏感词区间，提取敏感词的基础属性α。在本实施例中，通过预设一分类规则，所述分类规则为预设的敏感词的集合，其中包括至少一个的敏感词、敏感词权重，并基于该分类规则识别文本数据中的敏感词，生成敏感词权重T，基于敏感词权重T设定敏感词区间，提取敏感词的基础属性α，基础属性α为敏感词的词义。

在本实施例中，该步骤旨在识别文档中的敏感信息，并为其设置不同的加密保护策略，从而更好地保护文档隐私。可选的，通过分类规则从文本中识别出具有敏感性质的单词或短语，例如医疗病历中的“病人疾病史”、“药物过敏史”等。然后，根据这些敏感词的重要程度或敏感级别，为每个敏感词设置敏感词权重T，并设定敏感词区间。例如，“病人疾病史”可能被赋予更高的敏感权重，因为它包含了患者的健康状况和治疗历史等重要信息。提取每个敏感词的基础属性αi。这些属性可以是描述敏感词含义的关键字、标签或元信息。例如，在医疗病历中，属性可以是“病历类型”、“病人信息”、“医生信息”等。

在本实施例中，敏感词区间并不固定，其设定标准与加密等级有关，敏感词区间范围越大，隐写加密安全度更高，负载和开销越大。当其他设定标准可以适用所述敏感词区间选定要求时，等效于本实施例提供的这种选定方案。

步骤2：识别敏感词区间内的文字，将该文字转换为二进制字符串，将二进制字符串嵌入文本数据的敏感词区间，构成第一文本。在本实施例中，文本数据可通过正则表达式的方式进行文本解析，提取后的的文本可采用文本连接的方式转换为对应的字符串，并通过字符替换完成所述的嵌入过程。可选的，为本连接可以替换UTF-8或ASCII码的编码方式，当其他标准可适用本实施例的将文本转换为字符串方法时，等效于本实施例提出的文本连接的方案。

在本实施例中，选定医疗病历中的“药物过敏史”为敏感词。然后，将该文本转换为字符串形式，并将其嵌入到文本数据的敏感词区间中，例如将字符串“NO.001+(at&pl)”嵌入到“药物过敏史”的区间，其中所述字符串为编号+隐写后的“对青霉素过敏”的英文缩写。

步骤3：随机抽取第一文本的m个识别词并构建词集K，统计词集K中各识别词的词频f，根据词频生成条件属性δ，其中，条件属性δ为识别词的词频f与识别词词义共同构成。在本实施例中，词频统计基于计数器实现，提取第一文本的识别词后，初始化计数器Count为0，并遍历文本数据，选定每个位置h，并生成基于位置h的预设区间，比较所述预设区间内的字符是否等于预设的一个可识别的结果ρ，若是，则Count增加1，遍历结束后统计可识别结果ρ出现的次数，所述次数为词频f。

在本实施例中，医疗病历中的“过敏”、“药物”、“penicillin”选定为识别词。然后，统计每个识别词在文本数据中出现的词频f，例如“过敏”出现了3次、“药物”出现了2次、“penicillin”出现了1次。进一步的，根据词频f生成条件属性δ，例如{“过敏>=2”，“药物>=1”，“penicillin=1”}。这些条件属性可以用于控制不同用户对文档的访问权限和保护策略，可选的，只有特定的医生才能查看患者的药物过敏情况。

步骤4：基于词集K替换识别词的同义词，得到第二文本数据，提取识别词的基础属性β，其中，基础属性β为同义词的词性。对第一文本进行预处理，进行词干化提取，并筛除分词和停用词得到预处理后的第一文本，将预处理后的第一文本建立训练集，通过词袋模型训练分类器模型，并构建识别词集合，所述识别词集合中为词义相同的多个名词组成，并基于同义词词典对识别词替换为同义词。同义词词典为一哈希表，文本中的识别词可在哈希表中寻找对应的同义词，并进行替换。特殊的，当识别词在哈希表中未匹配同义词时，则不替换，该识别词标签为无效；当识别词在哈希表中匹配多个同义词时，则按照选取识别词集合中排列第一位的同义词进行替换。

在本实施例中，可选的将“药物过敏史”替换成“过敏反应记录”，得到新的第二文本数据，并提取第二文本数据中的识别词的基础属性，包括“过敏反应记录”中包含的基础属性可以是“病历类型”、“病人信息”、“医生信息”等。通过词集替换和提取识别词的基础属性，该方法可以增强文档内容的隐蔽性，并确保不同用户仅能访问与其工作任务相关的文档内容。

步骤5：根据第一特征提取第二文本数据中的n个对比词，提取对比词的基础属性γ。在本实施例中，对比词特征为语义与文本数据类别相关，且只有唯一含义的名词。医疗病历中的“过敏反应记录”，提取出对比词，例如“日期”、“医生”等。然后，将秘密信息藏在对比词中，例如将患者过敏的详细情况藏在“日期”或“医生”的对比词中。进一步的，提取对比词的基础属性，例如“日期”、“医生”等基础属性。这些基础属性可以用于构建属性加密集合和生成私钥。

步骤6：参照图3，基于主密钥与属性加密集U加密第二文本数据，得到密文文本，属性加密集U={α,β,γ,δ}。在本实施例中，属性加密集U中的任意一个属性都以二元组的形式表示，包括属性类型与属性值构成。公共参数PA的关键属性的判断标准为访问策略，所述访问策略为布尔表达式，布尔表达式中包括属性的特征，该特征为运算符或关键字，只有所述运算符或关键字与属性相契合才能够访问加密数据。

步骤7：将一共享图像分割为 (m+1)×(m+1)个像素块，将共享图像的像素块中所有像素值替换为该像素块的平均像素值，生成母版图像，母版图像与共享图像之间具有相同的分辨率与大小。在本实施例中，参照图4，任意一病历数据中存在至少一个的共享图像，所述共享图像优选的被转换为JPEG格式存储，在分割过程中对共享图像内像素值进行平均处理，具体通过混淆加密算法对共享图像进行分割与排序。

步骤8：将所述图像数据分割为(n+1)×(n+1)个像素块，根据敏感词区间的长度L确定排序单元，重新排列排序单元内的像素块，生成编码图像，合成母版图像和编码图像，生成密文图像。在本实施例中，参照图5，需要将排序单元内对称位置的像素块对调，排序单元内像素块的数量k= argmin(L-s×j)，s为编码图像像素块的长度，j为像素块的数量，j=1,2,3,...,(m+1)×(m+1)。argmin(L-s×j)函数是指L-s×j为最小值时的j的取值。

步骤9：将密文文本与密文图像嵌入目标文档，生成隐写文档。在本实施例中，需要将密文文本进行基础变换后替换文本数据的敏感词区间，其中基础变换包括替换符号和不同的替换规则，以增加替换的随机性和隐蔽性。

在本实施例中，提取母版图像与编码图像的特征，拆分密文图像，并基于显隐的排序单元重新排列像素块，得到母版图像，母版图像转换为共享图像优选的采用最低有效位隐写算法。在最低有效位算法中，像素的最低位中存储有多组隐藏信息，调用母版图像中各个像素的RGB值，计算机生成的掩码与像素值进行运算，提取所述像素的最低位值，并将最低位值转换为二进制代码，所述二进制代码按照(n+1)×(n+1)个像素块的分布组合成新的字节，所述字节为共享图像的像素块中所有的像素值，匹配像素值至各个像素块，得到共享图像。

实施例二

本实施例详述根据所述基于保密业务的文档隐写方法的文档管理方法，该方法进一步实现了隐写文档存储在云端时二次加密的问题。在医院的电子病例管理中，基于本发明的基于保密业务的文档隐写方法生成的隐写文档，可通过本实施例详述的这种文档管理方法实现二次加密，参照图6，包括以下步骤：

步骤10：授权机构生成一初始安全参数λ，生成主密钥与公共参数，根据主密钥与属性加密集U生成私钥SK_U。

步骤20：数据生成端识别文档的第二特征，基于第二特征从数据存储端申请一存储区，通过云数据库中选取原始文档，并提取原始文档中的文本数据，识别文本数据的第二特征，基于第二特征存储文本数据，所述第二特征为文本数据的类别，任意一个第二特征对应不同的文本数据存储区。

步骤30：根据所述基于保密业务的文档隐写方法生成隐写文档，将该隐写文档保存至所述存储区，医疗病历中，病人姓名、就诊时间和主要症状等都可以作为文档的第二特征，在医疗病历中，建立分布式云端数据库，将每位患者的病历信息按照门诊科室进行分类存储。

步骤40：数据访问端根据第二特征检索数据存储端的存储区，并读取该存储区的隐写文档，分割隐写文档的密文文本和密文图像，在本实施例中，数据访问端中基于第二特征生成索引符，基于索引符遍历数据存储端的存储区内的标识符，当索引符与标识符配对的情况下，读取该存储区的隐写文档。

步骤50：数据访问端从授权机构申请私钥SK_U，解密所述密文文本得到文本数据，根据文本数据确定敏感词区间、识别词的数量m以及对比词的数量n，在本实施例中，通过输入主密钥与属性加密集U，生成密钥对，并以PEM格式输出，并调用OpenSSL软件库输出私钥SK_U。

在本实施例中，基于主密钥与属性加密集U生成密钥对的过程按照以下步骤实现：

步骤501：在属性加密集U中任取一属性结果，并选定公共参数PA；

步骤502：任取两个大素数p、q，并计算p×q=t，生成一函数f(t)，任取一整数值e，使得e与f(t)互质，且f(t)为t的数论函数；

步骤503：计算，其中，d为e的模f(t)的乘法逆元，生成密钥对MK=(e,d,t)；

步骤504：基于主密钥对生成主私钥MSK，特殊的，可以将密钥对MK直接设置为主密钥；

步骤505：输入公共参数PA与私钥SK_U，生成公钥并发布。

步骤60：根据共享图像生成母版图像，再根据母版图像的像素值从密文图像中拆出编码图像，反向排列编码图像中各排序单元的像素块，生成图像数据。

步骤70：将文本数据和图像数据拼接为目标文档。

在本实施例中，私钥只有特定的医生或护士拥有，能够查看患者的病历记录，其他人能够通过公钥获取病历数据，但无法看到已经隐写后的数据信息。通过将密文文本存储在数据库或文本文件中，并设置访问权限和保护策略，该方法可以更好地管理和控制文档内容的访问权限和保护策略，确保只有获得正确权限的用户才能访问和修改文档。这有助于提高文档的安全性和机密性，避免敏感信息被不当访问或泄露。

在本实施例中，通过公钥与属性加密集U中的任意一组属性加密，只有拥有这组属性匹配的私钥的用户才能解密该数据。密文文本进行访问控制和管理。优选的，当医生或护士想要查看患者的病历记录时，系统会验证该用户的身份和权限，如果满足相应的访问控制规则，就允许该用户访问对应的密文文本，否则拒绝访问。通过对密文文本进行访问控制和管理，该方法可以更好地确保文档内容的安全性和机密性，避免敏感信息被不当访问或泄露。

实施例三

本实施例详述一种适用于本发明的识别文本数据中敏感词、第一文本中的识别词以及第二文本数据中的对比词的方法。

在本实施例中，基于朴素贝叶斯对文本数据进行处理，根据预先训练模型，对输入的文本数据进行自动分类和识别，对文本数据中的关键词进行识别和定位，为后续的隐写和加密操作提供支持。当分类器无法识别输入的文本数据、第一文本、第二文本数据时，可以使用句法分析树与句法变换树来改变句子结构后再输入分类器进行识别。

特殊的，训练模型没有涉及在某次处理过程中的文本数据时，分类结果模糊。本实施例优选的采用拉普拉斯平滑技术处理文本数据的优化过程。对于任意一输入的训练集，，其中，x_r为第r个文本数据，y_r为第r个文本数据的类别，其中x₁＜x_r＜x_n，y₁＜y_r＜y_n，1＜r＜n。本实施例提供的采用拉普拉斯平滑技术处理文本数据的优化方法，适用于本发明提出的基于保密业务的文档隐写方法，所述优化方法应用优势在于可以对多用户提供文本数据相似度较高，且分类结果模糊的场景，当其他技术标准在该场景可适用的情况下，等效于本实施例提出的技术方案。

在本实施例中，对于任意一个关键词h_g，在统计其在w个类别下的条件概率，任意一个类别C_w，其先验概率/>。当新的文本数据Z输入时，类别C_q的后验概率/>，将后验概率最大的类别作为分类结果。其中，C_w表示第w个类别，N_w表示训练集中第w个类别出现的次数，N_gw表示数据集中第w个类别下，关键词h_g出现的次数，V为包含训练数据集中所有不同词汇的集合，z为文本数据Z中关键词的数量。

优选的，句法分析树与句法变换树可用于改变句子结构，所述句法分析树被用来表示文本数据的语法结构，通过对语法规则进行分析，可以将文本数据分解为不同的短语和单词，以及它们之间的关系。而句法变换树则被用来表示自然语言生成过程中的转换规则，通过应用这些规则，可以将深层结构转换为表层结构。应当理解，由于句法分析树与句法变换树中包含了文本数据的语法规则，因此它们也可以用来实现一些自然语言处理任务，比如在本实施例中涉及的文本分类、信息抽取等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于保密业务的文档隐写方法，其特征在于，包括以下步骤：

步骤9：将密文文本与密文图像嵌入目标文档，生成隐写文档，

基础属性α为敏感词的词义，基础属性β为同义词的词性、基础属性γ为对比词的词性，条件属性δ由识别词的词频f与识别词词义共同构成。

2.根据权利要求1所述的基于保密业务的文档隐写方法，其特征在于，所述分类规则为预设的敏感词集合，该敏感词集合包括至少一个的敏感词及该敏感词的敏感词权重。

3.根据权利要求1所述的基于保密业务的文档隐写方法，其特征在于，通过聚类分析在第二文本中筛选对比词特征，该对比词特征为第一特征。

4. 根据权利要求1所述的基于保密业务的文档隐写方法，其特征在于，在步骤8中，将排序单元内对称位置的像素块对调，排序单元内像素块的数量k= argmin(L-s×j)，s为编码图像像素块的长度，j为像素块的数量，j=1,2,3,...,(m+1)×(m+1)。

5.一种根据权利要求1所述基于保密业务的文档隐写方法的文档管理方法，其特征在于，包括以下步骤：

步骤70：将文本数据和图像数据拼接为目标文档。

6.根据权利要求5所述的基于保密业务的文档隐写方法的文档管理方法，其特征在于，数据访问端基于第二特征生成索引符，索引符遍历数据存储端的存储区内的标识符，若索引符与标识符配对，则读取该存储区的隐写文档。

7.根据权利要求5所述的基于保密业务的文档隐写方法的文档管理方法，其特征在于，授权机构预先将共享图像分配给数据生成端与数据访问端，共享图像在系统初始化过程中创建，并进行周期性更新。