CN113935060B

CN113935060B - 一种抗碰撞混淆标记算法

Info

Publication number: CN113935060B
Application number: CN202111545559.9A
Authority: CN
Inventors: 巨文思; 杜欣泽; 丛晓丹; 路致鹏
Original assignee: Shandong Qinglan Electronics Co ltd
Current assignee: Shandong Qinglan Electronics Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-11
Anticipated expiration: 2041-12-17
Also published as: CN113935060A

Abstract

本发明涉及抗碰撞混淆标记算法，属于数据防泄密技术领域。所述抗碰撞混淆标记算法对数据库中的数值字段使用基于全连接（DNN）神经网络的线性回归模型进行训练，得出推理模型，将数值字段、数据交付、流转、操作等全部数据与推理模型进行混淆计算，生成抗碰撞混淆标记算法的非图像化数字水印，用于后期的数据追踪溯源。本发明设计的抗碰撞混淆标记算法用于跨部门、跨单位进行数据共享时的数据防泄密系统中，能够在发生泄密后进行有效的溯源追踪，生成泄密证据链。

Description

一种抗碰撞混淆标记算法

技术领域

本发明涉及数据防泄密技术领域，具体涉及一种抗碰撞混淆标记算法。

背景技术

近年来，全国各省、市都批准成立了大数据局，大数据局的主要职责是完成各级政府、企事业单位等多个部门之间的数据共享和数据挖掘，为管理决策提供依据。跨部门数据共享是一种新生事物，这种新形式的数据共享在共享过程中一旦发生数据泄露行为时，由于流转的部门、人员较多，无法直接界定数据的泄露节点，对后续的追责和之后数据的防泄密造成困扰，急需发明一种用于数据防泄密、数据溯源的方式方法。

现有的数据防泄密手段还是主要依赖于传统的网络层、硬件层的防火墙产品。除硬件产品外，没有基于数据库底层的软件或算法层面的技术手段用于防止数据泄密。假如发生数据泄露事件，能应用于数据溯源追踪的技术手段是空白或稀少，市场上找不到同类产品信息。

发明内容

为解决现有技术中的问题，本发明专利设计了一种抗碰撞混淆标记算法，基于数据库底层，对数据库中存储的数据本身进行混淆标记，生成非图像化数字水印，一旦数据发生外泄，能够依据泄密数据进行泄密节点溯源，发现泄密位置，及时止损。

本发明所采用的技术方案是：所述抗碰撞混淆标记算法的具体步骤为：

步骤一：在数据库中选中一个或多个数值字段；

步骤二：提取数据库中记录的数据共享过程中的交付、流转、操作的各项信息；

步骤三：将步骤二的各项数据进行类结构变换，统一数据类型；

步骤四：将步骤三的多项目数据进行数组重构变换，合并多项数据；

步骤五：对步骤一选中的数值字段使用基于全连接神经网络的线性回归模型进行训练；

步骤六：调整线性回归模型的超参，并对超参进行ECC加密；

步骤七：对训练结果进行抗碰撞验证，直至满足所有条件；

步骤八：得出推理模型，并对该推理模型进行存储；

步骤九：将步骤一、步骤四、推理模型三项数据进行混淆计算；

步骤十：将混淆计算后的结果生成数字水印，记录至数据库中；

步骤十一：如发生数据泄密事件，使用泄密数据中的数字水印进行反向计算，反推泄密节点。

本发明步骤十中生成的数字水印为非图像化数字水印。

进一步的，所述步骤六中调整的超参包括迭代次数、随机权重值和梯度下降函数。

进一步的，所述步骤七需要达到生成数据集时不允许出现碰撞数据，如果出现碰撞数据重新调整超参重新计算直到满足抗碰撞条件为止，使用往期模型加密新批次数据出现浮动值偏差，程序验证后重新混淆加密，直至所有结果数据满足条件，达到同个模型、同个数据源得到相同结果，当超参或计算环境变化时计算结果也随之变化。

进一步的，所述步骤九的具体过程为发生数据泄密事件，提取泄密数据中的数字水印使用混淆标记过程的算法进行反向计算，将反向计算得出的数据共享过程信息结果与数据库中记录的过程信息进行核对验证，核对无误后生成泄密证据链。

进一步的，数据共享过程中的信息包括数据交付、流转、操作过程中所涉及的所有的时间、人员、部门、用户等信息。

相对于现有技术，本发明专利设计的一种抗碰撞混淆标记算法的进步之处在于：本算法应用在跨部门、跨单位进行数据共享的数据防泄密系统中，在进行数据加密时不仅涉及所要加密数据本身，还包括将部门或业务单位间的数据交付、流转、操作等全部过程由系统算法记录并混淆后写入最终的数据库中，且数据库操作全过程使用零信任机制严格验证系统操作权限和身份信息，最大程度防止数据泄密；由于本算法使用了基于全连接（DNN）神经网络的线性回归模型进行训练，也由于AI深度学习的浮点运算特性，推理模型原则上是不可逆的，再加持每次处理数据时，都可单独训练推理模型，达到每次处理数据规则都不同，所以本算法具备高强度的抗碰撞特性；使用一次一规则的推理模型与数据共享的各项信息进行混淆计算，得到抗碰撞混淆标记算法的数字水印，本申请中所提的数字水印区别于传统的版权保护用的图像化数字水印，是一种完全非图像化的数字水印，混淆后的数据库中的数字水印与数据结合出现，不会因为数据的复制、拷贝、分割等操作消失，一旦发生泄密，即可对泄密的数据提取数字水印，并通过混淆、加密过程的反向算法进行反向计算，由于数据库中记录了数据共享全过程的信息，核对后便能够反推出泄密节点，形成泄密证据链。

附图说明

图1是抗碰撞混淆标记算法的流程示意图。

图2是抗碰撞混淆标记算法的线性回归模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的说明。对本发明实施例中的技术方案进行清楚、完整的描述，所描述的实施例仅仅是本发明创造一部分的实施例，而不是全部。基于本发明创造中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明创造保护的范围。

如图1所示，本发明专利设计了一种抗碰撞混淆标记算法，本实施例中抗碰撞混淆标记算法的具体步骤为：

步骤一：在数据库中选中一个或多个数值字段；

步骤五：对步骤一选中的数值字段使用基于全连接神经网络的线性回归模型进行训练；过程如图2所示，图中隐含层即为线性回归模型的超参；

步骤六：调整线性回归模型的超参，并对超参进行ECC加密；

步骤七：对训练结果进行抗碰撞验证，直至满足所有条件；

步骤八：得出推理模型，并对该推理模型进行存储；

训练过程的可变参数如下：

a)控制因子：生成数据集的随机函数控制；

b)迭代次数（超参1）；

c)随机权重值（超参2）；

d)梯度下降函数（超参3）。

整个推理模型存储了所有的计算过程和参数，具备可反推的条件。

本算法使用了基于全连接（DNN）神经网络的线性回归模型进行训练，也由于AI深度学习的浮点运算特性，推理模型原则上是不可逆的，再加持每次处理数据时，都可单独训练推理模型，达到每次处理数据规则都不同，使用一次一规则的推理模型与数据流转的各项信息进行混淆计算，得到抗碰撞混淆标记算法的数字水印。

本发明公开的抗碰撞混淆算法训练的步骤七需满足：

1、生成数据集时不允许出现碰撞数据；

2、如果出现碰撞数据重新调整超参重新计算直到满足抗碰撞条件为止；

3、使用往期模型加密新批次数据出现浮动值偏差，程序验证后重新混淆加密，直至所有结果数据满足条件；

4、要达到同个模型、同个数据源混淆计算后生成相同结果；当超参或计算环境变化时计算结果也随之变化。

本发明专利的数据库中记录的数据共享过程中信息包括数据交付、流转、操作过程中所涉及的所有的时间、人员、部门等的全部信息。

在发生数据泄密事件时，提取泄密数据中的数字水印，使用本算法进行反向计算，将反向计算的结果与数据库中记录的数据共享过程中的交付、流转、操作等全过程的信息进行核对、验证、提取，最后生成泄密证据链。

实施例1

如表1所示，为某市辖区内企业单位用电量的统计数据，该统计数据有当地供电部门定期进行统计汇总：

表1

为便于当地各职能部门对各企业单位进行及时的管理，需要将统计完成的数据在多个职能部门之间进行共享，该数据在进行共享的过程共在A局、B局、C局等多个职能单位之间进行了共享，在这共享过程中，数据库会自动记录过程信息如表2所示：

表2

通过本申请的抗碰撞混淆标记算法对上述电量统计数据共享过程的处理过程为：

步骤一：在电量统计数据库（表1）中选取统计的用电量数值字段；

步骤二：从系统数据库中提取表2所示的数据共享过程中的在三家职能单位之间交付、流转、操作的全部各项信息，如：提取交付部门A局数据11，提取操作人员王某某数据5，提取操作日期数据2021年8月17日，提取操作时间数据15时22分；

步骤三：将步骤二的各项信息数据进行类结构变换，统一数据类型，将交付部门A局信息转化为11，操作人员王某某信息转化为5，操作日期2021年8月17日转化为210817，操作时间信息15时22分转化为15.22；

步骤四：将步骤三的多组项目数据进行数组重构变换，合并多项数据，合并后数据为11521081715.22；

步骤五：对步骤一选中的电量数值字段使用基于全连接神经网络的线性回归模型进行训练，线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，为现有技术，运用十分广泛，其表达形式为y = w'x+e，e为误差服从均值为0的正态分布；

步骤六：调整线性回归模型的超参，并对超参进行ECC加密，在机器学习的上下文中，超参是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据，通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果，在本实施例中训练过程设置的超参数如下：

控制因子：生成数据集的随机函数控制；

迭代次数=100；

随机权重值=+/->3%；

梯度下降函数=0.25；

步骤七：对训练结果进行抗碰撞验证，直至满足所有条件；

步骤八：得出推理模型，并对该推理模型进行存储；在机器学习中通过线性回归训练得出的结果即称为推理模型，推理模型（inference model）是1990年经全国科学技术名词审定委员会审定发布的自动化名词；

步骤九：将步骤一、步骤四及推理模型三项数据进行混淆计算，如将步骤一表1第一行电量数据1910.46、步骤四数据11521081715.22、推理模型的函数集三项数据混淆计算，得出表3第一行用电数据1873.42；

步骤十：将混淆计算后的结果生成数字水印，记录至数据库中。混淆计算结果如表3所示：

表3

该数字水印串插回写完毕后会与数据本身结合，在数据泄露后，可以提取泄露的数据中的用电量的数字水印，经过数据混淆处理过程中应用的反向算法进行反向计算，便可推导出数据泄露是出现在哪个环节。

如上所述，本发明专利公开的一种抗碰撞混淆标记算法，在数据的共享过程中，会对数据共享的过程信息和数据本身进行混淆标记，并生成数字水印记录在数据中，达到数据加密和标记的效果，混淆后的数字水印与数据结合出现，不会因为数据的复制、拷贝、分割等操作消失，一旦发生泄密，即可对泄密的数据提取数字水印，并通过混淆过程的反向算法进行反向计算，由于数据库中记录了数据共享全过程的信息，核对后便能够反推出泄密节点，形成泄密证据链，可以很好的应用在数据的防泄密系统中。

上述内容仅为本发明创造的一个简单的实施例而已，不能以此限定本发明创造的实施范围，即凡是依本发明创造权利要求及发明创造说明内容所做出的简单的等效变化与修饰，皆仍属于本发明创造涵盖的范围。

Claims

1.一种抗碰撞混淆标记算法，其特征在于，所述抗碰撞混淆标记算法的具体步骤为：

步骤一：在数据库中选中一个或多个数值字段；

步骤六：调整线性回归模型的超参，并对超参进行ECC加密；

步骤七：对训练结果进行抗碰撞验证，直至满足所有条件；抗碰撞要达到生成数据集时不允许出现碰撞数据，如果出现碰撞数据重新调整超参重新计算直到满足抗碰撞条件为止，使用往期模型加密新批次数据出现浮动值偏差，程序验证后重新混淆加密，直至所有结果数据满足条件，达到同个模型、同个数据源得到相同结果，当超参或计算环境变化时计算结果也随之变化；

步骤八：得出推理模型，并对该推理模型进行存储；

步骤十：将混淆计算后的结果生成数字水印，记录至数据库中，所述数字水印为非图像化数字水印，在数据库中数字水印与数据结合出现；

2.根据权利要求1所述的一种抗碰撞混淆标记算法，其特征在于，所述步骤六中调整的超参包括迭代次数、随机权重值和梯度下降函数。

3.根据权利要求2所述的一种抗碰撞混淆标记算法，其特征在于，所述步骤十一的具体过程为发生数据泄密事件，提取泄密数据中的数字水印使用混淆标记过程的算法进行反向计算，将反向计算得出的数据共享过程信息结果与数据库中记录的过程信息进行核对验证，核对无误后生成泄密证据链。

4.根据权利要求3所述的一种抗碰撞混淆标记算法，其特征在于，所述数据共享过程中的信息包括数据交付、流转、操作过程中所涉及的所有的时间、人员、部门、用户信息。

5.根据权利要求4所述的一种抗碰撞混淆标记算法，其特征在于，应用于数据防泄密系统中。