CN110765479A

CN110765479A - 一种大数据防丢失方法、装置及设备

Info

Publication number: CN110765479A
Application number: CN201911372042.7A
Authority: CN
Inventors: 胡宇; 郭春林; 施欧君; 杨凯; 周自力
Original assignee: Changsha Douya Culture Technology Co Ltd
Current assignee: Changsha Douya Culture Technology Co Ltd
Priority date: 2019-11-03
Filing date: 2019-12-27
Publication date: 2020-02-07
Anticipated expiration: 2039-12-27
Also published as: CN110765479B

Abstract

本发明实施例涉及数据处理技术领域，具体而言，涉及一种大数据防丢失方法、装置及设备，在该方法中，由于第二存储脚本不是第一数据库直接从控制侧获取的而是根据存储执行参数脚本化得到的，且存储执行参数能够直接从控制侧获取，因此有效解决了第一数据库无法从控制侧直接、实时地获取用于对当前存储数据和原始数据进行存储的第二存储脚本的问题，从而避免了第一数据库在对原始数据进行存储时出现断点以及对原始数据和当前存储数据的存储进程不同步的情况，进而避免了在存储原始数据和当前存储数据时出现数据丢失的问题。

Description

一种大数据防丢失方法、装置及设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种大数据防丢失方法、装置及设备。

背景技术

随着科技的发展，企业内部的业务数据管理模式已发生了变化，大数据管理已成为企业内部数据管理的主要模式。随着企业和业务规模的扩大，大数据管理也出现了一些弊端。例如，随着大数据规模的扩大，现有的大数据管理方法存在数据丢失的问题。

发明内容

为了至少克服现有技术中的上述不足，本发明的目的之一在于提供一种大数据防丢失方法、装置及设备。

本发明实施例提供了一种大数据防丢失方法，应用于第一数据库，所述第一数据库与所述控制侧通信连接，包括：

抽取控制侧的参数历史资源中记录的存储执行参数，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储；

根据所述存储执行参数，获取所述第一数据库的额定存储容量以及当前存储容量；根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，每个存储区间的实时存储容量可调；

识别第二数据库发送的关联存储请求，在根据所述关联存储请求确定出所述第二数据库通过风险验证时，获取所述第二数据库发送的存储需求标识；

解析所述存储需求标识以确定出所述原始数据的压缩进程；基于所述压缩进程在所述多个存储区间中对所述原始数据进行预压缩存储，得到预测结果；根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本；

接收所述第二数据库发送的当前存储数据，并根据所述第二存储脚本确定出第一存储方式和第二存储方式，按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储。

在一种可选的方式中，所述方法还包括：

响应所述第二数据库发送的数据获取指令；

根据所述数据获取指令和所述第二存储脚本，得到第三存储脚本；

按照所述第三存储脚本将以所述第二存储方式进行存储的当前存储数据发送至第二数据库，并按照所述第三存储脚本将以所述第一存储方式进行存储的原始数据进行解压存储。

在一种可选的方式中，所述根据所述数据获取指令和所述第二存储脚本，得到第三存储脚本，包括：

在根据所述数据获取指令在所述第一数据库中生成用于对所述第二存储脚本进行解析的标识符时，通过所述第二数据库在发送所述数据获取指令时生成的即时脉冲信号从所述第二数据库中截取与所述数据获取指令对应的操作句柄；

生成用于记录所述操作句柄的镜像存储空间，将所述操作句柄映射至所述镜像存储空间，根据所述第一数据库的系统代码设置访问拦截机制并删除截取到的所述操作句柄；

判断所述第一数据库是否处于执行所述第二存储脚本的状态，在所述第一数据库没有处于执行所述第二存储脚本的状态时，根据所述标识符确定对所述第二存储脚本进行解析的至少一个解析起始位置和解析顺序；

从所述至少一个解析起始位置开始，按照所述解析顺序对所述第二脚本进行并行解析；实时获取每个并行解析线程的解析线程百分比；在根据每个解析线程百分比确定出完成解析的目标并行解析线程时，将所述目标并行解析线程对应的时间片资源分配给解析线程百分比为最小值的并行解析线程，所述每个未完成解析的并行解析线程接收时间片资源分配的次数为一次；

提取所述每个并行解析线程在完成并行解析时得到的源码块，根据所述至少一个起始位置将所述源码快进行拼接，得到所述源码；

确定所述源码对应的加密属性值，在所述加密属性值与所述标识符存在映射关系时，获取所述加密属性值对应的字符串；

将所述字符串发送至第二数据库，以使所述第二数据库将所述字符串的首字符和末尾字符删除，并使所述第二数据库在所述首字符的位置处设置第一调用函数，在所述末尾字符的位置处设置第二调用函数，得到加密字符串；

获取所述第二数据库发送的加密字符串；

在响应所述数据获取指令中包括的数据传输信息时，根据所述加密字符串中的第一调用函数反射调用系统代码；结合所述系统代码以及所述第二调用函数，反射调用所述操作句柄，使得所述访问拦截机制在检测到所述系统代码时对所述第二调用函数进行放行并以使得所述操作句柄处于激活状态；

统计所述实时存储容量，并根据所述操作句柄和统计得到的实时存储容量对所述源码进行脚本化，得到所述第三存储脚本。

在一种可选的方式中，所述按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储，包括：

确定每个存储区间的编号；

按照所述第一存储方式中包括的压缩速率对所述原始数据进行压缩，并将压缩之后的原始数据按照所述编号依次存储于所述每个存储区间中；并将压缩原始数据所释放的存储区间打标记；

根据所述压缩速率确定出所述当前存储数据的存储速率；

以分段数据流的形式将所述当前存储数据按照所述存储速率存储至存在标记的存储区间中。

在一种可选的方式中，所述根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，包括：

确定出所述原始数据的数据流动态处理线程，根据所述数据流动态处理线程，获取所述第一数据库的动态存储配置标识；

根据所述动态存储配置标识确定所述第一数据库的存储切换损耗指数，基于所述存储切换损耗指数查找出所述第一数据库对应的存储切换临界值，根据所述存储切换临界值将所述原始数据拆分为多段子数据流；

基于每段子数据流从所述第一数据库中提取出所述每段子数据流对应的用于表征对所述每段子数据流进行压缩和/或解压的存储特性调节耗时；

根据所述存储特性调节耗时确定出所述每段子数据流在存入所述第一数据库时的存储时刻，根据每个存储时刻的先后顺序对所述每段子数据流进行排序，得到排序序列；为目标子数据流设置初始数值作为所述目标子数据流的第一数值；按照所述排序序列、所述每个存储时刻以及所述目标子数据流的第一数值对所述每段子数据流中除所述目标子数据流以外的子数据流进行数值转换，得到所述每段子数据流中除所述目标子数据流以外的子数据流对应的第一数值，其中，所述目标子数据流为位于所述排序序列第一位或最后一位的子数据流；

确定出所述每段子数据流所需的存储容量占所述额定存储容量的第一百分比以及占所述当前存储容量的第二百分比，根据所述第一百分比和所述第二百分比对所述每段子数据流所需的存储容量进行数值转换，得到所述每段子数据流对应的第二数值；

根据所述每段子数据流对应的第一数值和第二数值，建立二维坐标系；其中，所述二维坐标系的横轴为所述第二数值对应的坐标轴，所述二维坐标系的纵轴为所述第一数值对应的坐标轴，所述每段子数据流在所述二维坐标系统对应存在一个坐标点；

针对所述二维坐标系中的每个坐标点，将该坐标点确定为当前坐标点；

判断所述当前坐标点是否存在预设的相对距离标准值；

若存在，以所述当前坐标点为参考，按照所述排序序列和所述相对距离标准值确定所述当前坐标点与所述当前坐标点的相邻坐标点之间的相对距离，并为所述当前坐标点的相邻坐标点设置相对距离计算值以及计算标识；

若不存在，从所述当前坐标点的两个相邻坐标点中查找出存在计算标识和相对距离计算值的目标相邻坐标点，确定所述当前坐标点与所述目标相邻坐标点之间的相对距离，并为所述当前坐标点设置相对距离计算值以及计算标识；

根据确定出的相对距离将所述额定存储容量拆分为多个存储区间。

在一种可选的方式中，所述识别第二数据库发送的关联存储请求，包括：

根据所述关联存储请求，获取所述第二数据库的历史请求资源中的每个对外请求，并按照所述每个对外请求对应的请求时刻对所述每个对外请求进行排序获得对外请求序列；

确定出所述每个对外请求中的第一目标请求，将确定出的第一目标请求定义为第一集合，其中，所述第一目标请求对应的第三数据库为风险数据库；将所述每个对外请求中除所述第一目标请求之外的其他请求确定为第二目标请求，将所述第二目标请求定义为第二集合；

根据所述对外请求序列，配置出风险特征权重；

统计所述第一集合中的每个第一目标请求存在连续两次风险请求的第一累计值；根据所述第一累计值中风险请求的级别超过预警级别的次数的第一占比，确定所述每个第一目标请求的风险特征权重的触发率；

统计所述第二集合中的每个第二目标请求存在连续两次触发风险拦截机制的第二累计值；根据所述第二累计值中风险拦截机制对应的风险级别不超过所述预警级别的次数的第二占比，确定所述每个第一目标请求的风险特征权重的锁定率；根据所述锁定率确定出解锁率，所述解锁率与所述锁定率之和为一；

根据相匹配的风险特征权重，判断所述触发率与所述锁定率的均值是否超过预设值，若超过，确定相匹配的风险特征权重的叠加值；

对确定出的叠加值进行求和得到目标和值；

从所述第一数据库的系统表中获取所述第一数据库的判断逻辑进程中的指标数据；基于所述判断逻辑对所述指标数据进行去逻辑化，得到与所述指标数据对应的多个数据值；将所述多个数据值进行累加，得到累加值；判断所述目标和值与所述累加值是否相同，若相同，确定所述第二数据库通过所述风险验证。

在一种可选的方式中，所述根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本，包括：

根据所述预测结果中的节点信息，对所述存储执行参数进行分类，得到若干类参数集；

按照设定脚本周期，依次提取所述每类参数集中的逻辑关系；

将所述每个逻辑关系中的逻辑单元作为最小脚本化单元，按照所述逻辑关系，分别依次生成每个最小脚本化单元对应的程序命令；

将所述逻辑关系中的每个逻辑单元之间的相对顺序分别与每个程序命令进行匹配，所述相对顺序与所述逻辑命令的生成时刻相对应；根据与所述每个程序命令相匹配的相对顺序为所述每个程序命令设置对应的执行时刻索引值；

按照所述逻辑关系对设置有执行时刻索引值的程序命令进行时序连接，并按照完成时序连接的程序命令对应的参数集的类别，将所述完成时序连接的程序命令封装于对应的函数执行容器中，得到目标函数执行容器；

统计并基于得到的所有目标函数执行容器中每个目标函数执行容器的函数调用路径以及调用函数，确定所述每个目标函数执行容器的脚本编码特征值，并将每个脚本编码特征值发送至模拟器；其中，所述脚本编码特征值包括预设编码速率以及脚本流增长率；

获取所述模拟器基于所述每个脚本编码特征值生成的模拟信息；

根据每个模拟信息，确定出所述每个模拟信息对应的目标函数执行容器的逻辑层数、时间片开销占用率以及调用结果置信度；

根据所述逻辑层数对所述每个目标函数执行器进行排序，根据所述时间片开销占用率为完成排序的目标函数执行器分配延时启动等待时长，按照延时启动等待时长依次启动所述每个目标函数执行器，得到所述每个目标函数执行器对应的执行结果，所述并根据所述调用结果置信度对所述执行结果进行加权得到所述第二存储脚本。

本发明实施例提供了一种大数据防丢失装置，应用于第一数据库，所述第一数据库与所述控制侧通信连接，包括：

存储执行参数抽取模块，用于抽取控制侧的参数历史资源中记录的存储执行参数，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储；

存储区间拆分模块，用于根据所述存储执行参数，获取所述第一数据库的额定存储容量以及当前存储容量；根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，每个存储区间的实时存储容量可调；

存储需求标识获取模块，用于识别第二数据库发送的关联存储请求，在根据所述关联存储请求确定出所述第二数据库通过风险验证时，获取所述第二数据库发送的存储需求标识；

第二存储脚本获取模块，用于解析所述存储需求标识以确定出所述原始数据的压缩进程；基于所述压缩进程在所述多个存储区间中对所述原始数据进行预压缩存储，得到预测结果；根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本；

数据存储模块，用于接收所述第二数据库发送的当前存储数据，并根据所述第二存储脚本确定出第一存储方式和第二存储方式，按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储。

本发明实施例提供了一种设备，包括处理器以及与所述处理器连接的存储器和总线；其中，所述处理器和所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述的大数据防丢失方法。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述的大数据防丢失方法。

本发明实施例所提供的一种大数据防丢失方法、装置及设备，第一数据库能够从控制侧获取存储执行参数，并根据存储执行参数获取第一数据库的额定存储容量以及当前存储容量，由于第一数据库的数据库结构在每次存储数据时可能会变化，因此，基于存储执行参数能够准确确定出额定存储容量和当前存储容量，能够根据获取到的存储需求标识确定原始数据的压缩进程，并进行预压缩进程，得到预测结果，然后根据预测结果对存储执行参数进行脚本化从而得到第二存储脚本，最后基于第二存储脚本对当前存储数据和原始数据进行存储，由于第二存储脚本不是第一数据库直接从控制侧获取的而是根据存储执行参数脚本化得到的，且存储执行参数能够直接从控制侧获取，因此有效解决了第一数据库无法从控制侧直接、实时地获取用于对当前存储数据和原始数据进行存储的第二存储脚本的问题，从而避免了第一数据库在对原始数据进行存储时出现断点以及对原始数据和当前存储数据的存储进程不同步的情况，进而避免了在存储原始数据和当前存储数据时出现数据丢失的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种大数据防丢失方法的第一流程图。

图2为本发明实施例所提供的一种大数据防丢失方法的第二流程图。

图3为一实施方式中图2所示的S27的子步骤的示意图。

图4为一实施方式中图1所示的S25的子步骤的示意图。

图5为一实施方式中图1所示的S22的子步骤的示意图。

图6为一实施方式中图1所示的S23的子步骤的示意图。

图7为一实施方式中图1所示的S24的子步骤的示意图。

图8为本发明实施例所提供的一种大数据防丢失装置的功能模块框图。

图9为本发明实施例所提供的一种设备的方框示意图。

图标：

20-大数据防丢失装置；21-存储执行参数抽取模块；22-存储区间拆分模块；23-存储需求标识获取模块；24-第二存储脚本获取模块；25-数据存储模块；26-数据还原模块；

30-设备；301-处理器；302-存储器；303-总线。

具体实施方式

下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种大数据防丢失方法、装置及设备，用以改善现有的大数据管理方法存在数据丢失的技术问题。

本发明实施例提供的一种大数据防丢失方法、装置及设备为解决上述技术问题，总体思路如下：

抽取控制侧的参数历史资源中记录的存储执行参数，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储。根据所述存储执行参数，获取所述第一数据库的额定存储容量以及当前存储容量；根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，每个存储区间的实时存储容量可调。识别第二数据库发送的关联存储请求，在根据所述关联存储请求确定出所述第二数据库通过风险验证时，获取所述第二数据库发送的存储需求标识。解析所述存储需求标识以确定出所述原始数据的压缩进程；基于所述压缩进程在所述多个存储区间中对所述原始数据进行预压缩存储，得到预测结果；根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本。接收所述第二数据库发送的当前存储数据，并根据所述第二存储脚本确定出第一存储方式和第二存储方式，按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储。

如此，第一数据库能够从控制侧获取存储执行参数，并根据存储执行参数获取第一数据库的额定存储容量以及当前存储容量，由于第一数据库的数据库结构在每次存储数据时可能会变化，因此，基于存储执行参数能够准确确定出额定存储容量和当前存储容量，能够根据获取到的存储需求标识确定原始数据的压缩进程，并进行预压缩进程，得到预测结果，然后根据预测结果对存储执行参数进行脚本化从而得到第二存储脚本，最后基于第二存储脚本对当前存储数据和原始数据进行存储，由于第二存储脚本不是第一数据库直接从控制侧获取的而是根据存储执行参数脚本化得到的，且存储执行参数能够直接从控制侧获取，因此有效解决了第一数据库无法从控制侧直接、实时地获取用于对当前存储数据和原始数据进行存储的第二存储脚本的问题，从而避免了第一数据库在对原始数据进行存储时出现断点以及对原始数据和当前存储数据的存储进程不同步的情况，进而避免了在存储原始数据和当前存储数据时出现数据丢失的问题。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

本发明实施例提供了一种大数据防丢失方法。图1为根据本发明一个实施例提供的大数据防丢失方法的第一流程图，该方法应用于第一数据库，所述第一数据库与所述控制侧通信连接，该方法可以包括以下内容：

S21，抽取控制侧的参数历史资源中记录的存储执行参数。

S22，根据所述存储执行参数，获取所述第一数据库的额定存储容量以及当前存储容量；根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间。

S23，识别第二数据库发送的关联存储请求，在根据所述关联存储请求确定出所述第二数据库通过风险验证时，获取所述第二数据库发送的存储需求标识。

S24，解析所述存储需求标识以确定出所述原始数据的压缩进程；基于所述压缩进程在所述多个存储区间中对所述原始数据进行预压缩存储，得到预测结果；根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本。

S25，接收所述第二数据库发送的当前存储数据，并根据所述第二存储脚本确定出第一存储方式和第二存储方式，按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储。

在S21中，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储。

在S22中，每个存储区间的实时存储容量可调。

发明人经研究和分析发现，常见的数据管理方法存在数据丢失问题是由于存储空间不足造成的，而常见的数据存储方式灵活性较差，难以根据实际情况进行存储方式的切换，例如，若数据库A的存储空间不足，无法将数据D进行存储，在这种情况下，数据D会因为无法存储而丢失，如果在这种情况下将数据D临时存储在数据库B中，经数据库A对自身的存储空间进行清理后，再将数据库B中的数据D进行存储，能够有效避免数据D的丢失，因此，为了避免数据D（临时数据）的丢失，在数据库B的存储空间饱和时，需要灵活调整数据库B的存储空间以实现对数据D的临时存储，但是常见的技术仍然无法通过灵活调整数据库B的存储空间以实现对数据D的临时存储。

发明人进一步研究和分析了数据库进行存储的原理，发现数据库在存储数据时大多是基于脚本进行的，脚本由控制端发送给数据库，在一般情况下，控制端向数据库发送的脚本是固定不变的，因此，数据库仅需要接收一次控制端发送的脚本，就可以执行该脚本实现数据存储。但是，由于数据库B在对数据D进行存储时会将数据库B中已存储的数据进行压缩存储，并在将数据D发送给数据库A时将数据库B中已存储的数据进行解压存储，因此，在这种情况下，控制端向数据库B发送的执行脚本是实时变化的，但是控制端与数据库B之间的常见通信传输无法传输实时变化的执行脚本，这会导致数据库B无法及时接收到执行脚本，从而难以实时实现已存储数据的压缩/解压，可能会由于已存储数据的压缩/解压进行过慢或过快导致数据D无法完整地存储于数据库B中，进一步地，若数据库B无法及时接收到执行脚本，还会导致已存储数据的压缩/解压出现断点，进而导致已存储数据的丢失。

在本实施例中，数据库A可以理解为第二数据库，数据库B可以理解为第一数据库，数据D可以理解为当前存储数据，数据库B中已存储的数据可以理解为原始数据。

可以理解，通过S21-S25，第一数据库能够从控制侧获取存储执行参数，并根据存储执行参数获取第一数据库的额定存储容量以及当前存储容量，由于第一数据库的数据库结构在每次存储数据时可能会变化，因此，基于存储执行参数能够准确确定出额定存储容量和当前存储容量，能够根据获取到的存储需求标识确定原始数据的压缩进程，并进行预压缩进程，得到预测结果，然后根据预测结果对存储执行参数进行脚本化从而得到第二存储脚本，最后基于第二存储脚本对当前存储数据和原始数据进行存储，由于第二存储脚本不是第一数据库直接从控制侧获取的而是根据存储执行参数脚本化得到的，且存储执行参数能够直接从控制侧获取，因此有效解决了第一数据库无法从控制侧直接、实时地获取用于对当前存储数据和原始数据进行存储的第二存储脚本的问题，从而避免了第一数据库在对原始数据进行存储时出现断点以及对原始数据和当前存储数据的存储进程不同步的情况，进而避免了在存储原始数据和当前存储数据时出现数据丢失的问题。

在S21-S25的基础上，请结合参阅图2，该方法还可以包括以下内容：

S26，响应所述第二数据库发送的数据获取指令。

S27，根据所述数据获取指令和所述第二存储脚本，得到第三存储脚本。

S28，按照所述第三存储脚本将以所述第二存储方式进行存储的当前存储数据发送至第二数据库，并按照所述第三存储脚本将以所述第二存储方式进行存储的原始数据进行解压存储。

通过S26-S28，第一数据库作为第二数据库存储数据的中转站，能够灵活地对第一数据库中所存储的原始数据进行压缩和解压，从而实现对第一数据库的存储空间的调整，使得第一数据库能够对第二数据库的当前存储数据进行临时存储，为第二数据库预留时间进行数据清理和整合以释放存储空间，当第二数据库完成存储空间的释放时，能够从第一数据库处获取第一数据库所存储的当前存储数据，确保了第二数据库不会因自身的存储空间不足导致当前存储数据无法被存储而丢失。此外，第一数据库将当前存储数据发送给第二数据库时能够对原始数据进行解压存储，如此，还能够确保原始数据的周期性完整，也能够保证对原始数据进行压缩存储所释放的空间不被恶意数据所占领，提高了第一数据库的数据存储安全性，避免因恶意数据的占领导致的数据丢失。

可以理解，在对当前存储数据进行存储和发送时，需要考虑第一数据库对应的执行脚本的差异，避免生硬、刻板地直接根据第二存储脚本和数据获取指令确定出在第二数据库获取数据时的数据流速率，从而避免第一数据库发送当前存储数据的进程解压原始数据的进程互相冲突以及存储空间在数据存储和数据释放的逻辑上的混乱，进而避免第一数据库在发送当前存储数据时导致当前存储数据和原始存储数据的丢失，为此，请结合参阅图3，在S27中，根据所述数据获取指令和所述第二存储脚本，得到第三存储脚本，具体包括以下内容：

S271，根据所述数据获取指令在所述第一数据库中生成用于对所述第二存储脚本进行解析的标识符时，通过所述第二数据库在发送所述数据获取指令时生成的即时脉冲信号从所述第二数据库中截取与所述数据获取指令对应的操作句柄。

S272，生成用于记录所述操作句柄的镜像存储空间，将所述操作句柄映射至所述镜像存储空间，根据所述第一数据库的系统代码设置访问拦截机制并删除所述操作句柄。

S273，判断所述第一数据库是否处于执行所述第二存储脚本的状态，在所述第一数据库没有处于执行所述第二存储脚本的状态时，根据所述标识符确定对所述第二存储脚本进行解析的至少一个解析起始位置和解析顺序。

S274，从所述至少一个解析起始位置开始，按照所述解析顺序对所述第二脚本进行并行解析；实时获取每个并行解析线程的解析线程百分比；在根据每个解析线程百分比确定出完成解析的目标并行解析线程时，将所述目标并行解析线程对应的时间片资源分配给解析线程百分比为最小值的并行解析线程，所述每个未完成解析的并行解析线程接收时间片资源分配的次数为一次。

S275，提取所述每个并行解析线程在完成并行解析时得到的源码块，根据所述至少一个起始位置将所述源码快进行拼接，得到所述源码。

S276，确定所述源码对应的加密属性值，在所述加密属性值与所述标识符存在映射关系时，获取所述加密属性值对应的字符串；将所述字符串发送至第二数据库，以使所述第二数据库将所述字符串的首字符和末尾字符删除，在所述首字符的位置处设置第一调用函数，在所述末尾字符的位置处设置第二调用函数，得到加密字符串。

S277，获取所述第二数据库发送的加密字符串。

S278，在响应所述数据获取指令中包括的数据传输信息时，根据所述加密字符串中的第一调用函数反射调用系统代码；结合所述系统代码以及所述第二调用函数，反射调用所述操作句柄，使得所述访问拦截机制在检测到所述系统代码时对所述第二调用函数进行放行并以使得所述操作句柄处于激活状态。

S279，统计所述实时存储容量，并根据所述操作句柄和统计得到的实时存储容量对所述源码进行脚本化，得到所述第三存储脚本。

可以理解，通过S271-S279，能够将第一数据库对当前存储数据进行存储和发送时执行脚本的差异考虑在内，避免生硬、刻板地直接根据第二存储脚本和数据获取指令确定出在第二数据库获取数据时的数据流速率，从而避免第一数据库发送当前存储数据的进程解压原始数据的进程互相冲突以及存储空间在数据存储和数据释放的逻辑上的混乱，进而避免第一数据库在发送当前存储数据时导致当前存储数据和原始存储数据的丢失。

进一步地，通过S273，能够确保解析得到的第二存储脚本的源码是静态的，避免在第二脚本运行时对其进行解析从而获得动态的源码，从而提高了获取第二存储脚本的源码的准确性。

进一步地，通过S273-S275，通过标识符确定出至少一个解析起始位置和解析顺序，能够使得第一数据库在对第二存储脚本进行解析时实现并行处理，从而能够充分利用第一数据库中的时间片资源与第二存储脚本的分段匹配，实现对第二存储脚本进行解析时的时间片资源利用效率最大化，且每个未完成解析的并行解析线程接收时间片资源分配的次数为一次，能够确保完成每个并行解析线程时的同步性，有效提高解析的效率和获取源码的速度。

进一步地，通过S276-S277，通过设置第一调用函数和第二调用函数，能够与后续的访问拦截机制共同形成保护操作句柄状态的防护墙，避免操作句柄被恶意程序激活，提高了操作句柄状态锁定的可靠性，避免因操作剧本的额激活导致第三存储脚本的误生成，进而避免了第一数据库误执行第三存储脚本导致的数据丢失。

进一步地，通过S278，能够确保操作句柄是在合法的情况下进行激活的，避免操作句柄被恶意使用带来的数据丢失。

请结合参阅图4，在S25中，按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储，具体包括以下内容：

S251，确定每个存储空间的编号。

S252，按照所述第一存储方式中包括的压缩速率对所述原始数据进行压缩，并将压缩之后的原始数据按照所述编号依次存储于所述每个存储空间中；并将压缩原始数据所释放的存储空间打标记。

S253，根据所述压缩速率确定出所述当前存储数据的存储速率。

S254，以分段数据流的形式将所述当前存储数据按照所述存储速率存储至存在标记的存储空间中。

可以理解，通过S251-S254，能够将释放的存储空间打上标记，便于后续对当前存储数据进行存储的次序，避免将当前存储数据进行打乱，确保了当前存储数据的完整性和正确性，此外，压缩速率和存储速率是互相匹配，如此，保证了因原始数据被压缩所释放的存储空间能够满足当前存储数据的存储需求，避免因释放的存储空间不足导致当前存储数据在存储时出现数据丢失。

请结合参阅图5，在S22中，根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，具体包括以下内容：

S221，确定出所述原始数据的数据流动态处理线程，根据所述数据流动态处理线程，获取所述第一数据库的动态存储配置标识。

S222，根据所述动态存储配置标识确定所述第一数据库的存储切换损耗指标，基于所述存储切换损耗指标查找出所述第一数据库对应的存储切换临界值，根据所述存储切换临界值将所述原始数据拆分为多段子数据流。

S223，基于每段子数据流从所述第一数据库中提取出所述每段子数据流对应的用于表征对所述每段子数据流进行压缩和/或解压的存储特性调节耗时。

S224，根据所述存储特性调节耗时确定出所述每段子数据流在存入所述第一数据库时的存储时刻，根据每个存储时刻的先后顺序对所述每段子数据流进行排序，得到排序序列；为目标子数据流设置初始数值作为所述目标子数据流的第一数值；按照所述排序序列、所述每个存储时刻以及所述目标子数据流的第一数值对所述每段子数据流中除所述目标子数据流以外的子数据流进行数值转换，得到所述每段子数据流中除所述目标子数据流以外的子数据流对应的第一数值，其中，所述目标子数据流为位于所述排序序列第一位或最后一位的子数据流。

S225，确定出所述每段子数据流所需的存储容量占所述额定存储容量的第一百分比以及占所述当前存储容量的第二百分比，根据所述第一百分比和所述第二百分比对所述每段子数据流所需的存储容量进行数值转换，得到所述每段子数据流对应的第二数值。

S226，根据所述每段子数据流对应的第一数值和第二数值，建立二维坐标系；其中，所述二维坐标系的横轴为所述第二数值对应的坐标轴，所述二维坐标系的纵轴为所述第一数值对应的坐标轴，所述每段子数据流在所述二维坐标系统对应存在一个坐标点。

S227，针对所述二维坐标系中的每个坐标点，将该坐标点确定为当前坐标点。

S228，判断所述当前坐标点是否存在预设的相对距离标准值；若存在，以所述当前坐标点为参考，按照所述排序序列和所述相对距离标准值确定所述当前坐标点与所述当前坐标点的相邻坐标点之间的相对距离，并为所述当前坐标点的相邻坐标点设置相对距离计算值以及计算标识；若不存在，从所述当前坐标点的两个相邻坐标点中查找出存在计算标识和相对距离计算值的目标相邻坐标点，确定所述当前坐标点与所述目标相邻坐标点之间的相对距离，并为所述当前坐标点设置相对距离计算值以及计算标识。

S229，根据确定出的相对距离将所述额定存储容量拆分为多个存储空间。

基于S221-S229，根据原始数据的数据流动态处理线程能够依次确定出第一数据库的动态存储配置标识、存储切换指标和存储切换临界值，根据存储切换临界值对原始数据拆分得到的多段数据流能够将第一数据库的压缩/解压性能考虑在内，确保每段子数据流在压缩/解压时能够充分调用第一数据库的压缩/解压性能参数，避免第一数据库对每段子数据流进行压缩/解压是出现性能过欠或性能溢出。

进一步地，根据每段子数据流对应的存储时刻确定每段子数据流对应的第一数值，能够确保第一数值的时序准确性和连续性，从而保证后期对每段子数据进行压缩/解压时的时序的正确性，避免对每段子数据进行压缩/解压时的时序出现混乱导致数据的丢失。

此外，基于存储容量层面确定每段子数据流的第二数值，能够避免对每段子数据流进行压缩/解压时出现存储容量不足或者过剩的情况，有效确保了第一数据库的额定存储容量的利用率。

更进一步地，根据第一数值和第二数值建立二维坐标，并基于二维坐标系确定每段子数据流在二维坐标系统对应的坐标点之间的相对距离，能够将对每段子数据流进行压缩/解压时的切换损耗考虑在内，进而使得根据相对距离确定出的多个存储空间能够与多段子数据流相匹配，有效避免了在进行压缩/解压存储时对每个存储区间的二次调整，提高了后续进行压缩/解压存储的时效性，避免因时效性带来的压缩/解压存储与第二数据库的当前存储数据的存储进程不同步，进而避免了数据的丢失。

请结合参阅图6，在S23中，识别第二数据库发送的关联存储请求，具体可以包括以下步骤：

S231，根据所述关联存储请求，获取所述第二数据库的历史请求资源中的每个对外请求，并按照所述每个对外请求对应的请求时刻对所述每个对外请求进行排序获得对外请求序列。

S232，确定出所述每个对外请求中的第一目标请求，将确定出的第一目标请求定义为第一集合，其中，所述第一目标请求对应的第三数据库为风险数据库；将所述每个对外请求中除所述第一目标请求之外的其他请求确定为第二目标请求，将所述第二目标请求定义为第二集合。

S233，根据所述对外请求序列，配置出风险特征权重。

S234，统计所述第一集合中的每个第一目标请求存在连续两次风险请求的第一累计值；根据所述第一累计值中风险请求的级别超过预警级别的次数的第一占比，确定所述每个第一目标请求的风险特征权重的触发率。

S235，统计所述第二集合中的每个第二目标请求存在连续两次触发风险拦截机制的第二累计值；根据所述第二累计值中风险拦截机制对应的风险级别不超过所述预警级别的次数的第二占比，确定所述每个第一目标请求的风险特征权重的锁定率；根据所述锁定率，确定出解锁率，所述解锁率与所述锁定率之和为一。

S236，根据相匹配的风险特征权重，判断所述触发率与所述锁定率的均值是否超过预设值，若超过，确定相匹配的风险特征权重的叠加值。

S237，对确定出的叠加值进行求和得到目标和值。

S238，从所述第一数据库的系统表中获取所述第一数据库的判断逻辑进程中的指标数据；基于所述判断逻辑对所述指标数据进行去逻辑化，得到与所述指标数据对应的多个数据值；将所述多个数据值进行累加，得到累加值；判断所述目标和值与所述累加值是否相同，若相同，确定所述第二数据库通过所述风险验证。

可以理解，通过S231-S238，能够对第二数据库的每个对外请求进行分析，能够确定出第二数据库在与其它风险数据库进行关联存储时触发风险的触发率以及与其它非风险数据库进行关联存储时规避风险的锁定率。如此，能够将与第二数据库存在关联的数据库的风险考虑在内，提高了对第二数据库进行风险识别的可靠性，避免第一数据库与存在风险的第二数据库交互导致的数据丢失。

请结合参阅图7，在S24中，根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本，具体包括以下内容：

S241，根据所述预测结果中的节点信息，对所述存储执行参数进行分类，得到若干类参数集。

S242，按照设定脚本周期，依次提取所述每类参数集中的逻辑关系。

S243，将所述每个逻辑关系中的逻辑单元作为最小脚本化单元，按照所述逻辑关系，分别依次生成每个最小脚本化单元对应的程序命令。

S244，将所述逻辑关系中的每个逻辑单元之间的相对顺序分别与每个程序命令进行匹配，所述相对顺序与所述逻辑命令的生成时刻相对应；根据与所述每个程序命令相匹配的相对顺序为所述每个程序命令设置对应的执行时刻索引值。

S245，按照所述逻辑关系对设置有执行时刻索引值的程序命令进行时序连接，并按照完成时序连接的程序命令对应的参数集的类别，将所述完成时序连接的程序命令封装于对应的函数执行容器中，得到目标函数执行容器。

S246，统计并基于得到的所有目标函数执行容器中每个目标函数执行容器的函数调用路径以及调用函数，确定所述每个目标函数执行容器的脚本编码特征值，并将每个脚本编码特征值发送至模拟器；其中，所述脚本编码特征值包括预设编码速率以及脚本流增长率。

S247，获取所述模拟器基于所述每个脚本编码特征值生成的模拟信息。

S248，根据每个模拟信息，确定出所述每个模拟信息对应的目标函数执行容器的逻辑层数、时间片开销占用率以及调用结果置信度。

S249，根据所述逻辑层数对所述每个目标函数执行器进行排序，根据所述时间片开销占用率为完成排序的目标函数执行器分配延时启动等待时长，按照延时启动等待时长依次启动所述每个目标函数执行器，得到所述每个目标函数执行器对应的执行结果，所述并根据所述调用结果置信度对所述执行结果进行加权得到所述第二存储脚本。

可以理解，通过S241-S249，能够对存储执行参数进行分类，从而区分出存储执行参数对应的不同执行功能，按照设定脚本周期对逻辑关系进行提取，能够为每次提取逻辑关系预留裕量，在提取出现异常时能够及时切断提取过程，从而减少后续修复的成本；以逻辑关系中的逻辑单元生成对应的程序命令，能够得到互相独立的程序命令，避免多个程序命令之间出现扰动和交织，将程序命令封装于目标函数执行器中，能够基于目标函数执行器提高执行程序命令的效率，能够基于模拟器对脚本编码值进行模拟从而得到模拟信息，能够为目标函数执行器提供执行依据，确保目标函数执行器对应的执行结果的准确性，从而确保得到的第二存储脚本的准确性和可靠性。

本发明实施例提供了一种大数据防丢失装置20。图8为根据本发明一个实施例提供的一种大数据防丢失装置20的功能单元框图，该大数据防丢失装置20包括：

存储执行参数抽取模块21，用于抽取控制侧的参数历史资源中记录的存储执行参数，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储；

存储区间拆分模块22，用于根据所述存储执行参数，获取所述第一数据库的额定存储容量以及当前存储容量；根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，每个存储区间的实时存储容量可调；

存储需求标识获取模块23，用于识别第二数据库发送的关联存储请求，在根据所述关联存储请求确定出所述第二数据库通过风险验证时，获取所述第二数据库发送的存储需求标识；

第二存储脚本获取模块24，用于解析所述存储需求标识以确定出所述原始数据的压缩进程；基于所述压缩进程在所述多个存储区间中对所述原始数据进行预压缩存储，得到预测结果；根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本；

数据存储模块25，用于接收所述第二数据库发送的当前存储数据，并根据所述第二存储脚本确定出第一存储方式和第二存储方式，按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储。

在一种可选的方式中，大数据防丢失装置20，还包括数据还原模块26，用于：

响应所述第二数据库发送的数据获取指令；

在一种可选的方式中，数据还原模块26，用于：

获取所述第二数据库发送的加密字符串；

在一种可选的方式中，数据存储模块25，用于：

确定每个存储区间的编号；

根据所述压缩速率确定出所述当前存储数据的存储速率；

在一种可选的方式中，存储区间拆分模块22，用于：

判断所述当前坐标点是否存在预设的相对距离标准值；

在一种可选的方式中，存储需求标识获取模块23，用于：

根据所述对外请求序列，配置出风险特征权重；

对确定出的叠加值进行求和得到目标和值；

在一种可选的方式中，第二存储脚本获取模块24，用于：

所述大数据防丢失装置20包括处理器和存储器，上述车网连接验证请求存储执行参数抽取模块21、存储区间拆分模块22、存储需求标识获取模块23、第二存储脚本获取模块24、数据存储模块25和数据还原模块26等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数避免在存储原始数据和当前存储数据时出现数据丢失的问题。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述大数据防丢失方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述大数据防丢失方法。

本发明实施例提供了一种设备，如图9所示，设备30包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线；其中，处理器301、存储器302通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述的大数据防丢失方法。本文中的设备30可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

在一种可选的方式中，所述方法还包括：

响应所述第二数据库发送的数据获取指令；

获取所述第二数据库发送的加密字符串；

确定每个存储区间的编号；

根据所述压缩速率确定出所述当前存储数据的存储速率；

判断所述当前坐标点是否存在预设的相对距离标准值；

根据所述对外请求序列，配置出风险特征权重；

对确定出的叠加值进行求和得到目标和值；

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种大数据防丢失方法，其特征在于，应用于第一数据库，所述第一数据库与控制侧通信连接，包括：

抽取所述控制侧的参数历史资源中记录的存储执行参数，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应所述第二数据库发送的数据获取指令；

3.根据权利要求2所述的方法，其特征在于，所述根据所述数据获取指令和所述第二存储脚本，得到第三存储脚本，包括：

从所述至少一个解析起始位置开始，按照所述解析顺序对所述第二存储脚本进行并行解析；实时获取每个并行解析线程的解析线程百分比；在根据每个解析线程百分比确定出完成解析的目标并行解析线程时，将所述目标并行解析线程对应的时间片资源分配给解析线程百分比为最小值的并行解析线程，所述每个未完成解析的并行解析线程接收时间片资源分配的次数为一次；

获取所述第二数据库发送的加密字符串；

4.根据权利要求1所述的方法，其特征在于，所述按照所述第一存储方式对所述原始数据进行存储，按照所述第二存储方式对所述当前存储数据进行存储，包括：

确定每个存储区间的编号；

根据所述压缩速率确定出所述当前存储数据的存储速率；

5.根据权利要求1所述的方法，其特征在于，所述根据所述当前存储容量以及所述第一数据库中所存储的原始数据将所述额定存储容量拆分为多个存储区间，包括：

判断所述当前坐标点是否存在预设的相对距离标准值；

6.根据权利要求1-5任一所述的方法，其特征在于，所述识别第二数据库发送的关联存储请求，包括：

根据所述对外请求序列，配置出风险特征权重；

对确定出的叠加值进行求和得到目标和值；

7.根据权利要求1所述的方法，其特征在于，所述根据所述预测结果对所述存储执行参数进行脚本化，得到第二存储脚本，包括：

8.一种大数据防丢失装置，其特征在于，应用于第一数据库，所述第一数据库与控制侧通信连接，包括：

存储执行参数抽取模块，用于抽取所述控制侧的参数历史资源中记录的存储执行参数，所述存储执行参数是所述控制侧在预设时段内向所述第一数据库发送第一存储脚本时根据所述第一存储脚本生成的，所述第一存储脚本用于指示所述第一数据库将接收到的数据进行存储；

9.一种计算机设备，其特征在于，包括处理器以及与所述处理器连接的存储器和总线；其中，所述处理器和所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述权利要求1-7任一项所述的大数据防丢失方法。

10.一种存储介质，其特征在于，其上存储有程序，该程序被处理器执行时实现上述权利要求1-7任一项所述的大数据防丢失方法。