发明内容
本发明提供一种结合专家系统神经网络的数据防丢失容灾方法及服务器,为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种结合专家系统神经网络的数据防丢失容灾方法,应用于大数据防丢失服务器,所述方法包括:
获得历史文本大数据资源以及所述历史文本大数据资源对应的已认证文本资源压缩信息;
将所述历史文本大数据资源加载至完成调试的第一AI专家系统网络,得到所述历史文本大数据资源对应的第一文本资源压缩推演知识;
将所述历史文本大数据资源加载至第二AI专家系统网络,得到所述历史文本大数据资源对应的第二文本资源压缩推演知识,基于所述第二文本资源压缩推演知识,生成所述历史文本大数据资源对应的文本资源压缩测试信息;其中,所述第二AI专家系统网络中的网络变量个数小于所述第一AI专家系统网络中的网络变量个数;
基于所述第一文本资源压缩推演知识、所述第二文本资源压缩推演知识、所述文本资源压缩测试信息以及所述已认证文本资源压缩信息,对所述第二AI专家系统网络中的网络变量进行优化,生成目标AI专家系统网络,基于所述目标AI专家系统网络对文本大数据资源进行文本资源压缩信息的挖掘。
在一些可选的实施例中,所述基于所述第一文本资源压缩推演知识、所述第二文本资源压缩推演知识、所述文本资源压缩测试信息以及所述已认证文本资源压缩信息,对所述第二AI专家系统网络中的网络变量进行优化,生成目标AI专家系统网络,包括:
基于所述第一文本资源压缩推演知识、所述第二文本资源压缩推演知识、所述文本资源压缩测试信息以及所述已认证文本资源压缩信息,确定所述第二AI专家系统网络的网络代价变量;
基于所述网络代价变量对所述第二AI专家系统网络中的网络变量进行优化,当优化后的第二AI专家系统网络达到网络调校要求时,将优化后的第二AI专家系统网络确定为所述目标AI专家系统网络。
在一些可选的实施例中,所述基于所述第一文本资源压缩推演知识、所述第二文本资源压缩推演知识、所述文本资源压缩测试信息以及所述已认证文本资源压缩信息,确定所述第二AI专家系统网络的网络代价变量,包括:
基于所述第一文本资源压缩推演知识以及所述第二文本资源压缩推演知识,确定所述第二AI专家系统网络的知识迁移代价变量;
基于所述文本资源压缩测试信息以及所述已认证文本资源压缩信息,确定所述第二AI专家系统网络的知识偏移代价变量;
基于所述知识迁移代价变量以及所述知识偏移代价变量,确定所述网络代价变量。
在一些可选的实施例中,所述第一文本资源压缩推演知识包括第一文本资源压缩推演知识vec1_u以及第一文本资源压缩推演知识vec1_u+1,所述第二文本资源压缩推演知识包括第二文本资源压缩推演知识vec2_u以及第二文本资源压缩推演知识vec2_u+1,u为正整数;
所述基于所述第一文本资源压缩推演知识以及所述第二文本资源压缩推演知识,确定所述第二AI专家系统网络的知识迁移代价变量,包括:
基于所述第一文本资源压缩推演知识vec1_u以及所述第二文本资源压缩推演知识vec2_u,确定所述第二AI专家系统网络中第二知识扩展单元unit2_u的知识迁移代价变量cost_u;其中,所述第一文本资源压缩推演知识vec1_u为所述第一AI专家系统网络中的第一知识扩展单元unit1_u生成的文本资源压缩推演知识;所述第二文本资源压缩推演知识vec2_u为所述第二知识扩展单元unit2_u生成的文本资源压缩推演知识;
基于所述第一文本资源压缩推演知识vec1_u+1以及所述第二文本资源压缩推演知识vec2_u+1,确定所述第二AI专家系统网络中第二知识扩展单元unit2_u+1的知识迁移代价变量cost_u+1;其中,所述第一文本资源压缩推演知识vec1_u为所述第一AI专家系统网络中的第一知识扩展单元unit1_u+1输入的文本资源压缩推演知识,所述第一文本资源压缩推演知识vec1_u+1为所述第一知识扩展单元unit1_u+1生成的文本资源压缩推演知识;所述第二文本资源压缩推演知识vec2_u为所述第二知识扩展单元unit2_u+1输入的文本资源压缩推演知识,所述第二文本资源压缩推演知识vec2_u+1为所述第二知识扩展单元unit2_u+1生成的文本资源压缩推演知识;
基于所述知识迁移代价变量cost_u以及所述知识迁移代价变量cost_u+1,确定所述第二AI专家系统网络的所述知识迁移代价变量。
在一些可选的实施例中,所述第二AI专家系统网络包括第二知识抽取单元以及第二知识扩展单元;所述将所述历史文本大数据资源加载至第二AI专家系统网络,得到所述历史文本大数据资源对应的第二文本资源压缩推演知识,包括:
获得所述第二AI专家系统网络,将所述历史文本大数据资源加载至所述第二AI专家系统网络的前序单元,得到所述历史文本大数据资源对应的第二基础推演知识;
通过所述第二知识抽取单元对所述第二基础推演知识进行第一滑动平均操作以及抽样处理,得到所述历史文本大数据资源对应的第二待处理推演知识;
通过所述第二知识扩展单元对所述第二待处理推演知识进行第二滑动平均操作,得到所述第二文本资源压缩推演知识。
在一些可选的实施例中,还包括:
获得第一历史AI专家系统网络,将所述历史文本大数据资源加载至所述第一历史AI专家系统网络,得到所述历史文本大数据资源对应的所述第一文本资源压缩推演知识,基于所述第一文本资源压缩推演知识,生成所述历史文本大数据资源对应的文本资源压缩推演信息;
基于所述文本资源压缩推演信息以及所述已认证文本资源压缩信息,确定所述第一历史AI专家系统网络的历史网络代价变量;
基于所述历史网络代价变量对所述第一历史AI专家系统网络中的网络变量进行优化,当优化后的第一历史AI专家系统网络达到网络调校要求时,将优化后的第一历史AI专家系统网络确定为完成调试的所述第一AI专家系统网络。
在一些可选的实施例中,所述第一AI专家系统网络包括第一知识抽取单元以及第一知识扩展单元;所述将所述历史文本大数据资源加载至所述第一历史AI专家系统网络,得到所述历史文本大数据资源对应的所述第一文本资源压缩推演知识,基于所述第一文本资源压缩推演知识,生成所述历史文本大数据资源对应的文本资源压缩推演信息,包括:
将所述历史文本大数据资源加载至所述第一历史AI专家系统网络的前序单元,得到所述历史文本大数据资源对应的第一基础推演知识;
通过所述第一知识抽取单元对所述第一基础推演知识进行第一滑动平均操作以及抽样处理,得到所述历史文本大数据资源对应的第一待处理推演知识;所述第一知识抽取单元的单元数量过于庞大于所述第二知识抽取单元的单元个数;
通过所述第一知识扩展单元对所述第一待处理推演知识进行第二滑动平均操作,得到所述第一文本资源压缩推演知识;
基于所述第一文本资源压缩推演知识,生成所述历史文本大数据资源对应的所述文本资源压缩推演信息。
在一些可选的实施例中,所述获得历史文本大数据资源以及所述历史文本大数据资源对应的已认证文本资源压缩信息,包括:
调用预设处理模块,通过所述预设处理模块获得取样步长,依据所述取样步长在第一时序节点对目标资源池进行文本大数据资源取样,生成第一取样文本大数据资源,以及与所述第一取样文本大数据资源对应的第一取样文本资源压缩信息;
依据所述取样步长在第二时序节点对所述目标资源池进行文本大数据资源取样,生成第二取样文本大数据资源,以及与所述第二取样文本大数据资源对应的第二取样文本资源压缩信息;所述第二时序节点迟于所述第一时序节点,且所述取样步长对应的取样周期为所述第二时序节点与所述第一时序节点之间的周期;
将所述第一取样文本大数据资源、所述第二取样文本大数据资源,确定为所述历史文本大数据资源,将所述第一取样文本资源压缩信息以及所述第二取样文本资源压缩信息确定为所述已认证文本资源压缩信息。
在一些可选的实施例中,所述基于所述目标AI专家系统网络对文本大数据资源进行文本资源压缩信息的挖掘,包括:
获得所述文本大数据资源,将所述文本大数据资源加载至所述目标AI专家系统网络;所述目标AI专家系统网络包括知识抽取单元以及知识扩展单元;
通过所述知识抽取单元提取所述文本大数据资源中的金字塔向量,将所述金字塔向量加载至所述知识扩展单元,通过所述知识扩展单元生成所述文本大数据资源对应的文本资源压缩信息;所述文本大数据资源包括目标资源项以及边缘资源项,所述文本资源压缩信息反映所述边缘资源项与所述目标资源项之间的差异度;
基于所述文本资源压缩信息,获得所述文本大数据资源中所述边缘资源项与所述目标资源项之间的差异度,基于所述差异度确定所述目标资源项的目标使用价值评价。
在一些可选的实施例中,所述边缘资源项包括第一边缘资源项以及第二边缘资源项;所述基于所述文本资源压缩信息,获得所述文本大数据资源中所述边缘资源项与所述目标资源项之间的差异度,基于所述差异度确定所述目标资源项的目标使用价值评价,包括:
基于所述文本资源压缩信息,获得所述文本大数据资源中所述第一边缘资源项与所述目标资源项之间的第一差异度,获得所述文本大数据资源中所述第二边缘资源项与所述目标资源项之间的第二差异度;
从所述第一差异度以及所述第二差异度中确定最小差异度,将所述最小差异度对应的边缘资源项确定为目标边缘资源项;
基于所述目标边缘资源项以及所述最小差异度确定所述目标资源项的所述目标使用价值评价。
在一些可选的实施例中,所述基于所述目标边缘资源项以及所述最小差异度确定所述目标资源项的所述目标使用价值评价,包括:
如果所述最小差异度大于设定差异度且所述目标资源项的当前使用反馈为第一使用反馈,则确定所述目标资源项的所述目标使用价值评价为第一评价标签;
如果所述最小差异度不大于所述设定差异度,且所述目标资源项的当前使用反馈为所述第一使用反馈,则识别所述目标边缘资源项的资源项种类;所述资源项种类包括业务服务种类以及用户画像种类;如果所述目标边缘资源项的所述资源项种类为所述业务服务种类,则将所述目标资源项的所述目标使用价值评价更新为第二使用反馈;如果所述目标边缘资源项的所述资源项种类为所述用户画像种类,则将所述目标资源项的所述目标使用价值评价更新为第三使用反馈;所述第三使用反馈用于反映所述目标资源项抑制所述目标边缘资源项。
第二方面是一种大数据防丢失服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据防丢失服务器执行第一方面的方法。
第三方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
发明人经研究和分析发现,大部分技术的数据压缩质量难以令人满意的问题出在压缩特征的提取环节。这类技术没有对用于进行压缩特征提取的神经网络进行优化和改善,也就难以准确地提取出数据的压缩特征。
本发明实施例首先获得历史文本大数据资源和历史文本大数据资源对应的已认证文本资源压缩信息,然后将历史文本大数据资源加载至完成调试的第一AI专家系统网络,得到历史文本大数据资源对应的第一文本资源压缩推演知识,由于第一AI专家系统网络是较为丰富的神经网络,其网络变量个数多,细节输出质量较佳,所以第一AI专家系统网络生成的第一文本资源压缩推演知识的精度得以保障;然后,将历史文本大数据资源加载至第二AI专家系统网络,得到历史文本大数据资源对应的第二文本资源压缩推演知识,基于第二文本资源压缩推演知识,生成历史文本大数据资源对应的文本资源压缩测试信息;第二AI专家系统网络是网络变量个数较少的简单神经网络,具有转用性强、开销少的特点,本发明实施例考虑到简单神经网络的结构复杂性不高,细节输出质量不佳,因此不但基于文本资源压缩测试信息以及已认证文本资源压缩信息对第二AI专家系统网络中的网络变量进行优化,还基于第一文本资源压缩推演知识以及第二文本资源压缩推演知识对第二AI专家系统网络中的网络变量进行优化,生成目标AI专家系统网络,基于目标AI专家系统网络对文本大数据资源进行文本资源压缩信息的挖掘。由此可见,通过迁移第一AI专家系统网络的高质量文本资源压缩推演知识(第一文本资源压缩推演知识)给第二AI专家系统网络,一方面保障了第二AI专家系统网络转用性强、开销少的特点,另一方面提升了第二AI专家系统网络提取历史文本大数据资源的文本资源压缩推演知识的精度。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的结合专家系统神经网络的数据防丢失容灾方法的流程示意图,结合专家系统神经网络的数据防丢失容灾方法可以通过大数据防丢失服务器实现,大数据防丢失服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据防丢失服务器执行S101-S104。
S101,获得历史文本大数据资源以及历史文本大数据资源对应的已认证文本资源压缩信息。
示例性的,调用预设处理模块,通过预设处理模块获得取样步长,依据取样步长在第一时序节点对目标资源池进行文本大数据资源取样,生成第一取样文本大数据资源,以及与第一取样文本大数据资源对应的第一取样文本资源压缩信息;依据取样步长在第二时序节点对目标资源池进行文本大数据资源取样,生成第二取样文本大数据资源,以及与第二取样文本大数据资源对应的第二取样文本资源压缩信息,第二时序节点迟于第一时序节点,且取样步长对应的取样周期为第二时序节点与第一时序节点之间的周期(时段间隔);将第一取样文本大数据资源、第二取样文本大数据资源,确定为历史文本大数据资源,将第一取样文本资源压缩信息以及第二取样文本资源压缩信息确定为已认证文本资源压缩信息。其中,取样步长可以理解为取样频率,预设处理模块可以是系统接口模块,用于从目标资源池中进行文本大数据资源取样。历史文本大数据资源可以理解为作为样本的文本大数据资源。已认证文本资源压缩信息是作为先验依据的压缩之后的文本资源,用于指示之后的文本资源压缩处理。
本发明实施例中的文本大数据资源可以涉及电子商务领域、云服务安全领域、VR/AR/MR领域等。本发明实施例旨在基于目标AI专家系统网络对文本大数据资源进行文本资源压缩信息的挖掘,从而依据挖掘得到的文本资源压缩信息进行分散存储,一方面,文本资源压缩信息所占存储空间少,能够存储在多个容灾系统中,另一方面,文本资源压缩信息的特征表现性能搞,通过文本资源压缩信息恢复得到的文本大数据资源与最初的文本大数据资源几乎没有差别,从而可以在最初的文本大数据资源丢失时,通过文本资源压缩信息进行恢复,从而实现大数据防丢失处理。
S102,将历史文本大数据资源加载至完成调试的第一AI专家系统网络,得到历史文本大数据资源对应的第一文本资源压缩推演知识。
示例性的,获得第一历史AI专家系统网络。进一步地,第一AI专家系统网络包括第一知识抽取单元以及第一知识扩展单元,其中,第一知识抽取单元为第一下采样单元,第一知识扩展单元为第一上采样单元,将历史文本大数据资源输入第一历史AI专家系统网络的前序单元(可以理解为输入单元),得到历史文本大数据资源对应的第一基础推演知识(可以理解为第一初始推演特征);通过第一知识抽取单元对第一基础推演知识进行第一滑动平均操作以及抽样处理(可以理解为池化处理),得到历史文本大数据资源对应的第一待处理推演知识;通过第一知识扩展单元对第一待处理推演知识进行第二滑动平均操作,得到第一文本资源压缩推演知识;基于第一文本资源压缩推演知识,生成历史文本大数据资源对应的文本资源压缩推演信息;基于文本资源压缩推演信息以及已认证文本资源压缩信息,确定第一历史AI专家系统网络的历史网络代价变量;基于历史网络代价变量对第一历史AI专家系统网络中的网络变量进行优化,当优化后的第一历史AI专家系统网络达到网络调校要求时,将优化后的第一历史AI专家系统网络确定为完成调试的第一AI专家系统网络。
在本发明实施例中,AI专家系统网络可以是用于进行文本资源压缩知识提取的文本处理模型,比如BERT模型、Transformer模型或者其他类型的神经网络模型等。上述的滑动平均操作可以理解为卷积处理,文本资源压缩推演知识可以理解为对文本资源进行压缩特征提取之后得到的估计知识特征,所生成的文本资源压缩推演信息用于反映文本资源压缩之后的估计信息。此外,本发明实施例中的历史皆可以理解为样本,因此历史网络代价变量可以理解为样本网络的损失值,通过上述步骤,可以实现对第一历史AI专家系统网络的调试/调校/训练,从而得到完成调试的第一AI专家系统网络。
针对调试第一历史AI专家系统网络得到调试完成的第一AI专家系统网络的过程,可以包括如下示例性内容。
首先获得第一历史AI专家系统网络,由于历史AI专家系统网络的前序单元的单元规模是不可调的,因此在将S101中的历史文本大数据资源输入第一历史AI专家系统网络前,先将历史文本大数据资源的文本规模进行调整,使得调整之后的历史文本大数据资源能够匹配前序单元。
将历史文本大数据资源输入第一历史资源拆解网络中的前序单元,得到历史文本大数据资源对应的第一基础推演知识,比如,第一基础推演知识的知识关注面的数量为3;然后,将第一基础推演知识输入特征挖掘单元(即第一知识抽取单元),其中,特征挖掘单元包括滑动平均单元以及抽样单元,滑动平均单元从第一基础文本大数据资源特征中吸收一些细节内容,换言之,对第一基础文本大数据资源特征中的细节内容进行滑动平均处理,从而获得历史文本大数据资源不同文本区域中最具代表性的细节内容。在完成滑动平均处理后,已经提取到历史文本大数据资源的细节内容,但只通过滑动平均处理提取的特征数量过于庞大,为避免额外的开销,还需进行抽样处理,也就是将从历史文本大数据资源中通过滑动平均处理提取的细节内容传输至抽样单元,在最具代表性的细节内容中进行进一步的精炼处理。
通过特征挖掘单元得到历史文本大数据资源对应的待处理推演知识,然后将上述的待处理推演知识输入知识扩展单元,比如,本发明实施例示意的第一历史AI专家系统网络采用5个知识扩展单元还原待处理推演知识,知识扩展单元Upper sampling unit1的输入是特征挖掘单元生成的待处理推演知识,知识扩展单元Upper sampling unit1中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等同于待处理推演知识的维度,共有80个反卷积算子,所以生成的推演知识维度为80,也可以理解成知识扩展单元Uppersampling unit1生成的推演知识关系网有80个;将知识扩展单元Upper sampling unit1所生成的80维推演知识输入知识扩展单元Upper sampling unit2,知识扩展单元Uppersampling unit2中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于80,共有60个反卷积算子,所以生成的推演知识维度为60;将知识扩展单元Upper samplingunit2所生成的60维推演知识输入知识扩展单元Upper sampling unit3,知识扩展单元Upper sampling unit3中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于60,共有40个反卷积算子,所以生成的推演知识维度为40;将知识扩展单元Uppersampling unit3所生成的40维推演知识输入知识扩展单元Upper sampling unit4,知识扩展单元Upper sampling unit4中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于40,共有30个反卷积算子,所以生成的推演知识维度为30;将知识扩展单元Upper sampling unit4所生成30维推演知识输入知识扩展单元Upper sampling unit5,知识扩展单元Upper sampling unit5中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于30,只有1个反卷积算子,所以生成的推演知识维度为1,最后通过输出单元输出与知识扩展单元Upper sampling unit5所生成的推演知识相关联的文本资源压缩推演信息。
其中,知识抽取单元(特征挖掘单元)和知识扩展单元(包括知识扩展单元Uppersampling unit1、知识扩展单元Upper sampling unit2、知识扩展单元Upper samplingunit3、知识扩展单元Upper sampling unit4以及知识扩展单元Upper sampling unit5)后都会添加一个触发单元(激活单元),用于改善梯度爆炸缺陷
可见,通过上述第一历史AI专家系统网络得到文本资源压缩推演信息之后,还要减少文本资源压缩推演信息与已认证文本资源压缩信息的差别,因此,第一历史AI专家系统网络的目标是生成的文本资源压缩推演信息与已认证文本资源压缩信息尽可能相同,因此可以引入损失函数(代价变量)进行量化评估。
基于损失函数(代价变量)对第一历史AI专家系统网络中的网络变量进行优化,即不断的循环,当优化后的第一历史AI专家系统网络达到网络调校要求时,将优化后的第一历史AI专家系统网络确定为完成调试的第一AI专家系统网络。示例性的,设置第一历史AI专家系统网络的循环轮次阈值,当循环轮次等于循环轮次阈值时,停止第一历史AI专家系统网络的调试。
进一步地,第一AI专家系统网络调试完成时,将知识扩展单元Upper samplingunit1所生成的推演知识knowledge vector1A、知识扩展单元Upper sampling unit2所生成的推演知识knowledge vector2A、知识扩展单元Upper sampling unit3所生成的推演知识knowledge vector3A、知识扩展单元Upper sampling unit4所生成的推演知识knowledge vector4A、知识扩展单元Upper sampling unit5所生成的推演知识knowledgevector5A确定为第二文本资源压缩推演知识。
S103,将历史文本大数据资源加载至第二AI专家系统网络,得到历史文本大数据资源对应的第二文本资源压缩推演知识,基于第二文本资源压缩推演知识,生成历史文本大数据资源对应的文本资源压缩测试信息;第二AI专家系统网络中的网络变量个数小于第一AI专家系统网络中的网络变量个数。
示例性的,第二AI专家系统网络包括第二知识抽取单元以及第二知识扩展单元,获得第二AI专家系统网络,将历史文本大数据资源加载至第二AI专家系统网络的前序单元,得到历史文本大数据资源对应的第二基础推演知识;通过第二知识抽取单元对第二基础推演知识进行第一滑动平均操作以及抽样处理,得到历史文本大数据资源对应的第二待处理推演知识;通过第二知识扩展单元对第二待处理推演知识进行第二滑动平均操作,得到第二文本资源压缩推演知识。
可以理解,得到调试好的第一AI专家系统网络(复杂网络)后,本发明实施例可以确定出第二AI专家系统网络(简单网络),如此,可以提高文本资源压缩的时效性。网络变量可以理解为神经网络的模型参数。
本发明实施例提供的一种示例性第二AI专家系统网络可以包括5个知识抽取单元以及5个知识扩展单元,其中,以知识抽取单元Down sampling unit1、知识抽取单元Downsampling unit2、知识抽取单元Down sampling unit3、知识抽取单元Down samplingunit4以及知识抽取单元Down sampling unit5组成编码单元,以知识扩展单元Uppersampling unit1、知识扩展单元Upper sampling unit2、知识扩展单元Upper samplingunit3、知识扩展单元Upper sampling unit4以及知识扩展单元Upper sampling unit5组成译码单元。与上述第一AI专家系统网络类似,第二AI专家系统网络会包括前序单元、输出单元以及基本单元。同理,在将S101中的历史文本大数据资源加载至第二AI专家系统网络前,先将历史文本大数据资源的文本规模进行调整。
对历史文本大数据资源进行下采样处理(知识抽取处理),得到知识抽取结果;然后在利用对编码单元得到的知识抽取结果(特征关系网)进行上采样处理(知识扩展处理),得到文本资源压缩测试信息(文本资源压缩预测结果)。比如,将历史文本大数据资源加载至第二AI专家系统网络的前序单元,得到历史文本大数据资源对应的第二基础推演知识,将第二基础推演知识输入知识抽取单元Down sampling unit1,知识抽取单元Downsampling unit1中的滑动平均算子的规模为4,滑动周期为2,每个滑动平均算子的维度等同于第二基础推演知识的维度,共有15个滑动平均算子,所以生成的待处理推演知识deduction vector1的知识维数为15,也可以理解成知识抽取单元Down sampling unit1生成的推演知识关系网有15个;将知识抽取单元Down sampling unit1所生成的15维待处理推演知识deduction vector1输入知识抽取单元Down sampling unit2,知识抽取单元Downsampling unit2中的滑动平均算子的规模为4,滑动周期为2,每个滑动平均算子的维度等于待处理推演知识deduction vector1的维度,共有30个滑动平均算子,所以生成的待处理推演知识deduction vector2的知识维数为30;将知识抽取单元Down sampling unit2所生成的30维待处理推演知识deduction vector2输入知识抽取单元Down sampling unit3,知识抽取单元Down sampling unit3中的滑动平均算子的规模为4,滑动周期为2,每个滑动平均算子的维度等于待处理推演知识deduction vector2的维度,即30维,共有40个滑动平均算子,所以生成的待处理推演知识deduction vector3的知识维数为40;将知识抽取单元Down sampling unit3所生成的40维待处理推演知识deduction vector3输入知识抽取单元Down sampling unit4,知识抽取单元Down sampling unit4中的滑动平均算子的规模为4,滑动周期为2,每个滑动平均算子的维度等于40,共有60个滑动平均算子,所以生成的待处理推演知识deduction vector4的知识维数为60;将知识抽取单元Down sampling unit4所生成60维待处理推演知识deduction vector4输入知识抽取单元Down sampling unit5,知识抽取单元Down sampling unit5中的滑动平均算子的规模为4,滑动周期为2,每个滑动平均算子的维度等于待处理推演知识deduction vector4的知识维数,即60维,共有80个滑动平均算子,所以生成的待处理推演知识维度为80。
上述的知识抽取单元(包括知识抽取单元Down sampling unit1、知识抽取单元Down sampling unit2、知识抽取单元Down sampling unit3知识抽取单元Down samplingunit4以及知识抽取单元Down sampling unit5)可以包括滑动平均单元以及抽样单元,由此可见,历史文本大数据资源通过多个级联的滑动平均单元和抽样单元进行知识向量挖掘,逐步获得尽可能丰富的细节特征。第二待处理推演知识包括上述的待处理推演知识deduction vector1、待处理推演知识deduction vector2、待处理推演知识deductionvector3、待处理推演知识deduction vector4以及待处理推演知识deduction vector5。
进一步地,将知识抽取单元Down sampling unit5所生成的待处理推演知识deduction vector5输入知识扩展单元Upper sampling unit1,知识扩展单元Uppersampling unit1中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等同于待处理推演知识deduction vector5的维度,共有80个反卷积算子,所以生成的推演知识deduction vector1a维度为80,也可以理解成知识扩展单元Upper sampling unit1生成的推演知识关系网有80个;将知识扩展单元Upper sampling unit1所生成的80维推演知识deduction vector1a输入知识扩展单元Upper sampling unit2,知识扩展单元Uppersampling unit2中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于80,共有60个反卷积算子,所以生成的推演知识deduction vector2a维度为60;将知识扩展单元Upper sampling unit2所生成的60维推演知识deduction vector2a输入知识扩展单元Upper sampling unit3,知识扩展单元Upper sampling unit3中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于60,共有40个反卷积算子,所以生成的推演知识deduction vector3a维度为40;将知识扩展单元Upper sampling unit3所生成的40维推演知识deduction vector3a输入知识扩展单元Upper sampling unit4,知识扩展单元Uppersampling unit4中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于40,共有30个反卷积算子,所以生成的推演知识deduction vector4a维度为30;将知识扩展单元Upper sampling unit4所生成30维推演知识deduction vector4a输入知识扩展单元Upper sampling unit5,知识扩展单元Upper sampling unit5中的反卷积算子的规模为4,滑动周期为2,每个反卷积算子的维度等于30,只有1个反卷积算子,所以生成的推演知识deduction vector5a维度为1,最后通过输出单元输出与知识扩展单元Upper samplingunit5所生成的推演知识deduction vector5a相关联的文本资源压缩测试信息。
将第二AI专家系统网络的知识扩展单元Upper sampling unit1中得到推演知识deduction vector1a、知识扩展单元Upper sampling unit2中得到推演知识deductionvector2a、知识扩展单元Upper sampling unit3中得到推演知识deduction vector3a、知识扩展单元Upper sampling unit4中得到推演知识deduction vector4a以及知识扩展单元Upper sampling unit4中得到推演知识deduction vector4a确定为第二文本资源压缩推演知识。
此外,通过在知识抽取单元和知识扩展单元之后配置激活函数(触发单元),能够进行非线性处理,提高特征表达能力。
S104,基于第一文本资源压缩推演知识、第二文本资源压缩推演知识、文本资源压缩测试信息以及已认证文本资源压缩信息,对第二AI专家系统网络中的网络变量进行优化,生成目标AI专家系统网络,基于目标AI专家系统网络对文本大数据资源进行文本资源压缩信息的挖掘。
示例性的,第一文本资源压缩推演知识包括第一文本资源压缩推演知识vec1_u以及第一文本资源压缩推演知识vec1_u+1,第二文本资源压缩推演知识包括第二文本资源压缩推演知识vec2_u以及第二文本资源压缩推演知识vec2_u+1,u为正整数;基于第一文本资源压缩推演知识vec1_u以及第二文本资源压缩推演知识vec2_u,确定第二AI专家系统网络中第二知识扩展单元unit2_u的知识迁移代价变量cost_u,其中,第一文本资源压缩推演知识vec1_u为第一AI专家系统网络中的第一知识扩展单元unit1_u生成的文本资源压缩推演知识,第二文本资源压缩推演知识vec2_u为第二知识扩展单元unit2_u生成的文本资源压缩推演知识。
基于第一文本资源压缩推演知识vec1_u+1以及第二文本资源压缩推演知识vec2_u+1,确定第二AI专家系统网络中第二知识扩展单元unit2_u+1的知识迁移代价变量cost_u+1,其中,第一文本资源压缩推演知识vec1_u为第一AI专家系统网络中的第一知识扩展单元unit1_u+1输入的文本资源压缩推演知识,第一文本资源压缩推演知识vec1_u+1为第一知识扩展单元unit1_u+1生成的文本资源压缩推演知识,第二文本资源压缩推演知识vec2_u为第二知识扩展单元unit2_u+1输入的文本资源压缩推演知识,第二文本资源压缩推演知识vec2_u+1为第二知识扩展单元unit2_u+1生成的文本资源压缩推演知识;基于知识迁移代价变量cost_u以及知识迁移代价变量cost_u+1,确定第二AI专家系统网络的知识迁移代价变量。
举例而言,知识迁移代价变量可以理解为迁移损失函数,可以用于反映特征蒸馏过程中的损失值。
基于文本资源压缩测试信息以及已认证文本资源压缩信息,确定第二AI专家系统网络的知识偏移代价变量;基于知识迁移代价变量以及知识偏移代价变量,确定网络代价变量;基于网络代价变量对第二AI专家系统网络中的网络变量进行优化,当优化后的第二AI专家系统网络达到网络调校要求时,将优化后的第二AI专家系统网络确定为目标AI专家系统网络。
举例而言,知识偏移代价变量可以理解为资源压缩误差的损失函数。
进一步地,获得文本大数据资源,将文本大数据资源输入目标AI专家系统网络,目标AI专家系统网络包括知识抽取单元以及知识扩展单元;通过知识抽取单元提取文本大数据资源中的金字塔向量,将金字塔向量输入知识扩展单元,通过知识扩展单元生成文本大数据资源对应的文本资源压缩信息;文本大数据资源包括目标资源项以及边缘资源项,文本资源压缩信息反映边缘资源项与目标资源项之间的差异度,边缘资源项包括第一边缘资源项以及第二边缘资源项。
其中,目标资源项可以理解为使用热度较高的资源信息,边缘资源项可以理解为使用热度较低的资源信息,可以通过二分类的方式对目标资源项以及边缘资源项进行区分。
进一步地,基于文本资源压缩信息,获得文本大数据资源中第一边缘资源项与目标资源项之间的第一差异度,获得文本大数据资源中第二边缘资源项与目标资源项之间的第二差异度;从第一差异度以及第二差异度中确定最小差异度,将最小差异度对应的边缘资源项确定为目标边缘资源项;如果最小差异度大于设定差异度且目标资源项的当前使用反馈为第一使用反馈,则确定目标资源项的目标使用价值评价为保持第一使用反馈;如果最小差异度不大于设定差异度,且目标资源项的当前使用反馈为第一使用反馈,则识别目标边缘资源项的资源项种类;资源项种类包括业务服务种类以及用户画像种类;如果目标边缘资源项的资源项种类为业务服务种类,则将目标资源项的目标使用价值评价更新为第二使用反馈;如果目标边缘资源项的资源项种类为用户画像种类,则将目标资源项的目标使用价值评价更新为第三使用反馈;第三使用反馈用于反映目标资源项抑制目标边缘资源项。
在本发明实施例中,根据不同的资源项种类,可以确定出不同的使用反馈,从而为资源项的针对性压缩提供指导。
基于S102以及S103可知,第一AI专家系统网络是复杂网络,第二AI专家系统网络是简单网络,鉴于第二AI专家系统网络的细节挖掘性能受限,本发明实施例通过将第二AI专家系统网络和第一AI专家系统网络之间的推演知识的区别最小化,来保障第二AI专家系统网络的资源压缩质量。
为了实现特征迁移(蒸馏),将调试完毕的第一AI专家系统网络的第一文本资源压缩推演知识分别加载到第二AI专家系统网络对应的知识扩展单元,其目标是第一AI专家系统网络的5个知识扩展单元生成的推演知识,与第二AI专家系统网络的5个知识扩展单元的生成的推演知识相似,上述的第一文本资源压缩推演知识包括第一AI专家系统网络中的知识扩展单元Upper sampling unit1生成的推演知识knowledge vector1A、知识扩展单元Upper sampling unit2生成的推演知识knowledge vector2A、知识扩展单元Uppersampling unit3生成的推演知识knowledge vector3A、知识扩展单元Upper samplingunit4生成的推演知识knowledge vector4A以及知识扩展单元Upper sampling unit5生成的推演知识knowledge vector5A,上述的第二文本资源压缩推演知识包括第二AI专家系统网络中的知识扩展单元Upper sampling unit1生成的推演知识deduction vector1a、知识扩展单元Upper sampling unit2生成的推演知识deduction vector2a、知识扩展单元Upper sampling unit3生成的推演知识deduction vector3a、知识扩展单元Uppersampling unit4生成的推演知识deduction vector4a以及知识扩展单元Upper samplingunit5生成的推演知识deduction vector5a。
基于第一文本资源压缩推演知识以及第二文本资源压缩推演知识,确定第二AI专家系统网络的知识迁移代价变量,将第一AI专家系统网络中的知识扩展单元Uppersampling unit1生成的推演知识knowledge vector1A加载至第二AI专家系统网络中的知识扩展单元Upper sampling unit1中,得到推演知识knowledge vector1A与推演知识deduction vector1a之间的第一局部偏差;将第一AI专家系统网络中的知识扩展单元Upper sampling unit2生成的推演知识knowledge vector2A加载至第二AI专家系统网络中的知识扩展单元Upper sampling unit2中,得到推演知识knowledge vector2A与推演知识deduction vector2a之间的第二局部偏差;将第一AI专家系统网络中的知识扩展单元Upper sampling unit3生成的推演知识knowledge vector3A加载至第二AI专家系统网络中的知识扩展单元Upper sampling unit3中,得到推演知识knowledge vector3A与推演知识deduction vector3a之间的第三局部偏差;将第一AI专家系统网络中的知识扩展单元Upper sampling unit4生成的推演知识knowledge vector4A加载至第二AI专家系统网络中的知识扩展单元Upper sampling unit4中,得到推演知识knowledge vector4A与推演知识deduction vector4a之间的第四局部偏差;将第一AI专家系统网络中的知识扩展单元Upper sampling unit5生成的推演知识knowledge vector5A加载至第二AI专家系统网络中的知识扩展单元Upper sampling unit5中,得到推演知识knowledge vector5A与推演知识deduction vector5a之间的第五局部偏差,基于第一局部偏差、第二局部偏差、第三局部偏差、第四局部偏差以及第五局部偏差确定第二AI专家系统网络的知识迁移代价变量。
基于第一文本资源压缩推演知识、第二文本资源压缩推演知识、文本资源压缩测试信息以及已认证文本资源压缩信息,确定第二AI专家系统网络的网络代价变量,即基于上述的知识迁移代价变量以及,由文本资源压缩测试信息以及已认证文本资源压缩信息所生成的知识偏移代价变量,确定第二AI专家系统网络的网络代价变量,基于网络代价变量对第二AI专家系统网络中的网络变量进行优化,生成目标AI专家系统网络。
可以理解,调试第二AI专家系统网络的网络代价包括两种网络代价,第一种网络代价的目标是第二AI专家系统网络生成文本资源压缩测试信息与已认证文本资源压缩信息尽可能相同,第二种网络代价的目标是第二AI专家系统网络的知识扩展单元生成的第二文本资源压缩推演知识,和第一AI专家系统网络的知识扩展单元生成的第一文本资源压缩推演知识尽可能类似。本发明实施例基于第一AI专家系统网络和第二AI专家系统网络在5个知识扩展单元生成的文本资源压缩推演知识确定特征迁移代价,通过最小化两个文本资源压缩推演知识之间的区别,能将第一AI专家系统网络学习的资源压缩向量迁移给第二AI专家系统网络,让第二AI专家系统网络学习和吸收更优质的资源压缩向量,从而提高资源压缩的质量。
基于上述网络代价变量对第二AI专家系统网络中的网络变量进行优化,即不断的循环实施,当优化后的第二历史AI专家系统网络达到网络调校要求时,将优化后的第二历史AI专家系统网络确定为目标AI专家系统网络。示例性的,大数据防丢失服务器设置第二AI专家系统网络的循环轮次阈值,当循环轮次等于循环轮次阈值时,停止第二AI专家系统网络的调试,确定目标AI专家系统网络。
本发明实施例首先获得历史文本大数据资源和历史文本大数据资源对应的已认证文本资源压缩信息,然后将历史文本大数据资源加载至完成调试的第一AI专家系统网络,得到历史文本大数据资源对应的第一文本资源压缩推演知识,由于第一AI专家系统网络是较为丰富的神经网络,其网络变量个数多,细节输出质量较佳,所以第一AI专家系统网络生成的第一文本资源压缩推演知识的精度得以保障;然后,将历史文本大数据资源加载至第二AI专家系统网络,得到历史文本大数据资源对应的第二文本资源压缩推演知识,基于第二文本资源压缩推演知识,生成历史文本大数据资源对应的文本资源压缩测试信息;第二AI专家系统网络是网络变量个数较少的简单神经网络,具有转用性强、开销少的特点,本发明实施例考虑到简单神经网络的结构复杂性不高,细节输出质量不佳,因此不但基于文本资源压缩测试信息以及已认证文本资源压缩信息对第二AI专家系统网络中的网络变量进行优化,还基于第一文本资源压缩推演知识以及第二文本资源压缩推演知识对第二AI专家系统网络中的网络变量进行优化,生成目标AI专家系统网络,基于目标AI专家系统网络对文本大数据资源进行文本资源压缩信息的挖掘。由此可见,通过迁移第一AI专家系统网络的高质量文本资源压缩推演知识(第一文本资源压缩推演知识)给第二AI专家系统网络,一方面保障了第二AI专家系统网络转用性强、开销少的特点,另一方面提升了第二AI专家系统网络提取历史文本大数据资源的文本资源压缩推演知识的精度。
进一步地,在通过所述知识抽取单元提取所述文本大数据资源中的金字塔向量,将所述金字塔向量加载至所述知识扩展单元,通过所述知识扩展单元生成所述文本大数据资源对应的文本资源压缩信息之后,该方法还包括:将所述文本资源压缩信息进行容灾存储。
在本发明实施例中,可以将文本资源压缩信息存储到不同的容灾系统中,以尽可能保障防丢失效果,提高容灾备份的稳定性。一方面,文本资源压缩信息所占存储空间少,能够存储在多个容灾系统中,另一方面,文本资源压缩信息的特征表现性能搞,通过文本资源压缩信息恢复得到的文本大数据资源与最初的文本大数据资源几乎没有差别,从而可以在最初的文本大数据资源丢失时,通过文本资源压缩信息进行恢复,从而实现大数据防丢失处理。
在上述内容的基础上,如果业务用户端中的文本大数据资源丢失,则业务用户端可以向大数据防丢失服务器发送数据恢复请求,大数据防丢失服务器可以通过容灾系统获取文本资源压缩信息并进行恢复,从而得到已恢复文本大数据资源并将其下发给业务用户端。基于此,在一些可独立实施的设计思路下,在将所述文本资源压缩信息进行容灾存储之后,所述方法还包括S201-S204。
S201、接收业务用户端发送的数据恢复请求。
S202、对所述业务用户端进行网络攻击风险分析,得到分析结果。
S203、在所述分析结果表征所述业务用户端不存在网络攻击风险的前提下,通过目标容灾系统获取所述文本资源压缩信息,利用所述文本资源压缩信息生成已恢复文本大数据资源。
S204、将所述已恢复文本大数据资源下发给所述业务用户端。
在本发明实施例中,大数据防丢失服务器在获取文本资源压缩信息之前,先对业务用户端进行网络攻击风险分析,如果业务用户端不存在网络攻击风险,才会进行文本资源压缩信息的获取和已恢复文本大数据资源的生成,这样可以规避业务用户端由于攻击防护不到位而导致的二次丢失和/或已恢复文本大数据资源泄密。
在上述内容的基础上,在一些可独立实施的设计思路下,S202中的对所述业务用户端进行网络攻击风险分析,得到分析结果,包括S2021-S2025。
S2021、获取业务行为描述文本中的行为关键词向量和行为段落向量。
S2022、基于所述业务行为描述文本中的行为关键词向量和行为段落向量之间的相关度,对所述业务行为描述文本中的行为关键词向量和行为段落向量进行组合,得到文本向量二元组。
S2023、将未完成组合的行为段落向量确定为待配对行为段落向量,根据所述文本向量二元组中的行为段落向量与所述待配对行为段落向量之间的共性度量值,确定与所述待配对行为段落向量相配对的攻击偏好文本特征。
S2024、对与所述待配对行为段落向量相配对的攻击偏好文本特征和所述待配对行为段落向量进行组合,得到偏好特征二元组。
S2025、根据所述偏好特征二元组和所述文本向量二元组,确定所述业务行为描述文本中的攻击风险分析标签。
在本发明实施例中,通过行为关键词向量和行为段落向量的组合能够分离出未完成组合的行为段落向量,从而基于共性度量值准确快速确定攻击偏好文本特征,这样可以通过攻击偏好文本特征和待配对行为段落向量组合得到偏好特征二元组,以结合文本向量二元组准确检测出业务行为描述文本中的攻击风险分析标签。攻击风险分析标签可以理解为上述的分析结果,在攻击风险分析标签为0时,表征业务用户端不存在网络攻击风险,在攻击风险分析标签为1时,表征业务用户端存在网络攻击风险。
在上述内容的基础上,在一些可独立实施的设计思路下,S2021中的获取业务行为描述文本中的行为关键词向量和行为段落向量,包括:获取所述业务行为描述文本中的至少两个行为关键词信息和至少两个行为段落信息;获取所述至少两个行为关键词信息之间的行为关键词信息相似度和行为关键词信息差异,获取所述至少两个行为段落信息之间的行为段落信息相似度和行为段落信息差异;根据所述行为关键词信息相似度和所述行为关键词信息差异,对所述至少两个行为关键词信息进行整理,得到所述业务行为描述文本中的行为关键词向量;一个行为关键词向量包括至少一个行为关键词信息;根据所述行为段落信息相似度和所述行为段落信息差异,对所述至少两个行为段落信息进行整理,得到所述业务行为描述文本中的行为段落向量;一个行为段落向量包括至少一个行为段落信息。
在上述内容的基础上,在一些可独立实施的设计思路下,基于所述业务行为描述文本中的行为关键词向量和行为段落向量之间的相关度,对所述业务行为描述文本中的行为关键词向量和行为段落向量进行组合,得到文本向量二元组,包括:将所述业务行为描述文本中的行为段落向量确定为目标行为段落向量,将所述业务行为描述文本中的行为关键词向量确定为目标行为关键词向量;所述目标行为段落向量中的行为段落信息是从针对所述业务行为描述文本的目标监听信息中所获取的;获取所述目标监听信息中的行为关键词信息;将所述目标监听信息中的行为关键词信息与所述目标行为关键词向量中的行为关键词信息之间的信息相似度,确定为所述目标行为段落向量与所述目标行为关键词向量之间的所述相关度;当所述相关度大于或等于预设相关度时,对所述目标行为段落向量和所述目标行为关键词向量进行组合,得到所述文本向量二元组。
在上述内容的基础上,在一些可独立实施的设计思路下,所述待配对行为段落向量包括所述业务行为描述文本中的第一行为段落信息;所述文本向量二元组的个数为至少两个;每个文本向量二元组中的行为段落向量分别包括所述业务行为描述文本中的第二行为段落信息;所述根据所述文本向量二元组中的行为段落向量与所述待配对行为段落向量之间的共性度量值,确定与所述待配对行为段落向量相配对的攻击偏好文本特征,包括:根据所述第一行为段落信息,获取所述待配对行为段落向量的第一线性表征数组;根据所述每个文本向量二元组包括的第二行为段落信息,分别获取所述每个文本向量二元组中的行为段落向量的第二线性表征数组;获取所述第一线性表征数组分别与所述每个文本向量二元组对应的第二线性表征数组之间的向量差异;根据所述每个文本向量二元组所对应的向量差异,确定所述每个文本向量二元组中的行为段落向量分别与所述待配对行为段落向量之间的共性度量值;当目标文本向量二元组的个数大于第一个数阈值且小于或等于第二个数阈值时,将所述目标文本向量二元组中的行为关键词向量所包含的攻击偏好文本特征,确定为与所述待配对行为段落向量相配对的攻击偏好文本特征;所述目标文本向量二元组,指所对应的共性度量值大于或等于共性度量阈值的文本向量二元组。
在上述内容的基础上,在一些可独立实施的设计思路下,所述第一行为段落信息的信息个数为至少两个;所述根据所述第一行为段落信息获取所述待配对行为段落向量的第一线性表征数组,包括:获取至少两个第一行为段落信息中的每个第一行为段落信息分别对应的基础特征数组;根据所述每个第一行为段落信息分别对应的基础特征数组,获取所述至少两个第一行为段落信息对应的第一特征数组均值;将所述第一特征数组均值,确定为所述第一线性表征数组。
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。