发明内容
本发明提供一种基于深度学习的数据入侵分析方法及服务器,为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种基于深度学习的数据入侵分析方法,应用于数据入侵分析服务器,所述方法至少包括:在目标时段接收到数据入侵分析请求的前提下,获取目标业务交互会话;所述目标业务交互会话中至少涵盖稀缺种类的会话入侵攻击事件;采用完成调试的入侵攻击事件识别算法对所述目标业务交互会话进行入侵攻击事件识别,得到所述会话入侵攻击事件的识别报告;其中,所述入侵攻击事件识别算法为基于示例优化的调试思路调试所得的。
由此,结合获取的真实业务交互会话范例和新增的调试范例联合调试的入侵攻击事件识别算法对目标业务交互会话进行入侵攻击事件识别,可以得到会话入侵攻击事件的更为精准的识别报告,这样可以对不同的会话环境进行稀缺种类的会话入侵攻击事件进行识别处理,为之后的信息防护提供可靠、完整的决策依据。
对于一些示例性实施例而言,所述入侵攻击事件识别算法的示例优化的调试思路包括:获取第一已认证业务交互会话集和第二已认证业务交互会话集;其中,所述第一已认证业务交互会话集中业务交互会话范例包括获取的稀缺型入侵攻击事件信息,所述第二已认证业务交互会话集中业务交互会话范例为获取的初始会话信息;采用完成调试的攻击事件预测算法,确定所述第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口;所述攻击事件预测算法是依据所述第一已认证业务交互会话集中业务交互会话范例调试得到的;结合所述初始事件预测窗口,依据所述第二已认证业务交互会话集中业务交互会话范例确定第三已认证业务交互会话集;结合所述第一已认证业务交互会话集和所述第三已认证业务交互会话集调试入侵攻击事件识别算法的算法模型变量。
由此,首先基于稀缺型入侵攻击事件信息调试攻击事件预测算法以确定精准可靠的稀缺种类,再结合攻击事件预测算法识别第二已认证业务交互会话集中云端存储的共享会话的初始事件预测窗口,进一步基于初始事件预测窗口确定第三已认证业务交互会话集,从而采用对云端存储的共享会话确定准确的初始事件预测窗口以对算法调试集进行增加,减少实际会话环境下稀缺型入侵攻击事件信息的调试样例稀缺的短板。此外,基于多类认证示例的协同调试/联合训练,使得入侵攻击事件识别算法在缺少真实调试示例的基础上仍然可以精准可靠地对实际会话环境下的稀缺型入侵攻击事件进行识别和预测。
对于一些示例性实施例而言,所述入侵攻击事件识别算法至少涵盖用于实施事件捕捉操作的第一局部算法单元和用于实施事件鉴别操作的第二局部算法单元;所述结合所述第一已认证业务交互会话集和所述第三已认证业务交互会话集调试入侵攻击事件识别算法的算法模型变量,包括:分别确定所述第一已认证业务交互会话集采用所述第一局部算法单元的事件捕捉代价函数和采用所述第二局部算法单元的第一事件鉴别代价函数;确定所述第三已认证业务交互会话集采用所述第二局部算法单元的第二事件鉴别代价函数;依据所述事件捕捉代价函数、所述第一事件鉴别代价函数和所述第二事件鉴别代价函数,对所述入侵攻击事件识别算法的算法模型变量进行改进;基于所述事件捕捉代价函数、所述第一事件鉴别代价函数和所述第二事件鉴别代价函数都处于稳定状态的基础上,得到完成调试的所述入侵攻击事件识别算法。
由此,分别将第一已认证业务交互会话集加载至入侵攻击事件识别算法的第一局部算法单元和第二局部算法单元得到对应的事件捕捉代价函数和第一事件鉴别代价函数,将第三已认证业务交互会话集加载至入侵攻击事件识别算法的第二局部算法单元得到第二事件鉴别代价函数,从而采用第一局部算法单元和第二局部算法单元将入侵攻击事件识别的事件捕捉操作和事件鉴别操作进行分离,这样只基于获得的第三已认证业务交互会话集(比如增加得到的调试样例),来强化入侵攻击事件识别算法的事件分类鉴别性能,这样可以结合充足的新增样例确保算法识别的准确性和可靠性。
对于一些示例性实施例而言,所述入侵攻击事件识别算法还包括行为向量挖掘单元、行为向量匹配单元和行为向量调整单元;所述分别确定所述第一已认证业务交互会话集采用所述第一局部算法单元的事件捕捉代价函数和采用所述第二局部算法单元的第一事件鉴别代价函数,包括:采用所述行为向量挖掘单元对所述第一已认证业务交互会话集中业务交互会话范例进行行为向量挖掘,得到的所述第一已认证业务交互会话集中业务交互会话范例对应的第一行为向量关系网;采用所述行为向量匹配单元和所述行为向量调整单元,确定所述第一已认证业务交互会话集中各会话入侵攻击事件在所述第一行为向量关系网中的关联行为向量;依据所述第一已认证业务交互会话集中业务交互会话范例所注释的事件分析窗口,确定所述第一行为向量关系网中的关联行为向量簇采用所述第一局部算法单元的事件捕捉代价函数;依据所述第一已认证业务交互会话集中业务交互会话范例所注释的差异化关键词,确定所述第一行为向量关系网采用所述第二局部算法单元的第一事件鉴别代价函数。
可见,先对第一已认证业务交互会话集进行行为向量挖掘得到第一行为向量关系网,然后经过行为向量匹配单元提取初始事件预测窗口,并结合行为向量调整单元输出初始事件预测窗口在第一行为向量关系网中的关联行为向量,再将关联行为向量分别加载至第一局部算法单元和第二局部算法单元,从而精准确定第一已认证业务交互会话集采用第一局部算法单元的事件捕捉代价函数和采用第二局部算法单元的第一事件鉴别代价函数,从而基于不同的代价函数/损失函数进行反馈调试。
对于一些示例性实施例而言,所述确定所述第三已认证业务交互会话集采用所述第二局部算法单元的第二事件鉴别代价函数,包括:采用所述行为向量挖掘单元对所述第三已认证业务交互会话集中业务交互会话范例进行行为向量挖掘,得到的所述第三已认证业务交互会话集中业务交互会话范例对应的第二行为向量关系网;依据所述第三已认证业务交互会话集中业务交互会话范例的差异化关键词,确定所述第二行为向量关系网采用所述第二局部算法单元的第二事件鉴别代价函数。
由此,先对第一已认证业务交互会话集进行行为向量挖掘得到第一行为向量关系网,然后越过行为向量匹配单元和行为向量调整单元,直接将第一行为向量关系网加载至第二局部算法单元,这样使得第三已认证业务交互会话集不用于回归处理,只确定采用第二局部算法单元的第二事件鉴别代价函数。这样可以尽可能改善调试范例的维度等差异性带来的事件分析噪声,从而确保结合不同类型的调试范例进行算法调试的质量。
对于一些示例性实施例而言,所述结合所述初始事件预测窗口,依据所述第二已认证业务交互会话集中业务交互会话范例确定第三已认证业务交互会话集,包括:确定所述第二已认证业务交互会话集中业务交互会话范例的事件分析窗口;确定所述第二已认证业务交互会话集中业务交互会话范例中所述初始事件预测窗口与所述事件分析窗口之间的量化比较变量;基于设定的两个叠加判定值和所述量化比较变量,从所述第二已认证业务交互会话集中确定符合叠加要求的事件预测窗口内容作为所述第三已认证业务交互会话集。
由此,将行为向量匹配单元输出的初始事件预测窗口与经过注释处理得到的事件分析窗口进行量化比较变量确定,并采用对比设定的两个叠加判定值和量化比较变量,从第二已认证业务交互会话集中采集符合要求的事件预测窗口内容作为第三已认证业务交互会话集,这样可以高效确定充足的业务交互会话范例以对算法调试集进行增加,进而提高后续算法调试的准确度和可信度。
对于一些示例性实施例而言,所述设定的两个叠加判定值包括第一判定值和第二判定值,所述第二判定值低于所述第一判定值;所述基于设定的两个叠加判定值和所述量化比较变量,从所述第二已认证业务交互会话集中确定符合叠加要求的事件预测窗口内容作为所述第三已认证业务交互会话集,包括:基于第一初始事件预测窗口与所述事件分析窗口之间的所述量化比较变量高于所述第一判定值,从所述第二已认证业务交互会话集中采集所述第一初始事件预测窗口对应的信息集作为所述第三已认证业务交互会话集的积极型范例;基于第二初始事件预测窗口与所述事件分析窗口之间的所述量化比较变量低于所述第二判定值,从所述第二已认证业务交互会话集中采集所述第二初始事件预测窗口对应的信息集作为所述第三已认证业务交互会话集的消极型范例。
由此,分别确定与事件分析窗口具有较高叠加性的第一初始事件预测窗口作为第三已认证业务交互会话集的积极型范例,以及与事件分析窗口具有较低叠加性的第二初始事件预测窗口作为第三已认证业务交互会话集的消极型范例,从而使得积极型范例在后续调试中有利于算法学习和关注事件的各类特征信息,同时消极型范例用于对算法的误识别的监督。
对于一些示例性实施例而言,所述采用完成调试的攻击事件预测算法,确定所述第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口,包括:将所述第二已认证业务交互会话集加载至所述完成调试的攻击事件预测算法中;所述攻击事件预测算法至少涵盖行为向量匹配单元;所述行为向量匹配单元用于确定业务交互会话范例的初始事件预测窗口;采用所述攻击事件预测算法的行为向量匹配单元提取所述第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口。
由此,基于完成调试的攻击事件预测算法中的行为向量匹配单元,确定第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口,比如有一定概率存在攻击事件的内容集,进而快速确定初始事件预测窗口以供之后的调试范例新增处理。
对于一些示例性实施例而言,所述第二已认证业务交互会话集中业务交互会话范例为云端存储的共享会话;所述获取第一已认证业务交互会话集和第二已认证业务交互会话集,包括:采集数字服务进程下的设定数目的历史会话记录;对所述历史会话记录注释差异化关键词和事件分析窗口并确定为所述第一已认证业务交互会话集;所述历史会话记录的差异化关键词包括稀缺种类;依据所述稀缺种类,通过共享服务器获取所述第二已认证业务交互会话集。
可见,基于实际数字服务进程下获取的第一已认证业务交互会话集所包含的稀缺种类,通过共享服务器获取充足多样的第二已认证业务交互会话集作为辅助,从而改善稀缺种类的事件信息过少的缺陷,提高入侵攻击事件识别算法的事件分类性能。
对于一些示例性实施例而言,所述第一局部算法单元和所述第二局部算法单元包括相同的两层特征整合单元结构,和/或,所述第一局部算法单元和所述第二局部算法单元是同步调试的。
由此,采用设置两个局部算法单元使用相同的两层特征整合单元结构但独立进行变量配置,将事件鉴别操作和事件捕捉操作进行进行分离,这样可以准确地通过第三已认证业务交互会话集来强化入侵攻击事件识别算法的事件分类性能。
第二方面是一种数据入侵分析服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述数据入侵分析服务器执行第一方面的方法。
第三方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的一种基于深度学习的数据入侵分析方法的流程示意图,一种基于深度学习的数据入侵分析方法可以通过数据入侵分析服务器实现,数据入侵分析服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述数据入侵分析服务器执行如下步骤所描述的技术方案。
Step101,在目标时段接收到数据入侵分析请求的前提下,获取目标业务交互会话。
在本发明实施例中,所述目标业务交互会话中至少涵盖稀缺种类的会话入侵攻击事件;其中稀缺种类是指调试范例数目低于需求数目或者明显低于其他种类的会话入侵攻击事件数目。目标业务交互会话可以为交互情况较为复杂多变的多端数字服务会话,例如目标业务交互会话为电子商务会话,其中较为冷门或者关注度不高的入侵攻击事件可以理解为稀缺种类的会话入侵攻击事件,比如在数字办公会话中才可能出现的入侵攻击事件,又或者在政企业务会话中才可能出现的入侵攻击事件,在此不作限定。进一步的,目标业务交互会话可以通过窗口化文本的形式进行记录,便于后续进行文本内容集的捕捉定位分析处理。
进一步的,目标业务交互会话的获取方式不限,可以基于预设的会话采集线程获取,也可以通过共享服务器获取,本领域技术人员可以根据实际情况灵活选择。此外,目标业务交互会话可以是跨境电商业务会话、数字办公业务会话、虚拟现实服务会话等,在此不作限定。
Step102,采用完成调试的入侵攻击事件识别算法对所述目标业务交互会话进行入侵攻击事件识别,得到所述会话入侵攻击事件的识别报告。
在本发明实施例中,入侵攻击事件识别算法为基于示例优化的调试思路调试所得的。该示例优化侧重于对稀缺型调试范例的扩增处理,从而弥补稀缺型调试范例不足的缺陷。
此外,所述入侵攻击事件识别算法为结合获取的真实业务交互会话范例和新增的调试范例联合调试得到的,所述调试范例为结合完成调试的攻击事件预测算法对获取的初始会话信息(原始会话信息)进行处理确定的,所述完成调试的攻击事件预测算法是依据所述真实业务交互会话范例调试得到的。
进一步地,所述入侵攻击事件识别算法和所述攻击事件预测算法可以选择适应的AI模型进行部署,比如深度学习模型、残差网络模型、循环神经网络又或者朴素贝叶斯模型等,在此不作限制。
进一步地,所述会话入侵攻击事件的识别报告(事件识别结果/事件解析结果)包括会话入侵攻击事件的差异化关键词(比如分类标签)以及会话入侵攻击事件的事件分析窗口(事件所处的内容区域),其中事件分析窗口的分布变量采用窗口边界变量进行记录。比如,一组目标业务交互会话上包括文件破坏事件、信息盗取事件、拒绝服务事件、流量攻击事件等事件的基础上,会话入侵攻击事件为文件破坏事件,则入侵攻击事件识别的结果是文件破坏事件所对应分布变量的事件分析窗口和类别“file attack”。
可以理解的是,实际数字服务进程中往往只能采集极少数的真实业务交互会话范例,对于稀缺种类的入侵攻击事件识别大概率会存在识别准确性和可靠性较差的缺陷。鉴于此,本发明实施例针对真实业务交互会话范例缺乏的短板,首先结合真实业务交互会话范例调试攻击事件预测算法,以使攻击事件预测算法能够准确检测稀缺种类;然后结合完成调试的攻击事件预测算法对获取的初始会话信息进行处理以对算法调试集进行增加;最后结合真实业务交互会话范例和新增的调试范例一起调试得到入侵攻击事件识别算法,从而可以提升识别准确性和可靠性。
本发明实施例中,结合获取的真实业务交互会话范例和新增的调试范例联合调试的入侵攻击事件识别算法对目标业务交互会话进行入侵攻击事件识别,可以得到会话入侵攻击事件的更为精准的识别报告,这样可以对不同的会话环境进行稀缺种类的会话入侵攻击事件进行识别处理,为之后的信息防护提供可靠、完整的决策依据。
在上述基础上,基于示例优化的调试思路可以包含以下Step201至Step204。
Step201,获取第一已认证业务交互会话集和第二已认证业务交互会话集;
在本发明实施例中,所述第一已认证业务交互会话集中业务交互会话范例包括获取的稀缺型入侵攻击事件信息,稀缺型入侵攻击事件信息也称为冷门攻击事件、低关注度攻击事件等,是一种存在可能性较小的攻击事件类别。同时,相较于正常的入侵攻击事件信息,稀缺型入侵攻击事件信息作为调试范例对算法性能的提高的贡献更多。
其中,所述第二已认证业务交互会话集中业务交互会话范例为获取的初始会话信息,比如,可以通过互联网从共享的会话数据库中提取相关的业务交互会话集以作为第二已认证业务交互会话集。
对于一些示例性实施例而言,上述Step201可以包含以下Step211至Step213。
Step211,采集数字服务进程下的设定数目的历史会话记录;
其中,设定数目可灵活选择,比如可以为几百个。进一步地,数字服务进程可以理解为对应的会话进程或者会话环境。
Step212,对所述历史会话记录注释差异化关键词和事件分析窗口并确定为所述第一已认证业务交互会话集;
其中,所述历史会话记录的差异化关键词包括稀缺种类,例如文件篡改事件等。
Step213,依据所述稀缺种类,通过共享服务器获取所述第二已认证业务交互会话集。
在一些可能的实施例中,可以先确定当前的第一已认证业务交互会话集中存在的全部攻击事件种类再确定出稀缺种类;另外,也可以直接根据处理要求确定出第一已认证业务交互会话集中的稀缺种类。
本发明实施例针对稀缺种类确定适应性数目的云端存储的共享会话作为第二已认证业务交互会话集。比如可以通过共享服务器获得第二已认证业务交互会话集。
如此,基于实际数字服务进程下获取的第一已认证业务交互会话集所包含的稀缺种类,通过共享服务器获取充足多样的第二已认证业务交互会话集作为辅助,从而改善稀缺种类的事件信息过少的缺陷,提高入侵攻击事件识别的事件分类性能。
Step202,采用完成调试的攻击事件预测算法,确定所述第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口。
在本发明实施例中,所述攻击事件预测算法是依据所述第一已认证业务交互会话集中业务交互会话范例调试得到的,该攻击事件预测算法可以精准确定指定入侵攻击事件的种类和分布变量向量(比如事件所处的内容集的位置),从而可以结合完成调试的攻击事件预测算法准确确定云端存储的共享会话的初始事件预测窗口,用于弥补第一已认证业务交互会话集中稀缺型入侵攻击事件信息不足的调试范例。
对于一些示例性实施例而言,上述Step202可以包含以下Step221和Step222.
Step221,将所述第二已认证业务交互会话集加载至所述完成调试的攻击事件预测算法中.
其中,所述攻击事件预测算法至少涵盖行为向量匹配单元,该行为向量匹配单元的可以理解为基于卷积处理的事件识别子模型(比如卷积模块、卷积层)。
进一步地,对于加载到攻击事件预测算法的每一组业务交互会话,经过上述行为向量挖掘单元(比如但不限于基于现有的特征提取网络配置得到的子模型)的至少部分卷积处理或池化处理之后,得到一组行为向量关系网(可以理解为行为向量特征图或者行为特征向量分布)。
Step222,采用所述攻击事件预测算法的行为向量匹配单元提取所述第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口。
如此设计,基于完成调试的攻击事件预测算法中的行为向量匹配单元,确定第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口,比如有一定概率存在攻击事件的内容集,进而快速确定初始事件预测窗口以供之后的调试范例新增处理。
Step203,结合所述初始事件预测窗口,依据所述第二已认证业务交互会话集中业务交互会话范例确定第三已认证业务交互会话集;
进一步地,对于每一组待处理会话,经过行为向量匹配单元确定多个初始事件预测窗口,对这些初始事件预测窗口所对应的会话内容集进行采集或拆解等操作,可以确定许多新增的业务交互会话范例作为第三已认证业务交互会话集。
Step204,结合所述第一已认证业务交互会话集和所述第三已认证业务交互会话集调试入侵攻击事件识别算法的算法模型变量。
在本发明实施例中,结合新增的第三已认证业务交互会话集对算法调试集进行增加,与获取的第一业务交互会话范例集一起加载至入侵攻击事件识别算法中,可以改善数字服务进程中实际存在的调试范例尤其稀缺种类调试范例缺乏的短板。
本发明实施例中,首先获取获取的稀缺型入侵攻击事件信息作为第一已认证业务交互会话集,以及云端存储的共享会话作为第二已认证业务交互会话集;然后采用完成调试的攻击事件预测算法,确定所述第二已认证业务交互会话集中业务交互会话范例的初始事件预测窗口;再结合所述初始事件预测窗口,依据所述第二已认证业务交互会话集中业务交互会话范例确定第三已认证业务交互会话集;最后结合所述第一已认证业务交互会话集和所述第三已认证业务交互会话集调试入侵攻击事件识别算法的算法模型变量。这样一来,基于稀缺型入侵攻击事件信息调试攻击事件预测算法以确定精准可靠的稀缺种类,再结合攻击事件预测算法识别第二已认证业务交互会话集中云端存储的共享会话的初始事件预测窗口,进一步基于初始事件预测窗口确定第三已认证业务交互会话集,从而采用对云端存储的共享会话确定准确的初始事件预测窗口以对算法调试集进行增加,减少实际会话环境下稀缺型入侵攻击事件信息的调试样例稀缺的短板,此外,基于多类认证示例的协同调试/联合训练,使得入侵攻击事件识别算法在缺少真实调试示例的基础上仍然可以精准可靠地对实际会话环境下的稀缺型入侵攻击事件进行识别和预测。
在一些可能的实施例中,上述Step203“结合所述初始事件预测窗口,依据所述第二已认证业务交互会话集中业务交互会话范例确定第三已认证业务交互会话集”可以采用以下步骤实现。
Step301,确定所述第二已认证业务交互会话集中业务交互会话范例的事件分析窗口。
在本发明实施例中,所述事件分析窗口为对业务交互会话范例事先注释的目标所对应的会话内容集,比如正例标签值等。
Step302,确定所述第二已认证业务交互会话集中业务交互会话范例中所述初始事件预测窗口与所述事件分析窗口之间的量化比较变量。
其中,所述初始事件预测窗口与所述事件分析窗口之间的量化比较变量(比如窗口之间的重叠区域面积与窗口共同形成的面积之间的比值)。
Step303,基于设定的两个叠加判定值和所述量化比较变量,从所述第二已认证业务交互会话集中确定符合叠加要求的事件预测窗口内容作为所述第三已认证业务交互会话集。
进一步地,对于每一个业务交互会话范例,采用行为向量匹配单元可以确定多个初始事件预测窗口,可以采用事先定两个叠加判定值,分别确定较高叠加性及较低叠加性对应的事件预测窗口内容作为第三已认证业务交互会话集。入侵攻击事件识别的核心在于调试范例的均衡,包括积极/消极型范例和其他类型的调试范例等,本发明实施例中取一组会话集里的包含稀缺种类入侵攻击事件的初始事件预测窗口为积极型范例,取其他类型的初始事件预测窗口属于消极型范例。
对于一些示例性实施例而言,所述设定的两个叠加判定值包括第一判定值和第二判定值,所述第二判定值低于所述第一判定值;上述Step303可以包含以下Step331和Step332。
Step331,基于第一初始事件预测窗口与所述事件分析窗口之间的所述量化比较变量高于所述第一判定值,从所述第二已认证业务交互会话集中采集所述第一初始事件预测窗口对应的信息集作为所述第三已认证业务交互会话集的积极型范例;
其中,第一判定值可以根据实际情况设置,比如可以0.7或0.8,第一初始事件预测窗口与事件分析窗口之间的量化比较变量高于第一判定值,反映第一初始事件预测窗口中包含稀缺种类会话入侵攻击事件,因此结合第一初始事件预测窗口对第二已认证业务交互会话集中业务交互会话范例进行采集即从原始调试范例中拆解对应内容集,得到充足的稀缺种类调试范例,比如第三已认证业务交互会话集的积极型范例。积极型范例在后续调试中便于入侵攻击事件识别算法能够匹配入侵攻击事件的一些列特征信息。
Step332,基于第二初始事件预测窗口与所述事件分析窗口之间的所述量化比较变量低于所述第二判定值,从所述第二已认证业务交互会话集中采集所述第二初始事件预测窗口对应的信息集作为所述第三已认证业务交互会话集的消极型范例。
举例而言,第二判定值可以根据情况设置,比如为0.4,第二初始事件预测窗口与事件分析窗口之间的量化比较变量低于第二判定值,反映第二初始事件预测窗口为非事件预测窗口,因此结合第二初始事件预测窗口对第二已认证业务交互会话集中业务交互会话范例进行采集即从原始调试范例中确定对于会话内容集,得到充足的非事件型调试范例,比如第三已认证业务交互会话集的消极型范例。消极型加入入侵攻击事件识别算法的调试过程,可以降低入侵攻击事件识别算法的识别噪声。
进一步地,为确保入侵攻击事件识别算法在多个不同的实际场景下的运行性能,本发明实施例设置第一判定值为0.6,第二判定值为0.3,这样积极/消极型范例的分配为1比3。
如此,分别确定与事件分析窗口具有较高叠加性的第一初始事件预测窗口作为第三已认证业务交互会话集的积极型范例,以及与事件分析窗口具有较低叠加性(重合度较低)的第二初始事件预测窗口作为第三已认证业务交互会话集的消极型范例,从而使得积极型范例在后续调试中有利于算法学习和关注事件的各类特征信息,同时消极型范例用于对算法的误识别的监督。
本发明实施例中,将行为向量匹配单元输出的初始事件预测窗口与经过注释处理得到的事件分析窗口进行量化比较变量确定,并采用对比设定的两个叠加判定值和量化比较变量,从第二已认证业务交互会话集中采集符合要求的事件预测窗口内容作为第三已认证业务交互会话集,这样可以高效确定充足的业务交互会话范例以对算法调试集进行增加,进而提高后续算法调试的准确度和可信度。
对于一些示例性实施例而言,所述入侵攻击事件识别算法至少涵盖用于实施事件捕捉操作(事件定位)的第一局部算法单元和用于实施事件鉴别操作(事件分类)的第二局部算法单元。其中,局部算法单元可以理解为分支网络。所述Step204“结合所述第一已认证业务交互会话集和所述第三已认证业务交互会话集调试入侵攻击事件识别算法的算法模型变量”可以采用以下步骤实现。
Step401,分别确定所述第一已认证业务交互会话集采用所述第一局部算法单元的事件捕捉代价函数和采用所述第二局部算法单元的第一事件鉴别代价函数。
进一步地,所述第一局部算法单元用于实施事件捕捉操作,可以包括两层特征整合单元(全连接层)、回归分单元等。其中事件捕捉操作可以确定出调试范例中每一入侵攻击事件的捕捉窗口的分布变量;所述第二局部算法单元用于实施事件鉴别操作,可以包括两层特征整合单元、分类单元等,其中事件鉴别操作用于确定出调试范例中每一入侵攻击事件的类型。
其中,所述入侵攻击事件识别算法还包括行为向量挖掘单元(比如骨干网络、特征提取网络)、行为向量匹配单元和行为向量调整单元(比如池化单元),行为向量调整单元可以将不同维度的关联行为向量转换为一致的行为向量关系网进行处理,确保行为向量关系网在后续的正常使用。
对于一些示例性实施例而言,上述Step401可以包含以下Step411至Step414。
Step411,采用所述行为向量挖掘单元对所述第一已认证业务交互会话集中业务交互会话范例进行行为向量挖掘,得到的所述第一已认证业务交互会话集中业务交互会话范例对应的第一行为向量关系网。
Step412,采用所述行为向量匹配单元和所述行为向量调整单元,确定所述第一已认证业务交互会话集中各会话入侵攻击事件在所述第一行为向量关系网中的关联行为向量。
进一步地,行为向量匹配单元提取初始事件预测窗口,行为向量调整单元直接从第一行为向量关系网里采集各个初始事件预测窗口所对应的会话内容集即关联行为向量簇(标的向量簇)的特征,并调整为相同维度的关联行为向量输出。
Step413,依据所述第一已认证业务交互会话集中业务交互会话范例所注释的事件分析窗口,确定所述第一行为向量关系网中的关联行为向量簇采用所述第一局部算法单元的事件捕捉代价函数。
示例性地,在对业务交互会话范例中注释的事件分析窗口与参考窗口进行向量值(相对分布变量)确定,然后采用对比行为向量匹配单元预测的初始事件预测窗口与向量值确定事件捕捉代价函数,行为向量匹配单元的测试结果越接近,事件捕捉代价函数越小,分布变量识别越精准。
Step414,依据所述第一已认证业务交互会话集中业务交互会话范例所注释的差异化关键词,确定所述第一行为向量关系网采用所述第二局部算法单元的第一事件鉴别代价函数。
如此,先对第一已认证业务交互会话集进行行为向量挖掘得到第一行为向量关系网,然后经过行为向量匹配单元提取初始事件预测窗口,并结合行为向量调整单元输出初始事件预测窗口在第一行为向量关系网中的关联行为向量簇,再将关联行为向量簇分别加载至第一局部算法单元和第二局部算法单元,从而精准确定第一已认证业务交互会话集采用第一局部算法单元的事件捕捉代价函数和采用第二局部算法单元的第一事件鉴别代价函数,从而基于不同的代价函数/损失函数进行反馈调试。
Step402,确定所述第三已认证业务交互会话集采用所述第二局部算法单元的第二事件鉴别代价函数;
可以理解的是,鉴于第三已认证业务交互会话集是基于第二已认证业务交互会话集中提取的初始事件预测窗口确定的,因此第三已认证业务交互会话集无需涉足回归处理,只需确定第三已认证业务交互会话集采用用于事件鉴别操作的第二局部算法单元的第二事件鉴别代价函数。
对于一些示例性实施例而言,上述Step402可以包含以下Step421和Step422。
Step421,采用所述行为向量挖掘单元对所述第三已认证业务交互会话集中业务交互会话范例进行行为向量挖掘,得到的所述第三已认证业务交互会话集中业务交互会话范例对应的第二行为向量关系网。
Step422,依据所述第三已认证业务交互会话集中业务交互会话范例所注释的差异化关键词,确定所述第二行为向量关系网采用所述第二局部算法单元的第二事件鉴别代价函数。
如此,先对第一已认证业务交互会话集进行行为向量挖掘得到第一行为向量关系网,然后越过行为向量匹配单元和行为向量调整单元,直接将第一行为向量关系网加载至第二局部算法单元,这样使得第三已认证业务交互会话集不用于回归处理,只确定采用第二局部算法单元的第二事件鉴别代价函数。这样可以尽可能改善调试范例的维度等差异性带来的事件分析噪声,从而确保结合不同类型的调试范例进行算法调试的质量。
Step403,依据所述事件捕捉代价函数、所述第一事件鉴别代价函数和所述第二事件鉴别代价函数,对所述入侵攻击事件识别算法的算法模型变量进行改进。
这样一来,可以看出首先结合第一局部算法单元对第一已认证业务交互会话集进行分布变量解析以确定的事件捕捉代价函数,以及结合第二局部算法单元分别对第一已认证业务交互会话集和第二已认证业务交互会话集进行种类解析以确定第一事件鉴别代价函数和第二事件鉴别代价函数,也就是将第三已认证业务交互会话集以类别强化的思路与第一已认证业务交互会话集一起进行联合调试。这样可以结合获取的第三已认证业务交互会话集进行算法调试并节约运算资源。
Step404,基于所述事件捕捉代价函数、所述第一事件鉴别代价函数和所述第二事件鉴别代价函数都处于稳定状态的基础上,得到完成调试的所述入侵攻击事件识别算法。
在本发明实施例中,分别将第一已认证业务交互会话集加载至入侵攻击事件识别算法的第一局部算法单元和第二局部算法单元得到对应的事件捕捉代价函数和第一事件鉴别代价函数,将第三已认证业务交互会话集加载至入侵攻击事件识别算法的第二局部算法单元得到第二事件鉴别代价函数,从而采用第一局部算法单元和第二局部算法单元将入侵攻击事件识别的事件捕捉操作和事件鉴别操作进行分离,这样只基于获得的第三已认证业务交互会话集(比如增加得到的调试样例),来强化入侵攻击事件识别算法的事件分类鉴别性能,这样可以结合充足的新增样例确保算法识别的准确性和可靠性。
在一些可独立实施的设计思路下,在采用完成调试的入侵攻击事件识别算法对所述目标业务交互会话进行入侵攻击事件识别,得到所述会话入侵攻击事件的识别报告之后,该方法还可以包括如下内容:通过所述识别报告确定待防护会话入侵攻击事件对应的攻击行为偏好关系网;利用所述攻击行为偏好关系网确定针对所述待防护会话入侵攻击事件的数据入侵防护策略;基于所述数据入侵防护策略进行数据防护处理。
对于本发明实施例而言,待防护会话入侵攻击事件可以是稀缺型入侵攻击事件,而上述方案重点针对稀缺型入侵攻击事件进行处理,能够得到反映攻击意图或者攻击趋势的攻击行为偏好关系网,进而可以实现前瞻性的数据入侵防护策略确定,以提前部署数据入侵防护策略进行数据防护处理,比如针对文件篡改事件,可以基于权限验证或者异常操作拦截等形式进行数据防护。
在一些可独立实施的设计思路下,通过所述识别报告确定待防护会话入侵攻击事件对应的攻击行为偏好关系网,可以包括如下内容:获取所述识别报告中针对待防护会话入侵攻击事件的攻击偏好属性记录,所述攻击偏好属性记录包括至少两组攻击偏好属性;获得所述攻击偏好属性记录中的各组攻击偏好属性与所述待防护会话入侵攻击事件之间的攻击影响系数(可以理解为相关度或者相关性);根据所述各组攻击偏好属性对应的攻击影响系数,以及所述各组攻击偏好属性的类别要素,对所述各组攻击偏好属性进行队列重构(可以理解为排序处理),得到相应的攻击偏好属性列表;基于所述攻击偏好属性列表生成针对所述待防护会话入侵攻击事件的目标行为偏好向量列表,所述目标行为偏好向量列表包括至少两个目标行为偏好窗口字段(可以理解为行为偏好向量字段);基于所述目标行为偏好向量列表中的目标行为偏好窗口字段生成攻击行为偏好关系网。
如此设计,通过对攻击偏好属性进行队列重构,能够将较为突出或者紧急程度较高的目标行为偏好窗口字段置于前端,从而在生成攻击行为偏好关系网时可以形成由上至下由重到轻的金字塔关系网结构,便于后续快速确定符合要求的数据入侵防护策略(比如基于攻击行为偏好关系网中优先级较高的目标行为偏好窗口字段匹配尽可能准确的数据入侵防护策略)。
在一些可独立实施的设计思路下,所述根据所述各组攻击偏好属性对应的攻击影响系数,以及所述各组攻击偏好属性的类别要素,对所述各组攻击偏好属性进行队列重构,得到相应的攻击偏好属性列表,具体包括:根据所述各组攻击偏好属性对应的攻击影响系数,以及所述各组攻击偏好属性的类别要素,对所述各组攻击偏好属性进行拆分,得到至少两个攻击偏好属性集合;对各个攻击偏好属性集合进行队列重构,并分别对所述各个攻击偏好属性集合中的各组攻击偏好属性进行队列重构,得到所述攻击偏好属性列表。如此设计,可以完整、准确地确定出攻击偏好属性列表。
在一些可独立实施的设计思路下,所述根据所述各组攻击偏好属性对应的攻击影响系数,以及所述各组攻击偏好属性的类别要素,对所述各组攻击偏好属性进行拆分,得到至少两个攻击偏好属性集合,具体包括:分别根据所述各组攻击偏好属性对应的攻击影响系数,对所述各组攻击偏好属性的类别要素进行加权,得到所述各组攻击偏好属性的活跃类别要素;根据所述各组攻击偏好属性的活跃类别要素对所述各组攻击偏好属性进行属性归纳处理(聚类处理),得到至少两个攻击偏好属性集合。如此设计,可以完整、准确地确定出攻击偏好属性集合。
在一些可独立实施的设计思路下,所述对各个攻击偏好属性集合之间进行队列重构,并分别对所述各个攻击偏好属性集合中的各组攻击偏好属性进行队列重构,得到所述攻击偏好属性列表,具体包括:根据各个攻击偏好属性集合所包含的攻击偏好属性的数量,对所述各个攻击偏好属性集合进行队列重构;以及,针对所述各个攻击偏好属性集合,分别执行以下操作:根据所述攻击偏好属性集合中各组攻击偏好属性的类别要素与所述攻击偏好属性集合的相关性系数,对所述攻击偏好属性集合中的各组攻击偏好属性进行队列重构;基于所述各个攻击偏好属性集合之间的队列重构结果,以及所述各个攻击偏好属性集合中各组攻击偏好属性的队列重构结果,生成所述攻击偏好属性列表。如此设计,通过局部且循环的队列重构,能够得到尽可能准确合理的攻击偏好属性列表。
基于同样的发明构思,图2示出了本发明实施例提供的一种基于深度学习的数据入侵分析装置的模块框图,一种基于深度学习的数据入侵分析装置可以包括实施图1所示的相关方法步骤的如下模块。
交互会话获取模块21,在目标时段接收到数据入侵分析请求的前提下,获取目标业务交互会话。
攻击事件识别模块22,采用完成调试的入侵攻击事件识别算法对所述目标业务交互会话进行入侵攻击事件识别,得到所述会话入侵攻击事件的识别报告。
应用于本发明的相关实施例可以达到如下技术效果:首先基于稀缺型入侵攻击事件信息调试攻击事件预测算法以确定精准可靠的稀缺种类,再结合攻击事件预测算法识别第二已认证业务交互会话集中云端存储的共享会话的初始事件预测窗口,进一步基于初始事件预测窗口确定第三已认证业务交互会话集,从而采用对云端存储的共享会话确定准确的初始事件预测窗口以对算法调试集进行增加,减少实际会话环境下稀缺型入侵攻击事件信息的调试样例稀缺的短板。此外,基于多类认证示例的协同调试/联合训练,使得入侵攻击事件识别算法在缺少真实调试示例的基础上仍然可以精准可靠地对实际会话环境下的稀缺型入侵攻击事件进行识别和预测。
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。