发明内容
本发明提供一种基于大数据分析的威胁行为分析方法及服务器,为实现上述技术目的,本申请采用如下技术方案。
第一方面是一种基于大数据分析的威胁行为分析方法,应用于大数据分析服务器,该方法至少包括:确定疑似风险会话二元组,所述疑似风险会话二元组涵盖第一待分析会话行为数据和第二待分析会话行为数据,所述第一待分析会话行为数据的行为热力评分大于所述第二待分析会话行为数据的行为热力评分;通过所述第一待分析会话行为数据和所述第二待分析会话行为数据,确定完成更新的第二待分析会话行为数据,所述完成更新的第二待分析会话行为数据的注意力约束条件与所述第二待分析会话行为数据的注意力约束条件一致,所述完成更新的第二待分析会话行为数据的行为热力评分大于所述第二待分析会话行为数据的行为热力评分;通过所述第一待分析会话行为数据和所述完成更新的第二待分析会话行为数据,确定所述第一待分析会话行为数据与所述完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。
如此设计,通过第一待分析会话行为数据和第二待分析会话行为数据确定完成更新的第二待分析会话行为数据,使第一待分析会话行为数据的行为热力评分与完成更新的第二待分析会话行为数据的行为热力评分之间的偏移小于第一待分析会话行为数据的行为热力评分与第二待分析会话行为数据的行为热力评分。进而保障通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据确定的第一威胁行为识别结果的准确性和可靠性优于通过第一待分析会话行为数据和第二待分析会话行为数据确定的威胁行为识别结果的准确性和可靠性,这样一来,能够通过有限的待分析会话行为数据尽可能精准可信地实现威胁行为识别处理,从而提高威胁行为的识别效率,减少大数据分析服务器的运算压力。
对于一些可能的技术方案而言,所述通过所述第一待分析会话行为数据和所述第二待分析会话行为数据,确定完成更新的第二待分析会话行为数据,包括:对所述第一待分析会话行为数据和所述第二待分析会话行为数据进行第一关键行为内容挖掘操作,确定显性行为内容差异分布,所述显性行为内容差异分布涵盖所述第一待分析会话行为数据中的第一用户活动事件与所述第二待分析会话行为数据中的第二用户活动事件之间的第一显性比较结果,所述第一用户活动事件与所述第二用户活动事件为相同主题的用户活动事件;将所述显性行为内容差异分布作为更新指示对所述第一待分析会话行为数据进行更新操作,确定所述完成更新的第二待分析会话行为数据。
如此一来,通过对第一待分析会话行为数据和第二待分析会话行为数据进行关键行为内容挖掘操作,以确定包含第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果的显性行为内容差异分布。再通过显性行为内容差异分布中的显性比较结果为第一待分析会话行为数据中每个用户活动事件确定更新指示,并使用该更新指示对第一待分析会话行为数据中的用户活动事件进行更新操作,以更新第一待分析会话行为数据中用户活动事件的显性定位结果,这样能够降低完成更新操作后确定的完成更新的第二待分析会话行为数据与第一待分析会话行为数据之间的偏移。
对于一些可能的技术方案而言,在所述确定疑似风险会话二元组之后,所述方法还包括:对所述第一待分析会话行为数据和所述第二待分析会话行为数据进行第二关键行为内容挖掘操作,确定潜在行为内容差异分布,所述潜在行为内容差异分布涵盖所述第一用户活动事件与所述第二用户活动事件之间的潜在比较结果;所述将所述显性行为内容差异分布作为更新指示对所述第一待分析会话行为数据进行更新操作,确定所述第二待分析会话行为数据的注意力约束条件下的完成更新的第二待分析会话行为数据,包括:将所述显性行为内容差异分布和所述潜在行为内容差异分布分别作为更新指示对所述第一待分析会话行为数据进行更新操作,确定所述完成更新的第二待分析会话行为数据。
如此设计,通过对第一待分析会话行为数据和第二待分析会话行为数据进行关键行为内容挖掘操作,可确定包含第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间的潜在比较结果的潜在行为内容差异分布。结合潜在行为内容差异分布对第一待分析会话行为数据进行更新操作,可优化第一待分析会话行为数据中的用户活动事件的潜在定位结果,进而能够降低第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间的潜在比较结果。
基于上述一种可能的设计思路,将显性行为内容差异分布和潜在行为内容差异分布分别作为更新指示对第一待分析会话行为数据进行更新操作,可在优化第一待分析会话行为数据中用户活动事件的显性定位结果的同时,优化第一待分析会话行为数据中用户活动事件的潜在定位结果。这样确定的完成更新的第二待分析会话行为数据中用户活动事件的定位结果与第二待分析会话行为数据中用户活动事件的定位结果之间的偏移尽可能最小化。
在另一种可能的设计思路中,所述将所述显性行为内容差异分布作为更新指示对所述第一待分析会话行为数据进行更新操作,确定完成更新的第二待分析会话行为数据,包括:通过所述第一显性比较结果,确定显性威胁更新指示;借助所述显性威胁更新指示对所述第一用户活动事件进行更新操作,确定所述完成更新的第二待分析会话行为数据。
如此设计,显性行为内容差异分布包含第一用户活动事件与第二用户活动事件之间的显性比较结果,在使用显性行为内容差异分布对第一待分析会话行为数据进行更新操作时,借助第一用户活动事件与第二用户活动事件之间的显性比较结果能够精准的优化第一用户活动事件的显性定位结果,进而能够提高确定的完成更新的第二待分析会话行为数据的准确性和可靠性。
在另一种可能的设计思路中,所述对所述第一待分析会话行为数据和所述第二待分析会话行为数据进行第一关键行为内容挖掘操作,确定显性行为内容差异分布,包括:对所述第一待分析会话行为数据和所述第二待分析会话行为数据进行组合操作,确定第三待分析会话行为数据;对所述第三待分析会话行为数据进行x层关键描述提取操作,确定第一过渡关键行为内容,所述x为正整数;对所述第一过渡关键行为内容进行y层第一关键描述翻译操作,确定所述显性行为内容差异分布,所述y为正整数。
如此设计,通过对第三待分析会话行为数据进行x层关键描述提取操作和y层第一关键描述翻译操作完成对第一待分析会话行为数据和第二待分析会话行为数据的关键行为内容挖掘操作,确定显性行为内容差异分布。这样能够更加精准全面地挖掘出第三待分析会话行为数据中每个用户活动事件的关联事件集的深层次特征以及整组第三待分析会话行为数据的深层次特征。
在另一种可能的设计思路中,所述对所述第一过渡关键行为内容进行y层第一关键描述翻译操作,确定所述显性行为内容差异分布,包括:将所述x层关键描述提取操作中的第u层关键描述提取操作生成的关键行为内容与所述y层第一关键描述翻译操作中的第v层第一关键描述翻译操作生成的关键行为内容融合,确定所述y层第一关键描述翻译操作中第v+1层第一关键描述翻译操作的原料,所述u为不大于所述x的正整数,所述v为不大于y-1的正整数。
如此设计,通过将关键描述提取操作确定的关键行为内容与关键描述翻译操作确定的关键行为内容合并的思路,能够有助于保障关键描述翻译操作确定的关键行为内容中的语义标签集信息和细节化信息的多样化,进而能够保障显性行为内容差异分布中的语义标签集信息和细节化信息的多样化。
在另一种可能的设计思路中,所述对所述第一过渡关键行为内容进行y层第一关键描述翻译操作,确定所述显性行为内容差异分布,包括:对所述过渡关键行为内容进行所述y层第一关键描述翻译操作,确定第二过渡关键行为内容;以所述第一待分析会话行为数据为参考型会话行为数据对所述第二过渡关键行为内容进行优化操作,使所述第二过渡关键行为内容中的语义标签集在所述第二过渡关键行为内容中的定位结果与所述第一待分析会话行为数据中的语义标签集在所述第一待分析会话行为数据中的定位结果一致,确定所述显性行为内容差异分布。
如此设计,通过对第二关键行为内容进行优化操作,以使显性行为内容差异分布中的语义标签集在显性行为内容差异分布中的定位结果与第一待分析会话行为数据中的语义标签集在第一待分析会话行为数据中的定位结果一致和/或潜在行为内容差异分布中的语义标签集在潜在行为内容差异分布中的定位结果与第一待分析会话行为数据中的语义标签集在第一待分析会话行为数据中的定位结果一致,提高从第一待分析会话行为数据中判别出目标数据的精度,进而提高通过显性行为内容差异分布确定的显性威胁更新指示涵盖的信息的精确性和/或通过潜在行为内容差异分布确定的潜在行为内容更新指示涵盖的信息的精确性。
在另一种可能的设计思路中,所述通过所述第一待分析会话行为数据和所述完成更新的第二待分析会话行为数据,确定所述第一待分析会话行为数据与所述完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果,包括:分别对所述第一待分析会话行为数据和所述完成更新的第二待分析会话行为数据进行关键行为内容挖掘操作,确定所述第一待分析会话行为数据的第一关键行为内容和所述完成更新的第二待分析会话行为数据的第二关键行为内容;通过所述第一关键行为内容和所述第二关键行为内容之间的共性特征,确定所述第一用户活动事件与所述第一用户活动事件在所述完成更新的第二待分析会话行为数据中的相同主题的用户活动事件之间的第二显性比较结果;通过所述第二显性比较结果确定所述第一威胁行为识别结果。
如此设计,通过确定第一待分析会话行为数据的第一关键行为内容和完成更新的第二待分析会话行为数据的第二关键行为内容之间的共性特征,可确定第二显性比较结果,进而可通过第二显性比较结果确定第一威胁行为识别结果。
在另一种可能的设计思路中,在所述通过所述第一关键行为内容和所述第二关键行为内容之间的共性特征,确定所述第一威胁行为识别结果之前,所述方法还包括以下其中一项:将所述第一关键行为内容中的关联用户活动事件集作为更新指示对所述第二关键行为内容中的关联用户活动事件集进行更新操作,确定所述第一关键行为内容和所述第二关键行为内容之间的共性特征;将所述第二关键行为内容中的关联用户活动事件集作为更新指示对所述第一关键行为内容中的关联用户活动事件集进行更新操作,确定所述第一关键行为内容和所述第二关键行为内容之间的共性特征。
如此设计,通过将第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集进行更新,可精准快速确定第一关键行为内容和第二关键行为内容之间的共性特征。
在另一种可能的设计思路中,所述方法还包括:对所述第一威胁行为识别结果和所述第一关键行为内容进行关键描述提取操作,确定第三关键行为内容;对所述第三关键行为内容进行关键描述翻译操作,确定所述第一待分析会话行为数据与所述完成更新的第二待分析会话行为数据之间的第二威胁行为识别结果,所述第二威胁行为识别结果的特征识别度大于所述第一威胁行为识别结果的特征识别度。
如此设计,通过对第一威胁行为识别结果和第一关键行为内容进行关键描述提取操作,确定第三关键行为内容,对第三关键行为内容进行关键描述翻译操作可以提高第一威胁行为识别结果的特征识别度,确定第二威胁行为识别结果。
在另一种可能的设计思路中,所述对所述第一威胁行为识别结果和所述第一关键行为内容进行关键描述提取操作,确定第三关键行为内容,包括:对所述第一关键行为内容和所述第一待分析会话行为数据进行组合操作,确定第四待分析会话行为数据;对所述第四待分析会话行为数据进行关键描述提取操作,确定所述第三关键行为内容。
如此设计,通过对第四待分析会话行为数据进行关键描述提取操作实现对第一威胁行为识别结果和第一关键行为内容的关键描述提取操作,确定第三关键行为内容。
在另一种可能的设计思路中,在所述对所述第一威胁行为识别结果和所述第一关键行为内容进行组合操作,确定第四待分析会话行为数据之前,所述方法还包括:对所述第一关键行为内容进行关键行为内容挖掘操作,确定所述第一关键行为内容的第四关键行为内容;所述对所述第一威胁行为识别结果和所述第一关键行为内容进行组合操作,确定第四待分析会话行为数据,包括:对所述第四关键行为内容和所述第一威胁行为识别结果进行组合操作,确定所述第四待分析会话行为数据。
如此设计,通过对第一关键行为内容进行关键行为内容挖掘操作,挖掘出第一关键行为内容的关键内容,并降低第一关键行为内容的维度,确定第四关键行为内容。再对第四关键行为内容和第一威胁行为识别结果进行组合操作确定第四待分析会话行为数据,如此,在后续对第四待分析会话行为数据进行处理时,减少大数据分析服务器的运算压力,提高威胁行为的识别效率。
第二方面是一种大数据分析服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据分析服务器执行第一方面的方法。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的的一种基于大数据分析的威胁行为分析方法的流程示意图,一种基于大数据分析的威胁行为分析方法可以通过大数据分析服务器实现,大数据分析服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据分析服务器执行如下步骤所描述的技术方案。
步骤201,确定疑似风险会话二元组,上述疑似风险会话二元组涵盖第一待分析会话行为数据和第二待分析会话行为数据,上述第一待分析会话行为数据的行为热力评分大于所述第二待分析会话行为数据的行为热力评分。
在本发明实施例中,疑似风险会话二元组可以理解为业务会话过程中大数据服务器所检测到的疑似风险会话集合。待分析会话行为数据可以理解为疑似风险会话二元组中符合分析需求的会话行为数据。
进一步的,行为热力评分包括会话行为数据的特征识别度、会话行为数据的数据纯度、会话行为数据的细节评价中的一项或者一项以上。会话行为数据的特征识别度与行为热力评分存在设定关系,会话行为数据的数据纯度与行为热力评分存在设定关系,会话行为数据的细节评价与行为热力评分存在设定关系。
又比如,上述第一待分析会话行为数据和第二待分析会话行为数据可以理解为两个不同配置的数据采集端在相同时间节点在不同状态下对相同业务会话或者会话环境进行采集分别确定的会话行为数据,该会话行为数据可以涉及虚拟空间交互,比如虚拟商城、虚拟社交、虚拟办公等。
可以理解,本发明实施例示出的设计思路可用于在疑似风险会话二元组中的两组会话行为数据的行为热力评分不同的前提下,这样能够降低疑似风险会话二元组中的两组会话行为数据的行为热力评分之间的偏移。由此,本发明实施例中的第一待分析会话行为数据的行为热力评分大于第二待分析会话行为数据的行为热力评分。
可以理解的是,本发明实施例以两个存在差异的数据采集端为例实现怎样降低疑似风险会话二元组中的两组会话行为数据的行为热力评分之间的偏移。在具体实施时,还可通过3个或3个以上的数据采集端在相同时间节点在不同状态下对相同业务会话或者会话环境确定若干会话行为数据,通过本发明实施例示出的设计思路同样可降低若干会话行为数据的行为热力评分之间的偏移,本发明对数据采集端的数目不作进一步的限制。
可以理解,在确定出疑似风险会话二元组后,可以通过事先设定的行为热力评分确定疑似风险会话二元组中的两组会话行为数据的行为热力评分等级。其中,行为热力评分包括如下至少一项:会话行为数据的特征识别度、会话行为数据的数据纯度、会话行为数据的细节评价。在确定疑似风险会话二元组中两组会话行为数据的行为热力评分等级后,可进一步确定第一待分析会话行为数据和第二待分析会话行为数据。
步骤202,通过第一待分析会话行为数据和第二待分析会话行为数据,确定完成更新的第二待分析会话行为数据,完成更新的第二待分析会话行为数据的注意力约束条件与第二待分析会话行为数据的注意力约束条件一致,完成更新的第二待分析会话行为数据的行为热力评分大于第二待分析会话行为数据的行为热力评分。
在本发明实施例中,注意力约束条件可以理解为业务会话过程中的限定指标(比如会话行为数据的采集条件、采集侧重点等)。
在一种可能的技术方案中,通过第一待分析会话行为数据和第二待分析会话行为数据,确定完成更新的第二待分析会话行为数据,示例性的可以采用以下设计思路实施:对第一待分析会话行为数据和第二待分析会话行为数据进行关键行为内容挖掘操作,确定第一待分析会话行为数据的关键行为内容和第二待分析会话行为数据的关键行为内容。通过第一待分析会话行为数据的关键行为内容和第二待分析会话行为数据的关键行为内容确定第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果,进而可通过该显性比较结果优化第一待分析会话行为数据中的用户活动事件的定位结果,确定注意力约束条件与第二待分析会话行为数据的注意力约束条件一致的会话行为数据(后续将称为完成更新的第二待分析会话行为数据)。
基于以上设计思路确定的完成更新的第二待分析会话行为数据的行为热力评分与第一待分析会话行为数据的行为热力评分一致,且完成更新的第二待分析会话行为数据的注意力约束条件与第二待分析会话行为数据的注意力约束条件一致。
在另一种通过第一待分析会话行为数据和第二待分析会话行为数据确定完成更新的第二待分析会话行为数据的设计思路中,可以通过对第二待分析会话行为数据进行质量升级操作和/或清洗操作和/或提高会话行为数据特征识别度的处理,以将第二待分析会话行为数据的行为热力评分提高至与第一待分析会话行为数据的行为热力评分一致,确定完成更新的第二待分析会话行为数据。
步骤203,通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据,确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。
在本发明实施例中,鉴于完成更新的第二待分析会话行为数据的注意力约束条件与第二待分析会话行为数据的注意力约束条件一致,因此可以将第一待分析会话行为数据与完成更新的第二待分析会话行为数据归类为一个疑似风险会话二元组。这样,可以通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据,确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。第一威胁行为识别结果包括第一待分析会话行为数据与完成更新的第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果。
举例而言,第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果可以通过分析第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的异同得到,比如针对相同主题的用户活动事件的不同行为数据块进行威胁检测,从而得到反映数据信息威胁的第一威胁行为识别结果,该第一威胁行为识别结果可以包括数据窃取、流量攻击、非法访问等识别结果。
在一种通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据,确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果的设计思路中,可通过对第一待分析会话行为数据和完成更新的第二待分析会话行为数据进行关键行为内容挖掘操作,确定第一待分析会话行为数据的关键行为内容和完成更新的第二待分析会话行为数据的关键行为内容。通过对第一待分析会话行为数据的关键行为内容与完成更新的第二待分析会话行为数据的关键行为内容进行关键内容关联操作确定第一待分析会话行为数据的关键行为内容和完成更新的第二待分析会话行为数据的关键行为内容中的相同主题的用户活动事件。通过第一待分析会话行为数据的关键行为内容和完成更新的第二待分析会话行为数据的关键行为内容中的相同主题的用户活动事件之间的显性比较结果确定上述第一威胁行为识别结果。
在另一种通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据,确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果的设计思路中,可通过对第一待分析会话行为数据与完成更新的第二待分析会话行为数据进行关键内容关联操作确定第一待分析会话行为数据和完成更新的第二待分析会话行为数据中的相同主题的用户活动事件。通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果确定第一威胁行为识别结果。
本发明实施例通过第一待分析会话行为数据和第二待分析会话行为数据确定完成更新的第二待分析会话行为数据,使得第一待分析会话行为数据的行为热力评分与完成更新的第二待分析会话行为数据的行为热力评分之间的偏移小于第一待分析会话行为数据的行为热力评分与第二待分析会话行为数据的行为热力评分。进而保障通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据确定的第一威胁行为识别结果的准确性和可靠性优于通过第一待分析会话行为数据和第二待分析会话行为数据确定的威胁行为识别结果的准确性和可靠性,这样一来,能够通过有限的待分析会话行为数据尽可能精准可信地实现威胁行为识别处理,从而提高威胁行为的识别效率,减少大数据分析服务器的运算压力。
在一种可能的设计思路中,上述步骤202所记录的内容可以通过如下步骤301和步骤302实现。
步骤301,对上述第一待分析会话行为数据和上述第二待分析会话行为数据进行第一关键行为内容挖掘操作,确定显性行为内容差异分布,上述显性行为内容差异分布包含上述第一待分析会话行为数据中的第一用户活动事件与上述第二待分析会话行为数据中的第二用户活动事件之间的第一显性比较结果,上述第一用户活动事件与上述第二用户活动事件为相同主题的用户活动事件。
在本发明实施例中,第一关键行为内容挖掘操作可以理解为关键描述提取操作,也可以理解为关键描述提取操作和关键描述翻译操作的整合,还可以理解为特征提取操作。其中,关键描述提取操作可以是更新操作、下采样操作,关键描述翻译操作可以是关键内容精简操作、动态扩展操作、逆向滑动平均处理。
对于一些可能的技术方案而言,逐一依据不低于两层特征提取单元(编码单元)对第一待分析会话行为数据和第二待分析会话行为数据进行依次的关键描述提取操作,再通过不低于两层特征还原单元对关键描述提取操作后确定的关键行为内容进行依次的关键描述翻译操作,得到显性行为内容差异分布。
通过特征提取单元的处理后,第一待分析会话行为数据和第二待分析会话行为数据的维度会精简,而通过特征还原单元的处理后,关键行为内容的维度会扩展。示例性的,在一些可能的实施例中,可以将特征提取单元的数目与特征还原单元的数目设为一致,且第一层特征提取单元生成的关键行为内容的维度与第三层特征还原单元生成的关键行为内容的维度一致,第二层特征提取单元生成的关键行为内容的维度与第二层特征还原单元生成的关键行为内容的维度一致,第三层特征提取单元生成的关键行为内容的维度与第一层特征还原单元生成的关键行为内容的维度一致。
鉴于在对第一待分析会话行为数据和第二待分析会话行为数据进行关键描述提取操作时,在一定程度上会删除一部分无关紧要的描述内容,但进行关键描述提取操作前的数据中记录有这部分无关紧要的描述内容,所以可通过在关键描述翻译操作时将特征提取单元生成的关键行为内容与特征还原单元生成的关键行为内容进行组合,以丰富关键行为内容中的细节化信息和语义标签集信息。进一步的,可将特征提取单元生成的关键行为内容与特征还原单元生成的相同大小的关键行为内容进行组合。可以理解的是,特征提取单元的数目和特征还原单元的数目仅是本发明实施例提供一个示例,可以不对此进行限定。
可以理解,在对第一待分析会话行为数据和第二待分析会话行为数据进行第一关键行为内容挖掘操作之前,可以对第一待分析会话行为数据和第二待分析会话行为数据进行组合操作,确定完成组合操作后的待分析会话行为数据(第三待分析会话行为数据)。对第一待分析会话行为数据和第二待分析会话行为数据进行第一关键行为内容挖掘操作可以通过对第三待分析会话行为数据进行第一关键行为内容挖掘操作实现。
对第三待分析会话行为数据进行第一关键行为内容挖掘操作包括对第三待分析会话行为数据中的每一个用户活动事件进行第一关键行为内容挖掘操作。通过对第三待分析会话行为数据中每一个用户活动事件进行第一关键行为内容挖掘操作,可挖掘出第三待分析会话行为数据中每一个用户活动事件的关键描述内容,并通过每一个用户活动事件的关键描述内容确定每一个用户活动事件的显性比较结果,得到涵盖每一个用户活动事件的显性比较结果的显性行为内容差异分布。其中,每一个用户活动事件的显性比较结果包括第一待分析会话行为数据和第二待分析会话行为数据中相同主题的用户活动事件之间的显性比较结果。
举例而言,第一待分析会话行为数据中的第一用户活动事件和第二待分析会话行为数据中的第二用户活动事件为相同主题的用户活动事件,通过对第一待分析会话行为数据和第二待分析会话行为数据进行第一关键行为内容挖掘操作,可确定第一用户活动事件与第二用户活动事件之间的第一显性比较结果。
步骤302,将上述显性行为内容差异分布作为更新指示对上述第一待分析会话行为数据进行更新操作,确定上述完成更新的第二待分析会话行为数据。
可以理解的是,将显性行为内容差异分布作为更新指示对第一待分析会话行为数据进行更新操作,可通过显性行为内容差异分布中涵盖的显性比较结果迁移第一待分析会话行为数据中的用户活动事件,使得完成迁移后的用户活动事件的显性定位结果与第二待分析会话行为数据中相同主题的用户活动事件的显性定位结果一致。鉴于第一待分析会话行为数据的行为热力评分大于第二待分析会话行为数据的行为热力评分,如此,通过迁移第一待分析会话行为数据中的用户活动事件使得完成迁移后的用户活动事件的显性定位结果与第二待分析会话行为数据的用户活动事件的显性定位结果一致,便相当于确定提高行为热力评分后的第二待分析会话行为数据,即完成更新的第二待分析会话行为数据。
在步骤301确定的显性行为内容差异分布中包含第一待分析会话行为数据和第二待分析会话行为数据中所有相同主题的用户活动事件的显性比较结果,因此在将显性行为内容差异分布作为更新指示对第一待分析会话行为数据进行更新操作时,可通过显性行为内容差异分布中每个用户活动事件的显性比较结果确定第一待分析会话行为数据中的相同主题的用户活动事件的更新指示,并使用该更新指示对第一待分析会话行为数据中的相同主题的用户活动事件进行更新操作。在完成对第一待分析会话行为数据中所有用户活动事件的更新操作后,即可确定完成更新的第二待分析会话行为数据。
可以理解的是,鉴于精准确定第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件相对困难,而同一组会话行为数据中的多个用户活动事件之间存在共性特征(关联性),比如,第一待分析会话行为数据中的用户活动事件event_A为数字空间购物事件,用户活动事件event_A关联的多个用户活动事件为数字空间购物事件的可能性相对较高,换言之,以用户活动事件event_A为参考事件的关联用户活动事件集内的用户活动事件为数字空间购物事件的可能性相对较高。因此在确定第一待分析会话行为数据中每个用户活动事件的更新指示后,可使用该更新指示对第一待分析会话行为数据中的关联用户活动事件集进行更新操作,以提高对第一待分析会话行为数据中的用户活动事件的显性定位结果的优化效果。
举例而言,如果在确定第一待分析会话行为数据中的用户活动事件event_A的更新指示为w后,使用更新指示w对以用户活动事件event_A为参考事件生成的关联用户活动事件集relwtion_event_b进行更新操作。这样在对关联用户活动事件集relwtion_event_b进行更新操作时可通过用户活动事件event_A与关联用户活动事件集relwtion_event_b中除用户活动事件event_A以外的用户活动事件之间的共性特征,以及用户活动事件event_B中除用户活动事件event_A之外的用户活动事件的显性定位结果信息优化用户活动事件event_A的显性定位结果,进而提高对用户活动事件event_A的显性定位结果的优化效果。本发明实施例中的关联用户活动事件集的规模可通过实际情况进行优化,本发明对此不进行限定。
对于一些可能的技术方案而言,通过对第二待分析会话行为数据中的用户活动事件与第一待分析会话行为数据中的关联用户活动事件集中的每一个用户活动事件之间的显性比较结果进行全局处理(加权求和处理),可确定第一待分析会话行为数据中的用户活动事件的更新指示。比如,第一待分析会话行为数据中的用户活动事件event_A与第二待分析会话行为数据中的用户活动事件event_B为相同主题的用户活动事件,第一待分析会话行为数据中以用户活动事件event_A为参考事件生成的关联用户活动事件集包括用户活动事件event_C、用户活动事件event_D。用户活动事件event_A与用户活动事件event_B的显性比较结果为Q1,用户活动事件event_B与用户活动事件event_C的显性比较结果为Q2,用户活动事件event_B与用户活动事件event_D的显性比较结果为Q3。用户活动事件event_B的重要程度系数为0.8,用户活动事件event_C的重要程度系数为0.6,用户活动事件event_D的重要程度系数为0.6,则在对第一关键行为内容和第二关键行为内容进行关键行为内容挖掘操作确定的显性行为内容差异分布中涵盖的用户活动事件event_A的显性比较结果为:0.8Q1+0.6Q2+0.6Q3。再通过显性行为内容差异分布中用户活动事件event_A的显性比较结果确定用户活动事件event_A的更新指示,并使用该更新指示对用户活动事件event_A进行更新操作以迁移用户活动事件event_A。
可以理解,上述通过显性行为内容差异分布确定第一待分析会话行为数据中的用户活动事件的更新指示的过程可通过AI网络模型(比如CNN、GCN、RNN等)实现。第二待分析会话行为数据中的用户活动事件在第一待分析会话行为数据中对应的关联用户活动事件集(如上述示例中用户活动事件event_B对应的关联用户活动事件集包括用户活动事件event_A、用户活动事件event_C、用户活动事件event_D)以及关联用户活动事件集中不同用户活动事件对应的重要程度系数皆可由AI网络模型确定。而AI网络模型从第一待分析会话行为数据中确定与第二待分析会话行为数据中的用户活动事件对应的关联用户活动事件集的性能以及确定关联用户活动事件集中不同用户活动事件的重要程度系数皆可通过对AI网络模型的调试确定,若在对AI网络模型的调试过程中以包含关联用户活动事件集的注释内容作为认证示例训练AI网络模型,本发明对AI网络模型的实际调试方式不做限定。
由于第一待分析会话行为数据中不同的用户活动事件相较于第二待分析会话行为数据中的相同主题的用户活动事件的显性比较结果可能不同,比如,第一待分析会话行为数据中的用户活动事件event_A与第二待分析会话行为数据中的用户活动事件event_B为相同主题的用户活动事件,第一待分析会话行为数据中的用户活动事件event_C与第二待分析会话行为数据中的用户活动事件event_D为相同主题的用户活动事件,用户活动事件event_A与用户活动事件event_B的显性比较结果为E1,用户活动事件event_C与用户活动事件event_D的显性比较结果为E2,其中,E1与E2不相等。本发明实施例示出的设计思路可通过显性行为内容差异分布中的显性比较结果分别为第一待分析会话行为数据中的每个用户活动事件确定一个更新指示,并通过确定的更新指示对第一待分析会话行为数据中的用户活动事件进行更新操作,以更新第一待分析会话行为数据中用户活动事件的显性定位结果。通过为不同的用户活动事件确定不同的更新指示,可通过优化第一待分析会话行为数据中用户活动事件的显性定位结果使第一待分析会话行为数据中的用户活动事件的显性定位结果与第二待分析会话行为数据中相同主题的用户活动事件的显性定位结果之间的偏移更小,进而使确定的完成更新的第二待分析会话行为数据与第一待分析会话行为数据之间的偏移更小。
本发明实施例通过对第一待分析会话行为数据和第二待分析会话行为数据进行关键行为内容挖掘操作,以确定包含第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果的显性行为内容差异分布。再通过显性行为内容差异分布中的显性比较结果为第一待分析会话行为数据中每个用户活动事件确定更新指示,并使用该更新指示对第一待分析会话行为数据中的用户活动事件进行更新操作,以更新第一待分析会话行为数据中用户活动事件的显性定位结果,这样能够降低完成更新操作后确定的完成更新的第二待分析会话行为数据与第一待分析会话行为数据之间的偏移。
当第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间存在潜在比较结果时,在通过迁移第一待分析会话行为数据中的用户活动事件确定完成更新的第二待分析会话行为数据的过程中,不仅需要优化第一待分析会话行为数据中的用户活动事件的显性定位结果,还需优化第一待分析会话行为数据中的用户活动事件的潜在定位结果。这样能够降低迁移第一待分析会话行为数据中的用户活动事件后确定的完成更新的第二待分析会话行为数据与第一待分析会话行为数据之间的偏移。
基于设计思路2提供的优化第一待分析会话行为数据中的用户活动事件的显性定位结果的思路,可以通过第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果和潜在比较结果为第一待分析会话行为数据中的每个用户活动事件确定一个2*2的更新指示,该2*2的更新指示包含第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果和潜在比较结果。使用该2*2的更新指示对第一待分析会话行为数据中对应的用户活动事件进行更新操作,可同时优化第一待分析会话行为数据中的用户活动事件的显性定位结果和潜在定位结果。
由于第一待分析会话行为数据涵盖的用户活动事件的数目较多,若通过一个2*2的更新指示对第一待分析会话行为数据中的一个用户活动事件进行更新操作以同时优化该用户活动事件的显性定位结果和潜在定位结果的方式优化第一待分析会话行为数据中所有用户活动事件的显性定位结果和潜在定位结果,将带来额外的大数据分析服务器的运算压力。为减小优化第一待分析会话行为数据中的用户活动事件的显性定位结果和潜在定位结果所需的大数据分析服务器的运算压力,本发明实施例通过为第一待分析会话行为数据中的每个用户活动事件确定两个1*1的更新指示,上述两个1*1的更新指示中的一个1*1的更新指示(后续将称为显性威胁更新指示)用于对第一待分析会话行为数据中的用户活动事件进行更新操作以优化第一待分析会话行为数据中的用户活动事件的显性定位结果,另一个1*1的更新指示(后续将称为潜在行为内容更新指示)用于对第一待分析会话行为数据中的用户活动事件进行更新操作以优化第一待分析会话行为数据中的用户活动事件的潜在定位结果。使用上述两个1*1的更新指示分别对第一待分析会话行为数据中的用户活动事件进行更新操作可优化第一待分析会话行为数据中的用户活动事件的显性定位结果和潜在定位结果。
对于一种可能的实施例而言,以下进一步说明怎样基于第一待分析会话行为数据和第二待分析会话行为数据确定显性威胁更新指示和潜在行为内容更新指示,以及怎样使用显性威胁更新指示和潜在行为内容更新指示对第一待分析会话行为数据中的用户活动事件进行更新操作,以确定完成更新的第二待分析会话行为数据。
本发明设计思路3提供的一种基于大数据分析的威胁行为分析方法的设计思路。
步骤601,确定疑似风险会话二元组,上述疑似风险会话二元组涵盖第一待分析会话行为数据和第二待分析会话行为数据,上述第一待分析会话行为数据的行为热力评分大于上述第二待分析会话行为数据的行为热力评分。
步骤601的实现过程可参阅步骤201,在此不进行说明。
步骤602,对上述第一待分析会话行为数据和上述第二待分析会话行为数据进行第一关键行为内容挖掘操作,确定显性行为内容差异分布,对上述第一待分析会话行为数据和所述第二待分析会话行为数据进行第二关键行为内容挖掘操作,确定潜在行为内容差异分布,上述显性行为内容差异分布包含上述第一待分析会话行为数据中的第一用户活动事件与上述第二待分析会话行为数据中的第二用户活动事件之间的显性比较结果,上述潜在行为内容差异分布包含上述第一用户活动事件与上述第二用户活动事件之间的潜在比较结果,上述第一用户活动事件与上述第二用户活动事件为相同主题的用户活动事件。
在本发明实施例中,步骤602中的第一关键行为内容挖掘操作可参阅步骤301。与第一关键行为内容挖掘操作相同第二关键行为内容挖掘操作也可以是关键描述提取操作,也可以是关键描述提取操作和关键描述翻译操作的组合。其中,关键描述提取操作可以是更新操作、下采样操作,关键描述翻译操作可以是关键内容精简操作、动态扩展操作、逆向滑动平均处理。
可以理解的是,虽然第一关键行为内容挖掘操作和第二关键行为内容挖掘操作涵盖的流程信息可以相同,但第一关键行为内容挖掘操作和第二关键行为内容挖掘操作可从第一待分析会话行为数据和第二待分析会话行为数据中挖掘出包含不同信息的关键行为内容。比如,GCN_A和GCN_B为架构相同但网络变量不同的GCN,使用GCN_A对第一待分析会话行为数据和第二待分析会话行为数据进行关键行为内容挖掘操作,可确定包含第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果的显性行为内容差异分布,使用GCN_B对第一待分析会话行为数据和第二待分析会话行为数据进行关键行为内容挖掘操作,可确定包含第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件之间的潜在比较结果的潜在行为内容差异分布。
步骤603,将上述显性行为内容差异分布和上述潜在行为内容差异分布分别作为更新指示对上述第一待分析会话行为数据进行更新操作,确定上述完成更新的第二待分析会话行为数据。
可以理解的是,在确定显性行为内容差异分布和潜在行为内容差异分布后,可分别使用显性行为内容差异分布和潜在行为内容差异分布作为更新指示对第一待分析会话行为数据进行更新操作,确定完成更新的第二待分析会话行为数据。
对于一些可能的技术方案而言,将显性行为内容差异分布作为更新指示对第一待分析会话行为数据进行更新操作,可确定第五待分析会话行为数据。将潜在行为内容差异分布作为更新指示对第五待分析会话行为数据进行更新操作,可确定完成更新的第二待分析会话行为数据。在另一种可能的设计思路中,将潜在行为内容差异分布作为更新指示对第一待分析会话行为数据进行更新操作,可确定第六待分析会话行为数据。将显性行为内容差异分布作为更新指示对第六待分析会话行为数据进行更新操作,可确定完成更新的第二待分析会话行为数据。
可以理解的是,基于上述内容,在使用显性行为内容差异分布对第一待分析会话行为数据进行更新操作时,可通过显性行为内容差异分布中的显性比较结果分别为第一待分析会话行为数据中每一个用户活动事件的关联用户活动事件集确定一个更新指示,并使用该更新指示对相应的关联用户活动事件集进行更新操作,以提高处理效果。本步骤中也可通过显性行为内容差异分布和潜在行为内容差异分布分别为第一待分析会话行为数据中每一个关联用户活动事件集确定一个显性威胁更新指示和潜在行为内容更新指示,再分别使用显性威胁更新指示和潜在行为内容更新指示对相应的关联用户活动事件集进行更新操作,确定完成更新的第二待分析会话行为数据。
可以理解的是,本发明实施例通过对显性行为内容差异分布和/或潜在行为内容差异分布进行优化操作,以使显性行为内容差异分布中的语义标签集在显性行为内容差异分布中的定位结果与第一待分析会话行为数据中的语义标签集在第一待分析会话行为数据中的定位结果一致和/或潜在行为内容差异分布中的语义标签集在潜在行为内容差异分布中的定位结果与第一待分析会话行为数据中的语义标签集在第一待分析会话行为数据中的定位结果一致,提高从第一待分析会话行为数据中划分出目标数据的精确性,进而提高通过显性行为内容差异分布确定的显性威胁更新指示涵盖的信息的精确性和/或通过潜在行为内容差异分布确定的潜在行为内容更新指示涵盖的信息的精确性。
可以理解的是,上述优化操作可以是具有指示功能的优化操作,即以第一待分析会话行为数据为参考型会话行为数据对显性行为内容差异分布和/或潜在行为内容差异分布进行优化操作,使显性行为内容差异分布中的语义标签集在显性行为内容差异分布中的定位结果与第一待分析会话行为数据中的语义标签集在第一待分析会话行为数据中的定位结果一致和/或潜在行为内容差异分布中的语义标签集在潜在行为内容差异分布中的定位结果与第一待分析会话行为数据中的语义标签集在第一待分析会话行为数据中的定位结果一致。
本发明实施例通过对第一待分析会话行为数据和第二待分析会话行为数据进行第二关键行为内容挖掘操作,确定包含第一待分析会话行为数据和第二待分析会话行为数据中相同主题的用户活动事件之间的潜在比较结果的潜在行为内容差异分布。使用潜在比较结果会话行为数据对第一待分析会话行为数据中的用户活动事件进行更新操作,可优化第一待分析会话行为数据中用户活动事件的潜在定位结果,以降低通过更新操作确定的完成更新的第二待分析会话行为数据与第一待分析会话行为数据之间的偏移。
如步骤602所描述的内容,第一关键行为内容挖掘操作涵盖的流程信息和第二关键行为内容挖掘操作涵盖的流程信息可以相同,如通过两个架构相同但参数不同的GCN分别实现第一关键行为内容挖掘操作和第二关键行为内容挖掘操作。第一关键行为内容挖掘操作涵盖的流程信息和第二关键行为内容挖掘操作涵盖的流程信息也可以不同,如通过两个架构不同的GCN分别实现第一关键行为内容挖掘操作和第二关键行为内容挖掘操作。为减小通过第一关键行为内容挖掘操作和第二关键行为内容挖掘操作从第一待分析会话行为数据和第二待分析会话行为数据中挖掘出显性行为内容差异分布和潜在行为内容差异分布的大数据分析服务器的运算压力,本发明实施例通过不低于两个关键描述提取操作与不低于两个关键描述翻译操作的方式从第一待分析会话行为数据和第二待分析会话行为数据中挖掘出第一过渡关键行为内容,再分别通过两个存在差异的“特征翻译子模块”对第一过渡关键行为内容进行关键行为内容挖掘操作,分别确定显性行为内容差异分布和潜在行为内容差异分布。其中,“特征翻译子模块”包括更新操作和关键描述翻译操作。
可以理解,本发明设计思路4提供一种对第一待分析会话行为数据和第二待分析会话行为数据进行第一关键行为内容挖掘操作确定显性行为内容差异分布以及对第一待分析会话行为数据和第二待分析会话行为数据进行第一关键行为内容挖掘操作确定潜在行为内容差异分布的方法的设计思路。
步骤701,对上述第一待分析会话行为数据和上述第二待分析会话行为数据进行组合操作,确定第三待分析会话行为数据。
本发明实施例中的组合操作可以是在状态层面上整合。比如,第一待分析会话行为数据的状态数为4,第二待分析会话行为数据的状态数为5,则将第一待分析会话行为数据与第二待分析会话行为数据组合确定的第三待分析会话行为数据的状态数为9。
步骤702,对上述第三待分析会话行为数据进行x层关键描述提取操作,确定第一过渡关键行为内容,x为正整数。
本发明实施例中,对第三待分析会话行为数据进行关键行为内容挖掘操作通过x层特征提取单元对第三待分析会话行为数据进行依次的关键描述提取操作实现。其中,每一层特征提取单元进行一层关键描述提取操作,且x层特征提取单元级联,即第1层特征提取单元的导出内容为第2层特征提取单元的原料,第2层特征提取单元的导出内容为第3层特征提取单元的原料,…,第x-1层特征提取单元的导出内容为第x层特征提取单元的原料,第x层特征提取单元的导出内容为过渡关键行为信息。其中,x为正整数。以上特征提取单元可以通过多种方式实现,比如更新操作、下采样操作等,本发明实施例对此不做限定。
步骤703,对上述过渡关键行为内容进行y层第一关键描述翻译操作确定第二过渡关键行为内容,对上述过渡关键行为内容进行y层第二关键描述翻译操作确定第三过渡关键行为内容。
本发明实施例中,第一关键描述翻译操作和第二关键描述翻译操作皆可通过y层特征还原单元实现,y为正整数。当y为不小于2的正整数时,第一关键描述翻译操作的y层特征还原单元中的前y-1层特征还原单元与第二关键描述翻译操作的y层特征还原单元中的前y-1层特征还原单元相同。举例而言,第一关键描述翻译操作包括第一层特征还原单元、第二层特征还原单元、第三层特征还原单元、第四层特征还原单元和第五层特征还原单元,第二关键描述翻译操作包括第一层特征还原单元、第二层特征还原单元、第三层特征还原单元、第四层特征还原单元和第六层特征还原单元。
本步骤中的关键描述翻译操作是步骤702中的关键描述提取操作的反向思路,通过y-1层特征还原单元对第一过渡关键行为内容进行依次的关键描述翻译操作,依次的扩展第一过渡关键行为内容的维度,得到关键描述翻译操作后的关键行为内容。其中,每一层特征还原单元进行一层关键描述翻译操作,且y-1层特征还原单元级联,基于上一层关键描述翻译操作的导出内容可确定下一层关键描述翻译操作的原料。即基于第1层特征还原单元的导出内容可确定第2层特征还原单元的原料,基于第2层特征还原单元的导出内容可确定第3层特征还原单元的原料,…,基于第y-2层特征还原单元的导出内容可确定第y-1层特征还原单元的原料。示例性的,当y为不小于2的正整数时,y-1等于x。
结合步骤702所述,通过特征提取单元对第三待分析会话行为数据进行关键描述提取操作从第三待分析会话行为数据中依次挖掘出关键内容的同时,也将删除第三待分析会话行为数据中一部分无关紧要的描述内容。
对于一些可能的技术方案而言,y为不小于2的正整数,且y-1等于x。通过将x层关键描述提取操作中的第u层关键描述提取操作生成的关键行为内容与所述y层第一关键描述翻译操作中的第v层第一关键描述翻译操作生成的关键行为内容合并,确定所述y层第一关键描述翻译操作中第v+1层第一关键描述翻译操作的原料,能够有助于提高每一层特征还原单元生成的关键行为内容中的细节化信息和语义标签集信息。可选的,上述第u层关键描述提取操作生成的关键行为内容的维度与第v层关键描述翻译操作生成的关键行为内容的维度一致。
由此可知,第一关键行为内容挖掘操作和第二关键行为内容挖掘操作皆可通过第1层特征还原单元、第2层特征还原单元、…、第y-1层特征还原单元对第一过渡关键行为内容进行关键描述翻译操作,这样减少大数据分析服务器的运算压力,提高威胁行为的识别效率。
步骤704,以上述第一待分析会话行为数据为参考型会话行为数据对上述第二过渡关键行为内容进行优化操作,使上述第二过渡关键行为内容中的语义标签集在上述第二过渡关键行为内容中的定位结果与上述第一待分析会话行为数据中的语义标签集在上述第一待分析会话行为数据中的定位结果一致,确定上述显性行为内容差异分布,以上述第一待分析会话行为数据为参考型会话行为数据对上述第三过渡关键行为内容进行优化操作,使上述第三过渡关键行为内容中的语义标签集在上述第三过渡关键行为内容中的定位结果与上述第一待分析会话行为数据中的语义标签集在上述第一待分析会话行为数据中的定位结果一致,确定上述潜在行为内容差异分布。本步骤的实现过程可参阅步骤603。
通过本发明实施例示出的设计思路对第一待分析会话行为数据和第二待分析会话行为数据进行第一关键行为内容挖掘操作和第二关键行为内容挖掘操作能够减少大数据分析服务器的运算压力,提高威胁行为的识别效率。
通过设计思路2至设计思路4示出的设计思路可基于第一待分析会话行为数据确定完成更新的第二待分析会话行为数据。进一步的,可基于第一待分析会话行为数据和完成更新的第二待分析会话行为数据确定包含第一待分析会话行为数据和完成更新的第二待分析会话行为数据的相同主题的用户活动事件之间的显性比较结果的威胁行为识别结果。对于一些可能的技术方案而言,确定第一用户活动事件与第一用户活动事件在完成更新的第二待分析会话行为数据中的相同主题的用户活动事件之间的第二显性比较结果,并可通过第二显性比较结果确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。
以下进一步说明怎样通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。本发明设计思路5示出步骤203的一种可能实施例。
步骤1001,分别对上述第一待分析会话行为数据和上述完成更新的第二待分析会话行为数据进行关键行为内容挖掘操作,确定上述第一待分析会话行为数据的第一关键行为内容和上述完成更新的第二待分析会话行为数据的第二关键行为内容。
与上述第一关键行为内容挖掘操作和第二关键行为内容挖掘操作相同,本发明实施例中对第一待分析会话行为数据和完成更新的第二待分析会话行为数据执行的关键行为内容挖掘操作可以是关键描述提取操作,也可以是关键描述提取操作和关键描述翻译操作的结合。其中,关键描述提取操作可以是更新操作、下采样操作,关键描述翻译操作可以是关键内容精简操作、动态扩展操作、逆向滑动平均处理。对第一待分析会话行为数据执行的关键行为内容挖掘操作和对第二待分析会话行为数据执行的关键行为内容挖掘操作可以相同也可以不同。
对于一些可能的技术方案而言,对第一待分析会话行为数据执行的关键行为内容挖掘操作和对完成更新的第二待分析会话行为数据执行的关键行为内容挖掘操作皆可通过不低于两个描述挖掘单元实现。即通过将第一待分析会话行为数据加载至上述不低于两个描述挖掘单元,实现对第一待分析会话行为数据的关键行为内容挖掘操作,并通过将完成更新的第二待分析会话行为数据加载至上述不低于两个描述挖掘单元,实现对完成更新的第二待分析会话行为数据的关键行为内容挖掘操作。可选的,上述不低于两个描述挖掘单元中描述挖掘单元的数目为6。
通过分别对第一待分析会话行为数据和完成更新的第二待分析会话行为数据进行关键行为内容挖掘操作,在精简第一待分析会话行为数据和完成更新的第二待分析会话行为数据的维度的同时,可从第一待分析会话行为数据中挖掘出第一关键行为内容,并从完成更新的第二待分析会话行为数据中挖掘出第二关键行为内容。如此,可以降低后期的大数据分析服务器的运算压力,提高威胁行为的识别效率。
步骤1002,通过上述第一关键行为内容和上述第二关键行为内容之间的共性特征,确定上述第一用户活动事件与上述第一用户活动事件在上述完成更新的第二待分析会话行为数据中的相同主题的用户活动事件之间的第二显性比较结果。
可以理解的是,共性特征包括第一关键行为内容中的特征与第二关键行为内容中的特征的关联系数,第一关键行为内容和第二关键行为内容之间的共性特征包括第一关键行为内容中的特征与第二关键行为内容中的特征之间的关联系数。通过第一关键行为内容中的特征和第二关键行为内容中的特征之间的配对指数,可确定第一关键行为内容和第二关键行为内容中的相同主题的用户活动事件,进而可通过第一关键行为内容和第二关键行为内容中的相同主题的用户活动事件之间的第二显性比较结果确定第一威胁行为识别结果。
对于一些可能的技术方案而言,第三用户活动事件在第一关键行为内容中的定位结果与第一用户活动事件在第一待分析会话行为数据中的定位结果一致,确定第三用户活动事件的特征与第二关键行为内容中的用户活动事件的特征之间的第一配对指数,挑选第二关键行为内容中第一配对指数较高的用户活动事件作为第三用户活动事件的相同主题的用户活动事件(以下将称为第四用户活动事件)。确定第三用户活动事件和第四用户活动事件之间的显性比较结果,确定第一威胁行为识别结果。
在一些可能的实施例中,第三用户活动事件和第四用户活动事件之间的显性比较结果即为第一用户活动事件与第一用户活动事件在完成更新的第二待分析会话行为数据中的相同主题的用户活动事件之间的第二显性比较结果。
可以理解的是,如步骤302所描述的内容,同一组会话行为数据中的多个用户活动事件之间存在共性特征,因此第一关键行为内容和第二关键行为内容之间的共性特征还包括第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的关键内容配对指数。而通过第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的关键内容配对指数确定第一威胁行为识别结果,可利用关联用户活动事件集涵盖的用户活动事件之间的共性特征,进而可提高确定的第一威胁行为识别结果的精确性。本发明实施例中的关联用户活动事件集的规模可通过实际情况进行优化,本发明对此不作限定。上述第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集的规模可以一致,也可以不一致。
在一种确定第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的关键内容配对指数的设计思路中,将第一关键行为内容中的关联用户活动事件集作为更新指示对第二关键行为内容中的关联用户活动事件集进行更新操作,确定第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的第一关键内容配对指数。通过第一关键内容配对指数的最大值确定第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的关键内容配对指数。在另一种确定第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的关键内容配对指数的设计思路中,将第二关键行为内容中的关联用户活动事件集作为更新指示对第一关键行为内容中的关联用户活动事件集进行更新操作,确定第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的第二关键内容配对指数。通过第一关键内容配对指数的最大值确定第一关键行为内容中的关联用户活动事件集与第二关键行为内容中的关联用户活动事件集之间的关键内容配对指数。可选的,上述第一关键行为内容中的关联用户活动事件集的大小与上述第二关键行为内容中的关联用户活动事件集的规模相等。
步骤1003,通过上述第二显性比较结果确定上述第一威胁行为识别结果。
在通过步骤1002确定第二显性比较结果后,即可通过第二显性比较结果确定第一威胁行为识别结果。
本发明实施例通过第一待分析会话行为数据的第一关键行为内容和完成更新的第二待分析会话行为数据的第二关键行为内容之间的共性特征,可确定第一关键行为内容与第二关键行为内容之间的威胁行为识别结果,即第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。而完成更新的第二待分析会话行为数据可通过设计思路1示出的设计思路和/或设计思路2示出的设计思路确定,因此,本发明实施例示出的设计思路在结合设计思路1示出的设计思路和/或设计思路2示出的设计思路后,可提高基于第一待分析会话行为数据和第二待分析会话行为数据确定的威胁行为识别结果的准确性和可靠性,即在利用本发明实施例示出的设计思路可在疑似风险会话二元组中的两组会话行为数据的行为热力评分不一致的前提下,提高基于疑似风险会话二元组确定的威胁行为识别结果的准确性和可靠性。
鉴于在步骤1001中对第一待分析会话行为数据和完成更新的第二待分析会话行为数据执行的关键行为内容挖掘操作可以是更新操作、下采样操作,而对第一待分析会话行为数据和完成更新的第二待分析会话行为数据执行更新操作或下采样操作皆会使第一待分析会话行为数据和完成更新的第二待分析会话行为数据的特征识别度减小。因此,通过设计思路5确定的第一威胁行为识别结果的特征识别度小于第一待分析会话行为数据的特征识别度(或完成更新的第二待分析会话行为数据的特征识别度)。基于此,本发明实施例还提供了一种提高第一威胁行为识别结果的特征识别度的技术方案,通过该技术方案可将第一威胁行为识别结果的特征识别度提高至与第一待分析会话行为数据的特征识别度相同(或与完成更新的第二待分析会话行为数据的特征识别度相同)。
在一种提高第一威胁行为识别结果的特征识别度的可能技术方案中,通过对第一威胁行为识别结果和第一关键行为内容进行关键描述提取操作,可确定第三关键行为内容。对第三关键行为内容进行关键描述翻译操作,可确定特征识别度大于第一威胁行为识别结果的特征识别度的第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第二威胁行为识别结果。
上述关键描述提取操作和关键描述翻译操作的设计思路可参见步骤702和步骤703,在此将不再赘述。进一步的,上述关键描述提取操作和关键描述翻译操作可通过提高特征识别度的GCN实现,通过对该提高特征识别度的GCN进行有标签化的调试,可使该提高特征识别度的GCN具备提高输入的会话行为数据的特征识别度的性能。
在上述提高第一威胁行为识别结果的特征识别度的可能技术方案中,对第一威胁行为识别结果和第一关键行为内容进行关键描述提取操作,确定第三关键行为内容,示例性的可以包括以下步骤:对第一关键行为内容和第一待分析会话行为数据进行组合操作,确定第四待分析会话行为数据。对第四待分析会话行为数据进行关键描述提取操作,确定上述第三关键行为内容。
可以理解,在对第一威胁行为识别结果和第一关键行为内容进行组合操作,确定第四待分析会话行为数据之前,可以对第一关键行为内容进行关键行为内容挖掘操作,在将第一关键行为内容的维度降低至与第一威胁行为识别结果的维度一致,同时挖掘出第一关键行为内容的特征,确定第一关键行为内容的第四关键行为内容。对第四关键行为内容和第一威胁行为识别结果进行组合操作,确定上述第四待分析会话行为数据。这样可减小后续对第四待分析会话行为数据进行处理所需的大数据分析服务器的运算压力,提高威胁行为的识别效率。
在确定完成更新的第二待分析会话行为数据后,可将完成更新的第二待分析会话行为数据和第一待分析会话行为数据加载至威胁行为识别子模型。完成更新的第二待分析会话行为数据和第一待分析会话行为数据加载至威胁行为识别子模型后,分别通过4层描述挖掘单元对完成更新的第二待分析会话行为数据和第一待分析会话行为数据进行更新操作,以实现分别对上述第一待分析会话行为数据和上述完成更新的第二待分析会话行为数据进行关键行为内容挖掘操作,确定上述第一待分析会话行为数据的第一关键行为内容和上述完成更新的第二待分析会话行为数据的第二关键行为内容。
为了将第一威胁行为识别结果的特征识别度提高至与第一待分析会话行为数据的特征识别度(或完成更新的第二待分析会话行为数据的特征识别度)相同,通过4层描述挖掘单元对第二关键行为内容进行处理后确定的第四关键行为内容,再将第四关键行为内容与第一威胁行为识别结果组合确定第四待分析会话行为数据。通过一层或多层特征提取单元对第四待分析会话行为数据进行处理确定第三关键行为内容,并经一层或多层特征还原单元对第三关键行为内容进行处理确定第二威胁行为识别结果。
可以理解的是,从设计思路1至设计思路5中可以看出,通过使用显性行为内容差异分布和/或潜在行为内容差异分布对第一待分析会话行为数据进行更新操作可确定完成更新的第二待分析会话行为数据。因此行为数据优化子模型是否能够基于第一待分析会话行为数据和第二待分析会话行为数据确定显性行为内容差异分布和潜在行为内容差异分布将决定行为数据优化子模型是否能够基于第一待分析会话行为数据和第二待分析会话行为数据确定完成更新的第二待分析会话行为数据。
显性行为内容差异分布包含第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间的显性比较结果,潜在行为内容差异分布包含第一待分析会话行为数据和第二待分析会话行为数据中的相同主题的用户活动事件之间的潜在比较结果。在设定条件下,显性行为内容差异分布中的显性比较结果应当与第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件的实际显性比较结果一致,潜在行为内容差异分布中的潜在比较结果应与第一待分析会话行为数据与第二待分析会话行为数据中的相同主题的用户活动事件的实际潜在比较结果一致。但由于确定的第一待分析会话行为数据和第二待分析会话行为数据之间的实际显性比较结果和实际潜在比较结果的难度很大,本发明实施例通过权衡第二待分析会话行为数据与完成更新的第二待分析会话行为数据之间的偏移的策略权衡行为数据优化子模型的模型性能。
由于完成更新的第二待分析会话行为数据的注意力维度与第二待分析会话行为数据的注意力维度相同,因此第二待分析会话行为数据中事件的主题的定位结果应与第二待分析会话行为数据中事件的主题的定位结果一致,第二待分析会话行为数据中事件的主题的定位结果与完成更新的第二待分析会话行为数据中事件的主题的定位结果之间的偏移越小,第二待分析会话行为数据与完成更新的第二待分析会话行为数据中相同定位结果的用户活动事件的差异就越小。为此,本发明实施例通过第二待分析会话行为数据与完成更新的第二待分析会话行为数据中相同定位结果的用户活动事件之间的偏移确定LOSS1。进而可以通过LOSS1指导行为数据优化子模型的调试,优化行为数据优化子模型的变量。对于一些可能的技术方案而言,通过权衡第二待分析会话行为数据与完成更新的第二待分析会话行为数据的量化数据(1-范数)可确定第二待分析会话行为数据与完成更新的第二待分析会话行为数据中相同定位结果的用户活动事件之间的偏移。
另外,第二待分析会话行为数据中事件的主题的定位结果与完成更新的第二待分析会话行为数据中事件的主题的定位结果之间的偏移越小,完成更新的第二待分析会话行为数据与第二待分析会话行为数据的变化程度不大。可选的,通过上述LOSS1和完成更新的第二待分析会话行为数据与第二待分析会话行为数据的变化程度可确定LOSS2,进而可以LOSS2指导行为数据优化子模型的调试,优化行为数据优化子模型的变量。
第二待分析会话行为数据中事件的主题的定位结果与完成更新的第二待分析会话行为数据中事件的主题的定位结果之间的偏移越小,第二待分析会话行为数据的会话行为数据类别与完成更新的第二待分析会话行为数据的会话行为数据类别的差异越小。可选的,可通过权衡第二待分析会话行为数据的会话行为数据类别与完成更新的第二待分析会话行为数据的会话行为数据类别之间的偏移确定LOSS3,通过LOSS2和LOSS3确定行为数据优化子模型的LOSS_T,并以LOSS_T指导行为数据优化子模型的调试,优化行为数据优化子模型的模型变量。对于一些可能的技术方案而言,通过权衡第二待分析会话行为数据的关键行为内容和完成更新的第二待分析会话行为数据的关键行为内容之间差异可确定第二待分析会话行为数据的会话行为数据类别与完成更新的第二待分析会话行为数据的会话行为数据类别之间的偏移。
本发明实施例还提供了一种威胁行为识别子模型的调试方法,通过权衡威胁行为识别子模型确定的第二威胁行为识别结果与实际威胁行为识别结果之间的偏移可确定威胁行为识别子模型的损失(后续将称为LOSS4)。上述实际威胁行为识别结果为第一待分析会话行为数据与第二待分析会话行为数据之间的实际威胁行为识别结果。
示例性的,上述相关的损失指标包括特征识别度,第二威胁行为识别结果在第x个损失指标下的会话行为数据包括将第二威胁行为识别结果的特征识别度优化至与第x个特征识别度相同确定的会话行为数据,同理,实际威胁行为识别结果在第x个损失指标下的会话行为数据包括将第二威胁行为识别结果的特征识别度优化至与第x个特征识别度相同确定的会话行为数据。确定LOSS4后,可基于LOSS4优化威胁行为识别子模型的模型变量。
本发明实施例提供了一种会话二元组处理模型,通过该会话二元组处理模型可基于第一待分析会话行为数据和第二待分析会话行为数据确定完成更新的第二待分析会话行为数据,并可基于完成更新的第二待分析会话行为数据和第一待分析会话行为数据确定第二威胁行为识别结果。本发明实施例还提供了一种会话二元组处理模型的调试方法,通过对会话二元组处理模型进行调试可提高会话二元组处理模型的性能,进而减小确定的完成更新的第二待分析会话行为数据与第二待分析会话行为数据之间的偏移,提高第二威胁行为识别结果的准确性和可靠性。
在一些可独立实施的设计思路下,在确定所述第一待分析会话行为数据与所述完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果之后,该方法还可以包括以下内容:通过所述第一威胁行为识别结果确定数据防护策略,激活所述数据防护策略。
举例而言,在确定得到数据防护策略之后,可以根据上述待分析会话行为数据对应的会话业务端进行针对性的数据防护策略激活,比如在服务器侧和/或会话业务端侧部署数据防护策略。
在一些可独立实施的设计思路下,通过所述第一威胁行为识别结果确定数据防护策略,可以包括以下内容:根据所述第一威胁行为识别结果确定防护线程激活的目标攻击应对方案,以及确定与所述目标攻击应对方案存在关联记录的多个待使用攻击应对方案;每个所述待使用攻击应对方案对应至少一种所述关联记录,所述多个待使用攻击应对方案对应多种所述关联记录;识别所述目标攻击应对方案的防御事项描述,得到第一防御事项描述,并识别每个所述待使用攻击应对方案的防御事项描述,得到第二防御事项描述;基于所述第一防御事项描述和所述第二防御事项描述,确定多个待激活攻击应对方案队列;每个待激活攻击应对方案队列中包含所述多个待使用攻击应对方案中的至少部分待使用攻击应对方案,且每个待激活攻击应对方案队列对应至少一种关联记录;在所述多个待激活攻击应对方案队列中确定匹配时效条件的目标待激活攻击应对方案队列,并将所述目标待激活攻击应对方案队列中的待使用攻击应对方案确定为所述目标攻击应对方案的数据防护策略。如此设计,通过考虑待使用攻击应对方案以及防御事项描述,能够扩大数据防护策略的选取范围,从而保障得到的数据防护策略的完整性,此外,由于考虑了时效条件,因而能够保障数据防护策略在实施过程中的及时性,从而实现精准高效的数据防护。
在一些可独立实施的设计思路下,所述基于所述第一防御事项描述和所述第二防御事项描述,确定多个待激活攻击应对方案队列,包括:确定每个所述关联记录对应的包含多个待使用攻击应对方案的原始攻击应对方案队列;基于所述第一防御事项描述和所述第二防御事项描述,确定每个所述待使用攻击应对方案在各个所述原始攻击应对方案队列中的标记分数;基于所述标记分数删除每个所述原始攻击应对方案队列中不匹配分数条件的待使用攻击应对方案,并根据删除后的每个所述原始攻击应对方案队列确定所述多个待激活攻击应对方案队列。如此设计,可以保障待激活攻击应对方案队列的精简程度,减少后续的处理资源开销。
基于同样的发明构思,图2示出了本发明实施例提供的的一种基于大数据分析的威胁行为分析装置的模块框图,一种基于大数据分析的威胁行为分析装置可以包括实施图1所示的相关方法步骤的如下模块。
风险会话确定模块21,用于确定疑似风险会话二元组,上述疑似风险会话二元组涵盖第一待分析会话行为数据和第二待分析会话行为数据,上述第一待分析会话行为数据的行为热力评分大于所述第二待分析会话行为数据的行为热力评分。
会话行为更新模块22,用于通过第一待分析会话行为数据和第二待分析会话行为数据,确定完成更新的第二待分析会话行为数据,完成更新的第二待分析会话行为数据的注意力约束条件与第二待分析会话行为数据的注意力约束条件一致,完成更新的第二待分析会话行为数据的行为热力评分大于第二待分析会话行为数据的行为热力评分。
威胁行为识别模块23,用于通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据,确定第一待分析会话行为数据与完成更新的第二待分析会话行为数据之间的第一威胁行为识别结果。
应用于本发明的相关实施例可以达到如下技术效果:通过第一待分析会话行为数据和第二待分析会话行为数据确定完成更新的第二待分析会话行为数据,使第一待分析会话行为数据的行为热力评分与完成更新的第二待分析会话行为数据的行为热力评分之间的偏移小于第一待分析会话行为数据的行为热力评分与第二待分析会话行为数据的行为热力评分。进而保障通过第一待分析会话行为数据和完成更新的第二待分析会话行为数据确定的第一威胁行为识别结果的准确性和可靠性优于通过第一待分析会话行为数据和第二待分析会话行为数据确定的威胁行为识别结果的准确性和可靠性,这样一来,能够通过有限的待分析会话行为数据尽可能精准可信地实现威胁行为识别处理,从而提高威胁行为的识别效率,减少大数据分析服务器的运算压力。
以上所述,仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式,可想到变化或替换,都应涵盖在本申请的保护范围之内。