CN115470504B - 结合人工智能的数据风险分析方法及服务器 - Google Patents
结合人工智能的数据风险分析方法及服务器 Download PDFInfo
- Publication number
- CN115470504B CN115470504B CN202211168872.XA CN202211168872A CN115470504B CN 115470504 B CN115470504 B CN 115470504B CN 202211168872 A CN202211168872 A CN 202211168872A CN 115470504 B CN115470504 B CN 115470504B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- risk
- behavior
- session data
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种结合人工智能的数据风险分析方法及服务器,可以借助第二风险行为映射知识关联于第一风险行为映射知识的映射传递特征将第一潜在风险行为知识中匹配于伪风险会话行为的目标潜在风险行为知识区分出来,并过滤掉待分析业务会话数据中的目标潜在风险行为知识,从而在依据过滤掉了目标潜在风险行为知识的第一潜在风险行为知识进行行为风险防护时,减少伪风险会话行为的潜在风险行为知识对行为风险防护的准确性和可靠性产生的噪声,提升行为风险防护准确性和行为风险防护可靠性。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种结合人工智能的数据风险分析方法及服务器。
背景技术
数据安全性是指在数字信息的整个生命周期中保护数字信息不受未经授权的访问、损坏或盗窃。这个概念涵盖了信息安全的各个方面,从硬件和存储设备的物理安全到管理和访问控制,以及软件应用程序的逻辑安全。
近年来,随着数字经济和信息产业的蓬勃发展,5G、大数据、人工智能、区块链等技术不断落地应用。新业态新技术在推动经济转型升级的同时,数据规模不断扩大,数据风险日益凸显,防范数据安全风险、构建数据安全保护体系成为各方共识。
发明内容
本发明提供一种结合人工智能的数据风险分析方法及服务器,为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种结合人工智能的数据风险分析方法,应用于数据风险分析服务器,所述方法至少包括:获得待分析业务会话数据中的第一潜在风险行为知识、以及所述待分析业务会话数据对应的模板会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识;将所述第一潜在风险行为知识映射到指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识,并将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识;依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识;从所述待分析业务会话数据过滤掉所述目标潜在风险行为知识,得到经知识预处理的目标业务会话数据。
应用于上述实施例,可以借助第二风险行为映射知识关联于第一风险行为映射知识的映射传递特征将第一潜在风险行为知识中匹配于伪风险会话行为的目标潜在风险行为知识区分出来,并过滤掉待分析业务会话数据中的目标潜在风险行为知识,从而在依据过滤掉了目标潜在风险行为知识的第一潜在风险行为知识进行行为风险防护时,减少伪风险会话行为的潜在风险行为知识对行为风险防护的准确性和可靠性产生的噪声,提升行为风险防护准确性和行为风险防护可靠性。
在一些可选的实施例中,所述获得待分析业务会话数据中的第一潜在风险行为知识、以及所述待分析业务会话数据对应的模板会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识之前,所述方法还包括:依据设定抽取要求,为所述待分析业务会话数据确定所述模板会话数据。
在一些可选的实施例中,所述依据设定抽取要求,为所述待分析业务会话数据确定所述模板会话数据,包括:判断当前的活跃会话数据是否达到所述设定抽取要求;在所述活跃会话数据达到所述设定抽取要求的基础上,将所述活跃会话数据作为所述模板会话数据;在所述活跃会话数据没有达到所述设定抽取要求的基础上,将第一数字服务交互数据确定为所述模板会话数据;其中,所述第一数字服务交互数据包括:数字签名时刻先于所述待分析业务会话数据、且与所述待分析业务会话数据的数字签名时刻的间歇最小的业务会话数据。
在一些可选的实施例中,所述方法还包括:在所述活跃会话数据没有达到所述设定抽取要求的基础上,将所述待分析业务会话数据确定为新增的活跃会话数据;所述新增的活跃会话数据用于对后一组待分析业务会话数据进行会话数据处理。
应用于上述实施例,确保了模板会话数据和待分析业务会话数据之间的信息在达到优化的基础上,尽可能地避免数据集中化,从而实现针对伪风险会话行为的知识过滤准确性。
在一些可选的实施例中,所述设定抽取要求包括以下一种或多种:所述待分析业务会话数据和所述活跃会话数据的整理优先级之间的优先级差小于设定的优先级判定值;所述活跃会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识的数目达到设定数目限值;所述待分析业务会话数据对应的第一采集状态特征与所述活跃会话数据对应的第二采集状态特征之间的余弦距离小于设定的余弦距离限值。
应用于上述实施例,待分析业务会话数据和模板会话数据的整理优先级之间的优先级差小于设定的优先级判定值,确保了在待分析业务会话数据和模板会话数据中存在充足数目能够配对的第一潜在风险行为知识和第二潜在风险行为知识,以便更好地将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中抽样出来;将具有配对的第一潜在风险行为知识的第二潜在风险行为知识数目达到设定数目限值的业务会话数据作为待分析业务会话数据的模板会话数据,能够更加全面的将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中抽样出来;在待分析业务会话数据对应的第一采集状态特征和模板会话数据对应的第二采集状态特征之间的余弦距离小于设定的余弦距离限值的基础上,能够保证待分析业务会话数据和模板会话数据中携带基本一致的会话行为事件,确保了能够从待分析业务会话数据中确定数目充足的第一潜在风险行为知识。
在一些可选的实施例中,所述将所述第一潜在风险行为知识映射到指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识,包括:依据数据采集线程在获得所述模板会话数据时在目标会话进程中的分布标签、以及所述数据采集线程在获得所述待分析业务会话数据时在所述目标会话进程中的第一线程配置变量,确定所述数据采集线程在获得所述待分析业务会话数据时的初始状态字段;依据所述初始状态字段,将所述第一潜在风险行为知识映射到所述指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识。
应用于上述实施例,假设数据采集线程在采集待分析业务会话数据时,相对于数据采集线程在采集模板会话数据时,仅存在线程配置的变化,而在目标会话进程中的状态字段不变,进而,可以依据数据采集线程在获得模板会话数据时在目标会话进程中的分布标签、以及数据采集线程在获得待分析业务会话数据时在目标会话进程中的第一线程配置变量,确定数据采集线程在获得待分析业务会话数据时的初始状态字段,这样,借助该假设条件将待分析业务会话数据中的第一潜在风险行为知识映射到指定知识特征空间,鉴于该过程只假设对数据采集线程的线程配置进行了调整,而不考虑数据采集线程的状态字段,这样可以减少第一风险行为映射知识和第二风险行为映射知识之间的映射关系复杂度,减少服务器运算的资源开销。
在一些可选的实施例中,所述将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识,包括:依据所述数据采集线程在获得所述模板会话数据时的第二状态字段,将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识。
在一些可选的实施例中,所述依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识,包括:依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,确定从所述第二风险行为映射知识关联于所述第一风险行为映射知识的映射传递特征;依据所述映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识。
应用于上述实施例,能够借助映射传递特征,反映不同的风险会话行为的不同潜在风险行为知识分别对应的映射传递特征的变化是否类似,进而将目标潜在风险行为知识从第一潜在风险行为知识中抽样出来。
在一些可选的实施例中,所述依据所述映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识,包括:在第1个循环处理阶段,根据所述映射传递特征的尺度变量,对多个所述第一潜在风险行为知识分别对应的映射传递特征进行整理;依据整理的结果、以及设定过滤比值,从所述映射传递特征中确定所述第1个循环处理阶段的目标映射传递特征;在第X个循环处理阶段,判断是否达到设定的循环结束要求;如果达到,则依据第X-1个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识;X为正整数;所述循环结束要求包括以下一种或多种:循环处理阶段的数目不小于设定数目;当前循环处理阶段确定的平均尺度变量、和前一循环处理阶段确定的平均尺度变量之间的差小于设定的尺度变量限值。
在一些可选的实施例中,还包括:在所述第X个循环处理阶段,如果判定没有达到所述循环结束要求,则依据第X-1个循环处理阶段确定的目标映射传递特征,确定平均尺度变量;依据各个映射传递特征的尺度变量与所述平均尺度变量之间的偏移、以及所述设定过滤比值,确定第X个循环处理阶段的目标映射传递特征;在第X+1个循环处理阶段,判断是否达到所述循环结束要求;如果达到,则依据第X个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识。
应用于上述实施例,通过上述多个循环处理阶段的处理,使得平均尺度变量尽可能趋于稳定,这样可以精准地将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中抽样出来。
在一些可选的实施例中,还包括:依据所述第一潜在风险行为知识中除所述目标潜在风险行为知识外的候选潜在风险行为知识、所述模板会话数据中与所述候选潜在风险行为知识配对的第三潜在风险行为知识、以及数据采集线程在获得所述模板会话数据的第二状态字段,确定所述数据采集线程在获得所述待分析业务会话数据时的最终状态字段;其中,所述第二潜在风险行为知识包括所述第三潜在风险行为知识。
应用于上述实施例,可以实现对数据采集线程在获得待分析业务会话数据时的状态信息进行改进,得到的最终状态字段具有更高的准确性,从而确保行为风险防护的准确性。
在一些可选的实施例中,还包括:根据所述最终状态字段,将所述第三潜在风险行为知识再次映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识;依据所述第三风险行为映射知识在所述待分析业务会话数据中的窗口向量、以及所述候选潜在风险行为知识在所述待分析业务会话数据中的窗口向量,确定知识变换偏移;依据所述知识变换偏移,确定新的设定过滤比值;其中,所述新的设定过滤比值用于对后一组待分析业务会话数据进行会话数据处理。
在一些可选的实施例中,所述根据所述最终状态字段,将所述第三潜在风险行为知识再次映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识,包括:根据所述最终状态字段,确定所述待分析业务会话数据对应的第一数据特征空间、与所述指定知识特征空间对应的第二数据特征空间之间的特征迁移指示;依据所述特征迁移指示,将所述第三潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识。
应用于上述实施例,依据当前循环处理阶段对待分析业务会话数据的知识过滤结果进行知识变换偏移运算,确定后一组待分析业务会话数据的过滤比值,从而能够进一步的将匹配于伪风险会话行为对应的目标潜在风险行为知识从后续的业务会话数据中挑选出来,减少鉴于伪风险会话行为存在所导致的行为风险防护偏移在多组待分析业务会话数据中进行叠加。
应用于上述实施例,通过调整后一组待分析业务会话数据的设定过滤比值,从而能够进一步的将匹配于伪风险会话行为对应的目标潜在风险行为知识从后续的业务会话数据中挑选出来,提高后续风险防护处理的准确性。
第二方面是一种数据风险分析服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述数据风险分析服务器执行第一方面的方法。
第三方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
附图说明
图1为本发明实施例提供的结合人工智能的数据风险分析方法的流程示意图。
图2为本发明实施例提供的结合人工智能的数据风险分析装置的模块框图。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的结合人工智能的数据风险分析方法的流程示意图,结合人工智能的数据风险分析方法可以通过数据风险分析服务器实现,数据风险分析服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述数据风险分析服务器执行如下步骤所描述的技术方案。
步骤101、获得待分析业务会话数据中的第一潜在风险行为知识、以及所述待分析业务会话数据对应的模板会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识。
在本发明实施例中,待分析业务会话数据包括但不限于现有的数字支付业务交互数据、智慧办公业务交互数据、虚拟现实业务交互数据等。第一潜在风险行为知识可以理解为待分析业务会话数据中的第一潜在风险行为特征/第一潜在风险行为特征点/第一潜在风险行为特向量;而第二潜在风险行为知识可以理解为第一潜在风险行为知识与待分析业务会话数据对应的目标参考会话数据(即模板会话数据)匹配的潜在风险行为特征。其中,潜在风险行为知识可以基于专家系统进行知识特征挖掘得到,用于反映相关风险行为的表现特性或者显著内容等。
步骤102、将所述第一潜在风险行为知识映射到指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识,并将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识。
在本发明实施例中,指定知识特征空间可以是基于现有的AI技术搭建的向量空间,用于进行相关特征向量的映射处理/分析处理等。可以理解,知识映射可以理解为传统的向量映射或者向量投影,示例性的映射实现方式可以参阅相关技术。
步骤103、依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识。
在本发明实施例中,知识分布描述信息可以理解为所述第一风险行为映射知识和所述第二风险行为映射知识之间的对应关系或者相对位置关系,比如在指定知识特征空间中的空间位置分布等。进一步地,伪风险会话行为可以是一些较为特殊的会话行为,这类会话行为所表现出的行为特征与风险会话行为的行为特征类似,但是这类会话行为本质上是正常的、不存在风险的会话行为,比如频繁访问行为、数据下载/修改行为等。换言之,伪风险会话行为可以理解为噪声会话行为,该噪声是相对于真实的风险会话行为而定的。
步骤104、从所述待分析业务会话数据过滤掉所述目标潜在风险行为知识,得到经知识预处理的目标业务会话数据。
在本发明实施例中,可以从所述待分析业务会话数据过滤掉所述目标潜在风险行为知识,比如对目标潜在风险行为知识进行隐藏处理或者直接删除与目标潜在风险行为知识对应的相关数据集,又比如对目标潜在风险行为知识对应的相关数据集进行噪声标注处理。
本发明实施例通过将待分析业务会话数据中的第一潜在风险行为知识、以及模板会话数据中与第一潜在风险行为知识对应的第二潜在风险行为知识分别映射到指定知识特征空间,得到第一潜在风险行为知识在指定知识特征空间中的第一风险行为映射知识和第二潜在风险行为知识在指定知识特征空间中的第二风险行为映射知识;然后依据第二风险行为映射知识与第一风险行为映射知识的知识分布描述信息,从第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识,并将伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识过滤掉从而能够依据伪风险会话行为与真实风险会话行为对应的潜在风险行为知识在指定知识特征空间中的变化差异性,将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中过滤掉,减少伪风险会话行为的潜在风险行为知识对行为风险防护的准确性和可靠性产生的噪声,提升行为风险防护准确性和行为风险防护可靠性。
可以理解的是,对于以上步骤101而言,在实际实施时,待分析业务会话数据比如可以为在依据专家决策算法进行行为风险防护时获得的任一组数字服务交互数据、或者对目标会话进程进行数据采集获得的数字服务交互日志(可以理解为现有技术中的一系列服务会话数据集)中确定的任一组业务会话数据。
举例而言,在获得待分析业务会话数据时,比如可以借助数据采集线程(比如但不限于现有技术中的数据爬虫、数据采集机器人等)对目标会话进程进行数据采集得到目标会话进程的数字服务交互日志,并从数字服务交互日志涵盖的数字服务交互数据中确定待分析业务会话数据。
进一步地,目标会话进程可以根据会话数据处理应用的实时会话进程进行确定;举例而言,目标会话进程可以包括:跨境电商进程、在线办公进程、元宇宙交互进程等中的任一种。
在对目标会话进程进行数字服务交互日志采集时,比如可以借助设置在目标会话进程中的数据采集线程,也可以借助能够在目标会话进程内数据采集模块中设置的数据采集线程获得目标会话进程的数字服务交互日志。进一步地,在获得了目标会话进程的数字服务交互日志后,可以逐一将每组数字服务交互数据作为待分析业务会话数据,并在数字服务交互日志中确定待分析业务会话数据的模板会话数据;其中,为待分析业务会话数据确定的模板会话数据(可以理解为参考会话数据),通常数字签名时刻先于待分析业务会话数据的数字服务交互数据。进一步地,数字签名时刻可以理解为但不限于传统技术中的时间戳。
此外,获得目标会话进程的数字服务交互日志的过程和确定待分析业务会话数据,并对待分析业务会话数据进行会话数据处理的过程可以同时,也可以不同时;如果将两个过程同时进行,则可以在获得目标会话进程的数字服务交互日志的同时,从获得的数字服务交互数据中确定待分析业务会话数据。如果将两个过程不同时进行,可以先获得数字服务交互日志,在获得数字服务交互日志后,再从获得的数字服务交互日志中确定待分析业务会话数据。
对于一种可能的实施例而言,待分析业务会话数据对应的模板会话数据,比如可以通过如下思路获取:依据设定抽取要求(比如预设的筛选条件),为所述待分析业务会话数据确定所述模板会话数据。
对于一种可能的实施例而言,本发明实施例提供一种依据设定抽取要求,为所述待分析业务会话数据确定所述模板会话数据的具体实施步骤可以包括步骤201-步骤203所记录的内容。
步骤201、判断当前的活跃会话数据是否达到所述设定抽取要求。
步骤202、在所述活跃会话数据达到所述设定抽取要求的基础上,将所述活跃会话数据作为所述模板会话数据。
步骤203、在所述活跃会话数据没有达到所述设定抽取要求的基础上,将第一数字服务交互数据确定为所述模板会话数据。
进一步地,所述第一数字服务交互数据可以包括:数字签名时刻先于所述待分析业务会话数据、且与所述待分析业务会话数据的数字签名时刻的间歇最小的业务会话数据。在本发明实施例中,活跃会话数据可以理解为关键会话数据/关注度较高的会话数据。
此外,在所述活跃会话数据没有达到所述设定抽取要求的基础上,该方法还可以包括如下步骤204:将所述待分析业务会话数据确定为新增的活跃会话数据。进一步地,所述新增的活跃会话数据用于对后一组待分析业务会话数据进行会话数据处理。
在实际实施时,在对一段数字服务交互日志中的各组业务会话数据进行处理时,比如可以将数字服务交互日志中的第一组数字服务交互数据确定为当前的活跃会话数据,其次对于数字服务交互日志中的第二组数字服务交互数据,判断该当前的活跃会话数据(第一组数字服务交互数据)是否达到设定抽取要求;确定达到设定抽取要求,将该当前的活跃会话数据作为第二组数字服务交互数据的模板会话数据,并借助该模板会话数据对第二组数字服务交互数据进行处理。
进一步地,针对数字服务交互日志中的第三组数字服务交互数据,判断该当前的活跃会话数据(第一组数字服务交互数据)是否达到设定抽取要求;确定达到设定抽取要求,将该当前的活跃会话数据作为第三组数字服务交互数据的模板会话数据,并借助该模板会话数据对第三组数字服务交互数据进行处理。
如此,逐一对第四组-第八组数字服务交互数据进行处理,当前的活跃会话数据(第一组数字服务交互数据)均能够达到设定抽取要求,因此,使用当前的活跃会话数据(第一组数字服务交互数据)对第四组-第八组数字服务交互数据进行处理。
针对数字服务交互日志中的第九组数字服务交互数据,判断该当前的活跃会话数据(第一组数字服务交互数据)是否达到设定抽取要求;该当前的活跃会话数据(第一组数字服务交互数据)没有达到设定抽取要求,则将第八组数字服务交互数据作为第九组数字服务交互数据的模板会话数据,并借助该模板会话数据(第八组数字服务交互数据)对第九组数字服务交互数据进行处理。将第九组数字服务交互数据作为新增的活跃会话数据。
针对数字服务交互日志中的第十组数字服务交互数据,判断该当前的活跃会话数据(第九组数字服务交互数据)是否达到设定抽取要求;确定达到设定抽取要求,将该当前的活跃会话数据作为第十组数字服务交互数据的模板会话数据,并借助该模板会话数据对第十组数字服务交互数据进行处理。
循环上述步骤,直到数字服务交互日志中需进行处理的全部数字服务交互数据都完成会话数据处理过程。
在以上流程中,在判断当前的活跃会话数据是否达到所述设定抽取要求时,是在依据时间先后顺序的业务会话数据集合中,从数字签名时刻,向量空间以及持续分析精度等三个层面,依据潜在风险行为知识持续分析的结果,确定是否达到设定抽取要求。
在本发明实施例中,设定的抽取要求包括但不限于以下思路A、思路B、思路C中的至少一种。
思路A:所述待分析业务会话数据和所述活跃会话数据的整理优先级之间的优先级差小于设定的优先级判定值。
进一步地,根据数据采集线程采集目标会话进程所获得的数字服务交互日志中各组数字服务交互数据的先后顺序为每一阶段采集目标会话进程的数字服务交互数据进行整理,得到各组数字服务交互数据的整理优先级。举例而言,数据采集线程间隔0.03Seconds采集一次目标会话进程,从处理阶段NO1起始为每一阶段的数字服务交互数据设置整理优先级,比如:处理阶段NO1的数字服务交互数据的整理优先级为“p1”,处理阶段NO2的数字服务交互数据的整理优先级为“p2”,处理阶段NO3的数字服务交互数据的整理优先级为“p3”等,逐一推算,处理阶段NO20的数字服务交互数据的整理优先级就是“p20”,处理阶段NO20的数字服务交互数据的整理优先级与处理阶段NO1的数字服务交互数据的整理优先级的之间的差可以为“p19”。
如果待分析业务会话数据和当前的活跃会话数据的整理优先级之间的优先级差小于设定的优先级判定值,则将该当前的活跃会话数据作为模板会话数据,这样确保了在待分析业务会话数据和模板会话数据中存在充足数目能够配对的第一潜在风险行为知识和第二潜在风险行为知识,以便更好地将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中抽样出来,此外,在将目标潜在风险行为知识从第一潜在风险行为知识抽样出来后,能够更加全面的借助第一潜在风险行为知识中剩余第一潜在风险行为知识对待分析业务会话数据进行后期的处理,比如:风险等级预测、行为风险防护处理等。
思路B:所述活跃会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识的数目达到设定数目限值。
举例而言,在对待分析业务会话数据进行潜在风险行为知识提取,得到待分析业务会话数据中的潜在风险行为知识,并对模板会话数据进行潜在风险行为知识提取,得到模板会话数据中的潜在风险行为知识后,还会对待分析业务会话数据中的潜在风险行为知识和模板会话数据中的潜在风险行为知识进行配对。确定待分析业务会话数据中的第一潜在风险行为知识、和在模板会话数据中能够与第一潜在风险行为知识配对成功的第二潜在风险行为知识。第一潜在风险行为知识和第二潜在风险行为知识配对完成,比如第一潜在风险行为知识和第二潜在风险行为知识表征相同风险会话行为中的同一潜在风险行为知识。如果当前的活跃会话数据中与第一潜在风险行为知识配对的第二潜在风险行为知识的数目达到设定数目限值,则将当前的活跃会话数据作为模板会话数据,以便更好地将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中抽样出来。
比如,对待分析业务会话数据中进行关键内容挖掘得到的潜在风险行为知识包括:Knowledge_a_1-Knowledge_a_100;对当前的活跃会话数据进行关键内容挖掘得到的潜在风险行为知识包括Knowledge_b_1-Knowledge_b_200。假设设定数目限值为50。
一方面,如果能够从Knowledge_a_1-Knowledge_a_100中为Knowledge_b_1-Knowledge_b_200中的至少50个潜在风险行为知识确定配对的潜在风险行为知识,则将当前的活跃会话数据作为待分析业务会话数据的模板会话数据。
另一方面,如果无法从Knowledge_a_1-Knowledge_a_100中,为Knowledge_b_1-Knowledge_b_200中的至少50个潜在风险行为知识确定配对的潜在风险行为知识,则无法将当前的活跃会话数据作为待分析业务会话数据的模板会话数据。
思路C:所述待分析业务会话数据对应的第一采集状态特征与所述活跃会话数据对应的第二采集状态特征之间的余弦距离小于设定的余弦距离限值。
在本发明实施例中,在待分析业务会话数据对应的第一采集状态特征(比如数据采集标准特征,包括但不限于采集时段、采集模式、采集对象的数据特征表现等)和模板会话数据对应的第二采集状态特征之间的余弦距离小于设定的余弦距离限值的基础上,能够保证待分析业务会话数据和模板会话数据中携带基本一致的会话行为事件,确保了能够从待分析业务会话数据中确定数目充足的第一潜在风险行为知识。
举例而言,在确定模板会话数据时,可以将第一组业务会话数据直接设为第一组模板交互数据。如果待分析业务会话数据和该第一组模板交互数据的间歇大于设定限值,比如所述待分析业务会话数据和所述该第一组模板交互数据之间的业务会话数据间隔数目大于限值,则将待分析业务会话数据设为新增的模板交互数据;所述待分析业务会话数据的第一潜在风险行为知识和第一组模板交互数据之间的第二潜在风险行为知识的成功配对的数目小于数目限值,将待分析业务会话数据设为新增的模板交互数据;待分析业务会话数据对应的第一采集状态特征与第一组活跃会话数据对应的第二采集状态特征之间的余弦距离不小于设定的余弦距离限值,将待分析业务会话数据设为新增的模板交互数据。
在本发明实施例中,第一潜在风险行为知识为对待分析业务会话数据进行潜在风险行为知识挖掘操作得到的在待分析业务会话数据中的潜在风险行为知识;其中,第一潜在风险行为知识可以包括:目标会话进程中的真实风险会话行为的显著风险行为特征和/或伪风险会话行为的潜在风险行为知识,比如:可以通过卷积神经网络等知识挖掘策略挖掘第一业务会话数据中的第一潜在风险行为知识。
在本发明实施例中,模板会话数据可以为数据采集线程在以往操作阶段采集目标会话进程得到的业务会话数据,第二潜在风险行为知识为对模板会话数据进行潜在风险行为知识挖掘处理得到的在模板会话数据中,且与第一潜在风险行为知识配对的潜在风险行为知识。第二潜在风险行为知识的挖掘思路与第一潜在风险行为知识的挖掘思路类似,本发明实施例在此不作过多描述。模板会话数据的第二潜在风险行为知识通过特征挖掘所得,而第一潜在风险行为知识比如可以通过知识分析策略(比如:用于对行为知识进行持续性分析的算法,可以基于级联的现有神经网络实现)来分析待分析业务会话数据的当前活跃会话数据来获得。
举例而言,目标会话进程中存在一个真实风险会话行为“隐私信息窃取”和一个伪风险会话行为“DDOS攻击”,该“隐私信息窃取”上存在三个显著风险行为特征Salientfeatures_A、显著风险行为特征Salient features_B、显著风险行为特征Salientfeatures_C,该“DDOS攻击”上存在两个显著风险行为特征Salient features_D、显著风险行为特征Salient features_E;则待分析业务会话数据中存在“隐私信息窃取”的显著风险行为特征Salient features_A对应的第一潜在风险行为知识A0,显著风险行为特征Salient features_B对应的第一潜在风险行为知识B0,显著风险行为特征Salientfeatures_C对应的第一潜在风险行为知识C0,存在“DDOS攻击”的显著风险行为特征Salient features_D对应的第一潜在风险行为知识D0,显著风险行为特征Salientfeatures_E对应的第一潜在风险行为知识E0;模板会话数据中存在“隐私信息窃取”的显著风险行为特征Salient features_A对应的第二潜在风险行为知识A10,显著风险行为特征Salient features_B对应的第二潜在风险行为知识B10,显著风险行为特征Salientfeatures_C对应的第二潜在风险行为知识C10,存在“DDOS攻击”的显著风险行为特征Salient features_D对应的第二潜在风险行为知识D10,显著风险行为特征Salientfeatures_E对应的第二潜在风险行为知识E10;第一潜在风险行为知识A0和第二潜在风险行为知识A10都用来表征目标会话进程中“隐私信息窃取”的显著风险行为特征Salientfeatures_A,第一潜在风险行为知识B0和第一潜在风险行为知识B10都用来表征目标会话进程中“隐私信息窃取”的显著风险行为特征Salient features_B,第一潜在风险行为知识C0和第一潜在风险行为知识C10都用来表征目标会话进程中“隐私信息窃取”显著风险行为特征Salient features_C,第一潜在风险行为知识D0和第一潜在风险行为知识D10都用来表征目标会话进程中“DDOS攻击”的显著风险行为特征Salient features_D,第一潜在风险行为知识E0和第一潜在风险行为知识E10都用来表征目标会话进程中“DDOS攻击”的显著风险行为特征Salient features_E。
此外,如果在对当前的待分析业务会话数据进行会话数据处理之前,已经对其模板会话数据进行了会话数据处理的过程,换言之,在以往的操作阶段中,已经将模板会话数据作为待分析业务会话数据进行过会话数据处理,鉴于已经对模板会话数据进行关键内容挖掘操作,可以在历史阶段中对模板会话数据进行关键内容挖掘处理得到的潜在风险行为知识进行记录;在当前的处理阶段,可以仅对当前的待分析业务会话数据进行关键内容挖掘处理;从事先记录的数据中,读取模板会话数据的潜在风险行为知识,然后将待分析业务会话数据的潜在风险行为知识和模板会话数据的潜在风险行为知识进行配对,确定第一潜在风险行为知识和第二潜在风险行为知识。
对于以上步骤102而言,指定知识特征空间可以是在目标会话进程对应的会话进程向量空间中事先确定的多维特征空间。
进一步地,在对同一组待分析业务会话数据进行会话数据处理时,一般只确定一个指定知识特征空间;存在差异的待分析业务会话数据可以对应存在差异的指定知识特征空间。
在目标会话进程中确定了指定知识特征空间后,指定知识特征空间在目标会话进程对应的会话进程向量空间中的实际状态信息就已经确定,换言之,能够确定会话进程向量空间与指定知识特征空间之间的特征迁移指示(比如:特征转换关系)。在数据采集线程获得待分析业务会话数据时在目标会话进程中的初始状态字段(比如数据采集线程在目标会话进程中的部署位置、部署方式等状态)、以及获得模板会话数据时在目标会话进程中的第二状态字段确定的基础上,便能够将第一潜在风险行为知识映射到指定知识特征空间,得到第一潜在风险行为知识在指定知识特征空间中的第一风险行为映射知识(可以理解为风险行为映射点),并将第二潜在风险行为知识映射到指定知识特征空间,得到第二潜在风险行为知识在指定知识特征空间中的第二风险行为映射知识。
本发明实施例在将第一潜在风险行为知识映射到指定知识特征空间时,为待分析业务会话数据确定的初始状态字段,是一个评估状态信息。在确定该初始状态字段时,假设数据采集线程在采集待分析业务会话数据时,相较于数据采集线程在采集模板会话数据时,仅存在线程配置的变化,而在目标会话进程中的状态字段不变,进而可以依据数据采集线程在获得模板会话数据时在目标会话进程中的分布标签、以及数据采集线程在获得待分析业务会话数据时在目标会话进程中的第一线程配置变量,确定数据采集线程在获得待分析业务会话数据时的初始状态字段。然后依据初始状态字段将第一潜在风险行为知识映射到指定知识特征空间,得到第一潜在风险行为知识在指定知识特征空间中的第一风险行为映射知识。
在本发明实施例中,数据采集线程在获得待分析业务会话数据时在目标会话进程中的第一线程配置变量,比如:可以通过与数据采集线程对应的线程共享服务器的配置参数确定。
此外,鉴于已经在以往的操作阶段中,确定了数字签名时刻先于待分析业务会话数据的其他业务会话数据的状态字段,由此,在将数字签名时刻先于待分析业务会话数据的其他其中一组业务会话数据作为待分析业务会话数据的模板会话数据时,数据采集线程获得模板会话数据时的第二状态字段是已知的。这时,可以依据所述数据采集线程在获得所述模板会话数据时的第二状态字段,将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识。基于此,第二状态字段,是对模板会话数据进行最终状态信息评估后得到的与模板会话数据对应的状态字段;举例而言,若后期处理过程中,将当前待分析业务会话数据作为模板会话数据,则模板会话数据的第二状态字段比如可以为当前待分析业务会话数据的最终状态字段。
可以理解的是,在确定了数据采集线程获得模板会话数据时的第二状态字段后,能够依据该第二状态字段,将第二潜在风险行为知识映射到指定知识特征空间,得到第二潜在风险行为知识在指定知识特征空间中的第二风险行为映射知识。
举例而言,本发明实施例以依据初始状态字段,将第一潜在风险行为知识映射到指定知识特征空间为例:依据指定知识特征空间在会话进程向量空间(比如进程对应的特征空间)下的状态字段,以及初始状态字段,确定数据采集线程和指定知识特征空间之间的相对状态字段;然后依据该相对状态字段、以及数据采集线程的采集规则,确定指定知识特征空间和数据采集线程在获得待分析业务会话数据时的数据特征空间之间的特征迁移指示,然后根据该特征迁移指示,将第一潜在风险行为知识映射到指定知识特征空间中。
可以理解的是,将第二潜在风险行为知识映射到指定知识特征空间的实施流程与第一潜在风险行为知识映射到指定知识特征空间的实施流程相似,本发明实施例在此不作进一步描述。
对于以上步骤103而言,在从第一潜在风险行为知识确定匹配于伪风险会话行为的目标潜在风险行为知识时,比如可以通过如下思路实现:依据第一风险行为映射知识和第二风险行为映射知识之间的知识分布描述信息,确定从第二风险行为映射知识关联于第一风险行为映射知识的映射传递特征;依据映射传递特征,从第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识。
进一步地,知识分布描述信息可以是依据数据采集线程在获得模板会话数据和数据采集线程获得待分析业务会话数据时的状态变化产生的,对于真实潜在风险行为知识而言,在数据采集线程发生状态变化时,不同的真实潜在风险行为知识在指定知识特征空间的风险行为映射知识的状态字段变化类似;而对于伪潜在风险行为知识而言,在数据采集线程状态发生变化时,一般而言,伪潜在风险行为知识在指定知识特征空间的风险行为映射知识的状态字段、与真实潜在风险行为知识在指定知识特征空间的风险行为映射知识的状态字段不一致,换言之,可以借助不同潜在风险行为知识在指定知识特征空间中的变化区别,从第一潜在风险行为知识中确定目标潜在风险行为知识。
举例而言,真实风险会话行为对应的风险行为映射知识的状态字段是数据采集线程的关联状态字段(比如具有反向标识的状态字段);伪风险会话行为对应的风险行为映射知识的状态字段是数据采集线程的关联状态字段、以及在数据采集线程状态变化的过程中伪风险会话行为本身的状态字段累计后的状态字段。
以下为本发明实施例提供的一种指定知识特征空间第一风险行为映射知识与第二风险行为映射知识的映射传递特征的思路,第一风险行为映射知识Mapping knowledge_A对应有配对的第二风险行为映射知识Mapping knowledge_A0,第一风险行为映射知识Mapping knowledge_B有配对的第二风险行为映射知识Mapping knowledge_B0,第一风险行为映射知识Mapping knowledge_C有配对的第二风险行为映射知识Mapping knowledge_C0,第一风险行为映射知识Mapping knowledge_D有配对的第二风险行为映射知识Mappingknowledge_D0,第一风险行为映射知识Mapping knowledge_E有配对的第二风险行为映射知识Mapping knowledge_E0。其中,映射传递特征可以是从第二风险行为映射知识关联于第一风险行为映射知识的向量。
进一步地,第一风险行为映射知识Mapping knowledge_A、第一风险行为映射知识Mapping knowledge_B、第一风险行为映射知识Mapping knowledge_C、以及第一风险行为映射知识Mapping knowledge_D均为真实风险会话行为对应的风险行为映射知识;第一风险行为映射知识Mapping knowledge_E为伪风险会话行为的风险行为映射知识;可以理解的是,第二风险行为映射知识Mapping knowledge_A0至第一风险行为映射知识Mappingknowledge_A的映射传递特征、第二风险行为映射知识Mapping knowledge_B0至第一风险行为映射知识Mapping knowledge_B的映射传递特征、第二风险行为映射知识Mappingknowledge_C0至第一风险行为映射知识Mapping knowledge_C的映射传递特征、第二风险行为映射知识Mapping knowledge_D0至第一风险行为映射知识Mapping knowledge_D的映射传递特征D的维度和指向具有类似的变化;第二风险行为映射知识Mapping knowledge_E0至第一风险行为映射知识Mapping knowledge_E的映射传递特征则与上述映射传递特征的维度和指向皆不一致。
对于一种可能的实施例而言,在依据映射传递特征,从第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识时,比如可以通过如下思路实现,具体可以包括步骤301-步骤303所记录的内容。
步骤301、在第1个循环处理阶段,根据所述映射传递特征的尺度变量,对多个所述第一潜在风险行为知识分别对应的映射传递特征进行整理。
步骤302、依据整理的结果、以及设定过滤比值,从所述映射传递特征中确定所述第1个循环处理阶段的目标映射传递特征。
步骤303、在第X个循环处理阶段,判断是否达到设定的循环结束要求;如果达到,则依据第X-1个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识;X为正整数。
进一步地,所述循环结束要求包括以下一种或多种:循环处理阶段的数目不小于设定数目;当前循环处理阶段确定的平均尺度变量、和前一循环处理阶段确定的平均尺度变量之间的差小于设定的尺度变量限值。
此外,所述方法还可以包括如下步骤401和步骤402。
步骤401、在所述第X个循环处理阶段,如果判定没有达到所述循环结束要求,则依据第X-1个循环处理阶段确定的目标映射传递特征,确定平均尺度变量;依据各个映射传递特征的尺度变量与所述平均尺度变量之间的偏移、以及所述设定过滤比值,确定第X个循环处理阶段的目标映射传递特征。
步骤402、在第X+1个循环处理阶段,判断是否达到所述循环结束要求;如果达到,则依据第X个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识。
在实际实施时,匹配于真实风险会话行为的所述映射传递特征值鉴于数据采集线程的更新而得到,在指定知识特征空间上的指向和尺度变量都相同,而匹配于伪风险会话行为的目标映射传递特征一并组合成了数据采集线程的运行特征,在所述指定知识特征空间上的指向和尺度变量会显著区别于真实风险会话行为的映射传递特征,依据此差别,通过以上思路,可以从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识。
在本发明实施例中,在第1个循环处理阶段中,在依据整理的结果、以及设定过滤比值,从所述映射传递特征中确定所述第1个循环处理阶段的目标映射传递特征时,比如,可以根据尺度变量通过降序的方式,将映射传递特征进行整理。之后,根据设定过滤比值,根据尺度变量通过降序的方式,从多个映射传递特征中过滤掉尺度变量较长的多个映射传递特征,剩余的映射传递特征可以理解为第1个循环处理阶段确定的目标映射传递特征。
在第X个循环处理阶段中,如果判定达到所述循环结束要求,则在依据第X-1个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识时,比如,可以从多个第一潜在风险行为知识中,确定目标映射传递特征对应的第一潜在风险行为知识,将目标映射传递特征对应的第一潜在风险行为知识,从待分析业务会话数据中的多个第一潜在风险行为知识中过滤掉,剩下的其他第一潜在风险行为知识可以理解为目标潜在风险行为知识。
在一种可能的实施例中,在第X个循环处理阶段中,如果判定没有达到所述循环结束要求,则在依据各个映射传递特征的尺度变量与所述平均尺度变量之间的偏移、以及所述设定过滤比值,确定第X个循环处理阶段的目标映射传递特征时,比如可以通过如下思路实现:依据各个映射传递特征的尺度变量与平均尺度变量之间的偏移通过降序的方式,对各个映射传递特征进行整理。之后,根据设定过滤比值,根据偏移通过降序的方式,从多个映射传递特征中过滤掉偏移较大的多个映射传递特征,剩余的映射传递特征可以理解为第X个循环处理阶段确定的目标映射传递特征。
此外,设定的过滤比值可以是事先确定的,也可以是上一处理阶段对其他的待分析业务会话数据进行会话数据处理的过程中确定的。其中,在设定的过滤比值为依据上一阶段对其他的待分析业务会话数据进行会话数据处理过程中确定的情况,可结合如下内容。
比如,第一潜在风险行为知识有50个,所形成的映射传递特征共50个;设定过滤比值为0.2。实施以下循环处理阶段。
(1):在第1个循环处理阶段:根据50个映射传递特征的尺度变量,对50个映射传递特征进行整理。
根据设定过滤比值,根据尺度变量(向量模)通过降序的方式,从50个映射传递特征中过滤掉尺度变量较长的10个映射传递特征,剩余的40个映射传递特征可以理解为第1个循环处理阶段确定的目标映射传递特征。
(2):在第2个循环处理阶段:判断没有达到设定的循环结束要求。
依据第1个循环处理阶段确定的40个目标映射传递特征,确定平均尺度变量,并确定50个映射传递特征的尺度变量与所述平均尺度变量之间的偏移。
依据50个映射传递特征的尺度变量分别与平均尺度变量之间的偏移通过降序的方式,对50个映射传递特征进行整理。
然后,根据偏移通过降序的方式,从50个映射传递特征中过滤掉偏移较大的10个映射传递特征,剩余的40个映射传递特征可以理解为第2个循环处理阶段确定的目标映射传递特征。
(3):在第3个循环处理阶段:判断没有达到设定的循环结束要求。
依据第2个循环处理阶段确定的40个目标映射传递特征,确定平均尺度变量,并确定50个映射传递特征的尺度变量与所述平均尺度变量之间的偏移。
依据50个映射传递特征的尺度变量分别与平均尺度变量之间的偏移通过降序的方式,对50个映射传递特征进行整理。
然后,根据偏移通过降序的方式,从50个映射传递特征中过滤掉偏移较大的10个映射传递特征,剩余的40个映射传递特征可以理解为第3个循环处理阶段确定的目标映射传递特征。
以此类推,直至实施到循环处理节点NO.s。
(n):在第s个循环处理阶段:判断达到设定的循环结束要求。
根据第(s-1)个循环处理阶段确定的40个目标映射传递特征,从多个第一潜在风险行为知识中,确定目标映射传递特征对应的40个第一潜在风险行为知识,将目标映射传递特征对应的40个第一潜在风险行为知识,从待分析业务会话数据中的50个第一潜在风险行为知识中过滤,剩下的其他10个第一潜在风险行为知识可以理解为目标潜在风险行为知识。
通过上述多个循环处理阶段的处理,使得平均尺度变量尽可能趋于稳定,这样可以精准地将匹配于伪风险会话行为的目标潜在风险行为知识从第一潜在风险行为知识中抽样出来。
在本发明另一实施例提供的结合人工智能的数据风险分析方法中,还可以包括如下内容:依据所述第一潜在风险行为知识中除所述目标潜在风险行为知识外的候选潜在风险行为知识、所述模板会话数据中与所述候选潜在风险行为知识配对的第三潜在风险行为知识、以及数据采集线程在获得所述模板会话数据的第二状态字段,确定所述数据采集线程在获得所述待分析业务会话数据时的最终状态字段。进一步地,所述第二潜在风险行为知识包括所述第三潜在风险行为知识。
如此,可以实现对数据采集线程在获得待分析业务会话数据时的状态信息进行改进,得到的最终状态字段具有更高的准确性,从而确保行为风险防护的准确性。
在本发明另一实施例中,为了削弱伪风险会话行为存在后期操作阶段中对待分析业务会话数据的行为风险防护可靠性造成干扰,本发明实施例还可以依据当前循环处理阶段对待分析业务会话数据的知识过滤结果进行知识变换偏移运算(知识变换误差计算),确定后一组待分析业务会话数据的设定过滤比值,从而能够进一步的将匹配于伪风险会话行为对应的目标潜在风险行为知识从后续的业务会话数据中挑选出。
在一些实施例中,在得到待分析业务会话数据的最终状态字段后,还可以包括如下内容:根据所述最终状态字段,将所述第三潜在风险行为知识再次映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识;依据所述第三风险行为映射知识在所述待分析业务会话数据中的窗口向量、以及所述候选潜在风险行为知识在所述待分析业务会话数据中的窗口向量,确定知识变换偏移;依据所述知识变换偏移,确定新的设定过滤比值;其中,所述新的设定过滤比值用于对后一组待分析业务会话数据进行会话数据处理。
举例而言,如果知识变换偏移小于设定的误尺度变量限值,表明当前的待分析业务会话数据中存在伪风险会话行为的概率较低,可以相应缩减后一组待分析业务会话数据的设定过滤比值,或者维持后一组待分析业务会话数据的设定过滤比值不变。如果知识变换偏移不小于设定的误尺度变量限值,表明当前的待分析业务会话数据中存在伪风险会话行为的概率较高,可以相应增大后一组待分析业务会话数据的设定过滤比值,从而能够在对后一组待分析业务会话数据进行处理时,更充分的将匹配于伪风险会话行为的潜在风险行为知识过滤掉。
在一些示例中,在根据最终状态字段,将第三潜在风险行为知识再次映射到待分析业务会话数据中,得到第三潜在风险行为知识在待分析业务会话数据中的第三风险行为映射知识时,比如可以根据所述最终状态字段,确定所述待分析业务会话数据对应的第一数据特征空间、与所述指定知识特征空间对应的第二数据特征空间之间的特征迁移指示;依据所述特征迁移指示,将所述第三潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识。
在一些可独立实施的实施例中,在得到经知识预处理的目标业务会话数据之后,该方法还可以包括如下内容:利用决策树算法对所述目标业务会话数据进行风险回归分析,得到数据风险回归分析结果;基于所述数据风险回归分析结果确定目标防护机制;利用所述目标防护机制进行大数据防护处理。
举例而言,风险回归分析可以理解为进行数据风险预测处理,目标防护机制可以是一系列的数据风险防控方案/策略,比如现有的拦截机制、身份验证流程、数据匿名处理等,在此不作限制。这样可以通过目标防护机制进行针对性的大数据防护处理,从而提高数据风险防护准确性和数据风险防护可靠性。
在一些可独立实施的实施例中,利用决策树算法对所述目标业务会话数据进行风险回归分析,得到数据风险回归分析结果,可以包括如下内容:将所述目标业务会话数据加载至已训练完成的决策树算法中的风险偏好解析分支,得到所述风险偏好解析分支输出的所述目标业务会话数据的第一风险偏好向量和第二风险偏好向量,其中,所述风险偏好解析分支包括互相连接的若干个向量挖掘节点,所述第一风险偏好向量是所述互相连接的若干个向量挖掘节点中的处末尾节点之外的向量挖掘节点输出的风险偏好向量,所述第二风险偏好向量是所述互相连接的若干个向量挖掘节点中的末尾向量挖掘节点输出的风险偏好向量;将所述第二风险偏好向量加载至所述已训练完成的决策树算法中的第一回归分析分支,得到所述第一回归分析分支输出的初始预测结果;将所述第一风险偏好向量、所述第二风险偏好向量和第三风险偏好向量以及所述初始预测结果加载至所述已训练完成的决策树算法中的第二回归分析分支,得到所述第二回归分析分支输出的数据风险回归分析结果,其中,所述第三风险偏好向量是所述第一回归分析分支中的向量挖掘节点根据可调向量输出的风险偏好向量,所述可调向量是对所述第二风险偏好向量进行随机组合得到的向量。
可以理解的是,第一回归分析分支对应于初步预测分支,第二回归分析分支对应于二次预测分支,基于此,能够通过两轮预测分析准确得到数据风险回归分析结果,提高风险预测的准确性和可靠性。
基于同样的发明构思,图2示出了本发明实施例提供的结合人工智能的数据风险分析装置的模块框图,结合人工智能的数据风险分析装置可以包括实施图1所示的相关方法步骤的知识处理模块21,用于:获得待分析业务会话数据中的第一潜在风险行为知识、以及所述待分析业务会话数据对应的模板会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识;将所述第一潜在风险行为知识映射到指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识,并将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识;噪声优化模块22,用于依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识;从所述待分析业务会话数据过滤掉所述目标潜在风险行为知识,得到经知识预处理的目标业务会话数据。
应用于本发明的相关实施例可以达到如下技术效果:可以借助第二风险行为映射知识关联于第一风险行为映射知识的映射传递特征将第一潜在风险行为知识中匹配于伪风险会话行为的目标潜在风险行为知识区分出来,并过滤掉待分析业务会话数据中的目标潜在风险行为知识,从而在依据过滤掉了目标潜在风险行为知识的第一潜在风险行为知识进行行为风险防护时,减少伪风险会话行为的潜在风险行为知识对行为风险防护的准确性和可靠性产生的噪声,提升行为风险防护准确性和行为风险防护可靠性。
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种结合人工智能的数据风险分析方法,其特征在于,应用于数据风险分析服务器,所述方法至少包括:
获得待分析业务会话数据中的第一潜在风险行为知识、以及所述待分析业务会话数据对应的模板会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识;
将所述第一潜在风险行为知识映射到指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识,并将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识;
依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识;
从所述待分析业务会话数据过滤掉所述目标潜在风险行为知识,得到经知识预处理的目标业务会话数据;
所述依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,从所述第一潜在风险行为知识中确定匹配于伪风险会话行为的目标潜在风险行为知识,包括:
依据所述第一风险行为映射知识和所述第二风险行为映射知识之间的知识分布描述信息,确定从所述第二风险行为映射知识关联于所述第一风险行为映射知识的映射传递特征;
依据所述映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识;
所述依据所述映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识,包括:
在第1个循环处理阶段,根据所述映射传递特征的尺度变量,对多个所述第一潜在风险行为知识分别对应的映射传递特征进行整理;
依据整理的结果、以及设定过滤比值,从所述映射传递特征中确定所述第1个循环处理阶段的目标映射传递特征;
在第X个循环处理阶段,判断是否达到设定的循环结束要求;
如果达到,则依据第X-1个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识;X为正整数;所述循环结束要求包括以下一种或多种:循环处理阶段的数目不小于设定数目;当前循环处理阶段确定的平均尺度变量、和前一循环处理阶段确定的平均尺度变量之间的差小于设定的尺度变量限值;
其中,所述方法还包括:在所述第X个循环处理阶段,如果判定没有达到所述循环结束要求,则依据第X-1个循环处理阶段确定的目标映射传递特征,确定平均尺度变量;依据各个映射传递特征的尺度变量与所述平均尺度变量之间的偏移、以及所述设定过滤比值,确定第X个循环处理阶段的目标映射传递特征;在第X+1个循环处理阶段,判断是否达到所述循环结束要求;如果达到,则依据第X个循环处理阶段确定的目标映射传递特征,从所述第一潜在风险行为知识中确定匹配于所述伪风险会话行为的目标潜在风险行为知识;
其中,所述方法还包括:依据所述第一潜在风险行为知识中除所述目标潜在风险行为知识外的候选潜在风险行为知识、所述模板会话数据中与所述候选潜在风险行为知识配对的第三潜在风险行为知识、以及数据采集线程在获得所述模板会话数据的第二状态字段,确定所述数据采集线程在获得所述待分析业务会话数据时的最终状态字段;其中,所述第二潜在风险行为知识包括所述第三潜在风险行为知识;
其中,所述方法还包括:根据所述最终状态字段,将所述第三潜在风险行为知识再次映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识;依据所述第三风险行为映射知识在所述待分析业务会话数据中的窗口向量、以及所述候选潜在风险行为知识在所述待分析业务会话数据中的窗口向量,确定知识变换偏移;依据所述知识变换偏移,确定新的设定过滤比值;其中,所述新的设定过滤比值用于对后一组待分析业务会话数据进行会话数据处理;
其中,所述根据所述最终状态字段,将所述第三潜在风险行为知识再次映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识,包括:根据所述最终状态字段,确定所述待分析业务会话数据对应的第一数据特征空间、与所述指定知识特征空间对应的第二数据特征空间之间的特征迁移指示;依据所述特征迁移指示,将所述第三潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识映射到所述待分析业务会话数据中,得到所述第三潜在风险行为知识在所述待分析业务会话数据中的第三风险行为映射知识。
2.根据权利要求1所述的结合人工智能的数据风险分析方法,其特征在于,所述获得待分析业务会话数据中的第一潜在风险行为知识、以及所述待分析业务会话数据对应的模板会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识之前,所述方法还包括:依据设定抽取要求,为所述待分析业务会话数据确定所述模板会话数据。
3.根据权利要求2所述的结合人工智能的数据风险分析方法,其特征在于,所述依据设定抽取要求,为所述待分析业务会话数据确定所述模板会话数据,包括:
判断当前的活跃会话数据是否达到所述设定抽取要求;
在所述活跃会话数据达到所述设定抽取要求的基础上,将所述活跃会话数据作为所述模板会话数据;
在所述活跃会话数据没有达到所述设定抽取要求的基础上,将第一数字服务交互数据确定为所述模板会话数据;
其中,所述第一数字服务交互数据包括:数字签名时刻先于所述待分析业务会话数据、且与所述待分析业务会话数据的数字签名时刻的间歇最小的业务会话数据。
4.根据权利要求3所述的结合人工智能的数据风险分析方法,其特征在于,所述方法还包括:
在所述活跃会话数据没有达到所述设定抽取要求的基础上,将所述待分析业务会话数据确定为新增的活跃会话数据;所述新增的活跃会话数据用于对后一组待分析业务会话数据进行会话数据处理。
5.根据权利要求4所述的结合人工智能的数据风险分析方法,其特征在于,所述设定抽取要求包括以下一种或多种:
所述待分析业务会话数据和所述活跃会话数据的整理优先级之间的优先级差小于设定的优先级判定值;
所述活跃会话数据中与所述第一潜在风险行为知识配对的第二潜在风险行为知识的数目达到设定数目限值;
所述待分析业务会话数据对应的第一采集状态特征与所述活跃会话数据对应的第二采集状态特征之间的余弦距离小于设定的余弦距离限值。
6.根据权利要求1所述的结合人工智能的数据风险分析方法,其特征在于,所述将所述第一潜在风险行为知识映射到指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识,包括:
依据数据采集线程在获得所述模板会话数据时在目标会话进程中的分布标签、以及所述数据采集线程在获得所述待分析业务会话数据时在所述目标会话进程中的第一线程配置变量,确定所述数据采集线程在获得所述待分析业务会话数据时的初始状态字段;
依据所述初始状态字段,将所述第一潜在风险行为知识映射到所述指定知识特征空间,得到所述第一潜在风险行为知识在所述指定知识特征空间中的第一风险行为映射知识。
7.根据权利要求1所述的结合人工智能的数据风险分析方法,其特征在于,所述将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识,包括:依据所述数据采集线程在获得所述模板会话数据时的第二状态字段,将所述第二潜在风险行为知识映射到所述指定知识特征空间,得到所述第二潜在风险行为知识在所述指定知识特征空间中的第二风险行为映射知识。
8.一种数据风险分析服务器,其特征在于,包括:存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述数据风险分析服务器执行如权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211168872.XA CN115470504B (zh) | 2022-09-25 | 2022-09-25 | 结合人工智能的数据风险分析方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211168872.XA CN115470504B (zh) | 2022-09-25 | 2022-09-25 | 结合人工智能的数据风险分析方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115470504A CN115470504A (zh) | 2022-12-13 |
CN115470504B true CN115470504B (zh) | 2023-07-14 |
Family
ID=84334693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211168872.XA Active CN115470504B (zh) | 2022-09-25 | 2022-09-25 | 结合人工智能的数据风险分析方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470504B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451787B (zh) * | 2023-02-16 | 2023-12-26 | 阿里巴巴(中国)有限公司 | 内容风险识别方法、装置、系统及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114546975A (zh) * | 2022-03-07 | 2022-05-27 | 潍坊凯智计算机科技有限公司 | 一种结合人工智能的业务风险处理方法及服务器 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4249995B2 (ja) * | 2003-02-05 | 2009-04-08 | 東京海上日動火災保険株式会社 | 車輌の運行状況監視システム及びその構成装置、運行状況監視方法及びコンピュータプログラム |
US20080133424A1 (en) * | 2006-11-30 | 2008-06-05 | Caterpillar Inc. | System and method for negotiating a contract |
DK3292471T3 (da) * | 2015-05-04 | 2022-02-21 | Syed Kamran Hasan | Metode og enhed til styring af sikkerhed i et computernetværk |
US9876825B2 (en) * | 2016-02-04 | 2018-01-23 | Amadeus S.A.S. | Monitoring user authenticity |
US20210382949A1 (en) * | 2020-06-07 | 2021-12-09 | InfoTrust, LLC | Systems and methods for web content inspection |
CN115293650A (zh) * | 2022-03-07 | 2022-11-04 | 王建丰 | 基于大数据的风控处理方法及服务器 |
-
2022
- 2022-09-25 CN CN202211168872.XA patent/CN115470504B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114546975A (zh) * | 2022-03-07 | 2022-05-27 | 潍坊凯智计算机科技有限公司 | 一种结合人工智能的业务风险处理方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN115470504A (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111565205B (zh) | 网络攻击识别方法、装置、计算机设备和存储介质 | |
CN115470504B (zh) | 结合人工智能的数据风险分析方法及服务器 | |
CN115048370B (zh) | 用于大数据清洗的人工智能处理方法及大数据清洗系统 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
CN113918621A (zh) | 一种基于互联网金融的大数据防护处理方法及服务器 | |
CN115174231A (zh) | 一种基于AI Knowledge Base的网络欺诈分析方法及服务器 | |
CN113132311A (zh) | 异常访问检测方法、装置和设备 | |
CN115065545B (zh) | 基于大数据威胁感知的安全防护构建方法及ai防护系统 | |
CN117580046A (zh) | 一种基于深度学习的5g网络动态安全能力调度方法 | |
CN109286622B (zh) | 一种基于学习规则集的网络入侵检测方法 | |
CN113434857A (zh) | 一种应用深度学习的用户行为安全解析方法及系统 | |
CN113254068A (zh) | 一种控制流平坦化自动检测方法、装置 | |
CN112653697A (zh) | 基于云计算和区块链的访问请求处理方法及云端服务中心 | |
CN116467697A (zh) | 一种基于信息安全网络防御的数据关联系统 | |
Lawrence et al. | Shining new light on useful features for network intrusion detection algorithms | |
CN113098883B (zh) | 基于区块链和大数据的安全防护方法及区块链服务系统 | |
CN115906927A (zh) | 基于人工智能的数据访问分析方法、系统及云平台 | |
CN108304467A (zh) | 用于文本间匹配的方法 | |
CN113946819A (zh) | 一种基于云计算的在线支付信息入侵检测方法及服务器 | |
Zmiewski et al. | Automatic online quantification and prioritization of data protection risks | |
CN115563657B (zh) | 一种数据信息安全处理方法、系统及云平台 | |
CN114528550B (zh) | 一种应用于电商大数据威胁识别的信息处理方法及系统 | |
Chumakov | Techniques for hybridization of intelligent methods for detecting malicious traffic | |
CN112199643B (zh) | 程序压扁的迷惑方法、装置、设备及存储介质 | |
CN114884740B (zh) | 一种基于ai的入侵防护应答数据处理方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230613 Address after: Room 5-01, Floor 5, Building 6, Headquarters Economic Park, No. 1309, Shangye Road, Fengxi New Town, Xixian New District, Xianyang City, Shaanxi Province, 712000 Applicant after: SHAANXI HEYOU NETWORK TECHNOLOGY CO.,LTD. Address before: No. 165, Kangzhong Road, Gucheng District, Lijiang, Yunnan 674100 Applicant before: Cai Longhua |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |