CN113934611A - 访问信息的统计方法、装置、电子设备及可读存储介质 - Google Patents

访问信息的统计方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113934611A
CN113934611A CN202111044459.8A CN202111044459A CN113934611A CN 113934611 A CN113934611 A CN 113934611A CN 202111044459 A CN202111044459 A CN 202111044459A CN 113934611 A CN113934611 A CN 113934611A
Authority
CN
China
Prior art keywords
target application
logic
data
access
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111044459.8A
Other languages
English (en)
Inventor
王秀贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyun Wangan Technology Co ltd
Original Assignee
Zhongyun Wangan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyun Wangan Technology Co ltd filed Critical Zhongyun Wangan Technology Co ltd
Priority to CN202111044459.8A priority Critical patent/CN113934611A/zh
Publication of CN113934611A publication Critical patent/CN113934611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种访问信息的统计方法、装置、电子设备及可读存储介质,其方法包括:获取目标应用的训练用数据流量;对训练用数据流量进行特征提取,得到流量数据特征;基于监督学习与无监督学习的结合,对流量数据特征进行特征转换,以学习目标应用的底层逻辑、访问逻辑和业务逻辑,得到目标应用的业务统计模型;基于业务统计模型,对目标应用的访问信息进行统计。本申请基于人工智能方法,能够高效、准确的对目标应用的访问信息从多个维度进行统计,可以提供标准化或定制化的信息文件,为应用管理提供坚实的基础。

Description

访问信息的统计方法、装置、电子设备及可读存储介质
技术领域
本申请涉及互联网技术领域,具体涉及一种访问信息的统计方法、装置、电子设备及可读存储介质。
背景技术
随着互联网技术的高速发展,越来越多的用户通过Web应用访问互联网中的服务器或其他终端,但是在访问中存在很多攻击行为,如SQL注入,高危可持续威胁攻击(Advanced Persistent Threat,APT)等等,这对连接于互联网的服务器或其他终端造成很大的安全隐患。。这也为应用的管理、用户的统计带来很大的挑战。在实际的应用中,无论对于网站的运行、维护、更新以及其它方面,访问信息无疑都是非常重要的参考数据,而在现有技术中,对于访问信息的统计还没有较为理想的方法。
发明内容
本申请实施例提供了一种访问信息的统计方法、装置、电子设备及可读存储介质,以克服或者至少部分克服现有技术的不足。
第一方面,提供了一种访问信息的统计方法,由管理服务器执行,所述方法包括:
获取目标应用的训练用数据流量;
对所述训练用数据流量进行特征提取,得到流量数据特征;
基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
基于所述业务统计模型,对目标应用的访问信息进行统计。
可选的,在上述方法中,所述基于所述业务统计模型,对目标应用的访问信息进行统计,包括:
对目标应用的访问,按照源、目的、攻击类型、概念验证内容进行分类和汇总,形成访问信息统计文件。管理服务器
可选的,上述方法还包括:
根据对所述目标应用的底层逻辑、访问逻辑和业务逻辑的学习结果,生成应用白名单。
可选的,在上述方法中,所述获取目标应用的训练用数据流量包括:
在用户终端提供管理应用程序;
将基于目标协议的,对目标应用的访问流量引入所述管理应用程序;
通过所述管理应用程序获取对目标应用的访问流量;
对所述访问流量进行参数化处理及分析,以得到对目标应用的正常访问流量和风险访问流量;
将所述正常访问流量和风险访问流量作为所述训练用数据流量。
可选的,在上述方法中,所述训练用数据流量为基于http或https协议的应用请求和应用响应;
所述对所述训练用数据流量进行特征提取,得到流量数据特征包括:
分别获取所述应用请求和所述应用响应的包头参数和参数值、时间、事件分类、上下文信息、源以及目的,作为所述流量数据特征。
可选的,在上述方法中,所述基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的安全防护模型包括:
基于无监督学习方法,对所述流量数据特征进行升维,对升维后的数据建立关联,得到表征目标应用的底层逻辑、访问逻辑和业务逻辑的第一高维度数据,将所述第一高维度数据投影为第一低维度数据,以建立安全防护初级模型;
基于监督学习方法,对所述训练用数据流量进行分类学习,将表征所述训练用数据流量的流量数据特征的第二高维度数据,投影为第二低维度数据,根据所述第二低维度数据对所述安全防护初级模型的参数进行优化,得到安全防护模型。
可选的,在上述方法中,所述对升维后的数据建立关联,得到表征目标应用的底层逻辑、访问逻辑和业务逻辑的第一高维度数据包括:
使用矩阵表示所述升维后的数据在不同维度的关联性,得到目标应用的底层逻辑,所述底层逻辑包括目标应用的基本架构、目录结构和资源;
确定所述训练用数据流量与所述目录结构的关联性,得到目标应用的业务逻辑;
确定不同来源的训练用数据流量基于所述业务逻辑的关联性,得到目标应用的访问逻辑;
将表征目标应用的底层逻辑、访问逻辑和业务逻辑的数据作为第一高维度数据。
第二方面,提供了一种访问信息的统计装置,部署于管理服务器中,所述装置包括:
获取单元,用于获取目标应用的训练用数据流量;
特征提取单元,用于对所述训练用数据流量进行特征提取,得到流量数据特征;
模型训练单元,用于基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
统计单元,用于基于所述业务统计模型,对目标应用的访问信息进行统计。管理服务器第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请通过监督学习与无监督学习的结合的方式,对目标应用的访问流量数据的特征进行学习,从而实现对目标应用的底层逻辑、访问逻辑和业务逻辑的三重逻辑的学习,得到为目标应用“量身裁定”的业务统计模型,该业务统计模型能对访问目标应用的流量数据进行快速、高效的统计。本申请基于人工智能方法,能够高效、准确的对目标应用的访问信息从多个维度进行统计,可以提供标准化或定制化的信息文件,为应用管理提供坚实的基础。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出根据本申请的一个实施例的访问信息的统计方法的流程示意图;
图2示出根据本申请的一个实施例的访问信息的统计装置的结构示意图;
图3为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
为了识别业务应用访问分布、安全风险等内容,帮助运维人员优化业务应用,提出本申请,图1示出根据本申请的一个实施例的访问信息的统计方法的流程示意图,该方法可由管理服务器执行,从图1可以看出,本申请至少包括步骤S110~步骤S140:
步骤S110:获取目标应用的训练用数据流量。
本申请中的应用包括但不限于Web应用,如留言板、聊天室、论坛等,都属于Web应用。Web应用的主要表现形式有超文本、超媒体,以及超文本传输协议等。
在训练的过程中,首先获取对目标应用的训练用数据流量,这里的训练用数据流量可以是,一段时间内,对目标应用全部的访问数据流量,包括正常访问和非正常访问;且需要说明的是,这个数据流量指的是广义的流量,包括对目标应用的请求,也包括目标应用对请求的响应,还包括函数调用等。
需要注意的是,在现有技术中,对目标应用的访问数据流量是直接到达目标应用,在本申请中,不同于现有技术之处在于,需要将这部分流量“拦截”到执行本申请的管理服务器中,具体的,可以通过旁路反向代理的方式将目标应用的访问流量切换到管理服务器中来,以此,确保管理服务器可以和应用建立正常访问。
步骤S120:对训练用数据流量进行特征提取,得到流量数据特征。
然后对训练用数据流量进行特征提取,特征提取的对象包括但不限于对请求和响应的头部(header)信息,以及请求和响应的载荷(payload)信息;具体的,包含头部信息的多个字段,以及载荷信息的多个字段,其中,头部信息的字段包含但不限于字段类型,值的组成,值内容的分布等等,载荷信息的字段包含但不限于字符类型、数据、字符分布等等。
在本申请的一些实施例中,训练用数据流量为基于http或https协议的应用请求和应用响应;对训练用数据流量进行特征提取,得到流量数据特征包括:分别获取应用请求和应用响应的包头参数和参数值、时间、事件分类、上下文信息、源以及目的,作为流量数据特征。
步骤S130:基于监督学习与无监督学习的结合,对流量数据特征进行特征转换,以学习目标应用的底层逻辑、访问逻辑和业务逻辑,得到目标应用的业务统计模型。
在训练的过程中,通过对目标应用的数据流量的特征,基于监督学习和无监督学习结合算法,采用算法内部的安全爬虫实现对应用的底层逻辑学习、访问逻辑学习和业务逻辑的学习,从而做到对目标应用的完全掌握,形成对目标应用的“量体裁衣”式的业务统计模型。
访问目标应用的请求、目标应用对于请求的响应,以及函数调用指令这些流量产生的数据流量特征中,都会包含有目标应用的信息,通过对这些特征进行特征转换,即可以学习到目标应用的三重逻辑,这三重逻辑分别为底层逻辑、访问逻辑和业务逻辑,从而建立起目标应用的个性化的业务统计模型。
对于特征转换的过程,可以监督学习与无监督学习的结合的方式实现,监督学习,是指数据集中样本都有相应的“正确答案”,即标签。按照结果是否连续分为回归和分类两种,回归问题:即通过回归来推出一个连续的输出;分类问题:其目标是推出一组离散值。无监督学习,是指数据样本没有任何的标签或者是有相同的标签或者就是没标签,从数据中找到某种结构,无监督学习就能判断出数据有两个不同的聚集簇,这是一个,那是另一个,二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法,没有给算法正确答案来回应数据集中的数据,所以这就是无监督学习,结果是不确定的。
在本申请的一些实施例中,可以先基于无监督学习方法,对所有的访问流量的特征进行学习,生成一个业务统计初始模型;然后基于监督的方法,对含有标签的访问流量的特征进行学习,以优化业务统计初始模型的参数,得到识别准确度更高的业务统计模型。
步骤S140:基于业务统计模型,对目标应用的访问信息进行统计。
业务统计模型有多方面的功能,一方面在测试过程中,通过建立的安全防护模型对目标应用的用户请求进行识别,以区分正常访问和非正常访问。另一方面,其还能对访问目标应用的流量数据进行全方位的统计,如用户分布、每一个请求和相应的源、目的、风险等多个维度的统计。在本申请的一些实施例中,对目标应用的访问,按照源、目的、攻击类型、概念验证内容进行分类和汇总,形成访问信息统计文件;进一步的,还可以生成标准化、定制化、可视化的文字报告或图形报告,以供运维人员参考。
在本申请的一些实施例中,还可以根据学习结果生成应用白名单,从而实现对未认证程序的拦截,保护用户终端不受伤害。
由图1所示的方法可以看出,本申请通过监督学习与无监督学习的结合的方式,对目标应用的访问流量数据的特征进行学习,从而实现对目标应用的底层逻辑、访问逻辑和业务逻辑的三重逻辑的学习,得到为目标应用“量身裁定”的业务统计模型,该业务统计模型能对访问目标应用的流量数据进行快速、高效的统计。本申请基于人工智能方法,能够高效、准确的对目标应用的访问信息从多个维度进行统计,可以提供标准化或定制化的信息文件,为应用管理提供坚实的基础。
在本申请的一些实施例中,对于训练用数据流量可以先进行分类个标注,以便后续训练使用,如采用下述方式获取目标应用的训练用数据流量,具体可包括但不限于:在用户终端提供管理应用程序;将基于目标协议的,对目标应用的访问流量引入所述管理应用程序;通过所述管理应用程序获取对目标应用的访问流量;对所述访问流量进行参数化处理及分析,以得到对目标应用的正常访问流量和风险访问流量;将所述正常访问流量和风险访问流量作为所述训练用数据流量。
为了获取流量,可以在用户终端提供管理应用程序,该管理应用程序与服务器端的管理服务器连接,管理应用程序负责对流量进行“拦截”,并引入至服务器端的管理服务器中。
Web应用通常是基于http或者https通讯协议的,将这俩中协议设为目标协议,管理应用程序将基于目标协议的对于目标应用的访问流量进行“拦截”,并引入至管理服务器中。
对目标应用初次访问流量都是认为不可信的,管理服务器可以将这些流量做一个初级的分类,具体的,可以对这些流量进行参数化处理及分析,以得到对目标应用的正常访问流量和风险访问流量;将正常访问流量和风险访问流量作为训练用数据流量。
在本申请的一些实施例中,将所有流量保存在管理服务器的缓存里,通过算法针对请求、响应、函数调用等一系列的状态参数化,然后这些参数在神经网络里做卷积,将卷积的结果再做分析,可以识别出一部分正常的访问;另一部分分析后认为有风险的会告警,然后根据再次学习结果分析,从有风险的访问流量中,在获取一部分正常的访问,将剩余的访问流量作为风险访问流量。
进一步的,可以通过这个初级的分类,对访问流量作出标签,以作为训练用数据流量。
在本申请的一些实施例中,在训练过程中,正常访问流量和风险访问流量均需要用到。首先可以,基于无监督学习方法,对不含有标签的所有的流量数据进行聚类计算和学习,具体的,对训练用数据流量的流量数据特征进行升维,对升维后的数据建立关联,这个关联就是表征目标应用的底层逻辑、访问逻辑和业务逻辑的第一高维度数据,然后通过线性变换、消除噪声以及冗余数据后,将第一高维度数据投影为第一低维度数据,通过机器学习自动调整模型参数,生成业务统计初级模型。
其中,底层逻辑、访问逻辑和业务逻辑这三重逻辑的学习,首先是底层逻辑的学习,具体的,使用矩阵表示升维后的数据在不同维度的关联性,这个关联性就是目标应用的底层逻辑,底层逻辑主要包括目标应用的基本架构、目录结构和资源等等;进一步的,确定训练用数据流量与目录结构的关联性,这个关联性就是目标应用的业务逻辑;最后,训练用数据流量中不同来源的访问流量基于业务逻辑的关联性,就是目标应用的访问逻辑;从而一步步得到了表征目标应用的底层逻辑、访问逻辑和业务逻辑的数据作为第一高维度数据。
也就是说,在进行无监督学习时,仅需要将被保护的目标应用的流量牵引过来,通过算法规则对已经通过请求和响应的包头参数和参数值、时间、事件分类、请求和响应上下文、源和目的这些信息升维后的数据进行数据分类,再通过线性变换,消除噪声和冗余数据后,将高纬数据投影到低维空间,通过机器自动调整参数,生成业务统计初级模型。
在本申请的一些实施例中,无监督学习方主成分分析法(principal componentsanalysis,PCA)法可以为但不限于常用于高维数据的降维,可用于提取数据的主要特征分量。
然后基于监督学习的方法,对上述业务统计初级模型的参数作出进一步的调整,以提高业务统计初级模型的准确性。具体的,基于监督学习方法,对带有标签的训练用数据流量进行分类学习,将表征训练用数据流量的流量数据特征的第二高维度数据,投影为第二低维度数据,根据第二低维度数据对业务统计初级模型的参数进行优化,得到业务统计模型。
也就是说,在监督学习中,采用正负样本的形式进行了学习,将这两类数据样本进行多层处理后降维,得到降维后的特征分布,通过机器自动的调整和优化参数,从对通过无监督学习方法得到的业务统计初级模型进行了优化,得到针对目标应用的个性化业务统计模型,通过业务统计模型的识别可以区分出正常的业务访问和攻击访问,也可以对业务访问的情况进行统计。
在本申请的一些实施例中,监督学习方法可以但不限于线性判别分析(LDA算法),在这种方法中,同一类别的尽量接近,不同类别的类别中心之间的距离尽可能远;不仅可以用于将为还可以用于分类。在本申请的一些实施例中,通过LDA和PCA算法将请求和响应的参数,进行分类后,从二维数据投影到一维,进行降维处理,从而区分出正常访问和攻击访问。LDA和PCA算法对数据的具体处理过程可参考现有技术。
需要说明的是,对于目标应用,在一次训练中,可以为一个,也可以为具有共性的多个,以提高训练效率。
在对非正常访问的测试过程中,同训练过程一致,是对于应用请求的三重逻辑进行识别,具体的,将对目标应用的访问输入业务访问模型,以使业务访问模型对目标应用的访问的底层逻辑、访问逻辑和业务逻辑进行识别,从而实现对非正常访问的识别。测试过程中,三重逻辑的确定方法与训练过程一致,这里不再赘述。
图2示出根据本申请的一个实施例的访问信息的统计装置的结构示意图,该装置可部署在管理服务器中,从图2可以看出,该访问信息的统计装置200,包括:
获取单元210,获取目标应用的训练用数据流量;
特征提取单元220,用于对所述训练用数据流量进行特征提取,得到流量数据特征;
模型训练单元230,用于基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
统计单元240,用于基于所述业务统计模型,对目标应用的访问信息进行统计。
在本申请的一些实施例中,在上述装置中,统计单元240,用于对目标应用的访问,按照源、目的、攻击类型、概念验证内容进行分类和汇总,形成访问信息统计文件。
在本申请的一些实施例中,在上述装置中,模型训练单元230,还用于根据对所述目标应用的底层逻辑、访问逻辑和业务逻辑的学习结果,生成应用白名单。
在本申请的一些实施例中,在上述装置中,获取单元210,用于在用户终端提供管理应用程序;将基于目标协议的,对目标应用的访问流量引入所述管理应用程序;通过所述管理应用程序获取对目标应用的访问流量;对所述访问流量进行参数化处理及分析,以得到对目标应用的正常访问流量和风险访问流量;将所述正常访问流量和风险访问流量作为所述训练用数据流量。
在本申请的一些实施例中,在上述装置中,所述训练用数据流量为基于http或https协议的应用请求和应用响应;特征提取单元220,用于分别获取所述应用请求和所述应用响应的包头参数和参数值、时间、事件分类、上下文信息、源以及目的,作为所述流量数据特征。
在本申请的一些实施例中,在上述装置中,模型训练单元230,用于基于无监督学习方法,对所述流量数据特征进行升维,对升维后的数据建立关联,得到表征目标应用的底层逻辑、访问逻辑和业务逻辑的第一高维度数据,将所述第一高维度数据投影为第一低维度数据,以建立安全防护初级模型;以及用于基于监督学习方法,对所述训练用数据流量进行分类学习,将表征所述训练用数据流量的流量数据特征的第二高维度数据,投影为第二低维度数据,根据所述第二低维度数据对所述安全防护初级模型的参数进行优化,得到安全防护模型。
在本申请的一些实施例中,在上述装置中,模型训练单元230,用于使用矩阵表示所述升维后的数据在不同维度的关联性,得到目标应用的底层逻辑,所述底层逻辑包括目标应用的基本架构、目录结构和资源;确定所述正常访问流量与所述目录结构的关联性,得到目标应用的业务逻辑;确定不同来源的正常访问流量,基于所述业务逻辑的关联性,得到目标应用的访问逻辑;将表征目标应用的底层逻辑、访问逻辑和业务逻辑的数据作为第一高维度数据。
需要说明的是,上述访问信息的统计装置可一一实现前述的访问信息的统计方法,不再赘述。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成访问信息的统计装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标应用的训练用数据流量;
对所述训练用数据流量进行特征提取,得到流量数据特征;
基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
基于所述业务统计模型,对目标应用的访问信息进行统计。
上述如本申请图2所示实施例揭示的访问信息的统计装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2中访问信息的统计装置执行的方法,并实现访问信息的统计装置在图2所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图2所示实施例中访问信息的统计装置执行的方法,并具体用于执行:
获取目标应用的训练用数据流量;
对所述训练用数据流量进行特征提取,得到流量数据特征;
基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
基于所述业务统计模型,对目标应用的访问信息进行统计。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种访问信息的统计方法,其特征在于,由管理服务器执行,所述方法包括:
获取目标应用的训练用数据流量;
对所述训练用数据流量进行特征提取,得到流量数据特征;
基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
基于所述业务统计模型,对目标应用的访问信息进行统计。
2.根据权利要求1所述的方法,其特征在于,所述基于所述业务统计模型,对目标应用的访问信息进行统计,包括:
对目标应用的访问,按照源、目的、攻击类型、概念验证内容进行分类和汇总,形成访问信息统计文件。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据对所述目标应用的底层逻辑、访问逻辑和业务逻辑的学习结果,生成应用白名单。
4.根据权利要求1所述的方法,其特征在于,所述获取目标应用的训练用数据流量包括:
在用户终端提供管理应用程序;
将基于目标协议的,对目标应用的访问流量引入所述管理应用程序;
通过所述管理应用程序获取对目标应用的访问流量;
对所述访问流量进行参数化处理及分析,以得到对目标应用的正常访问流量和风险访问流量;
将所述正常访问流量和风险访问流量作为所述训练用数据流量。
5.根据权利要求1所述的方法,其特征在于,所述训练用数据流量为基于http或https协议的应用请求和应用响应;
所述对所述训练用数据流量进行特征提取,得到流量数据特征包括:
分别获取所述应用请求和所述应用响应的包头参数和参数值、时间、事件分类、上下文信息、源以及目的,作为所述流量数据特征。
6.根据权利要求1所述的方法,其特征在于,所述基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的安全防护模型包括:
基于无监督学习方法,对所述流量数据特征进行升维,对升维后的数据建立关联,得到表征目标应用的底层逻辑、访问逻辑和业务逻辑的第一高维度数据,将所述第一高维度数据投影为第一低维度数据,以建立安全防护初级模型;
基于监督学习方法,对所述训练用数据流量进行分类学习,将表征所述训练用数据流量的流量数据特征的第二高维度数据,投影为第二低维度数据,根据所述第二低维度数据对所述安全防护初级模型的参数进行优化,得到安全防护模型。
7.根据权利要求6所述的方法,其特征在于,所述对升维后的数据建立关联,得到表征目标应用的底层逻辑、访问逻辑和业务逻辑的第一高维度数据包括:
使用矩阵表示所述升维后的数据在不同维度的关联性,得到目标应用的底层逻辑,所述底层逻辑包括目标应用的基本架构、目录结构和资源;
确定所述训练用数据流量与所述目录结构的关联性,得到目标应用的业务逻辑;
确定不同来源的训练用数据流量基于所述业务逻辑的关联性,得到目标应用的访问逻辑;
将表征目标应用的底层逻辑、访问逻辑和业务逻辑的数据作为第一高维度数据。
8.一种访问信息的统计装置,其特征在于,部署于管理服务器中,所述装置包括:
获取单元,用于获取目标应用的训练用数据流量;
特征提取单元,用于对所述训练用数据流量进行特征提取,得到流量数据特征;
模型训练单元,用于基于监督学习与无监督学习的结合,对所述流量数据特征进行特征转换,以学习所述目标应用的底层逻辑、访问逻辑和业务逻辑,得到所述目标应用的业务统计模型;
统计单元,用于基于所述业务统计模型,对目标应用的访问信息进行统计。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7所述方法。
CN202111044459.8A 2021-09-07 2021-09-07 访问信息的统计方法、装置、电子设备及可读存储介质 Pending CN113934611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111044459.8A CN113934611A (zh) 2021-09-07 2021-09-07 访问信息的统计方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111044459.8A CN113934611A (zh) 2021-09-07 2021-09-07 访问信息的统计方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113934611A true CN113934611A (zh) 2022-01-14

Family

ID=79275220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111044459.8A Pending CN113934611A (zh) 2021-09-07 2021-09-07 访问信息的统计方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113934611A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491168A (zh) * 2022-01-27 2022-05-13 中国电力科学研究院有限公司 调控云样本数据共享方法、系统、计算机设备及存储介质
CN114679320A (zh) * 2022-03-29 2022-06-28 杭州安恒信息技术股份有限公司 一种服务器防护方法、装置及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491168A (zh) * 2022-01-27 2022-05-13 中国电力科学研究院有限公司 调控云样本数据共享方法、系统、计算机设备及存储介质
CN114491168B (zh) * 2022-01-27 2022-12-13 中国电力科学研究院有限公司 调控云样本数据共享方法、系统、计算机设备及存储介质
CN114679320A (zh) * 2022-03-29 2022-06-28 杭州安恒信息技术股份有限公司 一种服务器防护方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN113949527A (zh) 异常访问的检测方法、装置、电子设备及可读存储介质
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
AU2016355767A1 (en) Order clustering method and device, and malicious information rejecting method and device
CN113934611A (zh) 访问信息的统计方法、装置、电子设备及可读存储介质
CN110674188A (zh) 一种特征提取方法、装置及设备
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
WO2020082763A1 (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN111428108A (zh) 一种基于深度学习的反爬虫方法、装置和介质
CN106294406B (zh) 一种用于处理应用访问数据的方法与设备
Wang et al. An unknown protocol syntax analysis method based on convolutional neural network
WO2023273303A1 (zh) 基于树模型的事件影响度获取方法、装置及计算机设备
RU2659482C1 (ru) Способ защиты веб-приложений при помощи интеллектуального сетевого экрана с использованием автоматического построения моделей приложений
CN111680167A (zh) 一种服务请求的响应方法及服务器
CN112866279B (zh) 网页安全检测方法、装置、设备及介质
CN116545768B (zh) 一种信息安全风险预警方法及系统
CN116800518A (zh) 一种网络防护策略的调整方法及装置
WO2023050670A1 (zh) 虚假信息检测方法、系统、计算机设备及可读存储介质
CN113535449B (zh) 异常事件修复处理方法、装置、计算机设备及存储介质
CN111866001B (zh) 基于大数据和云计算的智能设备数据处理方法及云服务器
CN110929118B (zh) 网络数据处理方法、设备、装置、介质
CN111475380A (zh) 一种日志分析方法和装置
CN112488140A (zh) 一种数据关联方法及装置
CN113709092B (zh) 数据检测方法、装置、计算机设备以及存储介质
CN115865809B (zh) 数据传输方法、装置、电子设备以及可读存储介质
CN116719942B (zh) 数据资产分类方法、装置、计算机设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 101100 No. 9-2074, Liangli Third Street, East District, economic development zone, Tongzhou District, Beijing

Applicant after: Zhongyun Wangan Technology Co.,Ltd.

Address before: 705, floor 7, block D, floor 6, building 1, No. 6, Jianguomenwai street, Chaoyang District, Beijing 100022 (inner 1)

Applicant before: Zhongyun Wangan Technology Co.,Ltd.