CN110855650B

CN110855650B - 一种非法文件上传检测方法

Info

Publication number: CN110855650B
Application number: CN201911068936.7A
Authority: CN
Inventors: 陶敬; 林辉; 詹旭娜; 陈奕光; 郑宁; 常跃; 郝传洲; 王莞尔
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2021-05-07
Anticipated expiration: 2039-11-05
Also published as: CN110855650A

Abstract

本发明提供一种非法文件上传检测方法，该方法通过获取待检测设备的历史数据，并根据历史数据训练出用户的上传行为模式，将其转化为数值型的隶属度。将待检测行为与用户上传行为模式匹配后输入规则库，通过规则库中的多条规则融合判断当前行为是否为异常。所述方法中，能够融合多维特征而不需考虑特征间关联关系进行异常行为检测，改善非法文件上传行为检测的效果。

Description

一种非法文件上传检测方法

技术领域

本发明属于异常检测技术领域，特别涉及一种非法文件上传检测方法。

背景技术

随着互联网技术的快速发展，网络安全成为当今最主要的问题。黑客可利用向被攻击站点上传php，jsp等程序后门文件，然后通过正常的网络访问方式访问这些文件，从而执行恶意攻击操作，对系统造成威胁。因此发现系统中潜在危险，检测上传文件是否合法对于网络安全防护具有非常重要的意义。

为了检测上传文件的合法性，传统技术采用对每个上传的文件依次进行内容特征比对，从而发现恶意上传行为。但是，采用特征匹配这种防护方式来检测上传到网络服务器的文件，将导致检测结果不准确，具体表现在：

1.容易出现漏判，例如文件类型不在非法特征库中，但可能该文件实际为可执行可编译文件，采用单一的特征比对的方式将不能发现。

2.灵活性差，缺乏业务定制能力，无法根据不同业务场景灵活性的调整检测方法。

针对现有技术采用特征匹配方式来检测上传行为合法性，导致检测结果不准的问题，目前尚未提出有效的解决方案。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种非法文件上传检测方法，以解决现有技术采用特征匹配来检测上传文件合法性导致检测结果不准的技术问题。

为了实现上述目的，本发明采用的技术方案是：

一种非法文件上传检测方法，包括：

获取待检测设备的历史数据，从历史数据中提取异常行为检测所需的特征，根据特征训练出用户上传行为模式，归一化为数值型的隶属度函数；

获取待检测上传行为中所需特征，判断上传文件类型是否为可执行可编译文件类型，得到第一检出结果，其中，可执行可编译文件为当前操作系统可进行编译并加载执行的文件；

若第一检出结果不为可执行可编译文件类型，将待检测上传行为的多维特征输入规则库，通过多个规则融合判断，并去模糊得到上传行为异常度的精确值，根据每次输入变量计算检测阈值，根据阈值确定上传行为合法性，得到第二检出结果。

所述异常行为检测所需的特征，包括但不限于上传时间、上传文件大小、上传文件类型、单位时间内上传次数等，所述根据特征训练出用户上传行为模式，基于出现次数多即合理程度高的思想对上传行为特征分别进行统计，并将统计结果归一化得到各个维度特征的隶属函数，存储备后续使用。

所述得到第一检出结果，若上传文件类型为可执行可编译文件类型，则判定上传行为为非法，并发送异常告警。

若上传文件类型为非可执行可编译文件类型，则：

利用知识库，将待检测上传行为的多维特征由精确量转化为模糊量，并用相应的模糊集合来表示；

结合知识库中的规则库，利用模糊逻辑中的蕴含关系及模糊推理规则进行模糊推理得出用相应结果模糊集合表示的文件上传行为异常度的模糊化输出；

将异常度模糊化输出去模糊化成精确量，得到用精确数值表示的异常度；

根据每次输入变量计算检测阈值，根据阈值确定上传行为合法性。若超过检测阈值，则该上传行为判定为非法行为。

所述的知识库包括数据库和模糊控制规则库两部分，数据库主要包括输入语言变量的隶属度，由历史数据得到；规则库包括用模糊语言变量表示的一系列推理规则，规则反映了经验和知识。

所述模糊化的过程为：基于历史数据得到的知识库中的输入语言变量的隶属度，通过待检测上传行为的多维特征与隶属度集合匹配确定每维输入变量适应每个模糊集合的程度，模糊集合包括但不限于合法、非法等。

所述的模糊推理过程包括：

将每维输入变量对应模糊集合的隶属度输入知识库中的模糊控制规则库，对每条规则应用蕴含关系，计算每条规则对输出模糊集的隶属程度；

将各个规则对输出模糊集的适配度合并，合并方法可应用模糊与、或算子，计算所有规则有效后件的总和，求得激励强度，并用激励强度截断相应输出模糊集的隶属函数。

所述的蕴含关系方法为求取规则中多个先行词的笛卡尔积：

μ_A(X₁,X₂…X_n)＝μ(X₁)∧μ(X₂)∧…∧μ(X_n)

其中μ_A为规则A对输出模糊集的适配度即隶属程度，μ(X_n)为规则中每维特征对模糊集合的隶属度。

所述异常度模糊化输出去模糊化成精确量的方法包括但不限于平均最大隶属度法、面积平均法、加权平均法等。

所述检测阈值由输出模糊集隶属函数确定，不同输出模糊集隶属函数的交点即为对应的模糊集的阈值，根据异常度去模糊化后的精确量与不同模糊集间的阈值比较，确定文件上传行为的合法性，得到第二检出结果。

与现有技术相比，本发明达到了准确检测上传行为合法性的目的，解决了在文件为非可执行可编译文件类型时仍可能是非法文件的情况下无法检测出来的问题，解决了现有技术中通过单一特征特征匹配带来的灵活性差和准确率低的问题。

附图说明

图1为本申请实施例的检测非法文件上传行为的方法的流程图。

图2为本申请实施例中在特定输入下进行模糊推理得到的模糊输出量隶属度函数图。

具体实施方式

首先，对本申请实施例涉及的术语解释如下：

模糊化及模糊集合：模糊化是将模糊控制器输入量的确定值转换为相应的模糊语言变量值的过程，而模糊语言变量值是一个模糊集合，所以模糊化方法应给出从精确量到模糊集合的转变方法。

模糊规则：本质是定义在X,Y的二元模糊关系R，模糊规则的形式为：if x is Athen y is B。其中A和B为由论域X和Y上的模糊集合定义的语言值。

去模糊化：去模糊化是将模糊值以适当的比例转换到论域的明确的数值作为系统的输出。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样适用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本实施例提供了一种检测非法文件上传行为的方法，包括：

步骤S101，获取待检测设备的历史数据，从历史数据中提取异常行为检测所需的特征，根据特征训练出用户上传行为模式，归一化为数值型的隶属度。

步骤S101中特征训练的具体过程包括如下步骤：

步骤S101’：获取待检测设备的历史数据即上传日志，可包括FTP、SFTP、SMB等方式上传到服务器的日志。

步骤S102’：从上传日志中解析出不同维度的特征。特征在于，所述异常行为检测所需的特证，包括但不限于上传时间、上传文件大小、上传文件类型、单位时间内上传次数等。

步骤S103’：所述根据特征训练出用户上传行为模式，基于出现次数多即合理程度高的思想对上传行为特征分别进行统计并将统计结果归一化得到各个维度特征的隶属函数。

步骤S102，获取待检测上传行为中所需特征，判断上传文件类型是否为可执行可编译文件类型，其中，可执行可编译文件为当前操作系统可进行编译并加载执行的文件，得到第一检出结果。

步骤S103，若第一检出结果不为可执行可编译文件类型，将待检测行为的多维特征基于知识库中的输入语言变量的隶属函数，将输入的精确量进行模糊化处理变成模糊化量，并用相应的模糊集合来表示。

根据历史数据分析得出的不同维度特征的分布特性，采用统计归一的方式可以确定出输入的隶属度函数。

例如针对于文件上传时间这一维度的特征，对输入i，模糊推理系统的输入量为输入i在不同模糊集合的隶属度。

模糊推理系统的输出量是对系统的整体异常度的评价，论域设定为[0,100]，用合法、可疑、非法这三个模糊量进行表征，模糊变量的隶属度函数如图2所示。

步骤S104，将模糊化后的隶属度作为输入，结合知识库中的模糊推理规则库，利用模糊逻辑中的蕴含关系及推理规则进行推理，得出用相应模糊集合表示的文件上传行为异常度的输出。

知识库根据专家经验手动设定，包括数据库和模糊控制规则库两部分。数据库主要包括输入语言变量的隶属函数；规则库包括用模糊语言变量表示的一系列推理规则，规则反映了专家的经验和知识模糊推理规则库是根据在无攻击发生和有攻击发生情况下的异常度的关联特性来制定。指定规则定义如表1所示，关联特性表现为：当上传日志解析出上传行为各维度特征的异常度都很低(例如规则：如果文件大小是SN(N代表合法，I代表非法)上传时间是TN且上传频次是NN)，则检测结果为合法；当上传行为各维度特征的异常度都偏高(例如规则：如果文件大小是SI、上传时间是TI且上传频次是NI)，则检测结果为非法。

表1文件上传检测方法模糊推理规则表

步骤S104，结合知识库将模糊化推理结果去模糊化得到上传行为异常度的精确值，得到用精确数值表示的上传行为的异常度；根据每次输入变量计算检测阈值，根据阈值确定上传行为合法性，得到第二检出结果。

以下结合表1举例说明基于模糊推理的上传行为检测过程：

1)模糊化：根据历史数据统计归一化后进行函数拟合得到隶属函数，根据表一的规则，不同维度的输入各有两个模糊集合，分别为合法和非法。假定某一输入为x，隶属度μ(x)越接近于1，表示x属于该模糊集和A的程度越高，μ(x)越接近于0表示x属于A的该模糊集程度越低。若该特征有两个模糊集，元素x属于其中一个模糊集的隶属度为μ(x)，则属于另一模糊集的隶属度为γ(x)＝1-μ(x)。

2)模糊逻辑推理：采用“max-min”合成的方式进行规则的合成运算，即对n维模糊向量x和y，合成运算“о”的计算方式为

其中“∧”代表取最小运算，“∨”代表取最大运算。

3)反模糊化：采用面积质心法，质心法是取由推理规则合成得到的隶属度函数曲线与横坐标围成面积的质心，作为模糊推理的最终输出值。计算公式为：

由于本发明充分利用了上传行为的多维特征，因此检测效果优于传统单维特征匹配的检测方法。本发明提出的检测方法可根据不同业务场景训练出适应该场景的隶属函数，因此具有很大的灵活性，能够保证较低的误报率。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种非法文件上传检测方法，其特征在于，包括：

获取待检测上传行为中所需特征，判断上传文件类型是否为可执行可编译文件类型，得到第一检出结果；

若第一检出结果不为可执行可编译文件类型，将待检测上传行为的多维特征基于知识库中的输入语言变量的隶属函数，将输入的精确量进行模糊化处理变成模糊化量，并用相应的模糊集合来表示，将模糊化后的隶属度作为输入，结合知识库中的模糊推理规则库，利用模糊逻辑中的蕴含关系及推理规则进行推理，得出用相应模糊集合表示的文件上传行为异常度的输出，将异常度模糊化输出去模糊化成精确量，得到用精确数值表示的异常度；根据每次输入变量计算检测阈值，根据阈值确定上传行为合法性，得到第二检出结果。

2.根据权利要求1所述非法文件上传检测方法，其特征在于，所述异常行为检测所需的特征，包括上传时间、上传文件大小、上传文件类型、单位时间内上传次数，所述根据特征训练出用户上传行为模式，基于出现次数多即合理程度高的思想对上传行为特征分别进行统计，并将统计结果归一化得到各个维度特征的隶属函数，存储备后续使用。

3.根据权利要求1所述非法文件上传检测方法，其特征在于，所述得到第一检出结果，若上传文件类型为可执行可编译文件类型，则判定上传行为为非法，并发送异常告警。

4.根据权利要求1所述非法文件上传检测方法，其特征在于，所述的知识库包括数据库和模糊控制规则库两部分，数据库主要包括输入语言变量的隶属度，由历史数据得到；规则库包括用模糊语言变量表示的一系列推理规则，规则反映了经验和知识。

5.根据权利要求1所述非法文件上传检测方法，其特征在于，所述模糊化的过程为：基于历史数据得到的知识库中的输入语言变量的隶属度，通过待检测上传行为的多维特征与隶属度集合匹配确定每维输入变量适应每个模糊集合的程度，模糊集合包括合法、非法。

6.根据权利要求1所述非法文件上传检测方法，其特征在于，所述的模糊推理过程包括：

7.根据权利要求6所述非法文件上传检测方法，其特征在于，所述的蕴含关系方法为求取规则中多个先行词的笛卡尔积：

μ_A(X₁,X₂…X_n)＝μ(X₁)∧μ(X₂)∧…∧μ(X_n)

8.根据权利要求1所述非法文件上传检测方法，其特征在于，所述异常度模糊化输出去模糊化成精确量的方法包括平均最大隶属度法、面积平均法、加权平均法。

9.根据权利要求1所述非法文件上传检测方法，其特征在于，所述检测阈值由输出模糊集隶属函数确定，不同输出模糊集隶属函数的交点即为对应的模糊集的阈值，根据异常度去模糊化后的精确量与不同模糊集间的阈值比较，确定文件上传行为的合法性，得到第二检出结果。