CN117668844B

CN117668844B - 基于信息安全的威胁文件检测系统

Info

Publication number: CN117668844B
Application number: CN202410125367.XA
Authority: CN
Inventors: 郭银峰; 叶翔; 虞雁群; 王帅; 范希平; 陈天祥
Original assignee: Zhejiang Yu'an Information Technology Co ltd
Current assignee: Zhejiang Yu'an Information Technology Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-05-28
Anticipated expiration: 2044-01-30
Also published as: CN117668844A

Abstract

本发明涉及数据处理领域，具体涉及基于信息安全的威胁文件检测系统，包括：数据采集模块，用于采集每天每个文件的操作总数据量；时序数据差异分析模块，用于获取每天每个文件的时序数据和拟合数据值；根据时序数据得到每天每个时间段的置信系数；根据文件数量得到任意两天之间的差异程度，获取任意两天之间的相似系数，并得到每天的行为习惯波动，然后得到每天每个时间段的置信系数的约束范围；优化系数获取模块，用于根据原始数据值和拟合数据值得到每天每个文件的误差值；并得到每天每个文件的优化系数；文件异常检测模块，用于根据每天每个文件的优化系数进行威胁文件的检测。本发明用数据处理方式，提高了威胁文件检测的准确性。

Description

基于信息安全的威胁文件检测系统

技术领域

本发明涉及数据处理技术领域，具体涉及基于信息安全的威胁文件检测系统。

背景技术

威胁文件检测系统是一种用于识别和防止恶意文件传播的安全工具。它使用各种技术和算法来分析文件，并确定是否存在潜在威胁。而该系统通常用于个人电脑和移动设备，保护免受恶意软件和病毒的侵害，从而帮助个人用户及时发现和清楚潜在的威胁文件，保护个人隐私和设备安全。

常规对于威胁文件检测的应用为，通过采集系统中个人用户设备上的文件行为数据，包括但不限于修改、复制、另存为等，并分别将一段时间内操作的数量作为每一文件参与LOF算法时的距离的参数，从而将离群程度较高的文件判定为威胁文件。但由于个人用户中，每一用户因为使用习惯以及方式的差异，反映在文件的操作数量以及时序分布特征并不相同，因此往往固定的LOF算法中离群因子的设定，取不到较好的结果，离群因子过大可能会导致对于威胁文件的检测敏感度不够，离群因子过小又可能将用户自身操作判定为离群。因此如何进行离群因子的动态设定较为关键。

发明内容

本发明提供，以解决现有的问题。

本发明的基于信息安全的威胁文件检测系统采用如下技术方案：

包括以下模块：

数据采集模块，用于采集每天每个文件每个时间段的操作总数据量；

时序数据差异分析模块，用于根据每天每个文件每个时间段的操作总数据量得到每天每个文件的时序数据；对每天每个文件的时序数据进行拟合得到拟合数据值；

根据每天每个文件每个时间段每种操作类型的操作数据量和任意一个文件在任意一个时间段出现的天数得到每天每个时间段的置信系数；

根据任意两天的时序数据和相同时间段操作的文件数量之间的差异得到置信系数的约束范围；

优化系数获取模块，用于根据每天每个文件在每个时间段的操作总数据量和拟合数据值之间的误差值和置信系数的约束范围得到每天每个文件的优化系数；

文件异常检测模块，用于根据每天每个文件的优化系数得到离群因子，通过离群因子检测威胁文件。

优选的，所述对每天每个文件的时序数据进行拟合得到拟合数据值，包括：

对每天每个文件的时序数据使用最小二乘法通过五次多项式函数拟合得到每天每个文件的拟合曲线；根据所述拟合曲线得到每天每个文件每个时间段的拟合数据值。

优选的，所述每天每个时间段的置信系数的公式为：

式中，表示第m天第i个时间段第g个文件的第j类操作数据量，/>表示第g个文件在第i个时间段中出现的天数，J表示第m天第i个时间段第g个文件的操作类型数量，G表示在第i个时间段中文件的个数，M表示总天数，/>表示第m天第i个时间段的置信系数，e表示自然常数。

优选的，所述根据任意两天的时序数据和相同时间段操作的文件数量之间的差异得到置信系数的约束范围，包括：

根据任意两天相同时间段操作的文件数量之间的差异得到任意两天之间的差异程度；获取任意两天的时序数据，根据任意两天的时序数据得到任意两天之间的相似系数；

根据任意两天之间的差异程度和任意两天之间的相似系数得到每天的行为习惯波动；

根据每天的行为习惯波动得到每天每个时间段的置信系数的约束范围。

优选的，所述任意两天之间的差异程度的公式为：

式中，表示第m天第i个时间段的文件数量，/>表示第r天第i个时间段的文件数量，/>表示第m天和第r天之间的差异程度，1440表示一天内所有时间段的数量。

所述获取任意两天的时序数据，根据任意两天的时序数据得到任意两天之间的相似系数，包括：

以一个时间段内所有文件的数量为数据点，以每天的时间段为顺序，获取第m天的时序数据，记为时序Hm；再获取第r天的时序数据，记为时序Hr；通过DTW算法对时序Hm和时序Hr进行两个序列之间的距离计算，将时序Hm和时序Hr之间的距离作为时序Hm和时序Hr之间的相似度；同理可以得到所有两个时序时间的相似度，并对所有的相似度进行线性归一化，得到任意两天归一化后的值，记为相似系数。

优选的，所述每天的行为习惯波动的获取方法包括：

每天的行为习惯波动的公式为：

式中，表示第m天和第r天之间的差异程度，/>表示第m天和除了第m天之外所有天数中的每天之间的差异程度的均值，/>表示第m天和第r天之间的相似系数，M表示总天数，/>表示第m天的行为习惯波动。

优选的，所述根据每天的行为习惯波动得到每天每个时间段的置信系数的约束范围，包括：

先将每天的行为习惯波动进行线性映射，映射在0到0.5之间，并以映射之后的行为习惯波动作为对置信系数约束的最小值min，将作为每天每个时间段的置信系数的约束范围。

优选的，所述根据每天每个文件在每个时间段的操作总数据量和拟合数据值之间的误差值和置信系数的约束范围得到每天每个文件的优化系数，包括：

每天的每个时间段的差异值进行调整的公式为：

式中，表示第m天第i个时间段的原始数据值，/>表示第m天第i个时间段的拟合数据值，/>表示第m天第i个时间段的置信系数，S表示每天每个时间段的置信系数的约束范围，/>表示第m天调整后的误差值，/>表示第m天第i个时间段的误差值，1440表示一天内所有时间段的数量；

选取最小时每个时间段对应的置信系数记为/>，将/>作为第i个时间段的最优差异值，将/>与第i个时间段的最优差异值的差值作为第i个时间段的最优拟合值，根据每个时间段的最优拟合值按照时间段的时间顺序得到每个文件每天的最优拟合值的时序数据；

通过DTW算法计算第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的距离，将第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的距离作为第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的相似度，再获取第m天内第g个文件与其余文件之间的相似系数的均值，作为第m天第g个文件在参与LOF算法时的优化系数。

优选的，所述根据每天每个文件的优化系数得到离群因子，通过离群因子检测威胁文件，包括：

通过每天每个文件的优化系数和预设阈值H得到LOF算法中的离群因子，记为L，具体为/>，其中，/>表示向上取整符号，H表示预设邻域大小阈值，/>表示每天每个文件的优化系数，/>表示每天每个文件的离群因子；然后对每个文件所有天数的离群因子进行线性归一化，得到每天每个文件归一化后的离群因子，记为/>；

当每天每个文件归一化后的离群因子时，则是威胁文件，当每天每个文件归一化后的离群因子/>时，则不是威胁文件；其中，N表示预设异常阈值。

本发明的技术方案的有益效果是：本发明通过对每一文件在长时序上的行为特征进行时序模型构建，并根据每一文件在每一天中的行为时序模型与其余文件的差异，对其本身存在的与用户行为习惯的差异进行分析，并根据该分析结果进行离群因子L优化，从而对于部分行为异常的文件给予更高的检测敏感度，而对于较为正常的给予较低的敏感度，从而增大了威胁文件的检测精度，同时还避免了由用户操作引起的正常文件的误判。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于信息安全的威胁文件检测系统的模块流程图；

图2为对时间段内的操作数量组成的多个散点按照时间段顺序进行拟合的示意图；

图3为两个序列的DTW匹配的示意图；

图4为另外两个序列的DTW匹配的示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于信息安全的威胁文件检测系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于信息安全的威胁文件检测系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于信息安全的威胁文件检测系统的模块流程图，该系统包括以下模块：

模块101：数据采集模块。

需要说明的是，在对威胁文件进行分析时，首先需要根据威胁文件在一段时间内的使用情况进行分析，由于威胁文件常常会在用户使用软件时会存在，所以根据用户依据时间顺序对威胁文件随时间顺序的变换情况，因此需要获取用户使用软件时每天每个文件的操作数据的多少进行分析。

具体地，通过操作日志记录，获取近一个月内软件中文件的被操作的天数，再获取每天每个文件的操作总数据量。其中，每个文件的操作包括打开、读取、写入、关闭等操作类型，则此处每天每个文件的操作总数据量包括每天每个文件所有操作类型被操作的总次数。日志数据是各种系统和应用程序在运行时生成的信息。这些数据包含系统事件、错误消息、性能指标和用户活动。例如，日志能够记录故障以及故障发生的时间，便于随后据此在代码中查找错误，从而解决问题。每个日志都带有时间戳，并显示在特定时间点发生的事件。日志可以显示操作系统中发生的事件，例如，连接尝试、错误和配置变更等。这些类型的日志被称为系统日志。与此不同，应用程序日志显示的是应用程序软件堆栈，特别是专用代理、防火墙以及其他软件应用程序，内所发生事件的信息。这些类型的日志会记录软件更改、CRUD操作、应用程序身份验证等信息。通过系统中的事件查看器进行日志获取，下方内容是以系统作为示例的，其中出现的警告，错误等操作。

至此，得到每天每个文件的操作总数据量。

模块102：时序数据差异分析模块。

需要说明的是，对于个人用户的电脑或移动端上的威胁文件检测，通常是通过某一文件自身的异常活动行为作为判定，而异常活动行为通常的判定方式为异常频繁的高于其余文件，但由于每人使用电脑时的习惯并不相同，因此，用户自身也可能会出现对于某一文件异常频繁的访问以及操作，因此仅仅基于某一文件在一段时间内的操作数量作为LOF中的判定依据，容易出现误判。但同时，个人用户的电脑或移动端，其通常在较长的时间内例如三个月的时长内，其通常以每一天为单位，在每一天的使用中都较为相近，例如某一用户在自己的电脑端办公，那么其在上班时间内的操作大多都与工作相关，对应所接触的文件以及每一文件的操作都较为相近，或某一用户其电脑端通常用于娱乐消遣，那么其对于电脑的使用通常固定在其下班时间，以及其所接触的文件以及操作同样也较为固定。上述逻辑是基于现在大部分人其生活习惯因工作，都较为固定的现实情况所提出的，因此普适性足够高。

进一步需要说明的是，基于上述思想，我们对于每一文件的LOF判定时，可以根据每一文件在时序上的操作所表现出的习惯，获取每一文件的行为时序数据，并根据某一文件与其余文件行为时序数据的差异作为某一文件自身所表现出来的异常操作习惯，并基于该异常操作习惯调整其在参与LOF算法时的敏感度大小，从而弹性的调整每一文件进行离群判定时的离群因子选取。

（1）根据每天每个文件每个时间段的操作总数据量获取每天每个文件的时序数据。

需要说明的是，由于本实施例是针对具体文件的异常检测，所以将针对每天每个文件分别进行分析，因此需要获取每天每个文件的时序数据。

具体地，获取近一个月内使用软件的天数，以一分钟为一个时间段，得到一天内的所有时间段，即为1440个时间段；再获取每天每个文件每个时间段操作总数据量；其中，操作有多种操作类型，一种操作类型有多个操作数据量，即每天每个文件每个时间段的操作总数据量是所述时间段所有操作类型的操作数据量之和；通过将每天每个文件每个时间段的操作总数据量作为一个数据点，以时间顺序获取每天每个文件的时序数据；对每天每个文件的时序数据使用最小二乘法通过五次多项式函数拟合得到每天每个文件的拟合曲线；根据所述拟合曲线得到每天每个文件每个时间段的拟合数据值。

至此，得到每天每个文件每个时间段操作总数据量、每天每个文件的时序数据和每天每个文件每个时间段的拟合值。

在得到每天每个文件每个时间段的拟合数据值之后，对根据每天每个文件每个时间段每种操作类型的操作数据量和任意一个文件在任意一个时间段出现的天数得到每天每个时间段的置信系数；根据任意两天的时序数据和相同时间段操作的文件数量之间的差异得到置信系数的约束范围。

更具体的：根据每天每个文件每个时间段每种操作类型的操作数据量和任意一个文件在任意一个时间段出现的天数得到每天每个时间段的置信系数；根据任意两天相同时间段操作的文件数量之间的差异得到任意两天之间的差异程度；获取任意两天的时序数据，根据任意两天的时序数据得到任意两天之间的相似系数；根据任意两天之间的差异程度和任意两天之间的相似系数得到每天的行为习惯波动；根据每天的行为习惯波动得到每天每个时间段的置信系数的约束范围。进一步的，首先计算置信系数和差异程度。

（2）根据每天每个文件每个时间段每个操作类型的操作数据量得到每天每个文件每个时间段的置信系数和每个文件任意两天之间的差异程度。

需要说明的是，在上述的时序数据中，主要由每一时间段内的操作数量组成的多个散点构成。常规构建行为时序模型，即通过最小二乘法对这些散点进行拟合，便可得到每一文件在每一天中的行为的分布情况，并通过曲线相似度计算，得到某一文件与其余大部分文件的差异，从而根据该差异，去评估当前文件的行为是否较为异常，是否主要分布在特殊的时间段内。但是最小二乘法在拟合时，由于需要考虑平滑程度，因此拟合曲线通常会与原数据点存在偏差。但由于每一数据点由于是由某一时间段内的操作数量所表示，但具体的，操作的复杂度，操作在该时间段内的聚集以及离散情况，以及每一时间段内，所涉及的其余文件都不相同，而用户在正常使用自己的电脑时，其通常操作内容都较为相近，同时操作内容涉及的文件以及文件的操作也较为相似，例如该用户可能每天晚上都会有用电脑看剧的习惯，而该习惯便会涉及到固定的文件，因此基于上述原因，在进行每一文件在每一天的行为时序模型的构建时，每一数据点在参与拟合时的偏差的容忍度是不同的，从而使得数据点参考价值更高，置信度更高的数据点对于曲线的趋势影响更高。请参阅图2，图2为对时间段内的操作数量组成的多个散点按照时间段顺序进行拟合的示意图。对拟合后得到的横坐标表示一天24小时对应的时间段，纵坐标为每一时间段对应的操作数量，其中不同的峰可能对应着当前设备的高功率的运行，多操作行为，对应引起了文件的大量运行。

进一步需要说明的是，对于用户来说，其自身在进行某些操作时，所涉及的文件数量通常较多，但此时这类时间段则主要表明了文件的操作是否是由用户所引起还是由文件自身异常自主行为。因此对于这类时间段，在曲线拟合中的参考价值是相对较高的。用户在大多数使用电脑时的操作都大多相同，而相同的用户操作会产生相同的文件操作，此时所调度的文件通常只由当前软件以及部分操作所决定，而存在威胁行为的文件，其做出的操作通常无论是时间还是数量与其余正常文件相比，在连续多天中，并不会表征出习惯即相同时间段下出现相同的操作这一特征。

具体地，对于第个时间段，通过计算同时间段内，所有天中的每一天内，所有文件的操作数量进行累加，同时对于该时间段内出现的所有文件中，根据每一文件在该时间段内重复出现的频次作为权重累计，从而得到当前第/>时间段对应的数据点在第/>天的行为时序数据中的置信系数。则第m天第i个时间段的置信系数的公式为：

通过计算第时间段内，第/>天中出现的所有文件的操作总数量与/>天中出现的所有文件的操作总数量进行比较，其占比越高，则表明由于文件数量以及操作数量相对都更高，则表明当前时间段越是由用户自身行为所决定的文件行为，因此在第/>天的行为时序数据的异常分析时，该时间段在拟合时的权重相对较高。

其中，的主要目的是为增大较大值与较小值的差距，使得出现频率较高的文件，在参与当前时间段下的计算时的贡献度更高。从而降低威胁文件的干扰。

至此，得到每天每个时间段的置信系数。

需要说明的是，上述步骤中考虑的是每一时间段中，根据用户自身习惯所表现出来的存在操作的文件在多天中出现的频次，从而对每一天中的每一时段所给予的置信系数。但进一步的，对于某些用户，其可能在长时间的情况下，并未表达出较高的习惯特征，或对于个人电脑的使用较为随机，因此，基于上述步骤中所得到的对于每一时间段的置信系数可能存在差异，因此，这里还需对每一时间段根据其与多天中同一时间段下的操作的差异所得到的置信系数进行约束。

具体地，根据不同天同一时间段的文件数量之间的差异得到任意两天之间的差异程度。则公式表示如下所示：

（3）根据每个文件任意两天之间的差异程度得到每天每个文件的习惯波动程度，根据每天每个文件的习惯波动程度和置信系数得到置信系数的区间范围。

获取第m天的时序数据，记为时序Hm；再获取第r天的时序数据，记为时序Hr；其中，所述时序数据中的每个数据点表示一个时间段内所有文件的数量。通过DTW算法对时序Hm和时序Hr进行两个序列之间的距离计算，将时序Hm和时序Hr之间的距离作为时序Hm和时序Hr之间的相似度；同理可以得到所有两个时序时间的相似度，并对所有的相似度进行线性归一化，得到任意两天归一化后的值，记为相似系数，用表示。请参阅图3，图3为两个序列的DTW匹配的示意图，其中两条曲线分别代表两个序列，两条曲线中间的灰色线条表征了序列中的DTW的匹配关系；图4为另外两个序列的DTW匹配的示意图，同样的，其中两条曲线分别代表两个序列，两条曲线中间的灰色线条表征了序列中的DTW的匹配关系。其中两个曲线的差异主要体现在两条曲线的整体上波形的差异上，如从图3中可以看出这两个数据曲线其在长时序下的操作行为差异较大，虽然开始部分差异较小，但从中间时间段开始，上方的操作行为便开始出现异常操作。

通过第m天与除了第m天之外的所有天数之间的差异，作为第m天的行为习惯波动。用公式表示为：

式中，表示第m天和第r天之间的差异程度，/>表示第m天和除了第m天之外所有天数中的任意一天之间的差异程度的均值，/>表示第m天和第r天之间的相似系数，M表示总天数，/>表示第m天的行为习惯波动。

其中，当越大，则表征第/>天与其余天中由文件数量所反映出来的操作差异越大，该天所表现出来的行为习惯差异越大，因此该天根据行为习惯得到的每一时间段的置信系数的约束越高。/>表示第/>天与第/>天的文件数量时序分布差异，该差异越大表示这两天中存在操作的时间段分布越不相似，即此时根据这两天进行行为习惯差异的分析时，权重应该相对较小。最终当/>越大，则表征第/>天此时的行为习惯差异较大，所得到的置信系数需要被约束的程度越高。

至此，得到每天的行为习惯波动。

根据行为习惯波动值对置信系数进行动态取值范围约束。

需要说明的是，由于置信系数越高，则该时间段的拟合参考度越高，因此该置信系数进行权重调节时的可信度相对较弱，即当任意一天的行为习惯差异越小，则该天中用户对于电脑的使用时间段分布越与其余天相近，此时根据上述步骤得到的用于表征时间段之间差异的置信度系数越可以表达出更高的差异，即扩大了最大值与最小值的差距。至此，得到了每一天中每一时间段参与拟合时的置信系数；通过每天的行为习惯波动对置信系数进行约束。

具体地，先将每天的行为习惯波动进行线性映射，映射在0到0.5之间（包含0和0.5），并以映射之后的行为习惯波动作为对置信系数约束的最小值min，以1为最大值对置信系数进行约束，将作为每天每个时间段的置信系数的约束范围。

至此，得到每天每个时间段的置信系数的约束范围。

模块103：优化系数获取模块。

需要说明的是，通过上述对每天每个时间段的置信系数的约束，获取每个数据点对应的原始值和拟合值之间的差异进行总的差异最小时每个时间段对应的差异获取每个最优范围，即获取最优拟合曲线。

将每天每个文件每个时间段操作总数据量记为每天每个文件每个时间段的原始数据值。

具体地，获取每个时间段的原始值和拟合值之间的差异，得到每天每个文件的误差函数，具体为：

式中，表示第m天第i个时间段的原始数据值，/>表示第m天第i个时间段的拟合数据值，其中每个数据值表示操作总数据量；/>表示第m天的误差值。

其中，此处时序数据是每天每个文件的时序数据，即每个数据点为每天每个文件在该时间段的操作总数据量。

根据误差函数和每天每个时间段的置信系数的约束范围获取每天每个文件的最优拟合曲线。

具体地，获取到每天每个文件的误差值；通过对每天每个文件的每个时间段的差异值进行调整，获取每天每个文件调整后的误差值，获取在调整后的误差值最小时每个时间段对应的最优差异值，即可以得到每天每个文件的最优拟合的时序数据。

获取调整后的总差异值的公式如下所示：

式中，表示第m天第i个时间段的原始数据值，/>表示第m天第i个时间段的拟合数据值，/>表示第m天第i个时间段的置信系数，S表示每天每个时间段的置信系数的约束范围，/>表示第m天调整后的误差值，/>表示第m天第i个时间段的误差值，1440表示一天内所有时间段的数量。

其中，是从小到大依次迭代获取每个值对应的/>，选取/>最小时每个时间段对应的置信系数记为/>，将/>作为第i个时间段的最优差异值，将/>与第i个时间段的最优差异值的差值作为第i个时间段的最优拟合值，根据每个时间段的最优拟合值按照时间段的时间顺序得到每个文件每天的最优拟合值的时序数据，记为/>，将第m天的最优拟合时序记为/>。

至此，得到每个文件每天的最优拟合时序。

通过DTW算法计算第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的距离，将第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的距离作为第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的相似度，再获取第m天内第g个文件与其余文件之间的相似系数的均值，作为第m天第g个文件在操作时被参与LOF算法时的优化系数。

同理，得到每天每个文件在在操作时被参与LOF算法时的优化系数。

至此，得到每天每个文件的优化系数。

模块104：文件异常检测模块。

预设一个邻域大小阈值H，其中本实施例以H=20为例进行叙述，本实施例不进行具体限定，其中H可根据具体实施情况而定。通过每天每个文件的优化系数和预设阈值H得到LOF算法中的离群因子，记为L，具体为/>，其中，/>表示向上取整符号，H表示预设阈值，/>表示每天每个文件的优化系数，/>表示每天每个文件的离群因子。然后对每个文件所有天数的离群因子进行线性归一化，得到每天每个文件归一化后的离群因子，记为。

预设一个异常阈值N，其中本实施例以N=0.8为例进行叙述，本实施例不进行具体限定，其中N可根据具体实施情况而定。当每天每个文件归一化后的离群因子时，则判定为威胁文件，当每天每个文件归一化后的离群因子/>时，则不是威胁文件。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于信息安全的威胁文件检测系统，其特征在于，该系统包括以下模块：

其中，每天每个时间段的置信系数的公式为：

式中，表示第m天第i个时间段第g个文件的第j类操作数据量，/>表示第g个文件在第i个时间段中出现的天数，J表示第m天第i个时间段第g个文件的操作类型数量，G表示在第i个时间段中文件的个数，M表示总天数，/>表示第m天第i个时间段的置信系数，e表示自然常数；

所述根据任意两天的时序数据和相同时间段操作的文件数量之间的差异得到置信系数的约束范围，包括：

根据每天的行为习惯波动得到每天每个时间段的置信系数的约束范围；

其中，任意两天之间的差异程度的公式为：

式中，表示第m天第i个时间段的文件数量，/>表示第r天第i个时间段的文件数量，表示第m天和第r天之间的差异程度，1440表示一天内所有时间段的数量；

其中，所述获取任意两天的时序数据，根据任意两天的时序数据得到任意两天之间的相似系数，包括：以一个时间段内所有文件的数量为数据点，以每天的时间段为顺序，获取第m天的时序数据，记为时序Hm；再获取第r天的时序数据，记为时序Hr；通过DTW算法对时序Hm和时序Hr进行两个序列之间的距离计算，将时序Hm和时序Hr之间的距离作为时序Hm和时序Hr之间的相似度；同理可以得到所有两个时序时间的相似度，并对所有的相似度进行线性归一化，得到任意两天归一化后的值，记为相似系数；

其中，所述每天的行为习惯波动的获取方法包括：

每天的行为习惯波动的公式为：

式中，表示第m天和除了第m天之外所有天数中的每天之间的差异程度的均值，/>表示第m天和第r天之间的相似系数，M表示总天数，/>表示第m天的行为习惯波动；

其中，所述根据每天的行为习惯波动得到每天每个时间段的置信系数的约束范围，包括：

先将每天的行为习惯波动进行线性映射，映射在0到0.5之间，并以映射之后的行为习惯波动作为对置信系数约束的最小值min，将作为每天每个时间段的置信系数的约束范围；

其中，所述根据每天每个文件在每个时间段的操作总数据量和拟合数据值之间的误差值和置信系数的约束范围得到每天每个文件的优化系数，包括：每天的每个时间段的差异值进行调整的公式为：

式中，表示第m天第i个时间段的原始数据值，/>表示第m天第i个时间段的拟合数据值，S表示每天每个时间段的置信系数的约束范围，/>表示第m天调整后的误差值，表示第m天第i个时间段的误差值；

通过DTW算法计算第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的距离，将第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的距离作为第m天内第g个文件的最优拟合时序与第m天内除了第g个文件之外所有文件中的任意一个文件的最优拟合时序之间的相似度，再获取第m天内第g个文件与其余文件之间的相似系数的均值，作为第m天第g个文件在参与LOF算法时的优化系数；

文件异常检测模块，用于根据每天每个文件的优化系数得到离群因子，通过离群因子检测威胁文件；

其中，所述根据每天每个文件的优化系数得到离群因子，通过离群因子检测威胁文件，包括：

2.根据权利要求1所述基于信息安全的威胁文件检测系统，其特征在于，所述对每天每个文件的时序数据进行拟合得到拟合数据值，包括：