CN116668192B

CN116668192B - 一种网络用户行为异常检测方法及系统

Info

Publication number: CN116668192B
Application number: CN202310919144.6A
Authority: CN
Inventors: 李明; 曲延盛; 王云霄; 黄华; 李宁; 张文斌; 赵丽娜; 毛波; 刘维特; 张婕; 刘子函; 任乐
Original assignee: Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-11-10
Anticipated expiration: 2043-07-26
Also published as: CN116668192A

Abstract

本发明属于移动设备、物联网、医疗健康等技术领域，提供了一种网络用户行为异常检测方法及系统。该方法包括，获取用户属性信息和用户的操作行为数据，对用户属性信息和操作行为数据进行预处理；根据预处理后的用户属性信息和用户的操作行为数据，分别进行聚类，得到用户类型和访问服务类型；根据用户的操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图；采用特征提取网络提取用户行为语义图的特征图；基于用户类型选择神经网络分析特征图，检测用户异常行为。

Description

一种网络用户行为异常检测方法及系统

技术领域

本发明属于移动设备、物联网、医疗健康等技术领域，尤其涉及一种网络用户行为异常检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

当前，网络业务日益复杂，接入的人员设备多样，其安全环境面临挑战。零信任安全策略就是针对，这一挑战提出，它认为在网络安全中，不能信任任何人或任何设备，所有的用户和设备都应该被认为是不受信任的。这种策略要求在网络通信中对每一个用户和设备都进行身份验证和授权，以确保只有授权的用户和设备才能够访问敏感数据和系统资源。因此，持续的网络用户行为检测与异常识别是实现零信任网络安全的重要手段。

但是传统网络用户行为分析方法的缺点主要有以下几个方面：第一、难以处理分布式数据：传统的网络用户行为分析方法通常只能处理单一设备的数据，难以应对分布式的数据。这种限制会导致分析结果不够全面和准确。第二、需要大量的人工干预：传统的网络用户行为分析方法通常需要大量的人工干预，例如需要专门的安全专家进行数据分析和处理。这种过程耗费时间和精力，且容易出现误判。第三、缺乏自适应性：传统的网络用户行为分析方法通常是预先设定好规则和模型，难以自适应地应对新的安全威胁和攻击。因此，这种方法容易被攻击者绕过。第四、缺乏隐私保护，容易造成用户敏感数据泄露，如果加强用户数据保护，则无法获取大规模训练数据，模型效果较差。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种网络用户行为异常检测方法及系统，其通过语义映射，保护了联邦节点的用户隐私，并通过行为语义图获取了用户行为的语义信息，结合时间轨迹挖掘，从而实现了对隐藏特征的抽取，提升了对用户行为异常检测的准确度，能够针对早期异常操作做出预警判断，大幅降低了网络中用户异常行为的危害。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种网络用户行为异常检测方法。

一种网络用户行为异常检测方法，包括：

获取用户属性信息和用户的操作行为数据，对用户属性信息和操作行为数据进行预处理；

根据预处理后的用户属性信息和用户的操作行为数据，分别进行聚类，得到用户类型和访问服务类型；

根据用户的操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；

构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图；

采用特征提取网络提取用户行为语义图的特征图，基于用户类型选择神经网络分析特征图，检测用户异常行为。

进一步地，所述预处理包括：对数据进行预处理，去除涉及隐私的敏感信息。

进一步地，所述以访问时间和访问服务类型为坐标具体包括：以访问时间为横坐标，访问服务类型为坐标，横坐标以设定的时间粒度为单位；纵坐标以每种服务为单位，按照聚类的距离远近顺序排序。

进一步地，所述检测用户异常行为包括检测用户当前操作是否异常和预测未来操作存在异常的类型。

本发明的第二个方面提供一种网络用户行为异常检测系统。

一种网络用户行为异常检测系统，包括：

用户行为抽取模块，其被配置为：获取用户属性信息和用户的操作行为数据，对用户属性信息和操作行为数据进行预处理；根据预处理后的用户属性信息和用户的操作行为数据，分别进行聚类，得到用户类型和访问服务类型；根据用户的操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图；采用特征提取网络提取用户行为语义图的特征图；

集成分析模块，其被配置为：基于用户类型选择神经网络分析特征图，检测用户异常行为。

本发明的第三个方面提供一种网络用户行为异常检测方法。

一种网络用户行为异常检测方法，包括：

客户端采集用户属性信息和用户的操作行为数据，对用户属性信息和操作行为数据进行预处理；根据预处理后的用户属性信息和用户的操作行为数据，分别进行聚类，得到用户类型和访问服务类型；根据用户的操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图；采用特征提取网络提取用户行为语义图的特征图，并将特征图和用户类型发送至联邦服务器；

联邦服务器基于用户类型，采用选择神经网络分析特征图，检测用户异常行为。

进一步地，所述网络用户行为异常检测方法，还包括：

将特征提取网络分别部署在客户端和联邦服务器，将神经网络部署联邦服务器上；

客户端根据历史用户属性信息和用户的历史操作行为数据，对历史用户属性信息和用户的历史操作行为数据进行预处理；并将预处理后的历史用户属性信息和用户的历史操作行为数据发送至联邦服务器；

联邦服务器根据预处理后的历史用户属性信息和用户的历史操作行为数据分别进行聚类，得到历史用户类型和历史访问服务类型；根据用户的历史操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图，以此构建训练集和测试集；

联邦服务器采用训练集训练联邦服务器上的特征提取网络和神经网络，并将训练好的特征提取网络对客户端上的特征提取网络进行更新，且将联邦服务器上的聚类方法和用户行为语义图构建方法映射至客户端。

本发明的第四个方面提供一种网络用户行为异常检测系统。

一种网络用户行为异常检测系统，包括：若干个客户端和联邦服务器，每个客户端与联邦服务器进行相互通讯；

客户端，用于采集用户属性信息和用户的操作行为数据，对用户属性信息和操作行为数据进行预处理；根据预处理后的用户属性信息和用户的操作行为数据，分别进行聚类，得到用户类型和访问服务类型；根据用户的操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图；采用特征提取网络提取用户行为语义图的特征图，并将特征图和用户类型发送至联邦服务器；

联邦服务器，用于基于用户类型，采用选择神经网络分析特征图，检测用户异常行为。

本发明的第五个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的网络用户行为异常检测方法中的步骤。

本发明的第六个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的网络用户行为异常检测方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明首先定义了一套统一的语义映射方法，能将网络用户的操作行为映射为一个行为标签，各个独立的电力网络系统基于该映射方法将其内部用户的操作行为映射为相应的语义标记，并通过构建时间与语义坐标，将用户在一段时间内（通常为小时）的网络行为转换为一个时空语义图，并用该图描述用户连续的行为构建用户行为轨迹；通过联邦系统交互框架，汇聚多个分系统的用户行为轨迹，并根据其特征进行行为标记，对网络攻击等异常行为进行标注，从而构建训练数据集；在训练数据集的基础上，采用特征提取网络提取行为语义图的特征，在此基础上利用神经网络分析用户行为轨迹的安全特性，从而实现对异常用户行为的检测；训练好的模型将分发到各个联邦系统用于其各自的用户行为检测。本发明通过语义映射，保护了客户端（联邦节点）的用户隐私，并通过行为语义图获取了用户行为的语义信息，结合时间轨迹挖掘，从而实现了对隐藏特征的抽取，提升了对用户行为异常检测的准确度，能够针对早期异常操作做出预警判断，大幅降低了网络中用户异常行为的危害。

本发明采用特征提取网络提取特征图，使得用户个人信息与行为操作的隐私信息被进一步屏蔽，无法通过对用户操作特征信息的分析还原用户实际的操作，从而降低了数据泄露的风险，实现了对用户行为进行分析的同时，保护用户隐私，扩大了系统的适用范围，能够有效保障用户数据安全。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一示出的网络用户行为异常检测方法的流程图；

图2是本发明实施例二示出的网络用户行为异常检测系统的框架图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种网络用户行为异常检测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

本实施例致力于减少内部漏洞，发现用户异常操作，规范网络安全行为，提前发现并处置可能存在的安全隐患，大幅度提升公司网络安全防护水平，及时发现用户、设备及系统面临的攻击风险。

具体地，本实施例采用自然语言标记方法，对用户的操作进行语义描述，主要内容包括操作的目的、操作的方法、操作的安全规范、操作的人员、操作对系统的安全影响等内容。

用户属性信息采用自然语言描述方法，对用户本身的职位、所在部门、网络安全要求、年龄、性别、家庭情况、性格等信息。

操作行为异常标记主要通过专家或用户分析方法，对异常的用户操作进行标记，主要涉及网络攻击、非法访问、信息监听等异常情况。

通过对系统内部用户的基本信息进行描述，并生成其内部不同类型操作的特征，结合用户在系统内部的操作日志进行数据上传；对所上传的数据；针对上传的数据，可通过数据清洗，进行选择与调整，去除涉及隐私的敏感信息；主要上传用户异常信息，附带具有部分正常操作作为对比信息，从而降低了数据泄露，保护了用户隐私。同时，由于数据来自多个节点，具有较广的覆盖面，提供数量多样的训练数据集，从而提高了整体检测的准确性。

具体地，聚类的过程可以包括：对用户的基本属性采用自然语言方式进行描述，建立用户或网络服务的语义属性表达；采用分词方法将属性信息进行分割，并去除其中的标点符号、无意义的介词等停止词，构建词袋表达；使用Word2Vec算法将词袋中的特征词转换为向量表达，其中词向量维度设定为200，并采用EMD运土者距离算法，计算两个词袋之间的距离，其中词向量之间采用余玄相似度计算距离；利用Kmeans算法对所有的属性数据进行聚类，分别建立用户和所访问的服务两个类型，并给出聚类中心。其中用户类型设定为20种，访问服务类型设定为48种。

其中，构建用户行为语义图的过程包括：将用户一天内的所有访问或服务调用操作进行记录，获取其访问时间、频次、数据量、持续时长信息；以访问时间作为横坐标、访问服务的类型作为纵坐标，并将频次、数据量、持续时长信息作为像素信息，从而将用户在一天内的操作行为转换为一张图片，即用户行为语义图。图片的横坐标为一天时间按照每半个小时为单位，纵坐标以每种服务为单位，其中服务按照聚类的距离远近顺序排列。

具体地，特征提取网络可以采用CNN模型、VGG网络模型等，下面以CNN模型为例进行说明，对获取到的用户行为语义图，构建一个多层CNN分类期，包含5个CNN层，输入为48×48，输出为一个100维的特征向量。

神经网络可以采用LSTM、BRNN、GRU等网络，下面以LSTM网络为例进行说明。首先，针对不同的用户类型，构建相应的LSTM异常检测模型；对每个用户一段时间内的行为特征设定标记，表示当天是否行为异常，将CNN模型的特征向量作为输入，异常状态作为目标，对LSTM与CNN模型进行联合训练，其中CNN模型为统一模型，而LSTM模型至少有20个，分别针对不同用户进行训练。

其中，LSTM模型包括一个输入门、一个遗忘门、一个输出门和一个细胞状态，通过控制这些门的开关，可以控制信息的流动和保留。针对不同类型的用户，设计多个独立的LSTM模型进行分析，从而提高分析的准确度。

对于新的用户数据，利用特征提取网络和神经网络构成的全局模型进行预测，并计算预测结果与真实结果之间的误差，判断用户是否存在异常行为。

当检测到异常用户时，将该异常信息上传，以便其他端能够利用这个信息来更新模型，从而提高全局模型的检测能力。

实施例二

本实施例提供一种网络用户行为异常检测系统。

如图2所示，一种网络用户行为异常检测系统，包括：

此外，本实施例的网络用户行为异常检测系统还可以包括动态更新模块，该模块，用于收集典型用户行为信息，构建训练与测试数据集，并通过对特征提取网络和神经网络的训练与优化，更新相应的模块，并发送到设备上，从而实现对相应模块的自动更新。

其中，用户行为抽取模块的详细过程为：

1、用户行为数据获取。本实施例采用用户行为日志记录方式，获取用户对相关服务的访问信息，具体记录访问的开始时间、频率、访问产生的数据量信息，该信息的记录主要通过读取服务器上相应的日志文件获取，

为保证用户日志获取的及时性，每天凌晨对用户前一天的数据进行整理与记录，并针对每个用户建立相应的每日行为轨迹，从而实现对用户行为的连续性分析；

本实施例提供了可以扩展的用户日志获取模块，针对不同的网络服务，可以通过外部数据记录的方式，在不影响相应服务提供的情况下，实现对用户行为的记录，从而广泛全面获取用户行为数据。

2、行为数据语义图像生成。将用户在系统中的操作日志转换为对某个服务的访问开始时间、持续时间、访问频次、发送接收的数据量信息进行抽取，并将其访问时间与服务类型进行映射，从而获取该次访问的时间语义坐标（时间x，语义y）作为像素位置，并将其持续时间、访问频次与数据量作为像素点的数值；获取一天内用户所有的操作行为信息，并将其记录在一张语义图片上。

访问时间按照每半个小时进行划分，从而获得一天的48个坐标位置，例如上午9点-9：30之间的访问，其在第18个坐标位置上，因此时间坐标x为18；同时将所有服务也通过从联邦节点所获得的方法分为48种类型，第i种类型的y坐标为i，从而获得相应的图像坐标（x, y）；例如若上午9点-9：30之间的访问类型为i，则对应的图像坐标为（18，i）。

所生成的语义图像为48×48×3像素，每个用户每天的行为可以转化为1张语义图片。子系统将保存该用户连续行为语义图像，作为其一段时间内的语义行为轨迹，并以此检测用户行为是否存在异常。

3、基于CNN的用户行为特征抽取。利用训练好的CNN特征抽取算法，对用户行为语义图片进行语义特征提取，将用户输入图片转换为一个100维的特征向量，并利用训练好的用户分类算法，获取用户类型，将用户类型与一段周期内用户行为特征向量及其对应的日期作为抽取的用户行为特征，发送到集成分析节点进行进一步的判断与分析，从而判别用户行为是否异常。

本实施例通过该特征抽取操作，用户个人信息与行为操作的隐私信息被进一步屏蔽，无法通过对用户操作特征信息的分析还原用户实际的操作，从而降低了数据泄露的风险，实现了对用户行为进行分析的同时，保护用户隐私，扩大了系统的适用范围，能够有效保障用户数据安全。

其中，集成分析模块的训练和学习步骤为：

1、获取用户类型与行为特征轨迹。将用户发送的行为特征向量信息与对应的时间特征进行结合，构建一个128维的时间行为特征，并将一段时间的行为数据链接成一个特征轨迹作为后续行为异常检测的输入数据。

时间特征抽取主要包括通过对所提供的日期信息提取其相应的工作日、星期、节日等时间特征，并构建一个28维的时间特征，将该特征与抽取的100维用户单日行为特征进行连接，从而构造新的行为时间特征。

特征轨迹一般为1周-2周内的用户行为特征集合，因此包含多个连续的行为特征，并反映其每天的行为操作信息，因此可以用于LSTM时序分析。

2、调用相应用户类型的LSTM分析算法实现异常检测。由于系统内不同用户其行为特征及其异常操作类型不同，因此首先需要根据用户类型，选择相应的LSTM分析方法，再将用户行为特征轨迹作为输入，获取其每日操作是否存在异常。LSTM方法可以接收不定长度的用户行为轨迹，对其一定时间内的行为进行统一分析，因此可以大幅降低子节点发送数据的频率，但如果检测间隔时间过长，则会降低分析的时效性，因此本发明采用每周发送一次用户行为信息，每次发送之前一个月的用户操作特征，由于用户的行为特征为100维向量，其数据量不会对网络产生影响。

根据实际应用，将用户分为20个主要类型，并分别训练20个LSTM模型，用于对用户行为的分析，每个类型的用户对应一个特定的LSTM模型，因此实现了对不同用户的特征分析，体现了系统的灵活性。

所提供的LSTM模型能够分析用户当前操作是否异常，并对其未来可能的异常进行预测，因此LSTM的预测输出包含两个数据：当天操作的异常类型，未来是可能存在的异常类型。

3、对异常信息进行确认，将分析结果反馈用户，并更新训练数据集。由于网络中大部分操作均为正常操作，异常操作较少，因此对检测到的异常信息要进行二次确认，并将结果发送到目标子节点，由其进行进一步分析判断，从而确定网络的安全状态，并反馈系统分析是否正确。

用户节点需要根据检测的异常结果，调整网络安全策略，并对相应的用户进行管控，消除网络安全隐患，并追究相关责任人。

联邦系统则将相关异常信息的原始信息包括用户日志等数据进行抽取，并对异常检测的结果进行标记，从而更新异常行为数据库，用于后续的模型改进训练。

本发明实施例全自动用户网络行为识别机制与二次确认流程，可以大幅降低网络监管工作量，并确保异常行为的识别准确度，防止误报。

具体地，动态更新模块实现的过程为：

1、动态更新过程的触发。当网络中服务类型增加、用户类型变化以及异常行为数据集更新超过30%时，触发模块动态更新过程。

服务类型增加主要包括系统内部上线新服务，已有服务升级，已有服务下线，访问的目标服务更新等；

用户类型变动主要包括新用户注册、用户注销、用户权限变动等；

异常数据更新主要指联邦节点中的网络异常行为数据量的增加。

2、训练用户服务分类模型。如果网络中服务类型增加或用户类型变化，则首先需要重新训练用户分类与服务分类模型。各个子节点需要上传相应的用户特征信息与服务特征信息，联邦节点对各个子节点数据进行集成，重新训练用户分类与服务分类模型。

用户分类模型的训练主要基于用户基本信息，其分类个数可以根据系统变化进行调整，如果用户分类个数有所变动，则需要增加相应的LSTM分析模型；

服务分类的模型主要用于对服务类型进行划分，其类型数量也可以根据系统需求进行变动，变动后所生成的用户语义图像的大小会发送相应的编号，同时语义抽取CNN模型的输入参数部分也要进行相应的调整

3、训练CNN-LSTM模型。根据更新后的训练数据重新训练CNN-LSTM模型，并且需要按照用户类型，服务类型的新数量来自动调整CNN与LSTM模型的超参数。

CNN模型主要涉及用户行为语义图像的生成与模型输入大小的确定，需要根据新的服务分类数量进行设置，输出仍为100维；

LSTM需要根据用户类型数量进行调整，新增或删除相应的异常分析类型，此外输出的异常类型也需要根据数据的更新进行相应调整，从而适应新的网络行为异常；

模型训练时需要对历史数据进行重新的特征生成与异常标记更新，并重新训练CNN-LSTM模型，从而实现模型的向前兼容与进化。

4、更新子节点与联邦节点分析模型。模型重新训练好后需要将用户分类模型、服务分类模型以及CNN特征提取模型重新部署到各个子节点，从而实现子节点模型更，将联邦节点的LSTM模型替换为新训练后的模型。

子节点模型更新后所有的新的异常检测需要调用新模型进行分析，并上传新的用户行为特征轨迹用于异常检测

实施例三

本实施例提供了一种网络用户行为异常检测方法。

一种网络用户行为异常检测方法，包括：

下面对本实施例进行具体描述：

首先，各个客户端（子节点）对其内部用户行为信息进行初始化数据预处理，实施数据清洗、操作语义属性描述、用户属性语义描述、操作行为异常标记等，将处理后的数据发送给联邦服务器。

具体地，本实施例采用自然语言标记方法，对用户的操作进行语义描述，主要内容包括操作的目的、操作的方法、操作的安全规范、操作的人员、操作对系统的安全影响等内容；

用户属性信息采用自然语言描述方法，对用户本身的职位、所在部门、网络安全要求、年龄、性别、家庭情况、性格等信息；

操作行为异常标记主要通过专家或用户分析方法，对异常的用户操作进行标记，主要涉及网络攻击、非法访问、信息监听等异常情况；

子节点通过对系统内部用户的基本信息进行描述，并生成其内部不同类型操作的特征，结合用户在系统内部的操作日志进行数据上传；对所上传的数据，子节点可通过数据清洗，进行选择与调整，去除涉及隐私的敏感信息，主要上传用户异常信息，附带具有部分正常操作作为对比信息，从而降低了数据泄露，保护了用户隐私。同时，由于数据来自多个节点，具有较广的覆盖面，提供数量多样的训练数据集，从而提高了整体检测的准确性。

其次，联邦服务器收到各个子节点上报的用户信息，对各个子节点上报的用户属性、操作语义进行分析，构建用户聚类与操作语义映射模型，并训练利用CNN实现特征抽取，针对不同用户类型构建相应的LSTM分析模型，实现异常行为检测；

其中，语义分类算法的训练和学习步骤为：对用户的基本属性采用自然语言方式进行描述，建立用户或网络服务的语义属性表达；采用分词方法将属性信息进行分割，并去除其中的标点符号、无意义的介词等停止词，构建词袋表达；使用Word2Vec算法将词袋中的特征词转换为向量表达，其中词向量维度设定为200，并采用EMD运土者距离算法，计算两个词袋之间的距离，其中词向量之间采用余玄相似度计算距离；利用Kmeans算法对所有的属性数据进行聚类，分别建立用户和所访问的服务两个类型，并给出聚类中心。其中用户类型设定为20种，访问服务类型设定为48种。

其中，用户行为语义映射模型的实现步骤为：将用户一天内的所有访问或服务调用操作进行记录，获取其访问时间、频次、数据量、持续时长信息；以访问时间作为横坐标、访问服务的类型作为纵坐标，并将频次、数据量、持续时长信息作为像素信息，从而将用户在一天内的操作行为转换为一张图片。图片的横坐标为一天时间按照每半个小时为单位，纵坐标以每种服务为单位，其中服务按照聚类的距离远近顺序排列。

其中CNN模型训练的步骤为：对获取到的用户行为语义图像，构建一个多层CNN分类期，包含5个CNN层，输入为48×48，输出为一个100维的特征向量。

其中LSTM模型的训练步骤为：针对不同的用户类型，构建相应的LSTM异常检测模型；对每个用户一段时间内的行为特征设定标记，表示当天是否行为异常，将CNN模型的特征向量作为输入，异常状态作为目标，对LSTM与CNN模型进行联合训练，其中CNN模型为统一模型，而LSTM模型有20个，分别针对不同用户进行训练。

再次，在每个子节点设备上，使用联邦服务器上的CNN模型对本地模型进行更新，并采用联邦服务器提供的用户分类与用户行为映射方法，将本地用户的操作进行映射，并上报用户类型与CNN特征提取结果至联邦服务器；如果联邦服务器重新训练了模型，则子节点需要更新用户分类模型，语义映射模型，CNN模型。

最后，联邦服务器根据子节点上报的用户类型，调用相应的LSTM分类检测模型，分析用户操作是否存在异常状态，并将结果反馈给相应的子节点。同时系统运行一段时间后，如果出现新的服务和用户，则需要重新对联邦服务器中的分析模型进行更新，重新从子节点采集数据，训练所有模型，并更新子节点模型。

本发明提出的模型更新策略能够识别新的网络威胁，并根据网络中的用户与服务变化进行自动调整，在支持对历史异常的检测的同时，提供了应对新型威胁的手段，确保了系统的连续性与一致性。

实施例四

本实施例提供了一种网络用户行为异常检测系统。

具体地，客户端提取网络用户行为特征，采用了语义映射与CNN特征提取的方法，从而保护了用户的数据隐私，并降低了行为数据的传输量，提高了检测效率；该模块主要运行于联邦系统的子节点，一方面利用了子节点各自的计算能力，并保证用户的基础信息不被传输与泄露。

联邦服务器，对不同的用户类型采用相应的LSTM分析预测，从而预测用户行为是否为异常状态，目前主要的异常行为包括非法数据采集、非授权访问、拒绝服务攻击等方式，并可以根据系统实际情况进行扩充。

该系统通过收集子节点上的典型用户行为信息，构建训练与测试数据集，并通过对网络用户行为抽取CNN模型与集成分析LSTM模型的训练与优化，更新相应的网络，并发送到客户端与服务器从而实现自动更新。

本发明采用全自动AI特征分析与二次确认方法，摆脱了以往只注用户行为人工分析的特点，提供了良好的自动分析框架，并保留了人工分析的准确性，使得手动分析专注于网络实际威胁，降低了分析成本，提高了分析的有效性与实时性。

本发明采用了联邦学习框架，将用户行为操作转化为特征向量，降低了敏感数据的传输需求，模型训练期间仅需要上传部分训练数据与异常用户行为信息，实现了用户信息的有效隐私保护。目前系统能够识别10种以上的网络操作异常状态，经过有监督学习，网络异常行为的识别率已达到了78%。再经过人工确认机制，进一步降低了误报率。系统采取多方复核的方式，层层验证，尽可能减少对业务系统造成的影响。

本发明可以对网络行为进行预测，通过与之前数据的对比，预测未来可能发生的异常行为，其识别准确度接近64%，能够做到应急响应及时、准确。

本发明致力于减少内部漏洞，规范网络安全行为，提前发现并处置已有安全隐患，大幅度提升网络安全防护水平，及时发现设备及系统面临的攻击风险。

本发明可以应用于各种联邦学习场景中，包括移动设备、物联网、医疗健康等领域，具有广泛的应用前景。

实施例五

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的网络用户行为异常检测方法中的步骤。

实施例六

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的网络用户行为异常检测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络用户行为异常检测方法，其特征在于，包括：

获取用户属性信息和用户的操作行为数据，对用户属性信息和操作行为数据进行预处理；根据预处理后的用户属性信息和用户的操作行为数据，分别进行聚类，得到用户类型和访问服务类型；根据用户的操作行为数据，得到不同访问服务类型的访问时间、频次、数据量和持续时长信息；构建以访问时间和访问服务类型为坐标，以频次、数据量和持续时长信息为像素信息，构建用户行为语义图；采用特征提取网络提取用户行为语义图的特征图；

在该过程中，具体步骤有：针对上传的数据，通过数据清洗，进行选择与调整，去除涉及隐私的敏感信息；主要上传用户异常信息，附带具有部分正常操作作为对比信息，降低数据泄露，保护用户隐私；数据来自多个节点，具有广泛的覆盖面，提供数量多样的训练数据集，提高了整体检测的准确性；利用训练好的特征抽取算法，对用户行为语义图片进行语义特征提取；

基于用户类型选择神经网络分析特征图，检测用户异常行为；

在该过程中，具体步骤有：系统内不同用户其行为特征及其异常操作类型不同，首先根据用户类型，选择相应的LSTM分析方法，再将用户行为特征轨迹作为输入，获取其每日操作是否存在异常；所提供的LSTM模型能够分析用户当前操作是否异常，并对其未来可能的异常进行预测；LSTM的预测输出包含两个数据：当天操作的异常类型，未来可能存在的异常类型；网络中大部分操作均为正常操作，异常操作较少，需要对检测到的异常信息要进行二次确认；

所述用户行为特征轨迹具体为：将用户发送的行为特征向量信息与对应的时间特征进行结合，构建一个时间行为特征，并将行为数据链接成一个特征轨迹作为后续行为异常检测的输入数据；

收集典型用户行为信息，构建训练与测试数据集，并通过对特征提取网络和神经网络的训练与优化，更新相应的模块，并发送到客户端上，实现对相应模块的自动更新；

在该过程中，具体步骤有：当网络中服务类型增加、用户类型变化以及异常行为数据集更新超过30%时，触发模块动态更新过程；对于新的用户数据，利用特征提取网络和神经网络构成的全局模型进行预测，并计算预测结果与真实结果之间的误差，判断用户是否存在异常行为，当检测到异常用户时，将异常信息上传，以便客户端能够利用信息来更新模型，提高全局模型的检测能力。

2.根据权利要求1所述的网络用户行为异常检测方法，其特征在于，所述以访问时间和访问服务类型为坐标具体包括：以访问时间为横坐标，访问服务类型为坐标，横坐标以设定的时间粒度为单位；纵坐标以每种服务为单位，按照聚类的距离远近顺序排序。

3.一种网络用户行为异常检测系统，其特征在于，包括：

集成分析模块，其被配置为：基于用户类型选择神经网络分析特征图，检测用户异常行为；

在该过程中，具体步骤有：当网络中服务类型增加、用户类型变化以及异常行为数据集更新超过30%时，触发模块动态更新过程；对于新的用户数据，利用特征提取网络和神经网络构成的全局模型进行预测，并计算预测结果与真实结果之间的误差，判断用户是否存在异常行为。

4.一种网络用户行为异常检测方法，其特征在于，包括：

联邦服务器基于用户类型，采用选择神经网络分析特征图，检测用户异常行为；

5.根据权利要求4所述的网络用户行为异常检测方法，其特征在于，所述网络用户行为异常检测方法，还包括：

6.一种网络用户行为异常检测系统，其特征在于，包括：若干个客户端和联邦服务器，每个客户端与联邦服务器进行相互通讯；

联邦服务器，用于基于用户类型，采用选择神经网络分析特征图，检测用户异常行为；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一项所述的网络用户行为异常检测方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2中任一项所述的网络用户行为异常检测方法中的步骤。