CN111581258A

CN111581258A - 一种安全数据分析方法、装置、系统、设备及存储介质

Info

Publication number: CN111581258A
Application number: CN202010391949.4A
Authority: CN
Inventors: 黄震宇; 柳春懿; 胡育辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-08-25
Anticipated expiration: 2040-05-11
Also published as: CN111581258B

Abstract

本申请实施例公开了一种安全数据分析方法、装置、系统、设备及存储介质，该方法包括：获取被监测系统产生的原始安全数据；对原始安全数据进行预处理得到待分析安全数据；将待分析安全数据划分为统计数据和分布式数据；对由统计数据所属的属性组成的第一属性集合，根据其中各种属性下的统计数据量，确定各种属性各自的重要度和/或覆盖度，基于此选出第一目标属性；对由分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据其中各种属性下的分布式数据，确定各种属性各自的重要度，基于此选出第二目标属性；根据第一目标属性和第二目标属性对应的安全数据，确定安全数据分析结果。基于该安全数据分析结果能够制定出有效的安全防护策略。

Description

一种安全数据分析方法、装置、系统、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种安全数据分析方法、装置、系统、设备及存储介质。

背景技术

安全数据分析，是指利用特定的手段对网络安全运维相关的数据进行挖掘和分析。安全策略开发人员可以基于安全数据分析结果，制定相应的安全策略，以抵御网络攻击行为和威胁行为，弥补安全防护措施的不足。

现阶段，主要由相关技术人员人工对安全数据进行分析，受到主观知识经验的限制，相关技术人员分析安全数据时，通常只关注几种具有典型属性的安全数据。在安全数据日益多样化的今天，上述安全数据分析方式难以客观全面地衡量安全数据涉及的各种属性，容易忽略一些对于制定安全策略有帮助的属性，因而难以保证安全数据分析结果的准确性，对后续安全策略的制定也会产生一定的影响；此外，人工分析安全数据速度慢、效率低，难以满足如今大数据时代的需求。

发明内容

本申请实施例提供了一种安全数据分析方法、装置、系统、设备及存储介质，能够保证最终获得的安全数据分析结果的准确性，有利于据此制定有效的安全策略。

有鉴于此，本申请第一方面提供了一种安全数据分析方法，所述方法包括：

获取原始安全数据；所述原始安全数据包括被监测系统产生的数据；

对所述原始安全数据进行预处理，得到待分析安全数据；

将所述待分析安全数据划分为统计数据和分布式数据；所述统计数据具有聚集特征，所述分布式数据具有非聚集特征；

针对由所述统计数据所属的属性组成的第一属性集合，根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的重要度和/或覆盖度；根据所述第一属性集合中各种属性各自的重要度和/或覆盖度，从所述第一属性集合中选出第一目标属性；

针对由所述分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据所述第二属性集合中各种属性下的分布式数据，确定所述第二属性集合中各种属性各自的重要度；根据所述第二属性集合中各种属性各自的重要度，从所述第二属性集合中选出第二目标属性；

根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定安全数据分析结果。

本申请第二方面提供了一种安全数据分析装置，所述装置包括：

数据获取模块，用于获取原始安全数据；所述原始安全数据包括被监测系统产生的数据；

预处理模块，用于对所述原始安全数据进行预处理，得到待分析安全数据；

数据划分模块，用于将所述待分析安全数据划分为统计数据和分布式数据；所述统计数据具有聚集特征，所述分布式数据具有非聚集特征；

统计数据分析模块，用于针对由所述统计数据所属的属性组成的第一属性集合，根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的重要度和/或覆盖度；根据所述第一属性集合中各种属性各自的重要度和/或覆盖度，从所述第一属性集合中选出第一目标属性；

分布式数据分析模块，用于针对由所述分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据所述第二属性集合中各种属性下的分布式数据，确定所述第二属性集合中各种属性各自的重要度；根据所述第二属性集合中各种属性各自的重要度，从所述第二属性集合中选出第二目标属性；

结果确定模块，用于根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定安全数据分析结果。

本申请第三方面提供了一种安全数据分析系统，所述系统包括：预处理引擎、分发引擎、选举引擎、定量分析引擎和分析引擎；所述选举引擎和所述定量分析引擎部署于分布式云计算平台；

所述预处理引擎，用于对原始安全数据进行预处理，得到待分析安全数据；所述原始安全数据包括被监测系统产生的数据；

所述分发引擎，用于将所述待分析安全数据划分为统计数据和分布式数据，将所述统计数据发送给所述定量分析引擎，将所述分布式数据发送给所述选举引擎；所述统计数据具有聚集特征，所述分布式数据具有非聚集特征；

所述定量分析引擎，用于针对由所述统计数据所属的属性组成的第一属性集合，根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的重要度和/或覆盖度；根据所述第一属性集合中各种属性各自的重要度和/或覆盖度，从所述第一属性集合中选出第一目标属性；

所述选举引擎，用于针对由所述分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据所述第二属性集合中各种属性下的分布式数据，确定所述第二属性集合中各种属性各自的重要度；根据所述第二属性集合中各种属性各自的重要度，从所述第二属性集合中选出第二目标属性；

所述分析引擎，用于根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定安全数据分析结果。

本申请第四方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的安全数据分析方法的步骤。

本申请第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的安全数据分析方法的步骤。

本申请第六方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的安全数据分析方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种安全数据分析方法，该方法从定量分析和定性分析两个维度并行出发，客观全面地衡量安全数据涉及的各种属性的重要程度，进而基于重要属性对应的安全数据，确定对于制定安全策略具有参考意义的安全数据分析结果。具体的，在本申请实施例提供的方法中，对所获取的原始安全数据进行预处理得到待分析安全数据后，将待分析安全数据划分为具有聚集特征的统计数据和具有非聚集特征的分布式数据；针对统计数据涉及的属性，采用定量分析的方式确定各种属性的重要度和/或覆盖度，进而基于此从统计数据涉及的属性中选出第一目标属性；针对分布式数据涉及的属性，借助机器学习模型采用定性分析的方式确定各种属性的重要度，进而基于此从分布式数据涉及的属性中选出第二目标属性；最终，根据第一目标属性和第二目标属性各自对应的安全数据，确定安全数据分析结果。相比相关技术中人工分析安全数据的实现方式，本申请实施例提供的方法可以基于数据特征将安全数据划分为统计数据和分布式数据，采用定量分析的方式衡量统计数据涉及的各种属性的重要程度，采用定性分析的方式衡量分布式数据涉及的各种属性的重要程度，如此实现客观全面地衡量安全数据涉及的各种属性，进而基于衡量结果从安全数据涉及的各种属性中选出对于制定安全策略具有较高参考价值的属性，并结合该属性对应的安全数据生成安全数据分析结果，保证了安全数据分析结果的准确性和可靠性，并且还能够提高安全数据分析效率。

附图说明

图1为本申请实施例提供的安全数据分析方法的应用场景示意图；

图2为本申请实施例提供的安全数据分析方法的流程示意图；

图3为本申请实施例提供的安全数据分析系统的结构示意图；

图4为本申请实施例提供的安全数据分析系统的工作原理示意图；

图5为本申请实施例提供的一种安全数据分析装置的结构示意图；

图6为本申请实施例提供的另一种安全数据分析装置的结构示意图；

图7为本申请实施例提供的服务器的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分，在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service，平台即服务)层，PaaS层之上再部署SaaS(Software as a Service，软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念，通过网状的大量客户端对网络中软件行为的异常监测，获取互联网中木马、恶意程序的最新信息，并发送到服务端进行自动分析和处理，再把病毒和木马的解决方案分发到每一个客户端。

云安全主要研究方向包括：1.云计算安全，主要研究如何保障云自身及云上各种应用的安全，包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等；2.安全基础设施的云化，主要研究如何采用云计算新建与整合安全基础设施资源，优化安全防护机制，包括通过云计算技术构建超大规模安全事件、信息采集与处理平台，实现对海量信息的采集与关联分析，提升全网安全事件把控能力及风险控制能力；3.云安全服务，主要研究各种基于云计算平台为用户提供的安全服务，如防病毒服务等。

本申请实施例提供的技术方案涉及云安全研究方向中的第2点，具体通过如下实施例进行说明。

相关技术中，目前主要由相关技术人员人工分析安全数据，确定制定安全策略所依据的安全数据分析结果。然而，相关技术人员分析安全数据时，通常仅关注几种典型属性下的安全数据，难以客观全面地衡量安全数据涉及的各种属性，容易忽略一些对于制定安全策略具有参考意义的属性，同时忽略这些属性下的安全数据，导致最终确定的安全数据分析结果的准确性和可靠性不高，影响安全策略的制定；并且人工分析安全数据的速度慢、效率低。

针对上述相关技术存在的问题，本申请实施例提供了一种安全数据分析方法，该方法通过并行处理的方式从定量分析和定性分析两个维度出发，客观全面地衡量安全数据涉及的各种属性，基于衡量结果从安全数据涉及的属性中选出重要属性，进而根据重要属性对应的安全数据确定最终的安全数据分析结果，如此保证安全数据分析结果的准确性和可靠性。

具体的，在本申请实施例提供的安全数据分析方法中，先获取被监控系统产生的数据作为原始安全数据，并对原始安全数据进行预处理得到待分析安全数据。然后，将待分析安全数据划分为统计数据和分布式数据，此处的统计数据是指待分析安全数据中具有聚集特征的数据，此处的分布式数据是指待分析安全数据中具有非聚集特征的数据。针对由统计数据所属的属性组成的第一属性集合，根据该第一属性集合中各种属性下的统计数据量，确定该第一属性集合中各种属性各自的重要度和/或覆盖度，进而，根据该第一属性集合中各种属性各自的重要度和/或覆盖度，从该第一属性集合中选出第一目标属性。针对由分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据该第二属性集合中各种属性下的分布式数据，确定该第二属性集合中各种属性各自的重要度，进而根据该第二属性集合中各种属性各自的重要度，从第二属性集合中选出第二目标属性。最终，根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定安全数据分析结果。

上述安全数据分析方法基于数据特征将安全数据划分为统计数据和分布式数据，采用定量分析的方式衡量统计数据涉及的各种属性的重要程度，采用定性分析的方式借助机器学习模型衡量分布式数据涉及的各种属性的重要程度，如此对安全数据涉及的各种属性进行客观全面地衡量；进而，基于衡量结果从安全数据涉及的各种属性中选出对于制定安全策略具有较高参考价值的重要属性，基于重要属性对应的安全数据生成安全数据分析结果，如此保证安全数据分析结果的准确性和可靠性，并且还能够提高安全数据分析效率。

应理解，本申请实施例提供的安全数据分析方法的执行主体可以为具备数据处理能力的设备，如服务器或终端设备。服务器可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为了便于理解本申请实施例提供的安全数据分析方法，下面以该安全数据分析方法的执行主体为服务器为例，对该安全数据分析方法的应用场景进行介绍。

参见图1，图1为本申请实施例提供的安全数据分析方法的应用场景示意图。如图1所示，该应用场景中包括被监测服务器110和安全数据分析服务器120；其中，被监测服务器110部署在被监测系统中，用于为被监测系统中的设备提供相应的服务，以被监测系统为验证码系统为例，被监测服务器110用于响应终端设备的请求为其提供验证码；安全数据分析服务器120用于执行本申请实施例提供的安全数据分析方法，以对被监测系统产生的安全数据进行分析。

在实际应用中，被监测服务器110为被监测系统中的设备提供相关服务时通常会产生大量的处理数据，这些处理数据能够在一定程度上反映被监测系统的安全状态。当需要针对被监测系统制定安全策略时，安全数据分析服务器120可以从被监测服务器110处获取其产生的处理数据，作为原始安全数据，进而基于所获取的原始安全数据进行安全数据分析处理。

具体的，安全数据分析服务器120可以实时地获取被监测服务器110产生的处理数据作为原始安全数据，并对所获取的原始安全数据进行预处理，如格式统一化、数据归一化、填充缺失值、删除无效数据等，以得到规范的待分析安全数据。然后，根据待分析安全数据的数据特征，将待分析数据相应地划分为统计数据和分布式数据，此处的统计数据为具有聚集特征的数据，如每分钟某网际互联协议(Internet Protocol，IP)的请求量等，此处的分布式数据为具有非聚集性特征的数据，如某大量级离散数据的向量表示等。

针对由统计数据所属的属性组成的第一属性集合，采用定量分析的方式从中筛选出对于制定安全策略具有较高参考价值的第一目标属性。具体的，安全数据分析服务器120可以根据第一属性集合中各种属性下的统计数据量，相应地确定第一属性集合中各种属性各自的重要度和/或覆盖度，进而，根据第一属性集合中各种属性各自的重要度和/或覆盖度，从该第一属性集合中选出第一目标属性。

针对由分布式数据所属的属性组成的第二属性集合，采用定性分析的方式从中筛选出对于制定安全策略具有较高参考价值的第二目标属性。具体的，安全数据分析服务器120可以通过机器学习模型，对第二属性集合中各种属性下的分布式数据进行分析处理，以确定第二属性集合中各种属性各自的重要度；进而，根据第二属性集合中各种属性各自的重要度，从该第二属性集合中选出第二目标属性。

最终，安全数据分析服务器120可以根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定安全数据分析结果，为安全策略开发人员提供制定安全策略时可依据的参考因素。

应理解，图1所示的应用场景仅为示例，在实际应用中，为了加速对于安全数据的分析处理速度，安全数据分析服务器120可以为由多个服务器组成的分布式云计算平台，本申请在此不对安全数据分析方法的应用场景做任何限定。

下面通过实施例对本申请提供的安全数据分析方法进行详细介绍。

参见图2，图2为本申请实施例提供的安全数据分析方法的流程示意图。为了便于描述，下述实施例以服务器作为执行主体为例进行描述。如图2所示，该安全数据分析方法包括以下步骤：

步骤201：获取原始安全数据；所述原始安全数据包括被监测系统产生的数据。

在实际应用中，为了确保网络服务提供系统(即被监测系统)能够安全稳定地运行，往往需要配置相应的服务器基于被监测系统运行过程中产生的数据，分析该被监测系统的安全状态，并且通过分析该被监测系统运行过程中产生的数据，确定用于为制定安全策略提供参考的安全数据分析结果。

具体的，被监测系统中的服务器可以响应用户操作产生大量的处理数据，用于分析安全数据的服务器可以实时或周期性地从被监测系统中的服务器获取这些处理数据，并将这些处理数据作为确定安全数据分析结果的基础，即原始安全数据。

需要说明的是，在本申请实施例提供的方法中，上述被监测系统可以包括以下至少一种网络系统：验证码系统、风控系统、社交通信系统、多媒体系统、网络购物系统等。本申请在此不对被监测系统做任何限定。

以被监测系统为验证码系统为例，用于分析安全数据的服务器可以从验证码系统中的服务器处获取前端交互数据(如图像验证码渲染数据、用户滑动轨迹数据等)、预设时间单位内IP的请求量等数据，作为原始安全数据。应理解，对于不同的被监测系统，服务器所能获取的原始安全数据通常有所差别，本申请在此也不对原始安全数据做任何限定。

步骤202：对所述原始安全数据进行预处理，得到待分析安全数据。

服务器从被监测系统获取到原始安全数据后，可以对原始安全数据进行预处理，以得到规范化的待分析安全数据，便于后续基于规划化的待分析安全数据进行数据分析处理，确定安全数据分析结果。

需要说明的是，由于原始安全数据通常具有时间聚集、IP聚集、设备聚集以及配置有安全标识信息等特点，因此，原始安全数据通常会存在格式不统一、数据跨度范围大、部分数据缺失等问题。在本申请实施例提供的方法中，服务器可以通过对原始安全数据进行预处理，来克服原始安全数据所存在的问题。

具体的，本申请实施例中对于原始安全数据的预处理方式，具体可以包括以下至少一种处理方式：

格式统一化处理；即对原始安全数据进行格式统一化处理，以统一原始安全数据的时间单位。在实际应用中，被监控系统中不同的业务产生的数据(即原始安全数据)可能具有不同的时间单位，例如，被监控系统中某一业务产生的数据可能以时间戳为时间单位，而被监控系统中另一业务产生的数据可能以标准时间(如X日X时X分X秒)为时间单位。为了便于服务器后续对各种原始安全数据统一进行分析处理，服务器对原始安全数据进行预处理时，可以通过相应的业务特性预设窗口分析函数，将各原始安全数据的时间单位统一为目标单位，例如，对于以时间戳为时间单位的原始安全数据，服务器可以利用与该原始安全数据的来源业务相对应的业务特征预设窗口分析函数，将该原始安全数据的时间单位由时间戳转换为标准时间，而对于以标准时间为时间单位的原始安全数据，可以不进行上述处理。

数据归一化处理；即对原始安全数据中具有离散特征的数据进行数据归一化处理，得到具有离散特征的数据对应的向量表示。在实际应用中，被监控系统中一些业务产生的数据可能具有离散特征，直接基于这些数据本身进行安全数据分析，往往难以充分有效地利用这些数据，为了更充分地利用这些具有离散特征的数据，服务器可以特定的编码方式将这些数据转换为对应的向量表示。

示例性的，服务器针对具有离散特征的数据中维度低于预设维度的数据，可以通过独热(One-hot)编码得到该数据对应的向量表示；针对具有离散特征的数据中维度不低于预设维度的数据，可以通过embedding算法得到该数据对应的向量表示。即对于维度较低的离散数据，服务器可以通过独热编码进行升维处理以得到对应的向量表示，对于维度较高的离散数据，服务器可以通过embedding算法进行维数约减以得到对应的向量表示；如此，将具有离散特征的数据转换为对应的向量表示，在特征层面表征不同特征之间的邻近关系，有利于后续机器学习模型从中学习到特定的特征。

应理解，在实际应用中，服务器除了可以采用独热编码、embedding算法将具有离散特征的数据转换为对应的向量表示外，还可以采用其它算法将具有离散特征的数据转换为对应的向量表示，本申请在此不对转换具有离散特征的数据时使用的算法做任何限定。

数据填充处理；即对原始安全数据中数据缺失部分少于预设阈值的数据，进行数据填充处理。在实际应用中，服务器从被监测系统处获取的原始安全数据可能存在数据缺失的情况，针对该种情况，服务器可以采取一定的容错处理措施，即判断原始安全数据中数据缺失的部分是否少于预设阈值(如10％)，若少于，则说明该原始安全数据缺失的内容较少，仍具有参考价值，此时可以对该原始安全数据进行数据填充处理，例如在缺失部分填充0。

数据删除处理；即对原始安全数据中数据缺失部分不少于预设阈值的数据，进行数据删除处理。如上文所述，服务器从被监测系统处获取的原始安全数据可能存在数据缺失的情况，针对这种情况，服务器可以判断原始安全数据中数据缺失的部分是否少于预设阈值，若不少于，则说明该原始安全数据缺失的内容较多，不具有参考价值，此时可以将该原始安全数据作为无效数据直接舍弃。

需要说明的是，在实际应用中，服务器对原始安全数据进行预处理时，除了可以采用上述处理方式外，还可以根据实际需求设置其它处理方式对原始安全数据进行预处理，本申请在此不对预处理方式做任何限定。

步骤203：将所述待分析安全数据划分为统计数据和分布式数据；所述统计数据具有聚集特征，所述分布式数据具有非聚集特征。

服务器对其获取的原始安全数据进行预处理，得到规范化的待分析安全数据后，可以进一步根据待分析安全数据的数据特征，将待分析安全数据划分为统计数据和分布式数据；即，对于预处理后得到的大量待分析安全数据，将其中具有聚集特征的部分数据划分为统计数据，将其中具有非聚集特征的部分数据划分为分布式数据。

需要说明的是，统计数据与分布式数据的区别在于，统计数据具有聚集特征，其维度通常较低，便于直接根据数据量确定其涉及的属性的重要程度，如每分钟某个IP的请求量即属于统计数据；而分布式数据具有离散特征，其维度通常较高，难以直接根据数据量和数据本身确定其涉及的属性的重要程度，如上文中转换具有离散特征的数据得到的向量即属于分布式数据。

步骤204：针对由所述统计数据所属的属性组成的第一属性集合，根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的重要度和/或覆盖度；根据所述第一属性集合中各种属性各自的重要度和/或覆盖度，从所述第一属性集合中选出第一目标属性。

对于统计数据，服务器可以采用定量分析的方式衡量其中涉及的各种属性的重要程度。即对于由统计数据所属的属性组成的第一属性集合，服务器可以根据该第一属性集合中各属性下的统计数据量，确定该第一属性集合中各属性各自的重要度和/或覆盖度；进而，根据该第一属性集合中各种属性各自的重要度和/或覆盖度，从该第一属性集合中选出较为重要的第一目标属性。

具体的，服务器可以针对统计数据涉及的不同属性进行分类统计和讨论，结合数据标签对各种属性进行单维度和多维度的对照分析，从而定量分析每种属性对于制定安全策略的影响程度，即确定每种属性的重要度和/或覆盖度。

在一些实施例中，服务器可以通过以下方式确定第一属性集合中每种属性的重要度：确定统计数据中合法数据的占比作为第一占比，确定统计数据中恶意数据的占比作为第二占比；针对第一属性集合中的每种属性，确定该种属性下的统计数据中合法数据的占比作为第三占比，确定该种属性下的统计数据中恶意数据的占比作为第四占比；进而，根据第一占比、第二占比、第三占比和第四占比，确定该种属性的重要度。

具体的，服务器可以先确定统计数据中所有合法数据(即正常数据)的占比W，以及统计数据中所有恶意数据的占比B；针对第一属性集合中的每种属性，服务器可以确定该种属性下的统计数据中合法数据的占比w，以及该种属性下的统计数据中恶意数据的占比b；进而可以通过式(1)计算该种属性的重要度：

需要说明的是，在实际应用中，待监测系统通常可以按照特定的方式为其产生的数据配置标签，以表征该数据是合法数据还是恶意数据，统计数据也会相应地携带该标签。基于此，服务器确定属性的重要度时，可以基于各统计数据配置的标签，统计合法数据的数量以及恶意数据的数量，并计算相应的占比。

应理解，在实际应用中，服务器也可以通过其它方式计算第一属性集合中每种属性的重要度，本申请在此不对上述重要度的确定方式做任何限定。

在一些实施例中，服务器可以通过以下方式确定第一属性集合中每种属性的覆盖度：针对第一属性集合中的每种属性，确定该种属性下的统计数据在所有统计数据中的占比，作为该种属性的覆盖度。

具体的，针对第一属性集合中的每种属性，服务器可以统计该种属性下的统计数据的数量，进而计算该种属性下的统计数据在所有统计数据中的占比即计算m/M，作为该种属性的覆盖度，其中，m为该种属性下的统计数据的数量，M为所有统计数据的数量。

应理解，在实际应用中，服务器也可以通过其它方式计算第一属性集合中每种属性的覆盖度，本申请在此不对上述覆盖度的确定方式做任何限定。

服务器确定出第一属性集合中各种属性各自的重要度和/或覆盖度后，即可根据各种属性各自的重要度和/或覆盖度，从第一属性集合中选出第一目标属性。具体的，服务器可以从第一属性集合中，选出重要度大于第一阈值和/或覆盖度大于第二阈值的属性，作为第一目标属性。

在一些情况下，制定安全策略时可能更关注属性的重要度，此时，服务器可以针对第一属性集合中各种属性仅计算其重要度，进而，从第一属性集合中选出重要度大于第一阈值的属性作为第一目标属性；或者，服务器可以针对第一属性集合中各种属性同时计算重要度和覆盖度，将用于衡量重要度的第一阈值设置得比较严格，将用于衡量覆盖度的第二阈值设置得比较宽泛，进而，从第一属性集合中选出重要度大于第一阈值且覆盖度大于第二阈值的第一目标属性。

在一些情况下，制定安全策略时可能更关注属性的覆盖度，此时，服务器可以针对第一属性集合中各种属性仅计算其覆盖度，进而，从第一属性集合中选出覆盖度大于第二阈值的属性作为第一目标属性；或者，服务器可以针对第一属性集合中各种属性同时计算重要度和覆盖度，将用于衡量覆盖度的第二阈值设置得比较严格，将用于衡量重要度的第一阈值设置得比较宽泛，进而，从第一属性集合中选出重要度大于第一阈值且覆盖度大于第二阈值的第一目标属性。

在一些情况下，制定安全策略时可能对属性的重要度和覆盖度均比较关注，此时，服务器需要针对第一属性集合中各种属性均计算重要度和覆盖度，并根据实际需求设置合理的第一阈值和第二阈值，进而，从第一属性集合中选出重要度大于第一阈值且覆盖度大于第二阈值的第一目标属性。

应理解，上述第一阈值和第二阈值可以根据实际业务需求设定，本申请在此不对该第一阈值和第二阈值做具体限定。

步骤205：针对由所述分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据所述第二属性集合中各种属性下的分布式数据，确定所述第二属性集合中各种属性各自的重要度；根据所述第二属性集合中各种属性各自的重要度，从所述第二属性集合中选出第二目标属性。

对于分布式数据，服务器可以借助机器学习模型采用定性分析的方式，衡量其中涉及的各种属性的重要程度。即对于由分布式数据所属的属性组成的第二属性集合，服务器可以利用机器学习模型，基于每种属性下的分布式数据相应地确定该种属性的重要度；进而，服务器可以根据第二属性集合中各种属性各自的重要度，从该第二属性集合中选出较为重要的第二目标属性。

在一些实施例中，为了保证能够准确地衡量第二属性集合中各种属性的重要程度，服务器可以借助多个不同的弱分类器对第二属性集合中各种属性进行衡量，并结合多个弱分类器的衡量结果确定第二属性集合中各种属性各自的重要度。即针对第二属性集合中的每种属性，服务器将该种属性下的分布式数据分别输入多个弱分类器，得到多个弱分类器各自输出的评分；进而，根据多个弱分类器各自输出的评分确定该种属性的综合评分，作为该种属性的重要度。

具体的，服务器预先可以利用已标注的样本数据，对多个弱分类器分别进行训练，以使这多个弱分类器具备基于安全数据衡量该安全数据涉及的属性的重要程度的能力。

在实际应用中，服务器从待分析安全数据中划分出分布式数据后，可以将每种属性下的分布式数据分别输入多个弱分类器，多个弱分类器将相应地对输入的分布式数据进行分析处理，进而输出对于输入的分布式数据涉及的属性的评分，该评分能够在一定程度上表征该种属性的重要程度。进而，服务器可以按照预设的权重对各弱分类器各自输出的评分进行加权处理，得到该种属性对应的综合评分，作为该种属性的重要度；或者，服务器可以直接将各弱分类器各自输出的评分进行加和处理，得到该种属性对应的综合评分。

为了便于理解，下面以多个弱分类器包括随机森林模型、XGBoost模型和线性回归模型为例，对上述确定第二属性集合中各种属性的重要度的实现方式进行介绍。

针对第二属性集合中的某种属性，将该属性下的分布式数据分别输入随机森林模型、XGBoost模型和线性回归模型，随机森林模型对输入的分布式数据进行分析处理得到对应的评分K1，XGBoost模型对输入的分布式数据进行分析处理得到对应的评分K2，线性回归模型对输入的分布式数据进行分析处理得到对应的评分K3；进而，服务器可以按照预先针对随机森林模型输出结果、XGBoost模型输出结果和线性回归模型输出结果分别配置的权重，对评分K1、K2和K3进行加权处理，得到该种属性的综合评分K，作为该种属性的重要度。如此，通过上述方式，针对第二属性集合中每种属性分别确定其对应的重要度。

应理解，在实际应用中，用于衡量第二属性集合中各种属性的弱分类器除了可以包括随机森林模型、XGBoost模型和线性回归模型外，还可以包括基于其它算法构建的弱分类器，本申请在此不对所使用的弱分类器做任何限定，也不对所使用的弱分类的数量做任何限定。

服务器通过上述方式，得到第二属性集合中各种属性各自的综合评分后，即可对第二属性集合中各种属性各自的综合评分进行降序排序，进而，确定排序靠前的预设个数的属性，作为第二属性集合中较为重要的第二目标属性。

具体的，服务器可以根据第二属性集合中各种属性各自对应的综合评分，按照从大到小的顺序进行排序，确定其中排序靠前的预设数目个综合评分所对应的属性，作为第二目标属性。应理解，上述预设数目可以根据实际需求进行设定，本申请在此不对该预设数目做任何限定。

此外，服务器除了可以基于综合评分的排序从第二属性集合中选出第二目标属性外，还可以直接基于综合评分的大小从第二属性集合中选出第二目标属性，例如，针对第二属性集合中的每种属性，服务器可以判断该属性的综合评分是否大于预设分数阈值，若大于，则可以直接确定该种属性为第二目标属性。

需要说明的是，在实际应用中，服务器除了可以通过多个弱分类器确定第二属性集合中各种属性各自的重要度外，服务器也可以采用其它方式确定第二属性集合中各种属性的重要度，例如，服务器可以预先训练一个能够准确衡量属性重要度的机器学习模型，进而直接基于该机器学习模型确定第二属性集合中各种属性各自的重要度。本申请在此不对服务器确定第二属性集合中各种属性各自的重要度的实现方式做具体限定。

需要说明的是，为了提高安全数据分析效率，在实际应用中，可以并行地执行上述步骤204和步骤205，即对统计数据涉及的属性和分布式数据涉及的属性进行并行分析处理。当然，在处理资源不够充足的情况下，也可以逐一执行步骤204和步骤205，例如，可以先执行步骤204，后执行步骤205，也可以先执行步骤205，后执行步骤204，本申请在此不对步骤204和步骤205的执行顺序做任何限定。

步骤206：根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定安全数据分析结果。

服务器确定出第一属性集合中较为重要的第一目标属性以及第二属性集合中较为重要的第二目标属性后，即可根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定能够作为安全策略制定依据的安全数据分析结果。

在一些实施例中，服务器可以通过决策树算法，根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定第一目标属性对应的数据参考阈值和第二目标属性对应的数据参考阈值，作为安全数据分析结果。

具体的，服务器可以基于决策树算法，对第一目标属性对应的统计数据和第二目标属性对应的分布式数据进行综合分析，从而得到各个第一目标属性对应的数据参考阈值以及各个第二目标属性对应的数据参考阈值，这些数据参考阈值能够用于衡量具有相应属性的数据的安全性，例如，对于具有某属性的安全数据，若超过该属性对应的数据参考阈值，则说明该安全数据存在风险的可能性较高，反之，若未超过该属性对应的数据参考阈值，则说明该安全数据存在风险的可能性较低。由于第一目标属性对应的数据参考阈值和第二目标属性对应的数据参考阈值能够衡量具有相应属性的数据的安全性，可为安全策略的制定提供参考，因此，可以将第一目标属性对应的数据参考阈值和第二目标属性对应的数据参考阈值，作为安全数据分析结果。

示例性的，服务器通过决策树算法可以确定以下内容作为安全数据分析结果：1、决定性影响因素、特征和系数；2、重要性影响因素、特征和系数；3、非决定性影响因素、特征和系数。例如，针对验证码系统，决定性影响因素可以为IP，特征可以为某IP每分钟内的访问次数，系数可以为每分钟100次。

需要说明的是，上述决定性影响因素、重要性影响因素和非决定性影响因素实质上即为第一目标属性和第二目标属性，服务器可以根据定量分析和定性分析过程中针对第一目标属性和第二目标属性确定的相关数据，衡量第一目标属性和第二目标属性具体属于决定性影响因素，还是重要性影响因素，还是非决定性影响因素。决定性影响特征、重要性影响特征和非决定性影响特征实质上是第一目标属性和第二目标属性各自对应的安全数据涉及的特征，服务器可以根据第一目标属性和第二目标属性各自对应的安全数据所涉及的特征，确定决定性影响特征、重要性影响特征和非决定性影响特征。决定性影响系数、重要性影响系数和非决定性影响系数实质上即为上文中第一目标属性对应的数据参考阈值和第二目标属性对应的数据参考阈值。

应理解，在实际应用中，服务器除了可以通过决策树算法确定安全数据分析结果外，还可以采用其它算法根据第一目标属性和第二目标属性各自对应的待分析安全数据，确定安全数据分析结果，本申请在此不对确定安全数据分析结构时采用的算法做任何限定。

本申请实施例提供的安全数据分析方法，基于数据特征将安全数据划分为统计数据和分布式数据，采用定量分析的方式衡量统计数据涉及的各种属性的重要程度，采用定性分析的方式借助机器学习模型衡量分布式数据涉及的各种属性的重要程度，如此对安全数据涉及的各种属性进行客观全面地衡量；进而，基于衡量结果从安全数据涉及的各种属性中选出对于制定安全策略具有较高参考价值的重要属性，基于重要属性对应的安全数据生成安全数据分析结果，如此保证安全数据分析结果的准确性和可靠性，并且还能够提高安全数据分析效率。

此外，本申请实施例还提供了一种安全数据分析系统，该安全数据分析系统可以基于图2所示的安全数据分析方法，对被监测系统产生的原始安全数据进行分析处理，得到能够为制定安全策略提供参考信息的安全数据分析结果。

参见图3，图3为本申请实施例提供的安全数据分析系统的结构示意图。如图3所示，该安全数据分析系统包括：预处理引擎301、分发引擎302、定量分析引擎303、选举引擎304和分析引擎305；其中，选举引擎303和定量分析引擎304部署于分布式云计算平台。

预处理引擎301，用于对原始安全数据进行预处理，得到待分析安全数据，该原始安全数据包括被监测系统产生的数据。

在实际应用中，被监测系统可以响应用户操作产生大量的数据，安全数据分析系统可以实时或周期性地从被监测系统获取这些数据，作为原始安全数据。安全数据分析系统获取到原始安全数据后，将所获取的原始安全数据输入预处理引擎301，预处理引擎301将对原始安全数据进行预处理，以得到规范化的待分析安全数据，并将所得到的待分析安全数据输出至分发引擎302。

需要说明的是，上述被监测系统可以包括以下至少一种网络系统：验证码系统、风控系统、社交通信系统、多媒体系统、网络购物系统等。

需要说明的是，预处理引擎301对于原始安全数据的预处理方式，具体可以包括以下至少一种处理方式：格式统一化处理、数据归一化处理、数据填充处理和数据删除处理。图2所示实施例已对这些处理方式的具体实现进行了详细的介绍，详细内容可参考图2所示实施例中步骤202的相关描述。

分发引擎302，用于将待分析安全数据划分为统计数据和分布式数据，将统计数据发送给定量分析引擎303，将分布式数据发送给选举引擎304；其中，统计数据具有聚集特征，分布式数据具有非聚集特征。

分发引擎302接收到预处理引擎301提供的大量待分析安全数据后，可以根据待分析安全数据的数据特征，将其中具有聚集特征的部分数据划分为统计数据，并将统计数据发送给部署在分布式云计算平台的定量分析引擎303，将其中具有非聚集特征的部分数据划分为分布式数据，并将分布式数据发送给部署在分布式云计算平台的选举引擎304。

定量分析引擎303，用于针对由统计数据所属的属性组成的第一属性集合，根据第一属性集合中各种属性下的统计数据量，确定第一属性集合中各种属性各自的重要度和/或覆盖度；根据第一属性集合中各种属性各自的重要度和/或覆盖度，从第一属性集合中选出第一目标属性。

在一些实施例中，定量分析引擎303可以通过以下方式确定第一属性集合中每种属性的重要度：确定统计数据中合法数据的占比作为第一占比，确定统计数据中恶意数据的占比作为第二占比；针对第一属性集合中的每种属性，确定该种属性下的统计数据中合法数据的占比作为第三占比，确定该种属性下的统计数据中恶意数据的占比作为第四占比；进而，根据第一占比、第二占比、第三占比和第四占比，确定该种属性的重要度。图2所示实施例已对计算第一属性集合中每种属性的重要度的具体实现进行了详细的介绍，详细内容可参考图2所示实施例中步骤204的相关描述。

在一些实施例中，定量分析引擎303可以通过以下方式确定第一属性集合中每种属性的覆盖度：针对第一属性集合中的每种属性，确定该种属性下的统计数据在所有统计数据中的占比，作为该种属性的覆盖度。图2所示实施例已对计算第一属性集合中每种属性的覆盖度的具体实现进行了详细的介绍，详细内容可参考图2所示实施例中步骤204的相关描述。

定量分析引擎303确定出第一属性集合中各种属性各自的重要度和/或覆盖度后，即可从第一属性集合中，选出重要度大于第一阈值和/或覆盖度大于第二阈值的属性，作为第一目标属性。

选举引擎304，用于针对由分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据第二属性集合中各种属性下的分布式数据，确定第二属性集合中各种属性各自的重要度；根据第二属性集合中各种属性各自的重要度，从第二属性集合中选出第二目标属性。

在一些实施例中，为了保证能够准确地衡量第二属性集合中各种属性的重要程度，选举引擎304可以借助多个不同的弱分类器对第二属性集合中各种属性进行衡量，并结合多个弱分类器的衡量结果确定第二属性集合中各种属性各自的重要度。即针对第二属性集合中的每种属性，选举引擎304将该种属性下的分布式数据分别输入多个弱分类器，得到多个弱分类器各自输出的评分；进而，根据多个弱分类器各自输出的评分确定该种属性的综合评分，作为该种属性的重要度。图2所示实施例已对计算第二属性集合中每种属性的重要度的具体实现进行了详细的介绍，详细内容可参考图2所示实施例中步骤205的相关描述。

分析引擎206，用于根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定安全数据分析结果。

定量分析引擎303确定出第一属性集合中较为重要的第一目标属性，选举引擎304确定出第二属性集合中较为重要的第二目标属性后，分析引擎306可以根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定能够作为安全策略制定依据的安全数据分析结果。

在一些实施例中，分析引擎306可以通过决策树算法，根据第一目标属性对应的统计数据和第二目标属性对应的分布式数据，确定第一目标属性对应的数据参考阈值和第二目标属性对应的数据参考阈值，作为安全数据分析结果。图2所示实施例已对确定安全数据分析结果的具体实现进行了详细的介绍，详细内容可参考图2所示实施例中步骤206的相关描述。

本申请实施例提供的安全数据分析系统，分发引擎基于数据特征将安全数据划分为统计数据和分布式数据，定量分析引擎采用定量分析的方式衡量统计数据涉及的各种属性的重要程度，选举引擎采用定性分析的方式借助机器学习模型衡量分布式数据涉及的各种属性的重要程度，如此对安全数据涉及的各种属性进行客观全面地衡量；进而，基于衡量结果从安全数据涉及的各种属性中选出对于制定安全策略具有较高参考价值的重要属性，分析引擎基于重要属性对应的安全数据生成安全数据分析结果，如此保证安全数据分析结果的准确性和可靠性，并且还能够提高安全数据分析效率。

为了便于进一步理解本申请实施例提供的技术方案，下面结合上述安全数据分析系统，对本申请实施例提供的安全数据分析方法进行整体示例性介绍。参见图4，图4为本申请实施例中安全数据分析系统的工作原理示例图。

如图4所示，安全数据分析系统获取到原始安全数据后，将原始安全数据输入到预处理引擎301进行规范化处理。由于原始安全数据具有时间聚集、IP聚集、设备聚集以及配置有各类安全标识信息等特点，因此会存在格式不统一、跨度范围大、部分数据缺失等问题。针对上述问题，预处理引擎301所需执行的预处理操作可以包括格式统一化、数据归一化、填充属性默认值、删除无效数据等：其中，格式统一化包括根据业务特性预设窗口分析函数，统一来自各数据源的原始安全数据的时间单位，以便后续进行属性分析处理；数据归一化包括对小量级的具有离散特征的原始安全数据进行独热编码，对大量级的具有离散特征的原始安全数据通过embedding算法进行维数约减，从而将具有离散特征的原始安全数据统一为向量表示。填充属性默认值和删除无效数据，是指针对原始安全数据存在缺失的情况进行容错处理，若某条原始安全数据出现的数据缺失超过10％，则作为无效数据直接舍弃，若某条原始安全数据出现的数据缺失不超过10％，则对缺失部分进行填0处理。

分发引擎302将经预处理得到的待分析安全数据，分成统计数据和分布式数据；其中，统计数据是具有聚集特征的数据，如每分钟某个IP的请求量，分布式数据是指具有非聚集特征的数据，如embedding特征向量。将统计数据分发至分布式云计算平台上部署的定量分析引擎303，将分布式数据分发至分布式云计算平台上部署的选举引擎304。

定量分析引擎303可以将统计数据涉及的不同属性进行分类，主要是根据离散或连续、属性值类别数量、安全属性特性等。之后针对不同类别的属性进行分类统计和讨论，结合数据标签对各个属性特征进行单维度特征、多维度特征的对照分析，定量地分析出每个属性对安全策略制定的影响，即重要度和覆盖度。重要度是根据某属性下的合法数据占比w和恶意数据数据占比b，与统计数据整体的合法数据占比W和恶意数据占比B之间的关系确定的，具体的，可以计算

作为该属性的重要度，当该重要度大于4时，可以认为该属性下的安全数据的重要度较高。覆盖度是根据某属性下统计数据的数量m与总的统计数据的数量M的比例，当m/M＞T(T可以定义为10％)时，可以认为该属性下的安全数据的覆盖度较高。定量分析引擎303综合考虑重要度和覆盖度，可以选择重要度较高且覆盖度较高的属性作为第一目标属性。

选举引擎304可以通过不同的弱分类器算法针对分布式数据进行计算。具体的，选举引擎304可以使用常用的弱分类器模型，如随机森林模型、XGBoost模型、线性回归模型等，分别对分布式数据涉及的每种属性进行打分处理，得到对应的Klist分数。进而，通过聚集引擎将各弱分类器的输出结果进行统一聚集，对分布式数据涉及的每种属性进行综合打分，例如，可以通过

计算每种属性的综合评分，其中，index为每种属性的索引，i为每个弱分类器模型的索引。进而，根据分布式数据涉及的各种属性的综合评分，确定其中综合评分较高的属性作为第二目标属性。

分析引擎305对定量分析引擎303确定的第一目标属性对应的安全数据和聚集引擎306确定的第二目标属性对应的安全数据进行综合分析，为了避免各个子模块具有较高的偏执，或是方差较大导致鲁棒性不强，最终将选举引擎304和定量分析引擎303进行模型集成融合，得到最终的安全数据分析结果。

针对上文描述的安全数据分析方法，本申请还提供了对应的安全数据分析装置，以使上述安全数据分析方法在实际中得以应用和实现。

参见图5，图5是与上文图2所示的安全数据分析方法对应的一种安全数据分析装置500的结构示意图，该安全数据分析装置包括：

数据获取模块501，用于获取原始安全数据；所述原始安全数据包括被监测系统产生的数据；

预处理模块502，用于对所述原始安全数据进行预处理，得到待分析安全数据；

数据划分模块503，用于将所述待分析安全数据划分为统计数据和分布式数据；所述统计数据具有聚集特征，所述分布式数据具有非聚集特征；

统计数据分析模块504，用于针对由所述统计数据所属的属性组成的第一属性集合，根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的重要度和/或覆盖度；根据所述第一属性集合中各种属性各自的重要度和/或覆盖度，从所述第一属性集合中选出第一目标属性；

分布式数据分析模块505，用于针对由所述分布式数据所属的属性组成的第二属性集合，通过机器学习模型根据所述第二属性集合中各种属性下的分布式数据，确定所述第二属性集合中各种属性各自的重要度；根据所述第二属性集合中各种属性各自的重要度，从所述第二属性集合中选出第二目标属性；

结果确定模块506，用于根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定安全数据分析结果。

可选的，在图5所示的安全数据分析装置的基础上，所述机器学习模型包括多个弱分类器；则所述分布式数据分析模块505具体用于：

针对所述第二属性集合中的每种属性，将该种属性下的分布式数据分别输入所述多个弱分类器，得到所述多个弱分类器各自输出的评分；根据所述多个弱分类器各自输出的评分确定该种属性的综合评分，作为该种属性的重要度。

可选的，在图5所示的安全数据分析装置的基础上，所述分布式数据分析模块505具体用于：

对所述第二属性集合中各种属性各自的综合评分进行降序排序，确定排序靠前的预设个数的属性，作为所述第二目标属性。

可选的，在图5所示的安全数据分析装置的基础上，所述统计数据分析模块504具体用于：

确定所述统计数据中合法数据的占比作为第一占比，确定所述统计数据中恶意数据的占比作为第二占比；

针对所述第一属性集合中的每种属性，确定该种属性下的统计数据中合法数据的占比作为第三占比，确定该种属性下的统计数据中恶意数据的占比作为第四占比；根据所述第一占比、第二占比、第三占比和第四占比，确定该种属性的重要度。

针对所述第一属性集合中的每种属性，确定该种属性下的统计数据在所述统计数据中的占比，作为该种属性的覆盖度。

从所述第一属性集合中，选出重要度大于第一阈值和/或覆盖度大于第二阈值的属性，作为所述第一目标属性。

可选的，在图5所示的安全数据分析装置的基础上，所述结果确定模块506具体用于：

通过决策树算法，根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定所述第一目标属性对应的数据参考阈值和所述第二目标属性对应的数据参考阈值，作为所述安全数据分析结果。

可选的，在图5所示的安全数据分析装置的基础上，参见图6，图6为本申请实施例提供的另一种安全数据分析装置的结构示意图。如图6所示，所述预处理模块502包括以下至少一个处理单元：

格式统一单元601，用于对所述原始安全数据进行格式统一化处理，统一所述原始安全数据的时间单位；

数据归一单元602，用于对所述原始安全数据中具有离散特征的数据进行数据归一化处理，得到具有离散特征的数据对应的向量表示；

数据填充单元603，用于对所述原始安全数据中数据缺失部分少于预设阈值的数据，进行数据填充处理；

数据删除单元604，用于对所述原始安全数据中数据缺失部分不少于所述预设阈值的数据，进行数据删除处理。

可选的，在图6所示的安全数据分析装置的基础上，所述数据归一单元602具体用于：

针对所述具有离散特征的数据中维度低于预设维度的数据，通过独热编码得到该数据对应的向量表示；

针对所述具有离散特征的数据中维度不低于预设维度的数据，通过embedding算法得到该数据对应的向量表示。

可选的，在图5所示的安全数据分析装置的基础上，所述被监测系统包括以下至少一种：

验证码系统、风控系统、社交通信系统、多媒体系统和网络购物系统。

本申请实施例提供的安全数据分析装置，基于数据特征将安全数据划分为统计数据和分布式数据，采用定量分析的方式衡量统计数据涉及的各种属性的重要程度，采用定性分析的方式借助机器学习模型衡量分布式数据涉及的各种属性的重要程度，如此对安全数据涉及的各种属性进行客观全面地衡量；进而，基于衡量结果从安全数据涉及的各种属性中选出对于制定安全策略具有较高参考价值的重要属性，基于重要属性对应的安全数据生成安全数据分析结果，如此保证安全数据分析结果的准确性和可靠性，并且还能够提高安全数据分析效率。

本申请实施例还提供了一种用于分析安全数据的设备，该设备具体可以为服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的服务器和终端设备进行介绍。

参见图7，图7为本申请实施例提供的一种服务器700的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 722用于执行如下步骤：

对所述原始安全数据进行预处理，得到待分析安全数据；

可选的，CPU 722还可以用于执行本申请实施例提供的安全数据分析方法的任意一种实现方式的步骤。

参见图8，图8为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括智能手机、计算机、平板电脑、个人数字助理等任意终端设备，以终端为计算机为例：

图8示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图8，计算机包括：射频(Radio Frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器880是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

在本申请实施例中，该终端所包括的处理器880还具有以下功能：

对所述原始安全数据进行预处理，得到待分析安全数据；

可选的，所述处理器880还用于执行本申请实施例提供的安全数据分析方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种安全数据分析方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种安全数据分析方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种安全数据分析方法，其特征在于，所述方法包括：

对所述原始安全数据进行预处理，得到待分析安全数据；

2.根据权利要求1所述的方法，其特征在于，所述机器学习模型包括多个弱分类器；所述通过机器学习模型根据所述第二属性集合中各种属性下的分布式数据，确定所述第二属性集合中各种属性各自的重要度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二属性集合中各种属性各自的重要度，从所述第二属性集合中选出第二目标属性，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的重要度，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一属性集合中各种属性下的统计数据量，确定所述第一属性集合中各种属性各自的覆盖度，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一属性集合中各种属性各自的重要度和/或覆盖度，从所述第一属性集合中选出第一目标属性，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标属性对应的统计数据和所述第二目标属性对应的分布式数据，确定安全数据分析结果，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述对所述原始安全数据进行预处理，得到待分析安全数据，包括以下至少一种处理：

对所述原始安全数据进行格式统一化处理，统一所述原始安全数据的时间单位；

对所述原始安全数据中具有离散特征的数据进行数据归一化处理，得到具有离散特征的数据对应的向量表示；

对所述原始安全数据中数据缺失部分少于预设阈值的数据，进行数据填充处理；

对所述原始安全数据中数据缺失部分不少于所述预设阈值的数据，进行数据删除处理。

9.根据权利要求8所述的方法，其特征在于，所述对所述原始安全数据中具有离散特征的数据进行数据归一化处理，得到具有离散特征的数据对应的向量表示，包括：

10.根据权利要求1所述的方法，其特征在于，所述被监测系统包括以下至少一种：

11.一种安全数据分析装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述机器学习模型包括多个弱分类器；所述分布式数据分析模块具体用于：

13.一种安全数据分析系统，其特征在于，所述系统包括：预处理引擎、分发引擎、选举引擎、定量分析引擎和分析引擎；所述选举引擎和所述定量分析引擎部署于分布式云计算平台；

14.一种设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至10中任一项所述的安全数据分析方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至10中任一项所述的安全数据分析方法。