CN116910824A

CN116910824A - 一种基于分布式多源测度的安全大数据分析方法及系统

Info

Publication number: CN116910824A
Application number: CN202311093650.0A
Authority: CN
Inventors: 程广勇; 王嘉飞; 胡伟明; 吴炎彬; 黄嘉辉; 黄锦辉; 何益兴; 丁小雅; 张耿滔; 刘展鹏; 吴桂芬
Original assignee: Guangdong Zhongshan Net Media Information Technology Co ltd
Current assignee: Guangdong Zhongshan Net Media Information Technology Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-10-20
Anticipated expiration: 2043-08-28
Also published as: CN116910824B

Abstract

本发明公开了一种基于分布式多源测度的安全大数据分析方法及系统，包括：根据每一终端的终端标识判定是否为安全终端，接收若干个安全终端发送的多源异构数据，根据预设的适配规则对所述多源异构数据进行转换处理，获得若干个第一标准化数据，获得每一个第一标准化数据中每一个数据分别对应的局部近邻特征，计算所述每一个数据分别与其对应的局部近邻特征的相关系数，进而对所述第一标准化数据进行数据清洗，通过预设的深度学习模型对数据清洗后的每一个第一标准化数据进行风险评估，获得对应的风险评估结果；根据所述风险评估结果对所述多源异构数据进行数据抽取，获得目标数据，提高数据分析的效率及精准度。

Description

一种基于分布式多源测度的安全大数据分析方法及系统

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于分布式多源测度的安全大数据分析方法及系统。

背景技术

随着信息时代的到来，互联网把所有入网的智能终端全部相连，随着人们对所述智能移动终端的使用，数据的积累及数据的交互成几何倍增长，而在所述数据交互的过程中，为了保护智能终端自身的安全，需要对发送到所述智能终端的数据进行分析，判断所述发送的数据是否符合所述智能终端数据接收的要求，即对所述智能终端来说，需要判断当前待接受的数据是安全数据还是非安全数据。

现有技术中，为了从所述获取的大量数据中分析出有效信息进而判断所述数据是否为安全数据，出现了各种不同的数据分析算法和分析系统，随着信息量的增多，待分析的数据量增加及数据量的来源分布广泛逐渐成为现有技术进行大数据分析时面临的问题。

现有技术中解决所述数据量过大时会采用将大数据量分流成若干个小数据量的数据流分析处理，但对于复杂且数据量大的数据流进行实时处理时会存在处理压力,如果某一节点故障则容易带来数据分流丢失的问题，因此对数据分析的要求比较高，因此成本较高且容易出现错误造成数据分析错误率高，而对于来自不同的分布式的数据来源发送的数据，现有技术通常将所述数据统一进行融合，然后对融合后的数据进行大数据分析，这种技术手段不需要分别对不同的来源的数据一一进行分析，提高了大数据分析的速度，但是由于将所述数据融合到一起，经常会导致将不安全平台发送的数据与其它数据融合到一起时，如此当识别到所述不安全平台发送的数据时，需对已融合的其他数据再次进行判断并从中筛选出不安全数据，如此，不仅降低不安全数据的识别效率，还会因为数据的融合导致识别过程中易将安全数据识别为不安全数据，进而抵触该安全数据的接收，导致数据分析的效果不精确。

发明内容

为了解决上述技术问题，本发明公开了一种基于分布式多源测度的安全大数据分析方法及系统，提高数据分析的速度及精准度。

为了实现上述目的，本发明公开了一种基于分布式多源测度的安全大数据分析方法，包括：

从接收的若干个终端中每一终端发送的数据上传请求中获取所述每一终端分别对应的终端标识，根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据；

提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，并根据所述适配规则对所述第一异构数据进行转换处理，获得所述每一源第一异构数据分别对应的第一标准化数据；

对所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别进行最近邻搜索，获得所述每一个数据分别对应的局部数据集，通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，获得所述每一个数据分别对应的局部近邻特征；

计算所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗，获得所述每一源第一异构数据分别对应的第二标准化数据；

将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，获得所述每一源第一异构数据分别对应的风险评估结果；

根据所述风险评估结果对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，获得目标数据。

本发明公开了一种基于分布式多源测度的安全大数据分析方法，首先获取若干个分布式终端中每一个终端分别发送的数据上传请求，并从所述数据上传请求中获取每一终端对应的终端标识，以便于根据所述终端标识对当前终端进行安全判断，并只接收被判定为安全终端发送的数据，以使从终端源头对所述上传的大数据进行初步判断，以此避免接收同一不安全终端发送的数据，解决了现有技术中从融合的数据中重新查找不安全数据，提高安全数据分析的速度及精准度，进一步的，在接收到被初步判定为安全终端的多个终端发送的多源异构数据后，由于不同的终端发送的数据的结构不同，为了避免在后期根据数据的结构对数据进行分类再对所述数据安全分析进而降低数据分析的效率，为了提高分析的速度及精准度，本发明通过获取每一源异构数据对应的数据规则，利用所述数据规则从预设的数据规则表中获取对应的适配规则以此对所述数据的结构进行改变，生成对应的标准数据，在获得所述标准数据后，为了提高安全数据分析的精准度，由此本发明首先考虑源数据中是否存在异常数据，由此获取每一源异构数据中的每一个数据与其近邻数据的关联，当所述关联程度不高时，代表其存在异常，由此对其进行数据清洗，获得排除异常数据后的干净数据，接着对每一源发送的数据进行自身的初步数据清洗后，再利用预设的深度学习模型评估其对应的风险结果，判断所述数据是否会造成风险，由此根据所述风险评估结构再次从外部对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，最终分析获得目标数据，本发明通过从数据发送的源头进行安全判断既提高了安全数据分析的速度，又提高了安全分析的精准度，接着从数据自身及外部的风险评估对获得的大数据进行安全分析，极大的提高了安全数据分析的精准度，进一步的，本发明在对所述数据进行安全分析时，将所述异构数据转换为统一的标准数据，使得可对其进行相同的处理，提高安全数据分析的效率。

作为优选例子，在所述根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据，包括：

将获取的终端标识与缓存在预设的数据库中的信任机标识表进行标识匹配，判断所述终端标识对应的终端是否为安全终端；所述信任机标识表包括若干个其中的数据被认为是安全数据的终端的终端标识；

当所述终端标识与所述信任机标识表匹配成功时，则判定所述终端标识对应的终端为安全终端并接受所述终端标识对应的终端发送的数据；

当所述终端标识与所述信任机标识表匹配不成功时，则判定所述终端标识对应的终端为不安全终端并发送终端不安全提示。

本发明通过缓存在预设的数据库中的信任机标识表确定当前连接的安全终端，当接收到不同终端发送的数据上传请求时，通过所述信任机标识表及当前终端对应的终端标识即可判定与当前终端是否建立安全连接，由此从数据发送源头上拒绝来自同一不安全终端发送的不安全数据，既降低了后续数据分析的计算量、提高了数据分析的效率，又从源头对数据进行分类，提高了数据分析的精准度。

作为优选例子，所述提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，包括：

获取所述每一源第一异构数据分别对应的若干个数据，生成每一源第一异构数据分别对应的树结构数据，并通过预设的空间索引算法分别对所述每一源第一异构数据对应的树结构数据进行空间索引，获得所述每一源第一异构数据分别对应的数据规则；

根据所述数据规则，通过预设的规则适配方法从预设的数据规则表中确定每一源第一异构数据分别对应的适配规则；所述适配规则包括自定义字段值、字段名称、字段类型、单位换算规则及字段匹配优先级中的任意一种或多种规则。

本发明通过构建每一源第一异构数据分别对应的树结构数据，由此通过对所述树结构数据进行遍历即可精准的获得对应的数据规则，由此，在后续进行适配规则匹配时，提高准换的精准度，在本发明中通过提前预设不同数据规则对应的适配规则，可通过预设的适配规则对其进行改变，进一步提高准换的效率。

作为优选例子，在所述通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，包括：

根据预设在所述神经网络中的第一线性函数及第二线性函数分别对所述每一个数据分别对应的局部数据集进行不同主次点的相同特征向量的编码，获得所述每一个数据据分别对应的局部数据集对应的近邻特征信息；

根据预设在所述神经网络中的非线性多层感知器对所述每一个数据分别对应的局部数据集进行多层感知，获得所述每一个数据分别对应的局部数据集对应的查询向量，进而获得所述每一个数据分别对应的局部数据集对应的位置编码信息。

本发明根据预设在神经网络中的第一线性函数及第二线性函数对所述局部数据集编码不同主次点的相对特征向量，进而提取所述每个数据与相邻数据之间的近邻特征信息，接着利用多层感知器获得数据集的位置编码信息，以使关注数据和其他邻居数据之间的位置关系，提高数据近邻特征提取的精准度。

作为优选例子，在所述获得所述每一个数据分别对应的局部近邻特征，包括：

结合所述近邻特征信息对应的相对特征向量及所述位置编码信息对应的查询向量，获得关联向量，进而根据所述关联向量，获得所述每一个数据分别对应的局部近邻特征。

本发明将每一个数据对应的局部近邻特征及位置编码信息继续结合，以使获得每一个数据的局部近邻特征的提取，关注了数据与其他数据之间的位置关系，进一步完善了数据的特征信息，进而提高了数据特征提取的精准度。

作为优选例子，在所述计算所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗，包括：

通过预设的归一化计算公式分别对所述每一源第一异构数据中的每一个数据及所述每一个数据分别对应的局部近邻特征进行归一化处理；

通过预设的皮尔逊函数计算获得所述每一个数据与所述每一个数据分别对应的局部近邻特征的皮尔逊相关系数；

将所述每一个数据分别对应的相关系数与预设的系数阈值进行比较，通过从所述每一源第一异构数据中删除所述相关系数小于所述系数阈值的数据，对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗。

本发明首先对所述数据及特征进行归一化操作，以使清楚无效的数据，降低数据计算成本，接着利用皮尔逊函数计算每一个数据与其局部近邻特征的皮尔逊相关系数，以此判断所述数据是否为源数据而非传输过程中添加的异常数据，由此对所述数据进行异常判断，提高安全数据分析的准确度。

作为优选例子，在所述将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，包括：

通过预设在所述深度学习模型的第一卷积层及第二卷积层分别对所述每一源第一异构数据进行特征提取，获得第一特征及第二特征，并将所述第一特征与所述第二特征进行特征拼接，获得第三特征；

通过预设在所述深度学习模型的池化层对所述第三特征进行残差计算及平均池化，获得所述第三特征对应的若干个特征向量；

通过预设在所述深度学习模型的全连接层分别对所述若干个特征向量中的每一个特征向量配置对应的风险权重，进而根据所述风险权重及所述特征向量，获得所述每一源第一异构数据对应的风险评估结果。

本发明通过预设的深度学习模型提取每一源异构数据的特征，进而根据所述特征进行风险评估，提高数据分析的效率，接着在所述深度学习模型中设置了残差学习用于对提取的特征进行残差补充，进一步提高特征提取的精准度，进而提高风险评估的准确性，进而提高数据分析的精准度。

另一方面，本发明还公开了一种基于分布式多源测度的安全大数据分析系统，所述系统包括终端标识判定模块、数据规则转换模块、数据特征提取模块、数据清洗模块、风险评估模块及多源数据抽取模块；

所述终端标识判定模块用于从接收的若干个终端中每一终端发送的数据上传请求中获取所述每一终端分别对应的终端标识，根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据；

所述数据规则转换模块用于提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，并根据所述适配规则对所述第一异构数据进行转换处理，获得所述每一源第一异构数据分别对应的第一标准化数据；

所述数据特征提取模块用于对所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别进行最近邻搜索，获得所述每一个数据分别对应的局部数据集，通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，获得所述每一个数据分别对应的局部近邻特征；

所述数据清洗模块用于计算所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗，获得所述每一源第一异构数据分别对应的第二标准化数据；

所述风险评估模块用于将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，获得所述每一源第一异构数据分别对应的风险评估结果；

所述多源数据抽取模块用于根据所述风险评估结果对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，获得目标数据。

本发明公开的一种基于分布式多源测度的安全大数据分析系统，首先获取若干个分布式终端中每一个终端分别发送的数据上传请求，并从所述数据上传请求中获取每一终端对应的终端标识，以便于根据所述终端标识对当前终端进行安全判断，并只接收被判定为安全终端发送的数据，以使从终端源头对所述上传的大数据进行初步判断，以此避免接收同一不安全终端发送的数据，解决了现有技术中从融合的数据中重新查找不安全数据，提高安全数据分析的速度及精准度，进一步的，在接收到被初步判定为安全终端的多个终端发送的多源异构数据后，由于不同的终端发送的数据的结构不同，为了避免在后期根据数据的结构对数据进行分类再对所述数据安全分析进而降低数据分析的效率，为了提高分析的速度及精准度，本发明通过获取每一源异构数据对应的数据规则，利用所述数据规则从预设的数据规则表中获取对应的适配规则以此对所述数据的结构进行改变，生成对应的标准数据，在获得所述标准数据后，为了提高安全数据分析的精准度，由此本发明首先考虑源数据中是否存在异常数据，由此获取每一源异构数据中的每一个数据与其近邻数据的关联，当所述关联程度不高时，代表其存在异常，由此对其进行数据清洗，获得排除异常数据后的干净数据，接着对每一源发送的数据进行自身的初步数据清洗后，再利用预设的深度学习模型评估其对应的风险结果，判断所述数据是否会造成风险，由此根据所述风险评估结构再次从外部对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，最终分析获得目标数据，本发明通过从数据发送的源头进行安全判断既提高了安全数据分析的速度，又提高了安全分析的精准度，接着从数据自身及外部的风险评估对获得的大数据进行安全分析，极大的提高了安全数据分析的精准度，进一步的，本发明在对所述数据进行安全分析时，将所述异构数据转换为统一的标准数据，使得可对其进行相同的处理，提高安全数据分析的效率。

作为优选例子，所述终端标识判定模块包括标识匹配单元及终端判定单元；

所述标识匹配单元用于将获取的终端标识与缓存在预设的数据库中的信任机标识表进行标识匹配，判断所述终端标识对应的终端是否为安全终端；所述信任机标识表包括若干个其中的数据被认为是安全数据的终端的终端标识；

所述终端判定单元用于当所述终端标识与所述信任机标识表匹配成功时，则判定所述终端标识对应的终端为安全终端并接受所述终端标识对应的终端发送的数据；当所述终端标识与所述信任机标识表匹配不成功时，则判定所述终端标识对应的终端为不安全终端并发送终端不安全提示。

作为优选例子，所述数据规则转换模块包括规则提取单元及规则适配单元；

所述规则提取单元用于获取所述每一源第一异构数据分别对应的若干个数据，生成每一源第一异构数据分别对应的树结构数据，并通过预设的空间索引算法分别对所述每一源第一异构数据对应的树结构数据进行空间索引，获得所述每一源第一异构数据分别对应的数据规则；

所述规则适配单元用于根据所述数据规则，通过预设的规则适配方法从预设的数据规则表中确定每一源第一异构数据分别对应的适配规则；所述适配规则包括自定义字段值、字段名称、字段类型、单位换算规则及字段匹配优先级中的任意一种或多种规则。

附图说明

图1：为本发明实施例提供的一种基于分布式多源测度的安全大数据分析方法的流程示意图；

图2：为本发明实施例提供的一种基于分布式多源测度的安全大数据分析系统的结构示意图；

图3：为本发明又一实施例提供的一种基于分布式多源测度的安全大数据分析方法的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于分布式多源测度的安全大数据分析方法，所述分析方法的具体实施流程可参照图1，如图1包括步骤101至步骤106，所述步骤包括：

步骤101：从接收的若干个终端中每一终端发送的数据上传请求中获取所述每一终端分别对应的终端标识，根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据。

在本实施例中，该步骤主要包括：将获取的终端标识与缓存在预设的数据库中的信任机标识表进行标识匹配，判断所述终端标识对应的终端是否为安全终端；所述信任机标识表包括若干个其中的数据被认为是安全数据的终端的终端标识；当所述终端标识与所述信任机标识表匹配成功时，则判定所述终端标识对应的终端为安全终端并接受所述终端标识对应的终端发送的数据；当所述终端标识与所述信任机标识表匹配不成功时，则判定所述终端标识对应的终端为不安全终端并发送终端不安全提示。

本实施例中，该步骤通过缓存在预设的数据库中的信任机标识表确定当前连接的安全终端，当接收到不同终端发送的数据上传请求时，通过所述信任机标识表及当前终端对应的终端标识即可判定与当前终端是否建立安全连接，由此从数据发送源头上拒绝来自同一不安全终端发送的不安全数据，既降低了后续数据分析的计算量、提高了数据分析的效率，又从源头对数据进行分类，提高了数据分析的精准度。

步骤102：提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，并根据所述适配规则对所述第一异构数据进行转换处理，获得所述每一源第一异构数据分别对应的第一标准化数据。

在本实施例中，该步骤主要包括：获取所述每一源第一异构数据分别对应的若干个数据，生成每一源第一异构数据分别对应的树结构数据，并通过预设的空间索引算法分别对所述每一源第一异构数据对应的树结构数据进行空间索引，获得所述每一源第一异构数据分别对应的数据规则；根据所述数据规则，通过预设的规则适配方法从预设的数据规则表中确定每一源第一异构数据分别对应的适配规则；所述适配规则包括自定义字段值、字段名称、字段类型、单位换算规则及字段匹配优先级中的任意一种或多种规则。

本实施例中，该步骤通过构建每一源第一异构数据分别对应的树结构数据，由此通过对所述树结构数据进行遍历即可精准的获得对应的数据规则，由此，在后续进行适配规则匹配时，提高准换的精准度，在本发明中通过提前预设不同数据规则对应的适配规则，可通过预设的适配规则对其进行改变，进一步提高准换的效率。

步骤103：对所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别进行最近邻搜索，获得所述每一个数据分别对应的局部数据集，通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，获得所述每一个数据分别对应的局部近邻特征。

在本实施例中，该步骤主要包括：根据预设在所述神经网络中的第一线性函数及第二线性函数分别对所述每一个数据分别对应的局部数据集进行不同主次点的相同特征向量的编码，获得所述每一个数据据分别对应的局部数据集对应的近邻特征信息；根据预设在所述神经网络中的非线性多层感知器对所述每一个数据分别对应的局部数据集进行多层感知，获得所述每一个数据分别对应的局部数据集对应的查询向量，进而获得所述每一个数据分别对应的局部数据集对应的位置编码信息；结合所述近邻特征信息对应的相对特征向量及所述位置编码信息对应的查询向量，获得关联向量，进而根据所述关联向量，获得所述每一个数据分别对应的局部近邻特征。

本实施例中，该步骤根据预设在神经网络中的第一线性函数及第二线性函数对所述局部数据集编码不同主次点的相对特征向量，进而提取所述每个数据与相邻数据之间的近邻特征信息，接着利用多层感知器获得数据集的位置编码信息，以使关注数据和其他邻居数据之间的位置关系，提高数据近邻特征提取的精准度，同时将每一个数据对应的局部近邻特征及位置编码信息继续结合，以使获得每一个数据的局部近邻特征的提取，关注了数据与其他数据之间的位置关系，进一步完善了数据的特征信息，进而提高了数据特征提取的精准度。

步骤104：计算所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗，获得所述每一源第一异构数据分别对应的第二标准化数据。

在本实施例中，该步骤主要包括：通过预设的归一化计算公式分别对所述每一源第一异构数据中的每一个数据及所述每一个数据分别对应的局部近邻特征进行归一化处理；通过预设的皮尔逊函数计算获得所述每一个数据与所述每一个数据分别对应的局部近邻特征的皮尔逊相关系数；将所述每一个数据分别对应的相关系数与预设的系数阈值进行比较，通过从所述每一源第一异构数据中删除所述相关系数小于所述系数阈值的数据，对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗。

在本实施例中，该步骤首先对所述数据及特征进行归一化操作，以使清楚无效的数据，降低数据计算成本，接着利用皮尔逊函数计算每一个数据与其局部近邻特征的皮尔逊相关系数，以此判断所述数据是否为源数据而非传输过程中添加的异常数据，由此对所述数据进行异常判断，提高安全数据分析的准确度。

步骤105：将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，获得所述每一源第一异构数据分别对应的风险评估结果。

在本实施例中，该步骤主要包括：通过预设在所述深度学习模型的第一卷积层及第二卷积层分别对所述每一源第一异构数据进行特征提取，获得第一特征及第二特征，并将所述第一特征与所述第二特征进行特征拼接，获得第三特征；通过预设在所述深度学习模型的池化层对所述第三特征进行残差计算及平均池化，获得所述第三特征对应的若干个特征向量；通过预设在所述深度学习模型的全连接层分别对所述若干个特征向量中的每一个特征向量配置对应的风险权重，进而根据所述风险权重及所述特征向量，获得所述每一源第一异构数据对应的风险评估结果。

在本实施例中，该步骤通过预设的深度学习模型提取每一源异构数据的特征，进而根据所述特征进行风险评估，提高数据分析的效率，接着在所述深度学习模型中设置了残差学习用于对提取的特征进行残差补充，进一步提高特征提取的精准度，进而提高风险评估的准确性，进而提高数据分析的精准度。

步骤106：根据所述风险评估结果对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，获得目标数据。

另一方面，在本实施例中还公开了一种基于分布式多源测度的安全大数据分析系统，所述分析系统的具体结构组成可参照图2，如图2所述系统包括终端标识判定模块201、数据规则转换模块202、数据特征提取模块203、数据清洗模块204、风险评估模块205及多源数据抽取模块206。

所述终端标识判定模块201用于从接收的若干个终端中每一终端发送的数据上传请求中获取所述每一终端分别对应的终端标识，根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据。

所述数据规则转换模块202用于提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，并根据所述适配规则对所述第一异构数据进行转换处理，获得所述每一源第一异构数据分别对应的第一标准化数据。

所述数据特征提取模块203用于对所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别进行最近邻搜索，获得所述每一个数据分别对应的局部数据集，通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，获得所述每一个数据分别对应的局部近邻特征。

所述数据清洗模块204用于计算所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗，获得所述每一源第一异构数据分别对应的第二标准化数据。

所述风险评估模块205用于将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，获得所述每一源第一异构数据分别对应的风险评估结果。

所述多源数据抽取模块206用于根据所述风险评估结果对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，获得目标数据。

在本实施例中，所述终端标识判定模块201包括标识匹配单元及终端判定单元。

所述标识匹配单元用于将获取的终端标识与缓存在预设的数据库中的信任机标识表进行标识匹配，判断所述终端标识对应的终端是否为安全终端；所述信任机标识表包括若干个其中的数据被认为是安全数据的终端的终端标识。

在本实施例中，所述数据规则转换模块202包括规则提取单元及规则适配单元。

所述规则提取单元用于获取所述每一源第一异构数据分别对应的若干个数据，生成每一源第一异构数据分别对应的树结构数据，并通过预设的空间索引算法分别对所述每一源第一异构数据对应的树结构数据进行空间索引，获得所述每一源第一异构数据分别对应的数据规则。

本发明公开的一种基于分布式多源测度的安全大数据分析方法及系统，首先获取若干个分布式终端中每一个终端分别发送的数据上传请求，并从所述数据上传请求中获取每一终端对应的终端标识，以便于根据所述终端标识对当前终端进行安全判断，并只接收被判定为安全终端发送的数据，以使从终端源头对所述上传的大数据进行初步判断，以此避免接收同一不安全终端发送的数据，解决了现有技术中从融合的数据中重新查找不安全数据，提高安全数据分析的速度及精准度，进一步的，在接收到被初步判定为安全终端的多个终端发送的多源异构数据后，由于不同的终端发送的数据的结构不同，为了避免在后期根据数据的结构对数据进行分类再对所述数据安全分析进而降低数据分析的效率，为了提高分析的速度及精准度，本发明通过获取每一源异构数据对应的数据规则，利用所述数据规则从预设的数据规则表中获取对应的适配规则以此对所述数据的结构进行改变，生成对应的标准数据，在获得所述标准数据后，为了提高安全数据分析的精准度，由此本发明首先考虑源数据中是否存在异常数据，由此获取每一源异构数据中的每一个数据与其近邻数据的关联，当所述关联程度不高时，代表其存在异常，由此对其进行数据清洗，获得排除异常数据后的干净数据，接着对每一源发送的数据进行自身的初步数据清洗后，再利用预设的深度学习模型评估其对应的风险结果，判断所述数据是否会造成风险，由此根据所述风险评估结构再次从外部对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，最终分析获得目标数据，本发明通过从数据发送的源头进行安全判断既提高了安全数据分析的速度，又提高了安全分析的精准度，接着从数据自身及外部的风险评估对获得的大数据进行安全分析，极大的提高了安全数据分析的精准度，进一步的，本发明在对所述数据进行安全分析时，将所述异构数据转换为统一的标准数据，使得可对其进行相同的处理，提高安全数据分析的效率。

实施例二

在本实施例中提供了另一种基于分布式多源测度的安全大数据分析方法，所述分析方法的具体实施流程可参照图3，如图1包括步骤301至步骤306，所述步骤包括：

步骤301：根据获取的若干个终端中每一个终端发送的终端标识，通过预存的安全终端标识表从所述若干个终端中确定若干个安全终端，并接受所述若干个安全终端发送的多源异构数据。

在本实施例中，该步骤主要为：从接收的若干个终端中每一终端发送的数据上传请求中获取所述每一终端分别对应的终端标识，根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据。

进一步的，在本实施例中，首先在预设的数据库中缓存当前建立安全连接的所有终端的识别码，具体的，可以以配置文件、关系表等方式进行存储。其中，终端的识别码可以是终端的编号、特征码等能够唯一识别出该终端的标识。进一步，在获取终端发送的数据前时，从终端发送的数据上传请求中获取对应终端的识别码，具体的可以直接从终端的上传请求中获取这些信息，其中，所述建立安全连接的终端可以通过人为设置和维护，即安全信息操作人员可以根据预定的规则和方式来将某些终端的等级设置为安全，即将这些终端设置为信任机，并存储相关的信息以此信任这些终端，被设置为信任机的终端，其中的数据都会被认为是安全数据，对于其上传数据都可以认为是安全的。

具体的，当获取到终端的识别码，并可以通过查询配置文件或关系表来判断该终端是否为信任机，既将获取的终端标识与缓存在预设的数据库中的信任机标识表进行标识匹配，判断所述终端标识对应的终端是否为安全终端，若是，再进行下一步的判断，获取所述终端上传的数据，若不是，则可以拒绝本次上传请求或不做相应并发送当前终端为不安全终端的提示。

步骤302：创建多源异构数据中每一源第一异构数据对应的数据数，遍历所述数据树获得对应的数据规则，并从预设的数据规则表中获取对应的适配规则对每一源第一异构数据对应的数据规则进行准换，获得每一源第一异构数据分别对应的第一标准化数据。

在本实施例中，该步骤主要为：提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，根据所述适配规则对所述第一异构数据进行转换处理，获得所述每一源第一异构数据分别对应的第一标准化数据。

进一步的，在本实施例中，根据获取的每一源第一异构数据分别包含的数据，通过预设的深度创建所每一源第一异构数据对应的满四叉树，获得所述每一源第一异构数据分别对应的树结构数据，并且对所述树结构数据中的每个子节点建立唯一索引，利用预设的空间索引算法根据所述构建的唯一索引遍历所述树结构数据，获得每一源第一异构数据分别对应的数据规则。

可选的，在获取所诉数据规则前，可根据当前数据分析的业务规则先制定一套转换规则，多种数据源根据规则转换成标准化的数据，而在本实施例中，可以预先写一套适配程序，将该适配程序部署于内存特定位置处，得到适配单元，该适配单元会定时查询规则表，把源数据按照对应的适配规则解析成标准化数据，通过只设置一套适配程序，适配规则可以动态配置，源数据可以动态增加，显著减少了代码量。例如：多云商环境下有很多维度的指标，单说cpu这个维度，需要给A云商、B云商和C云商等分别配置一个适配规则，而运行同一套适配程序就可以分别把A云商、B云商和C云商的cpu维度的相关指标标准化，大大提高了数据接入层开发效率，缩短了开发时间，节省了人力资源。

进一步，在预先设置所述适配单元后，利用所述获取的数据规则，通过预设的适配单元从预设规则表中确定各适配对象对应的自定义字段值、字段名称、字段类型、单位换算规则以及字段匹配优先级中的任意一种或多种适配规则。

具体的，每个云商的每个指标都需要配置一个json格式的适配规则，如果没有通用适配程序，那么可以给每个云商的每个指标写一套与之对应的标准化程序，工作量会随着多云商的加入越来越大。为了减少工作量，需要对整个适配过程抽取一些公共的逻辑封装成一套适配程序，然后再配置一些与源数据对应的适配规则即可。

步骤303：利用预设的最近邻算法对所述每一源第一异构数据进行最近邻搜索，获得每一源第一异构数据中每一个数据分别对应的局部数据集，再提取所述局部数据集对应的特征，进而获得每一个数据分别对应的局部近邻特征。

在本实施例中，该步骤主要为：对所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别进行最近邻搜索，获得所述每一个数据分别对应的局部数据集，通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，获得所述每一个数据分别对应的局部近邻特征。

进一步的，在本实施例中，通过预设的kNN最近邻搜索算法对所述每一源第一异构数据中的每一个数据分别进行最近邻搜索生成若干个局部数据集，接着通过预设的神经网络对所述局部数据集进行局部近邻特征提取，具体的，在所述神经网络中设置两个不同的线性函数，进一步的通过所述两个不同的线性函数编码不同主次点的相对特征向量，获取每个数据与相邻数据之间的近邻特征信息，再通过设在所述神经网络中的一个非线性MLP(多层感知机)得到查询向量，获取局部数据集的位置编码信息，将相对特征向量与查询向量两者进行结合得到关联向量，实现数据局部近邻特征的自适应提取。

步骤304：计算每一个数据与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别进行数据清洗，获得每一源第一异构数据分别对应的第二标准化数据。

在本实施例中，该步骤具体为：通过预设在归一化处理计算公式对所述每一源第一异构数据中的每一个数据及所述每一个数据分别对应的局部近邻特征进行归一化处理，进一步的，在本实施例中，所述归一化处理计算公式可采用Min-Max归一化计算公式，所述Min-Max归一化计算公式如下：

拟归一化数据用x表示，x_new为归一化后的数据，Max、Min分别表示为当前数据中的最大值和最小值，通过该方法能将原样本数据都映射到一定范围内。

进一步的，在对所述数据及所述局部近邻特征进行归一化处理后，使用皮尔逊相关系数r来对所述每一个数据与其对应的局部近邻特征的关联度进行评估，所述皮尔逊相关系数r如下式：

其中X_i是每一个数据归一化后的值，Y_i是所述每一个数据对应的局部近邻特征归一化后的值，为数据的平均值，也就是样本均值，/> N为样本的个数。皮尔逊相关系数r能直观地反映因变量与自变量的相关性强弱，因此可以用来进行所述每一个数据与其对应的局部近邻特征的关联度的评估。r>0时代表数据与其对应的局部近邻特征成正相关影响，r<0时代表数据与其对应的局部近邻特征成负相关。此时只用考虑相关性，因此采用所述皮尔逊相关系数r的绝对值对所述每一源第一异构数据分别进行数据清洗，当所述皮尔逊相关系数的绝对值大于或等于设定的阈值时，所述数据与与其对应的局部近邻特征的关联度才具有一定的相关性，由此，在本实施例中以所述阈值作为筛选条件，当所述皮尔逊相关系数的绝对值小于所述阈值时，将所述皮尔逊相关系数对应的数据从所述数据对应的每一源第一异构数据中删除，获得所述每一源第一异构数据进行删除后获得的第二标准化数据。

步骤305：将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，获得所述每一源第一异构数据分别对应的风险评估结果。

在本实施例中，该步骤具体为：首先利用历史接收的外部终端发送的历史数据进行模型训练，得到深度学习模型。所述外部数据源的历史数据可以为漏洞信息、威胁情报信息等。进一步地，可以利用历史数据的不同类型的数据训练出不同类型的深度学习模型，或根据不同的数据场景训练出不同类型的深度学习模型，可以极大满足用户不同程度的需求，例如，可以利用用户行为信息进行模型训练，得到可以判断用户异常行为的深度学习模型。用户在使用网络应用与服务时，会在系统中留下痕迹，其行为出现在网络流量、日志记录、审计跟踪记录等处。通过对用户上述信息的收集，并根据信息中用户留下的数字痕迹，建立一条用户行为基准线(例如，用户活跃时间、使用服务类型、使用服务的频率等)，描述用户的“正常行为”。再利用异常行为数据和正常行为数据进行模型训练，得到深度学习模型，通过该深度学习模型对用户的正常与异常行为进行自动识别。以网络流量的检测为例，通常基于Net Flow/IPFIX中的源IP地址、目的IP地址、源端口、目的端口、包数量、流字节数等属性构成的特征向量刻画网络用户行为，实现对网络的分析和持续自动评估，检测网络攻击、网络异常、高级威胁和不良行为。

在得到所述训练后的深度学习模型后，将接收到的不同终端发送的所述每一源第一异构数据分别对应的第二标准化数据输入到所述深度学习模型，得到风险评估结果，对于将将所述数据输入搭配深度学习模型，得到风险评估结果的过程，在此不作具体限定。本申请实施例主要采用基于深度学习的智能研判分析技术，主要对安全设备、网络设备、主机以及用户行为等多个维度进行安全风险研判分析，因此可以针对多种数据场景分别构建深度学习模型，对输入数据进行综合研判，实现风险的自动分类筛选。对于不同的设备场景，深度学习模型的任务不同。

步骤306：根据所述风险评估结果对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，获得目标数据。

在本实施例中，该步骤具体为：根据所述风险评估结果及所述安全数据分析的业务要求，对所述多源异构数据进行整体筛选，或对所述多源异构数据中每一源第一异构数据分别进行数据筛选，示例性的，当对所述多源异构数据进行整体筛选时，获得所述风险评估结果中包括的风险评估分数，当所述风险评估分数高于设定的阈值时，则将所述过高的风险评估分数对应的整体的异构数据从所述多源异构数据中删除，当对所述多源异构数据中每一源第一异构数据分别进行数据筛选时，根据每一源第一异构数据对应的风险评估数据进行数据溯源分析，获得每一源第一异构数据分别包括的风险数据，分别建立各个风险数据与整体的异构数据之间的关联。进一步地，可以利用可视化工具以图形化的形式输出各个风险数据与对应的异构数据之间的关联即将风险源所在的网络拓扑通过图形化的方式展示出来，进行实现风险的总体把控。

本实施例提供的一种基于分布式多源测度的安全大数据分析方法，从终端源头对所述上传的大数据进行初步判断，以此避免接收同一不安全终端发送的数据，解决了现有技术中从融合的数据中重新查找不安全数据，提高安全数据分析的速度及精准度，进一步的，获取每一源异构数据对应的数据规则，利用所述数据规则从预设的数据规则表中获取对应的适配规则以此对所述数据的结构进行改变，生成对应的标准数据，在获得所述标准数据后，为了提高安全数据分析的精准度，考虑源数据中是否存在异常数据，由此获取每一源异构数据中的每一个数据与其近邻数据的关联，当所述关联程度不高时，代表其存在异常，由此对其进行数据清洗，获得排除异常数据后的干净数据，接着对每一源发送的数据进行自身的初步数据清洗后，再利用预设的深度学习模型评估其对应的风险结果，判断所述数据是否会造成风险，由此根据所述风险评估结构再次从外部对所述多源异构数据中每一源第一异构数据分别对应的第二标准化数据进行数据抽取，最终分析获得目标数据，本实施例通过从数据发送的源头进行安全判断既提高了安全数据分析的速度，又提高了安全分析的精准度，接着从数据自身及外部的风险评估对获得的大数据进行安全分析，极大的提高了安全数据分析的精准度，进一步的，本发明在对所述数据进行安全分析时，将所述异构数据转换为统一的标准数据，使得可对其进行相同的处理，提高安全数据分析的效率。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式多源测度的安全大数据分析方法，其特征在于，包括：

2.如权利要求1所述的一种基于分布式多源测度的安全大数据分析方法，其特征在于，所述根据所述终端标识判断对应的终端是否为安全终端并接收被判定为安全终端的终端发送的数据，获得多个终端发送的多源异构数据，包括：

3.如权利要求1所述的一种基于分布式多源测度的安全大数据分析方法，其特征在于，所述提取所述多源异构数据中每一源第一异构数据对应的数据规则，并根据所述数据规则从预设的数据规则表中获取对应的适配规则，包括：

4.如权利要求1所述的一种基于分布式多源测度的安全大数据分析方法，其特征在于，所述述通过预设的神经网络分别对所述每一个数据分别对应局部数据集进行特征提取，包括：

根据预设在所述神经网络中的第一线性函数及第二线性函数分别对所述每一个数据分别对应的局部数据集进行不同主次点的相同特征向量的编码，获得所述每一个数据分别对应的局部数据集对应的近邻特征信息；

5.如权利要求4所述的一种基于分布式多源测度的安全大数据分析方法，其特征在于，所述获得所述每一个数据分别对应的局部近邻特征，包括：

6.如权利要求1所述的一种基于分布式多源测度的安全大数据分析方法，其特征在于，所述计算所述每一源第一异构数据分别对应的第一标准化数据中的每一个数据分别与其对应的局部近邻特征的相关系数，根据所述相关系数对所述每一源第一异构数据分别对应的第一标准化数据进行数据清洗，包括：

7.如权利要求1所述的一种基于分布式多源测度的安全大数据分析方法，其特征在于，所述将所述每一源第一异构数据分别对应的第二标准化数据输入到预设的深度学习模型进行风险评估，包括：

8.一种基于分布式多源测度的安全大数据分析系统，其特征在于，所述系统包括终端标识判定模块、数据规则转换模块、数据特征提取模块、数据清洗模块、风险评估模块及多源数据抽取模块；

9.如权利要求8所述的一种基于分布式多源测度的安全大数据分析系统，其特征在于，所述终端标识判定模块包括标识匹配单元及终端判定单元；

10.如权利要求8所述的一种基于分布式多源测度的安全大数据分析系统，其特征在于，所述数据规则转换模块包括规则提取单元及规则适配单元；