CN112883371A

CN112883371A - 一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法

Info

Publication number: CN112883371A
Application number: CN202110169229.8A
Authority: CN
Inventors: 魏光杏; 李华; 邹军国; 戴月; 陈银燕; 苗孟君
Original assignee: Chuzhou Vocational and Technical College
Current assignee: Chuzhou Vocational and Technical College
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-01

Abstract

本发明公开了一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，包括基于朴素贝叶斯和云端安全的入侵检测方法，基于朴素贝叶斯和云端安全的入侵检测方法主要包括云端数据安全模块、数据处理模块、属性权值的确定模块、NB模型和入侵监测体系五个组成部分，其中数据处理模块分为改进的属性选择算法和数据离散化两个部分，属性权值的确定模块使用fisher score值计量加权系数，NB模型主要为隐朴素贝叶斯。本发明从属性选择算法方面对朴素贝叶斯模型进行优化，对朴素贝叶斯模型的结构利用权值进行改进，并且将改进的属性选择算法和加权隐朴素贝叶斯模型结合起来应用到大数据入侵检测中，提高对数据的防入侵检测的效果。

Description

一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法

技术领域

本发明涉及大数据检测方法技术领域，具体为一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法。

背景技术

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，随着大数据时代的到来，实际采集到的数据类型越来越多样化。

然而，现有的大数据在采集和使用的过程中存在以下的问题：(1)存在大数据入侵的处理方式，这些数据中往往会存在和研究无关或者冗余的属性，这就会对分类结果产生一些负面的影响；(2)现有的大数据采集往往会基于云端，存在大量的入侵不良信息，缺乏相应的处理手段。为此，需要设计相应的技术方案解决存在的技术问题。

发明内容

本发明的目的在于提供一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，解决了存在大数据入侵的处理方式，这些数据中往往会存在和研究无关或者冗余的属性，这就会对分类结果产生一些负面的影响，这一技术问题。

为实现上述目的，本发明提供如下技术方案：一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，包括基于朴素贝叶斯和云端安全的入侵检测方法，所述基于朴素贝叶斯和云端安全的入侵检测方法主要包括云端数据安全模块、数据处理模块、属性权值的确定模块、NB模型和入侵监测体系五个组成部分，其中所述数据处理模块分为改进的属性选择算法和数据离散化两个部分，所述属性权值的确定模块使用fisher score值计量加权系数，所述NB模型主要为隐朴素贝叶斯，所述fisher score值计量加权系数和隐朴素贝叶斯共同组成加权隐朴素贝叶斯模型，所述加权隐朴素贝叶斯模型综合应用在入侵检测中并与已成熟算法比较，所述云端数据安全模块和入侵监测体系通过数据传输网络对加权隐朴素贝叶斯模型的运作处理提供安全支撑。

作为本发明的一种优选实施方式，所述改进的属性选择算法以取得一个最优属性子集，使得这个属性子集中属性之间的总体相关性最小并使用使用Spearman相关系数。

作为本发明的一种优选实施方式，所述隐朴素贝叶斯模型是在朴素贝叶斯模型的基础上给每个属性增加一个隐藏父节点，隐藏父节点表示的是该属性和其他属性的相关度之和。

作为本发明的一种优选实施方式，所述云端数据安全模块包括数据安全单元、数据管理单元、管理配置单元和数据安全软件四个部分且上述各部分相互配合使用。

作为本发明的一种优选实施方式，所述数据安全单元包括身份验证、隐私保护、存储安全和接入安全四个部分。

作为本发明的一种优选实施方式，所述数据管理单元主要包括基础数据管理、数据质量管理、数据链路检测和数据运维管理。

作为本发明的一种优选实施方式，所述管理配置单元包括配置管理、任务管理、监控告警和服务管理四个部分。

作为本发明的一种优选实施方式，所述数据安全软件包括数据库防火墙、WEB应用防火墙、WEB漏洞检测软件和存储安全软件等四类软件。

作为本发明的一种优选实施方式，所述入侵检测体系包括感知数据模块和数据分析模块，所述感知数据模块分为网络数据采集单元、主机信息采集单元和应用服务记录单元，所述数据分析模块分为数据格式化单元、入侵检测规格单元和全局数据挖掘单元。

与现有技术相比，本发明的有益效果如下：

1.本方案设计了一套基于朴素贝叶斯模型以及云端安全的大数据入侵检测方法，从属性选择算法方面对朴素贝叶斯模型进行优化，对朴素贝叶斯模型的结构利用权值进行改进，并且将改进的属性选择算法和加权隐朴素贝叶斯模型结合起来应用到大数据入侵检测中，提高对数据的防入侵检测的效果，此外设计有专门的云端安全模块和入侵监测体系，对数据的获取进行安全处理处理，以保证大数据的安全性。

2.本方案针对朴素贝叶斯的“条件独立性假设”，本课题首先就从属性选择方面对朴素贝叶斯模型进行优化，以取得一个最优属性子集，使得这个属性子集中属性之间的总体相关性最小，这样做就可以抵消一部分“条件独立性假设”带来的影响。针对现在比较常用的CFS属性选择算法的缺点，对其进行了一定的改进，具体思路是对属性子集的评价函数进行了修改。由于互信息只能用在只有离散属性的数据集中，所以在属性子集的评价准则中不再使用互信息，而是使用Spearman相关系数，同时，CFS算法没有考虑到属性子集中属性与类属性相关度差异过大的情况，为此引入相关度方差来限制这种情况的发生，此外利用权值的方法对隐朴素贝叶斯模型进行改进。经过属性选择之后得到的属性，它们之间也不能保证完全是彼此独立的。所以本课题采用比较成熟的隐朴素贝叶斯模型来进一步放松NB模型“条件独立性假设”的限制，隐朴素贝叶斯模型是在朴素贝叶斯模型的基础上给每个属性增加一个隐藏父节点，隐藏父节点表示的是该属性和其他属性(不包括类属性)的相关度之和，在一定程度上，隐朴素贝叶斯模型放松了朴素贝叶斯的“条件独立性假设”的限制，不过隐朴素贝叶斯也有缺点，因为每个属性对最后的分类结果的贡献度是不一样的，而隐朴素贝叶斯没有将这个情况考虑在内，所以为了提高隐朴素贝叶斯的应用效果，本课题拟利用属性加权的思想，使用每个属性的fisher score值来作为该属性的加权系数。

附图说明

图1为本发明的整体结构图；

图2为本发明所述云端数据安全模块结构图；

图3为本发明所述入侵监测体系结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，包括基于朴素贝叶斯和云端安全的入侵检测方法，所述基于朴素贝叶斯和云端安全的入侵检测方法主要包括云端数据安全模块、数据处理模块、属性权值的确定模块、NB模型和入侵监测体系五个组成部分，其中所述数据处理模块分为改进的属性选择算法和数据离散化两个部分，所述属性权值的确定模块使用fisher score值计量加权系数，所述NB模型主要为隐朴素贝叶斯，所述fisher score值计量加权系数和隐朴素贝叶斯共同组成加权隐朴素贝叶斯模型，所述加权隐朴素贝叶斯模型综合应用在入侵检测中并与已成熟算法比较，所述云端数据安全模块和入侵监测体系通过数据传输网络对加权隐朴素贝叶斯模型的运作处理提供安全支撑。

进一步改进地，如图1所示：所述改进的属性选择算法以取得一个最优属性子集，使得这个属性子集中属性之间的总体相关性最小并使用使用Spearman相关系数。

进一步改进地，如图1所示：所述隐朴素贝叶斯模型是在朴素贝叶斯模型的基础上给每个属性增加一个隐藏父节点，隐藏父节点表示的是该属性和其他属性的相关度之和。

进一步改进地，如图2所示：所述云端数据安全模块包括数据安全单元、数据管理单元、管理配置单元和数据安全软件四个部分且上述各部分相互配合使用。

进一步改进地，如图2所示：所述数据安全单元包括身份验证、隐私保护、存储安全和接入安全四个部分。

进一步改进地，如图2所示：所述数据管理单元主要包括基础数据管理、数据质量管理、数据链路检测和数据运维管理。

进一步改进地，如图2所示：所述管理配置单元包括配置管理、任务管理、监控告警和服务管理四个部分。

进一步改进地，如图2所示：所述数据安全软件包括数据库防火墙、WEB应用防火墙、WEB漏洞检测软件和存储安全软件等四类软件。

具体地，所述入侵检测体系包括感知数据模块和数据分析模块，所述感知数据模块分为网络数据采集单元、主机信息采集单元和应用服务记录单元，所述数据分析模块分为数据格式化单元、入侵检测规格单元和全局数据挖掘单元。

在使用时：本发明将改进的属性选择算法和加权隐朴素贝叶斯模型结合起来应用到大数据入侵检测中，首先属性选择算法(CFS)的改进，针对朴素贝叶斯的“条件独立性假设”，本课题首先就从属性选择方面对朴素贝叶斯模型进行优化，以取得一个最优属性子集，使得这个属性子集中属性之间的总体相关性最小。这样做就可以抵消一部分“条件独立性假设”带来的影响。针对现在比较常用的CFS属性选择算法的缺点，对其进行了一定的改进，具体思路是对属性子集的评价函数进行了修改。由于互信息只能用在只有离散属性的数据集中，所以在属性子集的评价准则中不再使用互信息，而是使用Spearman相关系数。同时，CFS算法没有考虑到属性子集中属性与类属性相关度差异过大的情况，为此引入相关度方差来限制这种情况的发生。其次，利用权值的方法对隐朴素贝叶斯模型进行改进。经过属性选择之后得到的属性，它们之间也不能保证完全是彼此独立的。所以本课题采用比较成熟的隐朴素贝叶斯模型来进一步放松NB模型“条件独立性假设”的限制。隐朴素贝叶斯模型是在朴素贝叶斯模型的基础上给每个属性增加一个隐藏父节点，隐藏父节点表示的是该属性和其他属性(不包括类属性)的相关度之和，在一定程度上，隐朴素贝叶斯模型放松了朴素贝叶斯的“条件独立性假设”的限制。不过隐朴素贝叶斯也有缺点，因为每个属性对最后的分类结果的贡献度是不一样的，而隐朴素贝叶斯没有将这个情况考虑在内，所以为了提高隐朴素贝叶斯的应用效果，本课题拟利用属性加权的思想，使用每个属性的fisherscore值来作为该属性的加权系数，此外考虑到数据的处理多基于云端，为了保证数据的安全性，又设计有云端数据安全模块和入侵监测体系，通过云端数据安全模块的数据安全单元、数据管理单元、管理配置单元和数据安全软件四个部分对云端数据的运作提供安全支撑，并通过入侵监测体系对大数据的运作提供实时监测。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，包括基于朴素贝叶斯和云端安全的入侵检测方法，其特征在于：所述基于朴素贝叶斯和云端安全的入侵检测方法主要包括云端数据安全模块、数据处理模块、属性权值的确定模块、NB模型和入侵监测体系五个组成部分，其中所述数据处理模块分为改进的属性选择算法和数据离散化两个部分，所述属性权值的确定模块使用fisher score值计量加权系数，所述NB模型主要为隐朴素贝叶斯，所述fisher score值计量加权系数和隐朴素贝叶斯共同组成加权隐朴素贝叶斯模型，所述加权隐朴素贝叶斯模型综合应用在入侵检测中并与已成熟算法比较，所述云端数据安全模块和入侵监测体系通过数据传输网络对加权隐朴素贝叶斯模型的运作处理提供安全支撑。

2.根据权利要求1所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述改进的属性选择算法以取得一个最优属性子集，使得这个属性子集中属性之间的总体相关性最小并使用使用Spearman相关系数。

3.根据权利要求1所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述隐朴素贝叶斯模型是在朴素贝叶斯模型的基础上给每个属性增加一个隐藏父节点，隐藏父节点表示的是该属性和其他属性的相关度之和。

4.根据权利要求1所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述云端数据安全模块包括数据安全单元、数据管理单元、管理配置单元和数据安全软件四个部分且上述各部分相互配合使用。

5.根据权利要求4所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述数据安全单元包括身份验证、隐私保护、存储安全和接入安全四个部分。

6.根据权利要求4所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述数据管理单元主要包括基础数据管理、数据质量管理、数据链路检测和数据运维管理。

7.根据权利要求4所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述管理配置单元包括配置管理、任务管理、监控告警和服务管理四个部分。

8.根据权利要求4所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述数据安全软件包括数据库防火墙、WEB应用防火墙、WEB漏洞检测软件和存储安全软件等四类软件。

9.根据权利要求1所述的一种以朴素贝叶斯模型和云端安全的大数据入侵检测方法，其特征在于：所述入侵检测体系包括感知数据模块和数据分析模块，所述感知数据模块分为网络数据采集单元、主机信息采集单元和应用服务记录单元，所述数据分析模块分为数据格式化单元、入侵检测规格单元和全局数据挖掘单元。