CN112215365A

CN112215365A - 一种基于朴素贝叶斯模型提供特征预测能力方法

Info

Publication number: CN112215365A
Application number: CN202011174963.5A
Authority: CN
Inventors: 何东晓; 吕蔚萁; 金弟; 焦鹏飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-12

Abstract

本发明公开了一种基于朴素贝叶斯模型提供特征预测能力方法，包括如下步骤：步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集；步骤2、提取模型中参数通过十折交叉验证方法，根据特征数据集进行参数调节生成超参数值；步骤3、设置高斯朴素贝叶斯模型的超参数值，使用其fit函数对所述特征数据集进行拟合，同时获得特征值预测概率模型；步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况，该方法使用后验概率提高所应用计算、医学、能源和语音不同领域的特征预测能力，能够准确性、有效性地描绘出所应用相关技术领域的特征预测能力。

Description

一种基于朴素贝叶斯模型提供特征预测能力方法

技术领域

本发明属于机器学习中特征预测分析领域，尤其涉及一种基于朴素贝叶斯模型提高特征预测能力方法。

背景技术

特征预测能力的检测是机器学习中的一个关键问题，在机器学习中有很多方法可以进行对特征预测能力的检测，他们可以分为两类，第一类基于特征重要性进行特征预测能力的检测，该特征预测方法大量应用在特征选择中，例如：过滤方法使用不同的评价标准来评估特征的重要性；在基于稀疏学习的方法中，多聚类特征选择通过一个带有1-范数正则化的回归模型来度量特征的重要性；基于信息理论的方法利用不同的启发式过滤准则来衡量特征的重要性。此外随机森林方法也经常出现在生物医药方面数据集的特征重要性预测，例如：可以用于从脑信号中检测使得癫痫发作的最突出特征。第二类方法是基于特征概率分布来进行特征预测能力的检测，使用逻辑回归和证据权重的计算方法可以得到不同特征值的预测概率值，例如：逻辑回归可用于遥感数据集中得到特征对类的预测概率并根据其重要性进行排序，它可以在不显著降低软分类和硬分类精度的情况下显著地减少特征。

以上的方法总是单一的从特征的角度来总结预测能力，实际上特征的预测能力通常与特征值变化相关。对于同一个特征，一个特征值大小下的预测能力可能与另一个特征值下的预测能力相差很大。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于高斯朴素贝叶斯(GNB)提高特征预测能力的模型。本发明是通过高斯朴素贝叶斯分类器对采集到的数据集计算每个特征属性/每个列的不同特征值参数的后验概率值，使用后验概率提高所应用计算、医学、能源和语音不同领域的特征预测能力，并以柱状图的形式描绘出不同特征值的概率预测情况即(特征预测能力分布图)，本发明与现有技术中采用的逻辑回归方法(LR)、证据权重方法(WOE)和随机森林方法(RF)三种经典的评价特征预测能力的方法进行对比后，充分说明本发明能够准确性、有效性地描绘出所应用相关技术领域的特征预测能力。

为了解决现有技术存在技术问题，本发明采用的如下技术方案：

1)根据所应用的技术领域采集数据集进行特征预处理生成特征数据集；其中：对特征数据集预处理过程包括：

选取特征数集中某一选定特征进行升序排列；

对特征数据集中的数据进行标准化，所述标准化是即每个特征属性/每列数据分别按照减去其均值，并除以其方差，使得每个特征值属性/每列数据都在0单元附近聚集，其方差为1；

2)提取模型中参数通过十折交叉验证方法，根据特征数据集进行参数调节生成超参数值；

3)设置高斯朴素贝叶斯模型的参数值，使用其fit函数对所述特征数据集进行拟合，同时获得特征值预测概率模型，将拟合后的数据代入特征值预测概率模型的公式(1)；所述特征值预测概率模型为：

其中，μ表示数据均值，δ表示数据方差，可通过高斯朴素贝叶斯模型的均值方差函数获得。

4)通过柱状图的形式描绘出特征值预测概率模型概率分布情况。

有益效果

1、通过使用高斯朴素贝叶斯公式计算的后验概率更加准确(属性之间相互独立，互不影响)，其概率值分布能够更加准确的描述出对于某一个特征不同特征值对某个类的预测分布情况。

2、本发明利用了柱状图的形式对比四种特征预测能力的检测方法，其中三种基于特征概率分布的方法(高斯朴素贝叶斯方法，逻辑回归方法和证据权重方法)与一种基于特征重要性的特征预测能力检测方法(随机森林方法)。通过对比柱状图的特征值概率分布情况更加直观的表现出基于GNB方法得到的特征值预测能力的准确性。

3、本发明方法使用高斯朴素贝叶斯分类器来计算特征值的预测概率值，提高了特征值概率计算的准确性，并以柱状图的形式，更加直观展现出不同特征值范围对于目标类的预测能力分布情况。同时与其他三种特征值预测能力检测的方法进行比较，对比出高斯朴素贝叶斯检测特征值预测能力的准确性。

总的来说具有以下特点：

a.通过高斯朴素贝叶斯计算的后验概率更加简单，准确；

b.通过柱状图直观的表示出特征预测能力的分布情况；

c.实现方法简单、高效；

d.可扩展性强；

附图说明

图1一种基于朴素贝叶斯模型提供特征预测能力方法流程图

图2是本发明在自然语言处理中的20newsgroup数据集中对于特征单词‘software’的特征值概率分布情况。

具体实施方式：

为了提高检测特征预测能力的准确性，得到更高质量、有效的基于不同特征值的预测能力分布情况，本发明利用高斯朴素贝叶斯方法计算出不同特征值的后验概率/特征预测能力，为了使该方法的结果能够清晰明了的表示出来，且具有很强的理解性，本发明采用柱状图的形式描绘出同一特征的不同特征值的预测概率分布情况。通过本发明的预测模型，用户可直接获取高质量的特征预测能力检测结果和更加直观的概率柱状图表示。该发明在生物医学、自然语言处理和计算机视觉等领域具有广泛的应用前景。

如图1所示，本发明一种基于朴素贝叶斯模型提供特征预测能力方法，具体步骤为：

101，步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集；其中：对特征数据集预处理过程包括：

选取特征数集中某一选定特征进行升序排列；

对特征数据集中的数据进行标准化，所述标准化是即每个特征属性/每列数据分别按照减去其均值，并除以其方差，使得每个特征值属性/每列数据都在0单元附近聚集，其方差为1；102，步骤2、提取模型中参数通过十折交叉验证方法，根据特征数据集进行参数调节生成超参数值；如表1所示：其中，逻辑回归方法(LR)、随机森林方法(RF)和本发明中高斯朴素贝叶斯分类器(GNB)。

表1为3种预测方法的超参数及其调节范围。

将步骤2得到的参数值，代入高斯朴素贝叶斯等方法模型的fit函数对数据进行拟合。

103，步骤3、通过高斯朴素贝叶斯分类器中fit函数对所述超参数值进行拟合，同时获得特征值预测概率模型，将拟合后的数据代入特征值预测概率模型的公式(1)；所述特征值预测概率模型为：

104，步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况。

本发明通过特征值预测概率模型计算条件概率，高效迅速的计算后验概率，获取所需的特征值预测概率分布。本发明中特征值预测概率模型简单、高效，具有很强的可扩展性，可应用到多种领域的数据集中。对于训练数据的实验结果也表明，所提方法能够获得高质量的特征值预测能力表示。

下面是本发明应用在语言特征分类实例：实例如表2所示：

表2为一个测试数据具体说明

数据集名称	样本数	单词数	类数	领域
					20newsgroup	1727	30664	3	NLP

采集语言数据集获得的对于单词‘software’在计算机图形学类的特征概率值分布情况(即从上到下，从左到右依次为高斯朴素贝叶斯方法计算的特征值概率分布图、逻辑回归方法计算的特征值概率分布图、证据权重方法计算的特征值概率分布图和随机森林方法计算的特征值概率分布图)如图2所示。

本发明采用的技术方案利用高斯朴素贝叶斯和柱状图表示方法，包括以下步骤：

1)输入待测语言数据集，根据数据集中的单词‘software’特征进行升序排列，并将数据集中的每个属性/每列数据进行标准化；

2)对不同方法的参数进行超参数调节，本发明通过使用十折交叉验证方法选出超参数值；

3)设置高斯朴素贝叶斯模型的参数值，使用其fit函数进行数据拟合计算出具有‘software’特征值的后验概率值，即‘software’特征值的预测能力；

4)通过柱状图的形式描绘出‘software’特征值概率分布情况；

本发明通过应用高斯朴素贝叶斯模型求解检测特征值预测能力的方法，又通过柱状图表述检测到的不同特征值的预测能力(即后验概率值)，简洁并清晰明了地表述出了不同特征值的预测能力分布情况，经过与其他三种方法对比突出地表现出使用高斯朴素贝叶斯方法进行特征值预测的准确性。

以上均说明该方法对特征值预测能力的检测有了很大程度上的改善，可获得更高质量的特征值预测能力检测结果(实验结果见附图说明)。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于朴素贝叶斯模型提供特征预测能力方法，其特征在于:使用朴素贝叶斯分类器做推断任务而不是分类任务；可以得到同一个特征属性不同特征值的预测能力分布情况，包括如下步骤：

步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集；

步骤2、提取模型中参数通过十折交叉验证方法，根据特征数据集进行参数调节生成超参数值；

步骤3、设置高斯朴素贝叶斯模型的参数值，使用其fit函数对所述特征数据集进行拟合，同时获得特征值预测概率模型，将拟合后的数据代入特征值预测概率模型的公式(1)；所述特征值预测概率模型为：

其中，写出上面公式中的参数情况：μ表示数据均值，δ表示数据方差，可通过高斯朴素贝叶斯模型的均值方差函数获得；

步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况。

2.根据权利要求1所述一种基于朴素贝叶斯模型提供特征预测能力方法，对特征数据集预处理过程包括：

选取特征数集中某一选定特征进行升序排列；

对特征数据集中的数据进行标准化，所述标准化是即每个特征属性/每列数据分别按照减去其均值，并除以其方差，使得每个特征值属性/每列数据都在0单元附近聚集，其方差为1。