CN112215365A - 一种基于朴素贝叶斯模型提供特征预测能力方法 - Google Patents

一种基于朴素贝叶斯模型提供特征预测能力方法 Download PDF

Info

Publication number
CN112215365A
CN112215365A CN202011174963.5A CN202011174963A CN112215365A CN 112215365 A CN112215365 A CN 112215365A CN 202011174963 A CN202011174963 A CN 202011174963A CN 112215365 A CN112215365 A CN 112215365A
Authority
CN
China
Prior art keywords
characteristic
feature
model
data set
naive bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011174963.5A
Other languages
English (en)
Inventor
何东晓
吕蔚萁
金弟
焦鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011174963.5A priority Critical patent/CN112215365A/zh
Publication of CN112215365A publication Critical patent/CN112215365A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于朴素贝叶斯模型提供特征预测能力方法,包括如下步骤:步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集;步骤2、提取模型中参数通过十折交叉验证方法,根据特征数据集进行参数调节生成超参数值;步骤3、设置高斯朴素贝叶斯模型的超参数值,使用其fit函数对所述特征数据集进行拟合,同时获得特征值预测概率模型;步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况,该方法使用后验概率提高所应用计算、医学、能源和语音不同领域的特征预测能力,能够准确性、有效性地描绘出所应用相关技术领域的特征预测能力。

Description

一种基于朴素贝叶斯模型提供特征预测能力方法
技术领域
本发明属于机器学习中特征预测分析领域,尤其涉及一种基于朴素贝叶斯模型提高特征预测能力方法。
背景技术
特征预测能力的检测是机器学习中的一个关键问题,在机器学习中有很多方法可以进行对特征预测能力的检测,他们可以分为两类,第一类基于特征重要性进行特征预测能力的检测,该特征预测方法大量应用在特征选择中,例如:过滤方法使用不同的评价标准来评估特征的重要性;在基于稀疏学习的方法中,多聚类特征选择通过一个带有1-范数正则化的回归模型来度量特征的重要性;基于信息理论的方法利用不同的启发式过滤准则来衡量特征的重要性。此外随机森林方法也经常出现在生物医药方面数据集的特征重要性预测,例如:可以用于从脑信号中检测使得癫痫发作的最突出特征。第二类方法是基于特征概率分布来进行特征预测能力的检测,使用逻辑回归和证据权重的计算方法可以得到不同特征值的预测概率值,例如:逻辑回归可用于遥感数据集中得到特征对类的预测概率并根据其重要性进行排序,它可以在不显著降低软分类和硬分类精度的情况下显著地减少特征。
以上的方法总是单一的从特征的角度来总结预测能力,实际上特征的预测能力通常与特征值变化相关。对于同一个特征,一个特征值大小下的预测能力可能与另一个特征值下的预测能力相差很大。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于高斯朴素贝叶斯(GNB)提高特征预测能力的模型。本发明是通过高斯朴素贝叶斯分类器对采集到的数据集计算每个特征属性/每个列的不同特征值参数的后验概率值,使用后验概率提高所应用计算、医学、能源和语音不同领域的特征预测能力,并以柱状图的形式描绘出不同特征值的概率预测情况即(特征预测能力分布图),本发明与现有技术中采用的逻辑回归方法(LR)、证据权重方法(WOE)和随机森林方法(RF)三种经典的评价特征预测能力的方法进行对比后,充分说明本发明能够准确性、有效性地描绘出所应用相关技术领域的特征预测能力。
为了解决现有技术存在技术问题,本发明采用的如下技术方案:
1)根据所应用的技术领域采集数据集进行特征预处理生成特征数据集;其中:对特征数据集预处理过程包括:
选取特征数集中某一选定特征进行升序排列;
对特征数据集中的数据进行标准化,所述标准化是即每个特征属性/每列数据分别按照减去其均值,并除以其方差,使得每个特征值属性/每列数据都在0单元附近聚集,其方差为1;
2)提取模型中参数通过十折交叉验证方法,根据特征数据集进行参数调节生成超参数值;
3)设置高斯朴素贝叶斯模型的参数值,使用其fit函数对所述特征数据集进行拟合,同时获得特征值预测概率模型,将拟合后的数据代入特征值预测概率模型的公式(1);所述特征值预测概率模型为:
Figure BDA0002748445190000021
其中,μ表示数据均值,δ表示数据方差,可通过高斯朴素贝叶斯模型的均值方差函数获得。
4)通过柱状图的形式描绘出特征值预测概率模型概率分布情况。
有益效果
1、通过使用高斯朴素贝叶斯公式计算的后验概率更加准确(属性之间相互独立,互不影响),其概率值分布能够更加准确的描述出对于某一个特征不同特征值对某个类的预测分布情况。
2、本发明利用了柱状图的形式对比四种特征预测能力的检测方法,其中三种基于特征概率分布的方法(高斯朴素贝叶斯方法,逻辑回归方法和证据权重方法)与一种基于特征重要性的特征预测能力检测方法(随机森林方法)。通过对比柱状图的特征值概率分布情况更加直观的表现出基于GNB方法得到的特征值预测能力的准确性。
3、本发明方法使用高斯朴素贝叶斯分类器来计算特征值的预测概率值,提高了特征值概率计算的准确性,并以柱状图的形式,更加直观展现出不同特征值范围对于目标类的预测能力分布情况。同时与其他三种特征值预测能力检测的方法进行比较,对比出高斯朴素贝叶斯检测特征值预测能力的准确性。
总的来说具有以下特点:
a.通过高斯朴素贝叶斯计算的后验概率更加简单,准确;
b.通过柱状图直观的表示出特征预测能力的分布情况;
c.实现方法简单、高效;
d.可扩展性强;
附图说明
图1一种基于朴素贝叶斯模型提供特征预测能力方法流程图
图2是本发明在自然语言处理中的20newsgroup数据集中对于特征单词‘software’的特征值概率分布情况。
具体实施方式:
为了提高检测特征预测能力的准确性,得到更高质量、有效的基于不同特征值的预测能力分布情况,本发明利用高斯朴素贝叶斯方法计算出不同特征值的后验概率/特征预测能力,为了使该方法的结果能够清晰明了的表示出来,且具有很强的理解性,本发明采用柱状图的形式描绘出同一特征的不同特征值的预测概率分布情况。通过本发明的预测模型,用户可直接获取高质量的特征预测能力检测结果和更加直观的概率柱状图表示。该发明在生物医学、自然语言处理和计算机视觉等领域具有广泛的应用前景。
如图1所示,本发明一种基于朴素贝叶斯模型提供特征预测能力方法,具体步骤为:
101,步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集;其中:对特征数据集预处理过程包括:
选取特征数集中某一选定特征进行升序排列;
对特征数据集中的数据进行标准化,所述标准化是即每个特征属性/每列数据分别按照减去其均值,并除以其方差,使得每个特征值属性/每列数据都在0单元附近聚集,其方差为1;102,步骤2、提取模型中参数通过十折交叉验证方法,根据特征数据集进行参数调节生成超参数值;如表1所示:其中,逻辑回归方法(LR)、随机森林方法(RF)和本发明中高斯朴素贝叶斯分类器(GNB)。
表1为3种预测方法的超参数及其调节范围。
Figure BDA0002748445190000031
将步骤2得到的参数值,代入高斯朴素贝叶斯等方法模型的fit函数对数据进行拟合。
103,步骤3、通过高斯朴素贝叶斯分类器中fit函数对所述超参数值进行拟合,同时获得特征值预测概率模型,将拟合后的数据代入特征值预测概率模型的公式(1);所述特征值预测概率模型为:
Figure BDA0002748445190000041
其中,μ表示数据均值,δ表示数据方差,可通过高斯朴素贝叶斯模型的均值方差函数获得。
104,步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况。
本发明通过特征值预测概率模型计算条件概率,高效迅速的计算后验概率,获取所需的特征值预测概率分布。本发明中特征值预测概率模型简单、高效,具有很强的可扩展性,可应用到多种领域的数据集中。对于训练数据的实验结果也表明,所提方法能够获得高质量的特征值预测能力表示。
下面是本发明应用在语言特征分类实例:实例如表2所示:
表2为一个测试数据具体说明
数据集名称 样本数 单词数 类数 领域
20newsgroup 1727 30664 3 NLP
采集语言数据集获得的对于单词‘software’在计算机图形学类的特征概率值分布情况(即从上到下,从左到右依次为高斯朴素贝叶斯方法计算的特征值概率分布图、逻辑回归方法计算的特征值概率分布图、证据权重方法计算的特征值概率分布图和随机森林方法计算的特征值概率分布图)如图2所示。
本发明采用的技术方案利用高斯朴素贝叶斯和柱状图表示方法,包括以下步骤:
1)输入待测语言数据集,根据数据集中的单词‘software’特征进行升序排列,并将数据集中的每个属性/每列数据进行标准化;
2)对不同方法的参数进行超参数调节,本发明通过使用十折交叉验证方法选出超参数值;
3)设置高斯朴素贝叶斯模型的参数值,使用其fit函数进行数据拟合计算出具有‘software’特征值的后验概率值,即‘software’特征值的预测能力;
4)通过柱状图的形式描绘出‘software’特征值概率分布情况;
本发明通过应用高斯朴素贝叶斯模型求解检测特征值预测能力的方法,又通过柱状图表述检测到的不同特征值的预测能力(即后验概率值),简洁并清晰明了地表述出了不同特征值的预测能力分布情况,经过与其他三种方法对比突出地表现出使用高斯朴素贝叶斯方法进行特征值预测的准确性。
以上均说明该方法对特征值预测能力的检测有了很大程度上的改善,可获得更高质量的特征值预测能力检测结果(实验结果见附图说明)。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (2)

1.一种基于朴素贝叶斯模型提供特征预测能力方法,其特征在于:使用朴素贝叶斯分类器做推断任务而不是分类任务;可以得到同一个特征属性不同特征值的预测能力分布情况,包括如下步骤:
步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集;
步骤2、提取模型中参数通过十折交叉验证方法,根据特征数据集进行参数调节生成超参数值;
步骤3、设置高斯朴素贝叶斯模型的参数值,使用其fit函数对所述特征数据集进行拟合,同时获得特征值预测概率模型,将拟合后的数据代入特征值预测概率模型的公式(1);所述特征值预测概率模型为:
Figure FDA0002748445180000011
其中,写出上面公式中的参数情况:μ表示数据均值,δ表示数据方差,可通过高斯朴素贝叶斯模型的均值方差函数获得;
步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况。
2.根据权利要求1所述一种基于朴素贝叶斯模型提供特征预测能力方法,对特征数据集预处理过程包括:
选取特征数集中某一选定特征进行升序排列;
对特征数据集中的数据进行标准化,所述标准化是即每个特征属性/每列数据分别按照减去其均值,并除以其方差,使得每个特征值属性/每列数据都在0单元附近聚集,其方差为1。
CN202011174963.5A 2020-10-28 2020-10-28 一种基于朴素贝叶斯模型提供特征预测能力方法 Pending CN112215365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011174963.5A CN112215365A (zh) 2020-10-28 2020-10-28 一种基于朴素贝叶斯模型提供特征预测能力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011174963.5A CN112215365A (zh) 2020-10-28 2020-10-28 一种基于朴素贝叶斯模型提供特征预测能力方法

Publications (1)

Publication Number Publication Date
CN112215365A true CN112215365A (zh) 2021-01-12

Family

ID=74057363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011174963.5A Pending CN112215365A (zh) 2020-10-28 2020-10-28 一种基于朴素贝叶斯模型提供特征预测能力方法

Country Status (1)

Country Link
CN (1) CN112215365A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111928A (zh) * 2021-04-01 2021-07-13 中国地质大学(北京) 一种基于地学数据库的半监督学习矿产资源定量预测方法
CN113420925A (zh) * 2021-06-28 2021-09-21 北京航空航天大学 一种基于朴素贝叶斯的交通健康预测方法及系统
CN117932474A (zh) * 2024-03-22 2024-04-26 山东核电有限公司 一种通信缺失数据确定模型的训练方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111928A (zh) * 2021-04-01 2021-07-13 中国地质大学(北京) 一种基于地学数据库的半监督学习矿产资源定量预测方法
CN113111928B (zh) * 2021-04-01 2023-12-29 中国地质大学(北京) 一种基于地学数据库的半监督学习矿产资源定量预测方法
CN113420925A (zh) * 2021-06-28 2021-09-21 北京航空航天大学 一种基于朴素贝叶斯的交通健康预测方法及系统
CN117932474A (zh) * 2024-03-22 2024-04-26 山东核电有限公司 一种通信缺失数据确定模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
An et al. A novel bearing intelligent fault diagnosis framework under time-varying working conditions using recurrent neural network
CN106803247B (zh) 一种基于多级筛选卷积神经网络的微血管瘤图像识别方法
CN112215365A (zh) 一种基于朴素贝叶斯模型提供特征预测能力方法
US10706260B2 (en) Analyzing digital holographic microscopy data for hematology applications
CN111103139A (zh) 基于grcmse与流形学习的滚动轴承故障诊断方法
CN103996018B (zh) 基于4dlbp的人脸识别方法
WO2022126810A1 (zh) 文本聚类方法
Liang et al. Multi-scale dynamic adaptive residual network for fault diagnosis
Li et al. FWDGAN-based data augmentation for tomato leaf disease identification
Davis et al. Using subsampling to estimate the strength of handwriting evidence via score-based likelihood ratios
Li et al. Life grade recognition method based on supervised uncorrelated orthogonal locality preserving projection and K-nearest neighbor classifier
Li et al. Medical data stream distribution pattern association rule mining algorithm based on density estimation
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
Wang et al. Mushroom toxicity recognition based on multigrained cascade forest
Li et al. Meta-learning based industrial intelligence of feature nearest algorithm selection framework for classification problems
Liu Feature recognition of English based on deep belief neural network and big data analysis
Sun et al. Feature optimization method for the localization technology on loose particles inside sealed electronic equipment
Tan et al. Three-way decision-based co-detection for outliers
Liu et al. Visualization classification method of multi-dimensional data based on radar chart mapping
Xie et al. Multi-classification method for determining coastal water quality based on SVM with grid search and KNN
Cai et al. Correlation analysis between higher education level and college students’ public mental health driven by AI
Li et al. Improving medical/biological data classification performance by wavelet preprocessing
Zhou et al. A computational evaluation system of Chinese calligraphy via extended possibility-probability distribution method
CN111428510B (zh) 一种基于口碑的p2p平台风险分析方法
CN108414228A (zh) 基于平均多粒度决策粗糙集和nnbc轴承故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210112