CN107292097A - 基于特征组的特征选择方法、及中医主症选择方法 - Google Patents

基于特征组的特征选择方法、及中医主症选择方法 Download PDF

Info

Publication number
CN107292097A
CN107292097A CN201710445511.8A CN201710445511A CN107292097A CN 107292097 A CN107292097 A CN 107292097A CN 201710445511 A CN201710445511 A CN 201710445511A CN 107292097 A CN107292097 A CN 107292097A
Authority
CN
China
Prior art keywords
feature
group
hidden variable
selection
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710445511.8A
Other languages
English (en)
Other versions
CN107292097B (zh
Inventor
颜建军
刘国萍
顾巍杰
郭睿
燕海霞
王忆勤
王灼龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Shanghai University of Traditional Chinese Medicine
Original Assignee
East China University of Science and Technology
Shanghai University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology, Shanghai University of Traditional Chinese Medicine filed Critical East China University of Science and Technology
Priority to CN201710445511.8A priority Critical patent/CN107292097B/zh
Publication of CN107292097A publication Critical patent/CN107292097A/zh
Application granted granted Critical
Publication of CN107292097B publication Critical patent/CN107292097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征组的特征选择方法,及中医主症选择方法,包含以下步骤:1、对原始特征集进行筛选;2、利用特征聚类算法对筛选后的特征集进行聚类,得到相应的特征组;3、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;4、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤5、将排序后的特征组依次加入被选特征子集,建立含有隐变量的贝叶斯网络;6,计算贝叶斯网络的分类准确率,进而得到加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。本发明以特征组为选择目标,由多个特征所组成的特征组具有对原始数据更好的表示能力。

Description

基于特征组的特征选择方法、及中医主症选择方法
技术领域
本发明涉及模式识别和机器学习研究领域,特征涉及一种基于特征组的特征选择方法。
背景技术
特征选择(Feature Selection)的主要目的就是从原始特征中选出符合指定评估标准的最优的特征子集,使选出的最优特征子集所构建的分类模型或者回归模型达到比特征选择之前更好的性能,通过特征选择不仅提高了模型的泛化能力,使模型可以得到更好的解释从而提高计算效率,同时也很好的降低了维数灾难的发生。
在传统的特征选择算法中,特征的选择主要是针对单个的特征进行,考虑各特征与标签之间的相关性的大小,以特定的评价标准对各特征进行取舍。例如基于互信息,信息增益等特征选择算法是常用的特征选择算法。其基本思路为计算特征与分类之间的互信息的大小,在给定阈值的前提下按照互信息由大到小选择相应的特征,该算法思想简单,计算复杂度较小,且运行速度快,但该特征选择方法也存在一定的缺点:首先对于所给阈值的大小没有统一的标准,主观因素较大。其次对于所选的特征由于只考虑了特征与类别之间的相关性而忽略了特征之间的关系,可能会带来较大的的冗余,而忽略了一些重要的特征。而在现实生活中,最优特征子集所包含的特征之间往往具有一定的相关性。相对于单个特征而言,由多个特征所组成的特征组往往具有对原始数据更好的表示能力,例如在中医辨证中,证素定义为一组具有内在联系的症状与体征所组成的症状群的总称,能够准确的反应疾病的病因,病位,病性与病势等。证素是中医辨证的主要依据,也是症状的组合。也就是说通过症状的组合能够反映中医辨证中某些疾病的本质。所以在特征选择中相对于对单个特征的取舍而言通过对特征组的选择会更符合实际意义。
基于上述的思想本申请提出了基于特征组的特征选择方法,与以往的考虑单个特征的舍取不同,基于特征组的特征选择方法的考虑目标为对特征组的选择,若某一特征组可以作为特征子集,则将该特征组包含的所有特征加入所选特征子集中。
在基于特征组的特征选择算法中有两点重要的内容:(1)怎样通过对原始特征的划分得到各特征组。(2)以什么样的准则选择特征组作为特征子集,即以什么样的评价函数进行特征选择。
发明内容
针对单个特征的特征选择存在的缺陷,本发明的发明目的一在于提供了一种基于特征组的特征选择方法,根据各特征之间的关联性组成特征组,从而实现对原始数据更好的表示能力。针对在中医辨证中对应某种证型可能出现的症状可能有几十甚至上百种,会给中医辨证研究带来了困难的缺陷,本发明的发明目的在二于提供了一种基于特征组的中医主症选择方法,将证素体现在中医辨证模型中能使中医辨证模型与中医理论更加符合。
本发明的发明目的一通过以下技术方案实现:
一种基于特征组的特征选择方法,包含以下步骤:
步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;
步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;
步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;
步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;
步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;
步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
优选地,步骤(5)中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。
优选地,步骤(5)中采用期望最大化算法对贝叶斯网络进行参数学习。
优选地,步骤(6)中采用交叉检验法计算贝叶斯网络的分类准确率。
本发明的发明目的二通过以下技术方案实现:
一种基于特征组的中医主症选择方法,采用上述的基于特征组的特征选择方法,其中特征为症状,隐变量为证素,标签为证型。
附图说明
图1为实施例基于特征组的特征选择的方法的流程示意图;
图2为LC模型的示意图;
图3为含有隐变量的贝叶斯网络的示意图;
图4为湿浊中阻证型的贝叶斯网络分类准确率曲线。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。
实施例一
如图1所示,本实施例公开了一种基于特征组的特征选择方法,包含以下步骤:
步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集。
步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组。
对于待挑选的特征集D(X1,X2...Xn,Y),其中X1,X2...Xn为n维的输入特征空间,Y为标签,利用特征聚类算法对输入特征空间X1,X2...Xn进行聚类,得到相应的特征组。
对含有隐变量学习的贝叶斯网络关键在于隐变量的发现,即确定网络中隐变量的个数及其在网络中的位置。隐变量能够汇聚显变量之间的联系,且具有一定的实际意义,而相关性较大的显变量之间往往联系比较密切,可能含有某些隐藏的变量,聚类算法的基本思想为使类内变量的相关性尽可能的大,类间的相关性尽可能的小,即通过聚类得到的每一类内的变量都具有很大的相关性。
步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,并确定其隐变量的势的大小,即隐变量的取值个数。计算隐变量与标签之间的相关性。
隐变量或者是实际存在但不易被观察到,或者是根本不存在是一些虚构的变量。虽然可能在实际中并不存在,或者是虚拟的变量,但隐变量往往蕴含着许多重要的潜在信息。隐变量引入能够汇聚变量之间复杂的依赖关系,使数据与模型之间更好的拟合从而使模型能够得到更好的解释。
将该隐变量与特征组中显变量直接相连得到了相应的隐类模型(latent classmodel,LCM),是由多个显变量与一个隐变量组成的贝叶斯网络,如图2所示,为一个LCM,其中根节点为一隐变量Y1,X1,X2,...Xn为显变量。LCM的网络结构与朴素贝叶斯相同,所不同的是其根节点为隐变量。
设X为含有隐变量的贝叶斯网络中的一个隐变量,用Z1,Z2,...Zk表示所有与X相邻的节点,当模型满足以下两个条件:
(1)模型中至少有两个显变量。
(2)对于模型中的任一隐变量X,有
当且仅当k=2,且与X相邻的节点中有一个为隐变量时,不等式严格成立。
这里主要的任务是通过爬山法进行LCM的势学习,确定隐变量的取值个数。由于非正则模型不一定是最简模型,所以在后续的搜索中要求候选模型均为正则化的模型,若候选模型不满足正则化要求,则舍去不予考虑。
步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序。
步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,如图3所示,其中每个特征组的隐变量为特征组中的特征的父节点,标签为所有特征组的隐变量的父节点(即根节点),对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率。
设初始时,被选特征子集为空集,记为U,首先将与隐变量相关性最大的特征组所包含的特征加入U中;对贝叶斯网络进行训练预测,得到贝叶斯网络的分类准确率。第二次迭代时将与隐变量相关性第二大的特征组中包含特征加入U中,再次对贝叶斯网络进行训练预测,按照该思想将特征组中的变量依次加入U中,直到U包含所有的特征为止。得到关于特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
在本实施例中采用期望最大化算法(Expectation Maximization,EM)对贝叶斯网络进行参数学习,采用交叉检验法计算贝叶斯网络的分类准确率。
步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
优选地,为了减少搜索时间,所述步骤(5)中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。
在本实施例中,步骤2中不涉及到标签的学习,所以是一个无监督的学习过程,实际上在这一步通过对网络的聚类就已经确定了隐变量的个数与位置。步骤3得到相应的LCM模型,将标签代入模型中,并且与所有的隐变量相连得到相应的LCM模型,通过这一步确定了网络中各隐变量的势的大小。步骤4和步骤5主要是对学习好的模型应用推理算法进行推理,对输入特征进行分类。
基于特征组的特征选择方法的伪代码如下:
FeatureGroupSelection(Y,D)
输入:Y—对应的标签;D—原始特征集合;
输出:关于Y的最优特征子集;
实施例二
本实施例是将实施例一应用到中医主症选择方法中,将在中医辨证中作为辨证最基本要素也是不能被观察到的证素理解为相应的隐变量,将症状作为特征,将证型作为标签,在中医辨证模型中体现证素能使中医辨证模型与中医理论更加符合。
如图4所示,应用该特征选择方法进行了湿浊中阻证型的主症选择。当特征子集包含与湿浊中阻证型具有最高互信息的前四个特征组时,分类器的分类准确率达到最高,故选择前四个特征组包含的特征作为湿浊中阻证型的主症。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种基于特征组的特征选择方法,包含以下步骤:
步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;
步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;
步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;
步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;
步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;
步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
2.根据权利要求1所述的特征选择方法,其特征在于所述步骤(5)中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。
3.根据权利要求1所述的特征选择方法,其特征在于所述步骤(5)中采用期望最大化算法对贝叶斯网络进行参数学习。
4.根据权利要求1所述的特征选择方法,其特征在于所述步骤(6)中采用交叉检验法计算贝叶斯网络的分类准确率。
5.一种基于特征组的中医主症选择方法,采用权利要求1至4任一所述的特征选择方法,其中特征为症状,隐变量为证素,标签为证型。
CN201710445511.8A 2017-06-14 2017-06-14 基于特征组的中医主症选择方法 Active CN107292097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710445511.8A CN107292097B (zh) 2017-06-14 2017-06-14 基于特征组的中医主症选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710445511.8A CN107292097B (zh) 2017-06-14 2017-06-14 基于特征组的中医主症选择方法

Publications (2)

Publication Number Publication Date
CN107292097A true CN107292097A (zh) 2017-10-24
CN107292097B CN107292097B (zh) 2020-02-04

Family

ID=60096293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710445511.8A Active CN107292097B (zh) 2017-06-14 2017-06-14 基于特征组的中医主症选择方法

Country Status (1)

Country Link
CN (1) CN107292097B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977413A (zh) * 2017-11-22 2018-05-01 深圳市牛鼎丰科技有限公司 用户数据的特征选择方法、装置、计算机设备和存储介质
CN109766932A (zh) * 2018-12-25 2019-05-17 新华三大数据技术有限公司 一种特征筛选方法以及特征筛选装置
CN109816034A (zh) * 2019-01-31 2019-05-28 清华大学 信号特征组合选取方法、装置、计算机设备及存储介质
CN110134797A (zh) * 2019-04-29 2019-08-16 贳巽(北京)国际商业数据技术股份公司 一种基于事理图谱和多因子模型研判金融市场变化的方法
CN110196796A (zh) * 2019-05-15 2019-09-03 无线生活(杭州)信息科技有限公司 推荐算法的效果评价方法及装置
CN111125566A (zh) * 2019-12-11 2020-05-08 贝壳技术有限公司 信息获取方法和装置、电子设备和存储介质
CN112925990A (zh) * 2021-02-26 2021-06-08 上海哔哩哔哩科技有限公司 目标群体分类方法及装置
CN113707293A (zh) * 2021-07-30 2021-11-26 电子科技大学 一种基于特征选择的中医主症选择方法
CN114363019A (zh) * 2021-12-20 2022-04-15 北京华云安信息技术有限公司 钓鱼网站检测模型的训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222153A (zh) * 2010-01-27 2011-10-19 洪文学 中医机器问诊数量化辩证诊断方法
US20140289174A1 (en) * 2013-03-15 2014-09-25 Alexander Statnikov Data Analysis Computer System and Method For Causal Discovery with Experimentation Optimization
CN105260371A (zh) * 2014-07-17 2016-01-20 华为技术有限公司 一种特征选择方法及装置
CN105550715A (zh) * 2016-01-22 2016-05-04 大连理工大学 一种基于近邻传播聚类的集成分类器构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222153A (zh) * 2010-01-27 2011-10-19 洪文学 中医机器问诊数量化辩证诊断方法
US20140289174A1 (en) * 2013-03-15 2014-09-25 Alexander Statnikov Data Analysis Computer System and Method For Causal Discovery with Experimentation Optimization
CN105260371A (zh) * 2014-07-17 2016-01-20 华为技术有限公司 一种特征选择方法及装置
CN105550715A (zh) * 2016-01-22 2016-05-04 大连理工大学 一种基于近邻传播聚类的集成分类器构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NEMA DEAN.ADRIAN E.RAFTERY: "《Latent class analysis variable selection》", 《ANN INST STAT MATH》 *
刘国萍,等: "《基于隐结构的中医脾系问诊信息客观化分析》", 《中医杂志》 *
袁世宏,等: "《辨证理论的隐结构思想》", 《北京中医药大学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977413A (zh) * 2017-11-22 2018-05-01 深圳市牛鼎丰科技有限公司 用户数据的特征选择方法、装置、计算机设备和存储介质
CN109766932A (zh) * 2018-12-25 2019-05-17 新华三大数据技术有限公司 一种特征筛选方法以及特征筛选装置
CN109816034A (zh) * 2019-01-31 2019-05-28 清华大学 信号特征组合选取方法、装置、计算机设备及存储介质
CN109816034B (zh) * 2019-01-31 2021-08-27 清华大学 信号特征组合选取方法、装置、计算机设备及存储介质
CN110134797A (zh) * 2019-04-29 2019-08-16 贳巽(北京)国际商业数据技术股份公司 一种基于事理图谱和多因子模型研判金融市场变化的方法
CN110196796B (zh) * 2019-05-15 2023-04-28 无线生活(杭州)信息科技有限公司 推荐算法的效果评价方法及装置
CN110196796A (zh) * 2019-05-15 2019-09-03 无线生活(杭州)信息科技有限公司 推荐算法的效果评价方法及装置
CN111125566A (zh) * 2019-12-11 2020-05-08 贝壳技术有限公司 信息获取方法和装置、电子设备和存储介质
CN111125566B (zh) * 2019-12-11 2021-08-31 贝壳找房(北京)科技有限公司 信息获取方法和装置、电子设备和存储介质
CN112925990A (zh) * 2021-02-26 2021-06-08 上海哔哩哔哩科技有限公司 目标群体分类方法及装置
CN113707293A (zh) * 2021-07-30 2021-11-26 电子科技大学 一种基于特征选择的中医主症选择方法
CN114363019A (zh) * 2021-12-20 2022-04-15 北京华云安信息技术有限公司 钓鱼网站检测模型的训练方法、装置、设备及存储介质
CN114363019B (zh) * 2021-12-20 2024-04-16 北京华云安信息技术有限公司 钓鱼网站检测模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107292097B (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN107292097A (zh) 基于特征组的特征选择方法、及中医主症选择方法
Ding et al. Graph prototypical networks for few-shot learning on attributed networks
Varma et al. Snuba: Automating weak supervision to label training data
Jadhav et al. Comparative study of K-NN, naive Bayes and decision tree classification techniques
Ma et al. Adaptive-step graph meta-learner for few-shot graph classification
Guo et al. Supplier selection based on hierarchical potential support vector machine
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
Li et al. Out-of-distribution generalization on graphs: A survey
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
Chander et al. Outlier detection strategies for WSNs: A survey
Brucker et al. Multi-label classification and extracting predicted class hierarchies
CN106960390A (zh) 基于节点聚合度的重叠社区划分方法
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
Wang et al. Exploring the combination of Dempster-Shafer theory and neural network for predicting trust and distrust
Liu et al. Dynamic local search based immune automatic clustering algorithm and its applications
CN113468227A (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
Wu et al. Beyond homophily and homogeneity assumption: Relation-based frequency adaptive graph neural networks
Wang et al. Link prediction in heterogeneous collaboration networks
Zhang et al. An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Tsai et al. Mining decision rules on data streams in the presence of concept drifts
Zhou et al. HID: Hierarchical multiscale representation learning for information diffusion
CN112257959A (zh) 用户风险预测方法、装置、电子设备及存储介质
Han et al. GA-GWNN: Detecting anomalies of online learners by granular computing and graph wavelet convolutional neural network
Hao et al. Enhancing cross domain recommendation with domain dependent tags

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant