CN107292097B - 基于特征组的中医主症选择方法 - Google Patents
基于特征组的中医主症选择方法 Download PDFInfo
- Publication number
- CN107292097B CN107292097B CN201710445511.8A CN201710445511A CN107292097B CN 107292097 B CN107292097 B CN 107292097B CN 201710445511 A CN201710445511 A CN 201710445511A CN 107292097 B CN107292097 B CN 107292097B
- Authority
- CN
- China
- Prior art keywords
- feature
- hidden
- bayesian network
- group
- groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Abstract
本发明公开了一种基于特征组的中医主症选择方法,包含以下步骤:1、对原始特征集进行筛选;2、利用特征聚类算法对筛选后的特征集进行聚类,得到相应的特征组;3、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;4、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤5、将排序后的特征组依次加入被选特征子集,建立含有隐变量的贝叶斯网络;6,计算贝叶斯网络的分类准确率,进而得到加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。本发明以特征组为选择目标,由多个特征所组成的特征组具有对原始数据更好的表示能力。
Description
技术领域
本发明涉及模式识别和机器学习研究领域,特征涉及一种基于特征组的特征选择方法。
背景技术
特征选择(Feature Selection)的主要目的就是从原始特征中选出符合指定评估标准的最优的特征子集,使选出的最优特征子集所构建的分类模型或者回归模型达到比特征选择之前更好的性能,通过特征选择不仅提高了模型的泛化能力,使模型可以得到更好的解释从而提高计算效率,同时也很好的降低了维数灾难的发生。
在传统的特征选择算法中,特征的选择主要是针对单个的特征进行,考虑各特征与标签之间的相关性的大小,以特定的评价标准对各特征进行取舍。例如基于互信息,信息增益等特征选择算法是常用的特征选择算法。其基本思路为计算特征与分类之间的互信息的大小,在给定阈值的前提下按照互信息由大到小选择相应的特征,该算法思想简单,计算复杂度较小,且运行速度快,但该特征选择方法也存在一定的缺点:首先对于所给阈值的大小没有统一的标准,主观因素较大。其次对于所选的特征由于只考虑了特征与类别之间的相关性而忽略了特征之间的关系,可能会带来较大的的冗余,而忽略了一些重要的特征。而在现实生活中,最优特征子集所包含的特征之间往往具有一定的相关性。相对于单个特征而言,由多个特征所组成的特征组往往具有对原始数据更好的表示能力,例如在中医辨证中,证素定义为一组具有内在联系的症状与体征所组成的症状群的总称,能够准确的反应疾病的病因,病位,病性与病势等。证素是中医辨证的主要依据,也是症状的组合。也就是说通过症状的组合能够反映中医辨证中某些疾病的本质。所以在特征选择中相对于对单个特征的取舍而言通过对特征组的选择会更符合实际意义。
基于上述的思想本申请提出了基于特征组的特征选择方法,与以往的考虑单个特征的舍取不同,基于特征组的特征选择方法的考虑目标为对特征组的选择,若某一特征组可以作为特征子集,则将该特征组包含的所有特征加入所选特征子集中。
在基于特征组的特征选择算法中有两点重要的内容:(1)怎样通过对原始特征的划分得到各特征组。(2)以什么样的准则选择特征组作为特征子集,即以什么样的评价函数进行特征选择。
发明内容
针对单个特征的特征选择存在的缺陷,本发明的发明目的一在于提供了一种基于特征组的特征选择方法,根据各特征之间的关联性组成特征组,从而实现对原始数据更好的表示能力。针对在中医辨证中对应某种证型可能出现的症状可能有几十甚至上百种,会给中医辨证研究带来了困难的缺陷,本发明的发明目的在二于提供了一种基于特征组的中医主症选择方法,将证素体现在中医辨证模型中能使中医辨证模型与中医理论更加符合。
本发明的发明目的一通过以下技术方案实现:
一种基于特征组的特征选择方法,包含以下步骤:
步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;
步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;
步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;
步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;
步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;
步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
优选地,步骤(5)中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。
优选地,步骤(5)中采用期望最大化算法对贝叶斯网络进行参数学习。
优选地,步骤(6)中采用交叉检验法计算贝叶斯网络的分类准确率。
本发明的发明目的二通过以下技术方案实现:
一种基于特征组的中医主症选择方法,采用上述的基于特征组的特征选择方法,其中特征为症状,隐变量为证素,标签为证型。
附图说明
图1为实施例基于特征组的特征选择的方法的流程示意图;
图2为LC模型的示意图;
图3为含有隐变量的贝叶斯网络的示意图;
图4为湿浊中阻证型的贝叶斯网络分类准确率曲线。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。
实施例一
如图1所示,本实施例公开了一种基于特征组的特征选择方法,包含以下步骤:
步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集。
步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组。
对于待挑选的特征集D(X1,X2...Xn,Y),其中X1,X2...Xn为n维的输入特征空间,Y为标签,利用特征聚类算法对输入特征空间X1,X2...Xn进行聚类,得到相应的特征组。
对含有隐变量学习的贝叶斯网络关键在于隐变量的发现,即确定网络中隐变量的个数及其在网络中的位置。隐变量能够汇聚显变量之间的联系,且具有一定的实际意义,而相关性较大的显变量之间往往联系比较密切,可能含有某些隐藏的变量,聚类算法的基本思想为使类内变量的相关性尽可能的大,类间的相关性尽可能的小,即通过聚类得到的每一类内的变量都具有很大的相关性。
步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,并确定其隐变量的势的大小,即隐变量的取值个数。计算隐变量与标签之间的相关性。
隐变量或者是实际存在但不易被观察到,或者是根本不存在是一些虚构的变量。虽然可能在实际中并不存在,或者是虚拟的变量,但隐变量往往蕴含着许多重要的潜在信息。隐变量引入能够汇聚变量之间复杂的依赖关系,使数据与模型之间更好的拟合从而使模型能够得到更好的解释。
将该隐变量与特征组中显变量直接相连得到了相应的隐类模型(latent classmodel,LCM),是由多个显变量与一个隐变量组成的贝叶斯网络,如图2所示,为一个LCM,其中根节点为一隐变量Y1,X1,X2,...Xn为显变量。LCM的网络结构与朴素贝叶斯相同,所不同的是其根节点为隐变量。
设X为含有隐变量的贝叶斯网络中的一个隐变量,用Z1,Z2,...Zk表示所有与X相邻的节点,当模型满足以下两个条件:
(1)模型中至少有两个显变量。
(2)对于模型中的任一隐变量X,有
当且仅当k=2,且与X相邻的节点中有一个为隐变量时,不等式严格成立。
这里主要的任务是通过爬山法进行LCM的势学习,确定隐变量的取值个数。由于非正则模型不一定是最简模型,所以在后续的搜索中要求候选模型均为正则化的模型,若候选模型不满足正则化要求,则舍去不予考虑。
步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序。
步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,如图3所示,其中每个特征组的隐变量为特征组中的特征的父节点,标签为所有特征组的隐变量的父节点(即根节点),对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率。
设初始时,被选特征子集为空集,记为U,首先将与隐变量相关性最大的特征组所包含的特征加入U中;对贝叶斯网络进行训练预测,得到贝叶斯网络的分类准确率。第二次迭代时将与隐变量相关性第二大的特征组中包含特征加入U中,再次对贝叶斯网络进行训练预测,按照该思想将特征组中的变量依次加入U中,直到U包含所有的特征为止。得到关于特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
在本实施例中采用期望最大化算法(Expectation Maximization,EM)对贝叶斯网络进行参数学习,采用交叉检验法计算贝叶斯网络的分类准确率。
步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
优选地,为了减少搜索时间,所述步骤(5)中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。
在本实施例中,步骤2中不涉及到标签的学习,所以是一个无监督的学习过程,实际上在这一步通过对网络的聚类就已经确定了隐变量的个数与位置。步骤3得到相应的LCM模型,将标签代入模型中,并且与所有的隐变量相连得到相应的LCM模型,通过这一步确定了网络中各隐变量的势的大小。步骤4和步骤5主要是对学习好的模型应用推理算法进行推理,对输入特征进行分类。
基于特征组的特征选择方法的伪代码如下:
FeatureGroupSelection(Y,D)
输入:Y—对应的标签;D—原始特征集合;
输出:关于Y的最优特征子集;
实施例二
本实施例是将实施例一应用到中医主症选择方法中,将在中医辨证中作为辨证最基本要素也是不能被观察到的证素理解为相应的隐变量,将症状作为特征,将证型作为标签,在中医辨证模型中体现证素能使中医辨证模型与中医理论更加符合。
如图4所示,应用该特征选择方法进行了湿浊中阻证型的主症选择。当特征子集包含与湿浊中阻证型具有最高互信息的前四个特征组时,分类器的分类准确率达到最高,故选择前四个特征组包含的特征作为湿浊中阻证型的主症。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (4)
1.一种基于特征组的中医主症选择方法,包含以下步骤:
步骤1、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;
步骤2、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;
步骤3、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;
步骤4、根据隐变量与标签之间的相关性从大到小对特征组进行排序;
步骤5、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;
步骤6,建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集;
其中:特征为症状,隐变量为证素,标签为证型。
2.根据权利要求1所述的中医主症选择方法,其特征在于所述步骤5中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。
3.根据权利要求1所述的中医主症选择方法,其特征在于所述步骤5中采用期望最大化算法对贝叶斯网络进行参数学习。
4.根据权利要求1所述的中医主症选择方法,其特征在于所述步骤6中采用交叉检验法计算贝叶斯网络的分类准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710445511.8A CN107292097B (zh) | 2017-06-14 | 2017-06-14 | 基于特征组的中医主症选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710445511.8A CN107292097B (zh) | 2017-06-14 | 2017-06-14 | 基于特征组的中医主症选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107292097A CN107292097A (zh) | 2017-10-24 |
CN107292097B true CN107292097B (zh) | 2020-02-04 |
Family
ID=60096293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710445511.8A Active CN107292097B (zh) | 2017-06-14 | 2017-06-14 | 基于特征组的中医主症选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107292097B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977413A (zh) * | 2017-11-22 | 2018-05-01 | 深圳市牛鼎丰科技有限公司 | 用户数据的特征选择方法、装置、计算机设备和存储介质 |
CN109766932A (zh) * | 2018-12-25 | 2019-05-17 | 新华三大数据技术有限公司 | 一种特征筛选方法以及特征筛选装置 |
CN109816034B (zh) * | 2019-01-31 | 2021-08-27 | 清华大学 | 信号特征组合选取方法、装置、计算机设备及存储介质 |
CN110134797A (zh) * | 2019-04-29 | 2019-08-16 | 贳巽(北京)国际商业数据技术股份公司 | 一种基于事理图谱和多因子模型研判金融市场变化的方法 |
CN110196796B (zh) * | 2019-05-15 | 2023-04-28 | 无线生活(杭州)信息科技有限公司 | 推荐算法的效果评价方法及装置 |
CN111125566B (zh) * | 2019-12-11 | 2021-08-31 | 贝壳找房(北京)科技有限公司 | 信息获取方法和装置、电子设备和存储介质 |
CN112925990B (zh) * | 2021-02-26 | 2022-09-06 | 上海哔哩哔哩科技有限公司 | 目标群体分类方法及装置 |
CN113707293B (zh) * | 2021-07-30 | 2023-03-14 | 电子科技大学 | 一种基于特征选择的中医主症选择方法 |
CN114363019B (zh) * | 2021-12-20 | 2024-04-16 | 北京华云安信息技术有限公司 | 钓鱼网站检测模型的训练方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222153A (zh) * | 2010-01-27 | 2011-10-19 | 洪文学 | 中医机器问诊数量化辩证诊断方法 |
CN105260371A (zh) * | 2014-07-17 | 2016-01-20 | 华为技术有限公司 | 一种特征选择方法及装置 |
CN105550715A (zh) * | 2016-01-22 | 2016-05-04 | 大连理工大学 | 一种基于近邻传播聚类的集成分类器构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289174A1 (en) * | 2013-03-15 | 2014-09-25 | Alexander Statnikov | Data Analysis Computer System and Method For Causal Discovery with Experimentation Optimization |
-
2017
- 2017-06-14 CN CN201710445511.8A patent/CN107292097B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222153A (zh) * | 2010-01-27 | 2011-10-19 | 洪文学 | 中医机器问诊数量化辩证诊断方法 |
CN105260371A (zh) * | 2014-07-17 | 2016-01-20 | 华为技术有限公司 | 一种特征选择方法及装置 |
CN105550715A (zh) * | 2016-01-22 | 2016-05-04 | 大连理工大学 | 一种基于近邻传播聚类的集成分类器构建方法 |
Non-Patent Citations (3)
Title |
---|
《Latent class analysis variable selection》;Nema Dean.Adrian E.Raftery;《Ann Inst Stat Math》;20101231;第11-35页 * |
《基于隐结构的中医脾系问诊信息客观化分析》;刘国萍,等;《中医杂志》;20110831;第52卷(第16期);第1372-1375页 * |
《辨证理论的隐结构思想》;袁世宏,等;《北京中医药大学学报》;20090430;第32卷(第4期);第221-225页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107292097A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107292097B (zh) | 基于特征组的中医主症选择方法 | |
CN112784881B (zh) | 网络异常流量检测方法、模型及系统 | |
Ren et al. | Knowledge-maximized ensemble algorithm for different types of concept drift | |
Fan et al. | Robust deep auto-encoding Gaussian process regression for unsupervised anomaly detection | |
CN113269647B (zh) | 基于图的交易异常关联用户检测方法 | |
CN112258223B (zh) | 一种基于决策树的营销广告点击的预测方法 | |
Puig et al. | Application-independent feature selection for texture classification | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
Siddalingappa et al. | Anomaly detection on medical images using autoencoder and convolutional neural network | |
Villa-Blanco et al. | Feature subset selection for data and feature streams: a review | |
CN113947101A (zh) | 一种基于软化相似性学习的无监督行人重识别方法和系统 | |
KR20080097753A (ko) | 다중 클래스 svm을 이용한 영역 기반 이미지 검색 방법 | |
CN110991247B (zh) | 一种基于深度学习与nca融合的电子元器件识别方法 | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
Garcia-Magarinos et al. | Lasso logistic regression, GSoft and the cyclic coordinate descent algorithm: application to gene expression data | |
CN116304518A (zh) | 用于信息推荐的异质图卷积神经网络模型构建方法及系统 | |
Yang et al. | An academic social network friend recommendation algorithm based on decision tree | |
Zhang et al. | Post-hoc models for performance estimation of machine learning inference | |
Hatami et al. | A graph-based multi-label feature selection using ant colony optimization | |
Tao et al. | Resilient learning of computational models with noisy labels | |
Acampora et al. | Applying SPEA2 to prototype selection for nearest neighbor classification | |
Fu et al. | Group based non-sparse localized multiple kernel learning algorithm for image classification | |
Liang et al. | Incremental deep forest for multi-label data streams learning | |
Karimi et al. | An improved K-Means with artificial bee colony algorithm for clustering crimes | |
CN113516189B (zh) | 基于两阶段随机森林算法的网站恶意用户预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |