CN107292097A

CN107292097A - 基于特征组的特征选择方法、及中医主症选择方法

Info

Publication number: CN107292097A
Application number: CN201710445511.8A
Authority: CN
Inventors: 颜建军; 刘国萍; 顾巍杰; 郭睿; 燕海霞; 王忆勤; 王灼龙
Original assignee: East China University of Science and Technology; Shanghai University of Traditional Chinese Medicine
Current assignee: East China University of Science and Technology; Shanghai University of Traditional Chinese Medicine
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2017-10-24
Anticipated expiration: 2037-06-14
Also published as: CN107292097B

Abstract

本发明公开了一种基于特征组的特征选择方法，及中医主症选择方法，包含以下步骤：1、对原始特征集进行筛选；2、利用特征聚类算法对筛选后的特征集进行聚类，得到相应的特征组；3、向每一个特征组引入一个隐变量，得到相应的隐类模型，计算隐变量与标签之间的相关性；4、根据隐变量与标签之间的相关性从大到小对特征组进行排序；步骤5、将排序后的特征组依次加入被选特征子集，建立含有隐变量的贝叶斯网络；6，计算贝叶斯网络的分类准确率，进而得到加入的特征组个数与分类准确率的曲线，通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。本发明以特征组为选择目标，由多个特征所组成的特征组具有对原始数据更好的表示能力。

Description

基于特征组的特征选择方法、及中医主症选择方法

技术领域

本发明涉及模式识别和机器学习研究领域，特征涉及一种基于特征组的特征选择方法。

背景技术

特征选择(Feature Selection)的主要目的就是从原始特征中选出符合指定评估标准的最优的特征子集，使选出的最优特征子集所构建的分类模型或者回归模型达到比特征选择之前更好的性能，通过特征选择不仅提高了模型的泛化能力，使模型可以得到更好的解释从而提高计算效率，同时也很好的降低了维数灾难的发生。

在传统的特征选择算法中，特征的选择主要是针对单个的特征进行，考虑各特征与标签之间的相关性的大小，以特定的评价标准对各特征进行取舍。例如基于互信息，信息增益等特征选择算法是常用的特征选择算法。其基本思路为计算特征与分类之间的互信息的大小，在给定阈值的前提下按照互信息由大到小选择相应的特征，该算法思想简单，计算复杂度较小，且运行速度快，但该特征选择方法也存在一定的缺点：首先对于所给阈值的大小没有统一的标准，主观因素较大。其次对于所选的特征由于只考虑了特征与类别之间的相关性而忽略了特征之间的关系，可能会带来较大的的冗余，而忽略了一些重要的特征。而在现实生活中，最优特征子集所包含的特征之间往往具有一定的相关性。相对于单个特征而言，由多个特征所组成的特征组往往具有对原始数据更好的表示能力，例如在中医辨证中，证素定义为一组具有内在联系的症状与体征所组成的症状群的总称，能够准确的反应疾病的病因，病位，病性与病势等。证素是中医辨证的主要依据，也是症状的组合。也就是说通过症状的组合能够反映中医辨证中某些疾病的本质。所以在特征选择中相对于对单个特征的取舍而言通过对特征组的选择会更符合实际意义。

基于上述的思想本申请提出了基于特征组的特征选择方法，与以往的考虑单个特征的舍取不同，基于特征组的特征选择方法的考虑目标为对特征组的选择，若某一特征组可以作为特征子集，则将该特征组包含的所有特征加入所选特征子集中。

在基于特征组的特征选择算法中有两点重要的内容：(1)怎样通过对原始特征的划分得到各特征组。(2)以什么样的准则选择特征组作为特征子集，即以什么样的评价函数进行特征选择。

发明内容

针对单个特征的特征选择存在的缺陷，本发明的发明目的一在于提供了一种基于特征组的特征选择方法，根据各特征之间的关联性组成特征组，从而实现对原始数据更好的表示能力。针对在中医辨证中对应某种证型可能出现的症状可能有几十甚至上百种，会给中医辨证研究带来了困难的缺陷，本发明的发明目的在二于提供了一种基于特征组的中医主症选择方法，将证素体现在中医辨证模型中能使中医辨证模型与中医理论更加符合。

本发明的发明目的一通过以下技术方案实现：

一种基于特征组的特征选择方法，包含以下步骤：

步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征，得到待挑选的特征集；

步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类，得到相应的特征组；

步骤(3)、向每一个特征组引入一个隐变量，得到相应的隐类模型，计算隐变量与标签之间的相关性；

步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序；

步骤(5)、将排序后的特征组依次加入被选特征子集，每次加入时，将标签Y与加入的特征组中的隐变量相连，隐变量与特征组中的特征相连，从而得到含有隐变量的贝叶斯网络，对贝叶斯网络进行参数学习，计算学习好的贝叶斯网络的分类准确率；

步骤(6)，建立加入的特征组个数与分类准确率的曲线，通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。

优选地，步骤(5)中还包含设定特征子集的阈值，当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。

优选地，步骤(5)中采用期望最大化算法对贝叶斯网络进行参数学习。

优选地，步骤(6)中采用交叉检验法计算贝叶斯网络的分类准确率。

本发明的发明目的二通过以下技术方案实现：

一种基于特征组的中医主症选择方法，采用上述的基于特征组的特征选择方法，其中特征为症状，隐变量为证素，标签为证型。

附图说明

图1为实施例基于特征组的特征选择的方法的流程示意图；

图2为LC模型的示意图；

图3为含有隐变量的贝叶斯网络的示意图；

图4为湿浊中阻证型的贝叶斯网络分类准确率曲线。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。

实施例一

如图1所示，本实施例公开了一种基于特征组的特征选择方法，包含以下步骤：

步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征，得到待挑选的特征集。

步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类，得到相应的特征组。

对于待挑选的特征集D(X₁,X₂...X_n,Y)，其中X₁,X₂...X_n为n维的输入特征空间，Y为标签，利用特征聚类算法对输入特征空间X₁,X₂...X_n进行聚类，得到相应的特征组。

对含有隐变量学习的贝叶斯网络关键在于隐变量的发现，即确定网络中隐变量的个数及其在网络中的位置。隐变量能够汇聚显变量之间的联系，且具有一定的实际意义，而相关性较大的显变量之间往往联系比较密切，可能含有某些隐藏的变量，聚类算法的基本思想为使类内变量的相关性尽可能的大，类间的相关性尽可能的小，即通过聚类得到的每一类内的变量都具有很大的相关性。

步骤(3)、向每一个特征组引入一个隐变量，得到相应的隐类模型，并确定其隐变量的势的大小，即隐变量的取值个数。计算隐变量与标签之间的相关性。

隐变量或者是实际存在但不易被观察到，或者是根本不存在是一些虚构的变量。虽然可能在实际中并不存在，或者是虚拟的变量，但隐变量往往蕴含着许多重要的潜在信息。隐变量引入能够汇聚变量之间复杂的依赖关系，使数据与模型之间更好的拟合从而使模型能够得到更好的解释。

将该隐变量与特征组中显变量直接相连得到了相应的隐类模型(latent classmodel，LCM)，是由多个显变量与一个隐变量组成的贝叶斯网络，如图2所示，为一个LCM，其中根节点为一隐变量Y₁，X₁,X₂,...X_n为显变量。LCM的网络结构与朴素贝叶斯相同，所不同的是其根节点为隐变量。

设X为含有隐变量的贝叶斯网络中的一个隐变量，用Z₁,Z₂,...Z_k表示所有与X相邻的节点，当模型满足以下两个条件：

(1)模型中至少有两个显变量。

(2)对于模型中的任一隐变量X，有

当且仅当k＝2，且与X相邻的节点中有一个为隐变量时，不等式严格成立。

这里主要的任务是通过爬山法进行LCM的势学习，确定隐变量的取值个数。由于非正则模型不一定是最简模型，所以在后续的搜索中要求候选模型均为正则化的模型，若候选模型不满足正则化要求，则舍去不予考虑。

步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序。

步骤(5)、将排序后的特征组依次加入被选特征子集，每次加入时，将标签Y与加入的特征组中的隐变量相连，隐变量与特征组中的特征相连，从而得到含有隐变量的贝叶斯网络，如图3所示，其中每个特征组的隐变量为特征组中的特征的父节点，标签为所有特征组的隐变量的父节点(即根节点)，对贝叶斯网络进行参数学习，计算学习好的贝叶斯网络的分类准确率。

设初始时，被选特征子集为空集，记为U，首先将与隐变量相关性最大的特征组所包含的特征加入U中；对贝叶斯网络进行训练预测，得到贝叶斯网络的分类准确率。第二次迭代时将与隐变量相关性第二大的特征组中包含特征加入U中，再次对贝叶斯网络进行训练预测，按照该思想将特征组中的变量依次加入U中，直到U包含所有的特征为止。得到关于特征组个数与分类准确率的曲线，通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。

在本实施例中采用期望最大化算法(Expectation Maximization,EM)对贝叶斯网络进行参数学习，采用交叉检验法计算贝叶斯网络的分类准确率。

优选地，为了减少搜索时间，所述步骤(5)中还包含设定特征子集的阈值，当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。

在本实施例中，步骤2中不涉及到标签的学习，所以是一个无监督的学习过程，实际上在这一步通过对网络的聚类就已经确定了隐变量的个数与位置。步骤3得到相应的LCM模型，将标签代入模型中，并且与所有的隐变量相连得到相应的LCM模型，通过这一步确定了网络中各隐变量的势的大小。步骤4和步骤5主要是对学习好的模型应用推理算法进行推理，对输入特征进行分类。

基于特征组的特征选择方法的伪代码如下：

FeatureGroupSelection(Y,D)

输入：Y—对应的标签；D—原始特征集合；

输出：关于Y的最优特征子集；

实施例二

本实施例是将实施例一应用到中医主症选择方法中，将在中医辨证中作为辨证最基本要素也是不能被观察到的证素理解为相应的隐变量，将症状作为特征，将证型作为标签，在中医辨证模型中体现证素能使中医辨证模型与中医理论更加符合。

如图4所示，应用该特征选择方法进行了湿浊中阻证型的主症选择。当特征子集包含与湿浊中阻证型具有最高互信息的前四个特征组时，分类器的分类准确率达到最高，故选择前四个特征组包含的特征作为湿浊中阻证型的主症。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于特征组的特征选择方法，包含以下步骤：

2.根据权利要求1所述的特征选择方法，其特征在于所述步骤(5)中还包含设定特征子集的阈值，当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。

3.根据权利要求1所述的特征选择方法，其特征在于所述步骤(5)中采用期望最大化算法对贝叶斯网络进行参数学习。

4.根据权利要求1所述的特征选择方法，其特征在于所述步骤(6)中采用交叉检验法计算贝叶斯网络的分类准确率。

5.一种基于特征组的中医主症选择方法，采用权利要求1至4任一所述的特征选择方法，其中特征为症状，隐变量为证素，标签为证型。