CN109119133B

CN109119133B - 基于多标记特征选择及分类的中医临床大数据存储方法

Info

Publication number: CN109119133B
Application number: CN201810879094.2A
Authority: CN
Inventors: 罗志明; 孙振强; 曹冬林; 苏松志; 李绍滋
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2021-07-23
Anticipated expiration: 2038-08-03
Also published as: CN109119133A

Abstract

基于多标记特征选择及分类的中医临床大数据存储方法，涉及大数据挖掘与中医数字化的交叉技术应用领域。对患者进行信息采集，根据不同患者症状进行量化打分，并对其赋予对应的多类标签；对采集到的患者数据进行归一化处理，将标记数据集进行向量化处理，得到标准的多标记数据集，并将多标记数据集划分为训练集和测试集以验证算法有效性；计算训练集进行特征选择时所需相关矩阵，使用罚函数法计算全局最优特征权重分配；选取权重最大的前K个特征子集，使用MLkNN方法得到测试集预测结果，并选取最优特征子集进行新患者病情预测。

Description

基于多标记特征选择及分类的中医临床大数据存储方法

技术领域

本发明涉及大数据挖掘与中医数字化的交叉技术应用领域，尤其是涉及通过使用信息熵及全局优化技术，结合中医临床数字化发展体系，针对中医临床数据具有高冗余性的特点进行数据压缩存储的基于多标记特征选择及分类的中医临床大数据存储方法。

背景技术

多标记学习(Multi-label Learning)的研究最初萌芽于文档分类问题(张敏灵.多标记学习:问题、算法与数据[J].2011)，与传统监督学习相比，类别标记从单一变为多个组成的子集，使用传统单标记分类方法将在存储空间和计算开销上急剧膨胀，因此多标记学习应运而生，为解决类似问题提供解决方案，并在多媒体内容标注、生物信息学、信息检索等领域得到了广泛关注和应用。

特征选择(Feature Selection)(Lee J，Kim D W.Feature selection formulti-label classification using multivariate mutual information[J].PatternRecognition Letters，2013，34(3)：349-357)，由于维度灾难问题在大数据应用领域普遍存在，对数据分类，分析结果造成极大影响，因此对数据维度进行约减具有十分重要的意义。特征选择是维度约减方法中的一个重要分支，由于其具有更好的解释性和易操作性，被广泛应用于大数据挖掘和机器学习中的数据预处理当中，并取得了出色的效果。

中医临床数字化是基于中医学的理论，研究诊察病情、判断病种、辨别证候的基础理论、基本知识和基本技能与人工智能、大数据分析之上的一种交叉研究领域。它是中医学专业的基础理论与大数据，人工智能之间的桥梁，是传统中医发展的必然方向。

中医诊断学与多标记问题包括：1)中医数字化大数据存储问题为天然的多标记问题，一个患者根据不同的诊疗特征可能被诊断为不同的疾病；2)中医数据存储过程中为保证数据选择及后续使用的鲁棒性，其诊断特征存在比较多的冗余信息，因此对其进行特征选择十分必要；3)目前比较少见从多标记特征选择问题角度出发解决中医数字化大数据存储问题。

发明内容

本发明的目的在于从多标记特征选择角度解决中医大数据中高度冗余问题，为后续诊断患者数据并进行挖掘提供保证，同时减少数据存储成本，提高数据可用性的基于多标记特征选择及分类的中医临床大数据存储方法。

本发明包括以下步骤：

1)对患者进行信息采集，根据不同患者症状进行量化打分，并对其赋予对应的多类标签；

2)对采集到的患者数据进行归一化处理，将标记数据集进行向量化处理，得到标准的多标记数据集，并将多标记数据集划分为训练集和测试集以验证算法有效性；

3)计算训练集进行特征选择时所需相关矩阵，使用罚函数法计算全局最优特征权重分配；

4)选取权重最大的前K个特征子集，使用MLkNN方法得到测试集预测结果，并选取最优特征子集进行新患者病情预测。

在步骤1)中，所述对患者进行信息采集，根据不同患者症状进行量化打分，并对其赋予对应的多类标签的具体方法可为：

(1)医生对患者进行症状询问，并对患者病情进行标记；

(2)医生根据已有规定量化规则对患者症状进行量化打分，将患者数据标记为X(n,m)＝{x₁,x₂,...,x_n}^T，其中x_i表示第i名患者的诊断特征，为m维向量。

在步骤2)中，所述对采集到的患者数据进行归一化处理，将标记数据集进行向量化处理，得到标准的多标记数据集，并将多标记数据集划分为训练集和测试集以验证算法有效性的具体方法可为：

(1)将患者特征数据集进行标准化处理；

(2)将患者标签数据集进行向量化处理，得到标记数据集L(n,k)＝{l₁,l₂,...,l_n}，其中l_i为第i个患者的标记向量；

(3)将处理好的标准化数据集划分为训练集和测试集。

在步骤3)中，所述计算训练集进行特征选择时所需相关矩阵，使用罚函数法计算全局最优特征权重分配的具体方法可为：

(1)使用信息熵计算特征相关性矩阵D，D为m×m矩阵；

(2)计算特征-标记相关向量e，e为m维向量；

(3)计算特征-标记冗余向量c，c为m维向量；

(4)构建目标方程

使用罚函数法求解最优解x；

(5)对x按其权重从大到小进行排序，记录其对应的索引值。

在步骤4)中，所述选取权重最大的前K个特征子集，使用MLkNN方法得到测试集预测结果，并选取最优特征子集进行新患者病情预测的具体方法可为：

(1)为选取最优特征数量，对所有特征子集进行实验，一次选取x中前K(K＝1,2,3...,m)个最优特征子集使用MLkNN方法进行实验，并使用如下五种方法对结果进行评估：

A.汉明损失(Hamming Loss)：该指标衡量预测所得标记与实际标记之间的不一致程度；

B.1-错误率(One-Error)：该指标描述样本所具体的隶属度最高的标记不是其实际标记的可能性；

C.覆盖率(Coverage)：该指标衡量在排队序列中从隶属度最高的序列开始，平均需要跨越多少个标记才能覆盖样本所拥有的全部标记；

D.排序损失(Ranking Loss)：该指标表明样本对其所属标记的隶属度低于对其非属标记的可能性；

E.平均精度(Average Precision)：该指标反映预测类标的平均精确度；

(2)对五种指标在不同特征数量的条件下进行绘图，选取最优特征数量；

(3)对新患者特征数据进行标准化处理，使用训练好的模型进行病情诊断得到最终评价结果。

本发明的突出技术效果如下：

1、从多标记问题角度出发，对现代中医数字化大数据存储问题进行解释以及处理，对已有患者数据进行有效压缩，并保证数据有效性及可解释性，极大地节省了人力物力成本。

2、采用全局优化策略进行特征选择，鲁棒性强，可以推广到类似应用中。

3、本发明可辅助医生进行后续疾病诊断，也可在线或离线由患者进行健康情况估计，应用灵活多变。

4、本发明对硬件要求低，计算消耗低，可实时对病人健康状况进行动态存储。

综上，本发明适用于当代中医数字化大数据的压缩存储及数据预处理，极大减少医生工作量，提高工作效率，同时也适用于患者在线或离线自处理，应用场景十分广泛。

附图说明

图1为基于多标记特征选择的中医临床大数据存储方法的算法流程图。

图2为本发明效果与其他方法的平均准确率对比结果。

图3为本发明效果与其他方法的覆盖率对比结果。

图4为本发明效果与其他方法的1-错误率对比结果。

图5为本发明效果与其他方法的海明损失对比结果。

图6为本发明效果与其他方法的排序损失对比结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和相关实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1是基于多标记特征选择的自动中医诊疗方法的算法流程图，基于此流程本实施例对1146例患者数据进行了相关实验，每位患者特征由461维向量表示，标记由43维向量表示，并将实验结果在图2～6中进行展示。

具体步骤为：

1)对患者进行信息采集，并根据不同患者症状进行量化打分，并对其赋予对应的多类标签；

(1)医生对患者进行症状询问，并对患者病情进行标记；

(2)医生根据已有规定量化规则对患者症状进行量化打分，将患者数据标记为X＝{x₁,x₂,...,x₁₁₄₆}^T，其中x_i表示第i名患者的诊断特征，为461维向量。

2)对采集到的患者数据进行归一化处理，并将标记数据集进行向量化处理，得到标准的多标记数据集，并将多标记数据集划分为训练集和测试集以验证算法有效性；

(1)将患者特征数据集进行标准化处理；

(2)将患者标签数据集进行向量化处理，得到标记数据集L＝{l₁,l₂,...,l₁₁₄₆}，其中l_i为第i个患者的43维标记向量；

(3)将处理好的标准化数据集划分为训练集(606例)和测试集(540例)。

(1)使用信息熵计算特征相关性矩阵D，D为m*m矩阵；

(2)计算特征-标记相关向量e，e为m维向量；

(3)计算特征-标记冗余向量c，c为m维向量；

(4)构建目标方程

使用罚函数法求解最优解x；

(5)对x按其权重从大到小进行排序，记录其对应的索引值。

(1)为选取最优特征数量，对所有特征子集进行实验，一次选取x中前K(K＝1,2,3...,m)个最优特征子集使用MLkNN方法进行实验，得到结果。

(2)对实验结果进行分析评估，如图2～6，依次为平均准确率，覆盖率，1-错误率，海明损失，排序损失。

本发明通过对患者四诊数据(望闻问切)进行自动选择，为中医临床数字化大数据存储提供一种新的思路。首先针对已经采集完毕并且正确标记的患者数据进行训练，利用新提出的方法计算并分析每个诊疗数据特征的权重，然后选择权重较大的若干个诊疗特征作为新的特征集进行存储，最后使用MLkNN方法进行多标记分类，对新患者数据进行分类进而评价该特征选择方法是否有效。

Claims

1.基于多标记特征选择及分类的中医临床大数据存储方法，其特征在于包括以下步骤：

3)计算训练集进行特征选择时所需相关矩阵，使用罚函数法计算全局最优特征权重分配，具体方法为：

(1)使用信息熵计算特征相关性矩阵D，D为m×m矩阵；

(2)计算特征-标记相关向量e，e为m维向量；

(3)计算特征-标记冗余向量c，c为m维向量；

(4)构建目标方程

使用罚函数法求解最优解x；

(5)对x按其权重从大到小进行排序，记录其对应的索引值；

2.如权利要求1所述基于多标记特征选择及分类的中医临床大数据存储方法，其特征在于在步骤1)中，所述对患者进行信息采集，根据不同患者症状进行量化打分，并对其赋予对应的多类标签的具体方法为：

(1)医生对患者进行症状询问，并对患者病情进行标记；

3.如权利要求1所述基于多标记特征选择及分类的中医临床大数据存储方法，其特征在于在步骤2)中，所述对采集到的患者数据进行归一化处理，将标记数据集进行向量化处理，得到标准的多标记数据集，并将多标记数据集划分为训练集和测试集以验证算法有效性的具体方法为：

(1)将患者特征数据集进行标准化处理；

(3)将处理好的标准化数据集划分为训练集和测试集。

4.如权利要求1所述基于多标记特征选择及分类的中医临床大数据存储方法，其特征在于在步骤4)中，所述选取权重最大的前K个特征子集，使用MLkNN方法得到测试集预测结果，并选取最优特征子集进行新患者病情预测的具体方法为：

(1)为选取最优特征数量，对所有特征子集进行实验，一次选取x中前K个最优特征子集使用MLkNN方法进行实验，所述K＝1,2,3,...,m，并使用如下五种方法对结果进行评估：

A.汉明损失：该指标衡量预测所得标记与实际标记之间的不一致程度；

B.1-错误率：该指标描述样本所具体的隶属度最高的标记不是其实际标记的可能性；

C.覆盖率：该指标衡量在排队序列中从隶属度最高的序列开始，平均需要跨越多少个标记才能覆盖样本所拥有的全部标记；

D.排序损失：该指标表明样本对其所属标记的隶属度低于对其非属标记的可能性；

E.平均精度：该指标反映预测类标的平均精确度；