CN109119133B - 基于多标记特征选择及分类的中医临床大数据存储方法 - Google Patents
基于多标记特征选择及分类的中医临床大数据存储方法 Download PDFInfo
- Publication number
- CN109119133B CN109119133B CN201810879094.2A CN201810879094A CN109119133B CN 109119133 B CN109119133 B CN 109119133B CN 201810879094 A CN201810879094 A CN 201810879094A CN 109119133 B CN109119133 B CN 109119133B
- Authority
- CN
- China
- Prior art keywords
- patient
- label
- feature
- data set
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
基于多标记特征选择及分类的中医临床大数据存储方法,涉及大数据挖掘与中医数字化的交叉技术应用领域。对患者进行信息采集,根据不同患者症状进行量化打分,并对其赋予对应的多类标签;对采集到的患者数据进行归一化处理,将标记数据集进行向量化处理,得到标准的多标记数据集,并将多标记数据集划分为训练集和测试集以验证算法有效性;计算训练集进行特征选择时所需相关矩阵,使用罚函数法计算全局最优特征权重分配;选取权重最大的前K个特征子集,使用MLkNN方法得到测试集预测结果,并选取最优特征子集进行新患者病情预测。
Description
技术领域
本发明涉及大数据挖掘与中医数字化的交叉技术应用领域,尤其是涉及通过使用信息熵及全局优化技术,结合中医临床数字化发展体系,针对中医临床数据具有高冗余性的特点进行数据压缩存储的基于多标记特征选择及分类的中医临床大数据存储方法。
背景技术
多标记学习(Multi-label Learning)的研究最初萌芽于文档分类问题(张敏灵.多标记学习:问题、算法与数据[J].2011),与传统监督学习相比,类别标记从单一变为多个组成的子集,使用传统单标记分类方法将在存储空间和计算开销上急剧膨胀,因此多标记学习应运而生,为解决类似问题提供解决方案,并在多媒体内容标注、生物信息学、信息检索等领域得到了广泛关注和应用。
特征选择(Feature Selection)(Lee J,Kim D W.Feature selection formulti-label classification using multivariate mutual information[J].PatternRecognition Letters,2013,34(3):349-357),由于维度灾难问题在大数据应用领域普遍存在,对数据分类,分析结果造成极大影响,因此对数据维度进行约减具有十分重要的意义。特征选择是维度约减方法中的一个重要分支,由于其具有更好的解释性和易操作性,被广泛应用于大数据挖掘和机器学习中的数据预处理当中,并取得了出色的效果。
中医临床数字化是基于中医学的理论,研究诊察病情、判断病种、辨别证候的基础理论、基本知识和基本技能与人工智能、大数据分析之上的一种交叉研究领域。它是中医学专业的基础理论与大数据,人工智能之间的桥梁,是传统中医发展的必然方向。
中医诊断学与多标记问题包括:1)中医数字化大数据存储问题为天然的多标记问题,一个患者根据不同的诊疗特征可能被诊断为不同的疾病;2)中医数据存储过程中为保证数据选择及后续使用的鲁棒性,其诊断特征存在比较多的冗余信息,因此对其进行特征选择十分必要;3)目前比较少见从多标记特征选择问题角度出发解决中医数字化大数据存储问题。
发明内容
本发明的目的在于从多标记特征选择角度解决中医大数据中高度冗余问题,为后续诊断患者数据并进行挖掘提供保证,同时减少数据存储成本,提高数据可用性的基于多标记特征选择及分类的中医临床大数据存储方法。
本发明包括以下步骤:
1)对患者进行信息采集,根据不同患者症状进行量化打分,并对其赋予对应的多类标签;
2)对采集到的患者数据进行归一化处理,将标记数据集进行向量化处理,得到标准的多标记数据集,并将多标记数据集划分为训练集和测试集以验证算法有效性;
3)计算训练集进行特征选择时所需相关矩阵,使用罚函数法计算全局最优特征权重分配;
4)选取权重最大的前K个特征子集,使用MLkNN方法得到测试集预测结果,并选取最优特征子集进行新患者病情预测。
在步骤1)中,所述对患者进行信息采集,根据不同患者症状进行量化打分,并对其赋予对应的多类标签的具体方法可为:
(1)医生对患者进行症状询问,并对患者病情进行标记;
(2)医生根据已有规定量化规则对患者症状进行量化打分,将患者数据标记为X(n,m)={x1,x2,...,xn}T,其中xi表示第i名患者的诊断特征,为m维向量。
在步骤2)中,所述对采集到的患者数据进行归一化处理,将标记数据集进行向量化处理,得到标准的多标记数据集,并将多标记数据集划分为训练集和测试集以验证算法有效性的具体方法可为:
(1)将患者特征数据集进行标准化处理;
(2)将患者标签数据集进行向量化处理,得到标记数据集L(n,k)={l1,l2,...,ln},其中li为第i个患者的标记向量;
(3)将处理好的标准化数据集划分为训练集和测试集。
在步骤3)中,所述计算训练集进行特征选择时所需相关矩阵,使用罚函数法计算全局最优特征权重分配的具体方法可为:
(1)使用信息熵计算特征相关性矩阵D,D为m×m矩阵;
(2)计算特征-标记相关向量e,e为m维向量;
(3)计算特征-标记冗余向量c,c为m维向量;
(5)对x按其权重从大到小进行排序,记录其对应的索引值。
在步骤4)中,所述选取权重最大的前K个特征子集,使用MLkNN方法得到测试集预测结果,并选取最优特征子集进行新患者病情预测的具体方法可为:
(1)为选取最优特征数量,对所有特征子集进行实验,一次选取x中前K(K=1,2,3...,m)个最优特征子集使用MLkNN方法进行实验,并使用如下五种方法对结果进行评估:
A.汉明损失(Hamming Loss):该指标衡量预测所得标记与实际标记之间的不一致程度;
B.1-错误率(One-Error):该指标描述样本所具体的隶属度最高的标记不是其实际标记的可能性;
C.覆盖率(Coverage):该指标衡量在排队序列中从隶属度最高的序列开始,平均需要跨越多少个标记才能覆盖样本所拥有的全部标记;
D.排序损失(Ranking Loss):该指标表明样本对其所属标记的隶属度低于对其非属标记的可能性;
E.平均精度(Average Precision):该指标反映预测类标的平均精确度;
(2)对五种指标在不同特征数量的条件下进行绘图,选取最优特征数量;
(3)对新患者特征数据进行标准化处理,使用训练好的模型进行病情诊断得到最终评价结果。
本发明的突出技术效果如下:
1、从多标记问题角度出发,对现代中医数字化大数据存储问题进行解释以及处理,对已有患者数据进行有效压缩,并保证数据有效性及可解释性,极大地节省了人力物力成本。
2、采用全局优化策略进行特征选择,鲁棒性强,可以推广到类似应用中。
3、本发明可辅助医生进行后续疾病诊断,也可在线或离线由患者进行健康情况估计,应用灵活多变。
4、本发明对硬件要求低,计算消耗低,可实时对病人健康状况进行动态存储。
综上,本发明适用于当代中医数字化大数据的压缩存储及数据预处理,极大减少医生工作量,提高工作效率,同时也适用于患者在线或离线自处理,应用场景十分广泛。
附图说明
图1为基于多标记特征选择的中医临床大数据存储方法的算法流程图。
图2为本发明效果与其他方法的平均准确率对比结果。
图3为本发明效果与其他方法的覆盖率对比结果。
图4为本发明效果与其他方法的1-错误率对比结果。
图5为本发明效果与其他方法的海明损失对比结果。
图6为本发明效果与其他方法的排序损失对比结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和相关实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1是基于多标记特征选择的自动中医诊疗方法的算法流程图,基于此流程本实施例对1146例患者数据进行了相关实验,每位患者特征由461维向量表示,标记由43维向量表示,并将实验结果在图2~6中进行展示。
具体步骤为:
1)对患者进行信息采集,并根据不同患者症状进行量化打分,并对其赋予对应的多类标签;
(1)医生对患者进行症状询问,并对患者病情进行标记;
(2)医生根据已有规定量化规则对患者症状进行量化打分,将患者数据标记为X={x1,x2,...,x1146}T,其中xi表示第i名患者的诊断特征,为461维向量。
2)对采集到的患者数据进行归一化处理,并将标记数据集进行向量化处理,得到标准的多标记数据集,并将多标记数据集划分为训练集和测试集以验证算法有效性;
(1)将患者特征数据集进行标准化处理;
(2)将患者标签数据集进行向量化处理,得到标记数据集L={l1,l2,...,l1146},其中li为第i个患者的43维标记向量;
(3)将处理好的标准化数据集划分为训练集(606例)和测试集(540例)。
3)计算训练集进行特征选择时所需相关矩阵,使用罚函数法计算全局最优特征权重分配;
(1)使用信息熵计算特征相关性矩阵D,D为m*m矩阵;
(2)计算特征-标记相关向量e,e为m维向量;
(3)计算特征-标记冗余向量c,c为m维向量;
(5)对x按其权重从大到小进行排序,记录其对应的索引值。
4)选取权重最大的前K个特征子集,使用MLkNN方法得到测试集预测结果,并选取最优特征子集进行新患者病情预测。
(1)为选取最优特征数量,对所有特征子集进行实验,一次选取x中前K(K=1,2,3...,m)个最优特征子集使用MLkNN方法进行实验,得到结果。
(2)对实验结果进行分析评估,如图2~6,依次为平均准确率,覆盖率,1-错误率,海明损失,排序损失。
本发明通过对患者四诊数据(望闻问切)进行自动选择,为中医临床数字化大数据存储提供一种新的思路。首先针对已经采集完毕并且正确标记的患者数据进行训练,利用新提出的方法计算并分析每个诊疗数据特征的权重,然后选择权重较大的若干个诊疗特征作为新的特征集进行存储,最后使用MLkNN方法进行多标记分类,对新患者数据进行分类进而评价该特征选择方法是否有效。
Claims (4)
1.基于多标记特征选择及分类的中医临床大数据存储方法,其特征在于包括以下步骤:
1)对患者进行信息采集,根据不同患者症状进行量化打分,并对其赋予对应的多类标签;
2)对采集到的患者数据进行归一化处理,将标记数据集进行向量化处理,得到标准的多标记数据集,并将多标记数据集划分为训练集和测试集以验证算法有效性;
3)计算训练集进行特征选择时所需相关矩阵,使用罚函数法计算全局最优特征权重分配,具体方法为:
(1)使用信息熵计算特征相关性矩阵D,D为m×m矩阵;
(2)计算特征-标记相关向量e,e为m维向量;
(3)计算特征-标记冗余向量c,c为m维向量;
(5)对x按其权重从大到小进行排序,记录其对应的索引值;
4)选取权重最大的前K个特征子集,使用MLkNN方法得到测试集预测结果,并选取最优特征子集进行新患者病情预测。
2.如权利要求1所述基于多标记特征选择及分类的中医临床大数据存储方法,其特征在于在步骤1)中,所述对患者进行信息采集,根据不同患者症状进行量化打分,并对其赋予对应的多类标签的具体方法为:
(1)医生对患者进行症状询问,并对患者病情进行标记;
(2)医生根据已有规定量化规则对患者症状进行量化打分,将患者数据标记为X(n,m)={x1,x2,...,xn}T,其中xi表示第i名患者的诊断特征,为m维向量。
3.如权利要求1所述基于多标记特征选择及分类的中医临床大数据存储方法,其特征在于在步骤2)中,所述对采集到的患者数据进行归一化处理,将标记数据集进行向量化处理,得到标准的多标记数据集,并将多标记数据集划分为训练集和测试集以验证算法有效性的具体方法为:
(1)将患者特征数据集进行标准化处理;
(2)将患者标签数据集进行向量化处理,得到标记数据集L(n,k)={l1,l2,...,ln},其中li为第i个患者的标记向量;
(3)将处理好的标准化数据集划分为训练集和测试集。
4.如权利要求1所述基于多标记特征选择及分类的中医临床大数据存储方法,其特征在于在步骤4)中,所述选取权重最大的前K个特征子集,使用MLkNN方法得到测试集预测结果,并选取最优特征子集进行新患者病情预测的具体方法为:
(1)为选取最优特征数量,对所有特征子集进行实验,一次选取x中前K个最优特征子集使用MLkNN方法进行实验,所述K=1,2,3,...,m,并使用如下五种方法对结果进行评估:
A.汉明损失:该指标衡量预测所得标记与实际标记之间的不一致程度;
B.1-错误率:该指标描述样本所具体的隶属度最高的标记不是其实际标记的可能性;
C.覆盖率:该指标衡量在排队序列中从隶属度最高的序列开始,平均需要跨越多少个标记才能覆盖样本所拥有的全部标记;
D.排序损失:该指标表明样本对其所属标记的隶属度低于对其非属标记的可能性;
E.平均精度:该指标反映预测类标的平均精确度;
(2)对五种指标在不同特征数量的条件下进行绘图,选取最优特征数量;
(3)对新患者特征数据进行标准化处理,使用训练好的模型进行病情诊断得到最终评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810879094.2A CN109119133B (zh) | 2018-08-03 | 2018-08-03 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810879094.2A CN109119133B (zh) | 2018-08-03 | 2018-08-03 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109119133A CN109119133A (zh) | 2019-01-01 |
CN109119133B true CN109119133B (zh) | 2021-07-23 |
Family
ID=64851985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810879094.2A Active CN109119133B (zh) | 2018-08-03 | 2018-08-03 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109119133B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919196B (zh) * | 2019-02-01 | 2023-12-08 | 华南理工大学 | 一种基于特征选择和分类模型的体质识别方法 |
CN110781295B (zh) * | 2019-09-09 | 2023-04-07 | 河南师范大学 | 一种多标记数据的特征选择方法及装置 |
CN113707293B (zh) * | 2021-07-30 | 2023-03-14 | 电子科技大学 | 一种基于特征选择的中医主症选择方法 |
CN113378514B (zh) * | 2021-08-12 | 2021-11-05 | 华东交通大学 | 多标记数据特征选择处理方法及装置 |
CN114093445A (zh) * | 2021-11-18 | 2022-02-25 | 重庆邮电大学 | 一种基于偏多标记学习的患者筛选标记方法 |
CN116631563B (zh) * | 2023-07-21 | 2023-10-03 | 北京杏林康云信息科技股份有限公司 | 一种医药行业大数据存储及智能匹配方法 |
CN117116432B (zh) * | 2023-10-23 | 2023-12-15 | 博奥生物集团有限公司 | 一种疾病特征的处理装置和设备 |
CN117454154A (zh) * | 2023-12-22 | 2024-01-26 | 江西农业大学 | 一种面向偏标记数据的鲁棒特征选择方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102364498A (zh) * | 2011-10-17 | 2012-02-29 | 江苏大学 | 一种基于多标签的图像识别方法 |
CN104615894A (zh) * | 2015-02-13 | 2015-05-13 | 上海中医药大学 | 一种基于k近邻标签特定权重特征的中医诊断方法及系统 |
-
2018
- 2018-08-03 CN CN201810879094.2A patent/CN109119133B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102364498A (zh) * | 2011-10-17 | 2012-02-29 | 江苏大学 | 一种基于多标签的图像识别方法 |
CN104615894A (zh) * | 2015-02-13 | 2015-05-13 | 上海中医药大学 | 一种基于k近邻标签特定权重特征的中医诊断方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Multi-label feature selection with application to TCM state identification";Liang Dai 等;《Wiley》;20180730;全文 * |
"基于最大相关最小冗余的多标记特征选择";杨文元;《数码设计》;20161031;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109119133A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109119133B (zh) | 基于多标记特征选择及分类的中医临床大数据存储方法 | |
CN111598881A (zh) | 基于变分自编码器的图像异常检测方法 | |
CN112767997A (zh) | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 | |
CN110797101B (zh) | 医学数据处理方法、装置、可读存储介质和计算机设备 | |
CN110604550B (zh) | 一种肿瘤放疗后正常组织器官并发症预测模型的建立方法 | |
CN110352389A (zh) | 信息处理装置及信息处理方法 | |
CN111248913B (zh) | 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质 | |
CN112561869B (zh) | 一种胰腺神经内分泌肿瘤术后复发风险预测方法 | |
Golugula et al. | Evaluating feature selection strategies for high dimensional, small sample size datasets | |
CN111651980A (zh) | 混合神经网络融合Attention机制的小麦抗寒性识别方法 | |
CN115359074B (zh) | 基于超体素聚类及原型优化的图像分割、训练方法及装置 | |
CN111759304B (zh) | 心电图异常识别方法、装置、计算机设备和存储介质 | |
CN115424691A (zh) | 病例匹配方法、系统、设备和介质 | |
CN113855038A (zh) | 基于多模型集成的心电信号危急值的预测方法及装置 | |
CN114519705A (zh) | 一种用于医学选拔与鉴定的超声标准数据处理方法及系统 | |
CN113643756A (zh) | 一种基于深度学习的蛋白质相互作用位点预测方法 | |
CN111048145B (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 | |
CN115565001A (zh) | 基于最大平均差异对抗的主动学习方法 | |
CN113066544B (zh) | 基于CAA-Net与LightGBM的FVEP特征点检测方法 | |
Calma et al. | Active learning with realistic data-a case study | |
CN115511798A (zh) | 一种基于人工智能技术的肺炎分类方法及装置 | |
CN110265151B (zh) | 一种基于ehr中异构时态数据的学习方法 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
CN111108516A (zh) | 使用深度学习算法来评价输入数据 | |
Boufenara et al. | A Machine learning technique dedicated for biological data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |