CN109117864B

CN109117864B - 基于异构特征融合的冠心病风险预测方法、模型及系统

Info

Publication number: CN109117864B
Application number: CN201810767394.1A
Authority: CN
Inventors: 高英; 罗雄文; 沈雄
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2020-02-28
Anticipated expiration: 2038-07-13
Also published as: CN109117864A

Abstract

本发明公开了一种基于异构特征融合的冠心病风险预测方法、模型及系统，该冠心病风险预测模型通过以下步骤训练获得：S1、从多个来源采集批量病人的病理数据，并进行预处理；S2、对预处理后的多个来源的病理数据进行特征提取及筛选，获得多个与冠心病风险相关的特征集；S3、对获得的多个特征集进行特征筛选，对应获得筛选后的多个特征子集；S4、基于多个特征子集，采用阶段集成学习方法，完成多源异构特征信息的融合，逐步训练获得冠心病风险预测模型。本发明避免了人为主观因素对冠心病风险预测模型的影响，提高了冠心病风险预测模型的效率和精度，扩大了适用范围，而且降低了模型的构建成本，可广泛应用于数据处理领域中。

Description

基于异构特征融合的冠心病风险预测方法、模型及系统

技术领域

本发明涉及数据处理领域，特别是涉及基于异构特征融合的冠心病风险预测方法、模型及系统。

背景技术

目前大多数冠心病风险预测模型都采用传统的基于统计分析的单特征或多特征建模方法，这类方法需要花费大量的时间去搜集和分析临床数据，并依靠有经验医生的先验知识来选取与疾病相关的危险因子，还需要通过定期的治后回访与调查来校检并修正模型，因此模型的建模过程将耗费大量的人力和财力。由于传统建模方法必须依赖医生的经验，而不同医生之间的经验水平往往差距较大，所以所选取的模型危险因子往往精度不高，从而导致冠心病风险预测模型的适用范围很窄，比如只适用于某个地区的人群，缺乏通用性。

总的来说，目前的冠心病风险预测模型存在效率低、成本高、精度低、适用范围窄以及受人为主观因素的干扰等问题。

名词解释

Haar：一种用于描述区域对比度变化幅度的特征，常用于提取较为明显的图像边缘特性，并且常与级联分类器组合来进行对象检测。

Tamura：一种基于人类视觉的自动纹理提取方法，根据人类视觉感知从心理学的角度采用一系列统计量对图像纹理进行描述。

NMF：非负矩阵分解，用于将训练集的数据矩阵分解为两个非负矩阵，执行降维操作时，根据所需下降的维度数，从左部的非负矩阵中选取一个子矩阵来实现数据的降维。

ESR级联形状回归器：一种基于形状索引的两级集成预测算法，由多个强回归器级联而成，强回归器可以灵活选择，通常需要通过多个弱回归器集成得到，常用于特征点检测。

VGG网络：一种使用小卷积核和多层卷积完成图像特征学习的深度网络，有五种经典配置，可以根据图像的像素范围灵活选取。

Adaboost：一种通过错判率去自适应调整弱学习器权重的集成学习算法，后续迭代训练的弱学习器会根据前面弱学习器提供的判别信息逐步得到提升。

随机森林：一种针对子特征集训练多个树状弱学习器，并通过加权投票集成来进行分类或预测的算法，弱学习器的训练相互独立、互不影响。

GBDT回归森林：一种通过迭代进行回归树集成的算法，迭代后期的回归树会根据前期回归树传递的梯度信息进行提升，有较好的泛化能力。

xgboost回归森林：一种大规模并行的集成回归树算法，每一棵回归树均可以在特征粒度上并行进行训练，同时不同回归树的训练也是并行的。

K近邻算法：一种通过样本空间中与输入样本距离最近的K个样本的类别分布来决定输入样本所属类别的“懒学习”机器学习算法，不需要通过训练样本来训练模型参数。

opencv：一个几乎包括了计算机视觉领域的所有经典算法和工具的重量级图像库，大部分的与图像处理各个流程相关的任务都可以使用它进行处理。

pandas：一个专门用于解决数据分析任务的python库，包含了大量快捷简便的数据处理工具与函数，适用于高效地操作大型数据集。

sklearn：一个标准机器学习算法库，包括了所有经典机器学习算法，可以通过它完成各种机器学习相关的算法研究和产品设计等任务。

keras：一个使用计算图和符号主义描述深度网络结构的深度学习库，对深度神经网络的各个组成部分进行了封装，可以隐式启动GPU进行高效图像运算。

发明内容

为了解决上述的技术问题，本发明的目的是提供基于异构特征融合的冠心病风险预测方法、模型及系统。

本发明解决其技术问题所采用的第一技术方案是：

基于异构特征融合的冠心病风险预测模型，所述冠心病风险预测模型通过以下步骤训练获得：

S1、从多个来源采集批量病人的病理数据，并进行预处理；所述病人包括患冠心病的患者和未患冠心病的患者；

S2、对预处理后的多个来源的病理数据进行特征提取及筛选，获得多个与冠心病风险相关的特征集；

S3、对获得的多个特征集进行特征筛选，对应获得筛选后的多个特征子集；

S4、基于多个特征子集，采用阶段集成学习方法，完成多源异构特征信息的融合，逐步训练获得冠心病风险预测模型；

所述病理数据包括病人的综合临床数据及五官病理图像。

进一步，所述步骤S1中，通过步骤S111～S113对综合临床数据进行预处理：

S111、采用数据过滤算法对综合临床数据进行剔除处理，剔除信息缺失超过第一预设比例的异常数据项，以及丢失关键数据特征信息的非法数据项；

S112、将剔除处理后的综合临床数据进行结构化处理；

S113、针对结构化处理后的综合临床数据中信息缺失较少的数据项，通过K近邻插值法补充每个数据项的特征信息；

所述步骤S1中，通过步骤S121～S124对五官病理图像进行预处理：

S121、将每张五官病理图像，进行耳朵对象的位置和尺寸标注，最后形成耳朵积极图像集，并获取不包括耳朵对象的背景图像和噪声图像形成耳朵消极图像集；

S122、将耳朵积极图像集和耳朵消极图像集作为训练集，采用特征描述器从训练集的所有图像中提取Haar特征；

S123、基于提取的Haar特征，采用多个Adaboost强分类器进行耳朵分类模型训练，训练获得Haar耳朵级联分类器，并存储该分类器的模型结构和参数；

S124、采用训练获得的Haar耳朵级联分类器对五官病理图像进行耳朵分割操作，获得每张五官病理图像的耳朵部位图像。

进一步，所述步骤S2中，直接将综合临床数据的特征信息形成综合临床特征集，并对预处理所获得的所有耳朵部位图像进行特征提取及筛选，获得耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集；

所述耳朵距离特征集通过步骤S211～S215提取获得：

S211、基于分割获得的所有耳朵部位图像，训练一个ESR耳朵特征点检测器；

S212、采用训练获得的ESR耳朵特征点检测器，提取每张耳朵部位图像的关键特征点；

S213、从每张耳朵部位图像的所有关键特征点中筛选出具有代表性的耳朵关键穴位点；

S214、根据每张耳朵部位图像的耳朵关键穴位点计算规范化的耳朵距离特征；

S215、将所有耳朵部位图像对应的耳朵距离特征构成耳朵距离特征集；

所述VGG耳朵特征集通过步骤S221～S224提取获得：

S221、基于分割获得的所有耳朵部位图像，训练一个VGG耳朵特征提取器；

S222、采用训练获得的VGG耳朵特征提取器，在每张耳朵部位图像的全局位置上，提取各个区域的多维局部表象特征；

S223、采用NMF结合随机森林对多维局部表象特征进行降维处理；

S224、将降维后的所有耳朵部位图像的局部表象特征构成VGG耳朵特征集；

所述冠状沟病理特征集通过步骤S231～S235提取获得：

S231、从分割获得的所有耳朵部位图像提取其冠状沟部位的Haar特征；

S232、基于提取的Haar特征，采用多个Adaboost强分类器进行模型训练，训练获得对应的Haar级联冠状沟分类器，并存储该分类器的模型结构和参数；

S233、采用训练获得的Haar级联冠状沟分类器对每张耳朵部位图像进行冠状沟部位的检测，得到对应的冠状沟区域；

S234、采用Tamura法计算冠状沟区域的像素信息统计量，并对统计量进行分析后，获得与冠状沟纹理相关的病理特征；

S235、将所有耳朵部位图像对应的与冠状沟纹理相关的病理特征构成冠状沟病理特征集。

进一步，所述步骤S3中，通过以下方式对获得的多个特征集进行特征筛选：

基于医生的先验知识对综合临床特征集进行特征筛选，获得对应的综合临床特征子集；

基于综合重要性评分的加权特征筛选模型对耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集进行筛选，获得对应的耳朵距离特征子集、VGG耳朵特征子集和冠状沟病理特征子集。

进一步，所述基于综合重要性评分的加权特征筛选模型对耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集进行筛选，获得对应的耳朵距离特征子集、VGG耳朵特征子集和冠状沟病理特征子集的步骤，具体包括：

S311、针对耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集中的每个特征集，分别采用Lasso评分法、皮尔森相关系数法、最大信息系数法进行基于统计分析的重要性评估，并采用逻辑回归相关系数法和随机森林相关系数法进行基于机器学习的重要性评估，获得每个特征集中每个特征的对应的五个评分，从而构成耳朵距离特征重要性权重集、VGG耳朵特征重要性权重集和冠状沟病理特征重要性权重集；

S312、通过第一范式计算每个特征集中每个特征的五个评分的集成分数，将该集成分数作为每个特征的重要性权重；

S313、将每个特征集中的所有特征按照重要性权重进行排序后，选取重要性权重值最大的预设N个特征作为特征筛选结果，从而对应获得三个特征集的筛选后的耳朵距离特征子集、VGG耳朵特征子集和冠状沟病理特征子集；

其中，N为预设的不小于2的正整数。

进一步，所述步骤S4，具体包括：

S41、基于多个特征子集，采用贪心组合方法作为算法优选策略，为每个特征子集选取合适的机器学习算法，训练对应的冠心病风险预测子模型；

S42、将获得的多个特征子集对应的多个冠心病风险预测子模型，进行基于投票集成决策和基于逻辑回归集成决策的融合集成；

S43、将融合集成结果中较优的多源融合特征信息作为冠心病风险预测的计算依据，输出对应的用于计算冠心病风险预测结果的冠心病风险预测模型。

进一步，所述步骤S41中，合适的机器学习算法指使得在单独使用该特征子集的特征进行冠心病风险预测时准确率最高的机器学习算法；

所述步骤S41中，为综合临床特征子集选择的机器学习算法是基于启发式优化的带权值K近邻算法，为耳朵距离特征子集选择的机器学习算法是GBDT回归森林算法，为VGG耳朵特征子集选择的机器学习算法是xgboost回归森林算法，为冠状沟病理特征子集选择的机器学习算法是带有高斯核函数的支持向量机算法。

进一步，所述步骤S211中，所述ESR耳朵特征点检测器采用级联回归器实现，所述级联回归器采用二级集成架构，由多个随机蕨丛林级联串接而成；

所述步骤S214，具体包括：

S2141、计算每张耳朵部位图像的耳朵关键穴位点两两间的距离，并将计算获得的所有距离按照耳朵特征点的相对位置关系进行排序后构造为特征向量；

S2142、为特征向量添加耳朵照片类型标记符；

S2143、采用最小最大归一化将特征向量中的绝对距离转化为相对距离；

S2144、采用Z-score标准化所有特征向量后，获得规范化的耳朵距离特征。

本发明解决其技术问题所采用的第二技术方案是：

基于异构特征融合的冠心病风险预测方法，包括以下步骤：

获取患者的综合临床数据及五官病理图像；

对患者的五官病理图像进行预处理和相应的特征提取；

将患者的综合临床数据和不同种类的五官病理图像特征输入到训练好的冠心病风险预测模型中，计算获得冠心病风险预测结果；

所述冠心病风险预测模型本发明第一技术方案所述的模型。

本发明解决其技术问题所采用的第三技术方案是：

基于异构特征融合的冠心病风险预测系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现本发明第二技术方案所述的基于异构特征融合的冠心病风险预测方法。

本发明的有益效果是：本发明通过从多个来源采集批量病人的病理数据后，进行特征提取及筛选，获得多个与冠心病风险相关的特征集，然后对特征集进一步进行特征筛选，筛选出具有代表性的多个特征子集后，采用阶段集成学习方法，完成多源异构特征信息的融合，逐步训练获得冠心病风险预测模型，本发明避免了人为主观因素对冠心病风险预测模型的影响，提高了冠心病风险预测模型的效率和精度，扩大了冠心病风险预测模型的适用范围，而且降低了模型的构建成本。

附图说明

图1是本发明的基于异构特征融合的冠心病风险预测模型的具体实施例中模型的建立过程流程图；

图2是本发明具体实施例中冠心病风险预测模型的建立过程的流程示意图；

图3是本发明具体实施例中提取耳朵距离特征的流程示意图；

图4是本发明具体实施例中提取VGG耳朵特征的原理示意图；

图5是本发明具体实施例中基于综合重要性评分进行特征筛选的原理示意图；

图6是本发明具体实施例中进行多源异构特征信息的融合的原理示意图；

图7是本发明具体实施例中基于启发式优化的带权值K近邻算法的流程图；

图8是本发明的基于异构特征融合的冠心病风险预测系统的结构框图。

具体实施方式

模型实施例

本实施例提供了一种基于异构特征融合的冠心病风险预测模型，参照图1，所述冠心病风险预测模型通过以下步骤训练获得：

所述病理数据包括病人的综合临床数据及五官病理图像。

综合临床数据从电子病历系统中获取，具体包括从病人的病历中采集的基本生理信息、用药情况和患病史，病人的检查信息和治疗结果等。五官病理图像从病人的拍摄和扫描结果中采集，为了实现较好的训练效果，一般采用超高分辨率医学数码设备拍摄的图像。

本发明通过从多个来源采集批量病人的病理数据后，进行特征提取及筛选，获得多个与冠心病风险相关的特征集，然后对特征集进一步进行特征筛选，筛选出具有代表性的多个特征子集后，采用阶段集成学习方法，完成多源异构特征信息的融合，逐步训练获得冠心病风险预测模型，解决了传统的基于统计分析方法的单特征冠心病风险评估模型建模时间长、适用范围小和风险拟合能力差等问题，而且主要通过自动化训练方法来构建冠心病风险预测模型，可以从大量的临床数据中学习最为通用的与冠心病风险预测密切关联的病理模式，得到数量更多、精度更高的模型危险因子，扩展风险预测模型的适用范围，提高其移植能力，而且减少了主观因素的干扰，提高了冠心病风险预测的效率和精度，适用范围广，不需要耗费大量人力物力，降低了模型的成本。

进一步作为优选的实施方式，所述步骤S1中，通过步骤S111～S113对综合临床数据进行预处理：

S111、采用数据过滤算法对综合临床数据进行剔除处理，剔除信息缺失超过第一预设比例的异常数据项，以及丢失关键数据特征信息的非法数据项；这里，第一预设比例为预设设定的，用于进行数据筛选，本实施例中，第一预设比例优选为60％；关键数据特征信息指病人的关键信息，包括性别、年龄和心率等信息；本实施例中，具体采用数据统计分析工具包pandas实现综合临床数据的过滤。

S112、将剔除处理后的综合临床数据进行结构化处理；结构化处理，具体是将综合临床数据中的离散型数据用离散数值编码表示，将部分关联较大的连续型数据映射进统一的范围里，以减少误差，同时还将文字描述型临床特征数据转换为数值表示。

S113、针对结构化处理后的综合临床数据中信息缺失较少的数据项，通过K近邻插值法补充每个数据项的特征信息；通过K近邻插值法补充每个数据项的特征信息后，可以保证所有综合临床数据的数据结构的一致性。

本实施例中，对五官病理图像进行预处理的更为详细的过程如下：

首先使用opencv的标记工具在病人的高分辨率的五官病理图像上标记耳朵对象的位置和尺寸，并把这些包含耳朵对象的五官病理图像处理为耳朵积极图像集，同时把通过另外途径搜集的分辨率不一的不包含耳朵对象的背景图像和通过opencv的数据增强方法生成的噪声图像处理为耳朵消极图像集。然后对所有图像进行一系列的预处理，并使用opencv的特征描述器从耳朵积极图像集和耳朵消极图像集中提取Haar特征，采用Haar特征来描述要检测对象的图像信息是因为耳朵的外轮廓特征较为明显，其梯度与四周背景的梯度对比强烈，适合使用描述区域对比度的Haar特征描述，同时由于Haar特征基于区域矩阵特征模版进行提取，可以有效减少高分辨率病理图像的特征提取数量，降低训练过程中的计算开销。最后，使用这些特征来训练Adaboost级联耳朵分类模型，并把训练好的模型结构和参数存进硬盘，当需要执行耳朵分割操作时，直接从硬盘中加载Haar级联耳朵分类器完成相应的操作即可。

图2是本实施例中冠心病风险预测模型的建立过程的的总流程示意图，其中，图2的左侧描述了本冠心病风险预测模型的建立原理流程图，图2的右侧描述了本冠心病风险预测模型的详细结构，包括建立过程中所建立的分类器、检测器、子模型等，具体还包括了前述步骤S1中多源数据采集与预处理过程。以下结合图2对本实施例进行详细说明：

进一步作为优选的实施方式，所述步骤S2中，直接将综合临床数据的特征信息形成综合临床特征集，并对预处理所获得的所有耳朵部位图像进行特征提取及筛选，获得耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集；

所述耳朵距离特征集通过步骤S211～S215提取获得：

S215、将所有耳朵部位图像对应的耳朵距离特征构成耳朵距离特征集。

进一步作为优选的实施方式，参照图3所示，所述步骤S211中，所述ESR耳朵特征点检测器采用级联回归器实现，所述级联回归器采用二级集成架构，由多个随机蕨丛林级联串接而成；

所述步骤S214，具体包括：

S2142、为特征向量添加耳朵照片类型标记符；

更具体的，如图3所示，图3展示了步骤S211～S215如何提取耳朵距离特征的总流程：每个随机蕨丛林回归器都负责拟合一部分形状修正变化，而随机蕨丛林均由多棵反映样本数据类别分布的随机蕨集成得到。随机蕨根据半朴素贝叶斯理论，先计算某个类别对应于样本的后验概率，然后结合类别自身的先验概率得到某个特征点的变化类型，再根据变化类型的后验概率值求得特征点位置的修正增量。随机蕨丛林将所有随机蕨对同一个特征点求得的位置修正增量集成，得到一个更为合理的综合位置修正增量，修正增量向量通过特征点两两间的形状索引像素差进行描述。使用随机蕨丛林进行特征点位置修正的原因是随机蕨丛林对形状修正变化的回归拟合过程与特征点位置的概率分布密切相关，从而使得特征点的检测精度较高，同时基于像素差的位置增量计算使得形状修正的效率更高，可以更快地检测出关键特征点。为了更准确地提取耳朵的关键特征点，减少最终结果的形变量，算法会将一个智能初始化的特征点形状输入ESR耳朵级联形状回归器来进行修正。智能初始化特征点形状是指算法会根据从训练集中求得的平均形状随机初始化一组形状，将这组形状分别通过前面几个随机蕨丛林回归器来计算修正的结果，求修正结果的方差，只有当方差小于一定阈值时，才从这组形状中随机选取一个作为初始形状输入，否则重新随机初始化另一组形状进行方差评估，直至满足要求为止。在完成耳朵关键特征点的检测后，算法首先会根据特征点的相对位置对这些特征点进行统一的编号化处理，并根据编号从中选出7个关键的耳朵穴位点；然后求这些穴位点两两之间的距离，将这些距离按照一定的排序规则构造为特征向量，同时根据耳朵照片的拍摄类型为每个特征向量添加耳朵照片类型标记符(左耳60度拍摄为0、左耳90度拍摄为1、右耳60度拍摄为2、右耳90度拍摄为3)。因为所求得的距离为绝对距离，误差较大，所以算法紧接着使用最小最大归一化把特征向量中的绝对距离转化为相对距离，并使用标准正态转换Z-score标准化所有距离特征向量，以使得特征数据更为集中，提升算法效果。耳朵特征点检测器所涉及的所有机器学习回归器和贝叶斯概率运算均使用机器学习标准算法库sklearn实现，而Z-score则通过pandas的数据预处理模块实现。

所述VGG耳朵特征集通过步骤S221～S224提取获得：

步骤S221～S224用以全面地对耳朵的表象特征进行提取并挖掘潜在的冠心病影响因子，而且通过步骤S223会对所提取的耳朵表象特征向量进行降维，确保所得的表象特征是最具代表性、最有影响的关键特征同时去除冗余特征信息的影响。

图4中展示了本实施例提取VGG耳朵特征集过程中采用的VGG耳朵特征提取器的示意图，以及进行NMF智能特征降维的过程，本实施例采用VGG耳朵特征提取器完成1000维的耳朵表象特征提取后，耳朵表象特征还会根据一个合适的维度数进行降维。具体如下：

VGG耳朵特征提取器由经典的VGG16网络改进而成，它的结构包括了13个卷积层、8个最大池化层、3个批归一化层、3个全连接层和1个Softmax二分类层；均采用小卷积核来学习更为精细的图像像素信息，核尺寸统一为3x3，步幅为1x1；最大池化层的尺寸缩减步幅均为2x2。由于所需处理的耳朵照片是高分辨率的病理图片，因此本发明所使用的VGG耳朵特征提取器采用了更多的最大池化层来进行像素信息的归总，以便提取更为抽象的耳朵表象特征，同时采用数量更多的最大池化层并不会提高训练开销，因为所需训练的网络参数数量没有提升。另外，为了减轻由于深度增加而带来的梯度消失现象，耳朵特征提取器的所有激活函数均使用Relu，并在原VGG16网络的基础上增加了三个批归一化层，以使得反向传播的梯度信息可以有效地传至浅层的网络，加快网络的收敛。需要注意的是，VGG耳朵提取器在训练时是接上Softmax分类层一起训练的，通过超参数调整使得冠心病分类准确率达到专家级的诊断准确率才将模型进行保存；而在使用时，则去除Softmax分类层，直接网络把倒数第一层的输出作为所提取的耳朵表象特征，需要注意的是倒数一层全连接层使用Sigmoid作为激活函数，目的是输出归一化的特征向量。经过耳朵特征提取器提取的特征向量会通过非负矩阵分解NMF结合随机森林进行降维评估，即智能降维算法会从10～50维范围内的五个维度中选取一个最为合理的维度数并利用NMF进行特征降维，使得降维后的特征向量在使用随机森林进行冠心病分类时的准确率最高。降维评估所使用的维度数从10开始，以10作为增量，至50维时结束，特征降维的目的是为了降低后续冠心病风险预测模型训练时的计算复杂度，避免“维度灾难”。VGG网络通过深度学习框架Keras搭建并训练，NMF降维则使用pandas的数据压缩模块实现。

所述冠状沟病理特征集通过步骤S231～S235提取获得：

因为冠状沟的区域对比度突出，本实施例使用Haar特征进行描述，步骤S231～S235首先也是训练一个个Haar级联冠状沟分类器来完成高分辨率耳朵图像中冠状沟部位的检测，然后针对检测到的冠状沟区域，使用Tamura法计算其像素信息统计量，通过对统计量的分析得到与冠状沟纹理相关的病理特征。具体训练过程同样使用opencv的一系列工具来完成冠状沟检测模型的训练操作，需要检测冠状沟时，直接加载训练好的检测模型进行相应耳朵图像的冠状沟位置检测即可。另外，因为冠状沟部位的视觉特性明显，即可以直接凭借肉眼进行粗略的直观观察，所以采用基于人类视觉感知和心理学的Tamura法可以更好地对冠状沟纹理病理特征进行分析和提取，提高冠状沟病理特征集的准确度。

进一步作为优选的实施方式，所述步骤S3中，通过以下方式对获得的多个特征集进行特征筛选：

综合临床特征集的综合临床特征因其与医学临床研究关系密切，同时又以大量的临床经验作为支撑，因而可以直接根据心血管科专家的先验知识直接完成特征筛选。另外三类基于计算机视觉方法提取的病理特征则通过基于综合重要性评分的加权特征筛选模型来完成特征筛选，该模型公平地考虑了几种特征重要性的统计分析评分和机器学习评分，这些评分被综合起来计算一个最终得分，将得分作为特征的重要性权重。每个特征都计算一个综合重要性权重，按照权重值进行排序，权重值越大代表该特征越具有代表性，选取排在前面的若干个特征作为特征筛选的结果。加权特征筛选模型也可以是一个预训练好的可重用模型，其结构和参数被存储在硬盘里，应用时直接调用即可。

进一步作为优选的实施方式，所述基于综合重要性评分的加权特征筛选模型对耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集进行筛选，获得对应的耳朵距离特征子集、VGG耳朵特征子集和冠状沟病理特征子集的步骤，具体包括：

其中，N为预设的不小于2的正整数。

图5展示了基于综合重要性评分进行特征筛选的原理。本实施例中，只有与耳朵性状相关的三类特征的特征集才使用图5的流程进行特征筛选，因为这三类特征反映了更为全面的耳朵病理性状信息，特征数量庞大，而综合临床特征则由心血管科专家直接根据先验知识进行筛选。综合重要性评分策略使用两大类评分指标分别对各个特征集中的每个特征计算重要性得分，其中两大类评分指标分别指统计分析的重要性评分指标和机器学习的重要性评分指标，包括五种计算得分的方法，即Lasso评分法、皮尔森相关系数法、最大信息系数法、逻辑回归相关系数法和随机森林相关系数法，前三种属于基于统计分析的重要性权重计算方法，后两种属于基于机器学习的重要性权重计算方法。因为每种重要性评分方法都有所侧重，比如：Lasso评分法偏向于发现具有决定意义的影响因子(特征)，皮尔森相关系数法偏向于发现需要协同合作才能产生巨大影响的特征对或特征组，而最大信息系数法偏向于发现来自不同统计角度的有所关联的重要影响因子(特征)，同时由于基于统计分析的评分方法过分依赖训练集的数据分布，泛化性能较差；所以还多使用了两种机器学习的评分方法来提高对新数据的适应能力，并且为了更公平、更综合地去评价每个特征的重要性，综合重要性评分策略还通过第一范式来对各种重要性评分方法计算的得分集成，得到一个较为合理的最终得分，并用该得分代表特征的重要性权重。根据特征集中不同特征的重要性权重进行排序，选取其中权重值最大的若干个特征作为特征筛选的结果。此处用到的机器学习重要性评分法通过sklearn提供的相关机器学习算法类扩展实现，而统计分析重要性评分法则使用matlab提供的计算单元实现。

本实施例中，所述步骤S4，具体为：

分别为每个特征子集训练对应的冠心病风险预测子模型，进而对获得的多个冠心病风险预测子模型进行二级集成后，得到基于多源异构特征信息融合的冠心病风险预测模型。

进一步作为优选的实施方式，所述步骤S4，具体包括：

这里，多源融合特征信息指上述融合集成过程中对多个冠心病风险预测子模型进行融合得到的结果，表现为针对原始多个来源采集的数据的特征的融合结果。

步骤S41～S43的训练过程中，将冠心病风险预测模型按照不同的层次进行保存，便于未来对其进行扩展，同时为了保证模型训练的稳定性，在训练过程中每经过一个阶段，该阶段训练好的模型的结构与参数都会被及时写入硬盘，避免出现故障时要重新训练整个模型。

进一步作为优选的实施方式，所述步骤S41中，合适的机器学习算法指使得在单独使用该特征子集的特征进行冠心病风险预测时准确率最高的机器学习算法；

图6展示了本发明如何采用阶段集成学习方法，完成多源异构特征信息的融合，逐步训练获得冠心病风险预测模型的原理，采用阶段集成的策略，按阶段逐步训练相应的风险预测子模型组、子模型融合模型和多源异构特征信息融合决策模型，每个阶段模型的训练都与上一个阶段密切相关。采用阶段集成策略可以提高总体模型训练的稳定性和健壮性，当在训练过程中出现故障导致训练终止时，可以从当前阶段开始继续训练，而不必重新从最初的阶段开始。经过特征筛选所得的四类特征子集会根据自身的特性选择最为合适的机器学习算法来训练风险预测子模型，算法选优基于“贪心组合”策略，即针对每类特征子集，在一组机器学习算法中，选择一个能使得在单独使用该类特征进行冠心病诊断时准确率最高的算法来训练相应的风险预测子模型。耳朵距离子特征集由于其特征的同质性，从而选择了树结构较为精简的GBDT回归森林作为子模型训练算法；VGG耳朵子特征集由于其所反映的局部表象信息的多样性以及特征数量较多，从而选择了并行能力更强且树结构更为复杂的xgboost回归森林作为子模型训练算法；冠状沟纹理病理子特征集由于特征样本在特征空间中靠得较近，分类面比较光滑，因而采用了带有高斯核函数的支持向量机作为子模型训练算法；综合临床子特征集则由于其搜索空间的高度复杂，从而采用了本发明提出的基于启发式优化的带权值K近邻算法作为子模型训练算法。所得的风险预测子模型将通过二级集成学习架构完成子模型的融合以及多源异构特征的融合决策，首先各个风险预测子模型会分别使用两个子模型融合模型进行诊断结果的集成，子模型融合方法在线性集成与非线性集成两种方式间进行折中，其中投票集成决策代表各个子模型诊断结果的浅层线性集成，而逻辑回归集成决策则代表诊断结果的浅层非线性集成；然后第一级集成的两种综合诊断结果会在第二级集成进行“打擂选优”，两者中较优的综合诊断结果所对应的多源融合特征信息将作为综合冠心病风险预测的计算依据，计算并输出最终的冠心病风险预测结果。此处所用到的机器学习算法(除临床特征子集所对应的风险预测子模型训练算法外)同样使用sklearn所提供的机器学习算法类实现。

基于启发式优化的带权值K近邻算法的总体流程如图7所示，由三个主要阶段组成。在基于先验知识的权值初始化阶段，每个临床特征对应的K近邻空间距离权值会根据心血管病专家的临床经验进行初始化，首先心血管病专家会给经过筛选的综合临床特征评定一个与冠心病相关的风险等级，对冠心病诊断影响越大的特征，其风险等级越高；然后依据特征的风险等级使用线性变换计算每个临床特征的初始距离权值。紧接着，在启发式优化阶段，算法使用了自适应粒子群算法对临床特征的初始距离权值进行优化，因为自适应粒子群算法拥有比常规启发式优化算法(如遗传算法、粒子群算法、差分进化算法等等)更快的收敛速度和更高的寻优精度，所以可以加快风险预测子模型的训练速度。自适应粒子群算法如图7右侧所示，它将临床特征权值向量视为其样本空间中的一个“粒子”，权值向量的值为粒子的“位置”，通过多个粒子在样本空间中的启发式搜索，找到更优的临床特征初始距离权值。自适应粒子群算法会经过多次迭代来逐步优化临床特征的距离权值，每次迭代每个粒子都会根据全局最优信息和自身的历史最优信息，通过个体学习率和全局学习率以及上一次移动方式的控制，慢慢朝全局最优的粒子位置前进，需要注意的是自适应粒子群算法的超参数是根据种群的搜索进化状态(探索、开发、收敛、跃迁)来进行自适应调整的，不需要人工调参，同时还使用了“精英学习”策略，即全局最优粒子位置跃迁策略，来避免种群陷入局部最优。最后，经过启发式优化的临床特征初始距离权值会被直接用于带权值K近邻算法的距离计算，由于带权值K近邻算法是个“懒学习算法”，不需要使用训练样本进行预训练，所以只要完成距离权值的优化即可直接用于冠心病的风险预测。与普通的K近邻算法一样，带权值K近邻算法也会依据与输入的临床特征样本距离最近的K个样本中的多数分类作为最终的分类诊断结果，但它在计算特征样本间的距离时会使用已经经过优化的特征权值来进行加权。基于启发式优化的带权值K近邻算法不依赖sklearn独自实现。

装置实施例

基于异构特征融合的冠心病风险预测装置，包括计算机、输入模块、通信模块和显示模块，所述计算机分别与输入模块、通信模块和显示模块连接，通信模块用于与电子病历系统和医院的检验数据库连接，从而获取病人的病例数据；

所述计算机用于训练基于异构特征融合的冠心病风险预测模型，具体通过以下步骤训练获得该模型：

所述病理数据包括病人的综合临床数据及五官病理图像。

本实施例实际上用于训练获得前述模型实施例的冠心病风险预测模型，更详细的，本实施例中，对冠心病风险预测模型的具体训练过程可参照前述模型实施例的描述，相应的细节和效果也参照前述模型实施例的描述。

方法实施例

基于异构特征融合的冠心病风险预测方法，包括以下步骤：

获取患者的综合临床数据及五官病理图像；

对患者的五官病理图像进行预处理和相应的特征提取；

所述冠心病风险预测模型本发明模型实施例所述的模型。

本实施例中，对患者的五官病理图像进行预处理和相应的特征提取的具体过程与前述描述的对五官病理图像集进行特征提取的过程相似，具体包括以下步骤：

对彩色的五官病理图像进行颜色空间归一化，获得对应的五官病理灰度图像；

分别对单通道的五官病理灰度图像和三通道的原五官病理图像进行滤波处理，去除噪声像素的干扰；

根据五官病理灰度图像分割获得耳朵部位，并进一步在耳朵部位上分割出冠状沟部位；其中，耳朵部位包括耳朵部位灰度图像和耳朵部位彩色图像；

使用ESR耳朵特征点检测器检测耳朵部位灰度图像上的耳朵关键特征点，并计算耳朵距离特征；

使用VGG耳朵特征提取器根据耳朵部位彩色图像计算耳朵的局部表象特征；

通过Tamura法计算冠状沟部位的纹理病理特征。

更具体的细节，可参照冠心病风险预测模型的建立过程中，ESR耳朵特征点检测器和VGG耳朵特征提取器的建立过程等细节描述。

系统实施例

参照图8，基于异构特征融合的冠心病风险预测系统，包括：

至少一个处理器100；

至少一个存储器200，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器100执行，使得所述至少一个处理器100实现所述的基于异构特征融合的冠心病风险预测方法。

本实施例的基于异构特征融合的冠心病风险预测系统，可执行本发明方法实施例所提供的基于异构特征融合的冠心病风险预测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于异构特征融合的冠心病风险预测系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现以下步骤：

获取患者的综合临床数据及五官病理图像；

对患者的五官病理图像进行预处理和相应的特征提取；

所述冠心病风险预测模型通过以下步骤训练获得：

S2、对预处理后的多个来源的病理数据进行特征提取及筛选，将综合临床数据的特征信息形成综合临床特征集，并对预处理所获得的所有耳朵部位图像进行特征提取及筛选，获得耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集；其中，所述耳朵距离特征集由所有耳朵关键部位计算得到的耳朵距离特征构成；所述VGG耳朵特征集由降维后的所有耳朵部位图像的局部表象特征构成；所述冠状沟病理特征集由所有耳朵部位图像对应的与冠状沟纹理相关的病理特征构成；

所述病理数据包括病人的综合临床数据及五官病理图像。

2.根据权利要求1所述的基于异构特征融合的冠心病风险预测系统，其特征在于，所述步骤S1中，通过步骤S111～S113对综合临床数据进行预处理：

S112、将剔除处理后的综合临床数据进行结构化处理；

3.根据权利要求2所述的基于异构特征融合的冠心病风险预测系统，其特征在于：

在所述步骤S2中，所述耳朵距离特征集通过步骤S211～S215提取获得：

所述VGG耳朵特征集通过步骤S221～S224提取获得：

所述冠状沟病理特征集通过步骤S231～S235提取获得：

4.根据权利要求3所述的基于异构特征融合的冠心病风险预测系统，其特征在于，所述步骤S3中，通过以下方式对获得的多个特征集进行特征筛选：

5.根据权利要求4所述的基于异构特征融合的冠心病风险预测系统，其特征在于，所述基于综合重要性评分的加权特征筛选模型对耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集进行筛选，获得对应的耳朵距离特征子集、VGG耳朵特征子集和冠状沟病理特征子集的步骤，具体包括：

其中，N为预设的不小于2的正整数。

6.根据权利要求4所述的基于异构特征融合的冠心病风险预测系统，其特征在于，所述步骤S4，具体包括：

7.根据权利要求6所述的基于异构特征融合的冠心病风险预测系统，其特征在于，所述步骤S41中，合适的机器学习算法指使得在单独使用该特征子集的特征进行冠心病风险预测时准确率最高的机器学习算法；

8.根据权利要求3所述的基于异构特征融合的冠心病风险预测系统，其特征在于，所述步骤S211中，所述ESR耳朵特征点检测器采用级联回归器实现，所述级联回归器采用二级集成架构，由多个随机蕨丛林级联串接而成；

所述步骤S214，具体包括：

S2142、为特征向量添加耳朵照片类型标记符；