CN116386877B

CN116386877B - 一种肺动脉高压发生概率的确认方法、辅助决策系统

Info

Publication number: CN116386877B
Application number: CN202310636010.3A
Authority: CN
Inventors: 赵韡; 柳志红; 袁靖; 赵帅; 罗勤; 夏芸; 黄志华; 杨展
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-12
Anticipated expiration: 2043-06-01
Also published as: CN116386877A

Abstract

本申请提供一种肺动脉高压发生概率的确认方法、辅助决策系统。方法包括：获取目标患者的实时特征；对实时特征进行预处理，获得预处理后的实时特征；根据预处理后的实时特征，从多个应用模型中选择第一应用模型；将预处理后的实时特征输入第一应用模型中，对目标患者进行肺动脉高压发生概率预测，目标患者的实时特征与第一组训练集相匹配；获取第一应用模型对目标患者进行预测的第一肺动脉高压发生概率值。本申请通过采用上述方法，解决相关技术中，由于患者的特征信息存在多样性，部分患者的特征信息较少，在面对这部分患者时，进行PH肺动脉高压发生概率预测时无法得到想要的结果的问题。

Description

一种肺动脉高压发生概率的确认方法、辅助决策系统

技术领域

本申请涉及数据处理的技术领域，具体涉及一种肺动脉高压发生概率的确认方法、辅助决策系统及电子设备。

背景技术

肺动脉高压（pulmonary hypertension，PH）是一种由异源性疾病或病因和不同发病机制所致肺血管结构或功能改变，引起肺血管阻力和肺动脉压力升高的临床和病理生理综合征。PH早期筛查困难，治疗棘手，预后恶劣。因早期症状隐匿，PH患者常被误诊或漏诊，其中动脉性肺动脉高压患者从出现症状到确诊平均需要2-4年，且持续性的PH会导致患者的右心室持续超负荷，最终可发展为右心衰竭而导致死亡。在我国，未经治疗的PH患者5年平均生存率仅为20.8%。研究表明，早期筛查并得到有效治疗的PH患者远期生存率远高于中晚期的患者。因此，为减少PH带来的死亡和不良影响，提升患者的预期寿命并改善患者的生活质量，做到PH的早期筛查显得至关重要。

当前，常见的早期筛查PH风险的方法主要包括生物标志物法和模型识别两种。其中，模型识别的相关技术方案中，多应用传统的机器学习模型。在应用传统机器学习模型对患者产生PH的肺动脉高压发生概率进行预测时，由于各类患者的特征信息存在多样性，而采用的模型常为特定模型。不能根据患者的实际特征信息，选择更加匹配患者特征信息的模型进行PH肺动脉高压发生概率的预测。

目前，亟需一种肺动脉高压发生概率的确认方法、辅助决策系统及电子设备来解决相关技术存在的问题。

发明内容

本申请提供了一种肺动脉高压发生概率的确认方法、辅助决策系统，用于解决传统的应用机器学习模型对患者的早期PH发生概率进行预测时，不能根据患者的实际特征信息，选择更加匹配患者特征信息的模型进行PH肺动脉高压发生概率的预测的问题。

本申请第一方面提供了一种肺动脉高压发生概率的确定方法，方法包括：获取目标患者的实时特征；对实时特征进行预处理，获得预处理后的实时特征；根据预处理后的实时特征，从多个应用模型中选择第一应用模型，多个应用模型由多组训练集通过待训练模型进行训练得到，多组训练集根据历史患者的结构化特征得到，多组训练集包括第一组训练集，第一应用模型根据第一组训练集训练得到；将预处理后的实时特征输入第一应用模型中，对目标患者进行肺动脉高压发生概率预测，目标患者的实时特征与第一组训练集相匹配；获取第一应用模型对目标患者进行预测的第一肺动脉高压发生概率值。

可选的，多组应用模型还包括第二应用模型，多组训练集还包括第二训练集，方法还包括：当第一肺动脉高压发生概率大于或等于第一肺动脉高压发生概率阈值时，获取目标患者的剩余特征；剩余特征是除实时特征之外的其他特征，剩余特征包括第一剩余特征；将第一剩余特征添加进目标患者的实时特征，得到第二实时特征；采用第二应用模型对目标患者进行预测，第二训练集与第二实时特征相匹配，第二应用模型根据第二训练集训练得到；获取第二应用模型对目标患者进行预测的第二肺动脉高压发生概率值；当第二肺动脉高压发生概率值大于或等于第二肺动脉高压发生概率阈值时，输出第二肺动脉高压发生概率值。

可选的，多组训练集还包括第三训练集，多组应用模型还包括第三应用模型，第三应用模型根据第三训练集训练得到；获取目标患者的剩余特征之前，方法还包括：获取第三应用模型的模型效果指标与第二应用模型的模型效果指标；当第二应用模型的模型效果指标大于或等于第三应用模型的模型效果指标时，获取目标患者的剩余特征，第二训练集与第三训练集的关系通过以下关系确定：

A_s=［X₁,X₂.....X_N,C_s］；A_t=［X₁,X₂.....X_N,C_t］；

其中，A_s为第二训练集，A_t为第三训练集，C_s为剩余特征的第二集合，C_t为剩余特征的第三集合；第二集合与第三集合中的剩余特征的数量相同，且仅存在一个不同的剩余特征。

可选的，根据历史患者的结构化特征得到多组训练集，具体包括：获取历史患者的结构化特征，历史患者的结构化特征包括常规特征以及剩余特征；根据历史患者的结构化特征构建多组训练集；其中，多组训练集中任意一个训练集根据以下公式构成：

A₂ ^_n=［X₁,X₂.....X_N,C₂ ^_n］;

Q=［X₁,X₂.....X_N］；P=［0,Y₁,Y₂.....Y_n］；

其中，A₂ ^_n为任意一个训练集；Q为常规特征的集合；P为剩余特征的集合；N为常规特征的个数；n为剩余特征的个数；C₂ ^_n为剩余特征的集合中任意一种数学组合集合；X_N为第N常规特征；Y_n为第n剩余特征。

可选的，待训练模型为DeepFM-Att模型，方法还包括：将DeepFM模型中的Deep组件替换为注意力机制，得到DeepFM-Att模型，DeepFM-Att模型为待训练模型。可选的，应用模型的获取方法包括：获取患者历史特征及标签，以构建基础数据集；对基础数据集进行预处理，以得到稀疏特征；将稀疏特征分为多组训练集，同一组训练集中每个训练集包括的特征种类相同；采用多组训练集，分别输入多个待训练模型中，训练得到与多组训练集对应的多个应用模型。

可选的，采用多组训练集，分别输入多个待训练模型中，训练得到与多组训练集对应的多个应用模型，具体包括：将一组训练集输入待训练模型，使用待训练模型处理稀疏特征，得到特征嵌入矩阵、一阶组合特征、二阶组合特征；将一阶组合特征、二阶组合特征拼接组合特征矩阵；将特征嵌入矩阵输入待训练模型的注意力机制，得到注意力机制的输出；将组合特征矩阵和注意力机制的输出拼接，形成待训练模型的最终隐藏嵌入矩阵，采用带有预设激活函数的全连接层将最终隐藏嵌入矩阵转换为肺动脉高压的发生概率值，并计算分类损失；根据最终隐藏嵌入矩阵，计算对比损失；根据分类损失以及对比损失，计算最终损失，最终损失用于对待训练模型的参数进行调整，得到与训练集对应的多个应用模型。

可选的，根据分类损失以及对比损失，计算最终损失，具体根据以下公式得到：L=L_BCE+α · L_SCL；

L为最终损失；L_BCE为分类损失；L_SCL为对比损失；α为超参数。

本申请第二方面提供一种辅助决策系统，系统包括：特征获取单元、特征处理单元、模型选择单元、第一模型应用单元以及第一结果输出单元；特征获取单元，用于获取目标患者的实时特征；特征处理单元，用于对实时特征进行预处理，获得预处理后的实时特征；模型选择单元，用于根据预处理后的实时特征，从多个应用模型中选择第一应用模型，多个应用模型由多组训练集通过待训练模型进行训练得到，多组训练集根据历史患者的结构化特征得到，多组训练集包括第一组训练集，第一应用模型根据第一组训练集训练得到；第一模型应用单元，用于将预处理后的实时特征输入第一应用模型中，对目标患者进行肺动脉高压发生概率预测，目标患者的实时特征与第一组训练集相匹配；第一结果输出单元，用于获取第一应用模型对目标患者进行预测的第一肺动脉高压发生概率。

可选的，多组应用模型还包括第二应用模型，多组训练集还包括第二训练集，系统还包括：剩余特征获取单元、特征构建单元、第二模型应用单元、第二结果输出单元以及结果确认单元；剩余特征获取单元，用于当第一肺动脉高压发生概率值大于或等于第一肺动脉高压发生概率阈值时，获取目标患者的剩余特征；剩余特征是除实时特征之外的其他特征；特征构建单元，用于将第一剩余特征添加进目标患者的实时特征，得到第二实时特征；第二模型应用单元，用于采用第二应用模型对目标患者进行预测，第二训练集与第二实时特征相匹配，第二应用模型根据第二训练集训练得到；第二结果输出单元，用于获取第二应用模型对目标患者进行预测的第二肺动脉高压发生概率值；结果确认单元，用于当第二肺动脉高压发生概率值大于或等于第二肺动脉高压发生概率阈值时，确认目标患者存在高患病风险。

可选的，多组训练集还包括第三训练集，多组应用模型还包括第三应用模型，第三应用模型根据第三训练集训练得到；系统还包括：模型效果获取单元以及特征决策单元；模型效果获取单元，应用于获取目标患者的剩余特征之前，获取第三应用模型的模型效果指标与第二应用模型的模型效果指标；特征决策单元，用于当第二应用模型的模型效果指标大于或等于第三应用模型的模型效果指标时，获取目标患者的剩余特征，第二训练集与第三训练集的关系通过以下关系确定：

A_s=［X₁,X₂.....X_N,C_s］；A_t=［X₁,X₂.....X_N,C_t］；

本申请第三方面提供一种电子设备，电子设备包括处理器、存储器、用户接口及网络接口，存储器用于存储指令，用户接口和网络接口用于给其他设备通信，处理器用于执行存储器中存储的指令，以使电子设备执行上述中任一项的方法。

本申请第四方面提供一种计算机可读存储介质，计算机可读存储介质存储有指令，当指令被执行时，执行本上述中任一项的方法。

与相关技术相比，本申请的有益效果是：

1、采用根据历史患者的结构化特征得到的多组应用模型，从多组应用模型选择出最适合目标患者的模型，并根据目标患者的实时特征进行肺动脉高压发生概率预测，提高了预测的准确度。

2、基于常规特征以及剩余特征构建出来多组训练集，构建出的多组训练集能够更为准确、全面地考虑到患者的实际特征情况。

3、通过从多组应用模型中，选择出模型效果指标最佳的应用模型，并根据选出的最佳应用模型，确定所获取的目标患者的剩余特征的来源，为诊疗方选择性的获取目标患者的剩余特征提供了更优的决策信息。

4、模型训练过程中引入了有监督对比学习，并设计了基于负采样的对比损失函数，促使构建的模型能有效捕捉类间差异，更准确地筛查出针对特定疾病，具有潜在患病风险的患者。

5、通过初始训练的基础架构，采用模型组件中的注意力机制来评估组合特征的重要性，得到了预测效应显著的低阶和高阶组合特征，增强了模型可解释性。

附图说明

图1是本申请实施例提供的一种肺动脉高压发生概率的确定方法的第一流程示意图；

图2是本申请实施例提供的一种肺动脉高压发生概率的确定方法的第二流程示意图；

图3是本申请实施例提供的一种肺动脉高压发生概率的确定方法中的第一应用模型训练流程示意图；

图4是本申请实施例提供的一种肺动脉高压发生概率的确定方法中的第二应用模型训练流程示意图；

图5是本申请实施例提供的一种肺动脉高压发生概率的确定方法的原理示意图；

图6是本申请实施例提供的又一种肺动脉高压发生概率的确定方法的原理示意图；

图7是本申请实施例提供的一种辅助决策系统的结构示意图；

图8是本申请实施例提供的一种辅助决策系统的应用场景示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

附图标记说明：11、特征获取单元；12、特征处理单元；13、模型选择单元；14、第一模型应用单元；15、第一结果输出单元；16、剩余特征获取单元17、特征构建单元；18、第二模型应用单元；19、第二结果输出单元；20、结果确认单元；21、模型效果获取单元；22、特征决策单元；1000、电子设备；1001、处理器；1002、通信总线；1003用户接口；1004、网络接口；1005、存储器。

实施方式

为了使本领域的技术人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

在本申请实施例的描述中，“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供一种肺动脉高压发生概率的确定方法、辅助决策系统及电子设备，以解决相关技术中，在应用传统机器学习模型对患者产生PH的肺动脉高压发生概率进行预测时，由于各类患者的特征信息存在多样性，部分患者的特征信息较少，在面对这部分患者时，进行PH肺动脉高压发生概率预测时无法得到想要的结果。

需要说明的是，本申请实施例通过肺动脉高压这一疾病进行阐述，仅作为示例性的，并非是对本方法的限定。

在本申请实施例中，示例性的采用DeepFM模型来构建本申请的应用模型的基础架构，本申请实施例在DeepFM模型的基础上提出DeepFM-Att模型。作为本申请实施例中待训练模型以及应用模型的基础架构。

如图1所示，为本申请实施例给出的一种肺动脉高压发生概率的确定方法的流程示意图，包括步骤S1-S5。

S1，获取目标患者的实时特征。

S2，对实时特征进行预处理，获得预处理后的实时特征。

具体来说，在本申请实施例中，患者的实时特征包括结构化特征，结构化特征包括连续特征和离散特征。在可能的情况下，人口统计学、既往病史等特征同时包括了连续特征和离散特征两部分，这部分特征需要进行特征处理，将连续特征和离散特征两部分分开，本申请在此不做具体赘述。连续特征：是按测量或者计量方法得到的，在一段长度内可以任意获得的特征，其数值是不间断。比如[0，1]之间的数，可以取n个数。离散特征：其数值只能用自然数来表示，只能用计量单位统计，如个数，人数等。例如在人口统计学特征中，如人数、性别是离散特征；年龄、平均收入、平均寿命是连续特征；既往病史中，如是否患有某类疾病、某项指标是否正常是离散特征，某类疾病对应的异常检测结果为连续特征；例如：正常、异常患者的个数是离散特征，患者某项测定结果是连续特征。

S3，根据预处理后的实时特征，从多个应用模型中选择第一应用模型，多个应用模型由多组训练集通过待训练模型进行训练得到，多组训练集根据历史患者的结构化特征得到，多组训练集包括第一组训练集，第一应用模型根据第一组训练集训练得到。

在本申请实施例中，将多组训练集通过待训练模型进行训练得到多个应用模型。多组训练集根据患者的结构化特征得到。

S4，将预处理后的实时特征输入第一应用模型中，对目标患者进行肺动脉高压发生概率预测，目标患者的实时特征与第一组训练集相匹配。

在本申请实施例中，目标患者的实时特征与第一组训练集相匹配，是指目标患者的实时特征包含多种特征，与第一组训练集的特征种类相同。例如，患者仅有人口统计学特征X_s、既往病史X_m、血液检查X_b特征，则输入至基于第一组训练集［X_s,X_m,X_b］对应的第一应用模型Model_s,m,b中。

S5，获取第一应用模型对目标患者进行预测的第一肺动脉高压发生概率值。

采用第一应用模型获取目标患者第一肺动脉高压发生概率值，第一肺动脉高压发生概率值的具体结果根据患者的实时特征的具体情况确定。本申请实施例在这里未给出实际结果。此外，在本申请实施例中，第一肺动脉高压发生概率值并非直接用于诊断患者是否患有肺动脉高压，需要医生结合自身知识，进行进一步判断。

在一种可能的实施方式中，多组应用模型还包括第二应用模型，多组训练集还包括第二训练集。如图2所示，本方法包括步骤S51-S55。

S51，当第一肺动脉高压发生概率大于或等于第一肺动脉高压发生概率阈值时，获取目标患者的剩余特征；剩余特征是除实时特征之外的其他特征，剩余特征包括第一剩余特征。

比如实时特征包括人口统计学X_s、既往病史X_m、超声心动图X_e，输入对应的模型Model_s,m,e中，第一肺动脉高压发生概率大于或等于第一肺动脉高压发生概率阈值时，则建议需要进行下一步检查，以获得目标患者的剩余特征。

从而获得知识为：有人口统计学、既往病史、超声心动图数据，且PH发生概率大于第一肺动脉高压发生概率阈值的患者，推荐其进行下一步检查。

当第一肺动脉高压发生概率小于第一肺动脉高压发生概率阈值时，则不进行下一步检查。

S52，将第一剩余特征添加进目标患者的实时特征，得到第二实时特征。

在本申请实施例中，则建议目标患者需要进行下一步检查后，将收集目标患者检测项目以及对应的结果，得到第一剩余特征。将第一剩余特征添加进目标患者的实时特征，得到第二实时特征。S53，采用第二应用模型对目标患者进行预测，第二训练集与第二实时特征相匹配，第二应用模型根据第二训练集训练得到。

在本申请实施例中，第二训练集与第二实时特征相匹配，可参见目标患者的实时特征与第一组训练集相匹配的相关解释。

S54，获取第二应用模型对目标患者进行预测的第二肺动脉高压发生概率值。

S55，当第二肺动脉高压发生概率值大于或等于第二肺动脉高压发生概率阈值时，输出第二肺动脉高压发生概率值。

其中，当第二肺动脉高压发生概率值小于第二肺动脉高压发生概率阈值时，则不进行下一步检查。

在本申请实施例中，可以多次获取肺动脉发生概率值，具体来说，当第N肺动脉发生概率值大于或等于第N肺动脉高压发生概率阈值时，获取目标患者的第N剩余特征，将第N剩余特征添加进当前实时特征中，获取第N+1实时特征，再根据第N+1实时特征，预测第N+1肺动脉高压发生概率值。

在一种可能的实施方式中，多组训练集还包括第三训练集，多组应用模型还包括第三应用模型，第三应用模型根据第三训练集训练得到；在S51中，获取目标患者的剩余特征之前，方法还包括步骤S51A-S51B。

S51A，获取第三应用模型的模型效果指标与第二应用模型的模型效果指标。

举例来说，比如实时特征包括人口统计学X_s、既往病史X_m、超声心动图X_e，输入对应的模型Model_s,m,e中，第一肺动脉高压发生概率大于或等于第一肺动脉高压发生概率阈值时，则建议需要进行下一步检查，具体推荐的检查项目将根据获得的人口统计学、既往病史、超声心动图与其他单项检查特征组合的模型的效果推荐，如效果最好的模型为Model_s,m,e,b，则推荐下一步进行血液检查项目。

从而获得知识为：有人口统计学、既往病史、超声心动图数据，且有PH发生概率大于第一肺动脉高压发生概率阈值的患者，推荐其下一步进行血液检查。

S51B，当第二应用模型的模型效果指标大于或等于第三应用模型的模型效果指标时，获取目标患者的剩余特征，第二训练集与第三训练集的关系通过以下关系确定：

A_s=［X₁,X₂.....X_N,C_s］；A_t=［X₁,X₂.....X_N,C_t］；

在一种可能的实施方式中，在步骤S3中，根据历史患者的结构化特征得到多组训练集，具体包括步骤S31-S32。

S31，获取历史患者的结构化特征，历史患者的结构化特征包括常规特征以及剩余特征。

S32，根据历史患者的结构化特征构建多组训练集；其中，多组训练集中任意一个训练集根据以下公式构成：

A₂ ^_n=［X₁,X₂.....X_N,C₂ ^_n］;

Q=［X₁,X₂.....X_N］；P=［0,Y₁,Y₂.....Y_n］；

其中，A₂ ^_n为任意一个训练集；Q为常规特征的集合；P为剩余特征的集合；N为常规特征的个数；n为剩余特征的个数；C₂ ^_n为剩余特征的集合中任意一种数学组合集合；X_N为第N常规特征；Y_n为n剩余特征。

在本申请实施例中，结构化特征包括常规特征以及剩余特征，其中，常规特征是指在采用应用模型进行预测前，已经获得的患者特征；剩余特征为在采用应用模型进行预测之后，得到的患者特征。

举例来说，C₂ ^_n为P中任意一种数学组合集合，对于P=［0,Y₁,Y₂.....Y_n］，总共存在2ⁿ个数学组合集合的结果，包括从C₁到C₂ ^_n。

示例性的，结构化特征包括人口统计学特征X_s、既往病史X_m、血液检查X_b、超声心动图X_e、心电图X_l、胸片X_c等。在实际医疗场景中，X_s和X_m作为最基础的电子病历信息，是绝大多数患者所共有的，以其作为常规特征，其他特征如血液检查X_b、超声心动图X_e、心电图X_l、胸片X_c作为剩余特征。因此，首先基于［X_s,X_m］训练一个DeepFM-Att模型，记为Model_s,m，然后对剩余特征进行排列组合（例如Y_b、［Y_e,Y_l］［Y_b,Y_l,Y_c］等），并依次与［X_s,X_m］拼接，构成多组训练集，基于每组训练集训练对应的DeepFM-Att模型，如Model_s,m,b，Model_s,m,e,l。本申请实施例中，仅示例性的给出了部分训练集以及对应的训练集得到应用模型。在本申请实施例中Y_n与X_n一一对应，例如Y_e对应超声心动图X_e。

在一种可能的实施方式中，待训练模型为DeepFM-Att模型，方法还包括：将DeepFM模型中的Deep组件替换为注意力机制，得到所述DeepFM-Att模型，所述DeepFM-Att模型为所述待训练模型。

本申请实施例中的注意力机制包括自注意力机制以及标签注意力机制，具体应用方式参见后续实施例。

在一种可能的实施方式中，如图3所示，应用模型的获取方法包括步骤S33-S36。

S33，获取患者历史特征及标签，以构建基础数据集。

S34，对基础数据集进行预处理，以得到稀疏特征。

具体来说，每个患者的特征包括连续特征和离散特征。连续特征的空值填充方式如下：首先，剔除空值率高于8%的特征；然后，将剩余的每个连续特征作为目标变量，其他非空特征和标签作为预测变量来训练回归模型；最后，利用模型的预测值替换对应空值。对于离散特征，增加缺失类来填充空值；随后，按照7:1:2的比例随机划分训练集、验证集和测试集，且三个数据集中正负样本的分布相同；对上述的连续特征离散化。连续特征离散化为现有技术，以使用CART决策树算法为例，使用CART决策树将连续特征分桶：基于每个单独的连续特征训练CART决策树来预测标签，将树节点的分裂阈值（该分类阈值为CART决策树自动给出），作为分桶的切点。分桶后的特征与离散特征共同构成特征向量；对上述中的每个特征向量进行OneHot编码，得到稀疏特征{x_i}_i=1,....n，其中n是特征数量；

S35，将稀疏特征分为多组训练集，同一组训练集中每个训练集包括的特征种类相同。

S36，采用多组训练集，分别输入多个待训练模型中，训练得到与多组训练集对应的多个应用模型。

在一种可能的实施方式中，如图4所示，步骤S36具体包括S361-S366。

S361，将一组训练集输入待训练模型，使用待训练模型处理稀疏特征，得到特征嵌入矩阵、一阶组合特征、二阶组合特征。

S362，将一阶组合特征、二阶组合特征拼接组合特征矩阵。

S363，将特征嵌入矩阵输入待训练模型的注意力机制，得到注意力机制的输出。

S364，将组合特征矩阵和注意力机制的输出拼接，形成待训练模型的最终隐藏嵌入，采用带有预设激活函数的全连接层将最终隐藏嵌入矩阵转换为肺动脉高压的发生概率值，并计算分类损失；

其中，对于步骤S361-S364，如图5所示，将S34中的所有稀疏特征{x_i}_i=1,....n通过嵌入查找（embedding look-up）获得特征嵌入矩阵E，然后将其与E输入DeepFM-Att模型中的FM组件，分别用于计算一阶组合特征o_1-order和二阶组合特征o_2-order，最后将两者拼接，构成FM组件的输出o_FM，o_FM=[o_1-order,o_2-order],其中一阶组合特征o_1-order和二阶组合特征o_2-order的获取在此不做过多赘述。将上述中的嵌入矩阵E输入DeepFM-Att模型的自注意力机制，生成高阶组合特征矩阵O_self，并利用标签注意力机制评估高阶特征的重要性，得出注意力机制的输出o_att；将上述的组合特征矩阵o_FM和注意力机制的输出o_att拼接，形成DeepFM-Att的最终隐藏嵌入矩阵z=[o_FM,o_att]。之后，采用带有sigmoid激活函数的全连接层将z转换为PH的发生概率，并利用交叉熵计算分类损失L_BCE。

本申请通过初始训练的DeepFM-Att模型架构，采用DeepFM-Att模型组件中的注意力机制来评估组合特征的重要性，得到了预测效应显著的低阶和高阶组合特征。

S365，根据最终隐藏嵌入矩阵，计算对比损失；

在本申请实施例中，基于上述步骤中的最终隐藏嵌入z，计算有监督对比损失。由于训练集中，往往负样本数量较多，使用全部数量的负样本会导致收敛速度慢，并影响训练效果。为了降低负样本的数量，本申请设计了一种采样策略。具体来说，重点采样了难以预测的负样本，即模型预测概率较高的负样本。在实际建模中，本发明选择了top-N个模型预测概率最高的负样本，然后基于采样的负样本以及正样本的嵌入矩阵为输入，使用InfoNCE损失函数计算对比损失L_SCL。

S366，根据分类损失以及对比损失，计算最终损失，最终损失用于对待训练模型的参数进行调整，得到与训练集对应的多个应用模型。

在一种可能的实施方式中，根据分类损失以及对比损失，计算最终损失，具体根据以下公式得到：参见图6

L=L_BCE+α · L_SCL；

L为最终损失；L_BCE为分类损失；L_SCL为对比损失；α 为超参数。

本申请实施例提供一种辅助决策系统，如图7所示，系统包括：特征获取单元11、特征处理单元12、模型选择单元13、第一模型应用单元14以及第一结果输出单元15。

特征获取单元11，用于获取目标患者的实时特征。

特征处理单元12，用于对实时特征进行预处理，获得预处理后的实时特征。

模型选择单元13，用于根据预处理后的实时特征，从多个应用模型中选择第一应用模型，多个应用模型由多组训练集通过待训练模型进行训练得到，多组训练集根据历史患者的结构化特征得到，多组训练集包括第一组训练集，第一应用模型根据第一组训练集训练得到。

第一模型应用单元14，用于将预处理后的实时特征输入第一应用模型中，对目标患者进行肺动脉高压发生概率预测，目标患者的实时特征与第一组训练集相匹配。

第一结果输出单元15，用于获取第一应用模型对目标患者进行预测的第一肺动脉高压发生概率。

在一种可能的实施方式中，多组应用模型还包括第二应用模型，多组训练集还包括第二训练集，系统还包括：剩余特征获取单元16、特征构建单元17、第二模型应用单元18、第二结果输出单元19以及结果确认单元20；

剩余特征获取单元16，用于当第一肺动脉高压发生概率值大于或等于第一肺动脉高压发生概率阈值时，获取目标患者的剩余特征；剩余特征是除结构化特征之外的其他特征；

特征构建单元17，用于将第一剩余特征添加进目标患者的实时特征，得到第二实时特征；

第二模型应用单元18，用于采用第二应用模型对目标患者进行预测，第二训练集与第二实时特征相匹配，第二应用模型根据第二训练集训练得到；

第二结果输出单元19，用于获取第二应用模型对目标患者进行预测的第二肺动脉高压发生概率值；

结果确认单元20，用于当第二肺动脉高压发生概率值大于或等于第二肺动脉高压发生概率阈值时，确认目标患者存在高患病风险。

在一种可能的实施方式中，多组训练集还包括第三训练集，多组应用模型还包括第三应用模型，第三应用模型根据第三训练集训练得到；如图所示，系统还包括：模型效果获取单元21以及特征决策单元22。

模型效果获取单元21，应用于获取目标患者的剩余特征之前，获取第三应用模型的模型效果指标与第二应用模型的模型效果指标；

特征决策单元22，用于当第二应用模型的模型效果指标大于或等于第三应用模型的模型效果指标时，获取目标患者的剩余特征，第二训练集与第三训练集的关系通过以下关系确定：

A_s=［X₁,X₂.....X_N,C_s］；A_t=［X₁,X₂.....X_N,C_t］；

基于上述实施例的方式，将获得多条诊断决策知识，最终可以构建诊断决策知识库，如图8所示。

示例性的：下面将给出应用辅助决策系统对PH风险评估的三个案例。

患者A：性别女，37岁，无高血压、高血脂症，无吸烟史，有饮酒史，B型钠尿肽无异常，总胆固醇无异常，三尖瓣瓣环平面收缩位移为20mm，三尖瓣返流峰值流速为2.5m/s。基于患者A的特征，模型预测其PH发生概率为0.2，假设PH发生概率阈值threshold设置为0.5，那么该患者PH发生概率较低，不向临床提示任何信息。

患者B：性别男，64岁，患有高血压、高血脂症，有吸烟史、饮酒史，B型钠尿肽异常，总胆固醇无异常，三尖瓣瓣环平面收缩位移为12mm，三尖瓣返流峰值流速为4.5m/s。基于患者B的特征，模型预测其PH发生概率为0.9，假设PH发生概率阈值threshold设置为0.5，那么该患者风险概率极高，向临床输出该患者PH高风险的预警提示，并给出关键二阶组合特征为同时满足患有高脂血症和三尖瓣瓣环平面收缩位移<18mm，关键高阶组合特征为同时满足年龄>60岁、患有高脂血症、有吸烟史、B型钠尿肽异常、三尖瓣瓣环平面收缩位移<18mm、三尖瓣返流峰值流速>2.8m/s。建议该患者行右心导管检查或转诊。

患者C：性别男，75岁，患有高血压、高血脂症，有吸烟史、饮酒史，B型钠尿肽异常，总胆固醇异常，中心肺动脉扩张，心影增大。基于患者C的特征，模型预测其PH发生概率为0.7，假设PH发生概率阈值threshold设置为0.5，那么该患者风险概率较高，向临床输出该患者PH高风险的预警提示，并给出关键二阶组合特征为同时满足患有高脂血症和心影增大,关键高阶组合特征为同时满足年龄>60岁、患有高脂血症、有吸烟史、B型钠尿肽异常、中心肺动脉扩张、心影增大，并根据知识库提示患者下一步应行超声心动图检查。

上述三个案例均说明辅助决策系统可以有效评估患者的PH风险概率，达到早期筛查的目的，此系统可以辅助临床及时对患者进行治疗和干预。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置和方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请通过采用上述实施例，能够达到的有益效果如下：

4、模型训练过程中引入了有监督对比学习，并设计了基于负采样的对比损失函数，促使构建的模型能有效捕捉类间差异，更准确地筛查出针对肺动脉高压，具有潜在患病风险的患者。

5、通过初始训练的基础架构，采用模型组件中的注意力机制来评估组合特征的重要性，得到了预测效应显著的低阶和高阶组合特征。

6、可实现基于采集的诊疗数据，自动评估患者是否患有肺动脉高压，同时给出预测效应显著的关键风险因素供临床人员参考，并提示患者下一步应做何种检查。

本申请还公开一种电子设备。参照图9，图9是本申请实施例的公开的一种电子设备的结构示意图。该电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏（Display）、摄像头（Camera），可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行服务器的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（ProgrammableLogic Array，PLA）中的至少一种硬件形式来实现。处理器1001可集成中央处理器（CentralProcessing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器1005包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。参照图9，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及一种用于确认肺动脉高压发生概率的应用程序。

在图9所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储一种用于确认肺动脉高压发生概率的应用程序，当由一个或多个处理器1001执行时，使得电子设备1000执行如上述实施例中一个或多个所述的方法。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几种实施方式中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后，将容易想到本公开的其他实施方案。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种肺动脉高压发生概率的确定方法，其特征在于，所述方法包括：

获取目标患者的实时特征；

对所述实时特征进行预处理，获得预处理后的实时特征；

根据预处理后的实时特征，从多个应用模型中选择第一应用模型，所述多个应用模型由多组训练集通过待训练模型进行训练得到，所述多组训练集根据历史患者的结构化特征得到，所述多组训练集包括第一组训练集，所述第一应用模型是根据所述第一组训练集训练所述待训练模型得到；

将所述预处理后的实时特征输入所述第一应用模型中，对目标患者进行肺动脉高压发生概率预测，所述目标患者的实时特征与所述第一组训练集相匹配；

获取所述第一应用模型对所述目标患者进行预测的第一肺动脉高压发生概率值；

所述待训练模型为DeepFM-Att模型，具体包括：

将DeepFM模型中的Deep组件替换为注意力机制，得到所述DeepFM-Att模型，所述DeepFM-Att模型为所述待训练模型；

所述多个应用模型的获取方法具体包括：

获取患者历史特征及标签，以构建基础数据集；

对所述基础数据集进行预处理，以得到稀疏特征；

将所述稀疏特征分为所述多组训练集，同一组训练集中每个训练集包括的特征种类相同；

采用所述多组训练集，分别输入多个待训练模型中，训练得到与所述多组训练集对应的所述多个应用模型；

所述采用所述多组训练集，分别输入多个待训练模型中，训练得到与所述多组训练集对应的所述多个应用模型，具体包括：

将一组训练集输入所述待训练模型，使用所述待训练模型处理稀疏特征，得到特征嵌入矩阵、一阶组合特征以及二阶组合特征；

将所述一阶组合特征和所述二阶组合特征拼接组合特征矩阵；

将所述特征嵌入矩阵输入所述待训练模型的自注意力机制，得到注意力机制的输出；

将所述组合特征矩阵和所述注意力机制的输出拼接，形成所述待训练模型的最终隐藏嵌入矩阵，采用带有预设激活函数的全连接层将所述最终隐藏嵌入矩阵转换为肺动脉高压的发生概率值，并计算分类损失；

根据所述最终隐藏嵌入矩阵，计算对比损失；

根据所述分类损失以及所述对比损失，计算最终损失，所述最终损失用于对所述待训练模型的参数进行调整，得到与所述训练集对应的所述多个应用模型。

2.根据权利要求1所述的方法，其特征在于，所述多组应用模型还包括第二应用模型，所述多组训练集还包括第二训练集，所述方法还包括：

当所述第一肺动脉高压发生概率大于或等于第一肺动脉高压发生概率阈值时，获取所述目标患者的第一剩余特征；所述第一剩余特征是除所述实时特征之外的其他特征；

将所述第一剩余特征添加进所述目标患者的实时特征，得到第二实时特征；

采用第二应用模型对所述目标患者进行预测，所述第二训练集与所述第二实时特征相匹配，所述第二应用模型根据所述第二训练集训练得到；

获取所述第二应用模型对所述目标患者进行预测第二肺动脉高压发生概率值；

当所述第二肺动脉高压发生概率值大于或等于第二肺动脉高压发生概率阈值时，输出第二肺动脉高压发生概率值。

3.根据权利要求2所述的方法，其特征在于，所述多组训练集还包括第三训练集，所述多组应用模型还包括第三应用模型，所述第三应用模型根据所述第三训练集训练得到；所述获取所述目标患者的第一剩余特征之前，所述方法还包括：

获取所述第三应用模型的模型效果指标与所述第二应用模型的模型效果指标；

当所述第二应用模型的模型效果指标大于或等于所述第三应用模型的模型效果指标时，获取所述目标患者的第一剩余特征；

所述第二训练集与所述第三训练集的关系通过以下关系确定：

A_s＝[X₁，X₂.....X_N，C_s]；A_t＝[X₁，X₂.....X_N，C_t]；

其中，A_s为所述第二训练集，A_t为所述第三训练集，C_s为历史患者的结构化特征所包括的剩余特征的第二集合，C_t为历史患者的结构化特征所包括的剩余特征的第三集合；N为历史患者的结构化特征所包括的常规特征的个数；X_N为历史患者的结构化特征所包括的第N常规特征；所述第二集合与所述第三集合中的历史患者的结构化特征所包括的剩余特征的数量相同，且仅存在一个不同的历史患者的结构化特征所包括的剩余特征。

4.根据权利要求1所述的方法，其特征在于，根据所述历史患者的结构化特征得到所述多组训练集，具体包括：

获取历史患者的结构化特征，所述历史患者的结构化特征包括常规特征以及剩余特征；

根据所述历史患者的结构化特征构建所述多组训练集；其中，所述多组训练集中任意一个训练集根据以下公式构成：

Q＝[X₁，X₂.....X_N]；P＝[0，Y₁，Y₂，......Y_n]；

其中，为所述任意一个训练集；Q为所述历史患者的结构化特征所包括的常规特征的集合；P为所述历史患者的结构化特征所包括的剩余特征的集合；N为所述历史患者的结构化特征所包括的常规特征的个数；n为所述历史患者的结构化特征所包括的剩余特征的个数；/>为所述历史患者的结构化特征所包括的剩余特征的集合中任意一种数学组合集合；X_N为所述历史患者的结构化特征所包括的第N常规特征；Y_n为历史患者的结构化特征所包括的第n剩余特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述分类损失以及所述对比损失，计算最终损失，具体根据以下公式得到：

L＝L_BCE+α.L_SCL:

L为所述最终损失；L_BCE为所述分类损失；L_SCL为所述对比损失；α为超参数。

6.一种辅助决策系统，其特征在于，所述系统包括：特征获取单元、特征处理单元、模型选择单元、第一模型应用单元以及第一结果输出单元；

特征获取单元，用于获取目标患者的实时特征；

特征处理单元，用于对所述实时特征进行预处理，获得预处理后的实时特征；

模型选择单元，用于根据预处理后的实时特征，从多个应用模型中选择第一应用模型，所述多个应用模型由多组训练集通过待训练模型进行训练得到，所述多组训练集根据历史患者的结构化特征得到，所述多组训练集包括第一组训练集，所述第一应用模型是根据所述第一组训练集训练所述待训练模型得到；

第一模型应用单元，用于将所述预处理后的实时特征输入所述第一应用模型中，对目标患者进行肺动脉高压发生概率预测，所述目标患者的实时特征与所述第一组训练集相匹配；

第一结果输出单元，用于获取所述第一应用模型对所述目标患者进行预测的第一肺动脉高压发生概率；

所述待训练模型为DeepFM-Att模型，具体包括：

所述多个应用模型的获取方法，具体包括：

获取患者历史特征及标签，以构建基础数据集；

对所述基础数据集进行预处理，以得到稀疏特征；

根据所述最终隐藏嵌入矩阵，计算对比损失；

7.根据权利要求6所述的系统，其特征在于，所述多组应用模型还包括第二应用模型，所述多组训练集还包括第二训练集，所述系统还包括：第一剩余特征获取单元、特征构建单元、第二模型应用单元、第二结果输出单元以及结果确认单元；

所述第一剩余特征获取单元，用于当所述第一肺动脉高压发生概率值大于或等于第一肺动脉高压发生概率阈值时，获取所述目标患者的第一剩余特征；所述第一剩余特征是除所述实时特征之外的其他特征；

所述特征构建单元，用于将所述第一剩余特征添加进所述目标患者的实时特征，得到第二实时特征；

所述第二模型应用单元，用于采用第二应用模型对所述目标患者进行预测，所述第二训练集与所述第二实时特征相匹配，所述第二应用模型根据所述第二训练集训练得到；

所述第二结果输出单元，用于获取所述第二应用模型对所述目标患者进行预测的第二肺动脉高压发生概率值；

所述结果确认单元，用于当所述第二肺动脉高压发生概率值大于或等于第二肺动脉高压发生概率阈值时，确认所述目标患者存在高患病风险。

8.根据权利要求7所述的系统，其特征在于，所述多组训练集还包括第三训练集，所述多组应用模型还包括第三应用模型，所述第三应用模型根据所述第三训练集训练得到；所述系统还包括：模型效果获取单元以及特征决策单元；

所述模型效果获取单元，应用于所述获取所述目标患者的剩余特征之前，获取所述第三应用模型的模型效果指标与所述第二应用模型的模型效果指标；

所述特征决策单元，用于当所述第二应用模型的模型效果指标大于或等于所述第三应用模型的模型效果指标时，获取所述目标患者的第一剩余特征；

A_s＝[X₁，X₂.....X_N，C_s]；A_t＝[X₁，X₂.....X_N，C_t]；

9.一种电子设备，其特征在于，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行如权利要求1-5中任意一项所述的方法。