CN117893528A

CN117893528A - 一种心脑血管疾病分类模型的构建方法及装置

Info

Publication number: CN117893528A
Application number: CN202410283400.1A
Authority: CN
Inventors: 赖小波
Original assignee: Yunnan Dean Medical Laboratory Co ltd
Current assignee: Yunnan Dean Medical Laboratory Co ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-04-16
Anticipated expiration: 2044-03-13
Also published as: CN117893528B

Abstract

本申请提供一种心脑血管疾病分类模型的构建方法及装置，涉及智慧医疗领域，其中该方法包括：统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集；基于训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化心脑血管疾病分类模型的超参数；基于测试样本子集，评估心脑血管疾病分类模型是否满足预设的模型收敛条件；该心脑血管疾病分类模型包含数据输入层、特征提取模块、数据融合分析层和分类预测层。由此，通过融合多维度数据和先进的深度学习技术，显著提高了心脑血管疾病分类模型的准确性和个体适应度，能够在临床应用中发挥重要作用。

Description

一种心脑血管疾病分类模型的构建方法及装置

技术领域

本申请涉及智慧医疗信息处理技术领域，尤其涉及一种心脑血管疾病分类模型的构建方法及装置。

背景技术

心脑血管疾病，作为全球范围内最主要的健康问题之一，对人类的生命健康构成了巨大威胁。这类疾病的诊断过程复杂，需要综合考虑各种生理信号和临床指标。

心脑血管疾病的诊断需要依赖于大量的生理信号的分析，而现有的人工智能诊断模型主要基于传统的机器学习技术，如支持向量机（Support Vector Machine, SVM）和随机森林。虽然这些方法在特定情况下效果显著，但不具备处理诸如心电图(Electrocardiography,ECG)等复杂性高的数据，且对非线性模式识别能力有限，导致模型性能不佳，也无法得到大范围推广应用。

针对上述问题，目前业界暂未提出较佳的技术解决方案。

发明内容

本申请提供一种心脑血管疾病分类模型的构建方法及装置，用以至少解决现有技术中心脑血管疾病的智能诊断模型不具备处理高复杂度数据的能力和模型性能不佳的问题。

本申请提供一种心脑血管疾病分类模型的构建方法，包括：统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集；所述生理特征参数包含ECG数据、血压数据、患者基本信息和血液生化指标；所述患者基本信息包含患者年龄和患者性别；所述患者疾病标签为心脑血管疾病类别；按照预设比例，将所述样本数据集划分为训练样本子集、验证样本子集和测试样本子集；基于所述训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化所述心脑血管疾病分类模型的超参数；所述模型性能指标至少包含模型预测准确率；基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件；其中，所述心脑血管疾病分类模型包含数据输入层、特征提取模块、数据融合分析层和分类预测层；基于所述数据输入层，对输入样本进行预处理操作；所述预处理操作包含针对输入样本中的ECG数据、血压数据和血液生化指标进行归一标准化，进而对经归一化的ECG数据进行小波变换和傅立叶变换，以获得ECG数据所对应的多尺度信息；基于所述特征提取模块中的增强CNN层，并行处理所述输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示；以及，基于所述特征提取模块中的VAE层从所述输入样本中的血液生化指标中提取关键特征，并生成目标潜在变量；以及，基于所述特征提取模块中的时序数据处理层，采用多头自注意力机制处理所述输入样本的ECG数据，以提取时间序列中的关键特征表示；基于所述数据融合分析层将所述增强CNN层、所述VAE层和所述时序数据处理层的输出进行合并，以确定相应的综合特征表示；基于所述分类预测层，根据所述输入样本中的患者基本信息更新所述综合特征表示，以根据更新后的综合特征表示确定所述输入样本所对应的标签预测结果；其中，所述分类预测层采用条件全连接层。

可选地，所述基于所述特征提取模块中的增强CNN层，并行处理所述输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示，包括：

，

其中，表示原始ECG数据，/>表示小波变换后的心电图，表示傅立叶变换后的心电图，/>是时间序列的长度，/>和/>分别是心电图和血压的特征维数；/>、/>和/>分别表示相应的尺度特征表示，以及/>和/>分别表示相应卷积层的权重和偏置；

其中，所述基于所述特征提取模块中的VAE层从所述输入样本中的血液生化指标中提取关键特征，并生成目标潜在变量，包括：

VAE层的编码器结构为：，

VAE层的解码器结构为：，

，

其中，表示血液生化指标，/>表示血液生化指标的维数，/>和/>是编码器网络产生的均值和方差，/>表示潜在变量，τ表示采样噪声项，/>表示目标潜在变量，以及/>和/>是VAE层的网络参数；

其中，所述基于所述特征提取模块中的时序数据处理层，采用多头自注意力机制处理所述输入样本的ECG数据，以提取时间序列中的关键特征表示，包括：

，

其中，分别表示相应的自注意力权重矩阵，/>表示键的维度，以及/>表示时间序列中的关键特征表示。

可选地，所述数据融合分析层的结构为：

，

其中，GRU表示门控循环单元，表示血压数据，以及/>表示综合特征表示。

可选地，所述分类预测层的结构为：

，

其中，表示根据所述输入样本中的患者基本信息所确定的附加条件信息，和/>分别表示条件依赖的全连接层权重和偏置，以及/>表示标签预测结果。

可选地，所述心脑血管疾病类别包含以下中的任意一者：心律失常、心肌梗死、高血压、冠状动脉疾病和室性心动过速。

可选地，所述心脑血管疾病分类模型采用加权多类焦点损失作为模型损失函数，所述模型损失函数通过以下方式表示：

针对每个心脑血管疾病类别，计算每个样本/>所对应的损失/>：

，

综合各个心脑血管疾病类别下的所有样本的损失，以确定为模型损失：

，

其中，模型预测输出，/>是批量大小，/>表示心脑血管疾病的类别总数，以及/>表示模型预测样本/>属于类别/>的概率；/>表示心脑血管疾病类别/>的权重；/>表示焦点参数；/>表示样本/>针对心脑血管疾病类别/>的标签值。

可选地，所述模型收敛条件是通过损失阈值、整体准确率阈值/>和关键类别准确率阈值/>来综合确定的；其中，所述基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件，包括：当所述心脑血管疾病分类模型的测试损失低于/>，并且其整体准确率超过/>时，确定所述心脑血管疾病分类模型已初步收敛；确定针对预设的关键心脑血管疾病类别的识别准确率是否超过/>；当超过/>时，确定所述心脑血管疾病分类模型满足所述模型收敛条件。

可选地，所述统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集，包括：获取多名患者的心电图采样信息，所述心电图采样信息包含ECG数据和相应的患者疾病标签；利用条件式生成对抗网络来生成合成对应至少一个条件标签的ECG合成数据；每一所述条件标签分别对应于相应的心脑血管疾病类别；基于各个具有所述条件标签的ECG合成数据以及具有相应的患者疾病标签的所述生理特征参数，构建样本数据集。

本申请还提供一种心脑血管疾病分类模型的构建装置，包括：数据集构建单元，用于统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集；所述生理特征参数包含ECG数据、血压数据、患者基本信息和血液生化指标；所述患者基本信息包含患者年龄和患者性别；所述患者疾病标签为心脑血管疾病类别；子集划分单元，用于按照预设比例，将所述样本数据集划分为训练样本子集、验证样本子集和测试样本子集；模型训练单元，用于基于所述训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化所述心脑血管疾病分类模型的超参数；所述模型性能指标至少包含模型预测准确率；模型测试单元，用于基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件；其中，所述心脑血管疾病分类模型包含数据输入层、特征提取模块、数据融合分析层和分类预测层；基于所述数据输入层，对输入样本进行预处理操作；所述预处理操作包含针对输入样本中的ECG数据、血压数据和血液生化指标进行归一标准化，进而对经归一化的ECG数据进行小波变换和傅立叶变换，以获得ECG数据所对应的多尺度信息；基于所述特征提取模块中的增强CNN层，并行处理所述输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示；以及，基于所述特征提取模块中的VAE层从所述输入样本中的血液生化指标中提取关键特征，并生成目标潜在变量；以及，基于所述特征提取模块中的时序数据处理层，采用多头自注意力机制处理所述输入样本的ECG数据，以提取时间序列中的关键特征表示；基于所述数据融合分析层将所述增强CNN层、所述VAE层和所述时序数据处理层的输出进行合并，以确定相应的综合特征表示；基于所述分类预测层，根据所述输入样本中的患者基本信息更新所述综合特征表示，以根据更新后的综合特征表示确定所述输入样本所对应的标签预测结果；其中，所述分类预测层采用条件全连接层。

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述心脑血管疾病分类模型的构建方法。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述心脑血管疾病分类模型的构建方法。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述心脑血管疾病分类模型的构建方法。

通过本申请提供的一种心脑血管疾病分类模型的构建方法、系统、电子设备及非暂态计算机可读存储介质，能够至少产生如下的技术效果：

（1）构建了一个高效且准确的心脑血管疾病分类模型，综合考虑多个与心脑血管疾病密切相关的生理和生化参数，结合ECG数据、血压数据、患者基本信息（年龄、性别）和血液生化指标，通过多维度特征融合，提供更全面的疾病画像，提高了人工智能诊断模型所预测的心脑血管疾病分类结果的准确度。

（2）通过在训练样本子集上进行训练和在验证样本子集上评估模型，可以有效调整和优化模型的超参数，确保模型具有良好的泛化能力；通过对测试样本子集的评估，可以全面了解模型在实际应用中的效果，保障心脑血管疾病分类模型的模型性能的可靠性。

（3）针对心脑血管疾病分类场景中的关键数据维度“ECG数据”进行多尺度ECG分析。对ECG数据进行小波变换和傅立叶变换，使模型能够捕捉到原始ECG信号中可能遗漏的细节和频域特征，从而提高对复杂心电图模式的识别能力，有利于扩展模型的应用范围和精确度。

（4）针对ECG数据的时间序列特点，通过多头自注意力机制，从多个角度分析心电图数据，提高对心脑血管疾病动态变化的敏感性和识别能力。

（5）通过增强的卷积神经网络（CNN）并行处理ECG的多尺度信息，能够更有效地提取和识别心电图中的非线性模式；通过变分自编码器（VAE）从血液生化指标中提取关键特征，能够进一步揭示与心脑血管疾病相关的复杂生物标志物模式。由此，提高了心脑血管疾病分类模型的非线性识别能力。

（6）通过条件全连接层，根据患者的基本信息调整特征表示，允许模型根据个体差异（如年龄、性别）提供更加个性化的诊断结果，有助于提高心脑血管疾病分类模型的普适性和准确度。

通过本申请实施例，不仅弥补了传统机器学习方法在复杂性高的数据处理和非线性模式识别上的不足，而且通过融合多维度数据和先进的深度学习技术，显著提高了心脑血管疾病分类的准确性和个性化程度，能够在临床应用中发挥重要作用。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例的心脑血管疾病分类模型的构建方法的一示例的流程图；

图2示出了根据本申请实施例的心脑血管疾病分类模型的一示例的结构框图；

图3示出了根据图1中的步骤S140的一示例的操作流程图；

图4示出了根据图1中的步骤S110的一示例的操作流程图；

图5示出了根据本申请实施例的心脑血管疾病分类模型的构建装置的一示例的结构框图；

图6是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需说明的是，目前，心脑血管疾病的诊断主要依赖于医生对心电图（ECG）、血压、脉搏波形等生理信号的分析。然而，现有的分类方法存在以下几个方面的局限：

1）数据处理复杂性。心脑血管疾病的诊断涉及到大量的生理数据和临床信息，而这些数据的处理和分析极其复杂，需要强大的数据处理能力和专业知识。

2）有限的模式识别能力。传统机器学习方法如SVM、随机森林等在处理线性或简单非线性问题时效果显著，但面对复杂的、非线性的生理信号时，其性能往往受限。

3）大规模数据集处理能力不足。随着医疗技术的进步，可用于心脑血管疾病诊断的数据量急剧增加，传统方法在处理大规模数据集时效率低下，难以实现快速准确的诊断。

4）个体差异处理问题。心脑血管疾病患者之间存在显著的个体差异。当前的诊断模型往往忽略了这些差异，导致诊断结果的泛化能力有限。

5）动态数据分析不足。心脑血管疾病的发展是一个动态过程，但大多数现有模型无法有效地处理和分析随时间变化的数据，如连续监测的心电图数据。

鉴于上述挑战，开发一种更先进、更高效的心脑血管疾病分类模型迫在眉睫。

图1示出了根据本申请实施例的心脑血管疾病分类模型的构建方法的一示例的流程图。

关于本申请实施例方法的执行主体，其可以是任意具有处理计算能力的电子设备，例如电脑、手机、服务器等，以构建一种全新的人工智能诊断模型，其能够有效处理和分析大规模、复杂的生理信号数据，具有更强的非线性模式识别能力，并能够适应个体差异和动态变化，从而提供更客观准确且个性化的分析结果，以供临床医疗人员参考。

如图1所示，在步骤S110中，统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集。

这里，生理特征参数包含ECG数据、血压数据、患者基本信息和血液生化指标。此外，患者基本信息包含患者年龄和患者性别，以及患者疾病标签为心脑血管疾病类别。

示例性地，在患者授权数据访问的情况下，通过调用患者数据库以采集多名患者的生理特征参数和相应的心脑血管疾病类别，每名患者的日志数据分别用于制作相应的样本数据，例如根据患者的生理特征参数确定样本数据中的样本信息，根据患者的心脑血管疾病类别确定样本数据中的样本标签。

应理解的是，以上生理特征参数的类型仅用作示例，并还可以使用更多未于此描述的其他类型的生理特征参数，例如脉搏信号等。进一步地，还可以对输入数据进行预处理，例如去除噪声和缺失数据插值等，以保障输入数据满足模型处理要求。此外，在构建数据集时还可以使用各种方式对原始数据进行增强或衍生，以提高数据集的多样性，更多细节将在下文中结合其他部分展开。

在步骤S120中，按照预设比例，将样本数据集划分为训练样本子集、验证样本子集和测试样本子集。

示例性地，按照70%、15%、15%的比例划分训练样本子集、验证样本子集和测试样本子集。

在步骤S130中，基于训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化心脑血管疾病分类模型的超参数，模型性能指标至少包含模型预测准确率。

具体地，利用训练样本子集对心脑血管疾病分类模型训练，例如划分多个批次，并将每个批次（batch）的数据通过模型来计算输出和损失。通过使用反向传播算法和优化器更新模型的权重，在每个epoch后，使用验证样本子集评估模型性能，评估模型的准确率、召回率、F1分数等指标，进而调整超参数如学习率、正则化等以防止过拟合。

在步骤S140中，基于测试样本子集，评估心脑血管疾病分类模型是否满足预设的模型收敛条件。

在一些实施方式中，通过使用独立的测试样本子集对心脑血管疾病分类模型进行最终评估，分析错误分类的案例，查找模型的不足之处。继而，根据测试结果调整模型结构或参数，重复训练和验证步骤直至满足模型收敛条件。

这里，模型收敛条件可以是多样化的，并可以根据实际需求而进行调整，例如损失函数的收敛、模型参数的收敛以及梯度的收敛，等等。

结合本申请实施例的示例，假设有一个包含1000名患者数据的心脑血管疾病数据集。每个患者的数据包括心电图、血压读数、血液生化指标和基本信息。这些数据经过预处理和标注，然后划分为训练集、验证集和测试集。在模型训练阶段，使用训练集进行分类预测。训练过程中监控验证集上的性能指标，并进行必要的调整。最后，在测试集上对模型进行最终评估。假设模型在测试集上达到了90%的准确率，这表明模型能够有效地对心脑血管疾病进行分类。针对测试中发现的问题，对模型结构或训练过程进行进一步调整，以提高其性能和准确性。

图2示出了根据本申请实施例的心脑血管疾病分类模型的一示例的结构框图。

如图2所示，心脑血管疾病分类模型200包含级联的数据输入层210、特征提取模块220、数据融合分析层230和分类预测层240。

基于数据输入层210，对输入样本进行预处理操作。这里，预处理操作包含针对输入样本中的ECG数据、血压数据和血液生化指标进行归一标准化，进而对经归一化的ECG数据进行小波变换和傅立叶变换，以获得ECG数据所对应的多尺度信息。

由此，确保了输入多维度数据的一致性和可比性，为后续的深度学习处理提供了良好的基础。

特征提取模块220包含增强CNN（卷积神经网络）层221、VAE（变分自编码器）层222、时序数据处理层223。基于增强CNN层221，并行处理输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示。基于VAE层222从输入样本中的血液生化指标中提取关键特征，并生成目标潜在变量。基于时序数据处理层223，采用多头自注意力机制处理所述输入样本的ECG数据，以提取时间序列中的关键特征表示。

在本申请实施例的第一方面，通过多尺度心电图特征的提取有助于捕捉复杂的生理信号模式。

更具体地，增强CNN层221的结构如下：

，

其中，表示原始ECG数据，/>表示小波变换后的心电图，表示傅立叶变换后的心电图，/>是时间序列的长度，/>和/>分别是心电图和血压的特征维数；/>、/>和/>分别表示相应的尺度特征表示，以及/>和/>分别表示相应卷积层的权重和偏置。

由此，针对心脑血管疾病分类场景中的关键数据维度“ECG数据”进行多尺度ECG分析。对ECG数据进行小波变换和傅立叶变换，使模型能够捕捉到原始ECG信号中可能遗漏的细节和频域特征，从而提高对复杂心电图模式的识别能力，有利于扩展模型的应用范围和精确度。另外，针对ECG数据的时间序列特点，通过多头自注意力机制，多头自注意力机制使模型能够从多个角度分析心电图，提高了对复杂心脏活动模式的识别能力。

在本申请实施例的第二方面，利用多头自注意力机制，模型可以关注ECG数据中的关键时刻和模式，如心率异常时刻的特征信息等，能够更有效地提取和识别心电图中的非线性模式。

更具体地，基于多头自注意力机制的模型层结构为：

，

在本申请实施例的第三方面，通过VAE层提取的深层特征有助于理解血液生化指标的内在联系，学习对疾病分类结果有影响的关键血液生化指标，能够进一步揭示与心脑血管疾病相关的复杂生物标志物模式。由此，提高了心脑血管疾病分类模型的非线性识别能力。

更具体地，VAE层的模型层结构为：

VAE层的编码器结构为：，

VAE层的解码器结构为：，

其中，表示血液生化指标，/>表示血液生化指标的维数，/>和/>是编码器网络产生的均值和方差，/>表示潜在变量，以及/>和/>是VAE层的网络参数。

具体地，在 VAE 中，代表的是潜在空间（latent space）中的一个点，这个概念是VAE的核心，它是 VAE 试图学习的数据的压缩表示。具体地，在初始阶段，潜在变量/>被视为随机变量，其分布是由 VAE 的编码器部分参数化的。编码器学习输入数据的分布，并试图将这些数据映射到潜在空间的分布上。在 VAE 的公式中，编码器输出两个参数：均值和方差 />，其定义了潜在变量/>的分布。通过这种参数化表示方式，VAE能够捕捉输入数据的内在结构。进一步地，为了能够通过梯度下降训练 VAE 并反向传播误差，VAE 使用了所谓的“重参数化技巧”。这意味着，从编码器得到的/>实际上是通过从标准正态分布中采样一个噪声项τ并使用 />来计算的，使得 VAE 能够通过随机梯度下降进行有效训练。由此，通过VAE从血液生化指标中自动提取关键特征，并将这些特征表示为最终的目标潜在变量/>，有助于捕获输入数据的关键特性并用于后续的疾病分类。

基于数据融合分析层230将增强CNN层221、VAE层222和时序数据处理层223的输出进行合并，以确定相应的综合特征表示。

在一些实施方式中，数据融合分析层230为各个输出数据进行加权计算，以得到相应的综合特征表示。示例性地，数据融合分析层230可以采用GRU单元，以实现动态融合来自不同源的特征，根据当前输入数据的内容自适应调整融合权重。由此，通过动态融合机制确保了模型能够有效地结合各类特征，提高了模型的预测准确性和稳健性。

具体地，数据融合分析层230的结构为：

，

其中，GRU表示门控循环单元，用于动态决定不同来源数据的融合权重；以及表示综合特征表示。

由此，在特征融合时，不仅仅是简单地拼接，而是使用GRU的门控机制来动态决定不同来源数据（即，）的融合权重，以便更有效地结合各种类型的信息，实现基于上下文感知的特征融合。

基于分类预测层240，根据输入样本中的患者基本信息更新综合特征表示，以根据更新后的综合特征表示确定所述输入样本所对应的标签预测结果，分类预测层240采用条件全连接层。

在一些实施方式中，根据患者的个人基本信息（如年龄、性别），条件全连接层对综合特征表示进行加权调整，以得到最终的分类预测。由此，通过加入个人基本信息的预测校准机制，使得模型能够根据不同患者的个体差异提供更精确的分类结果，增强了模型在实际应用中的适用性。

更具体的，分类预测层的结构为：

，

由此，通过在全连接层中引入条件机制，能够根据患者的年龄、性别等附加信息，动态调整全连接层中的权重，实现模型根据患者的具体情况进行个性化的预测。

结合本申请实施例的示例对利用心脑血管疾病分类模型来预测患者生理数据所应的心脑血管疾病类别的细节进行展开：

假设一名患者（45岁、男性）接受心脑血管疾病检测。提供了其心电图数据、血压读数和血液生化指标。心脑血管疾病分类模型首先处理这些数据，其中心电图数据经过多尺度变换和CNN层的处理，提取了心率变异性等关键特征。同时，VAE从血液生化指标中提取了潜在的健康风险因素。接着，多头自注意力机制分析了心电图中的重要时序模式，如心律失常的迹象。进而，通过GRU单元将所有的这些特征进行动态融合。最后，考虑了患者的年龄和性别，全连接层对患者是否有心脑血管疾病以及可能的疾病类型进行了精确分类。示例性地，假设在模型进行数据处理的过程中识别到该患者有心律不齐和轻微高血压的风险，结合其年龄和性别，模型进一步预测了冠心病的可能性。因此，通过人工诊断模型所输出的结果，能够辅助医生快速输出精准诊断结果，并为患者提供更有针对性的医疗建议。

需说明的是，通过本申请实施例的心脑血管疾病分类模型，不仅能够实现针对常见的心脑血管疾病（例如，心律失常、心肌梗死和高血压）的预测分类，还能够实现对罕见的心脑血管疾病（例如，冠状动脉疾病和室性心动过速）的预测分类。

为了应对罕见心脑血管疾病的样本数量过少而导致模型可能无法充分学习相关疾病的样本特征信息的问题，本申请实施例还进一步提出了对心脑血管疾病分类模型的相关改进方案。

具体地，需说明的是，心脑血管疾病分类往往涉及多种疾病类型，每种类型的发生频率和严重程度可能不同。在这种情况下，传统的焦点损失函数可能不足以处理类别不平衡和不同类别重要性的问题。因此，提出“加权多类焦点损失”，该损失函数不仅考虑了样本难度，还考虑了不同类别的重要性。

在本申请实施例中，心脑血管疾病分类模型采用加权多类焦点损失作为模型损失函数，所述模型损失函数通过以下方式表示：

，

其中，模型预测输出，/>是批量大小，/>表示心脑血管疾病的类别总数，以及/>表示模型预测样本/>属于类别/>的概率；/>表示心脑血管疾病类别/>的权重；/>表示焦点参数；/>表示样本/>针对心脑血管疾病类别/>的标签值，例如如果样本/>真实属于类别/>则/>为1，否则为0。

需说明的是，权重可以根据业务场景进行配置，具体地，可以为罕见或更重要的心脑血管疾病类别赋予更高的权重。例如，如果某一罕见疾病类型对患者的健康影响较大，即使它在数据集中出现频率较低，也应给予更高的权重。此外，通过焦点参数/>负责调节模型对不同难度样本的关注程度，在考虑了类别权重的基础上进行的，从而帮助模型更有效地学习那些不仅难以分类，且重要性高的类别。

结合本申请实施例的业务应用场景来说，在心脑血管疾病分类的实际应用中，如果某些类型的心脑血管疾病（如冠状动脉疾病）比其他类型（如高血压）更少见，但对患者的健康影响更为严重。通过使用如本申请实施例所提供的增强型焦点损失函数，可以为这些罕见但严重的疾病类型设置更高的权重，确保模型在训练过程中更加关注于正确识别这些疾病类型，从而在实际应用中提供更准确、更全面的诊断支持。

图3示出了根据图1中的步骤S140的一示例的操作流程图。这里，模型收敛条件是通过损失阈值、整体准确率阈值/>和关键类别准确率阈值/>来综合确定的。

如图3所示，在步骤S310中，当心脑血管疾病分类模型的测试损失低于，并且其整体准确率超过/>时，确定心脑血管疾病分类模型已初步收敛。

在步骤S320中，确定针对预设的关键心脑血管疾病类别的识别准确率是否超过。

在步骤S330中，当超过时，确定心脑血管疾病分类模型满足所述模型收敛条件。

另一方面，在未超过时，则确定心脑血管疾病分类模型未收敛，并需要继续进行迭代训练或对模型超参数进行调整设置。

需说明的是，关键心脑血管疾病类别可以是根据业务需求而进行定义或设置的，例如，针对特别关注罕见但严重的疾病类型特别设定相应的识别准确率阈值。由此，心脑血管疾病分类模型必须在这些关键类别上达到较高的准确率，才能被视为收敛。不仅基于传统的损失降低和准确率提高，还综合考虑了医疗领域对于特定罕见但严重的疾病类别的敏感性和重要性。

进一步地，针对关键心脑血管疾病类别的补充训练过程可以采用增强型早停（Early Stopping）策略，即如果在连续个epoch中，关键类别的准确率没有提升，则停止训练。

具体地，如果，则停止继续进行迭代操作，其中/>为预设的正数，且用于确定准确率的变化是否足够显著。

通过本申请实施例，强调关键类别的准确率，确保模型在医学上最重要和最危险的疾病类型上具有较高的诊断准确性。此外，结合整体损失和准确率的阈值，以及早停策略，可以有效防止模型过拟合，确保模型在未见数据上的泛化能力，能有效防止模型过拟合。另外，通过对关键类别设置特定的准确率阈值，模型训练过程中会更加关注这些类别，从而提高模型在实际医疗应用中的价值。

图4示出了根据图1中的步骤S110的一示例的操作流程图。

需说明的是，ECG数据包含关于心脏电生理活动的丰富信息，可以反映多种心脑血管疾病的特征。此外，心电图的解读需要识别复杂的波形模式，这对于机器学习模型来说是一个较大的挑战。另外，对于某些罕见心脏病症在心电图上的表现较为特殊，且在现实世界中罕见，因此通过合成ECG数据增强训练集在这方面特别有价值。

如图4所示，在步骤S410中，获取多名患者的心电图采样信息，该心电图采样信息包含ECG数据和相应的患者疾病标签。

在步骤S420中，利用条件式生成对抗网络来生成合成对应至少一个条件标签的ECG合成数据，每一条件标签分别对应于相应的心脑血管疾病类别。

需说明的是，条件标签通常是离散的，对应于各种心脑血管疾病类型，如“冠心病”、“心肌梗死”、“室性心动过速”等。在条件式生成对抗网络中，这些条件标签被编码为独热编码（One-Hot Encoding）或嵌入向量（Embedding），以便与cGAN的输入（噪声向量）结合。

在步骤S430中，基于各个具有条件标签的ECG合成数据以及具有相应的患者疾病标签的所述生理特征参数，构建样本数据集。

通过本申请实施例，采用条件式生成对抗网络（Conditional GenerativeAdversarial Networks, cGANs）来生成更多样化的心电图(ECG)数据，由此不仅能够增加数据集的多样性，特别是对于罕见疾病的案例，还可以帮助模型更好地泛化并提高其鲁棒性。

更具体地，针对cGANs的构建过程的细节包含cGANs的结构设计和训练过程。在结构上，cGANs包含生成器网络和判别器网络。生成器网络的输入是随机噪声向量和条件标签（如疾病类型），输出是生成的心电图数据。判别器网络的任务是区分生成的心电图数据和真实心电图数据。在cGANs的训练过程中，采用基于条件约束的对抗训练。条件约束是指：在训练过程中使用条件标签，确保生成的数据符合特定的心脑血管疾病类别。在对抗训练过程中，以生成器网络生成的假数据和真实数据为输入，训练判别器网络进行真假分类，同时，训练生成器欺骗判别器，使其生成的数据尽可能接近真实数据。

结合本申请实施例的业务应用场景来说，在心脑血管疾病分类研究中，研究者发现某些罕见疾病（如特定类型的心律失常，例如，室性心动过速、心房颤动的罕见变体等）的案例非常有限。为了改善模型在这些罕见疾病上的性能，研究者使用cGANs生成了大量这类心律失常的合成心电图数据。由此，这些合成数据在视觉和统计特征上与真实心电图非常相似，且包含了疾病特定的信号模式。

需补充说明的是，针对数据集中的血液生化指标和血压数据，其数据通常相对稳定，罕见变异不像心电图那样频繁。此外，相比于心电图，合成血液生化数据或血压数据的复杂性要低，因为这些数据通常是数值型的，而非时间序列数据。因此，血液生化指标和血压数据可以采用各种其他方式进行增强，具体采用诸如随机扰动、数据插值或数据重采样等常规增强方式实现生成衍生数据，在此并不进行限制。

下面对本申请提供的心脑血管疾病分类模型的构建装置进行描述，下文描述的心脑血管疾病分类模型的构建装置与上文描述的心脑血管疾病分类模型的构建方法可相互对应参照。

图5示出了根据本申请实施例的心脑血管疾病分类模型的构建装置的一示例的结构框图。

如图5所示，一种心脑血管疾病分类模型的构建装置500，包括数据集构建单元510、子集划分单元520、模型训练单元530和模型测试单元540。

数据集构建单元510用于统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集；所述生理特征参数包含ECG数据、血压数据、患者基本信息和血液生化指标；所述患者基本信息包含患者年龄和患者性别；所述患者疾病标签为心脑血管疾病类别。

子集划分单元520用于按照预设比例，将所述样本数据集划分为训练样本子集、验证样本子集和测试样本子集。

模型训练单元530用于基于所述训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化所述心脑血管疾病分类模型的超参数；所述模型性能指标至少包含模型预测准确率。

模型测试单元540用于基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件。

其中，所述心脑血管疾病分类模型包含数据输入层、特征提取模块、数据融合分析层和分类预测层。

基于所述数据输入层，对输入样本进行预处理操作；所述预处理操作包含针对输入样本中的ECG数据、血压数据和血液生化指标进行归一标准化，进而对经归一化的ECG数据进行小波变换和傅立叶变换，以获得ECG数据所对应的多尺度信息。

基于所述特征提取模块中的增强CNN层，并行处理所述输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示；以及，基于所述特征提取模块中的VAE层从所述输入样本中的血液生化指标中提取关键特征，并生成目标潜在变量；以及，基于所述特征提取模块中的时序数据处理层，采用多头自注意力机制处理所述输入样本的ECG数据，以提取时间序列中的关键特征表示。

基于所述数据融合分析层将所述增强CNN层、所述VAE层和所述时序数据处理层的输出进行合并，以确定相应的综合特征表示。

基于所述分类预测层，根据所述输入样本中的患者基本信息更新所述综合特征表示，以根据更新后的综合特征表示确定所述输入样本所对应的标签预测结果；其中，所述分类预测层采用条件全连接层。

在一些实施例中，本申请实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备（包括但不限于计算机，服务器，或者网络设备等）读取并执行，以用于执行本申请上述心脑血管疾病分类模型的构建方法。

在一些实施例中，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述心脑血管疾病分类模型的构建方法。

在一些实施例中，本申请实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行心脑血管疾病分类模型的构建方法。

图6是本申请另一实施例提供的执行心脑血管疾病分类模型的构建方法的电子设备的硬件结构示意图，如图6所示，该设备包括：

一个或多个处理器610以及存储器620，图6中以一个处理器610为例。

执行心脑血管疾病分类模型的构建方法的设备还可以包括：输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的心脑血管疾病分类模型的构建方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例心脑血管疾病分类模型的构建方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的心脑血管疾病分类模型的构建方法。

上述产品可执行本申请实施例所提供的心脑血管疾病分类模型的构建方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种心脑血管疾病分类模型的构建方法，包括：

统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集；所述生理特征参数包含ECG数据、血压数据、患者基本信息和血液生化指标；所述患者基本信息包含患者年龄和患者性别；所述患者疾病标签为心脑血管疾病类别；

按照预设比例，将所述样本数据集划分为训练样本子集、验证样本子集和测试样本子集；

基于所述训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化所述心脑血管疾病分类模型的超参数；所述模型性能指标至少包含模型预测准确率；

基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件；

其中，所述心脑血管疾病分类模型包含数据输入层、特征提取模块、数据融合分析层和分类预测层；

基于所述数据输入层，对输入样本进行预处理操作；所述预处理操作包含针对输入样本中的ECG数据、血压数据和血液生化指标进行归一标准化，进而对经归一化的ECG数据进行小波变换和傅立叶变换，以获得ECG数据所对应的多尺度信息；

基于所述特征提取模块中的增强CNN层，并行处理所述输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示；以及，基于所述特征提取模块中的VAE层从所述输入样本中的血液生化指标中提取关键特征，并生成目标潜在变量；以及，基于所述特征提取模块中的时序数据处理层，采用多头自注意力机制处理所述输入样本的ECG数据，以提取时间序列中的关键特征表示；

基于所述数据融合分析层将所述增强CNN层、所述VAE层和所述时序数据处理层的输出进行合并，以确定相应的综合特征表示；

2.根据权利要求1所述的方法，其中，所述基于所述特征提取模块中的增强CNN层，并行处理所述输入样本中的ECG数据所对应的多尺度信息，以提取相应的尺度特征表示，包括：

，

其中，表示原始ECG数据，/>表示小波变换后的心电图，/>表示傅立叶变换后的心电图，/>是时间序列的长度，/>和/>分别是心电图和血压的特征维数；/>、/>和/>分别表示相应的尺度特征表示，以及/>和分别表示相应卷积层的权重和偏置；

VAE层的编码器结构为：，

VAE层的解码器结构为：，

，

3.根据权利要求2所述的方法，其中，所述数据融合分析层的结构为：

，

4.根据权利要求3所述的方法，其中，所述分类预测层的结构为：

，

其中，表示根据所述输入样本中的患者基本信息所确定的附加条件信息，/>和/>分别表示条件依赖的全连接层权重和偏置，以及/>表示标签预测结果。

5.根据权利要求4所述的方法，其中，所述心脑血管疾病类别包含以下中的任意一者：心律失常、心肌梗死、高血压、冠状动脉疾病和室性心动过速。

6.根据权利要求5所述的方法，其中，所述心脑血管疾病分类模型采用加权多类焦点损失作为模型损失函数，所述模型损失函数通过以下方式表示：

，

其中，模型预测输出，/>是批量大小，/>表示心脑血管疾病的类别总数，以及表示模型预测样本/>属于类别/>的概率；/>表示心脑血管疾病类别/>的权重；/>表示焦点参数；/>表示样本/>针对心脑血管疾病类别/>的标签值。

7.根据权利要求6所述的方法，其中，所述模型收敛条件是通过损失阈值、整体准确率阈值/>和关键类别准确率阈值/>来综合确定的；

其中，所述基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件，包括：

当所述心脑血管疾病分类模型的测试损失低于，并且其整体准确率超过/>时，确定所述心脑血管疾病分类模型已初步收敛；

确定针对预设的关键心脑血管疾病类别的识别准确率是否超过；

当超过时，确定所述心脑血管疾病分类模型满足所述模型收敛条件。

8.根据权利要求1所述的方法，其中，所述统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集，包括：

获取多名患者的心电图采样信息，所述心电图采样信息包含ECG数据和相应的患者疾病标签；

利用条件式生成对抗网络来生成合成对应至少一个条件标签的ECG合成数据；每一所述条件标签分别对应于相应的心脑血管疾病类别；

基于各个具有所述条件标签的ECG合成数据以及具有相应的患者疾病标签的所述生理特征参数，构建样本数据集。

9.一种心脑血管疾病分类模型的构建装置，包括：

数据集构建单元，用于统计多名患者的生理特征参数和相应的患者疾病标签，以构建样本数据集；所述生理特征参数包含ECG数据、血压数据、患者基本信息和血液生化指标；所述患者基本信息包含患者年龄和患者性别；所述患者疾病标签为心脑血管疾病类别；

子集划分单元，用于按照预设比例，将所述样本数据集划分为训练样本子集、验证样本子集和测试样本子集；

模型训练单元，用于基于所述训练样本子集对心脑血管疾病分类模型进行训练，并在验证样本子集上评估经训练的心脑血管疾病分类模型的模型性能指标，以调整优化所述心脑血管疾病分类模型的超参数；所述模型性能指标至少包含模型预测准确率；

模型测试单元，用于基于所述测试样本子集，评估所述心脑血管疾病分类模型是否满足预设的模型收敛条件；