CN115330670A

CN115330670A - 用于临床数据的同时分类和回归的方法和系统

Info

Publication number: CN115330670A
Application number: CN202210439077.3A
Authority: CN
Inventors: 王昕�; 尹游兵; 孔斌; 陆易; 郭新宇; 杨皓宇; 宋麒
Original assignee: Shenzhen Keya Medical Technology Corp
Current assignee: Shenzhen Keya Medical Technology Corp
Priority date: 2021-04-23
Filing date: 2022-04-22
Publication date: 2022-11-11
Also published as: US20220351374A1

Abstract

本发明公开了一种用于分析临床数据的方法和系统。所述方法包括：通过将神经网络应用于所述临床数据来提取第一特征信息；通过将回归模型应用于所提取的第一特征信息来预测疾病状况相关参数；基于所提取的第一特征信息和疾病状况相关参数，来生成第二特征信息；以及通过将分类模型应用于所述第二特征信息来预测疾病状况分类结果。该方法能够提高医生的预测准确度和诊断效率。

Description

用于临床数据的同时分类和回归的方法和系统

相关申请的交叉引用

本申请基于2021年4月23日提交的美国临时申请第63/178,923号并要求其优先权，该申请通过引用整体结合于此。

技术领域

本发明涉及利用人工智能的临床数据分析领域，特别涉及一种用于临床数据的同时分类和回归的方法和系统。

背景技术

利用机器学习方法来对临床数据进行检测、分析、分类等，能够辅助医生就癌症的风险分级、血管狭窄程度等进行诊断。现有技术中，一般是使用两个单独的模型来分别用于分类和回归，例如，单独利用回归模型来预测疾病状况的相关参数，单独利用分类模型来预测疾病状况的分类结果，两个模型独立执行，没有关联。

基于FFR的血液动力学特性是用以确定、评估动脉疾病患者的最佳治疗方式的重要指标。这些准确的血流特征诸如血流特征、血管狭窄度相关的结构特征比如血管半径、血流压力降、血流量等，可以提供给医生，由其据此对血管状况进行评估。例如大量的临床试验证明，FFR可以很好地指导冠状动脉狭窄及其他血管疾病的治疗。

现有的利用机器学习方法来评估血管狭窄状况是单独利用分类模型来预测FFR的评估得分，并分别单独利用回归模型来预测血管的狭窄级别等，没有考虑这两种预测之间的相关性，使得预测结果的准确度较低，预测性能较差。

发明内容

本发明实施例的目的在于提供一种用于临床数据的同时分类和回归的方法和系统，其利用回归模型和分类模型进行联合训练来预测疾病状况，使得预测的准确率更高。

为了解决上述技术问题，本发明实施例采用了如下技术方案。

根据本发明的第一方案，提供了一种用于分析临床数据的计算机实现的方法，所述方法包括：由处理器通过将神经网络应用于所述临床数据来提取第一特征信息；由所述处理器通过将回归模型应用于所提取的第一特征信息来预测疾病状况相关参数；由所述处理器基于所提取的第一特征信息和所述疾病状况相关参数来生成第二特征信息；以及由所述处理器通过将分类模型应用于所述第二特征信息来预测疾病状况分类结果。

根据本发明的第二方案，提供了一种用于分析临床数据的计算机实现的方法，所述方法包括：由处理器通过将神经网络应用于所述临床数据来提取第一特征信息；由所述处理器通过将分类模型应用于所提取的第一特征信息来预测疾病状况分类结果；由所述处理器将预测的疾病状况分类结果转换为独热表示，并将所述独热表示与所述第一特征信息融合，来生成第二特征信息；以及由所述处理器通过将回归模型应用于所述第二特征信息来预测疾病状况相关参数。

根据本发明的第三方案，提供了一种用于分析临床数据的系统，所述系统包括：接口，其配置为执行根据本发明的各个实施例的用于分析临床数据的计算机实现的方法。

本发明实施例的有益效果在于：该方法能够充分考虑疾病状况相关参数与疾病状况分类结果的高相关性，使得预测出的疾病状况分类结果或疾病状况相关参数的准确度更高，能够提高预测性能，使得预测结果更准确，以帮助提升医生的诊断效率。

附图说明

图1(a)示出根据本发明实施例的对临床数据同时进行分类和回归的方法的流程图；

图1(b)示出根据本发明一个实施例的图1(a)中对临床数据同时进行分类和回归的方法的示意图；

图2示出根据本发明实施例的用于对回归模型和分类模型进行联合训练的损失函数的示例1的惩罚项的曲线图；

图3(a)示出根据本发明另一实施例的对临床数据同时进行分类和回归的方法的流程图；

图3(b)根据本发明实施例的一个具体实施例的图3(a)中对临床数据同时进行分类和回归的方法的示意图；

图4示出根据本发明实施例的用于对回归模型和分类模型进行联合训练的损失函数的示例2的曲线图；

图5(a)示出本发明实施例的回归模型和分类模型的离线训练的流程图；

图5(b)示出本发明实施例的在线对临床数据同时进行分类和回归分析的流程图；

图6是根据本发明实施例的对临床数据同时进行分类和回归的系统的框架示意图。

具体实施方式

为使本领域技术人员更好地理解本发明，下面参照附图对本发明的实施例进行详细说明，但不作为对本发明的限定。

本发明提出了一种对临床数据进行分类和回归分析的方法。图1(a)示出了根据本发明实施例的对临床数据同时进行分类和回归的方法的流程图。图1(b)示出根据本发明一个实施例的图1(a)中对临床数据同时进行分类和回归的方法的示意图。如图1(a)所示，该方法始于步骤S101，通过将神经网络应用于临床数据来提取第一特征信息。

神经网络算法是一种模仿大脑神经网络行为，进行分布式并行信息处理的算法数学模型，这种网络依靠系统的复杂程度，通过调整内部神经元之间相互连接的关系，从而达到处理信息的目的。利用训练好的神经网络来对获得的临床数据进行处理，能够快速准确地提取出与疾病状况相关的第一特征信息。

需要说明的是，本发明中的神经网络可以为一种神经网络或由几种神经网络组合而成，例如，可以为卷积神经网络(CNN)、多层感知器(MLP)、递归神经网络(RNN)、递归皮层网络(RCN)、等中的一种或几种组合而成，只要所采用的神经网络能够基于待分析的临床数据来获得与疾病状况相关的第一特征信息即可，本发明对此不作具体限定。在一些实施例中，RNN可以包括LSTM(长短期记忆神经网络)、GRU(门控递归单元)、CGRU(卷积门控递归单元)、CLSTM(卷积长短期记忆神经网络)等。

可以理解的是，本发明中的待分析的临床数据可以为利用各种医疗设备获得的生理信号，例如，脑电信号(EEG)、心电信号(ECG)、血氧信号(HbO2)等，也可以为利用各种医疗设备获得的医学图像，例如，CT图像，MRI图像、超声图像等，包括但不限于含有解剖结构的医学图像，例如，含有血管的MRI图像，脑结构MRI图像等，只要能够通过对临床数据进行分析获得疾病状况的相关信息即可，本发明对此不作具体限定。

在S102，方法包括通过将回归模型应用于所提取的第一特征信息来预测疾病状况相关参数。可以理解的是，回归模型可以采用各种方式实现回归来预测作为连续值的疾病状况相关参数。例如，回归模型可以采用监督学习算法来实现，例如但不限于有逻辑回归(Logistic Regression)，支持向量机(SVM)、K最近邻算法(K-NearestNeighbor)、线性回归(LR，Linear Regreesion)、神经网络等。又例如，回归模型也可以采用半监督学习算法来实现，例如但不限于纯半监督学习算法、直推学习(transductive learning)算法等。只要该回归模型能够预测作为连续值的疾病状况相关参数即可，本发明对此不作具体限定。

在S103，基于所提取的第一特征信息和疾病状况相关参数，来生成第二特征信息。

在S104，方法包括通过将分类模型应用于所述第二特征信息来预测疾病状况分类结果。例如，分类模型可以采用监督学习算法来实现，例如但不限于有决策树、朴素贝叶斯分类器、逻辑回归(Logistic Regression)，支持向量机(SVM)、K最近邻算法(K-NearestNeighbor)、线性回归(LR，Linear Regreesion)、神经网络等。又例如，分类模型也可以采用半监督学习算法来实现，例如但不限于纯半监督学习算法、直推学习(transductive learning)算法等。又例如，分类模型也可以采用非监督学习算法来实现，例如但不限于聚类算法、主成分分析(PCA)、SVD矩阵分解、独立成分分析(ICA)、Apriori算法以及K-均值算法(K-Means)、稀疏自编码(sparse auto-encoder)等等，在此不赘述。

具体说来，疾病状况的相关参数与疾病状况分类具有较高的相关性，在疾病状况的相关参数发生异常时，则该患者具有很高的可能性患有该类疾病，并在某些情况下可以根据疾病状况的相关参数的数值范围来确定患病程度，以结节为例，结节的大小、形态边界、血流钙化等特征与结节的分级相关，根据结节的分级可以判断结节是否有恶性病变的可能，或者已经发生恶性病变。因此，充分考虑疾病状况的相关参数与疾病状况分类结果的高相关性来预测疾病状况，能够获得更准确的预测结果。

因此，在S103中，基于所提取的第一特征信息和疾病状况相关参数来生成第二特征信息，使得第二特征信息中除了隐式的神经网络提取的第一特征信息，还携带有回归模型预测出的显式的疾病状况相关参数的信息，将其作为S104中的分类模型的输入，使得该分类模型基于该第二特征信息来预测疾病状况分类结果时，能够考虑到疾病状况的相关参数与疾病状况分类结果的高相关性，如此，能够获得准确度更高的分类结果。进而，一并获得包括包括作为连续值的疾病状况相关参数和疾病状况分类结果两者的预测结果，以帮助提升医生的诊断效率。

需要说明的是，本发明的下文中以含有血管的医学图像为例来说明本发明的技术方案，但本发明不限于此。

以含有血管的医学图像为例(如图1(b)所示)，第一特征信息103可以为基于该医学图像获得的血流和几何形状相关的特征信息等，只要能够用于预测血管的状况即可，本发明对此不作具体限定。

以使用RNN作为神经网络102为例，可以将血管路径上各点的图像块直接作为神经网络102的输入101，并提取血管路径上各点的特征图(feature map)作为第一特征信息103。

然后，可以基于神经网络102提取出的血管路径上各点的特征图作为第一特征信息103，并利用回归模型104来预测作为连续值的疾病状况相关参数，作为回归输出105。对于血管来说，该疾病状况相关参数例如可以为血管的FFR的评估得分，研究表明，基于FFR的血液动力学特性是用以确定、评估动脉疾病患者的最佳治疗方式的重要指标，将其提供给医生，医生可以据此对血管状况进行评估。

之后，基于所提取的血管路径上各点的特征图(作为第一特征信息103的示例)和血管的FFR的评估得分(作为回归输出105的示例)，来生成第二特征信息。基于第二特征信息，可以利用分类模型106来预测血管的狭窄级别，作为分类输出107。由于第二特征信息中在包含了与血管的狭窄级别相关的血管路径上各点的特征图的同时，还携带了与血管的狭窄级别具有高相关性的血管的FFR的评估得分信息，使得分类模型106的预测出的结果更准确。

本发明的实施例中的对临床数据进行分类和回归分析的方法，充分考虑了疾病状况相关参数与疾病状况分类结果的高相关性，对回归模型104预测出的作为连续值的疾病状况相关参数与利用神经网络102提取的第一特征信息103进行联合(或融合)，据此生成第二特征信息作为分类模型106的输入，使得分类模型106预测出的疾病状况分类结果的准确度更高，能够帮助提升医生的诊断效率。

在一些实施例中，所述临床数据包括含有血管的医学图像，疾病状况相关参数包括血管的FFR的评估得分和血管的斑块易损风险得分的至少一个，疾病状况分类结果包括血管的狭窄级别和斑块易损级别中的对应一个。对于评估血管疾病的状况来说，大量的临床试验证明，血管的FFR的评估得分可以很好地指导冠状动脉狭窄及其他血管疾病的治疗，例如，在FFR值大于0.8时，通常选择药物治疗，如果FFR值小于或等于0.8则需要考虑采用介入治疗方法。此外，在血管类疾病中，相当比例的血管类疾病由血管壁上的斑块积聚引起，血管的斑块破裂时，患者可能患上急性冠状动脉综合症，甚或更严重的心脏病发作(心肌梗塞)，因此预测血管的斑块易损风险得分对于诊断分析血管类疾病来说也至关重要。对于含有血管的医学图像，预测血管的FFR的评估得分和/或血管的斑块易损风险得分作为评估血管疾病状况的相关参数，并预测血管的狭窄级别和/或斑块易损级别，能够帮助医生更准确地分析血管疾病状况，提高诊断效率。

在一些实施例中，血管的狭窄级别包括三级，第一级为无狭窄，第二级为狭窄不显著，第三级为狭窄显著；和/或血管的斑块易损级别包括三级，第一级为不易损，第二级为易损低风险，第三级为易损高风险。具体地，在临床上，针对血管的不同狭窄级别和/或血管的不同斑块易损级别需要采取不同的治疗方案，例如，在血管狭窄显著时需要采用植入血管支架来扩张血管，而在斑块易损级别为不易损或易损低风险时，采用药物维持斑块的当前状态即可。利用分类模型来准确地预测出血管的狭窄级别和/或斑块的易损级别，能够帮助医生更快的确定治疗方案，提高工作效率。

可以理解的是，用于确定血管的狭窄级别和/或斑块易损级别的参数阈值可以事先固定设置好，也可以由医生自行设定，该参数阈值可以基于人群样本来确定，也可以根据患者的自身的血管状况来进行个性化设置，以实现更精确的评估和诊断。

在一些实施例中，回归模型和分类模型可以采用例如学习网络来实现，并可以利用损失函数进行联合训练。损失函数包括回归损失项和惩罚项，惩罚项被定义为惩罚回归模型的回归预测值与回归地面真值属于不同的疾病状况分类结果的情况。由此，损失函数无需分别计算回归损失和分类损失并求和，而是以回归损失为基础兼顾回归预测值的分类偏差，从而简化了损失函数的计算同时确保了对于回归和分类两个任务的联合训练效果。

例如，用于联合训练的损失函数(也称为联合损失函数JL)可利用公式(1)来确定：

JL＝h*回归损失+(1-h)*惩罚损失公式(1)

其中，回归损失表示回归损失项，而惩罚损失则表示惩罚项，h为两种损失(回归损失和惩罚损失的权重)。

可以理解的是，本发明中的分类模型和回归模型可以基于深度学习模型来构建，通过深度学习模型能够有效的基于含有血管的医学图像来确定血管疾病状况的分类结果，通过对深度学习模型的训练，能够有效提高模型的识别效率。

构建好分类模型和回归模型后，可以预先对各个模型进行训练，例如可以将带有标签的含有血管的医学图像作为训练集，训练的方式可以根据实际需要确定。在训练过程中，可以利用损失函数来对分类模型和回归模型进行联合训练，来共同调整学习网络的参数。

在一些实施例中，可以利用基于回归模型兼顾回归预测结果的分类偏差的损失函数，作为联合损失函数，来联合调整回归模型和分类模型的参数。如此，可以经由联合训练，一并获得在回归和分类预测任务上综合表现更好的回归模型和分类模型。在另一些实施例中，用于提取第一特征信息的神经网络也可以利用该损失函数，连同回归模型和分类模型一起进行联合参数调整，本发明对此不作具体限定。

具体地，以回归模型预测的疾病状况相关参数为血管的FFR的评估得分，分类模型预测的疾病状况分类结果为血管的狭窄级别为例，在利用训练样本集对回归模型进行训练的过程中，可能会出现回归模型输出的回归预测值与样本的回归地面真值分别属于不同的血管狭窄级别的情况，这种情况下需要对学习模型(也就是回归模型和分类模型两者)当前阶段的参数进行惩罚，以获得预测准确度更高的模型。例如，回归模型预测的血管的FFR的评估得分为0.9，理论上该血管的狭窄程度不属于狭窄显著这一类别，而样本的回归地面真值为0.5，该血管的狭窄程度应当属于狭窄显著这一类别，显然，回归模型输出的回归预测值与回归地面真值对应显著不同的两种分类结果，说明回归预测值不够准确，需要对模型进行惩罚来对模型的参数进行优化。

在一些实施例中，惩罚项可以设定为一个固定值，也可以根据实际预测结果来确定，例如，可以基于回归预测值与回归地面真值的偏离度来确定。

在一些实施例中，惩罚回归模型的回归预测值与回归地面真值属于不同的疾病状况分类结果的情况具体包括：在回归预测值与回归地面真值分布在用于疾病状况分类的预设阈值的同侧的情况下，可以将惩罚项设置为零，也就是不对模型进行惩罚；在回归预测值与回归地面真值分布在预设阈值的异侧的情况下，使得惩罚项随着回归预测值与回归地面真值的偏离度的增加而增大。

具体说来，预设阈值可以对应于疾病状况的分类。例如，结节的大小与结节的分类相关，预设阈值则可以为结节的尺寸范围。又例如，血管的FFR评估得分与血管的狭窄级别相关，预设阈值则可以为血管的FFR评估得分值。所述预设阈值作为疾病状况分类结果的分界，低于预设阈值的一侧的预测值属于第一分类，而高于预设阈值的另一侧的预测值则属于不同于第一分类的第二分类。根据回归预测值与回归地面真值相对用于疾病状况分类的预设阈值的分布，可以确定回归预测值与回归地面真值分别对应的疾病状况的分类是否近似或相同，在近似或相同的情况下，说明回归预测值在分类任务上的表现较好从而准确度较高，可以不对模型进行惩罚。而在回归预测值与回归地面真值分布在预设阈值的异侧的情况下时，说明回归预测值与回归地面真值分别对应于不同的疾病状况分类，在分类任务上的表现较差进而准确度较差，则需要对模型进行惩罚。优选地，惩罚项可以设置为随着回归预测值与回归地面真值的偏离度的增加而增大，偏离度越大，则说明回归预测值与回归地面真值两者对应的疾病状况分类差距越大，预测结果的准确度越低，将惩罚项设置为随着偏离度的增加而增大能够实现更好地训练效果，进而获得更准确的预测结果。

在一些实施例中，惩罚项为阈值正则化损失，且利用公式(2)来表示：

其中，P表示回归预测值，t表示预设阈值，GT_R表示回归地面真值，L表示惩罚项，如图2所示。

在一个具体实施例中，回归模型预测的是血管的FFR的评估得分，FFR的评估得分范围为0～1，研究表明，在FFR的评估得分大于0.8时，说明血管的状况较好，无需进行介入治疗，在FFR的评估得分小于0.8时，说明血管狭窄显著，需要对血管采用介入治疗，该实施例中，预设阈值t可以设置为0.8，在

时，说明回归模型预测的血管的FFR的评估得分与回归地面真值分布在t的同侧，例如p＝0.85，GT_R＝0.9时，说明回归模型的预测准确度良好，可以不对模型进行惩罚，则惩罚项L＝0。

在一些实施例中，基于所提取的第一特征信息和疾病状况相关参数，来生成第二特征信息具体包括：通过将所提取的第一特征信息展开为一维向量并和疾病状况相关参数连接(如图1(b)所示)，来得到第二特征信息，使得第二特征信息同时包含了第一特征信息和回归模型预测的疾病状况相关参数，将其输入到分类模型中能够获得更准确地疾病状况分类结果。

图3(a)示出了根据本发明另一实施例的对临床数据同时进行分类和回归的方法。图3(b)根据本发明实施例的一个具体实施例的图3(a)中对临床数据同时进行分类和回归的方法的示意图如图3(a)所示，该方法始于步骤S301，通过将神经网络应用于临床数据来提取第一特征信息；在S302，通过将分类模型应用于所提取的第一特征信息来预测疾病状况分类结果；在S303，将预测的疾病状况分类结果转换为独热表示，并将所述独热表示与所述第一特征信息融合，来生成第二特征信息；在S304，通过将回归模型应用于所述第二特征信息来预测疾病状况相关参数。

具体说来，在利用神经网络提取到第一特征信息后，首先利用分类模型基于所提取的第一特征信息来预测疾病状况分类结果，然后利用回归模型，基于第一特征信息和分类模型预测的疾病状况分类结果来预测作为连续值的疾病状况相关参数。在此不再对待分析的临床数据、神经网络、回归模型以及分类模型等的说明进行赘述。

如图3(b)所示，以含有血管的医学图像作为输入301为例，第一特征信息303可以为特征图作为示例，首先利用训练好的神经网络302来提取特征图作为第一特征信息303。在采用RNN作为神经网络302的情况下，也可以采用沿着血管中心线的各点的图像块作为输入，来提取各点处的特征图作为所述第一特征信息303。基于所提取的第一特征信息303(例如但不限于特征图)，可以利用分类模型304来预测血管的斑块易损级别(即分类输出305)，通过对血管的斑块易损级别进行转换后，将其与第一特征信息303(例如但不限于特征图)进行融合作为回归模型306的输入，利用回归模型306来预测血管的斑块易损风险得分(即回归输出307)。

具体说来，分类模型306输出的预测结果一般为疾病状况的类别，例如预测结果为第一类、第二类等这类文本特征，需要将该预测结果进行转换以能够与第一特征信息303融合来生成第二特征信息。独热表示(如图3(b)所示)可以将文本特征信息转换为向量。因此，可以利用独热表示来将预测的疾病状况分类结果转换为能够与第一特征信息303融合的向量，例如，在预测结果的第一类转换为向量[1 0 0]，将预测结果的第二类转换为向量[0 10]。

上述对临床数据进行分类和回归分析的方法，充分考虑了疾病状况相关参数与疾病状况分类结果的高相关性，利用分类模型306来预测疾病状况分类结果，并将其与利用神经网络302提取的第一特征信息303进行融合来生成的第二特征信息来作为回归模型306的输入，使得回归模型306能够预测出的疾病状况相关参数的准确度更高，能够帮助提升医生的诊断效率。

在一些实施例中，临床数据包括含有血管的医学图像，疾病状况相关参数包括血管的FFR的评估得分和血管的斑块易损风险得分的至少一个，疾病状况分类结果包括血管的狭窄级别和斑块易损级别中的对应一个。对于评估血管疾病的状况来说，大量的临床试验证明，血管的FFR的评估得分可以很好地指导冠状动脉狭窄及其他血管疾病的治疗，例如，在FFR值大于0.8时，通常选择药物治疗，如果FFR值小于或等于0.8则需要考虑采用介入治疗方法。此外，在血管类疾病中，相当比例的血管类疾病由血管壁上的斑块积聚引起，血管的斑块破裂时，患者可能患上急性冠状动脉综合症，甚或更严重的心脏病发作(心肌梗塞)，因此预测血管的斑块易损风险得分对于诊断分析血管类疾病来说也至关重要。对于含有血管的医学图像，预测血管的FFR的评估得分和/或血管的斑块易损风险得分作为评估血管疾病状况的相关参数，并预测血管的狭窄级别和/或斑块易损级别，能够帮助医生更准确地分析血管疾病状况，提高诊断效率。

在一些实施例中，回归模型和分类模型可以采用例如学习网络来实现，并可以利用损失函数进行联合训练。具体地，损失函数包括利用惩罚权重加权的回归损失项，惩罚权重被定义为惩罚回归模型的回归预测值与回归地面真值属于不同的疾病状况分类结果的情况。如此，该损失函数基于回归损失项并考虑到回归预测值在分类任务上的表现对其进行调整，从而简化了损失函数的计算同时确保了对于回归和分类两个任务的联合训练效果。

在一些实施例中，惩罚回归模型的回归预测值与回归地面真值属于不同的疾病状况分类结果的情况具体包括：回归预测值与回归地面真值分布在用于疾病状况分类的预设阈值的同侧的情况下的惩罚权重小于回归预测值与回归地面真值分布在预设阈值的异侧的情况下的惩罚权重；和/或惩罚权重随着回归预测值与回归地面真值的偏离度的增加而增大。

具体说来，预设阈值可以对应于疾病状况的分类。例如，结节的大小与结节的分类相关，预设阈值则可以为结节的尺寸范围。又例如，血管的FFR评估得分与血管的狭窄级别相关，预设阈值则可以为血管的FFR评估得分值。所述预设阈值作为疾病状况分类结果的分界，低于预设阈值的一侧的预测值属于第一分类，而高于预设阈值的另一侧的预测值则属于不同于第一分类的第二分类。具体地，在回归预测值与回归地面真值分布在用于疾病状况分类的预设阈值的同侧的情况下，说明回归预测值与回归地面真值分别对应的疾病状况的分类近似或相同，回归预测值在分类任务上的表现较好从而准确度较高，相较于回归预测值与回归地面真值分布在用于疾病状况分类的预设阈值的异侧的情况，可以采用较小的惩罚权重来对模型进行惩罚。回归预测值与回归地面真值的偏离度越大，说明回归预测值与回归地面真值两者对应的疾病状况分类差距越大，在分类任务上的表现较差进而准确度较差，因此，在另一些实施例中，可以将惩罚权重设置为随着回归预测值与回归地面真值的偏离度的增加而增大，以增大对预测结果准确度较低的模型的惩罚，提高模型的预测精度。

在一些实施例中，损失函数利用公式(3)来表示：

其中，P表示回归预测值，t表示预设阈值，GT_R表示回归地面真值，JL表示损失函数。如图4所示，在X大于0的情况下，即在回归预测值与回归地面真值分布在用于疾病状况分类的预设阈值的异侧的情况下，回归预测值P与回归地面真值GT_R的偏离度越大，损失函数JL越大，在X小于0的情况下，即在回归预测值与回归地面真值分布在用于疾病状况分类的预设阈值的同侧的情况下，回归预测值P与回归地面真值GT_R的偏离度越小，损失函数JL越小。

以回归模型预测的是血管的FFR的评估得分为例，预设阈值t可以设置为0.8，X越大，说明回归模型预测的血管的FFR的评估得分与回归地面真值的偏离度越大，则损失函数JL越大，对模型的惩罚也更重。

在一些实施例中，将独热表示与第一特征信息融合，来生成第二特征信息具体包括：将独热表示展开为一维向量，将第一特征信息展开为一维向量，并将展开后的这两个一维向量连接，来得到第二特征信息。利用独热表示可以将预测的疾病状况分类结果展开为一维向量，使其能够与第一特征信息融合来生成携带有疾病状况分类结果的第二特征信息，进而提高回归模型的预测精度。

可以理解的是，对回归模型和分类模型进行训练的过程可以是离线的。图5(a)示出了本发明实施例的回归模型和分类模型的离线训练的流程图。如图5(a)所示，在S501，根据回归任务和分类任务的地面真值建立深度学习网络的训练数据集，利用带有地面真值的训练数据集来对所建立的回归模型和分类模型进行联合训练。在S502，通过使用基于梯度的优化方法来训练学习模型，直到目标函数收敛。图5(b)示出本发明实施例的在线对待分析的临床数据同时进行分类和回归分析的流程图。如图5(b)所示，首先在S511，获取待分析的临床数据，然后在S512，对获取的待分析的临床数据，利用图5(a)中训练好的回归模型和分类模型来预测疾病状况相关参数和分类结果。

通过将耗时且计算负担重的学习模型的训练过程安排为线下执行，可以针对特定患者和/或医生的需求为其训练好计算效率高的深度学习模型。当需要预测疾病状况时，可以直接利用现成的已经训练好的学习模型来进行预测，耗时较短，能够满足临床需求。

本发明还提供了一种对临床数据进行分类和回归分析的装置。图6示出了根据本发明实施例的对临床数据同时进行分类和回归的系统600。如图6所示，系统600包括：接口601，其配置为：接收待分析的临床数据；以及处理器602，其配置为：执行根据本发明中各个实施例所述的对临床数据进行分类和回归分析的方法。

具体说来，如图6所示，接口601可以接收外部的临床数据采集装置610发送的待分析临床数据，并将该待分析临床数据提供给处理器602。处理器602利用训练好的回归模型和分类模型来预测作为连续值的疾病状况相关参数和疾病状况分类结果。模型训练装置620用于构建和训练好回归模型和分类模型，并可以将训练好的回归模型和分类模型发送给系统600，使得系统600能够在接收到临床数据采集装置610经由接口601发送的待分析的临床数据时，利用训练好的回归模型和分类模型来预测作为连续值的疾病状况相关参数和疾病状况分类结果。

在一些实施例中，模型训练装置620可以另外包括输入和输出接口用以与训练数据库、网络和/或用户接口通信。用户界面可用于选择训练数据集、调整训练过程的一个或多个参数、选择或修改学习模型的框架、和/或手动或半自动地提供与图像序列相关联的预测结果用于训练。

在一些实施例中，获取的特征信息连同预测结果还可以作为新的训练样本存储到或者馈送给模型训练装置620，以便持续更新训练数据集，不断提高训练好的学习网络的性能。此外，可以采用存储的先前训练的预测模型的参数作为后期训练期间预测模型的初始参数，这可以大大加速训练过程。

在一些实施例中，如图6所示，所述系统600还可以包括存储器603、内存604和总线605，其中，接口601、存储器603、内存604和处理器602与总线605连接并且能够通过总线605相互通信。

可以理解的是，存储器603可以存储训练好的学习模型和数据，例如在执行计算机程序时生成的特征信息等。在一些实施例中，内存604可以存储计算机可执行指令，例如一个或多个数据处理程序，也可以从存储器603加载计算机可执行指令。在一些实施例中，可以从存储在存储器603中的数据片段中以不同的粒度来提取特征信息。在一些实施例中，可以从存储器603逐个或同时地读取特征信息并加载在内存604中。处理器602可以以通信的方式与内存604联系并且被配置为执行存储在其上的计算机可执行指令。

在一些实施例中，本发明中的回归模型和分类模型可以存储或加载到内存604中。可选地，学习网络可以存储在远程装置、单独的数据库、分布式装置中，并且可以由(一个或多个)数据处理程序使用。

在一些实施例中，模型训练装置620、临床数据采集装置610和系统600可以集成设置在同一计算机或处理设备内。

在一些实施例中，接口601可以包括但不限于网络适配器、电缆连接器、串行连接器、USB连接器、并行连接器、高速数据传输适配器等，例如光纤、USB 3.0、雷电接口(Thunderbolt)等，无线网络适配器，诸如WiFi适配器、电信(3G、4G/LTE等)适配器等。

在一些实施例中，接口601可以为网络接口，系统600可以通过接口601连接到网络，例如但不限于医院中的局域网或因特网。网络可以将系统600与诸如临床数据采集装置610、临床数据库和临床数据存储装置(未示出)的外部装置连接。临床数据采集装置610还可以采用各种不同的成像模态，例如但不限于计算机断层摄影(CT)、数字减影血管造影(DSA)、磁共振成像(MRI)、功能性MRI、动态对比增强-MRI、扩散MRI、螺旋CT、锥形束计算机断层摄影(CBCT)、正电子发射断层摄影(PET)、单光子发射计算断层摄影(SPECT)、X射线成像、光学断层摄影、荧光成像、超声成像、放射治疗射野成像等。

在一些实施例中，系统600可以是专用智能装置或通用智能装置。例如，系统600可以是为临床数据获取和临床数据处理任务定制的计算机，或者是放置在云中的服务器。例如，系统600可以集成到临床数据采集装置610中。

在一些实施例中，处理器602可以是包括一个或多个通用处理装置的处理装置，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等一个或更多个通用处理设备的处理设备。更具体地，处理器602可以是复杂指令集运算(CISC)微处理器、精简指令集运算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器602还可以是诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等一个或更多个专用处理设备。

在一些实施例中，处理器602可以是专用处理器，而不是通用处理器。处理器602可以包括一个或多个已知的处理装置，例如来自Intel^TM制造的Pentium^TM、Core^TM、Xeon^TM或Itanium系列的微处理器等。所公开的实施例不限于任何类型的处理器602或处理器电路，其以其他方式被配置为满足识别、分析、维护、生成和/或提供大量临床数据或操纵这样的临床数据以提供疾病状况预测的计算需求，或与所公开的实施例一致地操纵任何其他类型的数据的计算需求。另外，处理器602可以包括一个以上的处理器，例如，多核设计或多个处理器，每个处理器具有多核设计。

在一些实施例中，内存604可以存储一个或多个软件应用程序。存储在内存604中的软件应用程序可以包括，例如，用于普通计算机系统的操作系统(未示出)以及用于软控制装置的操作系统。此外，内存604可以存储整个软件应用程序或仅存储可由处理器602执行的软件应用程序的一部分。此外，内存604可以存储多个软件模块，用于实现与本公开一致的对临床数据进行分类和回归分析的方法的各个步骤或用于训练分类模型和回归模型的过程。

在一些实施例中，内存604还可以存储在执行计算机程序时生成/缓冲的数据，例如，临床数据，包括从(一个或多个)临床数据采集装置610、医学图像数据库、图像数据存储装置等发送的临床数据。在一些实施例中，内存604可以是非暂时性计算机可读介质，例如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、高速缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光存储部、盒式磁带或其他磁存储设备、或用于存储能够被计算机设备等访问的信息或指令的任何其他非暂时性介质。

在一些实施例中，模型训练装置620可以用由执行训练阶段的软件专门编程的硬件来实现。例如，模型训练装置620可以包括处理器和非暂时性计算机可读介质，处理器602可以通过执行存储在计算机可读介质中的训练过程的指令来进行训练。本发明提供的对临床数据进行分类和回归分析的系统600能够充分考虑疾病状况相关参数与疾病状况分类结果的高相关性，将回归模型和分类模型关联起来，能够提高学习模型的预测性能，使得预测结果更准确，以帮助提升医生的诊断效率。

本发明还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现根据公开中各个实施例所述的对临床数据进行分类和回归分析的方法。

可以理解的是，所述计算机可读存储介质诸如但并不限于只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、高速缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光存储部、盒式磁带或其他磁存储设备、或用于存储能够被计算机设备等访问的信息或指令的任何其他非暂时性介质。

本文描述了各种操作或功能，其可以被作为软件代码或指令实现或定义为软件代码或指令。这样的内容可以是可直接执行的(“对象”或“可执行”形式)源代码或差分代码(“增量”或“补丁”代码)。本文所述的实施例的软件实现可以经由其中存储有代码或指令的制品或者经由操作通信接口以经由通信接口发送数据的方法来提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算设备、电子系统等等)访问的形式存储信息的任何机制，诸如可记录/不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备、等等)。通信接口包括接合到硬连线、无线、光学等介质中的任何一个以与另一设备通信的任何机制，诸如存储器总线接口、处理器总线接口、互联网连接、磁盘控制器等。可以通过提供配置参数和/或发送信号来将通信接口配置成将该通信接口准备好以提供描述软件内容的数据信号。可以经由发送到通信接口的一个或更多个命令或信号来访问通信接口。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种用于分析临床数据的计算机实现的方法，其特征在于，包括：

由处理器通过将神经网络应用于所述临床数据来提取第一特征信息；

由所述处理器通过将回归模型应用于所提取的第一特征信息来预测疾病状况相关参数；

由所述处理器基于所提取的第一特征信息和所述疾病状况相关参数来生成第二特征信息；以及

由所述处理器通过将分类模型应用于所述第二特征信息来预测疾病状况分类结果。

2.根据权利要求1所述的计算机实现的方法，其特征在于，所述临床数据包括含有血管的医学图像，所述疾病状况相关参数包括所述血管的血流储备分数(FFR)的评估得分或所述血管的斑块易损风险得分，所述疾病状况分类结果包括所述血管的狭窄级别或斑块易损级别。

3.根据权利要求2所述的计算机实现的方法，其特征在于，

所述血管的狭窄级别包括指示无狭窄的第一级，指示狭窄不显著的第二级，指示狭窄显著的第三级；或

所述血管的斑块易损级别包括指示不易损的第一级，指示易损低风险的第二级，指示易损高风险的第三级。

4.根据权利要求1-3中任何一项所述的计算机实现的方法，其特征在于，所述回归模型和所述分类模型利用联合损失函数进行联合训练，所述联合损失函数包括回归损失项和惩罚项，所述惩罚项被设计为惩罚用于预测与回归地面真值属于不同的疾病状况分类结果的值的所述回归模型。

5.根据权利要求4所述的计算机实现的方法，其特征在于，

在通过所述回归模型预测的值与所述回归地面真值分布在用于疾病状况分类的预设阈值的同侧的情况下，所述惩罚项设定为零，并且

在通过所述回归模型预测的所述值与所述回归地面真值分布在所述预设阈值的异侧的情况下，所述惩罚项被设计为随着回归预测值与所述回归地面真值的偏离度的增加而增大。

6.根据权利要求5所述的计算机实现的方法，其特征在于，所述惩罚项为阈值正则化损失，且表示为：

其中，P表示所述回归预测值，t表示所述预设阈值，GT_R表示所述回归地面真值，L表示所述惩罚项。

7.根据权利要求1所述的计算机实现的方法，其特征在于，基于所提取的第一特征信息和所述疾病状况相关参数，来生成第二特征信息具体包括：通过将所提取的第一特征信息展开为一维向量并将所述一维向量与所述疾病状况相关参数连接，来得到所述第二特征信息。

8.一种用于分析临床数据的计算机实现的方法，其特征在于，包括：

由所述处理器通过将分类模型应用于所提取的第一特征信息来预测疾病状况分类结果；

由所述处理器将预测的疾病状况分类结果转换为独热表示，并将所述独热表示与所述第一特征信息融合，来生成第二特征信息；以及

由所述处理器通过将回归模型应用于所述第二特征信息来预测疾病状况相关参数。

9.根据权利要求8所述的计算机实现的方法，其特征在于，所述临床数据包括含有血管的医学图像，所述疾病状况相关参数包括所述血管的FFR的评估得分或所述血管的斑块易损风险得分，所述疾病状况分类结果包括所述血管的狭窄级别或斑块易损级别。

10.根据权利要求9所述的计算机实现的方法，其特征在于，

11.根据权利要求8-10中任何一项所述的计算机实现的方法，其特征在于，所述回归模型和所述分类模型利用联合损失函数进行联合训练，所述损失函数包括利用惩罚权重加权的回归损失项，所述惩罚权重被设计为惩罚用于预测与回归地面真值属于不同的疾病状况分类结果的值的所述回归模型。

12.根据权利要求11所述的计算机实现的方法，其特征在于，

所述回归预测值与所述回归地面真值分布在用于疾病状况分类的预设阈值的同侧的情况下的所述惩罚权重小于所述回归预测值与所述回归地面真值分布在所述预设阈值的异侧的情况下的所述惩罚权重；或

所述惩罚权重随着所述回归预测值与所述回归地面真值的偏离度的增加而增大。

13.根据权利要求11所述的计算机实现的方法，其特征在于，所述联合损失函数为：

JL＝[1+exp(X)](P-GT_R)²,

其中，P表示所述回归预测值，t表示预设阈值，GT_R表示所述回归地面真值，JL表示所述损失函数。

14.根据权利要求8所述的计算机实现的方法，其特征在于，将所述独热表示与所述第一特征信息融合，来生成第二特征信息具体包括：将所述独热表示展开为一维向量，将所述第一特征信息展开为一维向量，并将展开后的这两个一维向量连接，来得到所述第二特征信息。

15.一种用于分析临床数据的系统，其特征在于，所述系统包括：

接口，其配置为：接收所述临床数据；以及

处理器，其配置为执行根据权利要求1-14中任何一项所述的用于分析临床数据的计算机实现的方法。