CN117174298A - 基于多模态预训练大模型的急危重症临床决策系统 - Google Patents

基于多模态预训练大模型的急危重症临床决策系统 Download PDF

Info

Publication number
CN117174298A
CN117174298A CN202311440570.8A CN202311440570A CN117174298A CN 117174298 A CN117174298 A CN 117174298A CN 202311440570 A CN202311440570 A CN 202311440570A CN 117174298 A CN117174298 A CN 117174298A
Authority
CN
China
Prior art keywords
data
feature
training
vector
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311440570.8A
Other languages
English (en)
Inventor
孙宇慧
何昆仑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN202311440570.8A priority Critical patent/CN117174298A/zh
Publication of CN117174298A publication Critical patent/CN117174298A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及智能医疗领域,特别是涉及基于多模态预训练大模型的急危重症临床决策系统,其中,系统执行基于多模态预训练大模型的急危重症临床决策方法,方法包括:获取训练数据并划分为结构化数据和非结构化数据;将结构化数据、非结构化数据进行向量化处理并进行合并,进而得到特征数据;基于多目标优化特征选择方法对特征数据进行特征选择,得到目标特征数据;通过目标特征数据对待训练分类模型进行训练直至模型中的参数收敛进而得到分类模型;基于分类模型对急危重症患者的相关数据进行分析,得到预测分类结果辅助临床决策。本发明以结构化和非结构化数据训练分类模型,使得模型具备准确的分类、预测的性能,对于疾病预测具有重要意义。

Description

基于多模态预训练大模型的急危重症临床决策系统
技术领域
本发明涉及智能医疗领域,特别涉及一种基于多模态预训练大模型的急危重症临床决策系统、设备及可读存储介质。
背景技术
急危重症临床决策是医学领域中的难点,一方面要求医生迅速把握时机,在短时间内做出决策,尽可能的将有效治疗时间窗前移;另一方面要求医生综合评估、动态评估患者的临床指征,同时兼顾多方面的信息,包括监护信息、实验室报告等等。这对很多临床医生是极大的挑战。以心源性休克为例,症状复杂多样,如果不能在就诊早期迅速做出正确的临床决策,疾病进展快速,错过时间窗可能导致患者难以接受最佳治疗方案,进而危害生命。深度学习是一种基于神经网络的大模型,它能够通过多层神经网络自动提取数据的高层次特征,尤其是对多模态数据,深度学习具有非常明显的技术优势。尽管现有技术中已经有通过深度学习进行疾病建模,但他们在处理结构数据居多,对于非结构数据及结构数据和非结构数据的同时处理能力有限,导致了大量重要信息的丧失,此外,特征的处理过程中现有技术往往无法考虑到数据中的复杂交互和非线性关系,这在很大程度上限制了这些模型的性能。
发明内容
为解决上述问题,本发明提供一种基于多模态预训练大模型的急危重症临床决策系统,旨在优化数据分类、预测技术,并使用该数据分类、预测技术辅助医护人员进行疾病预测。
为了实现上述发明目的,本发明第一方面提出一种基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述系统包括:
获取单元,用于获取急危重症患者临床数据;
分析单元,用于将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策;所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;
获取模块,用于获取多模态训练数据;
处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;
合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;
选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;
训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,而得到预训练大模型。
进一步,所述特征选择前进行特征排序,具体包括:
采用Min-Max归一化方法对所述特征数据中的每一个数值进行归一化处理,以获取归一化特征数据;
将所述归一化特征数据进行中心化处理,得到中心化特征数据;
计算所述中心化特征数据的方差矩阵和,并对所述方差矩阵和进行特征分解,得到特征值;
将各特征值进行加和,得到所述特征值的特征值总和;
基于所述特征值和所述特征值总和计算各特征数据的主成分的贡献率;
根据所述贡献率将各所述特征数据的主成分的进行特征排序,得到各所述特征数据的主成分的排序序列。
进一步,所述特征排序,包括:
使用Pearson相关系数计算各所述特征数据之间的相关性,得到所述特征数据之间相关数值;
根据预设函数计算所述特征数据的平均相关数值;
根据预设的权重调整因子结合所述平均相关数值对各所述特征数据的主成分的所述贡献率进行修正,得到各所述特征数据的主成分的修正贡献率;
根据所述修正贡献率更新各所述特征数据的主成分的排序系列并提取特征,得到第一特征数据。
进一步,所述权重调整因子是特征/>的权重和/>的函数,具体公式表示为:
其中,函数是度量特征/>与其他所有特征的平均相关性,/>是一个介于0和1之间的参数,用于控制/>和权重/>对权重调整因子/>的贡献程度。
进一步,所述多目标函数包括交叉熵损失函数、正则化项函数,所述交叉熵损失函数表示为:
其中,是真实标签,/>是预测标签,/>为样本数据的数量;
所述正则化项函数表示为:
其中,是模型的参数,/>是参数的数量,/>是正则化系数。
进一步,所述多目标函数还包括特征的联合熵,所述联合熵是度量两个或多个特征之间的关联性,公式表示为:
其中,和/>是特征,/>是特征/>和/>的联合概率密度函数。
进一步,所述总的优化目标是根据特征的多目标函数值和权重计算得到,公式表示为:
其中,是总的优化目标,/>是一个特征,/>是特征/>在第/>个目标函数的值,/>是权重。
进一步,将所述结构化数据进行向量转化,得到第一向量矩阵,具体包括:
设结构化数据组成的数据子集为S,所述数据子集包括n个数据样本,每个样本有d个特征;所述数据子集表示为:
其中,表示第n个样本的第d个特征,XS为结构化数据组成的数据子集S对应的向量矩阵,n为结构化数据组成的数据子集S中数据的数量,d为结构化数据组成的数据子集S中每条数据的特征数量。
进一步,将所述非结构化数据进行向量化处理,得到第二向量数据,具体包括:
使用分词算法将所述非结构化数据进行处理,以获取多个分词;
使用预训练的Word2Vec词嵌入模型将每个所述分词转化为k维的向量,得到第二向量数据;
其中,第二向量数据为一个n行p行k列的三维张量XU,表示为:
其中,XU为非结构化数据子集U对应的向量矩阵;表示第n个文本的第p个词的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量,p为非结构化数据组成的数据子集U中每条数据的最大分词数量。
进一步,所述将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,具体包括:
将XS和XU按照列进行拼接,得到拼接后的特征数据,表达式为:
其中,X为拼接后的数据集;XS为结构化数据组成的数据子集S对应的向量矩阵;为非结构化数据经过均值聚合函数后得到的向量矩阵;/>表示结构化数据中第n个样本的第d个特征;/>表示非结构化数据中经过聚合函数处理后的第n个样本的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;d为结构化数据组成的数据子集S中每条数据的特征数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量。
本申请的另一个目的在于提供一种基于多模态预训练大模型的急危重症临床决策设备,所述设备包括:存储器和/或处理器;
所述存储器用于存储有程序指令;所述处理器用于调用程序指令,当程序指令被执行时,实现下述基于多模态预训练大模型的急危重症临床决策方法步骤:
获取急危重症患者临床数据;
将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策;所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;
获取模块,用于获取多模态训练数据;
处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;
合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;
选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;
训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,而得到预训练大模型。
本申请的另一个目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于多模态预训练大模型的急危重症临床决策方法步骤。
本申请的优点:
1.本发明提出了一种基于最优的特征组合来进行建模,在特征选择时,采用基于多目标优化的特征选择方法对数据进行特征选择,减少数据维度,提高模型训练速度和模型分类精度;
2.本发明进一步提出在特征选择之前根据贡献率将各所述特征数据的主成分的进行特征排序,此外,还可以根据预设的权重调整因子结合平均相关数值对各所述特征数据的主成分的所述贡献率进行修正,得到各个特征数据的主成分的修正贡献率;
3.针对临床数据中存在的不同类型数据的问题,本发明通过多种途径收集数据,包括人口统计学信息、实验室检验检查报告、医嘱、病程记录、护理记录等,对于收集到的数据进行预处理,将其转化为可以直接输入到模型中的结构化数据和非结构化数据;
4.本发明将结构化数据和非结构化数据进行向量化处理,对于非结构化数据采用词嵌入的方式进行转化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种基于多模态预训练大模型的急危重症临床决策方法示意流程图;
图2是本发明实施例提供的一种基于多模态预训练大模型的急危重症临床决策系统示意图;
图3是本发明实施例提供的一种基于多模态预训练大模型的急危重症临床决策方法设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明实施例提供一种基于多模态预训练大模型的急危重症临床决策方法,所述方法包括以下步骤S1-S2:
S1:获取急危重症患者临床数据;所述临床数据为急危重症疾病相关的历史数据。
在一个具体实施例中,以急危重症疾病中的急性心肌梗死为例,在获取训练数据时,主要采集关于急性心肌梗死疾病的用户的基本信息、检查报告、病程记录以及医嘱的历史数据信息,其中,基本信息包括年龄、性别等信息,检查报告包括肾功能指标、心电图结果和血液生化指标等;病程记录包括详细描述了患者的疾病进程,包括病情的发展和改变等,以及记录包括患者的护理信息,如体重测量、血压测量等的信息;医嘱包括治疗方案,如用药信息等;通过多种途径收集包括人口统计学信息、实验室检验检查报告、医嘱、病程记录、护理记录等,保证数据的多样化,以及数据的全面性。
S2:将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策,所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;所述获取模块,用于获取多模态训练数据;所述处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;所述合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;所述选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;所述训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,而得到预训练大模型。
在一个实施例中,所述获取模块获取训练数据,所述训练数据为通过多种途径收集得到。优选的,为保证数据分析的准确性,在进行数据分析前,需将训练数据进行划分,以划分出结构化数据和非结构化数据,并将该结构化数据和非结构化数据进行分开记录。其中,结构化数据指的是包括年龄、体重等数值型数据,其可以直接输入到模型中进行数据分析;非结构化数据指的是包括病历记录、护理记录等文本型信息,基于现有的数据方法对该文本型信息的分析能力有限。
在一个实施例中,处理模块将所述结构化数据进行向量化处理,得到第一向量数据;以及将所述非结构化数据进行向量化处理,得到第二向量数据。具体的,对于结构化数据,可直接进行向量化处理,即可得到第一向量数据;对于非结构化数据,则需先进行数据处理,再进行向量转化,即使用分词算法将非结构化数据进行处理,以获取多个分词;使用预训练的Word2Vec词嵌入模型将每个分词转化为k维的向量,得到第二向量数据;将数据进行向量化转化,可使得数据的输入模式与模型的输入模式相匹配,进而方便模型进而分析。
在一个实施例中,合并模块将所述第一向量数据与所述第二向量数据进行合并,得到特征数据,所述合并为将所述第二向量数据经过均值聚合函数后得到的向量矩阵与所述第一向量进行拼接。将数据进行向量转化之后,还将第一向量数据与第二向量数据进行合并,具体的,将XS和XU按照列进行拼接,得到拼接后的特征数据,表达式为:
其中,X为拼接后的数据集;XS为结构化数据组成的数据子集S对应的向量矩阵;为非结构化数据经过均值聚合函数后得到的向量矩阵;/>表示结构化数据中第n个样本的第d个特征;/> j表示非结构化数据中经过聚合函数处理后的第n个样本的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;d为结构化数据组成的数据子集S中每条数据的特征数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量。
在一个实施例中,选择模块基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据。
在得到特征数据之后,为减少数据维度,提高模型训练速度和模型分类精度,在进行模型训练之前,还需对训练数据进行筛分,其中,在进行数据筛分时,是基于多目标优化特征选择方法对特征数据进行特征选择,该特征选择包括特征分析、特征排序、特征选择,进而筛分出目标特征数据,减少了冗余信息对后续分类模型训练造成的负面影响,进而提高模型训练速度和提高模型分类精度。
在一个实施例中,训练模块通过所述目标特征数据对待训练分类模型进行训练,而得到预训练大模型。具体的,在得到目标特征数据之后,可通过该目标特征数据对待训练分类模型进行训练,其中,对待训练分类模型进行训练为多轮次的训练过程,具体的,针对待训练分类模型配备初始训练参数,该初始训练参数为技术人员根据实际情况进行设定,基于该初始训练参数结合目标特征数据对待训练分类模型进行第一轮训练,当第一轮训练结束,则将当前该轮训练的最优参数作为下一轮模型训练的初始参数,并进行新一轮的模型训练,在每一轮迭代训练之后,当待训练分类模型中的参数收敛,并且训练效果达到预期,则将最后一轮训练中的最优参数作为该待训练分类模型的固定参数,即可得到分类模型,该分类模型具备对急危重症相关数据进行分析的性能,可用于辅助医疗人员对急危重症进行预测,以及时处理急危重症,并提供相关的措施。
在得到分类模型之后,基于该分类模型是将结构化和非结构化数据结合在一起,并运用先进的特征选择和机器学习技术进行训练而得到的具备对急危重症疾病进行预测的模型,因此,可基于分类模型对待分析的急危重症相关数据进行分析,即将获取的待分析的急危重症相关数据输入至该分析模型,该模型根据对该相关数据进行分析,即可得到关于待分析的急危重症相关数据的分析结果。
本实施例提供了一种基于多模态预训练大模型的急危重症临床决策系统,系统执行基于多模态预训练大模型的急危重症临床决策方法,通过获取急性心肌梗死等急危重症相关的历史数据,并将该历史数据作为训练数据;然后,将所述训练数据进行划分,进而得到结构化数据和非结构化数据;再将所述结构化数据进行向量化处理,得到第一向量数据;以及将所述非结构化数据进行向量化处理,得到第二向量数据;并将所述第一向量数据与所述第二向量数据进行合并,进而得到特征数据,所述合并为将所述第二向量数据经过均值聚合函数后得到的向量矩阵与所述第一向量进行拼接;为减少数据维度,还基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据;最后,通过所述目标特征数据对待训练分类模型进行训练,进而得到预训练大模型。
在一个实施例中,上述将所述结构化数据进行向量转化,得到第一向量矩阵,包括:
设结构化数据组成的数据子集为S,所述数据子集包括n个数据样本,每个样本有d个特征;所述数据子集表示为:
其中,表示第n个样本的第d个特征,XS为结构化数据组成的数据子集S对应的向量矩阵,n为结构化数据组成的数据子集S中数据的数量,d为结构化数据组成的数据子集S中每条数据的特征数量。
如上所述,对于结构化数据,如年龄、体重等数值型数据,虽可以直接输入至模型中进行训练,但为适应模型的输入格式、分析格式,还需将数据进行向量转化,即设结构化数据组成的数据子集为S,所述数据子集包括n个数据样本,每个样本有d个特征;所述数据子集表示为:
其中,表示第n个样本的第d个特征,XS为结构化数据组成的数据子集S对应的向量矩阵,n为结构化数据组成的数据子集S中数据的数量,d为结构化数据组成的数据子集S中每条数据的特征数量。
在一个实施例中,上述将所述非结构化数据进行向量化处理,得到第二向量数据,包括:
使用分词算法将所述非结构化数据进行处理,以获取多个分词;
使用预训练的Word2Vec词嵌入模型将每个所述分词转化为k维的向量,得到第二向量数据;
其中,第二向量数据为一个n行p行k列的三维张量XU,表示为:
其中,XU为非结构化数据子集U对应的向量矩阵;表示第n个文本的第p个词的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量,p为非结构化数据组成的数据子集U中每条数据的最大分词数量。
如上所述,对于非结构化数据,如病历记录、用药信息、疾病发展等数据均是文本数据,基于现有技术对该非结构化数据的分析能力弱,其准确性低,因此需先对其进行处理,使其转换为方便分析的结构化数据,再将该数据进行向量转化才能输入到模型中进行训练,具体的,首先,对每一个病历记录使用分词算法进行分词;然后,使用预训练的Word2Vec词嵌入模型将每个词转化为k维的向量;其中,设非结构化数据子集U,其中包含n个文本样本,每个样本分词后最多有p个词,每个词可以用k维向量表示;则非结构化数据子集可以表示为一个n行p行k列的三维张量XU,表示为:
其中,XU为非结构化数据子集U对应的向量矩阵;表示第n个文本的第p个词的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量,p为非结构化数据组成的数据子集U中每条数据的最大分词数量。
在一个实施例中,上述将所述第一向量数据与所述第二向量数据进行合并,包括:
将XS和XU按照列进行拼接,得到拼接后的特征数据,表达式为:
其中,X为拼接后的数据集;XS为结构化数据组成的数据子集S对应的向量矩阵;为非结构化数据经过均值聚合函数后得到的向量矩阵;/>表示结构化数据中第n个样本的第d个特征;/>表示非结构化数据中经过聚合函数处理后的第n个样本的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;d为结构化数据组成的数据子集S中每条数据的特征数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量。
如上所述,为保证输入模型进行训练的每一个训练样本均包括结构化数据和非结构化数据,可通过将结构化数据和非结构化数据进行合并的方式实现;具体的,将XS和XU按照列进行拼接,进而得到拼接后的特征数据,即
其中,X为拼接后的数据集;XS为结构化数据组成的数据子集S对应的向量矩阵;为非结构化数据经过均值聚合函数后得到的向量矩阵;/>表示结构化数据中第n个样本的第d个特征;/>表示非结构化数据中经过聚合函数处理后的第n个样本的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;d为结构化数据组成的数据子集S中每条数据的特征数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量。
在一个实施例中,上述基于多目标优化特征选择方法对所述特征数据进行特征选择,包括:
采用Min-Max归一化方法对所述特征数据中的每一个数值进行归一化处理,以获取归一化特征数据;
将所述归一化特征数据进行中心化处理,得到中心化特征数据;
计算所述中心化特征数据的方差矩阵和,并对所述方差矩阵和进行特征分解,得到特征值;
将各特征值进行加和,得到所述特征值的特征值总和;
基于所述特征值和所述特征值总和计算各特征数据的主成分的贡献率;
根据所述贡献率将各所述特征数据的主成分的进行排序,得到各所述特征数据的主成分的排序序列。
如上所述,为消除奇异样本数据导致的不良影响,还采用Min-Max归一化方法将特征数据中的每一个数值进行归一化处理,以获取归一化特征数据,其中,Min-Max归一化方法可以表示为:
其中,是归一化后的数据,/>是归一化前数据,/>是第j列特征的最小值,是第j列特征的最大值;归一化处理之后获取的归一化特征数据为:
其中,为归一化后的数据,n为非结构化数据组成的数据子集U中数据的数量,同结构化数据组成的数据子集S中数据的数量,同拼接后的数据集中的数据的数量。c为归一化后的数据中的特征的数量。
基于结构化数据和非结构化数据进行向量化后组成,数据具有较高的特征冗余,基于此,可通过特征选择的方式,降低数据维度,以减少冗余信息对后续分类模型训练造成的负面影响,进而提高模型训练速度,提高模型分类精度,具体的,首先,对归一化后的数据进行主成分分析,然后计算每个主成分的贡献率,然后根据贡献率对原始特征进行排序和选择,其中,将归一化后的数据/>中心化,然后计算协方差矩阵/>,可以表示为:
然后,对协方差进行特征分解,进而得到特征值/>和对应的特征向量/>;主成分的贡献率指的是对应的特征值占所有特征值总和的比例,主成分的贡献率的计算可以表示为:
最后,对原始特征(特征数据)按照对应的主成分的贡献率进行排序,得到各特征的主成分贡献率排序向量
在一个实施例中,上述所述基于多目标优化特征选择方法对所述特征数据进行特征选择,包括:
使用Pearson相关系数计算各所述特征数据之间的相关性,得到所述特征数据之间相关数值;
根据预设函数计算所述特征数据的平均相关数值;
根据预设的权重调整因子结合所述平均相关数值对各所述特征数据的主成分的所述贡献率进行修正,得到各所述特征数据的主成分的修正贡献率;
根据所述修正贡献率更新各所述特征数据的主成分的排序系列并提取特征,得到第一特征数据。
如上所述,对于每一个特征向量,计算其与所有其他特征向量的相关性/>,其中,且/>,相关性使用Pearson相关系数计算得到;再根据预设函数计算特征数据的平均相关数值,即定义一个函数/>来度量特征/>与其他所有特征的平均相关性,可以表示为:
以及,根据预设的权重调整因子结合平均相关数值对各特征数据的主成分的贡献率进行修正,进而得到各特征数据的主成分的修正贡献率,即定义一个新的权重调整因子,它是特征/>的权重和/>的函数,可以表示为:
其中,是一个介于0和1之间的参数,用于控制/>和/>对/>的贡献程度;更新权重/>,则可以表示为:
利用特征权重,计算加权后的特征的主成分贡献率,可以表示为:
其中,符号表示两个向量对应位置数值相乘;
最后,根据加权后的特征的主成分贡献率进行排序,并取前/>个特征作为第一组合特征(即第一特征数据)。
在一个实施例中,上述基于多目标优化特征选择方法对所述特征数据进行特征选择,包括:
基于交叉熵损失函数对所述第一特征数据进行筛分,得到第二特征数据;
基于正则化项函数对所述第二特征数据进行优化,得到第三特征数据;
根据预设熵函数计算所述第三特征数据的联合熵,并基于所述联合熵筛分出目标特征数据。
如上所述,构建多目标函数而对第一组合特征进行进一步特征选择,即设定目标函数数量为x,并为每个目标函数定义一个权重,其中/>。设定最大迭代次数/>,并设定矩阵/>大小为/>;其中,目标函数数量优选为2个目标函数,分别为交叉熵损失函数和正则化项函数,对于交叉熵损失函数则表示为:
/>
其中,是真实标签,/>是预测标签,n为样本数据的数量,/>是第i个样本的真实标签,/>是第i个样本的预测标签;正则化项函数则表示为:
其中,w是模型的参数,d是参数的数量,是正则化系数,/>是模型的第i个参数值;基于目标函数的处理,可将模型的参数限制在一个较小的范围内,进而防止过拟合。
联合熵是一个随机变量的不确定性,可以度量两个或多个特征之间的关联性,可以表示为:
其中,xs和ys是特征,p(xs,ys)是特征xs和ys的联合概率密度函数;对所有特征,根据各自的目标函数值和权重,即可计算出综合的优化目标,即:
其中,是总的优化目标,xt是一个特征,/>是特征xt在第i个目标函数的值;进行子空间划分时,在每轮迭代中,将特征空间根据/>的值进行随机划分,每个子空间包含一部分特征,特征之间的相互关系由所在的子空间决定;在每轮迭代后,根据特征在新的子空间中的位置,更新目标函数和权重;并重复以上步骤,直到总的优化目标函数的值增幅小于预设的阈值,则确定特征组合(即目标特征数据)。
在一个实施例中,上述直至所述待训练分类模型中的参数收敛进而得到分类模型之后,还包括:
对所述分类模型的分类结果进行验证,其中,所述验证包括准确率验证、精确率验证、召回率验证、F1分数验证、AUC-ROC验证;
当所述验证中存在至少一项不符合预设验证标准,则判定所述分类模型不符合要求,执行重新训练所述分类模型的操作。
如上所述,为保证完成训练的分类模型的准确性,还对该分类模型的分类结果进行验证,其中,对分类结果的验证包括准确率、精确率、召回率、F1分数、AUC-ROC的验证,当准确率、精确率、召回率、F1分数、AUC-ROC中存在至少一项不符合预设验证标准,则判定该分类模型的分类结果未达到训练要求,仍需进行训练,即执行重新训练分类模型的操作;只有当准确率、精确率、召回率、F1分数、AUC-ROC均符合预设验证标准,才判定该分类模型的分类结果达到训练要求,即完成对分类模型的训练。
参照图2,本发明实施例还提供一种基于多模态预训练大模型的急危重症临床决策系统,包括:
获取单元10,用于获取急危重症患者临床数据;
分析单元20,用于将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策;所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;
获取模块,用于获取多模态训练数据;
处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;
合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;
选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;
训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,得到预训练大模型。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于多模态预训练大模型的急危重症临床决策方法,方法包括如下步骤:获取急危重症患者临床数据;将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策;所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;获取模块,用于获取多模态训练数据;处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,而得到预训练大模型。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述系统包括:
获取单元,用于获取急危重症患者临床数据;
分析单元,用于将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策;所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;
获取模块,用于获取多模态训练数据;
处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;
合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;
选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;
训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,得到预训练大模型。
2.根据权利要求1所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述特征选择前进行特征排序,具体包括:
采用Min-Max归一化方法对所述特征数据中的每一个数值进行归一化处理,以获取归一化特征数据;
将所述归一化特征数据进行中心化处理,得到中心化特征数据;
计算所述中心化特征数据的方差矩阵和,并对所述方差矩阵和进行特征分解,得到特征值;
将各特征值进行加和,得到所述特征值的特征值总和;
基于所述特征值和所述特征值总和计算各特征数据的主成分的贡献率;
根据所述贡献率将各所述特征数据的主成分的进行特征排序,得到各所述特征数据的主成分的排序序列。
3.根据权利要求2所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述特征排序,包括:
使用Pearson相关系数计算各所述特征数据之间的相关性,得到所述特征数据之间相关数值;
根据预设函数计算所述特征数据的平均相关数值;
根据预设的权重调整因子结合所述平均相关数值对各所述特征数据的主成分的所述贡献率进行修正,得到各所述特征数据的主成分的修正贡献率;
根据所述修正贡献率更新各所述特征数据的主成分的排序系列并提取特征,得到第一特征数据。
4.根据权利要求3所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述权重调整因子是特征/>的权重和/>的函数,具体公式表示为:
其中,函数是度量特征/>与其他所有特征的平均相关性,/>是一个介于0和1之间的参数,用于控制/>和权重/>对权重调整因子/>的贡献程度。
5.根据权利要求1所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述多目标函数包括交叉熵损失函数、正则化项函数,所述交叉熵损失函数表示为:
其中,是真实标签,/>是预测标签,/>为样本数据的数量;
所述正则化项函数表示为:
其中,是模型的参数,/>是参数的数量,/>是正则化系数。
6.根据权利要求5所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述多目标函数还包括特征的联合熵,所述联合熵是度量两个或多个特征之间的关联性,公式表示为:
其中,和/>是特征,/>是特征/>和/>的联合概率密度函数。
7.根据权利要求6所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述总的优化目标是根据特征的多目标函数值和权重计算得到,公式表示为:
其中,是总的优化目标,/>是一个特征,/>是特征/>在第/>个目标函数的值,/>是权重。
8.根据权利要求1所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,将所述结构化数据进行向量转化,得到第一向量矩阵,具体包括:
设结构化数据组成的数据子集为S,所述数据子集包括n个数据样本,每个样本有d个特征;所述数据子集表示为:
其中,}表示第n个样本的第d个特征,XS为结构化数据组成的数据子集S对应的向量矩阵,n为结构化数据组成的数据子集S中数据的数量,d为结构化数据组成的数据子集S中每条数据的特征数量。
9.根据权利要求1所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,将所述非结构化数据进行向量化处理,得到第二向量数据,具体包括:
使用分词算法将所述非结构化数据进行处理,以获取多个分词;
使用预训练的Word2Vec词嵌入模型将每个所述分词转化为k维的向量,得到第二向量数据;
其中,第二向量数据为一个n行p行k列的三维张量XU,表示为:
其中,XU为非结构化数据子集U对应的向量矩阵;表示第n个文本的第p个词的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量,p为非结构化数据组成的数据子集U中每条数据的最大分词数量。
10.根据权利要求9所述的基于多模态预训练大模型的急危重症临床决策系统,其特征在于,所述将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,具体包括:
将XS和XU按照列进行拼接,得到拼接后的特征数据,表达式为:
其中,X为拼接后的数据集;XS为结构化数据组成的数据子集S对应的向量矩阵;为非结构化数据经过均值聚合函数后得到的向量矩阵;/>表示结构化数据中第n个样本的第d个特征;/>表示非结构化数据中经过聚合函数处理后的第n个样本的第k维特征;n为非结构化数据组成的数据子集U中数据的数量;d为结构化数据组成的数据子集S中每条数据的特征数量;k为非结构化数据组成的数据子集U中每条数据的每个词转化的向量的数量。
11.一种基于多模态预训练大模型的急危重症临床决策设备,其特征在于,所述设备包括:存储器和/或处理器;
所述存储器用于存储有程序指令;所述处理器用于调用程序指令,当程序指令被执行时,实现下述基于多模态预训练大模型的急危重症临床决策方法步骤:
获取急危重症患者临床数据;
将所述临床数据输入预训练大模型中进行分析,得到预测分类结果辅助临床决策;所述预训练大模型包括获取模块、处理模块、合并模块、选择模块及训练模块;
获取模块,用于获取多模态训练数据;
处理模块,用于将所述训练数据中的结构化数据和非结构化数据进行向量化处理,得到第一、第二向量数据;
合并模块,用于将所述第二向量数据经过均值聚合函数后得到的向量矩阵与第一向量进行拼接,得到特征数据;
选择模块,用于基于多目标优化特征选择方法对所述特征数据进行特征选择,得到目标特征数据,所述多目标优化特征选择是通过构建多目标函数得到每个特征的多目标函数值,进而计算总的优化目标,根据所述总的优化的目标将所述特征数据的特征空间进行随机划分得到数个子空间,所述子空间决定特征之间的相互关系,每轮迭代后,根据所述特征数据在子空间中的位置更新总的优化目标,直到总的优化目标的增值幅度小于预设的阈值,得到所述目标特征数据;
训练模块,用于通过所述目标特征数据对待训练分类模型进行训练,而得到预训练大模型。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求11中的基于多模态预训练大模型的急危重症临床决策方法步骤。
CN202311440570.8A 2023-11-01 2023-11-01 基于多模态预训练大模型的急危重症临床决策系统 Pending CN117174298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311440570.8A CN117174298A (zh) 2023-11-01 2023-11-01 基于多模态预训练大模型的急危重症临床决策系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311440570.8A CN117174298A (zh) 2023-11-01 2023-11-01 基于多模态预训练大模型的急危重症临床决策系统

Publications (1)

Publication Number Publication Date
CN117174298A true CN117174298A (zh) 2023-12-05

Family

ID=88947110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311440570.8A Pending CN117174298A (zh) 2023-11-01 2023-11-01 基于多模态预训练大模型的急危重症临床决策系统

Country Status (1)

Country Link
CN (1) CN117174298A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022268102A1 (zh) * 2021-06-22 2022-12-29 安翰科技(武汉)股份有限公司 基于深度学习的癌症预后生存预测方法、设备及存储介质
CN116452851A (zh) * 2023-03-17 2023-07-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 病症分类模型的训练方法、装置、终端及可读存储介质
CN116646078A (zh) * 2023-07-19 2023-08-25 中国人民解放军总医院 一种基于人工智能的心血管急危重症临床决策支持系统及设备
CN116741388A (zh) * 2023-08-14 2023-09-12 中国人民解放军总医院 基于联邦学习构建心血管急危重症大模型的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022268102A1 (zh) * 2021-06-22 2022-12-29 安翰科技(武汉)股份有限公司 基于深度学习的癌症预后生存预测方法、设备及存储介质
CN116452851A (zh) * 2023-03-17 2023-07-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 病症分类模型的训练方法、装置、终端及可读存储介质
CN116646078A (zh) * 2023-07-19 2023-08-25 中国人民解放军总医院 一种基于人工智能的心血管急危重症临床决策支持系统及设备
CN116741388A (zh) * 2023-08-14 2023-09-12 中国人民解放军总医院 基于联邦学习构建心血管急危重症大模型的方法

Similar Documents

Publication Publication Date Title
CN111160139B (zh) 心电信号的处理方法、装置及终端设备
Huang et al. Neural network classifier with entropy based feature selection on breast cancer diagnosis
CN111134664B (zh) 一种基于胶囊网络的癫痫放电识别方法、系统和存储介质
Choubey et al. GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN111477328B (zh) 一种非接触式的心理状态预测方法
Ghane et al. Enhanced decision tree induction using evolutionary techniques for Parkinson's disease classification
CN113643756A (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN115862842A (zh) 慢性病的风险预测方法及相关设备
CN113012774A (zh) 病案自动编码方法、装置、电子设备及存储介质
Tiruneh et al. Feature selection for construction organizational competencies impacting performance
CN114224354B (zh) 心律失常分类方法、装置及可读存储介质
CN113838018B (zh) 基于Cnn-former的肝纤维化病变检测模型训练方法与系统
CN117174298A (zh) 基于多模态预训练大模型的急危重症临床决策系统
Ihor et al. Exploring Multimodal Data Approach in Natural Language Processing Based on Speech Recognition Algorithms
CN115547502A (zh) 基于时序数据的血透病人风险预测装置
Dadgar et al. A hybrid method of feature selection and neural network with genetic algorithm to predict diabetes
CN112562849B (zh) 一种基于层次结构和共现结构的临床自动诊断方法及系统
Jafar et al. HypGB: High Accuracy GB Classifier for Predicting Heart Disease with HyperOpt HPO Framework and LASSO FS Method
Pareek et al. Prediction of CKD Using Expert System Fuzzy Logic & AI
Khaneja et al. Analysing risk of coronary heart disease through discriminative neural networks
Kuila et al. ECG signal classification using DEA with LSTM for arrhythmia detection
Khalafi et al. A hybrid deep learning approach for phenotype prediction from clinical notes
Waris A Survey on Heart Disease Early Prediction Methodologies
Usha et al. Predicting Heart Disease Using Feature Selection Techniques Based on Data Driven Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination