CN116525097A - Acth分泌来源分析系统 - Google Patents

Acth分泌来源分析系统 Download PDF

Info

Publication number
CN116525097A
CN116525097A CN202310291989.5A CN202310291989A CN116525097A CN 116525097 A CN116525097 A CN 116525097A CN 202310291989 A CN202310291989 A CN 202310291989A CN 116525097 A CN116525097 A CN 116525097A
Authority
CN
China
Prior art keywords
model
data
training
module
acth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310291989.5A
Other languages
English (en)
Inventor
陈适
吕晓虹
张丁月
卢琳
潘慧
朱惠娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Original Assignee
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking Union Medical College Hospital Chinese Academy of Medical Sciences filed Critical Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority to CN202310291989.5A priority Critical patent/CN116525097A/zh
Publication of CN116525097A publication Critical patent/CN116525097A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及数据分析技术领域,具体提供一种ACTH分泌来源分析系统,旨在解决ACTH分泌来源难以无创鉴别的问题。为此目的,本发明的ACTH分泌来源分析系统至少包括数据采集模块、模型构建和存储模块、模型训练模块、数据分析模块;所述数据采集模块用于采集待鉴别数据;所述模型构建和存储模块被配置为构建并存储有多个机器学习算法模型;所述模型训练模块用于获得鉴别ACTH分泌来源的来源分析模型;所述数据分析模块用于基于训练好的来源分析模型对输入的待鉴别数据进行分析,基于分析结果确定所述待鉴别数据的ACTH分泌来源,所述ACTH分泌来源包括脑垂体分泌和/或外周组织分泌。以达到无创鉴别ACTH分泌来源的目的。

Description

ACTH分泌来源分析系统
技术领域
本发明涉及数据分析技术领域,具体提供一种ACTH分泌来源分析系统。
背景技术
库欣综合征(CS)是肾上腺皮质醇分泌过多的结果,可导致高血压、糖尿病、心血管风险增加、骨质疏松、血栓栓塞性疾病、抑郁症和感染风险增加等高致死致残率。
其中,ACTH(促肾上腺皮质激素)依赖性CS,与过度刺激肾上腺的ACTH有关。由于ACTH的来源不同,ACTH依赖性CS可以分为CD(库欣病)和EAS(异位ACTH分泌)。
目前在内分泌疾病领域,鉴别CD和EAS通常采用BIPSS(岩下窦静脉采血)技术。BIPSS是一种有创操作,通过股静脉穿刺置管,导丝探至颅内岩下窦静脉,采集血液,测量此处血液中的ACTH激素浓度,与外周血中的ACTH浓度作比值,外周血中的ACTH浓度可以通过对采集的静脉血液进行测量获得。若比值大于2,则说明对于ACTH依赖性CS患者而言,过多的ACTH来源是脑垂体,反之则说明患者ACTH来源于外周组织。该方案的诊断灵敏度为90%以上,特异度接近100%。
但由于BIPSS是一种有创操作,患者需接受穿刺,且有颅内出血的风险。此外,BIPSS技术具有相当难度,需要在医疗资源丰富的大型医疗机构完成,对操作人员的资质也有一定要求,目前阶段难以普及。
如何无创的鉴别ACTH分泌来源,成为了亟待解决的问题。
相应地,本领域需要一种新的ACTH分泌来源的鉴别方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,提供一种ACTH分泌来源分析系统,以解决或至少部分地解决如何无创的鉴别ACTH分泌来源的技术问题。
本发明提供一种ACTH分泌来源分析系统,所述系统至少包括数据采集模块、模型构建和存储模块、模型训练模块、数据分析模块;所述数据采集模块用于采集待鉴别数据;所述模型构建和存储模块被配置为构建并存储有多个机器学习算法模型;所述模型训练模块用于基于训练样本对所述多个机器学习算法模型进行训练,以得到与所述训练样本适配性最佳的机器学习算法模型作为鉴别ACTH分泌来源的来源分析模型;所述数据分析模块用于基于训练好的来源分析模型对输入的待鉴别数据进行分析,基于分析结果确定所述待鉴别数据的ACTH分泌来源,所述ACTH分泌来源包括脑垂体分泌和/或外周组织分泌。
在上述系统的一个技术方案中,所述模型训练模块包括数据预处理单元:所述预数据处理单元被配置为对初始样本数据进行预处理,形成训练样本,所述训练样本包括训练集、验证集和测试集,所述训练集、验证集和测试集中的数据不相同,所述初始样本数据中至少包括多个CD患者和多个EAS患者的生化检验数据以及影像医学数据。
在上述系统的一个技术方案中,所述模型训练模块还包括算法模型比较单元和参数配置单元;所述算法模型比较单元被配置为基于所述训练样本中的训练集和验证集对所述多个机器学习算法模型进行比较,获取对所述ACTH分泌来源分析准确性最佳模型,以所述最佳模型作为与所述训练样本适配性最佳的最优算法模型;所述参数配置单元被配置为调整所述最优算法模型的参数组合,并对调整参数组合后的所述最优算法模型进行训练,以得到来源分析模型。
在上述系统的一个技术方案中,所述算法模型比较单元被配置为:基于所述训练样本中的训练集和验证集,通过嵌套交叉验证对所述多个机器学习算法模型进行比较;其中,所述嵌套交叉验证包括基于网格搜索调整参数组合,基于不同参数组合对所述多个机器学习算法模型进行筛选。
在上述系统的一个技术方案中,所述基于不同参数组合对所述多个机器学习算法模型进行筛选包括:基于预定次数的内层循环,通过网格搜索调整所述多个机器学习算法模型的参数组合,对所述多个机器学习算法模型进行训练;基于预定次数的外层循环对所述多个机器学习算法模型进行训练,通过数据拆分和模型评估获取其中准确性最佳的作为最优算法模型。
在上述系统的一个技术方案中,所述参数配置单元被配置为:基于预定次数的循环对所述最优算法模型进行训练,通过网格搜索调整所述最优算法模型的参数组合,并获得最优参数组合;基于所述最优参数组合获得来源分析模型。
在上述系统的一个技术方案中,所述模型训练模块还包括模型评估单元,所述模型评估单元被配置为用于基于所述测试集评估训练好的所述来源分析模型。
在上述系统的一个技术方案中,所述模型构建和存储模块被配置为构建并存储至少以下算法模型:支持向量机分类模型、K最近邻法算法模型、逻辑回归算法模型、线性判别分析算法模型、决策树算法模型、随机森林算法模型、自适应增强算法模型、梯度提升算法模型。
在上述系统的一个技术方案中,所述数据采集模块采集的所述待鉴别数据至少采集以下数据指标:患者的年龄、性别、从症状出现到诊断为ACTH依赖性库欣综合征的时长、BMI、血钾浓度、清晨血皮质醇浓度、血ACTH浓度、24小时尿游离皮质醇、大剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、小剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、以及核磁共振中垂体病变占位最大径。
在上述系统的一个技术方案中,所述系统还包括模型评价模块,其中,所述模型评价模块被配置为基于训练好的所述来源分析模型,鉴别所述训练样本或待鉴别数据的ACTH分泌来源;以及,将所述来源分析模型的鉴别结果与使用HDDST、LDDST以及BIPSS方法中至少一个方法获得的鉴别结果进行比较,基于比较结果评价所述来源分析模型的准确性和泛化能力。
本发明上述一个或多个技术方案,至少具有如下一种或多种
有益效果:
在实施本发明的技术方案中,通过构建包括数据采集模块、模型构建和存储模块、模型训练模块、数据分析模块的ACTH分泌来源分析系统,以达到无创鉴别ACTH分泌来源的目的,以准确鉴别ACTH分泌来源为脑垂体分泌和外周组织分泌的比例。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
图1是本发明的一个实施例的ACTH分泌来源分析系统的示意图;
图2是本发明的一个实施例的模型训练模块的示意图;
图3是本发明的一个实施例的ACTH分泌来源分析系统的模型训练步骤流程图。
附图标记列表
11:数据采集模块;12:模型构建和存储模块;13:模型训练模块;14:数据分析模块;
21:数据预处理单元;22:算法模型比较单元;23:参数配置单元;24:模型评估单元。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
本发明提供一种ACTH分泌来源分析系统,请参阅附图1,图1是本发明的一个实施例的ACTH分泌来源分析系统的示意图。
如图1所示,所述系统至少包括数据采集模块11、模型构建和存储模块12、模型训练模块13、数据分析模块14。
所述数据采集模块11用于采集待鉴别数据;所述模型构建和存储模块12被配置为构建并存储有多个机器学习算法模型;所述模型训练模块13用于基于训练样本对所述多个机器学习算法模型进行训练,以得到与所述训练样本适配性最佳的机器学习算法模型作为鉴别ACTH分泌来源的来源分析模型;所述数据分析模块14用于基于训练好的来源分析模型对输入的待鉴别数据进行分析,基于分析结果确定所述待鉴别数据的ACTH分泌来源,所述ACTH分泌来源包括脑垂体分泌和/或外周组织分泌。
其中,所述外周组织指的是除了脑垂体外,其他全身能够分泌激素的器官或组织,如肺类癌、胃肠神经内分泌肿瘤等。
在一个实施方式中,所述数据采集模块11采集的所述待鉴别数据至少采集以下数据指标:患者的年龄(岁)、性别(男性或女性)、从症状出现到诊断为ACTH依赖性库欣综合征的时长(月)、BMI(kg/m2)、血钾浓度(mmol/L)、清晨血皮质醇浓度[(μg/dl)或(nmol/L)]、血ACTH浓度[(ng/L)、(pg/mL)或(pmol/L)]、24小时尿游离皮质醇[(μg/24h)或(nmol/24h)]、大剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、小剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、以及核磁共振中垂体病变占位最大径(mm)。
其中,BMI为身体质量指数(BodyMassIndex)。24小时尿游离皮质醇需要收集患者的24小时内的尿液进行检测,其中UFC为尿游离皮质醇(UrinaryFreeCortisol)的简称,24小时尿游离皮质醇可以简称为24hUFC。
大剂量地塞米松抑制试验(High-DoseDexamethasone SuppressionTest,HDDST)和小剂量地塞米松抑制试验(Low-Dose DexamethasoneSuppressionTest,LDDST)都是用于评估ACTH的分泌情况的检测方法,但两者的抑制作用程度和使用的剂量不同。示例性地,在HDDST中,给予患者剂量为1mg的地塞米松片,在LDDST中,给予患者剂量为0.5mg的地塞米松片。本领域技术人员可以用过检测HDDST以及LDDST前后的24hUFC,并计算抑制后24hUFC/抑制前24hUFC比值,以评估ACTH的分泌情况。具体地,本领域技术人员可以基于实际需要设置HDDST和LDDST中的给药量,但需配套应用。
在实际操作中,本领域技术人员还可以根据实际情况,设置所述数据采集模块11采集其他需要的数据指标。
在一个实施方式中,所述模型构建和存储模块12被配置为构建并存储至少以下算法模型:支持向量机分类模型、K最近邻法算法模型、逻辑回归算法模型、线性判别分析算法模型、决策树算法模型、随机森林算法模型、自适应增强算法模型、梯度提升算法模型。
示例性地,支持向量机分类模型(SVM)是一个二分类算法模型,它的目标是找到一条能够在特征空间中划分两个类别的超平面。SVM通过最大化分类边界两侧的最小距离来找到最优的超平面,从而实现分类。
K最近邻法算法模型(KNN)是一种基于实例的分类算法模型,它将一个未知样本分类为其K个最近邻居中占比最大的类别。KNN需要计算每个训练样本与测试样本的距离,并根据最邻近的K个训练样本来分类未知样本。
逻辑回归算法模型(LogisticRegression)是一种二分类算法模型,它将输入特征与权重相乘并加上偏置项,然后将结果传递给一个Sigmoid函数,以得到一个0-1之间的概率值。如果该概率大于0.5,则将样本分类为正类,否则为负类。
线性判别分析算法模型(LDA)是一种线性分类算法,它通过将样本投影到一个低维子空间中,使得在该子空间中不同类别的样本尽可能地分开。LDA通过最小化类别内部方差和最大化类别间方差来确定投影方向。
决策树算法模型(DecisionTrees)是一种基于树形结构的分类算法模型,它通过一系列的二元判定来对样本进行分类。在决策树的构建过程中,每个节点代表一个特征,每个分支代表该特征的一个取值,而每个叶子节点代表一个类别标签。
随机森林算法模型(RandomForest)是一种基于决策树的集成学习算法模型,它通过对特征和样本进行随机采样来构建多个决策树,并通过投票或平均来确定最终的分类结果。
自适应增强算法模型(AdaBoost)是一种基于集成学习的分类算法模型,它通过迭代地训练一系列弱分类器,并将它们组合成一个强分类器。在每次迭代中,AdaBoost会根据前一轮分类错误的样本来调整样本权重,使得在下一轮中分类错误的样本得到更多的关注。
梯度提升算法模型(GradientBoosting)是一种基于决策树的集成学习算法模型,它通过迭代地训练一系列决策树,并将它们组合成一个强分类器。在每次迭代中,梯度提升会根据前一轮的残差来训练下一棵决策树,从而逐步减小残差,提高模型的性能。
在实际操作中,本领域技术人员还可以根据实际情况,采用所述模型构建和存储模块12构建并存储其他的算法模型;在一个实施方式中,本领域技术人员也可以自行构建新的算法模型,能够用于鉴别ACTH分泌来源即可。
进一步地,请参阅附图2,图2是本发明的一个实施例的模型训练模块的示意图。
如图2所示,所述模型训练模块13包括数据预处理单元21:所述预数据处理单元被配置为对初始样本数据进行预处理,形成训练样本,所述训练样本包括训练集、验证集和测试集,所述训练集、验证集和测试集中的数据不相同,所述初始样本数据中至少包括多个CD患者和多个EAS患者的生化检验数据以及影像医学数据。
在一个实施例中,所述数据分割即将初始样本数据按照一定的比例进行数据分割,划分为训练集、验证集和测试集,在本实施例中采用分层抽样的数据分割方法。分层抽样即将CD患者和EAS患者的数据指标分别划分进训练集、验证集和测试集;对初始样本数据进行预处理,以便机器学习模型能够识别并从中提取信息,常用的数据预处理方法包括:标准化、归一化、缺失值填充、异常值处理等。
具体地,所述初始样本数据包括但不限于以下数据指标:患者的年龄(岁)、性别(男性或女性)、从症状出现到诊断为ACTH依赖性库欣综合征的时长(月)、BMI(kg/m2)、血钾浓度(mmol/L)、清晨血皮质醇浓度[(μg/dl)或(nmol/L)]、血ACTH浓度[(ng/L)、(pg/mL)或(pmol/L)]、24小时尿游离皮质醇[(μg/24h)或(nmol/24h)]、大剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、小剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、以及核磁共振中垂体病变占位最大径(mm)。
具体地,所述模型训练模块13还包括算法模型比较单元22和参数配置单元23;所述算法模型比较单元22被配置为基于所述训练样本中的训练集和验证集对所述多个机器学习算法模型进行比较,获取对所述ACTH分泌来源分析准确性最佳模型,以所述最佳模型作为与所述训练样本适配性最佳的最优算法模型;所述参数配置单元23被配置为调整所述最优算法模型的参数组合,并对调整参数组合后的所述最优算法模型进行训练,以得到来源分析模型。
在一个实施例中,所述算法模型比较单元22被配置为:基于所述训练样本中的训练集和验证集,通过嵌套交叉验证对所述多个机器学习算法模型进行比较;其中,所述嵌套交叉验证包括基于网格搜索调整参数组合,基于不同参数组合对所述多个机器学习算法模型进行筛选。
网格搜索(GridSearch)作为一种超参数调优方法,通过穷举所有可能的参数组合来寻找最优的模型超参数。具体地,可以通过确定需要调整的模型超参数和它们的取值范围;定义模型评估指标,比如准确率或F1分数等;指定的指标对所有可能的参数组合进行评估,记录最优参数组合及其对应的评估指标;根据最优参数组合重新训练模型,并对测试集进行评估。
所述基于不同参数组合对所述多个机器学习算法模型进行筛选包括:基于预定次数的内层循环,通过网格搜索调整所述多个机器学习算法模型的参数组合,对所述多个机器学习算法模型进行训练;基于预定次数的外层循环对所述多个机器学习算法模型进行训练,通过数据拆分和模型评估获取其中准确性最佳的作为最优算法模型。
示例性地,所述算法模型比较单元22执行3次内层循环,5次外层循环。在实际操作中,本领域技术人员可以根据实际需要设置内层循环和外层循环的次数。
其中,内层循环是指带有网格搜索的嵌套交叉验证,目的是给外层循环提供模型的最佳超参数;外层循环是给内层循环提供训练数据,同时保留部分数据,以作对内层循环模型的测试。
嵌套交叉验证用于从多个算法模型中选择适配性最佳的最优算法模型,在外层循环中,对每个算法模型的最优参数组合,在训练集上进行模型训练,并在验证集上进行模型验证。通过比较在验证集上的表现,选择对验证集分析准确性最佳的模型作为适配性最佳的最优算法模型。
在一个实施例中,将数据集划分为多个子集,每个子集都可以作为测试集和训练集。在内层循环中,每个模型都是在不同的训练集上进行训练和评估的,因此嵌套交叉验证可以避免模型选择偏差。同时,由于它在每个测试集上使用一个全新的模型来评估性能,嵌套交叉验证可以避免数据泄露问题。
在一个实施例中,所述参数配置单元23被配置为:基于预定次数的循环对所述最优算法模型进行训练,通过网格搜索调整所述最优算法模型的参数组合,并获得最优参数组合;基于所述最优参数组合获得来源分析模型。
示例性地,所述参数配置单元23基于3次循环对所述最优算法模型进行训练。在实际操作中,本领域技术人员可以根据实际需要设置循环的次数。所述基于所述最优参数组合获得来源分析模型,即采用最优参数组合进行模型训练,并获得训练好的来源分析模型。
以随机森林模型为例,随机森林首先随机并行建立许多棵决策树作为基分类器(弱分类器),对于每一个输入样本,通过集成所有决策树的输出分类结果,选择基分类器中类别最多的一类作为输出样本类别。
我们使用网格搜索,得到结果最优的随机森林模型参数如下:
{'n_estimators':300,'min_samples_split':5,'min_samples_leaf':3,'max_features':'sqrt','max_depth':12,'criterion':'entropy','class_weight':'balanced_subsample'}
其中,n_estimators指决策树的个数,min_samples_split指根据属性划分节点时,每个划分最少的样本数,min_samples_leaf指叶子节点最少的样本数,max_features指选择最适属性时划分的特征不能超过此值,max_depth指树的最大深度,criterion指计算属性的gini(基尼系数)还是entropy(信息增益)来选择最合适的节点,class_weight指各个类别的权重。通过网格搜索,我们确定了该任务中使用随机森林算法的最优决策树数目。
在本发明的实施方式中,所述算法模型比较单元22与所述参数配置单元23均能够执行网格搜索,以进行超参数调优。
在本发明的实施例中,涉及参数指超参数,在训练之前需要人为设定。示例性地,支持向量机分类模型中的超参数包括,C:正则化参数,控制分类器的复杂度;kernel:核函数,用于将数据映射到更高维的空间中,以便在该空间中进行分类;gamma:核函数的系数,影响模型的复杂度和拟合能力。
K最近邻法算法模型中的超参数包括,k:选择最近邻的数量,决定了模型的复杂度和拟合能力;距离度量方法:用于计算样本之间的距离,常用的有欧式距离、曼哈顿距离等。
逻辑回归算法模型中的超参数包括,正则化参数:控制模型的复杂度,防止过拟合;solver:用于优化损失函数的算法,常用的有随机梯度下降、牛顿共轭梯度法等。
线性判别分析算法模型中的超参数包括,solver:LDA的求解方法,常用的有svd和eigen两种方法;shrinkage:用于控制协方差矩阵的收缩程度,防止过拟合。
决策树算法模型中的超参数包括,criterion:决策树的划分标准,常用的有gini和entropy两种方法;max_depth:树的最大深度,用于控制树的复杂度和拟合能力。
随机森林算法模型中的超参数包括,n_estimators:森林中树的数量;max_features:每棵树用于划分的特征数量;criterion:树的划分标准。
自适应增强算法模型中的超参数包括,n_estimators:基分类器的数量;learning_rate:每个基分类器的权重缩减系数,用于控制模型的复杂度和拟合能力。
梯度提升算法模型中的超参数包括,n_estimators:基分类器的数量;learning_rate:每个基分类器的权重缩减系数;max_depth:每棵树的最大深度,用于控制模型的复杂度和拟合能力。
在一个实施方式中,所述模型训练模块13还包括模型评估单元24,所述模型评估单元24被配置为用于基于所述测试集评估训练好的所述来源分析模型。
示例性的,所述模型评估单元24执行测试和评估两个步骤,以基于所述测试集评估训练好的所述来源分析模型。
具体地,所述模型评估单元24用于评价模型的准确性和泛化能力。模型的准确性指模型对于训练数据的预测精度,准确性越高,说明模型在训练数据上的表现越好;模型的泛化能力指的是模型对于新数据的预测精度,即模型在未见过的数据上的表现能力,是衡量一个模型好坏的重要指标。
在一个实施方式中,所述系统还包括模型评价模块,其中,所述模型评价模块被配置为基于训练好的所述来源分析模型,鉴别所述训练样本或待鉴别数据的ACTH分泌来源;以及,将所述来源分析模型的鉴别结果与使用HDDST、LDDST以及BIPSS方法中至少一个方法获得的鉴别结果进行比较,基于比较结果评价所述来源分析模型的准确性和泛化能力。
示例性的,所述模型评价模块可以采用训练样本进行上述模型评价,在所述训练样本中,可以直接获取使用HDDST、LDDST以及BIPSS方法中至少一个对所述训练样本鉴别获得的鉴别结果;或者,所述模型评价模块还可以采用训练样本之外的患者数据指标作为待鉴别数据,鉴别其ACTH分泌来源,并采用HDDST、LDDST以及BIPSS方法中至少一个进行重复鉴别,以完成模型评价。所述模型评价模块用于进一步测试并评价训练好的所述来源分析模型,以保证其准确性和泛化能力。
参阅附图3,图3是根据本发明的一个实施例的ACTH分泌来源分析系统的模型训练步骤流程图。如图3所示,本发明实施例中的ACTH分泌来源分析系统的模型训练主要包括下列步骤S301-步骤S311。
步骤S301,获取初始样本数据;
步骤S302,数据预处理单元对所述初始样本数据进行数据分割、分层抽样;
同时执行步骤S303和步骤S308,对所述初始样本数据分别进行预处理;
步骤S304,获得训练集和验证集;步骤S309,获得测试集;
步骤S305,基于所述训练集和验证集,算法模型比较单元基于嵌套交叉验证对所述机器学习算法模型进行比较,其中,基于3次内层循环,通过网格搜索调整所述多个机器学习算法模型的参数组合,对所述多个机器学习算法模型进行训练;基于5次外层循环对所述多个机器学习算法模型进行训练,通过数据拆分和模型评估获取其中准确性最佳的作为最优算法模型;
步骤S306,获得最优算法模型;
步骤S307,参数配置单元基于所述最优算法模型,以及训练集和验证集,获得最优参数组合;其中,基于3次循环对所述最优算法模型进行训练,通过网格搜索调整所述最优算法模型的参数组合,并获得最优参数组合,基于所述最优参数组合获得来源分析模型;
步骤S310,模型评估单元对训练好的所述来源分析模型进行测试和评估;
步骤S311,基于训练好的所述来源分析模型,鉴别所述训练样本或待鉴别数据的ACTH分泌来源;
步骤S312,将所述来源分析模型的鉴别结果与使用HDDST、LDDST以及BIPSS方法中至少一个方法获得的鉴别结果进行比较,基于比较结果评价所述来源分析模型的准确性。
上述技术方案中,通过构建包括数据采集模块、模型构建和存储模块、模型训练模块、数据分析模块的ACTH分泌来源分析系统,以达到无创鉴别ACTH分泌来源的目的,以准确鉴别ACTH分泌来源为脑垂体分泌和外周组织分泌的比例。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
需要说明的是,本发明实施例所涉及的待鉴别数据、初始样本数据(包括CD患者和EAS患者的生化检验数据以及影像医学数据)等信息,均为经患者授权或者经过各方充分授权的信息和数据。本发明实施例中涉及到的数据的获取、采集等动作,均为经患者、对象授权或者经过各方充分授权后执行。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种ACTH分泌来源分析系统,其特征在于,所述系统至少包括数据采集模块、模型构建和存储模块、模型训练模块、数据分析模块;
所述数据采集模块用于采集待鉴别数据;
所述模型构建和存储模块被配置为构建并存储有多个机器学习算法模型;
所述模型训练模块用于基于训练样本对所述多个机器学习算法模型进行训练,以得到与所述训练样本适配性最佳的机器学习算法模型作为鉴别ACTH分泌来源的来源分析模型;
所述数据分析模块用于基于训练好的来源分析模型对输入的待鉴别数据进行分析,基于分析结果确定所述待鉴别数据的ACTH分泌来源,所述ACTH分泌来源包括脑垂体分泌和/或外周组织分泌。
2.根据权利要求1所述的系统,其特征在于,所述模型训练模块包括数据预处理单元:
所述预数据处理单元被配置为对初始样本数据进行预处理,形成训练样本,所述训练样本包括训练集、验证集和测试集,所述训练集、验证集和测试集中的数据不相同,所述初始样本数据中至少包括多个CD患者和多个EAS患者的生化检验数据以及影像医学数据。
3.根据权利要求2所述的系统,其特征在于,所述模型训练模块还包括算法模型比较单元和参数配置单元;
所述算法模型比较单元被配置为基于所述训练样本中的训练集和验证集对所述多个机器学习算法模型进行比较,获取对所述ACTH分泌来源分析准确性最佳模型,以所述最佳模型作为与所述训练样本适配性最佳的最优算法模型;
所述参数配置单元被配置为调整所述最优算法模型的参数组合,并对调整参数组合后的所述最优算法模型进行训练,以得到来源分析模型。
4.根据权利要求3所述的系统,其特征在于,所述算法模型比较单元被配置为:
基于所述训练样本中的训练集和验证集,通过嵌套交叉验证对所述多个机器学习算法模型进行比较;
其中,所述嵌套交叉验证包括基于网格搜索调整参数组合,基于不同参数组合对所述多个机器学习算法模型进行筛选。
5.根据权利要求4所述的系统,其特征在于,所述基于不同参数组合对所述多个机器学习算法模型进行筛选包括:
基于预定次数的内层循环,通过网格搜索调整所述多个机器学习算法模型的参数组合,对所述多个机器学习算法模型进行训练;
基于预定次数的外层循环对所述多个机器学习算法模型进行训练,通过数据拆分和模型评估获取其中准确性最佳的作为最优算法模型。
6.根据权利要求3所述的系统,其特征在于,所述参数配置单元被配置为:
基于预定次数的循环对所述最优算法模型进行训练,通过网格搜索调整所述最优算法模型的参数组合,并获得最优参数组合;
基于所述最优参数组合获得来源分析模型。
7.根据权利要求3所述的系统,其特征在于,所述模型训练模块还包括模型评估单元,
所述模型评估单元被配置为用于基于所述测试集评估训练好的所述来源分析模型。
8.根据权利要求1所述的系统,其特征在于,所述模型构建和存储模块被配置为构建并存储至少以下算法模型:支持向量机分类模型、K最近邻法算法模型、逻辑回归算法模型、线性判别分析算法模型、决策树算法模型、随机森林算法模型、自适应增强算法模型、梯度提升算法模型。
9.根据权利要求1所述的系统,其特征在于,所述数据采集模块采集的所述待鉴别数据至少采集以下数据指标:患者的年龄、性别、从症状出现到诊断为ACTH依赖性库欣综合征的时长、BMI、血钾浓度、清晨血皮质醇浓度、血ACTH浓度、24小时尿游离皮质醇、大剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、小剂量地塞米松抑制试验抑制后24hUFC/抑制前24hUFC比值、以及核磁共振中垂体病变占位最大径。
10.根据权利要求2所述的系统,其特征在于,所述系统还包括模型评价模块,其中,
所述模型评价模块被配置为基于训练好的所述来源分析模型,鉴别所述训练样本或待鉴别数据的ACTH分泌来源;
以及,将所述来源分析模型的鉴别结果与使用HDDST、LDDST以及BIPSS方法中至少一个方法获得的鉴别结果进行比较,基于比较结果评价所述来源分析模型的准确性和泛化能力。
CN202310291989.5A 2023-03-23 2023-03-23 Acth分泌来源分析系统 Pending CN116525097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310291989.5A CN116525097A (zh) 2023-03-23 2023-03-23 Acth分泌来源分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310291989.5A CN116525097A (zh) 2023-03-23 2023-03-23 Acth分泌来源分析系统

Publications (1)

Publication Number Publication Date
CN116525097A true CN116525097A (zh) 2023-08-01

Family

ID=87400166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310291989.5A Pending CN116525097A (zh) 2023-03-23 2023-03-23 Acth分泌来源分析系统

Country Status (1)

Country Link
CN (1) CN116525097A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117592555A (zh) * 2023-11-28 2024-02-23 中国医学科学院北京协和医院 一种面向多源异构医疗数据的联邦学习方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117592555A (zh) * 2023-11-28 2024-02-23 中国医学科学院北京协和医院 一种面向多源异构医疗数据的联邦学习方法及系统
CN117592555B (zh) * 2023-11-28 2024-05-10 中国医学科学院北京协和医院 一种面向多源异构医疗数据的联邦学习方法及系统

Similar Documents

Publication Publication Date Title
Olsen et al. Clinical applications of machine learning in the diagnosis, classification, and prediction of heart failure
Renna et al. Deep convolutional neural networks for heart sound segmentation
Fujisawa et al. The possibility of deep learning-based, computer-aided skin tumor classifiers
Elhoseny et al. A new multi-agent feature wrapper machine learning approach for heart disease diagnosis
Banerjee et al. Deep radiomics for brain tumor detection and classification from multi-sequence MRI
Öksüz et al. Brain tumor classification using the fused features extracted from expanded tumor region
US20200037949A1 (en) Systems and methods for analyzing skin surface temperature rhythms to monitor health conditions
US11200666B2 (en) Method for diagnosing, predicting, determining prognosis, monitoring, or staging disease based on vascularization patterns
Mahboob et al. Evaluating ensemble prediction of coronary heart disease using receiver operating characteristics
Seetharam et al. Cardiovascular imaging and intervention through the lens of artificial intelligence
CN116525097A (zh) Acth分泌来源分析系统
CN112052874B (zh) 一种基于生成对抗网络的生理数据分类方法及系统
Xie et al. Intelligent analysis of premature ventricular contraction based on features and random forest
CN115715416A (zh) 基于机器学习的医学数据检查器
Sanders Jr et al. Machine learning: at the heart of failure diagnosis
CN113408603B (zh) 一种基于多分类器融合的冠状动脉狭窄病变程度识别方法
Juarto Breast cancer classification using outlier detection and variance inflation factor
Jain et al. Lung Cancer Detection Using Machine Learning Algorithms
Vishwakarma et al. An early prognosis of lung cancer using machine intelligence
US11830340B1 (en) Method and system for secretion analysis embedded in a garment
Geetharamani et al. Iterative principal component analysis method for improvised classification of breast cancer disease using blood sample analysis
Sudha et al. Detection and Classification of Diabetic Retinopathy Using DCNN and BSN Models.
Ghose et al. A breast cancer detection model using a tuned svm classifier
Zhou et al. A novel 1-D densely connected feature selection convolutional neural network for heart sounds classification
Temurtas et al. Machine learning for thyroid cancer diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination