CN113052199A - 病情检测模型的训练方法、装置、设备及计算机存储介质 - Google Patents

病情检测模型的训练方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN113052199A
CN113052199A CN201911384548.XA CN201911384548A CN113052199A CN 113052199 A CN113052199 A CN 113052199A CN 201911384548 A CN201911384548 A CN 201911384548A CN 113052199 A CN113052199 A CN 113052199A
Authority
CN
China
Prior art keywords
sample data
disease
detection model
condition
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911384548.XA
Other languages
English (en)
Inventor
胡冉杰
曹雪莹
李楠
张文军
周冰彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Chengdu ICT Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Chengdu ICT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Chengdu ICT Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911384548.XA priority Critical patent/CN113052199A/zh
Publication of CN113052199A publication Critical patent/CN113052199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种病情检测模型的训练方法、装置、设备及计算机存储介质。该方法包括:获取训练样本集,训练样本集包括多个病情样本数据,每个病情样本数据包括身份特征数据和目标指标数据;多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据;将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。本发明实施例根据病人的病情样本数据训练病情检测模型,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。

Description

病情检测模型的训练方法、装置、设备及计算机存储介质
技术领域
本发明属于信息处理领域,尤其涉及一种病情检测模型的训练方法、装置、设备及计算机存储介质。
背景技术
在病房中,每个住院床位通常都设置有手动报警的按钮,病人出现紧急状况能够通过手动报警按钮呼叫医护人员,医护人员收到报警信息后能够及时前往病人床位提供医疗服务。
目前还有根据医生的专业经验,划分出各个体征的经验阈值范围来进行自动预警的方式,当低于下阈值、高于上阈值的时候判定为是异常情况。这种预警由于主要是根据医生经验来判决,缺少了对每个个体差异性的考虑。一概而论地根据经验设计报警阈值,可能会让有些不该报警的时候造成敏感的自动报警,也有可能让有些应该报警的时候没有响应。
因此,如何提高病情报警的准确度,成为一个有待解决的问题。
发明内容
本发明实施例提供一种病情检测模型的训练方法、装置、设备及计算机存储介质,以提高病情报警的准确度。
第一方面,本申请提供了一种病情检测模型的训练方法,该方法包括:获取训练样本集,训练样本集包括多个病情样本数据,每个病情样本数据包括:身份特征数据和目标指标数据,目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个;多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据;将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。
在一种可能的实现中,将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型,具体包括:将训练样本集输入到病情检测模型中,得到训练样本集的分类结果;判断分类结果是否满足预设条件,如果分类结果满足预设条件,得到训练后的病情检测模型;如果分类结果不满足预设条件,调整模型参数,将训练样本集输入到参数调整后的病情检测模型中,得到训练样本集的分类结果;返回判断分类结果是否满足预设条件。
在一种可能的实现中,在得到训练后的病情检测模型之后,方法还包括:将有标记的病情样本数据输入到病情检测模型中,对病情检测模型进行优化,得到优化后的病情检测模型。
在一种可能的实现中,在将训练样本集输入到病情检测模型中之前,方法还包括:对病情样本数据进行标准化预处理,使病情样本数据缩小至指定区间,得到第一病情样本数据;对第一病情样本数据进行降维处理,确定第二病情样本数据;根据第二病情样本数据和与第二病情样本数据对应的医生反馈信息,确定第三病情样本数据;相应地,将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,具体包括:将第三病情样本数据输入到病情检测模型中,对病情检测模型进行迭代训练。
在一种可能的实现中,对第一病情样本数据进行降维处理,确定第二病情样本数据,包括:获取第一样本数据中包括的生理特征指标数据的数量,以及身份特征数据、疾病特征指标数据和病史特征指标数据的数量总和,以及第一样本数据的采样次数;
根据采样次数、生理特征指标数据的数量动态指标数据数量和,以及身份特征数据、疾病特征指标数据、和病史特征指标数据的数量总和确定第一样本数据的第一维度;基于主成分分析算法和/或自编码器算法对第一维度的第一病情样本数据进行降维处理,得到第二维度的第二病情样本数据。
在一种可能的实现中,根据第二病情样本数据和与第二病情样本数据对应的医生反馈信息,确定第三病情样本数据,包括:在医生反馈信息为误报警信息或病人需求信息的情况下,确定第二病情样本数据为第一样本数据;在医生反馈信息为指标异常信息的情况下,确定第二病情样本数据为第二样本数据,其中,第二样本数据包括多个第二样本数据的类别值;在第二病情样本数据没有对应的医生反馈信息的情况下,确定第二病情样本数据为无标记的病情样本数据;将正常样本数据和异常样本数据确定为有标记的病情样本数据;将有标记的病情样本数据和无标记的病情样本数据确定为第三病情样本数据。
在一种可能的实现中,将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型,包括:基于第三病情样本数据,训练病情检测模型;其中,基于第三病情样本数据,训练病情检测模型,包括:对第三病情样本数据进行聚类,确定第三病情样本数据的多个聚类簇;根据多个聚类簇确定多个聚类簇的簇中心对应的多个病情类别值,病情类别值包括多个第二样本数据的和一个第一样本数据的类别值;直至多个病情类别值满足预设训练条件。
在一种可能的实现中,对第三病情样本数据进行聚类,确定第三病情样本数据的多个聚类簇,包括:根据多个第二样本数据的类别值的数量确定第三病情样本数据中的第二样本数据的聚类簇;根据多个第二样本数据的类别值的数量和预设比值确定第三病情样本数据中的第一样本数据的聚类簇;将第二样本数据的聚类簇和第一样本数据的聚类簇作为第三病情样本数据的多个聚类簇。
第二方面,本发明实施例提供了一种病情检测方法,该方法包括:获取待检测的病情样本数据;将待检测的病情样本数据输入病情检测模型,输出病情样本数据的病情类别值。
第三方面,本发明实施例提供了一种病情检测模型的训练装置,装置包括:获取模块,用于获取训练样本集,训练样本集包括多个病情样本数据,每个病情样本数据包括:身份特征数据和目标指标数据,目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个;多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据;训练模块,用于将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。
第四方面,本发明实施例提供了一种病情检测装置,装置包括:获取模块,用于获取待检测的病情样本数据;输出模块,用于将待检测的病情样本数据输入病情检测模型,输出病情样本数据的病情类别值。
第五方面,本发明实施例提供了一种计算设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如本发明实施例提供的病情检测模型的训练方法。
第六方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的病情检测模型的训练方法。
本发明实施例的病情检测模型的训练方法、装置、设备及计算机存储介质,通过根据病人的包括身份特征数据和目标指标数据的病情样本数据训练病情检测模型,其中目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种病情检测模型的训练方法的流程示意图;
图2是本发明实施例提供的一种病情检测方法的流程示意图;
图3是本发明实施例提供的一种病情检测模型的训练装置的结构示意图;
图4是本发明实施例提供的一种病情检测装置的结构示意图;
图5是本发明实施例提供的一种示例性硬件架构的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前在病房中,主要有两种检测病情的方法,一方面,每个住院床位通常都设置有手动报警的按钮,病人出现紧急状况能够通过手动报警按钮呼叫护士,护士站设置有终端设备,能够查看管辖区域内每个床位的报警信息,护士站发现报警信息后能够指派护士前往处理。
另一方面,自动报警根据事先划分好各个指标(通常是体征)的阈值,当病人对应指标超过上阈值或者低于下阈值时,将报警信息发送给医生或者护士。例如表1所示的生理特征指标数据,和生理特征指标数据的阈值划分。
表1生理特征指标数据
Figure BDA0002343204820000061
但是,现有方案的自动报警,主要是根据专业医生经验,划分出各个体征的经验上下阈值,当低于下阈值、且高于上阈值的时候判定为是异常情况。由于主要是根据医生经验来判决,缺少了对每个个体差异性的考虑。
比如针对肥胖人群,通常其血糖、血压、血脂的报警阈值,会比平均水平较高,其报警阈值相应得有一定程度的提高。又比如新生儿的体温和呼吸次数都比成人略高,其报警阈值相应得有一定程度的提高。除了这种个人的身体状态不同造成自动报警阈值的差异,阈值的差异性还应该体现在不同年龄性别、不同住院科室、不同病史上。
一概而论地根据经验设计报警阈值,可能会让有些不该报警的时候造成敏感的自动报警,也有可能让有些应该报警的时候没有响应。有可能使医疗资源浪费,也有可能让需要医疗资源时得不到及时的分配。报警的准确率较低。
随着近年来深度学习技术的大力发展,基于训练后的模型对待检测的数据进行检测,得到需要的结果,成为一种流行的趋势。
为了解决目前病情报警的准确度较低的问题,可以基于训练后的病情检测模型检测来检测病情数据,以提高病情检测的效率和准确率。基于此,本发明实施例提供了一种病情检测模型的训练方法。
下面对本发明实施例所提供的病情检测模型的训练方法进行描述。
图1所示为本发明实施例的病情检测模型的训练方法的流程示意图。
如图1所示,该病情检测模型的训练方法可以包括S101-S102,该方法应用于服务器,具体如下所示:
S101,获取训练样本集,训练样本集包括多个病情样本数据,每个病情样本数据包括:身份特征数据和目标指标数据,目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个;多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据。
S102,将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。
本申请提供的病情检测模型的训练方法中,通过根据病人的包括生理特征指标数据和疾病特征指标数据的病情样本数据训练病情检测模型,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。
下面,对S101-S102的内容分别进行描述:
首先,涉及S101,通过采集病人的身份特征数据和目标指标数据作为病情样本数据。其中,目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个。
上述涉及到的身份特征数据包括下述中的至少一项维度指标数据:每个病情样本数据对应的病人的性别、年龄和居住地。
上述涉及到的生理特征指标数据包括下述中的至少一项维度指标数据:每个病情样本数据对应的病人的体温、脉搏、呼吸、血压、血糖、血脂和心率。
上述涉及到的疾病特征指标数据包括下述中的至少一项维度指标数据:每个病情样本数据对应的病人的就诊科室和患病名称。
也就是通过抽取病人的性别、年龄、职业、居住地等静态特征,体温、脉搏、呼吸频率、血压、心率、汗液、睡眠、卡路里、血糖、血脂等作为动态特征,当前的科室、和本次所患疾病作为疾病特征,病史作为病史特征。利用以上特征作为样本维度。静态特征体现个体之间大类别的差异性,动态特征体现实时的身体指标,疾病特征体现本次所患疾病对于报警阈值的影响,病史特征作为个体历史疾病对于报警阈值的影响。
这里,通过考虑病人的各种维度指标数据,并对维度进行压缩。建立起模型后,对每个病人针对其体征、病史、当前科室和疾病,能够计算出预警阈值。
其次,涉及S102,
作为本申请的一种实现方式,为了提高病情检测模型的精度,在S102之前,还可以包括以下步骤:
对病情样本数据进行标准化预处理,使病情样本数据缩小至指定区间,得到第一病情样本数据;对第一病情样本数据进行降维处理,确定第二病情样本数据;根据第二病情样本数据和与第二病情样本数据对应的医生反馈信息,确定第三病情样本数据;相应地,将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,具体包括:将第三病情样本数据输入到病情检测模型中,对病情检测模型进行迭代训练。
由于每一次采集只是对当前时刻数据的各个特征值的采样,如果只针对瞬时特征值进行采样,检测异常报警的精度可能会比较低,但是对时序序列的学习,本发明的病情样本数据是少量医生有反馈的半监督样本,因此采用半监督聚类,在半监督局聚类之前需要对病情样本数据进行预处理,具体如下所示。
其中,对病情样本数据进行标准化预处理,使病情样本数据缩小至指定区间,得到第一病情样本数据然后可以为将病情样本数据归一化到[0,1]的区间。
在上述涉及到的对第一病情样本数据进行降维处理,确定第二病情样本数据的步骤中,具体可以包括:获取第一样本数据中包括的生理特征指标数据的数量,以及身份特征数据、疾病特征指标数据和病史特征指标数据的数量总和,以及第一样本数据的采样次数;据采样次数、生理特征指标数据的数量动态指标数据数量和,以及身份特征数据、疾病特征指标数据、和病史特征指标数据的数量总和确定第一样本数据的第一维度;基于主成分分析算法和/或自编码器算法对第一维度的第一病情样本数据进行降维处理,得到第二维度的第二病情样本数据。
其中,根据采样次数、动态指标数据数量和静态指标数量确定第一样本数据的第一维度可以为sn-(s-1)p。即特征每t分钟被采集一次,以s次采集的指标作为一个时序样本,如果每次采集n个维度,其中非动态特征p个,则一个时序样本有sn-(s-1)p(sn是总样本数,(s-1)p是重复的非动态特征数量)个维度。
接着,考虑到动态维度在时序中的多次采样会有一定的重复性,比如有些动态维度(血压等),数值变化不大,短时间内采样过于密集会得到一样的数据,所以采用主成分分析法(Principal Component Analysis,PCA)、自编码器等方法将维度从ns-(s-1)p降低到q维。即基于主成分分析算法和/或自编码器算法对第一维度的第一病情样本数据进行降维处理,得到第二维度的第二病情样本数据。其中,PCA、自编码方式都是基于融合的方式进行降维处理,其中PCA是线性融合、自编码是非线性融合。
这里通过PCA、自编码器压缩其维度,再和非动态特征一起组合成一个样本,将维度数量进行压缩,得到表现力更强的高维特征,方便后续处理。
在上述涉及到的根据第二病情样本数据和与第二病情样本数据对应的医生反馈信息,确定第三病情样本数据的步骤中,具体可以包括:
在医生反馈信息为误报警信息或病人需求信息的情况下,确定第二病情样本数据为正常样本数据,即第一样本数据;
在医生反馈信息为指标异常信息的情况下,确定第二病情样本数据为异常样本数据,即第二样本数据。其中,异常样本数据包括多个异常类别值,即第二样本数据的类别值。
在第二病情样本数据没有对应的医生反馈信息的情况下,确定第二病情样本数据为无标记的病情样本数据;将正常样本数据和异常样本数据确定为有标记的病情样本数据;将有标记的病情样本数据和无标记的病情样本数据确定为第三病情样本数据。
第三病情样本数据通过以下方法来确定,如果最后采样时刻t没有医生反馈,认为是无标记样本;如果最后采样时刻t有医生反馈,认为有标记样本,且根据医生反馈标记为误报、病人单纯的需要帮助、指标异常中的某种情况。在医生反馈信息为误报警信息或病人需求信息的情况下,确定第二病情样本数据为正常样本数据。在医生反馈信息为指标异常信息的情况下,确定第二病情样本数据为异常样本数据,根据严重情况,分为若干等级,总共分为k个类别,即异常样本数据包括多个异常类别值。
至此,样本预处理完成,得到了m个时序样本。其中有部分有标记,剩下的无标记。其中,M与上文的t和s有关,比如一个病人连续采集T分钟,m=病人数量*(T/t-s+1)。
在S102中涉及到的将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型的步骤中,具体可以包括:基于第三病情样本数据,训练病情检测模型。
在上述涉及到的基于第三病情样本数据,训练病情检测模型的步骤中,具体可以包括:
对第三病情样本数据进行聚类,确定第三病情样本数据的多个聚类簇;根据多个聚类簇确定多个聚类簇的簇中心对应的多个病情类别值,病情类别值包括多个异常类别值和一个正常类别值;直至多个病情类别值满足预设训练条件。
当采集到大量无标记样本、正常样本、异常样本后,进行线下的半监督聚类。通常大多数样本都是无标记样本,有标记的正常样本和异常样本都只占少数,因此在半监督聚类中,需要引入该偏好,具体方法为根据医学上的统计,得到正常时间和异常时间的比例,假设为r倍,即预设比值。初始化聚类中心点,将正常类别的簇中心个数初始为k*r个。具体步骤如下:
在上述涉及到的对第三病情样本数据进行聚类,确定第三病情样本数据的多个聚类簇的步骤中,具体可以包括:根据多个异常类别值的数量确定第三病情样本数据中的异常样本数据的聚类簇;根据多个异常类别值的数量和预设比值确定第三病情样本数据中的正常样本数据的聚类簇;将异常样本数据的聚类簇和正常样本数据的聚类簇作为第三病情样本数据的多个聚类簇。
输入:样本集D={x1,x2,……,xm};少量有标记样本
Figure BDA0002343204820000111
(其中S0为标记的正常样本);聚类簇数(k+1)*r(其中异常的簇k个)。
具体处理过程如下:
S1:for j=0,1,2,…,k do
S2:
Figure BDA0002343204820000112
(作为有标记异常、正常样本中心)
S3:end for
在样本空间的q维中,找出各维度的最大值和最小值。在各维度最大值和最小值约束的样本子空间中,随机初始化(k+1)*(r-1)(总簇数(k+1)*r减去k个异常簇,再减去1个有标记的正常簇)随机初始化kr-1(总簇数(r+1)*k减去k个异常簇,再减去1个有标记的正常簇)个点,作为正常的无标记样本的簇中心。
通过k-means、学习向量量化(LVQ)、高斯混合模型(GMM)、DBSCAN等方法进行聚类,但是不限于列举的几种原型聚类、密度聚类方法,直到所有簇中心都不会发生更新
将(k+1)*(r-1)kr-1个无标记初始化簇中心和1个有标记簇中心标记的类的样本标记为无异常,总共kr个簇中心。将k个有异常簇中心标记的样本判断为k类异常。
输出:各训练样本归属的类别,共k+1类。
在一个实施例中,将训练样本集输入到病情检测模型中,得到训练样本集的分类结果;判断分类结果是否满足预设条件,如果分类结果满足预设条件,得到训练后的病情检测模型;如果分类结果不满足预设条件,重新将下一个训练样本集输入到病情检测模型中。
判断分类结果是否满足预设条件,如果分类结果满足预设条件,得到训练后的病情检测模型;如果分类结果不满足预设条件,重新将下一个训练样本集输入到病情检测模型中。
作为本申请的一种实现方式,为了提高病情检测模型的精度,在S102之后,还可以包括以下步骤:
将有标记的病情样本数据输入到病情检测模型中,对病情检测模型进行优化,得到优化后的病情检测模型。
模型上线运行后,以后的样本会新增,对于新增的无标记样本,不用无标记样本来调整模型参数,只是作推理,得出结果。将这些样本打上推理标记后,放入样本集合。
对于新增的有标记样本,确定(k+1)*r个簇中心之间,两两最近的个簇中心距离的平均值d,找出以新增的有标记样本为中心点,d/2为半径的高维球形区域,将高维球形区域内的样本标签都改为和该新样本标签一致。然后重新计算该类别的簇中心。然后将该类别的所有样本点重新计算其距离最近的类的簇中心,将该类别的每个样本重新判决类别。新样本到来后,可以使用最近邻算法(K-Nearest Neighbor,KNN)判断新样本属于什么类别。根据类别的报警等级,通知医生护士。无需重新对全量样本进行无监督聚类,只是在原有基础上进行局部区域的调整。
这样在模型上线后,病情检测模型依然能够实时学习出医生标记样本的信息,来使模型自适应医生的经验,精进病情检测模型。对于医生护士反馈的标记结果,自适应地改变模型判决。不需要重新做一次全样本聚类,只调整局部区域的样本的标记即可。让模型的自适应能力更强,算法自适应速度更快。
综上,本发明实施例的病情检测模型的训练方法,通过根据病人的包括生理特征指标数据和疾病特征指标数据的病情样本数据训练病情检测模型,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。
另外,本发明实施例还提供了一种病情检测方法,具体结合图2进行详细说明。
图2是本发明实施例提供的一种病情检测方法的流程示意图;
如图2所示,如图1所示,该病情检测方法可以包括S201-S202,该方法应用于服务器,具体如下所示:
S201,获取待检测的病情样本数据;
涉及S201,通过采集病人的身份特征数据、生理特征指标数据、疾病特征指标数据和/或病史特征指标数据作为病情样本数据。
上述涉及到的身份特征数据包括下述中的至少一项维度指标数据:每个病情样本数据对应的病人的性别、年龄和居住地。
上述涉及到的生理特征指标数据包括下述中的至少一项维度指标数据:每个病情样本数据对应的病人的体温、脉搏、呼吸、血压、血糖、血脂和心率。
上述涉及到的疾病特征指标数据包括下述中的至少一项维度指标数据:每个病情样本数据对应的病人的就诊科室和患病名称。
S202,将待检测的病情样本数据输入病情检测模型,输出病情样本数据的病情类别值。其中,病情检测模型是基于S201-S202的方法和步骤训练得到。
本发明实施例的病情检测方法,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。
另外,基于上述病情检测模型的训练方法,本发明实施例还提供了一种病情检测模型的训练装置,具体结合图3进行详细说明。
图3是本发明实施例提供的一种病情检测模型的训练装置的结构示意图;
如图3所示,该装置300可以包括:
获取模块310,用于获取训练样本集,训练样本集包括多个病情样本数据,每个病情样本数据包括:身份特征数据和目标指标数据,目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个;多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据。
训练模块320,用于将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。
作为一个示例,训练模块320具体用于将训练样本集输入到病情检测模型中,对病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型,具体包括:将训练样本集输入到病情检测模型中,得到训练样本集的分类结果;判断分类结果是否满足预设条件,如果分类结果满足预设条件,得到训练后的病情检测模型;如果分类结果不满足预设条件,重新将下一个训练样本集输入到病情检测模型中。
训练模块320还用于将有标记的病情样本数据输入到病情检测模型中,对病情检测模型进行优化,得到优化后的病情检测模型。
训练模块320还用于对病情样本数据进行标准化预处理,使病情样本数据缩小至指定区间,得到第一病情样本数据;对第一病情样本数据进行降维处理,确定第二病情样本数据;根据第二病情样本数据和与第二病情样本数据对应的医生反馈信息,确定第三病情样本数据。
作为一个示例,训练模块320具体用于获取第一样本数据中包括的动态指标数据数量和静态指标数量,以及第一样本数据的采样次数;根据采样次数、动态指标数据数量和静态指标数量确定第一样本数据的第一维度;基于主成分分析算法和/或自编码器算法对第一维度的第一病情样本数据进行降维处理,得到第二维度的第二病情样本数据。
作为一个示例,训练模块320具体用于在医生反馈信息为误报警信息或病人需求信息的情况下,确定第二病情样本数据为正常样本数据;在医生反馈信息为指标异常信息的情况下,确定第二病情样本数据为异常样本数据,其中,异常样本数据包括多个异常类别值;在第二病情样本数据没有对应的医生反馈信息的情况下,确定第二病情样本数据为无标记的病情样本数据;将正常样本数据和异常样本数据确定为有标记的病情样本数据;将有标记的病情样本数据和无标记的病情样本数据确定为第三病情样本数据。
作为一个示例,训练模块320具体用于基于第三病情样本数据,训练病情检测模型;其中,基于第三病情样本数据,训练病情检测模型,包括:对第三病情样本数据进行聚类,确定第三病情样本数据的多个聚类簇;根据多个聚类簇确定多个聚类簇的簇中心对应的多个病情类别值,病情类别值包括多个异常类别值和一个正常类别值;直至多个病情类别值满足预设训练条件。
作为一个示例,训练模块320具体用于根据多个异常类别值的数量确定第三病情样本数据中的异常样本数据的聚类簇;根据多个异常类别值的数量和预设比值确定第三病情样本数据中的正常样本数据的聚类簇;将异常样本数据的聚类簇和正常样本数据的聚类簇作为第三病情样本数据的多个聚类簇。
综上,本发明实施例的病情检测模型的训练装置,通过根据病人的包括生理特征指标数据和疾病特征指标数据的病情样本数据训练病情检测模型,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。
另外,基于上述病情检测方法,本发明实施例还提供了一种病情检测装置,具体结合图4进行详细说明。
如图4所示,该装置400可以包括:
获取模块410,用于获取待检测的病情样本数据.
输出模块420,用于将待检测的病情样本数据输入病情检测模型,输出病情样本数据的病情类别值。
本发明实施例的病情检测装置,基于训练后的病情检测模型检测来检测病情数据,可以提高病情检测的效率和准确率。
图5示出了本发明实施例提供的一种示例性硬件架构的示意图。
该设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种病情检测模型的训练方法。
在一个示例中,该设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将信息处理设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该处理设备可以执行本发明实施例中的病情检测模型的训练方法,从而实现结合图1描述的病情检测模型的训练方法。
该处理设备可以执行本发明实施例中的病情检测方法,从而实现结合图2描述的病情检测方法。
另外,结合上述实施例中的病情检测模型的训练方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意病情检测模型的训练方法。
另外,结合上述实施例中的病情检测方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意病情检测方法。
需要明确的是,本发明实施例并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明实施例的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明实施例的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为软件方式,本发明实施例的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明实施例不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种病情检测模型的训练方法,其特征在于,所述病情检测模型用于识别待检测病情样本数据的病情类别值,所述方法包括:
获取训练样本集,所述训练样本集包括多个病情样本数据,每个所述病情样本数据包括:身份特征数据和目标指标数据,所述目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个;所述多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据;
将所述训练样本集输入到所述病情检测模型中,对所述病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述训练样本集输入到所述病情检测模型中,对所述病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型,具体包括:
将所述训练样本集输入到所述病情检测模型中,得到所述训练样本集的分类结果;
判断分类结果是否满足预设条件,如果所述分类结果满足所述预设条件,得到训练后的病情检测模型;
如果所述分类结果不满足所述预设条件,调整模型参数,
将所述训练样本集输入到参数调整后的病情检测模型中,得到所述训练样本集的分类结果;返回判断分类结果是否满足预设条件。
3.根据权利要求1所述的方法,其特征在于,在所述得到训练后的病情检测模型之后,所述方法还包括:
将有标记的病情样本数据输入到所述病情检测模型中,对所述病情检测模型进行优化,得到优化后的病情检测模型。
4.根据权利要求1所述的方法,其特征在于,在所述将所述训练样本集输入到所述病情检测模型中之前,所述方法还包括:
对所述病情样本数据进行标准化预处理,使所述病情样本数据缩小至指定区间,得到第一病情样本数据;
对所述第一病情样本数据进行降维处理,确定第二病情样本数据;
根据所述第二病情样本数据和与所述第二病情样本数据对应的医生反馈信息,确定第三病情样本数据;
相应地,所述将所述训练样本集输入到所述病情检测模型中,对所述病情检测模型进行迭代训练,具体包括:
将第三病情样本数据输入到所述病情检测模型中,对所述病情检测模型进行迭代训练。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一病情样本数据进行降维处理,确定第二病情样本数据,包括:
获取所述第一样本数据中包括的生理特征指标数据的数量,以及身份特征数据、疾病特征指标数据和病史特征指标数据的数量总和,以及第一样本数据的采样次数;
根据所述采样次数、所述生理特征指标数据的数量和,以及所述身份特征数据、疾病特征指标数据、和病史特征指标数据的数量总和确定所述第一样本数据的第一维度;
基于主成分分析算法和/或自编码器算法对第一维度的第一病情样本数据进行降维处理,得到第二维度的所述第二病情样本数据。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第二病情样本数据和与所述第二病情样本数据对应的医生反馈信息,确定第三病情样本数据,包括:
在所述医生反馈信息为误报警信息或病人需求信息的情况下,确定所述第二病情样本数据为第一样本数据;
在所述医生反馈信息为指标异常信息的情况下,确定所述第二病情样本数据为第二样本数据,其中,所述第二样本数据包括多个第二样本数据的类别值;
在所述第二病情样本数据没有对应的医生反馈信息的情况下,确定所述第二病情样本数据为无标记的病情样本数据;
将所述正常样本数据和所述异常样本数据确定为有标记的病情样本数据;
将所述有标记的病情样本数据和所述无标记的病情样本数据确定为所述第三病情样本数据。
7.根据权利要求6所述的方法,其特征在于,所述将所述训练样本集输入到所述病情检测模型中,对所述病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型,包括:
基于所述第三病情样本数据,训练所述病情检测模型;
其中,所述基于所述第三病情样本数据,训练所述病情检测模型,包括:
对所述第三病情样本数据进行聚类,确定所述第三病情样本数据的多个聚类簇;
根据所述多个聚类簇确定所述多个聚类簇的簇中心对应的多个病情类别值,所述病情类别值包括所述多个第二样本数据的类别值和一个第一样本数据的类别值;
直至所述多个病情类别值满足预设训练条件。
8.根据权利要求7所述的方法,其特征在于,所述对所述第三病情样本数据进行聚类,确定所述第三病情样本数据的多个聚类簇,包括:
根据所述多个第二样本数据的类别值的数量确定所述第三病情样本数据中的第二样本数据的聚类簇;
根据所述多个第二样本数据的类别值的数量和预设比值确定所述第三病情样本数据中的第一样本数据的聚类簇;
将所述第二样本数据的聚类簇和所述第一样本数据的聚类簇作为所述第三病情样本数据的多个聚类簇。
9.一种病情检测方法,其特征在于,所述方法包括:
获取待检测的病情样本数据;
将所述待检测的病情样本数据输入病情检测模型,输出所述病情样本数据的病情类别值;
其中,所述病情检测模型是基于权利要求1-8的病情检测模型的训练方法训练得到。
10.一种病情检测模型的训练装置,其特征在于,所述病情检测模型用于识别待检测病情样本数据的病情类别值,包括:
获取模块,用于获取训练样本集,所述训练样本集包括多个病情样本数据,每个所述病情样本数据包括:身份特征数据和目标指标数据,所述目标指标数据包括生理特征指标数据、疾病特征指标数据和病史特征指标数据中的至少一个;所述多个病情样本数据中包括有标记的病情样本数据和无标记的病情样本数据;
训练模块,用于将所述训练样本集输入到所述病情检测模型中,对所述病情检测模型进行迭代训练,直至满足预设训练条件,得到训练后的病情检测模型。
11.一种病情检测装置,其特征在于,包括:
获取模块,用于获取待检测的病情样本数据;
输出模块,用于将所述待检测的病情样本数据输入病情检测模型,输出所述病情样本数据的病情类别值;其中,所述病情检测模型是是基于权利要求10的病情检测模型的训练装置训练得到。
12.一种计算设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-9任意一项所述的方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的方法。
CN201911384548.XA 2019-12-28 2019-12-28 病情检测模型的训练方法、装置、设备及计算机存储介质 Pending CN113052199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911384548.XA CN113052199A (zh) 2019-12-28 2019-12-28 病情检测模型的训练方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911384548.XA CN113052199A (zh) 2019-12-28 2019-12-28 病情检测模型的训练方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113052199A true CN113052199A (zh) 2021-06-29

Family

ID=76507692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911384548.XA Pending CN113052199A (zh) 2019-12-28 2019-12-28 病情检测模型的训练方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113052199A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110602A (zh) * 2023-04-13 2023-05-12 云南医无界医疗网络科技有限公司 一种应用于医共体的信息处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180315182A1 (en) * 2017-04-28 2018-11-01 Siemens Healthcare Gmbh Rapid assessment and outcome analysis for medical patients
EP3404666A2 (en) * 2017-04-28 2018-11-21 Siemens Healthcare GmbH Rapid assessment and outcome analysis for medical patients
CN109308545A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
US20190139643A1 (en) * 2017-11-08 2019-05-09 International Business Machines Corporation Facilitating medical diagnostics with a prediction model
WO2019200410A1 (en) * 2018-04-13 2019-10-17 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180315182A1 (en) * 2017-04-28 2018-11-01 Siemens Healthcare Gmbh Rapid assessment and outcome analysis for medical patients
EP3404666A2 (en) * 2017-04-28 2018-11-21 Siemens Healthcare GmbH Rapid assessment and outcome analysis for medical patients
US20190139643A1 (en) * 2017-11-08 2019-05-09 International Business Machines Corporation Facilitating medical diagnostics with a prediction model
WO2019200410A1 (en) * 2018-04-13 2019-10-17 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples
CN109308545A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110602A (zh) * 2023-04-13 2023-05-12 云南医无界医疗网络科技有限公司 一种应用于医共体的信息处理方法及系统
CN116110602B (zh) * 2023-04-13 2023-06-20 云南医无界医疗网络科技有限公司 一种应用于医共体的信息处理方法及系统

Similar Documents

Publication Publication Date Title
Ghassemi et al. A multivariate timeseries modeling approach to severity of illness assessment and forecasting in ICU with sparse, heterogeneous clinical data
CN110415821B (zh) 一种基于人体生理数据的健康知识推荐系统及其运行方法
Pourhomayoun et al. Multiple model analytics for adverse event prediction in remote health monitoring systems
CN107145715B (zh) 一种基于推举算法的临床医学智能判别装置
Zebin et al. A deep learning approach for length of stay prediction in clinical settings from medical records
CN114343585B (zh) 认知和行为障碍的预警方法、装置、设备及存储介质
CN117542474A (zh) 基于大数据的远程护理监测系统及方法
Pramanik et al. Identifying Disease and Diagnosis in Females Using Machine Learning
CN117438087A (zh) 基于健康监测数据分析的健康管理方法及系统
KELEŞ Expert doctor verdis: integrated medical expert system
CN113052199A (zh) 病情检测模型的训练方法、装置、设备及计算机存储介质
Alghatani et al. Precision clinical medicine through machine learning: using high and low quantile ranges of vital signs for risk stratification of ICU patients
JP2024513618A (ja) 感染症及び敗血症の個別化された予測のための方法及びシステム
Emakhu et al. Prediction system for heart disease based on ensemble classifiers
US11830340B1 (en) Method and system for secretion analysis embedded in a garment
CN116884612A (zh) 疾病风险等级的智能分析方法、装置、设备及存储介质
Siddiqui et al. Integrating federated learning with IoMT for managing obesity in smart city
Punarselvam A pragmatic approach of Parkinson disease detection using hybrid case-based reasoning neuro-fuzzy classification system over Mobile edge computing
US11289202B2 (en) Method and system to improve clinical workflow
CN111477321A (zh) 具有自学习能力的治疗效果预测系统及治疗效果预测终端
CN115151182B (zh) 用于诊断分析的方法和系统
Anitha et al. Virtual Telemedicine System for Remote Health Monitoring of Patients
US20240194359A1 (en) Methods and systems for transmitting medical information according to prioritization criteria
CN115691811B (zh) 一种用于2型糖尿病患者的健康管理方法及系统
KR102250410B1 (ko) 조건 충족 기반의 건강 정보 예측 알람 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629

RJ01 Rejection of invention patent application after publication