CN116403718B - 生理指征预测模型的构建方法、装置、设备及存储介质 - Google Patents
生理指征预测模型的构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116403718B CN116403718B CN202310671387.2A CN202310671387A CN116403718B CN 116403718 B CN116403718 B CN 116403718B CN 202310671387 A CN202310671387 A CN 202310671387A CN 116403718 B CN116403718 B CN 116403718B
- Authority
- CN
- China
- Prior art keywords
- physiological
- indexes
- index
- physiological index
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000004590 computer program Methods 0.000 claims description 16
- 238000002790 cross-validation Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 9
- 230000035790 physiological processes and functions Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 208000014882 Carotid artery disease Diseases 0.000 description 7
- 208000037876 carotid Atherosclerosis Diseases 0.000 description 7
- 238000007477 logistic regression Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008719 thickening Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000002503 metabolic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000007505 plaque formation Effects 0.000 description 4
- 206010020772 Hypertension Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 201000001320 Atherosclerosis Diseases 0.000 description 2
- 108010028554 LDL Cholesterol Proteins 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 206010072810 Vascular wall hypertrophy Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000035487 diastolic blood pressure Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000011545 laboratory measurement Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Physiology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Psychiatry (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请公开了一种生理指征预测模型的构建方法、装置、设备及存储介质,该方法包括:获取L个对象在S个生理指标下对应的生理指标数据;从L个对象分别对应的生理指标数据中抽取M个对象对应的M个生理指标数据,以及抽取T次N个对象对应的生理指标数据,得到T个生理指标数据集合;对M个生理指标数据交叉验证,选取指标系数不为零的生理指标,得到第一生理指标集合;从T个生理指标数据集合中选取指标出现频次大于预设阈值的生理指标,得到第二生理指标集合;将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标,并构建针对目标生理指征的生理指征预测模型。根据本申请实施例,能够提高预测模型的准确性和稳定性。
Description
技术领域
本申请属于预测模型构建技术领域,尤其涉及一种生理指征预测模型的构建方法、装置、设备及存储介质。
背景技术
通常情况下,目标对象出现目标生理指征与多个危险因素密切相关,为了降低目标生理指征出现的概率,本领域技术人员通常从多个危险因素中筛选可以纳入预测模型的预测指标,从而建立基于预测指标的预测模型,以及早对目标生理指征的出现进行干预。
现有预测模型建立所使用的数据大多来自单中心,数据来源多针对单一群体,导致研究对象明显存在偏倚,所以以此建立的预测模型并不适用于一般对象的早期筛查。并且,现有预测模型一般使用传统的逐步法选择预测指标,预测指标选取的好坏通常与剔除变量的准则和允许变量进入的准则有关,且一旦某个预测指标在某一步被剔除,将无法再次被利用,容易导致遗漏重要预测变量。基于此,现有通过单一指标筛选方法构建的预测模型已无法满足预测指标筛选的普遍性和覆盖率,从而导致预测模型的准确性和稳定性较低。
发明内容
本申请实施例提供了一种生理指征预测模型的构建方法、装置、设备及存储介质,能够提高预测模型的准确性和稳定性。
第一方面,本申请实施例提供了一种生理指征预测模型的构建方法,该方法包括:
从预设数据库中获取L个对象在S个生理指标下分别对应的生理指标数据,生理指标数据用于表征对象在S个生理指标下对应的生理状态,S个生理指标为与目标生理指征对应的生理指标;
按照第一预设比例从L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据,以及按照第二预设比例从L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据,得到T个生理指标数据集合;
利用预设算法对M个生理指标数据进行交叉验证,得到与S个生理指标分别对应的指标系数,从S个生理指标中选取指标系数不为零的生理指标,得到第一生理指标集合;
基于T个生理指标数据集合中每个生理指标的出现频次,从S个生理指标中选取出现频次大于预设阈值的生理指标,得到第二生理指标集合;
将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标,基于目标生理指标构建针对目标生理指征的生理指征预测模型;
其中,L、S、M、T、N均为大于1的正整数,且L>M,L>N;
其中,基于T个生理指标数据集合中每个生理指标的出现频次,从S个生理指标中选取出现频次大于预设阈值的生理指标,得到第二生理指标集合,包括:
对每个生理指标数据集合分别建立预设回归模型;
利用与生理指标数据集合对应的预设回归模型分别对每个生理指标数据集合中的多个生理指标进行逐步回归,得到每个生理指标的统计量及其对应的概率值;
基于每个生理指标的统计量及其对应的概率值,从S个生理指标中选取概率值小于第一预设阈值的生理指标,得到多个预选生理指标;
计算每个预选生理指标在T个生理指标数据集合中的出现频次;
基于每个预选生理指标的出现频次,从多个预选生理指标中选取概率值大于第二预设阈值以及出现频次大于预设阈值的生理指标,得到第二生理指标集合。
在第一方面的一些可实现方式中,上述利用预设算法对M个生理指标数据进行交叉验证,得到与S个生理指标分别对应的指标系数,包括:
将M个生理指标数据划分为第一生理指标数据集和第二生理指标数据集;
利用预设算法对第一生理指标数据集和第二生理指标数据集进行K折交叉验证 ,得到K个惩罚参数及其对应的样本方差,K为正整数;
将K个惩罚参数中的最小惩罚参数确定为目标惩罚参数,根据目标惩罚参数及其对应的样本方差,调整M个生理指标数据中与S个生理指标分别对应的指标系数;
将第一生理指标数据集和第二生理指标数据集的平方误差最小时对应的指标系数确定为与S个生理指标分别对应的目标指标系数。
在第一方面的一些可实现方式中,上述基于目标生理指标构建针对目标生理指征的生理指征预测模型,包括:
将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标;
基于目标生理指标和目标生理指标的指标系数建立预设回归模型,得到针对目标生理指征的生理指征预测模型。
在第一方面的一些可实现方式中,目标生理指标的数量为多个,将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标之后,该方法还包括:
计算每个目标生理指标对应的指标系数与多个目标生理指标对应的指标系数之和的比值,得到每个目标生理指标的权重;
根据每个目标生理指标的权重以及每个对象在多个目标生理指标下分别对应的生理指标数据,确定每个对象的风险评分;
对每个对象的风险评分进行排序,得到排序结果,根据排序结果确定每个对象的风险等级。
在第一方面的一些可实现方式中,上述计算每个目标生理指标对应的指标系数与多个目标生理指标对应的指标系数之和的比值,得到每个目标生理指标的权重,包括:
利用预设系数将比值扩大预设倍数,得到目标生理指标的目标权重,预设系数为300。
第二方面,本申请实施例提供了一种生理指征预测模型的构建装置,该装置包括:
获取模块,用于从预设数据库中获取L个对象在S个生理指标下分别对应的生理指标数据,生理指标数据用于表征对象在S个生理指标下对应的生理状态, S个生理指标为与目标生理指征对应的生理指标;
抽取模块,用于按照第一预设比例从L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据,以及按照第二预设比例从L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据,得到T个生理指标数据集合;
第一选取模块,用于利用预设算法对M个生理指标数据进行交叉验证,得到与S个生理指标分别对应的指标系数,从S个生理指标中选取指标系数不为零的生理指标,得到第一生理指标集合;
第二选取模块,用于基于T个生理指标数据集合中每个生理指标的出现频次,从S个生理指标中选取出现频次大于预设阈值的生理指标,得到第二生理指标集合;
构建模块,用于将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标,基于目标生理指标构建针对目标生理指征的生理指征预测模型;
其中,L、S、M、T、N均为大于1的正整数,且L>M,L>N;
其中,第二选取模块包括:
第一建立子模块,用于对每个生理指标数据集合分别建立预设回归模型;
回归子模块,用于利用与生理指标数据集合对应的预设回归模型分别对每个生理指标数据集合中的多个生理指标进行逐步回归,得到每个生理指标的统计量及其对应的概率值;
第一选取子模块,用于基于每个生理指标的统计量及其对应的概率值,从S个生理指标中选取概率值小于第一预设阈值的生理指标,得到多个预选生理指标;
计算子模块,用于计算每个预选生理指标在T个生理指标数据集合中的出现频次;
第二选取子模块,用于基于每个预选生理指标的出现频次,从多个预选生理指标中选取概率值大于第二预设阈值以及出现频次大于预设阈值的生理指标,得到第二生理指标集合。
第三方面,本申请实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面任意一项所述的生理指征预测模型的构建方法。
第四方面,本申请实施例提供了一种计算机存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面任意一项所述的生理指征预测模型的构建方法。
第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品中的指令由电子设备的处理器执行时,电子设备能够执行第一方面任意一项所述的生理指征预测模型的构建方法。
本申请实施例的生理指征预测模型的构建方法、装置、设备及存储介质,从预设数据库中获取生理指标数据,由于预设数据库中覆盖了全国多个省份的社区居民数据,并且整合了居民社会经济特征、生活方式、代谢指标以及疾病史等因素,由此降低了筛选数据的缺失率,并确保了筛选数据来源的广泛性和普遍性。基于此,通过预设算法进行交叉验证筛选系数不为零的第一生理指标,以及基于生理指标的出现频次筛选出现频次大于预设阈值的第二生理指标,分别得到第一生理指标集合和第二生理指标集合,并将在两个生理指标集合中均存在的生理指标确定为目标生理指标,然后基于目标生理指标构建生理指征预测模型。在生理指征预测模型构建过程中,充分考虑了生理指标筛选的不确定性,从而避免了由于采用单一指标筛选方法构建的预测模型的准确性和稳定性较低的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种生理指征预测模型的构建方法的流程示意图;
图2是本申请实施例提供的一种指标系数确定方法的流程示意图;
图3是本申请实施例提供的一种第二生理指标集合获取方法的流程示意图;
图4是本申请实施例提供的一种风险等级确定方法的流程示意图;
图5是本申请实施例提供的一种生理指征预测模型的构建装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通常情况下,目标对象出现目标生理指征与多个危险因素密切相关,例如,目标对象出现颈动脉粥样硬化,包括颈动脉内中膜增厚和斑块,其形成出现与年龄增加、肥胖、吸烟、高血压、缺乏体育锻炼、低密度脂蛋白胆固醇水平较高等因素有密切关系。因此,建立基于上述危险因素的生理指标预测模型,能够为早期识别对象是否出现目标生理指征而提供高效便捷的工具,对于降低对象出现目标生理指征的概率尤为重要。
示例性的,针对颈动脉粥样硬化预测模型而言,目前国内有一些基于目标对象个体特征和危险因素建立的预测模型,但具有以下缺陷:
(1)现有预测模型建立所使用的数据多来自单中心,例如某一家医院,或者入选的是糖尿病或高血压患者,从而导致研究对象选择存在明显偏倚,对预测模型的预测效果和模型外推应用产生不利影响,以此建立的预测模型也不适用于社区一般人群的动脉粥样硬化早期筛查;
(2)颈动脉内中膜增厚或斑块形成是反映动脉粥样硬化的两个重要指标,两个指标综合起来才能反映整体病变情况,而现有预测模型仅以颈动脉内中膜增厚或斑块形成为结局指标,并未同时纳入两个结局指标,可能导致对颈动脉粥样硬化评估不准确;
(3)一般使用传统的逐步法来选择危险因素,一旦一个变量在某一步被剔除,将没有机会再次进入模型,因而变量选取的好坏与剔除变量的准则和允许变量进入的准则有关,可能会遗漏重要变量,并且采取单一变量筛选方法可能导致拟合模型不稳定,影响预测模型的外推效果。
为了解决现有技术问题,本申请实施例提供了一种生理指征预测模型的构建方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的生理指征预测模型的构建方法进行介绍。
图1示出了本申请实施例提供的一种生理指征预测模型的构建方法的流程示意图。如图1所示,该方法具体包括如下步骤:
S101、从预设数据库中获取L个对象在S个生理指标下分别对应的生理指标数据,生理指标数据用于表征对象在S个生理指标下对应的生理状态, S个生理指标为与目标生理指征对应的生理指标;
S102、按照第一预设比例从L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据,以及按照第二预设比例从L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据,得到T个生理指标数据集合;
S103、利用预设算法对M个生理指标数据进行交叉验证,得到与S个生理指标分别对应的指标系数,从S个生理指标中选取指标系数不为零的生理指标,得到第一生理指标集合;
S104、基于T个生理指标数据集合中每个生理指标的出现频次,从S个生理指标中选取出现频次大于预设阈值的生理指标,得到第二生理指标集合;
S105、将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标,基于目标生理指标构建针对目标生理指征的生理指征预测模型。
由此,根据本申请实施例提供的生理指征预测模型的构建方法,从预设数据库中获取生理指标数据,由于预设数据库中覆盖了全国多个省份的社区居民数据,并且整合了居民社会经济特征、生活方式、代谢指标以及疾病史等因素,由此降低了筛选数据的缺失率,并确保了筛选数据来源的广泛性和普遍性。基于此,通过交叉验证筛选系数不为零的第一生理指标,以及基于生理指标的出现频次筛选出现频次大于预设阈值的第二生理指标,分别得到第一生理指标集合和第二生理指标集合,并将在两个生理指标集合中均存在的生理指标确定为目标生理指标,然后基于目标生理指标构建生理指征预测模型。在生理指征预测模型构建过程中,充分考虑了生理指标筛选的不确定性,从而避免了由于采用单一指标筛选方法构建的预测模型的准确性和稳定性较低的问题。
在一些实施例中,在S101中,预设数据库为与目标生理指征对应的筛查数据库,示例性的,目标生理指征为颈动脉粥样硬化,包括颈动脉内中膜(carotid intima-mediathickness,CIMT)增厚或者斑块,CIMT增厚具体定义为CIMT最大值/平均值≥0.9mm;斑块定义为该部位血管内中膜厚度≥1.5mm,或比临近CIMT增厚>0.5mm,或大于50%,并且是凸向管腔的。其中,预设数据库中覆盖了全国多个省份的社区居民数据,包括心血管高危人群早期筛查最新数据,并且整合了居民社会经济特征、生活方式、代谢指标以及疾病史等因素。
需要说明的是,颈动脉内中膜增厚(carotid intima-media thickness,CIMT)和斑块形成时反映颈动脉粥样硬化病变的两个重要指标,现有模型的缺陷也是由于未同时纳入这两个结局指标而导致结果不准确。而本申请实施例的生理指征预测模型中同时纳入颈动脉内中膜增厚和斑块形成两个结局指标,出现CIMT增厚或斑块则被定义为发生颈动脉粥样硬化,从而更全面准确反映颈动脉粥样硬化的进展情况。作为一种示例,生理指标数据包括人口学特征数据、病史、家族史、实验室测量等数据,S个生理指标是在满足初始条件的情况下从预设数据库中获取的,初始条件包括:(1)具有临床意义,有既往文献支持;(2)方便采集,数据库中信息录入准确可靠;(3)生理指标对应发生频率大于1%。示例性的,通过初筛满足上述初始条件的生理指标共32个,即S为32,32个生理指标包括如下表1所示:
在一些实施例中,在S102中,第一预设比例和第二预设比例可以根据实际情况进行设置,例如可以为50%或25%。作为一种示例,可以将L个对象分别对应的生理指标数据按照50%、25%、25%的比例随机分成三个数据集,分别定义为训练集、测试集和验证集。
示例性的,其中按照第一预设比例从L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据可以对应于上述按照25%所划分的测试集;按照第二预设比例从L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据可以对应于上述按照50%所划分的训练集,按照随机抽样的方法,采用Bootstrap方法抽取50%的生理指标数据作为一个Bootstrap样本,也就是一个生理指标数据集合,例如T可以设置为2000,即重复抽取2000次,得到2000个生理指标数据结合。
在一些实施例中,在S103中,作为一种示例,如图2所示,上述步骤S103具体可以包括如下步骤:
S201、将M个生理指标数据划分为第一生理指标数据集和第二生理指标数据集;
S202、利用预设算法对第一生理指标数据集和第二生理指标数据集进行K折交叉验证,得到K个惩罚参数及其对应的样本方差,K为正整数;
S203、将K个惩罚参数中的最小惩罚参数确定为目标惩罚参数,根据目标惩罚参数及其对应的样本方差,调整M个生理指标数据中与S个生理指标分别对应的指标系数;
S204、将第一生理指标数据集和第二生理指标数据集的平方误差最小时对应的指标系数确定为与S个生理指标分别对应的目标指标系数。
在一些实施例中,在S201中,将M个生理指标数据划分为第一生理指标数据集和第二生理指标数据集,也就是将M个生理指标数据划分为训练集和验证集,以便于衡量预测值与真实值之间的差异。
在一些实施例中,在S202中,示例性的,预设算法为最小绝对收缩和选择算法(Least Absolute Shrinkage and Selection Operator,LASSO),即LASSO算法,示例性的,K可以为10,即通过LASSO算法对第一生理指标数据集和第二生理指标数据集进行十折交叉验证,在验证某一次结果时,第一步是用前九份生理指标数据作为训练集,最后一份作为测试集,得到一个结果,以此类推,每次都拿出一份作为测试集,其余部分作训练集,经过十次十折交叉验证之后,得到10个惩罚参数λ及其对应的样本方差。
需要说明的是,若通过LASSO算法对第一生理指标数据集和第二生理指标数据集只进行一次交叉验证,得到的惩罚参数受限于生理指标数据集样本的选择,而通过LASSO算法进行十折交叉验证得到的惩罚参数则不受限于生理指标数据集样本的选择。由此,通过LASSO算法并进行十折交叉验证,能够确保在有限的生理指标数据中获取更多的有效信息。
在一些实施例中,在S203中,示例性的,若以平方误差作为衡量标准,如下公式(1)所示,在LASSO基础上引入L1范数作为惩罚函数以对模型进行优化。
其中,表示生理指标的指标系数,/>表示结局变量,即/>时表示目标对象出现了目标生理指征,/>时表示目标对象没有出现目标生理指征,每个生理指标数据集合中共有p个生理指标记为/>,λ表示惩罚参数。
由此,借助LASSO交叉验证筛选生理指标,便于选择对结局影响较大的生理指标并计算相应的指标系数,在此基础上进而引入L1范数作为惩罚函数,也能够减小生理指征预测模型的过拟合。
在一些实施例中,在S204中,作为一种示例,如下表2所示,选取不同的惩罚参数λ值可得到不同的生理指标系数, 当λ越大时,表示对越复杂的模型惩罚越大,则L1范数越小,当L1范数足够小时,越来越多的生理指标系数/>被迫压缩为0,进而被剔除。
在一些实施例中,在S104中,如图3所示,上述步骤S104具体可以包括如下步骤:
S301、对每个生理指标数据集合分别建立预设回归模型;
S302、利用与生理指标数据集合对应的预设回归模型分别对每个生理指标数据集合中的多个生理指标进行逐步回归,得到每个生理指标的统计量及其对应的概率值;
S303、基于每个生理指标的统计量及其对应的概率值,从S个生理指标中选取概率值小于第一预设阈值的生理指标,得到多个预选生理指标;
S304、计算每个预选生理指标在T个生理指标数据集合中的出现频次;
S305、基于每个预选生理指标的出现频次,从多个预选生理指标中选取概率值大于第二预设阈值以及出现频次大于预设阈值的生理指标,得到第二生理指标集合。
在一些实施例中,在S301中,示例性的,预设回归模型即Logistic回归模型。基于Bootstrap方法重复抽样T次,得到T个生理指标数据集合,每个生理指标数据集合中包括N个对象的生理指标数据,对每一个生理指标数据集合建立Logistic回归模型。
作为一种示例,Logistic回归模型如下公式所示:
其中,表示目标对象出现目标生理指征的概率,/>表示结局变量,即/>时表示目标对象出现了目标生理指征,/>时表示目标对象没有出现目标生理指征,每个生理指标数据集合中共有p个生理指标记为/>,/>表示常数项,/>,…,/>表示回归系数。
由于Bootstrap抽样方法不需要增加新的生理指标数据样本,只需对原有生理指标数据样本进行多次重抽样。由此,即可保证生理指标数据的随机性,进而也能得到更加稳定的结果。
在一些实施例中,在S302中,对多个生理指标采用逐步法进行指标挑选,即利用上述对数似然函数求解每次引入一个生理指标时每个生理指标的Wald统计量及其对应的概率值。
作为一种示例,结合上述公式(2),将其转换为似然函数形式,则n个目标对象对应的对数似然函数如下公式(3)所示,其中,相应字符的解释与公式(2)中相同,在此不再赘述。
在一些实施例中,在S303中,示例性的,第一预设阈值为0.2,Logistic回归模型在使用逐步法筛选生理指标时,每纳入一个生理指标得到Wald统计量及其对应的概率值P,将S个生理指标中P值小于第一预设阈值0.2的生理指标确定为预选生理指标,若生理指标的P值大于第一预设阈值0.2则直接剔除。
在一些实施例中,在S304和S305中,示例性的,预设阈值为97.5%,第二预设阈值为0.15。计算每个预选生理指标在2000个生理指标集合中的出现频次,从预选生理指标中选取P值大于第二预设阈值0.15以及出现频次大于97.5%的生理指标,如下表3所示,也就是在2000个生理指标变量集合中出现1950次及其以上的生理指标。
在一些实施例中,在S105中,在通过比较LASSO交叉验证和Bootstrap方法选取的生理指标后,为了确保最终选取的目标生理指标与目标生理指征的关联强度和贡献度最大,使得生理指征预测模型能够达到最优的准确度,所以将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标,目标生理指标的选取确定充分考虑了变量估计的不确定性,从而基于目标生理指标和目标生理指标的指标系数建立预设回归模型,得到针对目标生理指征的生理指征预测模型,使得生理指征预测模型可以通过更少的目标生理指征得到稳定可靠的预测结果。
作为一种示例,结合上述表3所示,在确定23个目标生理指标后,基于目标生理指标和目标生理指标的指标系数建立Logistic回归模型,其中各个目标生理指标的指标系数如下表4所示。
示例性的,结合上述表4内容,通过建立Logistic回归模型得到的针对目标生理指征的生理指征预测模型P如下公式(4)所示:
其中,中部、东部、北部、西北、东北、南部指预测对象所在地的所属区域,若预测对象所在地的所属区域属于中部,则对应中部的取值为1,东部、北部、西北、东北、南部对应的取值为0,其他诸如此类;男性对应的取值为1,女性对应取值为0;高血压史、糖尿病史、目前吸烟、城市居民、心血管病家族史对应的取值根据预测对象的实际情况取值,若存在上述情况则对应取值为1,若不存在上述情况则对应取值为0;总胆固醇、低密度脂蛋白胆固醇、空腹血糖、收缩压、舒张压、血压差、年龄则根据预测对象的实际数据判断是否满足相对应的条件,若满足则对应取值为1,若不满足则对应取值为0。
在得到针对目标生理指征的生理指征预测模型之后,分别计算生理指征预测模型在测试集和验证集下的AUC值,即受试者工作特征曲线 (receiver operatingcharacteristic curve, ROC曲线)下面积,分别得到对应AUC值为0.800 (0.797-0.803)和0.798 (0.795-0.801),也证明了构建得到的针对目标生理指征得生理指标预测模型具有较好的外延性。
由此,采用分步式建模策略,在利用LASSO交叉验证初步筛选生理指标的基础上、进一步采用Bootstrap方法和Logistic回归模型筛选生理指标,并基于在两种方法都能保留下来的目标生理指标构建生理指征预测模型,避免预测模型过渡拟合的同时,也能够确保预测模型纳入变量的稳定性,有利于预测模型的推广应用。
图4示出了本申请实施例提供的一种风险等级确定方法的流程示意图。如图4所示,将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标之后,该方法包括如下步骤:
S401、计算每个目标生理指标对应的指标系数与多个目标生理指标对应的指标系数之和的比值,得到每个目标生理指标的权重;
S402、根据每个目标生理指标的权重以及每个对象在多个目标生理指标下分别对应的生理指标数据,确定每个对象的风险评分;
S403、对每个对象的风险评分进行排序,得到排序结果,根据排序结果确定每个对象的风险等级。
在一些实施例中,在S401中,作为一种示例,为了确保目标生理指标的准确性和可靠性,利用预设系数将比值扩大预设倍数,得到目标生理指标的目标权重,预设系数为300。示例性的,利用如下公式(5)计算目标生理指标的目标权重:
其中,表示第i个目标生理指标的目标权重,/>表示第i个目标生理指标的系数,Q表示目标生理指标的数量。
作为一种示例,如下表5所示,每个目标生理指标的目标权重即每个目标生理指标对应的危险评分:
在一些实施例中,在S402中,作为一种示例,利用如下公式(6)计算每个对象的风险评分:
其中,表示第i个对象的风险评分,/>表示第i个目标生理指标的目标权重,/>表示第i个对象对应的第j个目标生理指标的观测值,Q表示目标生理指标的数量。
示例性的,结合表5所示,对象的风险评分B具体可以如下公式(7)所示:
其中,每个目标生理指标的取值关系与公式(4)中的相同,在此不再赘述。
在一些实施例中,在S403中,风险等级包括高危、中危和低危。作为一种示例,得到每个对象的风险评分之后,将每个对象的风险评分从小到大进行排序,得到风险评分的排序结果,将位于第一四分位数的风险评分为41,将小于41分的风险评分划分为低危;位于第三四分位数的风险评分为76,将大于76分的风险评分划分为高危;风险评分介于41-76分的为中危。
由此,建立风险评分体系可应用于临床实践,每个对象利用生理指标预测模型根据自身的生理指标数据得到各个生理指标对应的结果,然后确定风险评分,能够及早提示对象出现目标生理指征的风险。
需要说明的是,上述本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题同样适用。
基于相同的发明构思,本申请提供了一种生理指征预测模型的构建装置,具体结合图5进行详细说明。
图5示出了本申请实施例提供的一种生理指征预测模型的构建装置,如图5所示,该生理指征预测模型的构建装置500可以包括:
获取模块501,用于从预设数据库中获取L个对象在S个生理指标下分别对应的生理指标数据,生理指标数据用于表征对象在S个生理指标下对应的生理状态, S个生理指标为与目标生理指征对应的生理指标;
抽取模块502,用于按照第一预设比例从L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据,以及按照第二预设比例从L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据,得到T个生理指标数据集合;
第一选取模块503,用于利用预设算法对M个生理指标数据进行交叉验证,得到与S个生理指标分别对应的指标系数,从S个生理指标中选取指标系数不为零的生理指标,得到第一生理指标集合;
第二选取模块504,用于基于T个生理指标数据集合中每个生理指标的出现频次,从S个生理指标中选取出现频次大于预设阈值的生理指标,得到第二生理指标集合;
构建模块505,用于将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标,基于目标生理指标构建针对目标生理指征的生理指征预测模型;
其中,L、S、M、T、N均为大于1的正整数,且L>M,L>N。
由此,根据本申请实施例提供的一种生理指征预测模型的构建装置,从预设数据库中获取生理指标数据,由于预设数据库中覆盖了全国多个省份的社区居民数据,并且整合了居民社会经济特征、生活方式、代谢指标以及疾病史等因素,由此降低了筛选数据的缺失率,并确保了筛选数据来源的广泛性和普遍性。基于此,通过交叉验证筛选系数不为零的第一生理指标,以及基于生理指标的出现频次筛选出现频次大于预设阈值的第二生理指标,分别得到第一生理指标集合和第二生理指标集合,并将在两个生理指标集合中均存在的生理指标确定为目标生理指标,然后基于目标生理指标构建生理指征预测模型。在生理指征预测模型构建过程中,充分考虑了生理指标筛选的不确定性,从而避免了由于采用单一指标筛选方法构建的预测模型的准确性和稳定性较低的问题。
在一些实施例中,上述第一选取模块503包括以下子模块:
划分子模块,用于将M个生理指标数据划分为第一生理指标数据集和第二生理指标数据集;
交叉验证子模块,用于利用预设算法对第一生理指标数据集和第二生理指标数据集进行K折交叉验证,得到K个惩罚参数及其对应的样本方差,K为正整数;
调整子模块,用于将K个惩罚参数中的最小惩罚参数确定为目标惩罚参数,根据目标惩罚参数及其对应的样本方差,调整M个生理指标数据中与S个生理指标分别对应的指标系数;
第一确定子模块,用于将第一生理指标数据集和第二生理指标数据集的平方误差最小时对应的指标系数确定为与S个生理指标分别对应的目标指标系数。
在一些实施例中,上述第二选取模块504包括以下子模块:
第一建立子模块,用于对每个生理指标数据集合分别建立预设回归模型;
回归子模块,用于利用与生理指标数据集合对应的预设回归模型分别对每个生理指标数据集合中的多个生理指标进行逐步回归,得到每个生理指标的统计量及其对应的概率值;
第一选取子模块,用于基于每个生理指标的统计量及其对应的概率值,从S个生理指标中选取概率值小于第一预设阈值的生理指标,得到多个预选生理指标;
计算子模块,用于计算每个预选生理指标在T个生理指标数据集合中的出现频次;
第二选取子模块,用于基于每个预选生理指标的出现频次,从多个预选生理指标中选取概率值大于第二预设阈值以及出现频次大于预设阈值的生理指标,得到第二生理指标集合。
在一些实施例中,上述构建模块505包括以下子模块:
确定子模块,用于将在第一生理指标集合和第二生理指标集合中均存在的生理指标确定为目标生理指标;
第二建立子模块,用于基于目标生理指标和目标生理指标的指标系数建立预设回归模型,得到针对目标生理指征的生理指征预测模型。
在一些实施例中,上述生理指征预测模型的构建装置500还可以包括以下模块:
计算模块,用于计算每个目标生理指标对应的指标系数与多个目标生理指标对应的指标系数之和的比值,得到每个目标生理指标的权重;
确定模块,用于根据每个目标生理指标的权重以及每个对象在多个目标生理指标下分别对应的生理指标数据,确定每个对象的风险评分;
排序模块,用于对每个对象的风险评分进行排序,得到排序结果,根据排序结果确定每个对象的风险等级。
在一些实施例中,上述计算模块包括以下子模块:
扩大子模块,用于利用预设系数将比值扩大预设倍数,得到目标生理指标的目标权重,预设系数为300。
图5所示的生理指征预测模型的构建装置中的各个单元,具有实现图1至图4所示的生理指征预测模型的构建方法的功能,并达到相应的技术效果,为简洁描述,在此不再赘述。
图6示出了本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备600可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。
存储器602可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器602包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的第一方面的生理指征预测模型的构建方法所描述的操作。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种生理指征预测模型的构建方法。
在一个示例中,电子设备600还可包括通信接口603和总线604。其中,如图6所示,处理器601、存储器602、通信接口603通过总线604连接并完成相互间的通信。
通信接口603,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线604包括硬件、软件或两者,将电子设备600的部件彼此耦接在一起。举例来说而非限制,总线604可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线604可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备600可以实现结合图1和图5描述的生理指征预测模型的构建方法和装置。
另外,结合上述实施例中的生理指征预测模型的构建方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种生理指征预测模型的构建方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (8)
1.一种生理指征预测模型的构建方法,其特征在于,包括:
从预设数据库中获取L个对象在S个生理指标下分别对应的生理指标数据,所述生理指标数据用于表征所述对象在所述S个生理指标下对应的生理状态,所述S个生理指标为与目标生理指征对应的生理指标;
按照第一预设比例从所述L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据,以及按照第二预设比例从所述L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据,得到T个生理指标数据集合;
利用预设算法对所述M个生理指标数据进行交叉验证,得到与所述S个生理指标分别对应的指标系数,从所述S个生理指标中选取指标系数不为零的生理指标,得到第一生理指标集合;
基于所述T个生理指标数据集合中每个生理指标的出现频次,从所述S个生理指标中选取所述出现频次大于预设阈值的生理指标,得到第二生理指标集合;
将在所述第一生理指标集合和所述第二生理指标集合中均存在的生理指标确定为目标生理指标,基于所述目标生理指标构建针对所述目标生理指征的生理指征预测模型;
其中,L、S、M、T、N均为大于1的正整数,且L>M,L>N;
其中,所述基于所述T个生理指标数据集合中每个生理指标的出现频次,从所述S个生理指标中选取所述出现频次大于预设阈值的生理指标,得到第二生理指标集合,包括:
对每个所述生理指标数据集合分别建立预设回归模型;
利用与所述生理指标数据集合对应的预设回归模型分别对每个所述生理指标数据集合中的多个所述生理指标进行逐步回归,得到每个所述生理指标的统计量及其对应的概率值;
基于每个所述生理指标的统计量及其对应的概率值,从所述S个生理指标中选取所述概率值小于第一预设阈值的生理指标,得到多个预选生理指标;
计算每个所述预选生理指标在所述T个生理指标数据集合中的出现频次;
基于每个所述预选生理指标的出现频次,从多个所述预选生理指标中选取所述概率值大于第二预设阈值以及所述出现频次大于所述预设阈值的生理指标,得到所述第二生理指标集合。
2.根据权利要求1所述的方法,其特征在于,所述利用预设算法对所述M个生理指标数据进行交叉验证,得到与所述S个生理指标分别对应的指标系数,包括:
将所述M个生理指标数据划分为第一生理指标数据集和第二生理指标数据集;
利用所述预设算法对所述第一生理指标数据集和所述第二生理指标数据集进行K折交叉验证,得到K个惩罚参数及其对应的样本方差,K为正整数;
将所述K个惩罚参数中的最小惩罚参数确定为目标惩罚参数,根据所述目标惩罚参数及其对应的样本方差,调整所述M个生理指标数据中与所述S个生理指标分别对应的指标系数;
将所述第一生理指标数据集和所述第二生理指标数据集的平方误差最小时对应的指标系数确定为与所述S个生理指标分别对应的目标指标系数。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标生理指标构建针对所述目标生理指征的生理指征预测模型,包括:
将在所述第一生理指标集合和所述第二生理指标集合中均存在的生理指标确定为所述目标生理指标;
基于所述目标生理指标和所述目标生理指标的指标系数建立所述预设回归模型,得到针对所述目标生理指征的所述生理指征预测模型。
4.根据权利要求1所述的方法,其特征在于,所述目标生理指标的数量为多个,所述将在所述第一生理指标集合和所述第二生理指标集合中均存在的生理指标确定为目标生理指标之后,所述方法还包括:
计算每个所述目标生理指标对应的指标系数与多个所述目标生理指标对应的指标系数之和的比值,得到每个所述目标生理指标的权重;
根据每个所述目标生理指标的权重以及每个对象在多个所述目标生理指标下分别对应的生理指标数据,确定每个所述对象的风险评分;
对每个所述对象的风险评分进行排序,得到排序结果,根据所述排序结果确定每个所述对象的风险等级。
5.根据权利要求4所述的方法,其特征在于,所述计算每个所述目标生理指标对应的指标系数与多个所述目标生理指标对应的指标系数之和的比值,得到每个所述目标生理指标的权重,包括:
利用预设系数将所述比值扩大预设倍数,得到所述目标生理指标的目标权重,所述预设系数为300。
6.一种生理指征预测模型的构建装置,其特征在于,包括:
获取模块,用于从预设数据库中获取L个对象在S个生理指标下分别对应的生理指标数据,所述生理指标数据用于表征所述对象在所述S个生理指标下对应的生理状态,所述S个生理指标为与目标生理指征对应的生理指标;
抽取模块,用于按照第一预设比例从所述L个对象分别对应的生理指标数据中抽取M个对象分别对应的M个生理指标数据,以及按照第二预设比例从所述L个对象分别对应的生理指标数据中抽取T次N个对象分别对应的生理指标数据,得到T个生理指标数据集合;
第一选取模块,用于利用预设算法对所述M个生理指标数据进行交叉验证,得到与所述S个生理指标分别对应的指标系数,从所述S个生理指标中选取指标系数不为零的生理指标,得到第一生理指标集合;
第二选取模块,用于基于所述T个生理指标数据集合中每个生理指标的出现频次,从所述S个生理指标中选取所述出现频次大于预设阈值的生理指标,得到第二生理指标集合;
构建模块,用于将在所述第一生理指标集合和所述第二生理指标集合中均存在的生理指标确定为目标生理指标,基于所述目标生理指标构建针对所述目标生理指征的生理指征预测模型;
其中,L、S、M、T、N均为大于1的正整数,且L>M,L>N;
其中,所述第二选取模块包括:
第一建立子模块,用于对每个所述生理指标数据集合分别建立预设回归模型;
回归子模块,用于利用与所述生理指标数据集合对应的预设回归模型分别对每个所述生理指标数据集合中的多个所述生理指标进行逐步回归,得到每个所述生理指标的统计量及其对应的概率值;
第一选取子模块,用于基于每个所述生理指标的统计量及其对应的概率值,从所述S个生理指标中选取所述概率值小于第一预设阈值的生理指标,得到多个预选生理指标;
计算子模块,用于计算每个所述预选生理指标在所述T个生理指标数据集合中的出现频次;
第二选取子模块,用于基于每个所述预选生理指标的出现频次,从多个所述预选生理指标中选取所述概率值大于第二预设阈值以及所述出现频次大于所述预设阈值的生理指标,得到所述第二生理指标集合。
7.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-5任意一项所述的生理指征预测模型的构建方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的生理指征预测模型的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310671387.2A CN116403718B (zh) | 2023-06-08 | 2023-06-08 | 生理指征预测模型的构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310671387.2A CN116403718B (zh) | 2023-06-08 | 2023-06-08 | 生理指征预测模型的构建方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116403718A CN116403718A (zh) | 2023-07-07 |
CN116403718B true CN116403718B (zh) | 2023-09-01 |
Family
ID=87012750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310671387.2A Active CN116403718B (zh) | 2023-06-08 | 2023-06-08 | 生理指征预测模型的构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403718B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107788970A (zh) * | 2017-11-15 | 2018-03-13 | 中国航天员科研训练中心 | 一种基于多生理参数方法融合的脑力负荷评估方法 |
CN113066579A (zh) * | 2021-03-17 | 2021-07-02 | 上海电气集团股份有限公司 | 生理状态预测方法和装置、电子设备及存储介质 |
CN113456033A (zh) * | 2021-06-24 | 2021-10-01 | 江西科莱富健康科技有限公司 | 生理指标特征值数据处理方法、系统及计算机设备 |
CN114121190A (zh) * | 2020-09-01 | 2022-03-01 | 四川大学华西医院 | 建立慢性心力衰竭患者共病情绪障碍早期预警模型的方法 |
CN114496243A (zh) * | 2021-12-31 | 2022-05-13 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN115312200A (zh) * | 2021-05-06 | 2022-11-08 | 中国科学院上海营养与健康研究所 | 生理生化指标的预测及预测模型的构建方法、系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI762853B (zh) * | 2020-01-06 | 2022-05-01 | 宏碁股份有限公司 | 利用自動化機制挑選影響力指標的方法及電子裝置 |
-
2023
- 2023-06-08 CN CN202310671387.2A patent/CN116403718B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107788970A (zh) * | 2017-11-15 | 2018-03-13 | 中国航天员科研训练中心 | 一种基于多生理参数方法融合的脑力负荷评估方法 |
CN114121190A (zh) * | 2020-09-01 | 2022-03-01 | 四川大学华西医院 | 建立慢性心力衰竭患者共病情绪障碍早期预警模型的方法 |
CN113066579A (zh) * | 2021-03-17 | 2021-07-02 | 上海电气集团股份有限公司 | 生理状态预测方法和装置、电子设备及存储介质 |
CN115312200A (zh) * | 2021-05-06 | 2022-11-08 | 中国科学院上海营养与健康研究所 | 生理生化指标的预测及预测模型的构建方法、系统 |
CN113456033A (zh) * | 2021-06-24 | 2021-10-01 | 江西科莱富健康科技有限公司 | 生理指标特征值数据处理方法、系统及计算机设备 |
CN114496243A (zh) * | 2021-12-31 | 2022-05-13 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116403718A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Molina et al. | Validation of Delphi procedure consensus criteria for defining fetal growth restriction | |
CN111739641A (zh) | 一种胃癌风险预测方法、系统、计算机设备及可读存储介质 | |
CN111640518A (zh) | 一种宫颈癌术后生存预测方法、系统、设备及介质 | |
Baker et al. | Evaluating a new marker for risk prediction using the test tradeoff: an update | |
CN114496243A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
KR101603308B1 (ko) | 생체 나이 연산 모델 생성 방법 및 시스템과, 그 생체 나이 연산 방법 및 시스템 | |
CN112216388A (zh) | 一种子宫内膜异位症相关卵巢癌的风险预测模型和风险预测系统 | |
Carr et al. | Predicting postpartum haemorrhage: A systematic review of prognostic models | |
CN116403718B (zh) | 生理指征预测模型的构建方法、装置、设备及存储介质 | |
CN114663735A (zh) | 基于联合全局及局部卷积神经网络特征的双骨龄评估方法 | |
CN115602319B (zh) | 一种无创肝纤维化评估装置 | |
Daemen et al. | Improving the preoperative classification of adnexal masses as benign or malignant by second‐stage tests | |
KR101771042B1 (ko) | 질병 관련 유전자 탐색 장치 및 그 방법 | |
CN116703880A (zh) | 一种免疫状态预测模型构建方法、预测方法及构建装置 | |
CN111383766A (zh) | 计算机数据处理方法、装置、介质及电子设备 | |
Van Hoorde et al. | Simple dichotomous updating methods improved the validity of polytomous prediction models | |
CN108346471B (zh) | 一种病理数据的分析方法及装置 | |
CN114283937A (zh) | 预测anca相关小血管炎肾脏发展风险的装置和模型训练方法 | |
CN111518881B (zh) | 通过分子标志物诊断激素性股骨头坏死的系统 | |
CN116386879B (zh) | 一种风险等级的预测装置及计算机存储介质 | |
Huang et al. | Perihematomal edema-based CT-radiomics model to predict functional outcome in patients with intracerebral hemorrhage | |
CN117976209A (zh) | 医学事件概率确定方法、装置、设备及计算机存储介质 | |
CN114520055A (zh) | 一种患者脑出血预后的预测方法、装置、设备及产品 | |
WO2017145517A1 (ja) | 情報処理装置と情報処理プログラム並びに情報処理方法 | |
CN117976210A (zh) | 医学事件概率确定方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |