CN112819045A - 用于用户生理状态分类的方法、装置、电子设备及介质 - Google Patents
用于用户生理状态分类的方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN112819045A CN112819045A CN202110077859.2A CN202110077859A CN112819045A CN 112819045 A CN112819045 A CN 112819045A CN 202110077859 A CN202110077859 A CN 202110077859A CN 112819045 A CN112819045 A CN 112819045A
- Authority
- CN
- China
- Prior art keywords
- user
- sample
- detected
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请公开了一种用于用户生理状态分类的方法、装置、电子设备及介质。本申请中,可以从产前检查数据中心调取目标用户的样本数据集,并将样本数据集划分为样本训练集以及样本验证集;通过随机森林算法以及样本验证集持续优化训练决策树模型,得到目标预测模型后,并将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的状态分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户生理状态的目的,进而可以针对性的为用户进行相应的处理。
Description
技术领域
本申请中涉及数据处理技术,尤其是一种用于用户生理状态分类的方法、装置、电子设备及介质。
背景技术
随着通信技术的发展和广泛应用,机器学习算法在医疗领域的应用频率和研究深度增长迅速。尤其是针对应用在妊娠期用户的生理状态监测是机器学习算法中较有特点的一类。
进一步的,在监测妊娠期用户生理状态的过程中,通常需要根据用户的特征数据来判定。其中,对于获取用户特征数据来说,相关技术中可以通过使用数据挖掘将海量数据中的有用信息挖掘出来,并通过发现用户特征数据中存在的规律以及其中的相互关系,提供给决策者们使用,这些对医学决策及医学研究都有巨大的价值和意义。但疾病数据带来的数学挖掘挑战巨大:要处理的疾病数据维度高、数据结构复杂,要求模型有更强大的学习适应能力。
近年来,深度学习得到广泛应用,由于其强大的自动特征提取和复杂函数的表达能力,非常适合处理疾病数据分析所面临的问题。因此,如何在妊娠期用户的特征数据挖掘当中,更好的刻画数据的丰富内在信息与提高妊娠期用户的生理状态判断的准确率,是目前产前数据处理分析的重要课题。
发明内容
本申请实施例提供一种用于用户生理状态分类的方法、装置、电子设备及介质,其中,根据本申请实施例的一个方面,提供的一种用于用户生理状态分类的方法,其特征在于,包括:
从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;
利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;
获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。
可选地,在基于本申请上述方法的另一个实施例中,所述从产前检查数据中心调取目标用户的样本数据集,包括:
从所述产前检查数据中心调取目标用户的病案信息、基础信息、体检信息、生化检测信息;
将所述病案信息、基础信息、体检信息、生化检测信息合并作为所述目标用户的样本数据集。
可选地,在基于本申请上述方法的另一个实施例中,所述体检信息包括标准体重指数以及血压参数,所述生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述目标用户的样本训练集训练初始决策树模型,包括:
从所述目标用户的样本训练集中获取所述目标用户的血糖数值;
将所述目标用户的血糖数值作为所述决策树模型的根节点。
可选地,在基于本申请上述方法的另一个实施例中,在所述得到目标预测模型之后,还包括:
获取待检测用户的生理特征数据;
将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的分类结果,所述分类结果用于反映所述目标用户的血糖数值。
可选地,在基于本申请上述方法的另一个实施例中,在所述获取待检测用户的生理特征数据之后,还包括:
解析所述生理特征数据,确定所述待检测用户的生理状态;
当确定所述待检测用户为妊娠期用户时,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的分类结果。
其中,根据本申请实施例的又一个方面,提供的一种用于用户生理状态分类的装置,其特征在于,包括:
获取模块,被配置为从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;
训练模块,被配置为利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
生成模块,被配置为通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;
所述生成模块,被配置为获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述用于用户生理状态分类的方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述用于用户生理状态分类的方法的操作。
本申请中,可以从产前检查数据中心调取目标用户的样本数据集,并将样本数据集划分为样本训练集以及样本验证集;利用目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本验证集持续优化训练决策树模型,得到目标预测模型后,并将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的状态分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户生理状态的目的,进而可以针对性的为用户进行相应的处理。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种用于用户生理状态分类的方法示意图;
图2为本申请提出的用于用户生理状态分类的流程示意图;
图3为本申请用于用户生理状态分类的方法电子装置的结构示意图;
图4为本申请显示电子设备结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1-图2来描述根据本申请示例性实施方式的用于进行用户生理状态分类的方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种用于用户生理状态分类的方法、装置、目标终端及介质。
图1示意性地示出了根据本申请实施方式的一种用于用户生理状态分类的方法的流程示意图。如图1所示,该方法包括:
S101,从产前检查数据中心调取目标用户的样本数据集,并将样本数据集划分为样本训练集以及样本验证集。
进一步的,妊娠糖尿病(Gestational diabetes mellitus,GDM)是以往没有患有糖尿病的妇女在怀孕期间血糖升高的一种状况,虽然妊娠糖尿病患者的只有一些轻微的症状,但是它可以引起孕妇妊娠高血压,抑郁,剖腹产。初生儿的母亲如果患有妊娠糖尿病而没有得到及时的治疗,在出生后容易患有巨大儿、出生后低血糖和黄疸等疾病。因此及早的诊断和治疗妊娠糖尿病对预防妊娠不良结局和新生儿疾病史至关重要的。
目前对于妊娠糖尿病的筛检和诊断依靠非应激血糖测试和应激血糖测试。非应激血糖测试包括空腹血糖测试、餐后2小时血糖测试和随机血糖测试。非应激血糖测试虽然简单、便宜、易于操作,但是它的检测性能较低,敏感性中等,特异性低,假阳性率高。应激血糖测试包括口服葡萄糖激发试验(oral glucose challenge test,OGCT)和口服葡萄糖耐量试验(oral glucose tolerance test,OGTT)。口服葡萄糖激发试验和口服葡萄糖耐量试验是目前诊断妊娠糖尿病使用较为广泛的方法,但是口服的葡萄糖溶剂是和激发试验对孕妇影响的研究还比较缺乏,不清楚是否对后期孕妇是否有害。口服葡萄糖耐量试验一般是在孕期的24-28周的时间进行筛查,但对于整个孕期来说有些滞后。因此一些研究者将目光关注在孕早期的人妊娠糖尿病的诊断和预测,使用孕早期血糖、妊娠相关的血清标志物、妊娠糖尿病危险因素、超声标记,生化数据、肠道菌群等数据进行预测。这些早期诊断的标志物能够在孕早期预测和诊断妊娠糖尿病,但是存在一定的局限性。
更进一步的,基于上述存在的问题,本申请即可以利用通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为妊娠期用户生成可以确定其医疗数据(例如血糖数据)的目标预测模型,从而实现精准掌握妊娠期用户身体数据的目的。
可选的,由于妊娠期用户在产检的过程中需要参加多次的产前诊断,因此会产生大量的临床检查数据,如血常规、血生化和体格检查等数据,这些数据具有数据量大、变量多等大数据特征,使用传统的统计模型处理较为困难。因此本申请可以使用人工智能算法,从产前检查数据中心处自动提取多个妊娠期用户的样本数据集。以使后续根据该样本数据集实现预测模型的建立。
其中,本申请中的样本训练集是用来训练模型的。而验证集是用于对学习出来的模型,调整分类器的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。
可以理解的,本申请在将样本数据集划分为样本训练集以及样本验证集的过程中,可以将数据集的80%作为训练集,20%作为测试集。具体的,本申请可以在开始构建预测模型之前把数据集进行划分,从而实现防止数据窥探偏误的目的。
另外,本申请还可以在构建模型的时候需要将数据进行处理,例如可以将训练集数据进行数据清洗,数据的特征缩放(标准化或者归一化),然后将其在训练集上得到的参数应用到验证集。
需要说明的是,本申请不对样本数据集的数量进行具体限定,例如可以为一类,也可以为多类。
S102,利用目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型。
其中,决策树模型是属于机器学习监督学习分类算法中的一种,决策树是预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。决策树算法有ID3,C4.5,CART算法,共同点为都是贪心算法,区别为度量方式不同,例如ID3使用了信息获取量作为度量方式,而C4.5使用最大增益率作为度量方式。
进一步的,本申请中可以利用目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型。本申请可以在得到该决策树模型之后,利用随机森林算法持续性的对该决策树模型进行优化,从而得到最终的用于确定妊娠期用户数据的预测模型。
S103,通过随机森林算法以及样本验证集持续优化训练决策树模型,得到目标预测模型。
S104,获取待检测用户的生理特征数据,将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的状态分类结果。
其中,生理特征数据至少包括待检测用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一种或多种。例如可以包括待检测用户的年龄、性别、身高体重、就诊内容、用药情况、健康告知等信息。
进一步的,本申请可以将该生理特征数据输入至预测模型中,并将该模型生成的结果作为待检测用户的状态分类结果。其中该状态分类结果可以对应于多个维度。本申请对此不作限定。例如可以包括基于血糖数值确定的状态结果,也可以包括基于妊娠数据确定的状态结果。
本申请中,可以从产前检查数据中心调取目标用户的样本数据集,并将样本数据集划分为样本训练集以及样本验证集;利用目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本验证集持续优化训练决策树模型,得到目标预测模型后,并将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的状态分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户生理状态的目的,进而可以针对性的为用户进行相应的处理。
可选的,在本申请一种可能的实施方式中,从产前检查数据中心调取目标用户的样本数据集,包括:
从产前检查数据中心调取目标用户的病案信息、基础信息、体检信息、生化检测信息;
将病案信息、基础信息、体检信息、生化检测信息合并作为目标用户的样本数据集。
可选的,在本申请一种可能的实施方式中,体检信息包括标准体重指数以及血压参数,生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
进一步的,本申请基于产前检查数据中心,其具有样本量大、变量多、缺失数据多、数据库不规范等问题,如果不进行处理,模型无法构建,因此在构建预测模型前,需要对数据进行规范化处理。另外,样本数据可以包括妊娠期用户的病案信息、基础信息(年龄、职业等)、体格检查数据(BMI、血压等)和生化检查信息(血常规、尿常规、肝肾功能等),使用文本挖掘对大病历进行变量提取。
可选的,在本申请一种可能的实施方式中,利用目标用户的样本训练集训练初始决策树模型,包括:
从目标用户的样本训练集中获取目标用户的血糖数值;
将目标用户的血糖数值作为决策树模型的根节点。
可选的,在本申请一种可能的实施方式中,在得到目标预测模型之后,还包括:
获取待检测用户的生理特征数据;
将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的分类结果,分类结果用于反映目标用户的血糖数值。
可选的,在本申请一种可能的实施方式中,在获取待检测用户的生理特征数据之后,还包括:
解析生理特征数据,确定待检测用户的生理状态;
当确定待检测用户为妊娠期用户时,将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的分类结果。
其中,生理特征数据至少包括待检测用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一种或多种。例如可以包括待检测用户的年龄、性别、身高体重、就诊内容、用药情况、健康告知等信息。
本申请中可以基于不同生理特征特征的样本用户反应出的血糖数值来确定该用户对应的状态。并根据待检测用户的不同状态选择不同的处理方式。
还需要说明的是,本申请中除了可以利用随机森林算法得到目标预测模型之外,还可以通过其他算法共同优化该预测模型。例如可以包括神经网络算法、支持向量机算法、k-均值算法、逻辑回归算法和朴素贝叶斯算法等等。
具体的,对于逻辑回归算法来说,是目前临床研究中使用较多的算法,对于处理二分类问题有着较大的优势,它是在传统的线性模型基础上使用激活函数(Sigmoid函数),使得预测值落在0/1的范围内,并且能够对查看对疾病的危险或者保护因素。虽然逻辑回归应用范围较为广泛,但是它是线性回归的变形,因此需要满足线性回归的一些假设,这种假设会导致逻辑回归面对共线性等问题。
另外的,对于向量机算法来说,向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。SVM算法的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,对于线性可分的数据,这样的超平面可能有很多个,但是几何间隔最大的超平面却是唯一的,SVM算法的目的就是寻找这样的几何超平面,如图2所示,其中的w*x+b=0,即为分离的超平面。
再者,对于人工神经网络算法来说,人工神经网络(Artificial NeuralNetworks,简写为ANNs)是一种模仿人脑神经元的信息处理方法,算法整体由大量节点互相连接组成,每个节点分别代表一种特定的输出函数,同时对于每一个输入信号通过学习可以获得不同的权重,类似于人类的记忆,下图描述的为最简单的神经网络模型,包含三个结构,输入层,隐藏层和输出层。其具有自学习功能、具有联想存储、高效寻找最优解等优点。
还有,朴素贝叶斯算法与绝大多数的机器学习算法不同,决策树、神经网络和支持向量机是寻找特征x和输出y之间的联系,而对于贝叶斯算法则是直接寻找x和y的联合分布,然后利用贝叶斯公式进行模型预测。朴素贝叶斯算法能够同时处理多个任务,对缺失数据不敏感等优点。
另外,对于k-means算法(k-均值聚类算法)来说,是一种基本的已知聚类类别数的划分算法。它基于距离的距离算法,如果两个样本距离相近,其相似度就越大,算法采用迭代更新的方法,每一次迭代过程都是向目标函数减小的方向进行,最终聚类结果使得目标函数取得极小值,从而可以达到较好的分类效果。
本申请中,可以从产前检查数据中心调取目标用户的样本数据集,并将样本数据集划分为样本训练集以及样本验证集;利用目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本验证集持续优化训练决策树模型,得到目标预测模型。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而实现体模型的结果具有较高的精确度和泛化性能的目的。
在本申请的另外一种实施方式中,如图3所示,本申请还提供一种用于用户生理状态分类的装置。其中,包括获取模块201,训练模块202,生成模块203,其中,
获取模块201,被配置为从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;
训练模块202,被配置为利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
生成模块203,被配置为通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;
生成模块203,被配置为获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。
本申请中,可以从产前检查数据中心调取目标用户的样本数据集,并将样本数据集划分为样本训练集以及样本验证集;利用目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本验证集持续优化训练决策树模型,得到目标预测模型后,并将待检测用户的生理特征数据输入至目标预测模型,得到待检测用户的状态分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户生理状态的目的,进而可以针对性的为用户进行相应的处理。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为从所述产前检查数据中心调取目标用户的病案信息、基础信息、体检信息、生化检测信息;
获取模块201,被配置为将所述病案信息、基础信息、体检信息、生化检测信息合并作为所述目标用户的样本数据集。
在本申请的另外一种实施方式中,所述体检信息包括标准体重指数以及血压参数,所述生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为从所述目标用户的样本训练集中获取所述目标用户的血糖数值;
获取模块201,被配置为将所述目标用户的血糖数值作为所述决策树模型的根节点。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为获取待检测用户的生理特征数据;
获取模块201,被配置为将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的分类结果,所述分类结果用于反映所述目标用户的血糖数值。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为解析所述生理特征数据,确定所述待检测用户的生理状态;
获取模块201,被配置为当确定所述待检测用户为妊娠期用户时,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的分类结果。
图4是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述用于用户生理状态分类的方法,该方法包括:从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述用于用户生理状态分类的方法,该方法包括:从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
图4为计算机设备30的示例图。本领域技术人员可以理解,示意图4仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,处理器302是计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
存储器301可用于存储计算机可读指令303,处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现计算机设备30的各种功能。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (9)
1.一种用于用户生理状态分类的方法,其特征在于,包括:
从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;
利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;
获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。
2.如权利要求1所述的方法,其特征在于,所述从产前检查数据中心调取目标用户的样本数据集,包括:
从所述产前检查数据中心调取目标用户的病案信息、基础信息、体检信息、生化检测信息;
将所述病案信息、基础信息、体检信息、生化检测信息合并作为所述目标用户的样本数据集。
3.如权利要求2所述的方法,其特征在于,所述体检信息包括标准体重指数以及血压参数,所述生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
4.如权利要求1所述的方法,其特征在于,所述利用所述目标用户的样本训练集训练初始决策树模型,包括:
从所述目标用户的样本训练集中获取所述目标用户的血糖数值;
将所述目标用户的血糖数值作为所述决策树模型的根节点。
5.如权利要求4所述的方法,其特征在于,在所述得到目标预测模型之后,还包括:
获取待检测用户的生理特征数据;
将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的分类结果,所述分类结果用于反映所述目标用户的血糖数值。
6.如权利要求5所述的方法,其特征在于,在所述获取待检测用户的生理特征数据之后,还包括:
解析所述生理特征数据,确定所述待检测用户的生理状态;
当确定所述待检测用户为妊娠期用户时,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的分类结果。
7.一种用于用户生理状态分类的装置,其特征在于,包括:
获取模块,被配置为从产前检查数据中心调取目标用户的样本数据集,并将所述样本数据集划分为样本训练集以及样本验证集;
训练模块,被配置为利用所述目标用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
生成模块,被配置为通过随机森林算法以及所述样本验证集持续优化训练所述决策树模型,得到目标预测模型;
所述生成模块,被配置为获取待检测用户的生理特征数据,将所述待检测用户的生理特征数据输入至所述目标预测模型,得到所述待检测用户的状态分类结果。
8.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-6中任一所述用于用户生理状态分类的方法的操作。
9.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-6中任一所述用于用户生理状态分类的方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077859.2A CN112819045A (zh) | 2021-01-20 | 2021-01-20 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077859.2A CN112819045A (zh) | 2021-01-20 | 2021-01-20 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112819045A true CN112819045A (zh) | 2021-05-18 |
Family
ID=75858690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110077859.2A Pending CN112819045A (zh) | 2021-01-20 | 2021-01-20 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819045A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792799A (zh) * | 2021-09-16 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质 |
CN114979369A (zh) * | 2022-04-14 | 2022-08-30 | 马上消费金融股份有限公司 | 异常通话检测方法、装置、电子设备及存储介质 |
CN115019916A (zh) * | 2022-05-27 | 2022-09-06 | 山东大学 | 血流感染致病菌预测方法及系统 |
CN116246777A (zh) * | 2023-04-24 | 2023-06-09 | 山东工业职业学院 | 一种基于社区产检数据流的妇产科信息分析方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832581A (zh) * | 2017-12-15 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 状态预测方法和装置 |
CN108681748A (zh) * | 2018-05-18 | 2018-10-19 | 宝枫生物科技(北京)有限公司 | 判别轻度认知障碍的模型选择处理方法及装置 |
CN109308545A (zh) * | 2018-08-21 | 2019-02-05 | 中国平安人寿保险股份有限公司 | 预测患糖尿病几率的方法、装置、计算机设备及存储介质 |
CN109325640A (zh) * | 2018-12-07 | 2019-02-12 | 中山大学 | 用户价值预测方法、装置、存储介质及设备 |
CN109378072A (zh) * | 2018-10-13 | 2019-02-22 | 中山大学 | 一种基于集成学习融合模型的异常空腹血糖值预警方法 |
CN110298265A (zh) * | 2019-06-10 | 2019-10-01 | 东南大学 | 一种基于yolo神经网络的电梯中特定目标检测方法 |
CN111370121A (zh) * | 2020-02-21 | 2020-07-03 | 杭州市妇产科医院 | 早孕期非整倍体产前筛查标志物预测妊娠期高血压疾病的风险模型建立方法 |
CN111860576A (zh) * | 2020-06-05 | 2020-10-30 | 温州大学 | 一种基于随机森林的子宫内膜肿瘤分类标记方法 |
CN111950660A (zh) * | 2020-09-18 | 2020-11-17 | 苏州浪潮智能科技有限公司 | 一种人工智能训练平台的告警预测方法及装置 |
CN112057068A (zh) * | 2020-08-27 | 2020-12-11 | 武汉工程大学 | 一种癫痫病理数据分类方法、装置及存储介质 |
-
2021
- 2021-01-20 CN CN202110077859.2A patent/CN112819045A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832581A (zh) * | 2017-12-15 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 状态预测方法和装置 |
CN108681748A (zh) * | 2018-05-18 | 2018-10-19 | 宝枫生物科技(北京)有限公司 | 判别轻度认知障碍的模型选择处理方法及装置 |
CN109308545A (zh) * | 2018-08-21 | 2019-02-05 | 中国平安人寿保险股份有限公司 | 预测患糖尿病几率的方法、装置、计算机设备及存储介质 |
CN109378072A (zh) * | 2018-10-13 | 2019-02-22 | 中山大学 | 一种基于集成学习融合模型的异常空腹血糖值预警方法 |
CN109325640A (zh) * | 2018-12-07 | 2019-02-12 | 中山大学 | 用户价值预测方法、装置、存储介质及设备 |
CN110298265A (zh) * | 2019-06-10 | 2019-10-01 | 东南大学 | 一种基于yolo神经网络的电梯中特定目标检测方法 |
CN111370121A (zh) * | 2020-02-21 | 2020-07-03 | 杭州市妇产科医院 | 早孕期非整倍体产前筛查标志物预测妊娠期高血压疾病的风险模型建立方法 |
CN111860576A (zh) * | 2020-06-05 | 2020-10-30 | 温州大学 | 一种基于随机森林的子宫内膜肿瘤分类标记方法 |
CN112057068A (zh) * | 2020-08-27 | 2020-12-11 | 武汉工程大学 | 一种癫痫病理数据分类方法、装置及存储介质 |
CN111950660A (zh) * | 2020-09-18 | 2020-11-17 | 苏州浪潮智能科技有限公司 | 一种人工智能训练平台的告警预测方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792799A (zh) * | 2021-09-16 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质 |
CN114979369A (zh) * | 2022-04-14 | 2022-08-30 | 马上消费金融股份有限公司 | 异常通话检测方法、装置、电子设备及存储介质 |
CN115019916A (zh) * | 2022-05-27 | 2022-09-06 | 山东大学 | 血流感染致病菌预测方法及系统 |
CN116246777A (zh) * | 2023-04-24 | 2023-06-09 | 山东工业职业学院 | 一种基于社区产检数据流的妇产科信息分析方法 |
CN116246777B (zh) * | 2023-04-24 | 2023-08-11 | 山东工业职业学院 | 一种基于社区产检数据流的妇产科信息分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alam et al. | A model for early prediction of diabetes | |
Ambekar et al. | Disease risk prediction by using convolutional neural network | |
Senan et al. | Score and correlation coefficient-based feature selection for predicting heart failure diagnosis by using machine learning algorithms | |
Srivastava et al. | Detection of ovarian cyst in ultrasound images using fine-tuned VGG-16 deep learning network | |
CN112819045A (zh) | 用于用户生理状态分类的方法、装置、电子设备及介质 | |
Forsström et al. | Artificial neural networks for decision support in clinical medicine | |
CN110459328B (zh) | 临床监护设备 | |
CN111710420B (zh) | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 | |
Chang et al. | An assessment of machine learning models and algorithms for early prediction and diagnosis of diabetes using health indicators | |
Alizadehsani et al. | Model uncertainty quantification for diagnosis of each main coronary artery stenosis | |
Ding et al. | Mortality prediction for ICU patients combining just-in-time learning and extreme learning machine | |
CN112052874B (zh) | 一种基于生成对抗网络的生理数据分类方法及系统 | |
CN112836730A (zh) | 用于用户妊娠状态分类的方法、装置、电子设备及介质 | |
Song et al. | An interpretable knowledge-based decision support system and its applications in pregnancy diagnosis | |
Bishnoi et al. | Artificial intelligence techniques used in medical sciences: a review | |
Wenxin | Heart disease prediction model based on model ensemble | |
Alqaysi et al. | Hybrid diagnosis models for autism patients based on medical and sociodemographic features using machine learning and multicriteria decision-making (MCDM) techniques: an evaluation and benchmarking framework | |
Le et al. | Predicting heart failure using a wrapper-based feature selection | |
Reddy et al. | Discovering optimal algorithm to predict diabetic retinopathy using novel assessment methods | |
Sujatha et al. | Heart Failure Patient Survival Analysis with Multi Kernel Support Vector Machine. | |
Ahmed et al. | A Review on the Detection Techniques of Polycystic Ovary Syndrome Using Machine Learning | |
Simaiya et al. | A novel multistage ensemble approach for prediction and classification of diabetes | |
Chowdhury et al. | A novel approach to detect stroke from 2d images using deep learning | |
Perng et al. | Analysis of the 72-h mortality of emergency room septic patients based on a deep belief network | |
Mehrankia et al. | Prediction of heart attacks using biological signals based on recurrent GMDH neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |
|
RJ01 | Rejection of invention patent application after publication |