CN107731304A - 一种身高预测方法及系统 - Google Patents
一种身高预测方法及系统 Download PDFInfo
- Publication number
- CN107731304A CN107731304A CN201710919267.4A CN201710919267A CN107731304A CN 107731304 A CN107731304 A CN 107731304A CN 201710919267 A CN201710919267 A CN 201710919267A CN 107731304 A CN107731304 A CN 107731304A
- Authority
- CN
- China
- Prior art keywords
- height
- data
- minor
- age
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种身高预测的方法及系统,内容包括:A、获取指定年龄区间的未成年人的基础数据及其当前身高数据;其中,所述基础数据包括但不限于:性别、年龄、地域、体重、饮食习惯、睡眠习惯、运动习惯、父母的身高;B、对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据;C、对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型;D、根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其成年身高的预测值;由上,本发明可应用于青少年生长发育情况的实时评估与解读、青少年营养健康状况的调研与分析以及儿童饮食生活习惯的个性化推荐等业务中。
Description
技术领域
本发明涉及医疗健康行业的数据挖掘技术应用领域,特别涉及一种身高预测方法及系统。
背景技术
身高是评价青少年儿童生长发育健康状况的敏感而又重要的指标。通常情况下,身高顺利增长,说明孩子的营养良好,并且没有受到慢性疾病的干扰。随着科学技术的进步,人们对青少年儿童身高发育的认识越来越深入。在一系列青少年成长健康问题中,青少年身高问题是大家最为关注的。青少年儿童身高受到包括体重、饮食、运动、营养的摄入、睡眠的质量以及各种疾病因素的影响,但是对青少年儿童身高影响最大的还是遗传因素,也就是父母的身高对孩子的成年身高起到决定性作用。
目前,对孩子成年身高进行预测较为准确的方法是进行纵向研究。通过限定研究地区以及孩子的身体状况,连续采集孩子的体重数据、父母的身高数据、孩子的骨龄数据,最后建立一个身高预测的线性模型:
Y=β0+βRL*RL+βW*W+βMPS*MPS+βSA*SA
该模型包含的变量分别有:现在的身高(RL)、现在的体重(W)、父母平均身高(MPS)、现在的骨龄(SA)。其中βRL,βW,βMPS,βSA,β0分别是和上述因素相对应的模型系数,且与孩子当前的年龄相关。这种方法的不足之处在于:(1)目标样本限制条件多,研究周期非常长,需要连续采集目标儿童不同年龄阶段的身高、体重、骨龄等数据;(2)特征数据采集成本高,特别是骨龄数据采集困难且存在一定危害;(3)由于研究方法和成本的原因,数据采集的范围和数量都非常有限,结论的普适性不强。
因此,目前亟需一种简便且普适性强的身高预测方法。
发明内容
有鉴于此,本发明的主要目的在于提供了一种身高预测方法,以克服现有技术中的研究周期长、采集数据困难、采集数据普适性不强的缺陷。
本发明提供一种身高预测方法,所述方法包括以下步骤:
A、获取指定年龄区间的未成年人的基础数据及其当前身高数据;其中,所述基础数据包括:性别、年龄、地域、体重、饮食习惯、睡眠习惯、运动习惯、父母的身高;
B、对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据;
C、对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型;
D、根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其18岁成年身高的预测值。
其中,所述步骤A的获取方式包括但不限于:
通过网络问卷或者纸质问卷的形式进行采集和\或通过网络数据库获取现有的指定年龄区间的未成年人的基础数据及其当前身高数据。
优选地,所述步骤A还包括:
通过箱线图的离群点检测算法对采集的异常的数据进行识别过滤。
优选地,所述步骤B包括:
通过实际预期指标分析法对所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据,包括:
A1、获取身高预期值表,包括:根据所述基础数据中的性别、年龄、父母平均身高三个变量将所述未成年人的身高进行第一次分组;并将计算获得的每个组中的未成年人的平均身高或者中位数身高作为身高预期值。
B1、在所述第一次分组的基础上,根据待选择的特征类型将所述未成年人的身高进行第二次分组;并计算获得的第二次分组中各个组内的未成年人的实际身高与所述身高预期值的各个比值,通过求平均以获取第二次分组后的各个组内的平均比值;
其中,所述待选择的特征类型包括但不限于:地域、体重、饮食习惯、睡眠习惯和或运动习惯;
C1、将所述平均比值在一指定区间的待选择的特征类型作为对身高影响显著的关键特征数据。
优选地,所述步骤B包括:
通过带罚回归特征选择法对所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据,包括:
A2、将所述基础数据及所述当前身高数据进行处理,包括:将其中的数值变量转换为均值为0方差为1的标准化的数值变量;其中,所述数值变量包括:体重、年龄、父母的身高;以及将其中的分类变量拆分为虚拟变量;其中,所述分类变量包括但不限于:性别、地域、是否足月出生;
将处理后的标准化的数值变量及虚拟变量作为待选择的特征;其中,所述标准化的数值变量及虚拟变量还可以根据需求两两相乘组合为一待选择的特征;
B2、随机抽取所述待选择的特征以及其对应的未成年人的身高数据作为训练集及验证集;
C2、将训练集中的所述待选择的特征以及其对应的未成年人的身高数据输入带罚回归模型中进行训练,并通过k折交叉验证方法进行检验以获取最优模型;
D2、通过验证集对所述最优模型进行验证,并将验证后的最优模型里的系数不为0的特征作为关键特征数据。
优选地,步骤C所述对提取的所述关键特征数据及其对应的身高数据进行聚类分组,包括:
当提取的所述关键特征数据均为数值型变量时,采用k-means算法对所述关键特征数据对应的身高数据进行聚类分组;
当提取的所述关键特征数据均为分类型变量或定序型变量时,采用k-modes算法对所述关键特征数据对应的身高数据进行聚类分组;
当提取的所述关键特征数据为混合变量时,采用k-prototype算法对所述关键特征数据对应的身高数据进行聚类。
优选地,步骤D的所述生长曲线模型的公式为:
predictheight=heighty1%,18+alpha*(height y2%,18-height y1%,18)
其中,
其中,predictheight指预测的成年身高,y1指待测的未成年人当前年龄对应身高的百分位数区间的最低百分位数值,y2指待测的未成年人当前年龄对应身高的百分位区间的最高百分位数值。x指待测的未成年人的当前的身高值,alpha是指待测的未成年人的当前身高在同性别同龄人身高中的百分位系数,age为未成年人当前年龄;其中,heighty1%,18是指18岁同性别人群身高分布中百分位数为y1所对应的身高数值,heighty2%,18是指18岁同性别人群身高分布中百分位数为y2所对应的身高数值,heighty1%,age是指当前年龄同性别人群身高分布中百分位数为y1所对应的身高数值,heighty2%,age是指当前年龄同性别人群身高分布中百分位数为y2所对应的身高数值。
本申请还提供一种身高预测系统,包括:
数据获取单元,用于获取指定年龄区间的未成年人的基础数据及其当前身高数据;其中,所述基础数据包括:性别、年龄、地域、体重、饮食习惯、睡眠习惯、运动习惯、父母的身高;
提取单元,用于对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据;
模型构建单元,用于对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型;
预测单元,用于根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其成年身高的预测值。
其中,所述步骤A的获取方式包括但不限于:
通过网络问卷或者纸质问卷的形式进行采集和\或通过网络数据库获取现有的指定年龄区间的未成年人的基础数据及其当前身高数据。
综上所述,本发明通过采集海量未成年青少年儿童生长发育过程中的基础数据及其身高数据;并对采集到的数据进行特征选择与因子分析,提取对身高影响显著的关键特征;利用所述关键特征和身高构成数据对,学习回归预测模型;最终根据输入待预测身高孩子的特征数据,模型输出孩子当前身高的预测值,避免了传统统计跟踪研究方法研究周期长、样本特征采集成本高、模型通用性不强等问题。此外,本发明可以通过进一步采集预测后的用户反馈数据,反复迭代更新预测模型参数,不断提高预测模型的准确度。
附图说明
图1为本发明实施例提供的一种身高预测方法的流程示意图。
具体实施方式
为了实现本发明的目的,本发明实施例提出了一种基于数据驱动的针对0-18岁未成年青少年儿童身高进行预测的方法及系统,通过采集海量青少年儿童生长发育的基础数据及其身高数据;并对采集到的数据进行特征选择与因子分析,提取对身高影响显著的关键特征;对提取的关键特征及其对应的身高数据进行聚类分组,构建每个分组内的不同性别的不同年龄区间青少年儿童的生长曲线模型;最终根据输入待预测身高孩子的特征数据,模型输出孩子当前身高的预测值,避免了传统统计跟踪研究方法研究周期长、样本特征采集成本高、模型通用性不强等问题。此外通过进一步采集预测后的用户反馈数据,反复迭代更新预测模型参数,能够不断提高预测模型的准确度。
下面结合说明书附图对本发明实施例进行详细描述。
实施例一
S101,获取指定年龄区间的未成年人的基础数据及其当前身高数据;其中,其中,所述基础数据为影响青少年身高的各种相关因素,包括:(1)孩子的性别、年龄、地域、体重等个人信息;(2)孩子的饮食、睡眠、运动等生活习惯数据;(3)父母的出生年月、身高等遗传因素。
其中,为了保证每个年龄阶段有足够的数据用于预测模型学习,整个数据的采集规模通常需要达到50万到100万。具体的,采集海量所述基础数据的方法包括但不限于通过网络问卷或者纸质问卷的形式进行采集和\或通过网络数据库获取现有的指定年龄区间的未成年人的基础数据及其当前身高数据。例如,通过移动互联网APP或者微信公众号平台进行电子问卷发布与推广的途径。这种方式能够低成本、快速地收集大量数据,同时还具有用户信息私密化、数据结构化、过程自动化等优点,便于后期数据的汇总与整合。在电子问卷的设计过程中,通过融入系统性、方便性、科学性以及趣味性的原则,能够有效提高电子问卷的完成率并保证数据质量。
其中,由于存在利益驱动或系统探测等原因,造成采集的数据存在不合理或重复的异常值,因此需要对这一部分数据进行识别并过滤。具体的,异常值识别过滤的方法包括但不限于基于箱线图的离群点检测算法。
S102,对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据。
本发明主要采用两种方法进行特征选择与分析,第一种方法是采用实际-预期指标(Actual-to-Expected ratios,A/E ratios)并结合实证研究,从理论角度出发进行特征选择,第二种方法采用带罚回归(penalized regression)从数据角度出发做特征选择。
实际-预期指标特征选择
实际-预期指标是生存分析模型中的一种常用分析手段,其思想是固定其余因素影响,计算某特征影响下的目标变量实际值与不受该特征影响的目标变量预期值之比,其比值刻画了该特征对目标变量影响。
如果某个特征的A/E ratios为1,则代表该特征影响下的目标变量与其预期值相同,即该特征对目标变量无影响;如果A/E ratios小于1,则代表该特征影响下的目标变量小于其预期值,即该特征对目标变量有负向影响;同理,如果A/E ratios大于1,则代表该特征影响下的目标变量大于其预期值,即该特征对目标变量有正向影响。实际计算中A/Eratios结果严格为1的可能性较低,因此通常会认为设定A/E ratios阈值∈,则|A/E ratios-1|<∈的结果均视为1。
1)实际-预期指标具体实施步骤如下:
第一步是计算身高预期值表,使用性别、月龄、父母平均身高三个变量将总体数据分组,并计算每个小组中的平均身高或者中位数身高作为身高预期值,如此构成了身高预期值表,数据集中每一条样本均有相对应的身高预期值。
第二步是计算特定变量A/E ratios,使用待分析的变量将总体数据集进行新的划分,并计算每个小组中的实际身高与身高预期值之比,最后将求其几何平均数即获得这个小组的A/E ratios,如果待分析变量有M个选项,则相应的有M个A/E ratios。
第三步是分析特定变量A/E ratios。根据第二步生成的特定变量A/E ratios我们可以通过A/E ratios的含义进行分析,如果该特征所有选择项目的A/E ratios均在阈值范围内即均可以视为1,则该特征对于身高预测没有贡献,等同于直接通过性别、月龄、父母平均身高计算,则该特征可予以排除;如果该特征存在选择项目的A/E ratios在阈值范围以外,则该特征对于身高预测有方向性贡献,则该特征予以保留。
实际-预期指标特征选择的特点是仅能分析分类变量,如果需要分析数值型变量则需要先将数值型变量转换为分类变量再进行分析。
2)带罚回归特征选择
带罚回归是在多元回归模型的目标函数中加入针对变量系数值约束的模型,其特点是在某些条件下能够自动筛选有效特征。带罚回归具体目标函数的标准形式如下所示,标准形式中所有变量的均值都为0因此目标函数中没有截距项:
其中,n为数据集样本大小,p为包含截距的自变量数目,λ为惩罚系数,penalty为具体系数惩罚函数。
基本惩罚函数形式有如下两种:一种为L1惩罚函数又称为Lasso,其惩罚函数为特点在于能够提供系数稀疏解,即Lasso回归的最终结果中有可能存在多个系数值为0;另一种为L2惩罚函数,又称为岭回归,其惩罚函数为特点在于求解方便速度快,但是最终结果不能提供系数稀疏解。惩罚函数根据这两种基本形式还有诸多衍生函数,常见的有将L1与L2加权求和的弹性网络惩罚函数,有在L1函数基础上针对系数加权的AdaptiveLasso,有针对变量间相关关系特殊处理的GroupedLasso等等方法。本发明中选择能够产生系数稀疏解的惩罚函数作为特征集筛选工具,带罚回归最终模型里非零系数对应的特征即为所选变量。
带罚回归具体实施步骤如下:
第一步是划分数据集并拓展特征集。清洗后身高数据集依年龄分布分层随机抽取两个数据子集,一部分作为训练集,另一部分作为测试集,这里之所以选择年龄变量进行采样是因为年龄是影响身高最重要的因素。训练集和验证集的比例可以实际数据量选择比例(例如常用比例4:1或7:3)也可以随机确定比例。
之后需要针对特征集进行处理,数值变量如父母身高等变量采用标准化处理,将数值变量转换为均值为0方差为1的标准化数值变量;将分类变量如性别或是否足月出生等变量拆分为虚拟变量,假设某分类变量有N个选项,我们就需要构造N-1个虚拟变量用于描述该分类变量;处理完变量后可按照需求生成多阶交互特征项,通常在特征集中会生成二阶交互项,即两两特征项相乘作为特征集中的新特征。
第二步是使用带罚回归模型在训练集中选取特征子集并调试。训练集中所预测的青少年身高为因变量,将处理过的特征集为自变量,将这部分数据放入已选定带罚形式(L1/弹性网络等)的回归模型模型中进行训练,最终获得模型系数,其中系数不为0的特征即为所选择的特征。为了在训练集中评估特征筛选好坏需要引入k折交叉验证(k-foldcross validation)方法进行检验,k折交叉验证方法即将训练集平均分为k份,每次选择其中一份数据作为验证集,其余k-1份数据作为训练子集,模型在训练子集上获取系数并在验证集上验证模型精度,最后取k个验证集的精度平均分作为训练集模型的精确度。最后本发明通过k折交叉验证评价不同带罚回归的精确度,选择最优模型。
第三步是测试集上检验最优模型的泛化能力。最优模型仅是训练集中最优模型,因此最后一步需要在测试集上做进一步验证,即在测试集数据上使用最优模型并获取模型精确度,如果测试集精确度与训练集中k折交叉验证精确度在所设定阈值范围内,则最终接受该最优模型,其中最优模型里系数不为0的特征即为所选特征,否则重复第二步训练过程直至测试集精确度符合要求。
S103,对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型。
本发明在模型学习阶段分为两个任务:一是在特征选择的基础上使用无监督聚类的机器学习针对青少年进行分组;二是基于分组学习青少年身高生长曲线模型。
第一步是在前述特征选择的基础上使用聚类方法对青少年进行分组,本发明依据特征类型的特点根据需要分别采用k-means、k-modes、k-prototype三种聚类算法完成任务。这三种算法的具体实施步骤相同,不同之处在于算法拟合的目标函数。
如果S102所筛选出的特征变量均为数值型变量,则聚类学习采用k-means算法针对青少年身高进行聚类。k-means的目标是针对聚类生成的样本划分C={C1,C2,...,Ck}最小化其目标误差函数,具体如下所示:
其中,μi即为类Ci的中心均值向量。由此可以看出k-means算法仅适用于数值型变量,并且该目标函数难以直接最小化求解,因此实际使用中通常使用贪心法进行迭代求解。
如果步骤二所筛选出的特征变量均为分类或定序型变量,则聚类学习采用k-modes算法针对青少年身高进行聚类,k-modes的目标误差函数如下所示:
其中X=[xi,j]为n×m样本矩阵,U=[ui,j]为n×k划分矩阵,
C={C1,C2,...,Ck}即为类中心向量,m则为类中心向量长度也为特征数量。d()为k-modes的举例度量函数,度量规则为:
就k-modes目标函数本身而言是可以接受数值型变量和分类型或定序型变量混合输入,但是数值型变量需要进行额外划分会损失过多信息,因此本发明不考虑对混合变量采用k-modes。
如果步骤二所筛选出的特征变量为混合变量,即同时存在数值型变量、分类或定序型变量,则聚类学习采用k-prototype算法针对青少年身高进行聚类,k-prototype的目标误差函数如下所示:
k-prototype的目标函数与k-modes的目标函数类似,相关参数含义一致,区别在于距离度量函数,k-prototype的目标函数形式分为两个部分:
右侧第一部分为针对数值型变量距离度量,第二部分为针对分类型变量距离度量,这一部分与k-modes算法一致,然后引入了调节系数γl用于平衡数值型变量与分类型变量的影响力。
分组聚类具体实施步骤如下:
第一步,根据步骤二筛选出的特征类型选择k-means、k-modes、k-prototype中合适的聚类方法,同时设定k值筛选范围,并通过随机选取或者依分布选择的方式挑选k个样本作为聚类起始中心点;
第二步,依据现有聚类中心将数据集划分k类,并依据所选聚类方法的目标损失函数计算现阶段聚类损失,之后在k类数据子集中按照取平均值(数值型变量)或者取众数(分类型变量)的方法更新聚类中心;
第三步,计算更新后聚类中心的损失函数,如果新聚类中心所对应的聚类损失不小于原聚类损失则停止更新,否则按照第二步所述迭代更新直至满足要求,最后获取的聚类中心即为青少年身高数据集k类的聚类中心。
进一步的,完成聚类分组后便是学习未成年青少年身高生长曲线,这一部分即按照不同分组中的青少年身高数据计算不同年龄不同性别中身高的百分位数,如此即可获得该组中青少年身高生长曲线。例如,根据前述的聚类结果,参考中国卫生部公布的我国儿童身高体重标准表中所采用的百分位区间,依据每个年龄段对应的身高的数据,获取不同性别个体在各个不同年龄时的身高对应的正态分布的百分位值区间。例如,获取的13岁女孩不同的身高对应的正态分布的百分位值区间如下表1:
身高 | 百分位值区间 |
[0-145cm] | [0,5%] |
[145cm-155cm] | [5%,25%] |
[155cm-158cm] | [25%,50%] |
[158cm-162cm] | [50%,75%] |
[162cm-168cm] | [75%,95%] |
[168cm-178cm] | [95%,100%] |
表1
又如,获取的18岁女孩不同的身高对应的正态分布百分位值区间如下表2:
身高 | 百分位值区间 |
[0-150cm] | [0,5%] |
[150cm-158cm] | [5%,25%] |
[158cm-162cm] | [25%,50%] |
[162cm-168cm] | [50%,75%] |
[168cm-168cm] | [75%,95%] |
[178cm-188cm] | [95%,100%] |
表2
其中,上述正态分布的百分位值区间中越接近中值50%对应的身高为最普遍的正常的身高值,越远离中值的左边的数值为与偏低的身高数值,越远离中值的右边的数值为偏高的身高数值。
进一步的获取的不同身高对应的百分位区间的生长曲线模型的公式为:
predictheight=heighty1%,18+alpha*(height y2%,18-height y1%,18)
其中,
其中,predictheight指预测的成年身高,y1指待测的未成年人当前年龄对应身高的百分位区间的最低百分位数值。y2指待测的未成年人当前年龄对应身高的百分位区间的最高百分位数值。x指待测的未成年人的当前的身高值;alpha是指待测的未成年人的当前身高在同性别同龄人身高中的百分位系数,alpha计算时需要的参数age为未成年人当前年龄;其中,heighty1%,18是指18岁同性别人群身高分布中百分位数为y1所对应的身高数值,heighty2%,18是指18岁同性别人群身高分布中百分位数为y2所对应的身高数值,heighty1%,age是指当前年龄同性别人群身高分布中百分位数为y1所对应的身高数值,heighty2%,age是指当前年龄同性别人群身高分布中百分位数为y2所对应的身高数值。
其中,由于前述的分组中存在数据不足无法学习完整青少年身高生长曲线或者曲线不平滑的情况,本发明提出以局部加权回归(LOESS)平滑方法用以解决身高生长曲线的问题。
局部加权回归是一种非参数估计方法,即参数估计时不需要对原始数据分布有假设,其特点是模型只关注预测值附近的样本点,有效避免欠拟合现象,减少离群点干扰,因此模型结果趋向平滑;同时LOESS能够采用缺失值附近的数据填补缺失数据。
LOESS曲线平滑具体步骤如下:
用习得的不完整身高生长数据进行LOESS建模,获得该组LOESS模型,之后依据不同性别和不同年龄点获得相应的预测值,如果该点已有数值且与预测值差距在设定的阈值范围内,则采用已有数值,否则均采用预测值作为最终身高生长曲线数值。
S104,根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其成年身高的预测值。
本发明对青少年儿童身高进行预测的具体步骤如下:
第一步:依据输入特征和聚类中心判断待测未成年青少年所在具体分组,判断标准是该青少年特征与聚类中心的距离,聚类中心距离最近的类别即为该青少年所在分组;例如,一待测未成年青少年的特征为父母平均身高为1.7米,地域为北方其与一分组的聚类中心特征相符合,则将该未成年青少年分到该组中。
第二步:依据该青少年性别与当前年龄确定采用分组中具体的对应的区间的身高生长曲线模型,然后计算该青少年当前身高在同性别同龄人身高中的百分位系数。例如,未成年人当前年龄为13岁,女孩,其身高为157cm,则其位于的身高数值区间为[155cm-158cm],则其身高的百分位值区间[25%,50%]。即y1=25,y2=50,height25%,13=155cm,height50%,13=158cm,由此,根前述的alpha公式计算13岁的待测的未成年女孩的当前身高在同性别同龄人身高中的百分位系数,得到alpha值为(1.57-1.55)/(1.58-1.55)=0.667。
第三步:计算该青少年当前身高在同性别同龄人身高中的百分位数,计算该分组中成年身高相应百分位数对应的身高,此结果即为最终成年身高。比如当前小孩是13岁的身高157cm,成年条件设置为18岁,由前所述,13岁的身高157cm对应的百分位值区间[25%,50%],即y1=25,y2=50,因此在18岁女孩身高对应的正态分布百分位值区间中对应的区间为[25%,50%],由表2可知其对应的身高区间为[158cm-162cm],因此,height25%,18=158cm,height50%,18=162cm,,由此,通过前述predictheight计算公式预测得到待预测身高的13岁未成年女孩的预测身高为predictheight=1.58+0.667*(1.62-1.58)=1.61。
实施例二
基于上述实施例一中的身高预测方法,本申请还提供一种身高预测系统,包括:
数据获取单元,用于获取指定年龄区间的未成年人的基础数据及其当前身高数据;其中,所述基础数据包括但不限于:性别、年龄、地域、体重、饮食习惯、睡眠习惯、运动习惯、父母的身高;
提取单元,用于对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据;
模型构建单元,用于对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型;
预测单元,用于根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其成年身高的预测值。
其中,所述步骤A的获取方式包括但不限于:
通过网络问卷或者纸质问卷的形式进行采集和\或通过网络数据库获取现有的指定年龄区间的未成年人的基础数据及其当前身高数据。
需要说明的是,本发明实施例所述的方法可以通过硬件实现,也可以通过软件实现,这里不做限定。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种身高预测方法,其特征在于,包括:
A、获取指定年龄区间的未成年人及18岁成年人的基础数据及其当前身高数据;其中,所述基础数据包括:性别、年龄、地域、体重、饮食习惯、睡眠习惯、运动习惯、父母的身高;
B、对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据;
C、对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型;
D、根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其18岁成年身高的预测值。
2.根据权利要求1所述的方法,其特征在于,所述步骤A的获取方式包括:
通过网络问卷或者纸质问卷的形式进行采集和\或通过网络数据库获取现有的指定年龄区间的未成年人及18岁成年人的基础数据及其当前身高数据。
3.根据权利要求1所述的方法,其特征在于,所述步骤A还包括:
通过箱线图的离群点检测算法对采集的异常的数据进行识别过滤。
4.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
通过实际预期指标分析法对所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据,包括:
B11、获取身高预期值表,包括:根据所述基础数据中的性别、年龄、父母平均身高三个变量将所述未成年人的身高进行第一次分组;并将计算获得的每个组中的未成年人的平均身高或者中位数身高作为身高预期值。
B12、在所述第一次分组的基础上,根据待选择的特征类型将所述未成年人的身高进行第二次分组;并计算获得的第二次分组中各个组内的未成年人的实际身高与所述身高预期值的各个比值,通过求平均以获取第二次分组后的各个组内的平均比值;
其中,所述待选择的特征类型包括:地域、体重、饮食习惯、睡眠习惯和/或运动习惯;
B13、将所述平均比值在一指定区间的待选择的特征类型作为对身高影响显著的关键特征数据。
5.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
通过带罚回归特征选择法对所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据,包括:
B21、将所述基础数据及所述当前身高数据进行处理,包括:将其中的数值变量转换为均值为0方差为1的标准化的数值变量;其中,所述数值变量包括:体重、年龄、父母的身高;以及将其中的分类变量拆分为虚拟变量;其中,所述分类变量包括但不限于:性别、地域、是否足月出生;
将处理后的标准化的数值变量及虚拟变量作为待选择的特征;或,所述标准化的数值变量及虚拟变量根据需求两两相乘组合为一待选择的特征;
B22、随机抽取所述待选择的特征以及其对应的未成年人的身高数据作为训练集及验证集;
B23、将训练集中的所述待选择的特征以及其对应的未成年人的身高数据输入带罚回归模型中进行训练,并通过k折交叉验证方法进行检验以获取最优模型;
B24、通过验证集对所述最优模型进行验证,并将验证后的最优模型里的系数不为0的特征作为关键特征数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,步骤C所述对提取的所述关键特征数据及其对应的身高数据进行聚类分组,包括:
当提取的所述关键特征数据均为数值型变量时,采用k-means算法对所述关键特征数据对应的身高数据进行聚类分组;
当提取的所述关键特征数据均为分类型变量或定序型变量时,采用k-modes算法对所述关键特征数据对应的身高数据进行聚类分组;
当提取的所述关键特征数据为混合变量时,采用k-prototype算法对所述关键特征数据对应的身高数据进行聚类。
7.根据权利要求1所述的方法,其特征在于,步骤C的所述生长曲线模型的公式为:
predictheight=heighty1%,18+alpha*(heighty2%,18-heighty1%,18)
其中,
其中,predictheight指预测的成年身高,y1指待测的未成年人当前年龄对应身高的百分位数区间的最低百分位数值,y2指待测的未成年人当前年龄对应身高的百分位数区间的最高百分位数值。x指待测的未成年人的当前的身高值,alpha是指待测的未成年人的当前身高在同性别同龄人身高中的百分位系数,age为未成年人当前年龄;其中,heighty1%,18是指18岁同性别人群身高分布中百分位数为y1所对应的身高数值,heighty2%,18是指18岁同性别人群身高分布中百分位数为y2所对应的身高数值,heighty1%,age是指当前年龄同性别人群身高分布中百分位数为y1所对应的身高数值,heighty2%,age是指当前年龄同性别人群身高分布中百分位数为y2所对应的身高数值。
8.一种身高预测系统,其特征在于,包括:
数据获取单元,用于获取指定年龄区间的未成年人的基础数据及其当前身高数据;其中,所述基础数据包括但不限于:性别、年龄、地域、体重、饮食习惯、睡眠习惯、运动习惯、父母的身高;
提取单元,用于对获取的所述基础数据进行特征选择,以提取对身高影响显著的关键特征数据;
模型构建单元,用于对提取的所述关键特征数据及其对应的身高数据进行聚类分组,并构建每个分组内的不同性别的不同年龄区间的未成年人的生长曲线模型;
预测单元,用于根据待预测身高的未成年人的特征数据选择其对应分组内的对应性别和年龄区间的生长曲线模型;并将其输入到其中,以获取其成年身高的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710919267.4A CN107731304A (zh) | 2017-09-30 | 2017-09-30 | 一种身高预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710919267.4A CN107731304A (zh) | 2017-09-30 | 2017-09-30 | 一种身高预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107731304A true CN107731304A (zh) | 2018-02-23 |
Family
ID=61209584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710919267.4A Pending CN107731304A (zh) | 2017-09-30 | 2017-09-30 | 一种身高预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107731304A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN110085320A (zh) * | 2019-04-23 | 2019-08-02 | 延安大学 | 一种个人体重变化预测系统及方法 |
CN110211700A (zh) * | 2019-06-14 | 2019-09-06 | 成都高鹿科技有限公司 | 一种个体身高预测方法、系统、可读存储介质及终端 |
CN110222459A (zh) * | 2019-06-14 | 2019-09-10 | 成都高鹿科技有限公司 | 一种个体身高分析方法、系统、可读存储介质及终端 |
CN111110232A (zh) * | 2020-01-14 | 2020-05-08 | 宁波柏厨集成厨房有限公司 | 一种橱柜高度的人机匹配方法 |
CN111815437A (zh) * | 2020-07-21 | 2020-10-23 | 天元大数据信用管理有限公司 | 金融服务信用风险分析方法及系统 |
CN112182067A (zh) * | 2020-09-27 | 2021-01-05 | 深圳市伊欧乐科技有限公司 | 个体身高预测方法、装置、电子设备及存储介质 |
CN112365983A (zh) * | 2020-12-04 | 2021-02-12 | 石家庄喜高科技有限责任公司 | 身高发育评价方法及终端设备 |
CN112397202A (zh) * | 2020-10-20 | 2021-02-23 | 浙江工业大学 | 一种青少年儿童身高生长曲线的预测方法 |
CN112447302A (zh) * | 2020-12-04 | 2021-03-05 | 石家庄喜高科技有限责任公司 | 身高增长速度评价方法及终端设备 |
CN112545493A (zh) * | 2020-12-04 | 2021-03-26 | 石家庄喜高科技有限责任公司 | 身高评价方法及终端设备 |
CN115274098A (zh) * | 2022-08-19 | 2022-11-01 | 北京咯咯网络科技有限公司 | 一种基于骨龄与身高来预测身高的智能系统 |
CN111652674B (zh) * | 2020-05-15 | 2023-09-19 | 拉扎斯网络科技(上海)有限公司 | 一种资源推荐方法以及装置 |
CN117423472A (zh) * | 2023-12-18 | 2024-01-19 | 天津医科大学总医院 | 一种基于骨龄识别的多要素身高预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965953A (zh) * | 2015-07-13 | 2015-10-07 | 熊妹珍 | 一种青少年身高预测模型的建立方法 |
JP2016224879A (ja) * | 2015-06-04 | 2016-12-28 | からだ環境総研株式会社 | 身長予測方法および体重予測方法 |
-
2017
- 2017-09-30 CN CN201710919267.4A patent/CN107731304A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016224879A (ja) * | 2015-06-04 | 2016-12-28 | からだ環境総研株式会社 | 身長予測方法および体重予測方法 |
CN104965953A (zh) * | 2015-07-13 | 2015-10-07 | 熊妹珍 | 一种青少年身高预测模型的建立方法 |
Non-Patent Citations (3)
Title |
---|
P.J.HEAGERTY,M.S.PEPE: "Semiparametric estimation of regression quantiles with application to standardizing weight for height and age in US children", 《 JOURNAL OF THE ROYAL STATISTICAL SOCIETY: SERIES C (APPLIED STATISTICS)》 * |
康博威: "子代身高线性回归分析及预测", 《统计与决策》 * |
李廷玉: "儿童体格生长的评价及生长曲线图的使用", 《中国实用儿科杂志》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658B (zh) * | 2018-11-01 | 2021-06-08 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN110085320A (zh) * | 2019-04-23 | 2019-08-02 | 延安大学 | 一种个人体重变化预测系统及方法 |
CN110211700A (zh) * | 2019-06-14 | 2019-09-06 | 成都高鹿科技有限公司 | 一种个体身高预测方法、系统、可读存储介质及终端 |
CN110222459A (zh) * | 2019-06-14 | 2019-09-10 | 成都高鹿科技有限公司 | 一种个体身高分析方法、系统、可读存储介质及终端 |
CN110211700B (zh) * | 2019-06-14 | 2023-06-23 | 成都高鹿科技有限公司 | 一种个体身高预测方法、系统、可读存储介质及终端 |
CN110222459B (zh) * | 2019-06-14 | 2023-04-14 | 成都高鹿科技有限公司 | 一种个体身高分析方法、系统、可读存储介质及终端 |
CN111110232A (zh) * | 2020-01-14 | 2020-05-08 | 宁波柏厨集成厨房有限公司 | 一种橱柜高度的人机匹配方法 |
CN111110232B (zh) * | 2020-01-14 | 2023-06-09 | 宁波柏厨集成厨房有限公司 | 一种橱柜高度的人机匹配方法 |
CN111652674B (zh) * | 2020-05-15 | 2023-09-19 | 拉扎斯网络科技(上海)有限公司 | 一种资源推荐方法以及装置 |
CN111815437A (zh) * | 2020-07-21 | 2020-10-23 | 天元大数据信用管理有限公司 | 金融服务信用风险分析方法及系统 |
CN112182067A (zh) * | 2020-09-27 | 2021-01-05 | 深圳市伊欧乐科技有限公司 | 个体身高预测方法、装置、电子设备及存储介质 |
CN112397202A (zh) * | 2020-10-20 | 2021-02-23 | 浙江工业大学 | 一种青少年儿童身高生长曲线的预测方法 |
CN112397202B (zh) * | 2020-10-20 | 2024-03-29 | 浙江工业大学 | 一种青少年儿童身高生长曲线的预测方法 |
CN112545493A (zh) * | 2020-12-04 | 2021-03-26 | 石家庄喜高科技有限责任公司 | 身高评价方法及终端设备 |
CN112447302B (zh) * | 2020-12-04 | 2023-01-06 | 石家庄喜高科技有限责任公司 | 身高增长速度评价方法及终端设备 |
CN112545493B (zh) * | 2020-12-04 | 2023-02-03 | 石家庄喜高科技有限责任公司 | 身高评价方法及终端设备 |
CN112447302A (zh) * | 2020-12-04 | 2021-03-05 | 石家庄喜高科技有限责任公司 | 身高增长速度评价方法及终端设备 |
CN112365983A (zh) * | 2020-12-04 | 2021-02-12 | 石家庄喜高科技有限责任公司 | 身高发育评价方法及终端设备 |
CN112365983B (zh) * | 2020-12-04 | 2023-10-13 | 石家庄喜高科技有限责任公司 | 身高发育评价方法及终端设备 |
CN115274098A (zh) * | 2022-08-19 | 2022-11-01 | 北京咯咯网络科技有限公司 | 一种基于骨龄与身高来预测身高的智能系统 |
CN117423472A (zh) * | 2023-12-18 | 2024-01-19 | 天津医科大学总医院 | 一种基于骨龄识别的多要素身高预测方法及系统 |
CN117423472B (zh) * | 2023-12-18 | 2024-03-08 | 天津医科大学总医院 | 一种基于骨龄识别的多要素身高预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731304A (zh) | 一种身高预测方法及系统 | |
Lambiotte et al. | Ranking and clustering of nodes in networks with smart teleportation | |
CN110196814B (zh) | 一种软件质量评价方法 | |
Lu et al. | Classification of Camellia (Theaceae) species using leaf architecture variations and pattern recognition techniques | |
CN109961142B (zh) | 一种基于元学习的神经网络优化方法及装置 | |
CN103514255B (zh) | 一种基于项目层次类别的协同过滤推荐方法 | |
Marley et al. | Best worst scaling: theory and practice | |
CN108897977A (zh) | 一种基于大区域水文模拟的径流演变不确定归因方法 | |
Golub et al. | Does homophily predict consensus times? Testing a model of network structure via a dynamic process | |
CN104239496B (zh) | 一种结合模糊权重相似性度量和聚类协同过滤的方法 | |
CN107622801A (zh) | 疾病概率的检测方法和装置 | |
CN107862022A (zh) | 文化资源推荐系统 | |
CN110245687B (zh) | 用户分类方法以及装置 | |
CN107391670A (zh) | 一种融合协同过滤和用户属性过滤的混合推荐方法 | |
CN107392399A (zh) | 一种基于改进遗传算法的svm卷烟感官质量预测方法 | |
CN109241399A (zh) | 一种基于信任和影响力结合的个性化推荐方法 | |
CN101419209A (zh) | 卷烟感官评吸和烟气指标的免疫神经网络预测方法 | |
CN108132964A (zh) | 一种基于用户对项目类评分的协同过滤方法 | |
CN109298139B (zh) | 烟叶质量评价方法及装置 | |
CN109243523A (zh) | 一种基于乳腺癌疾病的调控网络构建及分析方法 | |
CN106612511A (zh) | 一种基于支持向量机的无线网络吞吐量的评估方法及装置 | |
CN104376078A (zh) | 一种基于知识熵的异常数据检测方法 | |
CN107016260A (zh) | 一种基于跨平台基因表达数据的基因调控网络重建方法 | |
CN114764682A (zh) | 一种基于多机器学习算法融合的大米安全风险评估方法 | |
CN114676749A (zh) | 一种基于数据挖掘的配电网运行数据异常判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180223 |