CN114496243A - 数据处理方法、装置、存储介质及电子设备 - Google Patents

数据处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114496243A
CN114496243A CN202111670101.6A CN202111670101A CN114496243A CN 114496243 A CN114496243 A CN 114496243A CN 202111670101 A CN202111670101 A CN 202111670101A CN 114496243 A CN114496243 A CN 114496243A
Authority
CN
China
Prior art keywords
target
historical
index
classification
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111670101.6A
Other languages
English (en)
Inventor
何涛
王晨
宋庆荔
李志�
刘建生
闻英友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN202111670101.6A priority Critical patent/CN114496243A/zh
Publication of CN114496243A publication Critical patent/CN114496243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开涉及一种数据处理方法、装置、存储介质及电子设备。所述方法包括:获取待处理的检查数据,检查数据包括目标用户在一次体检中检查的至少一个检查指标及检查指标各自对应的指标值;根据与目标生理状态相关联的至少一个目标检查指标,从检查数据中筛选出与目标检查指标对应的目标指标值;根据目标指标值和预训练的分类模型,确定针对检查数据的分类结果,作为目标分类结果,目标分类结果用于表征目标用户在未来处于目标生理状态的风险程度,其中,分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。

Description

数据处理方法、装置、存储介质及电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
人的生理状态可以反映人的身体状况,进而反映其健康情况。通常情况下,通过人的生理状态,能够确定其当前的身体状况,同时,也能在一定程度上预测其之后的身体状况。因此,可以基于体检者的体检数据,对体检者在未来处于某种非健康生理状态的风险程度进行预测,以确定该体检者未来的健康走势,从而,对于有极高风险转为非健康生理状态的体检者,能够及早地发现并针对性地采取预防措施,以避免该体检者转变为非健康生理状态。
相关技术中,对于上述风险程度的预测,通常由医护人员根据自身的医学知识和过往经验进行人工预测,存在主观差异性大、误诊漏诊率高、预测效率低等问题。
发明内容
本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备,通过对用户的检查数据进行分类,准确地预测用户在未来处于非健康生理状态的风险程度,便于及早对高风险用户采取干预措施,防止用户转为非健康生理状态。
为了实现上述目的,根据本公开的第一方面,提供一种数据处理方法,所述方法包括:
获取待处理的检查数据,所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值;
根据与目标生理状态相关联的至少一个目标检查指标,从所述检查数据中筛选出与所述目标检查指标对应的目标指标值;
根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的风险程度,其中,所述分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在所述分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。
可选地,所述与目标生理状态相关联的目标检查指标通过如下方式确定:
获取多个历史数据样本及每一历史数据样本对应的分类标签,其中,每一所述历史数据样本包括指定类型用户对应于多个历史检查指标的历史指标值,所述指定类型用户为出现过目标生理特征的用户,所述目标生理特征为用户的生理状态变化至所述目标生理状态之前所具有的生理特征,所述分类标签用于表征所述历史数据样本所关联的用户在出现所述目标生理特征后处于所述目标生理状态的风险程度;
对所述历史数据样本进行标准化处理,得到各历史指标值对应的历史特征值,以使对应于同一历史检查指标的多个历史特征值均值为0且方差为1;
根据每一所述历史数据样本的历史特征值和分类标签,确定多元线性回归模型,其中,在所述多元线性回归模型中,所述历史数据样本的每种历史检查指标对应有一权重系数;
确定所述多元线性回归模型的损失函数,其中,所述损失函数为均方误差与正则项之和,所述正则项具有正则化系数;
通过调整所述正则化系数,改变所述历史检查指标对应的权重系数,并根据所述历史检查指标对应的权重系数的变化情况,确定所述目标检查指标。
可选地,所述通过调整所述正则化系数,改变所述历史检查指标对应的权重系数,并根据所述历史检查指标对应的权重系数的变化情况,确定所述目标检查指标,包括:
在每次训练过程中,增大所述正则化系数的值,以使至少一个权重系数变为0,并确定权重系数仍不为0的历史检查指标的第一数量;
当所述第一数量小于预设的第二数量时,停止训练,并将停止训练时权重系数不为0的历史检查指标确定为所述目标检查指标。
可选地,按照如下公式确定所述损失函数中的均方误差MSE:
Figure BDA0003452728740000031
其中,m为所述历史数据样本的数量,θ为由所述权重系数构成的权重系数向量,θT为所述权重系数向量的转置,X(k)为第k个历史数据样本的历史特征值,y(k)为第k个历史数据样本的分类标签;
并且,所述损失函数中的正则项包括第一正则项和/或第二正则项;
若所述损失函数中包括第一正则项,则按照如下公式,确定第一正则项R1:
Figure BDA0003452728740000032
若所述损失函数中包括第二正则项,则按照如下公式,确定第二正则项R2:
Figure BDA0003452728740000033
其中,α为所述正则化系数,θi为第i个历史检查指标的权重系数,n为历史检查指标的数量。
可选地,所述分类模型通过如下方式训练得到:
从每一历史数据样本中确定出与所述目标检查指标对应的历史指标值,以得到训练样本,并确定每一所述训练样本对应的分类标签;
确定初始的极限树模型,所述初始的极限树模型包括依次相连的L个决策树模块,并且第1个决策树模块至第L个决策树模块沿所述极限树模型由输入至输出的方向排列,其中第1个决策树模块用于接收模型训练所使用的数据,第L个决策树模块包含1个决策树,且所述第L个决策树模块用于输出分类结果;
基于所述训练样本和所述训练样本对应的分类标签,对所述极限树模型进行训练,以得到训练完成的所述分类模型。
可选地,所述基于所述训练样本和所述训练样本对应的分类标签,对所述极限树模型进行训练,以得到训练完成的所述分类模型,包括:
基于所述训练样本和所述训练样本对应的分类标签,筛选出预设比例的训练样本作为训练集,并使所述训练集中对应于不同分类标签的训练样本的比例符合预设比例;
利用所述训练集,通过交叉验证法对所述极限树模型进行训练,以得到所述分类模型。
可选地,在训练过程中,所述极限树模型的第s个决策树模块中每一决策树的输入内容为对第s-1个决策树模块中每一决策树的输出内容进行拼接后得到的拼接结果,其中,2≤s≤L。
可选地,所述风险程度对应有多个预设分类,所述目标分类结果为所述检查数据属于各预设分类的概率;
所述根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,包括:
将所述目标指标值输入至所述分类模型,得到所述目标分类结果;
将所述目标分类结果中概率值最高的预设分类确定为所述检查数据所属的目标预设分类。
根据本公开的第二方面,提供一种数据处理装置,所述装置包括:
第一获取模块,用于获取待处理的检查数据,所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值;
筛选模块,用于根据与目标生理状态相关联的至少一个目标检查指标,从所述检查数据中筛选出与所述目标检查指标对应的目标指标值;
第一确定模块,用于根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的风险程度,其中,所述分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在所述分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。
根据本公开的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,获取待处理的检查数据,其中包含目标用户在一次体检中检查的至少一个检查指标及各检查指标的指标值,之后,从检查数据中筛选出目标生理状态所关联的各目标检查指标对应的目标指标值,并根据目标指标值和预训练的分类模型确定能够表征目标用户在未来处于目标生理状态的风险程度的目标分类结果。由此,通过从检查数据中筛选出与目标生理状态相关联的检查指标对应的指标值用于分类,使分类只关注对目标生理状态重要的检查指标,忽略对目标生理状态不重要的检查指标,从而,能够提升分类准确性。并且,分类模型包括依次相连的多个决策树模块,每一决策树模块包括至少一个决策树,且在分类模型由输入至输出的方向上每一决策树模块所包含的决策树数量依次减少。由此,通过特定结构的分类模型,在沿分类模型的输出方向上,逐渐收缩模型的输出维度,能够有效提升分类模型输出结果的准确性。这样,对用户在未来处于目标生理状态的风险程度的预测准确性大幅提升,能够更加准确地筛选出高风险用户,进而便于及早对高风险用户采取干预措施,防止用户转为非健康的目标生理状态。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的数据处理方法的流程图;
图2是根据本公开提供的数据处理方法中,确定与目标生理状态相关联的目标检查指标的一种示例性的流程图;
图3是根据本公开的一种实施方式提供的数据处理装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
如背景技术所述,目前,基于体检者的体检数据,可以对体检者在未来处于某种非健康生理状态的风险程度进行预测,以确定该体检者未来的健康走势。举例来说,正常糖代谢、糖尿病前期和糖尿病是三种不同的生理状态,其中,正常糖代谢为健康的生理状态,糖尿病为非健康的生理状态,糖尿病前期则为正常糖代谢向糖尿病转化的过渡阶段(表现为血糖比正常糖代谢高、但尚未达到糖尿病的血糖标准),通过对体检者在未来转为糖尿病的风险程度进行预测,能够估计该体检者在未来一段时间内转为糖尿病的风险,从而,若能预测出体检者在未来一段时间内有极高的风险转为糖尿病,就可以对该体检者进行风险提示,并针对性地对该体检者采取干预措施。
相关技术中,对于该风险程度的预测,通常由医护人员根据自身的医学知识和过往经验进行人工预测,或者,使用传统的风险评价因素(例如,对糖尿病使用血糖指标)构建简单的预测模型,前者存在主观差异性大、预测效率低的问题,后者则由于训练数据单一、模型结构简单,存在误诊、漏诊率高的问题。
为了解决上述技术问题,本公开提供一种数据处理方法、装置、存储介质及电子设备,通过对用户的检查数据进行分类,准确地预测用户在未来处于非健康生理状态的风险程度,便于及早对高风险用户采取干预措施,防止用户转为非健康生理状态。
图1是根据本公开的一种实施方式提供的数据处理方法的流程图。如图1所示,本公开提供的方法可以包括步骤11~步骤13。
在步骤11中,获取待处理的检查数据。
其中,检查数据包括目标用户在一次体检中检查的至少一个检查指标及检查指标各自对应的指标值。
每当用户进行一次体检,就会生成与该次体检对应的体检标识,以唯一标识该次体检,体检的相关信息(例如,体检人的基本信息、体检所检查的检查指标及其指标值、体检的诊断数据等)会与该次体检的体检标识关联存储,作为该次体检的体检数据。
其中,体检人的基本信息可以包括但不限于:性别、年龄、职业、家族史、疾病史、过敏史等。检查指标可以包括但不限于:身高、体重、身体指数、收缩压、舒张压、脉搏、腰围、臀围、腰臀比、饮酒年限、饮酒频率、视力、白细胞计数、粒细胞计数、淋巴细胞计数、淋巴细胞比率、血红蛋白浓度、血清白蛋白测定、血清总胆红素测定、肌酐测定、尿素测定等。体检的诊断数据可以包括但不限于:心电图诊断结果、肺部CT(Computed Tomography,电子计算机断层扫描)平扫诊断结果、肝胆脾胰彩色多普勒超声诊断结果、肾脏CT平扫诊断结果等。
在步骤12中,根据与目标生理状态相关联的至少一个目标检查指标,从检查数据中筛选出与目标检查指标对应的目标指标值。
在一种可能的实施方式中,与目标生理状态相关联的目标检查指标可以通过步骤21~步骤25确定,如图2所示。
在步骤21中,获取多个历史数据样本及每一历史数据样本对应的分类标签。
历史数据样本及其分类标签可以从存储有历史的体检数据的数据库中获取。每一次历史体检的体检数据可以作为一条数据存储到数据库中,之后,可以从中筛选出在指定时段(例如,5年内)出现过目标生理特征的用户的各条体检数据,并进行数据整合,即,将筛选出的每条体检数据填充到数据整合表中,该数据整合表中整合有筛选出的每条体检数据的所有检查指标。此后,可以进行数据预处理措施,数据预处理措施可以包括数据清洗、数据填充等。数据清洗可以删除无效体检数据或无效检查指标,无效体检数据可以为在整张数据整合表中填充比例小于第一预设比例的体检数据,无效检查指标可以为在整张数据整合表中填充比例小于第二预设比例的检查指标。数据填充是针对指标值缺失的检查指标进行的,其中,填充的指标值可以根据实际需求设置,例如,选取指标正常范围值内的某个值(如,中间值)、选取该检查指标下指标值的众数。经过上述处理后,即可得到预处理后的数据整合表,该表内的每一条体检数据均可以作为历史数据样本。
其中,每一历史数据样本包括指定类型用户对应于多个历史检查指标的历史指标值。指定类型用户为出现过目标生理特征的用户,目标生理特征为用户的生理状态变化至目标生理状态之前所具有的生理特征。举例来说,目标生理状态可以为糖尿病,目标生理特征就是糖尿病患者在转化为糖尿病之前所具备的生理特征,也就是糖尿病前期所对应的生理特征(例如,糖尿病前期的空腹血糖值)。
分类标签用于表征历史数据样本所关联的用户在出现目标生理特征后处于目标生理状态的风险程度。历史数据样本的分类标签可以根据历史数据样本所关联的用户在出现目标生理特征后是否转化为目标生理状态确定,并且,可以预先设置分类标签的确定方式。例如,将分类标签分为风险高、风险中和风险低,将出现过目标生理特征后指定时长(例如,2年)内转化为正常状态的用户确定为风险低,将出现过目标生理特征后指定时长内状态并未变化的用户确定为风险中,将出现过目标生理特征后指定时长内转变为目标生理状态的用户确定为风险高。
在步骤22中,对历史数据样本进行标准化处理,得到各历史指标值对应的历史特征值,以使对应于同一历史检查指标的多个历史特征值均值为0且方差为1。
其中,对历史数据样本的标准化处理可以采用标准化处理的常规方式。目前,对一组样本数据的标准化处理的常规方式在于,求取该组样本数据的均值和标准差,并且,针对该组样本数据中的每一样本数据,利用该样本数据减去均值后再除以标准差,以得到该样本数据的标准化处理结果,进而得到该组样本数据的标准化处理结果。
因此,对于历史数据样本的标准化处理,实际上就是针对历史数据样本中对应于相同历史检查指标的历史指标值进行标准化处理,即,若历史数据样本包含对应于p个历史检查指标的历史指标值,则针对这p个历史检查指标,分别按照上述方式对每个历史检查指标的各历史指标值进行标准化处理,以得到对应于每一历史检查指标的标准化处理结果。从而,在标准化处理后,对应于同一历史检查指标的多个历史特征值均值为0,且方差为1。
需要说明的是,对数据的标准化处理属于本领域较为常规的方式,因此,本公开未对其进行详细说明,仅在上文进行简单解释。
在步骤23中,根据每一历史数据样本的历史特征值和分类标签,确定多元线性回归模型。
其中,在多元线性回归模型中,历史数据样本的每种历史检查指标对应有一权重系数。
示例地,可以构建如下形式的多元线性回归模型:
Figure BDA0003452728740000101
其中,
Figure BDA0003452728740000102
为分类标签估计值,θ0~θs分别为对应于各历史检查指标的权重系数,x1~xs为对应于各历史检查指标的历史特征值,θT是θ的转置,X是实例的特征向量。
在步骤24中,确定多元线性回归模型的损失函数。
其中,损失函数为均方误差与正则项之和,正则项具有正则化系数。
示例地,可以按照如下公式确定损失函数中的均方误差MSE:
Figure BDA0003452728740000103
其中,m为历史数据样本的数量,θ为由权重系数构成的权重系数向量,θT为权重系数向量的转置,X(k)为第k个历史数据样本的历史特征值,y(k)为第k个历史数据样本的分类标签。
并且,损失函数中的正则项可以包括第一正则项和/或第二正则项。
示例地,若损失函数中包括第一正则项,则按照如下公式,确定第一正则项R1:
Figure BDA0003452728740000111
示例地,若损失函数中包括第二正则项,则按照如下公式,确定第二正则项R2:
Figure BDA0003452728740000112
其中,α为正则化系数,θi为第i个历史检查指标的权重系数,n为历史检查指标的数量。
在步骤25中,通过调整正则化系数,改变历史检查指标对应的权重系数,并根据历史检查指标对应的权重系数的变化情况,确定目标检查指标。
示例地,步骤25可以包括以下步骤:
在每次训练过程中,增大正则化系数的值,以使至少一个权重系数变为0,并确定权重系数仍不为0的历史检查指标的第一数量;
当第一数量小于预设的第二数量时,停止训练,并将停止训练时权重系数不为0的历史检查指标确定为目标检查指标。
也就是说,对于上述损失函数,可以先从较小的正则化系数开始训练,并在后续的每次训练过程中,逐次增大正则化系数的值,在这一过程中,对于分类标签不够重要的历史检查指标的权重系数会变为0,从而,权重系数不为0的历史检查指标将作为对于分类标签较为重要的目标检查指标。
回到图1,在步骤13中,根据目标指标值和预训练的分类模型,确定针对检查数据的分类结果,作为目标分类结果。
其中,目标分类结果用于表征目标用户在未来处于目标生理状态的风险程度。分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。
示例地,分类模型可以通过如下方式训练得到:
从每一历史数据样本中确定出与目标检查指标对应的历史指标值,以得到训练样本,并确定每一训练样本对应的分类标签;
确定初始的极限树模型;
基于训练样本和训练样本对应的分类标签,对极限树模型进行训练,以得到训练完成的分类模型。
其中,初始的极限树模型可以包括依次相连的L个决策树模块,并且第1个决策树模块至第L个决策树模块沿极限树模型由输入至输出的方向排列,其中第1个决策树模块用于接收模型训练所使用的数据,第L个决策树模块包含1个决策树,且第L个决策树模块用于输出分类结果。
极限树模型是一组决策树的集合,每棵决策树使用所有的样本,对每个特征(目标检查指标)使用随机阈值进行分裂,使得决策树生长得更加随机,训练速度更快。
示例地,通过训练极限树模型得到分类模型可以包括以下步骤:
基于训练样本和训练样本对应的分类标签,筛选出预设比例的训练样本作为训练集,并使训练集中对应于不同分类标签的训练样本的比例符合预设比例;
利用训练集,通过交叉验证法对极限树模型进行训练,以得到分类模型。
在训练之前中,可以首先对训练用的数据集进行划分,即,将历史样本数据划分为训练集和测试集,并基于训练集进行训练,且基于测试集进行测试。
根据分类标签的不同,可以将历史样本数据分为多组,分别与不同的分类标签相对应,从多组数据中使用随机提取下采样的方法达到样本平衡。为了保证模型的泛化能力,可以对历史样本数据进行混洗,从而改变原来的顺序。为了保证训练集和测试集的独立性,可以利用随机抽取的方法得到训练集和测试集,示例地,可以按照4:1的比例划分训练集、测试集。
在训练过程中,可以将所有训练样本整合成为一个矩阵,共同输入到极限树模型中。并且,极限树模型的第s个决策树模块中每一决策树的输入内容为对第s-1个决策树模块中每一决策树的输出内容进行拼接后得到的拼接结果,其中,2≤s≤L。也就是说,每当一个决策树模块得到输出后,将会再次将该决策树模块的所有输出结果整合成为一个矩阵,并输入到下一个决策树模块中,从而,保证每个决策树模块都能够学习到所有训练样本的特征。
示例地,可以通过5折交叉验证法对极限树模型进行训练,以确定极限树模型的超参数。即,将训练集随机分割成5个不同的子集,每个子集为一个折叠,并对极限树模型进行5次训练,每一次训练中,使用4个折叠进行训练,并使用另一个折叠进行评估,以评估输出的每一预设分类的概率的准确程度,从而,每一个折叠均被用作一次评估。其中,确定的极限树模型的超参数可以包括但不限于每层的极限树数量、极限树的回归树数量、树的深度、最大特征数、叶子节点含有的最少样本等。其中,利用交叉验证法对模型进行训练的方式较为常规,此处不做详细介绍。
如上所述,风险程度可以对应有多个预设分类,即,上述分类标签。相应地,目标分类结果可以为检查数据属于各预设分类的概率。
示例地,步骤13可以包括以下步骤:
将目标指标值输入至分类模型,得到目标分类结果;
将目标分类结果中概率值最高的预设分类确定为检查数据所属的目标预设分类。
也就是说,将目标指标值输入分类模型,得到用于表征目标用户的检查数据属于各种预设分类的概率,进而,将其中概率最高的预设分类作为预测结果。
通过上述技术方案,获取待处理的检查数据,其中包含目标用户在一次体检中检查的至少一个检查指标及各检查指标的指标值,之后,从检查数据中筛选出目标生理状态所关联的各目标检查指标对应的目标指标值,并根据目标指标值和预训练的分类模型确定能够表征目标用户在未来处于目标生理状态的风险程度的目标分类结果。由此,通过从检查数据中筛选出与目标生理状态相关联的检查指标对应的指标值用于分类,使分类只关注对目标生理状态重要的检查指标,忽略对目标生理状态不重要的检查指标,从而,能够提升分类准确性。并且,分类模型包括依次相连的多个决策树模块,每一决策树模块包括至少一个决策树,且在分类模型由输入至输出的方向上每一决策树模块所包含的决策树数量依次减少。由此,通过特定结构的分类模型,在沿分类模型的输出方向上,逐渐收缩模型的输出维度,能够有效提升分类模型输出结果的准确性。这样,对用户在未来处于目标生理状态的风险程度的预测准确性大幅提升,能够更加准确地筛选出高风险用户,进而便于及早对高风险用户采取干预措施,防止用户转为非健康的目标生理状态。
图3是根据本公开的一种实施方式提供的数据处理装置的框图。如图3所示,该装置30包括:
第一获取模块31,用于获取待处理的检查数据,所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值;
筛选模块32,用于根据与目标生理状态相关联的至少一个目标检查指标,从所述检查数据中筛选出与所述目标检查指标对应的目标指标值;
第一确定模块33,用于根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的风险程度,其中,所述分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在所述分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。
可选地,所述装置30用于通过如下模块确定与目标生理状态相关联的目标检查指标:
第二获取模块,用于获取多个历史数据样本及每一历史数据样本对应的分类标签,其中,每一所述历史数据样本包括指定类型用户对应于多个历史检查指标的历史指标值,所述指定类型用户为出现过目标生理特征的用户,所述目标生理特征为用户的生理状态变化至所述目标生理状态之前所具有的生理特征,所述分类标签用于表征所述历史数据样本所关联的用户在出现所述目标生理特征后处于所述目标生理状态的风险程度;
处理模块,用于对所述历史数据样本进行标准化处理,得到各历史指标值对应的历史特征值,以使对应于同一历史检查指标的多个历史特征值均值为0且方差为1;
第二确定模块,用于根据每一所述历史数据样本的历史特征值和分类标签,确定多元线性回归模型,其中,在所述多元线性回归模型中,所述历史数据样本的每种历史检查指标对应有一权重系数;
第三确定模块,用于确定所述多元线性回归模型的损失函数,其中,所述损失函数为均方误差与正则项之和,所述正则项具有正则化系数;
第四确定模块,用于通过调整所述正则化系数,改变所述历史检查指标对应的权重系数,并根据所述历史检查指标对应的权重系数的变化情况,确定所述目标检查指标。
可选地,所述第四确定模块,包括:
系数调节子模块,用于在每次训练过程中,增大所述正则化系数的值,以使至少一个权重系数变为0,并确定权重系数仍不为0的历史检查指标的第一数量;
第一确定子模块,用于当所述第一数量小于预设的第二数量时,停止训练,并将停止训练时权重系数不为0的历史检查指标确定为所述目标检查指标。
可选地,所述第三确定模块用于按照如下公式确定所述损失函数中的均方误差MSE:
Figure BDA0003452728740000161
其中,m为所述历史数据样本的数量,θ为由所述权重系数构成的权重系数向量,θT为所述权重系数向量的转置,X(k)为第k个历史数据样本的历史特征值,y(k)为第k个历史数据样本的分类标签;
并且,所述损失函数中的正则项包括第一正则项和/或第二正则项;
所述第三确定模块还用于若所述损失函数中包括第一正则项,则按照如下公式,确定第一正则项R1:
Figure BDA0003452728740000162
所述第三确定模块还用于若所述损失函数中包括第二正则项,则按照如下公式,确定第二正则项R2:
Figure BDA0003452728740000163
其中,α为所述正则化系数,θi为第i个历史检查指标的权重系数,n为历史检查指标的数量。
可选地,所述装置30用于通过如下模块训练得到分类模型:
第五确定模块,用于从每一历史数据样本中确定出与所述目标检查指标对应的历史指标值,以得到训练样本,并确定每一所述训练样本对应的分类标签;
第六确定模块,用于确定初始的极限树模型,所述初始的极限树模型包括依次相连的L个决策树模块,并且第1个决策树模块至第L个决策树模块沿所述极限树模型由输入至输出的方向排列,其中第1个决策树模块用于接收模型训练所使用的数据,第L个决策树模块包含1个决策树,且所述第L个决策树模块用于输出分类结果;
训练模块,用于基于所述训练样本和所述训练样本对应的分类标签,对所述极限树模型进行训练,以得到训练完成的所述分类模型。
可选地,所述训练模块,包括:
划分子模块,用于基于所述训练样本和所述训练样本对应的分类标签,筛选出预设比例的训练样本作为训练集,并使所述训练集中对应于不同分类标签的训练样本的比例符合预设比例;
训练子模块,用于利用所述训练集,通过交叉验证法对所述极限树模型进行训练,以得到所述分类模型。
可选地,在训练过程中,所述极限树模型的第s个决策树模块中每一决策树的输入内容为对第s-1个决策树模块中每一决策树的输出内容进行拼接后得到的拼接结果,其中,2≤s≤L。
可选地,所述风险程度对应有多个预设分类,所述目标分类结果为所述检查数据属于各预设分类的概率;
所述第一确定模块33,包括:
输入子模块,用于将所述目标指标值输入至所述分类模型,得到所述目标分类结果;
第二确定子模块,用于将所述目标分类结果中概率值最高的预设分类确定为所述检查数据所属的目标预设分类。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备700的框图。如图4所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的数据处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的数据处理方法。
图5是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图5,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的数据处理方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据处理方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的数据处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理的检查数据,所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值;
根据与目标生理状态相关联的至少一个目标检查指标,从所述检查数据中筛选出与所述目标检查指标对应的目标指标值;
根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的风险程度,其中,所述分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在所述分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。
2.根据权利要求1所述的方法,其特征在于,所述与目标生理状态相关联的目标检查指标通过如下方式确定:
获取多个历史数据样本及每一历史数据样本对应的分类标签,其中,每一所述历史数据样本包括指定类型用户对应于多个历史检查指标的历史指标值,所述指定类型用户为出现过目标生理特征的用户,所述目标生理特征为用户的生理状态变化至所述目标生理状态之前所具有的生理特征,所述分类标签用于表征所述历史数据样本所关联的用户在出现所述目标生理特征后处于所述目标生理状态的风险程度;
对所述历史数据样本进行标准化处理,得到各历史指标值对应的历史特征值,以使对应于同一历史检查指标的多个历史特征值均值为0且方差为1;
根据每一所述历史数据样本的历史特征值和分类标签,确定多元线性回归模型,其中,在所述多元线性回归模型中,所述历史数据样本的每种历史检查指标对应有一权重系数;
确定所述多元线性回归模型的损失函数,其中,所述损失函数为均方误差与正则项之和,所述正则项具有正则化系数;
通过调整所述正则化系数,改变所述历史检查指标对应的权重系数,并根据所述历史检查指标对应的权重系数的变化情况,确定所述目标检查指标。
3.根据权利要求2中所述的方法,其特征在于,所述通过调整所述正则化系数,改变所述历史检查指标对应的权重系数,并根据所述历史检查指标对应的权重系数的变化情况,确定所述目标检查指标,包括:
在每次训练过程中,增大所述正则化系数的值,以使至少一个权重系数变为0,并确定权重系数仍不为0的历史检查指标的第一数量;
当所述第一数量小于预设的第二数量时,停止训练,并将停止训练时权重系数不为0的历史检查指标确定为所述目标检查指标。
4.根据权利要求2所述的方法,其特征在于,按照如下公式确定所述损失函数中的均方误差MSE:
Figure FDA0003452728730000021
其中,m为所述历史数据样本的数量,θ为由所述权重系数构成的权重系数向量,θT为所述权重系数向量的转置,X(k)为第k个历史数据样本的历史特征值,y(k)为第k个历史数据样本的分类标签;
并且,所述损失函数中的正则项包括第一正则项和/或第二正则项;
若所述损失函数中包括第一正则项,则按照如下公式,确定第一正则项R1:
Figure FDA0003452728730000022
若所述损失函数中包括第二正则项,则按照如下公式,确定第二正则项R2:
Figure FDA0003452728730000031
其中,α为所述正则化系数,θi为第i个历史检查指标的权重系数,n为历史检查指标的数量。
5.根据权利要求2所述的方法,其特征在于,所述分类模型通过如下方式训练得到:
从每一历史数据样本中确定出与所述目标检查指标对应的历史指标值,以得到训练样本,并确定每一所述训练样本对应的分类标签;
确定初始的极限树模型,所述初始的极限树模型包括依次相连的L个决策树模块,并且第1个决策树模块至第L个决策树模块沿所述极限树模型由输入至输出的方向排列,其中第1个决策树模块用于接收模型训练所使用的数据,第L个决策树模块包含1个决策树,且所述第L个决策树模块用于输出分类结果;
基于所述训练样本和所述训练样本对应的分类标签,对所述极限树模型进行训练,以得到训练完成的所述分类模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述训练样本和所述训练样本对应的分类标签,对所述极限树模型进行训练,以得到训练完成的所述分类模型,包括:
基于所述训练样本和所述训练样本对应的分类标签,筛选出预设比例的训练样本作为训练集,并使所述训练集中对应于不同分类标签的训练样本的比例符合预设比例;
利用所述训练集,通过交叉验证法对所述极限树模型进行训练,以得到所述分类模型。
7.根据权利要求5所述的方法,其特征在于,在训练过程中,所述极限树模型的第s个决策树模块中每一决策树的输入内容为对第s-1个决策树模块中每一决策树的输出内容进行拼接后得到的拼接结果,其中,2≤s≤L。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述风险程度对应有多个预设分类,所述目标分类结果为所述检查数据属于各预设分类的概率;
所述根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,包括:
将所述目标指标值输入至所述分类模型,得到所述目标分类结果;
将所述目标分类结果中概率值最高的预设分类确定为所述检查数据所属的目标预设分类。
9.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理的检查数据,所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值;
筛选模块,用于根据与目标生理状态相关联的至少一个目标检查指标,从所述检查数据中筛选出与所述目标检查指标对应的目标指标值;
第一确定模块,用于根据所述目标指标值和预训练的分类模型,确定针对所述检查数据的分类结果,作为目标分类结果,所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的风险程度,其中,所述分类模型包括依次相连的多个决策树模块,每一决策树模块包含至少一个决策树,且在所述分类模型由输入至输出的方向上,每一决策树模块所包含的决策树数量依次减少。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202111670101.6A 2021-12-31 2021-12-31 数据处理方法、装置、存储介质及电子设备 Pending CN114496243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111670101.6A CN114496243A (zh) 2021-12-31 2021-12-31 数据处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111670101.6A CN114496243A (zh) 2021-12-31 2021-12-31 数据处理方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114496243A true CN114496243A (zh) 2022-05-13

Family

ID=81507600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111670101.6A Pending CN114496243A (zh) 2021-12-31 2021-12-31 数据处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114496243A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116130096A (zh) * 2023-04-04 2023-05-16 安徽省立医院(中国科学技术大学附属第一医院) 一种通过核心指标进行辅助决策的系统、方法和电子设备
CN116150610A (zh) * 2023-04-20 2023-05-23 江西省气象数据中心(江西省气象档案馆) 疑误数据处理模型训练方法、系统、计算机及存储介质
CN116403718A (zh) * 2023-06-08 2023-07-07 中国医学科学院阜外医院 生理指征预测模型的构建方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116130096A (zh) * 2023-04-04 2023-05-16 安徽省立医院(中国科学技术大学附属第一医院) 一种通过核心指标进行辅助决策的系统、方法和电子设备
CN116130096B (zh) * 2023-04-04 2023-11-21 安徽省立医院(中国科学技术大学附属第一医院) 一种通过核心指标进行辅助决策的系统、方法和电子设备
CN116150610A (zh) * 2023-04-20 2023-05-23 江西省气象数据中心(江西省气象档案馆) 疑误数据处理模型训练方法、系统、计算机及存储介质
CN116403718A (zh) * 2023-06-08 2023-07-07 中国医学科学院阜外医院 生理指征预测模型的构建方法、装置、设备及存储介质
CN116403718B (zh) * 2023-06-08 2023-09-01 中国医学科学院阜外医院 生理指征预测模型的构建方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN114496243A (zh) 数据处理方法、装置、存储介质及电子设备
CN108604465B (zh) 基于患者生理反应的对急性呼吸道疾病综合征(ards)的预测
US11062792B2 (en) Discovering genomes to use in machine learning techniques
CN111080643A (zh) 基于眼底图像的糖尿病及相关疾病的分类方法及设备
US10327709B2 (en) System and methods to predict serum lactate level
CN111696100A (zh) 基于眼底影像确定吸烟程度的方法及设备
CN108492886B (zh) 微创手术相似病案推荐方法、装置、设备及介质
CN111291131A (zh) 数据处理方法、装置、存储介质及电子设备
US11455498B2 (en) Model training method and electronic device
CN111028232A (zh) 基于眼底图像的糖尿病分类方法及设备
CN111358453B (zh) 一种血压分类预测方法和装置
CN115602325A (zh) 一种基于多模型算法的慢性病风险评估方法及其系统
KR101603308B1 (ko) 생체 나이 연산 모델 생성 방법 및 시스템과, 그 생체 나이 연산 방법 및 시스템
WO2016006042A1 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
CN113128654A (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
US20230060794A1 (en) Diagnostic Tool
Dutta et al. A machine learning-based method for autism diagnosis assistance in children
CN113425248B (zh) 医疗影像评估方法、装置、设备及计算机存储介质
CN112545461A (zh) 一种无创血红蛋白浓度值的检测方法、装置、系统及计算机可读存储介质
CN113066547A (zh) 一种基于常规无创参数的ards早期动态预警方法与系统
US11766223B1 (en) Systems and methods for processing of fundus images
Okewole Regularized regression model for predicting hypertension and type 2 diabetes mellitus in patients
CN117133459B (zh) 一种基于机器学习的术后颅内感染预测方法及系统
WO2023214890A1 (en) Systems and methods for processing of fundus images
White et al. Prediction of cardiovascular risk factors from retinal fundus photographs: Validation of a deep learning algorithm in a prospective non‐interventional study in Kenya

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination