CN113990507A - 数据处理方法、装置、可读介质及电子设备 - Google Patents

数据处理方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN113990507A
CN113990507A CN202111281731.4A CN202111281731A CN113990507A CN 113990507 A CN113990507 A CN 113990507A CN 202111281731 A CN202111281731 A CN 202111281731A CN 113990507 A CN113990507 A CN 113990507A
Authority
CN
China
Prior art keywords
data
model
feature
processing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111281731.4A
Other languages
English (en)
Inventor
熊奕洋
张学智
黄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111281731.4A priority Critical patent/CN113990507A/zh
Publication of CN113990507A publication Critical patent/CN113990507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种数据处理方法、装置、可读介质以及电子设备,所述方法包括:获取由多个原始数据构成的原始数据集,每个原始数据包括多个用户特征;对原始数据集进行特征筛选处理,得到目标数据集,目标数据集中的目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量;构建级联模型,基于目标数据集对级联模型进行训练,得到数据处理模型;通过数据处理模型对待处理用户数据进行特征提取和映射处理,得到数据处理结果,数据处理结果用于进行风险提示。本申请实施例提供的技术方案使得进行模型训练的目标数据集与模型预测结果具有较大的相关性,从而提高了数据处理模型的预测准确性。

Description

数据处理方法、装置、可读介质及电子设备
技术领域
本申请属于计算机及数据处理技术领域,具体涉及一种数据处理方法、装置、可读介质以及电子设备。
背景技术
随着日常生活水平的提高,人们对身体健康也越来越重视。例如,GDM(Gestational Diabetes Mellitus,妊娠期糖尿病)是仅限于妊娠期发生的糖尿病,分娩后大部分恢复正常,但也有很大概率再次复发。GDM虽然只是妊娠导致的暂时性病症,但由于血糖升高,容易使患者出现高血压的症状;此外,高浓度的血糖会影响孕妇羊水分泌过程,影响胎儿发育。因此,能及时的给妊娠期的产妇发出糖尿病预警,对胎儿和孕妇的安全有着十分重要的意义。传统的检测方法需要用户去指定的检测地点进行检测,然后由医生根据检测结果给出诊断结论,这种方式虽然较为准确,但是费时费力,效率低下。目前也有通过大数据进行糖尿病风险预测的,但是所需处理数据量大,通常预测精度不高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种数据处理方法、装置、可读介质以及电子设备,以实现对相关指标的风险预测,提高模型预测的准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种数据处理方法,包括:
获取由多个原始数据构成的原始数据集,每个所述原始数据包括多个用户特征;
对所述原始数据集进行特征筛选处理,得到目标数据集,所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量;
构建级联模型,基于所述目标数据集对所述级联模型进行训练,得到数据处理模型;所述级联模型包括第一模型和第二模型,所述第一模型的输出数据为所述第二模型的输入数据;
通过所述数据处理模型对待处理用户数据进行特征提取和映射处理,得到数据处理结果,所述数据处理结果用于进行风险提示。
根据本申请实施例的一个方面,提供一种数据处理装置,包括:
原始数据获取模块,用于获取由多个原始数据构成的原始数据集,每个所述原始数据包括多个用户特征;
特征筛选模块,用于对所述原始数据集进行特征筛选处理,得到目标数据集,所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量;
模型训练模块,用于构建级联模型,基于所述目标数据集对所述级联模型进行训练,得到数据处理模型;所述级联模型包括第一模型和第二模型,所述第一模型的输出数据为所述第二模型的输入数据;
数据处理模块,用于通过所述数据处理模型对待分析数据进行特征提取和映射处理,得到数据处理结果。
在本申请的一个实施例中,所述原始数据获取模块包括:
预处理单元,用于获取多个原始数据,并对所述多个原始数据进行预处理,以使所有的原始数据具备相同类型的用户特征;
标准化单元,用于对预处理后的多个原始数据进行标准化处理;
原始数据生成单元,用于根据标准化处理后的多个原始数据形成原始数据集。
在本申请的一个实施例中,所述预处理单元包括:
去重单元,用于去除所述多个原始数据中的重复数据;
特征缺失比例确定单元,用于基于去重后多个原始数据,确定每个用户特征所对应的特征缺失比例;
特征填充单元,用于根据所述特征缺失比例确定特征填充方法,并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
在本申请的一个实施例中,所述特征填充单元具体用于:
当所述特征缺失比例小于第一阈值时,确定所述特征填充方法为第一填充方法;
当所述特征缺失比例大于第一阈值且小于第二阈值时,确定所述特征填充方法为第二填充方法;
当所述特征缺失比例大于第二阈值时,确定所述特征填充方法为第三填充方法。
在本申请的一个实施例中,所述原始数据的用户特征包括离散用户特征和连续用户特征;所述标准化单元具体用于:
对预处理后的多个原始数据的离散用户特征进行编码处理,以及,对预处理后的多个原始数据的连续用户特征进行归一化处理。
在本申请的一个实施例中,所述特征筛选模块包括:
热度值筛选单元,用于生成所述原始数据集中原始数据的每个用户特征与指定指标的热度图,并将所述热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除,得到第一数据集;所述第一数据集中的每个第一数据包括第一数量的用户特征;
遗传算法筛选单元,用于通过遗传算法对所述第一数据集进行特征筛选处理,得到第二数据集,所述第二数据集中的每个第二数据包括第二数量的用户特征,所述第二数量小于所述第一数量;
特征库筛选单元,用于根据预设特征库对所述第二数据集进行特征筛选处理,得到目标数据集;所述目标数据集中的目标数据所包含的用户特征数量为指定数量,且小于所述第二数量。
在本申请的一个实施例中,所述模型训练模块包括:
数据划分单元,用于将所述目标数据集划分为训练样本集和测试样本集,其中,所述训练样本集的数据量大于所述测试样本集的数据量;
模型训练单元,用于基于所述训练样本集对所述级联模型进行训练,得到训练好的级联模型;其中,在训练过程中,通过网格搜索法进行所述级联模型的参数调优;
模型测试单元,用于基于所述测试样本集对所述训练好的级联模型进行测试,当测试结果指示的模型准确率达到预设阈值,得到数据处理模型。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数据处理方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据处理方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的数据处理方法。
本申请提供的技术方案,通过对原始数据集进行特征筛选得到目标数据集,然后使用目标数据集对级联模型进行训练得到数据处理模型,最后使用数据处理模型对待处理用户数据进行处理,得到数据处理结果,使得进行模型训练的目标数据集与模型预测结果具有较大的相关性,从而提高了数据处理模型的预测准确性。例如,将数据处理模型用于孕妇糖尿病风险预测,能精准评估GDM风险,进而可以制定精准的预防方案,给医生在孕妇糖尿病相关病症的诊断提供参考和预警,达到保障产妇和胎儿安全的目的。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2示意性地示出了本申请实施例提供的数据处理方法的流程图。
图3示意性地示出了本申请一个实施例提供的对多个原始数据进行预处理以及标准化处理的流程图。
图4示意性地示出了本申请一个实施例提供的特征筛选处理的流程图。
图5示意性地示出了本申请一个实施例提供的级联模型的训练过程的流程图。
图6示意性地示出了本申请实施例提供的数据处理装置的结构框图。
图7示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的用户特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,终端设备110采集多个原始数据形成原始数据集,每个原始数据包括多个用户特征,终端设备110将原始数据集发送至服务器130。服务器130获取原始数据集后,对原始数据集进行特征筛选处理,得到目标数据集,目标数据集中的目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量;然后构建级联模型,基于目标数据集对级联模型进行训练,得到数据处理模型;级联模型包括第一模型和第二模型,第一模型的输出数据为第二模型的输入数据;最后通过数据处理模型对待处理用户数据进行特征提取和映射处理,得到数据处理结果,数据处理结果用于进行风险提示,例如,提示用户是否具有患有糖尿病的风险。
在本申请的一个实施例中,服务器130在得到数据处理结果之后,可以将数据处理结果通过网络120返回给终端设备110,进而终端设备110可以向用户展示数据处理结果。
在本申请的一个实施例中,本申请实施例提供的数据处理方法由服务器130执行,相应地,数据处理装置一般设置于服务器130中。但本领域技术人员容易理解的是,本申请实施例提供的数据处理方法也可以由终端设备110执行,相应地,数据处理装置也可以设置于终端设备110中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,终端设备110采集多个原始数据形成原始数据集,并对原始数据集进行特征筛选处理,得到目标数据集;然后构建级联模型,使用目标数据集进行训练,得到数据处理模型;最后通过数据处理模型对待处理用户数据进行特征提取和映射处理,得到数据处理结果。
下面结合具体实施方式对本申请提供的数据处理方法做出详细说明。
图2示意性地示出了本申请实施例提供的数据处理方法的流程图,该方法可以通过终端设备实施,如图1所示的终端设备110;该方法也可以通过服务器实施,如图1所示的服务器130。如图2所示,本申请实施例提供的数据处理方法包括步骤210至步骤240,具体如下:
步骤210、获取由多个原始数据构成的原始数据集,每个原始数据包括多个用户特征。
具体的,每个原始数据都包括多个用户特征,一个用户特征相当于一项用户参数,可以用户的基本信息,如用户年龄,也可以是用户的检查项目数据,如基因信息、胰岛素抵抗指数等。
在本申请的一个实施例中,本申请提供的数据处理方法用于进行孕妇糖尿病风险预测,一个原始数据包括一个孕妇的多个特征,如是否诊断为糖尿病、基因信息、胰岛素抵抗指数、是否流产过、孕前BMI(Body Mass Index,身体质量指数)、年龄等。原始数据属于历史数据,可以从相关企业或单位的公开数据库中获取,或者从网上开源数据库中获取。
在本申请的一个实施例中,如图3所示,在获取多个原始数据之后,还包括对多个原始数据进行预处理以及标准化处理,具体为:
步骤310、获取多个原始数据,并对所述多个原始数据进行预处理,以使所有的原始数据具备相同类型的用户特征。
具体的,对于获取的多个原始数据,虽然每个原始数据都具备多个用户特征,但是每个原始数据所具备的用户特征的类型不一定相同,一种类型的用户特征相当于一个用户特征,因此,用户特征的类型也可以通过用户特征的数量来表示。例如,原始数据A具备用户特征a,原始数据B具备用户特征b,原始数据C具备用户特征a和用户特征b,这三个原始数据具备的用户特征的类型均不完全相同。为了使各个原始数据具备相同类型的用户特征,故而对获取的多个原始数据进行预处理。
对多个原始数据进行预处理,就是对缺失一些用户特征的原始数据进行特征填充处理,如前述示例,原始数据A缺失用户特征b,则原始数据A填充用户特征b;原始数据B缺失用户特征a,则原始数据B填充用户特征a;原始数据C是完整数据,不用进行填充处理。
在本申请的一个实施例中,对多个原始数据进行预处理的步骤具体包括:去除所述多个原始数据中的重复数据;基于去重后多个原始数据,确定每个用户特征所对应的特征缺失比例;根据所述特征缺失比例确定特征填充方法,并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
具体的,在获取的多个原始数据中,可能存在重复数据,故而首先对多个原始数据进行去重处理,去重处理后,再进行特征填充处理。在本申请的一个实施例中,在去除重复数据时,可以一并去除异常数据。
在进行特征填充处理时,首先确定每个用户特征所对应的特征缺失比例,然后根据特征缺失比例确定对应的特征填充方法。一个用户特征对应的特征缺失比例是指,缺失该用户特征的原始数据的数量在原始数据总量中所占的比例。如前述示例,对于用户特征a,其特征缺失比例为1/3;对于用户特征b,其特征缺失比例为1/3。
在本申请的一个实施例中,以原始数据为孕妇数据为例,不同的用户特征对应的特征缺失比例是不同的,例如,对于“是否流产过”这一项特征,如非必要,大部分用户不愿意透露这项信息,那么该项特征所对应的特征缺失比例较大;对于一些检查项目数据,如“基因信息”这一项特征,可能由于统计失误造成缺失,对应的特征缺失比例可能在中等程度;对于用户基本信息类的特征,如“年龄”这一项特征,可能只有少量的原始数据缺失,对应的特征缺失比例较小。
在本申请实施例中,不同的特征缺失比例采用不同的特征填充方法。当特征缺失比例小于第一阈值,即特征缺失比例较小,确定特征填充方法为第一填充方法;当特征缺失比例大于第一阈值且小于第二阈值时,即特征缺失比例在中等程度,确定特征填充方法为第二填充方法;当特征缺失比例大于第二阈值时,即特征缺失比例较大,确定特征填充方法为第三填充方法。
在本申请的一个实施例中,第一填充方法为最近邻填充方法。最近邻填充方法是通过已知的最邻近的值来估计或逼近待填充的值,最近邻填充方法适用于缺失值较少的数据填充,因此将其作为特征缺失比例小于第一阈值时的特征填充方法。
在本申请的一个实施例中,第二填充方法为MICE(Multivariate Imputation byChained Equations,链式方程多重插补)填充方法。MICE是R语言中的一种数据填充方法,其基本思想是:对于一个具有缺失特征的数据,用其他数据的特征对这个数据进行拟合,再用拟合的预测值对这个数据的缺失特征进行填补。MICE填充方法适用于缺失值中等情况的数据填充,因此将其作为特征缺失比例在第一阈值和第二阈值之间时的特征填充方法。
在本申请的一个实施例中,第三填充方法为Nuclear。
在本申请的一个实施例中,特征填充方法还可以是固定值填充法、均值填充法、众数填充法、随机森林(Random Forest,RF)填充法等。特征填充方法可以根据实际需要进行选择,本申请实施例对此不做限制。
在本申请的一个实施例中,在对原始数据进行预处理之前,还可以通过python的第三方包matplotlib、numpy、pandas等对原始数据中的各个特征分布进行可视化(例如体现各个用户特征的方差、均值、75%分位值、50%分位值等统计特征,以及散点图、箱型图、折线图等图形特征),直观的体现原始数据中有哪些重要特征,可以通过可视化数据进行预筛选。
步骤320、对预处理后的多个原始数据进行标准化处理。
具体的,原始数据的用户特征类型多样,一般包括离散用户特征和连续用户特征。对预处理后的原始数据进行标准化处理,包括对离散用户特征进行标准化处理和对连续用户特征进行标准化处理。
在本申请的一个实施例中,对离散用户特征进行标准化处理,就是对离散用户特征进行编码处理,本申请实施例中,离散用户特征采用one-hot编码处理,one-hot编码可以将离散用户特征转换为二进制向量表示。
在本申请的一个实施例中,对连续用户特征进行标准化处理,就是对对连续用户特征进行归一化处理。归一化处理使得连续用户特征处于同一区间范围内,一般是处于[0,1]的区间内,同时使有量纲的用户特征转化为无量纲的用户特征,方便后续的数据处理。归一化处理的方法有:线性函数归一化(Min-Max scaling)、0均值标准化(Z-scorestandardization)、对数函数转换法、反余切函数转换法等。
步骤330、根据标准化处理后的多个原始数据形成原始数据集。
具体的,标准化处理后,对原始数据的处理工作完毕,形成原始数据集。
继续参考图2,步骤220、对原始数据集进行特征筛选处理,得到目标数据集,目标数据集中的目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量。
具体的,原始数据包括较多的用户特征,但并不是每一个的用户特征都是数据处理所必须的。特征筛选处理,就是从原始数据的多个用户特征中筛选出与数据处理关系最为密切的几个用户特征,形成目标数据,进而形成目标数据集,其中,目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量。
在本申请的一个实施例中,如图4所示,特征筛选处理的过程包括步骤410至步骤430,具体如下:
步骤410、生成原始数据集中原始数据的每个用户特征与指定指标的热度图,并将热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除,得到第一数据集;第一数据集中的每个第一数据包括第一数量的用户特征。
具体的,在进行特征筛选处理时,首先生成原始数据集对应的热度图,该热度图指示了各个用户特征与指定指标的相关性。其中,指定指标是指最终需要预测风险的指标,例如,以本申请实施例提供的预测糖尿病风险为例,指定指标为原始数据中“是否诊断为糖尿病”这一特征,那么热度图指示了基因信息、胰岛素抵抗指数、是否流产过、孕前BMI、年龄等特征与诊断为糖尿病的相关性。
热度图相当于直方图,每一个图形的高度表示对应用户特征的热度值,该热度值就表示了该用户特征与诊断为糖尿病的相关性。热度值越大,表示相关性越大;热度值越小,则表示相关性越小。因此,热度值过小,说明对应用户特征与诊断为糖尿病的关系不大,那么其对于糖尿病风险的预测自然也不重要。因此,可以将热度值低于预设热度阈值的用户特征从原始数据中删除,保留原始数据中与指定指标相关性较大的用户特征。
经热度值筛选处理后得到的第一数据形成第一数据集,第一数据所包含的用户特征的数量记为第一数量,则第一数量必然小于原始数据所包含的用户特征的数量。
在本申请的一个实施例中,可以通过第三方库seaborn和matplotlib生成原始数据集对应的热度图。
步骤420、通过遗传算法对第一数据集进行特征筛选处理,得到第二数据集,第二数据集中的每个第二数据包括第二数量的用户特征,第二数量小于第一数量。
具体的,热度图作为初步筛选方法,其能够挖掘的信息有限,故而通过遗传算法对第一数据集进一步筛选,得到第二数据集。遗传算法的原理是仿照自然进化过程实现对最优解的寻找,先设定当前适应度函数,进行定向选择,再进行不定项变异,最后通过适应度函数与特征的值选择较好的特征。
经过遗传算法的筛选,得到的第二数据包括第二数量的用户特征,第二数量小于第一数量,也即,第二数据包含的用户特征的数量小于第一数据包含的用户特征的数量。
步骤430、根据预设特征库对第二数据集进行特征筛选处理,得到目标数据集;目标数据集中的目标数据所包含的用户特征数量为指定数量,且小于第二数量。
具体的,预设特征库包括多个预设特征,预设特征是预先确定的与风险预测相关性较大的用户特征,例如,以糖尿病风险预测为例,预设特征可以包括甘油三酯、孕前体重、孕前BMI、BMI等。根据预设特征库对第二数据集进行筛选处理,就是从第二数据中选择与风险预测相关性最大的几个特征,并将其余特征删除,得到目标数据。
在本申请的一个实施例中,根据预设特征库进行特征筛选时,首先将第二数据的用户特征与预设特征库中的预设特征进行匹配,筛选出第二数据和预设特征库共有的特征,然后对共有的特征进行重要度排序,最后选择排序在前的指定数量的用户特征作为目标数据所包含的用户特征,该指定数量小于第二数量。例如,最终目标数据包含20个用户特征。
在本申请的一个实施例中,在得到目标数据集之后,还可以通过树模型和残差分析获取目标数据集中的目标数据的重要性分数,该重要性分数可以作为后续为级联模型配置权重的依据。
继续参考图2,步骤230、构建级联模型,基于目标数据集对级联模型进行训练,得到数据处理模型;级联模型包括第一模型和第二模型,第一模型的输出数据为第二模型的输入数据。
具体的,级联模型是由至少两个模型构成的复合模型,通过目标数据集对级联模型进行训练,训练好的级联模型即为数据处理模型。在本申请实施例中,级联模型包括第一模型和第二模型,第一模型的输出数据为第二模型的输入数据。
在本申请的一个实施例中,如图5所示,级联模型的训练过程包括步骤510至步骤530,具体如下:
步骤510、将目标数据集划分为训练样本集和测试样本集,其中,训练样本集的数据量大于测试样本集的数据量。
具体的,在模型训练之前,首先将目标数据集划分为训练样本集和测试样本集,训练样本集用于对级联模型进行训练,测试样本集用于测试训练好的级联模型是否合格。一般的,训练样本集的数据量大于测试样本集的数据量。
步骤520、基于训练样本集对级联模型进行训练,得到训练好的级联模型;其中,在训练过程中,通过网格搜索法进行级联模型的参数调优。
具体的,构建由第一模型和第二模型组成的级联模型,然后使用训练样本集对该级联模型进行训练,在训练过程中,通过网格搜索法(GridSearchCV)进行级联模型的参数调优,进行调优的参数包括树的长度、深度、每个树的权重、目标AUC(Aera Under theCurve,曲线下发的面积)等。
在本申请的一个实施例中,以糖尿病风险预测为例,第一模型为lightgbm模型,第二模型为catboost模型。由于catboost模型在小样本学习中表现更为优良,因此将catboost模型作为主模型,将lightgbm模型作为辅助模型,也就是说,第二模型的权重大于第一模型的权重。
在本申请的一个实施例中,通过网格搜索法(GridSearchCV)进行级联模型的参数调优时,缩小catboost模型的参数选择范围。
在本申请的一个实施例中,以糖尿病风险预测为例,级联模型对于输入数据的直接输出数据为一个概率值,该概率值表示了具有糖尿病的概率,最后需要将该概率值转化为糖尿病的预测风险,也就是级联模型的预测结果为糖尿病风险预测结果,包括两种情况:具有糖尿病风险和不具有糖尿病风险。也就是说,级联模型相当于一个二分类模型,那么,将直接输出数据所表示的概率值映射为预测结果的准确性,就代表了最终得到的数据处理模型的风险预测的准确性。
在将直接输出数据所表示的概率值映射为对应的预测结果时,通常设置一分类阈值,当直接输出数据所表示的概率值大于该分类阈值时,则表示预测结果为具有糖尿病风险;当直接输出数据所表示的概率值小于该分类阈值时,则表示预测结果为不具有糖尿病风险。
在本申请实施例中,首先设置一分类阈值的初始值,然后将级联模型对训练样本集的样本数据的预测结果进行排序,计算级联模型分类前训练样本集的信息熵(记为分类前信息熵)和级联模型分类后训练样本集的信息熵(记为分类后信息熵),信息熵计算方式如下:
Figure BDA0003331340560000131
当分类后信息熵大于分类前信息熵时,更新当前分类阈值后重新进行预测;当分类后信息熵小于分类前信息熵时,说明根据当前分类阈值进行分类实现了熵增的效果,表明当前分类阈值是准确的,那么将当前分类阈值作为最终的分类阈值,也就是将熵增的临界样本数据预测值作为分类阈值,训练得到的数据处理模型将根据该分类阈值进行预测分类。
步骤530、基于测试样本集对训练好的级联模型进行测试,当测试结果指示的模型准确率达到预设阈值,得到数据处理模型。
具体的,在级联模型的训练过程中,当损失函数符合要求,或训练次数达到预设次数时,得到训练好的级联模型,为了确定训练好的级联模型是否合格,需要根据测试样本集对训练好的级联模型进行测试,当测试得到模型准确率达到预设阈值时,说明训练好的级联模型合格,可以作数据处理模型使用。若测试得到模型准确率未达到预设阈值,则需要重新对级联模型进行训练。
在本申请的一个实施例中,可以通过对训练好的级联模型的预测结果进行评分,以此来确定模型准确率。可以采用宏平均F1-score对模型进行评价,具体过程如下:
首先统计每个用户特征对应的TP(预测结果正确的样本数量)、FP(错误将其他类预测为样本类)和FN(本类标签预测为其他类)。
然后根据下式计算每个用户特征对应的准确率(precisionk)和召回率(recallk):
Figure BDA0003331340560000141
Figure BDA0003331340560000142
再根据用户特征对应的准确率(precisionk)和召回率(recallk)计算该用户特征的评价分数(f1k):
Figure BDA0003331340560000143
最后根据各用户特征的评价分数得到级联模型的评价分数(score):
Figure BDA0003331340560000144
评价分数越高,表明级联模型的预测准确率越高。
继续参考图2,步骤240、通过数据处理模型对待处理用户数据进行特征提取和映射处理,得到数据处理结果,数据处理结果用于进行风险提示。
具体的,得到数据处理模型后,将待处理用户数据输入数据处理模型,数据处理模型对其进行特征提取和映射处理,得到数据处理结果,该数据处理结果指示了相应指标的风险提示。例如,以预测糖尿病风险为例,待处理用户数据应包含与目标数据相同的用户特征,数据处理模型待处理用户数据进行预测后,得到糖尿病风险预测结果,具有糖尿病风险和不具有糖尿病风险。
本申请实施例提供的技术方案,通过对原始数据集进行特征筛选得到目标数据集,然后使用目标数据集对级联模型进行训练得到数据处理模型,最后使用数据处理模型对待处理用户数据进行处理,得到数据处理结果,使得进行模型训练的目标数据集与模型预测结果具有较大的相关性,从而提高了数据处理模型的预测准确性。例如,将数据处理模型用于孕妇糖尿病风险预测,能精准评估GDM风险,进而可以制定精准的预防方案,给医生在孕妇糖尿病相关病症的诊断提供参考和预警,达到保障产妇和胎儿安全的目的。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的数据处理方法。图6示意性地示出了本申请实施例提供的数据处理装置的结构框图。如图6所示,本申请实施例提供的数据处理装置包括:
原始数据获取模块610,用于获取由多个原始数据构成的原始数据集,每个所述原始数据包括多个用户特征;
特征筛选模块620,用于对所述原始数据集进行特征筛选处理,得到目标数据集,所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量;
模型训练模块630,用于构建级联模型,基于所述目标数据集对所述级联模型进行训练,得到数据处理模型;所述级联模型包括第一模型和第二模型,所述第一模型的输出数据为所述第二模型的输入数据;
数据处理模块640,用于通过所述数据处理模型对待分析数据进行特征提取和映射处理,得到数据处理结果。
在本申请的一个实施例中,原始数据获取模块610包括:
预处理单元,用于获取多个原始数据,并对所述多个原始数据进行预处理,以使所有的原始数据具备相同类型的用户特征;
标准化单元,用于对预处理后的多个原始数据进行标准化处理;
原始数据生成单元,用于根据标准化处理后的多个原始数据形成原始数据集。
在本申请的一个实施例中,所述预处理单元包括:
去重单元,用于去除所述多个原始数据中的重复数据;
特征缺失比例确定单元,用于基于去重后多个原始数据,确定每个用户特征所对应的特征缺失比例;
特征填充单元,用于根据所述特征缺失比例确定特征填充方法,并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
在本申请的一个实施例中,所述特征填充单元具体用于:
当所述特征缺失比例小于第一阈值时,确定所述特征填充方法为第一填充方法;
当所述特征缺失比例大于第一阈值且小于第二阈值时,确定所述特征填充方法为第二填充方法;
当所述特征缺失比例大于第二阈值时,确定所述特征填充方法为第三填充方法。
在本申请的一个实施例中,所述原始数据的用户特征包括离散用户特征和连续用户特征;所述标准化单元具体用于:
对预处理后的多个原始数据的离散用户特征进行编码处理,以及,对预处理后的多个原始数据的连续用户特征进行归一化处理。
在本申请的一个实施例中,特征筛选模块620包括:
热度值筛选单元,用于生成所述原始数据集中原始数据的每个用户特征与指定指标的热度图,并将所述热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除,得到第一数据集;所述第一数据集中的每个第一数据包括第一数量的用户特征;
遗传算法筛选单元,用于通过遗传算法对所述第一数据集进行特征筛选处理,得到第二数据集,所述第二数据集中的每个第二数据包括第二数量的用户特征,所述第二数量小于所述第一数量;
特征库筛选单元,用于根据预设特征库对所述第二数据集进行特征筛选处理,得到目标数据集;所述目标数据集中的目标数据所包含的用户特征数量为指定数量,且小于所述第二数量。
在本申请的一个实施例中,模型训练模块630包括:
数据划分单元,用于将所述目标数据集划分为训练样本集和测试样本集,其中,所述训练样本集的数据量大于所述测试样本集的数据量;
模型训练单元,用于基于所述训练样本集对所述级联模型进行训练,得到训练好的级联模型;其中,在训练过程中,通过网格搜索法进行所述级联模型的参数调优;
模型测试单元,用于基于所述测试样本集对所述训练好的级联模型进行测试,当测试结果指示的模型准确率达到预设阈值,得到数据处理模型。
本申请各实施例中提供的数据处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图7示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理器701(Central Processing Unit,CPU),其可以根据存储在只读存储器702(Read-Only Memory,ROM)中的程序或者从存储部分708加载到随机访问存储器703(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器703中,还存储有系统操作所需的各种程序和数据。中央处理器701、在只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705(Input/Output接口,即I/O接口)也连接至总线704。
以下部件连接至输入/输出接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者处理用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质处理,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的用户特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的用户特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取由多个原始数据构成的原始数据集,每个所述原始数据包括多个用户特征;
对所述原始数据集进行特征筛选处理,得到目标数据集,所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量;
构建级联模型,基于所述目标数据集对所述级联模型进行训练,得到数据处理模型;所述级联模型包括第一模型和第二模型,所述第一模型的输出数据为所述第二模型的输入数据;
通过所述数据处理模型对待处理用户数据进行特征提取和映射处理,得到数据处理结果,所述数据处理结果用于进行风险提示。
2.根据权利要求1所述的数据处理方法,其特征在于,获取由多个原始数据构成的原始数据集,包括:
获取多个原始数据,并对所述多个原始数据进行预处理,以使所有的原始数据具备相同类型的用户特征;
对预处理后的多个原始数据进行标准化处理;
根据标准化处理后的多个原始数据形成原始数据集。
3.根据权利要求2所述的数据处理方法,其特征在于,对所述多个原始数据进行预处理,包括:
去除所述多个原始数据中的重复数据;
基于去重后多个原始数据,确定每个用户特征所对应的特征缺失比例;
根据所述特征缺失比例确定特征填充方法,并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
4.根据权利要求3所述的数据处理方法,其特征在于,根据所述特征缺失比例确定特征填充方法,包括:
当所述特征缺失比例小于第一阈值时,确定所述特征填充方法为第一填充方法;
当所述特征缺失比例大于第一阈值且小于第二阈值时,确定所述特征填充方法为第二填充方法;
当所述特征缺失比例大于第二阈值时,确定所述特征填充方法为第三填充方法。
5.根据权利要求2所述的数据处理方法,其特征在于,所述原始数据的用户特征包括离散用户特征和连续用户特征;对预处理后的多个原始数据进行标准化处理,包括:
对预处理后的多个原始数据的离散用户特征进行编码处理,以及,对预处理后的多个原始数据的连续用户特征进行归一化处理。
6.根据权利要求1所述的数据处理方法,其特征在于,对所述原始数据集进行特征筛选处理,得到目标数据集,包括:
生成所述原始数据集中原始数据的每个用户特征与指定指标的热度图,并将所述热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除,得到第一数据集;所述第一数据集中的每个第一数据包括第一数量的用户特征;
通过遗传算法对所述第一数据集进行特征筛选处理,得到第二数据集,所述第二数据集中的每个第二数据包括第二数量的用户特征,所述第二数量小于所述第一数量;
根据预设特征库对所述第二数据集进行特征筛选处理,得到目标数据集;所述目标数据集中的目标数据所包含的用户特征数量为指定数量,且小于所述第二数量。
7.根据权利要求1所述的数据处理方法,其特征在于,基于所述目标数据集对所述级联模型进行训练,得到数据处理模型,包括:
将所述目标数据集划分为训练样本集和测试样本集,其中,所述训练样本集的数据量大于所述测试样本集的数据量;
基于所述训练样本集对所述级联模型进行训练,得到训练好的级联模型;其中,在训练过程中,通过网格搜索法进行所述级联模型的参数调优;
基于所述测试样本集对所述训练好的级联模型进行测试,当测试结果指示的模型准确率达到预设阈值,得到数据处理模型。
8.一种数据处理装置,其特征在于,包括:
原始数据获取模块,用于获取由多个原始数据构成的原始数据集,每个所述原始数据包括多个用户特征;
特征筛选模块,用于对所述原始数据集进行特征筛选处理,得到目标数据集,所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量;
模型训练模块,用于构建级联模型,基于所述目标数据集对所述级联模型进行训练,得到数据处理模型;所述级联模型包括第一模型和第二模型,所述第一模型的输出数据为所述第二模型的输入数据;
数据处理模块,用于通过所述数据处理模型对待分析数据进行特征提取和映射处理,得到数据处理结果。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器执行所述可执行指令以使所述电子设备执行权利要求1至7中任意一项所述的数据处理方法。
CN202111281731.4A 2021-11-01 2021-11-01 数据处理方法、装置、可读介质及电子设备 Pending CN113990507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111281731.4A CN113990507A (zh) 2021-11-01 2021-11-01 数据处理方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111281731.4A CN113990507A (zh) 2021-11-01 2021-11-01 数据处理方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN113990507A true CN113990507A (zh) 2022-01-28

Family

ID=79745258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111281731.4A Pending CN113990507A (zh) 2021-11-01 2021-11-01 数据处理方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN113990507A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115144780A (zh) * 2022-06-16 2022-10-04 中国第一汽车股份有限公司 电池的健康检测方法及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115144780A (zh) * 2022-06-16 2022-10-04 中国第一汽车股份有限公司 电池的健康检测方法及存储介质

Similar Documents

Publication Publication Date Title
US7917377B2 (en) Patient data mining for automated compliance
CN110211690A (zh) 疾病风险预测方法、装置、计算机设备及计算机存储介质
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
US10430716B2 (en) Data driven featurization and modeling
CN113487614B (zh) 胎儿超声标准切面图像识别网络模型的训练方法和装置
CN111798988A (zh) 风险区域预测方法、装置、电子设备及计算机可读介质
CN110766481A (zh) 客户数据处理方法、装置、电子设备及计算机可读介质
CN111581969B (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
CN116580849A (zh) 医疗数据的采集分析系统及其方法
Idri et al. ISO/IEC 25010 based evaluation of free mobile personal health records for pregnancy monitoring
CN116189866A (zh) 一种基于数据分析的远程医用护理分析系统
EP4199002A1 (en) A computer implemented method and a system
CN113990507A (zh) 数据处理方法、装置、可读介质及电子设备
CN113012774A (zh) 病案自动编码方法、装置、电子设备及存储介质
CN113052205B (zh) 基于机器学习的产妇数据分类方法、装置、设备及介质
CN113220895A (zh) 基于强化学习的信息处理方法、装置、终端设备
Qiu et al. An online test for goodness-of-fit in logistic regression model
CN114693461A (zh) 基于机器学习的城市普惠保险的风险影响因子获取方法
CN116994751A (zh) 一种孕早期子痫前期风险预测模型的构建方法及装置
CN116483817A (zh) 一种数据填补模型选择、健康评测方法及装置
CN111383766A (zh) 计算机数据处理方法、装置、介质及电子设备
CN116631622A (zh) 一种基于ai的孕妇特征相关的胎儿体重预测方法和系统
CN116206764A (zh) 风险分级方法、装置、电子设备及存储介质
CN115526882A (zh) 一种医学图像的分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination