CN114171206A - 模型训练、传感病预测方法、装置、设备及存储介质 - Google Patents

模型训练、传感病预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114171206A
CN114171206A CN202111273548.XA CN202111273548A CN114171206A CN 114171206 A CN114171206 A CN 114171206A CN 202111273548 A CN202111273548 A CN 202111273548A CN 114171206 A CN114171206 A CN 114171206A
Authority
CN
China
Prior art keywords
sample
sample set
model
target
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111273548.XA
Other languages
English (en)
Inventor
陈高祥
马如明
黄章良
徐昊天
贾广猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tiansu Automation Control System Co ltd
Original Assignee
Nanjing Tiansu Automation Control System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tiansu Automation Control System Co ltd filed Critical Nanjing Tiansu Automation Control System Co ltd
Priority to CN202111273548.XA priority Critical patent/CN114171206A/zh
Publication of CN114171206A publication Critical patent/CN114171206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

本发明实施例提供了一种模型训练、传感病预测方法、装置、设备及存储介质,其中,模型训练方法,包括:采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;对初步样本集中的特征通过特征工程进行处理,得到目标样本集;若目标样本集中样本的数量小于第一预设数量,将目标样本集输入到树模型中进行训练,得到训练后的树模型;若目标样本集中样本的数量大于第二预设数量,将目标样本集中的样本转换为矩阵向量,并将矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;本发明实施例提供的技术方案,可以提高样本集的利用率,可以提高模型的适应性,可以提高预测的准确率。

Description

模型训练、传感病预测方法、装置、设备及存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种模型训练、传染病预测方法、装置、设备及存储介质。
背景技术
目前,传染病预测(疫情预测)方法主要包括时间序列方法(如差分整合移动平均自回归和SEIR方法)、灰色预测模型等,此类模型对数据精确度的要求很高,且主要以时间序列为主,并对事件本身做了线性近似,因此,比较理想化,实际中的预测效果不佳。
后续发展的基于机器方法大多可以预测单一的疾病,并且对样本集的利用率较低,也容易导致预测不准确的情况。
发明内容
本发明实施例提供了一种模型训练、传染病预测方法、装置、设备及存储介质,可以提高样本集的利用率,可以提高模型的适应性,可以提高预测的准确率。
第一方面,本发明实施例提供了一种模型训练方法,包括:
采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
第二方面,本发明实施例还提供了一种传染病预测方法,包括:
将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
第三方面,本发明实施例提供了一种模型训练装置,包括:
构建模块,用于采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
特征工程模块,用于对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
第一训练模块,用于若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
第二训练模块,用于若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
第四方面,本发明实施例提供了一种传染病预测装置,包括:
特征工程模块,用于将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
第一预测模块,用于若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
第二预测模块,用于若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
第五方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的方法。
本发明实施例提供的技术方案,通过采集样本信息,并提取特征构建初步样本集,并对初步样本集中的特征通过特征工程进行处理,得到目标样本集,可以得到合理的训练样本集,可以提高训练速度,可以提高样本集的利用率,可以对模型进行精确训练;若目标样本集中样本的数量小于第一预设数量,采用目标样本集对树模型进行训练,若目标样本集中样本的数量大于第二预设数量,采用目标样本集对神经网络模型进行训练,可以使模型预测更加准确,通过将待检测样本经过特征工程处理,得到目标待检测样本,并将该目标待检测样本输入到训练后的树模型或者神经网络模型中,得到预测结果,可以提高计算效率,可以提高预测精度。
附图说明
图1a是本发明实施例提供的一种模型训练方法流程图;
图1b通过GBDT模型特征重构示意图;
图1c是格拉米角场转化示意图;
图1d是DenseNet模型结构示意图;
图2是本发明实施例提供的一种模型训练方法流程图;
图3是本发明实施例提供的一种传染病预测方法流程图;
图4是本发明实施例提供的一种传染病预测方法流程图;
图5a是本发明实施例提供的一种传染病预测方法流程图;
图5b是本发明实施例提供的一种传染病预测方法流程图;
图6是本发明实施例提供的一种模型训练装置结构示意图;
图7是本发明实施例提供的一种模型训练装置结构示意图;
图8是本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1a是本发明实施例提供的一种模型训练方法流程图,所述方法可以由模型训练装置来执行,所述装置可以由软件和/或硬件来实现,所述装置可以配置在计算机等电子设备中,所述方法可以应用于对传染病进行预测的场景中,如图1a所示,本发明实施例提供的技术方案包括:
S110:采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签。
在本发明实施例中,样本数据的采集是准确建立传染病模型的第一步。传染病的诱发和传播机理是一个极其复杂的过程,受哪些因素影响,每种因素如何产生作用,各种因素之间相互关系如何等,都可能是诱发传染病和传播的关键诱因。其中,这些因素可能是内在因素,比如个人免疫系统的差异;也可能是外在因素,比如近距离接触传染源,还可能是内在因素和外在因素综合影响。因此,要建立准确可靠的传染病模型,需要尽可能采集广泛而全面的数据,同时数据应包含尽量多的特征维度,避免丢失潜在的关键信息。
在本发明实施例中,可以从医疗机构内部各系统,其中,包括电子病例(Electronic Medical Record,EMR)系统、医院信息系统(Hospital Information System,HIS)、精益生产信息系统(Laboratory Information Management System,LIS)、PAC),医疗机构以外系统,(包括科研机构、科学数据库、公安系统、官方媒体、互联网等),以及个人信息(包括遗传病史、个人病史、生活习惯、健康状况、生活环境、出行信息等)等方面,全面搜集各类原始数据,从而进一步采集人员个体的样本信息,其中,样本信息包含上述从各个系统收集的数据,通过从各个系统中采集数据,可以具有较大的数据量。可选的,以独立的人员个体作为一个样本,并从人员基本信息、疾病史、出行信息、临床症状、生物医学检测信息、免疫信息、临床信息、微生物信息等维度抽取超过300个基本特征,对样本进行概念建模,使特征多样化,避免了特征单一的问题。其中,表1展示了样本的部分特征。
表1
Figure BDA0003329499070000041
Figure BDA0003329499070000051
Figure BDA0003329499070000061
Figure BDA0003329499070000071
在本发明实施例中,提取人员个体的样本信息中提取特征之后,还需要指定样本标签,考虑到传染病种类的多样性及潜在未知传染病,可以将传染病标签分为三大类:第一类为“得病已知”,即所得传染病为已知传染病,并将具体的病名作为实际标签:第二类为“得病未知”,即所得传染病为未知疾病,并将所有此类样本的标签都统一为“得病未知”;第三类为“未得病”,并将所有此类样本的标签都统一为“未得病”。如果已经传染病的种类总共有M种,则样本标签的类别总共有M+2类,表2展示了一个完整的初步样本集:
表2
Figure BDA0003329499070000081
S120:对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集。
在本发明实施例中的一个实施方式中,可选的,所述对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集,包括:将所述初步样本集中缺失的特征值进行处理,得到第一中间样本集;将所述第一中间样本集中的特征值进行归一化和标准化处理,得到第二中间样本集;在所述第二中间样本集中,在样本的特征中通过方差法和互信息法选择特征,并在选择出的特征中通过相关系数法筛选特征,形成目标样本集。
在本发明实施例的一个实施方式中,可选的,所述将所述初步样本集中缺失的特征值进行处理,包括:在所述初步样本集中,若目标特征的特征值缺失率达到预设阈值,将所述目标特征在所述初步样本集中进行删除;在所述初步样本集中,若目标特征的特征值缺失率没有达到所述预设阈值,基于相关系数法确定所述目标特征的特征值。其中,预设阈值可以是20%。具体的,在初步样本集中,如果对于某个特征的特征值缺失率达到20%,则将该特征从初步样本集中进行删除,如果某个特征的特征值缺失率小于20%,通过相关系数法计算该特征的缺失值。
在本发明实施例的一个实施方式中,可选的,所述基于相关系数法确定所述目标特征的特征值,包括:从初步样本集中,筛选出当前特征的特征值未缺失的样本,并形成第一子样本集;将所述当前特征在所述第一子样本集中进行删除,形成第二子样本集;确定当前特征的特征值的未缺失样本与所述第二子样本集中每个样本的相关系数;确定相关系数超过预设系数阈值的样本,并作为目标样本;在所述第一子样本集中查找所述目标样本的当前特征的特征值;如果查找到的特征值为连续值,则将平均值作为所述目标样本的当前特征的特征值;如果查找到的特征值为离散值,则取数量最多的特征值作为所述目标样本的当前特征的特征值。
具体的,假设初步样本集,即总样本集为D,样本总数为N,所有特征集合为F=(F1,F2,…,Fk,…,FK),其中K为特征总类别数量,第k个特征
Figure BDA0003329499070000091
其中sk表示特征取值总数,C=(c1,c2,…,ch)表示传感病类别集合(即传感病标签有h种)。
设当前特征为第k个特征Fk,从D中将特征Fk未缺失的样本抽出,形成第一子样本集D0,样本数为N0。将D0中所有样本的特征Fk删除,形成第二子样本集D1,然后分别计算目标样本(任意一个特征Fk缺失的样本)与D1中每个样本的相关系数,记录相关系数超过70%(视实际情况而定)的样本,然后从D0中找出这些样本特征Fk的值f?,k;如果特征是连续值,则取平均值作为目标样本的当前特征Fk的值,如果是离散值,则取数量最多的值作为目标样本的当前特征Fk的值。
需要说明的是,当第二子样本集D1很大时,分别计算相关系数比较耗时,可通过设置比例或阈值的方式中止计算。比如,当满足条件的样本出现3次(可根据实际情况调整)可以停止计算,或者可以通过降低相关系数阈值(即预设系数阈值)提前得到目标样本,从而结束计算。可选的,当计算第k个特征时,其他特征也可能还存在缺失值,针对这种情况,如果缺失值超过30%则直接删除对应特征,否则用对应特征的众数、中位数、平均值替代。
需要说明的是,在确定缺失值情况下,不要求两个样本的相关系数很高,比如在极端情况下,相关系数为1,即两个样本完全相同,则意味着这个样本不会给样本集带来额外的有效信息。因此,在缺失值处理时可以不要求十分精准。
在本发明实施例中,为了消除不同特征之间存在量纲差异的影响,需要做归一化处理,尤其是以神经网络模型为核心的方法中,避免了大数值特征压制小数值特征的现象,可以促进模型快速收敛,还能使不同特征之间的比较变得有意义。可选的,可以基于如下的公式进行归一化处理:
Figure BDA0003329499070000101
其中,x是当前样本的某个特征的真实值,x'是当前样本的该特征归一化后的值,min(x)和max(x)分别是所有样本该特征的最小值和最大值;其中,实际中往往最大值和最小值这两个值会随着样本集的变化而出现波动,针对该情况,可以设置一个不容重现的最大值和最小值,将可能出现的实际值都包含在内。比如对于特征“年龄”,可以令min(x)=0,max(x)=100。
需要说明的是,在归一化处理过程中,若样本的特征的特征值不为数值的形式,可以将特征值转换成数值的形式。
在本发明实施例中,标准化处理可以根据实际情况来判断是否执行,其中,对于小规模样本集(样本的数量小于第一预设数量),利用树模型(例如,XGboost模型)进行分类和预测,对于大规模样本集(样本的数量大于第二预设数量),可以采用神经网络模型(例如,深度学习模型)。其中,采用树模型时,可以无需将样本进行标准化处理,采用神经网络模型时需要进行标准化处理,可以基于如下公式进行标准化处理:
Figure BDA0003329499070000102
其中,x是当前样本某特征的真实值,x*是当前样本该特征标准化后的值,μ和σ分别是所有样本该特征的均值和标准差。
在本发明实施例的一个实施方式中,可选的,所述在样本的特征中通过方差法和互信息法选择特征,并在选择出的特征中通过相关系数法筛选特征,包括:确定样本的各个特征的方差;确定各个特征与传染病类别集合之间的相互信息值,筛选出相互信息值大于预设信息阈值,且方差均大于预设方差阈值的特征;在筛选出的特征中,通过皮尔逊相关系数法进行再次特征筛选。
在本发明实施例中,考虑到在构建初步样本集时,选择特征具有随机性,并不能保证每个特征对最终的预测有实际作用,这类特征会增加计算负担,需要将该类特征进行删除。例如,对于性别这个特征,如果所有的样本该特征都是“男”,则该特征对提高模型性能没有实际作用。为了筛选出合适的特征,可以通过方差法、互信息法以及相关系数法进行筛选特征。其中,可以采用方差法进行初步判断,即计算各个特征的方差,并将所有特征按照方差进行排序,将小于预设方差阈值的特征删除,预设方差阈值可以根据实际情况而定,例如预设方差阈值可以是0.3。
在本发明实施例中,虽然方差法可以筛选掉部分不相关特征,但没有考虑特征与传染病类别之间的关系,直接将低方差的特征删除可能会丢失有效信息,为了避免这种情况发生,在删除特征之前,可以通过互信息法计算每个特征与传感病类别集合之间的相互信息值进行再次特征筛选。可选的,可以基于如下公式进行计算相互信息值:
Figure BDA0003329499070000111
其中,,Fk表示第k个特征的特征集合,C表示传感病类别集合,I(Fk,C)表示第k个特征与类别集之间的相互信息值,p(fi,k,cj)是特征值fi,k和传感病类别值cj同时出现的概率;p(fi,k)是特征值fi,k出现的概率,p(cj)是类别值cj出现的概率;其中,p(fi,k,cj),p(fi,k)和p(cj)这三者可以由样本集统计计算近似得到。在得到了各个特征的方差及其与传染病类别的相互信息值后,可以筛选出相互信息值大于预设信息阈值,且方差均大于预设方差阈值的特征,即尽量选择相互信息值和方差都较大的特征作为最终特征集,从而形成目标样本集。
在本发明实施例中,通过方差法和互信息法进行特征选择之后,还需要进一步处理,因为这两种方法分别只考虑了特征本身的特性以及特征和传染病类别之间的相关性,没有考虑不同特征之间的相关性以及不同特征与传感病类别的关系,可能存在特征冗余。针对上述情况,可以采用皮尔逊(Pearson)相关系数法计算两个变量之间的关系,即:
Figure BDA0003329499070000112
其中,X和Y表示两个不同的变量,在本发明实施例中可以表示样本的不同特征或传染病标签,即所有样本在某个特征上的数值向量或标签向量。由于相关系数是标准化后的协方差,消除了两个变量变化幅度的影响,可以仅仅反应两个变量每单位变化时的相似程度。可选的,可以将相关系数大于预设相关系数(例如,0.6)的两个特征定义为强相关特征。在两个强相关特征中,可以保留与标签向量相关系数较大的特征,将另外一个特征进行删除。
由此,通过上述方法进行特征处理以及特征选择,可以得到相对比较完善的样本集,可以作为目标样本集,但是目标样本集还不能直接用于分类预测训练,原因是样本集规模和样本不均衡问题可能会导致模型性能欠佳。对于常见传染病,比如是猩红热、水痘、腮腺炎、流行性脑炎、风疹、麻疹等,此类传染病已经有足够多的样本数据,满足大规模和样本均衡要求,可以采用基于神经网络的模型进行分类预测,因此,可以将这类传染病样本数据组合成的目标样本集,即大规模样本集(样本的数量大于第二预设数量),用于神经网络模型训练。
在本发明实施例中,对于新型传染病,比如COVID-19,当目标样本集中缺乏足够多的有效样本时,难以使用神经网络模型相关的方法,在本发明实施例中,使用树模型方法进行训练,此类样本形成的目标样本集为小规模样本集(样本的数量小于第一预设数量,其中,第一预设数量小于第二预设数量)。随着时间的推移,小规模样本集逐渐变大,当达到足够大的规模时可加入大规模样本集,并用于神经网络模型的训练。
S130:若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型。
在本发明实施例中,可以根据目标样本集中的样本数量的不同,选择不同的模型进行训练。针对样本的数量小于第一预设数量的目标样本集(即,小规模样本集),可以采用树模型,可选的,树模型可以是boosting类模型,可选的,树模型可以是XGboost模型。
在本发明实施例中,可以将传染病类型甲(2种)、乙(26种)、丙(11种)三类,加上COVID-19共40种传染病,每种传染病分别无放回地从目标样本集中抽取1000个样本,共计40000条样本数据,每个样本特征共计300个。
在本发明实施例中,XGBoost模型是基于梯度提升决策树(Gradient BoostingDecision Tree,GBDT)改进而来的boosting迭代型树类模型,高效地实现了GBDT算法,并进行了算法和工程上的许多改进,在速度和效率上效果显著,既可以用于分类,也可以用于回归。XGBoost模型是一种基于boosting集成思想的加法模型,训练时采用前向分步算法进行贪婪式学习,即每次迭代都学习分类与回归树(Classification And Regression Tree,CART)来拟合前面所有棵树的综合预测结果与样本真实值之间的残差。具体计算过程如下:
其中,损失函数采用均方误差损失函数;
设初始强分类器f0(xi)=0,xi表示一个样本;
对于第m棵cart树,针对每一个样本xi计算其在当前轮损失函数对fm-1(xi)的一阶导数gm,i和二阶导数hm,i,并计算所有样本的一阶导数和G、二阶导数和H:
Figure BDA0003329499070000121
遍历所有分裂特征和每个特征的所有取值,并计算当前节点内样本被放入左右子树后,左子树的一、二阶导数和GL、HL,右子树的一、二阶导数和GR、HR
Figure BDA0003329499070000131
根据上述结果更新最大分数:
Figure BDA0003329499070000132
判断score是否大于score的阈值,如果不是,则不对当前节点继续做分裂,则当前节点就是叶子节点了,根据
Figure BDA0003329499070000133
计算当前节点的输出值,其中,λ为叶子节点控制系数;如果是,则根据最优划分特征k_best和特征值k_best_value将当前节点划分成左右子树两部分,然后继续循环对这两个子树进行判断,是否可以继续分裂。
当前cart树学习结束后,根据如下公式更新一次强分类器:
Figure BDA0003329499070000134
当所有cart树都生成后,根据如下公式计算新样本的输出值;
Figure BDA0003329499070000135
其中,M表示当前模型中cart树的总棵树,J表示某棵树中叶子节点的个数,wm,j表示某个叶子节点的输出值,I(x∈Rm,j)是指示函数。
其中,XGBoost模型可以是二分类模型,在本发明实施例中,多种传染病的预测,属于多分类问题,可以采用“1对1”方式应对。即先将目标样本集按传染病类别分为K组子样本集(每个子集只有1个传染病类别),然后将这些子样本集两两组合,共形成
Figure BDA0003329499070000136
个子样本集(每个子集只含有2个传染病类别),并在此基础上训练得到
Figure BDA0003329499070000137
个二分类器。由此,任何一个类别都会被用K-1次,即任何一个类别都会出现在K-1个二分器中。若存在待分类的样本,将该样本用这
Figure BDA0003329499070000138
个二分器进行判断,每个分类器都会给出1结果,总共有
Figure BDA0003329499070000139
个结果,但这些结果中很多是相同的,只要找出最多的那一类,就是该样本的类别。
在本发明实施例中,XGBoost模型的主要参数包括学习率、单棵树最大深度、节点分裂阈值、特征采样率、正则化系数等,可并行计算,可参考表3。
表3
Figure BDA0003329499070000141
S140:若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
在本发明实施例中,XGBoost模型更适合特征与传染病标签之间有强相关关系的样本分类和预测,具备一定的特征选择功能,但无法深刻挖掘特征与特征、特征与传染病标签之间的深层隐含关系。XGBoost模型更适合常规传染病的预测分类,对于COVID-19这种新型传染病则表现不佳。为了准确捕捉新型传染病潜在特征,同时也为了进一步挖掘常规传染病可能的内在规律,可以采用神经网络模型对大规模样本集(样本的数量大于第二预设数量)和未知传染病进行分类预测。
在本发明实施例的一个实施方式中,可选的,所述目标样本集中的样本转换为矩阵向量,包括:将目标样本集中的样本通过梯度提升决策树GBTD模型转换为一维向量;基于格拉米角场将所述一维向量转换为二维矩阵向量。
其中,在目标样本集输入模型训练之前,通过GBDT模型对样本特征选择重组,一方面是为了初步提取关键核心特征,另一方面是为了得到多次交叉特征,最终降低模型复杂度,提高分类准确性。具体过程如下:
可以采用大规模样本集训练完整的GBDT模型,训练时可以利用前面训练XGBoost模型时的参数。再利用训练好的GBDT模型将目标样本集中的所有样本转化为由0和1组成的向量,即完成了特征的筛选、重组和多重交叉操作。
可选的,如图1b所示,若训练后的GBDT模型由50棵树组成,总叶子节点数为500。现在将样本1通过这50棵树进行分类,结果分别落在“五角星”标注的叶子节点中。现在为样本1生成一个长度与叶子节点总数相同的0向量,并将样本1落入的叶子节点对应的位置为1,最后得到了一个长度为512的向量[0,0,1,0,0,0,1,0,0,0,0,0,0,1,……],该向量即是样本1通过GBDT模型转换的另一种表达式。由此,所有样本都将由原来的形式转换为0-1向量形式,可以使所有特征都在相同的数值水平,有利于做比较和同数量级的运算,避免了可能出现的大数吃小数问题,同时将类别型特征转换成了数值特征,满足神经网络相关方法的基本要求,还涉及到一定程度的多重交叉,有效揭示了隐含信息。
在本发明实施例中,经过GBDT模型处理的样本依然是一维向量,虽然可以直接利用一维卷积核进行处理,但交叉作用相比二维卷积仍然有差距。因此,需要进一步将一维向量转换成二维矩阵向量,可以既增加了显化隐含模式的可能性,又可以更加方便利用成熟的二维卷积方法。其中,基于格拉米角场转化为二维矩阵向量的具体方法如下:
首先,可以将一维向量的数据转换到极坐标系,即将数值看作夹角余弦值,将数值在向量中的序号看作半径,公式如下:
Figure BDA0003329499070000151
其中,x"i是一维向量中的第i个值,N表示向量长度,转换后0≤φi≤π/2。进一步计算二维矩阵向量横坐标值gasf和二维矩阵向量纵坐标值gadf,将结果转化到直角坐标系下,具体可以参考如下公式进行转换:
Figure BDA0003329499070000152
对于长度为N的一维向量,转换后变成N×N的二维矩阵向量,当N太大时,为了提高效率,可以采用分段聚合近似(piecewise aggregate approximation,PAA,先将序列分段,然后通过平均将每个段内的子序列压缩为一个数值)先将向量的序列长度减小再转换。根据该方法,上述经过GBDT模型处理的样本1的一维向量可以表示成如图1c所示的500×500的二维矩阵向量,可以将其作为神经网络模型的输入,从而完成对神经网络模型的训练。
在本发明实施例中,可选的,神经网络模型可以是DenseNet模型,基本思想是建立前面所有层与当前层的直接密集连接,并通过在“通道”层面的拼接来实现特征重用。该网络结构相比其他网络结构具有缓解了梯度消失、加强特征传播、增强特征复用和减少了参数数量等特点。
在本发明实施例中,DenseNet模型可以是DenseNet-154模型,模型参数可以参考表4中的参数,模型结构可以参考图1d所示的模型结构。可选的,模型的主网络结构包括1个输入卷积层、5个密集层(密集连接层)、4个过渡层和1个全连接层。总网络层数(不包括池化层)为:1(输入卷积层)+(6+12+24+16+16)×2(密集层)+4(过渡层)+1(全连接层)=154层。其中,密集层内部最小卷积单元由1个1×1和1个3×3的卷积核组成,在执行卷积操作前对输入数据分别做批标准化(Batch Normalization,BN)处理和线性整流(Rectified LinearUnit,ReLU)处理,即一个完整最小卷积单元形结构包括:BN+RuLu+1×1conv+BN+RuLu+3×3conv。其中,一个过渡层包括1×1的卷积层和2×2的平均池化层,具体结构为:BN+ReLu+1×1conv+2×2平均池化层。其中,增长率k=32,即密集层内每一层的特征图增长数量为32。数据最后经过分类层(全连接层),该层由1200D的全连接神经网络组成,输出结果由softmax函数转化成40个类别的分类概率结果。
表4
Figure BDA0003329499070000161
Figure BDA0003329499070000171
通过对上述DenseNet模型训练,可以得到训练好的DenseNet模型,从而可以通过该训练好的模型进行预测。
本发明实施例提供的技术方案,通过采集样本信息,并提取特征构建初步样本集,并对初步样本集中的特征通过特征工程进行处理,得到目标样本集,可以得到合适的训练样本集,可以提高训练速度,可以对模型进行精确训练;若目标样本集中样本的数量小于第一预设数量,采用目标样本集对树模型进行训练,若目标样本集中样本的数量大于第二预设数量,采用目标样本集对神经网络模型进行训练,可以使模型预测更加准确。
图2是本发明实施例提供的一种模型训练方法流程图,在本发明实施例中,可选的,所述方法可以包括:
将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
若所述待检测样本对应所述树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
若所述待检测样本对应所述神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
如图2所示,本发明实施例提供的技术方案包括:
S210:采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签。
S220:对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集。
S230:若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型。
S240:若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
S250:将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本。
在本发明实施例中,待检测样本可以是一个或者多个样本,将待检测样本进行特征工程处理的具体方法可以参考上述实施例中对目标样本集中的样本进行特征工程处理的方法,两种情况下特征工程处理的方法相同。
S260:若所述待检测样本对应所述树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果。
在本发明实施例中,可以基于需要预测的传染病的类别判断待检测样本所对应的模型,如果需要对待检测样本预测是否得传感病A,且树模型可以预测传感病A,则可以判断待检测样本对应树模型,若待检测样本对应树模型,则将待检测样本经过特征工程处理得到的目标待检测样本输入到训练后的树模型中,得到传染病的预测结果,作为第一预测结果。
S270:若所述待检测样本对应所述神经网络模型中,将所述目标待检测样本转换为目标矩阵向量,将所述目标矩阵向量输入到训练后的神经网络模型中,得到传染病的第二预测结果。
在本发明实施例中,如果需要对待检测样本预测是否得传感病B,且神经网络模型可以预测传感病B,则可以判断待检测样本对应神经网络模型,通过训练后的神经网络模型可以进行预测,得到预测结果,作为第三预测结果。
由此,通过将待检测样本经过特征工程处理,得到目标待检测样本,并将该目标待检测样本输入到训练后的树模型或者神经网络模型中,得到预测结果,可以提高计算效率,可以提高预测精度。
图3是本发明实施例提供的一种传染病预测方法流程图,应用于本发明实施例提供的模型训练方法所训练的模型进行预测,所述传染病预测方法可以由传染病预测装置来执行,所述装置可以由软件和/或硬件来实现。
如图3所示,本发明实施例提供的技术方案包括:
S310:将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本。
在本发明实施例中,待检测样本可以是一个或者多个样本,将待检测样本进行特征工程处理的具体方法可以参考上述实施例中对目标样本集中的样本进行特征工程处理的方法,两种情况下特征工程处理的方法相同。
S320:若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果。
在本发明实施例中,可以基于需要预测的传染病的类别判断待检测样本所对应的模型,如果需要对待检测样本预测是否得传感病A,且树模型可以预测传感病A,则可以判断待检测样本对应树模型,若待检测样本对应树模型,则将待检测样本经过特征工程处理得到的目标待检测样本输入到训练后的树模型中,得到传染病的预测结果,作为第一预测结果。
S330:若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
在本发明实施例中,如果需要对待检测样本预测是否得传感病B,且神经网络模型可以预测传感病B,则可以判断待检测样本对应神经网络模型,通过训练后的神经网络模型可以进行预测,得到预测结果,作为第三预测结果。
本发明实施例提供的技术方案,通过将待检测样本经过特征工程处理,得到目标待检测样本,并将该目标待检测样本输入到训练后的树模型或者神经网络模型中,得到预测结果,可以提高计算效率,可以提高预测精度。
图4是本发明实施例提供的一种传染病预测方法流程图,在本实施例中,可选的,所述方法还可以包括:
将传染病的待检测样本输入到贝叶斯模型中,得到传感病的第三预测结果;
若所述第一预测结果和所述第三预测结果的差异值小于预设差异值,或者第二预测结果和所述第三预测结果的差异值小于所述预设差异值,则将所述第一预测结果或者所述第二预测结果作为最终的预测结果;
若所述差异值大于预设差异值,则进行干预策略。
如图4所示,本发明实施例提供的技术方案包括:
S410:将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
S420:若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
S430:若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
其中,S410-S430可以参考上述实施例的介绍。
S440:将传染病的待检测样本输入到贝叶斯模型中,得到传感病的第三预测结果。
在本发明实施例中,贝叶斯模型可以提前进行训练。可选的,贝叶斯模型可以是朴素贝叶斯模型。通过贝叶斯模型进行预测的方法可以具体如下:
首先,计算某种疾病在所有人群中的感染率假设结果为0.1%(这个数据可以由统计得出);再计算通过XGBoost模型或者DenseNet模型模型对于该疾病检测的准确率,假设结果为99%(即已知患病情况下,99%的可能性可以检查出阳性);则未得病的正常人有1%的可能性被诊断为阳性(因为受检测手段限制,患病的人可能结果显示没病,而健康的人被诊断为有病)。
设“患病=A事件”,“检测呈阳性=B事件”,那么经过XGBoost模型或者DenseNet模型预测得的疾病,其真正得病的概率为P(A|B),根据贝叶斯公式有:
Figure BDA0003329499070000201
其中,P(A)=0.1%,是计算得出的某人患某种传染病的概率;P(B|A)=99%,是计算得出的患病且被检测为阳性的概率;P(B)表示检测呈阳性的概率(包括两种情况:“患病,同时被检测为阳性”,以及“未患病,但被检测为阳性”),这个概率可以根据已知条件计算得出,根据全概率公式:
Figure BDA0003329499070000202
这里
Figure BDA0003329499070000203
表示不患病的概率,
Figure BDA0003329499070000204
表示正常人被检测为阳性的概率,代入公式可得:
P(B)=0.1%*99%+99.9%*1%=0.01098
将三个概率代入贝叶斯公式得:
Figure BDA0003329499070000205
由此,通过XGBoost模型或者DenseNet模型预测的某种疾病,其真实得病的概率为9.01%,这一结果对预测系统(包含XGBoost模型或者DenseNet模型)的输出做了进一步限制,提高了严谨性。随着数据量的不断增加,各概率越来越趋于真实值,最终的计算结果将越来越准确。
S450:若所述第一预测结果和所述第三预测结果的差异值小于预设差异值,或者第二预测结果和所述第三预测结果的差异值小于所述预设差异值,则将所述第一预测结果或者所述第二预测结果作为最终的预测结果。
在本发明实施例中,如果通过XGBoost模型或者DenseNet模型预测得到的结果与贝叶斯模型得到的预测结果之间的差异值小于预设差异值,则说明差异较小,则将通过XGBoost模型或者DenseNet模型预测得到的结果作为最终结果。
S460:若所述差异值大于预设差异值,则进行干预策略。
在本发明实施例中,如果通过XGBoost模型或者DenseNet模型预测得到的结果与贝叶斯模型得到的预测结果之间的差异值大于预设差异值,则表明差异较大,则进行干预策略。其中,干预策略可以根据实际情况进行选择,例如,可以进行人工进行干预。
由此,通过经过XGBoost模型和DenseNet模型预测传染病分类的结果存在一定的风险,为了降低这种风险,可以增加了朴素贝叶斯模型进行检测,即从逆概率的角度分析一人员个体被预测得某种传染病时的真正得病的概率,两者相结合可以提高综合正确率。
为了更清楚的表述本发明实施例提供的技术方案,如图5a所示,本发明实施例提供的方案可以包括如下步骤:
S510:采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签。
S520:对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集。
S530:若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型。
S540:若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
S550:将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本。
S560:若所述待检测样本对应所述树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果。
S570:若所述待检测样本对应所述神经网络模型中,将所述目标待检测样本转换为目标矩阵向量,将所述目标矩阵向量输入到训练后的神经网络模型中,得到传染病的第二预测结果。
S580:将传染病的待检测样本输入到贝叶斯模型中,得到传感病的第三预测结果。
S590:若所述第一预测结果和所述第三预测结果的差异值小于预设差异值,或者第二预测结果和所述第三预测结果的差异值小于所述预设差异值,则将所述第一预测结果或者所述第二预测结果作为最终的预测结果。
S591:若所述差异值大于预设差异值,则进行干预策略。
S510-S591步骤可以参考上述实施例中的介绍。其中,本发明实施例提供的方法还可以参考图5b所示的方法。
图6是本发明实施例提供的一种模型训练装置结构框图,如图6所示,所述装置包括:构建模块610、特征工程模块620、第一训练模块630和第二训练模块640。
其中,构建模块610,用于采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
特征工程模块620,用于对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
第一训练模块630,用于若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
第二训练模块640,用于若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
可选的,所述对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集,包括:
将所述初步样本集中缺失的特征值进行处理,得到第一中间样本集;
将所述第一中间样本集中的特征值进行归一化和标准化处理,得到第二中间样本集;
在所述第二中间样本集中,在样本的特征中通过方差法和互信息法选择特征,并在选择出的特征中通过相关系数法筛选特征,形成目标样本集。
可选的,所述将所述初步样本集中缺失的特征值进行处理,包括:
在所述初步样本集中,若目标特征的特征值缺失率达到预设阈值,将所述目标特征在所述初步样本集中进行删除;
在所述初步样本集中,若目标特征的特征值缺失率没有达到所述预设阈值,基于相关系数法确定所述目标特征的特征值。
可选的,所述基于相关系数法确定所述目标特征的特征值,包括:
从所述初步样本集中,筛选出当前特征的特征值未缺失的样本,并形成第一子样本集;
将所述当前特征在所述第一子样本集中进行删除,形成第二子样本集;
确定当前特征的特征值的未缺失样本与所述第二子样本集中每个样本的相关系数,确定相关系数超过预设系数阈值的样本,并作为目标样本;
在所述第一子样本集中查找所述目标样本的当前特征的特征值;
如果查找到的特征值为连续值,则将平均值作为所述目标样本的当前特征的特征值;
如果查找到的特征值为离散值,则取数量最多的特征值作为所述目标样本的当前特征的特征值。
可选的,所述在样本的特征中通过方差法和互信息法选择特征,并在选择出的特征中通过相关系数法筛选特征,包括:
确定样本的各个特征的方差;
确定各个特征与传染病类别集合之间的相互信息值,筛选出相互信息值大于预设信息阈值,且方差均大于预设方差阈值的特征;
在筛选出的特征中,通过皮尔逊相关系数法进行再次特征筛选。
可选的,所述目标样本集中的样本转换为矩阵向量,包括:
将所述目标样本集中的样本通过梯度提升决策树GBTD模型转换为一维向量;
基于格拉米角场将所述一维向量转换为二维矩阵向量。
可选的,特征工程模块,还用于将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
所述装置还包括:
第一预测模块,用于若所述待检测样本对应所述树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
第二预测模块,用于若所述待检测样本对应所述神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
可选的,所述树模型为XGboost模型,所述神经网络模型为DenseNet模型。
可选的,DenseNet模型包括:输入卷积层、密集层、过渡层和全连接层。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
图7是本发明实施例提供的一种传染病预测装置结构框图,如图7所示,所述装置包括:特征工程模块710、第一预测模块720和第二预测模块730。
其中,特征工程模块710,用于将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
第一预测模块720,用于若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
第二预测模块730,用于若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
可选的,所述装置还包括第三预测模块,用于:
将所述待检测样本输入到贝叶斯模型中,得到传感病的第三预测结果;
若所述第一预测结果和所述第三预测结果的差异值小于预设差异值,或者所述第二预测结果和所述第三预测结果的差异值小于所述预设差异值,则将所述第一预测结果或者所述第二预测结果作为最终的预测结果;
若所述差异值大于所述预设差异值,则进行干预策略。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
图8是本发明实施例提供的一种设备结构示意图,如图8所示,该设备包括:
一个或多个处理器810,图8中以一个处理器810为例;
存储器820;
所述设备还可以包括:输入装置830和输出装置840。
所述设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器820作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种模型训练方法对应的程序指令/模块(例如,附图6所示的构建模块610、特征工程模块620、第一训练模块630和第二训练模块640),或者本发明实施例中的一种传染病预测方法对应的程序指令/模块(例如,附图7所示的特征工程模块710、第一预测模块720和第二预测模块730)。处理器810通过运行存储在存储器820中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种模型训练方法,即:
采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
或者执行本发明实施例提供的一种传染病预测方法,即:
将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种模型训练方法:
采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
或者执行本发明实施例提供的一种传染病预测方法,即:
将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种模型训练方法,其特征在于,包括:
采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
2.根据权利要求1所述的方法,其特征在于,所述对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集,包括:
将所述初步样本集中缺失的特征值进行处理,得到第一中间样本集;
将所述第一中间样本集中的特征值进行归一化和标准化处理,得到第二中间样本集;
在所述第二中间样本集中,在样本的特征中通过方差法和互信息法选择特征,并在选择出的特征中通过相关系数法筛选特征,形成目标样本集。
3.根据权利要求2所述的方法,其特征在于,所述将所述初步样本集中缺失的特征值进行处理,包括:
在所述初步样本集中,若目标特征的特征值缺失率达到预设阈值,将所述目标特征在所述初步样本集中进行删除;
在所述初步样本集中,若目标特征的特征值缺失率没有达到所述预设阈值,基于相关系数法确定所述目标特征的特征值。
4.根据权利要求3所述的方法,其特征在于,所述基于相关系数法确定所述目标特征的特征值,包括:
从所述初步样本集中,筛选出当前特征的特征值未缺失的样本,并形成第一子样本集;
将所述当前特征在所述第一子样本集中进行删除,形成第二子样本集;
确定当前特征的特征值的未缺失样本与所述第二子样本集中每个样本的相关系数,确定相关系数超过预设系数阈值的样本,并作为目标样本;
在所述第一子样本集中查找所述目标样本的当前特征的特征值;
如果查找到的特征值为连续值,则将平均值作为所述目标样本的当前特征的特征值;
如果查找到的特征值为离散值,则取数量最多的特征值作为所述目标样本的当前特征的特征值。
5.根据权利要求2所述的方法,其特征在于,所述在样本的特征中通过方差法和互信息法选择特征,并在选择出的特征中通过相关系数法筛选特征,包括:
确定样本的各个特征的方差;
确定各个特征与传染病类别集合之间的相互信息值,筛选出相互信息值大于预设信息阈值,且方差均大于预设方差阈值的特征;
在筛选出的特征中,通过皮尔逊相关系数法进行再次特征筛选。
6.根据权利要求1所述的方法,其特征在于,所述目标样本集中的样本转换为矩阵向量,包括:
将所述目标样本集中的样本通过梯度提升决策树GBTD模型转换为一维向量;
基于格拉米角场将所述一维向量转换为二维矩阵向量。
7.根据权利要求1所述的方法,其特征在于,还包括:
将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
若所述待检测样本对应所述树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
若所述待检测样本对应所述神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述树模型为XGboost模型,所述神经网络模型为DenseNet模型。
9.根据权利要求8所述的方法,其特征在于,DenseNet模型包括:输入卷积层、密集层、过渡层和全连接层。
10.一种传染病预测方法,其特征在于,包括:
将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
11.根据权利要求10所述的方法,其特征在于,包括:
将所述待检测样本输入到贝叶斯模型中,得到传感病的第三预测结果;
若所述第一预测结果和所述第三预测结果的差异值小于预设差异值,或者所述第二预测结果和所述第三预测结果的差异值小于所述预设差异值,则将所述第一预测结果或者所述第二预测结果作为最终的预测结果;
若所述差异值大于所述预设差异值,则进行干预策略。
12.一种模型训练装置,其特征在于,包括:
构建模块,用于采集人员个体的样本信息,从人员个体的样本信息中提取特征,构建初步样本集;其中,所述初步样本集中的每个样本设置有传染病标签;
特征工程模块,用于对所述初步样本集中的特征通过特征工程进行处理,得到目标样本集;
第一训练模块,用于若所述目标样本集中样本的数量小于第一预设数量,将所述目标样本集输入到树模型中进行训练,得到训练后的树模型;
第二训练模块,用于若所述目标样本集中样本的数量大于第二预设数量,将所述目标样本集中的样本转换为矩阵向量,并将所述矩阵向量输入到神经网络模型中进行训练,得到训练后的神经网络模型;其中,所述第二预设数量大于所述第一预设数量。
13.一种传染病预测装置,其特征在于,包括:
特征工程模块,用于将传染病的待检测样本通过特征工程进行处理,得到目标待检测样本;
第一预测模块,用于若所述待检测样本对应树模型,将所述目标待检测样本输入到训练后的树模型中,得到传染病的第一预测结果;
第二预测模块,用于若所述待检测样本对应神经网络模型中,将所述目标待检测样本输入到训练后的神经网络模型中,得到传染病的第二预测结果。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11任一项所述的方法。
CN202111273548.XA 2021-10-29 2021-10-29 模型训练、传感病预测方法、装置、设备及存储介质 Pending CN114171206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111273548.XA CN114171206A (zh) 2021-10-29 2021-10-29 模型训练、传感病预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111273548.XA CN114171206A (zh) 2021-10-29 2021-10-29 模型训练、传感病预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114171206A true CN114171206A (zh) 2022-03-11

Family

ID=80477472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111273548.XA Pending CN114171206A (zh) 2021-10-29 2021-10-29 模型训练、传感病预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114171206A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116504395A (zh) * 2023-06-21 2023-07-28 广东省人民医院 一种基于人工智能的骨质疏松预测方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116504395A (zh) * 2023-06-21 2023-07-28 广东省人民医院 一种基于人工智能的骨质疏松预测方法、系统及存储介质
CN116504395B (zh) * 2023-06-21 2023-10-27 广东省人民医院 一种基于人工智能的骨质疏松预测方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
Kuzhippallil et al. Comparative analysis of machine learning techniques for indian liver disease patients
JP2019091443A (ja) オープンセット認識方法と装置及びコンピュータ可読記憶媒体
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
Huang et al. Multivariate time series early classification using multi-domain deep neural network
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN112434718B (zh) 基于深度图的新冠肺炎多模态特征提取融合方法及系统
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN116959725A (zh) 一种多模态数据融合的疾病风险预测方法
CN116822579A (zh) 基于对比学习的疾病分类icd自动编码方法和装置
CN110335160B (zh) 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统
CN115168669A (zh) 传染病筛查方法、装置、终端设备及介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN115408551A (zh) 一种医疗图文数据互检方法、装置、设备及可读存储介质
CN114171206A (zh) 模型训练、传感病预测方法、装置、设备及存储介质
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN114330482A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN113362920B (zh) 基于临床数据的特征选择方法及装置
CN111860441B (zh) 基于无偏深度迁移学习的视频目标识别方法
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination